CN114692779A - 一种训练行为预测模型的方法、装置、系统及存储介质 - Google Patents
一种训练行为预测模型的方法、装置、系统及存储介质 Download PDFInfo
- Publication number
- CN114692779A CN114692779A CN202210397776.6A CN202210397776A CN114692779A CN 114692779 A CN114692779 A CN 114692779A CN 202210397776 A CN202210397776 A CN 202210397776A CN 114692779 A CN114692779 A CN 114692779A
- Authority
- CN
- China
- Prior art keywords
- event
- data
- training data
- target
- behavior prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000006399 behavior Effects 0.000 claims abstract description 150
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000000593 degrading effect Effects 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims description 31
- 238000012552 review Methods 0.000 claims description 6
- 230000001186 cumulative effect Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000006731 degradation reaction Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000000926 separation method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000009825 accumulation Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 241000854350 Enicospilus group Species 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请一些实施例提供一种训练行为预测模型的方法、装置、系统及存储介质,该方法包括获取训练数据集,其中,所述训练数据集包括多组训练数据,每组训练数据至少包括:用于表征事件复杂程度的多个子特征,用于表征事件处理情况的多个子特征,用于表征目标对象特征的多个子特征以及转化标签,所述转化标签用于表征与一个事件对应的相邻两次求助行为的升级、降级或不变的情况;根据所述训练数据集中的数据对行为预测模型进行训练,得到目标行为预测模型,其中,所述目标行为预测模型能够对输入的目标事件的求助行为转化进行预测。本申请一些实施例可以训练出精准度较高的目标行为预测模型,准确预测目标对象的行为变化情况。
Description
技术领域
本申请涉及模型训练技术领域,具体而言,涉及一种训练行为预测模型的方法、装置、系统及存储介质。
背景技术
为了使得业务系统(例如,信访业务)中多个对象的行为信息保持稳定,需要对行为信息进行定期分析和维护。目前,业务系统中只能在对象较少的情况下,人工进行行为信息分析和预测,该方法不仅准确率较低而且效率也较低。相关技术也有公开使用训练好的预测模型来对行为进行预测,但是由于训练数据缺乏导致这些模型的预测效果较差。
因此,如何提供一种能够自动预测行为的模型成为亟需解决的技术问题。
发明内容
本申请一些实施例的目的在于提供一种训练行为预测模型的方法、装置、系统及存储介质,通过本申请的实施例的训练方法可以获取准确度较高的目标行为预测模型,进而对目标对象的行为进行精准预测,为相关技术人员提供可靠的预测数据。
第一方面,本申请一些实施例提供了一种训练行为预测模型的方法,包括:获取训练数据集,其中,所述训练数据集包括多组训练数据,每组训练数据至少包括:用于表征事件复杂程度的多个子特征,用于表征事件处理情况的多个子特征,用于表征目标对象特征的多个子特征以及转化标签,所述转化标签用于表征与一个事件对应的相邻两次求助行为的升级、降级或不变的情况;根据所述训练数据集中的数据对行为预测模型进行训练,得到目标行为预测模型,其中,所述目标行为预测模型能够对输入的目标事件的求助行为转化进行预测。
本申请一些实施例通过获取目标对象的求助行为的多种特征数据组成训练数据集,并对行为预测模型进行训练获取目标行为预测模型,该方法提升了训练模型的效率、精准度以及有效性。
在一些实施例,所述用于表征事件复杂程度的多个子特征,包括:积案数据、监管数据、事件位置数据、事件过程数据、关联特征数据以及集体事件量数据以及事件件数数据。
本申请一些实施例通过获取事件复杂程度的多个子特征,添加到训练数据集中,一方面提升了训练数据集的准确度,另一方面确保了训练数据集的数据量,为训练出精准有效的目标行为模型提供数据保障。
在一些实施例,所述用于表征事件处理情况的多个子特征,包括:事件满意度数据、事件结束数据、事件复查数据、事件复核数据、事件处理时间数据、事件累计时间数据、事件平均时长数据以及答复人变化数据。
本申请一些实施例通过获取事件处理情况的多个子特征,添加到训练数据集中,一方面提升了训练数据集的准确度,另一方面确保了训练数据集的数据量,为训练出精准有效的目标行为模型提供数据保障。
在一些实施例,所述用于表征目标对象特征的多个子特征,包括:目标对象年龄、目标对象职业和目标对象关联事件数据。
本申请一些实施例通过获取目标对象特征的多个子特征,添加到训练数据集中,一方面提升了训练数据集的准确度,另一方面确保了训练数据集的数据量,为训练出精准有效的目标行为模型提供数据保障。
在一些实施例,所述转化标签是根据所述每组训练数据对应的求助目的地及求助形式得到的。
本申请一些实施例通过相关专家根据训练数据确定每组数据对应的转化标签,作为待训练的行为预测模型的输出变量,使得训练数据的准确度较高,进而可以提升训练模型的准确度,降低后续模型应用时产生的误差。
在一些实施例,所述获取训练数据集,包括:获取与所述升级的情况对应的训练数据,得到正样本训练数据;获取与所述降级和所述不变的情况对应的训练数据,得到初始负样本训练数据;减少所述初始负样本训练数据的数据量,得到目标负样本训练数据;将所述正样本训练数据和所述目标负样本训练数据作为所述训练数据。
本申请一些实施例通过对正样本训练数据和负样本训练数据进行平衡,确保训练模型的精准度,有效避免了正负样本训练数据的不均衡导致训练得到的模型误差较大。
在一些实施例,所述减少所述初始负样本训练数据的数据量,得到目标负样本训练数据,包括:对所述初始负样本训练数据进行抽样,得到所述目标负样本训练数据。
本申请一些实施例通过抽样的方法,有效解决了正负样本训练数据的数据量的平衡问题,提升训练数据的精准度。
第二方面,本申请一些实施例提供了一种行为预测方法,包括:获取被测对象的事件数据信息,其中,所述事件数据信息包括:事件复杂程度、事件处理情况以及被测对象特征;根据所述事件数据信息和经过如第一方面中任一项方法得到的目标行为预测模型,获取所述被测对象的求助行为转化结果,其中,所述求助行为转化结果用于表征所述被测对象的事件对应的相邻两次求助行为的升级、降级或不变的情况。
本申请一些实施例通过利用第一方面中的方法得到的目标行为预测模型对被测对象进行行为预测,可以快速、准确地获取被测对象的求助行为转化结果,降低了时间成本,同时为相关人员提供可靠的预测数据。
在一些实施例,所述获取被测对象的事件数据信息,包括:获取所述被测对象的事件编号信息和对象标识信息;根据所述事件编号信息,得到所述事件复杂程度和所述事件处理情况,并根据所述对象标识信息,得到所述被测对象特征。
本申请一些实施例通过被测对象的事件数据信息,得到被测对象的多个子特征,实现了对被测对象的具体情况进行精准定位分析,进而可以根据目标行为预测模型获取准确度较高的预测结果。
第三方面,本申请一些实施例提供了一种训练行为预测模型的装置,包括:训练数据集获取模块,被配置为获取训练数据集,其中,所述训练数据集包括多组训练数据,每组训练数据至少包括:用于表征事件复杂程度的多个子特征,用于表征事件处理情况的多个子特征,用于表征目标对象特征的多个子特征以及转化标签,所述转化标签用于表征与一个事件对应的相邻两次求助行为的升级、降级或不变的情况;模型训练模块,被配置为根据所述训练数据集中的数据对行为预测模型进行训练,得到目标行为预测模型,其中,所述目标行为预测模型能够对输入的目标事件的求助行为转化进行预测。
第四方面,本申请实施例提供了一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行第一方面中的任意实施例的相应方法的操作。
第五方面,本申请实施例提供了一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行第一方面中的任意实施例的相应方法的操作。
附图说明
为了更清楚地说明本申请一些实施例的技术方案,下面将对本申请一些实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请一些实施例提供的一种行为预测方法的系统图;
图2为本申请一些实施例提供的一种训练行为预测模型的方法流程图;
图3为本申请一些实施例提供的一种行为预测方法流程图;
图4为本申请一些实施例提供的训练行为预测模型的装置的组成框图;
图5为本申请一些实施例提供的行为预测装置的组成框图。
具体实施方式
下面将结合本申请一些实施例中的附图,对本申请一些实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
相关技术中,对于目标对象的行为判别预测,一种是业务领域(例如,信访业务领域)的相关专家人员根据目标对象的行为数据进行分析得到的,该方法需要耗费大量的人力和时间,效率较低。另一种是利用目标对象的基本数据对模型进行训练得到的,该方法由于训练的样本数据不足,样本类型单一,导致训练好的模型在实际应用的时候准确度较低,无法为相关人员提供可靠的预测结果,不能及时采取相应的措施来稳定和维护住相关目标对象。
鉴于此,本申请一些实施例提供了一种训练行为预测模型的方法、装置、系统及存储介质,该方法通过采集多种不同类型(例如,事件复杂程度的多个子特征、事件处理情况的多个子特征和目标对象特征的多个子特征)的训练数据,构建训练数据集,有效保障了训练样本数据的充足以及多样性,然后利用该训练数据集对行为预测模型进行训练得到的目标行为预测模型,准确度及预测效率均比较高,进而为相关人员提供了可靠的预测结果。
如图1所示,本申请的一些实施例提供了一种可以应用本申请实施例的行为预测方法的系统图,该图包括终端设备100和行为预测服务器200,其中,终端设备100可以用于存储目标对象的事件数据信息,并将事件数据信息发送至行为预测服务器200进行预测得到目标对象的求助行为转化结果。
另外,需要说明的是在本申请另一些实施例,终端设备100具有存储数据和数据预测得到目标对象的求助行为转化结果的功能,此时可以不设置行为预测服务器200。其中,终端设备可以是PC终端或者移动终端。
图1的行为预测服务器200上部署了训练得到的目标行为预测模型,正是通过这个训练得到的模型使得行为预测服务器200可以获得目标对象的求助行为转化结果。
可以理解的是,为了使得行为预测服务器200上的行为预测模型具备预测目标对象的求助行为转化结果的能力,需要首先对这个模型进行训练。
下面结合附图2示例性阐述本申请一些实施例提供的训练行为预测模型的过程。
请参见附图2,图2为本申请一些实施例提供的一种训练行为预测模型的方法流程图,该方法包括:
S210,获取训练数据集,其中,所述训练数据集包括多组训练数据,每组训练数据至少包括:用于表征事件复杂程度的多个子特征,用于表征事件处理情况的多个子特征,用于表征目标对象特征的多个子特征以及转化标签,所述转化标签用于表征与一个事件对应的相邻两次求助行为的升级、降级或不变的情况。
在本申请一些实施例中,在S210之前,训练行为预测模型的方法还包括(图中未示出):获取目标对象信息以及事件特征信息,并根据目标对象特征和事件特征信息获取事件复杂程度、事件处理情况以及目标对象特征的多个子特征。
例如,在本申请一些实施例中,在原始的业务列表(例如,信访业务列表或者诉讼业务列表)中通过事件特征信息(例如,事件编号)以及目标对象信息(例如,目标对象身份证号或者目标对象编号)查询与事件编号和目标对象身份证号相匹配的事件复杂程度、事件处理情况以及目标对象特征的多个子特征。目标对象即实施求助行为的对象,例如,针对上访类的求助行为则该处的目标对象即上访人,针对诉讼类的求助行为则该处的目标对象即提起诉讼的人。
需要说明的是,在本申请一些实施例中,多个子特征是通过设置多类标志位,并根据标志位的数值确定各子特征的量化值的。例如,设置的标志位至少包括:积案标志位、监管标志位、事件位置标志位、事件过程标志位、关联特征标志位以及集体事件量标志位以及事件件数标志位。
在本申请一些实施例中,所述用于表征事件复杂程度的多个子特征,包括:积案数据、监管数据、事件位置数据、事件过程数据、关联特征数据以及集体事件量数据以及事件件数数据。
例如,在本申请一些实施例中,以信访业务领域为例,例如,确认是否属于信访积案(也就是积案数据)的具体过程包括:设置信访积案标志位(也就是积案标志位),根据标志位的数字判断是否属于信访积案,例如,可以用标志位为0表示“否”,也就是未积案,用标志位为1表示“是”,也就是积案。
在本申请一些实施例中,确认是否属于督办督查(也就是监管数据)信访事件的具体过程包括:设置督办督查标志位(也就是监管标志位),根据标志位的数字判断是否属于督办督查信访事件,例如,可以用标志位为0表示“否”,也就是不属于督办督查,用标志位为1表示“是”,也就是属于督办督查。
在本申请一些实施例中,确认是否属于三跨三分离(也就是事件位置数据,用于表征目标对象和信访案件所在地不同)信访事件的具体过程包括:设置三跨三分离标志位(也就是事件位置标志位),根据标志位的数字判断是否属于三跨三分离信访事件,例如,可以用标志位为0表示“否”,也就是不属于三跨三分离,用标志位为1表示“是”,也就是属于三跨三分离。其中,三跨三分离指的是信访事件是跨地区、跨部门、跨行业、人事分离、人户分离或人事户分离的情况。
在本申请一些实施例中,确认是否属于扬言(也就是事件过程数据)信访事件的具体过程包括:设置扬言标志位(也就是事件过程标志位),根据标志位的数字判断是否属于扬言信访事件,例如,可以用标志位为0表示“否”,也就是不属于扬言信访事件,用标志位为1表示“是”,也就是属于扬言信访事件,并获取扬言信访件数。其中,扬言信访事件指的是上访人在整个信访事件处理的过程中扬言威胁恐吓言论、聚众闹事、冲击重要机关(例如,危害他人生命和财产安全等滋事情形,或其他带有闹事苗头和极端行为倾向、可能影响正常生产生活和社会秩序等情形的事件。
在本申请一些实施例中,确认信访人数(也就是关联特征数据)的具体过程包括:设置信访人数标志位(也就是关联特征标志位),根据标志位的数字判断信访人数,例如,标志位数字为3表示此次信访人数为3,标志位数字为5表示此次信访人数为5,以此类推。
在本申请一些实施例中,确认是否属于集体(也就是集体事件量数据,)信访事件的具体过程包括:设置集体信访事件标志位(也就是集体事件量标志位),根据标志位的数字判断是否属于集体信访事件,例如,可以用标志位为0表示“否”,也就是不属于集体信访事件,用标志位为1表示“是”,也就是属于集体信访事件,此时获取集体信访事件的件数(例如,信访人数大于等于5属于集体信访事件,累计集体信访事件的件数为3件或5件等)。
在本申请一些实施例中,确认信访次数(也就是事件件数数据,用于表征目标对象求助的次数)的具体过程包括:设置信访次数标志位(也就是事件件数标志位),根据标志位的数字判断信访次数,例如,标志位数字为3表示目标对象的信访次数为3,标志位数字为5表示目标对象的信访次数为5,以此类推。
在本申请一些实施例中,所述用于表征事件处理情况的多个子特征,包括:事件满意度数据、事件结束数据、事件复查数据、事件复核数据、事件处理时间数据、事件累计时间数据、事件平均时长数据以及答复人变化数据。
在本申请一些实施例中,确认信访部门满意度评价或责任单位满意度评价(也就是事件满意度数据)的具体过程包括:设置满意度标志位(也就是事件满意度标志位),根据标志位的数字判断满意度等级,例如,可以用标志位为0表示“未纳入评价”,用标志位为1表示“待评价”,用2标志位表示“未评价”,用3标志位表示“超期评价”,用4标志位表示“不满意”,用5标志位表示“基本满意”,用6标志位表示“满意”。
在本申请一些实施例中,确认是否属于信访办结(也就是事件结束数据)事件的具体过程包括:设置信访办结标志位(也就是事件结束标志位),根据标志位的数字判断是否属于信访办结事件。例如,可以用标志位为0表示“否”,也就是不属于信访办结,用标志位为1表示“是”,也就是属于信访办结。应理解,确认事件复查数据和事件复核数据的具体过程与确认是否属于事件结束数据事件的原理相似,为了简洁描述,在此不做赘述。
在本申请一些实施例中,确认信访办理时长(也就是事件处理时间数据)的具体过程包括:设置信访办理时长标志位(也就是事件处理时间标志位),根据标志位的数字确认信访办理时长。例如,可以以小时为单位,标志位为3,则表示信访办理时长为3小时。应理解,确认事件累计时间数据以及事件平均时长数据的具体过程和确认信访办理时长的原理相似,为了简洁描述,在此不做赘述。其中,事件累计时间数据用于表征截至上一次信访之前,事件累计办理的总时长。事件平均时长数据用于表征截至上一次信访之前,事件累计办理的总时长与事件件数数据的比值。
在本申请一些实施例中,答复人变化数据是通过历史答复人的编号(例如,上一次答复人的编号)与本次答复人的编号进行对比得到的,确认答复人变化数据的具体过程包括:设置答复人变化数据标志位,根据标志位的数字得到答复人变化数据。例如,可以用标志位为0表示“否”,也就是答复人不同,用标志位为1表示“是”,即答复人相同。
在本申请一些实施例中,所述用于表征目标对象特征的多个子特征,包括:目标对象年龄、目标对象职业和目标对象关联事件数据。
例如,在本申请一些实施例中,确认信访人年龄(也就是目标对象年龄数据)的具体过程包括:设置年龄标志位(也就是目标对象年龄标志位),根据标志位的数字判断信访人年龄,例如,可以用标志位为0表示30岁以下的信访人,用标志位为1表示30≤信访人年龄<40岁的信访人,用2标志位表示40≤信访人年龄<50岁的信访人,用3标志位表示50≤信访人年龄<60岁的信访人,用4标志位表示60岁及以上的信访人。
应理解,确认目标对象职业和目标对象关联事件数据的具体过程和上述确认其他子特征的原理相似,为了简洁描述,在此不做赘述。其中,目标对象关联数据可以包括:事件形式占比(例如,信访形式为线下信访或者网络信访)。事件形式占比是通过求取线下事件数与事件件数的比值得到的。
在本申请一些实施例中,所述转化标签是根据所述每组训练数据对应的求助目的地及求助形式得到的。
为了确保每组训练数据对应的转化标签的精准度,提升训练模型的精准率,例如,在本申请一些实施例中,转化标签可以是通过本业务领域的专家对每组训练数据对应的求助目的地(例如,求助目的地可以是相关单位或相关机关)及求助形式(例如,求助形式可以是网信或写信邮寄)进行分析得到的。
在本申请一些实施例中,S210还可以包括:获取与所述升级的情况对应的训练数据,得到正样本训练数据;获取与所述降级和所述不变的情况对应的训练数据,得到初始负样本训练数据;减少所述初始负样本训练数据的数据量,得到目标负样本训练数据;将所述正样本训练数据和所述目标负样本训练数据作为所述训练数据。其中,所述减少所述初始负样本训练数据的数据量,得到目标负样本训练数据,包括:对所述初始负样本训练数据进行抽样,得到所述目标负样本训练数据。
为了确保训练模型中的正负样本数据保持均衡,在本申请一些实施例中,为了提高训练数据的分类准确率,可以采用过抽样、欠抽样、阈值移动或者组合技术等均衡方法,平衡训练数据中的正样本训练数据和负样本训练数据。例如,在实际应用的场景中,负样本训练数据的数据量较大,可以采用欠抽样的方法平衡样本训练数据,即最大限度的保留正样本训练数据,减少负样本训练数据,根据平衡后的正样本训练数据和负样本训练数据构建训练数据集。
S220,根据所述训练数据集中的数据对行为预测模型进行训练,得到目标行为预测模型,其中,所述目标行为预测模型能够对输入的目标事件的求助行为转化进行预测。
例如,在本申请一些实施例中,行为预测模型可以是决策树模型、梯度提升树模型或者随机森林模型等分类算法模型。根据实际情况可以选取不同的模型进行训练,在此不作具体限定。
在本申请一些实施例中,可以将训练数据集对应的训练数据分为第一训练数据和第一测试数据。通过第一训练数据对行为预测模型进行训练,得到待测试行为预测模型;通过第一测试数据确认待测试行为预测模型通过测试,获取目标行为预测模型。
在本申请另一些实施例中,S220也可以根据训练数据集对多个类型的行为预测模型进行训练,获取多个初始行为预测模型;根据多个初始行为预测模型的评估指标,获取目标行为预测模型。其中,评估指标包括召回率、精度以及特效性中的至少一种。
需要说明的是,召回率用于表征所有求助行为升级变化的事件,被正确预测为升级的比例。特效性用于表征所有求助行为不升级的事件,被正确预测为不升级的比例。精度用于表征预测正确的事件占总事件的比例。
下面结合附图3阐述基于随机森林模型获取目标行为预测模型,并利用该目标行为预测模型进行行为预测方法的实现过程。
请参见附图3,图3为本申请一些实施例提供的一种行为预测方法流程图,下面示例性阐述该方法的实现过程。
S310,获取被测对象的事件数据信息,其中,所述事件数据信息包括:事件复杂程度、事件处理情况以及被测对象特征。
在本申请一些实施例中,S310具体可以包括:获取所述被测对象的事件编号信息和对象标识信息;根据所述事件编号信息,得到所述事件复杂程度和所述事件处理情况,并根据所述对象标识信息,得到所述被测对象特征。
需要说明的是,事件编号信息是业务系统以数字的形式对事件进行标记的编号。对象标识信息可以是姓名信息、身份证号信息和手机号信息中的至少一种。
S320,根据所述事件数据信息和目标行为预测模型,获取所述被测对象的求助行为转化结果,其中,所述求助行为转化结果用于表征所述被测对象的事件对应的相邻两次求助行为的升级、降级或不变的情况。
例如,作为本申请一个具体示例,以信访业务领域为例,当前被测对象的信访级别为赴省访,通过目标行为预测模型可以得到被测对象的信访行为(也就是求助行为)是否发生变化,例如被测对象是否要赴京访,是则表示信访行为升级(即表示升级为赴京访),否则表示信访行为不变(即表示不升级为赴京访),例如被测对象是否要到市访,是则表示信访行为降级(即表示降级为到市访),否则表示信访行为不变(即表示不降级为到市访)。
在本申请一些实施例中,在S320之后行为预测方法还包括(图中未示出):当被测对象包括多个时,根据相邻两次求助行为的升级或降级的事件对应的被测对象,生成风险人群名单,以供相关人员进行查看,并及时采取对应的措施,维系风险人群名单中的人员行为不发生变化,进而确保业务稳定。
请参考图4,图4示出了本申请一些实施例提供的训练行为预测模型的装置的组成框图。应理解,该训练行为预测模型的装置与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该训练行为预测模型的装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图4的训练行为预测模型的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在训练行为预测模型的装置中的软件功能模块,该训练行为预测模型的装置包括:训练数据集获取模块410,至少被配置为获取训练数据集,其中,所述训练数据集包括多组训练数据,每组训练数据至少包括:用于表征事件复杂程度的多个子特征,用于表征事件处理情况的多个子特征,用于表征目标对象特征的多个子特征以及转化标签,所述转化标签用于表征与一个事件对应的相邻两次求助行为的升级、降级或不变的情况;模型训练模块420,至少被配置为根据所述训练数据集中的数据对行为预测模型进行训练,得到目标行为预测模型,其中,所述目标行为预测模型能够对输入的目标事件的求助行为转化进行预测。
在本申请的一些实施例中,所述用于表征事件复杂程度的多个子特征,包括:积案数据、监管数据、事件位置数据、事件过程数据、关联特征数据以及集体事件量数据以及事件件数数据。
在本申请的一些实施例中,所述用于表征事件处理情况的多个子特征,包括:事件满意度数据、事件结束数据、事件复查数据、事件复核数据、事件处理时间数据、事件累计时间数据、事件平均时长数据以及答复人变化数据。
在本申请的一些实施例中,所述用于表征目标对象特征的多个子特征,包括:目标对象年龄、目标对象职业和目标对象关联事件数据。
在本申请的一些实施例中,所述转化标签是根据所述每组训练数据对应的求助目的地及求助形式得到的。
在本申请的一些实施例中,训练数据集获取模块410可以被配置为获取与所述升级的情况对应的训练数据,得到正样本训练数据;获取与所述降级和所述不变的情况对应的训练数据,得到初始负样本训练数据;减少所述初始负样本训练数据的数据量,得到目标负样本训练数据;将所述正样本训练数据和所述目标负样本训练数据作为所述训练数据。
在本申请的一些实施例中,训练数据集获取模块410可以被配置为对所述初始负样本训练数据进行抽样,得到所述目标负样本训练数据。
请参考图5,图5示出了本申请一些实施例提供的行为预测装置的组成框图。应理解,该行为预测装置与上述方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该行为预测装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。
图5的行为预测装置包括至少一个能以软件或固件的形式存储于存储器中或固化在行为预测装置中的软件功能模块,该行为预测装置包括:数据获取模块510,至少被配置为获取被测对象的事件数据信息,其中,所述事件数据信息包括:事件复杂程度、事件处理情况以及被测对象特征;结果预测模块520,至少被配置为根据所述事件数据信息和经过图2中的任一项方法得到的目标行为预测模型,获取所述被测对象的求助行为转化结果,其中,所述求助行为转化结果用于表征所述被测对象的事件对应的相邻两次求助行为的升级、降级或不变的情况。
在本申请的一些实施例中,数据获取模块510至少被配置为获取所述被测对象的事件编号信息和对象标识信息;根据所述事件编号信息,得到所述事件复杂程度和所述事件处理情况,并根据所述对象标识信息,得到所述被测对象特征。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
本申请的一些实施例还提供一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行上述任意实施例的方法的操作。
本申请的一些实施例还提供一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行上述任意实施例的方法的操作。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (12)
1.一种训练行为预测模型的方法,其特征在于,所述方法包括:
获取训练数据集,其中,所述训练数据集包括多组训练数据,每组训练数据至少包括:用于表征事件复杂程度的多个子特征,用于表征事件处理情况的多个子特征,用于表征目标对象特征的多个子特征以及转化标签,所述转化标签用于表征与一个事件对应的相邻两次求助行为的升级、降级或不变的情况;
根据所述训练数据集中的数据对行为预测模型进行训练,得到目标行为预测模型,其中,所述目标行为预测模型能够对输入的目标事件的求助行为转化进行预测。
2.如权利要求1所述的方法,其特征在于,所述用于表征事件复杂程度的多个子特征,包括:积案数据、监管数据、事件位置数据、事件过程数据、关联特征数据以及集体事件量数据以及事件件数数据。
3.如权利要求1所述的方法,其特征在于,所述用于表征事件处理情况的多个子特征,包括:事件满意度数据、事件结束数据、事件复查数据、事件复核数据、事件处理时间数据、事件累计时间数据、事件平均时长数据以及答复人变化数据。
4.如权利要求1所述的方法,其特征在于,所述用于表征目标对象特征的多个子特征,包括:目标对象年龄、目标对象职业和目标对象关联事件数据。
5.如权利要求1所述的方法,其特征在于,所述转化标签是根据所述每组训练数据对应的求助目的地及求助形式得到的。
6.如权利要求1-5任一项所述的方法,其特征在于,所述获取训练数据集,包括:
获取与所述升级的情况对应的训练数据,得到正样本训练数据;
获取与所述降级和所述不变的情况对应的训练数据,得到初始负样本训练数据;
减少所述初始负样本训练数据的数据量,得到目标负样本训练数据;
将所述正样本训练数据和所述目标负样本训练数据作为所述训练数据。
7.如权利要求6所述的方法,其特征在于,所述减少所述初始负样本训练数据的数据量,得到目标负样本训练数据,包括:
对所述初始负样本训练数据进行抽样,得到所述目标负样本训练数据。
8.一种行为预测方法,其特征在于,包括:
获取被测对象的事件数据信息,其中,所述事件数据信息包括:事件复杂程度、事件处理情况以及被测对象特征;
根据所述事件数据信息和经过如权利要求1-7任一项方法得到的目标行为预测模型,获取所述被测对象的求助行为转化结果,其中,所述求助行为转化结果用于表征所述被测对象的事件对应的相邻两次求助行为的升级、降级或不变的情况。
9.如权利要求8所述的方法,其特征在于,所述获取被测对象的事件数据信息,包括:
获取所述被测对象的事件编号信息和对象标识信息;
根据所述事件编号信息,得到所述事件复杂程度和所述事件处理情况,并根据所述对象标识信息,得到所述被测对象特征。
10.一种训练行为预测模型的装置,其特征在于,包括:
训练数据集获取模块,被配置为获取训练数据集,其中,所述训练数据集包括多组训练数据,每组训练数据至少包括:用于表征事件复杂程度的多个子特征,用于表征事件处理情况的多个子特征,用于表征目标对象特征的多个子特征以及转化标签,所述转化标签用于表征与一个事件对应的相邻两次求助行为的升级、降级或不变的情况;
模型训练模块,被配置为根据所述训练数据集中的数据对行为预测模型进行训练,得到目标行为预测模型,其中,所述目标行为预测模型能够对输入的目标事件的求助行为转化进行预测。
11.一种系统,所述系统包括一个或多个计算机和存储指令的一个或多个存储设备,当所述指令由所述一个或多个计算机执行时,使得所述一个或多个计算机执行如权利要求1-7或权利要求8-9中任一项所述方法的操作。
12.一种存储指令的一个或多个计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机执行如权利要求1-7或权利要求8-9中任一项所述方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210397776.6A CN114692779A (zh) | 2022-04-15 | 2022-04-15 | 一种训练行为预测模型的方法、装置、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210397776.6A CN114692779A (zh) | 2022-04-15 | 2022-04-15 | 一种训练行为预测模型的方法、装置、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114692779A true CN114692779A (zh) | 2022-07-01 |
Family
ID=82143359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210397776.6A Pending CN114692779A (zh) | 2022-04-15 | 2022-04-15 | 一种训练行为预测模型的方法、装置、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692779A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019034805A1 (en) * | 2017-08-14 | 2019-02-21 | University Of Jyväskylä | COGNITIVE SELF-ORGANIZING NETWORKS CENTERED ON THE CUSTOMER |
CN110889526A (zh) * | 2018-09-07 | 2020-03-17 | 中国移动通信集团有限公司 | 一种用户升级投诉行为预测方法及系统 |
CN111401963A (zh) * | 2020-03-20 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 训练用户行为预测模型的方法和装置 |
CN112784787A (zh) * | 2021-01-29 | 2021-05-11 | 南京智数云信息科技有限公司 | 基于深度学习的用户行为分析与预测的装置、系统及方法 |
-
2022
- 2022-04-15 CN CN202210397776.6A patent/CN114692779A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019034805A1 (en) * | 2017-08-14 | 2019-02-21 | University Of Jyväskylä | COGNITIVE SELF-ORGANIZING NETWORKS CENTERED ON THE CUSTOMER |
CN110889526A (zh) * | 2018-09-07 | 2020-03-17 | 中国移动通信集团有限公司 | 一种用户升级投诉行为预测方法及系统 |
CN111401963A (zh) * | 2020-03-20 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 训练用户行为预测模型的方法和装置 |
CN112784787A (zh) * | 2021-01-29 | 2021-05-11 | 南京智数云信息科技有限公司 | 基于深度学习的用户行为分析与预测的装置、系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113653B2 (en) | Artificial intelligence and machine learning based incident management | |
CN112188534B (zh) | 一种异常检测方法和装置 | |
CN101110699B (zh) | 具有网络满意度预测预警功能的系统及其实现方法 | |
CN109118316B (zh) | 线上店铺真实性的识别方法和装置 | |
CN110503565A (zh) | 行为风险识别方法、系统、设备及可读存储介质 | |
CN110688536A (zh) | 一种标签预测方法、装置、设备和存储介质 | |
CN112395179B (zh) | 一种模型训练方法、磁盘预测方法、装置及电子设备 | |
CN114418175A (zh) | 一种人员管理方法、装置、电子设备及存储介质 | |
CN110992949A (zh) | 基于语音识别的绩效考核方法、装置及可读存储介质 | |
CN113159421A (zh) | 一种基于企业特征预测中标概率的方法及装置 | |
CN112990386A (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN116955853A (zh) | 订单签收时间预计查询方法、装置、设备及存储介质 | |
CN113205130B (zh) | 一种数据审核方法、装置、电子设备及存储介质 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
Masarifoglu et al. | Applying survival analysis to telecom churn data | |
CN114692779A (zh) | 一种训练行为预测模型的方法、装置、系统及存储介质 | |
CN117437019A (zh) | 信用卡逾期风险预测方法、装置、设备、介质和程序产品 | |
Galvão et al. | Real‐Time Perceptions of Historical GDP Data Uncertainty | |
CN114723554B (zh) | 异常账户识别方法及装置 | |
CN113487208B (zh) | 风险评估方法及装置 | |
CN110362627A (zh) | 基于区块链的业务分析方法及装置、电子设备、存储介质 | |
WO2021186706A1 (ja) | 修理支援システムおよび修理支援方法 | |
CN116416056B (zh) | 一种基于机器学习的征信数据处理方法及系统 | |
Klein et al. | Evaluating the Reproducibility of Tree Risk Assessment Ratings Across Commonly Used Methods | |
CN117235677B (zh) | 一种汽车配件价格异常识别检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |