CN115879586A - 基于消融实验的投诉预测优化方法、装置及存储介质 - Google Patents
基于消融实验的投诉预测优化方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115879586A CN115879586A CN202210028593.7A CN202210028593A CN115879586A CN 115879586 A CN115879586 A CN 115879586A CN 202210028593 A CN202210028593 A CN 202210028593A CN 115879586 A CN115879586 A CN 115879586A
- Authority
- CN
- China
- Prior art keywords
- category
- effective
- features
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000002679 ablation Methods 0.000 title claims abstract description 118
- 238000002474 experimental method Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 102
- 238000013145 classification model Methods 0.000 claims abstract description 87
- 230000000694 effects Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 21
- 230000008451 emotion Effects 0.000 claims description 6
- 238000011835 investigation Methods 0.000 claims description 6
- 230000000717 retained effect Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 claims 17
- 230000002596 correlated effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002411 adverse Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于消融实验的投诉预测优化方法、装置及存储介质,其中该方法,包括:采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
Description
技术领域
本申请涉及信息分类技术领域,特别是涉及一种基于消融实验的投诉预测优化方法、装置及存储介质。
背景技术
随着第三产业的快速发展,以及互联网等数字化技术的应用,如何在科技快速赋能业务的同时保障对用户的服务质量,已经成为了大多企业不得不仔细思考的课题。科技可以让用户得到更加精准、快速、便捷的服务,但同时,用户对服务质量的要求也在逐步提升。随着国家层面对于社会声音的重视,以及互联网的快速发展,表达意见的途径越来越直接有效,如果用户对于企业服务不满意,可以通过媒体平台、监管部门等渠道进行投诉,而企业被投诉对于企业的形象以及竞争力等会产生负面影响,甚至会被监管处罚。例如,对于金融企业来说,国家相关监管部门对于企业被投诉情况会有相应的要求,如果被监管投诉数量超过标准,将会对企业声誉造成影响,甚至会有一定程度处罚。那么,企业就需要在提升自身服务质量的同时,对于可能的投诉进行前置的处理,如果能在用户去监管投诉前及时发现该风险,并介入干预,进行安抚,那么就可以降低用户的监管投诉数量,及时为用户解决问题,同时维护企业声誉和形象。
投诉预测的目的就是为了通过分析用户数据,找到去监管投诉风险较大的用户提前介入沟通解决问题,降低用户的监管投诉可能性。因为用户的特征数据较为庞大,目前人工处理更多的是凭借经验和参考文档进行判断,准确性受限,同时如果工单量较大,人工分析也会极大降低处理速度,容易错过安抚用户的最佳时期,因此,使用机器学习来替代人工进行建模分析预测,是一个提升投诉预测效率的手段。但由于用户特征维度较大,如何利用有效的特征快速准确预测,是投诉预测模型中一个需要解决的问题。
发明内容
为了解决上述技术问题,本公开的实施例提供了一种基于消融实验的投诉预测优化方法、装置及存储介质。
根据本公开实施例的一个方面,提供了一种基于消融实验的投诉预测优化方法,包括:采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
可选地,将采集的相关特征数据分为不同类别的特征,包括:根据采集的相关特征数据的特征属性和业务场景,将采集的相关特征数据分为不同类别的特征,其中所述不同类别的特征包括:情感类特征、工单基本信息特征、征信类特征以及关键词类特征。
可选地,将每个类别的特征输入预设的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合,包括:将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征;将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征;将第二个类别的有效特征和第三个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第三个类别的有效特征,直至确定最后一个类别的有效特征;根据最后一个类别的有效特征,生成有效特征集合。
可选地,将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征,包括:将所有类别中第一个类别的特征输入对应的分类模型进行训练,根据训练结果删除第一个类别中特征重要性为0的特征;对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征。
可选地,对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征,包括:删除第一个类别的剩余特征中的每一个特征;将删除每一个特征后第一个类别的剩余特征输入对应的分类模型进行重新训练;根据重新训练的结果,判断第一个类别的每一个特征是否为有效特征,以确定第一个类别的有效特征。
可选地,将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征,包括:将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,判断对应的分类模型的分类效果是否提升;在对应的分类模型的分类效果提升的情况下,对第二个类别的特征进行消融实验,并将消融实验保留的有效特征与第一个类别的有效特征共同确定为第二个类别的有效特征;在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征。
可选地,在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征,包括:在对应的分类模型的分类效果未提升的情况下,剔除第二个类别中特征重要性为0的特征,生成待试验特征集;将第一个类别的有效特征和待试验特征集的每一个特征共同输入对应的分类模型进行重新训练;根据重新训练的结果,判断待试验特征集的每一个特征是否为有效特征,以确定第二个类别的有效特征。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种基于消融实验的投诉预测优化装置,包括:采集模块,用于采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;消融实验模块,用于将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;分类模型建模模块,用于利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
根据本公开实施例的另一个方面,还提供了一种基于消融实验的投诉预测优化装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
在本公开实施例中,首先采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征。然后,将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合。最后,利用有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。本发明在对用户特征进行投诉预测的二分类建模中,通过消融实验策略的介入,可以有效在建模阶段对特征进行预筛选,剔除对模型有负面影响或是无效的特征,降低特征维度,优化模型预测性能和效果。本发明可以应用于多业务场景下的投诉预测,对业务知识理解程度要求不需要十分专业。本发明能够有效鉴别特征性能,保留对模型有正向影响的特征,删除对模型有负向影响的特征。本发明能够缩小特征范围,有利于增强模型的可解释性,同时可以精简模型,提升模型训练的效果和性能。从而,只需给出场景下与预测目标可能相关的特征,本发明便可自动化筛选有效特征,同时剔除有反向影响的不利特征,另外本发明提出的优化策略,使技术人员对业务理解程度的容错率高。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本公开实施例1的第一个方面所述的基于消融实验的投诉预测优化方法的流程示意图;
图3是根据本公开实施例1所述的基于聚类和降采样xgboost集成投诉预测模型的流程示意图;
图4是根据本公开实施例1所述的剔除特征的消融实验流程图;
图5是根据本公开实施例1所述的增加特征的消融实验流程图;
图6是根据本公开实施例2所述的基于消融实验的投诉预测优化装置的示意图;以及
图7是根据本公开实施例3所述的基于消融实验的投诉预测优化装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
消融实验:可以理解为控制变量法。例如,对于一个基础模型,为了验证特征A是不是有用,可以对比加上A特征后模型效果与基础模型效果,如果增加了A后效果变好,则说明A特征有用,否则说明A对模型没有提升;同理,为了验证基础模型使用的B特征是否有用,可以对比删除B特征后的模型效果与基础模型效果,如果删除后效果提升则说明B特征对模型没有用,否则说明B特征有用。
XGBoost模型介绍:XGBoost,是一种集成树模型框架,高效地实现了GBDT(梯度提升决策树)算法并进行了算法工程上的改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中,达到了很好的分类效果。与其他树模型相比,XGBoost具有以下优点:
1)XGBoost在代价函数里加入了正则项,用于控制模型的复杂度,使学习出的模型更加简单,防止过拟合
2)XGBoost支持并行计算,多线程计算各个特征的增益,提高效率
3)XGBoost支持缺失特征的处理等。
同时XGBoost算法也存在一些缺点,比如它不适合处理高维特征数据,而对于中低维数据具有很好的处理速度和精度。
实施例1
根据本实施例,提供了一种基于消融实验的投诉预测优化方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现基于消融实验的投诉预测优化方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的基于消融实验的投诉预测优化方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的基于消融实验的投诉预测优化方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种基于消融实验的投诉预测优化方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征。
可选地,将采集的相关特征数据分为不同类别的特征,包括:根据采集的相关特征数据的特征属性和业务场景,将采集的相关特征数据分为不同类别的特征,其中所述不同类别的特征包括:情感类特征、工单基本信息特征、征信类特征以及关键词类特征。
在本发明实施例中,对于建立工单的用户进行相关特征数据采集,工单可以针对投诉工单或者非投诉类的咨询工单,相关特征需要根据投诉预测的业务场景划定可能相关的所有特征,用这些数据作为模型的训练数据和测试数据。
并且,在利用采集的特征数据进行分类模型的训练之前,可以对特征数据集进行特征工程处理,将其处理为结构化数据,如:异常值处理、类别特征处理等。然后,参见图3所示,通过对特征的理解,将其分类为不同类别特征。例如:可以根据特征数据的特征属性及业务含义的分析,将全部特征进行分门别类,比如:情感类特征、工单基本信息特征、征信类特征、关键词类特征等。
S204:将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合。
可选地,将每个类别的特征输入预设的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合,包括:将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征;将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征;将第二个类别的有效特征和第三个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第三个类别的有效特征,直至确定最后一个类别的有效特征;根据最后一个类别的有效特征,生成有效特征集合。
可选地,将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征,包括:将所有类别中第一个类别的特征输入对应的分类模型进行训练,根据训练结果删除第一个类别中特征重要性为0的特征;对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征。
可选地,对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征,包括:删除第一个类别的剩余特征中的每一个特征;将删除每一个特征后第一个类别的剩余特征输入对应的分类模型进行重新训练;根据重新训练的结果,判断第一个类别的每一个特征是否为有效特征,以确定第一个类别的有效特征。
可选地,将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征,包括:将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,判断对应的分类模型的分类效果是否提升;在对应的分类模型的分类效果提升的情况下,对第二个类别的特征进行消融实验,并将消融实验保留的有效特征与第一个类别的有效特征共同确定为第二个类别的有效特征;在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征。
可选地,在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征,包括:在对应的分类模型的分类效果未提升的情况下,剔除第二个类别中特征重要性为0的特征,生成待试验特征集;将第一个类别的有效特征和待试验特征集的每一个特征共同输入对应的分类模型进行重新训练;根据重新训练的结果,判断待试验特征集的每一个特征是否为有效特征,以确定第二个类别的有效特征。
在本发明实施例中,参见图3所示,将每类特征依次添加入对应的XGBoost模型进行训练,通过消融策略筛选有效特征进行保留,具体流程如下:
1)将类别1特征全部加入建立好的XGBoost模型进行训练,删除特征重要性为0的特征;
2)对类别1其余的特征,进行消融实验,即删除一个特征重新训练,如果删除该特征后模型效果有提升则将该特征剔除,如果删除该特征后模型效果下降,则保留该特征作为有效特征,对每一个特征进行该步骤,如图4所示;
3)汇总类别1的有效特征;
4)向类别1有效特征中加入类别2全部特征,进行XGBoost模型的训练,如果XGBoost模型效果提升,则对类别2的全部特征进行1)2)3)操作;
5)如果加入类别2全部特征后XGBoost模型效果下降,则对特征重要性非0的每一个特征进行消融实验,即增加一个特征重新训练,如果添加该特征后XGBoost模型效果提升则保留该特征为有效特征,如图5所示;
S206:利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
在本发明实施例中,参见图3所示,对所有类别的特征进行上述步骤S204的消融实验后,会形成一个完整的有效特征集合,作为模型特征。然后,对有效特征进行XGBoost建模,通过参数寻优,使模型达到最优效果,从而得到投诉预测模型,用于预测用户的投诉概率。
通过本发明技术方案,具有以下有益效果:
1)本发明提出了一种通用场景下的投诉预测模型的优化方案,可以有效缓解XGBoost在高维特征下性能降低问题;
2)本发明可以节省大量的人力、物力,在解放劳动力、降低成本的同时,能够快速准确的进行预测;
3)本发明提出的方案解决了技术人员在对业务理解不够深的情况下,对业务特征的判断能力,快速有效的框定有效特征,降低特征维度,缓解过拟合现象;
4)本发明策略方案可以迁移到相似业务场景应用,即通过消融实验的方式来检验特征,筛选特征。
从而,本发明提出的基于消融实验的投诉预测优化方法,首先采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征。然后,将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合。最后,利用有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。本发明在对用户特征进行投诉预测的二分类建模中,通过消融实验策略的介入,可以有效在建模阶段对特征进行预筛选,剔除对模型有负面影响或是无效的特征,降低特征维度,优化模型预测性能和效果。本发明可以应用于多业务场景下的投诉预测,对业务知识理解程度要求不需要十分专业。本发明能够有效鉴别特征性能,保留对模型有正向影响的特征,删除对模型有负向影响的特征。本发明能够缩小特征范围,有利于增强模型的可解释性,同时可以精简模型,提升模型训练的效果和性能。从而,只需给出场景下与预测目标可能相关的特征,本发明便可自动化筛选有效特征,同时剔除有反向影响的不利特征,另外本发明提出的优化策略,使技术人员对业务理解程度的容错率高。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图6示出了根据本实施例所述的基于消融实验的投诉预测优化装置600,该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示,该装置600包括:采集模块610,用于采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;消融实验模块620,用于将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;分类模型建模模块630,用于利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
可选地,采集模块610,具体用于:根据采集的相关特征数据的特征属性和业务场景,将采集的相关特征数据分为不同类别的特征,其中所述不同类别的特征包括:情感类特征、工单基本信息特征、征信类特征以及关键词类特征。
可选地,消融实验模块620,具体用于:将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征;将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征;将第二个类别的有效特征和第三个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第三个类别的有效特征,直至确定最后一个类别的有效特征;根据最后一个类别的有效特征,生成有效特征集合。
可选地,消融实验模块620,还具体用于:将所有类别中第一个类别的特征输入对应的分类模型进行训练,根据训练结果删除第一个类别中特征重要性为0的特征;对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征。
可选地,消融实验模块620,还具体用于:删除第一个类别的剩余特征中的每一个特征;将删除每一个特征后第一个类别的剩余特征输入对应的分类模型进行重新训练;根据重新训练的结果,判断第一个类别的每一个特征是否为有效特征,以确定第一个类别的有效特征。
可选地,消融实验模块620,还具体用于:将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,判断对应的分类模型的分类效果是否提升;在对应的分类模型的分类效果提升的情况下,对第二个类别的特征进行消融实验,并将消融实验保留的有效特征与第一个类别的有效特征共同确定为第二个类别的有效特征;在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征。
可选地,消融实验模块620,还具体用于:在对应的分类模型的分类效果未提升的情况下,剔除第二个类别中特征重要性为0的特征,生成待试验特征集;将第一个类别的有效特征和待试验特征集的每一个特征共同输入对应的分类模型进行重新训练;根据重新训练的结果,判断待试验特征集的每一个特征是否为有效特征,以确定第二个类别的有效特征。
从而根据本实施例,在对用户特征进行投诉预测的二分类建模中,通过消融实验策略的介入,可以有效在建模阶段对特征进行预筛选,剔除对模型有负面影响或是无效的特征,降低特征维度,优化模型预测性能和效果。本发明可以应用于多业务场景下的投诉预测,对业务知识理解程度要求不需要十分专业。本发明能够有效鉴别特征性能,保留对模型有正向影响的特征,删除对模型有负向影响的特征。本发明能够缩小特征范围,有利于增强模型的可解释性,同时可以精简模型,提升模型训练的效果和性能。从而,只需给出场景下与预测目标可能相关的特征,本发明便可自动化筛选有效特征,同时剔除有反向影响的不利特征,另外本发明提出的优化策略,使技术人员对业务理解程度的容错率高。
实施例3
图7示出了根据本实施例所述的基于消融实验的投诉预测优化装置700,该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示,该装置700包括:处理器710;以及存储器720,与处理器710连接,用于为处理器710提供处理以下处理步骤的指令:采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
可选地,将采集的相关特征数据分为不同类别的特征,包括:根据采集的相关特征数据的特征属性和业务场景,将采集的相关特征数据分为不同类别的特征,其中所述不同类别的特征包括:情感类特征、工单基本信息特征、征信类特征以及关键词类特征。
可选地,将每个类别的特征输入预设的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合,包括:将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征;将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征;将第二个类别的有效特征和第三个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第三个类别的有效特征,直至确定最后一个类别的有效特征;根据最后一个类别的有效特征,生成有效特征集合。
可选地,将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征,包括:将所有类别中第一个类别的特征输入对应的分类模型进行训练,根据训练结果删除第一个类别中特征重要性为0的特征;对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征。
可选地,对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征,包括:删除第一个类别的剩余特征中的每一个特征;将删除每一个特征后第一个类别的剩余特征输入对应的分类模型进行重新训练;根据重新训练的结果,判断第一个类别的每一个特征是否为有效特征,以确定第一个类别的有效特征。
可选地,将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征,包括:将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,判断对应的分类模型的分类效果是否提升;在对应的分类模型的分类效果提升的情况下,对第二个类别的特征进行消融实验,并将消融实验保留的有效特征与第一个类别的有效特征共同确定为第二个类别的有效特征;在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征。
可选地,在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征,包括:在对应的分类模型的分类效果未提升的情况下,剔除第二个类别中特征重要性为0的特征,生成待试验特征集;将第一个类别的有效特征和待试验特征集的每一个特征共同输入对应的分类模型进行重新训练;根据重新训练的结果,判断待试验特征集的每一个特征是否为有效特征,以确定第二个类别的有效特征。
从而根据本实施例,在对用户特征进行投诉预测的二分类建模中,通过消融实验策略的介入,可以有效在建模阶段对特征进行预筛选,剔除对模型有负面影响或是无效的特征,降低特征维度,优化模型预测性能和效果。本发明可以应用于多业务场景下的投诉预测,对业务知识理解程度要求不需要十分专业。本发明能够有效鉴别特征性能,保留对模型有正向影响的特征,删除对模型有负向影响的特征。本发明能够缩小特征范围,有利于增强模型的可解释性,同时可以精简模型,提升模型训练的效果和性能。从而,只需给出场景下与预测目标可能相关的特征,本发明便可自动化筛选有效特征,同时剔除有反向影响的不利特征,另外本发明提出的优化策略,使技术人员对业务理解程度的容错率高。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于消融实验的投诉预测优化方法,其特征在于,包括:
采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;
将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;
利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
2.根据权利要求1所述的方法,其特征在于,将采集的相关特征数据分为不同类别的特征,包括:
根据采集的相关特征数据的特征属性和业务场景,将采集的相关特征数据分为不同类别的特征,其中所述不同类别的特征包括:情感类特征、工单基本信息特征、征信类特征以及关键词类特征。
3.根据权利要求1所述的方法,其特征在于,将每个类别的特征输入预设的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合,包括:
将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征;
将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征;
将第二个类别的有效特征和第三个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第三个类别的有效特征,直至确定最后一个类别的有效特征;
根据最后一个类别的有效特征,生成有效特征集合。
4.根据权利要求3所述的方法,其特征在于,将所有类别中第一个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第一个类别的有效特征,包括:
将所有类别中第一个类别的特征输入对应的分类模型进行训练,根据训练结果删除第一个类别中特征重要性为0的特征;
对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征。
5.根据权利要求4所述的方法,其特征在于,对第一个类别的剩余特征进行消融实验,确定第一个类别的有效特征,包括:
删除第一个类别的剩余特征中的每一个特征;
将删除每一个特征后第一个类别的剩余特征输入对应的分类模型进行重新训练;
根据重新训练的结果,判断第一个类别的每一个特征是否为有效特征,以确定第一个类别的有效特征。
6.根据权利要求4所述的方法,其特征在于,将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定第二个类别的有效特征,包括:
将第一个类别的有效特征和第二个类别的特征一起输入对应的分类模型进行训练,判断对应的分类模型的分类效果是否提升;
在对应的分类模型的分类效果提升的情况下,对第二个类别的特征进行消融实验,并将消融实验保留的有效特征与第一个类别的有效特征共同确定为第二个类别的有效特征;
在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征。
7.根据权利要求6所述的方法,其特征在于,在对应的分类模型的分类效果未提升的情况下,对第一个类别的有效特征和第二个类别的特征共同进行消融实验,并将消融实验保留的有效特征确定为第二个类别的有效特征,包括:
在对应的分类模型的分类效果未提升的情况下,剔除第二个类别中特征重要性为0的特征,生成待试验特征集;
将第一个类别的有效特征和待试验特征集的每一个特征共同输入对应的分类模型进行重新训练;
根据重新训练的结果,判断待试验特征集的每一个特征是否为有效特征,以确定第二个类别的有效特征。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。
9.一种基于消融实验的投诉预测优化装置,其特征在于,包括:
采集模块,用于采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;
消融实验模块,用于将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;
分类模型建模模块,用于利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
10.一种基于消融实验的投诉预测优化装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
采集用户的相关特征数据,并将采集的相关特征数据分为不同类别的特征;
将每个类别的特征输入对应的分类模型进行训练,并根据训练结果,通过消融实验确定每个类别的有效特征,生成有效特征集合;
利用所述有效特征集合进行建模,得到用于预测用户的投诉概率的投诉预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028593.7A CN115879586B (zh) | 2022-01-11 | 2022-01-11 | 基于消融实验的投诉预测优化方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028593.7A CN115879586B (zh) | 2022-01-11 | 2022-01-11 | 基于消融实验的投诉预测优化方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115879586A true CN115879586A (zh) | 2023-03-31 |
CN115879586B CN115879586B (zh) | 2024-01-02 |
Family
ID=85756866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210028593.7A Active CN115879586B (zh) | 2022-01-11 | 2022-01-11 | 基于消融实验的投诉预测优化方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115879586B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563791A (zh) * | 2018-04-29 | 2018-09-21 | 华中科技大学 | 一种建筑质量投诉文本分类的方法和系统 |
JP2018169999A (ja) * | 2017-03-29 | 2018-11-01 | 株式会社東芝 | モデル構築システムおよびモデル構築方法 |
CN109410089A (zh) * | 2018-12-29 | 2019-03-01 | 广州供电局有限公司 | 低压跳闸和客户投诉预测方法、装置和存储介质 |
CN111738477A (zh) * | 2019-08-01 | 2020-10-02 | 北方工业大学 | 基于深层特征组合的电网新能源消纳能力预测方法 |
US20200387570A1 (en) * | 2019-06-05 | 2020-12-10 | Fmr Llc | Automated identification and classification of complaint-specific user interactions using a multilayer neural network |
WO2021057810A1 (zh) * | 2019-09-29 | 2021-04-01 | 深圳数字生命研究院 | 数据处理、训练、识别方法、装置和存储介质 |
CN113435627A (zh) * | 2021-05-27 | 2021-09-24 | 国网冀北电力有限公司计量中心 | 基于工单轨迹信息的电力客户投诉预测方法及装置 |
-
2022
- 2022-01-11 CN CN202210028593.7A patent/CN115879586B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018169999A (ja) * | 2017-03-29 | 2018-11-01 | 株式会社東芝 | モデル構築システムおよびモデル構築方法 |
CN108563791A (zh) * | 2018-04-29 | 2018-09-21 | 华中科技大学 | 一种建筑质量投诉文本分类的方法和系统 |
CN109410089A (zh) * | 2018-12-29 | 2019-03-01 | 广州供电局有限公司 | 低压跳闸和客户投诉预测方法、装置和存储介质 |
US20200387570A1 (en) * | 2019-06-05 | 2020-12-10 | Fmr Llc | Automated identification and classification of complaint-specific user interactions using a multilayer neural network |
CN111738477A (zh) * | 2019-08-01 | 2020-10-02 | 北方工业大学 | 基于深层特征组合的电网新能源消纳能力预测方法 |
WO2021057810A1 (zh) * | 2019-09-29 | 2021-04-01 | 深圳数字生命研究院 | 数据处理、训练、识别方法、装置和存储介质 |
CN113435627A (zh) * | 2021-05-27 | 2021-09-24 | 国网冀北电力有限公司计量中心 | 基于工单轨迹信息的电力客户投诉预测方法及装置 |
Non-Patent Citations (2)
Title |
---|
周文杰;杨璐;严建峰;: "大数据驱动的投诉预测模型", 计算机科学, no. 07 * |
窦婧: "内蒙古电力公司客户满意度评价研究", 《经济与管理科学》 * |
Also Published As
Publication number | Publication date |
---|---|
CN115879586B (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598157B (zh) | 目标信息识别方法、装置、设备及存储介质 | |
CN111047563B (zh) | 一种应用于医学超声图像的神经网络构建方法 | |
CN112132279B (zh) | 卷积神经网络模型压缩方法、装置、设备及存储介质 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN115730605B (zh) | 基于多维信息的数据分析方法 | |
CN115757124A (zh) | 一种基于神经网络的测试用例生成方法 | |
CN109408469A (zh) | 过期数据文件处理方法、装置、电子装置及存储介质 | |
CN113536081A (zh) | 基于人工智能的数据中心数据管理方法及系统 | |
CN115757745A (zh) | 基于人工智能的业务场景控制方法、系统及云平台 | |
CN110378739B (zh) | 一种数据流量匹配方法及装置 | |
CN109447694B (zh) | 一种用户特征分析方法及其系统 | |
CN113240013A (zh) | 基于样本筛选的模型训练方法、装置、设备及存储介质 | |
CN110532448B (zh) | 基于神经网络的文档分类方法、装置、设备及存储介质 | |
CN115879586B (zh) | 基于消融实验的投诉预测优化方法、装置及存储介质 | |
CN112783779A (zh) | 测试用例的生成方法、装置、电子设备和存储介质 | |
CN115576973B (zh) | 一种业务部署方法、装置、计算机设备和可读存储介质 | |
CN115718879A (zh) | 数据治理方法、装置以及存储介质 | |
CN115309332A (zh) | 文件搬迁方法、客户端以及计算机可读存储介质 | |
CN115879587B (zh) | 样本不均衡条件下的投诉预测方法、装置及存储介质 | |
CN114969018A (zh) | 一种数据监控方法及系统 | |
CN114595146A (zh) | Ab测试方法、装置、系统、电子设备及介质 | |
CN111652741B (zh) | 用户偏好分析方法、装置及可读存储介质 | |
KR20140073624A (ko) | 기업의 해외 진출 역량 평가 방법 | |
CN113065880A (zh) | 群体不满意用户识别方法、装置、设备及存储介质 | |
McConnell et al. | Automated Ki-67 proliferation scoring from histopathology images using mobile and cloud technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |