CN115879587B - 样本不均衡条件下的投诉预测方法、装置及存储介质 - Google Patents
样本不均衡条件下的投诉预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115879587B CN115879587B CN202210028600.3A CN202210028600A CN115879587B CN 115879587 B CN115879587 B CN 115879587B CN 202210028600 A CN202210028600 A CN 202210028600A CN 115879587 B CN115879587 B CN 115879587B
- Authority
- CN
- China
- Prior art keywords
- samples
- sample
- training set
- complaint
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 160
- 238000012360 testing method Methods 0.000 claims abstract description 75
- 238000012545 processing Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种样本不均衡条件下的投诉预测方法、装置及存储介质,其中该方法,包括:采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中训练集中样本的类别分为投诉类和不投诉类;根据训练集中少数类样本的数量K,将述训练集中的多数类样本进行聚类处理,得到与少数类样本的数量对应的K个样本集;基于K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,其中基分类器的数量N为根据训练集的不平衡程度和样本数量所确定的;利用训练好的N个基分类器对测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定测试集的每个样本的分类结果,其中分类结果分为投诉和不投诉。
Description
技术领域
本申请涉及信息分类技术领域,特别是涉及一种样本不均衡条件下的投诉预测方法、装置及存储介质。
背景技术
随着第三产业的快速发展,以及互联网等数字化技术的应用,如何在科技快速赋能业务的同时保障对用户的服务质量,已经成为了大多企业不得不仔细思考的课题。科技可以让用户得到更加精准、快速、便捷的服务,但同时,用户对服务质量的要求也在逐步提升。随着国家层面对于社会声音的重视,以及互联网的快速发展,表达意见的途径越来越直接有效,如果用户对于企业服务不满意,可以通过媒体平台、监管部门等渠道进行投诉,而企业被投诉对于企业的形象以及竞争力等会产生负面影响,甚至会被监管处罚。例如,对于金融企业来说,国家相关监管部门对于企业被投诉情况会有相应的要求,如果被监管投诉数量超过标准,将会对企业声誉造成影响,甚至会有一定程度处罚。那么,企业就需要在提升自身服务质量的同时,对于可能的投诉进行前置的处理,如果能在用户去监管投诉前及时发现该风险,并介入干预,进行安抚,那么就可以降低用户的监管投诉数量,及时为用户解决问题,同时维护企业声誉和形象。
降投诉的目的就是为了通过分析用户数据,找到去监管投诉风险较大的用户提前介入沟通解决问题,降低用户的监管投诉可能性。因为用户的特征数据较为庞大,目前人工处理更多的是凭借经验和参考文档进行判断,准确性受限,同时如果工单量较大,人工分析也会极大降低处理速度,容易错过安抚用户的最佳时期,因此,使用机器学习来替代人工进行建模分析预测,是一个提升投诉预测效率的手段。
在进行机器学习建模时,数据由于分布不均衡,会造成模型较难提取规律,容易产生过度依赖有限的数据样本而导致过拟合问题,应用时准确性会很差。数据分布不均衡,即数据集中,每个类别下的样本数量相差较大,如果类别不平衡比例超过4:1,就会造成偏移,而在投诉预测场景下,对于建立了非投诉工单的用户,预测其是否回去监管投诉即为预测小概率事件,数据集中不投诉和投诉的样本比例差距会比较大,大多情况下会超出4:1很多。一些常规的降采样方式关注于将大样本量数据缩小为和小量样本类相同数量的规模,从而丢失很多大样本量类别的信息,而过采样专注于复制或生成小量样本类使得规模达到大样本类样本数量,这会使得训练过程由于样本量的大量扩充变得很慢,同时对于小样本类的数据过多的增强会使得模型学习过多的重复信息,对于模型的分类效果不会同程度提升。
针对上述的现有技术中存在的样本不均衡导致投诉预测模型的预测准确率低的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明的实施例提供了一种样本不均衡条件下的投诉预测方法、装置及存储介质,以至少解决现有技术中存在的样本不均衡导致投诉预测模型的预测准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种样本不均衡条件下的投诉预测方法,包括:采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器;利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉。
可选地,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器之前,包括:根据所述训练集的不平衡程度和样本数量,确定基分类器的数量N。
可选地,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,包括:从K个样本集中各抽取一个样本,将每次抽取的K个样本与所述训练集中少数类的K个样本组成一个样本组,进行N次抽取后,得到N个样本组;使用N个样本组分别训练N个基分类器。
可选地,从K个样本集中各抽取一个样本,包括:从所述K个样本集中各随机抽取一个样本;或者从所述K个样本集中各按顺序抽取一个样本。
可选地,利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,包括:将训练好的N个基分类器集成为投诉预测模型;将所述测试集的每个样本输入所述投诉预测模型,根据所述投诉预测模型中N个基分类器的预测结果,确定所述测试集的每个样本的分类结果。
可选地,根据所述投诉预测模型中N个基分类器的分类结果,确定所述测试集的每个样本的分类结果,包括:对于所述测试集的每个样本,统计N个基分类器的不同预测结果的数量;将多数类的预测结果确定为分类结果,得到所述测试集的每个样本的分类结果。
可选地,在所述训练集中投诉类的样本小于不投诉类的样本时,所述训练集中投诉类的样本为少数类样本,所述训练集中不投诉类的样本为多数类样本;在所述训练集中投诉类的样本大于不投诉类的样本时,所述训练集中不投诉类的样本为少数类样本,所述训练集中投诉类的样本为多数类样本。
根据本发明实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本发明实施例的另一个方面,还提供了一种样本不均衡条件下的投诉预测装置,包括:采集模块,用于采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;聚类模块,用于根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;训练模块,用于基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,其中所述基分类器的数量N为根据所述训练集的不平衡程度和样本数量所确定的;预测模块,用于利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉。
根据本发明实施例的另一个方面,还提供了一种样本不均衡条件下的投诉预测装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,其中所述基分类器的数量N为根据所述训练集的不平衡程度和样本数量所确定的;利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉。
在本发明实施例中,首先采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,然后根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集,其次基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,最后利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果。本发明为了解决样本类别不平衡较严重场景的分类问题,通过聚类算法,将大样本类别数据聚类为与小样本类别样本数量相同的类,在每类样本中抽样一个样本,与小样本类组成一个基分类器的样本数据,按此方式训练多个基分类器,使得每个基分类器在训练过程中尽可能多的包含了大样本类的特征信息,在平衡样本的同时尽可能避免欠采样对训练样本信息的丢失。并且,运用集成思想,同时考虑多个分类器的预测结果,综合评定,可以提升模型的泛化性能。从而解决了样本不均衡导致投诉预测模型的预测准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是用于实现根据本发明实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本发明实施例1的第一个方面所述的样本不均衡条件下的投诉预测方法的流程示意图;
图3是根据本发明实施例1所述的基于聚类和降采样xgboost集成投诉预测模型的框架示意图;
图4是根据本发明实施例2所述的样本不均衡条件下的投诉预测装置的示意图;以及
图5是根据本发明实施例3所述的样本不均衡条件下的投诉预测装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
聚类:是一种无监督机器学习算法,可以将数据通过距离的度量方式,分为多个类别,使得每个类别内的样本彼此相似,不同类的样本相异;
XGBoost模型:是一种集成树模型框架,高效地实现了GBDT(梯度提升决策树)算法并进行了算法工程上的改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中,达到了很好的分类效果。
实施例1
根据本实施例,提供了一种样本不均衡条件下的投诉预测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现样本不均衡条件下的投诉预测方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本发明实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本发明实施例中的样本不均衡条件下的投诉预测方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的样本不均衡条件下的投诉预测方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种样本不均衡条件下的投诉预测方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;
可选地,在所述训练集中投诉类的样本小于不投诉类的样本时,所述训练集中投诉类的样本为少数类样本,所述训练集中不投诉类的样本为多数类样本;在所述训练集中投诉类的样本大于不投诉类的样本时,所述训练集中不投诉类的样本为少数类样本,所述训练集中投诉类的样本为多数类样本。
在本发明实施例中,对于建立非投诉工单的用户进行相关特征数据采集,将采集的相关特征数据分为训练集和测试集。训练集中样本的类别分为会投诉类和不会投诉类样本,不会投诉样本数量往往比会投诉样本多很多。此外,可以将训练集和测试集进行特征工程,同时进行标准化处理,为聚类做准备。
S204:根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;
在本发明实施例中,需要统计少数类样本(例如,会投诉样本)的数量,假设为K(适当定义K,不需要保证所有的大样本量类的样本都参与学习,平衡精度和速度),那么将多数类样本(例如,不会投诉样本)进行KMeans聚类成K类,得到与少数类样本的数量对应的K个样本集,如图3所示。
S206:基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器;
可选地,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器之前,包括:根据所述训练集的不平衡程度和样本数量,确定基分类器的数量N。
可选地,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,包括:从K个样本集中各抽取一个样本,将每次抽取的K个样本与所述训练集中少数类的K个样本组成一个样本组,进行N次抽取后,得到N个样本组;使用N个样本组分别训练N个基分类器。
可选地,从K个样本集中各抽取一个样本,包括:从所述K个样本集中各随机抽取一个样本;或者从所述K个样本集中各按顺序抽取一个样本。
在本发明实施例中,可以根据样本不平衡程度和样本数量,定义基分类器数量N,假设为10个,即需要训练10个分类器。每个基分类器使用全部的小样本类样本,随机不放回地从聚成的K个样本集中各抽取1个样本,组成大样本类的K个样本,与小样本类K个样本一起组成训练集(2K个样本)进行XGBoost训练,保存10个基分类器。本发明通过聚类后随机采样,既通过降采样平衡了类别之间的样本差异,同时使得每个基分类器在训练过程中尽可能多的包含了大样本类的特征信息,保障了每个基分类器训练样本的信息的多样性,提升分类效果和泛化能力。
此外,也可以从K个样本集中各按顺序抽取一个样本,组成大样本类的K个样本,与小样本类K个样本一起组成训练集(2K个样本)进行XGBoost训练10个基分类器。
S208:利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉。
可选地,利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,包括:将训练好的N个基分类器集成为投诉预测模型;将所述测试集的每个样本输入所述投诉预测模型,根据所述投诉预测模型中N个基分类器的预测结果,确定所述测试集的每个样本的分类结果。
可选地,根据所述投诉预测模型中N个基分类器的分类结果,确定所述测试集的每个样本的分类结果,包括:对于所述测试集的每个样本,统计N个基分类器的不同预测结果的数量;将多数类的预测结果确定为分类结果,得到所述测试集的每个样本的分类结果。
在本发明实施例中,如图3所示,集成模型,用10个分类器分别对测试集样本进行预测,对每个样本,采用少数服从多数原则进行分类,即超过5个分类器预测为会投诉,则将该样本分类为会投诉,否则分类为不会投诉。本发明运用集成思想,同时考虑多个分类器的预测结果,综合评定,可以提升模型的泛化性能,同时在训练过程与单分类器相比引入了更多的样本,能够学习更多的信息。
从而,本发明提出的样本不均衡条件下的投诉预测方法,首先采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,然后根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集,其次基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,最后利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果。本发明为了解决样本类别不平衡较严重场景的分类问题,通过聚类算法,将大样本类别数据聚类为与小样本类别样本数量相同的类,在每类样本中抽样一个样本,与小样本类组成一个基分类器的样本数据,按此方式训练多个基分类器,使得每个基分类器在训练过程中尽可能多的包含了大样本类的特征信息,在平衡样本的同时尽可能避免欠采样对训练样本信息的丢失。并且,运用集成思想,同时考虑多个分类器的预测结果,综合评定,可以提升模型的泛化性能。本发明自动化分类预测,降低人工识别成本,可以应用于多业务场景下的样本不均衡分类问题,通过使用XGBoost基分类器可以达到较好的分类性能,聚类后随机采样可以保障每个基分类器训练样本的信息的多样性,提升分类效果和泛化能力。从而解决了样本不均衡导致投诉预测模型的预测准确率低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图4示出了根据本实施例所述的样本不均衡条件下的投诉预测装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:采集模块410,用于采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;聚类模块420,用于根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;训练模块430,用于基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,其中所述基分类器的数量N为根据所述训练集的不平衡程度和样本数量所确定的;预测模块440,用于利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉。
可选地,装置440还包括分类器数量确定模块,用于基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器之前,根据所述训练集的不平衡程度和样本数量,确定基分类器的数量N。
可选地,聚类模块420具体用于:从K个样本集中各抽取一个样本,将每次抽取的K个样本与所述训练集中少数类的K个样本组成一个样本组,进行N次抽取后,得到N个样本组;使用N个样本组分别训练N个基分类器。
可选地,聚类模块420还具体用于:从所述K个样本集中各随机抽取一个样本;或者从所述K个样本集中各按顺序抽取一个样本。
可选地,训练模块430,具体用于将训练好的N个基分类器集成为投诉预测模型;将所述测试集的每个样本输入所述投诉预测模型,根据所述投诉预测模型中N个基分类器的预测结果,确定所述测试集的每个样本的分类结果。
可选地,预测模块440,具体用于:对于所述测试集的每个样本,统计N个基分类器的不同预测结果的数量;将多数类的预测结果确定为分类结果,得到所述测试集的每个样本的分类结果。
可选地,在所述训练集中投诉类的样本小于不投诉类的样本时,所述训练集中投诉类的样本为少数类样本,所述训练集中不投诉类的样本为多数类样本;在所述训练集中投诉类的样本大于不投诉类的样本时,所述训练集中不投诉类的样本为少数类样本,所述训练集中投诉类的样本为多数类样本。
从而根据本实施例,为了解决样本类别不平衡较严重场景的分类问题,通过聚类算法,将大样本类别数据聚类为与小样本类别样本数量相同的类,在每类样本中抽样一个样本,与小样本类组成一个基分类器的样本数据,按此方式训练多个基分类器,使得每个基分类器在训练过程中尽可能多的包含了大样本类的特征信息,在平衡样本的同时尽可能避免欠采样对训练样本信息的丢失。并且,运用集成思想,同时考虑多个分类器的预测结果,综合评定,可以提升模型的泛化性能。从而解决了样本不均衡导致投诉预测模型的预测准确率低的技术问题。
实施例3
图5示出了根据本实施例所述的样本不均衡条件下的投诉预测装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:处理器510;以及存储器520,与处理器510连接,用于为处理器510提供处理以下处理步骤的指令:采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器;利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉。
可选地,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器之前,包括:根据所述训练集的不平衡程度和样本数量,确定基分类器的数量N。
可选地,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,包括:从K个样本集中各抽取一个样本,将每次抽取的K个样本与所述训练集中少数类的K个样本组成一个样本组,进行N次抽取后,得到N个样本组;使用N个样本组分别训练N个基分类器。
可选地,从K个样本集中各抽取一个样本,包括:从所述K个样本集中各随机抽取一个样本;或者从所述K个样本集中各按顺序抽取一个样本。
可选地,利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,包括:将训练好的N个基分类器集成为投诉预测模型;将所述测试集的每个样本输入所述投诉预测模型,根据所述投诉预测模型中N个基分类器的预测结果,确定所述测试集的每个样本的分类结果。
可选地,根据所述投诉预测模型中N个基分类器的分类结果,确定所述测试集的每个样本的分类结果,包括:对于所述测试集的每个样本,统计N个基分类器的不同预测结果的数量;将多数类的预测结果确定为分类结果,得到所述测试集的每个样本的分类结果。
可选地,在所述训练集中投诉类的样本小于不投诉类的样本时,所述训练集中投诉类的样本为少数类样本,所述训练集中不投诉类的样本为多数类样本;在所述训练集中投诉类的样本大于不投诉类的样本时,所述训练集中不投诉类的样本为少数类样本,所述训练集中投诉类的样本为多数类样本。
从而根据本实施例,为了解决样本类别不平衡较严重场景的分类问题,通过聚类算法,将大样本类别数据聚类为与小样本类别样本数量相同的类,在每类样本中抽样一个样本,与小样本类组成一个基分类器的样本数据,按此方式训练多个基分类器,使得每个基分类器在训练过程中尽可能多的包含了大样本类的特征信息,在平衡样本的同时尽可能避免欠采样对训练样本信息的丢失。并且,运用集成思想,同时考虑多个分类器的预测结果,综合评定,可以提升模型的泛化性能。从而解决了样本不均衡导致投诉预测模型的预测准确率低的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种样本不均衡条件下的投诉预测方法,其特征在于,包括:
采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;
根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;
基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器;
利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉;
其中,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,包括:
从K个样本集中各抽取一个样本,将每次抽取的K个样本与所述训练集中少数类的K个样本组成一个样本组,进行N次抽取后,得到N个样本组;
使用N个样本组分别训练N个基分类器。
2.根据权利要求1所述的方法,其特征在于,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器之前,包括:根据所述训练集的不平衡程度和样本数量,确定基分类器的数量N。
3.根据权利要求1所述的方法,其特征在于,从K个样本集中各抽取一个样本,包括:
从所述K个样本集中各随机抽取一个样本;或者
从所述K个样本集中各按顺序抽取一个样本。
4.根据权利要求1所述的方法,其特征在于,利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,包括:
将训练好的N个基分类器集成为投诉预测模型;
将所述测试集的每个样本输入所述投诉预测模型,根据所述投诉预测模型中N个基分类器的预测结果,确定所述测试集的每个样本的分类结果。
5.根据权利要求4所述的方法,其特征在于,根据所述投诉预测模型中N个基分类器的分类结果,确定所述测试集的每个样本的分类结果,包括:
对于所述测试集的每个样本,统计N个基分类器的不同预测结果的数量;
将多数类的预测结果确定为分类结果,得到所述测试集的每个样本的分类结果。
6.根据权利要求1所述的方法,其特征在于,在所述训练集中投诉类的样本小于不投诉类的样本时,所述训练集中投诉类的样本为少数类样本,所述训练集中不投诉类的样本为多数类样本;
在所述训练集中投诉类的样本大于不投诉类的样本时,所述训练集中不投诉类的样本为少数类样本,所述训练集中投诉类的样本为多数类样本。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至6中任意一项所述的方法。
8.一种样本不均衡条件下的投诉预测装置,其特征在于,包括:
采集模块,用于采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;
聚类模块,用于根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;
训练模块,用于基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,其中所述基分类器的数量N为根据所述训练集的不平衡程度和样本数量所确定的;
预测模块,用于利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉;
其中,聚类模块具体用于:
从K个样本集中各抽取一个样本,将每次抽取的K个样本与所述训练集中少数类的K个样本组成一个样本组,进行N次抽取后,得到N个样本组;
使用N个样本组分别训练N个基分类器。
9.一种样本不均衡条件下的投诉预测装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
采集用户的相关特征数据,并将采集的相关特征数据分为训练集和测试集,其中所述训练集中样本的类别分为投诉类和不投诉类;
根据所述训练集中少数类样本的数量K,将所述训练集中的多数类样本进行聚类处理,得到与所述少数类样本的数量对应的K个样本集;
基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,其中所述基分类器的数量N为根据所述训练集的不平衡程度和样本数量所确定的;
利用训练好的N个基分类器对所述测试集的每个样本进行预测,并根据N个基分类器的预测结果,确定所述测试集的每个样本的分类结果,其中所述分类结果分为投诉和不投诉;
其中,基于所述K个样本集和所述训练集中少数类的K个样本,分别训练N个基分类器,包括:
从K个样本集中各抽取一个样本,将每次抽取的K个样本与所述训练集中少数类的K个样本组成一个样本组,进行N次抽取后,得到N个样本组;
使用N个样本组分别训练N个基分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028600.3A CN115879587B (zh) | 2022-01-11 | 2022-01-11 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210028600.3A CN115879587B (zh) | 2022-01-11 | 2022-01-11 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115879587A CN115879587A (zh) | 2023-03-31 |
CN115879587B true CN115879587B (zh) | 2024-01-26 |
Family
ID=85756865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210028600.3A Active CN115879587B (zh) | 2022-01-11 | 2022-01-11 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115879587B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
WO2019169700A1 (zh) * | 2018-03-08 | 2019-09-12 | 平安科技(深圳)有限公司 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN111160605A (zh) * | 2019-11-25 | 2020-05-15 | 北京邮电大学 | 一种语音服务投诉预测方法及装置 |
CN112330055A (zh) * | 2020-11-23 | 2021-02-05 | 广州杰赛科技股份有限公司 | 一种用户投诉预测方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130097103A1 (en) * | 2011-10-14 | 2013-04-18 | International Business Machines Corporation | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set |
-
2022
- 2022-01-11 CN CN202210028600.3A patent/CN115879587B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019169700A1 (zh) * | 2018-03-08 | 2019-09-12 | 平安科技(深圳)有限公司 | 一种数据分类方法、装置、设备及计算机可读存储介质 |
CN108764366A (zh) * | 2018-06-07 | 2018-11-06 | 南京信息职业技术学院 | 针对非均衡数据的特征选择和聚类抽样集成二分类方法 |
CN111160605A (zh) * | 2019-11-25 | 2020-05-15 | 北京邮电大学 | 一种语音服务投诉预测方法及装置 |
CN111080442A (zh) * | 2019-12-21 | 2020-04-28 | 湖南大学 | 信用评分模型的构建方法、装置、设备及存储介质 |
CN112330055A (zh) * | 2020-11-23 | 2021-02-05 | 广州杰赛科技股份有限公司 | 一种用户投诉预测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115879587A (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598157B (zh) | 目标信息识别方法、装置、设备及存储介质 | |
CN106022826A (zh) | 一种网络直播平台中的作弊用户识别方法与系统 | |
CN110390198B (zh) | 一种对小程序的风险巡检方法、装置及电子设备 | |
CN112966767B (zh) | 一种特征提取和分类任务分离的数据不均衡处理方法 | |
CN112711983B (zh) | 核型分析系统、方法、电子设备及可读存储介质 | |
CN111931809A (zh) | 数据的处理方法、装置、存储介质及电子设备 | |
CN112995690B (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
WO2024114034A1 (zh) | 内容推荐方法、装置、设备、介质和程序产品 | |
CN107437095A (zh) | 类别确定方法及装置 | |
CN105512300B (zh) | 信息过滤方法及系统 | |
CN118014051B (zh) | 多模态大模型增量学习方法、装置及计算机设备 | |
CN113033722A (zh) | 传感器数据融合方法、装置、存储介质及计算设备 | |
CN108984514A (zh) | 词语的获取方法及装置、存储介质、处理器 | |
CN110378739B (zh) | 一种数据流量匹配方法及装置 | |
CN111178701A (zh) | 一种基于特征衍生技术的风险控制方法方法、装置和电子设备 | |
CN112822121A (zh) | 流量识别方法、流量确定方法、知识图谱建立方法 | |
CN114675985A (zh) | 一种基于大数据的网络消息处理系统 | |
CN115879587B (zh) | 样本不均衡条件下的投诉预测方法、装置及存储介质 | |
CN107734534B (zh) | 一种网络负荷评估方法及装置 | |
CN112269937A (zh) | 一种计算用户相似度的方法、系统及装置 | |
CN111368858B (zh) | 用户满意度评估方法及装置 | |
CN116738194A (zh) | 一种数据特征选取方法及装置 | |
CN110674632A (zh) | 一种确定安全级别的方法及装置、存储介质和设备 | |
CN115879586B (zh) | 基于消融实验的投诉预测优化方法、装置及存储介质 | |
CN114511022A (zh) | 特征筛选、行为识别模型训练、异常行为识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |