CN109982367B - 移动终端上网用户投诉预测方法、装置、设备及存储介质 - Google Patents
移动终端上网用户投诉预测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109982367B CN109982367B CN201711459478.0A CN201711459478A CN109982367B CN 109982367 B CN109982367 B CN 109982367B CN 201711459478 A CN201711459478 A CN 201711459478A CN 109982367 B CN109982367 B CN 109982367B
- Authority
- CN
- China
- Prior art keywords
- mobile terminal
- complaint
- data set
- internet
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000012545 processing Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 44
- 230000006399 behavior Effects 0.000 claims description 56
- 238000010801 machine learning Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 29
- 230000005540 biological transmission Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000008447 perception Effects 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000013501 data transformation Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/14—Charging, metering or billing arrangements for data wireline or wireless communications
- H04L12/141—Indication of costs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/06—Testing, supervising or monitoring using simulated traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/24—Accounting or billing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供了一种移动终端上网用户投诉预测方法、装置、设备及存储介质。通过全面考虑投诉预测的数据指标,在移动终端上网用户投诉预测最终模型的输入特征变量中,采用:反映移动终端上网网络质量的网络数据指标、反映移动终端上网应用场景的移动终端上网应用类别、反映用户消费个性特点的行为数据指标,有效地提高了移动终端上网用户投诉预测精度。还通过采用新的数据变换、处理技术,在尽量保持原有训练数据集原始数据信息结构的前提下,实现训练数据集的平衡。从而训练、建立精确的移动终端上网用户投诉预测模型,实现更精准的移动终端上网用户投诉预测,提升投诉处理效率,提升移动终端用户使用感知。
Description
技术领域
本发明涉及移动业务支撑技术领域,尤其涉及一种移动终端上网用户投诉预测的方法、装置、设备及存储介质。
背景技术
对于电信运营商及移动互联网来说,以用户为中心,关注用户需求和用户体验,降低用户投诉率,提升用户满意度是日常经营的重点工作内容。传统的用户投诉处理方法是在用户主动发起投诉后再予以响应处理,具有投诉响应时间长、投诉用户处理满意度低等弊端,已很难满足当前激烈的市场竞争需求和较高的业务时效性要求。同时,4G的商用使我们真正进入移动互联网时代,利用移动终端(如手机、平板电脑等)上网已经成为用户移动通信的主流形式,移动终端上网的服务质量直接影响用户上网感知,已成为当前用户最关注的问题,越来越多的用户因为移动终端上网感知问题而考虑转网。因此,准确、主动监测用户对移动终端上网的感知情况,及时、主动识别出移动终端上网用户投诉,在用户发起投诉之前及时解决用户移动终端上网的问题,化被动为主动,在用户投诉之前提前预测问题并解决,能够有效提升用户手机上网满意度,也是4G时代电信运营商市场竞争热点之一。
目前,已有技术实现关于移动互联网用户投诉的预测,也就是说,现有技术中已经实现对移动互联网客户感知评价。
例如,第一相关技术提供了一种移动互联网用户投诉的预测方法和装置,通过获取待预测的移动互联网用户在统计周期内的上网数据记录;根据上网数据记录,计算待预测的移动互联网用户对应的流量使用数据记录;根据统计周期内待预测的移动互联网用户对应的流量使用记录、历史投诉数据记录、套餐及业务订购数据记录,计算待预测的移动互联网用户对应的投诉相关特征;将投诉相关特征输入到验证后的投诉预测模型中,获取待预测的移动互联网用户的投诉风险值;输出待预测的移动互联网用户的投诉风险值和投诉相关特征,预测出每个投诉用户可能的投诉内容。从而降低了移动互联网用户的投诉数量,加快了投诉的处理速度。
又如,第二相关技术提供了一种基于信令数据的潜在投诉用户预测方法及系统,其通过以A接口信令数据为基础建立包括投诉用户特征向量和未投诉用户特征向量的全网用户特征向量,再根据投诉用户特征向量和未投诉用户特征向量计算未投诉用户与投诉用户的业务相似度,最后根据业务相似度确定未投诉用户中的潜在投诉用户,业务相似度越高,用户为潜在投诉用户的可能性越大。从而能够提前预测出潜在投诉用户,提前预警,提高用户的感知。
然而,在第一相关技术中,对移动互联网业务用户投诉的预测,仅仅针对用户关于流量使用量引发的费用投诉。第二相关技术中,预测模型中考虑了由于网络质量问题引发的用户投诉,但移动终端用户上网的投诉并不仅仅与网络费用和网络指标有关。
另外,现有的投诉预测方案多采用机器学习中的分类预测算法模型进行预测,投诉用户量和非投诉用户量则是分类预测算法模型机器学习的训练数据集。然而从机器学习的角度看,如果训练数据集存在严重的数据不平衡,则会导致预测效果不佳。在通信网络实际运营过程中,投诉用户量占少数,其不到非投诉用户量的1%,即投诉用户量和非投诉用户量存在严重的数据不平衡,但上述两个现有方案,在用户投诉预测中,并没有考虑投诉和非投诉用户量的严重不平衡问题。
综上所述,现有的移动终端上网用户投诉预测技术存在如下缺陷:
投诉预测采用的数据指标不够全面,预测结果无法高精度地反映实际投诉情况,即预测精度不高;
投诉预测过程中忽略投诉和非投诉用户量的数据不平衡问题,使得机器学习中的预测算法模型预测效果不佳,严重影响预测精度。
发明内容
本发明实施例提供了一种移动终端上网用户投诉预测的方法、装置、设备及介质,通过全面考虑投诉预测的数据指标,在移动终端上网用户投诉预测最终模型的输入特征变量中,采用:反映移动终端上网网络质量的网络数据指标、反映用户移动终端上网应用场景的移动终端上网应用类别、反映用户消费个性特点的行为数据指标,有效地提高了移动终端上网用户投诉预测精度。
第一方面,本发明实施例提供了一种移动终端上网用户投诉预测方法,包括:
S1、采集网络中移动终端上网投诉的识别码清单和与所述识别码清单匹配的投诉时间清单;
S2、采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网网络数据指标;
S3、采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网应用类别;
S4、采集网络中与所述识别码清单匹配的移动终端在Q个时间段的Q组计费系统数据指标,计算获得所述Q组计费系统数据指标的平均值;其中,Q为大于等于3的整数;
S5、基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集;
S6、对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型;
S7、采集网络中具体时间点所有移动终端识别码的待预测特征数据集,将所述待预测特征数据集输入所述移动终端上网用户投诉预测最终模型,以获得并输出所述具体时间点每一移动终端识别码的投诉预测概率值。
第二方面,本发明实施例提供了一种移动终端上网用户投诉预测装置,包括:
移动终端上网投诉数据采集模块,用于采集网络中移动终端上网投诉的识别码清单和与所述识别码清单匹配的投诉时间清单;
移动终端上网网络数据指标采集模块,用于采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网网络数据指标;
移动终端上网应用类别数据采集模块,用于采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网应用类别;
移动终端上网计费系统数据指标采集模块,用于采集网络中与所述识别码清单匹配的移动终端在Q个时间段的Q组计费系统数据指标,并获取所述Q组计费系统数据指标的平均值;其中,Q为大于等于3的整数;
特征数据集生成模块,用于基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集;
移动终端上网用户投诉模型生成模块,用于对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型;
投诉预测概率计算模块,用于采集网络中具体时间点所有移动终端识别码的待预测特征数据集,将所述待预测特征数据集输入所述移动终端上网用户投诉预测最终模型,以获得并输出所述具体时间点每一移动终端识别码的投诉预测概率值。
第三方面,本发明实施例提供了一种移动终端上网用户投诉预测设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的移动终端上网用户投诉预测方法、装置、设备及介质,通过采集网络中移动终端上网投诉的识别码清单和与所述识别码清单匹配的投诉时间清单;采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网网络数据指标;采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网应用类别;采集网络中与所述识别码清单匹配的移动终端在Q个时间段的Q组计费系统数据指标,计算获得所述Q组计费系统数据指标的平均值;基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集;对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型;采集网络中具体时间点所有移动终端识别码的待预测特征数据集,将所述待预测特征数据集输入所述移动终端上网用户投诉预测最终模型,以获得并输出所述具体时间点每一移动终端识别码的投诉预测概率值。在移动终端上网用户投诉预测中,根据影响用户投诉的客观和主观因素,建立全面的手机上网用户投诉预测模型数据指标体系;并且采用新的数据变换、处理技术,在尽量保持原有训练数据集原始数据信息结构的前提下,实现训练数据集的平衡。从而训练、建立精确的手机上网用户投诉预测模型,实现更精准的手机上网用户投诉预测,提升客户感知,提升客户投诉处理效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的一种移动终端上网用户投诉预测方法流程图;
图2示出了移动终端上网用户投诉预测方法中获取第一移动终端投诉特征数据集的具体方法流程图;
图3A示出了移动终端上网用户投诉预测方法中获得移动终端上网用户投诉预测最终模型的具体方法流程图;
图3B示出了移动终端上网用户投诉预测方法中获得移动终端上网用户投诉预测初始模型的具体方法流程图;
图3C示出了移动终端上网用户投诉预测方法中获得无噪声样本的第三移动终端投诉特征数据集的具体方法流程图;
图3D示出了移动终端上网用户投诉预测方法中基于无噪声样本的移动终端投诉特征数据集获得移动终端上网用户投诉预测最终模型的具体方法流程图;
图4示出了本发明实施例提供的一种移动终端上网用户投诉预测装置的结构框图;
图5示出了本发明实施例提供的一种移动终端上网用户投诉预测设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
实施例一
首先,请参考图1,本申请实施例提供了一种移动终端上网用户投诉预测方法,包括:
S1、采集网络中移动终端上网投诉的识别码清单和与所述识别码清单匹配的投诉时间清单;
S2、采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网网络数据指标;
S3、采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网应用类别;
S4、采集网络中与所述识别码清单匹配的移动终端在Q个时间段的Q组计费系统数据指标,计算获得所述Q组计费系统数据指标的平均值;其中,Q为大于等于3的整数,所述Q个时间段可以为三个时间相等的时间段,如三个月、三个季度等;
S5、基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集;其中,所述参考时间段可以为本月、本季度等。
S6、对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型;
S7、采集网络中具体时间点所有移动终端识别码的待预测特征数据集,将所述待预测特征数据集输入所述移动终端上网用户投诉预测最终模型,以获得并输出所述具体时间点每一移动终端识别码的投诉预测概率值。
例如,投诉预测概率值可以在0到1之间,值越大,则用户投诉的可能性越大。
在具体实施过程中,移动终端包括:手机、平板电脑、笔记本电脑等。移动终端的识别码可为手机号码、平板电脑或笔记本电脑等移动终端的唯一识别码。
以移动终端为手机为例,手机用户上网感知是否好,用户是否考虑投诉,首先取决于网络本身提供的服务质量,这体现为手机上网的网络数据指标。网络数据指标好,网络质量好,用户手机上网感知好,则用户投诉的可能性低,反之,则投诉可能性高。同时,手机用户上网感知是否好,用户是否考虑投诉,也受用户的具体应用场景影响。同样是手机上网网络速度下降20%,如果用户的上网应用是即时通信的文字传输,则用户感觉不明显,但如果用户正在看视频内容,则用户对网络速度下降感觉非常明显,可以感受到明显的卡顿,导致不好的用户上网感知,很容易引发投诉。在用户的消费个性方面,不同的用户在手机上网时有不同的消费个性,对相同的网络质量有不同的心理预期。同样是手机上网网页浏览应用,一定时间内,同样的网络速度下降20%,有的用户无法忍受,感知很差,可能引发投诉,而有的用户则觉得不是什么问题,还将就可以。不同的用户对同样的网络质量感知问题也可能会呈现出不同的行为特点,同样是手机上网网页浏览应用,一定时间内,同样的网络速度下降20%,同样网络速度感知很差,有的用户选择直接投诉,要求尽快解决,而有的用户即使感知不好,也不会投诉,只是选择换个时间再手机上网而已。
因此,在手机上网用户投诉预测模型的输入特征变量中,既要有反映手机上网网络质量的网络数据指标,也要有反映用户手机上网应用场景的手机上网应用类别,还要有反映用户消费个性特点的行为数据指标。
在具体实施过程中,所述移动终端上网网络数据指标可以选择:
域名系统(DNS,Domain Name System)查询成功率、DNS查询时延、核心网传输控制协议(TCP,Transmission Control Protocol)成功率、核心网传输控制协议(TCP)时延、无线传输控制协议(TCP)成功率、无线传输控制协议(TCP)时延、超文本传输协议(HTTP,HyperText Transfer Protocol)业务成功率、HTTP响应时延和HTTP下载速率;
所述移动终端上网应用类别可以选择:
导航业务、即时通信业务、视频播放业务、金融支付业务、音乐业务、游戏业务、网页浏览业务、应用下载业务和其它业务;
所述Q组计费系统数据指标可以选择:
用户年龄、性别、月通话主叫时长、月通话被叫时长、月通话主叫电话号码数、月通话被叫号码数、月通话主叫小区数、月通话被叫小区数、月流量、月消费金额(反映了手机上网用户的消费个性)。
在具体实施过程中,手机通信运营商的网络服务平台会统计关于手机上网投诉的号码清单及其对应的投诉时间清单,以及所有投诉时间点网络中所有号码的手机上网网络数据指标、所有号码的手机上网应用类别、在每个月的计费系统数据指标。故而,在实施本申请方案时,可在每个月月末在网络服务平台上采集上述所有数据。由于手机上网用户每个月的消费金额(反映手机上网用户的计费系统数据指标)不同,为获得能够反映手机上网用户平均水平的计费系统数据指标,在月末采集网络中所有号码的手机上网用户在本月、上月和上上月这三个月的计费系统数据指标,并计算计费系统数据指标在三个月的算术平均值作为各号码的手机上网用户的本月计费系统数据指标,从而更能反映出手机上网用户的消费个性。当然,如若要获得更精确的平均计费系统数据指标,可采集大于3个月度的计费系统数据指标,并求其平均值,这里不做具体限定。
在具体实施过程中,请参考图2,所述步骤S5包括以下子步骤:
S51、基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值(如所有号码的手机上网用户在相邻三个月度的计费系统数据指标的平均值),生成所述参考时间段内的第一基础数据集;
S52、对所述第一基础数据集进行第一筛选处理,以获得第二基础数据集;
S53、对所述第二基础数据集进行第二筛选处理,以获得所述参考时间段内的第一移动终端投诉特征数据集。
具体的,上述步骤S51中,所述第一基础数据集的每一行样本信息包括:移动终端上网投诉的识别码(如手机号码)、移动终端上网投诉的时间点、实际投诉行为类别(包括投诉或非投诉两类)、移动终端上网网络数据指标、移动终端上网应用类别和参考时间段内计费系统数据指标(如手机上网用户月度计费系统数据指标等)。
进一步,在具体实施过程中,所述子步骤S52具体为:
随机保留所述第一基础数据集中满足第一筛选条件的多行样本信息中的一行信息,以获得所述第二基础数据集;其中,所述第一筛选条件具体指实际投诉行为类别为非投诉、移动终端上网投诉的识别码相同且所述移动终端上网应用类别相同。
例如:手机的第一基础数据集每一行样本信息的内容如表1所示:
表1手机上网的第一基础数据集的多行样本信息样表
表1中的多行样本信息经过第一筛选条件进行筛选之后得到的第二基础数据集的内容如表2所示:
表2手机上网的第二基础数据集的多行样本信息样表
在具体实施过程中,所述子步骤S53具体为:
删除所述第二基础数据集中多行样本信息的移动终端上网投诉的时间点和移动终端上网投诉的识别码,以生成所述参考时间段内第一移动终端投诉特征数据集。
例如:对上述表2中的多行样本信息进行步骤S53的处理之后,得到如表3所示的第一移动终端投诉特征数据集。
表3手机上网的第一移动终端投诉特征数据集的多行样本信息样表
接着,请参考图3A,所述步骤S6包括以下子步骤:
S61、对所述第一移动终端投诉特征数据集进行第一次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测初始模型;
S62、将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,基于测试结果和所述实际投诉行为类别,查找并删除所述第一移动终端投诉特征数据集中的噪声样本;
S63、将删除所述噪声样本的所述第一移动终端投诉特征数据集进行第二次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型。
在具体实施过程中,实现对所述第一移动终端投诉特征数据集的机器学习训练,可采用决策树机器(GBDT,Gradient Boost Decision Tree)学习分类器。
请参考图3B,所述子步骤S61包括:
S611、根据所述实际投诉行为类别将所述第一移动终端投诉特征数据集分为第一正样本集和第一负样本集;其中,所述第一移动终端投诉特征数据集中实际投诉行为类别为投诉的至少一行样本信息组成的数据集合为所述第一正样本集,所述第一移动终端投诉特征数据集中实际投诉行为类别为非投诉的至少一行样本信息组成的数据集合为所述第一负样本集;
S612、对所述第一正样本集进行复制处理,获得第二正样本集,并基于所述第二正样本集和所述第一负样本集生成第二移动终端投诉特征数据集;其中,所述第二正样本集中样本数量与所述第一负样本集中样本数量的比值在预设范围内;
S613、将所述第二移动终端投诉特征数据集输入机器学习分类器进行预训练处理,以获得移动终端上网用户投诉预测初始模型。
仍以手机上网为例,由于通信网络运营过程中,投诉号码总是相对于非投诉号码要少很多,数据中正样本和负样本严重不平衡,正样本要远远少于负样本。为提高模型的预测精度,将本月手机号码投诉特征数据集(第一移动终端投诉特征数据集)输入GBDT决策树机器学习分类器,训练手机上网用户投诉预测模型前,需要进行训练数据集样本数据平衡处理。
其中,上述步骤S612即是对第一移动终端投诉特征数据集中的正、负样本进行数据平衡处理。将步骤S5生成的第一移动终端投诉特征数据集中的第一正样本集,采用直接复制法,使复制后的正样本与负样本总量相等。比如,若第一负样本集中负样本总量是第一正样本集中正样本总量的N倍,则每一个正样本复制(N-1)个,共计N个,形成新的正样本(即第二正样本集),再结合第一负样本集构成第二移动终端投诉特征数据集;其中,第二正样本集与第一负样本集总量基本相等。由于在实际应用中,正样本总量(N1)与负样本总量(N2)完全相等的几率很小,故N1与N2的比值可根据实际应用需求在预设范围(如0.95~1.05)之内即可认为二者基本相等。其中,N大于等于1,N1、N2大于0。
进一步,仍请参考图3C,所述子步骤S62包括:
S621、将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,以获得所述第一移动终端投诉特征数据集中每个样本预测为正样本或负样本的概率,进而获得所述第一移动终端投诉特征数据集中每个样本的预测投诉行为类别;其中,对于每个样本信息,“预测为正样本概率(P1)+预测为负样本概率(P2)=1”;进一步,可根据实际应用需求,可定义:若P1>P2且P1>预设概率(P0,如0.6),则“预测投诉行为类别为投诉(对应正样本)”,若P1<P2且P2>预设概率(P0),则“预测投诉行为类别为非投诉(对应负样本)”,若P1=P2,则删除该样本或重新测试。
S622、比较所述第一移动终端投诉特征数据集中每个样本的预测投诉行为类别和实际投诉行为类别,获得比较结果;
S623、基于所述比较结果和所述预测投诉行为类别的预测概率,确定所述第一移动终端投诉特征数据集中的噪声样本;
具体的,可对所述第一移动终端投诉特征数据集中的多行样本信息进行编号,基于样本编号、样本信息的实际投诉行为类别、预测投诉行为类别和预测概率生成预测结果集。将预测结果集中,实际样本类别与预测样本类别相反,且预测概率大于一定值P3(比如0.8)的样本筛选出来,作为噪声样本,是需剔除的样本清单。比如,实际为正样本,但应用手机上网用户投诉预测初始模型测试,预测结果为负样本,且概率大于P3;或实际为负样本,而应用手机上网用户投诉预测初始模型测试,预测结果为正样本,且概率大于P3。
S624、删除所述第一移动终端投诉特征数据集中的噪声样本,以获得第三移动终端投诉特征数据集。
进一步,仍请参考图3D,所述子步骤S63包括:
S631、根据所述实际投诉行为类别将删除噪声样本的第一移动终端投诉特征数据集分为第三正样本集和第二负样本集;其中,所述删除噪声样本的第一移动终端投诉特征数据集中实际投诉行为类别表示投诉行为的至少一行样本信息组成的数据集合为所述第三正样本集,所述删除噪声样本的第一移动终端投诉特征数据集中实际投诉行为类别表示非投诉行为的至少一行样本信息组成的数据集合为所述第二负样本集;
S632、对所述第三正样本集进行过抽样处理,获得第四正样本集;以及对所述第二负样本集进行欠抽样处理,获得第三负样本集;
设删除噪声样本的第一移动终端投诉特征数据集中负样本(第二负样本集)总量是正样本(第三正样本集)总量的M倍,则对第三正样本集进行过抽样的上抽样率Su和对第二负样本集进行欠抽样的下抽样率Sd满足式(1):
另外,所述第四正样本集和所述第三负样本集中样本点之间距离度量采用余弦相似度距离。两个n维样本点a(x11,x12,…,x1n)和b(x21,x22,…,x2n)之间的余弦相似度距离distab为:
S633、对所述第四正样本集进行第一聚类处理获得第五正样本集;以及对所述第三负样本集进行第二聚类处理获得第四负样本集;基于所述第五正样本集和所述第四负样本集生成第四移动终端投诉特征数据集;
具体的,一方面,将所述第四正样本集进行K-means聚类,聚类类别数为k1(一般为3到5)。针对聚类结果中每一簇,将簇心样本与该簇每一个非簇心样本配为一个样本对。在每一样本对进行插值,插值公式为:
Xnew=ui+rand(0,1)*(x-ui) 式(3)
其中,Xnew为插值获得的新的样本点,ui为聚类获取的第i个簇的簇心样本点,x为第i个簇中非簇心样本点,rand(0,1)为0到1之间的随机数。针对每一个样本对,通过插值形成的新正样本数为(Su-1)个,Su为上抽样率。原有正样本加上插值生成的新正样本,为所述第五正样本集。
另一方面,将所述第三负样本集进行K-means聚类,聚类类别数为k2(一般为5到7)。对聚类结果的每个簇进行欠抽样,欠抽样率为Sd,即在每个簇中,对非簇心样本点进行随机选取剔除,剔除后剩余的样本量为原样本量的1/Sd,剩余的负样本为所述第四负样本集。
进一步,将所述第五正样本集和所述第四负样本集合并得到所述第四移动终端投诉特征数据集。
S634、对所述第四移动终端投诉特征数据集进行机器学习训练,以获得移动终端上网用户投诉预测最终模型。
在具体实施过程中,在步骤S7中,所有移动终端识别码的投诉特征数据集中,网络数据指标和移动终端上网应用类别均采用需要预测时间点的数据指标值。
需要指出的是,本申请方案相比于背景技术中提及的两个现有方案至少具有以下技术有点:
1)在机器学习的具体实践任务中,选择一组全面、有代表性的特征变量,用于构建模型是非常重要的问题,对于机器学习获得的模型精准度至关重要。
现有的手机上网投诉预测技术,或者是只考虑流量使用量引发的费用投诉,只引入流量使用量为特征变量;或者是仅仅考虑网络质量引发的投诉,只引入网络数据指标为特征变量。这些技术用于建立手机上网用户投诉模型的特征变量体系,都没有全面覆盖引发手机上网用户投诉的各个特征变量,相应输入机器学习模型训练得到的手机上网预测模型精准度不高。本发明弥补了现有技术的不足,输入机器学习分类器中的投诉特征数据集中,特征变量(数据指标)既包括客观的网络数据指标和手机应用类别,也包括反映用户消费个性的计费系统数据指标,特征变量更全面,机器学习训练得到的模型预测更精准。2)在本申请技术方案设计的实现训练数据集平衡的技术中,由于非投诉号码量远远大于投诉号码量(超过100倍),采用预训练模型的方式来剔除噪声样本,在此基础上,通过聚类并在正样本和负样本上分别采用过抽样和欠抽样,同时采用余弦相似度距离来度量样本之间的距离,在实现训练数据集样本平衡的同时,最大限度的保留了原始数据集的信息结构,使机器学习训练得到的模型预测更精准。在采用同样的数据指标体系的情况下,应用本提案的数据集平衡技术与现有数据集平衡技术相比,在同样的训练数据集及决策树分类器情况下,模型预测精度提高了近10%。
综上所述,本技术方案中,输入GBDT决策树分类器中的投诉特征数据集的特征变量(数据指标),既包括网络数据指标,也包括移动终端上网应用类别和计费系统数据指标,提高了投诉预测的准确性。
另外,由于输入GBDT决策树分类器的训练数据集是严重不平衡数据集(非投诉号码远远多于投诉号码),先进行模型预训练,再利用训练获得模型对原训练数据集进行预测,根据预测结果,筛选出噪声样本,并对正样本和负样本中的噪声样本进行剔除。在此基础上,再分别对正样本和负样本进行聚类,并按照聚类结果,对正样本和负样本分别进行过抽样和欠抽样,同时,样本点之间距离的计算采用余弦相似度距离,从而在实现训练数据集正负样本平衡的同时,尽量保持了原训练数据集的信息结构,进一步提高了投诉预测的准确性。
实施例二
请参考图4,基于同一发明构思,本申请实施例还提供了一种移动终端上网用户投诉预测装置,包括:
移动终端上网投诉数据采集模块401,用于采集网络中移动终端上网投诉的识别码清单和与所述识别码清单匹配的投诉时间清单;
移动终端上网网络数据指标采集模块402,用于采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网网络数据指标;
移动终端上网应用类别数据采集模块403,用于采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网应用类别;
移动终端上网计费系统数据指标采集模块404,用于采集网络中与所述识别码清单匹配的移动终端在Q个时间段的Q组计费系统数据指标,计算获得所述Q组计费系统数据指标的平均值;其中,Q为大于等于3的整数;
特征数据集生成模块405,用于基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集;
移动终端上网用户投诉模型生成模块406,用于对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型;
投诉预测概率计算模块407,用于采集网络中具体时间点所有移动终端识别码的待预测特征数据集,将所述待预测特征数据集输入所述移动终端上网用户投诉预测最终模型,以获得并输出所述具体时间点每一移动终端识别码的投诉预测概率值。
在具体实施过程中,所述移动终端上网网络数据指标包括:
域名系统查询成功率、域名系统查询时延、核心网传输控制协议成功率、核心网传输控制协议时延、无线传输控制协议成功率、无线传输控制协议时延、超文本传输协议业务成功率、超文本传输协议响应时延和超文本传输协议下载速率;
所述移动终端上网应用类别包括:
导航业务、即时通信业务、视频播放业务、金融支付业务、音乐业务、游戏业务、网页浏览业务、应用下载业务;
所述Q组计费系统数据指标包括:
用户年龄、性别、月通话主叫时长、月通话被叫时长、月通话主叫电话号码数、月通话被叫号码数、月通话主叫小区数、月通话被叫小区数、月流量、月消费金额。
在具体实施过程中,所述特征数据集生成模块405,包括:
第一基础数据集生成单元,用于基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成所述参考时间段内的第一基础数据集;其中,所述第一基础数据集的每一行样本信息包括:移动终端上网投诉的识别码、移动终端上网投诉的时间点、实际投诉行为类别、移动终端上网网络数据指标、移动终端上网应用类别和参考时间段内计费系统数据指标;
第二基础数据集生成单元,用于对所述第一基础数据集进行第一筛选处理,以获得第二基础数据集;
第一移动终端投诉特征数据集生成单元,用于对所述第二基础数据集进行第二筛选处理,以获得所述参考时间段内的第一移动终端投诉特征数据集。
在具体实施过程中,所述第二基础数据集生成单元具体用于:
随机保留所述第一基础数据集中满足第一筛选条件的多行样本信息中的一行信息,以获得所述第二基础数据集;
其中,所述第一筛选条件具体指实际投诉行为类别为非投诉、移动终端上网投诉的识别码相同且所述移动终端上网应用类别相同。
在具体实施过程中,所述第一移动终端投诉特征数据集生成单元具体用于:
删除所述第二基础数据集中多行样本信息的移动终端上网投诉的时间点和移动终端上网投诉的识别码,以生成所述参考时间段内第一移动终端投诉特征数据集。
在具体实施过程中,所述移动终端上网用户投诉模型生成模块406,包括:
投诉预测初始模型生成单元,用于对所述第一移动终端投诉特征数据集进行第一次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测初始模型;
噪声样本查找删除单元,用于将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,基于测试结果和所述实际投诉行为类别,查找并删除所述一移动终端投诉特征数据集中的噪声样本;
投诉预测最终模型生成单元,用于将删除所述噪声样本的所述第一移动终端投诉特征数据集进行第二次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型。
在具体实施过程中,所述投诉预测初始模型生成单元包括:
第一正负样本集分类子单元,用于根据所述实际投诉行为类别将所述第一移动终端投诉特征数据集分为第一正样本集和第一负样本集;其中,所述第一移动终端投诉特征数据集中实际投诉行为类别为投诉的至少一行样本信息组成的数据集合为所述第一正样本集,所述第一移动终端投诉特征数据集中实际投诉行为类别为非投诉的至少一行样本信息组成的数据集合为所述第一负样本集;
第二移动终端投诉特征数据集生成子单元,用于对所述第一正样本集进行复制处理,获得第二正样本集,并基于所述第二正样本集和所述第一负样本集生成第二移动终端投诉特征数据集;其中,所述第二正样本集中样本数量与所述第一负样本集中样本数量的比值在预设范围内;
投诉预测初始模型生成子单元,用于将所述第二移动终端投诉特征数据集输入机器学习分类器进行预训练处理,以获得移动终端上网用户投诉预测初始模型。
在具体实施过程中,所述噪声样本查找删除单元包括:
预测投诉行为类别获得子单元,用于将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,以获得所述第一移动终端投诉特征数据集中每个样本预测为正样本或负样本的概率,进而获得所述第一移动终端投诉特征数据集中每个样本的预测投诉行为类别;
投诉行为类别比较子单元,用于比较所述第一移动终端投诉特征数据集中每个样本的预测投诉行为类别和实际投诉行为类别,获得比较结果;
噪声样本查找子单元,用于基于所述比较结果和所述预测投诉行为类别的预测概率,确定所述第一移动终端投诉特征数据集中的噪声样本;
第三移动终端投诉特征数据集获得子单元,用于删除所述第一移动终端投诉特征数据集中的噪声样本,以获得第三移动终端投诉特征数据集。
在具体实施过程中,所述投诉预测最终模型生成单元包括:
第二正负样本集分类子单元,用于根据所述实际投诉行为类别将删除噪声样本的第一移动终端投诉特征数据集分为第三正样本集和第二负样本集;其中,所述删除噪声样本的第一移动终端投诉特征数据集中实际投诉行为类别表示投诉行为的至少一行样本信息组成的数据集合为所述第三正样本集,所述删除噪声样本的第一移动终端投诉特征数据集中实际投诉行为类别表示非投诉行为的至少一行样本信息组成的数据集合为所述第二负样本集;
正负样本集抽样子单元,用于对所述第三正样本集进行过抽样处理,获得第四正样本集;以及对所述第二负样本集进行欠抽样处理,获得第三负样本集;其中,所述第四正样本集和核所述第三负样本集中样本点之间距离度量采用余弦相似度距离;
正负样本集聚类处理子单元,用于对所述第四正样本集进行第一聚类处理获得第五正样本集;以及对所述第三负样本集进行第二聚类处理获得第四负样本集;基于所述第五正样本集和所述第四负样本集生成第四移动终端投诉特征数据集;
投诉预测最终模型生成子单元,用于对所述第四移动终端投诉特征数据集进行机器学习训练,以获得移动终端上网用户投诉预测最终模型。
根据上面的描述,上述移动终端上网用户投诉预测装置与上述移动终端上网用户投诉预测方法对应,所以,该装置的一个或多个实施例与该方法的一个或多个实施例一致,在此就不再一一赘述了。
另外,结合图1述的本发明实施例的一种移动终端上网用户投诉预测方法可以由一种移动终端上网用户投诉预测设备来实现。图5示出了本发明实施例提供的一种移动终端上网用户投诉预测设备的硬件结构示意图。
一种移动终端上网用户投诉预测设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在数据处理装置的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述实施例中的任意一种移动终端上网用户投诉预测方法。
在一个示例中,移动终端上网用户投诉预测设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将一种移动终端上网用户投诉预测设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该移动终端上网用户投诉预测设备可以基于获取到网络上的移动终端上网用户投诉预测的数据指标,执行本发明实施例中的移动终端上网用户投诉预测方法,从而实现结合图1描述的移动终端上网用户投诉预测方法。
另外,结合上述实施例中的移动终端上网用户投诉预测方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种移动终端上网用户投诉预测方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (11)
1.一种移动终端上网用户投诉预测方法,其特征在于,所述方法包括以下步骤:
采集网络中移动终端上网投诉的识别码清单和与所述识别码清单匹配的投诉时间清单;
采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网网络数据指标;
采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网应用类别;
采集网络中与所述识别码清单匹配的移动终端在Q个时间段的Q组计费系统数据指标,计算获得所述Q组计费系统数据指标的平均值;其中,Q为大于等于3的整数;
基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集;
对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型;
采集网络中具体时间点所有移动终端识别码的待预测特征数据集,将所述待预测特征数据集输入所述移动终端上网用户投诉预测最终模型,以获得并输出所述具体时间点每一移动终端识别码的投诉预测概率值;
所述对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型,包括:
对所述第一移动终端投诉特征数据集进行第一次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测初始模型;
将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,基于测试结果和实际投诉行为类别,查找并删除所述第一移动终端投诉特征数据集中的噪声样本;
将删除所述噪声样本的所述第一移动终端投诉特征数据集进行第二次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型。
2.根据权利要求1所述的方法,其特征在于,所述移动终端上网网络数据指标包括如下项中的至少一项:
域名系统查询成功率、域名系统查询时延、核心网传输控制协议成功率、核心网传输控制协议时延、无线传输控制协议成功率、无线传输控制协议时延、超文本传输协议业务成功率、超文本传输协议响应时延和超文本传输协议下载速率;和/或
所述移动终端上网应用类别包括如下项中的至少一项:
导航业务、即时通信业务、视频播放业务、金融支付业务、音乐业务、游戏业务、网页浏览业务、应用下载业务;和/或
所述Q组计费系统数据指标包括如下项中的至少一项:
用户年龄、性别、月通话主叫时长、月通话被叫时长、月通话主叫电话号码数、月通话被叫号码数、月通话主叫小区数、月通话被叫小区数、月流量、月消费金额。
3.根据权利要求1所述的方法,其特征在于,所述基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集,包括:
基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成所述参考时间段内的第一基础数据集;其中,所述第一基础数据集的每一行样本信息包括:移动终端上网投诉的识别码、移动终端上网投诉的时间点、实际投诉行为类别、移动终端上网网络数据指标、移动终端上网应用类别和参考时间段内计费系统数据指标;
对所述第一基础数据集进行第一筛选处理,以获得第二基础数据集;
对所述第二基础数据集进行第二筛选处理,以获得所述参考时间段内的第一移动终端投诉特征数据集。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一基础数据集进行第一筛选处理,以获得第二基础数据集,包括:
随机保留所述第一基础数据集中满足第一筛选条件的多行样本信息中的一行信息,以获得所述第二基础数据集;
其中,所述第一筛选条件指实际投诉行为类别为非投诉、移动终端上网投诉的识别码相同且所述移动终端上网应用类别相同。
5.根据权利要求3所述的方法,其特征在于,所述对所述第二基础数据集进行第二筛选处理,以获得所述参考时间段内的第一移动终端投诉特征数据集,包括:
删除所述第二基础数据集中多行样本信息的移动终端上网投诉的时间点和移动终端上网投诉的识别码,以生成所述参考时间段内第一移动终端投诉特征数据集。
6.根据权利要求1所述的方法,其特征在于,所述对所述第一移动终端投诉特征数据集
进行第一次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测初始模型,包括:
根据所述实际投诉行为类别将所述第一移动终端投诉特征数据集分为第一正样本集和第一负样本集;其中,所述第一移动终端投诉特征数据集中实际投诉行为类别为投诉的至少一行样本信息组成的数据集合为所述第一正样本集,所述第一移动终端投诉特征数据集中实际投诉行为类别为非投诉的至少一行样本信息组成的数据集合为所述第一负样本集;
对所述第一正样本集进行复制处理,获得第二正样本集,并基于所述第二正样本集和所述第一负样本集生成第二移动终端投诉特征数据集;其中,所述第二正样本集中样本数量与所述第一负样本集中样本数量的比值在预设范围内;
将所述第二移动终端投诉特征数据集输入机器学习分类器进行预训练处理,以获得移动终端上网用户投诉预测初始模型。
7.根据权利要求1所述的方法,其特征在于,所述将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,基于测试结果和所述实际投诉行为类别,查找并删除所述第一移动终端投诉特征数据集中的噪声样本,包括:
将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,以获得所述第一移动终端投诉特征数据集中每个样本预测为正样本或负样本的概率,进而获得所述第一移动终端投诉特征数据集中每个样本的预测投诉行为类别;
比较所述第一移动终端投诉特征数据集中每个样本的预测投诉行为类别和实际投诉行为类别,获得比较结果;
基于所述比较结果和所述预测投诉行为类别的预测概率,确定所述第一移动终端投诉特征数据集中的噪声样本;
删除所述第一移动终端投诉特征数据集中的噪声样本,以获得第三移动终端投诉特征数据集。
8.根据权利要求1所述的方法,其特征在于,所述将删除所述噪声样本的所述第一移动终端投诉特征数据集进行第二次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型,包括:
根据所述实际投诉行为类别将删除噪声样本的第一移动终端投诉特征数据集分为第三正样本集和第二负样本集;其中,所述删除噪声样本的第一移动终端投诉特征数据集中实际投诉行为类别表示投诉行为的至少一行样本信息组成的数据集合为所述第三正样本集,所述删除噪声样本的第一移动终端投诉特征数据集中实际投诉行为类别表示非投诉行为的至少一行样本信息组成的数据集合为所述第二负样本集;
对所述第三正样本集进行过抽样处理,获得第四正样本集;以及对所述第二负样本集进行欠抽样处理,获得第三负样本集;其中,所述第四正样本集和核所述第三负样本集中样本点之间距离度量采用余弦相似度距离;
对所述第四正样本集进行第一聚类处理获得第五正样本集;以及对所述第三负样本集进行第二聚类处理获得第四负样本集;基于所述第五正样本集和所述第四负样本集生成第四移动终端投诉特征数据集;
对所述第四移动终端投诉特征数据集进行机器学习训练,以获得移动终端上网用户投诉预测最终模型。
9.一种移动终端上网用户投诉预测装置,其特征在于,所述装置包括:
移动终端上网投诉数据采集模块,用于采集网络中移动终端上网投诉的识别码清单和与所述识别码清单匹配的投诉时间清单;
移动终端上网网络数据指标采集模块,用于采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网网络数据指标;
移动终端上网应用类别数据采集模块,用于采集网络中与所述识别码清单和所述投诉时间清单匹配的移动终端上网应用类别;
移动终端上网计费系统数据指标采集模块,用于采集网络中与所述识别码清单匹配的移动终端在Q个时间段的Q组计费系统数据指标,并计算获得所述Q组计费系统数据指标的平均值;其中,Q为大于等于3的整数;
特征数据集生成模块,用于基于所述识别码清单、所述投诉时间清单、所述移动终端上网网络数据指标、所述移动终端上网应用类别和所述Q组计费系统数据指标的平均值,生成参考时间段内的第一移动终端投诉特征数据集;
移动终端上网用户投诉模型生成模块,用于对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型;
投诉预测概率计算模块,用于采集网络中具体时间点所有移动终端识别码的待预测特征数据集,将所述待预测特征数据集输入所述移动终端上网用户投诉预测最终模型,以获得并输出所述具体时间点每一移动终端识别码的投诉预测概率值;
所述对所述第一移动终端投诉特征数据集进行数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型,包括:
对所述第一移动终端投诉特征数据集进行第一次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测初始模型;
将所述第一移动终端投诉特征数据集输入所述移动终端上网用户投诉预测初始模型进行测试,基于测试结果和实际投诉行为类别,查找并删除所述第一移动终端投诉特征数据集中的噪声样本;
将删除所述噪声样本的所述第一移动终端投诉特征数据集进行第二次数据平衡处理和机器学习训练,以获得移动终端上网用户投诉预测最终模型。
10.一种移动终端上网用户投诉预测设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711459478.0A CN109982367B (zh) | 2017-12-28 | 2017-12-28 | 移动终端上网用户投诉预测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711459478.0A CN109982367B (zh) | 2017-12-28 | 2017-12-28 | 移动终端上网用户投诉预测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109982367A CN109982367A (zh) | 2019-07-05 |
CN109982367B true CN109982367B (zh) | 2022-04-29 |
Family
ID=67074731
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711459478.0A Active CN109982367B (zh) | 2017-12-28 | 2017-12-28 | 移动终端上网用户投诉预测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109982367B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110365528A (zh) * | 2019-07-10 | 2019-10-22 | 广州瀚信通信科技股份有限公司 | 一种基于家庭宽带大数据的处理投诉分析方法 |
CN110347840B (zh) * | 2019-07-18 | 2023-06-13 | 携程计算机技术(上海)有限公司 | 投诉文本类别的预测方法、系统、设备和存储介质 |
CN110796554B (zh) * | 2019-09-06 | 2024-05-24 | 中国平安财产保险股份有限公司 | 用户投诉预警方法、装置、计算机设备及存储介质 |
CN110602652B (zh) * | 2019-10-15 | 2021-07-27 | 中移信息技术有限公司 | 投诉模型的训练方法、用户投诉的预测方法、装置及设备 |
CN111160605A (zh) * | 2019-11-25 | 2020-05-15 | 北京邮电大学 | 一种语音服务投诉预测方法及装置 |
CN111210057A (zh) * | 2019-12-25 | 2020-05-29 | 广东飞企互联科技股份有限公司 | 手机上网用户投诉预测的方法 |
CN112330055A (zh) * | 2020-11-23 | 2021-02-05 | 广州杰赛科技股份有限公司 | 一种用户投诉预测方法和装置 |
CN113099475B (zh) * | 2021-04-20 | 2024-08-02 | 中国移动通信集团陕西有限公司 | 网络质量检测方法、装置、电子设备及可读存储介质 |
CN113554241B (zh) * | 2021-09-02 | 2024-04-26 | 国网山东省电力公司泰安供电公司 | 一种基于用户用电投诉行为的用户分层方法及预测方法 |
CN114154765B (zh) * | 2022-01-07 | 2024-08-02 | 中国联合网络通信集团有限公司 | 小区预测方法、装置、电子设备及存储介质 |
CN115134260A (zh) * | 2022-07-12 | 2022-09-30 | 北京东土拓明科技有限公司 | 用户感知提升方法及装置、计算设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141674A (zh) * | 2007-09-24 | 2008-03-12 | 中国移动通信集团福建有限公司 | 通信业务客户投诉处理装置和方法 |
CN103177648A (zh) * | 2011-12-20 | 2013-06-26 | 中国电信股份有限公司 | Cdma 网络信号投诉信息地图的制作方法 |
CN105095588A (zh) * | 2015-08-05 | 2015-11-25 | 中国联合网络通信集团有限公司 | 移动互联网用户投诉的预测方法和装置 |
CN105848174A (zh) * | 2015-01-16 | 2016-08-10 | 中国移动通信集团浙江有限公司 | 一种检测用户上网感知的方法和装置 |
CN106127345A (zh) * | 2016-06-28 | 2016-11-16 | 中国联合网络通信集团有限公司 | 一种移动用户投诉的预测方法和预测系统 |
CN107517120A (zh) * | 2016-06-17 | 2017-12-26 | 中国移动通信集团四川有限公司 | 一种检测用户上网质量的方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666390B2 (en) * | 2011-08-29 | 2014-03-04 | At&T Mobility Ii Llc | Ticketing mobile call failures based on geolocated event data |
GB2498513A (en) * | 2011-12-14 | 2013-07-24 | Actix Ltd | Mobile phone network management and optimisation |
-
2017
- 2017-12-28 CN CN201711459478.0A patent/CN109982367B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101141674A (zh) * | 2007-09-24 | 2008-03-12 | 中国移动通信集团福建有限公司 | 通信业务客户投诉处理装置和方法 |
CN103177648A (zh) * | 2011-12-20 | 2013-06-26 | 中国电信股份有限公司 | Cdma 网络信号投诉信息地图的制作方法 |
CN105848174A (zh) * | 2015-01-16 | 2016-08-10 | 中国移动通信集团浙江有限公司 | 一种检测用户上网感知的方法和装置 |
CN105095588A (zh) * | 2015-08-05 | 2015-11-25 | 中国联合网络通信集团有限公司 | 移动互联网用户投诉的预测方法和装置 |
CN107517120A (zh) * | 2016-06-17 | 2017-12-26 | 中国移动通信集团四川有限公司 | 一种检测用户上网质量的方法及装置 |
CN106127345A (zh) * | 2016-06-28 | 2016-11-16 | 中国联合网络通信集团有限公司 | 一种移动用户投诉的预测方法和预测系统 |
Non-Patent Citations (2)
Title |
---|
一种基于大数据技术的投诉分析与预测系统;董智纯 等;《信息通信》;20151026;全文 * |
基于数据挖掘的4G用户投诉预测;陈秀敏 等;《移动通信》;20171218;第41卷(第21期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109982367A (zh) | 2019-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109982367B (zh) | 移动终端上网用户投诉预测方法、装置、设备及存储介质 | |
CN107993085B (zh) | 模型训练方法、基于模型的用户行为预测方法及装置 | |
CN109598414B (zh) | 风险评估模型训练、风险评估方法、装置及电子设备 | |
CN106022505A (zh) | 一种预测用户离网的方法及装置 | |
CN105631049A (zh) | 一种识别诈骗短信的方法和系统 | |
CN110008973B (zh) | 一种模型训练方法、基于模型确定目标用户的方法及装置 | |
CN112966865B (zh) | 携号转网预测方法、装置及设备 | |
CN106572272A (zh) | 一种ivr语音菜单确定方法及装置 | |
CN111353850B (zh) | 一种风险识别策略的更新、风险商户的识别方法和装置 | |
CN111796957B (zh) | 基于应用日志的交易异常根因分析方法及系统 | |
CN114422267A (zh) | 流量检测方法、装置、设备及介质 | |
CN116541610A (zh) | 一种推荐模型的训练方法及装置 | |
CN110334936B (zh) | 一种信贷资质评分模型的构建方法、装置和设备 | |
CN111353015B (zh) | 众包题目推荐方法、装置、设备及存储介质 | |
CN110929285B (zh) | 一种隐私数据的处理方法及装置 | |
CN110634024A (zh) | 一种用户属性标记方法、装置、电子设备及存储介质 | |
CN111177564A (zh) | 一种产品推荐方法及装置 | |
CN110992230A (zh) | 基于终端信令数据的全量人口统计方法、装置及服务器 | |
CN114417830A (zh) | 风险评价方法、装置、设备及计算机可读存储介质 | |
CN108711073B (zh) | 用户分析方法、装置及终端 | |
CN111062449A (zh) | 预测模型的训练方法、兴趣度预测方法、装置和存储介质 | |
CN115841144A (zh) | 一种文本检索模型的训练方法及装置 | |
CN115470407A (zh) | 培训内容推荐方法及其装置、设备、介质 | |
CN115168700A (zh) | 一种基于预训练算法的信息流推荐方法、系统及介质 | |
CN110851724B (zh) | 基于自媒体号等级的文章推荐方法及相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |