CN111160605A - 一种语音服务投诉预测方法及装置 - Google Patents
一种语音服务投诉预测方法及装置 Download PDFInfo
- Publication number
- CN111160605A CN111160605A CN201911165919.5A CN201911165919A CN111160605A CN 111160605 A CN111160605 A CN 111160605A CN 201911165919 A CN201911165919 A CN 201911165919A CN 111160605 A CN111160605 A CN 111160605A
- Authority
- CN
- China
- Prior art keywords
- data
- quality difference
- complaint
- trained
- groups
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000013145 classification model Methods 0.000 claims abstract description 49
- 238000010801 machine learning Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 34
- 238000007637 random forest analysis Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 7
- 238000004140 cleaning Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种语音服务投诉预测方法及装置,该方法包括:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。通过引入质差事件统计数据用于语音服务投诉预测,筛选有效投诉客户的样本目标投诉客户质差事件数据,然后根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种语音服务投诉预测方法及装置。
背景技术
当前通信网络中,各类网络网元节点数量较多,组网结构复杂,无线环境不断恶化等情况影响下,用户对移动网络质量不满从而进行投诉的问题日益突出。
而目前关于运营商关于客户投诉预测的研究较少,客户投诉或离网预测的研究多基于xDR(x Data Recording)或CDR(Call Data Recording)数据进行。CDR是传统通信网中对通话过程中网络关键信息的记录,xDR是CDR概念的扩展,泛指对移动网络、承载网络中数据流量的关键信息记录,即流量日志。
基于xDR或CDR数据进行客户投诉预测存在很多缺点,比如通话时长、平均流量值、延迟均值、平均信号强度等这些特征只能在一定程度上反映当前通话环境的质量,但这些指标的高低不一定能被用户感知到,和用户体验没有直接联系,加之客户投诉兼具主观性客观性,因此,仅仅依靠底层语音服务指标相关的基本特征难以实现对投诉客户的精准预测。
因此如何更高效准确的实现语音服务投诉的预测,已经成为业界亟待解决的问题。
发明内容
本发明实施例提供一种语音服务投诉预测方法及装置,用以解决上述背景技术中提出的技术问题,或至少部分解决上述背景技术中提出的技术问题。
第一方面,本发明实施例提供一种语音服务投诉预测方法,包括:
对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
更具体的,在所述将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息的步骤之前,所述方法还包括:
获取以目标投诉客户类别为标签的目标投诉客户质差事件样本数据,对所述以目标投诉客户类别为标签的目标投诉客户质差事件样本数据从时间、空间和强度方面特征提取,得到以目标投诉客户类别为标签的多个样本特征;
采用留一法将所述以目标投诉客户类别为标签的多个样本特征分为五组,得到五组样本特征集和五组测试样本特征集,将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据;
将所述以目标投诉客户类别为标签的五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的Logistics回归模型,根据所述训练好的Logistics回归模型和所述五个训练好的机器学习模型得到训练好的分类模型。
更具体的,所述获取样本目标投诉客户质差事件数据的步骤,具体为:
获取样本语音业务质差事件统计数据和样本客户投诉数据信息进行数据,所述样本客户投诉数据信息包括主观投诉客户类别、目标投诉客户类别、正常投诉客户类别和沉默客户投诉类别;
在语音业务质差事件统计样本数据中选取目标投诉客户类别所对应的质差事件统计样本数据,得到目标投诉客户样本质差事件统计数据;
在目标投诉客户样本质差事件统计数据中选取投诉时间前一周的质差事件统计数据,得到样本目标投诉客户质差事件数据。
更具体的,所述五个单一机器学习模型具体为:Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型。
更具体的,所述将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将一组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据的步骤,具体包括:
根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、NaiveBayes模型和KNN模型进行训练,得到五组训练好的Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型;
将所述五组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据。
更具体的,所述用户质差特征数据包括:质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔。
更具体的,所述用户质差特征数据还包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
第二方面,本发明实施例提供一种语音服务投诉预测装置,包括:
特征提取模块,用于对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
预测模块,用于将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述语音服务投诉预测方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述语音服务投诉预测方法的步骤。
本发明实施例提供的一种语音服务投诉预测方法及装置,通过引入质差事件统计数据用于语音服务投诉预测,根据样本客户投诉数据信息对样本语音业务质差事件统计数据进行数据清洗,筛选有效投诉客户的样本目标投诉客户质差事件数据,然后根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例中所描述的语音服务投诉预测方法流程示意图;
图2为本发明一实施例中所描述的训练好的分类模型训练流程图;
图3为本发明一实施例所描述的语音服务投诉预测装置;
图4为本发明一实施例所描述的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明一实施例中所描述的语音服务投诉预测方法流程示意图,如图1所示,包括:
步骤S1,对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
步骤S2,将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
具体的,本发明实施例中所描述的用户语音业务质差数据可以包括用户平均意见值(Mean Opinion Score;MOS)质差记录和用户未接通掉话记录。
本发明实施例中所描述的用户质差特征数据具体是指质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔。
本发明实施例中所描述的用户质差特征数据还可以包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
本发明实施例中所描述的训练好的分类模型用于根据用户质差特征数据,得到用户是否会因为语音服务进行投诉的预测结果信息。
此处训练好的分类网络采用五折两层堆叠模型,第一层选用本身就是集成模型的Random Forest模型、GBDT模型和XGBoost模型,并加入了在单一模型实验中表现有互补效果的Naive Bayes模型和KNN模型,共5个基模型。第二层选择了简单的Logistics回归模型,最终得到五折两层堆叠模型。
本发明实施例中所描述的训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据训练得到的,此处所描述的目标投诉客户质差事件样本数据是根据用户投诉工单类型为标准,选取目标投诉客户类别,对其它样本语音业务质差事件统计数据进行数据清洗后得到的,目标投诉客户类别为标签的数据。
此处所描述的目标客户投诉类别是指,语音服务指标较差,而导致产生投诉的客户类别。
训练分类模型分为两个阶段进行训练,第一阶段将样本目标投诉客户质差事件数据均分为五个部分,并对五个部分进行编号,分别为第一部分数据、第二部分数据、第三部分数据、第四部分数据和第五部分数据,依次留取一个部分数据作为测试数据,将其他数据作为训练数据集,例如,将第一部分数据作为一组测试样本数据,将第二、第三、第四、第五部分数据作为一组训练样本数据集,将第二部分数据作为一组测试样本数据,将第一、第三、第四、第五部分数据作为一组训练样本数据,以此方法,得到五组测试样本特征集和五组测试样本特征集。
根据五组测试样本集特征分别对五种模型进行训练,基于五组不同的测试样本集特征,每种模型都可以训练得到五个不同模型。
将一组测试样本特征集分别输入每种模型的五个不同模型,此时每组测试样本特征输入一种模型,会得到五个输出预测数据,将五个输出预测数据作为一组第一阶段预测数据,五种模型对应得到五组第一阶段预测数据,共同构成第二阶段输入特征的不同维度。
第二阶段,将五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的分类模型。
本发明实施例将用户质差特征数据输入训练好的分类模型,第一阶段将用户质差特征数据分别输入五种不同的单一机器学习模型,每种单一机器学习模型中包含五个同一类型的机器学习模型,此时从每一种单机机器学习模型的五个结果中选出投票结果,从而根据五种不同的单一机器学习模型得到一个五维数据,将这个五维数据输入第二阶段的Logistics回归模型,从而得到预测结果信息。
本发明实施例通过引入质差事件统计数据用于语音服务投诉预测,根据客户投诉样本数据信息对语音业务质差事件统计样本数据进行数据清洗,筛选有效投诉客户的目标投诉客户质差事件样本数据,然后根据目标投诉客户质差事件样本数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
在上述实施例的基础上,在所述将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息的步骤之前,所述方法还包括:
获取以目标投诉客户类别为标签的目标投诉客户质差事件样本数据,对所述以目标投诉客户类别为标签的目标投诉客户质差事件数据从时间、空间和强度方面特征提取,得到以目标投诉客户类别为标签的多个样本特征;
采用留一法将所述以目标投诉客户类别为标签的多个样本特征分为五组,得到五组样本特征集和一组测试样本特征集,将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据;
将所述以目标投诉客户类别为标签的五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的Logistics回归模型,根据所述训练好的Logistics回归模型和所述五个训练好的机器学习模型得到训练好的分类模型。
本发明实施例中所描述的多个样本特征中,每个样本特征均包括用户质差特征数据中的所有特征数据。
本发明实施例中采用留一法将所述多个样本特征分为五组,具体为将样本目标投诉客户质差事件数据均分为五个部分,并对五个部分进行编号,分别为第一部分数据、第二部分数据、第三部分数据、第四部分数据和第五部分数据,依次留取一个部分数据作为测试数据,将其他数据作为训练数据集,例如,将第一部分数据作为一组测试样本数据,将第二、第三、第四、第五部分数据作为一组训练样本数据集,将第二部分数据作为一组测试样本数据,将第一、第三、第四、第五部分数据作为一组训练样本数据,以此方法,得到五组测试样本特征集和一组测试样本特征集。
本发明实施例中所描述的预设训练条件可以是指满足预设训练次数或者满足预设训练时间。
本发明实施例根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
在上述实施例的基础上,所述获取样本目标投诉客户质差事件数据的步骤,具体为:
获取样本语音业务质差事件统计数据和样本客户投诉数据信息进行数据,所述样本客户投诉数据信息包括主观投诉客户类别、目标投诉客户类别、正常客户类别和沉默客户类别;
在语音业务质差事件统计样本数据中选取目标投诉客户类别所对应的质差事件统计样本数据,得到目标投诉客户质差事件统计样本数据;
在目标投诉客户质差事件统计样本数据中选取投诉时间前一周的质差事件统计数据,得到目标投诉客户质差事件样本数据。
具体的,本发明实施例中所描述的客户投诉样本数据信息具体分为主观投诉客户类别、目标投诉客户类别、正常客户类别和沉默客户类别;目标投诉客户类别是是语音服务指标较差,发生投诉行为的客户,指标的改善有助于减少此类客户的投诉,因此这部分客户值得重点关注;沉默客户类别是指语音服务指标较差,但是没有投诉的客户群体,他们容忍度高、投诉意愿低,是潜在发生投诉的群体;主观投诉客户类别是指语音服务指标良好,但是发生投诉的客户,这类客户的投诉意识比较强,可能需要改善服务等非网络质量的原因,才能更有效的减少投诉;正常客户类别语音服务指标良好,没有投诉。
本发明的目标是找到由于质差事件导致投诉行为的客户,因此本发明实施例中数据清洗的目标是只选取目标投诉客户类别对应的质差事件统计样本数据。
具体的,对于有多次投诉行为的客户保留最后一次投诉时间,以保证保留其最后投诉时间之前的全部质差记录,对于投诉客户,取投诉时间前一周的质差记录作为目标投诉客户质差事件样本数据。
本发明实施例通过客户投诉样本数据信息,实现对客户分类,从而准确找到本发明实施例的目标客户的数据,保证了训练数据的准确度,从而有效训练好的分类模型的可靠性。
在上述实施例的基础上,所述五个单一机器学习模型具体为:Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型。
所述将五组样本特征集输入到五个单一机器学习模型进行训练,然后根据五组测试样本特征集得到以目标投诉客户类别为标签的五组第一阶段预测数据的步骤,具体包括:
根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、NaiveBayes模型和KNN模型进行训练,得到五组训练好的Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型;
将所述五组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到以目标投诉客户类别为标签的五组五维第一阶段预测数据。
本发明实施例中所描述的根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型进行训练具体是指,分别根据五组样本特征集对Random Forest模型进行训练,得到训练好的五组Random Forest模型,分别根据五组样本特征集对GBDT模型,得到训练好的五组GBDT模型,分别根据五组样本特征集对XGBoost模型,得到训练好的五组XGBoost模型,分别根据五组样本特征集对Naive Bayes模型,得到训练好的五组Naive Bayes模型,分别根据五组样本特征集对KNN模型,得到训练好的五组KNN模型。
将所述一组测试样本特征集分别输入五组训练好的Random Forest模型,会得到五个输出数据,组成一组五维第一阶段预测数据。
将一组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到五组五维第一阶段预测数据
本发明实施例通过选用多种机器学习分类模型进行堆叠,构建集成模型,在投诉客户、非投诉客户样本数量差异大的情景下,集成模型泛化能力更好。
在上述实施例的基础上,所述用户质差特征数据包括:质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔,所述用户质差特征数据还包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
图2为本发明一实施例中所描述的训练好的分类模型训练流程图,如图2所示,首先将全部数据的80%作为整体训练数据,即Training Data,将全部数据的20%作为整体测试数据,即Test Data;然后采用5折交叉验证来进行模型训练,将整体训练数据分为五组第一阶段训练数据和第一阶段测试数据的组合,每次使用一组第一阶段训练数据和第一阶段测试数据分别对Model 1~Model 5进行训练和预测,每个Model做满5次训练和预测。对于每一行第一阶段预测数据,通过Model 1~Model 5分别得到5个结果,将5个结果横向拼接得到一行5维的第一阶段结果数据,作为第二训练阶段的输入数据的特征部分,仍然使用原数据中的标签作为第二训练阶段的输入数据的标签部分,使用此数据对第二阶段Logistics回归模型完成训练工作。通过整体测试数据对完成两个阶段训练的整体模型进行性能测试。性能指标达到期望阈值便可投入使用。此时Logistics回归模型得到的最终结果就是最后需要的数据。
表1为本发明实施例中所描述的用户质差特征数据表,如表1所示:
表1
图3为本发明一实施例所描述的语音服务投诉预测装置,如图3所示,包括:提取模块310和预测模块320,其中,提取模块310用于对用户语音业务质差数据进行特征提取,得到用户质差特征数据;其中,预测模块320用于将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
本发明实施例通过引入质差事件统计数据用于语音服务投诉预测,根据样本客户投诉数据信息对样本语音业务质差事件统计数据进行数据清洗,筛选有效投诉客户的样本目标投诉客户质差事件数据,然后根据样本目标投诉客户质差事件数据选用多种机器学习分类模型进行堆叠,构建集成的分类模型,在投诉客户和非投诉客户样本数量差异较大的情境下,集成的分类模型泛化能力更好,能够更高效准确的实现对于语音服务投诉预测。
图4为本发明一实施例所描述的电子设备结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行如下方法:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质存储服务器指令,该计算机指令使计算机执行上述各实施例提供的方法,例如包括:对用户语音业务质差数据进行特征提取,得到用户质差特征数据;将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语音服务投诉预测方法,其特征在于,包括:
对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
2.根据权利要求1所述语音服务投诉预测方法,其特征在于,在所述将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息的步骤之前,所述方法还包括:
获取以目标投诉客户类别为标签的目标投诉客户质差事件样本数据,对所述以目标投诉客户类别为标签的目标投诉客户质差事件样本数据从时间、空间和强度方面特征提取,得到以目标投诉客户类别为标签的多个样本特征;
采用留一法将所述以目标投诉客户类别为标签的多个样本特征分为五组,得到五组样本特征集和五组测试样本特征集,将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据;
将所述以目标投诉客户类别为标签的五组第一阶段预测数据输入Logistics回归模型进行训练,当满足预设训练条件时,得到训练好的Logistics回归模型,根据所述训练好的Logistics回归模型和所述五个训练好的机器学习模型得到训练好的分类模型。
3.根据权利要求2所述语音服务投诉预测方法,其特征在于,所述获取目标投诉客户质差事件样本数据的步骤,具体为:
获取语音业务质差事件统计样本数据和客户投诉样本数据信息,所述客户投诉样本数据信息包括主观投诉客户类别、目标投诉客户类别、正常客户类别和沉默客户类别;
在语音业务质差事件统计样本数据中选取目标投诉客户类别所对应的质差事件统计样本数据,得到目标投诉客户质差事件统计全部样本数据;
在目标投诉客户质差事件统计全部样本数据中选取投诉时间前一周的质差事件统计数据,得到目标投诉客户质差事件统计样本数据。
4.根据权利要求2所述语音服务投诉预测方法,其特征在于,所述五个单一机器学习模型具体为:Random Forest模型、GBDT模型、XGBoost模型、Naive Bayes模型和KNN模型。
5.根据权利要求4所述语音服务投诉预测方法,其特征在于,所述将五组样本特征集输入到五个单一机器学习模型进行训练,得到五个训练好的机器学习模型,然后将五组测试样本特征集输入五个训练好的机器学习模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据的步骤,具体包括:
根据五组样本特征集分别对Random Forest模型、GBDT模型、XGBoost模型、NaiveBayes模型和KNN模型进行训练,得到五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型;
将所述五组测试样本特征集分别输入五组训练好的Random Forest模型、五组训练好的GBDT模型、五组训练好的XGBoost模型、五组训练好的Naive Bayes模型和五组训练好的KNN模型,得到以目标投诉客户类别为标签的五组第一阶段预测数据。
6.根据权利要求1所述语音服务投诉预测方法,其特征在于,所述用户质差特征数据包括:质差事件总次数、上行质差次数、下行质差次数、未接通次数、掉话次数、同一小区质差次数最大值、质差事件天数、质差事件总次数、小区分布信息熵、小区个数、质差事件天分布信息熵、50%以上质差事件所在天数、质差事件最小时间间隔和质差事件平均时间间隔。
7.根据权利要求6所述语音服务投诉预测方法,其特征在于,所述用户质差特征数据还包括:非周末质差事件次数、周末质差事件次数、傍晚质差事件次数、早上质差事件次数、下午质差事件次数、深夜质差事件次数、最后一次质差事件类型和最后一次质差事件发生在一周中的时间、最后一次质差事件发生在一天中的时间和最后一次发生在非周末的质差事件在一天中的时间。
8.一种语音服务投诉预测装置,其特征在于,包括:
特征提取模块,用于对用户语音业务质差数据进行特征提取,得到用户质差特征数据;
预测模块,用于将所述用户质差特征数据输入训练好的分类模型,得到预测结果信息;
其中,训练好的分类模型是通过以目标投诉客户类别为标签的目标投诉客户质差事件样本数据和正常客户类别为标签的非投诉客户质差事件样本数据训练得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述语音服务投诉预测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音服务投诉预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911165919.5A CN111160605A (zh) | 2019-11-25 | 2019-11-25 | 一种语音服务投诉预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911165919.5A CN111160605A (zh) | 2019-11-25 | 2019-11-25 | 一种语音服务投诉预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111160605A true CN111160605A (zh) | 2020-05-15 |
Family
ID=70556138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911165919.5A Pending CN111160605A (zh) | 2019-11-25 | 2019-11-25 | 一种语音服务投诉预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160605A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116168A (zh) * | 2020-09-29 | 2020-12-22 | 中国银行股份有限公司 | 一种用户行为的预测方法、装置及电子设备 |
CN112671573A (zh) * | 2020-12-17 | 2021-04-16 | 北京神州泰岳软件股份有限公司 | 识别宽带业务中潜在离网用户的方法及装置 |
CN112925911A (zh) * | 2021-02-25 | 2021-06-08 | 平安普惠企业管理有限公司 | 基于多模态数据的投诉分类方法及其相关设备 |
CN115442321A (zh) * | 2021-06-04 | 2022-12-06 | 中国移动通信集团浙江有限公司 | 消息投放方法、装置、设备及计算机程序产品 |
CN115879587A (zh) * | 2022-01-11 | 2023-03-31 | 北京中关村科金技术有限公司 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447364A (zh) * | 2018-11-08 | 2019-03-08 | 国网湖南省电力有限公司 | 基于标签的电力客户投诉预测方法 |
CN109784496A (zh) * | 2018-12-29 | 2019-05-21 | 厦门大学 | 一种面向不平衡数据集的分类方法 |
CN109982367A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团四川有限公司 | 移动终端上网用户投诉预测方法、装置、设备及存储介质 |
-
2019
- 2019-11-25 CN CN201911165919.5A patent/CN111160605A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109982367A (zh) * | 2017-12-28 | 2019-07-05 | 中国移动通信集团四川有限公司 | 移动终端上网用户投诉预测方法、装置、设备及存储介质 |
CN109447364A (zh) * | 2018-11-08 | 2019-03-08 | 国网湖南省电力有限公司 | 基于标签的电力客户投诉预测方法 |
CN109784496A (zh) * | 2018-12-29 | 2019-05-21 | 厦门大学 | 一种面向不平衡数据集的分类方法 |
Non-Patent Citations (2)
Title |
---|
刘丽娟: "基于人工智能算法的投诉用户质差小区定位及预测的方法研究", 《电信工程技术与标准化》 * |
辛永 等: "基于多模型融合的客户投诉风险预测方法", 《电力大数据》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112116168A (zh) * | 2020-09-29 | 2020-12-22 | 中国银行股份有限公司 | 一种用户行为的预测方法、装置及电子设备 |
CN112116168B (zh) * | 2020-09-29 | 2023-08-04 | 中国银行股份有限公司 | 一种用户行为的预测方法、装置及电子设备 |
CN112671573A (zh) * | 2020-12-17 | 2021-04-16 | 北京神州泰岳软件股份有限公司 | 识别宽带业务中潜在离网用户的方法及装置 |
CN112671573B (zh) * | 2020-12-17 | 2023-05-16 | 北京神州泰岳软件股份有限公司 | 识别宽带业务中潜在离网用户的方法及装置 |
CN112925911A (zh) * | 2021-02-25 | 2021-06-08 | 平安普惠企业管理有限公司 | 基于多模态数据的投诉分类方法及其相关设备 |
CN112925911B (zh) * | 2021-02-25 | 2022-08-12 | 平安普惠企业管理有限公司 | 基于多模态数据的投诉分类方法及其相关设备 |
CN115442321A (zh) * | 2021-06-04 | 2022-12-06 | 中国移动通信集团浙江有限公司 | 消息投放方法、装置、设备及计算机程序产品 |
CN115442321B (zh) * | 2021-06-04 | 2023-08-18 | 中国移动通信集团浙江有限公司 | 消息投放方法、装置、设备及计算机程序产品 |
CN115879587A (zh) * | 2022-01-11 | 2023-03-31 | 北京中关村科金技术有限公司 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
CN115879587B (zh) * | 2022-01-11 | 2024-01-26 | 北京中关村科金技术有限公司 | 样本不均衡条件下的投诉预测方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160605A (zh) | 一种语音服务投诉预测方法及装置 | |
US10757264B2 (en) | Matching using agent/caller sensitivity to performance | |
US10276153B2 (en) | Online chat communication analysis via mono-recording system and methods | |
US10162884B2 (en) | System and method for auto-suggesting responses based on social conversational contents in customer care services | |
US11336770B2 (en) | Systems and methods for analyzing coaching comments | |
US8861691B1 (en) | Methods for managing telecommunication service and devices thereof | |
US20040098274A1 (en) | System and method for predicting customer contact outcomes | |
CN108076237B (zh) | 一种电话客服数据处理方法及装置 | |
US20090012826A1 (en) | Method and apparatus for adaptive interaction analytics | |
WO2010069567A1 (en) | Real-time speech analytics in contact center | |
US11886509B2 (en) | Predictive prompt generation by an automated prompt system | |
US9736303B1 (en) | Best time to call parties having multiple contacts | |
US20210065204A1 (en) | Analyzing method, analyzing device, and computer-readable recording medium | |
DE102016102338A1 (de) | Vorhersage von contact-center-interaktionen | |
CN107562457B (zh) | 导航菜单的生成方法及装置 | |
CN112182188A (zh) | 一种基于知识图谱的问答方法及装置、存储介质 | |
CN111368858B (zh) | 用户满意度评估方法及装置 | |
CN108271202B (zh) | 一种基于短频话单数据定位网络故障的方法和装置 | |
CN114372644B (zh) | 排班方法、装置、电子设备及计算机可读存储介质 | |
US11449527B2 (en) | Automated inquiry response systems | |
CN113517990B (zh) | 一种网络净推荐值nps的预测方法及装置 | |
CN115956359A (zh) | 用于音调和语音分类的累积平均频谱熵分析 | |
US8731182B2 (en) | Data store for assessing accuracy of call center agent service time estimates | |
Inoue et al. | Mobile-carrier & mobile-phone choice behavior analysis using supervised learning models | |
CN113780610A (zh) | 一种客服画像构建方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
RJ01 | Rejection of invention patent application after publication |