CN116822675A - 满意度预测方法、装置及存储介质 - Google Patents
满意度预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116822675A CN116822675A CN202210966490.5A CN202210966490A CN116822675A CN 116822675 A CN116822675 A CN 116822675A CN 202210966490 A CN202210966490 A CN 202210966490A CN 116822675 A CN116822675 A CN 116822675A
- Authority
- CN
- China
- Prior art keywords
- index data
- data
- index
- data set
- satisfaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000002159 abnormal effect Effects 0.000 claims abstract description 158
- 238000012545 processing Methods 0.000 claims abstract description 139
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000011156 evaluation Methods 0.000 claims abstract description 39
- 238000012216 screening Methods 0.000 claims description 23
- 238000012217 deletion Methods 0.000 claims description 22
- 230000037430 deletion Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 11
- 230000008030 elimination Effects 0.000 claims description 9
- 238000003379 elimination reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000008447 perception Effects 0.000 description 41
- 238000004422 calculation algorithm Methods 0.000 description 36
- 238000012795 verification Methods 0.000 description 18
- 238000005457 optimization Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 10
- 238000012360 testing method Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 238000012423 maintenance Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000011157 data evaluation Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000011835 investigation Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000002354 daily effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000008376 long-term health Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种满意度预测方法、装置及存储介质,所述方法包括:获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配;基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合;基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合;将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型;采用所述训练后的满意度模型预测目标对象的满意度值。
Description
技术领域
本申请实施例涉及通信技术领域,涉及但不限于一种满意度预测方法、装置及存储介质。
背景技术
随着“大连接”战略的逐步实施,在4G网络加速普及、互联网应用全方位渗透和智能终端快速更新换代的共同驱动下,手机上网已成为人们每天生活的必需内容。在语音时代,网络即业务,客户感知和网络质量对等,通过关注网络质量指标(例如,覆盖、干扰、故障或容量等指标),就可满足客户通话感知的管理。在移动互联网时代,业务实现更多依赖终端、网络或平台等端到端之间的配合,网络不再是决定客户感知的唯一要素,使得传统网络指标体系难以满足移动互联网时代主动保障客户感知的需求。为了提高客户上网满意度,更好进行客户维护,需要建立一套与客户满意度关联的指标模型来综合评估客户满意度,通过明确满意度影响关键指标来提升网络满意度。
相关技术在构建客户满意度模型时,通过数据采集、数据处理、特征选择、模型和应用多个方面进行满意度预测模型构建、影响力指标挖掘、用户画像分析和客户问题定位优化。但是,相关技术在数据采集、处理和特征工程阶段,没有对指标和数据进行梳理处理,没有考虑用户主观性,没有考虑指标在不同情况下进行不同的预处理,没有考虑对指标内在关联性进行特征扩充,也没有对考虑对指标和满意度之间的关系进行特征剔除。在模型和应用阶段,忽视了满意度样本的不均衡性,忽视了数据时效性,使得模型的准确性难以保证,应用场景单一,没有充分利用结果对模型进行监控、问题定位和客户维护。
发明内容
有鉴于此,本申请实施例提供一种满意度预测方法、装置及存储介质。
第一方面,本申请实施例提供一种满意度预测方法,所述方法包括:获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配;基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合;基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合;将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型;采用所述训练后的满意度模型预测目标对象的满意度值。
在一些实施例中,所述基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合,包括:基于所述指标数据集合中的满意度值,对所述指标数据集合进行主观数据剔除处理,得到数据剔除后的指标数据集合;对所述数据剔除后的指标数据集合进行异常数据检测,得到异常指标数据;删除所述异常指标数据,得到异常数据处理后的指标数据集合;对所述异常数据处理后的指标数据集合进行缺失数据识别,得到数据缺失类别;基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合。
在一些实施例中,所述基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理,得到数据剔除后的指标数据集合,包括:基于所述指标数据集合中的满意度值,从所述至少一个评估对象中确定出主观对象;其中,所述主观对象的所述满意度值在预设数值范围内;将所述主观对象的指标数据,确定为主观数据;从所述指标数据集合中剔除所述主观数据,得到数据剔除后的指标数据集合。
在一些实施例中,所述指标数据集合中包括多个样本指标数据集合,每一所述样本指标数据集合中包括至少一个指标数据;所述对所述数据剔除后的指标数据集合进行异常数据检测,得到异常指标数据,包括:针对当前第N个数据剔除后的样本指标数据集合,确定所述数据剔除后的样本指标数据集合中每一指标数据的数据类型;获取每一所述数据类型对应的异常阈值范围;当所述数据剔除后的样本指标数据集合中的任一指标数据超出对应的异常阈值范围时,将所述指标数据确定为待处理异常指标数据;或,针对任一所述数据剔除后的样本指标数据集合,初始化异常指标数量;获取异常删除比例;当所述异常指标数量大于所述异常删除比例和所述数据剔除后的样本指标数据集合的数量的乘积时,将所述数据剔除后的样本指标数据集合中的每一指标数据确定为待处理异常指标数据。
在一些实施例中,所述删除所述异常指标数据,得到异常数据处理后的指标数据集合,包括:将所述待处理异常指标数据对应的存储位置置空。
在一些实施例中,所述数据缺失类别包括:数值型缺失;对应的,所述基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合,包括:当所述数据缺失类别为数值型缺失,且当所述数值缺失类别在当前业务上能够表征特定指标类型时,将所述异常数据处理后的指标数据集合中的指标数据赋值为特定值;当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第一预设数据阈值,对所述异常数据处理后的指标数据集合中的指标数据进行重编码处理;当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第一预设数据阈值,采用所述异常数据处理后的指标数据集合中的指标数据的中位数或近邻数据填充缺失数据的位置。
在一些实施例中,所述数据缺失类别包括:类别型缺失;对应的,所述基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合,包括:当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第二预设数据阈值,获取所述异常数据处理后的指标数据集合中的指标数据的指标众数;并采用所述指标众数填充缺失数据的位置;当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第二预设数据阈值,将全部缺失数据的属性信息设置为类别未知属性。
在一些实施例中,所述基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,包括以下至少之一:当所述处理后的指标数据集合中的任意两个指标数据之间的相关性大于相关度阈值时;删除所述两个指标数据中的任一指标数据;当所述处理后的指标数据集合中具有一个指标数据时,删除所述指标数据;当所述处理后的指标数据集合中的任意两个指标数据相同时,删除所述两个指标数据中的任一指标数据;当所述处理后的指标数据集合中的任意两个指标数据对应的业务属性相同时,删除所述两个指标数据中的任一指标数据。
在一些实施例中,所述基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,包括:确定所述处理后的指标数据集合中的每一指标数据的指标影响力值;按照所述指标影响力值,对所述处理后的指标数据集合中指标数据进行排序,形成指标数据序列;将所述指标数据序列中预设数量的指标数据,确定为关键指标数据;基于所述关键指标数据,生成新的指标数据;采用所述新的指标数据更新所述处理后的指标数据集合。
在一些实施例中,所述方法还包括:获取所述处理后的指标数据集合的统计指标;基于所述统计指标确定所述处理后的指标数据集合中的每一指标数据的分值;按照所述分值,对所述处理后的指标数据集合中的指标数据进行排序,形成第一指标数据序列;采用包裹式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第一指标数据集合;采用嵌入式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第二指标数据集合;基于所述第一指标数据序列、筛选后的第一指标数据集合和筛选后的第二指标数据集合,确定待删除指标数据;删除所述待删除指标数据。
在一些实施例中,所述方法还包括:对所述更新后的指标数据集合中的第一类别数据集合进行过采样处理,得到过采样指标数据;采用所述过采样指标数据更新所述更新后的指标数据集合;其中,所述第一类别数据集合中的数据个数小于个数阈值;或,采用集成树算法对所述更新后的指标数据集合中的第一类别数据集合进行数据评估,得到所述第一类别数据集合中的每一指标数据的第一评估结果;基于所述第一评估结果,更新所述更新后的指标数据集合;或,确定所述更新后的指标数据集合中的第一类别数据集合中的每一指标数据的F1值;基于所述F1值,对所述第一类别数据集合中的每一指标数据进行数据评估,得到每一指标数据的第二评估结果;基于所述第二评估结果,更新所述更新后的指标数据集合。
在一些实施例中,在将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型之前,所述方法还包括:对所述更新后的指标数据集合中的指标数据进行划分,得到至少一个训练集合和至少一个测试集合;将每一训练集合中的指标数据输入至预定满意度模型中,对所述预定满意度模型进行训练,对应得到至少一个训练后的预定满意度模型;将每一测试集合中的指标数据对应输入至每一所述训练后的预定满意度模型中,得到每一所述训练后的预定满意度模型的满意度验证误差;将具有最小满意度验证误差的训练后的预定满意度模型,确定为所述满意度模型。
第二方面,本申请实施例提供一种满意度预测装置,所述装置包括:获取模块,用于获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配;数据处理模块,用于基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合;更新处理模块,用于基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合;输入模块,用于将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型;预测模块,用于采用所述训练后的满意度模型预测目标对象的满意度值。
第三方面,本申请实施例提供一种满意度预测设备,包括处理器和存储器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述满意度预测方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述满意度预测方法。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括可执行指令,所述可执行指令存储在计算机可读存储介质中;当满意度预测设备的处理器从所述计算机可读存储介质读取所述可执行指令,并执行所述可执行指令时,实现上述满意度预测方法。
本申请实施例提供的满意度预测方法、装置及存储介质,基于预设感知点获取评估对象的指标数据集合,通过对指标数据集合进行主观数据处理、异常数据处理和缺失数据处理之后,得到数据处理之后的指标数据集合,随后基于指标数据件的相关性,对指标数据集合进行更新,通过更新后的指标数据集合进行模型训练,得到满意度模型,通过满意度模型进行满意度预测。本申请实施例提供的满意度预测方法对采集的数据进行数据处理,对采集到的数据进行优化,并根据优化后数据的相关性对数据集合进行更新,使得本申请实施例对模型进行训练的指标数据集合中的指标数据过滤了用户主观因素,提高了指标数据的质量,同时考虑了指标数据的内在关联性,剔除冗余信息,解决了样本指标数据的失衡问题;同时,本申请实施例通过更新后的指标数据集合进行模型训练,提高了模型训练的准确性,得到的满意度模型能够更加准确地预测用户满意度。
附图说明
图1为本申请实施例提供的满意度预测方法流程实现示意图一;
图2为本申请实施例提供的预设感知点和指标数据之间的关系示意图;
图3为本申请实施例提供的对数据剔除后的指标数据集合进行异常数据检测的流程示意图;
图4为本申请实施例提供对更新后的指标数据集合中的第一类别数据集合进行过采样处理的过程示意图;
图5为本申请实施例提供的满意度模型训练的流程示意图二;
图6为本申请实施例提供的进行客户维护的流程示意图;
图7为本申请实施例提供的流程示意图;
图8为本申请实施例提供的满意度预测装置组成示意图;
图9是本申请实施例提供的一种满意度预测设备的硬件实体示意图。
具体实施方式
以下结合说明书附图及具体实施例对本申请的技术方案做进一步的详细阐述。虽然附图中显示了本申请的示例性实施方式,然而应当理解,可以以各种形式实现本申请,而不应被这里阐述的具体实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本申请,并且能够将本申请公开的范围完整的传达给本领域的技术人员。
在下文的描述中,给出了大量具体的细节以便提供对本申请更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述;即,这里不描述实际实施例的全部特征,不详细描述公知的功能和结构。
基于相关技术存在的问题,本申请实施例提供一种满意度预测方法。图1为本申请实施例提供的满意度预测方法流程实现示意图一,如图1所示,本申请实施例提供的满意度预测方法通过步骤S101至步骤S105实现:
步骤S101:获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配。
在本申请实施例中,评估对象可以是用户,在移动互联网时代,由于业务的实现依赖终端、网络和平台等端到端之间的配合,用户对于上网满意度感知不仅仅取决于网络质量本身。为了更好的预测用户对业务的满意度,需预先明确满意度感知点,基于预设感知点匹配满意度指标数据。这里,可以通过电话、互联网深度调查及座谈交流会等方式获得用户信息,结合统计分析,获取影响用户上网满意度表现的预设感知点。
图2为本申请实施例提供的预设感知点和指标数据之间的关系示意图,如图2所示,当预设感知点200为用户属性时,指标数据可以包括:性别201、年龄202等数据。
在一些实施例中,预设感知点还可以是:用户属性、业务属性、行为偏好、基础感知、上网感知、覆盖感知、服务质量、终端其他等,基于上述预设感知点匹配影响满意度的指标数据。
上述预设感知点包含了B域和O域不同数据源的指标,在数据采集阶段,需要整合信令监测、经分报表、网管统计、客服支撑等方面的各类数据源,将指标数据和满意度分数形成一张用户级别数据宽表,方便后续分析。
这里的指标数据即为用户对上述预设感知点的评价指标数据,指标数据集合中包括多个指标数据。
步骤S102:基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合。
这里,当获取到用户的指标数据集合后,根据指标数据对应的满意度值,对指标数据集合中的指标数据依次进行主观数据剔除处理、异常数据处理和缺失数据处理,将指标数据集合中影响数据准确性的数据进行剔除,降低后续采用指标数据进行模型训练的误差。
在一些实施例中,步骤S102可通过步骤S1021至步骤S1025完成:
步骤S1021:基于所述指标数据集合中的满意度值,对所述指标数据集合进行主观数据剔除处理,得到数据剔除后的指标数据集合。
在本申请实施例中,步骤S1021可通过步骤S21至步骤S23完成:
步骤S21:基于所述指标数据集合中的满意度值,从所述至少一个评估对象中确定出主观对象;其中,所述主观对象的所述满意度值在预设数值范围内;
步骤S22:将所述主观对象的指标数据,确定为主观数据;
步骤S23:从所述指标数据集合中剔除所述主观数据,得到数据剔除后的指标数据集合。
这里,评估对象可以是用户,用户满意度分数来源于调研,当多个用户对业务进行满意度评价时,除了受外部相关因素影响以外,还和用户本身主观性相关,主观好感用户和主观差感用户都会对后续模型训练的准确性造成干扰,这里主观好感用户是指调研分数高实际感知差的用户,即高分感知差用户;主观差感用户是指调研分数低实际感知差的用户,即低分感知优用户。因此,可以利用专家经验和数据指标整体分布情况,明确高低感知用户和低高分用户定义,基于高低感知用户和低高分用户定义将指标数据集合中的主观数据剔除,利用客观指标数据作为模型的训练数据,提升最终模型预测准确率。为了更好的评估外部因素对用户影响,需对指标数据首先进行主观用户筛选。
例如,当调研用户的满意度分数为1-10分,可以设定满意度预设数值范围为:1-3分为低分用户,8-10分为高分用户。此时,低分用户和高分用户均为上述主观对象,将满意度分数在1-3和8-10这两个预设数值范围的用户确定为主观对象,并将主观对象的指标数据确定为主观数据,剔除主观数据,降低主观用户的影响,提高数据质量。
还可以将用户的感知质差质优作为判断主观用户的依据,表1为用户感知质差定义,如表1所示,当指标中有一个超过特定范围即为感知质差,此时感知质差即为主观用户。
其中,TCP表示传输控制协议(Transmission Control Protocol);HTTP表示超文本传输协议(Hyper Text Transfer Protocol);HTTPS表示以安全为目标的HTTP通道(Hyper Text Transfer Protocol over Secure Socket Layer);RSRP表示参考信号接收功率(Reference Signal Receiving Power)。
本申请实施例可以将上述感知质差用户对应的指标数据进行剔除,进行主观用户筛选,剔除满意度调研用户的主观因素,在感知点全面匹配满意度影响指标的基础上,进一步提高训练数据完整性和准确性。
表1用户感知质差定义
表2为用户感知质优定义,如表2所示,当所有指标数据均满足指标范围时为用户感知质优,此时感知质优即为主观用户。
表2用户感知质优定义
本申请实施例可以将上述感知质优用户对应的指标数据进行剔除。
步骤S1022:对所述数据剔除后的指标数据集合进行异常数据检测,得到异常指标数据。
步骤S1023:删除所述异常指标数据,得到异常数据处理后的指标数据集合。
在本申请实施例中,由于预测模型对指标数据的准确性、完整性有很高要求,但满意度感知指标数据来源广,涉及指标数据多,不同指标数据由于自身采集和其他原因,存在数据异常和缺失的情形。为了提高指标数据质量,方便后续分析,需根据业务规则剔除异常指标数据,针对不同指标数据采用不同方法进行缺失处理,从异常处理、缺失填充、类别编码三个方面提高指标数据的指令,保证后续模型训练的样本数据质量。
在本申请实施例中,所述指标数据集合中包括多个样本指标数据集合,每一所述样本指标数据集合中包括至少一个指标数据;也就是说,样本指标数据集合中包含多个指标数据,且多个样本指标数据集合N构成指标数据集合M。
在一些实施例中,步骤S1022可以通过步骤S31至步骤S34完成:
步骤S31:针对当前第N个数据剔除后的样本指标数据集合,确定所述数据剔除后的样本指标数据集合中每一指标数据的数据类型。
步骤S32:获取每一所述数据类型对应的异常阈值范围;
步骤S33:当所述数据剔除后的样本指标数据集合中的任一指标数据超出对应的异常阈值范围时,将所述指标数据确定为待处理异常指标数据。
步骤S34:将所述待处理异常指标数据对应的存储位置置空。
这里,步骤S31至步骤S34对应的检测过程可以包括:指标数据集合M中当前的第m个指标,当判断m小于M时,获取第m个指标阈值下限,和指标阈值上限,根据指标阈值下限和指标阈值上限确定出异常阈值范围,判断样本指标数据集合中的第n个指标数据值是否满足上述异常阈值范围,当满足异常阈值范围时,表明第n个指标数据未超过异常阈值范围,则不需要对该指标数据进行剔除,对下一个指标数据,即第n+1个指标数据再次重复上述判断过程;当第n个指标数据值不满足上述异常阈值范围时,表明第n干扰指标数据超出了异常阈值范围,则将第n个指标数据确定为待处理异常指标数据,并删除所述待处理异常指标数据,随后对第n+1个指标数据再次重复上述检测过程,直至将指标数据集合M中的每一个样本指标数据集合全部检测完。
在一些实施例中,步骤S1022还可以通过步骤S41至步骤S44完成:
步骤S41:针对任一所述数据剔除后的样本指标数据集合,初始化异常指标数量;
步骤S42:获取异常删除比例;
步骤S43:当所述异常指标数量大于所述异常删除比例和所述数据剔除后的样本指标数据集合的数量的乘积时,将所述数据剔除后的样本指标数据集合中的每一指标数据确定为待处理异常指标数据。
步骤S44:将所述待处理异常指标数据对应的存储位置置空。
这里,步骤S41至步骤S44对应的处理过程可以包括:针对任一所述数据剔除后的样本指标数据集合N,初始化异常指标数量为0;当第m的指标数据m超出指标数据集合M时,表面已经将指标数据集合全部检测完毕,此时开始检测指标数据集合M中任一样本指标数据集合N的异常情况。当前是第n个样本数据,获取异常删除比例,这里的异常删除比例可以是技术人员根据需要提前设置的,例如可以是5‰。计算异常删除比例和样本指标数据集合的数量的乘积,当判断异常指标数量大于异常删除比例和样本指标数据集合的数量的乘积时,将样本指标数据集合中的每一指标数据确定为待处理异常指标数据,并删除所述待处理异常指标数据;当判断异常指标数量小于等于异常删除比例和样本指标数据集合的数量的乘积时,则继续判断下一个,即第n+1个样本数据,直至将所有样本指标数据集合N个全部检测完毕,结束异常检测过程。
图3为对数据剔除后的指标数据集合进行异常数据检测的流程示意图,如图3所示,可以通过步骤S301至步骤S311对数据剔除后的指标数据集合进行异常数据检测:
步骤S301:设置指标总数M,样本N设定异常删除比例(ratio)。
步骤S302:当前是第n个样本,n=0。
在一些实施例中,当n<N时,执行步骤S303;当n≥N时,执行步骤S312。
步骤S303:当前是第m个指标,m=0,初始化异常指标数量exc_num=0。
其中,在步骤S303之后,当m<M时,执行步骤S304;当m≥M时,当m≥M时,判断exc_num>N*ratio,当exc_num>N*ratio时,进行步骤S309,当exc_num≤N*ratio时执行步骤S310。
步骤S304:根据业务设定第m个指标阈值下限l[m]和阈值上限u[m]。
步骤S305:第n个样本第m个指标值即为x[n,m]。
在一些实施例中,当x[n,m]>u[m]或x[n,m]<l[m]时,即第n个样本第m个指标值在阈值下限l[m]和阈值上行u[m]之外时,执行步骤S306;当x[n,m]<u[m]或x[n,m]>l[m],即第n个样本第m个指标值在阈值下限l[m]和阈值上行u[m]之内时,进行步骤S308。
步骤S306:exc_num+=1。
步骤S307:将x[n,m]置空。
步骤S308:m+=1。
在一些实施例中,在执行步骤S308之后,继续判断m与M之间的关系。
步骤S309:删除样本x[n,:]。
在一些实施例中,当m≥M,且exc_num>N*ratio时,执行步骤S309。
步骤S310:n+=1。
步骤S311:完成异常检测处理。
在对指标数据进行异常数据检测时,本申请实施例针对不同的指标,设定了不同的业务阈值来进行异常检测,充分考虑了不同指标的差异性;同时,本申请实施例设定异常删除比例,对异常指标比例超过界限的指标数据进行剔除,且在剔除异常指标数据同时尽量保留可用指标数据,使得本申请实施例中的指标数据集合更加可靠,得到的模型置信度更高。
步骤S1024:对所述异常数据处理后的指标数据集合进行缺失数据识别,得到数据缺失类别。
步骤S1025:基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合。
本申请实施例中,由于不同的指标数据的差异较大,为了更好的保证后续分析数据的质量,需针对指标数据进行缺失数据处理。这里,数据缺失类别包括:数值型缺失和指标型缺失。这里,步骤S1025可通过步骤S51至步骤S55完成:
步骤S51:当所述数据缺失类别为数值型缺失,且当所述数值缺失类别在当前业务上能够表征特定指标类型时,将所述异常数据处理后的指标数据集合中的指标数据赋值为特定值。
这里,数值缺失类别在当前业务上能够表征特定指标类型,根据特定指标类型对指标数据进行赋值。例如,当数据缺失类别为投诉次数或者本月长期演进语音承载(Voiceover Long-Term Evolution,VoLTE)话务量缺失,在当前业务上表征无投诉或者无VoLTE话务量,可以将指标数据直接赋值为0。
步骤S52:当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第一预设数据阈值,对所述异常数据处理后的指标数据集合中的指标数据进行重编码处理。
在一些实施例中,数据根据对应的类别可以分为数值型数据和类型型数据,对应的缺失类别分为数值型缺失和类别型缺失。这里的第一预设数据阈值为技术人员预先设置好的,用于判断数值型缺失时缺失数据数量。当数值型缺失的缺失数据量大于第一预设数据阈值时,表明缺失数据过多,此时,异常数据处理后的指标数据集合中的指标数据为数值型数据,当指标数据缺失过多,需要对异常数据处理后的指标数据集合中的指标数据进行重编码处理,将指标数据转化为类别型指标。
步骤S53:当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第一预设数据阈值,采用所述异常数据处理后的指标数据集合中的指标数据的中位数或近邻数据填充缺失数据的位置。
在一些实施例中,当数值型缺失的缺失数据量小于或等于第一预设数据阈值时,表明缺失数据较少,则可采用中位数填充法或K-邻近(k-Nearest Neighbor,KNN)填充法。
这里,采用中位数填充法具体为:采用指标数据中非缺失数据的中位数填充缺失数据的位置,代表指标集中趋势,相较均值填充,稳定性较强。采用KNN填充法具体为:先利用KNN计算缺失数据临近的k个近邻数据,然后在缺失数据的位置填充k个近邻数据的均值。该方法针对所有指标数据进行填充,充分考虑数据之间的关联性,利用相似性最强的数据进行填充。
步骤S54:当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第二预设数据阈值,获取所述异常数据处理后的指标数据集合中的指标数据的指标众数;并采用所述指标众数填充缺失数据的位置。
在一些实施例中,第二预设数据阈值为技术人员预先设置好的,用于判断类别型缺失时缺失数据数量。
步骤S55:当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第二预设数据阈值,将全部缺失数据的属性信息设置为类别未知属性。
在一些实施例中,当数据缺失类型为类别型缺失时,可以基于缺失数据的缺失数量采用不同的处理方法。例如,当缺失数量小于或等于第二预设数据阈值,表明缺失数据数量不多,可以采用众数填充法填充缺失数据。众数填充法具体为:采用指标数据中非缺失数据的众数进行填充,代表指标数据的集中趋势,一般比较适合类别型缺失处理。
当缺失数量大于第二预设数据阈值时,表明缺失数据数量过多,无法进行填充处理,此时,可以将所有缺失数据的属性信息设置为类别未知属性,例如,当用户性别数据大量缺失时,可以将缺失的用户性别设置为:性别未知。
在一些实施例中,指标数据可以根据其数据连续性,分成数值型指标数据和类别型指标数据。类别型指标数据是离散的指标数据,分成不同类别。在训练模型时,需要输入数值型的指标数据,为了后续训练模型,需要对指标数据进行编码。将类别型指标数据编码为数值型指标数据。离散指标数据编码包括标签编码方法(Label Encoder)和独热编码方法(One Hot Encoder)。下面以性别指标来解释上述两种编码方式,将性别分成男、女和未知三类。独热编码方法可以将性别为男的类别型指标数据编码为:1,0,0;将性别为女的类别型指标编码为:0,1,0;将类别为未知的类别型指标编码为:0,0,1;最终将性别指标转化为3个数值型指标:性别是否为男、性别是否为女和性别是否未知。
在一些实施例中,标签编码方法可以将性别为男的类别型指标数据编码为:0;将性别为女的类别型指标编码为:1;将类别为未知的类别型指标编码为:2。对不同类别对应到一个相应的编码,实现类别性数据到数值型数据的转化。
步骤S103:基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合。
本申请实施例针对处理后指标数据集合中的指标数据,基于指标数据之间的相关性,剔除异常、无效和强相关的指标数据;并采用多项式生成方法和特征提取算法构建新的指标数据,根据多种基于模型特征选择算法结果,综合进行指标数据的更新,剔除对满意度影响较弱的指标数据。
在一些实施例中,基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,包括:当所述处理后的指标数据集合中的任意两个指标数据之间的相关性大于相关度阈值时,删除所述两个指标数据中的任一指标数据。
这里,通过公式(1)和(2)计算处理后的指标数据集合中的任意两个指标数据之间的皮尔森相关系数(Pearson correlation coefficient)r:
其中,ρ为总体相关系数,r为皮尔森相关系数,为对xi的样本平均值,σx为样本标准差。
表3为对处理后的指标数据集合中的指标数据的相关性,其中,每一组中的指标数据之间的相关性均大于相关度阈值,因此,表3中每一组的指标数据,最终只保留一个指标数据,例如,当第4组中的指标数据“漫游主叫时长(分钟)”和“漫游被叫时长(分钟)”的相关性大于相关度阈值,则仅保留“漫游主叫时长(分钟)”的指标数据。
其中,ARPU是指每用户平均收入(Average Revenue PerUser),MOU是指每户每月通话时间(minutes of usage)。
表3指标数据之间的相关性计算
1 | VoLTE视频终呼总次数 | VoLTE视频终呼接通次数 | - |
2 | VoLTE通话时长(分钟) | 本月VoLTE话务量 | - |
3 | 国际漫游时长(分钟) | 国际长途时长(分钟) | - |
4 | 漫游主叫时长(分钟) | 漫游被叫时长(分钟) | - |
5 | 上月ARPU | 本月ARPU | - |
6 | 上月MOU | 本月MOU | - |
7 | 注册成功次数 | 注册次数 | - |
8 | 套外语音费用 | 语音收入-通话费(元) | 语音收入(元) |
在一些实施例中,基于处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,还包括以下方式至少之一的更新处理:
方式一:当所述处理后的指标数据集合中具有一个指标数据时,删除所述指标数据。
方式二:当所述处理后的指标数据集合中的任意两个指标数据相同时,删除所述两个指标数据中的任一指标数据。
方式三:当所述处理后的指标数据集合中的任意两个指标数据对应的业务属性相同时,删除所述两个指标数据中的任一指标数据。
在一些实施例中,单个指标数据本身可能和满意度关系不强,但指标数据之间相互组合可能会对满意度产生很大影响。为了更好挖掘指标数据的信息,除了指标数据本身以外,还可针对指标数据之间的关联性构建新的指标数据。可以采用多项式特征生成和特征提取算法特征生成新的指标数据。
在一些实施例中,所述基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,可以通过步骤S61至步骤S65完成:
步骤S61:确定所述处理后的指标数据集合中的每一指标数据的指标影响力值。
步骤S62:按照所述指标影响力值,对所述处理后的指标数据集合中指标数据进行排序,形成指标数据序列。
步骤S63:将所述指标数据序列中预设数量的指标数据,确定为关键指标数据。
步骤S64:基于所述关键指标数据,生成新的指标数据。
步骤S65:采用所述新的指标数据更新所述处理后的指标数据集合。
在本申请实施例中,采用集成树算法,计算处理后的指标数据集合中的每一指标数据的指标影响力,按照所述指标影响力的大小关系,对指标数据进行排序,形成指标数据序列;获取预先设置的关键指标比例阈值,计算关键指标比例阈值与所述处理后的指标数据集合中的指标数据的数据量之间的乘积,将指标数据序列中排序位置小于上述乘积的指标数据,确定为关键指标数据;根据关键指标数据,采用多项式算法或特征提取算法生成新的指标数据。
在一些实施例中,采用多项式算法或特征提取算法生成新的指标数据分别通过下述方法实现:采用多项式算法生成指标数据:多项算法是在关键指标数据的基础上增一些幂级的指标数据。假设对关键指标数据a和b,可以生成3个2位多项式数据a2、ab、b2。采用特征提取算法生成指标数据:利用已有的关键指标数据计算出一个抽象程度更高的指标数据集,特征提取后的新指标数据是原来指标数据的一个映射。例如通过主成分分析(Principal Component Analysis,PCA)方法生成指标数据。
这里,主成分分析方法的主要思想是将n维数据映射到k维上,这k维是全新的正交数据也被称为主成分,是在原有n维数据的基础上重新构造出来的k维数据。PCA的工作就是从原始的空间中按顺序找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1、2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度数据,而忽略包含方差几乎为0的数据。如此,充分考虑指标间的关联性,生成新的指标,扩充指标的信息量,提高满意度预测效果。
本申请实施例基于数据之间的相关性进行指标数据更新,只是剔除业务上无效重复指标和强相关指标,但未考虑指标对满意度分数影响进行指标选择。本申请实施例基于训练指标和满意度分数,采用不同基于模型的指标选择方法(例如,L1正则化线性分类器(SVM)、L1正则化逻辑回归、集成树)分别进行指标选择。基于多种算法综合结果,删除指标。这里,指标选择的方法主要分为三大类:过滤式方法(Filter Methods)、包裹式方法(Wrapper Methods)和嵌入式方法(Embedded Methods)。
其中,过滤式方法是运用统计指标来为每个指标打分并筛选指标,其聚焦于数据本身的特点。其优点是计算快,不依赖于具体的模型,缺点是选择的统计指标不是为特定模型定制的,因而最后的准确率可能不高。而且因为进行的是单变量统计检验,没有考虑指标间的相互关系。
包裹式方法是使用模型来筛选指标,通过不断地增加或删除指标,在验证集上测试模型准确率,寻找最优的特征子集。包裹式方法因为有模型的直接参与,因而通常准确性较高,但是因为每变动一个指标都要重新训练模型,因而计算开销大,其另一个缺点是容易过拟合。
嵌入式方法是利用了模型本身的特性,将指标选择嵌入到模型的构建过程中。典型的如Lasso和树模型等。准确率较高,计算复杂度介于过滤式和包裹式方法之间,但缺点是只有部分模型有这个功能。
因此,所述基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理。
在一些实施例中,对处理后的指标数据集合进行指标数据更新处理可以通过步骤S71至步骤S77完成:
步骤S71:获取所述处理后的指标数据集合的统计指标。
步骤S72:基于所述统计指标确定所述处理后的指标数据集合中的每一指标数据的分值。
步骤S73:按照所述分值,对所述处理后的指标数据集合中的指标数据进行排序,形成第一指标数据序列。
步骤S74:采用包裹式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第一指标数据集合。
步骤S75:采用嵌入式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第二指标数据集合。
步骤S76:基于所述第一指标数据序列、筛选后的第一指标数据集合和筛选后的第二指标数据集合,确定待删除指标数据。
步骤S77:删除所述待删除指标数据。
本申请实施例分别采用三种不同的选择方法,对处理后的指标数据集合的统计指标进行处理,得到第一指标数据序列、筛选后的第一指标数据集合和筛选后的第二指标数据集合,将同时在第一指标数据序列、第一指标数据集合、第二指标数据集合中至少2个结果中均位于后30%的指标数据确定为待删除指标数据,并删除确定出的待删除指标数据,得到更新后的指标数据集合。
本申请实施例对处理后的指标数据,进一步基于指标数据之间的相关性剔除异常、无效和强相关指标。并且,由于不同指标数据组合后会对满意度产生不同影响,因此采用特定算法构建新的指标数据。随后使用多种基于模型特征选择算法综合进行指标数据的筛选,剔除对满意度影响较弱的指标数据。
在一些实施例中,不同满意度客户的数据差异较大,客户满意度预测是典型的不均衡分类问题。不均衡问题导致少数类样本信息无法被充分表达,易受噪声影响;传统分类算法基于训练样本数均衡前提,不平衡样本导致分类模型决策面偏移;传统分类方法已准确率为评估指标,在数据失衡情况下,容易导致偏向于预测大类,降低少数类分类效果。
为了解决样本失衡带来问题,本申请实施例从指标数据、算法和评估指标等方面采用下述三种方法提高训练模型的效果。具体实施过程如下:
方法一:对所述更新后的指标数据集合中的第一类别数据集合进行过采样处理,得到过采样指标数据;采用所述过采样指标数据更新所述更新后的指标数据集合;其中,所述第一类别数据集合中的数据个数小于个数阈值。
在本申请实施例中,首先对更新后的指标数据集合进行二分类处理,得到第一类别数据集合和第二类别数据集合,其中,第一类别数据集合中的数据个数小于个数阈值。也就是说,对更新后的指标数据集合进行二分类处理,得到少数类和多数类,其中,第一类别数据集合为少数类数据集合。
采用人工少数类过采样法(Synthetic Minority Over-sampling Technique,SMOTE),对少数类进行过采样,来增加少数类样本量。图4为本申请实施例提供对更新后的指标数据集合401中的第一类别数据集合402进行过采样处理的过程示意图,其中,具体过程为:
首先确定出第一类数据集合402中所有数据点p,并计算每一点p在第一类别数据集合中的k个最近邻数据;其次,有放回地随机抽取r个近邻点,且r≤k;随后,将r个近邻点的每一点与p个数据点的每一点组成一条直线,在这条直线上随机抽取一个新的点q,因此,在r个近邻点上共可以抽取r个新的q点。最后,将q个新点加入上述第一类别数据集合402中,以更新所述更新后的指标数据集合。
方法二:采用集成树算法对所述更新后的指标数据集合中的第一类别数据集合进行数据评估,得到所述第一类别数据集合中的每一指标数据的第一评估结果;基于所述第一评估结果,更新所述更新后的指标数据集合。
这里,可以采用工业级集成树算法(Light GBM),对更新后的指标数据集合中的第一类别数据集合进行数据评估,Light GBM算法中内置代价敏感学习机制,可以预先设定unbalance参数,根据unbalance参数,得到第一评估结果,基于第一评估结果,更新所述更新后的指标数据集合。梯度下降树算法(Gradient Boosting Decision Tree,GBDT)是以决策树为基学习器的梯度提升算法,稳定决策树算法(Light GBM)是基于GBDT的一个算法,扩展改进了GBDT,Light GBM算法内置正则化和交叉验证可有效防止过拟合、采用多线程优化,可快速提高运行速度。
方法三:确定所述更新后的指标数据集合中的第一类别数据集合中的每一指标数据的F1值;基于所述F1值,对所述第一类别数据集合中的每一指标数据进行数据评估,得到每一指标数据的第二评估结果;基于所述第二评估结果,更新所述更新后的指标数据集合。
表3为F1值的混淆矩阵的定义,根据表3定义的F1值计算参数计算F1值。
表3混淆矩阵的定义
本申请实施例可以根据表3定义的混淆矩阵计算F1值。其中,查准率p采用公式(3)计算:
召回率r采用公式(4)计算:
F1值采用公式(5)计算:
其中,查准率:预测为正中实际为正比例;召回率:实际为正中预测为正比例;F1度量(即F1值):查准率和召回率的调和平均。
在本申请实施例中,采用过采样算法SMOTE、稳定决策树算法Light GBM和综合评估指标F1值,可以从数据、算法和评估指标3个层面改善样本失衡导致的问题
在一些实施例中,在将更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型之前,本申请实施例还可以包括步骤S81至步骤S84:
步骤S81:对所述更新后的指标数据集合中的指标数据进行划分,得到至少一个训练集合和至少一个测试集合。
步骤S82:将每一训练集合中的指标数据输入至预定满意度模型中,对所述预定满意度模型进行训练,对应得到至少一个训练后的预定满意度模型。
步骤S83:将每一测试集合中的指标数据对应输入至每一所述训练后的预定满意度模型中,得到每一所述训练后的预定满意度模型的满意度验证误差。
步骤S84:将具有最小满意度验证误差的训练后的预定满意度模型,确定为所述满意度模型。
这里,首先将更新后的指标数据集合中的指标数据分为n个训练集和n测试集,采用n个训练集中的指标数据进行训练,可以得到n个预定满意度模型。
其次,将n个验证集中的指标数据输入对应的预定满意度模型,进行验证,可以得到n个预定满意度模型的满意度验证误差ei(i=1~n)。
最后,将n个ei进行排序,选定其中满意度验证误差ei最小的模型作为满意度模型。
图5为本申请实施例提供的满意度模型训练的流程示意图二,如图5所示,满意度模型的训练过程包括:
步骤S501:定期更新调研用户数据。
步骤S502:采用人工少数类过采样法对少数类进行过采样,得到过采样后宽表502-1。
步骤S503:设定不同参数组合。
在一些实施例中,当参数在参数集合中时,执行步骤S504;当参数不在参数集合中时,执行步骤S506。
步骤S504:对参数组合进行交叉验证。
在一些实施例中,交叉验证的基本思想就是将原始数据进行分组,一部分做为训练集来训练模型,另一部分作为测试集来评价模型。交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。基本方法如步骤(1)至(3)所示:
(1)将集合分为n个训练集和测试集,进行训练,这样我们可以得到n个模型。
(2)在对应的验证集上进行验证,这样可以得到不同模型在验证集上的表现,具体的就是不同模型在验证集上的误差ei(i=1~n)。
(3)将误差进行排序,选定最优模型所对应的参数,然后用所有的数据再次进行训练得到一个新的模型,所以虽然中间训练了多个模型,但最后我们只取最优的模型的参数,用全部数据去训练一个的新的模型,最后的输出模型为新的模型。
模型优化输出阶段基于过采样后宽表,使用Light GBM算法作为分类算法,采用F1值作为评估指标,基于交叉验证选择模型最优参数,每天对全网用户预测,输出关键感知指标和全网用户满意度分数,定期更新数据优化模型,解决数据时效性问题。
步骤S505:得到该参数组合的F1值,并继续验证该参数是否在参数集合中。
步骤S506:根据F1值得到最优参数。
在一些实施例中,在得到最优参数之后,基于Light GBM算法,结合过采样后宽表502-1,执行步骤S507。
步骤S507:训练满意度预测模型。
在一些实施例中,通过训练得到满意度预测模型,可以得到指标影响力排名507-1和关键感知指标507-2。
步骤S508:通过满意度预测模型每天进行预测。
在一些实施例中,将全网用户数据508-1输入训练得到满意度预测模型中,以对全网用户的满意度进行每天预测,得到全网用户满意度预测分数508-2。
在本申请实施例中,满意度模型可以输出指标影响力排名和关键感知指标,基于排名和指标感知点类别,得到可调整优化的关键感知指标,并进行客户关怀和维护。
步骤S104:将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型。
步骤S105:采用所述训练后的满意度模型预测目标对象的满意度值。
本申请实施例采用满意度模型,周期性地对全网用户进行预测,输出指标数据和用户满意度分数,定期更新数据优化模型,基于客户上网满意度预测结果进行客户维护。
本申请实施例提供的满意度预测方法对采集的数据进行数据处理,对采集到的数据进行优化,并根据优化后数据的相关性对数据集合进行更新,使得本申请实施例对模型进行训练的指标数据集合中的指标数据过滤了用户主观因素,提高了指标数据的质量,同时考虑了指标数据的内在关联性,剔除冗余信息,解决了样本指标数据的失衡问题;同时,本申请实施例通过更新后的指标数据集合进行模型训练,提高了模型训练的准确性,得到的满意度模型能够更加准确地预测用户满意度。
在一些实施例中,分析应用层基于预测模型输出的关键感知指标和全网用户满意度分数开展后分析和应用工作,从以下三个方面进行分析应用:
1、监控:根据小区、区县、地市、全网汇聚不同层级满意度分数和关键感知指标,监控不同层级满意度变化趋势和关键感知点变化情况。
2、问题定位优化:基于监控发现满意度长期质差和突发质差地市、区县、小区;根据质差区域关键感知指标贬损情况,定位满意度质差原因,进行优化解决。
3、用户跟踪关怀:对长期潜在不满意用户群体分析其分布和关键感知指标贬损情况,进行优化,或者推送到客户体验平台,开展客户关怀感知。
本申请实施例可以基于不同层级满意度分数和关键感知指标进行客户维护,图6为本申请实施例提供的进行客户维护的流程示意图,如图6所示,基于客户上网满意度预测结果进行客户维护的具体过程包括步骤S601至步骤S607:
首先,全网获取小区、区县、地市等不同层级的关键感知指标601和用户满意度分数602,通过关键感知指标601和用户满意度分数602执行步骤S601至步骤S607来实现客户维护:
步骤S601:汇聚不同层级满意度分数和关键感知指标数据。
步骤S602:不同层级满意度分数和关键感知指标监控。
这里,可以监控不同层级满意度变化趋势和关键感知点变化情况。
步骤S603:发现质差地市、区县、小区。
步骤S604:基于关键感知指标定位质差原因。
步骤S605:优化解决。
这里,可以基于监控发现满意度长期质差和突发质差地市、区县、小区;根据质差区域关键感知指标数据贬损情况,定位满意度质差原因,进行优化解决。
步骤S606:输出长期健在不满意用户。
步骤S607:进行用户关怀。
这里,可以对长期潜在不满意用户群体分析其分布和关键感知指标数据贬损情况,进行优化,或者推送到客户体验平台,开展客户关怀感知。
本申请实施例中,基于关键感知指标数据和用户每天预测出的满意度分数进行分析,开展不同区域满意度和关键感知指标监控,不同区域问题发现、原因定位优化解决,跟踪长期潜在不满意用户进行优化关怀。应用时充分利用分析结果,针对网络、用户进行监控、问题发现定位、优化解决,提高全网用户上网满意度。
本申请实施例基于预设感知点获取评估对象的指标数据集合,通过对指标数据集合进行主观数据处理、异常数据处理和缺失数据处理之后,得到数据处理之后的指标数据集合,随后基于指标数据件的相关系,对指标数据进行更新,并进行模型训练,采用训练得到的满意度模型,进行满意度预测。本申请实施例提供的满意度预测方法从数据采集、数据处理、预测模型多个层级进行优化,全面选择满意度指标数据、过滤用户主观因素、提高数据质量,考虑指标数据内在关联性扩展特征,提高模型训练的准确性,并基于满意度模型预测用户满意度分数,进行客户维护。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
图7为本申请实施例提供的流程示意图,如图7所示,本申请实施例提供的满意度预测可以通过步骤S701至步骤S714实现:
步骤S701:基于满意度调研用户数据701-1,明确预设感知点。
步骤S702:基于预设感知点从满意度调研用户数据701-1中全面选取满意度影响指标数据。
步骤S703:对满意度影响指标数据进行主观用户筛选。
步骤S704:对主观用户筛选之后的满意度影响指标数据进行异常数据剔除。
步骤S705:对异常数据剔除之后的满意度影响指标数据进行缺失数据处理。
步骤S706:对缺失数据处理之后的满意度影响指标数据进行类别型数据编码。
步骤S707:对类别型数据编码之后的满意度影响指标数据基于业务进行特征筛选。
在一些实施例中,基于业务进行特征筛选至少包括:过滤取值唯一、异常和含义相似的指标数据。
步骤S708:对特征筛选之后的满意度影响指标数据进行指标数据之间的相关性分析。
步骤S709:对相关性分析之后的满意度影响指标数据进行算法层面特征生成。
在一些实施例中,在算法层面进行特征生成至少包括:采用多项式生成和特征提取算法生成新的指标数据。
步骤S710:采用基于不同模型的选择算法进行指标数据筛选。
步骤S711:对筛选后的数据进行过采样处理。
这里,可以对处理后的指标数据采用SMOTE算法进行过采样处理。
步骤S712:基于过采样处理后的指标数据,进行满意度模型的训练和优化。
在一些实施例中,可以以F1值作为评估指标,采用Light GBM算法进行满意度模型的训练和优化,以改善不同分数满意度失衡问题,定期更新满意度训练数据,解决数据时效性问题。
步骤S713:采用训练后的满意度模型预测用户满意度。
在一些实施例中,可以将待预测用户数据713-1输入训练后的满意度模型中,采用训练后的满意度模型预测用户满意度,输出用户满意度分数713-3和指标影响力排名713-2,通过指标影响力排名713-2可以得到关键感知指标713-4。
步骤S714:训练后的满意度模型应用。
在一些实施例中,可以根据指标影响力排名713-2确认的关键感知指标713-4和用户满意度分数713-3开展后续分析。满意度模型应用至少包括:进行潜在不满意用户跟踪721,例如,针对满意度分数质差的地市、区县、小区的关键感知指标质差情况,定位质差原因,进行优化处理;进行满意度趋势和感知触点监控714-2,例如,进行监控全网和不同区域满意度分数变化趋势和关键感知点变化;进行潜在不满意质差区域优化714-3,例如,对潜在不满意度用户,分析其关键指标贬损情况,进行网络优化或线下关怀。
本申请实施例提供一种满意度预测装置,图8为本申请实施例提供的满意度预测装置组成示意图,如图8所示,所述装置800包括:
获取模块801,用于获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配;数据处理模块802,用于基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合;更新处理模块803,用于基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合;输入模块804,用于将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型;预测模块805,用于采用训练后的满意度模型预测目标对象的满意度值。
本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现:获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配;基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合;基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合;将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型;采用所述训练后的满意度模型预测目标对象的满意度值。
在一些实施例中,所述指令被处理器执行时还可以实现:基于所述指标数据集合中的满意度值,对所述指标数据集合进行主观数据剔除处理,得到数据剔除后的指标数据集合;对所述数据剔除后的指标数据集合进行异常数据检测,得到异常指标数据;删除所述异常指标数据,得到异常数据处理后的指标数据集合;对所述异常数据处理后的指标数据集合进行缺失数据识别,得到数据缺失类别;基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合。
在一些实施例中,所述指令被处理器执行时还可以实现:基于所述指标数据集合中的满意度值,从所述至少一个评估对象中确定出主观对象;其中,所述主观对象的所述满意度值在预设数值范围内;将所述主观对象的指标数据,确定为主观数据;从所述指标数据集合中剔除所述主观数据,得到数据剔除后的指标数据集合。
在一些实施例中,所述指令被处理器执行时还可以实现:所述指标数据集合中包括多个样本指标数据集合,每一所述样本指标数据集合中包括至少一个指标数据;所述对所述数据剔除后的指标数据集合进行异常数据检测,得到异常指标数据,包括:针对当前第N个数据剔除后的样本指标数据集合,确定所述数据剔除后的样本指标数据集合中每一指标数据的数据类型;获取每一所述数据类型对应的异常阈值范围;当所述数据剔除后的样本指标数据集合中的任一指标数据超出对应的异常阈值范围时,将所述指标数据确定为待处理异常指标数据;或,针对任一所述数据剔除后的样本指标数据集合,初始化异常指标数量;获取异常删除比例;当所述异常指标数量大于所述异常删除比例和所述数据剔除后的样本指标数据集合的数量的乘积时,将所述数据剔除后的样本指标数据集合中的每一指标数据确定为待处理异常指标数据。
在一些实施例中,所述指令被处理器执行时还可以实现:将所述待处理异常指标数据对应的存储位置置空。
在一些实施例中,所述指令被处理器执行时还可以实现:所述数据缺失类别包括:数值型缺失;对应的,所述基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合,包括:当所述数据缺失类别为数值型缺失,且当所述数值缺失类别在当前业务上能够表征特定指标类型时,将所述异常数据处理后的指标数据集合中的指标数据赋值为特定值;当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第一预设数据阈值,对所述异常数据处理后的指标数据集合中的指标数据进行重编码处理;当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第一预设数据阈值,采用所述异常数据处理后的指标数据集合中的指标数据的中位数或近邻数据填充缺失数据的位置。
在一些实施例中,所述指令被处理器执行时还可以实现:所述数据缺失类别包括:类别型缺失;对应的,所述基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合,包括:当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第二预设数据阈值,获取所述异常数据处理后的指标数据集合中的指标数据的指标众数;并采用所述指标众数填充缺失数据的位置;当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第二预设数据阈值,将全部缺失数据的属性信息设置为类别未知属性。
在一些实施例中,所述指令被处理器执行时还可以实现以下至少之一:当所述处理后的指标数据集合中的任意两个指标数据之间的相关性大于相关度阈值时;删除所述两个指标数据中的任一指标数据;当所述处理后的指标数据集合中具有一个指标数据时,删除所述指标数据;当所述处理后的指标数据集合中的任意两个指标数据相同时,删除所述两个指标数据中的任一指标数据;当所述处理后的指标数据集合中的任意两个指标数据对应的业务属性相同时,删除所述两个指标数据中的任一指标数据。
在一些实施例中,所述指令被处理器执行时还可以实现:确定所述处理后的指标数据集合中的每一指标数据的指标影响力值;按照所述指标影响力值,对所述处理后的指标数据集合中指标数据进行排序,形成指标数据序列;将所述指标数据序列中预设数量的指标数据,确定为关键指标数据;基于所述关键指标数据,生成新的指标数据;采用所述新的指标数据更新所述处理后的指标数据集合。
在一些实施例中,所述指令被处理器执行时还可以实现:获取所述处理后的指标数据集合的统计指标;基于所述统计指标确定所述处理后的指标数据集合中的每一指标数据的分值;按照所述分值,对所述处理后的指标数据集合中的指标数据进行排序,形成第一指标数据序列;采用包裹式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第一指标数据集合;采用嵌入式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第二指标数据集合;基于所述第一指标数据序列、筛选后的第一指标数据集合和筛选后的第二指标数据集合,确定待删除指标数据;删除所述待删除指标数据。
在一些实施例中,所述指令被处理器执行时还可以实现:对所述更新后的指标数据集合中的第一类别数据集合进行过采样处理,得到过采样指标数据;采用所述过采样指标数据更新所述更新后的指标数据集合;其中,所述第一类别数据集合中的数据个数小于个数阈值;或,采用集成树算法对所述更新后的指标数据集合中的第一类别数据集合进行数据评估,得到所述第一类别数据集合中的每一指标数据的第一评估结果;基于所述第一评估结果,更新所述更新后的指标数据集合;或,确定所述更新后的指标数据集合中的第一类别数据集合中的每一指标数据的F1值;基于所述F1值,对所述第一类别数据集合中的每一指标数据进行数据评估,得到每一指标数据的第二评估结果;基于所述第二评估结果,更新所述更新后的指标数据集合。
在一些实施例中,所述指令被处理器执行时还可以实现:对所述更新后的指标数据集合中的指标数据进行划分,得到至少一个训练集合和至少一个测试集合;将每一训练集合中的指标数据输入至预定满意度模型中,对所述预定满意度模型进行训练,对应得到至少一个训练后的预定满意度模型;将每一测试集合中的指标数据对应输入至每一所述训练后的预定满意度模型中,得到每一所述训练后的预定满意度模型的满意度验证误差;将具有最小满意度验证误差的训练后的预定满意度模型,确定为所述满意度模型。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法、装置和系统,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
需要说明的是,图9是本申请实施例提供的一种满意度预测设备的硬件实体示意图,如图9所示,该电子设备90的硬件实体包括:处理器901、通信接口902和存储器903,其中:
处理器901通常控制电子设备90的总体操作。
通信接口902可以使电子设备通过网络与其他终端或服务器通信。
存储器903配置为存储由处理器901可执行的指令和应用,还可以缓存待处理器901以及电子设备90中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器901、通信接口902和存储器903之间可以通过总线904进行数据传输。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。本申请所提供的几个系统实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的系统实施例。本申请所提供的几个方法或系统实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或系统实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种满意度预测方法,其特征在于,所述方法包括:
获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配;
基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合;
基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合;
将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型;
采用所述训练后的满意度模型预测目标对象的满意度值。
2.根据权利要求1所述的方法,其特征在于,所述基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合,包括:
基于所述指标数据集合中的满意度值,对所述指标数据集合进行主观数据剔除处理,得到数据剔除后的指标数据集合;
对所述数据剔除后的指标数据集合进行异常数据检测,得到异常指标数据;
删除所述异常指标数据,得到异常数据处理后的指标数据集合;
对所述异常数据处理后的指标数据集合进行缺失数据识别,得到数据缺失类别;
基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合。
3.根据权利要求2所述的方法,其特征在于,所述基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理,得到数据剔除后的指标数据集合,包括:
基于所述指标数据集合中的满意度值,从所述至少一个评估对象中确定出主观对象;其中,所述主观对象的所述满意度值在预设数值范围内;
将所述主观对象的指标数据,确定为主观数据;
从所述指标数据集合中剔除所述主观数据,得到数据剔除后的指标数据集合。
4.根据权利要求2所述的方法,其特征在于,所述指标数据集合中包括多个样本指标数据集合,每一所述样本指标数据集合中包括至少一个指标数据;
所述对所述数据剔除后的指标数据集合进行异常数据检测,得到异常指标数据,包括:
针对当前第N个数据剔除后的样本指标数据集合,确定所述数据剔除后的样本指标数据集合中每一指标数据的数据类型;
获取每一所述数据类型对应的异常阈值范围;
当所述数据剔除后的样本指标数据集合中的任一指标数据超出对应的异常阈值范围时,将所述指标数据确定为待处理异常指标数据;或,
针对任一所述数据剔除后的样本指标数据集合,初始化异常指标数量;
获取异常删除比例;
当所述异常指标数量大于所述异常删除比例和所述数据剔除后的样本指标数据集合的数量的乘积时,将所述数据剔除后的样本指标数据集合中的每一指标数据确定为待处理异常指标数据。
5.根据权利要求2所述的方法,其特征在于,所述数据缺失类别包括:数值型缺失;
对应的,所述基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合,包括:
当所述数据缺失类别为数值型缺失,且当所述数值缺失类别在当前业务上能够表征特定指标类型时,将所述异常数据处理后的指标数据集合中的指标数据赋值为特定值;
当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第一预设数据阈值,对所述异常数据处理后的指标数据集合中的指标数据进行重编码处理;
当所述数据缺失类别为数值型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第一预设数据阈值,采用所述异常数据处理后的指标数据集合中的指标数据的中位数或近邻数据填充缺失数据的位置。
6.根据权利要求2所述的方法,其特征在于,所述数据缺失类别包括:类别型缺失;
对应的,所述基于所述数据缺失类别,对所述异常数据处理后的指标数据集合进行缺失数据处理,得到所述处理后的指标数据集合,包括:
当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量小于或等于第二预设数据阈值,获取所述异常数据处理后的指标数据集合中的指标数据的指标众数;并采用所述指标众数填充缺失数据的位置;
当所述数据缺失类别为类别型缺失,且所述异常数据处理后的指标数据集合中的缺失数据量大于第二预设数据阈值,将全部缺失数据的属性信息设置为类别未知属性。
7.根据权利要求1所述的方法,其特征在于,所述基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合,包括:
确定所述处理后的指标数据集合中的每一指标数据的指标影响力值;
按照所述指标影响力值,对所述处理后的指标数据集合中指标数据进行排序,形成指标数据序列;
将所述指标数据序列中预设数量的指标数据,确定为关键指标数据;
基于所述关键指标数据,生成新的指标数据;
采用所述新的指标数据更新所述处理后的指标数据集合。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述处理后的指标数据集合的统计指标;
基于所述统计指标确定所述处理后的指标数据集合中的每一指标数据的分值;
按照所述分值,对所述处理后的指标数据集合中的指标数据进行排序,形成第一指标数据序列;
采用包裹式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第一指标数据集合;
采用嵌入式模型,对所述处理后的指标数据集合中的指标数据进行数据筛选,得到筛选后的第二指标数据集合;
基于所述第一指标数据序列、筛选后的第一指标数据集合和筛选后的第二指标数据集合,确定待删除指标数据;
删除所述待删除指标数据。
9.一种满意度预测装置,其特征在于,所述装置包括:
获取模块,用于获取至少一个评估对象的指标数据集合;其中,所述指标数据集合中的指标数据与至少一个预设感知点匹配;
数据处理模块,用于基于所述指标数据集合中的满意度值,对所述指标数据集合依次进行主观数据剔除处理、异常数据处理和缺失数据处理,得到处理后的指标数据集合;
更新处理模块,用于基于所述处理后的指标数据集合中的指标数据之间的相关性,对所述处理后的指标数据集合进行指标数据更新处理,得到更新后的指标数据集合;
输入模块,用于将所述更新后的指标数据集合中的指标数据输入至满意度模型中,对所述满意度模型进行训练,得到训练后的满意度模型;
预测模块,用于采用所述训练后的满意度模型预测目标对象的满意度值。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1至8中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210966490.5A CN116822675A (zh) | 2022-08-12 | 2022-08-12 | 满意度预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210966490.5A CN116822675A (zh) | 2022-08-12 | 2022-08-12 | 满意度预测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116822675A true CN116822675A (zh) | 2023-09-29 |
Family
ID=88122676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210966490.5A Pending CN116822675A (zh) | 2022-08-12 | 2022-08-12 | 满意度预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116822675A (zh) |
-
2022
- 2022-08-12 CN CN202210966490.5A patent/CN116822675A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108234198B (zh) | 一种基站流量预测方法和设备 | |
CN108877839B (zh) | 基于语音语义识别技术的语音质量感知评估的方法及系统 | |
CN111242171B (zh) | 网络故障的模型训练、诊断预测方法、装置以及电子设备 | |
CN109104731B (zh) | 小区场景类别划分模型的构建方法、装置和计算机设备 | |
CN112766550B (zh) | 基于随机森林的停电敏感用户预测方法、系统、存储介质及计算机设备 | |
CN113379176B (zh) | 电信网络异常数据检测方法、装置、设备和可读存储介质 | |
CN108768695B (zh) | Kqi的问题定位方法及装置 | |
CN111325340B (zh) | 信息网络关系预测方法及系统 | |
CN109116299B (zh) | 一种指纹定位方法、终端、计算机可读存储介质 | |
CN112214677B (zh) | 一种兴趣点推荐方法、装置、电子设备及存储介质 | |
CN114637911B (zh) | 一种注意力融合感知网络的下一个兴趣点推荐方法 | |
CN111526119A (zh) | 异常流量检测方法、装置、电子设备和计算机可读介质 | |
CN112817563A (zh) | 目标属性配置信息确定方法、计算机设备和存储介质 | |
CN111368858B (zh) | 用户满意度评估方法及装置 | |
CN110290534B (zh) | 一种基于XGBoost的认知无线电协作频谱感知方法及系统 | |
CN116822675A (zh) | 满意度预测方法、装置及存储介质 | |
CN114417166B (zh) | 基于行为序列和动态社交影响的连续兴趣点推荐方法 | |
CN111833171B (zh) | 异常操作检测和模型训练方法、装置以及可读存储介质 | |
CN111835541B (zh) | 一种流量识别模型老化检测方法、装置、设备及系统 | |
CN115482500A (zh) | 基于置信概率的人群统计方法及装置 | |
CN118821048A (zh) | 区域间流量预测方法、装置、电子设备和存储介质 | |
CN106972967B (zh) | 一种用于链路预测的深度学习降维方法和装置 | |
CN116665128A (zh) | 一种图像识别方法和相关装置 | |
CN116595853A (zh) | 一种基于残差收缩网络和长短期记忆网络的变电站设备寿命预测方法 | |
CN118803809A (zh) | 基站部署方法、装置、设备及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |