CN112749841A - 一种基于自训练学习的用户口碑预测方法及系统 - Google Patents
一种基于自训练学习的用户口碑预测方法及系统 Download PDFInfo
- Publication number
- CN112749841A CN112749841A CN202011612586.9A CN202011612586A CN112749841A CN 112749841 A CN112749841 A CN 112749841A CN 202011612586 A CN202011612586 A CN 202011612586A CN 112749841 A CN112749841 A CN 112749841A
- Authority
- CN
- China
- Prior art keywords
- data
- public praise
- user
- model
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 238000012360 testing method Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000016776 visual perception Effects 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/60—Business processes related to postal services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于自训练学习的用户口碑预测方法及系统,属于网络运营商技术领域,包括以下步骤:S1:确定影响因子及原始数据;S2:进行数据预处理及特征工程操作并得到两类数据;S3:训练模型;S4:无标签用户口碑预测;S5:模型更新优化。本发明仅使用少量的问卷数据,并结合用户历史业务数据,构建少量有标签数据和大量无标签数据;使用基于机器学习回归算法的自训练学习方法,得到用户口碑模型,基于该模型可预知全量用户的口碑评分,将低口碑用户推送给运营部门进行运营;并将运营的真实口碑反馈给模型进行迭代优化,从而实现了对全体用户口碑实时、高效、准确的评估,为提升用户口碑具有重大价值,值得被推广使用。
Description
技术领域
本发明涉及网络运营商技术领域,具体涉及一种基于自训练学习的用户口碑预测方法及系统。
背景技术
近年来,三大运营商纷纷陷入业绩困境,加之5G时代的到来,三家纷纷停止价格战,转向客户价值提升战,并且明确提出将提升用户口碑为各项服务考核指标。提升用户口碑的一种方式就是提前预知挖掘潜在的用户口碑不好的用户,针对性的对这些用户进行关怀服务。鉴于运营商用户体量大的现状,现有的问卷调查方式无法全面覆盖用户,并且实时性低,成本大。
上述问题亟待解决,为此,提出一种基于自训练学习的用户口碑预测方法系统。
发明内容
本发明所要解决的技术问题在于:如何解决现有的问卷调查方式无法全面覆盖用户,并且实时性低,成本大等问题,提供了一种基于自训练学习的用户口碑预测方法。
本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
S1:确定影响因子及原始数据
确定与用户口碑评分相关的影响因子及数据源,通过用户满意度调查获取用户口碑评分数据,将各项数据汇总到数据平台;
S2:进行数据预处理及特征工程操作并得到两类数据集
在数据平台上对原始数据进行数据预处理及特征工程操作,构建有标签的样本数据集Train以及无标签的样本数据集Test,其中能够关联口碑评分数据的用户作为有标签的样本数据集Train的样本,无法关联口碑评分数据的用户作为无标签的样本数据集Test的样本;
S3:训练模型
对数据集Train和Test进行自训练学习,当满足终止条件时结束训练,并得到用户口碑预测模型;
S4:无标签用户口碑预测
使用步骤S3得到用户口碑预测模型,对无标签的数据集Test进行预测,得到该数据集中用户的口碑评分,将得分较低的用户推送给运营部门进行服务维系;
S5:模型更新优化
运营部门将实际服务中用户反馈的真实评价数据反馈给用户口碑预测模型,当反馈数据达到设定数量时,将反馈样本加入数据集Train后执行步骤S3,更新用户口碑预测模型。
更进一步地,在所述步骤S1中,影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5;其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2;网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6;直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8;投诉指标B4包括投诉次数指标C9,故障指标B5包括故障次数指标C10,用户满意度调查是通过电话调查、网络调查等方式获取用户对过往网络质量的口碑评分数据。
更进一步地,在所述步骤1中,影响因子采集的用户为全体用户P_A,参加用户满意度调查的用户集为P_B,P_B的数量小于P_A。
更进一步地,在所述步骤S2中,原始数据包括步骤S1中的各项指标数据和口碑评分数据。
更进一步地,在所述步骤S2中,所述数据预处理方式包括缺失值处理、异常值处理、关键词提取;所述特征工程操作即构建包含用户使用维度、直观感知维度、意见反馈维度的综合特征宽表,以用户ID作为样本主键进行特征汇聚。
更进一步地,在所述步骤S3中,自训练学习的过程包括以下步骤:
S31:利用机器学习回归算法,在少量具有标签的样本数据集D上训练,学习得到初级的口碑评分预测模型;
S32:设置迭代终止条件;当模型满足迭代终止条件时,则输出本阶段的口碑评分预测模型;否则将模型应用在无标签的样本数据集上,根据置信度筛选出高置信度的样本;
S33:将高置信度的样本加入训练数据集D,利用算法重新训练模型;
S34:重复步骤S32、S33,直到满足迭代终止条件,输出本阶段模型,即为用户口碑预测模型。
更进一步地,在所述步骤S4中,利用步骤S3得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测,将得分小于预置感知阈值的用户标记为维系对象推送给运营部门进行服务验证。
更进一步地,在所述步骤S5中,运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台;当采集到新增口碑评分样本达到预置的规模时,与步骤S2中的无标签的数据集Test关联后更新数据集Train和Test,重新运行步骤S3更新用户口碑评分预测模型。
本发明还提供了一种基于自训练学习的用户口碑预测系统,利用上述的口碑预测方法对用户口碑进行预测,包括:
数据采集模块,用于确定与用户口碑评分相关的影响因子及数据源,通过用户满意度调查获取用户口碑评分数据,将各项数据汇总到数据平台;
数据处理模块,用于在数据平台上对原始数据进行数据预处理及特征工程操作,构建有标签的样本数据集Train以及无标签的样本数据集Test;
模型训练模块,用于对数据集Train和Test进行自训练学习,当满足终止条件时结束训练,并得到用户口碑预测模型;
口碑预测模块,用于使用用户口碑预测模型,对无标签的数据集Test进行预测,得到该数据集中用户的口碑评分,将得分较低的用户推送给运营部门进行服务维系;
模型更新模块,用于运营部门将实际服务中用户反馈的真实评价数据反馈给用户口碑预测模型,当反馈数据达到设定数量时,将反馈样本加入数据集Train后执行步骤S3,更新用户口碑预测模型。
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述数据采集模块、数据处理模块、模型训练模块、口碑预测模块、模型更新模块均与中央处理模块电连接。
本发明相比现有技术具有以下优点:该基于自训练学习的用户口碑预测方法,仅使用少量的问卷数据,并结合用户历史业务数据,构建少量有标签数据和大量无标签数据;使用基于机器学习回归算法的自训练学习方法,得到用户口碑模型,基于该模型可预知全量用户的口碑评分,将低口碑用户推送给运营部门进行运营;并将运营的真实口碑反馈给模型进行迭代优化,从而实现了对全体用户口碑实时、高效、准确的评估,为提升用户口碑具有重大价值,值得被推广使用。
附图说明
图1是本发明实施例二中基于自训练学习的用户口碑预测方法的流程示意图;
图2是本发明实施例二中步骤S2的流程示意图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
本实施例提供一种技术方案:一种基于自训练学习的用户口碑预测方法,包括以下步骤:
S1:确定与用户口碑评分相关的影响因子及数据源,通过用户满意度调查获取用户口碑评分数据,利用数据采集装置将各项数据汇总到数据平台;
S2:在数据平台上对原始数据进行数据预处理及特征工程操作,构建有标签的样本数据集Train以及无标签的样本数据集Test;
S3:利用机器学习回归算法对数据集Train和Test进行自训练学习,当满足终止条件时结束训练,并得到用户口碑预测模型;
S4:使用用户口碑预测模型,对无标签的数据集Test进行预测,得到数据集中用户的口碑评分,将得分较低的用户推送给运营部门进行服务维系;
S5:运营部门将实际服务中用户反馈的真实评价数据反馈给模型,当反馈数据达到一定数量时,将反馈样本加入数据集Train后执行步骤S3,更新用户口碑预测模型。
在本实施例中,在所述步骤S1中,影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5;其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2;网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6;直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8;投诉指标B4包括投诉次数指标C9,故障指标B5包括故障次数指标C10;用户满意度调查是通过电话调查、网络调查等方式获取用户对过往网络质量的口碑评分数据。影响因子采集的用户为全体用户P_A,参加用户满意度调查的用户集为P_B,P_B远小于P_A。
在本实施例中,在所述步骤S2中,数据预处理包括:缺失值处理、异常值处理、关键词提取等;特征工程是指针对多维度数据、应用领域的业务知识和数据建模的经验方法,构建包含用户使用维度、直观感知维度、意见反馈维度的综合特征宽表,以用户ID作为样本主键进行特征汇聚,其中特征包括但不限于历史投诉次数统计、历史故障次数统计、日均卡顿次数统计、日均卡顿时长、日均RTP包抖动次数、日均RPT包丢失率、每日MDI-DF平均值等;将参加满意度调查的用户,关联调查结果数据(用户口碑评分数据)构建有标签样本数据集Train,未参加用户满意度调查的用户构建无标签样本数据集Test,数据集Train样本数为P_B,数据集Test样本数为P_A-P_B。
在本实施例中,在所述步骤S3中,所述自训练学习过程包括:1)应用机器学习回归算法,在少量具有标签的样本数据集D上训练,学习得到初级的口碑评分预测模型;2)设置迭代终止条件,如迭代次数、迭代的误差阈值等,当模型满足迭代终止条件时,则输出本阶段的口碑评分预测模型;否则将模型应用在无标签的样本数据集上,根据置信度筛选出高置信度的样本;3)将高置信度的样本加入训练数据集D,应用算法重新训练模型;4)重复步骤2)、3),直到满足迭代终止条件,输出本阶段模型,即为用户口碑预测模型;
在本实施例中,在所述步骤S4中,利用上一步得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测,将得分小于预置感知阈值的用户标记为维系对象推送给运营部门进行服务验证。
在本实施例中,在所述步骤S5中,运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台;当采集到新增口碑评分样本达到预置的规模(如500)时,与步骤S2中的无标签数据集Test关联后更新Train和Test数据集,重新运行步骤S3更新模型。
实施例二
如图1所示,本实施例提供了一种基于自训练学习的用户口碑预测方法,其包括如下步骤:
S1:确定与用户口碑评分相关的影响因子及数据源,通过用户满意度调查获取用户口碑评分数据,应用数据采集装置将各项数据汇总到数据平台。
具体为:根据专家知识,确定的影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5,其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2;网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6;直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8;投诉指标B4包括投诉次数指标C9,故障指标B5包括故障次数指标C10;用户满意度调查是通过电话调查、网络调查等方式获取用户对过往网络质量的口碑评分数据。通过数据采集装置,将以上各指标数据和调查结果数据汇总到数据平台,供步骤S2使用。另外各项指标采集的用户为全体用户P_A,参加用户满意度调查的用户集为P_B,其中P_B∈P_A。
S2:在数据平台上,对原始数据进行数据预处理及特征工程操作,构建有标签的样本数据集Train以及无标签的样本数据集Test。
具体为:读取数据平台上的原始业务数据(即各项指标数据)和口碑评分数据(即用户满意度调查结果数据),先对原始业务数据分别进行数据预处理和特征工程操作,再与口碑评分数据进行数据关联操作,能够关联口碑评分数据的用户作为有标签的样本,无法关联口碑评分数据的用户作为无标签样本。
具体流程如下图2所示。其中原始业务数据预处理操作主要是将原始业务数据中的缺失值进行填充、异常值使用均值替换等,口碑评分数据的数据预处理主要是根据口碑评价进行关键词分析,剔除评分与口碑内容不一致的数据;
例如用户口碑评价中出现网络信号差、费用高、服务态度恶劣等负面词汇,通过关键词分析(可通过“不稳定”、“延迟”、“不好”、“差”、“恶劣”、“卡顿”等关键词去匹配)找出负面情绪的评论,然后再与用户口碑评分对应,将评价中包含负面情绪但是用户口碑评分却很高(如满分10,用户评分大于7分)的用户数据剔出;因为这个评分与实际口碑评价内容不一致,属于异常数据,会对模型有误导作用,因此进行这一步操作,从而提高模型的准确率。
特征工程操作包括特征提取、特征缩放、特征选择、分箱、独热编码等操作。具体构建历史投诉次数、历史故障次数、日均卡顿次数、日均卡顿时长、日均RTP包抖动次数、日均RPT包丢失率、每日MDI-DF平均值等特征,具体如下表1所示;
表1主要特征名称表
S3:应用机器学习回归算法对数据集Train和Test进行自训练学习,当满足终止条件时结束训练,并得到用户口碑预测模型;
具体为:自训练学习过程包括:
S31:应用机器学习回归算法,在有标签的样本数据集Train上训练,学习得到初级的口碑评分预测模型;
S32:设置迭代终止条件,如迭代次数、迭代的误差阈值等,当模型满足迭代终止条件时,则输出本阶段的口碑评分预测模型;否则将模型应用在无标签的样本数据集Test上,根据置信度筛选出高置信度的样本Trust;
S33:将高置信度的样本Trust加入数据集Train,应用机器学习回归算法重新训练模型;
S34:重复步骤S32、S33,直到满足迭代终止条件(如新增高置信样本数量<100),输出本阶段模型,即用户口碑预测模型;
S4:使用用户口碑预测模型,对无标签的数据集Test进行预测,得到数据集中用户的口碑评分,将预测值较低的用户推送给运营部门进行服务维系。
具体为:应用步骤S3得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测,将得分小于预置口碑阈值(如阈值epsilon<3)的用户标记为目标用户推送给运营部门进行客户关怀;
S5:运营部门将实际服务中用户反馈的真实评价数据反馈给模型,当反馈数据达到一定数量时,将反馈样本加入数据集Train后执行步骤S3;
具体为:运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台;系统自动监控新增数据的数量,当采集到新增口碑评分样本达到预置的规模(如500)时,与步骤S2中的无标签的数据集Test关联后更新数据集Train和数据集Test,重新运行步骤S3更新模型,并将更新后的模型预测剩余无标签的样本用户,重复步骤S4。
综上所述,上述实施例的基于自训练学习的用户口碑预测方法,实现了对全体用户口碑的评估,针对潜在低口碑用户早发现、早维系,有益于提升企业的用户口碑,提升用户价值;基于自训练学习方法,实现了模型的在仅有少量有标签样本前提下的迭代训练,并能够根据实际运营反馈自动更新模型,保证了模型的准确性和实时性,值得被推广使用。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于自训练学习的用户口碑预测方法,其特征在于,包括以下步骤:
S1:确定影响因子及原始数据
确定与用户口碑评分相关的影响因子及数据源,通过用户满意度调查获取用户口碑评分数据,将各项数据汇总到数据平台;
S2:进行数据预处理及特征工程操作并得到两类数据集
在数据平台上对原始数据进行数据预处理及特征工程操作,构建有标签的样本数据集Train以及无标签的样本数据集Test,其中能够关联口碑评分数据的用户作为有标签的样本数据集Train的样本,无法关联口碑评分数据的用户作为无标签的样本数据集Test的样本;
S3:训练模型
对数据集Train和Test进行自训练学习,当满足终止条件时结束训练,并得到用户口碑预测模型;
S4:无标签用户口碑预测
使用步骤S3得到用户口碑预测模型,对无标签的数据集Test进行预测,得到该数据集中用户的口碑评分,将得分较低的用户推送给运营部门进行服务维系;
S5:模型更新优化
运营部门将实际服务中用户反馈的真实评价数据反馈给用户口碑预测模型,当反馈数据达到设定数量时,将反馈样本加入数据集Train后执行步骤S3,更新用户口碑预测模型。
2.根据权利要求1所述一种基于自训练学习的用户口碑预测方法,其特征在于:在所述步骤S1中,影响因子包括用户基础信息指标B1、网络传输质量指标B2、直观感知指标B3、投诉指标B4、故障指标B5;其中用户基础信息指标B1指标包括用户机顶盒型号C1、网络连接方式C2;网络传输质量指标B2包括RTP包抖动次数C3、RTP丢包率平均值C4、MDI-DF平均值C5、MDI-MLR平均值C6;直观感知指标B3指标包括卡顿次数指标C7、卡顿时长指标C8;投诉指标B4包括投诉次数指标C9,故障指标B5包括故障次数指标C10,用户满意度调查是通过电话调查、网络调查方式获取用户对过往网络质量的口碑评分数据。
3.根据权利要求2所述一种基于自训练学习的用户口碑预测方法,其特征在于:在所述步骤1中,影响因子采集的用户为全体用户P_A,参加用户满意度调查的用户集为P_B,P_B的数量小于P_A。
4.根据权利要求3所述一种基于自训练学习的用户口碑预测方法,其特征在于:在所述步骤S2中,原始数据包括步骤S1中的各项指标数据和口碑评分数据。
5.根据权利要求4所述一种基于自训练学习的用户口碑预测方法,其特征在于:在所述步骤S2中,所述数据预处理方式包括缺失值处理、异常值处理、关键词提取;所述特征工程操作即构建包含用户使用维度、直观感知维度、意见反馈维度的综合特征宽表,以用户ID作为样本主键进行特征汇聚。
6.根据权利要求5所述一种基于自训练学习的用户口碑预测方法,其特征在于:在所述步骤S3中,自训练学习的过程包括以下步骤:
S31:利用机器学习回归算法,在少量具有标签的样本数据集D上训练,学习得到初级的口碑评分预测模型;
S32:设置迭代终止条件;当模型满足迭代终止条件时,则输出本阶段的口碑评分预测模型;否则将模型应用在无标签的样本数据集上,根据置信度筛选出高置信度的样本;
S33:将高置信度的样本加入训练数据集D,利用算法重新训练模型;
S34:重复步骤S32、S33,直到满足迭代终止条件,输出本阶段模型,即为用户口碑预测模型。
7.根据权利要求6所述一种基于自训练学习的用户口碑预测方法,其特征在于:在所述步骤S4中,利用步骤S3得到的用户口碑评分预测模型对未参与用户满意度调查的用户进行口碑评分预测,将得分小于预置感知阈值的用户标记为维系对象推送给运营部门进行服务验证。
8.根据权利要求7所述一种基于自训练学习的用户口碑预测方法,其特征在于:在所述步骤S5中,运营部门将实际服务中用户反馈的真实口碑评分数据存储到数据平台;当采集到新增口碑评分样本达到预置的规模时,与步骤S2中的无标签的数据集Test关联后更新数据集Train和Test,重新运行步骤S3更新用户口碑评分预测模型。
9.一种基于自训练学习的用户口碑预测系统,其特征在于,利用如权利要求1~8任一所述的口碑预测方法对用户口碑进行预测,包括:
数据采集模块,用于确定与用户口碑评分相关的影响因子及数据源,通过用户满意度调查获取用户口碑评分数据,将各项数据汇总到数据平台;
数据处理模块,用于在数据平台上对原始数据进行数据预处理及特征工程操作,构建有标签的样本数据集Train以及无标签的样本数据集Test;
模型训练模块,用于对数据集Train和Test进行自训练学习,当满足终止条件时结束训练,并得到用户口碑预测模型;
口碑预测模块,用于使用用户口碑预测模型,对无标签的数据集Test进行预测,得到该数据集中用户的口碑评分,将得分较低的用户推送给运营部门进行服务维系;
模型更新模块,用于运营部门将实际服务中用户反馈的真实评价数据反馈给用户口碑预测模型,当反馈数据达到设定数量时,将反馈样本加入数据集Train后执行步骤S3,更新用户口碑预测模型。
中央处理模块,用于向其他模块发出指令,完成相关动作;
所述数据采集模块、数据处理模块、模型训练模块、口碑预测模块、模型更新模块均与中央处理模块电连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612586.9A CN112749841A (zh) | 2020-12-30 | 2020-12-30 | 一种基于自训练学习的用户口碑预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612586.9A CN112749841A (zh) | 2020-12-30 | 2020-12-30 | 一种基于自训练学习的用户口碑预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112749841A true CN112749841A (zh) | 2021-05-04 |
Family
ID=75649801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011612586.9A Pending CN112749841A (zh) | 2020-12-30 | 2020-12-30 | 一种基于自训练学习的用户口碑预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749841A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360512A (zh) * | 2021-06-21 | 2021-09-07 | 特赞(上海)信息科技有限公司 | 基于用户反馈的模型更新方法、装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105933920A (zh) * | 2016-03-31 | 2016-09-07 | 浪潮通信信息系统有限公司 | 一种预测用户满意度的方法及装置 |
CN107358142A (zh) * | 2017-05-15 | 2017-11-17 | 西安电子科技大学 | 基于随机森林构图的极化sar图像半监督分类方法 |
CN108764295A (zh) * | 2018-04-28 | 2018-11-06 | 江南大学 | 一种基于半监督集成学习的软测量建模方法 |
CN109377252A (zh) * | 2018-08-30 | 2019-02-22 | 广州崇业网络科技有限公司 | 一种基于大数据框架的客户满意度预测方法 |
CN109447364A (zh) * | 2018-11-08 | 2019-03-08 | 国网湖南省电力有限公司 | 基于标签的电力客户投诉预测方法 |
CN109543731A (zh) * | 2018-11-09 | 2019-03-29 | 江南大学 | 一种自训练框架下的三优选半监督回归算法 |
CN110321528A (zh) * | 2019-07-11 | 2019-10-11 | 生态环境部南京环境科学研究所 | 一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法 |
CN110807197A (zh) * | 2019-10-31 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 识别模型的训练方法及装置、风险网站识别方法及装置 |
-
2020
- 2020-12-30 CN CN202011612586.9A patent/CN112749841A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105933920A (zh) * | 2016-03-31 | 2016-09-07 | 浪潮通信信息系统有限公司 | 一种预测用户满意度的方法及装置 |
CN107358142A (zh) * | 2017-05-15 | 2017-11-17 | 西安电子科技大学 | 基于随机森林构图的极化sar图像半监督分类方法 |
CN108764295A (zh) * | 2018-04-28 | 2018-11-06 | 江南大学 | 一种基于半监督集成学习的软测量建模方法 |
CN109377252A (zh) * | 2018-08-30 | 2019-02-22 | 广州崇业网络科技有限公司 | 一种基于大数据框架的客户满意度预测方法 |
CN109447364A (zh) * | 2018-11-08 | 2019-03-08 | 国网湖南省电力有限公司 | 基于标签的电力客户投诉预测方法 |
CN109543731A (zh) * | 2018-11-09 | 2019-03-29 | 江南大学 | 一种自训练框架下的三优选半监督回归算法 |
CN110321528A (zh) * | 2019-07-11 | 2019-10-11 | 生态环境部南京环境科学研究所 | 一种基于半监督地理空间回归分析的高光谱影像土壤重金属浓度评估方法 |
CN110807197A (zh) * | 2019-10-31 | 2020-02-18 | 支付宝(杭州)信息技术有限公司 | 识别模型的训练方法及装置、风险网站识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360512A (zh) * | 2021-06-21 | 2021-09-07 | 特赞(上海)信息科技有限公司 | 基于用户反馈的模型更新方法、装置及存储介质 |
CN113360512B (zh) * | 2021-06-21 | 2023-10-27 | 特赞(上海)信息科技有限公司 | 基于用户反馈的图像处理模型更新方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103593353B (zh) | 信息搜索方法、展示信息排序权重值确定方法及其装置 | |
CN107908716A (zh) | 基于词向量模型的95598工单文本挖掘方法和装置 | |
US20210303793A1 (en) | Root cause classification | |
CN111178623B (zh) | 一种基于多层机器学习的业务流程剩余时间预测方法 | |
CN110309967A (zh) | 客服会话评分等级的预测方法、系统、设备和存储介质 | |
CN113094512B (zh) | 一种工业生产制造中故障分析系统及方法 | |
CN104391925A (zh) | 一种基于tv用户协同预测的视频推荐方法及系统 | |
CN112995690B (zh) | 直播内容品类识别方法、装置、电子设备和可读存储介质 | |
CN112468853A (zh) | 电视资源推荐方法、装置、计算机设备及存储介质 | |
CN112153636A (zh) | 一种基于机器学习预测电信业用户携号转出的方法 | |
CN116860720A (zh) | 一种面向大数据分析的多源异构数据模型建模系统 | |
CN108664558A (zh) | 一种面向大规模用户的网络电视个性化推荐服务方法 | |
CN112749841A (zh) | 一种基于自训练学习的用户口碑预测方法及系统 | |
CN112232625A (zh) | 基于时空大数据的输变电工程造价评估方法 | |
CN116501779A (zh) | 一种进行实时反馈的大数据挖掘分析系统 | |
TWI662809B (zh) | 影像串流服務的障礙定位系統及維運方法 | |
CN117807323A (zh) | 一种线上交互式智慧普法大数据平台 | |
CN107644042B (zh) | 软件程序点击率预估排序方法及服务器 | |
CN111985226B (zh) | 标注数据生成方法及装置 | |
CN114491249B (zh) | 一种对象推荐方法、装置、设备以及存储介质 | |
US20220405681A1 (en) | Personal introduction information generating method, computing device using the same, and storage medium | |
CN112200602B (zh) | 用于广告推荐的神经网络模型训练方法及装置 | |
CN115794894A (zh) | 一种基于用户兴趣偏好的故障案例推送方法 | |
CN111899728B (zh) | 智能语音助手决策策略的训练方法及装置 | |
CN114021842A (zh) | 一种远程教育数据采集分析方法、设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210504 |