CN113837323B - 满意度预测模型的训练方法、装置、电子设备及存储介质 - Google Patents

满意度预测模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113837323B
CN113837323B CN202111314184.5A CN202111314184A CN113837323B CN 113837323 B CN113837323 B CN 113837323B CN 202111314184 A CN202111314184 A CN 202111314184A CN 113837323 B CN113837323 B CN 113837323B
Authority
CN
China
Prior art keywords
data
training
neural network
machine learning
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111314184.5A
Other languages
English (en)
Other versions
CN113837323A (zh
Inventor
石旭荣
刘贤松
欧大春
杨飞虎
李珊珊
佘士钊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202111314184.5A priority Critical patent/CN113837323B/zh
Publication of CN113837323A publication Critical patent/CN113837323A/zh
Application granted granted Critical
Publication of CN113837323B publication Critical patent/CN113837323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种满意度预测模型的训练方法、装置、电子设备及存储介质,方法包括:每隔预设周期,获取带标签的训练数据;对字符型数据进行预处理,去除数值型数据中的异常数据,利用数值型数据中的众数进行补充,得到第一训练数据;搭建神经网络模型,配置M个机器学习模型;利用K折交叉验证技术将第一训练数据进行处理后轮流将每个训练数据集输入神经网络模型和M个机器学习模型进行训练并进行验证,得到M+2个训练结果;基于M+2个训练结果将训练过的神经网络模型和M个机器学习模型进行两层装袋集成,生成满意度预测模型。这样,可以减少出现局部过拟合,提高预测准确率。

Description

满意度预测模型的训练方法、装置、电子设备及存储介质
技术领域
本申请涉及通信技术领域,尤其涉及一种满意度预测模型的训练方法、装置、电子设备及存储介质。
背景技术
随着通信技术的发展,人们对电信网络和服务质量的要求越来越高,而用户满意度不仅作为运营商的重要考核指标,还是衡量运营商网络质量和用户感知情况的重要方式,也是保障用户的重要评估标准,因此探究用户的满意度对于运营商来说具有十分重要的意义。
现有技术中,有基于网络、客服等领域业务专家根据用户打分情况,通过关联的网络数据和业务数据进行人工分析来进行用户满意度的相关分析,也有根据现有投诉数据和用户打分数据,采用GBDT(Gradient Boosting Decision Tree,梯度下降树)模型对训练接数据进行模型训练,进一步以测试集数据做验证,得到最优分类模型,输出用户满意度模型,进一步,利用用户满意度模型进行满意度预测。
但是,通过人工的方式来预测用户满意度需要花费大量的人力物力,浪费资源,上述利用模型对训练数据进行训练得到用户满意度模型,该模型利用分布不均衡以及打分标签主观性强的较少数据进行训练,而且上述模型是单模型预测,容易出现局部过拟合等问题,预测效果较差,预测准确率也较低。
发明内容
本申请提供一种满意度预测模型的训练方法、装置、电子设备及存储介质,基于大量数据通过训练多个模型集成为满意度预测模型,可以减少出现局部过拟合等问题,预测效果好,节省人力物力,提高预测准确率。
第一方面,本申请提供一种满意度预测模型的训练方法,所述方法包括:
每隔预设周期,获取带标签的训练数据;所述带标签的训练数据包括字符型数据和数值型数据;
对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据;
搭建神经网络模型,并配置M个机器学习模型;M为大于1的正整数;
利用K折交叉验证技术将所述第一训练数据均分为M+2个训练数据集,轮流将每个训练数据集输入所述神经网络模型和所述M个机器学习模型进行训练并重复进行M+2次验证,得到M+2个训练结果;其中,M+1个训练数据集用于输入所述神经网络模型和所述M个机器学习模型进行训练,剩余一个训练数据集用于验证训练结果;
将训练过的所述神经网络模型和所述M个机器学习模型进行第一层装袋集成,并将所述M+2个训练结果进行装袋采样,得到第二训练数据;
将所述第二训练数据和所述第一训练数据输入经过第一层装袋集成后的所述神经网络模型和所述M个机器学习模型中进行再次训练并进行第二层装袋集成,生成满意度预测模型。
可选的,获取带标签的训练数据,包括:
获取用户信令数据、用户业务数据和用户打分数据,并基于手机号码和时间对所述用户信令数据和所述用户业务数据进行汇聚,得到原始训练数据;
基于所述用户打分数据对所述原始训练数据进行筛选关联,得到带标签的训练数据。
可选的,所述数值型数据包括连续数据和离散数据;所述连续数据包括带标识的连续数据和不带标识的连续数据;对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据,包括:
根据所述字符型数据对应的类别数量进行编码处理或数值映射处理,得到第一数据;
对所述带标识的连续数据进行离散化处理,得到第二数据;
对所述离散数据和所述第二数据利用箱线图去除异常数据,并利用所述离散数据和所述第二数据中的众数分别进行填充,得到第三数据;
对所述第一数据、所述不带标识的连续数据和所述第三数据进行汇总,得到第一训练数据。
可选的,搭建神经网络模型,包括:
对所述神经网络模型进行参数配置,并设置所述神经网络模型的第一训练步长;
基于所述第一训练步长将所述第一训练数据输入所述神经网络模型进行训练;
计算训练后的所述神经网络模型的第一训练误差,并判断所述第一训练误差是否大于第一预设阈值;
若是,则结束训练,搭建训练后的神经网络模型;
若否,则继续对所述神经网络模型进行训练。
可选的,配置M个机器学习模型,包括:
对所述M个机器学习模型分别进行参数配置,并设置所述M个机器学习模型的第二训练步长;
基于所述第二训练步长将所述第一训练数据分别输入所述M个机器学习模型进行训练;
计算训练后的所述M个机器学习模型的第二训练误差,并判断所述第二训练误差是否大于第二预设阈值;
若是,则结束训练,得到配置后的M个机器学习模型;
若否,则继续对所述M个机器学习模型进行训练。
可选的,所述装袋集成为将所述神经网络模型和所述M个机器学习模型基于权重值采用投票的方式得到分类结果;在生成满意度预测模型之后,所述方法还包括:
判断所述神经网络模型和所述M个机器学习模型进行装袋集成的层数是否小于预置层数;
若否,则输出所述满意度预测模型;
若是,则对所述神经网络模型和所述M个机器学习模型继续进行训练并进行装袋集成,直至所述神经网络模型和所述M个机器学习模型进行装袋集成的层数等于所述预置层数。
第二方面,本申请还提供了一种满意度预测方法,所述方法包括:
获取用户信令数据和用户业务数据;
将所述用户信令数据和所述用户业务数据输入满意度预测模型,得到用户满意度,其中,所述满意度预测模型是根据第一方面任一项所述的方法建立得到。
第三方面,本申请还提供了一种满意度预测模型的训练装置,所述装置包括:
获取模块,用于每隔预设周期,获取带标签的训练数据;所述带标签的训练数据包括字符型数据和数值型数据;
第一处理模块,用于对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据;
第二处理模块,用于搭建神经网络模型,并配置M个机器学习模型;M为大于1的正整数;
第一训练模块,用于利用K折交叉验证技术将所述第一训练数据均分为M+2个训练数据集,轮流将每个训练数据集输入所述神经网络模型和所述M个机器学习模型进行训练并重复进行M+2次验证,得到M+2个训练结果;其中,M+1个训练数据集用于输入所述神经网络模型和所述M个机器学习模型进行训练,剩余一个训练数据集用于验证训练结果;
第三处理模块,用于将训练过的所述神经网络模型和所述M个机器学习模型进行第一层装袋集成,并将所述M+2个训练结果进行装袋采样,得到第二训练数据;
第二训练模块,用于将所述第二训练数据和所述第一训练数据输入经过第一层装袋集成后的所述神经网络模型和所述M个机器学习模型中进行再次训练并进行第二层装袋集成,生成满意度预测模型。
第四方面,本申请还提供了一种满意度预测装置,所述装置包括:
获取模块,用于获取用户信令数据和用户业务数据;
预测模块,用于将所述用户信令数据和所述用户业务数据输入满意度预测模型,得到用户满意度,其中,所述满意度预测模型是根据第一方面任一项所述的方法建立得到。
第五方面,本申请还提供了一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现第一方面或第二方面任一项所述的方法。
第六方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面或第二方面任一项所述的方法。
综上所述,本申请提供一种满意度预测模型的训练方法、装置、电子设备及存储介质,该方法可以每隔预设周期,获取带标签的训练数据;带标签的训练数据包括字符型数据和数值型数据;进一步的,对字符型数据进行预处理,去除掉数值型数据中的异常数据,并利用数值型数据中的众数进行对其进行补充,得到第一训练数据;进一步的,搭建神经网络模型,并配置M个机器学习模型;进一步的,利用K折交叉验证技术将第一训练数据均分为M+2个训练数据集,并轮流将每个训练数据集输入到神经网络模型和M个机器学习模型进行训练并重复进行M+2次验证,得到M+2个训练结果;进一步的,将训练过的神经网络模型和M个机器学习模型进行第一层装袋集成,并将M+2个训练结果进行装袋采样,得到第二训练数据;进一步的,将第二训练数据和第一训练数据输入经过第一层装袋集成后的神经网络模型和M个机器学习模型中进行再次训练并进行第二层装袋集成,生成满意度预测模型。该模型可以用于预测用户的满意度,由于满意度预测模型基于大量数据通过训练多个模型集成,所以可以减少出现局部过拟合等问题,预测效果好,节省人力物力,预测准确率高。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种满意度预测模型的训练方法的流程示意图;
图3为本申请实施例提供的一种训练神经网路模型的流程图;
图4为本申请实施例提供的一种训练满意度预测模型的流程图;
图5为本申请实施例提供的一种满意度预测方法的流程示意图;
图6为本申请实施例提供的一种具体的满意度预测模型的训练方法的流程图;
图7为本申请实施例提供的一种满意度预测模型的训练装置的结构示意图;
图8为本申请实施例提供的一种满意度预测装置的结构示意图;
图9为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如,第一设备和第二设备仅仅是为了区分不同的设备,并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定,并且“第一”、“第二”等字样也并不限定一定不同。
需要说明的是,本申请中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
下面结合附图对本申请实施例进行介绍。图1为本申请实施例提供的一种应用场景示意图,本申请提供的一种满意度预测模型的训练方法可以应用于如图1所示的应用场景中。该应用场景包括:服务平台101、基站102、服务器103、第一用户104、第二用户105和第三用户106;在运营商想预测用户从开通业务到注销号码全流程所有触点的用户满意度时,可以通过设计一个满意度预测模型来预测用户满意度,而该满意度预测模型的训练方法可以为:服务平台101可以获取在某区域内相关用户的大量业务数据以及用户的评分数据,基站102可以采集到在某区域内相关用户的网络资源、网络覆盖信息等网络信令数据,每隔一段时间,服务平台101将获取到的业务数据以及用户的评分数据发送给服务器103,同时,基站102可以将收集的网络信令数据发送给服务器103,相应的,服务器103接收业务数据、用户的评分数据和网络信令数据对其进行处理,进行模型的训练,得到满意度预测模型,该模型可以用于预测用户的满意度。
可以理解的是,某区域内相关用户可以为第一用户104、第二用户105和第三用户106,服务平台101和基站102收集的数据均来自于第一用户104、第二用户105和第三用户106携带的终端设备,其中,服务平台101可以包括市场部和客服部等收集用户信息的部门,而某区域内相关用户以及用户所携带的终端设备的数量本申请实施例不作具体限定,应根据实际情况而定,上述仅是示例说明。
可选的,上述基站可以是全球移动通讯(Global System of Mobilecommunication,简称GSM)或码分多址(Code Division Multiple Access,简称CDMA)中的基站(Base Transceiver Station,简称BTS)和/或基站控制器,也可以是宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)中的基站(NodeB,简称NB)和/或无线网络控制器(Radio Network Controller,简称RNC),还可以是长期演进(Long TermEvolution,简称LTE)中的演进型基站(Evolutional Node B,简称eNB或eNodeB),或者中继站或接入点,或者未来5G网络中的基站(gNB)等,本申请在此并不限定。
上述终端设备可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network,简称RAN)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(Personal Communication Service,简称PCS)电话、无绳电话、会话发起协议(SessionInitiation Protocol,简称SIP)话机、无线本地环路(Wireless Local Loop,简称WLL)站、个人数字助理(Personal Digital Assistant,简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(MobileStation)、移动台(Mobile)、远程站(Remote Station)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device or User Equipment),在此不作限定。可选的,上述终端设备还可以是智能手表、智能手环等设备。
现有技术中,有基于网络、客服等领域业务专家根据用户打分情况,通过关联的网络数据和业务数据进行人工分析来进行用户满意度的相关分析,也有根据现有投诉数据和用户打分数据,采用GBDT模型对训练接数据进行模型训练,进一步以测试集数据做验证,得到最优分类模型,输出用户满意度模型,进一步,利用用户满意度模型进行满意度预测。
但是,通过人工的方式来预测用户满意度需要花费大量的人力物力,浪费资源,上述利用模型对训练数据进行训练得到用户满意度模型,该模型利用分布不均衡以及打分标签主观性强的较少数据进行训练,而且上述模型是单模型预测,容易出现局部过拟合等问题,预测效果较差,预测准确率也较低。
因此,本申请提供一种满意度预测模型的训练方法,可以每隔一段时间,获取带标签的训练数据;进一步的,对带标签的训练数据中的字符型数据进行预处理,并去除训练数据中数值型数据中的异常数据,使用众数对空值进行填充,舍去关联性较低的数据,得到模型训练集;搭建神经网络模型并配置M个机器学习模型,并基于K折交叉验证技术将模型训练集输入到神经网络模型模型和多个机器学习模型中进行训练并进行第一层装袋集成,进一步的,将上述训练结果进行装袋采样输入到下一层的模型中,进行再次训练并进行第二层装袋集成,生成满意度预测模型,以达成提升模型查准率、预测准确率,且防止过拟合的目的,本申请在获取了大量的训练数据的同时,还节省人力物力。
示例性的,图2为本申请实施例提供的一种满意度预测模型的训练方法的流程示意图,如图2所示,本申请实施例的方法包括:
S201、每隔预设周期,获取带标签的训练数据;所述带标签的训练数据包括字符型数据和数值型数据。
本申请实施例中,预设周期可以指的是设置用于收集大量所需数据所用的时间段,可以是一个月,也可以是半年,本申请实施例对此不作具体限定。
字符型数据可以指的是不具计算能力的文字数据类型,可以包括中文字符、英文字符、数字字符和其他ASCⅡ(American Standard Code for Information Interchange,美国信息交换标准代码)字符,其长度(即字符个数)范围是0-255个字符,例如,字符型数据可以为性别、终端型号等。
数值型数据可以指的是可以进行数值运算的数据类型,其结果表现为具体的数值,用于表示数量,由数字、小数点、正负号和表示乘幂的字母E组成,其数值精度达16位,例如,套餐的资费为18元中的数值“18”,流量1000M中的数值“1000”等。
需要说明的是,带标签的训练数据指的是带有用户打分数据的标签数据,可以包括用户信令数据、用户业务数据和用户打分数据。
其中,用户信令数据可以指的是通信系统中的有关用户的控制指令信息,例如,信令、告警、网络资源、网络覆盖信息等信息。
用户业务数据可以指的是用户办理的相关业务及与用户自身相关的数据信息,例如,用户的终端信息、ARPU(Average Revenue Per User,每用户平均收入)、流量、套餐资费等。
用户打分数据可以指的是用户针对从开通业务到注销号码全流程的过程中对电信网络和服务质量进行评价打分的满意度数据。
示例性的,在图1的应用场景下,每隔一个月,服务器103可以获取服务平台101发送的用户的终端信息、ARPU、流量、套餐资费等用户业务数据和用户打分数据,以及基站102发送的信令、告警、网络资源、网络覆盖信息等网络信令数据。
S202、对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据。
本申请实施例中,预处理可以包括编码处理或数值映射处理,其中,编码处理可以指的是将文字型数据编成或写成密码、代码或基于特定格式的电码等的过程,编码处理应用于文字型数据类别的分类较少的情况,例如,2种分类的性别类数据,数值映射处理可以指的是将文字型数据进行匹配映射到对应数值的过程,数值映射处理应用于文字型数据类别的分类较多的情况,例如,100种分类的地域类数据。
优选的,本申请实施例编码处理利用的是One-hot编码,即独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。通常是分类变量作为二进制向量的表示,首先将分类值映射到整数值,然后,将映射的每个整数值表示为二进制向量,除了整数的索引之外,它都是零值,它被标记为1,例如,性别的分类有“男”和“女”,确定分类变量为男和女共2种类别,首先进行特征的整数编码:男为1,女为2,进一步的,表示为二进制向量的形式(即One-hot编码):男为0001,女为0010。
异常数据可以指的是超过合理的范围的数字,例如,用户的年龄为150岁,该值就是异常数据。众数可以指的是某一类别的数值型数据在统计分布上具有明显集中趋势点的数值,代表某一类别的数值型数据的一般水平,也可以理解是某一类别的数值型数据中出现次数最多的数值。
示例性的,在图1的应用场景下,服务器103可以在获取带标签的训练数据后,对带标签的训练数据中的字符型数据进行预处理,例如,对性别类数据采用One-hot编码,对地域类数据采用数值映射,并去除如年龄、ARPU、套餐或终端价格等中的异常数据,以及用户打分数据中的异常数据,并分别利用相应类别数据中的众数对其进行补充,得到第一训练数据。
S203、搭建神经网络模型,并配置M个机器学习模型;M为大于1的正整数。
本申请实施例中,神经网络模型可以指的是由大量的、简单的处理单元广泛地互相连接而形成的复杂网络系统运转方式的简单模型,神经网络通常包含三个部分:输入层,一个或多个隐藏层和输出层。该神经网络通过不断进行学习,生成预测,并且当生成的预测不正确时,对权重进行调整,随着训练的进行,该神经网络对已知结果的复制会变得越来越准确。
优选的,本申请实施例利用的神经网络模型为多层感知机(Multi-layerPerceptron,MLP)神经网络,MLP也可以称为人工神经网络(ANN,Artificial NeuralNetwork),其包括输入层和输出层,它中间可以有多个隐藏层,其中,MLP层与层之间是全连接的,MLP设置的参数为各个层之间的连接权重以及偏置。
示例性的,示例性的,图3为本申请实施例提供的一种训练神经网路模型的流程图,如图3所示,首先对离散数据(即Categorical)进行降维处理(即Embeddings),将连续数据(即Continuous)进行归一化处理(即Batchnormld),将上述数据进行相关联(即concatenation),得到可以输入MLP所需类型的数据,进一步的,将关联后的数据输入MLP中进行训练,最终输出训练好的神经网络。
可以理解的是,降维处理可以指的是通过隐分类的方法,可以把高维数据化为低维度数据的操作,用于进行特征选择和特征提取。
本申请实施例中,机器学习模型可以指的是可以对大量数据进行分析,寻找统计规律,建模,并可以对新数据进行预测和分析的模型。
优选的,本申请实施例选取的机器学习模型有XgBoost、LightGBM、CatBoost、随机森林、K近邻等,其中,XgBoost是基于GBDT,对目标函数进行了二阶泰勒展开,再对二次展开式求极值得到的模型;LightGBM借鉴了许多XGBoost的实现方法,如目标函数的二阶泰勒展开、树叶子节点值的计算、树复杂度表达等,进一步的,LightGBM为采用直方图加速方法以及Leafwise的树生长方式的模型;CatBoost是基于Boosting tree(深入理解提升树)的梯度提升树模型框架,是一种将训练样本转换成数值型进行训练的模型;随机森林指的是利用多棵树对样本进行训练并预测的一种分类器;k近邻可以指的是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(即特征空间中最邻近)进行分类的算法,其中,这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
示例性的,在图1的应用场景下,服务器103可以搭建MLP神经网络模型,并配置5个机器学习模型,例如,该5个机器学习模型分别为XgBoost、LightGBM、CatBoost、随机森林、K近邻。
可以理解的是,本申请实施例对机器学习模型的数量不作具体限定。
需要说明的是,在搭建神经网络模型和配置M个机器学习模型之前,可以先配置GPU(Graphics Processing Unit,图形处理器)服务器环境为CUDA 9+Tesla V100,配置沙盒环境为tensorflow-gpu_2.1,在该环境中应用功能没有任何限制,可以避免受到干扰,提高准确性。
S204、利用K折交叉验证技术将所述第一训练数据均分为M+2个训练数据集,轮流将每个训练数据集输入所述神经网络模型和所述M个机器学习模型进行训练并重复进行M+2次验证,得到M+2个训练结果;其中,M+1个训练数据集用于输入所述神经网络模型和所述M个机器学习模型进行训练,剩余一个训练数据集用于验证训练结果。
本申请实施例中,K折交叉验证技术是一种评价训练数据的数据集泛化能力的统计方法,可以指的是将原始数据进行划分,分成K-1份训练集和1份测试集,训练集用来对模型进行训练,测试集用来测试训练得到的模型,轮流将每个训练集作为验证集验证,交叉验证重复K次,取K次准确率的平均值作为最终模型的评价指标,主要用于防止模型过于复杂而引起的过拟合。
示例性的,在图1的应用场景下,以总模型数量有6个为例,服务器103可以利用K折交叉验证技术将最终的训练数据集均分为7个训练数据集,轮流将6个不同的数据集输出到模型中进行训练,利用其中1个训练数据集对6个模型重复进行K折交叉验证,使得模型对较小的数据集不会产生过拟合,进一步的,可以得到7个训练结果,每个训练结果中包括多个数据。
S205、将训练过的所述神经网络模型和所述M个机器学习模型进行第一层装袋集成,并将所述M+2个训练结果进行装袋采样,得到第二训练数据。
本申请实施例中,装袋(即Bagging)集成可以指的是将多个训练模型基于权重值采用投票的方式得到分类结果,其中,投票的方式可以为上述多个模型设置权重值,也可以采取对输出求均值的方法得到分类结果,装袋采样指的是从训练集合中随机的抽取部分数据,也可以抽取全部数据。
示例性的,以总模型数量有6个为例,分别为MLP神经网络、XgBoost、LightGBM、CatBoost、随机森林和K近邻,在对该6个进行训练后,可以为该6个训练模型赋以权值,进一步可以得到一个集成模型,例如,MLP神经网络的权值占0.3、XgBoost的权值占0.2、LightGBM的权值占0.2、CatBoost的权值占0.1、随机森林的权值占0.1和K近邻的权值占0.1,该6个模型乘以权值为第一层装袋集成的结果,进一步的,可以对7个训练结果中的所有数据随机的抽取部分数据,作为下一次训练的输入数据。
S206、将所述第二训练数据和所述第一训练数据输入经过第一层装袋集成后的所述神经网络模型和所述M个机器学习模型中进行再次训练并进行第二层装袋集成,生成满意度预测模型。
示例性的,可以将第一层Bagging集成结果和原始训练集(即第一训练数据)作为下一层的输入,进行第二层装袋集成,集成出最后的模型,其中,下一层即为经过第一层装袋集成后的神经网络模型和M个机器学习模型,而在第二层装袋集成时,可以根据训练情况更改神经网络模型和M个机器学习模型的权值,该权值可以不断变化,逐步调优。
需要说明的是,每次训练的过程都会计算模型的平均绝对误差(Mean AbsoluteError,MAE),通过实验室数据对满意度预测模型进行验证,其MAE结果为2.3,而单模型的MAE结果为2,明显比单模型的效果提升0.3,说明该满意度预测模型的预测效果较好。
因此,本申请提出的满意度预测模型的训练方法,可以基于大量数据通过训练多个模型集成为满意度预测模型,减少出现局部过拟合等问题,预测效果好,节省人力物力,预测准确率高。
优选的,满意度预测模型可以进行两层训练集成便可以集成出效果好的模型,示例性的,图4为本申请实施例提供的一种训练满意度预测模型的流程图,如图4所示,以集成两层为例,首先,在进行第一层集成(Base)时,需要将训练数据集分别输入到模型1,模型2,直至模型n中进行训练,在训练结束后,对上述n个模型进行连接(Concat),进一步的,将第一层集成训练的结果和训练数据集输入到经过第一次集成的模型1,模型2,直至模型n中进行训练,并对n个模型进行第二层集成(Stack),然后为n个模型赋予加权值,输出最后的满意度预测模型。
可选的,获取带标签的训练数据,包括:
获取用户信令数据、用户业务数据和用户打分数据,并基于手机号码和时间对所述用户信令数据和所述用户业务数据进行汇聚,得到原始训练数据;
基于所述用户打分数据对所述原始训练数据进行筛选关联,得到带标签的训练数据。
本申请实施例中,筛选关联指的是将原始训练数据中没有用户打分数据对应用户的用户信令数据和用户业务数据删去,并将原始训练数据中包括用户打分数据对应用户的用户信令数据和用户业务数据进行关联。
示例性的,可以获取网络数据采集部门收集的用户O域的网络信令数据,例如信令、告警、网络资源、网络覆盖信息等,也可以获取市场部门发送的用户O域的业务数据,比如用户的终端信息、ARPU、流量、套餐资费等,进一步的,可以通过用户的手机号码与时间,对获取到的网络信令数据和业务数据进行御统关联,该御统关联指的是将同一用户的网络信令数据和业务数据进行一一关联并汇聚,得到原始训练数据;进一步的,可以从市场部门获取到用户打分数据,得到标签清单,通过该标签清单,对经过御统关联的原始训练数据进行筛选关联,得到带标签的训练集。
需要说明的是,本申请利用用户打分的标签数据,通过手机号码汇聚并关联用户的用户套餐资费、年龄、性别、流量、网络感知、网络覆盖等200维数据,得到标签的训练集,本申请实施例对网络信令数据和业务数据中包括的数据类型的多少和数据数量不作具体限定,获取到网络信令数据和业务数据满足本申请所需即可。
因此,可以通过对收集到的用户的各种数据进行关联,到带标签的训练数据,可以提高处理效率。
可选的,所述数值型数据包括连续数据和离散数据;所述连续数据包括带标识的连续数据和不带标识的连续数据;对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据,包括:
根据所述字符型数据对应的类别数量进行编码处理或数值映射处理,得到第一数据;
对所述带标识的连续数据进行离散化处理,得到第二数据;
对所述离散数据和所述第二数据利用箱线图去除异常数据,并利用所述离散数据和所述第二数据中的众数分别进行填充,得到第三数据;
对所述第一数据、所述不带标识的连续数据和所述第三数据进行汇总,得到第一训练数据。
本申请实施例中,连续数据可以指的是在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割(即可取无限个数值)的数据,例如,年龄、ARPU、套餐或终端价格;离散数据可以指的是其数值只能用自然数或整数单位计算的数据,例如,终端个数,套餐个数等。
其中,连续数据分为带标识的连续数据和不带标识的连续数据,带标识的连续数据可以指的是整体分布有明显区别特征的数据,即大部分数据集中分布,少部分数据分散分布,例如,带标识的连续数据有年龄、ARPU、套餐和终端价格等;示例性的,以年龄为例,使用终端的用户年龄集中在16-45岁,1-16岁和大于45岁使用终端的用户较少,故年龄划分为带标识的连续数据;不带标识的连续数据可以指的是整体分布的区别特征不明显的数据,即所有的数据均分散分布,例如,不带标识的连续数据有话费,流量等,示例性的,以话费为例,不同用户每月的话费都不太相同,若统计所有用户的话费数据,其分布是分散的。
需要说明的是,连续数据的标识是人工提前标注好的,在获取数据的时,训练数据中就已经携带了标识。
箱线图又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图,主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较,去除异常数据。具体的,先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后,连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间,而异常值通常被定义为小于下边缘或者大于上边缘的数据。
可选的,可以设置字符型数据对应的类别数量的阈值,若字符型数据对应的类别数量大于该阈值,则对所述字符型数据进行数值映射处理,若字符型数据对应的类别数量小于该阈值,则对所述字符型数据进行编码映射处理,该阈值可以是提前预设好的,也可以人为进行修改,本申请实施例对此不作具体限定,但是该阈值为区分字符型数据对应的类别数量多少的一个指标,应根据处理的效率进行设置。
示例性的,若某个字符型数据对应的类别数量较少,例如,字符型数据为性别“男”和“女”,则对该字符型数据进行编码处理,得到男为0001,女为0010,若某个字符型数据对应的类别数量较多,例如字符型数据为区域1、区域2、区域3…区域n,则对该字符型数据进行数值映射处理,得到男为域1为1、区域2为2、区域3为3…区域n为n,并将处理后的字符型数据汇总得到第一数据;进一步的,可以对带标识的连续数据进行离散化处理,例如,对年龄、ARPU、套餐或终端价格等连续值划分离散化处理,降低数据复杂性,得到第二数据,并对数值型数据中的其余离散数据和第二数据利用箱线图去除异常数据,并利用其余离散数据中众数对离散数据中的空值进行填充,利用第二数据中的众数对第二数据中的空值进行填充,舍去关联性较低的数据,得到第三数据;对第一数据、不带标识的连续数据和第三数据进行汇总,得到所需的训练数据(即第一训练数据)。
因此,去除异常数据可以保证数据的有效性,可以避免受到用户性格、情绪等个性因素以及其他未知因素的影响,而且对训练数据进行处理可以提高处理效率。
可选的,搭建神经网络模型,包括:
对所述神经网络模型进行参数配置,并设置所述神经网络模型的第一训练步长;
基于所述第一训练步长将所述第一训练数据输入所述神经网络模型进行训练;
计算训练后的所述神经网络模型的第一训练误差,并判断所述第一训练误差是否大于第一预设阈值;
若是,则结束训练,搭建训练后的神经网络模型;
若否,则继续对所述神经网络模型进行训练。
本申请实施例中,第一训练步长可以指的是采集一次数据需要间隔的长度,用于压缩一部分信息,控制每一步网络权值改变量的大小,第一训练误差可以指的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性,反应出预测的波动情况,第一预设阈值可以指的是设置的可以判断是否需要继续训练模型的数值,该数值大小反映模型比较稳定,效果较好。
优选的,本申请实施例选取的第一训练步长为500,第一预设阈值为神经网络模型进行50步训练后的方差。
示例性的,神经网络模型中可以包括多个激活函数,可以对激活函数进行参数配置,并设置该神经网络模型的步长为500;基于步长500和获取到的训练数据集对该神经网络模型进行训练,并计算训练后的神经网络模型的方差,进一步的,判断该方差是否大于神经网络模型进行50步训练后的方差;若是,则可以结束训练,搭建此时训练后的神经网络模型;若否,则可以继续对神经网络模型进行训练,直至神经网络模型的方差大于神经网络模型进行50步训练后的方差。
可以理解的是,在不断训练过程中,参数在不断的优化改变,因此,本申请实施例中结束训练指的是结束优化损失函数,使用最后一次训练的神经网络模型的参数值。
需要说明的是,本申请实施例对第一训练步长以及第一预设阈值设置的具体数值大小不作限定。
因此,不断对神经网络模型进行训练,参数更加优化,可以提高神经网络模型的准确率。
示例性的,因为离散数据集维度较多,不便于计算处理,因此,可以将离散数据集输入Embedding层进行降维处理,进一步的,可以将不带标识的连续数据进行归一化处理,降低处理的复杂度,然后将经过降维处理和归一化处理的数据进行相关联,并将关联后的数据输入神经网络模型进行训练,可以得到的训练过后的神经网络模型和所需数据,该数据的准确性更高。
可选的,配置M个机器学习模型,包括:
对所述M个机器学习模型分别进行参数配置,并设置所述M个机器学习模型的第二训练步长;
基于所述第二训练步长将所述第一训练数据分别输入所述M个机器学习模型进行训练;
计算训练后的所述M个机器学习模型的第二训练误差,并判断所述第二训练误差是否大于第二预设阈值;
若是,则结束训练,得到配置后的M个机器学习模型;
若否,则继续对所述M个机器学习模型进行训练。
本申请实施例中,第二训练步长与第一训练步长的描述类似,第二训练误差与第一训练误差的描述类似,第二预设阈值与第一预设阈值的描述类似,在此不再赘述。
优选的,本申请实施例选取的第二训练步长为300,第二预设阈值为M个机器学习模型进行20步训练后的M个方差。
示例性的,针对M个机器学习模型,其中任意一个机器学习模型中均可以包括多个激活函数,可以对激活函数进行参数配置,并设置该M个机器学习模型的步长均为300;基于步长300和获取到的训练数据集对该M个机器学习模型分别进行训练,并计算训练后的该M个机器学习模型的方差,进一步的,以LightGBM模型为例,在计算训练后的LightGBM模型的方差后,判断该LightGBM模型的方差是否大于LightGBM模型进行20步训练后的方差;若是,则可以结束训练,搭建此时训练后的神LightGBM模型;若否,则可以继续对LightGBM模型进行训练,直至LightGBM模型的方差大于LightGBM模型进行20步训练后的方差。
可以理解的是,在不断训练过程中,参数在不断的优化改变,因此,本申请实施例中结束训练指的是结束优化损失函数,使用最后一次训练的M个机器学习模型的参数值。
需要说明的是,本申请实施例对第二训练步长以及第二预设阈值设置的具体数值大小不作限定。
因此,不断对M个机器学习模型进行训练,参数更加优化,可以提高M个机器学习模型的准确率。
可选的,所述装袋集成为将所述神经网络模型和所述M个机器学习模型基于权重值采用投票的方式得到分类结果;在生成满意度预测模型之后,所述方法还包括:
判断所述神经网络模型和所述M个机器学习模型进行装袋集成的层数是否小于预置层数;
若否,则输出所述满意度预测模型;
若是,则对所述神经网络模型和所述M个机器学习模型继续进行训练并进行装袋集成,直至所述神经网络模型和所述M个机器学习模型进行装袋集成的层数等于所述预置层数。
本申请实施例中,预置层数可以指的是设定的训练满意度预测模型所需的层数,优选的,预置层数可以为2层,该预置层数也可以设置为其他数量的层数,本申请实施例对此不作具体限定。
示例性的,在生成满意度预测模型之后,还可以继续判断神经网络模型和M个机器学习模型进行装袋集成的层数是否达到了预置层数,例如,若该预置层数为4层,而图2中的实施例中进行装袋集成的层数为2层,小于4层,则对神经网络模型和M个机器学习模型继续进行训练并进行两次装袋集成,达到该预置层数4层,而对神经网络模型和M个机器学习模型继续进行训练并进行装袋集成的过程可以参见S204-S206。
可以理解的是,若神经网络模型和M个机器学习模型进行装袋集成的层数并不小于预置层数,则可以输出满意度预测模型,该满意度模型即为最终的预测用户满意度的模型。
因此,本申请可以根据不同情况设置预置层数对神经网络模型和M个机器学习模型进行装袋集成,不断优化模型,可以应用不同场景,提高灵活性。
可选的,本申请还提供了一种满意度预测方法,示例性的,图5为本申请实施例提供的一种满意度预测方法的流程示意图,如图5所示,本申请实施例的方法包括:
S501、获取用户信令数据和用户业务数据。
具体的,用户信令数据来自某区域内的基站或网络数据采集部门,用户业务数据来自某区域内的服务平台或市场部门,进一步的,可以获取基站或网络数据采集部门发送的用户信令数据和服务平台或市场部门发送的用户业务数据对用户的满意度进行预测。
S502、将所述用户信令数据和所述用户业务数据输入满意度预测模型,得到用户满意度,其中,所述满意度预测模型是根据第一方面任一项所述的方法建立得到。
可以理解的是,在得到用户满意度之后,可以将用户满意度的信息发送给运营商的服务平台上,进一步可以找出预测为满意度低的可能会产生投诉的用户信令数据做针对性分析,并及时交给前端做高危用户客户关怀,和后端网络的质量修复,将可能面临的用户投诉从传统的事后处理转变为事情防范,从而提高网络质量和用户感知,提升运营商竞争力。也可以将用户满意度的信息发送到用户的终端设备上,便于用户了解对网络质量的评价。
需要说明的是,可以随时获取用户信令数据和用户业务数据中的部分或全部数据输入到满意度预测模型中预测用户的满意度,应用范围广,而且本申请实施例对发送用户满意度信息的方式不作具体限定,可以以短信息的形式,也可以以推送消息的方式。
因此,该满意度预测模型可以及时预测用户对运营商的网络质量,服务态度等方面的满意度,预测准确性高而且及时,应用范围广。
结合上述实施例,图6为本申请实施例提供的一种具体的满意度预测模型的训练方法的流程图。如图6所示,本申请实施例的执行方法步骤包括:
步骤A:从数据中台(即网络数据采集部门)采集用户的信令数据,并从市场部采集用户的业务数据,对上述原始数据进行周级汇聚,并从客服部获取近半年用户的评分数据,将信令数据、业务数据和评分数据相关联,汇总成训练数据,对收集到的训练数据进行处理,并搭建神经网络、配置机器学习模型,执行步骤B。
步骤B:将训练数据输入到神经网络和机器学习模型中进行模型训练,首先对模型进行装袋(Bagging)集成,再按照层模型进行融合(Stacking)集成,执行步骤C。
步骤C:判断装袋集成的层数是否小于预置层数,若是,则执行步骤B,继续进行装袋集成训练,若否,则输出验证结果和满意度预测模型。
在前述实施例中,对本申请实施例提供的满意度预测模型的训练方法进行了介绍,而为了实现上述本申请实施例提供的方法中的各功能,作为执行主体的电子设备可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
例如,图7为本申请实施例提供的一种满意度预测模型的训练装置的结构示意图,如图7所示,该装置包括:获取模块710,第一处理模块720,第二处理模块730,第一训练模块740,第三处理模块750和第二训练模块760。
其中,获取模块710,用于每隔预设周期,获取带标签的训练数据;所述带标签的训练数据包括字符型数据和数值型数据;
第一处理模块720,用于对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据;
第二处理模块730,用于搭建神经网络模型,并配置M个机器学习模型;M为大于1的正整数;
第一训练模块740,用于利用K折交叉验证技术将所述第一训练数据均分为M+2个训练数据集,轮流将每个训练数据集输入所述神经网络模型和所述M个机器学习模型进行训练并重复进行M+2次验证,得到M+2个训练结果;其中,M+1个训练数据集用于输入所述神经网络模型和所述M个机器学习模型进行训练,剩余一个训练数据集用于验证训练结果;
第三处理模块750,用于将训练过的所述神经网络模型和所述M个机器学习模型进行第一层装袋集成,并将所述M+2个训练结果进行装袋采样,得到第二训练数据;
第二训练模块760,用于将所述第二训练数据和所述第一训练数据输入经过第一层装袋集成后的所述神经网络模型和所述M个机器学习模型中进行再次训练并进行第二层装袋集成,生成满意度预测模型。
可选的,获取模块710,具体用于:
获取用户信令数据、用户业务数据和用户打分数据,并基于手机号码和时间对所述用户信令数据和所述用户业务数据进行汇聚,得到原始训练数据;
基于所述用户打分数据对所述原始训练数据进行筛选关联,得到带标签的训练数据。
可选的,所述数值型数据包括连续数据和离散数据;所述连续数据包括带标识的连续数据和不带标识的连续数据;第一处理模块720,具体用于:
根据所述字符型数据对应的类别数量进行编码处理或数值映射处理,得到第一数据;
对所述带标识的连续数据进行离散化处理,得到第二数据;
对所述离散数据和所述第二数据利用箱线图去除异常数据,并利用所述离散数据和所述第二数据中的众数分别进行填充,得到第三数据;
对所述第一数据、所述不带标识的连续数据和所述第三数据进行汇总,得到第一训练数据。
可选的,第一处理模块720包括搭建单元,配置单元和处理单元;
具体的,搭建单元,用于:
对所述神经网络模型进行参数配置,并设置所述神经网络模型的第一训练步长;
基于所述第一训练步长将所述第一训练数据输入所述神经网络模型进行训练;
计算训练后的所述神经网络模型的第一训练误差,并判断所述第一训练误差是否大于第一预设阈值;
若是,则结束训练,搭建训练后的神经网络模型;
若否,则继续对所述神经网络模型进行训练。
可选的,配置单元,用于:
对所述M个机器学习模型分别进行参数配置,并设置所述M个机器学习模型的第二训练步长;
基于所述第二训练步长将所述第一训练数据分别输入所述M个机器学习模型进行训练;
计算训练后的所述M个机器学习模型的第二训练误差,并判断所述第二训练误差是否大于第二预设阈值;
若是,则结束训练,得到配置后的M个机器学习模型;
若否,则继续对所述M个机器学习模型进行训练。
可选的,所述装袋集成为将所述神经网络模型和所述M个机器学习模型基于权重值采用投票的方式得到分类结果;在生成满意度预测模型之后,所述装置还包括判断模块,所述判断模块,用于:
判断所述神经网络模型和所述M个机器学习模型进行装袋集成的层数是否小于预置层数;
若否,则输出所述满意度预测模型;
若是,则对所述神经网络模型和所述M个机器学习模型继续进行训练并进行装袋集成,直至所述神经网络模型和所述M个机器学习模型进行装袋集成的层数等于所述预置层数。
本申请实施例提供的满意度预测模型的训练装置的具体实现原理和效果可以参见上述实施例对应的相关描述和效果,此处不做过多赘述。
可选的,本申请还提供了一种满意度预测装置,示例性的,图8为本申请实施例提供的一种满意度预测装置的结构示意图,如图8所示,该装置包括:获取模块810和预测模块820。其中,获取模块810,用于获取用户信令数据和用户业务数据;
预测模块820,用于将所述用户信令数据和所述用户业务数据输入满意度预测模型,得到用户满意度,其中,所述满意度预测模型是根据第一方面任一项所述的方法建立得到。
本申请实施例还提供一种电子设备的结构示意图,图9为本申请实施例提供的一种电子设备的结构示意图,如图9所示,该电子设备可以包括:处理器902以及与所述处理器通信连接的存储器901;该存储器901存储计算机程序;该处理器902执行该存储器901存储的计算机程序,使得该处理器902执行上述任一实施例所述的方法。
其中,存储器901和处理器902可以通过总线903连接。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序执行指令,计算机执行指令被处理器执行时用于实现如本申请前述任一实施例中的所述的方法。
本申请实施例还提供一种运行指令的芯片,该芯片用于执行如本申请前述任一实施例中由电子设备所执行的前述任一实施例中所述的方法。
本申请实施例还提供一种计算机程序产品,该程序产品包括计算机程序,该计算机程序被处理器执行时可实现如本申请前述任一实施例中由电子设备所执行的前述任一实施例中所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速随机存取存储器(Random Access memory,简称RAM),也可能还包括非不稳定的存储器(Non-volatile Memory,简称NVM),例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
以上所述,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此,任何在本申请实施例揭露的技术范围内的变化或替换,都应涵盖在本申请实施例的保护范围之内。因此,本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种满意度预测模型的训练方法,其特征在于,包括:
每隔预设周期,获取带标签的训练数据;所述带标签的训练数据包括字符型数据和数值型数据;
对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据;
搭建神经网络模型,并配置M个机器学习模型;M为大于1的正整数;
利用K折交叉验证技术将所述第一训练数据均分为M+2个训练数据集,轮流将每个训练数据集输入所述神经网络模型和所述M个机器学习模型进行训练并重复进行M+2次验证,得到M+2个训练结果;其中,M+1个训练数据集用于输入所述神经网络模型和所述M个机器学习模型进行训练,剩余一个训练数据集用于验证训练结果;
将训练过的所述神经网络模型和所述M个机器学习模型进行第一层装袋集成,并将所述M+2个训练结果进行装袋采样,得到第二训练数据;
将所述第二训练数据和所述第一训练数据输入经过第一层装袋集成后的所述神经网络模型和所述M个机器学习模型中进行再次训练并进行第二层装袋集成,生成满意度预测模型;
获取带标签的训练数据,包括:
获取用户信令数据、用户业务数据和用户打分数据,并基于手机号码和时间对所述用户信令数据和所述用户业务数据进行汇聚,得到原始训练数据;
基于所述用户打分数据对所述原始训练数据进行筛选关联,得到带标签的训练数据;其中,所述筛选关联指将所述原始训练数据中没有用户打分数据对应用户的用户信令数据和用户业务数据删去,并将所述原始训练数据中包括用户打分数据对应用户的用户信令数据和用户业务数据进行关联;
所述数值型数据包括连续数据和离散数据;所述连续数据包括带标识的连续数据和不带标识的连续数据;对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据,包括:
根据所述字符型数据对应的类别数量进行编码处理或数值映射处理,得到第一数据;
对所述带标识的连续数据进行离散化处理,得到第二数据;
对所述离散数据和所述第二数据利用箱线图去除异常数据,并利用所述离散数据和所述第二数据中的众数分别进行填充,得到第三数据;
对所述第一数据、所述不带标识的连续数据和所述第三数据进行汇总,得到第一训练数据。
2.根据权利要求1所述的方法,其特征在于,搭建神经网络模型,包括:
对所述神经网络模型进行参数配置,并设置所述神经网络模型的第一训练步长;
基于所述第一训练步长将所述第一训练数据输入所述神经网络模型进行训练;
计算训练后的所述神经网络模型的第一训练误差,并判断所述第一训练误差是否大于第一预设阈值;
若是,则结束训练,搭建训练后的神经网络模型;
若否,则继续对所述神经网络模型进行训练。
3.根据权利要求1所述的方法,其特征在于,配置M个机器学习模型,包括:
对所述M个机器学习模型分别进行参数配置,并设置所述M个机器学习模型的第二训练步长;
基于所述第二训练步长将所述第一训练数据分别输入所述M个机器学习模型进行训练;
计算训练后的所述M个机器学习模型的第二训练误差,并判断所述第二训练误差是否大于第二预设阈值;
若是,则结束训练,得到配置后的M个机器学习模型;
若否,则继续对所述M个机器学习模型进行训练。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述装袋集成为将所述神经网络模型和所述M个机器学习模型基于权重值采用投票的方式得到分类结果;在生成满意度预测模型之后,所述方法还包括:
判断所述神经网络模型和所述M个机器学习模型进行装袋集成的层数是否小于预置层数;
若否,则输出所述满意度预测模型;
若是,则对所述神经网络模型和所述M个机器学习模型继续进行训练并进行装袋集成,直至所述神经网络模型和所述M个机器学习模型进行装袋集成的层数等于所述预置层数。
5.一种满意度预测方法,其特征在于,包括:
获取用户信令数据和用户业务数据;
将所述用户信令数据和所述用户业务数据输入满意度预测模型,得到用户满意度,其中,所述满意度预测模型是根据权利要求1至4中任一项所述的方法建立得到。
6.一种满意度预测模型的训练装置,其特征在于,所述装置包括:
获取模块,用于每隔预设周期,获取带标签的训练数据;所述带标签的训练数据包括字符型数据和数值型数据;
第一处理模块,用于对所述字符型数据进行预处理,并去除所述数值型数据中的异常数据,利用所述数值型数据中的众数进行补充,得到第一训练数据;
第二处理模块,用于搭建神经网络模型,并配置M个机器学习模型;M为大于1的正整数;
第一训练模块,用于利用K折交叉验证技术将所述第一训练数据均分为M+2个训练数据集,轮流将每个训练数据集输入所述神经网络模型和所述M个机器学习模型进行训练并重复进行M+2次验证,得到M+2个训练结果;其中,M+1个训练数据集用于输入所述神经网络模型和所述M个机器学习模型进行训练,剩余一个训练数据集用于验证训练结果;
第三处理模块,用于将训练过的所述神经网络模型和所述M个机器学习模型进行第一层装袋集成,并将所述M+2个训练结果进行装袋采样,得到第二训练数据;
第二训练模块,用于将所述第二训练数据和所述第一训练数据输入经过第一层装袋集成后的所述神经网络模型和所述M个机器学习模型中进行再次训练并进行第二层装袋集成,生成满意度预测模型;
所述获取模块,具体用于获取用户信令数据、用户业务数据和用户打分数据,并基于手机号码和时间对所述用户信令数据和所述用户业务数据进行汇聚,得到原始训练数据;基于所述用户打分数据对所述原始训练数据进行筛选关联,得到带标签的训练数据;其中,所述筛选关联指将所述原始训练数据中没有用户打分数据对应用户的用户信令数据和用户业务数据删去,并将所述原始训练数据中包括用户打分数据对应用户的用户信令数据和用户业务数据进行关联;
所述数值型数据包括连续数据和离散数据;所述连续数据包括带标识的连续数据和不带标识的连续数据;
所述第一处理模块,具体用于根据所述字符型数据对应的类别数量进行编码处理或数值映射处理,得到第一数据;对所述带标识的连续数据进行离散化处理,得到第二数据;对所述离散数据和所述第二数据利用箱线图去除异常数据,并利用所述离散数据和所述第二数据中的众数分别进行填充,得到第三数据;对所述第一数据、所述不带标识的连续数据和所述第三数据进行汇总,得到第一训练数据。
7.一种满意度预测装置,其特征在于,所述装置包括:
获取模块,用于获取用户信令数据和用户业务数据;
预测模块,用于将所述用户信令数据和所述用户业务数据输入满意度预测模型,得到用户满意度,其中,所述满意度预测模型是根据权利要求1至4中任一项所述的方法建立得到。
8.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-5中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-5任一项所述的方法。
CN202111314184.5A 2021-11-08 2021-11-08 满意度预测模型的训练方法、装置、电子设备及存储介质 Active CN113837323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111314184.5A CN113837323B (zh) 2021-11-08 2021-11-08 满意度预测模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111314184.5A CN113837323B (zh) 2021-11-08 2021-11-08 满意度预测模型的训练方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113837323A CN113837323A (zh) 2021-12-24
CN113837323B true CN113837323B (zh) 2023-07-04

Family

ID=78971262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111314184.5A Active CN113837323B (zh) 2021-11-08 2021-11-08 满意度预测模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113837323B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102852B (zh) * 2022-06-17 2023-07-21 中国联合网络通信集团有限公司 物联网业务开通方法、装置、电子设备及计算机介质
CN115314239A (zh) * 2022-06-21 2022-11-08 中化学交通建设集团有限公司 基于多模型融合的隐匿恶意行为的分析方法和相关设备
CN115861662B (zh) * 2023-02-22 2023-05-12 脑玺(苏州)智能科技有限公司 基于组合神经网络模型的预测方法、装置、设备及介质
CN117057459A (zh) * 2023-07-28 2023-11-14 中移互联网有限公司 用户满意度预测模型的训练方法、装置、电子设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633421A (zh) * 2017-08-24 2018-01-26 武汉科技大学 一种市场预测数据的处理方法及装置
CN108540320A (zh) * 2018-04-03 2018-09-14 南京华苏科技有限公司 基于信令挖掘用户满意度的评估方法
CN109376615A (zh) * 2018-09-29 2019-02-22 苏州科达科技股份有限公司 用于提升深度学习网络预测性能的方法、装置及存储介质
CN109934627A (zh) * 2019-03-05 2019-06-25 中国联合网络通信集团有限公司 建立满意度预测模型的方法及装置
CN110276395A (zh) * 2019-06-21 2019-09-24 四川大学 基于正则化动态集成的不平衡数据分类方法
CN110866767A (zh) * 2018-08-27 2020-03-06 中国移动通信集团江西有限公司 电信用户满意度的预测方法、装置、设备及介质
CN111143537A (zh) * 2019-12-30 2020-05-12 税友软件集团股份有限公司 一种基于智能客服系统的服务方法、装置、设备及介质
CN112116104A (zh) * 2020-09-17 2020-12-22 京东数字科技控股股份有限公司 自动集成机器学习的方法、装置、介质及电子设备
CN113283948A (zh) * 2021-07-14 2021-08-20 腾讯科技(深圳)有限公司 预测模型的生成方法、装置、设备和可读介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11663409B2 (en) * 2015-01-23 2023-05-30 Conversica, Inc. Systems and methods for training machine learning models using active learning
TWI676940B (zh) * 2018-08-29 2019-11-11 國立交通大學 以機械學習為基礎之最佳化預測模型的建立與預測結果的取得系統及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633421A (zh) * 2017-08-24 2018-01-26 武汉科技大学 一种市场预测数据的处理方法及装置
CN108540320A (zh) * 2018-04-03 2018-09-14 南京华苏科技有限公司 基于信令挖掘用户满意度的评估方法
CN110866767A (zh) * 2018-08-27 2020-03-06 中国移动通信集团江西有限公司 电信用户满意度的预测方法、装置、设备及介质
CN109376615A (zh) * 2018-09-29 2019-02-22 苏州科达科技股份有限公司 用于提升深度学习网络预测性能的方法、装置及存储介质
CN109934627A (zh) * 2019-03-05 2019-06-25 中国联合网络通信集团有限公司 建立满意度预测模型的方法及装置
CN110276395A (zh) * 2019-06-21 2019-09-24 四川大学 基于正则化动态集成的不平衡数据分类方法
CN111143537A (zh) * 2019-12-30 2020-05-12 税友软件集团股份有限公司 一种基于智能客服系统的服务方法、装置、设备及介质
CN112116104A (zh) * 2020-09-17 2020-12-22 京东数字科技控股股份有限公司 自动集成机器学习的方法、装置、介质及电子设备
CN113283948A (zh) * 2021-07-14 2021-08-20 腾讯科技(深圳)有限公司 预测模型的生成方法、装置、设备和可读介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
An improved Stacking framework for stock index prediction by leveraging tree-based ensemble models and deep learning algorithms;Minqi Jiang等;《Physica A》;第541卷;第1-16页 *
人工智能技术在电力设备运维检修中的研究及应用;蒲天骄等;《高电压技术》;第46卷(第2期);第369-383页 *
基于人工智能的用户网络满意度提升算法研究;王珊;《中国优秀硕士学位论文全文数据库 信息科技编辑》(第4期);第I140-119页 *
基于混合采样和Stacking集成的信用评估方法研究;陆万荣;《中国优秀硕士学位论文全文数据库 信息科技编辑》(第5期);第I138-593页 *

Also Published As

Publication number Publication date
CN113837323A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN113837323B (zh) 满意度预测模型的训练方法、装置、电子设备及存储介质
CN108108902B (zh) 一种风险事件告警方法和装置
CN110059923A (zh) 岗位画像和简历信息的匹配方法、装置、设备及存储介质
CN112148987A (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN106095939B (zh) 账户权限的获取方法和装置
CN106991577A (zh) 一种确定目标用户的方法及装置
CN110457677A (zh) 实体关系识别方法及装置、存储介质、计算机设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN106776641A (zh) 一种数据处理方法及装置
CN111260490A (zh) 基于树模型的车险快速理赔方法和系统
CN114139931A (zh) 企业数据评估方法、装置、计算机设备及存储介质
CN112396079A (zh) 号码识别模型训练方法、号码识别方法及装置
CN109711856B (zh) 基于大数据的用户分类方法、装置、服务器及存储介质
CN111507850A (zh) 核保方法及相关装置、设备
CN109697224B (zh) 一种账单消息处理方法、装置和存储介质
CN115099934A (zh) 一种高潜客户识别方法、电子设备和存储介质
CN117011020A (zh) 欺诈识别方法、网络设备和存储介质
CN114239750A (zh) 告警数据处理方法、装置、存储介质和设备
CN109919811B (zh) 基于大数据的保险代理人培养方案生成方法及相关设备
CN108711073B (zh) 用户分析方法、装置及终端
CN113935407A (zh) 一种异常行为识别模型确定方法及装置
CN113469406A (zh) 结合多粒度窗口扫描和组合多分类的用户流失预测方法
CN110162545A (zh) 基于大数据的信息推送方法、设备、存储介质及装置
CN111882339A (zh) 预测模型训练及响应率预测方法、装置、设备及存储介质
CN111538840B (zh) 一种文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant