CN114841588A - 信息处理方法、装置、电子设备和计算机可读介质 - Google Patents

信息处理方法、装置、电子设备和计算机可读介质 Download PDF

Info

Publication number
CN114841588A
CN114841588A CN202210531826.5A CN202210531826A CN114841588A CN 114841588 A CN114841588 A CN 114841588A CN 202210531826 A CN202210531826 A CN 202210531826A CN 114841588 A CN114841588 A CN 114841588A
Authority
CN
China
Prior art keywords
user
network
words
feature words
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210531826.5A
Other languages
English (en)
Inventor
刘健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202210531826.5A priority Critical patent/CN114841588A/zh
Publication of CN114841588A publication Critical patent/CN114841588A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息处理方法、装置、电子设备和计算机可读介质,涉及大数据技术领域。该方法包括:获取待预测用户的评论文本数据;对评论文本数据进行特征处理,获得待预测用户的特征评论数据;将特征评论数据输入预构建的风险等级模型,获得待预测用户的离网风险等级;在确定待预测用户为目标用户的情况下,确定并推送与目标用户匹配的目标策略维系信息。该方法能够准确识别出潜在离网用户并预测出其离网意愿,提高了识别精准率;在确定待预测用户为潜在离网用户的情况下,向其推送目标策略维系信息,能够针对不同离网意愿制定差异化的维系营销策略,提高了维系推荐的准确性,降低离网率,为用户提供更精准的服务满足用户的需求。

Description

信息处理方法、装置、电子设备和计算机可读介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种信息处理方法、装置、电子设备和计算机可读介质。
背景技术
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,
随着5G时代的到来,运营商市场竞争日趋激烈,存量用户维系的重要性与日俱增。若没有及时洞悉用户的离网意图而采取维系措施,将导致用户离网。因此,如何利用人工智能实现对用户离网风险的预测并匹配相应的维系策略,达到用户挽留目的,是运营商的重点研究方向。
发明内容
为解决上述技术问题或部分地解决上述技术问题,本发明实施例提供一种信息处理方法、装置、电子设备和计算机可读介质。
在本发明实施例的第一方面,提供了一种信息处理方法,包括:
获取待预测用户的评论文本数据;
对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据;
将所述特征评论数据作为预构建的风险等级模型的输入数据输入所述风险等级模型,获得所述待预测用户的离网风险等级;
在根据所述离网风险等级确定所述待预测用户为目标用户的情况下,确定与所述目标用户匹配的目标维系策略信息,并将所述目标维系策略信息推送至所述目标用户。
可选地,对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据包括:对所述评论文本数据进行分词处理,得到多个候选词语,将所述多个候选词语作为所述待预测用户的初始特征词;利用预设的特征处理方法,从所述初始特征词中确定出关键特征词,将所述关键特征词作为所述待预测用户的特征评论数据。
可选地,利用预设的特征处理方法,从所述初始特征词中确定出关键特征词包括:利用预设的特征选择法,从所述初始特征词中确定出关键特征词;或者利用预设的特征降维法,从所述初始特征词中确定出关键特征词;或者利用预设的特征选择法和预设的特征降维法,从所述初始特征词中确定出关键特征词。
可选地,利用预设的特征处理方法,从所述初始特征词中确定出关键特征词包括:计算所述初始特征词的信息增益;按照所述信息增益从大到小的顺序,对所述初始特征词进行排序;将信息增益大于预设阈值的初始特征词作为关键特征词,或将信息增益最大的前N个初始特征词作为关键特征词,N为大于或等于1的整数。
可选地,利用预设的特征选择法和特征降维法,从所述初始特征词中确定出关键特征词包括:将信息增益大于预设阈值的初始特征词作为第一特征词,或将信息增益最大的前N个初始特征词作为第一特征词;利用所述特征降维法,从所述第一特征词中确定出第二特征词,将所述第二特征词作为所述关键特征词。
可选地,在利用预设的特征处理方法从所述初始特征词中确定出关键特征词之前,所述方法还包括:利用预构建的停用词词典,去除所述初始特征词中的停用词。
可选地,确定与所述目标用户匹配的目标优惠信息包括:根据所述目标用户的以下一种或多种数据确定与所述目标用户匹配的目标优惠信息:离网风险等级、评论文本数据和历史用户数据。
可选地,所述风险等级模型根据如下过程构建:获取样本用户的评论文本数据,所述样本用户包括未离网用户和离网用户;确定所述离网用户的离网时间以及最晚的评论时间;确定所述离网用户的离网时间与所述最晚的评论时间之间的天数,根据所述天数确定所述离网用户的离网风险等级;确定所述未离网用户的离网风险等级;将所述样本用户的评论文本数据作为样本数据,将所述样本用户的离网风险等级作为标签数据;利用所述样本数据和所述标签数据,构建所述风险等级模型。
在将所述目标优惠信息推送至所述目标用户之后,所述方法还包括:监控所述目标用户针对所述优惠信息的响应信息;根据所述响应信息,对所述风险等级模型进行优化。
根据本发明实施例的第二方面,提供了一种信息处理装置,包括:
信息获取模块,用于获取待预测用户的评论文本数据;
特征处理模块,用于对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据;
预测模块,用于将所述特征评论数据作为预构建的风险等级模型的输入数据输入所述风险等级模型,获得所述待预测用户的离网风险等级;
推送模块,用于在根据所述离网风险等级确定所述待预测用户为目标用户的情况下,确定与所述目标用户匹配的目标维系策略信息,并将所述目标维系策略信息推送至所述目标用户。
可选地,所述特征处理模块还用于:对所述评论文本数据进行分词处理,得到多个候选词语,将所述多个候选词语作为所述待预测用户的初始特征词;利用预设的特征处理方法,从所述初始特征词中确定出关键特征词,将所述关键特征词作为所述待预测用户的特征评论数据。
可选地,所述特征处理模块还用于:利用预设的特征选择法,从所述初始特征词中确定出关键特征词;或者利用预设的特征降维法,从所述初始特征词中确定出关键特征词;或者利用预设的特征选择法和预设的特征降维法,从所述初始特征词中确定出关键特征词。
可选地,所述特征处理模块还用于:计算所述初始特征词的信息增益;按照所述信息增益从大到小的顺序,对所述初始特征词进行排序;将信息增益大于预设阈值的初始特征词作为关键特征词,或将信息增益最大的前N个初始特征词作为关键特征词,N为大于或等于1的整数。
可选地,所述特征处理模块还用于:将信息增益大于预设阈值的初始特征词作为第一特征词,或将信息增益最大的前N个初始特征词作为第一特征词;利用所述特征降维法,从所述第一特征词中确定出第二特征词,将所述第二特征词作为所述关键特征词。
可选地,所述特征处理模块还用于利用预构建的停用词词典,去除所述初始特征词中的停用词。
可选地,所述推送模块还用于:根据所述目标用户的以下一种或多种数据确定与所述目标用户匹配的目标优惠信息:离网风险等级、评论文本数据和历史用户数据。
可选地,所述装置还包括模型构建模块,用于:获取样本用户的评论文本数据,所述样本用户包括未离网用户和离网用户;确定所述离网用户的离网时间以及最晚的评论时间;确定所述离网用户的离网时间与所述最晚的评论时间之间的天数,根据所述天数确定所述离网用户的离网风险等级;确定所述未离网用户的离网风险等级;将所述样本用户的评论文本数据作为样本数据,将所述样本用户的离网风险等级作为标签数据;利用所述样本数据和所述标签数据,构建所述风险等级模型。
可选地,所述装置还包括调优模块,用于监控所述目标用户针对所述优惠信息的响应信息;根据所述响应信息,对所述风险等级模型进行优化。
根据本发明实施例的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例的信息处理方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明任一实施例的信息处理方法。
上述发明中的一个实施例具有如下优点或有益效果:
通过建立用户服务评价文本与用户离网风险等级的关联关系,即构建风险等级模型,通过该风险等级模型对待预测用户的评论文本数据进行分析,确定待预测用户的离网风险等级,能够更准确的识别出潜在离网用户并预测出其离网意愿,提高了识别精准率;在该待预测用户的离网风险等级满足预设条件的情况下,即该待预测用户为潜在离网用户的情况下,确定与该待预测用户匹配的优惠信息,并将所述优惠信息推送至该待预测用户,以对其进行有效的挽留,能够针对不同的离网风险制定差异化的维系营销策略,即针对不同离网意愿制定差异化的维系营销策略,提高了潜在离网用户维系推荐的准确性,降低离网率,为用户提供更精准的服务满足用户的需求。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1示意性示出了本发明实施例的信息处理方法的主要流程的示意图;
图2示意性示出了本发明实施例的信息处理方法的子流程的示意图;
图3示意性示出了本发明实施例的信息处理装置的结构示意图;
图4示意性示出了本发明实施例的电子设备的示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
随着电信业务的发展,用户会根据自身的需求灵活选择电信运营商。为了维系存量用户,需要及时洞悉用户的离网意图,并采取针对性的维系措施满足用户的需求,从而增加用户黏性。现有技术多基于用户活跃状态、通话、出账等行为信息建模识别潜在离网用户,并未考虑服务评价文本信息,而服务评价文本信息往往更能直观地反映出用户的业务诉求及服务体验,因此,识别精准性不够高。为了提高识别准确率和降低用户离网率,为用户提供精准的服务满足用户的需求,本发明实施例建立用户服务评价文本与用户离网风险等级的关联关系,进而通过模型识别潜在离网用户及其离网风险等级,目标用户(即潜在离网用户)识别更精准、更具针对性。另一方面,现有技术中往往仅区分是否为潜在离网用户,并未涉及离网风险等级的细分,而本发明实施例既识别出潜在离网用户,又对潜在离网用户的离网风险等级做出判断,进而针对不同的离网风险制定差异化的维系营销策略,提高了潜在离网用户维系推荐的准确性,为用户提供精准的服务满足用户的需求,显著降低了用户的离网率,实现了用户的有效挽留。
图1示意性示出了本发明实施例的信息处理方法的流程示意图,如图1所示,该方法包括:
步骤101:获取待预测用户的评论文本数据。
其中,待预测用户为当前在网用户。评论文本数据可以包括待预测用户对当前服务(例如当前通信套餐、宽带业务等)的服务评价数据。该评论文本数据可以从电信运营商的服务平台或互联网平台上获取,例如可以从电信运营商的服务评价系统、客户关系管理系统或行为数据存储系统中提取待预测用户的服务评价文本。该评论文本数据包括待预测用户的标识(例如待预测用户的手机号或账户名)、评价文本、评价时间。以手机号为例,该评论文本数据如下表1所示:
表1:
Figure BDA0003645969890000061
在可选的实施例中,在获取待预测用户的评论文本数据时,可以获取预设周期内的评论文本数据,其中,预设周期可以根据需求灵活设置,本发明在此不做限制。作为示例,该预设周期可以设置为3个月、6个月等。
步骤102:对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据。
本步骤的目的是从待预测用户的评论文本数据中提取出特征词,以供风险等级模型预测待预测用户的离网风险等级。在实际场景中,评论文本数据通常是由多个句子组成的。因此,对评论文本数据进行特征处理的过程可以包括:首先对评论文本数据进行分词,得到多个词语,然后将每个词语转换成特征向量,将该特征向量作为待预测用户的特征评论数据。其中,可以利用现有的分词工具例如Python中jieba组件对评论文本数据进行分词,得到多个词语;然后利用词袋模型(例如one hot独热编码、word2vector)或向量模型将多个词语转换为特征向量。由于评论文本数据是一段时间内的多个评价文本,因此,在对评论文本数据进行分词之前可以将多个评价文本拼接为一条总评价文本。
步骤103:将所述特征评论数据作为预构建的风险等级模型的输入数据输入所述风险等级模型,获得所述待预测用户的离网风险等级。
预构建的风险等级模型可以为SVM、GBDT、神经网络等模型,本发明实施例在此不做限制。其中,SVM(Support Vector Machine,支持向量机)是一类按监督学习方式对数据进行分类的广义线性分类器。GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,由多棵决策树组成,所有树的结论累加起来作为最终预测结果。
在本实施例中,将待预测用户的特征评论数据作为输入数据输入该风险等级模型,该风险等级模型对其进行分析,确定待预测用户的离网风险等级。离网风险等级越高,待预测用户的离网意愿越高。离网风险等级的划分可以根据应用需求灵活设置,本发明在此不做限制。作为示例,离网风险等级可以划分为四个等级:高风险、中风险、低风险、无风险。在其他可选的实施例中,离网风险等级可以划分为六个等级:高风险、中高风险、中风险、中低风险、低风险、无风险。离网风险等级也可以为0-1之间的一个数值,数值越大,离网风险等级越高。
步骤104:在根据所述离网风险等级确定所述待预测用户为目标用户的情况下,确定与所述目标用户匹配的目标维系策略信息,并将所述目标维系策略信息推送至所述目标用户。
本步骤的目的是通过目标维系策略信息对目标用户进行有效的挽留。其中,目标用户是指潜在离网用户,根据离网风险等级确定待预测用户是否为目标用户,即判断待预测用户是否为潜在离网用户。例如将离网风险等级为低风险以上(包含低风险)的待预测用户确定为目标用户。或者,在离网风险等级为0-1之间的一个数值的情况下,将离网风险等级大于或等于预设阈值的待预测用户确定为目标用户。
然后,可以根据预设的匹配规则,从预设置的多个候选维系策略信息中确定与目标用户匹配的目标优惠信息。其中,候选维系策略信息可以根据应用需求灵活设置,本发明在此不做限制。作为示例,候选维系策略信息可以包括优惠信息和业务更换信息,优惠信息可以包括但不限于充值赠话费、充值赠权益和充值赠流量。在其他可选的实施例中,可以对上述每种优惠信息进行更细粒度的划分,如按照所赠话费的大小划分成不同类的优惠信息。预设的匹配规则也可以根据应用需求灵活设置,本发明在此不做限制。作为示例,可以根据目标用户的以下一种或多种数据确定与所述目标用户匹配的优惠信息:离网风险等级、评论文本数据和历史用户数据。
其中,在根据目标用户的离网风险等级确定与其匹配的目标维系策略信息时,可以针对不同的离网风险等级设置不同的候选维系策略信息。以候选维系策略信息为优惠信息为例,可以配置三种候选维系策略信息:充值赠话费、充值赠权益和充值赠流量。对离网风险等级为高风险的目标用户推送充值赠话费的优惠信息,对离网风险等级为中风险的目标用户推送充值赠权益的优惠信息,对离网风险等级为低风险的目标用户推送充值赠流量的优惠信息。也可以对离网风险等级为高风险的目标用户推送三种候选维系策略信息,对离网风险等级为中风险的目标用户推送其中两种候选维系策略信息,对离网风险等级为低风险的目标用户推送其中一种候选维系策略信息。
在根据目标用户的评论文本数据确定与其匹配的目标维系策略信息时,可以包括如下步骤:确定所述评论文本数据中评价时间最晚的评价文本,确定所述评价文本中是否包括预设的关键词,若是,则从预设的多个候选维系策略信息中确定与所述关键词匹配的目标维系策略信息。该目标维系策略信息即为与目标用户匹配的目标维系策略信息。其中,预设的关键词可以包括但不限于:话费、流量、卡顿、网络信号、权益和会员等。预先配置的多种候选维系策略信息对应不同的关键词。例如,充值赠话费的候选维系策略信息对应的关键词包括话费,充值赠权益的候选维系策略信息对应的关键词包括:权益、会员。充值赠流量的候选维系策略信息对应的关键词包括流量、卡顿、网络信号等。
在可选的实施例中,若评价时间最晚的评价文本中不包括预设的关键词,则按照评价时间由晚到早的顺序,查询评价文本中是否包括预设的关键词,直至查找到预设的关键词。例如,若评价时间最晚的评价文本中不包括预设的关键词,则查询评价时间次晚的评价文本中是否包括预设的关键词,若评价时间次晚的评价文本中不包括预设的关键词,则查询评价时间次次晚的评价文本中是否包括预设的关键词,以此类推。
在根据目标用户的历史用户数据确定与其匹配的目标优惠信息时,历史用户数据可以包括但不限于历史套餐数据、历史账单数据。然后可以根据该历史套餐数据和历史账单数据,确定与其匹配的目标维系策略信息。例如,可以依次对比历史套餐数据和历史账单数据中的通话时间、流量。若历史账单数据中的通话时间比历史套餐数据中的通话时间长,则向目标用户推送充值赠话费的优惠信息;若历史账单数据中的流量比历史套餐数据中的流量使用量高,则向目标用户推送充值赠流量的优惠信息,否则向目标用户推送充值赠权益的优惠信息。
本发明实施例的信息处理方法,通过建立用户服务评价文本与用户离网风险等级的关联关系,即构建风险等级模型,通过该风险等级模型对待预测用户的评论文本数据进行分析,确定待预测用户的离网风险等级,能够更准确的识别出潜在离网用户并预测出其离网意愿,提高了识别精准率;在该待预测用户的离网风险等级满足预设条件的情况下,即该待预测用户为潜在离网用户的情况下,确定与该待预测用户匹配的优惠信息,并将所述优惠信息推送至该待预测用户,以对其进行有效的挽留,能够针对不同的离网风险制定差异化的维系营销策略,即针对不同离网意愿制定差异化的维系营销策略,提高了潜在离网用户维系推荐的准确性,降低离网率,为用户提供更精准的服务满足用户的需求。
在可选的实施例中,该信息处理方法在将目标优惠信息推送至目标用户之后,还包括:监控所述目标用户针对所述优惠信息的响应信息;根据所述响应信息,对所述风险等级模型进行优化。本实施例中将目标用户的响应信息作为历史数据调节风险等级模型的参数,优化预测效果。
其中,响应信息可以包括离网标识,该离网标识用于指示该目标用户在预设时间段内是否离网,例如在推送目标优惠信息之后的三个月内或六个月内是否离网。响应信息还可以包括优惠参与数据,该优惠参与数据用于指示目标用户是否参与了目标优惠信息,若目标用户参与了目标优惠信息,该响应信息还包括目标用户的充值数据以及流量领取数据或权益领取数据。
根据响应信息,对风险等级模型进行优化的过程可以包括:根据响应信息,调整目标用户的离网风险等级(该离网风险等级是风险等级模型预测的);根据目标用户的特征评论数据和调整后的离网风险等级,对风险等级模型进行优化。其中,根据响应信息调整目标用户的离网风险等级的策略可以灵活设置,本发明在此不做限制。作为示例,根据响应信息调整目标用户的离网风险等级的策略可以是:若根据响应信息确定目标用户未离网,则将目标用户的离网风险等级降一级,若根据响应信息确定目标用户离网,则将目标用户的离网风险等级升一级。在其他可选的示例中,根据响应信息调整目标用户的离网风险等级的策略还可以是:若根据响应信息确定目标用户未离网且目标用户未参与优惠信息,则将目标用户的离网风险等级降一级,若根据响应信息确定目标用户未离网且目标用户参与了优惠信息,则保持目标用户的离网风险等级不变,若根据响应信息确定目标用户离网且目标用户未参与优惠信息,则将目标用户的离网风险等级保持不变,若根据响应信息确定目标用户离网且目标用户参与了优惠信息,则将目标用户的离网风险等级升一级。
在根据目标用户针对所述优惠信息的响应信息,对目标用户的离网风险等级进行调整之后,根据该目标用户的评论文本数据和调整后的离网风险等级,对风险等级模型进行优化,提高模型的识别率。
在可选的实施例中,步骤102对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据包括:
对所述评论文本数据进行分词处理,得到多个候选词语,将所述多个候选词语作为所述待预测用户的初始特征词;
利用预设的特征处理方法,从所述初始特征词中确定出关键特征词,将所述关键特征词作为所述待预测用户的特征评论数据。
在可选的实施例中,预设的特征处理方法可以是预设的特征选择法。例如,预设的特征选择法可以是TF-IDF法,也可以是过滤法、包装法或嵌入法。预设的特征降维法可以是主成分分析法或线性判别分析法。其中,TF-IDF(Term Frequency–Inverse DocumentFrequency,词频-逆文本频率指数)是一种用于信息检索与数据挖掘的常用加权技术。过滤法(Filter)按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。包装法(Wrapper)根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。嵌入法(Embedded),先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。
以TF-IDF法为例,从初始特征词中确定出关键特征词的过程包括:
首先,计算所述初始特征词的信息增益。
其中,信息增益也可以称为权重。初始特征词的信息增益为初始特征词的词频TF及逆文本频率IDF的乘积TF-IDFw。词频TF、逆文本频率IDF及TF-IDFw的计算公式分别如下式所示:
Figure BDA0003645969890000111
Figure BDA0003645969890000112
TF-IDFw=TFw*IDFw
Nw标示初始特征词w在所有初始特征词中出现的次数,N为所有初始特征词的总数,Y为评论文本数据中的评价文本的总数,Yw包含初始特征词w的评价文本的总数。
其次,根据该信息增益筛选关键特征词。例如,按照所述信息增益从大到小的顺序,对所述初始特征词进行排序;将信息增益大于预设阈值的初始特征词作为关键特征词,或将信息增益最大的前N个初始特征词作为关键特征词,N为大于或等于1的整数。
在筛选出关键特征词之后,可以只将关键特征词输入预构建的风险等级模型进行预测,也可以将关键特征词及其信息增益输入预构建的风险等级模型进行预测。
在可选的实施例中,预设的特征处理法可以是特征降维法,例如主成分分析法。主成分分析法(Principal Component Analysis,PCA)通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
在可选的实施例中,预设的特征处理法包括预设的特征选择法和预设的特征降维法。则,利用预设的特征处理法从初始特征词中确定出关键特征词包括:利用预设的特征选择法从初始特征词中,确定出第一特征词;利用预设的特征降维法从第一特征词中,确定出关键特征词。例如将信息增益大于预设阈值的初始特征词作为第一特征词,或将信息增益最大的前N个初始特征词作为第一特征词;利用所述特征降维法如主成分分析法,从所述第一特征词中确定出第二特征词,将所述第二特征词作为所述关键特征词。
作为示例,假设第一特征词共有80个,如下表2所示。从第一特征词中确定出的关键特征词共有40个,如下表3所示。
表2:
待预测用户 第一特征词1 第一特征词2 第一特征词80
187****3215 0.3 0.27 0.08
表3:
待预测用户 第一特征词1 第一特征词2 第一特征词40
187****3215 0.3 0.27 0.15
在可选的实施例中,在利用预设的特征处理方法从所述初始特征词中确定出关键特征词之前,该信息处理方法还包括:利用预构建的停用词词典,去除所述初始特征词中的停用词。其中,电信运营商可以根据本行业的特点构建停用词词典,停用词可以包括副词、形容词及部分连接词。
在可选的实施例中,如图2所示,风险等级模型可以根据如下过程构建:
步骤201:获取样本用户的评论文本数据,所述样本用户包括未离网用户和离网用户。
其中,可以获取一段时间内(如预测周期)的样本用户的评论文本数据,该评论文本数据可以从电信运营商的服务平台或互联网平台上获取,例如可以从电信运营商的服务评价系统、客户关系管理系统或行为数据存储系统中提取样本用户的服务评价文本。该评论文本数据包括样本用户的标识(例如样本用户的手机号或账户名)、评价文本、评价时间。该评论文本数据如下表4所示:
表4:
Figure BDA0003645969890000131
步骤202:确定所述离网用户的离网时间以及最晚的评论时间。
步骤203:确定所述离网用户的离网时间与所述最晚的评论时间之间的天数,根据所述天数确定所述离网用户的离网风险等级。
在本步骤中,根据获取的样本用户的离网时间和评论文本的评价时间,计算离网时间距最后一次评论的天数,确定用户离网风险等级。作为示例,离网风险等级的判定如下表5所示:
表5:
Figure BDA0003645969890000132
Figure BDA0003645969890000141
步骤204:确定所述未离网用户的离网风险等级。其中,未离网用户的离网风险等级为无风险。
步骤205:将所述样本用户的评论文本数据作为样本数据,将所述样本用户的离网风险等级作为标签数据;利用所述样本数据和所述标签数据,构建所述风险等级模型。
在本步骤中需要对样本用户的评论文本数据进行特征处理,获得样本用户的特征评论数据。其中,对样本用户的评论文本数据进行特征处理的过程包括:对所述样本用户的评论文本数据进行分词处理,得到多个样本候选词语,将所述多个样本候选词语作为所述样本用户的样本初始特征词;利用预设的特征处理方法,从所述样本初始特征词中确定出样本关键特征词,将所述样本关键特征词作为所述样本用户的特征评论数据。预设的特征处理方法包括预设的特征选择法和/或特征降维法。作为示例,样本关键特征词可以包括但不限于:话费、权益、套餐、视频、流量、卡顿、超出、不合适等。本发明在此不再详尽描述其中的技术细节,可参见图1中对待预测用户的评论文本数据进行特征处理的过程。
该风险等级模型的结构可以采用SVM(支持向量机)、GBDT或神经网络。作为示例,基于支持向量机的风险等级模型的参数可以包括:
(1)模型参数:
误差项的正则化参数C,默认值为1;
核函数kernel:可选择‘linear’、‘poly’、‘rbf’、‘sigmoid’、‘precomputed’或allable;
核函数参数degree,默认值为3;
(2)最优参数:
sklearn.svm.SVC(C=0.8,kernel='poly',degree=3,gamma=‘10')
本发明实施例的风险等级模型,建立了用户服务评价文本与用户离网风险等级的关联关系,通过该模型可以精准识别出潜在离网用户及其离网风险等级,进而可以针对不同的离网风险制定差异化的维系营销策略,为用户提供精准的服务满足用户的需求,降低用户的离网率,实现用户的有效挽留。
图3示意性示出了本发明实施例的信息处理装置300的结构示意图,如图3所示,该信息处理装置300包括:
信息获取模块301,用于获取待预测用户的评论文本数据;
特征处理模块302,用于对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据;
预测模块303,用于将所述特征评论数据作为预构建的风险等级模型的输入数据输入所述风险等级模型,获得所述待预测用户的离网风险等级;
推送模块304,用于在根据所述离网风险等级确定所述待预测用户为目标用户的情况下,确定与所述目标用户匹配的目标维系策略信息,并将所述目标维系策略信息推送至所述目标用户。
该信息处理装置300能够准确识别出潜在离网用户并预测出其离网意愿,提高了识别精准率;在确定待预测用户为潜在离网用户的情况下,向其推送相应的优惠信息,能够针对不同离网意愿制定差异化的维系营销策略,提高了潜在离网用户维系推荐的准确性,降低离网率,为用户提供更精准的服务满足用户的需求。
可选地,所述特征处理模块还用于:对所述评论文本数据进行分词处理,得到多个候选词语,将所述多个候选词语作为所述待预测用户的初始特征词;利用预设的特征处理方法,从所述初始特征词中确定出关键特征词,将所述关键特征词作为所述待预测用户的特征评论数据。
可选地,所述特征处理模块还用于:利用预设的特征选择法,从所述初始特征词中确定出关键特征词;或者利用预设的特征降维法,从所述初始特征词中确定出关键特征词;或者利用预设的特征选择法和预设的特征降维法,从所述初始特征词中确定出关键特征词。
可选地,所述特征处理模块还用于:计算所述初始特征词的信息增益;按照所述信息增益从大到小的顺序,对所述初始特征词进行排序;将信息增益大于预设阈值的初始特征词作为关键特征词,或将信息增益最大的前N个初始特征词作为关键特征词,N为大于或等于1的整数。
可选地,所述特征处理模块还用于:将信息增益大于预设阈值的初始特征词作为第一特征词,或将信息增益最大的前N个初始特征词作为第一特征词;利用所述特征降维法,从所述第一特征词中确定出第二特征词,将所述第二特征词作为所述关键特征词。
可选地,所述特征处理模块还用于利用预构建的停用词词典,去除所述初始特征词中的停用词。
可选地,所述推送模块还用于:根据所述目标用户的以下一种或多种数据确定与所述目标用户匹配的目标优惠信息:离网风险等级、评论文本数据和历史用户数据。
可选地,所述装置还包括模型构建模块,用于:获取样本用户的评论文本数据,所述样本用户包括未离网用户和离网用户;确定所述离网用户的离网时间以及最晚的评论时间;确定所述离网用户的离网时间与所述最晚的评论时间之间的天数,根据所述天数确定所述离网用户的离网风险等级;确定所述未离网用户的离网风险等级;将所述样本用户的评论文本数据作为样本数据,将所述样本用户的离网风险等级作为标签数据;利用所述样本数据和所述标签数据,构建所述风险等级模型。
可选地,所述装置还包括调优模块,用于监控所述目标用户针对所述优惠信息的响应信息;根据所述响应信息,对所述风险等级模型进行优化。
上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例还提供了一种电子设备,如图4所示,包括一个或多个处理器401、通信接口402、存储装置403和通信总线404,其中,处理器401,通信接口402,存储装置403通过通信总线404完成相互间的通信,
存储装置403,用于存储一个或多个程序;
处理器401,用于执行存储装置403上所存放的程序时,实现如下步骤:
获取待预测用户的评论文本数据;
对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据;
将所述特征评论数据作为预构建的风险等级模型的输入数据输入所述风险等级模型,获得所述待预测用户的离网风险等级;
在根据所述离网风险等级确定所述待预测用户为目标用户的情况下,确定与所述目标用户匹配的目标维系策略信息,并将所述目标维系策略信息推送至所述目标用户。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储装置可以包括随机存取存储装置(Random Access Memory,简称RAM),也可以包括非易失性存储装置(non-volatile memory),例如至少一个磁盘存储装置。可选的,存储装置还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的信息处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (20)

1.一种信息处理方法,其特征在于,包括:
获取待预测用户的评论文本数据;
对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据;
将所述特征评论数据作为预构建的风险等级模型的输入数据输入所述风险等级模型,获得所述待预测用户的离网风险等级;
在根据所述离网风险等级确定所述待预测用户为目标用户的情况下,确定与所述目标用户匹配的目标维系策略信息,并将所述目标维系策略信息推送至所述目标用户。
2.根据权利要求1所述的方法,其特征在于,对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据包括:
对所述评论文本数据进行分词处理,得到多个候选词语,将所述多个候选词语作为所述待预测用户的初始特征词;
利用预设的特征处理方法,从所述初始特征词中确定出关键特征词,将所述关键特征词作为所述待预测用户的特征评论数据。
3.根据权利要求2所述的方法,其特征在于,利用预设的特征处理方法,从所述初始特征词中确定出关键特征词包括:
利用预设的特征选择法,从所述初始特征词中确定出关键特征词;
或者
利用预设的特征降维法,从所述初始特征词中确定出关键特征词;
或者
利用预设的特征选择法和预设的特征降维法,从所述初始特征词中确定出关键特征词。
4.根据权利要求3所述的方法,其特征在于,利用预设的特征选择法,从所述初始特征词中确定出关键特征词包括:
计算所述初始特征词的信息增益;
按照所述信息增益从大到小的顺序,对所述初始特征词进行排序;
将信息增益大于预设阈值的初始特征词作为关键特征词,或将信息增益最大的前N个初始特征词作为关键特征词,N为大于或等于1的整数。
5.根据权利要求4所述的方法,其特征在于,利用预设的特征选择法和预设的特征降维法,从所述初始特征词中确定出关键特征词包括:
将信息增益大于预设阈值的初始特征词作为第一特征词,或将信息增益最大的前N个初始特征词作为第一特征词;
利用所述特征降维法,从所述第一特征词中确定出第二特征词,将所述第二特征词作为所述关键特征词。
6.根据权利要求2所述的方法,其特征在于,在利用预设的特征处理方法从所述初始特征词中确定出关键特征词之前,所述方法还包括:
利用预构建的停用词词典,去除所述初始特征词中的停用词。
7.根据权利要求1所述的方法,其特征在于,确定与所述目标用户匹配的目标优惠信息包括:
根据所述目标用户的以下一种或多种数据确定与所述目标用户匹配的目标优惠信息:离网风险等级、评论文本数据和历史用户数据。
8.根据权利要求1所述的方法,其特征在于,所述风险等级模型根据如下过程构建:
获取样本用户的评论文本数据,所述样本用户包括未离网用户和离网用户;
确定所述离网用户的离网时间以及最晚的评论时间;
确定所述离网用户的离网时间与所述最晚的评论时间之间的天数,根据所述天数确定所述离网用户的离网风险等级;
确定所述未离网用户的离网风险等级;
将所述样本用户的评论文本数据作为样本数据,将所述样本用户的离网风险等级作为标签数据;
利用所述样本数据和所述标签数据,构建所述风险等级模型。
9.根据权利要求1-8任一项所述的方法,其特征在于,在将所述目标优惠信息推送至所述目标用户之后,所述方法还包括:
监控所述目标用户针对所述优惠信息的响应信息;
根据所述响应信息,对所述风险等级模型进行优化。
10.一种信息处理装置,其特征在于,包括:
信息获取模块,用于获取待预测用户的评论文本数据;
特征处理模块,用于对所述评论文本数据进行特征处理,获得所述待预测用户的特征评论数据;
预测模块,用于将所述特征评论数据作为预构建的风险等级模型的输入数据输入所述风险等级模型,获得所述待预测用户的离网风险等级;
推送模块,用于在根据所述离网风险等级确定所述待预测用户为目标用户的情况下,确定与所述目标用户匹配的目标维系策略信息,并将所述目标维系策略信息推送至所述目标用户。
11.根据权利要求10所述的装置,其特征在于,所述特征处理模块还用于:
对所述评论文本数据进行分词处理,得到多个候选词语,将所述多个候选词语作为所述待预测用户的初始特征词;
利用预设的特征处理方法,从所述初始特征词中确定出关键特征词,将所述关键特征词作为所述待预测用户的特征评论数据。
12.根据权利要求11所述的装置,其特征在于,所述特征处理模块还用于:
利用预设的特征选择法,从所述初始特征词中确定出关键特征词;
或者
利用预设的特征降维法,从所述初始特征词中确定出关键特征词;
或者
利用预设的特征选择法和预设的特征降维法,从所述初始特征词中确定出关键特征词。
13.根据权利要求12所述的装置,其特征在于,所述特征处理模块还用于:
计算所述初始特征词的信息增益;
按照所述信息增益从大到小的顺序,对所述初始特征词进行排序;
将信息增益大于预设阈值的初始特征词作为关键特征词,或将信息增益最大的前N个初始特征词作为关键特征词,N为大于或等于1的整数。
14.根据权利要求13所述的装置,其特征在于,所述特征处理模块还用于:
将信息增益大于预设阈值的初始特征词作为第一特征词,或将信息增益最大的前N个初始特征词作为第一特征词;
利用所述特征降维法,从所述第一特征词中确定出第二特征词,将所述第二特征词作为所述关键特征词。
15.根据权利要求11所述的装置,其特征在于,所述特征处理模块还用于利用预构建的停用词词典,去除所述初始特征词中的停用词。
16.根据权利要求10所述的装置,其特征在于,所述推送模块还用于:
根据所述目标用户的以下一种或多种数据确定与所述目标用户匹配的目标优惠信息:离网风险等级、评论文本数据和历史用户数据。
17.根据权利要求10所述的装置,其特征在于,所述装置还包括模型构建模块,用于:
获取样本用户的评论文本数据,所述样本用户包括未离网用户和离网用户;
确定所述离网用户的离网时间以及最晚的评论时间;
确定所述离网用户的离网时间与所述最晚的评论时间之间的天数,根据所述天数确定所述离网用户的离网风险等级;
确定所述未离网用户的离网风险等级;
将所述样本用户的评论文本数据作为样本数据,将所述样本用户的离网风险等级作为标签数据,利用所述样本数据和所述标签数据,构建所述风险等级模型。
18.根据权利要求10-17任一项所述的装置,其特征在于,所述装置还包括调优模块,用于监控所述目标用户针对所述优惠信息的响应信息;根据所述响应信息,对所述风险等级模型进行优化。
19.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN202210531826.5A 2022-05-16 2022-05-16 信息处理方法、装置、电子设备和计算机可读介质 Pending CN114841588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210531826.5A CN114841588A (zh) 2022-05-16 2022-05-16 信息处理方法、装置、电子设备和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210531826.5A CN114841588A (zh) 2022-05-16 2022-05-16 信息处理方法、装置、电子设备和计算机可读介质

Publications (1)

Publication Number Publication Date
CN114841588A true CN114841588A (zh) 2022-08-02

Family

ID=82568932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210531826.5A Pending CN114841588A (zh) 2022-05-16 2022-05-16 信息处理方法、装置、电子设备和计算机可读介质

Country Status (1)

Country Link
CN (1) CN114841588A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094184A (zh) * 2023-10-19 2023-11-21 上海数字治理研究院有限公司 基于内网平台的风险预测模型的建模方法、系统及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117094184A (zh) * 2023-10-19 2023-11-21 上海数字治理研究院有限公司 基于内网平台的风险预测模型的建模方法、系统及介质
CN117094184B (zh) * 2023-10-19 2024-01-26 上海数字治理研究院有限公司 基于内网平台的风险预测模型的建模方法、系统及介质

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN112950231A (zh) 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN112633962B (zh) 业务推荐方法、装置、计算机设备和存储介质
CN110310114B (zh) 对象分类方法、装置、服务器及存储介质
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
CN110825969A (zh) 数据处理方法、装置、终端和存储介质
CN114239697A (zh) 目标对象的分类方法、装置、电子设备及存储介质
CN114117060B (zh) 评论数据的质量分析方法、装置、电子设备及存储介质
CN114841588A (zh) 信息处理方法、装置、电子设备和计算机可读介质
CN114548118A (zh) 一种服务对话检测方法及系统
CN113112347A (zh) 催收决策的确定方法、相关装置及计算机存储介质
CN112765357A (zh) 文本分类方法、装置和电子设备
CN115794898B (zh) 一种金融资讯推荐方法、装置、电子设备及存储介质
CN110162535B (zh) 用于执行个性化的搜索方法、装置、设备以及存储介质
CN113269259B (zh) 一种目标信息的预测方法及装置
CN115393100A (zh) 资源推荐方法及装置
CN111984867B (zh) 一种网络资源确定方法及装置
CN114529191A (zh) 用于风险识别的方法和装置
CN110443646B (zh) 产品竞争关系网络分析方法和系统
CN113553501A (zh) 一种基于人工智能的用户画像预测的方法及装置
CN113609363A (zh) 一种用户搜索方法及装置
CN113761184A (zh) 文本数据的分类方法、设备及存储介质
CN110610378A (zh) 产品需求分析方法、装置、计算机设备和存储介质
CN117217852B (zh) 一种基于行为识别购买意愿度预测方法及装置
CN113837183B (zh) 基于实时挖掘的多阶段凭证智能生成方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination