CN116956223A - 用户的留资意向处理方法、装置、服务设备及存储介质 - Google Patents

用户的留资意向处理方法、装置、服务设备及存储介质 Download PDF

Info

Publication number
CN116956223A
CN116956223A CN202310944813.5A CN202310944813A CN116956223A CN 116956223 A CN116956223 A CN 116956223A CN 202310944813 A CN202310944813 A CN 202310944813A CN 116956223 A CN116956223 A CN 116956223A
Authority
CN
China
Prior art keywords
data
user
target user
structured
intent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310944813.5A
Other languages
English (en)
Inventor
翟文志
张倬荣
聂简
王全达
闫龙
胡博文
李大中
宋雨伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Digital Technology Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN202310944813.5A priority Critical patent/CN116956223A/zh
Publication of CN116956223A publication Critical patent/CN116956223A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种用户的留资意向处理方法、装置、服务设备及存储介质,该方法包括:获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据;获取目标用户的语音数据和文本数据,以得到非结构化数据;将非结构化数据转换为第二结构化数据,并将第二结构化数据与第一结构化数据进行数据融合,以得到目标用户的用户特征数据;将目标用户的用户特征数据输入至训练好的留资意向识别模型中,以得到目标用户的留资意向得分;根据留资意向得分,确定目标用户的留资意向;输出目标用户的留资意向。通过结合结构化数据和非结构化数据作为数据源,形成多维度的用户特征数据,避免了数据源单一导致的准确率较低问题。

Description

用户的留资意向处理方法、装置、服务设备及存储介质
技术领域
本申请属于大数据处理技术领域,具体提供一种用户的留资意向处理方法、装置、服务设备及存储介质。
背景技术
在数字信息化时代,数据标签化成为发展趋势。其中,用户标签通过描述用户特征和行为的标志,以反映用户在网络平台的个人特征。尤其,各种社交网络平台产生的用户数据也相应增多,使得根据社交网络平台产生的用户数据分析用户的留资意向对构建用户标签显得尤其重要。
目前,现有技术中,主要是获取结构化的用户数据,并利用构建好的分类模型预测,直接得到用户意向。
然而,现有技术中,仅通过结构化的用户数据,仍然存在准确率较低的问题。
发明内容
本申请提供一种用户的留资意向处理方法、装置、服务设备及存储介质,解决现有技术中通过获取结构化的用户数据,并利用构建好的分类模型预测,直接得到用户意向,导致的准确率较低的问题。
第一方面,本申请提供一种用户的留资意向处理方法,应用于服务设备,包括:
获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据;
获取目标用户的语音数据和文本数据,以得到非结构化数据;
将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据;
将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分;
根据所述留资意向得分,确定所述目标用户的留资意向;
输出所述目标用户的所述留资意向。
在一种可能的设计中,所述将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据,包括:将所述非结构化数据中的所述语音数据转换为结构化的行业分类置信度数据和留资意向置信度数据;将所述非结构化数据中的所述文本数据转换为第三结构化数据;将所述行业分类置信度数据、所述留资意向置信度数据、所述第三结构化数据和所述第一结构化数据通过数据融合方法进行数据融合;将融合后的数据确定为所述目标用户的所述用户特征数据。
在一种可能的设计中,所述训练好的留资意向识别模型为DeepFM模型,所述DeepFM模型包括FM模块和DNN模块;相应地,所述将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分,包括:将所述用户特征数据进行特征转换,得到转换后的特征集合;将所述转换后的特征集合输入至所述DeepFM模型中的FM模块,使得所述FM模块抽取所述特征集合中的低阶特征;将所述转换后的特征集合输入至所述DeepFM模型中的DNN模块,使得所述DNN模块抽取所述特征集合中的高阶特征;融合所述低阶特征和所述高阶特征;采用预设激活函数将融合后的特征进行非线性转化,得到所述留资意向得分。
在一种可能的设计中,所述获取目标用户的画像数据、信令数据和网络数据之前,还包括:获取历史项目的多个用户的所述用户特征数据作为样本数据,组成样本数据集合;在所述样本数据集合中筛选出正样本和负样本;根据所述正样本和所述负样本对初始的所述留资意向识别模型进行迭代训练,得到所述训练好的留资意向识别模型。
在一种可能的设计中,在所述样本数据集合中筛选出正样本,包括:在所述样本数据集合中获取所述行业分类置信度数据和所述留资意向置信度数据;在所述行业分类置信度数据中筛选出行业分类置信度超过第一预设限值的所述行业分类置信度数据作为第一正样本集合;在所述留资意向置信度数据中筛选出留资意向置信度超过第二预设限值的所述留资意向置信度数据作为第二正样本集合;对所述第一正样本集合和所述第二正样本集合取交集,得到最终的正样本集合。
在一种可能的设计中,在所述样本数据集合中筛选出负样本,包括:标记已筛选的正样本以得到一组标记数据;在所述样本数据集合中获取未被标记的数据以得到一组未标记数据;根据所述标记数据和所述未标记数据,通过机器学习方法获取可靠的负样本;根据所述正样本和所述可靠的负样本,通过所述机器学习方法从所述未标记数据中获取所述负样本。
在一种可能的设计中,所述根据所述标记数据和所述未标记数据,通过机器学习方法获取可靠的负样本,包括:根据预设的概率,在所述标记数据中获取间谍样本集合;根据预设的采样率,在所述未标记数据中获取负样本采样集合;根据所述标记数据和所述间谍样本集合,确定初始标记数据;根据所述间谍样本集合和所述负样本采样集合,确定初始未标记数据;根据所述初始标记数据和所述初始未标记数据构建第一二元分类器;使用所述第一二元分类器对所述初始未标记数据进行预测,若所述初始未标记数据中所述目标用户的预测概率小于预设阈值,则确定为所述可靠的负样本。
在一种可能的设计中,所述根据所述正样本和所述可靠的负样本,通过所述机器学习方法从所述未标记数据中获取所述负样本,包括:根据所述正样本和所述可靠的负样本构建第二二元分类器;根据预设的循环停止条件,使用所述第二二元分类器对所述未标记数据进行循环预测,筛选出所述负样本。
第二方面,本申请提供一种用户的留资意向处理装置,应用于服务设备,包括:
数据采集与加工单元,用于获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据;获取目标用户的语音数据和文本数据,以得到非结构化数据;
多模态数据融合单元,用于将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据;
留资意向识别单元,用于将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分;
留资意向输出单元,用于根据所述留资意向得分,确定所述目标用户的留资意向;输出所述目标用户的所述留资意向。
第三方面,本申请提供一种服务设备,包括至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的用户的留资意向处理方法。
第四方面,本申请提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的用户的留资意向处理方法。
本申请提供的用户的留资意向处理方法、装置、服务设备及存储介质,通过服务设备分析结构化数据(包括画像数据、信令数据和网络数据)和非结构化数据(包括语音数据和文本数据),并将非结构化数据转换为结构化数据,将数据进行融合,以得到用户特征数据。将用户特征数据进行特征转换输入至训练好的留资意向识别模型中,以得到目标用户的留资意向得分,根据留资意向得分,确定目标用户的留资意向,并输出目标用户的留资意向。通过结合结构化数据和非结构化数据作为数据源,形成多维度的用户特征数据,避免了数据源单一导致的准确率较低问题。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的用户的留资意向处理系统的场景示意图;
图2为本申请一个实施例提供的用户的留资意向处理方法的流程示意图;
图3为本申请另一实施例提供的用户的留资意向处理方法的流程示意图;
图4为本申请实施例提供的用户的留资意向处理装置的结构示意图;
图5为本申请实施例提供的服务设备的硬件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
名词解释如下:
留资意向:用户留下个人资料的意向。
在数字信息化时代,数据标签化成为发展趋势。其中,用户标签通过描述用户特征和行为的标志,以反映用户在网络平台的个人特征。尤其,各种社交网络平台产生的用户数据也相应增多,使得根据社交网络平台产生的用户数据分析用户的留资意向对构建用户标签显得尤其重要。现有技术中,通过结构化的用户数据,再通过构建好的分类模型进行预测,直接得到用户意向。由于数据源单一,直接应用于分类模型,容易产生样本选择存在偏差,预测结果有倾斜或单一化倾向,因此会导致准确率较低的问题。
为了解决上述技术问题,本申请提出以下技术思路:考虑到现有技术中数据源单一,在获取结构化数据(包括画像数据、信令数据和网络数据)的基础上,再获取非结构化数据(包括语音数据和文本数据)。通过结合结构化数据和非结构化数据作为数据源,形成多维度的用户特征数据,避免了数据源单一导致的准确率较低问题。下面采用详细的实施例进行详细说明。
图1为本申请实施例提供的用户的留资意向处理系统的场景示意图。如图1所示,本实施例提供的系统包括:网络运营商设备101、服务设备102和平台设备103。
其中,网络运营商设备101,可以是基站、路由设备和交换设备中的一种或多种。网络运营商设备101包括但不限于:宏基站、微基站、皮基站、飞基站、有线路由、无线路由、电话交换机和传输网关等
其中,服务设备102,可以是一台服务器,也可以是多台服务器组成的集群。
其中,平台设备103,可以用于存储、展示或营销。平台设备103包括但不限于:硬盘、显示器和大屏幕等。
参考图1,网络运营商设备101,用于采集不同用户的终端以得到各种用户相关的数据,并将用户相关的数据发送给服务设备102。服务设备102,用于根据用户相关的数据,进行一系列的处理得到用户的留资意向,并向平台设备103输出各用户的留资意向。平台设备103,用于存储、展示或营销各用户的留资意向。
实施例一
图2为本申请一个实施例提供的用户的留资意向处理方法的流程示意图,本实施例的执行主体可以为图1实施例中的服务设备102,也可以是有类似功能的其他服务设备,本实施例此处不做特别限制。如图2所示,该方法包括:
S201:获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据。
其中,画像数据可以是根据用户信息而抽象出来的标签化用户模型数据,该数据包括但不限于:性别、年龄、职业、喜好、行为和偏好等。
其中,信令数据是手机用户与基站之间的通信数据。通过这些通信数据可以确定用户的空间位置,记录用户非常驻地的集合;其中非常驻地的集合为用户常驻地之外的位置的集合。
具体地,针对第一结构化数据中的信令数据,采用基于密度的聚类算法,生成用户日度轨迹和驻留点,根据月度时间窗口观测得出用户的工作住址和居住地址,从用户的轨迹和驻留点中剔除工作住址和居住地址,以得到用户非常驻地的集合,进而根据地图兴趣区域(Area of Interest,AOI)数据,获取用户轨迹所经过兴趣点子集。可选地,基于密度的聚类算法为DBSCAN算法。其中,时间窗口可以是翻滚时间窗口,也可以是滑动时间窗口。
其中,网络数据可以是用户不同时间维度使用App的情况的数据集。
具体地,统计用户不同时间维度使用App的情况,生成数据集。其中,数据集包括但不限于:访问App频次、访问App时长、App活跃天数、App访问流量和使用同类App的个数等等。
其中,结构化数据是指以关系型数据库表形式管理的数据。
具体地,可以通过无线通信方式获取网络运营商设备发送的目标用户的第一结构化数据,也可以通过有线通信方式获取网络运营商设备发送的目标用户的第一结构化数据。
S202:获取目标用户的语音数据和文本数据,以得到非结构化数据。
其中,语音数据是指用户的通话记录;文本数据是指用户阅读所产生的数据。
本实施例中,非结构化数据是指没有固定模式的数据。
具体地,可以通过无线通信方式获取网络运营商设备发送的目标用户的非结构化数据,也可以通过有线通信方式获取网络运营商设备发送的目标用户的非结构化数据。
S203:将非结构化数据转换为第二结构化数据,并将第二结构化数据与第一结构化数据进行数据融合,以得到目标用户的用户特征数据。
具体地,S203具体包括Sa~Sd:
Sa:将非结构化数据中的语音数据转换为结构化的行业分类置信度数据和留资意向置信度数据。
其中,行业分类置信度数据是指划分为具体行业的概率的数据集合,留资意向置信度是指留下个人资料的概率的数据集合。
具体地,采用语音识别技术将语音数据转换为外呼文本数据,使用分类模型对外呼文本数据进行分析,识别业务场景,以得到行业分类置信度数据;通过初始的留资意向识别模型分析用户的留资意向,以得到留资意向置信度数据。可选地,分类模型为Textcnn文本分类模型。
Sb:将非结构化数据中的文本数据转换为第三结构化数据。
具体地,非结构化数据中的文本数据可以是用户阅读文章产生的阅读数据。首先,采用语言模型构建的编码器,将阅读数据拆解为多个特征标签,通过特征标签获取阅读数据的词向量;其次,对阅读数据进行相似分类,形成语料库;然后,根据需求选取语料库以及语料库对应的词向量,将词向量映射到高维语义空间,以得到第三结构化数据。可选地,语言模型为BERT模型。
具体地,将非结构化数据中的文本数据转换为结构化数据的方法,包括但不限于:分割和拆分、文本分类和聚类、正则表达式、自然语言处理和信息抽取等。
Sc:将行业分类置信度数据、留资意向置信度数据、第三结构化数据和第一结构化数据通过数据融合方法进行数据融合。
具体地,分别提取行业分类置信度数据、留资意向置信度数据和第三结构化数据的特征,采用数据融合方法,例如,基于特征的融合方法,将不同的特征组合成新特征,以得到融合后的数据。
Sd:将融合后的数据确定为目标用户的用户特征数据。
其中,用户特征数据是指代表用户的用户特征的一组数据。用户特征,是指用于模型训练的变量,在进行机器学习前,需要进行转换。
S204:将目标用户的用户特征数据输入至训练好的留资意向识别模型中,以得到目标用户的留资意向得分。
其中,留资意向识别模型为DeepFM模型,DeepFM是Wide&Deep的改进版,将Wide&Deep模型中Wide部分的LR换成了FM,DeepFM模型包括FM模块和DNN模块。
具体地,S204具体包括Se~Si:
Se:将用户特征数据进行特征转换,得到转换后的特征集合。
其中,特征转换是对原始数据中的数据进行转换操作,以得到适合进行算法模型构建的用户特征数据。
具体地,针对用户特征数据中属于类别型特征的:首先使用字符编码进行编码,然后通过加密算法进行加密,最后根据预设置的hash size确定最终取值。可选地,字符编码为UTF-8,加密算法为MD5。
示例性地,特征值为“高”,其经过MD5转换为“395f4ac03c4455a23fed274f2e8ea07b”,当hash_size设置为16时,其最终取值为6。
具体地,针对用户特征数据中属于数值型特征的:当其不同取值多于三种时,进行分箱处理,分箱处理是把连续值转换成离散值的过程。
示例性地,将用户每月健身次数进行分箱,0~5次分类为极差,6~10分类为差,11~15分类为一般,16~20分类为良,21~25分类为好。
具体地,针对用户特征数据属于中属于布尔型特征的:当取值不多于三种时,进行独热编码处理。其中,独热编码是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,只有一位有效。
示例性地,性别特征:["男","女"],N为2,男表示为10,女表示为01;地区特征:["A市","B市,"C市"],N为3,A市表示为100,B市表示为010,C市表示为001。
Sf:将转换后的特征集合输入至DeepFM模型中的FM模块,使得FM模块抽取特征集合中的低阶特征。
其中,DeepFM模型中的FM模块负责低阶特征的提取。
在本实施例中,FM模块输出的低阶特征是Addition单元的一阶特征和InnerProduct单元的二阶特征的累加。其中,Addition单元用于表征一阶特征各自的影响,Innerproduct用于表征二阶特征交互的影响。
Sg:将转换后的特征集合输入至DeepFM模型中的DNN模块,使得DNN模块抽取特征集合中的高阶特征。
其中,DeepFM模型中的DNN模块负责高阶特征的提取。
具体地,将特征集合转换为密集特征,将密集特征通过两层全连接层进行组合,输出高阶特征。
Sh:融合低阶特征和高阶特征。
具体地,采用特征融合方法,融合低阶特征和高阶特征。可选地,特征融合方法为特征拼接。
Si:采用预设激活函数将融合后的特征进行非线性转化,得到留资意向得分。
其中,激活函数主要作用是给神经网络提供非线性建模能力。
可选地,预设激活函数为Sigmoid。具体地,采用Sigmoid激活函数,对融合后的特征进行非线性转换,将输出结果映射到[0,1]之间;输出结果包括将目标用户预测为1的概率和预测为0的概率,两部分之和为1;将目标用户预测为1的概率作为目标用户的留资意向得分。
S205:根据留资意向得分,确定目标用户的留资意向。
在本实施例中,留资意向得分越高,目标用户的留资意向越大。
S206:输出目标用户的留资意向。
具体地,可以将目标用户的留资意向输出至平台设备进行展示。
从上述实施例描述可知,首先,获取目标用户的结构化数据(包括画像数据、信令数据和网络数据)和非结构化数据(包括语音数据和文本数据),并将非结构化数据转换为结构化数据,将数据进行融合,以得到用户特征数据;然后,将用户特征数据进行特征转换输入至训练好的留资意向识别模型中,以得到目标用户的留资意向得分;最后,根据留资意向得分,确定目标用户的留资意向,并输出目标用户的留资意向。通过结合结构化数据和非结构化数据作为数据源,形成多维度的用户特征数据,避免了数据源单一导致的准确率较低问题。
实施例二
图3为本申请另一实施例提供的用户的留资意向处理方法的流程示意图,在图2实施例的基础上,本实施例重点描述了如何建立留资意向识别模型的具体过程。如图3所示,详述如下:
S301:获取历史项目的多个用户的用户特征数据作为样本数据,组成样本数据集合。
其中,历史项目包括历史语音数据。
具体地,获取多个用户的画像数据、信令数据和网络数据,以得到第一结构化数据;获取多个用户的语音数据和文本数据,以得到非结构化数据;将非结构化数据转换为第二结构化数据,并将第二结构化数据与第一结构化数据进行数据融合,以得到多个用户的用户特征数据,将多个用户的用户特征数据作为样本数据,组成样本数据集合。
S302:在样本数据集合中筛选出正样本。
具体地,S302包括Sj~Sm:
Sj:在样本数据集合中获取行业分类置信度数据和留资意向置信度数据。
具体地,获取样本数据集合中的非结构化数据,包括语音数据和文本数据,将非结构化数据中的语音数据转化为结构化的行业分类置信度数据和留资意向置信度数据。
步骤S302中的Sj将非结构化数据中的语音数据转化为结构化的行业分类置信度数据和留资意向置信度数据的描述,与上述步骤S201中Sa的描述一致,具体描述请参考的相关内容,此处不再赘述。
Sk:在行业分类置信度数据中筛选出行业分类置信度超过第一预设限值的行业分类置信度数据作为第一正样本集合。
其中,第一预设限制是预先设置的行业分类置信度的限制,用A1表示。
具体地,若行业分类置信度数据中的行业分类置信度A≥A1,则确定为第一正样本集合。
Sl:在留资意向置信度数据中筛选出留资意向置信度超过第二预设限值的留资意向置信度数据作为第二正样本集合。
其中,第二预设限制是预先设置的留资意向置信度的限制,用B1表示。
具体地,若留资意向置信度数据中的留资意向置信度B≥B1,则确定为第二正样本集合。
Sm:对第一正样本集合和第二正样本集合取交集,得到最终的正样本集合。
具体地,获取第一正样本集合和第二正样本集合中相同的用户,相同的用户为交集部分,确定为最终的正样本集合。
示例性地,筛选行业主题为“家装”且行业分类置信度高于0.9的用户,作为集合D1,筛选留资意向置信度高于0.7的用户,作为集合D2;最后,取集合D1和集合D2的交集,得到最终的正样本集合。
S303:在样本数据集合中筛选出负样本。
具体地,S303包括Sn~Sq:
Sn:标记已筛选的正样本以得到一组标记数据。
具体地,将已筛选出的正样本进行标记,以得到一组标记数据。
So:在样本数据集合中获取未被标记的数据以得到一组未标记数据。
具体地,获取样本集合中除标记数据的其他数据,以得到一组未被标记的数据。
Sp:根据标记数据和未标记数据,通过机器学习方法获取可靠的负样本。
具体地,根据预设的概率,在标记数据中获取间谍样本集合,根据预设的采样率,在未标记数据中获取负样本采样集合,根据标记数据和间谍样本集合,确定初始标记数据;根据间谍样本集合和负样本采样集合,确定初始未标记数据。根据初始标记数据和初始未标记数据构建第一二元分类器;使用第一二元分类器对初始未标记数据进行预测,若初始未标记数据中目标用户的预测概率小于预设阈值,则确定为可靠的负样本。
其中,间谍样本集合为从标记数据中随机选择的一部分数据,负样本采样集合为从未标记数据中随机选择的一部分数据。二元分类器是一种用于将输入样本分为两个类别的机器学习模型;将间谍样本集合中的数据预测为正样本的概率作为预设阈值,用C1表示。
具体地,标记数据为D+,未标记数据为DU,预设的概率为α,间谍样本集合为:
DSP=α*D+
预设的采样率为β,负样本采样集合为:
DUS=β*DU
此时,初始标记数据表示为(1-α)*D+,即D+-DSP,初始未标记数据表示为DUS∪DSP
具体地,根据初始标记数据和初始未标记数据构建一个期望最大化算法(Expectation Maximization algorithm,EM算法)的二元分类器,对初始未标记数据进行预测,若初始未标记数据中的数据预测为正样本的概率C≤C1,则确定为可靠的负样本。可选地,EM算法为朴素贝叶斯算法。
Sq:根据正样本和可靠的负样本,通过机器学习方法从未标记数据中获取负样本。
具体地,根据正样本和可靠的负样本构建第二二元分类器;根据预设的循环停止条件,使用第二二元分类器对未标记数据进行循环预测,筛选出负样本。
其中,预设的循环停止条件有多种可选,包括但不限于:达到最大循环次数和正样本预测概率等。
具体地,根据正样本和可靠的负样本构建一个EM算法的二元分类器,对未标记数据进行循环预测,每次循环只增加负样本,正样本保持不变,直至循环停止,以得到负样本。可选地,EM算法为朴素贝叶斯算法。
S304:根据正样本和负样本对初始的留资意向识别模型进行迭代训练,得到训练好的留资意向识别模型。
具体地,将正样本和负样本作为数据集,利用Ray调参,使用分布式计算,搜索超参数空间,找到最优的超参数组合,对模型进行迭代训练,以得到训练好的留资意向识别模型。
在本实施例中,步骤S305-S310的描述与上述步骤S201-S206一致,具体描述请参考相关的内容,此处不再赘述。
S305:获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据。
S306:获取目标用户的语音数据和文本数据,以得到非结构化数据。
S307:将非结构化数据转换为第二结构化数据,并将第二结构化数据与第一结构化数据进行数据融合,以得到目标用户的用户特征数据。
S308:将目标用户的用户特征数据输入至训练好的留资意向识别模型中,以得到目标用户的留资意向得分。
S309:根据留资意向得分,确定目标用户的留资意向。
S310:输出目标用户的留资意向。
从上述实施例描述可知,通过标记数据和未标记数据采用半监督学习方法进行样本选择能够选择具有代表性的样本,提高模型的泛化能力和准确率;通过预训练好的留资意向识别模型,辅助用户的留资意向迭代优化。通过提高模型的泛化能力和准确率,以及对留资意向识别模型的迭代训练,能够提高准确率。
图4为本申请实施例提供的用户的留资意向处理装置的结构示意图。如图4所示,该用户的留资意向处理装置40包括:数据采集与加工单元401、多模态数据融合单元402、留资意向识别单元403和留资意向输出单元404。
数据采集与加工单元401,用于获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据;获取目标用户的语音数据和文本数据,以得到非结构化数据;
多模态数据融合单元402,用于将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据;
留资意向识别单元403,用于将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分;
留资意向输出单元404,用于根据所述留资意向得分,确定所述目标用户的留资意向;输出所述目标用户的所述留资意向。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在一种可能的设计中,其中所述将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据;相应地,所述多模态数据融合单元402,具体用于:将所述非结构化数据中的所述语音数据转换为结构化的行业分类置信度数据和留资意向置信度数据;将所述非结构化数据中的所述文本数据转换为第三结构化数据;将所述行业分类置信度数据、所述留资意向置信度数据、所述第三结构化数据和所述第一结构化数据通过数据融合方法进行数据融合;将融合后的数据确定为所述目标用户的所述用户特征数据。
在一种可能的设计中,其中所述训练好的留资意向识别模型为DeepFM模型,所述DeepFM模型包括FM模块和DNN模块;相应地,所述将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分;相应地,所述留资意向识别单元403,具体用于:将所述用户特征数据进行特征转换,得到转换后的特征集合;将所述转换后的特征集合输入至所述DeepFM模型中的FM模块,使得所述FM模块抽取所述特征集合中的低阶特征;将所述转换后的特征集合输入至所述DeepFM模型中的DNN模块,使得所述DNN模块抽取所述特征集合中的高阶特征;融合所述低阶特征和所述高阶特征;采用预设激活函数将融合后的特征进行非线性转化,得到所述留资意向得分。
在一种可能的设计中,所述模块还包括:模型训练单元405,用于获取历史项目的多个用户的所述用户特征数据作为样本数据,组成样本数据集合;在所述样本数据集合中筛选出正样本和负样本;根据所述正样本和所述负样本对初始的所述留资意向识别模型进行迭代训练,得到所述训练好的留资意向识别模型。
在一种可能的设计中,所述模块还包括:样本选择单元406,用于在所述样本数据集合中获取所述行业分类置信度数据和所述留资意向置信度数据;在所述行业分类置信度数据中筛选出行业分类置信度超过第一预设限值的所述行业分类置信度数据作为第一正样本集合;在所述留资意向置信度数据中筛选出留资意向置信度超过第二预设限值的所述留资意向置信度数据作为第二正样本集合;对所述第一正样本集合和所述第二正样本集合取交集,得到最终的正样本集合。
在一种可能的设计中,所述样本选择单元406,还用于标记已筛选的正样本以得到一组标记数据;在所述样本数据集合中获取未被标记的数据以得到一组未标记数据;根据所述标记数据和所述未标记数据,通过机器学习方法获取可靠的负样本;根据所述正样本和所述可靠的负样本,通过所述机器学习方法从所述未标记数据中获取所述负样本。
在一种可能的设计中,所述样本选择单元406,还用于根据预设的概率,在所述标记数据中获取间谍样本集合;根据预设的采样率,在所述未标记数据中获取负样本采样集合;根据所述标记数据和所述间谍样本集合,确定初始标记数据;根据所述间谍样本集合和所述负样本采样集合,确定初始未标记数据;根据所述初始标记数据和所述初始未标记数据构建第一二元分类器;使用所述第一二元分类器对所述初始未标记数据进行预测,若所述初始未标记数据中所述目标用户的预测概率小于预设阈值,则确定为所述可靠的负样本。
在一种可能的设计中,所述样本选择单元406,还用于根据所述正样本和所述可靠的负样本构建第二二元分类器;根据预设的循环停止条件,使用所述第二二元分类器对所述未标记数据进行循环预测,筛选出所述负样本。
本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在本实施例中,对数据采集与加工单元、多模态数据融合单元、样本选择单元、模型训练单元和留资意向识别单元进行PipeLine处理,形成模块化单元;根据预设置的配置,无需人工干预能够自动输出用户的留资意向;将用户的留资意向作为触达用户的依据,并将触达用户产生的语音数据作为历史语音数据,再次作为留资意向识别模型的数据来源,对留资意向识别模型进行迭代训练,形成数据闭环。
图5为本申请实施例提供的服务设备的硬件结构示意图。如图5所示,本实施例的服务设备50包括:处理器501以及存储器502;其中
存储器502,用于存储计算机执行指令;
处理器501,用于执行存储器存储的计算机执行指令,以实现上述方法实施例中所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。
当存储器502独立设置时,该服务设备还包括总线503,用于连接所述存储器502和处理器501。
本申请实施例还提供一种计算机存储介质,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的用户的留资意向处理方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,其存储在计算机存储介质中,至少一个处理器可以从计算机存储介质读取计算机程序,至少一个处理器执行计算机程序时可实现如上的用户的留资意向处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(RO,磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种用户的留资意向处理方法,其特征在于,应用于服务设备,包括:
获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据;
获取目标用户的语音数据和文本数据,以得到非结构化数据;
将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据;
将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分;
根据所述留资意向得分,确定所述目标用户的留资意向;
输出所述目标用户的所述留资意向。
2.根据权利要求1所述的方法,其特征在于,所述将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据,包括:
将所述非结构化数据中的所述语音数据转换为结构化的行业分类置信度数据和留资意向置信度数据;
将所述非结构化数据中的所述文本数据转换为第三结构化数据;
将所述行业分类置信度数据、所述留资意向置信度数据、所述第三结构化数据和所述第一结构化数据通过数据融合方法进行数据融合;
将融合后的数据确定为所述目标用户的所述用户特征数据。
3.根据权利要求1所述的方法,其特征在于,其中所述训练好的留资意向识别模型为DeepFM模型,所述DeepFM模型包括FM模块和DNN模块;
相应地,所述将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分,包括:
将所述用户特征数据进行特征转换,得到转换后的特征集合;
将所述转换后的特征集合输入至所述DeepFM模型中的FM模块,使得所述FM模块抽取所述特征集合中的低阶特征;
将所述转换后的特征集合输入至所述DeepFM模型中的DNN模块,使得所述DNN模块抽取所述特征集合中的高阶特征;
融合所述低阶特征和所述高阶特征;
采用预设激活函数将融合后的特征进行非线性转化,得到所述留资意向得分。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述获取目标用户的画像数据、信令数据和网络数据之前,还包括:
获取历史项目的多个用户的所述用户特征数据作为样本数据,组成样本数据集合;
在所述样本数据集合中筛选出正样本和负样本;
根据所述正样本和所述负样本对初始的所述留资意向识别模型进行迭代训练,得到所述训练好的留资意向识别模型。
5.根据权利要求4所述的方法,其特征在于,在所述样本数据集合中筛选出正样本,包括:
在所述样本数据集合中获取所述行业分类置信度数据和所述留资意向置信度数据;
在所述行业分类置信度数据中筛选出行业分类置信度超过第一预设限值的所述行业分类置信度数据作为第一正样本集合;
在所述留资意向置信度数据中筛选出留资意向置信度超过第二预设限值的所述留资意向置信度数据作为第二正样本集合;
对所述第一正样本集合和所述第二正样本集合取交集,得到最终的正样本集合。
6.根据权利要求4所述的方法,其特征在于,在所述样本数据集合中筛选出负样本,包括:
标记已筛选的正样本以得到一组标记数据;
在所述样本数据集合中获取未被标记的数据以得到一组未标记数据;
根据所述标记数据和所述未标记数据,通过机器学习方法获取可靠的负样本;
根据所述正样本和所述可靠的负样本,通过所述机器学习方法从所述未标记数据中获取所述负样本。
7.根据权利要求6所述的方法,其特征在于,所述根据所述标记数据和所述未标记数据,通过机器学习方法获取可靠的负样本,包括:
根据预设的概率,在所述标记数据中获取间谍样本集合;
根据预设的采样率,在所述未标记数据中获取负样本采样集合;
根据所述标记数据和所述间谍样本集合,确定初始标记数据;
根据所述间谍样本集合和所述负样本采样集合,确定初始未标记数据;
根据所述初始标记数据和所述初始未标记数据构建第一二元分类器;
使用所述第一二元分类器对所述初始未标记数据进行预测,若所述初始未标记数据中所述目标用户的预测概率小于预设阈值,则确定为所述可靠的负样本。
8.根据权利要求6所述的方法,其特征在于,所述根据所述正样本和所述可靠的负样本,通过所述机器学习方法从所述未标记数据中获取所述负样本,包括:
根据所述正样本和所述可靠的负样本构建第二二元分类器;
根据预设的循环停止条件,使用所述第二二元分类器对所述未标记数据进行循环预测,筛选出所述负样本。
9.一种用户的留资意向处理装置,其特征在于,应用于服务设备,包括:
数据采集与加工单元,用于获取目标用户的画像数据、信令数据和网络数据,以得到第一结构化数据;获取目标用户的语音数据和文本数据,以得到非结构化数据;
多模态数据融合单元,用于将所述非结构化数据转换为第二结构化数据,并将所述第二结构化数据与所述第一结构化数据进行数据融合,以得到所述目标用户的用户特征数据;
留资意向识别单元,用于将所述目标用户的所述用户特征数据输入至训练好的留资意向识别模型中,以得到所述目标用户的留资意向得分;
留资意向输出单元,用于根据所述留资意向得分,确定所述目标用户的留资意向;输出所述目标用户的所述留资意向。
10.一种服务设备,其特征在于,包括至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-8任一项所述的用户的留资意向处理方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-8任一项所述的用户的留资意向处理方法。
CN202310944813.5A 2023-07-28 2023-07-28 用户的留资意向处理方法、装置、服务设备及存储介质 Pending CN116956223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310944813.5A CN116956223A (zh) 2023-07-28 2023-07-28 用户的留资意向处理方法、装置、服务设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310944813.5A CN116956223A (zh) 2023-07-28 2023-07-28 用户的留资意向处理方法、装置、服务设备及存储介质

Publications (1)

Publication Number Publication Date
CN116956223A true CN116956223A (zh) 2023-10-27

Family

ID=88461681

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310944813.5A Pending CN116956223A (zh) 2023-07-28 2023-07-28 用户的留资意向处理方法、装置、服务设备及存储介质

Country Status (1)

Country Link
CN (1) CN116956223A (zh)

Similar Documents

Publication Publication Date Title
Sohangir et al. Big Data: Deep Learning for financial sentiment analysis
EP3985578A1 (en) Method and system for automatically training machine learning model
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
KR20200144417A (ko) 멀티모달 콘텐츠 분석 시스템 및 그 방법
CN110674188A (zh) 一种特征提取方法、装置及设备
CN110991170A (zh) 基于电子病历信息的中文疾病名称智能标准化方法与系统
CN110737811B (zh) 应用分类方法、装置以及相关设备
CN110033382B (zh) 一种保险业务的处理方法、装置及设备
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111858898A (zh) 基于人工智能的文本处理方法、装置及电子设备
CN110674297A (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN115905528A (zh) 具有时序特征的事件多标签分类方法、装置及电子设备
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN112989167B (zh) 搬运账号的识别方法、装置、设备及计算机可读存储介质
CN113656699A (zh) 用户特征向量确定方法、相关设备及介质
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质
CN116881462A (zh) 文本数据处理、文本表示、文本聚类的方法及设备
CN115329754A (zh) 一种文本主题提取方法、装置、设备及存储介质
CN116956223A (zh) 用户的留资意向处理方法、装置、服务设备及存储介质
CN106294292B (zh) 章节目录筛选方法及装置
CN116230146A (zh) 数据处理方法、icd编码模型的训练方法及相关设备
CN114842982A (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
Kandukuri et al. Textual mining-evaluation of Mann Ki Baat repository

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination