CN115952280A - 基于多模型联邦集成的用户画像方法 - Google Patents

基于多模型联邦集成的用户画像方法 Download PDF

Info

Publication number
CN115952280A
CN115952280A CN202211328527.8A CN202211328527A CN115952280A CN 115952280 A CN115952280 A CN 115952280A CN 202211328527 A CN202211328527 A CN 202211328527A CN 115952280 A CN115952280 A CN 115952280A
Authority
CN
China
Prior art keywords
model
user
word
vector
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211328527.8A
Other languages
English (en)
Inventor
李刚
李雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Zidong Information Technology Beijing Co ltd
Original Assignee
Zhongke Zidong Information Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Zidong Information Technology Beijing Co ltd filed Critical Zhongke Zidong Information Technology Beijing Co ltd
Priority to CN202211328527.8A priority Critical patent/CN115952280A/zh
Publication of CN115952280A publication Critical patent/CN115952280A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种基于多模型联邦集成的用户画像方法,属于大数据分析技术领域。该方法包括:步骤S1.获取数据集;步骤S2.预处理;步骤S3.构建dm_bpnn模型和dbow_bpnn模型;步骤S4.TF‑IDF和标记词嵌入组合;步骤S5.优化基模型;步骤S6.模型集成。本发明通过将几个基模型进行融合集成,再利用联邦集成学习算法来实现对属性标签的预测;保证了模型在整合阶段内的安全性以及预测的准确率。从多角度来提取用户属性标签之前相关联的信息,来提升模型的综合泛化能力和预测准确率。

Description

基于多模型联邦集成的用户画像方法
技术领域
本发明涉及一种基于多模型联邦集成的用户画像方法,属于大数据分析技术领域。
背景技术
1.用户画像
用户画像(英文名称User Profile),它是根据用户人口学特征(基本属性)、网络浏览内容(行为特征)、网络社交活动(社交属性和兴趣偏好)和消费行为(消费信息)等信息而抽象出的一个标签化的用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理,为进一步准确快速地分析用户的行为和习惯提供重要的数据库;研究结果可以帮助企业快速找到分类的用户群体和用户当前的需求,同时让用户对自己有一个深刻的了解;同时也是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。
用户画像是在创造一系列的“典型”或者“象征性”的用户,但用户画像的一个更高层次的功能在于使用用户画像融合边缘情况的行为或需求。
一般来说,用户画像的生成是为了预测用户的属性、潜在偏好或个人特征。在各种与推荐相关的任务中,良好预测的用户画像至关重要。
2.深度学习和联邦学习
深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
联邦学习这一新兴概念自被谷歌提出以来就一直受到专家学者的广泛关注。联邦学习的本质是多个数据持有者协同训练机器学习模型,而无需共享其隐私敏感数据,从而满足“模型找数据”的数据安全的本质要求,因具有保护隐私数据的潜力被广泛应用于多个领域。联邦学习是隐私保护下的算法优化,可以解决数据孤岛的问题,以达到保护数据的目的。联邦学习允许从跨数据所有者分布的数据中构建联合模型,提供了跨企业的数据使用方式和模型构建蓝图,使企业的私有数据不出本地,在不违反数据隐私保护相关法规的前提下,通过加密机制下的参数交换,构建并优化机器学习模型。
联邦学习框架包含多方面的技术,比如传统机器学习的模型训练技术、协调方参数整合的算法技术、协调方与参与方高效传输的通信技术、隐私保护的加密技术等。此外,在联邦学习框架中还存在激励机制,数据持有方均可参与,收益具有普遍性。
Google首先将联邦学习运用在Gboard(Google键盘)上,联合用户终端设备,利用用户的本地数据训练本地模型,再将训练过程中的模型参数聚合与分发,最终实现精准预测目标。除了分散的本地用户,联邦学习的参与者还可以是多家面临数据孤岛困境的企业,它们拥有独立的数据库但不能相互分享。联邦学习通过在训练过程中设计加密式参数传递代替原有的远程数据传输,保证了各方数据的安全与隐私,同时满足了已出台的法律法规对数据安全的要求。
3.集成学习、联邦集成算法和RSA加密算法
集成学习(Ensemble Learning)的思想来源于1979年Dasarthy等人提出的用多个分类器分解特征空间的思想。随着这些年的不断发展,集成学习已经形成了多个成熟的集成框架,这种集成的思想也被应用到很多算法中实现(比如:随机森林算法、梯度提升树算法),并取得了不错的效果。集成学习的思想简单易懂,正如俗话常说的“三个臭皮匠赛过诸葛亮”。集成学习是一种技术框架,是按照不同的思路来组合多个基础模型,从而获得显著优越性能的一种方法。但是获得显著优越性能的集成学习模型有一个必要条件就是基模型需具有多样性。
集成学习可以用于分类问题、回归问题、特征选取、异常点检测等等,可以说所有的机器学习领域都可以看到集成学习的身影,在整个机器学习的演进史上承担的重要的作用,留下了浓厚的一笔,在工业界更是充当救火队员的角色,在Kaggle等国际比赛中,更是充当黑马的存在。
联邦集成算法将各基模型使用RSA加密算法加密后传输至数据集,可保证模型传输过程中的安全性;各基模型在数据集提供的数据上进行训练,可保证在建立模型过程中数据的安全性。算法步骤如下:
(1)数据集与可信第三方分别使用RSA加密算法产生256字节的密钥对,并将公钥传输至可信的第三方,私钥保留在数据集;
(2)将可信第三方存储的各基模型使用公钥加密并传输至数据集,数据集使用私钥解密再进行训练,对基模型进行优化,将数据集优化后的基模型作为本地模型;
(3)数据集使用公钥对本地模型参数加密并传输至可信第三方;
(4)让可信第三方使用私钥解密,并使用Stacking集成算法、Boosting集成算法、XGBoost集成算法分别对本地模型进行集成,根据集成结果选择最优的集成方式;
(5)利用上述(4)选择的集成模式对本地模型进行多次迭代,直到更新的基模型的准确度满足要求。
RSA是最流行的非对称加密算法之一。也被称为公钥加密。RSA是非对称的,也就是用来加密的密钥和用来解密的密钥不是同一个。RSA也是分组加密算法,不同的是分组大小可以根据密钥的大小而改变。如果加密的数据不是分组大小的整数倍,则会根据具体的应用方式增加额外的填充位。RSA作为一种非对称的加密算法,其中很重要的一个特点是当数据在网络中传输时,用来加密数据的密钥并不需要也和数据一起传送。因此,这就减少了密钥泄露的可能性。RSA在不允许加密方解密数据时也很有用,加密的一方使用一个密钥,称为公钥,解密的一方使用另一个密钥,称为私钥,私钥需要保持其私有性。
4.Stacking算法、Boosting算法和XGBoost算法
Stacking算法和Boosting算法是集成学习中具有代表性的算法。
Stacking(有时也称之为stacked generalization)是指训练一个模型用于组合(combine)其他各个模型,它将训练模型分为两层,首先使用训练数据集训练第一层基模型,将训练好的基模型对训练集进行预测,得到的预测值作为新的训练集的特征输入到第二层基模型中进行训练,最后第二层基模型输出作为最终的预测结果。
Boosting算法是一种可将弱训练模型提升为强模型的算法,算法的核心思想源自一个假设:弱学习器等于强学习器。1990年学者Schapire对该假设进行研究分析,并证实了可以通过组合若干个弱学习器来提高学习性能,最终达到一个强学习器的学习效果。因此可以借助Boosting算法来提升机器学习算法的学习性能。其训练过程呈阶梯状,基模型按次序一一进行训练,每个基模型基于上一次的结果来进行训练,基模型的训练集按照某种策略每次都会进行一定的转化。通过不断地使基模型弥补前一个基模型的“不足”,不断地迭代更新能使最终的结果无限接近最优分类。
而XGBoost算法是在渐进梯度回归树(Gradient Boosting Regression Tree,GBRT)算法的基础上对Boosting算法提出的一种改进,具有速度快,效果好,能够处理大规模数据,内置交叉验证,自定义损失函数等特点。它的主要思想是采用弱分类器的逐次迭代计算,提高分类器的精准度。简言之,该算法通过组合弱学习器来形成一个强学习器。
XGBoost的目标函数如下所示:
Figure BDA0003909670090000041
其中,
Figure BDA0003909670090000042
为损失函数;Ω(ft)表示为正则项;c为常数。为了控制模型的复杂度和控制过拟合问题,XGBoost在目标函数中引入正则项。由泰勒展开式定义如下函数:
Figure BDA0003909670090000043
Figure BDA0003909670090000044
首先,将上述两式代入到目标函数中;然后求得目标函数的二阶泰勒展开式;最终得到原目标函数的近似值:
Figure BDA0003909670090000045
5.BP神经网络和BPDM(BPNN based Doc2Vec Model)
BP神经网络(Back Propagation Neural Network,BPNN)模型是一种按照误差逆向传播算法训练的多层前馈神经网络,也叫反向传播神经网络,包括输入层、隐含层和输出层。其核心思想是根据预测误差调整网络权值,使预测输出不断逼近期望输出。
引用一种BPDM算法模型,该算法通过改进Doc2Vec,然后结合BP神经网络算法来抽取查询词之间深层语义关联信息。
Doc2Vec在文本向量训练过程中有两种模型:PV-DM和PV-DBOW,两种模式的训练方法基本一致,均以神经网络语言模型为基础。不同之处在于,PV-DM模式采用段落向量和词向量对上下文中的下一个词的概率进行预测,而PV-DBOW模式则仅通过段落向量去预测多个词向量的概率分布。针对用户查询词的特点,对两种训练模型作出改进,并借助改进后的Doc2Vec方法对用户查询记录进行分布式表达,在保留本文上下文语境信息的优势下,实现用户查询记录的向量化描述,最后借助BP神经网络算法,实现对属性多为标签的预测任务,这就是所引用的BPDM算法模型的核心内容。
6.TF-IDF模型和K-means聚类
TF-IDF模型,即“词频-逆文本频率”,它由词频和逆文本频率两部分组成,它同时考虑了文本中词出现的频率(TF)和该词的罕见程度(IDF),这使得该向量能够更好地反应词在句子中的权重。其中,词频(TF)是指某一给定词在文件中出现的频率,且对该词频进行归一化处理:
Figure BDA0003909670090000051
逆文本频率(IDF)是一个词罕见度的度量值,以便更好地表示文本的生成向量:
Figure BDA0003909670090000052
其中N代表语料库文本总数;N(x)代表语料库中包含词x的文本总数。由此可得某一个词的TF-IDF值:
TF-IDF(x)=TF(x)*IDF(x)
聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,聚类就是一种发现这种内在结构的技术,聚类技术经常被称为无监督学习。
k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。其主要思想是:给定K值和K个初始聚类中心点,然后计算每个对象与各个种子聚类中心之间的距离,将每个点(即数据记录)分类为最近的聚类。在由簇中心点表示的簇中,在分配所有点后,根据簇中的所有点重新计算簇的中心点(取平均值),然后迭代分配点并更新簇中心点步长,直到簇中心点变化很小或达到指定的迭代次数。
发明内容
本发明的目的:
为了能够精准地定位目标群体以及他们的特征,本发明主要有如下几个目的:
1.为了能更好的挖掘出更准确的信息,引用了一种集成学习的思想,通过集成多个模型来预测用户群体属性,以更高的精度提高用户画像的性能。在预测用户属性方面比单模型方法更准确。该思想在预测用户的人口统计属性方面也具有更强的泛化能力,使其更适合于分析用户。
2.在准确率得到提升的同时,采用联邦集成算法,使得模型及数据的安全性也得到了提升。
为达到上述目的,本发明的技术方案如下:
对数据集处理后,将各基模型使用RSA加密算法加密后传输至数据集,然后各基模型在数据集提供的数据上进行训练,数据集与可信第三方分别使用RSA加密算法产生密钥对,并将公钥传输至可信的第三方,私钥保留在数据集。将可信第三方存储的各基模型使用公钥加密并传输至数据集,数据集使用私钥解密再进行训练,对基模型进行优化,将数据集优化后的基模型作为本地模型。然后,借助联邦集成算法,并使用Stacking集成算法、Boosting集成算法、XGBoost集成算法分别对本地模型进行集成,根据集成结果选择最优的集成方式,利用选择的集成模式对本地模型进行多次迭代,直到更新的基模型的准确度满足要求。最后实现对用户属性标签的预测。
一种基于多模型联邦集成的用户画像方法,具体包括:
步骤S1.获取数据集
获取原始数据(用户访问的行为日志、用户基本属性)得到用户行为信息。收集尽可能多的用户行为信息。对目标用户组中的实际用户进行高质量的用户研究。这里采用搜狗用户检索记录数据,获取近期查询记录以及用户的属性标签,如性别、年龄及教育程度等。
步骤S2.预处理
(1)分词处理
对于一些短文本,由于汉语句子中的单词之间没有空格,因此在进行分类之前,有必要将句子划分为单词,需要经过分词系统得到用户关键字。
(2)停用词处理
根据之前的研究发现,查询词大多是短文本,并且“空格”、“标点符号”和“英文词汇”等许多停用词有助于区分用户的基本属性,能够影响到用户基本属性的分类。因此,在进行分词处理和进行TF-IDF特征计算时,没有对停用词进行处理,同时也保留了空格、标点等这些信息。
步骤S3.构建dm_bpnn模型和dbow_bpnn模型
(1)dm_bpnn模型
所述的dm_bpnn模型作为一个基模型,具体的构建过程如下:
对PV-DM模型进行改进,在查询词文档向量的训练过程中,每个查询词都会被映射到一个唯一的向量w,w为单词矩阵W中的一行;查询词组合后的文档也被映射到一个唯一的向量q,q为查询词文档矩阵Q中的一行。取消窗口滑动,限制窗口每次只能训练一个查询词,每次从查询词文档中随机抽取一个查询词训练,这种引用的方法叫做分布式记忆模型。在训练窗口内,采用随机梯度下降方法来对查询词向量和查询词文档向量进行训练,并通过反向传播得到梯度对分布式记忆模型进行更新,查询词向量模型的目标函数是使得平局对数概率最大化,目标函数公式为:
Figure BDA0003909670090000071
其中,{w1,w2,...,wT}是一个输入模型训练的查询词文档向量,T为文档向量总数,wt为某个词向量。
在预测阶段,只需要使用已经训练好的分布式记忆模型对新的查询词文档进行向量计算,然后再通过矩阵Q中的文档向量q和矩阵W中的词向量w进行平均池化或拼接来实现对上下文中的下一个单词的预测任务,通过多分类器softmax来完成:
Figure BDA0003909670090000072
其中
Figure BDA0003909670090000081
指的是单词的未归一化的对数概率;
y=b+Uh(wt-k,...,wt+k;W)
其中b和U为softmax的两个参数;h函数为矩阵W中单词向量w的平均或者拼接。采用hierarchical softmax来逼近softmax函数,最终取得softmax权重矩阵。然后固定矩阵W和softmax权重矩阵,使用梯度下降来训练测试集查询文档向量,选择BP神经网络算法作为分类器来对用户画像的标签进行预测。
(2)dbow_bpnn模型
所述的dbow_bpnn模型作为第二个基模型,构建过程如下:。
对PV-DBOW训练方法进行改进,具体做法是:第一步,将查询词进行bigram处理(二元语法分词处理);第二步,将bigram特征拼接起来,作为训练模型的输出层的标签进行训练,每当训练窗口经过一个bigram特征时,可以利用反向传播算法得到梯度对查询词文档向量和输出层的权重矩阵进行更新,经过t轮迭代后,训练好的查询词文档向量Q也就是需要获取的查询文档的向量表示;第三步,使用BP神经网络算法作为分类器来对用户画像的标签进行预测。
步骤S4.TF-IDF和标记词嵌入组合
使用文本TF-IDF值和标记词嵌入相结合的方法来用向量表示用户,具体过程如下:
从步骤1获取的数据集中获取用户信息,并根据这些用户信息构建标记词汇表,每个用户都可以表示为一个标记序列。然后计算标记词频率TF。将每个用户视为一段文本,通过标记序列计算每个用户中每个标记的TF-IDF值作为每个标记词的权重,然后通过信息语料库训练标记词嵌入。最后,每个用户可以表示为标记词嵌入和标记TF-IDF值的乘积,然后求和。用户的最终表示向量如下:
Figure BDA0003909670090000082
其中,Vi表示第i个用户的向量表示,embj表示第j个标记词嵌入,tfidfij表示第i个用户第j个标记的TF-IDF值。
然后使用K-means算法对用户进行聚类,用类别标记每个用户。最后,使用TF-IDF和标记词嵌入的组合即用户的最终表示向量,以用户聚类结果作为分类标签,使用BP神经网络算法作为分类器来对用户画像的标签进行预测,作为第三个基模型。
步骤S5.优化基模型
将各基模型(第一基模型、第二基模型及第三基模型)使用RSA加密算法加密后传输至数据集,然后各基模型在数据集提供的数据上进行训练,保证在建立模型过程中数据的安全性。数据集与可信第三方分别使用RSA加密算法产生256字节的密钥对,并将公钥传输至可信的第三方,私钥保留在数据集。将可信第三方存储的各基模型使用公钥加密并传输至数据集,数据集使用私钥解密再进行训练,对基模型进行优化,将数据集优化后的基模型作为本地模型。
步骤S6.模型集成
引用联邦集成的算法来实现属性标签的预测任务。使用步骤S3所述的BPDM模型中的两种实现方法dm_bpnn和dbow_bpnn算法以及步骤S4所述的TF-IDF和标记词嵌入组合来作为基模型。借助联邦集成算法,让可信第三方使用私钥解密,并使用Stacking集成算法、Boosting集成算法、XGBoost集成算法分别对步骤S5所述的本地模型进行集成,根据集成结果选择最优的集成方式,利用选择的集成模式对本地模型进行多次迭代,直到更新的基模型的准确度满足要求。最后实现对用户属性标签的预测。
本发明的有益效果:
本发明通过将几个基模型进行融合集成,再利用联邦集成学习算法来实现对属性标签的预测。具体效果如下:
1.引用了一种联邦集成算法来实现属性标签的预测任务。在模型整合阶段,数据集使用公钥对本地模型加密后传输至可信第三方,可信第三方使用私钥解密后,使用不同的集成算法来整合本地模型参数,进而得到更新的基模型,保证了模型在整合阶段内的安全性以及预测的准确率。
2.引用BPDM模型和TF-IDF标记词嵌入组合作为基模型,使用联邦集成算法进行集成,使用不同的基模型组合,从多角度来提取用户属性标签之前相关联的信息,来提升模型的综合泛化能力和预测准确率。
附图说明
图1所示为本发明方法流程框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明提供一种基于多模型联邦集成的用户画像方法的实施例,如图1所示,具体包括:
获取数据集
这里采用搜狗用户检索记录数据,获取近期查询记录以及用户的属性标签,如性别、年龄及教育程度等。
预处理:
包括:(1)分词处理
对于一些短文本,由于汉语句子中的单词之间没有空格,因此在进行分类之前,有必要将句子划分为单词,需要经过分词系统得到用户关键字。
(2)停用词处理
根据之前的研究发现,查询词大多是短文本,并且“空格”、“标点符号”和“英文词汇”等许多停用词有助于区分用户的基本属性,能够影响到用户基本属性的分类。因此,在进行分词处理和进行TF-IDF特征计算时,没有对停用词进行处理,同时也保留了空格、标点等这些信息。
构建dm_bpnn模型和dbow_bpnn模型
本实施例分别使用三种基模型对用户属性进行预测。
第一个基模型:
引用dm_bpnn模型,在训练窗口内,采用随机梯度下降方法来对词向量和查询词文档向量进行训练,并通过反向传播得到梯度对分布式记忆模型进行更新,词向量模型的目标函数是使得平局对数概率最大化,目标函数公式为:
Figure BDA0003909670090000101
其中,{w1,w2,...,wT}是一个输入模型训练的查询词文档向量,T为文档向量总数,wt为某个词向量。
在预测阶段,只需要使用已经训练好的分布式记忆模型对新的查询词文档进行向量计算,然后再通过矩阵Q中的文档向量和矩阵W中的词向量进行平均池化或拼接来实现对上下文中的下一个单词的预测任务,通过多分类器softmax来完成:
Figure BDA0003909670090000111
其中
Figure BDA0003909670090000112
指的是单词的未归一化的对数概率;
y=b+Uh(wt-k,...,wt+k;W)
其中b和U为softmax的两个参数;h函数为W中单词向量的平均或者拼接。采用hierarchical softmax来逼近softmax函数,最终取得softmax权重矩阵。然后固定W和softmax权重矩阵,使用梯度下降来训练测试集查询文档向量,选择BP神经网络算法作为分类器来对用户画像的标签进行预测。
第二个基模型:
引用dbow_bpnn模型,具体做法是:第一步,将查询词进行bigram(二元分词)处理;第二步,将bigram特征拼接起来,作为训练模型的输出层的标签进行训练,每当训练窗口经过一个bigram特征时,可以利用反向传播算法得到梯度对查询词文档向量和输出层的权重矩阵进行更新,经过t轮迭代后,训练好的查询词文档向量Q也就是需要获取的查询文档的向量表示;最后,使用BP神经网络算法作为分类器来对用户画像的标签进行预测。
第三个基模型:
使用文本TF-IDF值和标记词嵌入相结合的方法来用向量表示用户。从数据集中获取用户信息,并根据这些信息构建标记词汇表,每个用户都可以表示为一个标记序列。然后计算标签词频率TF。将每个用户视为一段文本,通过标签序列计算每个用户中每个标签的TF-IDF值作为每个单词的权重,然后通过信息语料库训练单词嵌入。最后,每个用户可以表示为标记词嵌入和标记TF-IDF值的乘积,然后求和。用户的最终表示向量如下:
Figure BDA0003909670090000113
其中,Vi表示第i个用户的向量表示,embj表示第j个标记词嵌入,tfidfij表示第i个用户第j个标记的TF-IDF值。
然后使用K-means算法对用户进行聚类,用类别标记每个用户。最后,使用TF-IDF和标记词嵌入的组合,以用户聚类结果作为分类标签,使用BP神经网络算法作为分类器来对用户画像的标签进行预测。
优化基模型
将上述三个基模型使用RSA加密算法加密后传输至数据集,然后各个基模型在数据集提供的数据上进行训练,对基模型进行优化,将数据集优化后的基模型作为本地模型。
模型集成
引用一种联邦集成算法来实现属性标签的预测任务。使用BPDM模型中的两种实现方法dm_bpnn和dbow_bpnn算法以及TF-IDF和标记词嵌入组合来作为基模型。借助联邦集成算法,让可信第三方使用私钥解密,并使用Stacking集成算法、Boosting集成算法、XGBoost集成算法分别对本地模型进行集成,根据集成结果选择最优的集成方式,利用选择的集成模式对本地模型进行多次迭代,直到更新的基模型的准确度满足要求。最后实现对用户属性标签的预测。
应该留意的是,上文提到的实施例是举例说明本发明,而不是限制本发明,并且本领域的技术人员将能够设计许多可替换的实施例,而不会偏离所附权利要求的范围。在权利要求中,任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明可以通过包括几个明显不同的元件的硬件,以及通过适当编程的计算机而实现。在列举几种装置的设备权利要求中,这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。
如果期望的话,这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外,如果期望的话,以上所描述的一个或多个功能可以是可选的或者可以进行组合。
如果期望的话,上文所讨论的各步骤并不限于各实施例中的执行顺序,不同步骤可以以不同顺序执行和/或彼此同时执行。此外,在其他实施例中,以上所描述的一个或多个步骤可以是可选的或者可以进行组合。
虽然本发明的各个方面在独立权利要求中给出,但是本发明的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合,而并非仅是权利要求中所明确给出的组合。
这里所要注意的是,虽然以上描述了本发明的示例实施方式,但是这些描述并不应当以限制的含义进行理解。相反,可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本发明的范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (5)

1.一种基于多模型联邦集成的用户画像方法,其特征在于:该方法具体包括:
步骤S1.获取数据集:获取原始数据得到用户行为信息;
步骤S2.预处理,包括分词及停用词处理;
步骤S3.构建dm_bpnn模型和dbow_bpnn模型
所述的dm_bpnn模型作为一个基模型,具体的构建过程如下:
对PV-DM模型进行改进,在查询词文档向量的训练过程中,每个查询词都会被映射到一个唯一的向量w,w为单词矩阵W中的一行;查询词组合后的文档也被映射到一个唯一的向量q,q为查询词文档矩阵Q中的一行;取消窗口滑动,限制窗口每次只能训练一个查询词,每次从查询词文档中随机抽取一个查询词训练,这种引用的方法叫做分布式记忆模型;在训练窗口内,采用随机梯度下降方法来对查询词向量和查询词文档向量进行训练,并通过反向传播得到梯度对分布式记忆模型进行更新,查询词向量模型的目标函数是使得平局对数概率最大化,目标函数公式为:
Figure FDA0003909670080000011
其中,{w1,w1,…,wT}是一个输入模型训练的查询词文档向量,T为文档向量总数,wt为某个词向量;
在预测阶段,只需要使用已经训练好的分布式记忆模型对新的查询词文档进行向量计算,然后再通过矩阵Q中的文档向量q和矩阵W中的词向量w进行平均池化或拼接来实现对上下文中的下一个单词的预测任务,通过多分类器softmax来完成:
Figure FDA0003909670080000012
其中
Figure FDA0003909670080000013
指的是单词的未归一化的对数概率;
y=b+Uh(wt-k,…,wt+k;W)
其中b和U为softmax的两个参数;h函数为矩阵W中单词向量w的平均或者拼接;采用hierarchical softmax来逼近softmax函数,最终取得softmax权重矩阵;然后固定矩阵W和softmax权重矩阵,使用梯度下降来训练测试集查询文档向量,选择BP神经网络算法作为分类器来对用户画像的标签进行预测;
所述的dbow_bpnn模型作为第二个基模型,构建过程如下:;
对PV-DBOW训练方法进行改进,具体做法是:第一步,将查询词进行bigram处理;第二步,将bigram特征拼接起来,作为训练模型的输出层的标签进行训练,每当训练窗口经过一个bigram特征时,可以利用反向传播算法得到梯度对查询词文档向量和输出层的权重矩阵进行更新,经过t轮迭代后,训练好的查询词文档向量Q也就是需要获取的查询文档的向量表示;第三步,使用BP神经网络算法作为分类器来对用户画像的标签进行预测;
步骤S4.TF-IDF和标记词嵌入组合
使用文本TF-IDF值和标记词嵌入相结合的方法来用向量表示用户,作为第三个基模型;
步骤S5.优化基模型
将各基模使用RSA加密算法加密后传输至数据集,然后各基模型在数据集提供的数据上进行训练,保证在建立模型过程中数据的安全性;将数据集优化后的基模型作为本地模型;
步骤S6.模型集成
引用联邦集成的算法来实现属性标签的预测任务。
2.根据权利要求1所述的基于多模型联邦集成的用户画像方法,其特征在于:所述的停用词处理,具体为在进行分词处理和进行TF-IDF特征计算时,没有对停用词进行处理,同时保留了空格、标点这些信息。
3.根据权利要求1所述的基于多模型联邦集成的用户画像方法,其特征在于:所述步骤4的具体过程如下:
从步骤1获取的数据集中获取用户信息,并根据这些用户信息构建标记词汇表,每个用户都可以表示为一个标记序列;然后计算标记词频率TF;将每个用户视为一段文本,通过标记序列计算每个用户中每个标记的TF-IDF值作为每个标记词的权重,然后通过信息语料库训练标记词嵌入;最后,每个用户可以表示为标记词嵌入和标记TF-IDF值的乘积,然后求和;用户的最终表示向量如下:
Figure FDA0003909670080000031
其中,Vi表示第i个用户的向量表示,embj表示第j个标记词嵌入,tfidfij表示第i个用户第j个标记的TF-IDF值;
然后使用K-means算法对用户进行聚类,用类别标记每个用户;最后,使用TF-IDF和标记词嵌入的组合即用户的最终表示向量,以用户聚类结果作为分类标签,使用BP神经网络算法作为分类器来对用户画像的标签进行预测。
4.根据权利要求1所述的基于多模型联邦集成的用户画像方法,其特征在于:所述步骤5的具体过程如下:
数据集与可信第三方分别使用RSA加密算法产生256字节的密钥对,并将公钥传输至可信的第三方,私钥保留在数据集;将可信第三方存储的各基模型使用公钥加密并传输至数据集,数据集使用私钥解密再进行训练,对基模型进行优化,将数据集优化后的基模型作为本地模型。
5.根据权利要求1所述的基于多模型联邦集成的用户画像方法,其特征在于:所述步骤6的具体过程如下:
使用步骤S3、步骤S4所获的的基模型;借助联邦集成算法,让可信第三方使用私钥解密,并使用Stacking集成算法、Boosting集成算法、XGBoost集成算法分别对步骤S5所述的本地模型进行集成,根据集成结果选择最优的集成方式,利用选择的集成模式对本地模型进行多次迭代,直到更新的基模型的准确度满足要求;最后实现对用户属性标签的预测。
CN202211328527.8A 2022-10-26 2022-10-26 基于多模型联邦集成的用户画像方法 Pending CN115952280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211328527.8A CN115952280A (zh) 2022-10-26 2022-10-26 基于多模型联邦集成的用户画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211328527.8A CN115952280A (zh) 2022-10-26 2022-10-26 基于多模型联邦集成的用户画像方法

Publications (1)

Publication Number Publication Date
CN115952280A true CN115952280A (zh) 2023-04-11

Family

ID=87286547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211328527.8A Pending CN115952280A (zh) 2022-10-26 2022-10-26 基于多模型联邦集成的用户画像方法

Country Status (1)

Country Link
CN (1) CN115952280A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485281A (zh) * 2023-06-16 2023-07-25 国网信息通信产业集团有限公司 基于纵向联邦学习和知识图谱的员工画像方法及系统
CN117273176A (zh) * 2023-08-30 2023-12-22 北京可利邦信息技术股份有限公司 基于stacking集成学习算法的联邦学习建模方法
CN117333310A (zh) * 2023-09-27 2024-01-02 中国人寿保险股份有限公司山东省分公司 基于联邦学习的保险行业潜在客户挖掘方法、装置及设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485281A (zh) * 2023-06-16 2023-07-25 国网信息通信产业集团有限公司 基于纵向联邦学习和知识图谱的员工画像方法及系统
CN117273176A (zh) * 2023-08-30 2023-12-22 北京可利邦信息技术股份有限公司 基于stacking集成学习算法的联邦学习建模方法
CN117333310A (zh) * 2023-09-27 2024-01-02 中国人寿保险股份有限公司山东省分公司 基于联邦学习的保险行业潜在客户挖掘方法、装置及设备
CN117333310B (zh) * 2023-09-27 2024-05-17 中国人寿保险股份有限公司山东省分公司 基于联邦学习的保险行业潜在客户挖掘方法、装置及设备

Similar Documents

Publication Publication Date Title
Yang et al. A hybrid retrieval-generation neural conversation model
Gui et al. Embedding learning with events in heterogeneous information networks
CN115952280A (zh) 基于多模型联邦集成的用户画像方法
Tan et al. Context-aware answer sentence selection with hierarchical gated recurrent neural networks
Başaran et al. A neural network approach for predicting personality from Facebook data
Venkatesh et al. Smart learning using personalised recommendations in web-based learning systems using artificial bee colony algorithm to improve learning performance
Li et al. Graph contrastive learning with feature augmentation for rumor detection
Sakketou et al. Factoid: A new dataset for identifying misinformation spreaders and political bias
Shi et al. A word embedding topic model for topic detection and summary in social networks
Liu et al. Identifying experts in community question answering website based on graph convolutional neural network
Pandiaraj et al. Sentiment analysis on newspaper article reviews: contribution towards improved rider optimization-based hybrid classifier
Krishnamoorthy et al. A novel and secured email classification and emotion detection using hybrid deep neural network
Ma et al. A microblog recommendation algorithm based on multi-tag correlation
Jin et al. Promotion of answer value measurement with domain effects in community question answering systems
Khatun et al. Machine Learning based Advanced Crime Prediction and Analysis
Gürbüz et al. Research article classification with text mining method
Huang et al. A multimodal text matching model for obfuscated language identification in adversarial communication?
CN116150663A (zh) 数据分级方法、装置、计算机设备和存储介质
Jiang et al. Evaluation of physical education teaching effect using Random Forest model under artificial intelligence
D’Silva et al. Automatic text summarization of Konkani Folk tales using supervised machine learning algorithms and language independent features
Pradhan et al. Machine learning architecture and framework
Morsy et al. Learning course sequencing for course recommendation
CN111444338A (zh) 文本处理、装置、存储介质及设备
Shamanta et al. Concurrent inference of topic models and distributed vector representations
Huang et al. HmcNet: A General Approach for Hierarchical Multi-Label Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination