CN112016003B - 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 - Google Patents

基于cnn的社交小众用户标签挖掘及相似用户推荐方法 Download PDF

Info

Publication number
CN112016003B
CN112016003B CN202010835019.3A CN202010835019A CN112016003B CN 112016003 B CN112016003 B CN 112016003B CN 202010835019 A CN202010835019 A CN 202010835019A CN 112016003 B CN112016003 B CN 112016003B
Authority
CN
China
Prior art keywords
user
users
representing
vector
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010835019.3A
Other languages
English (en)
Other versions
CN112016003A (zh
Inventor
陈贤
罗朗
王豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010835019.3A priority Critical patent/CN112016003B/zh
Publication of CN112016003A publication Critical patent/CN112016003A/zh
Application granted granted Critical
Publication of CN112016003B publication Critical patent/CN112016003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及社交网络技术处理领域,具体涉及一种基于CNN的社交小众用户标签挖掘及相似用户推荐的方法,包括:获取用户在社交软件上发布的原始内容数据,预处理;通过word2vec模型获得词向量特征;将预处理后的内容数据输入到词嵌入层,每个词取其在word2vec中的位置,寻找对应每个词的词向量;获取用户的个人属性特征向量info,并将词向量特征与个人属性特征向量info相结合构成输入矩阵;将输入矩阵输入CNN模型,获得用户的话题标签;通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组;对用户进行话题标签推荐和群组推荐。本发明解决了社交网络上信息较少的用户的话题推荐和相关群组推荐问题。

Description

基于CNN的社交小众用户标签挖掘及相似用户推荐方法
技术领域
本发明涉及社交网络技术处理领域,具体涉及一种基于CNN的社交小众用户标签挖掘及相似用户推荐方法。
背景技术
随着社会的发展,社交软件已经成为人们交流、拓展人际关系、分享生活的热门平台之一。一些会使用社交软件的人知道如何向他人展示自己以及自己感兴趣的话题,他人可以通过系统或平台找到他们,系统也可以基于用户的个人信息以及历史数据推荐给用户可能喜欢的内容以及与该用户有相似兴趣的其他用户。但是大多数用户并没有在社交网络上展现他们的兴趣,这些用户只有少量的关注和粉丝,他们不知道自己感兴趣的话题是什么,也不经常在社交软件上发布动态,本发明称这些用户为普通小众用户。这样的用户在社交网络中占据了很大一部分,然而普通小众用户并没有受到足够的重视,而这些用户对于社交网络和推荐系统来说是非常重要的,为这些普通小众用户推荐他们感兴趣的话题和群组是很有必要的。因此需要提取能够代表这些普通小众用户的标签,从而帮助系统为小众用户推荐话题及相似用户。
标签在社交软件和网络社区中应用的很多,因为标签简而易懂。在以往的研究中,Guy和Chen提到了标签的重要性。Lee等人认为标签是社交媒体中用户与用户之间沟通的桥梁。目前,标签已经广泛应用于信息检索、推荐算法、社交网络等多个研究领域。然而在海量用户使用的标签中,很多用户自定义的标签对于其他人或者社交系统来说意义并不大。因此对于系统有用的标签占比很少,无用的标签则产生大量的噪音数据。此外,个性化属性即用户的个人属性对于用户发布内容的标签也具有一定的作用,例如:位于经济发达的沿海地区的用户发布金融方面的动态比内地用户相对较多;年轻的用户发布娱乐方面的动态比年纪大的用户相对较多;教育程度高的用户发布社会方面的动态比教育程度相对不足的用户要多。因此在提取用户代表性标签的同时,也需考虑用户的个性化属性。然而,小众用户使用的标签比活跃用户使用的少,提供的个人信息也比较少,这对提取普通小众用户的代表性标签带来了很大的困难。由于普通小众用户提供的信息比较少,很难从中发现普通用户感兴趣的群组。
发明内容
为了解决上述问题,本发明提供一种基于CNN的社交小众用户标签挖掘及相似用户推荐的方法,该方法利用卷积神经网络(CNN)自动提取高维向量特征,在CNN模型的基础上增加用户的个性化属性,提出了一种基于个性化CNN 模型的社交网络普通小众用户的标签及相似群组的推荐方法,在普通小众用户在社交软件上发布的内容中融入用户的个性化元素,并从中提取推荐能够代表用户特征的代表性标签(话题标签),进而利用聚类算法为普通用户构建社交网络图,再通过提取的代表性标签发现普通小众用户感兴趣的话题和群组推荐给用户。
一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,包括以下步骤:
获取用户在社交软件上发布的原始内容数据,对原始内容数据进行预处理,得到预处理后的内容数据;
将上述预处理后的内容数据输入到word2vec模型中,得到每一个句子中每个词的词向量表示,一个句子中每个词的词向量表示为:
Figure GDA0003661595000000021
其中,wordi表示第i个词,
Figure GDA0003661595000000022
表示第i个词的向量表示,n表示一个句子共有n个词;
取每个词在word2vec模型中对应的词向量进行拼接,获得一个句子的词向量特征矩阵;词向量特征表示为一个矩阵,其中每个词的词向量特征维度由用户的个人属性特征向量维度决定,词向量特征矩阵表示如下:
Figure GDA0003661595000000031
其中,Sw表示词向量特征矩阵,en表示第n个词的向量表示,n表示Sw一共划分出n个词;
获取用户的个人属性特征向量info,将词向量特征与用户的个人属性特征向量info相拼接,构成输入矩阵;
将输入矩阵输入CNN模型,在CNN模型中通过卷积、池化、全连接层的计算,最终输出用户的代表性标签,即用户的话题标签;
根据CNN模型输出的用户的代表性标签,通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组,对用户进行话题标签推荐和群组推荐。
进一步的,所述预处理包括:对于原始内容数据中的每个句子,首先进行分词处理,提取分词,然后从提取的分词中删去停止词以及无意义的词组,保留有意义的词组,得到预处理后的内容数据,预处理后的内容数据表示为: Sw=[w1,w2,...,wn],其中,Sw表示原始内容数据中的任意一条内容数据,wn表示划分后的第n个词组,n表示一条内容数据共划分n个词。
进一步的,用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量,用户年龄向量 age、用户的教育程度向量education以及用户的所在地向量place分别表示如下:
age=(a1,a2,...,ax),x∈用户的年龄取值总数
education=(edu1,edu2,...,eduy),y∈用户的教育程度取值总数
place=(p1,p2,...,pz),z∈用户的所在地取值总数
其中,ax表示第x个年龄表示,x表示一共有x种年龄的取值,eduy表示第 y种教育程度表示,y表示一共有y种教育程度的取值,pz表示第z种用户所在地,z表示一共有z种用户所在地。
进一步的,所述输入矩阵为:
Figure GDA0003661595000000032
其中,Sw表示词向量特征矩阵,info表示用户的个人属性特征向量。
进一步的,通过聚类算法构建社交网络图具体包括:首先根据用户的代表性标签计算两两用户之间的相似度;再根据两两用户的相似度值,采用聚类算法对相似度高的用户进行聚类,得到用户感兴趣的话题和群组。
进一步的,采用余弦相似度来计算两两用户之间的相似度包括:
Figure GDA0003661595000000041
其中,sim_tw(i,j)指用户i与用户j之间的相似度,
Figure GDA0003661595000000042
表示用户i 与用户j具有相同N个标签值的乘积总和,
Figure GDA0003661595000000043
表示用户 i具有的X个标签值和用户j具有的Y个标签值的所有标签值的乘积。
进一步的,所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax 层;数据在CNN模型中处理的具体过程包括:
S31、首先通过卷积层提取主要的特征,从每个尺寸的所有卷积核中选取最大值作为主要特征:
Figure GDA0003661595000000044
其中,
Figure GDA0003661595000000045
表示从尺寸为j的n个卷积核中提取的主要特征,
Figure GDA0003661595000000046
表示尺寸为 j的第2个卷积核提取的特征,n表示一共有n个卷积核;
S32、将从不同尺寸卷积核中提取的主要特征组合为一个新特征向量V:
Figure GDA0003661595000000047
其中,
Figure GDA0003661595000000048
表示从尺寸为m的卷积核中提取的主要特征;
S33、利用最大池化层降低新特征向量V的维度;
Vpooing=maxpooling(V)
其中,Vpooing表示经过最大池化层后的新特征向量,maxpooling(V)表示对新特征向量V进行最大池化处理;
S34、通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数;再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1,如下所示:
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数;
S35、最后将V1通过SoftMax层,最终输出一个最具有代表性的标签O,输出表示如下:
O=f2(V1*W2+b2);
其中,O表示CNN模型输出的用户的代表性标签,W2表示经过两个全连接层后的特征V1的权重,b2表示偏差函数,f2表示SoftMax函数。
本发明的有益效果:
本发明在原有CNN模型的基础上嵌入了用户的个性化属性info,因此使得提取的用户语义有效特征融入了每一个用户的个性化元素,从而使得模型为每一个用户预测的代表性标签也具有用户的个性化特征。为社交网络的小众用户提取到能够代表其感兴趣的个性化标签,且通过此标签挖掘到小众用户的相似用户提供了解决思路。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的总体方法流程图;
图2为本发明实施例的改进的个性化CNN模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的总体方法流程图。一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,图2是本发明改进的个性化CNN模型示意图,在原始CNN模型的基础上,添加了用户个性化属性特征,包括但不限于以下步骤:
获取用户在社交软件上发布的原始内容数据,对原始内容数据进行预处理,得到预处理后的内容数据;
所述预处理包括:对于原始内容数据中的每个句子,首先进行分词处理,提取分词,然后从提取的分词中去除停止词及无意义的词,无意义的词主要包括代词,连词,叹词等,保留有意义的词,有意义的词主要包括:名词,形容词等,最终得到预处理后的内容数据。输入一个句子Sw,经过数据预处理后,划分句子Sw,去除停止词,剩下n个词组,预处理后的内容数据表示为: Sw=[w1,w2,...,wn],其中, Sw表示原始内容数据中的任意一条内容数据,即原始内容数据中的任意一个句子,wn表示经过划分后的第n个词组,n表示一条内容数据经过划分后共有n个词组。
所述预处理还包括:将用户发布每条内容的长度归于一个固定值,如果一个句子的长度小于固定值,用0向量进行扩充,如果一个句子的长度大于固定值,只保留固定值长度,删除多余的部分。
利用word2vec模型代替CNN原始的embedding模型,将上述预处理后的内容数据输入到word2vec模型中,获得这n个词组的词向量特征,所述词向量特征可以表示为一个矩阵,且每个词的向量维度由用户的个人属性维度决定,词向量特征的矩阵形式如下所示:
Figure GDA0003661595000000061
其中Sw表示输入的某一个句子数据,en表示Sw划分的第n个词的向量表示,
将用户发布每条内容的长度归于一个固定值,如果一个句子的长度小于固定值,用0向量进行扩充,如果一个句子的长度大于固定值,只保留固定值长度,删除多余的部分。
其中,en是从构建的word2vec模型中取得的。
Figure GDA0003661595000000071
其中,wordi表示第i个词,
Figure GDA0003661595000000072
表示第i个词的向量表示,n表示在 word2vec中一共有n个词。
获取用户的个人属性特征向量info,用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量,表示如下:
info=[place,age,education]
info=[a1,a2,...,ax,edu1,edu2,...,eduy,p1,p2,...,pz]
其中,用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下:
age=(a1,a2,...,ax),x∈用户的年龄取值总数
education=(edu1,edu2,...,eduy),y∈用户的教育程度取值总数
place=(p1,p2,...,pz),z∈用户的所在地取值总数
其中,ax表示第x个年龄表示,x表示共有x种年龄的取值,eduy表示第y 种教育程度表示,y表示共有y种教育程度的取值,pz表示第z种用户所在地, z表示共有z种用户所在地。
对于任一用户,若该用户的个人属性特征与上述对应向量中的某一值相等,则将用户的个人属性特征向量中对应位置的值置1,否则置0。
将词向量特征与用户的个人属性特征向量info相拼接,具体为将用户的个人属性特征向量info拼接在词向量特征之后,构成输入矩阵,所述输入矩阵为:
Figure GDA0003661595000000073
其中,Sw表示某一句子向量的词向量特征,info表示用户的个人属性特征向量。
将上述输入矩阵输入CNN模型,由于word2vec考虑了内容数据中句子数据中的上下文关系,也能通过后续的卷积和池化过程能从中获取更多隐藏的数据特征;在词向量特征Sw下拼接个人属性info,用户的个人属性info对于用户发布内容的标签挖掘也具有一定的作用,在CNN模型中通过卷积、池化、全连接层一系列计算,最终输出用户的代表性标签,即用户的话题标签。而由于改进的CNN模型考虑了用户的个性化属性,提取的数据特征也受个性化属性的影响,因此在原始的CNN模型加入了用户的个人属性元素,从而使得提取的用户的话题标签也具有个性化属性元素。
进一步的,所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax 层。
数据在CNN模型中处理的具体过程包括:
1.首先通过卷积层提取主要的特征,从每个尺寸的所有卷积核中选取最大值作为主要特征:
Figure GDA0003661595000000081
其中,
Figure GDA0003661595000000082
表示从尺寸为j的n个卷积核中提取的主要特征,
Figure GDA0003661595000000083
表示尺寸为 j的第2个卷积核提取的特征,n表示一共有n个卷积核。
2.将从不同尺寸卷积核中提取的主要特征组合为一个新特征向量V:
Figure GDA0003661595000000084
其中,
Figure GDA0003661595000000085
表示从尺寸为m的卷积核中提取的主要特征。
3.利用最大池化层降低新特征向量V的维度;
Vpooing=maxpooling(V)
其中,Vpooing表示经过最大池化层后的新特征向量,maxpooling(V)表示对新特征向量V进行最大池化处理。
4.通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数,再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数。
5.最后将V1通过SoftMax层,最终SoftMax层输出一个最具有代表性的标签O,输出表示如下;
O=f2(V1*W 2+b2)
其中,O表示CNN模型输出的用户的代表性标签,W2表示经过两个全连接层后的特征V1的权重,b2表示偏差函数,f2表示SoftMax函数。
根据CNN模型输出的用户的代表性标签,通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组。
在一个实施例中,所述聚类算法可以采用K-means聚类算法、KNN聚类算法……等现有技术中任一可以实现的方法。
在一个优选实施例中,通过聚类算法构建社交网络图包括以下步骤:
首先根据用户的代表性标签计算两两用户之间的相似度;
在一个优选实施例中,采用余弦相似度来计算两两用户之间的相似度,计算公式如下:
Figure GDA0003661595000000091
其中,sim_tw(i,j)指用户i与用户j之间的相似度,
Figure GDA0003661595000000092
表示用户i 与用户j具有N个相同标签值的乘积总和,
Figure GDA0003661595000000093
表示用户 i具有的X个标签值和用户j具有的Y个标签值的乘积。
在一个可选的实施例中,两两用户之间的相似度的计算方式还可以采用其他任一可实现方式,本说明书对此不做限制。
再根据两两用户的相似度值,采用聚类算法对相似度高的用户进行聚类,得到用户感兴趣的话题和群组。
对用户进行话题标签推荐和群组推荐。
为了使发说明书更加清楚、完整,接下来以某个关注人数少于200的普通小众用户和该用户的微博数据内容作为原始数据为例,来进一步阐述本发明的具体实施步骤。
本实施例随机选择了91,000条微博作为本发明提出的改进的个性化CNN模型的输入数据,以此来提取微博中具有代表性的标签。具体实施步骤如下:
获得91,000条微博的数据内容,对微博数据进行预处理,一条微博Sw被划分了45个词组,去除当中的停止词,只留下有37个有意义的词组,得到预处理后的内容数据,表示如下:
Sw=[熊猫守护者,森林驿站,保护地,北京,四川省,地图,太棒了,..野生,龙溪]将预处理后的内容数据输入到word2vec模型,利用word2vec模型获得这些词组的词向量特征,将词向量特征表示为一个矩阵,将每一个词组的词向量设置为118维,为了后面构成内容×用户个人属性矩阵。
Figure GDA0003661595000000101
将固定值设置为99维,但是该微博预处理后只有37个词,用118维的0向量进行扩充。
Figure GDA0003661595000000102
其中,e1是从构建的word2vec模型中取得的,每一个词语对应向量长度为99 维。
把所有的句子划分的词组中的词进行去重处理后,对每一个词进行对应的向量表示如下:
word2vec={建筑设计:[0.15,-0.03,...,0.13],九月再见:[-0.42,0.41,...,0.54],...,
探索异世界:[-0.16,0.17,...,-0.19]}
获取用户的个人属性特征向量info,如下所示:
place=(p1,p2,...,p37)
age=(a1,a2,...,a78)
education=(中学,大学,其他)
上述为某一用户的部分个人属性,在每一属性中,如果用户的该属性值与其对应的值相等,则置1,否则置0。最后将三部分拼接在一起,构成一个118 维的用户个人属性向量info,如下所示:
info=[a1,a2,...,ax,edu1,edu2,...,eduy,p1,p2,...,pz
info=[0,0,1,...,0,0,0,0,1,...,0,0,1,...,0]
将内容矩阵W和用户个人属性向量info相结合,构成100维的输入矩阵,即内容×用户个人属性矩阵,如下所示:
Figure GDA0003661595000000111
将上述输入矩阵输入CNN模型,由于利用word2vec模型,考虑了句子数据中的上下文关系,也能通过后续的卷积和池化过程获取更多原始内容数据中隐藏的数据特征;在Sw下拼接用户的个人属性,对于用户发布内容的标签也具有一定的作用,在CNN模型中通过卷积、池化、全连接层一系列计算,最终输出用户的代表性标签,即用户的话题标签。
数据在CNN模型中处理的具体过程包括:通过卷积层提取主要的特征,利用每个卷积核的最大值作为主要特征,一共有256个卷积核。
Figure GDA0003661595000000121
将从三个卷积核(每个卷积核的尺寸为5,6,7)从中提取的特征组合为一个新的特征向量:
Figure GDA0003661595000000122
通过最大池化层降低特征的维度。
Vpooing=maxpooling(V)
通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数;再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1,如下所示:
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数。
最后将V1通过SoftMax层输出最具有代表性的标签。
O=f2(V1*W2+b2)
其中,O表示CNN模型输出的用户的代表性标签,W2表示权重,b2表示偏差函数,f2表示SoftMax函数。
然后通过计算出的表示用户最具有特征的标签,利用聚类算法来探寻该用户感兴趣的群组。具体步骤如下:
1.根据该模型提取出的每个用户代表性标签来计算两两用户之间的相似度。假设通过计算用户i有5个能代表i的标签(摄影,科技,娱乐,美食,游戏),用户j有4个能代表j的标签(社会,体育,科技,摄影),用户i与用户j之间有 2个相同的标签(科技,摄影),则用户i与用户j之间的相似度为:
Figure GDA0003661595000000131
Figure GDA0003661595000000132
2.利用用户i与用户j之间的两两相似度值,采用合适的聚类算法如K-means, KNN等进行聚类从而得出用户相似或感兴趣的群组。
最后对用户进行话题标签推荐和群组推荐。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,包括以下步骤:
获取用户在社交软件上发布的原始内容数据,对原始内容数据进行预处理,得到预处理后的内容数据;
将预处理后的内容数据输入到word2vec模型中,得到每一个句子中每个词的词向量表示,一个句子中每个词的词向量表示为:
Figure FDA0003661594990000011
其中,wordi表示第i个词,
Figure FDA0003661594990000012
表示第i个词的向量表示,n表示一个句子共有n个词;
取每个词在word2vec模型中对应的词向量进行拼接,获得一个句子的词向量特征矩阵,词向量特征矩阵表示如下:
Figure FDA0003661594990000013
其中,Sw表示词向量特征矩阵,en表示第n个词的向量表示,n表示Sw一共划分出n个词;
获取用户的个人属性特征向量info,将词向量特征与用户的个人属性特征向量info相拼接,构成输入矩阵;
将输入矩阵输入CNN模型,在CNN模型中通过卷积、池化、全连接层的计算,最终输出用户的代表性标签,即用户的话题标签;
根据CNN模型输出的用户的代表性标签,通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组,对用户进行话题标签推荐和群组推荐。
2.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述预处理包括:对于原始内容数据中的每个句子,首先进行分词处理,提取分词,然后从提取的分词中删去停止词以及无意义的词组,保留有意义的词组,得到预处理后的内容数据,预处理后的内容数据表示为:Sw=[w1,w2,...,wn],其中,Sw表示原始内容数据中的任意一条内容数据,wn表示划分后的第n个词组,n表示一条内容数据共划分n个词。
3.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量,用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下:
age=(a1,a2,...,ax),x∈用户的年龄取值总数
education=(edu1,edu2,...,eduy),y∈用户的教育程度取值总数
place=(p1,p2,...,pz),z∈用户的所在地取值总数
其中,ax表示第x个年龄表示,x表示一共有x种年龄的取值,eduy表示第y种教育程度表示,y表示一共有y种教育程度的取值,pz表示第z种用户所在地,z表示一共有z种用户所在地。
4.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述输入矩阵为:
Figure FDA0003661594990000021
其中,Sw表示词向量特征矩阵,info表示用户的个人属性特征向量。
5.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,通过聚类算法构建社交网络图具体包括:
首先根据用户的代表性标签计算两两用户之间的相似度;
再根据两两用户的相似度值,采用聚类算法对相似度高的用户进行聚类,得到用户感兴趣的话题和群组。
6.根据权利要求5所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,采用余弦相似度来计算两两用户之间的相似度包括:
Figure FDA0003661594990000031
其中,sim_tw(i,j)指用户i与用户j之间的相似度,
Figure FDA0003661594990000032
表示用户i与用户j具有相同N个标签值的乘积总和,
Figure FDA0003661594990000033
表示用户i具有的X个标签值和用户j具有的Y个标签值的所有标签值的乘积。
7.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax层;数据在CNN模型中处理的具体过程包括:
S31、首先通过卷积层提取主要的特征,从每个尺寸的所有卷积核中选取最大值作为主要特征:
Figure FDA0003661594990000034
其中,
Figure FDA0003661594990000035
表示从尺寸为j的n个卷积核中提取的主要特征,
Figure FDA0003661594990000036
表示尺寸为j的第2个卷积核提取的特征,n表示一共有n个卷积核;
S32、将从不同尺寸卷积核中提取的主要特征组合为一个新特征向量V:
Figure FDA0003661594990000037
其中,
Figure FDA0003661594990000038
表示从尺寸为m的卷积核中提取的主要特征;
S33、利用最大池化层降低新特征向量V的维度;
Vpooing=maxpooling(V)
其中,Vpooing表示经过最大池化层后的新特征向量,maxpooling(V)表示对新特征向量V进行最大池化处理;
S34、通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数;再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1,如下所示:
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数;
S35、最后将V1通过SoftMax层,最终输出一个最具有代表性的标签O,输出表示如下:
O=f2(V1*W2+b2);
其中,O表示CNN模型输出的用户的代表性标签,W2表示经过两个全连接层后的特征V1的权重,b2表示偏差函数,f2表示SoftMax函数。
CN202010835019.3A 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 Active CN112016003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010835019.3A CN112016003B (zh) 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010835019.3A CN112016003B (zh) 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法

Publications (2)

Publication Number Publication Date
CN112016003A CN112016003A (zh) 2020-12-01
CN112016003B true CN112016003B (zh) 2022-07-12

Family

ID=73505011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010835019.3A Active CN112016003B (zh) 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法

Country Status (1)

Country Link
CN (1) CN112016003B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632279B (zh) * 2020-12-21 2024-06-07 北京搜狗科技发展有限公司 一种确定用户标签的方法及相关装置
CN112685656B (zh) * 2020-12-22 2024-06-21 航天信息股份有限公司 标签推荐方法及电子设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379158B (zh) * 2012-04-24 2016-05-25 中国移动通信集团公司 一种社交网络中推荐好友信息的方法及系统
US20150019588A1 (en) * 2013-07-11 2015-01-15 Drexel University Identifying Implicit Relationships Between Social Media Users To Support Social Commerce
CN104731962B (zh) * 2015-04-03 2018-10-12 重庆邮电大学 一种社交网络中基于相似社团的好友推荐方法及系统
CN107357793B (zh) * 2016-05-10 2020-11-27 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN107577682B (zh) * 2016-07-05 2021-06-29 上海交通大学 基于社交图片的用户兴趣挖掘和用户推荐方法及系统
CN111400609B (zh) * 2018-12-27 2024-02-13 广州市百果园网络科技有限公司 用户推荐方法、装置、存储介质及服务器
CN109903127A (zh) * 2019-02-14 2019-06-18 广州视源电子科技股份有限公司 一种群组推荐方法、装置、存储介质及服务器
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN109960763B (zh) * 2019-03-21 2020-12-22 湖南大学 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN110222272B (zh) * 2019-04-18 2022-10-14 广东工业大学 一种潜在客户挖掘与推荐方法
CN110309360B (zh) * 2019-06-13 2021-09-28 山东大学 短视频标签标注方法及系统
CN110059271B (zh) * 2019-06-19 2020-01-10 达而观信息科技(上海)有限公司 运用标签知识网络的搜索方法及装置
CN110457477A (zh) * 2019-08-09 2019-11-15 东北大学 一种面向社交网络的兴趣社群发现方法
CN110837602B (zh) * 2019-11-05 2022-10-04 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法

Also Published As

Publication number Publication date
CN112016003A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
Li et al. Document representation and feature combination for deceptive spam review detection
Xu et al. Incorporating context-relevant concepts into convolutional neural networks for short text classification
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN111615706A (zh) 基于子流形稀疏卷积神经网络分析空间稀疏数据
Goth Deep or shallow, NLP is breaking out
CN105868773A (zh) 一种基于层次随机森林的多标签分类方法
CN111191466A (zh) 一种基于网络表征和语义表征的同名作者消歧方法
KR102695381B1 (ko) 엔티티-속성 관계 식별
CN112016003B (zh) 基于cnn的社交小众用户标签挖掘及相似用户推荐方法
CN113553510B (zh) 一种文本信息推荐方法、装置及可读介质
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
Salur et al. A soft voting ensemble learning-based approach for multimodal sentiment analysis
CN111353045A (zh) 构建文本分类体系的方法
Jia et al. Attention in character-based BiLSTM-CRF for Chinese named entity recognition
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
Surekha et al. Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures
CN114281934A (zh) 文本识别方法、装置、设备及存储介质
Wang et al. Sentiment processing of social media information from both wireless and wired network
Sabharwal et al. Introduction to word embeddings
Ochoa-Luna et al. Deep neural network approaches for Spanish sentiment analysis of short texts
Sun et al. Attributed graph force learning
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
CN114328894A (zh) 文档处理方法、装置、电子设备及介质
CN113641790A (zh) 一种基于区分表示深度哈希的跨模态检索模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant