CN112016003A - 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 - Google Patents

基于cnn的社交小众用户标签挖掘及相似用户推荐方法 Download PDF

Info

Publication number
CN112016003A
CN112016003A CN202010835019.3A CN202010835019A CN112016003A CN 112016003 A CN112016003 A CN 112016003A CN 202010835019 A CN202010835019 A CN 202010835019A CN 112016003 A CN112016003 A CN 112016003A
Authority
CN
China
Prior art keywords
user
representing
word
users
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010835019.3A
Other languages
English (en)
Other versions
CN112016003B (zh
Inventor
陈贤
罗朗
王豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010835019.3A priority Critical patent/CN112016003B/zh
Publication of CN112016003A publication Critical patent/CN112016003A/zh
Application granted granted Critical
Publication of CN112016003B publication Critical patent/CN112016003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及社交网络技术处理领域,具体涉及一种基于CNN的社交小众用户标签挖掘及相似用户推荐的方法,包括:获取用户在社交软件上发布的原始内容数据,预处理;通过word2vec模型获得词向量特征;将预处理后的内容数据输入到词嵌入层,每个词取其在word2vec中的位置,寻找对应每个词的词向量;获取用户的个人属性特征向量info,并将词向量特征与个人属性特征向量info相结合构成输入矩阵;将输入矩阵输入CNN模型,获得用户的话题标签;通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组;对用户进行话题标签推荐和群组推荐。本发明解决了社交网络上信息较少的用户的话题推荐和相关群组推荐问题。

Description

基于CNN的社交小众用户标签挖掘及相似用户推荐方法
技术领域
本发明涉及社交网络技术处理领域,具体涉及一种基于CNN的社交小众用户标签挖掘及相似用户推荐方法。
背景技术
随着社会的发展,社交软件已经成为人们交流、拓展人际关系、分享生活的热门平台之一。一些会使用社交软件的人知道如何向他人展示自己以及自己感兴趣的话题,他人可以通过系统或平台找到他们,系统也可以基于用户的个人信息以及历史数据推荐给用户可能喜欢的内容以及与该用户有相似兴趣的其他用户。但是大多数用户并没有在社交网络上展现他们的兴趣,这些用户只有少量的关注和粉丝,他们不知道自己感兴趣的话题是什么,也不经常在社交软件上发布动态,本发明称这些用户为普通小众用户。这样的用户在社交网络中占据了很大一部分,然而普通小众用户并没有受到足够的重视,而这些用户对于社交网络和推荐系统来说是非常重要的,为这些普通小众用户推荐他们感兴趣的话题和群组是很有必要的。因此需要提取能够代表这些普通小众用户的标签,从而帮助系统为小众用户推荐话题及相似用户。
标签在社交软件和网络社区中应用的很多,因为标签简而易懂。在以往的研究中,Guy和Chen提到了标签的重要性。Lee等人认为标签是社交媒体中用户与用户之间沟通的桥梁。目前,标签已经广泛应用于信息检索、推荐算法、社交网络等多个研究领域。然而在海量用户使用的标签中,很多用户自定义的标签对于其他人或者社交系统来说意义并不大。因此对于系统有用的标签占比很少,无用的标签则产生大量的噪音数据。此外,个性化属性即用户的个人属性对于用户发布内容的标签也具有一定的作用,例如:位于经济发达的沿海地区的用户发布金融方面的动态比内地用户相对较多;年轻的用户发布娱乐方面的动态比年纪大的用户相对较多;教育程度高的用户发布社会方面的动态比教育程度相对不足的用户要多。因此在提取用户代表性标签的同时,也需考虑用户的个性化属性。然而,小众用户使用的标签比活跃用户使用的少,提供的个人信息也比较少,这对提取普通小众用户的代表性标签带来了很大的困难。由于普通小众用户提供的信息比较少,很难从中发现普通用户感兴趣的群组。
发明内容
为了解决上述问题,本发明提供一种基于CNN的社交小众用户标签挖掘及相似用户推荐的方法,该方法利用卷积神经网络(CNN)自动提取高维向量特征,在CNN模型的基础上增加用户的个性化属性,提出了一种基于个性化CNN模型的社交网络普通小众用户的标签及相似群组的推荐方法,在普通小众用户在社交软件上发布的内容中融入用户的个性化元素,并从中提取推荐能够代表用户特征的代表性标签(话题标签),进而利用聚类算法为普通用户构建社交网络图,再通过提取的代表性标签发现普通小众用户感兴趣的话题和群组推荐给用户。
一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,包括以下步骤:
获取用户在社交软件上发布的原始内容数据,对原始内容数据进行预处理,得到预处理后的内容数据;
将上述预处理后的内容数据输入到word2vec模型中,得到每一个句子中每个词的词向量表示,一个句子中每个词的词向量表示为:
Figure BDA0002639342850000021
其中,wordi表示第i个词,
Figure BDA0002639342850000022
表示第i个词的向量表示,n表示一个句子共有n个词;
取每个词在word2vec模型中对应的词向量进行拼接,获得一个句子的词向量特征矩阵;词向量特征表示为一个矩阵,其中每个词的词向量特征维度由用户的个人属性特征向量维度决定,词向量特征矩阵表示如下:
Figure BDA0002639342850000031
其中,Sw表示词向量特征矩阵,en表示第n个词的向量表示,n表示Sw一共划分出n个词;
获取用户的个人属性特征向量info,将词向量特征与用户的个人属性特征向量info相拼接,构成输入矩阵;
将输入矩阵输入CNN模型,在CNN模型中通过卷积、池化、全连接层的计算,最终输出用户的代表性标签,即用户的话题标签;
根据CNN模型输出的用户的代表性标签,通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组,对用户进行话题标签推荐和群组推荐。
进一步的,所述预处理包括:对于原始内容数据中的每个句子,首先进行分词处理,提取分词,然后从提取的分词中删去停止词以及无意义的词组,保留有意义的词组,得到预处理后的内容数据,预处理后的内容数据表示为:Sw=[w1,w2,…,wn],其中,Sw表示原始内容数据中的任意一条内容数据,wn表示划分后的第n个词组,n表示一条内容数据共划分n个词。
进一步的,用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量,用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下:
age=(a1,a2,…,ax),x∈用户的年龄取值总数
education=(edu1,edu2,…,eduy),y∈用户的教育程度取值总数
place=(p1,p2,…,pz),z∈用户的所在地取值总数
其中,ax表示第x个年龄表示,x表示一共有x种年龄的取值,eduy表示第y种教育程度表示,y表示一共有y种教育程度的取值,pz表示第z种用户所在地,z表示一共有z种用户所在地。
进一步的,所述输入矩阵为:
Figure BDA0002639342850000032
其中,Sw表示词向量特征矩阵,info表示用户的个人属性特征向量。
进一步的,通过聚类算法构建社交网络图具体包括:首先根据用户的代表性标签计算两两用户之间的相似度;再根据两两用户的相似度值,采用聚类算法对相似度高的用户进行聚类,得到用户感兴趣的话题和群组。
进一步的,采用余弦相似度来计算两两用户之间的相似度包括:
Figure BDA0002639342850000041
其中,sim_tw(i,j)指用户i与用户j之间的相似度,
Figure BDA0002639342850000042
表示用户i与用户j具有相同N个标签值的乘积总和,
Figure BDA0002639342850000043
表示用户i具有的X个标签值和用户j具有的Y个标签值的所有标签值的乘积。
进一步的,所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax层;数据在CNN模型中处理的具体过程包括:
S31、首先通过卷积层提取主要的特征,将每个卷积核的最大值作为主要特征:
Figure BDA0002639342850000044
其中,
Figure BDA0002639342850000045
表示最终提取的特征,
Figure BDA0002639342850000046
表示第2个卷积核提取的特征,n表示一共有n个卷积核;
S32、将从多个卷积核中提取的特征组合为一个新特征向量V:
Figure BDA0002639342850000047
其中,
Figure BDA0002639342850000048
表示第n个卷积核大小提取的特征;
S33、利用最大池化层降低新特征向量V的维度;
Vpooing=maxpooling(V)
其中,Vpooing表示经过最大池化层后的新特征向量,maxpooling(V)表示对新特征向量V进行最大池化处理;
S34、通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数;再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1,如下所示:
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数;
S35、最后将V1通过SoftMax层,最终输出一个最具有代表性的标签O,输出表示如下:
O=f2(V1*W2+b2);
其中,O表示CNN模型输出的用户的代表性标签,W2表示经过两个全连接层后的特征V1的权重,b2表示偏差函数,f2表示SoftMax函数。
本发明的有益效果:
本发明在原有CNN模型的基础上嵌入了用户的个性化属性info,因此使得提取的用户语义有效特征融入了每一个用户的个性化元素,从而使得模型为每一个用户预测的代表性标签也具有用户的个性化特征。为社交网络的小众用户提取到能够代表其感兴趣的个性化标签,且通过此标签挖掘到小众用户的相似用户提供了解决思路。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的总体方法流程图;
图2为本发明实施例的改进的个性化CNN模型示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的总体方法流程图。一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,图2是本发明改进的个性化CNN模型示意图,在原始CNN模型的基础上,添加了用户个性化属性特征,包括但不限于以下步骤:
获取用户在社交软件上发布的原始内容数据,对原始内容数据进行预处理,得到预处理后的内容数据;
所述预处理包括:对于原始内容数据中的每个句子,首先进行分词处理,提取分词,然后从提取的分词中去除停止词及无意义的词,无意义的词主要包括代词,连词,叹词等,保留有意义的词,有意义的词主要包括:名词,形容词等,最终得到预处理后的内容数据。输入一个句子Sw,经过数据预处理后,划分句子Sw,去除停止词,剩下n个词组,预处理后的内容数据表示为:Sw=[w1,w2,…,wn],其中,Sw表示原始内容数据中的任意一条内容数据,即原始内容数据中的任意一个句子,wn表示经过划分后的第n个词组,n表示一条内容数据经过划分后共有n个词组。
所述预处理还包括:将用户发布每条内容的长度归于一个固定值,如果一个句子的长度小于固定值,用0向量进行扩充,如果一个句子的长度大于固定值,只保留固定值长度,删除多余的部分。
利用word2vec模型代替CNN原始的embedding模型,将上述预处理后的内容数据输入到word2vec模型中,获得这n个词组的词向量特征,所述词向量特征可以表示为一个矩阵,且每个词的向量维度由用户的个人属性维度决定,词向量特征的矩阵形式如下所示:
Figure BDA0002639342850000061
其中Sw表示输入的某一个句子数据,en表示Sw划分的第n个词的向量表示,
将用户发布每条内容的长度归于一个固定值,如果一个句子的长度小于固定值,用0向量进行扩充,如果一个句子的长度大于固定值,只保留固定值长度,删除多余的部分。
其中,en是从构建的word2vec模型中取得的。
Figure BDA0002639342850000072
其中,wordi表示第i个词,
Figure BDA0002639342850000073
表示第i个词的向量表示,n表示在word2vec中一共有n个词。
获取用户的个人属性特征向量info,用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量,表示如下:
info=[place,age,education]
info=[a1,a2,…,ax,edu1,edu2,…,eduy,p1,p2,…,pz]
其中,用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下:
age=(a1,a2,…,ax),x∈用户的年龄取值总数
education=(edu1,edu2,…,eduy),y∈用户的教育程度取值总数
place=(p1,p2,…,pz),z∈用户的所在地取值总数
其中,ax表示第x个年龄表示,x表示共有x种年龄的取值,eduy表示第y种教育程度表示,y表示共有y种教育程度的取值,pz表示第z种用户所在地,z表示共有z种用户所在地。
对于任一用户,若该用户的个人属性特征与上述对应向量中的某一值相等,则将用户的个人属性特征向量中对应位置的值置1,否则置0。
将词向量特征与用户的个人属性特征向量info相拼接,具体为将用户的个人属性特征向量info拼接在词向量特征之后,构成输入矩阵,所述输入矩阵为:
Figure BDA0002639342850000071
其中,Sw表示某一句子向量的词向量特征,info表示用户的个人属性特征向量。
将上述输入矩阵输入CNN模型,由于word2vec考虑了内容数据中句子数据中的上下文关系,也能通过后续的卷积和池化过程能从中获取更多隐藏的数据特征;在词向量特征Sw下拼接个人属性info,用户的个人属性info对于用户发布内容的标签挖掘也具有一定的作用,在CNN模型中通过卷积、池化、全连接层一系列计算,最终输出用户的代表性标签,即用户的话题标签。而由于改进的CNN模型考虑了用户的个性化属性,提取的数据特征也受个性化属性的影响,因此在原始的CNN模型加入了用户的个人属性元素,从而使得提取的用户的话题标签也具有个性化属性元素。
进一步的,所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax层。
数据在CNN模型中处理的具体过程包括:
1.首先通过卷积层提取主要的特征,利用每个卷积核的最大值作为主要特征:
Figure BDA0002639342850000081
其中,
Figure BDA0002639342850000082
表示最终提取的特征,
Figure BDA0002639342850000083
表示第2个卷积核提取的特征,n表示一共有n个卷积核。
2.将从多个卷积核中提取的特征组合为一个新特征向量V:
Figure BDA0002639342850000084
其中,
Figure BDA0002639342850000085
表示第n个卷积核大小提取的特征。
3.利用最大池化层降低新特征向量V的维度;
Vpooing=maxpooling(V)
其中,Vpooing表示经过最大池化层后的新特征向量,maxpooling(V)表示对新特征向量V进行最大池化处理。
4.通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数,再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数。
5.最后将V1通过SoftMax层,最终SoftMax层输出一个最具有代表性的标签O,输出表示如下;
O=f2(V1*W2+b2)
其中,O表示CNN模型输出的用户的代表性标签,W2表示经过两个全连接层后的特征V1的权重,b2表示偏差函数,f2表示SoftMax函数。
根据CNN模型输出的用户的代表性标签,通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组。
在一个实施例中,所述聚类算法可以采用K-means聚类算法、KNN聚类算法……等现有技术中任一可以实现的方法。
在一个优选实施例中,通过聚类算法构建社交网络图包括以下步骤:
首先根据用户的代表性标签计算两两用户之间的相似度;
在一个优选实施例中,采用余弦相似度来计算两两用户之间的相似度,计算公式如下:
Figure BDA0002639342850000091
其中,sim_tw(i,j)指用户i与用户j之间的相似度,
Figure BDA0002639342850000092
表示用户i与用户j具有N个相同标签值的乘积总和,
Figure BDA0002639342850000093
表示用户i具有的X个标签值和用户j具有的Y个标签值的乘积。
在一个可选的实施例中,两两用户之间的相似度的计算方式还可以采用其他任一可实现方式,本说明书对此不做限制。
再根据两两用户的相似度值,采用聚类算法对相似度高的用户进行聚类,得到用户感兴趣的话题和群组。
对用户进行话题标签推荐和群组推荐。
为了使发说明书更加清楚、完整,接下来以某个关注人数少于200的普通小众用户和该用户的微博数据内容作为原始数据为例,来进一步阐述本发明的具体实施步骤。
本实施例随机选择了91,000条微博作为本发明提出的改进的个性化CNN模型的输入数据,以此来提取微博中具有代表性的标签。具体实施步骤如下:
获得91,000条微博的数据内容,对微博数据进行预处理,一条微博Sw被划分了45个词组,去除当中的停止词,只留下有37个有意义的词组,得到预处理后的内容数据,表示如下:
Sw=[熊猫守护者,森林驿站,保护地,北京,四川省,地图,太棒了,…,野生,龙溪]
将预处理后的内容数据输入到word2vec模型,利用word2vec模型获得这些词组的词向量特征,将词向量特征表示为一个矩阵,将每一个词组的词向量设置为118维,为了后面构成内容×用户个人属性矩阵。
Figure BDA0002639342850000101
将固定值设置为99维,但是该微博预处理后只有37个词,用118维的0向量进行扩充。
Figure BDA0002639342850000102
其中,e1是从构建的word2vec模型中取得的,每一个词语对应向量长度为99维。
把所有的句子划分的词组中的词进行去重处理后,对每一个词进行对应的向量表示如下:
word2vec={建筑设计:[0.15,-0.03,…,0.13],九月再见:[-0.42,0.41,…,0.54],…,探索异世界:[-0.16,0.17,…,-0.19]}
获取用户的个人属性特征向量info,如下所示:
place=(p1,p2,…,p37)
age=(a1,a2,…,a78)
education=(中学,大学,其他)
上述为某一用户的部分个人属性,在每一属性中,如果用户的该属性值与其对应的值相等,则置1,否则置0。最后将三部分拼接在一起,构成一个118维的用户个人属性向量info,如下所示:
info=[a1,a2,…,ax,edu1,edu2,…,eduy,p1,p2,…,pz
info=[0,0,1,…,0,0,0,0,1,…,0,0,1,…,0]
将内容矩阵W和用户个人属性向量info相结合,构成100维的输入矩阵,即内容×用户个人属性矩阵,如下所示:
Figure BDA0002639342850000111
将上述输入矩阵输入CNN模型,由于利用word2vec模型,考虑了句子数据中的上下文关系,也能通过后续的卷积和池化过程获取更多原始内容数据中隐藏的数据特征;在Sw下拼接用户的个人属性,对于用户发布内容的标签也具有一定的作用,在CNN模型中通过卷积、池化、全连接层一系列计算,最终输出用户的代表性标签,即用户的话题标签。
数据在CNN模型中处理的具体过程包括:通过卷积层提取主要的特征,利用每个卷积核的最大值作为主要特征,一共有256个卷积核。
Figure BDA0002639342850000112
将从三个卷积核(每个卷积核的尺寸为5,6,7)从中提取的特征组合为一个新的特征向量:
Figure BDA0002639342850000121
通过最大池化层降低特征的维度。
Vpooing=maxpooling(V)
通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数;再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1,如下所示:
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数。
最后将V1通过SoftMax层输出最具有代表性的标签。
O=f2(V1*W2+b2)
其中,O表示CNN模型输出的用户的代表性标签,W2表示权重,b2表示偏差函数,f2表示SoftMax函数。
然后通过计算出的表示用户最具有特征的标签,利用聚类算法来探寻该用户感兴趣的群组。具体步骤如下:
1.根据该模型提取出的每个用户代表性标签来计算两两用户之间的相似度。假设通过计算用户i有5个能代表i的标签(摄影,科技,娱乐,美食,游戏),用户j有4个能代表j的标签(社会,体育,科技,摄影),用户i与用户j之间有2个相同的标签(科技,摄影),则用户i与用户j之间的相似度为:
Figure BDA0002639342850000122
Figure BDA0002639342850000131
2.利用用户i与用户j之间的两两相似度值,采用合适的聚类算法如K-means,KNN等进行聚类从而得出用户相似或感兴趣的群组。
最后对用户进行话题标签推荐和群组推荐。
需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
以上所述仅是本申请的具体实施方式,应当指出,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,包括以下步骤:
获取用户在社交软件上发布的原始内容数据,对原始内容数据进行预处理,得到预处理后的内容数据;
将预处理后的内容数据输入到word2vec模型中,得到每一个句子中每个词的词向量表示,一个句子中每个词的词向量表示为:
Figure FDA0002639342840000011
其中,wordi表示第i个词,
Figure FDA0002639342840000012
表示第i个词的向量表示,n表示一个句子共有n个词;
取每个词在word2vec模型中对应的词向量进行拼接,获得一个句子的词向量特征矩阵,词向量特征矩阵表示如下:
Figure FDA0002639342840000013
其中,Sw表示词向量特征矩阵,en表示第n个词的向量表示,n表示Sw一共划分出n个词;
获取用户的个人属性特征向量info,将词向量特征与用户的个人属性特征向量info相拼接,构成输入矩阵;
将输入矩阵输入CNN模型,在CNN模型中通过卷积、池化、全连接层的计算,最终输出用户的代表性标签,即用户的话题标签;
根据CNN模型输出的用户的代表性标签,通过聚类算法构建社交网络图,输出与用户相似的群组或用户感兴趣的群组,对用户进行话题标签推荐和群组推荐。
2.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述预处理包括:对于原始内容数据中的每个句子,首先进行分词处理,提取分词,然后从提取的分词中删去停止词以及无意义的词组,保留有意义的词组,得到预处理后的内容数据,预处理后的内容数据表示为:Sw=[w1,w2,...,wn],其中,Sw表示原始内容数据中的任意一条内容数据,wn表示划分后的第n个词组,n表示一条内容数据共划分n个词。
3.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量,用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下:
age=(a1,a2,...,ax),x∈用户的年龄取值总数
education=(edu1,edu2,...,eduy),y∈用户的教育程度取值总数
place=(p1,p2,...,pz),z∈用户的所在地取值总数
其中,ax表示第x个年龄表示,x表示一共有x种年龄的取值,eduy表示第y种教育程度表示,y表示一共有y种教育程度的取值,pz表示第z种用户所在地,z表示一共有z种用户所在地。
4.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述输入矩阵为:
Figure FDA0002639342840000021
其中,Sw表示词向量特征矩阵,info表示用户的个人属性特征向量。
5.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,通过聚类算法构建社交网络图具体包括:
首先根据用户的代表性标签计算两两用户之间的相似度;
再根据两两用户的相似度值,采用聚类算法对相似度高的用户进行聚类,得到用户感兴趣的话题和群组。
6.根据权利要求5所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,采用余弦相似度来计算两两用户之间的相似度包括:
Figure FDA0002639342840000031
其中,sim_tw(i,j)指用户i与用户j之间的相似度,
Figure FDA0002639342840000032
表示用户i与用户j具有相同N个标签值的乘积总和,
Figure FDA0002639342840000033
表示用户i具有的X个标签值和用户j具有的Y个标签值的所有标签值的乘积。
7.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法,其特征在于,所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax层;数据在CNN模型中处理的具体过程包括:
S31、首先通过卷积层提取主要的特征,将每个卷积核的最大值作为主要特征:
Figure FDA0002639342840000034
其中,
Figure FDA0002639342840000035
表示最终提取的特征,
Figure FDA0002639342840000036
表示第2个卷积核提取的特征,n表示一共有n个卷积核;
S32、将从多个卷积核中提取的特征组合为一个新特征向量V:
Figure FDA0002639342840000037
其中,
Figure FDA0002639342840000038
表示第n个卷积核大小提取的特征;
S33、利用最大池化层降低新特征向量V的维度;
Vpooing=maxpooling(V)
其中,Vpooing表示经过最大池化层后的新特征向量,maxpooling(V)表示对新特征向量V进行最大池化处理;
S34、通过两个全连接层提取新的特征,将Vpooing输入到第一个全连接层,并用ReLU函数作为激活函数;再输入到第二个全连接层,最终得到经过两个全连接层后的特征V1,如下所示:
V1=f1(Vpooing*W1+b1);
其中,Vpooing表示经过最大池化层后的新特征向量,W1表示权重,b1表示偏差函数,f1表示ReLU函数;
S35、最后将V1通过SoftMax层,最终输出一个最具有代表性的标签O,输出表示如下:
O=f2(V1*W2+b2);
其中,O表示CNN模型输出的用户的代表性标签,W2表示经过两个全连接层后的特征V1的权重,b2表示偏差函数,f2表示SoftMax函数。
CN202010835019.3A 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 Active CN112016003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010835019.3A CN112016003B (zh) 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010835019.3A CN112016003B (zh) 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法

Publications (2)

Publication Number Publication Date
CN112016003A true CN112016003A (zh) 2020-12-01
CN112016003B CN112016003B (zh) 2022-07-12

Family

ID=73505011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010835019.3A Active CN112016003B (zh) 2020-08-19 2020-08-19 基于cnn的社交小众用户标签挖掘及相似用户推荐方法

Country Status (1)

Country Link
CN (1) CN112016003B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632279A (zh) * 2020-12-21 2021-04-09 北京搜狗科技发展有限公司 一种确定用户标签的方法及相关装置
CN112685656A (zh) * 2020-12-22 2021-04-20 航天信息股份有限公司 标签推荐方法及电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379158A (zh) * 2012-04-24 2013-10-30 中国移动通信集团公司 一种社交网络中推荐好友信息的方法及系统
US20150019588A1 (en) * 2013-07-11 2015-01-15 Drexel University Identifying Implicit Relationships Between Social Media Users To Support Social Commerce
CN104731962A (zh) * 2015-04-03 2015-06-24 重庆邮电大学 一种社交网络中基于相似社团的好友推荐方法及系统
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN107577682A (zh) * 2016-07-05 2018-01-12 上海交通大学 基于社交图片的用户兴趣挖掘和用户推荐方法及系统
CN109903127A (zh) * 2019-02-14 2019-06-18 广州视源电子科技股份有限公司 一种群组推荐方法、装置、存储介质及服务器
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN109960763A (zh) * 2019-03-21 2019-07-02 湖南大学 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN110059271A (zh) * 2019-06-19 2019-07-26 达而观信息科技(上海)有限公司 运用标签知识网络的搜索方法及装置
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法
CN110309360A (zh) * 2019-06-13 2019-10-08 山东大学 一种短视频的话题标签个性化推荐方法及系统
CN110457477A (zh) * 2019-08-09 2019-11-15 东北大学 一种面向社交网络的兴趣社群发现方法
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法
CN111400609A (zh) * 2018-12-27 2020-07-10 广州市百果园网络科技有限公司 用户推荐方法、装置、存储介质及服务器

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103379158A (zh) * 2012-04-24 2013-10-30 中国移动通信集团公司 一种社交网络中推荐好友信息的方法及系统
US20150019588A1 (en) * 2013-07-11 2015-01-15 Drexel University Identifying Implicit Relationships Between Social Media Users To Support Social Commerce
CN104731962A (zh) * 2015-04-03 2015-06-24 重庆邮电大学 一种社交网络中基于相似社团的好友推荐方法及系统
CN107357793A (zh) * 2016-05-10 2017-11-17 腾讯科技(深圳)有限公司 信息推荐方法和装置
CN107577682A (zh) * 2016-07-05 2018-01-12 上海交通大学 基于社交图片的用户兴趣挖掘和用户推荐方法及系统
CN111400609A (zh) * 2018-12-27 2020-07-10 广州市百果园网络科技有限公司 用户推荐方法、装置、存储介质及服务器
CN109903127A (zh) * 2019-02-14 2019-06-18 广州视源电子科技股份有限公司 一种群组推荐方法、装置、存储介质及服务器
CN109933731A (zh) * 2019-03-18 2019-06-25 苏州亿歌网络科技有限公司 一种好友推荐方法、装置、设备及存储介质
CN109960763A (zh) * 2019-03-21 2019-07-02 湖南大学 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
CN110222272A (zh) * 2019-04-18 2019-09-10 广东工业大学 一种潜在客户挖掘与推荐方法
CN110309360A (zh) * 2019-06-13 2019-10-08 山东大学 一种短视频的话题标签个性化推荐方法及系统
CN110059271A (zh) * 2019-06-19 2019-07-26 达而观信息科技(上海)有限公司 运用标签知识网络的搜索方法及装置
CN110457477A (zh) * 2019-08-09 2019-11-15 东北大学 一种面向社交网络的兴趣社群发现方法
CN110837602A (zh) * 2019-11-05 2020-02-25 重庆邮电大学 基于表示学习和多模态卷积神经网络的用户推荐方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HOLTZMAN 等: "online friend recommendation through personality matching and collaborative filtering", 《PROC.OF UBICOMM》 *
HUIFANG MA 等: "Combining tag correlation and user social relation for microblog recommendation", 《INFORMATION SCIENCES》 *
XIAO HAN 等: "Alike people,alike interests inferring interest similarity in online social networks", 《DECISION SUPPORT SYSTEMS》 *
张世尧 等: "基于用户聚类的微博话题推荐算法", 《阜阳师范学院学报(自然科学版)》 *
杨长春 等: "一种新的新浪微博好友推荐算法", 《计算机应用与软件》 *
汤颖 等: "一种结合用户评分信息的改进好友推荐算法", 《计算机科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632279A (zh) * 2020-12-21 2021-04-09 北京搜狗科技发展有限公司 一种确定用户标签的方法及相关装置
CN112632279B (zh) * 2020-12-21 2024-06-07 北京搜狗科技发展有限公司 一种确定用户标签的方法及相关装置
CN112685656A (zh) * 2020-12-22 2021-04-20 航天信息股份有限公司 标签推荐方法及电子设备

Also Published As

Publication number Publication date
CN112016003B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
Yang et al. Model compression with two-stage multi-teacher knowledge distillation for web question answering system
Li et al. Document representation and feature combination for deceptive spam review detection
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
Elzayady et al. Arabic Opinion Mining Using Combined CNN-LSTM Models.
Chaidaroon et al. Deep semantic text hashing with weak supervision
CN112016003B (zh) 基于cnn的社交小众用户标签挖掘及相似用户推荐方法
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN113672693B (zh) 基于知识图谱和标签关联的在线问答平台的标签推荐方法
CN113553510B (zh) 一种文本信息推荐方法、装置及可读介质
Salur et al. A soft voting ensemble learning-based approach for multimodal sentiment analysis
Ye et al. A web services classification method based on GCN
Che et al. Tensor factorization with sparse and graph regularization for fake news detection on social networks
Wang et al. Self‐Information Loss Compensation Learning for Machine‐Generated Text Detection
Zhang et al. Citation recommendations considering content and structural context embedding
Surekha et al. Digital misinformation and fake news detection using WoT integration with Asian social networks fusion based feature extraction with text and image classification by machine learning architectures
Lu et al. A hashtag-based sub-event detection framework for social media
CN113962221A (zh) 一种文本摘要的提取方法、装置、终端设备和存储介质
CN113641790A (zh) 一种基于区分表示深度哈希的跨模态检索模型
CN114817697A (zh) 标签信息的确定方法、装置、电子设备以及存储介质
WO2021042234A1 (zh) 应用程序的介绍方法、移动终端及服务器
Sevim et al. An Ensemble Model using a BabelNet Enriched Document Space for Twitter Sentiment Classification
Keyan et al. Multi-document and multi-lingual summarization using neural networks
CN110765108A (zh) 一种基于群智数据融合的假消息早期检测方法
CN112749246A (zh) 搜索短语的评估方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant