CN112016003A

CN112016003A - 基于cnn的社交小众用户标签挖掘及相似用户推荐方法

Info

Publication number: CN112016003A
Application number: CN202010835019.3A
Authority: CN
Inventors: 陈贤; 罗朗; 王豪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-01
Anticipated expiration: 2040-08-19
Also published as: CN112016003B

Abstract

本发明涉及社交网络技术处理领域，具体涉及一种基于CNN的社交小众用户标签挖掘及相似用户推荐的方法，包括：获取用户在社交软件上发布的原始内容数据，预处理；通过word2vec模型获得词向量特征；将预处理后的内容数据输入到词嵌入层，每个词取其在word2vec中的位置，寻找对应每个词的词向量；获取用户的个人属性特征向量info，并将词向量特征与个人属性特征向量info相结合构成输入矩阵；将输入矩阵输入CNN模型，获得用户的话题标签；通过聚类算法构建社交网络图，输出与用户相似的群组或用户感兴趣的群组；对用户进行话题标签推荐和群组推荐。本发明解决了社交网络上信息较少的用户的话题推荐和相关群组推荐问题。

Description

基于CNN的社交小众用户标签挖掘及相似用户推荐方法

技术领域

本发明涉及社交网络技术处理领域，具体涉及一种基于CNN的社交小众用户标签挖掘及相似用户推荐方法。

背景技术

随着社会的发展，社交软件已经成为人们交流、拓展人际关系、分享生活的热门平台之一。一些会使用社交软件的人知道如何向他人展示自己以及自己感兴趣的话题，他人可以通过系统或平台找到他们，系统也可以基于用户的个人信息以及历史数据推荐给用户可能喜欢的内容以及与该用户有相似兴趣的其他用户。但是大多数用户并没有在社交网络上展现他们的兴趣，这些用户只有少量的关注和粉丝，他们不知道自己感兴趣的话题是什么，也不经常在社交软件上发布动态，本发明称这些用户为普通小众用户。这样的用户在社交网络中占据了很大一部分，然而普通小众用户并没有受到足够的重视，而这些用户对于社交网络和推荐系统来说是非常重要的，为这些普通小众用户推荐他们感兴趣的话题和群组是很有必要的。因此需要提取能够代表这些普通小众用户的标签，从而帮助系统为小众用户推荐话题及相似用户。

标签在社交软件和网络社区中应用的很多，因为标签简而易懂。在以往的研究中，Guy和Chen提到了标签的重要性。Lee等人认为标签是社交媒体中用户与用户之间沟通的桥梁。目前，标签已经广泛应用于信息检索、推荐算法、社交网络等多个研究领域。然而在海量用户使用的标签中，很多用户自定义的标签对于其他人或者社交系统来说意义并不大。因此对于系统有用的标签占比很少，无用的标签则产生大量的噪音数据。此外，个性化属性即用户的个人属性对于用户发布内容的标签也具有一定的作用，例如：位于经济发达的沿海地区的用户发布金融方面的动态比内地用户相对较多；年轻的用户发布娱乐方面的动态比年纪大的用户相对较多；教育程度高的用户发布社会方面的动态比教育程度相对不足的用户要多。因此在提取用户代表性标签的同时，也需考虑用户的个性化属性。然而，小众用户使用的标签比活跃用户使用的少，提供的个人信息也比较少，这对提取普通小众用户的代表性标签带来了很大的困难。由于普通小众用户提供的信息比较少，很难从中发现普通用户感兴趣的群组。

发明内容

为了解决上述问题，本发明提供一种基于CNN的社交小众用户标签挖掘及相似用户推荐的方法，该方法利用卷积神经网络(CNN)自动提取高维向量特征，在CNN模型的基础上增加用户的个性化属性，提出了一种基于个性化CNN模型的社交网络普通小众用户的标签及相似群组的推荐方法，在普通小众用户在社交软件上发布的内容中融入用户的个性化元素，并从中提取推荐能够代表用户特征的代表性标签(话题标签)，进而利用聚类算法为普通用户构建社交网络图，再通过提取的代表性标签发现普通小众用户感兴趣的话题和群组推荐给用户。

一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法，包括以下步骤：

获取用户在社交软件上发布的原始内容数据，对原始内容数据进行预处理，得到预处理后的内容数据；

将上述预处理后的内容数据输入到word2vec模型中，得到每一个句子中每个词的词向量表示，一个句子中每个词的词向量表示为：

其中，word_i表示第i个词，

表示第i个词的向量表示，n表示一个句子共有n个词；

取每个词在word2vec模型中对应的词向量进行拼接，获得一个句子的词向量特征矩阵；词向量特征表示为一个矩阵，其中每个词的词向量特征维度由用户的个人属性特征向量维度决定，词向量特征矩阵表示如下：

其中，S_w表示词向量特征矩阵，e_n表示第n个词的向量表示，n表示S_w一共划分出n个词；

获取用户的个人属性特征向量info，将词向量特征与用户的个人属性特征向量info相拼接，构成输入矩阵；

将输入矩阵输入CNN模型，在CNN模型中通过卷积、池化、全连接层的计算，最终输出用户的代表性标签，即用户的话题标签；

根据CNN模型输出的用户的代表性标签，通过聚类算法构建社交网络图，输出与用户相似的群组或用户感兴趣的群组，对用户进行话题标签推荐和群组推荐。

进一步的，所述预处理包括：对于原始内容数据中的每个句子，首先进行分词处理，提取分词，然后从提取的分词中删去停止词以及无意义的词组，保留有意义的词组，得到预处理后的内容数据，预处理后的内容数据表示为：S_w＝[w₁,w₂,…,w_n]，其中，S_w表示原始内容数据中的任意一条内容数据，w_n表示划分后的第n个词组，n表示一条内容数据共划分n个词。

进一步的，用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量，用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下：

age＝(a₁,a₂,…,a_x),x∈用户的年龄取值总数

education＝(edu₁，edu₂,…,edu_y),y∈用户的教育程度取值总数

place＝(p₁,p₂,…,p_z),z∈用户的所在地取值总数

其中，a_x表示第x个年龄表示，x表示一共有x种年龄的取值，edu_y表示第y种教育程度表示，y表示一共有y种教育程度的取值，p_z表示第z种用户所在地，z表示一共有z种用户所在地。

进一步的，所述输入矩阵为：

其中，S_w表示词向量特征矩阵，info表示用户的个人属性特征向量。

进一步的，通过聚类算法构建社交网络图具体包括：首先根据用户的代表性标签计算两两用户之间的相似度；再根据两两用户的相似度值，采用聚类算法对相似度高的用户进行聚类，得到用户感兴趣的话题和群组。

进一步的，采用余弦相似度来计算两两用户之间的相似度包括：

其中，sim_tw(i,j)指用户i与用户j之间的相似度，

表示用户i与用户j具有相同N个标签值的乘积总和，

表示用户i具有的X个标签值和用户j具有的Y个标签值的所有标签值的乘积。

进一步的，所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax层；数据在CNN模型中处理的具体过程包括：

S31、首先通过卷积层提取主要的特征，将每个卷积核的最大值作为主要特征：

其中，

表示最终提取的特征，

表示第2个卷积核提取的特征，n表示一共有n个卷积核；

S32、将从多个卷积核中提取的特征组合为一个新特征向量V：

其中，

表示第n个卷积核大小提取的特征；

S33、利用最大池化层降低新特征向量V的维度；

V_pooing＝maxpooling(V)

其中，V_pooing表示经过最大池化层后的新特征向量，maxpooling(V)表示对新特征向量V进行最大池化处理；

S34、通过两个全连接层提取新的特征，将V_pooing输入到第一个全连接层，并用ReLU函数作为激活函数；再输入到第二个全连接层，最终得到经过两个全连接层后的特征V₁，如下所示：

V₁＝f₁(V_pooing*W₁+b₁)；

其中，V_pooing表示经过最大池化层后的新特征向量，W₁表示权重，b₁表示偏差函数，f₁表示ReLU函数；

S35、最后将V₁通过SoftMax层，最终输出一个最具有代表性的标签O，输出表示如下：

O＝f₂(V₁*W₂+b₂)；

其中，O表示CNN模型输出的用户的代表性标签，W₂表示经过两个全连接层后的特征V₁的权重，b₂表示偏差函数，f₂表示SoftMax函数。

本发明的有益效果：

本发明在原有CNN模型的基础上嵌入了用户的个性化属性info，因此使得提取的用户语义有效特征融入了每一个用户的个性化元素，从而使得模型为每一个用户预测的代表性标签也具有用户的个性化特征。为社交网络的小众用户提取到能够代表其感兴趣的个性化标签，且通过此标签挖掘到小众用户的相似用户提供了解决思路。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例的总体方法流程图；

图2为本发明实施例的改进的个性化CNN模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的总体方法流程图。一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法，图2是本发明改进的个性化CNN模型示意图，在原始CNN模型的基础上，添加了用户个性化属性特征，包括但不限于以下步骤：

所述预处理包括：对于原始内容数据中的每个句子，首先进行分词处理，提取分词，然后从提取的分词中去除停止词及无意义的词，无意义的词主要包括代词，连词，叹词等，保留有意义的词，有意义的词主要包括：名词，形容词等，最终得到预处理后的内容数据。输入一个句子S_w，经过数据预处理后，划分句子S_w，去除停止词，剩下n个词组，预处理后的内容数据表示为：S_w＝[w₁,w₂,…,w_n]，其中，S_w表示原始内容数据中的任意一条内容数据，即原始内容数据中的任意一个句子，w_n表示经过划分后的第n个词组，n表示一条内容数据经过划分后共有n个词组。

所述预处理还包括：将用户发布每条内容的长度归于一个固定值，如果一个句子的长度小于固定值，用0向量进行扩充，如果一个句子的长度大于固定值，只保留固定值长度，删除多余的部分。

利用word2vec模型代替CNN原始的embedding模型，将上述预处理后的内容数据输入到word2vec模型中，获得这n个词组的词向量特征，所述词向量特征可以表示为一个矩阵，且每个词的向量维度由用户的个人属性维度决定，词向量特征的矩阵形式如下所示：

其中S_w表示输入的某一个句子数据，e_n表示S_w划分的第n个词的向量表示，

将用户发布每条内容的长度归于一个固定值，如果一个句子的长度小于固定值，用0向量进行扩充，如果一个句子的长度大于固定值，只保留固定值长度，删除多余的部分。

其中，e_n是从构建的word2vec模型中取得的。

其中，word_i表示第i个词，

表示第i个词的向量表示，n表示在word2vec中一共有n个词。

获取用户的个人属性特征向量info，用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量，表示如下：

info＝[place,age,education]

info＝[a₁,a₂,…,a_x,edu₁,edu₂,…,edu_y,p₁,p₂,…,p_z]

其中，用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下：

age＝(a₁,a₂,…,a_x),x∈用户的年龄取值总数

education＝(edu₁，edu₂,…,edu_y),y∈用户的教育程度取值总数

place＝(p₁,p₂,…,p_z),z∈用户的所在地取值总数

其中，a_x表示第x个年龄表示，x表示共有x种年龄的取值，edu_y表示第y种教育程度表示，y表示共有y种教育程度的取值，p_z表示第z种用户所在地，z表示共有z种用户所在地。

对于任一用户，若该用户的个人属性特征与上述对应向量中的某一值相等，则将用户的个人属性特征向量中对应位置的值置1，否则置0。

将词向量特征与用户的个人属性特征向量info相拼接，具体为将用户的个人属性特征向量info拼接在词向量特征之后，构成输入矩阵，所述输入矩阵为：

其中，S_w表示某一句子向量的词向量特征，info表示用户的个人属性特征向量。

将上述输入矩阵输入CNN模型，由于word2vec考虑了内容数据中句子数据中的上下文关系，也能通过后续的卷积和池化过程能从中获取更多隐藏的数据特征；在词向量特征S_w下拼接个人属性info，用户的个人属性info对于用户发布内容的标签挖掘也具有一定的作用，在CNN模型中通过卷积、池化、全连接层一系列计算，最终输出用户的代表性标签，即用户的话题标签。而由于改进的CNN模型考虑了用户的个性化属性，提取的数据特征也受个性化属性的影响，因此在原始的CNN模型加入了用户的个人属性元素，从而使得提取的用户的话题标签也具有个性化属性元素。

进一步的，所述CNN模型包括卷积层、最大池化层、两个全连接层和softmax层。

数据在CNN模型中处理的具体过程包括：

1.首先通过卷积层提取主要的特征，利用每个卷积核的最大值作为主要特征：

其中，

表示最终提取的特征，

表示第2个卷积核提取的特征，n表示一共有n个卷积核。

2.将从多个卷积核中提取的特征组合为一个新特征向量V：

其中，

表示第n个卷积核大小提取的特征。

3.利用最大池化层降低新特征向量V的维度；

V_pooing＝maxpooling(V)

其中，V_pooing表示经过最大池化层后的新特征向量，maxpooling(V)表示对新特征向量V进行最大池化处理。

4.通过两个全连接层提取新的特征，将V_pooing输入到第一个全连接层，并用ReLU函数作为激活函数，再输入到第二个全连接层，最终得到经过两个全连接层后的特征V₁；

V₁＝f₁(V_pooing*W₁+b₁)；

其中，V_pooing表示经过最大池化层后的新特征向量，W₁表示权重，b₁表示偏差函数，f₁表示ReLU函数。

5.最后将V₁通过SoftMax层，最终SoftMax层输出一个最具有代表性的标签O，输出表示如下；

O＝f₂(V₁*W₂+b₂)

根据CNN模型输出的用户的代表性标签，通过聚类算法构建社交网络图，输出与用户相似的群组或用户感兴趣的群组。

在一个实施例中，所述聚类算法可以采用K-means聚类算法、KNN聚类算法……等现有技术中任一可以实现的方法。

在一个优选实施例中，通过聚类算法构建社交网络图包括以下步骤：

首先根据用户的代表性标签计算两两用户之间的相似度；

在一个优选实施例中，采用余弦相似度来计算两两用户之间的相似度，计算公式如下：

其中，sim_tw(i,j)指用户i与用户j之间的相似度，

表示用户i与用户j具有N个相同标签值的乘积总和，

表示用户i具有的X个标签值和用户j具有的Y个标签值的乘积。

在一个可选的实施例中，两两用户之间的相似度的计算方式还可以采用其他任一可实现方式，本说明书对此不做限制。

再根据两两用户的相似度值，采用聚类算法对相似度高的用户进行聚类，得到用户感兴趣的话题和群组。

对用户进行话题标签推荐和群组推荐。

为了使发说明书更加清楚、完整，接下来以某个关注人数少于200的普通小众用户和该用户的微博数据内容作为原始数据为例，来进一步阐述本发明的具体实施步骤。

本实施例随机选择了91,000条微博作为本发明提出的改进的个性化CNN模型的输入数据，以此来提取微博中具有代表性的标签。具体实施步骤如下：

获得91,000条微博的数据内容，对微博数据进行预处理，一条微博S_w被划分了45个词组，去除当中的停止词，只留下有37个有意义的词组，得到预处理后的内容数据，表示如下：

S_w＝[熊猫守护者,森林驿站,保护地,北京,四川省,地图,太棒了,…,野生,龙溪]

将预处理后的内容数据输入到word2vec模型，利用word2vec模型获得这些词组的词向量特征，将词向量特征表示为一个矩阵，将每一个词组的词向量设置为118维，为了后面构成内容×用户个人属性矩阵。

将固定值设置为99维，但是该微博预处理后只有37个词，用118维的0向量进行扩充。

其中，e₁是从构建的word2vec模型中取得的，每一个词语对应向量长度为99维。

把所有的句子划分的词组中的词进行去重处理后，对每一个词进行对应的向量表示如下：

word2vec＝{建筑设计:[0.15,-0.03,…,0.13],九月再见:[-0.42,0.41,…,0.54],…,探索异世界:[-0.16,0.17,…,-0.19]}

获取用户的个人属性特征向量info，如下所示：

place＝(p₁,p₂,…,p₃₇)

age＝(a₁,a₂,…,a₇₈)

education＝(中学，大学，其他)

上述为某一用户的部分个人属性，在每一属性中，如果用户的该属性值与其对应的值相等，则置1，否则置0。最后将三部分拼接在一起，构成一个118维的用户个人属性向量info，如下所示：

info＝[a₁,a₂,…,a_x,edu₁,edu₂,…,edu_y,p₁,p₂,…,p_z

info＝[0,0,1,…,0,0,0,0,1,…,0,0,1,…,0]

将内容矩阵W和用户个人属性向量info相结合，构成100维的输入矩阵，即内容×用户个人属性矩阵，如下所示：

将上述输入矩阵输入CNN模型，由于利用word2vec模型，考虑了句子数据中的上下文关系，也能通过后续的卷积和池化过程获取更多原始内容数据中隐藏的数据特征；在S_w下拼接用户的个人属性，对于用户发布内容的标签也具有一定的作用,在CNN模型中通过卷积、池化、全连接层一系列计算，最终输出用户的代表性标签，即用户的话题标签。

数据在CNN模型中处理的具体过程包括：通过卷积层提取主要的特征，利用每个卷积核的最大值作为主要特征，一共有256个卷积核。

将从三个卷积核(每个卷积核的尺寸为5，6，7)从中提取的特征组合为一个新的特征向量：

通过最大池化层降低特征的维度。

V_pooing＝maxpooling(V)

通过两个全连接层提取新的特征，将V_pooing输入到第一个全连接层，并用ReLU函数作为激活函数；再输入到第二个全连接层，最终得到经过两个全连接层后的特征V₁，如下所示：

V₁＝f₁(V_pooing*W₁+b₁)；

最后将V₁通过SoftMax层输出最具有代表性的标签。

O＝f₂(V₁*W₂+b₂)

其中，O表示CNN模型输出的用户的代表性标签，W₂表示权重，b₂表示偏差函数，f₂表示SoftMax函数。

然后通过计算出的表示用户最具有特征的标签，利用聚类算法来探寻该用户感兴趣的群组。具体步骤如下：

1.根据该模型提取出的每个用户代表性标签来计算两两用户之间的相似度。假设通过计算用户i有5个能代表i的标签(摄影，科技，娱乐，美食，游戏)，用户j有4个能代表j的标签(社会，体育，科技，摄影)，用户i与用户j之间有2个相同的标签(科技，摄影)，则用户i与用户j之间的相似度为：

2.利用用户i与用户j之间的两两相似度值，采用合适的聚类算法如K-means，KNN等进行聚类从而得出用户相似或感兴趣的群组。

最后对用户进行话题标签推荐和群组推荐。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法，其特征在于，包括以下步骤：

将预处理后的内容数据输入到word2vec模型中，得到每一个句子中每个词的词向量表示，一个句子中每个词的词向量表示为：

其中，word_i表示第i个词，

表示第i个词的向量表示，n表示一个句子共有n个词；

取每个词在word2vec模型中对应的词向量进行拼接，获得一个句子的词向量特征矩阵，词向量特征矩阵表示如下：

2.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法，其特征在于，所述预处理包括：对于原始内容数据中的每个句子，首先进行分词处理，提取分词，然后从提取的分词中删去停止词以及无意义的词组，保留有意义的词组，得到预处理后的内容数据，预处理后的内容数据表示为：S_w＝[w₁，w₂，...，w_n]，其中，S_w表示原始内容数据中的任意一条内容数据，w_n表示划分后的第n个词组，n表示一条内容数据共划分n个词。

3.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法，其特征在于，用户的个人属性特征向量info为用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place拼接而成的向量，用户年龄向量age、用户的教育程度向量education以及用户的所在地向量place分别表示如下：

age＝(a₁，a₂，...，a_x)，x∈用户的年龄取值总数

education＝(edu₁，edu₂，...，edu_y)，y∈用户的教育程度取值总数

place＝(p₁，p₂，...，p_z)，z∈用户的所在地取值总数

4.根据权利要求1所述的一种基于个性化CNN的社交网络普通小众用户代表性标签推荐方法，其特征在于，所述输入矩阵为：