CN109960763B

CN109960763B - 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法

Info

Publication number: CN109960763B
Application number: CN201910218748.1A
Authority: CN
Inventors: 姜文君; 邵明民; 任德盛; 王国军
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-03-21
Filing date: 2019-03-21
Publication date: 2020-12-22
Anticipated expiration: 2039-03-21
Also published as: CN109960763A

Abstract

本发明公开了一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法。本发明主要是从用户摄影作品的细粒度标签的角度来提取细粒度摄影偏好，通过对用户细粒度标签的相似度进行计算，再通过聚类算法，将相似度较大的标签聚类成若干个类簇。提取每个类簇中离聚类中心近的细粒度标签和高频率标签，以便精确刻画用户的细粒度摄影偏好。最后，结合用户活跃度如作品数量、粉丝量和被浏览量，对用户摄影偏好进行加权处理，使得优先推荐用户活跃度更高的用户作为目标用户的潜在好友，从而提高摄影社区个性化好友推荐的质量。

Description

基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法

技术领域

本发明涉及一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法，属于社交网络和推荐系统领域。

背景技术

现有摄影社区的好友推荐通常利用网络结构或粗粒度分类，仍处于相对初级的阶段，并且未考虑好友推荐质量(比如所推荐好友可能活跃度低，只有少量作品、交互少等等)。摄影爱好者是一类具有特定爱好的人群，通过细分其摄影类型和特点，为用户推荐与其具有相同或相似摄影偏好的潜在好友，对提升摄影社区用户体验，增加用户黏度，是非常有必要的。因此，本专利提出一种基于用户细粒度摄影偏好的个性化好友推荐，针对摄影社区这类特殊的社交网络进行用户摄影作品细粒度标签的特征提取，并结合用户活跃度来确保所推荐好友的质量，以500px摄影社区进行个例研究分析，实现该类社区中的好友推荐，增强摄影社区的用户体验。

传统的好友推荐技术主要是基于三元闭包理论，通过用户的共同好友数目进行推荐好友，例如QQ、新浪微博等。然而在一个用户信息量庞大的摄影社区的社交网络中，依靠传统的好友推荐技术并不能很好地进行个性化好友推荐。

目前基于摄影社区好友推荐的主要技术有基于网络关联和共聚类的好友推荐。该技术方案目前应用于Flickr图片分享社区，主要通过分为两个阶段。第一个阶段包括将整个网络划分为友谊网络和标签网络、网络关联对齐，第二个阶段包括可能好友列表扩展和三支共聚类操作。

虽然该技术可以在对摄影社区这个庞大的社交网络中的数据进行了分类，一定程度上提高了好友推荐的效率，但是由于三支共聚类方法的局限性，导致好友推荐的精度不高。另外，对可能好友列表的扩充也会带来数据的冗余和降低好友推荐的效率。最后，现有技术未考虑所推荐好友的质量，即好友能否带来有益的交互、学习和提高。

摄影社区中，用户为每张作品都给出了很多细粒度属性标签，例如天空、山水、日出、雪景等。然而，摄影社区对摄影作品的分类往往是粗粒度的。因此，仅仅依据摄影社区的分类进行好友推荐会导致对摄影爱好者的摄影偏好定位不准确、推荐精度低。例如，用户A的摄影偏好是鸟类，用户B的摄影偏好是猛兽。如果按粗粒度标记，用户A和B的摄影偏好都是动物，但实际上用户A和B在细粒度摄影偏好存在很大的差距。现有摄影社区好友推荐技术缺乏对用户细粒度摄影偏好的研究，因此，本专利提出通过提取标签的细粒度属性来提高摄影社区的个性化好友推荐精度。通过对细粒度标签特征提取，能够获取更详细的用户摄影偏好信息，从而可以更精准地为目标用户推荐具有相似摄影偏好的好友。

名词解释：

净相似度：表示聚类中心解释细粒度标签的合适程度。

吸引信息：描述细粒度标签m适合作为细粒度标签n的聚类中心的程度。

归属信息：反映细粒度标签n归属于以细粒度标签m为聚类中心的类簇的合适程度。

属性-情感词典：属性词是指一类具有能够描述某一实体属性的文本；情感词是指一类可以表达某一实体情感的文本，通常将情感类别分为3类：正向，负向和中性；本专利使用HowNet和WordNet词库来作为属性-情感词典。

用户活跃度：指用户的作品数量、粉丝量和被浏览量；作品数量、粉丝量和被浏览量越多，则用户活跃度越高。

特征代表性评价指标Frank：用于评价用户偏好特征的细粒度标签的重要性，与细粒度标签频率和同一类簇中的细粒度标签与聚类中心间的相似度有关。

skip-gram模型：即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。

发明内容

为解决上述问题，本发明提供了一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法。本发明主要是从用户摄影作品的细粒度标签的角度来提取细粒度摄影偏好，通过对每个标签间的相似度进行计算，再通过聚类算法，将相似度接近的标签聚类成若干个类簇，最后选取每个类簇中离聚类中心较近的细粒度标签和每个类簇中的高频率标签，作为最终的用户摄影偏好特征集，达到精确提取用户细粒度摄影偏好的目的。使用PageRank算法，计算每个偏好特征细粒度标签的重要性Frank值，将Frank值转化为向量，然后利用广义Jaccard相似度计算目标用户与其他每个用户之间的偏好特征相似度，并乘以用户活跃度，将所得乘积结果按照大小进行降序排序，取top-u用户作为最后好友推荐列表。

为达到上述技术效果，本发明的技术方案是：

一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法，包括如下方法：

步骤一、获取用户信息和摄影作品细粒度标签，所述细粒度标签为用户上传摄影作品时给出的与图片相关的标签；

步骤二、用户数据预处理：剔除不符合要求的用户信息；

步骤三、细粒度标签的清洗，剔除不符合要求的细粒度标签；

步骤四、通过细粒度标签的清洗后得到候选标签集，将候选标签聚类，包括如下步骤：

4.1)将候选标签中重复的细粒度标签剔除；

4.2)skip-gram模型常用来将单词向量化表示，通过计算词向量间的余弦距离，获得词向量间的相似度；已有工作利用skip-gram模型训练维基百科语料库，将在线商品评论词进行词向量表示，将每个候选标签映射成N维实数词向量；从而提取评论词属性；

4.3)计算词向量之间的余弦距离来获取候选标签间的语义相似度；余弦距离的计算公式如下：

其中，

表示选细粒度标签W_i的词向量的第k维，N表示向量的维度；

表示选细粒度标签W_j的词向量的第k维；cos(W_i,W_j)表示W_i和W_j的余弦距离；

4.3)词向量相似度聚类：采用近邻传播聚类方法对候选标签进行聚类，AP聚类方法的输入数据为词向量之间的余弦相似度，不断迭代更新每个相似度数据的吸引信息与归属信息，直到产生稳定的聚类中心，并将非中心的相似度数据分配到对应的类簇；得到若干个类簇；

更新吸引信息公式：

更新归属信息公式：

其中r表示吸引信息，a表示归属信息，S为相似度矩阵，S(m,n)取m和n的欧式距离负值；当m＝n时，S(m,n)取整个矩阵的最小值或中位数；S(m,n)值越大，最终产生的聚类数量越多；m和n分别表示在同一类簇中的两个数据对象，t表示迭代的次数，r_t+1(m,n)表示第t+1次迭代的吸引信息，a_t+1(m,n)表示第t+1次迭代的归属信息；

对于聚类中心：设m＝max{a(m,n)+r(m,n)}，若此时m＝n，则m是聚类中心；若此时m≠n，则n是m的聚类中心；

4.4)利用近邻传播聚类方法中的净相似度进行聚类结果的评估，净相似度值越大表示聚类效果越好，计算公式如下：

其中，K表示聚类后的类簇数量，M_p为类簇p中除聚类中心之外的其它聚类成员数量；Preference[p]表示为类簇p的聚类中心的参考值，Sim(Term[p,q],Exemplar[p])为类簇p中类簇中心与其他聚类成员之间的相似度；

步骤五、细粒度标签降噪

5.1)非属性类簇过滤：利用属性-情感词典来过滤非属性类簇，

定义CA_i＝TF_i/TF_si，将CA_i按照升序排列，求出CA的中值，当CA_i低于中值时，则该类簇为非属性类簇，将该类簇过滤掉；

其中，TF_i为聚类中心词i单独出现的次数，TF_si为聚类中心词i与情感词s共同出现的次数；

5.2)非属性标签过滤：首先计算聚类中心与各类簇成员的相似度Sim(Term[p,q],Exemplar[p])，得到一个相似度矩阵，然后对相似度按照大小进行降序排序，排名第v个之后的标签定义为非属性标签，并将非属性标签剔除掉；

步骤六、细粒度摄影偏好特征提取：

细粒度标签频率的计算：每个用户标签的标签频率为该标签在用户作品中出现的次数；

高频率标签的抽取：将细粒度标签频率大于所有标签频率的平均值的标签定义为高频率标签，组成高频率标签集合；

选取用户细粒度摄影偏好特征标签，通过以下方法：

6.1)选取前top-h个距离每个聚类中心近的标签，即与聚类中心的词间相似度较大的细粒度标签；

6.2)选取每个类簇中的高频率标签；

最后，得出可以准确地代表每个用户的细粒度摄影偏好特征标签子集；

步骤七、基于细粒度偏好特征和用户活跃度的好友推荐：

对目标用户进行好友推荐，通过以下方法：

7.1)计算特征代表性评价指标Frank

特征代表性评价指标Frank：用于评价用户偏好特征的细粒度标签的重要性，主要由细粒度标签频率和同一类簇中的细粒度标签与聚类中心的相似度组成。标签频率和相似度越大，Frank也就越大。

利用PageRank算法思想，结合标签频率和相似度，计算出每个用户的所有细粒度标签的Frank值。假设用户u具有G个细粒度标签，记用户u的每个细粒度标签Frank值为Fr_i ^u，则用户u的所有Frank值满足

例如用户A具有9个细粒度摄影偏好特征标签，则用户A的所有Frank值如下：

[0.2675,0.1510,0.1014,0.0812,0.0511,0.0963,0.0735,0.0625,0.1155]

7.2)计算目标用户与其他用户间的偏好特征相似度

统计所有用户偏好特征的细粒度标签最大个数W，将所有用户的Frank值转化为W维偏好特征向量，其中空值设为0；利用广义Jaccard相似度，计算目标用户与其他每个用户之间的相似度EJ(A,B)，具体计算公式如下：

EJ(A,B)＝(A*B)/(||A||²+||B||²-A*B) (5)

其中A、B分别表示目标用户Frank值的W维向量和其他每个用户的Frank值的W维向量，向量的每个维度取值为[0,1]之间的实数值，A*B表示向量乘积，||B||²表示向量的模，EJ(A,B)是一个实数；

(7.3)利用用户活度加权生成最终好友推荐列表

统计所有用户的作品数量、粉丝量和被浏览量最大值，对每个用户的作品数量、粉丝量和被浏览量进行归一化处理，具体方法如下：

用户活跃度＝λ₁*作品数量/最大用户作品数+λ₂*粉丝量/最大用户粉丝量+λ₃*被浏览量/最大被浏览量，其中λ₁+λ₂+λ₃＝1，λ₁、λ₂和λ₃均为系数；

将其他每个用户与目标用户间的偏好特征相似度EJ(A,B)与用户活跃度相乘，将乘积结果按照大小进行降序排列，选取前s个用户作为最终的好友推荐列表。

进一步的改进，所述细粒度标签的清洗的步骤如下：

(1)剔除用户所有标签中频率小于2的细粒度标签；

(2)剔除具有拼写错误的细粒度标签；

(3)剔除非标记属性的细粒度标签；

(4)将大写字母全部转换为小写字母；

(5)将繁体字全部转换为简体中文。

进一步的改进，所述用户信息包括账号ID、性别、所在城市、作品数量、粉丝量、被浏览量、成就、个性签名、技能和关注量。

进一步的改进，用户数据预处理：去除不合要求的用户信息步骤如下：将摄影作品数量少于5和所有标签数量少于10的用户进行剔除。

进一步的改进，使用PageRank算法，计算每个偏好特征细粒度标签的特征代表性评价指标Frank。

表1符号表

附图说明：

图1为基于深度学习的细粒度标签相似性聚类模型；

图2对细粒度标签之间的相似度进行AP聚类的流程图；

图3为目标用户推荐具有相似的细粒度摄影偏好好友的步骤示意图。

具体实施方式

下面通过具体实施例及附图对本发明做进一步的详述。

本专利具体技术方案说明如下：

一、用户信息和摄影作品标签信息获取

通过Python爬虫爬取500px网站中的用户信息数据和每个用户的作品标签数据，使用的爬虫框架具体如下：

①Requests：Requests库是用Python基于Urllib编写的，采用Apache2Licensed开源协议的Http库。相比Urllib库，Requests库更加方便和高效，并且满足Http测试需求。

②MongoDB：MongoDB是一款基于分布式文件存储的数据库，由C++语言编写，为Web应用提供可扩展的高性能数据存储解决方案，介于关系数据库和非关系数据库之间，在非关系数据库当中功能最为丰富，最接近关系数据库，适合存储从网页中爬取的关系数据。

③Redis：Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存和持久化的日志型、Key-Value数据库，并提供多种语言的API。

1.用户信息数据：

500px摄影社区的用户相关信息如下：

表2用户信息

账号ID	性别	所在城市	作品数量	粉丝量
					被浏览量	成就	个性签名	技能	关注量

2.摄影作品标签信息数据：

收集用户信息后，本专利还需收集用户的每个摄影作品的标签信息。用户上传摄影作品时会给出与图片相关的标签，例如铁路、日出、篮球等标签。所有的摄影作品大致可以分为以下类别：

表3摄影作品类别

抽象

动物

黑白

城市

商业

名人

音乐

生活

时尚

胶片

艺术

美食

纪实

自然

微距

人物

表演

运动

静

交通

旅行

水下

婚礼

建筑

风景

街拍

航拍

夜景

二、用户数据预处理

1.对用户数据进行清洗

用户的主要数据是包括账号ID、性别、所在城市、作品数量、粉丝量、被浏览量、成就，而在对用户所有作品的细粒度属性标签提取过程中，应将摄影作品数量少于5和所有标签数量少于10的用户进行剔除，因为较少的作品数量和标签数量无法较为准确的获取该用户的摄影偏好。

2.对用户活跃度进行加权处理

本专利提出利用用户活跃度来衡量好友质量。在摄影社区中，活跃用户的作品数量、粉丝量和被浏览量比较多，与其他用户的交互多，所获得的成就较高，好友摄影水平得到提升的可能性高。

用户活跃度＝λ₁*作品数量/最大用户作品数+λ₂*粉丝量/最大用户粉丝量+λ₃*被浏览量/最大被浏览量，其中λ₁+λ₂+λ₃＝1。

三、细粒度标签数据的预处理

本专利是从细粒度摄影偏好角度来对摄影社区用户进行精准的好友推荐，通过对每个用户的每个摄影作品的所有标签特征提取，来获取目标用户的摄影偏好，从而将具有相同摄影偏好的用户推荐给目标用户。而目标用户的标签数据往往是比较复杂的，所以进行对标签预处理是非常有必要的。

1.标签数据的清洗

(1)剔除目标用户所有标签中频率小于2的标签数据；

(2)剔除具有拼写错误的标签数据；

(3)剔除非标记属性的标签数据；

(4)将大写字母全部转换为小写字母；

(5)将繁体字全部转换为简体中文。

四、候选细粒度标签聚类

1.细粒度标签的词向量构建

skip-gram模型常用来将单词向量化表示，通过计算词向量间的余弦距离，获得词向量间的相似度；已有工作利用skip-gram模型训练，将在线商品评论词进行词向量表示，从而提取评论词属性。

本专利利用skip-gram模型训练维基百科语料库，采用分布式词向量表示，一般形式为[0.792,-0.177,-0.107,0.109,-0.542,…]，将每个候选标签映射成N维实数词向量；

采用分布式表示词向量的优点:

(1)词之间存在相似关系：

词之间存在“距离”概念，对自然语言处理任务非常有帮助。

(2)包含更多信息：

词向量能够包含更多信息，并且每一维都有特定的含义。

2.词向量的相似度计算

本专利采用余弦距离公式来计算词向量之间的相似度，余弦距离可以通过词向量的方向来判断两个词向量的相似度，与向量的各个维度相对大小有关，不受各个维度直接数值影响。具体计算公式如下：

其中，

表示选细粒度标签W_i的词向量的第k维，N表示向量的维度；

3.词向量相似度聚类

本专利采用近邻传播(AP)聚类方法对经过细粒度标签预处理后得到的候选标签进行聚类，AP聚类的输入数据为词向量之间的相似度，通过词向量间的相似度“信息传递”的聚类算法，不断迭代更新每个相似度数据的吸引信息与归属信息，直到产生稳定的聚类中心，并将非中心的相似度数据分配到相应的类簇。最后得到若干个聚类中心，每个类簇都是由相似度相近的标签数据组成。

更新吸引信息公式：

更新归属信息公式：

聚类中心：m＝max{a(m,n)+r(m,n)}，若m＝n，则m是聚类中心；若m≠n，则n是m的聚类中心。

为了评估聚类的性能，利用AP聚类中的净相似度进行聚类结果的评估，其值越大表示聚类效果越好。净相似度计算公式如下：

其中，K表示聚类后的类簇数量，Mp为类簇p中除聚类中心之外的其它聚类成员数量；Preference[p]表示为类簇p的聚类中心的参考值，Sim(Term[p,q],Exemplar[p])为类簇p中类簇中心与其他聚类成员之间的相似度；

五、细粒度标签降噪

为了提高AP聚类的效果，本专利通过过滤细粒度标签中的噪音，来提高AP聚类的质量和效率。AP聚类的噪音主要包括：①非属性类簇；②属性类簇中的非属性标签。

1.非属性类簇过滤

利用属性-情感词典过滤非属性类簇，定义CA_i＝TF_i/TF_si，将CA_i按照升序排列，求出CA的中值，当CA_i低于中值时，则该类簇为非属性类簇，将该类簇过滤掉。

其中，TF_i为聚类中心词i单独出现的次数，TF_si为聚类中心词i与情感词共同出现的次数。

2.非属性标签过滤

首先计算类簇中心与类簇各个标签的相似度，得到一个相似度矩阵。然后对相似度按照大小进行降序排序，排名top-k之后的标签定义为非属性标签，并将其剔除掉。

六、细粒度摄影偏好特征提取

细粒度标签频率的计算：每个用户的标签频率为每个标签出现的次数；

选取用户细粒度摄影偏好特征标签，主要通过以下方法：

(1)选取top-h个距离每个聚类中心较近的标签，即与聚类中心的词间相似度较大的细粒度标签；

(2)选取每个类簇中的高频率标签；

最后，得出可以准确地代表每个用户的细粒度摄影偏好标签子集。

七、细粒度偏好特征相似的好友推荐

1.计算特征代表性评价指标Frank

[0.2675,0.1510,0.1014,0.0812,0.0511,0.0963,0.0735,0.0625,0.1155]

2.计算目标用户与其他用户间的偏好特征相似度

EJ(A,B)＝(A*B)/(||A||²+||B||²-A*B) (5)

3.利用用户活度加权生成最终好友推荐列表

将其他每个用户与目标用户间的偏好特征相似度EJ(A,B)与用户活跃度相乘，将乘积结果按照大小进行降序排列，选取前top-u个用户作为最终的好友推荐列表。上述仅为本发明的一个具体导向实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明的保护范围的行为。

Claims

1.一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法，其特征在于，包括如下方法：

步骤一、获取用户信息和摄影作品细粒度标签，所述细粒度标签为用户上传摄影作品时给出与图片内容相关的标签；

步骤二、用户数据预处理：剔除不符合要求的用户信息；

4.1)将候选标签中重复的细粒度标签剔除；

4.2)使用skip-gram模型将单词向量化表示，通过计算词向量间的余弦距离，获得词向量间的相似度；已有工作利用skip-gram模型训练维基百科语料库，将在线商品评论词进行词向量表示，将每个候选标签映射成N维实数词向量；从而提取评论词属性；

其中，

表示候选细粒度标签W_i的词向量的第k维，N表示向量的维度；

表示候选细粒度标签W_j的词向量的第k维；cos(W_i,W_j)表示W_i和W_j的余弦距离；

更新吸引信息公式：

更新归属信息公式：

其中，K表示聚类后的类簇数量，M_p为类簇p中除聚类中心之外的其它聚类成员数量；Preference[p]表示为类簇p的聚类中心的参考值，Sim(Term[p,q],Exemplar[p])为类簇p中聚类中心与各类簇成员之间的相似度；

步骤五、细粒度标签降噪

步骤六、细粒度摄影偏好特征提取：

选取用户细粒度摄影偏好特征标签，通过以下方法：

6.1)选取top-h个距离每个聚类中心近的标签，即与聚类中心的词间相似度较大的细粒度标签；

6.2)选取每个类簇中的高频率标签；

步骤七、基于细粒度偏好特征和用户活跃度的好友推荐：

对目标用户进行好友推荐，通过以下方法：

7.1)计算特征代表性评价指标Frank

特征代表性评价指标Frank：用于评价用户偏好特征的细粒度标签的重要性，由细粒度标签频率和同一类簇中的细粒度标签与聚类中心的相似度组成；标签频率和相似度越大，Frank也就越大；

利用PageRank算法，结合标签频率和相似度，计算出每个用户的所有细粒度标签的Frank值；假设用户u具有G个细粒度标签，记用户u的每个细粒度标签Frank值为

则用户u的所有Frank值满足

7.2)计算目标用户与其他用户间的偏好特征相似度

EJ(A,B)＝(A*B)/(||A||²+||B||²-A*B) (5)

其中A、B分别表示目标用户Frank值的W维向量和其他每个用户的Frank值的W维向量，向量的每个维度取值为[0,1]之间的实数值，A*B表示向量乘积，||B||²表示向量B的模，EJ(A,B)是一个实数；

7.3)利用用户活度加权生成最终好友推荐列表

2.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法，其特征在于，所述细粒度标签的清洗的步骤如下：

(1)剔除用户所有标签中频率小于2的细粒度标签；

(2)剔除具有拼写错误的细粒度标签；

(3)剔除非标记属性的细粒度标签；

(4)将大写字母全部转换为小写字母；

(5)将繁体字全部转换为简体中文。

3.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法，其特征在于，所述用户信息包括账号ID、性别、所在城市、作品数量、粉丝量、被浏览量、成就、个性签名、技能和关注量。

4.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法，其特征在于，用户数据预处理：去除不合要求的用户信息步骤如下：将摄影作品数量少于5和所有标签数量少于10的用户进行剔除。

5.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法，其特征在于，使用PageRank算法，计算每个偏好特征细粒度标签的特征代表性评价指标Frank。