CN109960763B - 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 - Google Patents
基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 Download PDFInfo
- Publication number
- CN109960763B CN109960763B CN201910218748.1A CN201910218748A CN109960763B CN 109960763 B CN109960763 B CN 109960763B CN 201910218748 A CN201910218748 A CN 201910218748A CN 109960763 B CN109960763 B CN 109960763B
- Authority
- CN
- China
- Prior art keywords
- user
- fine
- grained
- labels
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 61
- 230000000694 effects Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 5
- 230000008451 emotion Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007334 copolymerization reaction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000013016 learning Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 239000005648 plant growth regulator Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法。本发明主要是从用户摄影作品的细粒度标签的角度来提取细粒度摄影偏好,通过对用户细粒度标签的相似度进行计算,再通过聚类算法,将相似度较大的标签聚类成若干个类簇。提取每个类簇中离聚类中心近的细粒度标签和高频率标签,以便精确刻画用户的细粒度摄影偏好。最后,结合用户活跃度如作品数量、粉丝量和被浏览量,对用户摄影偏好进行加权处理,使得优先推荐用户活跃度更高的用户作为目标用户的潜在好友,从而提高摄影社区个性化好友推荐的质量。
Description
技术领域
本发明涉及一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法,属于社交网络和推荐系统领域。
背景技术
现有摄影社区的好友推荐通常利用网络结构或粗粒度分类,仍处于相对初级的阶段,并且未考虑好友推荐质量(比如所推荐好友可能活跃度低,只有少量作品、交互少等等)。摄影爱好者是一类具有特定爱好的人群,通过细分其摄影类型和特点,为用户推荐与其具有相同或相似摄影偏好的潜在好友,对提升摄影社区用户体验,增加用户黏度,是非常有必要的。因此,本专利提出一种基于用户细粒度摄影偏好的个性化好友推荐,针对摄影社区这类特殊的社交网络进行用户摄影作品细粒度标签的特征提取,并结合用户活跃度来确保所推荐好友的质量,以500px摄影社区进行个例研究分析,实现该类社区中的好友推荐,增强摄影社区的用户体验。
传统的好友推荐技术主要是基于三元闭包理论,通过用户的共同好友数目进行推荐好友,例如QQ、新浪微博等。然而在一个用户信息量庞大的摄影社区的社交网络中,依靠传统的好友推荐技术并不能很好地进行个性化好友推荐。
目前基于摄影社区好友推荐的主要技术有基于网络关联和共聚类的好友推荐。该技术方案目前应用于Flickr图片分享社区,主要通过分为两个阶段。第一个阶段包括将整个网络划分为友谊网络和标签网络、网络关联对齐,第二个阶段包括可能好友列表扩展和三支共聚类操作。
虽然该技术可以在对摄影社区这个庞大的社交网络中的数据进行了分类,一定程度上提高了好友推荐的效率,但是由于三支共聚类方法的局限性,导致好友推荐的精度不高。另外,对可能好友列表的扩充也会带来数据的冗余和降低好友推荐的效率。最后,现有技术未考虑所推荐好友的质量,即好友能否带来有益的交互、学习和提高。
摄影社区中,用户为每张作品都给出了很多细粒度属性标签,例如天空、山水、日出、雪景等。然而,摄影社区对摄影作品的分类往往是粗粒度的。因此,仅仅依据摄影社区的分类进行好友推荐会导致对摄影爱好者的摄影偏好定位不准确、推荐精度低。例如,用户A的摄影偏好是鸟类,用户B的摄影偏好是猛兽。如果按粗粒度标记,用户A和B的摄影偏好都是动物,但实际上用户A和B在细粒度摄影偏好存在很大的差距。现有摄影社区好友推荐技术缺乏对用户细粒度摄影偏好的研究,因此,本专利提出通过提取标签的细粒度属性来提高摄影社区的个性化好友推荐精度。通过对细粒度标签特征提取,能够获取更详细的用户摄影偏好信息,从而可以更精准地为目标用户推荐具有相似摄影偏好的好友。
名词解释:
净相似度:表示聚类中心解释细粒度标签的合适程度。
吸引信息:描述细粒度标签m适合作为细粒度标签n的聚类中心的程度。
归属信息:反映细粒度标签n归属于以细粒度标签m为聚类中心的类簇的合适程度。
属性-情感词典:属性词是指一类具有能够描述某一实体属性的文本;情感词是指一类可以表达某一实体情感的文本,通常将情感类别分为3类:正向,负向和中性;本专利使用HowNet和WordNet词库来作为属性-情感词典。
用户活跃度:指用户的作品数量、粉丝量和被浏览量;作品数量、粉丝量和被浏览量越多,则用户活跃度越高。
特征代表性评价指标Frank:用于评价用户偏好特征的细粒度标签的重要性,与细粒度标签频率和同一类簇中的细粒度标签与聚类中心间的相似度有关。
skip-gram模型:即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。
发明内容
为解决上述问题,本发明提供了一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法。本发明主要是从用户摄影作品的细粒度标签的角度来提取细粒度摄影偏好,通过对每个标签间的相似度进行计算,再通过聚类算法,将相似度接近的标签聚类成若干个类簇,最后选取每个类簇中离聚类中心较近的细粒度标签和每个类簇中的高频率标签,作为最终的用户摄影偏好特征集,达到精确提取用户细粒度摄影偏好的目的。使用PageRank算法,计算每个偏好特征细粒度标签的重要性Frank值,将Frank值转化为向量,然后利用广义Jaccard相似度计算目标用户与其他每个用户之间的偏好特征相似度,并乘以用户活跃度,将所得乘积结果按照大小进行降序排序,取top-u用户作为最后好友推荐列表。
为达到上述技术效果,本发明的技术方案是:
一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法,包括如下方法:
步骤一、获取用户信息和摄影作品细粒度标签,所述细粒度标签为用户上传摄影作品时给出的与图片相关的标签;
步骤二、用户数据预处理:剔除不符合要求的用户信息;
步骤三、细粒度标签的清洗,剔除不符合要求的细粒度标签;
步骤四、通过细粒度标签的清洗后得到候选标签集,将候选标签聚类,包括如下步骤:
4.1)将候选标签中重复的细粒度标签剔除;
4.2)skip-gram模型常用来将单词向量化表示,通过计算词向量间的余弦距离,获得词向量间的相似度;已有工作利用skip-gram模型训练维基百科语料库,将在线商品评论词进行词向量表示,将每个候选标签映射成N维实数词向量;从而提取评论词属性;
4.3)计算词向量之间的余弦距离来获取候选标签间的语义相似度;余弦距离的计算公式如下:
4.3)词向量相似度聚类:采用近邻传播聚类方法对候选标签进行聚类,AP聚类方法的输入数据为词向量之间的余弦相似度,不断迭代更新每个相似度数据的吸引信息与归属信息,直到产生稳定的聚类中心,并将非中心的相似度数据分配到对应的类簇;得到若干个类簇;
更新吸引信息公式:
更新归属信息公式:
其中r表示吸引信息,a表示归属信息,S为相似度矩阵,S(m,n)取m和n的欧式距离负值;当m=n时,S(m,n)取整个矩阵的最小值或中位数;S(m,n)值越大,最终产生的聚类数量越多;m和n分别表示在同一类簇中的两个数据对象,t表示迭代的次数,rt+1(m,n)表示第t+1次迭代的吸引信息,at+1(m,n)表示第t+1次迭代的归属信息;
对于聚类中心:设m=max{a(m,n)+r(m,n)},若此时m=n,则m是聚类中心;若此时m≠n,则n是m的聚类中心;
4.4)利用近邻传播聚类方法中的净相似度进行聚类结果的评估,净相似度值越大表示聚类效果越好,计算公式如下:
其中,K表示聚类后的类簇数量,Mp为类簇p中除聚类中心之外的其它聚类成员数量;Preference[p]表示为类簇p的聚类中心的参考值,Sim(Term[p,q],Exemplar[p])为类簇p中类簇中心与其他聚类成员之间的相似度;
步骤五、细粒度标签降噪
5.1)非属性类簇过滤:利用属性-情感词典来过滤非属性类簇,
定义CAi=TFi/TFsi,将CAi按照升序排列,求出CA的中值,当CAi低于中值时,则该类簇为非属性类簇,将该类簇过滤掉;
其中,TFi为聚类中心词i单独出现的次数,TFsi为聚类中心词i与情感词s共同出现的次数;
5.2)非属性标签过滤:首先计算聚类中心与各类簇成员的相似度Sim(Term[p,q],Exemplar[p]),得到一个相似度矩阵,然后对相似度按照大小进行降序排序,排名第v个之后的标签定义为非属性标签,并将非属性标签剔除掉;
步骤六、细粒度摄影偏好特征提取:
细粒度标签频率的计算:每个用户标签的标签频率为该标签在用户作品中出现的次数;
高频率标签的抽取:将细粒度标签频率大于所有标签频率的平均值的标签定义为高频率标签,组成高频率标签集合;
选取用户细粒度摄影偏好特征标签,通过以下方法:
6.1)选取前top-h个距离每个聚类中心近的标签,即与聚类中心的词间相似度较大的细粒度标签;
6.2)选取每个类簇中的高频率标签;
最后,得出可以准确地代表每个用户的细粒度摄影偏好特征标签子集;
步骤七、基于细粒度偏好特征和用户活跃度的好友推荐:
对目标用户进行好友推荐,通过以下方法:
7.1)计算特征代表性评价指标Frank
特征代表性评价指标Frank:用于评价用户偏好特征的细粒度标签的重要性,主要由细粒度标签频率和同一类簇中的细粒度标签与聚类中心的相似度组成。标签频率和相似度越大,Frank也就越大。
利用PageRank算法思想,结合标签频率和相似度,计算出每个用户的所有细粒度标签的Frank值。假设用户u具有G个细粒度标签,记用户u的每个细粒度标签Frank值为Fri u,则用户u的所有Frank值满足
例如用户A具有9个细粒度摄影偏好特征标签,则用户A的所有Frank值如下:
[0.2675,0.1510,0.1014,0.0812,0.0511,0.0963,0.0735,0.0625,0.1155]
7.2)计算目标用户与其他用户间的偏好特征相似度
统计所有用户偏好特征的细粒度标签最大个数W,将所有用户的Frank值转化为W维偏好特征向量,其中空值设为0;利用广义Jaccard相似度,计算目标用户与其他每个用户之间的相似度EJ(A,B),具体计算公式如下:
EJ(A,B)=(A*B)/(||A||2+||B||2-A*B) (5)
其中A、B分别表示目标用户Frank值的W维向量和其他每个用户的Frank值的W维向量,向量的每个维度取值为[0,1]之间的实数值,A*B表示向量乘积,||B||2表示向量的模,EJ(A,B)是一个实数;
(7.3)利用用户活度加权生成最终好友推荐列表
统计所有用户的作品数量、粉丝量和被浏览量最大值,对每个用户的作品数量、粉丝量和被浏览量进行归一化处理,具体方法如下:
用户活跃度=λ1*作品数量/最大用户作品数+λ2*粉丝量/最大用户粉丝量+λ3*被浏览量/最大被浏览量,其中λ1+λ2+λ3=1,λ1、λ2和λ3均为系数;
将其他每个用户与目标用户间的偏好特征相似度EJ(A,B)与用户活跃度相乘,将乘积结果按照大小进行降序排列,选取前s个用户作为最终的好友推荐列表。
进一步的改进,所述细粒度标签的清洗的步骤如下:
(1)剔除用户所有标签中频率小于2的细粒度标签;
(2)剔除具有拼写错误的细粒度标签;
(3)剔除非标记属性的细粒度标签;
(4)将大写字母全部转换为小写字母;
(5)将繁体字全部转换为简体中文。
进一步的改进,所述用户信息包括账号ID、性别、所在城市、作品数量、粉丝量、被浏览量、成就、个性签名、技能和关注量。
进一步的改进,用户数据预处理:去除不合要求的用户信息步骤如下:将摄影作品数量少于5和所有标签数量少于10的用户进行剔除。
进一步的改进,使用PageRank算法,计算每个偏好特征细粒度标签的特征代表性评价指标Frank。
表1符号表
附图说明:
图1为基于深度学习的细粒度标签相似性聚类模型;
图2对细粒度标签之间的相似度进行AP聚类的流程图;
图3为目标用户推荐具有相似的细粒度摄影偏好好友的步骤示意图。
具体实施方式
下面通过具体实施例及附图对本发明做进一步的详述。
本专利具体技术方案说明如下:
一、用户信息和摄影作品标签信息获取
通过Python爬虫爬取500px网站中的用户信息数据和每个用户的作品标签数据,使用的爬虫框架具体如下:
①Requests:Requests库是用Python基于Urllib编写的,采用Apache2Licensed开源协议的Http库。相比Urllib库,Requests库更加方便和高效,并且满足Http测试需求。
②MongoDB:MongoDB是一款基于分布式文件存储的数据库,由C++语言编写,为Web应用提供可扩展的高性能数据存储解决方案,介于关系数据库和非关系数据库之间,在非关系数据库当中功能最为丰富,最接近关系数据库,适合存储从网页中爬取的关系数据。
③Redis:Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存和持久化的日志型、Key-Value数据库,并提供多种语言的API。
1.用户信息数据:
500px摄影社区的用户相关信息如下:
表2用户信息
账号ID | 性别 | 所在城市 | 作品数量 | 粉丝量 |
被浏览量 | 成就 | 个性签名 | 技能 | 关注量 |
2.摄影作品标签信息数据:
收集用户信息后,本专利还需收集用户的每个摄影作品的标签信息。用户上传摄影作品时会给出与图片相关的标签,例如铁路、日出、篮球等标签。所有的摄影作品大致可以分为以下类别:
表3摄影作品类别
抽象 | 动物 | 黑白 | 城市 | 商业 | 名人 | 音乐 |
生活 | 时尚 | 胶片 | 艺术 | 美食 | 纪实 | 自然 |
微距 | 人物 | 表演 | 运动 | 静 | 交通 | 旅行 |
水下 | 婚礼 | 建筑 | 风景 | 街拍 | 航拍 | 夜景 |
二、用户数据预处理
1.对用户数据进行清洗
用户的主要数据是包括账号ID、性别、所在城市、作品数量、粉丝量、被浏览量、成就,而在对用户所有作品的细粒度属性标签提取过程中,应将摄影作品数量少于5和所有标签数量少于10的用户进行剔除,因为较少的作品数量和标签数量无法较为准确的获取该用户的摄影偏好。
2.对用户活跃度进行加权处理
本专利提出利用用户活跃度来衡量好友质量。在摄影社区中,活跃用户的作品数量、粉丝量和被浏览量比较多,与其他用户的交互多,所获得的成就较高,好友摄影水平得到提升的可能性高。
用户活跃度=λ1*作品数量/最大用户作品数+λ2*粉丝量/最大用户粉丝量+λ3*被浏览量/最大被浏览量,其中λ1+λ2+λ3=1。
三、细粒度标签数据的预处理
本专利是从细粒度摄影偏好角度来对摄影社区用户进行精准的好友推荐,通过对每个用户的每个摄影作品的所有标签特征提取,来获取目标用户的摄影偏好,从而将具有相同摄影偏好的用户推荐给目标用户。而目标用户的标签数据往往是比较复杂的,所以进行对标签预处理是非常有必要的。
1.标签数据的清洗
(1)剔除目标用户所有标签中频率小于2的标签数据;
(2)剔除具有拼写错误的标签数据;
(3)剔除非标记属性的标签数据;
(4)将大写字母全部转换为小写字母;
(5)将繁体字全部转换为简体中文。
四、候选细粒度标签聚类
1.细粒度标签的词向量构建
skip-gram模型常用来将单词向量化表示,通过计算词向量间的余弦距离,获得词向量间的相似度;已有工作利用skip-gram模型训练,将在线商品评论词进行词向量表示,从而提取评论词属性。
本专利利用skip-gram模型训练维基百科语料库,采用分布式词向量表示,一般形式为[0.792,-0.177,-0.107,0.109,-0.542,…],将每个候选标签映射成N维实数词向量;
采用分布式表示词向量的优点:
(1)词之间存在相似关系:
词之间存在“距离”概念,对自然语言处理任务非常有帮助。
(2)包含更多信息:
词向量能够包含更多信息,并且每一维都有特定的含义。
2.词向量的相似度计算
本专利采用余弦距离公式来计算词向量之间的相似度,余弦距离可以通过词向量的方向来判断两个词向量的相似度,与向量的各个维度相对大小有关,不受各个维度直接数值影响。具体计算公式如下:
3.词向量相似度聚类
本专利采用近邻传播(AP)聚类方法对经过细粒度标签预处理后得到的候选标签进行聚类,AP聚类的输入数据为词向量之间的相似度,通过词向量间的相似度“信息传递”的聚类算法,不断迭代更新每个相似度数据的吸引信息与归属信息,直到产生稳定的聚类中心,并将非中心的相似度数据分配到相应的类簇。最后得到若干个聚类中心,每个类簇都是由相似度相近的标签数据组成。
更新吸引信息公式:
更新归属信息公式:
其中r表示吸引信息,a表示归属信息,S为相似度矩阵,S(m,n)取m和n的欧式距离负值;当m=n时,S(m,n)取整个矩阵的最小值或中位数;S(m,n)值越大,最终产生的聚类数量越多;m和n分别表示在同一类簇中的两个数据对象,t表示迭代的次数,rt+1(m,n)表示第t+1次迭代的吸引信息,at+1(m,n)表示第t+1次迭代的归属信息;
聚类中心:m=max{a(m,n)+r(m,n)},若m=n,则m是聚类中心;若m≠n,则n是m的聚类中心。
为了评估聚类的性能,利用AP聚类中的净相似度进行聚类结果的评估,其值越大表示聚类效果越好。净相似度计算公式如下:
其中,K表示聚类后的类簇数量,Mp为类簇p中除聚类中心之外的其它聚类成员数量;Preference[p]表示为类簇p的聚类中心的参考值,Sim(Term[p,q],Exemplar[p])为类簇p中类簇中心与其他聚类成员之间的相似度;
五、细粒度标签降噪
为了提高AP聚类的效果,本专利通过过滤细粒度标签中的噪音,来提高AP聚类的质量和效率。AP聚类的噪音主要包括:①非属性类簇;②属性类簇中的非属性标签。
1.非属性类簇过滤
利用属性-情感词典过滤非属性类簇,定义CAi=TFi/TFsi,将CAi按照升序排列,求出CA的中值,当CAi低于中值时,则该类簇为非属性类簇,将该类簇过滤掉。
其中,TFi为聚类中心词i单独出现的次数,TFsi为聚类中心词i与情感词共同出现的次数。
2.非属性标签过滤
首先计算类簇中心与类簇各个标签的相似度,得到一个相似度矩阵。然后对相似度按照大小进行降序排序,排名top-k之后的标签定义为非属性标签,并将其剔除掉。
六、细粒度摄影偏好特征提取
细粒度标签频率的计算:每个用户的标签频率为每个标签出现的次数;
高频率标签的抽取:将细粒度标签频率大于所有标签频率的平均值的标签定义为高频率标签,组成高频率标签集合;
选取用户细粒度摄影偏好特征标签,主要通过以下方法:
(1)选取top-h个距离每个聚类中心较近的标签,即与聚类中心的词间相似度较大的细粒度标签;
(2)选取每个类簇中的高频率标签;
最后,得出可以准确地代表每个用户的细粒度摄影偏好标签子集。
七、细粒度偏好特征相似的好友推荐
1.计算特征代表性评价指标Frank
特征代表性评价指标Frank:用于评价用户偏好特征的细粒度标签的重要性,主要由细粒度标签频率和同一类簇中的细粒度标签与聚类中心的相似度组成。标签频率和相似度越大,Frank也就越大。
利用PageRank算法思想,结合标签频率和相似度,计算出每个用户的所有细粒度标签的Frank值。假设用户u具有G个细粒度标签,记用户u的每个细粒度标签Frank值为Fri u,则用户u的所有Frank值满足
例如用户A具有9个细粒度摄影偏好特征标签,则用户A的所有Frank值如下:
[0.2675,0.1510,0.1014,0.0812,0.0511,0.0963,0.0735,0.0625,0.1155]
2.计算目标用户与其他用户间的偏好特征相似度
统计所有用户偏好特征的细粒度标签最大个数W,将所有用户的Frank值转化为W维偏好特征向量,其中空值设为0;利用广义Jaccard相似度,计算目标用户与其他每个用户之间的相似度EJ(A,B),具体计算公式如下:
EJ(A,B)=(A*B)/(||A||2+||B||2-A*B) (5)
其中A、B分别表示目标用户Frank值的W维向量和其他每个用户的Frank值的W维向量,向量的每个维度取值为[0,1]之间的实数值,A*B表示向量乘积,||B||2表示向量的模,EJ(A,B)是一个实数;
3.利用用户活度加权生成最终好友推荐列表
统计所有用户的作品数量、粉丝量和被浏览量最大值,对每个用户的作品数量、粉丝量和被浏览量进行归一化处理,具体方法如下:
用户活跃度=λ1*作品数量/最大用户作品数+λ2*粉丝量/最大用户粉丝量+λ3*被浏览量/最大被浏览量,其中λ1+λ2+λ3=1,λ1、λ2和λ3均为系数;
将其他每个用户与目标用户间的偏好特征相似度EJ(A,B)与用户活跃度相乘,将乘积结果按照大小进行降序排列,选取前top-u个用户作为最终的好友推荐列表。上述仅为本发明的一个具体导向实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明的保护范围的行为。
Claims (5)
1.一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法,其特征在于,包括如下方法:
步骤一、获取用户信息和摄影作品细粒度标签,所述细粒度标签为用户上传摄影作品时给出与图片内容相关的标签;
步骤二、用户数据预处理:剔除不符合要求的用户信息;
步骤三、细粒度标签的清洗,剔除不符合要求的细粒度标签;
步骤四、通过细粒度标签的清洗后得到候选标签集,将候选标签聚类,包括如下步骤:
4.1)将候选标签中重复的细粒度标签剔除;
4.2)使用skip-gram模型将单词向量化表示,通过计算词向量间的余弦距离,获得词向量间的相似度;已有工作利用skip-gram模型训练维基百科语料库,将在线商品评论词进行词向量表示,将每个候选标签映射成N维实数词向量;从而提取评论词属性;
4.3)计算词向量之间的余弦距离来获取候选标签间的语义相似度;余弦距离的计算公式如下:
4.3)词向量相似度聚类:采用近邻传播聚类方法对候选标签进行聚类,AP聚类方法的输入数据为词向量之间的余弦相似度,不断迭代更新每个相似度数据的吸引信息与归属信息,直到产生稳定的聚类中心,并将非中心的相似度数据分配到对应的类簇;得到若干个类簇;
更新吸引信息公式:
更新归属信息公式:
其中r表示吸引信息,a表示归属信息,S为相似度矩阵,S(m,n)取m和n的欧式距离负值;当m=n时,S(m,n)取整个矩阵的最小值或中位数;S(m,n)值越大,最终产生的聚类数量越多;m和n分别表示在同一类簇中的两个数据对象,t表示迭代的次数,rt+1(m,n)表示第t+1次迭代的吸引信息,at+1(m,n)表示第t+1次迭代的归属信息;
对于聚类中心:设m=max{a(m,n)+r(m,n)},若此时m=n,则m是聚类中心;若此时m≠n,则n是m的聚类中心;
4.4)利用近邻传播聚类方法中的净相似度进行聚类结果的评估,净相似度值越大表示聚类效果越好,计算公式如下:
其中,K表示聚类后的类簇数量,Mp为类簇p中除聚类中心之外的其它聚类成员数量;Preference[p]表示为类簇p的聚类中心的参考值,Sim(Term[p,q],Exemplar[p])为类簇p中聚类中心与各类簇成员之间的相似度;
步骤五、细粒度标签降噪
5.1)非属性类簇过滤:利用属性-情感词典来过滤非属性类簇,
定义CAi=TFi/TFsi,将CAi按照升序排列,求出CA的中值,当CAi低于中值时,则该类簇为非属性类簇,将该类簇过滤掉;
其中,TFi为聚类中心词i单独出现的次数,TFsi为聚类中心词i与情感词s共同出现的次数;
5.2)非属性标签过滤:首先计算聚类中心与各类簇成员的相似度Sim(Term[p,q],Exemplar[p]),得到一个相似度矩阵,然后对相似度按照大小进行降序排序,排名第v个之后的标签定义为非属性标签,并将非属性标签剔除掉;
步骤六、细粒度摄影偏好特征提取:
细粒度标签频率的计算:每个用户标签的标签频率为该标签在用户作品中出现的次数;
高频率标签的抽取:将细粒度标签频率大于所有标签频率的平均值的标签定义为高频率标签,组成高频率标签集合;
选取用户细粒度摄影偏好特征标签,通过以下方法:
6.1)选取top-h个距离每个聚类中心近的标签,即与聚类中心的词间相似度较大的细粒度标签;
6.2)选取每个类簇中的高频率标签;
最后,得出可以准确地代表每个用户的细粒度摄影偏好特征标签子集;
步骤七、基于细粒度偏好特征和用户活跃度的好友推荐:
对目标用户进行好友推荐,通过以下方法:
7.1)计算特征代表性评价指标Frank
特征代表性评价指标Frank:用于评价用户偏好特征的细粒度标签的重要性,由细粒度标签频率和同一类簇中的细粒度标签与聚类中心的相似度组成;标签频率和相似度越大,Frank也就越大;
7.2)计算目标用户与其他用户间的偏好特征相似度
统计所有用户偏好特征的细粒度标签最大个数W,将所有用户的Frank值转化为W维偏好特征向量,其中空值设为0;利用广义Jaccard相似度,计算目标用户与其他每个用户之间的相似度EJ(A,B),具体计算公式如下:
EJ(A,B)=(A*B)/(||A||2+||B||2-A*B) (5)
其中A、B分别表示目标用户Frank值的W维向量和其他每个用户的Frank值的W维向量,向量的每个维度取值为[0,1]之间的实数值,A*B表示向量乘积,||B||2表示向量B的模,EJ(A,B)是一个实数;
7.3)利用用户活度加权生成最终好友推荐列表
统计所有用户的作品数量、粉丝量和被浏览量最大值,对每个用户的作品数量、粉丝量和被浏览量进行归一化处理,具体方法如下:
用户活跃度=λ1*作品数量/最大用户作品数+λ2*粉丝量/最大用户粉丝量+λ3*被浏览量/最大被浏览量,其中λ1+λ2+λ3=1,λ1、λ2和λ3均为系数;
将其他每个用户与目标用户间的偏好特征相似度EJ(A,B)与用户活跃度相乘,将乘积结果按照大小进行降序排列,选取前s个用户作为最终的好友推荐列表。
2.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法,其特征在于,所述细粒度标签的清洗的步骤如下:
(1)剔除用户所有标签中频率小于2的细粒度标签;
(2)剔除具有拼写错误的细粒度标签;
(3)剔除非标记属性的细粒度标签;
(4)将大写字母全部转换为小写字母;
(5)将繁体字全部转换为简体中文。
3.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法,其特征在于,所述用户信息包括账号ID、性别、所在城市、作品数量、粉丝量、被浏览量、成就、个性签名、技能和关注量。
4.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法,其特征在于,用户数据预处理:去除不合要求的用户信息步骤如下:将摄影作品数量少于5和所有标签数量少于10的用户进行剔除。
5.如权利要求1所述的基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法,其特征在于,使用PageRank算法,计算每个偏好特征细粒度标签的特征代表性评价指标Frank。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910218748.1A CN109960763B (zh) | 2019-03-21 | 2019-03-21 | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910218748.1A CN109960763B (zh) | 2019-03-21 | 2019-03-21 | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109960763A CN109960763A (zh) | 2019-07-02 |
CN109960763B true CN109960763B (zh) | 2020-12-22 |
Family
ID=67024747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910218748.1A Active CN109960763B (zh) | 2019-03-21 | 2019-03-21 | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109960763B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110457598A (zh) * | 2019-08-08 | 2019-11-15 | 上海掌门科技有限公司 | 用户查找方法、用于用户查找的装置和计算机可读介质 |
CN110929166B (zh) * | 2019-12-27 | 2023-10-20 | 咪咕文化科技有限公司 | 一种内容推荐的方法、电子设备和存储介质 |
CN111400582A (zh) * | 2020-03-09 | 2020-07-10 | Oppo广东移动通信有限公司 | 好友推荐方法、装置、存储介质及电子设备 |
CN111638832A (zh) * | 2020-04-23 | 2020-09-08 | 北京达佳互联信息技术有限公司 | 信息展示方法、装置、系统、电子设备及存储介质 |
CN111708952B (zh) * | 2020-06-18 | 2023-10-20 | 小红书科技有限公司 | 一种标签推荐方法及系统 |
CN112016003B (zh) * | 2020-08-19 | 2022-07-12 | 重庆邮电大学 | 基于cnn的社交小众用户标签挖掘及相似用户推荐方法 |
CN112434722B (zh) * | 2020-10-23 | 2024-03-19 | 浙江智慧视频安防创新中心有限公司 | 基于类别相似度的标签平滑计算的方法、装置、电子设备及介质 |
CN112650852A (zh) * | 2021-01-06 | 2021-04-13 | 广东泰迪智能科技股份有限公司 | 一种基于命名实体和ap聚类的事件归并方法 |
CN112508134B (zh) * | 2021-02-02 | 2021-06-04 | 贝壳找房(北京)科技有限公司 | 度量集合间相似度的方法、装置、介质和电子设备 |
CN115062732B (zh) * | 2022-08-18 | 2022-11-11 | 睿驰(深圳)智能有限公司 | 基于大数据用户标签信息的资源共享合作推荐方法及系统 |
CN115544386A (zh) * | 2022-12-02 | 2022-12-30 | 南京新米网络科技有限公司 | 一种推荐用户的方法、装置及存储介质 |
CN117708199A (zh) * | 2023-12-14 | 2024-03-15 | 北京智乐享科技有限公司 | 基于标签用户模型的信息检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402625A (zh) * | 2011-12-28 | 2012-04-04 | 深圳市五巨科技有限公司 | 一种音乐推荐的方法及系统 |
CN102637178A (zh) * | 2011-02-14 | 2012-08-15 | 北京瑞信在线系统技术有限公司 | 一种音乐推荐方法、装置及系统 |
CN102654859A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种歌曲推荐方法及系统 |
CN105045916A (zh) * | 2015-08-20 | 2015-11-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种手机游戏推荐系统及其推荐方法 |
CN106126669A (zh) * | 2016-06-28 | 2016-11-16 | 北京邮电大学 | 基于标签的用户协同过滤内容推荐方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110131224A1 (en) * | 2009-12-02 | 2011-06-02 | International Business Machines Corporation | Methods for Creating a Recommended Device List from Metrics |
CN106446211A (zh) * | 2016-09-30 | 2017-02-22 | 中国人民大学 | 一种在特定区域内推荐拍摄地点的方法 |
CN108363821A (zh) * | 2018-05-09 | 2018-08-03 | 深圳壹账通智能科技有限公司 | 一种信息推送方法、装置、终端设备及存储介质 |
-
2019
- 2019-03-21 CN CN201910218748.1A patent/CN109960763B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102637178A (zh) * | 2011-02-14 | 2012-08-15 | 北京瑞信在线系统技术有限公司 | 一种音乐推荐方法、装置及系统 |
CN102654859A (zh) * | 2011-03-01 | 2012-09-05 | 北京彩云在线技术开发有限公司 | 一种歌曲推荐方法及系统 |
CN102402625A (zh) * | 2011-12-28 | 2012-04-04 | 深圳市五巨科技有限公司 | 一种音乐推荐的方法及系统 |
CN105045916A (zh) * | 2015-08-20 | 2015-11-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种手机游戏推荐系统及其推荐方法 |
CN106126669A (zh) * | 2016-06-28 | 2016-11-16 | 北京邮电大学 | 基于标签的用户协同过滤内容推荐方法及装置 |
Non-Patent Citations (2)
Title |
---|
On selecting recommenders for trust evalution in online social networks;姜文君等;《ACM transactions on Internet Technology》;20151231;正文1-8页 * |
协同过滤推荐算法研究:考虑在线评论情感倾向;王伟等;《系统工程理论与实践》;20141225;正文第3238-3247页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109960763A (zh) | 2019-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960763B (zh) | 基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
CN108492200B (zh) | 一种基于卷积神经网络的用户属性推断方法和装置 | |
CN109815308B (zh) | 意图识别模型的确定及检索意图识别方法、装置 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110674407A (zh) | 基于图卷积神经网络的混合推荐方法 | |
CN110399895A (zh) | 图像识别的方法和装置 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN107895303B (zh) | 一种基于ocean模型的个性化推荐的方法 | |
CN108460153A (zh) | 一种混合博文与用户关系的社交媒体好友推荐方法 | |
CN110990670B (zh) | 一种成长激励型图书推荐方法及推荐系统 | |
CN106934005A (zh) | 一种基于密度的文本聚类方法 | |
WO2013049529A1 (en) | Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis | |
CN108875034A (zh) | 一种基于层次化长短期记忆网络的中文文本分类方法 | |
CN109145083A (zh) | 一种基于深度学习的候选答案选取方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116756347A (zh) | 一种基于大数据的语义信息检索方法 | |
Meng et al. | Concept-concept association information integration and multi-model collaboration for multimedia semantic concept detection | |
Ding et al. | Context-aware semantic type identification for relational attributes | |
CN110674293B (zh) | 一种基于语义迁移的文本分类方法 | |
Lei et al. | Personalized Item Recommendation Algorithm for Outdoor Sports | |
Tang et al. | An efficient concept detection system via sparse ensemble learning | |
Xu et al. | Obj-glove: Scene-based contextual object embedding | |
Sato et al. | Text classification and transfer learning based on character-level deep convolutional neural networks | |
CN110489660A (zh) | 一种社交媒体公开数据的用户经济状况画像方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |