CN103823888A - 一种基于节点亲密度的社交网站好友推荐方法 - Google Patents
一种基于节点亲密度的社交网站好友推荐方法 Download PDFInfo
- Publication number
- CN103823888A CN103823888A CN201410084411.3A CN201410084411A CN103823888A CN 103823888 A CN103823888 A CN 103823888A CN 201410084411 A CN201410084411 A CN 201410084411A CN 103823888 A CN103823888 A CN 103823888A
- Authority
- CN
- China
- Prior art keywords
- user
- cohesion
- close attention
- matrix
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000011159 matrix material Substances 0.000 claims description 52
- 230000006855 networking Effects 0.000 claims description 19
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 16
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 16
- 238000012216 screening Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000005452 bending Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 230000002040 relaxant effect Effects 0.000 claims description 4
- 230000000052 comparative effect Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 12
- 238000011161 development Methods 0.000 description 4
- 244000097202 Rathbunia alamosensis Species 0.000 description 3
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000270322 Lepidosauria Species 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 108010039224 Amidophosphoribosyltransferase Proteins 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- NUFNQYOELLVIPL-UHFFFAOYSA-N acifluorfen Chemical compound C1=C([N+]([O-])=O)C(C(=O)O)=CC(OC=2C(=CC(=CC=2)C(F)(F)F)Cl)=C1 NUFNQYOELLVIPL-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005309 stochastic process Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于节点亲密度的社交网站好友推荐方法,与现有技术相比解决了社交网站好友推荐方法中标签推荐带来的关注关系易聚集化、难以扩张的缺陷。本发明包括数据提取,提取社交网站中用户的信息和好友关系;数据预处理,剔除无关数据,建立微博数据类型,微博数据类型包括用户的微博信息列表和粉丝关系列表;根据用户亲密度推荐好友。本发明可以在社交网络中实时地根据亲密度向用户推荐关注对象,高效快捷的帮助用户管理自己的好友关系。
Description
技术领域
本发明涉及关注对象推荐方法技术领域,具体来说是一种基于节点亲密度的社交网站好友推荐方法。
背景技术
近几年来,随着社交网络的快速发展,国内也出现了大量的被广泛使用的社交网站,如新浪微博、人人网等。2012年1月16日,中国互联网络信息中心(CNNIC)在北京发布《第29次中国互联网络发展状况统计报告》(以下简称《报告》),《报告》显示,截至2011年12月底,中国网民规模突破5亿,其中社交网络用户数量为2.44亿,相比2010年略有增长。在使用率方面,社交网站用户占网民比例为47.6%;微博用户数达到2.5亿,增长近300%,网民使用率为48.7%。这些数据表明,社交网络已经成为互联网用户生活中不可缺少的一部分,而微博在一年时间内就发展成为近一半中国网民使用的重要互联网应用。社交网站的快速兴起以及2011年上半年用户数的爆炸性增长,使得许多基于社交网站的应用需求量大增,各大网站为了提高用户体验,不断完善社交网络的功能以满足用户全方位的需求。
在社交网络的发展过程中,最主要的问题是用户关系的扩展,使得网络中的节点有序地增加,这对整个服务网络的健康发展可以起到积极地促进作用。目前,新浪微博用于推荐好友的算法大致包括以下5种情况:1、根据教育信息进行基本信息相似推荐。用户信息中有填写教育背景的,系统会根据入学时间、学校、所学专业等信息进行同类匹配,选择匹配度较高的进行推荐。2、根据标签、关键词进行兴趣相似推荐。大多数用户都会填写具有自我个性化特色的标签,此类标签可以代表用户的兴趣爱好方向,系统会根据这些信息进行兴趣相似度查找,选择兴趣相似度高的进行推荐。3、根据共同关注的人进行推荐。根据2个人之间所关注的共同好友的数量可以判断2人的共同兴趣。如果2人之间共同关注的人很多,那么此2人拥有相同兴趣的可能性就很大,那么可以将2人互相推荐为好友。4、根据地理位置进行就近推荐。此处的地理位置包含两点:一是用户信息中的所在地;二是用户当前登录的IP地址。系统会根据这两者信息选择地理位置附近的用户进行推荐。5、微博会员优先推荐。新浪微博系统推出了微博会员,用户一旦成为会员,将会得到系统优先将其推荐为好友的特权。
用户关系是任何社交网络服务的关键,用户在整个服务中的影响力可以促进更多用户加入到服务中。因此,为用户提供推荐服务,并且合理地评估用户活跃程度是提高社交网络服务影响力的重要一环。对于微博服务而言,通过挖掘关注关系,为用户提供新的关注对象,并将推荐结果有区分地表现出来,可以提高用户使用微博服务的热情,增强微博对新用户的吸引力。由于推荐对象与众多因素相关,例如节点的身份属性、是否需要为所有节点建立新的关系等等。而目前众多的推荐方法无法针对诸多属性进行多方位地衡量,如何开发出一种可以对用户的诸多属性进行多方位地衡量和判断的社交网站好友推荐方法已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中社交网站好友推荐方法中标签推荐带来的关注关系易聚集化、难以扩张的缺陷,提供一种基于节点亲密度的社交网站好友推荐方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于节点亲密度的社交网站好友推荐方法,包括以下步骤:
数据提取,提取社交网站中用户的信息和好友关系;
数据预处理,剔除无关数据,建立微博数据类型,微博数据类型包括用户的微博信息列表和粉丝关系列表;
根据用户亲密度推荐好友。
所述的根据用户亲密度推荐好友包括以下步骤:
提取预处理后的微博数据,提取的数据格式为mid、st、fo、fe、tw、fol,其中,mid为用户标识符,st为用户身份标识符,fo、fe、tw分别为关注数、粉丝数、微博数,fol为关注列表;
通过关注数fl和微博数tw筛选微博用户,按照fl<p和tw>q筛选出需要进行推荐的用户,其中p为关注数fl的阈值,q为微博数tw的的阈值;
生成m*n的关注矩阵,其中s为第二层的用户节点数和当前用户的关注数,t为第三层的用户节点数,对s个二层用户的关注数求和,获得三层用户节点数t;
设m=1+s,n=1+s+t,则一个m*n的关注矩阵F定义如下:
其中,
建立子模型,以AT-U和A2P-T关注推荐模型为基础,建立AT-UR的关注推荐模型结构,生成亲密度矩阵;
分析亲密度矩阵,通过每个亲密度所在的列号获取对应的用户ID,对亲密度矩阵进行分析。
所述的通过关注数fl和微博数tw筛选微博用户包括以下步骤:
通过对数正态分布进行数据拟合,公式如下:
在关注数fl指标中,当x=p时,数据曲线发生明显弯折,曲线变化趋于缓和,则p是关注数fl的阈值;
在微博数tw指标中,当x=q时,曲线发生弯折,则q为微博数tw的阈值。
所述的建立AT-UR的关注推荐模型结构包括以下步骤:
建立子模型UR和子模型TC;
子模型UR的公式为 子模型TC的公式为
通过子模型UR和子模型TC,从关注矩阵中获取数据,生成亲密度矩阵;
子模型UR亲密度计算公式I0,i+=(F0,j*Fi,j)*!(Fi,0);
子模型TC亲密度计算公式I0,j+=Fi,j。
所述的分析亲密度矩阵包括以下步骤:
对通过子模型UR和TC计算的用户亲密度进行从大到小的排序轮换;
从I0,1到I0,s中寻找亲密度最大值UR_Max,依次将亲密度从大到小排序,value_UR为亲密度的取值,取值范围从UR_Max到0;
对于s个二层用户的第i个用户,若I0,i==Value_UR,则关注推荐矩阵UR的第i行第i列填充User_ID;
从I0,s+1到I0,s+t中找到亲密度最大值TC_Max,依次将亲密度从大到小排序,Value_TC为亲密度的取值,取值范围从TC_Max到0;
对于t个三层用户的第j个用户,若I0,j==Value_TC,则关注推荐矩阵TC的第1行第j列填充User_ID;
得到关注推荐矩阵UR和TC,其中第一行元素为用户ID,第二行元素为与之对应的亲密度,按照亲密度从大到小向用户推荐关注对象。
还包括以下步骤:
对社交网站好友推荐方法进行准确率评估;
将亲密度矩阵推荐关注的用户作为结果集合P;
从用户关注列表中获得实际关注的集合U;
比较结果集合P和实际关注的集合U,P和U的交集为正确的预测,准确率计算公式为Precision=|P∩U|/|U|。
有益效果
本发明的一种基于节点亲密度的社交网站好友推荐方法,与现有技术相比可以在社交网络中实时地根据亲密度向用户推荐关注对象,高效快捷的帮助用户管理自己的好友关系,利用用户亲密度完善了基于共同关注的推荐方法。在构建推荐模型时,综合考虑了用户属性。该方法以社会网络统计量为基础,提出一种适用于微博服务的新结构,并据此得到关注推荐模型。该模型使用阈值对用户进行筛选后,两种子模型按照亲密度从大到小向用户推荐关注对象,有效增加了用户获取关注对象的途径,提高了用户体验。
附图说明
图1为本发明的方法流程图
图2为ERGM的部分结构示例
图3为ERGM的三种无向结构
图4为ERGM的两种有向结构
图5为网络爬虫方法的流程图
图6为关注推荐模型图
图7为UR、TC子模型演变过程图
图8为结构的群划分图
图9为用户的三层关系列表图
图10为用户的三层关系列表对应的拓朴图
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
社会网络统计模型是一类能够表现社会网络中结构属性的统计模型,包括中心-边缘模型(Center-Periphery model),块模型(Block model),指数随机图模型(ERGM)等。其中,指数随机图模型釆用指数形式,概率函数依赖于网络结构统计量的线性组合构成的指数函数。它使用各种结构对整个网络进行分解,由于这些结构更接近于真实的社会网络,因此适用于社交网络的好友推荐算法。
如图2所示ERGM的部分结构示例,指数随机图模型表示的是关于固定节点集的图的概率分布,该模型假设网络是由随机过程产生,观察到的图的概率取决于模型中包含的各种结构构成出现的次数。它的一般形式为:
在上面的公式中,ηA是结构A对应的配置参数;是对结构A的网络统计,它和ηA成对出现;k是标准化常量,统计并算出所有概率取值,用以保证随机变量Y的样本空间发生的概率总和为1。如图3所示,为了使指数随机图模型得到更好的统计量,又产生了三种新的无向结构:交互的K星(Alternating k-stars)、交互的K三角(Alternating k-triangles)和交互的双路径(Alternatingtwo-paths)。如图4所示,带有方向的三种无向结构又衍生出两种有向结构。在微博服务中,用户间存在单向和双向两种关系。此外在微博用户网络中,边的多少表明了用户关系的密集程度,互惠性说明两个用户间相互选择的密切关系,K-入-星的K值反映了单个用户对其他用户的影响力的大小。因此,有向结构更适用于分析微博服务中的用户关系。
如图1所示,本发明所述的一种基于节点亲密度的社交网站好友推荐方法,包括以下步骤:
第一步,数据提取,提取社交网站中用户的信息和好友关系。数据预处理为后面的方法步骤实施做前期准备,从社交网站爬取数据。如图5所示,可以采用网络爬虫方法从社交网站爬取用户的信息以及好友关系,能够对用户数据进行实时的爬取,通过网络爬虫方法去读取Web页面的微博数据。模拟用户登陆页面的操作,直接访问Web页面,获得HTML文本文件。将HTML文本读到内存,然后通过正则表达式来进行信息抽取,获得指定的数据。基于广度优先搜索原则,通过网络爬虫方法获取社交网站用户的好友列表信息与微博消息列表,将获得的信息集中保存在本地服务器上。具体流程如下:从一个特定微博用户出发,获取其粉丝列表,然后将其粉丝列表作为下一次的搜索对象,搜索其粉丝的粉丝列表,如此地一层层获取用户关系,直到数据集满足预期要求。
第二步,数据预处理,剔除无关数据,建立微博数据类型,微博数据类型包括用户的微博信息列表和粉丝关系列表。该过程从后台服务器提取所需数据,经过一系列预处理过程,得到所需特征的数据。剔除一些无关的特征,只保留方法需要的数据属性,例如用户特征只包含用户ID、用户身份标识符、关注数、粉丝数、微博数和关注列表,把这些原生的数据处理成方法可接受的数据。
根据亲密度方法的需求对爬虫方法爬取的数据做进一步的处理,只存储了用户的微博信息列表与粉丝关系列表。微博数据模型包括用户的关注列表和列表中每位用户的关注对象,此外还有用户各项属性以及三项指标的具体数值,分别是关注数(Following)、粉丝数(Followers)和微博数(Tweets)。每个微博用户都使用六元组W={mid,st,fo,fe,tw,fol}表示。mid:用户标识符,唯一确定用户身份,也可以成为用户ID号;st:用户身份标识符,表明用户身份信息,通常由社交网站工作人员认证;fo、fe、tw:微博服务的三项指标,分别表示关注数、粉丝数、微博数;fol:关注列表,存储当前用户所关注对象的mid。
第三步,根据用户亲密度推荐好友。推荐方法的好坏是决定推荐效果的最关键部分,我们使用提出的“用户亲密度推荐方法”,其具体步骤包括:
1、提取预处理后的微博数据,提取的数据格式为mid、st、fo、fe、tw、fol,其中,mid为用户标识符,st为用户身份标识符,fo、fe、tw分别为关注数、粉丝数、微博数,fol为关注列表。在获取到所需要进行处理的数据后,则需要进行以下4个部分:对用户进行筛选,寻找需要进行推荐的用户;利用关注列表产生可供模型使用的数据集;通过模型分析数据集;为用户提供可供区分的推荐结果。如图6所示,推荐模型首先应该能够为用户寻找可供推荐的用户关系,并做出合理决策;其次,使用某种指标对推荐结果进行区分;最后,为用户提供完整的推荐列表。
2、通过关注数fl和微博数tw筛选微博用户,按照fl<p和tw>q筛选出需要进行推荐的用户,其中p为关注数fl的阈值,q为微博数tw的的阈值。
社交网络中,用户分为认证用户和普通用户两种类别。认证用户作为官方认证的公众人物或机构企业,他们在微博用户网络发展的过程中,自然地被作为K-入-星的核心来对待,因此,无需为他们推荐关注对象。而普通用户是服务中的信息接受者和传播者,他们数量巨大,对社交网络的长远发展起着重要作用,因此,应该为他们推荐关注对象。考虑到系统的负载情况,并非所有的普通用户都需要推荐关注对象。所以,在推荐过程中除了依靠用户之间的关注关系,还需要考虑用户自身的指标。因此需要设计一个过滤机制筛选普通用户。在微博服务中,每个用户包含三项指标,由于关注数和微博数的增长需要用户自身操作,而粉丝数的增长则不受用户控制,因此,考虑关注数(fl)和微博数(tw)这两项指标作为筛选机制中需要考虑的对象。
通过关注数fl和微博数tw筛选微博用户包括以下步骤:
首先,通过对数正态分布进行数据拟合,公式如下:
其次,合理缩小关注数(fl)横轴坐标后,我们发现当x=p时,数据曲线发生明显弯折,曲线变化趋于缓和,可以认为p是关注数的阈值。我们向关注指标小于阈值p的用户推荐关注对象,可以提高实际数据曲线与对数正态曲线的拟合度。因此,在关注数fl指标中,当x=p时,数据曲线发生明显弯折,曲线变化趋于缓和,则p是关注数fl的阈值。
最后,同样对于微博数(tw)指标,当x=q时,曲线发生弯折。微博数量反映了用户对微博服务依赖程度,我们认为微博指标小于q的用户在整个服务中的影响力有限,模型舍弃了这部分用户,仅对该项指标大于q的用户进行关注推荐。此外,由于粉丝指标不依靠用户主观意愿增长,所以在筛选时不考虑这项指标。所以,在微博数tw指标中,当x=q时,曲线发生弯折,则q为微博数tw的阈值。采用上述方法获得的指标阈值来筛选需要进行关注推荐的用户。
3、生成m*n的关注矩阵,其中s为第二层的用户节点数和当前用户的关注数,t为第三层的用户节点数,对s个二层用户的关注数求和,获得三层用户节点数t。在抓取的用户数据中,如果把当前用户看作关注关系的第一层,那么其关注列表中的用户可以视为第二层,再向下延伸,可以达到第二层用户的关注列表,这里可以看作第三层。为了更好的在模型中使用这些关系数据,需要将其转化为关注矩阵进行处理。
假定s和t分别表示第二层和第三层的用户节点数。首先取得当前用户的关注数s,然后对s个二层用户的关注数求和,获得三层用户节点数t。
设m=1+s,n=1+s+t,则一个m*n的关注矩阵F定义如下:
使用这种结构建立关注矩阵不仅可以存储微博用户的关注关系,还能够保存每一层用户唯一标示符(ID号),更为重要的是,关注矩阵的构造同后续的子模型处理算法密切相关。
4、建立子模型,以两层关注结构(AT-U)和三层关注结构(A2P-T)为基础,建立AT-UR的关注推荐模型结构,生成亲密度矩阵。
在ERGM的多种有向结构中,与三层关注列表相匹配的两种结构分别为我们所建立的两层关注结构(AT-U)和三层关注结构(A2P-T),如图4所示。因此,关注推荐模型以这两种结构为基础。除此之外,提出一种新的称作AT-UR的结构,两个子模型的演变过程如图7所示。在图7中,子模型UR中,结构从AT-U变为AT-UR,为两个用户补充一条新关系。子模型TC中,结构从A2P-T变为AT-C,为两个用户建立一条新关系。在这里把用户分为A群、B群和K群,如图8所示,在不同子模型中,A群与用户层的对应存在不同。子模型UR是把B群(一层用户)推荐给A群(二层用户),使其最终形成互相关注关系;而子模型TC是把A群(三层用户)推荐给B群(一层用户),使一层用户增加一位新的关注对象。因此建立AT-UR的关注推荐模型结构包括以下步骤:
(1)建立子模型UR和子模型TC。
(2)子模型UR的公式为 子模型TC的公式为
(3)通过子模型UR和子模型TC,从关注矩阵中获取数据,生成亲密度矩阵。密度(Intimacy)表明A用户与B用户亲密程度的指标,与K群中节点数相等,使用符号I表示。I值越大则表明A群与B群之间联系越紧密,优先推荐I值较高的用户,丰富关注关系。子模型通过计算,从关注矩阵中获取数据,生成亲密度矩阵,亲密度矩阵中包含最终推荐结果。
(4)子模型UR亲密度计算公式I0,i+=(F0,j*Fi,j)*!(Fi,0)。
(5)子模型TC亲密度计算公式I0,j+=Fi,j。
得到关注推荐矩阵UR和TC,其中第一行元素为用户ID,第二行元素为与之对应的亲密度。此时可以按照亲密度从大到小向用户推荐关注对象。
例如:以图9中的用户为例,图9为用户的三层关系列表,对应的拓朴图如图10所示。当前用户ID1作为一层用户,他的关注对象ID21、ID22、ID23作为二层用户,二层节点数s=3。二层用户的关注列表构成三层用户,包括ID31、ID32、ID33、ID34、ID35,三层节点数t=5。首先根据三层用户之间已有的关注关系通过关注矩阵的定义构建矩阵F。本例是一个典型的三层关注模型,采用子模型TC,分别计算A群(三层用户)、B群(一层用户)与K群(三层用户)之间的亲密度,得到亲密度矩阵I。根据亲密度从大到小向当前用户ID1推荐三层用户,ID32亲密度为2应该第一个被推荐给ID1,其余用户依次被推荐。本例说明了如何向一层用户推荐TC中的三层用户,从而完成整个关注推荐过程。同理可以按照亲密度大小依次向UR中的用户推荐一层用户。值得注意的是,本例关注关系简单,所以没有亲密度矩阵分析过程,对于常见社交网络中的关注关系,此步骤不可或缺。
I=[3 0 1 0 1 2 1 1 1]
获得关注推荐矩阵UR和TC。这样就可以按照亲密度大小依次向UR中的用户推荐一层用户,向一层用户推荐TC中的三层用户,从而完成整个关注推荐过程。分析亲密度矩阵过程为第5步。
5、分析亲密度矩阵,通过每个亲密度所在的列号获取对应的用户ID,对亲密度矩阵进行分析。亲密度矩阵仅保存用户间的亲密度,需要通过每个亲密度所在的列号获取对应的用户ID,因此需要对亲密度矩阵进行分析。分析亲密度矩阵包括以下步骤:
(1)对通过子模型UR和TC计算的用户亲密度进行从大到小的排序轮换。
(2)从I0,1到I0,s中寻找亲密度最大值UR_Max,依次将亲密度从大到小排序,value_UR为亲密度的取值,取值范围从UR_Max到0。
(3)对于s个二层用户的第i个用户,若I0,i==Value_UR,则关注推荐矩阵UR的第i行第i列填充User_ID。
(4)从I0,s+1到I0,s+t中找到亲密度最大值TC_Max,依次将亲密度从大到小排序,Value_TC为亲密度的取值,取值范围从TC_Max到0。
(5)对于t个三层用户的第j个用户,若I0,j==Value_TC,则关注推荐矩阵TC的第1行第j列填充User_ID。
(6)得到关注推荐矩阵UR和TC,其中第一行元素为用户ID,第二行元素为与之对应的亲密度,按照亲密度从大到小向用户推荐关注对象。
为了保证推荐的准确率和达到检验目的,还可以包括准确率评估。准确率评估包括以下步骤:
1、对社交网站好友推荐方法进行准确率评估;
2、将亲密度矩阵推荐关注的用户作为结果集合P;
3、从用户关注列表中获得实际关注的集合U;
4、比较结果集合P和实际关注的集合U,P和U的交集为正确的预测,准确率计算公式为Precision=|P∩U|/|U|。
对于每个用户,我们将亲密度矩阵推荐关注的用户作为结果集合P,从该用户关注列表中我们也可以获得实际关注的集合U,可以看作是一个基准。对于某一特定时间点后用户新增的关注对象,比较这两个集合,它们的交集就是正确的预测,推荐准确率可以如下计算:Precision=|P∩U|/|U|。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。
Claims (6)
1.一种基于节点亲密度的社交网站好友推荐方法,其特征在于,包括以下步骤:
11)数据提取,提取社交网站中用户的信息和好友关系;
12)数据预处理,剔除无关数据,建立微博数据类型,微博数据类型包括用户的微博信息列表和粉丝关系列表;
13)根据用户亲密度推荐好友。
2.根据权利要求1所述的一种基于节点亲密度的社交网站好友推荐方法,其特征在于,所述的根据用户亲密度推荐好友包括以下步骤:
21)提取预处理后的微博数据,提取的数据格式为mid、st、fo、fe、tw、fol,其中,mid为用户标识符,st为用户身份标识符,fo、fe、tw分别为关注数、粉丝数、微博数,fol为关注列表;
22)通过关注数fl和微博数tw筛选微博用户,按照fl<p和tw>q筛选出需要进行推荐的用户,其中p为关注数fl的阈值,q为微博数tw的的阈值;
23)生成m*n的关注矩阵,其中s为第二层的用户节点数和当前用户的关注数,t为第三层的用户节点数,对s个二层用户的关注数求和,获得三层用户节点数t;
设m=1+s,n=1+s+t,则一个m*n的关注矩阵F定义如下:
其中,
24)建立子模型,以AT-U和A2P-T关注推荐模型为基础,建立AT-UR的关注推荐模型结构,生成亲密度矩阵;
25)分析亲密度矩阵,通过每个亲密度所在的列号获取对应的用户ID,对亲密度矩阵进行分析。
3.根据权利要求2所述的一种基于节点亲密度的社交网站好友推荐方法,其特征在于,所述的通过关注数fl和微博数tw筛选微博用户包括以下步骤:
31)通过对数正态分布进行数据拟合,公式如下:
32)在关注数fl指标中,当x=p时,数据曲线发生明显弯折,曲线变化趋于缓和,则p是关注数fl的阈值;
33)在微博数tw指标中,当x=q时,曲线发生弯折,则q为微博数tw的阈值。
4.根据权利要求2所述的一种基于节点亲密度的社交网站好友推荐方法,其特征在于,所述的建立AT-UR的关注推荐模型结构包括以下步骤:
41)建立子模型UR和子模型TC;
42)子模型UR的公式为 子模型TC的公式为
43)通过子模型UR和子模型TC,从关注矩阵中获取数据,生成亲密度矩阵;
44)子模型UR亲密度计算公式I0,i+=(F0,j*Fi,j)*!(Fi,0);
45)子模型TC亲密度计算公式I0,j+=Fi,j。
5.根据权利要求2所述的一种基于节点亲密度的社交网站好友推荐方法,其特征在于,所述的分析亲密度矩阵包括以下步骤:
51)对通过子模型UR和TC计算的用户亲密度进行从大到小的排序轮换;
52)从I0,1到I0,s中寻找亲密度最大值UR_Max,依次将亲密度从大到小排序,value_UR为亲密度的取值,取值范围从UR_Max到0;
53)对于s个二层用户的第i个用户,若I0,i==Value_UR,则关注推荐矩阵UR的第i行第i列填充User_ID;
54)从I0,s+1到I0,s+t中找到亲密度最大值TC_Max,依次将亲密度从大到小排序,Value_TC为亲密度的取值,取值范围从TC_Max到0;
55)对于t个三层用户的第j个用户,若I0,j==Value_TC,则关注推荐矩阵TC的第1行第j列填充User_ID;
56)得到关注推荐矩阵UR和TC,其中第一行元素为用户ID,第二行元素为与之对应的亲密度,按照亲密度从大到小向用户推荐关注对象。
6.根据权利要求1所述的一种基于节点亲密度的社交网站好友推荐方法,其特征在于,还包括以下步骤:
61)对社交网站好友推荐方法进行准确率评估;
62)将亲密度矩阵推荐关注的用户作为结果集合P;
63)从用户关注列表中获得实际关注的集合U;
64)比较结果集合P和实际关注的集合U,P和U的交集为正确的预测,准确率计算公式为Precision=|P∩U|/|U|。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410084411.3A CN103823888B (zh) | 2014-03-07 | 2014-03-07 | 一种基于节点亲密度的社交网站好友推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410084411.3A CN103823888B (zh) | 2014-03-07 | 2014-03-07 | 一种基于节点亲密度的社交网站好友推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103823888A true CN103823888A (zh) | 2014-05-28 |
CN103823888B CN103823888B (zh) | 2017-02-08 |
Family
ID=50758952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410084411.3A Active CN103823888B (zh) | 2014-03-07 | 2014-03-07 | 一种基于节点亲密度的社交网站好友推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103823888B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105141499A (zh) * | 2015-07-03 | 2015-12-09 | 电子科技大学 | 一种基于私密度和公知度的社交网络关系推荐方法 |
CN106959953A (zh) * | 2016-01-08 | 2017-07-18 | 中国科学院声学研究所 | 一种基于统计特征的社交网络用户关系的计算方法 |
CN108228608A (zh) * | 2016-12-14 | 2018-06-29 | 北大方正集团有限公司 | 人物的推荐方法、系统及终端 |
CN108536726A (zh) * | 2018-02-25 | 2018-09-14 | 心触动(武汉)科技有限公司 | 一种校内社交好友智能推荐方法及系统 |
CN108595674A (zh) * | 2018-05-02 | 2018-09-28 | 上海同砚信息科技有限公司 | 社交关系推荐方法 |
CN108829833A (zh) * | 2018-06-15 | 2018-11-16 | 重庆智多信息发展有限公司 | 一种基于社交关系碎片数据的模糊搜索方法 |
US10268655B2 (en) | 2016-04-07 | 2019-04-23 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, server and storage medium of searching a group based on social network |
CN110032682A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(上海)有限公司 | 一种信息推荐列表生成方法、装置及设备 |
CN110633408A (zh) * | 2018-06-20 | 2019-12-31 | 北京正和岛信息科技有限公司 | 智能商业资讯的推荐方法和系统 |
CN110942345A (zh) * | 2019-11-25 | 2020-03-31 | 北京三快在线科技有限公司 | 种子用户的选取方法、装置、设备及存储介质 |
CN111523050A (zh) * | 2020-04-16 | 2020-08-11 | 咪咕文化科技有限公司 | 内容推荐方法、服务器及存储介质 |
CN112836127A (zh) * | 2021-02-09 | 2021-05-25 | 国家计算机网络与信息安全管理中心 | 推荐社交用户的方法、装置、存储介质及电子设备 |
CN113360764A (zh) * | 2021-06-23 | 2021-09-07 | 甄付(上海)网络科技有限公司 | 基于生活服务消费场景的社交网络构建方法及系统 |
CN117395222A (zh) * | 2023-12-07 | 2024-01-12 | 深圳市爱聊科技有限公司 | 在线社交的亲密守护方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030110056A1 (en) * | 2001-10-31 | 2003-06-12 | International Business Machines Corporation | Method for rating items within a recommendation system based on additional knowledge of item relationships |
CN101540739A (zh) * | 2009-04-14 | 2009-09-23 | 腾讯科技(深圳)有限公司 | 用户推荐方法及用户推荐系统 |
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
CN102880691A (zh) * | 2012-09-19 | 2013-01-16 | 北京航空航天大学深圳研究院 | 一种基于用户亲密度的混合推荐系统及方法 |
CN103258020A (zh) * | 2013-05-02 | 2013-08-21 | 华南师范大学 | 一种结合sns和搜索引擎技术的推荐系统与方法 |
-
2014
- 2014-03-07 CN CN201410084411.3A patent/CN103823888B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030110056A1 (en) * | 2001-10-31 | 2003-06-12 | International Business Machines Corporation | Method for rating items within a recommendation system based on additional knowledge of item relationships |
CN101540739A (zh) * | 2009-04-14 | 2009-09-23 | 腾讯科技(深圳)有限公司 | 用户推荐方法及用户推荐系统 |
CN102394798A (zh) * | 2011-11-16 | 2012-03-28 | 北京交通大学 | 一种基于多元特征的微博信息传播行为预测方法及系统 |
CN102880691A (zh) * | 2012-09-19 | 2013-01-16 | 北京航空航天大学深圳研究院 | 一种基于用户亲密度的混合推荐系统及方法 |
CN103258020A (zh) * | 2013-05-02 | 2013-08-21 | 华南师范大学 | 一种结合sns和搜索引擎技术的推荐系统与方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105141499B (zh) * | 2015-07-03 | 2018-03-09 | 电子科技大学 | 一种基于私密度和公知度的社交网络关系推荐方法 |
CN105141499A (zh) * | 2015-07-03 | 2015-12-09 | 电子科技大学 | 一种基于私密度和公知度的社交网络关系推荐方法 |
CN106959953A (zh) * | 2016-01-08 | 2017-07-18 | 中国科学院声学研究所 | 一种基于统计特征的社交网络用户关系的计算方法 |
US10268655B2 (en) | 2016-04-07 | 2019-04-23 | Ping An Technology (Shenzhen) Co., Ltd. | Method, device, server and storage medium of searching a group based on social network |
CN108228608A (zh) * | 2016-12-14 | 2018-06-29 | 北大方正集团有限公司 | 人物的推荐方法、系统及终端 |
CN108536726A (zh) * | 2018-02-25 | 2018-09-14 | 心触动(武汉)科技有限公司 | 一种校内社交好友智能推荐方法及系统 |
CN108595674A (zh) * | 2018-05-02 | 2018-09-28 | 上海同砚信息科技有限公司 | 社交关系推荐方法 |
CN108829833B (zh) * | 2018-06-15 | 2022-04-08 | 重庆智多信息发展有限公司 | 一种基于社交关系碎片数据的模糊搜索方法 |
CN108829833A (zh) * | 2018-06-15 | 2018-11-16 | 重庆智多信息发展有限公司 | 一种基于社交关系碎片数据的模糊搜索方法 |
CN110633408A (zh) * | 2018-06-20 | 2019-12-31 | 北京正和岛信息科技有限公司 | 智能商业资讯的推荐方法和系统 |
CN110032682A (zh) * | 2019-04-17 | 2019-07-19 | 腾讯科技(上海)有限公司 | 一种信息推荐列表生成方法、装置及设备 |
CN110032682B (zh) * | 2019-04-17 | 2023-08-11 | 腾讯科技(上海)有限公司 | 一种信息推荐列表生成方法、装置及设备 |
CN110942345B (zh) * | 2019-11-25 | 2022-02-15 | 北京三快在线科技有限公司 | 种子用户的选取方法、装置、设备及存储介质 |
CN110942345A (zh) * | 2019-11-25 | 2020-03-31 | 北京三快在线科技有限公司 | 种子用户的选取方法、装置、设备及存储介质 |
CN111523050A (zh) * | 2020-04-16 | 2020-08-11 | 咪咕文化科技有限公司 | 内容推荐方法、服务器及存储介质 |
CN111523050B (zh) * | 2020-04-16 | 2023-09-19 | 咪咕文化科技有限公司 | 内容推荐方法、服务器及存储介质 |
CN112836127A (zh) * | 2021-02-09 | 2021-05-25 | 国家计算机网络与信息安全管理中心 | 推荐社交用户的方法、装置、存储介质及电子设备 |
CN112836127B (zh) * | 2021-02-09 | 2023-06-02 | 国家计算机网络与信息安全管理中心 | 推荐社交用户的方法、装置、存储介质及电子设备 |
CN113360764A (zh) * | 2021-06-23 | 2021-09-07 | 甄付(上海)网络科技有限公司 | 基于生活服务消费场景的社交网络构建方法及系统 |
CN117395222A (zh) * | 2023-12-07 | 2024-01-12 | 深圳市爱聊科技有限公司 | 在线社交的亲密守护方法和装置 |
CN117395222B (zh) * | 2023-12-07 | 2024-03-12 | 深圳市爱聊科技有限公司 | 在线社交的亲密守护方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103823888B (zh) | 2017-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103823888A (zh) | 一种基于节点亲密度的社交网站好友推荐方法 | |
Morstatter et al. | Is the sample good enough? comparing data from twitter's streaming api with twitter's firehose | |
Kim et al. | Multiplicative attribute graph model of real-world networks | |
CN104268271B (zh) | 一种兴趣和网络结构双内聚的社交网络社区发现方法 | |
Lin et al. | Voices of victory: A computational focus group framework for tracking opinion shift in real time | |
CN105117422A (zh) | 智能社交网络推荐系统 | |
Hoang Long et al. | Privacy-aware framework for matching online social identities in multiple social networking services | |
CN104899273A (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN103279515B (zh) | 基于微群的推荐方法及微群推荐装置 | |
CN103678431A (zh) | 一种基于标准标签和项目评分的推荐方法 | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN105893637A (zh) | 大规模微博异构信息网络中的链接预测方法 | |
CN107391670A (zh) | 一种融合协同过滤和用户属性过滤的混合推荐方法 | |
Noro et al. | Twitter user rank using keyword search | |
Jiang et al. | Predicting the evolution of hot topics: A solution based on the online opinion dynamics model in social network | |
Lu et al. | Identification of key nodes in microblog networks | |
Bayomi et al. | ADAPT_TCD: An Ontology-Based Context Aware Approach for Contextual Suggestion. | |
WO2017050991A1 (en) | Aggregating profile information | |
Lopez-Vargas et al. | Recommendation of OERs shared in social media based-on social networks analysis approach | |
Xianlei et al. | Finding domain experts in microblogs | |
Liu et al. | A novel method for dynamic multicriteria decision making with hybrid evaluation information | |
Yao et al. | Evaluating user influence based on the properties of user in social networks | |
Das et al. | Reducing social media users’ Biases to predict the outcome of Australian federal election 2019 | |
Kpiebaareh et al. | User-connection behaviour analysis in service management using bipartite labelled property graph | |
Al-Zeyadi et al. | User-to-User Recommendation using the Concept of Movement Patterns: A Study using a Dating Social Network. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |