CN105069003B - 一种基于转发链相似度的用户关注对象推荐计算方法 - Google Patents

一种基于转发链相似度的用户关注对象推荐计算方法 Download PDF

Info

Publication number
CN105069003B
CN105069003B CN201510331056.XA CN201510331056A CN105069003B CN 105069003 B CN105069003 B CN 105069003B CN 201510331056 A CN201510331056 A CN 201510331056A CN 105069003 B CN105069003 B CN 105069003B
Authority
CN
China
Prior art keywords
forwarding
chain
user
forwarding chain
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510331056.XA
Other languages
English (en)
Other versions
CN105069003A (zh
Inventor
毋立芳
荆羽晨
王丹
冯泽猛
张加楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201510331056.XA priority Critical patent/CN105069003B/zh
Publication of CN105069003A publication Critical patent/CN105069003A/zh
Application granted granted Critical
Publication of CN105069003B publication Critical patent/CN105069003B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

一种基于转发链相似度的用户关注对象推荐计算方法,涉及网络分析和推荐系统领域。本发明获取收藏条目到原始收藏条目的数据,以转发的收藏条目的创建用户来代表该转发链上的结点;引入最小操作代价函数作为相似度计算的初步输入;结合转发链长度以及转发链的信息流向根据最小操作代价值计算转发链间的相似度;根据转发链之间相同用户节点产生候选的推荐用户,利用目标用户转发链集合中转发链数据两两之间的相似度,结合转发链路径长度以及转发链上的候选用户密度对候选推荐用户目标计算推荐权重值;对候选用户权重值排序产生推荐结果。本发明利用用户的转发行为及转发对应的关系数据进行用户的潜在关注对象挖掘,实现用户关注推荐。

Description

一种基于转发链相似度的用户关注对象推荐计算方法
技术领域
本发明涉及社交网络分析和推荐系统领域,具体涉及一种基于转发链相似度的用户关注对象推荐计算方法的研究及实现。
背景技术
新型社交策展网络中存在用户的关注与被关注关系。针对社交网络的用户关注推荐算法很多,大都利用用户参与过的内容记录,使用内容、标签等比对手段发现用户的潜在兴趣以及关注对象。推荐系统中用户隐私的保护一直以来是一个重要问题。如何在尽可能少使用用户隐私数据的前提下充分挖掘用户的兴趣点,为用户提供用户关注推荐。
在社交策展网络中,用户的每一个公开的收藏条目均可以被其他用户进行转发。转发行为在一定程度上体现了用户对被转内容的喜好程度,同时转发的路径也表现了用户的信息来源以及信息流向。大量针对社交网络的数据挖掘相关研究针对其中的转发特性而开展。研究者通过对微博、Twitter上博文转发关系、转发路径以及用户参与频数的分析,来进行如:话题提取、社区分割、热点预测等方面的工作。针对转发关系的分析研究,主要通过用户的个人属性,转发微博的标签、关键词,各结点转发量等数据进行分析。通过如TD-IDF、主题建模等方法对文本数据进行处理,通过图论算法对网络结构进行提取化简,得到所需的特征。而事实上,就转发路径上看,一个信息的流向也包含了用户的兴趣偏好,并且,不同转发链路径上重合节点的密度关系到用户对每个结点的感兴趣程度。单个用户的收藏条目对应的转发关系包含的相关数据从结构、信息流向、重合节点密度上都存在许多值得研究的 特性。如何从收藏条目的转发路径上获取用户潜在的关注对象就成了研究的要点。
发明内容
本发明主要解决如何利用用户的转发行为以及转发对应的关系数据进行用户的潜在关注对象挖掘,实现用户关注推荐。
为了实现上述问题,本发明提供了一种基于转发链相似度的用户关注对象推荐计算方法。该方法包括:
A、根据目标用户的所有收藏条目进行转发数据的采集,根据收藏条目中转发自何人的数据,获取每一条收藏条目到原始收藏条目的数据。从当前收藏条目开始向父级爬取数据。根据转发自何处这一数据作为指导,一直追溯到原始收藏条目位置。在追溯过程中的每一个结点都是原始收藏条目的一个拷贝,而由这些结点构成了一条链状的路径图,称之为转发链。每个转发链均由一个包含若干收藏条目的集合构成。以每个转发的收藏条目的创建用户来代表该转发链上的一个结点。
B、对于目标用户的所有转发链数据构成的集合,取集合中的所有两两转发链组合,对组合求取转发链相似度值。
进一步地,所述步骤B具体包括:
B1、定义目标用户转发链集合中转发链数据的具体表达式。设pn为当前的收藏条目,E为转发关系集合,S为原始收藏条目集合。将一条转发链数据以转发链上各个节点收藏条目的创建用户的编号为标记,以链表的形式表示为R={p1,p2,p3,…,pn|〈pi,pi+1〉∈E,p1∈S}。设Ri,p表示转发链i的第p个结点位置上用户的编号。由于对目标用户的推荐不需要考虑目标用户自身和目标用户已经关注的用户,所以,在计算时将每一条转发链数据的最后两个结点pn-1和pn去除。
B2、计算转发链之间转换的最小操作代价。设在转发链结构的链表中存在插入一个结点、删除一个结点和以另一个结点替换当前结点这三种基本操作,每个操作所要花费的代价均为1。则长度为k的转发链Ri通过三种基本操作变为长度为l的转发链Rj所需的最小操作代价Cost(Ri,Rj)通过回溯搜索算法计算得到。
B3、根据上一步的计算结果Cost(Ri,Rj),计算转发链Ri和转发链Rj的相似度sim(Ri,Rj)。相似度sim(Ri,Rj)的计算公式如下:
max{k,l}表示求取k和l中的最大值。
至此对于目标用户的所有转发链数据集合中任意两个转发链都得到一个相似度计算值sim(Ri,Rj)。
C、根据B步计算的相似度计算值sim(Ri,Rj)获取候选的推荐对象用户,并计算每一个候选的推荐对象的权重值。
进一步地,所述步骤C具体包括:
C1、确定候选的推荐对象用户集合。
C2、根据转发链相似度计算结果给每一条转发链上的候选推荐对象计算权重值。
C3、加和所有转发链上的权重值计算结果
进一步地,所述步骤C1具体包括:
C12、设目标用户转发链集合Tu中所有相似度不为0的转发链中所有重复出现在2个或2个以上转发链数据中的用户编号定义为候选的推荐对象用户。设Di为转发链Ri上所有候选的推荐对象用户的集合,则Di由公式计算,其中n表示目标用户所包含的所有收藏条目个数,∪为求并集符号。
C14、对目标用户所有转发链上候选的推荐对象用户构成的集合Θ,则由如下公式计算:其中n表示目标用户所包含的所有收藏条目个数,∪为求并集符号。
所述步骤C2具体包括:
C21、给所有的存在与其它转发链相似度不为0的转发链1单位的分配权重。
C23、反复执行步骤C22直到所有转发链上所有的候选的推荐对象所得的分配权重值全部被单独计算完毕。
所述步骤C3具体包括:
C31、设I(ui,Di)为判定函数,如果ui∈Di则函数返回值为1,否则为0。
C32、根据步骤C2中计算得到的每个转发链上候选推荐对象所得的权重值,进行求和操作,得到全体候选用户集合Θ中每个用户的最终权重值:
其中,Θ表示目标用户所有转发链上候选的推荐对象用户构成的集合,u表示等待计算的候选用户对象,ui表示当前等待计算的候选对象在第i条转发链上环境下的标记,weight(ui)表示当前等待计算的候选对象在第i条转发链上所得到的分配权重值,n表示目标用户所包含的所有收藏条目个数。
至此,所有候选的推荐对象所得的权重值全部计算完毕。
D、根据步骤C中计算得到的候选的推荐对象权重值大小,将候选的推荐对象用户进行降序排序,权重值越大的用户越靠前,也越可能被推荐。
附图说明
图1为实施例一中步骤B3所有转发链的相似度计算可视化结果图
图2为实施例一中推荐产生示意图
图3为实施例一中转发链示意图
图4为实施例一的推荐结果在实验测试集上与对比算法的查准率、查全率和F1指数结果对比图
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
本实施例是针对某社交策展网络真实数据进行的,例中的用户为网络中的真实用户,包含有69个收藏条目以及收藏条目对应的转发链,有214个关注对象。
A、读入用户的关注对象数据和收藏条目转发链数据。
B、提取转发链集合上的用户编号,并计算转发链之间的相似度值。
所述步骤B具体包括:
B1、将一条转发链数据以转发链上各个节点收藏条目的创建用户的编号为标记,以链表的形式表示为R={p1,p2,p3,…,pn|〈pi,pi+1〉∈E,p1∈S}。设Ri,p表示转发链i的第p个结点位置上用户的编号,将每一条转发链数据的最后两个结点pn-1和pn去除。本实例中目标用户的第一条转发链可以用用户编号表示为{8089456,6589657,889106}。
B2、根据目标用户的转发链数据,计算转发链之间转换的最小操作代价,在本实例中,目标用户的第四条的数据表示为{9550825,6308943,6363423,1265655,6589657,8889106},第五条转发链的数据表示为{9550825,10138913,11219171,286421,305714,57678,853734,960710,485684889716,889106},根据B1步骤去除最后两个结点的数据后,第一条转发链与第四条转发链之间的最小操作代价Cost(R1,R4)的计算结果为4,而第四条和第五条转发链的最小操作代价Cost(R4,R5)计算结果为8。
B3、根据上一步的计算结果,计算目标用户的各转发链之间的两两相似度sim(Ri,Rj),在本实例中,目标用户第一条转发链与第四条转发链的相似度sim(R1,R4)计算结果为0,第四条转发链与第五条转发链的相似度sim(R4,R5)计算结果为1/9。
至此,算法得到目标用户所有转发链两两之间的相似度计算结果,
对相似度计算结果进行可视化分析可以得到对称的矩阵可视化热度图, 通过可视化热度图本实例中用户的操作中信息流向的聚集行为得到直观体现。在此给出实施例中的可视化热度图结果说明,图中每一个方形色块代表一个转发链对,对应的横纵坐标表示转发链的编号值,当相似度为0时色块颜色为纯红色,当相似度越接近于1时,色块由红变黄逐渐变白,当相似度为1时,色块颜色为纯白,表明当前两条转发链存在完全一致的信息流向。由于专利不收彩图,所以只能用灰度图来表示。
C、根据B步计算的相似度计算值sim(Ri,Rj)获取候选的推荐对象用户,并计算每一个候选的推荐对象的权重值。
进一步地,所述步骤C具体包括:
C1、确定候选的推荐对象用户集合。
C2、根据转发链相似度计算结果给每一条转发链上的候选推荐对象计算权重值。
C3、加和所有转发链上的权重值计算结果
进一步地,所述步骤C1具体包括:
C12、设目标用户转发链集合Uu中所有相似度不为0的转发链中所有重复出现在2个或以上转发链数据中的用户编号定义为候选的推荐对象用户。设Di为转发链Ri上所有候选的推荐对象用户的集合,则Di可由如下公式计算:
C14、对目标用户所有转发链上候选的推荐对象用户构成的集合Θ,则可以由如下公式计算:
所述步骤C2具体包括:
C21、给所有的存在与其它转发链相似度不为0的转发链1单位的分配权重。
C23、反复执行步骤C22直到所有转发链上所有的候选的推荐对象所得的分配权重值全部被单独计算完毕。
所述步骤C3具体包括:
C31、设I(ui,Di)为判定函数,如果ui∈Di则函数返回值为1,否则为0。
C32、根据步骤C2中计算得到的每个转发链上候选推荐对象所得的权重值,进行求和操作,得到全体候选用户集合Θ中每个用户的最终权重值,可由如下公式计算:
至此,所有候选的推荐对象所得的权重值全部计算完毕,所有候选的推荐对象获得的权重值保存在数据记录文件中。
D、根据步骤C中计算得到的候选的推荐对象权重值大小,将候选的推荐对象用户进行降序排序,权重值越大的用户越靠前,也越可能被推荐,根据推荐系统的具体需求产生前1、前5、前10等不同集合大小的推荐结果。在本实例中,前1的推荐结果为311860号用户,对应的权重值为2.125992。前 5的推荐结果为311860号用户,对应的权重值为2.125992、19930号用户,对应的权重值为0.9285714、788701号用户,对应的权重值为0.8、6312241号用户,对应的权重值为0.2、838588号用户,对应的权重值为0.2。本算法与随机猜测算法、根据操作频数产生的流行度推荐算法从查准率、查全率和F1指数三个指标上进行对比,推荐效果取得了明显的提升。

Claims (6)

1.一种基于转发链相似度的用户关注对象推荐计算方法,其特征在于包括:
A、根据目标用户的所有收藏条目进行转发数据的采集,根据收藏条目中转发自何人的数据,获取每一条收藏条目到原始收藏条目的数据;从当前收藏条目开始向父级爬取数据;根据转发自何处这一数据作为指导,一直追溯到原始收藏条目位置;在追溯过程中的每一个结点都是原始收藏条目的一个拷贝,而由这些结点构成了一条链状的路径图,称之为转发链;每个转发链均由一个包含若干收藏条目的集合构成;以每个转发的收藏条目的创建用户来代表该转发链上的一个结点;
B、对于目标用户的所有转发链数据构成的集合,取集合中的所有两两转发链组合,对组合求取转发链相似度值;
C、根据B步计算的相似度计算值获取候选的推荐对象用户,并计算每一个候选的推荐对象的权重值;
D、根据步骤C中计算得到的候选的推荐对象权重值大小,将候选的推荐对象用户进行降序排序,权重值越大的用户越靠前,也越可能被推荐。
2.如权利要求1所述的方法,其特征在于,所述步骤B具体包括:
B1、定义目标用户转发链集合中转发链数据的具体表达式;将一条转发链数据以转发链上各个节点收藏条目的创建用户的编号为标记,以链表的形式表示为R={p1,p2,p3,…,pn|<pi,pi+1>∈E,p1∈S};n表示转发链的长度,pn为当前的收藏条目,E为转发关系集合,S为原始收藏条目集合;将每一条转发链数据的最后两个结点pn-1和pn去除;
B2、计算转发链之间转换的最小操作代价;设在转发链结构的链表中存在插入一个结点、删除一个结点和以另一个结点替换当前结点这三种基本操作,每个操作所要花费的代价均为1;则长度为k的转发链Ri通过三种基本操作变为长度为l的转发链Rj所需的最小操作代价Cost(Ri,Rj)通过回溯搜索算法计算得到;
B3、根据上一步的计算结果Cost(Ri,Rj),计算转发链Ri和转发链Rj的相似度sim(Ri,Rj);相似度sim(Ri,Rj)的计算公式如下:
max{k,l}表示求取k和l中的最大值。
3.如权利要求1所述的方法,其特征在于,所述步骤C具体包括:
C1、确定候选的推荐对象用户集合;
C2、根据转发链相似度计算结果给每一条转发链上的候选推荐对象计算权重值;
C3、加和所有转发链上的权重值计算结果。
4.如权利要求3所述的方法,其特征在于,所述步骤C1具体包括:
C11、设目标用户u的所有转发链集合为Tu={R1,R2,…,Rn},其中n表示转发链的长度;根据步骤B1中对转发链数据的定义,转发链Ri和转发链Rj上的共同用户集合Si,j由Ri∩Rj得到,设Si,j表示为m表示Si,j中用户的总数;
C12、设Di为转发链Ri上所有候选的推荐对象用户的集合,则Di由公式计算,其中n表示转发链的长度,∪为求并集符号;
C13、对目标用户所有转发链集合Tu上候选的推荐对象用户构成的集合Θ,则由如下公式计算:其中n表示转发链的长度,∪为求并集符号。
5.如权利要求3所述的方法,其特征在于,所述步骤C2具体包括:
C21、给所有的存在与其它转发链相似度不为0的转发链1单位的分配权重;
C22、根据步骤B中所得的转发链相似度计算结果,转发链Ri上的任意一个候选的推荐对象ui所得到的分配权重值weight(ui)为其中j为枚举用的临时变量,n表示转发链的长度,Si,j表示转发链Ri和转发链Rj上的共同用户集合;
C23、反复执行步骤C22直到所有转发链上所有的候选的推荐对象所得的分配权重值全部被单独计算完毕。
6.如权利要求3所述的方法,其特征在于,所述步骤C3具体包括:
C31、设I(ui,Di)为判定函数,如果ui∈Di则函数返回值为1,否则为0;
C32、根据步骤C2中计算得到的每个转发链上候选推荐对象所得的权重值,进行求和操作,得到全体候选用户集合Θ中每个用户的最终权重值:
其中ui∈Θ
其中,Θ表示目标用户所有转发链上候选的推荐对象用户构成的集合,u表示等待计算的候选用户对象,ui表示当前等待计算的候选对象u在第i条转发链上环境下的标记,weight(ui)表示当前等待计算的候选对象在第i条转发链上所得到的分配权重值,n表示目标用户所包含的所有收藏条目个数;
至此,所有候选的推荐对象所得的权重值全部计算完毕。
CN201510331056.XA 2015-06-15 2015-06-15 一种基于转发链相似度的用户关注对象推荐计算方法 Active CN105069003B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510331056.XA CN105069003B (zh) 2015-06-15 2015-06-15 一种基于转发链相似度的用户关注对象推荐计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510331056.XA CN105069003B (zh) 2015-06-15 2015-06-15 一种基于转发链相似度的用户关注对象推荐计算方法

Publications (2)

Publication Number Publication Date
CN105069003A CN105069003A (zh) 2015-11-18
CN105069003B true CN105069003B (zh) 2018-06-29

Family

ID=54498376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510331056.XA Active CN105069003B (zh) 2015-06-15 2015-06-15 一种基于转发链相似度的用户关注对象推荐计算方法

Country Status (1)

Country Link
CN (1) CN105069003B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869058B (zh) * 2016-04-21 2019-10-29 北京工业大学 一种多层潜变量模型用户画像提取的方法
CN108268519B (zh) * 2016-12-30 2022-05-24 阿里巴巴集团控股有限公司 一种推荐网络对象的方法和装置
CN109783740A (zh) * 2019-01-24 2019-05-21 北京字节跳动网络技术有限公司 关注页面的排序方法及装置
CN110912809B (zh) * 2019-12-23 2021-09-17 京东数字科技控股有限公司 信息分享链的生成方法及装置、电子设备、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079062A (zh) * 2007-06-22 2007-11-28 腾讯科技(深圳)有限公司 一种网页重要性评价方法及系统
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
US7908263B1 (en) * 2008-06-25 2011-03-15 Richard S Paiz Search engine optimizer
CN103473128A (zh) * 2013-09-12 2013-12-25 南京大学 一种用于mashup应用推荐的协同过滤方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079062A (zh) * 2007-06-22 2007-11-28 腾讯科技(深圳)有限公司 一种网页重要性评价方法及系统
US7908263B1 (en) * 2008-06-25 2011-03-15 Richard S Paiz Search engine optimizer
CN101321190A (zh) * 2008-07-04 2008-12-10 清华大学 一种异构网络中的推荐方法及推荐系统
CN103473128A (zh) * 2013-09-12 2013-12-25 南京大学 一种用于mashup应用推荐的协同过滤方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
社交网络中的用户转发行为预测;谢婧 等;《上海交通大学学报》;20131231(第4期);全文 *

Also Published As

Publication number Publication date
CN105069003A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN109684478B (zh) 分类模型训练方法、分类方法及装置、设备和介质
Yao et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model
López-Robles et al. Understanding the intellectual structure and evolution of Competitive Intelligence: A bibliometric analysis from 1984 to 2017
TWI705341B (zh) 特徵關係推薦方法及裝置、計算設備及儲存媒體
Rukhovich et al. Iterdet: iterative scheme for object detection in crowded environments
CN109815952A (zh) 品牌名称识别方法、计算机装置及计算机可读存储介质
CN102722709B (zh) 一种垃圾图片识别方法和装置
CN109753602B (zh) 一种基于机器学习的跨社交网络用户身份识别方法和系统
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN106484764A (zh) 基于人群画像技术的用户相似度计算方法
CN105069003B (zh) 一种基于转发链相似度的用户关注对象推荐计算方法
CN107516235A (zh) 商品偏好预估方法和装置
Zhang et al. Characterizing scientific production and consumption in physics
CN107657056A (zh) 基于人工智能展示评论信息的方法和装置
CN106294676B (zh) 一种电子商务政务系统的数据检索方法
CN107220325A (zh) 一种基于卷积神经网络的app相似图标检索方法和系统
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
Ectors et al. Developing an optimised activity type annotation method based on classification accuracy and entropy indices
Li et al. Event extraction for criminal legal text
Kempinska et al. Interactional regions in cities: making sense of flows across networked systems
Huang et al. Information fusion oriented heterogeneous social network for friend recommendation via community detection
CN105589916B (zh) 显式和隐式兴趣知识的提取方法
Ogudo et al. Sentiment analysis application and natural language processing for mobile network operators’ support on social media
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
Liu et al. Multi-task learning based high-value patent and standard-essential patent identification model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant