CN102495867B - 在线社会网络的网页搜索方法及其系统 - Google Patents

在线社会网络的网页搜索方法及其系统 Download PDF

Info

Publication number
CN102495867B
CN102495867B CN 201110388300 CN201110388300A CN102495867B CN 102495867 B CN102495867 B CN 102495867B CN 201110388300 CN201110388300 CN 201110388300 CN 201110388300 A CN201110388300 A CN 201110388300A CN 102495867 B CN102495867 B CN 102495867B
Authority
CN
China
Prior art keywords
webpage
user
friend
mentioned
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110388300
Other languages
English (en)
Other versions
CN102495867A (zh
Inventor
蒋竞
陈培
王潇
代亚非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN 201110388300 priority Critical patent/CN102495867B/zh
Publication of CN102495867A publication Critical patent/CN102495867A/zh
Application granted granted Critical
Publication of CN102495867B publication Critical patent/CN102495867B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种在线社会网络的网页搜索方法,以及一种网页搜索系统。在用户访问在线社会网络时,在线社会网络搜索所有该用户的朋友推荐给该用户的网页;对上述搜索到的各网页,在线社会网络提取该朋友转发该网页至该用户当前访问的时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量;在线社会网络根据各网页的上述时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量作为参数对各网页进行排序;在线社会网络按照上述排序向用户返回全部或部分搜索结果。本发明计算开销低,不依赖用户提供搜索关键词,不需要爬取网页,满足个性化的需求,有效避免信息过载等问题。

Description

在线社会网络的网页搜索方法及其系统
技术领域
本发明属于网络信息搜索领域,涉及一种网页搜索方法,尤其涉及一种在线社会网络的网页搜索方法,以及系统。
背景技术
个人生活的网络化成为当前的社会趋势,人们的生活越来越离不开网络。数以亿计的人们使用在线社会网络:Facebook拥有8亿注册用户,新浪微博的注册用户高达2亿,Twitter和人人网的注册用户数也超过1亿。作为一种新兴的传播媒介,在线社会网络改变了传统信息发布、扩散的方式。人们主动和其它用户结为朋友,并且实时地收到朋友推荐的内容。信息借助分享、推荐等方式扩散到广泛的用户,却几乎不需要什么成本。在线社会网络已成为交流沟通、共享信息和组织活动的重要平台。
随着大量用户的加入和海量信息的发布,在线社会网络面临信息过载的问题。朋友分享的网页都自动推送到用户的新鲜事。随着朋友数量的增长,用户收到的网页日益增多。如图1所示,在人人网中,500个朋友的用户总共收到朋友推荐的13万网页,1000个朋友的用户总共收到朋友推荐的23万网页。这些网页包含丰富的内容,比如日志、照片、视频等。面对大量信息,用户难以筛选出感兴趣的内容。需要一种高效的网页搜索方法,帮助用户搜索用户关注的网页。
中国发明专利申请“一种网页排序方法及装置”(公开号:CN 101079064A)提供了一种网页排序方法,存储用户确立的网页类别向量;将用户访问的IP日志进行分类,根据用户访问最多的IP类别确定用户的专家类别;当用户根据搜索引擎检索结果点击网页时,按照确定的用户的专家类别对该网页对应的网页类别向量的值加分;当用户通过搜索引擎输入索引进行信息检索时,参照网页的网页类别向量对搜索的网页进行优化排序。其目的是解决现有技术中直接靠用户的点击次数对网页进行加分而导致用户恶意点击,加分推荐非常盲目的问题。
但在在线社会网络中,用户无需输入任何关键词,就需要收到朋友推荐的网页。第二,上述技术还是以用户对网页的实际访问为基础,而在在线社会网络中,用户收到的网页都来源于朋友的推荐,上述方法显然不适用。
中国发明专利申请“基于用户关注时间的网页文本与图象排序方法”(公开号:CN 101320387A)公开的方法包括利用关注时间结合传统搜索技术生成个性化的网页和图片排序,为用户提供更好的个性化服务。该方法所述的关注时间是用户在浏览一个网页或图片时花费的阅读或浏览时间,其中一个关键步骤是基于文本和图片相似度来预测未知网页的关注时间。
但在在线社会网络中,难以爬取网页内容,可能无法对网页内容进行分析。如Facebook和人人网等以实名制为基础,保护用户隐私。在在线社会网络中,很多网页有专门的权限,只允许特定的人浏览,不能随意爬取网页内容,自然也就无从象百度等搜索引擎一样爬取网页内容,然后进行分析。
中国发明专利申请“基于内容引用的网页搜索结果排序方法”(公开号:CN101526956A)公开的方法先针对各类用户的各类查询词获取各类网页的网页全集,再经过正文提取、文本分块、引用列表建立的步骤得到该网页全集内各文本块的所有引用列表,再通过网页排名计算,得到引用最多的50个文本块作为引用黑名单,然后当同一用户输入查询词时,把该引用黑名单作为引用列表建立时的文本块索引表,利用表内的网页列表,作为网页排名计算时的参照物得到对包含用户查询词的所有网页排序。
如上所述,在线社会网络不需要输入关键词,也无法爬取网页内容进行分析,因此该方法也无法应用于在线社会网络。
另外,在在线社会网络中,当用户登录后,在线社会网络立刻提供网页排序后的搜索结果。要求搜索方法的时间开销低,短时间内返回结果。
上述现有技术的方法因为计算量大,难以达到在线社会网络的要求。
发明内容
本发明的目的在于提供一种在线社会网络的网页搜索方法,满足低开销、不依赖搜索关键词、不爬取网页内容的要求。
本发明的另一目的在于提供一种在线社会网络的网页搜索系统。
本发明的在线社会网络的网页搜索方法,其步骤包括:
1、在用户访问在线社会网络时,在线社会网络搜索所有该用户的朋友推荐给该用户的网页;
2、对上述搜索到的各网页,在线社会网络提取该朋友转发该网页至该用户当前访问的时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量;
3、在线社会网络根据各网页的上述时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量作为参数对各网页进行排序;
4、在线社会网络按照上述排序向用户返回全部或部分搜索结果。
本发明根据上述时间间隔、流行度和该用户已转发该朋友推荐网页的数量分别对各网页评分,得到各网页的综合分数,按照综合分数对各网页进行排序。
上述网页根据时间间隔的分数为:
iscore k = 14.74 * e ( - 0.2 * ( ( c - t ik ) / 86400 - 2.5 ) ) , 当(c-tik)/86400<=30;iscorek=0,当(c-tik)/86400>30;其中,c表示当前访问时间,tik表示朋友i转发网页k时间。
上述网页根据流行度的分数为:
pscorek=log10(pk),其中,pk表示网页k被转发次数。
上述网页根据该用户已转发该朋友推荐网页的数量的分数为:
ascoreij=55.63+2.92*aij,其中aij表示该用户j已转发该朋友i推荐网页的数量。
上述网页的综合分数为pscorek*iscorek*ascoreij
本发明的在线社会网络的网页搜索系统,包括至少一个带搜索引擎的在线社会网络服务器,若干用户终端,各用户终端与所述服务器通过网络连接,所述服务器通过搜索引擎在一用户通过一用户终端访问在线社会网络时搜索该用户朋友转发给该客户的所有网页;
所述服务器内设或连接一个或多个数据库,记录或分别记录各网页被一用户的朋友转发该用户至该用户访问该在线社会网络的时间间隔、该网页被转发次数和该用户已转发该朋友推荐网页的次数;
所述服务器或所述数据库设一网页评分模块,用以根据所述时间间隔、该网页被转发次数和该用户已转发该朋友推荐网页的次数对该网页评分,并得出该网页的综合分数;
所述服务器设一网页排序模块,根据上述网页的综合分数对各网页进行排序;
所述服务器按照网页排序全部或部分将搜索结果返还所述用户终端。
所述数据库在产生新网页时插入该网页的记录,将该网页的流行度设置为1,每当该网页被转发时,数据库更新该网页的记录,将流行度加1;在用户创建新的朋友关系时插入该朋友的记录,并将已转发该朋友推荐网页的数量设置为0,每当用户转发该朋友推荐的网页时,将已转发该朋友推荐网页的数量加1。
为了提供本发明的网页搜索方法,首先分析了用户行为,找到决定用户关注的属性及相应的参数。从收到的网页中,用户浏览部分网页,然后转发有趣的网页,推荐给更多的人。通过分析用户转发的网页,可以发现影响用户行为的因素。
本发明考虑网页自身、时间、朋友和发布者等多方面的属性,如表1所示显示了各属性对用户行为的影响。本发明发现代表用户关注度的属性是:网页的流行度、转发间隔时间和已转发该朋友推荐网页的数量。本发明选择这三个属性,作为搜索参数。
表1
Figure BDA0000113976540000051
为了确定这些属性的用法和参数,首先定义各符号,详见表2。
表2
  符号   含义
  pk   网页k的流行度,即该网页被转发次数
  tik   朋友i转发、推荐网页k的时间,以秒为单位
  c   当前时间,以秒为单位
  aij   用户j已转发朋友i推荐网页的次数
  pscorek   网页k的基于流行度的分数
  iscorek   网页k的基于时间间隔的分数
  ascoreij   基于用户j已转发朋友i推荐网页次数的分数
热门资源的流行度远大于普通资源。为了缩小热门资源和普通资源间的差异,同时保证热门资源的分数高于普通资源,本发明使用对数函数,设定网页k基于流行度的自身分数为:
pscorek=log10(pk)                (1)
本发明发现转发间隔时间是重要因素。对于用户实际采纳、转发的网页,本发明计算朋友推荐网页时间到用户访问网页时间的间隔。如图2所示,横轴是该转发时间间隔,纵轴是该间隔对应的实际访问的网页比例。本发明用公式y=14.74*e(-0.2*(x-2.5))进行拟合。此外,图2显示转发时间间隔大约30天的网页几乎没有。
由此,本发明设定网页基于时间间隔的分数为:
iscore k = 14.74 * e ( - 0.2 * ( ( c - t ik ) / 86400 - 2.5 ) ) , 当(c-tik)/86400<=30
iscorek=0,当(c-tik)/86400>30                (2)
图2的横轴是以天为度量单位,而当前时间、朋友推荐时间等以秒为度量单位,所以需要除以86400(1天=86400秒)进行转换。
如图3所示,本发明发现用户转发朋友的网页数量越多,那么用户和该朋友的关注点越相近,今后越可能再次转发该朋友推荐的网页。图3详细度量了两者间的关系,并用公式y=55.63+2.92x进行拟合。
因此本发明设定基于已转发该朋友推荐网页的次数的分数为:
ascoreij=55.63+2.92*aij                        (3)
计算每个网页的综合分数是pscorek*iscorek*ascoreij
然后按照综合分数对网页进行排序,按照事先设定,如设定网页显示量为综合分数为前100的网页,向用户返回全部或部分搜索结果。
本发明分析了影响用户行为的因素,提出了在线社会网络的网页搜索方法,考虑了网页流行度、转发时间间隔、已转发该朋友推荐网页数量等多个特征,可以帮助用户找到关注的网页内容。
本发明具有以下几个优点:
1、计算复杂度是0(1),计算开销低,迅速向用户返回排序结果;
2、不依赖用户提供搜索关键词,可以在不需要用户输入搜索关键词的情况下向用户发送其关注的网页信息;
3、不需要爬取网页,没有利用网页的内容;
4、用户收到的网页都来源于朋友的推荐,用户的朋友不同,其收到的网页就不同。实现了向每个用户提供特定的网页排序结果,满足个性化的需求。
附图说明
图1朋友数与用户收到朋友推荐网页数量的关系示意图
图2转发时间间隔与用户实际采纳并转发的网页的关系示意图关系示意图;
图3已转发该朋友推荐网页次数与再转发该朋友推荐网页次数的关系示意图;
图4本发明方法与现有搜索方法的比较示意图;
图5本发明系统结构框图。
具体实施方式
如图5所示,本发明的在线社会网络的网页搜索系统,包括至少一个带搜索引擎的在线社会网络服务器,若干用户终端,各用户终端与所述服务器通过网络连接,所述服务器通过搜索引擎在一用户通过一用户终端访问在线社会网络时搜索该用户朋友转发给该客户的所有网页;所述服务器内设或连接一个或多个数据库。在本实施方式中,在线社会网络维护一网页流行度数据库(表示为,<网页,流行度>数据库,记录该网页被转发次数,维护一已转发朋友推荐网页的次数的数据库,(表示为<用户,朋友,已转发朋友推荐网页的次数>的数据库),在线社会网络还提取各网页被一用户的朋友转发该用户至该用户访问该在线社会网络的时间间隔;所述服务器(当然,也可以是所述数据库)设一网页评分模块,用以根据所述时间间隔、该网页被转发次数和该用户已转发该朋友推荐网页的次数对该网页评分,并得出该网页的综合分数;所述服务器设一网页排序模块,根据上述网页的综合分数对各网页进行排序;所述服务器按照网页排序全部或部分将搜索结果返还所述用户终端,以便用户查阅。
本发明的在线社会网络的网页搜索排序方法,具体步骤为:
1、在线社会网络维护<网页,流行度>的数据库,每当产生新网页时,在数据库插入该网页的记录,将流行度设置为1。每当用户转发该网页时,在数据库更新该网页的记录,将流行度加1。
2、在线社会网络维护<用户,朋友,已转发给朋友推荐网页的次数>的数据库,每当用户创建新的朋友关系时,在数据库插入该朋友的记录,并将已转发该朋友推荐网页的数量设置为0。每当用户转发该朋友推荐的网页时,将已转发该朋友推荐网页的数量加1。
3、当用户登录系统时,在线社会网络首先获取所有朋友推荐的网页,表示为<推荐朋友,推荐时间,推荐的网页>。
4、对于每个网页,查询<网页,流行度>的数据库,获得网页的流行度。对于推荐朋友,访问<用户,朋友,已转发给朋友推荐网页的次数>的数据库,获得已转发给朋友推荐网页的数量。
5、对于每个网页,按照公式(1)计算网页自身分数pscorek;按照公式(2)计算网页的时间分数iscorek;按照公式(3)计算朋友对用户的分数ascoreij
6、计算每个网页的总分是pscorek*iscorek*ascoreij
7、对于朋友推荐的所有网页,计算相应的分数,并按照分数排序。得分越高的网页,排在越前面。
8、向用户返回全部或部分的排序后的网页搜索结果。
为了方便后续描述,本发明方法简称PIF方法,即the ranking algorithmbased on popularity,interval time and previous adoption from the friend。
以下详细介绍模拟实验,验证本发明方法的效果。该实验使用人人网,这是中国最大、最早的在线社会网络之一。本发明利用用户分享信息及朋友关系,对网页排序结果进行评测。
该实验实施步骤如下:
1、收集4211万用户的朋友关系,和2010年7月前所有的分享网页记录。
2、随机抽取1万用户,作为评测用户集。自2010年1月1日到2010年6月,这些用户的朋友推荐的网页,作为评测网页集。
3、基于用户分享网页记录,本发明对评测网页集建立<网页,流行度>的数据库。
4、基于用户分享网页记录,本发明对评测用户集建立<用户,朋友,已转发给朋友推荐网页的数量>的数据库。
5、每当用户采纳、转发朋友推荐的网页时,获取当前时刻朋友推荐的网页,并按照本发明方法进行排序。
6、评估排序效果。对于用户实际采纳、转发的网页,计算在排序结果的位置。如果位置越靠前,则效果越好。
7、比较排序效果。本实验同时考虑下述3种方法,计算基于该方法的排序结果,并求出实际转发网页的位置。
1)基于流行度的方法,简称P方法(Popularity)。网页的流行度越高,排在越前面。
2)基于转发时间间隔的方法,简称IT方法(Interval Time)。网页的转发间隔时间越短,排在越前面。这是人人网等在线社会网络主要使用的方法。
3)基于已转发朋友推荐网页数量的方法,简称FI方法(Previous adoptionfrom the friend)。已转发该朋友推荐网页数量越多,这位朋友新推荐的网页排名越靠前。
图4给出了在线社会网络排序方法PIF的实施效果的优越性。如图4所示,比较了在各种方法下,用户实际采纳、转发网页的排名。横轴是排名,纵轴是该排名的网页比例。用户实际转发的网页,必然是用户关注的内容。这些网页的排名越靠前,表明方法的效果越好。从图4中可以看出,本发明的在线社会网络网页搜索PIF方法效果最佳,40%的网页都排在前10,明显优于其它方法。
本发明方法可以帮助用户得到关注的网页,避免信息过载等问题。

Claims (2)

1.一种在线社会网络的网页搜索方法,其步骤包括:
1)在用户访问在线社会网络时,在线社会网络搜索所有该用户的朋友推荐给该用户的网页;
2)对上述搜索到的各网页,在线社会网络提取该朋友转发该网页至该用户当前访问的时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量;
3)在线社会网络根据各网页的上述时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量作为参数对各网页进行排序;
4)在线社会网络按照上述排序向用户返回全部或部分搜索结果;
根据上述时间间隔、被转发次数和该用户已转发该朋友推荐网页的数量分别对各网页评分,并得到各网页的综合分数,按照综合分数对各网页进行排序;
上述网页根据时间间隔的分数为:
iscor e k = 14.74 * e ( - 0.2 * ( ( c - t ik ) / 86400 - 2.5 ) ) , 当(c-tik)/86400<=30;其中,c表示当前访问时间,tik表示朋友i转发网页k的时间;
上述网页根据时间间隔的分数为:iscorek=0,当(c-tik)/86400>30;
上述网页根据被转发次数的分数为
pscorek=log10(pk),其中,pk表示网页k被转发次数;
上述网页根据该用户已转发该朋友推荐网页的数量的分数为
ascoreij=55.63+2.92*aij,其中aij表示该用户j已转发该朋友i推荐网页的数量;
上述网页的综合分数为pscorek*iscorek*ascoreij
2.一种在线社会网络的网页搜索系统,该系统包括:
1)用于使得在用户访问在线社会网络时,在线社会网络搜索所有该用户的朋友推荐给该用户的网页的模块;
2)用于使得对上述搜索到的各网页,在线社会网络提取该朋友转发该网页至该用户当前访问的时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量的模块;
3)用于使得在线社会网络根据各网页的上述时间间隔、被转发的次数和该用户已转发该朋友推荐网页的数量作为参数对各网页进行排序的模块;
4)用于使得在线社会网络按照上述排序向用户返回全部或部分搜索结果的模块;根据上述时间间隔、被转发次数和该用户已转发该朋友推荐网页的数量分别对各网页评分,并得到各网页的综合分数,按照综合分数对各网页进行排序;
上述网页根据时间间隔的分数为:
Figure FDA00003105277200021
当(c-tik)/86400<=30;其中,c表示当前访问时间,tik表示朋友i转发网页k的时间;
上述网页根据时间间隔的分数为:iscorek=0,当(c-tik)/86400>30;
上述网页根据网页被转发次数的分数为:
pscorek=log10(pk),其中,pk表示网页k被转发次数;
上述网页根据该用户已转发该朋友推荐网页的数量的分数为
ascoreij=55.63+2.92*aij,其中aij表示该用户j已转发该朋友i推荐网页的数量;上述网页的综合分数为pscorek*iscorek*ascoreij
CN 201110388300 2011-11-29 2011-11-29 在线社会网络的网页搜索方法及其系统 Expired - Fee Related CN102495867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110388300 CN102495867B (zh) 2011-11-29 2011-11-29 在线社会网络的网页搜索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110388300 CN102495867B (zh) 2011-11-29 2011-11-29 在线社会网络的网页搜索方法及其系统

Publications (2)

Publication Number Publication Date
CN102495867A CN102495867A (zh) 2012-06-13
CN102495867B true CN102495867B (zh) 2013-10-16

Family

ID=46187692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110388300 Expired - Fee Related CN102495867B (zh) 2011-11-29 2011-11-29 在线社会网络的网页搜索方法及其系统

Country Status (1)

Country Link
CN (1) CN102495867B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915343A (zh) * 2014-03-10 2015-09-16 宏碁股份有限公司 网页重要性分析方法与其电子装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016825A (zh) * 2007-08-17 2011-04-13 谷歌公司 对社交网络对象进行排名

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060218146A1 (en) * 2005-03-28 2006-09-28 Elan Bitan Interactive user-controlled relevance ranking of retrieved information in an information search system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102016825A (zh) * 2007-08-17 2011-04-13 谷歌公司 对社交网络对象进行排名

Also Published As

Publication number Publication date
CN102495867A (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
CN103118111B (zh) 一种基于多个数据交互中心的数据进行信息推送的方法
Li et al. A synthetical approach for blog recommendation: Combining trust, social relation, and semantic analysis
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
Tran et al. Hashtag recommendation approach based on content and user characteristics
US20070233672A1 (en) Personalizing search results from search engines
CN104602042A (zh) 基于用户行为的标签设置方法
Yazdanfar et al. Link recommender: Collaborative-filtering for recommending urls to twitter users
CN106503025A (zh) 一种应用推荐方法和系统
CN103049440A (zh) 一种相关文章的推荐处理方法和处理系统
CN109918563A (zh) 一种基于公开数据的图书推荐的方法
CN107679239B (zh) 一种基于用户行为的个性化社区推荐方法
CN103020302A (zh) 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
CN102236646A (zh) 对象级垂直搜索引擎个性化排序算法iRank
Shapira et al. Personalized search: Integrating collaboration and social networks
CN103116635A (zh) 面向领域的暗网资源采集方法和系统
CN102737027B (zh) 个性化搜索方法及系统
CN115408618B (zh) 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法
CN103262079B (zh) 检索装置及检索方法
Kim et al. Topic-Driven SocialRank: Personalized search result ranking by identifying similar, credible users in a social network
CN106021423A (zh) 基于群组划分的元搜索引擎个性化结果推荐方法
CN103823847A (zh) 一种关键词的扩充方法及装置
CN102495867B (zh) 在线社会网络的网页搜索方法及其系统
Zhang et al. A recommender system for cold-start items: a case study in the real estate industry
KR100773066B1 (ko) 인터넷 정보검색방법
CN103823808A (zh) 利用微博短链的网页搜索系统及网页搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131016

Termination date: 20161129