CN102930029A - 一种社会化的搜索引擎方法和系统 - Google Patents

一种社会化的搜索引擎方法和系统 Download PDF

Info

Publication number
CN102930029A
CN102930029A CN2012104411846A CN201210441184A CN102930029A CN 102930029 A CN102930029 A CN 102930029A CN 2012104411846 A CN2012104411846 A CN 2012104411846A CN 201210441184 A CN201210441184 A CN 201210441184A CN 102930029 A CN102930029 A CN 102930029A
Authority
CN
China
Prior art keywords
user
expert
microblogging
search engine
microblog users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104411846A
Other languages
English (en)
Inventor
王恺
莫倩
张树
张传文
李阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING WISEWEB TECHNOLOGY Co Ltd
Beijing Technology and Business University
Original Assignee
BEIJING WISEWEB TECHNOLOGY Co Ltd
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING WISEWEB TECHNOLOGY Co Ltd, Beijing Technology and Business University filed Critical BEIJING WISEWEB TECHNOLOGY Co Ltd
Priority to CN2012104411846A priority Critical patent/CN102930029A/zh
Publication of CN102930029A publication Critical patent/CN102930029A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种社会化的搜索引擎方法,首先基于微博,抽取微博用户的基本信息,建立专家信息库,然后获取用户查询请求,根据查询请求在专家信息库中找到与之相关的专家,接着依据用户自主选择,将用户的查询请求转发给一个或多个被选专家,进而,在用户请求转发后,对此请求进行实时追踪,及时抓取专家返回的结果,最后对查询结果进行处理,并返回给用户。此方法更多的考虑了人的因素,通过帮助用户找到与查询最为相关的专家,在充分发挥用户主观判断能力下,实现人到人的信息获取模式,从而提高搜索引擎的查全率和查准率。

Description

一种社会化的搜索引擎方法和系统
技术领域
本发明涉及互联网信息处理领域中的搜索引擎技术,具体为一种社会化的搜索引擎方法和系统。
背景技术
搜索引擎作为互联网信息检索的重要工具,极大地节省了用户获取信息的时间和精力。然而,随着网络的普及,存在于网络资源池中的数据呈指数型增长,搜索引擎已经越来越难以满足用户的搜索需求。特别是Web2.0的出现与发展,更多地考虑了人的因素,充分发挥了人的互动性,更促使互联网成为了一个人们可以将自己隐性知识转化流通、可共享显性知识的互动平台。因而,互联网中的信息资源也不再仅仅依靠网站管理人员建立和维护,普通用户成为信息的缔造者和使用者,改变了以往用户信息获取的推送模式,呈现出去中心化的含义。
目前,随着社交网站、个人主页、博客、微博、视频和图片分享等网络应用的快速发展,极大地体现了人们对互动性的渴求。特别是微博的兴起,以一条简短的状态信息来反映用户自身最新的状况,改变了长久以来始终以网页作为信息获取基本单元的模式,用户希望通过参与、交流,获取个性化、可信任的信息。然而这种对互动性的诉求是目前搜索引擎通过在搜索框中键入关键字进行匹配所难以满足的。同时,在互联网海量信息面前,以Google、百度为代表的机器搜索依然强调算法,试图用不断提高的机器性能和不断改进的算法技术来提升用户的搜索体验,已渐渐显得力不从心,无论是精准度还是效率都不能满足人的需要。近年来,百度贴吧、搜狗爱问等问答系统的出现虽然在一定程度上满足了人们对互动性的要求,但是由于其答题者常常未经筛选,也未能发挥提问者的主观判断性,往往导致大量垃圾信息的出现。
发明内容
针对以上问题,本发明基于微博平台,提供了一种社会化的搜索引擎方法,来帮助用户获取准确、可信任的信息,从而提高搜索引擎的查全率和查准率。
为了达到上述目的,本发明采用了以下技术方案:
一种社会化的搜索引擎方法,包括以下步骤:
(1)基于微博,建立专家信息库;
(2)获取用户查询请求,根据查询请求在专家信息库中找到与之相关的专家;
(3)将用户的查询请求发送给一个或多个专家;
(4)用户请求转发后,对此请求进行实时追踪,及时抓取专家返回的结果;
(5)对步骤(4)中返回的结果进行处理,并返回给用户。
所述的搜索引擎方法,其特征是,所述步骤(1)包括以下步骤:
(1.1)爬取微博网站上的网页,抽取其中微博用户的基本信息;
(1.2)提取微博用户的微博关键词;
(1.3)计算微博用户的综合影响力。
所述的搜索引擎方法,其特征是,步骤(1.1)所述微博用户的基本信息包括:微博用户名、微博账号、所在地、联系邮箱、用户标签、用户简介、关注数、粉丝数、微博数。
所述的搜索引擎方法,其特征是,步骤(1.2)中,若用户标签不为空,则将其作为该用户的微博关键词;否则,将从该用户最新发表的M篇微博状态中提取关键词作为该用户的微博关键词,其中M为自定义值。
所述的搜索引擎方法,其特征是,步骤(1.3),即利用公式(I)计算微博用户的综合影响力:
W u = ∂ 1 N fans + ∂ 2 ( β 1 N atten + β 2 N status ) - - - ( I )
Figure BDA00002366664000022
其中,Wu表示微博用户u的综合影响力,Nfans、Natten和Nstatus分别表示微博用户u的粉丝数占有率、关注数占有率和微博数占有率,
Figure BDA00002366664000023
βi为权重因子(i=1,2)。
所述的搜索引擎方法,其特征是,步骤(2)包括以下步骤:
(2.1)获取用户查询请求;
(2.2)对获取的用户查询请求进行分词、关键词提取,从而得到用户查询关键词;
(2.3)将用户查询关键词与专家信息库中微博用户的微博关键词进行匹配;
(2.4)将匹配成功的微博用户按其综合影响力进行排序后返回给用户。
所述的搜索引擎方法,其特征是,步骤(3)包括以下步骤:
(3.1)用户自主选择由步骤(2)得到的与查询相关的专家列表,若用户未自主选择,则自动为用户选择排名前n位的专家,n为自定义值(例如,可以取n=10);
(3.2)转发,以电子邮件或评论的形式向步骤(3.1)中所选专家转发用户查询请求。
所述的搜索引擎方法,其特征是,步骤(4)包括以下步骤:
(4.1)用户请求转发后,对此请求进行实时追踪;
(4.2)及时抓取专家返回的结果。
所述的搜索引擎方法,其特征是,步骤(5)包括以下步骤:
(5.1)计算结果得分,利用公式(V)计算步骤(4)返回的各条结果
WI=T(ts,t)*Wu    (V)
T ( t s , t ) = e - 0.5 * ( t - t s ) - - - ( VI )
其中,WI表示结果I的得分,Wu表示结果I回答者的综合影响力大小,T(ts,t)表示时间因素,可由公式(VI)计算得到,ts表示结果I的发布时间,t表示当前时间;
(5.2)排序、返回,将步骤(4)返回的结果按照其得分大小进行排序,并返回给用户。
本发明同时提供一种社会化的搜索引擎系统,包括:信息爬取模块、信息抽取模块、专家数据库、查询请求处理模块,其特征是,
所述信息爬取模块,用于爬取微博网站上的微博用户信息;
所述信息抽取模块,用于把爬取道德微博用户信息进行抽取、组织,然后把组织好的微博用户信息保存到专家数据库中;
所述查询请求处理模块,用于:接收用户查询请求;把该查询请求和专家数据库中的专家进行匹配;把匹配到的专家返回给用户,缺省选定n个专家,用户可以自行更改选中的专家;把用户请求发送给选中的专家;跟踪专家反馈,把反馈信息展现给用户,其中,n为自定义值,例如,可以选择n为10。
综上所述,本发明所提出的社会化的搜索引擎方法更多的考虑了人的因素,通过帮助查询用户找到正确的专家,并完成与之交互,来获取准确的信息,从而提高搜索引擎的查全率和查准率。
附图说明
图1是本发明的步骤步骤流程图。
图2是本发明中建立专家信息库的步骤流程图。
图3是本发明中找到相关专家的步骤流程图。
图4是本发明中请求转发的步骤流程图。
图5是本发明中请求追踪抓取的步骤流程图。
图6是本发明中结果处理并返回的步骤流程图。
图7是本发明方法的执行流程示意图。
图8是本发明所述系统框图。
具体实施方式
下面结合附图对本发明作进一步详细的描述。
为了能够最大限度的满足用户在获取信息的过程中对互动性的渴求,方便用户得到准确、可信任的搜索结果,本发明更多的考虑了人的因素,通过帮助用户找到与查询最为相关的专家,在充分发挥用户主观判断能力下,实现人到人的信息获取模式,从而提高搜索引擎的查全率和查准率。
本发明方法步骤流程图如图1所示,包括建立专家信息库1、找到相关专家2、请求转发3、请求追踪抓取4、结果处理并返回5。其中:
(1)建立专家信息库1:基于微博,建立专家信息库;该步骤具体包括(如图2):
采集微博用户基本信息11,爬取微博网页,从中抽取微博用户的基本信息,所述基本信息包括用户名、微博账号、所在地、联系邮箱、用户标签、用户简介、关注数、粉丝数、微博数;
提取微博用户微博关键词12,其中,若用户标签不为空,则将其作为该用户的微博关键词,否则,将从该用户最新发表的200篇(该值可以自定义)微博状态中提取关键词作为该用户的微博关键词;
计算微博用户综合影响力13,即利用公式(I):
W u = ∂ 1 N fans + ∂ 2 ( β 1 N atten + β 2 N status ) - - - ( I )
Wu表示微博用户u的综合影响力,Nfans、Natten和Nstatus分别表示微博用户的粉丝数占有率、关注数占有率和微博数占有率,如公式(II)、(III)、(IV),βi为权重因子(i=1,2)。其中,用户粉丝数、关注数、微博数最大值可通过统计得到,综合影响力可采用百分制,
Figure BDA00002366664000054
βi根据粉丝数、关注数、微博数对用户综合影响力的重要程度赋予相应的权重,且满足
Figure BDA00002366664000055
β12=1,βi>0。
(2)找到相关专家2:获取用户查询请求,根据查询请求在专家信息库中找到与之相关的专家;该步骤具体包括(如图3):
请求获取21:用于获取用户查询请求;
预处理22:对获取来的用户查询请求进行分词、关键词提取,从而得到用户查询关键词;
关键词匹配23:将用户查询关键词与专家信息库中微博用户的微博关键词进行匹配;
返回结果24:将步骤(23)中匹配成功的微博用户按其综合影响力进行排序后返回给用户。
(3)请求转发3:将用户的查询请求发送给一个或多个专家;该步骤具体包括(如图4):
用户选择31:用户自主选择由步骤(2)得到的与查询相关的专家列表,若用户未自主选择,则自动为用户选择排名靠前的几个(例如:前十个或前二十个)专家;
转发32:以电子邮件或评论的形式向步骤(3.1)中所选专家转发用户查询请求。
(4)请求追踪抓取4:用户请求转发后,对此请求进行实时追踪,及时抓取专家返回的结果;该步骤具体包括(如图5):
追踪41:用户请求转发后,对此请求进行实时追踪;
抓取42:及时抓取专家返回的结果。
(5)结果处理并返回5:对步骤4中返回的结果进行处理,并返回给用户。该步骤具体包括(如图6):
计算结果得分51:利用公式(V)计算步骤(4)返回的各条结果
WI=T(ts,t)*Wu    (V)
T ( t s , t ) = e - 0.5 * ( t - t s ) - - - ( VI )
其中,WI表示结果I的得分,Wu表示结果I回答者的综合影响力大小,T(ts,t)表示时间因素,可由公式(VI)计算得到,ts表示结果I的发布时间,t表示当前时间;
排序、返回52:将步骤(4)返回的结果按照其得分大小进行排序,并返回给用户。
需要说明的是,由于选取的专家数不是很多,所以是否对结果进行排序并不关键。
本发明同时提供一种社会化的搜索引擎系统(参见图8),包括:信息爬取模块、信息抽取模块、专家数据库、查询请求处理模块,其特征是,
所述信息爬取模块,用于爬取微博网站上的微博用户信息;例如,用网络蜘蛛从新浪微博、腾讯微博、搜狐微博等网站上抓取微博用户信息。
所述信息抽取模块,用于把爬取道德微博用户信息进行抽取、组织,然后把组织好的微博用户信息保存到专家数据库中;例如:把微博用户的用户名、微博账号、所在地、联系邮箱、用户标签、用户简介、关注数、粉丝数、微博数等信息保存到专家数据库中。
所述查询请求处理模块,用于:接收用户查询请求;把该查询请求和专家数据库中的专家进行匹配;把匹配到的专家返回给用户,缺省选定n个专家,用户可以自行更改选中的专家;把用户请求发送给选中的专家;跟踪专家反馈,把反馈信息展现给用户,其中,n为自定义值,例如,可以选择n为10,也可以为其它值。

Claims (10)

1.一种社会化的搜索引擎方法,包括以下步骤:
(1)基于微博,建立专家信息库;
(2)获取用户查询请求,根据查询请求在专家信息库中找到与之相关的专家;
(3)将用户的查询请求发送给一个或多个专家;
(4)用户请求转发后,对此请求进行实时追踪,及时抓取专家返回的结果;
(5)对步骤(4)中返回的结果进行处理,并返回给用户。
2.如权利要求1所述的搜索引擎方法,其特征是,所述步骤(1)包括以下步骤:
(1.1)爬取微博网站上的网页,抽取其中微博用户的基本信息;
(1.2)提取微博用户的微博关键词;
(1.3)计算微博用户的综合影响力。
3.如权利要求2所述的搜索引擎方法,其特征是,步骤(1.1)所述微博用户的基本信息包括:微博用户名、微博账号、所在地、联系邮箱、用户标签、用户简介、关注数、粉丝数、微博数。
4.如权利要求3所述的搜索引擎方法,其特征是,步骤(1.2)中,若用户标签不为空,则将其作为该用户的微博关键词;否则,将从该用户最新发表的M篇微博状态中提取关键词作为该用户的微博关键词,其中M为自定义值。
5.如权利要求2所述的搜索引擎方法,其特征是,步骤(1.3),即利用公式(I)计算微博用户的综合影响力:
W u = ∂ 1 N fans + ∂ 2 ( β 1 N atten + β 2 N status ) - - - ( I )
Figure FDA00002366663900012
其中Wu表示微博用户u的综合影响力,Nfans、Natten和Nstatus分别表示微博用户u的粉丝数占有率、关注数占有率和微博数占有率,
Figure FDA00002366663900013
βi为权重因子。
6.如权利要求1至5之一所述的搜索引擎方法,其特征是,步骤(2)包括以下步骤:
(2.1)获取用户查询请求;
(2.2)对获取的用户查询请求进行分词、关键词提取,从而得到用户查询关键词;
(2.3)将用户查询关键词与专家信息库中微博用户的微博关键词进行匹配;
(2.4)将匹配成功的微博用户按其综合影响力进行排序后返回给用户。
7.如权利要求1所述的搜索引擎方法,其特征是,步骤(3)包括以下步骤:
(3.1)用户自主选择由步骤(2)得到的与查询相关的专家列表,若用户未自主选择,则自动为用户选择排名前n位的专家,n为自定义值;
(3.2)转发,以电子邮件或评论的形式向步骤(3.1)中所选专家转发用户查询请求。
8.如权利要求1所述的搜索引擎方法,其特征是,步骤(4)包括以下步骤:
(4.1)用户请求转发后,对此请求进行实时追踪;
(4.2)及时抓取专家返回的结果。
9.如权利要求1所述的搜索引擎方法,其特征是,步骤(5)包括以下步骤:
(5.1)计算结果得分,利用公式(V)计算步骤(4)返回的各条结果
WI=T(ts,t)*Wu    (V)
T ( t s , t ) = e - 0.5 * ( t - t s ) - - - ( VI )
其中,WI表示结果I的得分,Wu表示结果I回答者的综合影响力大小,T(ts,t)表示时间因素,由公式(VI)计算得到,ts表示结果I的发布时间,t表示当前时间;
(5.2)排序、返回,将步骤(4)返回的结果按照其得分大小进行排序,并返回给用户。
10.一种社会化的搜索引擎系统,包括:信息爬取模块、信息抽取模块、专家数据库、查询请求处理模块,其特征是,
所述信息爬取模块,用于爬取微博网站上的微博用户信息;
所述信息抽取模块,用于把爬取道德微博用户信息进行抽取、组织,然后把组织好的微博用户信息保存到专家数据库中;
所述查询请求处理模块,用于:接收用户查询请求;把该查询请求和专家数据库中的专家进行匹配;把匹配到的专家返回给用户,缺省选定n个专家,用户可以自行更改选中的专家;把用户请求发送给选中的专家;跟踪专家反馈,把反馈信息展现给用户。
CN2012104411846A 2012-11-07 2012-11-07 一种社会化的搜索引擎方法和系统 Pending CN102930029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104411846A CN102930029A (zh) 2012-11-07 2012-11-07 一种社会化的搜索引擎方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104411846A CN102930029A (zh) 2012-11-07 2012-11-07 一种社会化的搜索引擎方法和系统

Publications (1)

Publication Number Publication Date
CN102930029A true CN102930029A (zh) 2013-02-13

Family

ID=47644826

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104411846A Pending CN102930029A (zh) 2012-11-07 2012-11-07 一种社会化的搜索引擎方法和系统

Country Status (1)

Country Link
CN (1) CN102930029A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104363162A (zh) * 2014-10-28 2015-02-18 重庆智韬信息技术中心 微博交互跟帖的追踪与请求方法
CN105975631A (zh) * 2016-06-03 2016-09-28 华东理工大学 一种用于数据集的数据使用质量的评估方法
CN106294569A (zh) * 2016-07-27 2017-01-04 北京奇虎科技有限公司 一种定制搜索方法及装置
CN106294578A (zh) * 2016-07-27 2017-01-04 北京奇虎科技有限公司 一种定制搜索方法及装置
CN106548321A (zh) * 2015-09-18 2017-03-29 高嵩 一种任务平台的争议评定方法
CN109144953A (zh) * 2018-07-27 2019-01-04 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统
CN109450999A (zh) * 2018-10-26 2019-03-08 北京亿幕信息技术有限公司 一种云剪账号数据分析方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072194A (zh) * 2007-04-29 2007-11-14 腾讯科技(深圳)有限公司 一种利用即时通信系统进行信息搜索的方法及系统
CN101093509A (zh) * 2007-07-18 2007-12-26 中国科学院计算技术研究所 一种查询交互系统和方法
CN102708176A (zh) * 2012-05-08 2012-10-03 山东大学 基于活跃用户的微博数据挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101072194A (zh) * 2007-04-29 2007-11-14 腾讯科技(深圳)有限公司 一种利用即时通信系统进行信息搜索的方法及系统
CN101093509A (zh) * 2007-07-18 2007-12-26 中国科学院计算技术研究所 一种查询交互系统和方法
CN102708176A (zh) * 2012-05-08 2012-10-03 山东大学 基于活跃用户的微博数据挖掘方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104363162A (zh) * 2014-10-28 2015-02-18 重庆智韬信息技术中心 微博交互跟帖的追踪与请求方法
CN104363162B (zh) * 2014-10-28 2017-11-10 重庆智韬信息技术中心 微博交互跟帖的追踪与请求方法
CN106548321A (zh) * 2015-09-18 2017-03-29 高嵩 一种任务平台的争议评定方法
CN106548321B (zh) * 2015-09-18 2019-09-06 高嵩 一种任务平台的争议评定方法
CN105975631A (zh) * 2016-06-03 2016-09-28 华东理工大学 一种用于数据集的数据使用质量的评估方法
CN106294569A (zh) * 2016-07-27 2017-01-04 北京奇虎科技有限公司 一种定制搜索方法及装置
CN106294578A (zh) * 2016-07-27 2017-01-04 北京奇虎科技有限公司 一种定制搜索方法及装置
CN106294578B (zh) * 2016-07-27 2019-12-10 北京奇虎科技有限公司 一种定制搜索方法及装置
CN109144953A (zh) * 2018-07-27 2019-01-04 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统
CN109144953B (zh) * 2018-07-27 2022-02-01 腾讯科技(深圳)有限公司 搜索文件的排序方法、装置、设备、存储介质及搜索系统
CN109450999A (zh) * 2018-10-26 2019-03-08 北京亿幕信息技术有限公司 一种云剪账号数据分析方法和系统

Similar Documents

Publication Publication Date Title
CN102930029A (zh) 一种社会化的搜索引擎方法和系统
Xia et al. Reciprocal recommendation system for online dating
CN101957834B (zh) 一种基于用户特征进行内容推荐的方法与设备
CN104572889B (zh) 一种搜索词推荐方法、装置和系统
CN104166668B (zh) 基于folfm模型的新闻推荐系统及方法
CN104298785B (zh) 一种众搜资源搜索方法
CN103997507B (zh) 一种信息的推送方法及装置
JP5386663B1 (ja) 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
Yazdanfar et al. Link recommender: Collaborative-filtering for recommending urls to twitter users
CN107679239B (zh) 一种基于用户行为的个性化社区推荐方法
CN105022827A (zh) 一种面向领域主题的Web新闻动态聚合方法
CN103914468A (zh) 一种投放信息搜索的方法和装置
CN102855333A (zh) 一种基于组推荐的服务选取系统及其选取方法
CN111581513B (zh) 一种网站智能信息聚合系统
US20140229487A1 (en) System and method for user preference augmentation through social network inner-circle knowledge discovery
CN102163234A (zh) 一种基于纠错相关度对查询序列进行纠错的设备和方法
WO2013037223A1 (zh) 网络微博名人信息的推荐处理方法和装置
CN103970754A (zh) 文章的自动选取方法及装置
US11249993B2 (en) Answer facts from structured content
JP2018037076A (ja) Snsポータルシステム
CN104615734B (zh) 一种社区管理服务大数据处理系统及其处理方法
CN103823798A (zh) 基于星座信息的婚恋平台会员检索模式
US8825698B1 (en) Showing prominent users for information retrieval requests
CN109002583A (zh) 一种基于用户兴趣偏好的室内设计方法及系统
CN102314422A (zh) 一种基于用户兴趣优选开放式互动版块的方法与设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130213