CN102426610B

CN102426610B - 微博搜索排名方法及微博搜索引擎

Info

Publication number: CN102426610B
Application number: CN201210010315.5A
Authority: CN
Inventors: 程学旗; 陈根宝; 李静远; 王元卓; 邢国亮; 方滨兴
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2012-01-13
Filing date: 2012-01-13
Publication date: 2014-05-07
Anticipated expiration: 2032-01-13
Also published as: CN102426610A

Abstract

本发明提供一种微博排名方法，该方法首先计算消息的实时性权值和消息作者影响力权值，然后将二者的加权平均值作为该消息的排名值，并基于所计算的排名值对消息进行排序。该方法通过将微博作者权威性和消息实时性相结合来进行排名，提高了当前微博检索结果的精确度。而且计算微博作者的影响力计算的方法简单高效，还适用于对微博系统中得用户进行权威性或者影响力排名。

Description

微博搜索排名方法及微博搜索引擎

技术领域

本发明涉及短文本搜索，尤其涉及微博环境下的搜索排名方法。

背景技术

微博是当前十分流行的一种社交网络交互系统，截至2011年5月Twitter(国外著名的微博网站)拥有超过1亿的每天登陆的活跃用户。在国内，腾讯微博拥有超过3亿的用户，新浪微博也拥有超过两亿的用户。

微博用户往往通过短小精悍的文本(一般不超过140个字)描述新闻、事件及表达自己的观点。微博庞大的用户量以及较高的用户活跃度，使得微博系统每天都产生大量的有价值的消息，据统计2011年3月11日Twitter上一天产生的微博数量为177000000条。数量庞大的微博客使得微博成为像传统web网页一样丰富的资源库，微博成为搜索引擎检索的对象。不同于传统的web搜索，微博搜索排名算法存在以下两个方面的问题：

第一，传统的web搜索引擎不关注搜索结果的实时性——搜索结果网页的产生时间对搜索结果排名没有影响或者影响很小。然而，微博是由微博用户动态生成的，其内容往往涉及到新闻以及新闻评论，具有很强的实时性，因此微博搜索的排名必须要考虑搜索结果的实时性，搜索结果的产生时间必须作为排名的依据。。

第二，微博非常短小，只有不超过140个字，一般不包含相互之间的引用链接关系，因此传统的基于链接引用分析的算法，如PageRank以及HITS等排名算法不再适用于微博搜索结果的排名。由于微博的短小，传统web搜索重要的参数TF(Term Frequency，词频)已经没有意义，因此TF-IDF统计值也不能作为微博搜索排名的依据。

现有的专门针对微博进行检索的搜索引擎(以下称为微博搜索引擎)，如Twitter本身提供的搜索服务，通常只是简单的将搜索结果按消息产生的时间的先后进行简单的排序，使得最相关的消息往往不能排在最前面。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种微博搜索排名方法，提高了当前微博检索结果的精确度。

本发明的目的是通过以下技术方案实现的：

一方面，本发明提供了一种微博搜索排名方法，该方法包括：

步骤1)，对经搜索后得到的微博消息集合中的每条消息执行如下操作：

步骤1-1)基于该消息产生的时间，计算消息的实时性权值r；

步骤1-2)计算发布该消息的用户的影响力权值o；

步骤2)，基于消息的实时性权值r和发布该消息的影响力权值o，计算每条消息的排名分值rank；

步骤3)根据步骤2)所计算的排名分值，对所述微博消息集合中的所有消息进行排序。

上述方法中，在步骤1-1)，可以采用如下公式计算r：r＝(t-t₀)²，其中t为消息产生的时间戳，t₀是为所有消息设定的标准时间戳。

上述方法中，在步骤1-1)，可以采用如下公式计算r：r＝t*log(t)。

上述方法中，在步骤2)，可以采用如下公式来计算消息的排名分值：

rank = (1 - α) * \frac{r}{R + S} + α * \frac{o}{MAX + MIN}

其中，0≤α≤1，R和S分别为步骤1)中所计算的实时性权值中的最大值和最小值，MAX和MIN分别为步骤1)中所计算的影响力权值中的最大值和最小值；

上述方法中，发布该消息的用户的影响力权值o可以是通过如下步骤计算得到的：

步骤a)获取所有微博用户信息，每条用户信息包括用户ID、用户名、好友ID、粉丝ID、发帖数；

步骤b)基于所获得的用户信息构建用户关系矩阵A，矩阵A中A_ij＝1表示用户j是用户i的粉丝，A_ij＝0表示用户j不是i的粉丝；

步骤c)计算γ＝A*λ，用γ代替λ，重复该步骤直到|λ-γ|小于预定阈值q为止，其中，λ＝(λ₁，λ₂，...，λ_n)^T，其中λ_i为用户i当前的影响力权值，其初始值为该用户的发贴数，n为微博用户的数量；

步骤d)基于经步骤c)得到的最终的λ，将其中λ_i作为用户i影响力权值o的最终值。

上述方法中，预定阈值q可以为|λ|+|γ|的0.01％。

又一方面，本发明提供了一种微博搜索排名装置，该装置包括：

用于对经搜索后得到的微博消息集合中的每条消息执行如下操作的部件：

(1)基于该消息产生的时间，计算消息的实时性权值r；

(2)计算发布该消息的用户的影响力权值o；

用于对基于消息的实时性权值r和发布该消息的影响力权值o，计算每条消息的排名分值rank的部件；

用于根据所计算的排名分值，对所述微博消息集合中的所有消息进行排序的部件。

又一方面，本发明提供了一种微博搜索引擎，该引擎包括上述微博搜索排名装置，其用于对经搜索得到的微博消息集合中的消息进行排序，以便将排序后的微博消息列表提供给检索用户。

与现有技术相比，本发明的优点在于：

通过将微博作者权威性和消息实时性相结合来进行排名，提高了当前微博检索结果的精确度。而且计算微博作者的影响力计算的方法简单高效，还适用于对微博系统中的用户进行权威性或者影响力排名

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的微博搜索排名方法的流程图；

图2为根据本发明实施例的微博用户关系示意图；

图3为根据本发明实施例的计算发布消息的用户的影响力权值的流程图；

图4为根据本发明一个实施例的微博搜索引擎示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解本发明，首先对微博进行简单介绍。微博，即微博客，是一种基于用户关系的信息分享、传播以及获取平台。微博的消息非常短，不超过140字。微博发展了一种称为“追随”(follow)的社交关系，微博用户可以任意关注感兴趣的用户而不需要获得对方的许可。微博用户发布的所有消息都会广播给他所有的“粉丝”(follower)。最早也是最著名的微博系统是美国的Twitter，根据公开的数据目前Twitter有超过2亿的活跃用户；在国内，新浪微博和腾讯微博是最热门的微博系统，目前据公开数据，新浪有超过2亿的注册用户，腾讯微博有超过3亿的注册用户。微博的盛行，给互联网带来更丰富的信息资源，微博不仅是社交网络，更成为一种传播媒体。对微博提供检索，已经在商业、政治等领域具有重要意义。

图1给出了根据本发明的一个实施例的微博搜索排名方法。该方法结合消息的实时性和消息作者的权威性来对搜索结果进行排名。其中，搜索结果是根据检索用户输入的关键词对微博进行检索后得到的消息的集合(也可简称为结果消息集合或消息集合)。需要说明的是，检索用户特指使用本发明的方法的用户，而微博用户指为使用微博系统的用户，消息作者指的是发布微博消息的微博用户。在本申请中，除了特指的检索用户之外，用户指的是微博系统的用户，消息指的是微博消息。

该方法首先为结果消息集合中的每条消息计算该消息的实时性权值与发布该消息的用户的影响力权值(也可简称为消息作者影响力权值)的加权平均值，并以此作为该消息的排名分值；然后，根据计算所得的排名分值对结果消息集合中的消息进行排序。可以在排完序的结果消息集合中选取合适数量的结果消息作为查询结果返回给检索用户。其中，消息的实时性权值是评估消息产生的时间的先后的分值；消息的实时性权值越小，表明该消息是较早以其产生的；而消息的实时性权值越大，表明该消息是最近产生的。消息作者影响力权值是评估发布该消息的用户的影响力(权威性或受关注程度或重要程度)的分值；其值越小，表明该用户的影响力越小；其值越大，表明该用户的影响力越大。

参考图1，更具体地，该方法首先对于结果消息集合中的每条消息执行如下步骤：

步骤1)基于消息产生的时间，计算消息的实时性权值(S101)。

在一个实施例中，可以简单地根据消息产生的时间的先后顺序设置该消息的实时性权值，消息产生的时间较早的，为该消息设置较小的实时性权值；消息产生的时间较早的，为该消息设置较大的实时性权值。例如，消息的实时性权值r＝t或r＝t-t₀，其中t为该消息产生的时间戳，t₀是为所有消息设定的标准时间戳，例如2006年1月1日0点0分0秒。

在又一个实施例中，为了使最新的消息具有较高的实时性权值，可以采用如下公式来计算消息的实时性权值：r＝(t-t₀)²，或者，r＝t*log(t)等。在其他实施例中，也可以采用其他的函数表达式，只要r是t的递增函数即可，不局限于线性递增方式。消息的实时性权值是随消息产生的时间的递增而递增，这样，最近产生的消息具有较高的权值。

步骤2)计算消息作者影响力权值(S102)。

由于消息作者的影响力权值体现了发布该消息的用户的影响力(权威性或受关注程度或重要程度)的大小。因此，在一个实施例中，可以基于用户的粉丝数量来设置该用户的影响力权值。用户的粉丝数量越多表明该用户的影响力越大，该用户的影响力权值越高。在又一个实施例中，可以基于用户的发贴数来设置该用户的影响力权值。用户的发贴数越多，表明该用户越活跃，该用户的影响力权值越高。具体的计算方式可以参考实时性权值的计算方法，只要符合递增函数的性质就可以了。例如，可以采用线性递增的方式，可以直接将用户的粉丝数量或用户的发帖数作为该用户的影响力权值。当然也可以采用其他的递增函数表达式。

在又一个实施例中，为了从更全面的角度计算消息作者影响力权值，采用了如下方法来计算消息作者影响力权值。

首先，获取微博客系统中的所有用户的信息(例如，n个用户)，以用户信息来构造用户关系矩阵；用户信息格式如表1所示，每条用户消息包含：用户ID、用户名称、好友ID、粉丝ID、影响力权值和发帖数六个部分。

表1

用户ID

用户名称

好友ID

粉丝ID

影响力权值

发帖数

其中，可以将各个微博用户的发帖数量，作为该用户的影响力初始值，来对影响力权值进行初始化；好友ID是该用户关注的用户的ID集合，粉丝ID是该用户的所有粉丝的ID集合。图2给出了微博用户之间相互“追随”关系的一个示例的示意图，其中，将用户A对用户B的追随(或者称为A是B的粉丝)视为A到B的有向边，以此构造微博关系图的邻接边。例如，“大智”是“小凡”的粉丝，“碧瑶”是“小凡”的好友，则存在从“大智”到“小凡”的有向边以及从“小凡”到“碧瑶”的有向边，可以看出粉丝越多的用户，其影响力越大，例如“小凡”。

然后，根据所得到的用户信息构造关系矩阵。

例如可以根据如图2给出的用户的信息来构造相应的关系矩阵A，如表2所示。

表2

	0001	0002	0003	0004	0005	0006	0007	0008
									0001	0	0	1	1	1	1	1	1
0002	0	0	1	0	0	0	0	0
									0003	1	0	0	0	0	0	0	0
0004	0	0	1	0	0	1	0	0
									0005	0	0	1	1	0	0	0	0
0006	1	0	0	0	1	0	0	0
									0007	1	0	0	0	0	1	0	0
0008	0	1	0	0	0	1	1	0

其中，001-008分别对应于图2中的用户“小凡”、“雪琪”、“灵儿”、“小环”、“惊雨”、“文敏”、“碧瑶”、“大智”。如表2所示，矩阵A中A_ij＝1表示用户j是用户i的粉丝，A_ij＝0表示用户j不是i的粉丝。

图3给出了计算用户(即消息作者)影响力权值的流程图。首先获取所有微博用户，计算每个用户的发帖数量，然后以用户的发帖数量初始化用户影响力权重；由用户各自的发帖数量形成一个初始影响力权值向量λ。λ是一个n维(n为用户数)列向量，即λ＝(λ₁，λ₂，...，λ_n)^T，其中λ_i为用户i当前的影响力权值。然后计算消息作者的影响力权值o，其计算过程是一个迭代过程，计算过程如下：每一次计算开始，计算A*λ的结果γ，并用γ代替λ重复该过程直到λ和γ的区别(|λ-γ|)小于预定阈值q，预定阈值q可以根据实际需求来进行调整，例如，q可以为|λ|+|γ|的0.01％。将λ作为消息作者的影响力权值o的最终值，并更新该用户的信息。

步骤3)基于消息的实时性权值和消息作者影响力权值来计算该条消息的排名分值(S103)。

例如，在一个实施例中，可以将经归一化处理后的消息的实时性权值和消息作者影响力权值的加权平均值，作为该条消息的排名分值。更具体地，可以对消息的实时性权值进行归一化处理，即将其映射到区间(0，1)中的某个数，所采用的归一化公式可以为其中，R和S分别为所有消息的实时性权值中最大的实时性权值和最小的实时性权值。对消息作者的影响力权值o也做归一化处理，归一化公式可以为：

其中，MAX和MIN分别为所有消息作者影响力权值中的最大值和最小值。

然后采用如下公式来计算消息的排名分值rank，rank＝(1-α)*o′+α*r′，。其中，α是可以根据需求进行调整的，其反映的是时间和作者影响力对最终排名的影响程度。例如，α＝0.25，即rank＝0.75*o+0.25*r。

在又一个实施例中，也可以采用如下公式来计算排名分值rank：

rank＝o′*r′。

应指出，以上归一化公式目的在于说明而非限制，本领域技术人员可采用其他公式对消息作者影响力权值和消息实时性权值进行归一化处理。

可见，本发明不是简单地对消息按时间排序，而是兼顾了消息的实时性和消息作者的权威性，有时，权威作者所发的消息是用户更关注的或更感兴趣的。

在对结果消息集中的每条消息计算出排名分值后，执行步骤4)。

步骤4)基于所得的排名分值rank对结果消息集合中的消息进行排序(S104)。

在本发明的又一个实施例中，提供了一种微博排名装置，其包括用于对经搜索后得到的微博消息集合中的每条消息执行如下操作的部件：

(1)基于该消息产生的时间，计算消息的实时性权值r；

(2)计算发布该消息的用户的影响力权值o；

用于根据所计算的基于消息的实时性权值r和发布该消息的影响力权值o，计算每条消息的排名分值rank的部件；

以及，用于根据所计算的排名分值，对所述微博消息集合中的所有消息进行排序的部件。

在本发明的又一个实施例中，还提供了一种微博搜索引擎，其包含所述微博排名装置，用于对经搜索得到的微博消息集合中的消息进行排序，以将排序后的微博消息列表提供给检索用户。

在本发明的又一个实施例中，提供了一种微博搜索引擎。该微博搜索引擎(以下简称为引擎)包括采集器、索引器、用户影响力计算部件、排名部件和搜索服务器。图4所示的该微博搜索引擎的结构示意图。采集器用于采集微博消息，其类似于传统web搜索中的爬虫(crawler，或称为网络蜘蛛)，但与网络爬虫不同。网络爬虫一般是基于HTTP协议对网页进行下载，然后通过对下载的网页分析，对网页中包含的链接进行递归下载，而本引擎中的采集器利用Twitter提供的API，通过调用API来抓取指定的用户指定时期内的消息。通过索引器对采集器采集到的消息进行分词并按分词建立倒排索引等，同时提取并更新用户信息。如图4所示，采集器从微博存储仓库中采集微博消息，索引器对消息进行分词，将解析出的消息正文格式化并存入存储桶中，建立倒排索引存入微博索引表，并从中消息中解析出消息作者的信息，更新用户信息表，存入用户信息仓库中。

在一个实施例中，采集器可以定期地对微博消息进行采集。但是周期性地对所有用户进行采集，这使得采集器效率十分低下，因为微博用户中很大一部分发帖周期较长，比如几天才更新一次，如果采集器对这部分用户例如3分钟采集一次将带来效率的极大下降，尤其是当这部分用户很多时。

在又一个实施例中，将用户按期发帖周期分为两类，发帖周期大于采集器周期(例如，3分钟)为第一类用户，对于这类用户，采集器在每个周期都对其进行采集；发帖周期大于采集器周期的用户为第二类用户，对于这类用户，采集器维持一个优先级等待队列，在每个采集周期中，只对其中已到发帖时间(可以根据用户的平均发帖时间获得)的用户进行采集。这使得采集器更专注于活跃用户，同时也能很好的照顾到非活跃用户，相比于周期性对所有的用户进行采集的采集器，从而可以极大地提高了采集器效率。

用户影响力计算部件用于定期地计算所有微博用户的影响力权值。更具体地，其首先从用户信息仓库中获取用户信息，用户信息格式如表1所示，每条用户消息包含：用户ID、用户名称、好友ID、粉丝ID、影响力权值和发帖数六个部分。然后如上文所述，基于用户信息构造用户关系矩阵，用发贴数来初始化影响力权值，基于关系矩阵来计算用户影响力，并保存到用户信息仓库中

排名部件采用上文提到的方法计算结果消息集合中每条消息的排名权值，并且基于排名分值对消息进行排序。

搜索服务器是微博搜索引擎与用户之间的接口，搜索服务器提供用户搜索输入的检索界面和系统返回结果的展示界面。搜索服务器会将用户输入的检索语句根据图4所示的词典进行分词，并用分词从倒排索引表中检索到相应的微博消息，然后交由排名部件对检索结果进行排序，最后将排好名的结果返回给搜索服务器，搜索服务器以用户可以理解的方式将检索结果展示给用户。

通过上述实施例，可以看出，本发明考虑了微博系统的社交网络特性，将微博作者权威性和消息实时性相结合来进行排名，提高了当前微博检索结果的精确度。而且，计算微博作者的影响力的方法简单高效，还适用于对微博系统中的用户进行权威性或者影响力排名

虽然本发明已经通过优选实施例进行了描述，然而本发明并非局限于这里所描述的实施例，在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims

1.一种微博搜索排名方法，该方法包括：

步骤1），对经搜索后得到的微博消息集合中的每条消息执行如下操作：

步骤1-1）基于该消息产生的时间，计算消息的实时性权值r；

步骤1-2）计算发布该消息的用户的影响力权值o；其中,发布该消息的用户的影响力权值o是通过如下步骤计算得到的：

步骤a）获取所有微博用户信息，每条用户信息包括用户ID、用户名、好友ID、粉丝ID、发帖数；

步骤b）基于所获得的用户信息构建用户关系矩阵A，矩阵A中A_ij=1表示用户j是用户i的粉丝，A_ij=0表示用户j不是i的粉丝；

步骤c）计算γ=A*λ，用γ代替λ，重复该步骤直到|λ–γ|小于预定阈值q为止，其中，λ=（λ₁，λ₂，…,λ_n）^T，其中λ_i为用户i当前的影响力权值，其初始值为该用户的发贴数，n为微博用户的数量；

步骤d）基于经步骤c）得到的最终的λ，将其中λ_i作为用户i影响力权值o的最终值;

步骤2），基于消息的实时性权值r和发布该消息的影响力权值o，计算每条消息的排名分值rank；

步骤3）根据步骤2）所计算的排名分值，对所述微博消息集合中的所有消息进行排序。

2.根据权利要求1所述的方法，在步骤1-1）中，r=(t-t₀)²，其中t为消息产生的时间戳，t₀是为所有消息设定的标准时间戳。

3.根据权利要求1所述的方法，在步骤1-1）中，r=t*log(t)，其中t为消息产生的时间戳。

4.根据权利要求1所述的方法，在步骤2）中，采用如下公式来计算消息的排名分值：

rank = (1 - α) * \frac{r}{R + S} + α * \frac{o}{MAX + MIN}

其中，0≤α≤1，R和S分别为步骤1）中所计算的实时性权值中的最大值和最小值，MAX和MIN分别为步骤1）中所计算的影响力权值中的最大值和最小值。

5.根据权利要求1所述的方法，其中预定阈值q为|λ|+|γ|的0.01%。

6.一种微博搜索排名装置，该装置包括：

（1）基于该消息产生的时间，计算消息的实时性权值r；

（2）计算发布该消息的用户的影响力权值o；

用于根据所计算的排名分值，对所述微博消息集合中的所有消息进行排序的部件;

其中,发布该消息的用户的影响力权值o是通过如下步骤计算得到的：

步骤d）基于经步骤c）得到的最终的λ，将其中λ_i作为用户i影响力权值o的最终值。