CN101526956A

CN101526956A - 基于内容引用的网页搜索结果排序方法

Info

Publication number: CN101526956A
Application number: CN200910081203A
Authority: CN
Inventors: 高嵩; 周强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2009-09-09

Abstract

基于内容引用的网页搜索结果排序方法属于计算机信息检索技术领域，其特征在于，首先，针对各类用户的各类查询词获取各类网页的网页全集，再经过正文提取、文本分块、引用列表建立的步骤得到该网页全集内各文本块的所有引用列表，再通过网页排名计算，得到引用最多的50个文本块作为引用黑名单，其次，当同一用户输入查询词时，把该引用黑名单作为引用列表建立时的文本块索引表，利用表内的网页列表，作为网页排名计算时的参照物得到对包含用户查询词的所有网页排序。本发明在排除了导航性质的网页干扰的同时，也提高了查询和排序的速度。

Description

基于内容引用的网页搜索结果排序方法

技术领域

本发明属于自然语言处理技术领域

背景技术

随着Internet规模的迅速膨胀，如何从Internet上获取用户需要的信息成为一个重要的研究课题，于是搜索引擎技术应运而生。它根据用户的查询返回一系列可能与用户的查询相关的网页，并按照某种算法对这些网页进行排序最后呈现在用户面前。评价一个搜索引擎的性能主要有以下这些指标：准确率、查全率、第一页(或前N个结果)的准确率。由于Internet上面的信息量极其庞大，而且用户关心的是迅速准确的找到自己需要的信息，所以真正用户最直接体验的指标是第一页(或前N个结果)的准确率。一个好的搜索引擎必须有一个好的搜索结果排序算法，将质量最好的网页放在第一页呈现给用户。现在最广泛应用的搜索结果排序算法是PageRank算法和HITS算法。PageRank算法与HITS算法均是基于链接分析的搜索引擎排序算法，并且在算法中二者均利用了特征向量作为理论基础。他们都有一个局限性：即认为网页之间的全部联系就是超链接。所有的计算也都是基于网页之间的超链接进行。而现实中很可能网页中不包括显式的超链接，有可能以文字表明文章来源，也可能直接引用其它文章的文字而不加说明，或者虽然文字不是完全一致但是明显借鉴了另外一篇文章等等，按照PageRank的思想这些行为实际上都应当提高引用源页面的排序分值，但由于没有超链接存在，所以现有的PageRank算法并不能体现这些关系。这便造成了PageRank算法结果与实际情况的偏差。

根据统计在中文网页中大量存在不加任何说明注释的直接引用，更没有超链接指向引用源，这造成了很多网页现有的排序值很低，背离了该网页的真实重要程度，影响了网页排序算法的效果。如何在网页超链接相对比较缺乏时，挖掘并利用这种超链接之外的网页之间的相互关系成为一个有着重要现实意义的课题。而基于文本内容的网页排序算法则很接近人的直观认识，它不区分不同网页上的相同文字，排序的对象不是一个用URL标示的网页而是网页中的文章内容。本发明正是基于这种思想提出了一种基于文本引用关系的网页排序算法。算法认为被引用次数越多的文本段落可能越重要，从而应当获得更好的排名。当一个网页中的内容被很多网页引用时，我们认为有很多人同意该网页的观点，于是给该网页一个较高的评分。另外如果一个网页引用了许多其他网页的内容，我们认为他包含了很大的信息量，是一种总结性综述性的文章，同样也给其一个较高的评分。它从一个与当前流行的基于超链接分析的网页排序算法完全不同的侧面着眼，能够挖掘出大量无法体现在超链接中的文本信息，以接近人类思考的方式进行网页排名。当用户需要查询包含大量信息的网页时，如查询某词的定义、百科知识等，这种算法比起传统的基于超链接分析的算法有着较明显的优势。

术语定义

查询词：用户提交的用于查询的词。系统返回一系列与查询词相关的网页，按照重要程度从高至低进行排序。

待处理网页：使用搜索引擎获取的与查询词相关的一系列网页。整个算法的排序对象就是这些网页。

文本块：网页中长度约为10个汉字的纯文本片断。

引用/引用块：当一个文本块同时在两个以上的网页上出现时，称之为引用。该文本块称之为引用块。

有效引用/有效引用块：为区别于无效引用块，我们将包含一定相关信息量，确实能够反映文档重要程度的引用块称为有效引用块，该引用称为有效引用。

无效引用块列表：事先生成的一些无效引用块的列表。在后面的计算中凡是在该列表中的引用全部不计算。

哈希表：按照(关键字，值)对进行存储的数据结构。对给定关键字可以迅速查找到其相对应的值(无论表的规模如何，均可在固定时间内找到对应的值)。

块索引表：针对所有待处理网页中的文本块，建立一个对(文本块，包含该文本块的网页编号列表)，使用哈希表进行存储，称为块索引表。

大规模互联网语料库：从Internet上抓取的包含极大数量网页的语料库。

发明内容

本发明的目的在于提出一种基于内容引用的网页搜索结果排序方法，把包含用户所希望的内容的网页排在前面。

本发明的特征在于：

所述方法是在信息检索系统的计算机上依次按以下步骤实现的：

步骤(1)初始化

步骤(1.1)建立相关网页获取模块、网页正文获取模块、文本分块模块、引用列表建立模块以及网页排名计算模块，其中：

相关网页提取模块，根据用户输入的查询词，用Google搜索引擎从互联网上获取与所述查询词相关的网页，组成网页集合，

网页正文提取模块，从所述相关网页获取模块输入所建的网页集合，使用jericho-html-2.5工具包进行各网页的正文抽取工作，把各网页转化为纯文本格式，

文本分块模块，从所述网页正文抽取模块输入各网页的正文，把各个网页切分为每10个汉字为一块的文本块，在句号或换行符处结束当前块，并进行块对齐，若当前块不足5个汉字，则把当前块与上一块合并，然后，把每个纯文本文件用一个文本块列表表示，

引用列表建立模块，从所述文本分块模块逐个输入全部待处理网页中的文本块，对于每一个所述网页，对其中每一个文本块，按照以下步骤建立该文本块的网页引用列表，

根据一读入的所述全部待处理网页中的文本块，建立一个块索引表，采取哈希表的格式，关键词为该文本块的内容，其对应值为一个列表，该列表中存储了该文本块的网页编号，构成网页列表，

以后每输入一个文本块，便通过所述块索引表查找所输入的文本块所对应的网页列表：

若：所读入的文本块不包含在所述块索引表内，则把已读入的文本块加入到所述块索引表中，所指向的网页列表中只包含当前网页，

若：所读入的文本块已包含在所述块索引表的一个或多个称为引用块的文本块中，如果在该块索引表中相应的一个或多个文本块已有N个网页，则所读入的文本块便检测到N个引用，再把所读入的文本块所在的那个当前网页也加入网页列表，得到对应于所读入文本块的网页索引列表，

上述网页正文抽取模块、文本分块模块、以及用应列表建立模块共同构成了一个引用次数计算模块，简称引用计算模块，

网页排名计算模块，按照以下步骤生成网页排名序列：

从所述引用列表建立模块输入的所述网页引用列表，

生成两个集合：待处理集合P与结果集合S，初始值为空，

把全部待处理网页放入所述待处理集合P，

检查块索引表，对于每一个待处理网页而言，针对每一个关键字若对应的值列表中包含多于一个网页，则其中任何两个网页之间记为一次引用，若该文本块在引用时包含的汉字大于5个，且也不出现在所述无效引用表中，则对引用块双方网页均进行加分，所述引用双方分别为当前计算的网页与该文本块对应的网页列表中的每一个网页，加分分值为：该文本块长度，也称引用块长度/网页长度，并回放在所述集合P中，选取分数最高的网页放入结果集合S中，并在所述集合P中加以删除，并再重复此步骤，

若所述集合S中的网页个数满足要求，或所述集合P为空，则结束，否则把正在做排序计算的网页中所有的文本块以所述块索引表中山区，再计算下一个网页；

步骤(1.2)程序初始化

步骤(1.2.1)置引用黑名单为空，

步骤(1.2.2)把与各类用户查询词相关的各类所有网页的网页全集输入所述引用计算模块，把得到的引用列表中引用次数最多的前M个文本块作为引用黑名单；

步骤(2)接受用户输入的查询词，依次按一下步骤得出排序结果：

步骤(2.1)用所述网页获取模块获取与用户输入的查询词相关的网页集合，

步骤(2.2)读入步骤(1.2.2)得到的引用黑名单，并以此作为引用列表建立时与读入的每一个文本块所对照时用的无效块索引表，

步骤(2.3)把步骤(2.1)得到的网页集合列入所述引用列表建立模块，得到一个对应于用户输入的查询词的网页引用列表，

步骤(2.4)把步骤(2.3)得到的网页引用列表输入所述网页排名计算模块，得到网页排序表。

所述M＝50。

本发明的效果在于：在对名词解释进行查询时，可迅速找到包含大量相关信息的网页，名词的定义会被排在非常靠前的位置。避免了一些导航性质的网页的干扰。

附图说明

图1.本发明的程序流程图；

图2.文本分块流程图；

图3.网页引用列表示例图；

图4.本发明在网页排名计算时的迭代流程图。

具体实施方式

在具体实施方案中，我们使用了Google搜索引擎作为相关网页查询工具，获取100个待处理网页。使用jericho-html-2.5工具包进行网页的正文抽取工作，将网页转化为纯文本格式。使用Sogou互联网语料库作为大规模互联网语料库，生成无效引用块列表。下面我们针对一次实际查询“十字星”，描述算法的具体步骤如下：

准备：将Sogou互联网语料库进行分块，查找出现次数最多的50个块，生成无效引用块列表。

1.调用Google搜索引擎搜索“十字星”，获取其返回的前100个页面。这些页面作为该查询词的相关文档。我们不使用Google给出的网页排名信息，而是使用本算法对这100个网页重新计算排名输出。

2.调用jericho-html-2.5工具包将上一步产生的100个待处理网页全部转化为纯文本格式。

3.对待处理网页进行分块处理，每10个汉字为一块，在“。”、“！”、“？”、换行符的地方进行对齐。如下面这一段文字：“十字星是一种K线基本型态阳十字星就是实体为阳线的十字星，缩量就是成交量比前一交易日减少。在K线中，开盘价到收盘价之间的价格段称为实体，价格波动超出实体之外的部分称为影线，实体上下都有较实体长的影线就叫十字星。”，分块之后结果如下：“[十字星是一种K线基本][型态阳十字星就是实体][为阳线的十字星，缩量][就是成交量比前一交易日减少。][在K线中，开盘价到收][盘价之间的价格段称为][实体，价格波动超出实][体之外的部分称为影线][，实体上下都有较实体][长的影线就叫十字星。]”在分块进行到“就是成交量比前一交易日减少。”时，按照每块长度为10个汉字，在句号处对齐的规则，第一次切块应为“[就是成交量比前一交易][日减少。]”这是由于“[日减少。]”一块长度不足5，所以与上一块进行合并。

4.逐个读入全部待处理网页中的文本块，建立一个块索引表。其中以块内容为关键字，其对应值为一个列表，其中存储包含该块的网页编号。每读入一个文本块，则通过块索引表查找该文本块所对应的网页列表。如果块索引表中不包含该文本块，则将该文本块加入块索引表中。其指向的网页编号列表中只包含当前网页。如果块索引表中已包含该文本块，则检测到多个引用块，引用双方分别为当前处理网页与当前文本块对应的网页列表中的每一个网页。如当前该文本块对应的网页列表中已有N个网页，则检测到N个引用。之后将当前网页也加入网页列表。处理完成后块索引表中的记录类似：“([十字星是一种K线基本]，[33，51，53，66])”。这代表在编号为33、51、53、66的网页中都包含文本块“[十字星是一种K线基本]”。

5.不断迭代，每迭代一次选出一个得分最高的网页，并修改块索引表。如根据块索引表中的一项([十字星是一种K线基本]，[33，51，53，66])，可以得到相互之间的6次引用，即(33，51)、(33，53)、(33，66)、(51，53)、(51，66)、(53，66)。每次引用均对引用双方的网页进行加分。加分分数为：引用块长度/网页总长度。处理完全部的引用之后51号网页获得最高分，于是输出51引网页在排名第一位置，在待处理集合中删除51号网页。另外将所有包含在51号网页中的文本块均从块索引表中删除。如([十字星是一种K线基本]，[33，51，53，66])这一项将被整个删除。修改完块索引表之后，重新计算分数最高网页。如此迭代10次，即可返回10个结果。

实际实验中返回结果的第一篇网页为“7类常见十字星的实战应用”，其中详细给出了7类常见十字星的定义，已经完全能够满足用户对“十字星”定义了解的需要。随后给出的结果中包含一些更细致的说明以及一些其他相关知识，可以供用户进一步深入了解使用。

Claims

1.基于内容引用的网页搜索结果排序方法，其特征在于，所述方法是在信息检索系统的计算机上依次按以下步骤实现的：

步骤(1)初始化

网页正文提取模块，从所述相关网页获取模块输入所建的网页集合，使用jericho-html-2.5工具包进行各网页的正文抽取工作，把各网页转化为纯文本格式，文本分块模块，从所述网页正文抽取模块输入各网页的正文，把各个网页切分为每10个汉字为一块的文本块，在句号或换行符处结束当前块，并进行块对齐，若当前块不足5个汉字，则把当前块与上一块合并，然后，把每个纯文本文件用一个文本块列表表示，

引用列表建立模块，从所述文本分块模块逐个输入全部待处理网页中的文本块，对于每一个所述网页，对其中每一个文本块，按照以下步骤建立该文本块的网页引用列表，根据一读入的所述全部待处理网页中的文本块，建立一个块索引表，采取哈希表的格式，关键词为该文本块的内容，其对应值为一个列表，该列表中存储了该文本块的网页编号，构成网页列表，

若：所读入的文本块不包含在所述块索引表内，则把己读入的文本块加入到所述块索引表中，所指向的网页列表中只包含当前网页，