CN101201838A

CN101201838A - 利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法

Info

Publication number: CN101201838A
Application number: CNA2007101430238A
Authority: CN
Inventors: 邓剑波; 戴云川; 詹天荣; 张潘; 高潮; 周波; 张森; 胡显如
Original assignee: Xinbaili Shoe (shenzhen) Coltd
Current assignee: Xinbaili Shoe (shenzhen) Coltd
Priority date: 2007-08-21
Filing date: 2007-08-21
Publication date: 2008-06-18

Abstract

本发明利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法，在获得用户提交的用户查询以后，首先对查询进行预处理，然后分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块，分别由查询分析模块完成查询的词组生成工作；由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据，进行网页文本数据处理，进而生成倒排表的工作；然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配，并在搜索引擎给出的原排序基础上，根据词组匹配程度，对原排序进行调整，最后将最终结果返回到用户端，同时可以给出网页的自动摘要；本发明具有更高的排序科学性。

Description

利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法

技术领域

本发明是一种利用词组索引技术而实现的一种通用搜索引擎的后端处理技术，通过对原搜索结果进行合理的筛选和排序，从而帮助用户获得更需要的结果。

背景技术

搜索引擎是搜索网页及网站的工具，在我们的“网络生活”中已成为不可缺少的一部分，是我们在网上查找资料，获得信息，学习知识的重要途径。目前的通用搜索引擎的基本原理是通过网站或网页的收集程序(即基于关键词索引的通用搜索引擎，该通用搜索引擎的数据库是依靠一个叫“网络机器人(Spider)”或叫“网络蜘蛛(crawlers)”的软件，通过网络上的各种链接自动获取大量网页信息内容，并按已定的规则分析整理形成的。当用户提交查询后，将查询解析为一些独立的关键词，然后去数据库内检索，并按一定的排序算法排序，最后返回给用户，如百度和Google。)，从互联网上自动搜集网页地址及其文本，然后将搜集到的网页文本交给索引和检索系统，由计算机扫描文本中每一个词，建立以词为单位的倒排文件(或称为倒排表)，检索程序根据用户给出的检索词在文本中出现的频率和概率，对包含这些检索词的文本进行排序，最后输出网页及网站的排序结果。

基于关键词索引的通用搜索引擎的问题集中在以下几点：

1.1、长短语检索精确度不高

以关键词索引为基础的通用搜索引擎，在进行关键词搜索上有很大的优势，结果也比较准确。但是事实上，用户在搜索的时候，习惯上并不是使用一个关键词，往往是较长的短语(2-3或4-5的词组)来检索，而且通常凭一个关键词或关键词的简单逻辑组合，也很难表达用户搜索的意图。而且它们的查询结果往往不够准确：无用的(对于检索词不相关或相关性低的)搜索结果过多。根据2004Pew互联网与美国生活调查研究报道(Pew Internet and American Life Project2004)，引擎用户平均需搜索近5次，才能查到结果。因而，能帮助用户快速准确查到结果的新的搜索引擎技术为市场需要。

具体情况分析如下：

一、不能排除冗余的关键词制造的噪声。如：“甘肃省兰州大学教务处”＝“兰州大学教务处”，但用前者查询时就会出现很多包含冗余的关键词“甘肃省”而不含有“兰州大学教务处”的网页。(详见附图1)；另外，对于原本表示同一个概念的短语，稍加变化，则结果大相径庭。如：“物理学基本常数”与“物理学上的基本常数”。(详见附图2、3)

二、各关键词的相关性在查询结果中不能很好地体现。如搜索“中国西部的大学”，则会出现“西北大学中国西部经济”等词。

1.2、搜索结果排序不合理。

传统搜索引擎的排序方式主要有两种：一、以用户点击率为标准，点击次数越高，排序越靠前；二、超链分析技术。现在的搜索引擎已普遍使用超链分析技术，除了分析索引网页本身的内容，还分析索引所有指向该网页的链接的URL、Anchor Text、甚至链接周围的文字。所以，有时候，即使某个网页A中并没有某个词比如“兰州大学”，但如果有别的网页B用链接“兰州大学”指向这个网页A，那么用户搜索“兰州大学”时也能找到网页A。而且，如果有越多网页(C、D、E、F……)用名为“兰州大学”的链接指向这个网页A，或者给出这个链接的源网页(B、C、D、E、F……)越优秀，那么网页A在用户搜索“兰州大学”时也会被认为更相关，排序也会越靠前。这种方法的缺点是，用单一检索词在文本中出现的概率和频率来计算，并不完全代表检索词与文本内容的相关性的值。在输入长短语或句子查询的情况下，不能很好的体现检索句与文本内容相关性的高低。

1.3、无法处理问句。

搜索引擎的发展前景，要求搜索引擎对用户检索提问具有一定的理解能力，但目前通用的搜索引擎不具备处理问句的能力。百度的一个做法就是“百度知道”，再如“新浪爱问”等，但这些也是有一定的问题的。百度知道、新浪爱问(http：//iask.sina.com.cn/)，是一种提问、回答，赏金猎人机制，或称为“人肉搜索引擎”。鼓励助人为乐，带动勤学好问，固然不错；但也存在不少问题：

●重复太多，相同内容的答案被重复转贴多次。

●误区不少，限于回答者的水平参差不齐，导致有很多错误的答案。

●充斥无用信息，类似论坛，有很多无意义的争论、抢座。

●可能被人利用发布广告。

综上所述，现存的搜索引擎对于完整的查询的匹配是模糊的，这样有利于得到更多结果，但是却导致很多无用的结果充斥进来，甚至干扰到较好的结果的出现位置，而且这些搜索引擎对问句没有做特殊处理，效果相对不好。

发明内容

本发明的目的是在于利用词组索引技术对基于关键词索引的搜索引擎进行改进，可以避免上述缺陷，使搜索引擎更具人性化，从而获得更具合理性的结果(即合乎用户搜索意图的结果更靠前)；具有更高的排序科学性；在给出用户搜索结果的同时，可以给出自动摘要。

本发明是这样实现的，在获得用户提交的用户查询以后，首先对查询进行预处理，主要完成联想和问句处理工作：一、对查询进行联想，获得更精准或更丰富的查询表述；二、如果用户的原始查询是问句，则利用问句模式匹配程序，将问句转换为陈述句；然后将预处理后的查询，分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块，分别由查询分析模块完成查询的词组生成工作；由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据，进行网页文本数据处理，进而生成倒排表的工作；然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配，并在搜索引擎给出的原排序基础上，根据词组匹配程度，对原排序进行调整，最后将最终结果返回到用户端，同时可以给出网页的自动摘要。

所述的查询分析模块由以下几部分构成：

分词、标注词性部分：由分词程序将查询分解成一个个词语，一般对于英文来说，分词这一步可以简单的按空格划分，在分词的过程中同时把每个词的词性标识出来；

词语组合部分：用词组生成程序，把分词得到的词语以每个实词为中心，在其前和后附加上若干别的词，组合成包含词语数量不等、搭配不同的一系列词组，在组合的过程中，根据分词程序标注的词性，去除一些无意义的组合，例如一些虚词组合等，得到用于检索的词组集；

词组排序部分：将获得的词组集，按词组长短排序，长的在前，短的在后，用户的原始查询排在第一位，存放到内存中，获得词组集。

所述的搜索引擎接口与网页数据处理模块由以下几部分构成：

从搜索引擎接口获取数据部分：将预处理过的查询送入传统搜索引擎接口，从而获得元数据，所述的元数据结构为：网页文本数据、相应链接、原始排序；

词频分析部分：对获得的每张网页的文本数据，通过分词程序将文本分解成一个个独立的词语，用词频统计程序统计词频，将词频超过阈值的词标注为关键词；

关键词组合部分：利用词组生成程序，以每个关键词为中心，在其前和后分别附加若干别的词，组合成包含词语数量不等、搭配不同的一系列词组，在组合的过程中，根据分词程序标注的词性，去除一些无意义的组合，例如一些虚词组合等，得到用于建立倒排表的词组集；所有的词组生成工作都限于在当前句内，不出现将不同句子包含的关键词组合到一起的情况；

建立倒排表部分：将获得的词组按长短排序，长的在前、短的在后，连同这些词组来源的信息，按“词组→网页id1，网页id2，…”这样的对应表的形式插入或更新到内存或磁盘上的倒排表索引文件中。

所述的检索匹配是通过匹配检索模块完成，该匹配检索模块由匹配程序将在查询分析模块获得的按长短顺序排好的词组，依次与搜索引擎接口与网页数据处理模块获得的倒排表索引文件中的词组进行精确匹配：按词组的排序，先精确匹配其中较长的词组，再依次精确匹配较短的词组，这样检索到的就是包含查询中关键词多的网页文本。

本发明是在原通用搜索引擎的搜索结果基础上，使用词组索引技术对用户的查询和搜索结果进行再处理，从而获得更具合理性的结果(即合乎用户搜索意图的结果更靠前)；查询结果的排序，是在原有结果的排序基础上，根据原结果与用户查询的匹配程度，对原排序进行调整，得到最终结果，从而具有更高的排序科学性；在给出用户搜索结果的同时，可以给出自动摘要。虽然本发明对于查询不是精确匹配，而是对查询进行了处理后生成多个词组才用于检索，这样可以在搜索的范围扩大的同时，又可以利用生成的词组进行精确匹配。由于词组在表达语意方面要强于单个的词，使得搜索的结果更精确的体现查询者的可能意图。

附图说明

图1为利用通用搜索引擎无搜索“甘肃省兰州大学教务处”的结果网页；

图2为利用通用搜索引擎搜索“物理学基本常数”的结果网页；

图3为利用通用搜索引擎搜索“物理学上的基本常数”的结果网页；

图4为本发明的流程结构图；

图5为本发明的查询分析模块结构图；

图6为本发明搜索引擎接口与网页数据处理模块结构图。

图7具体实施例图表

图8具体实施例图表

具体实施方式

如图4所示，本发明在获得用户提交的用户查询以后，首先对查询进行预处理，主要完成联想和问句处理工作：一、对查询进行联想，获得更精准的查询表述；二、如果用户的原始查询是问句，则利用问句模式匹配程序，将问句转换为陈述句；然后将预处理后的查询，分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块，分别由查询分析模块完成查询的词组生成工作；由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据，进行网页文本数据处理，进而生成倒排表的工作；然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配，并在搜索引擎给出的原排序基础上，根据词组匹配程度，对原排序进行调整，最后通过输出模块，将最终结果返回到用户端(浏览器)，同时可以给出网页的自动摘要。

所述的排序调整，就是通过按照与存入结果集相同的先后次序，优先匹配长词组，遍历结果集，取出对应的网页链接以及其它相关信息。

所述的查询分析模块由以下几部分构成，如图5所示：

词组排序部分：将获得的词组集，按词组长短排序，长的在前，短的在后(用户的原始查询排在第一位)，存放到内存中，获得词组集。

所述的搜索引擎接口与网页数据处理模块由以下几部分构成，如图6所示：

从搜索引擎接口获取数据部分：将预处理过的查询送入传统搜索引擎接口，从而获得元数据(Meta Data)，所述的元数据(Meta Data)结构为：网页文本数据、相应链接(URL)、原始排序；

所述的词性规则匹配是指制定相关的词与组合规则，对生成词组的过程加以约束，从而保证生成词组的合理性，详见另一专利申请“词组索引技术在互联网搜索引擎中的应用及实现”。

得到匹配的项后，将其对应的网页id检出，将依次存放到结果网页集中。对结果集中对应相同网页id的项进行合并，词组长度按其中出现最长的词组的长度计，即把这些项归并到最先匹配得到的项中。在完成匹配排序后，再将未匹配的结果按原排序输出，从而得到最终网页排序。

以下为实现本发明过程中的一些示例：

1、生成词组方式的示例：

假设正在分析的网页中有这样一句话：

“北京2008年奥运会的吉祥物正式揭晓仪式”

分词与词性标注的结果：

北京/n2008年/t奥运会/n的/l吉祥物/n正式/a揭晓/v仪式/n

假设正在分析的所获取的网页的关键词是″奥运会″(通过词频分析可以得到)，那么利用我们的方法可以重新组合出的词组为：

2008年奥运会 (将关键词前的词与关键词组合)

北京2008年奥运会 (将关键词前的词与关键词组合)

北京奥运会 (将关键词前的词与关键词组合)

奥运会的吉祥物 (将关键词后的词与关键词组合)

奥运会的吉祥物正式揭晓 (将关键词后的词与关键词组合)

奥运会的吉祥物正式揭晓仪式 (将关键词后的词与关键词组合)

奥运会吉祥物揭晓 (将关键词后的词与关键词组合)

奥运会吉祥物仪式 (将关键词后的词与关键词组合)

则不可能出现：“吉祥物的奥运会”一类顺序颠倒的词组。

2、倒排索引表的具体结构：

倒排索引表的结构是每个词组对应一个网页id列表，存储方式可以灵活使用，例如可在每个词组后，记录一个指向对应网页id列表的指针，以这样的二元组方式来实现。

词组字符串

网页id列表

或

3、联想模式：

通过建立词库，可以适当对一些用户的查询进行改进，从而提高查询效率。

4、问句转换为陈述句的说明与例子：

对问句进行简单的预处理，将问句转换成了陈述语序然后再进行搜索。

例如：

为什么太阳是圆的？

太阳是圆的原因

太阳是圆的缘由

太阳是圆的缘故

......

该如何提高孩子的自理能力？

提高孩子的自理能力方法

提高孩子的自理能力技巧

提高孩子的自理能力注意事项

......

5、通过改进使用户想要的结果更靠前的例子：

搜索“中国情人节的礼物”这句话，使用目前通用的搜索引擎得出的结果很可能是像这样：

“…与西方情人节不同…还具有深厚的中国文化底蕴，…且看我们为你准备的礼物攻略…”

完全不能体现查询语句的整体意思。而使用词组索引生成的词组来检索时，就不会出现上述词序颠倒的情况；而且在生成词组时限制在一句之内，这就可以避免把两句话，甚至两段话的本来无关的内容串到一起。所以，使用本发明中生成词组的方法处理后，搜索这句话，得出的结果如下：

“…中国情人节别出心裁的礼物…中国传统…选好礼物…”

与查询语句的原意的相关性大为增加，且相关性越好的结果出现得越靠前。

一个好的搜索引擎，不仅数据库容量要大，更新频率、检索速度要快，支持对多语言的搜索，而且随着数据库容量的不断膨胀，还要能从庞大的资料库中精确地找到正确的资料。本发明改进后的优点是：

1、结果排序更合理：好的结果出现的位置更靠前。由于使用本发明可以处理长句子及问句，并用更能表达语义的词组作索引，从而在搜索时，内容更接近用户的可能意图。

2、可给出自动摘要。

下面是一些实例对比，其中SS代表本发明改进后的结果：

例一：单个关键词及其简单逻辑组合组成的常用词组

由于单个关键词及其简单逻辑组合，往往能够在网页文本的原文中找到对应文本，所以传统搜索引擎经本发明改进后，优势不是很突出，改进前后结果基本一致，在此不作举例说明。

例二、多关键词表示复杂语义搜索的平均结果对下列短语分别在SS、Google、Baidu中搜索。

中国情人节礼物

元旦法定假日的天数

张艺谋的最新电影

甘肃省兰州大学教务处

碳酸钠的颜色

睡觉时候磨牙的原因

中国西部的大学

乌龙茶的产地

桂圆上市的时间

超文本传输协议原理解析

结果如图7：

例三、问句搜索的平均结果

对下列短语分别在SS、Google、Baidu中搜索

春节是怎么来的？

如何计算能带

兰州有没有到西安的飞机？

萤火虫发光是什么原理？

怎样才能安全使用煤气？

为什么大学生不被重用？

元旦法定假日是几天？

艺妓回忆录的导演是谁？

结果如图8：

小结：

□复杂语义的搜索结果

■第一好结果得位置(越小越好)

□SS＜Baidu＜Google

■前十个结果中好结果的数目(越大越好)

□SS＞Google＞Baidu

■前二十个结果中好结果的数目(越大越好)

□SS＞Baidu＞Google

□问句的搜索结果

■第一好结果得位置(越小越好)

□SS＜Baidu＜Google

■前十个结果中好结果的数目(越大越好)

□SS＞Baidu＞Google

■前二十个结果中好结果的数目(越大越好)

□SS＞Google＞Baidu

Claims

1.一种利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法，其特征在于：在获得用户提交的用户查询以后，首先对查询进行预处理，主要完成联想和问句处理工作：一、对查询进行联想，获得更精准的查询表述；二、如果用户的原始查询是问句，则利用问句模式匹配程序，将问句转换为陈述句；然后将预处理后的查询，分别独立送给查询分析模块和搜索引擎接口与网页数据处理模块，分别由查询分析模块完成查询的词组生成工作；由搜索引擎接口与网页数据处理模块完成从传统搜索引擎中获取网页数据，进行网页文本数据处理，进而生成倒排表的工作；然后通过检索排序模块将查询分析模块生成的词组在搜索引擎接口与网页数据处理模块获得的倒排表里进行检索匹配，并在搜索引擎给出的原排序基础上，根据词组匹配程度，对原排序进行调整，最后将最终结果返回到用户端，同时可以给出网页的自动摘要。

2.根据权利要求1所述的利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法，其特征在于：所述的查询分析模块由以下几部分构成：

3.根据权利要求1所述的利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法，其特征在于：所述的搜索引擎接口与网页数据处理模块由以下几部分构成：

4.根据权利要求1所述的利用词组索引技术对基于关键词索引的搜索引擎进行改进的方法，其特征在于：所述的检索匹配是通过匹配检索模块完成，该匹配检索模块由匹配程序将在查询分析模块获得的按长短顺序排好的词组，依次与搜索引擎接口与网页数据处理模块获得的倒排表索引文件中的词组进行精确匹配：按词组的排序，先精确匹配其中较长的词组，再依次精确匹配较短的词组，这样检索到的就是包含查询中关键词多的网页文本。