CN101075252A

CN101075252A - 一种网络搜索方法及系统

Info

Publication number: CN101075252A
Application number: CNA2007100761163A
Authority: CN
Inventors: 孙良
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2007-06-21
Filing date: 2007-06-21
Publication date: 2007-11-21
Also published as: WO2008154823A1

Abstract

本发明适用于网络搜索领域，提供了一种网络搜索方法及系统，所述方法包括下述步骤：以多元复合语素为索引词建立文件索引，所述多元复合语素中包含多个语素；将用户输入的检索关键词切分为至少一个多元复合语素，根据切分的多元复合语素进行网络搜索。本发明能够有效地加速索引的访问速度，保证在大并发访问的条件下网络搜索的稳定性，同时又能节约网络服务器的硬件综合成本。

Description

一种网络搜索方法及系统

技术领域

本发明属于网络搜索领域，尤其涉及一种网络搜索方法及系统。

背景技术

网络搜索中，用户输入的检索表达式为检索串，检索串中可以包含一个或者多个关键词，中间采用空格隔开，空格表示其前后的关键词将进行逻辑与(AND)操作。关键词为一个或者多个语素组成的字符串，它通过分词系统可以被继续切分。如果切分出2个语素，则称该关键词为2元复合语素，如果切分出3个语素，则称该关键词为3元复合语素。语素为最小能够表达独立语义的语言单位，它是不可分的。在中文中，语素为分词系统中切分出的中文词，在英文中，语素为基本的英文单词或者字母。

在网络搜索时，需要针对特定的检索串在较短的时间内找出所有包含该检索串的文档集合，该文档集合通常使用文档标识(ID)列表来表示。通过文档ID对被检索的文档进行唯一编号，以保证每个文档对应一个唯一的ID，实现文档的定位。

在网络搜索引擎所应用的各种技术中，后台索引技术是最为核心的技术，它直接关系到索引结构的组织和访问方式。不同的索引结构带来的索引访问开销差别很大。理论上，可以将整个索引文件都放到内存中，能够提供超过文件索引3-4个数量级以上的访问速度，但在实际应用环境中，由于网络服务器的内存容量总是不足，为了使单台网络服务器能够支持更大的索引文档数量，一般采用文件索引方式。

现有的文件索引主要利用倒排索引方式实现。倒排索引是用来加速对特定检索串进行检索的数据结构，它可以以磁盘文件形式出现，也可以加载到内存中，其结构是保存每个检索关键词对文档的对应关系表：

t

→

<d₁，W_d，t，loc₁，loc₂，...loc_fd1，t><d₂>...<d_ft...>

其中，t表示关键词，d_i表示包含t的一系列文档的ID，W_d，t表示t在文档d_i中的权值，loc_i表示t在文档d_i中出现的每个地方的位置偏移(offset)，一般用两个字节来表示。

倒排索引文件由N个上述数据项组成，N的数量等于整个文档集合在进行分析过程中得到的所有不同的关键词的总和。通过上述数据结构，可以快速进行针对特定检索关键词的查找。

当用户输入的检索串能被切分出2个或者2个以上的语素时，为了得到同时包含这两个语素的文档ID列表，必须进行AND操作，并对AND操作后的文档ID列表再进行检索关键词的位置偏移匹配操作，以保证进行AND操作的多个语素在同时出现的文档中的前后位置偏移相邻。在具体实现时，关键词命中文档中的位置偏移可以单独用文件来存储。

在网络搜索中，用户输入的大部分检索串由2个或者2个以上语素组成，在上述索引组织方式中，搜索时先进行通常方式的文档ID匹配，再进行文档内的位置偏移匹配，会带来多次磁盘文件的输入输出(IO)访问，而且读取文档ID列表和位置偏移列表的数据量很大，尤其对于一些常用词，例如“中国”，“网”，“我们”等高频语素，其索引数据量通常占到整个倒排索引文件数据量的很大比例，要在短时间内读完这些索引数据是相当困难的，这样搜索的大部分时间都消耗在磁盘文件IO的读取操作上，降低了长检索串的搜索速度和系统整体的并发能力，同时加大了网络服务器硬件设备的损耗，网络服务器容易发生故障。

发明内容

本发明实施例的目的在于提供一种网络搜索方法，旨在解决现有对长检索串进行网络搜索时，检索速度慢，系统的并发处理能力低的问题。

本发明实施例是这样实现的，一种网络搜索方法，所述方法包括下述步骤：

以多元复合语素为索引词建立文件索引，所述多元复合语素中包含多个语素；

将用户输入的检索关键词切分为至少一个多元复合语素，根据切分的多元复合语素进行网络搜索。

本发明实施例的另一目的在于提供一种网络搜索引擎，所述搜索引擎包括：

索引器，用于以多元复合语素为索引词建立文件索引数据，所述多元复合语素中包含多个语素；

索引数据库，用于存储所述文件索引数据；以及

检索器，用于将用户输入的检索关键词切分为至少一个多元复合语素，根据切分的多元复合语素进行网络搜索。

本发明实施例的另一目的在于提供一种网络搜索方法，所述方法包括下述步骤：

将用户输入的检索关键词切分为至少一个多元复合语素，所述多元复合语素中包含多个语素；

根据切分的多元复合语素进行网络搜索。

本发明实施例的另一目的在于提供一种网络搜索中的文件索引方法，所述方法包括下述步骤：

通过分词获取文档的索引词，所述索引词为多元复合语素，所述多元复合语素中包含多个语素；

以所述多元复合语素为索引词建立文件索引。

在本发明实施例中，以多元复合语素为索引词建立文件索引，将用户提供的检索串切分为相应的多元复合语素，根据切分的多元复合语素进行搜索，能够有效的加速索引的访问速度，保证在大并发访问的条件下网络搜索的稳定性，同时又能节约网络服务器的硬件综合成本。

附图说明

图1是本发明实施例提供的网络搜索方法的实现流程图；

图2是本发明实施例提供的通过多元复合语素进行网络搜索的实现流程图；

图3是本发明实施例适用的网络搜索系统的架构图；

图4是本发明实施例提供的网络搜索引擎的结构图；

图5是本发明实施例提供的检索器的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，以多元复合语素为索引词建立文件索引，将用户提供的检索串切分为相应的多元复合语素，根据切分的多元复合语素进行网络搜索。

图1示出了本发明实施例提供的网络搜索方法的实现流程，详述如下：

在步骤S101中，以多元复合语素为索引词建立文件索引，该多元复合语素中包含多个语素；

一般情况下，语素之间的前后连接(共现)情况是固定的，例如两个语素A，B，其同时相邻连接的概率是稳定的，不会随着文档集合数据的变化和文档内容变化发生不稳定的跳跃性变化。即语素A后连接B，C，D...等语素的个数是有限的，而且种类也是稳定的，不会按一个排列组合理论乘法方式进行增长。因此，如果将每个文档中切分出来的前后两个基本的语素A，B进行两两前后组配形成2元复合语素AB时，新增的2元复合语素AB的索引数据量不会无限制膨胀。同理，在一个文档中，顺序相邻的3个基本语素A，B，C也能组合成3元复合语素ABC，3元复合语素ABC对应的索引数据量也不会无限制膨胀。多元复合语素中包含的语素越多，索引数据量膨胀的越大。为了避免索引数据量的过度膨胀，在本发明实施例中选择索引词为2元复合语素，或者3元复合语素。

本发明实施例在文件索引建立阶段，以多元复合语素为索引词动态创建文件索引，可以有效提高长串检索和长句精确检索的速度。

以下通过示例对本发明实施例中文件索引的建立过程进行说明，假设有多个文档，文档的内容分别为：

文档	内容
文档	内容	Doc1	...北京大学计算机系...
Doc2	...北京大学主页...	Doc1	...北京大学计算机系...
Doc2	...北京大学主页...	Doc3	...计算机的发展...
......	......	Doc3	...计算机的发展...

首先，通过分词获取每个文档的索引词，分词可以通过现有的分词系统实现。在本发明实施例中，以分词产生的多元复合语素作为文档的索引词，例如“北京大学”、“计算机”等。然后，根据获取的索引词建立文件索引，文件索引采取倒排索引方式。

倒排索引中的对应关系为“索引词”对“拥有该索引词的所有文档标识”，如下表所示：

索引词	文档标识
索引词	文档标识	北京大学	<doc1><doc2>......
计算机	<doc1><doc3>......	北京大学	<doc1><doc2>......
计算机	<doc1><doc3>......	......	......

在倒排索引中，除了对索引词在对应文档中出现的文档标识进行标记外，还需要建立索引词在文档中出现的频率和位置偏移信息。位置偏移信息一般为某索引词是文档中的第几个索引词。假设索引词“北京大学”在文档1中出现了2次，分别为文档1的第3、7个索引词，在文档2中出现了1次，为第2个索引词，......；索引词“计算机”在文档1中出现了1次，为文档1中的第4个索引词，在文档3中出现了1次，为文档2的第1个索引词......，此时的索引结构变为：

索引词	文档标识[出现频率]	位置偏移
索引词	文档标识[出现频率]	位置偏移	北京大学	1[2]，2[1]	3，7，1
计算机	1[1]，3[1]	4，1	北京大学	1[2]，2[1]	3，7，1
计算机	1[1]，3[1]	4，1	......	......

倒排索引实现时，将上面三列分别作为词典文件(Term Dictionary)、频率文件(frequencies)和位置文件(positions)保存。其中，词典文件不仅保存有每个索引词，还保留了指向频率文件和位置文件的指针，通过指针可以找到该索引词的频率信息和位置偏移信息。

作为本发明的一个优选实施例，为了降低多元复合语素在文档中位置偏移信息的数据量，提高检索速度和效率，通过有损压缩模式来存储多元复合语素在某个文档中的位置偏移信息。

在本发明实施例中，将每个文档分成多个区段，区段可以理解为文档中的“句”偏移信息，多元复合语素在文档中的位置偏移信息即为该多元复合语素所在区段在文档中的位置偏移信息。区段的数量以方便存储位置偏移信息的字节数进行标识为宜，划分的区段越多，检索的精确度越高。

以位置偏移信息采用8个字节(64个比特)来存储为例，文档中区段的数量可以为64个，依次将整个文档切分为64个区段，如果文档内容很长，则第63个区段将容纳后面所有文本内容，区段位置偏移从0开始，最大为63，每个区段的位置偏移信息采用1个比特存储。如果某个多元复合语素在第N个区段出现，则相应就将64比特中对应的比特置为1，否则为0。当多个多元复合语素进行位置偏移匹配时，对所有的区段偏移信息按比特进行AND操作，当对应的比特为1时，表示多个多元复合语素同时出现在某个文档的相应区段中。

由于网络中的网页内容经过页面分析，往往没有明确的句分隔符，因此，本发明实施例中，区段满足如下条件：

1.如果文档中有明确的句分隔符，例如“。”“！”“？”等，则区段直接与文档中的自然句对应。

2.如果文档中没有明确的句分隔符，则区段包含的语素个数应满足一定数量，以保证区段具有合理的文本长度。在本发明实施例中，区段包含的语素大于6个，小于等于32个，相当于一个普通自然句的文本长度。

在步骤S102中，将用户输入的检索关键词切分为至少一个多元复合语素进行网络搜索。

图2示出了本发明实施例提供的根据多元复合语素进行网络搜索的实现流程，详述如下：

在步骤S201中，将用户输入的检索关键词切分为至少一个多元复合语素；

切分的多元复合语素的数量根据检索关键词而定，为了提高检索的精确度和检索效率，在对检索关键词进行切分时，优先选择高元复合语素。

在步骤S202中，根据切分的多元复合语素，查询文件索引，获取每个多元复合语素对应的索引表项，该索引表项为包含相应多元复合语素的文档ID集合；

在步骤S203中，对获取的索引表项依次进行逻辑与操作，获取同时包含每个多元复合语素的文档ID列表；

在步骤S204中，根据每个多元复合语素在文档中的位置偏移信息进行位置偏移匹配，获取对应的位置偏移匹配文档ID列表；

在步骤S205中，根据位置偏移匹配文档ID列表中的每个文档的文档ID，输出对应的搜索结果。

图3示出了本发明实施例适用的网络搜索系统的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

网络客户端10一般为客户用个人计算机(PC)、移动终端、个人数字助理(Personal Digital Assistant，PDA)等电子通信设备，其内部装载、运行有网络浏览器11。网络客户端10通过有线或者无线方式连接到网络20，网络20可以是因特网(Internet)、内联网等，进而连接到网络服务器30。网络服务器30中装载有搜索引擎31。

如图4所示，搜索引擎31连接到网络20，通过搜集器311自动访问网络20上的网站，依次跟踪其中的超文本链接，并通过关键词提取在网站上遇到的每个文件，进行相应解析后存储到原始数据库312。搜集器311一般通过由软件实施的称为“网络爬行器(Crawler)”或者“网络蜘蛛(Spider)”实现。

原始数据库312通常为由搜索引擎31标记的并可以通过网络20上的Web网访问的文件记录的数据集。数据集中的每个文件记录通常包含一个可供网络浏览器11访问的网址，例如统一资源定位符(Uniform Resource Locator，URL)，预定义的关键词，一个短的摘要，通常为该文件的几行或者前几行，还可能包含如其超文本标记语言(HTML)描述段中提供的文件描述。为了降低文件存储量，原始数据库312中也可以存储原始网页文件过滤掉图片、音视频数据、超文本链接语言(HTML)标签等数据后的文本内容。

索引器313提取原始数据库312中存储的文件的索引词，建立索引数据库314。在本发明实施例中，提取时以多元复合语素作为文件的索引词。索引数据库314可以以磁盘文件形式出现，也可以加载到内存中。在本发明实施例中，索引数据库314采用倒排索引方式。倒排索引用来加速对特定检索串的检索，其结构是保存每个关键词对文档的对应关系表(索引数据项)。一个索引数据项中包含有该索引数据项的索引词、该索引词在包含该索引词的一系列文档的标识、该索引词在相应文档中的出现频率、以及该索引词在相应文档中出现的位置偏移。索引数据库314就是由N个索引数据项组成，N的数量等于整个索引数据库314中在进行分析过程中得到的所有不同的索引词的总和。

在网络搜索时，用户通过网络浏览器11在搜索引擎31上输入检索关键词，向搜索引擎31提交一个检索请求，检索器315将检索关键词切分出至少一个多元复合语素，根据多元复合语素查询索引数据库314进行网络搜索，并将搜索结果返回网络客户端10。

参见图5，在进行网络搜索时，检索分词模块3151将用户提交的检索关键词切分为至少一个多元复合语素，例如2元复合语素，或者3元复合语素，检索关键词的切分与用户输入的检索关键词有关。为了提高检索的精确度和检索效率，在对检索关键词进行切分时，优先选择高元复合语素。

索引查找模块3152根据检索分词模块3151切分的多元复合语素，查询索引数据库314，获取每个多元复合语素对应的索引表项。逻辑处理模块3153对获取的索引表项依次进行AND操作，查找同时包含每个多元复合语素的文档ID列表。位置偏移匹配模块3154根据多元复合语素在文档中的位置偏移信息进行位置偏移匹配，保证多元复合语素前后位置相邻，这样得到的位置偏移匹配文档ID列表基本都是需要的搜索结果。在本发明优选实施例中，多元复合语素在文档中的位置偏移信息为多元复合语素所在区段在文档中的位置偏移信息。搜索结果输出模块3155根据位置偏移匹配文档ID列表中的每个文档的文档ID，输出对应的搜索结果，返回给网络客户端10。

以下通过几个示例对本发明实施例的网络搜索过程进行说明：

1.如果用户输入的检索关键词为AB，则直接查找2元复合语素AB的索引表项，进行一次磁盘文件的IO操作，可以得到对应的搜索结果。

2.如果用户输入的检索关键词为A BC(A and BC)，则分别查找语素A和2元复合语素AB的索引表项，然后进行正常AND操作，保证返回的文档同时包含语素A和多元语素BC，然后根据区段位置偏移信息进行位置偏移匹配，保证A和BC出现在同一个区段中，这样得到的对应的文档ID列表基本都是需要的搜索结果。如果用户输入的检索关键词为AB C(AB and C)时，与检索关键词为A BC的情况类似。

3.如果用户输入的检索关键词为ABC，则直接查找3元复合语素ABC的索引表项，进行一次磁盘文件的IO操作，即可得到对应的搜索结果。

4.如果用户输入的检索关键词为ABCD，优先进行3元复合语素的AND操作，将3元复合语素ABC和BCD进行AND操作，然后进行区段位置偏移匹配，即可得到对应的搜索结果；

5.如果用户输入的检索关键词为ABCDEF，先将其切分为4(N-2)个3元复合语素进行AND操作，AND操作依次为ABC&BCD&CDE&DEF，注意是依次进行AND操作，不是同时进行。由于参与操作的3元复合语素往往是低频语素(即包含该语素的文档数很少)，因此往往前几个多元复合语素进行完AND操作，就得到很少的结果文档数，这往往就是需要的搜索结果。

通过本发明实施例，一方面可以提高检索性能，另一方面能提高单台网络服务器的数据索引管理能力，保证单台网络服务器能够管理大量的文档，有效的提高了索引访问的速度，保证在大并发访问的条件下网络搜索的稳定性，同时又能节约网络服务器的硬件综合成本。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1、一种网络搜索方法，其特征在于，所述方法包括下述步骤：

2、如权利要求1所述的网络搜索方法，其特征在于，所述根据切分的多元复合语素进行网络搜索的步骤具体为：

根据每个多元复合语素，查询所述文件索引，获取对应的索引表项；

对获取的索引表项依次进行逻辑与操作，获取同时包含每个多元复合语素的文档标识列表；

根据每个多元复合语素在文档中的位置偏移信息进行位置偏移匹配，获取对应的位置偏移匹配文档标识列表；

根据位置偏移匹配文档标识列表中的每个文档的文档标识输出对应的搜索结果。

3、如权利要求2所述的网络搜索方法，其特征在于，所述位置偏移信息为多元复合语素在文档中对应区段的位置偏移信息。

4、如权利要求3所述的网络搜索方法，其特征在于，所述区段为文档中的一个自然句，或者相当于一个自然句长度的文本。

5、如权利要求3所述的网络搜索方法，其特征在于，每个文档划分为64个区段，每个区段的位置偏移信息采用1个比特存储。

6、如权利要求1至5任一权利要求所述的网络搜索方法，其特征在于，所述多元复合语素为2元复合语素，或者3元复合语素。

7、一种网络搜索引擎，其特征在于，所述搜索引擎包括：

索引数据库，用于存储所述文件索引数据；以及

8、如权利要求7所述的网络搜索系统，其特征在于，所述检索器包括：

检索分词模块，用于将用户输入的检索关键词切分为至少一个多元复合语素；

索引查找模块，用于根据每个多元复合语素，查找所述索引数据库，获取对应的索引表项；

逻辑处理模块，用于对获取的索引表项依次进行逻辑与操作，获取同时包含每个多元复合语素的文档标识列表；

位置偏移匹配模块，用于根据每个多元复合语素在文档中的位置偏移信息进行位置偏移匹配，获取对应的位置偏移匹配文档标识列表；以及

搜索结果输出模块，用于根据位置偏移匹配文档标识列表中的每个文档的文档标识输出对应的搜索结果。

9、如权利要求8所述的网络搜索系统，其特征在于，所述位置偏移信息为多元复合语素在文档中对应区段的位置偏移信息。

10、一种网络搜索方法，其特征在于，所述方法包括下述步骤：

根据切分的多元复合语素进行网络搜索。

11、如权利要求10所述的网络搜索方法，其特征在于，所述根据切分的多元复合语素进行网络搜索的步骤具体为：

根据每个多元复合语素，查询获取对应的索引表项；

12、如权利要求11所述的网络搜索方法，其特征在于，所述位置偏移信息为多元复合语素在文档中对应区段的位置偏移信息。

13、一种网络搜索中的文件索引方法，其特征在于，所述方法包括下述步骤：

以所述多元复合语素为索引词建立文件索引。

14、如权利要求13所述的网络搜索中的文件索引方法，其特征在于，所述文件索引信息包含有所述多元复合语素在文档中的位置偏移信息，所述位置偏移信息为所述多元复合语素在文档中对应区段的位置偏移信息。