CN102200979A

CN102200979A - 一种分布式并行信息检索系统及其方法

Info

Publication number: CN102200979A
Application number: CN2010101329554A
Authority: CN
Inventors: 鲍英; 郑修虹; 孔佳薇; 叶青; 程三艳
Original assignee: SHANGHAI PUDONG TECHNOLOGY INFORMATION CENTER
Current assignee: SHANGHAI PUDONG TECHNOLOGY INFORMATION CENTER
Priority date: 2010-03-26
Filing date: 2010-03-26
Publication date: 2011-09-28

Abstract

采用本发明所述的一种分布式并行信息检索系统及其方法，其数据采集单元从internet上采集数据，索引单元对采集到的数据进行加工和组织，建立起适合检索的数据结构和存储方式，检索单元对用户提交的查询进行分析处理，进行相似度计算和排名，并对查询结果进行整理，利用并行处理和分布式处理技术进行海量数据检索。

Description

一种分布式并行信息检索系统及其方法

技术领域

本发明涉及信息检索系统领域，特别涉及一种分布式并行信息检索系统及其方法。

背景技术

随着计算机的普及和网络的日益发展，数字化信息爆炸式增长。以WEB网页为例，据可靠估计，WEB网页的增长速度可以达到每6个月翻一番。到2004年年底，最大的搜索引擎可以索引到的WEB网页的数目大概为80亿-100亿左右。而这个数字只占到整个WEB网页数目的很小一部分。搜索引擎能够搜索到的大部分网页都称为表层页面。据研究，WEB中的深层页面(如：需要权限才能进入的网页、对网络数据库的查询和调用的返回页面、网络上的图像、音频、视频等多媒体文档和各种格式的文档、软件等等)的大小大概是可见WEB页面大小的400到500倍。另外，很多大公司的内部Intranet甚至个人都拥有大量的电子文档。所有这些数字都说明，WEB上的数字化信息实在是大得惊人。一方面，这些地理位置分散的异构数字化信息中包含了大量宝贵的资源，用户迫切地需要从这些信息中找到所需信息；另一方面，虽然单台计算机的处理能力不断提高，但是在如此大规模的条件下，要对这样海量的信息进行检索，单台计算机的处理能力毕竟有限，特别需要多台计算机进行“团队作战”。而并行计算和分布式计算能够利用多台计算机或者多个处理器的计算或存储资源来解决大规模问题。因此，将并行处理或者分布式处理技术引入到信息检索当中，便成为了信息检索领域急需解决的技术问题。

发明内容

本发明的目的是提供一种分布式并行信息检索系统及其方法，其采用并行处理和分布式处理技术对互联网上的信息进行检索。

一方面，本发明提供一种分布式并行信息检索系统，包括：数据采集单元，索引单元和检索单元，所述数据采集单元从internet上采集数据，所述索引单元对采集到的数据进行加工和组织，建立起适合检索的数据结构和存储方式，所述检索单元对用户提交的查询进行分析处理，进行相似度计算和排名，并对查询结果进行整理。

所述数据采集单元包括三层结构：

第一层为采集器，所述采集器为数据数据采集单元的终端数据采集装置；

第二层为采集控制器，所述采集控制器用以管理和分配任务给多个采集器；

第三层为数据存储服务器，所述数据服务器用以存储采集器提交的数据。

所述采集器与采集控制器之间采用分布式的网络结构，由采集控制器定义采集器的异构化数据标准，并进行数据采集的数据集划分，。

所述各采集器之间采用并行式的网络结构连接，同时进行多进程数据采集并传输到数据存储服务器。

所述索引单元包括数个索引服务器，所述索引服务器与数据采集单元和检索单元相连，索引服务器之间采用并行式的网络结构连接以进行并发式的编码识别、转换、分词、索引等工作。

所述检索单元采用分布式的网络结构，包括三层：

第一层为客户端，所述客户端为用户进行检索操作和接收检索结果的装置；

第二层为检索控制器：所述检索控制器接受到多个客户端的查询请求后分发给检索服务器，并对检索服务器返回的结果进行合并传回客户端；

第三层为检索服务器，所述检索服务器执行检索控制器分发的检索任务并返回检索结果，同时对检索结果进行分析和处理，同时进行检索结果相似度的分析和排名。

所述客户端采用瘦客户端方式，只要一次部署，客户端每次启动都会自动更新，并具有数据批量操作功能。

另一方面，本发明还提供一种分布式并行信息检索方法，包括：

建立数据采集单元，所述数据采集单元从internet上采集数据；

建立索引单元，所述索引单元对采集到的数据进行加工和组织，建立起适合检索的数据结构和存储方式；

建立所述检索单元对用户提交的查询进行分析处理，进行相似度计算和排名，并对查询结果进行整理。

所述建立数据采集单元还包括以下步骤：

建立采集器，所述采集器为数据数据采集单元的终端数据采集装置；

建立采集控制器，所述采集控制器用以管理和分配任务给多个采集器；

建立数据存储服务器，所述数据服务器用以存储采集器提交的数据。

所述建立检索单元还包括三个步骤：

建立客户端，所述客户端为用户进行检索操作和接收检索结果的装置；

建立检索控制器：所述检索控制器接受到多个客户端的查询请求后分发给检索服务器，并对检索服务器返回的结果进行合并传回客户端；

建立检索服务器，所述检索服务器执行检索控制器分发的检索任务并返回检索结果，同时对检索结果进行分析和处理，同时进行检索结果相似度的分析和排名。

采用本发明所述的一种分布式并行信息检索系统及方法，其数据采集单元从internet上采集数据，索引单元对采集到的数据进行加工和组织，建立起适合检索的数据结构和存储方式，检索单元对用户提交的查询进行分析处理，进行相似度计算和排名，并对查询结果进行整理，利用并行处理和分布式处理技术进行海量数据检索，从而解决了传统的检索系统不能“团队作战”进行海量的信息检索的缺点。

附图说明

图1是本发明所述系统的原理示意图；

图2是本发明所述方法流程示意图。

具体实施方式

下面结合附图和实施例进一步说明本发明的技术方案。

参照图1，图1显示了一种分布式并行信息检索系统100，包括：

数据采集单元110，所述数据采集单元110负责从internet111上采集数据，包括三层结构：第一层为采集器112，所述采集器112也称为(网络蜘蛛或者网络机器人)是数据数据采集单元110的终端数据采集装置，所述单个采集器112采用了多进程，多线程的方式对Web网站进行高效的数据采集工作；第二层为采集控制器113，所述采集控制器113用以管理和分配任务给多个采集器112；第三层为数据存储服务器114，所述数据存储服务器114用以存储采集器112提交的数据。采集器112与采集控制器113之间采用分布式的网络结构，由采集控制器113定义采集器112的异构化数据标准，并进行数据采集的数据集划分。为了解决异构化数据标准问题，本系统110采用XML作为公共数据模型，通过WebService实现中间件集成，以达到各种结构化、半结构化和非结构化数据资源的共享。所述各采集器112之间采用并行式的网络结构连接，同时进行多进程数据采集并传输到数据存储服务器114。

索引单元120，包括数个索引服务器121，所述索引服务器121与数据采集单元110和检索单元130相连，索引服务器121之间采用并行式的网络结构连接。索引单元120获取数据以后，要进行一系列的加工处理，包括编码识别、转换、分词、索引等工作。为了充分挖掘计算机处理器的处理能力和避免磁盘I/O的瓶颈，通过分析索引建立的过程可以发现建立索引的几个模块之间一些主要消耗CPU和主要消耗I/O处理时间的操作，它们之间可以进行并发操作来充分利用资源。为此，我们采用一种称为流水线的并行快速索引方法，能够大大提高索引的效率。目前这种方法的优点在实践中已经得到印证。

检索单元130，用以对用户提交的查询进行分析处理，进行相似度计算和排名，并对查询结果进行整理。所述数据检索单元130包括三层结构：

第一层为客户端133，所述客户端133为用户进行检索操作和接收检索结果的装置，所述客户端133采用瘦客户端方式，只要一次部署，客户端133每次启动都会自动更新，并具有数据批量操作功能。

第二层为检索控制器132：所述检索控制器132接受到多个客户端133的查询请求后分发给检索服务器131，并对检索服务器131返回的结果进行合并传回客户端133。

第三层为检索服务器131，所述检索服务器131执行检索控制器132分发的检索任务并返回检索结果，同时对检索结果进行分析和处理，同时进行检索结果相似度的分析和排名。

多个用户的并发查询通过查询控制器分发给检索服务器131。查询控制器将每个检索服务器131返回的结果进行合并，再回送给用户。这样，在对大规模并发请求情况下的检索服务器131性能得到了有效的保障。在进行数据分割时，我们采用了自动语义聚类的方法。为避免全局统计量传输的复杂性，我们实现了一种基于平均分布的分割方法。这种方法中每个子集合的局部统计信息能够基本反映全局的统计信息，从而避免了全局统计量传输的复杂性。对于相似度的计算，我们采用了向量空间模型、概率模型和统计语言模型。针对WEB的链接关系，通过针对分析、社区(Community)挖掘、WEB图分析等方面也做出了相似度的排名。

参见图2，本发明还提供一种分布式并行信息检索方法200，包括：

建立数据采集单元110，所述数据采集单元110从internet上采集数据；

建立索引单元120，所述索引单元120对采集到的数据进行加工和组织，建立起适合检索的数据结构和存储方式；

建立所述检索单元130对用户提交的查询进行分析处理，进行相似度计算和排名，并对查询结果进行整理。

所述建立数据采集单元110还包括以下步骤：

建立采集器112，所述采集器112为数据数据采集单元110的终端数据采集装置；

建立采集控制器113，所述采集控制器113用以管理和分配任务给多个采集器112；

建立数据存储服务器114，所述数据服务器用以存储采集器112提交的数据。

所述建立检索单元130还包括三个步骤：

建立客户端133，所述客户端133为用户进行检索操作和接收检索结果的装置；

建立检索控制器132：所述检索控制器132接受到多个客户端133的查询请求后分发给检索服务器131，并对检索服务器131返回的结果进行合并传回客户端133；

建立检索服务器131，所述检索服务器131执行检索控制器132分发的检索任务并返回检索结果，同时对检索结果进行分析和处理，同时进行检索结果相似度的分析和排名。

需要指出的是，本发明所述的一种分布式并行信息检索系统100和一种分布式并行信息检索方法200，两者在原理和实施例上是相同或类似的，故其重复部分不再赘述。

本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本发明，而并非用作为对本发明的限定，只要在本发明的实质精神范围内，对以上实施例的变化、变型都将落在本发明的权利要求书范围内。

Claims

1.一种分布式并行信息检索系统，其特征在于包括数据采集单元，索引单元和检索单元，所述数据采集单元从internet上采集数据，所述索引单元对采集到的数据进行加工和组织，建立起适合检索的数据结构和存储方式，所述检索单元对用户提交的查询进行分析处理，进行相似度计算和排名，并对查询结果进行整理。

2.如权利要求1所述的一种分布式并行信息检索系统，其特征在于，所述数据采集单元包括以下三层结构：

3.如权利要求2所述的一种分布式并行信息检索系统，其特征在于，所述采集器与采集控制器之间采用分布式的网络结构，由采集控制器定义采集器的异构化数据标准，并进行数据采集的数据集划分。

4.如权利要求2所述的一种分布式并行信息检索系统，其特征在于，所述各采集器之间采用并行式的网络结构连接，同时进行多进程数据采集并传输到数据存储服务器。

5.如权利要求1所述的一种分布式并行信息检索系统，其特征在于，所述索引单元包括数个索引服务器，所述索引服务器与数据采集单元和检索单元相连，索引服务器之间采用并行式的网络结构连接以进行并发式的编码识别、转换、分词、索引等工作。

6.如权利要求1所述的一种分布式并行信息检索系统，其特征在于，所述检索单元采用分布式的网络结构，包括以下三层：

7.如权利要求6所述的一种分布式并行信息检索系统，其特征在于，所述客户端采用瘦客户端方式，只要一次部署，客户端每次启动都会自动更新，并具有数据批量操作功能。

8.一种分布式并行信息检索方法，其特征在于：

9.如权利要求8所述的一种分布式并行信息检索方法，其特征在于，所述建立数据采集单元还包括以下步骤：

10.如权利要求9所述的一种分布式并行信息检索方法，其特征在于，所述采集器与采集控制器之间采用分布式的网络结构，由采集控制器定义采集器的异构化数据标准，并进行数据采集的数据集划分。

11.如权利要求9所述的一种分布式并行信息检索方法，其特征在于，所述各采集器之间采用并行式的网络结构连接，同时进行多进程数据采集并传输到数据存储服务器。

12.如权利要求8所述的一种分布式并行信息检索方法，其特征在于，所述索引单元包括数个索引服务器，所述索引服务器与数据采集单元和检索单元相连，索引服务器之间采用并行式的网络结构连接以进行并发式的编码识别、转换、分词、索引等工作。

13.如权利要求8所述的一种分布式并行信息检索方法，其特征在于，所述建立检索单元还包括三个步骤：

14.如权利要求13所述的一种分布式并行信息检索方法，其特征在于，所述客户端采用瘦客户端方式，只要一次部署，客户端每次启动都会自动更新，并具有数据批量操作功能。