CN102200974A - 一种用于搜索引擎的统一信息检索智能体系统与方法 - Google Patents
一种用于搜索引擎的统一信息检索智能体系统与方法 Download PDFInfo
- Publication number
- CN102200974A CN102200974A CN2010101321567A CN201010132156A CN102200974A CN 102200974 A CN102200974 A CN 102200974A CN 2010101321567 A CN2010101321567 A CN 2010101321567A CN 201010132156 A CN201010132156 A CN 201010132156A CN 102200974 A CN102200974 A CN 102200974A
- Authority
- CN
- China
- Prior art keywords
- agent
- retrieval
- module
- search
- index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 238000013507 mapping Methods 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 8
- 238000013506 data mapping Methods 0.000 claims description 6
- 238000009472 formulation Methods 0.000 claims description 2
- 239000000203 mixture Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000239290 Araneae Species 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实现用于搜索引擎的、对结构化数据和非结构化数据能灵活配置检索策略的统一信息搜索引擎系统与方法。该系统通过构造一种信息检索智能体,负责对不同的数据,配置不同的检索策略,并配置相应的分析模块、索引模块和检索模块,搜索引擎根据智能体的配置,在索引和检索时进行不同的调度,从而实现搜索引擎的可定制。智能体系统包括一个智能体映射文件,一个智能体配置模块,一个智能体索引调度模块,和一个智能体检索调度模块。本发明的优点在于,利用统一信息检索智能体,使得不同的用户数据,或者不同的检索规则,都可以在智能体中配置体现,不影响系统的其他模块。本发明特别适合于企业搜索、垂直搜索,也适合于通用搜索引擎对大量“暗网”数据的处理。
Description
技术领域
本发明涉及搜索引擎系统,更具体地说,涉及一种实现可定制的、对结构化数据和非结构化数据能灵活配置检索策略的统一信息搜索引擎系统与方法。
背景技术
搜索引擎已经成为人们获取信息的重要手段。搜索引擎有针对普通网民的互联网搜索,也有为企业内部信息服务的企业搜索。互联网搜索的代表是google和百度,他们每天都处理上亿次的搜索请求,以至于他们已经成为搜索的代名词。企业搜索比较成功的是Autonomy公司,它在美国占领了50%以上的市场,国内比较成功的是TRS(北京拓而思)公司。
目前搜索引擎所采用的技术,基本是以全文检索为主的。其一般原理就是利用倒排文件的技术,将待搜索的文字文本建立索引,然后利用关键词匹配的检索技术,从索引库中,把包含相关关键词的内容返回给用户。互联网搜索都是利用网络蜘蛛spider技术,抓取互联网上的网页,然后对其建立索引。而企业搜索则需要面对企业内部存储在各种数据库、各种介质上的数据进行整合搜索。
随着搜索引擎的普及,人们对搜索引擎的期望也越来越高,人们希望搜索引擎能搜索更多的内容,包括一些存储在企业内部的数据,比如统计数据等。同时人们也希望搜索引擎能更智能,能猜测用户的搜索意图,针对不同的检索请求,搜索不同的数据。因此,互联网搜索也面临着整合各种数据资源,为每种资源提供特色搜索的用户需求。针对这些需求,搜索引擎提供商也在不断改善搜索技术,google提出整合搜索,近期google在美国也推出统计数据的搜索。百度更是提出针对“暗网”数据(搜索引擎的网络蜘蛛抓取不到的数据)的“阿拉丁”搜索开放平台计划,开放数据接口,允许数据拥有者向百度搜索引擎提交自己的数据,百度对这些数据进行索引和搜索。近期,百度也提出“框计算”,希望“一框搜天下”,为用户提供一个智能的、统一的搜索入口。
不管是google的整合搜索,还是百度的“阿拉丁”和“框计算”,都还是只能针对各种数据内容中的文本信息进行关键词搜索,并不能为不同的数据内容配置不同的检索策略,提供一些个性化的分析和搜索。比如百度的搜索开放平台,只能“提交结构化的数据”,而且需要数据提供者“指定关键词”(见http://open.baidu.com/2009-11-23),百度只负责对这些关键词进行检索匹配。
国外也有一些搜索引擎,比如PowerSet、Hakia等,加入了一些自然语言理解的技术,希望能更好的解析用户的搜索请求和待搜索的文本,虽然给用户的搜索体验有所改善,但是他们有的搜索范围限定很窄(比如PowerSet只能搜索Wikipidea),有的搜索效果还需要改善。同时,这些搜索引擎也面临着如何和google、百度之类的通用搜索融合的问题。
企业搜索中,虽然能对各种数据格式的信息进行处理,但是一般也是针对不同的数据格式,开发不同的检索算法,并没有提供一个统一的检索架构,不能灵活配置。这大大限制了搜索引擎的灵活性,增加了开发成本。
发明内容
本发明的目的在于提供一种用于搜索引擎的统一信息检索智能体系统与方法,以解决传统的搜索引擎不能猜测用户的搜索意图进行定制、对结构化数据和非结构化数据也不能灵活配置检索策略;针对不同的数据格式,需要开发不同的检索算法,不能提供一个统一的检索架构等技术问题。
本发明所述的一种用于搜索引擎的统一信息检索智能方法,构造一种信息检索智能体,该智能体负责对不同的数据,配置不同的检索策略,并配置相应的分析模块、索引模块和检索模块,搜索引擎根据智能体处理模块的配置,在索引和检索时进行不同的调度,从而实现搜索引擎的可定制;对于搜索引擎的索引过程和检索过程,都增加了相应的智能体处理模块;索引建立过程,就是根据数据映射和智能体配置,调用相应的分析系统和索引系统,把非结构化数据或结构化数据,转换成索引库中的不同的索引;搜索过程,就是接收用户的搜索请求,根据数据映射和智能体配置,调用相应的分析系统,进行搜索请求分析;并根据搜索请求,调用相应的检索系统,从索引库中,得到结果集;最后合并结果集,并生成相关性排序的检索结果。
本发明所述的一种用于搜索引擎的统一信息检索智能系统,该系统包括:
包含一个智能体映射文件,用于把用户的结构化数据和非结构化数据映射到相应的智能体模块上的数据-智能体映射模块;
包含若干分析器模块,实现对不同数据的分析的分析系统;
包含智能体索引调度模块的用于所有索引功能的汇总,负责构建引擎后台的索引库的索引系统,其中包含若干索引器模块;
包含一个智能体检索调度模块的用于所有检索功能的汇总,负责根据用户请求串,进行不同的检索操作且生成结果集的检索系统。
所述的一种用于搜索引擎的统一信息检索智能系统,智能体映射文件UISA,以XML(扩展标记语言)表示,定义了智能体的名称、描述、作者和制定时间,同时定义了多个智能映射UISAMAP。一个UISA可以对应结构化数据中的一个或多个字段,也可以对应一个非结构化数据。
所述的一种用于搜索引擎的统一信息检索智能系统,每个智能映射UISAMAP中,都包括一个或多个分析器<aa>、索引器<ia>和检索器<sa>,每个分析器都有自己的名字<name>和模块位置<module>,利用<module>和</module>中的信息,就可以调用相应的模块进行处理;每个索引器也有自己的名字<name>和模块位置<module>,每个检索器也有自己的名字<name>和模块位置<module>;分析器和索引器是一对多的映射关系,索引器和检索器也可以是一对多的映射关系。
所述的一种用于搜索引擎的统一信息检索智能系统,智能体配置模块的输入是用户数据定义41和检索规则42;从检索规则,管理员可以反推出系统需要什么样的索引策略和分析策略,不同的检索规则,需要建立不同的索引,需要不同的分析操作的支持。
所述的一种用于搜索引擎的统一信息检索智能系统,智能体配置模块包括以下步骤:
步骤43中,判断分析系统是否需要增加新的分析器,如果是,则转步骤46;否则转步骤44;
步骤46中,增加新的分析器到分析系统中,转步骤44;
步骤44中,判断索引系统是否需要增加新的索引器,如果是,转步骤47;否则转步骤45;
步骤47中,增加新的索引器到索引系统中,转步骤45;
步骤45中,判断检索系统是否需要增加新的检索器,如果是,转步骤48;否则转步骤49;
步骤48中,增加新的检索器,转步骤49;
步骤49中,配置智能体映射文件,把分析器、索引器、检索器的名称和模块地址填入映射文件;
所述的一种用于搜索引擎的统一信息检索智能系统,智能体索引调度模块索引过程包括以下步骤:
步骤51中,输入的是用户数据和智能体映射文件;
步骤52中,对每一字段分别进行调度处理;
步骤53中,对该字段的智能体进行调度;
调用该字段对应的分析器,进行分析;
调用该字段对应的索引器,进行索引;
每种分析器和索引器的组合,在索引库中,都将建立一个独立的索引;
所述的一种用于搜索引擎的统一信息检索智能系统,智能体检索调度模块主要包括3部分,一是搜索请求分析,二是智能体检索过程,三是检索结果生成。
所述的一种用于搜索引擎的统一信息检索智能系统,搜索请求分析包括以下步骤:
S111接收用户3的搜索请求,确定请求串相关的字段,和每个字段的请求内容。如果用户没有指定搜索的字段,系统会默认搜索几个常用字段;
S112给出每个字段或内容关联的智能体;
S113调用智能体相关的分析器,对请求串的内容进行分析;
S114从用户请求串中,解析出字段之间的逻辑关系;
S115把上述的分析结果,传给检索调度模块;
所述的智能体检索过程,检索过程包括以下步骤:
S121从上述步骤S115中,得到每个字段相关的请求串;
S122把请求串的分析结果传给智能体关联的检索器;
S123调用智能体的检索器,对请求串内容进行进一步解析,判断请求串所要求进行的检索操作;
S124调用智能体的检索器,对请求串内容进行检索;
S125给出每个检索器的结果集;
所述的检索结果生成过程,包括以下步骤:
S131得到每个检索器的结果集,根据上述S114给出的字段之间的逻辑关系,对所有结果集进行合并;
S132对合并后的结果进行相关度计算;
S133根据相关度,对结果进行排序,生成检索结果,返回给用户。
本发明的优点在于,利用统一信息检索智能体,提供一种可定制、方便扩展的搜索引擎系统架构及其方法,不同的用户数据,或者不同的检索规则,都可以在智能体中配置体现,不影响系统的其他模块。本发明特别适合于企业搜索、垂直搜索,也适合于通用搜索引擎对大量“暗网”数据的处理。
附图说明
图1是本发明的统一信息检索智能体系统示意图;
图2是本发明的智能体系统结构示意图;
图3是本发明的数据-智能体映射示意图;
图4是本发明的智能体配置流程图;
图5是本发明的智能体索引调度流程图。
图6是本发明的智能体检索调度流程图。
具体实施方式
下面将结合附图及实施例对本发明作进一步说明。
1.系统主要操作
本发明所述的统一信息检索智能体系统示意图如附图1所示。在本发明所述的系统中,所述的非结构化数据1,主要指文章或网页等全文内容,其中包含标题、作者、正文、时间等信息,正文还可以包含很多个词语。对非结构化的文本信息,需要利用自然语言处理技术进行分词等操作。
在本发明所述的系统中,所述的结构化数据2,指的是在数据库中存储的,或者用xml(扩展标记语言)等标记语言表示的数据,这些数据的每个数据项都有明确的类型定义,比如整数型、时间型等。需要说明的是,结构化数据2中,也可以有数据项包含非结构化数据,形成数据的嵌套。
在本发明所述的系统中,所述的数据-智能体映射4,用于把用户数据(包括结构化数据和非结构化数据),映射到相应的智能体上。
在本发明所述的系统中,所述的智能体系统7,用于对分析系统、索引系统、检索系统进行不同的策略配置和调度管理。
在本发明所述的系统中,所述的分析系统8,是所有分析功能的汇总,其中包含很多小的分析器模块,实现对不同数据的分析。
在本发明所述的系统中,所述的索引系统9,是所有索引功能的汇总,负责构建引擎后台的索引库,其中包含很多小的索引器模块,实现对不同数据的索引。
在本发明所述的系统中,所述的检索系统10,是所有检索功能的汇总,负责根据用户请求串,进行不同的检索操作,生成结果集。
在本发明所述的系统中,所述的索引建立5,就是根据数据映射4和智能体7,调用相应的分析系统8和索引系统9,把非结构化数据1或结构化数据2,转换成索引11中的索引。
在本发明所述的系统中,所述的搜索6,就是接收用户3的搜索请求,根据数据映射4和智能体7,调用相应的分析系统8,进行搜索请求分析;并根据搜索请求,调用相应的检索系统10,从索引11中,得到结果集;最后合并结果集,并生成相关性排序的检索结果。
系统主要有三个操作过程:智能体配置操作、索引操作和搜索操作。配置操作和索引操作都是在后台,由管理员完成的,对普通用户是不可见的;搜索操作负责接收用户的搜索请求,从索引库中,检索到相应的内容,并返回给用户。
智能体配置模块,负责把用户数据和对用户数据的检索规则,转换成智能体映射文件;判断是否需要增加新的分析器,把新的分析器模块加入到分析系统中去;判断是否需要增加新的索引器,把新的索引器模块加入到索引系统中去;判断是否需要增加新的检索器,把新的检索器加入到检索系统中去。
配置操作必须在索引操作之前完成,主要负责:
(1)用户数据到智能体的映射;
(2)智能体配置。
对索引操作,本发明的重点在于智能体的索引调度方法,至于索引库的结构和具体的存储方式,和一般搜索引擎方法类似,不做特殊说明。
智能体索引调度模块,负责根据智能体映射文件,对用户数据调用相应的分析器,得到分析结果,并调用相应的索引器,把分析结果形成索引,入到索引库中。
对检索操作,本发明的重点在于智能体的检索调度方法,至于如何从索引库中检索、相关度的具体计算方式等,和一般搜索引擎方法类似,不做特殊说明。
智能体检索调度模块,负责根据智能体映射文件,对用户的搜索请求进行分析,把搜索请求的内容分解到相应的智能体;负责调用每个智能体的检索器,得到检索结果;负责对所有检索器的检索结果合并,进行相关度计算;负责生成检索结果。
下面结合具体实施例,说明数据-智能体映射操作、智能体配置流程、智能体索引调度流程和智能体检索调度流程。
2.数据-智能体映射操作
数据-智能体的映射示意图如附图3所示。
对结构化数据2,不管它是在数据库中,还是用xml语言标记,都可以被解析成一个个字段描述。每个字段都有自己明确的类型定义,因此,可以直接和一个或多个智能体对应。比如:一个时间字段,可以和以下智能体直接映射。
<UISAMAP>
<name>timeUISA</name>
<desc>时间智能体</desc>
<author>A</author>
<time>2009-11-11</time>
<UISA>
<aa>
<name>时间格式分析</name>
<module>com.UISA.AA.timeAnalysis</module>
</aa>
<ia>
<name>时间索引</name>
<module>com.UISA.IA.timeIndex</module>
</ia>
<sa>
<name>时间范围检索</name>
<module>com.UISA.SA.timeRangeSearch</module>
</sa>
</UISA>
</UISAMAP>
该时间智能体的名称是timeUISA,其描述是“时间智能体”,作者是“A”,生成时间是“2009-11-11”,其分析器名称是“时间格式分析”,分析器所在的地址和模块名称是“com.UISA.AA.timeAnalysis”;其索引器名称是“时间索引”,索引器所在的地址和模块名称是“com.UISA.IA.timeIndex”;其检索器名称是“时间范围检索”,检索器所在的地址和模块名称是“com.UISA.SA.timeRangeSearch”。
对非结构化数据1,首先对整个文档34,配置一个智能体35,负责对文档进行解析,解析出其中的标题、时间、正文等数据项。智能体35一般只包括分析器,不包括索引器和检索器。其次,对标题、时间、正文等每个数据项,和结构化数据类似,定义一个或多个智能体。比如标题31,可以对应智能体36、37。
所述的映射文件中,以<UISAMAP>开始,以</UISAMAP>结束,其中,<name>表示智能体的名字,<desc>是智能体的描述,<author>是智能体的定义者,<time>是智能体的定义时间,<UISA>到</UISA>表示一个智能映射,每个映射中,都包括一个或多个分析器<aa>、索引器<ia>和检索器<sa>,每个分析器都有自己的名字<name>和模块位置<module>,利用<module>和</module>中的信息,就可以调用相应的模块进行处理。每个<UISAMAP>中,可以有多个智能映射<UISA>。
智能体映射文件的内容,如附图2“智能体结构示意图”所示。其中,
(1)智能体7中可以包含多个智能映射(比如智能映射21、22);
(2)每个智能映射可以指定多个分析系统8中的分析器(比如智能映射22对应分析器23,25);
(3)每个分析器可以对应多个索引系统9中的索引器(比如分析器25对应索引器26,27);
(4)每个索引器可以对应多个检索系统10中的检索器(比如索引器26对应检索器210,211)。
3.智能体配置流程
智能体配置流程图如图4所示。
智能体配置的输入是用户数据定义41和检索规则42。
例子:
时间:19980715
英文标题:a new type of computer
中文正文:计算机由显示器、硬盘、内存、CPU等构成。显示器显示内容给用户。硬盘的功能是存储数据。
检索规则是对数据定义41,希望进行的检索操作的策略定义。从检索规则,管理员可以反推出系统需要什么样的索引策略和分析策略,不同的检索规则,需要建立不同的索引,需要不同的分析操作的支持。比如检索规则“全文字段支持字词混合检索”,它的策略是,分析时需要对全文进行分词,索引时需要建立中文字索引和词索引,检索时需要支持逻辑运算。
智能体配置的步骤如下:
步骤43中,判断分析系统是否需要增加新的分析器,如果是,则转步骤46;否则转步骤44;
步骤46中,增加新的分析器到分析系统中,转步骤44;
步骤44中,判断索引系统是否需要增加新的索引器,如果是,转步骤47;否则转步骤45;
步骤47中,增加新的索引器到索引系统中,转步骤45;
步骤45中,判断检索系统是否需要增加新的检索器,如果是,转步骤48;否则转步骤49;
步骤48中,增加新的检索器,转步骤49;
步骤49中,配置智能体映射文件,把分析器、索引器、检索器的名称和模块地址填入映射文件;
经过以上步骤,图中的用户数据定义41对应的智能体映射如下:
时间对应智能体410,其分析器为时间格式分析,索引器为时间索引,检索器为范围检索;
英文标题对应智能体411,其分析器为英文词汇解析和英文词根还原,索引器为字索引,检索器为占位符检索(占位符检索就是可以用?或其他符号代替英文单词中的某个或某几个字母,从而达到一定程度的模糊匹配的检索)。
中文正文对应智能体412,其分析器为中文分词,索引器为中文词索引和中文字索引,检索器为字词混合检索和逻辑运算。
4.智能体索引调度流程
智能体索引调度流程如附图5所示。
智能体索引调度的依据是上述图4得到的智能体映射文件。下面以上述用户数据定义41为例,说明如何把用户数据41转换成索引库11。索引调度流程如下:
步骤52中,对每一字段分别进行调度处理;
步骤53中,对该字段的智能体进行调度;
对时间字段,
(1)步骤54中,调用时间分析器,对时间格式进行分析;
(2)步骤58中,调用时间索引,把时间分析结果,在索引库11中,建立时间索引;
对英文标题字段,
(1)步骤55中,调用英文词汇分析器,对英文词汇解析;
(2)步骤56中,调用英文词根还原器,对英文词汇进行词根还原处理;
(3)步骤59中,调用英文字索引,把英文词根结果,在索引库11中,建立标题词根索引;
对全文字段,
(1)步骤57中,调用中文分词器,对中文进行分词处理;
(2)步骤510中,调用中文字索引,在索引库11中,建立全文字索引;
(3)步骤511中,调用中文词索引,在索引库11中,建立全文词索引;
经过以上步骤,用户数据41在索引库11中,对应的有4个索引,分别是:
时间索引
标题词根索引
全文字索引
全文词索引
5.智能体检索调度流程
智能体检索调度流程如图6所示。
智能体检索调度主要包括3部分,一是搜索请求分析,二是智能体检索过程,三是检索结果生成。下面结合用户数据定义41的检索过程说明。
(1)搜索请求分析
步骤61中,
1)接收用户3的搜索请求,
用户的搜索请求,可以是与结构化数据2相关的一个或多个字段相关,比如:字段1:q1,字段2:q2(这个搜索串的含义是字段1的检索内容是q1,字段2的检索内容是q2,字段1和字段2之间是“与”的关系)。
用户的搜索请求也可以是与非结构化数据1相关的检索串,比如:正文:q1q2q2q4(这个搜索串的含义是在正文中检索包含q1q2q3q4的内容)。
如果用户没有指定搜索的字段,系统会默认搜索几个常用字段。
2)给出每个字段或内容关联的智能体:时间智能体610、英文标题智能体611、中文正文智能体612。
3)调用智能体相关的分析器,对请求串的内容进行分析。
对时间字段的请求串,调用步骤54,解析出统一的时间格式;
对英文标题字段的请求串,调用步骤55和56,进行英文词汇解析和英文词根还原;
对中文中文字段的请求串,调用步骤57,进行中文分词,给出分词序列;
4)从用户请求串中,解析出每个字段之间的逻辑关系613;
5)把上述3)给出的分析结果,传给检索调度模块;
(2)智能体检索调度
步骤65中,
1)从步骤61中,得到步骤61的2)给出的每个字段相关的智能体(610、611、612)和步骤61的4)给出的请求串的分析结果613;
2)把请求串的分析结果传给智能体关联的检索器;
3)调用智能体的检索器,对请求串内容进行进一步解析,判断请求串所要求进行的操作;
对时间字段的请求串,调用614,判断其是否需要进行范围检索;
对英文标题字段的请求串,调用615,判断其是否需要进行占位符操作;
对中文正文字段的请求串,调用616,判断其是否需要进行字词混合检索,是否有逻辑运算符;
4)调用智能体的检索器,对请求串内容进行检索;
对时间字段的请求串,如果需要进行范围检索,则调用步骤66,进行范围检索;给出时间范围内的所有结果;
对英文标题字段的请求串,如果需要占位符操作,则调用步骤67,进行英文占位符检索,检索出所有匹配占位符的结果;
对中文正文字段的请求串,如果需要进行字词混合检索,则调用步骤68;如果需要进行逻辑运算,则调用步骤69;
5)给出每个检索器的结果集;
(3)检索结果生成
步骤64中,得到每个检索器的结果集,根据613的逻辑关系,对所有结果集进行合并;
步骤63中,对合并后的结果进行相关度计算;
步骤62中,根据相关度,对结果进行排序,生成检索结果,返回给用户3;
显然,本领域的技术人员可以对本发明的智能体的结构和映射关系,以及智能体进行配置、索引和检索的流程,进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种用于搜索引擎的统一信息检索智能方法,其特征在于,构造一种信息检索智能体,该智能体负责对不同的数据,配置不同的检索策略,并配置相应的分析模块、索引模块和检索模块;搜索引擎根据智能体处理模块的配置,在索引和检索时进行不同的调度,从而实现搜索引擎的可定制;对于搜索引擎的索引过程和检索过程,都增加了相应的智能体处理模块;索引建立过程,就是根据数据映射和智能体配置,调用相应的分析系统和索引系统,把非结构化数据或结构化数据,转换成索引库中的不同的索引;搜索过程,就是接收用户的搜索请求,根据数据映射和智能体配置,调用相应的分析系统,进行搜索请求分析;并根据搜索请求,调用相应的检索系统,从索引库中,得到结果集;最后合并结果集,并生成相关性排序的检索结果。
2.一种用于搜索引擎的统一信息检索智能系统,其特征在于,该系统包括:
包含一个智能体映射文件,用于把用户的结构化数据和非结构化数据映射到相应的智能体模块上的数据-智能体映射模块;
包含若干分析器模块,实现对不同数据的分析的分析系统;
包含智能体索引调度模块的用于所有索引功能的汇总,负责构建引擎后台的索引库的索引系统,其中包含若干索引器模块;
包含一个智能体检索调度模块的用于所有检索功能的汇总,负责根据用户请求串,进行不同的检索操作且生成结果集的检索系统。
3.根据权利要求2所述的一种用于搜索引擎的统一信息检索智能系统,其特征在于,智能体映射文件UISA,以XML扩展标记语言表示,定义了智能体的名称、描述、作者和制定时间,同时定义了多个智能映射UISAMAP;一个UISA可以对应结构化数据中的一个或多个字段,也可以对应一个非结构化数据。
4.根据权利要求3所述的一种用于搜索引擎的统一信息检索智能系统,其特征在于,每个智能映射UISAMAP中,都包括一个或多个分析器<aa>、索引器<ia>和检索器<sa>,每个分析器都有自己的名字<name>和模块位置<module>,利用<module>和</module>中的信息,就可以调用相应的模块进行处理;每个索引器也有自己的名字<name>和模块位置<module>,每个检索器也有自己的名字<name>和模块位置<module>;分析器和索引器是一对多的映射关系,索引器和检索器也可以是一对多的映射关系。
5.根据权利要求2所述的一种用于搜索引擎的统一信息检索智能系统,其特征在于,智能体配置模块的输入是用户数据定义和检索规则;从检索规则,管理员可以反推出系统需要什么样的索引策略和分析策略,不同的检索规则,需要建立不同的索引,需要不同的分析操作的支持。
6.根据权利要求5所述的一种用于搜索引擎的统一信息检索智能系统,其特征在于,智能体配置模块包括以下步骤:
步骤43中,判断分析系统是否需要增加新的分析器,如果是,则转步骤46;否则转步骤44;
步骤46中,增加新的分析器到分析系统中,转步骤44;
步骤44中,判断索引系统是否需要增加新的索引器,如果是,转步骤47;否则转步骤45;
步骤47中,增加新的索引器到索引系统中,转步骤45;
步骤45中,判断检索系统是否需要增加新的检索器,如果是,转步骤48;
否则转步骤49;
步骤48中,增加新的检索器,转步骤49;
步骤49中,配置智能体映射文件,把分析器、索引器、检索器的名称和模块地址填入映射文件。
7.根据权利要求2所述的一种用于搜索引擎的统一信息检索智能系统,其特征在于,智能体索引调度模块索引过程包括以下步骤:
步骤51中,输入的是用户数据和智能体映射文件;
步骤52中,对每一字段分别进行调度处理;
步骤53中,对该字段的智能体进行调度;
调用该字段对应的分析器,进行分析;
调用该字段对应的索引器,进行索引;
每种分析器和索引器的组合,在索引库中,都将建立一个独立的索引。
8.根据权利要求2所述的一种用于搜索引擎的统一信息检索智能系统,其特征在于,智能体检索调度模块主要包括3部分,一是搜索请求分析,二是智能体检索过程,三是检索结果生成。
9.根据权利要求8所述的一种用于搜索引擎的统一信息检索智能系统,其特征在于,搜索请求分析包括以下步骤:
S111接收用户3的搜索请求,确定请求串相关的字段,和每个字段的请求内容。如果用户没有指定搜索的字段,系统会默认搜索几个常用字段;
S112给出每个字段或内容关联的智能体;
S113调用智能体相关的分析器,对请求串的内容进行分析;
S114从用户请求串中,解析出字段之间的逻辑关系;
S115把上述的分析结果,传给检索调度模块;
智能体检索过程包括以下步骤:
S121从上述步骤S115中,得到每个字段相关的请求串;
S122把请求串的分析结果传给智能体关联的检索器;
S123调用智能体的检索器,对请求串内容进行进一步解析,判断请求串所要求进行的检索操作;
S124调用智能体的检索器,对请求串内容进行检索;
S125给出每个检索器的结果集;
检索结果生成过程包括以下步骤:
S131得到每个检索器的结果集,根据上述S114给出的字段之间的逻辑关系,对所有结果集进行合并;
S132对合并后的结果进行相关度计算;
S133根据相关度,对结果进行排序,生成检索结果,返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101321567A CN102200974A (zh) | 2010-03-25 | 2010-03-25 | 一种用于搜索引擎的统一信息检索智能体系统与方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101321567A CN102200974A (zh) | 2010-03-25 | 2010-03-25 | 一种用于搜索引擎的统一信息检索智能体系统与方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102200974A true CN102200974A (zh) | 2011-09-28 |
Family
ID=44661660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101321567A Pending CN102200974A (zh) | 2010-03-25 | 2010-03-25 | 一种用于搜索引擎的统一信息检索智能体系统与方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102200974A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631909A (zh) * | 2013-11-26 | 2014-03-12 | 烽火通信科技股份有限公司 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
WO2014044167A1 (en) * | 2012-09-18 | 2014-03-27 | Orcastras Technology International Co., Ltd. | Method and computer for indexing and searching structures |
CN103902449A (zh) * | 2012-12-28 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 一种用于生成搜索引擎相关性排序测试用例的方法与设备 |
CN105183774A (zh) * | 2015-08-07 | 2015-12-23 | 北京思特奇信息技术股份有限公司 | 一种智能查询方法及系统 |
CN105183884A (zh) * | 2015-09-24 | 2015-12-23 | 西安未来国际信息股份有限公司 | 一种基于大数据技术的搜索引擎系统及搜索引擎方法 |
CN106156135A (zh) * | 2015-04-10 | 2016-11-23 | 华为技术有限公司 | 查询数据的方法及装置 |
CN108701160A (zh) * | 2016-03-01 | 2018-10-23 | 微软技术许可有限责任公司 | 混合企业内容和Web结果 |
CN109255072A (zh) * | 2018-08-15 | 2019-01-22 | 腾讯科技(深圳)有限公司 | 信息召回方法及装置、计算机存储介质、电子设备 |
CN109710612A (zh) * | 2018-12-25 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 向量索引的召回方法、装置、电子设备和存储介质 |
CN109815261A (zh) * | 2018-12-11 | 2019-05-28 | 北京荣之联科技股份有限公司 | 全局搜索功能实现及数据实时同步方法、装置及电子设备 |
CN110020063A (zh) * | 2017-07-18 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 垂直搜索方法和系统 |
CN111696547A (zh) * | 2019-03-13 | 2020-09-22 | 本田技研工业株式会社 | 智能体装置、智能体装置的控制方法及存储介质 |
CN112800317A (zh) * | 2021-02-04 | 2021-05-14 | 北京易车互联信息技术有限公司 | 面向汽车垂直领域的搜索平台架构 |
CN114510298A (zh) * | 2022-04-20 | 2022-05-17 | 科大讯飞股份有限公司 | 智能引擎接入和调用方法及相关平台、装置、设备、介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050004909A1 (en) * | 2003-07-02 | 2005-01-06 | Douglas Stevenson | Method and system for augmenting web content |
CN101079048A (zh) * | 2006-05-24 | 2007-11-28 | 上海万纬信息技术有限公司 | 基于软件机器人排除标准的互联网信息搜索引擎及方法 |
CN101477568A (zh) * | 2009-02-12 | 2009-07-08 | 清华大学 | 一种结构化数据和非结构化数据综合检索的方法 |
-
2010
- 2010-03-25 CN CN2010101321567A patent/CN102200974A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050004909A1 (en) * | 2003-07-02 | 2005-01-06 | Douglas Stevenson | Method and system for augmenting web content |
CN101079048A (zh) * | 2006-05-24 | 2007-11-28 | 上海万纬信息技术有限公司 | 基于软件机器人排除标准的互联网信息搜索引擎及方法 |
CN101477568A (zh) * | 2009-02-12 | 2009-07-08 | 清华大学 | 一种结构化数据和非结构化数据综合检索的方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014044167A1 (en) * | 2012-09-18 | 2014-03-27 | Orcastras Technology International Co., Ltd. | Method and computer for indexing and searching structures |
CN105393245A (zh) * | 2012-09-18 | 2016-03-09 | 洪钧 | 索引与搜寻结构数据的方法以及其电脑系统 |
CN103902449A (zh) * | 2012-12-28 | 2014-07-02 | 百度在线网络技术(北京)有限公司 | 一种用于生成搜索引擎相关性排序测试用例的方法与设备 |
CN103902449B (zh) * | 2012-12-28 | 2018-05-25 | 百度在线网络技术(北京)有限公司 | 一种用于生成搜索引擎相关性排序测试用例的方法与设备 |
CN103631909B (zh) * | 2013-11-26 | 2017-01-11 | 烽火通信科技股份有限公司 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
CN103631909A (zh) * | 2013-11-26 | 2014-03-12 | 烽火通信科技股份有限公司 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
CN106156135A (zh) * | 2015-04-10 | 2016-11-23 | 华为技术有限公司 | 查询数据的方法及装置 |
CN105183774A (zh) * | 2015-08-07 | 2015-12-23 | 北京思特奇信息技术股份有限公司 | 一种智能查询方法及系统 |
CN105183884A (zh) * | 2015-09-24 | 2015-12-23 | 西安未来国际信息股份有限公司 | 一种基于大数据技术的搜索引擎系统及搜索引擎方法 |
CN108701160A (zh) * | 2016-03-01 | 2018-10-23 | 微软技术许可有限责任公司 | 混合企业内容和Web结果 |
CN108701160B (zh) * | 2016-03-01 | 2021-09-24 | 微软技术许可有限责任公司 | 混合企业内容和Web结果 |
CN110020063A (zh) * | 2017-07-18 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 垂直搜索方法和系统 |
CN109255072A (zh) * | 2018-08-15 | 2019-01-22 | 腾讯科技(深圳)有限公司 | 信息召回方法及装置、计算机存储介质、电子设备 |
CN109255072B (zh) * | 2018-08-15 | 2023-04-14 | 腾讯科技(深圳)有限公司 | 信息召回方法及装置、计算机存储介质、电子设备 |
CN109815261A (zh) * | 2018-12-11 | 2019-05-28 | 北京荣之联科技股份有限公司 | 全局搜索功能实现及数据实时同步方法、装置及电子设备 |
CN109710612A (zh) * | 2018-12-25 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 向量索引的召回方法、装置、电子设备和存储介质 |
CN111696547A (zh) * | 2019-03-13 | 2020-09-22 | 本田技研工业株式会社 | 智能体装置、智能体装置的控制方法及存储介质 |
CN112800317A (zh) * | 2021-02-04 | 2021-05-14 | 北京易车互联信息技术有限公司 | 面向汽车垂直领域的搜索平台架构 |
CN114510298A (zh) * | 2022-04-20 | 2022-05-17 | 科大讯飞股份有限公司 | 智能引擎接入和调用方法及相关平台、装置、设备、介质 |
CN114510298B (zh) * | 2022-04-20 | 2022-08-02 | 科大讯飞股份有限公司 | 智能引擎接入和调用方法及相关平台、装置、设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102200974A (zh) | 一种用于搜索引擎的统一信息检索智能体系统与方法 | |
US20240070204A1 (en) | Natural Language Question Answering Systems | |
AU2005217413B2 (en) | Intelligent search and retrieval system and method | |
US9037615B2 (en) | Querying and integrating structured and unstructured data | |
US8862458B2 (en) | Natural language interface | |
KR20120073229A (ko) | 신뢰 질의 시스템 및 방법 | |
CN102622453A (zh) | 基于本体的食品安全事件语义检索系统 | |
CN111061828B (zh) | 一种数字图书馆知识检索方法及装置 | |
Kennedy et al. | Query-adaptive fusion for multimodal search | |
WO2010089248A1 (en) | Method and system for semantic searching | |
Valentine et al. | EarthCube Data Discovery Studio: A gateway into geoscience data discovery and exploration with Jupyter notebooks | |
Wu et al. | An empirical approach for semantic web services discovery | |
Tomasic et al. | Improving access to environmental data using context information | |
Mvumbi | Natural language interface to relational database: a simplified customization approach | |
US20200334415A1 (en) | Inclusion of protocol conditions within search engine results | |
Bernard et al. | Hibernate search in action | |
Malaverri et al. | A Tool based on Web Services to Query Biodiversity Information. | |
Khurana et al. | Survey of techniques for deep web source selection and surfacing the hidden web content | |
Molková | Indexing very large text data | |
Ming et al. | Ontology-based intelligent retrieval system for soil knowledge | |
Daltio et al. | A framework to process complex biodiversity queries | |
Telang et al. | Information Integration across Heterogeneous Domains: Current Scenario, Challenges and the InfoMosaic Approach | |
Tran | Process-oriented Semantic Web Search | |
Majka | An Evaluation of Knowledge Discovery Techniques for Big Transportation Data | |
Tao | Text cube: construction, summarization and mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110928 |