CN100595763C - 基于自然语言的全文检索系统 - Google Patents
基于自然语言的全文检索系统 Download PDFInfo
- Publication number
- CN100595763C CN100595763C CN200810046936A CN200810046936A CN100595763C CN 100595763 C CN100595763 C CN 100595763C CN 200810046936 A CN200810046936 A CN 200810046936A CN 200810046936 A CN200810046936 A CN 200810046936A CN 100595763 C CN100595763 C CN 100595763C
- Authority
- CN
- China
- Prior art keywords
- module
- word
- retrieval
- information
- result set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于自然语言理解的全文检索系统,该系统包括数据库服务器、信息接收判断模块、自然语言处理模块、检索模块、索引模块、索引库和结果集处理模块。本发明系统针对当前搜索引擎智能化水平较低的情况提出了两种解决策略——语义分析与自动切分相结合的分词策略和依据知网规则的扩展查询词策略。部署后的系统将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解和处理能力,能够运用分词技术、同义词技术、概念搜索、短语识别等技术。本搜索引擎具有信息服务的智能化、人性化特征,允许检索者采用自然语言进行信息的检索,在交互操作模式下,可以加入用户选择行为,从而提供更方便、更确切的搜索服务。
Description
技术领域
本发明属于计算机检索技术,具体涉及一种基于自然语言的搜索引擎系统,该系统是对互联网搜索引擎的改进,能够对用户提交的查询内容进行语义分析和概念扩展,通过人机交互操作,用户可得到准确丰富、清晰无歧义的查询结果。
背景技术
随着Internet以及相关技术的发展与成熟,人们已经进入信息量极其丰富的时代。但其固有的大容量、异构性、分布性和动态性,以及Web中大量缺乏组织的无效数据,降低了人们对丰富信息资源的利用效率,出现“信息过载”和“信息迷向”的现象。于是搜索引擎应运而生,它是指对web站点资源和其它网络资源进行标引和检索的一类信息检索系统。大部分网络搜索引擎都采用全文检索技术,处理的对象是文本,能够对文档(网页数据)建立由字(词)到文档的倒排索引,在此基础上,用户使用关键词对文档(网页)进行查询时,系统将给用户返回包含该关键词的网页。
目前的搜索引擎都是基于关键词匹配的检索,但由于词汇的歧义、查询条件和文章选择表达某一主题词汇的不匹配,使检索系统不能理解查询条件的语义而进行基于语义的搜索。即使文档中的词与查询词表达同一概念,却会因为字面形式不匹配而无法被检索到,如“计算机”与“电脑”。这就要求具备检索技巧,以词组或短语形式表达检索请求,从而对普通用户造成一定障碍。这样,政府、互联网协会和社会公众就需要耗费人力、财力和时间培训检索技巧。另外一些不良网络信息的提供者采取了特定技术回避某些敏感词汇,改变其字面形式,用同义词、近义词来替代,从而轻易逃过信息过滤。因此研究基于自然语言理解的信息搜索技术对政府、互联网协会和社会公众使用搜索引擎进行网络信息内容监管是非常有帮助和必要的。
传统的搜索引擎所存在“文海捞针”和“信息丢失”的问题,究其实质在于搜索引擎缺乏对知识进行处理的能力和理解知识的能力,对要检索的信息仅仅采用某类检索模型到预先建立好的索引文件中去检索。词的内在信息负载太小,把它作为信息检索的唯一入口,必将带来包括返回信息过多或信息丢失等问题。为了解决这些问题,提高信息检索的效率,检索系统开始利用语义技术、语义网检索技术和知识处理技术,促进检索系统向智能化方向发展。利用语义知识词典和中文自然语言的处理技术解决词的概念扩展问题,把搜索引擎从基于关键字层面的检索提高到基于概念(知识)层面的检索上来,从概念意义上理解用户的检索请求是实现基于语义的信息检索的一个突破点。
发明内容
本发明的目的在于提供基于自然语言的全文检索系统,该系统不仅能够对用户直接输入的查询内容进行信息检索,还能够对查询内容进行语义分析和概念扩展,具有查全率和智能化程度高的特点。
本发明所述的基于自然语言理解的全文检索系统,其特征在于:该系统包括数据库服务器、信息接收判断模块、自然语言处理模块、检索模块、索引模块、索引库和结果集处理模块;
数据库服务器用于存储知识数据词典,规则库、文本文件集和索引库以及操作信息;为自然语言处理模块提供数据资源和管理服务,为索引模块提供纯文本文件;
信息接收判断模块用于接收用户输入的检索信息并根据用户选择为系统中的自然语言处理模块部署任务,或者直接请求检索模块进行搜索服务;
自然语言处理模块依赖于数据库服务器提供的知识数据词典和规则库,并从信息接收判断模块获得部署的任务;
自然语言处理模块根据部署任务选择下述三种方式之一进行语言处理:第一种方式针对短句查询,通过语义分析与自动切分相结合的分词处理,分割出查询词传给检索模块进行搜索;第二种方式针对词语查询,依据知网的规则把查询词从概念上扩展成对应的同义词、近义词,通过概念扩展及同义近义词相似度算法抽取部分扩展词或接收用户选择的扩展词,把查询词和限定的扩展词一起作为查询条件传给检索模块进行搜索;第三种方式是将上述二种方式结合,把综合处理后的查询内容提交给检索模块;
检索模块为用户提供搜索引擎的使用界面,并提供完备的搜索服务;检索模块负责接收信息接收判断模块的指令和自然语言处理模块递交的处理结果,根据查询语句在索引库中进行查询匹配,返回和查询语句匹配的所有文档信息,即结果集;根据关键词和扩展词在文档中的集中程度对结果集进行排序处理,将排序后的结果集交给结果集处理模块处理;
索引模块用于接收数据库服务器提供的纯文本文件的内容和相关信息,对文本内容、标题和自定义信息处理得到索引词,利用索引词和文档相关信息建立索引库;
索引库用于存储由索引模块对文本文件建立的索引;索引库还根据检索模块提交的查询请求在索引中进行快速检索和排序,并返回检索模块对应的结果;
结果集处理模块用于接收来自检索模块的结果集,并根据索引库的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显、分页处理并将用户查看快照信息的记录存储于数据库中。
本发明系统针对当前搜索引擎智能化水平较低的情况提出了两种解决策略——词语加权结合句法分析策略和基于知网数据词典的扩展查询词策略。部署后的系统将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,对知识有一定的理解和处理能力。本发明系统具有信息服务智能化、人性化的特征,允许检索者采用自然语言进行信息检索,在交互操作模式下,可以加入用户选择行为,从而提供更方便、更确切的搜索服务。具体而言,本发明具有如下优点:
(1)查全率高:该系统利用语义知识词典中对词语的语法标注,扩展出与查询词具有同一概念的一组词语,这些词语在词法约束下构成了同义或近义关系,实现了从词到概念的扩展,从而提高了检索的召回率(Recall),即查全率。利用概念扩展式检索取代关键词匹配式检索还能够有效地避免了表达差异带来的影响一。例如,一个概念可能有不同表达方式,每个用户由于习惯在搜索时使用的关键字是不一样的,于是造成返回结果不一致。
(2)执行效率高:本系统用于纯文本的全文信息检索,因而要求有较高的执行效率。本系统采用词语加权结合句法分析策略,对输入的内容分析后抽取核心成分(句子的中心词),以简洁的形式提交给检索模块并在尽可能包含所有有意义的词的前提条件下尽量减少索引量。此外,在结果集处理时,系统对这些检索到的信息进行优化排序,使用户尽快地得到有用的信息。
(3)智能化程度高:通过语义分析,该系统能抽取出查询语句的中心词,再通过对中心词的概念扩展,大多数情况下能反映查询关键词的应用场景以及描述其语境上下文。可以引导用户确立自己的查询意图,有助于用户界定要查询的具体领域,实现了对原查询内容的补充和优化。最终检索出理想的结果,达到用户的检索目的。
附图说明
图1是本发明系统的体系结构图。
图2是本发明系统的结构示意图。
图3是信息接收判断模块的流程图。
图4是自然语言处理模块中语义分析流程图。
图5是自然语言处理模块中概念扩展流程图。
图6是检索模块的流程图。
图7是结果集处理模块的流程图。
具体实施方式
下面结合附图和实例对本发明作进一步详细的说明。
如图1所示,本发明提供的全文检索系统包括数据库服务器100、信息接收判断模块200、自然语言处理模块300、检索模块400、索引模块500、索引库600和结果集处理模块700。
数据库服务器100用于存储知识数据词典,规则库、文本文件集索和引库600以及操作信息。主要功能包括:为自然语言处理模块300提供数据资源和管理服务,为索引模块500提供纯文本文件。本系统可以采用任何商用数据库实现资源描述信息的保存。
信息接收判断模块200用于接收用户输入的检索信息并根据用户的选择为系统中的自然语言处理模块300部署任务,或者直接请求检索模块400进行搜索服务,例如:用户输入查询内容后,如果未勾选任何选项,在检索时则跳过自然语言处理模块300,不对查询内容做任何处理而直接由检索模块400进行检索;用户如果选择语义分析、概念扩展中某项功能或两种功能组合,信息接收判断模块200则根据要求进行相应的部署。
如图3所示,信息接收判断模块200的处理流程为:(1)用户输入检索信息,根据需要选择语义分析或者概念扩展中某项功能或两种功能组合,提交查询;(2)系统针对用户的选择调用相应的功能模块;(3)如果用户没有选择任何功能模块,系统自动将查询内容递交给检索模块400。
自然语言处理模块300依赖于数据库服务器100提供的知识数据词典和规则库,并从信息接收判断模块200获得部署的任务。根据部署任务遵循下述三种方式之一进行语言处理:第一种方式是针对检索内容为短句的情况,通过语义分析与自动切分相结合的分词处理,抽取出若干个查询词并传给检索模块400进行搜索;第二种方式是针对检索内容为单词的情况,依据知网的规则把查询词在概念上扩展成对应的同义词、近义词,依据同义近义词相似度算法抽取部分扩展词或接收用户选择的扩展词做为查询词;第三种方式是将两种功能结合,具体结合过程为:首先对检索内容进行语义分析与自动切分相结合的分词处理,然后将分割出的查询词在概念上扩展成对应的同义词、近义词或者上下位词,依据相似度优先算法抽取部分扩展词或接收用户选择的扩展词,最后把查询词和限定的扩展词一起作为查询条件传给检索模块400;
检索模块400为用户提供搜索引擎的使用界面和完备的搜索服务。检索模块400负责接收信息接收判断模块200的指令和自然语言处理模块300递交的处理结果,对查询内容在索引库600中进行查询匹配,返回和查询内容匹配的所有文档信息(称为结果集),再依据Lucence的文档得分算法(如果用户选择了概念扩展功能,将会依据查询词与扩展词之间的语义相似度),对返回的所有文档进行排序,最后将排序后的结果集交给结果集处理模块700;
索引模块500用于接收数据库服务器100提供的纯文本文件的内容和相关信息,对文本内容、标题和自定义信息处理得到索引词,利用索引词和文档相关信息建立索引库600;
索引库600用于存储由索引模块500对文本文件建立的索引。此外,索引库600还根据检索模块400提交的查询请求在索引中进行快速检索和排序,并返回检索模块400对应的结果;
结果集处理模块700用于接收来自检索模块400的结果集,并根据索引库600的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显、分页处理并将用户查看快照信息的记录存储于数据库100中。
下面分别举例对自然语言处理模块300、检索模块400和结果集处理模块700作进一步详细的说明。
如图2所示,自然语言处理模块300包括语义分析模块310、概念扩展模块320和逻辑组合模块330。
语义分析模块310采用语法分词和语义分词相结合的思想对用户输入的句子切分,再通过句法分析得到句法结构树,最后基于词语加权算法分析句子中各个词的权值以显示其在句子中的重要性。
该模块涉及到的分词算法的基本思想是:事先建立词典。假设词典中的最长词条所含汉字个数为i,则取被处理文本当前字符串序列中的前i个字作为匹配字段,查找词典,若词典中有这样一个i字词,则匹配成功,匹配字段作为一个词被切分出来;如果词典中找不到这样的一个i字词,则匹配失败,匹配字段去掉最后一个字,剩下的字作为新的匹配字段,再进行匹配,如此进行下去,直到匹配成功为止。
假定词典中最长的词由MAXLEN个字组成,句子长度为LEN(句子长度可以用函数求出,在此不加介绍)。数组S[N-1]存放长度为N的句子,i,j,k,position为变量;wik表示S[i]到S[wik+i]组成一个分词单位;dik是wik所表示的分词单位的属性,如它在词典中的位置、词性等;函数match(S[i],S[i+j])判断字串S[i]~S[i+j]是否为词。
算法如下:
Segment(S[0],S[LEN-1]){//对句子进行切分
i=0;
While i<LEN{
k=0;
for(j=MAXLEN-1;j>=0;j--){
if(i+j)<Len and(match(S[i],S[i+j])){//判断字串S[i],S[i+j]5是否
超出句子尾,是否为词
wik=j;
k++;
StoreData(dik); //保存词条属性
i=i+j+1;}
Else if(i+j)>LEN and(match(S[i],S[i+j])){
wik=j;
k++;
StoreData(dik);
i=i+j+1;}
endif
}
}
}
句法分析是在已有规则库的基础上,结合某些特殊连词,例如“因为”、“并且”等,通过自动机的方法实现对词性的分析,得到句子的结构关系,并借助树状方式显示出来。分析出来的结果反映短语内部结构关系和短语功能类型。短语结构关系的类型有:主谓、述宾、状中、定中、述补、并列、介宾等;短语的功能类型有:名词性短语、动词性短语、形容词性短语、副词性短语、介词短语。
词语加权算法是在句法分析的结果——句法结构树的基础上,给各个词赋予不同权值。其主要思想是:利用句法结构树得到句子的中心谓语,然后结合中心词分析其余句子成分,给不同词性的词赋予不同的权值并去除停用词,如代词、连接词等。赋权值遵循的规则为:名词权值>形容词权值>动词权值。词语加权结束后对权值排序,并根据具体情况设定一个阀值,将权值低于阀值的词语除去,而将权值高于阀值的词语返回系统。
如图4所示,语义分析模块310的工作流程为:(1)用户选择语义分析功能后,该模块对用户输入的内容进行语法分析和语义分析;(3)如果分析成功,(用户输入的查询内容被分割成能反映句子结构关系和实际意义的词),模块接着对查询内容进行词性标注和基于语义的切分,并通过句法分析对中心词赋予不同权重;(4)如果分析失败,(用户输入的查询内容在语义分析后显示为无意义的词语序列),则系统采取自动切分或者不处理策略,直接递交给检索模块400。
概念扩展模块320利用知网数据词典来建立数据库,把用户给出的查询词扩展成一组在概念上同义近义的词集合,并通过同义近义词相似度算法分别计算出每一个扩展词和原查询词之间的相似度。本系统涉及到的知网知识如下:知网是面向计算机的双语常识知识库,提供了设计真正的智能软件所需的常识。数据库中每一个概念是通过一组义原来表示的,每个记录的具体记录格式如下:
NO=词或短语序号
[W_X=词或短语
G_X=词或短语的词性
E_X=词或短语的例子]
DEF=概念定义
其中的W_X、G_X、E_X构成每种语言的记录,X用以描述记录所代表语种,X为C则为汉语,为E则为英语。DEF是概念定义项,表达了本概念的语义信息,值由若干个义原及它们与主干词之间的语义关系描述组成。
本系统提出的一种基于知网的概念扩展及同义近义词相似度算法如下:
概念扩展的准备工作:
1)首先打开到新的数据源的连接。使用vc中的智能指针_ConnectionPtr的CreateInstance()函数完成odbc的数据库连接:
_ConnectionPtr m_pConn;
m_strConnect=″LocalServer″;
m_pConn.CreateInstance(__uuidof(Connection));
m_pConn->Open(_bstr_t(m_strConnect.GetBuffer(0)),L″″,L″″,-1L);
2)开始处理用户输入的查询词,并保存为CString类型的变量m_strIn;在dict表中查找出查询词的所有义项,逐条取出每条记录的″DEF″项、″W_E″项和″FIRST_SEM″项并分别保存入三个CString类型变量的All_DEF、All_WE和All_Fst中:
while(当前义项行数<=最末行行数){
tempDEF保存当前义项行的″DEF″内容;
All_DEF+=tempDEF;
tempW_E保存当前义项行的″W_E″内容;
All_WE+=tempW_E;
tempFst保存当前义项行的″FIRST_SEM″内容;
All_Fst+=tempFst;
当前义项行数加1;
}
同义近义词概念扩展部分:
3)在语义词典表(dict)中查找出一组这样的词语,每一个这样的词语的所有义项中至少有一条的″W_E″项和原查询词的某一条″W_E″项相同,并查找出这些词语的所有义项行。用下面一条sq1语句完成:
SELECT *FROM dict
WHERE dict.W_C IN(SELECT W_C FROM dict WHERE dict.W_EIN(SELECT DISTINCT W_E FROM dict WHERE W_C=m_strIn))
ORDER BY No
设找到符合条件的这一组词语的个数为n,则完成了从查询词W扩展出具有同一概念的其他词We1、We2、...、Wen;
扩展词相似度计算部分:
4)控制两个float类型的数组TotalValue[]和Value[]来分别保存每一个扩展词所有义项得到的相似度的总和,和该扩展词所有义项的平均相似度;设置循环控制变量i=1;
5)控制i从1到n来循环处理查询词W与扩展词Wei;
6)利用同义近义词相似度算法计算W与Wei之间的语义相似度;
7)若相似度的值小于某阀值,就滤掉该扩展词,否则继续;
8)若未处理完所有扩展词,则转至步骤5,否则继续;
9)输出查询词、扩展词以及对应的扩展相似度,算法结束。
其中,同义近义词相似度算法如下:
a)设扩展词Wei有m条义项即有m条记录,并设置控制变量j;控制一个float类型的数组EachValue[]用于保存Wei的每一条义项用公式(1)计算得到的相似度
EachValue[j]=X1*α+X2*β+X3*γ ...(1)
其中,α、β、γ是可调节的参数,且有:α+β+γ=1
X1=1,当Wei的第j条义项的″DEF″项为All_DEF的字串;
X1=0,当Wei的第j条义项的″DEF″项不为All_DEF的字串;
X2=1,当Wei的第j条义项的″W_E″项为All_WE的字串;
X2=0,当Wei的第j条义项的″W_E″项不为All_WE的字串;
X3=1,当Wei的第j条义项的″FIRST_SEM″项为All_Fst的字串;
X3=0,当Wei的第j条义项的″FIRST_SEM″项不为All_Fst的字串;
b)控制变量j从1到m循环处理每一个Wei的义项与查询词W之间的比较
c)用公式(1)计算得到Wei的第j条义项的相似度值EachValue[j];
d)若未处理完所有扩展词,则TotalValue[i]=TotalValue[i]+EachValue[j],转至步骤b,否则继续;
e)利用公式Value[i]=TotalValue[i]/m得到Wei和W的平均相似度Value[i];
如图5所示,概念扩展模块320的工作流程为:(1)用户选择了概念扩展功能后,概念扩展模块在Hownet中查找查询内容的扩展信息;(2)如果存在查询内容的扩展信息,则依据Hownet规则把查询词从概念上扩展成对应的同义词、近义词。再通过相似度优先算法抽取优先级别高的部分扩展词,一方面把查询词及限定的扩展词一起作为查询条件传给检索模块;另一方面把次优先级的扩展词显示给用户自主选择;(3)如果不存在查询内容的扩展信息,则直接将查询内容递交给检索模块400。
逻辑组合模块330将语义分析模块310和概念扩展模块320的功能有机结合,具体结合过程为:首先对检索内容进行语义分析与自动切分相结合的分词处理,然后将分割出的查询词在概念上扩展成对应的同义词、近义词或者上下位词,依据相似度优先算法抽取部分扩展词或接收用户选择的扩展词,最后把查询词和限定的扩展词一起作为查询条件传给检索模块400;
检索模块400是本系统提供给用户检索信息的模块,它包括查询模块410和排序模块420。
查询模块410在索引库中查找所有匹配的文档信息,从匹配的文档信息中选择出满足要求的那部分文档信息作为结果集,并将结果集发送给排序模块420。
排序模块420用于对来自查询模块410的结果集进行排序。该模块根据扩展词的权值和基于原词的相似度,结合考虑文档中关键词的出现频率、文档长度以及文档的反转频率等因素进行排序。将命中次数较多的文档排在结果集的前面。最后把前若干(数目由用户指定或系统默认)位的结果优先返回给用户。
如图6所示,检索模块400的处理流程为:(1)接受直接来自用户的查询内容或经过自然语言处理模块分析扩展后的查询内容;(2)分析查询内容之间的逻辑关系,首先在索引库中进行查询,返回与查询内容匹配的所有文档信息即结果集;(3)依据查询词与扩展词之间的语义相似度,结合考虑文档中关键词的出现频率、文档长度以及文档的反转频率等因素,对返回的所有文档进行排序,主要是利用查询词和扩展词在文档中出现的频率来进行排序,将命中次数较多的文档排在结果集的前面。最后将排序结果递交给结果集处理模块。
结果集处理模块700是用户查询显示的接口,它包括头信息显示模块710、反显模块720、回显模块730和分页处理模块740。
头信息显示模块710用于显示查询结果的提示信息,如果查询模块400返回的结果集不空,则在页首显示查询用时和结果集中的文档数以及由概念扩展模块320提供的可勾选扩展词;如果查询模块400没有检索到匹配的结果,则显示查找结果不存在的提示信息。
反显模块720用于对查询模块400返回的文本文档结果集和索引库600的摘要中的关键字做强调突出处理。具体方法是:对原查询词加红色高亮,扩展词加不同于原查询词的褐色高亮。
回显模块730用于显示返回给用户的快照和摘要信息。页面内容以标题、摘要的形式,按条罗列。标题为超链接形式,用户可以点击打开检索内容所在的原文。摘要显示原文中含有检索内容的一段文摘。类似于百度中的检索返回结果。
分页处理模块740用于将结果集的多篇分档分页显示。页尾标注十页范围供用户选择。考虑到用户习惯,为加快搜索速度,每次翻页只返回当页文档的结果,不返回全部结果集。
如图7所示,结果集处理模块700的处理流程为:(1)接收来自检索模块400递交的结果集;(2)在页首显示查询用时、返回结果数及备选扩展词或者查询结果不存在的提示信息;(3)从索引库600中获得结果集的文摘信息,对查询词和扩展词反显处理,对文摘及相应的源文档之间建立链接;(4)用户要求多页显示时,再次从结果集中返回用户需要数目的文档。
为了清晰明了地显示系统功能,下面给出若干测试实例:
(1)语义分析功能
语义分析功能是将措词结构简单的短句(包括复句中的分句)进行中文分词、句法分析来抽取短句中的关键词,提交给检索系统进行查询,提高了搜索引擎的易用性,保证分析结果的正确性。
语义分析模块能对不同句型分析处理。
a)输入陈述句“国家出台了新的政策。”分析结果是“国家”、“政策”,成功剔除了结构助词,分割出了中心词;
b)“省内外粮食调配差额太大啦!”分析结果是“粮食”、“差额”,成功剔除了感叹助词;
c)“全球的经济走势如何?”分析结果是“经济”、“走势”。成功剔除了疑问助词;
根据词法分析计算中心词的权重,权重大的中心词基本都出现在前10条检索结果中。
(2)概念扩展功能
概念扩展模块能对查询词进行多方面的扩展。
a)对查询词“马铃薯”扩展出同义词“土豆”和“洋芋”;
b)对查询词“技工”能扩展出近义词“技师”、“技工”、“技术员”等;
c)对查询词“大学生”、能扩展出上位词“本科生”,同样也可以从“本科生”扩展出“大学生”和“专科生”等下位词。
Claims (4)
1、一种基于自然语言理解的全文检索系统,其特征在于:该系统包括数据库服务器(100)、信息接收判断模块(200)、自然语言处理模块(300)、检索模块(400)、索引模块(500)、索引库(600)和结果集处理模块(700);
数据库服务器(100)用于存储知识数据词典、规则库、文本文件集和索引库(600)以及操作信息;为自然语言处理模块(300)提供数据资源和管理服务,为索引模块(500)提供纯文本文件;
信息接收判断模块(200)根据用户的选择为系统中的自然语言处理模块(300)部署任务,或者直接请求检索模块(400)进行搜索服务;
自然语言处理模块(300)依赖于数据库服务器(100)提供的知识数据词典和规则库,并从信息接收判断模块(200)获得部署的任务;
自然语言处理模块(300)根据部署任务选择下述三种方式之一进行语言处理:第一种方式是对用户的检索命令进行语义分析与自动切分相结合的分词处理,分割出查询词传给检索模块(400)进行搜索;第二种方式是依据知网的规则把查询词从概念上扩展成对应的同义词、近义词,通过概念扩展及同义近义词相似度算法抽取部分扩展词或接收用户选择的扩展词,把查询词和限定的扩展词一起作为查询条件传给检索模块(400)进行搜索,知网是面向计算机的双语常识知识库;第三种方式是将上述二种方式结合,把综合处理后的查询内容提交给检索模块(400);
检索模块(400)为用户提供搜索引擎的使用界面,并提供完备的搜索服务;检索模块(400)负责接收信息接收判断模块(200)的指令和自然语言处理模块(300)递交的处理结果,根据查询语句在索引库(600)中进行查询匹配,返回和查询语句匹配的所有文档信息,根据关键词和扩展词在文档中的集中程度对结果集进行排序处理,将排序后的结果集交给结果集处理模块(700)处理;
索引模块(500)用于接收数据库服务器(100)提供的纯文本文件的内容和相关信息,对文本内容、标题和自定义信息处理得到索引词,利用索引词和文档相关信息建立索引库;
索引库(600)用于存储由索引模块(500)对文本文件建立的索引;索引库(600)还根据检索模块(400)提交的查询请求在索引中进行快速检索和排序,并返回检索模块(400)对应的结果;
结果集处理模块(700)用于接收来自检索模块(400)的结果集,并根据索引库(600)的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显、分页处理并将用户查看快照信息的记录存储于数据库服务器(100)中。
2、根据权利要求1所述的全文检索系统,其特征在于:自然语言处理模块(300)包括:语义分析模块(310)、概念扩展模块(320)、逻辑组合模块(330);
语义分析模块(310)采用语法分词和语义分词相结合的方式对用户输入的句子切分,通过句法分析得到句法结构树,依据词语加权算法对对中心词赋予不同权重;
概念扩展模块(320)依据知网的规则把查询词从概念上扩展成对应的同义词、近义词或上下位词;通过相似度优先算法,抽取部分扩展词或接收用户选择的扩展词,最后把查询词及限定的扩展词一起作为查询条件传给检索模块(400);
逻辑组合模块(330)将语义分析模块(310)和概念扩展模块(320)的功能进行逻辑组合,并将处理结果发送给检索模块(400)。
3、根据权利要求2所述的全文检索系统,其特征在于:检索模块(400)是本系统提供给用户检索信息的模块,它包括查询模块(410)和排序模块(420);
查询模块(410)在索引库中查找所有匹配的文档信息,从匹配的文档信息中选择出满足要求的那部分文档信息作为结果集,并将结果集发送给排序模块(420);
排序模块(420)用于对来自查询模块(410)的结果集进行一个优先级排序,匹配强度最高的文档排在结果集的最前面,匹配强度是用查询词和扩展词在文档中的频率和检索词的权重以及与原词的相似度来衡量的。
4、根据权利要求3所述的全文检索系统,其特征在于:结果集处理模块(700)是用户查询显示的接口,它包括头信息显示模块(710)、反显模块(720)、回显模块(730)和分页处理模块(740);
头信息显示模块(710)用于显示查询结果的提示信息,如果查询模块(410)返回的结果集不空,则在页首显示查询用时和结果集中的文档数以及由概念扩展模块(320)提供的可勾选扩展词;如果查询模块(410)没有检索到匹配的结果,则显示查找结果不存在的提示信息;
反显模块(720)用于对查询模块(410)返回的文本文档结果集和索引库(600)的摘要中的关键字做强调突出处理;
回显模块(730)用于显示排序后结果集的文档中包含有检索词的文摘信息,选择显示文摘信息,每块文摘信息都包含有突出显示的检索词或者扩展词;并对搜索内容的源文件进行链接,读取源文件到页面;
分页处理模块(740)用于将结果集的多篇分档分页显示,在页尾标注页码范围供用户选择。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810046936A CN100595763C (zh) | 2008-02-26 | 2008-02-26 | 基于自然语言的全文检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200810046936A CN100595763C (zh) | 2008-02-26 | 2008-02-26 | 基于自然语言的全文检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101246492A CN101246492A (zh) | 2008-08-20 |
CN100595763C true CN100595763C (zh) | 2010-03-24 |
Family
ID=39946945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200810046936A Expired - Fee Related CN100595763C (zh) | 2008-02-26 | 2008-02-26 | 基于自然语言的全文检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100595763C (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912634A (zh) * | 2016-04-05 | 2016-08-31 | 扬州大学 | 一种面向软件代码检索的查询语句重新生成方法 |
US11928107B2 (en) | 2020-05-22 | 2024-03-12 | International Business Machines Corporation | Similarity-based value-to-column classification |
Families Citing this family (72)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770499A (zh) * | 2009-01-07 | 2010-07-07 | 上海聚力传媒技术有限公司 | 搜索引擎中的信息检索方法及相应搜索引擎 |
CN101510221B (zh) * | 2009-02-17 | 2012-05-30 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN101561818B (zh) * | 2009-05-13 | 2011-12-07 | 北京伟库电子商务科技有限公司 | 分词处理方法及全文检索方法 |
CN102110100B (zh) * | 2009-12-24 | 2017-07-18 | 北京亿维讯科技有限公司 | 一种检索效应数据库的方法及装置 |
CN102200975B (zh) * | 2010-03-25 | 2013-12-11 | 北京师范大学 | 一种利用语义分析的垂直搜索引擎系统 |
CN102214189B (zh) * | 2010-04-09 | 2013-04-24 | 腾讯科技(深圳)有限公司 | 基于数据挖掘获取词用法知识的系统及方法 |
CN101853288A (zh) * | 2010-05-19 | 2010-10-06 | 马晓普 | 基于文档实时监控可配置的全文检索服务系统 |
CN102279843A (zh) * | 2010-06-13 | 2011-12-14 | 北京四维图新科技股份有限公司 | 处理短语数据的方法以及装置 |
JP2012027846A (ja) * | 2010-07-27 | 2012-02-09 | Sony Corp | 情報処理装置、情報表示方法及びコンピュータプログラム |
WO2012025040A1 (zh) * | 2010-08-27 | 2012-03-01 | Huang Bin | 可视化搜索引擎系统及其实现方法和应用 |
CN102456016B (zh) * | 2010-10-18 | 2014-10-01 | 中国移动通信集团四川有限公司 | 一种对搜索结果进行排序的方法及装置 |
CN102024027B (zh) * | 2010-11-17 | 2013-03-20 | 北京健康在线网络技术有限公司 | 一种医学数据库的建立方法 |
US9529908B2 (en) | 2010-11-22 | 2016-12-27 | Microsoft Technology Licensing, Llc | Tiering of posting lists in search engine index |
US9424351B2 (en) | 2010-11-22 | 2016-08-23 | Microsoft Technology Licensing, Llc | Hybrid-distribution model for search engine indexes |
CN102722498B (zh) * | 2011-03-31 | 2015-06-03 | 北京百度网讯科技有限公司 | 搜索引擎及其实现方法 |
CN102207973B (zh) * | 2011-06-22 | 2013-04-10 | 上海互联网软件有限公司 | 一种模糊检索系统及其检索方法 |
CN102279875B (zh) * | 2011-06-24 | 2013-04-24 | 华为数字技术(成都)有限公司 | 钓鱼网站的识别方法和装置 |
CN103377226B (zh) * | 2012-04-25 | 2016-08-03 | 中国移动通信集团公司 | 一种智能检索方法及其系统 |
CN102768679B (zh) * | 2012-06-25 | 2015-04-22 | 深圳市汉络计算机技术有限公司 | 一种搜索方法及搜索系统 |
CN102880706A (zh) * | 2012-07-16 | 2013-01-16 | 刘二中 | 一种搜索引擎终端用户输入链接信息的处理方法 |
TW201405335A (zh) * | 2012-07-19 | 2014-02-01 | Wistron Corp | 選擇方法及其相關裝置 |
CN102999625A (zh) * | 2012-12-05 | 2013-03-27 | 北京海量融通软件技术有限公司 | 一种检索请求语义扩展方法 |
CN103136352B (zh) * | 2013-02-27 | 2016-02-03 | 华中师范大学 | 基于双层语义分析的全文检索系统 |
CN103412855A (zh) * | 2013-06-27 | 2013-11-27 | 华中师范大学 | 现代汉语复句关系词自动识别方法及系统 |
CN104182442A (zh) * | 2014-03-28 | 2014-12-03 | 无锡天脉聚源传媒科技有限公司 | 一种新闻搜索方法及装置 |
CN103942347B (zh) * | 2014-05-19 | 2017-04-05 | 焦点科技股份有限公司 | 一种基于多维度综合词库的分词方法 |
CN104166550A (zh) * | 2014-08-13 | 2014-11-26 | 扬州大学 | 一种面向软件维护的修改请求重新定制的方法 |
CN104391969B (zh) * | 2014-12-04 | 2018-01-30 | 百度在线网络技术(北京)有限公司 | 确定用户查询语句句法结构的方法及装置 |
CN105786790A (zh) * | 2014-12-18 | 2016-07-20 | 镇江高科科技信息咨询有限公司 | 一种纸质文本生成装置及方法 |
CN104850539B (zh) * | 2015-05-28 | 2017-08-25 | 宁波薄言信息技术有限公司 | 一种自然语言理解方法及基于该方法的旅游问答系统 |
CN105022794A (zh) * | 2015-06-26 | 2015-11-04 | 广州时韵信息科技有限公司 | 一种快速搜索所需文章内容的方法及装置 |
CN105608148A (zh) * | 2015-12-16 | 2016-05-25 | 合肥寰景信息技术有限公司 | 一种在网络社区中审核待发表主题的方法 |
CN105573982A (zh) * | 2015-12-16 | 2016-05-11 | 合肥寰景信息技术有限公司 | 一种在网络社区中审核待发表主题的装置 |
CN105718593B (zh) * | 2016-01-28 | 2019-04-16 | 长春师范大学 | 一种数据库查询优化方法及系统 |
CN107368494A (zh) * | 2016-05-12 | 2017-11-21 | 索意互动(北京)信息技术有限公司 | 一种文献分析方法与系统 |
CN107463548B (zh) * | 2016-06-02 | 2021-04-27 | 阿里巴巴集团控股有限公司 | 短语挖掘方法及装置 |
CN106547917A (zh) * | 2016-11-29 | 2017-03-29 | 国网信息通信产业集团有限公司 | 一种信息处理方法及电子设备 |
CN107122436A (zh) * | 2017-04-19 | 2017-09-01 | 重庆水利电力职业技术学院 | 大数据统计分析系统 |
CN107092682A (zh) * | 2017-04-21 | 2017-08-25 | 北京恒冠网络数据处理有限公司 | 一种带有数据采集的用户自选数据库检索方法 |
CN108733732A (zh) * | 2017-04-25 | 2018-11-02 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN107766400A (zh) * | 2017-05-05 | 2018-03-06 | 平安科技(深圳)有限公司 | 文本检索方法及系统 |
CN107315766A (zh) * | 2017-05-16 | 2017-11-03 | 广东电网有限责任公司江门供电局 | 一种集合智能与人工问答的语音问答方法及其装置 |
CN107291871B (zh) | 2017-06-15 | 2021-02-19 | 北京百度网讯科技有限公司 | 基于人工智能的多域信息的匹配度评估方法、设备及介质 |
CN107748742A (zh) * | 2017-06-16 | 2018-03-02 | 平安科技(深圳)有限公司 | 一种基于句法依存关系提取中心词的方法、终端以及设备 |
CA3074033A1 (en) * | 2017-10-05 | 2019-04-11 | Liveramp, Inc. | Search term extraction and optimization from natural language text files |
CN108052581A (zh) * | 2017-12-08 | 2018-05-18 | 四川金英科技有限责任公司 | 一种案件视频研判装置 |
CN108197298A (zh) * | 2018-01-23 | 2018-06-22 | 北京知行信科技有限公司 | 一种基于自然语言处理的智能购物交互方法及系统 |
CN108363682A (zh) * | 2018-02-11 | 2018-08-03 | 广州数知科技有限公司 | 一种目标文本显示方法及装置 |
CN108984582B (zh) * | 2018-05-04 | 2023-07-28 | 中国信息安全研究院有限公司 | 一种查询请求处理方法 |
CN108874917B (zh) * | 2018-05-30 | 2021-11-23 | 北京五八信息技术有限公司 | 意图识别方法、装置、设备及存储介质 |
CN108932218B (zh) * | 2018-06-29 | 2022-09-30 | 北京百度网讯科技有限公司 | 一种实例扩展方法、装置、设备和介质 |
CN110851560B (zh) * | 2018-07-27 | 2023-03-10 | 杭州海康威视数字技术股份有限公司 | 信息检索方法、装置及设备 |
CN109753609B (zh) * | 2018-08-29 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 一种多意图查询方法、装置以及终端 |
CN109446313B (zh) * | 2018-10-31 | 2020-10-02 | 重庆爱思网安信息技术有限公司 | 一种基于自然语言分析的排序系统及方法 |
CN109492126B (zh) * | 2018-11-02 | 2022-03-01 | 廊坊市森淼春食用菌有限公司 | 一种智能交互方法及装置 |
CN109783067A (zh) * | 2018-11-30 | 2019-05-21 | 复旦大学 | 基于本体CallCenter平台的智能知识整合与检索系统和方法 |
CN109670012A (zh) * | 2019-02-20 | 2019-04-23 | 湖北理工学院 | 一种基于物联网的电力土建基础验收的指导系统及方法 |
CN109992689B (zh) * | 2019-03-26 | 2024-01-30 | 华为技术有限公司 | 搜索方法、终端及介质 |
CN111160007B (zh) * | 2019-12-13 | 2023-04-07 | 中国平安财产保险股份有限公司 | 基于bert语言模型的搜索方法、装置、计算机设备及存储介质 |
CN111061835B (zh) * | 2019-12-17 | 2023-09-22 | 医渡云(北京)技术有限公司 | 查询方法及装置、电子设备和计算机可读存储介质 |
CN111274810A (zh) * | 2020-03-12 | 2020-06-12 | 南京创联智软信息科技有限公司 | 一种基于自然语言的语言储存系统 |
CN111709239A (zh) * | 2020-06-04 | 2020-09-25 | 中国地质大学(北京) | 一种基于专家逻辑结构树的地学数据发现方法 |
CN112800317A (zh) * | 2021-02-04 | 2021-05-14 | 北京易车互联信息技术有限公司 | 面向汽车垂直领域的搜索平台架构 |
CN113590736B (zh) * | 2021-08-12 | 2024-05-07 | 成都数之联科技股份有限公司 | 索引管理方法、装置、电子设备和可读存储介质 |
CN113377805B (zh) * | 2021-08-13 | 2021-11-12 | 腾讯科技(深圳)有限公司 | 数据查询方法、装置、电子设备及计算机可读存储介质 |
CN114461661B (zh) * | 2022-01-05 | 2023-04-11 | 三人行传媒集团股份有限公司 | 一种基于大数据的数据查询方法及系统 |
CN114547253A (zh) * | 2022-03-03 | 2022-05-27 | 北京伽睿智能科技集团有限公司 | 一种基于知识库应用的语义搜索方法 |
CN114610847A (zh) * | 2022-03-21 | 2022-06-10 | 南方电网科学研究院有限责任公司 | 一种智能知识检索系统 |
CN115658847B (zh) * | 2022-10-27 | 2024-03-26 | 山东迪海信息科技有限公司 | 一种基于大数据的知识产权成果转化管理系统 |
CN116010560B (zh) * | 2023-03-28 | 2023-06-09 | 青岛阿斯顿工程技术转移有限公司 | 一种国际技术转移数据服务系统 |
CN116756375B (zh) * | 2023-05-09 | 2024-05-07 | 中电科大数据研究院有限公司 | 一种基于图谱的异构数据的处理系统 |
CN117171333B (zh) * | 2023-11-03 | 2024-08-02 | 国网浙江省电力有限公司营销服务中心 | 一种电力文件问答式智能检索方法及系统 |
-
2008
- 2008-02-26 CN CN200810046936A patent/CN100595763C/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912634A (zh) * | 2016-04-05 | 2016-08-31 | 扬州大学 | 一种面向软件代码检索的查询语句重新生成方法 |
CN105912634B (zh) * | 2016-04-05 | 2019-03-12 | 扬州大学 | 一种面向软件代码检索的查询语句重新生成方法 |
US11928107B2 (en) | 2020-05-22 | 2024-03-12 | International Business Machines Corporation | Similarity-based value-to-column classification |
Also Published As
Publication number | Publication date |
---|---|
CN101246492A (zh) | 2008-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100595763C (zh) | 基于自然语言的全文检索系统 | |
CN100458795C (zh) | 一种智能组词输入的方法和一种输入法系统及其更新方法 | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
CN102298635B (zh) | 事件信息融合方法和系统 | |
KR101040119B1 (ko) | 콘텐츠 검색 장치 및 방법 | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
US20050080613A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
CN102253930B (zh) | 一种文本翻译的方法及装置 | |
Strzalkowski | Robust text processing in automated information retrieval | |
CN101377777A (zh) | 一种自动问答方法和系统 | |
CN103136352A (zh) | 基于双层语义分析的全文检索系统 | |
CN104331449A (zh) | 查询语句与网页相似度的确定方法、装置、终端及服务器 | |
KR100835706B1 (ko) | 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법 | |
CN105183803A (zh) | 一种社交网络平台中的个性化搜索方法及其搜索装置 | |
CN100392658C (zh) | 基于本体的主题式网络爬虫系统构建方法 | |
Yusuf et al. | Query expansion method for quran search using semantic search and lucene ranking | |
CN112183110A (zh) | 一种基于数据中心的人工智能数据应用系统及应用方法 | |
Liu et al. | Domain ontology concept extraction method based on text | |
Strzalkowski | Natural language processing in large-scale text retrieval tasks | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
Wondergem et al. | Matching index expressions for information retrieval | |
Hu et al. | Intelligent information retrieval applying automatic constructed fuzzy ontology | |
CN113849596A (zh) | 一种基于自然语言处理的智能搜索方法 | |
CN113536772A (zh) | 一种文本处理方法、装置、设备及存储介质 | |
CN117407511B (zh) | 一种基于Bert模型的电力安全规程智能问答方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20100324 Termination date: 20140226 |