CN103136352A - 基于双层语义分析的全文检索系统 - Google Patents

基于双层语义分析的全文检索系统 Download PDF

Info

Publication number
CN103136352A
CN103136352A CN2013100616841A CN201310061684A CN103136352A CN 103136352 A CN103136352 A CN 103136352A CN 2013100616841 A CN2013100616841 A CN 2013100616841A CN 201310061684 A CN201310061684 A CN 201310061684A CN 103136352 A CN103136352 A CN 103136352A
Authority
CN
China
Prior art keywords
module
query
information
text
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100616841A
Other languages
English (en)
Other versions
CN103136352B (zh
Inventor
张茂元
邹春燕
黄梵
王立
刘强
贺凡黎
陈水银
张红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Original Assignee
Huazhong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University filed Critical Huazhong Normal University
Priority to CN201310061684.1A priority Critical patent/CN103136352B/zh
Publication of CN103136352A publication Critical patent/CN103136352A/zh
Application granted granted Critical
Publication of CN103136352B publication Critical patent/CN103136352B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息检索技术领域,提供了一种基于双层语义分析的全文检索系统,该系统包括查询信息接收模块、句子摘要层次语义处理模块、检索模块、索引库、索引模块、篇章层次语义处理模块、结果集处理模块和数据服务器。本发明通过对查询语句进行摘要处理和复述处理来从句子摘要层次语义上复述用户提交的查询语句,并通过从篇章层次上提取文档中潜在语义信息和主题信息来消除掉不符合篇章层次语义的检索结果文档,从而实现“句子摘要层次”以及“篇章层次”的双层语义分析的全文检索系统。本发明通过提高对查询语句和文本集的语义处理能力,使得全文检索系统更加人性化、智能化,给用户提供更方便、准确的服务。

Description

基于双层语义分析的全文检索系统
技术领域
本发明属于信息检索技术,具体涉及一种基于双层语义分析的全文检索系统。
技术背景
随着互联网信息量持续的指数级增长,人们已经进入了一个信息爆炸的时代。如何在海量级别的数据中准确、高效地找到用户需要的数据,这是一个十分巨大的挑战。搜索引擎的诞生在一定程度上解决了上述问题。搜索引擎根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。绝大多数的搜索引擎都采用信息检索技术,建立文档倒排索引库,对用户提交关键词或查询语句进行查询,将相关的文档结果返回给用户。
当前的信息检索系统大多是基于关键词(字)匹配和对其简单扩展的检索,还停留在关键词检索的层面上。由于同一个词在不同语句和不同的篇章环境下会有不同的含义,这给信息检索系统理解查询语句和篇章的语义带来了难题。尽管有些信息检索系统采用了扩展检索技术来根据查询词和其扩展词进行检索,提高了检索的查全率。但是因为其尚未采用深层次的语义分析技术,这使得很多相关性很强的检索结果被丢失。另一方面,由于信息检索不能“理解”文档篇章层次的语义,而只是简单地认为文档是一个由词组成的集合,这也导致有些相关性很强的文档由于表述的原因被放置在比较靠后的位置,影响了检索的准确率。正是因为这样,传统的信息检索系统对被检索的文档缺乏语义分析能力,从而不能准确地进行语义检索。
随着信息检索技术向智能化的方向发展,人们希望信息检索系统能够准确理解查询语句和文档的语义,能够给用户提供一个更加精确的返回结果。为了解决传统的信息检索存在的“查询语句的语义信息丢失”和“文档篇章层次语义消歧”问题,提高信息检索的准确率,需要在检索系统中使用句子摘要层次语义分析技术和篇章层次语义分析技术,促进信息检索系统的智能化发展。从句子摘要层次和篇章层次上进行语义分析,将传统的基于关键词层面的检索提升到句子摘要层次和篇章层次语义相结合的双层语义结构上,是实现信息检索系统智能化的一个关键点。
发明内容
本发明的目的在于克服上述现有技术中的不足,提供一种基于双层语义分析的全文检索系统,该系统不仅能够对用户的查询语句进行复述,从句子摘要层次语义上扩展查询语句,还能够从篇章层次上提取文档的潜在语义信息和主题信息,对文档进行具有双层语义分析的全文信息检索。本发明系统具有更高的查准率、查全率和更智能化的特点。
本发明的目的是由以下技术方案实现的:基于双层语义分析的全文检索系统,包括查询信息接收模块、句子摘要层次语义处理模块、检索模块、索引库、索引模块、篇章层次语义处理模块、结果集处理模块和数据服务器。
查询信息接收模块用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块进行查询句的摘要层次语义处理,或者直接请求检索模块进行搜索服务。
句子摘要层次语义处理模块接收用户输入的查询语句,并依赖数据服务器提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词,即生成查询语句摘要。它形式上是由句子关键词的组合序列所构成,其语义实质是用户想要查询句子的摘要层次语义。之后对查询语句摘要中的查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块进行搜索。
检索模块为用户提供准确、完备的检索服务。检索模块负责接收查询信息接收模块的指令和句子摘要层次语义处理模块处理之后的查询语句;将查询语句提交给索引库进行查询匹配,返回所有与查询语句匹配的文档信息,并对检索结果集进行排序处理,将排序后的结果集提交给结果集处理模块。
索引库用于存储由索引模块对文本文件及其对应篇章层次语义信息建立的索引;索引库还根据检索模块提交的查询请求在索引中快速检索和排序,并将结果返回给检索模块。
索引模块用于接收数据服务器提供的纯文本文件的内容和相关信息,以及接收篇章层次语义处理模块提供的对应文档的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引。
篇章层次语义处理模块接收数据服务器提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取对应文档的篇章层次语义信息,并将其提交给索引模块。
结果集处理模块用于接收来自检索模块的结果集,并根据索引库的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理。
数据服务器用于存储:1.知识数据词典,如分词词典、停用词表等,2.规则库,如复述过滤规则库,3.文本文件集。
本发明系统针对当前搜索引擎智能化水平不高的现状提出了两个方面的解决办法:面向查询语句复述的语义处理方法和支持篇章语义消歧的检索方法。本发明系统将目前的查询扩展提升到句子摘要层次和篇章层次语义相结合的双层语义结构上,不仅能够从句子摘要层次语义上复述用户提交的查询语句,而且也可以从篇章层次语义上对查询文档进行语义消歧。本发明系统具有信息服务智能化、人性化和自动化的特点,可以为用户提供更方便、精确的检索服务。具体而言,本发明具有如下特点:
(1)查全率高:该系统对查询语句进行摘要层次语义分析,将查询语句复述成同义的扩展语句,使查询扩展语句更为准确,并扩大了用户所提交查询语句的语义信息,有效地解决了查询语句中语义信息丢失带来的影响,从而提高了检索的查全率。
(2)查准率高:该系统通过对查询结果文档进行篇章层次语义分析,对文章主题信息和潜在语义信息进行量化统计,返回语义上最相关的检索结果文档,给用户提供最精准的检索结果,实现查询语句与检索结果文档的高度准确匹配,从而提高检索的查准率。
(3)智能化高:通过查询语句的句子摘要层次语义分析,该系统能够识别查询语句所处的应用场景和语境,准确理解用户的查询含义。同时系统通过篇章层次的语义分析,能够准确理解文档的主题信息及潜在语义信息,消除掉不符合篇章层次语义的检索结果文档。通过句子摘要层次和篇章层次相结合的双层语义分析,检索系统能够理解查询语句和结果文档,最终检索出精准合理的结果,满足用户的检索需求。
附图说明
图1是本发明基于双层语义分析的全文检索系统的体系结构图。
图2是本发明基于双层语义分析的全文检索系统的模块结构示意图。
图3是本发明中查询信息接收模块的工作流程图。
图4是本发明中句子摘要层次语义处理模块中查询语句摘要化流程图。
图5是本发明中句子摘要层次语义处理模块中查询词扩展流程图。
图6是本发明中句子摘要层次语义处理模块中查询复述流程图。
图7是本发明中检索模块的工作流程图。
图8是本发明中篇章层次语义处理模块中的概率模型图。
图9是本发明中结果集处理模块的工作流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
如图1所示,本发明提供的基于双层语义分析的全文检索系统包括查询信息接收模块100、句子摘要层次语义处理模块200、检索模块300、索引库400、索引模块500、篇章层次语义处理模块600、结果集处理模块700和数据服务器800。
查询信息接收模块100用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块200进行查询语句的摘要层次语义处理,或者直接请求检索模块300进行检索服务。
如图3所示,查询信息接收模块100的处理流程为:(1)用户输入查询信息,根据需要选择查询复述功能,提交查询请求;(2)系统针对用户的选择将查询信息传递给句子摘要层次语义分析模块200对查询句进行语义处理;(3)如果用户没有选择查询复述功能,系统将查询信息直接递交给检索模块300。
句子摘要层次语义处理模块200接收用户输入的查询语句,并依据数据服务器800提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词;之后对查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句的复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其扩展语句一起提交给检索模块300进行检索。
检索模块300为用户提供检索系统的使用界面,并提供准确、完备的检索服务;检索模块300负责接收查询信息接收模块100的指令和句子摘要层次语义处理模块200处理之后的结果;根据查询内容在索引库400中进行查询匹配,返回与查询语句匹配的所有文档信息,根据系统的文档打分算法(系统使用Lucene的文档打分算法并结合查询语句及其复述语句中查询词在文档中潜在语义信息的加权),对返回的所有文档进行排序,最后将排序后的结果集递交给结果集处理模块700。
索引库400用于存储由索引模块500对文本文件及其对应篇章层次语义信息建立的索引;索引库400还根据检索模块300提交的查询请求在索引中快速检索和排序,并返回检索模块300所提交请求的对应结果。
索引模块500用于接收数据服务器800提供的纯文本文件的内容和相关信息,并接收篇章层次语义处理模块600提供的对应文档中的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引。
篇章层次语义处理模块600接收数据服务器800提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取文档的篇章层次语义信息,并将其提交给索引模块500。
结果集处理模块700用于接收来自检索模块300的结果集,并根据索引库400的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理。
数据服务器800用于存储知识数据词典、规则库和文本文件集。
下面分别举例对句子摘要层次语义处理模块200、检索模块300、篇章层次语义处理模块600和结果集处理模块700作进一步的详细说明。
如图2所示,句子摘要层次语义处理模块200包括查询语句摘要模块210,和查询复述模块220。
查询语句摘要模块210采用最大逆向匹配分词方法对用户输入的查询语句进行切分,再通过句法分析得到句法结构树,根据词性和词义去掉对查询句语义相关度不高的词(如“的”,“啊”等词),得到查询语句的摘要,其形式上是句子关键词的组合序列,其语义实质是用户想要查询句子的摘要层次语义。例如查询语句“宝宝发烧了怎么处理?”经过摘要处理之后为“宝宝 发烧 处理”。
该模块涉及的最大逆向匹配分词算法的思想是:事先建立词典。假设词典中的最长词条所含汉字个数为i,则取被处理文本的当前字符串的后i个字作为匹配字段,查找词典,如果词典中有这样的一个i个字的词,则匹配成功,将当前字段作为一个词分割出来;如果词典中没有查找到与当前匹配字段相同的词,则匹配失败,去掉匹配字段的最前一个字,剩下的字作为新的匹配字段,再进行匹配。如此进行下去,直到匹配成功。
本系统的句法分析方法采用开源的句法分析工具StanFord_Parser,它是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析;结合某些特殊连词,例如“因为”、“和”、“但是”等,通过自动机的方法实现对词性的分析,得到句子的结构关系,并借助树状方式显示出来。分析出来的结果反映短语内部结构关系和短语功能类型。短语的功能类型有:名词性短语、动词性短语、副词性短语、形容词性短语、介词短语。
如图4所示,查询语句摘要模块210的工作流程为:(1)对用户输入的查询信息进行中文分词;(2)继续对查询信息进行句法分析;(3)如果句法分析成功(用户输入的查询语句被分割成能反映句子结构关系和实际意义的词),模块将经过句法分析之后的查询信息递交给查询复述模块220;(4)如果分析失败(用户输入的查询内容在语义分析后显示为无意义的词语序列),则系统直接将查询语句进行中文分词所得到的结果递交给检索模块300。
查询复述模块220对查询语句中查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述规则过滤掉不符合句子摘要层次语义的查询扩展语句,得到其复述语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块300。
概念扩展方法采用基于知网(Hownet)的概念扩展方法。在知网中,“义原”是从所有汉语词汇中提炼出的可以用来描述其它词汇的不可再分的基本元素,每一个概念是通过一组义原来表示的。每个记录的具体记录格式如下:
NO.=词或短语序号
[W_X=词或短语
G_X=词或短语的词性
E_X=词或短语的例子]
DEF=概念定义
其中的W_X、G_X、E_X构成每种语言的记录,X用以描述记录所代表语种,X为C则为汉语,为E则为英语。DEF 是概念定义项,表达了本概念的语义信息,值由若干个义原及它们与主干词之间的语义关系描述组成。《知网》规定:DEF 项中用以定义的特性至少是一个,但也可以是多个,数量没有限制;但是DEF项的第一位置所标注的义原必须是知网所规定的主要特征,否则视为语法错误。并且DEF 中第一义原具有上下位关系,其他位置上的义原不一定具有这种上下位关系。如图5所示,具体算法如下:
(1)开始处理用户输入的查询词,设置其为变量Word;
(2)在HowNet的语义词典表(dict)中查找出所有W_X项包含词Word的概念(义项),构建词Word对应的概念集合ConceptList,并设置一个初值为空的概念扩展集合ConceptExpandList;
(3)处理ConceptList的每一个概念,若还有未被处理的概念,从中任选一个并设为变量Concept,否则跳至步骤7;
(4)在Hownet的语义词典表(dict)中查找Concept里DEF项中的义原;
(5)对所查到的每一个义原,在HowNet的义原网中查找其邻近的扩展义原;
(6)在语义词典表(dict)中查找出DEF项包含扩展义原的概念,设为变量Concept_Expand并添加它到ConceptExpandList中,然后转至步骤3;
(7)对ConceptExpandList中所有扩展概念,取出它们W_X项中的词Word_Expand,并去重得到词Word的扩展词集Word_ExpandList;
(8)算法结束。
图6是查询复述模块流程图。(1)首先对查询语句中的查询词进行概念扩展,用扩展词替换到相应查询词位置上得到查询扩展语句的候选集合;(2)然后利用查询语句复述规则过滤掉不符合句子摘要层次语义的查询扩展语句,得到其复述语句;(3)最后将查询语句及其复述语句一起作为查询条件传给检索模块300。
假设用户输入的查询语句是                                               ,则利用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合:
Figure 203622DEST_PATH_IMAGE002
其中, 
Figure 745592DEST_PATH_IMAGE003
是经过查询语句摘要模块210处理之后查询语句中词的数量, 
Figure 824407DEST_PATH_IMAGE004
是扩展的查询语句的数量。
为了对扩展出来的查询语句进行过滤,如下四个方面的特征被选作为复述规则:(1)词性特征、(2)互信息特征、(3)基于Hownet的语义相似度特征、(4)基于词义消歧(WSD)的相似度特征。这四方面特征的详细阐述如下:
(1)词性特征:
扩展词和相应查询位置上的查询词应该具有相同的词性。
Figure DEST_PATH_IMAGE007
Figure 960608DEST_PATH_IMAGE008
其中
Figure 973564DEST_PATH_IMAGE009
代表词语
Figure 856069DEST_PATH_IMAGE010
的词性。
(2)基于词义消歧的语义相似度特征:
利用词义消歧方法确定查询语句中的每个查询词在《现代汉语大辞典(第五版)》中的释义。将每个查询词的释义串联起来构成查询语句的释义。利用TF-IDF给查询语句中每个释义词赋权重,并将查询语句释义写成向量的形式。通过计算查询语句向量和扩展查询语句向量的相似度来计算查询语句和扩展查询语句的相似度。
假设词语在词典中有m个义项, 
Figure 26467DEST_PATH_IMAGE012
Figure 464402DEST_PATH_IMAGE013
,...
Figure 698068DEST_PATH_IMAGE014
。采用M.Lesk提出的利用词典进行词义消歧的思想,可以确定其在查询语句中的释义。M.Lesk的方法可以简要描述如下:
假设多义词
Figure 170638DEST_PATH_IMAGE015
有m个义项: 
Figure 346404DEST_PATH_IMAGE016
,在词典中对应的定义分别为: ,每个定义可以被看成是一个可重复的单词集。如果在一个具体的文本c中出现时,选取某些上下文词
Figure 432806DEST_PATH_IMAGE018
作为区分
Figure 527277DEST_PATH_IMAGE015
语义的特征词 
Figure 939803DEST_PATH_IMAGE019
表示词
Figure 30119DEST_PATH_IMAGE020
在词典中的定义, 
Figure 211702DEST_PATH_IMAGE021
在词典中的定义也是一组可重复的单词集。如果
Figure 214424DEST_PATH_IMAGE021
有多个义项:
Figure 114247DEST_PATH_IMAGE022
,那么,
Figure 742674DEST_PATH_IMAGE023
。为了简化问题,一般忽略的语义区分。那么,对于给定的上下文c,通过如下公式计算每个义项的得分:
Figure 480451DEST_PATH_IMAGE024
得分最高的义项即为在该上下文中的词义。
将查询语句中每个词语的义项串联起来,构成对这样一个查询语句的文本表示: 
Figure 803165DEST_PATH_IMAGE025
。本系统用查询语句的文本表示的相似度来表征两个查询语句之间的相似度。两个查询语句之间的相似度可以通过向量空间模型来计算:
Figure 416199DEST_PATH_IMAGE026
Figure 25035DEST_PATH_IMAGE027
Figure 260844DEST_PATH_IMAGE028
其中,
Figure 271526DEST_PATH_IMAGE029
代表两个查询语句,Sim(D1, D2)代表查询语句的相似度, 
Figure 52531DEST_PATH_IMAGE030
代表查询语句的相似度。
(3)基于Hownet的语义相似度特征:
系统通过Hownet语义知识库可以计算得到扩展词和查询词之间的语义相似度特征。对查询语句和查询扩展语句相对应位置的词一一进行相似度计算,并进行线性加权可以得到查询语句和查询扩展语句的相似度特征。
Figure 210980DEST_PATH_IMAGE031
这里, 
Figure 922584DEST_PATH_IMAGE032
代表第i个查询词和相应位置上的查询扩展词通过Hownet计算得到词语之间的语义相似度, 则表示查询语句和查询扩展语句的语义相似度。
(4)互信息特征:
对任意一条扩展语句,利用其词语的互信息来表征语句的互信息特征,计算公式如下:
Figure 385423DEST_PATH_IMAGE035
Figure 448188DEST_PATH_IMAGE036
其中,
Figure 495779DEST_PATH_IMAGE037
是查询语句中查询词的数量,
Figure 805537DEST_PATH_IMAGE038
是词
Figure 686381DEST_PATH_IMAGE039
和词的互信息值,
Figure 641885DEST_PATH_IMAGE041
是词
Figure 935594DEST_PATH_IMAGE042
和词
Figure 228035DEST_PATH_IMAGE043
同时出现在一个句子中的概率,
Figure DEST_PATH_IMAGE044
Figure 960499DEST_PATH_IMAGE045
分别表示词
Figure 654785DEST_PATH_IMAGE039
和词
Figure 368663DEST_PATH_IMAGE040
出现的概率,则
Figure DEST_PATH_IMAGE046
是查询扩展语句的互信息值。
通过上述四条过滤规则,可以对每一条查询扩展语句进行打分,其打分公式如下:
其中,
Figure 622238DEST_PATH_IMAGE048
Figure 233348DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE050
均大于等于零,且满足+
Figure 416121DEST_PATH_IMAGE049
+
Figure 677338DEST_PATH_IMAGE050
=1。
Figure 893687DEST_PATH_IMAGE048
Figure 152630DEST_PATH_IMAGE049
Figure 969276DEST_PATH_IMAGE050
分别代表基于Hownet的语义相似度特征、互信息特征和基于词义消歧的语义相似度特征在复述过滤中的重要性。当Score值超过系统设定的阈值时,就可以判定此条扩展查询语句是查询语句的复述语句。
检索模块300是本系统提供给用户检索文本信息的模块,它包括查询模块310和排序模块320。
查询模块310在索引库400中查找所有匹配的文档信息,从匹配的文档信息中选择出满足查询要求的那部分文档信息作为结果集,并将结果集发送给排序模块320。
排序模块320用于对来自查询模块310的结果集进行排序。该模块根据查询词在篇章层次的潜在语义信息量、在文档中的出现频率,以及文档长度和文档的反转频率等因素进行排序。其打分公式如下:
Figure 706288DEST_PATH_IMAGE051
其中q为查询语句,d为文本,t为查询词; tf(tind)表示t在文档d中出现的词频;idf(t)表示t在多少篇文档中出现过;lengthNorm表示文档长度对结果的影响:文档越长,此值越小,文档越短,此值越大。coord(q,d)表示当一篇文档中包含的查询词越多,则此文档打分越高;queryNorm(q)计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的查询之间的分数可以比较;boost(t,q)表示相应查询词在文章中的潜在语义信息量,其值由下面公式计算得到。
Figure 42723DEST_PATH_IMAGE052
其中,为当前主题,T为主题集合,
Figure 510930DEST_PATH_IMAGE054
为在文档中查询词t对应相应主题的语义信息量,该信息在篇章层次语义处理模块600生成并保存。
通过对每个文档打分,量化地表现文档与查询的相关程度。最后把前若干(由用户指定或系统默认)位的结果优先返回给用户。
如图7所示,检索模块300的处理流程为:(1)接收直接来自用户的查询信息或经过句子摘要层次语义分析的查询信息;(2)在索引库中进行查询,返回与查询内容相匹配的所有文档信息,即获得结果集;(3)根据查询词在篇章层次的潜在语义信息量、在文档中的出现频率,以及文档长度以及文档的反转频率等因素进行排序。通过对每个文档打分,量化地表现文档与查询的相关程度,把得分高的文档排在结果集的前面。(4)最后将排序结果提交给结果集处理模块700。
篇章层次语义分析模块600是用于提取文档集中各个关键词的潜在语义信息和主题信息。它包括文本预处理模块610和语义建模模块620。
文本预处理模块610用于对数据服务器800提供的纯文本文件进行预处理,先将文本进行分词处理,分词算法与语义分析模块210采用的分词方式相同,这里就不再赘述;然后对分词之后的文本做去停用词处理,生成文章所对应的 “词袋”(无序的词汇集合)。去停用词处理的方法是将分词之后的文本与预先建立好的停用词表匹配,去掉文章中出现的停用词。“词袋”中的词都是对相应主题有语义关联的。
语义建模模块620对经过预处理之后的文本进行主题建模,提取文章中的主题语义信息,并量化地反映每个词与主题对应的语义关系。这里在系统中使用LDA(Latent Dirichlet Allocation)模型对文档建模。如图8所示,LDA是一种概率语义分析模型,其本质上是一个具有三层结构的贝叶斯模型。它描绘了“文档----主题----词”三层语义关系,即每个文档被看做若干个主题的组合,每个主题是词表上的一个多项式分布。LDA将文档和查询语句从词空间映射到语义空间(主题)上,可以潜在的描绘“词----文档”和“词----查询语句”的语义关系,从而描绘了文档与查询语句之间的潜在语义关系。
在实现的过程中,我们对文档进行LDA建模,生成文档中每个关键词对主题的概率分布
Figure 864682DEST_PATH_IMAGE054
,将其保存并传递给索引模块500。在建模的过程中,假设主题数为T,则文本d集合中词
Figure 508153DEST_PATH_IMAGE055
与主题
Figure 905636DEST_PATH_IMAGE056
之间潜在语义信息量,可如下表示:
其中
Figure 523492DEST_PATH_IMAGE058
是表示主题的变量,表明词
Figure 21470DEST_PATH_IMAGE055
取自该主题,
Figure 402903DEST_PATH_IMAGE059
是主题变量值为主题j时的概率,表示文本d集合中主题j的分布概率,
Figure 681438DEST_PATH_IMAGE060
是词
Figure 563943DEST_PATH_IMAGE055
属于主题j的概率,表示主题j中的词汇w的分布概率。
结果集处理模块700是用户查询显示的接口,它包括头信息显示模块710、反显模块720、回显模块730和分页处理模块740。
头信息显示模块710用于显示查询结果的提示信息,如果检索模块300返回的结果集不为空,则在页首显示查询用时和结果集中的文档数;如果检索模块300没有检索到匹配的结果,则显示结果不存在的提示信息。
反显模块720用于对检索模块300返回的文本文档结果集和索引库400的文档摘要中的关键词做强调突出处理。具体方法是:对原查询语句中的词加红色高亮,对复述语句中的查询扩展词加黄色高亮。
回显模块730用于显示返回给用户的快照和文档摘要信息。页面内容以标题、摘要的形式,按条罗列。标题为超链接形式,用户可以打开检索内容所在的原文。文档摘要显示原文中含有检索内容的一段摘要。具体形式类似于Google、百度等搜索引擎的返回形式。
分页处理模块740用于将结果集的多篇文档分页显示。页尾标注十页范围供用户选择。考虑到用户体验增强和检索速度的提升,每次翻页只返回当页文档的结果,不返回全部结果集。
     如图9所示,结果集处理模块700的处理流程为:(1)接收来自检索模块300递交的结果集;(2)在页首显示查询用时、返回结果数或查询结果不存在的提示信息;(3)从索引库400中获取结果集的文档摘要信息,对查询语句和复述语句中查询扩展词做反显处理,将标题和文档摘要与对应的源文档之间建立链接;(4)用户需要翻页显示其他结果时,再次从结果集中返回用户需要的相应数目和排名的文档。

Claims (5)

1.一种基于双层语义分析的全文检索系统,其特征在于:该系统包括查询信息接收模块(100)、句子摘要层次语义处理模块(200)、检索模块(300)、索引库(400)、索引模块(500)、篇章层次语义处理模块(600)、结果集处理模块(700)和数据服务器(800):
查询信息接收模块(100)用于接收用户输入的查询信息,并根据用户的选择将查询信息提交给句子摘要层次语义处理模块(200)进行查询句的摘要层次语义处理,或者直接请求检索模块(300)进行检索服务;
句子摘要层次语义处理模块(200)接收用户输入的查询语句,并依赖数据服务器(800)提供的知识数据词典和规则库对查询语句进行语义处理:首先对查询语句进行摘要化,将查询语句进行分词处理,提取查询关键词;之后对查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句的复述过滤规则过滤掉不符合句子摘要层次语义的查询扩展语句,最后将查询语句及其扩展语句一起提交给检索模块(300)进行检索;
检索模块(300)为用户提供检索系统的使用界面,并提供准确、完备的检索服务;检索模块(300)负责接收查询信息接收模块(100)的指令和句子摘要层次语义处理模块(200)处理之后的结果;根据查询内容在索引库(400)中进行查询匹配,返回和查询语句匹配的所有文档信息,根据系统的文档打分算法,对返回的所有文档进行排序,最后将排序后的结果集递交给结果集处理模块(700);
索引库(400)用于存储由索引模块(500)对文本文件及其对应篇章层次语义信息建立的索引;索引库(400)还根据检索模块(300)提交的查询请求在索引中快速检索和排序,并返回检索模块(300)所提交请求的对应结果;
索引模块(500)用于接收数据服务器(800)提供的文本文件集和相关信息,以及接收篇章层次语义处理模块(600)提供的对应文档中的篇章层次语义信息,对文本内容,标题和自定义信息处理得到索引词,利用索引词及其对应的语义信息和文档相关信息建立索引;
篇章层次语义处理模块(600)接收数据服务器(800)提供的文本文件集和相关信息,通过对其进行篇章层次语义分析,提取文档的篇章层次语义信息,并将其提交给索引模块(500);
结果集处理模块(700)用于接收来自检索模块(300)的结果集,并根据索引库(400)的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理;
数据服务器(800)用于存储知识数据词典、规则库和文本文件集。
2.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述句子摘要层次语义处理模块(200)包括查询语句摘要模块(210)、查询复述模块(220);
查询语句摘要模块(210)采用最大逆向匹配分词方法对用户输入的查询语句进行切分,再通过句法分析得到句法结构树,根据词性和词义去掉对查询句语义相关度不高的词,得到查询语句的摘要;
查询复述模块(220)首先对查询语句中查询词进行概念扩展,用扩展词替换到相应的查询词位置上得到候选的查询语句扩展集合,然后利用查询语句复述规则过滤掉不符合句子摘要层次语义的查询扩展语句,得到其复述语句,最后将查询语句及其复述语句一起作为查询条件传给检索模块(300);其中,复述规则选取了四个方面的特征,词性的特征、互信息特征、基于Hownet的语义相似度特征和基于词义消歧的相似度特征。
3.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述检索模块(300)包括查询模块(310)和排序模块(320);
查询模块(310)在索引库(400)中查找所有匹配的文档信息,从匹配的文档信息中选择出满足查询要求的那部分文档信息作为结果集,并将结果集发送给排序模块(320);
排序模块(320)用于对来自查询模块(310)的结果集进行排序,根据查询词在篇章层次的潜在语义信息量、在文档中的出现频率,以及文档长度和文档的反转频率因素进行排序。
4.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述篇章层次语义处理模块(600)包括文本预处理模块(610)和语义建模模块(620);
文本预处理模块(610)用于对数据服务器(800)提供的纯文本文件进行预处理,先将文本进行分词处理,分词算法采用最大逆向匹配分词方法;然后对分词之后的文本做去停用词处理,生成文章所对应的词袋,即无序的词汇集合,去停用词处理的方法是将分词之后的文本与预先建立好的停用词表匹配,去掉文章中出现的停用词;
语义建模模块(620)对经过预处理之后的文本使用LDA模型对文档建模,提取文章中的主题语义信息,并量化地反映每个词与主题对应的语义关系,将其保存并提交给索引模块(500)。
5.根据权利要求1所述的基于双层语义分析的全文检索系统,其特征在于:所述结果集处理模块(700)是用户查询显示的接口,包括头信息显示模块(710)、反显模块(720)、回显模块(730)和分页处理模块(740);
头信息显示模块(710)用于显示查询结果的提示信息,如果检索模块(300)返回的结果集不为空,则在页首显示查询用时和结果集中的文档数;如果检索模块(300)没有检索到匹配的结果,则显示查找结果不存在的提示信息;
反显模块(720)用于对检索模块(300)返回的文本文档结果集和索引库(400)中的文档摘要中的关键词做突出强调处理;
回显模块(730)用于显示返回给用户的快照和文档摘要信息,每块文档摘要信息都包含有突出显示的查询词或复述语句中的查询扩展词;并对检索内容的源文件进行链接,读取源文件到页面;
    分页处理模块(740)用于将结果集的多篇文档分页显示,在页尾标注页码范围供用户选择,或者可由用户输入页码进行跳转。
CN201310061684.1A 2013-02-27 2013-02-27 基于双层语义分析的全文检索系统 Expired - Fee Related CN103136352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310061684.1A CN103136352B (zh) 2013-02-27 2013-02-27 基于双层语义分析的全文检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310061684.1A CN103136352B (zh) 2013-02-27 2013-02-27 基于双层语义分析的全文检索系统

Publications (2)

Publication Number Publication Date
CN103136352A true CN103136352A (zh) 2013-06-05
CN103136352B CN103136352B (zh) 2016-02-03

Family

ID=48496178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310061684.1A Expired - Fee Related CN103136352B (zh) 2013-02-27 2013-02-27 基于双层语义分析的全文检索系统

Country Status (1)

Country Link
CN (1) CN103136352B (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383697A (zh) * 2013-06-26 2013-11-06 百度在线网络技术(北京)有限公司 确定对象标题的对象表征信息的方法与设备
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN104636487A (zh) * 2015-02-26 2015-05-20 湖北光谷天下传媒股份有限公司 一种广告信息管理方法
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105930352A (zh) * 2016-04-05 2016-09-07 扬州大学 一种面向众包任务的探索性搜索方法
CN106156021A (zh) * 2015-02-27 2016-11-23 珀斯特传媒有限公司 时空关联信息生成方法和执行其的服务器
CN106484677A (zh) * 2016-09-30 2017-03-08 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
CN106649778A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的交互方法和装置
CN106951420A (zh) * 2016-01-06 2017-07-14 富士通株式会社 文献搜索方法及设备、作者搜索方法及设备
CN107066487A (zh) * 2016-12-27 2017-08-18 甘肃万维信息技术有限责任公司 一种基于条件加权评分排序的搜索方法
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
CN107766400A (zh) * 2017-05-05 2018-03-06 平安科技(深圳)有限公司 文本检索方法及系统
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN107861943A (zh) * 2017-10-20 2018-03-30 中国地质大学(武汉) 一种从文档集中快速提取有用数据的方法
CN108804410A (zh) * 2017-05-05 2018-11-13 北京数洋智慧科技有限公司 一种基于人工智能文本语义相似度分析的语义解释方法
CN109214004A (zh) * 2018-09-06 2019-01-15 广州知弘科技有限公司 基于机器学习的大数据处理方法
CN109460449A (zh) * 2018-09-06 2019-03-12 广州知弘科技有限公司 并行化数据分析方法
CN109670012A (zh) * 2019-02-20 2019-04-23 湖北理工学院 一种基于物联网的电力土建基础验收的指导系统及方法
CN109804437A (zh) * 2016-10-11 2019-05-24 皇家飞利浦有限公司 以患者为中心的临床知识发现系统
CN109948044A (zh) * 2017-12-14 2019-06-28 微软技术许可有限责任公司 基于向量最近邻搜索的文档查询
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
CN109977294A (zh) * 2019-04-03 2019-07-05 三角兽(北京)科技有限公司 信息/查询处理装置、查询处理/文本查询方法、存储介质
CN110199354A (zh) * 2017-01-09 2019-09-03 金善中 生物体系信息检索系统以及方法
CN110673905A (zh) * 2018-07-03 2020-01-10 上海博泰悦臻网络技术服务有限公司 渲染应用背景的方法及系统
CN110909541A (zh) * 2019-11-08 2020-03-24 杭州依图医疗技术有限公司 指令生成方法、系统、设备和介质
CN111310477A (zh) * 2020-02-24 2020-06-19 成都网安科技发展有限公司 文档查询方法及装置
WO2020140620A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及存储介质
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111767453A (zh) * 2020-06-09 2020-10-13 上海森亿医疗科技有限公司 基于语义网的查询指令生成方法、装置、设备和存储介质
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112434070A (zh) * 2020-12-14 2021-03-02 四川长虹电器股份有限公司 一种基于相似度算法的分页查询方法
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法
CN114298055A (zh) * 2021-12-24 2022-04-08 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114385890A (zh) * 2022-03-22 2022-04-22 深圳市世纪联想广告有限公司 互联网舆情监控系统
CN115329767A (zh) * 2022-10-11 2022-11-11 北京云迹科技股份有限公司 抽取文本实体的方法、装置、电子设备及存储介质
CN116243833A (zh) * 2023-05-08 2023-06-09 北京国信新网通讯技术有限公司 一种基于云数据的电子政务平台沟通管理方法及系统
CN116414939A (zh) * 2023-06-06 2023-07-11 南京国准数据有限责任公司 基于多维度数据的文章生成方法
CN116756347A (zh) * 2023-08-21 2023-09-15 中国标准化研究院 一种基于大数据的语义信息检索方法
CN109804437B (zh) * 2016-10-11 2024-06-11 皇家飞利浦有限公司 以患者为中心的临床知识发现系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932816A (zh) * 2006-09-30 2007-03-21 华中科技大学 基于密文的全文检索系统
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
US20090106203A1 (en) * 2007-10-18 2009-04-23 Zhongmin Shi Method and apparatus for a web search engine generating summary-style search results
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN101620607A (zh) * 2008-07-01 2010-01-06 全国组织机构代码管理中心 全文检索方法及系统
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN102915381A (zh) * 2012-11-20 2013-02-06 公安部第三研究所 基于多维语义的可视化网络检索呈现系统及呈现控制方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932816A (zh) * 2006-09-30 2007-03-21 华中科技大学 基于密文的全文检索系统
US20090106203A1 (en) * 2007-10-18 2009-04-23 Zhongmin Shi Method and apparatus for a web search engine generating summary-style search results
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN101620607A (zh) * 2008-07-01 2010-01-06 全国组织机构代码管理中心 全文检索方法及系统
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN102915381A (zh) * 2012-11-20 2013-02-06 公安部第三研究所 基于多维语义的可视化网络检索呈现系统及呈现控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张茂元 等: "一种基于语义匹配的Web信息提取方法研究", 《计算机工程与应用》, 31 December 2006 (2006-12-31) *

Cited By (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103383697B (zh) * 2013-06-26 2017-02-15 百度在线网络技术(北京)有限公司 确定对象标题的对象表征信息的方法与设备
CN103383697A (zh) * 2013-06-26 2013-11-06 百度在线网络技术(北京)有限公司 确定对象标题的对象表征信息的方法与设备
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN103678576B (zh) * 2013-12-11 2016-08-17 华中师范大学 基于动态语义分析的全文检索系统
CN103838833B (zh) * 2014-02-24 2017-03-15 华中师范大学 基于相关词语语义分析的全文检索系统
CN103838833A (zh) * 2014-02-24 2014-06-04 华中师范大学 基于相关词语语义分析的全文检索系统
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN104978320B (zh) * 2014-04-02 2018-11-02 东华软件股份公司 一种基于相似度的知识推荐方法和设备
CN105320642A (zh) * 2014-06-30 2016-02-10 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN105320642B (zh) * 2014-06-30 2018-08-07 中国科学院声学研究所 一种基于概念语义基元的文摘自动生成方法
CN104636487A (zh) * 2015-02-26 2015-05-20 湖北光谷天下传媒股份有限公司 一种广告信息管理方法
CN106156021A (zh) * 2015-02-27 2016-11-23 珀斯特传媒有限公司 时空关联信息生成方法和执行其的服务器
CN106951420A (zh) * 2016-01-06 2017-07-14 富士通株式会社 文献搜索方法及设备、作者搜索方法及设备
CN105930352A (zh) * 2016-04-05 2016-09-07 扬州大学 一种面向众包任务的探索性搜索方法
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
CN109964224A (zh) * 2016-09-22 2019-07-02 恩芙润斯公司 用于语义信息可视化和指示生命科学实体之间显著关联的时间信号推断的系统、方法和计算机可读介质
CN106484677A (zh) * 2016-09-30 2017-03-08 北京林业大学 一种基于最小信息量的汉语快速分词系统及方法
CN109804437A (zh) * 2016-10-11 2019-05-24 皇家飞利浦有限公司 以患者为中心的临床知识发现系统
CN109804437B (zh) * 2016-10-11 2024-06-11 皇家飞利浦有限公司 以患者为中心的临床知识发现系统
CN107066487A (zh) * 2016-12-27 2017-08-18 甘肃万维信息技术有限责任公司 一种基于条件加权评分排序的搜索方法
CN106649778A (zh) * 2016-12-27 2017-05-10 北京百度网讯科技有限公司 基于深度问答的交互方法和装置
CN106649778B (zh) * 2016-12-27 2020-03-03 北京百度网讯科技有限公司 基于深度问答的交互方法和装置
CN110199354B (zh) * 2017-01-09 2023-08-04 金善中 生物体系信息检索系统以及方法
CN110199354A (zh) * 2017-01-09 2019-09-03 金善中 生物体系信息检索系统以及方法
WO2018201668A1 (zh) * 2017-05-05 2018-11-08 平安科技(深圳)有限公司 文本检索方法、电子装置、计算机可读存储介质及系统
CN108804410A (zh) * 2017-05-05 2018-11-13 北京数洋智慧科技有限公司 一种基于人工智能文本语义相似度分析的语义解释方法
CN107766400A (zh) * 2017-05-05 2018-03-06 平安科技(深圳)有限公司 文本检索方法及系统
CN108804410B (zh) * 2017-05-05 2022-03-29 北京数洋智慧科技有限公司 一种基于人工智能文本语义相似度分析的语义解释方法
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法
CN107861943A (zh) * 2017-10-20 2018-03-30 中国地质大学(武汉) 一种从文档集中快速提取有用数据的方法
CN109948044A (zh) * 2017-12-14 2019-06-28 微软技术许可有限责任公司 基于向量最近邻搜索的文档查询
CN110673905A (zh) * 2018-07-03 2020-01-10 上海博泰悦臻网络技术服务有限公司 渲染应用背景的方法及系统
CN109214004A (zh) * 2018-09-06 2019-01-15 广州知弘科技有限公司 基于机器学习的大数据处理方法
CN109460449A (zh) * 2018-09-06 2019-03-12 广州知弘科技有限公司 并行化数据分析方法
WO2020140620A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 基于智能决策的文本分类方法、装置、服务器及存储介质
CN109670012A (zh) * 2019-02-20 2019-04-23 湖北理工学院 一种基于物联网的电力土建基础验收的指导系统及方法
CN109977294A (zh) * 2019-04-03 2019-07-05 三角兽(北京)科技有限公司 信息/查询处理装置、查询处理/文本查询方法、存储介质
CN109977294B (zh) * 2019-04-03 2020-04-28 三角兽(北京)科技有限公司 信息/查询处理装置、查询处理/文本查询方法、存储介质
CN110909541A (zh) * 2019-11-08 2020-03-24 杭州依图医疗技术有限公司 指令生成方法、系统、设备和介质
CN111310477A (zh) * 2020-02-24 2020-06-19 成都网安科技发展有限公司 文档查询方法及装置
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111540353B (zh) * 2020-04-16 2022-11-15 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111767453A (zh) * 2020-06-09 2020-10-13 上海森亿医疗科技有限公司 基于语义网的查询指令生成方法、装置、设备和存储介质
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112257419B (zh) * 2020-11-06 2021-05-28 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN112434070A (zh) * 2020-12-14 2021-03-02 四川长虹电器股份有限公司 一种基于相似度算法的分页查询方法
CN113486156A (zh) * 2021-07-30 2021-10-08 北京鼎普科技股份有限公司 一种基于es的关联文档检索方法
CN114298055B (zh) * 2021-12-24 2022-08-09 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114298055A (zh) * 2021-12-24 2022-04-08 浙江大学 基于多级语义匹配的检索方法、装置、计算机设备和存储介质
CN114385890B (zh) * 2022-03-22 2022-05-20 深圳市世纪联想广告有限公司 互联网舆情监控系统
CN114385890A (zh) * 2022-03-22 2022-04-22 深圳市世纪联想广告有限公司 互联网舆情监控系统
CN115329767A (zh) * 2022-10-11 2022-11-11 北京云迹科技股份有限公司 抽取文本实体的方法、装置、电子设备及存储介质
CN115329767B (zh) * 2022-10-11 2023-01-06 北京云迹科技股份有限公司 抽取文本实体的方法、装置、电子设备及存储介质
CN116243833A (zh) * 2023-05-08 2023-06-09 北京国信新网通讯技术有限公司 一种基于云数据的电子政务平台沟通管理方法及系统
CN116414939A (zh) * 2023-06-06 2023-07-11 南京国准数据有限责任公司 基于多维度数据的文章生成方法
CN116414939B (zh) * 2023-06-06 2023-09-26 南京国准数据有限责任公司 基于多维度数据的文章生成方法
CN116756347A (zh) * 2023-08-21 2023-09-15 中国标准化研究院 一种基于大数据的语义信息检索方法
CN116756347B (zh) * 2023-08-21 2023-10-27 中国标准化研究院 一种基于大数据的语义信息检索方法

Also Published As

Publication number Publication date
CN103136352B (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
CN103136352B (zh) 基于双层语义分析的全文检索系统
US8463593B2 (en) Natural language hypernym weighting for word sense disambiguation
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
US6678677B2 (en) Apparatus and method for information retrieval using self-appending semantic lattice
US8346534B2 (en) Method, system and apparatus for automatic keyword extraction
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
US8468156B2 (en) Determining a geographic location relevant to a web page
CA2536265C (en) System and method for processing a query
CN100595763C (zh) 基于自然语言的全文检索系统
US8712758B2 (en) Coreference resolution in an ambiguity-sensitive natural language processing system
KR101522049B1 (ko) 모호성 민감 자연 언어 처리 시스템에서의 동일 지시어 분석
US20090292685A1 (en) Video search re-ranking via multi-graph propagation
CN101377777A (zh) 一种自动问答方法和系统
Sun et al. Mining dependency relations for query expansion in passage retrieval
CN111831786A (zh) 完善主题词的全文数据库精准高效检索方法
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
Zhang Start small, build complete: Effective and efficient semantic table interpretation using tableminer
Hu et al. Intelligent information retrieval applying automatic constructed fuzzy ontology
Pradhan et al. Building a Foundation System for Producing Short Answers to Factual Questions.
RU2618375C2 (ru) Расширение возможностей информационного поиска
Kanhabua Time-aware approaches to information retrieval
Sharma et al. Improved stemming approach used for text processing in information retrieval system
Gure et al. Intelligence Information Retrieval System Modeling for Afaan Oromo
Tuni et al. Afaan Oromo Hybrid Modelling: A Case based Optimized Intelligence in Information Retrieval System’s Localization
Danesh et al. A distributed N-gram indexing system to optimizing Persian information retrieval

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160203

Termination date: 20190227

CF01 Termination of patent right due to non-payment of annual fee