CN103838833B - 基于相关词语语义分析的全文检索系统 - Google Patents
基于相关词语语义分析的全文检索系统 Download PDFInfo
- Publication number
- CN103838833B CN103838833B CN201410061245.5A CN201410061245A CN103838833B CN 103838833 B CN103838833 B CN 103838833B CN 201410061245 A CN201410061245 A CN 201410061245A CN 103838833 B CN103838833 B CN 103838833B
- Authority
- CN
- China
- Prior art keywords
- semantic
- module
- words
- document
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 claims description 28
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000012163 sequencing technique Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000013549 information retrieval technique Methods 0.000 abstract 1
- 230000000875 corresponding effect Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于信息检索技术,提供一种基于相关词语语义分析的全文检索系统,包括查询信息接收模块、基于相关词语的概念语义分析模块、语义知识库模块、检索模块、索引库、索引模块、基于相关词语的主题语义分析模块、结果集处理模块和数据服务器。本发明系统是对传统互联网搜索引擎的改进,能够对文档进行基于相关词语的概念语义分析和基于相关词语的主题语义分析,从而使用户可得到更准确、更全面、更智能化的查询结果。
Description
技术领域
本发明属于信息检索技术,具体涉及一种基于相关词语语义分析的全文检索系统。
背景技术
随着社会的快速发展,科学技术的不断进步,人们所能接触的信息也成几何级的增长,这些信息不断累积便形成了我们熟知的“海量数据”。那么如何在海量数据中准确而快速地检索到用户需要的信息成为了互联网信息时代所面临的机遇和挑战,搜索引擎的出现在一定程度上解决了这个问题。传统的搜索引擎主要采用的技术是对需要检索的文档集进行预处理如中文分词,去停用词等,并对文档集建立倒排索引,然后对用户提交的查询词或者查询语句进行检索,并通过计算它们与文档之间的相似度来排序检索到的文档,最后将结果返回给用户。
一直以来,搜索引擎在用户提交检索请求的时候只是把用户输入的查询语句和文档集进行一个简单的匹配,然后以简单的统计学方法来对文档集进行检索排序。但这远远达不到用户的需求,也不能很好的挖掘出文档中每个词对文档主题的贡献度,尽管有些搜索引擎可以根据用户需求进行简单的扩展或者个性化的检索。但是这些都没有挖掘出文档中深层次的语义信息,这使得很多在字面形式上和查询无关但是在语义上和查询语句很紧密的文档没有被检索出来,从而造成了搜索引擎检索的不全面性和不完整性。同样,只是仅仅从字面形式来对用户输入的查询语句和文档进行匹配使得用户得到的结果往往不是自己所需要的。尤其是汉语博大精深,很多字或者词具有多种含义,在不同的语境中表达着不同的含义,而且有些含义差别很大,以上这些都是搜索引擎在搜索时遇到的瓶颈。
随着信息检索技术的发展,为了很好的满足用户的需求,简单的从统计的角度来对查询语句进行匹配显然已经不能满足时代的需求了。人们需要搜索引擎能够智能化地去理解用户查询语句的内在含义,同时也能够充分地去挖掘文档中词语对文档主题的贡献度,从语义贡献度的角度对查询语句和文档进行智能化地匹配,这样能够给用户一个更准确、更全面和更人性化的查询结果。为了提高搜索引擎的检索性能,我们在检索系统中采用基于相关词语的概念语义分析方法和基于相关词语的主题语义分析方法,将传统的基于关键字或者词匹配的检索系统提升到基于相关词语的语义分析基础上,这是提高检索准确率的关键之处。
发明内容
本发明是为了克服上面所说的传统搜索引擎的不足,提出一种基于相关词语语义分析的全文检索系统。该系统采用了基于相关词语的概念语义分析方法和基于相关词语的主题语义分析方法,能够准确分析和计算相关词语与语义标签之间的语义相关量化关系,这里语义标签是指代语义中的一个知识单元,也即概念。而且该系统还能够得到相关词语对文档主题的贡献度,从而使搜索引擎能很好地理解文档的语义和查询语句的语义而不是简单地统计词频和查询匹配,进而使搜索引擎更准确地理解用户的需求,返回给用户更加全面、智能的检索结果。该系统是对传统互联网搜索引擎的改进,能够对文档进行基于相关词语的概念语义分析和基于相关词语的主题语义分析,从而使用户可得到更准确、更全面、更智能化的查询结果。
本发明是由以下技术方案实现的:基于相关词语语义分析的全文检索系统,本系统包括查询信息接收模块、基于相关词语的概念语义分析模块、语义知识库模块、检索模块、索引库、索引模块、基于相关词语的主题语义分析模块、结果集处理模块和数据服务器。
查询信息接收模块用于接收用户输入的查询语句,对查询语句进行中文分词和去停用词处理之后,将其提交给基于相关词语的概念语义分析模块并且提交给检索模块进行检索服务。
基于相关词语的概念语义分析模块采用基于相关词语的概念语义分析方法,得到词语之间的语义相关量化关系,并提交给语义知识库模块。
语义知识库模块存储词语及其相关词群和贡献度信息。从查询信息接收模块中得到用户输入的查询词,在语义知识库中检索,将查询词对应的相关词群及贡献度返回给基于相关词语的概念语义分析模块。
检索模块为用户提供检索服务。检索模块负责接收查询信息接收模块的指令,将查询语句提交给索引库进行查询匹配、返回所有与查询语句匹配的文档信息,并对检索结果集进行排序处理,将排序后的结果集提交给结果集处理模块。
索引库存储由索引模块对文档建立的索引,索引库还根据检索模块提交的查询请求在索引中快速检索,并将结果返回给检索模块。
索引模块接收数据服务器提供的文档,对文档内容,标题和自定义信息进行中文分词和去停用词处理得到索引词,利用索引词和文档相关信息建立索引。
基于相关词语的主题语义分析模块采用基于相关词语的主题语义分析方法,通过对文档进行主题语义分析,得到每个词与文档之间的语义相关量化关系,即对文档主题的贡献度,最后把这些运用到检索中提高搜索引擎的检索效果。
结果集处理模块用于接收来自检索模块的结果集,并根据索引库的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理。
数据服务器用于存储知识数据词典,如中文分词词典,停用词表等、文档集,为基于相关词语的概念语义分析模块提供数据资源和管理服务,为基于相关词语的主题语义分析模块和索引模块提供文档集。
本发明系统针对目前搜索引擎不能很好地理解文档中词对文档主题的语义贡献度的缺点和不能智能化地反馈搜索结果而提出了以下两个方面的解决办法:基于相关词语的概念语义分析方法和基于相关词语的主题语义分析方法。通过从文档中词语的位置关系获取相关词语对语义标签的贡献度和对文档相关词语的主题进行语义分析,得到相关词语对主题的贡献度,进而找到在语义上与查询语句相关的文档,从而使搜索引擎很好地理解文档的语义而不是通过简单的统计词频去匹配。这使得搜索引擎能更好地理解用户的需求,给用户更加全面、智能的结果反馈。具体而言,本发明具有如下特点:
(1)查全率高:该系统能对相关词语进行概念语义分析,不同于传统搜索引擎在统计的基础上进行查找,该系统能够在概念语义层次上对查询进行匹配,避免了词语对文档贡献度的丢失带来的影响,从而提高了检索的查全率。
(2)查准率高:该系统通过对文档进行主题语义相关分析,对文档主题信息进行量化分析,返回语义上最相关的检索结果文档,给用户提供最准确的检索结果,实现查询语句与检索结果文档的准确匹配,从而提高检索的查准率。
(3)智能化高:通过相关词语的主题语义分析,该系统能够对相关词语进行主题语义分析得到相关词语对文档主题的贡献度,准确理解用户的查询含义。同时系统通过相关词语的主题语义分析,能够准确理解文档的主题信息,消除掉不符合语义的检索结果。通过概念和主题相结合的语义分析,检索系统能够理解查询语句和文档的语义,最终检索出准确合理的结果,满足用户的检索需求。
附图说明
图1是本发明基于相关词语语义分析的全文检索系统的体系结构图。
图2是本发明基于相关词语语义分析的全文检索系统的模块结构示意图。
图3是本发明中查询信息接收模块的工作流程图。
图4是本发明中基于相关词语的概念语义分析模块流程图。
图5是本发明中基于相关词语的概念语义分析模块中相关词语概念语义获取流程图。
图6是本发明中检索模块的工作流程图。
图7是本发明中基于相关词语的主题语义分析模块中文档层次语义处理的概率模型图。
图8是本发明中结果集处理模块的工作流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。
如图1所示,本发明提供的基于相关词语语义分析的全文检索系统包括查询信息接收模块100、基于相关词语的概念语义分析模块200、语义知识库300、检索模块400、索引库500、索引模块600、基于相关词语的主题语义分析模块700、结果集处理模块800和数据服务器900。
查询信息接收模块100用于接收用户输入的查询信息并进行一定的规范化处理,如中文分词、去停用词等,然后请求检索模块400进行检索服务。
如图3所示,查询信息接收模块100的处理流程为:(1)用户输入查询语句,提交查询请求;(2)系统将用户查询请求提交给检索模块400。
基于相关词语的概念语义分析模块200通过对从数据服务器900得到的文档运用基于相关词语的概念语义分析方法得到相关词对语义标签的贡献度,把它们提交到语义知识库模块300,然后计算文档中词的词频和词的反文档频率的乘积的大小,得到其中乘积较大的几个词,从语义知识库模块300中查找这几个词对应的相关词,将它们作为基于相关词语的主题语义分析模块700的输入,最后通过基于相关词语的主题语义分析得到了文档的每一个词在这些主题上的分布,从而达到充分理解文档含义的目的。
语义知识库300存储词语及其相关词群和贡献度信息。对查询语句语义处理模块200提交的查询词,在库中检索,将查询词对应的相关词及贡献度返回给基于相关词语的概念语义分析模块200。
检索模块400为用户提供检索系统的使用界面,并提供准确、完备的检索服务;查询模块410负责接收查询信息接收模块100的指令;根据查询内容在索引库500中进行查询匹配,返回与查询语句匹配的所有文档信息,根据系统的文档排序打分算法(系统使用Lucene的文档打分算法并融合基于相关词语的主题语义分析模块700得到的相关词语对文档贡献度的加权),对返回的所有文档进行排序,最后将排序后的结果集递交给结果集处理模块800。
索引库500用于存储由索引模块600对文档及其对应主题相关信息建立的索引,索引库500还根据检索模块400提交的查询请求在索引中快速检索和排序,并返回检索模块400所提交请求的对应结果。
索引模块600用于接收数据服务器900提供的文档,并接收基于相关词语的主题语义分析模块700提供的词语对文档的语义贡献度,对文档内容,标题和自定义信息处理得到索引词,对索引词和文档相关信息建立索引。
基于相关词语的主题语义分析模块700接收数据服务器900提供的文档集,通过对其进行相关词语的主题语义分析,提取文档层次词语对文档语义贡献度,并将其提交给索引模块600。
结果集处理模块800用于接收来自检索模块400的结果集,并根据索引库500的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理。
数据服务器900用于存储文档集,为基于相关词语的概念语义分析模块200提供数据资源和管理服务,为索引模块600和基于相关词语的主题语义分析模块700提供数据支持。
下面分别举例对基于相关词语的概念语义分析模块200、检索模块400、基于相关词语的主题语义分析模块700和结果集处理模块800作进一步的详细说明。
如图2所示,基于相关词语的概念语义分析模块200包括文档预处理模块210和语义相关度获取模块220。
文本预处理模块210对文档进行中文分词、去停用词(包括标点、数字、单字和其它一些无意义的词)以及文档特征提取和词频统计、文档向量化等操作。这里中文分词都是采用双向最大匹配分词算法。
该模块涉及的双向最大匹配分词算法的思想是:(1)从左向右取待切分句子的m个字符作为匹配字段,m为字典中最长词条个数。(2)查找词典进行匹配,若匹配成功,则将匹配字段作为一个词切分出来,否则将匹配字段的最后一个字去掉,进行再次匹配,重复以上过程,直到切分出所有词为止。(3)按照上面的逆向进行匹配,若匹配不成功,将匹配字段的前一个字去掉,重复以上过程,直到切分出所有词为止。(4)将(1)、(2)和(3)的结果进行比较,从而决定正确的分词。
语义相关度获取模块220,采用基于相关词语的概念语义分析方法来获取词对语义标签的语义贡献度。
在基于相关词语的概念语义分析方法中,我们把传统的词语相关度获取方法与词与词之间位置关系进行了有效的融合。充分考虑了词与词之间的位置和它们之间相关贡献度的关系。
传统的词语相关度获取方法认为人们遇到一个新概念(知识)时,往往是将存储在人脑中已有的概念与新碰到的概念建立起一定的联系,这种联系在一定程度上反映在词与词之间,词与词之间的这种紧密的关系就是词对语义标签的贡献度。
首先需要说明的是我们是通过从网络百科全书中获取关联语义知识来获取词对语义标签的贡献度的。
传统的方法流程如下:
(1)用户在浏览词条解释正文时点击正文当中的内部链接即可链接到其他词条的解释页面,我们认为这些词条和被解释词条在语义上是相关的,并将一个词条的内部链接词条记为Inner。
(2)词条与被解释的词条在语义上是有关联的,将其记为UserRelate,在百科中一个词条可以属于多个开放分类,这些类别信息共同反映了这个词条的语义知识。
(3)百科词条L自身属于的开放分类集合,该词解释正文中所有内部链接词条所属于的开放分类的集合与用户添加的该词条的相关词条所属于的开放分类的集合的并集定义为词条L的开放分类语义知识集合。
(4)相关词语贡献度的计算可以通过比较语义词L的开放分类语义知识集合与其相关词语的开放分类语义知识集合而得到。
(5)在计算语义词L与相关词语之间的语义关联度时,首先定义一个开放分类语义知识向量v,开放分类语义知识向量的维数每一维代表一个开放分类,记为。语义词L的开放分类语义知识向量在p维上的值即为l的开放分类语义知识集合中对应开放分类出现的频次。对相关词开放分类语义知识向量也有同样的定义。
(6)最后相关词语与语义词l的语义关联度公式如下:
基于相关词语的概念语义分析方法如下:
众所周知,词频只是从统计学上反映了这个词在文档中出现的频率,链入链出也仅仅反映了和这个词相关的其他词,它们都没有考虑同一文档中词与词之间在距离上的关联度,我们认为两个词在语义上的关系很大程度上和它们在文档中的距离成反比即两个词距离越近表示这两个词之间的语义相关度越高,如何定量的去刻画它们之间距离和相关度的关系,我们提出以下公式:
其中t,q分别表示某两个词,p表示词在文档中所处的位置,即为通过计算两个词之间位置得到的两个词之间相关度的值。这样,就把词和词之间的位置对它们相关贡献度的影响纳入其中。
我们把传统方法和词在上下文中的相关度进行有效的融合,得到语义相关度公式如下:
其中与之和为1且,都大于0,这里我们取= 0.1,表示距离对贡献度的影响要大一些。运用基于相关词语的概念语义分析方法,我们就得到概念的语义相关度。它们可以形式化的表示如下:
其中是语义标签(即概念),在模块中提取了n个语义标签,是相关词语,是相关词语对语义标签的贡献度,m表示一个语义标签对应的相关词的个数。
图4是基于相关词语的概念语义分析模块流程图,具体过程如下:(1)对查询语句进行中文分词和去停用词;(2)提取用户输入的查询词;(3)采用基于相关词语的概念语义分析方法得到查询词对语义标签的贡献度;(4)将查询词和它对应的语义标签以及贡献度存于语义知识库300。
基于相关词语的概念语义分析模块200中,我们首先通过查询信息接收模块100来提取出用户的查询词,然后在语义知识库300中去查询它们对应的相关词以及对语义标签的贡献度,然后通过如下公式来选取对语义标签贡献度最大的词语:
其中m为总的语义词的个数,n为语义标签的个数, 为第i个词对第j语义标签的权重,如果词语对语义标签贡献度大于就把它加入到相关词集合里,并且得到的结果将作为基于相关词语的主题语义分析模块700的输入。
图5是基于相关词语的概念语义分析模块中相关词语概念语义获取流程图。具体过程如下:(1)对查询语句进行中文分词和去停用词;(2)提取用户输入的查询词;(3)根据查询词在语义知识库300中查找对应的相关词及其对语义标签的贡献度。
检索模块400是本系统提供给用户检索文档信息的模块,它包括查询模块410和排序模块420。
查询模块410从索引库500中按检索打分公式查找所有匹配的文档信息,从匹配的文档信息中选择出满足查询要求的那部分文档信息作为结果集,并将结果集发送给排序模块420。
排序模块420用于对来自查询模块410的结果集进行排序。该模块根据查询词在概念语义层次、主题语义层次对文档贡献度、在文档中的出现频率,以及文档长度和文档的反转频率等因素进行排序。其排序打分公式如下:
其中q为查询语句,d为文本,t为查询词;表示t在文档d中出现的词频;表示t在多少篇文档中出现过;表示文档长度对结果的影响,文档越长,此值越小,文档越短,此值越大。表示当一篇文档中包含的查询词越多,则此文档排序打分越高,计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的查询之间的分数可以比较,表示相应查询词在文档中的词语对文档贡献度,其值由下面公式计算得到。
其中,为当前主题,T为主题集合,为在文档中查询词t对应相应主题的词语对文档贡献度,该信息在基于相关词语的主题语义分析模块700生成并保存。
通过对每个文档进行排序打分,量化地表现文档与查询的相关程度。最后把前若干位(由用户指定或系统默认)的结果优先返回给用户。
如图6所示,检索模块400的处理流程为:(1)接收来自用户的查询语句;(2)在索引库500中进行查询,返回与查询内容相匹配的所有文档信息,即获得结果集;(3)根据查询语句在概念语义层次、主题语义层次的词语对文档贡献度、在文档中的出现频率,以及文档长度以及文档的反转频率等因素进行排序。通过对每个文档进行排序打分,量化地表现文档与查询的相关度,把得分高的文档排在结果集的前面。(4)最后将排序结果提交给结果集处理模块800。
基于相关词语的主题语义分析模块700是用于提取文档集中各个关键词对文档贡献度和文档的主题信息。它包括文本预处理模块710和语义建模模块720。
文本预处理模块710包括以下流程:中文分词、去停用词(包括标点、数字、单字和其它一些无意义的词)以及词频统计、文本向量化等操作。文本分词是预处理过程中必不可少的一个操作,因为后续的分类操作需要使用文档中的单词来表征文档。文本向量化具体做法是构建一个词化矩阵,横坐标是词表,纵坐标是该词在该文档中的权重而这个权重又有很多种算法最著名的当然是tf-idf即词频和反文档频率的乘积了。经过上面的流程,文本预处理模块算是完成了。
语义建模模块720采用基于相关词语的主题语义分析方法对经过预处理之后的文档进行主题建模,提取文档中的主题信息,并量化地反映每个词与主题对应的语义关系。这里在系统中使用Tag-LDA(Tag Latent Dirichlet Allocation)模型对文档建模。如图7所示,Tag-LDA是一种标签概率语义分析模型,其本质上是一个具有四层结构的贝叶斯模型。它描绘了“标签----文档----主题----词”四层语义关系,即每个标签是文档上的一个多项式分布,每个文档被看做若干个主题的组合,每个主题是词表上的一个多项式分布。它的生成算法如下:
(1)对每一篇文档d选择一个分布服从Dirichlet分布,分布的参数为η;
(2)对每一个概念标签l选择一个分布服从Dirichlet分布,分布的参数为α;
(3)对每一个主题k选择一个分布服从Dirichlet分布,分布参数为β;
(4)对每一篇文档d中的每一个词依次按照参数为的多项式分布;
(5)选择一个概念标签t,然后按照参数为的多项式分布,选择一个主题z,最后按照参数的多项式分布选择一个词w,这样重复直到生成一篇文档为止。
模型中的参数用Gibbs simpling来进行抽样,对于这个模型我们给出抽样公式如下:
其中和分别代表文档的第i个词对应的概念标签l和主题k,代表概念标签被文档d中的一个词选中了多少次,代表主题k被概念标签l选中的次数,表示词v被分配给主题k的次数,在一系列抽样过程之后,来自马尔科夫链的一个样本被用来以下列公式来估计参数:
在实现的过程中,我们对文档进行Tag-LDA建模,生成文档中每个关键词对主题的概率分布。在建模的过程中,假设主题数为T,则文档d集合中词与主题之间的关系,可如下表示:
其中是表示主题的变量,表明词取自该主题,是主题变量值为主题j时的概率,表示文档集合中主题j的分布概率,是词属于主题j的概率,表示主题j中的词汇w的分布概率。
至此我们得到了文档中的一个词i对主题的贡献度。
基于相关词语的主题语义分析方法如下:
在基于相关词语的概念语义分析模块600中我们得到了相关词和语义标签的相关度,其中i,j分别表示第i个词和第j个语义标签,这些相关词对应语义标签的语义贡献度代表了它们彼此之间的语义关系,在基于相关词语的主题语义分析模块700中得到的是相关词语对应相关主题的语义关系,我们将这种语义关系重新映射回对应的语义标签,公式如下:
依次对每一个词进行如此的映射,得到了一个新的权值,这样就把基于相关词语的主题语义分析模块700得到的每个词对主题的贡献度通过基于相关词语的概念语义分析模块200得到的相关词之间的比例关系进行了映射,然后对它们进行归一化,公式如下:
这样,我们就可以把和某个语义标签相关的所有词对文档的贡献度运用到排序模块420,使得排序结果更加合理,以上就是基于相关词语的主题语义分析方法。
结果集处理模块800是用户查询显示的接口,它包括头信息显示模块810、反显模块820、回显模块830和分页处理模块840。
头信息显示模块810用于显示查询结果的提示信息,如果检索模块400返回的结果集不为空,则在页首显示查询用时和结果集中的文档数。如果检索模块400没有检索到匹配的结果,则显示结果不存在的提示信息。
反显模块820用于对检索模块400返回的文档结果集和索引库500的文档摘要中的关键词做强调突出处理。具体方法是:对原查询语句中的词加红色高亮。
回显模块830用于显示返回给用户的快照和文档摘要信息。页面内容以标题、摘要的形式,按条罗列。标题为超链接形式,用户可以打开检索内容所在的原文。文档摘要显示原文中含有检索内容的一段摘要。具体形式类似于Google、百度等搜索引擎的返回形式。
分页处理模块840用于将结果集的多篇文档分页显示。页尾标注在十页范围内供用户选择。为了增强用户体验和提升检索速度,每次翻页只返回当前文档的结果,不返回全部结果集。
如图8所示,结果集处理模块800的处理流程为:(1)接收来自检索模块400递交的结果集;(2)在页首显示查询用时、返回结果数或查询结果不存在的提示信息;(3)从索引库500中获取结果集的文档摘要信息,对查询语句做反显处理,将标题和文档摘要与对应的源文档之间建立链接;(4)用户需要翻页显示其他结果时,再次从结果集中返回用户需要的相应数目和排名的文档。
Claims (5)
1.基于相关词语语义分析的全文检索系统,包括查询信息接收模块、基于相关词语的概念语义分析模块、语义知识库模块、检索模块、索引库、索引模块、基于相关词语的主题语义分析模块、结果集处理模块和数据服务器;
所述查询信息接收模块用于接收用户输入的查询语句,对查询语句进行中文分词和去停用词处理之后,将其提交给基于相关词语的概念语义分析模块并且提交给检索模块进行检索服务;
所述基于相关词语的概念语义分析模块采用基于相关词语的概念语义分析方法,得到词语之间的语义相关量化关系,并提交给语义知识库模块;然后基于相关词语的概念语义分析模块将从语义知识库模块得到的相关词及其贡献度作为基于相关词语的主题语义分析模块的输入;
所述语义知识库模块用来存储词语及其相关词群和贡献度信息,从查询信息接收模块中得到用户输入的查询词,在语义知识库中检索,将查询词对应的相关词群及贡献度返回给基于相关词语的概念语义分析模块;
所述检索模块为用户提供检索服务,检索模块负责接收查询信息接收模块的指令,将查询语句提交给索引库进行查询匹配,返回所有与查询语句匹配的文档信息,并对检索结果集进行排序处理,将排序后的结果集提交给结果集处理模块;
所述索引库用来存储由索引模块对文档建立的索引,索引库还根据检索模块提交的查询请求在索引中快速检索,并将结果返回给检索模块;
所述索引模块用来接收数据服务器提供的文档,对文档内容,标题和自定义信息进行中文分词和去停用词处理得到索引词,利用索引词和文档相关信息建立索引;
所述基于相关词语的主题语义分析模块采用基于相关词语的主题语义分析方法,通过对文档进行主题语义分析,得到每个词与文档之间的语义相关量化关系,即对文档主题的贡献度,最后把这些运用到检索中提高搜索引擎的检索效果;
所述结果集处理模块用于接收来自检索模块的结果集,并根据索引库的信息建立结果集的文摘信息和快照信息,并对返回结果进行反显、回显和分页处理;
所述数据服务器用于存储知识数据词典、文档集,为基于相关词语的概念语义分析模块提供数据资源和管理服务,为基于相关词语的主题语义分析模块和索引模块提供文档集。
2.根据权利要求1所述的基于相关词语语义分析的全文检索系统,其特征在于:所述基于相关词语的概念语义分析模块包括文本预处理模块和语义相关度获取模块;
所述文本预处理模块主要对查询语句进行预处理,包括中文分词、去停用词;这里采用双向最大匹配分词方法对查询语句进行分词处理,然后去掉停用词,得到查询词序列,并提交给语义相关度获取模块;
所述语义相关度获取模块采用基于相关词语的概念语义分析方法来获取词对语义标签的语义贡献度;
在基于相关词语的概念语义分析方法中,把传统的词语相关度获取方法与词与词之间位置关系进行有效的融合;
通过从网络百科全书中获取关联语义知识来获取词对语义标签的贡献度;
传统的方法流程如下:
(1)用户在浏览词条解释正文时点击正文当中的内部链接即可链接到其他词条的解释页面,我们认为这些词条和被解释词条在语义上是相关的,并将一个词条的内部链接词条记为Inner;
(2)词条与被解释的词条在语义上是有关联的,将其记为UserRelate,在百科中一个词条可以属于多个开放分类,这些类别信息共同反映了这个词条的语义知识;
(3)百科词条L自身属于的开放分类集合,该词解释正文中所有内部链接词条所属于的开放分类的集合与用户添加的该词条的相关词条所属于的开放分类的集合的并集定义为词条L的开放分类语义知识集合;
(4)相关词语贡献度的计算可以通过比较语义词L的开放分类语义知识集合与其相关词语的开放分类语义知识集合而得到;
(5)在计算语义词L与相关词语之间的语义关联度时,首先定义一个开放分类语义知识向量v,开放分类语义知识向量的维数每一维代表一个开放分类,记为,语义词L的开放分类语义知识向量在p维上的值即为l的开放分类语义知识集合中对应开放分类出现的频次,对相关词开放分类语义知识向量也有同样的定义;
(6)最后相关词语与语义词l的语义关联度公式如下:
基于相关词语的概念语义分析方法具体如下:
利用以下公式:
其中t,q分别表示某两个词,p表示词在文档中所处的位置,即为通过计算两个词之间位置得到的两个词之间相关度的值,表示两个词t,q之间的位置方差,表示两个词t,q之间的位置标准差,这样,就把词和词之间的位置对它们相关贡献度的影响纳入其中;
把传统方法和词在上下文中的相关度进行有效的融合,得到语义相关度公式如下:
其中与之和为1且,都大于0,这里我们取= 0.1,表示距离对贡献度的影响要大一些,这样就得到了相关词语的贡献度。
3.根据权利要求1所述的基于相关词语语义分析的全文检索系统,其特征在于:所述基于相关词语的主题语义分析模块包括文本预处理模块和语义建模模块;
所述文本预处理模块主要对文档进行预处理,包括中文分词、去停用词;这里采用双向最大匹配分词方法对文档进行分词处理,然后去掉停用词;
所述语义建模模块采用基于相关词语的主题语义分析方法来获取词对文档语义贡献度;
基于相关词语的主题语义分析方法具体如下:
在基于相关词语的概念语义分析模块中我们得到了相关词和语义标签的相关度,其中wi表示第i个词,kj表示第j个语义标签,这些相关词对应语义标签的语义贡献度代表了它们彼此之间的语义关系,在基于相关词语的主题语义分析模块中得到的是相关词语对应相关主题的语义关系,将这种语义关系重新映射回对应的语义标签,公式如下:
其中t表示概念标签,也是一个词,表示主题,依次对每一个词进行如此的映射,得到了一个新的权值,这样就把基于相关词语的主题语义分析模块得到的每个词对主题的贡献度通过基于相关词语的概念语义分析模块得到的相关词之间的比例关系进行了映射,然后对它们进行归一化,公式如下:
这样,就把和某个语义标签相关的所有词对文档的贡献度运用到排序模块,使得排序结果更加合理,以上就是基于相关词语的主题语义分析方法。
4.根据权利要求1所述的基于相关词语语义分析的全文检索系统,其特征在于:所述检索模块是本系统提供给用户检索文本信息的模块,它包括查询模块和排序模块;
查询模块从索引库中按检索打分公式查找所有匹配的文档信息,从匹配的文档信息中选择出满足查询要求的那部分文档信息作为结果集,并将结果集发送给排序模块;
排序模块用于对来自查询模块的结果集进行排序,该模块根据查询词在概念语义层次、主题语义层次对文档贡献度、在文档中的出现频率,以及文档长度和文档的反转频率因素进行排序;其排序打分公式如下:
其中q为查询语句,d为文本,t为查询词;表示t在文档d中出现的词频;表示t在多少篇文档中出现过;表示文档长度对结果的影响,文档越长,此值越小,文档越短,此值越大;为协调因子,表示当一篇文档中包含的查询词越多,则此文档排序打分越高,计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的查询之间的分数可以比较,表示相应查询词在文档中的词语对文档贡献度,其值由下面公式计算得到;
其中,为当前主题,T为主题集合,为在文档中查询词t对应相应主题的词语对文档贡献度,该信息在基于相关词语的主题语义分析模块生成并保存;
通过对每个文档进行排序打分,量化地表现文档与查询的相关程度,最后把前若干位,由用户指定或系统默认的结果优先返回给用户。
5.根据权利要求1所述的基于相关词语语义分析的全文检索系统,其特征在于:所述结果集处理模块是用户查询显示的界面,它包括头信息显示模块、反显模块、回显模块和分页处理模块;
所述头信息显示模块用于显示查询结果的提示信息,如果检索模块返回的结果集不为空,则在页首显示查询用时和结果集中的文档数;如果检索模块没有检索到匹配的结果,则显示结果不存在的提示信息;
所述反显模块用于对检索模块返回的文档结果集和索引库的文档摘要中的关键词做强调突出处理;具体方法是:对原查询语句中的词加红色高亮;
所述回显模块用于显示返回给用户的快照和文档摘要信息;页面内容以标题、摘要的形式,按条罗列;标题为超链接形式,用户可以打开检索内容所在的原文;文档摘要显示原文中含有检索内容的一段摘要;具体形式类似于Google、百度搜索引擎的返回形式;
所述分页处理模块用于将结果集的多篇文档分页显示,页尾标注在十页范围内供用户选择,为了增强用户体验和提升检索速度,每次翻页只返回当前文档的结果,不返回全部结果集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410061245.5A CN103838833B (zh) | 2014-02-24 | 2014-02-24 | 基于相关词语语义分析的全文检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410061245.5A CN103838833B (zh) | 2014-02-24 | 2014-02-24 | 基于相关词语语义分析的全文检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103838833A CN103838833A (zh) | 2014-06-04 |
CN103838833B true CN103838833B (zh) | 2017-03-15 |
Family
ID=50802330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410061245.5A Expired - Fee Related CN103838833B (zh) | 2014-02-24 | 2014-02-24 | 基于相关词语语义分析的全文检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838833B (zh) |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104298715B (zh) * | 2014-09-16 | 2017-12-19 | 北京航空航天大学 | 一种基于tf‑idf的多索引结果合并排序方法 |
CN104199965B (zh) * | 2014-09-22 | 2020-08-07 | 吴晨 | 一种语义信息检索方法 |
CN104484411B (zh) * | 2014-12-16 | 2017-12-22 | 中国科学院自动化研究所 | 一种基于词典的语义知识库的构建方法 |
CN105005620B (zh) * | 2015-07-23 | 2018-04-20 | 武汉大学 | 基于查询扩展的有限数据源数据获取方法 |
CN105069080B (zh) * | 2015-07-31 | 2018-06-29 | 中国农业科学院农业信息研究所 | 一种文献检索方法及系统 |
CN105279264B (zh) * | 2015-10-26 | 2018-07-03 | 深圳市智搜信息技术有限公司 | 一种文档的语义相关度计算方法 |
CN105354321A (zh) * | 2015-11-16 | 2016-02-24 | 中国建设银行股份有限公司 | 一种查询数据处理方法和装置 |
CN106874303A (zh) * | 2015-12-14 | 2017-06-20 | 清华大学 | 业务办理流程管理系统和方法 |
CN105488033B (zh) * | 2016-01-26 | 2018-01-02 | 中国人民解放军国防科学技术大学 | 关联计算的预处理方法及装置 |
CN106372122B (zh) * | 2016-08-23 | 2018-04-10 | 温州大学瓯江学院 | 一种基于维基语义匹配的文档分类方法及系统 |
CN108021592B (zh) * | 2016-11-04 | 2021-11-02 | 上海大学 | 一种用于影视素材领域的非结构化数据管理方法 |
CN106649800A (zh) * | 2016-12-29 | 2017-05-10 | 南威软件股份有限公司 | 一种基于Solr的中文检索方法 |
CN107368525B (zh) * | 2017-06-07 | 2020-03-03 | 广州视源电子科技股份有限公司 | 搜索相关词的方法及装置、存储介质和终端设备 |
CN107315739A (zh) * | 2017-07-12 | 2017-11-03 | 安徽博约信息科技股份有限公司 | 一种语义分析方法 |
CN107451911A (zh) * | 2017-07-19 | 2017-12-08 | 唐周屹 | 一种基于财务流水数据提供实时可视化信息的方法和系统 |
CN107506473B (zh) * | 2017-09-05 | 2020-10-27 | 郑州升达经贸管理学院 | 一种基于云计算的大数据检索方法 |
CN110020009B (zh) * | 2017-09-29 | 2023-03-21 | 阿里巴巴集团控股有限公司 | 在线问答方法、装置及系统 |
CN108038096A (zh) * | 2017-11-10 | 2018-05-15 | 平安科技(深圳)有限公司 | 知识库文档快速检索方法、应用服务器计算机可读存储介质 |
CN109948044A (zh) * | 2017-12-14 | 2019-06-28 | 微软技术许可有限责任公司 | 基于向量最近邻搜索的文档查询 |
CN108399238A (zh) * | 2018-03-01 | 2018-08-14 | 福州大学 | 一种融合文本概念化和网络表示的观点检索系统及方法 |
CN108563766A (zh) * | 2018-04-19 | 2018-09-21 | 天津科技大学 | 食品检索的方法及装置 |
CN109033478B (zh) * | 2018-09-12 | 2022-08-19 | 重庆工业职业技术学院 | 一种用于搜索引擎的文本信息规律分析方法与系统 |
CN109783067A (zh) * | 2018-11-30 | 2019-05-21 | 复旦大学 | 基于本体CallCenter平台的智能知识整合与检索系统和方法 |
CN109543004A (zh) * | 2018-12-03 | 2019-03-29 | 江苏中润普达信息技术有限公司 | 一种基于移动端中文语义自动检测识别系统 |
CN109739964A (zh) * | 2018-12-27 | 2019-05-10 | 北京拓尔思信息技术股份有限公司 | 知识数据提供方法、装置、电子设备和存储介质 |
CN109753655B (zh) * | 2018-12-29 | 2023-02-28 | 上海半坡网络技术有限公司 | 基于语义概念关联的文献检索方法、系统、存储介质及终端 |
CN110119453A (zh) * | 2019-03-12 | 2019-08-13 | 重庆三峡学院 | 一种基于WebGIS的地方志文献可视化方法及系统 |
CN111949679A (zh) * | 2019-05-17 | 2020-11-17 | 上海戈吉网络科技有限公司 | 一种文档检索系统及方法 |
CN110717329B (zh) * | 2019-09-10 | 2023-06-16 | 上海开域信息科技有限公司 | 基于词向量进行近似搜索快速提取广告文本主题的方法 |
CN110750696A (zh) * | 2019-10-29 | 2020-02-04 | 贵州电网有限责任公司 | 一种文档聚类检索系统 |
CN110781285A (zh) * | 2019-10-30 | 2020-02-11 | 中国农业科学院农业信息研究所 | 一种科技文献检索意图构建方法 |
CN111160827A (zh) * | 2019-12-09 | 2020-05-15 | 上海东普信息科技有限公司 | 快递揽收方法、手持终端的快件揽收方法及存储介质 |
CN111310477B (zh) * | 2020-02-24 | 2023-04-21 | 成都网安科技发展有限公司 | 文档查询方法及装置 |
CN112214993B (zh) * | 2020-09-03 | 2024-02-06 | 拓尔思信息技术股份有限公司 | 基于图神经网络的文档处理方法、装置和存储介质 |
CN112149428A (zh) * | 2020-10-12 | 2020-12-29 | 珍岛信息技术(上海)股份有限公司 | 基于语义分析和深度学习的智能写作辅助系统 |
CN112241630A (zh) * | 2020-10-30 | 2021-01-19 | 深圳供电局有限公司 | 基于自然语言处理的变电可研规范词条分析方法及系统 |
CN112445830B (zh) * | 2020-11-26 | 2024-05-14 | 湖南智慧政务区块链科技有限公司 | 一种基于区块链技术的数据分析系统 |
CN113626643A (zh) * | 2021-08-09 | 2021-11-09 | 复旦大学 | 基于本体的工程数据关键字检索方法 |
CN116028699A (zh) * | 2022-12-26 | 2023-04-28 | 中国电信股份有限公司卫星通信分公司 | 数据查询方法、装置及电子设备 |
CN116756375B (zh) * | 2023-05-09 | 2024-05-07 | 中电科大数据研究院有限公司 | 一种基于图谱的异构数据的处理系统 |
CN117851538B (zh) * | 2024-03-07 | 2024-07-12 | 济南浪潮数据技术有限公司 | 一种分布式检索方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎系统 |
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索系统 |
-
2014
- 2014-02-24 CN CN201410061245.5A patent/CN103838833B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102087669A (zh) * | 2011-03-11 | 2011-06-08 | 北京汇智卓成科技有限公司 | 基于语义关联的智能搜索引擎系统 |
CN103136352A (zh) * | 2013-02-27 | 2013-06-05 | 华中师范大学 | 基于双层语义分析的全文检索系统 |
Non-Patent Citations (2)
Title |
---|
A Re-ranking Method Based on Cloud Model;Maoyuan Zhang 等;《International Conference on Computer Science and Network Technology》;20111231;全文 * |
语义搜索研究综述;文坤梅等;《计算机科学》;20080531;第35卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103838833A (zh) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838833B (zh) | 基于相关词语语义分析的全文检索系统 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
CN105653706B (zh) | 一种基于文献内容知识图谱的多层引文推荐方法 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN103136352B (zh) | 基于双层语义分析的全文检索系统 | |
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
US9715493B2 (en) | Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN107577671B (zh) | 一种基于多特征融合的主题词提取方法 | |
CN108763321B (zh) | 一种基于大规模相关实体网络的相关实体推荐方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN106156272A (zh) | 一种基于多源语义分析的信息检索方法 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN110442777A (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
CN105912662A (zh) | 基于Coreseek的垂直搜索引擎研究与优化的方法 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN115983233B (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN111125297B (zh) | 一种基于搜索引擎的海量离线文本实时推荐方法 | |
CN106960003A (zh) | 抄袭检测中的基于机器学习的源检索的查询生成方法 | |
CN114493783A (zh) | 一种基于双重检索机制的商品匹配方法 | |
Fan et al. | Stop words for processing software engineering documents: Do they matter? | |
CN112115269A (zh) | 一种基于爬虫的网页自动分类方法 | |
TWI446191B (zh) | Word matching and information query method and device | |
CN116805148A (zh) | 一种法考客观题上下文检索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170315 Termination date: 20210224 |
|
CF01 | Termination of patent right due to non-payment of annual fee |