CN103927358B

CN103927358B - 文本检索方法及系统

Info

Publication number: CN103927358B
Application number: CN201410152090.6A
Authority: CN
Inventors: 田凌; 马嵩华
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-04-15
Filing date: 2014-04-15
Publication date: 2017-02-15
Anticipated expiration: 2034-04-15
Also published as: CN103927358A

Abstract

本发明提出一种文本检索方法，包括以下步骤：根据输入的查询语句，将查询语句拆分为关键语义与关键词；根据关键语义进行基于领域本体的语义扩展以生成扩展语义，并根据扩展语义和关键词生成扩展查询语句；对扩展语义进行相似度评分并对扩展查询语句进行语义加权，扩展查询语句进行文本检索以得到相应的查询结果；显示检索后的所述查询结果。本发明实施例的方法能够提高搜索引擎在文本检索时的检索查全率和查准率。本发明还提供了一种文本检索系统。

Description

文本检索方法及系统

技术领域

本发明涉及数据智能处理分析技术领域，特别涉及一种文本检索方法及系统。

背景技术

对于文本搜索和分类目录的检索，目前的主要方式是根据检索对象的关键词确定是否匹配，即将检索语句分割成关键词的形式分别进行检索，但是机器不能理解人类的语言，因此不能理解查询意图，从而导致搜索出的信息不够准确。比如搜索“美国黑人总统”，检索意图获得“奥巴马”，结果却是包含“美国”、“黑人”、“总统”等等的关键词。并且实际检索语句基本上仅仅包括一两个关键词，不考虑语义，难以应对同一关键词具有不同含义或不同关键词具有相同含义的问题，使得计算机很容易造成误解，因此只能部分提高查准率和查全率。比如搜索“苹果”这个关键词，结果包含电影“苹果”、水果“苹果”和企业“苹果”等等。针对上述问题，用户在搜索时可以加入高级语法进行操作，但高级语法输入复杂对用户要求高，使得用户体验度降低。

基于语义的搜索通过为每个信息实例加上各式各样的标签，不再拘泥于用户所输入请求语句的关键词本身，而能够较为准确地捕捉到用户所输入语句潜在的意图，从而能更准确地向用户返回最符合其需求的结果。目前，通过词汇相关性的同义词检索技术己经比较成熟。同义词检索算法是对利用词库搜索范围内的每一个相关词进行匹配运算以得到一个最优的结果，但这种匹配无法表达词汇的分类、参考等复杂关系，同时也没有动态推理特征。

语义检索能够懂关键词之间的逻辑关系，大大提高了检索效率，但是目前语义的研究过于繁琐，往往难以和现行技术结合到一起。到目前为止对语义检索在概念上仍没有统一的界定，因此基于本体的语义检索大多停留在理论研究，真正实例很少。

发明内容

本发明旨在至少解决上述的技术问题之一。

为此，本发明的一个目的在于提出一种文本检索方法，该方法通过本体词汇的相互关联，能有效地对文本内容进行领域知识提取，提高了搜索引擎检索文本时的查全率和查准率。

本发明的另一个目的在于提供一种文本检索系统。

为了实现上述目的，本发明第一方面的实施例提出了一种文本检索方法，包括以下步骤：根据输入的查询语句，将所述查询语句拆分为关键语义与关键词；根据所述关键语义进行基于领域本体的语义扩展以生成扩展语义，并根据所述扩展语义和所述关键词生成扩展查询语句；对所述扩展语义进行相似度评分并对所述扩展查询语句进行语义加权，并对所述扩展查询语句进行文本检索以得到相应的查询结果；以及显示检索后的所述查询结果。

根据本发明实施例的文本检索方法，在进行文本检索时，首先将输入的查询语句拆分为关键语义与关键词，并根据关键语义进行基于领域本体的语义扩展以生成扩展语义，结合扩展语义和关键词生成扩展查询语句，并进一步对扩展查询语句进行语义加权，以及对该扩展查询语句进行概念检索以得到相应的查询结果，最后显示检索后的查询结果。因此，本发明实施例的方法充分利用领域本体与查询关键语义的对应关系，根据相关词汇的语义关系，领域本体限制了查询文本的主题，获取准确率高的查询结果；同时构造语义扩展的查询语句对文本知识库进行搜索，从而可以有效地提高查全率。

另外，根据本发明上述实施例的文本检索方法还可以具有如下附加的技术特征：

在一些示例中，所述查询语句为多个所述关键语义与所述关键词的逻辑组合，其中，所述逻辑组合包括：或、且、非逻辑关系。

在一些示例中，所述领域本体由概念集合、关系集合、实例集合以及事实集合组成。

在一些示例中，所述关键语义的集合即是所述领域本体中的所述概念集合。

在一些示例中，所述关系集合包括：等同关系，所述等同关系含有概念相同或用法相同的对称关系，用于增加检索入口；继承关系，所述继承关系包含属种、整部和多层级关系，用于扩大和缩小查找范围；以及属性关系，所述属性关系用于扩大检索范围和进行隐式信息查找。

在一些示例中，所述对所述扩展语义进行语义相似性评分并对所述扩展查询语句进行语义加权，包括：根据领域本体的局部密度、所述概念的深度、所述概念的关系以及所述概念之间的连系强度，计算所述概念之间的边权；根据所述边权，计算所述概念之间的语义距离；根据所述语义距离，计算所述概念之间的所述语义相似性评分；以及将所述语义相似性评分作为所述扩展查询语句的权重值。

在一些示例中，所述对所述扩展查询语句进行概念检索并得到相应的查询结果，包括：将由网络上抓取下来的文本以及用户上传的文档建立索引，并建立数据库将所述文本以及所述文档的题目、摘要、日期以及链接进行组织；对组织后的所述文本以及所述文档进行内容分析，建立起结构化的索引文件；以及基于特定模型的评分方法以及所述扩展查询语句的权重值，对所述索引文件中的内容进行评分与匹配，将匹配成功的所述文件作为最终得到的所述查询结果。

在一些示例中，所述显示所述检索后的所述查询结果，包括：所述文件的相关元数据、所述文本的位置链接、所述文本的摘要以及所述文本中的相关关键词。

在一些示例中，所述文本中的相关关键词将由黄色高亮进行标识，并且，所述扩展语义将被分层级地进行展示。

本发明第二方面的实施例提供了一种文本检索系统，包括：查询语句处理模块，所述查询语句处理模块用于根据输入的查询语句，将所述查询语句拆分为关键语义与关键词；领域本体接口模块，所述领域本体接口模块根据所述关键语义，进行基于领域本体的语义扩展生成扩展语义，并将所述扩展语义与所述关键词一起组成扩展查询语句；语义相似性评分模块，所述语义相似性评分模块用于将所述扩展语义进行语义相似性评分并对所述扩展查询语句进行语义加权；概念检索模块，所述概念检索模块用于对所述扩展查询语句进行文本检索并得到相应的查询结果；以及检索结果显示模块，所述检索结果显示模块用于显示所述检索后的所述查询结果。

根据本发明实施例的文本检索系统，在进行文本检索时，首先查询语句处理模块将输入的查询语句拆分为关键语义与关键词，领域本体接口模块根据关键语义进行基于领域本体的语义扩展以生成扩展语义，结合扩展语义和关键词生成扩展查询语句，语义相似性评分模块进一步对扩展查询语句进行语义加权，然后概念检索模块对该扩展查询语句进行概念检索以得到相应的查询结果，最后由检索结果显示模块显示检索后的查询结果。因此，本发明实施例的系统充分利用了领域本体与查询关键语义的对应关系，根据相关词汇的语义关系，领域本体限制了查询文本的主题，获取准确率高的查询结果；同时构造语义扩展的查询语句对文本知识库进行搜索，从而可以有效地提高查全率。

另外，根据本发明上述实施例的文本检索系统还可以具备如下附加的技术特征：

在一些示例中，所述查询语句为多个所述关键语义与所述关键词的逻辑组合，其中，所述逻辑组合包括或、且、非三种逻辑关系。

在一些示例中，所述关系集合包括：等同关系，所述等同关系含有概念相同或用法相同的对等关系，用于增加检索入口；继承关系，所述继承关系包含属种、整部和多层级关系，用于扩大和缩小查找范围；以及属性关系，所述属性关系用于扩大检索范围和进行隐式信息查找。

在一些示例中，所述语义相似性评分模块用于将所述扩展语义进行语义相似性评分并对所述扩展查询语句进行语义加权，包括：用于根据领域本体的局部密度、所述概念的深度、所述概念的关系以及所述概念之间的连系强度，计算所述概念之间的边权；根据所述边权，计算所述概念之间的语义距离；以及根据所述语义距离，计算所述概念之间的所述语义相似性评分，以及将所述语义相似性评分作为所述扩展查询语句的权重值。

在一些示例中，概念检索模块包括：文本知识库，所述文本知识库用于将由网络上抓取下来的文本以及用户上传的文档建立索引，并建立数据库将所述文本以及所述文档的题目、摘要、日期以及链接进行组织；文本索引模块，所述文本索引模块用于对组织后的所述文本以及所述文档进行内容分析，建立起结构化的索引文件；以及文本检索模块，所述文本检索模块用于，基于特定模型的评分方法以及所述扩展查询语句的权重值，对所述索引文件中的内容进行评分与匹配，将匹配成功的所述文件作为最终得到的所述查询结果。

在一些示例中，所述检索结果显示模块用于显示所述检索后的所述查询结果，包括：所述文件的相关元数据、所述文本的位置链接、所述文本的摘要以及所述文本中的相关关键词。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的文本检索方法的流程图；

图2是根据一个实施例的查询语句语义扩展的流程图；

图3是根据本发明一个实施例的文本检索系统的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

以下结合附图描述根据本发明实施例的文本检索方法及系统。

图1是根据本发明一个实施例的文本检索方法的流程图。如图1所示，根据本发明一个实施例的文本检索方法，包括以下步骤：

步骤S101，根据输入的查询语句，将查询语句拆分为关键语义与关键词。其中，在本发明的一个实施例中，该查询语句为多个关键语义与关键词的逻辑组合。更为具体地，该逻辑组合包括：或、且、非逻辑关系。

作为一个具体的示例，如图2所示，将输入的查询语句根据分词符号（此处为冒号“：”）拆分为关键语义和关键词，其中关键语义在前、关键词在后。关键语义即本体中的概念。一个查询语句可能是多个关键语义和关键词的逻辑组合，包括或、且、非三种逻辑运算关系。

步骤S102，根据关键语义进行基于领域本体的语义扩展以生成扩展语义，并根据扩展语义和关键词生成扩展查询语句。其中，在本发明的一个实施例中，该领域本体由概念集合、关系集合、实例集合以及事实集合组成。在一些示例中，上述关键语义的集合即是领域本体中的概念集合。换言之，通过对关键语义进行语义扩展后形成语义扩展概念，与关键词一起组成扩展后的查询语句进入知识搜索引擎的概念检索模块进行搜索。图2中展示了对查询语句进行语义扩展的过程。例如关键语义“Rolling bearing”，其扩展语义包括“Angular contact ball bearings”、“Cylindrical roller bearing”、“Needle rollerbearing”等。同时，关键语义“Dimension”对应另一组扩展语义“Inner diameter”、“Outerdiameter”、“Width”等。至少一个扩展语义和相应的关键词出现在同一个文档里面，才应当被搜索引擎检索到，搜索结果基于扩展语义和相应的关键词的出现频率进行排序。

具体而言，领域本体是一个概念词表编辑器，提供用户自定义领域本体的概念、建立概念间关联的界面。建立领域本体，首先定义核心概念词，核心概念词是领域本体中的标示词汇，在定义核心概念词后，可针对一个概念定义其数值属性、从属概念及概念间的关系，其输入为用户希望定义的概念方法相关词汇，输出为使用RDF描述的概念体系，包括：概念、概念关系、概念属性及概念实例等。作为一个具体的示例，例如领域本体被定义为O=<C,R,I,F>的形式，其中C为概念集合，R为概念之间的关系集合，I为实例集合，F为事实集合。每个事实可以表示为一个三元组，即其中E=I∪C。

上述的关系集合包括：等同关系、继承关系和属性关系。具体而言，等同关系具含有概念相同或用法相同的对称关系，用于增加检索入口。继承关系包含属种、整部和多层级关系。用于扩大和缩小查找范围。属性关系用于扩大检索范围和进行隐式信息查找。作为一个具体示例，例如通过领域本体概念定义文本内容主题层，通过本体方法构建概念间的关系，可以包括等同关系、继承关系和属性关系。其中，等同关系(EquivalenceRelationship)，又称同一关系，包含同义、近义的关系，这种关系含有概念相同或用法相同的对称关系。揭示等同关系有利于增加检索入口，提高查准率。继承关系(InheritanceRelationship)，又称等级关系，这种关系包含属种、整部和多层级关系，每种层级关系的下位词都必须与上位词的概念类型相同，即两者都必须属于同一范畴内的事物、行为或性质，但下位词具有更多的区分特征。揭示等级关系有助于通过它扩大和缩小查找范围，理解检索意图，提高查全率。属性关系(Property Relationship)，通过推理属性关系可以确立概念和概念之间相互关联的一种关系，是扩大检索范围、进行隐式信息查找的重要手段。进一步地，在该示例中，通过Protégé本体编辑器，可以定义上述领域本体的概念、属性、关系和实例，并进行图形化显示，最终输出使用RDF描述的概念体系模型。

步骤S103，对扩展语义进行语义相似度评分并对扩展查询语句进行语义加权，并对扩展查询语句进行文本检索以得到相应的查询结果。

其中，在本发明的一个实施例中，上述对扩展语义进行语义相似度评分并对扩展查询语句进行语义加权，具体包括以下步骤：

步骤1：根据领域本体的局部密度、概念的深度、概念的关系以及概念之间的连系强度，计算概念之间的边权。

步骤2：根据上述计算得到的边权计算概念之间的语义距离。

步骤3：根据上述得到的语义距离，计算概念之间的语义相似度评分。

步骤4：将得到的语义相似度评分作为扩展查询语句的权重值。

作为一个具体示例，例如在领域本体中，概念c1、c2之间的语义相似性被定义为：

其中，Distc₁,c₂为概念c₁、c₂的语义距离，利用两者之间最短路径的边上权值（边权）之和计算。边权与概念之间连系的强度直接相关，则子概念c_i和其父概念c’连系的强度，可以表示为：

进一步地，考虑到其他因素，如本体局部密度、概念深度和概念关系，整个两父子概念之间的边权wt(ci,c’)表示为：

其中d(c’)表示c’在层次结构中的深度，E(c’)为概念的关系数，为整个层次结构中的平均关系数，R(c_i,c’)表示关系因子。参数α(α≥0)和β(0≤β≤1)控制概念深度和密度对于整个边权计算的贡献。IC(c)是概念之间连系计算的变形形式，即：

IC(c)=-logP(c),

其中P(c)为概念c在整个知识库中出现的频率。

综上所述，两个概念之间的语义距离可以表示为：

其中path(c₁,c₂)是从概念c₁到概念c₂经过路径上的所有概念，LSuper(c₁,c₂)表示c₁、c₂之间最小父概念。

而根据等同关系、继承关系和属性关系分别对相应的R(c_i,c’)定义1.0、0.6和0.3。在实际应用过程中密度E(c’)和深度d(c’)并不起什么作用，α与β分别设置为0和1。扩展性语义搜索中，概念c₁为概念c₂的父概念，最终的语义距离可以简化为：

在一个示例中，上述对扩展查询语句进行概念检索并得到相应的查询结果，具体包括以下步骤：

步骤1’：将由网络上抓取下来的文本以及用户上传的文档建立索引，并建立数据库将文本以及文档的题目、摘要、日期以及链接进行组织。作为一个具体示例，换言之，即例如将网络爬虫从网络上面抓取下来的文本以及用户上传的文档，一方面通过建立索引方便进行检索，一方面通过建立数据库将其题目、摘要、日期和链接进行组织，方便在显示时快速进行调取。

步骤2’：对组织后的文本以及文档进行内容分析，建立起结构化的索引文件。换言之，即对网络爬虫下载的网页和用户上传的文档进行内容分析，建立起结构化的存储结构，即索引文件。用户通过搜索索引文件，进而搜索到想要的内容。

进一步地，在一些示例中，还包括：对文本基于关键词进行采样。每一个已经分词的文本都拥有一个采样表结构。对于文档中的每一个词在该数据表中都对应于一条记录，记录着该关键词在文档中出现的次数，每次出现的位置以及大小写等信息。之所以要记录这些信息，是为了体现出不同的关键词在文档中的重要程度如何。比如某关键词出现在文档A的标题中，同时出现在文档B的正文中。那么用户在检索该关键词时，在检索结果中就应该把文档A排在文档B的前面呈现给用户，因为文档A对此关键词的重视程度要高于文档B。前向索引就是一种网页到关键词的映射。这种数据结构将前面的采样表结构合理的组织起来，形成一种完整的数据结构。

然而，在实际搜索的时候为用户输入关键词的搜索，因此还必须建立一种关键词到文档的映射，以实现快速索引。倒排索引由关键词的ID进行索引，每个关键词都拥有一个文档表，用以记录哪些文档中包含有该关键词。可以说，倒排索引结构是一种关键词到文档的映射。从某个关键词出发可以索引到包含它的文档的集合，再由这些文档ID索引到前向索引表，从而得到该关键词在每个文档中的分布情况。

步骤3’：基于特定模型的评分方法以及扩展查询语句的权重值，对索引文件中的内容进行评分与匹配，将匹配成功的文件作为最终得到的查询结果。在一个具体示例中，上述特定模型的评分方法例如为基于VSM的评分方法。具体而言，VSM评分是文档d的权重向量V(d)与查询语句的权重向量V(q)之间的余弦值：

实际采用Lucene搭建搜索引擎时的评分公式为：

tf(t∈d)=P(t∈d)^1/2,

其中tf(t∈d)与单词t在当前需评分文档的频率P(t∈d)相关，idf(t)表示反向文档频率，|{d∈D:t∈d}|是单词t出现的文档数，coord(q,d)是基于单词t在指定文档出现数量的评分系数，queryNorm(q)是用来实现可比较查询的归一化参数，boost(t.filed∈d)是查询文本中指定该域的权值，norm(t,d)中包含了各种权值，如文档的权值、查询域的权值等。

需要说明的是，在上述示例中，通过扩展关键语义，相关查询结果的数量得到极大的提高。尽管如此，根据语义相似性的不同，决定了不同的扩展语义与查询意图之间存在不同的距离。这一区别可以通过调整各个扩展语义的查询权重进行实现，如图2中的第三个步骤，查询权重即sim(ci,c’)。默认的查询语句中的关键语义和关键词的查询权重是一样的，均为1.0。修正后的扩展查询语义的查询权重不应当超过默认值，所以，最终的查询权重boost(ci)被归一化，如下式：

如果扩展语义密钥存在于多个查询密钥中最终的c_i查询权重将是其所以归一化的权重之和：

步骤S104，显示检索后的查询结果。具体而言，在本发明的一个实施例中，如图3所示，显示检索后的查询结果包括：文件的相关元数据、文本的位置链接、文本的摘要以及文本中的相关关键词。更为具体地，文本中的相关关键词将由黄色高亮进行标识，并且，扩展语义将被分层级地进行展示，从而用户可展开概念树并选择某节点，即某个语义扩展概念进行查询，能够辅助用户查询和优化查询结果。

本发明还提供了一种文本检索系统。

图3是根据本发明一个实施例的文本检索系统的结构框图。具体而言，在具体实施过程中，本发明主要利用java语言，MySQL数据库、Protégé本体编辑器、RDF处理引擎Jena及Lucene搜索引擎技术实现。如图3所示，根据本发明一个实施例的文本检索系统300，包括：查询语句处理模块310、领域本体接口模块320、语义相似评分模块330、概念检索模块340和检索结果显示模块350。

具体而言，查询语句处理模块310用于根据输入的查询语句，将查询语句拆分为关键语义与关键词。其中，在本发明的一个实施例中，查询语句为多个关键语义与关键词的逻辑组合，其中，该逻辑组合包括或、且、非三种逻辑关系。作为一个具体的示例，将输入的查询语句根据分词符号（此处例如为冒号“：”）拆分为关键语义和关键词，其中关键语义在前、关键词在后。关键语义即本体中的概念。一个查询语句可能是多个关键语义和关键词的逻辑组合，包括或、且、非三种逻辑运算关系。

领域本体接口模块320根据关键语义，进行基于领域本体的语义扩展生成扩展语义，并将扩展语义与关键词一起组成的扩展查询语句。其中，在本发明的一个实施例中，领域本体由概念集合、关系集合、实例集合以及事实集合组成。更为具体地，关键语义的集合即是领域本体中的概念集合。换言之，即通过对关键语义进行语义扩展后形成语义扩展概念，与关键词一起组成扩展后的查询语句进行搜索。例如关键语义“Rolling bearing”，其扩展语义包括“Angular contact ball bearings”、“Cylindrical roller bearing”、“Needle roller bearing”等。同时，关键语义“Dimension”对应另一组扩展语义“Innerdiameter”、“Outer diameter”、“Width”等。至少一个扩展语义和相应的关键词出现在同一个文档里面，才应当被搜索引擎检索到，搜索结果基于扩展语义和相应的关键词的出现频率进行排序。

在一些示例中，领域本体接口模块320是领域本体与语义搜索引擎间进行数据交换的模块，该接口将用户定义的领域本体进行推理，得到扩展后的概念关系及本体。在扩展本体中，针对查询概念与其相邻概念直接的关系，得到相应关系对应的语义扩展概念，导出为使用XML描述的结构化文件，以提供搜索引擎模块使用。

进一步地，上述的关系集合包括：等同关系、继承关系和属性关系。其中，等同关系含有概念相同或用法相同的对等关系，用于增加检索入口。继承关系包含属种、整部和多层级关系，用于扩大和缩小查找范围。属性关系用于扩大检索范围和进行隐式信息查找。作为一个具体示例，例如通过领域本体概念定义文本内容主题层，通过本体方法构建概念间的关系，可以包括等同关系、继承关系和属性关系。其中，等同关系(EquivalenceRelationship)，又称同一关系，包含同义、近义的关系，这种关系含有概念相同或用法相同的对称关系。揭示等同关系有利于增加检索入口，提高查准率。继承关系(InheritanceRelationship)，又称等级关系，这种关系包含属种、整部和多层级关系，每种层级关系的下位词都必须与上位词的概念类型相同，即两者都必须属于同一范畴内的事物、行为或性质，但下位词具有更多的区分特征。揭示等级关系有助于通过它扩大和缩小查找范围，理解检索意图，提高查全率。属性关系(Property Relationship)，通过推理属性关系可以确立概念和概念之间相互关联的一种关系，是扩大检索范围、进行隐式信息查找的重要手段。进一步地，在该示例中，通过Protégé本体编辑器，可以定义上述领域本体的概念、属性、关系和实例，并进行图形化显示，最终输出使用RDF描述的概念体系模型。

语义相似性评分模块330用于将扩展语义进行语义相似性评分并对扩展查询语句进行语义加权。具体包括：语义相似度评分模块330用于根据领域本体的局部密度、概念的深度、概念的关系以及概念之间的连系强度，计算概念之间的边权，然后根据该边权，计算概念之间的语义距离，最后，根据该语义距离，计算概念之间的语义相似度评分，以及将该语义相似度评分作为扩展查询语句的权重值。换言之，即语义相似性评分模块330根据概念之间的语义距离、本体局部密度、概念深度和概念关系，对领域本体接口模块320获得的语义扩展概念计算其与原概念（关键语义）的相似性，并将最终的相似性评分作为扩展查询语句的权重值。

IC(c)=-logP(c),

其中P(c)为概念c在整个知识库中出现的频率。

综上所述，两个概念之间的语义距离可以表示为：

概念检索模块340用于对扩展查询语句进行文本检索并得到相应的查询结果。其中，在本发明的一个实施例中，如图3所示，概念检索模块340包括：文本知识库341、文本索引模块342和文本检索模块343。具体而言，文本知识库341用于将由网络上抓取下来的文本以及用户上传的文档建立索引，并建立数据库将文本以及文档的题目、摘要、日期以及链接进行组织。文本索引模块342用于对组织后的文本以及文档进行内容分析，建立起结构化的索引文件。文本检索模块343用于基于特定模型的评分方法以及扩展查询语句的权重值，对索引文件中的内容进行评分与匹配，将匹配成功的文件作为最终得到的查询结果。

换言之，例如文本知识库341将网络爬虫从网络上面抓取下来的文本以及用户上传的文档，一方面通过建立索引方便进行检索，一方面通过建立数据库将其题目、摘要、日期和链接进行组织，方便在显示时快速进行调取。然后文本索引模块342对文本知识库341中的文本和概念进行倒排索引，建立起结构化的存储结构，即索引文件，用户通过搜索索引文件（包含关键词），获得该关键词对应的文本。最后文本检索模块343根据空间向量模型（即特定模型）进行扩展查询语句与概念索引进行匹配，基于词频同现的相关度算法，在概念索引文件中提取与带权重的扩展查询语句相匹配的文本，按照从高到底的相关顺序输出匹配成功的文本。

其中，上述的特定模型的评分方法例如为基于VSM（Vector space model，VSM）的评分方法。具体而言，VSM评分是文档d的权重向量V(d)与查询语句的权重向量V(q)之间的余弦值：

实际采用Lucene搭建搜索引擎时的评分公式为：

tf(t∈d)=P(t∈d)^1/2,

进一步地，在上述示例中，还包括：对文本基于关键词进行采样。每一个已经分词的文本都拥有一个采样表结构。对于文档中的每一个词在该数据表中都对应于一条记录，记录着该关键词在文档中出现的次数，每次出现的位置以及大小写等信息。之所以要记录这些信息，是为了体现出不同的关键词在文档中的重要程度如何。比如某关键词出现在文档A的标题中，同时出现在文档B的正文中。那么用户在检索该关键词时，在检索结果中就应该把文档A排在文档B的前面呈现给用户，因为文档A对此关键词的重视程度要高于文档B。前向索引就是一种网页到关键词的映射。这种数据结构将前面的采样表结构合理的组织起来，形成一种完整的数据结构。

需要说明的是，在上述示例中，通过扩展关键语义，相关查询结果的数量得到极大的提高。尽管如此，根据语义相似性的不同，决定了不同的扩展语义与查询意图之间存在不同的距离。这一区别可以通过调整各个扩展语义的查询权重进行实现。默认的查询语句中的关键语义和关键词的查询权重是一样的，均为1.0。修正后的扩展查询语义的查询权重不应当超过默认值，所以，最终的查询权重boost(ci)被归一化，如下式：

检索结果显示模块350用于显示检索后的查询结果。具体而言，检索结果显示模块350显示检索后的查询结果包括：文件的相关元数据、文本的位置链接、文本的摘要以及文本中的相关关键词。更为具体地，文本中的相关关键词将由黄色高亮进行标识，并且，扩展语义将被分层级地进行展示。换言之，即检索结果显示模块350从文本知识库341中找到匹配成功的文本，与扩展查询语句相关的关键词进行高亮显示，将结果显示在用户界面中，显示内容有：文本相关元数据、文本位置链接、文本摘要、文本中相关关键词（黄色高亮）；同时检索结果显示模块将语义扩展概念分层级进行展示，用户可展开概念树并选择某节点，即某个语义扩展概念进行查询，从而可辅助用户查询和优化查询结果。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种文本检索方法，其特征在于，包括以下步骤：

根据输入的查询语句，将所述查询语句拆分为关键语义与关键词；

根据所述关键语义进行基于领域本体的语义扩展以生成扩展语义，并根据所述扩展语义和所述关键词生成扩展查询语句，其中，所述领域本体由概念集合、关系集合、实例集合以及事实集合组成，所述关系集合包括：等同关系、继承关系及属性关系，所述等同关系含有概念相同或用法相同的对称关系，用于增加检索入口，所述继承关系包含属种、整部和多层级关系，用于扩大和缩小查找范围，所述属性关系用于扩大检索范围和进行隐式信息查找；

对所述扩展语义进行相似度评分并对所述扩展查询语句进行语义加权，并对所述扩展查询语句进行文本检索以得到相应的查询结果；以及

显示检索后的所述查询结果。

2.根据权利要求1所述的文本检索方法，其特征在于，所述查询语句为多个所述关键语义与所述关键词的逻辑组合，其中，所述逻辑组合包括：或、且、非逻辑关系。

3.根据权利要求1所述的文本检索方法，其特征在于，所述关键语义的集合即是所述领域本体中的所述概念集合。

4.根据权利要求1所述的文本检索方法，其特征在于，所述对所述扩展语义进行语义相似性评分并对所述扩展查询语句进行语义加权，包括：

根据领域本体的局部密度、所述概念的深度、所述概念的关系以及所述概念之间的连系强度，计算所述概念之间的边权；

根据所述边权，计算所述概念之间的语义距离；

根据所述语义距离，计算所述概念之间的所述语义相似性评分；以及

将所述语义相似性评分作为所述扩展查询语句的权重值。

5.根据权利要求1所述的文本检索方法，其特征在于，所述对所述扩展查询语句进行概念检索并得到相应的查询结果，包括：

将由网络上抓取下来的文本以及用户上传的文档建立索引，并建立数据库将所述文本以及所述文档的题目、摘要、日期以及链接进行组织；

对组织后的所述文本以及所述文档进行内容分析，建立起结构化的索引文件；以及

基于特定模型的评分方法以及所述扩展查询语句的权重值，对所述索引文件中的内容进行评分与匹配，将匹配成功的所述文件作为最终得到的所述查询结果。

6.根据权利要求5所述的文本检索方法，其特征在于，所述显示所述检索后的所述查询结果，包括：所述文件的相关元数据、所述文本的位置链接、所述文本的摘要以及所述文本中的相关关键词。

7.根据权利要求6所述的文本检索方法，其特征在于，所述文本中的相关关键词将由黄色高亮进行标识，并且，所述扩展语义将被分层级地进行展示。

8.一种文本检索系统，其特征在于，包括：

查询语句处理模块，所述查询语句处理模块用于根据输入的查询语句，将所述查询语句拆分为关键语义与关键词；

领域本体接口模块，所述领域本体接口模块根据所述关键语义，进行基于领域本体的语义扩展生成扩展语义，并将所述扩展语义与所述关键词一起组成扩展查询语句，其中，所述领域本体由概念集合、关系集合、实例集合以及事实集合组成，所述关系集合包括：等同关系、继承关系及属性关系，所述等同关系含有概念相同或用法相同的对称关系，用于增加检索入口，所述继承关系包含属种、整部和多层级关系，用于扩大和缩小查找范围，所述属性关系用于扩大检索范围和进行隐式信息查找；

语义相似性评分模块，所述语义相似性评分模块用于将所述扩展语义进行语义相似性评分并对所述扩展查询语句进行语义加权；

概念检索模块，所述概念检索模块用于对所述扩展查询语句进行文本检索并得到相应的查询结果；以及

检索结果显示模块，所述检索结果显示模块用于显示所述检索后的所述查询结果。

9.根据权利要求8所述的文本检索系统，其特征在于，所述查询语句为多个所述关键语义与所述关键词的逻辑组合，其中，所述逻辑组合包括或、且、非三种逻辑关系。

10.根据权利要求8所述的文本检索系统，其特征在于，所述关键语义的集合即是所述领域本体中的所述概念集合。

11.根据权利要求8所述的文本检索系统，其特征在于，所述语义相似性评分模块用于将所述扩展语义进行语义相似性评分并对所述扩展查询语句进行语义加权，包括：

用于根据领域本体的局部密度、所述概念的深度、所述概念的关系以及所述概念之间的连系强度，计算所述概念之间的边权；

根据所述边权，计算所述概念之间的语义距离；以及

根据所述语义距离，计算所述概念之间的所述语义相似性评分，以及将所述语义相似性评分作为所述扩展查询语句的权重值。

12.根据权利要求8所述的文本检索系统，其特征在于，所述概念检索模块包括：

文本知识库，所述文本知识库用于将由网络上抓取下来的文本以及用户上传的文档建立索引，并建立数据库将所述文本以及所述文档的题目、摘要、日期以及链接进行组织；

文本索引模块，所述文本索引模块用于对组织后的所述文本以及所述文档进行内容分析，建立起结构化的索引文件；以及

文本检索模块，所述文本检索模块用于基于特定模型的评分方法以及所述扩展查询语句的权重值，对所述索引文件中的内容进行评分与匹配，将匹配成功的所述文件作为最终得到的所述查询结果。

13.根据权利要求12所述的文本检索系统，其特征在于，所述检索结果显示模块用于显示所述检索后的所述查询结果，包括：所述文件的相关元数据、所述文本的位置链接、所述文本的摘要以及所述文本中的相关关键词。

14.根据权利要求13所述的文本检索系统，其特征在于，所述文本中的相关关键词将由黄色高亮进行标识，并且，所述扩展语义将被分层级地进行展示。