CN110659357A

CN110659357A - 一种基于本体语义相似度的地理知识问答系统

Info

Publication number: CN110659357A
Application number: CN201910867121.9A
Authority: CN
Inventors: 郭新龙
Original assignee: Beijing Sihai Xintong Technology Co Ltd
Current assignee: Beijing Sihai Xintong Technology Co Ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2020-01-07
Anticipated expiration: 2039-09-12
Also published as: CN110659357B

Abstract

本发明提供一种基于本体语义相似度的地理知识问答系统，通过将地理领域中用户常见问题和领域知识结合构建本体知识库，并结合语义分析，语义相似度计算，本体等相关技术，实现一种地理领域的知识问答系统，该问答系统可以实现五大类问题(人物、时间、地点、数量、实体)处理，并且达到80％以上的准确率。五类问题基本涵盖了基础地理知识领域的学科问题；其中所设计的相似度计算模型实现了对现有计算方法的整合，相比于传统的语义相似度计算方法准确率有明显提升；此外，本发明使用混合策略对用户输入的问题进行答案推荐，供用户选择。两种策略的结合很大程度上能满足用户的问题需求。

Description

一种基于本体语义相似度的地理知识问答系统

技术领域

本发明涉及问答系统技术领域，特别是指一种基于本体语义相似度的地理知识问答系统。

背景技术

问答系统是融合了自然语言处理和信息检索技术的产品。根据涉及范围的不同，可以分为开放领域和限定领域两个大类。当前领域本体在问答系统中的应用主要体现在对领域概念的分类方面，缺乏对用户问句的语义理解和处理。

一般问答系统的问题范畴可能涉及某一受限领域或者开放领域，根据问题的范围可把问答系统分为开放域和限定域的问答系统，某种程度上讲，开放领域的问答系统也是各个限定域的集合。

和国外研究情况相比，国内问答系统起步较晚，目前处于初级阶段，落后于国外较多，但发展速度较快。国内代表性的研究机构有哈尔滨工业大学、中科院计算所、清华大学、北京大学和复旦大学等；越来越多的企业也积极参与智能问答系统研究，百度是最具代表性的企业。百度研发的百度知道是业内使用最广泛的搜索引擎，用户既可以提问也可以回答，实现互相协作与知识共享。还有其他相关企业如：中国移动、电信、联通等结合自身业务，开发面向有限对象的在线客服服务。由此可见，无论是开放域还是受限域，问答系统应用价值逐渐彰显，未来它的应用会越来越广泛。

纵观上述论述，可知：在现有问答系统方面，不难发现如下几点问题；

(1)国外的技术在某些方面走在国内的前面，但是国外所研究的技术大多都是针对英文，不支持汉语。虽然有很多开源和共享的技术和资源，但是不能直接引用。

(2)由于传统问答系统的答疑能力有限，只能回答局限于问题库中的问题。同时，传统的问答系统不能根据自然语言对其进行推理。只是单纯的句子间的匹配。另外传统问题库中的问题组织不合理，缺乏逻辑关联，不利于知识的查询和重用。

发明内容

为至少部分解决上述现有技术的缺陷，本发明提供一种基于本体语义相似度的地理知识问答系统，将地理领域中用户常见问题和领域知识结合构建本体知识库，并结合语义分析，语义相似度计算，本体等相关技术，实现一种地理领域的知识问答系统，同时使用混合策略对用户输入的问题进行答案推荐，供用户选择。从而最大程度的满足用户的问题需求。

本发明的主要研究成果是语义相似度的计算。提出的综合计算模型实现了对现有计算方法的整合，从对比实验分析来看，本发明的语义相似度计算方法较传统的语义相似度计算方法准确率有明显提升。在此基础上，本发明结合浅层语义分析和文本分析技术，提出了基于语义相似度的地理知识问答系统研究。

研究的主要内容是以下几个方面：

1.构建语料库，转化为本体的表示形式。了解现阶段地理知识领域范围，通过分析地理领域遇到的问题及重点和热点，收集相关实际可用且符合条件的知识，构建原始语料库，并且形式化存储到领域本体知识库中。

2.文本的浅层语义分析。主要是通过分词，句法分析，语义角色标注等步骤来进行对用户输入问句的预处理，以便于下一步语义相似度计算的进行。

3.地理知识问答的一阶推理机制。主要完成语义角色成分一阶推理，分析问句，计算问句和本体库中问句的相似度，并研究问答系统如何从海量信息中筛选出所需要的答案，并且减少信息搜索时间，整理最终正确答案。

具体地，本发明的基于本体语义相似度的地理知识问答系统包括：

本体知识库，所述本体知识库以PA结构为基础动态构建，用于基于关系型数据库对选定的地理领域词汇和地理知识问题及其答案进行存储及管理；

问句预处理模块，用于对用户提问的问句进行语句分析，然后基于语句分析结果对问句对应的问题进行分类；

问句相似度计算模块，用于对分类后的问题与本体知识库中问题的相似度进行计算，对问题进行相似度匹配，然后根据相似度匹配结果在本体知识库中查找与用户提问的问句意思相同的问题的答案；

候选答案提取模块，用于将在本体知识库中查找到的答案提取出来作为候选答案，同时在出现未在本体知识库中找到答案的情况时，从用户提问的问句中的选取预设关键字组合，利用网络检索答案，并将检索到的答案作为候选答案；并在有多个候选答案时，按预设筛选规则对候选答案进行排序及筛选，然后将筛选后的候选答案作为推荐答案传递给用户显示界面。

进一步地，所述本体知识库的构建过程包括：

将待处理的自然语言分词转化为语法结构；

以转化出的语法结构为基础将其转化为PA结构；

基于预先构建的背景知识本体，通过预设的本体映射算法将转化出的PA 结构与最终的语义结构建立起映射关系，完成语义信息的抽取。

进一步地，所述问句预处理模块具体用于：

分词和词性标注，对用户提问的问句进行分词处理，并对分词后形成的每一个词进行词性标注；

语义角色标注，采用“谓语-动词-角色”的结构形式，标注句法成分为给定谓语动词的语义角色，每个语义角色被赋予预设的语义含义；

问题分类，使用基于主谓宾的词与词性匹配模式来对问题进行分类。

进一步地，所述问句相似度计算模块具体用于：

对分类后的问题与本体知识库中问题，计算统计句子语义相似度和句子结构相似度，并将计算出的句子语义相似度和句子结构相似度进行综合，计算出用户提问的问题与本体知识库中问题的句子相似度；

根据计算出的句子相似度，从本体知识库中查找句子相似度大于或等于预设相似度阈值的问题的答案。

进一步地，问句相似度计算模块采用基于规则的方法计算句子结构相似度：

所述基于规则的方法结合词距，句长，同时考虑词性的作用，综合三个方面确定句子的结构相似度；其中，

词距相似度的公式如下：

式中，SameDIs(Q_i)表示Q₁和Q₂中相同关键词在Q_i中的距离，若关键词重复出现，则以最大距离为准，Dis(Q_i)表示句子关键词中最左及最右关键词之间的距离，若关键词重复出现，则以最小距离为准；

句长相似度的公式如下：

式中，Len(Q₁)和Len(Q₂)分别表示两个句子的长度；

词性相似度的公式如下：

式中，WordPro(Q₁)和WordPro(Q₂)分别表示句子Q₁和Q₂中关键词的权值，SameWordPro(Q₁,Q₂)表示句子Q₁和Q₂中相同关键词的权值；当句子Q₁和Q₂中关键词全都相同时，分母达到最小值；

结合所述词距相似度、句长相似度，以及词性相似度，将三种相似度进行线性融合，得到句子结构相似度为：

SynSim(Q₁,Q₂)＝λ₁LenSim(Q₁,Q₂)+λ₂DisSim(Q₁,Q₂)+λ₃WordProSim(Q₁,Q₂) (4)

式中，λ₁，λ₂，λ₃为权重系数，代表对三种相似度的偏重程度。

进一步地，所述问句相似度计算模块基于概念语义相似度计算句子语义相似度，所述概念语义相似度计算包括基于距离的概念语义相似度计算、基于属性的概念语义相似度计算和基于主成分分析的概念语义相似度混合计算。

进一步地，所述基于距离的概念语义相似度计算，具体为：

考虑领域本体类的层次关系，利用语义重合度、语义层次深度、语义距离和语义距离多种因素，来计算概念的语义相似度；其中，

语义重合度计算公式为：

式中，ParentNum(i)表示实例i的父节点个数；分子表示a和b相同父节点的个数；分母表示a和b父节点个数较多的那个；

语义层次深度是指概念在结构树中所处层次的深度；两个概念的语义相似度与他们深度之和呈正相关关系，与他们的深度之差呈负相关关系；假设根节点R的深度为1，i节点的父节点用Parent(i)表示，则非根节点i在本体结构树中的深度公式为：

Depth(i)＝Depth(Parent(i))+1 (6)

本体树T的深度为：

Depth(T)＝Max(Depth(i)) (7)

即本体树的深度取树中节点的最大深度；

语义距离对应的相似度公式为：

式中，Dis(a,b)表示节点a和b在本体结构树中的最短路径边数；

语义密度对应的相似度公式如下：

式中，BrotherNum(i)为节点i的兄弟节点的个数；

基于公式(5)、公式(6)、公式(7)、公式(8)和公式(9)，得到基于距离的概念语义相似度的计算模型：

Sim₁(a,b)＝αSim_over(a,b)-βSim_Dis(a,b)-γSim_Den(a,b) (10)

式中，α，β，γ为权重系数，代表对三种相似度的偏重程度。

进一步地，所述基于属性的概念语义相似度计算的模型如下：

Sim₂(a,b)＝αProperties(a∩b)-βProperties(a-b)-γProperties(b-a) (11)

其中，Properties(a∩b)表示概念a和b所拥有的公共属性的集合， Properties(a-b)表示概念a拥有而概念b不拥有的属性集合，Properties(b- a)则表示概念b拥有而概念a不拥有的属性集合。

进一步地，所述基于主成分分析的概念语义相似度混合计算，具体为：

基于主成分分析法对基于距离因素和基于属性因素计算的数据进行分析，动态计算出各个因素的权重；计算出权重后对多因素的计算结果进行加权线性相加得到最终概念语义相似度；其过程包括：

将基于距离的相似度和基于属性的相似度作为两个维度，通过多个样本的计算得到相似度矩阵作为输入样本矩阵；

对所述输入样本矩阵进行矩阵标准化变换为标准矩阵Z，并求出相关系数矩阵R；

求出样本相关系数矩阵R的特征方程的32个特征根以确定主成分；

解方程组单位特征向量；

转换标准化后的指标变量为主成分；

将两个主成分进行加权并线性求和，即得最终概念语义相似度值，相应的权值为各个主成分的贡献率。

进一步地，设句子Q₁和Q₂分别含有m个概念W₁₁…W_1m和n个概念念 W₂₁…W_2n；

所述基于概念语义相似度计算句子语义相似度，具体为：

从Q₁中选出一个概念分别与Q₂中的n个概念，计算概念语义相似度，直至Q₁中概念循环完为止，得到概念语义相似度矩阵：

计算第一个概念集与第二个概念集的概念语义平均最大相似度

计算第二个概念集与第一个概念集的概念的平均最大相似度

计算公式(13)和(14)结果，求平均值，得到句子语义相似度

所述用户提问的问句与预设语料库中问句的句子相似度定义如下：

Sim＝(1-η)SynSim+ηSemSim (16)

其中，η为权重系数，当η为1时，表示只使用语义相似度；当η为0时表示只使用句子结构相似度。

本发明的上述技术方案的有益效果如下：

本发明过将地理领域中用户常见问题和领域知识结合构建本体知识库，并结合语义分析，语义相似度计算，本体等相关技术，实现了一种地理领域的知识问答系统，该问答系统可以实现五大类问题(人物、时间、地点、数量、实体)处理，并且达到80％以上的准确率；

并且本发明所设计的相似度计算模型结合了句子表层的相似度，如句长，词性等和基于概念词的语义相似度，并且对于概念词相似度的计算采用了属性和距离综合的方法，从而实现了对现有计算方法的整合，相比于传统的语义相似度计算方法，本发明综合的语义相似度计算方法准确率有明显提升；

此外，本发明使用混合策略对用户输入的问题进行答案推荐，对于采用相似度计算不能解决的问题，本发明使用了文本分析技术对搜索引擎搜到的文本进行分析评价，最后给出答案的评估分数，供用户选择。本发明通过两种策略的结合可以在很大程度上满足用户的问题需求。

附图说明

图1为本发明的基于本体语义相似度的地理知识问答系统进行问答的步骤流程图；

图2为语义角色标注效果图；

图3为本发明的模式匹配算法图；

图4为本发明的候选答案收集模块流程图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本实施例设计了一种完善的基于本体语义相似度的地理知识问答系统，根据系统的设计需求和设计目标，本实施例着重研究问句处理和答案推荐两个模块的功能，致力于提高问答系统检索的效率和效果。

该问答系统实现问答的步骤如图1所示，包括：

步骤一、对用户提问的问句进行语句分析，并基于语句分析结果对问句对应的问题进行分类；

步骤二、对分类后的问题与本体知识库中问题的相似度进行计算，对问题进行相似度匹配，然后根据相似度匹配结果在本体知识库中查找与用户提问的问句意思相同的问题的答案；

步骤三、将在本体知识库中查找到的答案提取出来作为候选答案，同时在出现未在本体知识库中找到答案的情况时，从用户提问的问句中的选取预设关键字组合，利用网络检索答案，并将检索到的答案作为候选答案；

步骤四、当存在多个候选答案时，按预设筛选规则对候选答案进行排序及筛选，然后将筛选后的候选答案作为推荐答案传递给用户显示界面。

具体地，本实施例的地理知识问答系统包括：

1、本体知识库

本实施例中所用到的本体是使用RDF/RDFS语言来表示的。而本体知识库构建是以PA结构为基础动态构建的，用于基于关系型数据库对选定的地理领域词汇和地理知识问题及其答案进行存储及管理。

PA结构由谓词和语义组成，根据PA结构的这种特点，本实施例将本体分为事件类本体和论元类本体。

其中，事件类本体对应着PA结构中的谓词，它们描述的是动词性概念。比如会见、召开……某人、会议这样的概念。事件类本体中有一个通用的事件类，其他的事件都是他的子类。

论元类本体对应着PA结构中的论元，他们描述的是一种名词性概念，比如省、市、区这样概念。根据PA结构的语义的特点，论元类本体又可分为一些子类：时间、地点、人称代词、意义、频率、程度等等，这些可以根据背景本体所涉及到的领域来进行设计。

该本体知识库的动态构建过程包括：

将待处理的自然语言分词转化为语法结构；

以转化出的语法结构为基础将其转化为谓词-论元结构(PA结构)；

基于预先构建的背景知识本体，通过预设的本体映射算法将转化出的谓词 -论元结构与最终的语义结构建立起映射关系，完成语义信息的抽取。

首先是定义的通用事件类。

<事件,rdf:type,rdfs:Class>

谓词P以及其6个核心语义角色。这些语义都为事件类的属性。

<P,rdf:type,rdf:property>

<A0,rdf:type,rdf:property>

......

<A5,rdf:type,rdf:property>

接下来是15个附加语义。

<ADV,rdf:type,rdf:property>

……

<PSE,rdf:type,rdf:property>

定义语义的约束关系，这里以LOC语义为例。LOC表示的是“地点”语义，因此本实施例规定LOC属性的值域为“地点”类。

<LOC,rdf:domain,事件>

<LOC,rdf:range,Pos>

这样，根据上面定义的背景知识，就可以构建“XXX总理在人名大会堂会见班德”了。

<人民大会堂,rdf:type,Pos>

<事件1,rdf:type,事件>

<事件1,P,会见>

<事件1,A0,XXX>

<事件1,A1,班德>

<事件1,LOC,人民大会堂>

这种方式直接，能够涵盖所有的PA结构。对于上文所提到的会见事件来说，如果知识库中有特定的“改善事件”类，它是通用事件的子类，相对于上文定义的通用事件，本实施例将其定义为特定事件，它根据特定的某一个事件进行了一些专门的定义。

例如，“会见事件”包含“会见方”和“被会见方”两个属性，其定义域为“会见事件”类，值域为“人名”类。相关的定义如下。

<人名,rdf:type,rdfs:Class>

<会见事件,rdfs:subClassOf,事件>

<会见方,rdf:type,rdf:property>

<会见方,rdf:range,人名>

<会见方,rdf:domain,会见事件>

<被会见方,rdf:type,rdf:property>

<被会见方,rdf:range,事物的发展>

<被会见方,rdf:domain,会见事件>

相比通用的事件类表现方式，这种方式更能体现特定事件的特点，所以本发明采用的是该方式。

目前已经出现了很多比较成熟的RDF数据集的存储管理系统，本发明中的地理知识本体是基于关系型数据库的存储方法。该方法通过利用现有的成熟的关系型数据库来存储RDF数据。很多RDF存储系统都是用这种方式实现的，像 Jena、Rstar和3store等。这种方式可以利用关系数据库组织管理、事务控制和关系数据库的SQL语句，为RDF查询和操作的实现屏蔽了复杂的底层操作。

领域词库，主要是地理领域的专业词库，包含地理事件、地理位置、时间，描述，实体等。

语气词库，主要是根据汉语语气词的研究提炼出60多个无实际意义的语气词构成语气词库，为系统的剪枝处理做准备。

同义词库，同义词库的构建是根据网络上现有的汉辞网上的同文词近义词大全、网络流行的同义词库等来构建。其中包含的同义词为13100多个。

问题库：问题库中的问题是使用爬虫程序爬取的地理知识的一些常用问题和相对应的答案。

2、问句预处理模块

该模块定义问题结构、类型、枚举方式；在接收到用户提问后，该问句预处理模块首先对问句进行语句分析，然后基于语句分析结果把问题结构分为：热词、问词、映射词；该模块具体用于：

2.1分词和词性标注

以“XXX总理在人民大会堂会见班德”为例，问句预处理模块对其进行分词和词性标注后得到的结构如图2所示，可以看到句子被分成了一个个的词，每个词的词性也识别了出来。

2.2语义角色标注

语义角色标注(Semantic Role Labeling,SRL)是一种基于PA结构的浅层语义分析方法，它采用“谓语-动词-角色”的结构形式，标注句法成分为给定谓语动词的语义角色，每个语义角色被赋予一定的语义含义。如施事、受事、时间和地点等。对于上面的例子，语义角色标注的结果如图2所示。

其中谓词“会见”。“XXX总理”是它的施事(一般用A0表示)，而“班德”则是它的受事(一般用A1表示)，人民大会堂是其地点(一般用LOC表示)；

PA结构中的核心的语义角色为A0-5六种，A0通常表示动作的施事，A1 通常表示动作的影响等，A2-5根据谓语动词不同会有不同的语义含义。其余的15个语义角色为附加语义角色，如LOC表示地点，TMP表示时间等。

2.3问题分类

该问句预处理模块是使用基于主谓宾的词与词性匹配模式来对问题进行分类的：通过依存句法分析，提取问题的主谓宾成分并对其词性标注，由这些关键词的词性决定问题的类型。

在问答系统中，问题分类有以下两个作用：

第一，问题分类有效减少了候选答案占用的空间，提高系统返回答案的准确率和效率。第二，问题分类提供的答案信息类型决定了答案抽取的策略。

本系统共定义五种问题类型：人物、地点、实体、数量、时间。在问题类型枚举程序中增加新的问题类型，并在词性和问题类型之间做映射。然后在资源目录中增加新的模式匹配规则来支持新的问题类型的判定。

本系统定义3个文件代表不同抽象层级的模式，只需要在其中一个文件中增加新的模式即可。在问题类型转换类中将模式匹配规则映射为枚举类、问题类型程序中的实例。

系统从控制台获取问题，进行语料处理后(分词与词性标记)，开始使用模式匹配方式对问题进行分类。模式匹配分类是一种十分简单的分类算法，这种方法的思想基础是这样的：数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串。如上所述，系统用上述三种方式一一匹配，如果三种均返回同一种问题类型，则直接输出；如果有多种问题匹配类型，则返回可能性最大的问题类型。具体流程如图3所示：

3、问句相似度计算模块

在本发明的知识问答系统中，自然语言中很多语句虽然句法，词汇不一样，但是从语义的角度考虑却可以当成一句话。使得问句不能与本体知识库中现有的问题进行精确的匹配，所以通过问句相似度计算模块计算分类后的问题与本体知识库中问题的相似度，对分类后的问题进行相似度匹配，根据相似度匹配结果可以在知识库中查找意思相同的问题的答案，从而即使不与知识库问题完全匹配，也能正确的返回搜索结果。

自动问答系统中句子相似度的计算是一个最重要的理论基础。汉语是一种语义型语言，把问答系统的基本原理定位于系统相似原理，以计算元素间语义相似度为基础，不仅具有坚实的理论基础，且符合汉语本身特点。自动问答系统中，很多部分都需用到语句相似度计算，常问问题库中需用到问题与问题之间的相似度，在答案抽取模块中需要用到问题和候选文本中句子之间的相似度。

而句子信息的完整表达，需要依赖于组成句子的词语信息，词语的语义信息和句子的结构信息。为此，进行句子相似度计算时从句子的句法结构、组成句词语的语义两个方面进行研究，最大程度的将一个句子所包含的信息挖取出来，用于计算两个句子的相似度计算中。以这种思想为指导，本发明提出了综合特征的句子相似度计算方法。该计算方法主要从组成句子的词序，词距，句长，语义信息等方面进行相似度研究；具体地，在本实施例中，该问句相似度计算模块实现相似度计算的过程为：

对分类后的问题与本体知识库中问题，计算统计句子语义相似度和句子结构相似度，并将计算出的句子语义相似度和句子结构相似度进行综合，计算出用户提问的问题与本体知识库中问题的句子相似度；根据计算出的句子相似度，从本体知识库中查找句子相似度大于或等于预设相似度阈值的问题的答案。

现对具体计算过程介绍如下：

3.1句子结构相似度计算

句子的结构相似度计算采用基于规则的方法，该方法结合词距，句长，同时考虑词性的作用，综合三个方面确定句子的结构相似度；其中，

词距相似度的公式如下：

句长相似度的公式如下：

式中，Len(Q₁)和Len(Q₂)分别表示两个句子的长度；句长在一定程度上反应了两个句子的相似程度，句子长度相差越小，相似的程度越大。

分词完成后得到关键词集，从词汇属性方面，可能存在地理知识专业词、方言词和普通常用词，比如，“中国的首都是哪个城市”，很显然，地理领域专业词"首都”比普通常用词“城市”、承载了更多的信息量，因此，地理领域专业词将被赋予更大的权值。从词性方面，这些词当中可能包含有名词、动词、形容词、数词等多种词形，而经过大量的实践发现，名词和动词占整个句子的信息量比重最大，即句子所表达的中心信息是围绕名词和动词来展开的，且名词比动词更为重要。所以，本实施例从词性和词汇属性两方面，对分词后的关键词进行加权，对不同的词性赋予对应的权值，增加准确度。

词性相似度的公式如下：

结合上述常见的三种基于规则的表层相似度，即句长相似度、距离相似度，以及对关键词词性进行考虑的词性相似度，见公式(1)(2)(3)，将三种相似度进行线性融合，得到句子结构相似度为：

式中，λ₁，λ₂，λ₃为权重系数，代表对三种相似度的偏重程度，其值可由本领域技术人员根据经验评估或依据实际需求预设。

3.2概念语义相似度计算

目前，基于本体的语义相似度计算方法研究已经形成了丰富的研究成果，针对本体语义相似度计算中两个个主要影响因素：概念属性和概念距离，分析传统计算方法中的不足，研究者一般将基于本体的语义相似度计算方法划分为基于距离的语义相似度计算、基于属性的语义相似度计和混合语义相似度计算。

3.2.1基于距离的概念语义相似度计算：

基于距离的概念语义相似度计算模型考虑领域本体类的层次关系，利用语义重合度、语义层次深度、语义距离和语义距离多种因素，来计算概念的语义相似度；其中，

语义重合是指在领域本体树形结构中，两个节点的父节点中为公共节点的个数；也可以映射为概念级别：包含相同上位概念的数量。语义重合度是度量两个概念的相同程度。在计算中，实例i的父节点数是从实例i进行向上溯源直到根节点所遍历的节点数。计算公式为：

Depth(i)＝Depth(Parent(i))+1 (6)

本体树T的深度为：

Depth(T)＝Max(Depth(i)) (7)

即本体树的深度取树中节点的最大深度；

语义距离是指在本体结构树中连接两个概念节点的通路中最短路径边数 Dis(a,b)来表示节点a和b在本体结构树中的最短路径边数。Dis(a,b)越大，两个概念的相似度越低；反之，相似度越高。语义距离对应的相似度公式为：

式中，Dis(a,b)表示节点a和b在本体结构树中的最短路径边数；

语义密度是指概念的所有同位节点，或叫兄弟节点的个数。在本体树中，局部节点密度越大，说明该节点对应的概念的细化程度越大，因此，对应的相似度就越高。用表示节点i他的兄弟节点的个数。对应的相似度公式如下：

式中，BrotherNum(i)为节点i的兄弟节点的个数；

综合考虑以上四个影响因素分别对应的语义相似度算法，得到基于距离的概念语义相似度的计算模型：

Sim₁(a,b)＝αSim_over(a,b)-βSim_Dis(a,b)-γSim_Den(a,b) (10)

式中，α，β，γ为权重系数，代表对三种相似度的偏重程度，其值可由本领域技术人员根据经验评估或依据实际需求预设。

3.2.2基于属性的概念语义相似度计算模型

在比较现实世界中的两个事物时，通常是比较事物他们的属性，如果他们的属性相同的个数越多，也就说明这两个事物越相似。正是这种思想成为了基于属性的语义相似度计算模型的基本原理：本体概念的特征通过概念属性来表明，基于属性的计算方法利用统计概念所具有的公共属性的个数来完成概念的语义相似度计算。概念的相似度与概念拥有的公共属性个数成正比。Tversky 提出了最经典的基于属性语义相似度计算方法，计算模型如下：

Sim₂(a,b)＝αProperties(a∩b)-βProperties(a-b)-γProperties(b-a) (11)

其中，Properties(a∩b)表示概念a和b所拥有的公共属性的集合， Properties(a-b)表示概念a拥有而概念b不拥有的属性集合，Properties(b- a)则表示概念b拥有而概念a不拥有的属性集合。基于属性的计算方法是一种模拟人类认知和辨识现实生活中各类事物的过程，且需事物属性的详细信息。

3.2.3基于主成分分析的概念语义相似度混合计算

很多研究者提出了一种更加有效的混合式算法，综合多因素的计算结果判定各个因素权并进行线性相加得到一个综合的相似度结果在一定程度上提高了计算结果的准确性。但综合加权过程中的权值是由本领域的专家确定的，存在主观性、不准确性而且对不同的本体不具有适应性。

针对权值精确判定和综合计算进行研究，本发明采用一种利用数学中的主成分分析法(PCA)并进行相应改进，对通过各个因素计算的数据进行分析，计算各个因素权重，是一种客观赋权方法。计算出权值后对多因素计算结果进行加权线性相加得到最终相似度。

PCA是一种多元统计方法，通过损失较少信息将多个指标转化成几个综合指标。通常将转化生成的综合指标定义为主成分，相比于原始变量，主成分更加优越，因为每个主成分都是原始变量的线性组合，并且各主成分间互不相关。在PCA中个主成分的权重不是人为确定。而是根据其贡献率来分配的，这样更好的实现了对多因素分析中人为确定权值的不足，保证了结果的客观性、合理性和准确性。

本发明采用主成分分析法动态计算权值主要是利用主成分分析法计算出各因素的贡献率作为权值。原始主成分分析法是按累计贡献率大于设定阈值来确定主成分。本文提出两个因素：距离、属性都要作为主成分，可以忽略这个环节，提高算法的效率。基于PCA的动态权值计算方法主要思想如下：

(1)将基于距离的相似度和基于属性的相似度作为两个维度，通过多个样本的计算得到相似度矩阵作为输入样本矩阵；

(2)对所述输入样本矩阵进行矩阵标准化变换为标准矩阵Z，并求出相关系数矩阵R；

(3)求出样本相关系数矩阵R的特征方程的32个特征根以确定主成分；

(4)解方程组单位特征向量；

(5)转换标准化后的指标变量为主成分；

(6)将两个主成分进行加权并线性求和，即得最终概念语义相似度值，相应的权值为各个主成分的贡献率。

算法如下：

Begin

Input节点概念a，b，公共节点概念c，根节点概念r

Compute Sim_over(a,b)

Sim_Dis(a,b)

Sim_Den(a,b)

Sim₁(a,b)

defineα,β,γ

Sim₂(a,b)

PCA(Sim₁(a,b),Sim₂(a,b))/*用主成分分析法PCA计算三个因素的动态权值*/

Sim_total(a,b)

End

3.3、问句的语义相似度计算

3.3.1基于概念语义相似度的句子语义相似度计算

设句子Q₁和Q₂分别含有m个概念W₁₁…W_1m和n个概念念W₂₁…W_2n；

(1)从Q₁中选出一个概念分别与Q₂中的n个概念，计算概念语义相似度，直至Q₁中概念循环完为止，得到概念语义相似度矩阵：

(2)计算第一个概念集与第二个概念集的概念语义平均最大相似度

(3)计算第二个概念集与第一个概念集的概念的平均最大相似度

(4)计算公式(13)和(14)结果，求平均值，得到句子语义相似度

3.3.2问句语义相似度计算模型

针对地理领域特点，综合考虑多重信息，包括句子结构相似度和句子语义相似度，将相似度算法进行融合，最后定义两个句子的相似度为：

Sim＝(1-η)SynSim+ηSemSim (16)

其中，η为权重系数，当η为1时，表示只使用语义相似度；当η为0时表示只使用句子结构相似度，其值可由本领域技术人员根据经验评估或依据实际需求预设。

4、候选答案提取模块

将在本体知识库中查找到的答案提取出来作为候选答案，同时当在本体知识库中未找到答案时，还可以根据问句预处理模块处理得出的关键字组合，利用网络检索相关文本信息，从网络所搜问题答案，并搜索到的答案作为候选答案。然后通过证据评分模型评判证据的问题支持度，按照从高分到低分的顺序对候选答案进行排序并传递给用户显示界面。

候选答案提取模块主要评价候选答案的可信度，通过抽取函数提取证据中的有效关键词，再利用候选答案评分模型计算每个候选答案的分值，只留下排名前三的候选答案再传递给用户展示界面。

提取函数提取的关键字即可能的答案，一些提取函数寻找的目标样例(p 是文本，ψ是中心词，f是提取函数)如表1所示：

表1提取函数目标示例表

提取多个候选答案后，由于中文语言处理技术不够完善，关键词里夹杂无关文本，致使候选答案质量参差不齐。因此需要对所有候选答案进行评分。本系统共使用七种候选答案评分模型。系统根据问题分类及证据的分词结果选择一种评分模型，并随机赋予它一个值(一般是1)，或者使用综合评分模型，进行简单线性加权得出最终分值。最后按从高到低的顺序得出其置信度。该模块的工作流程如图4所示。

本实施例通过将地理领域中用户常见问题和领域知识结合构建本体知识库，并结合语义分析，语义相似度计算，本体等相关技术，实现了一种地理领域的知识问答系统，该问答系统可以实现五大类问题(人物、时间、地点、数量、实体)处理，并且达到80％以上的准确率；

此外，需要说明的是，本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。