CN104361127B

CN104361127B - 基于领域本体和模板逻辑的多语种问答接口快速构成方法

Info

Publication number: CN104361127B
Application number: CN201410735376.7A
Authority: CN
Inventors: 朱新华; 毛俊青; 陈宏朝; 袁鼎荣
Original assignee: Guangxi Normal University
Current assignee: Phoenix Science and Technology Development Co.,Ltd.
Priority date: 2014-12-05
Filing date: 2014-12-05
Publication date: 2017-09-26
Anticipated expiration: 2034-12-05
Also published as: CN104361127A

Abstract

基于领域本体和模板逻辑的多语种问答接口快速构成方法，包括：（1）多语种的领域本体结构的构建；（2）基于领域本体的一阶模板逻辑系统的建立；（3）基于领域本体与模板逻辑的多语种问句模板结构的设计；（4）面向领域的问句模板库的建立；（5）用户问句预处理与问句模板匹配；（6）用户问句的语义获取与多语种互译方法。本发明通过领域本体与模板逻辑可更加精确地表达问句模板的语义，结合模板运算符提高了问句模板的表达能力，使其更具代表性，可减少模板库的规模，并且多语种本体类似一个多语种的语义词典，易于实现跨语种信息查询。按照该方法可快速构成各类面向领域的智能信息检索与自动问答系统的多语种人机交互接口。

Description

基于领域本体和模板逻辑的多语种问答接口快速构成方法

技术领域

本发明属于计算机的人工智能领域，是一种基于知识与逻辑的问句处理方法，具体是基于领域本体和模板逻辑的多语种问答接口快速构成方法，可以应用于面向领域、多语种的智能信息检索与自动问答系统中。

背景技术

随着互联网技术的飞速发展，使网络信息成指数的增长，为了从这些海量信息中快速、准确的获得需要的信息，传统的搜索引擎已不能满足用户的需求，智能信息检索与自动问答系统因其能够准确、直接地回答用户问题,正逐渐成为研究的重点和热点，然而由于用户问句的多样性与随意性，造成准确获取用户问句的语义与预期非常困难，因此目前自动问答与智能信息检索答案的准确率还不高。另一方面，在全球一体化的背景下，人们不仅仅依赖于母语检索信息，更希望实现跨语种的信息查询，在不同语种的信息库中获取各种数据信息，然而跨语种的问句自动翻译目前仍然是自然语言处理领域中的一个难题。

问句处理与理解是智能信息检索与自动问答系统中的第一个执行阶段，它的目标是让计算机理解用户的问句，获取用户的提问意图，为后面的信息检索提供依据。问句的理解一般包含词法分析、句法分析和语义分析，目前，语义分析是自然语言处理的瓶颈。在面向领域的信息检索与问答系统中，用户的查询具有很多相似性，例如在基于本体的知识库中，很多都是对概念或实体的属性进行查询，还有对概念之间的关系以及属性之间的关系，可以把这些问句抽取成基于领域本体的、具有代表性、封装有语义信息的问句模板，从而有效地避免复杂的词法分析、句法分析和语义分析。因此，研究基于领域本体和问句模板的问句理解方法具有十分重要的意义。

目前基于领域本体和问句模板的问句理解方法，普遍直接采用所规定的本体元素符号实现问句模板的公式化，例如，直接规定以C开头的符号表示概念，以R开头的符号表示关系等，由于没有采用逻辑系统，问句模板的语义不够精确，其表达能力不够强，模板匹配算法也较复杂，本发明所提出的基于领域本体的一阶模板逻辑系统可有效地克服这些不足。

发明内容

针对词法分析、句法分析和语义分析是自然语言处理的瓶颈，以及传统问句模板方法中的语义不精确、表达能力弱与模板库庞大等弱点，本发明提供一种基于领域本体和模板逻辑的多语种问答接口快速构成方法。本发明通过多语种的领域本体实现领域知识的形式化与共享；通过基于领域本体的模板逻辑提高问句模板的语义精度，实现基于逻辑表达式的跨语种的问句语义表示；通过模板运算符有效地提高问句模板的表达能力，实现简单、准确的模板匹配算法，从而快速构成多语种的用户问答接口。

基于领域本体和模板逻辑的多语种问答接口快速构成方法，包括：

(1)多语种的领域本体结构的构建；

(2)基于领域本体的一阶模板逻辑系统的建立；

(3)基于领域本体与模板逻辑的多语种问句模板结构的设计；

(4)面向领域的多语种问句模板库的建立；

(5)用户问句预处理与问句模板匹配；

(6)用户问句的语义获取与多语种互译方法。

知识库是问答系统的重要组成部分，它是实现语义层次上的信息查询的基础。基于本体的领域知识库，有利于知识的组织、管理、维护与共享，以及实现语义查询与推理。多语本体是采用多种不同的语言来描述本体知识,它与多语种的语义词典相类似,可作为跨语言信息查询的一个重要工具。良好的本体知识结构不仅能够将领域知识的结构与关系完整地体现出来，同时还可为问句处理与问句模板的匹配提供强大的支持，因此构建合理的本体结构至关重要。

本发明在步骤(1)将领域本体形式化为一个七元组：

O＝{C，A，R，HC，I，X，SY}

C表示与某个领域相关的所有概念的集合，该集合界定了用户提问的主题范围；

是概念的数据属性的集合，表示概念的内涵，用于界定问答系统中概念与个体的特征范围；

表示概念之间的二元关系集合，反映某个领域中的概念之间所建立的联系，用于界定问答系统中概念之间的联系范围，分为基本关系和领域关系，即：

R＝{基本关系，领域关系}

基本关系：所有领域所共有的概念之间的关系，

领域关系：描述某个领域所特有的概念之间的关系；

是领域概念的分类层次结构，反映了某个领域的概念之间的上、下位关系，可为问答系统中与概念分类相关的提问提供答案推理支持；

I代表实例集合，表示某个领域所有概念的具体实体，可为问答系统中与领域对象相关的提问提供答案查询支持；

X代表公理集合，是某个领域的逻辑形式的永真断言，可为问答系统中与领域理论相关的提问提供答案推理支持；

SY代表同义词集合，本发明要求在领域本体的设计过程中，为是每一个本体元素，包括本体的概念、实例、属性与关系，给出其所有不同形态与不同时态的同义词，可为问答系统中的用户问句处理与问句模板的匹配提供支持。

为精确、跨语种地表达问句模板的语义，本发明为问句模板的定义设计了一套模板逻辑系统。步骤(2)所述的逻辑系统是一个以领域本体元素为运算对象，对问句模板进行语义标注与语义解释的一种特殊的一阶逻辑，本发明将应用于问答接口中的模板逻辑系统TSL(Templet Logics System)定义成如下的三元组：

TLS∷＝(<谓词集合>，<运算符>，<标注符>)

谓词：用于声明、识别与判定问句模板中的本体元素。分为一元和二元二种类型。谓词集合在实际应用中，可以根据需要动态扩展。谓词还可在模板结构中作为变量的类型符使用，例如，<C1：Concept>，表示变量C1的类型为一个本体概念，其中谓词Concept作为一个本体概念的类型符使用。

运算符：用于提高模板逻辑的表达能力。本发明通过引入运算符，进一步提高模板逻辑的表达能力，分为单目、双目与三目三种类型的运算符。

标注符：用于分隔与界定模板中的各类元素。

在模板逻辑系统中，谓词集合是根据具体领域的特点动态扩展的。

在步骤(3)：

所述问句模板由问句结构模板、语义模板以及对应的答案模式组成，其BNF定义为：

<问句模板>∷＝(<多语种问句结构>，{<同义结构>}，<本体特征>，<问句语义>，<答案语义>)；

其中：

问句结构：代表问句模板的表层形态，定义如下：

<问句结构>∷＝({<本体元素>}，{<特征元素>}，{<其他元素>})；

同义结构：与问句模板具有相同语义的问句结构，一个问句模板可以包含多个同义结构；

本体特征：反映问句模板与领域本体之间的映射关系，由问句结构中所包含的本体元素所构成，为问句模板的分类与搜索提供关键词；

问句语义：由一个“？”运算所引导，表示问句所要求解的用户预期；

答案语义：通过条件运算符(？∶)给出分支结构的答案语义，用于组织返回给用户的答案；

本体元素：指出现在用户问句中的领域本体元素，包括本体的概念、实例、属性与关系，在问句结构模板中，本体元素用尖括号分隔与标注；

特征元素：指在问句结构中，除本体元素之外，其他影响问句语义的句子成份，在问句结构模板中，特征元素用尖括号”<>”或方括号“[]”分隔与标注；

其他元素：指在问句结构中，不影响问句语义的句子成份，直接使用标点或空格进行分隔。

进一步，本体元素通过模板逻辑中的谓词进行符号化，一个问句结构模板至少包含一个本体元素。

更进一步，问句语义是跨语种的，所有语义都是通过本体变量的逻辑表达式来表示。

本发明所给出的基于领域本体与模板逻辑的问句模板结构是面向领域的，即在具体应用中，不同领域的自动问答系统中所采用的问句模板是各不相同的，因此要按照本发明所给出的问句模板结构与问句模板库的建立流程，根据不同领域问答系统的特点，分别为其建立相应的问句模板库。

本发明步骤(4)所述的基于领域本体与模板逻辑的问句模板库的建立包括：

1)收集多语种用户问句，形成本领域的多语种用户问句集合；

2)根据用户的提问对象，将问句集合中的用户问句进行分类；

3)使用多语种领域本体与模板逻辑对每一类用户问句，按照问句模板结构定义进行模板化，形成一个与问句集合相对应的初始问句模板库；

4)在问答系统中试用初始问句模板库，发现处理错误或不能处理的用户问句；

5)逐个分析错误处理用户问句的原因，并根据分析结果修改相应的问句模板结构；

6)逐个分析不能处理用户问句的原因，并根据分析结果修改现有问句模板结构或在模板库中增加一个新的问句模板；

7)重复上述4)、5)、6)三个步骤，直到用户对多语种问句处理的满意度达到90％以上。

本发明的问答接口的功能是通过基于领域本体和模板逻辑的问句模板，获取用户问句的语义与预期，为系统的信息检索与答案抽取提供依据。本发明的问答接口的工作流程分为问句预处理与问句模板匹配二个过程。在步骤(4)，问句预处理包括：首先进行单字或单词获取，然后进行词性标注，之后根据相应的规则进行本体元素与特征元素的标注；

其中，用户问句本体元素的标注流程、规则与格式如下：

1)概念标注：将问句中的名词逐个与领域本体中的概念同义词进行匹配，若有与其相同的概念，则将该名词标注为概念，标注格式为：<概念名：Concept>，其中，Concept为模块逻辑系统中的谓词，在此处作为本体概念的类型符使用；

2)实例标注：将问句中概念标注后剩余的名词与专用名词短语逐个与领域本体中的实例同义词进行匹配，若有与其相同的实例，则将该名词标注为实例，标注格式为：<实例名：Instance>，其中，Instance为模块逻辑系统中的谓词，在此处作为本体实例的类型符使用；

3)属性标注：将问句中剩余的名词逐个与领域本体中的属性同义词进行匹配，若有与其相同的属性，则根据该属性的类型将名词标注为相应的属性类别，标注格式为：<属性名：属性类别>，其中，“属性类别”为模块逻辑系统中的谓词，在此处作为本体属性的类型符使用；

4)关系标注：将问句中的动词或带介词的动词短语以及剩余的名词逐个与领域本体中的关系同义词进行匹配，若有与其相同的关系，则将该动词或名词标注为关系，标注格式为：<关系名：Relation>，其中，Relation为模块逻辑系统中的谓词，在此处作为关系的类型符使用；

5)概念集合标注：将问句中多个由连词或标点连接的多个概念名组合成概念集合，标注格式为：<{概念集合}：ConceptSet>，其中，ConceptSet为模块逻辑系统中的谓词，在此处作为本体概念集合的类型符使用；

用户问句特征元素的标注流程与规则如下：

1)将进行本体元素标注之后的问句中动词标注成特征元素，标注格式为：<动词名>；

2)将本体概念元素或本体实例元素后面的名词标注成一个特征元素；

3)将通过助词“的”或介词“of”与本体概念元素或本体实例元素相连的名词标注成一个特征元素，同时将连接词“的”或“of”标注成一个特征元素；

4)将疑问词标注成一个特征元素；

5)将本体概念元素与本体属性元素之间的助词“的”或介词“of”标注成一个特征元素；

6)将本体概念元素前面的介词标注成一个特征元素。

特别地，对西文问句不需要分词，可以通过空格分隔符直接获得单词；并且，句中的单字或单词的获取与词性标注需要在本体同义词库与多语种语言词典的共同支持下进行。

本发明在步骤(5)，问句模板匹配包括：按用户问句的本体特征搜索模板库、句模相似度计算、选择相似度最高且大于阈值的模板为匹配目标；

所述句模相似度计算是指用户问句与问句模板的相似度计算，包括：

1)将问句模板结构，按从左到右的顺序生成一个由本体元素与特征元素构成的语义元素组，其中，多个连续的同类元素用“|”分隔组成一个语义元素；

2)为用户问句生成一个与问句模板相对应的语义元素组，其中，如对应位置无同类元素的用0表示；

3)从问句模板的语义元素组中，按从左到右的顺序依次取出由“<>”分隔的必选元素，与用户问句语义元素组对应位置的元素进行比对；其中，对于本体元素，只比较由谓词表示的本体类型符是否相同，而特征元素则比较对应的单词或短语是否相同；对于由“|”连接的多个连续的同类元素，采用单个模板元素逐一与多个问句元素进行比较；若有相同的，将比中后的二个元素分别从其所在的元素组合中删除，再进行下一个元素的比较；

4)重复3)，直到问句模板的语义元素组中所有必选元素全部比对完毕，或用户问句语义元素组为空；

5)分别统计模板语义元素组中与用户问句语义元素组对应位置相同的必选本体元素与特征元素的个数，并按下式计算句模相似度：

其中，O(user,temp)表示用户问句与问句模板(句模)的语义元素组中必选本体元素相同的个数，No表示模板语义元素组中必选本体元素的个数，而F(user,temp)表示句模语义元素组中必选特征元素相同的个数，N_f表示模板语义元素组中必选特征元素的个数，α为本体元素相似度在句模相似度中的权重，β为特征元素相似度在句模相似度中的权重，0<β<α<1且β+α＝1。

最后，在步骤(6)，包括：

1)使用用户问句中的本体元素常量替换其匹配模板中的所有本体元素变量；

2)返回匹配模板中的问句语义模板作为用户问句的问句语义；

3)返回匹配模板中的答案语义模板作为用户问句的答案语义；

4)使用用户问句中的本体元素常量的多语种同义词替换其匹配模板中的所有多语种本体元素变量，同时返回匹配模板中多语种的问句结构作为用户问句的多语种互译结果。

本发明通过领域本体与模板逻辑可以更加精确地表达问句模板的语义，同时结合模板运算符提高了问句模板的表达能力，使得问句模板更具代表性，从而可减少模板库的规模。本发明采用多语本体作为知识库，其知识库结构完整，有利于知识的组织、管理、维护以及实现语义查询与推理，并且多语种本体类似于一个多语种的语义词典，易于实现跨语种信息查询。按照本发明的方法可快速构成各类面向领域的智能信息检索与自动问答系统的多语种人机交互接口。

本发明的优点总结如下：

1、不依赖于句法分析，在很大程度上简化了语义分析处理的流程；

2、问句模板的语义表达精确，模板表达能力强，可以通过条件运算符给出分支结构的答案语义；

3、模板匹配算法简单、准确，可以消除句法分析带来的部分歧义，操作方便，反应时间短；

4、问句语义采用基于本体变量的逻辑表达式来表示，可实现多语种问句的互译。

附图说明

图1本体概念层次结构示意图。

图2多语种问答接口的工作流程图。

具体实施方式

作为本发明的一种具体实施方式，一种基于领域本体和模板逻辑的多语种问答接口快速构成方法，包括：一个多语种的领域本体的结构；一个基于领域本体的一阶模板逻辑系统，包括模板谓词与模板运算符；一个基于领域本体与模板逻辑的多语种问句模板结构；一套面向领域的多语种问句模板库的建立流程；一套多语种用户问句处理与问句模板匹配的流程、相关规则与相关算法。具体的技术方案如下。

1.多语种的领域本体结构

本发明将应用于智能信息检索与自动问答系统中的领域本体形式化为一个七元组：

O＝{C，A，R，HC，I，X，SY}

下面以中文和英文语种为例，以《计算机基础知识》学科领域本体为例，说明本发明所设计的应用于智能问答系统中的领域本体的各种元素的定义与作用。

(1)C表示与某个领域相关的所有概念的集合，该集合界定了用户提问的主题范围。例如：

C＝{软件系统|software system，软件|software，程序|program，文档|document，数据|data，指令|command，应用软件|Application software，系统软件|systemsoftware，文件系统|file system，操作系统|operating system，语言处理程序|languageprocessing，服务性程序|Service program，高级语言|high-level language，汇编语言|Assembly language，机器语言|Machine language，二进制|binary，十进制|decimalize，八进制|octal，十六进制|hexadecimal，硬件系统|hardware system，硬件|hardware，运算器|ALU，控制器|controller，……}。

(2)是概念的数据属性的集合(DT是一个数据类型集合)，表示概念的内涵，用于界定问答系统中概念与个体的特征范围。例如：

操作系统(A^C)＝{名称|Name，版本|Version，功能|Function，厂商|Vendor，……}

文件(A^C)＝{名称|Name，类型|Type，大小|Size，建立日期|Created Date，……}

CPU(A^C)＝{型号|Type，主频|Frequency，功能|function，……}

光盘(A^C)＝{容量|Capacity，厂商|Manufacturer，类型|Type，……}

显示器(A^C)＝{特征|Feature，型号|Type，分辨率|resolution，……}。

(3)表示概念之间的二元关系集合，反映某个领域中的概念之间所建立的联系，用于界定问答系统中概念之间的联系范围，分为基本关系和领域关系，即：

R＝{基本关系，领域关系}

1)基本关系：所有领域所共有的概念之间的关系，例如：

Rb＝{父子|hasSubtype,整体-部分|hasPart，成员|hasMember，属于|hasProperty，功能|hasFunction，基于|baseOn，前驱|isPrecursor，后继|isDescender，对立|oppositeOf，描述|describedBy，实例|exampleOf，等价|sameAs，……}

例如：整体-部分(计算机，显示器)：表示显示器是计算机的一部分。

2)领域关系：描述某个领域所特有的概念之间的关系，例如：

Rs＝{存储|store，编码|code，执行|execute，支持|support，显示|display，连接|Link，编译成|Compiled，缩写|acronym，输入|input，输出|output，……}。

(4)是领域概念的分类层次结构，反映了某个领域的概念之间的上、下位关系，可为问答系统中与概念分类相关的提问提供答案推理支持。部分概念层次结构如图1所示。

(5)I代表实例集合，表示某个领域所有概念的具体实体，可为问答系统中与领域对象相关的提问提供答案查询支持。例如：

操作系统(I^C)＝{Linus，Windows XP，Windows 8，Unix，Android}

CPU(I^C)＝{酷睿i7，酷睿i5，酷睿i3，APU A10，APU A8，APU A6，APU A4}

显卡(I^C)＝{华硕GTX760系列，华硕GTX980系列，华硕GTX650系列，蓝宝AMDFirePro W9100，蓝宝石ATI FirePro V4800}。

(6)X代表公理集合，是某个领域的逻辑形式的永真断言，可为问答系统中与领域理论相关的提问提供答案推理支持。例如：

软件≡程序∪文档

内存存储.AccessedBy.中央处理器。

(7)SY代表同义词集合，本发明要求在领域本体的设计过程中，为是每一个本体元素，包括本体的概念、实例、属性与关系，给出其所有不同形态与不同时态的同义词，可为问答系统中的用户问句处理与问句模板的匹配提供支持。例如：

SY＝({计算机，电脑，智能计算机}，{内部存储器，内存，主存}，{外部存储器，外存，辅助存储器}，{hasDefinition，hasDescription，hasExplanation，definition，explanation，description}，……)。

2.模板逻辑系统

为精确、跨语种地表达问句模板的语义，本发明为问句模板的定义设计了一套模板逻辑系统。该逻辑系统是一个以领域本体元素为运算对象，对问句模板进行语义标注与语义解释的一种特殊的一阶逻辑，本发明将应用于问答接口中的模板逻辑系统TSL(Templet Logics System)定义成如下的三元组：

TLS∷＝(<谓词集合>，<运算符>，<标注符>)

(1)谓词：用于声明、识别与判定问句模板中的本体元素，分为一元和二元二种类型，如表1、表2所示。本发明只给出了所有领域所共同需要的核心谓词集合，该集合在实际应用中，可根据具体领域的特点动态扩展谓词除可出现在语义逻辑表达中外，还可在模板结构中作为变量的类型符使用，例如，<C1：Concept>，表示变量C1的类型为一个本体概念，其中谓词Concept作为一个本体概念的类型符使用。

表1一元模板谓词

一元谓词	用途
		Concept(c)	声明模板符号c为领域本体中的一个概念
Instance(x)	声明模板符号x为领域本体中的一个实例
		dataProperty(p)	声明模板符号p为领域本体中的一个数据型属性
stringProperty(p)	声明模板符号p为领域本体中的一个字符型属性
		valueProperty(p)	声明模板符号p为领域本体中的一个数值型属性
dateProperty(p)	声明模板符号p为领域本体中的一个日期型属性
		Relation(p)	声明模板符号p为领域本体中的一个对象型属性
ConceptSet(S)	声明模板符号S为领域本体中的一个概念集合

表2二元模板谓词

subClassOf(c1，c2)	判定概念c1是否为c2的直接子类
		PosterityOf(c1，c2)	判定概念c1是否为c2的子孙(后代)类
equivalenceClass(c1，c2)	判定概念c1与c2是否为等价类

(2)运算符：本发明通过引入运算符，进一步提高模板逻辑的表达能力，分为单目、双目与三目三种类型的运算符。表3列出了本发明为模板逻辑所设计的运算符。

表3模板运算符

(3)标注符：本发明为问句模板结构设计了一套模板元素标注符，用于分隔与界定模板中的各类元素，如表4所示。

表4模板标注符

标注符	解释
		<>	界定模板中的一个必选的本体元素或特征元素
[]	界定模板中的一个可省略的本体元素或特征元素
		{}	表示模板中的元素集合
\|	连接二个具有或关系的模板元素

3.基于领域本体与模板逻辑的问句模板结构设计

本发明通过领域本体与模板逻辑实现问句模板的结构标注、语义提取与答案表示。本发明的问句模板由问句结构模板、语义模板以及对应的答案模式组成，其BNF定义为：

<问句模板>：：＝(<多语种问句结构>，{<同义结构>}，<本体特征>，<问句语义>，<答案语义>)

(1)问句结构：代表了问句模板的表层形态，本发明将问句结构模板定义如下：

<问句结构>：：＝({<本体元素>}，{<特征元素>}，{<其他元素>})

本体元素：指出现在用户问句中的领域本体元素，包括本体的概念、实例、属性与关系，是构成问句语义的重要成份，用户提问的主题是由本体元素所构成。为提高模板的通用性，本体元素通过模板逻辑中的谓词进行符号化。一个问句结构模板至少包含一个本体元素。在问句结构模板中，本体元素用尖括号分隔与标注。

特征元素：指在问句结构中，除本体元素之外，其他影响问句语义的句子成份，如疑问词、系动词等。在问句结构模板中，特征元素用尖括号”<>”或方括号“[]”分隔与标注。

其他元素：指在问句结构中，不影响问句语义的句子成份，如问句中的客套语和祈使语，直接使用标点或空格进行分隔。

(2)同义结构：与问句模板具有相同语义的问句结构，一个问句模板可以包含多个同义结构。

(3)本体特征：反映问句模板与领域本体之间的映射关系，由问句结构中所包含的本体元素所构成，可为问句模板的分类与搜索提供关键词。

(4)问句语义：在问句结构的基础之上使用模板逻辑表达式进一步明确用户的提问预期的语义。问句语义由一个“？”运算所引导，表示问句所要求解的用户预期。本发明的问句语义是跨语言的，所有语义都是通过本体变量的逻辑表达式来表示。

(5)答案语义：用于组织返回给用户的答案，可以通过条件运算符(？∶)给出分支结构的答案语义。

下面，通过三个问句模板的定义说明问句模板的结构及模板逻辑在问句模板定义中的作用：

问句模板1：询问某个概念的字符属性

<中文问句结构>∷＝请告诉我，<C：Concept>[的]<P：stringProperty><是><什么>[？]

<英文问句结构>∷＝Please tell me，<what><is>the<P:stringProperty>[of]<C：Concept>[？]

<本体特征>∷＝<Concept>，<stringProperty>

<中文同义结构>∷＝请告诉我，<什么>)<是>ZTB<Ci>[？]

<英文同义结构>∷＝The<P:stringProperty>[of]<C：Concept>[？]

<问句语义>∷＝？C.P

<答案语义>∷＝C.P

<例句>：请告诉我，内存的定义是什么？

问句模板2：查询某个概念的子类集合

<中文问句结构>∷＝<C1：Concept>，<除><S1:ConceptSet>外，还<包括><哪些>[？]

<英文问句结构>∷＝What the<C：Concept><includes><besides><S1∶ConceptSet(S)><？>

<本体特征>∷＝<Concept>，<ConceptSet>

<中文同义结构>∷＝<除><S1∶ConceptSet(S)>外，<C1：Concept>还<包括><哪些>[？]

<英文同义结构>∷＝<Besides><S1:ConceptSet(S)>，what the<C：Concept><include><？>

<问句语义>∷＝？(S2)(ConceptSet(S2)∧C2∈S2(PosterityOf(C2,C1)∧C3∈S1C2≠C3))

<答案语义>∷＝S2

<例句>：除CPU外、内存外，计算机硬件还包括哪些？

问句模板3：子类概念判定查询

<中文问句结构>∷＝<C1：Concept><是|是一种|为><C2：Concept><吗>[？]

<英文问句结构>∷＝<C1：Concept><is the|is a|is a kind of><C2：Concept><？>

<本体特征>∷＝<Concept>，<Concept>

<问句语义>∷＝？subClassOf(C1，C2)

<中文答案语义>∷＝subClassOf(C1，C2)？“是”:“不是”

<英文答案语义>∷＝subClassOf(C1，C2)？“Yes”:“No”

4.面向领域的多语种问句模板库的建立流程

本发明给出了一种基于领域本体与模板逻辑的问句模板的通用结构，但该问句模板结构是面向领域的，即在具体应用中，不同领域的智能信息检索系统或自动问答系统中所采用的问句模板是各不相同的，因此要根据不同领域问答系统的特点，分别为其建立相应的问句模板库，具体流程为：

(1)收集多语种用户问句，形成本领域的多语种用户问句集合。

(2)根据用户的提问对象，将问句集合中的用户问句进行分类。

(3)使用多语种领域本体与模板逻辑对每一类用户问句，按照上述结构进行模板化，形成一个与问句集合相对应的初始问句模板库。

(4)在问答系统中试用初始问句模板库，发现处理错误或不能处理的用户问句。

(5)逐个分析错误处理用户问句的原因，并根据分析结果修改相应的问句模板结构。

(6)逐个分析不能处理用户问句的原因，并根据分析结果修改现有问句模板结构或在模板库中增加一个新的问句模板。

(7)重复(4)、(5)、(6)三个步骤，直到用户对多语种问句处理的满意度达到90％以上，此时得到的问句模板库就是一个成型的、可投入实际使用的多语种问答接口模板。

5.用户问句处理与问句模板匹配的流程

本发明的问答接口的功能是通过基于领域本体和模板逻辑的问句模板，获取用户问句的语义与预期，为系统的信息检索与答案抽取提供依据。本发明的多语种问答接口的工作流程分为问句预处理与问句模板匹配二个过程，如图2所示。其中，实线大框内部分为本发明所设计的跨语种自然语言问答接口的模功能块，上方为用户输入的自然语言问句，下方为问答接口对用户问句的处理结果。

对于用户输入的提问，在进行问句模板匹配之前，问答接口首先根据用户的输入进行问句的预处理。对于中文问句，首先需要进行单字(词)获取，而西文问句如英文问句则不需要分词，可以通过空格分隔符直接获得单词。在单词获取之后需要对单词或短语进行名词、动词等常规的语言词性标注，然后根据相应的规则进行本体元素与特征元素的标注。由于不同领域本体中的许多概念名与实例名的命名会比较特殊，本发明问句中的单字(词)获取与词性标注需要在本体同义词库与多语种语言词典的共同支持下进行。

其中：

(1)用户问句本体元素的标注流程、规则与格式：

1)概念标注：将问句中的名词逐个与领域本体中的概念同义词进行匹配，若有与其相同的概念，则将该名词标注为概念，标注格式为：<概念名：Concept>，例如：<内存：Concept>。

2)实例标注：将问句中概念标注后剩余的名词与专用名词短语逐个与领域本体中的实例同义词进行匹配，若有与其相同的实例，则将该名词标注为实例，标注格式为：<实例名：Instance>，例如：<内存：Instance>。

3)属性标注：将问句中剩余的名词逐个与领域本体中的属性同义词进行匹配，若有与其相同的属性，则根据该属性的类型将名词标注为相应的属性类别，标注格式为：<属性名：属性类别>，例如：<定义：stringProperty>。

4)关系标注：将问句中的动词或带介词的动词短语以及剩余的名词逐个与领域本体中的关系同义词进行匹配，若有与其相同的关系，则将该动词或名词标注为关系，标注格式为：<关系名：Relation>，例如：<存储：Relation>。

5)概念集合标注：将问句中多个由连词或标点连接的多个概念名组合成概念集合，标注格式为：<{概念集合}：ConceptSet>，例如：<{内存，CPU，外存}：ConceptSet>。

(2)用户问句特征元素的标注流程与规则：

1)将进行本体元素标注之后的问句中动词标注成特征元素，标注格式为：<动词名>，例如：<是>。

2)将本体概念元素或本体实例元素后面的名词标注成一个特征元素。

3)将通过助词“的”(中文)或介词“of”(英文)与本体概念元素或本体实例元素相连的名词标注成一个特征元素，同时将连接词“的”或“of”标注成一个特征元素。

4)将疑问词标注成一个特征元素。

5)将本体概念元素与本体属性元素之间的助词“的”(中文)或介词“of”(英文)标注成一个特征元素。

6)将本体概念元素前面的介词标注成一个特征元素。

(3)用户问句与问句模板(句模)相似度算法

1)将问句模板结构，按从左到右的顺序生成一个由句本体元素与特征元素构成的语义元素组。其中，多个连续的同类元素用“|”分隔组成一个语义元素，例如：

对于问句模板：“请告诉我，<C：Concept>[的]<P:stringProperty><是><什么>[？]”，可生成如下的语义元素组：

Sem_temp＝(<C：Concept>,[的],<P:stringProperty>,<是>|<什么>|[？])

2)为用户问句生成一个与问句模板相对应的语义元素组，其中，如对应位置无同类元素的用0表示。例如：

对于用户问句：“<内存：Concept><的><概念><是><什么>”，可生成如下与上述模板相对应的语义元素组：

Sem_user＝(<内存：Concept>，<的>，0，<概念>|<是>|<什么><？>)

3)从问句模板的语义元素组中，按从左到右的顺序依次取出由“<>”分隔的必选元素，与用户问句语义元素组对应位置的元素进行比对。其中，对于本体元素，只需比较由谓词表示的本体类型符是否相同，而特征元素需要比较对应的单词或短语是否相同；对于由“|”连接的多个连续的同类元素，采用单个模板元素逐一与多个问句元素进行比较。若有相同的，将比中后的二个元素分别从其所在的连续元素组合中删除，再进行下一个元素的比较。

4)重复步骤3)，直到问句模板的语义元素组中所有必选元素全部比对完毕，或用户问句语义元素组为空。

其中，O(user,temp)表示用户问句与问句模板(句模)的语义元素组中必选本体元素相同的个数，No表示模板语义元素组中必选本体元素的个数，而F(user,temp)表示句模语义元素组中必选特征元素相同的个数，N_f表示模板语义元素组中必选特征元素的个数。α为本体元素相似度在句模相似度中的权重，β为特征元素相似度在句模相似度中的权重，要求满足：

0<β<α<1且β+α＝1。

(4)用户问句的语义获取与多语种互译方法

1)按照上面给出的句模相似度算法，从模板库中选择相似度最高且大于阈值(取大于0.6)的模板为匹配目标模板。

2)使用用户问句中的本体元素常量替换其匹配模板中的所有本体元素变量。

3)返回匹配模板中的问句语义模板作为用户问句的问句语义。

4)返回匹配模板中的答案语义模板作为用户问句的答案语义。

5)使用用户问句中的本体元素常量的多语种同义词替换其匹配模板中的所有多语种本体元素变量，同时返回匹配模板中多语种的问句结构作为用户问句的多语种互译结果。

例如，对于用户问句：

“<内存：Concept><的><定义><是><什么><？>”

假设其匹配模板为：

问句模板1：询问某个概念的字符属性

<中文问句结构>∷＝请告诉我，<C：Concept>[的]<P∶stringProperty><是><什么>[？]

<英文问句结构>∷＝Please tell me,<what><is>the<P∶stringProperty>of<C：Concept>[？]

<问句语义>∷＝？C.P

<答案语义>∷＝C.P

则该用户问句的问句语义为：

？内存.定义

该用户问句的答案语义为：

内存.定义

该用户问句的英文翻译为：

Please tell me，what is the definition of Memory？

Claims

1.基于领域本体和模板逻辑的多语种问答接口快速构成方法，其特征在于：包括：

(1)多语种的领域本体结构的构建；

(2)基于领域本体的一阶模板逻辑系统的建立；

(3)基于领域本体与模板逻辑的多语种问句模板结构的设计；

(4)面向领域的多语种问句模板库的建立；

(5)用户问句预处理与问句模板匹配；

(6)用户问句的语义获取与多语种互译方法；

在步骤(6)，包括：

2.根据权利要求1所述的接口快速构成方法，其特征在于：在步骤(1)将领域本体形式化为一个七元组：

O＝{C，A，R，HC，I，X，SY}

R＝{基本关系，领域关系}

基本关系：所有领域所共有的概念之间的关系，

领域关系：描述某个领域所特有的概念之间的关系；

3.根据权利要求1所述的接口快速构成方法，其特征在于：步骤(2)所述的模板逻辑系统TLS是一个以领域本体元素为运算对象，对问句模板进行语义标注与语义解释的一种特殊的一阶逻辑，定义成如下的三元组：

TLS::＝(<谓词集合>,<运算符>,<标注符>)

谓词：用于声明、识别与判定问句模板中的本体元素；

运算符：用于提高模板逻辑的表达能力；

标注符：用于分隔与界定模板中的各类元素；

4.根据权利要求1所述的接口快速构成方法，其特征在于：在步骤(3)：

所述多语种问句模板由问句结构模板、语义模板以及对应的答案模式组成，其BNF定义为：

<问句模板>::＝(<多语种问句结构>，{<同义结构>},<本体特征>,<问句语义>，<答案语义>)；

其中：问句结构：代表问句模板的表层形态，定义如下：

<问句结构>::＝({<本体元素>}，{<特征元素>}，{<其他元素>})；

答案语义：通过条件运算符(？:)给出分支结构的答案语义，用于组织返回给用户的答案；

5.根据权利要求4所述的接口快速构成方法，其特征在于：本体元素通过模板逻辑中的谓词进行符号化，一个问句结构模板至少包含一个本体元素；

问句语义是跨语种的，所有语义都是通过本体变量的逻辑表达式来表示。

6.根据权利要求1所述的接口快速构成方法，其特征在于：步骤(4)包括：

3)使用多语种领域本体与模板逻辑对每一类用户问句，按照多语种问句模板结构定义进行模板化，形成一个与问句集合相对应的初始问句模板库；

7.根据权利要求1所述的接口快速构成方法，其特征在于：在步骤(5)，问句预处理包括：首先进行语种的识别、单字或单词获取，然后进行词性标注，之后根据相应的规则进行本体元素与特征元素的标注；

其中，用户问句本体元素的标注流程、规则与格式如下：

用户问句特征元素的标注流程与规则如下：

4)将疑问词标注成一个特征元素；

6)将本体概念元素前面的介词标注成一个特征元素。

8.根据权利要求7所述的接口快速构成方法，其特征在于：对西文问句不需要分词，可以通过空格分隔符直接获得单词；并且，句中的单字或单词的获取与词性标注需要在本体同义词库与多语种语言词典的共同支持下进行。

9.根据权利要求1所述的接口快速构成方法，其特征在于：在步骤(5)，问句模板匹配包括：按用户问句的本体特征搜索模板库、句模相似度计算、选择相似度最高且大于阈值的模板为匹配目标；

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> <mi>e</mi> <mi>m</mi> <mi>p</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>O</mi> <mrow> <mo>(</mo> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> <mi>e</mi> <mi>m</mi> <mi>p</mi> <mo>)</mo> </mrow> </mrow> <msub> <mi>N</mi> <mi>O</mi> </msub> </mfrac> <mo>&times;</mo> <mi>&alpha;</mi> <mo>+</mo> <mfrac> <mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>u</mi> <mi>s</mi> <mi>e</mi> <mi>r</mi> <mo>,</mo> <mi>t</mi> <mi>e</mi> <mi>m</mi> <mi>p</mi> <mo>)</mo> </mrow> </mrow> <msub> <mi>N</mi> <mi>f</mi> </msub> </mfrac> <mo>&times;</mo> <mi>&beta;</mi> </mrow>