CN108920599B

CN108920599B - 一种基于知识本体库的问答系统答案精准定位和抽取方法

Info

Publication number: CN108920599B
Application number: CN201810679514.2A
Authority: CN
Inventors: 杨林; 蒋文婷; 郭申; 赵博颖
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2021-08-27
Anticipated expiration: 2038-06-27
Also published as: CN108920599A

Abstract

本发明公开了一种基于知识本体库的问答系统答案精准定位和抽取方法，通过设计一个相似度阈值判断机制，对于用户的提问，首先在知识本体库中进行基于统计的匹配，如果有最相近的问句，就把对应的答案反馈给用户，如果没有，则使用基于语义的方法来进行处理，如果仍然没有获得直接的答案，则需要进行基于知识的推理来进行解答，后续从问题中提取关键词进行推理分析，推理分析获取答案的过程不在本发明的内容范围内。本发明基于知识本体库的问答系统答案精准定位和抽取方法，采用的融合方法优势在于，使用了专门设计的专注于效率的统计匹配方法和加入了主题及知识库索引的语义匹配方法，将两类方法的优势充分结合，提高答案定位精度和效率。

Description

一种基于知识本体库的问答系统答案精准定位和抽取方法

技术领域

本发明涉及问答系统的答案定位和抽取方法，尤其涉及用于基于知识本题库的问答系统的答案精准定位和抽取。

背景技术

自然语言推理技术的日渐完善使人们拥有了更加自然的人机交互方式，自动问答系统可以较为准确地理解人们自然语言形式的问题，并利用知识库检索即时地返回言简意赅的答案，有效地满足了各领域问答需求。自动问答系统能用自然语言句子提问又能为用户直接返回所需要的答案,而并不是相关的文档或者网页。

在问答系统中，首先需要通过对问题进行分解和对知识库进行查询，得到尽可能全的一系列假设，这些假设是需要进行甄别的备选答案的集合。对用问题进行的分解和处理，以及将处理结果与知识库对应查询结果进行匹配，该过程称之为答案精准定位和抽取。匹配的方式通常通过计算提问语句和知识本体库中问题的相似度，而相似度的计算方法有很多种，基于概率和基于语义的方法是其中最重要最有效的两种方法，被广泛使用在各种知识库问答系统中。

基于统计的相似度计算方法，其优势在于当用户输入的问题和常问问题集中问题基本一样时,系统能够快速、准确地返回答案。但其缺点是此类方法没有结合语义理解,当用户输入的问题中,其中有的词是常问问题集中的同义或近义词时,系统无法识别。基于语义的方法可以提高系统的召回率，答案的匹配结果更好，但也有其缺陷。响应时间对于问答系统来说非常重要，但基于语义的方法通常处理速度较慢，效率不高，严重影响用户体验。目前，基于英文的答案精准定位和抽取方法在国外取得了较大进展，但基于中文的研究却少有人问津。加之，不同的相似度方法如何优化，如何结合都是该领域的难点，因此有必要研究一种更高效精准的答案精准定位和抽取方法。

发明内容

本发明的目的在于提供一种基于知识本体库的问答系统答案精准定位和抽取方法，用于解决上述现有技术的问题。

本发明一种基于知识本体库的问答系统答案精准定位和抽取方法，其中，对用户输入的问题进行预处理，过滤掉非关键信息计算出候选问题集合，形成候选问题库；将所有问句用向量表示，每个问句用一个n维的问句向量表示,n为所有问句中词的总数，每个问句向量的形式为S_向量＝(s₁,s₂,…,s_n)，s_i按下面公式进行计算：

s_i＝k_i×tf_i×idf_i；

上述公式中k_i表示第i个词的权重，tf_i表示第i个词在问句集合中出现的频率，idf表示第i个词在问句集合中出现的反频率；设用户提问的问题为S',常问问题库中的问句为S,那么要计算两个问句之间的相似度,等同于计算两个向量之间的夹角余弦,公式如下所示：

完成基于统计方法的相似度判别后，将相似度结果与阈值T1进行比较；大于阈值则输出对应答案，小于阈值则进入基于语义的进一步计算步骤；用户提问问句S包含词(W₁,W₂,…,W_M)，用户提问的问题S'包含词(W₁',W₂',…,W_M')，则用Similarity(W_i,W'_j)表示词W_i(1≤i≤m)和W'_j(1≤j≤n)之间的相似度，句子S和句子S'中任何两个词的相似度为S(W_i,W'_j)，计算句子S和句子S'之间的语义相似度Similarity(S,S')为：

根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例，其中，非关键信息包括掉连接词、语气词以及介词。

根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例，其中，预处理还包括：对知识本体库的问题集中的问题进行分词、词性标注、去停用词等处理。

根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例，其中，主题词的权重设为1，问点词的权重设为0.9，一般关键词的权重设为0.8。

根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例，其中，阈值T1设定为0.8。

根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例，其中，主题词的权重大于问点词的权重，问点词的权重又大于一般关键词的权重。

综上，本发明针对现有方法的缺点，提供基于知识本体库的问答系统答案精准定位和抽取方法。设计一个答案精准匹配流程来实现该方法，它通过结合基于统计和基于语义的答案定位及抽取方法，将用户的提问在知识本体库中进行匹配，并返回对应的答案，这种方法可以显著提高问答系统的性能。

附图说明

图1所示为本发明的基于统计方法的答案定位抽取流程图；

图2所示为本发明的基于语义方法的答案定位抽取流程图；

图3所示为本发明的答案精准匹配流程图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

图1所示为本发明的基于统计方法的答案定位抽取流程图，图2所示为本发明的基于语义方法的答案定位抽取流程图，如图1以及图2所示

本发明一种基于知识本体库的问答系统答案精准定位和抽取方法，包括：

①首先对用户输入的问题进行预处理，过滤掉连接词、语气词、介词等非关键信息，保留用于计算相似度的句子信息。然后对知识本体库的问题集中的问题进行分词、词性标注、去停用词等处理，计算出候选问题集合，形成候选问题库，用于答案定位；

②使用本发明提出的向量空间模型，将所有问句用向量表示成(X₁,X₂,…,X_n),每个X_i表示一个特征词，其中的n为所有问句中词的总数。这样每个问句用一个n维的问句向量表示,每个问句向量的形式为S＝(s₁,s₂,…,s_n)。s_i按下面公式进行计算：

s_i＝k_i×tf_i×idf_i

上述公式中k_i表示第i个词的权重，主题词的权重大于问点词的权重，问点词的权重又大于一般关键词的权重。在本实施例中，主题词的权重设为1，问点词的权重设为0.9，一般关键词的权重设为0.8。tf_i表示该次在问句集合中出现的频率。idf表示该词在问句集合中出现的反频率(逆频率)。

③设用户提问的问题为S',常问问题库中的问句为S,那么要计算两个问句之间的相似度,等同于计算两个向量之间的夹角余弦,具体公式如下所示：

④图3所示为本发明设计的答案精准匹配流程图，如图3所示，完成基于统计方法的相似度判别后，将相似度结果与阈值T1进行比较，本实施例中阈值T1设定为0.8，大于阈值则输出对应答案，小于阈值则进入基于语义的进一步计算步骤。

⑤用户提问问句S包含词(W₁,W₂,…,W_M)，用户提问的问题S'包含词(W₁',W₂',…,W_M')，则可用Similarity(W_i,W'_j)表示词W_i(1≤i≤m)和W'_j(1≤j≤n)之间的相似度，即句子S和句子S'中任何两个词的相似度为S(W_i,W'_j)。在此基础上，可以计算句子S和句子S'之间的语义相似度Similarity(S,S')为：

如果把用户提问的问题和知识本体库中的每个问句逐一比较,一个一个计算问句相似度,计算量会非常大。本发明采取将知识本体库问题集,根据问句的主题一词先建立倒排索引。当用户提问时,用户问题中会有主题词。根据此主题词建立一个较小的候选问题集,这样在一个小的范围进行问句相似度的计算,因此系统的检索效率能够得以提高。基于语义的方法完成后，同样进行阈值判断，T2设定为0.85，如仍未定位到系统答案，则采取其他基于逻辑推断的策略从问题本身直接生成答案，该策略不在本发明技术范围内。

本发明解决所述技术问题采用的技术方案包括以下步骤：

首先，使用基于统计的方法计算句子的相似度，本发明提出一种向量空间模型的方法，该方法主要从词的表面特征来进行匹配，计算复杂度低，速度快。具体方法为，对用户输入的问题和知识本体库的问题集分别进行预处理，然后将知识本体库问题集获取的VSM库与预处理后的用户问题进行相似度计算，通过阈值判断来决定是否输出知识本题库问题中对应的答案。

然后，为提升相似度计算的效果，使用基于语义的相似度计算模型计算基于知识库的句子相似度，使用主题检索的方式筛选出候选问题集合，具体方法为将用户输入的问题与经过倒排索引后的知识本体索引库中进行联合检索。接着通过同义词编码的方式计算语义相似度，相似度计算结果大于阈值则输出问题答案，小于阈值则以用户输入的问题作为返回结果。

最后，基于统计的方法和基于语义的方法,二者各有所长,将它们结合起来使用,则可以把它们的优势结合起来,从而显著提高系统的性能。本发明通过设计一个相似度阈值判断机制，对于用户的提问，首先在知识本体库中进行基于统计的匹配，如果有最相近的问句，就把对应的答案反馈给用户，如果没有，则使用基于语义的方法来进行处理，如果仍然没有获得直接的答案，则需要进行基于知识的推理来进行解答，后续从问题中提取关键词进行推理分析，推理分析获取答案的过程不在本发明的内容范围内。本发明采用的融合方法优势在于，使用了专门设计的专注于效率的统计匹配方法和加入了主题及知识库索引的语义匹配方法，将两类方法的优势充分结合，提高答案定位精度和效率。

本发明针对现有方法的缺点，提供基于知识本体库的问答系统答案精准定位和抽取方法。本发明重点设计一个答案精准匹配流程来实现该方法，它通过结合基于统计和基于语义的答案定位及抽取方法，将用户的提问在知识本体库中进行匹配，并返回对应的答案，这种方法可以显著提高问答系统的性能。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，

对用户输入的问题进行预处理，过滤掉非关键信息计算出候选问题集合，形成候选问题库；

将所有问句用向量表示，每个问句用一个n维的问句向量表示,n为所有问句中词的总数，每个问句向量的形式为S_向量＝(s₁,s₂,…,s_n)，s_i按下面公式进行计算：

s_i＝k_i×tf_i×idf_i；

上述公式中k_i表示第i个词的权重，tf_i表示第i个词在问句集合中出现的频率，idf表示第i个词在问句集合中出现的反频率；

设用户提问的问题为S',常问问题库中的问句为S,那么要计算两个问句之间的相似度,等同于计算两个向量之间的夹角余弦,公式如下所示：

完成基于统计方法的相似度判别后，将相似度结果与阈值T1进行比较；大于阈值则输出对应答案，小于阈值则进入基于语义的进一步计算步骤；

用户提问问句S包含词(W₁,W₂,…,W_M)，用户提问的问题S'包含词(W′₁,W′₂,…,W′_M)，则用Similarity(W_i,W′_j)表示词W_i(1≤i≤m)和W′_j(1≤j≤n)之间的相似度，句子S和句子S'中任何两个词的相似度为S(W_i,W′_j)，计算句子S和句子S'之间的语义相似度Similarity(S,S')为：

2.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，非关键信息包括掉连接词、语气词以及介词。

3.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，预处理还包括：对知识本体库的问题集中的问题进行分词、词性标注、去停用词处理。

4.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，主题词的权重设为1，问点词的权重设为0.9，一般关键词的权重设为0.8。

5.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，阈值T1设定为0.8。

6.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法，其特征在于，主题词的权重大于问点词的权重，问点词的权重又大于一般关键词的权重。