CN110955768B

CN110955768B - 一种基于句法分析的问答系统答案生成方法

Info

Publication number: CN110955768B
Application number: CN201911239244.4A
Authority: CN
Inventors: 张怡卿; 赵海; 赵帅淇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2024-03-15
Anticipated expiration: 2039-12-06
Also published as: CN110955768A

Abstract

本发明公开了一种基于句法分析的问答系统答案生成方法，其步骤包括：(S1)获得问题信息以及多篇文本信息对应的数学表达；(S2)计算各篇所述本文信息包含所述问题信息对应的答案的概率，并根据包含所述答案的概率选取若干篇所述文本信息作为新篇章；(S3)利用神经网络计算各所述新篇章中每个单词成为所述答案的概率，并计算各所述新篇章中各句子的句法树；(S4)结合上述每个词成为所述答案的概率和所述每个句子的句法树选取多个片段，并根据选取的多个所述片段组成所述问题信息的答案。这种答案生成方式得到的答案由若干短语构成，其内容精炼，符合语言规律，具有更好的可读性。

Description

一种基于句法分析的问答系统答案生成方法

技术领域

本发明涉及自然语言处理领域，具体涉及一种基于句法分析的问答系统答案生成方法。

背景技术

智能问答系统是自然语言处理(nlp)的一种典型应用，其中当用户提出问题后，智能问答系统给出该问题的答案。现有技术中，开发人员可以根据不同的问答需求设计不同的问答模型，以最终得到对应的智能问答系统。

现有技术中，问答系统通常采用机器学习的技术进行构建，然而和机器视觉、语音识别等领域相比，自然语言处理仍处于较为初级的阶段。现有的智能问答系统通过以下两种方式生成回答：

A.抽取式：从文章中抽取一个片段作为回答。这种方法的缺点在于，若实际答案在文中不连续，抽取的片段通常包含过多信息或过少信息，使得问答系统无法生成有效的回答；

B.逐字的生成，最后构成答案。这种序列的生成方式通常仅适用于较短的句子，若答案的长度较长，逐字生成的效果非常差，通常语法不通顺或语义不合理，基本上不具备可读性。

发明内容

本发明的目的是根据上述现有技术的不足之处，提供一种基于句法分析的问答系统答案生成方法，该方法在面对实际答案在文中不连续的情况下，利用句法树信息，抽取多个片段，生成更加合理、语法通顺的答案。

为了实现上述目的，本发明提供了一种基于句法分析的问答系统答案生成方法，其包括以下步骤：

(S1)获得问题信息以及多篇文本信息对应的数学表达；

(S2)计算各篇所述本文信息包含所述问题信息对应的答案的概率，并根据包含所述答案的概率选取若干篇所述文本信息作为新篇章；

(S3)利用神经网络计算各所述新篇章中每个单词成为所述答案的概率，并计算各所述新篇章中各句子的句法树；

(S4)结合上述每个词成为所述答案的概率和所述每个句子的句法树选取多个片段，并根据选取的多个所述片段组成所述问题信息的答案。

本发明的进一步改进在于，上述步骤(S1)包括：

(S11)接收问题信息和多篇文本信息；

(S22)利用预训练语言模型分别对问题信息和多篇文本信息分别编码得到它们的数学表达。

本发明的进一步改进在于，在上述步骤(S2)中，根据所述文本信息以及所述问题信息的数学表达的相似度计算所述文本信息包含答案的概率。

本发明的进一步改进在于，在上述步骤(S2)中，选取新篇章时，将各所述文本信息按照包含所述答案的概率进行排序，并选取概率最大的若干个文本信息作为新篇章。

本发明的进一步改进在于，上述步骤(S4)中，选取多个片段包括以下步骤：

(S401)根据句法树将各句子划分为短语，并根据长度上限a和长度下限b对短语进行筛选；

(S402)对各短语中每个单词成为所述答案的概率求算数平均值，作为各短语成为答案的概率；

(S403)选取短语的过程中，将成为答案的概率大于设定阈值的短语进行标记。

本发明的进一步改进在于，在上述步骤(S4)中，根据上述的多个片段组成所述问题信息的答案包括以下步骤：

(S411)将各所述新篇章按照包含所述答案的概率从高到低排列，并组成单个最终文本；

(S412)根据步骤(S403)中标记，将最终文本中没有标记的短语和单词删除，并将标记的短语依次串接，得到答案。

本发明的进一步改进在于，在上述步骤(S2)中，若所述问题信息为是否类问题，对每个所述新篇章添加肯定标记以及否定标记；在计算每个单词成为所述答案的概率的过程中，同时计算肯定标记以及否定标记的分数；在组成所述问题信息的答案的过程中，若肯定标记的分数最高，则在答案中添加肯定表述，若否定标记的分数最高，则在答案中添加否定表述。

本发明的优点是：这种答案生成方式得到的答案由若干短语构成，其内容精炼，符合语言规律，具有更好的可读性。与抽取方式以及逐字生成的答案相比，本方法生成的答案更加精炼，保留了原文的语法结构，与真实答案进行对比可以得到更高的匹配分数。

附图说明

图1为基于句法分析的问答系统答案生成方法的流程图。

具体实施方式

以下结合附图通过实施例对本发明的特征及其它相关特征作进一步详细说明，以便于同行业技术人员的理解：

实施例：如图1所示，本发明的实施例包括一种基于句法分析的问答系统答案生成方法，该方法包括以下步骤：

(S1)获得问题信息以及多篇文本信息对应的数学表达；本方法最终根据问题信息以及获得的多篇文本信息生成最终的数学表达式；

(S2)计算各篇本文信息包含问题信息对应的答案的概率，并根据包含答案的概率选取若干篇文本信息作为新篇章；

(S3)利用训练好的神经网络(该网络利用LSTM进行编码，再由多层感知机将编码后的表达映射到一个和文本等长的向量，向量的每一位代表文本中对应词成为答案的概率)计算各新篇章中每个单词成为答案的概率，并计算各新篇章中各句子的句法树；

(S4)结合上述每个词成为答案的概率和每个句子的句法树选取多个片段，并根据选取的多个片段组成问题信息的答案。

在具体实施过程中：上述步骤(S1)包括：

(S11)接收问题信息和多篇文本信息；

(S22)利用预训练语言模型分别对问题信息和多篇文本信息分别编码得到它们的数学表达。将文本转化为数学表示通常由编码层完成，与本实施例涉及的最终解码层无关；文本的数学表达通常采用向量或者矩阵的方式进行表示。本实施例中，采用的预训练语言模型为：BERT(Bidirectional Encoder Representations from Transformers)。

上述的步骤(S2)主要用于从多篇文本信息中选取包含答案的文本信息，本实施例中，主要通过文本信息与问题信息的相似性判断文本信息中包括问题信息的答案的概率。若某个文本信息中存在问题信息所对应的答案，则二者应该有更高的相似性。

具体的，本实施例中根据文本信息以及问题信息的数学表达的相似度计算文本信息包含答案的概率。当数学表达式为向量或者矩阵形式时，其相似度计算可以采用现有技术中的计算方法，将矩阵或向量线性映射到一个标量，再通过sigmoid函数将该标量控制在0到1之间。

概率计算完成后，根据计算得到的概率选取一定数目的文本信息，作为新篇章。本实施例的选取方式为：将各文本信息按照包括答案的概率从大到小排列，并选取概率最大的前五篇文本信息作为新篇章。

上述的步骤(S3)主要用于从各新篇章中获得生成答案所需的信息。在该步骤中，利用步骤(S3)中使用的训练好的神经网络计算各新篇章中每个单词成为答案的概率，并利用句法分析工具(Stanford Parser)计算各新篇章中各句子的句法树。计算语法树和计算单词成为答案的概率二者互不相关，可以并行。

在上述的步骤(S3)中，若问题信息为是否类问题，例如问题的开头是Is，Are，Will...等单词打头的情况下，在每个新篇章的开头添加肯定标记以及否定标记。在本实施例中，肯定标记包括‘yes’，否定标记包括‘no’。计算每个单词成为答案的概率的过程中，同时计算肯定标记以及否定标记的分数。分数越高，表示对应的肯定标记/否定标记越正确。

在上述步骤(S4)中，主要包括两个阶段：从新篇章中选取片段，并根据片段生成最终的答案。本实施例中，选取的片段为短语。

在选取片段的过程中，根据句法树将各句子划分为短语，并根据长度上限a和长度下限b对短语进行筛选，剔除过长或过短的短语；在此有一个例外，肯定标记以及否定标记不剔除。

短语筛选完成后，计算各短语中每个单词成为答案的概率求算数平均值，作为各短语成为答案的概率。每个单词成为答案的概率在步骤(S3)中计算得出。在选取短语的过程中，将成为答案的概率大于设定阈值的短语进行标记。标记的方式为，在新篇章中，将可能成为答案的短语中每个单词标记为1，其他单词标记为0，每个单词的初始标记为0。标记为1的单词，在后续计算过程中不会再变为0。

根据片段生成答案的过程中，将各新篇章按照包含答案的概率从高到低排列，并组成单个最终文本；根据上述的标记，将最终文本中没有标记的短语和单词删除，并将标记的短语依次串接，得到答案。具体的，删除过程中，将标记为1的单词保留，将标记为0的单词删除。这种答案生成方式得到的答案由若干短语构成，其内容精炼，符合语言规律，具有更好的可读性。

针对是否类问题，在组成问题信息的答案的过程中，需要遍历各新篇章的否定标记以及肯定标记。若肯定标记的分数最高，则在答案中添加肯定表述，若否定标记的分数最高，则在答案中添加否定表述。

以上的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于句法分析的问答系统答案生成方法，其特征在于，包括以下步骤：

(S1)获得问题信息以及多篇文本信息对应的数学表达；

(S3)利用神经网络计算各所述新篇章中每个单词成为所述答案的概率，并计算各所述新篇章中各句子的句法树；该神经网络利用LSTM进行编码，再由多层感知机将编码后的表达映射到一个和文本等长的向量，向量的每一位代表文本中对应词成为答案的概率；

(S4)结合每个词成为所述答案的概率和每个句子的句法树选取多个片段，并根据选取的多个所述片段组成所述问题信息的答案；

上述步骤(S4)中，选取多个片段包括以下步骤：

(S403)选取短语的过程中，将成为答案的概率大于设定阈值的短语进行标记；

在上述步骤(S4)中，根据上述的多个片段组成所述问题信息的答案包括以下步骤：

(S412)根据步骤(S403)中标记，将最终文本中没有标记的短语和单词删除，并将标记的短语依次串接，得到答案；

上述步骤(S1)包括：

(S11)接收问题信息和多篇文本信息；

2.根据权利要求1所述的一种基于句法分析的问答系统答案生成方法，其特征在于，在上述步骤(S2)中，根据所述文本信息以及所述问题信息的数学表达的相似度计算所述文本信息包含答案的概率。

3.根据权利要求1所述的一种基于句法分析的问答系统答案生成方法，其特征在于，在上述步骤(S2)中，选取新篇章时，将各所述文本信息按照包含所述答案的概率进行排序，并选取概率最大的若干个文本信息作为新篇章。

4.根据权利要求1所述的一种基于句法分析的问答系统答案生成方法，其特征在于，在上述步骤(S2)中，若所述问题信息为是否类问题，对每个所述新篇章添加肯定标记以及否定标记；在计算每个单词成为所述答案的概率的过程中，同时计算肯定标记以及否定标记的分数；在组成所述问题信息的答案的过程中，若肯定标记的分数最高，则在答案中添加肯定表述，若否定标记的分数最高，则在答案中添加否定表述。