CN108932289A

CN108932289A - 一种基于信息抽取和深度学习的问题回答处理方法及系统

Info

Publication number: CN108932289A
Application number: CN201810500603.6A
Authority: CN
Inventors: 俞旸; 陈琦程; 张超仁
Original assignee: Beijing Huajian Blue Sea Technology Co Ltd
Current assignee: Beijing Huajian Blue Sea Technology Co Ltd
Priority date: 2018-05-23
Filing date: 2018-05-23
Publication date: 2018-12-04
Anticipated expiration: 2038-05-23
Also published as: CN108932289B

Abstract

本发明公开了一种基于信息抽取和深度学习的问题回答处理方法及系统，该方法包括：步骤1，抽取问题和答案对；步骤2，将当前问题与问题和答案对比较；步骤3，如果相似度不大于比较期望值，则进行语义理解，得到第一、第二语义集合；步骤4，将第一、二语义集合进行匹配；步骤5，如果匹配度不大于匹配期望值，则确定问题和答案对的初始评分及第一语义集合的中间评分；步骤6，分配权重；步骤7，通过初始评分、权重及中间评分确定最终评分，将最终评分最高的答案作为输出的目标答案；该系统包括：信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块等。与现有技术相比，本发明具有智能化水平高、响应速度快等突出优点。

Description

一种基于信息抽取和深度学习的问题回答处理方法及系统

技术领域

本发明涉及自然语言处理技术领域，更为具体地，本发明为一种基于信息抽取和深度学习的问题回答处理方法及系统。

背景技术

随着人工智能技术和自然语言处理技术的发展，为实现对信息的快速、准确获取，问答系统应运而生，进而实现通过准确、简洁的自然语言回答用户用自然语言提出的问题。但是，在具体研发问题系统时，其难点在于如何在各种各样的结果中筛选出用户需要的答案。现有的问答系统虽然也能提供相应的答案，比如siri、Cortana等，但是在实际使用过程中，由于实现问题回答的常规方法仍存在设计缺陷，其响应时间过长，往往对用户提出问题的语言表达方式、语句长短等要求过高，而且给出的答案很多也并不是用户需要的，所以现有的问答系统存在准确性差、智能化程度较低等问题。

因此，如何有效提高问答系统的准确性和智能化水平、提高问题回答处理效率、增加用户满意度，成为了本领域技术人员亟待解决的技术问题和始终研究的重点。

发明内容

为解决现有问题回答处理方法存在的准确性差、效率低、智能化水平较低等问题，本发明创新提供了一种基于信息抽取和深度学习的问题回答处理方法及系统，将信息抽取技术和深度学习技术有机地融合起来，从而为本发明提供的问题回答处理方法及系统服务，最终达到提高问题回答的准确性、时效性及智能化水平等目的，从而有效地解决了现有技术存在的诸多问题。

为实现上述技术目的，本发明公开了一种基于信息抽取和深度学习的问题回答处理方法，该方法包括如下步骤，

步骤1，基于信息抽取的方式从数据源中抽取多个问题和答案对，并读取当前问题；

步骤2，将当前问题与各问题和答案对分别进行比较，从而得到当前问题与各问题和答案对的相似度；

步骤3，如果当前问题与各问题和答案对的相似度均小于或等于比较期望值，则基于深度学习的方式对各问题和答案对进行语义理解，以得到与各问题和答案对对应的多个第一语义集合，并且基于深度学习的方式对当前问题进行语义理解，以得到与当前问题对应的第二语义集合；

步骤4，将第二语义集合与各第一语义集合分别进行匹配，从而得到第二语义集合与各第一语义集合的匹配度；

步骤5，如果第二语义集合与各第一语义集合的匹配度均小于或等于匹配期望值，则根据相似度大小确定各问题和答案对的初始评分，并根据匹配度大小确定各第一语义集合的中间评分；

步骤6，读取权重数据库中的权重，分别为各问题和答案对分配第一权重，并分别为各第一语义集合分配第二权重；其中，通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重；

步骤7，对于各问题和答案对，将其初始评分与第一权重相乘后得到第一中间值，将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值，将第一中间值与第二中间值的和作为各问题和答案对的最终评分，将最终评分最高的问题和答案对中的答案作为目标答案；

步骤8，将目标答案进行输出；其中，所述目标答案作为当前问题的回答结果。

基于上述技术方案，本发明创新将信息抽取和深度学习的结合应用于问题回答处理方法上，使本发明能够对用户提出的问题进行深层次理解和高精度匹配，从问题本身及其含义上确定出当前问题的准确答案，该方案能够较好地适用于具有复杂文化背景特点的语言，比如中文等。

进一步地，步骤5中，如果第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值，则确定出与第二语义集合的匹配度最大的第一语义集合，将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案；然后执行步骤8。

基于上述改进的技术方案，本发明能在对当前问题语义进行完全匹配或几乎完全匹配的情况下，快速地为用户提供当前问题的准确答案，从而在保证准确性的基础上提高了本发明的响应速度。

进一步地，步骤3中，如果当前问题与至少一个问题和答案对的相似度大于比较期望值，则确定出与当前问题的相似度最大的问题和答案对，将确定出的问题和答案对中的答案作为目标答案；然后执行步骤8。

基于上述改进的技术方案，本发明能在对当前问题字面含义进行完全匹配或几乎完全匹配的情况下，快速地为用户提供当前问题的准确答案，从而在保证准确性的基础上进一步提高了本发明的响应速度。

进一步地，通过如下方式对权重数据库中的权重进行训练：

步骤a，将数据源中的所有问题和答案对作为第一训练集合，将与各问题和答案对对应的所有第一语义集合作为第二训练集合，为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重；再基于训练、验证及测试方式，通过所述随机权重确定另一个训练集合中的每个元素的合适权重；

步骤b，基于训练、验证及测试方式，利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重；

步骤c，对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证，如果所有验证结果的准确度均超过验证期望值，则执行步骤d，否则返回步骤b；

步骤d，将当前的合适权重作为第一训练集合和第二训练集合的固定权重，从而完成对权重数据库中的权重的训练。

基于上述改进的技术方案，本发明能够通过训练、验证及测试方式为本方案提供合适、准确的权重，以实现对问题和答案对及与其对应的第一语义集合的不同评分进行有效的融合，从而极大提高了本发明对当前问题判断的客观性、合理性及准确性。

进一步地，步骤1中，所述数据源中存储有问题及其准确答案的历史记录。

为实现上述技术目的，本发明还公开了一种基于信息抽取和深度学习的问题回答处理系统，该系统包括信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块、权重分配模块、答案确定模块及答案输出模块；

所述信息抽取模块，用于基于信息抽取的方式从数据源中抽取多个问题和答案对，并用于读取当前问题；

所述相似比较模块，用于将当前问题与各问题和答案对分别进行比较，从而得到当前问题与各问题和答案对的相似度；

所述相似判断模块，用于判断当前问题与各问题和答案对的相似度是否均小于或等于比较期望值，并在小于或等于的情况下基于深度学习的方式对各问题和答案对进行语义理解，以得到与各问题和答案对对应的多个第一语义集合，并且基于深度学习的方式对当前问题进行语义理解，以得到与当前问题对应的第二语义集合；

所述匹配比较模块，用于将第二语义集合与各第一语义集合分别进行匹配，从而得到第二语义集合与各第一语义集合的匹配度；

所述匹配判断模块，用于判断第二语义集合与各第一语义集合的匹配度是否均小于或等于匹配期望值，并在小于或等于的情况下根据相似度大小确定各问题和答案对的初始评分，并根据匹配度大小确定各第一语义集合的中间评分；

所述权重分配模块，用于读取权重数据库中的权重，分别为各问题和答案对分配第一权重，并分别为各第一语义集合分配第二权重；其中，通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重；

所述答案确定模块，对于各问题和答案对，用于将其初始评分与第一权重相乘后得到第一中间值，将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值，将第一中间值与第二中间值的和作为各问题和答案对的最终评分，将最终评分最高的问题和答案对中的答案作为目标答案；

所述答案输出模块，用于输出作为当前问题的回答结果的目标答案。

基于上述技术方案，本发明创新将信息抽取和深度学习的结合应用于问题回答处理系统上，使本发明能够对用户提出的问题进行深层次理解和高精度匹配，从问题本身及其含义上确定出当前问题的准确答案，该方案能够较好地适用于具有复杂文化背景特点的语言，比如中文等。

进一步地，所述匹配判断模块，还用于在第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值时确定出与第二语义集合的匹配度最大的第一语义集合，将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案。

进一步地，所述相似判断模块，还用于在当前问题与至少一个问题和答案对的相似度大于比较期望值时确定出与当前问题的相似度最大的问题和答案对，将确定出的问题和答案对中的答案作为目标答案。

进一步地，该系统还包括权重训练模块，且权重训练模块包括权重初始化单元、权重再确定单元及准确度验证单元；

权重初始化单元，用于将数据源中的所有问题和答案对作为第一训练集合，将与各问题和答案对对应的所有第一语义集合作为第二训练集合，为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重；再基于训练、验证及测试方式，通过所述随机权重确定另一个训练集合中的每个元素的合适权重；

权重再确定单元，基于训练、验证及测试方式，用于利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重；

准确度验证单元，用于对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证：如果所有验证结果的准确度均超过验证期望值，则将当前的第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重作为第一训练集合和第二训练集合的固定权重，从而完成对权重数据库中的权重的训练；如果有验证结果的准确度未超过验证期望值，则通过权重再确定单元再次确定合适权重。

进一步地，所述数据源中存储有问题及其准确答案的历史记录。

本发明的有益效果为：与现有技术相比，本发明能够有效地提高问题回答的准确性和智能化水平，还具有响应速度快、用户体验效果好等突出优点。

附图说明

图1为本发明涉及的基于信息抽取和深度学习的问题回答处理方法的流程示意图。

具体实施方式

下面结合说明书附图对本发明涉及的一种基于信息抽取和深度学习的问题回答处理方法及系统进行详细的解释和说明。

实施例一：

如图1中所示，本实施例具体公开了一种基于信息抽取和深度学习的问题回答处理方法，该方法提供了为用户提供问题回答结果的三种方式，达到准确度和响应速度同时满足的目的，具体来说，该方法包括如下步骤。

步骤1，基于信息抽取的方式从数据源中抽取多个问题和答案对，并读取当前问题，在本实施例中，数据源中存储有问题及其准确答案的历史记录。上述抽取的“问题和答案对”用于作为后面步骤的输入，“问题和答案对”包括成对出现的问题及其准确(标准)答案。

步骤2，将当前问题与各问题和答案对分别进行比较，从而得到当前问题与各问题和答案对的相似度。

步骤3，如果当前问题与各问题和答案对的相似度均小于或等于比较期望值，则基于深度学习的方式对各问题和答案对进行语义理解，以得到与各问题和答案对对应的多个第一语义集合，并且基于深度学习的方式对当前问题进行语义理解，以得到与当前问题对应的第二语义集合。

短路模式(第一种问题回答方式)：如果当前问题与至少一个问题和答案对的相似度大于比较期望值，则确定出与当前问题的相似度最大的问题和答案对，将确定出的问题和答案对中的答案作为目标答案；然后执行步骤8。

步骤4，将第二语义集合与各第一语义集合分别进行匹配，从而得到第二语义集合与各第一语义集合的匹配度。

步骤5，如果第二语义集合与各第一语义集合的匹配度均小于或等于匹配期望值，则根据相似度大小确定各问题和答案对的初始评分，并根据匹配度大小确定各第一语义集合的中间评分；该步骤可理解为对各问题和答案对进行排序，以及为各第一语义集合进行排序；然后对两种排序结果进行融合。

学习模式(第二种问题回答方式)：如果第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值，则确定出与第二语义集合的匹配度最大的第一语义集合，将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案；然后执行步骤8。

步骤6，读取权重数据库中的权重，分别为各问题和答案对分配第一权重，并分别为各第一语义集合分配第二权重；其中，通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重，具体通过如下方式对权重数据库中的权重进行训练；需要说明的是，为提高本发明的准确度，权重训练过程可反复执行多次，最终可将重复率最高的权重值作为固定权重。

步骤a，将数据源中的所有问题和答案对作为第一训练集合，将与各问题和答案对对应的所有第一语义集合作为第二训练集合，为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重，即本实施例既可以先为第一训练集合分配随机权重，又可先为第二训练集合分配随机权重；再基于训练、验证及测试方式，通过随机权重确定另一个训练集合(如果在先被分配的训练集合为第一训练集合，则此时“另一个训练集合”为第二训练集合；如果在先被分配随机权重的训练集合为第二训练集合，则此时被分配随机权重的训练集合为第一训练集合)中的每个元素的合适权重；步骤b，基于训练、验证及测试方式，利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重；其中，上述“元素”指的是问题和答案对或第一语义集合；步骤c，对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证，如果所有验证结果的准确度均超过验证期望值，则执行步骤d，否则返回步骤b(进行多次反复迭代)；步骤d，此时说明得到的权重已符合投票计算的需求，将当前的合适权重作为第一训练集合和第二训练集合的固定权重，从而完成对权重数据库中的权重的训练。

步骤7，投票模式(第三种问题回答方式)：对于各问题和答案对，将其初始评分与第一权重相乘后得到第一中间值，将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值，将第一中间值与第二中间值的和作为各问题和答案对的最终评分，将最终评分最高的问题和答案对中的答案作为目标答案。

步骤8，将目标答案进行输出；其中，目标答案作为当前问题的回答结果。

另外，需要指出的是，本发明涉及的“比较期望值”、匹配期望值及验证期望值可根据具体的问题回答精确度进行合理而明智的设置。

实施例二：

与实施例一基于相同的发明构思，本实施例公开了一种用于实现上述问题回答处理方法的基于信息抽取和深度学习的问题回答处理系统，且该问题回答处理系统用于执行实施例一中的问题回答处理方法，该系统包括信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块、权重分配模块、答案确定模块及答案输出模块；具体说明如下。

信息抽取模块，该模块可被其他模块共享使用，用于基于信息抽取的方式从数据源中抽取多个问题和答案对，并用于读取当前问题；其中，数据源中存储有问题及其准确答案的历史记录。

相似比较模块，用于将当前问题与各问题和答案对分别进行比较，从而得到当前问题与各问题和答案对的相似度。

相似判断模块，用于判断当前问题与各问题和答案对的相似度是否均小于或等于比较期望值，并在小于或等于的情况下基于深度学习的方式对各问题和答案对进行语义理解，以得到与各问题和答案对对应的多个第一语义集合，并且基于深度学习的方式对当前问题进行语义理解，以得到与当前问题对应的第二语义集合。具体实施时，系统利用深度学习的模型对输入问题和历史记录中的问题和答案对进行深度语义理解，以实现对语言模糊性进行很好的把握。

相似判断模块，还用于在当前问题与至少一个问题和答案对的相似度大于比较期望值时确定出与当前问题的相似度最大的问题和答案对，此时系统发现通过信息抽取得到的历史问题和答案对中存在与当前问题完全一样或足够相似的，这就意味着历史答案可以直接被用来返回给用户，则将确定出的问题和答案对中的答案作为目标答案。

匹配比较模块，用于将第二语义集合与各第一语义集合分别进行匹配，从而得到第二语义集合与各第一语义集合的匹配度。

匹配判断模块，用于判断第二语义集合与各第一语义集合的匹配度是否均小于或等于匹配期望值，并在小于或等于的情况下根据相似度大小确定各问题和答案对的初始评分，并根据匹配度大小确定各第一语义集合的中间评分；匹配判断模块还用于在第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值时确定出与第二语义集合的匹配度最大的第一语义集合，将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案。

权重分配模块，用于读取权重数据库中的权重，分别为各问题和答案对分配第一权重，并分别为各第一语义集合分配第二权重；其中，通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重。

本实施例中，该系统还包括权重训练模块，且权重训练模块包括权重初始化单元、权重再确定单元及准确度验证单元；具体如下。

权重初始化单元，用于将数据源中的所有问题和答案对作为第一训练集合，将与各问题和答案对对应的所有第一语义集合作为第二训练集合，为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重；再基于训练、验证及测试方式，通过随机权重确定另一个训练集合中的每个元素的合适权重。

权重再确定单元，基于训练、验证及测试方式，用于利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重。

在实现上述权重训练模块时，本发明可将训练数据拆分为四个部分：训练集、第一训练集合验证集、第二训练集合验证集以及盲测集，盲测集作为最终检验系统的准确率，这部分数据系统之前从未见过，所以是盲测数据。

答案确定模块，对于各问题和答案对，用于将其初始评分与第一权重相乘后得到第一中间值，将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值，将第一中间值与第二中间值的和作为各问题和答案对的最终评分，将最终评分最高的问题和答案对中的答案作为目标答案；

答案输出模块，用于输出作为当前问题的回答结果的目标答案。

在本说明书的描述中，参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明实质内容上所作的任何修改、等同替换和简单改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于信息抽取和深度学习的问题回答处理方法，其特征在于：该方法包括如下步骤，

2.根据权利要求1所述的基于信息抽取和深度学习的问题回答处理方法，其特征在于：

步骤5中，如果第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值，则确定出与第二语义集合的匹配度最大的第一语义集合，将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案；然后执行步骤8。

3.根据权利要求2所述的基于信息抽取和深度学习的问题回答处理方法，其特征在于：

步骤3中，如果当前问题与至少一个问题和答案对的相似度大于比较期望值，则确定出与当前问题的相似度最大的问题和答案对，将确定出的问题和答案对中的答案作为目标答案；然后执行步骤8。

4.根据权利要求1至3中任一权利要求所述的基于信息抽取和深度学习的问题回答处理方法，其特征在于：通过如下方式对权重数据库中的权重进行训练：

5.根据权利要求4所述的基于信息抽取和深度学习的问题回答处理方法，其特征在于：

步骤1中，所述数据源中存储有问题及其准确答案的历史记录。

6.一种基于信息抽取和深度学习的问题回答处理系统，其特征在于：该系统包括信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块、权重分配模块、答案确定模块及答案输出模块；

7.根据权利要求6所述的基于信息抽取和深度学习的问题回答处理系统，其特征在于：

所述匹配判断模块，还用于在第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值时确定出与第二语义集合的匹配度最大的第一语义集合，将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案。

8.根据权利要求7所述的基于信息抽取和深度学习的问题回答处理系统，其特征在于：

所述相似判断模块，还用于在当前问题与至少一个问题和答案对的相似度大于比较期望值时确定出与当前问题的相似度最大的问题和答案对，将确定出的问题和答案对中的答案作为目标答案。

9.根据权利要求6至8中任一权利要求所述的基于信息抽取和深度学习的问题回答处理系统，其特征在于：该系统还包括权重训练模块，且权重训练模块包括权重初始化单元、权重再确定单元及准确度验证单元；

10.根据权利要求9所述的基于信息抽取和深度学习的问题回答处理系统，其特征在于：所述数据源中存储有问题及其准确答案的历史记录。