CN111159340B

CN111159340B - 基于随机优化预测的机器阅读理解的答案匹配方法及系统

Info

Publication number: CN111159340B
Application number: CN201911347756.2A
Authority: CN
Inventors: 彭德光; 肖曼; 王雅璇; 高泫苏; 孙健; 汤宇腾
Original assignee: Chongqing Zhaoguang Technology Co ltd
Current assignee: Chongqing Zhaoguang Technology Co ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-11-03
Anticipated expiration: 2039-12-24
Also published as: CN111159340A

Abstract

本发明提供一种基于随机优化预测的机器阅读理解的答案匹配方法及系统，包括有：获取问题以及与所述问题关联的段落；对所述问题进行分词和向量化，获取每个问题词对应的问题特征向量；对所述段落进行分词和向量化，获取每个段落词对应的段落特征向量；根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的最优答案。本发明通过随机优化方法进行随机预测，不过于强调某一特定步骤的预测，避免了阶跃偏差问题；在预测中引入随机优化方法，提高了机器阅读理解匹配答案时的准确性。

Description

基于随机优化预测的机器阅读理解的答案匹配方法及系统

技术领域

本发明涉及信息技术领域，特别是涉及一种基于随机优化预测的机器阅读理解的答案匹配方法及系统。

背景技术

在机器阅读理解领域，随着大规模数据集的不断发布，计算机处理数据能力的不断提高，深度学习和神经网络研究的不断深入，机器阅读理解已经取得了很大的进展。但是在开放问答领域，现有的机器阅读理解匹配答案时均是通过独立方式对答案进行建模，过于强调某一特定步骤的预测，导致匹配答案时的鲁棒性低。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于随机优化预测的机器阅读理解的答案匹配方法及系统，用于解决现有技术中存在的技术问题。

为实现上述目的及其他相关目的，本发明提供一种基于随机优化预测的机器阅读理解的答案匹配方法，包括有：

获取问题以及与所述问题关联的段落；

对所述问题进行分词和向量化，获取每个问题词对应的问题特征向量；

对所述段落进行分词和向量化，获取每个段落词对应的段落特征向量；

根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法。

可选地，对所述问题进行分词，获取一个或多个问题词；根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化，获取每个问题词对应的问题特征向量；

对所述段落进行分词，获取一个或多个段落词；根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化，获取每个段落词对应的段落特征向量。

可选地，将预先训练好的一维或多维问题Word2vec或者Glove词向量、所述某一问题逻辑关系词嵌入所述问题Word2vec或者Glove词向量中；将预先训练好的一维或多维段落Word2vec或者Glove词向量、所述某一段落逻辑关系词嵌入至所述段落Word2vec或者Glove词向量中。

可选地，将所述问题特征向量和段落特征向量分别输入神经网络网络模型，获取能够融合所述问题上下文逻辑语义信息的问题语义向量和能够融合所述段落上下文逻辑语义信息的段落语义向量。

可选地，计算所述增强问题语义向量与所述增强段落语义向量的相似度，获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵；其中，所述相似度矩阵表示所述段落中各个语义向量与所述问题中各个语义向量的相似度；

获取由问题词构成的问题词集合以及由段落词构成的段落词集合；

若所述问题对应的候选答案在所述段落词集合中存在多个，则根据所述相似度矩阵随机优化方法预测所述候选答案集合中的一个最优答案；获取问题向量和每个候选答案的段落向量；每个问题向量在所述段落向量集合中对应的候选答案逻辑关系的起始位置和答案结束位置；获取候选答案起始位置和候选答案结束位置的各个逻辑关系，确定所述答案起始位置和所述答案结束位置的最优候选，根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。

可选地，所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练；所述命名实体识别器包括有：实体类、时间类和数字类。

本发明还提供一种基于随机优化预测的机器阅读理解的答案匹配系统，包括有：

获取模块，用于获取问题以及与所述问题关联的段落；

第一词嵌入模块，用于对所述问题进行分词和向量化，获取每个问题词对应的问题特征向量；

第二词嵌入模块，用于对所述段落进行分词和向量化，获取每个段落词对应的段落特征向量；

匹配模块，用于根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法。

可选地，所述第一词嵌入模块具体用于对所述问题进行分词，获取一个或多个问题词；根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化，获取每个问题词对应的问题特征向量；

所述第二词嵌入模块具体用于对所述段落进行分词，获取一个或多个段落词；根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化，获取每个段落词对应的段落特征向量。

可选地，所述匹配模块还具体用于将所述问题特征向量和段落特征向量分别输入神经网络模型，获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文逻辑语义信息的段落语义向量。

可选地，所述匹配模块还具体用于计算所述增强问题语义向量与所述增强段落语义向量的相似度，获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵；其中，所述相似度矩阵表示所述段落中各个语义向量与所述问题中各个语义向量的相似度；

如上所述，本发明提供一种基于随机优化预测的机器阅读理解的答案匹配方法及设备，具有以下有益效果：

通过获取问题以及与所述问题关联的段落；对所述问题进行分词和向量化，获取每个问题词对应的问题特征向量；对所述段落进行分词和向量化，获取每个段落词对应的段落特征向量；根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法。本发明通过随机优化方法进行随机预测，不过于强调某一特定步骤的预测，避免了阶跃偏差问题；在预测中引入随机性，提高了机器阅读理解匹配答案时的鲁棒性。

附图说明

图1为一实施例提供的答案匹配方法的流程示意图；

图2为一实施例提供的答案匹配系统的硬件示意图。

元件标号说明

M10 获取模块

M20 第一词嵌入模块

M30 第二词嵌入模块

M40 匹配模块

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1至图2。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

上下文：在语义分析，是指从一长串的文字或内容中分析出该个段落的摘要、大意、语义、语境等。

词嵌入：是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

请参阅图1，本实施例提供一种基于随机优化预测的机器阅读理解的答案匹配方法，包括以下步骤：

S100，获取问题Q以及与所述问题关联的段落P；

S200，对所述问题Q进行分词和向量化，获取每个问题词对应的问题特征向量，所有的问题特征向量构成一个问题特征向量集合；

S300，对所述段落P进行分词和向量化，获取每个段落词对应的段落特征向量，所有的段落特征向量构成一个段落特征向量集合；

S400，根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法。

在一示例性实施例中，对所述问题进行分词，获取一个或多个问题词；根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化，获取每个问题词对应的问题特征向量；对所述段落进行分词，获取一个或多个段落词；根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化，获取每个段落词对应的段落特征向量。其中，问题Q由m个问题词或字符流组成，段落P由n个问题词或字符流组成。选取预先训练的i维Word2vec或者Glove向量对m个问题词进行向量化，获得每个问题词对应的问题特征向量；选取预先训练的i维Word2vec或者Glove向量对n个段落词进行向量化，获得每个段落词对应的段落特征向量。具体地，本申请实施例通过学习函数f(Q，P)！生成一个矩阵A，即f(Q，P)！→A。选择历史训练数据中问题、与问题关联的段落、与问题对应的正确答案组成的元组＜Q，P，A＞作为训练数据。其中，所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练；所述命名实体识别器包括有三大类命名实体：实体类、时间类和数字类。例如，本申请中的命名实体识别器具体包括以下七小类命名实体：人名、机构名、地名、日期、时间、货币、百分比。

在一示例性实施例中，若预先训练好的一维或多维问题Word2vec或者Glove词向量不能对某一问题词进行向量化，则将所述某一问题词嵌入所述问题Word2vec或者Glove词向量中；若预先训练好的一维或多维段落Word2vec或者Glove词向量不能对某一段落词进行向量化，则将所述某一段落词嵌入至所述段落Word2vec或者Glove词向量中。

根据上述记载，在词汇编码层中，问题Q由m个问题词或字符流组成，即Q＝{q₀，q₁，...，q_m-1}，段落P由n个问题词或字符流组成，即P＝{p₀，p₁，...，p_n-1}。

对问题进行编码：对所述问题进行分词处理和向量化处理，选取为i维的Word2vec或者Glove词向量进行向量化处理；再进行词性(Parts-of-speech，POS)标记嵌入，根据语句的上下文信息，确定它们的词性分类以及相应的标注它们的过程，它具有以下特点：分布特征，单词能够出现在相似的环境中，有相似的功能；形态特征，单词有相同的前缀后缀，在句法结构中有相似的上下文环境；词性无关含义，也无关语法(可以是主语、宾语等等)。再命名实体识别，用于判断句子中是否含有命名实体。常见的命名实体主要为三大类和七小类；其中三大类为实体类、时间类和数字类；七小类为：人名、机构名、地名、日期、时间、货币和百分比。检查匹配度，例如采用三维二进制，检查段落P中的段落词是否可以匹配问题Q中的任何一个问题词，无论是起始、小写或者引理形式。

在一示例性实施例中，将所述问题特征向量和段落特征向量分别输入至第一层双向长短期记忆网络模型，获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文语义信息的段落语义向量；

再将所述问题语义向量、段落语义向量、问题词嵌入向量、段落词嵌入向量、预先训练好的Entity(实体)词向量分别输入至第二层双向长短期记忆网络模型；串联第一层双向长短期记忆网络模型与第二层双向长短期记忆网络模型的输出，获取能够融合所述问题上下文语义信息的增强问题语义向量和能够融合所述段落上下文语义信息的增强段落语义向量。

具体地，在上下文编码层中，段落和问题都使用共享的两层双向长短期记忆网络模型作为上下文编码。首先将问题特征向量和段落特征向量输入至第一层双向长短期记忆网络模型中，获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文语义信息的段落语义向量。再将进过预训练的2i维Entity(实体)向量、问题词嵌入向量、段落词嵌入向量以及第一层双向长短期记忆网络模型的输出，一起作为第二层双向长短期记忆网络模型的输入。为了减小参数的大小，可以使用一个最大输出MAXOUT层在每个双向长短期记忆网络模型层中收缩其尺寸，然后串联两个双向长短期记忆网络模型层的输出，获取能够融合所述问题上下文语义信息的增强问题语义向量和能够融合所述段落上下文语义信息的增强段落语义向量。

在一示例性实施例中，在记忆生成层中，计算所述增强问题语义向量与所述增强段落语义向量的相似度，获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵；其中，所述相似度矩阵表示所述段落中各个词与所述问题中各个词的相似度。

获取由问题词构成的问题词集合Q＝{q₀，q₁，...，q_m-1}以及由段落词构成的段落词集合P＝{p₀，p₁，...，p_n-1}。

若所述问题对应的答案在所述段落词集合中以连续的形式存在，对相似度矩阵采用Softmax函数进行归一化处理，以获得所述段落中各个段落词关于问题中各个问题词的概率分布，再对问题语义向量进行加权求和。根据所述相似度矩阵随机预测所述问题词集合中每个问题词在所述段落词集合中对应的答案起始位置和答案结束位置；获取答案起始位置和答案结束位置的分布概率，确定所述答案起始位置和所述答案结束位置的最大联合分布概率，根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。

具体地，以从海量裁判文书中找到答案段落为例：

假设问题向量为Q，每个问题为Q_i，从裁判文书中选择段落向量为A₁，A₂，...，A_i；

假设最优答案为A_j，那么这个过程可以表述成Q_i→A_j；

也可以用J＝F(Q，A)表示，其中J为答案与问题的匹配得分。

我们将寻找最优答案的过程转化为一优化问题的求解，因此我们构造一个评估函数来得到最优答案，此优化问题可以被表示为A_j＝arg maxF(Q_i，A)；

由于以上优化问题涉及到组合优化，为了避免组合爆炸的问题，本实施例中使用随机优化方法，例如随机梯度下降、粒子群算法、或遗传算法等来寻找A_j；

F通过神经网络，依据给出的样本(Q₁，A₁)，(Q₂，A₂)，…，(Q_i，A_i)；其中/>为神经网络的基向量，θ为径向基函数，输入函数Q和A维度组合而成的向量，即(Q_i，A_i)；/>代表约束边界，此边界可以避免求解出的A超出以/>表示的最大边界范围。

本方法通过获取问题以及与所述问题关联的段落；对所述问题进行分词和向量化，获取每个问题词对应的问题特征向量；对所述段落进行分词和向量化，获取每个段落词对应的段落特征向量；根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法。本方法通过应用随机预测，不过于强调某一特定步骤的预测，避免了阶跃偏差问题；在预测中引入随机性，提高了机器阅读理解匹配答案时的鲁棒性。问题特征向量随机向段落向量进行匹配的过程中，可以通过本方法实现更加高效的预测。

如图2所示，本发明还提供一种基于随机优化预测的机器阅读理解的答案匹配系统，包括有：

获取模块M10，用于获取问题Q以及与所述问题Q关联的段落P；

第一词嵌入模块M20，用于对所述问题Q进行分词和向量化，获取每个问题词对应的问题特征向量；

第二词嵌入模块M30，用于对所述段落P进行分词和向量化，获取每个段落词对应的段落特征向量；

匹配模块M40，用于根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法。

在一示例性实施例中，所述第一词嵌入模块M20具体用于对所述问题进行分词，获取一个或多个问题词；根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化，获取每个问题词对应的问题特征向量。其中，问题Q由m个问题词或字符流组成，段落P由n个问题词或字符流组成。选取预先训练的i维Word2vec或者Glove向量对m个问题词进行向量化，获得每个问题词对应的问题特征向量；选取预先训练的i维Word2vec或者Glove向量对n个段落词进行向量化，获得每个段落词对应的段落特征向量。具体地，本申请实施例通过学习函数f(Q，P)！生成一个矩阵A，即f(Q，P)！→A。选择历史训练数据中问题、与问题关联的段落、与问题对应的正确答案组成的元组＜Q，P，A＞作为训练数据。其中，所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练；所述命名实体识别器包括有三大类命名实体：实体类、时间类和数字类。例如，本申请中的命名实体识别器具体包括以下七小类命名实体：人名、机构名、地名、日期、时间、货币、百分比。

所述第二词嵌入模块M30具体用于对所述段落进行分词，获取一个或多个段落词；根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化，获取每个段落词对应的段落特征向量。

在一示例性实施例中，所述匹配模块M40还具体用于将所述问题特征向量和段落特征向量分别输入至第一层双向长短期记忆网络模型，获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文语义信息的段落语义向量；

在一示例性实施例中，在记忆生成层中，所述匹配模块M40还具体用于计算所述增强问题语义向量与所述增强段落语义向量的相似度，获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵；其中，所述相似度矩阵表示所述段落中各个词与所述问题中各个词的相似度。

具体地，以从海量裁判文书中找到答案段落为例：

假设最优答案为A_j，那么这个过程可以表述成Q_i→A_j；

也可以用J＝F(Q，A)表示，其中J为答案与问题的匹配得分。

本系统通过获取问题以及与所述问题关联的段落；对所述问题进行分词和向量化，获取每个问题词对应的问题特征向量；对所述段落进行分词和向量化，获取每个段落词对应的段落特征向量；根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法。本系统通过应用随机预测，不过于强调某一特定步骤的预测，避免了阶跃偏差问题；在预测中引入随机性，提高了机器阅读理解匹配答案时的鲁棒性。问题特征向量随机向段落向量进行匹配的过程中，可以通过本系统实现更加高效的预测。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于随机优化预测的机器阅读理解的答案匹配方法，其特征在于，包括以下步骤：

获取问题以及与所述问题关联的段落；

根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法；

根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案的过程包括：

将所述问题特征向量和段落特征向量分别输入第一层双向长短期记忆网络模型，获取能够融合所述问题上下文逻辑语义信息的问题语义向量和能够融合所述段落上下文逻辑语义信息的段落语义向量；

再将所述问题语义向量、段落语义向量、问题词嵌入向量、段落词嵌入向量、预先训练好的实体词向量分别输入至第二层双向长短期记忆网络模型；串联第一层双向长短期记忆网络模型与第二层双向长短期记忆网络模型的输出，获取能够融合所述问题上下文语义信息的增强问题语义向量和能够融合所述段落上下文语义信息的增强段落语义向量；

计算所述增强问题语义向量与所述增强段落语义向量的相似度，获取所述增强问题语义向量与增强文本语义向量的相似度矩阵；其中，所述相似度矩阵表示所述段落中各个语义向量与所述问题中各个语义向量的相似度；

若所述问题对应的候选答案在所述段落词集合中存在多个，则根据所述相似度矩阵随机优化方法预测所述候选答案集合中的一个最优答案；获取问题向量和每个候选答案的段落向量；每个问题向量在所述段落向量集合中对应的候选答案逻辑关系的起始位置和答案结束位置；获取候选答案起始位置和候选答案结束位置的各个逻辑关系，确定所述答案起始位置和所述答案结束位置的最优候选，根据最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。

2.根据权利要求1所述的基于随机优化预测的机器阅读理解的答案匹配方法，其特征在于：

对所述问题进行分词，获取一个或多个问题词；根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化，获取每个问题词对应的问题特征向量；

3.根据权利要求2所述的基于随机优化预测的机器阅读理解的答案匹配方法，其特征在于：将预先训练好的一维或多维问题Word2vec或者Glove词向量、某一问题逻辑关系词嵌入所述问题Word2vec或者Glove词向量中；将预先训练好的一维或多维段落Word2vec或者Glove词向量、某一段落逻辑关系词嵌入至所述段落Word2vec或者Glove词向量中。

4.根据权利要求2或3所述的基于随机优化预测的机器阅读理解的答案匹配方法，其特征在于：所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练；所述命名实体识别器包括有：实体类、时间类和数字类。

5.一种基于随机优化预测的机器阅读理解的答案匹配系统，其特征在于，包括有：

获取模块，用于获取问题以及与所述问题关联的段落；

匹配模块，用于根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测，在所述段落中匹配出所述问题对应的答案；其中，所述随机优化方法包括以下至少之一：随机梯度下降、粒子群算法、遗传算法；

6.根据权利要求5所述的基于随机优化预测的机器阅读理解的答案匹配系统，其特征在于：

所述第一词嵌入模块具体用于对所述问题进行分词，获取一个或多个问题词；根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化，获取每个问题词对应的问题特征向量；