CN111159340A - 基于随机优化预测的机器阅读理解的答案匹配方法及系统 - Google Patents
基于随机优化预测的机器阅读理解的答案匹配方法及系统 Download PDFInfo
- Publication number
- CN111159340A CN111159340A CN201911347756.2A CN201911347756A CN111159340A CN 111159340 A CN111159340 A CN 111159340A CN 201911347756 A CN201911347756 A CN 201911347756A CN 111159340 A CN111159340 A CN 111159340A
- Authority
- CN
- China
- Prior art keywords
- paragraph
- question
- word
- vector
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000005457 optimization Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 222
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 239000011159 matrix material Substances 0.000 claims description 22
- 230000002068 genetic effect Effects 0.000 claims description 11
- 239000002245 particle Substances 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 5
- 238000003062 neural network model Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 description 18
- 230000007787 long-term memory Effects 0.000 description 15
- 230000006403 short-term memory Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于随机优化预测的机器阅读理解的答案匹配方法及系统,包括有:获取问题以及与所述问题关联的段落;对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的最优答案。本发明通过随机优化方法进行随机预测,不过于强调某一特定步骤的预测,避免了阶跃偏差问题;在预测中引入随机优化方法,提高了机器阅读理解匹配答案时的准确性。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种基于随机优化预测的机器阅读理解的答案匹配方法及系统。
背景技术
在机器阅读理解领域,随着大规模数据集的不断发布,计算机处理数据能力的不断提高,深度学习和神经网络研究的不断深入,机器阅读理解已经取得了很大的进展。但是在开放问答领域,现有的机器阅读理解匹配答案时均是通过独立方式对答案进行建模,过于强调某一特定步骤的预测,导致匹配答案时的鲁棒性低。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于随机优化预测的机器阅读理解的答案匹配方法及系统,用于解决现有技术中存在的技术问题。
为实现上述目的及其他相关目的,本发明提供一种基于随机优化预测的机器阅读理解的答案匹配方法,包括有:
获取问题以及与所述问题关联的段落;
对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;
对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;
根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。
可选地,对所述问题进行分词,获取一个或多个问题词;根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化,获取每个问题词对应的问题特征向量;
对所述段落进行分词,获取一个或多个段落词;根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化,获取每个段落词对应的段落特征向量。
可选地,将预先训练好的一维或多维问题Word2vec或者Glove词向量、所述某一问题逻辑关系词嵌入所述问题Word2vec或者Glove词向量中;将预先训练好的一维或多维段落Word2vec或者Glove词向量、所述某一段落逻辑关系词嵌入至所述段落Word2vec或者Glove词向量中。
可选地,将所述问题特征向量和段落特征向量分别输入神经网络网络模型,获取能够融合所述问题上下文逻辑语义信息的问题语义向量和能够融合所述段落上下文逻辑语义信息的段落语义向量。
可选地,计算所述增强问题语义向量与所述增强段落语义向量的相似度,获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵;其中,所述相似度矩阵表示所述段落中各个语义向量与所述问题中各个语义向量的相似度;
获取由问题词构成的问题词集合以及由段落词构成的段落词集合;
若所述问题对应的候选答案在所述段落词集合中存在多个,则根据所述相似度矩阵随机优化方法预测所述候选答案集合中的一个最优答案;获取问题向量和每个候选答案的段落向量;每个问题向量在所述段落向量集合中对应的候选答案逻辑关系的起始位置和答案结束位置;获取候选答案起始位置和候选答案结束位置的各个逻辑关系,确定所述答案起始位置和所述答案结束位置的最优候选,根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。
可选地,所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练;所述命名实体识别器包括有:实体类、时间类和数字类。
本发明还提供一种基于随机优化预测的机器阅读理解的答案匹配系统,包括有:
获取模块,用于获取问题以及与所述问题关联的段落;
第一词嵌入模块,用于对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;
第二词嵌入模块,用于对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;
匹配模块,用于根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。
可选地,所述第一词嵌入模块具体用于对所述问题进行分词,获取一个或多个问题词;根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化,获取每个问题词对应的问题特征向量;
所述第二词嵌入模块具体用于对所述段落进行分词,获取一个或多个段落词;根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化,获取每个段落词对应的段落特征向量。
可选地,所述匹配模块还具体用于将所述问题特征向量和段落特征向量分别输入神经网络模型,获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文逻辑语义信息的段落语义向量。
可选地,所述匹配模块还具体用于计算所述增强问题语义向量与所述增强段落语义向量的相似度,获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵;其中,所述相似度矩阵表示所述段落中各个语义向量与所述问题中各个语义向量的相似度;
若所述问题对应的候选答案在所述段落词集合中存在多个,则根据所述相似度矩阵随机优化方法预测所述候选答案集合中的一个最优答案;获取问题向量和每个候选答案的段落向量;每个问题向量在所述段落向量集合中对应的候选答案逻辑关系的起始位置和答案结束位置;获取候选答案起始位置和候选答案结束位置的各个逻辑关系,确定所述答案起始位置和所述答案结束位置的最优候选,根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。
如上所述,本发明提供一种基于随机优化预测的机器阅读理解的答案匹配方法及设备,具有以下有益效果:
通过获取问题以及与所述问题关联的段落;对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。本发明通过随机优化方法进行随机预测,不过于强调某一特定步骤的预测,避免了阶跃偏差问题;在预测中引入随机性,提高了机器阅读理解匹配答案时的鲁棒性。
附图说明
图1为一实施例提供的答案匹配方法的流程示意图;
图2为一实施例提供的答案匹配系统的硬件示意图。
元件标号说明
M10 获取模块
M20 第一词嵌入模块
M30 第二词嵌入模块
M40 匹配模块
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1至图2。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
上下文:在语义分析,是指从一长串的文字或内容中分析出该个段落的摘要、大意、语义、语境等。
词嵌入:是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。
请参阅图1,本实施例提供一种基于随机优化预测的机器阅读理解的答案匹配方法,包括以下步骤:
S100,获取问题Q以及与所述问题关联的段落P;
S200,对所述问题Q进行分词和向量化,获取每个问题词对应的问题特征向量,所有的问题特征向量构成一个问题特征向量集合;
S300,对所述段落P进行分词和向量化,获取每个段落词对应的段落特征向量,所有的段落特征向量构成一个段落特征向量集合;
S400,根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。
在一示例性实施例中,对所述问题进行分词,获取一个或多个问题词;根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化,获取每个问题词对应的问题特征向量;对所述段落进行分词,获取一个或多个段落词;根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化,获取每个段落词对应的段落特征向量。其中,问题Q由m个问题词或字符流组成,段落P由n个问题词或字符流组成。选取预先训练的i维Word2vec或者Glove向量对m个问题词进行向量化,获得每个问题词对应的问题特征向量;选取预先训练的i维Word2vec或者Glove向量对n个段落词进行向量化,获得每个段落词对应的段落特征向量。具体地,本申请实施例通过学习函数f(Q,P)!生成一个矩阵A,即f(Q,P)!→A。选择历史训练数据中问题、与问题关联的段落、与问题对应的正确答案组成的元组<Q,P,A>作为训练数据。其中,所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练;所述命名实体识别器包括有三大类命名实体:实体类、时间类和数字类。例如,本申请中的命名实体识别器具体包括以下七小类命名实体:人名、机构名、地名、日期、时间、货币、百分比。
在一示例性实施例中,若预先训练好的一维或多维问题Word2vec或者Glove词向量不能对某一问题词进行向量化,则将所述某一问题词嵌入所述问题Word2vec或者Glove词向量中;若预先训练好的一维或多维段落Word2vec或者Glove词向量不能对某一段落词进行向量化,则将所述某一段落词嵌入至所述段落Word2vec或者Glove词向量中。
根据上述记载,在词汇编码层中,问题Q由m个问题词或字符流组成,即Q={q0,q1,...,qm-1},段落P由n个问题词或字符流组成,即P={p0,p1,...,pn-1}。
对问题进行编码:对所述问题进行分词处理和向量化处理,选取为i维的Word2vec或者Glove词向量进行向量化处理;再进行词性(Parts-of-speech,POS)标记嵌入,根据语句的上下文信息,确定它们的词性分类以及相应的标注它们的过程,它具有以下特点:分布特征,单词能够出现在相似的环境中,有相似的功能;形态特征,单词有相同的前缀后缀,在句法结构中有相似的上下文环境;词性无关含义,也无关语法(可以是主语、宾语等等)。再命名实体识别,用于判断句子中是否含有命名实体。常见的命名实体主要为三大类和七小类;其中三大类为实体类、时间类和数字类;七小类为:人名、机构名、地名、日期、时间、货币和百分比。检查匹配度,例如采用三维二进制,检查段落P中的段落词是否可以匹配问题Q中的任何一个问题词,无论是起始、小写或者引理形式。
在一示例性实施例中,将所述问题特征向量和段落特征向量分别输入至第一层双向长短期记忆网络模型,获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文语义信息的段落语义向量;
再将所述问题语义向量、段落语义向量、问题词嵌入向量、段落词嵌入向量、预先训练好的Entity(实体)词向量分别输入至第二层双向长短期记忆网络模型;串联第一层双向长短期记忆网络模型与第二层双向长短期记忆网络模型的输出,获取能够融合所述问题上下文语义信息的增强问题语义向量和能够融合所述段落上下文语义信息的增强段落语义向量。
具体地,在上下文编码层中,段落和问题都使用共享的两层双向长短期记忆网络模型作为上下文编码。首先将问题特征向量和段落特征向量输入至第一层双向长短期记忆网络模型中,获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文语义信息的段落语义向量。再将进过预训练的2i维Entity(实体)向量、问题词嵌入向量、段落词嵌入向量以及第一层双向长短期记忆网络模型的输出,一起作为第二层双向长短期记忆网络模型的输入。为了减小参数的大小,可以使用一个最大输出MAXOUT层在每个双向长短期记忆网络模型层中收缩其尺寸,然后串联两个双向长短期记忆网络模型层的输出,获取能够融合所述问题上下文语义信息的增强问题语义向量和能够融合所述段落上下文语义信息的增强段落语义向量。
在一示例性实施例中,在记忆生成层中,计算所述增强问题语义向量与所述增强段落语义向量的相似度,获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵;其中,所述相似度矩阵表示所述段落中各个词与所述问题中各个词的相似度。
获取由问题词构成的问题词集合Q={q0,q1,...,qm-1}以及由段落词构成的段落词集合P={p0,p1,...,pn-1}。
若所述问题对应的答案在所述段落词集合中以连续的形式存在,对相似度矩阵采用Softmax函数进行归一化处理,以获得所述段落中各个段落词关于问题中各个问题词的概率分布,再对问题语义向量进行加权求和。根据所述相似度矩阵随机预测所述问题词集合中每个问题词在所述段落词集合中对应的答案起始位置和答案结束位置;获取答案起始位置和答案结束位置的分布概率,确定所述答案起始位置和所述答案结束位置的最大联合分布概率,根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。
具体地,以从海量裁判文书中找到答案段落为例:
假设问题向量为Q,每个问题为Qi,从裁判文书中选择段落向量为A1,A2,...,Ai;
假设最优答案为Aj,那么这个过程可以表述成Qi→Aj;
也可以用J=F(Q,A)表示,其中J为答案与问题的匹配得分。
我们将寻找最优答案的过程转化为一优化问题的求解,因此我们构造一个评估函数来得到最优答案,此优化问题可以被表示为Aj=arg maxF(Qi,A);
由于以上优化问题涉及到组合优化,为了避免组合爆炸的问题,本实施例中使用随机优化方法,例如随机梯度下降、粒子群算法、或遗传算法等来寻找Aj;
F通过神经网络,依据给出的样本(Q1,A1),(Q2,A2),…,(Qi,Ai); 其中为神经网络的基向量,θ为径向基函数,输入函数Q和A维度组合而成的向量,即(Qi,Ai);代表约束边界,此边界可以避免求解出的A超出以表示的最大边界范围。
本方法通过获取问题以及与所述问题关联的段落;对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。本方法通过应用随机预测,不过于强调某一特定步骤的预测,避免了阶跃偏差问题;在预测中引入随机性,提高了机器阅读理解匹配答案时的鲁棒性。问题特征向量随机向段落向量进行匹配的过程中,可以通过本方法实现更加高效的预测。
如图2所示,本发明还提供一种基于随机优化预测的机器阅读理解的答案匹配系统,包括有:
获取模块M10,用于获取问题Q以及与所述问题Q关联的段落P;
第一词嵌入模块M20,用于对所述问题Q进行分词和向量化,获取每个问题词对应的问题特征向量;
第二词嵌入模块M30,用于对所述段落P进行分词和向量化,获取每个段落词对应的段落特征向量;
匹配模块M40,用于根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。
在一示例性实施例中,所述第一词嵌入模块M20具体用于对所述问题进行分词,获取一个或多个问题词;根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化,获取每个问题词对应的问题特征向量。其中,问题Q由m个问题词或字符流组成,段落P由n个问题词或字符流组成。选取预先训练的i维Word2vec或者Glove向量对m个问题词进行向量化,获得每个问题词对应的问题特征向量;选取预先训练的i维Word2vec或者Glove向量对n个段落词进行向量化,获得每个段落词对应的段落特征向量。具体地,本申请实施例通过学习函数f(Q,P)!生成一个矩阵A,即f(Q,P)!→A。选择历史训练数据中问题、与问题关联的段落、与问题对应的正确答案组成的元组<Q,P,A>作为训练数据。其中,所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练;所述命名实体识别器包括有三大类命名实体:实体类、时间类和数字类。例如,本申请中的命名实体识别器具体包括以下七小类命名实体:人名、机构名、地名、日期、时间、货币、百分比。
所述第二词嵌入模块M30具体用于对所述段落进行分词,获取一个或多个段落词;根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化,获取每个段落词对应的段落特征向量。
在一示例性实施例中,若预先训练好的一维或多维问题Word2vec或者Glove词向量不能对某一问题词进行向量化,则将所述某一问题词嵌入所述问题Word2vec或者Glove词向量中;若预先训练好的一维或多维段落Word2vec或者Glove词向量不能对某一段落词进行向量化,则将所述某一段落词嵌入至所述段落Word2vec或者Glove词向量中。
根据上述记载,在词汇编码层中,问题Q由m个问题词或字符流组成,即Q={q0,q1,...,qm-1},段落P由n个问题词或字符流组成,即P={p0,p1,...,pn-1}。
对问题进行编码:对所述问题进行分词处理和向量化处理,选取为i维的Word2vec或者Glove词向量进行向量化处理;再进行词性(Parts-of-speech,POS)标记嵌入,根据语句的上下文信息,确定它们的词性分类以及相应的标注它们的过程,它具有以下特点:分布特征,单词能够出现在相似的环境中,有相似的功能;形态特征,单词有相同的前缀后缀,在句法结构中有相似的上下文环境;词性无关含义,也无关语法(可以是主语、宾语等等)。再命名实体识别,用于判断句子中是否含有命名实体。常见的命名实体主要为三大类和七小类;其中三大类为实体类、时间类和数字类;七小类为:人名、机构名、地名、日期、时间、货币和百分比。检查匹配度,例如采用三维二进制,检查段落P中的段落词是否可以匹配问题Q中的任何一个问题词,无论是起始、小写或者引理形式。
在一示例性实施例中,所述匹配模块M40还具体用于将所述问题特征向量和段落特征向量分别输入至第一层双向长短期记忆网络模型,获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文语义信息的段落语义向量;
再将所述问题语义向量、段落语义向量、问题词嵌入向量、段落词嵌入向量、预先训练好的Entity(实体)词向量分别输入至第二层双向长短期记忆网络模型;串联第一层双向长短期记忆网络模型与第二层双向长短期记忆网络模型的输出,获取能够融合所述问题上下文语义信息的增强问题语义向量和能够融合所述段落上下文语义信息的增强段落语义向量。
具体地,在上下文编码层中,段落和问题都使用共享的两层双向长短期记忆网络模型作为上下文编码。首先将问题特征向量和段落特征向量输入至第一层双向长短期记忆网络模型中,获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文语义信息的段落语义向量。再将进过预训练的2i维Entity(实体)向量、问题词嵌入向量、段落词嵌入向量以及第一层双向长短期记忆网络模型的输出,一起作为第二层双向长短期记忆网络模型的输入。为了减小参数的大小,可以使用一个最大输出MAXOUT层在每个双向长短期记忆网络模型层中收缩其尺寸,然后串联两个双向长短期记忆网络模型层的输出,获取能够融合所述问题上下文语义信息的增强问题语义向量和能够融合所述段落上下文语义信息的增强段落语义向量。
在一示例性实施例中,在记忆生成层中,所述匹配模块M40还具体用于计算所述增强问题语义向量与所述增强段落语义向量的相似度,获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵;其中,所述相似度矩阵表示所述段落中各个词与所述问题中各个词的相似度。
获取由问题词构成的问题词集合Q={q0,q1,...,qm-1}以及由段落词构成的段落词集合P={p0,p1,...,pn-1}。
若所述问题对应的答案在所述段落词集合中以连续的形式存在,对相似度矩阵采用Softmax函数进行归一化处理,以获得所述段落中各个段落词关于问题中各个问题词的概率分布,再对问题语义向量进行加权求和。根据所述相似度矩阵随机预测所述问题词集合中每个问题词在所述段落词集合中对应的答案起始位置和答案结束位置;获取答案起始位置和答案结束位置的分布概率,确定所述答案起始位置和所述答案结束位置的最大联合分布概率,根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。
具体地,以从海量裁判文书中找到答案段落为例:
假设问题向量为Q,每个问题为Qi,从裁判文书中选择段落向量为A1,A2,...,Ai;
假设最优答案为Aj,那么这个过程可以表述成Qi→Aj;
也可以用J=F(Q,A)表示,其中J为答案与问题的匹配得分。
我们将寻找最优答案的过程转化为一优化问题的求解,因此我们构造一个评估函数来得到最优答案,此优化问题可以被表示为Aj=arg maxF(Qi,A);
由于以上优化问题涉及到组合优化,为了避免组合爆炸的问题,本实施例中使用随机优化方法,例如随机梯度下降、粒子群算法、或遗传算法等来寻找Aj;
F通过神经网络,依据给出的样本(Q1,A1),(Q2,A2),…,(Qi,Ai); 其中为神经网络的基向量,θ为径向基函数,输入函数Q和A维度组合而成的向量,即(Qi,Ai);代表约束边界,此边界可以避免求解出的A超出以表示的最大边界范围。
本系统通过获取问题以及与所述问题关联的段落;对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。本系统通过应用随机预测,不过于强调某一特定步骤的预测,避免了阶跃偏差问题;在预测中引入随机性,提高了机器阅读理解匹配答案时的鲁棒性。问题特征向量随机向段落向量进行匹配的过程中,可以通过本系统实现更加高效的预测。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于随机优化预测的机器阅读理解的答案匹配方法,其特征在于,包括以下步骤:
获取问题以及与所述问题关联的段落;
对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;
对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;
根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。
2.根据权利要求1所述的基于随机优化预测的机器阅读理解的答案匹配方法,其特征在于:
对所述问题进行分词,获取一个或多个问题词;根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化,获取每个问题词对应的问题特征向量;
对所述段落进行分词,获取一个或多个段落词;根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化,获取每个段落词对应的段落特征向量。
3.根据权利要求2所述的基于随机优化预测的机器阅读理解的答案匹配方法,其特征在于:将预先训练好的一维或多维问题Word2vec或者Glove词向量、所述某一问题逻辑关系词嵌入所述问题Word2vec或者Glove词向量中;将预先训练好的一维或多维段落Word2vec或者Glove词向量、所述某一段落逻辑关系词嵌入至所述段落Word2vec或者Glove词向量中。
4.根据权利要求2或3所述的基于随机优化预测的机器阅读理解的答案匹配方法,其特征在于:将所述问题特征向量和段落特征向量分别输入神经网络网络模型,获取能够融合所述问题上下文逻辑语义信息的问题语义向量和能够融合所述段落上下文逻辑语义信息的段落语义向量。
5.根据权利要求4所述的基于随机优化预测的机器阅读理解的答案匹配方法,其特征在于:
计算所述增强问题语义向量与所述增强段落语义向量的相似度,获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵;其中,所述相似度矩阵表示所述段落中各个语义向量与所述问题中各个语义向量的相似度;
获取由问题词构成的问题词集合以及由段落词构成的段落词集合;
若所述问题对应的候选答案在所述段落词集合中存在多个,则根据所述相似度矩阵随机优化方法预测所述候选答案集合中的一个最优答案;获取问题向量和每个候选答案的段落向量;每个问题向量在所述段落向量集合中对应的候选答案逻辑关系的起始位置和答案结束位置;获取候选答案起始位置和候选答案结束位置的各个逻辑关系,确定所述答案起始位置和所述答案结束位置的最优候选,根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。
6.根据权利要求2至5任一所述的基于随机优化预测的机器阅读理解的答案匹配方法,其特征在于:所述问题Word2vec或者Glove词向量和/或所述段落Word2vec或者Glove词向量通过命名实体识别器进行预先训练;所述命名实体识别器包括有:实体类、时间类和数字类。
7.一种基于随机优化预测的机器阅读理解的答案匹配系统,其特征在于,包括有:
获取模块,用于获取问题以及与所述问题关联的段落;
第一词嵌入模块,用于对所述问题进行分词和向量化,获取每个问题词对应的问题特征向量;
第二词嵌入模块,用于对所述段落进行分词和向量化,获取每个段落词对应的段落特征向量;
匹配模块,用于根据所述问题特征向量对所述段落特征向量通过随机优化方法进行随机预测,在所述段落中匹配出所述问题对应的答案;其中,所述随机优化方法包括以下至少之一:随机梯度下降、粒子群算法、遗传算法。
8.根据权利要求7所述的基于随机优化预测的机器阅读理解的答案匹配系统,其特征在于:
所述第一词嵌入模块具体用于对所述问题进行分词,获取一个或多个问题词;根据预先训练好的一维或多维问题Word2vec或者Glove词向量对所述问题词进行向量化,获取每个问题词对应的问题特征向量;
所述第二词嵌入模块具体用于对所述段落进行分词,获取一个或多个段落词;根据预先训练好的一维或多维段落Word2vec或者Glove词向量对所述段落词进行向量化,获取每个段落词对应的段落特征向量。
9.根据权利要求8所述的基于随机优化预测的机器阅读理解的答案匹配系统,其特征在于:所述匹配模块还具体用于将所述问题特征向量和段落特征向量分别输入神经网络模型,获取能够融合所述问题上下文语义信息的问题语义向量和能够融合所述段落上下文逻辑语义信息的段落语义向量。
10.根据权利要求9所述的基于随机优化预测的机器阅读理解的答案匹配系统,其特征在于:所述匹配模块还具体用于计算所述增强问题语义向量与所述增强段落语义向量的相似度,获取所述增强问题语义向量与所述增强文本语义向量的相似度矩阵;其中,所述相似度矩阵表示所述段落中各个语义向量与所述问题中各个语义向量的相似度;
若所述问题对应的候选答案在所述段落词集合中存在多个,则根据所述相似度矩阵随机优化方法预测所述候选答案集合中的一个最优答案;获取问题向量和每个候选答案的段落向量;每个问题向量在所述段落向量集合中对应的候选答案逻辑关系的起始位置和答案结束位置;获取候选答案起始位置和候选答案结束位置的各个逻辑关系,确定所述答案起始位置和所述答案结束位置的最优候选,根据所述最大联合分布概率在段落词集合中所对应的段落词片段确定为所述问题对应的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347756.2A CN111159340B (zh) | 2019-12-24 | 2019-12-24 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911347756.2A CN111159340B (zh) | 2019-12-24 | 2019-12-24 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159340A true CN111159340A (zh) | 2020-05-15 |
CN111159340B CN111159340B (zh) | 2023-11-03 |
Family
ID=70558146
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911347756.2A Active CN111159340B (zh) | 2019-12-24 | 2019-12-24 | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159340B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113836283A (zh) * | 2021-09-24 | 2021-12-24 | 上海金仕达软件科技有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
CN116108128A (zh) * | 2023-04-13 | 2023-05-12 | 华南师范大学 | 一种开放域问答系统及答案预测方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN107704563A (zh) * | 2017-09-29 | 2018-02-16 | 广州多益网络股份有限公司 | 一种问句推荐方法及系统 |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
CN109255012A (zh) * | 2018-07-23 | 2019-01-22 | 深思考人工智能机器人科技(北京)有限公司 | 一种机器阅读理解的实现方法以及装置 |
US20190065576A1 (en) * | 2017-08-23 | 2019-02-28 | Rsvp Technologies Inc. | Single-entity-single-relation question answering systems, and methods |
US10268676B1 (en) * | 2017-06-09 | 2019-04-23 | Act, Inc. | Automated detection of linguistic uniqueness |
CN109766418A (zh) * | 2018-12-13 | 2019-05-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
US20190163500A1 (en) * | 2017-11-28 | 2019-05-30 | Intuit Inc. | Method and apparatus for providing personalized self-help experience |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110134946A (zh) * | 2019-04-15 | 2019-08-16 | 深圳智能思创科技有限公司 | 一种针对复杂数据的机器阅读理解方法 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110442675A (zh) * | 2019-06-27 | 2019-11-12 | 平安科技(深圳)有限公司 | 问答匹配处理、模型训练方法、装置、设备及存储介质 |
CN110516145A (zh) * | 2019-07-10 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于句向量编码的信息搜索方法 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
-
2019
- 2019-12-24 CN CN201911347756.2A patent/CN111159340B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
US10268676B1 (en) * | 2017-06-09 | 2019-04-23 | Act, Inc. | Automated detection of linguistic uniqueness |
US20190065576A1 (en) * | 2017-08-23 | 2019-02-28 | Rsvp Technologies Inc. | Single-entity-single-relation question answering systems, and methods |
CN107704563A (zh) * | 2017-09-29 | 2018-02-16 | 广州多益网络股份有限公司 | 一种问句推荐方法及系统 |
US20190163500A1 (en) * | 2017-11-28 | 2019-05-30 | Intuit Inc. | Method and apparatus for providing personalized self-help experience |
CN108960319A (zh) * | 2018-06-29 | 2018-12-07 | 哈尔滨工业大学 | 一种面向全局的机器阅读理解建模中的候选答案筛选方法 |
CN109255012A (zh) * | 2018-07-23 | 2019-01-22 | 深思考人工智能机器人科技(北京)有限公司 | 一种机器阅读理解的实现方法以及装置 |
CN109766418A (zh) * | 2018-12-13 | 2019-05-17 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN109918487A (zh) * | 2019-01-28 | 2019-06-21 | 平安科技(深圳)有限公司 | 基于网络百科全书的智能问答方法和系统 |
CN109885672A (zh) * | 2019-03-04 | 2019-06-14 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN110597947A (zh) * | 2019-03-20 | 2019-12-20 | 桂林电子科技大学 | 一种基于全局和局部注意力交互的阅读理解系统及方法 |
CN109992648A (zh) * | 2019-04-10 | 2019-07-09 | 北京神州泰岳软件股份有限公司 | 基于词迁徙学习的深度文本匹配方法及装置 |
CN110134946A (zh) * | 2019-04-15 | 2019-08-16 | 深圳智能思创科技有限公司 | 一种针对复杂数据的机器阅读理解方法 |
CN110083682A (zh) * | 2019-04-19 | 2019-08-02 | 西安交通大学 | 一种基于多轮注意力机制的机器阅读理解答案获取方法 |
CN110442675A (zh) * | 2019-06-27 | 2019-11-12 | 平安科技(深圳)有限公司 | 问答匹配处理、模型训练方法、装置、设备及存储介质 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110516145A (zh) * | 2019-07-10 | 2019-11-29 | 中国人民解放军国防科技大学 | 一种基于句向量编码的信息搜索方法 |
Non-Patent Citations (3)
Title |
---|
LEKSHMI R PILLAI: "A Combined Approach Using Semantic Role Labelling and Word Sense Disambiguation for Question Generation and Answer Extraction", 2018 SECOND INTERNATIONAL CONFERENCE ON ADVANCES IN ELECTRONICS, COMPUTERS AND COMMUNICATIONS (ICAECC) * |
冯文政: "融合深度匹配特征的答案选择模型", 《中文信息学报》, vol. 33, no. 1 * |
祝方泽: "大规模短文本摘要数据集的构建与自动过滤方法", 中国优秀硕士学位论文全文数据库 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210406467A1 (en) * | 2020-06-24 | 2021-12-30 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for generating triple sample, electronic device and computer storage medium |
CN113836283A (zh) * | 2021-09-24 | 2021-12-24 | 上海金仕达软件科技有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN113836283B (zh) * | 2021-09-24 | 2024-04-12 | 上海金仕达软件科技股份有限公司 | 答案的生成方法、装置、电子设备及存储介质 |
CN116108128A (zh) * | 2023-04-13 | 2023-05-12 | 华南师范大学 | 一种开放域问答系统及答案预测方法 |
CN116108128B (zh) * | 2023-04-13 | 2023-09-05 | 华南师范大学 | 一种开放域问答系统及答案预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111159340B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dahouda et al. | A deep-learned embedding technique for categorical features encoding | |
Sohangir et al. | Big Data: Deep Learning for financial sentiment analysis | |
Lei et al. | Patent analytics based on feature vector space model: A case of IoT | |
CN111858940B (zh) | 一种基于多头注意力的法律案例相似度计算方法及系统 | |
CN111159340B (zh) | 基于随机优化预测的机器阅读理解的答案匹配方法及系统 | |
CN108009148A (zh) | 基于深度学习的文本情感分类表示方法 | |
CN111221944A (zh) | 文本意图识别方法、装置、设备和存储介质 | |
JP6848091B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN114818691A (zh) | 文章内容的评价方法、装置、设备及介质 | |
CN111859983B (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN110968697B (zh) | 文本分类方法、装置、设备及可读存储介质 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
KR102403330B1 (ko) | 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법 | |
KR102379660B1 (ko) | 딥러닝 기반 의미역 분석을 활용하는 방법 | |
CN110928961A (zh) | 一种多模态实体链接方法、设备及计算机可读存储介质 | |
CN112000778A (zh) | 一种基于语义识别的自然语言处理方法、装置和系统 | |
CN111145914A (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114117039A (zh) | 一种小样本文本分类方法及模型 | |
CN113672731A (zh) | 基于领域信息的情感分析方法、装置、设备及存储介质 | |
WO2023134085A1 (zh) | 问题答案的预测方法、预测装置、电子设备、存储介质 | |
CN111680264A (zh) | 一种多文档阅读理解方法 | |
Touati-Hamad et al. | Arabic quran verses authentication using deep learning and word embeddings | |
Andriyanov | Combining Text and Image Analysis Methods for Solving Multimodal Classification Problems | |
CN113761151A (zh) | 同义词挖掘、问答方法、装置、计算机设备和存储介质 | |
CN113051886A (zh) | 一种试题查重方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |