CN110096699A

CN110096699A - 基于语义的机器阅读理解的候选答案筛选方法和系统

Info

Publication number: CN110096699A
Application number: CN201910213718.1A
Authority: CN
Inventors: 赵淦森; 王剑飞; 刘学枫; 王锡亮; 周东宜; 莫泽枫
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2019-08-06
Anticipated expiration: 2039-03-20
Also published as: CN110096699B

Abstract

本发明公开了基于语义的机器阅读理解的候选答案筛选方法和系统，该方法包括：根据答案从文档中筛选出文档对应的候选答案片段；根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段；根据语义相似性和答案从所述文档中获取候选答案文档，并计算获得最优候选答案片段在候选答案文档中的位置信息，所述候选答案文档和所述位置信息为机器阅读理解模型训练阶段的输入值。本发明根据语义相似性来筛选答案，筛选更全面，不易错过正确的答案，并且具有较高的准确性。本发明作为基于语义的机器阅读理解的候选答案筛选方法和系统可广泛应用于自然语言处理领域中。

Description

基于语义的机器阅读理解的候选答案筛选方法和系统

技术领域

本发明涉及自然语言处理领域，尤其涉及基于语义的机器阅读理解的候选答案筛选方法和系统。

背景技术

近年来，机器阅读理解任务在自然语言处理领域受到了广泛的关注。各大科研机构也针对机器阅读理解推出了许多相关的数据集及比赛。传统的完形填空及多选题类型的任务都已经达到了非常高的精准度。在传统的阅读理解模型中，模型训练的数据集通常采用的是一个文档和一个问题的数据集，但随着时代的进步，目前大家最为关注的数据集是根据真实的搜索引擎数据生成的数据集，而这类数据集与传统的一个文档和一个问题的数据集相比，它们通常含有搜索引擎返回的多个相关文档，而多个相关文档则包含多个可能的候选答案。由于计算机资源有限，现阶段的模型往往难以把所有相关文档都放入阅读理解模型中进行训练，而且这些相关文档所包含的候选答案未必是绝对正确，含有一定的干扰性。因此，需要预先进行候选答案筛选。

目前在多文档多答案的阅读理解任务中进行的候选答案筛选的方法，大部分都是基于文档与问题或文档与答案之间的F1值及召回率去衡量两段文档的相关性，从而筛选出用来输入机器阅读理解模型进行训练的候选答案文档。还有些方法在此基础上添加了打分模型，通过利用打分模型去衡量文档与问题之间或文档与答案之间的相关性，这类打分模型大部分还是基于两段文本间的词汇重叠程度来进行相关性的衡量，词汇重叠数目越多、重叠比例越高，则相应的特征值也会越大。虽然这类方法取得了不错的效果，但这类方法单纯从统计层面分析，却忽略了语言的一词多义的特性；在多文档多答案的阅读理解任务中，不同候选答案间往往字面表达形式不同，但是语义层面有一定的相关性，而传统基于统计层面分析的方法，往往难以捕捉到不同答案的语义相关性，于是就难以充分利用多个候选答案的信息。因此，现有技术存在筛选准确度较低、答案遗漏的可能性较高的问题。

发明内容

为了解决上述技术问题，本发明的目的是提供基于语义的机器阅读理解的候选答案筛选方法和系统。

一方面，本发明提供了基于语义的机器阅读理解的候选答案筛选方法，包括以下步骤：

根据答案从文档中筛选出文档对应的候选答案片段；

根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段；

根据语义相似性和答案从所述文档中获取候选答案文档，并计算获得最优候选答案片段在候选答案文档中的位置信息，所述候选答案文档和所述位置信息为机器阅读理解模型训练阶段的输入值。

进一步，所述根据答案从文档中筛选出文档对应的候选答案片段这一步骤，其具体包括：

根据第一预设条件从每个文档中筛选出若干个片段，并将每个片段分别与答案集中的所有答案求F1值，从而得到每个片段关于所有答案的F1值，所述F1值为衡量片段和答案的相关程度的指标；

取得到的每个片段关于所有答案的F1值中数值最大的F1值作为每个片段的答案相关系数；

取答案相关系数最大的片段作为每个文档的候选答案片段。

进一步，所述根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段这一步骤，其具体包括：

将每个候选答案片段分别与答案集做第一处理，从而得到候选答案片段对应的平均相似度；

取所有候选答案片段中平均相似度最大的候选答案片段作为最优候选答案片段；

所述第一处理具体为：将候选答案片段与答案集的答案输入至语义相似性模型中，从而计算获取候选答案片段关于所有答案的语义相似度；再对候选答案片段关于所有答案的语义相似度求平均值得到候选答案片段对应的平均相似度。

进一步，所述根据语义相似性和答案从所述文档中获取候选答案文档这一步骤，其具体包括：

从所有文档中筛选出第一文档，再将第二文档与答案集做第二处理，从而获得各文档对应的平均相似度，所述第一文档为最优候选答案片段对应的文档，所述第二文档为从所有文档中筛选好第一文档后剩下的文档；按照所述获得的平均相似度对所述第二文档进行排序，并将第一文档和排序后的第二文档拼接成一个文档作为总文档；

从所述总文档的起始位置开始截取满足机器阅读理解模型的最大输入长度的片段作为候选答案文档；

所述第二处理具体为：根据第二预设条件从每个文档中筛选出若干个文档片段，再将筛选出的每个文档片段和答案集中的答案输入语义相似性模型中，从而计算获得每个文档片段关于所有答案的语义相似度，接着对每个文档片段关于所有答案的语义相似度进行求和运算得到每个文档片段对应的片段相似度；然后对所有文档片段的片段相似度求平均值，从而获得文档对应的平均相似度。

进一步，所述最优候选答案片段在候选答案文档中的位置信息包括最优候选答案片段在候选答案文档中的起始序号和最优候选答案片段在候选答案文档中的结束序号，所述计算获得最优候选答案片段在候选答案文档中的位置信息这一步骤，其具体包括：

获得候选答案文档中与最优候选答案片段匹配的字符串；

取所述字符串的第一个字符所在候选答案文档中的位置序号作为最优候选答案片段在候选答案文档中的起始序号，取所述字符串的最后一个字符所在候选答案文档中的位置序号作为最优候选答案片段在候选答案文档中的结束序号。

进一步，还包括：根据待测文档、待测问题和语义相关性获得待测答案文档，所述待测答案文档为机器阅读理解模型预测阶段的输入值。

进一步，所述根据待测文档、待测问题和语义相关性获得待测答案文档这一步骤，其具体包括：

分别将待测问题和若干个待测文档输入至语义相关性模型，从而获得若干个待测文档对应的语义相关度；

根据获得的语义相关度对若干个待测文档排序，并将排序后的待测文档拼接成待测总文档；

从得到的待测总文档的起始位置开始截取满足机器阅读理解模型的最大输入长度的片段作为待测答案文档。

进一步，所述语义相似性模型或语义相关性模型采用BERT模型。

另一方面，本发明还提供了基于语义的机器阅读理解的候选答案筛选系统，包括：

第一筛选模块，用于根据答案从文档中筛选出文档对应的候选答案片段；

第二筛选模块，用于根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段；

获取和计算模块，用于根据语义相似性和答案从所述文档中获取候选答案文档，并计算获得最优候选答案片段在候选答案文档中的位置信息，所述候选答案文档和所述位置信息为机器阅读理解模型训练阶段的输入值。

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述基于语义的机器阅读理解的候选答案筛选方法。

本发明实施例的有益效果是：本发明先筛选出候选答案片段，然后根据语义相似性从候选答案片段中筛选出最优候选答案片段，再根据语义相似性得到总文档，最后从总文档中获得候选答案文档，并计算获得最优候选答案片段在候选答案文档的位置信息，从而得到机器阅读理解模型训练阶段需要的输入值，根据语义相似性来筛选答案，筛选更全面，不易错过正确的答案，并且具有较高的准确性。

附图说明

图1是本发明实施例基于语义的机器阅读理解的候选答案筛选方法的步骤流程图；

图2是本发明实施例中语义相似性模型的实现流程图；

图3是本发明实施例中语义相关性模型的实现流程图；

图4是本发明实施例基于语义的机器阅读理解的候选答案筛选系统的结构框图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明实施例提供了基于语义的机器阅读理解的候选答案筛选方法，该方法包括以下步骤：

S101、根据答案从文档中筛选出文档对应的候选答案片段；

具体地，所述候选答案片段为与答案内容相似的文档片段。

S102、根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段；

具体地，步骤S102在筛选时将答案和候选答案片段一一进行语义相似性匹配，选出其中与答案最相近的候选答案片段作为最优候选答案片段。

S103、根据语义相似性和答案从所述文档中获取候选答案文档，并计算获得最优候选答案片段在候选答案文档中的位置信息，所述候选答案文档和所述位置信息为机器阅读理解模型训练阶段的输入值；

具体地，所述根据语义相似性和答案从所述文档中获取候选答案文档步骤为：将文档和答案根据语义相似性来排序拼接，从而获取候选答案文档，所述最优候选答案片段是从文档中筛选出来的，因此可以从候选答案文档中完全匹配找到与最优候选答案片段一样的片段，这个与最优候选答案片段一样的片段在文档中的位置就是上述的位置信息，所述机器阅读理解模型为机器阅读理解任务中使用的模型。

由上述可得，通过使用本发明实施例的方法，可以充分考虑到语义相关性对答案的影响，从而不易错过正确的答案，筛选出的答案也是较为合适的。

进一步作为本方法的优选实施例，所述根据答案从文档中筛选出文档对应的候选答案片段这一步骤S101，其具体为：

S1011、根据第一预设条件从每个文档中筛选出若干个片段，并将每个片段分别与答案集中的所有答案求F1值，从而得到每个片段关于所有答案的F1值，所述F1值为衡量片段和答案的相关程度的指标；

具体地，所述第一预设条件可以是固定的片段长度，即以固定的片段长度从文档中截取不同的片段，所述第一预设条件也可以是固定的片段数量，即固定取N个不同的片段，片段长短不限，所述第一预设条件也可以是所有答案的平均长度或最大长度(使用第一预设条件筛选的片段的重叠率很高，原因是为了筛选出最接近答案的片段)。所述F1值的计算公式为：其中：TP为片段命中答案的字符数目，FP为片段未命中答案的字符数目，FN为答案未被片段命中的字符数目，从而根据F1值得到片段和答案的近似程度。例如：求“出”和“出前一丁”的F1值：其中TP＝1，FP＝0，FN＝3.则F1＝0.4，求“出前一丁”和“出前一丁”的F1值：其中TP＝4，FP＝0，FN＝0.则F1＝1，求“出前一丁，这是”和“出前一丁”的F1值：其中TP＝4，FP＝3，FN＝0.则F1＝8/11。

S1012、取得到的每个片段关于所有答案的F1值中数值最大的F1值作为每个片段的答案相关系数；

具体地，由步骤S1011中的F1值的计算公式可知，F1值越大，片段和答案越相关，因此筛选出最大的F1值作为答案相关系数。

S1013、取答案相关系数最大的片段作为每个文档的候选答案片段；

具体地，所述候选答案片段即为最贴近答案的片段，本方法实施例通过使用F1值来计算答案相关的程度，更加具有科学性和合理性。

进一步作为本方法的优选实施例，所述根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段这一步骤S102，其具体为：

S1021、将每个候选答案片段分别与答案集做第一处理，从而得到候选答案片段对应的平均相似度；

S1022、取所有候选答案片段中平均相似度最大的候选答案片段作为最优候选答案片段；

具体地，所述最优候选答案片段为根据计算后得出的最接近答案的片段。

所述第一处理具体为：将候选答案片段与答案集的答案输入至语义相似性模型中，，。从而计算获取候选答案片段关于所有答案的语义相似度；再对候选答案片段关于所有答案的语义相似度求平均值得到候选答案片段对应的平均相似度；

具体地，如图2所示，所述语义相似性模型的输入为两个文本，语义相似性模型的输出为0-1之间的数值(相似度)，数值越大表示相似程度越大，其中候选答案片段与答案集的答案都是文本格式，所述语义相似性模型主要用于对两个文本的相似性进行分析计算，从而得出两个文本从语义层面上的相似程度，所述语义相似性模型需要事先进行训练好之后才能用来计算；通过使用语义相似性模型来对候选答案片段进行进一步的筛选，从而取得的最优候选答案片段才是最合理的，也是最准确的。

进一步作为本方法的优选实施例，所述根据语义相似性和答案从所述文档中获取候选答案文档这一步骤S103，其具体包括：

S1031、从所有文档中筛选出第一文档，再将第二文档与答案集做第二处理，从而获得各文档对应的平均相似度，所述第一文档为最优候选答案片段对应的文档，所述第二文档为从所有文档中筛选好第一文档后剩下的文档；按照所述获得的平均相似度对所述第二文档进行排序，并将第一文档和排序后的第二文档拼接成一个文档作为总文档；

S1032、从所述总文档的起始位置开始截取满足机器阅读理解模型的最大输入长度的片段作为候选答案文档；

具体地，所述第二预设条件可以是按照标点符号来对文档分片段，从而将整个文档分成不重叠的片段，也可以是根据固定长度来分片段，所分得的片段不出现重叠。通过对文档的每一个片段求相似度来筛选出与答案近似的文档。所述片段相似度为片段关于所有答案的语义相似度的总和，根据近似的程度来拼接文档，使得文档最前面的部分是包含了最优候选文档和最接近答案的部分文档。使用本发明实施例，可以使得总文档被截取后的文档能包含最接近答案的最优候选答案片段，这样在输入机器阅读理解模型进行训练时提高了答案的准确性。例如：根据所述第二预设条件，文档一可分为：片段一、片段二和片段三，答案集中有：答案一、答案二和答案三，则片段一关于答案一、二和三的语义相似度为30％、35％和60％，片段二关于答案一、二和三的语义相似度为50％、45％和70％，片段三关于答案一、二和三的语义相似度为30％、20％和50％，则片段一的片段相似度为125％，片段二的片段相似度为165％，片段三的片段相似度为100％，则文档一的平均相似度＝(125％+165％+100％)÷3＝130％。

进一步作为本方法的优选实施例，所述最优候选答案片段在候选答案文档中的位置信息包括最优候选答案片段在候选答案文档中的起始序号和最优候选答案片段在候选答案文档中的结束序号，所述计算获得最优候选答案片段在候选答案文档中的位置信息这一步骤S103，其具体包括：

S1033、获得候选答案文档中与最优候选答案片段匹配的字符串；

具体地，由于候选答案文档包含了最优候选答案片段对应的文档(由上述拼接方式可以得出)，所以候选答案文档中存在和最优候选答案片段一样的字符串。

S1034、取所述字符串的第一个字符所在候选答案文档中的位置序号作为最优候选答案片段在候选答案文档中的起始序号，取所述字符串的最后一个字符所在候选答案文档中的位置序号作为最优候选答案片段在候选答案文档中的结束序号；

具体地，字符串第一个字符在文档的位置序号可根据文档的第一个字符开始计数而获得，字符串的最后一个字符可同理计算出在文档的位置序号，因此位置信息为包含了起始序号和结束序号的信息。例如：候选答案文档为：“在中国姚明的官方身高为7尺5寸，但到了NBA，报名身高却无中生有将姚明的拔高为7尺6寸。事实上姚明的身高为2米26，而不是2米29，但联盟为了更好的体现姚明的‘威力’，干脆就把他塑造成一个接近2米30的巨人了。但不管姚明的身高到底是多少，他在中国篮球历史上创下的高度是无人能超越的。目前至少有223、 226、227、229厘米4个版本，NBA在即将开打的本季网站上认定他的身高是229厘米，莫非 23岁的姚明又长高了？”，最优候选答案片段为“姚明的身高为2米26”，根据计算，起始序号为48，结束序号为57，则位置信息为：[48,57]，通过本方法实施例获得的位置信息是满足机器阅读理解模型需要的，更加方便。

进一步作为本方法的优选实施例，还包括：

S104、根据待测文档、待测问题和语义相关性获得待测答案文档，所述待测答案文档为机器阅读理解模型预测阶段的输入值；

具体地，所述待测文档为用来进行预测的文档，所述待测问题为用来进行预测的问题，所述语义相关性为衡量文档和问题的相关程度。例如：“吃饭了没”和“吃了”这是两个关联程度很高的问题和答案的关系，而包含了这个答案的文档和这个问题的语义相关性也是很高的。

进一步作为本方法的优先实施例，所述根据待测文档、待测问题和语义相关性获得待测答案文档这一步骤S104，其具体包括：

S1041、分别将待测问题和若干个待测文档输入至语义相关性模型，从而获得若干个待测文档对应的语义相关度；

具体地，如图3所示，将待测问题和待测文档输入至语义相关性模型，即可得到待测文档对应的语义相关度，所述语义相关性模型主要用于计算出问题与答案文档之间的相关程度，例如，问题为：“今天天气怎么样”，答案文档为：“晴，万里无云”，可以看出答案文档和问题之间相关程度很高，因此使用模型计算出的相关度也是较高的。

S1042、根据获得的语义相关度对若干个待测文档排序，并将排序后的待测文档拼接成待测总文档；

具体地，可按照语义相关度从大到小给待测文档排序，排序后拼接的待测总文档的前面部分包含了最优答案(这是语义相关性模型训练的结果，在训练过程中将最优答案所在的文档的语义相关度设置为最高，从而保证输出的答案为符合需要的)。

S1043、从得到的待测总文档的起始位置开始截取满足机器阅读理解模型的最大输入长度的片段作为待测答案文档。

具体地，所述机器阅读理解模型的输入文档是有字数限制的，因此需要对总文档进行截取后才能获得模型的输入文档，通过根据语义相关性来对文档进行组合，从而获得最合适的待测答案文档，本发明实施例用于机器阅读理解模型的预测阶段的预测使用，因此符合机器阅读理解模型的需要，更加方便且具有针对性。

进一步作为本方法的优选实施例，所述语义相似性模型或语义相关性模型采用BERT模型；

具体地，BERT模型是目前效果最好的一种语言处理模型，非常适合用来对两句话的相似性或相关性做评判，从而得到相似或相关程度，大大提高了筛选的准确性。

如图4所示，本发明实施例还提供了基于语义的机器阅读理解的候选答案筛选系统，包括：

第一筛选模块201，用于根据答案从文档中筛选出文档对应的候选答案片段；

第二筛选模块202，用于根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段；

获取和计算模块203，用于根据语义相似性和答案从所述文档中获取候选答案文档，并计算获得最优候选答案片段在候选答案文档中的位置信息，所述候选答案文档和所述位置信息为机器阅读理解模型训练阶段的输入值。

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供了基于语义的机器阅读理解的候选答案筛选系统，该系统包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上述任一种基于语义的机器阅读理解的候选答案筛选方法。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.基于语义的机器阅读理解的候选答案筛选方法，其特征在于：包括以下步骤：

根据答案从文档中筛选出文档对应的候选答案片段；

2.根据权利要求1所述的基于语义的机器阅读理解的候选答案筛选方法，其特征在于：所述根据答案从文档中筛选出文档对应的候选答案片段这一步骤，其具体包括：

取答案相关系数最大的片段作为每个文档的候选答案片段。

3.根据权利要求1所述的基于语义的机器阅读理解的候选答案筛选方法，其特征在于：所述根据语义相似性和答案从所述候选答案片段中筛选出最优候选答案片段这一步骤，其具体包括：

4.根据权利要求3所述的基于语义的机器阅读理解的候选答案筛选方法，其特征在于：所述根据语义相似性和答案从所述文档中获取候选答案文档这一步骤，其具体包括：

5.根据权利要求1所述的基于语义的机器阅读理解的候选答案筛选方法，其特征在于：所述最优候选答案片段在候选答案文档中的位置信息包括最优候选答案片段在候选答案文档中的起始序号和最优候选答案片段在候选答案文档中的结束序号，所述计算获得最优候选答案片段在候选答案文档中的位置信息这一步骤，其具体包括：

获得候选答案文档中与最优候选答案片段匹配的字符串；

6.根据权利要求4所述的基于语义的机器阅读理解的候选答案筛选方法，其特征在于：还包括：

根据待测文档、待测问题和语义相关性获得待测答案文档，所述待测答案文档为机器阅读理解模型预测阶段的输入值。

7.根据权利要求6所述的基于语义的机器阅读理解的候选答案筛选方法，其特征在于：所述根据待测文档、待测问题和语义相关性获得待测答案文档这一步骤，其具体包括：

8.根据权利要求7所述的基于语义的机器阅读理解的候选答案筛选方法，其特征在于：所述语义相似性模型或语义相关性模型采用BERT模型。

9.基于语义的机器阅读理解的候选答案筛选系统，其特征在于：包括：

10.基于语义的机器阅读理解的候选答案筛选系统，其特征在于：包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-8任一项所述基于语义的机器阅读理解的候选答案筛选方法。