CN107818085A

CN107818085A - 阅读机器人进行阅读理解的答案选择方法及系统

Info

Publication number: CN107818085A
Application number: CN201711092170.7A
Authority: CN
Inventors: 李茹; 郭少茹; 张旗; 王智强; 关勇
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-20
Anticipated expiration: 2037-11-08
Also published as: CN107818085B

Abstract

本发明公开了一种阅读机器人进行阅读理解的答案选择方法及系统，为了提高机器人在进行阅读理解的答案选择时的正确率而设计。本发明阅读机器人进行阅读理解的答案选择方法，包括定位与题干相关的段落；采用词袋模型，抽取和选项有最多匹配词数的句子作为证据材料；分析选项与证据材料语义一致性；根据一致性分析结果，选取问题的最佳答案。本发明能够应用于阅读机器人，通过自动分析、推理，实现答案选择题目智能解答。

Description

阅读机器人进行阅读理解的答案选择方法及系统

技术领域

本发明涉及自然语言处理研究领域，具体涉及一种阅读机器人进行阅读理解的答案选择方法及系统。

技术背景

阅读理解是人们从大量文本中获取信息的重要途径，很多时候用户并不想浏览全文，而是想知道某个问题的确切答案，阅读理解问答技术由此应运而生。在阅读理解问答中，有一种类型为选择型阅读理解，即基于阅读理解的背景材料提出一个问题，并提供针对该问题的多个选项，要求计算机能够自动地“阅读”完一篇材料后，根据对材料的“理解”从多个候选答案中选择正确的答案。在自然语言领域中，解答选择型阅读理解的方法直接影响选择出的答案的正确性。

目前，针对答案选择型题目，主要采用基于相似或相关性来确定正确答案的方法，此类方法通过计算选项与背景材料的句子之间的最相似或相关性来确定正确答案，然而，在语义上等价的句子往往会用不同的句法结构形式来表述，基于相似度与相关性的方法只能找到背景材料中与选项语法结构或语义表述相似度较高的句子，无法理解语义的细微差别，而句子间的细微差别是语言处理第一要务。同时，此类方法通过分析选项与整篇背景材料的相关性，但选项往往与文章中一句或几句话相关，因此，将选项与全文进行分析，引入了大量的噪声数据，影响答题准确率。

发明内容

本发明克服现有技术存在的不足，旨在提供一种具有实现复杂语言语义推理的能力的阅读机器人进行阅读理解的答案选择方法及系统。

本发明阅读机器人进行阅读理解的答案选择方法，包括：

获取阅读理解文档、题干以及各题干对应的多个选项，基于主题推理模型获取阅读理解文档中各个段落的主题，定位包含与题干相关的段落；

基于已定位的相关段落，采用词袋 (bag-of-words，BOW) 模型，抽取与选项有最多匹配词数的句子作为证据材料；

分析选项与证据材料语义一致性；

根据选项与证据材料语义一致性分析结果，从多个选项中选择针对题干的正确选项。

进一步地，基于汉语框架网的语义场景标注，对选项及证据材料中的句子进行分词，并根据汉语句子框架元素标注规范，使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注，得到句子中的目标词及目标词所激起的框架，并对框架所包含的框架元素进行标注，分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式；

分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系：提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分；基于提取的选项框架语义依存图和证据材料的框架语义依存图，根据汉语框架语义网中的框架关系，计算两个框架语义依存图中结构相似部分框架之间的语义路径；基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性；递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。

进一步地，所述的定位与题干相关的段落的具体方法包括：

采用基于LDA算法依次获取阅读理解文档中各个段落的主题，采用淘汰策略提取题干的核心信息，即淘汰掉题干中次要的、支撑的、解说的信息，保留与文章内容相关的信息；将题干核心信息与获取的文章各段落主题依次进行相关度计算，相关度计算采用基于Word2Vector语义相关度计算方法；采用排序算法将问题从全文定位到与题干核心信息相关的段落。

进一步地，证据材料获取单元包括：

句子分词模块，用于对选项及定位段落中的句子进行分词，对分词后的选项及定位段落中的句子进行过滤词停用操作，其中，停用词表中存储了一些对句子和选项的意思并无太大作用的字词，在进行过滤停用词操作时，对于分词后的某一个字词，若该字词存在于停用词表中，则将该字词过滤掉，所述的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”；

证据材料确定模块，用于基于已获得的选项和段落各句子的词集合，分别计算选项中词语与段落中每个句子相似度，相似度计算方法为：选项和段落中句子词语重叠个数/段落句子中词语的个数，选取相似度最大的为选项的证据材料。

进一步地，在选择正确选项时，根据选项与证据材料语义一致性分析结果，从多个选项中选择针对该题干的正确选项，其中，若题干信息为“选择符合文意的一项”，则选择与证据材料语义一致的选项作为正确选项；若题干信息为“选择不符合文意的一项”，则选择与证据材料语义不一致的选项作为正确选项。

本发明阅读机器人进行阅读理解的答案选择系统，包括：

段落定位单元，用于获取阅读理解文档、题干以及各题干对应的多个选项，基于主题推理模型获取阅读理解文档中各个段落的主题，定位包含与题干相关的段落；

证据材料获取单元，用于基于已定位的相关段落，采用词袋 (bag-of-words，BOW) 模型，抽取与选项有最多匹配词数的句子作为证据材料；

一致性确定单元，用于分析选项与证据材料语义一致性；

答案选取单元，用于根据选项与证据材料语义一致性分析结果，从多个选项中选择针对题干的正确选项。

进一步地，所述一致性确定单元，包括：

选项、证据材料框架语义依存图生成模块，用于基于汉语框架网的语义场景标注，对选项及证据材料中的句子进行分词，并根据汉语句子框架元素标注规范，使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注，得到句子中的目标词及目标词所激起的框架，并对框架所包含的框架元素进行标注，分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式；

一致性结果输出模块，用于分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系：提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分；基于提取的选项框架语义依存图和证据材料的框架语义依存图，根据汉语框架语义网中的框架关系，计算两个框架语义依存图中结构相似部分框架之间的语义路径；基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性；递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。

进一步地，所述段落定位单元包括：

内容相关信息获取模块，用于采用基于LDA算法依次获取阅读理解文档中各个段落的主题，采用淘汰策略提取题干的核心信息，即淘汰掉题干中次要的、支撑的、解说的信息，保留与文章内容相关的信息；

段落定位模块，用于将题干核心信息与获取的文章各段落主题依次进行相关度计算，相关度计算采用基于Word2Vector语义相关度计算方法；采用排序算法将问题从全文定位到与题干核心信息相关的段落。

进一步地，证据材料的获取具体包括：

对选项及定位段落中的句子进行分词，对分词后的选项及定位段落中的句子进行过滤词停用操作，其中，停用词表中存储了一些对句子和选项的意思并无太大作用的字词，在进行过滤停用词操作时，对于分词后的某一个字词，若该字词存在于停用词表中，则将该字词过滤掉，所述的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”；

基于已获得的选项和段落各句子的词集合，分别计算选项中词语与段落中每个句子相似度，相似度计算方法为：选项和段落中句子词语重叠个数/段落句子中词语的个数，选取相似度最大的为选项的证据材料。

进一步地，所述答案选取单元包括：提干信息分析模块，用于判断题干信息为“选择符合文意的一项”或“选择不符合文义的一项”；输出模块，用于题干信息为“选择不符合文义的一项”，则选择与证据材料语义一致的选项作为正确选项；若题干信息为“选择不符合文意的一项”，则选择与证据材料语义不一致的选项作为正确选项。

本发明借由上述方案，本发明阅读机器人进行阅读理解的答案选择方法的方法至少具有以下优点：

本发明能够应用于阅读机器人，通过自动分析、推理，实现答案选择题目智能解答；

本发明依据题干核心信息，找到问题的候选段落，在此基础上获取选项的证据材料，有效克服了通过整篇背景材料进行语义分析进而引入噪声的问题。

本发明通过汉语框架语义网进行语义一致性分析，刻画语义的细微差别，细化求解精度，实现复杂语言语义推理。

本发明解决了自然语言处理中的答案选择型题目自动解答问题，对自然语言处理相关研究有启发效果。本发明方法思路结构清晰，效果明显，可扩展性强。

附图说明

图1是本发明阅读机器人进行阅读理解的答案选择系统流程图；

图2是本发明阅读机器人进行阅读理解的答案选择方法具体流程图；

图3是本发明中语义一致性分析算法的具体流程图；

图4是本发明中语义一致性分析的示例。

具体实施方式

现在结合附图对本发明作进一步详细的说明，附图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

实施例1

如图2所示，本实施例阅读机器人进行阅读理解的答案选择方法，包括：

101、获取背景材料、基于背景材料提出的问题及为问题提供的多个选项。

102、基于主题推理模型获取阅读理解文档中各个段落的主题，依据题干的核心信息，定位包含与题干相关的段落。

具体地，针对文章不同段落描写内容不同，采用基于LDA算法依次获取阅读理解文档中各个段落的主题，对于任意一篇文章，可以得到与文章段落数相同的主题数。对于给定的与文档相关的题干，采用淘汰策略提取题干的核心信息，即淘汰掉题干中次要的、支撑的、解说的信息，保留与文章内容相关的信息。将题干核心信息与获取的文章各段落主题依次进行相关度计算，相关度计算采用基于Word2Vector语义相关度计算方法。采用排序算法将问题从全文定位到与题干核心信息相关的段落。

103、基于已定位的相关段落，采用词袋 (bag-of-words，BOW) 模型，抽取和选项有最多匹配词数的句子作为证据材料。

具体地，先对选项及定位段落中的句子进行分词，再对其进行过滤词停用操作。另外，停用词表中存储了一些对句子和选项的意思并无太大作用的字词，如“的”、“了”、“啊”等。在进行过滤停用词操作时，对于分词后的某一个字词，如果其存在于停用词表中，则将该字词过滤掉。

104、对证据材料及选项中每个句子中的目标词及目标词所激起的框架、框架元素进行多层标注，分别将选项和证据材料表示为框架语义依存图的形式。

如：【选项】缩短了游客在洞窟内的停留时间。

【选项标注1】<tgt=使伸缩缩短/v > <null 了/u > <item-np-obj 游客/n 在/p洞窟内/nl 的/u 停留/v 时间/n >。

【选项标注2】缩短/v 了/u <agt-np-subj 游客/n > <place-pp-adva 在/p 洞窟内/nl > <null的/u > > <tgt=保留停留/v > <thm-np-obj 时间/n >。

【证据材料】减少了在洞窟内的停留时间。

【证据材料标注1】<tgt=量变减少/v > <null 了/u > <attr-np-obj 在/p 洞窟内/nl 的/u 停留/v 时间/n >。

【证据材料标注2】减少/v 了/u <place-pp-adva在/p 洞窟内/nl > <null的/u >> <tgt=保留停留/v > <thm-np-obj 时间/n >。

根据标注结果，生成汉语框架语义网的表示形式，其中“ ”表示目标词，“”表示框架，“ ”表示框架元素。

针对采用基于汉语框架网（CFN，Chinese Frame Net）的语义场景相关度计算方法计算语义相关性度量值的情况，对证据材料和选项中的句子进行分词，并根据汉语句子框架元素标注规范，使用预先设置的汉语框架网语义资源库对选项和背景材料中的每个句子进行标注，得到选项和证据材料中每个句子中的目标词及每个句子中的目标词所激起的框架及框架元素。

其中，汉语框架网（Chinese Frame Net，CFN）是一个以Fillmore的框架语义学为理论基础、以英文FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义数据库。在框架语义学理论中词的意义描述须与语义框架相联系，语义框架通过使用参与者、目的、背景等框架元素来描述一个事件、情景、动作或状态。通过框架语义可以挖掘到词语背后隐藏的概念结构和语义场景。

框架是指由词元和它所联系的框架元素构成的表达特定场景的语义结构形式，是理解词语与句子的背景和动因。框架承担词包括动词、形容词、名词、成语等，它们是标注工作的着眼点，统称为词元。框架元素，是框架语义角色的承担者。在汉语框架网中，对于每个框架按照四个方面进行描述：（1）框架定义。（2）框架元素定义。（3）词元。（4）框架关系。

其中，根据汉语句子框架元素标注规范，使用预先设置的汉语框架网语义资源库对选项和背景材料中的每个句子进行标注时，将选项和背景材料中句子中的每个有效词与汉语框架网语义资源库中的词元进行比对，如果该有效词出现在汉语框架网语义资源库中，则将其作为目标词，并进一步查询该目标词所激起的框架及框架元素。

该步骤105至下述步骤108为语义一致性分析实现过程，如图3所示，其为本发明中的语义一致性分析算法流程。

105、在框架语义网基础上，分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系。

具体地，在对选项框架语义依存图与证据材料框架语义依存图之间的结构关系进行分析时，本发明包括如下两种情况：

第一种情况：选项框架语义依存图与证据材料框架语义依存图结构相似。即选项框架语义依存图与证据材料框架语义依存图拥有相同的层次结构。

第二种情况：选项框架语义依存图属于证据材料框架语义依存图的一部分。即选项框架语义依存图与证据材料框架语义依存图结构并不完全相同，但是在证据材料的框架语义依存图中存在与选项框架语义依存图结构相似度部分。

106、在框架语义网基础上，计算选项框架语义依存图与证据材料框架语义依存图中结构相似部分框架之间的语义路径。

具体地，在对选项框架语义依存图与证据材料框架语义依存图结构相似部分框架之间的关系及框架元素语义一致性进行分析时，本发明包括如下两种情况：

第一种情况：选项框架语义依存图与证据材料框架语义依存图结构相似部分的框架完全相同，则两者之间的语义路径距离为0，框架语义完全一致。如图4中虚框部分①，选项中框架“F2保留”与证据材料中框架“F4保留”相同，则两者语义路径为0。

第二种情况：选项框架语义依存图与证据材料框架语义依存图结构相似部分的框架不相同，但二者之间可以通过汉语框架网中的框架关系进行关联，则两者之间的语义路径距离为两个框架之间的语义距离。如图4中虚框部分③，选项框架“F1使伸缩”与证据材料框架“F3量变”，两者不相同，但是可以通过汉语框架语义网进行关联，两者之间的语义路径为4。

第二种情况：选项框架语义依存图与证据材料框架语义依存图结构相似部分框架元素语义一致性分析。若框架所包含的框架元素均为叶子结点，则计算相应节点的相似度。若框架包含非叶子结点的框架元素，则通过107进一步进行语义一致性分析。

107、在框架语义网基础上，分析选项框架语义依存图与证据材料框架语义依存图结构相似部分叶子结点框架元素的语义一致性。

采用基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性。如图4中虚框部分②选项框架“F1使伸缩”与证据材料框架“F3量变”的“null”类型框架元素均由“了”进行填充，叶子结点框架元素语义一致。

108、在框架语义网基础上，递归的分析选项框架语义依存图及证据材料框架语义依存图结构相似部分非叶子结点框架元素一致性。

如图4中虚框部分②选项框架“F1使伸缩”的框架元素“item”与证据材料框架“F3量变”的“attr”框架元素均分别由框架F2和F4进行刻画，采用步骤105至108递归进行分析，直至所有的框架元素均为叶子结点。

根据每个选项与证据材料的语义一致性结果从多个选项中选择针对问题的正确选项。

109、在选择正确选项时，根据选项与证据材料语义一致性分析结果，从多个选项中选择针对该问题的正确选项。例如，若问题的题干信息为“符合文意的一项”，则选择与证据材料语义一致的选项作为正确选项。若问题的题干信息为“不符合文意的一项”，则选择与证据材料语义不一致的选项作为正确选项。

实施例2

如图1所示，本实施例阅读机器人进行阅读理解的答案选择系统，包括：段落定位单元、证据材料获取单元、语义一致性分析单元、答案选取单元。

段落定位单元，用于获取阅读理解文档、题干以及各题干对应的多个选项，基于主题推理模型获取阅读理解文档中各个段落的主题，定位包含与题干相关的段落。

具体来说：段落定位单元包括：

内容相关信息获取模块，用于采用基于LDA算法依次获取阅读理解文档中各个段落的主题，采用淘汰策略提取题干的核心信息，即淘汰掉题干中次要的、支撑的、解说的信息，保留与文章内容相关的信息。

段落定位模块，用于将题干核心信息与获取的文章各段落主题依次进行相关度计算，相关度计算采用基于Word2Vector语义相关度计算方法。采用排序算法将问题从全文定位到与题干核心信息相关的段落。

证据材料获取单元，用于基于已定位的相关段落，采用词袋 (bag-of-words，BOW)模型，抽取与选项有最多匹配词数的句子作为证据材料。

具体来说：证据材料获取单元包括：句子分词模块，用于对选项及定位段落中的句子进行分词，对分词后的选项及定位段落中的句子进行过滤词停用操作，其中，停用词表中存储了一些对句子和选项的意思并无太大作用的字词，在进行过滤停用词操作时，对于分词后的某一个字词，若该字词存在于停用词表中，则将该字词过滤掉，的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”。

一致性确定单元，用于分析选项与证据材料语义一致性。

具体来说：一致性确定单元，包括：选项、证据材料框架语义依存图生成模块，用于基于汉语框架网的语义场景标注，对选项及证据材料中的句子进行分词，并根据汉语句子框架元素标注规范，使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注，得到句子中的目标词及目标词所激起的框架，并对框架所包含的框架元素进行标注，分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式。

一致性结果输出模块，用于分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系：提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分。基于提取的选项框架语义依存图和证据材料的框架语义依存图，根据汉语框架语义网中的框架关系，计算两个框架语义依存图中结构相似部分框架之间的语义路径。基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性。递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。

具体来说：答案选取单元包括：提干信息分析模块，用于判断题干信息为“选择符合文意的一项”或“选择不符合文义的一项”。输出模块，用于题干信息为“选择不符合文义的一项”，则选择与证据材料语义一致的选项作为正确选项。若题干信息为“选择不符合文意的一项”，则选择与证据材料语义不一致的选项作为正确选项。

Claims

1.一种阅读机器人进行阅读理解的答案选择方法，其特征在于，包括：

分析选项与证据材料语义一致性；

2.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法，其特征在于，

基于汉语框架网的语义场景标注，对选项及证据材料中的句子进行分词，并根据汉语句子框架元素标注规范，使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注，得到句子中的目标词及目标词所激起的框架，并对框架所包含的框架元素进行标注，分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式；

3.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法，其特征在于，所述的定位与题干相关的段落的具体方法包括：

4.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法，其特征在于，证据材料的获取具体包括：

5.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法，其特征在于，在选择正确选项时，根据选项与证据材料语义一致性分析结果，从多个选项中选择针对该题干的正确选项，其中，若题干信息为“选择符合文意的一项”，则选择与证据材料语义一致的选项作为正确选项；若题干信息为“选择不符合文意的一项”，则选择与证据材料语义不一致的选项作为正确选项。

6.一种阅读机器人进行阅读理解的答案选择系统，其特征在于，包括：

一致性确定单元，用于分析选项与证据材料语义一致性；

7.根据权利要求6所述的阅读机器人进行阅读理解的答案选择系统，其特征在于，所述一致性确定单元，包括：

8.根据权利要求6所述的阅读机器人进行阅读理解的答案选择方法，其特征在于，所述段落定位单元包括：

9.根据权利要求6所述的阅读机器人进行阅读理解的答案选择方法，其特征在于，证据材料获取单元包括：

10.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法，其特征在于，所述答案选取单元包括：提干信息分析模块，用于判断题干信息为“选择符合文意的一项”或“选择不符合文义的一项”；输出模块，用于题干信息为“选择不符合文义的一项”，则选择与证据材料语义一致的选项作为正确选项；若题干信息为“选择不符合文意的一项”，则选择与证据材料语义不一致的选项作为正确选项。