CN107818085A - 阅读机器人进行阅读理解的答案选择方法及系统 - Google Patents

阅读机器人进行阅读理解的答案选择方法及系统 Download PDF

Info

Publication number
CN107818085A
CN107818085A CN201711092170.7A CN201711092170A CN107818085A CN 107818085 A CN107818085 A CN 107818085A CN 201711092170 A CN201711092170 A CN 201711092170A CN 107818085 A CN107818085 A CN 107818085A
Authority
CN
China
Prior art keywords
option
sentence
frame
paragraph
evidence material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711092170.7A
Other languages
English (en)
Other versions
CN107818085B (zh
Inventor
李茹
郭少茹
张旗
王智强
关勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201711092170.7A priority Critical patent/CN107818085B/zh
Publication of CN107818085A publication Critical patent/CN107818085A/zh
Application granted granted Critical
Publication of CN107818085B publication Critical patent/CN107818085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种阅读机器人进行阅读理解的答案选择方法及系统,为了提高机器人在进行阅读理解的答案选择时的正确率而设计。本发明阅读机器人进行阅读理解的答案选择方法,包括定位与题干相关的段落;采用词袋模型,抽取和选项有最多匹配词数的句子作为证据材料;分析选项与证据材料语义一致性;根据一致性分析结果,选取问题的最佳答案。本发明能够应用于阅读机器人,通过自动分析、推理,实现答案选择题目智能解答。

Description

阅读机器人进行阅读理解的答案选择方法及系统
技术领域
本发明涉及自然语言处理研究领域,具体涉及一种阅读机器人进行阅读理解的答案选择方法及系统。
技术背景
阅读理解是人们从大量文本中获取信息的重要途径,很多时候用户并不想浏览全文,而是想知道某个问题的确切答案,阅读理解问答技术由此应运而生。在阅读理解问答中,有一种类型为选择型阅读理解,即基于阅读理解的背景材料提出一个问题,并提供针对该问题的多个选项,要求计算机能够自动地“阅读”完一篇材料后,根据对材料的“理解”从多个候选答案中选择正确的答案。在自然语言领域中,解答选择型阅读理解的方法直接影响选择出的答案的正确性。
目前,针对答案选择型题目,主要采用基于相似或相关性来确定正确答案的方法,此类方法通过计算选项与背景材料的句子之间的最相似或相关性来确定正确答案,然而,在语义上等价的句子往往会用不同的句法结构形式来表述,基于相似度与相关性的方法只能找到背景材料中与选项语法结构或语义表述相似度较高的句子,无法理解语义的细微差别,而句子间的细微差别是语言处理第一要务。同时,此类方法通过分析选项与整篇背景材料的相关性,但选项往往与文章中一句或几句话相关,因此,将选项与全文进行分析,引入了大量的噪声数据,影响答题准确率。
发明内容
本发明克服现有技术存在的不足,旨在提供一种具有实现复杂语言语义推理的能力的阅读机器人进行阅读理解的答案选择方法及系统。
本发明阅读机器人进行阅读理解的答案选择方法,包括:
获取阅读理解文档、题干以及各题干对应的多个选项,基于主题推理模型获取阅读理解文档中各个段落的主题,定位包含与题干相关的段落;
基于已定位的相关段落,采用词袋 (bag-of-words,BOW) 模型,抽取与选项有最多匹配词数的句子作为证据材料;
分析选项与证据材料语义一致性;
根据选项与证据材料语义一致性分析结果,从多个选项中选择针对题干的正确选项。
进一步地,基于汉语框架网的语义场景标注,对选项及证据材料中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注,得到句子中的目标词及目标词所激起的框架,并对框架所包含的框架元素进行标注,分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式;
分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系:提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分;基于提取的选项框架语义依存图和证据材料的框架语义依存图,根据汉语框架语义网中的框架关系,计算两个框架语义依存图中结构相似部分框架之间的语义路径;基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性;递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。
进一步地,所述的定位与题干相关的段落的具体方法包括:
采用基于LDA算法依次获取阅读理解文档中各个段落的主题,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息;将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法;采用排序算法将问题从全文定位到与题干核心信息相关的段落。
进一步地,证据材料获取单元包括:
句子分词模块,用于对选项及定位段落中的句子进行分词,对分词后的选项及定位段落中的句子进行过滤词停用操作,其中,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,在进行过滤停用词操作时,对于分词后的某一个字词,若该字词存在于停用词表中,则将该字词过滤掉,所述的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”;
证据材料确定模块,用于基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料。
进一步地,在选择正确选项时,根据选项与证据材料语义一致性分析结果,从多个选项中选择针对该题干的正确选项,其中,若题干信息为“选择符合文意的一项”,则选择与证据材料语义一致的选项作为正确选项;若题干信息为“选择不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。
本发明阅读机器人进行阅读理解的答案选择系统,包括:
段落定位单元,用于获取阅读理解文档、题干以及各题干对应的多个选项,基于主题推理模型获取阅读理解文档中各个段落的主题,定位包含与题干相关的段落;
证据材料获取单元,用于基于已定位的相关段落,采用词袋 (bag-of-words,BOW) 模型,抽取与选项有最多匹配词数的句子作为证据材料;
一致性确定单元,用于分析选项与证据材料语义一致性;
答案选取单元,用于根据选项与证据材料语义一致性分析结果,从多个选项中选择针对题干的正确选项。
进一步地,所述一致性确定单元,包括:
选项、证据材料框架语义依存图生成模块,用于基于汉语框架网的语义场景标注,对选项及证据材料中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注,得到句子中的目标词及目标词所激起的框架,并对框架所包含的框架元素进行标注,分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式;
一致性结果输出模块,用于分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系:提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分;基于提取的选项框架语义依存图和证据材料的框架语义依存图,根据汉语框架语义网中的框架关系,计算两个框架语义依存图中结构相似部分框架之间的语义路径;基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性;递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。
进一步地,所述段落定位单元包括:
内容相关信息获取模块,用于采用基于LDA算法依次获取阅读理解文档中各个段落的主题,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息;
段落定位模块,用于将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法;采用排序算法将问题从全文定位到与题干核心信息相关的段落。
进一步地,证据材料的获取具体包括:
对选项及定位段落中的句子进行分词,对分词后的选项及定位段落中的句子进行过滤词停用操作,其中,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,在进行过滤停用词操作时,对于分词后的某一个字词,若该字词存在于停用词表中,则将该字词过滤掉,所述的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”;
基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料。
进一步地,所述答案选取单元包括:提干信息分析模块,用于判断题干信息为“选择符合文意的一项”或“选择不符合文义的一项”;输出模块,用于题干信息为“选择不符合文义的一项”,则选择与证据材料语义一致的选项作为正确选项;若题干信息为“选择不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。
本发明借由上述方案,本发明阅读机器人进行阅读理解的答案选择方法的方法至少具有以下优点:
本发明能够应用于阅读机器人,通过自动分析、推理,实现答案选择题目智能解答;
本发明依据题干核心信息,找到问题的候选段落,在此基础上获取选项的证据材料,有效克服了通过整篇背景材料进行语义分析进而引入噪声的问题。
本发明通过汉语框架语义网进行语义一致性分析,刻画语义的细微差别,细化求解精度,实现复杂语言语义推理。
本发明解决了自然语言处理中的答案选择型题目自动解答问题,对自然语言处理相关研究有启发效果。本发明方法思路结构清晰,效果明显,可扩展性强。
附图说明
图1是本发明阅读机器人进行阅读理解的答案选择系统流程图;
图2是本发明阅读机器人进行阅读理解的答案选择方法具体流程图;
图3是本发明中语义一致性分析算法的具体流程图;
图4是本发明中语义一致性分析的示例。
具体实施方式
现在结合附图对本发明作进一步详细的说明,附图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
实施例1
如图2所示,本实施例阅读机器人进行阅读理解的答案选择方法,包括:
101、获取背景材料、基于背景材料提出的问题及为问题提供的多个选项。
102、基于主题推理模型获取阅读理解文档中各个段落的主题,依据题干的核心信息,定位包含与题干相关的段落。
具体地,针对文章不同段落描写内容不同,采用基于LDA算法依次获取阅读理解文档中各个段落的主题,对于任意一篇文章,可以得到与文章段落数相同的主题数。对于给定的与文档相关的题干,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息。将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法。采用排序算法将问题从全文定位到与题干核心信息相关的段落。
103、基于已定位的相关段落,采用词袋 (bag-of-words,BOW) 模型,抽取和选项有最多匹配词数的句子作为证据材料。
具体地,先对选项及定位段落中的句子进行分词,再对其进行过滤词停用操作。另外,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,如“的”、“了”、“啊”等。在进行过滤停用词操作时,对于分词后的某一个字词,如果其存在于停用词表中,则将该字词过滤掉。
基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料。
104、对证据材料及选项中每个句子中的目标词及目标词所激起的框架、框架元素进行多层标注,分别将选项和证据材料表示为框架语义依存图的形式。
如:【选项】缩短了游客在洞窟内的停留时间。
【选项标注1】<tgt=使伸缩 缩短/v > <null 了/u > <item-np-obj 游客/n 在/p洞窟内/nl 的/u 停留/v 时间/n >。
【选项标注2】缩短/v 了/u <agt-np-subj 游客/n > <place-pp-adva 在/p 洞窟内/nl > <null的/u > > <tgt=保留 停留/v > <thm-np-obj 时间/n >。
【证据材料】减少了在洞窟内的停留时间。
【证据材料标注1】<tgt=量变 减少/v > <null 了/u > <attr-np-obj 在/p 洞窟内/nl 的/u 停留/v 时间/n >。
【证据材料标注2】减少/v 了/u <place-pp-adva在/p 洞窟内/nl > <null的/u >> <tgt=保留 停留/v > <thm-np-obj 时间/n >。
根据标注结果,生成汉语框架语义网的表示形式,其中“ ”表示目标词,“”表示框架,“ ”表示框架元素。
针对采用基于汉语框架网(CFN,Chinese Frame Net)的语义场景相关度计算方法计算语义相关性度量值的情况,对证据材料和选项中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和背景材料中的每个句子进行标注,得到选项和证据材料中每个句子中的目标词及每个句子中的目标词所激起的框架及框架元素。
其中,汉语框架网(Chinese Frame Net,CFN)是一个以Fillmore的框架语义学为理论基础、以英文FrameNet为参照、以汉语语料事实为依据的供计算机使用的汉语词汇语义数据库。在框架语义学理论中词的意义描述须与语义框架相联系,语义框架通过使用参与者、目的、背景等框架元素来描述一个事件、情景、动作或状态。通过框架语义可以挖掘到词语背后隐藏的概念结构和语义场景。
框架是指由词元和它所联系的框架元素构成的表达特定场景的语义结构形式,是理解词语与句子的背景和动因。框架承担词包括动词、形容词、名词、成语等,它们是标注工作的着眼点,统称为词元。框架元素,是框架语义角色的承担者。在汉语框架网中,对于每个框架按照四个方面进行描述:(1)框架定义。(2)框架元素定义。(3)词元。(4)框架关系。
其中,根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和背景材料中的每个句子进行标注时,将选项和背景材料中句子中的每个有效词与汉语框架网语义资源库中的词元进行比对,如果该有效词出现在汉语框架网语义资源库中,则将其作为目标词,并进一步查询该目标词所激起的框架及框架元素。
该步骤105至下述步骤108为语义一致性分析实现过程,如图3所示,其为本发明中的语义一致性分析算法流程。
105、在框架语义网基础上,分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系。
具体地,在对选项框架语义依存图与证据材料框架语义依存图之间的结构关系进行分析时,本发明包括如下两种情况:
第一种情况:选项框架语义依存图与证据材料框架语义依存图结构相似。即选项框架语义依存图与证据材料框架语义依存图拥有相同的层次结构。
第二种情况:选项框架语义依存图属于证据材料框架语义依存图的一部分。即选项框架语义依存图与证据材料框架语义依存图结构并不完全相同,但是在证据材料的框架语义依存图中存在与选项框架语义依存图结构相似度部分。
106、在框架语义网基础上,计算选项框架语义依存图与证据材料框架语义依存图中结构相似部分框架之间的语义路径。
具体地,在对选项框架语义依存图与证据材料框架语义依存图结构相似部分框架之间的关系及框架元素语义一致性进行分析时,本发明包括如下两种情况:
第一种情况:选项框架语义依存图与证据材料框架语义依存图结构相似部分的框架完全相同,则两者之间的语义路径距离为0,框架语义完全一致。如图4中虚框部分①,选项中框架“F2保留”与证据材料中框架“F4保留”相同,则两者语义路径为0。
第二种情况:选项框架语义依存图与证据材料框架语义依存图结构相似部分的框架不相同,但二者之间可以通过汉语框架网中的框架关系进行关联,则两者之间的语义路径距离为两个框架之间的语义距离。如图4中虚框部分③,选项框架“F1使伸缩”与证据材料框架“F3量变”,两者不相同,但是可以通过汉语框架语义网进行关联,两者之间的语义路径为4。
第二种情况:选项框架语义依存图与证据材料框架语义依存图结构相似部分框架元素语义一致性分析。若框架所包含的框架元素均为叶子结点,则计算相应节点的相似度。若框架包含非叶子结点的框架元素,则通过107进一步进行语义一致性分析。
107、在框架语义网基础上,分析选项框架语义依存图与证据材料框架语义依存图结构相似部分叶子结点框架元素的语义一致性。
采用基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性。如图4中虚框部分②选项框架“F1使伸缩”与证据材料框架“F3量变”的“null”类型框架元素均由“了”进行填充,叶子结点框架元素语义一致。
108、在框架语义网基础上,递归的分析选项框架语义依存图及证据材料框架语义依存图结构相似部分非叶子结点框架元素一致性。
如图4中虚框部分②选项框架“F1使伸缩”的框架元素“item”与证据材料框架“F3量变”的“attr”框架元素均分别由框架F2和F4进行刻画,采用步骤105至108递归进行分析,直至所有的框架元素均为叶子结点。
根据每个选项与证据材料的语义一致性结果从多个选项中选择针对问题的正确选项。
109、在选择正确选项时,根据选项与证据材料语义一致性分析结果,从多个选项中选择针对该问题的正确选项。例如,若问题的题干信息为“符合文意的一项”,则选择与证据材料语义一致的选项作为正确选项。若问题的题干信息为“不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。
实施例2
如图1所示,本实施例阅读机器人进行阅读理解的答案选择系统,包括:段落定位单元、证据材料获取单元、语义一致性分析单元、答案选取单元。
段落定位单元,用于获取阅读理解文档、题干以及各题干对应的多个选项,基于主题推理模型获取阅读理解文档中各个段落的主题,定位包含与题干相关的段落。
具体来说:段落定位单元包括:
内容相关信息获取模块,用于采用基于LDA算法依次获取阅读理解文档中各个段落的主题,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息。
段落定位模块,用于将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法。采用排序算法将问题从全文定位到与题干核心信息相关的段落。
证据材料获取单元,用于基于已定位的相关段落,采用词袋 (bag-of-words,BOW)模型,抽取与选项有最多匹配词数的句子作为证据材料。
具体来说:证据材料获取单元包括:句子分词模块,用于对选项及定位段落中的句子进行分词,对分词后的选项及定位段落中的句子进行过滤词停用操作,其中,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,在进行过滤停用词操作时,对于分词后的某一个字词,若该字词存在于停用词表中,则将该字词过滤掉,的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”。
证据材料确定模块,用于基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料。
一致性确定单元,用于分析选项与证据材料语义一致性。
具体来说:一致性确定单元,包括:选项、证据材料框架语义依存图生成模块,用于基于汉语框架网的语义场景标注,对选项及证据材料中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注,得到句子中的目标词及目标词所激起的框架,并对框架所包含的框架元素进行标注,分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式。
一致性结果输出模块,用于分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系:提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分。基于提取的选项框架语义依存图和证据材料的框架语义依存图,根据汉语框架语义网中的框架关系,计算两个框架语义依存图中结构相似部分框架之间的语义路径。基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性。递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。
答案选取单元,用于根据选项与证据材料语义一致性分析结果,从多个选项中选择针对题干的正确选项。
具体来说:答案选取单元包括:提干信息分析模块,用于判断题干信息为“选择符合文意的一项”或“选择不符合文义的一项”。输出模块,用于题干信息为“选择不符合文义的一项”,则选择与证据材料语义一致的选项作为正确选项。若题干信息为“选择不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。

Claims (10)

1.一种阅读机器人进行阅读理解的答案选择方法,其特征在于,包括:
获取阅读理解文档、题干以及各题干对应的多个选项,基于主题推理模型获取阅读理解文档中各个段落的主题,定位包含与题干相关的段落;
基于已定位的相关段落,采用词袋 (bag-of-words,BOW) 模型,抽取与选项有最多匹配词数的句子作为证据材料;
分析选项与证据材料语义一致性;
根据选项与证据材料语义一致性分析结果,从多个选项中选择针对题干的正确选项。
2.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法,其特征在于,
基于汉语框架网的语义场景标注,对选项及证据材料中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注,得到句子中的目标词及目标词所激起的框架,并对框架所包含的框架元素进行标注,分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式;
分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系:提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分;基于提取的选项框架语义依存图和证据材料的框架语义依存图,根据汉语框架语义网中的框架关系,计算两个框架语义依存图中结构相似部分框架之间的语义路径;基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性;递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。
3.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法,其特征在于,所述的定位与题干相关的段落的具体方法包括:
采用基于LDA算法依次获取阅读理解文档中各个段落的主题,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息;将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法;采用排序算法将问题从全文定位到与题干核心信息相关的段落。
4.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法,其特征在于,证据材料的获取具体包括:
对选项及定位段落中的句子进行分词,对分词后的选项及定位段落中的句子进行过滤词停用操作,其中,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,在进行过滤停用词操作时,对于分词后的某一个字词,若该字词存在于停用词表中,则将该字词过滤掉,所述的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”;
基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料。
5.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法,其特征在于,在选择正确选项时,根据选项与证据材料语义一致性分析结果,从多个选项中选择针对该题干的正确选项,其中,若题干信息为“选择符合文意的一项”,则选择与证据材料语义一致的选项作为正确选项;若题干信息为“选择不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。
6.一种阅读机器人进行阅读理解的答案选择系统,其特征在于,包括:
段落定位单元,用于获取阅读理解文档、题干以及各题干对应的多个选项,基于主题推理模型获取阅读理解文档中各个段落的主题,定位包含与题干相关的段落;
证据材料获取单元,用于基于已定位的相关段落,采用词袋 (bag-of-words,BOW) 模型,抽取与选项有最多匹配词数的句子作为证据材料;
一致性确定单元,用于分析选项与证据材料语义一致性;
答案选取单元,用于根据选项与证据材料语义一致性分析结果,从多个选项中选择针对题干的正确选项。
7.根据权利要求6所述的阅读机器人进行阅读理解的答案选择系统,其特征在于,所述一致性确定单元,包括:
选项、证据材料框架语义依存图生成模块,用于基于汉语框架网的语义场景标注,对选项及证据材料中的句子进行分词,并根据汉语句子框架元素标注规范,使用预先设置的汉语框架网语义资源库对选项和证据材料中的句子进行多重标注,得到句子中的目标词及目标词所激起的框架,并对框架所包含的框架元素进行标注,分别将选项表示为选项框架语义依存图、将证据材料表示为证据材料框架语义依存图的形式;
一致性结果输出模块,用于分析选项框架语义依存图与证据材料框架语义依存图之间的结构关系:提取证据材料框架语义依存图与选项框架语义依存图结构相似的的部分;基于提取的选项框架语义依存图和证据材料的框架语义依存图,根据汉语框架语义网中的框架关系,计算两个框架语义依存图中结构相似部分框架之间的语义路径;基于Word2Vector计算选项框架语义依存图及证据材料框架语义依存图中叶子结点框架元素的语义一致性;递归的分析选项框架语义依存图及证据材料框架语义依存图非叶子结点框架元素一致性。
8.根据权利要求6所述的阅读机器人进行阅读理解的答案选择方法,其特征在于,所述段落定位单元包括:
内容相关信息获取模块,用于采用基于LDA算法依次获取阅读理解文档中各个段落的主题,采用淘汰策略提取题干的核心信息,即淘汰掉题干中次要的、支撑的、解说的信息,保留与文章内容相关的信息;
段落定位模块,用于将题干核心信息与获取的文章各段落主题依次进行相关度计算,相关度计算采用基于Word2Vector语义相关度计算方法;采用排序算法将问题从全文定位到与题干核心信息相关的段落。
9.根据权利要求6所述的阅读机器人进行阅读理解的答案选择方法,其特征在于,证据材料获取单元包括:
句子分词模块,用于对选项及定位段落中的句子进行分词,对分词后的选项及定位段落中的句子进行过滤词停用操作,其中,停用词表中存储了一些对句子和选项的意思并无太大作用的字词,在进行过滤停用词操作时,对于分词后的某一个字词,若该字词存在于停用词表中,则将该字词过滤掉,所述的对句子和选项的意思并无太大作用的字词至少包括“的”、“了”、“啊”;
证据材料确定模块,用于基于已获得的选项和段落各句子的词集合,分别计算选项中词语与段落中每个句子相似度,相似度计算方法为:选项和段落中句子词语重叠个数/段落句子中词语的个数,选取相似度最大的为选项的证据材料。
10.根据权利要求1所述的阅读机器人进行阅读理解的答案选择方法,其特征在于,所述答案选取单元包括:提干信息分析模块,用于判断题干信息为“选择符合文意的一项”或“选择不符合文义的一项”;输出模块,用于题干信息为“选择不符合文义的一项”,则选择与证据材料语义一致的选项作为正确选项;若题干信息为“选择不符合文意的一项”,则选择与证据材料语义不一致的选项作为正确选项。
CN201711092170.7A 2017-11-08 2017-11-08 阅读机器人进行阅读理解的答案选择方法及系统 Active CN107818085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711092170.7A CN107818085B (zh) 2017-11-08 2017-11-08 阅读机器人进行阅读理解的答案选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711092170.7A CN107818085B (zh) 2017-11-08 2017-11-08 阅读机器人进行阅读理解的答案选择方法及系统

Publications (2)

Publication Number Publication Date
CN107818085A true CN107818085A (zh) 2018-03-20
CN107818085B CN107818085B (zh) 2021-04-23

Family

ID=61604153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711092170.7A Active CN107818085B (zh) 2017-11-08 2017-11-08 阅读机器人进行阅读理解的答案选择方法及系统

Country Status (1)

Country Link
CN (1) CN107818085B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109255012A (zh) * 2018-07-23 2019-01-22 深思考人工智能机器人科技(北京)有限公司 一种机器阅读理解的实现方法以及装置
CN109492086A (zh) * 2018-11-26 2019-03-19 北京羽扇智信息科技有限公司 一种答案输出方法、装置、电子设备及存储介质
CN109753661A (zh) * 2019-01-11 2019-05-14 国信优易数据有限公司 一种机器阅读理解方法、装置、设备及存储介质
CN109766407A (zh) * 2018-11-28 2019-05-17 科大讯飞股份有限公司 数据处理方法和系统
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110750998A (zh) * 2019-10-14 2020-02-04 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN112784579A (zh) * 2020-12-31 2021-05-11 山西大学 一种基于数据增强的阅读理解选择题答题方法
CN112818099A (zh) * 2021-01-29 2021-05-18 华南师范大学 基于多粒度分词的应用题解答处理方法、系统和存储介质
CN113220854A (zh) * 2021-05-24 2021-08-06 中国平安人寿保险股份有限公司 机器阅读理解的智能对话方法及装置
CN113343668A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 选择题解题方法、装置、电子设备及可读存储介质
CN113569025A (zh) * 2021-07-23 2021-10-29 上海明略人工智能(集团)有限公司 数据处理的方法和装置、电子设备和存储介质
CN113807512A (zh) * 2020-06-12 2021-12-17 株式会社理光 机器阅读理解模型的训练方法、装置及可读存储介质

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109255012B (zh) * 2018-07-23 2021-04-30 深思考人工智能机器人科技(北京)有限公司 机器阅读理解以及减少候选数据集规模的方法、装置
CN109255012A (zh) * 2018-07-23 2019-01-22 深思考人工智能机器人科技(北京)有限公司 一种机器阅读理解的实现方法以及装置
CN109492086A (zh) * 2018-11-26 2019-03-19 北京羽扇智信息科技有限公司 一种答案输出方法、装置、电子设备及存储介质
CN109492086B (zh) * 2018-11-26 2022-01-21 出门问问创新科技有限公司 一种答案输出方法、装置、电子设备及存储介质
CN109766407A (zh) * 2018-11-28 2019-05-17 科大讯飞股份有限公司 数据处理方法和系统
CN109766407B (zh) * 2018-11-28 2021-05-04 科大讯飞股份有限公司 数据处理方法和系统
CN109753661B (zh) * 2019-01-11 2022-12-02 国信优易数据股份有限公司 一种机器阅读理解方法、装置、设备及存储介质
CN109753661A (zh) * 2019-01-11 2019-05-14 国信优易数据有限公司 一种机器阅读理解方法、装置、设备及存储介质
CN110688491A (zh) * 2019-09-25 2020-01-14 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110688491B (zh) * 2019-09-25 2022-05-10 暨南大学 基于深度学习的机器阅读理解方法、系统、设备及介质
CN110750998A (zh) * 2019-10-14 2020-02-04 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN110750998B (zh) * 2019-10-14 2023-10-31 腾讯科技(深圳)有限公司 一种文本输出方法、装置、计算机设备和存储介质
CN113807512B (zh) * 2020-06-12 2024-01-23 株式会社理光 机器阅读理解模型的训练方法、装置及可读存储介质
CN113807512A (zh) * 2020-06-12 2021-12-17 株式会社理光 机器阅读理解模型的训练方法、装置及可读存储介质
CN111782759A (zh) * 2020-06-29 2020-10-16 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN111782759B (zh) * 2020-06-29 2024-04-19 数网金融有限公司 一种问答处理方法、装置及计算机可读存储介质
CN112784579B (zh) * 2020-12-31 2022-05-27 山西大学 一种基于数据增强的阅读理解选择题答题方法
CN112784579A (zh) * 2020-12-31 2021-05-11 山西大学 一种基于数据增强的阅读理解选择题答题方法
CN112818099B (zh) * 2021-01-29 2023-06-02 华南师范大学 基于多粒度分词的应用题解答处理方法、系统和存储介质
CN112818099A (zh) * 2021-01-29 2021-05-18 华南师范大学 基于多粒度分词的应用题解答处理方法、系统和存储介质
CN113220854A (zh) * 2021-05-24 2021-08-06 中国平安人寿保险股份有限公司 机器阅读理解的智能对话方法及装置
CN113220854B (zh) * 2021-05-24 2023-11-07 中国平安人寿保险股份有限公司 机器阅读理解的智能对话方法及装置
CN113569025A (zh) * 2021-07-23 2021-10-29 上海明略人工智能(集团)有限公司 数据处理的方法和装置、电子设备和存储介质
CN113343668A (zh) * 2021-08-05 2021-09-03 北京世纪好未来教育科技有限公司 选择题解题方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN107818085B (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN107818085A (zh) 阅读机器人进行阅读理解的答案选择方法及系统
Li et al. Recursive deep models for discourse parsing
CN106844658A (zh) 一种中文文本知识图谱自动构建方法及系统
Faure et al. First experiments of using semantic knowledge learned by ASIUM for information extraction task using INTEX
CN106776562A (zh) 一种关键词提取方法和提取系统
CN109284396A (zh) 医学知识图谱构建方法、装置、服务器及存储介质
CN108363816A (zh) 基于句义结构模型的开放式实体关系抽取方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
Esmaeilzadeh et al. Neural abstractive text summarization and fake news detection
CN107632979A (zh) 一种用于交互式问答的问题解析方法及系统
CN105260488B (zh) 一种用于语义理解的文本序列迭代方法
CN105631468A (zh) 一种基于rnn的图片描述自动生成方法
CN108984661A (zh) 一种知识图谱中实体对齐方法和装置
CN110188349A (zh) 一种基于抽取式多文档摘要方法的自动化写作方法
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
CN102609427A (zh) 舆情垂直搜索分析系统及方法
CN110765755A (zh) 一种基于双重选择门的语义相似度特征提取方法
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN105893362A (zh) 获取知识点语义向量的方法、确定相关知识点的方法及系统
CN107688583A (zh) 创建用于自然语言处理装置的训练数据的方法和设备
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
Fahrni et al. HITS'Monolingual and Cross-lingual Entity Linking System at TAC 2013.
Jing et al. Abstraction based domain ontology extraction for idea creation
Netisopakul et al. A survey of Thai knowledge extraction for the semantic web research and tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant