CN107832295A - 阅读机器人的标题选择方法及系统 - Google Patents

阅读机器人的标题选择方法及系统 Download PDF

Info

Publication number
CN107832295A
CN107832295A CN201711092902.2A CN201711092902A CN107832295A CN 107832295 A CN107832295 A CN 107832295A CN 201711092902 A CN201711092902 A CN 201711092902A CN 107832295 A CN107832295 A CN 107832295A
Authority
CN
China
Prior art keywords
msub
mrow
stretchy
false
math
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711092902.2A
Other languages
English (en)
Other versions
CN107832295B (zh
Inventor
李茹
关勇
郭少茹
张旗
王智强
柴清华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201711092902.2A priority Critical patent/CN107832295B/zh
Publication of CN107832295A publication Critical patent/CN107832295A/zh
Application granted granted Critical
Publication of CN107832295B publication Critical patent/CN107832295B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理研究领域,具体公开了一种阅读机器人的标题选择方法及系统;包括如下步骤:一、篇章要点抽取单元;二、标题与篇章要点相关性分析单元;三、标题结构单元;四、相关度矩阵和标题结构融合单元;五、答案选取单元,对选项进行排序,选取最适合的答案。本发明首次提出了标题与篇章要点相关性分析方法,该方法通过分析标题与篇章要点的相关性,构建了基于标题和篇章要点的相关度矩阵,在此基础上融入标题结构特征,选取与篇章最相关的标题。本方法遵循解题规律,解决了阅读机器人的标题选择题目解答的问题。本发明有效填补了中文阅读理解标题选择题型智能解答方面的空白。

Description

阅读机器人的标题选择方法及系统
技术领域
本发明属于自然语言处理研究领域,具体地说,涉及一种阅读机器人的标题选择方法及系统。
背景技术
阅读机器人的研发近年来已经成为一个研究热点,受到国内外学者、公司越来越多的关注,并取得了良好的发展。
2011年,IBM超级电脑(Watson)在智力竞猜节目(Jeopardy)中战胜了该节目中最杰出的两位人类选手。日本国立情报学研究所(National Institute of Informatics)开发的人工智能机器人Todai Robot已经可以通过大学入学考试,在2015年的日本大学入学考试中,Todai Robot取得了511分,比考生平均分高出90多分。2016年,谷歌人工智能机器人“AlphaGo” 以总比分4比1的成绩战胜人类代表围棋九段棋手李世石。
上述阅读机器人系统中问题求解都有大量的词典、语法、资料等组成知识库作为支撑,许多问题的分析、解答工作都是基于知识库的查找和检索。阅读机器人的智能解答仍然是一个巨大的挑战,并且在中文阅读理解标题选择题型智能解答方面仍然是一个空白。目前,针对阅读机器人的阅读理解任务,提出的相关技术可以分为两种:基于特征的方法和基于深度学习的方法。
基于特征的方法通常使用特征工程、语言工具、外部资源来解决这类问题。例如:郭少茹.面向高考阅读理解的句子语义相关度,清华大学学报 自然科学版, 2017, 57(6):575-579.针对高考语文中科技文题型进行分析,提出一种多维度投票算法,该算法将Word2Vec,HowNet,词袋模型,框架语义场景四个方面作为度量标准,运用投票算法的思想,选取最佳答案。李茹.阅读理解答案预测[J/OL]. 山西大学学报(自然科学版):1-8.(2017-05-27) [2017-09-28].针对高考语文阅读理解,通过对篇章、题干、选项三者的关系进行建模,制定联合打分函数,加入句子相似度特征、反义匹配特征、否定特征三个语义特征信息,提出基于题干与选项一致性判别模型。
基于深度学习的方法主要是通过构建神经网络模型,在基于词向量表示基础上,利用深度神经网络模型学习句子的向量表示,然后把任务转换成一个分类或排序问题。例如:Wenpeng Yin. Attention-Based Convolutional Neural Network for MachineComprehension [EB/OL]. [2016]. http://arxiv.org/abs/1602.04341.针对机器理解任务,构建一个基于Attention机制的分层的卷积神经网络模型,通过对文章、问题、答案进行建模,发现与回答问题相关的关键短语、关键句和关键片断。Iyyer M. A Neural Networkfor Factoid Question Answering over Paragraphs[C]//EMNLP. 2014: 633-644.针对阅读理解任务提出了一个循环神经网络模型,学习词和短语的向量表示进行实体推理,并用逻辑回归分类器对篇章预测类别,类别标签就是问题的答案。
基于特征的方法需要人工构建大量不同的特征,耗费大量的时间,而基于端到端的神经网络模型虽然可以自动学习特征,但是由于数据的稀疏性、问题的复杂性,效果提升不是很明显。
发明内容
为解决上述技术问题,本发明的目的是提供一种根据标题高度凝练且能准确表达文意的特点,构建了基于标题与篇章要点的相关度矩阵。并在此基础上,依据标题结构鲜明的特点,对标题进行梳理和分类,融入标题结构特征,实现篇章标题选择题目的解答的阅读机器人的标题选择方法及系统。
本发明阅读机器人的标题选择方法,包括:
获取阅读理解篇章、题干、题干对应的选项,基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句,各段落的主旨句分别为一个篇章要点;
分析标题与篇章要点相关性,也即分别计算每个标题和各个篇章要点的相似度值,形成标题和篇章要点相关度矩阵
通过分析题库中标题结构和语言特点,制定相应的结构体系,形成标题结构权值
根据相关度矩阵和标题结构权值,将标题和篇章要点相关度矩阵与标题结构权值融合,相关度矩阵和标题结构权值,按照下面公式确定得到每个标题的得分:
其中,表示标题融合标题结构信息后的得分;
对标题得分进行排序,将得分最高的一个标题作为正确答案输出。
进一步地,所述的相关因素的段落主旨句抽取方法具体包括:对篇章中的同义及上下位概念进行归并,综合语句所在位置、语句中的标题、语句中所含重要词汇三种度量方式,综合评估句子反映主题的价值,抽取出段落的主旨句。由于篇章各段落涉及不同的要点内容,段落主旨句是段落的中心距或者主题句,具有概括段落的作用,是段落的中心所在,所以抽取段落主旨句作为篇章要点。
进一步地,所述的分析标题与篇章要点相关性,具体包括:
根据得到的篇章要点,利用预先训练好的Word2Vec词向量将篇章要点和选项分别表示为两个输入矩阵,利用基于LSTM的标题与篇章要点的相关性计算方法,将分别输入到LSTM模型中,得到篇章要点和选项的向量表示集合,使用向量余弦相似度分别计算每个选项和各个篇章要点的相似度值,最后形成选项和篇章要点相关度矩阵
进一步地,通过分析统计文章标题结构和语言特点,对标题进行分类,通过统计各个类别所占比例,加入优化参数,形成标题结构权值,公式如下:
其中,表示标题类别为的权值,表示标题类别为所占的比例。
本发明阅读机器人的标题选择系统,包括:
篇章要点抽取单元,用于获取阅读理解篇章、题干、题干对应的选项,基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句,各段落的主旨句分别为一个篇章要点;
标题与篇章要点相关性分析单元,用于分析标题与篇章要点相关性,也即分别计算每个标题和各个篇章要点的相似度值,形成标题和篇章要点相关度矩阵
标题结构分析单元,用于通过分析题库中标题结构和语言特点,制定相应的结构体系,形成标题结构权值
相关度矩阵和标题结构融合单元,用于根据相关度矩阵和标题结构权值,将标题和篇章要点相关度矩阵与标题结构权值融合,相关度矩阵和标题结构权值,按照下面公式确定得到每个标题的得分:
其中,表示标题融合标题结构信息后的得分;
答案选取单元,用于对标题得分进行排序,将得分最高的一个标题作为正确答案输出。
进一步地,所述标题与篇章要点相关性分析单元包括:
矩阵生成模块,用于根据得到的篇章要点,利用预先训练好的Word2Vec词向量将篇章要点和选项分别表示为两个输入矩阵
分析模块,用于利用基于LSTM的标题与篇章要点的相关性计算方法,将分别输入到LSTM模型中,得到篇章要点和选项的向量表示集合,使用向量余弦相似度分别计算每个选项和各个篇章要点的相似度值,最后形成选项和篇章要点相关度矩阵
借由上述方案,本发明阅读机器人的标题选择方法及系统至少具有以下优点:
一、本发明提出了标题与篇章要点相关性分析方法,该方法从标题与篇章的相关性、标题结构鲜明两方面进行研究,智能地给出答案,更接近人类的推理思路,降低了推理成本。
二、本发明针对阅读机器人的标题选择问题,结合基于特征的方法和基于神经网络方法,构建了标题与篇章要点相关性分析方法。
三、本发明针对阅读机器人的标题选择问题,首次提出标题与篇章要点相关性分析方法,有效填补了中文阅读理解标题选择方面的空白。
四、本发明提出标题与篇章要点相关性分析方法,该方法从标题与篇章的相关性、标题结构鲜明两方面进行研究,有效的解决了阅读理解标题选择题目,对自然语言处理相关研究有启发效果。本发明方法思路结构清晰,效果明显,可扩展性强。
五、本发明首次提出将标题与篇章要点相关性分析方法应用到标题选择题型智能解答方面,有效填补了中文阅读理解标题选择题型智能解答方面的空白。
附图说明
下面结合附图对本发明做进一步详细的说明。
图1为本发明的系统流程图。
图2为本发明的关系构造单元具体流程图。
图3为本发明的阅读理解标题选择题解题示意图
图4为本发明的标题与篇章要点相关度矩阵实例示意图。
图5为本发明的标题与篇章要点相关性计算模型示意图。
图6为本发明的题型示例示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明,附图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
本发明中的基于LSTM的标题与篇章要点的相关性计算方法是通过构建神经网络模型(LSTM),在基于预先训练好的词向量表示基础上,利用深度神经网络模型学习标题和篇章要点的向量表示,然后用余弦相似度计算向量之间的相似度,得到选项和篇章要点相关度矩阵。
文本可以看作是一个序列问题,文章词与词之间、句子之间存在依赖关系,循环神经网络(RNN)可以解决序列之间的依赖问题。但是在RNN训练中经过多阶段传播后梯度会趋于消失或者爆炸,即使模型参数稳定,依然难以解决短期相互作用指数小的权重的问题。长短期记忆(long short-term memory,LSTM)作为RNN的变种之一,有效的解决了长距离依赖的问题。
LSTM模型分为输入层、bi-LSTM层和输出层三层。输入层是由篇章要点集合和选项集合组成的二元组,把篇章要点和选项用预先训练好的词向量分别表示为一个词向量矩阵W。LSTM层使用bi-LSTM获取选项和篇章要点的向量表示。bi-LSTM会提供给输入序列每一个节点过去和未来的上下文信息,相对于单向LSTM来说能提供更多的特征信息。输出层使用向量之间的余弦相似度计算两个向量的相似度。
本发明中的采用基于多因素的段落主旨句抽取方法,抽取段落主旨句作为篇章要点。由于篇章各段落涉及不同的要点内容,段落主旨句是段落的中心距或者主题句,具有概括段落的作用,是段落的中心所在,所以抽取段落主旨句作为篇章要点。
基于相关因素的段落主旨句抽取方法,首先对篇章中的同义及上下位概念进行归并,同时综合语句所在位置、语句中的标题、语句中所含重要词汇等多种度量方式,综合评估句子反映主题的价值,更精确地抽取出段落的主旨句。
实施例1
图2为本发明的关系构造单元具体流程图。图3为本发明的阅读理解标题选择题解题示意图。本实施例阅读机器人的标题选择方法,具体步骤如下:
101、获取阅读理解篇章、题干及其选项(如图6所示)。
102、基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句,获得篇章要点,该方法首先对篇章中的同义及上下位概念进行归并,同时综合语句所在位置、语句中的标题、语句中所含重要词汇等多种度量方式,综合评估句子反映主题的价值,从而更精确地抽取出段落的主旨句,得到篇章要点。
103、根据之前得到的篇章要点,采用预训练的Word2Vec词向量将已经获得的篇章要点和选项分别表示为两个输入矩阵
104、将已获取的篇章要点矩阵、选项矩阵分别输入LSTM模型(如图5所示),输出篇章要点和选项的向量表示。公式如下:
其中,表示输入矩阵,分别表示正向和反向LSTM每个时刻的输出,为bi-LSTM每个时刻的输出。
105、针对得到的篇章要点、选项向量,采用向量余弦相似度分别计算每个选项和各个篇章要点的相似度,形成选项与篇章要点的相似度矩阵(如图4所示,矩阵由选项与篇章要点相似度组成,行表示选项与各篇章要点相似度值,列表示篇章要点与各选项相似度值,颜色代表相似度大小,颜色越深代表值越大。根据相关度矩阵选取覆盖篇章要点信息最全面的一项作为最恰当的标题)。
106、通过分析统计题库中文章标题结构和语言特点,对标题进行分类,赋予标题结构权值。通过分析统计题库中文章标题结构和语言特点,标题可以分为六类。通过统计各个类别所占比例,加入优化参数,形成标题结构权值。公式如下:
其中,表示标题类别为的权值,表示标题类别为所占的比例。
107、将选项和篇章要点相关度矩阵与标题结构权值融合,进一步提升解题的准确率。根据之前得到的相关度矩阵和标题结构权值,按照下面公式确定得到每个选项的得分:
其中,表示标题融合标题结构信息后的得分。
108、对选项得分进行排序,将得分最高的一个选项作为正确答案给出系统结果。
实施例2
本实施例阅读机器人的标题选择系统,包括:篇章要点抽取单元、标题与篇章要点相关性分析单元、标题结构分析单元、相关度矩阵和标题结构融合单元、答案选取单元五部分。
篇章要点抽取单元,用于获取阅读理解篇章、题干、题干对应的选项,基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句,各段落的主旨句分别为一个篇章要点;
标题与篇章要点相关性分析单元,用于分析标题与篇章要点相关性,也即分别计算每个标题和各个篇章要点的相似度值,形成标题和篇章要点相关度矩阵
标题结构分析单元,用于通过分析题库中标题结构和语言特点,制定相应的结构体系,形成标题结构权值
相关度矩阵和标题结构融合单元,用于根据相关度矩阵和标题结构权值,将标题和篇章要点相关度矩阵与标题结构权值融合,相关度矩阵和标题结构权值,按照下面公式确定得到每个标题的得分:
其中,表示标题融合标题结构信息后的得分;
答案选取单元,用于对标题得分进行排序,将得分最高的一个标题作为正确答案输出。
本实施例中,所述标题与篇章要点相关性分析单元包括:
矩阵生成模块,用于根据得到的篇章要点,利用预先训练好的Word2Vec词向量将篇章要点和选项分别表示为两个输入矩阵
分析模块,用于利用基于LSTM的标题与篇章要点的相关性计算方法,将分别输入到LSTM模型中,得到篇章要点和选项的向量表示集合,使用向量余弦相似度分别计算每个选项和各个篇章要点的相似度值,最后形成选项和篇章要点相关度矩阵
上面结合附图对本发明的实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (6)

1.一种阅读机器人的标题选择方法,其特征在于,包括:
获取阅读理解篇章、题干、题干对应的选项,基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句,各段落的主旨句分别为一个篇章要点;
分析标题与篇章要点相关性,也即分别计算每个标题和各个篇章要点的相似度值,形 成标题和篇章要点相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>
通过分析题库中标题结构和语言特点,制定相应的结构体系,形成标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>
根据相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>和标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>,将标题和篇章要点相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>与标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>融合,相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>和标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>, 按照下面公式确定得到每个标题的得分:<math display = 'block'> <mrow> <mi>FW</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> <mo>=</mo> <mo stretchy='false'>(</mo> <mn>1</mn> <mo>&amp;minus;</mo> <mi>&amp;phiv;</mi> <mo stretchy='false'>)</mo> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> <mo>+</mo> <mi>&amp;phiv;</mi> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>
其中,<math display = 'block'> <mrow> <mi>FW</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>表示标题融合标题结构信息后的得分;
对标题得分进行排序,将得分最高的一个标题作为正确答案输出。
2.根据权利要求1所述的阅读机器人的标题选择方法,其特征在于,所述的相关因素的段落主旨句抽取方法具体包括:对篇章中的同义及上下位概念进行归并,综合语句所在位置、语句中的标题、语句中所含重要词汇三种度量方式,综合评估句子反映主题的价值,抽取出段落的主旨句,由于篇章各段落涉及不同的要点内容,段落主旨句是段落的中心距或者主题句,具有概括段落的作用,是段落的中心所在,所以抽取段落主旨句作为篇章要点。
3.根据权利要求1所述的阅读机器人的标题选择方法,其特征在于,所述的分析标题与篇章要点相关性,具体包括:
根据得到的篇章要点,利用预先训练好的Word2Vec词向量将篇章要点和选项分别表示 为两个输入矩阵<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>D</mi> </msub> </mrow> </math>、<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>A</mi> </msub> </mrow> </math>,利用基于LSTM的标题与篇章要点的相关性计算方法,将<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>D</mi> </msub> </mrow> </math> 和<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>A</mi> </msub> </mrow> </math>分别输入到LSTM模型中,得到篇章要点和选项的向量表示集合,使用向量余弦相似 度分别计算每个选项和各个篇章要点的相似度值,最后形成选项和篇章要点相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>
4.根据权利要求1所述的阅读机器人的标题选择方法,其特征在于,通过分析统计文章标题结构和语言特点,对标题进行分类,通过统计各个类别所占比例,加入优化参数,形成标题结构权值,公式如下:
其中,<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>表示标题类别为的权值,<math display = 'block'> <mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </mrow> </math>表示标题类别为<math display = 'block'> <mrow> <mi>i</mi> </mrow> </math>所占的比例。
5.一种阅读机器人的标题选择系统,其特征在于,包括:
篇章要点抽取单元,用于获取阅读理解篇章、题干、题干对应的选项,基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句,各段落的主旨句分别为一个篇章要点;
标题与篇章要点相关性分析单元,用于分析标题与篇章要点相关性,也即分别计算每 个标题和各个篇章要点的相似度值,形成标题和篇章要点相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>
标题结构分析单元,用于通过分析题库中标题结构和语言特点,制定相应的结构体系, 形成标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>
相关度矩阵和标题结构融合单元,用于根据相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>和标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>,将标题和篇章要点相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>与标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>融合,相 关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>和标题结构权值<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>,按照下面公式确定得到每个标题的得 分:
<math display = 'block'> <mrow> <mi>FW</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> <mo>=</mo> <mo stretchy='false'>(</mo> <mn>1</mn> <mo>&amp;minus;</mo> <mi>&amp;phiv;</mi> <mo stretchy='false'>)</mo> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> <mo>+</mo> <mi>&amp;phiv;</mi> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>
其中,<math display = 'block'> <mrow> <mi>FT</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo stretchy='false'>)</mo> </mrow> </math>表示标题融合标题结构信息后的得分;
答案选取单元,用于对标题得分进行排序,将得分最高的一个标题作为正确答案输出。
6.根据权利要求5所述的阅读机器人的标题选择系统,其特征在于,所述标题与篇章要点相关性分析单元包括:
矩阵生成模块,用于根据得到的篇章要点,利用预先训练好的Word2Vec词向量将篇章 要点和选项分别表示为两个输入矩阵<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>D</mi> </msub> </mrow> </math>、<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>A</mi> </msub> </mrow> </math>
分析模块,用于利用基于LSTM的标题与篇章要点的相关性计算方法,将<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>D</mi> </msub> </mrow> </math>和<math display = 'block'> <mrow> <msub> <mi>W</mi> <mi>A</mi> </msub> </mrow> </math> 分别输入到LSTM模型中,得到篇章要点和选项的向量表示集合,使用向量余弦相似度分别 计算每个选项和各个篇章要点的相似度值,最后形成选项和篇章要点相关度矩阵<math display = 'block'> <mrow> <mi>F</mi> <mo stretchy='false'>(</mo> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Sen</mi> <mo stretchy='false'>)</mo> </mrow> </math>
CN201711092902.2A 2017-11-08 2017-11-08 阅读机器人的标题选择方法及系统 Active CN107832295B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711092902.2A CN107832295B (zh) 2017-11-08 2017-11-08 阅读机器人的标题选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711092902.2A CN107832295B (zh) 2017-11-08 2017-11-08 阅读机器人的标题选择方法及系统

Publications (2)

Publication Number Publication Date
CN107832295A true CN107832295A (zh) 2018-03-23
CN107832295B CN107832295B (zh) 2021-06-04

Family

ID=61653959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711092902.2A Active CN107832295B (zh) 2017-11-08 2017-11-08 阅读机器人的标题选择方法及系统

Country Status (1)

Country Link
CN (1) CN107832295B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN111309891A (zh) * 2020-03-16 2020-06-19 山西大学 一种阅读机器人进行自动问答的系统及其应用方法
CN111563378A (zh) * 2020-04-30 2020-08-21 神思电子技术股份有限公司 一种联合学习的多文档阅读理解实现方法
CN111930929A (zh) * 2020-07-09 2020-11-13 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
CN112347753A (zh) * 2020-11-12 2021-02-09 山西大学 一种应用于阅读机器人的摘要生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
US20150169676A1 (en) * 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
CN104794109A (zh) * 2015-04-09 2015-07-22 山西大学 一种应用于学习机的智能解答系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150169676A1 (en) * 2013-12-18 2015-06-18 International Business Machines Corporation Generating a Table of Contents for Unformatted Text
CN103823794A (zh) * 2014-02-25 2014-05-28 浙江大学 一种关于英语阅读理解测试疑问式简答题的自动化命题方法
CN104794109A (zh) * 2015-04-09 2015-07-22 山西大学 一种应用于学习机的智能解答系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘金岭 等: "基于多因素的中文文本主题自动抽取方法", 《计算机技术与发展》 *
张云涛 等: "基于综合方法的文本主题句的自动抽取", 《上海交通大学学报》 *
郭少茹 等: "面向高考阅读理解的句子语义相关度", 《清华大学学报(自然科学版)》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110555198B (zh) * 2018-05-31 2023-05-23 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN108960319A (zh) * 2018-06-29 2018-12-07 哈尔滨工业大学 一种面向全局的机器阅读理解建模中的候选答案筛选方法
CN109344234A (zh) * 2018-09-06 2019-02-15 和美(深圳)信息技术股份有限公司 机器阅读理解方法、装置、计算机设备和存储介质
CN111309891A (zh) * 2020-03-16 2020-06-19 山西大学 一种阅读机器人进行自动问答的系统及其应用方法
CN111309891B (zh) * 2020-03-16 2022-05-31 山西大学 一种阅读机器人进行自动问答的系统及其应用方法
CN111563378A (zh) * 2020-04-30 2020-08-21 神思电子技术股份有限公司 一种联合学习的多文档阅读理解实现方法
CN111930929A (zh) * 2020-07-09 2020-11-13 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
CN111930929B (zh) * 2020-07-09 2023-11-10 车智互联(北京)科技有限公司 一种文章标题生成方法、装置及计算设备
CN112347753A (zh) * 2020-11-12 2021-02-09 山西大学 一种应用于阅读机器人的摘要生成方法及系统
CN112347753B (zh) * 2020-11-12 2022-05-27 山西大学 一种应用于阅读机器人的摘要生成方法及系统

Also Published As

Publication number Publication date
CN107832295B (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN107832295A (zh) 阅读机器人的标题选择方法及系统
CN107273490B (zh) 一种基于知识图谱的组合错题推荐方法
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN107679580A (zh) 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN108804654A (zh) 一种基于智能问答的虚拟学习环境构建方法
CN111222049B (zh) 语义增强的异构信息网络上Top-k相似度搜索方法
CN107153642A (zh) 一种基于神经网络识别文本评论情感倾向的分析方法
CN110795571A (zh) 基于深度学习和知识图谱的文化旅游资源推荐方法
CN107563407A (zh) 一种面向网络空间多模态大数据的特征表示学习系统
CN111143672A (zh) 基于知识图谱的专业特长学者推荐方法
Tran et al. Performance prediction for students: A multi-strategy approach
CN114037945A (zh) 一种基于多粒度特征交互的跨模态检索方法
Intisar et al. Cluster analysis to estimate the difficulty of programming problems
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
WO2024007476A1 (zh) 设计概念生成网络构建方法及概念方案自动生成方法
CN111710428A (zh) 一种建模全局和局部上下文交互的生物医学文本表示方法
Wagner et al. Complex evolutionary artificial intelligence in cognitive digital twinning
CN102193928B (zh) 基于多层文本分类器的轻量级本体匹配方法
CN116720519B (zh) 一种苗医药命名实体识别方法
CN104679988B (zh) 一种基于云topsis的多属性决策方法
Meng et al. Application of Data Mining in the Guidance of Sports Training
Zhang et al. An ontology-based approach for chinese legal information retrieval
Pavlekovic et al. Comparison of intelligent systems in detecting a child’s mathematical gift
CN101739565A (zh) 一种大容量的模式识别方法
Alhabeeb et al. An Investigation into Indonesian Students' Opinions on Educational Reforms through the Use of Machine Learning and Sentiment Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant