CN107832295B

CN107832295B - 阅读机器人的标题选择方法及系统

Info

Publication number: CN107832295B
Application number: CN201711092902.2A
Authority: CN
Inventors: 李茹; 关勇; 郭少茹; 张旗; 王智强; 柴清华
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2021-06-04
Anticipated expiration: 2037-11-08
Also published as: CN107832295A

Abstract

本发明属于自然语言处理研究领域，具体公开了一种阅读机器人的标题选择方法及系统；包括如下步骤：一、篇章要点抽取单元；二、标题与篇章要点相关性分析单元；三、标题结构单元；四、相关度矩阵和标题结构融合单元；五、答案选取单元，对选项进行排序，选取最适合的答案。本发明首次提出了标题与篇章要点相关性分析方法，该方法通过分析标题与篇章要点的相关性，构建了基于标题和篇章要点的相关度矩阵，在此基础上融入标题结构特征，选取与篇章最相关的标题。本方法遵循解题规律，解决了阅读机器人的标题选择题目解答的问题。本发明有效填补了中文阅读理解标题选择题型智能解答方面的空白。

Description

阅读机器人的标题选择方法及系统

技术领域

本发明属于自然语言处理研究领域，具体地说，涉及一种阅读机器人的标题选择方法及系统。

背景技术

阅读机器人的研发近年来已经成为一个研究热点，受到国内外学者、公司越来越多的关注，并取得了良好的发展。

2011年，IBM超级电脑(Watson)在智力竞猜节目(Jeopardy)中战胜了该节目中最杰出的两位人类选手。日本国立情报学研究所(National Institute of Informatics)开发的人工智能机器人Todai Robot已经可以通过大学入学考试，在2015年的日本大学入学考试中，Todai Robot取得了511分，比考生平均分高出90多分。2016年，谷歌人工智能机器人“AlphaGo”以总比分4比1的成绩战胜人类代表围棋九段棋手李世石。

上述阅读机器人系统中问题求解都有大量的词典、语法、资料等组成知识库作为支撑，许多问题的分析、解答工作都是基于知识库的查找和检索。阅读机器人的智能解答仍然是一个巨大的挑战，并且在中文阅读理解标题选择题型智能解答方面仍然是一个空白。目前，针对阅读机器人的阅读理解任务，提出的相关技术可以分为两种：基于特征的方法和基于深度学习的方法。

基于特征的方法通常使用特征工程、语言工具、外部资源来解决这类问题。例如：郭少茹.面向高考阅读理解的句子语义相关度，清华大学学报自然科学版,2017,57(6):575-579.针对高考语文中科技文题型进行分析，提出一种多维度投票算法，该算法将Word2Vec，HowNet，词袋模型，框架语义场景四个方面作为度量标准，运用投票算法的思想，选取最佳答案。李茹.阅读理解答案预测[J/OL].山西大学学报(自然科学版)：1-8.(2017-05-27)[2017-09-28].针对高考语文阅读理解，通过对篇章、题干、选项三者的关系进行建模，制定联合打分函数，加入句子相似度特征、反义匹配特征、否定特征三个语义特征信息，提出基于题干与选项一致性判别模型。

基于深度学习的方法主要是通过构建神经网络模型，在基于词向量表示基础上，利用深度神经网络模型学习句子的向量表示，然后把任务转换成一个分类或排序问题。例如：Wenpeng Yin.Attention-Based Convolutional Neural Network for MachineComprehension[EB/OL].[2016].http://arxiv.org/abs/1602.04341.针对机器理解任务，构建一个基于Attention机制的分层的卷积神经网络模型，通过对文章、问题、答案进行建模，发现与回答问题相关的关键短语、关键句和关键片断。Iyyer M.A Neural Network forFactoid Question Answering over Paragraphs[C]//EMNLP.2014:633-644.针对阅读理解任务提出了一个循环神经网络模型，学习词和短语的向量表示进行实体推理，并用逻辑回归分类器对篇章预测类别，类别标签就是问题的答案。

基于特征的方法需要人工构建大量不同的特征，耗费大量的时间，而基于端到端的神经网络模型虽然可以自动学习特征，但是由于数据的稀疏性、问题的复杂性，效果提升不是很明显。

发明内容

为解决上述技术问题，本发明的目的是提供一种根据标题高度凝练且能准确表达文意的特点，构建了基于标题与篇章要点的相关度矩阵。并在此基础上，依据标题结构鲜明的特点，对标题进行梳理和分类，融入标题结构特征，实现篇章标题选择题目的解答的阅读机器人的标题选择方法及系统。

本发明阅读机器人的标题选择方法，包括：

获取阅读理解篇章、题干、题干对应的选项，基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句，各段落的主旨句分别为一个篇章要点；

分析标题与篇章要点相关性，也即分别计算每个标题和各个篇章要点的相似度值，形成标题和篇章要点相关度矩阵F(A_i,Sen)；

通过分析题库中标题结构和语言特点，制定相应的结构体系，形成标题结构权值FT(A_i)；

根据相关度矩阵F(A_i,Sen)和标题结构权值FT(A_i)，将标题和篇章要点相关度矩阵F(A_i,Sen)与标题结构权值FT(A_i)融合，相关度矩阵F(A_i,Sen)和标题结构权值FT(A_i)，按照下面公式确定得到每个标题的得分：

其中，FW(A_i)表示标题A_i融合标题结构信息后的得分；

对标题得分进行排序，将得分最高的一个标题作为正确答案输出。

进一步地，所述的相关因素的段落主旨句抽取方法具体包括：对篇章中的同义及上下位概念进行归并，综合语句所在位置、语句中的标题、语句中所含重要词汇三种度量方式，综合评估句子反映主题的价值，抽取出段落的主旨句。由于篇章各段落涉及不同的要点内容，段落主旨句是段落的中心距或者主题句，具有概括段落的作用，是段落的中心所在，所以抽取段落主旨句作为篇章要点。

进一步地，所述的分析标题与篇章要点相关性，具体包括：

根据得到的篇章要点，利用预先训练好的Word2Vec词向量将篇章要点和选项分别表示为两个输入矩阵W_D、W_A，利用基于LSTM的标题与篇章要点的相关性计算方法，将W_D和W_A分别输入到LSTM模型中，得到篇章要点和选项的向量表示集合，使用向量余弦相似度分别计算每个选项和各个篇章要点的相似度值，最后形成选项和篇章要点相关度矩阵F(A_i,Sen)。

进一步地，通过分析统计文章标题结构和语言特点，对标题进行分类，通过统计各个类别所占比例，加入优化参数，形成标题结构权值，公式如下：

其中，FT(A_i)表示标题类别为i的权值，K_i表示标题类别为i所占的比例。

本发明阅读机器人的标题选择系统，包括：

篇章要点抽取单元，用于获取阅读理解篇章、题干、题干对应的选项，基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句，各段落的主旨句分别为一个篇章要点；

标题与篇章要点相关性分析单元，用于分析标题与篇章要点相关性，也即分别计算每个标题和各个篇章要点的相似度值，形成标题和篇章要点相关度矩阵F(A_i,Sen)；

标题结构分析单元，用于通过分析题库中标题结构和语言特点，制定相应的结构体系，形成标题结构权值FT(A_i)；

相关度矩阵和标题结构融合单元，用于根据相关度矩阵F(A_i,Sen)和标题结构权值FT(A_i)，将标题和篇章要点相关度矩阵F(A_i,Sen)与标题结构权值FT(A_i)融合，相关度矩阵F(A_i,Sen)和标题结构权值FT(A_i)，按照下面公式确定得到每个标题的得分：

其中，FW(A_i)表示标题A_i融合标题结构信息后的得分；

答案选取单元，用于对标题得分进行排序，将得分最高的一个标题作为正确答案输出。

进一步地，所述标题与篇章要点相关性分析单元包括：

矩阵生成模块，用于根据得到的篇章要点，利用预先训练好的Word2Vec词向量将篇章要点和选项分别表示为两个输入矩阵W_D、W_A；

分析模块，用于利用基于LSTM的标题与篇章要点的相关性计算方法，将W_D和W_A分别输入到LSTM模型中，得到篇章要点和选项的向量表示集合，使用向量余弦相似度分别计算每个选项和各个篇章要点的相似度值，最后形成选项和篇章要点相关度矩阵F(A_i,Sen)。

借由上述方案，本发明阅读机器人的标题选择方法及系统至少具有以下优点：

一、本发明提出了标题与篇章要点相关性分析方法，该方法从标题与篇章的相关性、标题结构鲜明两方面进行研究，智能地给出答案，更接近人类的推理思路，降低了推理成本。

二、本发明针对阅读机器人的标题选择问题，结合基于特征的方法和基于神经网络方法，构建了标题与篇章要点相关性分析方法。

三、本发明针对阅读机器人的标题选择问题，首次提出标题与篇章要点相关性分析方法，有效填补了中文阅读理解标题选择方面的空白。

四、本发明提出标题与篇章要点相关性分析方法，该方法从标题与篇章的相关性、标题结构鲜明两方面进行研究，有效的解决了阅读理解标题选择题目，对自然语言处理相关研究有启发效果。本发明方法思路结构清晰，效果明显，可扩展性强。

五、本发明首次提出将标题与篇章要点相关性分析方法应用到标题选择题型智能解答方面，有效填补了中文阅读理解标题选择题型智能解答方面的空白。

附图说明

下面结合附图对本发明做进一步详细的说明。

图1为本发明的系统流程图。

图2为本发明的关系构造单元具体流程图。

图3为本发明的阅读理解标题选择题解题示意图

图4为本发明的标题与篇章要点相关度矩阵实例示意图。

图5为本发明的标题与篇章要点相关性计算模型示意图。

图6为本发明的题型示例示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明，附图为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

本发明中的基于LSTM的标题与篇章要点的相关性计算方法是通过构建神经网络模型(LSTM)，在基于预先训练好的词向量表示基础上，利用深度神经网络模型学习标题和篇章要点的向量表示，然后用余弦相似度计算向量之间的相似度，得到选项和篇章要点相关度矩阵。

文本可以看作是一个序列问题，文章词与词之间、句子之间存在依赖关系，循环神经网络(RNN)可以解决序列之间的依赖问题。但是在RNN训练中经过多阶段传播后梯度会趋于消失或者爆炸，即使模型参数稳定，依然难以解决短期相互作用指数小的权重的问题。长短期记忆(long short-term memory，LSTM)作为RNN的变种之一，有效的解决了长距离依赖的问题。

LSTM模型分为输入层、bi-LSTM层和输出层三层。输入层是由篇章要点集合和选项集合组成的二元组，把篇章要点和选项用预先训练好的词向量分别表示为一个词向量矩阵W。LSTM层使用bi-LSTM获取选项和篇章要点的向量表示。bi-LSTM会提供给输入序列每一个节点过去和未来的上下文信息，相对于单向LSTM来说能提供更多的特征信息。输出层使用向量之间的余弦相似度计算两个向量的相似度。

本发明中的采用基于多因素的段落主旨句抽取方法，抽取段落主旨句作为篇章要点。由于篇章各段落涉及不同的要点内容，段落主旨句是段落的中心距或者主题句，具有概括段落的作用，是段落的中心所在，所以抽取段落主旨句作为篇章要点。

基于相关因素的段落主旨句抽取方法，首先对篇章中的同义及上下位概念进行归并，同时综合语句所在位置、语句中的标题、语句中所含重要词汇等多种度量方式，综合评估句子反映主题的价值，更精确地抽取出段落的主旨句。

实施例1

图2为本发明的关系构造单元具体流程图。图3为本发明的阅读理解标题选择题解题示意图。本实施例阅读机器人的标题选择方法，具体步骤如下：

101、获取阅读理解篇章、题干及其选项(如图6所示)。

102、基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句，获得篇章要点，该方法首先对篇章中的同义及上下位概念进行归并，同时综合语句所在位置、语句中的标题、语句中所含重要词汇等多种度量方式，综合评估句子反映主题的价值，从而更精确地抽取出段落的主旨句，得到篇章要点。

103、根据之前得到的篇章要点，采用预训练的Word2Vec词向量将已经获得的篇章要点和选项分别表示为两个输入矩阵W_D、W_A。

104、将已获取的篇章要点矩阵W_D、选项矩阵W_A分别输入LSTM模型(如图5所示)，输出篇章要点和选项的向量表示。公式如下：

其中，W表示输入矩阵，

分别表示正向和反向LSTM每个时刻的输出，h_t为bi-LSTM每个时刻的输出。

105、针对得到的篇章要点、选项向量，采用向量余弦相似度分别计算每个选项和各个篇章要点的相似度，形成选项与篇章要点的相似度矩阵(如图4所示，矩阵由选项与篇章要点相似度组成，行表示选项与各篇章要点相似度值，列表示篇章要点与各选项相似度值，颜色代表相似度大小，颜色越深代表值越大。根据相关度矩阵选取覆盖篇章要点信息最全面的一项作为最恰当的标题)。

106、通过分析统计题库中文章标题结构和语言特点，对标题进行分类，赋予标题结构权值。通过分析统计题库中文章标题结构和语言特点，标题可以分为六类。通过统计各个类别所占比例，加入优化参数，形成标题结构权值。公式如下：

107、将选项和篇章要点相关度矩阵与标题结构权值融合，进一步提升解题的准确率。根据之前得到的相关度矩阵F(A_i,Sen)和标题结构权值FT(A_i)，按照下面公式确定得到每个选项的得分：

其中，FW(A_i)表示标题A_i融合标题结构信息后的得分。

108、对选项得分进行排序，将得分最高的一个选项作为正确答案给出系统结果。

实施例2

本实施例阅读机器人的标题选择系统，包括：篇章要点抽取单元、标题与篇章要点相关性分析单元、标题结构分析单元、相关度矩阵和标题结构融合单元、答案选取单元五部分。

其中，FW(A_i)表示标题A_i融合标题结构信息后的得分；

本实施例中，所述标题与篇章要点相关性分析单元包括：

上面结合附图对本发明的实施例作了详细说明，但是本发明并不限于上述实施例，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种阅读机器人的标题选择方法，其特征在于，包括：

获取阅读理解篇章、题干、题干对应的候选标题，采用基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句，所述基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句具体包括：对篇章中的同义及上下位概念进行归并，综合语句所在位置、语句中的标题、语句中所含重要词汇三种度量方式，综合评估句子反映主题的价值，抽取出段落的主旨句，各段落的主旨句分别为一个篇章要点；

分析标题与篇章要点相关性，也即分别计算每个标题和各个篇章要点的相似度值，形成标题A_i和篇章要点Sen相关度矩阵F(A_i，Sen)；

根据相关度矩阵F(A_i，Sen)和标题结构权值FT(A_i)，将标题和篇章要点相关度矩阵F(A_i，Sen)与标题结构权值FT(A_i)融合，按照下面公式确定得到每个标题的得分：

其中，FW(A_i)表示标题A_i融合标题结构信息后的得分；

对标题得分进行排序，将得分最高的一个标题作为正确答案输出；

所述标题与篇章要点相关性，具体包括：

根据得到的篇章要点，利用预先训练好的Word2Vec词向量将篇章要点和标题分别表示为两个输入矩阵W_D、W_A，利用基于LSTM的标题与篇章要点的相关性计算方法，将W_D和W_A分别输入到LSTM模型中，得到篇章要点和标题的向量表示集合，使用向量余弦相似度分别计算每个标题和各个篇章要点的相似度值，最后形成标题和篇章要点相关度矩阵F(A_i，Sen)。

2.一种阅读机器人的标题选择系统，其特征在于，包括：

篇章要点抽取单元，用于获取阅读理解篇章、题干、题干对应的候选标题，采用基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句，所述基于相关因素的段落主旨句抽取方法抽取阅读理解篇章中各个段落的主旨句具体包括：对篇章中的同义及上下位概念进行归并，综合语句所在位置、语句中的标题、语句中所含重要词汇三种度量方式，综合评估句子反映主题的价值，抽取出段落的主旨句，各段落的主旨句分别为一个篇章要点；

标题与篇章要点相关性分析单元，用于分析标题与篇章要点相关性，也即分别计算每个标题和各个篇章要点的相似度值，形成标题A_i和篇章要点Sen相关度矩阵F(A_i，Sen)；

相关度矩阵和标题结构融合单元，用于根据相关度矩阵F(A_i，Sen)和标题结构权值FT(A_i)，将标题和篇章要点相关度矩阵F(A_i，Sen)与标题结构权值FT(A_i)融合，按照下面公式确定得到每个标题的得分：

其中，FW(A_i)表示标题A_i融合标题结构信息后的得分；

答案选取单元，用于对标题得分进行排序，将得分最高的一个标题作为正确答案输出；

所述标题与篇章要点相关性分析单元包括：

矩阵生成模块，用于根据得到的篇章要点，利用预先训练好的Word2Vec词向量将篇章要点和标题分别表示为两个输入矩阵W_D、W_A；

分析模块，用于利用基于LSTM的标题与篇章要点的相关性计算方法，将W_D和W_A分别输入到LSTM模型中，得到篇章要点和标题的向量表示集合，使用向量余弦相似度分别计算每个标题和各个篇章要点的相似度值，最后形成标题和篇章要点相关度矩阵F(A_i，Sen)。