CN111309891B

CN111309891B - 一种阅读机器人进行自动问答的系统及其应用方法

Info

Publication number: CN111309891B
Application number: CN202010183798.3A
Authority: CN
Inventors: 杨陟卓; 李春转; 张虎; 钱揖丽; 李茹
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2022-05-31
Anticipated expiration: 2040-03-16
Also published as: CN111309891A

Abstract

本发明公开了阅读机器人进行自动问答的方法及系统，包括有题型分析模块、词语相似度匹配模块、段落主题句和作者观点句抽取模块以及答案句抽取模块，本发明首次提出根据概括性问答题特征，然后进行线性插值的方法来分析问题类型，有效地填补了仅根据问句分析问题类型的空白；本发明可以通过抽取段落主题句和作者观点句将一些与问句关键字和框架不匹配的答案候选句召回；本发明能够实现阅读理解中问答题目的智能解答，有效提高了自动问答的答题率；本发明提出的方法也可以应用在文本蕴含、自动文摘、以及复杂问题求解等自然语言处理任务中。

Description

一种阅读机器人进行自动问答的系统及其应用方法

技术领域

本发明涉及自然语言处理领域，尤其涉及阅读机器人进行自动问答的方法及系统。

背景技术

近年来问答技术研究受到了广泛的关注，目前发展比较成熟的问答系统有麻省理工大学人工智能实验室研发的Start、密歇根大学的AnswerBus、苹果公司研发的Siri和微软公司开发的Cotana。国内也推出一些以智能问答技术为核心的机器人，例如：微软的小冰、百度的小度等，但是基于阅读理解的问答研究还远远不足。

目前，主要有基于检索模型和基于深度学习两大研究方向。基于传统的统计特征的检索方法，主要借助WordNet、同义词词林等语义词典来获取与问句相似度较高的答案句，比如周艳平,李金鹏,蔡素.基于同义词词林的句子语义相似度方法及其在问答系统中的应用[J].计算机应用与软件,2019,36(8):65-68+81.提出一种基于同义词词林的句子语义相似度方法,通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。基于深度学习的方法，主要利用神经网络模型，对句子进行向量表示，比如DevlinJ,ChangMW,LeeK,etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[C]//Proceedingsofthe2019ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies,Volume1(LongandShortPapers).2019:4171-4186.该模型预先训练未标记文本的深层双向表示，只需一个额外的输出层，就可以对预先训练的BERT模型进行微调，以创建用于广泛任务(如问答和语言推理)的最新模型，而无需对特定任务的体系结构进行大量修改。

目前，基于检索模型和深度学习的方法在一般阅读理解问题上已经取得了很好的效果，但是在高考语文阅读理解题上的效果却不尽如人意，这是由于高考阅读理解问题更加复杂，需要对问题和背景材料进行深层次的语义理解和推理。此外基于深度学习的方法虽然可以自动学习特征，但是需要足够规模的数据进行训练。

发明内容

为解决现有技术的缺点和不足，提供阅读机器人进行自动问答的方法及系统，从而实现阅读理解中问答题目的智能解答，有效提高了自动问答的答题率。为实现本发明目的而提供的阅读机器人进行自动问答的方法及系统，包括有题型分析模块、词语相似度匹配模块、段落主题句和作者观点句抽取模块以及答案句抽取模块，所述题型分析模块，用于通过获取材料和问句信息，判别是否为概括型问答题；所述词语相似度匹配模块，用于获取材料各句子与问句的词语相似度匹配数；所述段落主题句和作者观点句抽取模块，用于通过识别段落主题句和作者观点句，生成与问句相关的内容要点以及作者的观点态度；所述答案句抽取模块，根据问答题类型采取不同策略抽取候选句，对候选句进行排序，最终选取排序靠前的候选句作为答案句，

应用所述一种阅读机器人进行自动问答的系统进行自动问答的系统的方法，包括有如下步骤：

第一步：获取阅读理解的背景材料与问句；

第二步：题型分析，包括有以下步骤：

S1：形式化处理，用于对问句和材料进行形式化处理；所述形式化处理，具体为：将背景材料按照所属材料、段落、句子进行形式化处理，即

其中d_i表示所属第i则材料，p_j表示所属第j段落，s_k表示所属第k句；对问句进行分词去停用词，得到问句关键词，即Q＝＜K₁,K₂,......,K_m＞，K_i表示第i个关键词；

S2：通过分析材料和问句信息，判别问题类型是否是概括型问答题，具体有如下几种方法：

方法一：通过问句类型，如果为抽象型问题，则符合概括型问答题的特征；

方法二：依据段落匹配数目：对问句与背景材料句子进行匹配，统计每段的匹配情况，如果匹配的段落数目超过预定的阈值，则符合概括型问答题的特征；

方法三：通过问句出处段句子数目：根据关键字匹配定位问句出处段，并统计该段的句子数目，如果超过预定的阈值，则符合概括型问答题的特征；

方法四：根据背景材料的段落和句子数目：若段落数或者句子数超过预定的阈值，则符合概括型问答题的特征；

方法五：将各个特征通过线性插值的方法进行计算，超过预定阈值，判断为概括型问答题，否则为其他类型问答题；

第三步：根据问题类型采取不同策略抽取候选句，具体为：如果该问答题是概括型问答题，利用词语相似度匹配、段落主题句和作者观点句的方法对材料中各句子进行加权计算，计算公式为：

S＝λ1*Score_sumWord+λ2*Score_topic+λ3*Score_opinion

其中，λk为第k个维度的权重，k∈[1,K]，且0≤λk≤1，

否则，利用词语相似度匹配的方法进行计算，其计算公式为：

然后根据各候选句的得分高低进行排序，最终选取排序的前六句作为答案句；

第四步：候选句排序，根据各候选句的得分高低进行排序；

第五步：输出排序的前六句作为答案句。

作为上述方案的进一步改进，所述词语相似度匹配具体为：对问句以及材料各句子S_i进行关键词提取，然后融合Hownet和word2vec词向量，计算问句与材料各句子的词汇相似度Score_sumWord。

作为上述方案的进一步改进，所述段落主题句和作者观点句的方法分别通过段落主题句抽取模块、作者观点句抽取模块实现，其中，段落主题句抽取模块，用于综合位置信息和句间语义相似性抽取段落主题句；作者观点句抽取模块，用于综合位置信息、句间语义相似性和基于提示性词的启发式规则抽取作者的观点态度句。

作为上述方案的进一步改进，所述段落主题句抽取模块需要综合位置信息和基于段落的句间语义相似性来获取，段落主题句是对段落内容的概括总结，是反映段落主旨的句子，分布在段落的开头或者结尾，

根据句子的位置信息对段落中的各句子计算公式为：

其中，i为句子编号，n为每段的总句数，

对于不同段落，材料的首段和尾段可以反映材料的主题，根据段落的位置对各段落的主题句的计算公式为：

其中，m为材料的总段落数，

基于段落的句间语义相似性：句子A的关键词为A_i，共p个，句子B的关键词为B_j，共q个，在计算句间相似度时，采用Hownet分别计算句子相似度，A_i，B_j这两个词基于Hownet的相似度为S(A_i,B_j)，a_i＝max{S(A_i,B₁),S(A_i,B₂),…,S(A_i,B_q)}，b_j＝max{S(B_j,A₁),S(B_j,A₂),…,S(B_j,A_p)}，则基于Hownet的句子A、句子B的相似度为：

则基于段落的句子A语义相似性为：

其中，n为每段的总句数，

最终对上述两种因素进行加权，得到各个句子段落主题句计算公式:

Score_topic＝α*score_loc+(1-α)*score_sim

其中，α表示段落主题句的权重。

作为上述方案的进一步改进，所述作者观点句表明作者在文中的观点态度，是对材料内容的总体把握，是整个篇章的主题，需要综合位置信息和基于段落的句间语义相似性和基于提示性词的启发式规则来获取：

位置信息：作者的观点分布在材料的尾段，同时根据尾段中句子的不同位置进行计算，记为score_i；

句间语义相似性：为了避免只根据位置信息带来的主观性，在抽取尾段作者观点句时，进行句间语义相似度计算；

基于提示性词的启发式规则：根据句子是否包含提示性词抽取候选句，若包含score_Word＝1,否则score_Word＝0，

最后对上述三种因素进行加权，得到作者观点句计算公式：

Score_opinion＝β1*score_i+β2*score_sim+β3*score_Word

其中，β1+β2+β3＝1。

本发明的有益效果是：

与现有技术相比，本发明首次提出根据概括性问答题特征，然后进行线性插值的方法来分析问题类型，有效地填补了仅根据问句分析问题类型的空白；

本发明可以通过抽取段落主题句和作者观点句将一些与问句关键字和框架不匹配的答案候选句召回；

本发明能够实现阅读理解中问答题目的智能解答，有效提高了自动问答的答题率；

本发明提出的方法也可以应用在文本蕴含、自动文摘、以及复杂问题求解等自然语言处理任务中。

附图说明

以下结合附图对本发明的具体实施方式作进一步的详细说明，其中：

图1是本发明阅读机器人进行自动问答的系统流程图；

图2是是本发明阅读机器人进行自动问答方法的具体流程图；

图3是本发明中题型分析模块的具体流程图；

图4是本发明中词语相似度匹配模块的具体流程图；

图5是本发明中答案句抽取模块的具体流程图。

具体实施方式

如图1-图5所示，本发明提供的阅读机器人进行自动问答的方法及系统，一种阅读机器人进行自动问答的系统，包括有题型分析模块、词语相似度匹配模块、段落主题句和作者观点句抽取模块以及答案句抽取模块，所述题型分析模块，用于通过获取材料和问句信息，判别是否为概括型问答题；所述词语相似度匹配模块，用于获取材料各句子与问句的词语相似度匹配数；所述段落主题句和作者观点句抽取模块，用于通过识别段落主题句和作者观点句，生成与问句相关的内容要点以及作者的观点态度；所述答案句抽取模块，根据问答题类型采取不同策略抽取候选句，对候选句进行排序，最终选取排序靠前的候选句作为答案句，

第一步：获取阅读理解的背景材料与问句；

第二步：题型分析，包括有以下步骤：

S＝λ1*Score_sumWord+λ2*Score_topic+λ3*Score_opinion

其中，λk为第k个维度的权重，k∈[1,K]，且0≤λk≤1，

第四步：候选句排序，根据各候选句的得分高低进行排序；

第五步：输出排序的前六句作为答案句。

根据句子的位置信息对段落中的各句子计算公式为：

其中，i为句子编号，n为每段的总句数，

其中，m为材料的总段落数，

则基于段落的句子A语义相似性为：

其中，n为每段的总句数，

Score_topic＝α*score_loc+(1-α)*score_sim

其中，α表示段落主题句的权重。

基于提示性词的启发式规则：根据句子是否包含提示性词抽取候选句，若包含score_Word＝1,否则score_Word＝0，提示性词示例如表1所示。

看来	由此可见	由此看来	可见	无论如何	不管怎样
						综上	由上述可知	如上	总的来看	总的来说	总的说来
总之	总而言之	总体而言	首先	其次	表明
						所以

表1提示性词示例

最后对上述三种因素进行加权，得到作者观点句计算公式：

Score_opinion＝β1*score_i+β2*score_sim+β3*score_Word

其中，β1+β2+β3＝1。

以上实施例不局限于该实施例自身的技术方案，实施例之间可以相互结合成新的实施例。以上实施例仅用以说明本发明的技术方案而并非对其进行限制，凡未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明技术方案的范围内。

Claims

1.一种阅读机器人进行自动问答的系统，其特征在于：包括有题型分析模块、词语相似度匹配模块、段落主题句和作者观点句抽取模块以及答案句抽取模块，所述题型分析模块，用于通过获取材料和问句信息，判别是否为概括型问答题；所述词语相似度匹配模块，用于获取材料各句子与问句的词语相似度匹配数；所述段落主题句和作者观点句抽取模块，用于通过识别段落主题句和作者观点句，生成与问句相关的内容要点以及作者的观点态度；所述答案句抽取模块，根据问答题类型采取不同策略抽取候选句，对候选句进行排序，最终选取排序靠前的候选句作为答案句，

第一步：获取阅读理解的背景材料与问句；

第二步：题型分析，包括有以下步骤：

S＝λ1*Score_sumWord+λ2*Score_topic+λ3*Score_opinion

其中，λk为第k个维度的权重，k∈[1,K]，且0≤λk≤1，

第四步：候选句排序，根据各候选句的得分高低进行排序；

第五步：输出排序的前六句作为答案句。

2.一种应用权利要求1所述的阅读机器人进行自动问答的系统的方法，其特征在于：所述词语相似度匹配具体为：对问句以及材料各句子S_i进行关键词提取，然后融合Hownet和word2vec词向量，计算问句与材料各句子的词汇相似度Score_sumWord。

3.一种应用权利要求2所述的阅读机器人进行自动问答的系统的方法，其特征在于：所述段落主题句和作者观点句的方法分别通过段落主题句抽取模块、作者观点句抽取模块实现，其中，段落主题句抽取模块，用于综合位置信息和句间语义相似性抽取段落主题句；作者观点句抽取模块，用于综合位置信息、句间语义相似性和基于提示性词的启发式规则抽取作者的观点态度句。

4.一种应用权利要求3所述的阅读机器人进行自动问答的系统的方法，其特征在于：所述段落主题句抽取模块需要综合位置信息和基于段落的句间语义相似性来获取，段落主题句是对段落内容的概括总结，是反映段落主旨的句子，分布在段落的开头或者结尾，

根据句子的位置信息对段落中的各句子计算公式为：

其中，i为句子编号，n为每段的总句数，

其中，m为材料的总段落数，

则基于段落的句子A语义相似性为：

其中，n为每段的总句数，

Score_topic＝α*score_loc+(1-α)*score_sim

其中，α表示段落主题句的权重。

5.一种应用权利要求4所述的阅读机器人进行自动问答的系统的方法，其特征在于：所述作者观点句表明作者在文中的观点态度，是对材料内容的总体把握，是整个篇章的主题，需要综合位置信息和基于段落的句间语义相似性和基于提示性词的启发式规则来获取：

最后对上述三种因素进行加权，得到作者观点句计算公式：

Score_opinion＝β1*score_i+β2*score_sim+β3*score_Word

其中，β1+β2+β3＝1。