CN113221577A

CN113221577A - 一种教育文本知识归纳方法、系统、设备及可读存储介质

Info

Publication number: CN113221577A
Application number: CN202110464651.6A
Authority: CN
Inventors: 魏笔凡; 卜德蕊; 刘均; 郑庆华; 张玲玲; 关海山; 郑玉龙; 赵瑞
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-06

Abstract

本发明公开了一种教育文本知识归纳方法、系统、设备及可读存储介质，通过从教育文本中拾取领域术语，然后爬取维基百科中对该术语的解释作为理解该术语所需的外部知识，并分别对教育文本和外部知识进行编码，生成语境向量辅助摘要生成过程，弥补了机器自动生成摘要时对背景知识的缺失，利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，并将二者融合参与解码过程。使用了双拷贝机制计算复制概率，从而实现从教育文本或外部知识中复制相关内容到摘要中，提高了模型捕捉细节的能力，同时缓解了未登录词或低频词带来的问题。

Description

一种教育文本知识归纳方法、系统、设备及可读存储介质

技术领域

本发明属于教语文本归纳领域，具体涉及一种教育文本知识归纳方法、系统、设备及可读存储介质。

背景技术

提问可以促发学习者思考、是一种强有力的教学手段。学习者通过寻找问题答案学习重点内容，缩短自身理解与学习材料之间的知识鸿沟；另一方面，学习者通过回答针对性的问题来巩固所学内容、评测学习效果。随着MOOC、SPOC(small private onlinecourse)等新在线学习模式的兴起，越来越多的学习者在网上学习，为海量的在线教育文本自动生成测验题是一项急需解决的任务。然而从教育文本到生成测验题，需要解决两个问题，首先是问什么，这一步需要从学习材料中识别出知识并抽象归纳形成提问对象，它的目的主要是为了确保提出的问题能够针对教育文本中有针对性的知识，从而实现帮助学生巩固重点内容的目的。第二个问题是怎么问，这一步主要是通过对学习材料重要内容的理解，生成有意义的深度问题。确定问什么是生成测验题的前提，所以教育文本中重点知识的抽取与归纳是提升测验题自动生成效果的关键。教育文本知识归纳旨在通过对教育文本的深度理解，自动生成关于知识的抽象摘要。

文本摘要技术是一项用于从海量数据中获取关键信息的技术，这些关键信息在数据量上相比原文更少，且表达方式较原文更精简。文本摘要技术可以按照生成方式分为抽取式文本摘要和生成式文本摘要。抽取式文本摘要通过句子打分策略为每个句子计算一个得分，选取得分较高的句子作为摘要，并且通过去除相似度较高的句子来降低冗余度。抽取式摘要虽然能够在一定程度上保留原文的显著信息，但由于抽取式摘要全部来源于对原文的抽取和重组，在精确性和语言组织上具有一定的缺陷。生成式摘要旨在理解原文的基础上用新的表达方式生成包含原文关键信息的摘要，摘要中的句子或短语可能是原文中未出现的。生成式摘要通过高级自然语言技术，生成与原文不同的表达，但通常会缺少一些关键信息的细节描述，降低了摘要的信息量。文本摘要技术能帮助人们快速捕捉关键信息，在很多领域都发挥着不可估量的作用。但通过调研发现，目前在教育领域还未见到关于文本摘要技术的研究工作，这极大的限制了海量在线教育文本发挥作用，无法满足在线学习者的学习需求。

CN201910400306.9-该发明公开了一种基于改进的选择机制和LSTM变体的文本摘要模型及自动文本摘要方法，该发明在基于注意力机制的编码器-解码器模型基础上，提出基于信息增益的选择机制和基于拷贝的LSTM变体。一方面，在编码器和解码器之间增加改进的选择机制，判断原文本中的关键信息，并将概要信息提炼出来，提高了自动文本摘要的概括能力；另一方面，以LSTM变体作为解码器端循环神经网络的循环单元，可以优化解码过程，提高解码效率，减少生成摘要中的重复问题从而提高生成摘要的可读性。该发明提供的文本摘要方法是一种通用的技术，并未针对教育文本的特征提出相对应的解决方案。而教育文本中通常包含较多的领域术语，这些术语需要相应的领域知识才能理解，在人工生成摘要的过程中，通常需要利用这些先验知识来辅助，才能更好的对原文进行总结和归纳，所以该发明并不能很好地实现对教育文本中重点知识归纳。

发明内容

本发明的目的在于提供一种教育文本知识归纳方法、系统、设备及可读存储介质，以克服现有技术的不足，本发明能够通过对教育文本的理解、归纳和抽象，自动生成关于重点知识的抽象摘要，可用于生成包含重点知识的提问对象，辅助测验题生成过程。

为达到上述目的，本发明采用如下技术方案：

一种教育文本知识归纳方法，包括以下步骤：

S1，从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表；

S2，爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识，构成外部知识库；

S3，将教育文本和外部知识库分别压缩成一个固定长度的语义向量，表示教育文本和外部知识库的语义信息；

S4，利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量，根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布，或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中，生成知识摘要序列，即可完成教语文本的知识归纳。

进一步的，通过开源实体链接工具Dexter拾取教育文本中的领域术语，并将拾取的领域术语与维基百科中的实体对齐，Dexter用于实体链接任务的开源框架。

进一步的，使用TF-IDF方法对拾取的领域术语进行重要性评估，重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算，根据重要性评估的得分对拾取的领域术语列表进行排序，取重要性评估得分高的前m个领域术语构成最终的术语列表。

进一步的，通过词嵌入将教育文本序列表示为

使用BiGRU编码器对教育文本序列

进行编码，得到编码后对应的隐状态序列

其中s为教育文本序列的长度。

进一步的，通过词嵌入将外部知识库序列表示为

使用BiGRU编码器对外部知识库序列

进行编码，得到编码后对应的隐状态序列

其中e为外部知识库序列的长度。

进一步的，利用双注意力机制计算当前t时刻解码状态s_t关于教育文本的语境向量

以及当前解码状态s_t关于外部知识库的语境向量

使用一个门网络融合语境向量

和语境向量

通过加权求和得到最终的语境向量

利用t时刻的解码状态s_t与融合后的语境向量

计算t时刻单词y_t基于词表的概率分布

进一步的，计算解码状态s_t关于教育文本的语境向量

和关于外部知识的语境向量

求得概率p_copy来决定当前是从教育文本或外部知识中复制还是从词表中生成下一个单词，如下所示：

复制概率分布P_copy(y_t|y_＜t,X^s,X^e)计算公式如下：

最终，生成下一个单词的概率分布如下：

P(y_t)＝(1-p_copy)p_vocab(y_t)+p_copyP_copy(y_t)

得到对应的知识摘要序列Y＝[y₁,...,y_t,...,y_n]。

一种教育文本知识归纳系统，包括外部知识获取模块、编码模块和解码模块；

外部知识获取模块用于从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表；爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识，构成外部知识库；

编码模块用于将教育文本和外部知识库分别压缩成一个固定长度的语义向量，表示教育文本和外部知识库的语义信息；

解码模块利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量，根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布，或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中，生成知识摘要序列，实现教育文本的知识归纳。

一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述教育文本知识归纳方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述教育文本知识归纳方法的步骤。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种教育文本知识归纳方法，通过从教育文本中拾取领域术语，然后爬取维基百科中对该术语的解释作为理解该术语所需的外部知识，并分别对教育文本和外部知识进行编码，生成语境向量辅助摘要生成过程，弥补了机器自动生成摘要时对背景知识的缺失，利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量，根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布，使用了双拷贝机制，根据教育文本语境向量和外部知识库语境向量计算复制概率，从而能够从教育文本或外部知识中复制相关内容到摘要中，提高了模型捕捉细节的能力，同时缓解了未登录词或低频词带来的问题。

进一步的，本发明通过融入外部知识的方法，爬取维基百科中关于领域术语的描述作为理解该术语所需的外部知识作为输入的一部分，补充了先验知识，提升了模型的理解能力。

进一步的，采用双注意力机制同时捕获来自教育文本和外部知识的重要信息，并通过门网络选择二者的重要性权值，在模型解码器部分，提出双拷贝机制，从教育文本及外部资源中复制相关内容到摘要中，提高模型捕捉细节的能力，同时解决了未登录或低频词的问题。

一种教育文本知识归纳系统，通过对教育文本的理解、归纳和抽象，自动生成关于知识的抽象摘要，提供有针对性且更精准的教育文本，从而实现更高效的知识教授与学习。

附图说明

图1为本发明实施例中教育文本知识归纳方法工作流程图。

图2为本发明实施例中教育文本知识归纳模型结构图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1、图2所示，一种教育文本知识归纳方法，包括以下步骤：

S1，从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表，本申请m取10；

具体的，通过开源实体链接工具Dexter拾取教育文本中的领域术语，并将拾取的领域术语与维基百科中的实体对齐；Dexter用于实体链接任务的开源框架，Dexter集成了实体链接任务的方法，并提供了API用于构建实体链接工具。

使用TF-IDF方法对拾取的领域术语进行重要性评估，重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算，根据重要性评估的得分对拾取的领域术语进行排序，取重要性评估得分高的前m个领域术语构成最终的术语列表。领域术语为特定专业领域中一般概念的词语指称；领域术语集中体现了该学科中最基础，也是最重要的知识；如生命科学课程中，细胞膜、细胞质、亲水性、疏水性为领域术语。

具体的，通过词嵌入分别将教育文本序列与外部知识库序列表示为

和

使用BiGRU编码器对教育文本序列

进行编码，得到编码后对应的隐状态序列

其中s为教育文本序列的长度；

使用BiGRU编码器对外部知识库序列

进行编码，得到编码后对应的隐状态序列

其中e为外部知识库序列的长度；

S4，利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量，将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量，根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布，或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中，生成知识摘要序列，即可完成教育文本的知识归纳。

具体的，利用双注意力机制计算当前t时刻解码状态s_t关于教育文本的语境向量

以及当前解码状态s_t关于外部知识库的语境向量

使用一个门网络融合

和

门网络包含一个全连接网络以及一个sigmoid激活函数，通过加权求和得到最终的语境向量

利用t时刻的解码状态s_t与融合后的语境向量

计算t时刻单词y_t基于词表的概率分布

为了捕捉更多关于知识的细节描述，使用拷贝机制从外部知识库或教育文本中选择与当前解码状态相关的词直接拷贝入摘要中；

拷贝机制考虑当前解码状态s_t关于教育文本的语境向量

和关于外部知识的语境向量

求得概率p_copy来决定当前是从教育文本或外部知识中复制还是从词表中生成下一个单词

具体的，利用当前解码状态s_t关于教育文本的注意力得分

与关于外部知识的注意力得分

计算复制概率分布

然后利用p_copy对P_vovab与P_copy进行加权求和，获得最终输出单词的概率分布。经过多次解码计算后，得到对应的知识摘要序列Y＝[y₁,...,y_t,...,y_n]。

本发明一个实施例中，提供了一种终端设备，该终端设备包括处理器以及存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器用于执行所述计算机存储介质存储的程序指令。处理器采用中央处理单元(CPU)，或者采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其适于实现一条或一条以上指令，具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能；本发明实施例所述的处理器可以用于教育文本知识归纳方法的操作。

一种教育文本知识归纳系统，能够用于实现上述实施例中的教育文本知识归纳方法，具体外部知识获取模块、编码模块和解码模块；

外部知识获取模块用于从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域属于中提取按重要度排序的前m个领域术语构成术语列表；爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识，构成外部知识库；

本发明再一个实施例中，本发明还提供了一种存储介质，具体采用计算机可读存储介质(Memory)，所述计算机可读存储介质是终端设备中的记忆设备，用于存放程序和数据。计算机可读存储介质包括终端设备中的内置存储介质，提供存储空间，存储了终端的操作系统，也可包括终端设备所支持的扩展存储介质。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(Non-volatile memory)，例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令，以实现上述实施例中有关教育文本知识归纳方法的相应步骤。

教育文本压缩过程：首先将输入的教育文本序列X＝[x₁,...,x_s]，通过词嵌入表示成为

然后利用BiGRU捕获不同词间的上下文信息对教育文本进行编码，得到对应的隐状态序列

s为教育文本序列的长度。其中每一个隐状态通过两个单向的GRU输出拼接而成，如下所示:

外部知识压缩编码过程：首先将输入的外部知识序列Z＝[z₁,...,z_e]，通过词嵌入表示成为

然后利用BiGRU捕获不同词间的上下文信息对外部知识进行编码，得到对应的隐状态序列

e为教育文本序列的长度。其中每一个隐状态通过两个单向的GRU输出拼接而成，如下所示:

基于双拷贝机制的解码过程：

使用双注意力机制，对于教育文本采用如下注意力机制计算当前解码状态关于教育文本的语境向量

其中

是可学习的参数。

对于外部知识库采用如下的注意力机制，计算当前解码状态关于外部知识的语境向量

为了融合

和

提出了一个门网络选择两者的重要性权值g_t，该网络包括一个全连接网络以及一个Sigmoid激活函数，然后通过加权求和得到最终的语境向量

如下所示：

其中第t步状态s_t是经过一个单向的GUR解码得到，将

和上一个输出单词y_t-1的词向量

拼接作为新的输入，如下所示：

在第t步解码状态时单词y_t基于词表的概率分布为：

为了捕捉更多的细节描述，提高摘要的精准性，同时为了解决未登录词问题，使用双拷贝机制从外部知识及教育文本中选择相关的词语。双拷贝机制考虑当前解码状态s_t关于教育文本的语境向量

和关于外部知识的语境向量

复制概率分布P_copy(y_t|y_＜t,X^s,X^e)计算公式如下：

最终，生成下一个单词的概率分布如下：

P(y_t)＝(1-p_copy)p_vocab(y_t)+p_copyP_copy(y_t)

最终得到对应的重点知识摘要序列Y＝[y₁,...,y_t,...,y_n]。

本发明采用深度学习技术，将自然语言处理领域的文本摘要方法应用于教育领域，用于生成针对教育文本的知识抽象摘要。该摘要可作为包含重点知识的提问对象，辅助测验题生成过程。也可为中小学老师或学生提供有针对性且更精准的教育文本，从而实现更高效的知识教授与学习。针对教育文本中领域术语分布频繁的特征，提出融入外部知识的方法。爬取维基百科中关于领域术语的描述作为理解该术语所需的外部知识作为输入的一部分，弥补了先验知识，提升了模型的理解能力。采用双注意力机制同时捕获来自教育文本和外部知识的重要信息，并通过门网络选择二者的重要性权值；在模型解码器部分，提出双拷贝机制，从教育文本及外部资源中复制相关内容到摘要中，提高模型捕捉细节的能力，同时解决了未登录或低频词的问题。

Claims

1.一种教育文本知识归纳方法，其特征在于，包括以下步骤：

S1，从教育文本中拾取领域术语，将拾取的领域术语与维基百科中的实体对齐，然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序前m个领域术语构成术语列表；

2.根据权利要求1所述的一种教育文本知识归纳方法，其特征在于，通过开源实体链接工具Dexter拾取教育文本中的领域术语，并将拾取的领域术语与维基百科中的实体对齐，Dexter用于实体链接任务的开源框架。

3.根据权利要求1所述的一种教育文本知识归纳方法，其特征在于，使用TF-IDF方法对拾取的领域术语进行重要性评估，重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算，根据重要性评估的得分对拾取的领域术语进行排序，取重要性评估得分高的前m个领域术语构成最终的术语列表。

4.根据权利要求1所述的一种教育文本知识归纳方法，其特征在于，通过词嵌入，将教育文本序列表示为