CN113221577A - 一种教育文本知识归纳方法、系统、设备及可读存储介质 - Google Patents

一种教育文本知识归纳方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN113221577A
CN113221577A CN202110464651.6A CN202110464651A CN113221577A CN 113221577 A CN113221577 A CN 113221577A CN 202110464651 A CN202110464651 A CN 202110464651A CN 113221577 A CN113221577 A CN 113221577A
Authority
CN
China
Prior art keywords
text
education
external knowledge
knowledge base
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110464651.6A
Other languages
English (en)
Inventor
魏笔凡
卜德蕊
刘均
郑庆华
张玲玲
关海山
郑玉龙
赵瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110464651.6A priority Critical patent/CN113221577A/zh
Publication of CN113221577A publication Critical patent/CN113221577A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种教育文本知识归纳方法、系统、设备及可读存储介质,通过从教育文本中拾取领域术语,然后爬取维基百科中对该术语的解释作为理解该术语所需的外部知识,并分别对教育文本和外部知识进行编码,生成语境向量辅助摘要生成过程,弥补了机器自动生成摘要时对背景知识的缺失,利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,并将二者融合参与解码过程。使用了双拷贝机制计算复制概率,从而实现从教育文本或外部知识中复制相关内容到摘要中,提高了模型捕捉细节的能力,同时缓解了未登录词或低频词带来的问题。

Description

一种教育文本知识归纳方法、系统、设备及可读存储介质
技术领域
本发明属于教语文本归纳领域,具体涉及一种教育文本知识归纳方法、系统、设备及可读存储介质。
背景技术
提问可以促发学习者思考、是一种强有力的教学手段。学习者通过寻找问题答案学习重点内容,缩短自身理解与学习材料之间的知识鸿沟;另一方面,学习者通过回答针对性的问题来巩固所学内容、评测学习效果。随着MOOC、SPOC(small private onlinecourse)等新在线学习模式的兴起,越来越多的学习者在网上学习,为海量的在线教育文本自动生成测验题是一项急需解决的任务。然而从教育文本到生成测验题,需要解决两个问题,首先是问什么,这一步需要从学习材料中识别出知识并抽象归纳形成提问对象,它的目的主要是为了确保提出的问题能够针对教育文本中有针对性的知识,从而实现帮助学生巩固重点内容的目的。第二个问题是怎么问,这一步主要是通过对学习材料重要内容的理解,生成有意义的深度问题。确定问什么是生成测验题的前提,所以教育文本中重点知识的抽取与归纳是提升测验题自动生成效果的关键。教育文本知识归纳旨在通过对教育文本的深度理解,自动生成关于知识的抽象摘要。
文本摘要技术是一项用于从海量数据中获取关键信息的技术,这些关键信息在数据量上相比原文更少,且表达方式较原文更精简。文本摘要技术可以按照生成方式分为抽取式文本摘要和生成式文本摘要。抽取式文本摘要通过句子打分策略为每个句子计算一个得分,选取得分较高的句子作为摘要,并且通过去除相似度较高的句子来降低冗余度。抽取式摘要虽然能够在一定程度上保留原文的显著信息,但由于抽取式摘要全部来源于对原文的抽取和重组,在精确性和语言组织上具有一定的缺陷。生成式摘要旨在理解原文的基础上用新的表达方式生成包含原文关键信息的摘要,摘要中的句子或短语可能是原文中未出现的。生成式摘要通过高级自然语言技术,生成与原文不同的表达,但通常会缺少一些关键信息的细节描述,降低了摘要的信息量。文本摘要技术能帮助人们快速捕捉关键信息,在很多领域都发挥着不可估量的作用。但通过调研发现,目前在教育领域还未见到关于文本摘要技术的研究工作,这极大的限制了海量在线教育文本发挥作用,无法满足在线学习者的学习需求。
CN201910400306.9-该发明公开了一种基于改进的选择机制和LSTM变体的文本摘要模型及自动文本摘要方法,该发明在基于注意力机制的编码器-解码器模型基础上,提出基于信息增益的选择机制和基于拷贝的LSTM变体。一方面,在编码器和解码器之间增加改进的选择机制,判断原文本中的关键信息,并将概要信息提炼出来,提高了自动文本摘要的概括能力;另一方面,以LSTM变体作为解码器端循环神经网络的循环单元,可以优化解码过程,提高解码效率,减少生成摘要中的重复问题从而提高生成摘要的可读性。该发明提供的文本摘要方法是一种通用的技术,并未针对教育文本的特征提出相对应的解决方案。而教育文本中通常包含较多的领域术语,这些术语需要相应的领域知识才能理解,在人工生成摘要的过程中,通常需要利用这些先验知识来辅助,才能更好的对原文进行总结和归纳,所以该发明并不能很好地实现对教育文本中重点知识归纳。
发明内容
本发明的目的在于提供一种教育文本知识归纳方法、系统、设备及可读存储介质,以克服现有技术的不足,本发明能够通过对教育文本的理解、归纳和抽象,自动生成关于重点知识的抽象摘要,可用于生成包含重点知识的提问对象,辅助测验题生成过程。
为达到上述目的,本发明采用如下技术方案:
一种教育文本知识归纳方法,包括以下步骤:
S1,从教育文本中拾取领域术语,将拾取的领域术语与维基百科中的实体对齐,然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表;
S2,爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识,构成外部知识库;
S3,将教育文本和外部知识库分别压缩成一个固定长度的语义向量,表示教育文本和外部知识库的语义信息;
S4,利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量,根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布,或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中,生成知识摘要序列,即可完成教语文本的知识归纳。
进一步的,通过开源实体链接工具Dexter拾取教育文本中的领域术语,并将拾取的领域术语与维基百科中的实体对齐,Dexter用于实体链接任务的开源框架。
进一步的,使用TF-IDF方法对拾取的领域术语进行重要性评估,重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算,根据重要性评估的得分对拾取的领域术语列表进行排序,取重要性评估得分高的前m个领域术语构成最终的术语列表。
进一步的,通过词嵌入将教育文本序列表示为
Figure BDA0003043231620000041
使用BiGRU编码器对教育文本序列
Figure BDA0003043231620000042
进行编码,得到编码后对应的隐状态序列
Figure BDA0003043231620000043
其中s为教育文本序列的长度。
进一步的,通过词嵌入将外部知识库序列表示为
Figure BDA0003043231620000044
使用BiGRU编码器对外部知识库序列
Figure BDA0003043231620000045
进行编码,得到编码后对应的隐状态序列
Figure BDA0003043231620000046
其中e为外部知识库序列的长度。
进一步的,利用双注意力机制计算当前t时刻解码状态st关于教育文本的语境向量
Figure BDA0003043231620000047
以及当前解码状态st关于外部知识库的语境向量
Figure BDA0003043231620000048
使用一个门网络融合语境向量
Figure BDA0003043231620000049
和语境向量
Figure BDA00030432316200000410
通过加权求和得到最终的语境向量
Figure BDA00030432316200000411
利用t时刻的解码状态st与融合后的语境向量
Figure BDA00030432316200000412
计算t时刻单词yt基于词表的概率分布
Figure BDA00030432316200000413
进一步的,计算解码状态st关于教育文本的语境向量
Figure BDA00030432316200000414
和关于外部知识的语境向量
Figure BDA00030432316200000415
求得概率pcopy来决定当前是从教育文本或外部知识中复制还是从词表中生成下一个单词,如下所示:
Figure BDA00030432316200000416
复制概率分布Pcopy(yt|y<t,Xs,Xe)计算公式如下:
Figure BDA00030432316200000417
最终,生成下一个单词的概率分布如下:
P(yt)=(1-pcopy)pvocab(yt)+pcopyPcopy(yt)
得到对应的知识摘要序列Y=[y1,...,yt,...,yn]。
一种教育文本知识归纳系统,包括外部知识获取模块、编码模块和解码模块;
外部知识获取模块用于从教育文本中拾取领域术语,将拾取的领域术语与维基百科中的实体对齐,然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表;爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识,构成外部知识库;
编码模块用于将教育文本和外部知识库分别压缩成一个固定长度的语义向量,表示教育文本和外部知识库的语义信息;
解码模块利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量,根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布,或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中,生成知识摘要序列,实现教育文本的知识归纳。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述教育文本知识归纳方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述教育文本知识归纳方法的步骤。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种教育文本知识归纳方法,通过从教育文本中拾取领域术语,然后爬取维基百科中对该术语的解释作为理解该术语所需的外部知识,并分别对教育文本和外部知识进行编码,生成语境向量辅助摘要生成过程,弥补了机器自动生成摘要时对背景知识的缺失,利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量,根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布,使用了双拷贝机制,根据教育文本语境向量和外部知识库语境向量计算复制概率,从而能够从教育文本或外部知识中复制相关内容到摘要中,提高了模型捕捉细节的能力,同时缓解了未登录词或低频词带来的问题。
进一步的,本发明通过融入外部知识的方法,爬取维基百科中关于领域术语的描述作为理解该术语所需的外部知识作为输入的一部分,补充了先验知识,提升了模型的理解能力。
进一步的,采用双注意力机制同时捕获来自教育文本和外部知识的重要信息,并通过门网络选择二者的重要性权值,在模型解码器部分,提出双拷贝机制,从教育文本及外部资源中复制相关内容到摘要中,提高模型捕捉细节的能力,同时解决了未登录或低频词的问题。
一种教育文本知识归纳系统,通过对教育文本的理解、归纳和抽象,自动生成关于知识的抽象摘要,提供有针对性且更精准的教育文本,从而实现更高效的知识教授与学习。
附图说明
图1为本发明实施例中教育文本知识归纳方法工作流程图。
图2为本发明实施例中教育文本知识归纳模型结构图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
如图1、图2所示,一种教育文本知识归纳方法,包括以下步骤:
S1,从教育文本中拾取领域术语,将拾取的领域术语与维基百科中的实体对齐,然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表,本申请m取10;
具体的,通过开源实体链接工具Dexter拾取教育文本中的领域术语,并将拾取的领域术语与维基百科中的实体对齐;Dexter用于实体链接任务的开源框架,Dexter集成了实体链接任务的方法,并提供了API用于构建实体链接工具。
使用TF-IDF方法对拾取的领域术语进行重要性评估,重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算,根据重要性评估的得分对拾取的领域术语进行排序,取重要性评估得分高的前m个领域术语构成最终的术语列表。领域术语为特定专业领域中一般概念的词语指称;领域术语集中体现了该学科中最基础,也是最重要的知识;如生命科学课程中,细胞膜、细胞质、亲水性、疏水性为领域术语。
S2,爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识,构成外部知识库;
S3,将教育文本和外部知识库分别压缩成一个固定长度的语义向量,表示教育文本和外部知识库的语义信息;
具体的,通过词嵌入分别将教育文本序列与外部知识库序列表示为
Figure BDA0003043231620000071
Figure BDA0003043231620000072
使用BiGRU编码器对教育文本序列
Figure BDA0003043231620000073
进行编码,得到编码后对应的隐状态序列
Figure BDA0003043231620000081
其中s为教育文本序列的长度;
使用BiGRU编码器对外部知识库序列
Figure BDA0003043231620000082
进行编码,得到编码后对应的隐状态序列
Figure BDA0003043231620000083
其中e为外部知识库序列的长度;
S4,利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量,根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布,或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中,生成知识摘要序列,即可完成教育文本的知识归纳。
具体的,利用双注意力机制计算当前t时刻解码状态st关于教育文本的语境向量
Figure BDA0003043231620000084
以及当前解码状态st关于外部知识库的语境向量
Figure BDA0003043231620000085
使用一个门网络融合
Figure BDA0003043231620000086
Figure BDA0003043231620000087
门网络包含一个全连接网络以及一个sigmoid激活函数,通过加权求和得到最终的语境向量
Figure BDA0003043231620000088
利用t时刻的解码状态st与融合后的语境向量
Figure BDA0003043231620000089
计算t时刻单词yt基于词表的概率分布
Figure BDA00030432316200000810
为了捕捉更多关于知识的细节描述,使用拷贝机制从外部知识库或教育文本中选择与当前解码状态相关的词直接拷贝入摘要中;
拷贝机制考虑当前解码状态st关于教育文本的语境向量
Figure BDA00030432316200000811
和关于外部知识的语境向量
Figure BDA00030432316200000812
求得概率pcopy来决定当前是从教育文本或外部知识中复制还是从词表中生成下一个单词
Figure BDA00030432316200000813
具体的,利用当前解码状态st关于教育文本的注意力得分
Figure BDA00030432316200000814
与关于外部知识的注意力得分
Figure BDA00030432316200000815
计算复制概率分布
Figure BDA00030432316200000816
然后利用pcopy对Pvovab与Pcopy进行加权求和,获得最终输出单词的概率分布。经过多次解码计算后,得到对应的知识摘要序列Y=[y1,...,yt,...,yn]。
本发明一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器采用中央处理单元(CPU),或者采用其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于教育文本知识归纳方法的操作。
一种教育文本知识归纳系统,能够用于实现上述实施例中的教育文本知识归纳方法,具体外部知识获取模块、编码模块和解码模块;
外部知识获取模块用于从教育文本中拾取领域术语,将拾取的领域术语与维基百科中的实体对齐,然后采用TF-IDF方法从拾取的领域属于中提取按重要度排序的前m个领域术语构成术语列表;爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识,构成外部知识库;
编码模块用于将教育文本和外部知识库分别压缩成一个固定长度的语义向量,表示教育文本和外部知识库的语义信息;
解码模块利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量,根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布,或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中,生成知识摘要序列,实现教育文本的知识归纳。
本发明再一个实施例中,本发明还提供了一种存储介质,具体采用计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。计算机可读存储介质包括终端设备中的内置存储介质,提供存储空间,存储了终端的操作系统,也可包括终端设备所支持的扩展存储介质。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(Non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关教育文本知识归纳方法的相应步骤。
教育文本压缩过程:首先将输入的教育文本序列X=[x1,...,xs],通过词嵌入表示成为
Figure BDA0003043231620000101
然后利用BiGRU捕获不同词间的上下文信息对教育文本进行编码,得到对应的隐状态序列
Figure BDA0003043231620000102
s为教育文本序列的长度。其中每一个隐状态通过两个单向的GRU输出拼接而成,如下所示:
Figure BDA0003043231620000103
Figure BDA0003043231620000104
Figure BDA0003043231620000105
外部知识压缩编码过程:首先将输入的外部知识序列Z=[z1,...,ze],通过词嵌入表示成为
Figure BDA0003043231620000106
然后利用BiGRU捕获不同词间的上下文信息对外部知识进行编码,得到对应的隐状态序列
Figure BDA0003043231620000107
e为教育文本序列的长度。其中每一个隐状态通过两个单向的GRU输出拼接而成,如下所示:
Figure BDA0003043231620000111
Figure BDA0003043231620000112
Figure BDA0003043231620000113
基于双拷贝机制的解码过程:
使用双注意力机制,对于教育文本采用如下注意力机制计算当前解码状态关于教育文本的语境向量
Figure BDA0003043231620000114
Figure BDA0003043231620000115
Figure BDA0003043231620000116
Figure BDA0003043231620000117
其中
Figure BDA0003043231620000118
是可学习的参数。
对于外部知识库采用如下的注意力机制,计算当前解码状态关于外部知识的语境向量
Figure BDA0003043231620000119
Figure BDA00030432316200001110
Figure BDA00030432316200001111
Figure BDA00030432316200001112
为了融合
Figure BDA00030432316200001113
Figure BDA00030432316200001114
提出了一个门网络选择两者的重要性权值gt,该网络包括一个全连接网络以及一个Sigmoid激活函数,然后通过加权求和得到最终的语境向量
Figure BDA00030432316200001115
如下所示:
Figure BDA00030432316200001116
Figure BDA00030432316200001117
其中第t步状态st是经过一个单向的GUR解码得到,将
Figure BDA00030432316200001118
和上一个输出单词yt-1的词向量
Figure BDA0003043231620000121
拼接作为新的输入,如下所示:
Figure BDA0003043231620000122
在第t步解码状态时单词yt基于词表的概率分布为:
Figure BDA0003043231620000123
为了捕捉更多的细节描述,提高摘要的精准性,同时为了解决未登录词问题,使用双拷贝机制从外部知识及教育文本中选择相关的词语。双拷贝机制考虑当前解码状态st关于教育文本的语境向量
Figure BDA0003043231620000124
和关于外部知识的语境向量
Figure BDA0003043231620000125
求得概率pcopy来决定当前是从教育文本或外部知识中复制还是从词表中生成下一个单词,如下所示:
Figure BDA0003043231620000126
复制概率分布Pcopy(yt|y<t,Xs,Xe)计算公式如下:
Figure BDA0003043231620000127
最终,生成下一个单词的概率分布如下:
P(yt)=(1-pcopy)pvocab(yt)+pcopyPcopy(yt)
最终得到对应的重点知识摘要序列Y=[y1,...,yt,...,yn]。
本发明采用深度学习技术,将自然语言处理领域的文本摘要方法应用于教育领域,用于生成针对教育文本的知识抽象摘要。该摘要可作为包含重点知识的提问对象,辅助测验题生成过程。也可为中小学老师或学生提供有针对性且更精准的教育文本,从而实现更高效的知识教授与学习。针对教育文本中领域术语分布频繁的特征,提出融入外部知识的方法。爬取维基百科中关于领域术语的描述作为理解该术语所需的外部知识作为输入的一部分,弥补了先验知识,提升了模型的理解能力。采用双注意力机制同时捕获来自教育文本和外部知识的重要信息,并通过门网络选择二者的重要性权值;在模型解码器部分,提出双拷贝机制,从教育文本及外部资源中复制相关内容到摘要中,提高模型捕捉细节的能力,同时解决了未登录或低频词的问题。

Claims (10)

1.一种教育文本知识归纳方法,其特征在于,包括以下步骤:
S1,从教育文本中拾取领域术语,将拾取的领域术语与维基百科中的实体对齐,然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序前m个领域术语构成术语列表;
S2,爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识,构成外部知识库;
S3,将教育文本和外部知识库分别压缩成一个固定长度的语义向量,表示教育文本和外部知识库的语义信息;
S4,利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量,根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布,或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中,生成知识摘要序列,即可完成教育文本的知识归纳。
2.根据权利要求1所述的一种教育文本知识归纳方法,其特征在于,通过开源实体链接工具Dexter拾取教育文本中的领域术语,并将拾取的领域术语与维基百科中的实体对齐,Dexter用于实体链接任务的开源框架。
3.根据权利要求1所述的一种教育文本知识归纳方法,其特征在于,使用TF-IDF方法对拾取的领域术语进行重要性评估,重要性评估指根据领域术语在教育文本中出现的次数以及在该教育文本所属教育文本集中出现的频率进行重要性得分计算,根据重要性评估的得分对拾取的领域术语进行排序,取重要性评估得分高的前m个领域术语构成最终的术语列表。
4.根据权利要求1所述的一种教育文本知识归纳方法,其特征在于,通过词嵌入,将教育文本序列表示为
Figure FDA0003043231610000021
使用BiGRU编码器对教育文本序列
Figure FDA0003043231610000022
进行编码,得到编码后对应的隐状态序列
Figure FDA0003043231610000023
其中s为教育文本序列的长度。
5.根据权利要求4所述的一种教育文本知识归纳方法,其特征在于,通过词嵌入,将外部知识库序列表示为
Figure FDA0003043231610000024
使用BiGRU编码器对外部知识库序列
Figure FDA0003043231610000025
进行编码,得到编码后对应的隐状态序列
Figure FDA0003043231610000026
其中e为外部知识库序列的长度。
6.根据权利要求5所述的一种教育文本知识归纳方法,其特征在于,利用双注意力机制计算当前t时刻解码状态st关于教育文本的语境向量
Figure FDA0003043231610000027
以及当前解码状态st关于外部知识库的语境向量
Figure FDA0003043231610000028
使用一个门网络融合语境向量
Figure FDA0003043231610000029
和语境向量
Figure FDA00030432316100000210
通过加权求和得到最终的语境向量
Figure FDA00030432316100000211
利用t时刻的解码状态st与融合后的语境向量
Figure FDA00030432316100000212
计算t时刻,单词yt基于词表的概率分布
Figure FDA00030432316100000213
7.根据权利要求6所述的一种教育文本知识归纳方法,其特征在于,计算解码状态st关于教育文本的语境向量
Figure FDA00030432316100000214
和关于外部知识的语境向量
Figure FDA00030432316100000215
求得概率pcopy来决定当前是从教育文本或外部知识中复制还是从词表中生成下一个单词,如下所示:
Figure FDA00030432316100000216
复制概率分布Pcopy(yt|y<t,Xs,Xe)计算公式如下:
Figure FDA00030432316100000217
最终,生成下一个单词的概率分布如下:
P(yt)=(1-pcopy)pvocab(yt)+pcopyPcopy(yt)
得到对应的知识摘要序列Y=[y1,...,yt,...,yn]。
8.一种教育文本知识归纳系统,其特征在于,包括外部知识获取模块、编码模块和解码模块;
外部知识获取模块用于从教育文本中拾取领域术语,将拾取的领域术语与维基百科中的实体对齐,然后采用TF-IDF方法从拾取的领域术语中提取按重要度排序的前m个领域术语构成术语列表;爬取维基百科中对术语列表中各术语的描述作为理解该领域术语所需的领域知识,构成外部知识库;
编码模块用于将教育文本和外部知识库分别压缩成一个固定长度的语义向量,表示教育文本和外部知识库的语义信息;
解码模块利用双注意力机制计算当前时刻解码状态关于教育文本的语境向量和外部知识库的语境向量,将教育文本的语境向量和外部知识库的语境向量进行加权求和得到最终的语境向量,根据当前时刻解码状态与最终的语境向量计算当前时刻单词基于词表的概率分布,或从外部知识库与教育文本中选择与当前解码状态相关的词直接拷贝入摘要中,生成知识摘要序列,实现教育文本的知识归纳。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202110464651.6A 2021-04-28 2021-04-28 一种教育文本知识归纳方法、系统、设备及可读存储介质 Pending CN113221577A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110464651.6A CN113221577A (zh) 2021-04-28 2021-04-28 一种教育文本知识归纳方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110464651.6A CN113221577A (zh) 2021-04-28 2021-04-28 一种教育文本知识归纳方法、系统、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN113221577A true CN113221577A (zh) 2021-08-06

Family

ID=77089491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110464651.6A Pending CN113221577A (zh) 2021-04-28 2021-04-28 一种教育文本知识归纳方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113221577A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404036A (zh) * 2008-11-07 2009-04-08 西安交通大学 PowerPoint电子演示文稿的关键词抽取方法
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN110196906A (zh) * 2019-01-04 2019-09-03 华南理工大学 面向金融行业的基于深度学习文本相似性检测方法
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
US20200167428A1 (en) * 2018-11-26 2020-05-28 International Business Machines Corporation Utilizing external knowledge and memory networks in a question-answering system
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404036A (zh) * 2008-11-07 2009-04-08 西安交通大学 PowerPoint电子演示文稿的关键词抽取方法
US20190220749A1 (en) * 2018-01-17 2019-07-18 Beijing Baidu Netcom Science And Technology Co., Ltd. Text processing method and device based on ambiguous entity words
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
US20200167428A1 (en) * 2018-11-26 2020-05-28 International Business Machines Corporation Utilizing external knowledge and memory networks in a question-answering system
CN110196906A (zh) * 2019-01-04 2019-09-03 华南理工大学 面向金融行业的基于深度学习文本相似性检测方法
CN110287333A (zh) * 2019-06-12 2019-09-27 北京语言大学 一种基于知识库进行释义生成的方法及系统
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭茂盛: "文本蕴含关系识别与知识获取研究进展及展望", 《计算机学报》, vol. 40, no. 4, 30 April 2017 (2017-04-30), pages 889 - 905 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置
CN116432605B (zh) * 2023-06-14 2023-09-22 山东大学 融入先验知识的作文评语生成方法及装置

Similar Documents

Publication Publication Date Title
WO2021159632A1 (zh) 智能问答方法、装置、计算机设备及计算机存储介质
KR102259390B1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
CN113672708A (zh) 语言模型训练方法、问答对生成方法、装置及设备
CN114281957A (zh) 自然语言数据查询方法、装置、电子设备及存储介质
CN114218379A (zh) 一种面向智能问答系统的无法回答问题的归因方法
CN111143539A (zh) 基于知识图谱的教学领域问答方法
CN112132536A (zh) 一种岗位推荐方法、系统、计算机设备及存储介质
CN113987167A (zh) 基于依赖感知图卷积网络的方面级情感分类方法及系统
CN117370580A (zh) 一种基于知识图谱增强大语言模型双碳领域服务方法
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN112069781A (zh) 一种评语生成方法、装置、终端设备及存储介质
CN117786091B (zh) 基于苏格拉底式提问的自启发智能问答实现方法及系统
CN115391520A (zh) 一种文本情感分类方法、系统、装置及计算机介质
CN113221577A (zh) 一种教育文本知识归纳方法、系统、设备及可读存储介质
CN117171306A (zh) 知识问答方法、装置、设备及存储介质
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
CN116187347A (zh) 基于预训练模型的问答方法、装置、电子设备及存储介质
CN115293142A (zh) 一种基于词典增强预训练模型的常识问答方法
CN114896975A (zh) 一种面向在线教育智能助教的自主进化方法及系统
CN113821610A (zh) 信息匹配方法、装置、设备及存储介质
CN112560431A (zh) 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品
CN112015891A (zh) 基于深度神经网络的网络问政平台留言分类的方法及系统
Suta et al. Matching question and answer using similarity: an experiment with stack overflow
CN116663563B (zh) 基于多任务负采样的跨领域实体链接方法、装置及介质
CN109740162A (zh) 文本表示方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination