CN113935308A - 面向地球科学领域的文本摘要自动生成的方法和系统 - Google Patents

面向地球科学领域的文本摘要自动生成的方法和系统 Download PDF

Info

Publication number
CN113935308A
CN113935308A CN202111051884.XA CN202111051884A CN113935308A CN 113935308 A CN113935308 A CN 113935308A CN 202111051884 A CN202111051884 A CN 202111051884A CN 113935308 A CN113935308 A CN 113935308A
Authority
CN
China
Prior art keywords
encoder
output
vector
bilstm
attention mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111051884.XA
Other languages
English (en)
Inventor
邱芹军
谢忠
陶留锋
吴亮
李文佳
黄振
马莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202111051884.XA priority Critical patent/CN113935308A/zh
Publication of CN113935308A publication Critical patent/CN113935308A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了面向地球科学领域的文本摘要自动生成方法及系统,方法包括利用微调BERT嵌入组件基于词嵌入初始化输入序列的值,编码器中BiLSTM组件对从前一层接收到的输入进行编码;卷积门控单元则根据每个时间步的先前输出重新训练核心信息;调用自注意力机制计算词汇自身权重,充分考虑句子中不同词语之间的语义以及语法联系,从而进一步强化全局信息;解码器部分将编码器输出的上下文向量进行解码,解码器中的BiLSTM组件对编码器输出的句子进行解码得到输出序列;微调的BERT网络模型捕捉句子之间的上下文关系,使得在每一个时刻都获得完整的上下文,最终使生成的摘要更准确。

Description

面向地球科学领域的文本摘要自动生成的方法和系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及面向地球科学领域的文本摘要自动生成的方法和系统。
背景技术
自动摘要生成是自然语言处理领域中的一个重要任务,其目的是保留一组文档的核心元素或一组与主题相关的文档的核心元素的同时,产生一种浓缩的文本表达,能够有效缓解数据总量庞大、信息密度低与用户高效精准获取信息间矛盾。近年来,自动文本摘要生成技术已经在自动报告生成、新闻标题生成等很多领域得以运用。
现有的摘要自动生成方法主要分为三类:抽取式摘要生成、生成式摘要生成和混合式摘要生成。
抽取式摘要通过考虑原文中句子的位置、词频、关键词等评估句子重要度,从原文中选择重要度高的句子组成摘要;生成式摘要则是在理解文章语义的基础上从词语层面上对句子进行压缩、提炼,最终用较少的单词和更清晰的语言生成摘要;而混合式摘要则是集合了抽取式文本摘要和生成式文本摘要的优点,提高了最终生成摘要的语言流畅性与精简性。
在现阶段,关于摘要自动生成的研究仅提供了部分解决方案。首先,很多现有的文本摘要生成方法主要是针对英文文本,并不适用于中文文本,尤其是缺少面向特定专业领域的中文摘要生成场景。中文文本的语法和语义比英文文本复杂的多,尤其是在地球科学领域,大量专业词汇的存在进一步增加了难度。汉语是以字符为基础,而英语是以词为基础的,而且在中文中单词之间没有分隔符,所以确定一个词的构成会很困难,同时在中文文本中存在大量的歧义情况。其次,现有大多数的文本摘要方法依赖于涉及高维稀疏数据的传统词袋表示,难以表示和捕获相关的信息。第三,近期对中文文本摘要的研究还处于起步阶段,中文文本摘要无法达到英文文本摘要相同的成熟度和可靠性水平。因此迫切需要构建面向中文地学领域的自动文本摘要算法。
发明内容
本发明解决的一个主要问题是传统的摘要生成方法主要针对英文文本,并不适用中文地质学领域,且生成的中文摘要文本歧义大、不准确。
根据本发明的一个方面,提供一种面向地球科学领域的文本摘要自动生成的方法,所述方法包括:
S1、获取地质文献的标题和摘要的原始数据;
S2、将所述原始数据中的单元词基于词嵌入操作转换为词向量矩阵;
S3、使用预训练好的BERT网络模型进行编码:
S301、将所述词向量矩阵作为输入序列输入所述BERT网络模型,利用卷积神经网络提取单元词间的局部连接特征,并使用ReLU函数生成输出结果,所述输出结果为:
Figure BDA0003253049100000021
其中,mi为第i个特征图,f代表ReLU函数,wk表示第一局部向量,q表示第二局部向量,k∈{3,5,7},wj k为第j个第一局部向量,qj为第j个第二局部向量,q[i:i+k-1]表示[i:i+k-1]向量;
S302、利用输出结果,调用自注意力机制获取全局连接特征;
S303、利用门控单元对所述局部连接特征和所述全局连接特征进行全局编码,生成编码器输出,所述编码器输出为:
Figure BDA0003253049100000022
其中,
Figure BDA0003253049100000023
为编码器输出,σ(g)为门控单元g的卷积神经网络函数,RT×dim为T×dim的矩阵,T代表序列长度,dim代表向量维度,即层数;
S4、对所述编码器输出进行解码:
S401、利用全局注意力机制,使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量;
S402、根据所述上下文向量,利用解码器中嵌入的BiLSTM组件预测下一个单词,并得到输出序列;
S403、利用所述BERT网络模型捕捉所述输出序列中的上下文关系,并生成完整摘要。
进一步地,所述词向量矩阵表示为:
Figure BDA0003253049100000031
其中,X1:T表示输入序列,x1、x2、x3和xT分别表示序列中第1、2、3和T个基本单元词,R1×T表示长度为1×T的矩阵。
进一步地,步骤S301还包括:使用“BERT-Base Chinese”模型对所述输入序列进行微调。
进一步地,步骤S301还包括:将所述输出结果作为编码器中嵌入的BiLS TM组件的输入进行编码,使得编码内容双向传输。
进一步地,步骤S401还包括:考虑所有encoder的隐藏层状态,将解码器的当前隐藏层状态与每个编码器的隐藏层状态进行比较。
根据本发明的另一个方面,还公开一种面向地球科学领域的文本摘要自动生成的系统,所述系统包括:编码器模块、解码器模块和训练模块,所述训练模块用于预训练所述编码器模块,所述编码器模块用于对输入序列进行编码,所述解码器模块用于对所述编码器模块的输出结果进行解码。
进一步地,所述编码器模块包括:第一BERT网络模型、第一BiLSTM组件、卷积门控单元和自注意力机制;
所述第一BERT网络模型微调后用于通过词嵌入操作初始化输入序列的值;
所述第一BiLSTM组件用于对接收到的所述输入序列进行编码;
所述卷积门控单元用于根据每个时间步的先前输出重新训练核心信息;
所述自注意力机制用于计算词语自身的权重,充分考虑句子中不同词语之间的语义和语法联系,强化全局信息。
进一步地,所述解码器模块包括:
全局注意力机制、第二BiLSTM组件和第二BERT网络模型;
所述全局注意力机制用于使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量;
所述第二BiLSTM组件用于对编码器输出的句子进行解码,得到输出序列;
所述第二BERT网络模型微调后用于捕捉所述输出序列中句子之间的上下文关系,从而获得完整的摘要上下文。
本发明方法中使用的数据集主要通过检索已发表的文献数据,包括地质论评、地质学报、矿床地质和中国地质,我们从已发表的文献中收集摘要和标题,然后使用数据预处理清理收集的数据。开发了一系列规则来清理和格式化语料库,并且由于摘要和标题的长度可能会影响模型的性能,所以我们对摘要和标题的长度分布进行了统计,采用BERT开发了一个高效且有效的自动摘要系统,提出了一种基于双向长短时记忆网络模型的新中文文本摘要方法。在摘要自动生成任务的评价中,采用ROUGE-1、ROUGE-2、ROUGE-L作为评估指标,并基于所训练的模型在真实数据集上进行了一系列测试,并将生成的标题直接与原始文本摘要标题进行比较,结果表明本方法生成的标题更好,能够覆盖原文的核心信息,进一步证实了本方法提出的方法的有效性。
附图说明
本发明构成说明书的一部分附图描述了本发明的实施例,并且连同说明书一起用于解释本发明的原理。
图1为本发明实施例中文本摘要自动生成的步骤流程示意图。
图2为本发明实施例中文本摘要模型总体结构示意图。
具体实施方式
下面将结合附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
实施例一,如图1所示,为一种文本摘要自动生成的步骤流程示意图,方法步骤具体包括:
S1、获取地质文献的标题和摘要的原始数据;通过检索已发表的文献数据,包括地质论评、地质学报、矿床地质和中国地质,从已发表的文献中收集摘要和标题,然后通过预处理清理收集的原始数据。
S2、将所述原始数据中的单元词基于词嵌入操作转换为词向量矩阵;向量矩阵表示为:
Figure BDA0003253049100000051
其中,X1:T表示输入序列,x1、x2、x3和xT分别表示序列中第1、2、3和T个基本单元词,R1×T表示长度为1×T的矩阵。
具体地,以收集到的原始数据为输入,基于词嵌入操作将收集的文献数据中的基本词单元转化为向量,这一过程通过使用微调的BERT网络模型进行初始化,BERT网络模型在训练过程中使用“BERT-Base Chinese”模型对输入序列进行微调。
S3、使用预训练好的BERT网络模型进行编码:编码器主要分为四个部分:微调的BERT模型、一个BiLSTM组件、一组卷积门控单元和自注意力机制。微调BERT嵌入组件的目的是基于词嵌入初始化输入序列的值。而对于输入序列,BiLSTM组件用于对从前一层接收到的输入进行编码;卷积门控单元则专注于根据每个时间步的先前输出重新训练核心信息;自注意力机制则为计算词汇自身的权重,充分考虑句子中不同词语之间的语义以及语法联系,从而可以进一步强化其后的全局信息。
S301、将前述词向量矩阵作为输入序列输入所述BERT网络模型,利用卷积神经网络提取单元词间的局部连接特征,特别是获取n-gram特征。并且在考虑输入序列X平均长度的基础上,利用滤波器和感受野来掌握更丰富的局部连接特征。然后将两个局部向量q∈R|q|和wk∈Rk∈{3,5,7}进行卷积,形成特征图m∈R|q|-k+1。并使用ReLU函数生成输出结果,输出结果为:
Figure BDA0003253049100000061
其中,mi为第i个特征图,f代表ReLU函数,wk表示第一局部向量,q表示第二局部向量,k∈{3,5,7},wj k为第j个第一局部向量,qj为第j个第二局部向量。
将BERT网络模型的输出结果作为BiLSTM组件的输入,然后进行编码,使得编码内容可以从左到右和从右到左输出。
设表达式:
h=GLU(h1,h2,h3,...ht)∈RT×dim (3)
为BiLSTM组件从左到右和从右到左的处理步骤的内容输出,其中,dim为层数,GLU(·)表示门控线性单元,而hi表示时间步长为t的编码器的隐藏状态,可以表示为:
Figure BDA0003253049100000071
其中,ht为t时刻隐藏状态,
Figure BDA0003253049100000072
代表t时刻左边隐藏状态,
Figure BDA0003253049100000073
代表t时刻右边隐藏状态,R1×2dim为长度为1×2dim的矩阵;
S302、利用输出结果,调用自注意力机制获取全局连接特征;
具体地,将CNN卷积得到的输出,通过self-attention机制计算各自的权重,充分考虑句子中不同词语之间的语义以及语法联系,从而可以进一步强化其后的全局信息。这使得网络模型能够学习长期依赖,不会消耗过多的计算资源。权重计算公式表示如下:
Figure BDA0003253049100000074
其中,Q和V表示由CNN生成的不同的矩阵,K则表示可学习的矩阵,dk为向量Q的维度。
S303、利用门控单元对所述局部连接特征和所述全局连接特征进行全局编码,生成编码器输出,编码器输出为:
Figure BDA0003253049100000075
其中,
Figure BDA0003253049100000076
为编码器输出,σ(g)为门控单元g的卷积神经网络函数,RT×dim为T×dim的矩阵,T代表序列长度,dim代表向量维度,即层数,h表示编码器的隐藏层状态;
S4、对编码器输出进行解码:解码器部分是将编码器输出的上下文向量c进行解码,RT×dim中T代表序列长度,dim代表向量维度,解码器部分包含了三个部分:Globalattention、BiLSTM和微调的BERT模型。
S401、利用全局注意力机制,使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量;可以使得输入序列的每一个时间步将编码器编码为不同的上下文向量c。在解码时,结合每一个不同的上下文向量c进行解码输出,使得到的结果更加的准确。考虑所有encoder的隐藏层状态,将解码器的当前隐藏状态ht与每个编码器的隐藏层状态
Figure BDA0003253049100000081
进行比较,计算公式表示如下:
Figure BDA0003253049100000082
其中,t为当前时刻,at是一个长度可变的对齐向量,长度是时间序列中encoder部分的长度,at(s)是由一个编码器的状态和一个解码器的状态对比得到的向量,s为原句子,将所有的at(s)向量整合成一个权重矩阵Wa,权重矩阵的计算公式如下:
at=softmax(Waht) (8)
对权重矩阵进行加权平均操作,即可得到t时刻的向量ct
S402、根据所述上下文向量,利用解码器中嵌入的BiLSTM组件预测下一个单词,并得到输出序列;
S403、利用所述BERT网络模型捕捉所述输出序列中的上下文关系,使得在每一个时刻都可以获得完整的上下文,并生成完整精确的摘要。
实施例二,公开一种地球科学领域文本摘要自动生成的系统,包括:编码器模块、解码器模块和训练模块,训练模块用于预训练所述编码器模块,编码器模块用于对输入序列进行编码,解码器模块用于对编码器模块的输出结果进行解码。
编码器模块包括第一BERT网络模型、第一BiLSTM组件、卷积门控单元和自注意力机制;第一BERT网络模型微调后用于基于词嵌入操作初始化输入序列的值;第一BiLSTM组件用于对接收到的所述输入序列进行编码;卷积门控单元用于根据每个时间步的先前输出重新训练核心信息;自注意力机制用于计算词汇自身的权重,充分考虑句子中不同词语之间的语义和语法联系,强化全局信息。
解码器模块包括:全局注意力机制、第二BiLSTM组件和第二BERT网络模型;全局注意力机制用于使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量;第二BiLSTM组件用于对编码器输出的句子进行解码,得到输出序列;第二BERT网络模型微调后用于捕捉所述输出序列中句子之间的上下文关系,从而获得完整的摘要上下文。
下面给出实验结果证明本发明的技术效果:
根据表1和表2,一方面,利用经过微调的BERT模型实践本发明的摘要生成方法,取得了比word2vec和GloVe模型等其他模型更好、更精确的摘要文本结果。另一方面,基于在开发数据集上训练的神经网络模型中生成文本摘要比基于其他模型(即RNN、RNN-context、Super-AE、CGU)生成文本摘要具有更好的性能。再一方面,表1和表2的实验结果表明,使用BERT表示的深度学习显着改善了摘要系统的结果,并且优于目前最先进的生成方法。由于BERT模型在无监督预训练期间学习了大部分语言信息,因此即使使用小数据集也可以对其进行微调,因此性能优于必须从头开始训练的基于CNN或RNN下游的模型。
表1与其他词嵌入模型相比的定量评价结果
Model ROUGE-1 ROUGE-2 ROUGE-L BLEU
Word2Vec+Classifier 0.705 0.611 0.625 0.513
GloVe+Classifier 0.713 0.623 0.641 0.531
GloVe+RL 0.744 0.649 0.669 0.599
GloVe+BiLSTM 0.775 0.691 0.701 0.609
GloVe+BiLSTM+Attention 0.789 0.711 0.725 0.631
本发明 0.814 0.781 0.846 0.676
表2与其他模型相比的定量评估结果
Model ROUGE-1 ROUGE-2 ROUGE-L BLEU
RNN 0.738 0.705 0.781 0.621
RNN-context 0.744 0.721 0.797 0.633
Super-AE 0.781 0.743 0.805 0.642
CGU 0.792 0.765 0.821 0.655
本发明 0.814 0.781 0.846 0.676
以上所述仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则范围之内所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

Claims (8)

1.一种面向地球科学领域的文本摘要自动生成的方法,其特征在于,所述方法包括:
S1、获取地质文献的标题和摘要的原始数据;
S2、将所述原始数据中的单元词基于词嵌入操作转换为词向量矩阵;
S3、使用预训练好的BERT网络模型进行编码:
S301、将所述词向量矩阵作为输入序列输入所述BERT网络模型,利用卷积神经网络提取单元词间的局部连接特征,并使用ReLU函数生成输出结果,所述输出结果为:
Figure FDA0003253049090000011
其中,mi为第i个特征图,f代表ReLU函数,wk表示第一局部向量,q表示第二局部向量,k∈{3,5,7},wj k为第j个第一局部向量,qj为第j个第二局部向量,q[i:i+k-1]为[i:i+k-1]的向量;
S302、利用输出结果,调用自注意力机制获取全局连接特征;
S303、利用门控单元对所述局部连接特征和所述全局连接特征进行全局编码,生成编码器输出,所述编码器输出为:
Figure FDA0003253049090000012
其中,
Figure FDA0003253049090000013
为编码器输出,σ(g)为门控单元g的卷积神经网络函数,RT×dim为T×dim的矩阵,T代表序列长度,dim代表向量维度,即层数,h为编码器隐藏层状态;
S4、对所述编码器输出进行解码:
S401、利用全局注意力机制,使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量;
S402、根据所述上下文向量,利用解码器中嵌入的BiLSTM组件预测下一个单词,并得到输出序列;
S403、利用所述BERT网络模型捕捉所述输出序列中的上下文关系,并生成完整摘要。
2.如权利要求1所述的方法,其特征在于,所述词向量矩阵表示为:
Figure FDA0003253049090000021
其中,X1:T表示输入序列,x1、x2、x3和xT分别表示序列中第1、2、3和T个基本单元词,R1×T表示长度为1×T的矩阵。
3.如权利要求1所述的方法,其特征在于,步骤S301还包括:使用“BERT-Base Chinese”模型对所述输入序列进行微调。
4.如权利要求1所述的方法,其特征在于,步骤S301还包括:将所述输出结果输入编码器中嵌入的BiLSTM组件进行编码,使得编码内容双向传输。
5.如权利要求1所述的方法,其特征在于,步骤S401还包括:考虑所有encoder的隐藏层状态,将解码器的隐藏层状态与每个编码器的隐藏层状态进行比较。
6.一种面向地球科学领域的文本摘要自动生成的系统,其特征在于,所述系统包括:编码器模块、解码器模块和训练模块,所述训练模块用于预训练所述编码器模块,所述编码器模块用于对输入序列进行编码,所述解码器模块用于对所述编码器模块的输出结果进行解码。
7.如权利要求6所述的系统,其特征在于,所述编码器模块包括:第一BERT网络模型、第一BiLSTM组件、卷积门控单元和自注意力机制;
所述第一BERT网络模型微调后用于基于词嵌入操作初始化输入序列的值;
所述第一BiLSTM组件用于对接收到的所述输入序列进行编码;
所述卷积门控单元用于根据每个时间步的先前输出重新训练核心信息;
所述自注意力机制用于计算词语自身的权重,充分考虑句子中不同词语之间的语义和语法联系,强化全局信息。
8.如权利要求6所述的系统,其特征在于,所述解码器模块包括:
全局注意力机制、第二BiLSTM组件和第二BERT网络模型;
所述全局注意力机制用于使用编码器隐藏层状态为解码器步骤定义基于注意力机制的上下文向量;
所述第二BiLSTM组件用于对编码器输出的句子进行解码,得到输出序列;
所述第二BERT网络模型微调后用于捕捉所述输出序列中句子之间的上下文关系,从而获得完整的摘要。
CN202111051884.XA 2021-09-08 2021-09-08 面向地球科学领域的文本摘要自动生成的方法和系统 Pending CN113935308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111051884.XA CN113935308A (zh) 2021-09-08 2021-09-08 面向地球科学领域的文本摘要自动生成的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111051884.XA CN113935308A (zh) 2021-09-08 2021-09-08 面向地球科学领域的文本摘要自动生成的方法和系统

Publications (1)

Publication Number Publication Date
CN113935308A true CN113935308A (zh) 2022-01-14

Family

ID=79275410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111051884.XA Pending CN113935308A (zh) 2021-09-08 2021-09-08 面向地球科学领域的文本摘要自动生成的方法和系统

Country Status (1)

Country Link
CN (1) CN113935308A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994539A (zh) * 2023-02-17 2023-04-21 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994539A (zh) * 2023-02-17 2023-04-21 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统
CN115994539B (zh) * 2023-02-17 2024-05-10 成都信息工程大学 一种基于卷积门控和实体边界预测的实体抽取方法及系统

Similar Documents

Publication Publication Date Title
CN110413986B (zh) 一种改进词向量模型的文本聚类多文档自动摘要方法及系统
WO2022227207A1 (zh) 文本分类方法、装置、计算机设备和存储介质
Zhang et al. A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109214003B (zh) 基于多层注意力机制的循环神经网络生成标题的方法
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN111310471A (zh) 一种基于bblc模型的旅游命名实体识别方法
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN111898369B (zh) 文章标题生成方法、模型的训练方法、装置和电子设备
CN112163429B (zh) 结合循环网络及bert的句子相关度获取方法、系统及介质
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN111581364B (zh) 一种面向医疗领域的中文智能问答短文本相似度计算方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN113806528A (zh) 一种基于bert模型的话题检测方法、设备及存储介质
CN113935308A (zh) 面向地球科学领域的文本摘要自动生成的方法和系统
CN109325243A (zh) 字符级基于序列模型的蒙古文切词方法及其切词系统
Hua et al. A character-level method for text classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination