CN114398478A - 一种基于bert和外部知识的生成式自动文摘方法 - Google Patents

一种基于bert和外部知识的生成式自动文摘方法 Download PDF

Info

Publication number
CN114398478A
CN114398478A CN202210047258.1A CN202210047258A CN114398478A CN 114398478 A CN114398478 A CN 114398478A CN 202210047258 A CN202210047258 A CN 202210047258A CN 114398478 A CN114398478 A CN 114398478A
Authority
CN
China
Prior art keywords
data
bert
abstract
document
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210047258.1A
Other languages
English (en)
Inventor
张璞
尘勇
谢传威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202210047258.1A priority Critical patent/CN114398478A/zh
Publication of CN114398478A publication Critical patent/CN114398478A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于自然语言处理领域,具体涉及一种基于BERT和外部知识的生成式自动文摘方法,包括获取文档数据,并通过TextRank模块获取文档数据对应的关键词;将文档数据输入到BERT模型中进行编码,得到编码后的文档信息;通过关键词从外部知识模块检索外部知识,通过门控机制将外部知识与文档信息进行融合;将融合后的信息输入到Transformer模型进行解码,生成摘要;本发明使用BERT模型对文档数据编码捕捉更多的上下文信息和内部信息,提高编码的质量,使用关键词获取外部知识与文档信息进行融合,用Transformer模型丰富生成文摘的语义,提高生成摘要的流畅性和完整性,生成高质量的摘要。

Description

一种基于BERT和外部知识的生成式自动文摘方法
技术领域
本发明属于自然语言处理领域,具体涉及一种基于BERT和外部知识的生成式自动文摘方法。
背景技术
随着科技的进步和移动互联网行业的蓬勃发展,每个网民甚至每个终端都成为了互联网信息的生产者。面对海量的信息,信息过载的现象日益严重,如何让人们高效的获取所需要的信息成为当今时代极大的挑战。为了更高效的获取到所需要的信息,自动文本摘要逐渐成为一门不可或缺的技术。
自动文本摘要可以分为抽取式自动文本摘要和生成式自动文本摘要。抽取式文摘通过从原始文档中选择一些相关句子来生成摘要,文摘的长度取决于压缩率,这是一种简单而有效的文本摘要方法。生成式文摘通过抽象概括生成摘要,其基本思路是在理解原文语义的基础上,凝练原始文档的思想与概念,以实现语义重构。Mihalcea等人提出了TextRank方法来进行文本摘要。Erkan等人提出了LexRank方法来进行文本摘要,TextRank通过句中词共现个数计算句子相似度,主要应用在单文档自动摘要生成中,而LexRank是基于统计词频TF-IDF向量的余弦相似度,主要应用在多文档自动摘要生成方面。Mehdad等人在基于图排序的生成式方法的基础上提出了基于图排序算法的最佳路径排名策略,将其应用于生成式文本摘要中。吴仁守等人在编码器端引入全局自匹配机制进行全局优化,并利用全局门控单元抽取出文本的核心内容,该模型能有效融合全局信息,挖掘出原文本的核心内容,在LCSTS数据集上实验表明,该模型的性能有显著提高。Li等人提出了一种用于文本摘要的双注意力指针网络,该方法引入了自我关注机制来获取源文本的关键信息,并且结合门控机制控制信息的选择。在现有覆盖机制的基础上,增加了截断参数,防止该机制干扰其他目标的生成。
以上技术都是基于原文档直接生成摘要,和人工撰写摘要相比,没有考虑外部先验知识,导致生成的摘要无法准确的表达文档主旨,而且难以保证生成摘要的连贯性和一致性。
发明内容
为解决上述问题,本发明提供了一种基于BERT和外部知识的生成式自动文摘方法,获取文档数据并进行预处理;将预处理后的文档数据输入到训练好的生成式自动文摘模型中生成文档对应的摘要;生成式自动文摘模型包括TextRank模块、BERT模块、外部知识模块和Transformer模型;
生成式自动文摘模型的训练过程包括:
S1.获取原始文摘数据,对原始文摘数据进行预处理;
S2.将预处理后的原始文摘数据送入TextRank模块获取关键词,同时将预处理后的原始文摘数据输入到BERT模块中进行编码,得到编码数据;
S3.根据关键词从外部知识模块中检索相关的知识信息,将知识信息与编码数据通过门控机制进行融合;
S4.将融合后的数据输入到Transformer模型进行解码,得到解码数据,将解码数据输入全连接层,将全连接层的输出结果输入softmax层生成摘要;设置迭代初始次数;
S5.采用交叉熵损失函数训练生成式自动文摘模型,采用Adam算法优化生成式自动文摘模型,即调整BERT模块和Transformer模型的参数;判断交叉熵损失函数计算结果是否达到最小值,若是,则结束训练,否则进入步骤S6;
S6.判断迭代次数是否达到最大迭代次数,若达到,则完成生成式自动文摘模型的训练,否则返回步骤S5,且迭代次数加1。
进一步的,对原始文摘数据进行预处理的过程为:
S11.对原始文摘数据进行分词处理,并使用BERT的词表将分词处理后的原始文摘数据转化为id文件;
S12.设定序列长度最大值,根据序列长度最大值对id文件进行填充padding。
进一步的,获取编码数据的过程包括:
S21.对预处理后的原始文摘数据进行标记,得到标记文档,标记文档表示为:
S=[CLS],D11,…,D1m,[SEP],…Dij…,[CLS],Dn1,…,Dnx,[SEP];
S22.对标记文档进行embedding,获取标记文档的文档词嵌入,文档词嵌入表示为:
h=BERT.embedding(S);
S23.将文档词嵌入输入到BERT模型中获取编码数据,编码数据表示为:
Td=BERT(h);
其中,D表示预处理后的原始文摘数据,S表示标记文档,Di表示预处理后的原始文摘数据中的第i句话,Dij表示预处理后的原始文摘数据中第i句话的第j个单词,[CLS]和[SEP]为每句话的分隔符;h表示文档词嵌入,BERT.embedding(·)表示embedding操作;BERT(·)表示BERT模型,Td=T[CLS],T11,…,T1m,T[SEP],…Tij…,T[CLS],Tn1,…,Tnx,T[SEP]表示编码数据,T[SEP]和T[CLS]表示编码数据中每句话的分隔符,Tij表示编码数据中第i句话的第j个单词。
进一步的,BERT模型中采用多头注意力机制,其表示为:
Figure BDA0003472501450000031
headi=Attention(QWi Q,KWi K,VWi V);
MultHead(Q,K,V)=Concat(head1,…,headh)WO
其中,Attention(·)表示注意力机制;Q表示查询向量,K表示键向量、V表示值向量;softmax(·)表示归一化函数,T为矩阵转置的标识,dk表示键向量的维度,headi为第h次投影得到的Attention值,i为投影的次数,Wi Q为Q向量训练权重矩阵,Wi K为K向量训练权重矩阵,Wi V为V向量训练权重矩阵,MultHead(·)表示多头注意力机制的最终输出,WO为附加的权重矩阵,Concat(·)为向量拼接。
进一步的,步骤S3包括:
S31.获取关键词对应的关键词词嵌入,根据关键词词嵌入在外部知识模块检索相关的外部知识;
S32.通过线性运算融合外部知识与关键词得到知识向量;
S33.通过门控机制筛选知识向量得到知识信息,将知识信息与编码数据进行融合得到T′d
进一步的,生成摘要的公式表示为:
out=Transformer(T′d);
Pvocab=softmax(g[out]);
其中,Transformer(·)代表Transformer解码器,T′d代表融合数据,g(·)代表全连接层,out表示Transformer解码器的输出结果,Pvocab表示词表中的词汇成为摘要的概率。
进一步的,交叉熵损失函数表示为:
Figure BDA0003472501450000041
其中,y<t={y1,y2,y3,…,yt-2,yt-1};yt代表摘要中的第t个单词;x代表输入的原始文摘数据中的文档信息;θ代表训练的模型参数;n代表输入的原始文摘数据中的第n篇文档,T代表摘要的长度,N代表原始文摘数据中的文档总数量。
进一步的,采用Adam算法计算生成式自动文摘模型的优化结果,其计算公式为:
Figure BDA0003472501450000042
其中,
Figure BDA0003472501450000051
表示校正后的一阶矩估计,
Figure BDA0003472501450000052
表示校正后的二阶矩估计;μ表示步长,δ是为了维持数值稳定而添加的常数,θ表示要更新的参数。
本发明的有益效果:
本发明采用BERT模型对文档数据进行编码,捕获文档数据更多的上下文信息,提高了编码的质量,通过TextRank获得文档数据对应的关键词,根据关键词在外部知识库中获取相关的知识信息,采用门控机制将知识信息与编码后的文档数据融合,丰富了生成文摘的语义,提高了文摘的质量,使用Transformer模型,可以捕捉更多内部信息,使生成的摘要在完整性和流畅性上都有了一定的提升。
附图说明
图1为本发明的模型训练过程图;
图2为本发明的模型结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于BERT和外部知识的生成式自动文摘方法,如图2所示,构建生成式自动文摘模型,生成式自动文摘模型包括TextRank模块、BERT模型、外部知识模块和Transformer模型,该方法包括以下步骤:
101、获取文档数据,并通过TextRank模块获取文档数据对应的关键词;
102、将文档数据输入到BERT模型中进行编码,得到编码后的文档信息;
103、通过关键词从外部知识模块检索外部知识,通过门控机制将外部知识与文档信息进行融合;
104、将融合后的信息输入到Transformer模型进行解码,生成摘要。
在一实施例中,生成式自动文摘模型的训练过程如图1所示,包括:
S1.获取原始数据集,将原始数据集进行划分,得到训练集、验证集和测试集,对训练集中的数据进行预处理;
具体地,对验证集和测试集中的数据进行同样的预处理操作;
S2.将训练集的预处理后的数据送入TextRank模块获取关键词,同时将预处理后的数据送入BERT模块进行编码,得到编码数据;
S3.根据关键词在外部知识模块检索相关的知识信息,将知识信息与编码数据进行融合,得到融合数据;
S4.将融合数据送入Transformer模型进行解码,得到解码数据,将解码数据输入全连接层,将全连接层的输出结果输入softmax层生成摘要;
S5.采用交叉熵损失函数训练生成式自动文摘模型,采用Adam算法优化生成式自动文摘模型,即调整BERT模块和Transformer模型的参数;判断交叉熵损失函数计算结果是否达到最小值,若是,则结束训练,否则进入步骤S6;
S6.判断迭代次数是否达到最大迭代次数,若达到,则完成生成式自动文摘模型的训练,否则返回步骤S5,且迭代次数加1。
当训练完成后,采用测试集对训练完成的抽取式阅读理解模型进行性能评估。
优选地,采用ROUGE评价指标中的ROUGE-1,ROUGE-2和ROUGE-L对模型性能进行评价。
ROUGE是在2004年提出的一种自动文本摘要评价方法,是评估自动文本摘要的一组指标,核心是通过统计机器候选摘要句子和标准摘要句子重叠的单元n-gram,来评判摘要的质量。ROUGE主要是基于召回率(recall)进行评价,其基本思想是:由多个专家分别撰写人工摘要,构成标准摘要集。将系统生成的自动摘要与人工撰写的标准摘要相对比,通过统计二者之间重叠的基本单元(n元语法、词序列和词对)的数目,来评价摘要的质量。通过多专家人工摘要的对比,提高评价系统的稳定性和健壮性。该方法现已成为摘要评价技术的通用标准之一。其中ROUGE-N的计算方法如下所示:
Figure BDA0003472501450000071
其中,n代表n-gram的长度,Countmatch(gramn)代表参考摘要和生成摘要共有的n-gram的个数,Count(gramn)代表参考摘要中n-gram的个数。
ROUGE-L的计算公式为:
Figure BDA0003472501450000072
Figure BDA0003472501450000073
Figure BDA0003472501450000074
其中,LCS(X,Y)是X和Y的最长公共子序列的长度,X是生成摘要,Y是参考摘要,m,n分别代表参考摘要和生成摘要的长度(一般指所含词的个数),Rlcs,Plcs分别表示召回率和准确率,最后的Flcs即是Rouge-L。
在一实施例中,原始数据集采用来自美国有线电视新闻网和英国《每日邮报》的CNN/Daily Mail数据集。该数据集包含了来自美国有线电视新闻网和英国《每日邮报》的约30万篇新闻语料,每篇源文本包含平均766个词和29.74个句子,对应的标准摘要包含平均53个词和3.72个句子。数据集划分为三个部分,训练集包含196961篇文档,验证集包含12148篇文档,测试集包含10397篇文档。
对训练集中的数据进行预处理,其过程为:
S11.对训练集中的数据进行分词处理,并使用BERT的词表将分词处理后的数据转化为id文件;
S12.按照BERT模型的要求设定序列长度最大值,根据序列长度最大值对id文件进行填充padding;若id文件超过序列长度最大值,则将超出的数据截断,只输入前面的数据。
将预处理后的数据送入TextRank模块,采用TextRank模块获取预处理后的数据中的每篇文档对应的关键词,其表示为:
Key1,…,Keyi,…,Keyn=TextRank(D);
其中,TextRank(·)代表关键词提取算法,Keyi代表从文档中提取的第i个关键词,同时使用[CLS]、[SEP]对每个关键词进行标记,从而实现对一个文档中的多个关键词进行分割。
同时将预处理后的数据输入到BERT模块中进行编码,得到编码数据,包括:
S21.对预处理后的数据进行标记,得到标记文档,标记文档表示为:
S=[CLS],D11,…,D1m,[SEP],…Dij…,[CLS],Dn1,…,Dnx,[SEP];
其中,D表示预处理后的数据中的某一篇文档,S表示标记文档,Di表示文档中的第i句话,Dij表示文档中第i句话的第j个单词,[CLS]和[SEP]为每句话的分隔符;
S22.对标记文档进行embedding,获取标记文档的文档词嵌入,文档词嵌入表示为:
h=BERT.embedding(S);
h表示文档词嵌入,BERT.embedding(·)表示embedding操作;
S23.将文档词嵌入输入到BERT模型中获取编码文档,编码文档表示为:
Td=BERT(h);
Td=T[CLS],T11,…,T1m,T[SEP],…Tij…,T[CLS],Tn1,…,Tnx,T[SEP]表示编码文档,BERT(·)表示BERT模型,T[SEP]和T[CLS]表示编码数据中每句话的分隔符,Tij表示编码数据中第i句话的第j个单词。
BERT可以获取高质量的编码主要是因为其使用的多头注意力机制,多头注意力机制的具体的公式如下:
Figure BDA0003472501450000081
headi=Attention(QWi Q,KWi K,VWi V);
MultHead(Q,K,V)=Concat(head1,…,headh)WO
其中,Attention(·)表示注意力机制;Q表示查询向量,K表示键向量、V表示值向量;softmax(·)表示归一化函数,T为矩阵转置的标识,dk表示键向量的维度,headi为第h次投影得到的Attention值,i为投影的次数,Wi Q为Q向量训练权重矩阵,Wi K为K向量训练权重矩阵,Wi V为V向量训练权重矩阵,MultHead(·)表示多头注意力机制的最终输出,WO为附加的权重矩阵,Concat(·)为向量拼接。
在一实施例中,使用BERT进行编码之后,为了丰富文档的语义,同时使用关键词去外部知识库检索对应的外部知识,并且将外部知识通过门控机制和编码文档进行拼接融合,得到语义更丰富的融合文档,具体过程如下所示:
外部知识库中的知识信息是由一个个三元组组成并进行存储的,三元组的表示如下:
(e;r;o)
其中,e代表主体,r代表关系,o代表对象。
对于通过TextRank获取的文档中的每个关键词Keyi,在文档词嵌入h中获取对应的关键词词嵌入hi,并从外部知识库里检索其对应的知识信息,具体检索过程:根据关键词获取外部知识库中的同义词或者通过字符串匹配主体获取外部知识库中与其相关的关系和对象作为外部知识。
检索到外部知识之后,使用线性运算衡量融合外部知识和关键词得到知识向量,具体公式如下所示:
Figure BDA0003472501450000091
c=[c1;···;ci;···;cn];
其中,f(·)代表线性函数,e表示主体实体向量,即关键词,o表示对象实体向量,即根据关键词获取的外部知识,r表示e和o的关系,Mr表示关系的嵌入矩阵,n表示关键词的个数,[;]表示向量拼接操作,ci表示第i个知识向量,n为关键词总数。
门控机制用于去除知识向量多余的信息,筛选出重要信息,本实施例中通过门控机制筛选知识向量得到知识信息,将知识信息与编码文档进行融合,具体融合过程如下所示:
key=[h1;···;hi;···;hn]
c′=c⊙σ(key)
T′d=[Td;c′]
其中,hi代表第i个关键词通过文档词嵌入获取的关键词词嵌入,n代表关键词的个数,σ(·)代表sigmoid函数,⊙代表矩阵的点乘,Td为文档经过BERT的编码,W是可训练的矩阵,T′d是外部知识和文档信息融合后的输出,[;]表示向量拼接操作,c′表示通过门控机制筛选后得到的知识信息。
将知识信息和编码文档融合后的数据输入到Transformer解码器进行解码,将解码器的输出输入到一个全连接层,再经过一个softmax层,生成摘要,具体的公式如下所示:
out=Transformer(T′d);
Pvocab=softmax(g[out]);
其中,Transformer(·)代表Transformer解码器,T′d代表知识信息和编码文档融合后的输出,g(·)代表全连接层,out表示Transformer解码器的输出结果,Pvocab表示词表中的词汇,即知识信息和编码文档融合后文档中的词成为摘要的概率。
得到最终生成的摘要后,将该摘要与参考摘要进行损失函数计算,来判断模型训练的好坏,损失函数计算公式为:
Figure BDA0003472501450000101
其中,y<t={y1,y2,y3,…,yt-2,yt-1};yt代表摘要中的第t个单词;x代表输入的文档信息;θ代表可训练的模型参数;n代表输入的第n篇文档,T代表摘要的长度,N代表文档的数量。
根据损失函数的计算,需要对模型参数进行优化,采用Adam优化算法。Adam是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重,相对于常用的SGD算法,Adam有着计算高效、内存占用少、快速调参等优势。Adam能够通过计算梯度的一阶矩估计和二阶矩估计为不同的参数设计独立的自适应性学习率。主要计算公式如下:
Figure BDA0003472501450000111
其中,
Figure BDA0003472501450000112
表示校正后的一阶矩估计,
Figure BDA0003472501450000113
表示校正后的二阶矩估计;μ表示步长,δ是为了维持数值稳定而添加的常数,θ表示要更新的参数。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,获取文档数据并进行预处理;将预处理后的文档数据输入到训练好的生成式自动文摘模型中生成文档对应的摘要;生成式自动文摘模型包括TextRank模块、BERT模块、外部知识模块和Transformer模型;
生成式自动文摘模型的训练过程包括:
S1.获取原始文摘数据,对原始文摘数据进行预处理;
S2.将预处理后的原始文摘数据送入TextRank模块获取关键词,同时将预处理后的原始文摘数据输入到BERT模块中进行编码,得到编码数据;
S3.根据关键词从外部知识模块中检索相关的知识信息,将知识信息与编码数据通过门控机制进行融合;
S4.将融合后的数据输入到Transformer模型进行解码,得到解码数据,将解码数据输入全连接层,将全连接层的输出结果输入softmax层生成摘要;设置迭代初始次数;
S5.采用交叉熵损失函数训练生成式自动文摘模型,采用Adam算法优化生成式自动文摘模型,即调整BERT模块和Transformer模型的参数;判断交叉熵损失函数计算结果是否达到最小值,若是,则结束训练,否则进入步骤S6;
S6.判断迭代次数是否达到最大迭代次数,若达到,则完成生成式自动文摘模型的训练,否则返回步骤S5,且迭代次数加1。
2.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,对原始文摘数据进行预处理的过程为:
S11.对原始文摘数据进行分词处理,并使用BERT的词表将分词处理后的原始文摘数据转化为id文件;
S12.设定序列长度最大值,根据序列长度最大值对id文件进行填充padding。
3.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,获取编码数据的过程包括:
S21.对预处理后的原始文摘数据进行标记,得到标记文档,标记文档表示为:
S=[CLS],D11,…,D1m,[SEP],…Dij…,[CLS],Dn1,…,Dnx,[SEP];
S22.对标记文档进行embedding,获取标记文档的文档词嵌入,文档词嵌入表示为:
h=BERT.embedding(S);
S23.将文档词嵌入输入到BERT模型中获取编码数据,编码数据表示为:
Td=BERT(h);
其中,D表示预处理后的原始文摘数据,S表示标记文档,Di表示预处理后的原始文摘数据中的第i句话,Dij表示预处理后的原始文摘数据中第i句话的第j个单词,[CLS]和[SEP]为每句话的分隔符;h表示文档词嵌入,BERT.embedding(·)表示embedding操作;BERT(·)表示BERT模型,Td=T[CLS],T11,…,T1m,T[SEP],…Tij…,T[CLS],Tn1,…,Tnx,T[SEP]表示编码数据,T[SEP]和T[CLS]表示编码数据中每句话的分隔符,Tij表示编码数据中第i句话的第j个单词。
4.根据权利要求3所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,BERT模型中采用多头注意力机制,其表示为:
Figure FDA0003472501440000021
headi=Attention(QWi Q,KWi K,VWi V);
MultHead(Q,K,V)=Concat(head1,…,headh)WO
其中,Attention(·)表示注意力机制;Q表示查询向量,K表示键向量、V表示值向量;softmax(·)表示归一化函数,T为矩阵转置的标识,dk表示键向量的维度,headi为第h次投影得到的Attention值,i为投影的次数,Wi Q为Q向量训练权重矩阵,Wi K为K向量训练权重矩阵,Wi V为V向量训练权重矩阵,MultHead(·)表示多头注意力机制的最终输出,WO为附加的权重矩阵,Concat(·)为向量拼接。
5.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,步骤S3包括:
S31.获取关键词对应的关键词词嵌入,根据关键词词嵌入在外部知识模块检索相关的外部知识;
S32.通过线性运算融合外部知识与关键词得到知识向量;
S33.通过门控机制筛选知识向量得到知识信息,将知识信息与编码数据进行融合得到融合数据T′d
6.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,生成摘要的公式表示为:
out=Transformer(Td′);
Pvocab=softmax(g[out]);
其中,Transformer(·)代表Transformer解码器,T′d代表融合数据,g(·)代表全连接层,out表示Transformer解码器的输出结果,Pvocab表示词表中的词汇成为摘要的概率。
7.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,交叉熵损失函数表示为:
Figure FDA0003472501440000031
其中,y<t={y1,y2,y3,…,yt-2,yt-1};yt代表摘要中的第t个单词;x代表输入的原始文摘数据中的文档信息;θ代表训练的模型参数;n代表输入的原始文摘数据中的第n篇文档,T代表摘要的长度,N代表原始文摘数据中的文档总数量。
8.根据权利要求1所述的一种基于BERT和外部知识的生成式自动文摘方法,其特征在于,采用Adam算法计算生成式自动文摘模型的优化结果,其计算公式为:
Figure FDA0003472501440000041
其中,
Figure FDA0003472501440000042
表示校正后的一阶矩估计,
Figure FDA0003472501440000043
表示校正后的二阶矩估计;μ表示步长,δ是为了维持数值稳定而添加的常数,θ表示要更新的参数。
CN202210047258.1A 2022-01-17 2022-01-17 一种基于bert和外部知识的生成式自动文摘方法 Pending CN114398478A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210047258.1A CN114398478A (zh) 2022-01-17 2022-01-17 一种基于bert和外部知识的生成式自动文摘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210047258.1A CN114398478A (zh) 2022-01-17 2022-01-17 一种基于bert和外部知识的生成式自动文摘方法

Publications (1)

Publication Number Publication Date
CN114398478A true CN114398478A (zh) 2022-04-26

Family

ID=81231844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210047258.1A Pending CN114398478A (zh) 2022-01-17 2022-01-17 一种基于bert和外部知识的生成式自动文摘方法

Country Status (1)

Country Link
CN (1) CN114398478A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115456176A (zh) * 2022-10-10 2022-12-09 延边大学 一种基于知识增强的文本匹配方法及系统
CN115618857A (zh) * 2022-09-09 2023-01-17 中国电信股份有限公司 威胁情报处理方法、威胁情报推送方法及装置
CN115712760A (zh) * 2022-11-29 2023-02-24 哈尔滨理工大学 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618857A (zh) * 2022-09-09 2023-01-17 中国电信股份有限公司 威胁情报处理方法、威胁情报推送方法及装置
CN115618857B (zh) * 2022-09-09 2024-03-01 中国电信股份有限公司 威胁情报处理方法、威胁情报推送方法及装置
CN115456176A (zh) * 2022-10-10 2022-12-09 延边大学 一种基于知识增强的文本匹配方法及系统
CN115712760A (zh) * 2022-11-29 2023-02-24 哈尔滨理工大学 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统
CN115712760B (zh) * 2022-11-29 2023-04-21 哈尔滨理工大学 一种基于bert模型和深层等长卷积神经网络的二进制代码摘要生成方法及系统
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置
CN116432605B (zh) * 2023-06-14 2023-09-22 山东大学 融入先验知识的作文评语生成方法及装置

Similar Documents

Publication Publication Date Title
CN111897949B (zh) 一种基于Transformer的引导性文本摘要生成方法
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN110390103B (zh) 基于双编码器的短文本自动摘要方法及系统
WO2023060795A1 (zh) 关键词自动提取方法、装置、设备及存储介质
CN114398478A (zh) 一种基于bert和外部知识的生成式自动文摘方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN111178053B (zh) 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN110781290A (zh) 一种长篇章结构化文本摘要提取方法
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN114139497A (zh) 一种基于bertsum模型的文本摘要提取方法
CN116628186B (zh) 文本摘要生成方法及系统
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113407711B (zh) 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN112732862A (zh) 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN116720531A (zh) 基于源语言句法依赖和量化矩阵的蒙汉神经机器翻译方法
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
Thu et al. Myanmar news headline generation with sequence-to-sequence model
Das et al. Language identification of Bengali-English code-mixed data using character & phonetic based LSTM models
Hao et al. Image Caption via Visual Attention Switch on DenseNet
CN112329391A (zh) 目标编码器生成方法、装置、电子设备和计算机可读介质
Yang et al. T-GRU: conTextual Gated Recurrent Unit model for high quality Linguistic Steganography
Ha et al. Unsupervised Sentence Embeddings for Answer Summarization in Non-factoid CQA

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination