CN114691858A - 一种基于改进的unilm摘要生成方法 - Google Patents

一种基于改进的unilm摘要生成方法 Download PDF

Info

Publication number
CN114691858A
CN114691858A CN202210250558.XA CN202210250558A CN114691858A CN 114691858 A CN114691858 A CN 114691858A CN 202210250558 A CN202210250558 A CN 202210250558A CN 114691858 A CN114691858 A CN 114691858A
Authority
CN
China
Prior art keywords
model
unilm
sequence
probability
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210250558.XA
Other languages
English (en)
Other versions
CN114691858B (zh
Inventor
贾海涛
刘桐
李家伟
黄婧
邢增桓
林思远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210250558.XA priority Critical patent/CN114691858B/zh
Publication of CN114691858A publication Critical patent/CN114691858A/zh
Application granted granted Critical
Publication of CN114691858B publication Critical patent/CN114691858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于改进的UNILM摘要生成方法,针对生成式摘要算法现存的问题,如生成细节不准确,语义不通顺的问题,选用在语义特征提取,对文章的理解上优于传统RNN、LSTM的基于Transformer的UNILM模型,融合COPY机制来改善,并且利用稀疏的softmax替代传统softmax,以避免传统softmax过度学习的问题。最后在模型整体损失函数加入coverage损失,达到避免生成重复结果的目的。

Description

一种基于改进的UNILM摘要生成方法
技术领域
本发明属于自然语言生成领域。
背景技术
自动摘要技术通常被分为两类,抽取式摘要和生成式摘要。抽取式摘要指从文本中抽取 出对文本内容概括性强的几个句子组成摘要。针对关键信息集中的新闻文本,抽取式摘要的 作用不大,且无法压缩句子级别的信息。生成式摘要技术属于自然语言生成任务,与直接从 文本中抽取句子的抽取式摘要方法不同,生成式摘要基于对原文内容李姐,概括总结出原文 主要信息,极大地减少冗余信息。
目前,主流的生成式摘要技术是基于深度学习的Sequence-to-Sequence方法,或使用各种 预训练模型,从而避免繁琐的手工特征提取、权重计算和内容选择等模块,只需要足够的输 入和输出即可训练模型。传统的Sequence-to-Sequence编码器(Encoder)端主要利用RNN、 LSTM等。但是相比Transformer,RNN/LSTM的语义特征提取能力较弱,且计算费时,在长 距离依赖问题上有所欠缺。基于Transformer的各类语言模型虽比RNN、LSTM特征提取能 力强,生成的摘要在可读性上有所提高,但还是存在生成细节不准确,生成结果重复以及结 果中出现未登录词的问题。针对上述问题,本发明提出一种基于UNILM模型融合COPY机 制的改进方法。
发明内容
本发明提出一种基于改进的UNILM摘要生成方法,所用生成模型是一个Seq-to-Seq模 型,以UNILM模型为架构,对大量文本进行预训练,使用基础UNILM模型生成摘要的基础 上,添加复制机制用于控制最终生成词的概率分布,目的在于提高生成式摘要的细节准确度, 并减小未登录词出现的概率。本发明提出的方法包括以下步骤:
步骤1文本预处理,获得输入表示;
步骤2基于UNILM模型进行预训练,利用三种类型的语言模型共同优化同一Transformer网络,每种语言模型使用不同的自注意力掩码机制;
步骤3利用交叉熵损失函数计算损失,完成基于UNILM模型的预训练;
步骤4基于UNILM模型进行摘要生成任务,通过Seq-to-Seq语言模型的自注意力掩码 机制解码,获得词表概率分布;
步骤5融合COPY机制,引入生成概率,进一步优化步骤4中生成的词表概率分布;
步骤6结合交叉熵损失函数和Coverage损失函数作为模型的整体损失函数,利用Beam Search算法获得预测的摘要序列。
步骤1中每次输入两个文本序列Segment1和Segment2,形如“[CLS]午饭吃啥[SEP]汉堡[SEP]”,[CLS]标记序列开端,[SEP]标记序列尾,序列对通过Embedding获得输入表示。
步骤2中所述UNILM模型使用三种特殊的mask作为预训练目标,完成单向、序列到序 列以及双向语言模型的预测任务,实现预训练使得模型可应用于自然语言生成任务。UNILM 模型由12个Transformer结构堆叠,每层Transformer的隐藏层有768个隐藏节点以及有12 个头。模型结构同BERT-BASE相同,因此由训练好的BERT-BASE模型初始化参数。针对不 同语言模型,使用不同的MASK机制完成完形填空任务。分词被掩蔽概率为15%。在这些被 掩蔽的分词中,80%的分词被[MASK]给换掉,10%的分词随机地用字典中词来代替,剩余的 分词不做任何处理。此外,在掩蔽分词时,每次掩蔽的分词数不尽相同。而是按照每次掩蔽 一个词的概率为80%,剩下20%的概率会一次掩蔽掉连续的2-3个分词。对于要预测的MASK, 单向模型允许使用一侧的上下文,双向模型从两个方向编码上下文信息。在序列到序列模型 中,若MASK在Segment1中,则只能编码Segment1的上下文信息;若MASK在Segment2 中,则它可获得MASK左侧(包括Segment1)的上下文信息。
步骤3中将上步Transformer网络输出的文本表征输入Softmax分类器,预测被掩蔽的分 词,对预测分词和原始分词使用交叉熵损失函数,完成所有语言模型的完形填空任务,优化 模型参数,完成预训练。
步骤4中通过序列到序列模型的MASK机制进行解码,随机MASK目标序列中的分词,学习恢复MASK,训练目标就是给定上下文信息时最大化分词的概率,目标序列末尾的[SEP]可被掩蔽,以学习何时终止目标序列的生成。模型利用MASK机制融合编码和解码过程,结合注意力机制获得文本特征向量,将其输入全连接层,获得词表概率分布。
步骤5中将上步生成的词表概率输入全连接层和Sigmoid层,获得生成概率,结合生成 概率、词表概率分布及注意力分布,获得改进的词表概率分布。
步骤6中针对生成模型中的重复问题,引入coverage损失,结合交叉熵损失,完成微调 任务。使用更容易接近全局最优解的Beam Search算法生成摘要序列。
本发明的有益效果是:本发明使用UNILM模型作为基本架构,该模型使用多种语言模 型联合优化,能针对自然语言生成任务进行微调;针对基于Transformer网络生成的摘要细节 不够准确、产生未登录词的问题,本发明融合COPY机制以解决;针对生成摘要中生成词语 重复的问题,本发明引入Coverage损失,对重复的attention惩罚,以减少重复生成词;针对 普通Softmax函数导致稠密对齐,可能影响最终决策,本发明采用Sparse Softmax以避免 Softmax过度学习的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附 图作简单说明。显然,所描述的附图只是本发明的一部分实施例,而不是全部实施例,本领 域的技术人员在不付出创造性劳动的前提下,还可以根据这些附图获得其他设计方案和附图。
图1是本发明的UNILM-COPY摘要生成模型设计结构图。
图2是本发明的采用的UNILM模型架构示意图。
图3是本发明的UNILM-COPY模型框架图。
图4是本发明的实例1UNILM-COPY模型预训练损失曲线图。
具体实施方式
以下将结合实例和附图对本发明的构思、具体结构以及产生的技术效果进行清楚、完整 的描述,以使读者充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发 明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出 创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。
如图1所示,本发明主要以UNILM模型为基础,融合了COPY机制,完成基于新闻文本的摘要生成任务,主要包括输入处理、预训练、生成摘要三个阶段。具体实施方式如下:
预训练的数据集包括原文本和标准摘要,完成文本预处理,数据清洗、分句、分词,原 文本作为Segment1,标准摘要作为Segment2。加入特殊标记[CLS]和[SEP],形如“[CLS]X1 X2 X3 X4[SEP]Y1 Y2[SEP]”。如图2所示,模型的输入表示由三部分构成,使用WordPiece获得三种类型的嵌入向量:Position Embedding、Segment Embedding、Token Embedding,求 和获得模型的输入表示。
进一步地,进行UNILM-COPY模型的预训练。输入Embedding向量至模型中,每层Transformer编码输入向量,使用自注意力头聚合上层输入,使用掩码矩阵控制每个位置/词能 够注意的范围,得到当前位置对其他位置的注意力分布,进而计算出解码器当前位置的特征 向量。
生成的词向量对t时刻的文本特征向量Xinput的注意力分布at如下:
Figure BDA0003546661290000031
其中,Xt表示t时刻目标向量,Xinput表示t时刻文本特征向量,M为掩码矩阵,控制词的注意力范围,dk为词向量的维度,Wq、Wv、Wk均为学习参数。
t时刻解码器输出的特征向量outputt的公式定义如下:
outputt=at*Wv*Xinput (2)
Sparsemax为稀疏Softmax函数,公式定义如下:
Figure BDA0003546661290000041
其中,Ωk表示的是z1,z2,…,zn从大到小排列后的前k个元素的下标集合。也就是说,在 使用Sparsemax计算概率的时候,只需要保留前k个元素的概率,剩余的直接置为0。
进一步地,对UNILM-COPY模型预测结果outputt(下式记作z)和被掩蔽的原分词zt计 算交叉熵损失,优化模型参数。交叉熵损失函数如下定义:
Figure BDA0003546661290000042
实例中,预处理过程:将数据预处理好后,输入模型进行训练,一共训练了15个epoch。 Dropout设置为0.3,batch size设置为16,最大原文输入长度设置为512,最大生成摘要 的长度设置为128,使用交叉熵损失函数计算损失。训练一共记录了89000步,每隔500步 评估一次模型,训练阶段的损失值如图4,在18000步左右时,模型收敛。
进一步地,完成预训练后,利用UNILM的Seq-to-Seq语言模型进行微调,进行摘要生 成任务。
模型通过掩码矩阵巧妙地将编码器和解码器结合在一起。例如,有一篇文章“X1X2X3X4”, 当t=1时刻输入序列为“[CLS]X1 X2 X3 X4[SEP]Y1[MASK]”,在序列末尾加入“[MASK]” 对应的表征表示预测下一个词。左侧序列“[CLS]X1 X2 X3 X4[SEP]”是已知序列,属于编 码阶段,能互相看到上下文信息。“Y1[MASK]”为想要得到的序列,称为目标序列,属于解 码阶段,能看到已知序列的信息和目标序列中其左侧部分的信息。样本经过UNILM模型编 码后,将会得到一个sequence length×hidden size的矩阵,第一行表示[CLS]的特征表示,第 二行是词X1的特征表示,以此类推。在解码阶段,利用[MASK]的特征表示经过线性层,再利 用Sparsemax函数来获得词汇表中词的概率分布,选取概率最大的词作为解码出的单词,重 复上述步骤直到生成[SEP]停止。此过程同预训练过程中(1)(2),可得到t时刻解码器输出 的特征向量outputt
进一步地,将上述得到的outputt经过两次线性变换,以及Sparsemax函数最终获得词表 分布Pvocab
Pvocab=Sparsemax(W′(W*outputt+b)+b′) (5)
其中W、W′、b、b′均为可学习参数。
进一步地,引入生成概率Pgen,表示从词汇表中生成词的概率,1-Pgen则表示从原文本中 生成词的概率,如图3。将outputt、at以及Xt通过全连接层并通过sigmoid函数计算得到Pgen
Pgen=sigmoid(W[Xt,outputt,at]+b) (6)
其中W和b均为可学习的参数。
由此可计算出改进的词表概率分布:
P(W)=Pgen*Pvocab(W)+(1-Pgen)*at (8)
当W是词表中未收录的词时,Pvocab(W)的值设为0,因而预测的词将会从原文中生成; 同样,若W是原文中未出现的词,则at的值设为0,预测的词会从词表中生成。起到了扩充 词表的作用,从而降低未登录词出现的概率。从原文中复制概率高的词作为生成序列的一部 分,在一定程度上也能控制生成结果的准确性。
进一步地,计算模型整体损失,引入Coverage损失。首先计算一个coverage向量ct,是 由将先前时间步的注意力权重求和得到。t时刻对原文的注意力分布将会受到先前注意力分布 的影响,这样可以避免在同一位置重复关注过重,从而避免生成结果的重复。
Figure BDA0003546661290000051
为coverage向量添加损失,该覆盖损失会对重复的attention做出惩罚,coverageloss的 计算方式为:
Figure BDA0003546661290000052
其中,
Figure BDA0003546661290000053
表示的是t时刻的注意力权重,且covlosst有上界,
Figure BDA0003546661290000054
最终模型的整体损失函数为:
Figure BDA0003546661290000055
进一步地,设置Beam size为4,利用Beam Search算法搜索接近最优的序列,生成摘要。
综上所述,本发明提出了一种基于改进的UNILM摘要生成方法,该方法利用UNILM模 型在自然语言生成任务中的优势,结合COPY机制提高生成摘要的准确度、降低未登录词出 现频率,摘要质量得到明显提升。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理 解本发明,但应该清楚,本发明不限于具体实施方式的范围。凡采用等同替换或等效替换, 这些变化是显而易见,一切利用本发明构思的发明创造均在保护之列。

Claims (5)

1.一种基于改进的UNILM摘要生成方法,其特征在于,包括以下步骤:
步骤1:文本预处理,获得输入表示;
步骤2:基于UNILM模型进行预训练,利用三种类型的语言模型共同优化同一Transformer网络,每种语言模型使用不同的自注意力掩码机制;
步骤3:利用交叉熵损失函数计算损失,完成基于UNILM模型的预训练;
步骤4:基于UNILM模型进行摘要生成任务,通过Seq-to-Seq语言模型的自注意力掩码机制解码,获得词表概率分布;
步骤5:融合COPY机制,引入生成概率,进一步优化步骤4中生成的词表概率分布;
步骤6:结合交叉熵损失函数和Coverage损失函数作为模型的整体损失函数,利用BeamSearch算法获得预测的摘要序列。
2.根据权利要求1所述的一种基于改进的UNILM摘要生成方法,其特征在于,所述步骤2具体包括以下步骤:
2.1.以BERT-BASE预训练模型初始化参数;
2.2.将训练数据分批输入到UNILM模型中进行训练;
2.3.基于同一Transformer网络结构,以预测不同的MASK作为预训练目标,完成单向、双向以及序列到序列语言模型的预测任务,均匀分配使用不同语言模型的时间。
2.4采用稀疏的Softmax函数预测MASK的概率分布,避免普通Softmax过度学习的问题。
3.根据权利要求1所述的一种基于改进的UNILM摘要生成方法,其特征在于:所述步骤4具体包括以下步骤:
4.1.利用序列到序列模型的自注意力掩码机制,随机MASK目标序列中的分词,并掩蔽序列末尾以学习何时停止生成摘要;
4.2.以给定上下文信息的情况下最大化分词的概率为训练目标,利用MASK机制融合编码和解码过程,结合注意力机制获得文本特征向量;
4.3.将解码所得特征向量输入全连接层,采用稀疏的Softmax函数获得词表概率分布。
4.根据权利要求1所述的一种基于改进的UNILM摘要生成方法,其特征在于:所述步骤5具体包括以下步骤:
5.1.将步骤4所得词表概率输入全连接层和Sigmoid层,获得生成概率,融合生成概率、词表概率分布及注意力分布,产生改进的词表概率分布,此COPY机制有效地提升生成摘要细节准确性,并可降低未登录词出现的概率。
5.根据权利要求1所述的一种基于改进的UNILM摘要生成方法,其特征在于:所述步骤6引入Coverage损失,以解决生成词的重复问题。
CN202210250558.XA 2022-03-15 2022-03-15 一种基于改进的unilm摘要生成方法 Active CN114691858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210250558.XA CN114691858B (zh) 2022-03-15 2022-03-15 一种基于改进的unilm摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210250558.XA CN114691858B (zh) 2022-03-15 2022-03-15 一种基于改进的unilm摘要生成方法

Publications (2)

Publication Number Publication Date
CN114691858A true CN114691858A (zh) 2022-07-01
CN114691858B CN114691858B (zh) 2023-10-03

Family

ID=82139920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210250558.XA Active CN114691858B (zh) 2022-03-15 2022-03-15 一种基于改进的unilm摘要生成方法

Country Status (1)

Country Link
CN (1) CN114691858B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982342A (zh) * 2022-12-27 2023-04-18 中科天网(广东)标准技术研究有限公司 基于成果转换标准的整合制定方法及系统
CN116629324A (zh) * 2023-07-26 2023-08-22 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法

Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101764661A (zh) * 2008-12-23 2010-06-30 未序网络科技(上海)有限公司 基于数据融合的视频节目推荐系统
CN101763351A (zh) * 2008-12-23 2010-06-30 未序网络科技(上海)有限公司 基于数据融合的视频节目推荐方法
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109766465A (zh) * 2018-12-26 2019-05-17 中国矿业大学 一种基于机器学习的图文融合图书推荐方法
US20190384810A1 (en) * 2018-06-15 2019-12-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method of training a descriptive text generating model, and method and apparatus for generating descriptive text
CN110737769A (zh) * 2019-10-21 2020-01-31 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN110909736A (zh) * 2019-11-12 2020-03-24 北京工业大学 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法
CN111026858A (zh) * 2019-11-29 2020-04-17 腾讯科技(深圳)有限公司 基于项目推荐模型的项目信息处理方法及装置
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111309896A (zh) * 2020-01-20 2020-06-19 华南理工大学 基于二级注意力的深度学习文本摘要生成方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112559702A (zh) * 2020-11-10 2021-03-26 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN112699231A (zh) * 2020-12-25 2021-04-23 科讯嘉联信息技术有限公司 基于滑窗相关性计算和Copy机制的工单摘要总结方法
CN112861548A (zh) * 2021-02-10 2021-05-28 百度在线网络技术(北京)有限公司 自然语言生成及模型的训练方法、装置、设备和存储介质
US20210200957A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating dialogue model
CN113127652A (zh) * 2020-01-15 2021-07-16 腾讯科技(北京)有限公司 一种摘要获取方法、设备及计算机可读存储介质
CN113222110A (zh) * 2021-03-31 2021-08-06 京东方科技集团股份有限公司 摘要生成模型训练方法、装置、电子设备和非瞬态计算机可读存储介质
CN113361285A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 自然语言处理模型的训练方法、自然语言处理方法及装置
CN113535941A (zh) * 2021-06-30 2021-10-22 杭州电子科技大学 一种基于语义匹配的间隙句生成的文本摘要方法
CN113590810A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及系统
CN113688231A (zh) * 2021-08-02 2021-11-23 北京小米移动软件有限公司 一种答案文本的摘要提取方法及装置、电子设备及介质
CN114139497A (zh) * 2021-12-13 2022-03-04 国家电网有限公司大数据中心 一种基于bertsum模型的文本摘要提取方法
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法

Patent Citations (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763351A (zh) * 2008-12-23 2010-06-30 未序网络科技(上海)有限公司 基于数据融合的视频节目推荐方法
CN101764661A (zh) * 2008-12-23 2010-06-30 未序网络科技(上海)有限公司 基于数据融合的视频节目推荐系统
US20190384810A1 (en) * 2018-06-15 2019-12-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method of training a descriptive text generating model, and method and apparatus for generating descriptive text
CN109543180A (zh) * 2018-11-08 2019-03-29 中山大学 一种基于注意力机制的文本情感分析方法
CN109766465A (zh) * 2018-12-26 2019-05-17 中国矿业大学 一种基于机器学习的图文融合图书推荐方法
CN110737769A (zh) * 2019-10-21 2020-01-31 南京信息工程大学 一种基于神经主题记忆的预训练文本摘要生成方法
CN110929030A (zh) * 2019-11-07 2020-03-27 电子科技大学 一种文本摘要和情感分类联合训练方法
CN110909736A (zh) * 2019-11-12 2020-03-24 北京工业大学 一种基于长短期记忆模型与目标检测算法的图像描述方法
CN111026858A (zh) * 2019-11-29 2020-04-17 腾讯科技(深圳)有限公司 基于项目推荐模型的项目信息处理方法及装置
US20210200957A1 (en) * 2019-12-27 2021-07-01 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for generating dialogue model
CN113127652A (zh) * 2020-01-15 2021-07-16 腾讯科技(北京)有限公司 一种摘要获取方法、设备及计算机可读存储介质
CN111309896A (zh) * 2020-01-20 2020-06-19 华南理工大学 基于二级注意力的深度学习文本摘要生成方法
CN111274764A (zh) * 2020-01-23 2020-06-12 北京百度网讯科技有限公司 语言生成方法、装置、计算机设备及存储介质
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112559702A (zh) * 2020-11-10 2021-03-26 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN112699231A (zh) * 2020-12-25 2021-04-23 科讯嘉联信息技术有限公司 基于滑窗相关性计算和Copy机制的工单摘要总结方法
CN112861548A (zh) * 2021-02-10 2021-05-28 百度在线网络技术(北京)有限公司 自然语言生成及模型的训练方法、装置、设备和存储介质
CN113222110A (zh) * 2021-03-31 2021-08-06 京东方科技集团股份有限公司 摘要生成模型训练方法、装置、电子设备和非瞬态计算机可读存储介质
CN113361285A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 自然语言处理模型的训练方法、自然语言处理方法及装置
CN113535941A (zh) * 2021-06-30 2021-10-22 杭州电子科技大学 一种基于语义匹配的间隙句生成的文本摘要方法
CN113688231A (zh) * 2021-08-02 2021-11-23 北京小米移动软件有限公司 一种答案文本的摘要提取方法及装置、电子设备及介质
CN113590810A (zh) * 2021-08-03 2021-11-02 北京奇艺世纪科技有限公司 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN113609840A (zh) * 2021-08-25 2021-11-05 西华大学 一种汉语法律判决摘要生成方法及系统
CN114169312A (zh) * 2021-12-08 2022-03-11 湘潭大学 一种针对司法裁判文书的两阶段混合式自动摘要方法
CN114139497A (zh) * 2021-12-13 2022-03-04 国家电网有限公司大数据中心 一种基于bertsum模型的文本摘要提取方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AYHAM ALOMARI等: "Deep reinforcement and transfer learning for abstractive text summarization: A review", pages 1 - 43 *
NIKITA MARKOVNIKOV等: "Investigating Joint CTC-Attention Models for End-to-End Russian Speech Recognition", pages 337 *
谢鸣元;: "基于文本类别的文本自动摘要模型", no. 01, pages 212 - 214 *
赵洪;: "生成式自动文摘的深度学习方法综述", no. 03, pages 104 - 118 *
陈立群;郭文忠;郭昆;张祖文;: "一种融合信息选择和语义关联的文本摘要模型", no. 04, pages 49 - 56 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982342A (zh) * 2022-12-27 2023-04-18 中科天网(广东)标准技术研究有限公司 基于成果转换标准的整合制定方法及系统
CN115982342B (zh) * 2022-12-27 2023-08-25 中科天网(广东)标准技术研究有限公司 基于成果转换标准的整合制定方法及系统
CN116629324A (zh) * 2023-07-26 2023-08-22 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法
CN116629324B (zh) * 2023-07-26 2023-10-03 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法

Also Published As

Publication number Publication date
CN114691858B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN109543180B (zh) 一种基于注意力机制的文本情感分析方法
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN110825845A (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111160467A (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN114691858A (zh) 一种基于改进的unilm摘要生成方法
CN112818646A (zh) 基于生成对抗网络和动态编辑模块的根据文本编辑图片的方法
CN112818159A (zh) 一种基于生成对抗网络的图像描述文本生成方法
CN111178093B (zh) 一种基于堆叠算法的神经机器翻译系统训练加速方法
CN111881677A (zh) 基于深度学习模型的地址匹配算法
CN110580287A (zh) 基于迁移学习和on-lstm的情感分类方法
CN108932232A (zh) 一种基于lstm神经网络的蒙汉互译方法
CN112395417A (zh) 基于深度学习的网络舆情演化仿真方法及系统
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN111309896B (zh) 基于二级注意力的深度学习文本摘要生成方法
Liu Neural question generation based on Seq2Seq
CN111428518B (zh) 一种低频词翻译方法及装置
CN114220095A (zh) 一种基于实例分割的图像语义描述改进方法
CN117763363A (zh) 基于知识图谱与提示学习的跨网络学术社区资源推荐方法
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
Guo et al. Ernie-bilstm based Chinese text sentiment classification method
CN112464673A (zh) 融合义原信息的语言含义理解方法
CN114238649A (zh) 一种常识概念增强的语言模型预训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant