CN113312473B - 基于Seq2seq模型的摘要生成方法 - Google Patents

基于Seq2seq模型的摘要生成方法 Download PDF

Info

Publication number
CN113312473B
CN113312473B CN202110580129.4A CN202110580129A CN113312473B CN 113312473 B CN113312473 B CN 113312473B CN 202110580129 A CN202110580129 A CN 202110580129A CN 113312473 B CN113312473 B CN 113312473B
Authority
CN
China
Prior art keywords
input
representing
node
abstract
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110580129.4A
Other languages
English (en)
Other versions
CN113312473A (zh
Inventor
郭树理
宋晓伟
韩丽娜
杨文涛
王国威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan College Of Software Technology
Beijing Institute of Technology BIT
Second Medical Center of PLA General Hospital
Original Assignee
Hainan College Of Software Technology
Beijing Institute of Technology BIT
Second Medical Center of PLA General Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan College Of Software Technology, Beijing Institute of Technology BIT, Second Medical Center of PLA General Hospital filed Critical Hainan College Of Software Technology
Priority to CN202110580129.4A priority Critical patent/CN113312473B/zh
Publication of CN113312473A publication Critical patent/CN113312473A/zh
Application granted granted Critical
Publication of CN113312473B publication Critical patent/CN113312473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于Seq2seq模型的摘要生成方法,属于自然语言生成领域。该方法首先将待生成摘要的文本转化为词向量序列;然后将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。进一步的,对Seq2seq模型中的Encoder编码模型进行了改进,重新定义了LSTM隐层单个细胞节点的输入门和遗忘门结构;对Encoder训练过程中用到的损失函数进行了优化,将训练数据分为子系统,根据不同子系统属性的不同选取适合于子系统特性的损失函数,并根据条件信息熵来计算不同子系统所含信息量的多少,将条件信息熵作为子系统损失函数的权重得到系统的损失函数。对比现有技术,本发明首次将翻译模型Seq2seq用于摘要生成,并根据摘要特点,对Seq2seq进行改进,提高了其在摘要生成时的训练速度和精度。

Description

基于Seq2seq模型的摘要生成方法
技术领域
本发明涉及一种摘要生成方法,特别涉及一种基于Seq2seq模型的摘要生成方法,属于人工智能自然语言生成技术领域。
背景技术
随着社会发展进入大数据时代,各色各样的文本信息出现在人们的日常生活中,微博、微信、新闻等大量的文本信息无时无刻不出现在人们周围,这导致人们被大量无用的信息所干扰,从而无法获取到有用的信息。如果人们在看到大量的文本信息前,首先看到这些文本的摘要,进而确定此文本是否为自己需要的有用信息,这样就可以大大减少被无用信息干扰的可能性,从而方便人们的生活工作。但是无论是互联网海量的数据资源,还是医院中病历等专业信息,一般都没有摘要,如果要为这些文件提供摘要,将会耗费大量的人力资源,并且像病历这类专业的文件需要专业的医生来整理,否则可能会产生差异化不准确的摘要信息,影响数据的使用。随着人工智能技术的逐渐发展与完善,特别是神经网络技术的不断应用,用机器来为文章自动生成摘要迫在眉睫。
发明内容
本发明的目的为了解决当前信息爆炸时代文本数据量大、信息种类多且繁杂和阅读效率低的问题,提供一种基于Seq2seq模型的摘要生成方法。
本发明的目的是通过以下技术内容实现的。
一种基于Seq2seq模型的摘要生成方法,包括以下内容:
将待生成摘要的文本转化为词向量序列;
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。
作为优选,对所述Seq2seq模型中的Encoder编码模型进行修改,将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:
Figure BDA0003085844920000021
Figure BDA0003085844920000022
Figure BDA0003085844920000023
Figure BDA0003085844920000024
其中,I表示输入节点数,H表示输出节点数,C表示隐藏节点数,wil表示输入门中输入节点i到隐藏节点l的连接权重,
Figure BDA0003085844920000025
表示t时刻第i个节点的输入,γb表示输入门中输出节点系数,whl表示输入门中输出节点h到隐藏节点l的连接权重,
Figure BDA0003085844920000026
表示t时刻第h个节点的输出,γs表示输入门中隐藏节点系数,wcl表示输入门中隐藏节点c到隐藏节点l的连接权重,
Figure BDA0003085844920000027
表示t时刻第c个节点的状态,
Figure BDA0003085844920000028
表示t时刻输入门的状态,
Figure BDA0003085844920000029
表示t时刻输入门的输出,g(·)表示输入门的激活函数,w表示遗忘门中输入节点i到隐藏节点φ的连接权重,λb表示遗忘门中输出节点系数,w表示遗忘门中输出节点h到隐藏节点φ的连接权重,λs表示遗忘门中隐藏节点系数,w表示遗忘门中隐藏节点c到隐藏节点φ的连接权重,
Figure BDA00030858449200000210
表示t时刻遗忘门的状态,
Figure BDA00030858449200000211
表示t时刻遗忘门的输出,f(·)表示遗忘门的激活函数,||·||*表示核范数,max(·)表示最大值函数。
作为优选,对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化:
①训练过程中每次训练数据输入文本信息和输出信息“摘要”视为一个整体信息系统,利用输入文本信息的属性信息将整体信息分为不同属性的子系统;
所述整体信息系统是一个三元组S=〈X,Y,C〉,其中X={x1,x2,...,xi,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本每种属性的文本视为一个子系统;Y={y1,y2,...,yi,...,yn},为训练过程的输出摘要文本,其中yi与xi对应,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,ci,...,cn}是输入数据的条件属性标签,所述子系统为根据输入文本的属性标签拆分得到的,(xi,yi|ci),i=1,2,...,n,表示第i个子系统;
②根据每个子系统的输入数据属性标签,选取针对于子系统合适的损失函数L1,L2,...,Ln
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+...+SGF(cn)Ln
作为优选,所述子损失函数的自适应权重SGF(ci)的计算公式为:
Figure BDA0003085844920000031
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
作为优选,所述H(ci)通过下式计算:
Figure BDA0003085844920000032
其中p(xi,yi)为第i个子系统文本信息和摘要信息同时发生的概率,p(yi)为第i个子系统摘要信息发生的概率。
④针对当前训练数据的特性,计算自适应权重w(p,q),用于对初始损失函数进行自适应动态惯性调整;
w(p,q)=fg(Δgpq)·fs(Δspq)
其中,fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重;
作为优选,所述数值上的权重fg(Δgpq)根据局部数据相似性原则函数进行定义,同时为了保证算法的实时性要求和上下文流畅性,利用多次幂多项式核函数Cd(x,y)定义数值上的权重fg(Δgpq)为:
Figure BDA0003085844920000041
其中a为截断值,与数据值的整体分布有关,依据经验决定。
作为优选,多次幂多项式核函数Cd(x,y)为
Figure BDA0003085844920000042
作为优选,所述空间上的权重fs(Δspq)定义为服从二维正态分布,同时为了增加语言生成时上下文的连贯性,将上下文的输出数据特性也加入到权值调整过程中,此时fs(Δspq)表达式为:
Figure BDA0003085844920000043
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数,与数据值的空间分布有关,依据经验决定。
⑤利用自适应权重对初始损失函数进行调整,最终得到多重融合损失函数L=w(p,q)L0
有益效果:
对比现有技术,本发明具有以下效果:
①通过对seq2seq模型中Encoder部分隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度,从而在尽可能保留上下文信息的条件下提升网络训练速度。
②Seq2seq模型训练时,通过将训练数据分为子系统,根据不同子系统属性的不同选取适合于子系统特性的损失函数,并根据条件信息熵来计算不同子系统所含信息量的多少,将条件信息熵作为子系统损失函数的权重得到系统的损失函数,通过该方法生成的损失函数可以最大程度的结合输入数据的特征,满足不同属性输入数据对损失函数的要求,进而提升模型的训练速度和精度。
③在构建系统的损失函数中,利用自适应动态惯性权重对函数进行调整,所述自适应动态惯性权重主要由空间权重和数值权重组成,可以利用权重提取训练数据在不同时刻空间和数值上的特征,自适应的动态调整损失函数对当前训练数据的适应能力,同时平滑融合损失函数带来的不确定性,提升损失函数的适应能力。
附图说明
图1为基于条件信息熵和自适应动态惯性权重调整的损失函数的工作流程图;
图2为Seq2seq模型的训练速度示意图;
图3为本发明改进的Seq2seq模型训练速度示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例当中的技术方案进行清楚、完整地描述,需要说明的是,本说明书所附图中示意的公式等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,任何公式的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
实施例1
一种基于Seq2seq模型的摘要生成方法,包括以下内容:
将待生成摘要的文本转化为词向量序列;
该步骤可以采用现有的分词工具对待生成摘要的文本进行分词,如最大匹配分词法、全切分分词算法、隐马尔可夫模型,然后,对分词构造词向量,该步骤也可以采用现有的词向量工具实现,如one-hot编码、Distributed编码等。
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要。
进一步的,由于现有Seq2seq模型在摘要生成训练过程缓慢,耗费时间过长通过分析其编码结构,发现可以通过对隐层神经网络节点的输入门和遗忘门加入自适应权重调整权值调整,动态的调整隐层节点在不同时刻对上一时刻信息的更新和保留程度,从而在尽可能保留上下文信息的条件下提升网络训练速度。
具体的,对所述Seq2seq模型中的Encoder编码模型的改进为,将LSTM隐层单个细胞节点的输入门和遗忘门计算公式做出了改进,利用核函数计算每个隐层所蕴含的原文本语义信息,并选取当前数值最大项作为当前输入门和遗忘门的系数,从而进一步强化对之前信息的记忆或者遗忘程度,提升编码模型的训练速度。LSTM模型每一个细胞节点的输入门和遗忘门结构计算如下:
Figure BDA0003085844920000061
Figure BDA0003085844920000062
Figure BDA0003085844920000063
Figure BDA0003085844920000064
进一步的,由于现有Seq2seq模型应用于摘要生成时,输入数据过于庞大而复杂,包含不同属性类型的数据,通过分析其损失函数,发现单一损失函数无法满足多样化输入数据对损失函数的要求,进而造成训练耗费时间长,模型精度不高的问题,可以通过对样本分类,对每个分类样本单独设置损失函数,并在训练过程中依惯性调整,最后再根据各分类的重要性程度进行融合,从而极大地减少模型训练时间,增加模型精度。
具体的,如图1所示,损失函数优化过程如下:
①将训练过程中每次训练数据输入文本信息和输出信息摘要视为一个整体信息系统,利用输入文本信息的属性信息(如数据、引言、方法描述和总结等)将整体信息分为不同属性的子系统。
所述整体信息系统是一个三元组S=〈X,Y,C〉,其中X={x1,x2,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本,如数据文本和引言文本等,每种属性的文本视为一个子系统;Y={y1,y2,...,yn},为训练过程的输出摘要文本,其中yi与xi对应据,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,cn}是输入数据的条件属性标签,即数据、引言、方法描述和总结等标签。所述子系统为根据输入文本的属性标签拆分得到的(xi,yi|ci),i=1,2,...,n子系统。
②根据每个子系统的输入数据属性标签ci,选取针对于子系统合适的损失函数L1,L2,...,Ln
本例假设有四项子系统,由于不同属性的文本在摘要生成中所起作用不同,如摘要中很少体现数据文本的内容,而相应会侧重于体现方法描述文本的内容,因此在训练文本的过程中,可以根据不同的子系统属性动态挑选不同的损失函数。根据子系统的输入数据属性标签c1-c4,选取针对于子系统合适的损失函数L1,L2,L3,L4
Figure BDA0003085844920000071
Figure BDA0003085844920000072
Figure BDA0003085844920000081
Figure BDA0003085844920000082
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+SGF(c3)L3...+SGF(c4)L4
所述子损失函数的自适应权重SGF(ci)的计算公式为:
Figure BDA0003085844920000083
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
进一步的,设定H(ci)通过概率实现,计算公式如下:
Figure BDA0003085844920000084
其中p(xi,yi)为第i个子系统文本信息和摘要信息同时发生的概率,p(yi)为第i个子系统摘要信息发生的概率。
④针对当前训练数据的特性,计算自适应权重w(p,q),以对函数权值进行自适应动态惯性调整。
w(p,q)=fg(Δgpq)·fs(Δspq)
所述步骤中的fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重。
在训练时,一般是将样本每5—20个分为一组,每组训练时或称阶段训练时,根据本阶段训练样本特性,调整所述w(p,q)。
进一步的,所述数值上的权重fg(Δgpq)根据局部数据相似性原则函数进行定义,同时为了保证算法的实时性要求和上下文流畅性,利用多次幂多项式核函数Cd(x,y)定义数值上的权重fg(Δgpq)为:
Figure BDA0003085844920000091
其中a为截断值,与数据值的整体分布有关,依据经验决定。多次幂多项式核函数Cd(x,y)为
Figure BDA0003085844920000092
所述空间上的权重fs(Δspq)定义为服从二维正态分布,同时为了增加语言生成时上下文的连贯性,将上下文的输出数据特性也加入到权值调整过程中,此时fs(Δspq)表达式为:
Figure BDA0003085844920000093
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数,与数据值的空间分布有关,依据经验决定给出。
⑤利用惯性权重对初始损失函数进行调整,最终得到多种融合损失函数L=w(p,q)L0
实验结果
本试验利用NLPCC 2017提供的数据集(NLPCC 2017Shared Task Data)对上述改进隐层节点和损失函数的seq2seq模型进行训练。本实验的运行环境为ubuntu18.04、python3.7、GeForce RTX 20Series,模型误差和训练速度的关系如下所示,图2为原模型的网络训练速度示意关系,图3为改进的网络训练速度示意,从图中可以看出经过改进网络模型和损失函数的seq2seq编码模型在训练过程中可以极大地提升网络的训练速度,随着训练次数的增加,改进模型的训练误差下降速度更快。
综上所述,本发明方法首次将seq2seq模型用于摘要生成,并且通过改进神经网络隐层节点结构解决了模型中隐层参数过于随机,训练困难的问题;基于改进优化的损失函数使得编码网络具有动态调节输出和优化训练能力,提升输入样本量的能力。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于Seq2seq模型的摘要生成方法,其特征在于,包括以下内容:
将待生成摘要的文本转化为词向量序列;
将词向量序列输入经训练的Seq2seq模型得到的输出作为摘要;
对所述Seq2seq模型中的Encoder编码模型进行修改,将LSTM隐层单个细胞节点的输入门和遗忘门结构计算公式改进如下:
Figure FDA0003584750560000011
Figure FDA0003584750560000012
Figure FDA0003584750560000013
Figure FDA0003584750560000014
其中,I表示输入节点数,H表示输出节点数,C表示隐藏节点数,wil表示输入门中输入节点i到隐藏节点l的连接权重,
Figure FDA0003584750560000015
表示t时刻第i个节点的输入,γb表示输入门中输出节点系数,whl表示输入门中输出节点h到隐藏节点l的连接权重,
Figure FDA0003584750560000016
表示t时刻第h个节点的输出,γs表示输入门中隐藏节点系数,wcl表示输入门中隐藏节点c到隐藏节点l的连接权重,
Figure FDA0003584750560000017
表示t时刻第c个节点的状态,
Figure FDA0003584750560000018
表示t时刻输入门的状态,
Figure FDA0003584750560000019
表示t时刻输入门的输出,g(·)表示输入门的激活函数,w表示遗忘门中输入节点i到隐藏节点φ的连接权重,λb表示遗忘门中输出节点系数,w表示遗忘门中输出节点h到隐藏节点φ的连接权重,λs表示遗忘门中隐藏节点系数,w表示遗忘门中隐藏节点c到隐藏节点φ的连接权重,
Figure FDA00035847505600000110
表示t时刻遗忘门的状态,
Figure FDA00035847505600000111
表示t时刻遗忘门的输出,f(·)表示遗忘门的激活函数,||·||*表示核范数,max(·)表示最大值函数。
2.根据权利要求1所述的方法,其特征在于,对所述Seq2seq模型中的Encoder编码模型训练过程中用到的损失函数进行如下优化:
①训练过程中每次训练数据输入文本信息和作为输出信息的摘要视为一个整体信息系统,利用输入文本信息的属性信息将整体信息分为不同属性的子系统;
所述整体信息系统是一个三元组S=〈X,Y,C〉,其中X={x1,x2,...,xi,...,xn},为训练过程中的输入文本数据,n为输入文本中所含不同属性文本的个数,xi为整体输入文本中不同属性的子文本每种属性的文本视为一个子系统;Y={y1,y2,...,yi,...,yn},为训练过程的输出摘要文本,其中yi与xi对应,为将整体摘要拆分后,与xi相对应的输入文本生成的摘要句子数据;C={c1,c2,...,ci,...,cn}是输入数据的条件属性标签,所述子系统为根据输入文本的属性标签拆分得到的,(xi,yi|ci),i=1,2,...,n,表示第i个子系统;
②根据每个子系统的输入数据属性标签,选取针对于子系统合适的损失函数L1,L2,...,Ln
③利用每个子损失函数的自适应权重SGF(ci),将所有子损失函数融合得到总系统的初始损失函数:
L0=SGF(c1)L1+SGF(c2)L2+...+SGF(cn)Ln
④针对当前训练数据的特性,计算动态惯性权重w(p,q),用于对初始损失函数进行自适应动态惯性调整;
w(p,q)=fg(Δgpq)·fs(Δspq)
其中,fg(Δgpq)和fs(Δspq)分别代表当前训练数据中心数据p与邻域数据q在数值上的权重和空间上的权重;
⑤利用动态惯性权重对初始损失函数进行调整,最终得到多重融合损失函数L=w(p,q)L0
3.根据权利要求2所述的方法,其特征在于,所述子损失函数的自适应权重SGF(ci)的计算公式为:
Figure FDA0003584750560000031
其中H(ci)为第i个子系统的条件信息熵,H(C)为整体系统的信息熵,为各子系统信息熵累加得到。
4.根据权利要求3所述的方法,其特征在于,所述H(ci)通过下式计算:
Figure FDA0003584750560000032
其中p(xi,yi)为第i个子系统文本信息和摘要信息同时发生的概率,p(yi)为第i个子系统摘要信息发生的概率。
5.根据权利要求2所述的方法,其特征在于,所述fg(Δgpq)通过下式计算:
Figure FDA0003584750560000033
其中a为截断值,Cd(x,y)为多次幂多项式核函数。
6.根据权利要求2所述的方法,其特征在于,所述fs(Δspq)通过下式计算:
Figure FDA0003584750560000034
其中σx,σy为数据在x和y空间方向上分布系数,Q为空间权重的整体系数。
CN202110580129.4A 2021-05-26 2021-05-26 基于Seq2seq模型的摘要生成方法 Active CN113312473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110580129.4A CN113312473B (zh) 2021-05-26 2021-05-26 基于Seq2seq模型的摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110580129.4A CN113312473B (zh) 2021-05-26 2021-05-26 基于Seq2seq模型的摘要生成方法

Publications (2)

Publication Number Publication Date
CN113312473A CN113312473A (zh) 2021-08-27
CN113312473B true CN113312473B (zh) 2022-06-07

Family

ID=77375071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110580129.4A Active CN113312473B (zh) 2021-05-26 2021-05-26 基于Seq2seq模型的摘要生成方法

Country Status (1)

Country Link
CN (1) CN113312473B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170158B2 (en) * 2018-03-08 2021-11-09 Adobe Inc. Abstractive summarization of long documents using deep learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN109344391A (zh) * 2018-08-23 2019-02-15 昆明理工大学 基于神经网络的多特征融合中文新闻文本摘要生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUEFENG XI等.Global Encoding for Long Chinese Text Summarization.《ACM Trans. Asian Low-Resour. Lang. Inf. Process.》.2020,第19卷(第6期), *
丁建立等.基于双编码器的短文本自动摘要方法.《计算机应用》.2019,第39卷(第12期),3476-3481. *
方旭等.核心词修正的Seq2Seq短文摘要.《计算机工程与设计》.2018,第39卷(第12期),361-3615. *

Also Published As

Publication number Publication date
CN113312473A (zh) 2021-08-27

Similar Documents

Publication Publication Date Title
CN110210499A (zh) 一种图像语义描述的自适应生成系统
CN113254610B (zh) 面向专利咨询的多轮对话生成方法
CN112632290A (zh) 一种融合图结构和文本信息的自适应知识图谱表示学习方法
Lin et al. Deep structured scene parsing by learning with image descriptions
Hu et al. Hiure: Hierarchical exemplar contrastive learning for unsupervised relation extraction
CN112183058B (zh) 基于bert句子向量输入的诗词生成方法及装置
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN115600581A (zh) 一种使用句法信息的受控文本生成方法
Zhao et al. Synchronously improving multi-user English translation ability by using AI
CN112287692B (zh) 一种跨语言词嵌入的方法、移动终端和计算机存储介质
CN116362245A (zh) 基于非结构化文本数据的opc ua信息模型构建方法
CN113590803A (zh) 一种数据处理方法、装置、存储介质和计算机设备
CN113312473B (zh) 基于Seq2seq模型的摘要生成方法
Li et al. Using case facts to predict penalty with deep learning
JP2019079088A (ja) 学習装置、プログラムパラメータおよび学習方法
Wang The application of computer-based multimedia technology in cognitive computing
KR19990047854A (ko) 메타데이타에 의한 정보 검색의 지능형 사용자 인터페이스 방법
CN113220870B (zh) 一种自然语言的摘要生成方法
Gao et al. Web services classification based on intelligent clustering techniques
Yang et al. Unitabe: Pretraining a unified tabular encoder for heterogeneous tabular data
CN114492417A (zh) 一种可解释的深度学习方法、可解释深度学习装置、计算机和介质
CN113590691A (zh) 目标对象处理方法以及装置
Zakharov et al. Towards controllable image descriptions with semi-supervised VAE
CN111737591A (zh) 一种基于异质重边信息网络翻译模型的产品推荐方法
Kavitha et al. Oppositional Harris Hawks Optimization with Deep Learning-Based Image Captioning.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant