CN112711661A - 跨语言自动摘要生成方法、装置、计算机设备及存储介质 - Google Patents

跨语言自动摘要生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN112711661A
CN112711661A CN202011642808.1A CN202011642808A CN112711661A CN 112711661 A CN112711661 A CN 112711661A CN 202011642808 A CN202011642808 A CN 202011642808A CN 112711661 A CN112711661 A CN 112711661A
Authority
CN
China
Prior art keywords
sequence
text
candidate
neural network
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011642808.1A
Other languages
English (en)
Inventor
李文禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Runlian Smart Technology Xi'an Co ltd
Original Assignee
Runlian Smart Technology Xi'an Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Smart Technology Xi'an Co ltd filed Critical Runlian Smart Technology Xi'an Co ltd
Priority to CN202011642808.1A priority Critical patent/CN112711661A/zh
Publication of CN112711661A publication Critical patent/CN112711661A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了跨语言自动摘要生成方法、装置、计算机设备及存储介质,该方法包括:获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。本发明可以有效提高对于跨语言文本的摘要生成准确度以及摘要生成效率。

Description

跨语言自动摘要生成方法、装置、计算机设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,特别涉及跨语言自动摘要生成方法、装置、计算机设备及存储介质。
背景技术
随着互联网技术的不断发展,国际间的交流越来越频繁,人们接触到的信息呈几何式增长,在面对数量庞大的网络信息流,如何有效地挑选出自己需要的信息变得日益重要,而文本自动生成摘要技术正是解决这一问题的手段之一,尤其是跨语言自动摘要技术帮助人们快速浏览海量的国际新闻,文献,能够帮助人们有效地理解以陌生外语撰写的文章要旨。
传统的跨语言摘要生成方法一般采用先生成摘要然后翻译的方法或者采用先翻译然后生成摘要的方法。这种流水线的方法直观且简单,但是由于平行数据的缺失,上述方法会面临严重的误差传播问题,使得摘要质量受到极大的制约。同时,由于获取跨语言摘要数据集的困难,一些先前的研究集中在零样本学习上,即使用机器翻译或单语言摘要或同时使用这两种方法来训练跨语言摘要生成系统。
另外,当前的相关技术中,使用来回翻译策略来获取大规模跨语言摘要数据集,即通过多任务学习将机器翻译和单语言摘要生成合并到跨语言摘要的训练中,以提高摘要质量。然而这种方法存在两个问题:(1)多任务方法采用来自其他任务的超大规模并行数据,导致对数据的依赖严重,进而迁移到资源较少的语言上更加困难。(2)多任务方法要么需要同时训练跨语言的摘要和单语言的摘要,要么交替训练跨语言的摘要和机器翻译,导致极大地消耗时间。
发明内容
本发明实施例提供了一种跨语言自动摘要生成方法、装置、计算机设备及存储介质,旨在提高对于跨语言文本的摘要生成准确度以及摘要生成效率。
第一方面,本发明实施例提供了一种跨语言自动摘要生成方法,包括:
获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;
基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;
利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;
通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。
第二方面,本发明实施例提供了一种跨语言自动摘要生成装置,包括:
获取单元,用于获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;
全局编码单元,用于基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;
第一解码单元,用于利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;
约束评分单元,用于通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的跨语言自动摘要生成方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的WiFi模块自动化测试方法。
本发明实施例提供了一种跨语言自动摘要生成方法、装置、计算机设备及存储介质,该方法包括:获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。本发明实施例通过融合卷积神经网络和循环神经网络对双语文本进行全局编码,并结合注意力机制和Transformer网络,有效地捕获文本上下文的信息,同时引入用于摘要解码的集束搜索算法,从而提高对于跨语言文本的摘要生成准确度以及摘要生成效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种跨语言自动摘要生成方法的流程示意图;
图2为本发明实施例提供的一种跨语言自动摘要生成方法中步骤S102的子流程示意图;
图3为本发明实施例提供的一种跨语言自动摘要生成方法中步骤S204的子流程示意图;
图4为本发明实施例提供的一种跨语言自动摘要生成方法中步骤S103的子流程示意图;
图5为本发明实施例提供的一种跨语言自动摘要生成方法中步骤S104的子流程示意图;
图6为本发明实施例提供的一种跨语言自动摘要生成方法的另一流程示意图;
图7为本发明实施例提供的一种跨语言自动摘要生成装置的示意性框图;
图8为本发明实施例提供的一种跨语言自动摘要生成装置中全局编码单元702的子示意性框图;
图9为本发明实施例提供的一种跨语言自动摘要生成装置中筛选单元804的子示意性框图;
图10为本发明实施例提供的一种跨语言自动摘要生成装置中第一解码单元703的子示意性框图;
图11为本发明实施例提供的一种跨语言自动摘要生成装置中约束评分单元704的子示意性框图;
图12为本发明实施例提供的一种跨语言自动摘要生成装置的另一示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1为本发明实施例提供的一种跨语言自动摘要生成方法的流程示意图,具体包括:步骤S101~S104。
S101、获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;
S102、基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;
S103、利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;
S104、通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。
本实施例中,融合所述卷积神经网络和循环神经网络对待生成摘要的双语文本形成的文本数据集中的上下文信息进行全局编码,以得到对应的概要状态序列,通过所述多层Transformer网络和自注意力机制对所述概要状态序列进行解码和计算等操作,从而得到候选文本摘要,然后利用集束搜索算法对所述候选文本摘要进行约束评分,从而获取最终的摘要文本。
本实施例对所述卷积神经网络和循环神经网络进行融合以对所述文本数据集进行全局编码,并结合Transformer网络和注意力机制有效地捕获上下文的信息,此外通过集束搜索算法进行摘要解码约束,从而提高最终生成摘要的准确性和效率。需要说明的是,本实施例提供的跨语言自动摘要生成方法特别适用于规模较小的跨语言摘要生成,从而降低对于数据的依赖,提供摘要生成效率。另外,本实施例所述的双语文本可以是包含中文和英文的双语文本,当然也可以是包含其他语言的双语文本,所述双语文本的内容例如可以是一篇论文、一篇报道等。
在一具体实施例中,所述获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集,包括:
根据实际应用需求获取待生成摘要的双语文本,例如获取一段待生成摘要的双语论文等;
将所述双语文本中的无用符号删除;
采用分词工具对所述双语文本中的中文文本进行分词处理,以及对所述双语文本中的英文文本进行词性还原和词性标注处理;
将所述双语文本中的停用词去除,然后将所述双语文本中的文档转换成向量,并根据得到的向量构建所述文本数据集。
在另一具体实施例中,采用En2ZhSum数据集作为待生成摘要的双语文本,En2ZhSum数据集是一个英文到中文的摘要数据集,包含370,687个英语文档(平均每篇755个词条)和中文摘要(平均每篇96个汉字)。进一步的,将En2ZhSum数据集划分为364,687个训练对、3,000个验证对和3,000个测试对。
在一实施例中,如图2所示,步骤S102包括:步骤S201~S204。
S201、将所述卷积神经网络和循环神经网络融合为编码器;
S202、将所述文本数据集中的上下文信息作为所述编码器的文本输入序列输入至所述编码器中;
S203、通过所述编码器将所述文本输入序列映射为隐藏序列;
S204、对所述隐藏序列进行筛选,得到所述概要状态序列。
本实施例中,对所述卷积神经网络和循环神经网络进行融合,从而得到用于对文本数据集中的上下文信息进行全局编码的编码器。利用该编码器将所述文本数据集中的上下文信息最终编码映射为概要状态序列。
在一实施例中,如图3所示,所述步骤S204包括:步骤S301~S304。
S301、按照下式计算所述文本输入序列的状态概要序列s:
Figure BDA0002875372170000061
式中,
Figure BDA0002875372170000062
为映射得到的前向隐状态向量,
Figure BDA0002875372170000063
为由所述编码器映射得到的后向隐状态向量;
S302、按照下式计算元素
Figure BDA0002875372170000064
的信息增益IGi
Figure BDA0002875372170000065
式中,tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量;
S303、按照下式对元素
Figure BDA0002875372170000066
进行筛选:
Figure BDA0002875372170000067
S304、丢弃
Figure BDA0002875372170000068
的概要状态,从而得到所述概要状态序列
Figure BDA0002875372170000069
本实施例中,对所述隐藏序列进行筛选,得到所述概要状态序列时,根据文本输入序列计算得到对应的状态概要序列,然后对所述状态概要序列中的元素计算信息增益。同时对所述状态概要序列中的元素进行筛选,并将增益小于或者等于0的元素的概要状态丢弃,然后保留所述概要状态序列中的其余概要状态,即最终的概要状态序列。
在一实施例中,如图4所示,所述步骤S103包括:步骤S401~S404。
S401、利用多层Transformer网络对所述概要状态序列进行解码,得到解码序列;
S402、按照下式对所述解码序列进行线性变换:
Figure BDA0002875372170000071
式中,Q表示所述解码序列的查询向量,K表示所述解码序列的键向量,V表示所述解码序列的值向量,W1表示第一层Transformer网络的查询向量矩阵,
Figure BDA0002875372170000072
表示第一层Transformer网络的键向量矩阵,
Figure BDA0002875372170000073
表示第一层Transformer网络的值向量矩阵,Hl-1表示上一层Transformer网络运算后的结果;
S403、按照下式对线性变换的结果进行注意力机制运算,得到自注意力模型的输出结果:
Figure BDA0002875372170000074
式中,dk表示Q和K的维度,Hl-1表示上一层Transformer网络运算后的结果,softmax表示softmax函数,A表示最终经过自注意力模型之后的结果;
S404、按照下式,利用前馈层对自注意力模型的输出结果进行连接并投影,从而得到所述候选文本摘要:
MultiHead(Q,K,V)=Concat(head1,…,headb)WO
Figure BDA0002875372170000075
式中,WO
Figure BDA0002875372170000076
Figure BDA0002875372170000077
均为可学习矩阵。
本实施例中,采用Transformer网络作为解码器,并且堆叠多层双向Transformer编码器模块,每层包含多头自注意力机制块,从不同的位置表示不同的子空间获取信息。在经过多层Transformer网络得到解码结果,首先对Q(查询向量)、K(键向量)、V(值向量)进行第一次线性变换,然后对线性变换结果进行h次(h表示多头自注意力机制块的个数)放缩点积Attention运算,接着对放缩点积Attention运算的结果进行拼接,再对拼接结果进行第二次线性变换,得到自注意力模型的输出结果,然后由前馈层对自注意力模型的输出结果进行连接并投影得到最终值,即所述候选文本摘要。
在一实施例中,所述步骤S401包括:
按照下式对每一层Transformer网络中的多头自注意力机制块的注意力系数计算平均值:
Figure BDA0002875372170000081
式中,αt为每一层Transformer网络中的多头自注意力机制块的注意力系数的平均值,αt h为一个多头注意力机制块,h为第h个多头注意力机制块。
本实施例中,采用编码器-解码器注意力分布αt h以重点关注所述概要状态序列中的一些突出单词。并且由于αt h是一个多头注意力机制块,因此本实施例将平均值作为多头注意力机制块上的注意力系数。
在一实施例中,如图5所示,所述步骤S104包括:步骤S501~S506。
S501、按照下列评分公式对所述候选文本摘要中的每一句子进行评分,并选取评分最高的前B个句子作为待扩展句子:
Figure BDA0002875372170000082
式中,x表示所述候选文本摘要句子中的字符,yt表示当前时刻生成的单词,Yt-1表示至t-1时刻为止扩展得到的候选文本摘要句子的序列Yt-1={y1y2...yt-1};
S502、根据预设的卷积神经网络和循环神经网络的参数θ、集束搜索宽度B及句子扩展的最大步长T对每一所述待扩展句子进行循环扩展,得到B×B个候选句子;
S503、针对每一轮扩展,判断每一所述候选句子的句末扩展生成符号的个数是否达到B个;
S504、若所述候选句子的句末扩展生成符号的个数达到B个,则跳出当前循环,并通过所述评分公式对句末扩展生成符号的个数达到B个的候选句子进行评分;
S505、若所述候选句子的句末扩展生成符号的个数未达到B个,则继续循环扩展,直至循环扩展达到句子扩展的最大步长T,并通过所述评分公式对达到句子扩展的最大步长T的候选句子进行评分;
S506、选择评分最高的候选句子作为最终的摘要文本。
本实施例采用集束搜索算法对所述候选摘要文本进行启发式搜索,以减少搜索范围、降低问题复杂度,从而减少了空间消耗,并提高了时间效率。
具体而言,首先按照所述评分公式对所述候选摘要文本中的每一句子进行评分,并选取评分最高的多个句子作为待扩展句子,例如选取评分最高的前5个句子作为待扩展句子。然后对选取的待扩展句子进行扩展得到相应的候选句子,例如对选取的5个待扩展句子进行5×5的扩展,从而得到25个候选句子。当候选句子的句末扩展生成符号的个数满足要求时,则可以停止扩展,即跳出循环扩展。当候选句子的句末扩展生成符号的个数未满足要求时,则需要继续进行扩展,直至循环扩展达到句子扩展的最大步长,当然,可以理解的是,在继续扩展过程中,如果候选句子的句末扩展生成符号的个数满足要求则同样可以停止扩展。然后对句末扩展生成符号的个数满足要求的候选句子和循环扩展达到句子扩展的最大步长的候选句子进行评分,并选择评分最高的候选句子作为最终的摘要文本。
在一实施例中,如图6所示,所述跨语言自动摘要生成方法还包括:步骤S601~S607。
S601、获取双语词典,利用快速对齐工具对所述双语词典中的单词进行对齐,得到双语并行语料库;
S602、对所述双语并行语料库中的单词进行源序列到目标序列方向的机器翻译以及目标序列到源序列方向的机器翻译;
S603、通过最大似然估计获取源序列到目标序列方向的概率和目标序列到源序列方向的平均值
Figure BDA0002875372170000091
其中,w1为源序列,w2为目标序列;
S604、对获取的平均值进行归一化处理,得到概率双语词典;
S605、在所述概率双语词典中,按照下列公式获取源序列到目标序列方向的概率和目标序列到源序列方向的平均值
Figure BDA0002875372170000092
的翻译概率PT
Figure BDA0002875372170000093
式中,wj为第j个目标序列;
S606、对所述卷积神经网络和循环神经网络中参数分布以及翻译概率PT进行加权求和,得到目标分布,然后根据所述目标分布对所述双语并行语料库中的短语进行重排序处理,并将排序后的结果作为候选序列;
S607、利用所述候选序列对所述卷积神经网络和循环神经网络进行训练,并按照下式对训练后的参数进行目标序列最大化:
Figure BDA0002875372170000094
式中,yt是表示N个单词的随机变量,P是翻译概率PT,X是所述候选序列,θ是所述卷积神经网络和循环神经网络的参数,t是对输出结果的约束。
本实施例中,引入关键短语的重排序机制对所述卷积神经网络和循环神经网络进行训练,以提高所述卷积神经网络和循环神经网络的性能。具体的,首先获取预设的双语词典,并利用快速对齐工具对所述双语词典进行对齐操作,得到包含短语的双语并行语料库,然后在该双语并行语料库上进行源序列到目标序列和目标序列到源序列的机器翻译。优选的,为了提高单词对齐的质量,可以只保持两个方向(例如中文到英文和英文到中文)上的对齐。
接下来,通过最大似然估计得到源序列到目标序列和目标序列到源序列的词典翻译概率平均值
Figure BDA0002875372170000101
进一步的,对得到的词典翻译概率平均值进行归一化处理,以获得概率双语词典。
然后基于词典翻译概率平均值计算概率双语词典的翻译概率,并根据该翻译概率和所述卷积神经网络的参数分布以及所述循环神经网络的参数分布计算得到最终的目标分布,根据所述目标分布即可实现关键短语(即经过所述双语并行语料库中的短语)的重排序。
图7为本发明实施例提供的一种跨语言自动摘要生成装置700的示意性框图,该装置700包括:
获取单元701,用于获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;
全局编码单元702,用于基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;
第一解码单元703,用于利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;
约束评分单元704,用于通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。
在一实施例中,如图8所示,所述全局编码单元702包括:
融合单元801,用于将所述卷积神经网络和循环神经网络融合为编码器;
输入单元802,用于将所述文本数据集中的上下文信息作为所述编码器的文本输入序列输入至所述编码器中;
映射单元803,用于通过所述编码器将所述文本输入序列映射为隐藏序列;
筛选单元804,用于对所述隐藏序列进行筛选,得到所述概要状态序列。
在一实施例中,如图9所示,所述筛选单元804包括:
第一计算单元901,用于按照下式计算所述文本输入序列的状态概要序列s:
Figure BDA0002875372170000111
式中,
Figure BDA0002875372170000112
为映射得到的前向隐状态向量,
Figure BDA0002875372170000113
为由所述编码器映射得到的后向隐状态向量;
第二计算单元902,用于按照下式计算元素
Figure BDA0002875372170000114
的信息增益IGi
Figure BDA0002875372170000115
式中,tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向量;
第三计算单元903,用于按照下式对元素
Figure BDA0002875372170000116
进行筛选:
Figure BDA0002875372170000117
丢弃单元904,用于丢弃
Figure BDA0002875372170000118
的概要状态,从而得到所述概要状态序列
Figure BDA0002875372170000119
在一实施例中,如图10所示,所述第一解码单元703包括:
第二解码单元1001,用于利用多层Transformer网络对所述概要状态序列进行解码,得到解码序列;
线性变换单元1002,用于按照下式对所述解码序列进行线性变换:
Figure BDA00028753721700001110
式中,Q表示所述解码序列的查询向量,K表示所述解码序列的键向量,V表示所述解码序列的值向量,W1表示第一层Transformer网络的查询向量矩阵,
Figure BDA00028753721700001111
表示第一层Transformer网络的键向量矩阵,
Figure BDA00028753721700001112
表示第一层Transformer网络的值向量矩阵,Hl-1表示上一层Transformer网络运算后的结果;
注意力运算单元1003,用于按照下式对线性变换的结果进行注意力机制运算,得到自注意力模型的输出结果:
Figure BDA00028753721700001113
式中,dk表示Q和K的维度,Hl-1表示上一层Transformer网络运算后的结果,softmax表示softmax函数,A表示最终经过自注意力模型之后的结果;
连接投影单元1004,用于按照下式,利用前馈层对自注意力模型的输出结果进行连接并投影,从而得到所述候选文本摘要:
MultiHead(Q,K,V)=Concat(head1,…,headb)WO
Figure BDA0002875372170000121
式中,WO
Figure BDA0002875372170000122
Figure BDA0002875372170000123
均为可学习矩阵。
在一实施例中,所述第二解码单元1001包括:
平均值计算单元,用于按照下式对每一层Transformer网络中的多头自注意力机制块的注意力系数计算平均值:
Figure BDA0002875372170000124
式中,αt为每一层Transformer网络中的多头自注意力机制块的注意力系数的平均值,αt h为一个多头注意力机制块,h为第h个多头注意力机制块。
在一实施例中,如图11所示,所述约束评分单元704包括:
选取单元1101,用于按照下列评分公式对所述候选文本摘要中的每一句子进行评分,并选取评分最高的前B个句子作为待扩展句子:
Figure BDA0002875372170000125
式中,x表示所述候选文本摘要句子中的字符,yt表示当前时刻生成的单词,Yt-1表示至t-1时刻为止扩展得到的候选文本摘要句子的序列Yt-1={y1,y2...yt-1};
循环扩展单元1102,用于根据预设的卷积神经网络和循环神经网络的参数θ、集束搜索宽度B及句子扩展的最大步长T对每一所述待扩展句子进行循环扩展,得到B×B个候选句子;
判断单元1103,用于针对每一轮扩展,判断每一所述候选句子的句末扩展生成符号的个数是否达到B个;
跳出单元1104,用于若所述候选句子的句末扩展生成符号的个数达到B个,则跳出当前循环,并通过所述评分公式对句末扩展生成符号的个数达到B个的候选句子进行评分;
循环评分单元1105,用于若所述候选句子的句末扩展生成符号的个数未达到B个,则继续循环扩展,直至循环扩展达到句子扩展的最大步长T,并通过所述评分公式对达到句子扩展的最大步长T的候选句子进行评分;
选择单元1106,用于选择评分最高的候选句子作为最终的摘要文本。
在一实施例中,如图12所示,所述跨语言自动摘要生成装置700还包括:
对齐单元1201,用于获取双语词典,利用快速对齐工具对所述双语词典中的单词进行对齐,得到双语并行语料库;
机器翻译单元1202,用于对所述双语并行语料库中的单词进行源序列到目标序列方向的机器翻译以及目标序列到源序列方向的机器翻译;
最大似然估计单元1203,用于通过最大似然估计获取源序列到目标序列方向的概率和目标序列到源序列方向的平均值
Figure BDA0002875372170000131
其中,w1为源序列,w2为目标序列;
归一化单元1204,用于对获取的平均值进行归一化处理,得到概率双语词典;
概率获取单元1205,用于在所述概率双语词典中,按照下列公式获取源序列到目标序列方向的概率和目标序列到源序列方向的平均值
Figure BDA0002875372170000132
的翻译概率PT
Figure BDA0002875372170000133
式中,wj为第j个目标序列;
重排序单元1206,用于对所述卷积神经网络和循环神经网络中参数分布以及翻译概率PT进行加权求和,得到目标分布,然后根据所述目标分布对所述双语并行语料库中的短语进行重排序处理,并将排序后的结果作为候选序列;
训练单元1207,用于利用所述候选序列对所述卷积神经网络和循环神经网络进行训练,并按照下式对训练后的参数进行目标序列最大化:
Figure BDA0002875372170000134
式中,yt是表示N个单词的随机变量,P是翻译概率PT,X是所述候选序列,θ是所述卷积神经网络和循环神经网络的参数,t是对输出结果的约束。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种跨语言自动摘要生成方法,其特征在于,包括:
获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;
基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;
利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;
通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。
2.根据权利要求1所述的跨语言自动摘要生成方法,其特征在于,所述基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列,包括:
将所述卷积神经网络和循环神经网络融合为编码器;
将所述文本数据集中的上下文信息作为所述编码器的文本输入序列输入至所述编码器中;
通过所述编码器将所述文本输入序列映射为隐藏序列;
对所述隐藏序列进行筛选,得到所述概要状态序列。
3.根据权利要求2所述的跨语言自动摘要生成方法,其特征在于,所述对所述隐藏序列进行筛选,得到所述概要状态序列,包括:
按照下式计算所述文本输入序列的状态概要序列s:
Figure FDA0002875372160000011
式中,
Figure FDA0002875372160000012
为映射得到的前向隐状态向量,
Figure FDA0002875372160000013
为由所述编码器映射得到的后向隐状态向量;
按照下式计算元素
Figure FDA0002875372160000014
的信息增益IGi
Figure FDA0002875372160000015
式中,tanh(·)为激活函数,Wg和Ug为权重矩阵,vg为权重向量,bg为偏置向重;
按照下式对元素
Figure FDA0002875372160000016
进行筛选:
Figure FDA0002875372160000021
丢弃
Figure FDA0002875372160000022
的概要状态,从而得到所述概要状态序列
Figure FDA0002875372160000023
4.根据权利要求1所述的跨语言自动摘要生成方法,其特征在于,所述利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要,包括:
利用多层Transformer网络对所述概要状态序列进行解码,得到解码序列;
按照下式对所述解码序列进行线性变换:
Figure FDA0002875372160000024
式中,Q表示所述解码序列的查询向量,K表示所述解码序列的键向量,V表示所述解码序列的值向量,W1表示第一层Transformer网络的查询向量矩阵,
Figure FDA0002875372160000025
表示第一层Transformer网络的键向量矩阵,
Figure FDA0002875372160000026
表示第一层Transformer网络的值向量矩阵,Hl-1表示上一层Transformer网络运算后的结果;
按照下式对线性变换的结果进行注意力机制运算,得到自注意力模型的输出结果:
Figure FDA0002875372160000027
式中,dk表示Q和K的维度,Hl-1表示上一层Transformer网络运算后的结果,softmax表示softmax函数,A表示最终经过自注意力模型之后的结果;
按照下式,利用前馈层对自注意力模型的输出结果进行连接并投影,从而得到所述候选文本摘要:
MultiHead(Q,K,V)=Concat(head1,...,headb)WO
Figure FDA0002875372160000028
式中,WO
Figure FDA0002875372160000029
Figure FDA00028753721600000210
均为可学习矩阵。
5.根据权利要求4所述的跨语言自动摘要生成方法,其特征在于,所述利用多层Transformer网络对所述概要状态序列进行解码,得到解码序列,包括:
按照下式对每一层Transformer网络中的多头自注意力机制块的注意力系数计算平均值:
Figure FDA00028753721600000211
式中,αt为每一层Transformer网络中的多头自注意力机制块的注意力系数的平均值,αt h为一个多头注意力机制块,h为第h个多头注意力机制块。
6.根据权利要求1所述的跨语言自动摘要生成方法,其特征在于,所述通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本,包括:
按照下列评分公式对所述候选文本摘要中的每一句子进行评分,并选取评分最高的前B个句子作为待扩展句子:
Figure FDA0002875372160000031
式中,x表示所述候选文本摘要句子中的字符,yt表示当前时刻生成的单词,Yt-1表示至t-1时刻为止扩展得到的候选文本摘要句子的序列Yt-1={y1y2...yt-1};
根据预设的卷积神经网络和循环神经网络的参数θ、集束搜索宽度B及句子扩展的最大步长T对每一所述待扩展句子进行循环扩展,得到B×B个候选句子;
针对每一轮扩展,判断每一所述候选句子的句末扩展生成符号的个数是否达到B个;
若所述候选句子的句末扩展生成符号的个数达到B个,则跳出当前循环,并通过所述评分公式对句末扩展生成符号的个数达到B个的候选句子进行评分;
若所述候选句子的句末扩展生成符号的个数未达到B个,则继续循环扩展,直至循环扩展达到句子扩展的最大步长T,并通过所述评分公式对达到句子扩展的最大步长T的候选句子进行评分;
选择评分最高的候选句子作为最终的摘要文本。
7.根据权利要求6所述的跨语言自动摘要生成方法,其特征在于,还包括:
获取双语词典,利用快速对齐工具对所述双语词典中的单词进行对齐,得到双语并行语料库;
对所述双语并行语料库中的单词进行源序列到目标序列方向的机器翻译以及目标序列到源序列方向的机器翻译;
通过最大似然估计获取源序列到目标序列方向的概率和目标序列到源序列方向的平均值
Figure FDA0002875372160000032
其中,w1为源序列,w2为目标序列;
对获取的平均值进行归一化处理,得到概率双语词典;
在所述概率双语词典中,按照下列公式获取源序列到目标序列方向的概率和目标序列到源序列方向的平均值
Figure FDA0002875372160000033
的翻译概率PT
Figure FDA0002875372160000041
式中,wj为第j个目标序列;
对所述卷积神经网络和循环神经网络中参数分布以及翻译概率PT进行加权求和,得到目标分布,然后根据所述目标分布对所述双语并行语料库中的短语进行重排序处理,并将排序后的结果作为候选序列;
利用所述候选序列对所述卷积神经网络和循环神经网络进行训练,并按照下式对训练后的参数进行目标序列最大化:
Figure FDA0002875372160000042
式中,yt是表示N个单词的随机变量,P是翻译概率PT,X是所述候选序列,θ是所述卷积神经网络和循环神经网络的参数,t是对输出结果的约束。
8.一种跨语言自动摘要生成装置,其特征在于,包括:
获取单元,用于获取待生成摘要的双语文本,并对所述双语文本进行预处理得到文本数据集;
全局编码单元,用于基于卷积神经网络和循环神经网络对所述文本数据集中的上下文信息进行全局编码,得到所述文本数据集的概要状态序列;
第一解码单元,用于利用多层Transformer网络对所述概要状态序列进行解码,并利用自注意力机制对解码后的结果进行计算,然后将得到的计算结果作为候选文本摘要;
约束评分单元,用于通过集束搜索对所述候选文本摘要进行约束,从而对所述候选文本摘要中的语句进行评分,并从评分后的候选文本摘要中选择评分最高的语句作为最终的摘要文本。
9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的跨语言自动摘要生成方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的跨语言自动摘要生成方法。
CN202011642808.1A 2020-12-30 2020-12-30 跨语言自动摘要生成方法、装置、计算机设备及存储介质 Pending CN112711661A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011642808.1A CN112711661A (zh) 2020-12-30 2020-12-30 跨语言自动摘要生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011642808.1A CN112711661A (zh) 2020-12-30 2020-12-30 跨语言自动摘要生成方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN112711661A true CN112711661A (zh) 2021-04-27

Family

ID=75548096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011642808.1A Pending CN112711661A (zh) 2020-12-30 2020-12-30 跨语言自动摘要生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN112711661A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190675A (zh) * 2021-05-12 2021-07-30 平安国际智慧城市科技股份有限公司 文本摘要生成方法、装置、计算机设备和存储介质
CN113591633A (zh) * 2021-07-18 2021-11-02 武汉理工大学 基于动态自注意力Transformer的面向对象土地利用信息解译方法
CN116050401A (zh) * 2023-03-31 2023-05-02 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN117725197A (zh) * 2023-03-28 2024-03-19 书行科技(北京)有限公司 搜索结果的摘要确定方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190675A (zh) * 2021-05-12 2021-07-30 平安国际智慧城市科技股份有限公司 文本摘要生成方法、装置、计算机设备和存储介质
CN113591633A (zh) * 2021-07-18 2021-11-02 武汉理工大学 基于动态自注意力Transformer的面向对象土地利用信息解译方法
CN113591633B (zh) * 2021-07-18 2024-04-30 武汉理工大学 基于动态自注意力Transformer的面向对象土地利用信息解译方法
CN117725197A (zh) * 2023-03-28 2024-03-19 书行科技(北京)有限公司 搜索结果的摘要确定方法、装置、设备及存储介质
CN116050401A (zh) * 2023-03-31 2023-05-02 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法
CN116050401B (zh) * 2023-03-31 2023-07-25 云南师范大学 基于Transformer问题关键词预测的多样性问题自动生成方法

Similar Documents

Publication Publication Date Title
Wang et al. An overview of image caption generation methods
CN112711661A (zh) 跨语言自动摘要生成方法、装置、计算机设备及存储介质
CN109885683B (zh) 一种基于K-means模型和神经网络模型的生成文本摘要的方法
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
Majumder et al. N-gram: a language independent approach to IR and NLP
CN111401079A (zh) 神经网络机器翻译模型的训练方法、装置及存储介质
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN114662476B (zh) 一种融合词典与字符特征的字符序列识别方法
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN114398478B (zh) 一种基于bert和外部知识的生成式自动文摘方法
CN113971394B (zh) 文本复述改写系统
CN111651589A (zh) 一种针对长文档的两阶段文本摘要生成方法
Lu et al. Flat multi-modal interaction transformer for named entity recognition
Hsu et al. Prompt-learning for cross-lingual relation extraction
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN112926340A (zh) 一种用于知识点定位的语义匹配模型
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
Zhao et al. A hierarchical decoding model for spoken language understanding from unaligned data
CN111428518B (zh) 一种低频词翻译方法及装置
Bender et al. Learning fine-grained image representations for mathematical expression recognition
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN111008277B (zh) 一种自动文本摘要方法
CN117059072A (zh) 缅甸语语音识别纠错方法与装置
CN116611428A (zh) 基于编辑对齐算法的非自回归解码越南语文本正则化方法
CN115455152A (zh) 写作素材的推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination