CN115034238A - 融入源语言词级信息的汉越低资源跨语言摘要方法 - Google Patents

融入源语言词级信息的汉越低资源跨语言摘要方法 Download PDF

Info

Publication number
CN115034238A
CN115034238A CN202210757165.8A CN202210757165A CN115034238A CN 115034238 A CN115034238 A CN 115034238A CN 202210757165 A CN202210757165 A CN 202210757165A CN 115034238 A CN115034238 A CN 115034238A
Authority
CN
China
Prior art keywords
language
abstract
word
cross
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210757165.8A
Other languages
English (en)
Other versions
CN115034238B (zh
Inventor
高盛祥
李小波
余正涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210757165.8A priority Critical patent/CN115034238B/zh
Publication of CN115034238A publication Critical patent/CN115034238A/zh
Application granted granted Critical
Publication of CN115034238B publication Critical patent/CN115034238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了融入源语言词级信息的汉越低资源跨语言摘要方法,属于自然语言处理领域,针对解决跨语言摘要任务,本发明首先使用一个提取器对源语言文档的每个词进行一个打分,为了使每个词的得分更加准确,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分。然后,将每个词的得分融入到跨语言摘要的生成过程中。由于单语言摘要、机器翻译任务与跨语言摘要任务有着密切的相关性。因此,本发明将这两个任务与跨语言摘要任务进行联合学习。本发明提出的方法能够基于少量平行语料有效地提升摘要生成的质量,适用于低资源环境下及相似性语言环境下的跨语言摘要生成任务。

Description

融入源语言词级信息的汉越低资源跨语言摘要方法
技术领域
本发明涉及自然语言处理技术领域,提出并公布了融入源语言词级信息的汉越低资源跨语言摘要方法。
背景技术
跨语言摘要任务是一种将源语言文档自动理解、归纳和生成目标语言摘要的信息压缩技术。现有的跨语言摘要可以将其分为基于流程化(pipeline)的方法和基于端到端神经网络的方法。基于流程化(pipeline)的方法是将源语言文本翻译到目标语言,然后对翻译后的文本进行摘要;或先对源语言文本进行摘要,然后将源语言摘要翻译到目标语言。然而,目前机器翻译性能仍不能达到预期效果,存在结果错误传播的问题,尤其针对越南语等低资源语言,错误传播更为显著。随着深度学习的发展,基于端到端神经网络的跨语言摘要方法逐渐成为主流的研究方法。目前,基于端到端的跨语言摘要方法主要集中在富资源(high-resourced)和低资源(low-resourced)两种场景下。在富资源场景下,基于Transformer并利用大量的跨语言摘要标注语料训练跨语言摘要模型,取得了不错的效果。但这种方法依赖超大规模跨语言摘要标注数据。在低资源场景下,基于机器翻译模型和单语摘要模型,将两者作为教师模型来教授跨语言摘要的学生模型,学生模型模拟教师模型的摘要词分布和注意权重。Nguyen提出了一种基于知识蒸馏的跨语言摘要方法,该方法通过教师-学生模型来构建不同语言之间的相关性,将单语摘要教师模型的知识蒸馏到跨语言摘要学生模型中,在一定程度上有效提高了跨语言摘要性能。Dou提出了一种端到端的跨语言摘要方法,其核心思想是利用强化学习将生成的目标语言摘要和源语言摘要的语义相似度作为奖励,来指导跨语言摘要的生成。以上方法在一定程度上解决了由于标注的跨语言摘要数据稀缺,较难实现跨语言语义对齐的问题。然而,由于汉语和越南语之间的语言差异较大,上述的模型在汉越跨语言摘要任务上生成的摘要效果不佳。在汉越低资源语言的情况下,模型无法很好的识别原文中重要信息,通常会造成生成的摘要和原文之间的内容偏差问题。因此,本发明提出了融入源语言词级信息的汉越低资源跨语言摘要的方法,通过融入源语言文档的关键信息来改善摘要和原文之间的内容偏差问题。
发明内容
本发明提出了融入源语言词级信息的汉越低资源跨语言摘要方法。通过融入源语言词级信息有效的解决了模型无法很好的识别原文中重要信息,生成的摘要和原文之间的内容偏差问题。
发明技术方案:融入源语言词级信息的汉越低资源跨语言摘要方法,所述方法的具体步骤如下:
Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;
Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、把越南新闻网站作为数据来源进行越南语数据采集;
Step1.2、而对应汉语摘要的构建,首先利用谷歌翻译工具将采集到的越南语摘要Svi翻译成汉语摘要Szh,然后将翻译的结果反向翻译回越南语摘要S0vi;处理后的数据对满足ROUGE-1(Svi,S0vi)>T1和ROUGE-2(Svi,S0vi)>T2,T1设置为0.5,T2设置为0.2;最后,构建伪平行语料对的训练集、伪平行语料对的验证集、伪平行语料对的测试集。
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、提取器的目标是将源语言文本里的词级信息提取出来,即根据每个词对摘要生成的影响,给每个词进行一个权重分配,将一篇源语言文本
Figure BDA0003722959260000021
输入到提取器,首先使用时间卷积神经网络模型得到每个词的表征rj,将每个词的表征rj输入到双向LSTM-RNN即LSTM-Decoder得到每个词进一步的表征hj;然后,提取器添加了另一个LSTM-RNN即LSTM-Decoder来训练指针网络,最终,每个词的得分qi计算如下:
Figure BDA0003722959260000031
Figure BDA0003722959260000032
其中,公式里et是通过glimpse operation的输出得到的:
Figure BDA0003722959260000033
Figure BDA0003722959260000034
Figure BDA0003722959260000035
在公式(3)中,zt为LSTM-Decoder的输出,vp、Wp1、Wp2、vg、Wg1、Wg2均是提取器模型可训练的参数;在每t个时间步,LSTM-Decoder执行2-hop注意机制:首先通过关注hj获得上下文表征et,然后再次通过关注hj以获得每个词最终的得分,其中,jt表示在时间步长t时选择的词,jk表示在时间步长k时选择的词。
作为本发明的进一步方案,所述Step3的具体步骤如下:
Step3.1、将越南语源语言文本
Figure BDA0003722959260000036
输入编码器,得到越南语文本的表征;为了使编码器能够识别与摘要最相关的信息,首先,使用提取器来预测输入的源语言文章的每个词成为摘要的概率权重,即每个词的得分qi;然后,在模型的编码器E上附加了一个额外的输出层,它预测了在摘要中包含第i个词的概率pi;为了使提取器提取的源语言词级信息融入到跨语言摘要的生成过程中,采取的策略是最大限度地减少qi和pi之间的差异;对于模型编码器和提取器之间的交互,使用以下损失函数:
Figure BDA0003722959260000037
其中,L表示源语言文章中词的个数;
Step3.2、解码器的目标是生成中文摘要
Figure BDA0003722959260000041
为了更好的联合训练单语摘要任务和跨语言摘要任务,共享整个解码器D1的参数;具体而言,将源语言摘要和目标语言摘要拼接起来一同输入解码器中:
Figure BDA0003722959260000042
其中,[BOS]和[EOS]分别是输出摘要的开始和结束标签,[LSEP]是将源语言摘要和目标语言摘要区分的分隔符;解码器首先生成源语言摘要ysrc
Figure BDA0003722959260000043
在此基础上,生成目标语言摘要
Figure BDA0003722959260000044
这样,将不同语言摘要之间的关系联系起来,实现知识的转移;使用以下损失函数:
Figure BDA0003722959260000045
在公式(8)中,n和表示源语言摘要中词的个数,n′表示目标语言摘要中词的个数,m表示每个样本的编号,
Figure BDA0003722959260000046
表示源语言摘要中第i个词,
Figure BDA0003722959260000047
表示源语言摘要中前i个词(不包括第i个词);
Figure BDA0003722959260000048
表示目标语言摘要中第i个词,
Figure BDA0003722959260000049
表示目标语言语言摘要中前i个词(不包括i个词);
Step3.3、由于跨语言摘要被认为是一种特殊的机器翻译,机器翻译的信息压缩比是1:1,跨语言摘要的信息压缩比是n:1;所以把机器翻译作为联合训练任务,这样在跨语言摘要生成的过程中,更好的解决“跨”的过程;用构建的源语言摘要和目标语言摘要
Figure BDA00037229592600000410
作为训练编码器E和解码器D2的训练集;使用如下的损失函数:
Figure BDA00037229592600000411
为了更好的利用机器翻译任务来帮助跨语言摘要生成,做了两方面的工作;第一,共享了两个解码器D1和D2的底层参数,顶层参数则分别进行了训练;第二,采用交替训练策略,用固定数量的小批量数据优化每个任务,以联合训练跨语言摘要和机器翻译;
Step3.4、最终的损失函数如下:
Lθ=Lcls+Lmt+λLdis (10)
这里,λ是个超参数,在实验里,设置为10,最终的训练目标由两个部分构成;第一,在构建的
Figure BDA0003722959260000051
语料库中抽取一个批次用Lmt来训练编码器E和解码器D2;第二,在构建的
Figure BDA0003722959260000052
语料库中抽取一个批次利用Lmt+λLdis来训练E和解码器D1
本发明的有益效果是:
(1)本发明通过融入源语言词级信息,有效的解决了模型无法很好的识别原文中重要信息,生成的摘要和原文之间的内容偏差问题;
(2)通过在互联网上爬取,基于“Round-trip translation strategy”策略进行数据去噪,获取了10万对质量较高的越-汉跨语言摘要数据集。
(3)改进传统跨语言摘要模型方法。使模型在尽力利用高质量源语言关键信息的同时,削弱噪声数据对模型的负面影响,最终提高低资源场景下的跨语言摘要模型性能,同时生成的跨语言摘要更流畅、更准确、更相关。
附图说明
图1是本发明提出的融入源语言词级信息的汉越低资源跨语言摘要方法的具体结构示意图。
具体实施方式
实施例1:如图1所示,融入源语言词级信息的汉越低资源跨语言摘要方法,Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;
Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、把越南新闻网站作为数据来源进行越南语数据采集;
Step1.2、而对应汉语摘要的构建,首先利用谷歌翻译工具将采集到的越南语摘要Svi翻译成汉语摘要Szh(正向翻译),然后将翻译的结果反向翻译回越南语摘要S0vi(反向翻译);处理后的数据对满足ROUGE-1(Svi,S0vi)>T1和ROUGE-2(Svi,S0vi)>T2,T1设置为0.5,T2设置为0.2;最后,构建伪平行语料对的训练集、伪平行语料对的验证集、伪平行语料对的测试集,表1为实验数据信息。
表1为越-汉数据集统计结果
Figure BDA0003722959260000061
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、提取器的目标是将源语言文本里的词级信息提取出来,即根据每个词对摘要生成的影响,给每个词进行一个权重分配,将一篇源语言文本
Figure BDA0003722959260000062
输入到提取器,首先使用时间卷积神经网络模型得到每个词的表征rj,将每个词的表征rj输入到双向LSTM-RNN即LSTM-Decoder得到每个词进一步的表征hj;然后,提取器添加了另一个LSTM-RNN即LSTM-Decoder来训练指针网络,最终,每个词的得分qi计算如下:
Figure BDA0003722959260000063
Figure BDA0003722959260000064
其中,公式里et是通过glimpse operation的输出得到的:
Figure BDA0003722959260000071
Figure BDA0003722959260000072
Figure BDA0003722959260000073
在公式(3)中,zt为LSTM-Decoder的输出,vp、Wp1、Wp2、vg、Wg1、Wg2均是提取器模型可训练的参数;在每t个时间步,LSTM-Decoder执行2-hop注意机制:首先通过关注hj获得上下文表征et,然后再次通过关注hj以获得每个词最终的得分,其中,jt表示在时间步长t时选择的词,jk表示在时间步长k时选择的词。
作为本发明的进一步方案,所述Step3的具体步骤如下:
Step3.1、将越南语源语言文本
Figure BDA0003722959260000074
输入编码器,得到越南语文本的表征;为了使编码器能够识别与摘要最相关的信息,首先,使用提取器来预测输入的源语言文章的每个词成为摘要的概率权重,即每个词的得分qi;然后,在模型的编码器E上附加了一个额外的输出层,它预测了在摘要中包含第i个词的概率pi;为了使提取器提取的源语言词级信息融入到跨语言摘要的生成过程中,采取的策略是最大限度地减少qi和pi之间的差异;对于模型编码器和提取器之间的交互,使用以下损失函数:
Figure BDA0003722959260000075
其中,L表示源语言文章中词的个数;
Step3.2、解码器的目标是生成中文摘要
Figure BDA0003722959260000076
为了更好的联合训练单语摘要任务和跨语言摘要任务,共享整个解码器D1的参数;具体而言,将源语言摘要和目标语言摘要拼接起来一同输入解码器中:
Figure BDA0003722959260000077
其中,[BOS]和[EOS]分别是输出摘要的开始和结束标签,[LSEP]是将源语言摘要和目标语言摘要区分的分隔符;解码器首先生成源语言摘要ysrc
Figure BDA0003722959260000081
在此基础上,生成目标语言摘要
Figure BDA0003722959260000082
这样,将不同语言摘要之间的关系联系起来,实现知识的转移;使用以下损失函数:
Figure BDA0003722959260000083
在公式(8)中,n和表示源语言摘要中词的个数,n′表示目标语言摘要中词的个数,m表示每个样本的编号,
Figure BDA0003722959260000084
表示源语言摘要中第i个词,
Figure BDA0003722959260000085
表示源语言摘要中前i个词(不包括第i个词);
Figure BDA0003722959260000086
表示目标语言摘要中第i个词,
Figure BDA0003722959260000087
表示目标语言语言摘要中前i个词(不包括i个词);
Step3.3、由于跨语言摘要被认为是一种特殊的机器翻译,机器翻译的信息压缩比是1:1,跨语言摘要的信息压缩比是n:1;所以把机器翻译作为联合训练任务,这样在跨语言摘要生成的过程中,更好的解决“跨”的过程;用构建的源语言摘要和目标语言摘要
Figure BDA0003722959260000088
作为训练编码器E和解码器D2的训练集;使用如下的损失函数:
Figure BDA0003722959260000089
为了更好的利用机器翻译任务来帮助跨语言摘要生成,做了两方面的工作;第一,共享了两个解码器D1和D2的底层参数,顶层参数则分别进行了训练;第二,采用交替训练策略,用固定数量的小批量数据优化每个任务,以联合训练跨语言摘要和机器翻译;
Step3.4、最终的损失函数如下:
Lθ=Lcls+Lmt+λLdis (10)
这里,λ是个超参数,在实验里,设置为10,最终的训练目标由两个部分构成;第一,在构建的
Figure BDA00037229592600000810
语料库中抽取一个批次用Lmt来训练编码器E和解码器D2;第二,在构建的
Figure BDA00037229592600000811
语料库中抽取一个批次利用Lmt+λLdis来训练E和解码器D1
为了说明本发明的效果,采用基线系统和本发明的方法进行对比,表2为在本发明构建的语料上的提升结果。
表2为不同摘要生成方法实验对比结果
Figure BDA0003722959260000091
从表2可以看出,本发明的方法在RG-1、RG2和RG-L三种评价指标上都明显优于其他基线模型。也表明了通过融入单语关键信息,能更好的抽取原文的核心思想来指导摘要的生成,从而促进模型的性能。首先在自己构建的汉-越跨语言摘要数据集上进行了实验,Ours模型与NCLS+MT模型相比,RG-1提高了15.32,RG-2提高了9.53,RG-L提高了10.43,这表明了本发明提出的模型在在汉越这样的低资源环境下对摘要的生成是有效的。Ours模型与MCLAS模型相比,RG-1提高了8.77,RG-2提高了4.31,RG-L提高了5.10,这表明本发明的模型可以更好的获取原文的核心要义,生成的摘要包含原文更多的核心词汇。为了验证模型的泛化性,在自己构建的100000对汉-越跨语言摘要数据集上的实验表明。本发明的模型与其他的基线模型相比,模型性能得到了大幅度的提升。这也说明了本发明的模型在汉越语言上,对于跨语言摘要生成任务是非常有效的。
本发明通过几个不同的消融实验来验证每个模块的有效性,实验结果如表2所示,w/o Translating表示去机器翻译联合任务模块,w/o Extracting表示去抽取重要句子模块,w/o Merging表示去融入单语摘要知识,解码器直接输入目标语言摘要。
表3为消融实验结果
Figure BDA0003722959260000101
从表3可以看出,与本发明提出的模型比,所有消融实验的结果都有不同程度的下降,这也表明了每个模块是有效的和必要的。此外,值得注意的是,在三个消融实验中,w/oMerging模型性能下降最为严重,RG-1、RG-2和RG-L三个指标分别下降了14.43、9.17和9.99。这表明了联合单语摘要任务,并共享整个解码器的参数对于跨语言摘要的生成起着至关重要的作用,解码器可以更好的将不同语言摘要之间的关系联系起来,实现了知识的迁移。对于机器翻译联合任务模块,w/o Translating模型的RG-1、RG-2和RG-L三个指标分别下降了6.05、2.31和3.30,这说明了通过与机器翻译联合训练,能有效的帮助跨语言摘要的生成。而对于抽取源语言词级信息模块,w/o Extracting模型的RG-1、RG-2和RG-L三个指标分别下降了5.68、2.26和3.73,可能的原因是抽取源语言词级信息模块能更好的建模抽取器和编码器之间复杂的交互关系,能够帮助模型更好的理解源语言文章中重要信息。

Claims (4)

1.融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述方法的具体步骤如下:
Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;
Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要。
2.根据权利要求1所述的融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述Step1的具体步骤为:
Step1.1、把越南新闻网站作为数据来源进行越南语数据采集;
Step1.2、而对应汉语摘要的构建,首先利用谷歌翻译工具将采集到的越南语摘要Svi翻译成汉语摘要Szh,然后将翻译的结果反向翻译回越南语摘要S0vi;处理后的数据对满足ROUGE-1(Svi,S0vi)>T1和ROUGE-2(Svi,S0vi)>T2,T1设置为0.5,T2设置为0.2;最后,构建伪平行语料对的训练集、伪平行语料对的验证集、伪平行语料对的测试集。
3.根据权利要求1所述的融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述Step2的具体步骤如下:
Step2.1、提取器的目标是将源语言文本里的词级信息提取出来,即根据每个词对摘要生成的影响,给每个词进行一个权重分配,将一篇源语言文本
Figure FDA0003722959250000011
输入到提取器,首先使用时间卷积神经网络模型得到每个词的表征rj,将每个词的表征rj输入到双向LSTM-RNN即LSTM-Decoder得到每个词进一步的表征hj;然后,提取器添加了另一个LSTM-RNN即LSTM-Decoder来训练指针网络,最终,每个词的得分qi计算如下:
Figure FDA0003722959250000021
Figure FDA0003722959250000022
其中,公式里et是通过glimpse operation的输出得到的:
Figure FDA0003722959250000023
Figure FDA0003722959250000024
Figure FDA0003722959250000025
在公式(3)中,zt为LSTM-Decoder的输出,vp、Wp1、Wp2、vg、Wg1、Wg2均是提取器模型可训练的参数;在每t个时间步,LSTM-Decoder执行2-hop注意机制:首先通过关注hj获得上下文表征et,然后再次通过关注hj以获得每个词最终的得分,其中,jt表示在时间步长t时选择的词,jk表示在时间步长k时选择的词。
4.根据权利要求1所述的融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述Step3的具体步骤如下:
Step3.1、将越南语源语言文本
Figure FDA0003722959250000026
输入编码器,得到越南语文本的表征;为了使编码器能够识别与摘要最相关的信息,首先,使用提取器来预测输入的源语言文章的每个词成为摘要的概率权重,即每个词的得分qi;然后,在模型的编码器E上附加了一个额外的输出层,它预测了在摘要中包含第i个词的概率pi;为了使提取器提取的源语言词级信息融入到跨语言摘要的生成过程中,采取的策略是最大限度地减少qi和pi之间的差异;对于模型编码器和提取器之间的交互,使用以下损失函数:
Figure FDA0003722959250000031
其中,L表示源语言文章中词的个数;
Step3.2、解码器的目标是生成中文摘要
Figure FDA0003722959250000032
为了更好的联合训练单语摘要任务和跨语言摘要任务,共享整个解码器D1的参数;具体而言,将源语言摘要和目标语言摘要拼接起来一同输入解码器中:
Figure FDA0003722959250000033
其中,[BOS]和[EOS]分别是输出摘要的开始和结束标签,[LSEP]是将源语言摘要和目标语言摘要区分的分隔符;解码器首先生成源语言摘要ysrc
Figure FDA0003722959250000034
在此基础上,生成目标语言摘要ytgt
Figure FDA0003722959250000035
这样,将不同语言摘要之间的关系联系起来,实现知识的转移;使用以下损失函数:
Figure FDA0003722959250000036
在公式(8)中,n和表示源语言摘要中词的个数,n′表示目标语言摘要中词的个数,m表示每个样本的编号,
Figure FDA0003722959250000037
表示源语言摘要中第i个词,
Figure FDA0003722959250000038
表示源语言摘要中前i个词,不包括第i个词;
Figure FDA0003722959250000039
表示目标语言摘要中第i个词,
Figure FDA00037229592500000310
表示目标语言语言摘要中前i个词,不包括i个词;
Step3.3、由于跨语言摘要被认为是一种特殊的机器翻译,机器翻译的信息压缩比是1:1,跨语言摘要的信息压缩比是n:1;所以把机器翻译作为联合训练任务,这样在跨语言摘要生成的过程中,更好的解决“跨”的过程;用构建的源语言摘要和目标语言摘要
Figure FDA00037229592500000311
作为训练编码器E和解码器D2的训练集;使用如下的损失函数:
Figure FDA00037229592500000312
为了更好的利用机器翻译任务来帮助跨语言摘要生成,做了两方面的工作;第一,共享了两个解码器D1和D2的底层参数,顶层参数则分别进行了训练;第二,采用交替训练策略,用固定数量的小批量数据优化每个任务,以联合训练跨语言摘要和机器翻译;
Step3.4、最终的损失函数如下:
Lθ=Lcls+Lmt+λLdis (10)
这里,λ是个超参数,在实验里,设置为10,最终的训练目标由两个部分构成;第一,在构建的
Figure FDA0003722959250000041
语料库中抽取一个批次用Lmt来训练编码器E和解码器D2;第二,在构建的
Figure FDA0003722959250000042
语料库中抽取一个批次利用Lmt+λLdis来训练E和解码器D1
CN202210757165.8A 2022-06-30 2022-06-30 融入源语言词级信息的汉越低资源跨语言摘要方法 Active CN115034238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210757165.8A CN115034238B (zh) 2022-06-30 2022-06-30 融入源语言词级信息的汉越低资源跨语言摘要方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210757165.8A CN115034238B (zh) 2022-06-30 2022-06-30 融入源语言词级信息的汉越低资源跨语言摘要方法

Publications (2)

Publication Number Publication Date
CN115034238A true CN115034238A (zh) 2022-09-09
CN115034238B CN115034238B (zh) 2024-08-09

Family

ID=83127309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210757165.8A Active CN115034238B (zh) 2022-06-30 2022-06-30 融入源语言词级信息的汉越低资源跨语言摘要方法

Country Status (1)

Country Link
CN (1) CN115034238B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187324A (zh) * 2023-04-28 2023-05-30 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
US20110184718A1 (en) * 2010-01-25 2011-07-28 Chen Chung-Ching Interlingua, Interlingua Engine, and Interlingua Machine Translation System
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN114648024A (zh) * 2022-04-02 2022-06-21 昆明理工大学 基于多类型词信息引导的汉越跨语言摘要生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070094006A1 (en) * 2005-10-24 2007-04-26 James Todhunter System and method for cross-language knowledge searching
US20110184718A1 (en) * 2010-01-25 2011-07-28 Chen Chung-Ching Interlingua, Interlingua Engine, and Interlingua Machine Translation System
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法
CN114648024A (zh) * 2022-04-02 2022-06-21 昆明理工大学 基于多类型词信息引导的汉越跨语言摘要生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SANJANASRI JP 等: "Generation of Cross-Lingual Word Vectors for Low-Resourced Languages Using Deep Learning and Topological Metrics in a Data-Efficient Way", 《ELECTRONICS》, vol. 10, no. 12, 8 June 2021 (2021-06-08), pages 1 - 23 *
李笑萌: "基于词级关键信息引导的越-汉低资 源跨语言摘要方法研究", 《昆明理工大学硕士学位论文》, 13 June 2024 (2024-06-13), pages 1 - 66 *
李笑萌等: "融合关键词概率映射的汉越低资源跨语言摘要", 《厦门大学学报(自然科学版)》, vol. 61, no. 04, 11 May 2022 (2022-05-11), pages 630 - 637 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116187324A (zh) * 2023-04-28 2023-05-30 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质
CN116187324B (zh) * 2023-04-28 2023-08-22 西湖大学 为源语言的长文本生成跨语言摘要的方法、系统及介质

Also Published As

Publication number Publication date
CN115034238B (zh) 2024-08-09

Similar Documents

Publication Publication Date Title
Way Machine translation: Where are we at today
Wang et al. Re-structuring, re-labeling, and re-aligning for syntax-based machine translation
Chen et al. By the community & for the community: a deep learning approach to assist collaborative editing in q&a sites
CN113743133B (zh) 融合词粒度概率映射信息的汉越跨语言摘要方法
Ermakova et al. Overview of the CLEF 2022 SimpleText Lab: Automatic simplification of scientific texts
Lowphansirikul et al. A large English–Thai parallel corpus from the web and machine-generated text
Mondal et al. Machine translation and its evaluation: a study
Alhawarat et al. Effect of stemming on text similarity for Arabic language at sentence level
Van Der Goot et al. Norm It!: Lexical Normalization for Italian and Its Downstream Effects for Dependency Parsing
CN115034238B (zh) 融入源语言词级信息的汉越低资源跨语言摘要方法
Chatterjee Automatic post-editing for machine translation
Pourkamali et al. Machine Translation with Large Language Models: Prompt Engineering for Persian, English, and Russian Directions
Gamal et al. Survey of arabic machine translation, methodologies, progress, and challenges
Nair et al. IndoUKC: a Concept-Centered Indian Multilingual Lexical Resource
Chen Application of deep learning in English translation of children’s picture books
Zhang et al. An Enhanced Method for Neural Machine Translation via Data Augmentation Based on the Self-Constructed English-Chinese Corpus, WCC-EC
Zhu Weblio pre-reordering statistical machine translation system
Cadotte et al. Lost in Innu-Aimun Translation-Re-de ning Neural Machine Translation for Indigenous Interpreters and Translators Needs
Ngoc et al. Multi-dimensional data refining strategy for effective fine-tuning LLMs
Landwehr et al. OpenTIPE: An Open-source Translation Framework for Interactive Post-Editing Research
Simianer Preference Learning for Machine Translation
Zuo et al. A Hierarchical Neural Network for Sequence-to-Sequences Learning
Jefry et al. Comparison of Artificial Intelligence Models in Cross-lingual Transfer Learning through Sentiment Analysis
Li Construction of Translation Corpus and Training of Translation Models Supported by Big Data
Mountantonakis et al. A comparative evaluation for question answering over Greek texts by using machine translation and BERT

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant