CN115034238A - 融入源语言词级信息的汉越低资源跨语言摘要方法 - Google Patents
融入源语言词级信息的汉越低资源跨语言摘要方法 Download PDFInfo
- Publication number
- CN115034238A CN115034238A CN202210757165.8A CN202210757165A CN115034238A CN 115034238 A CN115034238 A CN 115034238A CN 202210757165 A CN202210757165 A CN 202210757165A CN 115034238 A CN115034238 A CN 115034238A
- Authority
- CN
- China
- Prior art keywords
- language
- abstract
- word
- cross
- source language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013519 translation Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 9
- 238000002474 experimental method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 7
- 238000007906 compression Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002679 ablation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013140 knowledge distillation Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了融入源语言词级信息的汉越低资源跨语言摘要方法,属于自然语言处理领域,针对解决跨语言摘要任务,本发明首先使用一个提取器对源语言文档的每个词进行一个打分,为了使每个词的得分更加准确,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分。然后,将每个词的得分融入到跨语言摘要的生成过程中。由于单语言摘要、机器翻译任务与跨语言摘要任务有着密切的相关性。因此,本发明将这两个任务与跨语言摘要任务进行联合学习。本发明提出的方法能够基于少量平行语料有效地提升摘要生成的质量,适用于低资源环境下及相似性语言环境下的跨语言摘要生成任务。
Description
技术领域
本发明涉及自然语言处理技术领域,提出并公布了融入源语言词级信息的汉越低资源跨语言摘要方法。
背景技术
跨语言摘要任务是一种将源语言文档自动理解、归纳和生成目标语言摘要的信息压缩技术。现有的跨语言摘要可以将其分为基于流程化(pipeline)的方法和基于端到端神经网络的方法。基于流程化(pipeline)的方法是将源语言文本翻译到目标语言,然后对翻译后的文本进行摘要;或先对源语言文本进行摘要,然后将源语言摘要翻译到目标语言。然而,目前机器翻译性能仍不能达到预期效果,存在结果错误传播的问题,尤其针对越南语等低资源语言,错误传播更为显著。随着深度学习的发展,基于端到端神经网络的跨语言摘要方法逐渐成为主流的研究方法。目前,基于端到端的跨语言摘要方法主要集中在富资源(high-resourced)和低资源(low-resourced)两种场景下。在富资源场景下,基于Transformer并利用大量的跨语言摘要标注语料训练跨语言摘要模型,取得了不错的效果。但这种方法依赖超大规模跨语言摘要标注数据。在低资源场景下,基于机器翻译模型和单语摘要模型,将两者作为教师模型来教授跨语言摘要的学生模型,学生模型模拟教师模型的摘要词分布和注意权重。Nguyen提出了一种基于知识蒸馏的跨语言摘要方法,该方法通过教师-学生模型来构建不同语言之间的相关性,将单语摘要教师模型的知识蒸馏到跨语言摘要学生模型中,在一定程度上有效提高了跨语言摘要性能。Dou提出了一种端到端的跨语言摘要方法,其核心思想是利用强化学习将生成的目标语言摘要和源语言摘要的语义相似度作为奖励,来指导跨语言摘要的生成。以上方法在一定程度上解决了由于标注的跨语言摘要数据稀缺,较难实现跨语言语义对齐的问题。然而,由于汉语和越南语之间的语言差异较大,上述的模型在汉越跨语言摘要任务上生成的摘要效果不佳。在汉越低资源语言的情况下,模型无法很好的识别原文中重要信息,通常会造成生成的摘要和原文之间的内容偏差问题。因此,本发明提出了融入源语言词级信息的汉越低资源跨语言摘要的方法,通过融入源语言文档的关键信息来改善摘要和原文之间的内容偏差问题。
发明内容
本发明提出了融入源语言词级信息的汉越低资源跨语言摘要方法。通过融入源语言词级信息有效的解决了模型无法很好的识别原文中重要信息,生成的摘要和原文之间的内容偏差问题。
发明技术方案:融入源语言词级信息的汉越低资源跨语言摘要方法,所述方法的具体步骤如下:
Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;
Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、把越南新闻网站作为数据来源进行越南语数据采集;
Step1.2、而对应汉语摘要的构建,首先利用谷歌翻译工具将采集到的越南语摘要Svi翻译成汉语摘要Szh,然后将翻译的结果反向翻译回越南语摘要S0vi;处理后的数据对满足ROUGE-1(Svi,S0vi)>T1和ROUGE-2(Svi,S0vi)>T2,T1设置为0.5,T2设置为0.2;最后,构建伪平行语料对的训练集、伪平行语料对的验证集、伪平行语料对的测试集。
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、提取器的目标是将源语言文本里的词级信息提取出来,即根据每个词对摘要生成的影响,给每个词进行一个权重分配,将一篇源语言文本输入到提取器,首先使用时间卷积神经网络模型得到每个词的表征rj,将每个词的表征rj输入到双向LSTM-RNN即LSTM-Decoder得到每个词进一步的表征hj;然后,提取器添加了另一个LSTM-RNN即LSTM-Decoder来训练指针网络,最终,每个词的得分qi计算如下:
其中,公式里et是通过glimpse operation的输出得到的:
在公式(3)中,zt为LSTM-Decoder的输出,vp、Wp1、Wp2、vg、Wg1、Wg2均是提取器模型可训练的参数;在每t个时间步,LSTM-Decoder执行2-hop注意机制:首先通过关注hj获得上下文表征et,然后再次通过关注hj以获得每个词最终的得分,其中,jt表示在时间步长t时选择的词,jk表示在时间步长k时选择的词。
作为本发明的进一步方案,所述Step3的具体步骤如下:
Step3.1、将越南语源语言文本输入编码器,得到越南语文本的表征;为了使编码器能够识别与摘要最相关的信息,首先,使用提取器来预测输入的源语言文章的每个词成为摘要的概率权重,即每个词的得分qi;然后,在模型的编码器E上附加了一个额外的输出层,它预测了在摘要中包含第i个词的概率pi;为了使提取器提取的源语言词级信息融入到跨语言摘要的生成过程中,采取的策略是最大限度地减少qi和pi之间的差异;对于模型编码器和提取器之间的交互,使用以下损失函数:
其中,L表示源语言文章中词的个数;
其中,[BOS]和[EOS]分别是输出摘要的开始和结束标签,[LSEP]是将源语言摘要和目标语言摘要区分的分隔符;解码器首先生成源语言摘要ysrc 在此基础上,生成目标语言摘要这样,将不同语言摘要之间的关系联系起来,实现知识的转移;使用以下损失函数:
在公式(8)中,n和表示源语言摘要中词的个数,n′表示目标语言摘要中词的个数,m表示每个样本的编号,表示源语言摘要中第i个词,表示源语言摘要中前i个词(不包括第i个词);表示目标语言摘要中第i个词,表示目标语言语言摘要中前i个词(不包括i个词);
Step3.3、由于跨语言摘要被认为是一种特殊的机器翻译,机器翻译的信息压缩比是1:1,跨语言摘要的信息压缩比是n:1;所以把机器翻译作为联合训练任务,这样在跨语言摘要生成的过程中,更好的解决“跨”的过程;用构建的源语言摘要和目标语言摘要作为训练编码器E和解码器D2的训练集;使用如下的损失函数:
为了更好的利用机器翻译任务来帮助跨语言摘要生成,做了两方面的工作;第一,共享了两个解码器D1和D2的底层参数,顶层参数则分别进行了训练;第二,采用交替训练策略,用固定数量的小批量数据优化每个任务,以联合训练跨语言摘要和机器翻译;
Step3.4、最终的损失函数如下:
Lθ=Lcls+Lmt+λLdis (10)
这里,λ是个超参数,在实验里,设置为10,最终的训练目标由两个部分构成;第一,在构建的语料库中抽取一个批次用Lmt来训练编码器E和解码器D2;第二,在构建的语料库中抽取一个批次利用Lmt+λLdis来训练E和解码器D1。
本发明的有益效果是:
(1)本发明通过融入源语言词级信息,有效的解决了模型无法很好的识别原文中重要信息,生成的摘要和原文之间的内容偏差问题;
(2)通过在互联网上爬取,基于“Round-trip translation strategy”策略进行数据去噪,获取了10万对质量较高的越-汉跨语言摘要数据集。
(3)改进传统跨语言摘要模型方法。使模型在尽力利用高质量源语言关键信息的同时,削弱噪声数据对模型的负面影响,最终提高低资源场景下的跨语言摘要模型性能,同时生成的跨语言摘要更流畅、更准确、更相关。
附图说明
图1是本发明提出的融入源语言词级信息的汉越低资源跨语言摘要方法的具体结构示意图。
具体实施方式
实施例1:如图1所示,融入源语言词级信息的汉越低资源跨语言摘要方法,Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;
Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、把越南新闻网站作为数据来源进行越南语数据采集;
Step1.2、而对应汉语摘要的构建,首先利用谷歌翻译工具将采集到的越南语摘要Svi翻译成汉语摘要Szh(正向翻译),然后将翻译的结果反向翻译回越南语摘要S0vi(反向翻译);处理后的数据对满足ROUGE-1(Svi,S0vi)>T1和ROUGE-2(Svi,S0vi)>T2,T1设置为0.5,T2设置为0.2;最后,构建伪平行语料对的训练集、伪平行语料对的验证集、伪平行语料对的测试集,表1为实验数据信息。
表1为越-汉数据集统计结果
作为本发明的进一步方案,所述Step2的具体步骤如下:
Step2.1、提取器的目标是将源语言文本里的词级信息提取出来,即根据每个词对摘要生成的影响,给每个词进行一个权重分配,将一篇源语言文本输入到提取器,首先使用时间卷积神经网络模型得到每个词的表征rj,将每个词的表征rj输入到双向LSTM-RNN即LSTM-Decoder得到每个词进一步的表征hj;然后,提取器添加了另一个LSTM-RNN即LSTM-Decoder来训练指针网络,最终,每个词的得分qi计算如下:
其中,公式里et是通过glimpse operation的输出得到的:
在公式(3)中,zt为LSTM-Decoder的输出,vp、Wp1、Wp2、vg、Wg1、Wg2均是提取器模型可训练的参数;在每t个时间步,LSTM-Decoder执行2-hop注意机制:首先通过关注hj获得上下文表征et,然后再次通过关注hj以获得每个词最终的得分,其中,jt表示在时间步长t时选择的词,jk表示在时间步长k时选择的词。
作为本发明的进一步方案,所述Step3的具体步骤如下:
Step3.1、将越南语源语言文本输入编码器,得到越南语文本的表征;为了使编码器能够识别与摘要最相关的信息,首先,使用提取器来预测输入的源语言文章的每个词成为摘要的概率权重,即每个词的得分qi;然后,在模型的编码器E上附加了一个额外的输出层,它预测了在摘要中包含第i个词的概率pi;为了使提取器提取的源语言词级信息融入到跨语言摘要的生成过程中,采取的策略是最大限度地减少qi和pi之间的差异;对于模型编码器和提取器之间的交互,使用以下损失函数:
其中,L表示源语言文章中词的个数;
其中,[BOS]和[EOS]分别是输出摘要的开始和结束标签,[LSEP]是将源语言摘要和目标语言摘要区分的分隔符;解码器首先生成源语言摘要ysrc 在此基础上,生成目标语言摘要这样,将不同语言摘要之间的关系联系起来,实现知识的转移;使用以下损失函数:
在公式(8)中,n和表示源语言摘要中词的个数,n′表示目标语言摘要中词的个数,m表示每个样本的编号,表示源语言摘要中第i个词,表示源语言摘要中前i个词(不包括第i个词);表示目标语言摘要中第i个词,表示目标语言语言摘要中前i个词(不包括i个词);
Step3.3、由于跨语言摘要被认为是一种特殊的机器翻译,机器翻译的信息压缩比是1:1,跨语言摘要的信息压缩比是n:1;所以把机器翻译作为联合训练任务,这样在跨语言摘要生成的过程中,更好的解决“跨”的过程;用构建的源语言摘要和目标语言摘要作为训练编码器E和解码器D2的训练集;使用如下的损失函数:
为了更好的利用机器翻译任务来帮助跨语言摘要生成,做了两方面的工作;第一,共享了两个解码器D1和D2的底层参数,顶层参数则分别进行了训练;第二,采用交替训练策略,用固定数量的小批量数据优化每个任务,以联合训练跨语言摘要和机器翻译;
Step3.4、最终的损失函数如下:
Lθ=Lcls+Lmt+λLdis (10)
这里,λ是个超参数,在实验里,设置为10,最终的训练目标由两个部分构成;第一,在构建的语料库中抽取一个批次用Lmt来训练编码器E和解码器D2;第二,在构建的语料库中抽取一个批次利用Lmt+λLdis来训练E和解码器D1。
为了说明本发明的效果,采用基线系统和本发明的方法进行对比,表2为在本发明构建的语料上的提升结果。
表2为不同摘要生成方法实验对比结果
从表2可以看出,本发明的方法在RG-1、RG2和RG-L三种评价指标上都明显优于其他基线模型。也表明了通过融入单语关键信息,能更好的抽取原文的核心思想来指导摘要的生成,从而促进模型的性能。首先在自己构建的汉-越跨语言摘要数据集上进行了实验,Ours模型与NCLS+MT模型相比,RG-1提高了15.32,RG-2提高了9.53,RG-L提高了10.43,这表明了本发明提出的模型在在汉越这样的低资源环境下对摘要的生成是有效的。Ours模型与MCLAS模型相比,RG-1提高了8.77,RG-2提高了4.31,RG-L提高了5.10,这表明本发明的模型可以更好的获取原文的核心要义,生成的摘要包含原文更多的核心词汇。为了验证模型的泛化性,在自己构建的100000对汉-越跨语言摘要数据集上的实验表明。本发明的模型与其他的基线模型相比,模型性能得到了大幅度的提升。这也说明了本发明的模型在汉越语言上,对于跨语言摘要生成任务是非常有效的。
本发明通过几个不同的消融实验来验证每个模块的有效性,实验结果如表2所示,w/o Translating表示去机器翻译联合任务模块,w/o Extracting表示去抽取重要句子模块,w/o Merging表示去融入单语摘要知识,解码器直接输入目标语言摘要。
表3为消融实验结果
从表3可以看出,与本发明提出的模型比,所有消融实验的结果都有不同程度的下降,这也表明了每个模块是有效的和必要的。此外,值得注意的是,在三个消融实验中,w/oMerging模型性能下降最为严重,RG-1、RG-2和RG-L三个指标分别下降了14.43、9.17和9.99。这表明了联合单语摘要任务,并共享整个解码器的参数对于跨语言摘要的生成起着至关重要的作用,解码器可以更好的将不同语言摘要之间的关系联系起来,实现了知识的迁移。对于机器翻译联合任务模块,w/o Translating模型的RG-1、RG-2和RG-L三个指标分别下降了6.05、2.31和3.30,这说明了通过与机器翻译联合训练,能有效的帮助跨语言摘要的生成。而对于抽取源语言词级信息模块,w/o Extracting模型的RG-1、RG-2和RG-L三个指标分别下降了5.68、2.26和3.73,可能的原因是抽取源语言词级信息模块能更好的建模抽取器和编码器之间复杂的交互关系,能够帮助模型更好的理解源语言文章中重要信息。
Claims (4)
1.融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述方法的具体步骤如下:
Step1、语料预处理:进行越南语数据采集,采集到的数据通过预处理得到不同规模的平行训练语料、验证语料和测试语料,用于模型训练、参数调优和效果测试;
Step2、源语言词级信息提取:提取器对源语言文档的每个词进行一个打分,提取器首先使用卷积神经网络对每个词进行表征,接着利用循环神经网络对表征后的词进行打分,提取出重要的、关键的词级信息;
Step3、融入源语言词级信息的汉越跨语言摘要模型构建:将机器翻译和单语摘要任务与跨语言摘要任务联合训练,并将提取器提取出源语言词级信息融入到跨语言摘要的生成过程中,使用Step1的语料作为模型输入,产生最终的摘要。
2.根据权利要求1所述的融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述Step1的具体步骤为:
Step1.1、把越南新闻网站作为数据来源进行越南语数据采集;
Step1.2、而对应汉语摘要的构建,首先利用谷歌翻译工具将采集到的越南语摘要Svi翻译成汉语摘要Szh,然后将翻译的结果反向翻译回越南语摘要S0vi;处理后的数据对满足ROUGE-1(Svi,S0vi)>T1和ROUGE-2(Svi,S0vi)>T2,T1设置为0.5,T2设置为0.2;最后,构建伪平行语料对的训练集、伪平行语料对的验证集、伪平行语料对的测试集。
3.根据权利要求1所述的融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述Step2的具体步骤如下:
Step2.1、提取器的目标是将源语言文本里的词级信息提取出来,即根据每个词对摘要生成的影响,给每个词进行一个权重分配,将一篇源语言文本输入到提取器,首先使用时间卷积神经网络模型得到每个词的表征rj,将每个词的表征rj输入到双向LSTM-RNN即LSTM-Decoder得到每个词进一步的表征hj;然后,提取器添加了另一个LSTM-RNN即LSTM-Decoder来训练指针网络,最终,每个词的得分qi计算如下:
其中,公式里et是通过glimpse operation的输出得到的:
在公式(3)中,zt为LSTM-Decoder的输出,vp、Wp1、Wp2、vg、Wg1、Wg2均是提取器模型可训练的参数;在每t个时间步,LSTM-Decoder执行2-hop注意机制:首先通过关注hj获得上下文表征et,然后再次通过关注hj以获得每个词最终的得分,其中,jt表示在时间步长t时选择的词,jk表示在时间步长k时选择的词。
4.根据权利要求1所述的融入源语言词级信息的汉越低资源跨语言摘要方法,其特征在于:所述Step3的具体步骤如下:
Step3.1、将越南语源语言文本输入编码器,得到越南语文本的表征;为了使编码器能够识别与摘要最相关的信息,首先,使用提取器来预测输入的源语言文章的每个词成为摘要的概率权重,即每个词的得分qi;然后,在模型的编码器E上附加了一个额外的输出层,它预测了在摘要中包含第i个词的概率pi;为了使提取器提取的源语言词级信息融入到跨语言摘要的生成过程中,采取的策略是最大限度地减少qi和pi之间的差异;对于模型编码器和提取器之间的交互,使用以下损失函数:
其中,L表示源语言文章中词的个数;
其中,[BOS]和[EOS]分别是输出摘要的开始和结束标签,[LSEP]是将源语言摘要和目标语言摘要区分的分隔符;解码器首先生成源语言摘要ysrc 在此基础上,生成目标语言摘要ytgt 这样,将不同语言摘要之间的关系联系起来,实现知识的转移;使用以下损失函数:
在公式(8)中,n和表示源语言摘要中词的个数,n′表示目标语言摘要中词的个数,m表示每个样本的编号,表示源语言摘要中第i个词,表示源语言摘要中前i个词,不包括第i个词;表示目标语言摘要中第i个词,表示目标语言语言摘要中前i个词,不包括i个词;
Step3.3、由于跨语言摘要被认为是一种特殊的机器翻译,机器翻译的信息压缩比是1:1,跨语言摘要的信息压缩比是n:1;所以把机器翻译作为联合训练任务,这样在跨语言摘要生成的过程中,更好的解决“跨”的过程;用构建的源语言摘要和目标语言摘要作为训练编码器E和解码器D2的训练集;使用如下的损失函数:
为了更好的利用机器翻译任务来帮助跨语言摘要生成,做了两方面的工作;第一,共享了两个解码器D1和D2的底层参数,顶层参数则分别进行了训练;第二,采用交替训练策略,用固定数量的小批量数据优化每个任务,以联合训练跨语言摘要和机器翻译;
Step3.4、最终的损失函数如下:
Lθ=Lcls+Lmt+λLdis (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210757165.8A CN115034238B (zh) | 2022-06-30 | 2022-06-30 | 融入源语言词级信息的汉越低资源跨语言摘要方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210757165.8A CN115034238B (zh) | 2022-06-30 | 2022-06-30 | 融入源语言词级信息的汉越低资源跨语言摘要方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034238A true CN115034238A (zh) | 2022-09-09 |
CN115034238B CN115034238B (zh) | 2024-08-09 |
Family
ID=83127309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210757165.8A Active CN115034238B (zh) | 2022-06-30 | 2022-06-30 | 融入源语言词级信息的汉越低资源跨语言摘要方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115034238B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187324A (zh) * | 2023-04-28 | 2023-05-30 | 西湖大学 | 为源语言的长文本生成跨语言摘要的方法、系统及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094006A1 (en) * | 2005-10-24 | 2007-04-26 | James Todhunter | System and method for cross-language knowledge searching |
US20110184718A1 (en) * | 2010-01-25 | 2011-07-28 | Chen Chung-Ching | Interlingua, Interlingua Engine, and Interlingua Machine Translation System |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
CN114648024A (zh) * | 2022-04-02 | 2022-06-21 | 昆明理工大学 | 基于多类型词信息引导的汉越跨语言摘要生成方法 |
-
2022
- 2022-06-30 CN CN202210757165.8A patent/CN115034238B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070094006A1 (en) * | 2005-10-24 | 2007-04-26 | James Todhunter | System and method for cross-language knowledge searching |
US20110184718A1 (en) * | 2010-01-25 | 2011-07-28 | Chen Chung-Ching | Interlingua, Interlingua Engine, and Interlingua Machine Translation System |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
CN114648024A (zh) * | 2022-04-02 | 2022-06-21 | 昆明理工大学 | 基于多类型词信息引导的汉越跨语言摘要生成方法 |
Non-Patent Citations (3)
Title |
---|
SANJANASRI JP 等: "Generation of Cross-Lingual Word Vectors for Low-Resourced Languages Using Deep Learning and Topological Metrics in a Data-Efficient Way", 《ELECTRONICS》, vol. 10, no. 12, 8 June 2021 (2021-06-08), pages 1 - 23 * |
李笑萌: "基于词级关键信息引导的越-汉低资 源跨语言摘要方法研究", 《昆明理工大学硕士学位论文》, 13 June 2024 (2024-06-13), pages 1 - 66 * |
李笑萌等: "融合关键词概率映射的汉越低资源跨语言摘要", 《厦门大学学报(自然科学版)》, vol. 61, no. 04, 11 May 2022 (2022-05-11), pages 630 - 637 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187324A (zh) * | 2023-04-28 | 2023-05-30 | 西湖大学 | 为源语言的长文本生成跨语言摘要的方法、系统及介质 |
CN116187324B (zh) * | 2023-04-28 | 2023-08-22 | 西湖大学 | 为源语言的长文本生成跨语言摘要的方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115034238B (zh) | 2024-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Way | Machine translation: Where are we at today | |
Wang et al. | Re-structuring, re-labeling, and re-aligning for syntax-based machine translation | |
Chen et al. | By the community & for the community: a deep learning approach to assist collaborative editing in q&a sites | |
CN113743133B (zh) | 融合词粒度概率映射信息的汉越跨语言摘要方法 | |
Ermakova et al. | Overview of the CLEF 2022 SimpleText Lab: Automatic simplification of scientific texts | |
Lowphansirikul et al. | A large English–Thai parallel corpus from the web and machine-generated text | |
Mondal et al. | Machine translation and its evaluation: a study | |
Alhawarat et al. | Effect of stemming on text similarity for Arabic language at sentence level | |
Van Der Goot et al. | Norm It!: Lexical Normalization for Italian and Its Downstream Effects for Dependency Parsing | |
CN115034238B (zh) | 融入源语言词级信息的汉越低资源跨语言摘要方法 | |
Chatterjee | Automatic post-editing for machine translation | |
Pourkamali et al. | Machine Translation with Large Language Models: Prompt Engineering for Persian, English, and Russian Directions | |
Gamal et al. | Survey of arabic machine translation, methodologies, progress, and challenges | |
Nair et al. | IndoUKC: a Concept-Centered Indian Multilingual Lexical Resource | |
Chen | Application of deep learning in English translation of children’s picture books | |
Zhang et al. | An Enhanced Method for Neural Machine Translation via Data Augmentation Based on the Self-Constructed English-Chinese Corpus, WCC-EC | |
Zhu | Weblio pre-reordering statistical machine translation system | |
Cadotte et al. | Lost in Innu-Aimun Translation-Re-de ning Neural Machine Translation for Indigenous Interpreters and Translators Needs | |
Ngoc et al. | Multi-dimensional data refining strategy for effective fine-tuning LLMs | |
Landwehr et al. | OpenTIPE: An Open-source Translation Framework for Interactive Post-Editing Research | |
Simianer | Preference Learning for Machine Translation | |
Zuo et al. | A Hierarchical Neural Network for Sequence-to-Sequences Learning | |
Jefry et al. | Comparison of Artificial Intelligence Models in Cross-lingual Transfer Learning through Sentiment Analysis | |
Li | Construction of Translation Corpus and Training of Translation Models Supported by Big Data | |
Mountantonakis et al. | A comparative evaluation for question answering over Greek texts by using machine translation and BERT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |