CN114996438B - 一种多策略强化学习的汉越跨语言摘要生成方法 - Google Patents

一种多策略强化学习的汉越跨语言摘要生成方法 Download PDF

Info

Publication number
CN114996438B
CN114996438B CN202210549003.5A CN202210549003A CN114996438B CN 114996438 B CN114996438 B CN 114996438B CN 202210549003 A CN202210549003 A CN 202210549003A CN 114996438 B CN114996438 B CN 114996438B
Authority
CN
China
Prior art keywords
abstract
language
cross
chinese
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210549003.5A
Other languages
English (en)
Other versions
CN114996438A (zh
Inventor
赖华
高玉梦
黄于欣
李笑萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210549003.5A priority Critical patent/CN114996438B/zh
Publication of CN114996438A publication Critical patent/CN114996438A/zh
Application granted granted Critical
Publication of CN114996438B publication Critical patent/CN114996438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多策略强化学习的汉越跨语言摘要生成方法,属于自然语言处理技术领域。本发明首先构造伪汉‑越跨语言摘要数据集、伪越‑汉跨语言摘要数据集;其次,利用评价指标ROUGE、BERTScore与Mgfscore对回译数据进行筛选得到高质量的汉越跨语言数据集;基于此,在Transform模型基础上,提出一种多策略强化学习的汉越跨语言摘要模型。本发明一方面,以真实的源语言摘要为基准,弱化传统的交叉熵损失函数使用伪目标语言摘要为监督信号噪声数据带来的干扰问题;另一方面,在多个层面设计强化学习期望奖励与传统交叉熵损失函数相结合优化模型,有效指导模型生成质量更高的摘要。

Description

一种多策略强化学习的汉越跨语言摘要生成方法
技术领域
本发明涉及一种多策略强化学习的汉越跨语言摘要生成方法,属于自然语言处理技术领域。
背景技术
汉越跨语言摘要是指从一篇给定的源语言(中文或越南)文本进行信息压缩的同时翻译得到一则可读性高、概括能力强的目标语言(越南语或中文)摘要的技术。在本发明中,面向的是汉-越与越-汉跨语言摘要,统称为汉越跨语言摘要。通过该技术,可以简洁、高效的了解越南或中国的舆情动态信息。一方面,中越是两个相邻的国家,无论是否精通另一国家的语言,汉越跨语言摘要可以帮助两国人民从海量的信息中高效获取另一个国家的信息动态。可实现读者通过对摘要的浏览后,以此确定是否需要对全文进行进一步的阅读,在节约了时间的同时,也解决了读者在外文网页浏览中语言障碍带来的不便。另一方面,汉越跨语言摘要可以提升用户的检索效率。在信息化的今天,网络信息十分繁杂。对于外文文章的阅读,往往需要打开正文页面才能了解文章主要内容。但如果实现了汉越跨语言摘要,完成了对外文正文内容概括后,可以用自己熟悉的语言在外文网站搜索感兴趣的内容。因此,生成高质量的目标语言摘要对高效掌握中越两国的舆情动态提供了技术支撑。
在汉越跨语言摘要上缺乏大规模、高质量的跨语言摘要数据来训练跨语言摘要模型训练。最常用的跨语摘要数据集构造方法是利用单语摘要数据翻译得到伪平行的跨语言摘要数据,但机器翻译在越南语上性能不够优秀,从而导致得到的数据集中存在大量噪声。采用这样的低质量、高噪声的伪目标语言摘要来指导模型训练得到的生成摘要质量较差。那么如何有效判断数据的好坏,剔除噪声数据以提高数据集质量是需要解决的问题。当前主流的神经网络模型训练即要求数据大规模又要求数据高质量。因此,在保证数据的数量的同时也得保证数据质量,充分利用数据,来弱化噪声数据对跨语摘要模型带来负面的影响,从而生成更高质量的摘要是一个难点问题。跨语摘要数据集是基于单语摘要数据构建的,源语言摘要与正文中不存在机器翻译带来的噪声。因此,可在优化目标中引入源语言摘要改善数据集中的噪声问题对训练模型带来的干扰问题。
发明内容
本发明提供了一种多策略强化学习的汉越跨语言摘要生成方法,以用于解决传统的交叉熵损失函数使用伪目标语言摘要作为监督信号来优化模型时,伪目标语言摘要中存在的噪声带来的干扰,以致生成摘要效果不理想的问题。
本发明的技术方案是:一种多策略强化学习的汉越跨语言摘要生成方法,所述一种多策略强化学习的汉越跨语言摘要生成方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集。所述伪汉越跨语言摘要数据集格式为:源语言正文-源语言摘要/伪目标语言摘要/伪源语言摘要;
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集格式为:源语言正文-源语言摘要/伪目标语言摘要;
Step3、随机抽取100对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计;
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文隐状态序列H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step6、基于标准目标语言摘要与生成目标语言摘要YB计算交叉熵损失Lcls,通过梯度下降算法对模型进行训练,得到初始优化模型。
Step7、在初始优化模型的基础上继续训练,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step8、基于得到的生成词汇表分布概率分别采用蒙特卡洛法采样解码与Greedy Search解码得到生成目标语言摘要YS与YG
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型。最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
所述方法具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集;所述伪汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要;
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要;
Step3、随机抽取若干对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计;
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文表征序列向量H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step6、基于标准目标语言摘要与生成目标语言摘要YB计算交叉熵损失Lcls,通过梯度下降算法对模型进行训练,得到初始优化模型;
Step7、在初始优化模型的基础上继续训练,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step8、基于得到的生成词汇表分布概率分别采用蒙特卡洛法采样解码与Greedy Search解码得到生成目标语言摘要YS与YG,统称为YB
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型,最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、构造伪汉-越跨语言摘要数据集:针对公开的中文单语摘要数据集LCSTS,利用谷歌翻译对中文摘要进行回译,得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要;其中,在该数据集中中文为源语言,越南语为目标语言;
Step1.2、构造伪越-汉跨语言摘要数据集:从互联网采集越南语单语摘要数据,并进行清洗,得到格式为越南语正文-越南语摘要的单语摘要数据集;利用谷歌翻译对越南语摘要进行回译,得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要;其中,在该数据集中越南语为源语言,中文为目标语言。
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、根据Step1.1构造的伪汉-越跨语言摘要数据集,使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分,并选取得分最高的前若干对,得到汉-越跨语言摘要数据集,格式为:中文正文—中文摘要/越南语摘要;
Step2.2、根据Step1.2构造的伪越-汉跨语言摘要数据集,使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分,并选取得分最高的前若干对,得到越-汉跨语言摘要数据集,格式为:越南语正文—越南语摘要/中文摘要。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、随机抽取若干对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据,中文摘要与伪越南语摘要/越南语摘要,分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记;
Step3.2、随机抽取若干对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据,对比越南语摘要与伪中文摘要/中文摘要,分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记。
作为本发明的优选方案,所述Step4的具体步骤为:
Step4.1、使用伪汉越跨语言摘要数据,将源语言正文序列XA={x1,x2,…,xn}映射至高维向量中并且进行同维度的位置嵌入,然后将两个该词的位置向量与高维表征向量相加得到词嵌入向量en,en为输入文本的第n个词嵌入向量;
en=(pos(xn)+emb(xn))
其中pos为位置嵌入函数,emb为高维向量映射函数;
Step4.2、将得到的源语言正文词嵌入向量序列{e1,e2,…,en}输入Transformer编码器进行编码,得到源语言正文表征向量序列H={h1,h2,…,hn}。
作为本发明的优选方案,所述Step4.2的具体步骤为:
Step4.2.1采用self-attention为计算每个嵌入向量en的第i个头的注意力权重
其中Wk,WQ为训练参数;
Step4.2.2采用multi-head attention将多个self-attention得到的信息进行聚合得到高维表征向量h′n
其中WO为训练参数,h为头数,Concat表示h个头连接;
Step4.2.3、最后,通过下式计算得到源语言正文表征向量hn
hn=LayerNorm(FFN(LayerNorm(h′n))+LayerNorm(h′n))
其中LayerNorm是层归一化函数,FFN是前馈神经网络。
作为本发明的优选方案,所述Step5的具体步骤为:
Step5.1将目标语言摘要送入解码器的Masked multi-head self-attention层进行表征,得到t-1时刻的隐状态st-1
Step5.2编码器输出源语言正文表征向量序列H={h1,h2,…,hn}与上一时刻t-1的隐状态st-1计算得到的注意力权重
Step5.3、基于注意力权重,计算t时刻的解码向量ct
Step5.4、利用隐状态st-1和上下文表征向量ct计算t时刻的解码特征向量rt:
rt=tanh(Wt[st;ct]+bt)
其中Wt为训练参数,bt为偏置向量。
作为本发明的优选方案,所述Step6的具体步骤为:
Step6.1、根据Step5计算得到的解码向量序列R={r1,r2,…,rL},通过下式计算对应的词汇表分布概率
其中Wp为训练参数,bp为偏置向量;
Step6.2、在上述过程中使用生成目标语言摘要YB与标准目标语言摘要间交叉熵损失Lclx优化模型;
其中L为生成目标语言摘要的序列长度。
作为本发明的优选方案,所述Step9的具体步骤为:
Step9.1、使用fast-align工具进行中-越平行语料对齐并得到中-越词汇概率表即源语言摘要序列所对应词的相关性值;基于此,并分别计算每个生成摘要词汇/>与源语言摘要序列/>的相关性/>
其中sum表示取和,其中j为源语言摘要中的每一个词汇,为目标语言生成摘要YS/YG中第t个词/>或/>
Step9.2、使用TF-IDF计算源语言摘要中每个/>重要程度,得到源语言词汇重要概率表Yidf A;如下式分别计算每个生成摘要词汇/>与源语言摘要的缺失度/>
其中j为源语言摘要中的每一个词汇;
Step9.3、分别计算目标语言生成摘要序列YS/YG与源语言摘要词汇的相关度以及生成摘要的缺失度来计算奖励期望R(YS,YA)与R(YG,YA);
其中M为源语言摘要的长度,表示/>的次数,YB为YS或YG
Step9.4、使用自我批判策略梯度训练算法计算强化学习损失Lrl:
作为本发明的优选方案,所述Step10的具体步骤为:
Step10.1、Lrl结合交叉熵损失Lcls计算最终模型总的损失,以此作为模型优化目标:
Lmix=γLcls+(1-γ)Lrl
其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子,本发明中γ=0.6;
Step10.2、完成优化模型训练后,根据词汇表分布概率解码得到生成目标语言生成摘要/>
本发明的有益效果是:
1)使用评价指标对伪跨语摘要数据集进行过滤,提高了数据集的质量,有利于模型更好的学习参数;对常用机器翻译构造的数据集进行了噪声分析,为噪声数据下的生成任务提供了参考。
2)在模型优化时,引入了真实的源语言摘要,充分使用构造伪跨语言摘要数据过程中产生的不同类型的数据。同时以源语言摘要为约束,针对主要噪声类型设计强化学习奖励,减弱了传统的使用交叉熵损失作为优化目标时,伪目标语言摘要中噪声数据对模型学习带来的负面影响,为生成高质量的跨语言摘要提供了有力支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的数据集构建的流程图;
图3为本发明中的数据筛选的流程图;
图4为本发明中多策略强化学习的汉越跨语言摘要模型结构示意图;
具体实施方式
实施例1:如图1-4所示,一种多策略强化学习的汉越跨语言摘要生成方法,所述一种多策略强化学习的汉越跨语言摘要生成方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集。所述伪汉越跨语言摘要数据集数据格式为:源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要,各数据集的详细信息如表1所示。
表1各数据集具体信息
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集数据格式为:源语言正文—源语言摘要/伪目标语言摘要。
如图3采用Rouge、BERTScore、Mgfscore对回译数据进行筛选,其中Rouge筛选时选用的Rouge-1、Rouge-2、Rouge-L平均值作为最终得分,BERTScore与Mgfscore均取F值得分。
在汉-越跨语言摘要数据过滤得分最低50%数据,剩下10万数据;由于越-汉跨语言摘要数据回译质量相对较高,过滤得分最低30%数据,剩下8.1万数据。对得到的数据进行进行训练集、验证集、测试集划分详细信息如表2所示。
表2各数据集具体信息
其中,Bert代表用BERTScore过滤汉-越跨语言摘要数据;Mgf代表用Mgfscore过滤越-汉跨语言摘要数据;RG代表用Rouge指标过滤该数据。在本发明中,无论使用那种方式过滤和训练,同一语种下测试集均相同。
Step3、随机抽取100个伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计,结果如表3。
表3汉越跨语言摘要数据集噪声情况
其中,Filter-No表示未过滤,Filter-RG/Bert/Msf分别表示使用Rouge、BERTScore、Mgfscore过滤。无论是在汉-越的短文本跨语言摘要数据,还是在越-汉的长文本新闻跨语摘要数据集中,选词不当与实词缺失是占比较大的两个噪声类型。因此,使用数据筛选提高伪数据的质量后,并继续弱化噪声是非常有必要的。
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文隐状态序列H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step6、基于标准目标语言摘要与生成目标语言摘要YB计算交叉熵损失Lcls,通过梯度下降算法对模型进行训练,得到初始优化模型。
Step7、在初始优化模型的基础继续训练上,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step8、基于得到的生成词汇表分布概率分别采用蒙特卡洛法采样解码与Greedy Search算法解码得到生成目标语言摘要YS与YG(统称为YB);
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型。最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、构造伪汉-越跨语言摘要数据集:针对公开的中文单语摘要数据集LCSTS(格式为中文正文-中文摘要)前20万,利用谷歌翻译对中文摘要进行回译,得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要。其中,在该数据集中中文为源语言,越南语为目标语言;
Step1.2、构造伪越-汉跨语言摘要数据集:从互联网采集越南语单语摘要数据,并进行清洗,得到格式为越南语正文-越南语摘要的单语摘要数据集;利用谷歌翻译对越南语摘要进行回译,得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要。其中,在该数据集中越南语为源语言,中文为目标语言。具体构建过程如图2所示;
作为本发明的进一步方案,所述Step1.1的具体步骤为:
Step1.1.1利用谷歌翻译对中文摘要进行翻译得到伪越南语摘要;
Step1.1.2对伪越南语摘要进行翻译得到伪中文摘要;
Step1.1.3去除中文正文与越南语摘要中的特殊标记;
Step1.1.4对中文正文进行分字;
Step1.1.5构造词汇表;
Step1.1.6划分训练集、测试集。
作为本发明的进一步方案,所述Step1.2的具体步骤为:
Step1.2.1过滤互联网采集越南语单语摘要数据中的乱码与特殊标记;
Step1.2.2过滤摘要小于10个音节、大于150音节,以及正文小于100个音节、大于900音节的越南语单语摘要数据;
Step1.2.3利用谷歌翻译对越南语摘要进行翻译得到伪中文摘要;
Step1.2.4对伪中文摘要进行翻译得到伪越南语摘要;
Step1.2.5使用jieba对伪中文摘要进行分词;
Step1.2.6构造词汇表;
Step1.2.7划分训练集、测试集;
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、根据Step1.1构造的20万伪汉-越跨语言摘要数据集,使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分,并选取得分最高的前10万对,得到汉-越跨语言摘要数据集,格式为:中文正文—中文摘要/越南语摘要。具体构建过程如图3所示;
Step2.2、根据Step1.2构造的11.5798万对伪越-汉跨语言摘要数据集,使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分,并选取得分最高的前8.1万对,得到越-汉跨语言摘要数据集,格式为:越南语正文—越南语摘要/中文摘要;
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、随机抽取100对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据,中文摘要与伪越南语摘要/越南语摘要,分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记;
Step3.2、随机抽取100对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据,对比越南语摘要与伪中文摘要/中文摘要,分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记;
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1、使用伪汉越跨语言摘要数据,将源语言正文序列XA={x1,x2,…,xn}映射至高维向量中并且进行同维度的位置嵌入,然后将两个该词的位置向量与高维表征向量相加得到词嵌入向量en,en为输入文本的第n个词嵌入向量;
en=(pos(xn)+emb(xn))
其中pos为位置嵌入函数,emb为高维向量映射函数。
Step4.2、将得到的源语言正文词嵌入向量序列{e1,e2,…,en}输入Transformer编码器进行编码,得到源语言正文表征向量序列H={h1,h2,…,hn};
作为本发明的进一步方案,所述步骤Step4.2的具体步骤为:
Step4.2.1采用self-attention为计算每个嵌入向量en的第i个头的注意力权重
其中Wk,WQ为训练参数。
Step4.2.2采用multi-head attention将多个self-attention得到的信息进行聚合得到高维表征向量h′n
其中WO为训练参数,h为头数,Concat表示h个头连接。
Step4.2.3、最后,通过下式计算得到源语言正文表征向量hn
hn=LayerNorm(FFN(LayerNorm(h′n))+LayerNorm(h′n))
其中LayerNorm是层归一化函数,FFN是前馈神经网络。
作为本发明的进一步方案,所述Step5的具体步骤为:
Step5.1与编码过程类似,将目标语言摘要送入解码器的Masked multi-headself-attention层进行表征,得到t-1时刻的隐状态st-1
Step5.2编码器输出源语言正文表征向量序列H={h1,h2,…,hn}与上一时刻t-1的隐状态st-1计算得到的注意力权重
Step5.3、基于注意力权重,计算t时刻的解码向量ct
Step5.4、利用隐状态st-1和上下文表征向量ct计算t时刻的解码特征向量rt:
rt=tanh(Wt[st;ct]+bt)
其中Wt为训练参数,bt为偏置向量;
作为本发明的进一步方案,所述Step6的具体步骤为:
Step6.1、根据Step5计算得到的解码向量序列R={r1,r2,…,rL},通过下式计算对应的词汇表分布概率
其中Wp为训练参数,bp为偏置向量;
Step6.2、在该过程中使用生成目标语言摘要YB与标准目标语言摘要间交叉熵损失Lclx优化模型;
其中L为生成目标语言摘要的序列长度;
作为本发明的进一步方案,所述Step7的具体步骤为:
Step7.1、将训练数据集从步骤Step1得到伪汉越跨语摘要数据集换为步骤Step2过滤后的汉越跨语言摘要数据集。
作为本发明的进一步方案,所述Step8的具体步骤为:
Step8.1、根据Step6.1得到词汇表分布概率使用分别使用蒙特卡洛法采样解码与Greedy Search算法解码得到目标语言生成摘要/>
作为本发明的进一步方案,所述Step9的具体步骤为:
Step9.1、使用fast-align工具进行中-越平行语料对齐并得到中-越词汇概率表即源语言摘要序列所对应词的相关性值;基于此,并分别计算每个生成摘要词汇/>与源语言摘要序列/>的相关性/>
其中sum表示取和,其中j为源语言摘要中的每一个词汇,为目标语言生成摘要YS/YG中第t个词/>或/>
Step9.2、使用TF-IDF计算源语言摘要中每个/>重要程度,得到源语言词汇重要概率表Yidf A;如下式分别计算每个生成摘要词汇/>与源语言摘要/>的缺失度/>
其中j为源语言摘要中的每一个词汇;
Step9.3、分别计算目标语言生成摘要序列YS/YG与源语言摘要词汇的相关度以及生成摘要的缺失度来计算奖励期望R(YS,YA)与R(YG,YA);
其中M为源语言摘要的长度,表示/>的次数,YB为YS或YG
Step9.4、使用自我批判策略梯度训练算法计算强化学习损失Lrl:
作为本发明的进一步方案,所述Step10的具体步骤为:
Step10.1、Lrl结合交叉熵损失Lcls计算最终模型总的损失,以此作为模型优化目标:
Lmix=γLcls+(1-γ)Lrl
其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子,本发明中γ=0.6。
Step10.2、完成优化模型训练后,根据词汇表分布概率解码得到生成目标语言生成摘要/>
为了说明本发明的在汉越跨语言摘要任务上的有效性,本文设计了两组实验进行验证。实验一:为了验证噪声数据对模型的影响,采用传统的Transformer在不同数据集下进行试验,表4展示了不同数据集对模型性能的影响。实验二:采用基线系统和本发明产生的摘要进行对比,表5展示了不同基线系统的模型在汉-越跨语言摘要任务与越-汉跨语言摘要任务中的表现;表6展示了模型带来的摘要质量提升。
实验一:不同数据集对模型性能的影响
本实验进行噪声数据实验对比,模型采用基础的Transformer框架,具体结果如表4所示。其中,All为采用20万未过滤伪汉-越跨语言摘要以及11.5798万未过滤伪越-汉跨语言摘要进行模型训练;Filter-Bert/Mgf代表使用过滤后的数据进行模型训练,伪汉-越跨语言摘要使用BERTScore过滤,伪越-汉跨语言摘要使用Mgfscore过滤,数据详细信息如表2;Random代表在未过滤数据中随机抽取与过滤后等量的数据进行模型训练。
表4不同数据下的实验结果
从表4中可以看出神经网络模型对噪声数据较为敏感,使用同等的数据训练模型,过滤掉噪声的数据更有利于模型学习。在汉-越跨语言摘要数据集中,数据噪声较大,使用前10万高质量的数据训练模型仍比20万未过滤的数据进行训练更有利于生成可读性高的摘要。相较而言,汉跨语言摘要数据量较小,但质量相对较高,过滤掉前30%的数据训练模型在RG-2、RG-L指标上仍比用全部数据训练模型略差,但无论是在哪个数据集下噪声都带了负面的影响。由此,从噪声数据出发,对汉越跨语言摘要研究是非常有必要的。
实验二:本发明的在汉越跨语言摘要任务上的有效性
(1)不同基线系统的模型在汉-越跨语言摘要任务与越-汉跨语言摘要任务中的表现
表5不同模型的性能对比
从以上结果可以看出利用真实的源语言摘要与生成摘要的相关性与缺失度计算期望奖励,并将此与交叉熵损失相结合作为模型训练的优化目标,能改善了直接使用伪目标语言摘要训练模型时噪声数据带来的负面影响,提升汉-越跨语言摘要与越-汉跨语言摘要任务上的生成摘要质量。本文发明在汉-越或是越-汉,以及在短文本或长文本的噪声数据下都有较好的表现。
(2)不同的汉越跨语言摘要模型生成的摘要示例
表6不同的汉越跨语言摘要模型生成的摘要示例
从表6中可以看出在几个摘要模型中,本发明提出的方法生成的摘要质量最高。使用高质量数据进行继续训练模型后,模型都尝试生成更丰富的信息,但只有本发明生成了关键的信息“迄今为止越南共记录了#名患者”。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (10)

1.一种多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述方法具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集;所述伪汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要;
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要;
Step3、随机抽取若干对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计;
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文表征序列向量H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step6、基于标准目标语言摘要与生成目标语言摘要YB计算交叉熵损失Lcls,通过梯度下降算法对模型进行训练,得到初始优化模型;
Step7、在初始优化模型的基础上继续训练,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step8、基于得到的生成词汇表分布概率分别采用蒙特卡洛法采样解码与Greedy Search解码得到生成目标语言摘要YS与YG,统称为YB
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型,最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
2.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step1的具体步骤为:
Step1.1、构造伪汉-越跨语言摘要数据集:针对公开的中文单语摘要数据集LCSTS,利用谷歌翻译对中文摘要进行回译,得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要;其中,在该数据集中中文为源语言,越南语为目标语言;
Step1.2、构造伪越-汉跨语言摘要数据集:从互联网采集越南语单语摘要数据,并进行清洗,得到格式为越南语正文-越南语摘要的单语摘要数据集;利用谷歌翻译对越南语摘要进行回译,得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要;其中,在该数据集中越南语为源语言,中文为目标语言。
3.根据权利要求2所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step2的具体步骤为:
Step2.1、根据Step1.1构造的伪汉-越跨语言摘要数据集,使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分,并选取得分最高的前若干对,得到汉-越跨语言摘要数据集,格式为:中文正文—中文摘要/越南语摘要;
Step2.2、根据Step1.2构造的伪越-汉跨语言摘要数据集,使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分,并选取得分最高的前若干对,得到越-汉跨语言摘要数据集,格式为:越南语正文—越南语摘要/中文摘要。
4.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step3的具体步骤为:
Step3.1、随机抽取若干对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据,中文摘要与伪越南语摘要/越南语摘要,分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记;
Step3.2、随机抽取若干对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据,对比越南语摘要与伪中文摘要/中文摘要,分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记。
5.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step4的具体步骤为:
Step4.1、使用伪汉越跨语言摘要数据,将源语言正文序列XA={x1,x2,…,xn}映射至高维向量中并且进行同维度的位置嵌入,然后将两个该词的位置向量与高维表征向量相加得到词嵌入向量en,en为输入文本的第n个词嵌入向量;
en=(pos(xn)+emb(xn))
其中pos为位置嵌入函数,emb为高维向量映射函数;
Step4.2、将得到的源语言正文词嵌入向量序列{e1,e2,…,en}输入Transformer编码器进行编码,得到源语言正文表征向量序列H={h1,h2,…,hn}。
6.根据权利要求5所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step4.2的具体步骤为:
Step4.2.1采用self-attention为计算每个嵌入向量en的第i个头的注意力权重
其中Wk,WQ为训练参数;
Step4.2.2采用multi-head attention将多个self-attention得到的信息进行聚合得到高维表征向量h′n
其中WO为训练参数,h为头数,Concat表示h个头连接;
Step4.2.3、最后,通过下式计算得到源语言正文表征向量hn
hn=LayerNorm(FFN(LayerNorm(hn′))+LayerNorm(hn′))
其中LayerNorm是层归一化函数,FFN是前馈神经网络。
7.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step5的具体步骤为:
Step5.1将目标语言摘要送入解码器的Masked multi-head self-attention层进行表征,得到t-1时刻的隐状态st-1
Step5.2编码器输出源语言正文表征向量序列H={h1,h2,…,hn}与上一时刻t-1的隐状态st-1计算得到的注意力权重
Step5.3、基于注意力权重,计算t时刻的解码向量ct
Step5.4、利用隐状态st-1和上下文表征向量ct计算t时刻的解码特征向量rt:
rt=tanh(Wt[st;ct]+bt)
其中Wt为训练参数,bt为偏置向量。
8.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step6的具体步骤为:
Step6.1、根据Step5计算得到的解码向量序列R={r1,r2,…,rL},通过下式计算对应的词汇表分布概率
其中Wp为训练参数,bp为偏置向量;
Step6.2、在上述过程中使用生成目标语言摘要YB与标准目标语言摘要间交叉熵损失Lclx优化模型;
其中L为生成目标语言摘要的序列长度。
9.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step9的具体步骤为:
Step9.1、使用fast-align工具进行中-越平行语料对齐并得到中-越词汇概率表即源语言摘要序列所对应词的相关性值;基于此,并分别计算每个生成摘要词汇/>与源语言摘要序列/>的相关性/>
其中sum表示取和,其中j为源语言摘要中的每一个词汇,为目标语言生成摘要YS/YG中第t个词/>或yt G
Step9.2、使用TF-IDF计算源语言摘要中每个/>重要程度,得到源语言词汇重要概率表/>如下式分别计算每个生成摘要词汇/>与源语言摘要的缺失度/>
其中j为源语言摘要中的每一个词汇;
Step9.3、分别计算目标语言生成摘要序列YS/YG与源语言摘要词汇的相关度以及生成摘要的缺失度来计算奖励期望R(YS,YA)与R(YG,YA);
其中M为源语言摘要的长度,表示/>的次数,YB为YS或YG
Step9.4、使用自我批判策略梯度训练算法计算强化学习损失Lrl:
10.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step10的具体步骤为:
Step10.1、Lrl结合交叉熵损失Lcls计算最终模型总的损失,以此作为模型优化目标:
Lmix=γLcls+(1-γ)Lrl
其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子,γ=0.6;
Step10.2、完成优化模型训练后,根据词汇表分布概率解码得到生成目标语言生成摘要/>
CN202210549003.5A 2022-05-20 2022-05-20 一种多策略强化学习的汉越跨语言摘要生成方法 Active CN114996438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210549003.5A CN114996438B (zh) 2022-05-20 2022-05-20 一种多策略强化学习的汉越跨语言摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210549003.5A CN114996438B (zh) 2022-05-20 2022-05-20 一种多策略强化学习的汉越跨语言摘要生成方法

Publications (2)

Publication Number Publication Date
CN114996438A CN114996438A (zh) 2022-09-02
CN114996438B true CN114996438B (zh) 2024-05-28

Family

ID=83026348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210549003.5A Active CN114996438B (zh) 2022-05-20 2022-05-20 一种多策略强化学习的汉越跨语言摘要生成方法

Country Status (1)

Country Link
CN (1) CN114996438B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117743696B (zh) * 2024-02-18 2024-04-30 四川日报网络传媒发展有限公司 基于反馈强化学习的信息发布方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874362A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 多语言自动文摘方法
WO2018135723A1 (ko) * 2017-01-17 2018-07-26 경북대학교 산학협력단 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CA3074675A1 (en) * 2019-03-04 2020-09-04 Royal Bank Of Canada System and method for machine learning with long-range dependency
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法
WO2021044908A1 (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 翻訳装置、翻訳方法及びプログラム
CN112541343A (zh) * 2020-12-03 2021-03-23 昆明理工大学 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2558062A (en) * 2016-11-18 2018-07-04 Lionbridge Tech Inc Collection strategies that facilitate arranging portions of documents into content collections
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874362A (zh) * 2016-12-30 2017-06-20 中国科学院自动化研究所 多语言自动文摘方法
WO2018135723A1 (ko) * 2017-01-17 2018-07-26 경북대학교 산학협력단 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CA3074675A1 (en) * 2019-03-04 2020-09-04 Royal Bank Of Canada System and method for machine learning with long-range dependency
CN111914091A (zh) * 2019-05-07 2020-11-10 四川大学 一种基于强化学习的实体和关系联合抽取方法
WO2021044908A1 (ja) * 2019-09-02 2021-03-11 日本電信電話株式会社 翻訳装置、翻訳方法及びプログラム
CN112541343A (zh) * 2020-12-03 2021-03-23 昆明理工大学 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN113743133A (zh) * 2021-08-20 2021-12-03 昆明理工大学 融合词粒度概率映射信息的汉越跨语言摘要方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Enhancing low-resource cross-lingual summarization from noisy data with fine-grained reinforcement learning;Yuxin Huang等;《Frontiers of Information Technology & Electronic Engineering》;20231227;121-134 *
基于U-P2P元组空间知识协作模式的中越跨语言查询扩展;胡积宝;周佳骏;黄名选;汪婷婷;;计算机应用研究;20130615(第06期);148-152 *
混合蒙特卡罗搜索的特征选择算法的优化;刘云;肖雪;黄荣乘;;信息技术;20200521(第05期);36-39+44 *

Also Published As

Publication number Publication date
CN114996438A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
Guzmán et al. The flores evaluation datasets for low-resource machine translation: Nepali-english and sinhala-english
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
CN112541343B (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN102693222B (zh) 基于实例的甲骨文释文机器翻译方法
CN111061861B (zh) 一种基于XLNet的文本摘要自动生成方法
CN113743133B (zh) 融合词粒度概率映射信息的汉越跨语言摘要方法
Pecina et al. Towards using web-crawled data for domain adaptation in statistical machine translation
Heyman et al. Bilingual lexicon induction by learning to combine word-level and character-level representations
He et al. Integrating N-best SMT Outputs into a TM System
CN114996438B (zh) 一种多策略强化学习的汉越跨语言摘要生成方法
Zhong et al. Evaluating token-level and passage-level dense retrieval models for math information retrieval
Shi et al. OPPO’s machine translation systems for WMT20
Sabty et al. Language identification of intra-word code-switching for Arabic–English
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
Chen et al. Sheffield at e2e: structured prediction approaches to end-to-end language generation
CN115033659A (zh) 基于深度学习的子句级自动摘要模型系统及摘要生成方法
Li et al. ACROSS: An Alignment-based Framework for Low-Resource Many-to-One Cross-Lingual Summarization
El-Kahlout et al. Translating between morphologically rich languages: An Arabic-to-Turkish machine translation system
Steingrímsson et al. Pivotalign: Leveraging high-precision word alignments for bilingual dictionary inference
Poncelas et al. Multiple segmentations of Thai sentences for neural machine translation
CN110866407A (zh) 确定互译文本及文本间相似度分析方法、装置及设备
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Thu et al. Myanmar news headline generation with sequence-to-sequence model
Grönroos et al. Low-resource active learning of North Sámi morphological segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant