CN114996438A - 一种多策略强化学习的汉越跨语言摘要生成方法 - Google Patents
一种多策略强化学习的汉越跨语言摘要生成方法 Download PDFInfo
- Publication number
- CN114996438A CN114996438A CN202210549003.5A CN202210549003A CN114996438A CN 114996438 A CN114996438 A CN 114996438A CN 202210549003 A CN202210549003 A CN 202210549003A CN 114996438 A CN114996438 A CN 114996438A
- Authority
- CN
- China
- Prior art keywords
- abstract
- language
- chinese
- cross
- pseudo
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 18
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 73
- 238000012549 training Methods 0.000 claims description 52
- 238000005457 optimization Methods 0.000 claims description 18
- 238000013519 translation Methods 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007812 deficiency Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种多策略强化学习的汉越跨语言摘要生成方法,属于自然语言处理技术领域。本发明首先构造伪汉‑越跨语言摘要数据集、伪越‑汉跨语言摘要数据集;其次,利用评价指标ROUGE、BERTScore与Mgfscore对回译数据进行筛选得到高质量的汉越跨语言数据集;基于此,在Transform模型基础上,提出一种多策略强化学习的汉越跨语言摘要模型。本发明一方面,以真实的源语言摘要为基准,弱化传统的交叉熵损失函数使用伪目标语言摘要为监督信号噪声数据带来的干扰问题;另一方面,在多个层面设计强化学习期望奖励与传统交叉熵损失函数相结合优化模型,有效指导模型生成质量更高的摘要。
Description
技术领域
本发明涉及一种多策略强化学习的汉越跨语言摘要生成方法,属于自然语言处理技术领域。
背景技术
汉越跨语言摘要是指从一篇给定的源语言(中文或越南)文本进行信息压缩的同时翻译得到一则可读性高、概括能力强的目标语言(越南语或中文)摘要的技术。在本发明中,面向的是汉-越与越-汉跨语言摘要,统称为汉越跨语言摘要。通过该技术,可以简洁、高效的了解越南或中国的舆情动态信息。一方面,中越是两个相邻的国家,无论是否精通另一国家的语言,汉越跨语言摘要可以帮助两国人民从海量的信息中高效获取另一个国家的信息动态。可实现读者通过对摘要的浏览后,以此确定是否需要对全文进行进一步的阅读,在节约了时间的同时,也解决了读者在外文网页浏览中语言障碍带来的不便。另一方面,汉越跨语言摘要可以提升用户的检索效率。在信息化的今天,网络信息十分繁杂。对于外文文章的阅读,往往需要打开正文页面才能了解文章主要内容。但如果实现了汉越跨语言摘要,完成了对外文正文内容概括后,可以用自己熟悉的语言在外文网站搜索感兴趣的内容。因此,生成高质量的目标语言摘要对高效掌握中越两国的舆情动态提供了技术支撑。
在汉越跨语言摘要上缺乏大规模、高质量的跨语言摘要数据来训练跨语言摘要模型训练。最常用的跨语摘要数据集构造方法是利用单语摘要数据翻译得到伪平行的跨语言摘要数据,但机器翻译在越南语上性能不够优秀,从而导致得到的数据集中存在大量噪声。采用这样的低质量、高噪声的伪目标语言摘要来指导模型训练得到的生成摘要质量较差。那么如何有效判断数据的好坏,剔除噪声数据以提高数据集质量是需要解决的问题。当前主流的神经网络模型训练即要求数据大规模又要求数据高质量。因此,在保证数据的数量的同时也得保证数据质量,充分利用数据,来弱化噪声数据对跨语摘要模型带来负面的影响,从而生成更高质量的摘要是一个难点问题。跨语摘要数据集是基于单语摘要数据构建的,源语言摘要与正文中不存在机器翻译带来的噪声。因此,可在优化目标中引入源语言摘要改善数据集中的噪声问题对训练模型带来的干扰问题。
发明内容
本发明提供了一种多策略强化学习的汉越跨语言摘要生成方法,以用于解决传统的交叉熵损失函数使用伪目标语言摘要作为监督信号来优化模型时,伪目标语言摘要中存在的噪声带来的干扰,以致生成摘要效果不理想的问题。
本发明的技术方案是:一种多策略强化学习的汉越跨语言摘要生成方法,所述一种多策略强化学习的汉越跨语言摘要生成方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集。所述伪汉越跨语言摘要数据集格式为:源语言正文-源语言摘要/伪目标语言摘要/伪源语言摘要;
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集格式为:源语言正文-源语言摘要/伪目标语言摘要;
Step3、随机抽取100对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计;
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文隐状态序列H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step7、在初始优化模型的基础上继续训练,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl;
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型。最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
所述方法具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集;所述伪汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要;
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要;
Step3、随机抽取若干对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计;
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文表征序列向量H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step7、在初始优化模型的基础上继续训练,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl;
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型,最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、构造伪汉-越跨语言摘要数据集:针对公开的中文单语摘要数据集LCSTS,利用谷歌翻译对中文摘要进行回译,得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要;其中,在该数据集中中文为源语言,越南语为目标语言;
Step1.2、构造伪越-汉跨语言摘要数据集:从互联网采集越南语单语摘要数据,并进行清洗,得到格式为越南语正文-越南语摘要的单语摘要数据集;利用谷歌翻译对越南语摘要进行回译,得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要;其中,在该数据集中越南语为源语言,中文为目标语言。
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、根据Step1.1构造的伪汉-越跨语言摘要数据集,使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分,并选取得分最高的前若干对,得到汉-越跨语言摘要数据集,格式为:中文正文—中文摘要/越南语摘要;
Step2.2、根据Step1.2构造的伪越-汉跨语言摘要数据集,使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分,并选取得分最高的前若干对,得到越-汉跨语言摘要数据集,格式为:越南语正文—越南语摘要/中文摘要。
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、随机抽取若干对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据,中文摘要与伪越南语摘要/越南语摘要,分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记;
Step3.2、随机抽取若干对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据,对比越南语摘要与伪中文摘要/中文摘要,分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记。
作为本发明的优选方案,所述Step4的具体步骤为:
Step4.1、使用伪汉越跨语言摘要数据,将源语言正文序列XA={x1,x2,…,xn}映射至高维向量中并且进行同维度的位置嵌入,然后将两个该词的位置向量与高维表征向量相加得到词嵌入向量en,en为输入文本的第n个词嵌入向量;
en=(pos(xn)+emb(xn))
其中pos为位置嵌入函数,emb为高维向量映射函数;
Step4.2、将得到的源语言正文词嵌入向量序列{e1,e2,…,en}输入Transformer编码器进行编码,得到源语言正文表征向量序列H={h1,h2,…,hn}。
作为本发明的优选方案,所述Step4.2的具体步骤为:
其中Wk,WQ为训练参数;
Step4.2.2采用multi-head attention将多个self-attention得到的信息进行聚合得到高维表征向量h′n;
其中WO为训练参数,h为头数,Concat表示h个头连接;
Step4.2.3、最后,通过下式计算得到源语言正文表征向量hn;
hn=LayerNorm(FFN(LayerNorm(h′n))+LayerNorm(h′n))
其中LayerNorm是层归一化函数,FFN是前馈神经网络。
作为本发明的优选方案,所述Step5的具体步骤为:
Step5.1将目标语言摘要送入解码器的Masked multi-head self-attention层进行表征,得到t-1时刻的隐状态st-1;
Step5.3、基于注意力权重,计算t时刻的解码向量ct;
Step5.4、利用隐状态st-1和上下文表征向量ct计算t时刻的解码特征向量rt:
rt=tanh(Wt[st;ct]+bt)
其中Wt为训练参数,bt为偏置向量。
作为本发明的优选方案,所述Step6的具体步骤为:
其中Wp为训练参数,bp为偏置向量;
其中L为生成目标语言摘要的序列长度。
作为本发明的优选方案,所述Step9的具体步骤为:
其中j为源语言摘要中的每一个词汇;
Step9.3、分别计算目标语言生成摘要序列YS/YG与源语言摘要词汇的相关度以及生成摘要的缺失度来计算奖励期望R(YS,YA)与R(YG,YA);
Step9.4、使用自我批判策略梯度训练算法计算强化学习损失Lrl:
作为本发明的优选方案,所述Step10的具体步骤为:
Step10.1、Lrl结合交叉熵损失Lcls计算最终模型总的损失,以此作为模型优化目标:
Lmix=γLcls+(1-γ)Lrl
其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子,本发明中γ=0.6;
本发明的有益效果是:
1)使用评价指标对伪跨语摘要数据集进行过滤,提高了数据集的质量,有利于模型更好的学习参数;对常用机器翻译构造的数据集进行了噪声分析,为噪声数据下的生成任务提供了参考。
2)在模型优化时,引入了真实的源语言摘要,充分使用构造伪跨语言摘要数据过程中产生的不同类型的数据。同时以源语言摘要为约束,针对主要噪声类型设计强化学习奖励,减弱了传统的使用交叉熵损失作为优化目标时,伪目标语言摘要中噪声数据对模型学习带来的负面影响,为生成高质量的跨语言摘要提供了有力支撑。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的数据集构建的流程图;
图3为本发明中的数据筛选的流程图;
图4为本发明中多策略强化学习的汉越跨语言摘要模型结构示意图;
具体实施方式
实施例1:如图1-4所示,一种多策略强化学习的汉越跨语言摘要生成方法,所述一种多策略强化学习的汉越跨语言摘要生成方法的具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集。所述伪汉越跨语言摘要数据集数据格式为:源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要,各数据集的详细信息如表1所示。
表1各数据集具体信息
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集数据格式为:源语言正文—源语言摘要/伪目标语言摘要。
如图3采用Rouge、BERTScore、Mgfscore对回译数据进行筛选,其中Rouge筛选时选用的Rouge-1、Rouge-2、Rouge-L平均值作为最终得分,BERTScore与Mgfscore均取F值得分。
在汉-越跨语言摘要数据过滤得分最低50%数据,剩下10万数据;由于越-汉跨语言摘要数据回译质量相对较高,过滤得分最低30%数据,剩下8.1万数据。对得到的数据进行进行训练集、验证集、测试集划分详细信息如表2所示。
表2各数据集具体信息
其中,Bert代表用BERTScore过滤汉-越跨语言摘要数据;Mgf代表用Mgfscore过滤越-汉跨语言摘要数据;RG代表用Rouge指标过滤该数据。在本发明中,无论使用那种方式过滤和训练,同一语种下测试集均相同。
Step3、随机抽取100个伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计,结果如表3。
表3汉越跨语言摘要数据集噪声情况
其中,Filter-No表示未过滤,Filter-RG/Bert/Msf分别表示使用Rouge、BERTScore、Mgfscore过滤。无论是在汉-越的短文本跨语言摘要数据,还是在越-汉的长文本新闻跨语摘要数据集中,选词不当与实词缺失是占比较大的两个噪声类型。因此,使用数据筛选提高伪数据的质量后,并继续弱化噪声是非常有必要的。
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文隐状态序列H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step7、在初始优化模型的基础继续训练上,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl;
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型。最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
作为本发明的进一步方案,所述Step1的具体步骤为:
Step1.1、构造伪汉-越跨语言摘要数据集:针对公开的中文单语摘要数据集LCSTS(格式为中文正文-中文摘要)前20万,利用谷歌翻译对中文摘要进行回译,得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要。其中,在该数据集中中文为源语言,越南语为目标语言;
Step1.2、构造伪越-汉跨语言摘要数据集:从互联网采集越南语单语摘要数据,并进行清洗,得到格式为越南语正文-越南语摘要的单语摘要数据集;利用谷歌翻译对越南语摘要进行回译,得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要。其中,在该数据集中越南语为源语言,中文为目标语言。具体构建过程如图2所示;
作为本发明的进一步方案,所述Step1.1的具体步骤为:
Step1.1.1利用谷歌翻译对中文摘要进行翻译得到伪越南语摘要;
Step1.1.2对伪越南语摘要进行翻译得到伪中文摘要;
Step1.1.3去除中文正文与越南语摘要中的特殊标记;
Step1.1.4对中文正文进行分字;
Step1.1.5构造词汇表;
Step1.1.6划分训练集、测试集。
作为本发明的进一步方案,所述Step1.2的具体步骤为:
Step1.2.1过滤互联网采集越南语单语摘要数据中的乱码与特殊标记;
Step1.2.2过滤摘要小于10个音节、大于150音节,以及正文小于100个音节、大于900音节的越南语单语摘要数据;
Step1.2.3利用谷歌翻译对越南语摘要进行翻译得到伪中文摘要;
Step1.2.4对伪中文摘要进行翻译得到伪越南语摘要;
Step1.2.5使用jieba对伪中文摘要进行分词;
Step1.2.6构造词汇表;
Step1.2.7划分训练集、测试集;
作为本发明的进一步方案,所述Step2的具体步骤为:
Step2.1、根据Step1.1构造的20万伪汉-越跨语言摘要数据集,使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分,并选取得分最高的前10万对,得到汉-越跨语言摘要数据集,格式为:中文正文—中文摘要/越南语摘要。具体构建过程如图3所示;
Step2.2、根据Step1.2构造的11.5798万对伪越-汉跨语言摘要数据集,使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分,并选取得分最高的前8.1万对,得到越-汉跨语言摘要数据集,格式为:越南语正文—越南语摘要/中文摘要;
作为本发明的进一步方案,所述Step3的具体步骤为:
Step3.1、随机抽取100对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据,中文摘要与伪越南语摘要/越南语摘要,分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记;
Step3.2、随机抽取100对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据,对比越南语摘要与伪中文摘要/中文摘要,分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记;
作为本发明的进一步方案,所述Step4的具体步骤为:
Step4.1、使用伪汉越跨语言摘要数据,将源语言正文序列XA={x1,x2,…,xn}映射至高维向量中并且进行同维度的位置嵌入,然后将两个该词的位置向量与高维表征向量相加得到词嵌入向量en,en为输入文本的第n个词嵌入向量;
en=(pos(xn)+emb(xn))
其中pos为位置嵌入函数,emb为高维向量映射函数。
Step4.2、将得到的源语言正文词嵌入向量序列{e1,e2,…,en}输入Transformer编码器进行编码,得到源语言正文表征向量序列H={h1,h2,…,hn};
作为本发明的进一步方案,所述步骤Step4.2的具体步骤为:
其中Wk,WQ为训练参数。
Step4.2.2采用multi-head attention将多个self-attention得到的信息进行聚合得到高维表征向量h′n;
其中WO为训练参数,h为头数,Concat表示h个头连接。
Step4.2.3、最后,通过下式计算得到源语言正文表征向量hn;
hn=LayerNorm(FFN(LayerNorm(h′n))+LayerNorm(h′n))
其中LayerNorm是层归一化函数,FFN是前馈神经网络。
作为本发明的进一步方案,所述Step5的具体步骤为:
Step5.1与编码过程类似,将目标语言摘要送入解码器的Masked multi-headself-attention层进行表征,得到t-1时刻的隐状态st-1;
Step5.3、基于注意力权重,计算t时刻的解码向量ct;
Step5.4、利用隐状态st-1和上下文表征向量ct计算t时刻的解码特征向量rt:
rt=tanh(Wt[st;ct]+bt)
其中Wt为训练参数,bt为偏置向量;
作为本发明的进一步方案,所述Step6的具体步骤为:
其中Wp为训练参数,bp为偏置向量;
其中L为生成目标语言摘要的序列长度;
作为本发明的进一步方案,所述Step7的具体步骤为:
Step7.1、将训练数据集从步骤Step1得到伪汉越跨语摘要数据集换为步骤Step2过滤后的汉越跨语言摘要数据集。
作为本发明的进一步方案,所述Step8的具体步骤为:
作为本发明的进一步方案,所述Step9的具体步骤为:
其中j为源语言摘要中的每一个词汇;
Step9.3、分别计算目标语言生成摘要序列YS/YG与源语言摘要词汇的相关度以及生成摘要的缺失度来计算奖励期望R(YS,YA)与R(YG,YA);
Step9.4、使用自我批判策略梯度训练算法计算强化学习损失Lrl:
作为本发明的进一步方案,所述Step10的具体步骤为:
Step10.1、Lrl结合交叉熵损失Lcls计算最终模型总的损失,以此作为模型优化目标:
Lmix=γLcls+(1-γ)Lrl
其中γ为交叉熵损失函数与强化学习训练目标函数间的比例因子,本发明中γ=0.6。
为了说明本发明的在汉越跨语言摘要任务上的有效性,本文设计了两组实验进行验证。实验一:为了验证噪声数据对模型的影响,采用传统的Transformer在不同数据集下进行试验,表4展示了不同数据集对模型性能的影响。实验二:采用基线系统和本发明产生的摘要进行对比,表5展示了不同基线系统的模型在汉-越跨语言摘要任务与越-汉跨语言摘要任务中的表现;表6展示了模型带来的摘要质量提升。
实验一:不同数据集对模型性能的影响
本实验进行噪声数据实验对比,模型采用基础的Transformer框架,具体结果如表4所示。其中,All为采用20万未过滤伪汉-越跨语言摘要以及11.5798万未过滤伪越-汉跨语言摘要进行模型训练;Filter-Bert/Mgf代表使用过滤后的数据进行模型训练,伪汉-越跨语言摘要使用BERTScore过滤,伪越-汉跨语言摘要使用Mgfscore过滤,数据详细信息如表2;Random代表在未过滤数据中随机抽取与过滤后等量的数据进行模型训练。
表4不同数据下的实验结果
从表4中可以看出神经网络模型对噪声数据较为敏感,使用同等的数据训练模型,过滤掉噪声的数据更有利于模型学习。在汉-越跨语言摘要数据集中,数据噪声较大,使用前10万高质量的数据训练模型仍比20万未过滤的数据进行训练更有利于生成可读性高的摘要。相较而言,汉跨语言摘要数据量较小,但质量相对较高,过滤掉前30%的数据训练模型在RG-2、RG-L指标上仍比用全部数据训练模型略差,但无论是在哪个数据集下噪声都带了负面的影响。由此,从噪声数据出发,对汉越跨语言摘要研究是非常有必要的。
实验二:本发明的在汉越跨语言摘要任务上的有效性
(1)不同基线系统的模型在汉-越跨语言摘要任务与越-汉跨语言摘要任务中的表现
表5不同模型的性能对比
从以上结果可以看出利用真实的源语言摘要与生成摘要的相关性与缺失度计算期望奖励,并将此与交叉熵损失相结合作为模型训练的优化目标,能改善了直接使用伪目标语言摘要训练模型时噪声数据带来的负面影响,提升汉-越跨语言摘要与越-汉跨语言摘要任务上的生成摘要质量。本文发明在汉-越或是越-汉,以及在短文本或长文本的噪声数据下都有较好的表现。
(2)不同的汉越跨语言摘要模型生成的摘要示例
表6不同的汉越跨语言摘要模型生成的摘要示例
从表6中可以看出在几个摘要模型中,本发明提出的方法生成的摘要质量最高。使用高质量数据进行继续训练模型后,模型都尝试生成更丰富的信息,但只有本发明生成了关键的信息“迄今为止越南共记录了#名患者”。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述方法具体步骤如下:
Step1、从互联网采集数据,对数据进行预处理,并回译构造伪汉越跨语言摘要数据集;所述伪汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要/伪源语言摘要;
Step2、在上述构造的伪汉越跨语言摘要数据集基础上,并使用ROUGE、BERTScore与Mgfscore评价指标对源语言摘要与伪源语言摘要进行打分,以评价源语言正文与伪目标语言摘要的平行质量;基于此过滤得分低的句子,得到汉越跨语言摘要数据集,所述汉越跨语言摘要数据集格式为:源语言正文—源语言摘要/伪目标语言摘要;
Step3、随机抽取若干对伪汉越跨语言摘要数据与汉越跨语言摘要数据进行噪声类型分析与统计;
Step4、在上述构造的伪汉越跨语言摘要数据集基础上,使用编码器对源语言正文序列XA={x1,x2,x3,…,xn}进行编码,得到源语言正文表征序列向量H={h1,h2,h3,…,hn};
Step5、基于源语言正文表征序列向量H={h1,h2,h3,…,hn}输入解码器,生成序列长度为L的摘要解码向量R={r1,r2,…,rL},rL为生成目标语言的摘要序列中第L个词的表征向量,基于此计算生成词汇表分布概率
Step7、在初始优化模型的基础上继续训练,基于Step2得到的汉越跨语言摘要数据集,进行Step3、Step4;
Step9、计算源语言摘要YA与生成目标语言摘要YB间的词相似度与缺失度作为强化学习奖励R(YB,YA),通过自我批判策略梯度算法计算强化学习损失Lrl;
Step10、将Lcls与Lrl相结合得到整个模型的损失Lmix,通过梯度下降算法对模型进行训练,得到最终的汉越跨语言摘要模型,最后,输入测试集正文,汉越跨语言摘要模型生成相应的目标语言摘要,进行模型测试。
2.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step1的具体步骤为:
Step1.1、构造伪汉-越跨语言摘要数据集:针对公开的中文单语摘要数据集LCSTS,利用谷歌翻译对中文摘要进行回译,得到格式为中文正文-中文摘要/伪越南语摘要/伪中文摘要;其中,在该数据集中中文为源语言,越南语为目标语言;
Step1.2、构造伪越-汉跨语言摘要数据集:从互联网采集越南语单语摘要数据,并进行清洗,得到格式为越南语正文-越南语摘要的单语摘要数据集;利用谷歌翻译对越南语摘要进行回译,得到格式为越南语正文-越南语摘要/伪中文摘要/伪越南语摘要;其中,在该数据集中越南语为源语言,中文为目标语言。
3.根据权利要求2所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step2的具体步骤为:
Step2.1、根据Step1.1构造的伪汉-越跨语言摘要数据集,使用ROUGE与BERTScore对其中的中文摘要与伪中文摘要进行打分,并选取得分最高的前若干对,得到汉-越跨语言摘要数据集,格式为:中文正文—中文摘要/越南语摘要;
Step2.2、根据Step1.2构造的伪越-汉跨语言摘要数据集,使用ROUGE与Mgfscore对其中的越南语摘要与伪越南语摘要进行打分,并选取得分最高的前若干对,得到越-汉跨语言摘要数据集,格式为:越南语正文—越南语摘要/中文摘要。
4.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step3的具体步骤为:
Step3.1、随机抽取若干对伪汉-越跨语言摘要数据与汉-越跨语言摘要数据,中文摘要与伪越南语摘要/越南语摘要,分别对每个伪越南语摘要/越南语摘要中存在的噪声类型进行人工标记;
Step3.2、随机抽取若干对伪越-汉跨语言摘要数据与越-汉跨语言摘要数据,对比越南语摘要与伪中文摘要/中文摘要,分别对每个伪中文摘要/中文摘要中存在的噪声类型进行人工标记。
5.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step4的具体步骤为:
Step4.1、使用伪汉越跨语言摘要数据,将源语言正文序列XA={x1,x2,…,xn}映射至高维向量中并且进行同维度的位置嵌入,然后将两个该词的位置向量与高维表征向量相加得到词嵌入向量en,en为输入文本的第n个词嵌入向量;
en=(pos(xn)+emb(xn))
其中pos为位置嵌入函数,emb为高维向量映射函数;
Step4.2、将得到的源语言正文词嵌入向量序列{e1,e2,…,en}输入Transformer编码器进行编码,得到源语言正文表征向量序列H={h1,h2,…,hn}。
6.根据权利要求7所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step4.2的具体步骤为:
其中Wk,WQ为训练参数;
Step4.2.2采用multi-head attention将多个self-attention得到的信息进行聚合得到高维表征向量h′n;
其中WO为训练参数,h为头数,Concat表示h个头连接;
Step4.2.3、最后,通过下式计算得到源语言正文表征向量hn;
hn=LayerNorm(FFN(LayerNorm(hn′))+LayerNorm(hn′))
其中LayerNorm是层归一化函数,FFN是前馈神经网络。
7.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step5的具体步骤为:
Step5.1将目标语言摘要送入解码器的Masked multi-head self-attention层进行表征,得到t-1时刻的隐状态st-1;
Step5.3、基于注意力权重,计算t时刻的解码向量ct;
Step5.4、利用隐状态st-1和上下文表征向量ct计算t时刻的解码特征向量rt:
rt=tanh(Wt[st;ct]+bt)
其中Wt为训练参数,bt为偏置向量。
9.根据权利要求1所述的多策略强化学习的汉越跨语言摘要生成方法,其特征在于:所述Step9的具体步骤为:
其中j为源语言摘要中的每一个词汇;
Step9.3、分别计算目标语言生成摘要序列YS/YG与源语言摘要词汇的相关度以及生成摘要的缺失度来计算奖励期望R(YS,YA)与R(YG,YA);
Step9.4、使用自我批判策略梯度训练算法计算强化学习损失Lrl:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210549003.5A CN114996438B (zh) | 2022-05-20 | 2022-05-20 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210549003.5A CN114996438B (zh) | 2022-05-20 | 2022-05-20 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114996438A true CN114996438A (zh) | 2022-09-02 |
CN114996438B CN114996438B (zh) | 2024-05-28 |
Family
ID=83026348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210549003.5A Active CN114996438B (zh) | 2022-05-20 | 2022-05-20 | 一种多策略强化学习的汉越跨语言摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996438B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743696A (zh) * | 2024-02-18 | 2024-03-22 | 四川日报网络传媒发展有限公司 | 基于反馈强化学习的信息发布方法、装置及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874362A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 多语言自动文摘方法 |
US20180143975A1 (en) * | 2016-11-18 | 2018-05-24 | Lionbridge Technologies, Inc. | Collection strategies that facilitate arranging portions of documents into content collections |
WO2018135723A1 (ko) * | 2017-01-17 | 2018-07-26 | 경북대학교 산학협력단 | 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 |
US20180300400A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Deep Reinforced Model for Abstractive Summarization |
CN109522411A (zh) * | 2018-11-12 | 2019-03-26 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CA3074675A1 (en) * | 2019-03-04 | 2020-09-04 | Royal Bank Of Canada | System and method for machine learning with long-range dependency |
CN111914091A (zh) * | 2019-05-07 | 2020-11-10 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
WO2021044908A1 (ja) * | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | 翻訳装置、翻訳方法及びプログラム |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
-
2022
- 2022-05-20 CN CN202210549003.5A patent/CN114996438B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180143975A1 (en) * | 2016-11-18 | 2018-05-24 | Lionbridge Technologies, Inc. | Collection strategies that facilitate arranging portions of documents into content collections |
CN106874362A (zh) * | 2016-12-30 | 2017-06-20 | 中国科学院自动化研究所 | 多语言自动文摘方法 |
WO2018135723A1 (ko) * | 2017-01-17 | 2018-07-26 | 경북대학교 산학협력단 | 복수 문단 텍스트의 추상적 요약문 생성 장치 및 방법, 그 방법을 수행하기 위한 기록 매체 |
US20180300400A1 (en) * | 2017-04-14 | 2018-10-18 | Salesforce.Com, Inc. | Deep Reinforced Model for Abstractive Summarization |
CN109522411A (zh) * | 2018-11-12 | 2019-03-26 | 南京德磐信息科技有限公司 | 一种基于神经网络的写作辅助方法 |
CA3074675A1 (en) * | 2019-03-04 | 2020-09-04 | Royal Bank Of Canada | System and method for machine learning with long-range dependency |
CN111914091A (zh) * | 2019-05-07 | 2020-11-10 | 四川大学 | 一种基于强化学习的实体和关系联合抽取方法 |
WO2021044908A1 (ja) * | 2019-09-02 | 2021-03-11 | 日本電信電話株式会社 | 翻訳装置、翻訳方法及びプログラム |
CN112541343A (zh) * | 2020-12-03 | 2021-03-23 | 昆明理工大学 | 基于词对齐的半监督对抗学习跨语言摘要生成方法 |
CN113743133A (zh) * | 2021-08-20 | 2021-12-03 | 昆明理工大学 | 融合词粒度概率映射信息的汉越跨语言摘要方法 |
Non-Patent Citations (3)
Title |
---|
YUXIN HUANG等: "Enhancing low-resource cross-lingual summarization from noisy data with fine-grained reinforcement learning", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》, 27 December 2023 (2023-12-27), pages 121 - 134 * |
刘云;肖雪;黄荣乘;: "混合蒙特卡罗搜索的特征选择算法的优化", 信息技术, no. 05, 21 May 2020 (2020-05-21), pages 36 - 39 * |
胡积宝;周佳骏;黄名选;汪婷婷;: "基于U-P2P元组空间知识协作模式的中越跨语言查询扩展", 计算机应用研究, no. 06, 15 June 2013 (2013-06-15), pages 148 - 152 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743696A (zh) * | 2024-02-18 | 2024-03-22 | 四川日报网络传媒发展有限公司 | 基于反馈强化学习的信息发布方法、装置及存储介质 |
CN117743696B (zh) * | 2024-02-18 | 2024-04-30 | 四川日报网络传媒发展有限公司 | 基于反馈强化学习的信息发布方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114996438B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ponti et al. | XCOPA: A multilingual dataset for causal commonsense reasoning | |
Cui et al. | Attention-over-attention neural networks for reading comprehension | |
CN112541343B (zh) | 基于词对齐的半监督对抗学习跨语言摘要生成方法 | |
Siripragada et al. | A multilingual parallel corpora collection effort for Indian languages | |
CN112257453B (zh) | 融合关键词和语义特征的汉越文本相似度计算方法 | |
Mave et al. | Language identification and analysis of code-switched social media text | |
CN110378409A (zh) | 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法 | |
Al-Kabi et al. | Evaluating social context in arabic opinion mining. | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型系统及摘要生成方法 | |
CN116414962A (zh) | 一种基于注意力机制的问答匹配方法 | |
CN114647715A (zh) | 一种基于预训练语言模型的实体识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Sabty et al. | Language identification of intra-word code-switching for Arabic–English | |
Zhao et al. | Leveraging pre-trained language model for summary generation on short text | |
Inoue et al. | A parallel corpus of Arabic-Japanese news articles | |
CN114996438A (zh) | 一种多策略强化学习的汉越跨语言摘要生成方法 | |
Al-Thanyyan et al. | Simplification of Arabic text: A hybrid approach integrating machine translation and transformer-based lexical model | |
Taneva et al. | Gem-based entity-knowledge maintenance | |
CN112749566B (zh) | 一种面向英文写作辅助的语义匹配方法及装置 | |
El-Kahlout et al. | Translating between morphologically rich languages: An Arabic-to-Turkish machine translation system | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
Mara | English-Wolaytta Machine Translation using Statistical Approach | |
Chanda et al. | Is Meta Embedding better than pre-trained word embedding to perform Sentiment Analysis for Dravidian Languages in Code-Mixed Text? | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |