CN116992894A - 一种机器翻译模型的训练方法和计算机可读存储介质 - Google Patents
一种机器翻译模型的训练方法和计算机可读存储介质 Download PDFInfo
- Publication number
- CN116992894A CN116992894A CN202311252185.0A CN202311252185A CN116992894A CN 116992894 A CN116992894 A CN 116992894A CN 202311252185 A CN202311252185 A CN 202311252185A CN 116992894 A CN116992894 A CN 116992894A
- Authority
- CN
- China
- Prior art keywords
- translation
- sentence
- training
- preset
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013519 translation Methods 0.000 title claims abstract description 627
- 238000012549 training Methods 0.000 title claims abstract description 344
- 238000000034 method Methods 0.000 title claims abstract description 109
- 230000008569 process Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 12
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 551
- 239000002243 precursor Substances 0.000 description 19
- 230000006870 function Effects 0.000 description 8
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 6
- 229910052737 gold Inorganic materials 0.000 description 6
- 239000010931 gold Substances 0.000 description 6
- 238000013508 migration Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000006993 memory improvement Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 238000012917 library technology Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及机器翻译技术领域,特别涉及一种机器翻译模型的训练方法及计算机可读存储介质。本发明提供的机器翻译模型的训练方法获取翻译源句和对应的预设目标句;将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接形成第一训练样本;基于第一训练样本对初始模型进行第一阶段训练,得到多语言翻译模型;获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本;基于第二训练样本对第一阶段训练得到的多语言翻译模型进行第二阶段训练,得到机器翻译模型,本发明提供的机器翻译模型的训练方法整合篇章翻译,翻译记忆库,术语翻译三项任务,提升了翻译模型用户可交互性和翻译准确率。
Description
技术领域
本发明涉及机器翻译技术领域,其特别涉及一种机器翻译模型的训练方法和计算机可读存储介质。
背景技术
近年来,随着深度神经网络的不断发展,神经机器翻译(Neural MachineTranslation,NMT)的研究取得重大突破,逐渐发展成为目前主流的机器翻译新模式;现有研究表明,在具备大规模、高质量的平行语料的通用领域中,NMT能够产生最优的翻译性能。
然而在机器翻译领域,研究更多的是单句翻译,除此之外,篇章级别的翻译也很重要并且有广泛的应用场景,不同于单句翻译,它要求前后文翻译的流畅性和一致性。翻译记忆库技术本质是一种辅助翻译的方法,通过检索数据库收集与当前待翻译句子相似的句对,并在当前翻译过程中进行对比提示和利用,从而提高最终翻译的质量和可读性。术语翻译是指某些领域的专业术语或者是特定的表达的翻译,如果直接让机器翻译模型进行翻译很难翻译出它本身的意思,实现这些翻译需求通常需要做一些更为细致的处理,此外现有机器翻译模型可交互性差,难以直接通过人工干预实现对这些翻译需求的处理。
在以往的相关工作中,篇章翻译、翻译记忆库、术语翻译等通常是单独进行研究的,增加了模型部署的复杂性并且不利于任务之间知识的迁移。对于篇章翻译,通常是将篇章拆解成一个个单独的句子进行翻译或者是将前后连续的几个句子拼接在一起作为一个整体进行翻译,使之可以在一定程度上获取到上文信息;基于翻译记忆库的翻译,通常是将检索得到的记忆信息的目标端句子直接拼接在要翻译的句子后面,这可以对要翻译的句子起到补充信息的作用,但也会为其引入新的噪音内容,出现错误拷贝等现象,从而影响翻译质量;对于术语翻译来说,典型的解决方法有基于槽替换的方法和基于术语注入的方法。基于槽替换的方法是指在句子进入翻译模型之前将句子中的术语替换为变量槽,在模型翻译之后再将术语对应的翻译填回到对应的槽中,从而得到最终的译文,这是一种硬约束的方法,主要缺点是翻译时会缺失术语语义信息并且依赖高精度术语词典;基于术语注入的方法是将术语对应的翻译注入到原句子中去,然后训练模型选择术语对应的翻译的能力,这是一种软约束的方法,主要的缺点是难以完全按照术语词典进行翻译,准确度不足。
发明内容
为了解决现有翻译模型与用户可交互性差,三种翻译任务单独建模复杂性高以及不利于知识迁移等问题,本发明提供一种机器翻译模型的训练方法和计算机可读存储介质。
本发明为解决上述技术问题,提供如下的技术方案:一种机器翻译模型的训练方法,包括以下步骤:
获取翻译源句和翻译源句对应的预设目标句;
将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本;
基于第一训练样本对初始模型进行第一阶段训练,得到多语言翻译模型;
获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本;
基于第二训练样本对第一阶段训练得到的多语言翻译模型进行第二阶段训练,得到机器翻译模型。
优选地,所述预设指令模板包括多种预设指令,将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本,具体包括以下步骤:
将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对;
在带指令翻译句对中的预设指令结束位置添加指令结束符;
在带指令翻译句对的结束位置添加句子结束符;
多个带指令翻译句对拼接在一起以形成第一训练样本;
其中,所述指令结束符用于被识别以结束对应的预设指令并开始生成对应的翻译结果;所述句子结束符用于标记生成的翻译句子结束,停止继续生成。
优选地,第一阶段训练采用轻量化微调方式来训练初始模型,具体包括:
采用LoRA轻量化训练方法对初始模型进行参数优化,同时引入第一训练数据进行循环训练。
优选地,获取预设篇章训练样本,具体包括以下步骤:
获取待翻译篇章,将待翻译篇章中的每句待翻译句子拆分为翻译源句;
获取翻译源句前文和翻译源句前文对应的前文预设目标句;
将翻译源句前文和翻译源句前文对应的前文预设目标句拼接为翻译句对;
将翻译源句前文和翻译源句前文对应的前文预设目标句引入预设指令模板并拼接成翻译句对,并将其拼接在带指令翻译句对前面进而形成预设篇章训练样本。
优选地,获取预设记忆库训练样本,具体包括以下步骤:
使用基于关键词检索和基于向量检索两种不同的检索方式,检索记忆库数据,获取记忆库数据中与翻译源句相关的翻译句对;
将记忆库数据中与翻译源句相关且引入预设指令模板的翻译句对拼接在带指令翻译句对前面,进而形成预设记忆库训练样本。
优选地,获取预设术语训练样本,具体包括以下步骤:
获取翻译句对并进行分词处理;
利用对齐工具处理分词处理后的翻译句对得到对齐词典;
将对齐词典中的源端和目标端引入指令模板,并将其拼接在带指令翻译句对前面形成预设术语训练样本。
优选地,第二训练样本包括垂直领域训练样本,垂直领域训练样本包括垂直领域翻译源句和拼接在垂直领域翻译源句前的翻译句对,拼接在垂直领域翻译源句前的翻译句对是从翻译记忆库中检索得到的与垂直领域翻译源句相关的翻译句对,在第二阶段训练中,垂直领域训练样本为多语言翻译模型的训练提供领域知识。
优选地,基于第二训练样本对多语言翻译模型进行第二阶段训练,得到机器翻译模型,包括:
基于预设记忆库训练样本在第二阶段训练过程引入mask掩码预测任务获得过程训练样例;在训练过程中,针对预设记忆库训练样本,有预设概率执行下面的操作,针对最后一个翻译源句的每个token,遍历前面拼接的与翻译源句相关的翻译句对,如果/>在前面拼接的与翻译源句相关的翻译句对出现过,那么将/>以第一预设概率/>使用<mask>符号来代替,对于前面拼接的与翻译源句相关的翻译句对出现的/>,以第二预设概率/>来使用<mask>符号代替,将使用<mask>符号代替的预设记忆库训练样本作为过程训练样例,用于第二阶段训练。
优选地,第二阶段训练的过程采用全参数微调的方式来训练多语言翻译模型。
本发明为解决上述技术问题,提供又一技术方案如下:一种计算机可读存储介质,计算机程序被执行时实现上述任意一项所述的翻译模型的训练方法。
与现有技术相比,本发明所提供的一种机器翻译模型的训练方法和计算机可读存储介质,具有如下的有益效果:
1、本发明实施例中提供的一种机器翻译模型的训练方法,通过将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本,使机器翻译模型可以按照用户的指令进行翻译,大大提高了机器翻译模型的可交互性,用户在使用过程中可以通过指令的方式来获得翻译并且可以通过指令增加额外的翻译限制,从而使翻译更准确和更符合用户需求;并且将多个带指令翻译句对拼接在一起以形成第一训练样本,重点培训多语言翻译模型的通用翻译能力,也使多语言翻译模型在一定程度上学习到关注前文信息的能力同时加快训练的收敛速度。通过获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本对多语言翻译模型进行训练,可得到统一多任务的机器翻译模型,其整合了处理篇章翻译,翻译记忆库,术语翻译三项任务的能力,解决了三种翻译任务单独建模复杂性高以及由此带来的任务之间不利于知识迁移的问题,使得机器翻译模型在进行篇章翻译的时候更好的利用上文信息,从而使翻译前后一致性增强,可以更好的关注和利用前文的信息,从而达到前后翻译的一致性和流畅性;同时机器翻译模型具有的翻译记忆库增强和术语限制翻译的能力,能够借助额外的有效信息来提升翻译质量,这尤其对于各个垂直领域的翻译质量有显著改善。
2、本发明实施例中提供的将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本;向带指令翻译句对添加指令结束符和句子结束符,指令结束符用于被识别以结束对应的预设指令并开始生成对应的翻译结果,句子结束符用于标记生成的翻译句子结束,停止继续生成。从而可以使机器翻译模型具备多语言翻译功能。机器翻译模型可以按照用户的指令进行翻译,大大提高了机器翻译模型的可交互性,用户在使用过程中可以通过指令的方式来获得翻译并且可以通过指令增加额外的翻译限制,从而使翻译更准确和更符合用户需求,添加指令结束符和句子结束符的翻译句对形成的第一训练样本也能够更好的促进机器翻译模型达到理想的翻译性能。
3、本发明实施例中第一阶段训练采用LoRA轻量化训练方法对初始模型进行参数优化,同时引入第一训练数据进行循环训练。
轻量化微调方式在训练过程中需要保存的信息大大减少,因此也就大幅度的改善了资源消耗的问题并且缩短了训练时长,第一阶段训练机器翻译模型的通用翻译能力,一般训练数据规模非常大,采用轻量化微调方式可以缩短训练时长,而且能够在只训练极少数参数的情况下取得接近全参数微调的结果,节省了计算资源,同时保证了机器翻译模型的性能,增加了机器翻译模型的可实现性。
4、本发明实施例通过拆分待翻译篇章为翻译源句,获取翻译源句前文和翻译源句前文对应的前文预设目标句,将翻译源句前文和翻译源句前文对应的前文预设目标句引入预设指令模板并拼接成翻译句对,并将其拼接在带指令翻译句对前面进而形成预设篇章训练样本。
设置预设篇章训练样本,能够使得多语言训练模型在利用预设篇章训练样本进行第二阶段训练,针对翻译源句进行翻译的时候,充分关注并利用翻译源句前文信息,不仅可以关注到翻译源句前文的源端信息还可以关注到它前文对应的目标端信息,从而充分利用翻译源句前文的源端信息和前文对应的目标端信息,达到篇章前后翻译的一致性和流畅性。
5、本发明实施例通过使用不同检索方式检索记忆库数据,获取记忆库数据中与翻译源句相关的翻译句对,将记忆库数据中与翻译源句相关且引入预设指令模板的翻译句对拼接在带指令翻译句对前面,进而形成预设记忆库训练样本。
设置预设记忆库训练样本,能够使得多语言训练模型在利用预设记忆库训练样本进行第二阶段训练时,可以关注并利用从记忆库不同维度下所检索出来的跟翻译源句关联紧密的翻译句对,提供与翻译源句关联紧密的源端信息和目标端信息,从而丰富翻译源句的辅助翻译信息。
6、本发明实施例通过获取翻译句对并进行分词处理;利用对齐工具处理分词处理后的翻译句对得到对齐词典;将对齐词典中的源端和目标端引入指令模板,并将其拼接在带指令翻译句对前面形成预设术语训练样本。
设置预设术语训练样本,能够使得多语言训练模型在利用预设术语训练样本进行第二阶段训练时,将对齐词典中的源端和目标端拼接在带指令翻译句对前面,使得翻译指定性更明确更具体,可以让模型在翻译的时候就将翻译源句与对齐词典中对应的词转为指定的翻译,提升最终翻译的质量,使得翻译结果更加精准。此外,我们的方法根据获取的对齐词典将术语提示更一般化为短语级别的提示,可以有效缓解术语翻译任务训练数据匮乏的问题。
7、本发明实施例中第二训练样本包括垂直领域训练样本,垂直领域训练样本包括垂直领域翻译源句和拼接在垂直领域翻译源句前的翻译句对,拼接在垂直领域翻译源句前的翻译句对是从翻译记忆库中检索得到的与垂直领域翻译源句相关的翻译句对,在第二阶段训练中,垂直领域训练样本为多语言翻译模型的训练提供领域知识。
第二训练样本包括垂直领域训练样本使得模型经过垂直领域训练样本的训练,可以增强垂直领域翻译能力,比如法律领域,医药领域等,机器翻译模型依靠检索出来的翻译句对作为上文提供相关领域的知识,增强机器翻译模型通过前文拼接的翻译记忆信息指导当前句翻译的能力,能够改进领域翻译的性能,针对垂直领域也能够做出精确的翻译,从而达到提升特定领域翻译质量的效果。
8、本发明实施例中基于预设记忆库训练样本在第二阶段训练过程引入mask掩码预测任务获得过程训练样例;在训练过程中,针对预设记忆库训练样本,有预设概率执行下面的操作,针对最后一个翻译源句的每个token,遍历前面拼接的与翻译源句相关的翻译句对,如果/>在前面拼接的与翻译源句相关的翻译句对出现过,那么将/>以第一预设概率/>使用<mask>符号来代替,对于前面拼接的与翻译源句相关的翻译句对出现的/>,以第二预设概率/>来使用<mask>符号代替,将使用<mask>符号代替的预设记忆库训练样本作为过程训练样例,用于第二阶段训练。
通过mask构造方式,基于预设记忆库训练样本在第二阶段训练过程,当机器翻译模型需要翻译这个词的时候,因为该词被mask掉了,就可以强迫机器翻译模型去关注前面拼接的与翻译源句相关的翻译句对相关的有效信息,从而来完成翻译,使得训练得到的机器翻译模型能具备更好的利用前文辅助信息的能力,从而提升机器翻译模型的翻译质量。
9、本发明实施例中提供的第二阶段训练的过程采用全参数微调的方式来训练多语言翻译模型。
第二训练样本的规模相对第一训练样本来说小很多,采用全参数微调的方式进行训练以增强性能,可以很好地保证机器翻译模型的性能,同时也不会耗费大量的训练时间。
10、本发明实施例还提供一种计算机可读存储介质,具有与上述一种机器翻译模型的训练方法相同的有益效果,在此不做赘述。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的一种机器翻译模型的训练方法的步骤流程图。
图2是本发明第一实施例提供的一种机器翻译模型之步骤S2的步骤流程图。
图3是本发明第一实施例提供的一种机器翻译模型之 LoRA轻量化训练方式示意图。
图4是本发明第一实施例提供的一种机器翻译模型之步骤S4的步骤流程图。
图5是本发明第一实施例提供的一种机器翻译模型之步骤S41的步骤流程图。
图6是本发明第一实施例提供的一种机器翻译模型之步骤S42的步骤流程图。
图7是本发明第一实施例提供的一种机器翻译模型之步骤S43的步骤流程图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明第一实施例提供一种机器翻译模型的训练方法,包括以下步骤:
获取翻译源句和翻译源句对应的预设目标句;
将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本;
基于第一训练样本对初始模型进行第一阶段训练,得到多语言翻译模型;
获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本;
基于第二训练样本对第一阶段训练得到的多语言翻译模型进行第二阶段训练,得到机器翻译模型。
可以理解的,本发明的一种机器翻译模型的训练方法,该步骤首先获取翻译源句和翻译源句对应的预设目标句;然后将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本;基于第一训练样本对初始模型进行第一阶段训练,得到多语言翻译模型;获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本;最后基于第二训练样本对第一阶段训练得到的多语言翻译模型进行第二阶段训练,得到机器翻译模型。通过将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本,使机器翻译模型可以按照用户的指令进行翻译,大大提高了机器翻译模型的可交互性,用户在使用过程中可以通过指令的方式来获得翻译并且可以通过指令增加额外的翻译限制,从而使翻译更准确和更符合用户需求,重点培训模型的通用翻译能力。通过获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本对多语言翻译模型进行训练,预设篇章训练样本、预设记忆库训练样本和预设术语训练样本作为不可分割的整体形成第二训练样本,使得训练所得到的机器翻译模型整合了处理篇章翻译,翻译记忆库,术语翻译三项任务的能力,使得在三项任务之间实现了知识共享,大模型可以学习到其他任务的知识,有利于知识迁移,增强机器翻译模型的翻译能力和准确度,同时使得机器翻译模型在进行篇章翻译的时候更好的利用上文信息,从而使翻译前后一致性增强,可以更好的关注和利用前文的信息,从而达到前后翻译的一致性和流畅性;同时机器翻译模型具有的翻译记忆库增强和术语限制翻译的能力,能够借助额外的有效信息来提升翻译质量,这尤其对于各个垂直领域的翻译质量有显著改善,本机器翻译模型解决了三种翻译任务单独建模复杂性高以及任务之间不利于知识迁移的问题。
作为一种可选的实施方式,基础模型选择开源的Bloom模型针对第一训练样本进行训练。
需要说明的是,在构建第一训练样本的时候,为了在一定程度上训练机器翻译模型关注前文信息的能力以及充分激发初始模型所拥有的In-context learning能力,将多个翻译句对引入预设指令模板拼接在一起作为一个训练样本y送入初始模型,并且在训练的时候是按照训练语言模型的方式进行训练,即loss损失函数的计算方式如下:
这一训练方式不仅可以训练初始模型的单句翻译能力以及关注前文相关信息的能力,而且可以加快初始模型的收敛速度。
请参阅图2,步骤S2具体包括以下步骤:
将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对;
在带指令翻译句对中的预设指令结束位置添加指令结束符;
在带指令翻译句对的结束位置添加句子结束符;
多个带指令翻译句对拼接在一起以形成第一训练样本;
可以理解的,本发明的步骤中将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对;在带指令翻译句对中的预设指令结束位置添加指令结束符;在带指令翻译句对的结束位置添加句子结束符;多个带指令翻译句对拼接在一起以形成第一训练样本。通过上述步骤,能够使机器翻译模型具备多语言翻译功能。机器翻译模型可以按照用户的指令进行翻译,大大提高了机器翻译模型的可交互性,用户在使用过程中可以通过指令的方式来获得翻译并且可以通过指令增加额外的翻译限制,从而使翻译更准确和更符合用户需求,添加指令结束符和句子结束符的翻译句对形成的第一训练样本也能够更好的促进机器翻译模型达到理想的翻译性能。
具体地,本发明的一种实施方式,将翻译源句和预设目标句拼接在一起作为翻译句对;将预设指令加入翻译句对得到带指令翻译句对;添加指令结束符和句子结束符的带指令翻译句对形成第一训练样本,指令结束符是添加在带指令翻译句对中的预设指令结束位置,句子结束符是添加在带指令翻译句对的结束位置。具体例子如下:
请把<I like eating apple.>翻译为中文</end>我喜欢吃苹果。</s>翻译“Ilove my country.”为汉语</end>我爱我的祖国。</s>怎么用中文表示<I am from China></end>我来自中国。</s>
具体例子中的</end>符号是添加的指令结束符,用于告诉机器翻译模型指令结束并开始生成对应的翻译结果,</s>是添加的句子结束符,句子结束符用于标记生成的翻译句子结束,停止继续生成。
进一步的,第一阶段训练采用LoRA轻量化训练方法对初始模型进行参数优化,同时引入第一训练数据进行循环训练。
需要说明的是,所谓的轻量化微调就是指在训练过程中冻结初始模型的大部分参数或者全部参数,只训练其中的部分参数亦或是添加一些额外的参数进行训练。因为在初始模型训练过程中,最耗费资源的就是保存优化器状态信息以及初始模型参数的梯度信息,耗时长的是进行初始模型参数更新。轻量化微调方式在训练过程中需要保存的信息大大减少,因此也就大幅度的改善了资源消耗的问题并且缩短了训练时长。具体的轻量化微调方式有很多,比如Adapter,LoRA以及prefix-tuning等各类方法。
请参阅图3,具体的,在第一阶段训练的时候选用LoRA轻量化训练方法,第一阶段的训练过程也即是预训练的过程,LoRA是一种基于低秩的轻量化微调方法,也是目前在大模型领域应用最多的方法。它既不需要对模型添加额外的参数化结构,也不需要对输入端进行修改,它是通过对模型参数的优化量进行了低秩近似。原理在于神经网络中的参数矩阵往往是满秩的,对模型的训练过程其实就是学习优化这些参数矩阵。而预训练模型中的参数矩阵往往存在一个“本征维度”,即学习到的这些参数的优化量可以是低秩的,被映射到一个低维空间也可以保持很好的性能。在这样的前提下,可以只对参数矩阵中的低秩部分进行优化,并将整体的训练过程表示成一个低秩矩阵的优化过程:
为预训练的权重矩阵,/>为在自适应期间的累积更新梯度,A、B是两个低维的矩阵。
前向传播过程可以表示如下:
x为输入样本,h为隐藏激活变量,相较于原来的参数规模,待优化的参数规模被大大减小,从而达到了轻量化微调的效果。
具体来说,第一阶段训练模型的通用翻译能力,一般训练数据规模非常大,采用轻量化微调方式可以缩短训练时长,节约计算资源。已经有实验证明LoRA在只训练极少数参数的情况下取得了接近全参数微调的结果,证明了该方法的有效性。采用这种方式对初始模型进行训练,既保证了初始模型的性能,同时又降低了训练初始模型所需的资源以及训练时长,增加了初始模型的可实现性。
请参阅图4,步骤S41具体包括以下步骤:
S41:获取预设篇章训练样本。
S42:获取预设记忆库训练样本。
S43:获取预设术语训练样本。
S44:预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本。
具体的,通过分别设置预设篇章训练样本、预设记忆库训练样本和预设术语训练样本并形成第二训练样本对多语言翻译模型进行训练,使得训练所得机器翻译模型整合了处理篇章翻译,翻译记忆库,术语翻译三项任务的能力,篇章翻译,翻译记忆库,术语翻译三项任务的训练都建模成context-learning类型的任务类型,把拼接在前面的翻译信息看作context,对于翻译源句的翻译提供有效信息和背景知识,辅助翻译并最终提高翻译质量和准确性。
请参阅图5,步骤S41具体包括以下步骤:
S411:获取待翻译篇章,将待翻译篇章中的每句待翻译句子拆分为翻译源句;
S412:获取翻译源句前文和翻译源句前文对应的前文预设目标句;
S413:将翻译源句前文和翻译源句前文对应的前文预设目标句拼接为翻译句对;
S414:将翻译源句前文和翻译源句前文对应的前文预设目标句引入预设指令模板并拼接成翻译句对,并将其拼接在带指令翻译句对前面进而形成预设篇章训练样本。
可以理解的,带指令翻译句对是翻译源句和翻译源句对应的预设目标句引入预设指令模板所形成的带指令翻译句对。传统模型解决篇章翻译要么是将篇章段落拆分成单独的句子进行翻译,要么是将连续的几个翻译源句拼成一个整体进行翻译,在这两种情况下,传统模型要么无法关注到前文信息,要么无法充分利用好前文信息。而通过设置预设篇章训练样本,能够使得多语言训练模型在利用预设篇章训练样本进行第二阶段训练,针对翻译源句进行翻译的时候,充分关注并利用翻译源句前文信息,不仅可以关注到翻译源句前文的源端信息还可以关注到它前文对应的目标端信息,从而充分利用翻译源句前文的源端信息和前文对应的目标端信息,达到篇章前后翻译的一致性和流畅性。具体例子如下:
把<Due to the heroic performance of the Team GB, they won the game,XinwenLianbo highly praised the performance of the Team GB>翻译为中文</end>由于英国队的英勇表现,英国队赢得了这场比赛,新闻联播高度评价了英国队的表现</s>把<XinwenLianbo reported that the Team GB had won a gold medal.>翻译为中文</end>《新闻联播》报道英国队获得一枚金牌。</s>
通过上述操作,使得机器翻译模型在翻译时能够充分关注并利用带指令翻译句对前文翻译句对中有关比赛、英国队和新闻联播的有效信息和背景知识来对后面翻译源句的翻译提供帮助来辅助翻译,提高翻译的精准程度。
请参阅图5,步骤S42具体包括以下步骤:
S421:使用基于关键词检索和基于向量检索两种不同的检索方式,检索记忆库数据,获取记忆库数据中与翻译源句相关的翻译句对;
S422:将记忆库数据中与翻译源句相关且引入预设指令模板的翻译句对拼接在带指令翻译句对前面,进而形成预设记忆库训练样本。
可以理解的,带指令翻译句对是翻译源句和翻译源句对应的预设目标句引入预设指令模板所形成的带指令翻译句对。
具体的,采用基于关键词检索和基于向量检索两种不同的检索方式,其中基于关键词检索从预设记忆库数据中获得基于词汇的与翻译源句匹配的句子,而基于向量检索从预设记忆库数据中获得基于语义的与翻译源句匹配的句子,这两种方式能够获得不同维度与翻译源句匹配的句子信息,为后面的流程提供大量的匹配信息,具有较强的实用性。通过这两种不同的检索方式,检索出记忆库数据中与翻译源句相关的翻译句对,相较于只检索出预设目标句,能够使得多语言训练模型在利用预设记忆库训练样本进行第二阶段训练时,为其训练提供更加丰富完整的有效信息,可以关注并利用从记忆库不同维度下所检索出来的跟翻译源句关联紧密的翻译句对,提供与翻译源句关联紧密的源端信息和目标端信息,从而丰富翻译源句的辅助翻译信息。
需要说明的是,对于基于关键词检索方式使用Elasticsearch工具做为具体的实现工具。Elasticsearch是一个开源的分布式检索引擎,针对结构化和非结构化的数据进行存储和检索,可以在海量的数据中以极快的速度得到检索结果。在进行检索的时候,直接使用翻译源句作为查询关键词,基于BM25算法来从整个记忆库中进行检索,对于记忆库中的每个文档d,可以借用该工具实现的BM25算法结合翻译源句得到一个相似度分数:, 其中/>表示使用的翻译源句中的某一个单词,/>表示当前单词的权重,连和表示对翻译源句中所有的单词和文档的相似度的和来代表这个文档和当前翻译源句的相关度。
进一步的,对于基于向量的检索方式,采用faiss工具作为具体的实现工具。首先获取记忆库中每个句子的向量表示,使用sentence-transformers来源库来获取每个句子的向量表示,然后利用faiss工具来存储所有的记忆库中句子的向量表示。在进行查询的时候,根据翻译源句的向量表示:,利用faiss工具可以计算其与记忆库中每个句子向量表示之间的欧式距离,可以采用这个距离来表示二者之间的相关度。
假设记忆库中某个目标句的向量表示是:
,
那么两个句子之间的相似度分数可以计算为:
。
通过这两种不同的检索方式,可以得到不同维度下跟翻译源句关联紧密的句子,从而丰富翻译源句的辅助翻译信息。具体例子如下:
把<The reporter from XinwenLianbo interviewed several members of theTeam GB>翻译为中文</end>新闻联播的记者采访了几名英国队的队员。</s>把<XinwenLianbo reported that the Team GB had won a silver medal.>翻译为中文</end>《新闻联播》报道英国队获得一枚银牌。</s>把<XinwenLianbo reported that theTeam GB had won a gold medal.>翻译为中文</end>《新闻联播》报道英国队获得一枚金牌。</s>
通过上述操作,使得机器翻译模型在翻译时关注并利用从记忆库不同维度下所检索出来的跟翻译源句关联紧密的翻译句对,提供与翻译源句关联紧密的源端信息和目标端信息,从而丰富翻译源句的辅助翻译信息。
请参阅图6,步骤S43具体包括以下步骤:
S431:获取翻译句对并进行分词处理;
S432:利用对齐工具处理分词处理后的翻译句对得到对齐词典;
S433:将对齐词典中的源端和目标端引入指令模板,并将其拼接在带指令翻译句对前面形成预设术语训练样本。
可以理解的,带指令翻译句对是翻译源句和翻译源句对应的预设目标句引入预设指令模板所形成的带指令翻译句对。
进一步的,在构造第二训练样本的时候在第二训练样本前面拼接术语对应的正确翻译,以提供给机器翻译模型相关的翻译信息。为此首先需要获取对齐后的翻译句对中的一些短语映射关系,作为一种可选的实施方式,使用开源的对齐工具fast-align或者awesome-align来获取这部分数据。使用该工具对翻译源句和记忆库目标句进行分词处理获得其中的对齐信息,基于对齐信息将翻译源句和记忆库目标句处理成“源句 ||| 目标句”的对齐的翻译句对格式。从对齐信息中挑选出一些预设特定术语词,将预设特定术语词对应的词翻译拼接在带指令翻译句对的前面,可以使得机器翻译模型在翻译的时候就将这个词转为指定的翻译。具体例子如下:
Team GB应该翻译为英国队</s>Xinwen Lianbo 的翻译应该是《新闻联播》</s>把<XinwenLianbo reported that the Team GB had won a gold medal.>翻译为中文</end>《新闻联播》报道英国队获得一枚金牌。</s>
通过上述操作,使得机器翻译模型在翻译时根据指令将Team GB翻译为英国队,Xinwen Lianbo翻译为《新闻联播》,这使得翻译指定性更明确更具体。
进一步的,预设术语词对应的词翻译拼接位置和顺序是随机选择的,这能够增强特定术语词的多样性和进一步提高机器翻译模型的处理性能。
进一步的,分词工具的处理结果是多个i-j对,表示翻译源句中的第i个单词和记忆库目标句中的第j个单词是对齐关系,其中索引值是从0开始计算。根据这些对应索引对应结果可以获得对齐句对中的词对齐信息,从而得到词级别的辅助翻译信息。
进一步的,第二训练样本包括垂直领域训练样本,垂直领域训练样本包括垂直领域翻译源句和拼接在垂直领域翻译源句前的翻译句对,拼接在垂直领域翻译源句前的翻译句对是从翻译记忆库中检索得到的与垂直领域翻译源句相关的翻译句对,在第二阶段训练中,垂直领域训练样本为多语言翻译模型的训练提供领域知识。通过在第二训练样本中增加了各个垂直领域翻译源句的数据资源,比如法律领域,医药领域等垂直领域翻译源句的数据资源,然后在垂直领域翻译源句前面拼接上从翻译记忆库中检索出来的与垂直领域翻译源句相关的翻译句对作为垂直领域训练样本,在第二阶段训练中增强机器翻译模型通过前文拼接的翻译句对指导当前句翻译的能力,从而达到提升机器翻译模型的翻译质量的效果。
进一步的,在机器翻译模型的第二阶段的训练中引入mask掩码预测任务,目的是增强机器翻译模型关注拼接的记忆库目标句中有效的提示信息的能力,从而更好的利用有效的提示信息来辅助当前句的翻译。具体对每个训练样例来说,针对预设记忆库训练样本,有预设概率执行下面的操作,具体的,预设概率可以设置为50%,针对最后一个翻译源句的每个token,遍历前面拼接的与翻译源句相关的翻译句对,如果/>在前面拼接的与翻译源句相关的翻译句对中出现过,那么将/>以第一预设概率/>使用<mask>符号来代替,对于前面拼接的与翻译源句相关的翻译句对中出现的/>,同样以第二预设概率/>来使用<mask>符号代替。然后训练的时候模型输入的是经过mask处理过后的样例,label是原始未经过处理的样例,同样是采用语言模型的方式进行训练。通过这样的构造方式,当模型需要翻译这个词的时候,因为该词被mask掉了,就可以强迫机器翻译模型去关注前面拼接记忆库目标句中相关的有效信息,从而来完成翻译,使得训练得到的机器翻译模型能具备更好的利用前文辅助信息的能力,从而提升机器翻译模型的翻译质量。
可以理解的,第二阶段训练的过程采用全参数微调的方式来训练多语言翻译模型。全参数微调根据多语言翻译模型和训练数据D对多语言模型进行训练,多语言翻译模型适配的目标是生成机器翻译模型的参数为
将-/>定义为在原始模型/>之上的操作,对于全参数微调,有/>=/>,并且/>=/>是/>中所有参数相对于训练数据的更新值,经验上来说全参数微调有|/>|,而轻量化微调有|/>|,从而通常来讲机器翻译模型在训练中采用全参数微调需要调整的参数数量远大于采用轻量化微调,但全参数微调因为第二训练样本规模相对第一训练样本来说小很多,采用全参数微调的方式进行训练以增强性能,可以很好地保证机器翻译模型的性能,同时也不会消耗大量的训练时间。
本发明第二实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明第一实施例提供的一种机器翻译模型的训练方法。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明的附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
与现有技术相比,本发明所提供的一种机器翻译模型的训练方法和计算机可读存储介质具有如下的有益效果:
1、本发明实施例中提供的一种机器翻译模型的训练方法,通过将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本,使机器翻译模型可以按照用户的指令进行翻译,大大提高了机器翻译模型的可交互性,用户在使用过程中可以通过指令的方式来获得翻译并且可以通过指令增加额外的翻译限制,从而使翻译更准确和更符合用户需求;并且将多个带指令翻译句对拼接在一起以形成第一训练样本,重点培训多语言翻译模型的通用翻译能力,也使多语言翻译模型在一定程度上学习到关注前文信息的能力同时加快训练的收敛速度。通过获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本对多语言翻译模型进行训练,可得到统一多任务的机器翻译模型,其整合了处理篇章翻译,翻译记忆库,术语翻译三项任务的能力,解决了三种翻译任务单独建模复杂性高以及由此带来的任务之间不利于知识迁移的问题,使得机器翻译模型在进行篇章翻译的时候更好的利用上文信息,从而使翻译前后一致性增强,可以更好的关注和利用前文的信息,从而达到前后翻译的一致性和流畅性;同时机器翻译模型具有的翻译记忆库增强和术语限制翻译的能力,能够借助额外的有效信息来提升翻译质量,这尤其对于各个垂直领域的翻译质量有显著改善。
2、本发明实施例中提供的将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本;向带指令翻译句对添加指令结束符和句子结束符,指令结束符用于被识别以结束对应的预设指令并开始生成对应的翻译结果,句子结束符用于标记生成的翻译句子结束,停止继续生成。从而可以使机器翻译模型具备多语言翻译功能。机器翻译模型可以按照用户的指令进行翻译,大大提高了机器翻译模型的可交互性,用户在使用过程中可以通过指令的方式来获得翻译并且可以通过指令增加额外的翻译限制,从而使翻译更准确和更符合用户需求,添加指令结束符和句子结束符的翻译句对形成的第一训练样本也能够更好的促进机器翻译模型达到理想的翻译性能。
3、本发明实施例中第一阶段训练采用LoRA轻量化训练方法对初始模型进行参数优化,同时引入第一训练数据进行循环训练。
轻量化微调方式在训练过程中需要保存的信息大大减少,因此也就大幅度的改善了资源消耗的问题并且缩短了训练时长,第一阶段训练机器翻译模型的通用翻译能力,一般训练数据规模非常大,采用轻量化微调方式可以缩短训练时长,而且能够在只训练极少数参数的情况下取得接近全参数微调的结果,节省了计算资源,同时保证了机器翻译模型的性能,增加了机器翻译模型的可实现性。
4、本发明实施例通过拆分待翻译篇章为翻译源句,获取翻译源句前文和翻译源句前文对应的前文预设目标句,将翻译源句前文和翻译源句前文对应的前文预设目标句引入预设指令模板并拼接成翻译句对,并将其拼接在带指令翻译句对前面进而形成预设篇章训练样本。
设置预设篇章训练样本,能够使得多语言训练模型在利用预设篇章训练样本进行第二阶段训练,针对翻译源句进行翻译的时候,充分关注并利用翻译源句前文信息,不仅可以关注到翻译源句前文的源端信息还可以关注到它前文对应的目标端信息,从而充分利用翻译源句前文的源端信息和前文对应的目标端信息,达到篇章前后翻译的一致性和流畅性。
5、本发明实施例通过使用不同检索方式检索记忆库数据,获取记忆库数据中与翻译源句相关的翻译句对,将记忆库数据中与翻译源句相关且引入预设指令模板的翻译句对拼接在带指令翻译句对前面,进而形成预设记忆库训练样本。
设置预设记忆库训练样本,能够使得多语言训练模型在利用预设记忆库训练样本进行第二阶段训练时,可以关注并利用从记忆库不同维度下所检索出来的跟翻译源句关联紧密的翻译句对,提供与翻译源句关联紧密的源端信息和目标端信息,从而丰富翻译源句的辅助翻译信息。
6、本发明实施例通过获取翻译句对并进行分词处理;利用对齐工具处理分词处理后的翻译句对得到对齐词典;将对齐词典中的源端和目标端引入指令模板,并将其拼接在带指令翻译句对前面形成预设术语训练样本。
设置预设术语训练样本,能够使得多语言训练模型在利用预设术语训练样本进行第二阶段训练时,将对齐词典中的源端和目标端拼接在带指令翻译句对前面,使得翻译指定性更明确更具体,可以让模型在翻译的时候就将翻译源句与对齐词典中对应的词转为指定的翻译,提升最终翻译的质量,使得翻译结果更加精准。此外,我们的方法根据获取的对齐词典将术语提示更一般化为短语级别的提示,可以有效缓解术语翻译任务训练数据匮乏的问题。
7、本发明实施例中第二训练样本包括垂直领域训练样本,垂直领域训练样本包括垂直领域翻译源句和拼接在垂直领域翻译源句前的翻译句对,拼接在垂直领域翻译源句前的翻译句对是从翻译记忆库中检索得到的与垂直领域翻译源句相关的翻译句对,在第二阶段训练中,垂直领域训练样本为多语言翻译模型的训练提供领域知识。
第二训练样本包括垂直领域训练样本使得模型经过垂直领域训练样本的训练,可以增强垂直领域翻译能力,比如法律领域,医药领域等,机器翻译模型依靠检索出来的翻译句对作为上文提供相关领域的知识,增强机器翻译模型通过前文拼接的翻译记忆信息指导当前句翻译的能力,能够改进领域翻译的性能,针对垂直领域也能够做出精确的翻译,从而达到提升特定领域翻译质量的效果。
8、本发明实施例中基于预设记忆库训练样本在第二阶段训练过程引入mask掩码预测任务获得过程训练样例;在训练过程中,针对预设记忆库训练样本,有预设概率执行下面的操作,针对最后一个翻译源句的每个token,遍历前面拼接的与翻译源句相关的翻译句对,如果/>在前面拼接的与翻译源句相关的翻译句对出现过,那么将/>以第一预设概率/>使用<mask>符号来代替,对于前面拼接的与翻译源句相关的翻译句对出现的/>,以第二预设概率/>来使用<mask>符号代替,将使用<mask>符号代替的预设记忆库训练样本作为过程训练样例,用于第二阶段训练。
通过mask构造方式,基于预设记忆库训练样本在第二阶段训练过程,当机器翻译模型需要翻译这个词的时候,因为该词被mask掉了,就可以强迫机器翻译模型去关注前面拼接的与翻译源句相关的翻译句对相关的有效信息,从而来完成翻译,使得训练得到的机器翻译模型能具备更好的利用前文辅助信息的能力,从而提升机器翻译模型的翻译质量。
9、本发明实施例中提供的第二阶段训练的过程采用全参数微调的方式来训练多语言翻译模型。
第二训练样本的规模相对第一训练样本来说小很多,采用全参数微调的方式进行训练以增强性能,可以很好地保证机器翻译模型的性能,同时也不会耗费大量的训练时间。
10、本发明实施例还提供一种计算机可读存储介质,具有与上述一种机器翻译模型的训练方法相同的有益效果,在此不做赘述。
以上对本发明实施例公开的一种机器翻译模型的训练方法和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
Claims (10)
1.一种机器翻译模型的训练方法,其特征在于,包括以下步骤:
获取翻译源句和翻译源句对应的预设目标句;
将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本;
基于第一训练样本对初始模型进行第一阶段训练,得到多语言翻译模型;
获取预设篇章训练样本、预设记忆库训练样本和预设术语训练样本形成第二训练样本;
基于第二训练样本对第一阶段训练得到的多语言翻译模型进行第二阶段训练,得到机器翻译模型。
2.如权利要求1所述的机器翻译模型的训练方法,其特征在于:所述预设指令模板包括多种预设指令,将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对,将多个带指令翻译句对拼接在一起以形成第一训练样本,具体包括以下步骤:
将翻译源句和预设目标句引入预设指令模板形成带指令翻译句对;
在带指令翻译句对中的预设指令结束位置添加指令结束符;
在带指令翻译句对的结束位置添加句子结束符;
多个带指令翻译句对拼接在一起以形成第一训练样本;
其中,所述指令结束符用于被识别以结束对应的预设指令并开始生成对应的翻译结果;所述句子结束符用于标记生成的翻译句子结束,停止继续生成。
3.如权利要求1所述的机器翻译模型的训练方法,其特征在于:第一阶段训练采用轻量化微调方式来训练初始模型,具体包括:
采用LoRA轻量化训练方法对初始模型进行参数优化,同时引入第一训练数据进行循环训练。
4.如权利要求1所述的机器翻译模型的训练方法,其特征在于:获取预设篇章训练样本,具体包括以下步骤:
获取待翻译篇章,将待翻译篇章中的每句待翻译句子拆分为翻译源句;
获取翻译源句前文和翻译源句前文对应的前文预设目标句;
将翻译源句前文和翻译源句前文对应的前文预设目标句拼接为翻译句对;
将翻译源句前文和翻译源句前文对应的前文预设目标句引入预设指令模板并拼接成翻译句对,并将其拼接在带指令翻译句对前面进而形成预设篇章训练样本。
5.如权利要求1所述的机器翻译模型的训练方法,其特征在于:获取预设记忆库训练样本,具体包括以下步骤:
使用基于关键词检索和基于向量检索两种不同的检索方式,检索记忆库数据,获取记忆库数据中与翻译源句相关的翻译句对;
将记忆库数据中与翻译源句相关且引入预设指令模板的翻译句对拼接在带指令翻译句对前面,进而形成预设记忆库训练样本。
6.如权利要求1所述的机器翻译模型的训练方法,其特征在于:获取预设术语训练样本,具体包括以下步骤:
获取翻译句对并进行分词处理;
利用对齐工具处理分词处理后的翻译句对得到对齐词典;
将对齐词典中的源端和目标端引入指令模板,并将其拼接在带指令翻译句对前面形成预设术语训练样本。
7.如权利要求1所述的机器翻译模型的训练方法,其特征在于:第二训练样本包括垂直领域训练样本,垂直领域训练样本包括垂直领域翻译源句和拼接在垂直领域翻译源句前的翻译句对,拼接在垂直领域翻译源句前的翻译句对是从翻译记忆库中检索得到的与垂直领域翻译源句相关的翻译句对,在第二阶段训练中,垂直领域训练样本为多语言翻译模型的训练提供领域知识。
8.如权利要求1所述的机器翻译模型的训练方法,其特征在于:基于第二训练样本对多语言翻译模型进行第二阶段训练,得到机器翻译模型,包括:
基于预设记忆库训练样本在第二阶段训练过程引入mask掩码预测任务获得过程训练样例;在训练过程中,针对预设记忆库训练样本,有预设概率执行下面的操作,针对最后一个翻译源句的每个token,遍历前面拼接的与翻译源句相关的翻译句对,如果/>在前面拼接的与翻译源句相关的翻译句对出现过,那么将/>以第一预设概率/>使用<mask>符号来代替,对于前面拼接的与翻译源句相关的翻译句对出现的/>,以第二预设概率/>来使用<mask>符号代替,将使用<mask>符号代替的预设记忆库训练样本作为过程训练样例,用于第二阶段训练。
9.如权利要求1所述的机器翻译模型的训练方法,其特征在于:第二阶段训练的过程采用全参数微调的方式来训练多语言翻译模型。
10.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于:计算机程序被执行时实现如权利要求1至9任一项所述的机器翻译模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311252185.0A CN116992894B (zh) | 2023-09-26 | 2023-09-26 | 一种机器翻译模型的训练方法和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311252185.0A CN116992894B (zh) | 2023-09-26 | 2023-09-26 | 一种机器翻译模型的训练方法和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992894A true CN116992894A (zh) | 2023-11-03 |
CN116992894B CN116992894B (zh) | 2024-01-16 |
Family
ID=88525192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311252185.0A Active CN116992894B (zh) | 2023-09-26 | 2023-09-26 | 一种机器翻译模型的训练方法和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992894B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
US20210103704A1 (en) * | 2019-10-08 | 2021-04-08 | Beijing Kingsoft Digital Entertainment Co., Ltd. | Method and Apparatus for Reordering Results of a Translation Model |
CN113343717A (zh) * | 2021-06-15 | 2021-09-03 | 沈阳雅译网络技术有限公司 | 一种基于翻译记忆库的神经机器翻译方法 |
US20210374363A1 (en) * | 2019-07-08 | 2021-12-02 | Tencent Technology (Shenzhen) Company Limited | Machine translation method and apparatus, electronic device, and storage medium |
JP2021192290A (ja) * | 2020-12-18 | 2021-12-16 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 機械翻訳モデルのトレーニング方法、装置及び電子機器 |
CN114757210A (zh) * | 2022-03-08 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 |
CN114792101A (zh) * | 2022-06-24 | 2022-07-26 | 北京澜舟科技有限公司 | 机器翻译的输入信息生成、翻译和机器模型获取的方法 |
CN115114939A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 |
CN115270826A (zh) * | 2022-09-30 | 2022-11-01 | 北京澜舟科技有限公司 | 多语言翻译模型构建方法、翻译方法及计算机存储介质 |
CN115719072A (zh) * | 2022-10-28 | 2023-02-28 | 北京理工大学 | 一种基于掩码机制的篇章级神经机器翻译方法及系统 |
CN115860015A (zh) * | 2022-12-29 | 2023-03-28 | 北京中科智加科技有限公司 | 一种基于翻译记忆的转写文本翻译方法和计算机设备 |
CN115906879A (zh) * | 2022-11-17 | 2023-04-04 | 北京澜舟科技有限公司 | 一种垂直领域的翻译模型训练方法和存储介质 |
-
2023
- 2023-09-26 CN CN202311252185.0A patent/CN116992894B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684648A (zh) * | 2019-01-14 | 2019-04-26 | 浙江大学 | 一种多特征融合的古今汉语自动翻译方法 |
US20210374363A1 (en) * | 2019-07-08 | 2021-12-02 | Tencent Technology (Shenzhen) Company Limited | Machine translation method and apparatus, electronic device, and storage medium |
US20210103704A1 (en) * | 2019-10-08 | 2021-04-08 | Beijing Kingsoft Digital Entertainment Co., Ltd. | Method and Apparatus for Reordering Results of a Translation Model |
JP2021192290A (ja) * | 2020-12-18 | 2021-12-16 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 機械翻訳モデルのトレーニング方法、装置及び電子機器 |
CN113343717A (zh) * | 2021-06-15 | 2021-09-03 | 沈阳雅译网络技术有限公司 | 一种基于翻译记忆库的神经机器翻译方法 |
CN114757210A (zh) * | 2022-03-08 | 2022-07-15 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 |
CN115114939A (zh) * | 2022-04-28 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 翻译模型的训练方法、语句翻译方法、装置、设备、程序 |
CN114792101A (zh) * | 2022-06-24 | 2022-07-26 | 北京澜舟科技有限公司 | 机器翻译的输入信息生成、翻译和机器模型获取的方法 |
CN115270826A (zh) * | 2022-09-30 | 2022-11-01 | 北京澜舟科技有限公司 | 多语言翻译模型构建方法、翻译方法及计算机存储介质 |
CN115719072A (zh) * | 2022-10-28 | 2023-02-28 | 北京理工大学 | 一种基于掩码机制的篇章级神经机器翻译方法及系统 |
CN115906879A (zh) * | 2022-11-17 | 2023-04-04 | 北京澜舟科技有限公司 | 一种垂直领域的翻译模型训练方法和存储介质 |
CN115860015A (zh) * | 2022-12-29 | 2023-03-28 | 北京中科智加科技有限公司 | 一种基于翻译记忆的转写文本翻译方法和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116992894B (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yuan et al. | One size does not fit all: Generating and evaluating variable number of keyphrases | |
CN110914827B (zh) | 生成多语言语义解析器的系统和计算机实现方法 | |
CN109299479B (zh) | 通过门控机制将翻译记忆融入神经机器翻译的方法 | |
Di Gangi et al. | One-to-many multilingual end-to-end speech translation | |
CN114911892A (zh) | 用于搜索、检索和排序的交互层神经网络 | |
Glass et al. | Robust retrieval augmented generation for zero-shot slot filling | |
US11531693B2 (en) | Information processing apparatus, method and non-transitory computer readable medium | |
Lin et al. | Towards user-driven neural machine translation | |
Bouscarrat et al. | STRASS: A light and effective method for extractive summarization based on sentence embeddings | |
CN116662502A (zh) | 基于检索增强的金融问答文本生成方法、设备及存储介质 | |
Bai et al. | Source-critical reinforcement learning for transferring spoken language understanding to a new language | |
WO2022073333A1 (zh) | 基于多级词典的分词方法、装置、设备及可读存储介质 | |
CN117236337B (zh) | 基于混合提示学习完成历史知识图谱生成自然语言方法 | |
Di Gangi et al. | Instance-based model adaptation for direct speech translation | |
CN116992894B (zh) | 一种机器翻译模型的训练方法和计算机可读存储介质 | |
Zhang et al. | Mind the gap: Machine translation by minimizing the semantic gap in embedding space | |
Wolk et al. | Survey on neural machine translation into polish | |
Li et al. | Cross-lingual transferring of pre-trained contextualized language models | |
Gao et al. | Chinese-Naxi machine translation method based on Naxi dependency language model | |
CN115062603A (zh) | 对齐增强语义解析方法、装置和计算机程序产品 | |
Li | Query spelling correction | |
Kalimuthu et al. | Incremental domain adaptation for neural machine translation in low-resource settings | |
Chen et al. | Eliciting knowledge from language models with automatically generated continuous prompts | |
Chen et al. | ST $^ 2$: Small-data Text Style Transfer via Multi-task Meta-Learning | |
CN114330290A (zh) | 语言模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |