CN116384414A - 机器翻译方法、装置、电子设备和存储介质 - Google Patents

机器翻译方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN116384414A
CN116384414A CN202111567148.XA CN202111567148A CN116384414A CN 116384414 A CN116384414 A CN 116384414A CN 202111567148 A CN202111567148 A CN 202111567148A CN 116384414 A CN116384414 A CN 116384414A
Authority
CN
China
Prior art keywords
word
corpus data
representation
training set
synthesizer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111567148.XA
Other languages
English (en)
Inventor
高洪
周志浩
黄书剑
陈家骏
张洋铭
周祥生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
ZTE Corp
Original Assignee
Nanjing University
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, ZTE Corp filed Critical Nanjing University
Priority to CN202111567148.XA priority Critical patent/CN116384414A/zh
Priority to PCT/CN2022/140417 priority patent/WO2023116709A1/zh
Publication of CN116384414A publication Critical patent/CN116384414A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例涉及机器学习技术领域,公开了一种机器翻译方法、装置、电子设备和存储介质。机器翻译方法包括以下步骤:获取待翻译语料数据;将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示;将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示;将所述基于词的上下文表示输入解码器,得到所述待翻译语料数据的翻译结果。能够不受语种的限制,在任意语种之间进行有效、准确的翻译。

Description

机器翻译方法、装置、电子设备和存储介质
技术领域
本申请实施例涉及机器学习技术领域,特别涉及一种机器翻译方法、装置、电子设备和存储介质。
背景技术
机器翻译根据模型的不同训练方式可以分为监督机器翻译、半监督机器翻译和无监督机器翻译,其中,无监督机器翻译由于不需要构建平行语料数据,只需要收集单语语料数据构建单语语料数据集进行训练,因此,具有更加广泛的应用前景。目前的无监督机器翻译主要是基于编解码器+注意力机制进行预训练和回译,其中,通过预训练对将两种不同语言编码得到彼此共享的上下文表示进行学习,通过回译构造伪平行语料进行翻译训练,以进一步提高翻译的质量。
然而,只有在英-法、英-德等语言之间基于上述模型进行翻译才比较有效,而对中-英、法-韩等语言,往往达不到预期效果。
发明内容
本申请实施例的主要目的在于提出一种机器翻译方法、装置、电子设备及存储介质,旨在实现能够不受语种的限制,在任意语种之间能够进行有效、准确的翻译。
为实现上述目的,本申请实施例提供了一种机器翻译方法,所述方法包括以下步骤:获取待翻译语料数据;将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示;将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示;将所述基于词的上下文表示输入解码器,得到所述待翻译语料数据的翻译结果。
为实现上述目的,本申请实施例还提出了一种机器翻译装置,包括:获取模块,用于获取待翻译语料数据;编码模块,用于将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示;合成模块,用于将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示;解码模块,用于将所述基于词的上下文表示输入解码器,得到所述待翻译语料数据的翻译结果。
为实现上述目的,本申请实施例还提出了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的机器翻译方法。
为实现上述目的,本申请实施例还提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的机器翻译方法。
本申请实施例提出的机器翻译方法,在编码器在输出待翻译语料数据的基于子词的上下文表示后,不是直接将基于子词的上下文表示输入解码器中,而是先将基于子词的上下文表示输入到词表示合成器中,以对基于子词的上下文表示按照词粒度进行合成,得到基于词的上下文表示,然后将基于词的上下文表示输入到解码器中,也就是在原有的编解码器+注意力机制的基础上,额外在编码器和解码器之间引入词表示合成器,将解码器的输入由原来的基于子词的上下文表示变为基于词的上下文表示,即将解码器的解码翻译粒度从子词变化为词,由于词的含义相对于子词更加稳定,受到语言结构如语境、在语句中的嵌入方式等的影响比子词小,使得解码器不需要基于子词进行词重建,避免了由于子词构词的方式不同导致翻译前后的语种中基于子词重建词的含义发生变化,进而导致翻译前后的语句含义发生较大变化的问题,使得翻译前后的语句中各个词的含义更加准确,进而翻译的语句也会更加准确,克服了翻译过程中的语种限制,能够在任意语种之间能够进行有效、准确的翻译。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定。
图1是本申请一实施例中提供的机器翻译方法的流程图;
图2是本申请另一实施例中提供的机器翻译装置的结构示意图;
图3是本申请另一实施例中提供的电子设备的结构示意图。
具体实施方式
由背景技术可知,目前的机器翻译方法的翻译效果会受到翻译前后的语种的限制,不是任意两个语种之间的翻译都能够达到预期效果。
经分析发现,目前的机器翻译方法的效果受到语种限制的原因在于,在预训练时,输入解码器中的是子词,学习到的是两种不同语言编码彼此共享的基于子词上下文表示。英-法、英-德等语言之间的子词具有一些共通性且由子词构造词的方式也存在共通性,如英语中的太阳“sun”和德语中的太阳“Sonne”比较近似、英语和德语均使用“er”和“est”分别表示比较级和最高级等;而中文和英文的子词表示的差异和由子词构造单词的差异都非常大,即使通过训练能够学习到共享空间的子词表示,但是解码器仍然会由于子词构词方式的多样性以及子词在词和语句中含义的不固定性,导致按照子词进行翻译导致与词的真实意思相差甚远,最终达不到预期的翻译效果。
为解决上述问题,本申请实施例提供了一种机器翻译方法,所述方法包括以下步骤:获取待翻译语料数据;将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示;将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示;将所述基于词的上下文表示输入解码器,得到所述待翻译语料数据的翻译结果。
本申请实施例提出的机器翻译方法,在编码器在输出待翻译语料数据的基于子词的上下文表示后,不是直接将基于子词的上下文表示输入解码器中,而是先将基于子词的上下文表示输入到词表示合成器中,以对基于子词的上下文表示按照词粒度进行合成,得到基于词的上下文表示,然后将基于词的上下文表示输入到解码器中,也就是在原有的编解码器+注意力机制的基础上,额外在编码器和解码器之间引入词表示合成器,将解码器的输入由原来的基于子词的上下文表示变为基于词的上下文表示,即将解码器的解码翻译粒度从子词变化为词,由于词的含义相对于子词更加稳定,受到语言结构如语境、在语句中的嵌入方式等的影响比子词小,使得解码器不需要基于子词进行词重建,避免了由于子词构词的方式不同导致翻译前后的语种中基于子词重建词的含义发生变化,进而导致翻译前后的语句含义发生较大变化的问题,使得翻译前后的语句中各个词的含义更加准确,进而翻译的语句也会更加准确,克服了翻译过程中的语种限制,能够在任意语种之间能够进行有效、准确的翻译。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本申请的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本申请实施例一方面提供了一种机器翻译方法,应用在两种不同语言之间互译的过程中,应用于手机、服务器等电子设备,如图1所示,其流程至少包括但不限于:
步骤101,获取待翻译语料数据。
本实施例中的待翻译语料数据为文本数据,但是本实施例不对待翻译语料数据的数据量进行限定,可以是一句话,也可以是一个词或是一段话等。
需要说明的是,待翻译语料数据的来源可以是音频、视频、文本等,在获取待翻译语料数据的过程中可能还需要结合其他的例如语言转文字、文本分割等。
在一个例子中,需要为A语言的一段视频提供B语言的字幕,需要先对视频中的语音信号进行语言转文字处理,得到若干语句,可以将若干语句中的每句话依次作为当前的待翻译语料,也可以将若干语句整体作为待翻译语料数据,然后翻译结果以字幕的形式添加到视频中。
在另一个例子中,需要将一个便携式文档格式(Portable Document Format,PDF)文档翻译为目标语种的可编辑文档,此时,可以对PDF文档进行光学字符识别(OpticalCharacter Recognition,OCR),得到整个文档的文本数据,可以将整个文档的作为待翻译语料数据,也可以对整个文本按照段落等进行划分,将划分后的每部分文本数据依次作为待翻译语料数据,然后将翻译后的文档保存为可编辑文本格式。
步骤102,将词切分后的待翻译语料数据输入编码器,得到基于子词的上下文表示。
本实施例中,编码器的可以采用多种网络结构,如多层注意力网络Transformer、循环神经网络(Recurrent Neural Network,RNN)等,此处就不再一一赘述了。
可以理解的是,编码器器的输入是词切分后的待翻译语料数据,因此,在向编码器输入数据之前,还需要对待翻译语料数据进行词切分,即将待翻译语料数据中词进行切分,如将词“信息”切分为“信”“息”两个子词,其中,词切分可以是利用词切分模型实现,例如利用字节对编码(Byte Pair Encoder,BPE)模型学习对待翻译语料数据进行词切分。
需要说明的是,基于子词的上下文表示是指上下文表示的最小粒度为子词,如编码器处理子词A和子词B后得到的基于子词的上下文表示包括子词A的上下文表示C和子词B的上下文表示D。
还需要说明的是,词切分后的待翻译语料数据中的每个词都被切分了,有些词可能未被切分而保留原格式,且每个词切分后产生的子词数量也可能不一样,如词切分后的“技术方案”可能得到“技术”和“方案”两个子词,词切分后的“珍馐美味”可能得到“珍”、“馐”和“美味”三个子词。
步骤103,将基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示。
本实施例中,基于词的上下文表示是指上下文的最小粒度为词,如词表示合成器将子词A的上下文表示C和子词B的上下文表示D合成为上下文表示E,其中,上下文表示E为基于词的上下文表示。
可以理解的是,基于词的上下文表示将会被输入到解码器中进行解码翻译,而基于词的上下文表示中对各个子词的上下文表示的合成方式会影响解码翻译的效果,如对于“技术方案”,其对应的子词为“技”、“术”、“方”和“案”,若是将“技”和“术”的上下文表示合成为一个上下文表示、将“方”和“案”的上下文表示合成为一个上下文表示,比将“技”、“术”和“方”的上下文表示合成为一个上下文表示,更加准确,因为第二种合成方式破坏了子词构词的模式,也就是说,词表示合成器在合成处理时如果能够按照词切分前待翻译语料数据中词的分布位置进行合成会更加准确。
因此,在一些例子中,将词切分后的待翻译语料数据输入编码器,得到基于子词的上下文表示之前,机器翻译方法还包括:对待翻译语料数据进行词切分并为待翻译语料数据中被切分的词生成第一位置标签,其中,在有多个词被切分的情况下会生成多个第一位置标签,每个第一位置标签都指示了一个被切分的词的位置信息,例如,对于语料数据x=(x1,x2,x3),其中,x1、x2和x3为3个词,假设词x2被切分为x2'和x2'',则在切分后的待翻译语料数据x'=(x1,x2',x2'',x3)中生成指示X1之后的位置的标签和生成指示X2之前的位置的标签共同作为第一位置标签,以用于标记词x2被切分得到的子词的起始位置和终止位置,特别地,还可以直接在切分后的待翻译语料数据中进行标注,如切分后的待翻译语料数据x'=(x1,Ebeg,x2',x2'',Eend,x3),其中,Ebeg标志某个被切分的词的起始位置,Eend标志某个被切分的词的起始位置。进而在生成了第一位置标签的情况下,词表示合成器可以根据第一位置标签确定被切分的词包含的子词位置,从而可以将该位置内的子词的上下文表示合成,即将基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示,可以通过如下方式实现:将基于子词的上下文表示和第一位置标签输入词表示合成器,以对基于子词的上下文表示中来自同一个词的若干子词的上下文表示进行合成,得到基于词的上下文表示。
在另一些例子中,将词切分后的待翻译语料数据输入编码器,得到基于子词的上下文表示之前,机器翻译方法还包括:为待翻译语料数据中的每一个词生成第二位置标签并对待翻译语料数据进行词切分。相应地,将基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示,可以通过如下方式实现:将基于子词的上下文表示和第二位置标签输入词表示合成器,以对基于子词的上下文表示中来自同一个词的若干子词的上下文表示进行合成,得到基于词的上下文表示。值得一提的是,不对词按照是否被切分进行区分,而是为每个词生成位置标签,这样即使部分被切分的词的位置标签丢失,也仍然能够根据其他词的位置标签确定除丢失的位置标签指示的位置,避免了标签丢失的影响。当然,为被切分的词生成位置标签则能够减少处理加快处理效率,可以根据实际需求选择使用哪种标签生成方法。
需要说明的是,上述举例仅是针对位置标签生成过程和词表示合成过程进行描述,生成的位置标签实际还可以一起输入编码器,以便编码器生成含有位置标签的基于子词的上下文表示,此时的位置标签主要指示同属于一个词的若干子词的上下文表示的起始位置和终止位置,此处就不再一一赘述了。
当然,以上仅为具体的举例说明,在其他例子中,还可以对基于子词的上下文表示随机进行合成处理,此处也不再一一赘述了。
步骤104,将基于词的上下文表示输入解码器,得到待翻译语料数据的翻译结果。
本实施例中,解码器实际会对待翻译语料数据所属语种的判断,然后将其翻译为另一语种的表达。
需要说明的是,与现有的编码器和解码器处理待翻译语料书得到翻译模式类似,本实施例提供的编码器、词表示合成器和解码器与现有的编码器和解码器也能够对两种语言进行互译,如同一组编码器、词表示合成器和解码器,在输入为中文时,解码器输出的为输入的待翻译语料数据在英文中的对应表达,在输入为英文时,解码器输出的为输入的待翻译语料数据在中文中的对应表达,即能够实现两种语言之间的互译。因此,解码器需要判定待翻译语料数据所属的语种,以便将输出的表达确定为另一语种。这都是由无监督机器翻译的训练方式决定的。为了便于本领域技术人员更好地理解上述描述,以下将对训练过程进行说明。
将词切分后的待翻译语料数据输入编码器,得到基于子词的上下文表示之前,机器翻译方法还包括:获取两个单语语料数据集;其中,两个单语语料数据集对应的语种不同,然后对两个单语语料数据集中的语料数据进行词切分,得到两个第一训练集;根据第一训练集对编码器、词表示合成器和解码器进行预训练;根据两个单语语料数据集,对预训练好的编码器、词表示合成器和解码器进行回译处理,得到训练好的编码器、词表示合成器和解码器。
在一些例子中,根据第一训练集对编码器、词表示合成器和解码器进行预训练,可以通过如下方式实现:对第一训练集的语料数据随机添加掩码,分别得到第一掩码训练集,例如以掩码遮盖50%的内容随机选定掩码遮盖的区域;根据第一掩码训练集对编码器、词表示合成器和解码器进行基于屏蔽序列到序列(Masked Sequence to Sequence,MASS)的联合训练。
需要说明的是,联合训练是指对编码器、词表示合成器和解码器一起进行训练,其中,编码器的输出作为词表示合成器的输入,词表示合成器的输出作为解码器的输入。此时,联合训练的损失函数如下:
Figure BDA0003422262620000051
其中,Lmass(θ,l)表示语言l对应的第一掩码训练集的语料数据对应的损失值,主要用于描述第一掩码训练集中的语料数据的被掩码遮盖部分在训练时被解码器正确解码的概率,θ为训练参数,x表示第一训练集中的语料数据,Dl表示语言l对应的第一训练集,logp(xi:j|x\i:j;θ)表示语料数据中被掩码遮盖的部分被解码器准确解码的条件概率,xi:j表示语料数据中被掩码遮盖的部分,i表示语料数据中被掩码遮盖的部分在语料数据中的起始位置,j表示语料数据中被掩码遮盖的部分在语料数据中的终止位置,x\i:j表示语料数据中被掩码遮盖的部分被解码器解码得到的结果。
在另一些例子中,还可以通过数据增强构造新的训练集,以便进一步进行联合训练,即根据第一训练集对编码器、词表示合成器和解码器进行预训练,可以通过如下方式实现:随机选择第一训练集中的语料数据并对选中的语料数据中未被切分的词进行切分,得到新的语料数据;将新的语料数据加入第一训练集,得到第二训练集;对第一训练集和第二训练集中的语料数据随机添加掩码,分别得到第二掩码训练集和第三掩码训练集;根据第二掩码训练集和第三掩码训练集对编码器、词表示合成器和解码器进行MASS的联合训练。
需要说明的是,第二掩码训练集和上一例子中的第一掩码训练集实质相同,因此,第二掩码训练集带来的损失也可以通过如上一例子中示出的表达式求解。而第三掩码训练集的语料数据是在第一训练集的基础上再次进行词切分然后再次进行切分,可以将其视为另一个词切分程度更强的第一掩码训练集,因此,第二掩码训练集带来的损失也可以通过类似上一例子中的方式求解,即第二掩码训练集带来的损失可以通过如下表达式求解:
Figure BDA0003422262620000061
其中,Lsplit(θ,l)表示语言l对应的第三掩码训练集的语料数据对应的损失值,主要用于描述第三掩码训练集中的语料数据x的被掩码遮盖部分在训练时被解码器正确解码的概率,θ为训练参数,x表示第二训练集中的语料数据,Ds表示语言l对应的第二训练集,logp(xi:j|x\i:j;θ)表示语料数据中被掩码遮盖的部分被解码器准确解码的条件概率,xi:j表示语料数据中被掩码遮盖的部分,i表示语料数据中被掩码遮盖的部分在语料数据中的起始位置,j表示语料数据中被掩码遮盖的部分在语料数据中的终止位置,x\i:j表示语料数据中被掩码遮盖的部分被解码器解码得到的结果。
不难看出,本例实际是在前一例子的基础上增加了数据增强训练集进行训练。
值得一提的是,通过拆分词的方法,更多地让词表示合成器参与MASS的训练,进一步提高了模型的性能。
在另一些例子中,根据第一训练集对编码器、词表示合成器和解码器进行预训练,还可以通过如下方式实现:从第一训练集中的语料数据中确定预设数量的语料数据作为目标语料数据;对目标语料数据中未被切分的词再次进行词切分,得到目标切分语料数据;对目标语料数据和目标切分语料数据进行合并,得到第三训练集;第三训练集中的一条训练数据为一个目标语料数据和对应的目标切分语料数据组成的语料数据对;对第一训练集中的语料数据随机添加掩码,得到第四掩码训练集;根据第三训练集和第四掩码训练集,对编码器、词表示合成器和解码器进行联合训练,其中,第三训练集用于对词表示合成器进行监督训练,第四掩码训练集用于对编码器、词表示合成器和解码器进行基于MASS的训练。
需要说明的是,本例实际是通过对第一训练集的语料数据中未被切分的词进一步切分,从而让切分前的词作为切分后的若干子词的监督信号,进而对词表示合成器提供额外的监督训练。此时,由第三训练集带来的损失通过如下损失函数表达式计算:
Figure BDA0003422262620000062
其中,Lcombiner(θ;l)表示语言l对应的第三训练集的语料数据对应的损失值,θ为训练参数,主要用于描述对词表示合成器将子词合成为词的准确性,Dt表示语言l对应的第三训练集,x表示语料数据对,t(x)表示语料数据对中的切分目标语料数据,Etrue(xi)表示第三训练集中的语料数据对中的目标语料数据在词表示合成器处的输出,Efake(xi)表示第三训练集中的语料数据对中的切分目标语料数据在词表示合成器处的输出,DIS(Etrue(xi),Efake(xi))表示Etrue(xi)和Efake(xi)之间的负距离。
不难看出,本例实际是在第一个例子的基础上增加了对词表示合成器的监督训练。
值得一提的是,通过拆分未拆分单词,让合成器的表示接近拆分前单词的表示,来显示地训练合成器,有助于得到更好地合成词表示。
需要说明的是,以上仅为对预训练进行具体的举例说明,在其他例子中,实际还可以在上述第一个例子的基础上,同时增加数据增强得到的训练集和监督训练的数据集进行联合训练。并且,上述举例说明主要是以一个第一训练集为例,在执行时需要考虑两个第一训练集的共同作用,如在联合训练时不是两个损失函数相加,而是两个损失函数基于两个单语语料数据集进行叠加,以同时增加数据增强得到的训练集和监督训练的数据集进行联合训练且单语语料数据集分别为中文和英语的单语语料数据集为例,其总的损失函数应该为:
L(θ)=Lmass(θ,zh)+Lmass(θ,en)+Lcombiner(θ;zh)+Lcombiner(θ,en)+Lsplit(θ;zh)+Lsplit(θ;en)
其中,L(θ)为总的损失值,Lmass(θ,zh)表示中文对应的第一训练集的MASS训练部分的损失值,Lmass(θ,en)表示英文对应的第一训练集的MASS训练部分的损失值,Lcombiner(θ;zh)为中文对应的第一训练集和数据增强的MASS训练部分的损失值,Lcombiner(θ;en)为英文对应的第一训练集和数据增强的MASS训练部分的损失值,Lsplit(θ;zh)表示中文对应的第一训练集的监督训练部分的损失值,Lsplit(θ;en)表示英文对应的第一训练集的监督训练部分的损失值。
此外,回译的过程如下所示:将单语语料数据集作为预训练好的编码器、词表示合成器以及编码器的输入,编码器处的输出组成翻译参考数据集,然后将翻译参考数据集作为预训练好的编码器、词表示合成器以及编码器的输入,将对应的单语语料数据集作为监督信号,集构建了一个伪平行语料数据集,实现了监督训练,如利用预训练好的编码器、词表示合成器以及编码器对中文单语语料数据集进行处理,可以得到对应的英文表达,从而构建出英文翻译参考数据集,然后将英文翻译参考数据集作为预训练好的编码器、词表示合成器以及编码器的输入,将中文单语语料数据集作为监督信号进行训练。
特别地,回译时的损失函数表达式如下:
Figure BDA0003422262620000071
其中,Lbt(θ,l)表示语言l的回译损失函数值,θ为训练参数,Dl表示语言l的单语语料数据集,M(x)表示语料数据x在翻译参考数据集中对应的语料数据经过预训练好的编码器、词表示合成器以及编码器后在编码器处的输出。
对编码器输入中文的句子,模型可以编码出双语空间的上下文词表示,让解码器解码英文,一般通过开始符号或语言编码进行控制,就可以生成英文的译文。这种初始的翻译结果有一定的质量,但还不够理想。回译训练可以利用单语数据和已有的翻译模型,进一步提高翻译效果。
可以理解的是,在得到损失值后,能够根据损失值调整训练参数θ,以便根据调整后的训练参数θ继续进行训练,直到损失值满足预设阈值、损失值收敛或者训练次数达到预设值等。
此外,应当理解的是,上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请实施例另一方面还提供了一种机器翻译装置,如图2所示,包括:
获取模块201,用于获取待翻译语料数据。
编码模块202,用于将词切分后的待翻译语料数据输入编码器,得到基于子词的上下文表示。
合成模块203,用于将基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示.
解码模块204,用于将基于词的上下文表示输入解码器,得到待翻译语料数据的翻译结果。
不难发现,本实施例为与方法实施例相对应的装置实施例,本实施例可与方法实施例互相配合实施。方法实施例中提到的相关技术细节在本实施例中依然有效,为了减少重复,这里不再赘述。相应地,本实施例中提到的相关技术细节也可应用在方法实施例中。
值得一提的是,本实施例中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本申请的创新部分,本实施例中并没有将与解决本申请所提出的技术问题关系不太密切的单元引入,但这并不表明本实施例中不存在其它的单元。
本申请实施例另一方面还提供了一种电子设备,如图3所示,包括:至少一个处理器301;以及,与至少一个处理器301通信连接的存储器302;其中,存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述任一方法实施例所描述的机器翻译方法。
其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传输给处理器301。
处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。
本申请实施例另一方面还提供了一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述任一方法实施例所描述的机器翻译方法。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (10)

1.一种机器翻译方法,其特征在于,包括:
获取待翻译语料数据;
将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示;
将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示;
将所述基于词的上下文表示输入解码器,得到所述待翻译语料数据的翻译结果。
2.根据权利要求1所述的机器翻译方法,其特征在于,所述将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示之前,所述方法还包括:
对所述待翻译语料数据进行词切分并为所述待翻译语料数据中被切分的词生成第一位置标签;
所述将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示,包括:
将所述基于子词的上下文表示和所述第一位置标签输入所述词表示合成器,以对所述基于子词的上下文表示中来自同一个词的若干子词的上下文表示进行合成,得到所述基于词的上下文表示。
3.根据权利要求1所述的机器翻译方法,其特征在于,所述将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示之前,所述方法还包括:
为所述待翻译语料数据中的每一个词生成第二位置标签并对所述待翻译语料数据进行词切分;
所述将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示,包括:
将所述基于子词的上下文表示和所述第二位置标签输入所述词表示合成器,以对所述基于子词的上下文表示中来自同一个词的若干子词的上下文表示进行合成,得到所述基于词的上下文表示。
4.根据权利要求1至3中任一项所述的机器翻译方法,其特征在于,所述将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示之前,所述方法还包括:
获取两个单语语料数据集;
对所述两个单语语料数据集中的语料数据进行词切分,得到两个第一训练集;
根据所述第一训练集对所述编码器、所述词表示合成器和所述解码器进行预训练;
根据所述两个单语语料数据集,对预训练好的所述编码器、所述词表示合成器和所述解码器进行回译处理,得到训练好的所述编码器、所述词表示合成器和所述解码器。
5.根据权利要求4所述的机器翻译方法,其特征在于,所述根据所述第一训练集对所述编码器、所述词表示合成器和所述解码器进行预训练,包括:
对所述第一训练集的语料数据随机添加掩码,分别得到第一掩码训练集;
根据所述第一掩码训练集对所述编码器、所述词表示合成器和所述解码器进行基于屏蔽序列到序列MASS的联合训练。
6.根据权利要求4所述的机器翻译方法,其特征在于,所述根据所述第一训练集对所述编码器、所述词表示合成器和所述解码器进行预训练,包括:
随机选择所述第一训练集中的语料数据并对选中的语料数据中未被切分的词进行切分,得到新的语料数据;
将所述新的语料数据加入所述第一训练集,得到第二训练集;
对所述第一训练集和所述第二训练集中的语料数据随机添加掩码,分别得到第二掩码训练集和第三掩码训练集;
根据所述第二掩码训练集和所述第三掩码训练集对所述编码器、所述词表示合成器和所述解码器进行MASS的联合训练。
7.根据权利要求4所述的机器翻译方法,其特征在于,所述根据所述第一训练集对所述编码器、所述词表示合成器和所述解码器进行预训练,包括:
从所述第一训练集中的语料数据中确定预设数量的语料数据作为目标语料数据;
对所述目标语料数据中未被切分的词再次进行词切分,得到目标切分语料数据;
对所述目标语料数据和所述目标切分语料数据进行合并,得到第三训练集;其中,所述第三训练集中的一条训练数据为一个所述目标语料数据和对应的所述目标切分语料数据组成的语料数据对;
对所述第一训练集中的语料数据随机添加掩码,得到第四掩码训练集;
根据所述第三训练集和所述第四掩码训练集,对所述编码器、所述词表示合成器和所述解码器进行联合训练,其中,所述第三训练集用于对所述词表示合成器进行监督训练,所述第四掩码训练集用于对所述编码器、所述词表示合成器和所述解码器进行基于MASS的训练。
8.一种机器翻译装置,其特征在于,包括:
获取模块,用于获取待翻译语料数据;
编码模块,用于将词切分后的所述待翻译语料数据输入编码器,得到基于子词的上下文表示;
合成模块,用于将所述基于子词的上下文表示输入词表示合成器,得到基于词的上下文表示;
解码模块,用于将所述基于词的上下文表示输入解码器,得到所述待翻译语料数据的翻译结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述机器翻译方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的机器翻译方法。
CN202111567148.XA 2021-12-20 2021-12-20 机器翻译方法、装置、电子设备和存储介质 Pending CN116384414A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111567148.XA CN116384414A (zh) 2021-12-20 2021-12-20 机器翻译方法、装置、电子设备和存储介质
PCT/CN2022/140417 WO2023116709A1 (zh) 2021-12-20 2022-12-20 机器翻译方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111567148.XA CN116384414A (zh) 2021-12-20 2021-12-20 机器翻译方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN116384414A true CN116384414A (zh) 2023-07-04

Family

ID=86901251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111567148.XA Pending CN116384414A (zh) 2021-12-20 2021-12-20 机器翻译方法、装置、电子设备和存储介质

Country Status (2)

Country Link
CN (1) CN116384414A (zh)
WO (1) WO2023116709A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2914988B2 (ja) * 1989-02-06 1999-07-05 日本電信電話株式会社 日本語自動翻訳システムにおける日本語名詞複合語翻訳方式
CN107977364B (zh) * 2017-12-30 2022-02-25 科大讯飞股份有限公司 维语子词切分方法及装置
CN110334360B (zh) * 2019-07-08 2021-07-06 腾讯科技(深圳)有限公司 机器翻译方法及装置、电子设备及存储介质
CN113297841A (zh) * 2021-05-24 2021-08-24 哈尔滨工业大学 基于预训练双语词向量的神经机器翻译方法

Also Published As

Publication number Publication date
WO2023116709A1 (zh) 2023-06-29

Similar Documents

Publication Publication Date Title
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
Dong et al. Adapting translation models for transcript disfluency detection
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
WO2021127817A1 (zh) 一种多语言文本合成语音方法、装置、设备及存储介质
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN111539199B (zh) 文本的纠错方法、装置、终端、及存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN116522142A (zh) 用于训练特征提取模型的方法、特征提取方法和装置
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN110852063B (zh) 基于双向lstm神经网络的词向量生成方法及装置
US20230153550A1 (en) Machine Translation Method and Apparatus, Device and Storage Medium
CN115906854A (zh) 一种基于多级对抗的跨语言命名实体识别模型训练方法
CN116384414A (zh) 机器翻译方法、装置、电子设备和存储介质
CN115936020A (zh) 文本翻译的方法、装置、电子设备和介质
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置
CN113486680B (zh) 文本翻译方法、装置、设备及存储介质
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
CN110866404B (zh) 基于lstm神经网络的词向量生成方法及装置
CN107423293A (zh) 数据翻译的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication