CN115983294B

CN115983294B - 翻译模型的训练方法、翻译方法及设备

Info

Publication number: CN115983294B
Application number: CN202310019188.3A
Authority: CN
Inventors: 叶蓉; 张栋; 王明轩; 高汝霆
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2024-01-02
Anticipated expiration: 2043-01-06
Also published as: CN115983294A

Abstract

本公开涉及翻译模型的训练方法、翻译方法及设备。提供了一种翻译模型的训练方法，所述翻译模型能够将第一类型的数据转换成第二类型的数据，所述方法包括：将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，以及基于所述训练样本数据来进行所述翻译模型的训练。

Description

翻译模型的训练方法、翻译方法及设备

技术领域

本公开涉及信息处理领域，尤其是涉及翻译模型的训练方法、翻译方法及设备。

背景技术

语音翻译(Speech Translation,ST)在当前得到广泛应用，其主要用于将源语言的语音表示，例如某种语言的单词、句子、段落等等，翻译成目标语言的内容，使之能够以适当方式呈现给用户。在一种示例实现中，语音翻译旨在将源语言语音翻译成目标语言文本，广泛应用于会议演讲翻译、视频字幕翻译、AR增强翻译等各种场景。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

在本公开实施例的第一方面，提供了一种用于翻译模型的训练方法，所述翻译模型能够将第一类型的数据转换成第二类型的数据，所述方法包括：将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，以及基于所述训练样本数据来进行所述翻译模型的训练。

在本公开实施例的第二方面，提供了一种翻译方法，所述翻译方法包括：获取根据本公开中任一实施例所述的训练方法训练得到的翻译模型，并且基于所获取的翻译模型，将第一类型的数据翻译为第二类型的数据。

在本公开实施例的第三方面，提供了一种用于翻译模型的训练装置，所述翻译模型能够将第一类型的数据转换成第二类型的数据，所述装置包括：获得单元，配置为将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，以及训练单元，配置为基于所述训练样本数据来进行所述翻译模型的训练。

在本公开实施例的第四方面，提供了一种翻译装置，所述装置包括：获取单元，配置为获取根据本公开任一实施例所述的翻译模型训练方法训练得到的翻译模型，以及翻译单元，配置为基于所获取的翻译模型，将第一类型的数据翻译为第二类型的数据。

在本公开实施例的第五方面，提供一种电子设备，包括：存储器；和耦接至存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行本公开中所述的任一实施例的方法。

在本公开实施例的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序在被处理器执行时导致实现本公开中所述的任一实施例的方法。

在本公开实施例的第七方面，提供一种计算机程序产品，包括指令，该指令在由处理器执行时导致实现本公开中所述的任一实施例的方法。

在本公开实施例的第八方面，提供一种计算机程序，包括程序代码，该程序代码在由处理器执行时导致实现本公开中所述的任一实施例的方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征、方面及其优点将会变得清楚。

附图说明

下面参照附图说明本公开的优选实施例。此处所说明的附图用来提供对本公开的进一步理解，各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分，用于解释本公开。应当理解的是，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开构成限制。在附图中：

图1示意性示出了根据本公开的实施例的翻译操作的示意性概念图。

图2A示意性示出了根据本公开的实施例的翻译模型训练方法的流程图。

图2B示意性示出了根据本公开的实施例的翻译方法的流程图。

图3A示意性示出了根据本公开的实施例的翻译模型训练装置的框图。

图3B示意性示出了根据本公开的实施例的翻译装置的框图。

图4A和4B示意性示出了根据本公开的实施例的语音翻译的示例性实现。

图5示出本公开的电子设备的一些实施例的框图。

图6示出本公开的电子设备的另一些实施例的框图。

应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不一定是按照实际的比例关系绘制的。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。因此，一旦某一项在一个附图中被定义，则在随后的附图中可能不再对其进行进一步讨论。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，但是显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对实施例的描述实际上也仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值应被解释为仅仅是示例性的，不限制本公开的范围。

本公开中使用的术语“包括”及其变型意指至少包括后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包括但不限于”。此外，本公开使用的术语“包含”及其变型意指至少包含在其后面的元件/特征、但不排除其他元件/特征的开放性术语，即“包含但不限于”。在本公开上下文中，“包括”与“包含”是同义的。术语“基于”意指“至少部分地基于”。

整个说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本发明的至少一个实施例中。例如，术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。而且，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例，但是也可以指同一个实施例。需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。除非另有指定，否则“第一”、“第二”等概念并非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其他方式的给定顺序。

常规的语音翻译系统可由两部分级联组成：语音识别(ASR)部分先将语音转换为源语言的转写文字(transcript)，机器翻译(MT)部分将识别出的转写文字翻译为目标语言的翻译结果(translation)。各个部分通常利用相应的模型来进行操作，诸如语音转换模型、文字翻译模型等。但对于无法转录或转写的语言(unwritten language)的语音数据，比如闽南话、吴语，ASR就很难完成，翻译也就很难完成。

进一步提出了改进的翻译系统，特别地，不利用转写、而是直接把语音翻译成译文(direct speech translation)，这样的翻译系统可被称为直接语音翻译系统，尤其可用于完成unwritten language的翻译。应指出，这样的直接语音翻译系统也可应用于常规语言的翻译。这样的翻译系统也可以利用相应的直接语音翻译模型来实现。

然而，从数据的角度，训练direct speech translation往往需要大量的<语音，转写>平行数据，然而这样的训练数据不仅仅是对于unwritten language是非常有限的，而且对于可转写的语言而言，语音翻译数据也是缺少的。例如，目前最大的真实的开源语音翻译数据，每个语种也就才500小时左右。这样的有限的训练数据可能导致无法有效和准确地进行模型训练。

因此，有必要提出一种改进的方式来适当地扩充用于进行语音翻译模型、尤其是直接语音翻译模型的训练样本。

在本公开的一些实施例中，提出了在语音翻译场景中利用回译技术来适当扩充用于语音翻译模型的训练样本。回译技术可以包括与语音翻译模型相匹配地构建的回译模型，其可以看做是正译模型的倒向/反向实现，其能够有效实现训练数据的扩充。作为示例，简单来说，为了提升英到中(En-Zh)模型的性能，通常还会训练一个中到英(Zh-En)模型作为回译模型或者模型的回译部分，然后引入大量中文数据，通过Zh-En模型，生成一堆英语数据作为补充数据添加入原始的训练数据中，从而基于扩充后的训练数据来继续训练，有助于提升En-Zh模型的效果。

此外，在语音翻译中，由文本直接回译到语音(连续的信号输入)的实现并不简单。一方面，语音到文本(Speech-to-text(STT))和文本到语音(Text-to-speech(TTS)各自的模型的训练数据、模型结构都不一样，相对难以对偶建模，这样，文本到语音模型作为回译模型时可能无法产生适当的扩充样本。另一方面，在模型中包含级联的BT-TTS的情况下，级联的BT-TTS系统十分冗长，而且容易发生生成错误传导问题，而且级联的BT-TTS系统生成的语音往往比较机械单调，而且模型很容易学到这些机械单调的语音的模式(pattern)，并不能很好帮助到真实世界中多样化的语音数据。

因此，在本公开的另一些实施例中，为了更加准确地进行语音翻译以及相关模型训练，本公开提出了对模型输入信号进行离散化，特别地，在语音信号通常为连续形式的情况下，可以将连续语音信号表示离散化为信号单元，例如类似于文本那样的离散化表示，使得翻译模型的输入与输出为相同或者相对应的表达形式，由此在模型的输入端和输出端形式上相互统一，有助于模型的训练和应用。特别地，这样尤其适合于应用回译技术，由于输入端和输出端形式的统一，可以方便地构建回译模型，其可以与翻译模型(也可被称为正译模型)对偶地/相匹配地建模，例如反向/逆向建模，从而与正译情况相对应地，可以针对给定的输出，由回译模型来产生适当的输入样本，从而可以作为翻译模型的训练样本，实现训练样本的扩充，进一步有助于优化正译模型的训练，提高模型的准确性。

另一方面，本公开还提出了改进的语音翻译。特别地，通过利用回译技术来优化翻译模型的训练/构建，并且应用所训练/构建得到的翻译模型来进行语音翻译，从而能够获得更加准确的语音翻译，尤其是直接语音翻译。

以下将参照图1来描述根据本公开的实施例的翻译操作的示意性概念图，尤其示意性示出了根据本公开的实施例的翻译模型训练过程和应用过程。

正译模型可对应于翻译模型，其能够将输入数据翻译/转换为输出数据。特别地，输入数据和输出数据可以为不同类型的数据。例如输入数据为语音，输出数据为文本，它们可以对应于相同或者不同的语言。当然，输入数据和输出数据可以为相同类型的数据，可以对应于不同的语言。作为示例，翻译模型为语音翻译模型，其能够将语音表示翻译成目标语音文本。

在一些实施例中，可选地，在输入数据为连续语音表示的情况下，还可以对输入数据进行离散化处理，从而从连续语音表示中提取出离散形式的语音单元，并利用翻译模型将离散形式的语音单元翻译/转换为期望的输出。

回译模型可包括或指示对应于与正译模型相配对地构建的模型，特别地，回译模型可以与正译模型对偶地构建，其可以看做是正译模型的倒向/反向实现。作为示例，回译模型的输入端可输入与正译模型的输出相同类型的内容(例如，输出样本)，并且在输出端输出与正译模型的输入相同类型的内容(例如，训练样本)，由此可作为训练集来用于正译模型、即翻译模型的训练。特别地，在模型的输入为经离散化处理的输入数据的情况下，优选地回译模型的输出可也会产生与翻译模型输入相同形式的离散形式的输出。在一个示例中，在语音翻译场景，尤其是将翻译模型将语音翻译成目标语言文本的情况下，可以将目标语言的训练文本作为回译模型的输入，而输出得到的内容为与正译模型的输入相同形式，例如为语音表示、尤其是为离散化的语音单元表示，可以作为翻译模型的训练样本。

进一步地，在利用回译模型获得补充的训练样本来优化翻译模型的训练之后，可以利用优化的翻译模型来实现翻译，例如语音翻译。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。下面这些具体实施例可以相互结合，对于相同或者相似的概念或过程可能在某些实施例不再赘述。此外，在一个或多个实施例中，特定的特征、结构或特性可以由本领域的普通技术人员从本公开将清楚的任何合适的方式组合。

应指出，尽管在本公开上下文的描述中，主要以语音翻译模型训练和应用为例来描述本公开的方案，但是应指出，本公开的实施例还可以同样应用于各种适当的数据处理，包括但不限于语音处理、语音到文本的翻译、文本到语音的翻译、语音到另一语言的语音的翻译等等，并且可以取得类似的有利技术效果。

图2A示出了根据本公开的实施例的用于翻译模型的训练方法的流程图。该方法可用于各种适当类型的翻译模型，其能够将第一类型的数据翻译成第二类型的数据，

根据本公开的实施例，第一类型可以与第二类型是不同的。在一些实施例中，第一类型可以为语音类型和文本类型中的一者，第二类型可以为语音类型和文本类型中的另一者。例如，第一类型的数据是语音数据，其可以作为翻译模型的输入而得到文本数据，作为第二类型的数据。还例如，第一类型的数据和第二类型的数据可以是相同的语言，也可以是不同的语言。例如，第一类型的数据可以是中文，第二类型的数据可以是英文。这样的翻译模型可以是任何适当类型的翻译模型，例如语言翻译模型、文本翻译模型等等，或者它们的各种适当组合。应指出，第一类型和第二类型也可以为相同类型，例如均为语音。而在翻译实现中，例如可以将语音转换成中间表示，例如文本表示，然后将中间表示进一步转换为语音。

方法200至少包括如下步骤。在步骤S201，将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，以及在步骤S202，基于所述训练样本数据来进行所述翻译模型的训练。

根据本公开的一些实施例，第一类型的数据包括语音表示，第二类型的数据包括目标语言文本数据。根据本公开的另一些实施例，第一类型的数据包括文本数据，第二类型的数据包括目标语言语音表示。

根据本公开的实施例，回译模型可以与翻译模型相互匹配的，例如相互对应，诸如可以对偶地建模。在一些实施例中，所述回译模型可以包括与所述翻译模型相匹配的反向构建的模型。回译模型可以为通过各种适当的技术实现，可以包括各种适当类型的模型，例如可以为机器翻译中的各种回译(back-translation，BT)技术或模型。作为示例，特别地，在语音翻译场景中翻译模型为语音翻译模型的情况下，正译模型可以是从语音翻译成文本的模型，回译模型是从文本反向翻译成语音的模型。

应指出，正译和回译主要取决于应用场景，并且在不同的应用场景中，角色可以互换。例如在语音翻译成文本的场景中，翻译模型，即正译模型为语音文本翻译模型，而回译模型为文本语音翻译模型。而在文本还原成语音的应用场景中，前述回译模型则成为了此场景中的正译模型，即从文本翻译成语音，而前述正译模型则作为回译模型来实现。

在一些实施例中，回译模型可以位于翻译模型之外，即不被包含在翻译模型中。例如，回译模型可以是为了翻译模型，例如正译模型训练而特别构建的。在另一些实施例中，回译模型也可包含在翻译模型中，并构成翻译模型的一部分。特别地，回译模型部分除了可以协助正译模型部分进行模型训练之外，本身也可以实现翻译功能。根据本公开的另一实施例，翻译模型可以包括正译模型和回译模型两者，并且在应用过程中，可以采用正译模型和回译模型都可以用于进行相应的翻译，而且可以相互协作地进行各自的训练。例如回译模型可以协助正译模型的训练，而正译模型也可以协助回译模型的训练。

根据本公开的实施例，模型的输入和输出可以为各种适当的形式。特别地，作为模型的输入的第一类型的数据可以为连续形式或者离散形式。例如，在语音翻译场景中，第一类型的数据可以是连续形式的语音信号，或者离散形式的语音信号。在一些实施例中，离散形式的语音信号可通过对于连续形式的语音信号进行离散化而获得。

在本公开的实施例中，连续语音信号是连续表示形式的语音，其可以为各种适当形式，例如多维空间中的语音特征向量，每个维度的向量取值是连续值，模拟值等等。根据本公开的实施例，离散化可以采用各种适当的方式来执行。例如在语音翻译场景的情况下，对于连续形式的语音信号进行离散化可以包括将语音信号转换成离散的语音单元，语音单元可以是表征语音信号的语义特征的单元。在本公开的一些实施例中，离散化的数据可以采用各种适当形式来表示。特别地，可以用类别编号来指示。

根据本公开的实施例，可以采用离散化单元来实现离散化，离散化单元也可被称离散单元提取器(Discrete Unit Extractor)，其可用于从连续形式的语音表示中提取离散的语音单元。其可以采用各种适当的实现，作为示例，可以包括目前的自监督语音预训练(self-supervised audio pretraining)技术中的各种语音离散化技术。

在一些实施例中，离散化可以基于向量量化的方式来实现，特别地，例如包括但不限于向量量化的变分自编码器(Vector Quantized-Variational AutoEncoder,VQ-VAE)，其中将“向量量化”(vector quantization，VQ)离散化方式引入音频表示；VQ-Wav2vec，Wav2vec2.0，Wav2vec-U，HuBERT等等。在另一些实施例中，离散化还可基于聚类方式来实现。特别地，作为示例，在离散化处理中将连续形式的语音信号进行分类，在多维空间中将语音信号的各个特征进行向量化，然后将各个特征向量进行归类，从而获得语音信号所转换得到的离散数据。根据本公开的实施例，离散化单元、尤其是离散单元提取器还可以包含各种适当类型的聚类方法，特别地可以是任何连续语音表示的任何聚类方法。作为示例，可以对于表征连续语音表示的向量进行聚类，例如包括但不限于Kmeans、kernel-Kmeans、Kmeans++、PCA、DBSCAN、层次聚类等等。

在一些实施例中，离散化处理可由翻译模型本身来执行。例如，在语音翻译场景的情况下，翻译模型可以进一步包括离散化单元，其将输入的连续形式的语音信号转换成或者从中提取出离散形式的语音数据，从而执行语音到文本的翻译。在另一些实施例中，离散化单元可以位于在翻译模型之外，然后将待翻译的语音信号进行离散化，所得到的离散化的语音数据作为第一类型的数据来输入语音翻译模型。

根据本公开的实施例，翻译模型可以具有各种适当的结构。特别地，依赖于翻译模型输入的类型和形式，翻译模型可以包含适当的结构。并且相应地，回译模型也可以相应地来构建或设定，特别地与翻译模型整体或者其中的一部分相匹配地构建。

在一些实施例中，在直接语音翻译场景中，翻译模型可以包含能够将语音信号、尤其是离散形式的语音信号直接翻译成目标语言文本的直接语音翻译模型的情况下，回译模型可以与该模型相匹配地构建，特别地，回译模型包括从目标语言的文本直接反向翻译为语音信号、尤其是离散形式的语音信号的模型。在另一些实施例中，在语音翻译场景中，翻译模型的输入为连续语音信号，翻译模型包括离散化单元、以及将离散形式的语音数据翻译为目标语言文本的翻译单元的情况下，回译模型可以包括与所述翻译单元相匹配地反向构建的模型，其能够由作为第二类型的样本数据的目标语言训练文本得到离散形式的语音数据作为训练样本数据。在还另一些实施例中，翻译模型的输入为连续语音信号，翻译模型包括离散化单元、将离散形式的语音数据转换为中间文本数据的语音转换单元、以及将中间文本数据转换为目标语言文本的机器翻译单元的情况下，回译模型可以包括与所述机器翻译单元相匹配地反向构建的模型，其能够由作为第二类型的样本数据的目标语言训练文本得到特定文本数据作为训练样本数据。当然，回译模型也可以包括与机器翻译单元和语音转换单元相对应的部分。例如，可以包括用于将目标语言的文本反向翻译为中间文本的部分、以及将中间文本反向翻译为语言信号、尤其是离散语音信号的部分。

根据本公开的实施例，用于语音翻译的翻译模型或者其中的翻译单元可以由各种适当的模型来实现，例如各种“黑盒子”模型，其可以通过学习输入数据和输出数据，例如输入样本数据和输出样本数据，来进行模型的实现。这样的模型可以是各种适当形式的模型，例如回归模型，诸如各种类型的回归模型，例如线性回归模型等等。

根据本公开的实施例，在模型训练中，可以主要基于通过回译模型获得的样本数据进行训练。在一些实施例中，将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据可包括以第二类型的样本数据作为回译模型的输入以得到模型输出数据，以及将模型输出数据或者对模型输出数据进行处理后得到的数据作为训练样本数据，其中，对模型输出数据的处理包括产生数据扰动的处理。

特别地，在一些实施例中，可以直接利用通过回译模型获得的样本数据进行训练，或者可以对通过回译模型获得的样本数据进行适当处理，例如解码，以及有助于产生或增加样本数据扰动的任何处理，包括但不限于适当解码、随机删除一些数据、掺杂任选数据、适当插值数据等等，以使得通过回译模型获得的样本数据扰动，然后基于扰动后的样本数据来进行模型训练。在另一些实施例中，还可以在训练前构建初始训练集，然后在训练过程中通过回译模型获得样本数据或者经过适当处理的样本数据，作为初始训练集的扩充，由此可以进一步扩展用于模型训练的训练数据。作为示例，初始训练集也可以是离散形式的训练数据，其可以与回译模型得到的离散形式的样本数据相组合，得到更加丰富的训练数据。

根据本公开的实施例，模型训练可采用各种适当的方式来执行，这取决于翻译模型的类型本身，这里将不再详细描述。作为一个示例，可以将训练样本数据作为输入，例如将通过回译模型产生的样本数据和/或初始训练集作为输入，将输出样本作为输出，来进行模型训练，优化模型参数的设置。

根据本公开的实施例，模型训练可迭代地执行。特别地，经由回译模型获得第一类型的样本数据以及基于第一类型的样本数据进行模型训练被迭代地执行，直到满足特定迭代终止条件。迭代终止条件可以为各种适当的模型训练终止条件，例如训练次数达到特定阈值，模型相关的性能指标满足特定性能阈值要求，在特定训练次数之后模型性能的变化小于特定变化范围等等，这里将不再详细描述。

在一些实施例中，正译模型和回译模型两者可以同时进行训练，尤其是迭代地执行训练。这样能够得到改善的正译模型和回译模型两者，并且可将之分别用于各自的应用场景。特别地，翻译模型可以包括正译模型和回译模型两者，例如，在语音表示翻译成文本的应用场景中，可以借助于文本语音回译模型来协助训练语音文本正译模型以及进行语音翻译，而同时训练得到的文本语音回译模型也可被用于将特定文本翻译/还原成语音，例如得到语音单元，然后将之输入语音编码器/还原器等来得出语音。

另一方面，本公开提出了一种改进的用于语音翻译的方法，尤其是用于不可写语音解释的方法。该方法可以基于根据本公开的实施例所产生的用于语音翻译的模型来实现。特别地，可以对于上述训练得到的用于语音翻译的模型进行应用。

图2B示出了根据本公开的实施例的用于语音翻译的方法。方法210包括以下步骤S212和S213。在步骤S212中，可以获取根据本公开的实施例训练得到的解释模型。此步骤执行的操作可如上文所述地那样执行，这里将不再详细描述。在步骤S213中，基于所获取的翻译模型，将第一类型的数据翻译为第二类型的数据。特别地，可以获得语音翻译模型，并且将语言表示翻译为目标语言的文本输入。

根据本公开的实施例，翻译模型的输入还可以是离散形式的数据。特别地，可以在应用翻译模型之前对输入数据进行离散化处理。在一些实施例中，方法210还可包括步骤S211，获取第一类型的数据，特别地，第一类型的数据包括离散形式的数据。例如，步骤S211可以包括对输入数据进行离散化处理，以获得离散形式的数据。作为示例，在翻译模型为语音翻译场景中用于连续语音表示的翻译的情况下，可以对连续语音表示进行离散化处理，由此得到的离散语音数据，然后将离散语音数据进行翻译/转换。离散化处理可如上文所述地执行，这里将不再详细描述。

应指出，尽管如上所述，语音数据离散化的操作可被包含于本公开的方法210中，并作为步骤S211，但是应指出，此步骤并不是必需的，即使没有此步骤，根据本公开的方法的技术方案仍是完整的且能实现有利技术效果，因此步骤S211在附图中以虚线指示。特别地，该离散化步骤可以位于根据本公开的翻译方法之外，例如可以位于翻译模型之外，由其它适当单元、器件来实现。

在本公开的方案中，通过引入回译模型来优化翻译模型训练样本的扩展，从而获得数量更大的、具有更大多样性的训练样本，进一步改善翻译模型训练。特别地，在语音表示翻译成目标语言文本的情况下，可以自然而然、简单高效的将大量容易获取的目标语言文本通过离散单元的回译技术(Discrete Unit Back-translation，DUB)技术，获得相对应的语音数据，作为语音翻译模型的训练样本，改善模型训练结果，获得更加准确的语音翻译模型，继而提升直接语音翻译的效果。

另一方面，在本公开的方案中，提出了对于翻译模型输入的离散化处理，这样尤其可以对于语音翻译场景，特别是将连续语音表示进行翻译的场景尤其有利。特别地，通过对于语音表示提取出离散单元(discrete unit)，而离散单元的提取过程可通过无监督学习得到的，所以，该项技术并不依赖于转录/转写文本，所以对于语音翻译，尤其是不可转写语言的直接语音翻译能够实现很好的提升。

还另一方面，本公开的方案首个提出了尤其适合于语音翻译、尤其是直接语音翻译、特别是不可转写语音翻译的翻译模型结构。其中，该模型结构可以包括离散单元提取器(discrete unit extractor)和翻译单元的组合结构，或者离散单元、语音翻译(ST)单元、机器翻译(MT)单元的组合结构，实现了翻译模型结构的优化。特别地，本公开的方案首个提出将源语言的语音利用离散单元提取器(discrete unit extractor)离散化后，统一ST和MT模型框架的结构。

根据本公开的实施例的数据处理、尤其是模型训练以及模型应用，可被以各种适当的方式来执行。在一些示例中，可以集中式处理，例如由单个处理设备或装置，诸如各种适当类型的服务器、处理器、图形处理单元(CPU)等来执行。在另一些示例中，可以分布式处理，例如可以在多个计算节点上分布式执行，所述计算节点中的至少一者包括各种适当类型的服务器、处理器、图形处理单元(CPU)等，并且分别在各计算节点上执行部分数据处理。

图3A示出了根据本公开的实施例的数据处理装置的框图。数据处理装置也可被称为翻译模型训练装置，该翻译模型可以将第一类型的数据转换成第二类型的数据。装置300包括获得单元301，配置为将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，以及训练单元302，配置为基于所述训练样本数据来进行所述翻译模型的训练。

图3B示出了根据本公开的实施例的数据处理装置的框图。该数据处理装置也可被称为翻译装置，其可以应用根据本公开的实施例的所训练得到的翻译模型进行翻译。该装置310包括获取单元311，配置为获取根据本公开的实施例的翻译模型训练方法训练得到的翻译模型，以及翻译单元31，配置为基于所获取的翻译模型，将第一类型的数据翻译为第二类型的数据。

特别地，在将连续语音信号转换为目标语言文本的情况下，装置310还可以包括离散化单元313，其可以将连续语音信号离散化为离散形式的语音数据，该离散形式的语音数据可作为第一类型的数据输入翻译单元以进行翻译。应指出，离散化单元并不必须被包含在翻译装置中，其可以位于翻译装置之外，并且将生成的离散形式的语音数据提供给翻译装置。因此，离散化单元被用于虚线指示。

应指出，上述装置以及其所包含的各种单元所执行的操作或处理可如上文所述地执行，例如可如上文所述的相对步骤中的操作或处理那样执行，这里将不再详细描述。

应注意，上述各个单元仅是根据其所实现的具体功能划分的逻辑模块，而不是用于限制具体的实现方式，例如可以以软件、硬件或者软硬件结合的方式来实现。在实际实现时，上述各个单元可被实现为独立的物理实体，或者也可由单个实体(例如，处理器(CPU或DSP等)、集成电路等)来实现。此外，上述各个单元在附图中用虚线示出指示这些单元可以并不实际存在，而它们所实现的操作/功能可由处理电路本身来实现。特别地，依赖于根据本公开的实施例的处理实现，这些单元可以集中式地实现，或者分布式地实现。

此外，尽管未示出，该装置也可以包括存储器，其可以存储由装置、装置所包含的各个单元在操作中产生的各种信息、用于操作的程序和数据、将由通信单元发送的数据等。存储器可以是易失性存储器和/或非易失性存储器。例如，存储器可以包括但不限于随机存储存储器(RAM)、动态随机存储存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、闪存存储器。当然，存储器可也位于该装置之外。可选地，尽管未示出，但是该装置也可以包括通信单元，其可用于与其它装置进行通信。在一个示例中，通信单元可以被按照本领域已知的适当方式来实现，例如包括天线阵列和/或射频链路等通信部件，各种类型的接口、通信单元等等。这里将不再详细描述。此外，设备还可以包括未示出的其它部件，诸如射频链路、基带处理单元、网络接口、处理器、控制器等。这里将不再详细描述。

以下将参照图4A和4B来详细描述根据本公开的实施例的语音翻译数据处理的示例性过程。特别地，该语音翻译数据处理涉及连续语音信号的翻译处理，其中提出了利用回译方式来进行翻译模型训练。更特别地，本公开的实施例还提出了在翻译模型应用过程中对输入语音表示进行离散化处理。

图4A示出了根据本公开的实施例的结合有回译结构的翻译模型结构，其中图的左侧示出了模型结构，其能够将连续语音信号转换为目标语言文本，其中，该模型结构中包括离散单元提取器，正译模型部分。

在操作中，对于输入的连续语音信号“Today is a sunny day”，首先通过离散单元提取器从中提取出离散形式的语音单元作为离散单元，并且用适当形式来指示。作为示例，本公开可以采用所谓的HuBERT，其中通过掩蔽预测(mask-predict)预训练方式学习得联系表示再通过K-means算法聚类，得到离散单元(Discrete Unit)。所提取出来的离散单元的类别用#1，#2，....表示。

然后，通过正译模型部分将离散单元翻译为目标语言文本“今天是晴天”。

图的右侧示出了回译技术的应用。其中，可以引入大量的目标语言的文本数据，并且通过回译技术来构造出大量的离散形式的语音数据，例如离散单元，然后将这样构造出的离散单元可用于进行模型训练，例如正译模型的训练或者正译模型和回译模型两者的训练。

正译模型和回译模型可以相匹配地或者相对偶地构建，可以采用各种适当的结构。例如可以采用文本机器翻译常用的神经网络结构，分别训练unit->translation模型(对应图4A中左侧的正译)和translation->unit模型(对应图4A中右侧的回译)。应指出，unit->translation这个正译模型本身就有完成语音翻译的能力，只是翻译效果并不是特别好/地道。

在模型训练过程中，可以首先设定初始的正译模型和回译模型，或者进行初始训练，然后进一步应用回译技术，进一步优化正译模型和/或回译模型的训练，从而获得进一步优化的正译模型和/或回译模型。

·作为示例，基于上述的正译和回译模型，离散单元的回译技术(Discrete UnitBack-translation，DUB)的算法流程可如下：

ο步骤1:引入大量目标语言的文本数据y'

ο步骤2:利用回译模型，造出大量的伪离散单元：

.的解码过程包括不限于：Greedy、Beam search、top-k sampling、sampling...也可以对生成出来的单元序列随机删除一些单元(eg.#1,#25...)，总之任何让/>有扰动的操作都是可以允许的。

ο步骤3：将加入原始D＝(u,y)中，一起再训练，也就是说，用再优化正译模型。

这样，通过回译模型可以有效地创建附加的训练样本，从而可以为正译模型提供更加多面性和扩展的训练样本，从而可以改善模型训练。这样尤其适合于前述不可写语言的翻译。

应指出，该模型的结构可以实现将语音翻译和文本机器翻译统一化，所以各种适当的机器翻译(MT)技术皆有可能在此系统中得以实现，包括不限于：对正译模型和回译模型中的一者或者两者并行进行预训练的各种技术。

此外，各种适当的回译技术，例如机器翻译中适用的回译技术也被被使用，包括不限于：带标记的回译技术(Tagged back-translation)，其中对于回译得到的单元离散序列，加上一个特殊的标识符<b-unit>#2#24#52...再加入训练集有助于提高正译的性能。此外，还可以执行迭代地执行模型训练，尤其迭代地执行回译过程，即不断迭代上述回译造数据的过程。

应指出，上述模型结构也可扩展完成文本到语音(TTS)的转换任务，如图4B所示。作为示例，在回译模型之后可接入语音编码器，从而还原出语音。特别地，利用训练完成的文本到离散单元的回译模型，可以得到离散单元，然后将之输入额外训练的语音编码器(vocoder)，即可还原出语音，完成文本到语音的翻译任务。Vocoder结构可以为各种适当的结构，例如使用如今TTS领域所熟知的Hifi-GAN模型。

这样的TTS翻译技术可以帮助视力残疾人士听懂更多语言的内容。例如，TTS技术可以有助于视觉受损人员来收听到他们母语的声音，或者理解外国文化。

应指出，上述描述仅仅是示例性的，本公开的实施例的技术其实不局限于“翻译”，还可以适用于将“目标语言”的翻译文本换成“源语言”的转录文本，则此时图4A的模型对应的任务则为语音识别(ASR)，而图4B对应的任务则为语音合成(TTS)。

以下MuSTC英语到德语翻译为例子来阐述本公开的实施例的方案可实现的有利效果，下表列出了本公开的实施例与一些当前语音翻译模型之间的比较情况。其中，speech-transformer表示目前常用的语音翻译基线模型，Unit2de w/o DUB表示未使用回译技术的unit2de翻译模型。

在上表中，以TestBLEU为指标来评价效果。TestBLEU指示在测试集上的双语替换评价(Bilingual Evaluation Understudy，BLEU)指标，BLEU是机器翻译中常用的自动评估指标，可以理解为准确度的评分。BLEU值通常以百分比值表表示，数值越大则表示准确度越高，译文质量越好。

从表中数据可见，在根据本公开的利用回译技术的方案中，可以添加额外的德语文本来进行翻译，可以明显提高翻译性能。例如对于从英语语音翻译到德语文本的任务。没有添加回译的模型BLEU是20.9，而在本公开的实施例中通过添加德语文本，BlEU至少可提高到22.72，并且随着添加数量越大，BLEU提高越多。当我们添加10million条德语文本的时候，可以提升到24.46，可以获得提升3.6个点。

本公开的一些实施例还提供一种电子设备，其可以操作以实现前述的模型预训练设备和/或模型训练设备的操作/功能。图5示出本公开的电子设备的一些实施例的框图。例如，在一些实施例中，电子设备5可以为各种类型的设备，例如可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。例如，电子设备5可以包括显示面板，以用于显示根据本公开的方案中所利用的数据和/或执行结果。例如，显示面板可以为各种形状，例如矩形面板、椭圆形面板或多边形面板等。另外，显示面板不仅可以为平面面板，也可以为曲面面板，甚至球面面板。

如图5所示，该实施例的电子设备5包括：存储器51以及耦接至该存储器51的处理器52。应当注意，图5所示的电子设备50的组件只是示例性的，而非限制性的，根据实际应用需要，该电子设备50还可以具有其他组件。处理器52可以控制电子设备5中的其它组件以执行期望的功能。

在一些实施例中，存储器51用于存储一个或多个计算机可读指令。处理器52用于运行计算机可读指令时，计算机可读指令被处理器52运行时实现根据上述任一实施例所述的方法。关于该方法的各个步骤的具体实现以及相关解释内容可以参见上述的实施例，重复之处在此不作赘述。

例如，处理器52和存储器51之间可以直接或间接地互相通信。例如，处理器52和存储器51可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器52和存储器51之间也可以通过系统总线实现相互通信，本公开对此不作限制。

例如，处理器52可以体现为各种适当的处理器、处理装置等，诸如中央处理器(CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。例如，存储器51可以包括各种形式的计算机可读存储介质的任意组合，例如易失性存储器和/或非易失性存储器。存储器51例如可以包括系统存储器，系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。在存储介质中还可以存储各种应用程序和各种数据等。

另外，根据本公开的一些实施例，根据本公开的各种操作/处理在通过软件和/或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机系统，例如图6所示的计算机系统600安装构成该软件的程序，该计算机系统在安装有各种程序时，能够执行各种功能，包括诸如前文所述的功能等等。图6是示出根据本公开的实施例的中可采用的计算机系统的示例结构的框图。

在图6中，中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中，也根据需要存储当CPU601执行各种处理等时所需的数据。中央处理单元仅仅是示例性的，其也可以是其它类型的处理器，诸如前文所述的各种处理器。ROM602、RAM 603和存储部分608可以是各种形式的计算机可读存储介质，如下文所述。需要注意的是，虽然图6中分别示出了ROM602、RAM 603和存储装置608，但是它们中的一个或多个可以合并或者位于相同或不同的存储器或存储模块中。

CPU 601、ROM 602和RAM 603经由总线604彼此连接。输入/输出接口605也连接到总线604。

下述部件连接到输入/输出接口605：输入部分606，诸如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等；输出部分607，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)，扬声器，振动器等；存储部分608，包括硬盘，磁带等；和通信部分609，包括网络接口卡比如LAN卡、调制解调器等。通信部分609允许经由网络比如因特网执行通信处理。容易理解的是，虽然图6中示出电子设备600中的各个装置或模块是通过总线604来通信的，但它们也可以通过网络或其它方式进行通信，其中，网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。

根据需要，驱动器610也连接到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上，使得从中读出的计算机程序根据需要被安装到存储部分608中。

在通过软件实现上述系列处理的情况下，可以从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。

根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行根据本公开的实施例的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被CPU 601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，在本公开的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

在一些实施例中，还提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行上述任一个实施例的方法。例如，指令可以体现为计算机程序代码。

在本公开的实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(，包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示例性的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

本公开可以以这里描述的任何形式实施，包括但不限于以下列举示例实施例，其描述了本发明实施例的一些部分的结构、特征和功能。

根据本公开的一些实施例，提供了一种用于翻译模型的训练方法，所述翻译模型能够将第一类型的数据转换成第二类型的数据，所述方法包括：将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，以及基于所述训练样本数据来进行所述翻译模型的训练。

根据本公开的一些实施例，所述第一类型为语音类型和文本类型中的一者，所述第二类型为语音类型和文本类型中的另一者。

根据本公开的一些实施例，所述第一类型的数据和所述训练样本类型均为离散形式的语音数据。

根据本公开的一些实施例，所述第一类型的数据为连续语音信号，所述训练样本数据为离散形式的语音数据。

根据本公开的一些实施例，所述回译模型包括与所述翻译模型相匹配的反向构建的模型。

根据本公开的一些实施例，所述第一类型的数据包括连续语音信号，并且所述翻译模型包括离散化单元，被配置为从连续语音信号提取出离散形式的语音数据，以及翻译单元，被配置为将离散形式的语音数据翻译为作为第二类型的数据的目标语言文本。

根据本公开的一些实施例，回译模型包括与所述翻译单元相匹配地反向构建的模型，其能够由作为第二类型的样本数据的目标语言训练文本得到离散形式的语音数据作为训练样本数据。

根据本公开的一些实施例，所述第一类型的数据包括连续语音信号，并且所述翻译模型包括：离散化单元，被配置为从连续语音信号提取出离散形式的语音数据，语音转换单元，被配置为将离散形式的语音数据转换为中间文本数据，以及机器翻译单元，被配置为将中间文本数据转换为作为第二类型的数据的目标语言文本。

根据本公开的一些实施例，回译模型包括与所述机器翻译单元相匹配地反向构建的模型，其能够由作为第二类型的样本数据的目标语言训练文本得到特定文本数据作为训练样本数据。

根据本公开的一些实施例，基于所述训练样本数据来进行所述翻译模型的训练包括：以所述训练样本数据作为输入、以所述第二类型的样本数据作为输出来进行翻译模型训练。

根据本公开的一些实施例，所述方法进一步包括：与所述翻译模型的训练并行地执行回译模型的训练。

根据本公开的一些实施例，训练样本数据的获得以及模型训练被迭代地执行，直到满足特定迭代终止条件。

根据本公开的一些实施例，提供了一种翻译方法，所述方法包括：获取根据本公开的任一实施例所述的翻译模型训练方法训练得到的翻译模型，并且基于所获取的翻译模型，将第一类型的数据翻译为第二类型的数据。

根据本公开的一些实施例，所述第一类型的数据为连续语音信号，所述翻译方法还包括：对连续语音表示进行离散化处理以得到离散形式的语音数据，基于翻译模型将离散形式的语音数据翻译为目标语言文本数据。

根据本公开的一些实施例，提供了一种用于翻译模型的训练装置，所述翻译模型能够将第一类型的数据转换成第二类型的数据，所述装置包括：获得单元，配置为将第二类型的样本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，以及训练单元，配置为基于所述训练样本数据来进行所述翻译模型的训练。

根据本公开的一些实施例，提供了一种翻译装置，所述装置包括：获取单元，配置为获取根据本公开任一实施例所述的翻译模型训练方法训练得到的翻译模型，以及翻译单元，配置为基于所获取的翻译模型，将第一类型的数据翻译为第二类型的数据。

根据本公开的又一些实施例，提供一种电子设备，包括：存储器；和耦接至所述存储器的处理器，所述存储器中存储有可执行指令，所述可执行指令当由所述处理器执行时，使得所述电子设备执行本公开中任一实施例所述的方法。

根据本公开的又一些实施例，提供一种计算机可读存储介质，其上存储有计算机程序，该程序由处理器执行时实现本公开中任一实施例所述的方法。

根据本公开的又一些实施例，提供计算机程序，包括：指令，指令当由处理器执行时使处理器执行本公开中任一实施例所述的方法。

根据本公开的一些实施例，提供一种计算机程序产品，包括指令，所述指令当由处理器执行时实现本公开中任一实施例所述的方法。

以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

在本文提供的描述中，阐述了许多特定细节。然而，理解的是，可以在没有这些特定细节的情况下实施本发明的实施例。在其他情况下，为了不模糊该描述的理解，没有对众所周知的方法、结构和技术进行详细展示。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种用于语音翻译模型的训练方法，所述语音翻译模型能够将第一类型的数据转换成第二类型的数据，其中所述第一类型包括语音类型，所述第二类型包括语音类型和文本类型中的至少一者，并且

其中所述第一类型的数据包括连续语音信号，其中所述第二类型的数据包括文本数据，并且所述语音翻译模型包括：

离散化单元，被配置为从连续语音信号提取出与文本数据被相同或相对应地离散化的离散形式的语音数据，该离散形式的语音数据包括离散的表征语音信号的语义特征的语音单元，以及

翻译单元，被配置为将离散形式的语音数据转换为作为第二类型的数据的目标语言文本，所述方法包括：

将作为样本的第二类型的文本数据应用于与所述语音翻译模型相关联的回译模型，以获得训练样本数据，其中所述回译模型包括与所述语音翻译模型的翻译单元相匹配地反向构建的模型，并且其中所述训练样本数据包括由所述回译模型得到的与作为样本的第二类型的文本数据被相同或相对应地离散化的离散形式的语音数据，以及

基于所述训练样本数据来进行所述语音翻译模型的训练。

2.根据权利要求1所述的方法，其中，将第二类型的样本数据应用于与所述语音翻译模型相关联的回译模型，以获得训练样本数据包括：

以第二类型的样本数据作为回译模型的输入以得到模型输出数据，以及

将模型输出数据或者对模型输出数据进行处理后得到的数据作为训练样本数据，其中，对模型输出数据的处理包括产生数据扰动的处理。

3.根据权利要求1所述的方法，其中，所述翻译单元进一步包括：

语音转换单元，被配置为将离散形式的语音数据转换为中间文本数据，以及

机器翻译单元，被配置为将中间文本数据转换为作为第二类型的数据的目标语言文本。

4.根据权利要求3所述的方法，其中，回译模型包括与所述机器翻译单元相匹配地反向构建的模型，其能够由作为第二类型的样本数据的目标语言训练文本得到特定文本数据作为训练样本数据。

5.根据权利要求1-4中任一项所述的方法，其中，所述离散化单元被配置为基于向量量化和/或聚类方法从连续语音信号提取出离散形式的语音数据。

6.根据权利要求1-2中任一项所述的方法，其中，基于所述训练样本数据来进行所述语音翻译模型的训练包括：

以所述训练样本数据作为输入、以所述第二类型的样本数据作为输出来进行语音翻译模型训练。

7.根据权利要求1所述的方法，所述方法进一步包括：

与所述语音翻译模型的训练并行地执行回译模型的训练。

8.根据权利要求1或7所述的方法，其中，训练样本数据的获得以及模型训练被迭代地执行，直到满足特定迭代终止条件。

9.一种翻译方法，所述方法包括：

获取根据权利要求1-8中任一项所述的方法训练得到的语音翻译模型，

基于所获取的语音翻译模型，将第一类型的数据翻译为第二类型的数据。

10.根据权利要求9所述的方法，其中，所述第一类型的数据为连续语音信号，所述方法还包括：

对连续语音表示进行离散化处理以得到离散形式的语音数据，

将离散形式的语音数据翻译为目标语言文本数据。

11.一种用于语音翻译模型的训练装置，所述语音翻译模型能够将第一类型的数据转换成第二类型的数据，其中所述第一类型包括语音类型，所述第二类型包括语音类型和文本类型中的至少一者，并且

离散化单元，被配置为从连续语音信号提取出与文本数据被相同或相对应地离散化的离散形式的语音数据，该语音数据包括离散的表征语音信号的语义特征的语音单元，以及

翻译单元，被配置为将离散形式的语音数据转换为作为第二类型的数据的目标语言文本，所述装置包括：

获得单元，配置为将作为样本的第二类型的文本数据应用于与所述翻译模型相关联的回译模型，以获得训练样本数据，其中所述回译模型包括与所述语音翻译模型的翻译单元相匹配的反向构建的模型，并且其中所述训练样本数据包括由所述回译模型得到的与作为样本的第二类型的文本数据被相同或相对应地离散化的离散形式的语音数据，以及

训练单元，配置为基于所述训练样本数据来进行所述翻译模型的训练。

12.一种翻译装置，所述装置包括：

获取单元，配置为获取根据权利要求1-8中任一项所述的方法训练得到的语音翻译模型，

翻译单元，配置为基于所获取的语音翻译模型，将第一类型的数据翻译为第二类型的数据。

13.一种电子设备，包括：

存储器；和

耦接至所述存储器的处理器，所述存储器中存储有可执行指令，所述指令当由所述处理器执行时，使得所述电子设备执行根据权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有可执行指令，该指令由处理器执行时实现根据权利要求1-10中任一项所述的方法。