CN117642814A

CN117642814A - 稳健的直接语音到语音翻译

Info

Publication number: CN117642814A
Application number: CN202180100578.2A
Authority: CN
Inventors: 贾晔; 米歇尔·塔德莫尔·拉曼诺维奇; 泰尔·雷米兹; 罗伊·波梅兰茨
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-07-16
Filing date: 2021-12-15
Publication date: 2024-03-01
Also published as: US20230013777A1; KR20240024960A; EP4360085A1; WO2023287446A1; US11960852B2

Abstract

一种直接语音到语音翻译(S2ST)模型(200)包括编码器(210)，该编码器(210)被配置成接收由源说话者(104)以第一语言说出的话语(108)的输入语音表示(102)并且将输入语音表示编码成隐藏特征表示(215)。S2ST模型还包括被配置成生成注意到被编码的隐藏表示的上下文向量(225)的注意力模块(220)。S2ST模型还包括解码器(230)，该解码器(230)被配置成接收由注意力模块生成的上下文向量并且预测以第二不同语言的与话语的翻译相对应的音素表示(235)。S2ST模型还包括合成器(300)，该合成器(300)被配置成接收上下文向量和音素表示并且生成以不同的第二语言说出的与话语的翻译相对应的经翻译的合成语音表示(355)。

Description

稳健的直接语音到语音翻译

技术领域

本公开涉及稳健的直接语音到语音翻译。

背景技术

语音到语音翻译(S2ST)对于分解不共享共同语言的人之间的通信障碍非常有益。常规地，S2ST系统由三个组件的级联组成：自动语音识别(ASR)；文本到文本机器翻译(MT)、以及文本到语音(TTS)合成。最近，直接语音到文本翻译(ST)的进步已经超过了ASR和MT的级联，从而使ST和TTS作为S2ST的两个组件级联是可行的。

附图说明

图1是包括直接语音到语音翻译(S2ST)模型的示例语音环境的示意图。

图2是S2ST模型的示意图。

图3是S2ST模型的合成器的示意图。

图4是示例Conformer块的示意图。

图5是用于执行直接语音到语音翻译的方法的操作的示例布置的流程图。

图6是可以用于实现本文描述的系统和方法的示例计算设备的示意图。

各个附图中相同的附图标记指示相同的元件。

发明内容

本公开的一个方面提供了一种直接语音到语音翻译(S2ST)模型，其包括编码器，该编码器被配置成接收与由源说话者以第一语言说出的话语相对应的输入语音表示并且将输入语音表示编码为隐藏特征表示。S2ST模型还包括注意力模块，该注意力模块被配置成生成注意到(attend to)由编码器编码的隐藏表示的上下文向量。S2ST模型还包括解码器，该解码器被配置成接收由注意力模块生成的上下文向量并且预测以第二不同语言的与话语的翻译相对应的音素表示。S2ST模型还包括合成器，该合成器被配置成接收上下文向量和音素表示并且生成以不同的第二语言说出的与话语的翻译相对应的经翻译的合成语音表示。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，编码器包括conformer块的堆叠。在其它实施方式中，编码器包括transformer块或轻量卷积块中的一个的堆叠。在一些示例中，合成器包括持续时间模型网络，该持续时间模型网络被配置成预测由音素表示表示的音素序列中的每个音素的持续时间。在这些示例中，合成器可以被配置成通过基于每个音素的预测持续时间对音素序列进行上采样来生成经翻译的合成语音表示。经翻译的合成语音表示可以被配置成源说话者的说话风格/韵律(prosody)。

在一些实施方式中，S2ST模型是在并行源语言话语和目标语言话语对上进行训练的，每个对包括以源话语说出的话音。在这些实施方式中，源语言话语或目标语言话语中的至少一个包括由经训练以生成以源话语的话音的合成语音的文本到语音模型合成的语音。在一些示例中，S2ST模块进一步包括声码器，该声码器被配置成接收经翻译的合成语音表示并且将经翻译的合成语音表示合成到经翻译的合成语音表示的可听输出。可选地，音素表示可以包括与经翻译的合成语音表示相对应的音素序列中的可能音素的概率分布。

本公开的另一方面提供了一种计算机实现的方法，该方法在数据处理硬件上施行时使数据处理硬件执行用于直接语音到语音翻译的操作。操作包括接收与由源说话者以第一语言说出的话语相对应的输入语音表示作为对直接语音到语音翻译(S2ST)模型的输入。操作还包括由S2ST模型的编码器将输入语音表示编码为隐藏特征表示。操作还包括由S2ST模型的解码器生成注意到由编码器编码的隐藏特征表示的上下文向量。操作还包括在S2ST模型的解码器处接收由注意力模块生成的上下文向量。操作还包括由解码器预测以第二不同语言的与话语的翻译相对应的音素表示。操作还包括在S2ST模型的合成器处接收上下文向量和音素表示。操作还包括由合成器生成以不同的第二语言说出的与话语的翻译相对应的经翻译的合成语音表示。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中，编码器包括conformer块的堆叠。在其它实施方式中，编码器包括transformer块或轻量卷积块中的一个的堆叠。在一些示例中，合成器包括持续时间模型网络，该持续时间模型网络被配置成预测由音素表示表示的音素序列中的每个音素的持续时间。在这些示例中，生成经翻译的合成语音表示可以包括基于每个音素的预测持续时间对音素序列进行上采样。

经翻译的合成语音表示可以被配置成源说话者的说话风格/韵律。在一些实施方式中，S2ST模型是在并行源语言话语和目标语言话语对上进行训练的，每个对包括以源话语说出的话音。在这些实施方式中，源语言话语或目标语言话语中的至少一个可以包括由经训练以生成以源话语的话音的合成语音的文本到语音模型合成的语音。在一些实例中，操作进一步包括在S2ST模型的声码器处接收经翻译的合成话音表示并且通过声码器将经翻译的合成话音表示合成到经翻译的合成话音表示的可听输出中。可选地，音素表示可以包括与经翻译的合成语音表示相对应的音素序列中的可能音素的概率分布。

在附图和以下描述中阐述了本公开的一个或多个实施方式的细节。根据说明书和附图以及权利要求，其他方面、特征和优点将是显而易见的。

具体实施方式

直接S2ST包括将一种语言的语音直接翻译成另一种语言的语音。换句话说，直接S2ST系统/模型被配置成将与由人类讲话者以第一语言说出的语音相对应的输入音频波形或频谱图直接转换成与不同于第一语言的第二语言的合成语音相对应的输出音频波形或频谱图，而不将输入音频波形转换成中间表示(例如，文本或音素)。如将变得显而易见的，直接S2ST模型以及用于训练直接S2ST模型的技术将使得用户能够以他/她的母语说话，并且通过使得能够将用户的语音的识别和/或再现作为以不同语言的合成音频而被其他人类和语音接口(例如，数字助理)所理解。最近的直接S2ST模型在翻译质量方面不如级联S2ST系统，同时也遭遇了输出合成语音在牙牙学语(babbling)和长停顿方面的鲁棒性问题。这些问题归因于使用基于注意力的方法来合成语音。

本文的实施方式涉及被端到端训练的、优于现有的直接S2ST系统、并且在翻译质量、语音自然性和语音鲁棒性方面与级联系统相当的稳健的直接S2ST模型。值得注意的是，与级联系统相比，直接S2ST系统/模型具有以下潜力：在翻译期间保留副语言和非语言信息，诸如说话者的话音和韵律；研究没有书面形式的语言；减少计算要求和推断时延；避免跨子系统的错误复合；以及在处理不需要翻译的内容(诸如名称和其他适当的名词)时变得容易。本文的实施方式进一步涉及不依赖于任何显式扬声器嵌入或标识符的S2ST中的话音保持技术。具体地，训练经过训练的S2ST模型以仅保留在输入语音中提供的源说话者的话音，而没有以与源说话者不同的话音生成语音的能力。值得注意的是，保留源说话者的话音的能力对于主动地减轻用于创建欺骗音频伪像的误用的生产环境是有用的。

图1示出了采用直接语音到语音翻译(S2ST)模型200的语音转换环境100，该直接语音到语音翻译(S2ST)模型200被配置成将由第一语言的源说话者所说的输入话语直接翻译成以不同的第二语言的对应输出话语，反之亦然。如将变得显而易见的，直接S2ST模型200被端对端训练。值得注意的是，直接S2ST模型200与级联的S2ST系统不同，该级联的S2ST系统采用自动语音识别器(ASR)组件、文本到文本机器翻译(MT)组件、和文本到语音(TTS)合成组件或采用直接语音到文本翻译(ST)组件随后是TTS组件的级联的其他级联的S2ST系统的单独组合。

在所示的示例中，直接S2ST模型200被配置成将与由源说话者104以第一/源语言(例如，西班牙语)说出的话语108相对应的输入音频数据102转换成与由源说话者104以不同的第二语言(例如，英语)说出的经翻译的话语114的经翻译的合成语音表示相对应的输出音频数据(例如，梅尔频谱图)106。直接S2ST模型200可以将与输入音频数据102相对应的输入频谱图直接转换成与输出音频数据102相对应的输出频谱图，而不执行语音识别和文本到文本机器翻译，或者以其他方式不需要从输入数据102生成任何中间离散表示(例如，文本或音素)。虽然参考图2和图3更详细地描述，但是直接S2ST模型200包括频谱图编码器210、注意力模块220、解码器230和合成器(例如，频谱图解码器)300。

声码器375可以将从直接S2ST模型200输出的输出音频数据106合成为用于可听输出的时域波形作为以第二语言说出并且以源说话者的话音的经翻译的话语114。时域音频波形包括定义音频信号随时间的振幅的音频波形。代替声码器375，单元选择模块或WaveNet模块可以替代地将输出音频数据106合成为以经翻译的第二语言和以源说话者104的话音中的合成语音的时域波形。在一些实施方式中，声码器375包括声码器网络(即，神经声码器)，该声码器网络被单独地训练并且以梅尔频率光谱图为条件用于转换成时域音频波形。

在所示的示例中，源说话者104是西班牙语的第一/源语言的母语说话者。相应地训练直接S2ST 200以将与由源说话者104以西班牙语说出的话语108相对应的输入音频数据102直接转换成与对应于英语(例如，第二/目标语言)的经翻译的话语114的经翻译的合成语音表示相对应的输出音频数据106。也就是说，英语的经翻译的话语114(例如，“Hi,what are your plans this afternoon？(嗨，您这个下午的计划是什么？)”)包括由源说话者104以西班牙语说出的输入话语108(例如，“Hola，cuatles sontus plane esta tarde？(嗨，您这个下午的计划是什么？)”)的经翻译的版本的合成音频。因此，由英语的输出音频数据106提供的经翻译的合成表示允许母语为西班牙语的说话者将以西班牙语说出的话语108传达给母语为英语的接收方用户118。在一些示例中，源说话者104不说英语并且接收方说话者118不说/不理解西班牙语。在一些实施方式中，直接S2ST模型200是多语言的并且被训练成还将由说话者118以英语说出的输入话语转换为西班牙语的经翻译的话语。在这些实施方式中，直接S2ST模型200可以被配置成除了西班牙语和英语之外或代替西班牙语和英语在一个或多个其他语言对之间转换语音。

值得注意的是，训练直接S2ST模型200以保留源说话者的话音特性，使得与合成语音表示和所得的经翻译地话语114相对应的输出音频数据106传达源说话者的话音，但是以不同的第二语言传达。换句话说，经翻译的话语114传达源说话者104的话音特性(例如，说话风格/韵律)，因为源说话者104实际上将说出不同的第二语言。在一些示例中，并且在下文更详细地描述的，训练直接S2ST模型200以不仅保留源说话者在输出音频数据106中的话音特性，而且还防止以与源说话者不同的话音生成语音的能力以减轻用于创建欺骗音频伪像的模型200的误用。

与源说话者104相关联的计算设备可以捕获由源说话者104以源/第一语言(例如，西班牙语)说出的话语108并且将对应的输入音频数据102传输到直接S2ST模型200以用于转换成输出音频数据106。此后，直接S2ST模型200可以将与经翻译的话语114的经翻译的合成语音表示相对应的输出音频数据106传输到与接收者用户118相关联的另一计算设备116，由此另一计算设备116以不同的第二语言(例如，英语)可听地输出经翻译的合成语音表示作为经翻译的话语114。在该示例中，源说话者104和用户118通过其相应的计算设备110、116彼此说话，诸如通过音频/视频呼叫(例如，视频会议/聊天)电话呼叫或其他类型的语音通信协议，例如，互联网语音协议。

值得注意的是，可以训练直接S2ST模型200以在与经翻译的合成语音表示相对应的输出音频数据106中保留在与由源说话者104说出的话语108相对应的输入音频数据102中使用的相同说话风格/韵律。例如，在所示的示例中，由于西班牙语话语108的输入音频数据102传达与说出问题相关联的风格/韵律，因此S2ST模型200生成与具有与说出问题相关联的风格/韵律的经翻译的合成语音表示相对应的输出音频数据106。

在一些其他示例中，S2ST转换模型200替代地将与由源说话者104说出的话语的经翻译的合成语音表示相对应的输出音频数据106发送到输出音频设备，以用于将以源说话者104的话音的经翻译的合成语音表示可听地输出给听众。例如，母语为西班牙语的源说话者104可以是向说英语的听众提供演讲的演讲者，其中由源说话者104以西班牙语说出的话语被转换成从音频设备可听地输出到说英语的听众的经翻译的合成语音表示，作为英语的经翻译的话语。

可替选地，另一计算设备116可以与下游自动语音识别(ASR)系统相关联，其中，S2ST模型200用作前端以将与合成语音表示相对应的输出音频数据106作为输入提供给ASR系统以用于转换成所识别的文本。所识别的文本可以被呈现给其他用户118和/或可以被提供给自然语言理解(NLU)系统以用于进一步处理。

S2ST模型200的功能能够驻留在远程服务器112上、在计算设备110、116中的任一个或两个上、或远程服务器和计算设备110、116的任何组合上。特别地，计算设备110、116的数据处理硬件可以施行S2ST模型200。在一些实施方式中，随着源说话者104以第一/源语言说出话语的对应部分，S2ST模型200连续地生成与话语的合成语音表示相对应的输出音频数据106。通过连续地生成与由源说话者104说出的话语108的部分的合成语音表示相对应的输出音频数据106，源说话者104与用户118(或听众)之间的对话可以被更自然地调步(paced)。在一些附加实施方式中，在将第一语言的话语108的对应输入音频数据102转换成与相同话语114的经翻译的合成语音表示但是以不同的第二语言相对应的对应输出音频数据106之前，S2ST模型200等待以确定/检测源说话者104何时停止说话。

图2示出了图1的直接S2ST模型200，其包括编码器210、注意力模块220、解码器230和合成器300。编码器210被配置成将输入音频数据102编码成隐藏特征表示(例如，一系列向量)215。这里，输入音频数据102包括对应于由源说话者104以源/第一语言(例如西班牙语)说出的话语108的输入频谱图序列。输入音素序列可以包括80通道梅尔频谱图序列。在一些实施方式中，编码器210包括Conformer层的堆叠。在这些实施方式中，编码器使用卷积层对包括输入梅尔频谱图序列的输入音频数据102进行子采样，并且然后利用Conformer块的堆叠来处理输入梅尔频谱图序列。每个Conformer块可以包括前馈层、自注意力层、卷积层和第二前馈层。在一些示例中，Conformer块的堆叠包括具有144的维度和四(4)的子采样因子的16层Conformer块。图4提供了示例Conformer块的示意图。编码器210可以替代地使用transformer块或轻量卷积块的堆叠来代替Conformer块。

注意力模块220被配置成生成注意到由编码器210编码的隐藏特征表示215的上下文向量225。注意力模块220可以包括多头注意力机制。解码器230被配置成接收指示隐藏特征表示215作为注意力的源值的上下文向量225作为输入，并且将表示对应于音频数据(例如，目标经翻译的合成语音表示)106的音素序列245中的可能音素的概率分布的音素表示235作为输出进行预测。也就是说，音素表示235对应于话语108以第二不同的话语(例如，以第二语言)的翻译。全连接网络加softmax 240层可以基于使用由音素表示235表示的可能音素的概率分布中具有最高概率的音素，在多个输出步骤中的每个输出步骤中选择音素序列245(例如，英语音素)中的音素。在所示的示例中，解码器230是自回归的，并且在每个输出步骤处，基于由Softmax 240在先前输出步骤中的每个输出步骤期间选择的音素序列245中的每个先前音素来生成给定输出步骤的可能音素的概率分布。在一些实施方式中，解码器230包括由注意力模块220辅助的长短期记忆(LSTM)单元的堆叠。值得注意的是，编码器210、注意力模块220和解码器230的组合类似于通常在级联的S2ST系统中找到的直接语音到文本翻译(ST)组件。

合成器300在多个输出步骤中的每个输出步骤期间，接收在对应的输出步骤处的音素表示235(或音素序列245)和上下文向量225的级联作为输入，并且在多个输出步骤中的每个输出步骤处，生成对应于以目标/第二语言和以源说话者104的话音的经翻译的合成语音表示的输出音频数据106作为输出。可替选地，合成器300可以接收音素表示235和上下文向量225(例如，没有任何级联)。合成器300也可以被称为频谱图解码器。在一些示例中，合成器是自回归的，其中预测的每个输出频谱图是基于先前预测的频谱图的序列。在其他示例中，合成器300是并行的和非自回归的。

图3提供了图1的合成器300的示例。这里，合成器300可以包括音素持续时间建模网络(即，持续时间预测器)310、以及上采样器模块320、递归神经网络(RNN)330和卷积层340。持续时间建模网络接收来自解码器230的音素表示235和来自注意力模块220的上下文向量224作为输入。此外，持续时间建模网络310的任务是预测与表示以目标/第二语言的经翻译的合成语音表示的输出音频数据106相对应的音素表示235中的每个音素的持续时间315。在训练期间，每个音素的单个目标持续时间315是未知的，因此，持续时间模型网络310基于整个参考梅尔频谱图序列的总帧持续时间T和对应于参考梅尔频谱图序列的参考音素序列中的音素(例如，词元)的总数K的比例来确定目标平均持续时间。也就是说，目标平均持续时间是针对使用参考梅尔频谱图序列和在训练期间使用的参考音素序列的所有音素的平均持续时间。在训练期间，然后在预测音素持续时间与目标平均持续时间之间来确定损失项(例如，L2损失项)。因此，持续时间模型网络310学习以无监督方式来预测音素持续时间，而不使用从外部对准器提供的监督音素持续时间标签。虽然外部对准器能够提供音素与梅尔频谱帧之间的合理对准，但是长度调节器需要音素持续时间舍入以根据它们的持续时间对参考音素序列中的音素进行上采样，这导致可能持续的舍入误差。在一些情况下，在训练期间使用来自外部对准器的监督持续时间标签并且在推断期间使用预测持续时间会在训练S2ST模型200与推断S2ST模型200之间创建音素持续时间差异。此外，这样的舍入运算是不可微分的，并且因此，误差梯度不能通过持续时间模型网络传播。

上采样器320接收预测持续时间315、上下文向量225和音素表示作为输入并且生成输出235。特别地，上采样器320被配置成基于来自持续时间模型网络315的预测持续时间315对输入序列(例如，音素表示235或音素序列245)进行上采样。RNN 330接收输出335并且被配置成自动回归地预测目标梅尔频谱图335，其对应于音频数据106(例如，以目标/第二语言的目标经翻译的合成语音表示)。RNN 330将目标梅尔频谱图335提供给卷积层340和级联器350。卷积层340提供残差卷积后网络(post-net)，该残差卷积后网络被配置成进一步细化目标梅尔频谱图335并且生成输出345。也就是说，卷积层340进一步细化以第二语言的预测的经翻译的合成语音表示。级联器350将输出345和目标梅尔频谱图335级联以生成对应于以不同的第二语言说出的话语108的翻译的经翻译的合成语音表示355。因此，经翻译的合成语音表示355可以对应于音频数据106(图2)。值得注意的是，经翻译的合成语音表示355保留源说话者104的说话风格/韵律。

本文的实施方式还涉及话音保留技术，该话音保留技术限制经过训练的S2ST模型200以仅保留源说话者的话音，而没有生成以不同说话者的话音的合成语音的能力。该技术包括在第一语言的输入话语和第二语言的输出话语这两者上对具有相同说话者的话音的并行话语进行训练。由于流畅的双语说话者并不普遍，因此可以采用跨语言TTS模型来合成包括源说话者的话音的目标第二语言的训练话语。因此，S2ST模型200可以使用来自第一语言的源说话者104的话语和目标第二语言的源说话者104的合成训练话语来训练。能够进一步训练S2ST模型200以在说话者轮流期间针对每个源说话者保留经翻译的合成语音的源说话者话音。

图4提供了来自编码器210的Conformer层的堆叠的Conformer块400的示例。Conformer块400包括第一半前馈层410、第二半前馈层440、具有设置在第一半前馈层410和第二半前馈层440之间的多头自注意力块420和卷积层430，以及级联运算器405。第一半前馈层410处理包括输入梅尔频谱图序列的输入音频数据102。随后，多头自注意力块420接收与第一半前馈层410的输出级联的输入音频数据102。直观地，多头自注意力块420的作用是针对要增强的每个输入帧单独地总结噪声上下文。卷积层430对与第一半前馈层410的输出级联的多头自注意力块420的输出进行子采样。此后，第二半前馈层440接收卷积层430输出和多头自注意力块420的级联。层范数模块450处理来自第二半前馈层440的输出。数学上，conformer块400使用调制特征m变换输入特征x以产生输出特征y，如下：

x″＝x′+MHCA(x′,n′)

x″′＝x′⊙r(x″)+h(x″)

x″″＝x′+MHCA(x′,x″′)

图5是用于执行直接语音到语音翻译的计算机实现的方法500的操作的示例性布置的流程图。在操作502处，方法500包括接收与由源说话者104以第一语言说出的话语108相对应的输入语音表示102。在操作504处，方法500包括S2ST模型200的编码器210将输入语音表示102编码为隐藏特征表示215。在操作506处，方法500包括S2ST模型200的注意力模块220生成注意到由编码器210编码的隐藏特征表示215的上下文向量225。在操作508处，方法500包括在S2ST模型200的解码器230处接收上下文向量225。在操作510处，方法500包括解码器230预测以第二不同语言的与话语108的翻译相对应的音素表示235。在操作512处，方法500包括在S2ST模型200的合成器300处接收上下文向量225和音素表示235。在操作514处，方法500包括由合成器300生成以不同的第二语言说出的与话语108的翻译相对应的经翻译的语音表示355。

软件应用(即，软件资源)可以指使计算设备执行任务的计算机软件。在一些示例中，软件应用可以被称为“应用”、“应用程序(app)”或“程序”。示例应用包括但不限于系统诊断应用、系统管理应用、系统维护应用、文字处理应用、电子表格应用、消息传送应用、媒体流应用、社交网络应用和游戏应用。

非暂时性存储器可以是用于基于临时或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备使用的物理设备。非暂时性存储器可以是易失性和/或非易失性可寻址半导体存储器。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及盘或磁带。

图6是可以用于实现本文档中描述的系统和方法的示例计算设备600的示意图。计算设备600旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。这里所示的组件、它们的连接和关系及其功能仅仅是示例性的，并不意味着限制本文档中描述和/或要求保护的发明的实施方式。

计算设备600包括处理器610、存储器620、存储设备630、连接到存储器620和高速扩展端口650的高速接口/控制器640、以及连接到低速总线670和存储设备630的低速接口/控制器660。组件610、620、630、640、650和660中的每一个使用各种总线互连，并且可以适当地安装在公共母板上或以其他方式安装。处理器610能够处理用于在计算设备600内执行的指令，包括存储在存储器620中或存储设备630上的指令，以在外部输入/输出设备(诸如耦合到高速接口640的显示器680)上显示图形用户界面(GUI)的图形信息。在其他实施方式中，可以适当地使用多个处理器和/或多个总线以及多个存储器和存储器类型。此外，可以连接多个计算设备600，其中每个设备提供必要操作的部分(例如，作为服务器组、一组刀片服务器或多处理器系统)。

存储器620非暂时性地存储计算设备600内的信息。存储器620可以是计算机可读介质、(多个)易失性存储器单元或(多个)非易失性存储器单元。非暂时性存储器620可以是用于基于临时或永久地存储程序(例如，指令序列)或数据(例如，程序状态信息)以供计算设备600使用的物理设备。非易失性存储器的示例包括但不限于闪存和只读存储器(ROM)/可编程只读存储器(PROM)/可擦除可编程只读存储器(EPROM)/电可擦除可编程只读存储器(EEPROM)(例如，通常用于固件，诸如引导程序)。易失性存储器的示例包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、相变存储器(PCM)以及盘或磁带。

存储设备630能够为计算设备600提供大容量存储。在一些实施方式中，存储设备630是计算机可读介质。在各种不同的实施方式中，存储设备630可以是软盘设备、硬盘设备、光盘设备、或磁带设备、闪存或其他类似的固态存储设备、或设备阵列，包括存储区域网络或其他配置中的设备。在附加的实施方式中，计算机程序产品被有形地体现在信息载体中。计算机程序产品包含指令，所述指令在被施行时执行一种或多种方法，诸如上述那些方法。信息载体是计算机或机器可读介质，诸如存储器620、存储设备630或在处理器610上的存储器。

高速控制器640管理用于计算设备600的带宽密集型操作，而低速控制器660管理更低带宽密集型操作。这种职责分配仅仅是示例性的。在一些实施方式中，高速控制器640耦合到存储器620、显示器680(例如，通过图形处理器或加速器)和高速扩展端口650，该高速扩展端口650可以接受各种扩展卡(未示出)。在一些实施方式中，低速控制器660耦合到存储设备630和低速扩展端口690。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口690可以例如通过网络适配器耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪或诸如交换机或路由器的网络设备。

计算设备600可以以多种不同的形式实现，如图所示。例如，它可以实现为标准服务器600a或者在一组这样的服务器600a中实现多次，实现为膝上型计算机600b，或者实现为机架服务器系统600c的一部分。

本文描述的系统和技术的各种实施方式能够在数字电子和/或光学电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实施方式能够包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，该可编程系统包括至少一个可编程处理器，该可编程处理器可以是特殊的或通用的，被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且向存储系统、至少一个输入设备和至少一个输出设备传输数据和指令。

这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且能够以高级过程和/或面向对象的编程语言和/或以汇编/机器语言来实现。如本文所使用的，术语“机器可读介质”和“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、非暂时性计算机可读介质、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑器件(PLD))，包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

本说明书中描述的过程和逻辑流程能够由一个或多个可编程处理器(也称为数据处理硬件)执行，该可编程处理器施行一个或多个计算机程序以通过对输入数据进行操作并且生成输出来执行功能。过程和逻辑流程也能够由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))执行。适合于施行计算机程序的处理器例如包括通用和专用微处理器这两者，以及任何种类的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或这两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或可操作地耦合以从一个或多个大容量存储设备接收数据或将数据传送到一个或多个大容量存储设备或这两者，该一个或多个大容量存储设备用于存储数据，例如磁性、磁光盘或光盘。然而，计算机不需要具有这样的设备。适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，包括例如半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器能够由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本公开的一个或多个方面能够在计算机上实现，该计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)、LCD(液晶显示器)监视器或触摸屏)和任选地用户能够通过其向计算机提供输入的键盘和定点设备(例如，鼠标或轨迹球)。其他类型的设备也能够用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且能够以任何形式接收来自用户的输入，包括声学、语音或触觉输入。另外，计算机能够通过向由用户使用的设备发送文档和从该设备接收文档来与用户交互；例如，通过响应于从web浏览器接收的请求将网页发送到用户的客户端设备上的web浏览器。

已经描述了多种实施方式。然而，应当理解，在不脱离本公开的精神和范围的情况下，可以进行各种修改。因此，其他实施方式在所附权利要求的范围内。

Claims

1.一种直接语音到语音翻译(S2ST)模型(200)，包括：

编码器(210)，所述编码器(210)被配置成：

接收与由源说话者(104)以第一语言说出的话语(108)相对应的输入语音表示(102)；以及

将所述输入语音表示(102)编码为隐藏特征表示(215)；

注意力模块(220)，所述注意力模块(220)被配置成生成注意到由所述编码器(210)编码的所述隐藏特征表示(215)的上下文向量(225)；

解码器(230)，所述解码器(230)被配置成：

接收由所述注意力模块(220)生成的所述上下文向量(225)；并且

预测以第二不同语言的与所述话语(108)的翻译相对应的音素表示(235)；以及

合成器(300)，所述合成器(300)被配置成：

接收所述上下文向量(225)和所述音素表示(235)；以及

生成以不同的第二语言说出的与所述话语(108)的所述翻译相对应的经翻译的合成语音表示(355)。

2.根据权利要求1所述的S2ST模型(200)，其中，所述编码器(210)包括conformer块(400)的堆叠。

3.根据权利要求1或2所述的S2ST模型(200)，其中，所述编码器(210)包括transformer块或轻量卷积块中的一个的堆叠。

4.根据权利要求1至3中的任一项所述的S2ST模型(200)，其中，所述合成器(300)包括持续时间模型网络(310)，所述持续时间模型网络被配置成预测由所述音素表示(235)表示的音素序列中的每个音素的持续时间(315)。

5.根据权利要求4所述的S2ST模型(200)，其中，所述合成器(300)被配置成通过基于每个音素的预测持续时间(315)对所述音素序列进行上采样来生成所述经翻译的合成语音表示(102)。

6.根据权利要求1至5中的任一项所述的S2ST模型(200)，其中，所述经翻译的合成语音表示(102)被配置成所述源说话者(104)的说话风格/韵律。

7.根据权利要求1至6中的任一项所述的S2ST模型(200)，其中，所述S2ST模型(200)是在并行源语言话语和目标语言话语对上进行训练的，每个对包括以源话语说出的话音。

8.根据权利要求7所述的S2ST模型(200)，其中，所述源语言话语(108)或所述目标语言话语中的至少一个包括由文本到语音模型合成的语音，所述文本到语音模型被训练以生成以所述源话语(108)的所述话音的合成语音。

9.根据权利要求1至8中的任一项所述的S2ST模型(200)，其中，声码器(375)被配置成：

接收所述经翻译的合成语音表示(355)；以及

将所述经翻译的合成语音表示(355)合成到所述经翻译的合成语音表示的可听输出(355)。

10.根据权利要求1至9中的任一项所述的S2ST模型(200)，其中，所述音素表示(235)包括与所述经翻译的合成语音表示(355)相对应的音素序列中的可能音素的概率分布。

11.一种计算机实现的方法(500)，当在数据处理硬件上施行时，所述计算机实现的方法(500)使所述数据处理硬件(610)执行包括以下各项的操作：

接收与由源说话者(104)以第一语言说出的话语(108)相对应的输入语音表示(102)作为对直接语音到语音翻译(S2ST)模型(200)的输入；

由所述S2ST模型(200)的编码器(210)，将所述输入语音表示(102)编码为隐藏特征表示(215)；

由所述S2ST模型(200)的注意力模块(220)，生成注意到由所述编码器(210)编码的所述隐藏特征表示(215)的上下文向量(225)；

在所述S2ST模型(200)的解码器(230)处，接收由所述注意力模块(220)生成的所述上下文向量(225)；

由所述解码器(230)，预测以第二不同语言的与所述话语的翻译相对应的音素表示(235)；

在所述S2ST模型(200)的合成器(300)处，接收所述上下文向量(225)和所述音素表示(235)；以及

由所述合成器(300)，生成以不同的第二语言说出的与所述话语的所述翻译相对应的经翻译的合成语音表示(355)。

12.根据权利要求11所述的计算机实现的方法(500)，其中，所述编码器(210)包括Conformer块(400)的堆叠。

13.根据权利要求11或12所述的计算机实现的方法(500)，其中，所述编码器(210)包括transformer块或轻量卷积块中的一个的堆叠。

14.根据权利要求11至13中的任一项所述的计算机实现的方法(500)，其中，所述合成器(300)包括持续时间模型网络(310)，所述持续时间模型网络被配置成预测由所述音素表示(235)表示的音素序列中的每个音素的持续时间(315)。

15.根据权利要求14所述的计算机实现的方法(500)，其中，生成所述经翻译的合成语音表示(355)包括基于每个音素的预测持续时间(315)对所述音素序列进行上采样。

16.根据权利要求11至15中的任一项所述的计算机实现的方法(500)，其中，所述经翻译的合成语音表示(355)被配置成所述源说话者(104)的说话风格/韵律。

17.根据权利要求11至16中的任一项所述的计算机实现的方法(500)，其中，所述S2ST模型(200)是在并行源语言话语和目标语言话语对上进行训练的，每个对包括以源话语说出的话音。

18.根据权利要求17所述的计算机实现的方法(500)，其中，所述源语言话语(108)或所述目标语言话语中的至少一个包括由文本到语音模型合成的语音，所述文本到语音模型被训练以生成以所述源话语(108)的所述话音的合成语音。

19.根据权利要求11至18中的任一项所述的计算机实现的方法(500)，其中，所述操作进一步包括：

在声码器(375)处，接收所述经翻译的合成语音表示(355)；以及

由所述声码器(375)，将所述经翻译的合成话音表示(355)合成到所述经翻译的合成话音表示的可听输出(355)。

20.根据权利要求11至19中的任一项所述的计算机实现的方法(500)，其中，所述音素表示(235)包括与所述经翻译的合成语音表示(355)相对应的音素序列中的可能音素的概率分布。