CN116524955A

CN116524955A - 语音翻译和模型训练方法、系统和电子设备

Info

Publication number: CN116524955A
Application number: CN202310814909.XA
Authority: CN
Inventors: 孔欧
Original assignee: Shanghai Mdata Information Technology Co ltd
Current assignee: Shanghai Mdata Information Technology Co ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-08-01

Abstract

本申请提供一种语音翻译和模型训练方法、系统和电子设备，所述语音翻译方法包括：输入待翻译源语音；利用训练好的语音翻译模型对待翻译源语音进行处理，以生成目标语音，其中，语音翻译模型为端到端的深度生成模型；输出目标语音。本申请的语音翻译和模型训练方法、系统和电子设备具有处理速度快、资源占用少、适用范围广等优点；可以端到端地将源语音翻译为目标语音，不需要中间的文字转录和翻译操作，大大减少了处理时间和资源消耗；能够实现对于方言、少数民族语言等的准确翻译，不受方言、口音等因素的影响，具有更广泛的普适性；提高了翻译质量和泛化能力；可以自适应地学习和调整模型参数，以适应不同的语音翻译任务和数据集。

Description

语音翻译和模型训练方法、系统和电子设备

技术领域

本申请属于语音翻译技术领域，特别是涉及一种语音翻译和模型训练方法、系统和电子设备。

背景技术

语音翻译技术在现代社会中得到广泛应用，但当前的语音翻译任务一般需要通过语音识别、文字翻译和语音合成等三个任务的级联操作。例如，在将英文语音转换为中文语音时，首先经过一个英文语音的识别任务，得到英语的文字转录结果，接着经过英译中的翻译任务和中文文本转语音的合成任务，才能最终获得对应的中文语音。该种做法存在一些问题，如处理耗时长、资源占用多，而且对于没有规范书写文字的方言、少数民族语言等无法实现。

发明内容

本申请的目的在于提供一种语音翻译和模型训练方法、系统和电子设备，用于解决现有语音翻译模型处理耗时长、资源占用多，而且对于没有规范书写文字的方言、少数民族语言等无法实现的问题。

第一方面，本申请提供一种语音翻译方法，包括：输入待翻译源语音；利用训练好的语音翻译模型对所述待翻译源语音进行处理，以生成目标语音，其中，所述语音翻译模型为端到端的深度生成模型；输出所述目标语音；利用训练好的语音翻译模型对所述待翻译源语音进行处理，以生成目标语音包括：将所述待翻译源语音转换为连续特征向量；量化所述连续特征向量，以生成离散特征向量；重构所述离散特征向量，以生成所述目标语音；将所述待翻译源语音转换为连续特征向量包括：确定与所述待翻译源语音对应的源频谱序列；对所述源频谱序列进行下采样，以获取下采样序列；采用第一注意力策略和第一多层感知策略对所述下采样序列进行处理，以生成所述连续特征向量。

在第一方面的一种实现方式中，重构所述离散特征向量，以生成目标语音包括：对所述离散特征向量进行上采样，以获取上采样序列；采用第二注意力策略和第二多层感知策略对所述上采样序列进行处理，以生成目标语音特征向量；语音合成所述目标语音特征向量，以生成所述目标语音。

在第一方面的一种实现方式中，所述语音翻译模型的训练方法包括：获取训练源语音、所述训练源语音对应的参考目标语音、所述参考目标语音对应的参考目标文本；利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量；向量化所述参考目标文本，以生成参考目标文本向量；根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练。

在第一方面的一种实现方式中，利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量包括：确定所述训练源语音的频谱序列，以生成第一训练源序列；确定所述参考目标语音的频谱序列，以生成第二训练源序列；对所述第一训练源序列进行下采样以生成第一采样序列，对所述第二训练源序列进行下采样，以生成第二采样序列；采用第一注意力策略和第一多层感知策略对所述第一采样序列进行处理以生成第一连续特征向量，对所述第二采样序列进行处理以生成第二连续特征向量；量化所述第一连续特征向量和所述第二连续特征向量，以生成所述中间离散向量；对所述中间离散向量进行上采样以生成第三采样序列；采用第二注意力策略和第二多层感知策略对所述第三采样序列进行处理以生成预测目标语音的特征向量；语音合成所述预测目标语音的特征向量，以生成所述预测目标语音。

在第一方面的一种实现方式中，根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练包括：基于所述参考目标语音和所述预测目标语音生成第一损失函数；基于所述参考目标文本向量和所述中间离散向量生成第二损失函数；联合所述第一损失函数和所述第二损失函数，以生成联合损失函数；基于所述联合损失函数对所述语音翻译模型进行训练。

第二方面，本申请提供一种语音翻译系统，包括输入单元、语音翻译模型和输出单元；所述输入单元用于输入待翻译源语音；所述语音翻译模型为端到端的深度生成模型，用于对所述待翻译源语音进行处理，以生成目标语音；所述输出单元用于输出所述目标语音；所述语音翻译模型包括转换器、量化器和逆变器；所述转换器用于将所述待翻译源语音转换为连续特征向量；所述量化器用于量化所述连续特征向量，以生成离散特征向量；所述逆变器用于重构所述离散特征向量，以生成所述目标语音；所述转换器将所述待翻译源语音转换为连续特征向量包括：确定与所述待翻译源语音对应的源频谱序列；对所述源频谱序列进行下采样，以获取下采样序列；采用第一注意力策略和第一多层感知策略对所述下采样序列进行处理，以生成所述连续特征向量。

第三方面，本申请提供一种语音翻译模型的训练方法，包括：获取训练源语音、所述训练源语音对应的参考目标语音、所述参考目标语音对应的参考目标文本；利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量；向量化所述参考目标文本，以生成参考目标文本向量；根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练。

第四方面，本申请提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行上述任一项所述的语音翻译方法和/或语音翻译模型的训练方法。

如上所述，本申请所述的语音翻译和模型训练方法、系统和电子设备，具有以下有益效果：

（1）具有处理速度快、资源占用少、适用范围广等优点；

（2）可以端到端地将源语音翻译为目标语音，不需要进行中间的文字转录和翻译操作，大大减少了处理时间和资源消耗；

（3）能够实现对于方言、少数民族语言等的准确翻译，不受方言、口音等因素的影响，具有更广泛的普适性；

（4）采用了多层感知器，并结合了注意力机制技术，提高了翻译质量和泛化能力；

（5）可以自适应地学习和调整模型参数，以适应不同的语音翻译任务和数据集。

附图说明

图1显示为本申请实施例所述的语音翻译方法流程图。

图2显示为本申请实施例所述的语音翻译模型的训练方法流程图。

图3显示为本申请实施例所述的语音翻译系统的结构示意图。

图4显示为本申请实施例所述的语音翻译系统的另一结构示意图。

图5显示为本申请实施例所述的电子设备结构示意图。

元件标号说明

11 输入单元

12 语音翻译模型

121 转换器

122 量化器

123 逆变器

13 输出单元

41 处理器

42 存储器

S1~S3 步骤

S100~S130 步骤

具体实施方式

以下通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请以下实施例提供了语音翻译和模型训练方法、系统和电子设备，实现的应用场景包括但不限于内置于智能手机、电脑、平板电脑、便携式语音翻译机或智能音箱等终端设备上的语音翻译软件，用于为用户提供实时的语音翻译服务。本申请提供的语音翻译和模型训练方法、系统和电子设备，能够有效解决现有语音翻译模型处理耗时长、资源占用多，而且对于没有规范书写文字的方言、少数民族语言等无法实现的问题。

如图1所示，本实施例提供一种语音翻译方法，包括：

步骤S1、输入待翻译源语音。

本实施例中的源语音为包含人说话的语音数据，来自于通用语料库。所述通用语料库是指包含各个语言领域的语言资源库，例如新闻、社交媒体、法律文书、医学文献等。需要说明的是，本申请不限制源语音的语种类别，例如所述源语音可以是中文语音或英文语音等。

步骤S2、利用训练好的语音翻译模型对所述待翻译源语音进行处理，以生成目标语音，其中，所述语音翻译模型为端到端的深度生成模型。

于一实施例中，利用训练好的语音翻译模型对所述待翻译源语音进行处理，以生成目标语音包括：

步骤S21、将所述待翻译源语音转换为连续特征向量。

进一步地，将所述待翻译源语音转换为连续特征向量包括：

步骤S211、确定与所述待翻译源语音对应的源频谱序列。

具体地，本实施例中的源频谱序列为梅尔频谱（mel-spectorgram）。mel-spectorgram的生成过程分为三步：首先对输入的源语音信号进行预加重、分帧和加窗，其中分帧加窗过程中要设置帧与帧之间的重叠部分的大小来防止频谱的泄漏，例如可以构建一个帧长为50ms，偏移量为12.5ms的汉明窗对序列进行截取；其次对每帧做快速傅里叶变换（Fast Fourier Transform，FFT），得到线性频谱；最后利用若干个梅尔滤波器组对所述线性频谱进行处理以得到梅尔频谱。

步骤S212、对所述源频谱序列进行下采样，以获取下采样序列。

本实施例采用二维卷积层（2D convolution）来执行所述下采样操作。具体需要设置所述二维卷积层的步幅（stride）参数，所述stride用于表示卷积神经网络中卷积核每次移动的步长，通常默认值为1。

本实现方式中，下采样可以减小源语音数据的尺寸，从而减小计算量，并且可以提取更加全局的特征，增强模型的泛化能力。

步骤S213、采用第一注意力策略和第一多层感知策略对所述下采样序列进行处理，以生成所述连续特征向量。

本实施例采用转换器编码模块（Transformer Encoder Blocks），所述Transformer Encoder Blocks由多个相同的编码器堆叠而成，每个编码器由自注意力层（Self-Attention Layer）和多层感知器（Multilayer Perceptron，MLP）两个子层组成。

Self-Attention Layer能够对输入的下采样序列中不同位置的信息进行关联，找到与当前位置最相关的信息并进行编码。具体地，将下采样序列中的每个位置作为查询（Query）、键（Key）和值（Value）进行编码，并获得输入下采样序列中不同位置之间的关联性。通过对下采样序列中的每个位置进行自注意力计算，可以得到一个全局的、表示整个序列的向量。MLP能够对编码后的信息进行进一步处理和压缩，以生成所述连续特征向量。

本实现方式中，采用了多层感知器，并结合了注意力机制技术，提高了翻译质量和泛化能力；通过堆叠多个Transformer Encoder Blocks，可以使模型获得更丰富、更准确的特征表示。需要说明的是，可以根据实际需要设置Transformer Encoder Blocks的堆叠数量。

步骤S22、量化所述连续特征向量，以生成离散特征向量。

本实施例采用变分自动编码器和向量量化（Vector Quantized-VariationalAutoencoder，VQ-VAE）技术量化所述连续特征向量。

在VQ-VAE中，变分自动编码器（VAE）先将输入数据映射到一个连续的潜在空间，而不是直接压缩到离散的编码空间。然后，使用向量量化（VQ）技术将连续的潜在向量量化为最接近的离散特征向量。这些离散特征向量被视为编码器的输出，并被传递到解码器进行重构。

步骤S23、重构所述离散特征向量，以生成所述目标语音。

于一实施例中，重构所述离散特征向量，以生成目标语音包括：

步骤S231、对所述离散特征向量进行上采样，以获取上采样序列。

本实施例采用二维转置卷积（2D Transposed Convolution）来执行所述上采样操作，具体需要设置所述二维转置卷积层中卷积核的大小和步幅（stride）参数。不同于下采样过程中的二维卷积层，通常转置卷积的步幅参数为2。

步骤S232、采用第二注意力策略和第二多层感知策略对所述上采样序列进行处理，以生成目标语音特征向量。

本实施例采用转换器解码模块（Transformer Decoder Blocks），所述Transformer Decoder Blocks由多个相同的解码器堆叠而成，每个解码器由自注意力层（Self-Attention Layer）和多层感知器（Multilayer Perceptron，MLP）两个子层组成。

需要说明的是，转换器解码模块中所述的自注意力层和多层感知器与上述转换器编码模块中的自注意力层和多层感知器的设置方式、工作原理及实现的效果相同，此处不再赘述。与Transformer Encoder Blocks不同的是，Transformer Decoder Blocks需要处理的是目标语音相关向量的生成任务。

步骤S233、语音合成所述目标语音特征向量，以生成所述目标语音。

本实施例中采用声学模型将所述目标语音特征向量转换为目标语音的波形信号。所述声学模型可以采用基于隐马尔可夫模型（Hidden Markov Model，HMM）、深度神经网络（Deep Neural Network，DNN）或深度生成模型（Deep Generative Model）等方法实现。

步骤S3、输出所述目标语音。

本实施例中的目标语音为区别于源语音的另一种语种类型的语音数据，例如当所述源语音为中文语音时，所述目标语音可以是英文语音，以端到端实现从中文语音到英文语音的翻译。

优选地，需要对合成的所述目标语音进行后处理，包括去噪、增强、音量调整等操作，以进一步提高目标语音的质量和可听性。

如图2所示，所述语音翻译模型的训练方法包括：

步骤S100、获取训练源语音、所述训练源语音对应的参考目标语音、所述参考目标语音对应的参考目标文本。

本实施例中的训练源语音、参考目标语音和参考目标文本均来自于通用语料库，其中所述训练源语音是指用于训练的待翻译语言，例如可以是英文、法文、中文等；参考目标语音指与源语音对应的希望翻译成的目标语言，例如法文、中文、英文等；参考目标文本则是指参考目标语音的文本表示。

通用语料库是指包含各个语言领域的语言资源库，例如新闻、社交媒体、法律文书、医学文献等。在训练语音翻译模型时，通过使用通用语料库可以提高模型对各种语言和语言领域的理解能力，并能够更好地应用于实际场景。此外，对于某些特定语言或场景，可以选择使用特定的领域语料库进行训练，以提高模型在该领域的翻译质量和准确性。

步骤S110、利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量。

于一实施例中，利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量包括：

步骤S111、确定所述训练源语音的频谱序列，以生成第一训练源序列。

步骤S112、确定所述参考目标语音的频谱序列，以生成第二训练源序列。

步骤S113、对所述第一训练源序列进行下采样以生成第一采样序列，对所述第二训练源序列进行下采样以生成第二采样序列。

步骤S114、采用第一注意力策略和第一多层感知策略对所述第一采样序列进行处理以生成第一连续特征向量，对所述第二采样序列进行处理以生成第二连续特征向量。

步骤S115、量化所述第一连续特征向量和所述第二连续特征向量，以生成所述中间离散向量。

步骤S116、对所述中间离散向量进行上采样以生成第三采样序列。

步骤S117、采用第二注意力策略和第二多层感知策略对所述第三采样序列进行处理以生成预测目标语音的特征向量。

步骤S118、语音合成所述预测目标语音的特征向量，以生成所述预测目标语音。

需要说明的是，本实施例中的步骤S111至S118与上述步骤S1至步骤S3中的实施例一一对应，故此处不再赘述。

步骤S120、向量化所述参考目标文本，以生成参考目标文本向量。

于一实施例中，采用One-Hot编码将参考目标文本转换为向量形式。One-Hot编码是将一个元素转化为长度为n的向量，其中只有一个元素为1，其余元素全为0的方法。在翻译模型中，One-Hot编码用于将参考目标文本中的每个单词都转换为对应的One-Hot二进制向量，其中向量的长度等于词汇表的大小，并将这些向量拼接起来，从而生成参考目标文本向量。

由于One-Hot向量化存在一些问题，例如向量维度过高、稀疏性问题等。为了解决这些问题，在其他实施例中，可以采用词嵌入（Word Embedding）、词袋模型（Bag ofWords）、TF-IDF等文本表示方法。这些方法可以将文本表示为低维稠密向量，提高模型的计算效率和泛化能力。

步骤S130、根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练。

于一实施例中，根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练包括：

步骤S131、基于所述参考目标语音和所述预测目标语音生成第一损失函数。

步骤S132、基于所述参考目标文本向量和所述中间离散向量生成第二损失函数。

步骤S133、联合所述第一损失函数和所述第二损失函数，以生成联合损失函数。

步骤S134、基于所述联合损失函数对所述语音翻译模型进行训练。

本实施例中第一损失函数为平均绝对误差（Mean Absolute Error，MAE）损失函数，第二损失函数为联结时序分类（Connectionist Temporal Classification，CTC）损失函数。在联合损失函数中，MAE和CTC的加权系数可以根据任务需求和数据集特征进行调整。

本实现方式中，将多种损失函数结合，起到联合优化的效果，使得模型在多个损失函数的优化下，提高表征能力；可以自适应地学习和调整模型参数，以适应不同的语音翻译任务和数据集。

本申请实施例所述的语音翻译方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本申请的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本申请的保护范围内。

如图3所示，本申请实施例还提供一种语音翻译系统，包括输入单元11、语音翻译模型12和输出单元13。

所述输入单元11用于输入待翻译源语音。

所述语音翻译模型12为端到端的深度生成模型，用于对所述待翻译源语音进行处理，以生成目标语音。

所述输出单元13用于输出所述目标语音。

如图4所示，所述语音翻译模型12包括转换器121、量化器122和逆变器123。

所述转换器121用于将所述待翻译源语音转换为连续特征向量。

所述量化器122用于量化所述连续特征向量，以生成离散特征向量。

所述逆变器123用于重构所述离散特征向量，以生成所述目标语音。

于一实施例中，所述转换器121将所述待翻译源语音转换为连续特征向量包括：确定与所述待翻译源语音对应的源频谱序列；对所述源频谱序列进行下采样，以获取下采样序列；采用第一注意力策略和第一多层感知策略对所述下采样序列进行处理，以生成所述连续特征向量。

需要说明的是，本实施例中的输入单元11、语音翻译模型12和输出单元13，以及所述语音翻译模型中的转换器121、量化器122和逆变器123的结构和原理与上述语音翻译方法中的步骤及实施例一一对应，故在此不再赘述。

本申请实施例所述的语音翻译系统可以实现本申请所述的语音翻译方法，但本申请所述的语音翻译方法的实现装置包括但不限于本实施例列举的语音翻译系统的结构，凡是根据本申请的原理所做的现有技术的结构变形和替换，都包括在本申请的保护范围内。

本申请实施例还提供一种语音翻译模型的训练方法，包括：

获取训练源语音、所述训练源语音对应的参考目标语音、所述参考目标语音对应的参考目标文本；利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量；向量化所述参考目标文本，以生成参考目标文本向量；根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练。

需要说明的是，本实施例与上述步骤S100至步骤S130的实施例一一对应，故此处不再赘述。

如图5所示，本申请实施例提供一种电子设备，所述电子设备包括：

存储器42，存储有一计算机程序。

处理器41，与所述存储器42通信相连，调用所述计算机程序时执行上述任一项所述的语音翻译方法和/或上述语音翻译模型的训练方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置或方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，模块/单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或单元可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的，作为模块/单元显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如，在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中，也可以是各个模块/单元单独物理存在，也可以两个或两个以上模块/单元集成在一个模块/单元中。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性（non-transitory）介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带（magnetic tape），软盘（floppy disk），光盘（optical disc）及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如数字视频光盘（digital video disc，DVD））、或者半导体介质（例如固态硬盘（solid state disk，SSD））等。

本申请实施例还可以提供一种计算机程序产品，所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品被计算机执行时，所述计算机执行前述方法实施例所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

综上所述，本申请提供的语音翻译和模型训练方法、系统和电子设备具有处理速度快、资源占用少、适用范围广等优点；可以端到端地将源语音翻译为目标语音，不需要进行中间的文字转录和翻译操作，大大减少了处理时间和资源消耗；能够实现对于方言、少数民族语言等的准确翻译，不受方言、口音等因素的影响，具有更广泛的普适性；采用了多层感知器，并结合了注意力机制技术，提高了翻译质量和泛化能力；可以自适应地学习和调整模型参数，以适应不同的语音翻译任务和数据集。

上述实施例仅例示性说明本申请的原理及其功效，而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本申请的权利要求所涵盖。

Claims

1.一种语音翻译方法，其特征在于，包括：

输入待翻译源语音；

利用训练好的语音翻译模型对所述待翻译源语音进行处理，以生成目标语音，其中，所述语音翻译模型为端到端的深度生成模型；

输出所述目标语音；

利用训练好的语音翻译模型对所述待翻译源语音进行处理，以生成目标语音包括：

将所述待翻译源语音转换为连续特征向量；

量化所述连续特征向量，以生成离散特征向量；

重构所述离散特征向量，以生成所述目标语音；

将所述待翻译源语音转换为连续特征向量包括：

确定与所述待翻译源语音对应的源频谱序列；

对所述源频谱序列进行下采样，以获取下采样序列；

采用第一注意力策略和第一多层感知策略对所述下采样序列进行处理，以生成所述连续特征向量。

2.根据权利要求1所述的语音翻译方法，其特征在于，重构所述离散特征向量，以生成目标语音包括：

对所述离散特征向量进行上采样，以获取上采样序列；

采用第二注意力策略和第二多层感知策略对所述上采样序列进行处理，以生成目标语音特征向量；

语音合成所述目标语音特征向量，以生成所述目标语音。

3.根据权利要求1所述的语音翻译方法，其特征在于，所述语音翻译模型的训练方法包括：

获取训练源语音、所述训练源语音对应的参考目标语音、所述参考目标语音对应的参考目标文本；

利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量；

向量化所述参考目标文本，以生成参考目标文本向量；

根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练。

4.根据权利要求3所述的语音翻译方法，其特征在于，利用语音翻译模型对所述训练源语音和所述参考目标语音进行处理，以生成预测目标语音和中间离散向量包括：

确定所述训练源语音的频谱序列，以生成第一训练源序列；

确定所述参考目标语音的频谱序列，以生成第二训练源序列；

对所述第一训练源序列进行下采样以生成第一采样序列，对所述第二训练源序列进行下采样以生成第二采样序列；

采用第一注意力策略和第一多层感知策略对所述第一采样序列进行处理以生成第一连续特征向量，对所述第二采样序列进行处理以生成第二连续特征向量；

量化所述第一连续特征向量和所述第二连续特征向量，以生成所述中间离散向量；

对所述中间离散向量进行上采样以生成第三采样序列；

采用第二注意力策略和第二多层感知策略对所述第三采样序列进行处理以生成预测目标语音的特征向量；

语音合成所述预测目标语音的特征向量，以生成所述预测目标语音。

5.根据权利要求3所述的语音翻译方法，其特征在于，根据所述参考目标语音、所述预测目标语音、所述中间离散向量和所述参考目标文本向量对所述语音翻译模型进行训练包括：

基于所述参考目标语音和所述预测目标语音生成第一损失函数；

基于所述参考目标文本向量和所述中间离散向量生成第二损失函数；

联合所述第一损失函数和所述第二损失函数，以生成联合损失函数；

基于所述联合损失函数对所述语音翻译模型进行训练。

6.一种语音翻译系统，其特征在于，包括输入单元、语音翻译模型和输出单元；

所述输入单元用于输入待翻译源语音；

所述语音翻译模型为端到端的深度生成模型，用于对所述待翻译源语音进行处理，以生成目标语音；

所述输出单元用于输出所述目标语音；

所述语音翻译模型包括转换器、量化器和逆变器；

所述转换器用于将所述待翻译源语音转换为连续特征向量；

所述量化器用于量化所述连续特征向量，以生成离散特征向量；

所述逆变器用于重构所述离散特征向量，以生成所述目标语音；

所述转换器将所述待翻译源语音转换为连续特征向量包括：

确定与所述待翻译源语音对应的源频谱序列；

对所述源频谱序列进行下采样，以获取下采样序列；

7.一种语音翻译模型的训练方法，其特征在于，包括：

向量化所述参考目标文本，以生成参考目标文本向量；

8.一种电子设备，其特征在于，所述电子设备包括：

存储器，存储有一计算机程序；

处理器，与所述存储器通信相连，调用所述计算机程序时执行权利要求1至5中任一项所述的语音翻译方法和/或权利要求7所述的语音翻译模型的训练方法。