CN111326157B

CN111326157B - 文本生成方法、装置、电子设备和计算机可读介质

Info

Publication number: CN111326157B
Application number: CN202010067770.3A
Authority: CN
Inventors: 李磊; 王明轩; 董倩倩
Original assignee: Douyin Vision Co Ltd
Current assignee: Douyin Vision Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2023-09-08
Anticipated expiration: 2040-01-20
Also published as: CN111326157A

Abstract

本公开的实施例公开了文本生成方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：获取源语言的待处理语音；将源语言的待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括一级编码器和二级编码器，一级编码器用于提取待处理语音的声学特征，二级编码器用于提取待处理语音的语义特征。该实施方式实现了提高文本生成质量。

Description

文本生成方法、装置、电子设备和计算机可读介质

技术领域

本公开的实施例涉及计算机技术领域，具体涉及文本生成方法、装置、电子设备和计算机可读介质。

背景技术

近年来，端到端的语音翻译引起了广泛的关注。它直接将源语言的语音翻译成目标语言的文本。与基于单独训练的语音识别和翻译组件的传统管道式(pipeline)系统相比，端到端的语音翻译系统仍然存在性能上的差距。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了文本生成方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题。

第一方面，本公开的一些实施例提供了一种文本生成方法，包括：获取源语言的待处理语音；将待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括第一编码器和第二编码器，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。

第二方面，本公开的一些实施例提供了一种文本生成装置，包括：获取单元，被配置成获取源语言的待处理语音；语音处理单元，被配置成将待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括第一编码器和第二编码器，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。

第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任一的方法。

第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述任一的方法。

本公开的上述各个实施例中的一个实施例具有如下有益效果：提出了一种全新的源语言的语音到目标语言的文本的生成方法。在此过程中，通过两级编码器分别提取声学特征和语义特征，从而在性能上与传统的管道式系统相当，同时克服了管道式系统的长延时、参数冗余、误差积累和语音特征损失的缺点。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1是根据本公开的一些实施例的文本生成方法的一个应用场景的示意图；

图2是根据本公开的文本生成方法的一些实施例的流程图；

图3是根据本公开的一些实施例中的通过转换层构建的端到端语音翻译模型的一个示例性结构示意图；

图4是根据本公开的文本生成方法的另一些实施例的流程图；

图5是根据本公开的一些实施例中的端到端语音翻译模型的一种示例性的训练方法的流程图；

图6是根据本公开的一些实施例中基于时序分类损失函数计算一级编码器的实际输出与期望输出的差值的示例性示意图；

图7是根据本公开的一些实施例中基于预设的损失函数计算输出向量与编码向量之间的差异的两种示例性方式；

图8是根据本公开的文本生成装置的一些实施例的结构示意图；

图9是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

传统的语音到文本翻译通常使用自动语音识别和机器翻译的管道式系统。然而，管道式系统具有长时延、参数冗余、误差积累以及语音特征损失等缺点。此外，自动语音识别和机器翻译是两个单独的系统，需要大规模的训练集。

近年来，端到端语音翻译受到广泛的关注，其将源语言形式的语音直接翻译成目标语言形式的文本。端到端语音翻译能够有效地避免传统的管道式系统所存在的问题，然而，由于极度缺乏的数据以及源语音与目标文本之间的相对深的关系，导致端到端语音翻译系统的性能通常不如管道式系统。

本公开提供了一种端到端的语音翻译方案，对于输入的语音信号，采用两级编码过程，第一级为声学特征提取阶段，在该阶段，学习局部的单调注意力关系。第二级为语义信息提取阶段，在该阶段，建模上下文感知特征。为了补偿端到端训练语料的匮乏，本公开将时序分类损失引入到声学编码阶段，将BERT预训练的表示引入到语义编码阶段，来作为监督信息。

下面将参考附图并结合实施例来详细说明本公开。

图1是根据本公开一些实施例的文本生成方法的一个应用场景的示意图。

本公开的一些实施例提供的文本生成方法可以由终端设备执行，也可以由服务器执行。需要说明的是，终端设备可以是硬件，也可以是软件。当终端设备为硬件时，可以各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、车载终端等等。当终端设备为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器也可以是硬件或软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

如图1所示，在本应用场景下，文本生成方法的执行主体可以是电子设备或其上安装的翻译类软件等。源语言以英语为例，目标语言以法语为例。在此基础上，执行主体可以首先获取源语言的待处理语音101，即语音“i know that i belong to it”。在此基础上，将待处理语音101输入端到端语音翻译模型102，从而得到待处理语音101对应的法语的文本107，即“Je sais que j'y appartiens”。其中，端到端语音翻译模型102包括编码器103和解码器104，编码器103包括第一编码器105和第二编码器106，第一编码器105用于提取待处理语音的声学特征，第二编码器106用于提取待处理语音的语义特征。

继续参考图2，示出了根据本公开的文本生成方法的一些实施例的流程200。该文本生成方法，包括以下步骤：

步骤201，获取源语言的待处理语音。

在一些实施例中，文本生成方法的执行主体可以首先从本地或通信连接的电子设备中获取源语言的待处理语音。作为示例，用户可以通过智能手机等终端输入待处理语音。在此基础上，终端可以将用户输入的待处理语音上传至上述执行主体。其中，源语言可以是各种语言。

步骤202，将待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本。

在一些实施例中，上述执行主体可以将源语言的待处理语音输入端到端语音翻译模型。其中，端到端语音翻译模型可以是预先训练的多层神经网络。实践中，文本生成模型一般可以包括编码器和解码器。根据实际需要，编码器和解码器可以是多种不同的结构。作为示例，可以采用一个RNN(Recurrent Neural Network，循环神经网络)作为编码器，一个RNN作为解码器。其中，编码器可以对输入的内容进行特征提取，得到特征向量。在此基础上，将所提取的特征向量输入解码器，从而得到对应的输出文本。

在一些实施例中，编码器可以包括第一编码器和第二编码器，以分别提取所输入的语音的不同特征。例如，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。实践中，第一编码器和第二编码器的网络结构可以根据实际需要进行构建。作为示例，第一编码器和第二编码器都可以是一个RNN网络。

在一些实施例的一些可选的实现方式中，第一编码器和第二编码器均可以由多层的转换层堆叠而成。也就是说，第一编码器和第二编码器均包括至少一层转换层。其中，每层转换层(transformer)可以包括多头注意力网络和前馈网络。当然，根据实际需要，转换层还可以包括残差连接和标准化层等等。在这些实现方式中，通过转换层构建模型，与通过其他方式构建模型(例如RNN)，在提高模型性能的同时加快了训练速度。

在一些实施例的一些可选的实现方式中，解码器包括至少一层转换层和额外的多头注意力网络。其中，额外的多头注意力网络用于计算编码器所输出的、待处理语音的编码向量与当前位置之前的解码文本之间的注意力。

图3示出了通过转换层构建的端到端语音翻译模型的一个示例性结构示意图。其中，端到端语音翻译模型301包括编码器302和解码器303。其中，编码器302包括第一编码器304和第二编码器305。第一编码器304包括A层转换层，第二编码器305包括T层转换层，解码器303包括D层转换层以及额外的多头注意力网络。可以理解，为便于说明，图3中只示出了模型的主要结构，根据实现需要，模型还可以包括线性网络、softmax层、标准化层等结构。实践中，A、T、D的具体数值可以根据实际需要进行设定。

本公开的一些实施例提供的文本生成方法，提出了一种全新的源语言的语音到目标语言的文本的生成方法。在此过程中，通过两级编码器分别提取声学特征和语义特征，从而在性能上与传统的管道式系统相当，同时克服了管道式系统的长延时、参数冗余、误差积累和语音特征损失的缺点。

进一步参考图4，其示出了文本生成方法的另一些实施例的流程400。该文本生成方法，包括以下步骤：

步骤401，获取源语言的待处理语音。

步骤402，将待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括第一编码器和第二编码器，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。

其中，步骤402包括以下子步骤：

步骤4021，提取待处理语音的特征序列。

在一些实施例中，文本生成方法的执行主体可以通过各种方法提取待处理语音的特征序列。具体来说，可以首先对待处理语音进行预处理，可以包括但不限于：分帧、预增强、加窗、添加随机噪声等等处理。在此基础上，可以通过各种不同的特征提取方法得到特征序列。例如，可以通过快速傅里叶变换(FFT)、计算能量谱、Mel滤波等步骤提取FBank。又如，可以通过提取语谱图、log-Mel滤波器组、离散余弦变换(DCT)等步骤提取梅尔倒谱系数(MFCC)。当然，根据实际需要，也可以采用其他的特征提取方法，包括多种特征提取方式的组合使用，从而得到特征序列。

步骤4022，对特征序列进行线性变换以使特征序列的长度与端到端语音翻译模型的维度相匹配，得到变换后特征序列。

在一些实施例中，作为示例，上述执行主体可以对特征序列进行线性变换以使特征序列的长度与端到端语音翻译模型的维度相匹配，得到变换后特征序列。

可选的，根据实际需要，还可以应用帧堆栈和下采样，以防止GPU内存溢出并根据序列长度生成适当的隐藏表示长度。

步骤4023，将位置编码加入变换后特征序列，得到输入特征序列。

在一些实施例中，上述执行主体可以将位置编码加入变换后特征序列，得到输入特征序列。其中，位置编码可以用于表征输入特征序列中的各个元素的顺序关系。根据实际需要，位置编码可以采用绝对位置编码，也可以采用相同位置编码。计算位置编码的方式也各不相同。例如，可以通过正余弦函数来计算位置编码。一般认为transformer无法编码输入的序列的顺序性。因此，通过引入位置编码使得得到的输入特征序列中包含了语音的特征序列在时间维度的顺序信息，最终提高输出文本的准确率。

步骤4024，将输入特征序列输入端到端语音翻译模型。

在一些实施例中，端到端语音翻译模型的具体实现及其所带来的技术效果可以参考图2对应的实施例，在此不再赘述。

在一些实施例中，通过加入位置编码，使得得到的输入特征序列中包含了语音的特征序列在时间维度的顺序信息，最终提高输出文本的准确率。

进一步参考图5，其示出了端到端语音翻译模型的一种示例性的训练方法的流程，该训练方法包括以下步骤：

步骤501，获取训练样本集，训练样本集中的训练样本为包括样本语音、样本语音对应的源语言样本文本、样本语音对应的目标语言样本文本的三元组。

步骤502，构建初始模型。

在一些实施例中，可以根据实际需要构建初始模型。初始模型的模型结构包括编码器和解码器，编码器包括第一编码器和第二编码器。作为示例，可以是按照图3所示的结构构建初始模型。当然，也可以采用其他的方式，例如，第一编码器、第二编码器和解码器均可以采用RNN。此外，初始模型的初始参数可以随机设置或者采用预训练的参数。对此，本公开不作限定。

步骤503，基于训练样本集对初始模型进行训练。

在一些实施例中，可以采用各种机器学习的训练方法对初始模型进行训练。例如，可以采用反向传播、随机梯度下降等方式对初始模型的参数进行不断的优化。当满足训练结束条件时，可以得到端到端语音翻译模型。

作为示例，可以通过以下步骤对初始模型进行训练：

第一步，从训练样本集中选取一个训练样本，将该训练样本中的样本语音作为第一编码器的输入，得到第一编码器的实际输出。

在一些实施例中，可以将该训练样本中的样本语音对应的源语言样本文本作为第一编码器的期望输出。其中，可以基于时序分类损失函数(CTC，Connectionist temporalclassification)计算第一编码器的实际输出与期望输出的差值，作为第一损失值。具体的，作为示例，可以将第一编码器的实际输出输入投影(Projection)网络和softmax层。在此基础上，通过CTC损失对softmax层进行监督。

如图6所示，示出了基于时序分类损失函数计算第一编码器的实际输出与期望输出的差异的示例性示意图。其中，输入的样本语音601为“i know that i belong to it”。输入的样本语音对应的源语言样本文本602为“i know that i belong to it”。可以基于CTC损失计算softmax层的输出与输入的样本语音601对应的源语言样本文本602之间的差异。

在此过程中，通过将时序分类(CTC)损失引入到声学编码阶段，作为第一编码器的强监督，可以对第一编码器进行有效训练，以准确的提取输入的语音的声学特征。与其余的损失函数相比，通过引入CTC，避免了对样本进行切割，从而提高训练效率。

第二步，将第一编码器的实际输出输入第二编码器，得到编码向量。

第三步，将该训练样本中的样本语音对应的源语言样本文本输入预先训练的文本嵌入模型，得到输出向量。

可以理解，第二步和第三步并不对步骤的发生顺序进行限定，两个步骤可以先后发生(第二步和第三步任一先发生，另一后发生)，也可以同时发生等。

在一些实施例中，作为示例，文本嵌入模型可以采用BERT模型(BidirectionalEncoder Representations from Transformers)。BERT模型是一个预训练的公开模型。BERT模型的输入以字符“CLS”开头。举例来说，输入可以是“CLS I like my dog”。从而得到对应的输出向量可以是“C T1 T2 T3 T4”。输出向量包括文本向量和标记符向量。例如，文本向量可以是“T1 T2 T3 T4”，标记符向量可以是“C”。实践中，输出向量可以是一个序列，而标记符向量可以是序列中的第一个元素。

在此基础上，可以基于预设损失函数计算输出向量与编码向量之间的差异(距离)。

在一些实施例中，预设损失函数可以是各种各样的损失函数，作为示例，可以是均方差(MSE，mean squared error)损失、平均成对平方误差(MPSE，mean pairwise squarederror)损失等等。

具体来说，可以通过多种方式基于预设损失函数计算输出向量与编码向量之间的差异(距离)。

作为示例，可以参考图7，示出了基于预设损失函数计算输出向量与编码向量之间的差异的两种示例性方式。为便于说明，在图7中以输入的样本语音为“i know that ibelong to it”为例，输入的样本语音对应的源语言样本文本为“i know that i belongto it”。此时，BERT的输入为“CLS i know that i belong to it”。

第一种方式：可以将编码向量701输入卷积网络702，得到类别编码向量703。其中，卷积网络702的具体结构可以根据实际需要进行构建。作为示例，如图7所示，可以包括卷积层、标准化层(normalization layer)、池化层。在此基础上，基于预设损失函数计算类别编码向量703与标记符向量704(作为示例，图中“C”为标记符向量)之间的差异，作为第二损失值。

第二种方式：可以将编码向量701输入多头注意力网络705，得到内容编码向量706。基于预设损失函数计算内容编码向量706与文本向量707(作为示例，图中“T₁…T_m”为文本向量707)之间的差异，作为第二损失值。

在这些实现方式中，编码器的输入是未分段的序列数据，这使得我们无法直接使用文本嵌入模型(例如BERT)。语音帧特征的长度通常比相应转录本(输入的样本语音对应的源语言样本文本)的长度长得多。而且由于空白帧的存在，我们认为全局帧级语义信息的监督是不合理的，因而引入卷积网络或多头注意力网络作为特征提取器，使得利用文本嵌入模型(例如BERT)作为监督成为可能。

第四步，将输出向量输入解码器，得到解码文本。

在一些实施例中，可以基于预设损失函数计算解码文本与输入的样本语音对应的目标语言样本文本之间的差异，得到第三损失值。

第五步，基于第一损失值、第二损失值、第三损失值的加权和，采用机器学习的方法，对模型的参数进行调整，直至训练结束，从而得到端到端语音翻译模型。

在一些实施例中，可以采用反向传播、随机梯度下降等方法，对模型的参数进行调整。当满足训练结束条件时，结束训练，得到端到端语音翻译模型。其中，训练结束条件可以包括但不限于：训练迭代次数大于预设次数；第一损失值、第二损失值、第三损失值的加权和小于预设阈值等等。

在一些实施例中，通过将时序分类(CTC)损失引入到声学编码阶段，作为第一编码器的强监督，可以对第一编码器进行有效训练，以准确的提取输入的语音的声学特征。与其余的损失函数相比，通过引入CTC，避免了对样本进行切割，从而提高训练效率。此外，在语义编码阶段引入预先训练的文本嵌入模型(例如BERT)，作为第二编码器的弱监督，可以对第二编码器进行有效训练，实现对预先训练的语义的迁移。与此同时，还可以弥补训练样本数量的不足。另外，通过基于三个损失值联合学习，实现模型的整体优化，提高端到端的语音翻译模型的性能，进而提高生成文本的质量。

进一步参考图8，作为对上述各图所示方法的实现，本公开提供了一种文本生成装置的一些实施例，这些装置实施例与图2所示的那些方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，一些实施例的文本生成装置800包括：获取单元801和语音处理单元802。其中，获取单元801被配置成获取源语言的待处理语音。语音处理单元802被配置成将源语言的待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括第一编码器和第二编码器，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。

在一些实施例的可选实现方式中，端到端语音翻译模型的训练样本集中的训练样本为包括样本语音、样本语音对应的源语言样本文本、样本语音对应的目标语言样本文本的三元组。

在一些实施例的可选实现方式中，第一编码器通过以下步骤训练得到：将训练样本中的样本语音作为输入，将与输入的样本语音对应的源语言样本文本作为期望输出，基于时序分类损失函数进行训练。

在一些实施例的可选实现方式中，第二编码器通过以下步骤训练得到：将训练样本中的样本语音对应的源语言样本文本输入预先训练的文本嵌入模型，得到输出向量，输出向量包括文本向量和标记符向量；将训练样本中的样本语音输入编码器，得到编码向量；基于预设损失函数计算编码向量与输出向量之间的差异；基于计算得到的差异进行训练，得到第二编码器。

在一些实施例的可选实现方式中，基于预设损失函数计算编码向量与输出向量之间的差异，包括：将编码向量输入卷积网络，得到类别编码向量；基于预设损失函数计算类别编码向量与标记符向量之间的差异。

在一些实施例的可选实现方式中，基于预设损失函数计算编码向量与输出向量之间的差异，包括：将编码向量输入多头注意力网络，得到内容编码向量；基于预设损失函数计算内容编码向量与文本向量之间的差异。

在一些实施例的可选实现方式中，第一编码器和第二编码器包括至少一层转换层，至少一层转换层中的转换层包括多头注意力网络和前馈网络。

在一些实施例的可选实现方式中，解码器包括至少一层转换层和额外的多头注意力网络，其中，额外的多头注意力网络用于计算编码器所输出的、待处理语音的编码向量与当前位置之前的解码文本之间的注意力。

在一些实施例的可选实现方式中，语音处理单元802进一步被配置成：提取待处理语音的特征序列；对特征序列进行线性变换以使特征序列的长度与端到端语音翻译模型的维度相匹配，得到变换后特征序列；将位置编码加入变换后特征序列，得到输入特征序列；将输入特征序列输入端到端语音翻译模型。

在一些实施例中，提出了一种全新的源语言的语音到目标语言的文本的生成装置。在此过程中，通过两级编码器分别提取声学特征和语义特征，从而在性能上与传统的管道式系统相当，同时克服了管道式系统的长延时、参数冗余、误差积累和语音特征损失的缺点。

下面参考图9，其示出了适于用来实现本公开的一些实施例的电子设备900的结构示意图。本公开的一些实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储装置908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图9中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理装置901执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取源语言的待处理语音；将源语言的待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括第一编码器和第二编码器，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元和语音处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，语音处理单元还可以被描述为“将源语言的待处理语音输入端到端语音翻译模型的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

根据本公开的一个或多个实施例，提供了一种文本生成方法，包括：获取源语言的待处理语音；将源语言的待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括第一编码器和第二编码器，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。

根据本公开的一个或多个实施例，端到端语音翻译模型的训练样本集中的训练样本为包括样本语音、样本语音对应的源语言样本文本、样本语音对应的目标语言样本文本的三元组。

根据本公开的一个或多个实施例，第一编码器通过以下步骤训练得到：将训练样本中的样本语音作为输入，将与输入的样本语音对应的源语言样本文本作为期望输出，基于时序分类损失函数进行训练。

根据本公开的一个或多个实施例，第二编码器通过以下步骤训练得到：将训练样本中的样本语音对应的源语言样本文本输入预先训练的文本嵌入模型，得到输出向量，输出向量包括文本向量和标记符向量；将训练样本中的样本语音输入编码器，得到编码向量；基于预设损失函数计算编码向量与输出向量之间的差异；基于计算得到的差异进行训练，得到第二编码器。

根据本公开的一个或多个实施例，基于预设损失函数计算编码向量与输出向量之间的差异，包括：将编码向量输入卷积网络，得到类别编码向量；基于预设损失函数计算类别编码向量与标记符向量之间的差异。

根据本公开的一个或多个实施例，其中基于预设损失函数计算编码向量与输出向量之间的差异，包括：将编码向量输入多头注意力网络，得到内容编码向量；基于预设损失函数计算内容编码向量与文本向量之间的差异。

根据本公开的一个或多个实施例，第一编码器和第二编码器包括至少一层转换层，至少一层转换层中的转换层包括多头注意力网络和前馈网络。

根据本公开的一个或多个实施例，解码器包括至少一层转换层和额外的多头注意力网络，其中，额外的多头注意力网络用于计算编码器所输出的、待处理语音的编码向量与当前位置之前的解码文本之间的注意力。

根据本公开的一个或多个实施例，将源语言的待处理语音输入端到端语音翻译模型，包括：提取待处理语音的特征序列；对特征序列进行线性变换以使特征序列的长度与端到端语音翻译模型的维度相匹配，得到变换后特征序列；将位置编码加入变换后特征序列，得到输入特征序列；将输入特征序列输入端到端语音翻译模型。

根据本公开的一个或多个实施例，提供了一种文本生成装置，包括：语音处理单元，被配置成将源语言的待处理语音输入端到端语音翻译模型，得到待处理语音对应的目标语言的文本，其中，端到端语音翻译模型包括编码器和解码器，编码器包括第一编码器和第二编码器，第一编码器用于提取待处理语音的声学特征，第二编码器用于提取待处理语音的语义特征。

根据本公开的一个或多个实施例，根据本公开的一个或多个实施例，端到端语音翻译模型的训练样本集中的训练样本为包括样本语音、样本语音对应的源语言样本文本、样本语音对应的目标语言样本文本的三元组。

根据本公开的一个或多个实施例，基于预设损失函数计算编码向量与输出向量之间的差异，包括：将编码向量输入多头注意力网络，得到内容编码向量；基于预设损失函数计算内容编码向量与文本向量之间的差异。

根据本公开的一个或多个实施例，语音处理单元进一步被配置成：提取待处理语音的特征序列；对特征序列进行线性变换以使特征序列的长度与端到端语音翻译模型的维度相匹配，得到变换后特征序列；将位置编码加入变换后特征序列，得到输入特征序列；将输入特征序列输入端到端语音翻译模型。

根据本公开的一个或多个实施例，提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如上述任一的方法。

根据本公开的一个或多个实施例，提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现如上述任一的方法。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本生成方法，包括：

获取源语言的待处理语音；

将所述待处理语音输入端到端语音翻译模型，得到所述待处理语音对应的目标语言的文本，其中，所述端到端语音翻译模型包括编码器和解码器，所述编码器包括第一编码器和第二编码器，所述第一编码器用于提取所述待处理语音的声学特征，所述第二编码器用于提取所述待处理语音的语义特征；所述第二编码器是基于输出向量与编码向量的差异训练得到的，所述输出向量是将训练样本中的样本语音对应的源语言样本文本输入预先训练的文本嵌入模型得到的，所述编码向量是将所述训练样本中的样本语音输入所述编码器得到的；所述输出向量包括文本向量和标记符向量。

2.根据权利要求1所述的方法，其中，所述端到端语音翻译模型的训练样本集中的训练样本为包括样本语音、样本语音对应的源语言样本文本、样本语音对应的目标语言样本文本的三元组。

3.根据权利要求2所述的方法，其中，所述第一编码器通过以下步骤训练得到：

将训练样本中的样本语音作为输入，将与输入的样本语音对应的源语言样本文本作为期望输出，基于时序分类损失函数进行训练。

4.根据权利要求1所述的方法，其中，所述编码向量与所述输出向量之间的差异通过以下步骤得到：

将所述编码向量输入卷积网络，得到类别编码向量；

基于预设损失函数计算所述类别编码向量与所述标记符向量之间的差异。

5.根据权利要求1所述的方法，其中，所述编码向量与所述输出向量之间的差异通过以下步骤得到：

将所述编码向量输入多头注意力网络，得到内容编码向量；

基于预设损失函数计算所述内容编码向量与所述文本向量之间的差异。

6.根据权利要求1所述的方法，其中，所述第一编码器和所述第二编码器均包括至少一层转换层，所述至少一层转换层中的转换层包括多头注意力网络和前馈网络。

7.根据权利要求6所述的方法，其中，所述解码器包括至少一层转换层和额外的多头注意力网络，其中，所述额外的多头注意力网络用于计算所述编码器所输出的、所述待处理语音的编码向量与当前位置之前的解码文本之间的注意力。

8.根据权利要求1所述的方法，其中，所述将所述待处理语音输入端到端语音翻译模型，包括：

提取所述待处理语音的特征序列；

对所述特征序列进行线性变换以使所述特征序列的长度与所述端到端语音翻译模型的维度相匹配，得到变换后特征序列；

将位置编码加入所述变换后特征序列，得到输入特征序列；

将所述输入特征序列输入所述端到端语音翻译模型。

9.一种文本生成装置，包括：

获取单元，被配置成获取源语言的待处理语音；

语音处理单元，被配置成将所述待处理语音输入端到端语音翻译模型，得到所述待处理语音对应的目标语言的文本，

其中，所述端到端语音翻译模型包括编码器和解码器，所述编码器包括一级编码器和二级编码器，所述一级编码器用于提取所述待处理语音的声学特征，所述二级编码器用于提取所述待处理语音的语义特征；所述二级编码器是基于输出向量与编码向量的差异训练得到的，所述输出向量是将训练样本中的样本语音对应的源语言样本文本输入预先训练的文本嵌入模型得到的，所述编码向量是将所述训练样本中的样本语音输入所述编码器得到的；所述输出向量包括文本向量和标记符向量。

10.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。