CN112037768A

CN112037768A - 语音翻译方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN112037768A
Application number: CN201910906754.6A
Authority: CN
Inventors: 涂眉; 刘炜; 张帆; 刘松
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecom R&D Center; Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2019-05-14
Filing date: 2019-09-24
Publication date: 2020-12-04

Abstract

本申请提供了一种语音翻译方法、装置、电子设备及计算机可读存储介质，该方法包括：将待翻译语音信号进行切分，并提取切分后的每个语音片段的语音特征；对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果；对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本。基于本申请实施例所提供的方案，至少能够提高翻译准确性和翻译效率中的至少一个方面。

Description

语音翻译方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种语音翻译方法、装置、电子设备及计算机可读存储介质。

背景技术

语音翻译，即将一种语言的语音翻译成另一种语言的文本，而随着信息国际化时代的到来和各种社会需求的提高，语音翻译已经在人们的生活中的一个重要部分，语音翻译技术的研究也受到越来越广泛的关注。虽然目前已经有各种不同的实现语音翻译的方案，但是现有技术中语音翻译结果的准确性仍有待提高。

发明内容

本申请的目的旨在提供了一种语音翻译方法、装置、电子设备及计算机可读存储介质，基于本申请实施例提供的该方案，至少能够有效提高语音翻译结果的准确性和语音翻译速度中的至少一项。为实现该目的，本申请提供的技术方案如下：

第一方面，本申请实施例提供了一种语音翻译方法，该方法包括：

将待翻译语音信号进行切分，并提取切分后的每个语音片段的语音特征；

对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果；

对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本。

第二方面，本申请实施例提供了一种语音翻译装置，该装置包括：

语音特征提取模块，用于将待翻译语音信号进行切分，并提取切分后的每个语音片段的语音特征；

编码模块，用于对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果；

解码模块，用于对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于调用该计算机程序，以执行本申请第一方面中所提供的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序被处理器执行时实现本申请第一方面中所提供的方法。

本申请所提供的技术方案的有益效果将在后文中结合具体实施例以及附图进行详细的描述，在此不在介绍。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1示出了现有的一种语音编码系统的结构示意图；

图2a示出了现有的一种语音编码器的结构示意图；

图2b示出了现有语音激活检测单元切换语音片段的示意图；

图3示出了本申请实施例提供的一种语音翻译方法的流程示意图；

图4示出了本申请一示例中提供的一种重切分器的工作原理示意图；

图5示出了本申请另一示例中提供的一种重切分器的工作原理示意图；

图6a和图6b分别示出了本申请示例中提供的两种对语音特征进行语音编码处理的流程示意图；

图7a示出了本申请一示例中提供的一种卷积网络的结构示意图；

图7b示出了本申请另一示例中提供的一种卷积网络的结构示意图；

图8示出了本申请一示例中提供的一种采样层的结构示意图；

图9示出了本申请实施例提供的一种因果注意力机制的结构示意图；

图10示出了本申请一示例中提供的一种语音翻译系统的总体架构示意图；

图11a示出了本申请另一示例中提供的一种语音翻译系统的结构示意图；

图11b示出了本申请另一示例中提供的一种语音编码系统的语音编码器和文本解码器的结构示意图；

图12示出了本申请一实施例提供的一种语音翻译装置的结构示意图；

图13示出了本申请另一实施例中提供的一种语音翻译装置的结构示意图；

图14示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面对现有语音翻译方案进行简单的介绍。

图1中示出了现有的一种端到端的语音翻译方案的流程示意图，如图中所示，该方案的主要流程为：待翻译的语音信号首先通过语音激活检测将包含说话的语音片段切分成语音片段，并对切分后的语音片段进行特征提取，对每一段语音片段生成语音特征。语音特征经过语音编码器和文本解码器后生成目标语言的文本(图中所示的目标端文本)。

图2a中示出了现有常用的语音编码器的结构示意图，如图中所示，语音编码器包括卷积网络层和双向长短时记忆(Bi-directional Long Short-Term Memory，BiLSTM)层，卷积网络层采用了一层或者多层的卷积网络，其中，每一层的输出结果为该层提取出的语音特征，每一层的核窗口大小(图中所示的filter size)即卷积核的大小是固定的，如图2a中所示的两层卷积层，第一层的核窗口大小为k1，第二层的核窗口的大小为k2。双向长短时记忆层在计算当前时刻隐层单元时都需要考虑前一时刻隐层单元，因此，时间复杂度跟输入时长成正比。

本申请的发明人通过研究发现，现有的语音翻译方案中至少存在以下几个方面的问题：

1.单纯的用语音激活检测单元对语音片段进行切分不能很好的保留片段的语义，这是因为：

语音激活检测单元一般根据说话者说话停顿来对语音片段进行切分，例如，会在说话者说话停顿的位置切分语音片段，那么该停顿位置可能为两个语音片段的边界位置，如图2b所示，语音激活检测单元检测到说话者在“停顿1”位置处发生了停顿，则在该处进行语音片段切分，得到片段1，以及检测到说话者在“停顿2”位置处发生了停顿，则在该处进行语音片段切分，得到片段2。

但是，在实际生活场景中，说话者在说长句的过程中往往会产生思考和停顿的时间，该时间段会造成一段完整的话语被切分成片段，每个片段包含的文本单元大多是短语或者词语，而非具有完整语义的句子。而从翻译的角度，基于短语或者词语的翻译因为脱离了上下文语境，不具备完整的语义，可能会造成翻译错误或者译文语义不完整，降低了语音翻译的准确度，因此现有技术切分得到的语音片段并不是很好的基本翻译单元。

2.语音编码器中卷积网络每一层的核窗口大小固定很有可能会损失部分语义信息，造成翻译错误，这是因为：

在相同时间内，语音片段所包含的语义信息会随着语速的变化而有明显的区别。语速快的语种，每秒钟所包含信息高于语速慢的语种。同理，语速快的说话者的语音每秒钟包含的语义信息也高于语速慢的说话者，甚至同一个说话者，语速也可能随着情境发生变化，单位时间内的语音所包含的语义信息也有所变化。所以，相同语义片段所需要的语音长短会随着语速变化，而固定核窗口大小不利于捕捉这种变化，从而造成语义信息的损失和翻译错误，降低了语音翻译的准确度。

3.双向长短时记忆网络结构的时间复杂度较高，不利于实时语音翻译。若输入的语音片段较长，那么编码时间也会随之增加，在实时语音翻译任务中，这种编码结构造并不合适。

为了解决现有技术中存在的上述至少一个技术问题，本申请实施例提供了一种语音翻译方法、装置、电子设备及计算机可读存储介质。为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图3示出了本申请实施例提供的一种语音翻译方法的流程示意图，如图中所示，该方法可以包括以下几个步骤：

步骤S110：将待翻译语音信号进行切分，并提取切分后的每个语音片段的语音特征；

步骤S120：对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果；

步骤S130：对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本。

在获取到待翻译语音信号后，可以通过语音激活检测(VAD，Voice ActivityDetection)技术将该语音信号切分成至少一个语音片段，并分别对每个语音片段进行语音特征的提取，得到每个语音片段的语音特征。其中，每个语音片段中包含一帧或多帧语音信号。

在提取到每个语音片段的语音特征之后，可以基于语音特征，通过语音编码器对语音特征进行编码处理，得到各语音片段的编码结果。其中，该编码结果也就是编码器的输出，是一隐层向量，也可以称为语音片段的语义向量。在得到编码结果之后，通过解码器对该向量进行解码，基于解码结果得到各语音片段所对应的目标语言的文本。目标语言也就是待翻译语音信号所要翻译成的语言，例如，需要将中文的语音信号翻译为英文，则中文即为该语音信号的源语言，英文即为该语音信号的目标语言。

本申请的可选实施例中，对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果，包括：

对于每个语音片段，确定该语音片段的前序语音片段的语义完整性；

若该语音片段的前序语音片段的语义不完整，则将该语音片段和该语音片段的前序语音片段进行合并，将合并后的语音片段所对应的语音特征进行语音编码，得到该语音片段的编码结果；

若该语音片段的前序语音片段的语义完整，则对该语音片段的语音特征进行语音编码，得到该语音片段的编码结果。

具体的，在对每个语音片段的语音特征进行编码前，可以首先根据该语音片段的前序语音片段的语义完整性，确定是否需要将该语音片段和该语音片段的前序语音片段进行重组；若需要重组，则将该语音片段和该语音片段的前序语音片段重组后的语音片段对应的语音特征进行语音编码，得到该语音片段的编码结果；若不需要重组，则对该语音片段的语音特征进行语音编码，得到该语音片段的编码结果。

可以理解的是，对于第一个语音片段，则直接根据该语音片段的语音特征进行语音编码即可。

具体的，根据该语音片段的前序语音片段的语义完整性，确定是否需要将该语音片段和该语音片段的前序语音片段进行重组(将语音片段和其前序语音片段进行重组，也可以称为将语音片段和其前序语音片段进行合并)，包括：

若该语音片段的前序语音片段的语义不完整，则确定需要将该语音片段和该语音片段的前序语音片段进行重组；若该语音片段的前序语音片段的语义完整，则确定不需要将该语音片段和该语音片段的前序语音片段进行重组。

具体的，将该语音片段和该语音片段的前序语音片段重组后的语音片段对应的语音特征进行语音编码，包括：

将该语音片段的语音特征和该语音片段的前序语音片段的语音特征进行合并(即将合并后的语音特征作为重组后的语音片段的语音特征)；对合并后的语音特征进行语音编码，得到该语音片段的编码结果。

也就是说，在需要将该语音片段和该语音片段的前序语音片段进行合并时，可以将该语音片段的语音特征和该语音片段的前序语音片段的语音特征进行合并，合并后的语音特征即为重组后的语音片段的语音特征。

作为另一可选方式，在需要将该语音片段和该语音片段的前序语音片段进行合并时，可以对合并后的语音片段重新进行语音特征的提取，对重新提取的语音特征进行语音编码，得到该语音片段的编码结果。

由前文描述可知，作为本申请的一可选实施例中，对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果，具体可以包括：

若该语音片段的前序语音片段的语义不完整，则将该语音片段的语音特征和该语音片段的前序语音片段的语音特征进行合并，对合并后的语音特征进行语音编码，得到该语音片段的编码结果；

该可选实施例中，在对每个语音片段的语音特征进行编码处理前，可以先根据该语音片段的前序语音片段的语义完整性，确定是否需要对该语音片段进行重组，即是否需要将该语音片段和其前序语音片段进行重组，也就是是否将该语音片段的语音特征和其前序语音片段的语音特征进行合并，若该语音片段的其前序语音片段的完整性较高，也就是说，该语音片段与其前序语音片段在语义上的关联性不是特别高，此时可以直接对该语音片段进行编码，若该语音片段的其前序语音片段的完整性不高，也就是说，该语音片段与其前序语音片段在语义上的关联性可能比较高，此时可以先将该语音片段和其前序语音片段进行重组，重组后的语音片段的语义信息更加完整，然后对重组后的语音片段的语音特征进行语音编码，得到该语音片段的编码结果，通过上述方案，可以保证后续进行翻译的基本翻译单元的语义完整性，保证了进行语音编码的语音特征的完整性，改善了由于语义不完整导致后续翻译错误的问题，提高了翻译结果的准确性。

可以理解的是，前序语音片段中的前序是时序上的概念，由于说话者说出的话本身是有先后顺序的，因此，各语音片段之间也是有时间上的先后的，对于一个语音片段，其前序语音片段指的就是时间上该语音片段之前的语义片段。其中，前序语音片段可以是该语音片段之前的上一个语音片段，也可以之前的多个语音片段，如该语音片段之前的、与该语音片段相邻的多个语音片段。作为一可选方案，前序语音片段可以采用该语音片段之前的上一个语音片段，即该语音片段的前一语音片段。

为了描述方便，本申请实施例中将在进行语音片段的处理时，当前在处理的一个语音片段称为当前语音片段，可以理解的是，该当前语音片段可以是切分得到的各语音片段中的任一片段。例如，一个待翻译语音信号按照时序被切分为2个语音片段，记为片段1和片段2，则在处理片段1时，片段1即为当前语音片段，在处理片段2时，片段2即为当前语音片段。

可以理解是，在当前语音片段为切分后的第一个语音片段(如上述片段1)时，该语音片段是不存在前序语音片段的，也就不需要判断是否需要合并，此时，则直接对该语音片段的语音特征进行编码即可。

本申请的可选实施例中，确定该语音片段的前序语音片段的语义完整性，包括以下至少一项：

根据该语音片段的前序语音片段的语义特征，确定该语音片段的前序语音片段的语义完整性；

根据该语音片段的语音特征和该语音片段的前序语音片段的语义特征，确定该语音片段的前序语音片段的语义完整性。

其中，语义特征指的是解码后的特征，是对应于目标语言的特征，也就是编码器的最后一个隐藏层的输出。作为可选的方案，可以通过神经网络来实现对语义完整性的判断。

下面结合两个示例对基于语义完整性的语音片段的方案进行进一步说明。

示例1

图4中示出了该示例中提供的一种基于语义完整性对语音片段进行处理的方案的流程示意图，该方案可以通过基于语义的重切分器实现，具体的，如图中所示，该重切分器可以包括基于译文的语义完整性分类器和片段生成器，其中，该分类器用于根据前序语音片段的语义特征(即图中所示的输出隐层h′，也就是解码器的最后一个隐藏层所输出的前序语音片段的隐藏状态)确定前序语音片段的语义完整性(即图中的语义完整度概率p)，片段生成器则用于根据分类器的确定结果确定是否对当前语音片段和当前语音片段的前序语音片段进行合并(也可以称为重组)，可以将语义完整度概率与设定阈值进行比较，根据比较结果确定是否对当前语音片段和当前语音片段的前序语音片段进行合并，例如，判段语义完整度概率是否小于设定阈值，若语义完整度概率小于设定阈值，则认为前序语片段的语义不完整，可以对当前语音片段和当前语音片段的前序语音片段进行合并，若语义完整度概率不小于设定阈值，则认为前序语片段的语义完整，可以不对当前语音片段和当前语音片段的前序语音片段进行合并。该示例中，分类器可以通过卷积网络实现，如图4中所示，该卷积网络可以包括卷积层和softmax层。

本示例中，经过语音激活检测切分得到的语音片段至少包括2个，即图中所示的片段1和片段2，下面结合图4对该示例中的重切分器的原理进行详细说明，该重切分器的具体运行步骤如下：

对于片段1，由于该片段是第一个片段即起始片段，该片段不存在前序语音片段，因此，重切分器的初始化参数为零，片段生成器直接输出片段1的语音特征，语音编码器根据片段1的语音特征直接进行语音编码。

对于片段2，其前序语音片段即为片段1，将片段1的解码器输出隐层h′输入至分类器的卷积层，并经过softmax层，得到语义完整性概率(图中所示的语义完整度概率)。片段生成器根据分类器输出的语义完整性概率p，来判断片段1的语义是否完整，具体的，如果p小于设定阈值(本示例中该阈值为0.5)，则说明片段1的语义不完整，需要合并片段1的语音特征和片段2的语音特征，将合并后的语音特征输入至语音编码器，如果p不小于设定阈值，则说明片段1的语义完整，可以不合并片段1和片段2，将片段2的语音特征直接输入至语音编码器。

需要说明的是，图中所示的输出片段是为了便于理解是否需要对当前语音片段的语音特征和前序语音片段的语音特征进行合并，片段生成器实际输出的为合并后的语音特征或者是未合并的语音特征。

示例2

图5中示出了该示例中提供的一种基于语义完整性对语音片段进行处理的方案的流程示意图，如图中所示，该示例中的重切分器可以包括基于语音和译文的联合分类器和片段生成器，该联合分类器替代了示例1中的基于译文的语义完整性分类器，该联合分类器用于根据当前语音片段的语音特征和其前序语音片段的解码输出隐层h′，判断前序语音片段的语义完整性。该示例中的联合分类器同样可以通过卷积网络实现，如图5中所示，该示例中的卷积网络可以包括两个子网络，一个子网络包括卷积层和映射层，该子网络用于对当前语音片段的语音特征进行特征提取及映射，另一个子网络包括卷积层和softmax层，该子网络用于根据映射层输出的特征向量(图中所示h″)和前序语音片段的解码输出隐层h′，判断前序语音片段的语义完整性。

下面结合图5对该示例中的重切分器的原理进行详细说明，该重切分器的具体运行步骤如下：

与示例1中相同，片段1是起始片段，片段生成器直接输出片段1的语音特征，语音编码器直接根据片段1的语音特征进行语音编码。

对于片段2，联合分类器将该片段2的语音特征通过卷积层进行降采样，然后通过映射层映射到一个向量空间，得到映射向量h″，将片段1的解码器输出隐层h′和映射向量h″在时间维度进行拼接后输入至卷积层，并经过softmax层，得到语义完整性概率p(即图中所示的语义完整度概率)，片段生成器则根据该语义完整性概率和设定阈值(该示例中为0.5)确定是否将片段1的语音特征和片段2的语音特征进行合并，具体的，若p小于0.5，则合并片段1的语音特征和片段2的语音特征，由语音编码器对合并后的语音特征进行编码，得到片段2所对应的编码结果，若p不小于0.5则输出片段2的语音特征。

本申请实施例所提供的该基于语义完整性对语音片段进行重切分的方案，利用了文本解码输出隐层包含了所有输出的语义信息的特点，对解码器输出隐层进行语义完整性判断，并在已有切分结果(VAD结果)的基础上进行语音片段的语音特征的重组，从而使得下一次解码的输入从语义的角度更完整，提高解码结果的准确性。

本申请的可选实施例中，对每个语音片段的语音特征进行语音编码，包括：

根据每个语音片段的语音特征，确定每个语音片段的特征向量；

基于每个语音片段的特征向量，得到每个语音片段的编码结果。

需要说明的是，在根据每个语音片段的语音特征确定每个语音片段的特征向量时，所采用的语音特征可以是在对待翻译语音信号进行切分得到语音片段时，所提取的该语音片段的语音特征，即上述步骤S110中所提取语音特征，如果在步骤S110之后，对该语音片段的前序语音片段的语义完整性进行了判断，则所采用的语音特征可以为基于判断结果所确定的特征，具体的，如果将该语音片段的语音特征和其前序语音片段的语音特征进行了合并，则在确定该特征向量时，所采用的该语音特征可以是合并后的特征，也就是将合并后的特征作为该语音片段的语音特征，如果未合并，则所采用的步骤S110中所提取的该语音片段的语音特征。

具体的，如图6a和图6b中所示出的两种对每个语音片段的语音特征进行编码处理的流程示意图，在图6a中所示的方案中，在通过VAD技术对待翻译语音信号进行切分并提取每个切分后的语音片段的语音特征后，可以直接基于每个语音片段的该语音特征分别进行每个语音片段的语音编码处理。在图6b中所示的方案中，在对每个语音片段的语音特征进行编码前，可以首先基于当前语音片段的前序语音片段的语义完整性确定是否需要将进行片段的合并，如果需要合并，则可以对当前语音片段的语音特征和当前语音片段的前序语音片段的语音特征进行合并，对合并后的语音特征进行编码处理，具体的，根据合并后的语音特征确定当前语音片段的特征向量，在基于该特征向量得到当前语音片段的编码结果，如果无需合并，则对当前语音片段的语音特征进行编码处理，即根据当前语音片段的语音特征确定当前语音片段的特征向量，根据该特征向量得到当前语音片段的编码结果。

其中，在得到语音片段的特征向量后，可以通过现有方式(如长短时记忆网络)得到对应的编码结果。

本申请的可选实施例中，根据每个语音片段的语音特征，确定每个语音片段的特征向量，包括：

对于每个语音片段，通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射，得到特征向量。

其中，卷积处理参数可以包括但不限于卷积核的尺寸即卷积核大小(kernelsize)。

由前文的描述可知，由于语速的不同，单位时间内的语音片段所包含的语义信息也会不同，而采用固定的卷积处理参数(如固定的核窗口大小即卷积核的尺寸)会造成语义信息的损失，从而造成翻译错误。为了解决该问题，本申请实施例的该可选方案，通过采用至少两种不同的卷积处理参数对语音片段的语音特征或者该语音片段所对应的合并后的语音特征进行特征提取，从而保证了即使在语速多变的情况下，也能够通过多种不同的卷积处理参数捕捉到完整的音素，保证了翻译结果的准确性。

需要说明的是，在实际应用中，在通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射得到特征向量的具体实现形式本申请实施例不做限定，即用于实现对语音特征进行特征提取的网络模型的具体结构可以根据实际需求选取，例如，可以采用卷积神经网络(CNN，Convolutional Neural Networks)，稠密连接的卷积网络(DenseNet)等。

作为一个示例，图7a中示出了本申请实施例提供的一种特征提取网络的结构示意图，该特征提取网络为多核窗口的卷积网络，本示例中的卷积网络可以为卷积神经网络(CNN，Convolutional Neural Networks)。本申请实施例中的上述多核窗口的卷积网络也可以称为多核窗口卷积网络、多卷积核尺寸卷积网络、多尺寸卷积网络等等，也可以称为多滤波器尺寸CNN(Multi-filter-sized CNN)。如图中所示，该卷积网络包括两层卷积层，即图中所示的C1层和C2层，其中，每层卷积层包括三种卷积处理参数(该示例中的核窗口的尺寸)的卷积层，图中所示的k-d、k以及k+d分别表示三种核窗口的尺寸，如以核窗口＝k的卷积层为例，其卷积核大小为k*1，核窗口＝k-d的卷积层的卷积核大小为(k-d)*1。每个卷积层之后还可以连接有相对应的池化层，如图中所示的P1层和P2层，P2层中所有池化层输出的特征经过特征映射层(图中所示的映射层)映射到一个向量空间，得到对应的特征向量。

需要说明的是，本示例中所示出的卷积核大小只是一种示例，该示例中的三种核窗口的宽度分别为k、k-d、k以及k+d，高度为1。而在实际应用中，可以根据实际需要配置各核窗口的尺寸，例如，本示例中三种卷积核的大小还可以分别为w₁*h₁、w₂*h₂、以及w₃*h₃，其中，w₁、w₂、w₃分别表示三种卷积核的宽度，h₁、h₂、h₃分别表示三种卷积核的高度，而各卷积核的宽度和宽度均是可以根据实际需求配置的。在实际应用中，由于语音信号通过在时域上持续时间较长、而频域上信号的频率范围是在一个相对较小的固定范围内的，因此，作为一可选方案，各卷积核的高度可以为1，卷积核的宽度可以根据需求配置不同的取值，也就是说，在通过至少两种卷积处理参数对语音片段的语音特征进行特征提取时，只进行时域上的卷积处理，可以不进行频域上的卷积处理，以避免造成频域上的信息过度损失，降低翻译质量。

具体的，基于图7a中所示的该网络结构，将当前语音片段的语音特征(语音片段的语音特征或者将当前语音片段和其前序语音片段进行合并后的语音特征)输入至该卷积网络后，首先由C1层中的三种具有不同的核窗口的卷积层进行三种大小的感受野的特征提取，再经由采样率为γ的P1层对C1层输出的特征图进行特征下采样处理，下采样处理后的特征图再依次经由C2层和P2层分别进行进一步的特征提取和提取后的特征的下采样，之后P2层的每个池化层所输出的特征经过映射层映射到一个向量空间，得到对应的特征向量。

该示例中的该卷积网络，由于每层卷积层采用了三种不同尺寸的核窗口进行语音特征进行特征提取，从而使得即使在语速发生变化时，也能够通过多种尺寸的核窗口来保证提取到完整的特征。可以理解的是，在实际应用中，池化层为非必须的网络层，池化层的层数也无需与卷积层的层数相对应，如图7a中所示的卷积网络中可以不包含池化层，也可以只包含任意一个池化层。其中，池化层的池化操作可以为最大池化操作。

作为另一示例，图7b中示出了本申请实施例提供的另一种特征提取网络的结构示意图，同样的，该特征提取网络也是多核窗口的卷积网络，与图7a中所示的网络的不同之处在于，本示例中的卷积网络为DenseNet，与图7a中所示的网络相比，该网络中采用稠密层(Dense layer，也可以称为Dense模块即Dense block)和转换层(Transition Layer)替代了图7a中所示的网络中的卷积层和池化层。本示例的多核窗口的卷积网络也可以称为多核窗口稠密连接卷积网络、多卷积核尺寸稠密卷积网络、多尺寸稠密卷积网络等等，也可以称为多滤波器尺寸稠密卷积网络(Multi-filter-sized DenseNet)。如图7b中所示，该DenseNet包括依次级联的稠密层、转换层、以及重塑及映射层(Reshape&ProjectionLayer)，如图中所示，本示例中，稠密层和转换层的采样率即步长(stride)为γ，稠密层包括三种卷积处理参数(该示例中的核窗口的尺寸)的稠密层，图中所示的k-d、k以及k+d分别表示三种核窗口的尺寸，如以核窗口＝k的稠密层为例，其卷积核大小为k*1。每个稠密层之后还可以连接有相对应的转换层，通过转换层可以降低稠密层所输出的特征的通道维度，所有转换层输出的特征经过重塑及特征映射层映射到一个向量空间，得到对应的特征向量。

本申请的可选实施例中，通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，包括：

通过至少一层卷积层对语音片段的语音特征进行特征提取，其中，至少一个卷积层包括至少两种卷积处理参数。

具体的，在实际应用中，如果说话者语速较慢(例如说话者语速小于同一源语言对应的平均语速)，或者源语言的语速较慢，则表达某一完整语义信息所需要的语音片段的长度较长，相反，如果说话者语速较快(例如说话者语速不小于同一源语言对应的平均语速)，或者源语言的语速较快，则表达某一完整语义信息所需要的语音片段的长度较短。如果按照现有技术中固定的卷积处理参数来进行特征提取，则不能处理不同语速的情况，从而造成语义信息的损失和翻译错误，降低了语音翻译的准确度。本申请实施例提出，可以设置多个(如三个)不同的卷积处理参数(如k-d，k，k+d等)，从而能够针对不同语速的语音片段都能准确的进行特征提取，兼顾了语速的多样性，从而大大提高了语音翻译的准确度，使得语音翻译的性能更鲁棒。

本申请的可选实施例中，卷积处理参数可以根据以下信息中的至少一项确定：

待翻译语音信号所对应的源语言的语速信息、提取切分后的每个语音片段的语音特征的提取速率；

其中，语速信息包括平均语速、最慢语速和最快语速中的至少一项。

为了更好保证能够提取到完整的音素，可以根据源语言的语速信息特征提取速率来确定上述至少两种卷积处理参数，也就是说，对于不同的源语言，可以采用不同的卷积处理参数。如图7a和图7b中所示的示例，k和d可以均为与语速相关的超参数，可以根据源语言的语速信息和特这抽取速率中的至少一项来确定。

作为一可选方案，可通过以下方法确定k和d的值：

假设对于某种语言，给定其平均语速为v音素/秒，在通过VAD技术抽取语音特征时的处理速率为f帧/秒，那么每个音素所占的帧数为f/v，上述k可以取值为f/v，即k＝f/v。进一步的，若该语言的最快语速和最慢语速分别为v_max，v_min，那么

例如，汉语普通话的平均语速为300字/分钟，约为10音素/秒，假设f＝100，那么k＝10。

在实际应用中，某种语言的语速信息可以通过进行数据统计分析得到，也可以通过实验的方式得到。

可以理解的是，上述确定卷积处理参数的方案只是一种可选的处理方式，在实际应用中，可以根据实际应用场景的需要，配置基于上述各信息来确定卷积处理参数的方式。例如，作为一可选方式，假设所配置的卷积核窗口的尺寸为2种，则两种尺寸可以分别为

和

再例如，假设所配置的卷积核窗口的尺寸为5种，那么五种核窗口的尺寸可以分别为k-2d、k-d、k、k+d以及k+2d，此时，k可以取值为k＝f/v，而

本申请的可选实施例中，通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射，得到特征向量，可以包括：

确定语音片段的语音长度；

若语音长度大于长度阈值，则根据通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射，得到特征向量；

若语音长度不大于长度阈值，则将语音片段的语音特征进行融合，得到特征向量。

作为一可选方案，在实际应用中，对于每个语音片段的语音特征，可以根据该语音特征所对应的语音长度来确定是否对该特征进行再提取，如果语音长度大于设定的长度阈值，则可以进行特征提取，否则可以不对语音特征进行特征提取，直接对语音特征进行特征融合，得到融合后的特征向量即可，由于长度较小的语音片段包含的信息量不大，如果进行下采样或特征提取，会造成信息过度损失，降低翻译质量，本申请实施例针对语音长度较小的语音片段可以不进行特征提取，以避免对较短语音片段的语音特征进行再提取而造成信息的过度损失，从而提高了翻译准确度。其中，特征融合的具体方式本申请实施例不做限定，可以包括但不限于加权求和的方式。作为一可选方案，在语音长度不大于长度阈值时，可以通过前馈神经网络(FeedForward Network，FFN)对语音特征进行处理，得到对应的特征向量。

可以理解的是，对于一当前语音片段，如果其语音特征为切分得到该片段时所提取的语音特征，则其语音长度即为当前语音片段的语音长度，如果其语音特征为将切分得到该语音片段时所提取的语音特征和当前语音片段的前序语音片段的语音特征进行合并后的特征，则其语音长度即为合并后的语音片段所对应的语音长度。如前文示例中，在片段2进行处理时，如果将片段1的语音特征和片段2的语音特征进行了合并，则片段2的语音长度即为片段1和片段2合并后的语音长度。

作为一个示例，图8中示出了本申请实施例提供的一种基于长短时控制和多核窗口的采样层的结构示意图，该采样层包括多核窗口卷积网络和前馈网络，其中，多核窗口卷积网络可以包括但不限于图7a或图7b所示的网络结构，该示例中的多核窗口的卷积网络以图7a中所示的网络结构为例，该多核窗口的卷积网络的说明可参见图7a中所示的示例中的说明。如图8中所示，基于本示例中的该采样层，对于每一个语音片段的语音特征，可以首先通过长短时控制分流器(图中所示的菱形)判断是否需要对语音特征进行采样(即特征再提取)，具体的，如果语音片段(图中所示的一个片段)的语音长度(图中所示的长度)大于长度阈值(图中所示的θ)，则将语音特征输入至卷积网络进行基于多核窗口的卷积采样，以保证了在语速多变的情况下有窗口捕捉到完整的音素，如果语音片段的语音长度不大于长度阈值，则将语音特征输入至前馈网络进行处理，以避免对语音长度低于阈值的语音特征将进行采样处理而造成信息过度损失的问题。

本申请的可选实施例中，通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射，包括：

通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并对提取后的特征进行下采样；

将下采样后的特征进行特征映射。

在对语音特征进行特征再提取后，可以对提取的特征进一步进行下采样处理，以减少后续的数据处理量，提高处理效率。如图7a和图8中所示的示例中，可以通过池化层对提取的特征进行下采样处理，如图7b中所示的示例中，可以通过转换层对稠密层所提取的特征进行下采样处理。其中，池化层的池化操作可以为最大池化操作。

需要说明的是，进行下采样的次数可以根据实际需求配置，如果通过卷积处理参数进行特征再提取的次数为一次以上时，如图7和图8中通过两层卷积层进行了两次特征提取，下采样与通过卷积进行特征提取的顺序也是可以根据需求配置的，如下采样可以是在每次通过卷积进行特征提取之后进行，也可以是在完成所有卷积特征提取之后进行，下采样的次数可以与卷积特征提取的次数相同，也可以不同。

本申请的可选实施例中，上述长度阈值可以是根据下采样的采样率、下采样的次数、以及卷积处理参数中的至少一项确定的。

为了平衡采样过度会造成信息过度损失的问题和数据处理量过大的问题，可以根据下采样的采样率、下采样的次数以及所采用的卷积处理参数来确定长度阈值，在保证每个语音片段的特征相对完整的同时，又避免在语音长度过长时由于数据量过大造成处理效率低的问题。

作为一可选方式，上述长度阈值θ可以满足：

θ>γ^N

其中，γ表示下采样的采样率，N表示下次样的次数。

作为另一可选方式，上述长度阈值θ可以满足：

θ>γ^N+2k

其中，k即为上述的一种卷积处理参数，如可以取值为k＝f/v。

对应于图7a和图8中所示的示例中，γ即为池化层的采样率，N即为池化层的数量即层数。而对应于图7b所示的示例中，γ即为转换层的采样率，N即为转换层的层数。

在实际应用中，长度阈值θ的具体取值可以根据实际应用需求以及经验进行确定，作为一可选方案，以图7a中所示的卷积网络为例，例如在卷积层和池化层的数量为2时，即如图7和图8中所示的卷积网络，采样率γ一般可以取值为2，θ取值可以为128。基于本申请实施例所提供的确定长度阈值的方案，在减少数据处理量的基础上，能够有效避免过采样问题的出现，另外，还能够较好的平衡对卷积网络的输出结果和前馈神经网络的输出结果，能够有效避免对语音特征进行卷积采样后所输出的特征向量所包含的信息与不需要进行采样处理的语音特征的特征向量包含的信息相差过大。

另外，需要说明的是，在实际应用中，语音片段的语音长度通常可以用语音片段所包含的信号的帧数来表征，例如一语音片段包含500帧信号，上述长度阈值为128帧，则该语音片段的语音特征需要通过卷积处理参数进行特征再提取。当然，语音片段的语音长度也可以采用语音片段实际的时长来表示，例如，对于上述包含500帧信号的语音片段，其语音长度可以每帧信号的长度乘以500帧，相对应的，此时的长度阈值也是时长，如长度阈值可以是每帧信号的长度乘以128。

本申请的可选实施例中，基于每个语音片段的特征向量，得到每个语音片段的编码结果，包括：

对于每个语音片段，根据该语音片段的特征向量中每一维度的向量表示以及该维度的前序维度的向量表示，得到该维度所对应的隐层表示；

基于该语音片段的特征向量中每一维度所对应的隐层表示，得到该语音片段的编码结果。

由前文的描述可知，语音片段的语音特征本身就是带有时序信息的，相应的，语义片段的特征向量的每个维度也是携带有时序信息的，例如，假设一特征向量可以表示为[h₁，h₂，h₃，…，h_n]，n则为该向量的维度，h_i(1≤i≤n)则为第i个维度的向量表示，在时间上，h_i位于h_i+1之前，h_i为h_i+1的前序维度的向量表示，而h₁至h_n-1均是h_n的前序维度的向量表示。

需要说明的是，对于特征向量中的任一维度，在基于该维度的向量表示以及该维度的前序维度的向量表示，得到该维度对应的隐层表示时，可以利用该维度的前序维度中的一个或多个维度，例如，可以基于该维度向量表示，以及该多维度的前一维度或前几个维度的向量表示得到该维度对应的隐层表示。作为一可选方案，可以采用该维度之前的所有维度的向量表示。

对于本领域技术人员来说清楚的是，语音片段的编码结果是语音片段所对应的隐向量(或者称为隐层向量)，也可以称为该语音片段的语义向量，而特征向量实质上也是一种隐层向量。

本申请实施例提供的该方案，在对特征向量进行进一步处理得到作为编码输出的语义向量时，对于特征向量的每个维度的向量表示，可以基于该维度的向量表示以及该维度的前序维度的向量表示来确定，基于该方案，在确定每一时刻(维度所对应的时序信息)所对应的隐层表示时，由于该时刻的隐层表示的确定可以无需依赖上一时刻的隐层表示，因此，各维度所对应的隐层表示的确定可以并行进行，与现有语音编码方式中的处理方式(如长短时记忆网络)相比，可以将语音编码处理的时间复杂度从O(n)降低至常数复杂度，大大降低编码时间复杂度，加快了处理速度。

本申请实施例的可选方案中，对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果，可以包括：

基于每个语音片段的语音特征，通过残差网络，得到每个语音片段的编码结果。

其中，残差网络包括至少一个残差单元，即残差网络中残差单元的数量可以为一个或多个。在残差单元的数量为一个时，该残差单元输入即为语音特征，残差单元的输出即为将隐向量和特征向量连接后的向量，该隐向量的每个维度的向量表示即为特征向量的每一维度所对应的隐层表示。在残差单元为多个时，每个残差单元的输入即为上一残差单元的输出，最后一个残差单元的输出即为编码器的输出。

本申请的可选实施例中，在通过残差网络得到每个语音片段的编码结果时，为了提高编码效果，可以通过带注意力机制的残差网络实现。

可以理解的是，在实际应用中，通过带注意力机制的网络(即下文中的第一注意力网络)得到每个语音片段的编码结果时，该网络可以采用残差网络实现，也可以采用其他网络结构实现。

具体的，在通过带注意力机制的残差网络(当然也可以带注意力机制的网络)得到编码结果时，上述根据该语音片段的特征向量中每一维度的向量表示以及该维度的前序维度的向量表示，通过残差网络得到该维度所对应的隐层表示，可以包括：

对于特征向量的每一维度，根据该维度的向量表示、该维度的权重、所采用的每一前序维度的向量表示，以及每一前序维度的权重，得到该维度对应的隐层表示。

具体的，对于特征向量的每一维度，根据该维度的向量表示、该维度的权重、所采用的每一前序维度的向量表示，以及每一前序维度的权重，得到该维度对应的隐层表示，包括：

根据该维度的向量表示、以及该维度的每一前序维度的向量表示，通过第一注意力网络，确定该维度的权重、以及该维度的每一前序维度的权重，并根据该维度的权重、以及每一前序维度的权重，对该维度的向量表示、以及该维度的每一前序维度的向量表示进行加权融合，得到该维度对应的隐层表示。

为了描述方便，下面将本申请实施例所提供的上述基于每个语音片段的特征向量，得到每个语音片段的编码结果的方案简称为因果注意力机制。下面结合一示例对该机制进行进一步详细的说明。

示例

图9中示出了该示例中的因果注意力机制的原理示意图，如图中所示，该示例中所采用的神经网络为残差网络，图中仅示出了一个残差单元，在实际应用中，残差单元也可以为多个。该因果注意力机制的步骤可以包括：

步骤一：输入的隐层向量

经过

得到

其中，W_q，W_k，W_v为注意力机制中的权重，图中因果注意力所在的箭头可以理解为各权重，

表示第l层的输入向量的第i个(也就是第i个时刻)向量表示，

表示第i个时刻之前的所有时刻的向量表示，

则表示第l层的第i个隐层单元(即前文中的隐层表示)，Z为归一化参数，即用于归一化的常量。如图9中所示，当l为1时，l-1为0，

可以为

可以为

具体的，l可以理解为残差网络的残差单元的层数，W_q，W_k，W_v分别为各向量表示所对应的权重，各权重的具体取值可以通过对网络进行训练确定，不同残差单元所采用的各注意力机制的权重可以相同，也可以不同。

为

所对应的隐层表示，l-1和l表示相对应的输入和输出，例如，如图中所示，在残差网络只有一个残差单元时，

……则表示特征向量中各维度的向量表示，相应的，

则分别为

……所对应的隐层表示。

步骤二：

和

通过残差网络连接后生成新的隐层表示，即残差单元的输出，在残差单元为一个时，该新的隐层表示即为编码结果，在残差单元的数量为两个或两个以上时，从第二个残差单元开始，该残差单元的输入即为其前一残差单元的输出，例如，假设残差单元的数量为两个，则该因果注意力机制还可以包括：

步骤三：将步骤二的输出作为步骤一的输入，再次执行步骤一和步骤二，直至得到最后一个残差单元的输出。

一般的，在实际应用中，残差网络的残差单元的个数可以设置为两个或者三个。

基于本申请上述各实施例所提供的方案，在得到待翻译语音信号的各语音片段所对应的目标语言的文本(简称目标文本)之后，即可以将各语音片段所对应的目标文本进行合并，得到该待翻译语音信号的最终翻译文本。可以理解的是，在将各语音片段所对应的目标文本进行合并以得到最终翻译文本，在将各目标文本初步合并后，可以对初步合并经过进行文本纠错，将纠错后的文本作为最终翻译文本呈现。例如，对于前文示例中的片段1，其目标文本为“可能”，对于片段2，其目标文本为“可能是一只猫”，则初步合并文本为“可能可能是一只猫”，则对该初步合并结果进行纠错后可以得到最终翻译文本“可能是一只猫”。

本申请的可选实施例中，在得到每个语音片段的编码结果之后，上述步骤S130中，对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本，具体可以包括：

对于每个语音片段，根据该语音片段、以及该语音片段的前序语音片段的解码结果(即前一语音片段所对应的目标语言的文本即目标文本)，得到该语音片段所对应的目标语言的文本。

也就是说，对于一个语音片段，可以根据其前序语音片段的解码结果和其编码结果来得到对该语音片段的解码结果。由于语音片段之间的语义通常都是有关联性的，因此，在对于当前语音片段的编码结果进行解码时，可以基于已解码得到的文本来辅助对当前语音片段的编码结果，提高解码的准确性。

可以理解的是，对于一个语音片段而言，其前序语音片段可以是该语音片段之前的一个或多个语音片段，作为一可选方案，前序语音片段可以是该语音片段的前一语音片段，即上一语音片段。

可选的，对于每个语音片段，根据该语音片段、以及该语音片段的前序语音片段的解码结果，得到该语音片段所对应的目标语言的文本，包括：

对于每个语音片段，通过第二注意力网络，确定该语音片段的各前序语音片段所对应的目标语言的文本的特征向量、以及各前序语音片段所对应的目标语言的文本的特征向量的权重，并根据各权重对各前序语音片段所对应的目标语言的文本的特征向量进行加权融合，得到加权融合后的特征向量；

根据该语音片段的编码结果和加权融合后的特征向量，得到该语音片段所对应的目标语言的文本。

也就是说，在解码端，也可以采用带注意力机制的网络(即上述第二注意力网络)，通过该网络得到各前序语音片段的目标文本的特征向量以及相应的权重，并根据各权重，对各特征向量进行加权处理，得到融合后的特征向量。例如，对于一个语音片段，在其前序语音片段为该语音片段的上一语音片段时，通过第二注意力网络，可以得到该上一语音片段的目标文本的特征向量，并通过注意力加权，得到加权处理后的特征向量。之后，即可以基于该加权处理后的特征向量，以及该语音片段的编码结果，得到该语音片段的解码结果，即该语音片段对应的目标文本。

本申请的可选实施例中，第一注意力网络和所述第二注意力网络的对应网络层的模型参数相同。

也就是说，在编码端和解码端均采用带注意力机制的网络时，两个注意力网络的对应网络层可以采用相同的模型参数。其中，第一注意力网络和第二注意力网络可以为单层网络结构，也可以是多层网络结构，在第一注意力网络和第二注意力网络为多层网络结构时，上述对应层的模型参数相同，是指第一注意力网络的第i层的模型参数与第二注意力网络的第i层的模型参数相同，其中，第i层为网络的任一网络层。

在实际应用中，第一注意力网络和所述第二注意力网络的对应网络层采用相同的模型参数，可以大大较少整个语音翻译模型的模型参数，由于模型参数大大减少，因此在采用模型进行线上语音翻译时，可以有效减少内存消耗。此外，共享语音编码端和文本解码端中的模型参数，可以增强语音编码和文本解码之间的联系，缩短模型训练时的梯度传播路径，实现快速稳定的训练。通过网络参数共享，可以充分利用有限的模型容量来训练一个更加紧凑的以能够满足线上内存需求的模型。此外，与现有的普通网络相比，采用共享网络参数的方式，可以在同样的内存限制下，训练出更深的网络。

为了更好的说明本申请实施例的方案，下面首先结合两个示例中所提供的语音翻译系统架构对本申请的方案进行更加详细的说明。

示例1

图10中示出了本示例中基于本申请所提供的方法的原理的一种语音翻译系统的架构示意图，如图中所示，该系统架构包括语音激活检测(VAD，Voice ActivityDetection)模块、基于译文语义的重切分器、长短时分流器(图中菱形所示)、语音编码器和文本解码器，其中，语音编码器可以包括采样层和因果注意力机制(图中所示的因果注意力网络)，采样层包括多核窗口卷积网络和前馈网络。其中，基于语义的重切分器可以是图4中所示的重切分器，也可以是图5中所示的重切分器。在基于该系统进行语音翻译时，其处理流程主要可以包括：

步骤一：系统接收到待翻译语音信号(图中左侧所示的信号)后，经过VAD模块切分成多个语音片段，并分别对所有的语音片段提取语音特征，其中，每条语音片段可以提取得到T×F维的语音特征，其中，T表示语音长度，F表示频率通道数，第i条语音片段i得到的特征用T_i×F_i表示。

其中，由前文的描述可知，语音长度可以是语音片段所包含的信号的帧数以及每一帧的长度的乘积，在实际应用中，也可以用语音片段所包含的信号的帧数来表征语音片段的语音长度。

步骤二：对于切分后的第一个语音片段，由于该语音片段不存在前序语音片段，则重切分器的输入和输出均为该语音片段的语音特征；

对于第一个语音片段之后的每个语音片段(以片段i表示)，片段i-1的文本解码器(text decoder)输出隐层与片段i的语音特征一起输入到基于译文的重切分器，将重切分器的输出作为片段i新的语音特征(可能是片段i的语音特征，也可能是将片段i-1的语音特征和片段i的语音特征进行合并后的特征)进行后续处理。

需要说明的是，虽然图中示出的输入至重切分器的文本解码器的输出为文本解码器的输出，但可以理解的是，输入至重切分器的文本解码器的输出实质上为文本解码器的最后一个隐藏层的输出。

步骤三：步骤二生成的片段特征即片段的语音特征经过语音编码器得到语音编码输出，该语音编码器可以由长短时分流器(图中的菱形框所示)、采样层和因果注意力层(图中所示的因果注意力网络)构成。其中，长短时分流器将语音长度大于阈值的语音特征送入基于多核窗口的卷积网络，不大于阈值的语音特征送入前馈网络层；采样层由多核窗口的卷积网络和前馈网络层组成。

步骤四：由步骤三生成的输出进入文本解码器，生成目标端译文，并将当前语音片段对应的文本解码器的输出隐层送入下一语音片段的重切分器中。

需要说明的是，本申请实施例中的文本解码器的具体结构，可以根据实际需求配置。在下文的示例中将对申请所提供的可选的文本解码器的结构进行描述。

示例二

如图11a中所示，该示例中给出了一种图10中所示的系统架构的具体构成结构示意图。该示例中，重切分器包括分类器和片段生成器，其中，分类器可以为图4中所示的分类器，也可以是图5中所示的分类器。语音编码器的长短时分流器为一判断器，图中所示的因果注意力即因果注意力机制。文本解码器包括依次级联的多头注意力层(即本示例中的第二注意力网络)、多头交叉注意力层和softmax层。

下面结合该系统架构对语音翻译的流程进行说明，该流程主要可以包括：

步骤一：系统接收到语音(即待翻译语音信号)后，经过语音激活检测切分成多个语音片段，如图所示片段1和片段2，分别对所有的片段提取语音特征后，得到片段1的T₁×F₁维的语音特征，片段2的T₂×F₂维的语音特征。如图中所示，该示例中的待翻译语音信号是语义为“Maybe a cat！”的英语语音，即源语言为英语，所要翻译成的目标语言为中文。

步骤二：片段1的语音特征经过重切分器，由于是起始片段，重切分器的初始化参数(文本解码器的输出隐层，即图中所示的h′)为零，直接输出片段1和相应特征。

步骤三：片段1的语音特征经过上述语音编码器。若语音长度大于θ(该示例中的长度阈值)，则经过多核窗口卷积网络进行处理，若长度不大于θ，则经过前馈网络层，卷积网络或前馈网络输出的特征向量经过因果注意力层(本示例中的第一注意力网络)进行处理后，得到片段1对应的编码结果(即编码器的输出)。

步骤四：对于片段1，编码器输出后经过文本解码器得到译文“可能”，并将解码器的输出隐层h′输入到下一个片段的重切分器中。

其中，图中所示的起始单词为文本解码器工作时的起始标识，具体可以为预设的一个单词。

如图11a中所示，本示例中的文本解码器可以包括依次级联的多头自注意力层、多头交叉注意力层和softmax层。其中，对于第一个语音片段，如本示例中的片段1，多头自注意力层的输入为起始单词，对于除第一个语音片段的其他语音片段而言，多头自注意力的输入为当前语音片段的前一语音片段的解码结果，例如，对于片段2而言，多头自注意力的输入为片段1的解码结果“可能”，该多头自注意力层具体用于对其输入信息的信息特征(表示向量)进行注意力加权处理，得到处理后的表示向量。

对于多头交叉注意力层而言，其输入包括每个语音片段的编码结果即编码向量、以及多头自注意力层的对应于每个语音片段的输出，具体的，对于当前语音片段，多头交叉注意力层则用于对当前语音片段的编码结果、以及多头自注意力层对应于当前语音片段的输出(此时多头自注意力层的输入为当前语音片段的前一语音片段所对应的解码结果)进行注意力加权融合，得到融合后的向量，融合后的向量输入至softmax层，由softmax层基于该融合后的向量处理得到该当前语音片段的解码结果。

具体的，对于上述示例中的片段1，文本解码器的多头自注意力层的输入为起始单词，多头自注意力层的输出和片段1的编码结果即为多头交叉注意力层的输入，softmax基于多头交叉注意力层的输出的融合后的向量得到片段1的解码结果，即“可能”；对于片段2，多头自注意力层的输入则为“可能”，多头自注意力层的输出和片段2的编码结果即为多头交叉注意力层的输入，softmax基于多头交叉注意力层输出的融合后的向量即可得到片段2的解码结果，即“是一只猫！”。

需要说明的是，在实际应用中，在语音编码器和文本解码器均包括注意力网络时，如图11a中所示的语音编码器的因果注意力和文本解码器中的多头自注意力层，两处网络结构可以采用相同的模型参数，也可以采用不同的网络参数。可以理解的是，在两处网络结构采用相同的模型参数时，如果语音编码器和文本解码器的注意力层都是多层网络结构(如多个残差单元)，语音编码器的因果注意力层的模型参数和文本解码器的自注意力层的模型参数中，相应层的模型参数相同，也就是说，语音编码器的因果注意力参数中第i层的模型参数可以与文本解码器中多头自注意力层的第i层的模型参数共享。

如图11b中所示的一种语音编码器和文本解码器的结构示意图中，图中所示的语音编码器的因果注意力层和文本解码器的多头自注意力层可以共享网络参数，即因果注意力的模型参数

和多头自注意力层的模型参数

共享，即两者可以相同，图中所示的“上一个目标端词汇”即为“上一个语音片段的解码结果”，对应于图11a中所示的起始单词，对于第一个语音片段，起始单词为预配置的单词，对于除第一个语音片段之外的语音片段，起始单词即为前一个语音片段所对应的解码结果。

语音编码器的注意力层和文本解码器的注意力层采用相同的网络参数，可以大大较少整个语音翻译模型的模型参数，由于模型参数大大减少，因此在采用模型进行线上语音翻译时，可以有效减少设备的内存消耗。此外，共享语音编码器和文本解码器中的网络参数，可以增强语音编码器和文本解码器之间的联系，缩短模型训练时的梯度传播，实现快速稳定的训练。通过网络参数共享，可以充分利用有限的模型容量来训练一个更加紧凑的以能够满足线上内存需求的模型。此外，与现有的普通网络相比，采用共享网络参数的方式，可以在同样的内存限制下，训练出更深的网络。

步骤五：对于片段2，片段2的语音特征和片段1的解码输出隐层进入重切分器，生成新的特征，若片段1的输出隐层被判定为语义不完整，则片段生成器将片段1与片段2合并，也就是将片段1的语音特征和片段2的语音特征合并在一起输出，若片段1的输出隐层被判定为完整，则直接输出片段2的语音特征。

步骤六：新生成的片段特征经过语音编码器和文本解码器得到目标端译文，即“可能是一只猫！”。此时，对于片段2，作为文本解码器输入的起始单词即为片段1的译文，即“可能”。

可以理解的是，该示例中，为了便于理解，对片段1和片段2的处理过程分别进行了示出，在实际应用中，对于各语音片段，重切分器、语音编码器、文本解码器都可以是同一个结构。

对于本申请实施例所提供的方案，采用本申请实施例的方案和现有的语音翻译系统(如图1和图2a中所示的系统)在英-德IWSLT2018语音翻译数据集上进行了相关实验，实验结果如下表一所示：

表一

	BLEU	编码器时延(输出/输入)
			现有系统(CNN+BiLSTM)	10.24	0.2s
本申请	15.44	0.006

其中，BLEU(bilingual evaluation understudy，双语评估替换)为翻译质量评价标准，分数越高表示翻译质量越高，编码器时延(输出/输入)表示编码1秒语音所需要花费的时间。由表中所示的结果可以看出，通过本申请实施例所提供语音翻译方法，语音翻译质量和语音翻译效率均具有很大的提高。通过本申请实施例的方案，能够更好的满足实际的语音翻译需求，尤其是在实时对话系统中，能够大大提升实时语音翻译的效果，提升使用者的感知。

表二示出了采用本申请实施例图10中所示的翻译模型(包括语音编码器和文本解码器)和图11b中所示翻译模型，分别在TST2013(表中所示的TST13)数据集和TST2014(表中所示的TST14)数据集上进行了测试，测试结果如下表二所示：

表二

由表二可以看出，本申请图11b中所提出的模型参数共享方法可以减少独立参数的数量，进而节省内存，如图10中所示的方案，翻译模型的最小参数量为67M(即67×10⁶个)，而图11b中所示的方案，翻译模型的最小参数量可以减少为49M；在相同内存大小限制下，使用本申请图11b所提供的方法可以进一步增加模型容量，提升模型的深度，从而进一步提高翻译质量。

综上，本申请实施例所提供的语音翻译方法，与现有技术相比至少具有以下几个方面的改进及效果：

1)本申请提出了基于语义重切分的端到端语音翻译框架

本申请与现有工作的区别点之一在于提出了将基于译文语义完整性的重切分模块融入端到端的语音翻译框架中，方便于在实时语音翻译系统中根据已经翻译的内容动态调整语音输入，保证输入的语音特征在语义上更完整。

2)本发明提出了基于译文语义的重切分器

本申请提出了基于译文语义完整性的重切割方法，将语义不完整的语音片段进行重组，解决了由于语义完整性带来的翻译错误的问题。

3)本发明提出了基于长短时控制和多核窗口的采样层

本申请与现有技术的又一区别在于采用了长短时控制分流，对于语音长度低于阈值的语音片段的语音特征将不经过采样层避免信息过度损失，对于语音长度高于阈值的语音片段的语音特征将进行基于多核窗口的卷积采样，多核窗口保证了在语速多变的情况下有窗口捕捉到完整的音素。

4)本申请提出了端到端语音翻译编码器中的因果注意力机制

本申请提出了在语音编码器中采用了因果注意力机制代替了现有的原有的长短时记忆网络，可以将编码的时间复杂度从O(n)降低为常数复杂度，加快了处理速度。

5)本申请提出了端到端语音翻译编码器和解码器中注意力层共享机制

本申请提出了语音编码器中的因果注意层参数和解码器中的多头注意力层参数进行共享，从而节省了线上运行所占用的内存空间，同时缩短了语音特征和文本特征的连接路径，有利于网络稳定性。

基于与图3中所示的语音翻译方法相同的原理，本申请实施例还提供了一种语音翻译装置，如图12中所示，该语音翻译装置100可以包括语音特征提取模块110、编码模块130和解码模块140。其中：

语音特征提取模块110，用于将待翻译语音信号进行切分，并提取切分后的每个语音片段的语音特征；

编码模块130，用于对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果；

解码模块140，用于对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本。

可选的，如图13中所示，该装置还可以包括语义完整性确定模块120，该模块用于：对于每个语音片段，确定该语音片段的前序语音片段的语义完整性；

编码模块130具体用于：在该语音片段的前序语音片段的语义不完整时，将该语音片段和该语音片段的前序语音片段进行合并，将合并后的语音片段所对应的语音特征进行语音编码，得到该语音片段的编码结果；在该语音片段的前序语音片段的语义完整时，对该语音片段的语音特征进行语音编码，得到该语音片段的编码结果。

编码模块130在将该语音片段和该语音片段的前序语音片段进行合并，将合并后的语音片段所对应的语音特征进行语音编码，得到该语音片段的编码结果时，具体用于：

将该语音片段的语音特征和该语音片段的前序语音片段的语音特征进行合并，将合并后的语音特征作为合并后的语音片段的语音特征，对合并后的语音特征进行语音编码，得到该语音片段的编码结果。

可选的，语义完整性确定模块120在确定该语音片段的前序语音片段的语义完整性，可以具体用于以下至少一项：

可选的，编码模块130可以具体用于：

基于每个语音片段的特征向量得到每个语音片段的编码结果。

可选的，编码模块130在根据每个语音片段的语音特征，确定每个语音片段的特征向量时，可以具体用于：

可选的，编码模块130在通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射，得到特征向量时，可以具体用于：

确定语音片段的语音长度；

可选的，编码模块130在通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射时，具体用于：

将下采样后的特征进行特征映射。

可选的，长度阈值是根据下采样的采样率、下采样的次数、以及卷积处理参数中的至少一项确定的。

编码模块130在通过至少两种卷积处理参数对语音片段的语音特征进行特征提取时，具体用于：

可选的，卷积处理参数可以是根据以下信息中的至少一项确定的：

可选的，卷积处理参数包括卷积核的尺寸。

可选的，编码模块130在基于每个语音片段的特征向量，得到每个语音片段的编码结果时，可以具体用于：

可选的，编码模块130在对于每个语音片段，根据该语音片段的特征向量中每一维度的向量表示以及该维度的前序维度的向量表示，得到该维度所对应的隐层表示时，具体用于：

对于该语音片段的特征向量中的每一维度，根据该维度的向量表示、该维度的权重、该维度的每一前序维度的向量表示、以及每一前序维度的权重，得到该维度对应的隐层表示。

可选的，编码模块130在对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果时，具体用于：

基于每个语音片段的语音特征，通过残差网络，得到每个语音片段的编码结果；

其中，残差网络可以包括至少一个一个残差单元。

可选的，编码模块130在对于每个语音片段的特征向量中的每一维度，根据该维度的向量表示、该维度的权重、该维度的每一前序维度的向量表示、以及每一前序维度的权重，得到该维度对应的隐层表示时，具体用于：

根据该维度的向量表示、以及该维度的每一前序维度的向量表示，通过第一注意力网络，确定该维度的权重、以及该维度的每一前序维度的权重，并根据该维度的权重、以及每一前序维度的权重，对该维度的向量表示、以及该维度的每一前序维度的向量表示进行加权融合，得到该维度对应的隐层表示；

解码模块140在对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本时，具体用于：

对于每个语音片段，通过第二注意力网络，确定该语音片段的各前序语音片段所对应的目标语言的文本的特征向量、以及各所述前序语音片段所对应的目标语言的文本的特征向量的权重，并根据各权重对各所述前序语音片段所对应的目标语言的文本的特征向量进行加权融合，得到加权融合后的特征向量；

根据该语音片段的编码结果和所述加权融合后的特征向量，得到该语音片段所对应的目标语言的文本；

其中，所述第一注意力网络和所述第二注意力网络的对应网络层的模型参数相同。

可以理解的是，本申请实施例的所提供的语音翻译装置的各模块，可以具有实现本申请实施例所提供的语音翻译方法中的相应步骤的功能。其中，该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。上述各模块可以是软件和/或硬件，各模块可以单独实现，也可以多个模块集成实现。对于语音翻译装置的各模块的功能描述具体可以参见上述各实施例中的语音翻译方法中的相应描述，在此不再赘述。

此外，本申请实施例的语音翻译装置的各功能模块，在实际应用中，可以根据实际应用需求，运行于终端设备和/或服务器中。

基于与图3中所示的方法相同的原理，本申请实施例还提供了一种电子设备，该电子设备可以包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于调用计算机程序，以执行本申请任一实施例中所提供的语音翻译方法。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序被处理器执行时能够实现本申请任一实施例中所提供的语音翻译方法。

作为一可选方案，图14中示出了本申请实施例所适用的一种电子设备的结构示意图，如图14所示，图该电子设备4000可以包括处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图14中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的计算机程序，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序，以实现前述任一方法实施例所示的内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音翻译方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述将该语音片段和该语音片段的前序语音片段进行合并，将合并后的语音片段所对应的语音特征进行语音编码，得到该语音片段的编码结果，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述确定该语音片段的前序语音片段的语义完整性，包括以下至少一项：

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据每个语音片段的语音特征，确定每个语音片段的特征向量，包括：

7.根据权利要求6所述的方法，其特征在于，所述通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射，得到特征向量，包括：

确定语音片段的语音长度；

8.根据权利要求6或7所述的方法，其特征在于，所述通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，并将通过至少两种卷积处理参数提取后的特征进行特征映射，包括：

将下采样后的特征进行特征映射。

9.根据权利要求8所述的方法，其特征在于，所述长度阈值是根据下采样的采样率、下采样的次数、以及所述卷积处理参数中的至少一项确定的。

10.根据权利要求6至9中任一项所述的方法，其特征在于，通过至少两种卷积处理参数对语音片段的语音特征进行特征提取，包括：

11.根据权利要求6至10中任一项所述的方法，其特征在于，所述卷积处理参数是根据以下信息中的至少一项确定的：

其中，所述语速信息包括平均语速、最慢语速和最快语速中的至少一项。

12.根据权利要求6至11中任一项所述的方法，其特征在于，所述卷积处理参数包括卷积核的尺寸。

13.根据权利要求5至12中任一项所述的方法，其特征在于，所述基于每个语音片段的特征向量，得到每个语音片段的编码结果，包括：

14.根据权利要求13所述的方法，其特征在于，对于每个语音片段，根据该语音片段的特征向量中每一维度的向量表示以及该维度的前序维度的向量表示，得到该维度所对应的隐层表示，包括：

15.根据权利要求13所述的方法，其特征在于，对于每个语音片段的特征向量中的每一维度，根据该维度的向量表示、该维度的权重、该维度的每一前序维度的向量表示、以及每一前序维度的权重，得到该维度对应的隐层表示，包括：

所述对每个语音片段的编码结果进行解码，得到每个语音片段所对应的目标语言的文本，包括：

16.根据权利要求1至15中任一项所述的方法，其特征在于，所述对每个语音片段的语音特征进行语音编码，得到每个语音片段的编码结果，包括：

其中，所述残差网络包括至少一个残差单元。

17.一种语音翻译装置，其特征在于，包括：

18.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于调用所述计算机程序，以执行权利要求1至16中任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法。