CN113920989B

CN113920989B - 一种语音识别与语音翻译端到端系统及设备

Info

Publication number: CN113920989B
Application number: CN202111516645.7A
Authority: CN
Inventors: 陶建华; 张帅; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-04-01
Anticipated expiration: 2041-12-13
Also published as: CN113920989A; US11475877B1

Abstract

本发明提供一种语音识别与语音翻译端到端系统及电子设备，其中，系统包括：声学编码器、多任务解码器和语义不变性约束模块，同时完成识别系统与翻译系统这两个任务，另外根据不同任务的文本语义相同特点，对模型施加语义约束，学习高层次语义信息，语义信息可以有效提升语音识别与语音翻译的性能。本发明具有避免了串行系统的误差累积问题，同时模型的计算代价低，实时性很高；同时利用不同任务之间文本的语义一致性特点，对模型施加语义约束，学习高层次语义信息。

Description

一种语音识别与语音翻译端到端系统及设备

技术领域

本发明属于语音识别领域，尤其涉及一种语音识别与语音翻译端到端系统。

背景技术

现有的语音识别任务与语音翻译任务一般是分别处理的，常见的技术为：1.串行处理，即首先使用语音识别系统进行语音识别，然后将识别出来的文本送进翻译系统进行翻译2.模型共享声学编码参数，即首先使用语音识别数据预训练声学编码器，然后使用文本翻译数据训练解码器，本质上还是串行的方案。

现有技术缺点：

（1）串行的方案会带来误差累计的问题，即语音识别系统识别错误，这种错误会传导至翻译系统，导致最终结果错误；

（2）串行的方案计算代价高，整个系统包含语音识别与语音翻译两个系统的计算代价；

（3）串行系统的实时性差，因为首先需要进行语音识别，识别出结果文本以后再送到翻译系统，系统的实时性很差。

发明内容

为解决上述技术问题，本发明提出一种语音识别与语音翻译端到端系统的技术方案，以解决上述技术问题。

本发明第一方面公开了一种语音识别与语音翻译端到端系统；所述系统包括：所述系统包括：

声学编码器和多任务解码器；

所述声学编码器：提取语音波形的声学特征，得到声学特征序列，然后对所述声学特征序列进行卷积和重新编码操作，得到降采样和重新编码的特征序列，再将所述降采样和重新编码的特征序列输入基于多头自注意力机制的声学编码器的多头自注意力模块，得到声学特征的高维表示；

所述多任务解码器包括多个相同的基于多头注意力的模块：在多种目标文本的开头中增加任务标签，多任务解码器根据任务标签来执行不同的任务；

将多种目标文本重新编码，得到目标文件编码表示，再将所述目标文件编码表示输入基于自注意力机制的多任务解码器的第一自注意力模块，得到目标文本的高维表示；将所述目标文本的高维表示和声学特征的高维表示输入基于自注意力机制的多任务解码器的第二自注意力模块，得到最终的多任务的解码表示；对所述解码表示进行均值计算，得到对应任务的语义向量表示。

根据本发明第一方面的系统，所述系统还包括：语义不变性约束模块；

所述语义不变性约束模块：将多种目标文本对应的语义向量表示两两分别计算KL散度衡量语义向量分布的一致性，得到语义约束损失，通过最小化语义向量分布的一致性损失，进行语义约束。

根据本发明第一方面的系统，所述语义约束损失和交叉熵损失进行加权求和，作为最终的目标损失函数。

根据本发明第一方面的系统，所述对所述声学特征序列进行卷积和重新编码操作，得到降采样和重新编码的特征序列的具体方法包括：

使用多个2维卷积核对所述声学特征序列进行卷积操作，通过设置卷积操作的步长来控制降采样的比例；卷积操作之后连接激活函数，进行非线性变换；叠加多层卷积操作，然后使用全连接映射层将声学特征映射为高维向量，随后将向量序列加入位置编码信息，位置编码使用绝对位置表示，实现声学特征序列的降采样和重新编码。

根据本发明第一方面的系统，所述基于多头自注意力机制的声学编码器的多头自注意力模块由多个结构相同的模块堆叠而成，每个结构相同的模块之间进行残差连接；每个结构相同的模块包含两个子部分，具体结构包括：第一子部分是多头自注意力层，后面接第二子部分的全连接映射层，每个子部分进行层归一化操作，两个子部分中间进行残差连接。

根据本发明第一方面的系统，所述基于自注意力机制的多任务解码器的第一自注意力模块的激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接；对所述第一自注意力模块中的自注意力层和全连接层使用dropout操作。

根据本发明第一方面的系统，所述将所述目标文本的高维表示和声学特征的高维表示输入基于自注意力机制的多任务解码器的第二自注意力模块，得到最终的多任务的解码表示的具体方法包括：

所述目标文本的高维表示作为查询向量，所述声学特征的高维表示作为键和值，使用所述查询向量进行逐元素计算余弦距离，根据距离的大小得到每一个键的注意力分数，使用所述键的注意力分数对值序列进行加权平均，得到上下文向量表示，作为最终的多任务的解码表示。

根据本发明第一方面的系统，所述在多种目标文本的开头中增加任务标签的具体方法包括：

目标文本中开头增加任务标签<ASR>,<CHN>,<ENG>,分别对应语音识别任务，中文翻译任务，英文翻译任务。

本发明第二方面提供了一种电子设备，所述电子设备包括本发明第一方面所述的一种语音识别与语音翻译端到端系统。

综上，本发明提出的方案，语音识别与语音翻译的端到端系统能够：

（1）避免了串行系统的误差累积问题，同时模型的计算代价低，实时性很高。

（2）同时利用不同任务之间文本的语义一致性特点，对模型施加语义约束，学习高层次语义信息。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种语音识别与语音翻译端到端系统的结构图；

图2为根据本发明实施例的一种语音识别与语音翻译端到端系统的结构图；

图3为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

实施例1：

本发明第一方面公开了一种语音识别与语音翻译端到端系统，图1为根据本发明实施例的一种语音识别与语音翻译端到端系统的结构图，具体如图1和图2所示，所述系统100包括：

声学编码器101和多任务解码器102；

所述声学编码器101：提取语音波形的声学特征，得到声学特征序列，然后对所述声学特征序列进行卷积操作，得到降采样和重新编码的特征序列，再将所述降采样和重新编码的特征序列输入基于多头自注意力机制的声学编码器的多头自注意力模块，得到声学特征的高维表示；

其中，目标文本即为目标文本序列的含义，高维表示即为高维表示的序列。

在一些实施例中，提取语音波形的声学特征的具体方法包括：进行语音波形分帧处理，将连续的语音波形点分割成固定长度的短时音频帧，便于后续的特征提取；对上述的短时音频帧提取fbank（filter-bank）声学特征；

在一些实施例中，所述对所述声学特征序列进行卷积操作，得到降采样和重新编码的特征序列的具体方法包括：

使用多个2维卷积核对所述声学特征序列进行卷积操作，通过设置卷积操作的步长来控制降采样的比例；卷积操作之后连接激活函数，进行非线性变换；叠加多层卷积操作，然后使用全连接映射层将声学特征映射为高维向量，随后将向量序列加入位置编码信息，位置编码使用绝对位置表示，实现声学特征序列的降采样和重新编码；

在一些实施例中，所述基于多头自注意力机制的声学编码器的多头自注意力模块由多个结构相同的模块堆叠而成，每个结构相同的模块之间进行残差连接；每个结构相同的模块包含两个子部分，具体结构包括：第一子部分是多头自注意力层，后面接第二子部分的全连接映射层，每个子部分进行层归一化操作，两个子部分中间进行残差连接；

所述多任务解码器102包括多个相同的基于多头注意力的模块：在多种目标文本的开头中增加任务标签，多任务解码器102根据任务标签来执行不同的任务；

在一些实施例中，所述在多种目标文本的开头中增加任务标签的具体方法包括：

目标文本中开头增加任务标签<ASR>,<CHN>,<ENG>,分别对应语音识别任务，中文翻译任务，英文翻译任务；

在三种目标文本进行词嵌入映射，得到对应的目标词向量表示构成的目标词向量序列，在所述目标词向量序列中增加位置编码信息和时间先后顺序信息，得到目标文件编码表示，再将所述目标文件编码表示输入基于自注意力机制的多任务解码器的第一自注意力模块，得到目标文本的高维表示；将所述目标文本的高维表示和声学特征的高维表示输入基于自注意力机制的多任务解码器的第二自注意力模块，得到最终的三个任务的解码表示；对所述解码表示进行均值计算，得到对应任务的语义向量表示；

在一些实施例中，所述基于自注意力机制的多任务解码器的第一自注意力模块的激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接；对所述第一自注意力模块中的自注意力层和全连接层使用dropout操作；

在一些实施例中，所述将所述目标文本的高维表示和声学特征的高维表示输入基于自注意力机制的多任务解码器的第二自注意力模块，得到最终的多任务的解码表示的具体方法包括：

目标文本的高维表示作为查询向量，声学特征的高维表示作为键和值，使用查询向量进行逐元素计算余弦距离，根据距离的大小得到每一个键的注意力分数，使用所述键的注意力分数对值序列进行加权平均，得到上下文向量表示；另外将得到的解码表示输入到softmax函数得到概率最大的目标，直至模型收敛；

在一些实施例中，所述系统100还包括：语义不变性约束模块103；

所述语义不变性约束模块103：将三种目标文本对应的语义向量表示两两分别计算KL散度衡量语义向量分布的一致性，得到语义约束损失，通过最小化语义向量分布的一致性损失，进行语义约束；

在一些实施例中，所述语义约束损失和交叉熵损失进行加权求和，作为最终的目标损失函数；

语义约束损失的权值设为0.1，交叉熵损失设置为0.9.使得模型可以学习到高层次语义信息，语义信息可以有效提升语音识别与语音翻译的性能。

综上，本发明各个方面的技术方案与现有技术相比具有如下优点：

（1），避免了串行系统的误差累积问题，同时模型的计算代价低，实时性很高。

实施例2：

如图1和图2所示，所述系统100包括：

声学编码器101、多任务解码器102和语义不变性约束模块103；

所述声学编码器101：进行语音波形分帧处理，每25毫秒为一帧，帧与帧之间存在10毫秒的重叠，分帧以后提取80维的fbank特征，作为语音波形的声学特征，得到声学特征序列，然后卷积核为3X3，步长为2，卷积操作后面有激活函数RELU，用来进行非线性变换，每次卷积操作将声学特征降采样为原来的一半，使用2层的卷积层，声学特征降采样为初始采样率的四分之一，然后使用全连接映射层将声学特征映射为256维向量；随后将该向量序列加入位置编码信息，位置编码使用绝对位置表示，实现声学特征序列的降采样和重新编码，再将所述降采样和重新编码的特征序列输入基于多头自注意力机制的声学编码器的多头自注意力模块，得到声学特征的高维表示；

所述基于多头自注意力机制的声学编码器的多头自注意力模块该编码模块由12个相同结构的子模块堆叠而成，每个编码模块包含两个子部分，一部分是多头自注意力层，后面接全连接映射层，头数设置为4，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1；

多头注意力机制扩展了传统的注意机制，使之具有多个头部，使得每个头部在参与编码器输出时具有不同的角色。具体地说，多头注意力独立地计算多次注意力，然后将它们的输出连接到另一个线性投影中；通过声学编码器，原始声学特征被转换为高维特征表示；

所述多任务解码器102包括解码器由6个相同的基于多头注意力的模块，这一部分有两种注意力模式：

目标文本中开头增加任务标签<ASR>,<CHN>,<ENG>,分别对应语音识别任务，中文翻译任务，英文翻译任务，多任务解码器102根据任务标签来执行不同的任务；

在三种目标文本进行词嵌入映射，得到对应的目标词向量表示构成的256维的目标词向量序列，在所述目标词向量序列中增加位置编码信息和时间先后顺序信息，得到目标文件编码表示，再将所述目标文件编码表示输入基于自注意力机制的多任务解码器的第一自注意力模块，得到目标文本的高维表示；将所述目标文本的高维表示和声学特征的高维表示输入基于自注意力机制的多任务解码器的第二自注意力模块，得到最终的三个任务的解码表示；对所述解码表示进行均值计算，得到对应任务的语义向量表示；

所述基于自注意力机制的多任务解码器的第一自注意力模块的激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接；对所述第一自注意力模块中的自注意力层和全连接层使用dropout操作；

这部分结构头数设置为4，维度为256，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1；

目标文本的高维表示作为查询向量，声学特征的高维表示作为键和值，使用查询向量进行逐元素计算余弦距离，根据距离的大小得到每一个键的注意力分数，使用所述键的注意力分数对值序列进行加权平均，得到上下文向量表示，作为最终的多任务的解码表示；另外将得到的解码表示输入到softmax函数得到概率最大的目标，直至模型收敛；

实施例3：

本发明公开了一种电子设备，包括本发明公开第一方面中任一项的一种语音识别与语音翻译端到端系统。

图3为根据本发明实施例的一种电子设备的结构图，如图3所示，电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信（NFC）或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本公开的技术方案相关的部分的结构图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请注意，以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种语音识别与语音翻译端到端系统，其特征在于，所述系统包括：

声学编码器和多任务解码器；

所述多个相同的基于多头注意力的模块包括：第一自注意力模块、第二自注意力模块；

将多种目标文本重新编码，得到目标文件编码表示，再将所述目标文件编码表示输入基于自注意力机制的多任务解码器的第一自注意力模块，得到目标文本的高维表示；将所述目标文本的高维表示和声学特征的高维表示输入基于自注意力机制的多任务解码器的第二自注意力模块，得到最终的多任务的解码表示；对所述解码表示进行均值计算，得到对应任务的语义向量表示；

所述在多种目标文本的开头中增加任务标签的具体方法包括：

2.根据权利要求1所述的一种语音识别与语音翻译端到端系统，其特征在于，所述系统还包括：语义不变性约束模块；

3.根据权利要求2所述的一种语音识别与语音翻译端到端系统，其特征在于，所述语义约束损失和交叉熵损失进行加权求和，作为最终的目标损失函数。

4.根据权利要求1所述的一种语音识别与语音翻译端到端系统，其特征在于，所述对所述声学特征序列进行卷积和重新编码操作，得到降采样和重新编码的特征序列的具体方法包括：

5.根据权利要求1所述的一种语音识别与语音翻译端到端系统，其特征在于，所述基于多头自注意力机制的声学编码器的多头自注意力模块由多个结构相同的模块堆叠而成，每个结构相同的模块之间进行残差连接；每个结构相同的模块包含两个子部分，具体结构包括：第一子部分是多头自注意力层，后面接第二子部分的全连接映射层，每个子部分进行层归一化操作，两个子部分中间进行残差连接。

6.根据权利要求1所述的一种语音识别与语音翻译端到端系统，其特征在于，所述基于自注意力机制的多任务解码器的第一自注意力模块的激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接；对所述第一自注意力模块中的自注意力层和全连接层使用dropout操作。

7.根据权利要求1所述的一种语音识别与语音翻译端到端系统，其特征在于，所述将所述目标文本的高维表示和声学特征的高维表示输入基于自注意力机制的多任务解码器的第二自注意力模块，得到最终的多任务的解码表示的具体方法包括：

8.一种电子设备，其特征在于，所述电子设备包括权利要求1至7任意一项所述的一种语音识别与语音翻译端到端系统。