CN113284485B

CN113284485B - 统一中英混合文本生成和语音识别的端到端系统

Info

Publication number: CN113284485B
Application number: CN202110777611.7A
Authority: CN
Inventors: 陶建华; 张帅; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-11-09
Anticipated expiration: 2041-07-09
Also published as: CN113284485A

Abstract

本发明提供通用的统一中英混合文本生成和语音识别的端到端系统，包括：声学编码器、音素编码器、判别器和解码器；所述音素编码器和所述判别器构成生成对抗网络，所述音素编码器作为所述生成对抗网络的生成器，所述判别器为所述生成对抗网络的判别器，所述声学编码器作为所述生成对抗网络的真实数据输入，以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示，所述解码器将所述声学编码表示和所述音素编码表示融合，得到解码表示，再将所述解码表示输入到softmax函数得到概率最大的输出目标。

Description

统一中英混合文本生成和语音识别的端到端系统

技术领域

本申请涉及语音识别领域，尤其涉及统一中英混合文本生成和语音识别的端到端系统。

背景技术

中英混合现象是指在说话过程中同时包含中文和英文表达，主要包括句间转换和句内转换两种类型。其中句内转换这种现象给语音识别技术带来了巨大挑战。主要有说话人发音不标准带来的口音问题；建模单元更多，更复杂；不同语言协同发音；数据搜集困难；数据标注困难等问题。随着深度学习技术的发展，单语语音识别技术已有极大地提升。特别是端到端的语音识别模型，在大规模训练语料下，其性能已经超过最好的传统管道式的语音识别系统。端到端模型将声学模型，发音词典，语言模型等多个模块融合到一起，统一优化，训练部署简单。对于中英混合识别问题，数据缺乏是限制其性能提升的主要因素。

解决中英混合语音识别数据缺乏的问题有多种方法。在语音特征增加数据扰动技术可以有效提高识别模型的鲁棒性，但是无法解决中英混合语言相关数据的缺乏问题。为增加文本的丰富性，中英混合文本可以通过各种文本生成技术通过单语文本人工生成。但是直接使用单语训练数据往往不能直接提升多语混合识别系统的性能。对于混合文本生成技术大多将生成的文本用来训练语言模型，再通过语言模型重打分，各种模型融合等方式间接的利用文本数据来提升语音识别系统的性能。这增加了额外的语言模型，提高了系统的复杂度和计算开销。另一种方法是使用语音合成系统将生成的文本合成对应的音频数据。

专利申请号CN112420024A涉及民用航空空中交通管制和语音识别领域，特别是一种全端到端的中英文混合空管语音识别方法及装置。本发明通过特征学习模块预先提取语音特征，使所述中英文混合空管语音识别模型能提取出更具鉴别性的语音特征，更好地适应不同场景下的语音信号；在原始语音信号到可读指令文本的处理范式中，运用统一的框架解决中英文混合语音识别问题，可以避免现有独立识别系统中语种属性判断环节，简化了混合语音识别的系统架构，也使得语音特征能更合理有效的应用到所述模型的识别中，从而准确判定发音和词义，提高了混合语音识别性能及其实用性。

专利申请号CN112151005A涉及语音合成的技术领域，本发明是要解决中英文混合文本的语音合成问题，提出一种中英文混合的语音合成方法及装置，该方法包括了训练阶段和推理阶段，通过将英文单词转换为CMU发音音素，再将CMU发音音素转换为拼音音素，将中、英文统一为了拼音音素的表征方式，此外，为了区分中、英文的发音特点，引入了代表不同语言的语言标记，为了区分不同说话人的声学特征，引入了说话人识别向量，使得中英文混合的语音合成成为可能，并且具有较高的语音合成质量。在传统语音合成方法的基础上，扩大了语音合成在中英文混合上的应用场景。

现有技术缺点

1）使用生成的混合文本训练额外的语言模型，再通过语言模型重打分，各种模型融合等方式间接的利用文本数据来提升语音识别系统的性能。这增加了额外的语言模型，提高了系统的复杂度和计算开销。

2）使用语音合成系统将生成的文本合成对应的音频数据。这样虽然可以获得语音识别模型训练数据，但是合成的数据与真实的数据存在不匹配的问题，如何利用合成数据提高识别系统的性能是个有挑战性的的问题。

发明内容

有鉴于此，本发明提供一种统一中英混合文本生成和语音识别的端到端系统，包括：

声学编码器、音素编码器、判别器和解码器；所述音素编码器和所述判别器构成生成对抗网络，所述音素编码器作为所述生成对抗网络的生成器，所述判别器为所述生成对抗网络的判别器，所述声学编码器作为所述生成对抗网络的真实数据输入，以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示，所述解码器将所述声学编码表示和所述音素编码表示融合，得到解码表示，再将所述解码表示输入到softmax函数得到概率最大的输出目标。

优选的，所述系统还包括，语音特征提取模块和声学特征序列卷积降采样模块；

所述语音特征提取模块：语音波形分帧处理，将连续的语音波形点分割成固定长度的短时音频帧，并对所述短时音频帧提取fbank声学特征，将所述声学特征的序列输出到所述声学特征序列卷积降采样模块。

优选的，所述声学特征序列卷积降采样模块对声学特征序列进行卷积降采样处理，并进一步编码，具体方法包括：

使用多个2维卷积核对所述声学特征序列进行卷积操作，通过设置卷积操作的步长来控制降采样的比例，并将卷积操作后的声学特征序列输出到所述声学编码器。

优选的，所述声学编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

所述基于多头自注意力的模块包括：两个子部分，第一子部分是多头自注意力层，后面接第二子部分，为全连接映射层，每个子部分进行层归一化操作；所述多头自注意力层和全连接映射层中间进行残差连接。

优选的，所述将卷积操作后的声学特征序列输出到所述声学编码器之前还包括：对卷积操作后的声学特征序列增加位置编码信息，建模卷积操作后的声学特征序列的时间先后顺序信息；

所述系统还包括，音素嵌入模块，将音素序列使用词嵌入矩阵转换为连续的音素特征向量表示，并将音素特征向量表示输出到所述音素编码器；

所述将音素特征向量表示输出到所述音素编码器之前还包括：对连续的音素特征向量增加位置编码信息，建模连续的音素特征向量的时间先后顺序信息。

优选的，所述音素编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

优选的，所述判别器的结构为所述基于多头自注意力的模块与二分类器；所述判别器的结构中的基于多头自注意力的模块与所述声学编码器的基于多头自注意力的模块结构相同；

具体的方法为：

将声学编码器输出的声学编码表示每一帧的标签设置为正样本，音素编码器输出的音素编码表示每一帧的标签设置为负样本；

将声学编码器输出的声学编码表示和音素编码器输出的音素编码表示输入到所述基于多头自注意力的模块进行进一步编码之后，送到全连接映射层，将其转换为二维的向量表示；

对所述二维的向量表示经过softmax函数，转换为概率形式。

优选的，所述系统还包括，标注目标序列的高维表示模块，将所述语音波形对应的标注目标文本进行词嵌入表示，将所述词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，该高维表示作为查询向量；所述基于多头自注意力的模块与所述声学编码器的基于多头自注意力的模块结构相同；

具体的方法为：

使用词嵌入矩阵将所述标注目标文本表示为目标文本连续特征向量；

对目标文本连续特征向量增加位置编码信息，建模特征序列的时间先后顺序信息，得到目标文本位置编码序列；

将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示。

优选的，所述解码器将所述声学编码表示和所述音素编码表示融合，得到解码表示的具体方法为：

将声学编码器输出的声学编码表示和音素编码器输出的音素编码表示输入到解码器中，作为待查询的声学键和声学值集合，音素键和音素值集合；

应用所述查询向量对声学键集合和音素键集合进行逐元素计算余弦距离，根据距离的大小得到声学的注意力分数和音素的注意力分数；

使用所述声学的注意力分数对声学值集合进行加权平均，得到声学上下文向量表示；

使用所述音素的注意力分数对音素值集合进行加权平均，得到音素上下文向量表示；

将声学上下文向量表示和音素上下文向量表示通过全连接映射层进行维度转换，得到最终的解码表示。

优选的，所述系统还包括：中英混合音素序列生成模块；

具体的音素生产方法为：

对大量的中文文本进行数据清洗，去除所述文本中的标点符号和繁体字，数字转换；

对清洗后的中文文本进行分词和词性标注，获得字词之间的分隔，并对分词后的文本的每一部分标注词性；

对分词和词性标注后的中文文本中的名词和动词进行随机地翻译替换，将中文词翻译为对应的英文词，获得大量的中英混合文本；

根据中文和英文的发音词典，将生成的中英混合文本按现有规则转化为对应的音素序列；

为了使音素序列的长度和语音特征的长度尽可能保持一致，对音素序列中的元素进行随机重复，使音素序列的长度与音频特征序列的长度相似。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方法，可以使用多模态端到端模型有效直接利用生成的文本训练识别模型。通过这种使用音素-文本数据模仿语音-文本数据，来大大的增加中英混合语音识别的训练数据，提高语音识别的性能。

附图说明

图1为本发明实施例提供的一种统一中英混合文本生成和语音识别的端到端系统结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示本申请实施例提供的统一中英混合文本生成和语音识别的端到端系统，包括：

中英混合音素序列生成模块；

具体的音素生产方法为：

为了使音素序列的长度和语音特征的长度尽可能保持一致，对音素序列中的元素进行随机重复，使音素序列的长度与音频特征序列的长度相似；

语音特征提取模块和声学特征序列卷积降采样模块；

所述语音特征提取模块：语音波形分帧处理，将连续的语音波形点分割成固定长度的短时音频帧，并对所述短时音频帧提取fbank声学特征，将所述声学特征的序列输出到所述声学特征序列卷积降采样模块；

所述声学特征序列卷积降采样模块对声学特征序列进行卷积降采样处理，并进一步编码，具体方法包括：

使用多个2维卷积核对所述声学特征序列进行卷积操作，通过设置卷积操作的步长来控制降采样的比例，并将卷积操作后的声学特征序列输出到所述声学编码器；

声学编码器、音素编码器、判别器和解码器；所述音素编码器和所述判别器构成生成对抗网络，所述音素编码器作为所述生成对抗网络的生成器，所述判别器为所述生成对抗网络的判别器，所述声学编码器作为所述生成对抗网络的真是数据输入，以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示，所述解码器将所述声学编码表示和所述音素编码表示融合，得到解码表示，再将所述解码表示输入到softmax函数得到概率最大的输出目标；

所述声学编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

所述基于多头自注意力的模块包括：两个子部分，第一子部分是多头自注意力层，后面接第二子部分，为全连接映射层，每个子部分进行层归一化操作；所述多头自注意力层和全连接映射层中间进行残差连接；

所述将卷积操作后的声学特征序列输出到所述声学编码器之前还包括：对卷积操作后的声学特征序列增加位置编码信息，建模卷积操作后的声学特征序列的时间先后顺序信息；

所述将将音素特征向量表示输出到所述音素编码器之前还包括：对连续的音素特征向量增加位置编码信息，建模续的音素特征向量的时间先后顺序信息；

所述音素编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

所述判别器的结构为所述基于多头自注意力的模块与二分类器；所述基于多头自注意力的模块与所述声学编码器的基于多头自注意力的模块结构相同；

具体的方法为：

对所述二维的向量表示经过softmax函数，转换为概率形式；

所述系统还包括，标注目标序列的高维表示模块，将所述语音波形对应的标注目标文本进行词嵌入表示，将该词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，该高维表示作为查询向量；所述基于多头自注意力的模块与所述声学编码器的基于多头自注意力的模块结构相同；

具体的方法为：

将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到得到目标序列的高维表示；

所述解码器将所述声学编码表示和所述音素编码表示融合，得到解码表示的具体方法为：

实施例1

中英混合音素序列生成模块、语音特征提取模块、声学特征序列卷积降采样模块、声学编码器、音素嵌入模块、音素编码器、判别器和解码器；所述音素编码器和所述判别器构成生成对抗网络，所述音素编码器作为所述生成对抗网络的生成器，所述判别器为所述生成对抗网络的判别器，所述声学编码器作为所述生成对抗网络的真是数据输入，以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示，所述解码器将所述声学编码表示和所述音素编码表示融合，得到解码表示，再将所述解码表示输入到softmax函数得到概率最大的输出目标；

中英混合音素序列生成模块：使用2019年ASRU 会议中英混合语音识别挑战赛提供的语音数据，其中训练集数据约200小时，验证集和测试集数据各20小时，数据均为中英混合wav语音数据，采样率为16K。另外还提供了500小时的中文语音标注数据，录制环境和主题与中英混合语音数据相近。使用500小时的标注文本作为生成混合文本的中文文本语料。首先进行数据清洗，去除其中的标点符号和繁体字，数字转换等，共得到约55万句文本；然后对清洗后的中文文本进行分词和词性标注，获得字词之间的分隔，并对每一部分标注词性；对其中名词和动词进行随机的翻译替换，将中文词翻译为对应的英文词，这样便获得了大量的中英混合文本，使用不同的替换频率5%，10%，15%进行多次随机替换，由于训练语音大约18万句，使用1倍，2倍，3倍，5倍，10倍于语音数据的音素-文本数据进行训练；根据中文和英文的发音词典，将生成的中英混合文本按一定规则转化为对应的音素序列；为了使音素序列的长度和语音特征的长度尽可能保持一致，对音素序列中的元素进行随机重复，以符合高斯分布的随机概率进行重复，均值设置为4，方差设置为1，使其长度与音频特征序列长度相似。

语音特征提取模块：首先将语音数据进行分帧，每25毫秒为一帧，帧与帧之间存在10毫秒的重叠，分帧以后提取80维的fbank特征，作为声学特征；

声学特征序列卷积降采样模块和声学编码器：声学特征序列首先使用卷积操作进行降采样，卷积核为3X3，步长为2，卷积操作后面有激活函数RELU，用来进行非线性变换，每次卷积操作将声学特征降采样为原来的一半，使用2层的卷积层，声学特征降采样为初始采样率的四分之一。然后使用全连接映射层将声学特征映射为256维向量。随后将该向量序列加入位置编码信息，位置编码使用绝对位置表示。然后输入到基于多头自注意力机制编码模块，该编码模块由12个相同结构的子模块堆叠而成，每个编码模块包含两个子部分，一部分是多头自注意力层，后面接全连接映射层，头数设置为4，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1。多头注意力机制扩展了传统的注意机制，使之具有多个头部，使得每个头部在参与编码器输出时具有不同的角色。具体地说，多头注意力独立地计算h次注意力，然后将它们的输出连接到另一个线性投影中。通过声学编码器，原始声学特征被转换为高维特征表示；

音素嵌入模块和音素编码器：首先使用词嵌入矩阵将离散音素序列表示为256维的连续特征向量表示；对音素连续特征向量增加位置编码信息，建模特征序列的时间先后顺序信息；然后输入到基于多头自注意力机制编码模块，该编码模块由4个相同结构的子模块堆叠而成，每个编码模块包含两个子部分，一部分是多头自注意力层，后面接全连接映射层，头数设置为4，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1。通过音素编码器，原始音素嵌入表示被转换为高维特征表示；

判别器：为了使文本的编码表示与语音的编码表示更加相似，加入了生成-对抗训练，其中音素编码器即为生成器，判别器用来判断编码后的特征来自语音序列还是音素序列。生成器用来迷惑判别器，判别器用来识别信号的真假，通过这种对抗的训练方式，可以让音素编码器学习到声学的分布表示。通过这种使用音素-文本数据模仿语音-文本数据，来大大的增加中英混合语音识别的训练数据，提高语音识别的性能。判别器的结构为多头自注意力模块与二分类器，将语音特征和音素特征输入到多头自注意力编码模块，该模块的结构与上述音频编码器和音素编码器结构相同，注意力模块个数为3，多头注意力头数设置为4，维度256维，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1。

解码器：在解码器部分，将上述声学编码器得到的声学高维表示和音素编码器得到的音素高维表示进行分别训练。上述的声学输入与音素输入交替进行训练，他们共享同一解码器，即解码器同时被语音-文本和音素-文本数据交替训练；解码器由6个相同的基于多头注意力的模块组成。这一部分有两种注意力模式，一种是自注意力模块用来将标注目标文本进行编码表示，首先将离散目标文本进行词嵌入表示，得到256维的向量表示；然后对目标文本连续特征向量增加位置编码信息，建模特征序列的时间先后顺序信息；随后将该词嵌入表示输入多头自注意力模块，得到目标序列的高维表示，这部分结构头数设置为4，维度为256，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1。

该部分获得的高维表示作为查询向量，上述声学编码器得到的声学高维表示和音素编码器得到的音素高维表示作为两组独立的键和值，使用查询向量对其进行逐元素计算余弦距离，根据距离的大小得到每一个键的注意力分数；使用键的注意力分数对值序列进行加权平均，得到上下文向量表示；将上下文向量通过全连接映射层进行维度转换，得到最终的解码表示；将得到的解码表示输入到softmax函数得到概率最大的目标。这种训练过程在语音输入和音素输入之间交替进行，直至模型收敛。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种统一中英混合文本生成和语音识别的端到端系统，其特征在于，包括：

声学编码器、音素编码器、判别器和解码器；所述音素编码器和所述判别器构成生成对抗网络，所述音素编码器作为所述生成对抗网络的生成器，所述判别器为所述生成对抗网络的判别器，所述声学编码器作为所述生成对抗网络的真实数据输入，以这种对抗生成网络来促使音素编码器输出的音素编码表示的分布接近声学编码器输出的声学编码表示，所述解码器将所述声学编码表示和所述音素编码表示融合，得到解码表示，再将所述解码表示输入到softmax函数得到概率最大的输出目标；

所述系统还包括，语音特征提取模块和声学特征序列卷积降采样模块；

所述系统还包括，标注目标序列的高维表示模块，将所述语音波形对应的标注目标文本进行词嵌入表示，将所述词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，该高维表示作为查询向量；所述基于多头自注意力的模块与所述声学编码器的基于多头自注意力的模块结构相同；

具体的方法为：

将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示；

2.根据权利要求1所述的统一中英混合文本生成和语音识别的端到端系统，其特征在于，所述将卷积操作后的声学特征序列输出到所述声学编码器之前还包括：对卷积操作后的声学特征序列增加位置编码信息，建模卷积操作后的声学特征序列的时间先后顺序信息；

3.根据权利要求1所述的统一中英混合文本生成和语音识别的端到端系统，其特征在于，所述音素编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

4.根据权利要求1所述的统一中英混合文本生成和语音识别的端到端系统，其特征在于，所述判别器的结构为所述基于多头自注意力的模块与二分类器；所述判别器的结构中的基于多头自注意力的模块与所述声学编码器的基于多头自注意力的模块结构相同；

具体的方法为：

对所述二维的向量表示经过softmax函数，转换为概率形式。

5.根据权利要求1所述的统一中英混合文本生成和语音识别的端到端系统，其特征在于，所述系统还包括：中英混合音素序列生成模块；

具体的音素生产方法为：