CN113270086A

CN113270086A - 一种融合多模态语义不变性的语音识别文本增强系统

Info

Publication number: CN113270086A
Application number: CN202110815743.4A
Authority: CN
Inventors: 陶建华; 张帅; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-08-17
Anticipated expiration: 2041-07-19
Also published as: US11488586B1; CN113270086B

Abstract

本发明提供一种融合多模态语义不变性的语音识别文本增强系统，包括：声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对短时音频帧提取声学特征，将声学特征输入到声学降采样模块进行降采样，得到声学表示；将语音数据输入现有语音识别模块，得到输入文本数据，将输入文本数据输入到编码器，得到输入文本编码表示；将声学表示和所述输入文本编码表示输入到解码器融合，声学模态和文本模态的表示进行相似性约束，得到解码表示；该方法通过融合跨模态语义不变性约束损失，减少模型对数据的依赖，提高模型的性能，适用于中英混合语音识别。

Description

一种融合多模态语义不变性的语音识别文本增强系统

技术领域

本申请涉及中英混合语音识别文本增强领域，尤其涉及一种融合多模态语义不变性的语音识别文本增强系统。

背景技术

中英混合现象是指在说话过程中切换语言，主要包括句间转换和句内转换两种类型。这种现象给语音识别技术带来了巨大挑战。主要有说话人发音不标准带来的口音问题；建模单元更多，更复杂；不同语言协同发音；数据搜集困难；数据标注困难等问题。随着深度学习技术的发展，特别是端到端模型，单语语音识别技术已有极大地提升。但是端到端模型只能使用语音-文本对数据进行训练，模型对文本数据的利用是极其有限的，大量的纯文本数据无法被直接使用，这限制了模型的性能提升。在实际的语音识别系统中，往往会对模型初步识别的结果进行进一步的处理，以提高语音识别系统的的性能。

常见的处理技术有语言模型重打分，语言模型融合等，这种方法使用大量的额外文本语料训练语言模型，然后使用语言模型对识别结果进行重打分，以提高识别系统的性能。但是这种语言模型是单独训练的，学到的是通用的语言信息，学习不到识别系统的错误模式，无法针对特定的识别系统进行优化。因此一些端到端的语音识别文本增强系统用来解决这个问题。这种模型以语音识别系统的识别结果作为输入，标注文本作为目标。意图通过学习识别系统的错误分布，将识别错误的部分纠正过来以提高语音识别的准确率。

公开号为CN112257437A的专利公开了一种语音识别文本增强方法、装置、电子设备和存储介质，其中方法包括：确定待文本增强的语音数据的识别文本；将所述识别文本，以及所述语音数据的用户关联文本和/或所述语音数据的历史语音数据的历史识别文本输入至语音识别文本增强系统，得到所述语音识别文本增强系统输出的文本增强结果；其中，所述语音识别文本增强系统是基于样本语音数据的样本识别文本及其样本文本增强结果，以及样本用户关联文本和/或所述样本语音数据的历史语音数据的样本历史识别文本训练得到的。

公开号为CN108417202B的专利公开一种语音识别方法及系统。所述语音识别方法包括：提取待识别的语音数据的声学特征；基于声学-音素神经网络模型，将所述声学特征解码为音素阵列；以及基于音素-语言神经网络模型，将所述音素阵列进一步解码为文字序列。本发明实施例的语音识别系统，声学-音素神经网络模型的输出的音素阵列就可以作为音素-语言神经网络模型的输入，无缝衔接了声学-音素神经网络模型和音素-语言神经网络模型，从整体上看，提供了另一种全新的端到端的语音识别架构。

现有技术缺点

已有的端到端语音识别文本增强系统只将语音识别系统的识别结果作为输入，标注文本作为目标，没有考虑相应的声学信息。由于当代语音识别系统的准确率已经很高，大部分识别结果是正确的，因此语音识别文本增强系统的输入和输出大部分是相同的，只有少量识别错误的部分是不一样，语音识别文本增强系统就是为了学习到这种差异。同时由于神经网络强大的建模能力，已有的端到端语音识别文本增强系统非常容易过拟合，需要大量的训练数据,没有融合声学模态与文本模态语义上的相似性。无法适用于中英混合语音识别问题，模型训练困难，错误率高。

发明内容

有鉴于此，本发明第一方面提供一种融合多模态语义不变性的语音识别文本增强系统，所述系统包括：

声学特征提取模块、声学降采样模块、编码器和融合多模态语义不变性的解码器；所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对所述短时音频帧提取fbank声学特征，将所述声学特征输入到所述声学降采样模块进行降采样，得到声学表示；将所述语音数据输入现有语音识别模块，得到输入文本数据，将所述输入文本数据输入到所述编码器，得到输入文本编码表示；将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示。

优选的，所述语音识别文本增强系统还包括，将所述解码表示输入到softmax函数得到概率最大的目标。

优选的，对声学特征降采样的方法为：通过所述声学特征拼接得到降采样后的声学特征序列，即所述声学表示。

优选的，所述声学特征拼接的具体方法为：将前后5帧的所述声学特征进行拼接，将拼接后的所述声学特征通过全连接映射层进行维度转换，转换为256维特征向量。

优选的，所述语音识别文本增强系统还包括，训练数据扩增模块；所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据，具体方法为：

(1)将用于训练的语音数据分成10份，选择其中九份数据训练所述语音识别模块，剩下的一份识别出结果；

(2)应用步骤(1)所述方法将用于训练的10份语音数据依次轮次一遍，即可得到10份数据的识别结果作为语音识别文本增强系统的训练的输入文本数据；

(3) 在识别时应用dropout模型扰动技术，谱文本增强数据扰动技术对所述10份语音数据添加扰动，通过使用不同的扰动比例进行多次识别，获得语音识别文本增强系统训练的输入文本数据。

优选的，所述语音识别文本增强系统还包括词嵌入模块，所述将所述输入文本数据输入到所述编码器之前，使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示，将所述连续特征向量表示输入到所述编码器。

优选的，所述语音识别文本增强系统还包括，对所述连续特征向量表示增加位置编码信息，对所述输入文本数据输的时间先后顺序信息进行建模，得到输入文本位置编码序列，将所述输入文本位置编码序列输入到所述编码器。

优选的，所述编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

所述基于多头自注意力的模块包括：两个子部分，第一子部分是多头自注意力层，后面接第二子部分，为全连接映射层，每个子部分进行层归一化操作；所述多头自注意力层和全连接映射层中间进行残差连接。

优选的，所述语音识别文本增强系统还包括，标注目标序列的高维表示模块，将所述输入文本数据对应的标注目标文本进行词嵌入表示，将所述词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，所述高维表示作为查询向量；所述基于多头自注意力的模块与所述编码器的基于多头自注意力的模块结构相同；

具体的方法为：

使用词嵌入模块将所述输入文本数据对应的标注目标文本表示为目标文本连续特征向量；

对目标文本连续特征向量增加位置编码信息，对特征向量的时间先后顺序信息进行建模，得到目标文本位置编码序列；

将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示。

优选的，将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示的具体方法为：

将所述声学表示和所述输入文本编码表示输入到解码器中，作为待查询的声学键和声学值集合，文本键和文本值集合；

应用所述查询向量对声学键集合和文本键集合进行逐元素计算余弦距离，根据距离的大小得到声学的注意力分数和文本的注意力分数；

使用所述声学的注意力分数对声学值集合进行加权平均，得到声学上下文向量表示；

使用所述文本的注意力分数对文本值集合进行加权平均，得到文本上下文向量表示；

将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束，得到两种模态信号表示的相似性损失；

将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换，通过上述相似性损失，得到最终的解码表示。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的该方案，通过融合声学信息，为语音识别文本增强系统增加了更多的先验信息，通过融合跨模态语义不变性约束损失，用来辅助文本增强的过程，来减少模型对数据的依赖，提高模型的性能，以适用于中英混合语音识别问题。

附图说明

图1为本发明实施例提供的一种融合多模态语义不变性的语音识别文本增强系统结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示本申请实施例提供的融合多模态语义不变性的语音识别文本增强系统，所述语音识别文本增强系统具体包括：

声学特征提取模块、声学降采样模块、编码器和解码器；所述声学特征提取模块对语音数据分帧处理分割成固定长度的短时音频帧，对所述短时音频帧提取fbank声学特征，将所述声学特征输入到所述声学降采样模块进行降采样，得到声学表示；将所述语音数据输入现有语音识别模块，得到输入文本数据，将所述输入文本数据输入到所述编码器，得到输入文本编码表示；将所述声学表示和所述输入文本编码表示输入到所述解码器融合，得到解码表示；将所述解码表示输入到softmax函数得到概率最大的目标；

对声学特征降采样的方法为：通过所述声学特征拼接得到降采样后的声学特征序列，即所述声学表示；

所述声学特征拼接的具体方法为：将前后5帧的所述声学特征进行拼接，将拼接后的所述声学特征通过全连接映射层进行维度转换，转换为256维特征向量；

所述语音识别文本增强系统还包括，训练数据扩增模块；所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据，具体方法为：

(3) 在识别时应用dropout模型扰动技术，谱文本增强数据扰动技术对所述10份语音数据添加扰动，通过使用不同的扰动比例进行多次识别，获得语音识别文本增强系统训练的输入文本数据。；

所述语音识别文本增强系统还包括，词嵌入模块：将所述输入文本数据输入到所述编码器之前，使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示，将所述连续特征向量表示输入到所述编码器。

所述语音识别文本增强系统还包括，对所述连续特征向量表示增加位置编码信息，对所述输入文本数据输入的时间先后顺序信息进行建模，得到输入文本位置编码序列，将所述输入文本位置编码序列输入到所述编码器。

所述编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

所述基于多头自注意力的模块包括：两个子部分，第一子部分是多头自注意力层，后面接第二子部分，为全连接映射层，每个子部分进行层归一化操作；所述多头自注意力层和全连接映射层中间进行残差连接；

所述语音识别文本增强系统还包括，标注目标序列的高维表示模块，将所述输入文本数据对应的标注目标文本进行词嵌入表示，将所述词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，所述高维表示作为查询向量；

具体的方法为：

将所述目标文本位置编码序列输入所述基于多头自注意力的模块得到目标序列的高维表示；

将所述声学表示和所述输入文本编码表示输入到所述解码器融合，得到解码表示的具体方法为：

实施例

如图1所示，融合多模态语义不变性的语音识别文本增强系统，包括：

声学特征提取：使用2019年ASRU 会议中英混合语音识别挑战赛提供的语音数据，其中训练集数据约200小时，验证集和测试集数据各20小时，数据均为中英混合wav语音数据，采样率为16K。首先将语音数据进行分帧，每25毫秒为一帧，帧与帧之间存在10毫秒的重叠，分帧以后提取80维的fbank特征，作为声学特征；

声学降采样模块：为了尽可能避免对声学特征的编码，减少模型开销，仅仅对声学特征进行降采样操作。方法为将前后5帧的特征进行拼接，将拼接后的特征通过全连接映射层进行维度转换，转换为256维特征向量，通过这种操作，可以将声学特征帧数减少为原来的1/10.有效地减少声学帧数，降低了文本与声学特征在长度上的不匹配，有利于后续的信息融合；

词嵌入模块和编码器：首先使用词嵌入模块将输入文本数据表示为256维的连续特征向量表示；对所述连续特征向量表示增加位置编码信息，建模所述输入文本数据输的时间先后顺序信息；然后输入到基于多头自注意力机制的编码模块，该编码模块由6个相同结构的子模块堆叠而成，每个编码模块包含两个子部分，一部分是多头自注意力层，后面接全连接映射层，头数设置为4，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子模块中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1。通过编码器，连续特征向量表示被转换为高维特征表示；多头注意力机制扩展了传统的注意机制，使之具有多个头部，使得每个头部在参与编码器输出时具有不同的角色。具体地说，多头注意力独立地计算h次注意力，然后将它们的输出连接到另一个线性投影中。注意力公式如下：

其中，Q、K、V分别表示输入的查询、键和值的集合，公式如下：

通过文本编码器，连续特征向量表示被转换为高维特征表示；

标注目标序列的高维表示模块和解码器：在解码器部分，将所述声学表示和所述输入文本编码表示输入到所述解码器融合，得到解码表示。标注目标序列的高维表示模块和解码器都由6个相同的基于多头注意力的模块组成。

标注目标序列的高维表示模块，将所述输入文本数据对应的标注目标文本进行词嵌入表示，得到256维的向量表示；然后对256维的向量表示增加位置编码信息，建模特征序列的时间先后顺序信息；将所述词嵌入表示输入所述基于多头自注意力的模块，得到高维表示作为查询向量；这部分结构头数设置为6，维度为256，全连接层的维度为1024，激活函数使用GLU，每个子层进行层归一化操作，两个子层中间进行残差连接，对自注意力层和全连接层使用dropout操作，参数为0.1；

将所述声学上下文向量表示与所述文本上下文向量表示进行逐元素进行相似性约束，约束采用L1和L2范数损失，对两种损失进行平均，得到两种模态信号表示的相似性损失；

将声学上下文向量表示和文本上下文向量表示通过全连接映射层进行维度转换，通过上述相似性损失，得到最终的解码表示；将得到的解码表示输入到softmax函数得到概率最大的目标。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种融合多模态语义不变性的语音识别文本增强系统，其特征在于，包括：

2.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，将所述解码表示输入到softmax函数得到概率最大的目标。

3.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，对声学特征降采样的方法为：通过所述声学特征拼接得到降采样后的声学特征序列，即所述声学表示。

4.根据权利要求3所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述声学特征拼接的具体方法为：将前后5帧的所述声学特征进行拼接，将拼接后的所述声学特征通过全连接映射层进行维度转换，转换为256维特征向量。

5.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，训练数据扩增模块；所述训练数据扩增模块生成数据用于训练所述语音识别文本增强系统的输入文本数据，具体方法为：

6.根据权利要求5所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括词嵌入模块；

将所述输入文本数据输入到所述编码器之前，使用词嵌入模块将离散的输入文本数据表示为连续特征向量表示，将所述连续特征向量表示输入到所述编码器。

7.根据权利要求6所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，对所述连续特征向量表示增加位置编码信息，对所述输入文本数据输入的时间先后顺序信息进行建模，得到输入文本位置编码序列，将所述输入文本位置编码序列输入到所述编码器。

8.根据权利要求1所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述编码器由多个结构相同的基于多头自注意力的模块连接而成；两个基于多头自注意力的模块之间由残差连接；

9.根据权利要求8所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，所述语音识别文本增强系统还包括，标注目标序列的高维表示模块，将所述输入文本数据对应的标注目标文本进行词嵌入表示，将所述词嵌入表示输入所述基于多头自注意力的模块，得到目标序列的高维表示，所述高维表示作为查询向量；

具体的方法为：

10.根据权利要求9所述的融合多模态语义不变性的语音识别文本增强系统，其特征在于，将所述声学表示和所述输入文本编码表示输入到所述解码器融合，通过声学模态和文本模态的表示进行相似性约束损失，得到解码表示的具体方法为：