CN117133275B

CN117133275B - 基于单元点积相似度特征的并行化语音识别模型建立方法

Info

Publication number: CN117133275B
Application number: CN202311078589.2A
Authority: CN
Inventors: 孙一鸣; 宋小龙; 刘葳; 陈庆
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-08-25
Filing date: 2023-08-25
Publication date: 2024-03-22
Anticipated expiration: 2043-08-25
Also published as: CN117133275A

Abstract

基于单元点积相似度特征的并行化语音识别模型建立方法属于语音处理技术领域。本发明提出了单元点积相似度计算方法，该方法既保证了经过等比缩放后的向量之间的相似度仍然一致的特性，又保证了所有向量的相似度结果计算的有界性，有效解决了点积相似度与余弦相似度两种相似度计算中存在的问题。本发明提出了一种新的端到端语音识别模型的优化方法，提出了并行化的贪婪汤算法。根据实验数据以及选用硬件设备的不同，对并行化的贪婪汤算法进一步优化，通过动态分组可以使并行化贪婪汤算法充分利用已有硬件设备的性能，针对大数量的语音数据集具有良好的模型优化效果和时间效率的提升。

Description

基于单元点积相似度特征的并行化语音识别模型建立方法

技术领域

本发明属于语音处理技术领域，特别是涉及到一种基于单元点积相似度特征的并行化语音识别模型建立方法。

背景技术

语音识别就是将语音信号转化成文字。语音信号本质上是一种波，这种波被录音器以数字化的形式记录下来。因此将语音的数字信号送入语音识别模型之前，通常需要进行分帧、傅里叶变换等操作。这些操作也被叫做语音的特征提取。语音的特征提取完成之后，会得到一个特征向量的序列(每一帧对应一个特征向量)，语音识别就是要将这个向量序列送入语音识别模型，得到最终的识别文本。也就是说语音识别中最核心的两个问题就是特征处理和模型建立。

虽然目前的端到端语音识别技术主要使用了深度学习技术，语音识别中由于语音时序特征的特殊性，模型设计不能直接使用其它领域的方法，需要对方法进行改进。注意力可以明显提升整个模型的效果，但计量相对较高。注意力在结构上拓展性较差，无法很好的利用局部或全局信息。Transformer在受限数据训练的情况下，容易出现过拟合的问题，因此需要寻求对算法进一步优化方法。对于最优模型结构的选取，需要考虑精度和收敛速度的平衡，即使是在非流式语音识别任务中，也需要提高模型最终的推理解码速度。

在语音识别应用的技术中，对特征进行比较时都要用到相似度判断，目前比较流行的相似度判断方法有两种，一种是点积相似度，一种是余弦相似度。点积相似度与模长和夹角相关，首先，夹角不变的情况下，存在两个完全相同向量的相似度的值比两个不同的向量的相似度的值小的问题，这明显不符合相似度判定的认知。其次，当向量模长较大时，还存在计算结果溢出的问题。而余弦相似度只考虑了两个向量的夹角关系，当夹角相同时，两个向量不改变方向，只改变模长，相似度不变。这也不符合相似度判定的常识。

语音识别建模时，为了去除训练过程中偏差较大的模型。通常使用传统的贪婪汤(greedy soup)方法，该方法的缺点是：验证集中产生的失真(loss)结果，不能完全反映模型的好坏，另一方面失真效果最低的若干个模型中可能存在对平均结果十分不利的模型。因此直接对失真效果最低的若干个模型进行参数平均，效率较低并且得到不一定是最优的模型结果。

因此现有技术当中亟需要一种新型的技术方案来解决这一问题。

发明内容

本发明所要解决的技术问题是：提供一种基于单元点积相似度特征的并行化语音识别模型建立方法，用于解决目前比较流行的点积相似度和余弦相似度均不适用于语音识别技术中对特征进行比较时的相似度判断；语音识别建模时传统的贪婪汤很难得到最优的模型结果等技术问题。

基于单元点积相似度特征的并行化语音识别模型建立方法，包括以下步骤，并且以下步骤顺次进行，

步骤一、待识别语音输入到语音特征处理模块对语音信号进行特征提取，获得待识别语音向量特征；构建语音识别模型，将模型中的向量模长和待识别语音向量特征模长进行归一化处理，让语音向量特征在归一化的数字范围内重新分布；

步骤二、将归一化之后的模型向量与待识别语音向量进行点积操作，计算并获得模型向量与待识别语音向量的单元点积相似度；

步骤三、将注意力中的缩放系数引入到单元点积相似度中，在点积的结果上乘以一个常数，对模型向量与待识别语音向量归一化之后的数值结果进行缩放，得到缩放后的单元点积相似度从而增加两个向量的区分度；

用缩放后的单元点积相似度替代传统注意力机制中查询向量与键向量之间的点积相似度，并以此定义基于单元点积相似度的注意力机制；

步骤四、将基于单元点积相似度的注意力机制运用到Transformer和Conformer框架中，在注意力机制下建立编码解码模型，该编码解码模型作为语音识别模型；

步骤五、通过采集的开源语音数据集作为训练集对语音识别模型进行训练，一个轮次训练的模型个数由相应硬件配置的GPU个数确定，有N个GPU一个轮次能够同时对连续的N个没判断过的新模型进行并行处理；

由于语音识别模型属于神经网络模型，在每个轮次的训练中，神经网络的参数用于存储网络训练过程中学习到的语音信号特征和发音模式；

每个轮次的训练均生成不同的模型，根据模型的失真效果，将模型从好到坏进行排序，并依次对模型进行标记，对标记的模型进行所有可能的排列组合，将每个组合训练时用到的神经网络的各参数保存下来，并按照失真度进行排序，取指定组数的模型，对这些模型的参数进行平均获得参数平均模型，再对参数平均后的模型进行筛选，选出各种组合中平均模型失真效果最低的模型集合，对组合中加入的模型下标进行更新，持续进行循环训练，直至最后一个模型加入完成，最后筛选出的模型就是识别效果最好的模型。

所述步骤二中模型向量与待识别语音向量的单元点积相似度为：

其中S表示相似度的值，代表模型中的任意一个向量，/>代表待识别语音的向量，并且/>Rⁿ表示n维实数向量空间，/>分别表示/>的模长，不同时为0，并且定义：当/>即/>时，S＝0。

所述基于单元点积相似度的注意力机制表示如下：

output＝softmax(score)·V

其中，q_i为查询矩阵Q的第i个行向量，k_j为键矩阵K的第j个行向量，V为值矩阵，V的每一列为一个值向量，score为得分矩阵，D_ij表示D的第i行第j列的元素，||q_i||_p和||k_i||_p分别表示向量q_i和k_j的p范数，0表示零向量，α是一个可学习的参数，|α|是α的绝对值。

通过上述设计方案，本发明可以带来如下有益效果：

1、本发明提出了单元点积相似度计算方法并在理论上给出了公式的推导与证明。该方法既保证了经过等比缩放后的向量之间的相似度仍然一致的特性，又保证了所有向量的相似度结果计算的有界性，有效解决了点积相似度与余弦相似度两种相似度计算中存在的两个问题，一个是对于等比缩放后的向量之间相似度不相等的问题，一个是相似度结果无界，可能产生结果溢出的问题。

2.本发明提出了一种新的端到端语音识别模型的优化方法，提出了并行化的贪婪汤算法。根据实验数据以及选用硬件设备的不同，对并行化的贪婪汤算法进一步优化，通过动态分组可以使并行化贪婪汤算法充分利用已有硬件设备的性能。

3、通过实验数据可以看出，本发明提出的单元点积相似度和动态并行贪婪汤算法针对大数量的语音数据集具有良好的模型优化效果和时间效率的提升。

附图说明

以下结合附图和具体实施方式对本发明作进一步的说明：

图1为本发明中将单元点积相似度应用在注意力模块中的Transformer模型结构框图。

图2为本发明中将单元点积相似度应用在注意力模块中的Conformer模型结构框图。

图3为本发明的实施例中轮次(epoch)与失真(loss)效果关系图。

具体实施方式

为了更好的完成语音转文字的任务，在语音特征处理模块中，针对语音信号向量化之后的语音特征，为了更好的比较模型向量特征与待识别语音向量特征(简称两个向量)的相似程度，提出了点积单元相似度计算公式，具体实现步骤如下：

1.将模型中的向量模长和待识别语音向量特征模长进行归一化。让语音特征在特定数字范围内重新分布。

2.将归一化之后的两个向量进行点积操作。计算模型向量与待识别语音向量的相似度。

3.在点积的结果上乘以一个常数，对两个向量归一化之后的数值结果适度放大。增加两个向量的区分度。

为了证明点积相似度方法能够是相似度结果收敛，并且对各种特征向量比较的有效性，给出了具体的理论证明：

1.归一化比较是数理统计分析中常用的方法。对于两个向量整体压缩，且压缩之后两个向量和为1。理论证明相似度的值有界，解决了相似度结果溢出的问题。

2.夹角不变时，两个向量变化时相似度的单调性。待识别语音向量和模型向量比较时，相似度会随两个向量模长的变化而变化。

3.两个向量模长不变时，夹角越小，相似度越高。夹角越小，待识别语音向量和模型向量就越相似。

将点积单元相似度方法与注意力机结合，可以在语音识别框架中得到更高级的抽象语音特征。

1.定义缩放的单元点积相似度。将注意力中的缩放系数引入到单元点积相似度中，可以得到更好的语音局部和全局特征。

2.将缩放的单元点积相似度与注意力机制中的Q、K结合，查询矩阵Q包含的是标注后的文本信息，键矩阵K包含的是语音信息，结合后能够得到带有相似度权重的信息。

3.分别在Transformer和Conformer框架的注意力机制下建立编码解码模型。

每个轮次的训练都会生成不同的模型，要根据模型的失真效果，对多个模型进行重新的排列组合。一次处理的模型个数可以根据硬件配置动态设定。

1.对所有模型从好到坏进行排序，并依次对模型进行标记

2.考虑标记模型的所有可能的组合，将每个组合进行参数平均，在对模型进行测试。

3.选出各种组合中平均模型效果最好的模型集合，对模型集合下标进行更新。

4.如果没到最后一个模型的下标，就重复2和3，如果已经是最后一个模型下标，该模型就是最终的模型。

实施例：

下面以Wenetspeech数据集进行语音识别作为本发明的实施例，来说明前面的方案的具体应用过程。该数据集是一个超过一万小时的开源语音数据集，有3个子集，分别是S、M、L，其训练集的数据量分别是100小时、1000小时和10000小时，将这3个子集分别记作wenetspeech-S、wenetspeech-M、wenetspeech-L。

一、向量归一化：按照语音识别建模的一般顺序是要对一段长语音进行分帧、特征提取、建立模型，分帧的方法比较固定，重点就是特征提取和建立模型。要想进行特征提取，就需要对分帧后的语音特征进行向量化处理。本发明提出了一个新的相似度计算公式。

1.将模型中的向量模长和待识别语音向量特征模长进行归一化。让语音向量特征在特定数字范围内重新分布。

如果向量设代表模型中的任意一个向量。向量/>代表待识别语音的向量，这两个的模长不全为0。则可以按照式子/>和式子/>分别对这两个向量进行归一化，这样，两个向量就在数值域中转换为有界的向量。

其中S表示相似度的值，分别表示/>的模长，/> 不同时为0。特别地，定义当/>即/>时，S＝0。

如果引入范数和内积的概念，单元点积相似度也可以被写作：

其中x₁∈Rⁿ，x₂∈Rⁿ，(x₁,x₂)表示向量x₁和x₂的内积，||x₁||_p和||x₂||_p分别表示向量x₁和x₂的p范数，0表示零向量。

在数学上，和相等的两个数，差越小乘积越大。因此当两个数相加等于1时，两个数各为1/2时差最小。因此两个数最大的乘积是1/4，因此对最后的结果乘以系数4，可以将相似度的结果放大到接近1的数值。

二、方法理论证明：为了证明点积相似度方法能够是相似度结果收敛，并且对各种特征向量比较的有效性，给出了具体的理论证明。

1.对于两个向量整体压缩，且压缩之后两个向量和为1。归一化比较是数理统计分析中常用的一种方法。对压缩后的向量进行相似度计算，相似度的值有界。

若向量代表模型中的任意一个向量。向量/>代表待识别语音的向量，设/> 是两个模长不全为0的向量，记：/>则：

当不变时，/>也不变。此时θ是S的唯一变量，θ∈[0,π]。因为cosθ在[0,π]上单调减，所以S关于θ单调减。因此当两个向量的模长不变时，他们之间的夹角越小，S就越大，当θ＝0时，S取最大值/>

三、将点积单元相似度方法与注意力机结合，可以在语音识别框架中得到更高级的抽象语音特征。

无论是传统“注意力-编码器-解码器”模型中的注意力机制还是Transformer中的自注意力机制，都是用点积运算或缩放的点积作为向量相似度，其中用于缩放的系数为一个常数d_k为查询或键向量的维数。

定义缩放的单元点积相似度：

其中x₁∈Rⁿ，x₂∈Rⁿ，(x₁,x₂)表示向量x₁和x₂的内积，||x₁||_p和||x₂||_p分别表示向量x₁和x₂的p范数，0表示零向量，α是可学习的参数，|α|是α的绝对值。

用缩放的单元点积相似度替代传统注意力机制中查询向量与键向量之间的点积相似度，并以此作为基于单元点积相似度的注意力机制的定义。特别地，基于单元点积相似度的自注意力机制(不考虑注意力头)可以用如下公式表示：

D_ij＝(||q_i||_p+||k_j||_p)² (6)

output＝softmax(score)·V (8)

其中q_i为查询矩阵Q的第i个行向量，k_j为键矩阵K的第j个行向量，V为值矩阵，V的每一列为一个值向量，score为得分矩阵。D_ij表示D的第i行第j列的元素，||q_i||_p和||k_j||_p分别表示向量q_i和k_j的p范数，0表示零向量，α是一个可学习的参数，|α|是α的绝对值。

3.分别在Transformer和Conformer框架的注意力机制下建立编码解码模型。Transformer模型结构如图1所示，Conformer模型结构如图2所示。

四、由于语音识别模型属于神经网络模型，在每个轮次的训练中，神经网络内部可学习的变量也称神经网络的参数用于存储网络训练过程中学习到的语音信号特征和发音模式，神经网络的参数包括了如权重和偏置等特征的关联度等信息。权重相当于控制神经元之间的连接强度及信息传递的重要性系数，偏置则用于调整神经元是否激活的阈值。

表1：以num_look＝2为例说明并行化的贪婪汤算法。

表1中的例子是向后看2个模型，并行处理，理论上，有N个GPU可以往后看N个模型去并行处理。并行贪婪汤(num_look＝N)的每一次循环最多可以处理N个没有判断过的新模型，因此理论上最多拥有原有贪婪汤的N倍速，而占用的资源也随着N的增大而指数级地增加。由于资源条件的限制，双显卡的设备中，可以设置num_look＝2。具体算法如下：

五、有效性分析

1.为了分析本发明提出的相似度计算方法的有效性，首先利用AIShell-1(178小时)数据集在Transformer架构上进行实验，结果如下表。使用本发明的相似度方法在三个不同的注意力位置识别结果都有提升，在编码器端使用效果最好，当不适用相对位置编码时，与原框架方法相比也获得的较好的效果。

表2Transformer相关实验结果

根据上述结论，又在Conformer架构上的编码器位置进行了实验。发现本发明提出的方法也能获得最好的识别效果，添加语言模型后识别效果更好。

表3在Transformer和Conformer架构下的实验结果

表2和表3展现了在Transformer和Conformer的编码器的自注意力机制上使用单元点积相似度方法的结果，CTC greedy search和attention rescoring分别表示按照CTC贪婪搜索和解码器重打分的解码方式解码，其对应的列为解码得到的字错率结果。最后一列表示模型训练时每个epoch所费花的时间。从表中可以看到，在编码器的自注意力机制模块中使用单元点积相似度，可以明显地提升模型的性能。由于单元点积相似度的使用可以在框架下被并行地操作，因此训练时间也只增加了5％左右。

2.为了验证本文提出的单元点积相似度建立的多个小模型上用并行化贪心汤(greedy soup)算法筛选最终的大模型，利用1万小时数据集在Conformer框架下进行测试。

表4并行化方法在wenetspeech-S数据集上SimiConformer的实验结果

表4中的第二列为验证集上的字错率，第三列为测试集test_net上的字错率，第四列为测试集test_meetting上的字错率，最后一列为做greedy soup或parallelizedgreedy soup(num_look＝2)所花费的时间。可以看到，使用本发明中的单元点积相似度方法不仅可以显著地降低字错率，在验证集、test_net和test_meetting上分别相对下降了5.2％、2.7％和4.6％。提出的并行化方法((num_look＝2))与传统的greedy soup效果相当，但并行化方法(num_look＝2)相对于传统方法拥有约40％的速度提升。

表5并行化方法wenetspeech-L数据集上SimiConformer的相关实验结果

从表5可以看到，在wenetspeech-L上，SimiConformer在验证集上与基线模型表现相当，在测试集test_net上表现更好，但在测试集test_meetting上表现稍差。提出的并行化方法((num_look＝2))与传统的greedy soup效果相当，但并行化方法(num_look＝2)是传统方法训练速度的1.585倍。

3.最后通过每个轮次训练模型的失真效果对本发明提出的方法进行评估。轮次(epoch)与失真(loss)效果关系图如图3所示。本发明的方法在每个轮次(Epoch)训练完后都会得到一个模型及其对应的验证集的失真(loss)程度，图中的两条曲线就是对模型的失真效果随轮次增大而变化的情况反映。可以看到，本发明在验证集的失真效果上总体低于原有方法，这再次表明了基于单元点积相似度的方法和模型的有效性。

Claims

1.基于单元点积相似度特征的并行化语音识别模型建立方法，其特征是：包括以下步骤，并且以下步骤顺次进行，

步骤五、通过采集的开源语音数据集作为训练集对语音识别模型进行训练，一个轮次训练的模型个数由相应硬件配置的GPU个数确定，有N个GPU一个轮次能够同时对连续的N个没判断过的新模型进行并行处理，

2.根据权利要求1所述的基于单元点积相似度特征的并行化语音识别模型建立方法，其特征是：所述步骤二中模型向量与待识别语音向量的单元点积相似度为：

其中S表示相似度的值，代表模型中的任意一个向量，/>代表待识别语音的向量，并且Rⁿ表示n维实数向量空间，/>分别表示/>的模长，/>不同时为0，并且定义：当/>即/>时，S＝0。

3.根据权利要求1所述的基于单元点积相似度特征的并行化语音识别模型建立方法，其特征是：所述基于单元点积相似度的注意力机制表示如下：

D_ij＝(||q_i||_p+||k_j||_p)²

output＝softmax(score)·V

其中，q_i为查询矩阵Q的第i个行向量，k_j为键矩阵K的第j个行向量，V为值矩阵，V的每一列为一个值向量，score为得分矩阵，D_ij表示D的第i行第j列的元素，||q_i||_p和||k_j||_p分别表示向量q_i和k_j的p范数，0表示零向量，α是一个可学习的参数，|α|是α的绝对值。