CN115019776A

CN115019776A - 语音识别模型及其训练方法、语音识别方法及装置

Info

Publication number: CN115019776A
Application number: CN202210643822.6A
Authority: CN
Inventors: 张飞; 付合英; 郝斌; 任晓颖; 高鹭; 朱学超
Original assignee: Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia University of Science and Technology
Priority date: 2022-06-09
Filing date: 2022-06-09
Publication date: 2022-09-06

Abstract

本发明公开了一种语音识别模型及其训练方法、语音识别方法及装置，涉及语音识别技术领域，本发明技术方案中将深度残差收缩网络和门控卷积网络引入到电网调度语音识别中，通过深度残差收缩网络中的收缩模块移除阈值区域的冗余信息来提高卷积神经网络特征提取能力，通过门控卷积网络捕获有效上下文。在此基础上，并对其改进提出了残差收缩卷积网络和门控卷积前馈网络，构建了联合CTC的RSCN‑GCFN端到端电网调度语音识别模型。

Description

语音识别模型及其训练方法、语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其是一种语音识别模型及其训练方法、语音识别方法及装置。

背景技术

随着配电网规模的扩大和信息化建设的推进，配网指挥涉及的信息不断增多。调度员每天需要进行大量重复性的发令、收令、核对等工作，工作量过大，可能会增加失误风险，同时传统电网调度通常使用电话形式进行信息传递，在处理大型故障时，容易形成信息拥挤堵塞，造成行为失配与处置失效。因此如今大规模电网调度给调度员带来了巨大的挑战。

随着人工智能技术的快速发展，智能交互开始走进人们的生活。语音识别技术也正逐渐应用到电网调度中去。也由此产生了采用智能虚拟调度员代替重复性和繁杂的人工劳动的需求。其中，语音识别环节关系到虚拟调度员对现场人员汇报信息的准确理解，是调度指令正确处理和发送的基础。通过语音识别技术可以将语音转为文字方便将识别的文字作为调度日志，同时通过语音识别技术能够智能查询调度记录，极大的减轻了调度员的劳动强度。

然而，电网调度员、现场工作人员处于噪声环境下工作，噪声环境是影响语音识别率的重要因素。因此，需要进一步增强语音识别模型的抗噪能力以满足电网调度对语音识别的需求。其次，电网调度行业与其他行业相同，具有自己领域特定的专业词汇，例如地址、机器设备和线路名称。同时电网调度中有个别语音有时候与普通话的发音是不同的，比如将“0”读作“洞”，将“一”读作“幺”，将“七”读作“拐”等。目前存在的语音识别技术都是针对普通场景下的，面对相关电网调度语音时，识别出正确结果的概率较低，因此，研究具有抗噪能力且面向电网调度的语音识别是十分必要的。

现有技术中，早期以隐马尔可夫为代表的传统模型在语音识别任务上取得了较好的效果，但是传统的语音识别系统需要多个组件共同组成，训练较为复杂，不便于同时优化模型。而随着深度学习神经网络的发展，端到端语音识别框架成为主流的趋势，同时相比传统语音识别模型取得更加优异的效果。但同时忽略了噪声和冗余信息对模型的影响，冗余信息主要由于提取声学特征时窗口宽度通常大于窗口偏移这一事实引起的。因为在训练期间，模型必须能够看到数据中代表性变化的样本，以便将其推广到具有类似变化的测试数据。虽然CNN可以解决语音信号频率维度的多样性和可变性，以提高模型的抗噪能力，但CNN在提取有效特征方面的最大性能是有限的，并且对不同程度噪声和冗余信息难以进行有效的特征提取。这将导致解码器输出的上下文信息不具有判别性，并将导致模型对原始特征的变化敏感，从而使模型的抗噪能力较差。同时端到端模型在解码时没有引入电网调度语言先验知识，缺少语言模型，在电网调度专业词汇识别上效果不好。

发明内容

本发明的目的在于提供一种语音识别模型及其训练方法、语音识别方法及装置，以至少解决相关技术中，由于 CNN 提取有效特征能力的最大性能有限，导致模型的抗噪能力或者鲁棒性差的问题。

本发明采用的技术方案如下：

根据本公开的第一方面，提供了一种语音识别模型，包括：声学模型和语言模型；

所述声学模型包括：残差收缩卷积网络层和门控卷积前馈网络层；该模型将语谱图作为输入，通过残差收缩卷积网络消除语谱图噪声和冗余信息，提取出有效特征；然后通过堆叠门控卷积前馈网络控制特征之间依赖项的长度，以此捕获有效的长时间记忆；最后通过CTC损失函数进行训练；

所述语言模型包括多头注意力机制和前馈神经网络，在模型的输出接入线性层和SoftMax层以预测被遮蔽的词或字，通过多次预测训练迭代得到模型，使用的损失函数是交叉熵损失函数。

在本申请的一个实施例中，所述声学模型依次由卷积层、多层残差收缩卷积网络、线性层、多层门控卷积前馈网络、线性层和Softmax、联结时序分类损失函数训练层构成。

在本申请的一个实施例中，所述残差收缩卷积网络依次由卷积层、收缩模块、卷积层、收缩模块组成，在所述收缩模块中引入软阈值函数，将噪声信息朝着“零”的方向进行收缩。

在本申请的一个实施例中，所述门控卷积前馈网络依次由卷积层、门控线性单元、前馈神经网络、dropout层组成，所述前馈神经网络包括矩阵线性变化Linear层和Swish非线性激活函数。

根据本公开的第二方面，提供了一种上述语音识别模型的训练方法，包括：

声学模型训练：将语谱图输入声学模型，输出可能的文本序列；

语言模型训练：通过无监督形式进行学习文本之间的关系；声学模型输出的文本序列输入语言模型，语言模型输出为对应文本的概率；

模型浅融合：在预测语音时，将声学模型和语言模型进行融合，共同解码。

根据本公开的第三方面，提供了一种应用上述语音识别模型的语音识别方法，包括如下步骤：

S101、获取待识别语音数据；

S102、对语音信号进行声学特征提取，提取出能代表语音信号的特征向量-语谱图；

S103、通过语音识别模型对提取的声学特征进行处理输出文字序列。

在本申请的一个实施例中，声学特征提取包括如下步骤：

步骤（1），对获取的原始语音信号中的高频部分进行预加重；

步骤（2），对预加重后的语音信号进行分帧加窗；

步骤（3），将分帧加窗之后的语音信号通过快速傅里叶变换进行转换，将时域信息转换为频域信息；

步骤（4），将每帧的频谱取模和取对数计算谱线能量，然后将其拼接得到语谱图特征。

根据本公开的第四方面，提供了一种语音识别装置，包括：

获取语音信号模块，用于获取待识别语音数据；

声学特征提取模块，用于对语音信号进行声学特征提取，提取出能代表语音信号的特征向量-语谱图；

语音识别模块，语音识别模块包括声学模型和语言模型两部分，将声学特征提取模块提取到的声学特征作为声学模型输入，通过声学模型产生相应的文本序列，然后将声学模型的输出作为语言模型的输入进行重打分，结合声学模型得分和语言模型得分决定最终的输出结果。

根据本公开的第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

本发明提供了一种语音识别模型及其训练方法、语音识别方法及装置，具有如下有益效果：为了增强模型抗噪能力，本发明技术方案中将深度残差收缩网络和门控卷积网络引入到电网调度语音识别中，通过深度残差收缩网络中的收缩模块移除阈值区域的冗余信息来提高卷积神经网络特征提取能力，通过门控卷积网络捕获有效上下文。在此基础上，并对其改进提出了残差收缩卷积网络和门控卷积前馈网络，构建了联合CTC的RSCN-GCFN端到端电网调度语音识别模型。

附图说明

图1是本发明实施例的RSCN-GCFN声学模型的一种可选的结构示意图。

图2是本发明实施例中一维深度可分离卷积的示意图。

图3是本发明实施例中Transformer 编码器的结构示意图。

图4是本发明实施例中BERT 的原始模型结构示意图。

图5是本发明实施例中基于BERT 的电网调度语言模型示意图。

图6是本发明实施例中一种语音识别方法的流程框图。

图7是本发明实施例中一种声学特征提取的流程框图。

图8是本发明基于 BERT 语言模型的电网调度语音识别框架图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和机构的描述。

根据本公开的第一方面，本申请实施例提供了一种语音识别模型，包括：声学模型和语言模型两部分，下面分别介绍两个模型的具体内容。

现有技术中，早期以隐马尔可夫为代表的传统模型在语音识别任务上取得了较好的效果，但是传统的语音识别系统需要多个组件共同组成，训练较为复杂，不便于同时优化模型。而随着深度学习神经网络的发展，端到端语音识别框架成为主流的趋势，同时相比传统语音识别模型取得更加优异的效果。但同时忽略了噪声和冗余信息对模型的影响，冗余信息主要由于提取声学特征时窗口宽度通常大于窗口偏移这一事实引起的。因为在训练期间，模型必须能够看到数据中代表性变化的样本，以便将其推广到具有类似变化的测试数据。虽然CNN可以解决语音信号频率维度的多样性和可变性，以提高模型的抗噪能力，但CNN在提取有效特征方面的最大性能是有限的，并且对不同程度噪声和冗余信息难以进行有效的特征提取。这将导致解码器输出的上下文信息不具有判别性，并将导致模型对原始特征的变化敏感，从而使模型的抗噪能力较差。

基于上述现有技术，本发明提出了RSCN-GCFN声学模型，该模型主要由残差收缩卷积网络层（Residual Shrinkage Convolutional Networks, RSCNs）和门控卷积前馈网络层（Gated Convolutional Feedforward Networks, GCFNs）组成；该模型将语谱图作为输入，通过残差收缩卷积网络消除语谱图噪声和冗余信息，提取出有效的特征，增强模型的抗噪能力；然后通过堆叠门控卷积前馈网络精确控制特征之间依赖项的长度，以此捕获有效的长时间记忆，最后通过CTC损失函数进行训练。

更加具体的，图1是本申请RSCN-GCFN声学模型的一种可选的结构示意图；如图1中所示，声学模型首先通过一层卷积层提取语谱图特征，再经过三层残差收缩卷积网络，利用其中的收缩模块提取有效的特征，其次经过线性层将残差收缩卷积网络输出变成二维特征，接下来经过10层的门控卷积前馈网络进行提取上下文信息，然后经过线性层和Softmax进行分类，最后模型通过联结时序分类损失函数训练。

进一步，上述残差收缩卷积网络主要在收缩模块中引入软阈值函数，软阈值指的是将噪声信息，朝着“零”的方向进行收缩。残差收缩卷积网络具体计算过程如下：

（1）卷积运算。设输入特征为

，经过卷积操作，得到了

的特征图

，计算公式如式1所示，

（式1）

（2）软阈值计算。进入收缩模块中，使用绝对值运算（Absolute）和全局均值池化层（Global Average Pooling, GAP），将

压缩为一个大小为

特征。然后传播到两层全连接层（Fully Connected, FC）网络中。FC是为了学习通道间的相关性。在第一层FC网络后，使用BN进行归一化操作，使用非线性ReLu激活函数是为了学习通道间的复杂相关性，第二层FC网络的神经元的数量等于输入特征图的通道数。使用Sigmoid激活函数将FC网络的输出缩放到（0，1）的范围，如公式2所示。之后，计算阈值，如公式3所示，

（式2）

式中，

是第

个神经元的特征，而

是第

个缩放参数，

（式3）

式中，

是特征图的第

层通道的阈值，而

、

和

分别表示特征图

的宽度、高度和通道数；

（3）软阈值化。软阈值化和ReLU激活函数有所不同的，软阈值主要降一些接近零的特征设置为零，而不是仅仅将负特征设置为零，这样可以保留有用的负特征。最后将软阈值化的结果与

特征图进行加操作，其计算公式如式4所示，

（式4）

式中，

表示输入第

层通道特征，

表示输出第

层通道特征，

是第

层通道特征的阈值。

在现有深度残差收缩网络（DRSN）的基础上，本发明将 DRSN 应用到语音识别中，通过 DRSN 中的收缩模块自适应学习到每组语谱图相关噪声和冗余信息的阈值，根据阈值可以将语谱图中的噪声和冗余信息进行消除，提取有效的特征，从而提高语谱图的特征学习能力。同时将 Swish 激活函数引入到 DRSN 中，因为 ReLU 强制的稀疏处理会减少模型的有效容量，使某些参数得不到激活，产生神经元“坏死”现象。对于比较复杂的任务，如果神经元“坏死”太多，就会造成神经网络表达能力下降，进而无法进行学习，在实验过程中，发现使用 ReLU 激活函数模型不能进行学习。并且 DRSN 中的收缩模块使用 ReLu 非线性学习通道之间复杂相关性，会导致收缩模块自主学习出来的某个通道阈值不是最优的。而Swish 弥补了 ReLU 的缺点，且有利于缓解网络中存在的梯度消失问题，在深层网络模型中，Swish 的效果是优于ReLU 的其 Swish 。

为了进一步提高 DRSN 的性能，本发明将 DRSN 中的收缩模块与每一层 CNN 相结合，让收缩模块结构成为卷积层的一部分，提出了残差收缩卷积网络（RSCNs）。RSCN 比RSBU 多一个收缩模块，而比 RBU 多两个收缩模块，RSCN充分发挥了收缩模块的优点。同时RSCN 的残差结构也减轻训练过程中网络层数较多引起的训练误差，提高模型的性能。

本发明上述门控卷积前馈网络（GCFNs）是在门控卷积网络（GCNN）的基础下进行的改进，GCFN融合了一维深度可分离门控卷积神经网络。深度可分离卷积主要分为深度卷积和逐点卷积两个过程，如图2所示为一维深度可分离卷积的示意图，假设输入

的特征图，深度卷积首先实现通道分离，然后进行逐通道卷积，一层通道只被一个卷积核卷积，一个卷积核也只负责一层通道，这个过程产生特征图的通道数

和输入的通道数是一样的；而逐点卷积是将得到的

特征图进行多通道卷积，逐点卷积决定了最终输出特征图的通道数。与常规卷积相比，深度可分离卷积极大的减少了计算量，在计算量相同的情况下，深度可分离卷积可以将网络层数比常规卷积做得更深。因此，使用一维深度可分离卷积能够极大程度的提高了GCFN的层数，使得能够捕获更加有效的长时间记忆。

同时GCFN还引入了FNN层（前馈神经网络），FNN层包括了矩阵线性变化Linear层和Swish非线性激活函数。通过FNN变换GCFN中的GCNN输出空间，在一定程度上增加了GCFN网络的有效容量，以此增加了模型的表现能力，公式5可表示该层网络。为了防止过拟合，增加了dropout层。然后，通过一条“捷径”连接，缓解了网络层数较多引起的梯度消失和网络退化问题。

（式5）

本发明上述联结时序分类（CTC）损失函数可以理解为是一种序列到序列映射的技术，它不仅解决了输入输出序列不对等问题，而且不需要输入输出序列在时间维度上进行任何预对齐。CTC 是通过引入一个“blank”符号对静音等状态建模，来实现特征序列与文本序列的自动对齐。基于 CTC 的声学模型训练目标是在给定输入序列 X 下，通过调整声学模型中的参数最大化输出标签序列的对数概率从而使得输出标签序列Y^∗无限接近正确标签序列，该过程极大的简化了声学模型的训练过程，其计算公式如式 6所示。

（式6）

CTC即给定语音特征序列

映射到对应的文本序列

，通常

。根据实际情况，会对特征序列X进行适当的下采样操作，减少训练过程的计算量，使得特征序列X的长度成倍数缩小，即

，但

。然后由CTC在每帧上计算得到一个

维的向量，其中，

表示建模单元总数。CTC是通过Softmax函数将输出向量转换为概率分布矩阵

，其中，

代表

时刻在第

个建模单元的概率。按照时间序列将每帧特征对应的建模单元进行合并，则可以得到一个输出序列

，称之为一条路径。在输入为

的条件下，输出路径为

的概率，其计算公式如式7所示。

（式7）

虽然在训练过程，会进行下采样操作。但预测的文本序列仍然会比标签文本的序列要长。因此，需要对预测的文本序列进行路径合并操作。首先进行删除重复的非空白标签，然后移除空白标签。由于空白标签表示这一帧没有输出，因此应该删除它以获得最终预测的文本序列。可以发现，最终预测的文本序列可以有多种路径可能。将最终预测的文本序列记作

，即

与

为一对多关系，将

与

之间的转换函数记作A。则给定输入X的情况下，计算最终的文本序列为

的概率，如公式8所示。

（式8）

式9通过前向后向算法将所有文本序列的负对数概率求和，得到最终CTC损失函数，然后反向传播训练不断降低CTC损失值使得到的输出序列无限接近正确标签序列，并通过CTC解码可以得出最终的文本序列。

（式9）

式10和式11可表示CTC解码计算过程，其中

表示最佳路径，

表示最终的解码结果，解码通常使用greedy search算法和beam search算法来搜索最大概率路径序列。

（式10）

（式11）

以上介绍的是本发明声学模型的相关内容，下面介绍本发明语言模型的详细内容。

BERT（Bidirectional Encoder Representation from Transformers）是一种通过预训练来学习语言表征的模型。它采用深层的 Transformer 双向编码器，使得输出向量具有了上下文信息的深层信息。其中，Transformer 编码器主要由两层网络组成，分别是多头注意力和前馈神经网络，如图3所示。

具体来说，BERT 模型的作用在于将输入文本转化为一组表示向量，其中每个表示向量对应于输入文本的 token（词或字），并且每个向量都融合了文本的全局信息。BERT 的原始模型结构如图4所示，在BERT原始模型结构中，对每个输入单元首先提取3种特征，即语义特征、片段特征和位置特征。其中，语义特征反映每个切分单元本身的语义信息。片段特征用于在两个句子同时输入 BERT 时，标记每个切分单元属于哪个句子。位置特征用于表示每个切分单元在句子中的位置。首先将输入文本切分为Tok1，Tok2，…，Toku，…，Tok_U，然后根据每个切分单元Toku得到相对应的位置特征和片段特征，并求和得到综合特征向量，输入到Transformer 编码器。

BERT 模型主要使用 Transformer 的编码层结构，能较好地适应各种领域文本的自然语言处理任务，但在输入特征未充分考虑电网调度语言特点的情况下，仍会影响调度语言合理性判断的准确率。并且由于原始的 BERT 模型训练需要进行无监督预训练和有监督微调，其中无监督的预训练包括遮蔽语言模型（Masked Language Model，MLM）和下句预测（Next Sentence Prediction，NSP），而在电网调度指令通常以单句的形式出现，所以在电网调度语言模型中，不需要 NSP 任务，在输入特征中也不再加入片段特征，而语义特征和位置特征则可以保留，为了避免分词错误对特征提取准确性产生影响，训练文本直接以字为粒度对调度语句进行切分。同时，因为 BERT 的无监督 MLM 任务与判断电网调度语言合理性任务思路是一致的，所以本发明直接使用 MLM 任务进行训练之后，可以直接计算电网调度句子的合理性概率，从而不需要 BERT 的有监督微调过程。使用优化后的语言模型进行预测电网调度语句是否合理的时候，只需要依次通过 Mask 进行遮盖输入文本即可，在模型的最后输出接入全连接神经网络和 SoftMax 层以预测被遮蔽的词或字，通过多次预测训练迭代得到模型，使用的损失函数是交叉熵损失函数。测试时，将其输入文本中字或者词对应得到概率进行连乘操作，从而计算出该文本语句得合理概率。具体基于BERT 的电网调度语言模型如图5所示。

如图5所示，使用优化后的BERT语言模型进行预测语句是否合理的时候，只需要依次通过Mask进行遮盖输入文本即可，为了避免分词错误对特征提取准确性产生影响，训练文本直接以字为粒度对调度语句进行切分，在输入特征中只保留字嵌入特征和位置嵌入特征；该模型主要包括多头注意力机制、前馈神经网络两部分，假定模型输入是X，则多头注意力计算如公式（12~15）所示，在模型的最后输出接入线性层和SoftMax层以预测被遮蔽的词或字，通过多次预测训练迭代得到模型，使用的损失函数是交叉熵损失函数。测试时，将其输入文本中字或者词对应得到概率进行连乘操作，从而计算出该文本语句的合理概率。

式

表示自注意力机制计算公式

其中

用于尺度缩放。

式（14），（15）表示多头注意力的计算公式，对多头注意力信息进行拼接。

根据本公开的第二方面，本申请实施例提供了一种上述语音识别模型的训练方法，包括：

声学模型训练：将语谱图输入RSCN-GCFN声学模型，输出可能的文本序列；

语言模型训练：基于BERT的语言模型通过无监督形式进行学习文本之间的关系；声学模型输出的文本序列输入语言模型，语言模型输出为对应文本的概率；

模型浅融合：在预测语音时，将声学模型和语言模型进行融合，共同解码。具体的，先通过声学模型产生相应的文本序列，然后将声学模型的输出作为语言模型的输入通过语言模型进行重打分，结合声学模型得分和语言模型得分决定最终的输出结果。因为语言模型主要学习文本中的先验知识，将其与声学模型进行浅融合，能够极大程度减少同音字错误，进而提高模型识别率。

根据本公开的第三方面，本申请实施例提供了一种应用上述语音识别模型的语音识别方法，图6是本实施例一种语音识别方法的流程框图，该方法用于将声音信号转换为对应的文本，该方法包括如下步骤：

S101、获取待识别语音数据。

S102、对语音信号进行声学特征提取。由于获取的原始音频是一维的语音信号，在时域空间很难看出信号的特性，需要先将信号从时域转化到频域，提取出能代表语音信号的特征向量-语谱图。

S103、通过语音识别模型对提取的声学特征（语谱图）进行处理输出文字序列。

语音信号是常见的一维信号波，由于语音信号易受到外界环境影响，具有不平稳性，导致很难在语音信号中寻找到规律。而通过声学特征提取能够很大程度上提高特征的性能。请参照图7进行理解，本发明一种示例性实施例中，声学特征提取包括如下步骤：

步骤（1），对获取的原始语音信号中的高频部分进行预加重：预加重用来提高语音信号高频部分的能量；高频信号在传递过程中衰减较快，但是高频部分又蕴含很多对语音识别有利的特征，因此，在特征提取部分需要提高高频部分能量。预加重滤波器是一个一阶高通滤波器，给定时域输入信号x[n]，一般设置范围为0.9<α<1.0，则预加重计算公式如下式16所示：

步骤（2），对预加重后的语音信号进行分帧加窗：由于语音信号是一种典型的不稳定信号，频率随时间变化，所以语音信号不能被整体使用；但是语音信号的频率在很短的时间片段内近似平稳，所以在预加重之后将完整的语音信号分割成若干语音片段进行处理，这个过程即是分帧。通常分割片段时间范围是10ms~30ms，因此需要一个固定长度的窗口，通过移动窗口来获得片段。因为得到的片段信号可能存在频谱泄露问题，因此通常使用窗函数对信号进行处理，使片段信号最大能力保持原来连续信号的性质，常使用窗函数包括矩形窗和汉宁窗。优选的，设置时间窗宽度为25ms，窗移10ms。

步骤（3），快速傅里叶变换：由于语音信号在时域上波动很大，很难学习到信号的规律，所以将分帧加窗之后的语音信号通过快速傅里叶变换进行转换，将时域信息转换为频域信息。

步骤（4），特征提取：将每帧的频谱取模和取对数计算谱线能量，然后将其拼接得到语谱图特征。

如图8所示，是本发明基于 BERT 语言模型的电网调度语音识别框架图；由于基于CTC 的声学模型具有较强的独立性假设，在面对多音词或者专业词汇时，会导致语音识别模型识别的结果会出现字词丢失以及字词替换错误问题。虽然通过减小建模单元和使用海量数据训练进行解决类似问题，但是减小建模单元会增加其他部件去转换成大的建模单元，这会出现模型不兼容情况，导致误差累积。更重要的是语音标注成本是很大的。因此能够选择合适的语言模型在语音数据有限的情况下对提高识别性能有积极的影响。本发明通过增加基于 BERT 的电网调度语言模型，在解码过程中将声学模型和语言模型进行浅融合，通过引入语言模型的先验知识来提高电网调度语音识别模型的识别效果。

接下来，本发明将进一步介绍模型训练方案。

实验数据和环境配置

本发明使用希尔贝壳开源的 Aishell–1数据集进行实验，该数据集是中文普通话语音数据集，其采样率为 16000Hz。数据集包含了 400 个说话人的 141600 条标准语料，其中训练集、验证集以及测试集分别包含 120098、14326 以及 7176 条标准语料，数据总时长约为 178h。并且本发明使用了 Thchs30 数据集提供的咖啡馆噪声（cafe），汽车噪声（car）和白噪声（white）三种类型噪声，用于模型在不同噪声环境下的性能测试。本发明实验主要使用 python3 编程语言，所用的硬件配置为 I7-9750H 处理器，16GB 运行内存，GPU 显卡为 RTX2080Ti；操作系统是 Ubuntu18.04，使用的深度学习框架是Tensorflow2.3。

实验参数设置

本发明使用的输入特征是语谱图，对原始语音信进行提取语谱图，其中设置时间窗宽度为 25ms，窗移 10ms，使用汉明窗对原始语音信号进行分帧、加窗。然后经过快速傅里叶变换（FFT）和谱线能量计算得到 257 维的语谱图特征。直接以汉字为建模单元，在Aishell-1 数据集中收集到 4329 个汉字，加上一个“blank”符号，因此本发明的实验模型最后一层全连接网络的网络节点是 4330。Batch size 设置为 8，使用的优化器是 Adam，初始学习速率为1 × 10−3，在训练过程中，当损失值突然增大或者趋于稳定时，将学习速率调为上一阶段的 1/10，继续训练，最终学习速率达到1 × 10⁻⁵。

本发明采用宽度为 5 的束搜索对声学模型最后概率分布进行解码。并通过训练集数据训练一个字符级 3-元语言模型，通过浅融合集成到束搜索中，其中设置语言模型（Language Model, LM）权重为 0.2。为了测试识别结果的准确性，本发明实验使用的评价指标为字错误率（character error rate, CER），其公式如下：

其中，R 为替换错误字数，I 为插入错误字数，D 为删除错误字数，N 是正确标签序列的总字数。

模型有效性分析

本发明对 RSCN-GCFN 模型的各部分有效性进行了实验分析，分别设置了RSCN-GCFN、DRSN-GCFN、ResNet-GCFN、RSCN-GCNN 四个模型，在均不外接语言模型情况下，分别在验证集和测试集上进行了对比实验，其网络具体配置如表1所示。其中，RSCBU 包含了两层收缩模块，仅比 RSBU 多 1 层收缩模块，而比RBU 多 2 层收缩模块，GCFN 仅比 GCNN 多1 层 FNN。

表1

通过表2 可知，RSCN-GCFN 模型无论是在验证集还是测试集字错误率均是最低。通过对比 RSCN-GCFN、DRSN-GCFN 和 ResNet-GCFN 实验，验证了输入特征存在噪声和冗余信息对模型识别率是有影响的，因为 CNN 提取特征的最大性能是有限的，对于具有不同程度冗余的语谱图难以进行有效的特征提取，而 RSCN 和 DRSN中的收缩模块可以消除噪声和冗余信息，能够提取有效的特征，其中 RSCN 效果是最好的，这是因为 RSCN 比 DRSN 多了一层收缩模块，所以卷积神经网络提取出的特征更具有代表能力。验证了 RSCN-GCFN 能够更好地提高语谱图的特征学习能力。通过 RSCN-GCFN 和 RSCN-GCNN 实验，验证了模型增加 FNN 层的有效性，GCFN极大的提高了模型的性能，这是因为 GCNN 存储信息的容量是一定的，堆叠多层GCNN 会导致传入后面网络的有效信息逐渐减少，而通过增加 FNN 层在一定程度上增加了 GCNN 的有效容量，使得模型具有较强的表现能力，验证了 RSCN-GCFN具有捕获有效上下文信息的能力。

表2

为了进一步验证不同 GCFN 层数对于模型结果的影响，表 3 给出了不同GCFN 层数对于模型“RSCN-GCFN”的影响，GCFN 的层数分别设置为 6、8、10、12和 14。从表 3 实验结果可得出，当层数为 10 时，模型的 CER 最低，达到 10.69%。可以分析得到，当模型层数很少时候，模型不能具有很好的表达能力，导致模型泛化能力较弱。而如果层数量过多，由于没有足够多的训练数据，会导致训练后得到的模型容易欠拟合。

表3

低信噪比下的识别率变化

在表 2 的实验基础下，本发明继续研究 RSCN-GCFN 模型对环境变化的鲁棒性。实验将 Thchs30 数据集提供的咖啡馆噪声（cafe），汽车噪声（car）和白噪声（white）三种类型噪声，只是用于实验模型在不同噪声环境下的性能测试。设置 5 组信噪比分别为-5，0，5，10，15db 的测试集。每个测试集中的语音随机含有不同类型的噪声（white、cafe、car）。实验结果如表 4，CNN 具有一定的抗噪声能力，但 RSCN-GCFN模型抗噪性能比其他模型都要好。因为模型在不同信噪比条件下，模型识别率的变化程度是不同的，可以看出ResNet-GCFN 识别率随着信噪比的降低下降速率越快，不利于实际环境的应用。而 RSCN-GCFN 和 DRSN-GCFN 模型识别率随信噪比降低下降速率相对缓慢。通过 RSCN-GCFN 和RSCN-GCNN 对比实验，可以发现改进的GCFN 极大提高了模型的鲁棒性。RSCN-GCFN 不仅受信噪比环境影响相对较小，而且在低信噪比下识别率相对较高。说明 RSCN-GCFN 模型对在训练数据里出现过的环境变化，有能力生成鲁棒的内部特征表示。这是因为模型中的收缩模块能够自适应的学习噪声和冗余信息的阈值，并根据阈值将噪声和冗余信息消除，使其模型可以学习到高层抽象特征，使得对环境变化变得不敏感，此外 GCFN 网络具有精确控制依赖项长度的能力，因此能将 RSCN 输出特征转换为更加具有鉴别性的上下文信息，使得语音识别效果较好。

表4

不同输入特征对模型的影响

为了进一步验证 RSCN-GCFN 具有消除噪声和冗余信息的能力，分别对语谱图、Fbank 和 MFCC 不同输入特征进行了实验分析。其中，Fbank 是在语谱图的基础下，再经过梅尔滤波器组取对数得到 40 维特征，而 MFCC 是包含一阶、二阶差分的 39维特征，实验结果如表 5 所示。

表5

通过表 5 实验结果可以看出，在三种不同的声学特征中，语谱图的效果是最好的，CER 达到了 10.69%。Fbank 次之，MFCC 效果最差。这是主要因为 Fbank 和MFCC 声学特征是经过了多次人工提取操作，导致原始信息的丢失。MFCC 特征的原始信息丢失最严重，因此 MFCC 的效果最差。而语谱图最大限度的保留了语音的原始特征，虽然具有一定程度地噪声和冗余信息，但模型中的 RSCN 能消除这些噪声和冗余特征，使模型能够具有学习语谱图的高层抽象特征能力。

模型与其他模型比较

表6 将本发明 RSCN-GCFN 模型（CER）结果与 DFSMN_T、LAS、SA_T和 DL_T模型在测试集上进行了比较。由表 1 的数据表明，在没有 LM 的情况下，本发明模型的性能已经达到了 10.69%，表现优于 DL_T。添加了 LM，RSCN-GCFN实现了最低的 CER，达到了9.46%。这验证了 RSCN 和 GCFN 组合的有效性。同时RSCN-GCFN 在模型参数上也占有较大优势，仅有 6.48M。

表6

进一步的模型训练

将 AISHELL-1 语音数据集和某供电局真实场景的 5000 条语音数据作为以下实验的数据集。由于为了测试真实场景中模型的性能，因此在测试时主要使用真实场景的数据。本发明将声学模型使用的数据划分为训练集和测试集，数据集划分如表 7所示。而语言模型训练语料主要利用爬虫手段获得相关电网调度文本进行训练模型，共有 10w 条相关电网调度短文本数据。

表7

实验参数

实验使用的声学模型是效果最好的 RSCN-GCFN 模型，其模型输入是200 维度的语谱图，输出是文本序列。而语言模型主要基于 BERT 的模型，模型输入为文本序列，通过利用 Mask 进行有监督学习文本序列中的抽象关系特征，最后测试时，将其声学模型输出文本对应的概率输出。本实验中语言模型网络输入层词向量维度为 256，输出层大小为4330。在 BERT 语言模型中，本发明使用两层 Transfomer编码层，Transformer 编码层主要由 3 层自注意力机制和 3 层前馈神经网络组成，其中自注意力使用的 Head 数量是4，设置的 dropout_rate 等于 0.1。本发明使用每次输进模型的 batch_size 为 50，训练优化器是 Adam，初始学习率是 0.008，训练时，使用的损失函数是交叉熵损失函数。

实验结果与分析

在表8 中，模型 RSCN-GCFN（beam size=10）表示仅有声学模型，在解码时挑选出概率较大 Beam size 为 10 的路径，将最终概率值最大的作为输出。其他模型是声学模型与语言模型浅融合的端到端模型，具体来说，模型 RSCN-GCFN（3-gram）和 RSCN-GCFN（3-gram）表示声学模型和语言模型 N-gram 进行联合解码。RSCN-GCFN（BERT）表示声学模型和BERT 语言模型进行联合解码。通过实验结果可以看到，模型 1 由于缺少语言模型 CER 达到了 29.39%，通过分析模型 1 的输出结果发现，识别结果中存在多音字替换错误，这是声学模型无法避免的事情，因为本发明的建模单元是汉字。模型 2 和模型 3 分别联合了 3-gram 和 5-gram 语言模型进行解码，字错误率分别为 28.51%和 28.26%，相对模型 1 效果只是略有提升。这主要是因为 N-gram 语言模型只能引入的局部上下文信息，导致形成的词向量不具有较强的代表性，因此相对提高识别率空间是有限的。模型 4 加入了基于BERT 的语言模型，字错误率达到了 25.72%，相对于其他模型，模型效果得到了大幅度提升。因为 BERT具有较强的上下文信息，使得语言模型在预测阶段对声学模型进行了一定纠正。

表8

总述

本发明主要通过理论分析和实验对基于CTC的电网调度语音识别模型进行了深入研究，主要研究内容如下：

（1）由于CNN提取有效特征能力的最大性能是有限的，这将导致模型的抗噪能力或者鲁棒性不好。基于此，本发明提出了RSCN-GCFN声学模型，在模型上引入了软阈值函数，通过软阈值函数来移除冗余信息，从而提高CNN提取有效特征的能力。并且本发明引入了门控卷积神经网络对上下文进行建模，在中文数据集上取得较好的结果。

（2）针对训练语音语料有限的问题以及基于CTC的声学模型存在问题，本发明将BERT模型运用在语言模型中，以浅融合的形式与声学模型共同解码结果。其中，本发明将BERT模型做了一些改进，使得BERT更加适合电网调度语言模型任务。通过实验证明了基于BERT语言模型对声学模型具有较大提升。

（3）为了增强模型抗噪能力，本发明技术方案中将深度残差收缩网络和门控卷积网络引入到电网调度语音识别中，通过深度残差收缩网络中的收缩模块移除阈值区域的冗余信息来提高卷积神经网络特征提取能力，通过门控卷积网络捕获有效上下文。在此基础上，并对其改进提出了残差收缩卷积网络和门控卷积前馈网络，构建了联合CTC的RSCN-GCFN端到端电网调度语音识别模型。

（4）由于基于CTC方法的端到端模型在解码时没有引入语言模型，而语言模型往往涉及特定领域的语义理解。因此，为了解决电网调度专业词汇识别问题，将BERT网络应用其中，并对其改进使适应电网调度语言模型任务。然后与基于CTC方法的端到端模型连接，使其模型在电网调度专业词汇上，识别结果更好。

根据本公开的第四方面，本申请实施例还提供了一种语音识别装置，包括：

获取语音信号模块，用于获取待识别语音数据；

需要说明的是：所述语音识别装置中各模块单元的具体细节已经在对应的语音识别方法进行了详细的描述，因此这里不再赘述。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

Claims

1.一种语音识别模型,其特征在于，包括：声学模型和语言模型；

2.根据权利要求1所述的语音识别模型，其特征在于，所述声学模型依次由卷积层、多层残差收缩卷积网络、线性层、多层门控卷积前馈网络、线性层和Softmax、联结时序分类损失函数训练层构成。

3.根据权利要求1所述的语音识别模型，其特征在于，所述残差收缩卷积网络依次由卷积层、收缩模块、卷积层、收缩模块组成，在所述收缩模块中引入软阈值函数，将噪声信息朝着“零”的方向进行收缩。

4.根据权利要求1所述的语音识别模型，其特征在于，所述门控卷积前馈网络依次由卷积层、门控线性单元、前馈神经网络、dropout层组成，所述前馈神经网络包括矩阵线性变化Linear层和Swish非线性激活函数。

5.一种语音识别模型的训练方法，其特征在于，应用于权利要求1至4任一项

所述的语音识别模型，所述方法包括：

6.一种语音识别方法，其特征在于，应用权利要求1至4任一项所述的语音识别模型，所述方法包括如下步骤：

S101、获取待识别语音数据；

7.根据权利要求6所述的语音识别方法，其特征在于，所述声学特征提取包括如下步骤：

步骤（2），对预加重后的语音信号进行分帧加窗；

8.一种语音识别装置，其特征在于，应用权利要求1至4任一项所述的语音识别模型，还包括：

获取语音信号模块，用于获取待识别语音数据；

声学特征提取模块，用于对语音信号进行声学特征提取，提取出能代表语音信号的特征向量-语谱图。

9.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求5和/或6所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求5和/或6所述的方法。