CN118314882A

CN118314882A - 一种基于可解译深度学习的语音识别方法

Info

Publication number: CN118314882A
Application number: CN202410576433.5A
Authority: CN
Inventors: 朱明哲; 谈超; 刘媛婧; 陈治瀚
Original assignee: Kunshan Quanshi Digital Technology Co ltd; Xidian University
Current assignee: Kunshan Quanshi Digital Technology Co ltd; Xidian University
Priority date: 2024-05-10
Filing date: 2024-05-10
Publication date: 2024-07-09

Abstract

本发明公开了一种基于可解译深度学习的语音识别方法，S1，截获语音通信时域信号，进行短时傅里叶变换预处理得到语音信号变换域特征图；S2，构建卷积神经网络模型，使用LeNet‑5作为分类器；S3，将语音信号变换特征图V作为卷积神经网络输入；S4，将V_tr和L_tr输入构建的卷积神经网络network1，用前向和反向传播训练网络，使用的损失函数为交叉熵损失函数，获得训练后的网络network1；S5，计算网络network1分类结果，生成特征图S₁；S6,将语音信号特征图S₁作为新特征输入卷积神经网络network2，进行第二次训练并识别分类，计算识别率。本发明提供了一种基于可解译深度学习的语音识别方法，可以极大地加强语音信号的轻微类内差异，得到更高的识别精度，并提供解释神经卷积网络的可能性。

Description

一种基于可解译深度学习的语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于可解译深度学习的语音识别方法。

背景技术

目前的关于语音信号的识别方案，主要利用时频分析结合深度神经网络的方法。使用各种二维变换特征，如短时傅里叶变换(STFT)、小波变换(WT)、S变换(ST)、Winger-Ville分布(WVD)、模糊函数(AF)作为分类器的特征输入，以便在特征中表示更全面的信息。同时还提出了一些压缩感知提取信号特征的方法，在变换域制作手工特征，如模糊函数的代表性切片(AF-RS)和压缩感知掩码(CS-MASK)，提取有助于机器识别的代表性信息作为卷积神经网络的输入，对语音信号进行识别，大大简化了语音检测过程，降低了成本，同时通过神经网络自动学习信号特征，有效地提升检测准确率。

现有方案的缺点总结：1、传统的时频分析方法存在时频能量聚集性不高、时频分辨率低的问题，通常语音信号只有微小差异的情况下表现出有限的识别效果。2、传统的语音识别方法提取特征可能会遗漏一些对识别结果有很大影响的纹理信息，或收集过多的冗余信息，可靠性不强。

发明内容

本发明的目的在于提供一种基于可解译深度学习的语音识别方法，以解决现有技术中所存在的问题。

本发明公开的一种基于可解译深度学习的语音识别方法所采用的技术方案是:

一种基于可解译深度学习的语音识别方法，包括以下步骤：

S1，截获语音通信时域信号，进行短时傅里叶变换预处理得到语音信号变换域特征图；

S2，构建卷积神经网络模型，使用LeNet-5作为分类器，包含7个隐藏层：2个卷积层、2个池化层和3个全连接层；

S3，将语音信号变换特征图V作为卷积神经网络输入，将数据集分为训练集、测试集，进行第一次初始训练，得到特征图S₁；

S4，将V_tr和L_tr输入构建的卷积神经网络network1，用前向和反向传播训练网络，使用的损失函数为交叉熵损失函数，优化器为自适应矩估计优化器，初始的损失函数值为2，训练的终止条件是损失函数值小于0.01，获得训练后的网络network1；

output1＝network1.model(V_tr)

loss＝J(output1，L_tr)

loss.backward()

其中loss为损失函数且loss＞μ，μ表示可接受的最低损失；

S5，计算网络network1分类结果，生成特征图S₁；

socre＝network1.forward(V)

socre.backward(L)

S1＝V·grad.data

S6,将语音信号特征图S₁作为新特征输入卷积神经网络network2，对数据集进行数据分区，分出训练集、测试集，进行第二次训练并识别分类，计算识别率。

作为优选方案，步骤S2中所述卷积神经网络的结构为两层卷积层和三层全连接层结构，网络的结构参数设计为：两层卷积层，第一层卷积层的卷积核大小为5*5，输入通道数为1，输出通道数为6，使用激活函数ReLu对第一次卷积后的结果进行非线性处理，其后连接一个最大池化层，池化层的大小为2*2，第二层卷积层的卷积核大小为5*5，输入通道数为6，输出通道数为16，使用激活函数ReLu对第二次卷积后的结果进行非线性处理，再连接一个最大池化层，池化层的大小为2*2，其后连接三层全连接层，其中第一层全连接层的神经元个数为120，第二层全连接层的神经元个数为84，最后一层全连接层的神经元个数为10，使用Softmax进行分类。

作为优选方案，在步骤S3中，将输入所述语音信号变换特征图的分为训练集、测试集，按以下步骤设定：

S3-1，输入语音信号的变换特征V，V为(N，C，W，H)大小的雷达信号的变换特征以及对应的标签L，大小(N，l，N，C，W，H分别表示个数、通道、宽度和V的高度；

S3-2，对数据集进行数据分区，分出训练集；

V_tr＝V(1：λN)

L_tr＝L(1：λN)

V_te＝V(λN+1：N)

L_te＝L(λN+1：N)

其中，训练率λ表示训练集与测试集的数量之比，V_tr，L_tr，V_te，L_te分别表示训练集、测试集、训练集对应标签、测试集对应标签。

作为优选方案，步骤S6中所述语音信号特征图S₁作为新特征输入卷积神经网络network2，对数据集进行数据分区，分出训练集、测试集，进行第二次训练并识别分类，按以下步骤设定：

S6-1，对步骤3中生成特征图数据集进行数据分区，分出训练集；

S_tr＝S(1：λN)

L_tr＝L(1：λN)

S_te＝S(λN+1：N)

L_te＝L(λN+1：N)

其中，训练率λ表示训练集与测试集的数量之比，S_tr，L_tr，S_te，S_te分别表示训练集、测试集、训练集对应标签集、测试集对应标签集；

S6-2，构建一个结构与network1相同的新网络network2，将S_tr和L_tr输入构建的卷积神经网络network2，用前向和反向传播训练网络，获得训练后的网络network2；

output2＝network2.model(S_tr)

loss＝J(output1，L_tr)

loss.backward()

S6-3，将测试集S_te和标签L_te作为输入，计算网络network2的分类结果并计算识别准确率P；

socre＝network1.forward(S_te)

socre.backward(L_te)

P＝correct/total

其中correct代表分类正确的测试集特征图S_te数量，total代表总共的测试集特征图S_te数量。

本发明公开的一种基于可解译深度学习的语音识别方法的有益效果是：使用卷积神经网络实现语音信号的类型识别，不需要根据专家经验人工提取特征，卷积神经网络在训练过程中通过反向传播算法自动更新网络的权重参数，使得网络模型可以自动学习到待识别信号的特征；卷积神经网络通过计算每个神经元对输入数据的累计梯度得到特征图，表现出对识别结果有积极贡献的部分和不相关部分，作为相同结构神经网络的输入，可以极大地加强语音信号的轻微类内差异，得到更高的识别精度，并提供解释神经卷积网络的可能性。

附图说明

图1是本发明一种基于可解译深度学习的语音识别方法的流程图。

图2是本发明一种基于可解译深度学习的语音识别方法的训练集中不同信号时频分布能量图。

图3是本发明一种基于可解译深度学习的语音识别方法的LeNet-5结构图。

图4是本发明一种基于可解译深度学习的语音识别方法的识别卷积神经网络结构图。

图5是本发明一种基于可解译深度学习的语音识别方法的数据流程图。

图6是本发明一种基于可解译深度学习的语音识别方法的语音信号变换特征图进行第一次网络识别后的特征图。

图7是本发明一种基于可解译深度学习的语音识别方法的语音信号识别率。

具体实施方式

下面结合具体实施例和说明书附图对本发明做进一步阐述和说明:

请参考图1，一种基于可解译深度学习的语音识别方法，包括以下步骤：

S1，将语音时域信号进行短时傅里叶变换预处理得到语音信号变换域特征图。本发明实验采用的数据集共包含600张语音信号变换特征图，对其进行逐一标注。

S2，构建卷积神经网络模型，如图4所示，使用LeNet-5作为分类器如图5，包含7个隐藏层：2个卷积层、2个池化层和3个全连接层，网络的结构参数设计为：共有两层卷积层，第一层卷积层的卷积核大小为5*5，输入通道数为1，输出通道数为6，使用激活函数ReLu对第一次卷积后的结果进行非线性处理，其后连接一个最大池化层，池化层的大小为2*2，第二层卷积层的卷积核大小为5*5，输入通道数为6，输出通道数为16，使用激活函数ReLu对第二次卷积后的结果进行非线性处理，再连接一个最大池化层，池化层的大小为2*2，其后连接三层全连接层，其中第一层全连接层的神经元个数为120，第二层全连接层的神经元个数为84，最后一层全连接层的神经元个数为10，使用Softmax进行分类。

S3，基于卷积神经网络的特征提取如图5所示，将语音信号变换特征图作为卷积神经网络输入进行第一次初始训练，得到特征图S₁，如图6所示；

S3-2，对数据集进行数据分区，分出训练集；

V_tr＝V(1：λN)

L_tr＝L(1：λN)

V_te＝V(λN+1：N)

L_te＝L(λN+1：N)

其中，训练率λ表示训练集与测试集的数量之比，V_tr，L_tr，V_te，L_te分别表示训练集、测试集、训练集对应标签、测试集对应标签；

S4，将V_tr和L_tr输入构建的卷积神经网络network1，用前向和反向传播训练网络，使用的损失函数为交叉熵损失函数，优化器为自适应矩估计优化器，初始的损失函数值为2，训练的终止条件是损失函数值小于0.01，获得训练后的网络network1。

output1＝network1.model(V_tr)

loss＝J(output1，L_tr)

loss.backward()

其中loss为损失函数且loss＞μ，μ表示可接受的最低损失。

S5，计算网络network1分类结果，生成特征图S₁。

socre＝network1.forward(V)

socre.backward(L)

S₁＝V·grad.data

S6，将语音信号特征图S₁作为卷积神经网络输入进行二次训练并识别分类得到特征图S₂。

S6-1,对步骤3中生成特征图数据集进行数据分区，分出训练集。

S_tr＝S(1：λN)

L_tr＝L(1：λN)

S_te＝S(λN+1：N)

L_te＝L(λN+1：N)

其中，训练率λ表示训练集与测试集的数量之比，S_tr，L_tr，S_te，S_te分别表示训练集、测试集、训练集对应标签集、测试集对应标签集。

S6-2,构建一个结构与network1相同的新网络network2，将S_tr和L_tr输入构建的卷积神经网络network2，用前向和反向传播训练网络，获得训练后的网络network2。

output2＝network2.model(S_tr)

loss＝J(output1，L_tr)

loss.backward()

S6-3，将测试集S_te和标签L_te作为输入，计算网络network2的分类结果并计算识别准确率P。

socre＝network1.forward(S_te)

socre.backward(L_te)

P＝correct/total

通过图2，可以看出本发明提出的基于可解译深度学习的语音识别方法将短时傅里叶变换STFT和卷积神经网络方法相结合，计算量较小，成本较低，特征提取部分包含对识别结果相关的全部纹理信息，通过借助从每个神经元到输入数据的累计梯度计算特征图，在变换域中显示正相关贡献并抑制不相关贡献，合并为一个新的特征，从机器认知的角度挖掘深度信息特征，可以极大地强化语音信号中轻微的类内差异，为CNN的解释提供了可能，图7的识别率可知，本发明提出的方法具有很高的能量聚集性和时频分辨率。

本发明提供一种基于可解译深度学习的语音识别方法，使用卷积神经网络实现语音信号的类型识别，不需要根据专家经验人工提取特征，卷积神经网络在训练过程中通过反向传播算法自动更新网络的权重参数，使得网络模型可以自动学习到待识别信号的特征；卷积神经网络通过计算每个神经元对输入数据的累计梯度得到特征图，表现出对识别结果有积极贡献的部分和不相关部分，作为相同结构神经网络的输入，可以极大地加强语音信号的轻微类内差异，得到更高的识别精度，并提供解释神经卷积网络的可能性。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种基于可解译深度学习的语音识别方法，其特征在于，包括以下步骤：

output1＝network1.model(V_tr)

loss＝J(output1，L_tr)

loss.backward()

其中loss为损失函数且loss＞μ，μ表示可接受的最低损失；

S5，计算网络network1分类结果，生成特征图S₁；

socre＝network1.forward(V)

socre.backward(L)

S₁＝V·grad.data

2.如权利要求1所述的一种基于可解译深度学习的语音识别方法，其特征在于，步骤S2中所述卷积神经网络的结构为两层卷积层和三层全连接层结构，网络的结构参数设计为：两层卷积层，第一层卷积层的卷积核大小为5*5，输入通道数为1，输出通道数为6，使用激活函数ReLu对第一次卷积后的结果进行非线性处理，其后连接一个最大池化层，池化层的大小为2*2，第二层卷积层的卷积核大小为5*5，输入通道数为6，输出通道数为16，使用激活函数ReLu对第二次卷积后的结果进行非线性处理，再连接一个最大池化层，池化层的大小为2*2，其后连接三层全连接层，其中第一层全连接层的神经元个数为120，第二层全连接层的神经元个数为84，最后一层全连接层的神经元个数为10，使用Softmax进行分类。

3.如权利要求1所述的一种基于可解译深度学习的语音识别方法，其特征在于，在步骤S3中，将输入所述语音信号变换特征图的分为训练集、测试集，按以下步骤设定：

S3-2，对数据集进行数据分区，分出训练集；

V_tr＝V(1：λN)

L_tr＝L(1：λN)

V_te＝V(λN+1：N)

L_te＝L(λN+1：N)

4.如权利要求1所述的一种基于可解译深度学习的语音识别方法，其特征在于，步骤S6中所述语音信号特征图S₁作为新特征输入卷积神经网络network2，对数据集进行数据分区，分出训练集、测试集，进行第二次训练并识别分类，按以下步骤设定：

S_tr＝S(1：λN)

L_tr＝L(1：λN)

S_te＝S(λN+1：N)

L_te＝L(λN+1：N)

output2＝network2.model(S_tr)

loss＝J(output1，L_tr)

loss.backward()

socre＝network1.forward(S_te)

socre.backward(L_te)

P＝correct/total