CN118314882A - 一种基于可解译深度学习的语音识别方法 - Google Patents

一种基于可解译深度学习的语音识别方法 Download PDF

Info

Publication number
CN118314882A
CN118314882A CN202410576433.5A CN202410576433A CN118314882A CN 118314882 A CN118314882 A CN 118314882A CN 202410576433 A CN202410576433 A CN 202410576433A CN 118314882 A CN118314882 A CN 118314882A
Authority
CN
China
Prior art keywords
training
convolutional neural
layer
network1
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410576433.5A
Other languages
English (en)
Inventor
朱明哲
谈超
刘媛婧
陈治瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunshan Quanshi Digital Technology Co ltd
Kunshan Innovation Institute of Xidian University
Original Assignee
Kunshan Quanshi Digital Technology Co ltd
Kunshan Innovation Institute of Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunshan Quanshi Digital Technology Co ltd, Kunshan Innovation Institute of Xidian University filed Critical Kunshan Quanshi Digital Technology Co ltd
Priority to CN202410576433.5A priority Critical patent/CN118314882A/zh
Publication of CN118314882A publication Critical patent/CN118314882A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可解译深度学习的语音识别方法,S1,截获语音通信时域信号,进行短时傅里叶变换预处理得到语音信号变换域特征图;S2,构建卷积神经网络模型,使用LeNet‑5作为分类器;S3,将语音信号变换特征图V作为卷积神经网络输入;S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,获得训练后的网络network1;S5,计算网络network1分类结果,生成特征图S1;S6,将语音信号特征图S1作为新特征输入卷积神经网络network2,进行第二次训练并识别分类,计算识别率。本发明提供了一种基于可解译深度学习的语音识别方法,可以极大地加强语音信号的轻微类内差异,得到更高的识别精度,并提供解释神经卷积网络的可能性。

Description

一种基于可解译深度学习的语音识别方法
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于可解译深度学习的语音识别方法。
背景技术
目前的关于语音信号的识别方案,主要利用时频分析结合深度神经网络的方法。使用各种二维变换特征,如短时傅里叶变换(STFT)、小波变换(WT)、S变换(ST)、Winger-Ville分布(WVD)、模糊函数(AF)作为分类器的特征输入,以便在特征中表示更全面的信息。同时还提出了一些压缩感知提取信号特征的方法,在变换域制作手工特征,如模糊函数的代表性切片(AF-RS)和压缩感知掩码(CS-MASK),提取有助于机器识别的代表性信息作为卷积神经网络的输入,对语音信号进行识别,大大简化了语音检测过程,降低了成本,同时通过神经网络自动学习信号特征,有效地提升检测准确率。
现有方案的缺点总结:1、传统的时频分析方法存在时频能量聚集性不高、时频分辨率低的问题,通常语音信号只有微小差异的情况下表现出有限的识别效果。2、传统的语音识别方法提取特征可能会遗漏一些对识别结果有很大影响的纹理信息,或收集过多的冗余信息,可靠性不强。
发明内容
本发明的目的在于提供一种基于可解译深度学习的语音识别方法,以解决现有技术中所存在的问题。
本发明公开的一种基于可解译深度学习的语音识别方法所采用的技术方案是:
一种基于可解译深度学习的语音识别方法,包括以下步骤:
S1,截获语音通信时域信号,进行短时傅里叶变换预处理得到语音信号变换域特征图;
S2,构建卷积神经网络模型,使用LeNet-5作为分类器,包含7个隐藏层:2个卷积层、2个池化层和3个全连接层;
S3,将语音信号变换特征图V作为卷积神经网络输入,将数据集分为训练集、测试集,进行第一次初始训练,得到特征图S1
S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,优化器为自适应矩估计优化器,初始的损失函数值为2,训练的终止条件是损失函数值小于0.01,获得训练后的网络network1;
output1=network1.model(Vtr)
loss=J(output1,Ltr)
loss.backward()
其中loss为损失函数且loss>μ,μ表示可接受的最低损失;
S5,计算网络network1分类结果,生成特征图S1
socre=network1.forward(V)
socre.backward(L)
S1=V·grad.data
S6,将语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,计算识别率。
作为优选方案,步骤S2中所述卷积神经网络的结构为两层卷积层和三层全连接层结构,网络的结构参数设计为:两层卷积层,第一层卷积层的卷积核大小为5*5,输入通道数为1,输出通道数为6,使用激活函数ReLu对第一次卷积后的结果进行非线性处理,其后连接一个最大池化层,池化层的大小为2*2,第二层卷积层的卷积核大小为5*5,输入通道数为6,输出通道数为16,使用激活函数ReLu对第二次卷积后的结果进行非线性处理,再连接一个最大池化层,池化层的大小为2*2,其后连接三层全连接层,其中第一层全连接层的神经元个数为120,第二层全连接层的神经元个数为84,最后一层全连接层的神经元个数为10,使用Softmax进行分类。
作为优选方案,在步骤S3中,将输入所述语音信号变换特征图的分为训练集、测试集,按以下步骤设定:
S3-1,输入语音信号的变换特征V,V为(N,C,W,H)大小的雷达信号的变换特征以及对应的标签L,大小(N,l,N,C,W,H分别表示个数、通道、宽度和V的高度;
S3-2,对数据集进行数据分区,分出训练集;
Vtr=V(1:λN)
Ltr=L(1:λN)
Vte=V(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Vtr,Ltr,Vte,Lte分别表示训练集、测试集、训练集对应标签、测试集对应标签。
作为优选方案,步骤S6中所述语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,按以下步骤设定:
S6-1,对步骤3中生成特征图数据集进行数据分区,分出训练集;
Str=S(1:λN)
Ltr=L(1:λN)
Ste=S(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Str,Ltr,Ste,Ste分别表示训练集、测试集、训练集对应标签集、测试集对应标签集;
S6-2,构建一个结构与network1相同的新网络network2,将Str和Ltr输入构建的卷积神经网络network2,用前向和反向传播训练网络,获得训练后的网络network2;
output2=network2.model(Str)
loss=J(output1,Ltr)
loss.backward()
S6-3,将测试集Ste和标签Lte作为输入,计算网络network2的分类结果并计算识别准确率P;
socre=network1.forward(Ste)
socre.backward(Lte)
P=correct/total
其中correct代表分类正确的测试集特征图Ste数量,total代表总共的测试集特征图Ste数量。
本发明公开的一种基于可解译深度学习的语音识别方法的有益效果是:使用卷积神经网络实现语音信号的类型识别,不需要根据专家经验人工提取特征,卷积神经网络在训练过程中通过反向传播算法自动更新网络的权重参数,使得网络模型可以自动学习到待识别信号的特征;卷积神经网络通过计算每个神经元对输入数据的累计梯度得到特征图,表现出对识别结果有积极贡献的部分和不相关部分,作为相同结构神经网络的输入,可以极大地加强语音信号的轻微类内差异,得到更高的识别精度,并提供解释神经卷积网络的可能性。
附图说明
图1是本发明一种基于可解译深度学习的语音识别方法的流程图。
图2是本发明一种基于可解译深度学习的语音识别方法的训练集中不同信号时频分布能量图。
图3是本发明一种基于可解译深度学习的语音识别方法的LeNet-5结构图。
图4是本发明一种基于可解译深度学习的语音识别方法的识别卷积神经网络结构图。
图5是本发明一种基于可解译深度学习的语音识别方法的数据流程图。
图6是本发明一种基于可解译深度学习的语音识别方法的语音信号变换特征图进行第一次网络识别后的特征图。
图7是本发明一种基于可解译深度学习的语音识别方法的语音信号识别率。
具体实施方式
下面结合具体实施例和说明书附图对本发明做进一步阐述和说明:
请参考图1,一种基于可解译深度学习的语音识别方法,包括以下步骤:
S1,将语音时域信号进行短时傅里叶变换预处理得到语音信号变换域特征图。本发明实验采用的数据集共包含600张语音信号变换特征图,对其进行逐一标注。
S2,构建卷积神经网络模型,如图4所示,使用LeNet-5作为分类器如图5,包含7个隐藏层:2个卷积层、2个池化层和3个全连接层,网络的结构参数设计为:共有两层卷积层,第一层卷积层的卷积核大小为5*5,输入通道数为1,输出通道数为6,使用激活函数ReLu对第一次卷积后的结果进行非线性处理,其后连接一个最大池化层,池化层的大小为2*2,第二层卷积层的卷积核大小为5*5,输入通道数为6,输出通道数为16,使用激活函数ReLu对第二次卷积后的结果进行非线性处理,再连接一个最大池化层,池化层的大小为2*2,其后连接三层全连接层,其中第一层全连接层的神经元个数为120,第二层全连接层的神经元个数为84,最后一层全连接层的神经元个数为10,使用Softmax进行分类。
S3,基于卷积神经网络的特征提取如图5所示,将语音信号变换特征图作为卷积神经网络输入进行第一次初始训练,得到特征图S1,如图6所示;
S3-1,输入语音信号的变换特征V,V为(N,C,W,H)大小的雷达信号的变换特征以及对应的标签L,大小(N,l,N,C,W,H分别表示个数、通道、宽度和V的高度;
S3-2,对数据集进行数据分区,分出训练集;
Vtr=V(1:λN)
Ltr=L(1:λN)
Vte=V(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Vtr,Ltr,Vte,Lte分别表示训练集、测试集、训练集对应标签、测试集对应标签;
S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,优化器为自适应矩估计优化器,初始的损失函数值为2,训练的终止条件是损失函数值小于0.01,获得训练后的网络network1。
output1=network1.model(Vtr)
loss=J(output1,Ltr)
loss.backward()
其中loss为损失函数且loss>μ,μ表示可接受的最低损失。
S5,计算网络network1分类结果,生成特征图S1
socre=network1.forward(V)
socre.backward(L)
S1=V·grad.data
S6,将语音信号特征图S1作为卷积神经网络输入进行二次训练并识别分类得到特征图S2
S6-1,对步骤3中生成特征图数据集进行数据分区,分出训练集。
Str=S(1:λN)
Ltr=L(1:λN)
Ste=S(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Str,Ltr,Ste,Ste分别表示训练集、测试集、训练集对应标签集、测试集对应标签集。
S6-2,构建一个结构与network1相同的新网络network2,将Str和Ltr输入构建的卷积神经网络network2,用前向和反向传播训练网络,获得训练后的网络network2。
output2=network2.model(Str)
loss=J(output1,Ltr)
loss.backward()
S6-3,将测试集Ste和标签Lte作为输入,计算网络network2的分类结果并计算识别准确率P。
socre=network1.forward(Ste)
socre.backward(Lte)
P=correct/total
其中correct代表分类正确的测试集特征图Ste数量,total代表总共的测试集特征图Ste数量。
通过图2,可以看出本发明提出的基于可解译深度学习的语音识别方法将短时傅里叶变换STFT和卷积神经网络方法相结合,计算量较小,成本较低,特征提取部分包含对识别结果相关的全部纹理信息,通过借助从每个神经元到输入数据的累计梯度计算特征图,在变换域中显示正相关贡献并抑制不相关贡献,合并为一个新的特征,从机器认知的角度挖掘深度信息特征,可以极大地强化语音信号中轻微的类内差异,为CNN的解释提供了可能,图7的识别率可知,本发明提出的方法具有很高的能量聚集性和时频分辨率。
本发明提供一种基于可解译深度学习的语音识别方法,使用卷积神经网络实现语音信号的类型识别,不需要根据专家经验人工提取特征,卷积神经网络在训练过程中通过反向传播算法自动更新网络的权重参数,使得网络模型可以自动学习到待识别信号的特征;卷积神经网络通过计算每个神经元对输入数据的累计梯度得到特征图,表现出对识别结果有积极贡献的部分和不相关部分,作为相同结构神经网络的输入,可以极大地加强语音信号的轻微类内差异,得到更高的识别精度,并提供解释神经卷积网络的可能性。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (4)

1.一种基于可解译深度学习的语音识别方法,其特征在于,包括以下步骤:
S1,截获语音通信时域信号,进行短时傅里叶变换预处理得到语音信号变换域特征图;
S2,构建卷积神经网络模型,使用LeNet-5作为分类器,包含7个隐藏层:2个卷积层、2个池化层和3个全连接层;
S3,将语音信号变换特征图V作为卷积神经网络输入,将数据集分为训练集、测试集,进行第一次初始训练,得到特征图S1
S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,优化器为自适应矩估计优化器,初始的损失函数值为2,训练的终止条件是损失函数值小于0.01,获得训练后的网络network1;
output1=network1.model(Vtr)
loss=J(output1,Ltr)
loss.backward()
其中loss为损失函数且loss>μ,μ表示可接受的最低损失;
S5,计算网络network1分类结果,生成特征图S1
socre=network1.forward(V)
socre.backward(L)
S1=V·grad.data
S6,将语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,计算识别率。
2.如权利要求1所述的一种基于可解译深度学习的语音识别方法,其特征在于,步骤S2中所述卷积神经网络的结构为两层卷积层和三层全连接层结构,网络的结构参数设计为:两层卷积层,第一层卷积层的卷积核大小为5*5,输入通道数为1,输出通道数为6,使用激活函数ReLu对第一次卷积后的结果进行非线性处理,其后连接一个最大池化层,池化层的大小为2*2,第二层卷积层的卷积核大小为5*5,输入通道数为6,输出通道数为16,使用激活函数ReLu对第二次卷积后的结果进行非线性处理,再连接一个最大池化层,池化层的大小为2*2,其后连接三层全连接层,其中第一层全连接层的神经元个数为120,第二层全连接层的神经元个数为84,最后一层全连接层的神经元个数为10,使用Softmax进行分类。
3.如权利要求1所述的一种基于可解译深度学习的语音识别方法,其特征在于,在步骤S3中,将输入所述语音信号变换特征图的分为训练集、测试集,按以下步骤设定:
S3-1,输入语音信号的变换特征V,V为(N,C,W,H)大小的雷达信号的变换特征以及对应的标签L,大小(N,l,N,C,W,H分别表示个数、通道、宽度和V的高度;
S3-2,对数据集进行数据分区,分出训练集;
Vtr=V(1:λN)
Ltr=L(1:λN)
Vte=V(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Vtr,Ltr,Vte,Lte分别表示训练集、测试集、训练集对应标签、测试集对应标签。
4.如权利要求1所述的一种基于可解译深度学习的语音识别方法,其特征在于,步骤S6中所述语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,按以下步骤设定:
S6-1,对步骤3中生成特征图数据集进行数据分区,分出训练集;
Str=S(1:λN)
Ltr=L(1:λN)
Ste=S(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Str,Ltr,Ste,Ste分别表示训练集、测试集、训练集对应标签集、测试集对应标签集;
S6-2,构建一个结构与network1相同的新网络network2,将Str和Ltr输入构建的卷积神经网络network2,用前向和反向传播训练网络,获得训练后的网络network2;
output2=network2.model(Str)
loss=J(output1,Ltr)
loss.backward()
S6-3,将测试集Ste和标签Lte作为输入,计算网络network2的分类结果并计算识别准确率P;
socre=network1.forward(Ste)
socre.backward(Lte)
P=correct/total
其中correct代表分类正确的测试集特征图Ste数量,total代表总共的测试集特征图Ste数量。
CN202410576433.5A 2024-05-10 2024-05-10 一种基于可解译深度学习的语音识别方法 Pending CN118314882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410576433.5A CN118314882A (zh) 2024-05-10 2024-05-10 一种基于可解译深度学习的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410576433.5A CN118314882A (zh) 2024-05-10 2024-05-10 一种基于可解译深度学习的语音识别方法

Publications (1)

Publication Number Publication Date
CN118314882A true CN118314882A (zh) 2024-07-09

Family

ID=91720588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410576433.5A Pending CN118314882A (zh) 2024-05-10 2024-05-10 一种基于可解译深度学习的语音识别方法

Country Status (1)

Country Link
CN (1) CN118314882A (zh)

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN108615010B (zh) 基于平行卷积神经网络特征图融合的人脸表情识别方法
CN105426842B (zh) 基于支持向量机和表面肌电信号的多类手部动作识别方法
CN103728551B (zh) 一种基于级联集成分类器的模拟电路故障诊断方法
CN106909784A (zh) 基于二维时频图像深度卷积神经网络的癫痫脑电识别方法
CN112001306A (zh) 基于深度卷积对抗生成神经网络的脑电信号解码方法
CN110956111A (zh) 人工智能cnn、lstm神经网络步态识别系统
CN102279358B (zh) 一种基于mcskpca的神经网络模拟电路故障诊断方法
CN114004252A (zh) 一种轴承故障诊断的方法、装置以及设备
CN112557826A (zh) 一种船舶电力系统故障诊断方法
CN111461201A (zh) 基于相空间重构的传感器数据分类方法
CN103971106A (zh) 多视角人脸图像性别识别方法及装置
CN109255339B (zh) 基于自适应深度森林人体步态能量图的分类方法
CN112418175A (zh) 基于域迁移的滚动轴承故障诊断方法、系统及存储介质
CN112257741A (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
CN115410258A (zh) 基于注意力图像的人脸表情识别方法
CN116186593A (zh) 一种基于可分离卷积和注意力机制的心电信号检测方法
CN112036511A (zh) 基于注意力机制图卷积神经网络的图像检索方法
CN118051831A (zh) 基于CNN-Transformer合作网络模型的水声目标识别方法
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
CN116504253A (zh) 一种基于频率动态卷积模型的鸟类声音识别方法和系统
CN118314882A (zh) 一种基于可解译深度学习的语音识别方法
CN116311430A (zh) 基于图像多样化特征的深度伪造检测方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination