CN118314882A - 一种基于可解译深度学习的语音识别方法 - Google Patents
一种基于可解译深度学习的语音识别方法 Download PDFInfo
- Publication number
- CN118314882A CN118314882A CN202410576433.5A CN202410576433A CN118314882A CN 118314882 A CN118314882 A CN 118314882A CN 202410576433 A CN202410576433 A CN 202410576433A CN 118314882 A CN118314882 A CN 118314882A
- Authority
- CN
- China
- Prior art keywords
- training
- convolutional neural
- feature map
- layer
- network1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可解译深度学习的语音识别方法,S1,截获语音通信时域信号,进行短时傅里叶变换预处理得到语音信号变换域特征图;S2,构建卷积神经网络模型,使用LeNet‑5作为分类器;S3,将语音信号变换特征图V作为卷积神经网络输入;S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,获得训练后的网络network1;S5,计算网络network1分类结果,生成特征图S1;S6,将语音信号特征图S1作为新特征输入卷积神经网络network2,进行第二次训练并识别分类,计算识别率。本发明提供了一种基于可解译深度学习的语音识别方法,可以极大地加强语音信号的轻微类内差异,得到更高的识别精度,并提供解释神经卷积网络的可能性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于可解译深度学习的语音识别方法。
背景技术
目前的关于语音信号的识别方案,主要利用时频分析结合深度神经网络的方法。使用各种二维变换特征,如短时傅里叶变换(STFT)、小波变换(WT)、S变换(ST)、Winger-Ville分布(WVD)、模糊函数(AF)作为分类器的特征输入,以便在特征中表示更全面的信息。同时还提出了一些压缩感知提取信号特征的方法,在变换域制作手工特征,如模糊函数的代表性切片(AF-RS)和压缩感知掩码(CS-MASK),提取有助于机器识别的代表性信息作为卷积神经网络的输入,对语音信号进行识别,大大简化了语音检测过程,降低了成本,同时通过神经网络自动学习信号特征,有效地提升检测准确率。
现有方案的缺点总结:1、传统的时频分析方法存在时频能量聚集性不高、时频分辨率低的问题,通常语音信号只有微小差异的情况下表现出有限的识别效果。2、传统的语音识别方法提取特征可能会遗漏一些对识别结果有很大影响的纹理信息,或收集过多的冗余信息,可靠性不强。
发明内容
本发明的目的在于提供一种基于可解译深度学习的语音识别方法,以解决现有技术中所存在的问题。
本发明公开的一种基于可解译深度学习的语音识别方法所采用的技术方案是:
一种基于可解译深度学习的语音识别方法,包括以下步骤:
S1,截获语音通信时域信号,进行短时傅里叶变换预处理得到语音信号变换域特征图;
S2,构建卷积神经网络模型,使用LeNet-5作为分类器,包含7个隐藏层:2个卷积层、2个池化层和3个全连接层;
S3,将语音信号变换特征图V作为卷积神经网络输入,将数据集分为训练集、测试集,进行第一次初始训练,得到特征图S1;
S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,优化器为自适应矩估计优化器,初始的损失函数值为2,训练的终止条件是损失函数值小于0.01,获得训练后的网络network1;
output1=network1.model(Vtr)
loss=J(output1,Ltr)
loss.backward()
其中loss为损失函数且loss>μ,μ表示可接受的最低损失;
S5,计算网络network1分类结果,生成特征图S1;
socre=network1.forward(V)
socre.backward(L)
S1=V·grad.data
S6,将语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,计算识别率。
作为优选方案,步骤S2中所述卷积神经网络的结构为两层卷积层和三层全连接层结构,网络的结构参数设计为:两层卷积层,第一层卷积层的卷积核大小为5*5,输入通道数为1,输出通道数为6,使用激活函数ReLu对第一次卷积后的结果进行非线性处理,其后连接一个最大池化层,池化层的大小为2*2,第二层卷积层的卷积核大小为5*5,输入通道数为6,输出通道数为16,使用激活函数ReLu对第二次卷积后的结果进行非线性处理,再连接一个最大池化层,池化层的大小为2*2,其后连接三层全连接层,其中第一层全连接层的神经元个数为120,第二层全连接层的神经元个数为84,最后一层全连接层的神经元个数为10,使用Softmax进行分类。
作为优选方案,在步骤S3中,将输入所述语音信号变换特征图的分为训练集、测试集,按以下步骤设定:
S3-1,输入语音信号的变换特征V,V为(N,C,W,H)大小的雷达信号的变换特征以及对应的标签L,大小(N,l,N,C,W,H分别表示个数、通道、宽度和V的高度;
S3-2,对数据集进行数据分区,分出训练集;
Vtr=V(1:λN)
Ltr=L(1:λN)
Vte=V(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Vtr,Ltr,Vte,Lte分别表示训练集、测试集、训练集对应标签、测试集对应标签。
作为优选方案,步骤S6中所述语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,按以下步骤设定:
S6-1,对步骤3中生成特征图数据集进行数据分区,分出训练集;
Str=S(1:λN)
Ltr=L(1:λN)
Ste=S(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Str,Ltr,Ste,Ste分别表示训练集、测试集、训练集对应标签集、测试集对应标签集;
S6-2,构建一个结构与network1相同的新网络network2,将Str和Ltr输入构建的卷积神经网络network2,用前向和反向传播训练网络,获得训练后的网络network2;
output2=network2.model(Str)
loss=J(output1,Ltr)
loss.backward()
S6-3,将测试集Ste和标签Lte作为输入,计算网络network2的分类结果并计算识别准确率P;
socre=network1.forward(Ste)
socre.backward(Lte)
P=correct/total
其中correct代表分类正确的测试集特征图Ste数量,total代表总共的测试集特征图Ste数量。
本发明公开的一种基于可解译深度学习的语音识别方法的有益效果是:使用卷积神经网络实现语音信号的类型识别,不需要根据专家经验人工提取特征,卷积神经网络在训练过程中通过反向传播算法自动更新网络的权重参数,使得网络模型可以自动学习到待识别信号的特征;卷积神经网络通过计算每个神经元对输入数据的累计梯度得到特征图,表现出对识别结果有积极贡献的部分和不相关部分,作为相同结构神经网络的输入,可以极大地加强语音信号的轻微类内差异,得到更高的识别精度,并提供解释神经卷积网络的可能性。
附图说明
图1是本发明一种基于可解译深度学习的语音识别方法的流程图。
图2是本发明一种基于可解译深度学习的语音识别方法的训练集中不同信号时频分布能量图。
图3是本发明一种基于可解译深度学习的语音识别方法的LeNet-5结构图。
图4是本发明一种基于可解译深度学习的语音识别方法的识别卷积神经网络结构图。
图5是本发明一种基于可解译深度学习的语音识别方法的数据流程图。
图6是本发明一种基于可解译深度学习的语音识别方法的语音信号变换特征图进行第一次网络识别后的特征图。
图7是本发明一种基于可解译深度学习的语音识别方法的语音信号识别率。
具体实施方式
下面结合具体实施例和说明书附图对本发明做进一步阐述和说明:
请参考图1,一种基于可解译深度学习的语音识别方法,包括以下步骤:
S1,将语音时域信号进行短时傅里叶变换预处理得到语音信号变换域特征图。本发明实验采用的数据集共包含600张语音信号变换特征图,对其进行逐一标注。
S2,构建卷积神经网络模型,如图4所示,使用LeNet-5作为分类器如图5,包含7个隐藏层:2个卷积层、2个池化层和3个全连接层,网络的结构参数设计为:共有两层卷积层,第一层卷积层的卷积核大小为5*5,输入通道数为1,输出通道数为6,使用激活函数ReLu对第一次卷积后的结果进行非线性处理,其后连接一个最大池化层,池化层的大小为2*2,第二层卷积层的卷积核大小为5*5,输入通道数为6,输出通道数为16,使用激活函数ReLu对第二次卷积后的结果进行非线性处理,再连接一个最大池化层,池化层的大小为2*2,其后连接三层全连接层,其中第一层全连接层的神经元个数为120,第二层全连接层的神经元个数为84,最后一层全连接层的神经元个数为10,使用Softmax进行分类。
S3,基于卷积神经网络的特征提取如图5所示,将语音信号变换特征图作为卷积神经网络输入进行第一次初始训练,得到特征图S1,如图6所示;
S3-1,输入语音信号的变换特征V,V为(N,C,W,H)大小的雷达信号的变换特征以及对应的标签L,大小(N,l,N,C,W,H分别表示个数、通道、宽度和V的高度;
S3-2,对数据集进行数据分区,分出训练集;
Vtr=V(1:λN)
Ltr=L(1:λN)
Vte=V(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Vtr,Ltr,Vte,Lte分别表示训练集、测试集、训练集对应标签、测试集对应标签;
S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,优化器为自适应矩估计优化器,初始的损失函数值为2,训练的终止条件是损失函数值小于0.01,获得训练后的网络network1。
output1=network1.model(Vtr)
loss=J(output1,Ltr)
loss.backward()
其中loss为损失函数且loss>μ,μ表示可接受的最低损失。
S5,计算网络network1分类结果,生成特征图S1。
socre=network1.forward(V)
socre.backward(L)
S1=V·grad.data
S6,将语音信号特征图S1作为卷积神经网络输入进行二次训练并识别分类得到特征图S2。
S6-1,对步骤3中生成特征图数据集进行数据分区,分出训练集。
Str=S(1:λN)
Ltr=L(1:λN)
Ste=S(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Str,Ltr,Ste,Ste分别表示训练集、测试集、训练集对应标签集、测试集对应标签集。
S6-2,构建一个结构与network1相同的新网络network2,将Str和Ltr输入构建的卷积神经网络network2,用前向和反向传播训练网络,获得训练后的网络network2。
output2=network2.model(Str)
loss=J(output1,Ltr)
loss.backward()
S6-3,将测试集Ste和标签Lte作为输入,计算网络network2的分类结果并计算识别准确率P。
socre=network1.forward(Ste)
socre.backward(Lte)
P=correct/total
其中correct代表分类正确的测试集特征图Ste数量,total代表总共的测试集特征图Ste数量。
通过图2,可以看出本发明提出的基于可解译深度学习的语音识别方法将短时傅里叶变换STFT和卷积神经网络方法相结合,计算量较小,成本较低,特征提取部分包含对识别结果相关的全部纹理信息,通过借助从每个神经元到输入数据的累计梯度计算特征图,在变换域中显示正相关贡献并抑制不相关贡献,合并为一个新的特征,从机器认知的角度挖掘深度信息特征,可以极大地强化语音信号中轻微的类内差异,为CNN的解释提供了可能,图7的识别率可知,本发明提出的方法具有很高的能量聚集性和时频分辨率。
本发明提供一种基于可解译深度学习的语音识别方法,使用卷积神经网络实现语音信号的类型识别,不需要根据专家经验人工提取特征,卷积神经网络在训练过程中通过反向传播算法自动更新网络的权重参数,使得网络模型可以自动学习到待识别信号的特征;卷积神经网络通过计算每个神经元对输入数据的累计梯度得到特征图,表现出对识别结果有积极贡献的部分和不相关部分,作为相同结构神经网络的输入,可以极大地加强语音信号的轻微类内差异,得到更高的识别精度,并提供解释神经卷积网络的可能性。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (4)
1.一种基于可解译深度学习的语音识别方法,其特征在于,包括以下步骤:
S1,截获语音通信时域信号,进行短时傅里叶变换预处理得到语音信号变换域特征图;
S2,构建卷积神经网络模型,使用LeNet-5作为分类器,包含7个隐藏层:2个卷积层、2个池化层和3个全连接层;
S3,将语音信号变换特征图V作为卷积神经网络输入,将数据集分为训练集、测试集,进行第一次初始训练,得到特征图S1;
S4,将Vtr和Ltr输入构建的卷积神经网络network1,用前向和反向传播训练网络,使用的损失函数为交叉熵损失函数,优化器为自适应矩估计优化器,初始的损失函数值为2,训练的终止条件是损失函数值小于0.01,获得训练后的网络network1;
output1=network1.model(Vtr)
loss=J(output1,Ltr)
loss.backward()
其中loss为损失函数且loss>μ,μ表示可接受的最低损失;
S5,计算网络network1分类结果,生成特征图S1;
socre=network1.forward(V)
socre.backward(L)
S1=V·grad.data
S6,将语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,计算识别率。
2.如权利要求1所述的一种基于可解译深度学习的语音识别方法,其特征在于,步骤S2中所述卷积神经网络的结构为两层卷积层和三层全连接层结构,网络的结构参数设计为:两层卷积层,第一层卷积层的卷积核大小为5*5,输入通道数为1,输出通道数为6,使用激活函数ReLu对第一次卷积后的结果进行非线性处理,其后连接一个最大池化层,池化层的大小为2*2,第二层卷积层的卷积核大小为5*5,输入通道数为6,输出通道数为16,使用激活函数ReLu对第二次卷积后的结果进行非线性处理,再连接一个最大池化层,池化层的大小为2*2,其后连接三层全连接层,其中第一层全连接层的神经元个数为120,第二层全连接层的神经元个数为84,最后一层全连接层的神经元个数为10,使用Softmax进行分类。
3.如权利要求1所述的一种基于可解译深度学习的语音识别方法,其特征在于,在步骤S3中,将输入所述语音信号变换特征图的分为训练集、测试集,按以下步骤设定:
S3-1,输入语音信号的变换特征V,V为(N,C,W,H)大小的雷达信号的变换特征以及对应的标签L,大小(N,l,N,C,W,H分别表示个数、通道、宽度和V的高度;
S3-2,对数据集进行数据分区,分出训练集;
Vtr=V(1:λN)
Ltr=L(1:λN)
Vte=V(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Vtr,Ltr,Vte,Lte分别表示训练集、测试集、训练集对应标签、测试集对应标签。
4.如权利要求1所述的一种基于可解译深度学习的语音识别方法,其特征在于,步骤S6中所述语音信号特征图S1作为新特征输入卷积神经网络network2,对数据集进行数据分区,分出训练集、测试集,进行第二次训练并识别分类,按以下步骤设定:
S6-1,对步骤3中生成特征图数据集进行数据分区,分出训练集;
Str=S(1:λN)
Ltr=L(1:λN)
Ste=S(λN+1:N)
Lte=L(λN+1:N)
其中,训练率λ表示训练集与测试集的数量之比,Str,Ltr,Ste,Ste分别表示训练集、测试集、训练集对应标签集、测试集对应标签集;
S6-2,构建一个结构与network1相同的新网络network2,将Str和Ltr输入构建的卷积神经网络network2,用前向和反向传播训练网络,获得训练后的网络network2;
output2=network2.model(Str)
loss=J(output1,Ltr)
loss.backward()
S6-3,将测试集Ste和标签Lte作为输入,计算网络network2的分类结果并计算识别准确率P;
socre=network1.forward(Ste)
socre.backward(Lte)
P=correct/total
其中correct代表分类正确的测试集特征图Ste数量,total代表总共的测试集特征图Ste数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410576433.5A CN118314882A (zh) | 2024-05-10 | 2024-05-10 | 一种基于可解译深度学习的语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410576433.5A CN118314882A (zh) | 2024-05-10 | 2024-05-10 | 一种基于可解译深度学习的语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118314882A true CN118314882A (zh) | 2024-07-09 |
Family
ID=91720588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410576433.5A Pending CN118314882A (zh) | 2024-05-10 | 2024-05-10 | 一种基于可解译深度学习的语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118314882A (zh) |
-
2024
- 2024-05-10 CN CN202410576433.5A patent/CN118314882A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN111738124B (zh) | 基于Gabor变换和注意力的遥感图像云检测方法 | |
CN112837330B (zh) | 基于多尺度双注意力机制和全卷积神经网络的叶分割方法 | |
CN108615010B (zh) | 基于平行卷积神经网络特征图融合的人脸表情识别方法 | |
CN112308158A (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN102520341B (zh) | 一种基于Bayes-KFCM算法的模拟电路故障诊断方法 | |
CN112362756A (zh) | 一种基于深度学习的混凝土结构损伤监测方法及系统 | |
CN116363712B (zh) | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 | |
CN110020637B (zh) | 一种基于多粒度级联森林的模拟电路间歇故障诊断方法 | |
CN106226816A (zh) | 一种叠前地震信号波形分类方法 | |
CN114241564B (zh) | 一种基于类间差异强化网络的人脸表情识别方法 | |
CN112381667A (zh) | 一种基于深度学习的配网电气拓扑识别方法 | |
CN111782857B (zh) | 基于混合注意力密集网络的足迹图像检索方法 | |
CN116720057A (zh) | 基于特征筛选与权值分配的江河水质预测方法及系统 | |
CN114898775B (zh) | 一种基于跨层交叉融合的语音情绪识别方法及系统 | |
Ling et al. | A facial expression recognition system for smart learning based on yolo and vision transformer | |
CN118247813A (zh) | 一种基于自适应优化网络结构的行人重识别方法 | |
CN116311427B (zh) | 一种人脸伪造检测方法、装置、设备及存储介质 | |
CN118314882A (zh) | 一种基于可解译深度学习的语音识别方法 | |
CN116548979A (zh) | 基于时频信息融合注意力的生理信号片段分析方法 | |
CN117523685A (zh) | 基于非对称对比融合的双模态生物特征识别方法及系统 | |
CN114120050B (zh) | 地表生态数据提取方法及装置、设备和存储介质 | |
CN112966499B (zh) | 一种基于自适应融合多注意力网络的问题和答案匹配方法 | |
CN112668424B (zh) | 基于rbsagan的数据增广方法 | |
De Oliveira Plotze et al. | Automatic leaf structure biometry: computer vision techniques and their applications in plant taxonomy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |