CN111429947A - 一种基于多级残差卷积神经网络的语音情感识别方法 - Google Patents

一种基于多级残差卷积神经网络的语音情感识别方法 Download PDF

Info

Publication number
CN111429947A
CN111429947A CN202010225783.9A CN202010225783A CN111429947A CN 111429947 A CN111429947 A CN 111429947A CN 202010225783 A CN202010225783 A CN 202010225783A CN 111429947 A CN111429947 A CN 111429947A
Authority
CN
China
Prior art keywords
neural network
residual
spectrogram
convolutional neural
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010225783.9A
Other languages
English (en)
Other versions
CN111429947B (zh
Inventor
郑凯
夏志广
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010225783.9A priority Critical patent/CN111429947B/zh
Publication of CN111429947A publication Critical patent/CN111429947A/zh
Application granted granted Critical
Publication of CN111429947B publication Critical patent/CN111429947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Hospice & Palliative Care (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多级残差卷积神经网络的语音情感识别方法,属于语音信号分析和图像处理等技术领域。该方法包括:1)训练过程:收集并预处理带所有情感的声音信号,生成语谱图;然后构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;2)测试过程:获取并预处理待识别声音信号,生成待识别语谱图;然后将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。本发明通过跨越多级的残差块对CNN进行特征弥补,解决了对CNN随着卷积层加深而出现的特征丢失的问题,且提高识别率。

Description

一种基于多级残差卷积神经网络的语音情感识别方法
技术领域
本发明属于语音信号分析和图像处理等技术领域,涉及一种基于多级残差卷积神经网络的语音情感识别方法。
背景技术
随着深度学习技术的发展,语音情感识别技术与深度学习技术相结合的研究越来越多,以卷积神经网络(CNN)作为识别模型是研究重点之一。CNN的卷积核能够提取不同层级的特征,且能够完成特征提取、模型识别的全部流程,从而省略繁琐复杂的手工特征工程过程。但是CNN模型存在随着卷积层的加深,原始信号的特征逐渐丢失,从而导致识别率下降的问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于多级残差卷积神经网络的语音情感识别方法,针对CNN随着卷积层加深而出现的特征丢失的问题,通过跨越多级的残差块对CNN进行特征弥补,从而提高识别率。
为达到上述目的,本发明提供如下技术方案:
一种基于多级残差卷积神经网络的语音情感识别方法,包括以下步骤:
1)训练过程:
S11:收集并预处理带所有情感的声音信号,生成语谱图;
S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;
2)测试过程:
S21:获取并预处理待识别声音信号,生成待识别语谱图;
S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。
进一步,所述步骤S12或S21中,生成语谱图具体包括:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。
进一步,所述步骤S12中,构建多级残差卷积神经网络具体包括以下步骤:
S121:常将输入的语谱图转换成3个像素点矩阵;
S122:多级残差卷积神经网络的每个卷积层通过卷积核对矩阵进行遍历,得出一个卷积结果,即特征图,卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息;然后利用多级残差结构跨越多个卷积层将原始特征信息引入到后续卷积层实现特征补充,重复此步骤;
S123:卷积的最后结果以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。
进一步,所述步骤S12中,训练多级残差卷积神经网络具体包括:采用交叉熵损失函数对真实的样本和预测样本的偏差进行描述,如果偏差值较大说明训练效果不好,再通过梯度下降的方式进行反向传播,通过逐层求偏导调整参数的值,直至交叉熵的值趋近于零,即模型拟合;最后采用dropout正则化方法对网络结构中的神经元进行随机忽略,防止训练过拟合。
进一步,所述步骤S122中,所述多级残差结构为:假设引出残差时的输入是xi,引入残差后的输出是xi+n,则有多级残差结构的输出为:
xi+n=σ(wi+nF(xi+n-1)+bi+n+αxi)
Figure BDA0002427590990000021
其中,σ为激活函数,n为多级残差结构跨越的卷积层数,w和b分别为每个卷积层的权值和偏置,α和β是控制系数,用于限制输入特征的维度;。
进一步,所述交叉熵损失函数C为:
Figure BDA0002427590990000022
其中
Figure BDA0002427590990000023
表示1到K的标签,y(L)是网络模型的输出;
则反向传播的权值更新为:
Figure BDA0002427590990000024
其中,xi是引出残差时的输入,xi+n是引入残差后的输出,T(w,b)是权值和偏置的常数项;
Figure BDA0002427590990000025
表示对丢失特征的补充项。
进一步,所述梯度下降方式采用RMSProp算法,其自适应全参数为:
Figure BDA0002427590990000026
Figure BDA0002427590990000027
其中,r为梯度平方值的滑动率,w'为衰减率,α为学习率,ε、η为常数。
本发明的有益效果在于:与传统CNN模型对比,本发明所述的多级残差卷积神经网络模型通过弥补丢失特征的方法能有效地降低丢失率,提高识别率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明方法的流程图;
图2为本发明中残差结构示意图;
图3为本发明中多级残差卷积神经网络模型的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,图1为一种基于多级残差卷积神经网络的语音情感识别方法,包括以下步骤:
1)训练过程:
S11:收集并预处理带所有情感的声音信号,生成语谱图;
S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练,该网络模型是一个包含多个卷积池化层和残差结构的深度神经网络,此结构可以在提升识别效果的同时保证训练收敛速度。
2)测试过程:
S21:获取并预处理待识别声音信号,生成待识别语谱图;
S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。
其中,语谱图生成过程为:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图,语谱图的横轴表示时域信息,纵轴表示频域信息,语谱图颜色的深浅的代表信号能量的强弱。因此语谱图能够反映声音信号的大多数特征信息。
步骤S12中,构建及训练多级残差卷积神经网络的过程为:搭建好的CNN网络包含大量待训练的参数,训练过程即相当于对各个参数的拟合过程。输入的语谱图相当于一个三通道(RGB)的图像,计算时通常将其转换成3个像素点矩阵,CNN的每个卷积核都相当于一个特征提取器,每个卷积核通过在矩阵中遍历的方式实现对特征信息的提取,例如纹理特征、边缘特征等。每个卷积层都会得出一个卷积结果(即特征图),卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息,重复上述过程。卷积的最后结果会以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。训练过程采用交叉熵对真实的样本和预测样本的偏差进行描述,如果偏差值较大说明训练效果不好,再通过梯度下降的方式进行反向传播,通过逐层求偏导调整参数的值,直至交叉熵的值趋近于零,即模型拟合。深度神经网络在训练的过程中容易出现过拟合情况,采取合理的正则化方法是训练成功的关键之一,本研究采用dropout正则化方法,dropout正则化方法是对网络结构中的神经元进行随机忽略的一种训练策略,可以很好地防止训练过拟合。
多级残差结构,如图2、3所示:每个卷积层的结果会成为下一个卷积层的输入,在这个给过程中存在特征丢失的现象,多级残差能够跨越多个卷积层将原始特征信息引入到后续卷积层从而实现特征补充。
假设引出残差时的输入是xi,引入残差后的输出是xi+n,则有多级残差结构的输出为:
xi+n=σ(wi+nF(xi+n-1)+bi+n+αxi)
Figure BDA0002427590990000041
其中,σ为激活函数,n为多级残差结构跨越的卷积层数,w和b分别为每个卷积层的权值和偏置,α和β是控制系数,用于限制输入特征的维度。
交叉熵损失函数C为:
Figure BDA0002427590990000042
其中
Figure BDA0002427590990000043
表示1到K的标签,y(L)是网络模型的输出;
则反向传播的权值更新为:
Figure BDA0002427590990000044
其中,xi是引出残差时的输入,xi+n是引入残差后的输出,T(w,b)是权值和偏置的常数项;
Figure BDA0002427590990000051
表示对丢失特征的补充项。
本发明中,梯度下降方式采用RMSProp算法,该方法具备全参数自适应的特点,对于提高训练速度有重要帮助。其自适应全参数为:
Figure BDA0002427590990000052
Figure BDA0002427590990000053
其中,r为梯度平方值的滑动率,w'为衰减率,α为学习率,ε为常数项,防止分母为零,一般取10-8,η为常数,自适应参数,一般取0.9。
实验验证实施例:
1、语音情感数据库:将在EMO-DB数据库上对模型的性能表现进行探究和测试。德国柏林语音情感数据库(EMO-DB)是由演员对七种不同的情绪(愤怒、无聊、恐惧、焦虑、开心、悲伤、中性)进行表达组成的。EMO-DB数据库的采样频率是16Khz,采用单声道16bit的设备进行录制。语音情感库的具体组成分布如表1所示。
表1EMO-DB数据库情感分布
数据集 愤怒 讨厌 恐惧 开心 悲伤 无聊 惊喜 中性 总计
EMO-DB 127 46 69 71 62 81 79 535
注:“—”代表此数据库中没有对应的情感类别
2、实验的准备工作
1)数据集的扩充
本实验先将数据库的语音文件转变成语谱图。本实验采用的EMO-DB数据库一共包含有535条语音情感数据,因为样本量太少难以训练出效果较好的神经网络结构,故对数据集进行扩充。对数据集的扩充主要包括随机裁剪、随机翻转、灰度化、添加噪声点等操作,最终得到5000张语谱图,其中每种情感大约包含有700张语谱图,语谱图的制作在MATLAB2016b上完成。
2)参数设置
本实验使用TensorFlow工具包完成提出的网络结构的搭建和训练算法的实现,使用的服务器平台参数和详细的训练参数如表2所示:
表2平台配置和训练参数
Figure BDA0002427590990000054
Figure BDA0002427590990000061
3)模型实例和实验
本发明设计了图3所示的三种模型结构,并分别统计在EMO-DB数据集上的准确率如表3所示。
表3不同结构的识别率对比
Figure BDA0002427590990000062
由表3可知,本发明提出的结构在EMO-DB数据集上能取得较好的识别率。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,该方法包括以下步骤:
1)训练过程:
S11:收集并预处理带所有情感的声音信号,生成语谱图;
S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;
2)测试过程:
S21:获取并预处理待识别声音信号,生成待识别语谱图;
S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。
2.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12或S23中,生成语谱图具体包括:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。
3.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12中,构建多级残差卷积神经网络具体包括以下步骤:
S121:常将输入的语谱图转换成3个像素点矩阵;
S122:多级残差卷积神经网络的每个卷积层通过卷积核对矩阵进行遍历,得出一个卷积结果,即特征图,卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息;然后利用多级残差结构跨越多个卷积层将原始特征信息引入到后续卷积层实现特征补充,重复此步骤;
S23:卷积的最后结果以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。
4.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12中,训练多级残差卷积神经网络具体包括:采用交叉熵损失函数对真实的样本和预测样本的偏差进行描述,如果偏差值较大,再通过梯度下降的方式进行反向传播,通过逐层求偏导调整参数的值,直至交叉熵的值趋近于零,即模型拟合。
5.根据权利要求3所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S122中,所述多级残差结构为:假设引出残差时的输入是xi,引入残差后的输出是xi+n,则有多级残差结构的输出为:
xi+n=σ(wi+nF(xi+n-1)+bi+n+αxi)
Figure FDA0002427590980000011
其中,σ为激活函数,n为多级残差结构跨越的卷积层数,w和b分别为每个卷积层的权值和偏置,α和β是控制系数,用于限制输入特征的维度。
6.根据权利要求4所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述交叉熵损失函数C为:
Figure FDA0002427590980000021
其中
Figure FDA0002427590980000022
表示1到K的标签,y(L)是网络模型的输出;
则反向传播的权值更新为:
Figure FDA0002427590980000023
其中,xi是引出残差时的输入是,xi+n是引入残差后的输出,T(w,b)是权值和偏置的常数项;
Figure FDA0002427590980000024
表示对丢失特征的补充项。
7.根据权利要求4所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述梯度下降方式采用RMSProp算法,其自适应全参数为:
Figure FDA0002427590980000025
Figure FDA0002427590980000026
其中,r为梯度平方值的滑动率,w'为衰减率,α为学习率,ε、η为常数。
CN202010225783.9A 2020-03-26 2020-03-26 一种基于多级残差卷积神经网络的语音情感识别方法 Active CN111429947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010225783.9A CN111429947B (zh) 2020-03-26 2020-03-26 一种基于多级残差卷积神经网络的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010225783.9A CN111429947B (zh) 2020-03-26 2020-03-26 一种基于多级残差卷积神经网络的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN111429947A true CN111429947A (zh) 2020-07-17
CN111429947B CN111429947B (zh) 2022-06-10

Family

ID=71549720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010225783.9A Active CN111429947B (zh) 2020-03-26 2020-03-26 一种基于多级残差卷积神经网络的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN111429947B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112332866A (zh) * 2020-10-28 2021-02-05 成都海擎科技有限公司 一种基于dvb-s与dvb-s2信号的级联码参数识别方法
CN112331232A (zh) * 2020-11-06 2021-02-05 杭州电子科技大学 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN113257280A (zh) * 2021-06-07 2021-08-13 苏州大学 基于wav2vec的语音情感识别方法
CN113642714A (zh) * 2021-08-27 2021-11-12 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN114038469A (zh) * 2021-08-03 2022-02-11 成都理工大学 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN114420151A (zh) * 2022-01-21 2022-04-29 陕西师范大学 基于并联张量分解卷积神经网络的语音情感识别方法
CN114548221A (zh) * 2022-01-17 2022-05-27 苏州大学 小样本不均衡语音数据库的生成式数据增强方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2715393A1 (en) * 2008-02-13 2009-08-20 Qualcomm Mems Technologies, Inc. Multi-level stochastic dithering with noise mitigation via sequential template averaging
CN107578775A (zh) * 2017-09-07 2018-01-12 四川大学 一种基于深度神经网络的多任务语音分类方法
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
US20190180188A1 (en) * 2017-12-13 2019-06-13 Cognizant Technology Solutions U.S. Corporation Evolution of Architectures For Multitask Neural Networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2715393A1 (en) * 2008-02-13 2009-08-20 Qualcomm Mems Technologies, Inc. Multi-level stochastic dithering with noise mitigation via sequential template averaging
CN107578775A (zh) * 2017-09-07 2018-01-12 四川大学 一种基于深度神经网络的多任务语音分类方法
US20190180188A1 (en) * 2017-12-13 2019-06-13 Cognizant Technology Solutions U.S. Corporation Evolution of Architectures For Multitask Neural Networks
CN109460737A (zh) * 2018-11-13 2019-03-12 四川大学 一种基于增强式残差神经网络的多模态语音情感识别方法
CN109767759A (zh) * 2019-02-14 2019-05-17 重庆邮电大学 基于改进型cldnn结构的端到端语音识别方法
CN109801621A (zh) * 2019-03-15 2019-05-24 三峡大学 一种基于残差门控循环单元的语音识别方法
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINWANG,ET AL.: "Using a stacked residual LSTM model for sentiment intensity prediction", 《NEUROCOMPUTING》 *
WU ZIFENG,ET AL.: "Wider or deeper:revisiting the resnet model for visual recognition", 《PATTERN RECOGNITION》 *
刘娟宏等: "基于深度卷积神经网络的中文语音识别", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112332866A (zh) * 2020-10-28 2021-02-05 成都海擎科技有限公司 一种基于dvb-s与dvb-s2信号的级联码参数识别方法
CN112332866B (zh) * 2020-10-28 2024-04-30 成都海擎科技有限公司 一种基于dvb-s与dvb-s2信号的级联码参数识别方法
CN112331232A (zh) * 2020-11-06 2021-02-05 杭州电子科技大学 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112331232B (zh) * 2020-11-06 2022-08-12 杭州电子科技大学 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法
CN112581979B (zh) * 2020-12-10 2022-07-12 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN113257280A (zh) * 2021-06-07 2021-08-13 苏州大学 基于wav2vec的语音情感识别方法
CN114038469A (zh) * 2021-08-03 2022-02-11 成都理工大学 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN114038469B (zh) * 2021-08-03 2023-06-20 成都理工大学 一种基于多类谱图特征注意力融合网络的说话人识别方法
CN113642714B (zh) * 2021-08-27 2024-02-09 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN113642714A (zh) * 2021-08-27 2021-11-12 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN114548221A (zh) * 2022-01-17 2022-05-27 苏州大学 小样本不均衡语音数据库的生成式数据增强方法及系统
CN114548221B (zh) * 2022-01-17 2023-04-28 苏州大学 小样本不均衡语音数据库的生成式数据增强方法及系统
CN114420151A (zh) * 2022-01-21 2022-04-29 陕西师范大学 基于并联张量分解卷积神经网络的语音情感识别方法
CN114420151B (zh) * 2022-01-21 2024-05-31 陕西师范大学 基于并联张量分解卷积神经网络的语音情感识别方法

Also Published As

Publication number Publication date
CN111429947B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN111429947B (zh) 一种基于多级残差卷积神经网络的语音情感识别方法
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN109036465B (zh) 语音情感识别方法
CN110751044B (zh) 基于深度网络迁移特征与增广自编码的城市噪声识别方法
Wang et al. Research on Web text classification algorithm based on improved CNN and SVM
CN109637545B (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
Han et al. Speech emotion recognition with a resnet-cnn-transformer parallel neural network
CN106952649A (zh) 基于卷积神经网络和频谱图的说话人识别方法
CN108847223B (zh) 一种基于深度残差神经网络的语音识别方法
CN110490230A (zh) 基于深度卷积生成对抗网络的水声目标识别方法
CN106782511A (zh) 修正线性深度自编码网络语音识别方法
Golovko et al. A new technique for restricted Boltzmann machine learning
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
CN110634476A (zh) 一种快速搭建鲁棒性声学模型的方法及系统
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
CN114420151B (zh) 基于并联张量分解卷积神经网络的语音情感识别方法
CN118280371B (zh) 一种基于人工智能的语音交互方法及系统
CN115240702A (zh) 基于声纹特征的语音分离方法
CN109767790A (zh) 一种语音情感识别方法及系统
CN113643722B (zh) 一种基于多层矩阵随机神经网络的城市噪声识别方法
CN108388942A (zh) 基于大数据的信息智能处理方法
CN113823292A (zh) 基于通道注意力深度可分卷积网络的小样本话者辨认方法
Li et al. Research on voiceprint recognition technology based on deep neural network
Guo et al. Hyperparameter optimization of CNN using DBO for speaker recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant