CN111429947A - 一种基于多级残差卷积神经网络的语音情感识别方法 - Google Patents
一种基于多级残差卷积神经网络的语音情感识别方法 Download PDFInfo
- Publication number
- CN111429947A CN111429947A CN202010225783.9A CN202010225783A CN111429947A CN 111429947 A CN111429947 A CN 111429947A CN 202010225783 A CN202010225783 A CN 202010225783A CN 111429947 A CN111429947 A CN 111429947A
- Authority
- CN
- China
- Prior art keywords
- neural network
- residual
- spectrogram
- convolutional neural
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 37
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims abstract description 17
- 230000008451 emotion Effects 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000000153 supplemental effect Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010048909 Boredom Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Child & Adolescent Psychology (AREA)
- Evolutionary Computation (AREA)
- Psychiatry (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多级残差卷积神经网络的语音情感识别方法,属于语音信号分析和图像处理等技术领域。该方法包括:1)训练过程:收集并预处理带所有情感的声音信号,生成语谱图;然后构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;2)测试过程:获取并预处理待识别声音信号,生成待识别语谱图;然后将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。本发明通过跨越多级的残差块对CNN进行特征弥补,解决了对CNN随着卷积层加深而出现的特征丢失的问题,且提高识别率。
Description
技术领域
本发明属于语音信号分析和图像处理等技术领域,涉及一种基于多级残差卷积神经网络的语音情感识别方法。
背景技术
随着深度学习技术的发展,语音情感识别技术与深度学习技术相结合的研究越来越多,以卷积神经网络(CNN)作为识别模型是研究重点之一。CNN的卷积核能够提取不同层级的特征,且能够完成特征提取、模型识别的全部流程,从而省略繁琐复杂的手工特征工程过程。但是CNN模型存在随着卷积层的加深,原始信号的特征逐渐丢失,从而导致识别率下降的问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于多级残差卷积神经网络的语音情感识别方法,针对CNN随着卷积层加深而出现的特征丢失的问题,通过跨越多级的残差块对CNN进行特征弥补,从而提高识别率。
为达到上述目的,本发明提供如下技术方案:
一种基于多级残差卷积神经网络的语音情感识别方法,包括以下步骤:
1)训练过程:
S11:收集并预处理带所有情感的声音信号,生成语谱图;
S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;
2)测试过程:
S21:获取并预处理待识别声音信号,生成待识别语谱图;
S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。
进一步,所述步骤S12或S21中,生成语谱图具体包括:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。
进一步,所述步骤S12中,构建多级残差卷积神经网络具体包括以下步骤:
S121:常将输入的语谱图转换成3个像素点矩阵;
S122:多级残差卷积神经网络的每个卷积层通过卷积核对矩阵进行遍历,得出一个卷积结果,即特征图,卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息;然后利用多级残差结构跨越多个卷积层将原始特征信息引入到后续卷积层实现特征补充,重复此步骤;
S123:卷积的最后结果以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。
进一步,所述步骤S12中,训练多级残差卷积神经网络具体包括:采用交叉熵损失函数对真实的样本和预测样本的偏差进行描述,如果偏差值较大说明训练效果不好,再通过梯度下降的方式进行反向传播,通过逐层求偏导调整参数的值,直至交叉熵的值趋近于零,即模型拟合;最后采用dropout正则化方法对网络结构中的神经元进行随机忽略,防止训练过拟合。
进一步,所述步骤S122中,所述多级残差结构为:假设引出残差时的输入是xi,引入残差后的输出是xi+n,则有多级残差结构的输出为:
xi+n=σ(wi+nF(xi+n-1)+bi+n+αxi)
其中,σ为激活函数,n为多级残差结构跨越的卷积层数,w和b分别为每个卷积层的权值和偏置,α和β是控制系数,用于限制输入特征的维度;。
进一步,所述交叉熵损失函数C为:
则反向传播的权值更新为:
进一步,所述梯度下降方式采用RMSProp算法,其自适应全参数为:
其中,r为梯度平方值的滑动率,w'为衰减率,α为学习率,ε、η为常数。
本发明的有益效果在于:与传统CNN模型对比,本发明所述的多级残差卷积神经网络模型通过弥补丢失特征的方法能有效地降低丢失率,提高识别率。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明方法的流程图;
图2为本发明中残差结构示意图;
图3为本发明中多级残差卷积神经网络模型的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图3,图1为一种基于多级残差卷积神经网络的语音情感识别方法,包括以下步骤:
1)训练过程:
S11:收集并预处理带所有情感的声音信号,生成语谱图;
S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练,该网络模型是一个包含多个卷积池化层和残差结构的深度神经网络,此结构可以在提升识别效果的同时保证训练收敛速度。
2)测试过程:
S21:获取并预处理待识别声音信号,生成待识别语谱图;
S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。
其中,语谱图生成过程为:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图,语谱图的横轴表示时域信息,纵轴表示频域信息,语谱图颜色的深浅的代表信号能量的强弱。因此语谱图能够反映声音信号的大多数特征信息。
步骤S12中,构建及训练多级残差卷积神经网络的过程为:搭建好的CNN网络包含大量待训练的参数,训练过程即相当于对各个参数的拟合过程。输入的语谱图相当于一个三通道(RGB)的图像,计算时通常将其转换成3个像素点矩阵,CNN的每个卷积核都相当于一个特征提取器,每个卷积核通过在矩阵中遍历的方式实现对特征信息的提取,例如纹理特征、边缘特征等。每个卷积层都会得出一个卷积结果(即特征图),卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息,重复上述过程。卷积的最后结果会以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。训练过程采用交叉熵对真实的样本和预测样本的偏差进行描述,如果偏差值较大说明训练效果不好,再通过梯度下降的方式进行反向传播,通过逐层求偏导调整参数的值,直至交叉熵的值趋近于零,即模型拟合。深度神经网络在训练的过程中容易出现过拟合情况,采取合理的正则化方法是训练成功的关键之一,本研究采用dropout正则化方法,dropout正则化方法是对网络结构中的神经元进行随机忽略的一种训练策略,可以很好地防止训练过拟合。
多级残差结构,如图2、3所示:每个卷积层的结果会成为下一个卷积层的输入,在这个给过程中存在特征丢失的现象,多级残差能够跨越多个卷积层将原始特征信息引入到后续卷积层从而实现特征补充。
假设引出残差时的输入是xi,引入残差后的输出是xi+n,则有多级残差结构的输出为:
xi+n=σ(wi+nF(xi+n-1)+bi+n+αxi)
其中,σ为激活函数,n为多级残差结构跨越的卷积层数,w和b分别为每个卷积层的权值和偏置,α和β是控制系数,用于限制输入特征的维度。
交叉熵损失函数C为:
则反向传播的权值更新为:
本发明中,梯度下降方式采用RMSProp算法,该方法具备全参数自适应的特点,对于提高训练速度有重要帮助。其自适应全参数为:
其中,r为梯度平方值的滑动率,w'为衰减率,α为学习率,ε为常数项,防止分母为零,一般取10-8,η为常数,自适应参数,一般取0.9。
实验验证实施例:
1、语音情感数据库:将在EMO-DB数据库上对模型的性能表现进行探究和测试。德国柏林语音情感数据库(EMO-DB)是由演员对七种不同的情绪(愤怒、无聊、恐惧、焦虑、开心、悲伤、中性)进行表达组成的。EMO-DB数据库的采样频率是16Khz,采用单声道16bit的设备进行录制。语音情感库的具体组成分布如表1所示。
表1EMO-DB数据库情感分布
数据集 | 愤怒 | 讨厌 | 恐惧 | 开心 | 悲伤 | 无聊 | 惊喜 | 中性 | 总计 |
EMO-DB | 127 | 46 | 69 | 71 | 62 | 81 | — | 79 | 535 |
注:“—”代表此数据库中没有对应的情感类别
2、实验的准备工作
1)数据集的扩充
本实验先将数据库的语音文件转变成语谱图。本实验采用的EMO-DB数据库一共包含有535条语音情感数据,因为样本量太少难以训练出效果较好的神经网络结构,故对数据集进行扩充。对数据集的扩充主要包括随机裁剪、随机翻转、灰度化、添加噪声点等操作,最终得到5000张语谱图,其中每种情感大约包含有700张语谱图,语谱图的制作在MATLAB2016b上完成。
2)参数设置
本实验使用TensorFlow工具包完成提出的网络结构的搭建和训练算法的实现,使用的服务器平台参数和详细的训练参数如表2所示:
表2平台配置和训练参数
3)模型实例和实验
本发明设计了图3所示的三种模型结构,并分别统计在EMO-DB数据集上的准确率如表3所示。
表3不同结构的识别率对比
由表3可知,本发明提出的结构在EMO-DB数据集上能取得较好的识别率。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,该方法包括以下步骤:
1)训练过程:
S11:收集并预处理带所有情感的声音信号,生成语谱图;
S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;
2)测试过程:
S21:获取并预处理待识别声音信号,生成待识别语谱图;
S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。
2.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12或S23中,生成语谱图具体包括:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。
3.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12中,构建多级残差卷积神经网络具体包括以下步骤:
S121:常将输入的语谱图转换成3个像素点矩阵;
S122:多级残差卷积神经网络的每个卷积层通过卷积核对矩阵进行遍历,得出一个卷积结果,即特征图,卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息;然后利用多级残差结构跨越多个卷积层将原始特征信息引入到后续卷积层实现特征补充,重复此步骤;
S23:卷积的最后结果以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。
4.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12中,训练多级残差卷积神经网络具体包括:采用交叉熵损失函数对真实的样本和预测样本的偏差进行描述,如果偏差值较大,再通过梯度下降的方式进行反向传播,通过逐层求偏导调整参数的值,直至交叉熵的值趋近于零,即模型拟合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010225783.9A CN111429947B (zh) | 2020-03-26 | 2020-03-26 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010225783.9A CN111429947B (zh) | 2020-03-26 | 2020-03-26 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429947A true CN111429947A (zh) | 2020-07-17 |
CN111429947B CN111429947B (zh) | 2022-06-10 |
Family
ID=71549720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010225783.9A Active CN111429947B (zh) | 2020-03-26 | 2020-03-26 | 一种基于多级残差卷积神经网络的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429947B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112332866A (zh) * | 2020-10-28 | 2021-02-05 | 成都海擎科技有限公司 | 一种基于dvb-s与dvb-s2信号的级联码参数识别方法 |
CN112331232A (zh) * | 2020-11-06 | 2021-02-05 | 杭州电子科技大学 | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 |
CN112581979A (zh) * | 2020-12-10 | 2021-03-30 | 重庆邮电大学 | 一种基于语谱图的语音情绪识别方法 |
CN113257280A (zh) * | 2021-06-07 | 2021-08-13 | 苏州大学 | 基于wav2vec的语音情感识别方法 |
CN113642714A (zh) * | 2021-08-27 | 2021-11-12 | 国网湖南省电力有限公司 | 基于小样本学习的绝缘子污秽放电状态识别方法及系统 |
CN114038469A (zh) * | 2021-08-03 | 2022-02-11 | 成都理工大学 | 一种基于多类谱图特征注意力融合网络的说话人识别方法 |
CN114420151A (zh) * | 2022-01-21 | 2022-04-29 | 陕西师范大学 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
CN114548221A (zh) * | 2022-01-17 | 2022-05-27 | 苏州大学 | 小样本不均衡语音数据库的生成式数据增强方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2715393A1 (en) * | 2008-02-13 | 2009-08-20 | Qualcomm Mems Technologies, Inc. | Multi-level stochastic dithering with noise mitigation via sequential template averaging |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN109801621A (zh) * | 2019-03-15 | 2019-05-24 | 三峡大学 | 一种基于残差门控循环单元的语音识别方法 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
US20190180188A1 (en) * | 2017-12-13 | 2019-06-13 | Cognizant Technology Solutions U.S. Corporation | Evolution of Architectures For Multitask Neural Networks |
-
2020
- 2020-03-26 CN CN202010225783.9A patent/CN111429947B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2715393A1 (en) * | 2008-02-13 | 2009-08-20 | Qualcomm Mems Technologies, Inc. | Multi-level stochastic dithering with noise mitigation via sequential template averaging |
CN107578775A (zh) * | 2017-09-07 | 2018-01-12 | 四川大学 | 一种基于深度神经网络的多任务语音分类方法 |
US20190180188A1 (en) * | 2017-12-13 | 2019-06-13 | Cognizant Technology Solutions U.S. Corporation | Evolution of Architectures For Multitask Neural Networks |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
CN109767759A (zh) * | 2019-02-14 | 2019-05-17 | 重庆邮电大学 | 基于改进型cldnn结构的端到端语音识别方法 |
CN109801621A (zh) * | 2019-03-15 | 2019-05-24 | 三峡大学 | 一种基于残差门控循环单元的语音识别方法 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
Non-Patent Citations (3)
Title |
---|
JINWANG,ET AL.: "Using a stacked residual LSTM model for sentiment intensity prediction", 《NEUROCOMPUTING》 * |
WU ZIFENG,ET AL.: "Wider or deeper:revisiting the resnet model for visual recognition", 《PATTERN RECOGNITION》 * |
刘娟宏等: "基于深度卷积神经网络的中文语音识别", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112332866A (zh) * | 2020-10-28 | 2021-02-05 | 成都海擎科技有限公司 | 一种基于dvb-s与dvb-s2信号的级联码参数识别方法 |
CN112332866B (zh) * | 2020-10-28 | 2024-04-30 | 成都海擎科技有限公司 | 一种基于dvb-s与dvb-s2信号的级联码参数识别方法 |
CN112331232A (zh) * | 2020-11-06 | 2021-02-05 | 杭州电子科技大学 | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 |
CN112331232B (zh) * | 2020-11-06 | 2022-08-12 | 杭州电子科技大学 | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 |
CN112581979B (zh) * | 2020-12-10 | 2022-07-12 | 重庆邮电大学 | 一种基于语谱图的语音情绪识别方法 |
CN112581979A (zh) * | 2020-12-10 | 2021-03-30 | 重庆邮电大学 | 一种基于语谱图的语音情绪识别方法 |
CN113257280A (zh) * | 2021-06-07 | 2021-08-13 | 苏州大学 | 基于wav2vec的语音情感识别方法 |
CN114038469A (zh) * | 2021-08-03 | 2022-02-11 | 成都理工大学 | 一种基于多类谱图特征注意力融合网络的说话人识别方法 |
CN114038469B (zh) * | 2021-08-03 | 2023-06-20 | 成都理工大学 | 一种基于多类谱图特征注意力融合网络的说话人识别方法 |
CN113642714B (zh) * | 2021-08-27 | 2024-02-09 | 国网湖南省电力有限公司 | 基于小样本学习的绝缘子污秽放电状态识别方法及系统 |
CN113642714A (zh) * | 2021-08-27 | 2021-11-12 | 国网湖南省电力有限公司 | 基于小样本学习的绝缘子污秽放电状态识别方法及系统 |
CN114548221A (zh) * | 2022-01-17 | 2022-05-27 | 苏州大学 | 小样本不均衡语音数据库的生成式数据增强方法及系统 |
CN114548221B (zh) * | 2022-01-17 | 2023-04-28 | 苏州大学 | 小样本不均衡语音数据库的生成式数据增强方法及系统 |
CN114420151A (zh) * | 2022-01-21 | 2022-04-29 | 陕西师范大学 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
CN114420151B (zh) * | 2022-01-21 | 2024-05-31 | 陕西师范大学 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111429947B (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429947B (zh) | 一种基于多级残差卷积神经网络的语音情感识别方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN109036465B (zh) | 语音情感识别方法 | |
CN110751044B (zh) | 基于深度网络迁移特征与增广自编码的城市噪声识别方法 | |
Wang et al. | Research on Web text classification algorithm based on improved CNN and SVM | |
CN109637545B (zh) | 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 | |
Han et al. | Speech emotion recognition with a resnet-cnn-transformer parallel neural network | |
CN106952649A (zh) | 基于卷积神经网络和频谱图的说话人识别方法 | |
CN108847223B (zh) | 一种基于深度残差神经网络的语音识别方法 | |
CN110490230A (zh) | 基于深度卷积生成对抗网络的水声目标识别方法 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
Golovko et al. | A new technique for restricted Boltzmann machine learning | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN103456302A (zh) | 一种基于情感gmm模型权重合成的情感说话人识别方法 | |
CN110634476A (zh) | 一种快速搭建鲁棒性声学模型的方法及系统 | |
CN114863938A (zh) | 一种基于注意力残差和特征融合的鸟语识别方法和系统 | |
CN114420151B (zh) | 基于并联张量分解卷积神经网络的语音情感识别方法 | |
CN118280371B (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN115240702A (zh) | 基于声纹特征的语音分离方法 | |
CN109767790A (zh) | 一种语音情感识别方法及系统 | |
CN113643722B (zh) | 一种基于多层矩阵随机神经网络的城市噪声识别方法 | |
CN108388942A (zh) | 基于大数据的信息智能处理方法 | |
CN113823292A (zh) | 基于通道注意力深度可分卷积网络的小样本话者辨认方法 | |
Li et al. | Research on voiceprint recognition technology based on deep neural network | |
Guo et al. | Hyperparameter optimization of CNN using DBO for speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |