CN107705806A - 一种使用谱图和深卷积神经网络进行语音情感识别的方法 - Google Patents
一种使用谱图和深卷积神经网络进行语音情感识别的方法 Download PDFInfo
- Publication number
- CN107705806A CN107705806A CN201710724721.0A CN201710724721A CN107705806A CN 107705806 A CN107705806 A CN 107705806A CN 201710724721 A CN201710724721 A CN 201710724721A CN 107705806 A CN107705806 A CN 107705806A
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- neural networks
- convolutional neural
- deep convolutional
- emotion recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 9
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 8
- 230000008451 emotion Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 208000000058 Anaplasia Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种使用谱图和深卷积神经网络进行语音情感识别的方法,包括以下步骤:根据语音信号生成频谱图;构建深卷积神经网络模型;用大量的频谱图作为输入,训练并优化所述深卷积神经网络模型;对训练好的所述深卷积神经网络模型进行测试并优化。本发明使用一种新的语音情感识别方法,将语音信号处理转化成图像处理,结合CNN能够有效的提高识别能力。
Description
技术领域
本发明涉及语音信号处理和模式识别的技术领域,特别是一种使用谱图和深卷积神经网络进行语音情感识别的方法。
背景技术
随着信息技术的不断发展,社会发展对情感计算提出了更高的要求。例如在人机交互方面,一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应,进而帮助使用者获得高效而又亲切的感觉,并能有效减轻人们使用电脑的挫败感,甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等,并做出相应反应。此外,情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中,以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况,情感计算的应用可以有效地帮助人们避免不良情绪,保持乐观健康的心理。现有技术分类不够准确。直接对声音进行提取特征会受声音中的噪音影响较大。
公开号为CN106782602A的专利文件公开了一种基于长短时间记忆网络和卷积神经网络的语音情感识别方法,该方法构建基于LSTM和CNN的语音情感识别系统,将语音序列作为系统的输入,采用反向传播算法对LSTM和CNN进行训练,优化网络的参数,得到优化后的网络模型;利用已经训练好的网络模型对新输入的语音序列进行情感分类,分为悲伤、高兴、延误、恐惧、惊吓、中性六种情感。该方法将语音序列作为系统输入。而语音序列是1维的。CNN在自动提取特征的过程中并不能很好的发挥作用。也就是说,此方法提取的特征并不太准确。
公开号为CN106847309A的专利文件公开了一种语音情感识别方法,包括步骤:1)将语音信号转换成语谱图作为原始输入;2)训练深度卷积神经网络来提取情感特征;3)针对每一类情感训练一个栈式自编码器自动构造出情感模糊集的隶属函数;4)对步骤2)中得到的特征使用步骤3)中的模糊优化理论进行特征优化;5)使用softmax分类器进行情感分类识别。该方法是两个卷积层和一个softmax全连接层。图像特征提取相对于3个卷积层来说不够细。全连接层能够保留特征间的内在联系,但是也不能过多,容易导致过拟合。本申请最大限度的保证了特征提取的准确性和有效性
发明内容
为了解决上述的技术问题,本发明提出了一种使用谱图和深卷积神经网络进行语音情感识别的方法,将语音信号转化为频谱图,输入到深卷积神经网络模型中,经过对深卷积神经网络模型进行训练和测试,能够有效的提高识别能力。
本发明提供一种使用谱图和深卷积神经网络进行语音情感识别的方法,包括以下步骤:
步骤1:根据语音信号生成频谱图;
步骤2:构建深卷积神经网络模型;
步骤3:用大量的频谱图作为输入,训练并优化所述深卷积神经网络模型;
步骤4:对训练好的所述深卷积神经网络模型进行测试并优化。
在上述任一方案中优选的是,所述频谱图是语音信号的特定波形的频率随时间变化的视觉表现。
在上述任一方案中优选的是,所述频谱图是一个二位图形,横坐标表示时间,纵坐标表示频率。
在上述任一方案中优选的是,所述频谱图是指对所述语音信号加入FFT转换计算得到时间和频率的关系。
在上述任一方案中优选的是,为了观察所述语音信号某一时刻的频率,将所述语音信号分成多个块,每一块都进行FFT转换。
在上述任一方案中优选的是,非周期性连续时间信号X(t)的傅里叶变化定义为:计算出来的是信号X(t)的连续频谱,在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。
在上述任一方案中优选的是,利用离散信号X(nT)来计算信号X(t)的频谱,有限长离散信号X(n),n=0,1,...,N-1的DFT定义k=0,1,...,N-1,其中,N为采样点个数,j表负数的虚部。
在上述任一方案中优选的是,所述深卷积神经网络模型由三个卷积层,三个全连接层和一个softamx层组成。
在上述任一方案中优选的是,所述步骤1还包括把得到的N*N像素的所述频谱图作为卷积神经网络的输入。
在上述任一方案中优选的是,初始的所述卷积层中用卷积函数从频谱图中提取特征。
在上述任一方案中优选的是,三个所述卷积层分别命名为C1层、C2层和C3层。
在上述任一方案中优选的是,所述C1层有A1(A1+1)个核,步长为B1。
在上述任一方案中优选的是,在所述C1层之后是ReLU激活函数和一个D1*D1大小、步长为B2的池化层。
在上述任一方案中优选的是,所述C2层有A2个核,大小为D2*D2,步长为B3。
在上述任一方案中优选的是,所述C3层有A3个核,大小为D3*D3。
在上述任一方案中优选的是,每一个所述卷积层后面连接着ReLU单元。
在上述任一方案中优选的是,在所述C3层后面连接着3个FC层,每一层分别有E1,E2和E3个神经元。
在上述任一方案中优选的是,前两个所述FC层后面接着dropout层。
在上述任一方案中优选的是,所述深卷积神经网络模型的训练方法包括如下步骤:
步骤01:从柏林语音情感数据集中生成F张频谱图,用于训练所述深卷积神经网络模型;
步骤02:采用Caffe卷积神经网络框架,设定初始学习率为G,每训练十次学习率降低H%,使算法快速收敛。
在上述任一方案中优选的是,所述深卷积神经网络模型的测试方法包括从柏林语音情感数据集中生成M张频谱图,用于测试模型。
本发明提出的方法能够有效的提高语音识别能力,利用CNN来处理语音数据。将语音数据转换成三位图像,是一个很好的创新,设定的CNN网络构架适合大数据时代,因为具有处理大量语音的能力,从而又能更好的学习到好的模型
附图说明
图1为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的流程图。
图2为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的系统构架图。
图3为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的实施流程图。
图4为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的模型训练方法的一实施例的流程图。
图5为按照本发明的使用谱图和深卷积神经网络进行语音情感识别的方法的一优选实施例的深卷积神经网络模型图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的阐述。
实施例一
如图1所示,执行步骤100,生成频谱图,根据语音信号生成频谱图,作为深卷积神经网络模型的输入数据。频谱图的生成具体包括:频谱图是语音信号的特定波形的频率随时间变化的视觉表现。频谱图是一个二位图形,横坐标表示时间,纵坐标表示频率。图形中,某一时间和频率部分的语音信号幅值由那个点的密度和颜色来表示。深蓝色表示低幅值,亮红色表示高幅值。对语音信号加入FFT转换计算得到时间和频率的关系,即频谱图。为了观察语音信号某一时刻的频率,将信号分成多个块,每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为:式中计算出来的是信号X(t)的连续频谱,这是一个求积分公式,对t求积分,得出关于w的函数,j表示复数的虚部。。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n),n=0,1,...,N-1的DFT定义k=0,1,...,N-1,这是一个求和公式,N为采样点个数,j表负数的虚部,X(n)是关于n的函数,经过求和后是关于k的函数。执行步骤110,构建深卷积神经网络模型,构建分类器模型。深卷积神经网络模型由三个卷积层,三个全连接层和一个softamx层组成。网络的输入是张N*N像素的频谱图(在本实施例中N=256)。初始的卷积层中用卷积函数从频谱图中提取特征。C1层有A1(A1+1)个核(在本实施例中A1=120),步长为B1(在本实施例中B1=4)。C1层之后是ReLU激活函数和一个D1*D1大小(在实施例中D1=3),步长为B2的池化层(在本实施例中B2=2)。C2层有A2个核(在本实施例中A2=256),大小为D2*D2(在本实施例中D2=5),步长为B3(在本实施例中B3=1)。C3层有A3个核(在本实施例中A3=384),大小为D3*D3(在本实施例中D3=3)。每一个卷积层后面连接着ReLU单元。C3层后面连接着3个FC层,每一层分别有E1,E2和E3个神经元在本实施例中E1=2048,E2=2048,E3=7,)。为了避免过拟合,前两个FC层后面接着dropout层。执行步骤120,判断生成的频谱图数量是否达到5000张。如果频谱图的数量不足5000张,则执行步骤100,继续生成频谱图。如果频谱图的数量达到5000张,则执行步骤130,对深卷积神经网络模型进行训练,用得到的5000张频谱图作为输入,训练并优化模型。深卷积神经网络模型的训练具体包括:从柏林语音情感数据集中生成F张频谱图(在本实施例中F=5000),用于训练模型。采用Caffe卷积神经网络框架,设定初始学习率为G(在本实施例中G=0.01),每训练十次学习率降低H%(在本实施例中H=0.1),从而使算法更快的收敛。执行步骤140,利用和步骤100相同的方法,生成频谱图。执行步骤150,判断生成的频谱图数量是否达到1000张。如果频谱图的数量不足1000张,则执行步骤140,继续生成频谱图。如果频谱图的数量达到1000张,则执行步骤160,对深卷积神经网络模型进行测试,深卷积神经网络模型模型的测试具体包括:对从步骤130中得到的训练好的模型进行测试,测试并优化模型。从柏林语音情感数据集中生成M张频谱图(在本实施例中M=1000),用于测试模型。
实施例二
如图2所示,本发明的整体系统构架包括五个部分:语音输入模块200、频谱图生成模块210、数据预处理模块220、分类器模块230和输出模块240。
语音输入模块200用于接收输入的语音数据。
频谱图生成模块210用于将输入的语音数据进行分割,生成频谱图。其工作的步骤如下:将信号分成多个块,每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为:式中计算出来的是信号X(t)的连续频谱。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n),n=0,1,...,N-1的DFT定义k=0,1,...,N-1,其中,N为采样点个数,j表负数的虚部。
数据预处理模块220用于得到符合cnn模型的频谱图。
分类器模块230用于生成深卷积神经网络模型和分类器模型。
输出模块240用于输出语音情感识别结果。
实施例三
如图3所示,对系统从训练和测试两部分做进一步说明。把语音信号300,分割成频谱图310,分割方法如下:将信号分成多个块,每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为:式中计算出来的是信号X(t)的连续频谱。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n),n=0,1,...,N-1的DFT定义k=0,1,...,N-1,其中,N为采样点个数,j表负数的虚部。采用上述方法生成5000张频谱图,导入到深卷积神经网络的分类器302中,对深卷积神经网络模型进行训练,得到优化的深卷积神经网络模型320。
把另一部分语音信号310分割成频谱图311,分割方法和上面的方法相同,生成1000张频谱图。把1000张频谱图导入到优化的深卷积神经网络模型320中,对优化的深卷积神经网络模型320进行测试,得到最终的分类结果330。
实施例四
如图4所示,对于一个语音数据,其处理流程如下:执行步骤400,对输入的语音信号进行切割,分成8等份。执行步骤410,对每一个语音信号进行FFT变化,生成频谱图。频谱图的生成方法为:将信号分成多个块,每一块都进行FFT转换。非周期性连续时间信号X(t)的傅里叶变化定义为:式中计算出来的是信号X(t)的连续频谱。在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。因此需要利用离散信号X(nT)来计算信号X(t)的频谱。有限长离散信号X(n),n=0,1,...,N-1的DFT定义 k=0,1,...,N-1,其中,N为采样点个数,j表负数的虚部。执行步骤420,对频谱图进行预处理,大小设为256X256像素。执行步骤430,构建卷积神经网络,深卷积神经网络模型的构建具体包括:深卷积神经网络模型由三个卷积层,三个全连接层和一个softamx层组成。网络的输入是张256x256像素的频谱图。初始的卷积层中用卷积函数从频谱图中提取特征。C1层有120(121)个核,步长为4。C1层之后是ReLU激活函数和一个3x3大小,步长为2的池化层。C2层有256个核,大小为5x5,步长为1。C3层有384个核,大小为3x3。每一个卷积层后面连接着ReLU单元。C3层后面连接着3个FC层,每一层分别有2048,2048和7个神经元。为了避免过拟合,前两个FC层后面接着dropout层。执行步骤440,选择随机梯度下降法作为其收敛方法。执行步骤450,为防止过拟合,将权重衰减设为0.1%,使用概率为0.75的随机失活函数。执行步骤460,判断频谱图的数量是否达到5000张。如果频谱图的数量没有达到5000张,则重新执行步骤400到步骤450,获取更多的频谱图。如果频谱图的数量达到5000张,则执行步骤470,将符合要求的频谱图输入到CNN网络(卷积神经网络)中。执行步骤480,经过训练,得到理想的CNN网络。
实施例五
如图5所示,深卷积神经网络模型包括标号为500的卷积层C1、标号为510的卷积层C2、标号为520的卷积层C3、标号为530的全连接层FC1、标号为540的全连接层FC2和标号为550的全连接层FC3。。网络的输入是一张256x256像素的频谱图。初始的卷积层中用卷积函数从频谱图中提取特征。号为500的卷积层C1层有120(121)个核,步长为4。C1层之后是ReLU激活函数和一个3x3大小,步长为2的池化层。标号为510的卷积层C2层有256个核,大小为5x5,步长为1。标号为520的卷积层C3层有384个核,大小为3x3。每一个卷积层后面连接着ReLU单元。C3层后面连接着3个全连接层,标号为530的全连接层FC1有2048个神经元,标号为540的全连接层FC2有2048个神经元,标号为550的全连接层FC3有7个神经元。为了避免过拟合,标号为530的全连接层FC1和标号为540的全连接层FC2的后面接着dropout层。
为了更好地理解本发明,以上结合本发明的具体实施例做了详细描述,但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改,均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法、装置和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (10)
1.一种使用谱图和深卷积神经网络进行语音情感识别的方法,包括以下步骤:
步骤1:根据语音信号生成频谱图;
步骤2:构建深卷积神经网络模型;
步骤3:用大量的频谱图作为输入,训练并优化所述深卷积神经网络模型;
步骤4:对训练好的所述深卷积神经网络模型进行测试并优化。
2.如权利要求1所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:所述频谱图是语音信号的特定波形的频率随时间变化的视觉表现。
3.如权利要求2所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:所述频谱图是一个二位图形,横坐标表示时间,纵坐标表示频率。
4.如权利要求3所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:所述频谱图是指对所述语音信号加入FFT转换计算得到时间和频率的关系。
5.如权利要求4所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:为了观察所述语音信号某一时刻的频率,将所述语音信号分成多个块,每一块都进行FFT转换。
6.如权利要求5所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于非周期性连续时间信号X(t)的傅里叶变化定义为:计算出来的是信号X(t)的连续频谱,在实际应用中得到的是连续信号X(t)的离散采样值X(nT)。
7.如权利要求6所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:利用离散信号X(nT)来计算信号X(t)的频谱,有限长离散信号X(n),n=0,1,...,N-1的DFT定义 其中,N为采样点个数,j表负数的虚部。
8.如权利要求7所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:所述深卷积神经网络模型由三个卷积层,三个全连接层和一个softamx层组成。
9.如权利要求8所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:所述步骤1还包括把得到的N*N像素的所述频谱图作为卷积神经网络的输入。
10.如权利要求9所述的使用谱图和深卷积神经网络进行语音情感识别的方法,其特征在于:初始的所述卷积层中用卷积函数从频谱图中提取特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710724721.0A CN107705806A (zh) | 2017-08-22 | 2017-08-22 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710724721.0A CN107705806A (zh) | 2017-08-22 | 2017-08-22 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107705806A true CN107705806A (zh) | 2018-02-16 |
Family
ID=61171102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710724721.0A Pending CN107705806A (zh) | 2017-08-22 | 2017-08-22 | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107705806A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN108899051A (zh) * | 2018-06-26 | 2018-11-27 | 北京大学深圳研究生院 | 一种基于联合特征表示的语音情感识别模型及识别方法 |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109171773A (zh) * | 2018-09-30 | 2019-01-11 | 合肥工业大学 | 基于多通道数据的情感分析方法和系统 |
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
CN109767778A (zh) * | 2018-12-27 | 2019-05-17 | 中国人民解放军陆军工程大学 | 一种融合Bi-LSTM和WaveNet的语音转换方法 |
CN109767790A (zh) * | 2019-02-28 | 2019-05-17 | 中国传媒大学 | 一种语音情感识别方法及系统 |
WO2019179036A1 (zh) * | 2018-03-19 | 2019-09-26 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN110322900A (zh) * | 2019-06-25 | 2019-10-11 | 深圳市壹鸽科技有限公司 | 一种语音信号特征融合的方法 |
CN110503128A (zh) * | 2018-05-18 | 2019-11-26 | 百度(美国)有限责任公司 | 使用卷积生成对抗网络进行波形合成的谱图 |
US20200201435A1 (en) * | 2018-12-20 | 2020-06-25 | Massachusetts Institute Of Technology | End-To-End Deep Neural Network For Auditory Attention Decoding |
CN111883178A (zh) * | 2020-07-17 | 2020-11-03 | 渤海大学 | 一种基于双通道语音转图像式情感识别方法 |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
CN113127622A (zh) * | 2021-04-29 | 2021-07-16 | 西北师范大学 | 一种从语音到图像的生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
-
2017
- 2017-08-22 CN CN201710724721.0A patent/CN107705806A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN106952649A (zh) * | 2017-05-14 | 2017-07-14 | 北京工业大学 | 基于卷积神经网络和频谱图的说话人识别方法 |
Non-Patent Citations (2)
Title |
---|
朱从贤: ""基于深度学习的语音情感识别方法的研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
田熙燕等: ""基于语谱图和卷积神经网络的语音情感识别"", 《河南科技学院学报(自然科学版)》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108550375A (zh) * | 2018-03-14 | 2018-09-18 | 鲁东大学 | 一种基于语音信号的情感识别方法、装置和计算机设备 |
WO2019179036A1 (zh) * | 2018-03-19 | 2019-09-26 | 平安科技(深圳)有限公司 | 深度神经网络模型、电子装置、身份验证方法和存储介质 |
CN110503128A (zh) * | 2018-05-18 | 2019-11-26 | 百度(美国)有限责任公司 | 使用卷积生成对抗网络进行波形合成的谱图 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN108717856B (zh) * | 2018-06-16 | 2022-03-08 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN108899051A (zh) * | 2018-06-26 | 2018-11-27 | 北京大学深圳研究生院 | 一种基于联合特征表示的语音情感识别模型及识别方法 |
CN108899051B (zh) * | 2018-06-26 | 2020-06-16 | 北京大学深圳研究生院 | 一种基于联合特征表示的语音情感识别模型及识别方法 |
CN109036465B (zh) * | 2018-06-28 | 2021-05-11 | 南京邮电大学 | 语音情感识别方法 |
CN109036465A (zh) * | 2018-06-28 | 2018-12-18 | 南京邮电大学 | 语音情感识别方法 |
CN109147826B (zh) * | 2018-08-22 | 2022-12-27 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109147826A (zh) * | 2018-08-22 | 2019-01-04 | 平安科技(深圳)有限公司 | 音乐情感识别方法、装置、计算机设备及计算机存储介质 |
CN109171773B (zh) * | 2018-09-30 | 2021-05-18 | 合肥工业大学 | 基于多通道数据的情感分析方法和系统 |
CN109171773A (zh) * | 2018-09-30 | 2019-01-11 | 合肥工业大学 | 基于多通道数据的情感分析方法和系统 |
CN109243466A (zh) * | 2018-11-12 | 2019-01-18 | 成都傅立叶电子科技有限公司 | 一种声纹鉴权训练方法及系统 |
US11630513B2 (en) * | 2018-12-20 | 2023-04-18 | Massachusetts Institute Of Technology | End-to-end deep neural network for auditory attention decoding |
US20200201435A1 (en) * | 2018-12-20 | 2020-06-25 | Massachusetts Institute Of Technology | End-To-End Deep Neural Network For Auditory Attention Decoding |
CN109767778B (zh) * | 2018-12-27 | 2020-07-31 | 中国人民解放军陆军工程大学 | 一种融合Bi-LSTM和WaveNet的语音转换方法 |
CN109767778A (zh) * | 2018-12-27 | 2019-05-17 | 中国人民解放军陆军工程大学 | 一种融合Bi-LSTM和WaveNet的语音转换方法 |
CN109767790A (zh) * | 2019-02-28 | 2019-05-17 | 中国传媒大学 | 一种语音情感识别方法及系统 |
CN110322900A (zh) * | 2019-06-25 | 2019-10-11 | 深圳市壹鸽科技有限公司 | 一种语音信号特征融合的方法 |
CN111883178A (zh) * | 2020-07-17 | 2020-11-03 | 渤海大学 | 一种基于双通道语音转图像式情感识别方法 |
CN112349297A (zh) * | 2020-11-10 | 2021-02-09 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN112349297B (zh) * | 2020-11-10 | 2023-07-04 | 西安工程大学 | 一种基于麦克风阵列的抑郁症检测方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
CN113127622A (zh) * | 2021-04-29 | 2021-07-16 | 西北师范大学 | 一种从语音到图像的生成方法及系统 |
CN113127622B (zh) * | 2021-04-29 | 2023-06-09 | 西北师范大学 | 一种从语音到图像的生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107705806A (zh) | 一种使用谱图和深卷积神经网络进行语音情感识别的方法 | |
CN109036465B (zh) | 语音情感识别方法 | |
Wang et al. | Cnn+ cnn: Convolutional decoders for image captioning | |
Cheng et al. | Facial expression recognition method based on improved VGG convolutional neural network | |
CN106782602B (zh) | 基于深度神经网络的语音情感识别方法 | |
CN106548208B (zh) | 一种照片图像快速智能风格化方法 | |
CN108510012A (zh) | 一种基于多尺度特征图的目标快速检测方法 | |
CN108597539A (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
CN105046277B (zh) | 特征显著性在图像质量评价中的鲁棒机理研究方法 | |
CN109637522B (zh) | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 | |
CN110534132A (zh) | 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法 | |
CN107506722A (zh) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 | |
CN105913039A (zh) | 基于视觉和语音的对话数据交互处理方法及装置 | |
CN107316015A (zh) | 一种基于深度时空特征的高精度面部表情识别方法 | |
CN110096711A (zh) | 序列全局关注和局部动态关注的自然语言语义匹配方法 | |
CN107657204A (zh) | 深层网络模型的构建方法及人脸表情识别方法和系统 | |
CN109558935A (zh) | 基于深度学习的情感识别与交互方法及系统 | |
Sarigül et al. | Comparison of different deep structures for fish classification | |
CN107657313A (zh) | 基于领域适应的自然语言处理任务的迁移学习系统和方法 | |
CN105913117A (zh) | 一种计算机智能识别的相关神经网络方法 | |
Ma et al. | A deep learning approach for online learning emotion recognition | |
CN107622267A (zh) | 一种基于嵌入双边卷积激活的场景文字识别方法 | |
Chen | Research on convolutional neural network image recognition algorithm based on computer big data | |
CN109359190A (zh) | 一种基于评价对象阵营的立场分析模型构建方法 | |
CN114863572A (zh) | 一种多通道异构传感器的肌电手势识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180216 |
|
RJ01 | Rejection of invention patent application after publication |