CN108597539B - 基于参数迁移和语谱图的语音情感识别方法 - Google Patents
基于参数迁移和语谱图的语音情感识别方法 Download PDFInfo
- Publication number
- CN108597539B CN108597539B CN201810134149.7A CN201810134149A CN108597539B CN 108597539 B CN108597539 B CN 108597539B CN 201810134149 A CN201810134149 A CN 201810134149A CN 108597539 B CN108597539 B CN 108597539B
- Authority
- CN
- China
- Prior art keywords
- spectrogram
- neural network
- training
- layer
- steps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013508 migration Methods 0.000 title claims abstract description 22
- 230000005012 migration Effects 0.000 title claims abstract description 22
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 16
- 230000008451 emotion Effects 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 14
- 208000013875 Heart injury Diseases 0.000 claims abstract 2
- 230000006870 function Effects 0.000 claims description 33
- 238000013527 convolutional neural network Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002996 emotional effect Effects 0.000 abstract description 7
- 239000000284 extract Substances 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010008 shearing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 235000001968 nicotinic acid Nutrition 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于参数迁移和语谱图的语音情感识别方法,包括以下步骤:1):从中科院自动化所汉语情感数据库中采集语音情感数据并对语音情感数据进行预处理,其中语音情感数据包括6种情感:生气、害怕、高兴、中性、伤心、惊奇;2):构建基于预训练卷积循环神经网络的网络模型;3):对步骤2)中的网络模型进行参数迁移并训练。这种方法可以提取语谱图时频两域的情感特征,提高识别准确率,并且还能学习到预训练的知识,提高网络训练速度。
Description
技术领域
本发明涉及语音处理技术和情感分析技术领域,具体是基于参数迁移和语谱 图的语音情感识别方法。
背景技术
语音作为人类交流的重要载体之一,不仅承载着语义内容而且还包含丰富的 情感信息。语音情感识别综合模式识别、信号处理、仿生学等多学科,在人工智 能和人机交互的发展中扮演着极其重要的作用。语音情感识别的目的是使机器从 人类的语音信号中自动识别出说话人的当前情感状态,从而使计算机具有更人性 化的功能。
根据目前的研究,语音信号中用于情感识别的特征大致可以分为三类:韵律 特征、音质特征和谱特征,包括能量、音高、过零率、共振峰、梅尔倒谱系数 (Mel-frequencycepstral coefficients,MFCC)等。这些低层特征以语音帧为 单位进行提取,然后把它们在语音段的全局统计特征值输入到分类器进行情感识 别。传统的语音情感识别方法使用人工选取的特征输入浅层机器学习模型进行分 类识别。然而目前业界还不清楚这些特征集是否能有效地描述语音的情感内容, 并且韵律特征、音质特征和谱特征要么属于语音的时域特征,要么属于频域特征, 缺少语音信号随时间变化的特性,即融合时频两域相关性的特征。深度神经网络 凭借其强大的建模能力有效地捕获隐藏于数据内部的特征,对数据自动地逐级提 取特征,从而减少了手工设计特征造成的不完备性。语谱图是一种特殊的图像, 它既像普通图片那样具有空间邻域相关性,在时间维度上又具有时序性。近来已 有研究者使用深度神经网络对语谱图提取特征进行语音情感识别,如把经过卷积 层提取后的二维语谱图特征展开成具有固定时间步长的一维特征,然后输入到两 层堆叠的长短期记忆网络学习具有时序性质的特征。但这些研究没有构建一个良 好的模型来提取语谱图特征,没有充分考虑语谱图时频两域的特性,也没有解决 在语音数据集小的情况下识别率低的问题。
发明内容
本发明的目的是针对现有技术的不足,提供基于参数迁移和语谱图的语音情 感识别方法。这种方法可以提取语谱图时频两域的情感特征,提高识别准确率; 还能够学习到预训练的知识,提高网络训练速度。
实现本发明目的的技术方案是:
基于参数迁移和语谱图的语音情感识别方法,包括以下步骤:
1):从中科院自动化所汉语情感数据库中采集语音情感数据并对语音情感数 据进行预处理,其中语音情感数据包括6种情感:生气、害怕、高兴、中性、伤 心、惊奇;
2):构建基于预训练卷积循环神经网络的网络模型;
3):对步骤2)中的网络模型进行参数迁移并训练。
步骤1)中所述的预处理,包括如下步骤:
①:采集6种语音情感数据;
②:对每条语音情感数据进行预加重,将预加重后的语音情感数据进行分帧, 再将分帧后的语音情感数据进行加窗处理,以降低泄漏;
③:将加窗处理后的语音情感数据进行傅里叶变换,最后将音情感数据转换 为RGB三通道语谱图。
步骤2)中所述的构建网络模型,包括如下步骤:
网络模型由卷积神经网络部分和循环神经网络部分组成;
①:基于AlexNet网络模型构建卷积神经网络(Convolutional Neural Network,CNN)部分,去掉AlexNet网络模型第五个卷积层之后的全连接层,重 新设置全连接层参数,形成新的全连接层,然后将步骤1)中的语谱图输出的特 征进行维度转换,再连接循环神经网络部分,循环神经网络部分使用(Long-Short Term Memory,LSTM)神经网络,最后连接新的全连接层;
②:使用Relu函数作为卷积和池化层的激活函数,步骤1)中的语谱图经 过每一个卷积层的卷积操作后提取的特征图在池化层进行降采样操作,去除冗余 信息,缩小运算规模,构建出网络模型。
步骤3)中所述的参数迁移包括如下步骤:
①:对步骤1)中的每张语谱图进行数据增强操作来扩充语谱图的数据集, 扩充后的语谱图数据集有利于提高识别准确率;
②:迁移在ImageNet数据集上预训练的AlexNet网络的权重参数,设置预 训练AlexNet网络的每个卷积层的权重参数为W(i)(i=1,2,…,5),选取W(4)迁移到 步骤2)中的网络模型;固定卷积神经网络部分的前四层权重参数,使卷积神经 网络部分的前四层权重参数在训练时不更新,只调整四层之后的权重参数;
③:对步骤2)中的卷积神经网络部分提取的语谱图特征组成的c张特征图 进行维度转换,设置得到的c张输出特征图为M=(m1,m2,…,mc),每张特征图用(xt,yf) 表示,其中t为时域维度,f为频域维度;所有的特征图组成c×t×f的三维向 量,形成特征图集M(c,t,f);将t作为一个维度,c和f组成一个二维向量,即 变成t×(c×f),对M集进行维度变换操作,转换其特征维度形成M′(t,c,f); 当输入到LSTM神经网络后,将维度t作为训练的时间步长,c×f作为每个时间 步的序列特征输入;
④:将LSTM神经网络输出的语谱图特征输入到新的全连接层,经Softmax 激活函数映射到语音情感数据中的其中一种情感。
步骤3)中所述的训练包括如下步骤:
①:使用随机梯度下降算法计算损失函数,设置随机梯度下降算法的学习率 为0.0001,动量为0.9;
设定总数为m的语谱图训练样本集{(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))},对于单个输入样本每个样本即有n个特征。步骤2)构建的网 络模型的整体样本的损失函数为:
②:梯度下降算法在执行过程中利用反向传播算法计算输出权值的偏导数;
③:经过迭代来缩小整体语谱图集的损失函数,当产生的训练误差变小时减 小学习率直到误差稳定。
本技术方案具有以下有益效果:可以提取语谱图时频两域的情感特征,提高 识别准确率;还能够学习到预训练的知识,提高网络训练速度。
附图说明
图1为实施例的流程示意图;
图2为实施例中网络模型的参数设置图;
图3为实施例中网络模型示意图;
图4为应用语音传统特征和语谱图的识别对比图;
图5为迁移不同预训练卷积层的效果对比图。
具体实施方式
下面结合实施例和附图对本发明的内容作进一步的阐述,但不是对本发明的 限定。
实施例:
参照图1:基于参数迁移和语谱图的语音情感识别方法,包括如下步骤:
1):从中科院自动化所汉语情感数据库中采集语音情感数据并对语音情感数 据进行预处理,其中语音情感数据包括6种情感:生气、害怕、高兴、中性、伤 心、惊奇;
2):构建基于预训练卷积循环神经网络的网络模型;
3):对步骤2)中的网络模型进行参数迁移并训练。
步骤1)中所述的预处理,包括如下步骤:
①:采集6种语音情感数据;
②:对每条语音情感数据的语音波形信号进行预加重,将预加重后的的语音 波形信号进行分帧,再将分帧后的的语音波形信号进行加窗处理,以降低泄漏;
(1):语音波形信号在经过嘴唇与鼻孔的福射后将会造成高频部分的衰减, 预加重的目的是为了对语音波形信号的高频部分进行提升,保持在低频到高频的 整个频带中,能用同样的信噪比求频谱,利于频谱分析,预加重传递函数公式为:
H(z)=1-az-1
其中z表示语音波形信号,a表示预加重系数,a的取值范围一般为0.9~1, 这里取0.97;
(2):对预加重后的语音波形信号进行分帧时每一帧的长度大概是 20ms~30ms,预加重后的语音波形信号在这个小时间段里可以视为稳定的;但是 由于人说话并不是间断的,每帧之间都是相关的,加上帧移可以更好地与实际的 语音波形信号相接近,在这里分帧时每一帧的长度取25ms,帧移取10ms;
(3):分帧后的语音波形信号变成了分段的有限信号,导致在调用傅里叶变 换函数的时候发生高频部分泄漏的情况,可以通过加窗处理来降低泄漏,窗函数 一般选取汉明窗,公式为:
其中α为系数,取0.46;
③:提取加窗后的语音波形信号的传统特征以验证传统方法与本实施例方法 的差别;选取了梅尔倒谱系数(MFCC)、基音频率、短时能量、短时过零率、共 振峰;对这些特征进行全局统计,采用的统计指标有最大最小值及其所在帧、范 围、均值、标准差、偏斜度、峰度、线性近似斜率、线性近似偏移、线性近似二 次偏差共12个统计量,每句语音由上述特征的统计量共组成384维的特征向量, 如表1所示:
表1 语音传统384维特征向量
④:将加窗处理后的语音情感数据进行傅里叶变换,最后将语音情感数据转 换为RGB三通道语谱图,公式为:
其中,s(t)为加窗后的输入语音波形信号,T为汉明窗长度,h(t)为汉明窗 函数,fft为傅里叶变换函数,k∈[0,T];T取512,语音帧叠加为240个波 形点数,生成227×227像素大小的RGB三通道语谱图。
步骤2)中所述的构建网络模型,包括如下步骤:
网络模型由卷积神经网络部分和循环神经网络部分组成;
①:基于AlexNet网络模型构建卷积神经网络部分,如图3所示,去掉 AlexNet网络模型第五个卷积层之后的全连接层,重新设置全连接层参数,形成 新的全连接层,然后将步骤1)中的语谱图输出的特征进行维度转换,再连接循 环神经网络部分,循环神经网络部分使用LSTM神经网络,最后连接新的全连接 层;
卷积神经网络部分由c1、p1、c2、p2、c3、c4、c5堆叠构成,c表示卷积 层,p表示池化层,循环神经网络部分由Lstm1和Lstm2构成,全连接层由全连 接层1和全连接层2构成,如图2所示,具体的的网络结构参数设置为:卷积层 c1的卷积核96×11×11,步长4,池化层p1的池化窗口3×3,步长2,填充方 式为大小为2的零填充,卷积层c2的卷积核128×5×5,步长2,池化层p2的 池化窗口3×3,步长2,填充方式为大小为1的零填充,卷积层c3的卷积核384 ×3×3,步长2,卷积层c4的卷积核192×3×3,步长2,卷积层c5的卷积核 128×3×3,步长2,设置转换层的维度转换方式为(3,1,2),Lstm1层的神经元 个数1024,Lstm2层的神经元个数512,全连接层1的神经元个数512,全连接 层2的神经元个数6;
②:使用Relu函数作为卷积和池化层的激活函数,池化方式采用最大池化 法以减少提取特征时过多参数的计算复杂度;具体的,假设第l层为卷积层,第 l-1层为输入层或池化层,则第l层前后的映射关系公式为:
其中:表示第l个卷积层第j个特征图的输入;表示第l-1个卷积层 第i个特征图的输出;表示前一层第i个特征图与当前层第j个特征图之间 的卷积核,核大小为l1×l2;表示第l个卷积层第j个特征图的偏置项;* 代表卷积操作;Mj表示当前层第j个特征图与前一层连接的特征图的集合;g代 表激活函数;
语谱图经过每一个卷积层的卷积操作后得到的特征图在池化层进行降采样 操作,假设第l-1层为卷积层,第l层为池化层,则池化过程公式为:
其中:表示第l层的输入特征图;表示第l-1层的输出特征图;down 表示l-1层到l层的降采样函数,这里采用最大值池化方法,通过滑动窗口方法 对输入特征图不同的n×n区域取最大值然后乘以权重再加上偏置使得输 出特征图缩小为原来的1/n;去除冗余信息,缩小运算规模,构建出网络模型。
步骤3)中所述的参数迁移包括如下步骤:
①:对步骤1)中的每张语谱图进行数据增强操作来扩充语谱图的数据集, 数据增强方法包含了两种扩充方式,一种是对语谱图进行剪切变换,剪切角弧度 为0.2;另一种方式为随机缩放,缩放比例为0~10%;由于语谱图是特殊的图片, 进行平移变换后会丢失某些语音段的情感信息,破坏了语谱图的时序性,因此本 实施例采用剪切与缩放结合的方式对语谱图进行数据增强,保持了图片像素特征 之间的前后关系和相对位置,扩充后的语谱图数据集有利于提高识别准确率;
②:迁移在ImageNet数据集上预训练的AlexNet网络的权重参数,用其初 始化本技术方案所构建网络模型的卷积神经网络部分的权重参数;参数迁移能利 用预训练大数据集的知识,将已有网络模型参数的学习能力迁移到另一个小型数 据集的网络中,加快新网络的训练速度以及提高网络的泛化能力;设置预训练 AlexNet网络的每个卷积层的权重参数为W(i)(i=1,2,…,5),选取W(4)迁移到步骤 2)中构建的网络模型并初始化W(4)参数;低卷积层学习到的是图片的边角、颜色 等低卷积层特征,随着网络层次的深入,逐步学习到更加高层的、全局的特征; 预训练的AlexNet网络模型中卷积层第五层学习到的特征比第四层更具全局性, 而语谱图和ImageNet数据集中图片的高层特征差别较大,且具有数据集特定性; 因此对应的网络参数配置为固定卷积神经网络部分的前四层权重参数,使卷积神经网络部分的前四层权重参数在训练时不更新,只调整四层之后的权重参数;
③:对步骤2)中的卷积神经网络部分提取的语谱图特征组成的c张特征图 进行维度转换,设置得到的c张输出特征图为M=(m1,m2,…,mc),每张特征图用(xt,yf) 表示,其中t为时域维度,f为频域维度;所有的特征图组成c×t×f的三维向 量,形成特征图集M(c,t,f);将t作为一个维度,c和f组成一个二维向量,即 变成t×(c×f),对M集进行维度变换操作,转换其特征维度形成M′(t,c,f); 当输入到LSTM神经网络后,将维度t作为训练的时间步长,c×f作为每个时间 步的序列特征输入,这样对特征图进行重构后能够把语谱图的多个特征图上同一 时间步长的特征聚集成更加丰富的时序特征;
④:将LSTM神经网络输出的语谱图特征输入到新的全连接层,经Softmax 激活函数映射到语音情感数据中的其中一个类别,假设第i个训练样本所提取的 特征为y(i)∈{0,1,…,k}是类别标签,在这里K为6,代表六种不同的 情感,则估计被划分归类为某一类别的概率分布具体的, 特征所预测的类别概率分布表示为{p(1),P(2),…,p(6)},分别对应语音 情感的生气、害怕、高兴、中性、伤心和惊奇六类情感。
步骤3)中所述的训练包括如下步骤:
①:使用随机梯度下降算法计算损失函数,设置随机梯度下降算法的学习率 为0.0001,动量为0.9;
接下来采用梯度下降算法修正参数w和b求解语谱图集整体损失函数的最小 值,其中w为隐藏层神经单元之间的连接权重,b为神经元的偏置项;计算整体 损失函数J(W,b),分别对和w和b的偏导数,公式如下:
②:梯度下降算法在执行过程中利用反向传播算法计算输出权值的偏导数, 利用反向传播算法计算输出权值w和b的偏导数;
③:经过迭代来缩小整体语音情感数据的损失函数,当产生的训练误差变小 时减小学习率直到误差稳定。
现在对本实施例产生的技术效果结果进行分析与说明:
对提取的语音384维传统特征,训练时用随机森林算法或者决策树算法作为 分类器;另外将语音情感数据生成的语谱图作为输入AlexNet预训练模型进行训 练;如图4结果可知基于语谱图特征的语音情感识别的准确率比基于传统384 维语音特征的随机森林分类和决策树分类的准确率都高。
本技术方案利用在ImageNet数据集训练好的AlexNet模型提取其不同卷积 层的特征进行迁移,CNN底层的卷积层学习到的是图片的边角、颜色等低层特征, 随着网络层次的深入,逐步学习到更加高层的、全局的特征,由于不同类型图片 的低层特征几乎没有差异,底层卷积层学习到的权重参数具有泛型性,因此在这 里只比较3层卷积层以上的参数迁移效果;采用参数迁移的方式能提高语音情感 识别的准确率,也可以加快网络训练的速度,在参数迁移的实验中,将第四层卷 积层特征进行迁移得到的准确率最高,而迁移第五卷积层的权重参数进行网络训 练相比第四层卷积层准确率反而下降了,这是因为预训练模型中第五卷积层学习 到的特征比第四卷积层更具全局性,而语谱图和ImageNet数据集中图片的高层 特征差别较大,具有数据集特定性;由图5可知本实施例采用参数迁移训练的识 别准确率较为未迁移准确率更高,收敛速度更快,最终迭代次数减少400步以上。
本实施例采用了调整的AlexNet预训练模型,迁移第四层卷积层特征,循环 神经网络结构使用两层LSTM神经网络结构;语谱图经过AlexNet网络得到的特 征图叠加形成三维向量输入到后续的LSTM神经网络,其中时间作为一个维度, 频域和特征图数量组成另外一个维度;这种方法的准确率达到了72.83%,比已 有文献采用CNN+LSTM神经网络的方法高7.6%;本技术方案利用CNN对图像识别 的优势以及LSTM神经网络擅于处理时序化数据的特点的基础上,使用了预训练 的良好模型和权重参数,并对语谱图经卷积神经网络输出的特征图进行三维向量 形式的重构,保证在输入后续LSTM神经网络结构前能够得到同一时间步各特征 图多通道的特征,因此训练速度快,识别准确率进一步提高。
Claims (2)
1.基于参数迁移和语谱图的语音情感识别方法,其特征在于,包括如下步骤:
1):从中科院自动化所汉语情感数据库中采集语音情感数据并对语音情感数据进行预处理,其中语音情感数据包括6种情感:生气、害怕、高兴、中性、伤心、惊奇,
所述的预处理,包括如下步骤:
①:采集6种语音情感数据;
②:对每条语音情感数据进行预加重,将预加重后的语音情感数据进行分帧,再将分帧后的语音情感数据进行加窗处理;
③:将加窗处理后的语音情感数据进行傅里叶变换,最后将语音情感数据转换为RGB三通道语谱图;
2):构建基于预训练卷积循环神经网络的网络模型,包括如下步骤:
①:基于AlexNet网络模型构建卷积神经网络(Convolutional Neural Network,CNN)部分,去掉AlexNet网络模型第五个卷积层之后的全连接层,重新设置全连接层参数,形成新的全连接层,然后将步骤1)中的语谱图输出的特征进行维度转换,再连接循环神经网络部分,循环神经网络部分使用长短期记忆(Long-Short Term Memory,LSTM)神经网络,最后连接新的全连接层;
②:使用Relu函数作为卷积和池化层的激活函数,步骤1)中的语谱图经过每一个卷积层的卷积操作后提取的特征图在池化层进行降采样操作,去除冗余信息,缩小运算规模,构建基于预训练卷积循环神经网络的网络模型;
3):对步骤2)中的网络模型进行参数迁移并训练,所述参数迁移包括如下步骤:
①:对步骤1)中的每张语谱图进行数据增强操作来扩充语谱图的数据集;
②:迁移在ImageNet数据集上预训练的AlexNet网络的权重参数,设置预训练AlexNet网络的每个卷积层的权重参数为W(i),其中i=1,2,…,5,选取W(4)迁移到步骤2)中的网络模型,固定卷积神经网络部分的前四层权重参数,使卷积神经网络部分的前四层权重参数在训练时不更新,只调整前四层之后的权重参数;
③:对步骤2)中的卷积神经网络部分提取的语谱图特征组成的c张特征图进行维度转换,设置得到的c张特征图为M=(m1,m2,…,mc),每张特征图用(xt,yf)表示,其中t为时域维度,f为频域维度;所有的特征图组成c×t×f的三维向量,形成特征图集M(c,t,f);将t作为一个维度,c和f组成一个二维向量,即变成t×(c×f),对M集进行维度变换操作,转换其特征维度形成M′(t,c,f);当输入到LSTM神经网络后,将维度t作为训练的时间步长,c×f作为每个时间步的序列特征输入;
④:将LSTM神经网络输出的语谱图特征输入到新的全连接层,经Softmax激活函数映射到语音情感数据中的其中一种情感。
2.根据权利要求1所述的基于参数迁移和语谱图的语音情感识别方法,其特征在于,步骤3)中所述的训练包括如下步骤:
①:使用随机梯度下降算法计算损失函数,设置随机梯度下降算法的学习率为0.0001,动量为0.9;
②:梯度下降算法在执行过程中利用反向传播算法计算输出权值的偏导数;
③:经过迭代来缩小整体语谱图集的损失函数,当产生的训练误差变小时减小学习率直到误差稳定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810134149.7A CN108597539B (zh) | 2018-02-09 | 2018-02-09 | 基于参数迁移和语谱图的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810134149.7A CN108597539B (zh) | 2018-02-09 | 2018-02-09 | 基于参数迁移和语谱图的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108597539A CN108597539A (zh) | 2018-09-28 |
CN108597539B true CN108597539B (zh) | 2021-09-03 |
Family
ID=63608666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810134149.7A Active CN108597539B (zh) | 2018-02-09 | 2018-02-09 | 基于参数迁移和语谱图的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597539B (zh) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109171773B (zh) * | 2018-09-30 | 2021-05-18 | 合肥工业大学 | 基于多通道数据的情感分析方法和系统 |
CN109171774B (zh) * | 2018-09-30 | 2021-07-06 | 合肥工业大学 | 基于多通道数据的人格分析方法和系统 |
CN109243491B (zh) * | 2018-10-11 | 2023-06-02 | 平安科技(深圳)有限公司 | 在频谱上对语音进行情绪识别的方法、系统及存储介质 |
WO2020077565A1 (zh) * | 2018-10-17 | 2020-04-23 | 北京比特大陆科技有限公司 | 数据处理方法、装置、电子设备及计算机可读存储介质 |
CN109036467B (zh) * | 2018-10-26 | 2021-04-16 | 南京邮电大学 | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 |
CN109473122A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 基于检测模型的情绪分析方法、装置及终端设备 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
CN109524014A (zh) * | 2018-11-29 | 2019-03-26 | 辽宁工业大学 | 一种基于深度卷积神经网络的声纹识别分析方法 |
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN109767790A (zh) * | 2019-02-28 | 2019-05-17 | 中国传媒大学 | 一种语音情感识别方法及系统 |
CN109978136B (zh) * | 2019-03-05 | 2020-12-25 | 厦门美图之家科技有限公司 | 一种训练目标网络的方法、计算设备及存储介质 |
CN111755024B (zh) * | 2019-03-27 | 2023-02-10 | 四川大学 | 一种基于迁移学习的暴恐音频检测方法 |
CN110021308B (zh) * | 2019-05-16 | 2021-05-18 | 北京百度网讯科技有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
CN110097894B (zh) * | 2019-05-21 | 2021-06-11 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110210468B (zh) * | 2019-05-29 | 2022-12-16 | 电子科技大学 | 一种基于卷积神经网络特征融合迁移的文字识别方法 |
CN110223714B (zh) * | 2019-06-03 | 2021-08-03 | 杭州哲信信息技术有限公司 | 一种基于语音的情绪识别方法 |
CN110277100A (zh) * | 2019-06-19 | 2019-09-24 | 南京邮电大学 | 基于Alexnet改进的声纹识别方法、存储介质和终端 |
CN110349597B (zh) * | 2019-07-03 | 2021-06-25 | 山东师范大学 | 一种语音检测方法及装置 |
CN110415728B (zh) * | 2019-07-29 | 2022-04-01 | 内蒙古工业大学 | 一种识别情感语音的方法和装置 |
CN110569925B (zh) * | 2019-09-18 | 2023-05-26 | 南京领智数据科技有限公司 | 应用于电力设备运检的基于lstm的时序异常检测方法 |
CN110718235B (zh) * | 2019-09-20 | 2022-07-01 | 精锐视觉智能科技(深圳)有限公司 | 异常声音检测的方法、电子设备及存储介质 |
CN110751955B (zh) * | 2019-09-23 | 2022-03-01 | 山东大学 | 基于时频矩阵动态选择的声音事件分类方法及系统 |
CN110808033B (zh) * | 2019-09-25 | 2022-04-15 | 武汉科技大学 | 一种基于双重数据增强策略的音频分类方法 |
CN110532424A (zh) * | 2019-09-26 | 2019-12-03 | 西南科技大学 | 一种基于深度学习和云平台的肺音特征分类系统及方法 |
CN111091179A (zh) * | 2019-12-03 | 2020-05-01 | 浙江大学 | 基于归因图的异构深度模型可迁移性度量方法 |
WO2021127982A1 (zh) * | 2019-12-24 | 2021-07-01 | 深圳市优必选科技股份有限公司 | 语音情感识别方法、智能装置和计算机可读存储介质 |
CN111241996B (zh) * | 2020-01-09 | 2023-06-02 | 桂林电子科技大学 | 一种用于识别视频中人物动作的方法 |
CN111081219A (zh) * | 2020-01-19 | 2020-04-28 | 南京硅基智能科技有限公司 | 一种端到端的语音意图识别方法 |
CN111291832A (zh) * | 2020-03-11 | 2020-06-16 | 重庆大学 | 基于Stack集成神经网络的传感器数据分类方法 |
CN111798873A (zh) * | 2020-05-15 | 2020-10-20 | 厦门快商通科技股份有限公司 | 一种基于3-d卷积神经网络的语音情绪识别方法及装置 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN111785301B (zh) * | 2020-06-28 | 2022-08-23 | 重庆邮电大学 | 一种基于残差网络的3dacrnn语音情感识别方法及存储介质 |
CN111915437B (zh) * | 2020-06-30 | 2024-06-07 | 深圳前海微众银行股份有限公司 | 基于rnn的反洗钱模型的训练方法、装置、设备及介质 |
CN111968652B (zh) * | 2020-07-14 | 2022-08-26 | 重庆邮电大学 | 一种基于3dcnn-lstm的说话人识别方法及存储介质 |
CN111951778B (zh) * | 2020-07-15 | 2023-10-17 | 天津大学 | 一种低资源下利用迁移学习进行情感语音合成的方法 |
CN112259126B (zh) * | 2020-09-24 | 2023-06-20 | 广州大学 | 一种自闭症语音特征辅助识别机器人及方法 |
CN112200318B (zh) * | 2020-10-10 | 2021-11-09 | 广州云从人工智能技术有限公司 | 一种目标检测方法、装置、机器可读介质及设备 |
CN112331232B (zh) * | 2020-11-06 | 2022-08-12 | 杭州电子科技大学 | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 |
CN112837701B (zh) * | 2020-12-31 | 2022-12-27 | 西安电子科技大学 | 基于多分类器交互学习的语音情感识别方法 |
CN112613481A (zh) * | 2021-01-04 | 2021-04-06 | 上海明略人工智能(集团)有限公司 | 一种基于频谱的轴承磨耗预警方法与系统 |
CN112863549A (zh) * | 2021-01-20 | 2021-05-28 | 广东工业大学 | 一种基于元-多任务学习的语音情感识别方法及装置 |
CN113112969B (zh) * | 2021-03-23 | 2024-04-05 | 平安科技(深圳)有限公司 | 基于神经网络的佛教音乐记谱方法、装置、设备及介质 |
CN113257279A (zh) * | 2021-03-24 | 2021-08-13 | 厦门大学 | 一种基于gtcn的实时语音情感识别方法及应用装置 |
CN113362857A (zh) * | 2021-06-15 | 2021-09-07 | 厦门大学 | 一种基于CapCNN的实时语音情感识别方法及应用装置 |
CN113571095B (zh) * | 2021-06-17 | 2023-06-20 | 南京邮电大学 | 基于嵌套深度神经网络的语音情感识别方法和系统 |
CN113628640B (zh) * | 2021-07-15 | 2024-09-20 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
CN113642714B (zh) * | 2021-08-27 | 2024-02-09 | 国网湖南省电力有限公司 | 基于小样本学习的绝缘子污秽放电状态识别方法及系统 |
CN113808620B (zh) * | 2021-08-27 | 2023-03-21 | 西藏大学 | 一种基于cnn和lstm的藏语语音情感识别方法 |
CN117725491B (zh) * | 2024-02-18 | 2024-05-03 | 四川大学 | 一种基于SCINet的电力系统故障状态检测分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN107506722A (zh) * | 2017-08-18 | 2017-12-22 | 中国地质大学(武汉) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105047194B (zh) * | 2015-07-28 | 2018-08-28 | 东南大学 | 一种用于语音情感识别的自学习语谱图特征提取方法 |
-
2018
- 2018-02-09 CN CN201810134149.7A patent/CN108597539B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9786270B2 (en) * | 2015-07-09 | 2017-10-10 | Google Inc. | Generating acoustic models |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN106847309A (zh) * | 2017-01-09 | 2017-06-13 | 华南理工大学 | 一种语音情感识别方法 |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
CN107506722A (zh) * | 2017-08-18 | 2017-12-22 | 中国地质大学(武汉) | 一种基于深度稀疏卷积神经网络人脸情感识别方法 |
Non-Patent Citations (1)
Title |
---|
Speech Emotion Recognition using Convolutional and Recurrent Neural Networks;Wootaek Lim et al.;《2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA)》;20170119;第III、IV部分 * |
Also Published As
Publication number | Publication date |
---|---|
CN108597539A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN109599129B (zh) | 基于注意力机制和卷积神经网络的语音抑郁症识别系统 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN110634491B (zh) | 语音信号中针对通用语音任务的串联特征提取系统及方法 | |
CN112489635A (zh) | 一种基于增强注意力机制的多模态情感识别方法 | |
CN109036467B (zh) | 基于tf-lstm的cffd提取方法、语音情感识别方法及系统 | |
CN109272990A (zh) | 基于卷积神经网络的语音识别方法 | |
CN110309503A (zh) | 一种基于深度学习bert--cnn的主观题评分模型及评分方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN110853680A (zh) | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 | |
WO2022198923A1 (zh) | 一种融合人群信息的语音情感识别方法和系统 | |
Han et al. | Speech emotion recognition with a resnet-cnn-transformer parallel neural network | |
CN111402928B (zh) | 基于注意力的语音情绪状态评估方法、装置、介质及设备 | |
CN101187990A (zh) | 一种会话机器人系统 | |
CN110675859A (zh) | 结合语音与文本的多情感识别方法、系统、介质及设备 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
Chen | Simulation of English speech emotion recognition based on transfer learning and CNN neural network | |
CN112559797A (zh) | 一种基于深度学习的音频多标签分类方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Jiang et al. | Speech Emotion Recognition Using Deep Convolutional Neural Network and Simple Recurrent Unit. | |
CN113571095A (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Ye et al. | Attention bidirectional LSTM networks based mime speech recognition using sEMG data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |