CN113112994B - 基于图卷积神经网络的跨语料库情感识别方法 - Google Patents
基于图卷积神经网络的跨语料库情感识别方法 Download PDFInfo
- Publication number
- CN113112994B CN113112994B CN202110427721.0A CN202110427721A CN113112994B CN 113112994 B CN113112994 B CN 113112994B CN 202110427721 A CN202110427721 A CN 202110427721A CN 113112994 B CN113112994 B CN 113112994B
- Authority
- CN
- China
- Prior art keywords
- graph
- convolution
- audio
- emotion
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000012360 testing method Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 18
- 239000011295 pitch Substances 0.000 claims description 12
- 238000000513 principal component analysis Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000005096 rolling process Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 206010063659 Aversion Diseases 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 206010003805 Autism Diseases 0.000 description 1
- 208000020706 Autistic disease Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001167556 Catena Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于图卷积神经网络的跨语料库情感识别方法,适用于语音情感识别领域使用。获取两个具有情感标签的音频数据库,两选取部分样本删除情感标签,对两个音频数据库的音频进行特征提取,得到多个情感特征组,建立图卷积神经网络模型,然后将GCN中每个节点与与之距离最近节点之间构成边,最终将节点和边连接构成一张新的图,音频定义为GCN的节点输入两层的图卷积神经网络,将有情感标签和无情感标签的音频放入图卷积神经网络进行训练,最终通过语音情感标签概率完成情感识别。其步骤简单,实现了跨多个数据库训练,有效提高训练后图卷积神经网络的准确率。
Description
技术领域
本发明涉及一种跨语料库情感识别方法,尤其适用于语音情感识别领域使用的一种基于图卷积神经网络的跨语料库情感识别方法。
背景技术
语音情感识别技术已经成为人机和谐交互的目标,随着科学技术的发展,对语音情感识别技术提出了更高的要求。在诸多领域都有了广泛的应用,在教学领域,具有情感识别能力的计算机远程教学系统,识别学生情绪,提高教学质量;在临床医学领域,拥有语音情感识别能力的计算机帮助孤僻症患者反复练习情感交流,逐渐康复。
传统的语音情感识别技术都是基于单个语料库,在两种不同的情感语料库中识别效果很差。往往在实践中,训练和测试的语料库是不相同的。因此跨语料库情感识别面临着很大的挑战。如何在多个不相同的语料库之间进行准确的情感识别,是目前需要解决的一个重要问题。
发明内容
发明目的:针对上述技术问题,本发明提出了一种基于图卷积神经网络的跨语料库情感识别的方法,对不同语料库都具有良好的适用性,且识别结果更准确。
技术方案:为实现上述技术目的,本发明所述的一种基于图卷积神经网络的跨语料库情感识别方法,其特征在于步骤如下:
S1获取两个音频数据库,两个音频数据库中的每条音频都具有一个情感标签,一个音频数据库作为训练数据集,另一个作为测试数据集,其中测试数据集分成多份,取一份作为测试样本,删除该份测试样本中语音的情感标签形成无标签的测试样本,;
S2利用若干声学低维描述子对两个音频数据库中的音频进行特征提取,得到多个情感特征组,并将多个情感特征组成向量作为对应语音的特征向量;
S3建立图卷积神经网络模型GCN,将每条音频定义为GCN的节点,其中包括无标签的的音频,将GCN中每个节点与与之距离最近节点之间构成边,最终将节点和边连接构成一张新的图,这张新的图把有标签数据、无标签数据和测试数据连接了起来,将新图输入两层的图卷积神经网络,;
S4将已知情感标签的训练数据集中的样本和无标签的测试样本一起放入S3中获得的卷积神经网络模型继续训练,测试测试数据集中未删除情感标签的样本,采用softmax分类器进行分类,得到未删除情感标签的测试样本的标签分类;
S5无标签的测试样本悬链后得到语音情感标签概率,softmax输出最大概率的情感标签,结合预测出语音的情感分类,输出情感分类即为从语音中识别出来的情感。
步骤S2具体包括:
S2.1对于Berlin库和eNTERFACE库中的音频,计算其34个声学低维描述子值和对应增量参数;所述34个声学低维描述子分别为:响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率;4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间;所述4个基于音高的低级描述子分别为:基频频率、2个抖动和闪烁;描述子来源于INTERDPEECH2010Emotion Challenge提供的功能集;
S2.2对于每个音频,利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理,所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比;对其4个基于音高的低级描述子进行19种统计函数处理,所述的19种统计函数不包括上述21个函数中的最小值和范围;
S2.3将S2.2中计算得到的每个值作为一个情感特征,并将35*2*21+4*2*19+2=1582个情感特征组成向量作为对应音频的特征向量,并将每个特征值归一化到0-1之间,四舍五入取整。
步骤S3具体包括:
S3.1由于两个音频数据库空间分布不同,所以运用LDA(线性判别分析),将有标签的样本按照标签信息投影到一起,形成4维数据,运用PCA(主成分分析),将没有标签的样本降维投影到低维子空间,形成50维数据;
S3.2在投影后的平面上计算每个节点与其他节点之间的欧式距离,得到每个节点与与之距离最近点的id,点与点之间距离的关系构成图的边,LDA(线性判别分析)的投影构成一张图,PCA(主成分分析)的投影构成一张图,在两个图中选择5个不同情感的点一一连接,将两张图构成一张完整的图;
S3.3将节点和边构成的图输入到两层的图卷积神经网络中,图卷积将未知标签的特征通过邻接矩阵传到已知标签的特征节点上,利用已知标签节点的分类器进行分类测试;
进一步的,图卷积神经网络模型中的传播方式为:
式中,是加上自连接的邻接矩阵,在和特征矩阵X相乘时就不会忽略该节点自己的特征,IN是单位矩阵。/>是/>的度矩阵,/>W(l)是权值矩阵,σ是激活函数,类似于ReLU;
S3.4在投影构成的图上的卷积为频域卷积,利用图的傅里叶变换实现卷积;利用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子,再类比频域上欧式空间的卷积,从而得到图卷积的公式,利用拉普拉斯矩阵L(L=D-A)替代拉普拉斯算子和特征向量x,形成图的傅里叶变换,具体为:
L=UΛUT
U=(u1,u2,…,un)
U是归一化图拉普拉斯矩阵L的特征向量矩阵,根据以上卷积和傅里叶变换相结合,在投影构成的图的频域卷积可以写成:
在整个投影构成的图的N个节点上做卷积,那么得到的图的卷积为:
将欧式空间上的卷积和图上的卷积进行对比,两者非常相似,f是特征函数,g是卷积核:
(f*g)=f-1[F[f]⊙F[g]]
(f*Gg)=U(UTf⊙UTg)=u(UTg⊙UTf)
我们将UTg看成是用于频域卷积神经网络的卷积核,写成gθ,那么图上卷积的最终公式为:
(f*Gg)θ=UgθUTf
最后,一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算量很大,所以提出用切比雪夫多项式来加快特征矩阵的求解;
假设切比雪夫多项式的第k项是Tk,频域卷积核为:
其中:Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1和T1(x)=x,可以归一化特征向量矩阵。所以投影构成的图的卷积公式变为:
其中可以发现(UΛUT)k=UΛkUT,它是一个拉普拉斯式的k阶多项式,它只依赖于中心节点k阶邻域内的节点。
步骤S3.3具体包括:
使用一个对称邻接矩阵A,两层GCN,在投影构成的图进行半监督节点分类:
首先将进行预处理,采用了简单模型:
其中,W(0)是输入层到隐藏层的权重,W(1)是隐藏层到输出层的权重,采用两种不同的激活函数ReLU和softmax,在半监督分类中,评估所有标签样本的交叉熵误差:
式中,yL是有标签的样本集.。.
有益效果:本方法的跨语料库情感识别的方法用一个有标签的数据库训练去测试另一个没有标签的数据库,使用部分测试数据库中的数据和训练数据集一起训练去测试测试数据库中剩下的数据,实现在两个数据库中跨库学习,因此本方法对于不同环境有拥有良好的适用性,识别结果更准确,也能更好地比较不同语言之间的情感的相似性和差异性。
附图说明
图1是本发明提供的基于图卷积神经网络的跨语料库情感识别方法的流程示意图。
图2是本发明提供的图卷积神经网络的模型示意图。
具体实施方式
下面结合附图对本发明的实施例做进一步说明:
如图1所示,本法民的一种基于图卷积神经网络的跨语料库情感识别的方法,包括以下步骤:
(1)获取两个音频数据库,分别作为训练数据集和测试数据集,将测试数据集平均划分成10份,选取其中的9份作为无标签样本和训练数据集一起训练,剩下的1份作为测试样本。在本实施例中,我们使用情感语音识别中常见的两类语音情感数据库:Berlin和eNTERFACE。Berlin库有7种情感:中性、害怕、生气、高兴、悲伤、厌恶和无聊,一共有535句语句。eNTERFACE库有6种情感:害怕、生气、高兴、悲伤、厌恶和惊喜,一共有1166个视频。我们选取Berlin库和eNTERFACE库具有的5种相同情绪:害怕、生气、高兴和悲伤,一共1395条语句,进行训练和测试。
(2)利用若干声学低维描述子对Berlin库和eNTERFACE库中的音频进行特征提取,得到1582维特征,并将多个情感特征组成向量作为对应语音的特征向量。
该步骤具体包括:
(2-1)对于Berlin库和eNTERFACE库中的音频,计算其34个声学低维描述子值和对应增量参数;所述34个声学低维描述子分别为:响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率;4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间;所述4个基于音高的低级描述子分别为:基频频率、2个抖动和闪烁;描述子来源于INTERDPEECH2010Emotion Challenge提供的功能集;
(2-2)对于每个音频,利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理,所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比;对其4个基于音高的低级描述子进行19种统计函数处理,所述的19种统计函数不包括上述21个函数中的最小值和范围;
(2-3)将统计得到的每个信息(2-2中计算得到的每个值)作为一个情感特征,并将35*2*21+4*2*19+2=1582个情感特征组成向量作为对应音频的特征向量,并将每个特征值归一化到0-1之间,四舍五入取整。
(3)建立图卷积神经网络模型,将每条音频看成节点,每个节点与与之距离最近节点之间构成边,将节点和边构成的图输入到两层的图卷积神经网络中,图卷积将未知标签的特征传到已知标签的特征节点上,利用已知标签节点的分类器进行分类测试。
(3-1)其中,要求出每个节点与与之距离最近点的id,需要用到LDA(线性判别分析)和PCA(主成分分析),进行半监督判别分析,LDA计算过程:
数据集D={(x1,y1),(x2,y2),…,(xm,ym)},其中xi为n维向量,yi∈{C1,C2,…,Ck},定义Nj(j=1,2,…,k)为第j类样本的个数,Xj(j=1,2,…,k)为第j类样本的集合,μj(j=1,2,…,k)为第j类样本的均值,∑j(j=1,2,…,k)为第j类样本的协方差矩阵。
(3-1-1)利用下式计算类内散度Sw:
(3-1-2)利用下式计算类间散度Sb:
(3-1-3)计算矩阵求出其最大的d个特征值和对应的d个特征向量(w1,w2,…,wd)得到投影矩阵W,LDA目标函数定义为:
其中W为n*d的矩阵,目标函数J(W)的优化过程可以转化为:
最大值是矩阵的最大值特征值,最大的d个值得乘积就是矩阵/>的最大的d个特征值的乘积,此时W矩阵为这最大的d个特征值对应的特征向量张成的矩阵。
(3-1-4)对样本集中的每一样本特征xi,转化为新的样本zi=WTxi
(3-1-5)得到输出样本集D'={(z1,y1),(z2,y2),…,(zm,ym)}
(3-2)PCA的计算过程:
首先输入数据集X={x1,x2,x3,…,xn}
(3-2-1)去平均值,即每一个特征值减去各自的平均;
(3-2-2)计算协方差矩阵
(3-2-3)用特征值分解方法求协方差矩阵的特征值和特征向量;
(3-2-3)对特征值从大到小排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为行向量组成特征矩阵p;
(3-2-4)将数据转换到k个特征向量构建的新空间中,即Y=PX;
其中,图卷积神经网络模型中的传播方式为:
式中,是加上自连接的邻接矩阵,在和特征矩阵X相乘时就不会忽略该节点自己的特征,IN是单位矩阵,/>是/>的度矩阵,/>W(l)是权值矩阵,σ是激活函数,类似于ReLU等;
(3-3)在图步骤(3)中构成的新图上的卷积我们考虑到的是频域卷积,利用图的傅里叶变换实现卷积。简单来讲,就是用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子,再类比频域上欧式空间的卷积,就得到图卷积的公式。使用拉普拉斯矩阵L(L=D-A)替代拉普拉斯算子和特征向量x,形成图的傅里叶变换。图是无向图,L是对称矩阵,分解为:
L=UΛXUT
U=(u1,u2,…,un)
U是归一化图拉普拉斯矩阵L的特征向量矩阵,根据以上卷积和傅里叶变换相结合,在步骤(3)中构成的图上的频域卷积可以写成:
在整个新图的N个节点上做卷积,那么得到的图的卷积为:
将欧式空间上的卷积和图上的卷积进行对比,两者非常相似,f是特征函数,g是卷积核:
(f*g)=F-1[F[f]⊙F[g]]
(f*Gg)=U(UTf⊙UTg)=u(UTg⊙UTf)
我们将UTg看成是用于频域卷积神经网络的卷积核,写成gθ,那么新图上卷积的最终公式为:
(f*Gg)θ=UgθUTf
最后,一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算量很大,所以提出用切比雪夫多项式来加快特征矩阵的求解。假设切比雪夫多项式的第k项是Tk,频域卷积核就变成:
其中:Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1和T1(x)=x,可以归一化特征向量矩阵,所以新图上的卷积公式又变为:
其中可以发现(UΛUT)k=UΛkUT,它是一个拉普拉斯式的k阶多项式,它只依赖于中心节点k阶邻域内的节点。
其中,两层的卷积神经网络,使用一个对称邻接矩阵A,两层GCN(图卷积神经网络),在新图上进行半监督节点分类。首先将进行预处理,采用了简单模型:
其中,W(0)是输入层到隐藏层的权重,W(1)是隐藏层到输出层的权重。第一层采用激活函数ReLU,第二层采用激活函数softmax。在半监督分类中,我们评估所有标签样本的交叉熵误差:
式中,yL是有标签的样本集.
本实施例还提供了一种基于图卷积神经网络的跨语料库情感识别装置,包括处理器及存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
为验证本发明的有效性,在语音情感数据库Berlin和eNTERFACE数据库上我们分别进行了实验。在实验中,我们将两个数据库分别作为源域和目标域,其中源域是作为训练集提供训练数据和部分标签,目标域是作为测试集,提供测试数据和标签。在我们的实验中,要通过两种方案进行分析。源语料库可以包含目标语料库没有标签的样本信息。如方案1:用eNTERFACE库训练去测试Berlin库,在eNTERFACE库训练的过程中加上Berlin库一部分没有标签的样本。方案2:用Berlin库训练去测试eNTERFACE库,在Berlin库训练过程中加上eNTERFACE库一部分没有标签的样本。我们对训练过程中含有无标签样本的个数对实验影响进行了多次试验,评价标准为Accuracy。
实验预期,基于本发明提出的基于图卷积神经网络的跨语料库情感识别方法,取得了比较好的跨数据库情感识别率。
Claims (4)
1.一种基于图卷积神经网络的跨语料库情感识别方法,其特征在于步骤如下:
S1获取两个音频数据库,两个音频数据库中的每条音频都具有一个情感标签,一个音频数据库作为训练数据集,另一个作为测试数据集,其中测试数据集分成多份,取一份作为测试样本,删除该份测试样本中语音的情感标签形成无标签的测试样本;
S2利用若干声学低维描述子对两个音频数据库中的音频进行特征提取,得到多个情感特征组,并将多个情感特征组成向量作为对应语音的特征向量;
S3建立图卷积神经网络模型GCN,将每条音频定义为GCN的节点,其中包括无标签的音频,将GCN中每个节点与与之距离最近节点之间构成边,最终将节点和边连接构成一张新的图,这张新的图把有标签数据、无标签数据和测试数据连接了起来,将新图输入两层的图卷积神经网络;
S4将已知情感标签的训练数据集中的样本和无标签的测试样本一起放入S3中获得的卷积神经网络模型继续训练,测试测试数据集中未删除情感标签的样本,采用softmax分类器进行分类,得到未删除情感标签的测试样本的标签分类。
2.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S2具体包括:
S2.1对于Berlin库和eNTERFACE库中的音频,计算其34个声学低维描述子值和对应增量参数;所述34个声学低维描述子分别为:响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率;4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间;所述4个基于音高的低级描述子分别为:基频频率、2个抖动和闪烁;描述子来源于INTERDPEECH 2010EmotionChallenge提供的功能集;
S2.2对于每个音频,利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理,所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比;对其4个基于音高的低级描述子进行19种统计函数处理,所述的19种统计函数不包括上述21种统计函数中的最小值和范围;
S2.3将S2.2中计算得到的每个值作为一个情感特征,并将35*2*21+4*2*19+2=1582个情感特征组成向量作为对应音频的特征向量,并将每个特征值归一化到0-1之间,四舍五入取整。
3.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S3具体包括:
S3.1由于两个音频数据库空间分布不同,所以运用LDA(线性判别分析),将有标签的样本按照标签信息投影到一起,形成4维数据,运用PCA(主成分分析),将没有标签的样本降维投影到低维子空间,形成50维数据;
S3.2在投影后的平面上计算每个节点与其他节点之间的欧式距离,得到每个节点与与之距离最近点的id,点与点之间距离的关系构成图的边,LDA(线性判别分析)的投影构成一张图,PCA(主成分分析)的投影构成一张图,在两个图中选择5个不同情感的点一一连接,将两张图构成一张完整的图;
S3.3将节点和边构成的图输入到两层的图卷积神经网络中,图卷积将未知标签的特征通过邻接矩阵传到已知标签的特征节点上,利用已知标签节点的分类器进行分类测试;
进一步的,图卷积神经网络模型中的传播方式为:
式中,是加上自连接的邻接矩阵,在和特征矩阵X相乘时就不会忽略该节点自己的特征,IN是单位矩阵,/>是/>的度矩阵,/>W(l)是权值矩阵,σ是激活函数,类似于ReLU;
S3.4在投影构成的图上的卷积为频域卷积,利用图的傅里叶变换实现卷积;利用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子,再类比频域上欧式空间的卷积,从而得到图卷积的公式,利用拉普拉斯矩阵L(L=D-A)替代拉普拉斯算子和特征向量x,形成图的傅里叶变换,具体为:
L=UΛUT
U=(u1,u2,...,un)
U是归一化图拉普拉斯矩阵L的特征向量矩阵,根据以上卷积和傅里叶变换相结合,在投影构成的图的频域卷积可以写成:
在整个投影构成的图的N个节点上做卷积,那么得到的图的卷积为:
将欧式空间上的卷积和图上的卷积进行对比,两者非常相似,f是特征函数,g是卷积核:
(f*g)=F-1[F[f]☉F[g]]
(f*Gg)=U(UTf☉UTg)=U(UTg☉UTf)
将UTg看成是用于频域卷积神经网络的卷积核,写成gθ,那么图上卷积的最终公式为:
(f*Gg)θ=UgθUTf
最后,一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算量很大,所以提出用切比雪夫多项式来加快特征矩阵的求解;
假设切比雪夫多项式的第k项是Tk,频域卷积核为:
其中:Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1和T1(x)=x,可以归一化特征向量矩阵,所以投影构成的图的卷积公式变为:
其中可以发现(UΛUT)k=UΛkUT,它是一个拉普拉斯式的k阶多项式,它只依赖于中心节点k阶邻域内的节点。
4.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S3.3具体包括:
使用一个对称邻接矩阵A,两层GCN,在投影构成的图进行半监督节点分类:
首先将进行预处理,采用了简单模型:
其中,W(0)是输入层到隐藏层的权重,W(1)是隐藏层到输出层的权重,采用两种不同的激活函数ReLU和softmax,在半监督分类中,评估所有标签样本的交叉熵误差:
式中,yL是有标签的样本集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427721.0A CN113112994B (zh) | 2021-04-21 | 2021-04-21 | 基于图卷积神经网络的跨语料库情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427721.0A CN113112994B (zh) | 2021-04-21 | 2021-04-21 | 基于图卷积神经网络的跨语料库情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113112994A CN113112994A (zh) | 2021-07-13 |
CN113112994B true CN113112994B (zh) | 2023-11-07 |
Family
ID=76718907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110427721.0A Active CN113112994B (zh) | 2021-04-21 | 2021-04-21 | 基于图卷积神经网络的跨语料库情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113112994B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724858A (zh) * | 2021-08-31 | 2021-11-30 | 平安国际智慧城市科技股份有限公司 | 基于人工智能的疾病检查项目推荐设备、方法及装置 |
CN113593606B (zh) * | 2021-09-30 | 2022-02-15 | 清华大学 | 音频识别方法和装置、计算机设备、计算机可读存储介质 |
CN113990353B (zh) * | 2021-10-27 | 2024-05-07 | 北京百度网讯科技有限公司 | 识别情绪的方法、训练情绪识别模型的方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399857A (zh) * | 2019-08-01 | 2019-11-01 | 西安邮电大学 | 一种基于图卷积神经网络的脑电情感识别方法 |
CN111028827A (zh) * | 2019-12-10 | 2020-04-17 | 深圳追一科技有限公司 | 基于情绪识别的交互处理方法、装置、设备和存储介质 |
CN111583966A (zh) * | 2020-05-06 | 2020-08-25 | 东南大学 | 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置 |
CN111966800A (zh) * | 2020-07-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 情感对话生成方法、装置及情感对话模型训练方法、装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12076148B2 (en) * | 2019-07-05 | 2024-09-03 | The Penn State Research Foundation | Systems and methods for automated recognition of bodily expression of emotion |
-
2021
- 2021-04-21 CN CN202110427721.0A patent/CN113112994B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399857A (zh) * | 2019-08-01 | 2019-11-01 | 西安邮电大学 | 一种基于图卷积神经网络的脑电情感识别方法 |
CN111028827A (zh) * | 2019-12-10 | 2020-04-17 | 深圳追一科技有限公司 | 基于情绪识别的交互处理方法、装置、设备和存储介质 |
CN111583966A (zh) * | 2020-05-06 | 2020-08-25 | 东南大学 | 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置 |
CN111966800A (zh) * | 2020-07-27 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 情感对话生成方法、装置及情感对话模型训练方法、装置 |
Non-Patent Citations (3)
Title |
---|
EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks and Broad Learning System;Xue-han Wang;《2018 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)》;全文 * |
基于图卷积深浅特征融合的跨语料库情感识别;杨子秀;《数据采集与处理》;全文 * |
基于语音和文本的课堂情绪识别研究;易冠先;《中国优秀硕士学位论文全文数据库信息科技辑》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113112994A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113112994B (zh) | 基于图卷积神经网络的跨语料库情感识别方法 | |
Dong et al. | Bidirectional convolutional recurrent sparse network (BCRSN): an efficient model for music emotion recognition | |
CN110390955B (zh) | 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法 | |
Dai et al. | Learning discriminative features from spectrograms using center loss for speech emotion recognition | |
Zhang et al. | Transfer sparse discriminant subspace learning for cross-corpus speech emotion recognition | |
Deng et al. | Linked source and target domain subspace feature transfer learning--exemplified by speech emotion recognition | |
CN110717021B (zh) | 人工智能面试中获取输入文本和相关装置 | |
CN112800249A (zh) | 基于生成对抗网络的细粒度跨媒体检索方法 | |
CN112397092A (zh) | 基于领域自适应子空间的无监督跨库语音情感识别方法 | |
Han et al. | Boosted subunits: a framework for recognising sign language from videos | |
Amjad et al. | Recognizing semi-natural and spontaneous speech emotions using deep neural networks | |
Biswas et al. | Comparative analysis of dimension reduction techniques over classification algorithms for speech emotion recognition | |
CN117112784A (zh) | 一种文献识别与技术路径演化的实现方法 | |
CN110148417B (zh) | 基于总变化空间与分类器联合优化的说话人身份识别方法 | |
Kumar et al. | Machine learning technique-based emotion classification using speech signals | |
Zhang et al. | Speech emotion recognition method in educational scene based on machine learning | |
CN108717450B (zh) | 影评情感倾向性分析算法 | |
CN114444609B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
Reggiswarashari et al. | Speech emotion recognition using 2D-convolutional neural network | |
CN108831487A (zh) | 声纹识别方法、电子装置及计算机可读存储介质 | |
Vlasenko et al. | Comparing data-Driven and Handcrafted Features for Dimensional Emotion Recognition | |
Singh et al. | 1D CNN based approach for speech emotion recognition using MFCC features | |
CN107886942B (zh) | 一种基于局部惩罚随机谱回归的语音信号情感识别方法 | |
Barkur et al. | EnsembleWave: an ensembled approach for automatic speech emotion recognition | |
Bianco et al. | Discriminative deep audio feature embedding for speaker recognition in the wild |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |