CN113112994A - 基于图卷积神经网络的跨语料库情感识别方法 - Google Patents

基于图卷积神经网络的跨语料库情感识别方法 Download PDF

Info

Publication number
CN113112994A
CN113112994A CN202110427721.0A CN202110427721A CN113112994A CN 113112994 A CN113112994 A CN 113112994A CN 202110427721 A CN202110427721 A CN 202110427721A CN 113112994 A CN113112994 A CN 113112994A
Authority
CN
China
Prior art keywords
graph
convolution
emotion
neural network
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110427721.0A
Other languages
English (en)
Other versions
CN113112994B (zh
Inventor
金赟
杨子秀
俞佳佳
戴妍妍
马勇
李世党
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Normal University
Original Assignee
Jiangsu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Normal University filed Critical Jiangsu Normal University
Priority to CN202110427721.0A priority Critical patent/CN113112994B/zh
Publication of CN113112994A publication Critical patent/CN113112994A/zh
Application granted granted Critical
Publication of CN113112994B publication Critical patent/CN113112994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图卷积神经网络的跨语料库情感识别方法,适用于语音情感识别领域使用。获取两个具有情感标签的音频数据库,两选取部分样本删除情感标签,对两个音频数据库的音频进行特征提取,得到多个情感特征组,建立图卷积神经网络模型,然后将GCN中每个节点与与之距离最近节点之间构成边,最终将节点和边连接构成一张新的图,音频定义为GCN的节点输入两层的图卷积神经网络,将有情感标签和无情感标签的音频放入图卷积神经网络进行训练,最终通过语音情感标签概率完成情感识别。其步骤简单,实现了跨多个数据库训练,有效提高训练后图卷积神经网络的准确率。

Description

基于图卷积神经网络的跨语料库情感识别方法
技术领域
本发明涉及一种跨语料库情感识别方法,尤其适用于语音情感识别领域使用的一种基于图卷积神经网络的跨语料库情感识别方法。
背景技术
语音情感识别技术已经成为人机和谐交互的目标,随着科学技术的发展,对语音情感识别技术提出了更高的要求。在诸多领域都有了广泛的应用,在教学领域,具有情感识别能力的计算机远程教学系统,识别学生情绪,提高教学质量;在临床医学领域,拥有语音情感识别能力的计算机帮助孤僻症患者反复练习情感交流,逐渐康复。
传统的语音情感识别技术都是基于单个语料库,在两种不同的情感语料库中识别效果很差。往往在实践中,训练和测试的语料库是不相同的。因此跨语料库情感识别面临着很大的挑战。如何在多个不相同的语料库之间进行准确的情感识别,是目前需要解决的一个重要问题。
发明内容
发明目的:针对上述技术问题,本发明提出了一种基于图卷积神经网络的跨语料库情感识别的方法,对不同语料库都具有良好的适用性,且识别结果更准确。
技术方案:为实现上述技术目的,本发明所述的一种基于图卷积神经网络的跨语料库情感识别方法,其特征在于步骤如下:
S1获取两个音频数据库,两个音频数据库中的每条音频都具有一个情感标签,一个音频数据库作为训练数据集,另一个作为测试数据集,其中测试数据集分成多份,取一份作为测试样本,删除该份测试样本中语音的情感标签形成无标签的测试样本,;
S2利用若干声学低维描述子对两个音频数据库中的音频进行特征提取,得到多个情感特征组,并将多个情感特征组成向量作为对应语音的特征向量;
S3建立图卷积神经网络模型GCN,将每条音频定义为GCN的节点,其中包括无标签的的音频,将GCN中每个节点与与之距离最近节点之间构成边,最终将节点和边连接构成一张新的图,这张新的图把有标签数据、无标签数据和测试数据连接了起来,将新图输入两层的图卷积神经网络,;
S4将已知情感标签的训练数据集中的样本和无标签的测试样本一起放入S3中获得的卷积神经网络模型继续训练,测试测试数据集中未删除情感标签的样本,采用softmax分类器进行分类,得到未删除情感标签的测试样本的标签分类;
S5无标签的测试样本悬链后得到语音情感标签概率,softmax输出最大概率的情感标签,结合预测出语音的情感分类,输出情感分类即为从语音中识别出来的情感。
步骤S2具体包括:
S2.1对于Berlin库和eNTERFACE库中的音频,计算其34个声学低维描述子值和对应增量参数;所述34个声学低维描述子分别为:响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率;4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间;所述4个基于音高的低级描述子分别为:基频频率、2个抖动和闪烁;描述子来源于INTERDPEECH2010Emotion Challenge提供的功能集;
S2.2对于每个音频,利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理,所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比;对其4个基于音高的低级描述子进行19种统计函数处理,所述的19种统计函数不包括上述21个函数中的最小值和范围;
S2.3将S2.2中计算得到的每个值作为一个情感特征,并将35*2*21+4*2*19+2=1582个情感特征组成向量作为对应音频的特征向量,并将每个特征值归一化到0-1之间,四舍五入取整。
步骤S3具体包括:
S3.1由于两个音频数据库空间分布不同,所以运用LDA(线性判别分析),将有标签的样本按照标签信息投影到一起,形成4维数据,运用PCA(主成分分析),将没有标签的样本降维投影到低维子空间,形成50维数据;
S3.2在投影后的平面上计算每个节点与其他节点之间的欧式距离,得到每个节点与与之距离最近点的id,点与点之间距离的关系构成图的边,LDA(线性判别分析)的投影构成一张图,PCA(主成分分析)的投影构成一张图,在两个图中选择5个不同情感的点一一连接,将两张图构成一张完整的图;
S3.3将节点和边构成的图输入到两层的图卷积神经网络中,图卷积将未知标签的特征通过邻接矩阵传到已知标签的特征节点上,利用已知标签节点的分类器进行分类测试;
进一步的,图卷积神经网络模型中的传播方式为:
Figure BDA0003030180590000021
式中,
Figure BDA0003030180590000022
是加上自连接的邻接矩阵,在和特征矩阵X相乘时就不会忽略该节点自己的特征,IN是单位矩阵。
Figure BDA0003030180590000031
Figure BDA0003030180590000032
的度矩阵,
Figure BDA0003030180590000033
W(l)是权值矩阵,σ是激活函数,类似于ReLU;
S3.4在投影构成的图上的卷积为频域卷积,利用图的傅里叶变换实现卷积;利用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子,再类比频域上欧式空间的卷积,从而得到图卷积的公式,利用拉普拉斯矩阵L(L=D-A)替代拉普拉斯算子和特征向量x,形成图的傅里叶变换,具体为:
L=UΛUT
U=(u1,u2,…,un)
Figure BDA0003030180590000034
U是归一化图拉普拉斯矩阵L的特征向量矩阵,根据以上卷积和傅里叶变换相结合,在投影构成的图的频域卷积可以写成:
Figure BDA0003030180590000035
在整个投影构成的图的N个节点上做卷积,那么得到的图的卷积为:
Figure BDA0003030180590000036
将欧式空间上的卷积和图上的卷积进行对比,两者非常相似,f是特征函数,g是卷积核:
(f*g)=f-1[F[f]⊙F[g]]
(f*Gg)=U(UTf⊙UTg)=u(UTg⊙UTf)
我们将UTg看成是用于频域卷积神经网络的卷积核,写成gθ,那么图上卷积的最终公式为:
(f*Gg)θ=UgθUTf
最后,一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算量很大,所以提出用切比雪夫多项式来加快特征矩阵的求解;
假设切比雪夫多项式的第k项是Tk,频域卷积核为:
Figure BDA0003030180590000037
其中:Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1和T1(x)=x,
Figure BDA0003030180590000038
可以归一化特征向量矩阵。所以投影构成的图的卷积公式变为:
Figure BDA0003030180590000039
其中
Figure BDA0003030180590000041
可以发现(UΛUT)k=UΛkUT,它是一个拉普拉斯式的k阶多项式,它只依赖于中心节点k阶邻域内的节点。
步骤S3.3具体包括:
使用一个对称邻接矩阵A,两层GCN,在投影构成的图进行半监督节点分类:
首先将
Figure BDA0003030180590000042
进行预处理,采用了简单模型:
Figure BDA0003030180590000043
其中,W(0)是输入层到隐藏层的权重,W(1)是隐藏层到输出层的权重,采用两种不同的激活函数ReLU和softmax,在半监督分类中,评估所有标签样本的交叉熵误差:
Figure BDA0003030180590000044
式中,yL是有标签的样本集.。.
有益效果:本方法的跨语料库情感识别的方法用一个有标签的数据库训练去测试另一个没有标签的数据库,使用部分测试数据库中的数据和训练数据集一起训练去测试测试数据库中剩下的数据,实现在两个数据库中跨库学习,因此本方法对于不同环境有拥有良好的适用性,识别结果更准确,也能更好地比较不同语言之间的情感的相似性和差异性。
附图说明
图1是本发明提供的基于图卷积神经网络的跨语料库情感识别方法的流程示意图。
图2是本发明提供的图卷积神经网络的模型示意图。
具体实施方式
下面结合附图对本发明的实施例做进一步说明:
如图1所示,本法民的一种基于图卷积神经网络的跨语料库情感识别的方法,包括以下步骤:
(1)获取两个音频数据库,分别作为训练数据集和测试数据集,将测试数据集平均划分成10份,选取其中的9份作为无标签样本和训练数据集一起训练,剩下的1份作为测试样本。在本实施例中,我们使用情感语音识别中常见的两类语音情感数据库:Berlin和eNTERFACE。Berlin库有7种情感:中性、害怕、生气、高兴、悲伤、厌恶和无聊,一共有535句语句。eNTERFACE库有6种情感:害怕、生气、高兴、悲伤、厌恶和惊喜,一共有1166个视频。我们选取Berlin库和eNTERFACE库具有的5种相同情绪:害怕、生气、高兴和悲伤,一共1395条语句,进行训练和测试。
(2)利用若干声学低维描述子对Berlin库和eNTERFACE库中的音频进行特征提取,得到1582维特征,并将多个情感特征组成向量作为对应语音的特征向量。
该步骤具体包括:
(2-1)对于Berlin库和eNTERFACE库中的音频,计算其34个声学低维描述子值和对应增量参数;所述34个声学低维描述子分别为:响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率;4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间;所述4个基于音高的低级描述子分别为:基频频率、2个抖动和闪烁;描述子来源于INTERDPEECH2010Emotion Challenge提供的功能集;
(2-2)对于每个音频,利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理,所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比;对其4个基于音高的低级描述子进行19种统计函数处理,所述的19种统计函数不包括上述21个函数中的最小值和范围;
(2-3)将统计得到的每个信息(2-2中计算得到的每个值)作为一个情感特征,并将35*2*21+4*2*19+2=1582个情感特征组成向量作为对应音频的特征向量,并将每个特征值归一化到0-1之间,四舍五入取整。
(3)建立图卷积神经网络模型,将每条音频看成节点,每个节点与与之距离最近节点之间构成边,将节点和边构成的图输入到两层的图卷积神经网络中,图卷积将未知标签的特征传到已知标签的特征节点上,利用已知标签节点的分类器进行分类测试。
(3-1)其中,要求出每个节点与与之距离最近点的id,需要用到LDA(线性判别分析)和PCA(主成分分析),进行半监督判别分析,LDA计算过程:
数据集D={(x1,y1),(x2,y2),…,(xm,ym)},其中xi为n维向量,yi∈{C1,C2,…,Ck},定义Nj(j=1,2,…,k)为第j类样本的个数,Xj(j=1,2,…,k)为第j类样本的集合,μj(j=1,2,…,k)为第j类样本的均值,∑j(j=1,2,…,k)为第j类样本的协方差矩阵。
(3-1-1)利用下式计算类内散度Sw
Figure BDA0003030180590000051
(3-1-2)利用下式计算类间散度Sb
Figure BDA0003030180590000061
(3-1-3)计算矩阵
Figure BDA0003030180590000062
求出其最大的d个特征值和对应的d个特征向量(w1,w2,…,wd)得到投影矩阵W,LDA目标函数定义为:
Figure BDA0003030180590000063
其中W为n*d的矩阵,目标函数J(W)的优化过程可以转化为:
Figure BDA0003030180590000064
最大值是矩阵
Figure BDA0003030180590000065
的最大值特征值,最大的d个值得乘积就是矩阵
Figure BDA0003030180590000066
的最大的d个特征值的乘积,此时W矩阵为这最大的d个特征值对应的特征向量张成的矩阵。
(3-1-4)对样本集中的每一样本特征xi,转化为新的样本zi=WTxi
(3-1-5)得到输出样本集D'={(z1,y1),(z2,y2),…,(zm,ym)}
(3-2)PCA的计算过程:
首先输入数据集X={x1,x2,x3,…,xn}
(3-2-1)去平均值,即每一个特征值减去各自的平均;
(3-2-2)计算协方差矩阵
Figure BDA0003030180590000067
(3-2-3)用特征值分解方法求协方差矩阵
Figure BDA0003030180590000068
的特征值和特征向量;
(3-2-3)对特征值从大到小排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为行向量组成特征矩阵p;
(3-2-4)将数据转换到k个特征向量构建的新空间中,即Y=PX;
其中,图卷积神经网络模型中的传播方式为:
Figure BDA0003030180590000069
式中,
Figure BDA00030301805900000610
是加上自连接的邻接矩阵,在和特征矩阵X相乘时就不会忽略该节点自己的特征,IN是单位矩阵,
Figure BDA00030301805900000611
Figure BDA00030301805900000612
的度矩阵,
Figure BDA00030301805900000613
W(l)是权值矩阵,σ是激活函数,类似于ReLU等;
(3-3)在图步骤(3)中构成的新图上的卷积我们考虑到的是频域卷积,利用图的傅里叶变换实现卷积。简单来讲,就是用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子,再类比频域上欧式空间的卷积,就得到图卷积的公式。使用拉普拉斯矩阵L(L=D-A)替代拉普拉斯算子和特征向量x,形成图的傅里叶变换。图是无向图,L是对称矩阵,分解为:
L=UΛXUT
U=(u1,u2,…,un)
Figure BDA0003030180590000071
U是归一化图拉普拉斯矩阵L的特征向量矩阵,根据以上卷积和傅里叶变换相结合,在步骤(3)中构成的图上的频域卷积可以写成:
Figure BDA0003030180590000072
在整个新图的N个节点上做卷积,那么得到的图的卷积为:
Figure BDA0003030180590000073
将欧式空间上的卷积和图上的卷积进行对比,两者非常相似,f是特征函数,g是卷积核:
(f*g)=F-1[F[f]⊙F[g]]
(f*Gg)=U(UTf⊙UTg)=u(UTg⊙UTf)
我们将UTg看成是用于频域卷积神经网络的卷积核,写成gθ,那么新图上卷积的最终公式为:
(f*Gg)θ=UgθUTf
最后,一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算量很大,所以提出用切比雪夫多项式来加快特征矩阵的求解。假设切比雪夫多项式的第k项是Tk,频域卷积核就变成:
Figure BDA0003030180590000074
其中:Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1和T1(x)=x,
Figure BDA0003030180590000075
可以归一化特征向量矩阵,所以新图上的卷积公式又变为:
Figure BDA0003030180590000076
其中
Figure BDA0003030180590000077
可以发现(UΛUT)k=UΛkUT,它是一个拉普拉斯式的k阶多项式,它只依赖于中心节点k阶邻域内的节点。
其中,两层的卷积神经网络,使用一个对称邻接矩阵A,两层GCN(图卷积神经网络),在新图上进行半监督节点分类。首先将
Figure BDA0003030180590000078
进行预处理,采用了简单模型:
Figure BDA0003030180590000081
其中,W(0)是输入层到隐藏层的权重,W(1)是隐藏层到输出层的权重。第一层采用激活函数ReLU,第二层采用激活函数softmax。在半监督分类中,我们评估所有标签样本的交叉熵误差:
Figure BDA0003030180590000082
式中,yL是有标签的样本集.
本实施例还提供了一种基于图卷积神经网络的跨语料库情感识别装置,包括处理器及存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
为验证本发明的有效性,在语音情感数据库Berlin和eNTERFACE数据库上我们分别进行了实验。在实验中,我们将两个数据库分别作为源域和目标域,其中源域是作为训练集提供训练数据和部分标签,目标域是作为测试集,提供测试数据和标签。在我们的实验中,要通过两种方案进行分析。源语料库可以包含目标语料库没有标签的样本信息。如方案1:用eNTERFACE库训练去测试Berlin库,在eNTERFACE库训练的过程中加上Berlin库一部分没有标签的样本。方案2:用Berlin库训练去测试eNTERFACE库,在Berlin库训练过程中加上eNTERFACE库一部分没有标签的样本。我们对训练过程中含有无标签样本的个数对实验影响进行了多次试验,评价标准为Accuracy。
实验预期,基于本发明提出的基于图卷积神经网络的跨语料库情感识别方法,取得了比较好的跨数据库情感识别率。

Claims (4)

1.一种基于图卷积神经网络的跨语料库情感识别方法,其特征在于步骤如下:
S1获取两个音频数据库,两个音频数据库中的每条音频都具有一个情感标签,一个音频数据库作为训练数据集,另一个作为测试数据集,其中测试数据集分成多份,取一份作为测试样本,删除该份测试样本中语音的情感标签形成无标签的测试样本,;
S2利用若干声学低维描述子对两个音频数据库中的音频进行特征提取,得到多个情感特征组,并将多个情感特征组成向量作为对应语音的特征向量;
S3建立图卷积神经网络模型GCN,将每条音频定义为GCN的节点,其中包括无标签的音频,将GCN中每个节点与与之距离最近节点之间构成边,最终将节点和边连接构成一张新的图,这张新的图把有标签数据、无标签数据和测试数据连接了起来,将新图输入两层的图卷积神经网络,;
S4将已知情感标签的训练数据集中的样本和无标签的测试样本一起放入S3中获得的卷积神经网络模型继续训练,测试测试数据集中未删除情感标签的样本,采用softmax分类器进行分类,得到未删除情感标签的测试样本的标签分类;
S5无标签的测试样本悬链后得到语音情感标签概率,softmax输出最大概率的情感标签,结合预测出语音的情感分类,输出情感分类即为从语音中识别出来的情感。
2.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S2具体包括:
S2.1对于Berlin库和eNTERFACE库中的音频,计算其34个声学低维描述子值和对应增量参数;所述34个声学低维描述子分别为:响度、梅尔频率倒谱系数0-14、梅尔频带对数功率0-7、8个线谱对频率、平滑的基频轮廓线和最终基频候选的发声概率;4个基于音高的低级描述子和对应增量参数、最后附加音高的数量和总输入的持续时间;所述4个基于音高的低级描述子分别为:基频频率、2个抖动和闪烁;描述子来源于INTERDPEECH 2010EmotionChallenge提供的功能集;
S2.2对于每个音频,利用openSMILE软件分别对其34个声学低维描述子进行21种统计函数处理,所述21种统计函数分别为为求最大值和最小值的绝对位置、平均值、斜率、偏移量、误差、标准偏差、偏度、峰度、3个第一四分位数、3个四分位数间距、最大值、最小值和两个时间百分比;对其4个基于音高的低级描述子进行19种统计函数处理,所述的19种统计函数不包括上述21个函数中的最小值和范围;
S2.3将S2.2中计算得到的每个值作为一个情感特征,并将35*2*21+4*2*19+2=1582个情感特征组成向量作为对应音频的特征向量,并将每个特征值归一化到0-1之间,四舍五入取整。
3.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S3具体包括:
S3.1由于两个音频数据库空间分布不同,所以运用LDA(线性判别分析),将有标签的样本按照标签信息投影到一起,形成4维数据,运用PCA(主成分分析),将没有标签的样本降维投影到低维子空间,形成50维数据;
S3.2在投影后的平面上计算每个节点与其他节点之间的欧式距离,得到每个节点与与之距离最近点的id,点与点之间距离的关系构成图的边,LDA(线性判别分析)的投影构成一张图,PCA(主成分分析)的投影构成一张图,在两个图中选择5个不同情感的点一一连接,将两张图构成一张完整的图;
S3.3将节点和边构成的图输入到两层的图卷积神经网络中,图卷积将未知标签的特征通过邻接矩阵传到已知标签的特征节点上,利用已知标签节点的分类器进行分类测试;
进一步的,图卷积神经网络模型中的传播方式为:
Figure FDA0003030180580000021
式中,
Figure FDA0003030180580000022
是加上自连接的邻接矩阵,在和特征矩阵X相乘时就不会忽略该节点自己的特征,IN是单位矩阵。
Figure FDA0003030180580000023
Figure FDA0003030180580000024
的度矩阵,
Figure FDA0003030180580000025
W(l)是权值矩阵,σ是激活函数,类似于ReLU;
S3.4在投影构成的图上的卷积为频域卷积,利用图的傅里叶变换实现卷积;利用图的拉普拉斯矩阵计算出频域上的拉普拉斯算子,再类比频域上欧式空间的卷积,从而得到图卷积的公式,利用拉普拉斯矩阵L(L=D-A)替代拉普拉斯算子和特征向量x,形成图的傅里叶变换,具体为:
L=UΛUT
U=(u1,u2,…,un)
Figure FDA0003030180580000026
U是归一化图拉普拉斯矩阵L的特征向量矩阵,根据以上卷积和傅里叶变换相结合,在投影构成的图的频域卷积可以写成:
Figure FDA0003030180580000027
在整个投影构成的图的N个节点上做卷积,那么得到的图的卷积为:
Figure FDA0003030180580000031
将欧式空间上的卷积和图上的卷积进行对比,两者非常相似,f是特征函数,g是卷积核:
(f*g)=F-1[F[f]⊙F[g]]
(f*Gg)=U(UTf⊙UTg)=U(UTg⊙UTf)
我们将UTg看成是用于频域卷积神经网络的卷积核,写成gθ,那么图上卷积的最终公式为:
(f*Gg)θ=UgθUTf
最后,一般的频域卷积网络要计算拉普拉斯矩阵所有的特征值和特征向量,计算量很大,所以提出用切比雪夫多项式来加快特征矩阵的求解;
假设切比雪夫多项式的第k项是Tk,频域卷积核为:
Figure FDA0003030180580000032
其中:Tk(x)=2xTk-1(x)-Tk-2(x),T0(x)=1和T1(x)=x,
Figure FDA0003030180580000033
可以归一化特征向量矩阵。所以投影构成的图的卷积公式变为:
Figure FDA0003030180580000034
其中
Figure FDA0003030180580000035
可以发现(UΛUT)k=UΛkUT,它是一个拉普拉斯式的k阶多项式,它只依赖于中心节点k阶邻域内的节点。
4.根据权利要求1所述的基于图卷积神经网络的跨语料库情感识别方法,其特征在于:步骤S3.3具体包括:
使用一个对称邻接矩阵A,两层GCN,在投影构成的图进行半监督节点分类:
首先将
Figure FDA0003030180580000036
进行预处理,采用了简单模型:
Figure FDA0003030180580000037
其中,W(0)是输入层到隐藏层的权重,W(1)是隐藏层到输出层的权重,采用两种不同的激活函数ReLU和softmax,在半监督分类中,评估所有标签样本的交叉熵误差:
Figure FDA0003030180580000038
式中,yL是有标签的样本集.。
CN202110427721.0A 2021-04-21 2021-04-21 基于图卷积神经网络的跨语料库情感识别方法 Active CN113112994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427721.0A CN113112994B (zh) 2021-04-21 2021-04-21 基于图卷积神经网络的跨语料库情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427721.0A CN113112994B (zh) 2021-04-21 2021-04-21 基于图卷积神经网络的跨语料库情感识别方法

Publications (2)

Publication Number Publication Date
CN113112994A true CN113112994A (zh) 2021-07-13
CN113112994B CN113112994B (zh) 2023-11-07

Family

ID=76718907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427721.0A Active CN113112994B (zh) 2021-04-21 2021-04-21 基于图卷积神经网络的跨语料库情感识别方法

Country Status (1)

Country Link
CN (1) CN113112994B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593606A (zh) * 2021-09-30 2021-11-02 清华大学 音频识别方法和装置、计算机设备、计算机可读存储介质
CN113724858A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 基于人工智能的疾病检查项目推荐设备、方法及装置
CN113990353A (zh) * 2021-10-27 2022-01-28 北京百度网讯科技有限公司 识别情绪的方法、训练情绪识别模型的方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399857A (zh) * 2019-08-01 2019-11-01 西安邮电大学 一种基于图卷积神经网络的脑电情感识别方法
CN111028827A (zh) * 2019-12-10 2020-04-17 深圳追一科技有限公司 基于情绪识别的交互处理方法、装置、设备和存储介质
CN111583966A (zh) * 2020-05-06 2020-08-25 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置
CN111966800A (zh) * 2020-07-27 2020-11-20 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置
US20210000404A1 (en) * 2019-07-05 2021-01-07 The Penn State Research Foundation Systems and methods for automated recognition of bodily expression of emotion

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210000404A1 (en) * 2019-07-05 2021-01-07 The Penn State Research Foundation Systems and methods for automated recognition of bodily expression of emotion
CN110399857A (zh) * 2019-08-01 2019-11-01 西安邮电大学 一种基于图卷积神经网络的脑电情感识别方法
CN111028827A (zh) * 2019-12-10 2020-04-17 深圳追一科技有限公司 基于情绪识别的交互处理方法、装置、设备和存储介质
CN111583966A (zh) * 2020-05-06 2020-08-25 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置
CN111966800A (zh) * 2020-07-27 2020-11-20 腾讯科技(深圳)有限公司 情感对话生成方法、装置及情感对话模型训练方法、装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUE-HAN WANG: "EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks and Broad Learning System", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
易冠先: "基于语音和文本的课堂情绪识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
杨子秀: "基于图卷积深浅特征融合的跨语料库情感识别", 《数据采集与处理》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113724858A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 基于人工智能的疾病检查项目推荐设备、方法及装置
CN113593606A (zh) * 2021-09-30 2021-11-02 清华大学 音频识别方法和装置、计算机设备、计算机可读存储介质
CN113990353A (zh) * 2021-10-27 2022-01-28 北京百度网讯科技有限公司 识别情绪的方法、训练情绪识别模型的方法、装置及设备
CN113990353B (zh) * 2021-10-27 2024-05-07 北京百度网讯科技有限公司 识别情绪的方法、训练情绪识别模型的方法、装置及设备

Also Published As

Publication number Publication date
CN113112994B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
Latif et al. Multi-task semi-supervised adversarial autoencoding for speech emotion recognition
CN113112994B (zh) 基于图卷积神经网络的跨语料库情感识别方法
US20200335086A1 (en) Speech data augmentation
Song et al. Feature selection based transfer subspace learning for speech emotion recognition
Huang et al. Unsupervised domain adaptation for speech emotion recognition using PCANet
Falahzadeh et al. Deep convolutional neural network and gray wolf optimization algorithm for speech emotion recognition
JPH0293597A (ja) 音声認識装置
Zhong et al. A Lightweight Model Based on Separable Convolution for Speech Emotion Recognition.
Novoselov et al. STC Speaker Recognition System for the NIST i-Vector Challenge.
Gopi Digital speech processing using Matlab
Deng et al. Linked source and target domain subspace feature transfer learning--exemplified by speech emotion recognition
CN110717021B (zh) 人工智能面试中获取输入文本和相关装置
CN103594084A (zh) 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN106971180A (zh) 一种基于语音字典稀疏迁移学习的微表情识别方法
CN112397092A (zh) 基于领域自适应子空间的无监督跨库语音情感识别方法
Soliman et al. Isolated word speech recognition using convolutional neural network
CN113611315A (zh) 基于轻量化卷积神经网络的声纹识别方法和装置
Ibrahim et al. Bidirectional parallel echo state network for speech emotion recognition
CN115982144A (zh) 相似文本去重方法、装置、存储介质及电子装置
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
Xia et al. Learning salient segments for speech emotion recognition using attentive temporal pooling
CN109102006B (zh) 一种基于音频特征诱导信息增强的音乐自动标记方法
CN110148417B (zh) 基于总变化空间与分类器联合优化的说话人身份识别方法
Aishwarya et al. Kannada speech recognition system for Aphasic people
Kumar et al. Machine learning technique-based emotion classification using speech signals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant