CN107886942B - 一种基于局部惩罚随机谱回归的语音信号情感识别方法 - Google Patents

一种基于局部惩罚随机谱回归的语音信号情感识别方法 Download PDF

Info

Publication number
CN107886942B
CN107886942B CN201711055574.9A CN201711055574A CN107886942B CN 107886942 B CN107886942 B CN 107886942B CN 201711055574 A CN201711055574 A CN 201711055574A CN 107886942 B CN107886942 B CN 107886942B
Authority
CN
China
Prior art keywords
training
samples
sample
regression
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711055574.9A
Other languages
English (en)
Other versions
CN107886942A (zh
Inventor
赵力
徐新洲
郑文明
邓军
黄程韦
魏昕
李燕
吴尘
塔什甫拉提.尼扎木丁
赵突
余华
邹采荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711055574.9A priority Critical patent/CN107886942B/zh
Publication of CN107886942A publication Critical patent/CN107886942A/zh
Application granted granted Critical
Publication of CN107886942B publication Critical patent/CN107886942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于局部惩罚随机谱回归的语音信号情感识别方法,对带有情感信息的语段信号样本进行副语言特征提取、数据映射、局部惩罚嵌入图设计和图分解、回归、分类器分类判决。其中在数据映射阶段,使用了随机生成点进行非线性特征映射;在局部惩罚嵌入图设计和图分解阶段,使用了局部惩罚嵌入图,以加大对类间边缘样本对之间的惩罚权重,生成训练样本的虚拟坐标。与现有方法相比,本发明的方法在语音信号情感识别方面,能够有效地提升系统的识别性能。

Description

一种基于局部惩罚随机谱回归的语音信号情感识别方法
技术领域
本发明属于语音信号情感识别领域,特别是涉及一种基于局部惩罚随机谱回归的语音信号情感识别方法。
背景技术
声信号人类感知外界世界,并与之交流的一个主要载体,在很多领域内具有重要的研究价值。而语音信号作为一类特殊的声信号,能够承载说话人的类型、语义、情绪、状态、个性、健康等丰富的信息。语音信号的智能处理是在以语音信号作为载体的基础上,使用智能化的方法让机器能够更感知、以一定的目标学习语音信号中的有用特征,构建自动化处理语音信号的系统。语音信号智能处理的一个重要的分支就是语音信号的情感信息处理,在人机交互、心理疾病诊断和预防、极端条件下作业人员的情绪监测等方面有着广泛的应用背景。而语音信号情感识别则是其中被研究最多的一种情况,旨在研究给定语段信号的情感分类情况。
谱回归(Spectral Regression,简称SR)方法在图像处理与模式识别中得到了广泛的应用,在节省算法的计算量、提升训练学习性能方面起到较好的作用,能够较好地解决直接求解优化问题中的奇异值问题。传统的谱回归算法包括谱图学习(Spectral GraphLearning)和回归拟合(Regression)两个阶段,通过谱图学习得到训练样本的谱数据,并进行线性或非线性建模回归运算,得到数据特征的投影模型。所以,谱回归相关方法可以用于语音信号情感识别系统性能的进一步提升。
而当前的研究中存在着以下两个方面的问题:一是对于常用于语音情感信号识别的副语言特征,需要构建适用于这些特征的图表示,用于谱图学习;二是在目前的谱回归方法中,从线性模型过渡到非线性模型的主要方法为核方法(Kernel Tricks),这种方法相对单一,无法较好地描述目前日趋复杂的特征结构和样本集。
发明内容
要解决的技术问题:针对现有技术的不足,解决现有技术中,当目标为识别语音信号中的情感信息时,副语言特征对于当前的谱回归方法不适用;以及已有谱回归方法中非线性变换方式单一的问题,本发明提出一种基于局部惩罚随机谱回归(Locally PenalizedRandom Spectral Regression)的语音信号情感识别方法。
技术方案:为解决上述技术问题,本发明采用以下技术方案:
一种基于局部惩罚随机谱回归的语音信号情感识别方法,建立语音情感数据库,语音情感数据库包括若干语段样本,将语音情感数据库中的若干语段样本采用说话人独立的方式,划分为训练样本集和测试样本集,即训练样本集中样本对应的说话人不出现在测试样本集对应的说话人中,测试样本集中样本对应的说话人也不出现在训练样本集对应的说话人中;每个样本都拥有情感类别标签,所述情感类别标签包括愉悦、生气、悲伤,假设训练样本集中每个样本对应的情感类别标签为已知且唯一,该方法包括顺序执行以下步骤:
步骤一、提取生成N维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的副语言特征,作为原始特征,并对原始特征做规整化处理,得到N个训练样本对应的规整化特征X=[x1,x2,...,xN];
步骤二、对原始特征进行数据映射处理:依0-1间的均匀分布,随机生成多组和原始特征维数相同的NA个随机向量
Figure BDA00014518369300000211
对每个样本,使用这些随机向量,生成N个训练样本经过数据映射K得到的NA维新特征
Figure BDA0001451836930000021
其中Ω的每列对应一个训练样本的数据映射新特征;
步骤三、谱图学习处理:使用训练样本的情感类别标签以及训练样本经过规整化的原始特征,构建以各训练样本为结点的图结构,并进行谱图学习分解得到N个训练样本的d维虚拟坐标
Figure BDA0001451836930000022
步骤四、回归处理:结合谱图学习生成的虚拟坐标,和样本经过数据映射得到的新特征,进行线性回归运算,投影得到训练样本,线性投影系数为
Figure BDA00014518369300000213
步骤五、训练分类器:选用1NN分类器,直接使用步骤四中得到的
Figure BDA00014518369300000212
与步骤二得到的Ω相乘,得到训练样本的投影特征,组成1NN分类器;
步骤六、测试:对于每个测试样本,使用经步骤五得到的分类器对每个测试样本进行测试,
进一步的,步骤一中的规范化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0),其中N个训练样本的特征列向量组成的训练样本集为
Figure BDA0001451836930000024
Figure BDA0001451836930000025
Figure BDA0001451836930000026
的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素
Figure BDA0001451836930000027
的规整化处理的计算公式为:
Figure BDA0001451836930000028
其中
Figure BDA0001451836930000029
表示X(0)第j行中最大的元素,
Figure BDA00014518369300000210
表示X(0)第j行中最小的元素;
Figure BDA0001451836930000031
Figure BDA0001451836930000032
规整化处理后的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成训练样本的规整化特征向量集X=[x1,x2,...,xN],即
Figure BDA0001451836930000033
进一步的,步骤二中进行数据映射时包括顺序执行的以下步骤:
(1)按0-1间均匀分布,生成NA组n维随机向量
Figure BDA0001451836930000034
(2)生成N个训练样本数据映射的NA维新特征
Figure BDA0001451836930000035
其中对于
Figure BDA0001451836930000036
存在:
Figure BDA0001451836930000037
其中t0为Gauss尺度参数,t0取值范围为0.01n至10n。
进一步的,步骤三中进行谱图学习时包括顺序执行的以下步骤:
(1)训练样本的嵌入图设计:
设L(I)为谱图学习中本征嵌入图对应的拉普拉斯矩阵,取为Fisher判别分析本征图的拉普拉斯矩阵,日L(I)=D(I)-W(I)
其中,N×N对角阵D(I)中第i行j列的元素的形式为
Figure BDA0001451836930000038
W(I)为线性判别分析的本征图邻接阵,且
Figure BDA0001451836930000039
其中nc为类c中的训练样本数,N0为类数,对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;
设L(P)为谱图学习中惩罚嵌入图对应的拉普拉斯矩阵,L(P)=D(P)-W(P)
其中,N×N对角阵D(P)中第i行j列的元素的形式为
Figure BDA0001451836930000041
其中
Figure BDA0001451836930000042
其中,e为全部元素均为1的N维列向量;局部惩罚权重δ0取值在0至1之间;训练样本标签矩阵
Figure BDA0001451836930000043
运算枸
Figure BDA0001451836930000044
表示矩阵间按元素相乘;WkNN表示k近邻图,即:元素(WkNN)ij在样本i、j互为近邻时取为1,否则为0;
(2)嵌入图分解:
选择优化目标为:
Figure BDA0001451836930000045
其中,L(I)和L(P)分别为谱图学习中本征嵌入图和惩罚嵌入图对应的拉普拉斯矩阵;I为N×N的单位阵;γ1>0、γ2>0为防止产生奇异值的附加项权重,γ1、γ2取值小于10-6
该优化形式可以通过广义特征值问题求解,求解得到d组最优
Figure BDA00014518369300000412
值,经过正交规范化处理后,组成
Figure BDA0001451836930000046
进一步的,步骤四中的回归处理具体方法为:
对每一个
Figure BDA0001451836930000047
求解回归优化形式:
Figure BDA0001451836930000048
其中,γ为投影ω的范数最小化优化项权重,
得到维度i对应的最优投影方向:
Figure BDA0001451836930000049
由1至d的最优投影方向组成
Figure BDA00014518369300000410
进一步的,步骤一中的副语言特征为体现语段样本的大规模特征集,采用每帧信号声学特征计算统计参数,以及少量语段整体特征。
进一步的,步骤六的测试方法具体包括以下步骤:
(1)对经步骤一得到的经过规整化处理后的每个测试样本的规整化特征向量
Figure BDA00014518369300000411
使用经步骤二生成的同一组随机向量进行数据映射,得到
Figure BDA0001451836930000051
其中K为步骤二中的数据映射方式;使用步骤四中的线性投影系数
Figure BDA0001451836930000055
进而得到
Figure BDA0001451836930000054
经过数据映射和投影的低维样本
Figure BDA0001451836930000052
(2)使用分类器对
Figure BDA0001451836930000053
进行分类,选择1NN分类器进行分类:对于每一个测试样本,在全体训练样本中找到与该测试样本欧式距离最近的训练样本,使用该训练样本对应的情感类别标签作为该测试样本的分类判决结果。
有益效果:本发明提供的一种基于局部惩罚随机谱回归的语音信号情感识别方法,通过将样本按不同说话人,划分成为训练集和测试集,含有情感成分的语段信号提取出副语言特征,继而进行数据映射和谱图学习,并通过回归运算得到最优的对经过数据映射生成的新特征的线性投影。在数据映射阶段,使用随机向量对每个样本进行非线性的数据映射;在谱图学习阶段,设计得到适用于语音信号情感识别的嵌入图结构,并通过嵌入图分解计算得到每个训练样本的虚拟坐标;在回归阶段将每个训练样本的新特征同虚拟坐标相对应,得到线性投影。
对于一般的谱回归方法,其应用于语音信号情感识别领域存在着如下的问题:其一,典型的谱回归方法的非线性化手段较为单一,即使用核方法进行线性到非线性学习形式的转化,这并不能较好地描述样本空间。鉴于此,需要对算法的非线性化形式进行改进,引入随机因素;同时,采用适用于语音信号情感识别的特征,即副语言特征的嵌入图结构,在充分利用训练样本标签信息的同时,兼顾类间边缘样本对的惩罚权重,从而进一步提升系统的性能和自适应特性。
因此,本发明中采用基于局部惩罚随机谱回归的方法(简称LPRSR)算法,在样本原始特征的基础上进行学习,采用随机向量对特征进行非线性的数据映射,并采用局部惩罚的嵌入图结构,通过谱图学习以及图分解,得到每个训练样本的虚拟坐标,最后经过回归运算,得到针对每个样本新特征的线性投影,实现对语音信号情感识别中,原始特征学习的优化,提升了系统自动识别的识别率性能。
通过实验证明,相比于现有的识别方法,本发明的方法通过采用随机向量,在语音信号情感识别及相关特征学习中,提升了算法的情感识别性能。
附图说明
图1为本发明的方法流程图;
图2为GEMEP数据库上使用ELM算法时,UA值对应的box-and-whisker图随不同L值的变化;
图3为GEMEP数据库上使用LPRSR算法时,UA值对应的box-and-whisker图随不同L值的变化;
图4为ABC数据库上使用ELM算法时,UA值对应的box-and-whisker图随不同L值的变化;
图5为ABC数据库上使用LPRSR算法时,UA值对应的box-and-whisker图随不同L值的变化。
具体实施方式
下面结合附图及具体实施方式对本发明作更进一步的说明。
如图1所示,基于局部惩罚随机谱回归的语音信号情感识别方法,首先建立语音情感数据库,语音情感数据库包括若干语段样本,将语音情感数据库中的若干语段样本采用说话人独立的方式,划分为训练样本集和测试样本集,即训练样本集中样本对应的说话人不出现在测试样本集对应的说话人中,测试样本集中样本对应的说话人也不出现在训练样本集对应的说话人中;每个样本都拥有情感类别标签,所述情感类别标签包括愉悦、生气、悲伤等,假设训练样本集中每个样本对应的情感类别标签为已知且唯一,该方法包括顺序执行以下步骤:
步骤一、提取生成N维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的副语言特征,所述副语言特征即体现语段信号的大规模特征集,一般利用每帧信号声学特征计算统计参数,以及少量语段整体特征),作为原始特征,并对原始特征做规整化处理,得到N个训练样本对应的规整化特征X=[x1,x2,...,xN];
具体的,本步骤中规范化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0),其中N个训练样本的特征列向量组成的训练样本集为
Figure BDA0001451836930000061
Figure BDA0001451836930000062
Figure BDA0001451836930000063
的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素
Figure BDA0001451836930000064
的规整化处理的计算公式为:
Figure BDA0001451836930000065
其中
Figure BDA0001451836930000066
表示X(0)第j行中最大的元素,
Figure BDA0001451836930000067
表示X(0)第j行中最小的元素;
Figure BDA0001451836930000068
Figure BDA0001451836930000069
规整化处理后的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一训练或测试样本规整
化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成训练样本的规整化特征向量集X=[x1,x2,...,xN],即
Figure BDA0001451836930000071
步骤二、对原始特征进行数据映射处理:依0-1间的均匀分布,随机生成多组和原始特征维数相同的NA个随机向量
Figure BDA0001451836930000072
对每个样本,使用这些随机向量,生成N个训练样本经过数据映射K得到的NA维新特征
Figure BDA0001451836930000073
其中Ω的每列对应一个训练样本的数据映射新特征;
本步骤中进行数据映射时包括顺序执行的以下步骤:
(1)按0-1间均匀分布,生成NA组n维随机向量
Figure BDA0001451836930000074
(2)生成N个训练样本数据映射的NA维新特征
Figure BDA0001451836930000075
其中对于
Figure BDA0001451836930000076
存在:
Figure BDA0001451836930000077
其中t0为Gauss尺度参数,t0取值范围为0.01n至10n。
该步骤引入随机因素,采用随机向量对特征进行非线性的数据映射,对算法的非线性化形式进行改进。
步骤三、谱图学习处理:使用训练样本的情感类别标签以及训练样本经过规整化的原始特征,构建以各训练样本为结点的图结构,并进行谱图学习分解得到N个训练样本的d维虚拟坐标
Figure BDA0001451836930000078
具体的,本步骤中进行谱图学习时包括顺序执行的以下步骤:
(1)训练样本的嵌入图设计:
设L(I)为谱图学习中本征嵌入图对应的拉普拉斯矩阵,取为Fisher判别分析本征图的拉普拉斯矩阵,且L(I)=D(I)-W(I)
其中,N×N对角阵D(I)中第i行j列的元素的形式为
Figure BDA0001451836930000081
W(I)为线性判别分析的本征图邻接阵,且
Figure BDA0001451836930000082
其中nc为类c中的训练样本数,N0为类数,对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;
设L(P)为谱图学习中惩罚嵌入图对应的拉普拉斯矩阵,L(P)=D(P)-W(P)
其中,N×N对角阵D(P)中第i行j列的元素的形式为
Figure BDA0001451836930000083
其中
Figure BDA0001451836930000084
其中,e为全部元素均为1的N维列向量;局部惩罚权重δ0取值在0至1之间;训练样本标签矩阵
Figure BDA0001451836930000085
运算符
Figure BDA0001451836930000086
表示矩阵间按元素相乘;WkNN表示k近邻图,即:元素(WkNN)ij在样本i、j互为近邻时取为1,否则为0;
(2)嵌入图分解:
选择优化目标为:
Figure BDA0001451836930000087
其中,L(I)和L(P)分别为谱图学习中本征嵌入图和惩罚嵌入图对应的拉普拉斯矩阵;I为N×N的单位阵;γ1>0、γ2>0为防止产生奇异值的附加项权重,γ1、γ2取值小于10-6
该优化形式可以通过广义特征值问题求解,求解得到d组最优
Figure BDA0001451836930000089
值,经过正交规范化处理后,组成
Figure BDA0001451836930000088
该步骤采用适用于语音信号情感识别的特征,即副语言特征的嵌入图结构,在充分利用训练样本标签信息的同时,兼顾类间边缘样本对的惩罚权重,从而进一步提升系统的性能和自适应特性。
步骤四、回归处理:结合谱图学习生成的虚拟坐标,和样本经过数据映射得到的新特征,进行线性回归运算,投影得到训练样本,线性投影系数为
Figure BDA0001451836930000091
本步骤中的回归处理采用的算法如下:
对每一个
Figure BDA00014518369300000911
求解回归优化形式:
Figure BDA0001451836930000092
其中,γ为投影ω的范数最小化优化项权重,
得到维度i对应的最优投影方向:
Figure BDA0001451836930000093
由1至d的最优投影方向组成
Figure BDA0001451836930000094
通过回归运算,得到针对每个样本新特征的线性投影,实现对语音信号情感识别中,原始特征学习的优化,提升了系统自动识别的识别率性能。
步骤五、训练分类器:选用1NN分类器,直接使用步骤四中得到的
Figure BDA00014518369300000912
与步骤二得到的Ω相乘,得到训练样本的投影特征,组成1NN分类器;
步骤六,测试:对于每个测试样本,使用经步骤四得到的分类器对每个测试样本进行测试,具体包括顺序执行的以下步骤:
(1)对经步骤一得到的经过规整化处理后的每个测试样本的规整化特征向量
Figure BDA0001451836930000095
使用经步骤二生成的同一组随机向量进行数据映射,得到
Figure BDA0001451836930000096
其中K为步骤二中的数据映射方式;使用步骤四中的线性投影系数
Figure BDA0001451836930000097
进而得到
Figure BDA0001451836930000098
经过数据映射和投影的低维样本
Figure BDA0001451836930000099
(2)使用分类器对
Figure BDA00014518369300000910
进行分类,选择1NN分类器进行分类:对于每一个测试样本,在全体训练样本中找到与该测试样本欧式距离最近的训练样本,使用该训练样本对应的情感类别标签作为该测试样本的分类判决结果。
下面对通过实验的方法将本实施例的方法与现有的子空间学习方法以及进行不加权精度(UnweightedAccuracy;UA)以及加权精度(WeightedAccuracy;WA)识别率对比。
实验采用GEMEP(GEneva Multimodal Emotion Portrayals)以及ABC(AirplaneBehavior Corpus)数据库中的语音信号部分对本实施例的方法进行有效性验证。
双模态数据库GEMEP包含语音样本集及其对应的视频样本集GEMEP-FERA。数据库共含有18个情感类别,即admiration、amusement、anxiety、cold anger、contempt、despair、disgust、elation、hot anger、interest、panic fear、pleasure、pride、relief、sadness、shame、surprise、tenderness。数据库用法语录制,共1260个样本,分属于10个说话人,其中包括5个女性。一般使用其中的12类,即amusement、anxiety、cold anger、despair、elation、hot anger、interest、panic fear、pleasure、pride、relief、sadness,平均每类约90个样本,共1080个样本。数据集分为648个训练样本(6个说话人;3女),以及432个测试样本(4个说话人;2女)。
双模态数据库ABC旨在模拟不同情境下公共交通中的情绪表达,数据库用德语录制,包含6类,为aggressive、cheerful、intoxicated、nervous、neutral、tired,分别包含样本数95、105、33、93、79、25,样本总数为430,平均时长为8.4秒。数据库中含8人参与表演,年龄25至48岁,其中女性4人。对ABC数据库,实验中采用2折交叉验证,每一折包含4个说话人(2女)。
实验的原始副语言特征采用INTERSPEECH Challenge 2013中的统一特征集,即ComParE,原始特征维数6373,其中65个LLDs(Low-Level Descriptors)的构成包括响度、过零率、MFCC、频谱能量分布、谱特征等,结合functionals得到特征,实验中采用openSMILE2.0提取特征。实验中,步骤二中随机向量的生成重复实验10次,每次随机生成L=NA个随机向量,即数据映射生成的新特征维数为L。
首先,对比本实施例方法和ELM的识别性能,在L取值为500至10000时,分别得到GEMEP和ABC数据库上UA和WA如表1中所示:
表1
Figure BDA0001451836930000101
Figure BDA0001451836930000111
由表1可知,本实施例中的LPRSR算法相比于ELM,能够取得更好的识别性能,对于GEMEP和ABC数据库,LPRSR分别在L=3500和L=5000时能够取得最好的UA和WA性能。根据表1,分别给出图2、图3、图4、图5,其中图2、图3分别表示GEMEP数据库上使用ELM和LPRSR时,UA性能随L的变化趋势;而图4、图5分别表示ABC数据库上的实验数据。图2至图5的结果说明了L的变化对本实施例中LPRSR算法识别性能的影响。
进一步的,我们给出LPRSR和传统谱回归方法(SR),以及一些常用识别方法的UA实验结果比较,制成表2。所用的方法包括主成分分析(Principal Component Analysis;PCA)、线性判别分析(Linear Discriminant Analysis;LDA)、局部判别嵌入(LocallyDiscriminant Embedding;LDE)、核局部判别嵌入(Kernel Locally DiscriminantEmbedding;KLDE)、L2范数线性谱回归(L2-norm Linear SpectralRegression;L2-normLSR)、L1范数线性谱回归(L1-norm Linear Spectral Regression;L1-norm LSR)、L2范数核谱回归(L2-norm Kernel Spectral Regression;L2-norm KSR)、L1范数核谱回归(L1-norm Kernel Spectral Regression;L1-norm KSR)。表2中本实施例方案的结果分别表示为10次重复实验UA结果的平均值以及最优值。
表2
Figure BDA0001451836930000112
综上所述,本实施例中所采用的LPRSR算法能够针对语音信号情感识别所使用的副语言特征,在保护监督信息的同时加强边缘样本对的鲁棒性,并使用了随机信息加强了对训练数据集的描述建模能力,从而有效地提高语音信号情感成分识别的效果。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (4)

1.一种基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:
建立语音情感数据库,语音情感数据库包括若干语段样本,将语音情感数据库中的若干语段样本采用说话人独立的方式,划分为训练样本集和测试样本集,即训练样本集中样本对应的说话人不出现在测试样本集对应的说话人中,测试样本集中样本对应的说话人也不出现在训练样本集对应的说话人中;每个样本都拥有情感类别标签,所述情感类别标签包括愉悦、生气、悲伤,所述训练样本集中每个样本对应的情感类别标签为已知且唯一,该方法包括顺序执行以下步骤:
步骤一、提取生成N维原始特征:对训练样本集和测试样本集中的每个语段样本,分别经过处理,提取出对应的副语言特征,作为原始特征,并对原始特征做规整化处理,得到N个训练样本对应的规整化特征X=[x1,x2,...,xN];
步骤二、使用随机向量对原始特征进行数据映射处理:依0-1间的均匀分布,随机生成多组和原始特征维数相同的NA个随机向量
Figure FDA0003209900110000011
对每个样本,使用这些随机向量,生成N个训练样本经过数据映射K得到的NA维新特征
Figure FDA0003209900110000012
其中Ω的每列对应一个训练样本的数据映射新特征;
步骤三、通过嵌入图设计和嵌入图分解进行谱图学习处理:使用训练样本的情感类别标签以及训练样本经过规整化的原始特征,构建以各训练样本为结点的图结构,并进行谱图学习分解得到N个训练样本的d维虚拟坐标
Figure FDA0003209900110000013
进行谱图学习时包括顺序执行的以下步骤:
(1)训练样本的嵌入图设计:
设L(I)为谱图学习中本征嵌入图对应的拉普拉斯矩阵,取为Fisher判别分析本征图的拉普拉斯矩阵,且L(I)=D(I)-W(I)
其中,N×N对角阵D(I)中第i行j列的元素的形式为
Figure FDA0003209900110000014
W(I)为线性判别分析的本征图邻接阵,且
Figure FDA0003209900110000015
其中nc为类c中的训练样本数,N0为类数,对于N维列向量ec的任一元素,其对应的训练样本属于类c时该元素为1,否则该元素为0;
设L(P)为谱图学习中惩罚嵌入图对应的拉普拉斯矩阵,L(P)=D(P)-W(P)
其中,N×N对角阵D(P)中第i行j列的元素的形式为
Figure FDA0003209900110000021
其中
Figure FDA0003209900110000022
其中,e为全部元素均为1的N维列向量;局部惩罚权重δ0取值在0至1之间;训练样本标签矩阵
Figure FDA0003209900110000023
运算符
Figure FDA0003209900110000024
表示矩阵间按元素相乘;WkNN表示k近邻图,即:元素(WkNN)ij在样本i、j互为近邻时取为1,否则为0;
(2)嵌入图分解:
选择优化目标为:
Figure FDA0003209900110000025
其中,L(I)和L(P)分别为谱图学习中本征嵌入图和惩罚嵌入图对应的拉普拉斯矩阵;I为N×N的单位阵;γ1>0、γ2>0为防止产生奇异值的附加项权重,γ1、γ2取值小于10-6
该优化形式通过广义特征值问题求解,求解得到d组最优
Figure FDA00032099001100000211
值,经过正交规范化处理后,组成
Figure FDA0003209900110000026
步骤四、通过虚拟坐标及新特征进行回归处理:结合谱图学习生成的虚拟坐标,和样本经过数据映射得到的新特征,进行线性回归运算,投影得到训练样本,线性投影系数为
Figure FDA0003209900110000027
步骤五、训练分类器:选用1NN分类器,直接使用步骤四中得到的
Figure FDA0003209900110000028
与步骤二得到的Ω相乘,得到训练样本的投影特征,组成1NN分类器;
步骤六、测试:对于每个测试样本,使用经步骤五得到的分类器对每个测试样本进行测试;
步骤四中的回归处理具体方法为:
对每一个
Figure FDA0003209900110000029
求解回归优化形式:
Figure FDA00032099001100000210
其中,γ为投影ω的范数最小化优化项权重,
得到维度i对应的最优投影方向:
Figure FDA0003209900110000031
2.根据权利要求1所述的基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:
步骤一中的规整化处理的方法如下:
规整化前的所有语段样本中的任一样本的特征列向量为x(0),其中N个训练样本的特征列向量组成的训练样本集为
Figure FDA0003209900110000032
Figure FDA0003209900110000033
Figure FDA0003209900110000034
的第j个特征元素;
对于任一样本的特征列向量x(0),特征j对应元素
Figure FDA0003209900110000035
的规整化处理的计算公式为:
Figure FDA0003209900110000036
其中
Figure FDA0003209900110000037
表示X(0)第j行中最大的元素,
Figure FDA0003209900110000038
表示X(0)第j行中最小的元素;
Figure FDA0003209900110000039
Figure FDA00032099001100000310
规整化处理后的结果;
将任一样本中的所有的元素按照式(1)进行计算,得到任一训练或测试样本规整化后的特征列向量x=[x·1,x·2,...,x·n]T,其中,属于训练样本集的语段信号样本的规整化后的特征向量组成训练样本的规整化特征向量集X=[x1,x2,...,xN],即
Figure FDA00032099001100000311
3.根据权利要求1所述的基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:
步骤二中进行数据映射时包括顺序执行的以下步骤:
(1)按0-1间均匀分布,生成NA组n维随机向量
Figure FDA00032099001100000312
(2)生成N个训练样本数据映射的NA维新特征
Figure FDA00032099001100000313
其中对于
Figure FDA00032099001100000314
存在:
Figure FDA0003209900110000041
其中t0为Gauss尺度参数,t0取值范围为0.01n至10n。
4.根据权利要求1所述的基于局部惩罚随机谱回归的语音信号情感识别方法,其特征在于:步骤六的测试方法具体包括以下步骤:
(1)对经步骤一得到的经过规整化处理后的每个测试样本的规整化特征向量
Figure FDA0003209900110000042
使用经步骤二生成的同一组随机向量进行数据映射,得到
Figure FDA0003209900110000043
其中K为步骤二中的数据映射方式;使用步骤四中的线性投影系数
Figure FDA0003209900110000044
进而得到
Figure FDA0003209900110000045
经过数据映射和投影的低维样本
Figure FDA0003209900110000046
(2)使用分类器对
Figure FDA0003209900110000047
进行分类,选择1NN分类器进行分类:对于每一个测试样本,在全体训练样本中找到与该测试样本欧式距离最近的训练样本,使用该训练样本对应的情感类别标签作为该测试样本的分类判决结果。
CN201711055574.9A 2017-10-31 2017-10-31 一种基于局部惩罚随机谱回归的语音信号情感识别方法 Active CN107886942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711055574.9A CN107886942B (zh) 2017-10-31 2017-10-31 一种基于局部惩罚随机谱回归的语音信号情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711055574.9A CN107886942B (zh) 2017-10-31 2017-10-31 一种基于局部惩罚随机谱回归的语音信号情感识别方法

Publications (2)

Publication Number Publication Date
CN107886942A CN107886942A (zh) 2018-04-06
CN107886942B true CN107886942B (zh) 2021-09-28

Family

ID=61783548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711055574.9A Active CN107886942B (zh) 2017-10-31 2017-10-31 一种基于局部惩罚随机谱回归的语音信号情感识别方法

Country Status (1)

Country Link
CN (1) CN107886942B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113409821B (zh) * 2021-05-27 2023-04-18 南京邮电大学 一种语音信号未知情绪状态识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102592593A (zh) * 2012-03-31 2012-07-18 山东大学 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统
CN103617618A (zh) * 2013-12-03 2014-03-05 西安电子科技大学 基于特征提取与聚类集成的sar图像分割方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104866871A (zh) * 2015-06-02 2015-08-26 西安电子科技大学 基于投影结构稀疏编码的高光谱图像分类方法
WO2016134782A1 (en) * 2015-02-26 2016-09-01 Longsand Limited Obfuscating training data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6393058B2 (ja) * 2014-03-31 2018-09-19 キヤノン株式会社 情報処理装置、情報処理方法
GB201522819D0 (en) * 2015-12-23 2016-02-03 Apical Ltd Random projection

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201237A (zh) * 2011-05-12 2011-09-28 浙江大学 基于模糊支持向量机的可靠性检测的情感说话人识别方法
CN102592593A (zh) * 2012-03-31 2012-07-18 山东大学 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法
CN102881284A (zh) * 2012-09-03 2013-01-16 江苏大学 非特定人语音情感识别方法及系统
CN103617618A (zh) * 2013-12-03 2014-03-05 西安电子科技大学 基于特征提取与聚类集成的sar图像分割方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
WO2016134782A1 (en) * 2015-02-26 2016-09-01 Longsand Limited Obfuscating training data
CN104866871A (zh) * 2015-06-02 2015-08-26 西安电子科技大学 基于投影结构稀疏编码的高光谱图像分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Spectral Regression: A Unified Approach for Spare Subspae Learning》;Deng Cai et al.;《Seventh IEEE International Conference on Data Mining (ICDM 2007)》;20080312;第73-81页 *
《Speech emotion recognition using semi-supervised discriminant analysis》;Xu Xinzhou et al.;《Journal of Southeast University (English Edition)》;20140331;第30卷(第1期);全文 *
《面向语音情感识别的语谱图特征提取算法》;陶华伟 等;《东南大学学报(自然科学版)》;20150930;第45卷(第5期);全文 *

Also Published As

Publication number Publication date
CN107886942A (zh) 2018-04-06

Similar Documents

Publication Publication Date Title
CN106782602B (zh) 基于深度神经网络的语音情感识别方法
US9368110B1 (en) Method for distinguishing components of an acoustic signal
Feather et al. Metamers of neural networks reveal divergence from human perceptual systems
CN107680600A (zh) 声纹模型训练方法、语音识别方法、装置、设备及介质
CN103854645B (zh) 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN106897685A (zh) 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统
CN109977234A (zh) 一种基于主题关键词过滤的知识图谱补全方法
CN106250855A (zh) 一种基于多核学习的多模态情感识别方法
CN106205609B (zh) 一种基于音频事件和主题模型的音频场景识别方法及其装置
CN112686056B (zh) 一种情感分类方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN108763191A (zh) 一种文本摘要生成方法及系统
CN110222780A (zh) 物体检测方法、装置、设备和存储介质
CN106203483A (zh) 一种基于语义相关多模态映射方法的零样本图像分类方法
CN113112994B (zh) 基于图卷积神经网络的跨语料库情感识别方法
Lian et al. Unsupervised representation learning with future observation prediction for speech emotion recognition
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN109977394A (zh) 文本模型训练方法、文本分析方法、装置、设备及介质
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN109767789A (zh) 一种用于语音情感识别的新特征提取方法
CN109872728A (zh) 基于核典型相关分析的语音和姿态双模态情感识别方法
CN110969073A (zh) 一种基于特征融合与bp神经网络的人脸表情识别方法
CN108154156A (zh) 基于神经主题模型的图像集成分类方法及装置
CN112397092A (zh) 基于领域自适应子空间的无监督跨库语音情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant