CN111048117B - 一种基于目标适应子空间学习的跨库语音情感识别方法 - Google Patents

一种基于目标适应子空间学习的跨库语音情感识别方法 Download PDF

Info

Publication number
CN111048117B
CN111048117B CN201911232409.5A CN201911232409A CN111048117B CN 111048117 B CN111048117 B CN 111048117B CN 201911232409 A CN201911232409 A CN 201911232409A CN 111048117 B CN111048117 B CN 111048117B
Authority
CN
China
Prior art keywords
target
database
matrix
emotion recognition
subspace learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911232409.5A
Other languages
English (en)
Other versions
CN111048117A (zh
Inventor
周晓彦
陈秀珍
张艳艳
徐华南
沈锦叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201911232409.5A priority Critical patent/CN111048117B/zh
Publication of CN111048117A publication Critical patent/CN111048117A/zh
Application granted granted Critical
Publication of CN111048117B publication Critical patent/CN111048117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于目标适应子空间学习的跨库语音情感识别方法。首先,分别提取源数据库和目标数据库中语音样本的特征;其次,采用提取到的特征训练目标适应子空间学习模型,该模型的目标在于寻找一个投影空间使得目标数据库中的语音样本能够被源数据库中的语音样本表示,同时通过学习投影矩阵来预测目标数据库中语音样本的情感种类并减小源域与目标域之间的特征分布差异;最后,对训练好的模型进行测试并得到最终的语音情感识别结果。本发明提出的目标适应子空间学习模型可以有效减小不同数据库之间的特征分布差异。

Description

一种基于目标适应子空间学习的跨库语音情感识别方法
技术领域
本发明属于语音识别领域,特别涉及了一种跨库语音情感识别方法。
背景技术
语音情感识别在娱乐、教育、医疗等领域的应用越来越广泛。比如,在娱乐领域,智能语音助手的出现,使得智能机器的功能得到完善,从而广泛应用;在教育领域,可通过语音中情感的识别来判断学生的上课情况,以此来监测学生的上课热情;在医疗领域,如对于抑郁症患者的治疗,可有效的解决因人力资源缺乏所引起的患者交流困难的问题。
传统的语音情感识别研究都是基于单一的数据库领域的研究,而在实际场景中的语音数据通常由于其采集条件及背景等的不同造成训练数据集和测试数据集之间的差异较大,而跨数据库的语音情感识别更符合实际应用场景中的研究,因此对于跨数据库的语音情感识别研究意义重大。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了一种基于目标适应子空间学习的跨库语音情感识别方法。
为了实现上述技术目的,本发明的技术方案为:
一种基于目标适应子空间学习的跨库语音情感识别方法,首先,分别提取源数据库和目标数据库中语音样本的特征;其次,采用提取到的特征训练目标适应子空间学习模型,该模型的目标在于寻找一个投影空间使得目标数据库中的语音样本能够被源数据库中的语音样本表示,同时通过学习投影矩阵来预测目标数据库中语音样本的情感种类并减小源域与目标域之间的特征分布差异;最后,对训练好的模型进行测试并得到最终的语音情感识别结果。
进一步地,所述目标适应子空间学习模型的目标函数如下:
Figure BDA0002303922130000021
上式中,Ls为标签矩阵,是一个c×M的矩阵,其元素使用二进制值表示,c为情感种类,M为源数据库中语音样本的个数;C为回归系数,是一个d×c的矩阵,d为特征维度,上标T表示转置;Ds为源数据库的特征矩阵;
Figure BDA0002303922130000022
为目标数据库特征矩阵Dt的第i列;Zi为投影矩阵Z的第i列,Z是一个M×N的矩阵,N为目标数据库中语音样本的个数;λ、μ、τ为平衡参数且λ,μ,τ>0;目标函数的第一项为F范数惩罚项,第二项为l2范数惩罚项,第三项为l1范数惩罚项,第四项为l1,2范数惩罚项。
进一步地,所述目标适应子空间学习模型的求解方法如下:
(a)固定Z,更新回归系数C:
Figure BDA0002303922130000023
(b)固定回归系数C,更新Z:
Figure BDA0002303922130000024
上式中,
Figure BDA0002303922130000025
即为目标数据库中语音样本的标签向量,标签向量最大值的所属类别即为最终语音情感识别的类别。
进一步地,在步骤(a)中,采用交替方向迭代法求解回归系数C的更新值。
进一步地,在步骤(b)中,采用Lasso回归法求解Zi的更新值。
采用上述技术方案带来的有益效果:
本发明为满足实际情景中语音情感识别技术的研究并有效减少不同数据库之间数据特征分布与边缘分布的不同,提出一种减小不同数据库之间的特征分布差异的模型,即目标适应子空间学习模型,此模型的主要思想是找到一个投影的子空间使得目标语音样本能够被源语音样本表示,同时通过学习一个回归投影矩阵来预测目标样本的情感种类并减小源域与目标域之间的特征分布的差异,以此来实现跨数据库语音情感的识别。
附图说明
图1是本发明的方法流程图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明设计了一种基于目标适应子空间学习的跨库语音情感识别方法,如图1所示,首先,分别提取源数据库和目标数据库中语音样本的特征;其次,采用提取到的特征训练目标适应子空间学习模型,该模型的目标在于寻找一个投影空间使得目标数据库中的语音样本能够被源数据库中的语音样本表示,同时通过学习投影矩阵来预测目标数据库中语音样本的情感种类并减小源域与目标域之间的特征分布差异;最后,对训练好的模型进行测试并得到最终的语音情感识别结果。
在本实施例中,所述目标适应子空间学习模型的目标函数如下:
Figure BDA0002303922130000031
上式中,Ls为标签矩阵,是一个c×M的矩阵,其元素使用二进制值表示,c为情感种类,M为源数据库中语音样本的个数;C为回归系数,是一个d×c的矩阵,d为特征维度,上标T表示转置;Ds为源数据库的特征矩阵;
Figure BDA0002303922130000032
为目标数据库特征矩阵Dt的第i列;Zi为投影矩阵Z的第i列,Z是一个M×N的矩阵,N为目标数据库中语音样本的个数;λ、μ、τ为平衡参数且λ,μ,τ>0。目标函数的第一项为F范数惩罚项,其主要目的是连接源域标签与特征之间的关系;第二项为l2范数惩罚项,其目的在于连接源域与目标域之间的关系;第三项和第四项是目标函数的正则项,其中第四项使用l2,1范数惩罚项用于特征选择,以此来选取有效的特征。
在本实施例中,求解上述模型,可以分为以下两步:
第1步、固定Z,更新回归系数C:
Figure BDA0002303922130000041
此更新选用交替方向迭代(ADM)法来求得最优化回归系数,为方便求解,可将此目标方程改写为等价的方程:
Figure BDA0002303922130000042
上式中,Q为引入的换算变量,
Figure BDA0002303922130000043
“0”是一个零矩阵,其相应的拉格朗日方程如下:
Figure BDA0002303922130000044
上式中,S和l是拉格朗日乘子,其中l>0,tr为矩阵的迹。
上述方程的求解算法如下:
①固定Z、C、S、l,然后更新Q:
Figure BDA0002303922130000045
②固定Z、Q、S、l,然后更新C:
Figure BDA0002303922130000046
C可由定理求解得到,然后求解可得ci如下:
Figure BDA0002303922130000047
其中,
Figure BDA0002303922130000051
否则向量ci得值为0,si、qi分别是S、Q的第i行。
③更新S和l:
S=S+l(Q-C),l=min(ρl,lmax)
其中,ρ>0为方程的超参,lmax为拉格朗日求解过程中矩阵l的最大值。
④检验收敛条件:
||Q-C||<ε
其中,ε是一个极小的正数,其值趋近于0。
第2步、固定回归系数C,更新Z:
此项更新采用Lasso回归的方法来求解。
首先选取三个公共的数据库作为实验数据库:Berlin数据库,eNTERFACE数据库和AFEW4.0数据库,然后选取其中的音频样本对其分别进行特征提取,使用提取的特征对模型进行训练,然后将训练后的模型进行测试,最后使用此模型对其进行六组对比实验,实验结果表明此模型相比其他方法都可取得有效的结果,最后的实验结果采用UAR作为最终的评价指标。基于此模型,还将其与其他域适应方法及最小二乘回归方法进行对比,最终证明其实验结果的有效性,结果如表1所示(b代表Berlin数据库;e代表eNTERFACE数据库;a代表AFEW4.0数据库;b to e表示源数据库为Berlin数据库,目标数据库为eNTERFACE数据库)。
表1
Figure BDA0002303922130000052
Figure BDA0002303922130000061
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (4)

1.一种基于目标适应子空间学习的跨库语音情感识别方法,其特征在于:首先,分别提取源数据库和目标数据库中语音样本的特征;其次,采用提取到的特征训练目标适应子空间学习模型,该模型的目标在于寻找一个投影空间使得目标数据库中的语音样本能够被源数据库中的语音样本表示,同时通过学习投影矩阵来预测目标数据库中语音样本的情感种类并减小源域与目标域之间的特征分布差异;最后,对训练好的模型进行测试并得到最终的语音情感识别结果;
所述目标适应子空间学习模型的目标函数如下:
Figure FDA0003626861640000011
上式中,Ls为标签矩阵,是一个c×M的矩阵,其元素使用二进制值表示,c为情感种类,M为源数据库中语音样本的个数;C为回归系数,是一个d×c的矩阵,d为特征维度,上标T表示转置;Ds为源数据库的特征矩阵;
Figure FDA0003626861640000012
为目标数据库特征矩阵Dt的第i列;Zi为投影矩阵Z的第i列,Z是一个M×N的矩阵,N为目标数据库中语音样本的个数;λ、μ、τ为平衡参数且λ,μ,τ>0;目标函数的第一项为F范数惩罚项,第二项为l2范数惩罚项,第三项为l1范数惩罚项,第四项为l1,2范数惩罚项。
2.根据权利要求1所述的一种基于目标适应子空间学习的跨库语音情感识别方法,其特征在于:所述目标适应子空间学习模型的求解方法如下:
(a)固定Z,更新回归系数C:
Figure FDA0003626861640000013
(b)固定回归系数C,更新Z:
Figure FDA0003626861640000014
上式中,
Figure FDA0003626861640000015
即为目标数据库中语音样本的标签向量,标签向量最大值的所属类别即为最终语音情感识别的类别。
3.根据权利要求2所述的一种基于目标适应子空间学习的跨库语音情感识别方法,其特征在于:在步骤(a)中,采用交替方向迭代法求解回归系数C的更新值。
4.根据权利要求2所述的一种基于目标适应子空间学习的跨库语音情感识别方法,其特征在于:在步骤(b)中,采用Lasso回归法求解Zi的更新值。
CN201911232409.5A 2019-12-05 2019-12-05 一种基于目标适应子空间学习的跨库语音情感识别方法 Active CN111048117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911232409.5A CN111048117B (zh) 2019-12-05 2019-12-05 一种基于目标适应子空间学习的跨库语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911232409.5A CN111048117B (zh) 2019-12-05 2019-12-05 一种基于目标适应子空间学习的跨库语音情感识别方法

Publications (2)

Publication Number Publication Date
CN111048117A CN111048117A (zh) 2020-04-21
CN111048117B true CN111048117B (zh) 2022-06-17

Family

ID=70234924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911232409.5A Active CN111048117B (zh) 2019-12-05 2019-12-05 一种基于目标适应子空间学习的跨库语音情感识别方法

Country Status (1)

Country Link
CN (1) CN111048117B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111583966B (zh) * 2020-05-06 2022-06-28 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置
CN111695427B (zh) * 2020-05-08 2022-11-15 东南大学 一种基于稀疏共享迁移回归模型的跨库微表情识别方法
CN112397092A (zh) * 2020-11-02 2021-02-23 天津理工大学 基于领域自适应子空间的无监督跨库语音情感识别方法
CN112489689B (zh) * 2020-11-30 2024-04-30 东南大学 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN113077823B (zh) * 2021-03-24 2024-05-03 河南工业大学 一种基于深度自编码器子域自适应跨库语音情感识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080086791A (ko) * 2007-03-23 2008-09-26 엘지전자 주식회사 음성 기반 감정 인식 시스템
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法
CN103632138A (zh) * 2013-11-20 2014-03-12 南京信息工程大学 一种低秩分块稀疏表示的人脸识别方法
CN109409287A (zh) * 2018-10-25 2019-03-01 山东大学 一种由宏表情到微表情的迁移学习方法
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080086791A (ko) * 2007-03-23 2008-09-26 엘지전자 주식회사 음성 기반 감정 인식 시스템
CN103578481A (zh) * 2012-07-24 2014-02-12 东南大学 一种跨语言的语音情感识别方法
CN103632138A (zh) * 2013-11-20 2014-03-12 南京信息工程大学 一种低秩分块稀疏表示的人脸识别方法
CN109409287A (zh) * 2018-10-25 2019-03-01 山东大学 一种由宏表情到微表情的迁移学习方法
CN110390955A (zh) * 2019-07-01 2019-10-29 东南大学 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于子空间学习和特征选择融合的语音情感识别;宋鹏等;《清华大学学报(自然科学版)》;20180314(第04期);全文 *

Also Published As

Publication number Publication date
CN111048117A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN111048117B (zh) 一种基于目标适应子空间学习的跨库语音情感识别方法
CN108010514B (zh) 一种基于深度神经网络的语音分类方法
CN110390955B (zh) 一种基于深度域适应性卷积神经网络的跨库语音情感识别方法
CN110379506B (zh) 针对心电图数据使用二值化神经网络的心律不齐检测方法
CN110111803B (zh) 基于自注意多核最大均值差异的迁移学习语音增强方法
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN108376144B (zh) 基于深度神经网络的场景自动切换的人机多轮对话方法
CN108304489A (zh) 一种基于强化学习网络的目标引导型个性化对话方法与系统
CN111402928B (zh) 基于注意力的语音情绪状态评估方法、装置、介质及设备
CN103514883A (zh) 一种自适应实现男女声切换方法
CN110334243A (zh) 基于多层时序池化的音频表示学习方法
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN111553186A (zh) 一种基于深度长短时记忆网络的电磁信号识别方法
CN110309310A (zh) 基于置信度的知识表示学习方法
Delcroix et al. Few-shot learning of new sound classes for target sound extraction
CN111144443A (zh) 一种基于智能优化算法改进超限学习机解决分类问题的方法
CN110033077A (zh) 神经网络训练方法以及装置
JP7469698B2 (ja) 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム
CN116596031A (zh) 一种去负样本的无监督句子表征学习方法
CN114120367B (zh) 元学习框架下基于圆损失度量的行人重识别方法及系统
CN115221351A (zh) 音频匹配方法、装置、电子设备和计算机可读存储介质
CN107886942B (zh) 一种基于局部惩罚随机谱回归的语音信号情感识别方法
CN110659382B (zh) 基于异构信息网络表示学习技术的混合音乐推荐方法
CN113241092A (zh) 基于双注意力机制和多阶段混合卷积网络声源分离方法
CN108206024B (zh) 一种基于变分高斯回归过程的语音数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant