CN113851149A - 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 - Google Patents

一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 Download PDF

Info

Publication number
CN113851149A
CN113851149A CN202111125101.8A CN202111125101A CN113851149A CN 113851149 A CN113851149 A CN 113851149A CN 202111125101 A CN202111125101 A CN 202111125101A CN 113851149 A CN113851149 A CN 113851149A
Authority
CN
China
Prior art keywords
domain
model
feature
frobenius norm
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111125101.8A
Other languages
English (en)
Inventor
汪洋
庄志豪
耿磊
刘曼
陶华伟
傅洪亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202111125101.8A priority Critical patent/CN113851149A/zh
Publication of CN113851149A publication Critical patent/CN113851149A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法,本发明包括以下步骤:首先,搭建基于对抗神经网络的深度生成网络模型,用来生成高级情感特征;然后,在子域自适应层实现无监督特征迁移;其次,为了提升分类器性能,在输出概率决策边界上使用Frobenius范数最大化来消除模糊预测;最后在训练阶段,根据不同损失函数对模型的贡献度,利用动态权重因子来调整模型优化进度。本发明提出的方法具有良好的鲁棒性,有效减小特征分布差异距离,且模型收敛快。

Description

一种基于对抗迁移和Frobenius范数的跨库语音情感识别 方法
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法。
背景技术
言语是人类表达情感最为自然的方式,近年来,语音情感识别领域得到了越来越广泛的关注,其应用价值也在众多人机交互应用中被证明,例如,心理健康诊断、移动交互、车载安全系统和自动翻译系统。经典语音情感识别系统首先从语音信号中提取语言和声学特征,然后在这些特征上进行分类以预测说话者的情绪。
随着深度学习的迅猛发展,研究人员提出了许多性能优异的语音情感识别方法,然而,大部分算法在开发时没有考虑到训练和测试语言信号来自不同语料库的问题。在这种情况下,训练数据和测试数据之间可能存在较大的特征分布差异,从而导致语音情感识别系统的性能迅速下降。因此,在当前的语音情感识别研究中,如何有效的实现跨库语音情感识别是一个重要且极具挑战性的问题。
迁移学习被提出用于知识迁移,将源域学习到的知识扩展到目标域,以在目标域上获得较好的学习效果,当目标域中无法获得大量带标签的数据来对模型进行训练时,可以通过训练与目标域数据相关的源域数据(带标签)来构建模型,然后采用特征分布对齐等域自适应方法,建立源域和目标域之间的联系,增强模型的泛化性,从而实现跨域语音情感识别。
因此,本发明主要关注如何解决跨库语音情感识别任务中的特征分布差异问题,进一步提高跨库语音情感识别效果,目标域和源域的数据之间存在特征分布差异。因此采用对抗域自适应的方法,减小域间特征分布差异,提出Frobenius范数最大化的方法,在保证预测准确性的前提下增强模型预测的多样性,进一步提高了跨库语音情感识别的性能。
发明内容
为了解决不同语料数据库之间特征分布差异的问题,更好地将带标记源域数据的知识迁移到无标记目标域,实现无标记数据的准确分类,提出了一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法。具体步骤如下:
(1)数据库:选取两个语音情感数据库,并挑选出它们相同情感类别的语音数据,分别作为源域数据库和目标域数据库,对两个语音库的语音信息制作对应的情感数字标签,然后对得到的源域和目标域的语音信号进行预加重、分帧和加窗等处理;
(2)特征提取:对步骤(1)预处理过的语音信号进行声学特征提取,该特征包括但不限于韵律特征、谱相关特征和质量特征;
(3)特征对抗学习:将步骤(2)所提取的情感特征xi输入对抗网络中的生成网络,利用对抗的方式训练域鉴别器和特征生成网络,当域鉴别器无法判断实例来自目标域还是源域时,则可以生成高级情感特征。域鉴别器损失如下:
Figure BDA0003278590230000021
其中,E为交叉熵损失函数,F为特征学习网络,D为域鉴别器,di为域标签。同时使用源域的真实标签Ys与经过softmax分类器预测的源域特征概率
Figure BDA0003278590230000022
作交叉熵运算:
Figure BDA0003278590230000023
(4)特征迁移:为了进一步缓解特征分布差异,学习更多域不变特征,采用局部最大均值差异(local maximum mean discrepancy,LMMD)算法:
Figure BDA0003278590230000024
其中xS和xT分别为步骤(3)中生成网络产生的源域和目标域高级情感特征,H为再生核希尔伯特空间(reproducing kernel hillbert space,RKHS),δ(·)为特征映射函数(高斯核函数)。
Figure BDA0003278590230000025
为源域样本xS中每个样本属于情感类别C的权重,
Figure BDA0003278590230000026
为目标域样本xS中每个样本属于情感类别C的权重;
(5)分类器优化:对步骤(3)中的目标域特征矩阵xT在经过Softmax处理后成为预测概率矩阵Pi,j,对其进行Frobenius范数最大化操作,首先,Frobenius范数最大化可以保证矩阵Pi,j熵最小化,增加模型预测准确性,与此同时,为了弥补因熵最小化法带来的模糊样本误判,计算预测概率矩阵中的每一行与其下方所有行的差值,构造样本间距度量矩阵D,此时,最大化矩阵D的Frobenius范数可以在保证模型预测精度的同时使得预测类别更丰富,保护了决策边界上的模糊样本,过程如下:
Figure BDA0003278590230000031
Figure BDA0003278590230000032
Figure BDA0003278590230000033
其中,Q为batchsize除以分类数j所得的商,R为batchsize除以分类数j所得的余数,D的维度为分类数j列乘以
Figure BDA0003278590230000034
行;
(6)模型训练:根据上述步骤(3)、(4)和(5)得到的4个损失函数,再利用动态权重因子wi来调整不同损失函数对模型优化的贡献,进而得到模型整体的优化目标为:
minLsum=wSLS+wyLy+wLMMDLLMMD-wfLf,w>0 (7)
动态权重因子表示为:
Figure BDA0003278590230000035
其中i∈{S,T,y,LMMD,f};
(7)重复步骤(3)、(4)和(5),通过梯度下降法迭代训练网络模型,不断更新步骤(6)的动态权重因子,直至模型最优;
(8)利用步骤(6)训练好的网络模型,使用sofmatx分类器预测步骤(4)中的目标域特征标签,最终实现语音情感在跨语料库条件下的情感识别。
附图说明
如附图所示,图1为一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法的框架图。
具体实施方式
下面结合具体实施方式对本发明做更进一步的说明。
(1)选择SAVEE语音情感数据库和eNTERFACE数据库分别作为源域和目标域的数据库。
(2)选择上述两个语料库的5类相同情感语音作为数据集。
(3)使用开源工具包Opensmile按照权利要求书1的步骤(3)中提取2009年国际语音情感识别挑战赛的标准特征集,每条语音提取出的特征都为384维。因此SAVEE数据库共有300条语音,数据总量为300*384;eNTERFACE数据库的共有1072条语音,数据总量为1072*384。
(4)使用对抗网络来学习源域和目标域的域不变特征。对于生成网络的隐层数量为3,每层网络由1D-CNN组成,其中每层过滤器数量设置为{50,100,150},另外在每层结构加入BatchNorm层和Dropout层,激活函数使用RELU函数;鉴别器网络使用两层FC结构组成。
(5)在局部最大均值误差中,计算特征权重
Figure BDA0003278590230000041
时,由于目标域特征是没有标签信息的,需要使用softmax计算的概率分布作为目标域的标签,即为伪标签;而源域特征使用的是真实标签。所有的标签信息需要转化成one-hot向量。特征映射函数使用多核高斯函数,高斯核数量设置为5。
(6)将特征生成网络提取到的目标域特征进行Softmax处理后,得到一个批次的预测概率矩阵,对预测概率矩阵P进行Frobenius范数最大化处理,以保证模型的预测准确性,针对这种方法带来的模糊样本误判,使用输出的预测概率矩阵P构造样本间距度量矩阵D,对矩阵D进行Frobenius范数最大化操作,可以有效的增加预测样本的间距,因此在不影响分类性能的前提下,最大化Frobenius范数可以对样本较少的类别起到一定的保护作用。构造Frobenius范数最大化损失函数,可以保证预测多样性,避免模型的预测坍缩到仅有大样本的类别。
(7)结合模型中的源域分类器损失Ly、对抗损失Ladv、特征分布差异损失LLM\D和Frobenius范数最大化损失Lf,对模型进行反向传播训练,迭代优化网络参数,提高跨库语音情感识别性能。
(8)模型的学习率和批处理大小都设置为0.0001和50,使用梯度下降法训练网络模型,模型迭代训练600次,分类器使用softmax。每一轮训练结束时,便会产生一组损失函数值,用于更新动态权重wi,实现损失权重的动态调节。
(9)将待识别的语音信号进行归一化处理,并输入训练好的深度网络模型,使用softmax 分类器输出概率最大的类别即为识别的情感类别。
本发明请求保护的范围并不仅仅局限于本具体实施方式的描述。

Claims (1)

1.一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法,其特征在于,包括以下步骤:
(1)数据库:选取两个语音情感数据库,并挑选出它们相同情感类别的语音数据,分别作为源域数据库和目标域数据库,对两个语音库的语音信息制作对应的情感数字标签,然后对得到的源域和目标域的语音信号进行预加重、分帧和加窗等处理;
(2)特征提取:对步骤(1)预处理过的语音信号进行声学特征提取,该特征包括但不限于韵律特征、谱相关特征和质量特征;
(3)特征对抗学习:将步骤(2)所提取的情感特征xi输入对抗网络中的生成网络,利用对抗的方式训练域鉴别器和特征生成网络,当域鉴别器无法判断实例来自目标域还是源域时,则可以生成高级情感特征;域鉴别器损失如下:
Figure FDA0003278590220000011
其中,E为交叉熵损失函数,F为特征学习网络,D为域鉴别器,di为域标签;同时使用源域的真实标签Ys与经过softmax分类器预测的源域特征概率
Figure FDA0003278590220000012
作交叉熵运算:
Figure FDA0003278590220000013
(4)特征迁移:为了进一步缓解特征分布差异,学习更多域不变特征,采用局部最大均值差异(local maximum mean discrepancy,LMMD)算法:
Figure FDA0003278590220000014
其中xS和xT分别为步骤(3)中生成网络产生的源域和目标域高级情感特征,H为再生核希尔伯特空间(reproducing kernel hillbert space,RKHS),δ(·)为特征映射函数(高斯核函数);
Figure FDA0003278590220000015
为源域样本xS中每个样本属于情感类别C的权重,
Figure FDA0003278590220000016
为目标域样本xS中每个样本属于情感类别C的权重;
(5)分类器优化:对步骤(3)中的目标域特征矩阵xT在经过Softmax处理后成为预测概率矩阵Pi,j,对其进行Frobenius范数最大化操作,首先,Frobenius范数最大化可以保证矩阵Pi,j熵最小化,增加模型预测准确性,与此同时,为了弥补因熵最小化法带来的模糊样本误判,计算预测概率矩阵中的每一行与其下方所有行的差值,构造样本间距度量矩阵D,此时,最大化矩阵D的Frobenius范数可以在保证模型预测精度的同时使得预测类别更丰富,保护了决策边界上的模糊样本,过程如下:
Figure FDA0003278590220000021
Figure FDA0003278590220000022
Figure FDA0003278590220000023
其中,Q为batchsize除以分类数j所得的商,R为batchsize除以分类数j所得的余数,D的维度为分类数j列乘以
Figure FDA0003278590220000024
行;
(6)模型训练:根据上述步骤(3)、(4)和(5)得到的4个损失函数,再利用动态权重因子wi来调整不同损失函数对模型优化的贡献,进而得到模型整体的优化目标为:
min Lsum=wSLS+wyLy+wLMMDLLMMD-wfLf,w>0 (7)
动态权重因子表示为:
Figure FDA0003278590220000025
其中i∈{S,T,y,LMMD,f};
(7)重复步骤(3)、(4)和(5),通过梯度下降法迭代训练网络模型,不断更新步骤(6)的动态权重因子,直至模型最优;
(8)利用步骤(6)训练好的网络模型,使用sofmatx分类器预测步骤(4)中的目标域特征标签,最终实现语音情感在跨语料库条件下的情感识别。
CN202111125101.8A 2021-09-25 2021-09-25 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 Pending CN113851149A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111125101.8A CN113851149A (zh) 2021-09-25 2021-09-25 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111125101.8A CN113851149A (zh) 2021-09-25 2021-09-25 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法

Publications (1)

Publication Number Publication Date
CN113851149A true CN113851149A (zh) 2021-12-28

Family

ID=78979751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111125101.8A Pending CN113851149A (zh) 2021-09-25 2021-09-25 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法

Country Status (1)

Country Link
CN (1) CN113851149A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494220A (zh) * 2023-12-29 2024-02-02 武汉大学 基于模型正交化的深度学习分类模型隐私保护方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117494220A (zh) * 2023-12-29 2024-02-02 武汉大学 基于模型正交化的深度学习分类模型隐私保护方法及系统

Similar Documents

Publication Publication Date Title
CN112364779B (zh) 信号处理与深-浅网络多模型融合的水声目标识别方法
CN106469560B (zh) 一种基于无监督域适应的语音情感识别方法
CN109559736B (zh) 一种基于对抗网络的电影演员自动配音方法
CN111477247B (zh) 基于gan的语音对抗样本生成方法
CN107785015A (zh) 一种语音识别方法及装置
CN110853680A (zh) 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN110853668B (zh) 基于多种特征融合的语音篡改检测方法
CN112820301B (zh) 一种融合分布对齐和对抗学习的无监督跨域声纹识别方法
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN112861945B (zh) 一种多模态融合谎言检测方法
Ma et al. Continual learning for fake audio detection
CN114139676A (zh) 领域自适应神经网络的训练方法
CN111506728B (zh) 基于hd-mscnn的层次结构文本自动分类方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN106897667A (zh) 一种人脸检索方法和系统
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN112765315A (zh) 一种法律场景智能分类系统和方法
CN113901448A (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN115984213A (zh) 基于深度聚类的工业产品外观缺陷检测方法
CN113851149A (zh) 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法
CN113628640A (zh) 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
CN112634947B (zh) 一种动物声音情感特征集合排序识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211228