CN110120231B - 基于自适应半监督非负矩阵分解的跨语料情感识别方法 - Google Patents

基于自适应半监督非负矩阵分解的跨语料情感识别方法 Download PDF

Info

Publication number
CN110120231B
CN110120231B CN201910408086.4A CN201910408086A CN110120231B CN 110120231 B CN110120231 B CN 110120231B CN 201910408086 A CN201910408086 A CN 201910408086A CN 110120231 B CN110120231 B CN 110120231B
Authority
CN
China
Prior art keywords
matrix
vector
samples
sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910408086.4A
Other languages
English (en)
Other versions
CN110120231A (zh
Inventor
韩纪庆
罗辉
郑铁然
郑贵滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201910408086.4A priority Critical patent/CN110120231B/zh
Publication of CN110120231A publication Critical patent/CN110120231A/zh
Application granted granted Critical
Publication of CN110120231B publication Critical patent/CN110120231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)

Abstract

基于自适应半监督非负矩阵分解的跨语料情感识别方法,它属于语音中的情感识别技术领域。本发明解决了话者语音不匹配现象导致的现有跨语料语音情感识别方法对情感识别的准确率低的问题。本发明通过特征空间与标签空间共享编码信息的方式,可以学习到更具判别性的语音情感特征表示,同时采用最大平均差异来度量特征表示中存在的差异,减少话者语音的不匹配,并根据流形一致性假设,使得新的特征表示尽可能保留原始特征空间的信息,增强了语音情感特征表示的健壮性。本发明在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74%,加权平均召回率达到43.84%,有效提高了跨语料语音情感识别的准确率。本发明可以应用于语音中的情感识别技术领域。

Description

基于自适应半监督非负矩阵分解的跨语料情感识别方法
技术领域
本发明属于语音中的情感识别技术领域,具体涉及一种跨语料情感识别方法。
背景技术
语音是人类交流感情、传递信息的重要媒介。自动语音情感识别是利用计算机来模拟人类通过聆听语音去捕捉对方情感状态的过程。由于存在许多潜在的应用,如交互式机器人助理、呼叫中心服务等,自动语音情感识别在最近几年越来越受到人们的重视。
跨语料语音情感识别是自动语音情感识别中一个重要而又极具挑战的分支,其目的是为了解决由于话者语音中存在如语言、环境等的不匹配,而造成情感识别系统的性能下降的问题。一方面,由于人类自身具备从不同声音源来捕捉情感状态的能力,这给自动语音情感识别系统带来了更高的要求。另一方面,不匹配的语音会产生具有不同分布的语音样本,这是造成传统识别系统性能下降的主要原因。因此,如何增加情感识别系统对分布差异的鲁棒性来降低话者语音不匹配的影响,就成为一个既迫切又具有挑战性的研究内容。
目前,跨语料语音情感识别的方法主要有两种:一是与识别任务相互独立的预处理方法,二是与识别任务相关联的嵌入式方法。预处理方法又可以分为两类:一类是基于归一化的方法,即采用各种各样的归一化方法来消除语音中与情感识别无关的信息,另一类是基于特征提取的方法,即利用非负矩阵分解、自编码机等技术来为不同分布的语音学习一个公共的特征表示。嵌入式方法一般根据带标签的训练语料来显式地学习一个分类器,同时采用不同的正则化技术来防止学到的分类器在不同分布的数据上出现过拟合。
虽然目前的跨语料语音情感识别方法取得了一定的成就,但是,话者语音不匹配现象仍然会导致现有的语音情感识别方法对跨语料情感识别的准确率较低。
发明内容
本发明的目的是为解决话者语音不匹配现象导致的现有语音情感识别方法对跨语料情感识别的准确率低的问题。
本发明为解决上述技术问题采取的技术方案是:基于自适应半监督非负矩阵分解的跨语料情感识别方法,该方法包括以下步骤:
步骤一、将已知标签的情感语音信号数据作为训练集
Figure BDA0002061901420000011
将待识别的情感语音信号数据作为测试集
Figure BDA0002061901420000012
且训练集
Figure BDA0002061901420000013
和测试集
Figure BDA0002061901420000014
分别来自不同的语料库,训练集
Figure BDA0002061901420000015
和测试集
Figure BDA0002061901420000021
中的样本数分别为n和m;
分别对训练集
Figure BDA0002061901420000022
和测试集
Figure BDA0002061901420000023
中的每个样本进行超音段特征提取,获得训练集
Figure BDA0002061901420000024
对应的特征矩阵
Figure BDA0002061901420000025
以及测试集
Figure BDA0002061901420000026
对应的特征矩阵
Figure BDA0002061901420000027
其中:
Figure BDA0002061901420000028
Figure BDA0002061901420000029
分别代表训练集中的第1个、第2个和第n个样本的特征向量,
Figure BDA00020619014200000210
Figure BDA00020619014200000211
分别代表测试集中的第1个、第2个和第m个样本的特征向量;
步骤二、对训练集
Figure BDA00020619014200000212
对应的特征矩阵Xs以及测试集
Figure BDA00020619014200000213
对应的特征矩阵Xt进行预处理,获得训练集
Figure BDA00020619014200000214
对应的新特征矩阵
Figure BDA00020619014200000215
以及测试集
Figure BDA00020619014200000216
对应的新特征矩阵
Figure BDA00020619014200000217
步骤三、利用训练集
Figure BDA00020619014200000218
对应的新特征矩阵
Figure BDA00020619014200000219
以及新特征矩阵
Figure BDA00020619014200000220
对应的标签矩阵Ys训练分类器f(w,X),使Ys
Figure BDA00020619014200000221
满足关系式
Figure BDA00020619014200000222
获得分类器的参数
Figure BDA00020619014200000223
再将测试集
Figure BDA00020619014200000224
对应的新特征矩阵
Figure BDA00020619014200000225
输入分类器
Figure BDA00020619014200000226
获得对新特征矩阵
Figure BDA00020619014200000227
的初始分类结果
Figure BDA00020619014200000228
步骤四、通过求解非负约束优化问题,获得
Figure BDA00020619014200000229
在基矩阵U上的编码矩阵Vs以及
Figure BDA00020619014200000230
在基矩阵U上的编码矩阵Vt
步骤五、利用步骤四获得的矩阵Vs训练分类器f(w,V),使其满足Ys=f(w′,Vs),得到分类器参数w′;再将步骤四获得的矩阵Vt输入分类器f(w′,V)得到最终的分类结果Yt=f(w′,Vt)。
本发明的有益效果是:本发明提出了一种基于自适应半监督非负矩阵分解的跨语料情感识别方法,通过特征空间与标签空间共享编码信息的方式,可以学习到更具判别性的语音情感特征表示,同时采用最大平均差异来度量特征表示中存在的差异,减少话者语音的不匹配,并根据流形一致性假设,使得新的特征表示尽可能地保留原始特征空间的信息,增强了语音情感特征表示的健壮性,从而有效地提高跨语料情感识别性能。
与目前主流的预处理方法和嵌入式方法相比,本发明的方法在四组跨语料语音情感识别任务中的未加权平均召回率达到43.74%,加权平均召回率达到43.84%,远高于现有的其他方法,有效提高了跨语料语音情感识别的准确率。
附图说明
图1是本发明的流程图;
图2是本发明的自适应半监督非负矩阵分解方法的原理图;
其中:U和H分别表示样本空间和标签空间的基矩阵,Vs和Vt分别表示Xs和Xt的编码矩阵;
图3是本发明方法在任务e2E上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图;
其中:SATNMF表示本发明的方法,SNMF、SNMF-γ和STNMF-λ分别表示本发明在参数α=γ=λ=0、α=λ=0和α=0时的特例;
图4是本发明方法在任务E2B上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图;
图5是本发明方法在任务B2C上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图;
图6是本发明方法在任务C2e上的未加权平均召回率(UAR)和加权平均召回率(WAR)的柱形图。
具体实施方式
具体实施方式一:如图1所示,本实施方式所述的基于自适应半监督非负矩阵分解的跨语料情感识别方法,该方法包括以下步骤:
步骤一、将已知标签的情感语音信号数据作为训练集
Figure BDA0002061901420000031
将待识别的情感语音信号数据作为测试集
Figure BDA0002061901420000032
且训练集
Figure BDA0002061901420000033
和测试集
Figure BDA0002061901420000034
分别来自不同的语料库,训练集
Figure BDA0002061901420000035
和测试集
Figure BDA0002061901420000036
中的样本数分别为n和m;
分别对训练集
Figure BDA0002061901420000037
和测试集
Figure BDA0002061901420000038
中的每个样本进行超音段(supra-segmental)特征提取,获得训练集
Figure BDA0002061901420000039
对应的特征矩阵
Figure BDA00020619014200000310
以及测试集
Figure BDA00020619014200000311
对应的特征矩阵
Figure BDA00020619014200000312
其中:
Figure BDA00020619014200000313
Figure BDA00020619014200000314
分别代表训练集中的第1个、第2个和第n个样本的特征向量,
Figure BDA00020619014200000315
Figure BDA00020619014200000316
分别代表测试集中的第1个、第2个和第m个样本的特征向量;
Figure BDA00020619014200000317
as(p)为训练集中的任一样本,at(q)为测试集中的任一样本,p和q是时间索引,p=1,2,...,P,q=1,2,...,Q,P表示样本as(p)的帧数,Q表示样本at(q)的帧数;
步骤二、对训练集
Figure BDA0002061901420000041
对应的特征矩阵Xs以及测试集
Figure BDA0002061901420000042
对应的特征矩阵Xt进行预处理,获得训练集
Figure BDA0002061901420000043
对应的新特征矩阵
Figure BDA0002061901420000044
以及测试集
Figure BDA0002061901420000045
对应的新特征矩阵
Figure BDA0002061901420000046
步骤三、利用训练集
Figure BDA0002061901420000047
对应的新特征矩阵
Figure BDA0002061901420000048
以及新特征矩阵
Figure BDA0002061901420000049
对应的标签矩阵Ys训练分类器f(w,X),使Ys
Figure BDA00020619014200000410
满足关系式
Figure BDA00020619014200000411
获得分类器的参数w*
再将测试集
Figure BDA00020619014200000412
对应的新特征矩阵
Figure BDA00020619014200000413
输入分类器f(w*,X),获得对新特征矩阵
Figure BDA00020619014200000414
的初始分类结果
Figure BDA00020619014200000415
后续步骤将会使用这一初始分类结果来估计不同数据集的条件分布之间的差异;
步骤四、通过求解非负约束优化问题,获得
Figure BDA00020619014200000416
在基矩阵U上的编码矩阵Vs以及
Figure BDA00020619014200000417
在基矩阵U上的编码矩阵Vt
步骤五、利用步骤四获得的矩阵Vs训练分类器f(w,V),使其满足Ys=f(w′,Vs),得到分类器参数w′;再将步骤四获得的矩阵Vt输入分类器f(w′,V)得到最终的分类结果Yt=f(w′,Vt)。
本发明提供一种融合标签信息的预处理方法,与传统预处理方法相比,本发明借鉴了嵌入式方法的优势,利用已知的标签信息来帮助改善预处理方法的识别性能,为解决语音情感识别中由于话者语音的不匹配而造成的识别性能下降的问题提供了新的方法。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述对训练集
Figure BDA00020619014200000418
对应的特征矩阵Xs以及测试集
Figure BDA00020619014200000419
对应的特征矩阵Xt进行预处理是指将特征矩阵Xs以及特征矩阵Xt中每个样本的特征向量均线性缩放至[0,1]区间内。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述训练集
Figure BDA00020619014200000420
对应的新特征矩阵
Figure BDA00020619014200000421
以及测试集
Figure BDA00020619014200000422
对应的新特征矩阵
Figure BDA00020619014200000423
的具体形式分别为:
训练集
Figure BDA00020619014200000424
对应的新特征矩阵为
Figure BDA00020619014200000425
其中:
Figure BDA00020619014200000426
为训练集中的第1个样本对应的预处理后特征向量,
Figure BDA00020619014200000427
为训练集中的第2个样本对应的预处理后特征向量,
Figure BDA00020619014200000428
为训练集中的第n个样本对应的预处理后特征向量;
测试集
Figure BDA00020619014200000429
对应的新特征矩阵为
Figure BDA00020619014200000430
其中:
Figure BDA0002061901420000051
为测试集中的第1个样本对应的预处理后特征向量,
Figure BDA0002061901420000052
为测试集中的第2个样本对应的预处理后特征向量,
Figure BDA0002061901420000053
为测试集中的第m个样本对应的预处理后特征向量。
具体实施方式四:如图2所示,本实施方式与具体实施方式三不同的是:所述步骤四的具体过程为:
步骤四一、建立非负约束优化问题的表达式如公式(1)所示:
Figure BDA0002061901420000054
非负矩阵分解体现在公式(1)的第一项和约束条件上,半监督体现在公式(1)的第二、三项上,自适应体现在公式(1)的第四项上;
其中,中间变量矩阵
Figure BDA0002061901420000055
中间变量矩阵V=[Vs,Vt],VT代表V的转置;中间变量矩阵Y=[Ys,Yt],Yt是未知标签矩阵,H表示与Y对应的基矩阵;操作符||·||F表示F范数(Frobenius范数);ο为矩阵的点乘运算符;Tr(·)表示矩阵的求迹运算符;参数β、λ和γ均为惩罚因子,它们分别权衡各自对应项的相对贡献,值越大表示越大的正则化;
权值矩阵E=[eij],权值矩阵E中第i行第j列的元素eij的定义为:
Figure BDA0002061901420000056
其中,yij是Y中第i行第j列的元素;权值矩阵E用来过滤未知标签Yt,从而消除其对模型的影响;
Figure BDA0002061901420000057
其中:M0用于刻画训练集与测试集的边缘分布之间的差异,Mk用于刻画训练集与测试集的条件分布之间的差异,M用于刻画训练集与测试集的联合分布之间的差异;k=1,2,…,c,c代表类别的个数;参数α表示惩罚因子,用来权衡条件分布差异项的相对贡献;
Mk中第i′行第j′列的元素(Mk)i′j′的计算公式如下:
Figure BDA0002061901420000061
式中:
Figure BDA0002061901420000062
表示训练集中属于类别k的样本集合,nk表示集合
Figure BDA0002061901420000063
中的样本个数;
根据步骤三的
Figure BDA0002061901420000064
获得测试集中属于伪类别k的样本集合
Figure BDA0002061901420000065
步骤三获得的
Figure BDA0002061901420000066
只是初始分类结果,即
Figure BDA0002061901420000067
是一个不精确的类别标签,因此根据
Figure BDA0002061901420000068
获得的测试集中属于类别k的样本也是不精确的,所以称之为属于伪类别k的样本,mk表示集合
Figure BDA0002061901420000069
中的样本个数,向量vi′是中间变量矩阵V的第i′列,对应着数据集(数据集由训练集和测试集组成,数据集中样本顺序依次为训练集的第1个样本,训练集的第2个样本,…,训练集的第n个样本,测试集的第1个样本,测试集的第2个样本,…,测试集的第m个样本)中的第i个样本的特征表示,数据集中的第i个样本是指在数据集中,从训练集的第1个样本开始计数的第i个样本,向量vj′是中间变量矩阵V的第j′列,
Figure BDA00020619014200000610
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure BDA00020619014200000611
中;
同理,
Figure BDA00020619014200000612
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure BDA00020619014200000613
中;
Figure BDA00020619014200000614
表示向量vi′对应的样本位于集合
Figure BDA00020619014200000615
中,且向量vj′对应的样本都位于集合
Figure BDA00020619014200000616
中;
Figure BDA00020619014200000617
表示向量vi′对应的样本位于集合
Figure BDA00020619014200000618
中,且向量vj′对应的样本都位于集合
Figure BDA00020619014200000619
中;
M0中第i′行第j′列的元素(M0)i′j′的计算公式如下:
Figure BDA0002061901420000071
Figure BDA0002061901420000072
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure BDA0002061901420000073
中;
Figure BDA0002061901420000074
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure BDA0002061901420000075
中;
Figure BDA0002061901420000076
表示向量vi′对应的样本位于集合
Figure BDA0002061901420000077
中,且向量vj′对应的样本都位于集合
Figure BDA0002061901420000078
中;
Figure BDA0002061901420000079
表示向量vi′对应的样本位于集合
Figure BDA00020619014200000710
中,且向量vj′对应的样本都位于集合
Figure BDA00020619014200000711
中;
L=D-W,L表示相似度矩阵W=[wi″j″]对应的拉普拉斯矩阵,度矩阵D为对角矩阵;
利用高斯核函数定义相似度矩阵W中第i″行第j″列的元素wi″j″的计算公式如下:W构建在全部数据集上,
Figure BDA00020619014200000712
其中,xi″是中间变量矩阵V的第i″列对应的样本,xj″是中间变量矩阵V的第j″列对应的样本,
Figure BDA00020619014200000713
表示样本xi″的k0近邻集合(即
Figure BDA00020619014200000714
表示在数据集中与xi″最近的k0个样本组成的集合),
Figure BDA00020619014200000715
表示样本xj″的k0近邻集合,参数k0表示近邻的个数,σ表示高斯核的宽度,它们的取值范围分别是{1,3,5,8,10,15}和[0.01,100];操作符||·||2表示2范数,e表示自然常数;
度矩阵D中第i″个对角元素
Figure BDA00020619014200000716
步骤四二、初始化矩阵U、H和V为任意非负矩阵;
步骤四三、利用公式
Figure BDA0002061901420000081
更新矩阵U中第
Figure BDA0002061901420000082
行第
Figure BDA0002061901420000083
列的元素
Figure BDA00020619014200000822
利用公式
Figure BDA0002061901420000084
更新矩阵H中第
Figure BDA0002061901420000085
行第
Figure BDA0002061901420000086
列的元素
Figure BDA0002061901420000087
利用公式
Figure BDA0002061901420000088
更新矩阵V中第
Figure BDA0002061901420000089
行第
Figure BDA00020619014200000810
列的元素
Figure BDA00020619014200000811
其中,M+和M-分别是M的正项和负项;
Figure BDA00020619014200000812
代表矩阵
Figure BDA00020619014200000813
的索引;
对于第一次迭代,公式右端的
Figure BDA00020619014200000814
以及
Figure BDA00020619014200000815
分别是初始化矩阵U、H以及V中的元素值,公式右端的U、H以及V分别是初始化的矩阵U、H以及V;
步骤四四、重复步骤四三的过程,对于当前次迭代更新过程,公式右端的
Figure BDA00020619014200000816
以及
Figure BDA00020619014200000817
利用的是当前次的前一次迭代得到的值,公式右端的U、H以及V是由当前次的前一次迭代得到的
Figure BDA00020619014200000818
以及
Figure BDA00020619014200000823
组成的,直至前后两次迭代得到的
Figure BDA00020619014200000819
以及
Figure BDA00020619014200000820
保证非负约束优化问题目标函数值的相对改变量小于阈值10-5时,输出后一次迭代获得的矩阵V=[Vs,Vt]。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述参数β、λ、γ和α的取值范围均为[0.001,1000]。
为了验证本发明的有效性,采用线性支持向量机(Linear SVM)作为分类器,在四个公共的语音情感语料库上进行了四组跨语料语音情感识别任务(e2E、E2B、B2C和C2e,四组任务是基于四个公共语音情感数据集),并与五个经典的预处理方法(mSDA、TNMF和FSTSL)和嵌入式方法(DBN和DoSL)进行了性能对比,结果如表1和表2所示。其中,分别采用未加权平均召回率(UAR,unweighted average recall)和加权平均召回率(WAR,weightedaverage recall)作为识别性能的评价指标。显见,本发明提出的方法在四组跨语料语音情感识别任务上的整体表现最佳。
表1不同方法在四组跨语料语音情感识别任务上的UAR(%)对比
Figure BDA00020619014200000821
Figure BDA0002061901420000091
表2不同方法在四组跨语料语音情感识别任务上的WAR(%)对比
实验方案 mSDA TNMF FSTSL DBN DoSL 本发明
e2E 39.31 41.49 42.10 37.14 37.98 43.22
E2B 33.22 57.11 58.59 45.61 37.64 53.84
B2C 34.20 38.88 26.80 32.60 40.50 42.30
C2e 28.89 33.07 29.94 31.57 30.33 34.00
平均性能 33.91 42.64 39.36 36.73 36.61 43.84
因此,实验充分证实了本发明所提出方法的有效性。
如图3至图6所示,本发明引入的正则项在一定程度上改善了跨预料语音情感识别的性能。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (2)

1.基于自适应半监督非负矩阵分解的跨语料情感识别方法,其特征在于,该方法包括以下步骤:
步骤一、将已知标签的情感语音信号数据作为训练集
Figure FDA0002873351930000011
将待识别的情感语音信号数据作为测试集
Figure FDA0002873351930000012
且训练集
Figure FDA0002873351930000013
和测试集
Figure FDA0002873351930000014
分别来自不同的语料库,训练集
Figure FDA0002873351930000015
和测试集
Figure FDA0002873351930000016
中的样本数分别为n和m;
分别对训练集
Figure FDA0002873351930000017
和测试集
Figure FDA0002873351930000018
中的每个样本进行超音段特征提取,获得训练集
Figure FDA0002873351930000019
对应的特征矩阵
Figure FDA00028733519300000110
以及测试集
Figure FDA00028733519300000111
对应的特征矩阵
Figure FDA00028733519300000112
其中:
Figure FDA00028733519300000113
Figure FDA00028733519300000114
Figure FDA00028733519300000115
分别代表训练集中的第1个、第2个和第n个样本的特征向量,
Figure FDA00028733519300000116
Figure FDA00028733519300000117
分别代表测试集中的第1个、第2个和第m个样本的特征向量;
步骤二、对训练集
Figure FDA00028733519300000118
对应的特征矩阵Xs以及测试集
Figure FDA00028733519300000119
对应的特征矩阵Xt进行预处理,获得训练集
Figure FDA00028733519300000120
对应的新特征矩阵
Figure FDA00028733519300000121
以及测试集
Figure FDA00028733519300000122
对应的新特征矩阵
Figure FDA00028733519300000123
所述对训练集
Figure FDA00028733519300000124
对应的特征矩阵Xs以及测试集
Figure FDA00028733519300000125
对应的特征矩阵Xt进行预处理是指将特征矩阵Xs以及特征矩阵Xt中每个样本的特征向量均线性缩放至[0,1]区间内;
所述训练集
Figure FDA00028733519300000126
对应的新特征矩阵
Figure FDA00028733519300000127
以及测试集
Figure FDA00028733519300000128
对应的新特征矩阵
Figure FDA00028733519300000129
的具体形式分别为:
训练集
Figure FDA00028733519300000130
对应的新特征矩阵为
Figure FDA00028733519300000131
其中:
Figure FDA00028733519300000132
为训练集中的第1个样本对应的预处理后特征向量,
Figure FDA00028733519300000133
为训练集中的第2个样本对应的预处理后特征向量,
Figure FDA00028733519300000134
为训练集中的第n个样本对应的预处理后特征向量;
测试集
Figure FDA00028733519300000135
对应的新特征矩阵为
Figure FDA00028733519300000136
其中:
Figure FDA00028733519300000137
为测试集中的第1个样本对应的预处理后特征向量,
Figure FDA00028733519300000138
为测试集中的第2个样本对应的预处理后特征向量,
Figure FDA00028733519300000139
为测试集中的第m个样本对应的预处理后特征向量;
步骤三、利用训练集
Figure FDA00028733519300000140
对应的新特征矩阵
Figure FDA00028733519300000141
以及新特征矩阵
Figure FDA00028733519300000142
对应的标签矩阵Ys训练分类器f(w,X),使Ys
Figure FDA00028733519300000143
满足关系式
Figure FDA00028733519300000144
获得分类器的参数w*
再将测试集
Figure FDA00028733519300000145
对应的新特征矩阵
Figure FDA00028733519300000146
输入分类器f(w*,X),获得新特征矩阵
Figure FDA00028733519300000147
的初始分类结果
Figure FDA0002873351930000021
步骤四、通过求解非负约束优化问题,获得
Figure FDA0002873351930000022
在基矩阵U上的编码矩阵Vs以及
Figure FDA0002873351930000023
在基矩阵U上的编码矩阵Vt
所述步骤四的具体过程为:
步骤四一、建立非负约束优化问题的表达式如公式(1)所示:
Figure FDA0002873351930000024
其中,中间变量矩阵
Figure FDA0002873351930000025
中间变量矩阵V=[Vs,Vt],VT代表V的转置;中间变量矩阵Y=[Ys,Yt],Yt是未知标签矩阵,H表示与Y对应的基矩阵;操作符||·||F表示F范数;
Figure FDA0002873351930000026
为矩阵的点乘运算符;Tr(·)表示矩阵的求迹运算符;参数β、λ和γ均为惩罚因子,U为基矩阵,L表示相似度矩阵W对应的拉普拉斯矩阵;
权值矩阵E=[eij],权值矩阵E中第i行第j列的元素eij的定义为:
Figure FDA0002873351930000027
其中,yij是Y中第i行第j列的元素;
Figure FDA0002873351930000028
其中:M0用于刻画训练集与测试集的边缘分布之间的差异,Mk用于刻画训练集与测试集的条件分布之间的差异,M用于刻画训练集与测试集的联合分布之间的差异;k=1,2,…,c,c代表类别的个数;参数α表示惩罚因子;
Mk中第i′行第j′列的元素(Mk)i′j′的计算公式如下:
Figure FDA0002873351930000031
式中:
Figure FDA0002873351930000032
表示训练集中属于类别k的样本集合,nk表示集合
Figure FDA0002873351930000033
中的样本个数;
根据步骤三的
Figure FDA0002873351930000034
获得测试集中属于伪类别k的样本集合
Figure FDA0002873351930000035
mk表示集合
Figure FDA0002873351930000036
中的样本个数,向量vi′是中间变量矩阵V的第i′列,向量vj′是中间变量矩阵V的第j′列,
Figure FDA0002873351930000037
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure FDA0002873351930000038
中;
同理,
Figure FDA0002873351930000039
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure FDA00028733519300000310
中;
Figure FDA00028733519300000311
表示向量vi′对应的样本位于集合
Figure FDA00028733519300000312
中,且向量vj′对应的样本位于集合
Figure FDA00028733519300000313
中;
Figure FDA00028733519300000314
表示向量vi′对应的样本位于集合
Figure FDA00028733519300000315
中,且向量vj′对应的样本位于集合
Figure FDA00028733519300000316
中;
M0中第i′行第j′列的元素(M0)i′j′的计算公式如下:
Figure FDA00028733519300000317
Figure FDA00028733519300000318
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure FDA00028733519300000319
中;
Figure FDA00028733519300000320
表示向量vi′对应的样本和向量vj′对应的样本都位于集合
Figure FDA00028733519300000321
中;
Figure FDA00028733519300000322
表示向量vi′对应的样本位于集合
Figure FDA00028733519300000323
中,且向量vj′对应的样本位于集合
Figure FDA00028733519300000324
中;
Figure FDA00028733519300000325
表示向量vi′对应的样本位于集合
Figure FDA00028733519300000326
中,且向量vj′对应的样本位于集合
Figure FDA00028733519300000327
中;n表示集合
Figure FDA00028733519300000328
中的样本个数,m表示集合
Figure FDA00028733519300000329
中的样本个数;
L=D-W,L表示相似度矩阵W=[wi″j″]对应的拉普拉斯矩阵,度矩阵D为对角矩阵;
利用高斯核函数定义相似度矩阵W中第i″行第j″列的元素wi″j″的计算公式如下:
Figure FDA0002873351930000041
其中,xi″是中间变量矩阵V的第i″列对应的样本,xj″是中间变量矩阵V的第j″列对应的样本,
Figure FDA0002873351930000042
表示样本xi″的k0近邻集合,
Figure FDA0002873351930000043
表示样本xj″的k0近邻集合,参数k0表示近邻的个数,σ表示高斯核的宽度,操作符||·||2表示2范数,e表示自然常数;
度矩阵D中第i″个对角元素
Figure FDA0002873351930000044
步骤四二、初始化矩阵U、H和V为任意非负矩阵;
步骤四三、利用公式
Figure FDA0002873351930000045
更新矩阵U中第
Figure FDA0002873351930000046
行第
Figure FDA0002873351930000047
列的元素
Figure FDA0002873351930000048
利用公式
Figure FDA0002873351930000049
更新矩阵H中第
Figure FDA00028733519300000410
行第
Figure FDA00028733519300000411
列的元素
Figure FDA00028733519300000412
利用公式
Figure FDA00028733519300000413
更新矩阵V中第
Figure FDA00028733519300000414
行第
Figure FDA00028733519300000415
列的元素
Figure FDA00028733519300000416
其中,M+和M-分别是M的正项和负项;
Figure FDA00028733519300000417
代表矩阵
Figure FDA00028733519300000418
的索引;
步骤四四、重复步骤四三的过程,直至前后两次迭代得到的
Figure FDA00028733519300000419
以及
Figure FDA00028733519300000420
保证非负约束优化问题目标函数值的相对改变量小于阈值10-5时,输出后一次迭代获得的矩阵V=[Vs,Vt];
步骤五、利用步骤四获得的矩阵Vs训练分类器f(w,V),使其满足Ys=f(w′,Vs),得到分类器参数w′;再将步骤四获得的矩阵Vt输入分类器f(w′,V)得到最终的分类结果Yt=f(w′,Vt)。
2.根据权利要求1所述的基于自适应半监督非负矩阵分解的跨语料情感识别方法,其特征在于,所述参数β、λ、γ和α的取值范围均为[0.001,1000]。
CN201910408086.4A 2019-05-15 2019-05-15 基于自适应半监督非负矩阵分解的跨语料情感识别方法 Active CN110120231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910408086.4A CN110120231B (zh) 2019-05-15 2019-05-15 基于自适应半监督非负矩阵分解的跨语料情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910408086.4A CN110120231B (zh) 2019-05-15 2019-05-15 基于自适应半监督非负矩阵分解的跨语料情感识别方法

Publications (2)

Publication Number Publication Date
CN110120231A CN110120231A (zh) 2019-08-13
CN110120231B true CN110120231B (zh) 2021-04-02

Family

ID=67522677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910408086.4A Active CN110120231B (zh) 2019-05-15 2019-05-15 基于自适应半监督非负矩阵分解的跨语料情感识别方法

Country Status (1)

Country Link
CN (1) CN110120231B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429946A (zh) * 2020-03-03 2020-07-17 深圳壹账通智能科技有限公司 语音情绪识别方法、装置、介质及电子设备
CN111583966B (zh) * 2020-05-06 2022-06-28 东南大学 基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置
CN114201605B (zh) * 2021-11-23 2024-07-19 上海大学 一种基于联合属性建模的图像情感分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544963A (zh) * 2013-11-07 2014-01-29 东南大学 一种基于核半监督判别分析的语音情感识别方法
CN103854645A (zh) * 2014-03-05 2014-06-11 东南大学 一种基于说话人惩罚的独立于说话人语音情感识别方法
CN104008754A (zh) * 2014-05-21 2014-08-27 华南理工大学 一种基于半监督特征选择的语音情感识别方法
CN104835508A (zh) * 2015-04-01 2015-08-12 哈尔滨工业大学 一种用于混合语音情感识别的语音特征筛选方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adaptation Regularization: A General;Mingsheng Long等;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20140530;第1076-1086页 *
cross-corpus speech emotion recognition based on transfer non-negative matrix factorization;Peng Song等;《speech communication》;20161130;第34-41页、表2-5 *
Semi-Supervised Nonnegative Matrix Factorization;Hyekyoung Lee等;《IEEE SIGNAL PROCESSING LETTERS,》;20100130;第1-4页 *

Also Published As

Publication number Publication date
CN110120231A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110120231B (zh) 基于自适应半监督非负矩阵分解的跨语料情感识别方法
CN112613308A (zh) 用户意图识别方法、装置、终端设备及存储介质
CN111125358A (zh) 一种基于超图的文本分类方法
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
CN111881671B (zh) 一种属性词提取方法
CN113257230B (zh) 语音处理方法及装置、计算机可存储介质
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN110751038A (zh) 一种基于图注意力机制的pdf表格结构识别方法
CN109003625A (zh) 基于三元损失的语音情感识别方法及系统
CN107203600B (zh) 一种利用刻画因果依赖关系和时序影响机制增强答案质量排序的评判方法
CN109977199A (zh) 一种基于注意力池化机制的阅读理解方法
CN110210347B (zh) 一种基于深度学习的彩色套层剪纸智能设计方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN115147607A (zh) 一种基于凸优化理论的抗噪声零样本图像分类方法
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN114863938A (zh) 一种基于注意力残差和特征融合的鸟语识别方法和系统
CN114694255B (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN113435192A (zh) 一种基于改变神经网络通道基数的中文文本情感分析方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN114625908A (zh) 基于多通道注意力机制的文本表情包情感分析方法及系统
CN113312907B (zh) 基于混合神经网络的远程监督关系抽取方法及装置
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN113806543A (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法
CN116884067B (zh) 一种基于改进的隐式语义数据增强的微表情识别方法
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant