CN112765323B - 基于多模态特征提取与融合的语音情感识别方法 - Google Patents

基于多模态特征提取与融合的语音情感识别方法 Download PDF

Info

Publication number
CN112765323B
CN112765323B CN202110100299.8A CN202110100299A CN112765323B CN 112765323 B CN112765323 B CN 112765323B CN 202110100299 A CN202110100299 A CN 202110100299A CN 112765323 B CN112765323 B CN 112765323B
Authority
CN
China
Prior art keywords
vector
feature
audio file
text
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110100299.8A
Other languages
English (en)
Other versions
CN112765323A (zh
Inventor
任传伦
郭世泽
巢文涵
张先国
夏建民
姜鑫
孙玺晨
俞赛赛
刘晓影
乌吉斯古愣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jianwei Technology Co ltd
CETC 15 Research Institute
Original Assignee
Beijing Jianwei Technology Co ltd
CETC 15 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jianwei Technology Co ltd, CETC 15 Research Institute filed Critical Beijing Jianwei Technology Co ltd
Priority to CN202110100299.8A priority Critical patent/CN112765323B/zh
Publication of CN112765323A publication Critical patent/CN112765323A/zh
Application granted granted Critical
Publication of CN112765323B publication Critical patent/CN112765323B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于多模态特征提取与融合的语音情感识别方法,首先对输入的音频提取eGeMAPS声学特征集,该特征集定义了88个基本的语音情感分析特征,并规范化了对低层次声学特征的操作方法,解决了可解释性差的问题;其次,本发明提供了一种对用户特征以及音频内容文本特征进行提取的方法,并用层次自注意力将用户特征以及文本特征与声学特征进行融合,充分利用语料数据库中的多模态信息,对语音情感进行更加全面的建模,由此更加有效地实现语音情感识别;最后,本发明利用一种层次化的自注意力机制将多模态特征进行深度融合,以及将不同模态的特征在同一高维语义空间里对齐,增强了情感表述能力,从而提高了语音情感识别的准确率。

Description

基于多模态特征提取与融合的语音情感识别方法
技术领域
本发明涉及语音识别领域,尤其涉及一种基于多模态特征提取与融合的语音情感识别方法。
背景技术
随着信息技术的迅猛发展和各种智能设备的普及,语音识别不再局限于对特定说话人语音中的单一音素和语句进行简单的识别,对诸如远程通话语音、儿童语音、低资源语音、言语障碍者语音以及情感语音进行有效地识别也成为语音识别领域研究的一些新的热点。语音中不仅包含说话人所要表达的文本信息,也包含说话人所要表达的情感信息,对语音中情感的有效识别能够提升语音可懂度,因此,一些研究者试图开发具备人类思维和情感的人性化智能设备,使得这些设备能最大限度地理解用户意图,为人类提供更好的服务。
现有的语音情感识别方法,将语音信号被采集为数字化的时间序列,进入计算机进行预处理,将每一帧预处理后的语音信号提取成一个特征向量,构成语音识别样本,对样本的识别由分类器来实现,分类器包含两个工作阶段:设计阶段与决策阶段。在设计阶段,用大量已知的语音信号来确定分类器模型中的参数;在决策阶段,未知语音信号经过与设计阶段同样的预处理后进入训练好的分类器,分类器给出最终识别结果。
目前的语音情感识别方法大多采用从语音信号中提取声学参数的方法来理解不同情绪和其他情感倾向,其基本的理论假设是,情感的变化能再发音层面影响语音或语言的产生,这些变化可以通过声学波形的不同参数来估计。该类方法使用了大量的声学参数,包括时域(如语速)、频域(如基频(F0)共振峰频率)、幅度域(如强度或能量),以及谱分布域(如相不同频段的相对频段),但是并非所有这些参数的精确计算都是经过标准化定义的,这就导致了不同的特征提取步骤的设置,提取到的声学参数在数量、结果上都有不同程度的差异。因此就导致了识别模型的可解释性严重降低。传统的语音情感识别方法仅仅利用了声学特征,却忽略了用户(语音发言人)行为对情感表达的影响以及语音文本内容对情感识别的作用。通过对音频语料库的观察,不同用户往往具有某一特定的情感倾向的表达,而用户所说的内容(文本特征),往往直接指明了语音的情感,比如用户说话的内容包含了“今天天气真不错”,往往与“开心”的情感相关联。因此,用户的行为特征以及说话内容的文本信息对语音情感识别方法的准确性提高具有潜在的影响,而忽略这些多模态特征只考虑声学特征会导致情感识别模型的学习能力的不足。
在特征提取阶段,有学者提出了一种基于韵律特征参数的语音情感合成算法,通过对情感数据库中生气、无聊、悲伤、和高兴4种情感的韵律参数分析,取得了较高的正确识别率;也有学者利用梅尔频率倒谱系数(Mel Frequency Spectrum Coefficients,MFCC)作为提取到的音频特征作为分类算法的训练输入,也取得了较好的识别效率。但这些技术方案都是基于音频某一方面的特征进行提取,无法全面概括音频的特点,也就无法让分类模型全面针对音频的特点进行情感判别。
发明内容
针对现有语音情感识别方法只基于音频某一方面的特征进行提取,无法使分类模型全面针对音频的特点进行情感判别的缺点,本发明公开了一种基于多模态特征提取与融合的语音情感识别方法,首先对输入的音频提取eGeMAPS声学特征集,该特征集定义了88个基本的语音情感分析特征,并规范化了对低层次声学特征的操作方法,解决了可解释性差的问题;其次,本发明提供了一种对用户特征以及音频内容文本特征进行提取的方法,并用层次自注意力将用户特征以及文本特征与声学特征进行融合,充分利用语料数据库中的多模态信息,对语音情感进行更加全面的建模,由此更加有效地实现语音情感识别。
本发明公开了一种基于多模态特征提取与融合的语音情感识别方法,其步骤包括:
S1,数据预处理;
S11,音频文件预处理,包括:
S111,对音频文件格式的合法性进行检查,对不合法的音频格式将其转换为合法的音频格式后再进行后续处理。具体方式为,检查音频文件的后缀名,若后缀名在合法后缀名列表(包括‘.mp3’,‘.wav’)之内,则通过文件格式检查;若不在合法后缀名列表之内,则利用pyAudio开源Python库将音频文件转换为‘.wav’格式。
S112,限制每个音频文件时长在一定时长以内,超过该时长的音频将被截断,对音频进行去噪处理。利用pyAudio开源Python库获得音频文件的时长信息。该时长可以为10分钟。
S12,将音频文件转换为文字文本,包括:
S121,利用自动语音识别技术(ASR),将音频文件转换为对应的文字文本。
S122,对转换的文字文本进行文本预处理。
S13,统计出音频语料库中的所有用户信息,赋予每个用户一个唯一的标识符,并建立相应的用户列表。
S2,多模态特征提取,包括:
S21,从输入的音频文件中直接提取eGeMAPS特征集,包括:
S211,以一定的基本时长,将输入的音频文件切割成若干个基本时间单元的语音文件[F1,F2,...,FL],其中Fi是一个基本时间单元的文件,L是基本时间单元总数。基本时长可选为0.6s。
S212,对每个基本时间单元的音频文件,提取得到88个高水平特征(HSFs,HighLevel Statistics Functions),该88个高水平特征构成eGeMAPS特征集,因此,每个音频文件最终提取到的特征是一个矩阵S=[s1,s2,...,si,...,sL]∈RL×88,该矩阵中的元素si∈R88是一个维度数为88的向量。
所述的提取得到88个高水平特征,先提取其25个低水平特征(LLDs,Low LevelDescriptors),再对提取的低水平特征进行统计,得到88个高水平特征(HSFs,High LevelStatistics Functions);
所述的提取得到88个高水平特征,使用openSMILE音频特征提取工具提取特征,直接从openSMILE的输出中获得88个HSFs。
所述的25个LLDs与88个HSFs的关系为,
8个频率相关LLDs为,音高,频率微扰,第一、第二、第三共振峰的中心频率,第一、第二、第三共振峰的带宽;
3个能量/振幅LLDs为,振幅微扰、响度、HNR信噪比;
14个谱特征LLDs为,Alpha比率,Hammarberg指数,0-500Hz和500-1500Hz的频谱斜率,第一、第二、第三共振峰相对能量,第一、第二谐波的差值,第一、第三谐波的差值,1-4阶梅尔频率倒谱系数(MFCC1-4),频谱流量。
对除了MFCC1-4、频谱流量以及第二和第三共振峰带宽以外的所有18个LLDs在其有声部分(voice segment)均做算术平均以及变异系数操作,得到36个统计特征;然后对响度和音高这两个LLDs再运行8个函数(取20百分位,50百分位,80百分位以及取20-80百分位范围之间的数值,上升和下降语音信号的斜率的均值和标准差),得到16个统计特征;对Alpha比率,Hammarberg指数,0-500Hz和500-1500Hz的频谱斜率这4个LLDs在其无声部分(unvoice segment)做算术平均,得到4个统计特征;在MFCC1-4和频谱流量的有声和无声两部分上一起做算术平均和变异系数操作,得到10个统计特征;对第二和第三共振峰带宽在其有声部分做算术平均和变异系数操作,得到4个统计特征;对频谱流量在其有声部分做算术平均和变异系数,在无声部分做算术平均,得3个统计特征;对MFCC1-4在其有声部分做算术平均和变异系数运算,得到8个统计特征;此外还有6个时间特征(每秒响度峰值个数;连续有声部分的平均长度和标准差;无声部分的平均长度和标准差;每秒有声部分的个数)和1个等效升级特征,上述一共36+16+4+10+4+3+8+6+1=88个高水平统计特征。
S213,将步骤S212得到的特征矩阵S输入到一个双向长短期记忆神经网络(BiLSTM),该网络的隐向量的维度设置为150,从BiLSTM的输出中提取最终的声学特征向量
Figure BDA0002913246450000051
其中
Figure BDA0002913246450000052
分别表示BiLSTM最后一步输出的前向与后向隐向量,其维度数均为150,||表示拼接操作,声学特征向量s0的维度数为300。
步骤S213的具体过程包括,BiLSTM从前向LSTM、后向LSTM两个方向上以一次读取一个向量的形式,输出隐向量,第1次运算,向前向LSTM和后向LSTM分别送入s1和sL,得到输出的隐向量
Figure BDA0002913246450000053
Figure BDA0002913246450000054
第2次运算,向前向LSTM和后向LSTM分别送入s2和sL-1,得到输出的隐向量
Figure BDA0002913246450000055
Figure BDA0002913246450000056
依次类推,第L-1次运算,向前向LSTM和后向LSTM分别送入sL-1和s2,得到输出的隐向量
Figure BDA0002913246450000057
Figure BDA0002913246450000058
第L次运算,即最后一次运算,向前向LSTM和后向LSTM分别送入sL和s1,得到输出的隐向量
Figure BDA0002913246450000059
Figure BDA00029132464500000510
将最后一次运算得到的前向和后向隐向量拼接在一起,即是最终的声学特征向量s0
S22,从音频文件中提取文本特征,具体包括:
S221,用结巴分词工具Jieba对步骤S122处理过的文本进行分词处理,切分得到该文本中的每一个词。之后从预训练的Word2vec词向量中,找到每个单词对应的词向量,将切分得到的每一个词映射成一个300维的词向量;对于在Word2vec中无法找到的词,随机初始化一个300维的词向量。因此,对于每一个输入音频文件所对应的文本,提取得到相应的文本矩阵T=[t1,t2,...,ti,...,tN]∈RN×300,其中每个矩阵元素ti∈R300是一个300维的词向量,N是文本中的单词总数。
S222,将步骤S211得到的文本矩阵T送入到一个与步骤S213具有相同结构的BiLSTM网络中,隐向量的维度设置为150,从BiLSTM的输出中提取最终的文本特征向量
Figure BDA0002913246450000061
其中
Figure BDA0002913246450000062
分别表示该BiLSTM网络最后一步输出的前向与后向隐向量,其维度数均为150,文本特征向量t0的维度数为300。
S23,将音频用户信息转换为one-hot向量后,输入embedding网络层得到用户特征。
其具体包括,对于输入的音频文件所对应的用户,根据其在步骤S13得到的用户列表中的信息,得到相应的one-hot向量y∈RM,其中M是用户列表的维度数,one-hot向量表示当前用户在用户列表中的位置,one-hot向量元素由0和1组成,向量在用户所对应的位置上的值为1,其他位置值都是0。之后,将其输入一个embedding网络层,该层的输入维度数为M,输出维度数为300,从该层的输出中得到用户特征向量u0∈R300
所述的embedding网络层,在输入one-hot向量y∈RM后,其输出为用户特征向量
Figure BDA0002913246450000063
其中,WE∈RM×300是embedding网络层的可学习权重,在训练过程中不断更新。
S3,利用层次自注意力方法对多模态组合特征充分融合,得到最终的语音情感融合向量,包括:
对m个d维多模态组合特征矩阵b=[b1,b2,...,bm]进行自注意力操作,其具体公式为:
PF=tanh(WF·b),
Figure BDA0002913246450000064
G=b·αT
其中,WF∈Rd×d以及wf∈Rd是自注意力可学习权重;αT∈Rm是注意力向量,G∈Rd是最终的融合向量。多模态组合特征矩阵由声学特征向量s0、文本特征向量t0和用户特征向量u0的几种组合构成。
按照层次结构对组合特征矩阵进行自注意力操作,其具体步骤为:
在第一层,分别对声学特征向量s0和文本特征向量t0,声学特征向量s0和用户特征向量u0,文本特征向量t0和用户特征向量u0所构成的三个多模态组合特征矩阵进行自注意力操作,分别得到融合向量为
Figure BDA0002913246450000071
在第二层,分别对
Figure BDA0002913246450000072
和[s0,t0,u0]两个多模态组合特征矩阵进行自注意力操作,分别得到融合向量
Figure BDA0002913246450000073
Figure BDA0002913246450000074
在第三层,将
Figure BDA0002913246450000075
Figure BDA0002913246450000076
进行自注意力操作,输出得到最终的语音情感融合向量z。
S4,对音频的情感做出判断:将步骤S3最终得到的语音情感融合向量输入一个全连接网络层(FC),得到情感向量,将情感向量输入softmax函数,得到音频文件的情感类别和该情感类别的置信度,即得到音频文件的最终情感识别结果;所述的情感类别包括生气、伤心、中立、惊喜、开心以及恐惧。
所述的步骤S4,将步骤S3最终得到的语音情感融合向量输入一个全连接网络层(FC)后,全连接网络层的计算过程为:
Figure BDA0002913246450000077
其中,WFC为全连接层的权重,e为情感向量;在情感向量e上使用softmax函数,计算生气、伤心、中立、惊喜、开心以及恐惧六个情感类别的置信度,置信度最高的情感类别即音频文件的最终情感识别结果。
本发明的有益效果是:本发明提出了一种基于多模态特征提取与融合的语音情感识别方法,一方面充分利用了音频中的多模态信息,尤其是考虑了用户行为特征对情感表达的影响,克服了传统方法只考虑声学特征导致情感表征能力弱的缺点。另一方面,提出了一种层次化的自注意力机制,来将多模态特征进行深度充分融合,以及将不同模态的特征在同一高维语义空间里对齐,增强了情感表述能力,从而提高了语音情感识别的准确率。
附图说明
图1为本发明的语音情感识别方法的整体流程图;
图2为本发明中对音频的预处理具体流程图;
图3为本发明中步骤S2的多模态特征提取的具体流程图;
图4为本发明中的利用层次自注意力机制进行多模态特征提取的具体流程图;
图5为本发明中对语音情感进行最终判别的具体流程图。
具体实施方式
为了更好的了解本发明内容,这里给出一个实施例。
本发明公开了一种基于多模态特征提取与融合的语音情感识别方法,图1为本发明的语音情感识别方法的整体流程图,其步骤包括:
S1,数据预处理;
S11,音频文件预处理,图2为对音频的预处理具体流程图,其包括:
S111,对音频文件格式的合法性进行检查,只有合法的音频格式才能正确提取出声学特征,对不合法的音频格式将其转换为合法的音频格式后再进行后续处理。具体方式为,检查音频文件的后缀名,若后缀名在合法后缀名列表(包括‘.mp3’,‘.wav’)之内,则通过文件格式检查;若不在合法后缀名列表之内,则利用pyAudio开源Python库将音频文件转换为‘.wav’格式。
S112,限制每个音频文件时长在10分钟以内,此步骤是为了保证程序的响应时间。超过该时长的音频将被截断,对音频进行去噪处理。利用pyAudio开源Python库获得音频文件的时长信息。
S12,将音频文件转换为文字文本,包括:
S121,利用自动语音识别技术(ASR),将音频文件转换为对应的文字文本,以供提取文本特征。
S122,对转换的文字文本进行文本预处理,包括去除非中文字符、去停用词。
S13,统计出音频语料库中的所有用户信息,赋予每个用户一个唯一的标识符,并建立相应的用户列表,以供后续用户特征的提取。
S2,多模态特征提取,图3为本发明的步骤S2的多模态特征提取的具体流程图,包括:
S21,从输入的音频文件中直接提取eGeMAPS特征集,包括:
S211,以一定的基本时长,将输入的音频文件切割成若干个基本时间单元的语音文件[F1,F2,...,FL],其中Fi是一个基本时间单元的文件,L是基本时间单元总数。基本时长可选为0.6s。
S212,对每个基本时间单元的音频文件,提取得到88个高水平特征(HSFs,HighLevel Statistics Functions),该88个高水平特征构成eGeMAPS特征集,因此,每个音频文件最终提取到的特征是一个矩阵S=[s1,s2,...,si,...,sL]∈RL×88,该矩阵中的元素si∈R88是一个维度数为88的向量。
所述的提取得到88个高水平特征,先提取其25个低水平特征(LLDs,Low LevelDescriptors),再对提取的低水平特征进行统计,得到88个高水平特征(HSFs,High LevelStatistics Functions);
所述的提取得到88个高水平特征,使用openSMILE音频特征提取工具提取特征,直接从openSMILE的输出中获得88个HSFs。
所述的25个LLDs与88个HSFs的关系为,
8个频率相关LLDs为,音高,频率微扰,第一、第二、第三共振峰的中心频率,第一、第二、第三共振峰的带宽;
3个能量/振幅LLDs为,振幅微扰、响度、HNR信噪比;
14个谱特征LLDs为,Alpha比率,Hammarberg指数,0-500Hz和500-1500Hz的频谱斜率,第一、第二、第三共振峰相对能量,第一、第二谐波的差值,第一、第三谐波的差值,1-4阶梅尔频率倒谱系数(MFCC1-4),频谱流量。
对除了MFCC1-4、频谱流量以及第二和第三共振峰带宽以外的所有18个LLDs在其有声部分(voice segment)均做算术平均以及变异系数操作,得到36个统计特征;然后对响度和音高这两个LLDs再运行8个函数(取20百分位,50百分位,80百分位以及取20-80百分位范围之间的数值,上升和下降语音信号的斜率的均值和标准差),得到16个统计特征;对Alpha比率,Hammarberg指数,0-500Hz和500-1500Hz的频谱斜率这4个LLDs在其无声部分(unvoice segment)做算术平均,得到4个统计特征;在MFCC1-4和频谱流量的有声和无声两部分上一起做算术平均和变异系数操作,得到10个统计特征;对第二和第三共振峰带宽在其有声部分做算术平均和变异系数操作,得到4个统计特征;对频谱流量在其有声部分做算术平均和变异系数,在无声部分做算术平均,得3个统计特征;对MFCC1-4在其有声部分做算术平均和变异系数运算,得到8个统计特征;此外还有6个时间特征(每秒响度峰值个数;连续有声部分的平均长度和标准差;无声部分的平均长度和标准差;每秒有声部分的个数)和1个等效升级特征,上述一共36+16+4+10+4+3+8+6+1=88个高水平统计特征。
S213,将步骤S212得到的特征矩阵S输入到一个双向长短期记忆神经网络(BiLSTM),该网络的隐向量的维度设置为150,从BiLSTM的输出中提取最终的声学特征向量
Figure BDA0002913246450000101
其中
Figure BDA0002913246450000102
分别表示BiLSTM最后一步输出的前向与后向隐向量,其维度数均为150,||表示拼接操作,声学特征向量s0的维度数为300。
步骤S213的具体过程包括,BiLSTM从前向LSTM、后向LSTM两个方向上以一次读取一个向量的形式,输出隐向量,第1次运算,向前向LSTM和后向LSTM分别送入s1和sL,得到输出的隐向量
Figure BDA0002913246450000103
Figure BDA0002913246450000104
第2次运算,向前向LSTM和后向LSTM分别送入s2和sL-1,得到输出的隐向量
Figure BDA0002913246450000105
Figure BDA0002913246450000106
依次类推,第L-1次运算,向前向LSTM和后向LSTM分别送入sL-1和s2,得到输出的隐向量
Figure BDA0002913246450000107
Figure BDA0002913246450000111
第L次运算,即最后一次运算,向前向LSTM和后向LSTM分别送入sL和s1,得到输出的隐向量
Figure BDA0002913246450000112
Figure BDA0002913246450000113
将最后一次运算得到的前向和后向隐向量拼接在一起,即是最终的声学特征向量s0。
S22,从音频文件中提取文本特征,具体包括:
S221,用结巴分词工具Jieba对步骤S122处理过的文本进行分词处理,切分得到该文本中的每一个词。之后从预训练的Word2vec词向量中,找到每个单词对应的词向量,将切分得到的每一个词映射成一个300维的词向量;对于在Word2vec中无法找到的词,随机初始化一个300维的词向量。因此,对于每一个输入音频文件所对应的文本,提取得到相应的文本矩阵T=[t1,t2,...,ti,...,tN]∈RN×300,其中每个矩阵元素ti∈R300是一个300维的词向量,N是文本中的单词总数。
S222,将步骤S211得到的文本矩阵T送入到一个与步骤S213具有相同结构的BiLSTM网络中,隐向量的维度设置为150,从BiLSTM的输出中提取最终的文本特征向量
Figure BDA0002913246450000114
其中
Figure BDA0002913246450000115
分别表示该BiLSTM网络最后一步输出的前向与后向隐向量,其维度数均为150,文本特征向量t0的维度数为300。
S23,将音频用户信息转换为one-hot向量后,输入embedding网络层得到用户特征。
其具体包括,对于输入的音频文件所对应的用户,根据其在步骤S13得到的用户列表中的信息,得到相应的one-hot向量y∈RM,其中M是用户列表的维度数,one-hot向量表示当前用户在用户列表中的位置,one-hot向量元素由0和1组成,向量在用户所对应的位置上的值为1,其他位置值都是0。之后,将其输入一个embedding网络层,该层的输入维度数为M,输出维度数为300,从该层的输出中得到用户特征向量u0∈R300
所述的embedding网络层,在输入one-hot向量y∈RM后,其输出为用户特征向量
Figure BDA0002913246450000121
其中,WE∈RM×300是embedding网络层的可学习权重,在训练过程中不断更新。
S3,利用层次自注意力方法对多模态组合特征充分融合,得到最终的语音情感融合向量,图4为本发明中的利用层次自注意力机制进行多模态特征提取的具体流程图,包括:
注意力机制是在人类视觉注意力机制基础上形成的。注意力使得人类对视觉捕获信息的重要部分给予更大的关注,尽可能获取所关注目标的细节信息,同时减少对目标周围无关信息的关注,即对无关信息产生抑制。假设自注意力模块的输入是m个300维的向量b=[b1,b2,...,bm],那么自注意力模块就是充分利用m个向量之间的相关性,突出彼此之间的共性和差异。该模块的输出是1个300维的向量,该向量是由m个输入向量融合得到的,能将正确的特征赋予更大的权重,同时降低不正确特征的权重,实现一种自动过滤特征的效果,降低情感识别算法过拟合的风险。当输入的向量是不同的模态特征时,通过注意力操作,能将不同的模态特征在同一个高维空间中进行对齐,也就是实现了不同模态特征之间语义表达的一致性,提高了情感识别特征的表征能力。采用层次结构来进行多模态特征的融合,以达到更充分地捕捉到多模态特征之间的长距离依赖关系,以及更突出正确的特征的效果。
对m个d维多模态组合特征矩阵b=[b1,b2,...,bm]进行自注意力操作,其具体公式为:
PF=tanh(WF·b),
Figure BDA0002913246450000122
G=b·αT
其中,WF∈Rd×d以及wf∈Rd是自注意力可学习权重;αT∈Rm是注意力向量,G∈Rd是最终的融合向量。多模态组合特征矩阵由声学特征向量s0、文本特征向量t0和用户特征向量u0的几种组合构成。
按照层次结构对组合特征矩阵进行自注意力操作,其具体步骤为:
在第一层,分别对声学特征向量s0和文本特征向量t0,声学特征向量s0和用户特征向量u0,文本特征向量t0和用户特征向量u0所构成的三个多模态组合特征矩阵进行自注意力操作,分别得到融合向量为
Figure BDA0002913246450000131
在第二层,分别对
Figure BDA0002913246450000132
和[s0,t0,u0]两个多模态组合特征矩阵进行自注意力操作,分别得到融合向量
Figure BDA0002913246450000133
Figure BDA0002913246450000134
在第三层,将
Figure BDA0002913246450000135
Figure BDA0002913246450000136
进行自注意力操作,输出得到最终的语音情感融合向量z。
S4,对音频的情感做出判断,图5为本发明中对语音情感进行最终判别的具体流程图,将步骤S3最终得到的语音情感融合向量输入一个全连接网络层(FC),得到情感向量,将情感向量输入softmax函数,得到音频文件的情感类别和该情感类别的置信度,即得到音频文件的最终情感识别结果;所述的情感类别包括生气、伤心、中立、惊喜、开心以及恐惧。
所述的步骤S4,将步骤S3最终得到的语音情感融合向量输入一个全连接网络层(FC)后,全连接网络层的计算过程为:
Figure BDA0002913246450000137
其中,WFC为全连接层的权重,e为情感向量;在情感向量e上使用softmax函数,计算生气、伤心、中立、惊喜、开心以及恐惧六个情感类别的置信度,置信度最高的情感类别即音频文件的最终情感识别结果。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种基于多模态特征提取与融合的语音情感识别方法,其特征在于,其步骤包括:
S1,数据预处理;
S11,音频文件预处理,包括:
S111,对音频文件格式的合法性进行检查,对不合法的音频格式将其转换为合法的音频格式后再进行后续处理;
S112,限制每个音频文件时长在一定时长以内,超过该时长的音频将被截断,对音频进行去噪处理;
S12,将音频文件转换为文字文本,包括:
S121,利用自动语音识别技术,将音频文件转换为对应的文字文本;
S122,对转换的文字文本进行文本预处理;
S13,统计出音频语料库中的所有用户信息,赋予每个用户一个唯一的标识符,并建立相应的用户列表;
S2,多模态特征提取,包括:
S21,从输入的音频文件中直接提取eGeMAPS特征集,包括:
S211,以一定的基本时长,将输入的音频文件切割成若干个基本时间单元的语音文件[F1,F2,...,FL],其中Fi是一个基本时间单元的文件,L是基本时间单元总数;
S212,对每个基本时间单元的音频文件,提取得到88个高水平特征,该88个高水平特征构成eGeMAPS特征集,因此,每个音频文件最终提取到的特征是一个矩阵S=[s1,s2,...,si,...,sL]∈RL×88,该矩阵中的元素si∈R88是一个维度数为88的向量;
S213,将步骤S212得到的特征矩阵S输入到一个双向长短期记忆神经网络BiLSTM,该网络的隐向量的维度设置为150,从BiLSTM的输出中提取最终的声学特征向量
Figure FDA0003159332480000011
其中
Figure FDA0003159332480000012
Figure FDA0003159332480000013
分别表示BiLSTM最后一步输出的前向与后向隐向量,其维度数均为150,||表示拼接操作,声学特征向量s0的维度数为300;
S22,从音频文件中提取文本特征,具体包括:
S221,用结巴分词工具Jieba对步骤S122处理过的文本进行分词处理,切分得到该文本中的每一个词;之后从预训练的Word2vec词向量中,找到每个单词对应的词向量,将切分得到的每一个词映射成一个300维的词向量;对于在Word2vec中无法找到的词,随机初始化一个300维的词向量;因此,对于每一个输入音频文件所对应的文本,提取得到相应的文本矩阵T=[t1,t2,...,ti,...,tN]∈RN×300,其中每个矩阵元素ti∈R300是一个300维的词向量,N是文本中的单词总数;
S222,将步骤S211得到的文本矩阵T送入到一个与步骤S213具有相同结构的BiLSTM网络中,隐向量的维度设置为150,从BiLSTM的输出中提取最终的文本特征向量
Figure FDA0003159332480000021
其中
Figure FDA0003159332480000022
Figure FDA0003159332480000023
分别表示该BiLSTM网络最后一步输出的前向与后向隐向量,其维度数均为150,文本特征向量t0的维度数为300;
S23,将音频用户信息转换为one-hot向量后,输入embedding网络层得到用户特征;
S3,利用层次自注意力方法对多模态组合特征充分融合,得到最终的语音情感融合向量,
S4,对音频的情感做出判断:将步骤S3最终得到的语音情感融合向量输入一个全连接网络层,得到情感向量,将情感向量输入softmax函数,得到音频文件的情感类别和该情感类别的置信度,即得到音频文件的最终情感识别结果;所述的情感类别包括生气、伤心、中立、惊喜、开心以及恐惧;
所述的步骤S3,其具体包括:
对m个d维多模态组合特征矩阵b=[b1,b2,...,bm]进行自注意力操作,其具体公式为:
PF=tanh(WF·b),
Figure FDA0003159332480000031
G=b·αT
其中,WF∈Rd×d以及wf∈Rd是自注意力可学习权重;αT∈Rm是注意力向量,G∈Rd是最终的融合向量;多模态组合特征矩阵由声学特征向量s0、文本特征向量t0和用户特征向量u0的几种组合构成;
按照层次结构对组合特征矩阵进行自注意力操作,其具体步骤为:
在第一层,分别对声学特征向量s0和文本特征向量t0,声学特征向量s0和用户特征向量u0,文本特征向量t0和用户特征向量u0所构成的三个多模态组合特征矩阵进行自注意力操作,分别得到融合向量为
Figure FDA0003159332480000032
在第二层,分别对
Figure FDA0003159332480000033
和[s0,t0,u0]两个多模态组合特征矩阵进行自注意力操作,分别得到融合向量
Figure FDA0003159332480000034
Figure FDA0003159332480000035
在第三层,将
Figure FDA0003159332480000036
Figure FDA0003159332480000037
进行自注意力操作,输出得到最终的语音情感融合向量z。
2.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法,其特征在于,所述的步骤S111,具体包括,检查音频文件的后缀名,若后缀名在合法后缀名列表之内,则通过文件格式检查;若不在合法后缀名列表之内,则利用pyAudio开源Python库将音频文件转换为‘.wav’格式。
3.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法,其特征在于,所述的步骤S112,利用pyAudio开源Python库获得音频文件的时长信息。
4.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法,其特征在于,步骤S212所述的提取得到88个高水平特征,使用openSMILE音频特征提取工具提取特征,直接从openSMILE的输出中获得88个HSFs。
5.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法,其特征在于,所述的步骤S213,其具体过程包括,BiLSTM从前向LSTM、后向LSTM两个方向上以一次读取一个向量的形式,输出隐向量,第1次运算,向前向LSTM和后向LSTM分别送入s1和sL,得到输出的隐向量
Figure FDA0003159332480000041
Figure FDA0003159332480000042
第2次运算,向前向LSTM和后向LSTM分别送入s2和sL-1,得到输出的隐向量
Figure FDA0003159332480000043
Figure FDA0003159332480000044
依次类推,第L-1次运算,向前向LSTM和后向LSTM分别送入sL-1和s2,得到输出的隐向量
Figure FDA0003159332480000045
Figure FDA0003159332480000046
第L次运算,即最后一次运算,向前向LSTM和后向LSTM分别送入sL和s1,得到输出的隐向量
Figure FDA0003159332480000047
Figure FDA0003159332480000048
将最后一次运算得到的前向和后向隐向量拼接在一起,即是最终的声学特征向量s0
6.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法,其特征在于,所述的步骤S23,其具体包括,对于输入的音频文件所对应的用户,根据其在步骤S13得到的用户列表中的信息,得到相应的one-hot向量y∈RM,其中M是用户列表的维度数,one-hot向量表示当前用户在用户列表中的位置,one-hot向量元素由0和1组成,向量在用户所对应的位置上的值为1,其他位置值都是0;之后,将其输入一个embedding网络层,该层的输入维度数为M,输出维度数为300,从该层的输出中得到用户特征向量u0∈R300
所述的embedding网络层,在输入one-hot向量y∈RM后,其输出为用户特征向量
Figure FDA0003159332480000049
其中,WE∈RM×300是embedding网络层的可学习权重,在训练过程中不断更新。
7.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法,其特征在于,所述的步骤S4,将步骤S3最终得到的语音情感融合向量输入一个全连接网络层后,全连接网络层的计算过程为:
Figure FDA00031593324800000410
其中,WFC为全连接层的权重,e为情感向量;在情感向量e上使用softmax函数,计算生气、伤心、中立、惊喜、开心以及恐惧六个情感类别的置信度,置信度最高的情感类别即音频文件的最终情感识别结果。
CN202110100299.8A 2021-01-24 2021-01-24 基于多模态特征提取与融合的语音情感识别方法 Active CN112765323B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110100299.8A CN112765323B (zh) 2021-01-24 2021-01-24 基于多模态特征提取与融合的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110100299.8A CN112765323B (zh) 2021-01-24 2021-01-24 基于多模态特征提取与融合的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN112765323A CN112765323A (zh) 2021-05-07
CN112765323B true CN112765323B (zh) 2021-08-17

Family

ID=75707302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110100299.8A Active CN112765323B (zh) 2021-01-24 2021-01-24 基于多模态特征提取与融合的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN112765323B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113270086B (zh) 2021-07-19 2021-10-15 中国科学院自动化研究所 一种融合多模态语义不变性的语音识别文本增强系统
CN114005468B (zh) * 2021-09-07 2023-04-07 华院计算技术(上海)股份有限公司 一种基于全局工作空间的可解释情绪识别方法和系统
CN114387997B (zh) * 2022-01-21 2024-03-29 合肥工业大学 一种基于深度学习的语音情感识别方法
WO2023139559A1 (en) * 2022-01-24 2023-07-27 Wonder Technology (Beijing) Ltd Multi-modal systems and methods for voice-based mental health assessment with emotion stimulation
CN114566189B (zh) * 2022-04-28 2022-10-04 之江实验室 基于三维深度特征融合的语音情感识别方法及系统
CN115414042B (zh) * 2022-09-08 2023-03-17 北京邮电大学 基于情感信息辅助的多模态焦虑检测方法及装置
CN117235605B (zh) * 2023-11-10 2024-02-02 湖南马栏山视频先进技术研究院有限公司 一种基于多模态注意力融合的敏感信息分类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN111680541A (zh) * 2020-04-14 2020-09-18 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法
CN112204564A (zh) * 2018-02-15 2021-01-08 得麦股份有限公司 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120004910A1 (en) * 2009-05-07 2012-01-05 Romulo De Guzman Quidilig System and method for speech processing and speech to text
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
CN110826466B (zh) * 2019-10-31 2023-10-03 陕西励爱互联网科技有限公司 基于lstm音像融合的情感识别方法、装置及存储介质
CN111275085B (zh) * 2020-01-15 2022-09-13 重庆邮电大学 基于注意力融合的在线短视频多模态情感识别方法
CN111553295B (zh) * 2020-05-01 2023-05-09 北京邮电大学 基于自注意力机制的多模态情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112204564A (zh) * 2018-02-15 2021-01-08 得麦股份有限公司 经由基于集成音频和视觉的语音识别进行语音理解的系统和方法
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统
CN108597541A (zh) * 2018-04-28 2018-09-28 南京师范大学 一种增强愤怒与开心识别的语音情感识别方法及系统
CN111680541A (zh) * 2020-04-14 2020-09-18 华中科技大学 一种基于多维度注意力融合网络的多模态情绪分析方法
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Multimodal Speech Emotion Recognition Using Audio and Text;Seunghyun Yoon等;《2018 IEEE Spoken Language Technology Workshop (SLT)》;20190214;112-118 *
Study of wavelet packet energy entropy for emotion classification in speech and glottal signals;Ling He等;《PROCEEDINGS OF SPIE》;20130719;1-7 *
一种基于动态时间弯曲距离的快速子序列匹配算法;刘晓影;《现代电子技术》;20170315;第40卷(第6期);25-30 *
基于多模态的在线学习情感分析模型设计与实现;麻益通;《中国优秀硕士学位论文全文数据库 社会科学Ⅱ辑》;20200215(第2期);H127-134 *
基于层次注意力机制的维度情感识别方法;汤宇豪等;《计算机工程》;20190530;第46卷(第6期);65-72 *
基于模糊层次分析法的人机交流氛围场建模及其在人机交互系统中的应用;张日;《中国优秀硕士学位论文全文数据库 信息科技辑》;20181015(第10期);I140-241 *

Also Published As

Publication number Publication date
CN112765323A (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN112765323B (zh) 基于多模态特征提取与融合的语音情感识别方法
Wani et al. A comprehensive review of speech emotion recognition systems
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
Iliev et al. Spoken emotion recognition through optimum-path forest classification using glottal features
CN109493886A (zh) 基于特征选择和优化的语音情感识别方法
Samantaray et al. A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages
KR20200105589A (ko) 음성 감정 인식 방법 및 시스템
CN109979436A (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
China Bhanja et al. A pre-classification-based language identification for Northeast Indian languages using prosody and spectral features
Xiao et al. Hierarchical classification of emotional speech
Koolagudi et al. Dravidian language classification from speech signal using spectral and prosodic features
Bhanja et al. Deep neural network based two-stage Indian language identification system using glottal closure instants as anchor points
Korvel et al. Speech analytics based on machine learning
CN112466284B (zh) 一种口罩语音鉴别方法
Mohammed et al. Speech Emotion Recognition Using MELBP Variants of Spectrogram Image.
Shome et al. Speaker Recognition through Deep Learning Techniques: A Comprehensive Review and Research Challenges
Prakash et al. Analysis of emotion recognition system through speech signal using KNN & GMM classifier
Bandela et al. Stressed Speech Emotion Recognition Using Teager Energy and Spectral Feature Fusion with Feature Optimization
Malla et al. A DFC taxonomy of Speech emotion recognition based on convolutional neural network from speech signal
Vasuki Design of Hierarchical Classifier to Improve Speech Emotion Recognition.
Mathur et al. A study of machine learning algorithms in speech recognition and language identification system
Praksah et al. Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier
Mangalam et al. Emotion Recognition from Mizo Speech: A Signal Processing Approach
Bawa et al. Noise-robust gender classification system through optimal selection of acoustic features
Tomar et al. CNN-MFCC model for speaker recognition using emotive speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant