CN109285562A - 基于注意力机制的语音情感识别方法 - Google Patents

基于注意力机制的语音情感识别方法 Download PDF

Info

Publication number
CN109285562A
CN109285562A CN201811135064.7A CN201811135064A CN109285562A CN 109285562 A CN109285562 A CN 109285562A CN 201811135064 A CN201811135064 A CN 201811135064A CN 109285562 A CN109285562 A CN 109285562A
Authority
CN
China
Prior art keywords
lstm model
dimension
emotion recognition
attention
lstm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811135064.7A
Other languages
English (en)
Other versions
CN109285562B (zh
Inventor
谢跃
梁瑞宇
梁镇麟
郭如雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201811135064.7A priority Critical patent/CN109285562B/zh
Publication of CN109285562A publication Critical patent/CN109285562A/zh
Application granted granted Critical
Publication of CN109285562B publication Critical patent/CN109285562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于注意力机制的语音情感识别方法,包括以下步骤,从原始语音数据中提取具有时序信息的语音特征;建立具有处理变长数据能力的LSTM模型;通过注意力机制优化LSTM模型中的遗忘门计算方式;对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。本发明的基于注意力机制的语音情感识别方法,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。

Description

基于注意力机制的语音情感识别方法
技术领域
本发明涉及语音情感识别技术领域,具体涉及一种基于注意力机制的语音情感识别方法。
背景技术
语音情感识别在人机交互中具有重要的应用价值。为了实现语音情感的自动识别,很多学者在机器学习算法方面做了大量的研究工作,如支持向量机,贝叶斯分类器和K近邻等算法。近年来,随着深度学习的发展,其在自动语音情感识别上应用也越来越多。Deng(学者)使用自编码器与少量情感标签数据进行了半监督学习,Neumann(学者)将卷积神经网络应用在了语音情感识别中。
虽然上述算法在情感识别中取得了成功应用,但不管是传统机器学习算法还是深度学习中的自编码器和卷积神经网络,都只能接受具有固定维度的数据作为输入。这与实际有效语音不断变化的长度之间存在明显的矛盾。为了解决这一问题,主流的方法是先通过从短时语音帧中提取情感相关特征(在本发明中称为帧级特征),再将静态统计函数(如均值、方差、最大值、线性回归系数等)作用与帧级特征上,最终将结果串联成一个维度确定的向量来表示一句完整的语音。虽然,这种固定维度的特征满足了模型输入的要求,但是通过统计分析处理后的语音特征会丧失原始语音中的时序信息。目前,解决该矛盾的另一个思路是设计一种可以接受变长特征的模型,如Schmidhuber提出的LSTM(Long Short-TermMemory长短期记忆网络)结构采用对不同长度的数据先进行补齐操作以对齐数据,但在实际运算过程中,只计算实际有效长度的数据,并不处理补齐部分的数据。该方法为处理像语音这样变长时间序列提供了可行性。
近些年来,为强化LSTM在特定任务中处理数据的能力,有学者针对LSTM的内部构造提出了很多优化法案。Gers提出了窥视连接,将细胞状态也作为了输入信息,增强了对历史信息的学习能力;Yao通过引入深度门的概念来连接层间的记忆细胞,以控制记忆细胞之间的数据流。然而,这些改进后的LSTM变体都是以牺牲计算复杂度为代价来换取记忆信息的增强。此外,在众多LSTM的应用中,往往都是选取LSTM的最后一个时刻的输出作为下一个模型的输入(因为其他模型只能接受具有固定维度的输入)。但是,对于语音情感识别任务而言,语音在结束时多为静音段,几乎不含有情感信息,所以,此时LSTM最后一个时刻对应的输出所含情感信息会被削弱。
通过上述的描述,如何有效利用LSTM在所有时刻的输出(而不是单一的最后一个时刻)信息,是提高语音情感识别性能的关键,是当前需要解决的问题。
发明内容
为了克服现有技术中的LSTM在语音情感识别中存在的问题。本发明的基于注意力机制的语音情感识别方法,通过注意力机制优化LSTM的遗忘门,不仅降低了LSTM模型运算复杂度,而且在一定程度上优化了情感识别性能,还通过注意力机制为LSTM模型的输出进行时间和特征维度的加权,以区分不同时间片段和不同特征对情感识别的影响,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
一种基于注意力机制的语音情感识别方法,包括以下步骤,
步骤(A),从原始语音数据中提取具有时序信息的语音特征;
步骤(B),建立具有处理变长数据能力的LSTM模型;
步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式;
步骤(D),对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;
步骤(E),在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;
步骤(F),训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。
前述的基于注意力机制的语音情感识别方法,步骤(A),提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息,且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的。
前述的基于注意力机制的语音情感识别方法,步骤(B),建立具有处理变长数据能力的LSTM模型,遵循以下规则,
(B1),根据LSTM模型具有处理变长语音特征的能力,在不等长的语音数据结尾处补零至相同长度;
(B2),在LSTM模型训练前,补零后的语音数据实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得;
(B3),在LSTM模型参数更新训练时,只有实际有效的语音数据参与运算,补零的数据并不参与运算。
前述的基于注意力机制的语音情感识别方法,步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式,是在遗忘门与细胞状态的更新计算过程中增加窥视连接,将细胞状态也作为输入,该遗忘门计算方式,如公式(1)所示,
ft=σ(Wf×[Ct-1,ht-1,xt]+bf) (1)
该细胞状态更新,如公式(2)、(3)、(4)所示,
it=σ(Wi×[Ct-1,ht-1,xt]+bi) (2)
其中,ft为遗忘门参数,Ct为细胞状态更新参数,Ct-1和ht-1分别为上一时刻的细胞状态和隐层输出,xt为当前时刻的输入,为细胞状态更新的候选值,it为控制候选值的系数,Wf为LSTM模型内待训练的遗忘门外权重参数,bf为LSTM模型内待训练的遗忘门偏置参数,Wi为LSTM模型内待训练的控制候选值权重参数,bi为LSTM模型内待训练的控制候选值偏置参数,WC为LSTM模型内待训练的细胞状态更新权重参数,bC为LSTM模型内待训练的细胞状态更新偏置参数,σ为sigmod激活函数;
在该LSTM模型中it由(1-ft)获得,即旧细胞遗忘的信息与新细胞加入的信息一同由ft决定,细胞状态更新公式,如公式(5)所示:
从上式中可以看出,遗忘门参数ft是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的,针对该加权系数采用自注意力机制来获取,即通过训练自注意力模型中的参数来获取细胞自身状态中的信息,以更新新的细胞状态,因此,遗忘门参数ft,可通公式(6)得到,
ft=σ(Vf×tanh(Wf×Ct-1)) (6)
其中,Vf为遗忘门内注意力机制待训练参数。
前述的基于注意力机制的语音情感识别方法,步骤(D),对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作,包括以下步骤,
(D1),时间维度的注意力加权操作
LSTM模型输出的最后一个时刻记为omax_time与整个输出记为ot作注意力运算的参数,将获取的加权系数作用在ot的时间维度上,并在时间维度上求和作为输出,如公式(7)、(8)所示,
sT=softmax(omax_time×(ot×wt)T) (7)
其中,sT表示时间维度上的注意力加权系数,wt是ot在时间维度的权重系数,·表示Hadamard乘法;outputT为时间维度上求和后的时间加权输出,sT与ot中表示时间维度的信息相乘,ot中表示时间维度是ot的中间一个维度;
(D2),特征维度的注意力加权操作
为表达特征的差异性,在LSTM模型的特征维度上进行注意力加权计算,如公式(9)、(10)所示,
sF=softmax(vF×tanh(ot×wF)) (9)
其中,sF为特征维度上的自注意力加权系数,vF为ot在特征维度的自注意力参数,wF为ot在特征维度权重系数,tanh为双曲函数,outputF为特征维度上求和后的时间加权输出,sT与ot中表示特征维度的信息相乘,ot中表示特征维度是ot的最后一个维度。
前述的基于注意力机制的语音情感识别方法,步骤(E),在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型,包括以下步骤,
(E1),将LSTM模型的时间维度上求和后的时间加权输出outputT、特征维度上求和后的时间加权输出outputF共同作为全连层的输入;
(E2),通过LSTM模型的软最大化层获得最终输出,做为完整的情感识别网络模型的输出。
前述的基于注意力机制的语音情感识别方法,步骤(F),训练情感识别网络模型,并对该情感识别网络模型的识别性能进行综合评测,评价标准为准确率precision,召回率recall以及分数F1,如公式(11)-(13)所示,
precision=(TP+TN)/(TP+TN+FN+FP) (11)
其中,TP是预测为正,实际为正的数量;FP是预测为正,实际为负的数量;TN是预测为负,实际为负的数量;FN是预测为负,实际为正的数量。
本发明的有益效果是:本发明的基于注意力机制的语音情感识别方法,通过注意力机制优化LSTM的遗忘门,不仅降低了LSTM模型运算复杂度,而且在一定程度上优化了情感识别性能,还通过注意力机制为LSTM模型的输出进行时间和特征维度的加权,以区分不同时间片段和不同特征对情感识别的影响,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。
附图说明
图1是本发明的基于注意力机制的语音情感识别方法的流程图;
图2是CASIA数据库下平均识别率随训练时间变化的训练收敛过程及测试集结果图;
图3是eNTERFACE数据库下平均识别率随训练时间变化的训练收敛过程及测试集结果图;
图4是CASIA数据库下的训练收敛过程及测试集结果图;
图5是eNTFRFACE数据库下的训练收敛过程及测试集结果图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于注意力机制的语音情感识别方法,包括以下步骤,
步骤(A),从原始语音数据中提取具有时序信息的语音特征,其中,提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息,且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的,详细语音特征集合如下表1所示,
表1详细语音特征集合表
步骤(B),建立具有处理变长数据能力的LSTM模型,具体实现过程如下表2的计算方法,
表2建立具有处理变长数据能力的LSTM模型的计算方法表
其中,audio为补零后的语音数据,t是时间步对应语音数据的帧数;sequence_length是计算实际有效长度的函数,遵循以下规则,
(B1),根据LSTM模型具有处理变长语音特征的能力,在不等长的语音数据结尾处补零至相同长度;
(B2),在LSTM模型训练前,补零后的语音数据实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得;
(B3),在LSTM模型参数更新训练时,只有实际有效的语音数据参与运算,补零的数据并不参与运算,
步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式,在LSTM中模型,遗忘门用来决定上一时刻细胞状态中什么样的信息应该丢弃,它会直接参与新细胞状态更新的计算中。在原始的LSTM模型中,遗忘门与细胞状态的更新计算只与上一时刻隐层输出与当前时刻输入有关,在此基础上,增加了窥视连接,将细胞状态也作为输入,将细胞状态也作为输入,该遗忘门计算方式,如公式(1)所示,
ft=σ(Wf×[Ct-1,ht-1,xt]+bf) (1)
该细胞状态更新,如公式(2)、(3)、(4)所示,
it=σ(Wi×[Ct-1,ht-1,xt]+bi) (2)
其中,ft为遗忘门参数,Ct为细胞状态更新参数,Ct-1和ht-1分别是上一时刻的细胞状态和隐层输出,xt是当前时刻的输入,是细胞状态更新的候选值,it是控制候选值的系数,Wf为LSTM模型内待训练的遗忘门外权重参数,bf为LSTM模型内待训练的遗忘门偏置参数,Wi为LSTM模型内待训练的控制候选值权重参数,bi为LSTM模型内待训练的控制候选值偏置参数,WC为LSTM模型内待训练的细胞状态更新权重参数,bC为LSTM模型内待训练的细胞状态更新偏置参数,σ为sigmod激活函数;
在该LSTM模型中it由(1-ft)获得,即旧细胞遗忘的信息与新细胞加入的信息一同由ft决定,细胞状态更新公式,如公式(5)所示,
从上式中可以看出,遗忘门参数ft是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的,针对该加权系数采用自注意力机制来获取,即通过训练自注意力模型中的参数来获取细胞自身状态中的信息,以更新新的细胞状态,因此,遗忘门参数ft,可通公式(6)得到,
ft=σ(Vf×tanh(Wf×Ct-1)) (6)
其中,Vf为遗忘门内注意力机制待训练参数,这里与原始遗忘门计算公式相比,该等式不含有ht-1与xt,因此,权重参数Wf的维度减少2/3(因为Ct-1,ht-1和xt具有相同的维度),所以待训练的参数变少,从而有效减少训练和测试计算量,在LSTM模型中,每个时刻点都需要计算遗忘门,所以单个遗忘门计算量的缩减,可以极大的提高LSTM模型训练的效率;
步骤(D),对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作,鉴于帧级语音特征中每一帧数据所蕴含的情感程度并不统一,即每帧数据对最终情感识别的贡献是不一样的,所以可以通过时间维度的加权来表达这种贡献程度,包括以下步骤,
(D1),时间维度的注意力加权操作
LSTM模型输出的最后一个时刻记为omax_time与整个输出记为ot作注意力运算的参数,将获取的加权系数作用在ot的时间维度上,并在时间维度上求和作为输出,如公式(7)、(8)所示,
sT=softmax(omax_time×(ot×wt)T) (7)
其中,sF为特征维度上的自注意力加权系数,wt是ot在时间维度的权重系数,outputF为特征维度上求和后的时间加权输出,sT与ot中表示特征维度的信息相乘,Ot中表示特征维度是Ot的最后一个维度;
(D2),特征维度的注意力加权操作
为表达特征的差异性,在LSTM模型的特征维度上进行注意力加权计算,如公式(9)、(10)所示,
sF=softmax(vF×tanh(ot×wF)) (9)
其中,sF为特征维度上的自注意力加权系数,vF为ot在特征维度的自注意力参数,wF为ot在特征维度权重系数,tanh为双曲函数,tanh为双曲函数,outputF为特征维度上求和后的时间加权输出,sT与ot中表示特征维度的信息相乘,ot中表示特征维度是ot的最后一个维度;
步骤(E),在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型,包括以下步骤,
(E1),将LSTM模型的时间维度上求和后的时间加权输出outputT、特征维度上求和后的时间加权输出outputF共同作为全连层的输入;
(E2),通过LSTM模型的软最大化层获得最终输出,做为完整的情感识别网络模型的输出;
步骤(F),训练情感识别网络模型,并对该情感识别网络模型的识别性能进行综合评测,评价标准为准确率precision,召回率recall以及分数F1,如公式(11)-(13)所示:
precision=(TP+TN)/(TP+TN+FN+FP) (11)
其中,TP是预测为正,实际为正的数量;FP是预测为正,实际为负的数量;TN是预测为负,实际为负的数量;FN是预测为负,
实际为正的数量。
模型训练的初始参数如下表7所示,其中CASIA数据库的初始学习率为0.0001,eNTERFACE数据库初始学习了为0.001,由于本发明对LSTM的输出矩阵进行了2种注意力加权操作,并将获得的结果组合在一起[outputT,outputF]作为全连层输入,所以全连层的单元数量会翻倍,表7中全连层的参数[256,128]对应由传统LSTM构建的网络,[512,128]为基于时间维度和特征维度注意力的LSTM网络,实验中其他参数保持不变,以保证不同网络具有可对比性。
表7模型参数
参数
Learning Rate 0.0001/0.001
Batch size 128
Hidden units(the first LSTM) 512
Hidden units(the second LSTM) 256
Hidden units(full c。nnecti。n layer) [512,128]/[256,128]
Hidden units(output) [128,6]
为评价步骤(C)对LSTM模型遗忘门优化的有效性,本发明在两组测试集上,将基于注意力门的LSTM模型(LSTM-at)与传统LSTM,基于注意力门的LSTM-TF模型(LSTM-TF-at)与LSTM-TF进行了对比实验,如图2和图3分别是CASIA和eNTERFACE数据库上平均识别率随训练时间变化的收敛曲线(图a)及测试结果(图b),这四个模型在CASIA数据库上进行了1200epoch训练,在eNTERFACE数据库上进行了1000epoch训练,即模型在相同的数据库上进行了相同的迭代步数,但从图中可以看出,每个模型训练相同的步数所需要的训练时间是不同的,基于注意力门的LSTM模型要比修正前的模型所需的时间代价要小。对比两个库上的训练时间,CASIA库训练时间较长,LSTM-at与LSTM,LSTM-TF-at与LSTM-TF的训练时间差明显大于eNTERFACE数据库的时间差。这说明随着训练时间的增加,基于注意力门的LSTM模型在训练时间上具有更突出的优势。此外,通过图2及图3(a)还可以发现基于注意力门的LSTM模型收敛所需时间更少,即收敛速度加快了。因此,这种注意力门比传统的遗忘门在时间层面上具有更优的性能。
为定量分析基于注意力门的LSTM模型在识别性能方面的情况,取每个模型的最佳识别性能作分析,如下3及表4所示,基于注意力门的LSTM虽然减少了模型内部的矩阵运算量,但对于6种情感的整体平均识别性能而言,并没有产生负面影响,甚至比原始模型有了一定程度的改善。与传统LSTM模型的基线相比,LSTM-at模型在CASIA和eNTERFACE两个语料库上分别提升了约1%和6%;与LSTM-TF相比,LSTM-TF-at模型在CASIA和eNTERFACE两个语料库上分别提升了约1%和3%,如表3及表4所示,
表3CASIA库上基于注意力门的LSTM模型识别性能
表4eNTERFACE库上基于注意力门的LSTM模型识别性能
为评价步骤(D)对LSTM输出进行了注意力加权的有效性,本发明对比了普通LSTM,仅时间维度加权的LSTM(LSTM-T),仅特征维度加权的LSTM(LSTM-F),时间与特征维度同时加权的LSTM(LSTM-TF),如图4和图5分别是CASIA与eNTERFACE的训练收敛过程(图a)及测试集结果(图b),纵轴为平均识别率,为客观表达模型性能,以下分析全部是基于测试集的识别结果展开的。在这两个数据库上,经过时间维度或特征维度注意力加权后的模型比传统LSTM所获得的识别率高。通过图4和图5的测试集结果图(b)可以看出,在CASIA库上,LSTM-T要比LSTM-F略好一些,而在eNTERFACE语料库上,则是一个相反的结果。因为在汉语情感表达中,存在明显的语音声调的变化(即平仄音的变化),因而其时间维度上信息的差异要高于英语。而原始IS2010特征集合是针对英语而提出的,因而在eNTERFACE数据库上,特征加权后的效果更加明显。但LSTM-TF在两个数据上均获得了最佳性能。此外,经注意力加权后的三种模型比传统LSTM具有更快的收敛速度,因为经过注意力加权后的数据强化了关键信息,突出了有效情感信息,使得模型能够加快收敛。
为定量评估步骤(D)的效果,下表5及6,分别是CASIA和eNTERFACE数据库上识别结果,从表5及6中可以看出,Anger情感在两个数据库上相比于其他情感类别具有较高的识别率。在CASIA上,基于注意力的LSTM模型对Fear和Sad两种情感识别上有了明显提高,但整体的识别性能比LSTM仅提高了2%,可能原因是该数据库识别性能基线较高,提升空间有限。而在eNTERFACE语料库上,LSTM-F模型获得的结果与特征分析基本一致,即sad情感具有最高的情感识别率,而disgust,fear和surprise情感识别率相对较低;但6种情感通过注意力加权后的LSTM模型都具有了明显提高,且整体识别性能提高了约11%,这说明经注意力加权后的深层特征强化了关键情感信息,从而提高了识别性能,尤其是对原本识别率较低的情感类别具有明显的改善。
表5CASIA库上基于输出加权的情感识别结果
表6eNTERFACE库上基于输出加权的情感识别结果
综上所述,本发明的基于注意力机制的语音情感识别方法,通过注意力机制优化LSTM的遗忘门,不仅降低了LSTM模型运算复杂度,而且在一定程度上优化了情感识别性能,还通过注意力机制为LSTM模型的输出进行时间和特征维度的加权,以区分不同时间片段和不同特征对情感识别的影响,能够提高语音情感识别的性能,方法巧妙新颖,具有良好的应用前景。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.基于注意力机制的语音情感识别方法,其特征在于:包括以下步骤,
步骤(A),从原始语音数据中提取具有时序信息的语音特征;
步骤(B),建立具有处理变长数据能力的LSTM模型;
步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式;
步骤(D),对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作;
步骤(E),在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型;
步骤(F),训练情感识别网络模型,并对该情感识别网络模型的识别性能进行评测。
2.根据权利要求1所述的基于注意力机制的语音情感识别方法,其特征在于:步骤(A),提取具有时序信息的语音特征是通过语音帧之间的序列关系保留了原始语音数据中的时序信息,且该具有时序信息的语音特征的维度是随原始语音数据的实际长度而变化的。
3.根据权利要求1所述的基于注意力机制的语音情感识别方法,其特征在于:步骤(B),建立具有处理变长数据能力的LSTM模型,遵循以下规则,
(B1),根据LSTM模型具有处理变长语音特征的能力,在不等长的语音数据结尾处补零至相同长度;
(B2),在LSTM模型训练前,补零后的语音数据实际有效长度通过每帧数据的绝对值求和并判断是否为零来获得;
(B3),在LSTM模型参数更新训练时,只有实际有效的语音数据参与运算,补零的数据并不参与运算。
4.根据权利要求1所述的基于注意力机制的语音情感识别方法,其特征在于:步骤(C),通过注意力机制优化LSTM模型中的遗忘门计算方式,是在遗忘门与细胞状态的更新计算过程中增加窥视连接,将细胞状态也作为输入,该遗忘门计算方式,如公式(1)所示,ft=σ(Wf×[Ct-1,ht-1,xt]+bf) (1)
该细胞状态更新,如公式(2)、(3)、(4)所示,
it=σ(Wi×[Ct-1,ht-1,xt]+bi) (2)
其中,ft为遗忘门参数,Ct为细胞状态更新参数,Ct-1和ht-1分别为上一时刻的细胞状态和隐层输出,xt为当前时刻的输入,为细胞状态更新的候选值,it为控制候选值的系数,Wf为LSTM模型内待训练的遗忘门外权重参数,bf为LSTM模型内待训练的遗忘门偏置参数,Wi为LSTM模型内待训练的控制候选值权重参数,bi为LSTM模型内待训练的控制候选值偏置参数,WC为LSTM模型内待训练的细胞状态更新权重参数,bC为LSTM模型内待训练的细胞状态更新偏置参数,σ为sigmod激活函数;
在该LSTM模型中it由(1-ft)获得,即旧细胞遗忘的信息与新细胞加入的信息一同由ft决定,细胞状态更新公式,如公式(5)所示:
从上式中可以看出,遗忘门参数ft是通过对新旧细胞状态加权求和来更新当前时刻细胞状态的,针对该加权系数采用自注意力机制来获取,即通过训练自注意力模型中的参数来获取细胞自身状态中的信息,以更新新的细胞状态,因此,遗忘门参数ft,可通公式(6)得到,
ft=σ(Vf×tanh(Wf×Ct-1)) (6)
其中,Vf为遗忘门内注意力机制待训练参数。
5.根据权利要求1所述的基于注意力机制的语音情感识别方法,其特征在于:步骤(D),对优化后的LSTM模型输出的同时,进行时间维度和特征维度的注意力加权操作,包括以下步骤,
(D1),时间维度的注意力加权操作
LSTM模型输出的最后一个时刻记为omax_time与整个输出记为ot作注意力运算的参数,将获取的加权系数作用在ot的时间维度上,并在时间维度上求和作为输出,如公式(7)、(8)所示,
sT=softmax(omax_time×(ot×wt)T) (7)
其中,sT表示时间维度上的注意力加权系数,wt是ot在时间维度的权重系数,·表示Hadamard乘法;outputT为时间维度上求和后的时间加权输出,sT与ot中表示时间维度的信息相乘,ot中表示时间维度是ot的中间一个维度;
(D2),特征维度的注意力加权操作
为表达特征的差异性,在LSTM模型的特征维度上进行注意力加权计算,如公式(9)、(10)所示,
sF=softmax(vF×tanh(ot×wF)) (9)
其中,sF为特征维度上的自注意力加权系数,vF为ot在特征维度的自注意力参数,wF为ot在特征维度权重系数,tanh为双曲函数,outputF为特征维度上求和后的时间加权输出,sT与ot中表示特征维度的信息相乘,ot中表示特征维度是ot的最后一个维度。
6.根据权利要求5所述的基于注意力机制的语音情感识别方法,其特征在于:步骤(E),在LSTM模型上添加全连层与软最大化层,构建形成完整的情感识别网络模型,包括以下步骤,
(E1),将LSTM模型的时间维度上求和后的时间加权输出outputT、特征维度上求和后的时间加权输出outputF共同作为全连层的输入;
(E2),通过LSTM模型的软最大化层获得最终输出,做为完整的情感识别网络模型的输出。
7.根据权利要求1所述的基于注意力机制的语音情感识别方法,其特征在于:步骤(F),训练情感识别网络模型,并对该情感识别网络模型的识别性能进行综合评测,评价标准为准确率precision,召回率recall以及分数F1,如公式(11)-(13)所示,
precision=(TP+TN)/(TP+TN+FN+FP) (11)
其中,TP是预测为正,实际为正的数量;FP是预测为正,实际为负的数量;TN是预测为负,实际为负的数量;FN是预测为负,实际为正的数量。
CN201811135064.7A 2018-09-28 2018-09-28 基于注意力机制的语音情感识别方法 Active CN109285562B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811135064.7A CN109285562B (zh) 2018-09-28 2018-09-28 基于注意力机制的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811135064.7A CN109285562B (zh) 2018-09-28 2018-09-28 基于注意力机制的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN109285562A true CN109285562A (zh) 2019-01-29
CN109285562B CN109285562B (zh) 2022-09-23

Family

ID=65182212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811135064.7A Active CN109285562B (zh) 2018-09-28 2018-09-28 基于注意力机制的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN109285562B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110223714A (zh) * 2019-06-03 2019-09-10 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110223706A (zh) * 2019-03-06 2019-09-10 天津大学 基于注意力驱动循环卷积网络的环境自适应语音增强算法
CN110321566A (zh) * 2019-07-10 2019-10-11 北京邮电大学 中文命名实体识别方法、装置、计算机设备和存储介质
CN110347192A (zh) * 2019-06-17 2019-10-18 武汉理工大学 基于注意力机制和自编码器的玻璃炉温智能预测控制方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110534133A (zh) * 2019-08-28 2019-12-03 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110556130A (zh) * 2019-09-17 2019-12-10 平安科技(深圳)有限公司 语音情绪识别方法、装置及存储介质
CN110633689A (zh) * 2019-09-23 2019-12-31 天津天地基业科技有限公司 基于半监督注意力网络的人脸识别模型
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN110956953A (zh) * 2019-11-29 2020-04-03 中山大学 基于音频分析与深度学习的争吵识别方法
CN111524535A (zh) * 2020-04-30 2020-08-11 杭州电子科技大学 基于注意力机制的特征融合用于语音情感识别的方法
CN111640424A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN112085384A (zh) * 2020-09-08 2020-12-15 华侨大学 一种基于模糊推理与lstm结合的邮寄物风险评价方法与系统
CN112185423A (zh) * 2020-09-28 2021-01-05 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112349301A (zh) * 2019-08-06 2021-02-09 本田技研工业株式会社 信息处理装置、信息处理方法以及记录介质
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
CN113284515A (zh) * 2021-04-19 2021-08-20 大连海事大学 一种基于物理波和循环网络的语音情感识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
JP2017211703A (ja) * 2016-05-23 2017-11-30 三菱電機株式会社 運転評価装置および運転評価プログラム
CN108172209A (zh) * 2018-01-09 2018-06-15 上海大学 构建语音偶像方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017211703A (ja) * 2016-05-23 2017-11-30 三菱電機株式会社 運転評価装置および運転評価プログラム
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108172209A (zh) * 2018-01-09 2018-06-15 上海大学 构建语音偶像方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN109817246A (zh) * 2019-02-27 2019-05-28 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN111640424A (zh) * 2019-03-01 2020-09-08 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN111640424B (zh) * 2019-03-01 2024-02-13 北京搜狗科技发展有限公司 一种语音识别方法、装置和电子设备
CN110223706A (zh) * 2019-03-06 2019-09-10 天津大学 基于注意力驱动循环卷积网络的环境自适应语音增强算法
CN110223706B (zh) * 2019-03-06 2021-05-07 天津大学 基于注意力驱动循环卷积网络的环境自适应语音增强算法
CN110223714A (zh) * 2019-06-03 2019-09-10 杭州哲信信息技术有限公司 一种基于语音的情绪识别方法
CN110347192A (zh) * 2019-06-17 2019-10-18 武汉理工大学 基于注意力机制和自编码器的玻璃炉温智能预测控制方法
CN110347192B (zh) * 2019-06-17 2020-11-03 武汉理工大学 基于注意力机制和自编码器的玻璃炉温智能预测控制方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110321566A (zh) * 2019-07-10 2019-10-11 北京邮电大学 中文命名实体识别方法、装置、计算机设备和存储介质
CN112349301A (zh) * 2019-08-06 2021-02-09 本田技研工业株式会社 信息处理装置、信息处理方法以及记录介质
CN110534133A (zh) * 2019-08-28 2019-12-03 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110534133B (zh) * 2019-08-28 2022-03-25 珠海亿智电子科技有限公司 一种语音情感识别系统及语音情感识别方法
CN110556130A (zh) * 2019-09-17 2019-12-10 平安科技(深圳)有限公司 语音情绪识别方法、装置及存储介质
CN110633689A (zh) * 2019-09-23 2019-12-31 天津天地基业科技有限公司 基于半监督注意力网络的人脸识别模型
CN110675860A (zh) * 2019-09-24 2020-01-10 山东大学 基于改进注意力机制并结合语义的语音信息识别方法及系统
CN110956953A (zh) * 2019-11-29 2020-04-03 中山大学 基于音频分析与深度学习的争吵识别方法
CN110956953B (zh) * 2019-11-29 2023-03-10 中山大学 基于音频分析与深度学习的争吵识别方法
CN111524535A (zh) * 2020-04-30 2020-08-11 杭州电子科技大学 基于注意力机制的特征融合用于语音情感识别的方法
CN111524535B (zh) * 2020-04-30 2022-06-21 杭州电子科技大学 基于注意力机制的特征融合用于语音情感识别的方法
CN112085384A (zh) * 2020-09-08 2020-12-15 华侨大学 一种基于模糊推理与lstm结合的邮寄物风险评价方法与系统
CN112185423B (zh) * 2020-09-28 2023-11-21 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112185423A (zh) * 2020-09-28 2021-01-05 南京工程学院 基于多头注意力机制的语音情感识别方法
CN112434161A (zh) * 2020-11-24 2021-03-02 哈尔滨工程大学 一种采用双向长短期记忆网络的方面级情感分析方法
CN112581979B (zh) * 2020-12-10 2022-07-12 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN112581979A (zh) * 2020-12-10 2021-03-30 重庆邮电大学 一种基于语谱图的语音情绪识别方法
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
CN113284515A (zh) * 2021-04-19 2021-08-20 大连海事大学 一种基于物理波和循环网络的语音情感识别方法
CN113284515B (zh) * 2021-04-19 2023-05-02 大连海事大学 一种基于物理波和循环网络的语音情感识别方法

Also Published As

Publication number Publication date
CN109285562B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN109285562A (zh) 基于注意力机制的语音情感识别方法
Ma et al. Emotion recognition from variable-length speech segments using deep learning on spectrograms.
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN109523994A (zh) 一种基于胶囊神经网络的多任务语音分类方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN109165387A (zh) 一种基于gru神经网络的中文评论情感分析法
CN111506732B (zh) 一种文本多层次标签分类方法
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN110033281A (zh) 一种智能客服至人工客服转换的方法及装置
CN110349597A (zh) 一种语音检测方法及装置
Han et al. Speech emotion recognition with a ResNet-CNN-Transformer parallel neural network
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
CN109886021A (zh) 一种基于api全局词向量和分层循环神经网络的恶意代码检测方法
CN110334243A (zh) 基于多层时序池化的音频表示学习方法
CN112417894A (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN111309909A (zh) 一种基于混合模型的文本情感分类方法
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN116524960A (zh) 一种基于混合熵下采样和集成分类器的语音情感识别系统
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
Jiang et al. Speech Emotion Recognition Using Deep Convolutional Neural Network and Simple Recurrent Unit.
CN106448660A (zh) 一种引入大数据分析的自然语言模糊边界确定方法
CN116050419A (zh) 一种面向科学文献知识实体的无监督识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant