CN113724732B - 一种基于多头注意力机制融合的卷积递归神经网络模型 - Google Patents

一种基于多头注意力机制融合的卷积递归神经网络模型 Download PDF

Info

Publication number
CN113724732B
CN113724732B CN202110467449.9A CN202110467449A CN113724732B CN 113724732 B CN113724732 B CN 113724732B CN 202110467449 A CN202110467449 A CN 202110467449A CN 113724732 B CN113724732 B CN 113724732B
Authority
CN
China
Prior art keywords
network
head
fusion
emotion
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110467449.9A
Other languages
English (en)
Other versions
CN113724732A (zh
Inventor
陶华伟
方元博
傅洪亮
姜芃旭
韩伟良
刘曼
庄志豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan University of Technology
Original Assignee
Henan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan University of Technology filed Critical Henan University of Technology
Priority to CN202110467449.9A priority Critical patent/CN113724732B/zh
Publication of CN113724732A publication Critical patent/CN113724732A/zh
Application granted granted Critical
Publication of CN113724732B publication Critical patent/CN113724732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多头注意力机制融合的卷积递归神经网络模型。首先,提出了一种全卷积网络用于提取语音谱图情感特征,该网络以Alexnet网络为基础模型,通过在Alexnet网络池化层后添加分支的方法阻止情感信息损失;采用2层BiLSTM网络提取语音帧级情感特征,并将BiLSTM网络与全卷积网络并行连接,组成混合网络,用于提取语音情感特征;其次,提出了一种基于多头注意力机制的特征融合算法,该方法利用多头注意力机制实现Alexnet网络与BiLSTM网络特征自适应融合,同时,为抑制网络梯度发散,将混合网络提取的特征与多头注意力融合特征通过shortcut connection连接,构成用于情感识别的特征;最后,将特征送入softmax分类器中,实现情感分类。

Description

一种基于多头注意力机制融合的卷积递归神经网络模型
技术领域
本发明属于语音信号处理技术领域,具体涉及到一种基于多头注意力机制融合的卷积递归神经网络模型。
背景技术
作为人类沟通交流最便捷的手段之一,语音在人机交互领域备受关注,然而,语音中除了内容信息外,还包含了情感信息。为使人机交互系统更加智能,开展针对语音情感识别的研究具备重大的研究意义和实用价值。
近些年,为构建高性能的语音情感识别系统,学者们从不同方向进行了大量的研究,例如情感模型构建、语音情感数据库录制、语音情感特征提取、特征选择及处理,语音情感分类识别等等。随着机器学习相关技术的发展,深度学习技术被广泛应用于语音情感识别领域,且取得了优异的成绩。鉴于单个网络特征提取能力有限,许多学者采用混合神经网络模型从语音中提取相关情感信息,然而现有模型多采用全连接层或简单拼接的方法实现不同网络特征的融合,但不同网络的特征空间存在较大的差异,简单的融合无法获取最优特征集,因此,针对该领域的研究仍需进一步探索。
发明内容
针对现有语音情感识别模型所存在的问题,本发明公开了一种基于多头注意力机制融合的卷积递归神经网络模型,包括以下步骤:
(1)对于每一条语音数据,采用Mel谱滤波器对语音进行处理,获得帧级数据Frames,将每条语音的所有帧级数据拼接在一起,组成2维Mel谱图像Mel,计算Mel谱图像的一阶、二阶导数,记为ΔMel,ΔΔMel,利用Mel,ΔMel,ΔΔMel 构建成3维图片;
(2)搭建特征提取网络,该网络由一个全卷积网络和一个双向长短时记忆 (Bi-directional Long Short-Term Memory,BiLSTM)网络组成,具体实现步骤如下:
首先,采用全卷积网络提取语音谱图情感特征,全卷积网络是在Alexnet网络基础上搭建的,全卷积网络的输出由3个分支组成,如公式(1)所示:
output=(b1+b2+b3) (1)
在Alexnet网络第一、第二、第三个池化层后,添加一个分支,每个分支由 1*1的卷积层和全局平均池化层组成,全卷积网络采用步骤(1)中构建的3维图片作为全卷积网络的输入;
其次,采用BiLSTM提取语音的帧级情感特征,步骤(1)中的帧级数据Frames 作为BiLSTM网络的输入;
将两个网络提取到的情感特征经批归一化后,两个网络归一化特征F1,F2 作为后面步骤的输入;
(3)特征融合:为了提高识别性能,构建了一种基于多头注意力的多特征融合算法,具体操作如下:
以多头注意力机制中的某个头算法为例,首先将两个网络输出的特征F1和 F2的维数变为[B,1,N]然后将F1和F2拼接得到特征F,F的维数为[B,2,N], 其中B表示批归一化数量的大小,2代表两个不同的特征空间,N代表特征维数的大小,采用自注意力机制算法计算注意力权重,如公式(2)、(3)所示:
αF=softmax(tanh(F×WF)×VF) (2)
Attention(F1,F2)=∑αF×F (3)
其中,WF,VF∈RN×N为可训练的注意力参数,注意力权重与拼接特征F加权求和即可求得输出的值,如公式(3)所示;
多头注意力机制融合输出由每个头融合特征相加求得,如公式(4)、(5)、 (6)所示,在相加融合的过程中,每个头的输出层加入Dropout,以此来提高多头输出特征的鲁棒性;
headi=Attentioni(F1,F2) (4)
headi′=Dropout(headi) (5)
Multihead(F1,F2)=Add(head1′,...,headn′) (6)
为避免网络梯度发散,如公式(7)所示,将步骤(2)中不同网络的输出与公式(6)多头注意力机制融合特征通过shortcut connection连接,得到用于情感识别的特征Ffin
Ffin=Add(F1,F2,Multihead(F1,F2)) (7)
(4)分类识别输出:将步骤(3)得到的Ffin特征归一化后送入softmax 层,并采用有标签的数据对整个网络进行训练,得到用于情感识别的网络模型。
附图说明:
图1为系统流程图;
图2为训练集识别曲线;
图3为测试集识别曲线。
具体实施方式:
下面结合具体实施方式对本发明做更进一步的说明。
针对现有语音情感识别模型所存在的问题,本发明公开了一种基于多头注意力机制融合的卷积递归神经网络模型,包括以下步骤:
(1)在语音处理预处理阶段给情感语音添加标签;
(2)对于每一条语音数据,采用64通道的Mel谱滤波器对语音进行处理,窗函数采用25ms汉明窗,10ms的帧移,最终获得帧级数据Frames,将每条语音的所有帧级数据拼接在一起,组成2维Mel谱图像Mel,计算Mel谱图像的一阶、二阶导数,记为ΔMel,ΔΔMel,利用Mel,ΔMel,ΔΔMel构建成3维图片;
(3)搭建特征提取网络,该网络由一个全卷积网络和一个BiLSTM网络组成,具体实现步骤如下:
首先,采用全卷积网络提取语音谱图情感特征,全卷积网络是在Alexnet网络基础上搭建的,全卷积网络的输出由3个分支组成,如公式(1)所示:
output=(b1+b2+b3) (1)
在Alexnet网络第一、第二、第三个池化层后,添加一个分支,每个分支由 1*1的卷积层和全局平均池化层组成,全卷积网络采用步骤(1)中构建的3维图片作为全卷积网络的输入,每个分支的输出bi(n=0,1,2)设为2048,删除了 AlexNet网络的全连接层,最终通过每个分支的相加求平均获得最终特征,对于全卷积网络的初始化,仍然采用Imagenet训练好的AlexNet网络参数初始化全卷积网络主体部分,对于三个分支中1*1的卷积,随机生成相关参数;
其次,采用BiLSTM提取语音的帧级情感特征,步骤(1)中的帧级数据Frames 作为BiLSTM网络的输入;
将两个网络提取到的情感特征经批归一化后,两个网络归一化特征F1,F2 作为后面步骤的输入;
(4)特征融合:为了提高识别性能,构建了一种基于多头注意力的多特征融合算法,具体操作如下:
以多头注意力机制中的某个头算法为例,首先将两个网络输出的特征F1和 F2的维数变为[B,1,N]然后将F1和F2拼接得到特征F,F的维数为[B,2,N], 其中B表示批归一化数量的大小,2代表两个不同的特征空间,N代表特征维数的大小,采用自注意力机制算法计算注意力权重,如公式(2)、(3)所示:
αF=softmax(tanh(F×WF)×VF) (2)
Attention(F1,F2)=∑αF×F (3)
其中,WF,VF∈RN×N为可训练的注意力参数,注意力权重与拼接特征F加权求和即可求得输出的值,如公式(3)所示;
多头注意力机制融合输出由每个头融合特征相加求得,如公式(4)、(5)、 (6)所示,在相加融合的过程中,每个头的输出层加入Dropout,以此来提高多头输出特征的鲁棒性;
headi=Attentioni(F1,F2) (4)
headi′=Dropout(headi) (5)
Multihead(F1,F2)=Add(head1′,...,headn′) (6)
为避免网络梯度发散,如公式(7)所示,将步骤(3)中不同网络的输出与公式(6)多头注意力机制融合特征通过shortcut connection连接,得到用于情感识别的特征Ffin
Ffin=Add(F1,F2,Multihead(F1,F2)) (7)
(5)分类识别输出:将步骤(4)得到的Ffin特征归一化后送入softmax 层,并采用有标签的数据对整个网络进行训练,得到用于情感识别的网络模型。
仿真实验及具体参数
为验证本发明所公开模型的性能,在CASIA数据库上进行测试,该库由中科院自动化所录制而成,是一个中文的语音情感库。该库由4名演员(2男,2女) 录制了6中不同的情感,情感类型包括:anger,fear,happy,neutral,sad,surprise。实验策略:随机选取80%的数据作为训练集,选取20%的数据作为测试集。
表1给出了本发明所采用的全卷积网络和BiLSTM网络的具体参数,本发明所采用的网络基于TensorFlow框架进行搭建,采用在ImageNet训练的AlexNet 参数初始化全卷积网络,输出特征为2048维特征;Bi-LSTM包含1个隐层,输出特征为2048维特征;在多头融合中,注意力机制头数设为16,dropout参数设置为0.5;通过最小化交叉熵目标函数优化模型参数;实验中使用了Adam优化器,初始学习率设置为0.00001。表1中B表示每次迭代的批大小,L表示数据集帧大小,
图2、图3分别表示CASIA库上训练集和测试集的识别结果,可以看出在训练集上,约50轮后,算法就开始收敛,在测试集上最优识别率达到90%。
表1具体参数

Claims (1)

1.一种基于多头注意力机制融合的卷积递归神经网络模型,其特征在于,包括以下步骤:
(1)对于每一条语音数据,采用Mel谱滤波器对语音进行处理,获得帧级数据Frames,将每条语音的所有帧级数据拼接在一起,组成2维Mel谱图像Mel,计算Mel谱图像的一阶、二阶导数,记为ΔMel,ΔΔMel,利用Mel,ΔMel,ΔΔMel构建成3维图片;
(2)搭建特征提取网络,首先该网络由一个全卷积网络和一个双向长短时记忆网络BiLSTM组成,具体实现步骤如下:
首先,采用全卷积网络提取语音谱图情感特征,全卷积网络是在Alexnet网络基础上搭建的,全卷积网络的输出由3个分支组成,如公式(1)所示:
output=(b1+b2+b3) (1)
在Alexnet网络第一、第二、第三个池化层后,添加一个分支,每个分支由1*1的卷积层和全局平均池化层组成,全卷积网络采用步骤(1)中构建的3维图片作为全卷积网络的输入;
其次,采用BiLSTM提取语音的帧级情感特征,步骤(1)中的帧级数据Frames作为BiLSTM网络的输入;
将两个网络提取到的情感特征经批归一化后,两个网络归一化特征F1,F2作为后面步骤的输入;
(3)特征融合:为了提高识别性能,构建了一种基于多头注意力的多特征融合算法,具体操作如下:
以多头注意力机制中的某个头算法为例,首先将两个网络输出的特征F1和F2的维数变为[B,1,N]然后将F1和F2拼接得到特征F,F的维数为[B,2,N],其中B表示批归一化数量的大小,2代表两个不同的特征空间,N代表特征维数的大小,采用自注意力机制算法计算注意力权重,如公式(2)、(3)所示:
αF=softmax(tanh(F×WF)×VF) (2)
Attention(F1,F2)=∑αF×F (3)
其中,WF,VF∈RN×N为可训练的注意力参数,注意力权重与拼接特征F加权求和即可求得输出的值,如公式(3)所示;
多头注意力机制融合输出由每个头融合特征相加求得,如公式(4)、(5)、(6)所示,在相加融合的过程中,每个头的输出层加入Dropout,以此来提高多头输出特征的鲁棒性;
headi=Attentioni(F1,F2) (4)
headi′=Dropout(headi) (5)
Multihead(F1,F2)=Add(head1′,...,headn′) (6)
为避免网络梯度发散,如公式(7)所示,将步骤(2)中不同网络的输出与公式(6)多头注意力机制融合特征通过shortcut connection连接,得到用于情感识别的特征Ffin
Ffin=Add(F1,F2,Multihead(F1,F2)) (7)
(4)分类识别输出:将步骤(3)得到的Ffin特征归一化后送入softmax层,并采用有标签的数据对整个网络进行训练,得到用于情感识别的网络模型。
CN202110467449.9A 2021-04-28 2021-04-28 一种基于多头注意力机制融合的卷积递归神经网络模型 Active CN113724732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110467449.9A CN113724732B (zh) 2021-04-28 2021-04-28 一种基于多头注意力机制融合的卷积递归神经网络模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110467449.9A CN113724732B (zh) 2021-04-28 2021-04-28 一种基于多头注意力机制融合的卷积递归神经网络模型

Publications (2)

Publication Number Publication Date
CN113724732A CN113724732A (zh) 2021-11-30
CN113724732B true CN113724732B (zh) 2023-12-01

Family

ID=78672698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110467449.9A Active CN113724732B (zh) 2021-04-28 2021-04-28 一种基于多头注意力机制融合的卷积递归神经网络模型

Country Status (1)

Country Link
CN (1) CN113724732B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491415A (zh) * 2019-09-23 2019-11-22 河南工业大学 一种基于卷积神经网络和简单循环单元的语音情感识别方法
CN110534132A (zh) * 2019-09-23 2019-12-03 河南工业大学 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111524535A (zh) * 2020-04-30 2020-08-11 杭州电子科技大学 基于注意力机制的特征融合用于语音情感识别的方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491415A (zh) * 2019-09-23 2019-11-22 河南工业大学 一种基于卷积神经网络和简单循环单元的语音情感识别方法
CN110534132A (zh) * 2019-09-23 2019-12-03 河南工业大学 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111524535A (zh) * 2020-04-30 2020-08-11 杭州电子科技大学 基于注意力机制的特征融合用于语音情感识别的方法
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Parallelized Convolutional Recurrent Neural Network With Spectral Features for Speech Emotion Recognition;pengxu jiang etc.;《IEEE Access》;正文90368-90377页 *
Speech Emotion Recognition Using Deep Convolutional Neural Network and Simple Recurrent Unit;Pengxu Jiang etc.;《Engineering Letters》;正文全文 *
一种基于卷积神经网络特征表征的语音情感识别方法;姜芃旭 等;《电子器件》;第42卷(第4期);正文998-1001 *
基于深度学习的语音情感特征提取及处理算法研究;姜芃旭;《中国优秀硕士学位论文全文数据库 信息科技辑》(第01期);正文33-44页 *
结合改进Bi-LSTM和CNN的文本情感分析;郭勇 等;《信息技术》(第2期);正文50-55页 *

Also Published As

Publication number Publication date
CN113724732A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
Pandey et al. Deep learning techniques for speech emotion recognition: A review
Sun et al. Speech emotion recognition based on DNN-decision tree SVM model
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN108899051B (zh) 一种基于联合特征表示的语音情感识别模型及识别方法
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN110534132A (zh) 一种基于谱图特征的并行卷积循环神经网络的语音情感识别方法
CN111046661B (zh) 基于图卷积网络的阅读理解方法
CN111583964B (zh) 一种基于多模深度特征学习的自然语音情感识别方法
CN109119072A (zh) 基于dnn-hmm的民航陆空通话声学模型构建方法
CN108711421A (zh) 一种语音识别声学模型建立方法及装置和电子设备
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN108053840A (zh) 一种基于pca-bp的情绪识别方法及系统
CN108615525A (zh) 一种语音识别方法及装置
CN112784730A (zh) 一种基于时域卷积网络的多模态情感识别方法
CN109858412A (zh) 一种基于混合卷积神经网络的唇语识别方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN112233655B (zh) 一种提高语音命令词识别性能的神经网络训练方法
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN113362822A (zh) 一种具有听觉隐蔽性的黑盒语音对抗样本生成方法
CN111899766B (zh) 基于深度特征与声学特征寻优融合的语音情感识别方法
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN114678030A (zh) 基于深度残差网络和注意力机制的声纹识别方法及装置
CN108831486B (zh) 基于dnn与gmm模型的说话人识别方法
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant