CN114758676A - 一种基于深度残差收缩网络的多模态情感识别方法 - Google Patents
一种基于深度残差收缩网络的多模态情感识别方法 Download PDFInfo
- Publication number
- CN114758676A CN114758676A CN202210401444.0A CN202210401444A CN114758676A CN 114758676 A CN114758676 A CN 114758676A CN 202210401444 A CN202210401444 A CN 202210401444A CN 114758676 A CN114758676 A CN 114758676A
- Authority
- CN
- China
- Prior art keywords
- network
- emotion recognition
- deep
- emotion
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 54
- 230000008451 emotion Effects 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 claims description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000006461 physiological response Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Psychiatry (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Machine Translation (AREA)
Abstract
一种基于深度残差收缩网络的多模态情感识别方法,属于语音情感识别方法的领域。现有的情感识别方法受到周围环境噪音的影响,在提取特征的时候由于特征冗余,存在过拟合的问题。本发明将语谱图特征送入加入注意力机制的深度残差收缩网络,去除语谱图特征的冗余特征,之后通过深度神经网络进行深层次特征处理,之后进行情感识别分类;将文本信号送入XLnet模型进行特征处理,之后经过深度神经网络进行深层次特征处理,进行文本情感识别;得到的两个结果进行决策层融合,得到情感识别结果。本发明通过提高情感分析模型预测的准确性,以及将深度残差收缩网络运用到声谱图的特征选择上,提高情感识别方法的准确性。
Description
技术领域
本发明涉及一种语音情感识别方法,特别涉及一种基于深度残差收缩网络的多模态情感识别方法。
背景技术
伴随着科学技术的不断进步,人工智能的时代已经悄然到来。从1946年世界上第一台通用计算机“ENIAC”诞生到如今大家足不出户滑动指尖就可以阅览世界,我们对于机器设备的期望不再只停留于科学计算,如何让计算机更加智能高效、人机交互更加和谐流畅成为越来越多科技从业者的工作目标和价值追求。情感智能被大家广泛认为是改善人机交互的重要组成部分。让机器拥有情感智能,即感知人类的情感并给出适当的反馈,最根本的是要进行情感计算。
情感是人类交流的具体体现,在人机交互中起着重要的作用。而情感识别是情感计算的基础,能否进行情感识别直接影响情感计算的实现。语音信息作为人类最直接的交流手段,其本身能传递丰富的信息资源,但介于音频信号本身存在一些固有缺陷,如信号弱、噪声强等,从单一的模型获得正确的情感状态很难满足当前情感识别系统的需求。值得注意的是,人们在交流中表达个人情感往往是通过不同的表现形式传达的,面部表情、声音语调、谈吐表达、肢体动作等都是表达内心情感的有效途径。人类表达情感方式的多元化也对情感计算提出了更高的要求。
随着移动设备的广泛使用和网络社交平台的极大普及,大量有关于情感且形式多样的数据变得更容易获取。声音信号,文本语句,面部表情,手势姿态等多模态数据为进一步提升人机交互提供了有益的支撑,多模态情感识别应运而生。
多模态学习情感计算是通过采集多模态数据,利用数据融合与建模方法整合多通道情感信息,发现学习过程中真实的情感变化过程,帮助研究者与实践者理解复杂的学习行为,是突破教育发展瓶颈与优化学习理论的重要途径。当前,多模态情感测量涉及心理、行为和生理层面,涵盖文本、语音、面部表情、身体姿态、生理信息等数据维度。其中,心理测量是运用自我报告的方式获取学习者主观的情感体验;行为测量是利用摄像机、麦克风、鼠标、键盘等工具采集相关数据来分析学习情感状态;而生理测量则是采用传感器捕捉学习者生理反应。多模态的融合利用语音、生理信号、面部表情等多个通道的情感信息互补性提高分类器的识别性能,从而提高识别分类器的准确度。多模态融合的优势在于,当某一个通道的特征或者识别过程受到缺失或者影响时,另一个通道仍能保证较好识别率,使识别系统具有一个良好的鲁棒性。
此外,根据情绪产生理论,在交流中人类的情感不仅会受到自己历史情感的影响而且还会捕捉到情景中他人情感传递的影响。与单独语句的情感检测不同,目标说话人和其他说话人的对话句子能够提供语音信息级别的情感识别的补充信息。所以对话中的情感识别引起了研究人员的广泛关注。在人与人的语音对话中,可能会受到周围环境噪音的影响,在提取特征的时候造成特征冗余,造成过拟合。
因此,本发明提出了一种基于深度残差收缩网络的文本和语音的情感识别模型,在提取出语音情感特征后,对冗余特征进行去除,以此来提高情感识别准确率。
发明内容
本发明的目的是为了解决现有的情感识别方法受到周围环境噪音的影响,在提取特征的时候由于特征冗余,存在过拟合的问题,而提出一种基于深度残差收缩网络的多模态情感识别方法。
一种基于深度残差收缩网络的多模态情感识别方法,所述方法通过以下步骤实现:
步骤一、将语音原始信号处理得到语谱图,将语谱图特征送入加入了注意力机制的深度残差收缩网络,以去除语谱图特征的冗余特征;
步骤二、将去除了冗余特征的语谱图特征通过深度神经网络进行深层次特征处理,之后进行情感识别分类;
步骤三、将文本信号送入XLnet模型进行特征处理,之后经过深度神经网络进行深层次特征处理,进行文本情感识别;
步骤四、步骤二和步骤三得到的两个结果进行决策层融合,得到情感识别结果。
优选地,步骤一所述的将语谱图特征送入加入了注意力机制的深度残差收缩网络,以去除语谱图特征的冗余特征的过程为,
步骤一一、设计深度残差收缩网络:
深度残差收缩网络由残差收缩单元堆叠而成,残差收缩单元主要用来获得阈值,使用绝对运算和GAP层将特征图简化为一维矢量,然后传播到两层FC网络中;其中,FC网络中的第二层具有一个以上的神经元,并且神经元的数量等于输入特征图的通道数;
使用下式将FC网络的输出缩放到(0,1)的范围:
其中,z代表神经元的特征,α是缩放系数;那么,阈值计算如下式所示:
其中,τ是代表求得的阈值,i、j、c分别是特征图的宽度,高度和通道的索引;软阈值化的阈值不仅需要为正,而且也不能太大;如果阈值大于特征图的最大绝对值,则软阈值输出将为零;
步骤一二、软阈值化过程:
通过软阈值函数对特征进行转化的过程称为软阈值化,其实质是将接近0的特征转换为0,依旧保留正负特征;软阈值函数如下公式所示;其中,x是输入特征,y是输出特征,thr是阈值;
对输入数据x进行求导,可得公式如下,软阈值函数的导数为1或0;
利用导数的特点和不同的数据形式,软阈值的过程也可表示为下式,其中,x表示需要进行软阈值化的输入数据,thr是学习到的阈值,sign(x)是符号函数;
soft=(x,a)=sign(x)*max{|x|-thr,0}
如下公式,当x>0时为1,当x<0时为-1;max是求二者的最大值;
将软阈值化和深度学习方法结合消除噪声并构建高区分性特征;
步骤一三、构建自注意力机制,模型自行学习输入信息的权值分配,通过计算向量之间的关联性进行打分;
首先,将向量矩阵Q与向量矩阵K的各维度向量进行运算得出两者之间的相似度,通过对这些数值计算得出相应的权重值;
然后,通过SoftMax函数对计算出的权重进行归一化处理;
最后,将权值与矩阵V中各个维度的向量加权求和得出最后的注意力矩阵;当K=V=Q时,即为自注意力机制;自注意力机制的计算公式如下:
Q=(q1,q2,…,ql)∈Rn×d、K=(k1,k2,…,kl)∈Rn×d、V=(v1,v2,…,vn)∈Rn×d,d表示单个向量的维度,n为输入向量的个数,d和n均是由输入矩阵X进行线性变换得到的;KT表示K的转置;dk是一个用于调节内积的维度为k的矩阵;输入序列线性映射过程公式如下:
其中Wq、Wk、Wv为三个线性映射参数矩阵,由模型在训练中自行学习得出。
优选地,所述的将文本信号送入XLnet模型进行特征处理,之后经过深度神经网络进行深层次特征处理,进行文本情感识别的过程为:
设计基于融合情感词典的XLNet预训练模型,将情感词典匹配得到的情感词与原文拼接,再采用XLNet模型充分学习上下文语义信息,同时,设计基于LSTM+Attention网络层的XLNet预训练模型,在采用XLNet预训练模型学习词向量的基础上,添加LSTM+Attention混合的网络层,通过该网络层对词向量进一步学习并加强特殊词向量的权值。
本发明的有益效果为:
本发明通过优化XLnet模型,获取更为丰富的语义信息,进而提高情感分析模型预测的准确性。并将深度残差收缩网络运用到声谱图的特征选择上,将声谱图中噪声和无关特征去除问题,从而加强深度神经网络从含噪声信号中提取有用特征的能力。以提高语音情感识别的准确性。
具体地:
1)设计基于融合情感词典的XLNet预训练模型,通过将情感词典匹配得到的情感词与原文拼接,增加文本情感极性比重,再采用XLNet模型充分学习上下文语义信息,该模型能解决情感词典在不同语言环境下无法识别正确情感词极性的缺陷,扩大情感词典的适用范围。同时提出基于LSTM+Attention网络层的XLNet预训练模型,在采用XLNet预训练模型学习词向量的基础上,添加LSTM+Attention混合的网络层,该网络层能对词向量进一步学习并加强特殊词向量的权值,使得模型能编译更多的上下文语义信息,提取的高质量词向量语义具有更丰富、更准确的优点,解决静态词向量模型的缺陷,同时更适用于短文本情感分析任务。
2)语音情感识别特征提取,大部分采用MFCC作为特征输入,MFCC经过了较多人工提取步骤,而语音中的情感信息是一个高维的具有模糊性和不确定性的特征,人工无法完整提取,因此在提取MFCC的过程中会损失一部分情感信息,影响情感识别效果。在语音情感识别中,通常提取时域特征和频域特征进行情感识别,但仅仅从时域特征或者频域特征进行情感识别都存在着局限性。时域特征没有直观的体现语音信号的频率特性,频域特征没有体现语音信号随时间的变化关系。本发明采用语谱图,利用语谱图同时具备时域特征和频域特征的优点,表示语音频谱随时间的变化情况,横轴为时间,纵轴为频率,颜色深浅表示该时刻频率成分的能量强弱。颜色深的,频谱能量高,颜色浅的,频谱能量低。
3)使用深度残差收缩网络,通过注意力机制注意到不重要的特征,通过软阈值函数将它们置为零;或者说,通过注意力机制注意到重要的特征,将它们保留下来,从而加强深度神经网络从含噪声信号中提取有用特征的能力。从而在提取特征的过程中,去除与识别感情无关的特征和对话中的噪音,提高神经网络的特征提取能力。
附图说明
图1为本发明方法的流程图。
具体实施方式
具体实施方式一:
本实施方式的一种基于深度残差收缩网络的多模态情感识别方法,如图1所示,所述方法通过以下步骤实现:
目前的情感识别系统多数是采用单通道情感数据进行识别研究,而本发明通过加权融合方法将两种不同来源的数据的分类结果进行再次融合,构建基于语音信号与文本信息的双模态情感识别系统;具体地:
步骤一、将语音原始信号处理得到语谱图,将语谱图特征送入加入了注意力机制的深度残差收缩网络,以去除语谱图特征的冗余特征,从而将学习到的特征进行变换以消除噪声影响;由于语谱图同时具备了时域特征和频域特征的优点,表示语音频谱随时间的变化情况,横轴为时间,纵轴为频率,颜色深浅表示该时刻频率成分的能量强弱。颜色深的,频谱能量高,颜色浅的,频谱能量低。由于语音情感识别特征提取,大部分采用MFCC作为特征输入,MFCC经过了较多人工提取步骤,而语音中的情感信息是一个高维的具有模糊性和不确定性的特征,人工无法完整提取,因此在提取MFCC的过程中会损失一部分情感信息,影响情感识别效果。在语音情感识别中,通常提取时域特征和频域特征进行情感识别,但仅仅从时域特征或者频域特征进行情感识别都存在着局限性。时域特征没有直观的体现语音信号的频率特性,频域特征没有体现语音信号随时间的变化关系。所以本发明采用语谱图特征。
步骤二、将去除了冗余特征的语谱图特征通过深度神经网络进行深层次特征处理,之后进行情感识别分类;
步骤三、将文本信号送入XLnet模型进行特征处理,之后经过深度神经网络进行深层次特征处理,进行文本情感识别;
步骤四、步骤二和步骤三得到的两个结果进行决策层融合,得到情感识别结果。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的一种基于深度残差收缩网络的多模态情感识别方法,所述的将语谱图特征送入加入了注意力机制的深度残差收缩网络,以去除语谱图特征的冗余特征的过程为,
步骤一一、设计深度残差收缩网络:
深度残差收缩网络由残差收缩单元堆叠而成,残差收缩单元主要用来获得阈值,获取阈值的步骤是使用绝对运算和GAP层将特征图简化为一维矢量,然后传播到两层FC网络中;其中,FC网络中的第二层具有一个以上的神经元,并且神经元的数量等于输入特征图的通道数;
使用下式将FC网络的输出缩放到(0,1)的范围:
其中,z代表神经元的特征,α是缩放系数;那么,阈值计算如下式所示:
其中,τ是代表求得的阈值,i、j、c分别是特征图的宽度,高度和通道的索引;软阈值化的阈值不仅需要为正,而且也不能太大;如果阈值大于特征图的最大绝对值,则软阈值输出将为零;
步骤一二、软阈值化过程:
本发明将通过软阈值函数对特征进行转化的过程称为软阈值化,其实质是将接近0的特征转换为0,依旧保留正负特征;软阈值函数如下公式所示;其中,x是输入特征,y是输出特征,thr是阈值;
对输入数据x进行求导,可得公式如下,可以看到软阈值函数的导数为1或0,这对于防止梯度消失和爆炸问题有效;
利用导数的特点和不同的数据形式,软阈值的过程也可表示为下式,其中,x表示需要进行软阈值化的输入数据,thr是学习到的阈值,sign(x)是符号函数;
soft=(x,a)=sign(x)*max{|x|-thr,0}
如下公式,当x>0时为1,当x<0时为-1;max是求二者的最大值;为了方便处理,本发明采用式上式进行软阈值化;
软阈值化有一个关键的问题——获取阈值。深度学习作为一种良好的自学习方式,能够自动学习过滤器。因此,将软阈值化和深度学习方法结合是消除噪声并构建高区分性特征的有效的方法;
步骤一三、构建自注意力机制,模型自行学习输入信息的权值分配,通过计算向量之间的关联性进行打分,它可以让模型甄别出关键信息将更多的计算资源投入其中从而学习重要特征。注意力机制实际上就是通过对向量矩阵Q的查询操作得到一系列键值对的映射。
首先,将向量矩阵Q与向量矩阵K的各维度向量进行运算得出两者之间的相似度,通过对这些数值计算得出相应的权重值;
然后,通过SoftMax函数对计算出的权重进行归一化处理;
最后,将权值与矩阵V中各个维度的向量加权求和得出最后的注意力矩阵;当K=V=Q时,即为自注意力机制;自注意力机制的计算公式如下:
Q=(q1,q2,…,ql)∈Rn×d、K=(k1,k2,…,kl)∈Rn×d、V=(v1,v2,…,vn)∈Rn×d,d表示单个向量的维度,n为输入向量的个数,d和n均是由输入矩阵X进行线性变换得到的;KT表示K的转置;dk是一个用于调节内积的维度为k的矩阵;输入序列线性映射过程公式如下:
其中Wq、Wk、Wv为三个线性映射参数矩阵,由模型在训练中自行学习得出。
本发明使用深度残差收缩网络,通过注意力机制注意到不重要的特征,通过软阈值函数将它们置为零;即通过注意力机制注意到重要的特征,将它们保留下来,从而加强深度神经网络从含噪声信号中提取有用特征的能力。
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的一种基于深度残差收缩网络的多模态情感识别方法,所述的将文本信号送入XLnet模型进行特征处理,之后经过深度神经网络进行深层次特征处理,进行文本情感识别的过程为:
设计基于融合情感词典的XLNet预训练模型,将情感词典匹配得到的情感词与原文拼接,增加文本情感极性比重,再采用XLNet模型充分学习上下文语义信息,该模型能解决情感词典在不同语言环境下无法识别正确情感词极性的缺陷,扩大情感词典的适用范围。同时,设计基于LSTM+Attention网络层的XLNet预训练模型,在采用XLNet预训练模型学习词向量的基础上,添加LSTM+Attention混合的网络层,通过该网络层对词向量进一步学习并加强特殊词向量的权值,使得模型能编译更多的上下文语义信息,提取的高质量词向量语义具有更丰富、更准确的优点,解决静态词向量模型的缺陷,同时更适用于短文本情感分析任务。
本发明的实施例公布的是较佳的实施例,但并不局限于此,本领域的普通技术人员,极易根据上述实施例,领会本发明的精神,并做出不同的引申和变化,但只要不脱离本发明的精神,都在本发明的保护范围内。
Claims (3)
1.一种基于深度残差收缩网络的多模态情感识别方法,其特征在于:所述方法通过以下步骤实现:
步骤一、将语音原始信号处理得到语谱图,将语谱图特征送入加入了注意力机制的深度残差收缩网络,以去除语谱图特征的冗余特征;
步骤二、将去除了冗余特征的语谱图特征通过深度神经网络进行深层次特征处理,之后进行情感识别分类;
步骤三、将文本信号送入XLnet模型进行特征处理,之后经过深度神经网络进行深层次特征处理,进行文本情感识别;
步骤四、步骤二和步骤三得到的两个结果进行决策层融合,得到情感识别结果。
2.根据权利要求1所述的一种基于深度残差收缩网络的多模态情感识别方法,其特征在于:步骤一所述的将语谱图特征送入加入了注意力机制的深度残差收缩网络,以去除语谱图特征的冗余特征的过程为,
步骤一一、设计深度残差收缩网络:
深度残差收缩网络由残差收缩单元堆叠而成,残差收缩单元主要用来获得阈值,使用绝对运算和GAP层将特征图简化为一维矢量,然后传播到两层FC网络中;其中,FC网络中的第二层具有一个以上的神经元,并且神经元的数量等于输入特征图的通道数;
使用下式将FC网络的输出缩放到(0,1)的范围:
其中,z代表神经元的特征,α是缩放系数;那么,阈值计算如下式所示:
其中,τ是代表求得的阈值,i、j、c分别是特征图的宽度,高度和通道的索引;软阈值化的阈值不仅需要为正,而且也不能太大;如果阈值大于特征图的最大绝对值,则软阈值输出将为零;
步骤一二、软阈值化过程:
通过软阈值函数对特征进行转化的过程称为软阈值化,其实质是将接近0的特征转换为0,依旧保留正负特征;软阈值函数如下公式所示;其中,x是输入特征,y是输出特征,thr是阈值;
对输入数据x进行求导,可得公式如下,软阈值函数的导数为1或0;
利用导数的特点和不同的数据形式,软阈值的过程也可表示为下式,其中,x表示需要进行软阈值化的输入数据,thr是学习到的阈值,sign(x)是符号函数;
soft=(x,a)=sign(x)*max{|x|-thr,0}
如下公式,当x>0时为1,当x<0时为-1;max是求二者的最大值;
将软阈值化和深度学习方法结合消除噪声并构建高区分性特征;
步骤一三、构建自注意力机制,模型自行学习输入信息的权值分配,通过计算向量之间的关联性进行打分;
首先,将向量矩阵Q与向量矩阵K的各维度向量进行运算得出两者之间的相似度,通过对这些数值计算得出相应的权重值;
然后,通过SoftMax函数对计算出的权重进行归一化处理;
最后,将权值与矩阵V中各个维度的向量加权求和得出最后的注意力矩阵;当K=V=Q时,即为自注意力机制;自注意力机制的计算公式如下:
Q=(q1,q2,…,ql)∈Rn×d、K=(k1,k2,…,kl)∈Rn×d、V=(v1,v2,…,vn)∈Rn×d,d表示单个向量的维度,n为输入向量的个数,d和n均是由输入矩阵X进行线性变换得到的;KT表示K的转置;dk是一个用于调节内积的维度为k的矩阵;输入序列线性映射过程公式如下:
其中Wq、Wk、Wv为三个线性映射参数矩阵,由模型在训练中自行学习得出。
3.根据权利要求1或2所述的一种基于深度残差收缩网络的多模态情感识别方法,其特征在于:所述的将文本信号送入XLnet模型进行特征处理,之后经过深度神经网络进行深层次特征处理,进行文本情感识别的过程为:
设计基于融合情感词典的XLNet预训练模型,将情感词典匹配得到的情感词与原文拼接,再采用XLNet模型充分学习上下文语义信息,同时,设计基于LSTM+Attention网络层的XLNet预训练模型,在采用XLNet预训练模型学习词向量的基础上,添加LSTM+Attention混合的网络层,通过该网络层对词向量进一步学习并加强特殊词向量的权值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401444.0A CN114758676A (zh) | 2022-04-18 | 2022-04-18 | 一种基于深度残差收缩网络的多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210401444.0A CN114758676A (zh) | 2022-04-18 | 2022-04-18 | 一种基于深度残差收缩网络的多模态情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114758676A true CN114758676A (zh) | 2022-07-15 |
Family
ID=82332086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210401444.0A Pending CN114758676A (zh) | 2022-04-18 | 2022-04-18 | 一种基于深度残差收缩网络的多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114758676A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756326A (zh) * | 2023-08-18 | 2023-09-15 | 杭州光云科技股份有限公司 | 情感和非情感文本特征分析判断方法、装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
CN110751943A (zh) * | 2019-11-07 | 2020-02-04 | 浙江同花顺智能科技有限公司 | 一种语音情绪识别方法、装置以及相关设备 |
KR20200105589A (ko) * | 2019-02-28 | 2020-09-08 | 전남대학교산학협력단 | 음성 감정 인식 방법 및 시스템 |
CN112487182A (zh) * | 2019-09-12 | 2021-03-12 | 华为技术有限公司 | 文本处理模型的训练方法、文本处理方法及装置 |
CN113314150A (zh) * | 2021-05-26 | 2021-08-27 | 平安普惠企业管理有限公司 | 基于语音数据的情绪识别方法、装置及存储介质 |
CN113628639A (zh) * | 2021-07-06 | 2021-11-09 | 哈尔滨理工大学 | 一种基于多头注意力机制的语音情感识别方法 |
CN113987120A (zh) * | 2021-10-22 | 2022-01-28 | 河海大学 | 一种基于深度学习的舆情情感分类方法 |
CN114118347A (zh) * | 2020-08-28 | 2022-03-01 | 辉达公司 | 用于神经网络量化的细粒度每向量缩放 |
CN114169408A (zh) * | 2021-11-18 | 2022-03-11 | 杭州电子科技大学 | 一种基于多模态注意力机制的情感分类方法 |
-
2022
- 2022-04-18 CN CN202210401444.0A patent/CN114758676A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
KR20200105589A (ko) * | 2019-02-28 | 2020-09-08 | 전남대학교산학협력단 | 음성 감정 인식 방법 및 시스템 |
CN110222349A (zh) * | 2019-06-13 | 2019-09-10 | 成都信息工程大学 | 一种深度动态上下文词语表示的模型及方法、计算机 |
CN112487182A (zh) * | 2019-09-12 | 2021-03-12 | 华为技术有限公司 | 文本处理模型的训练方法、文本处理方法及装置 |
CN110751943A (zh) * | 2019-11-07 | 2020-02-04 | 浙江同花顺智能科技有限公司 | 一种语音情绪识别方法、装置以及相关设备 |
CN114118347A (zh) * | 2020-08-28 | 2022-03-01 | 辉达公司 | 用于神经网络量化的细粒度每向量缩放 |
CN113314150A (zh) * | 2021-05-26 | 2021-08-27 | 平安普惠企业管理有限公司 | 基于语音数据的情绪识别方法、装置及存储介质 |
CN113628639A (zh) * | 2021-07-06 | 2021-11-09 | 哈尔滨理工大学 | 一种基于多头注意力机制的语音情感识别方法 |
CN113987120A (zh) * | 2021-10-22 | 2022-01-28 | 河海大学 | 一种基于深度学习的舆情情感分类方法 |
CN114169408A (zh) * | 2021-11-18 | 2022-03-11 | 杭州电子科技大学 | 一种基于多模态注意力机制的情感分类方法 |
Non-Patent Citations (2)
Title |
---|
JUNFENG ZHANG ETC: "Multi-head attention fusion networks for multi-modal speech emotion recognition", 《COMPUTERS & INDUSTRIAL ENGINEERING》, no. 168, 10 March 2022 (2022-03-10), pages 1 - 10 * |
MINGHANG ZHAO ETC: "Deep residual shrinkage networks for fault diagnosis. IEEE Transactions on Industrial Informatics", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》, vol. 16, no. 7, 31 July 2020 (2020-07-31), pages 4681 - 4690 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756326A (zh) * | 2023-08-18 | 2023-09-15 | 杭州光云科技股份有限公司 | 情感和非情感文本特征分析判断方法、装置及电子设备 |
CN116756326B (zh) * | 2023-08-18 | 2023-11-24 | 杭州光云科技股份有限公司 | 情感和非情感文本特征分析判断方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN110188343B (zh) | 基于融合注意力网络的多模态情感识别方法 | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
Sun et al. | Speech emotion recognition based on DNN-decision tree SVM model | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
Chiu et al. | Enabling intelligent environment by the design of emotionally aware virtual assistant: A case of smart campus | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN110321418B (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
Al Smadi et al. | Artificial intelligence for speech recognition based on neural networks | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN101187990A (zh) | 一种会话机器人系统 | |
CN110853680A (zh) | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN113065344A (zh) | 一种基于迁移学习和注意力机制的跨语料库情感识别方法 | |
CN116304973A (zh) | 一种基于多模态融合的课堂教学情感识别方法和系统 | |
CN112287106A (zh) | 一种基于双通道混合神经网络的在线评论情感分类方法 | |
JP2021081713A (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
CN115731595A (zh) | 一种基于模糊规则的多层次决策融合的情感识别方法 | |
Wang et al. | Contrastive Predictive Coding of Audio with an Adversary. | |
CN116010874A (zh) | 基于深度学习多模态深尺度情感特征融合的情感识别方法 | |
Wang | Speech recognition in English cultural promotion via recurrent neural network | |
Atkar et al. | Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier | |
CN114758676A (zh) | 一种基于深度残差收缩网络的多模态情感识别方法 | |
KR102297480B1 (ko) | 비정형 질문 또는 요구 발화의 구조화된 패러프레이징 시스템 및 방법 | |
CN112257432A (zh) | 一种自适应意图识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |