CN109614895A - 一种基于attention特征融合的多模态情感识别的方法 - Google Patents
一种基于attention特征融合的多模态情感识别的方法 Download PDFInfo
- Publication number
- CN109614895A CN109614895A CN201811441300.8A CN201811441300A CN109614895A CN 109614895 A CN109614895 A CN 109614895A CN 201811441300 A CN201811441300 A CN 201811441300A CN 109614895 A CN109614895 A CN 109614895A
- Authority
- CN
- China
- Prior art keywords
- data
- mode
- feature
- model
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于attention特征融合的多模态情感识别方法,本发明主要利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先我们对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取,语音模态采用卷积神经网络进行特征提取,而视频模态采用了三维卷积神经网络模型进行视频特征的提取。然后将三个模态的特征采用基于attention特征层融合的方式进行特征融合,改变了传统的特征层融合方式,充分利用了不同模态之间的互补信息,给不同的模态的特征赋予一定的权重,权重是和网络一起训练学习得到,因此更加符合我们的整个数据分布,很好的提高了最后的识别效果。
Description
技术领域
本发明涉及一种基于attention特征融合的多模态情感识别的方法,属于情感计算的技术领域。
背景技术
20世纪90年代,情感计算的概念出现在计算机的各个领域,情感计算是与人的情感有关,并由人的情感而引发或者能够影响情感的因素的计算,完全开启了对情感识别研究的大门,研究目的在于促进在信息社会实现高度和谐的人机交互体验,使得计算机具有更加全面的人工智能。人们在表达情感时,表现的方式往往不只是一种,而且在某种程度上,不同表现方式在表达情感信息时存在一定的互补作用,结合多种模态的信息进行情感识别,更加符合人类自然的行为表达方式。因此,多模态情感识别也已然成为情感识别领域的热门研究方向。
基于单模态的情感识别研究虽然已取得了一定成果,但是单模态情感识别存在识别率低,鲁棒性差的特点,而多模态情感识别研究可以综合多模态的数据,捕捉模态之间的互补信息,从而可以建立一个鲁棒性强和识别率高的情感识别模型。如何有效的融合多种模态的信息是影响多模态情感识别的重要因素。多模态情感识别的融合方法包含特征层融合以及决策层融合。前者通过一定的方法将多种模态的特征通过一定的线性或非线性变换形成新的特征;后者分别对多种模态的特征进行训练、分类,得出分类结果,并在决策层通过相应的加权模型综合得出最终的结果。
随着深度学习的发展,以卷积神经网络和循环神经网络为代表的深度神经网络在图像识别、计算机视觉、语音识别和自然语言处理领域取得了巨大的成功,基于以上成功的研究成果,许多研究者在多模态情感识别领域也取得了很大的进展。之前的研究成果表明基于特征层融合和决策层融合的方式对于最后的情感识别都有一个很大的提升效果。而基于决策层融合的方式虽然能够做到一定的提升效果,然考虑到了不同模态特征的差异性,体现了不同模态特征对于情感识别重要性的不同,但是却忽略了不同模态特征之间的相关性,并没有做到真正意义上的模态之间的融合。而基于特征层融合的方式,是通过将不同模态之间的特征进行有效的融合,捕捉模态之间的互补信息,从而更有效的提升融合效果。特征层融合执行简单有效,充分利用了不同模态特征的信息,但不足在于大多数特征层融合方法忽略了不同模态特征之间的差异性,无法体现每一个模态对最后结果的影响程度。因此,如何在特征层对不同模态的特征进行有效的融合是多模态情感识别的一个重要问题。
发明内容
针对现有技术的不足,本发明提供一种基于attention特征融合的多模态情感识别的方法。
发明概述:
本发明主要利用了文本、语音和视频三个模态的数据来进行最后的情感识别。首先,我们对三个模态的数据分别进行特征提取。文本方面采用双向LSTM来进行文本特征的提取,语音模态采用卷积神经网络进行特征提取,而视频模态采用了三维卷积神经网络模型进行视频特征的提取。然后,将三个模态的特征采用基于attention特征层融合的方式进行特征融合,最后,将融合之后的联合特征输入到分类器进行情感识别。
本发明详细解释了各个网络的作用,充分利用了不同模态之间的互补信息,实现了信息利用率的最大化;本发明改变了传统的特征层融合方式,在特征融合方面引入attention机制,给不同的模态的特征赋予一定的权重,权重是和网络一起训练学习得到,不仅执行简单有效,而且还能充分体现每一个模态的特征对最后结果的影响程度,综合考虑了现有技术两种融合方式的优点,更加符合整个数据分布,很好地提高了最后的识别效果。
术语解释:
1、LSTM,Long Short-Term Memory,是长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
2、人脸68个关键点,;人脸68个关键点是指人脸的整个轮廓和五官轮廓分别用68个点进行标定,通过这68个关键点便可以表征人脸的整个轮廓特征。
本发明的技术方案为:
一种基于attention特征融合的多模态情感识别的方法,包括步骤如下:
(1)对多个模态的数据进行预处理,使其符合多个模态对应的模型的输入要求;
(2)对步骤(1)预处理后的多个模态的数据进行特征提取;
(3)将步骤(2)提取到的多个模态的数据特征进行特征融合:传统的特征层融合也就是分别将三个模态的特征向量进行级联形成一个总的联合特征向量,然后送往分类器进行分类。但由于不同模态的特征对我们最后的识别效果的影响程度是不一样的,为了有效的根据数据集的分布去得到每一个模态特征对最后结果的影响权重。采用attention机制,将步骤(2)提取到的多个模态的数据特征分别赋予一个权重,形成一个初始模态特征权重矩阵,通过训练学习,得到每个模态的数据特征的权重,之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合,得到联合特征向量,送到分类器进行分类;得到的权重能够更好的符合整个数据的分布,从而更好的改善整体的识别效果。由于不同模态的特征对最后的情感识别结果的影响程度是不一样的,直接进行级联不能体现出每一个模态对最后结果的影响程度。采用attention机制的思想,去给每一个模态的特征学习一个权重,然后将特征进行加权级联,这样使每一个模态的特征都能更好的发挥作用。同时每个模态的权重是和模型一起训练学习得到的,这样也更加符合整个数据的分布,可以有效提升整体的识别结果。
(4)训练模型;将步骤(1)预处理后的多个模态的数据打乱后,分成若干份,设定为N份,每次取N-1份做训练,剩下1份做验证,做N次交叉验证,得到最终实验结果。
根据本发明优选的,所述步骤(1)中,
多个模态的数据包括文本数据、语音数据、视频数据,
对于文本数据,预处理过程包括:通过训练词向量,将文本数据转换成数学数据,即将每一条文本中的词转换成一个词向量的表示,使其符合双向LSTM模型的输入要求;双向LSTM模型依次包括词向量层、双向LSTM层、第一Dropout层以及第一全连接层,词向量层用于将文本中每一个词转化成词向量表示,双向LSTM层用于提取文本特征,第一Dropout层用于避免双向LSTM模型产生过拟合,第一全连接层用于最后的分类;
对于语音数据,预处理过程包括:通过wave和wavefile软件包,将每一个语音文件转换成数字化表示;使其符合卷积神经网络模型的输入要求;所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层,二维卷积层用于提取语音特征,第二Dropout层用于避免所述卷积神经网络模型产生过拟合,池化层对输入的特征图进行压缩;简化计算复杂度,提取主要特征;
对于视频数据,预处理过程包括:获取到每一段视频的总帧数,对每一段视频等间隔取若干帧图像,用这若干帧图像作为整个视频的数据表示,使其符合三维卷积神经网络模型的输入要求;三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层,三维卷积层用于提取视频特征,同时在时间和空间上进行卷积操作,第三Dropout层用于避免三维卷积神经网络模型产生过拟合,第二池化层对输入的特征图进行压缩;简化计算复杂度,提取主要特征。
根据本发明优选的,所述步骤(2)中,
对于文本数据,特征提取过程包括:单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息;通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;而上下文信息是由整个句子提供的,自然包含比较抽象的语义信息,这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势,使我们最后提取到的文本特征含有丰富的语义特征和时序特征。
对于语音数据,特征提取过程包括:语音特征提取都是基于时谱分析后的语音谱完成的,而语音时频谱是具有结构特点的。一个卷积神经网络提供在时间和空间上的平移不变性卷积,将卷积神经网络的思想应用到语音的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。将预处理后的语音数据送往卷积神经网络模型,经过二维巻积层和池化层的作用,有效提取到每一个语音文件中富含的语音特征;
对于视频数据,特征提取过程包括:将预处理之后得到的若干帧图像送往三维卷积神经网络模型进行特征提取;相比于普通的卷积神经网络,三维卷积神经网络更加有效的利用前后帧之间的时序信息,能够有效的对时序信息建模,从而提取到包含丰富的前后时序信息的视频特征。经过三维巻积层和池化层操作,得到有效的视频特征;
与此同时,还对每一帧图像进行了以下辅助处理,包括:将每一帧图像进行人脸68个关键点检测操作,基于人脸68个关键点的坐标算出一个中心点,计算人脸68个关键点中每个关键点到该中心点的距离,得到一个距离特征向量;
将通过三维卷积神经网络得到的视频特征和距离特征向量进行级联,作为视频特征表示。由于视频模态中的每一帧图像中只有人脸对于我们的要提取的情感特征才是最有用的,而其它的背景信息则成为了我们提取情感特征的噪声。因此对视频模态的每一帧图像进行人脸68个关键点检测,然后计算每一个关键点到中心点的距离作为辅助特征,然后与三维卷积网络提取到的特征向量进行级联作为总的视频特征。这样使大量的人脸特征在最后的情感识别中发挥到更大的作用。
根据本发明优选的,所述步骤(2),通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;包括步骤如下:
A、求取t时刻双向LSTM模型中的输入门的值it,如式(Ⅰ)所示:
it=σ(Wihht-1+Wixxt+bi) (Ⅰ)
式(Ⅰ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅱ)所示:
ft=σ(Wfhht-1+Wfxxt+bf) (Ⅱ)
式(Ⅱ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅲ)所示:
ot=σ(Wohht-1+Woxxt+bo) (Ⅲ)
式(Ⅲ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
D、求取当前输入的单元状态gt,如式(Ⅳ)所示:
gt=tanh(Wghht-1+Wgxxt+bg) (Ⅳ)
式(Ⅳ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅴ)所示:
ct=it⊙gt+ft⊙ct-1 (Ⅴ)
式(Ⅴ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻双向LSTM模型的隐藏层状态ht,如式(Ⅵ)所示:
ht=ot⊙tanh(ct) (Ⅵ)
式(Ⅵ)中,tanh表示双曲正切函数用作激活函数;ot代表当前时刻的输出,ct代表当前时刻的细胞状态。
文本数据经过双向LSTM模型之后,在上述输入门、遗忘门、输出门的控制作用下,输出该文本数据的语义特征和时序特征。由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免无关紧要的内容进入记忆。因此文本数据经过LSTM单元之后,在各种门结构的控制作用下,输出的特征表示既包含有丰富的语义特征,又含有丰富的时序特征。
根据本发明优选的,所述步骤(3),将步骤(2)提取的多个模态的数据进行特征融合,包括步骤如下:
G、将步骤(2)提取到的多个模态的数据特征分别初始化赋予一个权重,形成一个初始模态特征权重矩阵;
H、通过模型训练学习,得到每个模态的数据特征的最优权重;
I、将所有模态的数据特征进行加权融合:先将每个模态的权重和其对应的模态的数据特征相乘,再将所有模态得到特征向量进行级联,所有模态得到的特征向量是指上文中经过双向LSTM模型得到的文本特征向量、经过卷积神经网络模型得到的语音特征向量和经过三维卷积神经网络模型得到的视频特征向量形成一个联合特征向量,最后送到分类器进行分类。
根据本发明优选的,所述步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(Ⅶ)所示:
式(Ⅶ)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
本发明的有益效果为:
1.本发明采用多模态情感特征进行情感识别,弥补了单个模态上情感特征不充分或者不准确的问题,多模态之间进行相互影响,有助于提取到更加全面有效的情感特征。
2.本发明采用特征层的融合的方式进行多模态之间信息融合,使情感特征做到了真正意义上的融合,能够有效捕捉模态之间的相关作用和影响,有效提升识别结果;
3.本发明所述基于视频模态的特征提取中,引入人脸关键点检测作为辅助特征,使人脸特征更好的发挥了作用,同时减小了噪声对最后识别效果的影响。
4.本发明所述基于特征层融合的过程中,采用attention机制的思想,去给每一个模态的特征学习一个权重,然后将特征进行加权级联,这样使每一个模态的特征都能更好的发挥作用。同时每个模态的权重是和模型一起训练学习得到的,这样也更加符合我们整个数据的分布,可以有效提升整体的识别结果。
附图说明
图1为本发明基于attention特征融合的多模态情感识别的方法的流程图;
图2为本发明采用attention机制进行特征融合的流程图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于attention特征融合的多模态情感识别的方法,包括步骤如下:
(1)对多个模态的数据进行预处理,使其符合多个模态对应的模型的输入要求;
(2)对步骤(1)预处理后的多个模态的数据进行特征提取;
(3)将步骤(2)提取到的多个模态的数据特征进行特征融合:传统的特征层融合也就是分别将三个模态的特征向量进行级联形成一个总的联合特征向量,然后送往分类器进行分类。但由于不同模态的特征对我们最后的识别效果的影响程度是不一样的,为了有效的根据数据集的分布去得到每一个模态特征对最后结果的影响权重。采用attention机制,将步骤(2)提取到的多个模态的数据特征分别赋予一个权重,形成一个初始模态特征权重矩阵,通过训练学习,得到每个模态的数据特征的权重,之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合,得到联合特征向量,送到分类器进行分类;得到的权重能够更好的符合整个数据的分布,从而更好的改善整体的识别效果。由于不同模态的特征对最后的情感识别结果的影响程度是不一样的,直接进行级联不能体现出每一个模态对最后结果的影响程度。采用attention机制的思想,去给每一个模态的特征学习一个权重,然后将特征进行加权级联,这样使每一个模态的特征都能更好的发挥作用。同时每个模态的权重是和模型一起训练学习得到的,这样也更加符合整个数据的分布,可以有效提升整体的识别结果。
(4)训练模型;将步骤(1)预处理后的多个模态的数据打乱后,分成若干份,设定为N份,每次取N-1份做训练,剩下1份做验证,做N次交叉验证,得到最终实验结果。
实施例2
根据实施例1所述的一种基于attention特征融合的多模态情感识别的方法,如图1所示,其区别在于,所述步骤(1)中,多个模态的数据包括文本数据、语音数据、视频数据,
对于文本数据,预处理过程包括:通过训练词向量,将文本数据转换成数学数据,即将每一条文本中的词转换成一个词向量的表示,使其符合双向LSTM模型的输入要求;双向LSTM模型依次包括词向量层、双向LSTM层、第一Dropout层以及第一全连接层,词向量层用于将文本中每一个词转化成词向量表示,双向LSTM层用于提取文本特征,第一Dropout层用于避免双向LSTM模型产生过拟合,第一全连接层用于最后的分类;
对于语音数据,预处理过程包括:通过wave和wavefile软件包,将每一个语音文件转换成数字化表示;使其符合卷积神经网络模型的输入要求;所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层,二维卷积层用于提取语音特征,第二Dropout层用于避免所述卷积神经网络模型产生过拟合,池化层对输入的特征图进行压缩;简化计算复杂度,提取主要特征;
对于视频数据,预处理过程包括:获取到每一段视频的总帧数,对每一段视频等间隔取若干帧图像,用这若干帧图像作为整个视频的数据表示,使其符合三维卷积神经网络模型的输入要求;三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层,三维卷积层用于提取视频特征,同时在时间和空间上进行卷积操作,第三Dropout层用于避免三维卷积神经网络模型产生过拟合,第二池化层对输入的特征图进行压缩;简化计算复杂度,提取主要特征。
步骤(2)中,对于文本数据,特征提取过程包括:单向LSTM可以按照人类的阅读顺序从一句话的第一个字记忆到最后一个字,这种LSTM结构只能捕捉到上文信息,无法捕捉到下文信息;通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;而上下文信息是由整个句子提供的,自然包含比较抽象的语义信息,这种方法的优点是充分利用了LSTM对具有时序特点的序列数据的处理优势,使我们最后提取到的文本特征含有丰富的语义特征和时序特征。包括步骤如下:
A、求取t时刻双向LSTM模型中的输入门的值it,如式(Ⅰ)所示:
it=σ(Wihht-1+Wixxt+bi) (Ⅰ)
式(Ⅰ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅱ)所示:
ft=σ(Wfhht-1+Wfxxt+bf) (Ⅱ)
式(Ⅱ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅲ)所示:
ot=σ(Wohht-1+Woxxt+bo) (Ⅲ)
式(Ⅲ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
D、求取当前输入的单元状态gt,如式(Ⅳ)所示:
gt=tanh(Wghht-1+Wgxxt+bg) (Ⅳ)
式(Ⅳ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅴ)所示:
ct=it⊙gt+ft⊙ct-1 (Ⅴ)
式(Ⅴ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻双向LSTM模型的隐藏层状态ht,如式(Ⅵ)所示:
ht=ot⊙tanh(ct) (Ⅵ)
文本数据经过双向LSTM模型之后,在上述输入门、遗忘门、输出门的控制作用下,输出该文本数据的语义特征和时序特征。由于遗忘门的控制,它可以保存很久很久之前的信息,由于输入门的控制,它又可以避免无关紧要的内容进入记忆。因此文本数据经过LSTM单元之后,在各种门结构的控制作用下,输出的特征表示既包含有丰富的语义特征,又含有丰富的时序特征。
对于语音数据,特征提取过程包括:语音特征提取都是基于时谱分析后的语音谱完成的,而语音时频谱是具有结构特点的。一个卷积神经网络提供在时间和空间上的平移不变性卷积,将卷积神经网络的思想应用到语音的声学建模中,则可以利用卷积的不变性来克服语音信号本身的多样性。将预处理后的语音数据送往卷积神经网络模型,经过二维巻积层和池化层的作用,有效提取到每一个语音文件中富含的语音特征;
对于视频数据,特征提取过程包括:将预处理之后得到的若干帧图像送往三维卷积神经网络模型进行特征提取;相比于普通的卷积神经网络,三维卷积神经网络更加有效的利用前后帧之间的时序信息,能够有效的对时序信息建模,从而提取到包含丰富的前后时序信息的视频特征。经过三维巻积层和池化层操作,得到有效的视频特征;
与此同时,还对每一帧图像进行了以下辅助处理,包括:将每一帧图像进行人脸68个关键点检测操作,基于人脸68个关键点的坐标算出一个中心点,计算人脸68个关键点中每个关键点到该中心点的距离,得到一个距离特征向量;
将通过三维卷积神经网络得到的视频特征和距离特征向量进行级联,作为视频特征表示。由于视频模态中的每一帧图像中只有人脸对于我们的要提取的情感特征才是最有用的,而其它的背景信息则成为了我们提取情感特征的噪声。因此对视频模态的每一帧图像进行人脸68个关键点检测,然后计算每一个关键点到中心点的距离作为辅助特征,然后与三维卷积网络提取到的特征向量进行级联作为总的视频特征。这样使大量的人脸特征在最后的情感识别中发挥到更大的作用。
所述步骤(3),将步骤(2)提取的多个模态的数据进行特征融合,如图2所示,包括步骤如下:
G、将步骤(2)提取到的多个模态的数据特征分别初始化赋予一个权重,形成一个初始模态特征权重矩阵;
H、通过模型训练学习,得到每个模态的数据特征的最优权重;
I、将所有模态的数据特征进行加权融合:先将每个模态的权重和其对应的模态的数据特征相乘,再将所有模态得到特征向量进行级联,所有模态得到的特征向量是指上文中经过双向LSTM模型得到的文本特征向量、经过卷积神经网络模型得到的语音特征向量和经过三维卷积神经网络模型得到的视频特征向量形成一个联合特征向量,最后送到分类器进行分类。
所述步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(Ⅶ)所示:
式(Ⅶ)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
本发明在multimodal opinion-level sentiment intensity(MOSI)开源数据集上基于单模态、双模态和三模态分别进行了实验,实验结果如下表所示:
表1
A | V | T | A+V | A+T | V+T | A+V+T | A+V+T+Att | |
Accuracy | 64.27% | 66.5% | 76.00% | 66.85% | 76.6% | 77.5% | 78.5% | 79.8% |
表1中A表示语音模态,V表示视频模态,T表示文本模态,A+V表示语音和视频模态融合,A+T表示语音和文本模态融合,V+T表示视频和文本模态融合,A+V+T表示三种模态融合,A+V+T+Att表示本发明提出的基于attention的三模态融合,Accuracy表示准确率。
由表1中数据显示,多个模态相互融合的结果比单个模态的效果有了很大的提升,由此证明多个模态之间的数据相互作用有最后结果的提升的重要性;同时本发明提出的基于attention的多模态融合的结果比简单进行模态融合又有了较大的提升,表明本发明提出的融合方法的有效性。
Claims (6)
1.一种基于attention特征融合的多模态情感识别的方法,其特征在于,包括步骤如下:
(1)对多个模态的数据进行预处理,使其符合多个模态对应的模型的输入要求;
(2)对步骤(1)预处理后的多个模态的数据进行特征提取;
(3)将步骤(2)提取到的多个模态的数据特征进行特征融合:采用attention机制,将步骤(2)提取到的多个模态的数据特征分别赋予一个权重,形成一个初始模态特征权重矩阵,通过训练学习,得到每个模态的数据特征的权重,之后将得到的每个模态的数据特征的权重与对应的每个模态的数据特征进行加权融合,得到联合特征向量,送到分类器进行分类;
(4)训练模型;将步骤(1)预处理后的多个模态的数据打乱后,分成若干份,设定为N份,每次取N-1份做训练,剩下1份做验证,做N次交叉验证,得到最终实验结果。
2.根据权利要求1所述的一种基于attention特征融合的多模态情感识别的方法,其特征在于,所述步骤(1)中,多个模态的数据包括文本数据、语音数据、视频数据,
对于文本数据,预处理过程包括:通过训练词向量,将文本数据转换成数学数据,即将每一条文本中的词转换成一个词向量的表示,使其符合双向LSTM模型的输入要求;双向LSTM模型依次包括词向量层、双向LSTM层、第一Dropout层以及第一全连接层,词向量层用于将文本中每一个词转化成词向量表示,双向LSTM层用于提取文本特征,第一Dropout层用于避免双向LSTM模型产生过拟合,第一全连接层用于最后的分类;
对于语音数据,预处理过程包括:通过wave和wavefile软件包,将每一个语音文件转换成数字化表示;使其符合卷积神经网络模型的输入要求;所述卷积神经网络模型依次包括二维巻积层、第二Dropout层、第一池化层以及第二全连接层,二维卷积层用于提取语音特征,第二Dropout层用于避免所述卷积神经网络模型产生过拟合,池化层对输入的特征图进行压缩;
对于视频数据,预处理过程包括:获取到每一段视频的总帧数,对每一段视频等间隔取若干帧图像,用这若干帧图像作为整个视频的数据表示,使其符合三维卷积神经网络模型的输入要求;三维卷积神经网络模型依次包括三维巻积层、第三Dropout层、第二池化层以及第三全连接层,三维卷积层用于提取视频特征,同时在时间和空间上进行卷积操作,第三Dropout层用于避免三维卷积神经网络模型产生过拟合,第二池化层对输入的特征图进行压缩。
3.根据权利要求2所述的一种基于attention特征融合的多模态情感识别的方法,其特征在于,所述步骤(2)中,
对于文本数据,特征提取过程包括:通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;双向LSTM包括两个方向不同的LSTM,一个LSTM按照句子中词的顺序从前往后读取数据,获得上文信息;另一个LSTM从后往前按照句子词序的反方向读取数据,获得下文信息;
对于语音数据,特征提取过程包括:将预处理后的语音数据送往卷积神经网络模型,经过二维巻积层和池化层的作用,有效提取到每一个语音文件中富含的语音特征;
对于视频数据,特征提取过程包括:将预处理之后得到的若干帧图像送往三维卷积神经网络模型进行特征提取;经过三维巻积层和池化层操作,得到有效的视频特征;
与此同时,还对每一帧图像进行了以下辅助处理,包括:将每一帧图像进行人脸68个关键点检测操作,基于人脸68个关键点的坐标算出一个中心点,计算人脸68个关键点中每个关键点到该中心点的距离,得到一个距离特征向量;
将通过三维卷积神经网络得到的视频特征和距离特征向量进行级联,作为视频特征表示。
4.根据权利要求3所述的一种基于attention特征融合的多模态情感识别的方法,其特征在于,所述步骤(2),通过双向LSTM获取文本的上文信息和下文信息,即获取该文本数据的语义特征和时序特征;包括步骤如下:
A、求取t时刻双向LSTM模型中的输入门的值it,如式(Ⅰ)所示:
it=σ(Wihht-1+Wixxt+bi) (Ⅰ)
式(Ⅰ)中,σ表示sigmoid激活函数;Wih是输入门中输入项ht-1对应的权重矩阵,Wix是输入门中输入项xt对应的权重矩阵,ht-1是上一时刻隐藏层的输出,xt是当前时刻的输入,bi是输入门的偏置项;
B、求取t时刻双向LSTM模型中的遗忘门的值ft,如式(Ⅱ)所示:
ft=σ(Wfhht-1+Wfxxt+bf) (Ⅱ)
式(Ⅱ)中,Wfh是遗忘门中输入项ht-1对应的权重矩阵,Wfx是遗忘门中输入项xt对应的权重矩阵,bf是遗忘门的偏置项;
C、求取t时刻LSTM单元中的输出门的值ot,如式(Ⅲ)所示:
ot=σ(Wohht-1+Woxxt+bo) (Ⅲ)
式(Ⅲ)中,Woh是输出门中输入项ht-1对应的权重矩阵,Wox是输出门中输入项xt对应的权重矩阵,bo是输出门的偏置项;
D、求取当前输入的单元状态gt,如式(Ⅳ)所示:
gt=tanh(Wghht-1+Wgxxt+bg) (Ⅳ)
式(Ⅳ)中,Wgh是单元状态中输入项ht-1对应的权重矩阵,Wgx是单元状态中输入项xt对应的权重矩阵,bg是单元状态的偏置项,tanh表示双曲正切函数,用作激活函数;
E、求取t时刻的双向LSTM模型的细胞状态ct,如式(Ⅴ)所示:
ct=it⊙gt+ft⊙ct-1 (Ⅴ)
式(Ⅴ)中,ct-1是上一时刻的细胞状态,⊙表示按元素乘;
F、求t时刻双向LSTM模型的隐藏层状态ht,如式(Ⅵ)所示:
ht=ot⊙tanh(ct) (Ⅵ)
文本数据经过双向LSTM模型之后,在上述输入门、遗忘门、输出门的控制作用下,输出该文本数据的语义特征和时序特征。
5.根据权利要求1所述的一种基于attention特征融合的多模态情感识别的方法,其特征在于,所述步骤(3),将步骤(2)提取的多个模态的数据进行特征融合,包括步骤如下:
G、将步骤(2)提取到的多个模态的数据特征分别初始化赋予一个权重,形成一个初始模态特征权重矩阵;
H、通过模型训练学习,得到每个模态的数据特征的最优权重;
I、将所有模态的数据特征进行加权融合:先将每个模态的权重和其对应的模态的数据特征相乘,再将所有模态得到的特征向量进行级联,所有模态得到的特征向量是指上文中经过双向LSTM模型得到的文本特征向量、经过卷积神经网络模型得到的语音特征向量和经过三维卷积神经网络模型得到的视频特征向量形成一个联合特征向量,最后送到分类器进行分类。
6.根据权利要求1-5任一所述的一种基于attention特征融合的多模态情感识别的方法,其特征在于,所述步骤(4)中,训练模型,采用交叉熵损失函数进行模型训练,如式(Ⅶ)所示:
式(Ⅶ)中,p(x)是样本类别的标准分布,q(x)是样本类别的预测分布。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811268487 | 2018-10-29 | ||
CN2018112684876 | 2018-10-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109614895A true CN109614895A (zh) | 2019-04-12 |
Family
ID=66005374
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811441300.8A Pending CN109614895A (zh) | 2018-10-29 | 2018-11-29 | 一种基于attention特征融合的多模态情感识别的方法 |
CN201910995435.7A Active CN110751208B (zh) | 2018-10-29 | 2019-10-18 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910995435.7A Active CN110751208B (zh) | 2018-10-29 | 2019-10-18 | 一种基于自权重差分编码器进行多模态特征融合的服刑人员情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN109614895A (zh) |
Cited By (55)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020596A (zh) * | 2019-02-21 | 2019-07-16 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN110046279A (zh) * | 2019-04-18 | 2019-07-23 | 网易传媒科技(北京)有限公司 | 视频文件特征的预测方法、介质、装置和计算设备 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110147548A (zh) * | 2019-04-15 | 2019-08-20 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN110390311A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种基于注意力和子任务预训练的视频分析算法 |
CN110390956A (zh) * | 2019-08-15 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别网络模型、方法及电子设备 |
CN110399934A (zh) * | 2019-07-31 | 2019-11-01 | 北京达佳互联信息技术有限公司 | 一种视频分类方法、装置及电子设备 |
CN110442723A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110674348A (zh) * | 2019-09-27 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 视频分类方法、装置及电子设备 |
CN110706771A (zh) * | 2019-10-10 | 2020-01-17 | 复旦大学附属中山医院 | 多模态患教内容的生成方法、装置、服务器及存储介质 |
CN110826466A (zh) * | 2019-10-31 | 2020-02-21 | 南京励智心理大数据产业研究院有限公司 | 基于lstm音像融合的情感识别方法、装置及存储介质 |
CN110942502A (zh) * | 2019-11-29 | 2020-03-31 | 中山大学 | 语音唇形拟合方法、系统及存储介质 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111242155A (zh) * | 2019-10-08 | 2020-06-05 | 台州学院 | 一种基于多模深度学习的双模态情感识别方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
CN111523575A (zh) * | 2020-04-13 | 2020-08-11 | 中南大学 | 基于短视频多模态特征的短视频推荐模型 |
CN111523574A (zh) * | 2020-04-13 | 2020-08-11 | 云南大学 | 一种基于多模态数据的图像情感识别方法及系统 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111738314A (zh) * | 2020-06-09 | 2020-10-02 | 南通大学 | 基于浅层融合的多模态图像能见度检测模型的深度学习方法 |
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
CN111786979A (zh) * | 2020-06-24 | 2020-10-16 | 杭州电子科技大学 | 一种基于多模态学习的电力攻击识别方法 |
CN111798849A (zh) * | 2020-07-06 | 2020-10-20 | 广东工业大学 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
CN111814128A (zh) * | 2020-09-01 | 2020-10-23 | 北京远鉴信息技术有限公司 | 基于融合特征的身份认证方法、装置、设备及存储介质 |
CN111862985A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN112101045A (zh) * | 2020-11-02 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种多模态语义完整性识别方法、装置及电子设备 |
CN112131981A (zh) * | 2020-09-10 | 2020-12-25 | 山东大学 | 一种基于骨架数据行为识别的司机疲劳检测方法 |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112487949A (zh) * | 2020-11-27 | 2021-03-12 | 华中师范大学 | 一种基于多模态数据融合的学习者行为识别方法 |
CN112597841A (zh) * | 2020-12-14 | 2021-04-02 | 之江实验室 | 一种基于门机制多模态融合的情感分析方法 |
CN112700796A (zh) * | 2020-12-21 | 2021-04-23 | 北京工业大学 | 一种基于交互式注意力模型的语音情感识别方法 |
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN112926557A (zh) * | 2021-05-11 | 2021-06-08 | 北京的卢深视科技有限公司 | 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法 |
CN113128284A (zh) * | 2019-12-31 | 2021-07-16 | 上海汽车集团股份有限公司 | 一种多模态情感识别方法和装置 |
WO2021147084A1 (en) * | 2020-01-23 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for emotion recognition in user-generated video(ugv) |
CN113392918A (zh) * | 2021-06-24 | 2021-09-14 | 哈尔滨理工大学 | 一种基于多源信息融合的抑郁障碍相关因素识别方法 |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
CN113496156A (zh) * | 2020-03-20 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 一种情感预测方法及其设备 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN113776834A (zh) * | 2021-10-11 | 2021-12-10 | 山东大学 | 基于离散余弦循环谱相干的滚动轴承故障诊断方法及系统 |
CN113808622A (zh) * | 2021-09-17 | 2021-12-17 | 青岛大学 | 基于中文语音和文本的情感识别系统及方法 |
WO2021259336A1 (zh) * | 2020-06-23 | 2021-12-30 | 华为技术有限公司 | 一种模态信息补全方法、装置及设备 |
TWI751504B (zh) * | 2020-02-27 | 2022-01-01 | 中華電信股份有限公司 | 人機協作對話系統與方法 |
CN114420169A (zh) * | 2022-03-31 | 2022-04-29 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置及机器人 |
CN114424940A (zh) * | 2022-01-27 | 2022-05-03 | 山东师范大学 | 基于多模态时空特征融合的情绪识别方法及系统 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115909317A (zh) * | 2022-07-15 | 2023-04-04 | 广东工业大学 | 一种三维模型-文本联合表达的学习方法及系统 |
CN111862985B (zh) * | 2019-05-17 | 2024-05-31 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382555B (zh) * | 2020-03-19 | 2023-08-29 | 杭州网易智企科技有限公司 | 数据处理方法、介质、装置和计算设备 |
CN111477328B (zh) * | 2020-03-31 | 2021-02-02 | 北京智能工场科技有限公司 | 一种非接触式的心理状态预测方法 |
CN111767740A (zh) * | 2020-06-23 | 2020-10-13 | 北京字节跳动网络技术有限公司 | 音效添加方法和装置、存储介质和电子设备 |
CN111767461B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
CN112508413A (zh) * | 2020-12-08 | 2021-03-16 | 天津大学 | 基于多模态学习和lstm风险研判方法 |
CN112667071A (zh) * | 2020-12-18 | 2021-04-16 | 宜通世纪物联网研究院(广州)有限公司 | 基于随机变分信息的手势识别方法、装置、设备及介质 |
CN113111954B (zh) * | 2021-04-20 | 2022-10-11 | 网易(杭州)网络有限公司 | 一种用户类别判定方法、装置、存储介质及服务器 |
CN113407428B (zh) * | 2021-06-22 | 2023-07-18 | 贵州理工学院 | 人工智能系统的可靠性评估方法、装置和计算机设备 |
CN113616184B (zh) * | 2021-06-30 | 2023-10-24 | 北京师范大学 | 基于多模态磁共振图像的脑网络建模与个体预测方法 |
CN113469153B (zh) * | 2021-09-03 | 2022-01-11 | 中国科学院自动化研究所 | 基于微表情、肢体动作和语音的多模态情感识别方法 |
CN113822192B (zh) * | 2021-09-18 | 2023-06-30 | 山东大学 | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 |
TWI829065B (zh) * | 2022-01-06 | 2024-01-11 | 沐恩生醫光電股份有限公司 | 資料融合系統及其操作方法 |
CN114519880B (zh) * | 2022-02-09 | 2024-04-05 | 复旦大学 | 基于跨模态自监督学习的主动说话人识别方法 |
CN115658933B (zh) * | 2022-12-28 | 2023-04-07 | 四川大学华西医院 | 心理状态知识库构建方法、装置、计算机设备及存储介质 |
CN117935340A (zh) * | 2024-03-21 | 2024-04-26 | 山东大学 | 基于知识蒸馏的面部表情识别方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052080A1 (en) * | 2005-11-30 | 2008-02-28 | University Of Southern California | Emotion Recognition System |
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469065B (zh) * | 2015-12-07 | 2019-04-23 | 中国科学院自动化研究所 | 一种基于递归神经网络的离散情感识别方法 |
CN108363753B (zh) * | 2018-01-30 | 2020-05-19 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
-
2018
- 2018-11-29 CN CN201811441300.8A patent/CN109614895A/zh active Pending
-
2019
- 2019-10-18 CN CN201910995435.7A patent/CN110751208B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080052080A1 (en) * | 2005-11-30 | 2008-02-28 | University Of Southern California | Emotion Recognition System |
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
CN107169409A (zh) * | 2017-03-31 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 一种情感识别方法及装置 |
CN107832400A (zh) * | 2017-11-01 | 2018-03-23 | 山东大学 | 一种基于位置的lstm和cnn联合模型进行关系分类的方法 |
CN108460089A (zh) * | 2018-01-23 | 2018-08-28 | 哈尔滨理工大学 | 基于Attention神经网络的多元特征融合中文文本分类方法 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
邵兵等: ""基于卷积神经网络的语音情感识别方法"", 《计算机科学》 * |
陈凯: ""深度学习模型的高效训练算法研究"", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (77)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020596B (zh) * | 2019-02-21 | 2021-04-30 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN110020596A (zh) * | 2019-02-21 | 2019-07-16 | 北京大学 | 一种基于特征融合和级联学习的视频内容定位方法 |
CN110147548A (zh) * | 2019-04-15 | 2019-08-20 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110147548B (zh) * | 2019-04-15 | 2023-01-31 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110046279B (zh) * | 2019-04-18 | 2022-02-25 | 网易传媒科技(北京)有限公司 | 视频文件特征的预测方法、介质、装置和计算设备 |
CN110046279A (zh) * | 2019-04-18 | 2019-07-23 | 网易传媒科技(北京)有限公司 | 视频文件特征的预测方法、介质、装置和计算设备 |
CN110188343B (zh) * | 2019-04-22 | 2023-01-31 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
CN111862985B (zh) * | 2019-05-17 | 2024-05-31 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN111862985A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN110097894B (zh) * | 2019-05-21 | 2021-06-11 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN110390311A (zh) * | 2019-07-27 | 2019-10-29 | 苏州过来人科技有限公司 | 一种基于注意力和子任务预训练的视频分析算法 |
CN110399934A (zh) * | 2019-07-31 | 2019-11-01 | 北京达佳互联信息技术有限公司 | 一种视频分类方法、装置及电子设备 |
CN110442723B (zh) * | 2019-08-14 | 2020-05-15 | 山东大学 | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 |
CN110442723A (zh) * | 2019-08-14 | 2019-11-12 | 山东大学 | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 |
CN110390956A (zh) * | 2019-08-15 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别网络模型、方法及电子设备 |
CN110675860A (zh) * | 2019-09-24 | 2020-01-10 | 山东大学 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
CN110674348A (zh) * | 2019-09-27 | 2020-01-10 | 北京字节跳动网络技术有限公司 | 视频分类方法、装置及电子设备 |
CN110674348B (zh) * | 2019-09-27 | 2023-02-03 | 北京字节跳动网络技术有限公司 | 视频分类方法、装置及电子设备 |
CN111242155A (zh) * | 2019-10-08 | 2020-06-05 | 台州学院 | 一种基于多模深度学习的双模态情感识别方法 |
CN110706771A (zh) * | 2019-10-10 | 2020-01-17 | 复旦大学附属中山医院 | 多模态患教内容的生成方法、装置、服务器及存储介质 |
CN110826466A (zh) * | 2019-10-31 | 2020-02-21 | 南京励智心理大数据产业研究院有限公司 | 基于lstm音像融合的情感识别方法、装置及存储介质 |
CN110826466B (zh) * | 2019-10-31 | 2023-10-03 | 陕西励爱互联网科技有限公司 | 基于lstm音像融合的情感识别方法、装置及存储介质 |
CN110942502A (zh) * | 2019-11-29 | 2020-03-31 | 中山大学 | 语音唇形拟合方法、系统及存储介质 |
CN111164601A (zh) * | 2019-12-30 | 2020-05-15 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN113128284A (zh) * | 2019-12-31 | 2021-07-16 | 上海汽车集团股份有限公司 | 一种多模态情感识别方法和装置 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111275085B (zh) * | 2020-01-15 | 2022-09-13 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
WO2021147084A1 (en) * | 2020-01-23 | 2021-07-29 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for emotion recognition in user-generated video(ugv) |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
TWI751504B (zh) * | 2020-02-27 | 2022-01-01 | 中華電信股份有限公司 | 人機協作對話系統與方法 |
CN113496156A (zh) * | 2020-03-20 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 一种情感预测方法及其设备 |
CN113496156B (zh) * | 2020-03-20 | 2023-12-19 | 阿里巴巴集团控股有限公司 | 一种情感预测方法及其设备 |
CN111523575A (zh) * | 2020-04-13 | 2020-08-11 | 中南大学 | 基于短视频多模态特征的短视频推荐模型 |
CN111523574A (zh) * | 2020-04-13 | 2020-08-11 | 云南大学 | 一种基于多模态数据的图像情感识别方法及系统 |
CN111523575B (zh) * | 2020-04-13 | 2023-12-12 | 中南大学 | 基于短视频多模态特征的短视频推荐方法 |
CN111680541B (zh) * | 2020-04-14 | 2022-06-21 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111563551A (zh) * | 2020-04-30 | 2020-08-21 | 支付宝(杭州)信息技术有限公司 | 一种多模态信息融合方法、装置及电子设备 |
CN111753549B (zh) * | 2020-05-22 | 2023-07-21 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
CN111753549A (zh) * | 2020-05-22 | 2020-10-09 | 江苏大学 | 一种基于注意力机制的多模态情感特征学习、识别方法 |
CN111738314A (zh) * | 2020-06-09 | 2020-10-02 | 南通大学 | 基于浅层融合的多模态图像能见度检测模型的深度学习方法 |
CN111738314B (zh) * | 2020-06-09 | 2021-11-02 | 南通大学 | 基于浅层融合的多模态图像能见度检测模型的深度学习方法 |
WO2021259336A1 (zh) * | 2020-06-23 | 2021-12-30 | 华为技术有限公司 | 一种模态信息补全方法、装置及设备 |
CN111786979B (zh) * | 2020-06-24 | 2022-07-22 | 杭州电子科技大学 | 一种基于多模态学习的电力攻击识别方法 |
CN111786979A (zh) * | 2020-06-24 | 2020-10-16 | 杭州电子科技大学 | 一种基于多模态学习的电力攻击识别方法 |
CN111798849A (zh) * | 2020-07-06 | 2020-10-20 | 广东工业大学 | 一种机器人指令识别方法、装置及电子设备和存储介质 |
CN111814128B (zh) * | 2020-09-01 | 2020-12-11 | 北京远鉴信息技术有限公司 | 基于融合特征的身份认证方法、装置、设备及存储介质 |
CN111814128A (zh) * | 2020-09-01 | 2020-10-23 | 北京远鉴信息技术有限公司 | 基于融合特征的身份认证方法、装置、设备及存储介质 |
CN112131981A (zh) * | 2020-09-10 | 2020-12-25 | 山东大学 | 一种基于骨架数据行为识别的司机疲劳检测方法 |
CN112101045B (zh) * | 2020-11-02 | 2021-12-14 | 北京淇瑀信息科技有限公司 | 一种多模态语义完整性识别方法、装置及电子设备 |
CN112101045A (zh) * | 2020-11-02 | 2020-12-18 | 北京淇瑀信息科技有限公司 | 一种多模态语义完整性识别方法、装置及电子设备 |
CN112348075A (zh) * | 2020-11-02 | 2021-02-09 | 大连理工大学 | 一种基于情景注意力神经网络的多模态情感识别方法 |
CN112487949A (zh) * | 2020-11-27 | 2021-03-12 | 华中师范大学 | 一种基于多模态数据融合的学习者行为识别方法 |
CN112597841A (zh) * | 2020-12-14 | 2021-04-02 | 之江实验室 | 一种基于门机制多模态融合的情感分析方法 |
CN112597841B (zh) * | 2020-12-14 | 2023-04-18 | 之江实验室 | 一种基于门机制多模态融合的情感分析方法 |
CN112700796A (zh) * | 2020-12-21 | 2021-04-23 | 北京工业大学 | 一种基于交互式注意力模型的语音情感识别方法 |
CN112906624A (zh) * | 2021-03-12 | 2021-06-04 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN112906624B (zh) * | 2021-03-12 | 2022-09-13 | 合肥工业大学 | 一种基于音视频多模态时序预测的视频数据特征提取方法 |
CN112926557A (zh) * | 2021-05-11 | 2021-06-08 | 北京的卢深视科技有限公司 | 一种训练多模态人脸识别模型的方法以及多模态人脸识别方法 |
CN113408385A (zh) * | 2021-06-10 | 2021-09-17 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
CN113408385B (zh) * | 2021-06-10 | 2022-06-14 | 华南理工大学 | 一种音视频多模态情感分类方法及系统 |
CN113392918A (zh) * | 2021-06-24 | 2021-09-14 | 哈尔滨理工大学 | 一种基于多源信息融合的抑郁障碍相关因素识别方法 |
CN113571050A (zh) * | 2021-07-28 | 2021-10-29 | 复旦大学 | 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法 |
CN113808622A (zh) * | 2021-09-17 | 2021-12-17 | 青岛大学 | 基于中文语音和文本的情感识别系统及方法 |
CN113674767A (zh) * | 2021-10-09 | 2021-11-19 | 复旦大学 | 一种基于多模态融合的抑郁状态识别方法 |
CN113776834A (zh) * | 2021-10-11 | 2021-12-10 | 山东大学 | 基于离散余弦循环谱相干的滚动轴承故障诊断方法及系统 |
CN113776834B (zh) * | 2021-10-11 | 2022-09-02 | 山东大学 | 基于离散余弦循环谱相干的滚动轴承故障诊断方法及系统 |
CN114424940A (zh) * | 2022-01-27 | 2022-05-03 | 山东师范大学 | 基于多模态时空特征融合的情绪识别方法及系统 |
CN114420169A (zh) * | 2022-03-31 | 2022-04-29 | 北京沃丰时代数据科技有限公司 | 情绪识别方法、装置及机器人 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115019237B (zh) * | 2022-06-30 | 2023-12-08 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115909317A (zh) * | 2022-07-15 | 2023-04-04 | 广东工业大学 | 一种三维模型-文本联合表达的学习方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110751208B (zh) | 2020-06-30 |
CN110751208A (zh) | 2020-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614895A (zh) | 一种基于attention特征融合的多模态情感识别的方法 | |
Er | A novel approach for classification of speech emotions based on deep and acoustic features | |
Chen et al. | 3-D convolutional recurrent neural networks with attention model for speech emotion recognition | |
Xie et al. | Speech emotion classification using attention-based LSTM | |
Harwath et al. | Jointly discovering visual objects and spoken words from raw sensory input | |
Mane et al. | A survey on supervised convolutional neural network and its major applications | |
Tao et al. | Affective computing: A review | |
Yang et al. | Multi-sentence auxiliary adversarial networks for fine-grained text-to-image synthesis | |
Chen et al. | K-means clustering-based kernel canonical correlation analysis for multimodal emotion recognition in human–robot interaction | |
Li et al. | Exploiting the potentialities of features for speech emotion recognition | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN109948158A (zh) | 基于环境元嵌入和深度学习的情感倾向性分析方法 | |
Yang et al. | Feature augmenting networks for improving depression severity estimation from speech signals | |
CN109614487A (zh) | 一种基于张量融合方式的情感分类的方法 | |
Wei et al. | A novel speech emotion recognition algorithm based on wavelet kernel sparse classifier in stacked deep auto-encoder model | |
Liu et al. | Speech emotion recognition based on convolutional neural network with attention-based bidirectional long short-term memory network and multi-task learning | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Wang | Effect of subject's age and gender on face recognition results | |
Islam et al. | A review on video classification with methods, findings, performance, challenges, limitations and future work | |
Huang et al. | C-Rnn: a fine-grained language model for image captioning | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
Pande et al. | Development and deployment of a generative model-based framework for text to photorealistic image generation | |
Song et al. | A review of audio-visual fusion with machine learning | |
Atkar et al. | Speech Emotion Recognition using Dialogue Emotion Decoder and CNN Classifier | |
Kumar et al. | A constructive deep convolutional network model for analyzing video-to-image sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190412 |