CN110033029A - 一种基于多模态情感模型的情感识别方法和装置 - Google Patents
一种基于多模态情感模型的情感识别方法和装置 Download PDFInfo
- Publication number
- CN110033029A CN110033029A CN201910220260.2A CN201910220260A CN110033029A CN 110033029 A CN110033029 A CN 110033029A CN 201910220260 A CN201910220260 A CN 201910220260A CN 110033029 A CN110033029 A CN 110033029A
- Authority
- CN
- China
- Prior art keywords
- emotion
- model
- prediction model
- video
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 142
- 238000000034 method Methods 0.000 title claims abstract description 16
- 230000002996 emotional effect Effects 0.000 claims abstract description 16
- 230000008909 emotion recognition Effects 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims description 30
- 230000004927 fusion Effects 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 10
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000010195 expression analysis Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 5
- 230000036039 immunity Effects 0.000 abstract description 2
- 239000013598 vector Substances 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 2
- 238000013102 re-test Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 239000004783 Serene Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N serine Chemical compound OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多模态情感模型的情感识别方法和装置,建立基础维度预测模型,并由基础维度预测模型得到视频维度预测模型、音频维度预测模型和文本维度预测模型,分别分析表情姿态视频特征、音频特征、话语文本特征得到第一情感结果、第二情感结果和第三情感结果;将三个结果融合并结合基于基础维度预测模型的映射关系得到目标对象的情感类别;其从多模态和多角度进行情感识别,具有信息全面、抗干扰性强以及高准确度的优点。
Description
技术领域
本发明涉及计算机处理领域,特别是一种基于多模态情感模型的情感识别方法和装置。
背景技术
情感是人们在日常生活中表现出来的一种心理现象。而对于智能机器,如果能够实现快速准确地判断人的情感状态,就可以进一步理解用户的情感,从而实现与用户的自然、友好、和谐的交互。人的情感是通过多种模态表现出来的,诸如表情、姿态、声音和话语等;可以基于这些模态进行情感判断,但是单模态具有信息不全面、反馈不及时以及易受干扰等诸多缺点。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种基于多模态情感模型的情感识别方法和装置,进行多模态的情感识别,有效提高情感识别性能。
本发明解决其问题所采用的技术方案是:
本发明的第一方面一种基于多模态情感模型的情感识别方法,其特征在于,包括以下步骤:建立基础维度预测模型;标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型;提取目标对象的表情姿态视频特征、音频特征和话语文本特征;通过视频维度预测模型对表情姿态视频特征分析得到第一情感结果;通过音频维度预测模型对音频特征分析得到第二情感结果;通过文本维度预测模型对话语文本特征分析得到第三情感结果;对所述第一情感结果、第二情感结果和第三情感结果进行信息融合,得到融合结果;根据所述融合结果通过建立的融合结果和情感类型的映射关系,得到目标对象的情感类型。
进一步,所述建立基础维度预测模型具体包括:建立包含愉悦维、唤醒维和支配维的基础维度预测模型,每个维度的取值极限构成一个圆;将每个维度按情感由弱到强进行分区,并对每个区代入不同的情感类别。
进一步,所述标注基础维度预测模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型具体包括:分别对视频信息和音频信息进行时间等长切片处理形成视频信息片段和音频信息片段;对文本信息进行分词处理形成文本信息片段;分别对切片后的视频信息片段和音频信息片段进行序列重构;对文本信息片段进行词性标记;分别根据序列重构后的视频信息片段、音频信息片段和标记后的文本信息片段对基础维度预测模型进行标注并结合相应的神经网络模型,进而形成视频维度预测模型、音频维度预测模型和文本维度预测模型。
进一步,所述表情姿态视频特征包括表情特征和姿态特征,所述视频维度预测模型包括3D表情卷积神经网络和3D姿态卷积神经网络;所述视频维度预测模型对表情姿态视频特征分析得到第一情感结果具体包括:3D表情卷积神经网络分类识别表情特征得到表情情感矩阵;3D姿态卷积神经网络分类识别姿态特征得到姿态情感矩阵;将表情情感矩阵和姿态情感矩阵融合得到第一情感结果。
本发明的第二方面,一种基于多模态情感模型的情感识别装置,包括:基础模型建立器,用于建立基础维度预测模型;基础模型标注器,用于标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型;特征提取器,用于提取目标对象的表情姿态视频特征、音频特征和话语文本特征;第一情感分析子系统,用于根据表情姿态视频特征分析得到第一情感结果;第二情感分析子系统,用于根据音频特征分析得到第二情感结果;第三情感分析子系统,用于根据话语文本特征分析得到第三情感结果;情感结果融合系统,用于对三个情感结果进行信息融合得到融合结果;情感输出器,用于根据融合结果通过映射关系得到并输出情感类型。
进一步,一种基于多模态情感模型的情感识别装置,还包括目标对象接收端,用于接收目标对象的信息;分割器,用于将目标对象分割为视频信息、音频信息和文本信息。
进一步,所述特征提取器包括视频特征提取器、音频特征提取器和文本特征提取器。
进一步,所述基础模型标注器包括视频模型标注器、音频模型标注器和文本模型标注器。
具体地,所述视频模型标注器具体包括:视频信息切片部、视频信息排序部和视频模型标注部;所述音频模型标注器具体包括:音频信息切片部、音频信息排序部和音频模型标注部;所述文本模型标注器具体包括:文本信息分词部、文本信息标记部和文本模型标注部。
进一步,所述第一情感分析子系统包括表情分析子系统和姿态分析子系统。
本发明的有益效果是:建立起多维度的基础维度预测模型,在此基础上形成视频维度预测模型、音频维度预测模型和文本维度预测模型,结合视频情感识别技术、音频情感识别技术和文本情感识别技术,从多模态和多角度进行情感识别,具有信息全面、抗干扰性强以及高准确度的优点。
附图说明
下面结合附图和实例对本发明作进一步说明。
图1是本发明的第一方面的步骤图;
图2是本发明的第二方面的一个实施例的结构图;
图3是本发明的第二方面的另一个实施例的结构图;
图4是本发明的基础模型标注器的结构图;
图5是本发明的基础维度预测模型的模型图。
具体实施方式
参照图1,本发明的第一方面,提供了一种基于多模态情感模型的情感识别方法,其特征在于,包括以下步骤:
S1、建立基础维度预测模型;
S2、标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型;
S3、提取目标对象的表情姿态视频特征、音频特征和话语文本特征;
S4、通过视频维度预测模型对表情姿态视频特征分析得到第一情感结果;
S5、通过音频维度预测模型对音频特征分析得到第二情感结果;
S6、通过文本维度预测模型对话语文本特征分析得到第三情感结果;
S7、对所述第一情感结果、第二情感结果和第三情感结果进行信息融合,得到融合结果;
S8、根据所述融合结果通过建立的融合结果和情感类型的映射关系,得到目标对象的情感类型。
在该实施例中,首先建立起多维度的基础维度预测模型,在此基础上形成视频维度预测模型、音频维度预测模型和文本维度预测模型,结合视频情感识别技术、音频情感识别技术和文本情感识别技术,从多模态和多角度进行情感识别,具有信息全面、抗干扰性强以及高准确度的优点。
在情感预测模型上通常分为离散预测模型和维度预测模型,离散预测模型简单直观,但是选用的基础情感少导致表示的情感范围有限;另外因情感编码与文化和语言具有密切的联系也使情感编码的普适性收到了限制。情感的产生、发展和消失是一个过程,而此模型却无法描述情感的发展进程。
参照图5,所述建立基础维度预测模型具体包括:建立包含愉悦维、唤醒维和支配维的基础维度预测模型,每个维度的取值极限构成一个圆;将每个维度按情感由弱到强进行分区,并对每个区代入相应的情感类别。基础维度预测模型相对离散预测模型,其主要优势在于,用以表示的情感状态范围广泛;可跟踪情感的发展变化过程;可度量情感的相似性和差异性。
例如,从唤醒维到愉悦维,情感由弱到强分别为紧张、微笑、愉快、快乐、兴奋和振奋的情感类别,从愉悦维到支配维,情感由弱到强分别为满意、放松、安详、平静、害怕和恐惧的情感类别;从支配维到唤醒维,情感由弱到强分别为困乏、厌烦、沮丧、难过、惊恐和狂怒的情感类别。从数学的角度来说,即当三维坐标落在情感类别所在区域的范围内,则对应该情感类别。
进一步,所述步骤S2具体包括:分别对视频信息和音频信息进行时间等长切片形成视频信息片段和音频信息片段;对文本信息进行分词处理形成文本信息片段;分别对切片后的视频信息片段和音频信息片段进行序列重构;对文本信息片段进行词性标记;分别根据序列重构后的视频信息片段、音频信息片段和标记后的文本信息片段对基础维度预测模型进行标注并结合相应的神经网络模型,进而形成视频维度预测模型、音频维度预测模型和文本维度预测模型。
进一步,所述表情姿态视频特征包括表情特征和姿态特征,所述视频维度预测模型包括3D表情卷积神经网络和3D姿态卷积神经网络;所述步骤S4具体包括:3D表情卷积神经网络分类识别表情特征得到表情情感矩阵;3D姿态卷积神经网络分类识别姿态特征得到姿态情感矩阵;将表情情感矩阵和姿态情感矩阵融合得到第一情感结果。
需要说明的是,3D表情卷积神经网络是根据序列重构后的包含表情特征的视频信息片段对基础维度预测模型进行标注并结合3D卷积神经网络形成的;3D姿态卷积神经网络是根据序列重构后的包含姿态特征的视频信息片段对基础维度预测模型进行标注并结合3D卷积神经网络形成的。
具体地,3D表情卷积神经网络和3D姿态卷积神经网络,均包括顺序连接的一个输入层、至少两个卷积层、一个池化层、1个全连接层和1个Softmax分类层。
进一步地,卷积层为ReLU非线性激活函数层,选用a1个d1×k1×k1的3D卷积核对上一层的输出进行卷积运算;池化层选用d2×k2×k2的池化核对上一层卷积层的输出进行下采样运算;所述全连接层将上一层池化层的输出全连接至本层的c个输出神经元,输出一个c维的特征向量;所述Softmax分类层将上一层全连接层输出的特征向量全连接到n个输出节点,经过Softmax回归后得到一个n维向量[p1p2p3…pn]T,其中每一个维度的数值就是输入表情视频序列或姿态视频序列的情感类别属于对应类别的概率;n为情感类别数目。其中,d1、k1在3、5、7数值中选取,a1在32、64、128、256、512数值中选取;d2、k2在1、2、3数值中选取;c在256、512、1024数值中选取。
接着,对表情视频特征进行情感分类识别,得到一个第一n维向量,再对第一n维向量的每一个维度的数值大小进行比较,其中数值最大的维度对应的类别就是该表情视频特征的情感类别;对所有表情视频特征进行重复测试并统计分类识别的结果,得到表情情感矩阵。同样地,对姿态视频特征进行情感分类识别,得到一个第二n维向量,比较第二n维向量的每一个维度的数值大小,其中数值最大的维度对应的类别就是该姿态视频特征的情感类别;对测试集中的所有姿态视频特征进行重复测试,统计分类识别结果,得到姿态情感矩阵。对表情情感矩阵和姿态情感矩阵对角线上的元素进行归一化处理后,进行加权融合得到一个新的n维向量W,即为第一情感结果。
此外,还需要通过音频维度预测模型对音频特征分析得到第二情感结果;通过文本维度预测模型对话语文本特征分析得到第三情感结果;类似地,第二情感结果和第三情感结果的分析和获取过程与第一情感结果相似。音频特征和话语文本特征经过不同的卷积神经网络,音频特征经过的卷积神经网络包括顺序连接的一个输入层、至少两个卷积层、一个池化层、一个全连接层和1个Softmax分类层,得到相应的新的n维向量,即为第二情感结果。文本特征经过的卷积神经网络包括顺序连接的一个输入层、至少两个卷积层、一个池化层、一个全连接层和1个Softmax分类层,得到相应的新的n维向量,即为第三情感结果。不同的卷积神经网络之间的卷积层数目以及卷积层参数不相同,卷积层参数依据多次训练的对基础维度预测模型进行标注的结果得到。对所述第一情感结果、第二情感结果和第三情感结果进行信息融合,得到融合结果;根据所述融合结果通过建立的融合结果和情感类型的映射关系,得到目标对象的情感类型。
进一步,对所述第一情感结果、第二情感结果和第三情感结果进行信息融合,得到融合结果具体为:将第一情感结果、第二情感结果和第三情感结果经过一个包含权重因子q的权重模型得到融合结果,权重因子q是经过重复训练得到的权重值,q取值范围在0-1之间。
进一步,根据所述融合结果通过建立的融合结果和情感类型的映射关系,得到目标对象的情感类型。所述建立的融合结果和情感类型的映射关系为基于基础维度预测模型建立的心理行为学映射关系图谱,其为根据行为心理学关系和基础维度预测模型所预先构建的关系库,是从人的行为表象到人的真实情感的情感类型的映射关系图谱。经过这一步的映射,最终确定目标对象的情感类型。
参照图2,本发明的第二方面,一种基于多模态情感模型的情感识别装置,包括:基础模型建立器100,用于建立基础维度预测模型;基础模型标注器200,用于标注基础维度预测模型;特征提取器500,用于提取目标对象的各种特征;第一情感分析子系统610,用于根据表情姿态视频特征分析得到第一情感结果;第二情感分析子系统620,用于根据音频特征分析得到第二情感结果;第三情感分析子系统630,用于根据话语文本特征分析得到第三情感结果;情感结果融合系统700,用于对三个情感结果进行信息融合得到融合结果;情感输出器800,用于根据融合结果通过映射关系得到并输出情感类型。
参照图3,在另一个实施例中,一种基于多模态情感模型的情感识别装置,还包括目标对象接收端300,用于接收目标对象的信息;分割器400,用于将目标对象分割为视频信息、音频信息和文本信息。所述分割器400将目标对象分割为视频信息和音频信息,另外分割器400还将音频信息转换为文本信息。进一步,所述第一情感分析子系统610包括表情分析子系统和姿态分析子系统。
进一步,所述特征提取器500包括视频特征提取器510、音频特征提取器520和文本特征提取器530。所述视频特征提取器510识别和跟踪由视频的特征图片组成的第一图片数据集中的人脸数据;同时根据人脸数据中的脸部关键点获取表情特征值。所述视频特征提取器510另外还识别和跟踪由视频的特征图片组成的第一图片数据集中的姿态数据;同时根据姿态数据中的包含头部在内的身体部位关键点获取姿态特征值。所述音频特征提取器520识别和跟踪有音频的特征时频图组成的第二图片数据集中的各种声学韵律特征;同时根据各种声学韵律特征获取音频特征值。声学韵律特征具体包括,音高、强度、音质,声谱,倒谱,线性感知预测倒谱系数,频谱斜度,频谱尖度,声音色度,频谱衰减点,语音爬升点,频谱包络,过零率,频谱流,频谱质心,频带宽度,频谱商,频谱平坦度,频谱斜率,单频泛音,方均根强度,声音机率,声音共振峰。本申请中使用的特征可以为上述中的一个或多个,优选地使用多个。
进一步,所述基础模型标注器200包括视频模型标注器210、音频模型标注器220和文本模型标注器230。
参照图4,具体地,所述视频模型标注器210具体包括:视频信息切片部211、视频信息排序部212和视频模型标注部213;所述音频模型标注器220具体包括:音频信息切片部221、音频信息排序部222和音频模型标注部223;所述文本模型标注器230具体包括:文本信息分词部231、文本信息标记部232和文本模型标注部233;
所述视频信息切片部211对视频信息进行切片;例如采用100ms的等时长窗口对视频信息进行切片;视频信息排序部212对视频信息片段进行序列重构,使用gridspec函数,将由视频信息片段得到的视频图片填充10*10融合而成的一个视频的特征图片。视频模型标注部213,对所有特征图片组成的第一图片数据集进行映射,将基础维度预测模型的情感标签映射到第一图片数据集中,从而得到视频维度预测模型。
所述音频信息切片部221对视频信息进行切片;例如采用50ms的等时长窗口对50kHz的音频信息进行切片,每个Segment内含有2500个音频信号数据,对音频信号数据利用时域用窗口函数不断移动实现短时傅里叶变换的计算并用matplotlib库绘制了时频图;音频信息排序部222对时频图进行序列重构,使用gridspec函数,将时频图填充10*10融合而成的一个音频的特征图片。音频模型标注部223,对所有特征图片组成的第二图片数据集进行映射,将基础维度预测模型的情感标签映射到第二图片数据集中,从而得到音频维度预测模型。
所述文本信息分词部231将由音频信息转换成的文本信息进行分词处理得到分词文本;文本信息标记部232将分词文本标记为语义词向量、情感词向量和词典词向量;并利用长短时记忆网络LSTM捕获三种类型词向量中每一词的上下文语义得到语义词向量矩阵、情感词向量矩阵和词典词向量矩阵以消除单词歧义;文本模型标注部233对所有词向量矩阵组成的文本矩阵数据集进行映射,将基础维度预测模型的情感标签映射到文本矩阵数据集中,从而得到文本维度预测模型。
所述第一情感分析子系统610、第二情感分析子系统620和第三情感分析子系统630均相应地设置有包括顺序连接的一个输入层、至少两个卷积层、一个池化层、1个全连接层和1个Softmax分类层的神经网络,将表情姿态视频特征、音频特征和话语文本特征分析得到三个包含情感类别的n维向量,即对应的第一情感结果、第二情感结果和第三情感结果。不同的神经网络之间的卷积层数量以及卷积层参数不相同。
在该实施例中,基于基础维度预测模型,结合第一情感分析子系统610、第二情感分析子系统620和第三情感分析子系统630分别得到第一情感结果、第二情感结果和第三情感结果,通过多模态的方式得到多方面的情感结果,同时情感结果由多次训练得到包含权重因子的权重模型计算得到融合结果;最后基于基础维度预测模型建立的心理行为学映射关系图谱,确定目标对象的情感类别。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。
Claims (10)
1.一种基于多模态情感模型的情感识别方法,其特征在于,包括以下步骤:
建立基础维度预测模型;
标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型;
提取目标对象的表情姿态视频特征、音频特征和话语文本特征;
通过视频维度预测模型对表情姿态视频特征分析得到第一情感结果;
通过音频维度预测模型对音频特征分析得到第二情感结果;
通过文本维度预测模型对话语文本特征分析得到第三情感结果;
对所述第一情感结果、第二情感结果和第三情感结果进行信息融合,得到融合结果;
根据所述融合结果通过建立的融合结果和情感类型的映射关系,得到目标对象的情感类型。
2.根据权利要求1所述的一种基于多模态情感模型的情感识别方法,其特征在于,所述建立基础维度预测模型具体包括:
建立包含愉悦维、唤醒维和支配维的基础维度预测模型,每个维度的取值极限构成一个圆;
将每个维度按情感由弱到强进行分区,并对每个区代入相应的情感类别。
3.根据权利要求2所述的一种基于多模态情感模型的情感识别方法,其特征在于,所述标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型具体包括:
分别对视频信息和音频信息进行时间等长切片处理形成视频信息片段和音频信息片段;
对文本信息进行分词处理形成文本信息片段;
分别对切片后的视频信息片段和音频信息片段进行序列重构;
对文本信息片段进行词性标记;
分别根据序列重构后的视频信息片段、音频信息片段和标记后的文本信息片段对基础维度预测模型进行标注并结合不同的神经网络模型,进而形成视频维度预测模型、音频维度预测模型和文本维度预测模型。
4.根据权利要求3所述的一种基于多模态情感模型的情感识别方法,其特征在于,所述表情姿态视频特征包括表情特征和姿态特征,所述视频维度预测模型包括3D表情卷积神经网络和3D姿态卷积神经网络;所述视频维度预测模型对表情姿态视频特征分析得到第一情感结果具体包括:3D表情卷积神经网络分类识别表情特征得到表情情感矩阵;3D姿态卷积神经网络分类识别姿态特征得到姿态情感矩阵;将表情情感矩阵和姿态情感矩阵融合得到第一情感结果。
5.一种基于多模态情感模型的情感识别装置,其特征在于,包括:基础模型建立器,用于建立基础维度预测模型;
基础模型标注器,用于标注基础维度预测模型并结合神经网络模型分别形成视频维度预测模型、音频维度预测模型和文本维度预测模型;
特征提取器,用于提取目标对象的表情姿态视频特征、音频特征和话语文本特征;
第一情感分析子系统,用于利用视频维度预测模型对表情姿态视频特征分析得到第一情感结果;
第二情感分析子系统,用于利用音频维度预测模型对音频特征分析得到第二情感结果;
第三情感分析子系统,用于利用文本维度预测模型对话语文本特征分析得到第三情感结果;
情感结果融合系统,用于对三个情感结果进行信息融合得到融合结果;
情感输出器,用于根据融合结果通过映射关系得到并输出情感类型。
6.根据权利要求5所述的一种基于多模态情感模型的情感识别装置,其特征在于,还包括目标对象接收端,用于接收目标对象的信息;分割器,用于将目标对象分割为视频信息、音频信息和文本信息。
7.根据权利要求6所述的一种基于多模态情感模型的情感识别装置,其特征在于,所述特征提取器包括视频特征提取器、音频特征提取器和文本特征提取器。
8.根据权利要求7所述的一种基于多模态情感模型的情感识别装置,其特征在于,所述基础模型标注器包括视频模型标注器、音频模型标注器和文本模型标注器。
9.根据权利要求8所述的一种基于多模态情感模型的情感识别装置,其特征在于,所述视频模型标注器具体包括:视频信息切片部、视频信息排序部和视频模型标注部;所述音频模型标注器具体包括:音频信息切片部、音频信息排序部和音频模型标注部;所述文本模型标注器具体包括:文本信息分词部、文本信息标记部和文本模型标注部。
10.根据权利要求6所述的一种基于多模态情感模型的情感识别装置,其特征在于,所述第一情感分析子系统包括表情分析子系统和姿态分析子系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910220260.2A CN110033029A (zh) | 2019-03-22 | 2019-03-22 | 一种基于多模态情感模型的情感识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910220260.2A CN110033029A (zh) | 2019-03-22 | 2019-03-22 | 一种基于多模态情感模型的情感识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110033029A true CN110033029A (zh) | 2019-07-19 |
Family
ID=67236375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910220260.2A Pending CN110033029A (zh) | 2019-03-22 | 2019-03-22 | 一种基于多模态情感模型的情感识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033029A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556129A (zh) * | 2019-09-09 | 2019-12-10 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
CN110866184A (zh) * | 2019-11-11 | 2020-03-06 | 湖南大学 | 短视频数据标签推荐方法、装置、计算机设备和存储介质 |
CN111401268A (zh) * | 2020-03-19 | 2020-07-10 | 内蒙古工业大学 | 一种面向开放环境的多模态情感识别方法及装置 |
CN111507421A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种基于视频的情感识别方法及装置 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111859980A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
CN111932056A (zh) * | 2020-06-19 | 2020-11-13 | 北京文思海辉金信软件有限公司 | 客服质量评分方法、装置、计算机设备和存储介质 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
CN112632276A (zh) * | 2020-12-08 | 2021-04-09 | 北京语言大学 | 一种汉语三维六极情感计算模型构建方法 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN113255557A (zh) * | 2021-06-08 | 2021-08-13 | 汪知礼 | 一种基于深度学习的视频人群情绪分析方法及系统 |
CN113420556A (zh) * | 2021-07-23 | 2021-09-21 | 平安科技(深圳)有限公司 | 基于多模态信号的情感识别方法、装置、设备及存储介质 |
US11281945B1 (en) | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030028383A1 (en) * | 2001-02-20 | 2003-02-06 | I & A Research Inc. | System for modeling and simulating emotion states |
US20030069728A1 (en) * | 2001-10-05 | 2003-04-10 | Raquel Tato | Method for detecting emotions involving subspace specialists |
US20140049546A1 (en) * | 2012-08-16 | 2014-02-20 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
US20150332118A1 (en) * | 2012-08-16 | 2015-11-19 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
CN105719664A (zh) * | 2016-01-14 | 2016-06-29 | 盐城工学院 | 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法 |
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
CN106803098A (zh) * | 2016-12-28 | 2017-06-06 | 南京邮电大学 | 一种基于语音、表情与姿态的三模态情感识别方法 |
CN107220591A (zh) * | 2017-04-28 | 2017-09-29 | 哈尔滨工业大学深圳研究生院 | 多模态智能情绪感知系统 |
CN107358946A (zh) * | 2017-06-08 | 2017-11-17 | 南京邮电大学 | 基于切片卷积的语音情感识别方法 |
CN107704996A (zh) * | 2017-09-12 | 2018-02-16 | 青岛大学 | 一种基于情感分析的教师评价系统 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN109215678A (zh) * | 2018-08-01 | 2019-01-15 | 太原理工大学 | 一种基于情感维度下的深度情感交互模型的构建方法 |
-
2019
- 2019-03-22 CN CN201910220260.2A patent/CN110033029A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030028383A1 (en) * | 2001-02-20 | 2003-02-06 | I & A Research Inc. | System for modeling and simulating emotion states |
US20030069728A1 (en) * | 2001-10-05 | 2003-04-10 | Raquel Tato | Method for detecting emotions involving subspace specialists |
US20140049546A1 (en) * | 2012-08-16 | 2014-02-20 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
US20150332118A1 (en) * | 2012-08-16 | 2015-11-19 | The Penn State Research Foundation | Automatically computing emotions aroused from images through shape modeling |
CN105719664A (zh) * | 2016-01-14 | 2016-06-29 | 盐城工学院 | 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法 |
CN106503646A (zh) * | 2016-10-19 | 2017-03-15 | 竹间智能科技(上海)有限公司 | 多模态情感辨识系统及方法 |
CN106803098A (zh) * | 2016-12-28 | 2017-06-06 | 南京邮电大学 | 一种基于语音、表情与姿态的三模态情感识别方法 |
CN107220591A (zh) * | 2017-04-28 | 2017-09-29 | 哈尔滨工业大学深圳研究生院 | 多模态智能情绪感知系统 |
CN107358946A (zh) * | 2017-06-08 | 2017-11-17 | 南京邮电大学 | 基于切片卷积的语音情感识别方法 |
CN107704996A (zh) * | 2017-09-12 | 2018-02-16 | 青岛大学 | 一种基于情感分析的教师评价系统 |
CN108596039A (zh) * | 2018-03-29 | 2018-09-28 | 南京邮电大学 | 一种基于3d卷积神经网络的双模态情感识别方法及系统 |
CN108805089A (zh) * | 2018-06-14 | 2018-11-13 | 南京云思创智信息科技有限公司 | 基于多模态的情绪识别方法 |
CN109215678A (zh) * | 2018-08-01 | 2019-01-15 | 太原理工大学 | 一种基于情感维度下的深度情感交互模型的构建方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110556129B (zh) * | 2019-09-09 | 2022-04-19 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
CN110556129A (zh) * | 2019-09-09 | 2019-12-10 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
CN110866184A (zh) * | 2019-11-11 | 2020-03-06 | 湖南大学 | 短视频数据标签推荐方法、装置、计算机设备和存储介质 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111401268A (zh) * | 2020-03-19 | 2020-07-10 | 内蒙古工业大学 | 一种面向开放环境的多模态情感识别方法及装置 |
CN111401268B (zh) * | 2020-03-19 | 2022-11-15 | 内蒙古工业大学 | 一种面向开放环境的多模态情感识别方法及装置 |
CN111680541A (zh) * | 2020-04-14 | 2020-09-18 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111680541B (zh) * | 2020-04-14 | 2022-06-21 | 华中科技大学 | 一种基于多维度注意力融合网络的多模态情绪分析方法 |
CN111507421A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种基于视频的情感识别方法及装置 |
CN111859980A (zh) * | 2020-06-16 | 2020-10-30 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
CN111859980B (zh) * | 2020-06-16 | 2024-04-09 | 中国科学院自动化研究所 | 讽刺类型的文本识别方法、装置、设备及计算机可读介质 |
CN111932056A (zh) * | 2020-06-19 | 2020-11-13 | 北京文思海辉金信软件有限公司 | 客服质量评分方法、装置、计算机设备和存储介质 |
CN112632276A (zh) * | 2020-12-08 | 2021-04-09 | 北京语言大学 | 一种汉语三维六极情感计算模型构建方法 |
CN112632276B (zh) * | 2020-12-08 | 2024-09-20 | 北京语言大学 | 一种情感类型辨别及情感强度计算方法 |
CN112418172A (zh) * | 2020-12-11 | 2021-02-26 | 苏州元启创人工智能科技有限公司 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
US11281945B1 (en) | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN113255557A (zh) * | 2021-06-08 | 2021-08-13 | 汪知礼 | 一种基于深度学习的视频人群情绪分析方法及系统 |
CN113255557B (zh) * | 2021-06-08 | 2023-08-15 | 苏州优柿心理咨询技术有限公司 | 一种基于深度学习的视频人群情绪分析方法及系统 |
CN113420556A (zh) * | 2021-07-23 | 2021-09-21 | 平安科技(深圳)有限公司 | 基于多模态信号的情感识别方法、装置、设备及存储介质 |
CN115019237B (zh) * | 2022-06-30 | 2023-12-08 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
CN115019237A (zh) * | 2022-06-30 | 2022-09-06 | 中国电信股份有限公司 | 多模态情感分析方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033029A (zh) | 一种基于多模态情感模型的情感识别方法和装置 | |
Harwath et al. | Jointly discovering visual objects and spoken words from raw sensory input | |
CN103366618B (zh) | 基于人工智能与虚拟现实用于汉语学习培训的场景设备 | |
CN111461176B (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
Kamaruddin et al. | Cultural dependency analysis for understanding speech emotion | |
CN111583964B (zh) | 一种基于多模深度特征学习的自然语音情感识别方法 | |
CN109614895A (zh) | 一种基于attention特征融合的多模态情感识别的方法 | |
Schuller et al. | Avec 2012: the continuous audio/visual emotion challenge | |
CN106653052A (zh) | 虚拟人脸动画的生成方法及装置 | |
CN108874972A (zh) | 一种基于深度学习的多轮情感对话方法 | |
CN108805089A (zh) | 基于多模态的情绪识别方法 | |
CN103996155A (zh) | 智能交互及心理慰藉机器人服务系统 | |
CN106778506A (zh) | 一种融合深度图像和多通道特征的表情识别方法 | |
CN111462841A (zh) | 一种基于知识图谱的抑郁症智能诊断装置及系统 | |
CN111523367B (zh) | 基于人脸属性分析的智能化人脸表情识别方法与系统 | |
Verma et al. | A comprehensive review on automation of Indian sign language | |
CN114550057A (zh) | 一种基于多模态表示学习的视频情绪识别方法 | |
CN109325236A (zh) | 服务机器人听觉感知家庭成员饮食信息的方法 | |
WO2021223042A1 (zh) | 一种类似于人类智能的机器智能实现方法 | |
CN1952850A (zh) | 基于动态基元选取的语音驱动三维人脸动画方法 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
Pujari et al. | A survey on deep learning based lip-reading techniques | |
CN117786103A (zh) | 一种基于电商数据和社交媒体营销内容数据建立内容标签的方法 | |
Chen et al. | Design and implementation of human-computer interaction systems based on transfer support vector machine and EEG signal for depression patients’ emotion recognition | |
CN116883608B (zh) | 一种多模态数字人社交属性控制方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190719 |