CN113780198A - 一种面向影像生成的多模态情感分类方法 - Google Patents
一种面向影像生成的多模态情感分类方法 Download PDFInfo
- Publication number
- CN113780198A CN113780198A CN202111080282.7A CN202111080282A CN113780198A CN 113780198 A CN113780198 A CN 113780198A CN 202111080282 A CN202111080282 A CN 202111080282A CN 113780198 A CN113780198 A CN 113780198A
- Authority
- CN
- China
- Prior art keywords
- emotion
- image
- audio
- vector
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002996 emotional effect Effects 0.000 claims abstract description 9
- 230000008921 facial expression Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 132
- 230000007246 mechanism Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000001815 facial effect Effects 0.000 abstract 1
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种面向影像生成的多模态情感分类方法,包括如下步骤:对已经标记好情感倾向的人脸表情图像以及音频数据提取人脸特征和音频特征。将两种数据输入到多层感知机分类器中,得到各自的分类结果,并通过特征融合的方式再输入到一个多层感知机分类器中。最终得到一个能够根据人脸表情图像和音频数据分析出当前人脸表情和音频蕴含情感的分类器。本系统可以用来实时监测家庭聚会中成员的情感,并根据设置的特定情感自动记录下特定的情感的相册。
Description
技术领域
本发明涉及人工智能领域,特别是一种面向影像生成的多模态情感分类方法。
背景技术
人的一生中有很多重要的时间节点。比如升职时刻,登上山顶的时刻,颁奖仪式的时刻,这些时刻基本上都会主动或被动的记录下来。而在家庭中,同样也会出现十分多值得纪念的欢乐时光,但是一般人难以捕捉并想起要记录下这美好的时光。此时智能家庭影像孕育而生,本发明将情感分析技术应用在家庭影像生成上,只需要打开摄像头与麦克风,即可自动记录下家庭中出现幸福的瞬间,并把此时的画面拍摄下来,同时附上相应的语音,即可实现将家庭中的欢乐时光作为一份数据永久记忆下来。
使用的主要技术为多模态情感分析,情感分析是一个十分热门的研究方向,也可应用于许多实际场景。比如推荐系统,聊天机器人,高级客服等等场景。在传统的研究中,情感分析主要集中在文本或者人脸情感分析上,并且取得了不错的效果。虽然人脸和文本均能独立地将情感表达出来,但是人的情感是十分复杂的,人与人之间的交互,人与机器之间的交互,也不仅仅局限于人脸、文本或是语音上。为了应对人类情感的复杂性,多模态情感分析的研究成为了情感计算发展的主流。每种模态所传达的人类的情感的信息量大小和维度都不同,需要将多种模态也就是多个维度将单一模态上不完善的情感信息补上,最终通过多个模态结果来判断情感倾向。
在多模态情感分析中,模态内表示和模态间融合是两个比较核心的功能。模态内的表示是说对于不同的模态,我们需要考虑不同的时间或者空间特征,利用不同的方法来提取不同的单模态特征,比如利用卷积神经网络(CNN)或深度神经网络(DNN)来提取人脸表情特征,利用长短期记忆网络(LSTM)或深度神经网络(DNN)来提取文本信息特征,利用支撑向量机(SVM)或者神经网络来提取音频特征。
但是上述的方法都普遍存在着以下问题:
(1)这些方法的每个模态的标签和最终的标签共享同一个标签,这样会导致所有的模态在同一的标签监督下使得内部特征更为一致,降低了之间的差异性,最终会导致有许多的冗余信息。
(2)没有考虑每个模态数据转换成向量之后不同维度对最终情感的重要程度。
发明内容
本发明所要解决的技术问题是克服现有技术的不足而提供一种面向影像生成的多模态情感分类方法,构建一个多模态情感分类模型,该模型会在数据编码层引入注意力机制来考虑每个模态的向量中不同维度对最终情感的重要程度;并且使用每种模态独立的标签来进行模型的训练。最终使得该模型能够在输入图像和音频的情况下输出分类结果,然后根据分类结果决定是否将图像和音频保留。
本发明为解决上述技术问题采用以下技术方案:
根据本发明提出的一种面向影像生成的多模态情感分类方法,包括如下步骤:
步骤1、收集多组样本,每组样本包括预先标注了情感标签的人脸表情的图像和该图像的音频,标注的情感包括幸福、无情感和其他情感;
步骤2、将图像和音频进行特征提取,并将提取的特征转化成为特征向量,得到图像的特征向量和音频的特征向量;
步骤3、将图像的特征向量输入第一注意力机制层、第一多层感知机后得到图像的情感分类概率分布向量,将音频的特征向量输入第二注意力机制层、第二多层感知机后得到音频的情感分类概率分布向量;
步骤4、将图像的情感分类概率分布向量和音频的情感分类概率分布向量组合在一起后输入到第三多层感知机中,得到结合图像和音频的最终的情感分类结果;从而得到分类器,该分类器用于输入图像和音频的特征向量,输出为结合图像和音频的情感分类结果;
步骤5、实时收集人脸图像和音频数据;
步骤6、提取步骤5中采集到的人脸图像和音频数据的特征,输入到步骤4的分类器中,得到当前每个人的情感。
作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案,步骤6之后还包括步骤7,步骤7、判断步骤6中的情感是否为幸福,若为幸福则将此时的人脸照片记录下来,并将此时的语音也记录下来。
作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案,步骤1中:
图像和音频的情感标签分别为:每个图像的情感标签为VY=(y1,y2,y3),每个音频的情感标签为AY=(y1,y2,y3);然后综合图像和音频的情感标签为MY=(y1,y2,y3);其中,y1表示情感为幸福的标记位,y2表示情感为无情感的标记位,y3表示情感为其他情感的标记位。
作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案,y1=1,y2=0,y3=0表示幸福,y1=0,y2=1,y3=0表示无情感,y1=0,y2=0,y3=1表示其他情感。
作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案,步骤2的具体过程为:
步骤21、使用OpenFace2.0工具包的人脸发现和特征提取模型将图像的像素特征转化为Dv维度的图像特征向量,获取图像的抽样频率为Fv,形成一个(Fv,Dv)形状的向量,将(Fv,Dv)形状的向量压缩成(1,(Fv·Dv))形状,该向量为图像的特征向量;
步骤22、使用Librosa库读取音频,调用其库函数提取音频的梅尔倒谱系数MFCC、常数Q变换CQT和基频,分别得到Da1维度、Da2维度和Da3维度的向量,将Da1维度、Da2维度和Da3维度的向量拼接起来,获得代表音频的Da维度的向量,Da=Da1+Da2+Da3,音频的采样率为Fa,最终获得一个(Fa,Da)形状的向量,将(Fa×Da)形状的向量压缩成(1,(Fa·Da))形状的向量,该向量为音频的特征向量。
作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案,所述步骤3的具体过程为:
步骤31、设图像的特征向量为1≤s≤Fv·Dv,vs表示图像的特征向量的第s个特征值;将V输入到第一注意力机制层生成第一注意力权重向量v′s表示图像的特征向量的第s个特征的注意力权重;设音频的特征向量为1≤j≤Fa·Da,aj表示音频的特征向量的第j个特征值;将A输入到第二注意力机制层生成第二注意力权重向量1≤j≤Fa·Da,a′j表示音频特征向量的第j个特征的注意力权重;
步骤32、将V×V′输入到第一多层感知机中得到图像的情感分类概率分布向量VP=(p1,p2,p3);其中p1表示V对应的图像包括的情感被分类为幸福的概率,p2表示V对应的图像包括的情感被分类为无情感的概率,p3表示V对应的图像包括的情感被分类为其他情感的概率,并且有p1+p2+p3=1;
将A×A′输入到第二多层感知机中得到音频的情感分类概率分布向量AP=(p1′,p2′,p3′);其中p1′表示A对应的音频包括的情感被分类为幸福的概率,p2′表示A对应的音频包括的情感被分类为无情感的概率,p3′表示A向量对应的音频包括的情感被分类为其他情感的概率,并且有p1′+p2′+p3′=1。
作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案,所述步骤4的具体过程为:
步骤41、将步骤3中的VP和AP两个向量拼接并输入到第三多层感知机中,第三多层感知机将图像和音频这两种模态的数据的共有的情感特征充分捕获,得到最终的分类结果向量MV=(p″1,p″2,p″3),其中p″1表示该图像和音频对应的情感为幸福的概率,p″2表示该图像和音频对应的情感为无情感的概率,p″3表示该图像和音频对应的情感为其他情感的概率;
最终得到一个输入为图像和音频的特征向量,输出为结合图像和音频的情感分类结果的分类器。
作为本发明所述一种面向影像生成的多模态情感分类方法进一步优化方案,所述步骤7的具体过程为:
若从步骤6中获取到当前图像和音频对应的情感为幸福的概率大于当前图像和音频对应的情感为无情感的概率、且当前图像和音频对应的情感为幸福的概率大于当前图像和音频对应的情感为其他情感的概率,则将此时的图像记录下来,并且把音频也记录下来;否则丢弃这组图像和音频数据。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
(1)使用多模态情感分析来实现情感的分类,加强情感的分类效果;
(2)每个模态的标签都是独立的标签,这样可以增加特征的差异性,以便最终分类时捕获更多的特征信息,从而增强情感分类效果;
(3)使用注意力机制对每种模态映射成的向量的不同维度进行加权处理,以便控制每个维度对最终分类的影响。
附图说明
图1是本发明所用情感分类的模型结构图。
图2是音频数据的注意力权重向量分布图。
图3是图像数据的注意力权重向量分布图。
图4是方法运作示意图。
图5是本发明的流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明进行详细描述。
本发明是在家庭影像生成环境下,实现快速而高效的自动记录家庭幸福瞬间的照片和音频的方法。人的一生中有许多需要记录但是往往又没空去记录的东西,该发明有助于在家庭环境下对幸福的瞬间进行记录。主要利用了多模态的情感分类方法以及注意力机制来提升分类效果。
人的情感与人的身体中许多部位是相通的,有研究表明在人脸中,面部表情传达的信息量高达百分之55%。因此如果能够将脸部表情中的特征抽取出来,使其形成一个向量,那么就可以基于该特征向量获取该表情对应的情感,从而达到情感分类的目的。
在人类的交互过程中,语音是人们最直接的交流通道,人们通过语音能够明显地感受到对方的情绪变化,例如通过特殊的语气词、语调发生变化等等。在人们通电话时,虽然彼此看不到,但能从语气中感觉到对方的情绪变化。因此,如果可以将音频中的特征提取出来形成向量,那么基于该向量就可以获取该音频对应的情感,从而达到情感分类的目的。
图5描述了本发明的方法流程图。通过收集家庭中带人脸的图像和音频作为训练集的数据,并人工将图像和音频单独标记其情感。并将图像和音频综合起来再标记其情感。这样一组图像和音频就有三个情感标签。
将训练集的图像和音频使用OpenFace2.0和Librosa工具提取到图像和音频的特征向量。将图像向量和音频向量以及其对应的标签分别输入注意力机制层。获得图像向量和音频向量的注意力向量,将特征向量和注意力向量对应维度的值相乘得到经过注意力机制权重修正后的图像向量和音频向量。将这两个模态的向量和其对应的标签输入到不同的多层感知机中,获得图像情感分类器和音频情感分类器。将这两个分类器的输出结果拼接,并再输入到一个多层感知机中,得到最终的情感分类结果。
获取到新的家庭场景下的图像和音频,然后利用OpenFace2.0和Librosa提取图像和音频的特征向量。然后分别将该特征向量的对应维度乘以其注意力机制向量得到新的特征向量。然后输入训练好的分类器得到图像和音频的情感分类结果,将该分类结果拼接起来输入到最终的分类器中得到最终的情感分类结果。判断该情感分类结果是否为幸福,若是则记录下图像和音频,否则舍弃。
为了方便理解本发明的技术方案,下面定义一些概念:
定义1影像生成:是记录某个环境下,人带有某种情感的时机。包含了当时的图像和音频。将大量的图像音频记录下来后,形成带音频的相册。
定义2多模态情感分类:运用多种人类表达的情感数据综合分析人类所表达情感的一种情感分类任务。
定义3特征向量:图像和音频想要被计算机识别,就必须将图像和音频的特征表示成能被计算机识别的格式。本发明面向的特征向量为OpenFace2.0和Librosa提取的图像和音频的向量,作为特征向量。
定义4注意力机制:是指能够使得神经网络具备专注于输入的某些特征的一种资源分配方案。像人类对视觉见到的东西有焦点一样,注意力机制能够让神经网络对特征中的某些维度有所聚焦。
定义5多层感知机:是一种前馈人工神经网络模型,其将输入的多个数据集样本映射到单一的输出的数据集标签上。
通过本发明的方法对家庭聚会场景下生成的图像和音频进行多模态情感分类,利用注意力机制来捕获图像和音频的有效特征,减少情感分类模型的处理时间。该注意力机制分布图如图2和图3所示。将注意力向量和特征向量对应维度相乘作为新的特征向量输入多层干感知机中获取情感分类结果。
本发明以家庭聚会为环境,记录家庭幸福欢乐的时光。本发明的运作示意图如图4所示。其具体操作步骤如下:
步骤1,利用摄像头和麦克风收集家庭环境下的人脸表情和图像和音频数据,筛选掉不清晰的图像和音频;
步骤2,将筛选过后的图像和音频标记好对应的情感标注。标注的情感有:幸福、无情感、其他情感。
其他情感是指除了幸福、无情感之外的情感。
具体实现方法如下:
将图片和对应的音频数据对应的情感进行人工标记。每个图像的情感标签为VY=(y1,y2,y3),每个音频的情感标签为AY=(y1,y2,y3)。然后当前综合图像和音频的情感标签为MY=(y1,y2,y3)。其中y1=1,y2=0,y3=0表示幸福,y1=0,y2=1,y3=0表示无情感,y1=0,y2=0,y3=1表示其他。这样,每组图像-音频就有三个标签,分别是对图像的情感标签、对音频的情感标签和综合图像和音频的情感标签。
步骤3,将图像和音频数据进行特征提取,转化成能被计算机识别的向量形式,其具体实现方法如下:
对于图像,使用OpenFace2.0工具包的人脸发现和特征提取模型将图像的像素特征转化为709维度的视觉特征向量,又因为摄像头获取的视频中我们抽样频率为55,所以会形成一个55×709的向量,为了符合注意力机制层的输入形状,将其压缩成1×38995维度的向量。
对于音频,使用Librosa库读取音频,调用其库函数提取音频的梅尔倒谱系数(MFCC)、常数Q变换(CQT)和基频,得到了对应的20维度、12维度和1维度的向量,将三个向量合起来,变成了代表音频的33维度的向量,然后对音频采样率为400,所以最终可以获得一个(400,33)形状的向量,为了符合注意力机制层的输入形状,将其压缩成(1,13200)形状的向量。
(a,b)形状的向量表示该向量包含a组b个维度的特征。
步骤4,将图像和音频的特征向量分别输入到两个多层感知机(MLP)中并在多层感知机前增加注意力机制层,得到图像和音频的情感分类概率分布向量,其具体实现方法如下:
设视觉向量为V=(v1,v2,…,v38995),将其输入到注意力机制层会生成一个注意力权重向量V′=(v′1,v′2,…,v′38995)。设音频向量为A=(a1,a2,…,a13200),将其输入到注意力机制层会生成一个注意力权重向量A′=(a′1,a′2,…,a′13200)。
将V×V′和A×A′作为入参输入到多层感知机中,整个过程如图1编码层所示。最终得到图像和音频的情感分类概率分布向量VP=(p1,p2,p3),AP=(p1,p2,p3)。其中p1表示该图像或音频包含的情感被分类为幸福的概率,p2表示该图像或音频包含的情感被分类为无情感的概率,p3表示该图像或音频包含的情感被分类为其他的概率。并且有p1+p2+p3=1。
步骤5,将两个情感分类概率分布向量组合在一起后输入到新的多层感知机(MLP)中,得到结合了图像和音频的最终的情感分类结果。这样就得到了一个输入为图像和音频的特征向量,输出为结合图像和音频的情感分类结果的分类器,具体实现方法如下:
将步骤4中获得的VP和AP两个向量拼接并输入到新的多层感知机中,多层感知机将两种模态的数据的共有的情感特征充分捕获,得到最终的分类结果向量MV=(p1,p2,p3)。模型训练时使用的损失函数如下:
其中,i表示第i个样本,yk表示第i个样本的MY中的第k维度的值,pk表示第i个样本的MV中的第k维度的值;
整个过程如图1中信息融合层所示。这样就能得到一个输入为图像和音频的特征向量,输出为结合图像和音频的情感分类结果的分类器。
步骤6,在实际的家庭聚会场景中,通过摄像头和麦克风实时收集人脸和音频数据;
步骤7,提取步骤6中采集到的人脸图像和音频数据的特征,输入到步骤5中获得的分类器中,得到当前家庭成员的情感倾向;
步骤8,判断步骤7中的情感倾向是否为幸福,若为幸福则将此时的人脸照片记录下来,并把此时的语音也记录下来,具体实现方法如下:
从步骤7中可以获取到当前图像和音频的模型分类结果向量MV=(p1,p2,p3),若p1>p2且p1>p3,则将此时的图像记录下来,并且把音频也记录下来。否则丢弃这组图像和音频数据。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围内。
Claims (8)
1.一种面向影像生成的多模态情感分类方法,其特征在于,包括如下步骤:
步骤1、收集多组样本,每组样本包括预先标注了情感标签的人脸表情的图像和该图像的音频,标注的情感包括幸福、无情感和其他情感;
步骤2、将图像和音频进行特征提取,并将提取的特征转化成为特征向量,得到图像的特征向量和音频的特征向量;
步骤3、将图像的特征向量输入第一注意力机制层、第一多层感知机后得到图像的情感分类概率分布向量,将音频的特征向量输入第二注意力机制层、第二多层感知机后得到音频的情感分类概率分布向量;
步骤4、将图像的情感分类概率分布向量和音频的情感分类概率分布向量组合在一起后输入到第三多层感知机中,得到结合图像和音频的最终的情感分类结果;从而得到分类器,该分类器用于输入图像和音频的特征向量,输出为结合图像和音频的情感分类结果;
步骤5、实时收集人脸图像和音频数据;
步骤6、提取步骤5中采集到的人脸图像和音频数据的特征,输入到步骤4的分类器中,得到当前每个人的情感。
2.根据权利要求1所述一种面向影像生成的多模态情感分类方法,其特征在于,步骤6之后还包括步骤7,步骤7、判断步骤6中的情感是否为幸福,若为幸福则将此时的人脸照片记录下来,并将此时的语音也记录下来。
3.根据权利要求1所述一种面向影像生成的多模态情感分类方法,其特征在于,步骤1中:
图像和音频的情感标签分别为:每个图像的情感标签为VY=(y1,y2,y3),每个音频的情感标签为AY=(y1,y2,y3);然后综合图像和音频的情感标签为MY=(y1,y2,y3);其中,y1表示情感为幸福的标记位,y2表示情感为无情感的标记位,y3表示情感为其他情感的标记位。
4.根据权利要求3所述一种面向影像生成的多模态情感分类方法,其特征在于,y1=1,y2=0,y3=0表示幸福,y1=0,y2=1,y3=0表示无情感,y1=0,y2=0,y3=1表示其他情感。
5.根据权利要求1所述一种面向影像生成的多模态情感分类方法,其特征在于,步骤2的具体过程为:
步骤21、使用OpenFace2.0工具包的人脸发现和特征提取模型将图像的像素特征转化为Dv维度的图像特征向量,获取图像的抽样频率为Fv,形成一个(Fv,Dv)形状的向量,将(Fv,Dv)形状的向量压缩成(1,(Fv·Dv))形状,该向量为图像的特征向量;
步骤22、使用Librosa库读取音频,调用其库函数提取音频的梅尔倒谱系数MFCC、常数Q变换CQT和基频,分别得到Da1维度、Da2维度和Da3维度的向量,将Da1维度、Da2维度和Da3维度的向量拼接起来,获得代表音频的Da维度的向量,Da=Da1+Da2+Da3,音频的采样率为Fa,最终获得一个(Fa,Da)形状的向量,将(Fa×Da)形状的向量压缩成(1,(Fa·Da))形状的向量,该向量为音频的特征向量。
6.根据权利要求1所述一种面向影像生成的多模态情感分类方法,其特征在于,所述步骤3的具体过程为:
步骤31、设图像的特征向量为1≤s≤Fv·Dv,vs表示图像的特征向量的第s个特征值;将V输入到第一注意力机制层生成第一注意力权重向量v′s表示图像的特征向量的第s个特征的注意力权重;设音频的特征向量为1≤j≤Fa·Da,aj表示音频的特征向量的第j个特征值;将A输入到第二注意力机制层生成第二注意力权重向量1≤j≤Fa·Da,a′j表示音频特征向量的第j个特征的注意力权重;
步骤32、将V×V′输入到第一多层感知机中得到图像的情感分类概率分布向量VP=(p1,p2,p3);其中p1表示V对应的图像包括的情感被分类为幸福的概率,p2表示V对应的图像包括的情感被分类为无情感的概率,p3表示V对应的图像包括的情感被分类为其他情感的概率,并且有p1+p2+p3=1;
将A×A′输入到第二多层感知机中得到音频的情感分类概率分布向量AP=(p1′,p2′,p3′);其中p1′表示A对应的音频包括的情感被分类为幸福的概率,p2′表示A对应的音频包括的情感被分类为无情感的概率,p3′表示A向量对应的音频包括的情感被分类为其他情感的概率,并且有p1′+p2′+p3′=1。
7.根据权利要求6所述一种面向影像生成的多模态情感分类方法,其特征在于,所述步骤4的具体过程为:
步骤41、将步骤3中的VP和AP两个向量拼接并输入到第三多层感知机中,第三多层感知机将图像和音频这两种模态的数据的共有的情感特征充分捕获,得到最终的分类结果向量MV=(p″1,p″2,p″3),其中p″1表示该图像和音频对应的情感为幸福的概率,p″2表示该图像和音频对应的情感为无情感的概率,p″3表示该图像和音频对应的情感为其他情感的概率;
最终得到一个输入为图像和音频的特征向量,输出为结合图像和音频的情感分类结果的分类器。
8.根据权利要求1所述面向家庭影像生成的多模态情感分类方法,其特征在于,所述步骤7的具体过程为:
若从步骤6中获取到当前图像和音频对应的情感为幸福的概率大于当前图像和音频对应的情感为无情感的概率、且当前图像和音频对应的情感为幸福的概率大于当前图像和音频对应的情感为其他情感的概率,则将此时的图像记录下来,并且把音频也记录下来;否则丢弃这组图像和音频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080282.7A CN113780198B (zh) | 2021-09-15 | 2021-09-15 | 一种面向影像生成的多模态情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111080282.7A CN113780198B (zh) | 2021-09-15 | 2021-09-15 | 一种面向影像生成的多模态情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113780198A true CN113780198A (zh) | 2021-12-10 |
CN113780198B CN113780198B (zh) | 2023-11-24 |
Family
ID=78843991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111080282.7A Active CN113780198B (zh) | 2021-09-15 | 2021-09-15 | 一种面向影像生成的多模态情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113780198B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190341025A1 (en) * | 2018-04-18 | 2019-11-07 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
CN110516696A (zh) * | 2019-07-12 | 2019-11-29 | 东南大学 | 一种基于语音和表情的自适应权重双模态融合情感识别方法 |
CN111460213A (zh) * | 2020-03-20 | 2020-07-28 | 河海大学 | 一种基于多模态学习的音乐情感分类方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
CN113064968A (zh) * | 2021-04-06 | 2021-07-02 | 齐鲁工业大学 | 一种基于张量融合网络的社交媒体情感分析方法及系统 |
-
2021
- 2021-09-15 CN CN202111080282.7A patent/CN113780198B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190341025A1 (en) * | 2018-04-18 | 2019-11-07 | Sony Interactive Entertainment Inc. | Integrated understanding of user characteristics by multimodal processing |
CN110516696A (zh) * | 2019-07-12 | 2019-11-29 | 东南大学 | 一种基于语音和表情的自适应权重双模态融合情感识别方法 |
CN111460213A (zh) * | 2020-03-20 | 2020-07-28 | 河海大学 | 一种基于多模态学习的音乐情感分类方法 |
CN112489690A (zh) * | 2020-12-23 | 2021-03-12 | 沈阳新松机器人自动化股份有限公司 | 语音情绪识别方法及系统 |
CN113064968A (zh) * | 2021-04-06 | 2021-07-02 | 齐鲁工业大学 | 一种基于张量融合网络的社交媒体情感分析方法及系统 |
Non-Patent Citations (1)
Title |
---|
汤宇豪;毛启容;高利剑;: "基于层次注意力机制的维度情感识别方法", 计算机工程, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN113780198B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Escalante et al. | Chalearn joint contest on multimedia challenges beyond visual analysis: An overview | |
WO2020248376A1 (zh) | 情绪检测方法、装置、电子设备及存储介质 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
CN114973062B (zh) | 基于Transformer的多模态情感分析方法 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN113536999B (zh) | 人物情绪识别方法、系统、介质及电子设备 | |
CN114298170A (zh) | 一种多模态会议数据结构化方法、装置及计算机设备 | |
CN112101096A (zh) | 一种基于语音和微表情的多模态融合的自杀情绪感知方法 | |
CN111128242A (zh) | 一种基于双深度网络的多模式情感信息融合与识别方法 | |
CN114973044B (zh) | 一种基于双模态信息增强多头注意力的视频情感分析方法 | |
Subramanian et al. | Multimodal emotion recognition using different fusion techniques | |
CN111292765A (zh) | 一种融合多个深度学习模型的双模态情感识别方法 | |
Banskota et al. | A novel enhanced convolution neural network with extreme learning machine: facial emotional recognition in psychology practices | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN116758451A (zh) | 基于多尺度和全局交叉注意力的视听情感识别方法及系统 | |
Singh et al. | Automation of surveillance systems using deep learning and facial recognition | |
Ma et al. | Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos | |
Sultana et al. | Facial emotion recognition based on deep transfer learning approach | |
Vayadande et al. | Lipreadnet: A deep learning approach to lip reading | |
CN117668262A (zh) | 基于人工智能语音与图像识别技术的声像档案利用系统 | |
Takalkar et al. | Improving micro-expression recognition accuracy using twofold feature extraction | |
CN113780198B (zh) | 一种面向影像生成的多模态情感分类方法 | |
BERRAHAL et al. | DL-based Generation of facial portraits from diverse data sources | |
Kumar et al. | Development of visual-only speech recognition system for mute people | |
Chowdhury et al. | Text Extraction through Video Lip Reading Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |