CN112733764A - 一种基于多模态识别视频情感信息的方法 - Google Patents

一种基于多模态识别视频情感信息的方法 Download PDF

Info

Publication number
CN112733764A
CN112733764A CN202110056309.2A CN202110056309A CN112733764A CN 112733764 A CN112733764 A CN 112733764A CN 202110056309 A CN202110056309 A CN 202110056309A CN 112733764 A CN112733764 A CN 112733764A
Authority
CN
China
Prior art keywords
video
graph
node
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110056309.2A
Other languages
English (en)
Inventor
聂为之
任敏捷
刘安安
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110056309.2A priority Critical patent/CN112733764A/zh
Publication of CN112733764A publication Critical patent/CN112733764A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态识别视频情感信息的方法,包括:根据所得每个视频的语音信号和关键帧分别提取特征;对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符建立关系图;根据关系图,通过多头注意力构造多个全连接图,生成多分支图卷积网络;对构造的每个全连接图,即为多分支图卷积网络中的每个分支,分别作图卷积更新节点特征;将多个全连接图的更新后的节点特征进行融合,生成唯一的节点特征即最终所得的包含视频间关联性的视频特征描述符;对最终的视频特征描述符进行分类得到每个视频所属的情感类别。本发明利用视频描述符之间的相关性提升音频视频情感识别任务的分类精度。

Description

一种基于多模态识别视频情感信息的方法
技术领域
本发明涉及情感识别领域,尤其涉及一种基于多模态识别视频情感信息的方法。
背景技术
作为人类交流的基本方面,情感信息对于更自然的人机交互至关重要。情感识别是分析情感信息的核心研究领域,是人工智能与人类沟通分析的桥梁,弥合了人机交互之间的鸿沟,近年来受到了广泛关注。就像人类根据听觉和视觉信息同时感知周围的环境一样,机器也可以从视听信息中受益,以进行更准确的情感识别。言语和面部表情是人们在日常生活中传达其情绪状态的最普遍方法,它们是识别情感非常有效的特征。
考虑到视听信息在传达情绪状态中的重要性,存在许多挑战以促进基于视听信息的情绪识别任务。从野外情感识别(EmotiW)挑战[1](这是情感识别任务最受欢迎的基准之一,自2013年以来已举行七次)以来,音像子挑战主要着眼于识别人们的情感状态在现实世界中的场景。在此子挑战中使用的AFEW数据集[2]包括从电影和电视连续剧中收集的音视频片段,以模拟真实世界。尽管在EmotiW挑战中已经提出了许多方法,但是基于视频的真实世界情感识别的性能仍然受到较宽的照明范围,面部遮挡等限制。为缓解这些问题,研究人员提出了许多方法来训练更多的人。强大的情感识别模型,可以分为基于手工特征的模型和基于深度学习特征的模型。
传统的基于多模式的方法通常包括三个步骤:首先,分别对语音信号和视频信号进行预处理。对于语音信号,使用滑动窗口从原始语音波形中提取顺序特征。从视频剪辑中检测到人脸图像,以识别人脸成分(例如,眼睛和鼻子)或地标。接下来,提取全局语音特征和面部成分特征以进行多峰融合。最后,将来自两种不同模态的特征融合以获得最终的特征向量,然后将其输入到分类器中,例如支持向量机(SVM)[3]或随机森林,以产生识别结果。近年来,卷积神经网络(CNN)在计算机视觉领域(例如计算机视觉领域)取得了巨大的成功,AlexNet[4]和ResNet[5]。与使用手工功能的传统方法不同,基于深度学习的音频-视频情感识别系统通常直接采用CNN从音频和视频通道中学习与任务相关的功能。此外,为了以连续的方式从视频剪辑中捕获动态信息,递归神经网络(RNN)也已被广泛用于解决视听情感识别问题。参考文献刘等[6]提出了一种基于多特征的视频剪辑情感识别模型,该模型同时采用了手工制作的功能和基于深度学习的功能来提高性能。在EmotiW的最后一个音视频情感识别挑战中,该模型排名第一,准确度为61.87%。受到这项工作的启发,参考文献李等[7]提出了一种双峰融合方法,通过计算不同特征提取器的权重得分来同时利用视觉信息和语音信息。在参考文献[8]中,作者介绍了分解双线性池(FBP)以捕获音频和视频功能之间的复杂关联。此外,他们采用了一个关注区域来关注信息功能,并在AFEW数据集上达到了62.48%的准确度。
尽管这些方法已对音频视频情感识别任务进行了很大的改进,但它们都专注于多模式特征的学习和融合,而忽略了视频之间的相关性。受到图嵌入技术在许多领域中取得成功的启发,图卷积网络被证明有效地利用和预测了节点分类任务中各节点之间的相关性。提出了可学习的图鉴网络(L-GrIN)[9]作为情感识别的通用图方法。L-GrIN将数据样本转换为可学习的图结构,其中短时间段或帧表示为节点。对于视频情感识别任务,L-GrIN引入了图结构以捕获每个视频的帧之间的相关性,并生成唯一的嵌入作为用于情感分类的视频描述符。与L-GrIN不同,建议可以将视频描述符视为图中的节点。在特征提取阶段,BiLSTM(双向长短时记忆网络)用于捕获每个视频剪辑中的帧之间的相关性,而图形模型用于探究所获得的视频描述符之间的相关性。由于微弱的表情和令人困惑的情绪确实限制了情绪识别的性能,因此视频之间的相关性对于特征学习以表示更准确的情绪信息至关重要。
发明内容
本发明提供了一种基于多模态识别视频情感信息的方法,本发明的目的在于利用视频描述符之间的相关性提升音频视频情感识别任务的分类精度,详见下文描述:
一种基于多模态识别视频情感信息的方法,所述方法包括:
获取每个视频片段的语音信号并提取每个视频片段的关键帧;根据所得每个视频的语音信号和关键帧分别提取特征;
对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符建立关系图;
根据关系图,通过多头注意力构造多个全连接图,生成多分支图卷积网络;对构造的每个全连接图,即为多分支图卷积网络中的每个分支,分别作图卷积更新节点特征;
将多个全连接图的更新后的节点特征进行融合,生成唯一的节点特征即最终所得的包含视频间关联性的视频特征描述符;
对最终的视频特征描述符进行分类得到每个视频所属的情感类别。
本发明提供的技术方案的有益效果是:
1、本发明针对多模态视频情感分类问题,提出了一种多分支图卷积网络,本发明在基于相似度构建的关系图的基础上利用多头注意力机制生成多个全连接图,每个全连接图作为一个分支形成多分支图卷积网络,每个分支分别进行图卷积。该设计可以在特征学习的步骤中充分考虑数据集中视频之间的相关性提高所学特征的区分性;
2、本发明利用多头注意力机制生成一组全连接图,目的是探究类间视频之间的隐藏关系以此提高不同类间视频描述符的区分度进而提升音视频情感分类任务的精度。
附图说明
图1为一种基于多模态识别视频情感信息的方法的流程图;
图2为本方法所构建的关系图和全连接图的对比图;
图3为在AFEW数据集上本方法的各类别分类精度矩阵图;
图4为在eNTERFACE’05数据集上本方法的各类别分类精度矩阵图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于多模态识别视频情感信息的方法,参见图1,该方法包括以下步骤:
101:获取数据库中的视频数据,每个数据库内包括多个视频片段;获取每个视频片段的语音信号并提取每个视频片段的关键帧;
102:根据所得每个视频的语音信号和关键帧分别提取特征;
103:对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符,建立关系图;
其中,关系图包括:多个节点,每个节点表示数据库里的一个视频,每个节点为对应的视频特征描述符。节点间边的构造根据视频描述符之间的相似度和阈值α来确定。
104:根据关系图,通过多头注意力构造多个全连接图,生成多分支图卷积网络;
其中,每个全连接图包括:多个节点,每个节点表示数据库里的一个视频,每个节点为对应的视频特征描述符。两两节点间都有关联即构造的边,边的权重为多头注意力机制计算出的两两节点间对应的权重。图2为关系图和所生成的全连接图的对比。(a)为原始关系图,关系图中节点间关联的边的构造是基于相似度计算公式和阈值α决定的。(b)为生成的全连接图,全连接图中两两节点间都含有关联的边,更全面地考虑到节点间的关联。
105:对构造的每个全连接图,即为多分支图卷积网络中的每个分支,分别作图卷积更新节点特征;
106:将多个全连接图的更新后的节点特征进行融合,从而生成唯一的节点特征即最终所得的包含视频间关联性的视频特征描述符;
107:对最终的视频特征描述符进行分类得到每个视频所属的情感类别。
实施例2
下面结合具体的计算公式、实例对实施例1中的方案进行进一步的介绍,详见下文描述:
步骤201:获取数据库中的视频数据,每个数据库内包括多个视频片段;获取每个视频片段的语音信号并提取每个视频片段的关键帧;
202:根据所得每个视频的语音信号和关键帧分别提取特征;
203:对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符,构建图结构,节点特征为每个视频特征描述符;
在本实施例中,图构建的目的是建立视频之间的原始关系。关系图G构造的关键是构造包含节点之间关系的邻接矩阵A,也就是说,如果存在从节点i到节点j的边缘,则Aij=1且Aji=1,否则Aij=0且Aji=0,其中节点特征为所得各个视频特征描述符。
显然,需要在图G中定义这些节点之间的边,对于训练集中的各节点,类别信息用于链接视频V1和V2(如果它们属于同一类别),反之亦然。对于测试集中的各个视频,使用相似度来衡量两个节点之间的边是否存在。
两个视频V1和V2之间的相似度可以用如下公式计算:
Figure BDA0002900983430000041
其中,f1和f2分别为视频V1和V2对应的特征。
测试集中的视频节点和训练集中视频节点之间的相似度也由等式(1)计算。在此,定义阈值α,当S>α时,视频V1将与图G中的视频V2链接,反之亦然。
该设计具有以下优点:
1)类似的视频描述符可能具有相同的情感标签。
该相关性信息在以后节点更新过程中被放大。
2)为了更好地利用这种相关性,可将其用作生成多个图形的指导。该指导可在节点之间后续生成更合理的潜在关联。
步骤204:基于所建图结构,使用多头注意力机制得到多个全连接图,即为生成以每个全连接图作为分支的多分支图卷积网络;
在获得了关系图后,即提供了2D图像和3D模型之间的原始关联。但是,它还具有以下不足:
(1)错误的边:相似度不足以提供可靠的相关性,因为相似度度量仅考虑彼此之间的相关性,这导致图构造将重点放在本地信息上而忽略了全局信息。
(2)无边:相似度的值定义了边的存在,这导致一些视频成为图G中的孤立节点,并进一步使这些功能在下一步中嵌入效果更差,这直接影响了最终的分类性能。
为了解决这个问题,本发明实施例引入了多头注意力来计算节点的自我注意力,以基于原始图G构造全连接图。
首先,初始化传输矩阵Wi K和Wi Q,其中i为矩阵W的数字索引。Wi K和Wi Q是成对的,其中i={1,…,n},即将WK和WQ初始化n次,增加相关度的多样性。
为了嵌入步骤构造多个图,本发明实施例利用原始关系图邻接矩阵A进行多图构造。计算方程如下:
Figure BDA0002900983430000051
其中,Q和K都等于节点特征,即提取的各个视频特征描述符,A是原始关系图G的邻接矩阵,h为超参数用于防止点积维度过大将softmax函数推到它的梯度极小的区域,T代表转置,softmax()为归一化指数函数。该操作的目的是利用多头注意力机制基于原始关系图G生成n个全连接图G(i),其对应的邻接矩阵为
Figure BDA0002900983430000052
具体而言,这可以解决以下问题:
1)考虑全局信息:利用自我关注机制来计算原始图G上节点之间的相关性,该机制考虑全局信息来更新边缘权重以进行节点特征更新。
2)消除孤立节点:完全连通的图直接消除孤立节点,并与其他节点构造清晰的边缘,这意味着通过该操作可以进一步提高节点特征更新后的区分性。
通常,多个全连接图的构造可以有效地建立节点之间的潜在相关性,进一步增强图G上关系的合理性。该方案还增加了关系的多样性,但是,需要控制图的数量,全连接图过多会降低隐藏相关性的影响,并使此操作无效。
步骤205:根据每个全连接图的邻接矩阵分别更新节点特征;
步骤206:融合各个全连接图对应的更新后的节点特征,基于该更新后的节点特征进行分类,进而得到每个视频的情感标签。
利用注意力图卷积网络更新节点特征。为了学习更好的更新节点特征,将深度连接引入到全连接图更新节点特征的过程中,这意味着第l层中的节点j不仅接受(l-1)层的输入,还从所有先前的层接收信息。此过程可以用数学定义为:
Figure BDA0002900983430000061
其中,
Figure BDA0002900983430000062
表示初始节点表示和在层{1,...,l-1}中产生的节点表示的串联,fj表示第j个初始节点特征,
Figure BDA0002900983430000063
表示第(l-1)层输出的节点特征。
在这项工作中,获得了n个不同的嵌入图,建立了n个分支来进行嵌入操作。因此,对于第g个全连接图的邻接矩阵
Figure BDA0002900983430000064
各层的计算定义如下:
Figure BDA0002900983430000065
Figure BDA0002900983430000066
在偏差取决于注意力相关的邻接矩阵
Figure BDA0002900983430000067
的情况下,权重矩阵根据g来决定,且g={1,...,n},Wg (l)为基于第g个全连接图第l层学习的权重矩阵,
Figure BDA0002900983430000069
为基于第g个全连接图第l层学习的偏置向量,
Figure BDA00029009834300000610
为基于第g个全连接图第l层输出的第i个节点特征,
Figure BDA00029009834300000611
为基于第g个全连接图第1层输出的第i个节点特征为原始节点特征经过图卷积后得到的。
嵌入图生成后,每个节点将从各个全连接图中共获得n个更新特征。接下来,将最大池化操作应用于融合多个更新后的节点特征的信息以获得每个更新后的节点的唯一特征,获得每个更新后的节点最终的用于分类的特征。计算定义如下:
Figure BDA0002900983430000071
其中,hi为用于最终分类的第i个节点特征,
Figure BDA0002900983430000072
为第一个全连接图图卷积后输出的第i个节点特征。
实施例3
下面结合图2、图3、表1-表2对实施例1和2中的方法进行可行性验证,本申请在实验中应用AFEW和eNTERFACE’05数据集,详见下文描述:
AFEW数据集包含在接近现实世界的环境中作为动态时间面部表情数据语料库的面部表情视频短片。为了搜索与表情相关的内容并提取与表示某些有意义的面部动作的视频剪辑相对应的时间戳,它基于收集的“聋人和听力障碍字幕的字幕”(SDH)和“隐藏式字幕”(CC)。AFEW数据集中有七个情感标签,包括:幸福,惊奇,愤怒,厌恶,恐惧,悲伤和中立。此外,数据集的主题在种族,年龄和性别方面都不同。数据分为三个分区:训练集(773),验证集(383)和测试集(653)。
eNTERFACE’05数据集是一个视听数据集,包含42个主题,总共包含1,166个视频序列。对应于女性和男性的视频序列的比例分别为23%和77%。语音信号来自呈现不同情感的句子,视频信号是构成情感的面部视频。脸是正面的。每个主题每个情感每个句子的视频平均长度约为三秒钟。主体在视听信号中表达了六种离散的情绪,包括:愤怒,厌恶,恐惧,幸福,悲伤和惊奇。
本方法并非以端到端的方式进行培训。在特征提取阶段,首先根据不同的网络提取音频和视频流的特征,并将这些特征融合以获得视频描述符。然后,使用视频描述符来构造原始图形结构。在此,参数α凭经验设置为0.8,以在训练集和测试集之间链接节点。一旦获得原始图形结构,数据预处理阶段就完成了,开始了训练过程。基于多头注意力的GCN(图卷积网络)节点特征更新过程是培训的核心部分。请注意,训练集和测试集中的数据都被视为原始图中的节点。所有参数矩阵都是在开始时随机初始化的,并在训练过程中进行了优化。网络的损失函数定义为每个训练数据的预测标签与其地面真实标签之间的交叉熵之和。在训练期间,采用SGD(随机梯度下降)进行优化。将参数h设置为1024,学习率设置为0.0001。将GCN计算过程的dropout调整为0.5。对于eNTERFACE’05数据集,将数据集分为80%用于训练,而20%用于测试。使用Python 3,PyTorch 0.4.1和CUDA 9.0实现方法。所有实验均在配备一个NVIDIA 1080TI GPU和Intel i7 CPU的服务器上进行。
表1 AFEW数据集上与最新方法的比较
Figure BDA0002900983430000081
与AFEW数据集上的方法比较
AFEW:如表1所示,本方法在AFEW数据集上达到了非常具有竞争性的性能,准确度为63.55%,优于大多数现有方法。与表1中列出的大多数方法不同,例如EmotiW2018的冠军获得了61.87%的准确度,集成了五个视觉模型和两个音频模型,本方法用一个模型就获得了可比的结果,这证明了利用视频之间的相关性来分析情绪状态的重要性。尽管采用不同的神经网络可以提供互补的功能以获得更好的性能,但是从不同模型中提取的功能可能会相互干扰,从而给网络带来更多的噪音。因此,尽管本方法仅采用一种模型,但仍可以通过使用图形嵌入技术和多头注意机制来考虑视频之间的相关性,从而实现最新的性能。
表2 eNTERFACE’05的方法比较
Figure BDA0002900983430000082
在表格2中显示了本方法与eNTERFACE’05数据集上的最新方法之间的准确性比较。本方法对eNTERFACE’05数据集的整体准确性97.07%。这比在相同数据集上测试的最新视听情感识别方法要高。在eNTERFACE’05上表现最好的最新技术是Mansouri等人提出的工作,其准确性达到了96.8%。他们使用尖刺神经网络(SNN)来建模多感觉交互,并利用GCN学习同步模式,旨在对模态之间的交互进行建模以提高性能。相比之下,本方法提取用于表示视频剪辑的多模式信息,然后使用GCN来学习获得的视频描述符之间的相关性以进行特征学习。此外,引入了多头注意力以增强相关性并增加相关多样性。由于在特征学习过程中利用了相关信息,因此本方法可以使视频描述符在情感分类方面更具区分性,并且表现优于最佳表现技术。
为了进一步分析所提出方法的性能,分别在图2和图3中说明了在AFEW和eNTERFACE’05数据集上本方法的混淆矩阵。对于AFEW数据集,由于缺乏训练数据以及与其他情绪的自然混淆,根据混淆矩阵,与其他四种情绪相比,令人厌恶和意外的情绪难以分类。尽管较弱的情绪表达(如厌恶和惊奇)的分类准确度仍低于具有明显特征的情绪,但本方法取得了明显的改善,表明本方法中使用的图形模型可以有效地利用视频之间的相关性以识别情绪状态。另外,其他情绪的分类准确性也得到了一定程度的提高,这意味着本方法可以通过图嵌入技术生成更多的判别性和鲁棒性的视频描述符,用于情绪分类。对于eNTERFACE’05数据集,本方法可以观察到所有类别的均衡准确性,而对于厌恶类别,最低准确性为94.8%。
参考文献
[1]Dhall,Abhinav,Amanjot Kaur,Roland Goecke,and Tom Gedeon."Emotiw2018:Audio-video,student engagement and group-level affect prediction."InProceedings of the 20th ACM International Conference on MultimodalInteraction,pp.653-656.2018.
[2]Dhall,Abhinav,Roland Goecke,Simon Lucey,and Tom Gedeon."Collectinglarge,richly annotated facial-expression databases from movies."IEEEmultimedia 3(2012):34-41.
[3]Ko,Byoung Chul."A brief review of facial emotion recognition basedon visual information."sensors 18,no.2(2018):401.
[4]Krizhevsky,Alex,Ilya Sutskever,and Geoffrey E.Hinton."Imagenetclassification with deep convolutional neural networks."In Advances in neuralinformation processing systems,pp.1097-1105.2012.
[5]He,Kaiming,Xiangyu Zhang,Shaoqing Ren,and Jian Sun."Deep residuallearning for image recognition."In Proceedings of the IEEE conference oncomputer vision and pattern recognition,pp.770-778.2016.
[6]Liu,Chuanhe,Tianhao Tang,Kui Lv,and Minghao Wang."Multi-featurebased emotion recognition for video clips."In Proceedings of the 20th ACMInternational Conference on Multimodal Interaction,pp.630-634.2018.
[7]Li,Sunan,Wenming Zheng,Yuan Zong,Cheng Lu,Chuangao Tang,XingxunJiang,Jiateng Liu,and Wanchuang Xia."Bi-modality Fusion for EmotionRecognition in the Wild."In 2019 International Conference on MultimodalInteraction,pp.589-594.2019.
[8]Zhang,Yuanyuan,Zi-Rui Wang,and Jun Du."Deep fusion:An attentionguided factorized bilinear pooling for audio-video emotion recognition."In2019 International Joint Conference on Neural Networks(IJCNN),pp.1-8.IEEE,2019.
[9]Shirian,Amir,Subarna Tripathi,and Tanaya Guha."Learnable GraphInception Network for Emotion Recognition."arXiv preprint arXiv:2008.02661(2020).
[10]Hu,Ping,Dongqi Cai,Shandong Wang,Anbang Yao,and Yurong Chen."Learning supervised scoring ensemble for emotion recognition in the wild."InProceedings of the 19th ACM international conference on multimodalinteraction,pp.553-560.2017.
[11]Zhou,Hengshun,Debin Meng,Yuanyuan Zhang,Xiaojiang Peng,Jun Du,KaiWang,and Yu Qiao."Exploring emotion features and fusion strategies for audio-video emotion recognition."In 2019 International Conference on MultimodalInteraction,pp.562-566.2019.
[12]Knyazev,Boris,Roman Shvetsov,Natalia Efremova,and ArtemKuharenko."Leveraging large face recognition data for emotionclassification."In 2018 13th IEEE International Conference on Automatic Face&Gesture Recognition(FG 2018),pp.692-696.IEEE,2018.
[13]Cai,Jie,Zibo Meng,Ahmed Shehab Khan,Zhiyuan Li,James O’Reilly,Shizhong Han,Ping Liu,Min Chen,and Yan Tong."Feature-level and model-levelaudiovisual fusion for emotion recognition in the wild."In 2019 IEEEConference on Multimedia Information Processing and Retrieval (MIPR),pp.443-448.IEEE,2019.
[14]Dhall,Abhinav."EmotiW 2019:Automatic emotion,engagement andcohesion prediction tasks."In 2019 International Conference on MultimodalInteraction,pp.546-550.2019.
[15]Hossain,M.Shamim,and Ghulam Muhammad."Emotion recognition usingdeep learning approach from audio–visual emotional big data."InformationFusion 49(2019):69-78.
[16]Anbarjafari,Gholamreza,Fatemeh Noroozi,Marina Marjanovic,AngelinaNjegus,and Sergio Escalera."Audio-Visual Emotion Recognition in Video Clips."(2019).
[17]Sahoo,Subhasmita,and Aurobinda Routray."Emotion recognition fromaudio-visual data using rule based decision level fusion."In 2016IEEEStudents’Technology Symposium(TechSym),pp.7-12.IEEE,2016.
[18]Zhang,Shiqing,Shiliang Zhang,Tiejun Huang,Wen Gao,and Qi Tian."Learning affective features with a hybrid deep model for audio–visual emotionrecognition."IEEE Transactions on Circuits and Systems for Video Technology28,no.10(2017):3030-3043.
[19]Mansouri-Benssassi,Esma,and Juan Ye."Bio-inspired spiking neuralnetworks for facial expression recognition:Generalisation investigation."InInternational Conference on Theory and Practice of Natural Computing,pp.426-437.Springer,Cham,2018.
[20]Ma,Yaxiong,Yixue Hao,Min Chen,Jincai Chen,Ping Lu,and Andrej
Figure BDA0002900983430000111
"Audio-visual emotion fusion(AVEF):A deep efficient weighted approach."Information Fusion 46(2019):184-192.
[21]Mansouri Benssassi,Esma,and Juan Ye."Synch-Graph:multisensoryemotion recognition through neural synchrony via graph convolutionalnetworks."In Proceedings of the Thirty-Fourth AAAI Conference on ArtificialIntelligence(AAAI-2020).AAAI Press,2020.
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于多模态识别视频情感信息的方法,其特征在于,所述方法包括:
获取每个视频片段的语音信号并提取每个视频片段的关键帧;根据所得每个视频的语音信号和关键帧分别提取特征;
对所得的语音特征和关键帧特征进行融合得到每个视频特征描述符;根据视频特征描述符建立关系图;
根据关系图,通过多头注意力构造多个全连接图,生成多分支图卷积网络;对构造的每个全连接图,即为多分支图卷积网络中的每个分支,分别作图卷积更新节点特征;
将多个全连接图的更新后的节点特征进行融合,生成唯一的节点特征即最终所得的包含视频间关联性的视频特征描述符;
对最终的视频特征描述符进行分类得到每个视频所属的情感类别。
2.根据权利要求1所述的一种基于多模态识别视频情感信息的方法,其特征在于,关系图的构建基于视频特征描述符之间的相似度,相似度计算为:
Figure FDA0002900983420000011
其中,f1和f2分别为视频V1和V2对应的特征。
3.根据权利要求1所述的一种基于多模态识别视频情感信息的方法,其特征在于,所述根据关系图,通过多头注意力构造多个全连接图具体为:
Figure FDA0002900983420000012
其中,Q和K都为节点特征,A是原始关系图G的邻接矩阵,h为超参数用于防止点积维度过大将softmax函数推到它的梯度极小的区域,T代表转置,softmax( )为归一化指数函数。
4.根据权利要求1所述的一种基于多模态识别视频情感信息的方法,其特征在于,所述将多个全连接图的更新后的节点特征进行融合,生成唯一的节点特征具体为:
将深度连接引入到全连接图更新节点特征的过程中,获得了n个不同的嵌入图,建立了n个分支来进行嵌入操作,对于第g个全连接图的邻接矩阵
Figure FDA0002900983420000013
各层的计算定义如下:
Figure FDA0002900983420000021
Figure FDA0002900983420000022
在偏差取决于注意力相关的邻接矩阵
Figure FDA0002900983420000023
的情况下,权重矩阵根据g来决定,且g={1,...,n},
Figure FDA0002900983420000024
为基于第g个全连接图第l层学习的权重矩阵,
Figure FDA0002900983420000025
为基于第g个全连接图第l层学习的偏置向量,
Figure FDA0002900983420000026
为基于第g个全连接图第l层输出的第i个节点特征,
Figure FDA0002900983420000027
为基于第g个全连接图第1层输出的第i个节点特征为原始节点特征经过图卷积后得到;
将最大池化操作应用于融合多个更新后的节点特征的信息以获得每个更新后的节点的唯一特征,获得每个更新后的节点最终的用于分类的特征。
CN202110056309.2A 2021-01-15 2021-01-15 一种基于多模态识别视频情感信息的方法 Pending CN112733764A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110056309.2A CN112733764A (zh) 2021-01-15 2021-01-15 一种基于多模态识别视频情感信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110056309.2A CN112733764A (zh) 2021-01-15 2021-01-15 一种基于多模态识别视频情感信息的方法

Publications (1)

Publication Number Publication Date
CN112733764A true CN112733764A (zh) 2021-04-30

Family

ID=75591702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110056309.2A Pending CN112733764A (zh) 2021-01-15 2021-01-15 一种基于多模态识别视频情感信息的方法

Country Status (1)

Country Link
CN (1) CN112733764A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392781A (zh) * 2021-06-18 2021-09-14 山东浪潮科学研究院有限公司 一种基于图神经网络的视频情感语义分析方法
CN114387567A (zh) * 2022-03-23 2022-04-22 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN115100725A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN111339847A (zh) * 2020-02-14 2020-06-26 福建帝视信息科技有限公司 一种基于图卷积神经网络的人脸情绪识别方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125957A1 (en) * 2018-10-17 2020-04-23 Peking University Multi-agent cooperation decision-making and training method
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN111339847A (zh) * 2020-02-14 2020-06-26 福建帝视信息科技有限公司 一种基于图卷积神经网络的人脸情绪识别方法
CN111488807A (zh) * 2020-03-29 2020-08-04 复旦大学 基于图卷积网络的视频描述生成系统
CN111985245A (zh) * 2020-08-21 2020-11-24 江南大学 基于注意力循环门控图卷积网络的关系提取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEIZHI NIE ET AL.: "C-GCN: Correlation based Graph Convolutional Network for Audio-video Emotion Recognition", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392781A (zh) * 2021-06-18 2021-09-14 山东浪潮科学研究院有限公司 一种基于图神经网络的视频情感语义分析方法
WO2022262098A1 (zh) * 2021-06-18 2022-12-22 山东浪潮科学研究院有限公司 一种基于图神经网络的视频情感语义分析方法
CN114387567A (zh) * 2022-03-23 2022-04-22 长视科技股份有限公司 一种视频数据的处理方法、装置、电子设备及存储介质
CN115100725A (zh) * 2022-08-23 2022-09-23 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质
CN115100725B (zh) * 2022-08-23 2022-11-22 浙江大华技术股份有限公司 目标识别方法、目标识别装置以及计算机存储介质

Similar Documents

Publication Publication Date Title
Nie et al. C-GCN: Correlation based graph convolutional network for audio-video emotion recognition
Tian et al. Multimodal deep representation learning for video classification
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
Praveen et al. Audio–visual fusion for emotion recognition in the valence–arousal space using joint cross-attention
Liu et al. Speech expression multimodal emotion recognition based on deep belief network
Wang et al. Cross-modal dynamic networks for video moment retrieval with text query
Islam et al. A review on video classification with methods, findings, performance, challenges, limitations and future work
CN112580362A (zh) 一种基于文本语义监督的视觉行为识别方法、系统及计算机可读介质
Wu et al. Generalized zero-shot emotion recognition from body gestures
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
Baddar et al. On-the-fly facial expression prediction using lstm encoded appearance-suppressed dynamics
Belissen et al. Dicta-Sign-LSF-v2: remake of a continuous French sign language dialogue corpus and a first baseline for automatic sign language processing
CN117765450B (zh) 一种视频语言理解方法、装置、设备及可读存储介质
Zhang et al. Transfer correlation between textual content to images for sentiment analysis
Zhu et al. Unsupervised voice-face representation learning by cross-modal prototype contrast
Soysal et al. An introduction to zero-shot learning: An essential review
Rastgoo et al. Word separation in continuous sign language using isolated signs and post-processing
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
Xia et al. HiT-MST: Dynamic facial expression recognition with hierarchical transformers and multi-scale spatiotemporal aggregation
Sun et al. Appearance and geometry transformer for facial expression recognition in the wild
Gong et al. Human interaction recognition based on deep learning and HMM
ALISAWI et al. Real-Time Emotion Recognition Using Deep Learning Methods: Systematic Review
Ruan et al. Facial expression recognition in facial occlusion scenarios: A path selection multi-network
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210430