CN117149944B - 一种基于宽时间范畴的多模态情境情感识别方法及系统 - Google Patents

一种基于宽时间范畴的多模态情境情感识别方法及系统 Download PDF

Info

Publication number
CN117149944B
CN117149944B CN202310985679.3A CN202310985679A CN117149944B CN 117149944 B CN117149944 B CN 117149944B CN 202310985679 A CN202310985679 A CN 202310985679A CN 117149944 B CN117149944 B CN 117149944B
Authority
CN
China
Prior art keywords
emotion
video
mode
data
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310985679.3A
Other languages
English (en)
Other versions
CN117149944A (zh
Inventor
卢桂萍
王科俊
杨涛
曹宇
张小凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology Zhuhai
Original Assignee
Beijing Institute of Technology Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology Zhuhai filed Critical Beijing Institute of Technology Zhuhai
Priority to CN202310985679.3A priority Critical patent/CN117149944B/zh
Publication of CN117149944A publication Critical patent/CN117149944A/zh
Application granted granted Critical
Publication of CN117149944B publication Critical patent/CN117149944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Abstract

本发明公开了一种基于宽时间范畴的多模态情境情感识别方法及系统,包括以下步骤:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;基于BERT模型对视频情感数据集进行文本情感识别;通过引入通道注意力机制,对人物面部情感进行识别;构建基于注意力机制的多模态多分支融合模型,并通过多模态多分支融合模型得到最终的情感识别结果。本发明用于解决现有的多模态情感识别技术存在的仅针对当前时刻包含的信息进行情感挖掘、不能有效区分出对情感状态有影响的区域、跨模态不一致以及跨模态不平衡等的技术问题,从而实现具有鲁棒性的、情感表征能力更强的情感识别系统的目的。

Description

一种基于宽时间范畴的多模态情境情感识别方法及系统
技术领域
本发明涉及情感识别技术领域,具体涉及一种基于宽时间范畴的多模态情境情感识别方法及系统。
背景技术
人类在沟通时往往会结合表情、语言、姿态等多种表达方式来传递自己的观点,因此单一模态的情感识别往往无法准确地判断目标人物的情感状态。多模态情感识别可以通过从不同的模态数据中挖掘情感信息并进行融合,使各个模态的信息实现互补,从而实现具有鲁棒性的、情感表征能力更强的情感识别系统。
自情感计算的概念出现以来,众多研究人员在情感计算的识别领域做出了相当多的贡献,然而多模态情感识别领域仍然存在很多难点和挑战。
(1)目前的多模态情感识别方法仅将当前时刻的多种情感表达进行多模态融合,但是人类的情感变化会受到某些事件导致的因果关系的影响,要将目标人物的显式情感表达与情绪变化的原因联系起来,才能更准确地分析情感状态。因此在情感分析模型中,需要结合发生过的事件(情境上下文信息)和当前时刻的信息综合考虑,因此对宽时间范畴的情感特征提取方法的研究是有必要性的。如何将宽时间范畴的研究带来的情境信息转化为模型能够处理的形式,如何捕捉情境信息对情感识别带来的影响,是目前需要解决的难题。
(2)情景信息作为情感分析的辅助信息,对于情感识别的辅助作用还在研究的初期阶段,目前的方法大多使用卷积神经网络提取图像中的情景信息,但并不是全部的情景信息都对目标主体的情感状态有影响,对整幅图像包含的信息进行学习可能会带来冗余信息,需要使模型能区分出对情感状态有影响的区域。
(3)跨模态不一致。情绪对于人类来说是一种非常主观的内在感受,个人的成长背景、文化背景、周围的环境等因素,都会影响其面对不同情况的情绪变化。不同的人在情绪相同的情况下,心理状态和外在表现可能会大相径庭。显式情感表达还可能会因为主观的抑制或伪装让人产生错误的判断,比如一个人在面对可怕的场景时会假装镇定,但是可以从面部表情和语音等多个角度进行情感信息的挖掘,捕捉到害怕的情绪。因此,需要情感识别模型对不同模态的情感表达进行综合判断,从而分析出目标人物的真实情感状态。
(4)跨模态不平衡。不同的人表达情感的方式存在差异,因此在多模态情感识别过程中,不同的模态对情感分析的贡献都不是一成不变的,某些情况下可能面部表情的变化更明显,或者语音语调表达了更强烈的情绪,亦可能在行动上表现出了情感的状态,不同情况下每个模态的情感表达强度都是不相同的。因此在多模态融合的过程中需要考虑如何有效的将贡献度不同的模态融合,实现准确的情感分析。
发明内容
为了克服现有技术的不足,本发提供一种基于宽时间范畴的多模态情境情感识别方法及系统,用于解决现有的多模态情感识别技术存在的仅针对当前时刻包含的信息进行情感挖掘、不能有效区分出对情感状态有影响的区域、跨模态不一致以及跨模态不平衡等的技术问题,从而实现具有鲁棒性的、情感表征能力更强的情感识别系统的目的。
为解决上述问题,本发明所采用的技术方案如下:
一种基于宽时间范畴的多模态情境情感识别方法,包括以下步骤:
利用自然环境下的音视频资源,构建基于情境的视频情感数据集;
基于BERT模型对所述视频情感数据集进行文本情感识别;
通过引入通道注意力机制,对人物面部情感进行识别;
构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果。
作为本发明优选的实施方式,在构建基于情境的视频情感数据集时,包括:数据采集、情感类别定义、数据处理和以及数据标注;
其中,所述数据采集,包括:
筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;
所述情感类别定义,包括:
以EMOTIC数据集定义的情感类别为基准,加入了IEMOCAP中的沮丧情感和遗憾情感,得到多种情感类别;
所述数据处理,包括:
使用YOLO V5和Deepsort结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用MTCNN算法提取出人脸部分,并使用了libfacedetection算法进行查漏补缺;
所述数据标注,包括:
对每一个样本进行情感标注和文字标注;
其中,所述情感标注,包括:基于定义的多种情感类别,采用多标签的方式给所述每一个样本标注情感;
所述文字标注,包括:被标注者在当前视频片段中的台词、事实描述以及情境描述。
作为本发明优选的实施方式,在进行文本情感识别时,包括:
利用BERTbase模型分别对事实描述、情境描述以及两者的拼接进行特征提取和情感分类,得到的分类结果;
其中,在进行特征提取时,包括:
所述BERTbase模型利用Transformer的自注意力机制对输入序列进行并行处理,同时获得每个词在序列内的相关性,捕捉到序列内部距离较长的特征依赖关系;
在进行情感分类时,包括:
对于每个输入序列,经过特征提取后的输出维度为128×768,将分类标记对应的输出特征经过全连接层映射到输出空间,得到每个文本的分类结果。
作为本发明优选的实施方式,在通过自注意力机制捕捉特征依赖关系时,包括:
通过使用输入向量对应的Query与Key计算点积,得到每个词向量与其他词向量的相关性,经过Softmax归一化之后,得到每个位置的词向量对应的注意力分布,将对应位置的注意力值与Value相乘后再求和,如公式1所示:
式中,dk是为了使得到的注意力图的元素符合均值为0,方差为1的标准高斯分布,Q为输入向量对应的Query,K为输入向量对应的Key,V为输入向量对应的Value;
其中,每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息。
作为本发明优选的实施方式,在对人物面部情感进行识别时,包括:
在模型训练阶段,从每个人脸图像序列中随机抽取N帧图像作为输入;
在测试阶段,将整段视频的图像序列作为输入;
面部情感识别部分选用ResNet18作为图像特征提取的基础网络,并引入通道注意力模块和重要性权重生成的方法,最后使用滑动融合的方式,根据每一帧图像对应的重要性权重进行时序上的融合,将融合结果送入分类器得到最终的分类结果。
作为本发明优选的实施方式,在引入通道注意力模块时,包括:
将所述通道注意力模块引入ResNet18中,得到引入通道注意力机制的ResNet18,通过显示地构建通道之间的相关性,对每个通道赋予不同的重要性权重;
在所述通道注意力模块中,在对每个输入特征图使用全局平均池化后,通过使用一维卷积核捕获每个通道与其临近的通道之间的局部交互信息;
其中,一维卷积核尺寸决定了每次计算局部交互所覆盖的通道数,通过所述一维卷积核尺寸k和所述通道数C间的非线性映射关系,得到所述一维卷积核k的尺寸。
作为本发明优选的实施方式,在引入通道注意力模块时,还包括:
将所述通道注意力模块通过添加一个Identity连接的方式,整合到ResNet的每一个Basic block中残差连接之前的位置;
其中,所述Identity连接与经过所述通道注意力模块的输出通过对应位置元素相加的方式进行连接,并使用sigmoid函数对注意力权重进行处理,转化为0~1之间的值。
作为本发明优选的实施方式,在引入重要性权重生成的方法时,包括:
通过使用所述引入通道注意力机制的ResNet18得到每个样本的面部特征表示后,将特征向量送入全连接层和sigmoid函数,为每个样本分配重要性权重,权重较低的样本表示其情感类别与标签不符,会被重新识别和打标签;
其中,在为每个样本分配重要性权重时,包括:
对经过骨干网络得到的特征向量重新分配重要性权重,面部表情完整且情感表达强烈的帧会被分配较高的权重,面部姿态处于侧脸或情感表达不明确的帧会被赋予较低的权重,将特征向量与对应的权重结合,完成针对表情不确定性的特征向量加权。
作为本发明优选的实施方式,在构建基于注意力机制的多模态多分支融合模型时,包括:
通过所述引入通道注意力机制的ResNet18,分别对不同模态单独训练,得到每个模态的分类结果,并且引入注意力机制来自适应地为每个模态的分类结果分配权重;
其中,在训练的过程中只保留有效的数据进行学习;在多模态融合阶段,将缺失的模态数据使用零矩阵代替。
一种基于宽时间范畴的多模态情境情感识别系统,包括:
情感数据集构建单元:用于利用自然环境下的音视频资源,构建基于情境的视频情感数据集;
文本情感识别单元:用于基于BERT模型对所述视频情感数据集进行文本情感识别;
面部情感识别单元:用于通过引入通道注意力机制,对人物面部情感进行识别;
最终情感识别单元:用于构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果。
相比现有技术,本发明的有益效果在于:
(1)本发明以宽时间范畴的视频情感数据集为研究基础,对人物面部、视频全局、音频以及文本分别提取情感特征,结合外部情感知识图,使用图神经网络构建先验信息的特征提取模型,验证事件前因对当前时刻情感识别的有效性。引入注意力机制,为每个模态的特征动态分配权重,以解决某一个模态丢失或表征不明显带来的问题,使模型更适应实际应用的复杂场景。
(2)本发明通过对主体面部表情、情景信息、音频、文本以及宽时间范畴内包含的先验信息(即情境信息)构建多模态情感识别模型,实现更加接近人类情感分析过程的情感识别系统。多个情感模态的结合可以有效避免由于某个模态的缺失带来的影响,可以应对现实生活中的复杂场景,在教育、心理治疗、智能陪伴机器人等领域都有较大的应用前景。
(3)通过本发明的基于宽时间范畴的多模态情感识别可以通过从不同的模态数据中挖掘情感信息并进行融合,使各个模态的信息实现互补,从而实现具有鲁棒性的、情感表征能力更强的情感识别系统。
下面结合附图和具体实施方式对本发明作进一步详细说明。
附图说明
图1-是本发明实施例的镜头切换导致目标人物编号变化的展示图;
图2-是本发明实施例的数据集标注内容展示图;
图3-是本发明实施例的BERT结构示意图;
图4-是本发明实施例的Transformer编码器结构示意图;
图5-是本发明实施例的面部表情识别整体架构图;
图6-是本发明实施例的ResNet18结构示意图;
图7-是本发明实施例的ECA模块结构示意图;
图8-是本发明实施例的嵌入ECA模块后的Basic block示意图;
图9-是本发明实施例的特征融合模块结构示意图;
图10-是本发明实施例的多模态多分支情感识别整体架构图;
图11-是本发明实施例的基于注意力机制的多模态融合模块结构示意图;
图12-是本发明实施例的基于宽时间范畴的多模态情境情感识别方法的步骤图。
具体实施方式
本发明所提供的基于宽时间范畴的多模态情境情感识别方法,如图12所示,包括以下步骤:
步骤S1:利用自然环境下的音视频资源,构建基于情境的视频情感数据集;
步骤S2:基于BERT模型对视频情感数据集进行文本情感识别;
步骤S3:通过引入通道注意力机制,对人物面部情感进行识别;
步骤S4:构建基于注意力机制的多模态多分支融合模型,并通过多模态多分支融合模型得到最终的情感识别结果。
具体地,本发明通过人工标注,将宽时间范畴的情境信息转换为文本形式的数据。通过构建基于情境的视频上下文情感数据集,结合面部表情、视频全局情景、音频、事实描述以及文本描述多个模态,对基于宽时间范畴的多模态情感识别方法展开研究。另外,本发明分别为每个类型的数据构建了情感识别模型,然后将每个分支的识别结果进行多模态多分支融合,对实验结果进行分析。具体工作总结如下:
(1)构建自然环境下的基于情境的视频上下文情感数据集。通过使用YOLO V5和Deepsort结合的多人目标追踪算法定位视频中目标主体的位置,使用MTCNN和libfacedetection算法进一步提取目标主体的面部图像。为每个目标主体标注28类多标签情感类别、视频中的台词、事实描述和情境描述。其中情境描述即将宽时间范畴下包含的情境上下文信息转化为文本描述的形式。此外还对视频中的场景、事件、情感极性以及人物属性做出了标注。本发明所构建的宽时间范畴下的情境描述能够为情感识别模型提供情感分析的线索。
(2)针对本发明构建的数据集规模较小的问题,使用了基于迁移学习的方法对音频和文本模态的信息进行情感识别。利用预训练模型VGGish对本发明数据集的音频信号进行特征提取和情感识别。使用BERTbase预训练模型分别对事实描述、文本描述以及两者拼接的文本描述进行特征提取和情感识别。本发明两个模态使用的预训练模型都能够在本发明的数据集上有效的学习情感特征。
(3)为使面部表情识别模型更加关注对最终分类人物贡献较大的特征,在基础模型中嵌入通道注意力模块。由于面部姿态变化角度较大导致的不确定性问题,使用特征选择融合模块进行缓解,为图像序列中每一帧分配重要性权重,根据每一帧图像的权重将视频序列的特征逐帧融合,以得到视频级别的识别结果。本发明在基础模型中嵌入通道注意力模块能够提升模型的性能。
(4)在情景情感识别的基础模型中,引入混合注意力机制使模型更多地关注图像中对目标主体情感有影响的目标区域。由于情景支路的输入图像包含的信息较为复杂,将特征提取模型中不同层的特征图与输出特征图进行自适应融合,使模型对图像中的语义信息和空间信息均得到较好的学习。最后在时序特征融合部分,使用Mogrifier LSTM网络,将每一时刻的输入与前一时刻的状态向量进行多轮交互,使模型学习到更多关键信息,得到更有效的时序特征表示。本发明添加的混合注意力模块和多尺度特征融合方法都有助于提升网络的识别效果,同时本发明构建的数据集中的情景信息能够为情感识别提供辅助作用。
(5)在多模态多分支融合部分,将每个模态分支对样本的识别结果作为输入,数据缺失的部分使用零矩阵代替。选用决策级融合方法,引入注意力机制,根据每个模态对最终情感分类的贡献程度,为每个分支分配权重,实现自适应融合。本发明所提供的多模态情感识别方法能够更好的应对复杂场景下的情感识别问题,并且设计的多模态多分支融合网络具有有效性。
在上述步骤S1中,在构建基于情境的视频情感数据集时,包括:数据采集、情感类别定义、数据处理和以及数据标注;
其中,数据采集,包括:
筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;
情感类别定义,包括:
以EMOTIC数据集定义的情感类别为基准,加入了IEMOCAP中的沮丧情感和遗憾情感,得到多种情感类别;
数据处理,包括:
使用YOLO V5和Deepsort结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用MTCNN算法提取出人脸部分,并使用了libfacedetection算法进行查漏补缺;
数据标注,包括:
对每一个样本进行情感标注和文字标注;
其中,情感标注,包括:基于定义的多种情感类别,采用多标签的方式给每一个样本标注情感;
文字标注,包括:被标注者在当前视频片段中的台词、事实描述以及情境描述。
具体地,基于情境的视频情感数据集构建过程具体如下:
利用自然环境下的音视频资源,构建基于情境的视频上下文情感数据集过程,包括数据采集、情感类别定义、数据处理以及数据标注。
数据采集:
由于数据集构建的初衷是为了在宽时间范畴的基础上进行情感分析研究,数据的采集需要在时间前后顺序方面具有连贯性,便于对情境信息进行记录。同时,为了模拟真实环境下的状态,本发明从影视剧当中裁剪片段。影视剧题材方面,需要筛选出与当前真实环境下的条件差别不大的影视剧,避免古装剧、奇幻剧、滤镜较重不符合现实色调的剧等。为避免单个片段前后出现不相关的帧,在获得原始视频后,使用视频编辑工具AdobePremiere Pro1在视频帧级别截取目标片段,从而过滤掉不必要的信息。由于人的情绪一般在10s内可以达到峰值,同时为了截取到更多的目标人物以外的信息,本发明将单个数据的时长控制在20s以内。
从影视剧中截取数据存在镜头切换的问题,镜头切换处前后两帧的内容不连贯,还可能出现切换镜头后镜头内不包含要标注的人物,而是周围的场景或者与其对话的其他人物。但是,考虑到可以使用人脸检测算法提取出人物面部区域,并且切换的镜头是与人物相关的场景,对视频当中与人物主题无关的信息进行研究也是本发明的一部分,因此本发明在尽可能减少镜头切换次数的基础上保留有用的场景信息。
另外,本发明在选取影视剧的过程中,会避免使用方言的影视剧,但是并没有限制固定的某种语言或某个国家,不同国家的影视剧可以丰富数据集的场景信息和人物特点,将来可以结合人物个人属性实现更深入的情感分析研究。
情感定义:
EMOTIC数据集中标注了更丰富的情感类别,通过收集大量情感词汇,利用词典对情感词汇进行分类,每一类中选取一个单词作为该类的代表词,组成了最终的情感类别列表,共有26种,涵盖了广泛的情绪状态。本发明基于情境的上下文情感数据集以EMOTIC数据集定义的情感类别为基准,加入了IEMO CAP中的沮丧。在数据标注过程中,发现“遗憾的”也是较为常见的一种情感,一般是指发生了令当事人不满意、悔恨或不甘心的事情,由于无法控制事情发展或无法补救而导致的后悔的心理。因此将“遗憾的”也加入情感类别中,共有28种情感类别。无论是情感相关的研究结果还是生活中的所见所感,都让人不难理解人类的情感是复杂多样的,在某一时刻的情感可能是由多种情感叠加而来的。比如朋友准备了生日惊喜,那么除了惊讶以外还会有开心甚至是兴奋;如果是一个人遭到了信任的人的背叛,那么他的情绪可能会包含悲伤的、痛苦的、生气的。很多情况下的情绪都无法只用一种情感来描述,为了更贴近真实生活中人物的心理状态,本发明构建的数据集标注情感的方式选择多标签。
数据处理:
SVCEmotion数据集在采集视频时没有刻意避免非目标人物,因此镜头中的人物数量往往在两个及以上,为了能够在视频的每一帧追踪目标人物,本发明使用YOLO V5和Deepsort结合的多人目标追踪方法,其中的YOLO V5是经典的目标检测算法,Deepsort则是经典的多目标跟踪算法,可以判断出目标在每一帧图像中的位置。本发明利用该算法可以识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并且能够得到每一个检测框在图像中的坐标和宽高。该算法在遇到镜头切换时,会对镜头中的人物重新赋予编号,如果目标人物从正脸变为了背影或是侧脸,算法会无法检测出是同一人,此时目标人物的编号就会变化,不利于后续的数据处理,如图1所示,镜头切换之后,两位演员的编号都发生了变化。因此,本发明在得到所有的检测结果后,会进行人工筛查,通过手工修改的方式将每一帧的目标人物编号进行统一,非目标人物不在研究范围内,所以未给予修正。
为了对目标人物的面部表情单独进行研究,需要检测出人物的面部部分。经过之前的多人目标追踪检测,已经检测到了目标人物在图像中的位置,本发明在此基础上利用MTCNN算法提取出人脸部分。由于源代码中检测框的宽高不相等,为便于后续特征提取部分的研究,本发明将输出改为了正方形的检测框,即检测到人脸后,将较短的一边补到与较长边一样的长度,若超出了图像的边界,则在相反方向进行补齐。由于人力案件额算法可能会出现疏漏,导致某些视频中检测不到人脸,因此本发明使用了libfacedetection算法进行查漏补缺,该算法在面部出现遮挡或者角度变化时表现较好,且得到的图像是正方形,无需后续处理。
数据标注:
SVCEmotion数据集的标注任务较为复杂,除了情感类别的标注之外,还有一些文本方面的描述。为了方便标注过程,本发明通过使用一个UI界面来对每一个样本进行标注工作,具体内容如图2所示。
图2中左侧主要是文字标注部分,包括被标注者在当前视频片段中的台词(若没有台词则标注为空)、事实描述以及情境描述。其中事实描述是对被标注者在视频当中所做的事情的客观描述,不包含任何情感倾向和先验信息,如图2中,“一个女人正在房间里打电话”。情境描述需要对被标注者在视频当中的时刻之前经历过的事件进行描述,说明之前所经历的事件与当前时刻的因果关系,图2中对应的情境描述为“女人刚到达出差地点的酒店,她的丈夫打来了电话问候她”。视频当中所能展示的信息是有限的,通过对人物身上发生的事件进行凝练,以文本的形式记录,就可以得到视频内容之外的信息。本发明通过人工标注来提炼事件前因后果,从而保证对视频内容实现准确理解和总结。除此之外,“Bbox”指的是需要标注的目标人物在视频当中的编号,因为视频当中可能会出现两个及以上的目标人物,所以使用这个编号进行区分。“Scene”指视频当中的场景,例如家、教室、卧室等。“Situation”为目标人物在视频中所处的客观事件,例如通话、走路等。
在上述步骤S2中,在进行文本情感识别时,包括:
利用BERTbase模型分别对事实描述、情境描述以及两者的拼接进行特征提取和情感分类,得到的分类结果;
其中,在进行特征提取时,包括:
BERTbase模型利用Transformer的自注意力机制对输入序列进行并行处理,同时获得每个词在序列内的相关性,捕捉到序列内部距离较长的特征依赖关系;
在进行情感分类时,包括:
对于每个输入序列,经过特征提取后的输出维度为128×768,将分类标记对应的输出特征经过全连接层映射到输出空间,得到每个文本的分类结果。
进一步地,在通过自注意力机制捕捉特征依赖关系时,包括:
通过使用输入向量对应的Query与Key计算点积,得到每个词向量与其他词向量的相关性,经过Softmax归一化之后,得到每个位置的词向量对应的注意力分布,将对应位置的注意力值与Value相乘后再求和,如公式1所示:
式中,dk是为了使得到的注意力图的元素符合均值为0,方差为1的标准高斯分布,Q为输入向量对应的Query,K为输入向量对应的Key,V为输入向量对应的Value;
其中,每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息。
具体地,本发明针对构建的数据集规模较小的问题,使用了基于迁移学习的方法对音频和文本模态的信息进行情感识别。用预训练模型VGGish对本发明数据集的音频信号进行特征提取和情感识别。使用BERTbase预训练模型分别对事实描述、文本描述以及两者拼接的文本描述进行特征提取和情感识别。
基于BERT的文本情感识别过程具体如下:
BERT模型通过使用BooksCorpus和英语维基百科两个大型语料库完成两个无监督预训练任务,以获得较强的文本语义表示能力。第一个任务是使用带掩码的方式训练语言模型,对输入的语句的标记以一定的比例进行随机遮蔽,对被遮蔽的标记进行预测,得到深层的双向语言特征表示。第二个任务是判断两个输入的文本是否连续,训练双向语言模型对于较长文本序列之间关联的学习能力。该模型的优势在于处理不同的下游任务时,模型架构是统一的,只需要针对不同任务添加网络的输出层并进行微调。
BERT模型共有两种模型尺寸,本发明使用了BERTbase模型,网络共有12层Encoder,隐藏层尺寸为768,每层的多头自注意力模块的数量是12,整体规模比Transformer模型更大,具体结构如图3所示。该模型的输入由三部分组成,首先是将输入的语句进行分词(tokenization),将每个词转换为对应的768维的词嵌入ID,即为每个词的标记(token embedding)。然后在每个输入序列的首尾分别插入两个特殊的标记[CLS]和[SEP],其中[CLS]是用于分类任务的标记,与其位置对应的输出状态整合了整个句子的语义信息,[SEP]标记的作用是区分开输入的句子对。由于Transformer的自注意力机制会忽略单词在句中的位置,因此要针对每个单词进行位置编码(position embedding),编码的维度与词向量相同,最后为每个token加上段嵌入(segment embedding)以区分句子对中的两个句子,若只输入一个句子,则所有token的段嵌入值相同。将每个标记的三部分嵌入按位置相加,即为BERT的输入向量。为统一输入序列的长度,长度较短的句子将用零填充剩余的标记位置,本发明将序列最大长度设置为128。
BERTbase模型在本发明中的核心思想就是利用Transformer的自注意力机制实现对输入序列的并行处理,同时获得每个词在序列内的相关性,捕捉到序列内部距离较长的特征依赖关系,以获得更强的语义表达能力。自注意力机制也被称为内部注意力,是针对输入元素内部或是输出元素内部的注意力机制。图4为Transformer编码器的结构。
本发明的自注意力机制中的Query、Key、Value都是通过输入词向量矩阵与不同的权重矩阵相乘进行线性变换得到的。通过使用输入向量对应的Query与Key计算点积,得到每个词向量与其他词向量的相关性,经过Softmax归一化之后,得到每个位置的词向量对应的注意力分布,将对应位置的注意力值与Value相乘后再求和,每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息。自注意力的计算过程如下:
式中,dk是为了使得到的注意力图的元素符合均值为0,方差为1的标准高斯分布,防止经过softmax函数的注意力图分布过于陡峭,故而对注意力权重进行缩放。
进一步地,在本发明中,BERTbase模型中使用了多头自注意力并行的对词向量计算自注意力值。并且由于输入序列的各个向量之间的相关性不止一种,使用多个查询向量在不同的子空间学习不同的相互依赖关系。
对于每个输入的序列,经过特征提取后的输出维度为128×768,将分类标记对应的输出特征经过全连接层映射到输出空间,得到每个文本的分类结果。本发明分别对事实描述、情境描述以及两者的拼接进行了特征提取和情感分类,得到的分类结果表示为Pt、Pc和Ptc
在上述步骤S3中,在对人物面部情感进行识别时,包括:
在模型训练阶段,从每个人脸图像序列中随机抽取N帧图像作为输入;
在测试阶段,将整段视频的图像序列作为输入;
面部情感识别部分选用ResNet18作为图像特征提取的基础网络,并引入通道注意力模块和重要性权重生成的方法,最后使用滑动融合的方式,根据每一帧图像对应的重要性权重进行时序上的融合,将融合结果送入分类器得到最终的分类结果。
进一步地,在引入通道注意力模块时,包括:
将通道注意力模块引入ResNet18中,得到引入通道注意力机制的ResNet18,通过显示地构建通道之间的相关性,对每个通道赋予不同的重要性权重;
在通道注意力模块中,在对每个输入特征图使用全局平均池化后,通过使用一维卷积核捕获每个通道与其临近的通道之间的局部交互信息;
其中,一维卷积核尺寸决定了每次计算局部交互所覆盖的通道数,通过一维卷积核尺寸k和通道数C间的非线性映射关系,得到一维卷积核k的尺寸。
更进一步地,在引入通道注意力模块时,还包括:
将通道注意力模块通过添加一个Identity连接的方式,整合到ResNet的每一个Basic block中残差连接之前的位置;
其中,Identity连接与经过通道注意力模块的输出通过对应位置元素相加的方式进行连接,并使用sigmoid函数对注意力权重进行处理,转化为0~1之间的值。
进一步地,在引入重要性权重生成的方法时,包括:
通过使用引入通道注意力机制的ResNet18得到每个样本的面部特征表示后,将特征向量送入全连接层和sigmoid函数,为每个样本分配重要性权重,权重较低的样本表示其情感类别与标签不符,会被重新识别和打标签;
其中,在为每个样本分配重要性权重时,包括:
对经过骨干网络得到的特征向量重新分配重要性权重,面部表情完整且情感表达强烈的帧会被分配较高的权重,面部姿态处于侧脸或情感表达不明确的帧会被赋予较低的权重,将特征向量与对应的权重结合,完成针对表情不确定性的特征向量加权。
具体地,面部情感识别过程具体如下:
人的面部表情变化会受到周围环境和事件的影响,因此较长时间的视频样本能够保留更完整的表情变化过程和更丰富的情感表达,为多标签情感分析提供更多的信息。由于面部表情的变化较为缓慢,相邻两帧之间的差异可能很小,同时考虑到整段视频的数据量较为庞大,因此本发明在模型训练阶段,从每个人脸图像序列中随机抽取N帧图像作为输入,此处N=16,在测试阶段将整段视频的图像序列作为输入。
在本发明中,面部情感识别部分选用ResNet18作为图像特征提取的基础网络,考虑到随着网络加深,通道数逐渐增加,但是不同的通道学习到的特征图对总重的分类贡献不完全相同,会出现冗余信息。为缓解这种情况,本发明引入了通道注意力模块,提取到各个帧的特征表示后,需要对每一帧的特征进行时序信息上的学习。由于本发明的数据集中人物面部角度变化较大,且稀疏采样的方式会导致连续两帧之间的特征差异较大,此外,人物面部表情并不是全程处于峰值,会出现误判的现象,因此本发明引入了重要性权重生成的方法解决这一问题,最后使用滑动融合的方式,根据每一帧图像对应的重要性权重进行时序上的融合,将融合结果送入分类器得到最终的分类结果。面部表情识别的整体架构如图5所示。
基于通道注意力的表情特征提取网络:
面部表情的特征提取部分,首先使用卷积神经网络对图像序列逐帧提取情感特征,然后利用可以处理时间序列信息的网络,学习不同时刻的特征之间的相互依赖关系,得到最终的识别结果。本发明采用ResNet18作为提取每一帧图像表情特征的骨干网络,网络共有四个残差块组合,每个残差块组合包含两个Basic Block,最后经过平均池化层和全连接层得到输出。由于视频中镜头远近的变化,截取的面部图像尺寸不统一,普遍在200至300像素之间,因此将图像尺寸统一缩放为ResNet的标准输入大小,即224×224。最后一个残差块输出的特征图尺寸为7×7,通道数为512。这部分网络的输出取平均池化层的512维特征向量,网络具体结构及特征图尺寸如图6所示。
在该网络中,输入每经过一组残差块,特征图的通道数增加一倍,最大通道数达到512。不同的通道学习图像中不同类型和区域的特征,但是会出现一些通道学习到冗余信息的情况,每个通道上的特征图对表情特征学习的贡献不完全相同,网络无法像人类一样能够分辨并重点关注与情感表达相关的信息。为了突出贡献较大的特征图,本发明将通道注意力机制引入网络中,通过显示地构建通道之间的相关性,对每个通道赋予不同的重要性权重,使模型更加聚焦于对关键区域的特征提取。在ECA模块中,在对每个输入特征图使用全局平均池化后,通过使用一维卷积核捕获每个通道与其临近的通道之间的局部交互信息,避免了全连接层的降维操作,在引入参数量更少的情况下达到了比SENet更好的效果,ECA模块的具体结构如图7所示。
ECA模块的输入为一组通道数为C,宽高分别为W和H的特征图,经过全局平均池化后,得到一组1×1×C的特征向量,其中每个元素都代表着其对应通道的特征图的全局信息。通过使用一维卷积对得到的向量进行卷积操作,取代了全连接层的方法,去捕获一定范围内临近通道之间的相关性,实现跨通道的信息交互。其中卷积核的尺寸决定了每次计算局部交互所覆盖的通道数,通过自适应的方式确定其具体尺寸。基于局部交互的覆盖率与通道数量成正比的假设,即卷积核尺寸k与通道数C之间存在一种非线性映射关系,具体表示如下:
C=φ(k)=2(γ*k-b)
由此可以得到卷积核k的尺寸计算公式:
式中,γ和b是为非线性映射定义的参数,分别设置为2和1,公式中|t|odd的意义是取距离t的绝对值最近的奇数。确定k值之后,通过对特征向量进行一维卷积得到与之尺寸相同的特征向量,实现了局部的跨信道的信息交互。经过一个sigmoid函数之后,得到代表每个通道重要程度的权值,将其与对应的通道特征图相乘,就得到经过加权的特征图。
将ECA模块通过添加一个Identity连接的方式,整合到ResNet的每一个Basicblock中残差连接之前的位置。Identity连接与经过ECA模块的输出通过对应位置元素相加的方式实现连接。使用sigmoid函数处理的注意力权重被转化为0~1之间的值,通过这种连接方式可以在原有的基础上增强关键通道的权重,相当于通道注意力权重统一增加1,更加突出特征图的信息表达。具体结构如图8所示。
图像序列特征融合模块:
通过使用引入通道注意力机制的ResNet18,得到每个样本的N个图像序列对应的特征向量F={f1,...,fN}。由于图像序列是从每个视频样本中按顺序随机抽取,相邻两帧之间的面部姿态、表情强度、情感类别都可能有较大差异,并且多模态的情感数据集包含多种情感表达方式,不同模态在同一时刻的表达强度会有差异,因此面部表情的数据并不是始终处于情感状态的峰值。以上的情况对于面部表情的分析都有一定程度的影响,因此使用常规的递归神经网络对图像序列之间的相互依赖关系进行挖掘,无法有效整合不同时刻的情感特征。
本发明使用引入通道注意力机制的ResNet18得到每个样本的面部特征表示后,将特征向量送入全连接层和sigmoid函数,为每个样本分配重要性权重,权重较低的样本表示其情感类别与标签不符,会被重新识别和打标签。并且基于上述方法,引入重要性权重生成思想,对经过骨干网络得到的特征向量重新分配重要性权重,其中面部表情完整且情感表达强烈的帧会被分配较高的权重,面部姿态处于侧脸或情感表达不明确的帧会被赋予较低的权重,将特征向量与对应的权重结合,实现针对表情不确定性的特征向量加权。然后使用一种特征选择融合方法(包括滑动融合)将经过重新标定的特征向量进行时序上的融合,得到最终的情感识别结果。特征融合模块(Features Selection Fusion Module,FSFM)具体结构如图9所示。
网络的输入是一组N帧的图像序列,经过骨干模型的特征提取得到N个维度为512的特征向量。将特征向量送入一层全连接层和一个sigmoid函数,生成对应每一帧图像的重要性权重,并将得到的权重与对应的特征相乘,结果为加权后的面部表情特征,其计算过程如下:
xn=αnxn
式中,αn表示第n帧图像对应的权重,σ为sigmoid激活函数,Wfc为全连接层的参数矩阵,xn为第n帧图像的表情特征,xn为第n帧图像经过加权计算得到的表情特征。接下来计算加权特征在时间维度上的融合特征,每一帧图像对应一个时刻。在初始时刻,初始状态向量h1对应第一帧的特征x1,第n个时刻的输入为第n帧图像的特征向量,第n个时刻生成的融合向量为hn,最后一个时刻得到的状态向量即为该样本的是视频级融合向量。每个时刻的特征融合的具体计算过程如下:
在计算当前时刻的状态向量时,首先将前一时刻的状态向量与过去所有时刻的权重之和相乘,再与当前时刻输入的特征相加,得到的结果除以包括当前时刻的经过的所有时刻的权重之和,计算的结果为每个时刻的状态向量。在经过所有时刻之后,得到最终的融合特征,经过全连接层的线性映射得到28维的分类结果Pf,作为面部表情的预测结果。
在上述步骤S4中,在构建基于注意力机制的多模态多分支融合模型时,包括:
通过使用引入通道注意力机制的ResNet18,分别对不同模态单独训练,得到每个模态的分类结果,并且引入注意力机制来自适应地为每个模态的分类结果分配权重;
其中,在训练的过程中只保留有效的数据进行学习;在多模态融合阶段,将缺失的模态数据使用零矩阵代替。
本发明所提供的基于宽时间范畴的多模态情境情感识别系统,包括:情感数据集构建单元、文本情感识别单元、面部情感识别单元以及最终情感识别单元。
具体地,基于注意力机制的多模态多分支融合模型构建过程具体如下:
根据多模态融合的层次不同,可分为数据级融合、特征级融合和决策级融合。其中,数据级融合是将不同模态的原始数据融合,形成一个新的融合数据,作为模型的输入。目前常用的融合方式包括数值处理和参数估计。这种融合方式可以最大限度的保留每个模态包含的信息,同时也存在一些缺点,由于不同模态的数据存储格式和空间维度存在差异,将不同形式的数据有效地整合为融合数据是繁琐而困难的,虽然保留了完整的数据信息,但是也会导致信息的冗余。
特征融合同样发生在较早的阶段,在多模态融合的任务中出现的频率较高。从各个模态的输入中提取到特征后,直接将各个模态的特征进行简单的拼接或按位相加,然后送入分类器。这种方法通常会得到一个维度较高的特征向量,若维度过高会导致模型性能下降。此外还存在信息的冗余,可以通过引入注意力机制对特征进行选择性的学习。尽管特征层的融合能够提升模型的识别效果,但是没有将不同模态的特征存在的差异性纳入考虑范围。
决策级融合发生在各个模态的特征得到分类结果之后,因此也被称为晚期融合。不同模态的数据分别输入不同的分支,各自独立的完成模型的训练,再依据某种策略将分类结果进行融合,得到最终的情感类别预测。这种方法要求针对不同类型的模态设计合适的特征提取网络。当某种模态数据缺失时,决策级融合可以通过其余的模态的分类结果完成情感类别的预测,融合过程中主要考虑的问题是不同的分支对于情感识别结果的重要程度,以怎样的方式进行融合。
常用的融合方法有乘积规则、最大值规则、平均值规则、枚举权重等。与特征级融合相比,决策级融合方法具备更强的鲁棒性,且考虑到了不同模态之间存在差异性,但是决策级融合忽略了不同模态低级特征之间的相互作用带来的效果,无法学习到不同模态特征之间的联系。
本发明所提供的多模态情境情感识别方法融合了较多类型的信息,分别是面部表情、视频全局情景信息、音频和文本描述,其中文本信息包含了视频中的事实描述和与目标人物经历相关的情境描述两部分。各模态信息的时间跨度较大,不同模态数据之间的相关性不高,因此本发明选择了在决策层进行多模态的融合任务。首先,通过使用引入通道注意力机制的ResNet18,分别对不同模态单独训练,得到各自的分类结果。由于在收集数据集的过程中,面部表情不是判断视频片段是否被选取为数据集的唯一标准,影视剧中某些场景下无法通过自动检测算法提取到人脸,某些镜头中是没有任何对白的,个别数据会出现某些模态缺失的情况,因此本发明在训练的过程中只保留有效的数据进行学习。本发明在多模态融合阶段,为了得到具备鲁棒性的决策融合模块,不会剔除存在模态缺失的数据,而是将缺失的模态数据使用零矩阵代替。
目前常用的决策级融合方法虽然考虑了各个模态在融合时的贡献程度,但是并不能针对不同的数据动态的变化,融合的规则或者各个分支的权重一旦确定了参数就不能再变化。尽管人类拥有的情绪类别是基本相同的,但是不同的人表达情感的方式存在差异,导致不同的样本中,各个模态贡献的占比会发生变化,为了应对不同样本中各个模态重要性不同的问题,本发明引入注意力机制来自适应地为每个模态的分类结果分配权重,本发明的多模态情感识别整体架构如图10所示。
视觉部分包含两个分支,其中面部表情和情景信息的分类结果分别为Pf和Pg,音频模态为Pv,文本模态的事实描述和情境上下文描述的结果分别为Pt和Pc。在得到个各模态的分类结果之后,将其沿着特征维度拼接,得到H=D×C维的特征,作为多模态融合模块的输入,其中C表示输入的分类结果数量,D表示输入特征的维度,值为28,因为数据集共有28类情感状态。本发明将通道注意力机制用于该模块中,得到基于注意力机制的多模态融合模块,具体结构如图11所示。
首先使用全局平均池化将每个分支的特征表示转变为一个一维实数,得到维度为1×C的向量S,每一个实数都具有其对应的输入特征的全局感受野,计算公式如下:
其中,sj表示第j个通道上的分类结果对应的一维实数,表示第j个通道上特征的第i个元素,经过加和求均值得到结果。
然后利用公式C=φ(k)=2(γ*k-b)根据输入的C的数值动态的计算一维卷积核k的尺寸,使用k×1的卷积核对上一步得到的向量做卷积操作,得到一个尺寸同样为1×C的向量,通过卷积核的操作实现局部通道之间关系的建模,使用sigmoid函数将该向量的值转化为0~1之间,就得到每个通道对应的注意力权重,这一部分的输出计算过程如下:
Z=σ(f1D,k(S));
式中,σ表示sigmoid函数,f1D,k()表示卷积核尺寸为k×1的一维卷积操作。将得到的注意力权重与先前的输入逐通道相乘,就得到重新分配权重的分类结果表示,计算公式如下:
将其转变为一维向量后送入分类器,得到最后的情感识别结果。
本发明所提供的基于宽时间范畴的多模态情境情感识别系统,包括:情感数据集构建单元、文本情感识别单元、面部情感识别单元以及最终情感识别单元。
情感数据集构建单元:用于利用自然环境下的音视频资源,构建基于情境的视频情感数据集。
文本情感识别单元:用于基于BERT模型对视频情感数据集进行文本情感识别。
面部情感识别单元:用于通过引入通道注意力机制,对人物面部情感进行识别。
最终情感识别单元:用于构建基于注意力机制的多模态多分支融合模型,并通过多模态多分支融合模型得到最终的情感识别结果。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (8)

1.一种基于宽时间范畴的多模态情境情感识别方法,其特征在于,包括以下步骤:
利用自然环境下的音视频资源,构建基于情境的视频情感数据集;
基于BERT模型对所述视频情感数据集进行文本情感识别;
通过引入通道注意力机制,对人物面部情感进行识别;
构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果;
其中,在构建基于情境的视频情感数据集时,包括:数据采集、情感类别定义、数据处理和以及数据标注;
其中,所述数据采集,包括:
筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;
所述情感类别定义,包括:
以EMOTIC数据集定义的情感类别为基准,加入了IEMOCAP中的沮丧情感和遗憾情感,得到多种情感类别;
所述数据处理,包括:
使用YOLO V5和Deepsort结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用MTCNN算法提取出人脸部分,并使用了libfacedetection算法进行查漏补缺;
所述数据标注,包括:
对每一个样本进行情感标注和文字标注;
其中,所述情感标注,包括:基于定义的多种情感类别,采用多标签的方式给所述每一个样本标注情感;
所述文字标注,包括:被标注者在当前视频片段中的台词、事实描述以及情境描述;
在对人物面部情感进行识别时,包括:
在模型训练阶段,从每个人脸图像序列中随机抽取N帧图像作为输入;
在测试阶段,将整段视频的图像序列作为输入;
面部情感识别部分选用ResNet18作为图像特征提取的基础网络,并引入通道注意力模块和重要性权重生成的方法,最后使用滑动融合的方式,根据每一帧图像对应的重要性权重进行时序上的融合,将融合结果送入分类器得到最终的分类结果。
2.根据权利要求1所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在进行文本情感识别时,包括:
利用BERTbase模型分别对事实描述、情境描述以及两者的拼接进行特征提取和情感分类,得到的分类结果;
其中,在进行特征提取时,包括:
所述BERTbase模型利用Transformer的自注意力机制对输入序列进行并行处理,同时获得每个词在序列内的相关性,捕捉到序列内部的特征依赖关系;
在进行情感分类时,包括:
对于每个输入序列,经过特征提取后的输出维度为128×768,将分类标记对应的输出特征经过全连接层映射到输出空间,得到每个文本的分类结果。
3.根据权利要求2所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在通过自注意力机制捕捉特征依赖关系时,包括:
通过使用输入向量对应的Query与Key计算点积,得到每个词向量与其他词向量的相关性,经过Softmax归一化之后,得到每个位置的词向量对应的注意力分布,将对应位置的注意力值与Value相乘后再求和,如公式1所示:
式中,dk是为了使得到的注意力图的元素符合均值为0,方差为1的标准高斯分布,Q为输入向量对应的Query,K为输入向量对应的Key,V为输入向量对应的Value;
其中,每个词向量得到的向量表示都融合了输入序列中其他位置的语义信息。
4.根据权利要求1所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在引入通道注意力模块时,包括:
将所述通道注意力模块引入ResNet18中,得到引入通道注意力机制的ResNet18,通过显示地构建通道之间的相关性,对每个通道赋予不同的重要性权重;
在所述通道注意力模块中,在对每个输入特征图使用全局平均池化后,通过使用一维卷积核捕获每个通道与其临近的通道之间的局部交互信息;
其中,一维卷积核尺寸决定了每次计算局部交互所覆盖的通道数,通过一维卷积核尺寸k和通道数C间的非线性映射关系,得到所述一维卷积核k的尺寸。
5.根据权利要求4所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在引入通道注意力模块时,还包括:
将所述通道注意力模块通过添加一个Identity连接的方式,整合到ResNet18的每一个Basic block中残差连接之前的位置;
其中,所述Identity连接与经过所述通道注意力模块的输出通过对应位置元素相加的方式进行连接,并使用sigmoid函数对注意力权重进行处理,转化为0~1之间的值。
6.根据权利要求4所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在引入重要性权重生成的方法时,包括:
通过使用所述引入通道注意力机制的ResNet18得到每个样本的面部特征表示后,将特征向量送入全连接层和sigmoid函数,为每个样本分配重要性权重,权重较低的样本表示其情感类别与标签不符,会被重新识别和打标签;
其中,在为每个样本分配重要性权重时,包括:
对经过骨干网络得到的特征向量重新分配重要性权重,面部表情完整且情感表达强烈的帧会被分配较高的权重,面部姿态处于侧脸或情感表达不明确的帧会被赋予较低的权重,将特征向量与对应的权重结合,完成针对表情不确定性的特征向量加权。
7.根据权利要求4所述的基于宽时间范畴的多模态情境情感识别方法,其特征在于,在构建基于注意力机制的多模态多分支融合模型时,包括:
通过使用所述引入通道注意力机制的ResNet18,分别对不同模态单独训练,得到每个模态的分类结果,并且引入注意力机制来自适应地为每个模态的分类结果分配权重;
其中,在训练的过程中只保留有效的数据进行学习;在多模态融合阶段,将缺失的模态数据使用零矩阵代替。
8.一种基于宽时间范畴的多模态情境情感识别系统,其特征在于,包括:
情感数据集构建单元:用于利用自然环境下的音视频资源,构建基于情境的视频情感数据集;
文本情感识别单元:用于基于BERT模型对所述视频情感数据集进行文本情感识别;
面部情感识别单元:用于通过引入通道注意力机制,对人物面部情感进行识别;
最终情感识别单元:用于构建基于注意力机制的多模态多分支融合模型,并通过所述多模态多分支融合模型得到最终的情感识别结果;
其中,在构建基于情境的视频情感数据集时,包括:数据采集、情感类别定义、数据处理和以及数据标注;
其中,所述数据采集,包括:
筛选出与当前真实环境下的条件差别不大的影视剧,使用视频编辑工具在视频帧级别截取目标片段,将单个数据的时长控制在预设时间内,并且在尽可能减少镜头切换次数的基础上保留有用的场景信息;
所述情感类别定义,包括:
以EMOTIC数据集定义的情感类别为基准,加入了IEMOCAP中的沮丧情感和遗憾情感,得到多种情感类别;
所述数据处理,包括:
使用YOLO V5和Deepsort结合的多人目标追踪方法,识别并追踪视频当中所有出现的人,为每一个人的检测框赋予一个编号,并得到每一个检测框在图像中的坐标和宽高;基于检测到了目标人物在图像中的位置,利用MTCNN算法提取出人脸部分,并使用了libfacedetection算法进行查漏补缺;
所述数据标注,包括:
对每一个样本进行情感标注和文字标注;
其中,所述情感标注,包括:基于定义的多种情感类别,采用多标签的方式给所述每一个样本标注情感;
所述文字标注,包括:被标注者在当前视频片段中的台词、事实描述以及情境描述;
在对人物面部情感进行识别时,包括:
在模型训练阶段,从每个人脸图像序列中随机抽取N帧图像作为输入;
在测试阶段,将整段视频的图像序列作为输入;
面部情感识别部分选用ResNet18作为图像特征提取的基础网络,并引入通道注意力模块和重要性权重生成的方法,最后使用滑动融合的方式,根据每一帧图像对应的重要性权重进行时序上的融合,将融合结果送入分类器得到最终的分类结果。
CN202310985679.3A 2023-08-07 2023-08-07 一种基于宽时间范畴的多模态情境情感识别方法及系统 Active CN117149944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310985679.3A CN117149944B (zh) 2023-08-07 2023-08-07 一种基于宽时间范畴的多模态情境情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310985679.3A CN117149944B (zh) 2023-08-07 2023-08-07 一种基于宽时间范畴的多模态情境情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN117149944A CN117149944A (zh) 2023-12-01
CN117149944B true CN117149944B (zh) 2024-04-23

Family

ID=88910993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310985679.3A Active CN117149944B (zh) 2023-08-07 2023-08-07 一种基于宽时间范畴的多模态情境情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN117149944B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117519488B (zh) * 2024-01-05 2024-03-29 四川中电启明星信息技术有限公司 一种对话机器人的对话方法及其对话系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784782A (zh) * 2021-01-28 2021-05-11 上海理工大学 一种基于多视角双注意网络的三维物体识别方法
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法
CN113569805A (zh) * 2021-08-13 2021-10-29 北京建筑大学 动作识别方法、装置、电子设备和存储介质
CN113591525A (zh) * 2020-10-27 2021-11-02 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
CN113947702A (zh) * 2021-09-15 2022-01-18 复旦大学 一种基于情境感知的多模态情感识别方法和系统
US11281945B1 (en) * 2021-02-26 2022-03-22 Institute Of Automation, Chinese Academy Of Sciences Multimodal dimensional emotion recognition method
WO2022156317A1 (zh) * 2021-01-25 2022-07-28 北京市商汤科技开发有限公司 视频帧处理方法及装置、电子设备和存储介质
CN114821740A (zh) * 2022-05-17 2022-07-29 中国科学技术大学 基于多模态信息融合的情感识别方法、装置及电子设备
CN115641543A (zh) * 2022-12-26 2023-01-24 北京科技大学 一种多模态抑郁情绪识别方法及装置
CN116229323A (zh) * 2023-03-09 2023-06-06 西南石油大学 一种基于改进的深度残差网络的人体行为识别方法
CN116524960A (zh) * 2023-05-08 2023-08-01 华东理工大学 一种基于混合熵下采样和集成分类器的语音情感识别系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019103484A1 (ko) * 2017-11-24 2019-05-31 주식회사 제네시스랩 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591525A (zh) * 2020-10-27 2021-11-02 蓝海(福建)信息科技有限公司 一种深度融合面部表情和语音的驾驶员路怒症识别方法
WO2022156317A1 (zh) * 2021-01-25 2022-07-28 北京市商汤科技开发有限公司 视频帧处理方法及装置、电子设备和存储介质
CN112784782A (zh) * 2021-01-28 2021-05-11 上海理工大学 一种基于多视角双注意网络的三维物体识别方法
US11281945B1 (en) * 2021-02-26 2022-03-22 Institute Of Automation, Chinese Academy Of Sciences Multimodal dimensional emotion recognition method
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法
CN113569805A (zh) * 2021-08-13 2021-10-29 北京建筑大学 动作识别方法、装置、电子设备和存储介质
CN113947702A (zh) * 2021-09-15 2022-01-18 复旦大学 一种基于情境感知的多模态情感识别方法和系统
CN114821740A (zh) * 2022-05-17 2022-07-29 中国科学技术大学 基于多模态信息融合的情感识别方法、装置及电子设备
CN115641543A (zh) * 2022-12-26 2023-01-24 北京科技大学 一种多模态抑郁情绪识别方法及装置
CN116229323A (zh) * 2023-03-09 2023-06-06 西南石油大学 一种基于改进的深度残差网络的人体行为识别方法
CN116524960A (zh) * 2023-05-08 2023-08-01 华东理工大学 一种基于混合熵下采样和集成分类器的语音情感识别系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Incorporating structured emotion commonsense knowledge and interpersonal relation into context-aware emotion recognition;Jing Chen等;《Applied Intelligence》;20220606;第53卷;第4201-4217页 *
Mo Sun等.Multi-modal Fusion Using Spatio-temporal and Static Features for Group Emotion Recognition.《ICMI '20: Proceedings of the 2020 International Conference on Multimodal Interaction》.2020,第835-840页. *
基于多模态表示的情绪识别算法研究;舒谦;《中国优秀硕士学位论文全文数据库基础科学辑》;20230615(第6期);第A006-130页 *

Also Published As

Publication number Publication date
CN117149944A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN108804530B (zh) 对图像的区域加字幕
CN111582241B (zh) 视频字幕识别方法、装置、设备及存储介质
CN110276248B (zh) 一种基于样本权值分配和深度学习的人脸表情识别方法
CN107423398A (zh) 交互方法、装置、存储介质和计算机设备
Zhan et al. RSVG: Exploring data and models for visual grounding on remote sensing data
CN109783666A (zh) 一种基于迭代精细化的图像场景图谱生成方法
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN110263822A (zh) 一种基于多任务学习方式的图像情感分析方法
CN117149944B (zh) 一种基于宽时间范畴的多模态情境情感识别方法及系统
CN112036276A (zh) 一种人工智能视频问答方法
CN110705490B (zh) 视觉情感识别方法
CN108073851A (zh) 一种抓取手势识别的方法、装置及电子设备
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
CN112733764A (zh) 一种基于多模态识别视频情感信息的方法
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN109344911B (zh) 一种基于多层lstm模型的并行处理分类方法
CN114661951A (zh) 一种视频处理方法、装置、计算机设备以及存储介质
Wu et al. Sentimental visual captioning using multimodal transformer
CN113378919A (zh) 融合视觉常识和增强多层全局特征的图像描述生成方法
Yang et al. GID-Net: Detecting human-object interaction with global and instance dependency
Vijayaraju Image retrieval using image captioning
Ling et al. A facial expression recognition system for smart learning based on YOLO and vision transformer
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant