CN112559835A - 多模态情感识别方法 - Google Patents

多模态情感识别方法 Download PDF

Info

Publication number
CN112559835A
CN112559835A CN202110200140.3A CN202110200140A CN112559835A CN 112559835 A CN112559835 A CN 112559835A CN 202110200140 A CN202110200140 A CN 202110200140A CN 112559835 A CN112559835 A CN 112559835A
Authority
CN
China
Prior art keywords
features
audio
text
video
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110200140.3A
Other languages
English (en)
Other versions
CN112559835B (zh
Inventor
陶建华
孙立才
刘斌
柳雪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110200140.3A priority Critical patent/CN112559835B/zh
Publication of CN112559835A publication Critical patent/CN112559835A/zh
Application granted granted Critical
Publication of CN112559835B publication Critical patent/CN112559835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及多模态情感识别方法,包括:分别提取帧级别的音频特征、帧级别的视频特征和词级别的文本特征;将提取出的特征分别输入到特征编码器进行建模,得到编码后的音频编码、视频编码和文本编码特征;将编码后的特征先分别经过各自的自注意力模块对模态内的交互关系进行建模,将其进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模;对上述自注意力模块和跨模态注意力模块的输出进行时序池化得到各模态内的全局交互特征,两两模态间的全局交互特征;利用注意力机制分别将这上述模态内和模态间的全局交互特征进行加权融合得到整个待测样本模态内和模态间的特征表示,将二者进行拼接经过全连接网络得到最终的情感分类结果。

Description

多模态情感识别方法
技术领域
本申请涉及数据处理领域,尤其涉及多模态情感识别方法。
背景技术
传统的情感识别往往局限于单一模态,比如语音情感识别,表情识别和文本情感分析等。随着计算机科学技术的发展,基于音视频和文本的多模态情感识别方法应运而生,未来在智能家居、教育以及金融等领域将会有着广泛的应用。现有的多模态情感识别方法通常采用特征层融合或者决策层融合对多个模态的信息进行整合。这些方法都有着各自的优缺点。特征层融合虽然能对模态间的交互进行建模但需要事先在时序上对齐不同模态的特征,决策层融合则与之相反,它不需要模态对齐信息,付出的代价是缺乏对模态间交互信息的有效挖掘,因此在融合多模态信息时如何有效地结合二者的优点就显得十分重要。此外,除了多模态融合外,在模型架构方面,目前的多模态情感识别方法主要采用循环神经网络用于捕获时序上下文信息,相较于注意力机制来说,对于长序列上下文建模显得捉襟见肘。
授权公告号CN 107945790 B公开了一种情感识别方法和情感识别系统,其中,该方法包括:获取当前语音信号;提取当前语音信号的语音特征,语音特征包括:声学特征和文本特征;根据语音特征和预设深度模型,识别当前语音信号对应的情感类型,情感类型包括:正面、中性和负面,本发明的技术方案能够通过语音信号识别出对应的情感类型,以对服务人员进行监督提高服务水平。
申请公布号CN 108805089 A公开一种基于多模态的情绪识别方法,包括数据采集设备、输出设备、情绪分析软件系统,情绪分析软件系统通过对数据采集设备得到的数据进行综合分析推理,最终把结果输出至输出设备上;具体步骤为:基于面部图像表情情绪识别步骤、基于语音信号情绪识别步骤、基于文本语义情感分析步骤、基于人体姿态情绪识别步骤、基于生理信号情绪识别步骤,以及基于多轮对话语义理解步骤和基于时序多模态情绪语义融合关联判断步骤。本发明突破性的打通了五大单模态的情绪识别,创新性的利用深度神经网络将多个单模态的信息由神经网络编码、深度的关联和理解后进行综合判断,大幅度的提高了准确率,适用于绝大多数一般问询互动类应用场景。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种多模态情感识别方法,包括:
S1:输入待测样本的音频文件、视频文件及对应的文本文件,分别对所述音频文件、视频文件和文本文件进行特征提取,得到帧级别的音频特征、帧级别的视频特征和词级别的文本特征;
S2:将所述帧级别的音频特征、帧级别的视频特征和词级别的文本特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征;
S3:一方面将所述音频编码特征、视频编码特征和文本编码特征分别经过各自的自注意力模块对模态内的交互关系进行建模,得到,模态内特征,所述模态内特征包括:模态内音频特征、模态内视频特征和模态内文本特征;
S4:另一方面将所述音频编码特征、视频编码特征和文本编码特征进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模,得到,模态间特征,所述模态间特征包括:音频-视频交互特征、音频-文本交互特征和视频-文本交互特征;
S5:对所述模态内特征和所述模态间特征分别进行时序池化得到全局模态内特征,全局模态间特征;所述全局模态内特征包括:全局模态内音频特征、全局模态内视频特征和全局模态内文本特征;所述全局模态间特征包括:全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征;
S6:将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
优选地,所述分别对所述音频文件、视频文件和文本文件进行特征提取的具体方法包括:
对所述音频文件进行切分得到帧级别的短时音频片段;将所述短时音频片段分别输入至预先训练好的音频特征提取网络,得到所述帧级别的音频特征;
利用人脸检测工具从所述视频文件提取帧级别的人脸图像;将所述帧级别的人脸图像分别输入至预先训练好的人脸表情特征提取网络,得到所述帧级别的视频特征;
利用分词工具对所述文本文件进行分词;将所述分词后的文本文件输入至预先训练好的文本特征提取网络,得到所述词级别的文本特征。
优选地,将所述帧级别的音频特征输入到音频特征编码器进行局部上下文建模,得到音频编码特征的具体方法为:
对所述帧级别的音频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征;
将所述帧级别的视频特征输入到视频特征编码器进行局部上下文建模,得到视频编码特征的具体方法为:
对所述帧级别的视频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征;
将所述词级别的文本特征输入到文本特征编码器进行局部上下文建模,得到文本编码特征的具体方法为:
对所述词级别的文本特征经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征。
优选地,将所述音频编码特征经过音频自注意力模块,对模态内的交互关系进行建模,得到模态内音频特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将所述音频编码位置特征依次输入至音频自注意力层和音频前馈层中,对模态内交互关系进行建模得到模态内音频特征。
优选地,将所述视频编码特征经过视频自注意力模块,对模态内的交互关系进行建模,得到模态内视频特征的具体方法为:
将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;将所述视频编码位置特征依次输入至视频自注意力层和视频前馈层中,对模态内交互关系进行建模得到模态内视频特征。
优选地,将所述文本编码特征经过文本自注意力模块,对模态内的交互关系进行建模,得到模态内文本特征的具体方法为:
将文本编码特征和正余弦波编码的文本固定位置特征相加,得到,文本编码位置特征;将所述文本编码位置特征依次输入至文本自注意力层和文本前馈层中,对模态内交互关系进行建模得到模态内文本特征。
优选地,将所述音频编码特征、视频编码特征进行排序组合输入至音频-视频跨模态注意力模块对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;
将所述音频编码位置特征和视频编码位置特征依次输入至音频-视频跨模态注意力层和音频-视频跨模态前馈层中,对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征。
优选地,将所述音频编码特征、文本编码特征进行排序组合输入至音频-文本跨模态注意力模块对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述音频编码位置特征和文本编码位置特征依次输入至音频-文本跨模态注意力层和音频-文本跨模态前馈层中,对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征。
优选地,将所述视频编码特征、文本编码特征进行排序组合输入至视频-文本跨模态注意力模块对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征的具体方法为:
将视频编码特征和正余弦波编码的音频固定位置特征相加,得到,视频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述视频编码位置特征和文本编码位置特征依次输入至视频-文本跨模态注意力层和视频-文本跨模态前馈层中,对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征。
优选地,将所述全局模态内特征进行加权融合的模态内加权融合系数的具体计算公式如下:
全局模态内音频特征表示为
Figure 549385DEST_PATH_IMAGE001
、全局模态内视频特征表示为
Figure 83134DEST_PATH_IMAGE002
和全局模态内文本特征表示为
Figure DEST_PATH_IMAGE003
Figure 137678DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
为模态内加权融合系数;
Figure 98681DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
为常数;
Figure 809148DEST_PATH_IMAGE008
的具体形式为:tanh或者relu激活函数
将所述全局模态间特征进行加权融合的模态间加权融合系数的具体计算公式如下:
全局音频-视频交互特征
Figure DEST_PATH_IMAGE009
、全局音频-文本交互特征
Figure 130277DEST_PATH_IMAGE010
和全局视频-文本交互特征
Figure DEST_PATH_IMAGE011
Figure 570485DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
为模态间加权融合系数;
Figure 436810DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
为常数;
Figure 900153DEST_PATH_IMAGE016
的具体形式为:tanh或者relu激活函数。
第二方面,本申请提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现第一方面或第一方面的任意可能的实现方式中的多模态情感识别方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本申请实施例提供的该方法,通过自注意力机制和跨模态注意力机制显式地刻画了不同模态内和两两模态间的深层交互关系,达到了充分整合多模态信息的目的;相较于传统的特征层融合方法,避免了其需要事先对不同模态信息进行对齐的问题,相较于决策层方法来说,有效地对模态间的交互关系进行建模。此外,自注意力和跨模态注意力机制可以捕获全局上下文依赖关系,较好地解决了传统的循环神经网络在长序列时序建模方面能力有限的问题,进一步提高了多模态情感识别的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的多模态情感识别方法流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1:
如图1所示,为本申请实施例提供的多模态情感识别方法,包括:
S1:输入待测样本的音频文件、视频文件及对应的文本文件,分别对所述音频文件、视频文件和文本文件进行特征提取,得到帧级别的音频特征、帧级别的视频特征和词级别的文本特征。
在一些实施例中,所述分别对所述音频文件、视频文件和文本文件进行特征提取的具体方法包括:
对所述音频文件进行切分得到帧级别的短时音频片段;将所述短时音频片段分别输入至预先训练好的音频特征提取网络,得到所述帧级别的音频特征;
利用人脸检测工具从所述视频文件提取帧级别的人脸图像;将所述帧级别的人脸图像分别输入至预先训练好的人脸表情特征提取网络,得到所述帧级别的视频特征;
利用分词工具对所述文本文件进行分词;将所述分词后的文本文件输入至预先训练好的文本特征提取网络,得到所述词级别的文本特征。
S2:将所述帧级别的音频特征、帧级别的视频特征和词级别的文本特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征。
在一些实施例中,将所述帧级别的音频特征输入到音频特征编码器进行局部上下文建模,得到音频编码特征的具体方法为:
对所述帧级别的音频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征;
将所述帧级别的视频特征输入到视频特征编码器进行局部上下文建模,得到视频编码特征的具体方法为:
对所述帧级别的视频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征;
将所述词级别的文本特征输入到文本特征编码器进行局部上下文建模,得到文本编码特征的具体方法为:
对所述词级别的文本特征经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征。
S3:一方面将所述音频编码特征、视频编码特征和文本编码特征分别经过各自的自注意力模块对模态内的交互关系进行建模,得到,模态内特征,所述模态内特征包括:模态内音频特征、模态内视频特征和模态内文本特征。
在一些实施例中,将所述音频编码特征经过音频自注意力模块,对模态内的交互关系进行建模,得到模态内音频特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将所述音频编码位置特征依次输入至音频自注意力层和音频前馈层中,对模态内交互关系进行建模得到模态内音频特征;
将所述视频编码特征经过视频自注意力模块,对模态内的交互关系进行建模,得到模态内视频特征的具体方法为:
将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;将所述视频编码位置特征依次输入至视频自注意力层和视频前馈层中,对模态内交互关系进行建模得到模态内视频特征;
将所述文本编码特征经过文本自注意力模块,对模态内的交互关系进行建模,得到模态内文本特征的具体方法为:
将文本编码特征和正余弦波编码的文本固定位置特征相加,得到,文本编码位置特征;将所述文本编码位置特征依次输入至文本自注意力层和文本前馈层中,对模态内交互关系进行建模得到模态内文本特征。
S4:另一方面将所述音频编码特征、视频编码特征和文本编码特征进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模,得到,模态间特征,所述模态间特征包括:音频-视频交互特征、音频-文本交互特征和视频-文本交互特征。
在一些实施例中,将所述音频编码特征、视频编码特征进行排序组合输入至音频-视频跨模态注意力模块对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;
将所述音频编码位置特征和视频编码位置特征依次输入至音频-视频跨模态注意力层和音频-视频跨模态前馈层中,对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征;
将所述音频编码特征、文本编码特征进行排序组合输入至音频-文本跨模态注意力模块对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述音频编码位置特征和文本编码位置特征依次输入至音频-文本跨模态注意力层和音频-文本跨模态前馈层中,对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征;
将所述视频编码特征、文本编码特征进行排序组合输入至视频-文本跨模态注意力模块对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征的具体方法为:
将视频编码特征和正余弦波编码的音频固定位置特征相加,得到,视频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述视频编码位置特征和文本编码位置特征依次输入至视频-文本跨模态注意力层和视频-文本跨模态前馈层中,对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征。
S5:对所述模态内特征和所述模态间特征分别进行时序池化得到全局模态内特征,全局模态间特征;所述全局模态内特征包括:全局模态内音频特征、全局模态内视频特征和全局模态内文本特征;所述全局模态间特征包括:全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征。
S6:将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
在一些实施例中,将所述全局模态内特征进行加权融合的模态内加权融合系数的具体计算公式如下:
全局模态内音频特征表示为
Figure DEST_PATH_IMAGE017
、全局模态内视频特征表示为
Figure 510125DEST_PATH_IMAGE002
和全局模态内文本特征表示为
Figure 555573DEST_PATH_IMAGE018
Figure 796061DEST_PATH_IMAGE004
其中,
Figure 809017DEST_PATH_IMAGE005
为模态内加权融合系数;
Figure 425943DEST_PATH_IMAGE006
Figure 778427DEST_PATH_IMAGE007
为常数;
Figure 517713DEST_PATH_IMAGE008
的具体形式为:可以是常用的tanh或者relu等激活函数,对f的要求没有具体限制。
利用模态内加权融合系数对全局模态内特征进行加权得到待测样本模态内特征表示
Figure 690068DEST_PATH_IMAGE019
,具体如下:
Figure 907423DEST_PATH_IMAGE020
将所述全局模态间特征进行加权融合的模态间加权融合系数的具体计算公式如下:
全局音频-视频交互特征
Figure 114413DEST_PATH_IMAGE009
、全局音频-文本交互特征
Figure 5359DEST_PATH_IMAGE010
和全局视频-文本交互特征
Figure 665011DEST_PATH_IMAGE011
Figure 686056DEST_PATH_IMAGE021
其中,
Figure 13132DEST_PATH_IMAGE013
为加模态间权融合系数;
Figure 31904DEST_PATH_IMAGE022
Figure 241168DEST_PATH_IMAGE023
为常数;
Figure 738009DEST_PATH_IMAGE024
的具体形式为:可以是常用的tanh或者relu等激活函数,对f的要求没有具体限制。
利用模态间加权融合系数对全局模态间特征进行加权得到待测样本模态间特征表示
Figure 919591DEST_PATH_IMAGE025
,具体如下:
Figure 171581DEST_PATH_IMAGE026
实施例2:
本申请还公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述实施例所述的方法的步骤。
实施例3:
多模态情感识别方法包括以下步骤:
S1-1:输入待测音频、待测视频以及待测文本,所述待测视音频、待测视频以及待测文本为三种不同模态。
本实施例中,待测音频、待测视频是同一个片段中的视频和音频,待测文本和待测音频、待测视频相对应,音频、视频和文本分别为这段视频中的三种模态。
本实施例中,本实施例中需要对这三种模态的数据进行分析,以检测输入片段中的人物所处的情感状态。
根据上述方案,进一步,可以输入一个片段,该片段中有一个人物说话,这一个人物说话的连续画面就是待测视频,该片段中出现的音频就是待测音频,该片段中的视频和音频中对应的文本就是待测文本,例如该片段中一个人说了一句话,这个人说话的画面就是待测视频,这个人说话的语音就是待测音频,这个人说的话的文字内容就是待测文本。
S1-2:对所述待测音频、待测视频以及待测文本分别进行特征提取,得到帧级别的音频特征
Figure 805825DEST_PATH_IMAGE027
、帧级别的视频特征
Figure 371935DEST_PATH_IMAGE028
以及词级别的文本特征
Figure 955495DEST_PATH_IMAGE029
本实施例中,对待测音频、待测视频以及待测文本进行特征提取是将待测音频、待测视频以及待测文本输入到预先训练好的神经网络中进行隐层特征提取,帧级别的音频特征指的是经过短时切分的每一帧音频的特征,帧级别的视频特征指的是视频中每一帧图像的特征,词级别的文本特征指的是文本中每个词语对应的特征。
本实施例中,对所述待测音频、待测视频以及待测文本分别进行特征提取,得到帧级别的音频特征
Figure 316069DEST_PATH_IMAGE030
、帧级别的视频特征
Figure 499925DEST_PATH_IMAGE031
以及词级别的文本特征
Figure 135306DEST_PATH_IMAGE029
的具体步骤为:
S1-2-1:将所述待测样本的音频进行切分然后输入至预先训练好的音频特征提取网络中,从所述待样本的音频中提取出所述帧级别的音频特征
Figure 822639DEST_PATH_IMAGE030
本实施例中,将所述待测样本的音频进行切分然后输入至预先训练好的音频特征提取网络中,从所述待样本的音频中提取出所述帧级别的音频特征
Figure 354115DEST_PATH_IMAGE030
的具体步骤包括:
S1-2-1-1:将待测样本的音频以1s帧长和0.1s帧移进行滑动切分得到多帧的短时音频片段。
S1-2-1-2:将上述短时音频片段分别输入预先训练好的音频特征提取网络中,提取其中间层输出得到帧级别的音频特征
Figure 8956DEST_PATH_IMAGE030
本实施例中,音频特征提取网络可以采用常见的特征提取网络,例如VGGish,本实施例不做限制。
S1-2-2:将所述待测样本的视频进行分帧提取人脸图像然后输入至预先训练好的人脸表情特征提取网络中,从所述待样本的视频中提取出所述帧级别的视频特征
Figure 182448DEST_PATH_IMAGE032
本实施例中,将所述待测样本的视频进行切分然后输入至预先训练好的视频特征提取网络中,从所述待样本的视频中提取出所述帧级别的视频特征
Figure 927550DEST_PATH_IMAGE032
的具体步骤包括:
S1-2-2-1:利用人脸检测工具从所述待测样本的视频中提取每一帧的人脸图像;
S1-2-2-2:将所述帧级别的人脸图像分别输入至所述预先训练好的人脸表情特征提取网络,得到所述帧级别的视频特征
Figure 692244DEST_PATH_IMAGE033
本实施例中,人脸表情特征提取网络可以采用常见的特征提取网络,例如在人脸表情数据库上预训练的ResNet,本实施例不做限制。
S1-2-3:将所述待测样本的文本进行分词然后输入至预先训练好的文本特征提取网络中,从所述待测样本的文本中提取出所述词级别的文本特征
Figure 788376DEST_PATH_IMAGE034
本实施例中,将所述待测样本的文本进行分词然后输入至预先训练好的文本特征提取网络中,从所述待测样本的文本中提取出所述词级别的文本特征
Figure 968822DEST_PATH_IMAGE029
的具体步骤包括:
S1-2-3-1:利用分词工具对所述待测语音的文本进行分词;
本实施例中,分词工具采用常用的分词工具,本实施例不做限制。
S1-2-3-2:将所述分词后的文本输入至所述预先训练好的文本特征提取网络,得到所述词级别的文本特征
Figure 896326DEST_PATH_IMAGE029
本实施例中,文本特征提取网络可以采用常见的特征提取网络,例如BERT,本实施例不做限制。
S2:将提取出的三模态特征
Figure 769605DEST_PATH_IMAGE030
Figure 149770DEST_PATH_IMAGE031
Figure 133907DEST_PATH_IMAGE029
分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征
Figure 666650DEST_PATH_IMAGE035
、视频编码特征
Figure 710830DEST_PATH_IMAGE036
和文本编码特征
Figure 578292DEST_PATH_IMAGE037
本实施例中,将提取出的三模态特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征的具体步骤为:
S2-1:对所述帧级别的音频特征
Figure 366119DEST_PATH_IMAGE030
分别经过两层的一维卷积网络和一维池化网络以及一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征
Figure 2637DEST_PATH_IMAGE035
本实施例中,一维卷积网络和一维池化网络的卷积核尺寸和步长均为3。
S2-2:对所述帧级别的视频特征
Figure 217718DEST_PATH_IMAGE033
分别经过两层的一维卷积网络和一维池化网络以及一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征
Figure 306896DEST_PATH_IMAGE038
本实施例中,一维卷积网络和一维池化网络的卷积核尺寸和步长均为3。
S2-3:对所述词级别的文本特征
Figure 898415DEST_PATH_IMAGE039
经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征
Figure 376057DEST_PATH_IMAGE037
S3:将所述音频编码特征
Figure 824356DEST_PATH_IMAGE035
、视频编码特征
Figure 604093DEST_PATH_IMAGE040
和文本编码特征
Figure 796040DEST_PATH_IMAGE037
、先分别经过各自的自注意力模块对模态内的交互关系进行建模得到
Figure 79254DEST_PATH_IMAGE041
Figure 964033DEST_PATH_IMAGE042
Figure 965487DEST_PATH_IMAGE043
本实施例中,
Figure 180699DEST_PATH_IMAGE044
为自注意力模块中的层数,其值可根据实际情况进行设置,常用范围为1-4。
本实施例中,将所述音频编码特征
Figure 646315DEST_PATH_IMAGE035
、视频编码特征
Figure 639679DEST_PATH_IMAGE045
和文本编码特征
Figure 925167DEST_PATH_IMAGE037
先分别经过各自的自注意力模块对模态内的交互关系进行建模的具体步骤是:
S3-1:将音频编码特征输入
Figure 662179DEST_PATH_IMAGE035
到音频自注意力模块对音频特征的模态内交互关系进行建模得到
Figure 982302DEST_PATH_IMAGE046
本实施例中,将音频编码特征输入
Figure 880988DEST_PATH_IMAGE035
到音频自注意力模块对音频特征的模态内交互关系进行建模的具体步骤是:
S3-1-1:将音频编码特征输入
Figure 168618DEST_PATH_IMAGE035
和蕴含位置信息的特征
Figure 240479DEST_PATH_IMAGE047
相加得到
Figure 352792DEST_PATH_IMAGE048
本实施例中,
Figure 750275DEST_PATH_IMAGE049
采用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征。
S3-1-2:将
Figure 948038DEST_PATH_IMAGE048
输入至
Figure 89170DEST_PATH_IMAGE050
层的自注意力层和前馈层中对全局交互关系进行建模得到
Figure 321568DEST_PATH_IMAGE051
。具体来说,从
Figure 375106DEST_PATH_IMAGE052
Figure 325744DEST_PATH_IMAGE053
的计算过程如下:
Figure 4987DEST_PATH_IMAGE054
其中,
Figure 91892DEST_PATH_IMAGE055
表示层归一化,
Figure 565599DEST_PATH_IMAGE056
表示自注意力层,
Figure 534692DEST_PATH_IMAGE057
表示前馈层。
Figure 955309DEST_PATH_IMAGE058
的计算过程如下:
Figure 228812DEST_PATH_IMAGE059
其中,
Figure 76682DEST_PATH_IMAGE060
是神经网络中的一种激活函数。
Figure 798651DEST_PATH_IMAGE061
Figure 757380DEST_PATH_IMAGE062
Figure 881193DEST_PATH_IMAGE063
分别表示施加线性变换的矩阵。
Figure 899965DEST_PATH_IMAGE064
的计算过程如下:
Figure 46912DEST_PATH_IMAGE065
其中,
Figure 871649DEST_PATH_IMAGE066
表示神经网络中的Relu激活函数,
Figure 787652DEST_PATH_IMAGE067
Figure 242905DEST_PATH_IMAGE068
表示施加线性变换的矩阵,
Figure 690198DEST_PATH_IMAGE069
Figure 990729DEST_PATH_IMAGE070
表示对应的偏置。
S3-2:将视频编码特征输入
Figure 823556DEST_PATH_IMAGE071
到视频自注意力模块对视频特征的模态内交互关系进行建模得到
Figure 184130DEST_PATH_IMAGE072
本实施例中,将视频编码特征输入
Figure 102407DEST_PATH_IMAGE071
到视频自注意力模块对视频特征的模态内交互关系进行建模得到
Figure 206630DEST_PATH_IMAGE072
的具体步骤是:
S3-2-1:将视频编码特征输入
Figure 159542DEST_PATH_IMAGE071
和蕴含位置信息的特征
Figure 691018DEST_PATH_IMAGE073
相加得到
Figure 299853DEST_PATH_IMAGE074
本实施例中,
Figure 253772DEST_PATH_IMAGE075
采用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征。
S3-2-2:将
Figure 998874DEST_PATH_IMAGE076
输入至
Figure 763568DEST_PATH_IMAGE044
层的自注意力层和前馈层中对全局交互关系进行建模得到
Figure 859700DEST_PATH_IMAGE077
。具体来说,从
Figure 305724DEST_PATH_IMAGE078
Figure 233229DEST_PATH_IMAGE079
的计算过程如下:
Figure 106507DEST_PATH_IMAGE080
其中,
Figure 221094DEST_PATH_IMAGE081
表示层归一化,
Figure 736389DEST_PATH_IMAGE082
表示自注意力层,
Figure 456083DEST_PATH_IMAGE083
表示前馈层。
Figure 313312DEST_PATH_IMAGE082
Figure 649615DEST_PATH_IMAGE084
的计算过程同S3-1-2中所示。
S3-3:将文本编码特征输入
Figure 437443DEST_PATH_IMAGE037
到文本自注意力模块对视频特征的模态内交互关系进行建模得到
Figure 277223DEST_PATH_IMAGE085
本实施例中,将文本编码特征输入
Figure 554620DEST_PATH_IMAGE037
到文本自注意力模块对文本特征的模态内交互关系进行建模得到
Figure 847061DEST_PATH_IMAGE086
的具体步骤是:
S3-3-1:将文本编码特征输入
Figure 235317DEST_PATH_IMAGE037
和蕴含位置信息的特征
Figure 929604DEST_PATH_IMAGE087
相加得到
Figure 630100DEST_PATH_IMAGE088
本实施例中,
Figure 144258DEST_PATH_IMAGE089
采用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征。
S3-3-2:将
Figure 336205DEST_PATH_IMAGE090
输入至
Figure 884998DEST_PATH_IMAGE091
层的自注意力层和前馈层中对全局交互关系进行建模得到
Figure 504198DEST_PATH_IMAGE092
。具体来说,从
Figure 505652DEST_PATH_IMAGE093
Figure 704552DEST_PATH_IMAGE094
的计算过程如下:
Figure 170169DEST_PATH_IMAGE095
其中,
Figure 897953DEST_PATH_IMAGE096
表示层归一化,
Figure 199753DEST_PATH_IMAGE097
表示自注意力层,
Figure 936764DEST_PATH_IMAGE083
表示前馈层。
Figure 256887DEST_PATH_IMAGE098
Figure 155573DEST_PATH_IMAGE084
的计算过程同S3-1-2中所示。
S4:将频编码特征
Figure 193936DEST_PATH_IMAGE035
、视频编码特征
Figure 469060DEST_PATH_IMAGE071
和文本编码特征
Figure 643689DEST_PATH_IMAGE037
进行两两组合输入至跨模态注意力模块对两两模态间的交互关系进行建模得到
Figure 978856DEST_PATH_IMAGE099
Figure 442198DEST_PATH_IMAGE100
Figure 832597DEST_PATH_IMAGE101
本实施例中,
Figure 799416DEST_PATH_IMAGE102
为跨模态注意力模块中的层数,其值可根据实际情况进行设置,常用范围为1-4。
本实施例中,特征
Figure 571063DEST_PATH_IMAGE035
Figure 318439DEST_PATH_IMAGE071
Figure 732103DEST_PATH_IMAGE037
进行两两组合输入至跨模态注意力模块对两两模态间的交互关系进行建模得到
Figure 84587DEST_PATH_IMAGE103
Figure 558293DEST_PATH_IMAGE100
Figure 996228DEST_PATH_IMAGE104
的具体步骤是:
S4-1:将音频编码特征
Figure 416845DEST_PATH_IMAGE035
和视频编码特征
Figure 171306DEST_PATH_IMAGE071
输入到音频-视频跨模态注意力模块中对音频编码特征和视频编码特征的模态间交互关系进行建模得到
Figure 19176DEST_PATH_IMAGE103
本实施例中,将音频编码特征
Figure 741144DEST_PATH_IMAGE105
和视频编码特征
Figure 699873DEST_PATH_IMAGE106
输入到音频-视频跨模态注意力模块中对音频编码特征和视频编码特征的模态间交互关系进行建模得到
Figure 823687DEST_PATH_IMAGE103
的具体步骤是:
S4-1-1:将音频编码特征输入
Figure 576879DEST_PATH_IMAGE107
和蕴含位置信息的特征
Figure 786144DEST_PATH_IMAGE108
相加得到
Figure 814142DEST_PATH_IMAGE109
,将视频编码特征输入
Figure 730146DEST_PATH_IMAGE110
和蕴含位置信息的特征
Figure 228474DEST_PATH_IMAGE111
相加得到
Figure 597138DEST_PATH_IMAGE112
本实施例中,
Figure 959986DEST_PATH_IMAGE113
Figure 996075DEST_PATH_IMAGE114
用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征。
S4-1-2:将
Figure 418966DEST_PATH_IMAGE109
Figure 274927DEST_PATH_IMAGE115
输入至
Figure 644728DEST_PATH_IMAGE116
层的跨模态注意力层和前馈层中对音频编码特征和视频编码特征的模态间交互关系进行建模得到
Figure 597641DEST_PATH_IMAGE117
Figure 129116DEST_PATH_IMAGE118
。具体来说,从
Figure 285422DEST_PATH_IMAGE119
Figure 193336DEST_PATH_IMAGE120
Figure 938438DEST_PATH_IMAGE121
Figure 703131DEST_PATH_IMAGE122
的计算过程如下:
Figure 533684DEST_PATH_IMAGE123
其中,
Figure 42026DEST_PATH_IMAGE124
表示层归一化,
Figure 907214DEST_PATH_IMAGE125
表示跨模态注意力层,
Figure 780492DEST_PATH_IMAGE126
表示前馈层。
Figure 160657DEST_PATH_IMAGE126
的计算过程同S14-1-2中所示。
Figure 410373DEST_PATH_IMAGE127
的计算过程如下:
Figure 176073DEST_PATH_IMAGE128
S4-1-3:将
Figure 220252DEST_PATH_IMAGE129
Figure 290976DEST_PATH_IMAGE118
二者在特征维上进行拼接即可得到
Figure 141121DEST_PATH_IMAGE130
,即
Figure 715321DEST_PATH_IMAGE131
S4-2:将音频编码特征
Figure 992719DEST_PATH_IMAGE132
和文本编码特征
Figure 550739DEST_PATH_IMAGE133
输入到音频-文本跨模态注意力模块中对音频编码特征和文本编码特征间的模态间交互关系进行建模得到
Figure 673416DEST_PATH_IMAGE134
本实施例中,将音频编码特征
Figure 367703DEST_PATH_IMAGE135
和文本编码特征
Figure 19264DEST_PATH_IMAGE133
输入到音频-文本跨模态注意力模块中对音频编码特征和文本编码特征间的模态间交互关系进行建模得到
Figure 346471DEST_PATH_IMAGE136
的具体步骤是:
S4-2-1:将音频编码特征输入
Figure 476101DEST_PATH_IMAGE135
和蕴含位置信息的特征
Figure 290473DEST_PATH_IMAGE137
相加得到
Figure 909674DEST_PATH_IMAGE138
,将文本编码特征输入
Figure 911128DEST_PATH_IMAGE139
和蕴含位置信息的特征
Figure 110028DEST_PATH_IMAGE140
相加得到
Figure 575644DEST_PATH_IMAGE141
本实施例中,
Figure 303429DEST_PATH_IMAGE137
Figure 588917DEST_PATH_IMAGE140
用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征。
S4-2-2:将
Figure 374863DEST_PATH_IMAGE109
Figure 632669DEST_PATH_IMAGE142
输入至
Figure 593672DEST_PATH_IMAGE143
层的跨模态注意力层和前馈层中对音频编码特征和文本编码特征间的模态间交互关系进行建模得到
Figure 632035DEST_PATH_IMAGE117
,
Figure 641580DEST_PATH_IMAGE144
。具体来说,从
Figure 81788DEST_PATH_IMAGE145
,
Figure 151375DEST_PATH_IMAGE146
Figure 427767DEST_PATH_IMAGE147
,
Figure 241002DEST_PATH_IMAGE148
的计算过程如下:
Figure 535717DEST_PATH_IMAGE149
其中,
Figure 41785DEST_PATH_IMAGE150
表示层归一化,
Figure 789161DEST_PATH_IMAGE151
表示跨模态注意力层,
Figure 671667DEST_PATH_IMAGE152
表示前馈层。
Figure 758571DEST_PATH_IMAGE151
Figure 497857DEST_PATH_IMAGE153
的计算过程同S15-1-2中所示。
S4-2-3:将
Figure 670213DEST_PATH_IMAGE129
Figure 136835DEST_PATH_IMAGE154
二者在特征维上进行拼接即可得到
Figure 609405DEST_PATH_IMAGE155
,即
Figure 457275DEST_PATH_IMAGE156
S4-3:将视频编码特征
Figure 179243DEST_PATH_IMAGE157
和文本编码特征
Figure 403551DEST_PATH_IMAGE158
输入到视频-文本跨模态注意力模块中对视频编码特征和文本编码特征间的模态间交互关系进行建模得到
Figure 199469DEST_PATH_IMAGE104
本实施例中,将视频编码特征
Figure 280557DEST_PATH_IMAGE071
和文本编码特征
Figure 427505DEST_PATH_IMAGE037
输入到视频-文本跨模态注意力模块中对视频编码特征和文本编码特征间的模态间交互关系进行建模得到
Figure 252241DEST_PATH_IMAGE159
的具体步骤是:
S4-3-1:将视频编码特征输入
Figure 433824DEST_PATH_IMAGE040
和蕴含位置信息的特征
Figure 357918DEST_PATH_IMAGE160
相加得到
Figure 805211DEST_PATH_IMAGE161
,将文本编码特征输入
Figure 105742DEST_PATH_IMAGE037
和蕴含位置信息的特征
Figure 204148DEST_PATH_IMAGE162
相加得到
Figure 564722DEST_PATH_IMAGE163
本实施例中,
Figure 686262DEST_PATH_IMAGE164
Figure 852801DEST_PATH_IMAGE162
用自然语言处理中Transformer模型使用的经过正余弦波编码的固定位置特征。
S4-3-2:将
Figure 477817DEST_PATH_IMAGE161
Figure 274872DEST_PATH_IMAGE165
输入至
Figure 680446DEST_PATH_IMAGE166
层的跨模态注意力层和前馈层中对视频编码特征和文本编码特征间的模态间交互关系进行建模得到
Figure 588359DEST_PATH_IMAGE167
Figure 642116DEST_PATH_IMAGE168
。具体来说,从
Figure 344493DEST_PATH_IMAGE169
Figure 440625DEST_PATH_IMAGE170
的计算过程如下:
Figure 948966DEST_PATH_IMAGE171
其中,
Figure 548575DEST_PATH_IMAGE172
表示层归一化,
Figure 484170DEST_PATH_IMAGE173
表示跨模态注意力层,
Figure 802019DEST_PATH_IMAGE174
表示前馈层。
Figure 51734DEST_PATH_IMAGE175
Figure 833746DEST_PATH_IMAGE176
的计算过程同S15-1-2中所示。
S4-3-3:将
Figure 877925DEST_PATH_IMAGE177
,
Figure 496119DEST_PATH_IMAGE154
二者在特征维上进行拼接即可得到
Figure 549526DEST_PATH_IMAGE178
,即
Figure 123727DEST_PATH_IMAGE179
S5:对上述自注意力模块的输出
Figure 401124DEST_PATH_IMAGE180
Figure 427986DEST_PATH_IMAGE181
Figure 81821DEST_PATH_IMAGE092
和跨模态注意力模块的输出
Figure 776108DEST_PATH_IMAGE103
Figure 162090DEST_PATH_IMAGE182
Figure 4144DEST_PATH_IMAGE183
分别进行时序池化得到各模态内的全局交互特征
Figure 133774DEST_PATH_IMAGE184
Figure 682567DEST_PATH_IMAGE185
Figure 816614DEST_PATH_IMAGE186
,两两模态间的全局交互特征
Figure 818068DEST_PATH_IMAGE187
Figure 813706DEST_PATH_IMAGE188
Figure 951426DEST_PATH_IMAGE189
本实施例中,时序池化可以采用常用的池化方法,如最大值池化或者平均值池化,本实施例不做限制。
本实施例中,对上述自注意力模块的输出
Figure 7107DEST_PATH_IMAGE180
Figure 495857DEST_PATH_IMAGE042
Figure 29607DEST_PATH_IMAGE092
和跨模态注意力模块的输出
Figure 552992DEST_PATH_IMAGE103
Figure 717257DEST_PATH_IMAGE100
Figure 240773DEST_PATH_IMAGE183
分别进行时序池化得到各模态内的全局交互特征
Figure 515897DEST_PATH_IMAGE184
Figure 956105DEST_PATH_IMAGE185
Figure 291272DEST_PATH_IMAGE186
,两两模态间的全局交互特征
Figure 754614DEST_PATH_IMAGE187
Figure 630166DEST_PATH_IMAGE188
Figure 128144DEST_PATH_IMAGE189
的具体步骤是:
S5-1:对上述音频自注意力模块的输出
Figure 368632DEST_PATH_IMAGE180
进行时序池化得到全局模态内音频特征
Figure 381588DEST_PATH_IMAGE184
S5-2:对上述视频自注意力模块的输出
Figure 998514DEST_PATH_IMAGE181
进行时序池化得到全局模态内视频特征
Figure 350998DEST_PATH_IMAGE185
S5-3:对上述文本自注意力模块的输出
Figure 342481DEST_PATH_IMAGE085
进行时序池化得到全局模态内文本特征
Figure 311574DEST_PATH_IMAGE186
S5-4:对上述音频-视频跨模态注意力模块的输出
Figure 732191DEST_PATH_IMAGE103
进行时序池化得到全局音频-视频交互特征
Figure 939181DEST_PATH_IMAGE187
S5-5:对上述音频-文本跨模态注意力模块的输出
Figure 583789DEST_PATH_IMAGE100
进行时序池化得到全局音频-文本交互特征
Figure 243441DEST_PATH_IMAGE188
S5-6:对上述视频-文本跨模态注意力模块的输出
Figure 467749DEST_PATH_IMAGE183
进行时序池化得到全局视频-文本交互特征
Figure 591562DEST_PATH_IMAGE189
将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
S6:最后利用注意力机制分别将这上述全局模态内特征
Figure 610334DEST_PATH_IMAGE184
Figure 570331DEST_PATH_IMAGE185
Figure 67171DEST_PATH_IMAGE186
,和全局模态间特征
Figure 45492DEST_PATH_IMAGE187
Figure 235165DEST_PATH_IMAGE188
Figure 931725DEST_PATH_IMAGE189
,进行加权融合得到整个待测样本模态内特征表示
Figure 497836DEST_PATH_IMAGE190
和模态间特征表示
Figure 268346DEST_PATH_IMAGE191
,然后将二者进行拼接经过全连接网络得到最终的情感分类结果。
本实施例中,最后利用注意力机制分别将这上述全局模态内特征
Figure 691237DEST_PATH_IMAGE184
Figure 812776DEST_PATH_IMAGE185
Figure 963004DEST_PATH_IMAGE186
,和全局模态间特征
Figure 119179DEST_PATH_IMAGE187
Figure 650654DEST_PATH_IMAGE188
Figure 56228DEST_PATH_IMAGE189
,进行加权融合得到整个待测样本模态内特征表示
Figure 229720DEST_PATH_IMAGE192
和模态间特征表示
Figure 974822DEST_PATH_IMAGE191
,然后将二者进行拼接经过全连接网络得到最终的情感分类结果的具体步骤是:
S6-1:利用注意力机制对全局模态内特征
Figure 739516DEST_PATH_IMAGE184
Figure 570069DEST_PATH_IMAGE185
Figure 812831DEST_PATH_IMAGE186
进行加权融合得到待测样本模态内特征表示
Figure 943598DEST_PATH_IMAGE192
本实施例中,利用注意力机制对全局模态内特征
Figure 816876DEST_PATH_IMAGE184
Figure 947774DEST_PATH_IMAGE185
Figure 197490DEST_PATH_IMAGE186
进行加权融合得到待测样本模态内特征表示
Figure 917185DEST_PATH_IMAGE192
的具体步骤是:
S6-1-1:计算加权融合的权重系数,具体如下:
Figure 23681DEST_PATH_IMAGE193
S6-1-2:利用上述权重系数对全局模态内特征进行加权得到待测样本模态内特征表示
Figure 828826DEST_PATH_IMAGE192
,具体如下:
Figure 678970DEST_PATH_IMAGE194
S6-2:利用注意力机制对上述全局模态间特征
Figure 253171DEST_PATH_IMAGE187
Figure 530568DEST_PATH_IMAGE188
Figure 823010DEST_PATH_IMAGE189
进行加权融合得到待测样本模态间特征表示
Figure 414528DEST_PATH_IMAGE191
本实施例中,利用注意力机制对上述全局模态间特征
Figure 151890DEST_PATH_IMAGE187
Figure 537872DEST_PATH_IMAGE195
Figure 379926DEST_PATH_IMAGE189
进行加权融合得到待测样本模态间特征表示
Figure 775135DEST_PATH_IMAGE191
的具体步骤是:
S6-2-1:计算加权融合的权重系数,具体如下:
Figure 58349DEST_PATH_IMAGE196
S6-2-2:利用上述权重系数对全局模态间特征进行加权得到待测样本模态间特征表示
Figure 943128DEST_PATH_IMAGE198
,具体如下:
Figure 944583DEST_PATH_IMAGE199
S6-3:将所述模态内和模态间的特征表示
Figure 877903DEST_PATH_IMAGE192
Figure 343520DEST_PATH_IMAGE191
进行拼接,然后经过全连接网络输出所述情感分类结果。
本实施例中,将所述模态内和模态间的特征表示
Figure 336884DEST_PATH_IMAGE192
Figure 825634DEST_PATH_IMAGE200
进行拼接,然后经过全连接网络输出所述情感分类结果的具体步骤是:
S6-3-1:将所述模态内和模态间的特征表示
Figure 375695DEST_PATH_IMAGE192
Figure 633501DEST_PATH_IMAGE191
在特征维上进行拼接得到待测样本最终的全局特征表示
Figure 594504DEST_PATH_IMAGE201
S6-3-2:将全局特征表示
Figure 570550DEST_PATH_IMAGE203
通过两层的全连接层输出最终的情感分类结果,具体如下:
Figure 907990DEST_PATH_IMAGE204
其中,
Figure 285882DEST_PATH_IMAGE205
表示神经网络中的Relu激活函数,
Figure 621049DEST_PATH_IMAGE206
表示施加线性变换的矩阵,
Figure 881129DEST_PATH_IMAGE207
表示对应的偏置。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的基于自注意力和跨模态注意力机制的多模态情感识别方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.多模态情感识别方法,其特征在于,包括:
S1:输入待测样本的音频文件、视频文件及对应的文本文件,分别对所述音频文件、视频文件和文本文件进行特征提取,得到帧级别的音频特征、帧级别的视频特征和词级别的文本特征;
S2:将所述帧级别的音频特征、帧级别的视频特征和词级别的文本特征分别输入到音频特征编码器、视频特征编码器和文本特征编码器进行局部上下文建模,得到音频编码特征、视频编码特征和文本编码特征;
S3:一方面将所述音频编码特征、视频编码特征和文本编码特征分别经过各自的自注意力模块对模态内的交互关系进行建模,得到,模态内特征,所述模态内特征包括:模态内音频特征、模态内视频特征和模态内文本特征;
S4:另一方面将所述音频编码特征、视频编码特征和文本编码特征进行两两排序组合输入至跨模态注意力模块对两两模态间的交互关系进行建模,得到,模态间特征,所述模态间特征包括:音频-视频交互特征、音频-文本交互特征和视频-文本交互特征;
S5:对所述模态内特征和所述模态间特征分别进行时序池化得到全局模态内特征,全局模态间特征;所述全局模态内特征包括:全局模态内音频特征、全局模态内视频特征和全局模态内文本特征;所述全局模态间特征包括:全局音频-视频交互特征、全局音频-文本交互特征和全局视频-文本交互特征;
S6:将所述全局模态内特征和所述全局模态间特征进行加权融合得到整个待测样本的模态内特征表示和模态间特征表示,然后将所述模态内特征表示和模态间特征表示进行拼接,然后经过全连接网络得到最终的情感分类结果。
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述分别对所述音频文件、视频文件和文本文件进行特征提取的具体方法包括:
对所述音频文件进行切分得到帧级别的短时音频片段;将所述短时音频片段分别输入至预先训练好的音频特征提取网络,得到所述帧级别的音频特征;
利用人脸检测工具从所述视频文件提取帧级别的人脸图像;将所述帧级别的人脸图像分别输入至预先训练好的人脸表情特征提取网络,得到所述帧级别的视频特征;
利用分词工具对所述文本文件进行分词;将所述分词后的文本文件输入至预先训练好的文本特征提取网络,得到所述词级别的文本特征。
3.根据权利要求1所述的多模态情感识别方法,其特征在于,将所述帧级别的音频特征输入到音频特征编码器进行局部上下文建模,得到音频编码特征的具体方法为:
对所述帧级别的音频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部音频上下文建模,得到音频编码特征;
将所述帧级别的视频特征输入到视频特征编码器进行局部上下文建模,得到视频编码特征的具体方法为:
对所述帧级别的视频特征依次经过两层的一维卷积网络、一维池化网络和一层的双向长短时记忆网络进行局部视频上下文建模,得到视频编码特征;
将所述词级别的文本特征输入到文本特征编码器进行局部上下文建模,得到文本编码特征的具体方法为:
对所述词级别的文本特征经过一层的双向长短时记忆网络进行局部文本上下文建模,得到文本编码特征。
4.根据权利要求1所述的多模态情感识别方法,其特征在于,将所述音频编码特征经过音频自注意力模块,对模态内的交互关系进行建模,得到模态内音频特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将所述音频编码位置特征依次输入至音频自注意力层和音频前馈层中,对模态内交互关系进行建模得到模态内音频特征。
5.根据权利要求4所述的多模态情感识别方法,其特征在于,将所述视频编码特征经过视频自注意力模块,对模态内的交互关系进行建模,得到模态内视频特征的具体方法为:
将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;将所述视频编码位置特征依次输入至视频自注意力层和视频前馈层中,对模态内交互关系进行建模得到模态内视频特征。
6.根据权利要求5所述的多模态情感识别方法,其特征在于,将所述文本编码特征经过文本自注意力模块,对模态内的交互关系进行建模,得到模态内文本特征的具体方法为:
将文本编码特征和正余弦波编码的文本固定位置特征相加,得到,文本编码位置特征;将所述文本编码位置特征依次输入至文本自注意力层和文本前馈层中,对模态内交互关系进行建模得到模态内文本特征。
7.根据权利要求1所述的多模态情感识别方法,其特征在于,将所述音频编码特征、视频编码特征进行排序组合输入至音频-视频跨模态注意力模块对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将视频编码特征和正余弦波编码的视频固定位置特征相加,得到,视频编码位置特征;
将所述音频编码位置特征和视频编码位置特征依次输入至音频-视频跨模态注意力层和音频-视频跨模态前馈层中,对音频-视频模态间的交互关系进行建模,得到音频-视频交互特征。
8.根据权利要求7所述的多模态情感识别方法,其特征在于,将所述音频编码特征、文本编码特征进行排序组合输入至音频-文本跨模态注意力模块对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征的具体方法为:
将音频编码特征和正余弦波编码的音频固定位置特征相加,得到,音频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述音频编码位置特征和文本编码位置特征依次输入至音频-文本跨模态注意力层和音频-文本跨模态前馈层中,对音频-文本模态间的交互关系进行建模,得到音频-文本交互特征。
9.根据权利要求8所述的多模态情感识别方法,其特征在于,将所述视频编码特征、文本编码特征进行排序组合输入至视频-文本跨模态注意力模块对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征的具体方法为:
将视频编码特征和正余弦波编码的音频固定位置特征相加,得到,视频编码位置特征;将文本编码特征和正余弦波编码的视频固定位置特征相加,得到,文本编码位置特征;
将所述视频编码位置特征和文本编码位置特征依次输入至视频-文本跨模态注意力层和视频-文本跨模态前馈层中,对视频-文本模态间的交互关系进行建模,得到视频-文本交互特征。
10.根据权利要求1所述的多模态情感识别方法,其特征在于,将所述全局模态内特征进行加权融合的模态内加权融合系数的具体计算公式如下:
全局模态内音频特征表示为
Figure 690059DEST_PATH_IMAGE001
、全局模态内视频特征表示为
Figure 759777DEST_PATH_IMAGE002
和全局模态内文本特征表示为
Figure 599557DEST_PATH_IMAGE003
Figure 345796DEST_PATH_IMAGE004
其中,
Figure 903816DEST_PATH_IMAGE005
为模态内加权融合系数;
Figure 26493DEST_PATH_IMAGE006
Figure 720780DEST_PATH_IMAGE007
为常数;
Figure 903499DEST_PATH_IMAGE008
的具体形式为:tanh或者relu激活函数
将所述全局模态间特征进行加权融合的模态间加权融合系数的具体计算公式如下:
全局音频-视频交互特征
Figure 214395DEST_PATH_IMAGE009
、全局音频-文本交互特征
Figure 875183DEST_PATH_IMAGE010
和全局视频-文本交互特征
Figure 941753DEST_PATH_IMAGE011
Figure 295374DEST_PATH_IMAGE012
其中,
Figure 562407DEST_PATH_IMAGE013
为模态间加权融合系数;
Figure 26886DEST_PATH_IMAGE014
Figure 695765DEST_PATH_IMAGE015
为常数;
Figure 220287DEST_PATH_IMAGE016
的具体形式为:tanh或者relu激活函数。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至10任一所述的方法的步骤。
CN202110200140.3A 2021-02-23 2021-02-23 多模态情感识别方法 Active CN112559835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110200140.3A CN112559835B (zh) 2021-02-23 2021-02-23 多模态情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110200140.3A CN112559835B (zh) 2021-02-23 2021-02-23 多模态情感识别方法

Publications (2)

Publication Number Publication Date
CN112559835A true CN112559835A (zh) 2021-03-26
CN112559835B CN112559835B (zh) 2021-09-14

Family

ID=75034584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110200140.3A Active CN112559835B (zh) 2021-02-23 2021-02-23 多模态情感识别方法

Country Status (1)

Country Link
CN (1) CN112559835B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065460A (zh) * 2021-03-31 2021-07-02 吉林农业大学 基于多任务级联的猪脸面部表情识别框架的建立方法
CN113239159A (zh) * 2021-04-26 2021-08-10 成都考拉悠然科技有限公司 基于关系推理网络的视频和文本的跨模态检索方法
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法
CN113380271A (zh) * 2021-08-12 2021-09-10 明品云(北京)数据科技有限公司 情绪识别方法、系统、设备及介质
CN113505652A (zh) * 2021-06-15 2021-10-15 腾讯科技(深圳)有限公司 活体检测方法、装置、电子设备和存储介质
CN113822192A (zh) * 2021-09-18 2021-12-21 山东大学 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN113837259A (zh) * 2021-09-17 2021-12-24 中山大学附属第六医院 一种模态交互的图注意融合的教育视频问答方法及系统
CN114021524A (zh) * 2021-09-29 2022-02-08 苏州浪潮智能科技有限公司 一种情感识别方法、装置、设备及可读存储介质
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统
CN115019237A (zh) * 2022-06-30 2022-09-06 中国电信股份有限公司 多模态情感分析方法、装置、电子设备及存储介质
CN115544279A (zh) * 2022-10-11 2022-12-30 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN116778967A (zh) * 2023-08-28 2023-09-19 清华大学 基于预训练模型的多模态情感识别方法及装置
CN117540023A (zh) * 2024-01-08 2024-02-09 南京信息工程大学 基于模态融合图卷积网络的图像联合文本情感分析方法
CN117609553A (zh) * 2024-01-23 2024-02-27 江南大学 基于局部特征增强和模态交互的视频检索方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753549A (zh) * 2020-05-22 2020-10-09 江苏大学 一种基于注意力机制的多模态情感特征学习、识别方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
AYUSH KUMAR AND JITHENDRA VEPA: "GATED MECHANISM FOR ATTENTION BASED MULTIMODAL SENTIMENT ANALYSIS", 《ARXIV:2003.01043V1》 *
JIAN HUANG等: "Continuous Multimodal Emotion Prediction Based on Long Short Term Memory Recurrent Neural Network", 《SESSION: AVEC 2017》 *
LICAI SUN等: "Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism", 《THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
SAURABH SAHU等: "Cross-modal Non-linear Guided Attention and Temporal Coherence in Multi-modal Deep Video Models", 《ORAL SESSION F1: DEEP LEARNING FOR MULTIMEDIA》 *
YAO-HUNG HUBERT TSAI等: "Multimodal Transformer for Unaligned Multimodal Language Sequences", 《ARXIV:1906.00295V1》 *
ZHENG LIAN等: "Context-Dependent Domain Adversarial Neural Network for Multimodal", 《INTERSPEECH 2020》 *
ZHENG LIAN等: "Investigation of Multimodal Features, Classifiers and Fusion Methods for Emotion Recognition", 《ARXIV》 *
宋绪靖: "基于文本、语音和视频的多模态情感识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065460A (zh) * 2021-03-31 2021-07-02 吉林农业大学 基于多任务级联的猪脸面部表情识别框架的建立方法
CN113239159A (zh) * 2021-04-26 2021-08-10 成都考拉悠然科技有限公司 基于关系推理网络的视频和文本的跨模态检索方法
CN113239159B (zh) * 2021-04-26 2023-06-20 成都考拉悠然科技有限公司 基于关系推理网络的视频和文本的跨模态检索方法
CN113255755B (zh) * 2021-05-18 2022-08-23 北京理工大学 一种基于异质融合网络的多模态情感分类方法
CN113255755A (zh) * 2021-05-18 2021-08-13 北京理工大学 一种基于异质融合网络的多模态情感分类方法
CN113505652A (zh) * 2021-06-15 2021-10-15 腾讯科技(深圳)有限公司 活体检测方法、装置、电子设备和存储介质
WO2022262606A1 (zh) * 2021-06-15 2022-12-22 腾讯科技(深圳)有限公司 活体检测方法、装置、电子设备和存储介质
CN113380271A (zh) * 2021-08-12 2021-09-10 明品云(北京)数据科技有限公司 情绪识别方法、系统、设备及介质
CN113837259A (zh) * 2021-09-17 2021-12-24 中山大学附属第六医院 一种模态交互的图注意融合的教育视频问答方法及系统
CN113837259B (zh) * 2021-09-17 2023-05-30 中山大学附属第六医院 一种模态交互的图注意融合的教育视频问答方法及系统
CN113822192A (zh) * 2021-09-18 2021-12-21 山东大学 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN113822192B (zh) * 2021-09-18 2023-06-30 山东大学 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
CN114021524A (zh) * 2021-09-29 2022-02-08 苏州浪潮智能科技有限公司 一种情感识别方法、装置、设备及可读存储介质
WO2023050708A1 (zh) * 2021-09-29 2023-04-06 苏州浪潮智能科技有限公司 一种情感识别方法、装置、设备及可读存储介质
CN114021524B (zh) * 2021-09-29 2024-02-27 苏州浪潮智能科技有限公司 一种情感识别方法、装置、设备及可读存储介质
CN114463688A (zh) * 2022-04-12 2022-05-10 之江实验室 一种跨模态上下文编码的对话情感识别方法及系统
CN115019237A (zh) * 2022-06-30 2022-09-06 中国电信股份有限公司 多模态情感分析方法、装置、电子设备及存储介质
CN115019237B (zh) * 2022-06-30 2023-12-08 中国电信股份有限公司 多模态情感分析方法、装置、电子设备及存储介质
CN115544279A (zh) * 2022-10-11 2022-12-30 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN115544279B (zh) * 2022-10-11 2024-01-26 合肥工业大学 一种基于协同注意力的多模态情感分类方法及其应用
CN116778967B (zh) * 2023-08-28 2023-11-28 清华大学 基于预训练模型的多模态情感识别方法及装置
CN116778967A (zh) * 2023-08-28 2023-09-19 清华大学 基于预训练模型的多模态情感识别方法及装置
CN117540023A (zh) * 2024-01-08 2024-02-09 南京信息工程大学 基于模态融合图卷积网络的图像联合文本情感分析方法
CN117609553A (zh) * 2024-01-23 2024-02-27 江南大学 基于局部特征增强和模态交互的视频检索方法及系统
CN117609553B (zh) * 2024-01-23 2024-03-22 江南大学 基于局部特征增强和模态交互的视频检索方法及系统

Also Published As

Publication number Publication date
CN112559835B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN112559835B (zh) 多模态情感识别方法
CN112560830B (zh) 多模态维度情感识别方法
CN113255755B (zh) 一种基于异质融合网络的多模态情感分类方法
Cho et al. Describing multimedia content using attention-based encoder-decoder networks
CN112329746B (zh) 多模态谎言检测方法、装置、设备
CN106878632A (zh) 一种视频数据的处理方法和装置
CN112151030A (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
WO2023050708A1 (zh) 一种情感识别方法、装置、设备及可读存储介质
CN114267347A (zh) 一种基于智能语音交互的多模态拒识方法和系统
Tran et al. A pre-trained audio-visual transformer for emotion recognition
CN114359775A (zh) 关键帧检测方法、装置、设备及存储介质、程序产品
CN116701568A (zh) 一种基于3d卷积神经网络的短视频情感分类方法及系统
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
Xia et al. Video-guided curriculum learning for spoken video grounding
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN114494969A (zh) 基于多模语音信息互补与门控制的情绪识别方法
CN116522212B (zh) 基于图像文本融合的谎言检测方法、装置、设备及介质
CN117668758A (zh) 对话意图识别方法和装置、电子设备及存储介质
CN117633674A (zh) 一种基于因果门控注意力机制的多模态情感分析方法
CN113571063A (zh) 语音信号的识别方法、装置、电子设备及存储介质
CN117711421A (zh) 一种基于协调简单注意力机制的两阶段语音分离方法
CN116975602A (zh) 一种基于多模态信息双重融合的ar互动情感识别方法和系统
Barbieri et al. Towards a multimodal time-based empathy prediction system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant