CN116758462A - 一种情感极性分析方法、装置、电子设备及存储介质 - Google Patents

一种情感极性分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116758462A
CN116758462A CN202311055137.2A CN202311055137A CN116758462A CN 116758462 A CN116758462 A CN 116758462A CN 202311055137 A CN202311055137 A CN 202311055137A CN 116758462 A CN116758462 A CN 116758462A
Authority
CN
China
Prior art keywords
information
characterization
module
fusion
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311055137.2A
Other languages
English (en)
Inventor
聂坛月
曾锦山
蔡娉婷
黄琪
黄箐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Normal University
Original Assignee
Jiangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Normal University filed Critical Jiangxi Normal University
Priority to CN202311055137.2A priority Critical patent/CN116758462A/zh
Publication of CN116758462A publication Critical patent/CN116758462A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种情感极性分析方法、装置、电子设备及存储介质,该方法包括:获取目标对象对应的多模态视频信息;从对象图像中,提取对象面部图像和对象手势图像;将对象面部图像、手势图像、音频与文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部、手势、音频与文本表征信息;将各表征信息输入情感极性分析模型的模态融合模块进行融合处理,得到目标融合表征信息;进而输入情感极性分析模型的情感极性分析模块进行情感极性分析,得到目标对象对应的情感极性结果。采用本发明提供的上述技术方案,丰富了情感极性分析所需要的情感表示,进而使得情感表征更充分、表征信息交互更充分、融合更全面,提高了情感极性分析的精准性。

Description

一种情感极性分析方法、装置、电子设备及存储介质
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种情感极性分析方法、装置、电子设备及存储介质。
背景技术
多模态情感分析(MSA,Multimodal Sentiment Analysis)旨在通过整合多模态信息(如视觉、音频和文本信息)来理解人类情感,并在人机交互中发挥重要作用,因此需要进行多模态的情感极性分析。
在日常生活中,由于人们对于面部表情的倾向性,使得人们更多的只关注于面部表情的情感表达,因此在现有技术中,人们多采用基于面部表情来提取视觉特征信息获取到基于面部表情的视觉模态表征来进行人类情感极性分析,具有一定的局限性,使得情感极性分析中情感表示不够充分,导致了无法精准的进行情感表征,进而使得情感极性分析的精准性较低。
发明内容
鉴于此,本发明实施例提供了一种情感极性分析方法、装置、电子设备及存储介质,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种情感极性分析方法,该方法包括以下步骤:
获取目标对象对应的多模态视频信息,所述多模态视频信息包括对象图像、对象音频信息和对象文本信息;
从所述对象图像中,提取所述目标对象对应的对象面部图像和对象手势图像;
将所述对象面部图像、所述对象手势图像、所述对象音频信息和所述对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息;
将所述面部表征信息、所述手势表征信息、所述音频表征信息与所述文本表征信息输入所述情感极性分析模型的模态融合模块进行融合处理,得到目标融合表征信息;
将所述目标融合表征信息输入所述情感极性分析模型的情感极性分析模块进行情感极性分析,得到所述目标对象对应的情感极性结果。
本发明的另一方面提供了一种情感极性分析装置,所述装置包括:
获取模块,用于获取目标对象对应的多模态视频信息,所述多模态视频信息包括对象图像、对象音频信息和对象文本信息;
图像提取模块,用于从所述对象图像中,提取所述目标对象对应的对象面部图像和对象手势图像;
确定模块,用于将所述对象面部图像、所述对象手势图像、所述对象音频信息和所述对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息;
融合模块,用于将所述面部表征信息、所述手势表征信息、所述音频表征信息与所述文本表征信息输入所述情感极性分析模型的模态融合模块进行融合处理,得到融合表征信息;
分析模块,用于将所述融合表征信息输入所述情感极性分析模型的情感极性分析模块进行情感极性分析,得到所述目标对象对应的情感极性结果。
本发明的又一方面提供了一种电子设备,所述包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现上述中所述的情感极性分析方法。
本发明的又一方面提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行上述中所述的情感极性分析方法。
本发明提供的一种情感极性分析方法,本发明中通过采用目标对象的多模态视频信息得到对象图像、对象音频信息与对象文本信息,从对象图像中提取出对象面部图像与对象手势图像,进一步的,采用情感极性分析模型的模态表征模块得到手势表征信息、面部表征信息、音频表征信息与文本表征信息,使得目标对象视频信息对应的多模态特征更加全面,进一步的,采用情感极性分析模型的模态融合模块实现面部表征信息、手势表征信息、音频表征信息与文本表征信息的融合,使得本发明中的表征信息交互更充分、融合更全面,且使用手势表征信息丰富基于面部表征信息的第一融合表征信息,进而使得目标融合表征信息特征更充分,丰富了情感极性分析所需要的情感表示,使得情感表征更充分,进一步的,提高了情感极性分析的精准性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是根据一示例性实施例提供的一种情感极性分析方法的流程示意图;
图2是根据一示例性实施例提供的一种确定表征信息的流程示意图;
图3是根据一示例性实施例提供的一种确定手势表征信息的流程示意图;
图4是根据一示例性实施例提供的一种各表征信息融合的流程示意图;
图5是根据一示例性实施例提供的一种面部表征信息与手势表征信息融合的流程示意图;
图6是根据一示例性实施例提供的一种面部表征信息与手势表征信息融合的示意图;
图7是根据一示例性实施例提供的一种情感极性分析模型的训练流程示意图;
图8是根据一示例性实施例提供的一种情感极性分析的原理示意图;
图9是根据一示例性实施例提供的一种情感极性分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例提供的方案涉及人工智能的深度学习等技术,具体的,可以涉及基于深度学习的情感分析等处理,具体通过如下实施例进行说明:
图1是根据一示例性实施例提供的一种情感极性分析方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,上述方法可以包括:
S101:获取目标对象对应的多模态视频信息。
在一个具体实施例中,目标对象可以为需要进行情感极性的对象,例如人、动物等;多模态视频信息可以为从包括目标对象的视频中提取的多种模态的信息;可选的,多种模态包括视觉、音频、文本模态的情况下,上述多模态视频信息包括对象图像、对象音频信息和对象文本信息。
在一个可选的实施例中,在获取到包括目标对象的视频(以下简称对象视频)的情况下,可以基于第一预设频率,从对象视频中均匀的抽取至少一帧视频对象图像(即上述对象图像);第一预设频率可以结合实际应用需求进行设置,例如1秒1帧;可选的,也可以随机抽取上述对象图像。
在一个可选的实施例中,在获取到对象视频的情况下,可以基于第二预设频率,从对象视频中均匀的抽取至少一个对象音频段(即上述对象音频信息),第二预设频率可以结合实际应用需求进行设置,例如从对象视频对应音频中每间隔5秒抽取一个预设时长的对象视频;可选的,也可以随机抽取上述对象音频信息。
在一个可选的实施例中,在获取到包括目标对象的视频的情况下,可以基于第三预设频率,从对象视频中均匀的抽取至少一个对象音频段,获取对象音频段对应的文本信息(即上述对象文本信息),第三预设频率可以结合实际应用需求进行设置,例如从对象视频对应音频中每间隔5秒抽取一个预设时长的对象视频,然后,获取5秒时长的对象文本信息;可选的,也可以随机抽取上述对象视频,形成随机上述对象文本信息。
S103:从所述对象图像中,提取所述目标对象对应的对象面部图像和对象手势图像。
在一个具体的实施例中,对象面部图像可以为对象图像中目标对象的面部区域图像,对象手势图像可以为对象图像中表征手势特征的图像。
在一个可选的实施例中,可以结合人脸检测算法,从对象图像中提取目标对象的面部区域图像,以得到上述对象面部图像。
在一个可选的实施例中,对于上述对象图像先转换为相应的灰度格式,然后将其划分为指定步长的块,得到对象手势图像,可选的,可将对象图像块长划分为8×8。
将对象图像处理为对象面部图像与对象手势图像,可以更好的完成对象图像中面部特征与手势特征的提取,为后续丰富第一融合表征信息奠定了基础,有效的提升了目标融合表征信息的丰富性。
S105:将对象面部图像、对象手势图像、对象音频信息和对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息;
在一个可选的实施例中,面部表征信息可以为对象面部图像的表征信息,手势表征信息可以为对象手势图像的表征信息,音频表征信息可以为对象音频信息的表征信息,文本表征信息可以为对象文本信息的表征信息。
在一个具体的实施例中,情感极性分析模型可以为预先训练好的用于进行情感分析的深度学习模型;具体的,模态表征模块可以为情感极性分析模型中用于进行模态表征的模块。
图2是根据一示例性实施例提供的一种确定表征信息的流程示意图。在一个可选的实施例中,上述模态表征模块可以包括:面部表征模块、手势表征模块、音频表征模块与文本表征模块;具体的,如图2所示,上述将对象面部图像、对象手势图像、对象音频信息和对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息可以包括:
S201:将对象面部图像输入面部表征模块进行表征处理,得到面部表征信息;
S203:将对象手势图像输入手势表征模块进行表征处理,得到手势表征信息;
S205:将对象音频信息输入音频表征模块进行表征处理,得到音频表征信息;
S207:将对象文本信息输入文本表征模块进行表征处理,得到文本表征信息。
在一个可选的实施例中,面部表征模块可以为用于进行对象面部表征的模块;具体的,面部表征模块可以包括卷积神经网络、转换器模型与第一非线性投影层,可选的,卷积神经网络可以包括VGG-11(视觉几何组,Visual Geometry Group)模型,转换器模型可以包括Transformer模型,第一非线性投影层可以为将对象面部图像中面部特征的不同维度转换为预设维度。
在一个具体的实施例中,将对象面部图像先输入面部表征模块的卷积神经网络,提取面部图像中的面部特征,然后,将面部特征输入转换器模型,捕捉到面部特征中的面部特征序列信息,进一步的,将面部特征序列信息输入到非线性投影层,进行面部特征序列信息的投影与连接,形成面部表征信息。
图3是根据一示例性实施例提供的一种确定手势表征信息的流程示意图。在一个具体的实施例中,手势表征模块可以为用于进行对象手势表征的模块,具体的,手势表征模块可以包括:频域转换模块、特征提取模块、特征转换模块和非线性处理模块;具体的,如图3所示,上述将对象手势图像输入手势表征模块进行表征处理,得到手势表征信息可以包括:
S301:将对象手势图像输入频域转换模块进行时域转换,得到手势频域信息;
S303:将手势频域信息输入特征提取模块进行特征提取,得到频域手势特征;
S305:将频域手势特征输入特征转换模块进行特征转换,得到手势特征序列信息;
S307:将手势特征序列信息输入非线性处理模块进行非线性处理,得到手势表征信息。
在一个具体的实施例中,频率转换模块可以包括离散余弦变换(DCT,DiscreteCosine Transformation)和快速傅里叶变换(FFT,Fast Fourier Transformation),特征提取模块可以包括卷积神经网络模型,特征转换模块可以包括转换器模型,可选的,转换器模型可以包括Transformer模型,非线性处理模块可以包括第二非线性投影层,可选的,第二非线性投影层可以为将对象手势图像中手势特征的不同维度转换为预设维度。
在一个可选的实施例中,图像的频率是表征图像中灰度变化剧烈程度的指标,是灰度在平面空间上的梯度,即图像的频率代表图像灰度值的变化快慢,高频信息所表示的信息为物体轮廓和边缘,因此使用图像的频域特征去关注肢体手势动作,可以较为轻松地表征图像中肢体手势的变化,具体的,本发明中使用以频域表示对象手势图像中的手势特征,进一步的,通过频域表示的手势特征丰富手势表征信息与面部表征信息的第一融合表征信息。
在一个具体的实施例中,将对象手势图像输入频域转换模块,对象手势图像先经过离散余弦变换的处理,得到表示对象手势图像频域特征的系数矩阵,将对象手势图像从空域转换到频域,进而对象手势图像的像素值表示转换为频域的系数,进一步的,将上述系数矩阵进行快速傅里叶变换,得到以频域表示的对象手势图像,然后,将以频域表示的对象手势图像输入到特征提取模块中,提取对象手势图像中以频域表示的手势特征,进一步的,将提取到的手势特征输入特征转换模块进行特征转换,得到手势特征的序列信息,进一步的,将序列信息输入非线性处理模块进行投影与连接,形成手势表征信息。
在一个可选的实施例中,音频表征模块可以为用于进行对象音频表征的模块;具体的,音频表征模块可以包括语音识别模型与第三非线性投影层,可选的,语音识别模型可以包括Wav2Vec2.0(无监督预训练语音模型,Unsupervised Pre-training for SpeechRecognition)模型,第三非线性投影层可以为将对象音频信息中音频特征的不同维度转换为预设维度。
在一个具体的实施例中,将对象音频信息输入音频识别模型,提取到对象音频信息的音频特征,进一步的,将音频特征输入到非线性投影层进行投影与连接,形成音频表征信息。
在一个可选的实施例中,文本表征模块可以为用于进行对象文本表征的模块;具体的,文本表征模块可以包括文本识别模型与第四非线性投影层,可选的,文本识别模型可以包括ALBERT(一种用于自监督语言表示学习的轻量级双向编码器变换器表示模型,ALite Bidirectional Encoder Representation from Transformers)模型,第四非线性投影层可以为将对象文本信息中文本特征的不同维度转换为预设维度。
在一个具体的实施例中,将对象文本信息输入文本识别模型,提取到对象文本信息的文本特征,进一步的,将文本特征输入非线性投影层进行投影与连接,形成文本表征信息。
此外,需要说明的是,上述面部表征模块、手势表征模块、音频表征模块与文本表征模块中使用的模型仅仅是模态表征模块的一种结构细化示例,在实际应用中,可以结合实际需求设置,本说明书实施例并不以上述为限。
通过模型处理,尽可能准确的提取出对象面部图像、对象手势图像、对象音频信息与对象文本信息中相对应的面部特征、手势特征、音频特征与文本特征,为形成相对应的面部表征信息、手势表征信息、音频表征信息与文本表征信息提供了准确且具体的特征表征,且本发明中将手势表征信息以频域表示,使图像信息转化成频域信息能够起到过滤冗余信息与噪声信息的作用,并利用图像频域能获得轮廓信息的优点,将手势轮廓识别任务简化,从而降低通过情感极性分析模型获得情感极性结果的复杂度和计算量。
S107:将面部表征信息、手势表征信息、音频表征信息与文本表征信息输入情感极性分析模型的模态融合模块进行融合处理,得到目标融合表征信息。
在一个具体的实施例中,上述面部表征信息、手势表征信息融合后形成第一融合表征信息,进一步的,根据实际需求,第一融合表征信息、音频表征信息与文本表征信息的融合顺序有多种,可选的,可以选择不同的融合顺序形成目标融合表征信息,可选的,本发明中可以使用任一融合顺序完成表征信息的融合,进一步的,在表1中提供了多种融合顺序。
表1
在一个可选的实施例中,表1是根据一示例性实施例提供的一种情感极性分析融合顺序的性能表。具体的,表1中Modality表示融合顺序,Acc2表示准确率,F1表示模型稳定系数,MAE(Mean Absolute Error)表示平均绝对误差,Corr(Pearson CorrelationCoefficient)表示皮尔逊相关系数,vf表示第一融合表征信息,a表示音频表征信息,t表示文本表征信息,向上箭头表示数值越大融合性能越好,向下箭头表示数值越小融合性能越好。
在一个具体的实施例中,按照表1所示融合顺序进行上述第一融合表征信息、音频表征信息与文本表征信息的融合,可选的,融合顺序可包括表1中第一种融合顺序(vf,a,t),表示第一融合表征信息、音频表征信息与文本表征信息按顺序进行融合,具体的,第一融合表征信息与音频表征信息融合,形成第二融合表征信息,然后,第二融合表征信息与文本表征信息进行融合,形成目标融合表征信息,其中上述融合顺序是基于样本实验获得的最佳融合顺序,在此融合顺序下可以得到更好的目标对象情感极性分析结果;可选的,融合顺序也可以包括表1中第二种融合顺序(vf,t,a),表示第一融合表征信息、文本表征信息与音频表征信息按顺序进行融合,具体的,第一融合表征信息与文本表征信息进行融合,形成第三融合表征信息,然后,第三融合表征信息与音频表征信息进行融合,形成第四融合表征信息,即此顺序下形成的目标融合表征信息;可选的,融合顺序也可以包括表1中第三种融合顺序(t,vf,a),表示文本表征信息、第一融合表征信息与音频表征信息按顺序进行融合,具体的,文本表征信息与第一融合表征信息进行融合,形成第五融合表征信息,然后,第五融合表征信息与音频表征信息进行融合,形成第六融合表征信息,即此顺序下形成的目标融合表征信息;可选的,融合顺序还可以包括表1中第四种融合顺序(t,a,vf),表示文本表征信息、音频表征信息与第一融合表征信息按顺序进行融合,具体的,文本表征信息与音频表征信息进行融合,形成第七融合表征信息,然后,第五融合表征信息与第一融合表征信息进行融合,形成第八融合表征信息,即此顺序下形成的目标融合表征信息;可选的,融合顺序还可以包括表1中第五种融合顺序(a,vf,t),表示音频表征信息、第一融合表征信息与文本表征信息按顺序进行融合,具体的,音频表征信息与第一融合表征信息进行融合,形成第九融合表征信息,然后,第九融合表征信息与文本表征信息进行融合,形成第十融合表征信息,即此顺序下形成的目标融合表征信息;可选的,融合顺序还可以包括表1中第六种融合顺序(t,a,vf),表示文本表征信息、音频表征信息与第一融合表征信息按顺序进行融合,具体的,文本表征信息与音频表征信息进行融合,形成第十一融合表征信息,然后,第十一融合表征信息与第一融合表征信息进行融合,形成第十二融合表征信息,即此顺序下形成的目标融合表征信息。
从表1中可以观察到,第一融合顺序{vf, a, t}在六个融合顺序中取得了最佳性能,具体的,正确率最高,模型稳定系数最高,平均绝对误差最低,皮尔逊相关系数最高,显示了此融合顺序为最有效的融合顺序,目标对象融合表征信息更全面。
图4是根据一示例性实施例提供的一种各表征信息融合的流程示意图。在一个具体的实施例中,模态融合模块可以包括:第一交叉注意力模块、第二交叉注意力模块、第三交叉注意力模块;具体的,如图4所示,上述将面部表征信息、手势表征信息、音频表征信息与文本表征信息输入情感极性分析模型的模态融合模块进行融合,得到目标融合表征信息可以包括:
S401:将面部表征信息与手势表征信息输入第一交叉注意力模块进行融合处理,得到第一融合表征信息;
S403:将第一融合表征信息与音频表征信息输入第二交叉注意力模块进行融合处理,得到第二融合表征信息;
S405:将第二融合表征信息与文本表征信息输入第三交叉注意力模块进行融合处理,得到目标融合表征信息。
在一个可选的实施例中,第一融合表征信息可以包括面部表征信息与手势表征信息的融合表征信息,即为对象图像对应的视觉模态,第二融合表征信息可以包括上述第一融合表征信息与音频表征信息的融合表征信息,目标融合表征信息可以包括上述第二融合表征信息与文本表征信息的融合表征信息。
图5是根据一示例性实施例提供的一种面部表征信息与手势表征信息融合的流程示意图。在一个具体的实施例中,上述第一交叉注意力模块可以包括:第一跨模态关联分析模块、第二跨模态关联分析模块、第一拼接模块与第一线性模块;具体的,如图5所示,上述将面部表征信息与手势表征信息输入第一交叉注意力模块进行融合处理,得到第一融合表征信息可以包括:
S501:将面部表征信息与手势表征信息输入第一跨模态关联分析模块与第二跨模态关联分析模块进行跨模态关联分析,得到第一跨模态关联特征与第二跨模态关联特征;
S503:根据第一跨模态关联特征与第二跨模态关联特征,将面部表征信息与手势表征信息输入第一拼接模块,得到第一拼接表征信息;
S505:将第一拼接表征信息输入第一线性模块进行处理,得到第一融合表征信息。
在一个可选的实施例中,第一跨模态关联分析模块可以包括第一多头注意力模块、第一加法和归一化层 (Add&Norm) 、第一前馈神经网络层 (FFN,Feed-ForwardNetwork)和第二加法和归一化层,第二跨模态关联分析模块可以包括第二多头注意力模块、第三加法和归一化层、第二前馈神经网络层和第四加法和归一化层,第一线性模块可以包括第一线性层,具体的,上述第一跨模态关联分析模块以面部表征信息作为第一多头注意力模块的query(查询),手势表征信息作为第一多头注意力模块的key(键)和value(值),第二跨模态关联分析模块以手势表征信息作为第二多头注意力模块的query,面部表征信息作为第二多头注意力模块的key和value。
图6是根据一示例性实施例提供的一种面部表征信息与手势表征信息融合的示意图。在一个具体的实施例中,如图6所示,将面部表征信息与手势表征信息输入第一跨模态关联分析模块,具体的,以第一多头注意力模块进行两种表征信息间的依赖关系捕捉,捕捉到基于面部表征信息,对手势表征信息中的部分信息提供更重要的关注表征信息,形成第一跨模态依赖关系,将第一跨模态依赖关系、面部表征信息与手势表征信息输入到第一加法和归一化层,根据第一跨模态依赖关系进行面部表征信息与手势表征信息在第一跨模态关联分析模块的第一次整合,得到第一整合特征,然后,将第一整合特征输入到第一前馈神经网络层,完成第一融合特征的非线性转换,得到第一非线性转换特征,进一步的,将第一整合特征与第一非线性转化特征输入到第二加法和归一化层,进行第一整合特征与第一非线性转换特征的整合,得到基于面部表征信息中与手势特征信息关联的表征信息,即第一跨模态关联特征。
在一个具体的实施例中,如图6所示,同样将面部表征信息与手势表征信息输入第二跨模态关联分系模块,以第二多头注意力模块进行两种表征信息间的依赖关系捕捉,捕捉到基于手势表征信息,对面部表征信息中的部分信息提供更重要的关注表征信息,形成第二跨模态依赖关系,将第二跨模态依赖关系、面部表征信息与手势表征信息输入到第三加法和归一化层,根据第二跨模态依赖关系进行手势表征信息与面部表征信息在第二跨模态关联分析模块的第一次整合,得到第二跨模态关联分析模块的第一整合特征,称为第三整合特征,然后,将第三整合特征输入到第二前馈神经网络层,完成第三融合特征的非线性转换,得到第二非线性转换特征,进一步的,将第三整合特征与第二非线性转化特征输入到第四加法和归一化层,进行第三整合特征与第二非线性转换特征的整合,得到基于手势表征信息中与面部表征信息关联的表征信息,即第二跨模态关联特征。
在一个可选的实施例中,将第一跨模态关联特征与第二跨模态关联特征输入第一拼接模块,进行简单的关联特征拼接,得到第一拼接表征信息,将第一拼接表征信息输入第一线性模块,对第一拼接表征信息进行线性降维,得到第一融合表征信息。
在一个具体的实施例中,上述第二交叉注意力模块可以包括:第三跨模态关联分析模块、第四跨模态关联分析模块、第二拼接模块与第二线性模块;上述将所述第一融合表征信息与所述音频表征信息输入第二交叉注意力模块进行融合处理,得到第二融合表征信息可以包括:
将第一融合表征信息与音频表征信息输入第三跨模态关联分析模块与第四跨模态关联分析模块进行跨模态关联分析,得到第三跨模态关联特征与第四跨模态关联特征;
根据第三跨模态关联特征与第四跨模态关联特征,将第一融合表征信息与音频表征信息输入第二拼接模块,得到第二拼接表征信息;
将第二拼接表征信息输入第二线性模块进行处理,得到第二融合表征信息。
在一个具体的实施例中,第三跨模态关联分析模块可以包括第三多头注意力模块、第五加法和归一化层、第三前馈神经网络层和第六加法和归一化层,第四跨模态关联分析模块可以包括第四多头注意力模块、第七加法和归一化层、第四前馈神经网络层和第八加法和归一化层,第二线性模块可以包括第二线性层,具体的,上述第三跨模态关联分析模块以第一融合表征信息作为第三多头注意力模块的query,音频表征信息作为第三多头注意力模块的key和value,第四跨模态关联分析模块以音频表征信息作为第四多头注意力模块的query,第一融合表征信息作为第四多头注意力模块的key和value。
关于上述第二交叉注意力模块中第一融合表征信息与音频表征信息在第三跨模态关联分析模块融合的具体细化方式,可以参见上述第一交叉注意力模块中面部表征信息与手势表征信息在第一跨模态关联分析模块融合的具体细化方式,在此不再赘述。
关于上述第二交叉注意力模块中第一融合表征信息与音频表征信息在第四跨模态关联分析模块融合的具体细化方式,可以参见上述第一交叉注意力模块中面部表征信息与手势表征信息在第二跨模态关联分析模块融合的具体细化方式,在此不再赘述。
在一个具体的实施例中,上述第三交叉注意力模块可以包括:第五跨模态关联分析模块、第六跨模态关联分析模块、第三拼接模块与第三线性模块;上述将第二融合表征信息与文本表征信息输入第三交叉注意力模块进行融合处理,得到目标融合表征信息可以包括:
将第二融合表征信息与文本表征信息输入第五跨模态关联分析模块与第六跨模态关联分析模块进行跨模态关联分析,得到第五跨模态关联特征与第六跨模态关联特征;
根据第五跨模态关联特征与第六跨模态关联特征,将第二融合表征信息与所述文本表征信息输入第三拼接模块,得到第三拼接表征信息;
将第三拼接表征信息输入第三线性模块进行处理,得到目标融合表征信息。
在一个可选的实施例中,第五跨模态关联分析模块可以包括第五多头注意力模块、第九加法和归一化层、第五前馈神经网络层和第十加法和归一化层,第六跨模态关联分析模块可以包括第六多头注意力模块、第十一加法和归一化层、第六前馈神经网络层和第十二加法和归一化层,第三线性模块可以包括第三线性层,具体的,上述第五跨模态关联分析模块以第二融合表征信息作为第五多头注意力模块的query,文本表征信息作为多头注意力模块的key和value,第六跨模态关联分析模块以文本表征信息作为第六多头注意力模块的query,第二融合表征信息作为第六多头注意力模块的key和value。
关于上述第三交叉注意力模块中第二融合表征信息与文本表征信息在第五跨模态关联分析模块融合的具体细化方式,可以参见上述第一交叉注意力模块中面部表征信息与手势表征信息在第一跨模态关联分析模块融合的具体细化方式,在此不再赘述。
关于上述第三交叉注意力模块中第二融合表征信息与文本表征信息在第六跨模态关联分析模块融合的具体细化方式,可以参见上述第一交叉注意力模块中面部表征信息与手势表征信息在第二跨模态关联分析模块融合的具体细化方式,在此不再赘述。
融合顺序的不同会影响情感极性分析的精准性,本发明可采用有效性高的融合顺序融合各表征信息,且采用有效的分层交叉注意力模型来融合面部表征信息、手势表征信息、音频表征信息与文本表征信息,进一步的,使用的分层交叉注意力模块能够有效捕捉不同表征信息之间的关联特征,构建不同表征信息间的依赖关系,并依据彼此间的依赖关系消除其中的冗余信息,使得本发明中的表征信息交互更充分、融合更全面,情感极性分析更精准。
S109:将目标融合表征信息输入情感极性分析模型的情感极性分析模块进行情感极性分析,得到目标对象对应的情感极性结果。
在一个具体的实施例中,情感极性分析模块可以包括MLP(多层感知器,Multilayer Perceptron)模型。
此外,需要说明的是,上述MLP模型仅仅是情感极性分析模块的一种结构细化示例,在实际应用中,可以结合实际需求设置,本说明书实施例并不以上述为限。
在一个具体的实施例中,将上述目标融合表征信息输入到MLP模型中,利用模型的分析预测功能完成对目标对象情感极性的分析,得到目标对象的情感极性结果。
图7是根据一示例性实施例提供的一种情感极性分析模型的训练流程示意图,具体的,如图7所示,上述方法还可以包括:
S701:获取样本对象对应的多模态样本视频信息和样本对象对应的预设情感极性信息;
在一个具体的实施例中,样本对象可以为需要进行情感极性分析训练的对象,可选的,获取样本对象对应的多模态样本视频信息的具体细化,可以参见上述将获取目标对象对应的多模态样本视频信息的具体细化,在此不再赘述;具体的,预设情感极性信息可以为样本对象真实的情感极性信息。
S703:从样本对象图像中,提取样本对象对应的对象面部图像和对象手势图像;
在一个具体的实施例中,从样本对象图像中,提取样本对象对应的对象面部图像和对象手势图像的具体细化,可以参见上述从对象图像中,提取目标对象对应的对象面部图像和对象手势图像的具体细化,在此不再赘述。
S705:将样本对象面部图像、样本对象手势图像、样本对象音频信息和样本对象文本信息输入待训练情感极性分析模型的待训练模态表征模块进行表征处理,得到样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息;
在一个具体的实施例中,将样本对象面部图像、样本对象手势图像、样本对象音频信息和样本对象文本信息输入待训练情感极性分析模型的待训练模态表征模块进行表征处理,得到样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息的具体细化,可以参见上述将对象面部图像、对象手势图像、对象音频信息和对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息的具体细化,在此不再赘述。
S707:将样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息输入所述待训练情感极性分析模型的待训练模态融合模块进行融合处理,得到样本融合表征信息;
在一个具体的实施例中,将样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息输入所述待训练情感极性分析模型的待训练模态融合模块进行融合处理,得到样本融合表征信息的具体细化,可以参见上述将面部表征信息、手势表征信息、音频表征信息与文本表征信息输入情感极性分析模型的模态融合模块进行融合处理,得到目标融合表征信息的具体细化,在此不再赘述。
S709:将样本融合表征信息输入待训练情感极性分析模型的情感极性分析模块进行情感极性分析,得到样本对象对应的样本情感极性结果;
在一个具体的实施例中,将样本融合表征信息输入待训练情感极性分析模型的情感极性分析模块进行情感极性分析,得到样本对象对应的样本情感极性结果的具体细化,可以参见上述将目标融合表征信息输入情感极性分析模型的情感极性分析模块进行情感极性分析,得到目标对象对应的情感极性结果的具体细化,在此不再赘述。
S711:根据预设情感极性信息和样本情感极性结果,确定极性分析损失信息;
在一个具体的实施例中,极性分析损失信息可以结合预设损失函数计算;可选的,预设损失函数可以结合实际应用需求设定,例如指数损失函数,交叉熵损失函数等。上述极性分析损失信息可以表征当前的待训练情感极性分析模型的情感极性分析的准确性。
S713:基于极性分析损失信息,对待训练情感极性分析模型进行训练,得到情感极性分析模型。
在一个具体的实施例中,上述基于极性分析损失信息,对待情感极性分析模型进行训练,得到训练好的情感极性分析模型可以包括:基于极性分析损失信息,更新待训练情感极性分析模型的模型参数,基于更新后的待训练情感极性分析模型,重复上述将样本对象面部图像、样本对象手势图像、样本对象音频信息和样本对象文本信息输入待训练情感极性分析模型的待训练模态表征模块进行表征处理,得到样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息至基于极性分析损失信息,更新待训练情感极性分析模型的模型参数的训练迭代步骤,直至满足预设训练收敛条件。
上述满足预设训练收敛条件可以为识别损失信息小于等于预设损失阈值,或训练迭代步骤的次数达到预设次数等,具体的,预设损失阈值和预设次数可以结合实际应用中模型精度和训练速度需求进行设置。
上述实施例中,将基于预设情感极性信息和样本情感极性结果,确定极性分析损失信息,可以帮助待训练情感极性分析模型更好的学习情感极性的特征,可以更好的提升情感极性分析的精准性,进而也可以更好的提升情感极性分析模型的训练效率。
图8是根据一示例性实施例提供的一种情感极性分析的原理示意图。在一个具体的实施例中,如图8所示,具体的,获取上述对象图像、对象音频信息与对象文本信息,可选的,从对象图像中提取出对象面部图像与对象手势图像,可选的,将对象手势图像输入手势表征模块,得到手势表征信息,可选的,将对象面部图像输入面部表征模块,得到面部表征信息;可选的,将对象音频信息输入音频表征模块,得到音频表征信息;可选的,将对象文本信息输入文本表征模块,得到文本表征信息;进一步的,将手势表征信息与面部表征信息输入第一交叉注意力模块进行融合,得到第一融合表征信息,进一步的,将第一融合表征信息与音频表征信息输入第二交叉注意力模块进行融合,形成第二融合表征信息,进一步的,将第二融合表征信息与文本表征信息输入第三交叉注意力模块进行融合,形成目标融合表征信息,最后,将目标融合表征信息输入情感极性分析模块进行情感极性分析,得到情感极性分析结果。
在一个可选的实施例中,本发明中使用的预训练好的情感极性分析模型具备良好性能,为了验证本发明情感极性分析模型良好的情感极性分析性能,针对本发明的情感极性分析模型与现有技术中的情感极性分析模型均设置了多种数据集进行实验。表2是根据一示例性实施例提供的一种情感极性分析模型实验结果的数据示意图。如表2所示,使用了CMU-MOSI数据集和CMU-MOSEI数据集,同样采用了MAE、Corr、Acc2与F1分数表示本发明中情感极性分析模型的性能,具体的,MAE、Corr、Acc2与F1分数的含义与表1中MAE、Corr、Acc2与F1分数的含义相同,在此不做多余赘述,且对于准确率(Acc2)和F1分数,我们有两组评估结果,分别为非负/负(左侧)和正/负(右侧),以非负与正表示积极情感,以负表示消极情感。
在一个可选的实施例中,如表2所示,Models表示使用的模型,TFN(Tensor FusionNetwork)表示张量融合网络,LMF(Low-rank Multimodal Fusion)表示低秩多模态融合,MFM(Multimodal Factorization Model)表示多模态分解模型,MulT(Multi-modalTransformer)表示多模态Transformer模型,MISA(Modality-Invariant and -SpecificRepresentations for Multimodal Sentiment Analysis)表示多模态情感分析的模态不变和特定表示,MAG-BERT(Multimodal Adaptation Gate-Bidirectional EncoderRepresentation from Transformers)表示多模态适应门-语言表征模型,PMR(Progressive Modality Reinforcement)表示渐进模态强化方法,Self-MM(Self-Supervised Multi-Task Learning)表示自监督多任务多模态情感分析网络,MMIM(MultiModal Information Maximum)表示分级互信息最大化,MMCL(MultiModalContrastive Learning)表示多模态对比学习模型,TPMSA(Two-Phase Multi-TaskLearning)表示两阶段多任务情感分析,进一步的,表2中带有*的模型是表示在同样参数条件下,技术人员复现的现有技术情感极性分析模型,使用技术人员复现的现有技术情感极性分析模型,能够更突出体现技术人员使用的本发明情感极性分析模型的创新性。
表2
在一个具体的实施例中,由表2可知,在大多数情况下,本发明的情感极性分析模型在使用面部表征信息与手势表征信息融合的第一融合表征信息作为视觉模态时优于现有技术中的情感极性分析模型。这表明本文中使用的手势表征信息对于视觉模态表示是有用的。与MulT模型、PMR模型相比,它们也使用类似的跨模态注意力模块机制进行模态融合,本发明的情感极性分析模型在所有评估指标上显著优于MulT模型与PMR模型,显示了所提出的分层交叉注意力融合的优越性。进一步的,与其他使用复杂融合方案(如对比学习的MMIM和MMCL以及多任务学习的Self-MM)的现有技术中的情感极性分析模型相比,本发明的情感极性分析模型分析性能在大多数情况下也优于现有技术的情感极性分析模型的分析性能,因此表2中的实验结果数据清楚地表明了本发明中的情感极性分析模型的有效性。
本发明中选用了预训练好的情感极性分析模型进行目标对象的情感极性分析,为了验证本发明中使用的情感极性分析模型的情感极性分析效果,以下结合本发明情感极性分析模型和现有的情感极性分析模型分别进行情感极性分析,得到了不同的情感极性分析结果,可选的,现有的情感极性分析模型可以包括有手势特征的情感极性分析模型与没有手势的情感极性分析模型。可选的,对于存在面部遮挡的对象视频,现有的情感极性分析模型分析得出的是相反的情感极性,而本发明预训练好的情感极性分析模型利用对象手势图像中的手势特征增加基于面部表征信息得到的第一融合表征信息,能够得到适度正确的情感极性;可选的,没有手势特征的现有情感极性分析模型对情感极性分析的分析结果精准性低于本发明的情感极性分析模型分析得到的情感极性分析结果精准性,表明了手势表征信息对于第一融合表征信息是非常重要的;可选的,在目标对象面部无遮挡的情况下,事先定义的情感值的情感极性经过本发明情感极性分析模型分析得到了正确的情感极性分析结果,而经过现有的情感极性分析模型得到了错误的情感极性分析结果。
本发明中使用分层交叉注意力模块实现面部表征信息、手势表征信息、音频表征信息与文本表征信息的融合,且采用含有以频域表示的手势特征的手势表征信息丰富基于面部表征信息的融合表征信息,使得本发明中对于第一融合表征信息利用更加充分,进一步的,使用的分层交叉注意力模块能够有效捕捉不同表征信息之间的关联特征,构建不同表征信息间的依赖关系,并依据彼此间的依赖关系消除其中的冗余信息,使得本发明中的表征信息交互更充分,进一步的,本发明中使用的融合顺序使得情感极性分析更精准。
图9是根据一示例性实施例提供的一种情感极性分析装置的结构示意图。本申请实施例还提供了一种情感极性分析装置,如图9所示,上述装置包括:
获取模块901,用于获取目标对象对应的多模态视频信息,多模态视频信息包括对象图像、对象音频信息和对象文本信息;
图像提取模块903,用于从对象图像中,提取目标对象对应的对象面部图像和对象手势图像;
确定模块905,用于将对象面部图像、对象手势图像、对象音频信息和对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息;
融合模块907,用于将面部表征信息、手势表征信息、音频表征信息与文本表征信息输入情感极性分析模型的模态融合模块进行融合处理,得到融合表征信息;
分析模块909,用于将融合表征信息输入情感极性分析模型的情感极性分析模块进行情感极性分析,得到目标对象对应的情感极性结果。
在一个可选的实施例中,模态表征模块包括:面部表征模块、手势表征模块、音频表征模块与文本表征模块,上述确定模块905包括:
面部表征信息确定单元9051,用于将对象面部图像输入面部表征模块进行表征处理,得到面部表征信息;
手势表征信息确定单元9053,用于将对象手势图像输入手势表征模块进行表征处理,得到手势表征信息;
音频表征信息确定单元9055,用于将对象音频信息输入音频表征模块进行表征处理,得到音频表征信息;
文本表征信息确定单元9057,用于将对象文本信息输入文本表征模块进行表征处理,得到文本表征信息。
在一个可选的实施例中,手势表征模块包括:频域转换模块、特征提取模块、特征转换模块和非线性处理模块,上述手势表征信息确定单元9053包括:
手势频域确定子单元,用于将对象手势图像输入频域转换模块进行时域转换,得到手势频域信息;
手势特征确定子单元,用于将手势频域信息输入特征提取模块进行特征提取,得到频域手势特征;
序列信息确定子单元,用于将频域手势特征输入特征转换模块进行特征转换,得到手势特征序列信息;
手势表征确定子单元,用于将手势特征序列信息输入非线性处理模块进行非线性处理,得到手势表征信息。
在一个可选的实施例中,模态融合模块包括:第一交叉注意力模块、第二交叉注意力模块、第三交叉注意力模块;上述融合模块907包括:
第一融合单元9071,用于将面部表征信息与手势表征信息输入第一交叉注意力模块进行融合处理,得到第一融合表征信息;
第二融合单元9073,用于将第一融合表征信息与音频表征信息输入第二交叉注意力模块进行融合处理,得到第二融合表征信息;
第三融合单元9075,用于将所述第二融合表征信息与所述文本表征信息输入所述第三交叉注意力模块进行融合处理,得到所述目标融合表征信息。
在一个可选的实施例中,第一交叉注意力模块包括:第一跨模态关联分析模块、第二跨模态关联分析模块、第一拼接模块与第一线性模块,上述第一融合单元9071包括:
第一分析子单元,用于将面部表征信息与手势表征信息输入第一跨模态关联分析模块与第二跨模态关联分析模块进行跨模态关联分析,得到第一跨模态关联特征与第二跨模态关联特征,第一跨模态关联特征表征基于面部表征信息中与手势表征信息关联的表征信息,第二跨模态关联特征表征基于手势表征信息中与面部表征信息关联的表征信息;
第一拼接子单元,用于根据第一跨模态关联特征与第二跨模态关联特征,将面部表征信息与手势表征信息输入第一拼接模块,得到第一拼接表征信息;
第一融合子单元,用于将第一拼接表征信息输入第一线性模块进行处理,得到第一融合表征信息。
在一个可选的实施例中,第二交叉注意力模块包括:第三跨模态关联分析模块、第四跨模态关联分析模块、第二拼接模块与第二线性模块,上述第二融合单元9073包括:
第二分析子单元,用于将第一融合表征信息与音频表征信息输入第三跨模态关联分析模块与第四跨模态关联分析模块进行跨模态关联分析,得到第三跨模态关联特征与第四跨模态关联特征,第三跨模态关联特征表征基于第一融合表征信息中与音频表征信息关联的表征信息,第四跨模态关联特征表征基于音频表征信息中与第一融合表征信息关联的表征信息;
第二拼接子单元,用于根据第三跨模态关联特征与第四跨模态关联特征,将第一融合表征信息与音频表征信息输入第二拼接模块,得到第二拼接表征信息;
第二融合子单元,用于将第二拼接表征信息输入第二线性模块进行处理,得到第二融合表征信息。
在一个可选的实施例中,第三交叉注意力模块包括:第五跨模态关联分析模块、第六跨模态关联分析模块、第三拼接模块与第三线性模块,上述第三融合单元9075包括:
第三分析子单元,用于将第二融合表征信息与文本表征信息输入第五跨模态关联分析模块与第六跨模态关联分析模块进行跨模态关联分析,得到第五跨模态关联特征与第六跨模态关联特征,第五跨模态关联特征表征基于第二融合表征信息中与文本表征信息关联的表征信息,第六跨模态关联特征表征基于文本表征信息中与第二融合表征信息关联的表征信息;
第三拼接子单元,用于根据第五跨模态关联特征与第六跨模态关联特征,将第二融合表征信息与文本表征信息输入第三拼接模块,得到第三拼接表征信息;
第三融合子单元,用于将第三拼接表征信息输入第三线性模块进行处理,得到目标融合表征信息。
在一个可选的实施例中,上述装置还包括训练模块,用于:
获取样本对象对应的多模态样本视频信息和样本对象对应的预设情感极性信息,多模态样本视频信息包括样本对象图像、样本对象音频信息和样本对象文本信息;
从样本对象图像中,提取样本对象对应的样本对象面部图像和样本对象手势图像;
将样本对象面部图像、样本对象手势图像、样本对象音频信息和样本对象文本信息输入待训练情感极性分析模型的待训练模态表征模块进行表征处理,得到样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息;
将样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息输入待训练情感极性分析模型的待训练模态融合模块进行融合处理,得到样本融合表征信息;
将样本融合表征信息输入待训练情感极性分析模型的情感极性分析模块进行情感极性分析,得到目标对象对应的样本情感极性结果;
根据预设情感极性信息和样本情感极性结果,确定极性分析损失信息;
基于极性分析损失信息,对待训练情感极性分析模型进行训练,得到情感极性分析模型。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中的情感极性分析方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行本公开实施例中的情感极性分析方法。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的情感极性分析方法。
可以理解的是,在本发明的具体实施方式中,涉及到用户相关的数据,当本发明以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可 包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种情感极性分析方法,其特征在于,所述方法包括:
获取目标对象对应的多模态视频信息,所述多模态视频信息包括对象图像、对象音频信息和对象文本信息;
从所述对象图像中,提取所述目标对象对应的对象面部图像和对象手势图像;
将所述对象面部图像、所述对象手势图像、所述对象音频信息和所述对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息;
将所述面部表征信息、所述手势表征信息、所述音频表征信息与所述文本表征信息输入所述情感极性分析模型的模态融合模块进行融合处理,得到目标融合表征信息;
将所述目标融合表征信息输入所述情感极性分析模型的情感极性分析模块进行情感极性分析,得到所述目标对象对应的情感极性结果。
2.根据权利要求1所述的方法,其特征在于,所述模态表征模块包括:面部表征模块、手势表征模块、音频表征模块与文本表征模块;所述将所述对象面部图像、所述对象手势图像、所述对象音频信息和所述对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息包括:
将所述对象面部图像输入所述面部表征模块进行表征处理,得到所述面部表征信息;
将所述对象手势图像输入所述手势表征模块进行表征处理,得到所述手势表征信息;
将所述对象音频信息输入所述音频表征模块进行表征处理,得到所述音频表征信息;
将所述对象文本信息输入所述文本表征模块进行表征处理,得到所述文本表征信息。
3.根据权利要求2所述的方法,其特征在于,所述手势表征模块包括:频域转换模块、特征提取模块、特征转换模块和非线性处理模块;所述将所述对象手势图像输入所述手势表征模块进行表征处理,得到所述手势表征信息包括:
将所述对象手势图像输入所述频域转换模块进行时域转换,得到手势频域信息;
将所述手势频域信息输入所述特征提取模块进行特征提取,得到频域手势特征;
将所述频域手势特征输入所述特征转换模块进行特征转换,得到手势特征序列信息;
将所述手势特征序列信息输入所述非线性处理模块进行非线性处理,得到所述手势表征信息。
4.根据权利要求1所述的方法,其特征在于,所述模态融合模块包括:第一交叉注意力模块、第二交叉注意力模块、第三交叉注意力模块;所述将所述面部表征信息、所述手势表征信息、所述音频表征信息与所述文本表征信息输入情感极性分析模型的模态融合模块进行融合,得到目标融合表征信息包括:
将所述面部表征信息与所述手势表征信息输入所述第一交叉注意力模块进行融合处理,得到第一融合表征信息;
将所述第一融合表征信息与所述音频表征信息输入所述第二交叉注意力模块进行融合处理,得到第二融合表征信息;
将所述第二融合表征信息与所述文本表征信息输入所述第三交叉注意力模块进行融合处理,得到所述目标融合表征信息。
5.根据权利要求4所述的方法,其特征在于,所述第一交叉注意力模块包括:第一跨模态关联分析模块、第二跨模态关联分析模块、第一拼接模块与第一线性模块;所述将所述面部表征信息与所述手势表征信息输入所述第一交叉注意力模块进行融合处理,得到第一融合表征信息包括:
将所述面部表征信息与所述手势表征信息输入所述第一跨模态关联分析模块与所述第二跨模态关联分析模块进行跨模态关联分析,得到第一跨模态关联特征与第二跨模态关联特征,所述第一跨模态关联特征表征基于所述面部表征信息中与所述手势表征信息关联的表征信息,所述第二跨模态关联特征表征基于所述手势表征信息中与所述面部表征信息关联的表征信息;
根据所述第一跨模态关联特征与所述第二跨模态关联特征,将所述面部表征信息与所述手势表征信息输入第一拼接模块,得到第一拼接表征信息;
将所述第一拼接表征信息输入第一线性模块进行处理,得到所述第一融合表征信息。
6.根据权利要求4所述的方法,其特征在于,所述第二交叉注意力模块包括:第三跨模态关联分析模块、第四跨模态关联分析模块、第二拼接模块与第二线性模块;所述将所述第一融合表征信息与所述音频表征信息输入第二交叉注意力模块进行融合处理,得到第二融合表征信息包括:
将所述第一融合表征信息与所述音频表征信息输入所述第三跨模态关联分析模块与所述第四跨模态关联分析模块进行跨模态关联分析,得到第三跨模态关联特征与第四跨模态关联特征,所述第三跨模态关联特征表征基于所述第一融合表征信息中与所述音频表征信息关联的表征信息,所述第四跨模态关联特征表征基于所述音频表征信息中与所述第一融合表征信息关联的表征信息;
根据所述第三跨模态关联特征与所述第四跨模态关联特征,将所述第一融合表征信息与所述音频表征信息输入第二拼接模块,得到第二拼接表征信息;
将所述第二拼接表征信息输入所述第二线性模块进行处理,得到所述第二融合表征信息。
7.根据权利要求4所述的方法,其特征在于,所述第三交叉注意力模块包括:第五跨模态关联分析模块、第六跨模态关联分析模块、第三拼接模块与第三线性模块;所述将所述第二融合表征信息与所述文本表征信息输入第三交叉注意力模块进行融合处理,得到目标融合表征信息包括:
将所述第二融合表征信息与所述文本表征信息输入所述第五跨模态关联分析模块与所述第六跨模态关联分析模块进行跨模态关联分析,得到第五跨模态关联特征与第六跨模态关联特征,所述第五跨模态关联特征表征基于所述第二融合表征信息中与所述文本表征信息关联的表征信息,所述第六跨模态关联特征表征基于所述文本表征信息中与所述第二融合表征信息关联的表征信息;
根据所述第五跨模态关联特征与所述第六跨模态关联特征,将所述第二融合表征信息与所述文本表征信息输入第三拼接模块,得到第三拼接表征信息;
将所述第三拼接表征信息输入所述第三线性模块进行处理,得到所述目标融合表征信息。
8.根据权利要求1至7任一所述的方法,其特征在于,所述方法还包括:
获取样本对象对应的多模态样本视频信息和所述样本对象对应的预设情感极性信息,所述多模态样本视频信息包括样本对象图像、样本对象音频信息和样本对象文本信息;
从所述样本对象图像中,提取所述样本对象对应的样本对象面部图像和样本对象手势图像;
将所述样本对象面部图像、所述样本对象手势图像、所述样本对象音频信息和所述样本对象文本信息输入待训练情感极性分析模型的待训练模态表征模块进行表征处理,得到样本面部表征信息、样本手势表征信息、样本音频表征信息与样本文本表征信息;
将所述样本面部表征信息、所述样本手势表征信息、所述样本音频表征信息与样本文本表征信息输入所述待训练情感极性分析模型的待训练模态融合模块进行融合处理,得到样本融合表征信息;
将所述样本融合表征信息输入所述待训练情感极性分析模型的情感极性分析模块进行情感极性分析,得到所述目标对象对应的样本情感极性结果;
根据所述预设情感极性信息和所述样本情感极性结果,确定极性分析损失信息;
基于所述极性分析损失信息,对所述待训练情感极性分析模型进行训练,得到所述情感极性分析模型。
9.一种情感极性分析装置,其特征在于,所述装置包括:
获取模块,用于获取目标对象对应的多模态视频信息,所述多模态视频信息包括对象图像、对象音频信息和对象文本信息;
图像提取模块,用于从所述对象图像中,提取所述目标对象对应的对象面部图像和对象手势图像;
确定模块,用于将所述对象面部图像、所述对象手势图像、所述对象音频信息和所述对象文本信息输入情感极性分析模型的模态表征模块进行表征处理,得到面部表征信息、手势表征信息、音频表征信息与文本表征信息;
融合模块,用于将所述面部表征信息、所述手势表征信息、所述音频表征信息与所述文本表征信息输入所述情感极性分析模型的模态融合模块进行融合处理,得到融合表征信息;
分析模块,用于将所述融合表征信息输入所述情感极性分析模型的情感极性分析模块进行情感极性分析,得到所述目标对象对应的情感极性结果。
10.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至8中任一项所述的情感极性分析方法。
11.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至8中任一项所述的情感极性分析方法。
CN202311055137.2A 2023-08-22 2023-08-22 一种情感极性分析方法、装置、电子设备及存储介质 Pending CN116758462A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311055137.2A CN116758462A (zh) 2023-08-22 2023-08-22 一种情感极性分析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311055137.2A CN116758462A (zh) 2023-08-22 2023-08-22 一种情感极性分析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116758462A true CN116758462A (zh) 2023-09-15

Family

ID=87957659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311055137.2A Pending CN116758462A (zh) 2023-08-22 2023-08-22 一种情感极性分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116758462A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629312A (zh) * 2018-05-04 2018-10-09 兰州理工大学 一种动态手势跟踪方法及系统
CN112034981A (zh) * 2020-08-20 2020-12-04 深圳创维-Rgb电子有限公司 显示终端控制方法、显示终端及计算机可读存储介质
CN112132017A (zh) * 2020-09-22 2020-12-25 广州华多网络科技有限公司 图像处理方法、装置及电子设备
CN113449587A (zh) * 2021-04-30 2021-09-28 北京邮电大学 一种人体行为识别和身份认证方法、装置和电子设备
CN114067009A (zh) * 2021-10-22 2022-02-18 深圳力维智联技术有限公司 基于Transformer模型的图像处理方法与装置
CN114140885A (zh) * 2021-11-30 2022-03-04 网易(杭州)网络有限公司 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN114694076A (zh) * 2022-04-08 2022-07-01 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN115329127A (zh) * 2022-07-22 2022-11-11 华中科技大学 一种融合情感信息的多模态短视频标签推荐方法
CN115481679A (zh) * 2022-08-30 2022-12-16 之江实验室 一种多模态情感分析方法及其系统
CN116028846A (zh) * 2022-12-20 2023-04-28 北京信息科技大学 一种融合多特征和注意力机制的多模态情感分析方法
CN116070169A (zh) * 2023-01-28 2023-05-05 天翼云科技有限公司 模型训练方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108629312A (zh) * 2018-05-04 2018-10-09 兰州理工大学 一种动态手势跟踪方法及系统
CN112034981A (zh) * 2020-08-20 2020-12-04 深圳创维-Rgb电子有限公司 显示终端控制方法、显示终端及计算机可读存储介质
CN112132017A (zh) * 2020-09-22 2020-12-25 广州华多网络科技有限公司 图像处理方法、装置及电子设备
CN113449587A (zh) * 2021-04-30 2021-09-28 北京邮电大学 一种人体行为识别和身份认证方法、装置和电子设备
CN114067009A (zh) * 2021-10-22 2022-02-18 深圳力维智联技术有限公司 基于Transformer模型的图像处理方法与装置
CN114140885A (zh) * 2021-11-30 2022-03-04 网易(杭州)网络有限公司 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN114511906A (zh) * 2022-01-20 2022-05-17 重庆邮电大学 基于跨模态动态卷积的视频多模态情感识别方法、装置及计算机设备
CN114694076A (zh) * 2022-04-08 2022-07-01 浙江理工大学 基于多任务学习与层叠跨模态融合的多模态情感分析方法
CN115329127A (zh) * 2022-07-22 2022-11-11 华中科技大学 一种融合情感信息的多模态短视频标签推荐方法
CN115481679A (zh) * 2022-08-30 2022-12-16 之江实验室 一种多模态情感分析方法及其系统
CN116028846A (zh) * 2022-12-20 2023-04-28 北京信息科技大学 一种融合多特征和注意力机制的多模态情感分析方法
CN116070169A (zh) * 2023-01-28 2023-05-05 天翼云科技有限公司 模型训练方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨文斌;杨会成;: "基于卷积神经网络的手势识别方法", 安徽工程大学学报, vol. 33, no. 01, pages 41 - 46 *
陈启军;朱振娇;顾爽;: "基于傅立叶描述子和HMM的手势识别", 控制工程, vol. 19, no. 04, pages 634 - 638 *

Similar Documents

Publication Publication Date Title
Zadeh et al. Memory fusion network for multi-view sequential learning
CN112560830A (zh) 多模态维度情感识别方法
Tzirakis et al. End2You--The Imperial Toolkit for Multimodal Profiling by End-to-End Learning
CN112183747A (zh) 神经网络训练的方法、神经网络的压缩方法以及相关设备
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
US20230206928A1 (en) Audio processing method and apparatus
CN109658921B (zh) 一种语音信号处理方法、设备及计算机可读存储介质
CN117198468B (zh) 基于行为识别和数据分析的干预方案智慧化管理系统
CN111985209B (zh) 结合rpa和ai的文本语句识别方法、装置、设备及存储介质
Kaya et al. Robust acoustic emotion recognition based on cascaded normalization and extreme learning machines
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
Ousmane et al. Automatic recognition system of emotions expressed through the face using machine learning: Application to police interrogation simulation
CN114676259B (zh) 一种基于因果感知交互网络的对话情绪识别方法
Huijuan et al. Coarse-to-fine speech emotion recognition based on multi-task learning
CN113722507B (zh) 基于知识图谱的住院费用预测方法、装置及计算机设备
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
Chew et al. Facial expression recognition via enhanced stress convolution neural network for stress detection
CN116303947B (zh) 一种问答文本的情绪识别方法、装置及电子设备
CN114595692A (zh) 一种情绪识别方法、系统及终端设备
CN114786059B (zh) 视频生成方法、视频生成装置、电子设备、存储介质
CN116758462A (zh) 一种情感极性分析方法、装置、电子设备及存储介质
Ayoub Multimodal Affective Computing Using Temporal Convolutional Neural Network and Deep Convolutional Neural Networks
Elbarougy et al. Continuous audiovisual emotion recognition using feature selection and lstm
James et al. Multimodal Emotion Recognition Using Deep Learning Techniques
CN117056836B (zh) 程序分类模型的训练、程序类目识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230915

RJ01 Rejection of invention patent application after publication