CN116310983A - 多模态情感识别方法及装置 - Google Patents

多模态情感识别方法及装置 Download PDF

Info

Publication number
CN116310983A
CN116310983A CN202310263531.9A CN202310263531A CN116310983A CN 116310983 A CN116310983 A CN 116310983A CN 202310263531 A CN202310263531 A CN 202310263531A CN 116310983 A CN116310983 A CN 116310983A
Authority
CN
China
Prior art keywords
mode
emotion
data
modal
modes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310263531.9A
Other languages
English (en)
Inventor
刘唱
张锦元
林晓锐
杨洁琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202310263531.9A priority Critical patent/CN116310983A/zh
Publication of CN116310983A publication Critical patent/CN116310983A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种多模态情感识别方法及装置,可用于金融领域或其他领域,该方法包括:获取视频数据样本及实际情感标签;根据视频数据样本在多个模态的原始数据和各个模态的单模态情感学习模型,得到各个模态的单模态特征数据和情感特征数据;根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;将情感特征数据、情感预测数据和实际情感标签代入整体损失函数,调整各个模型的参数,当整体损失函数值最小时完成模型的训练,整体损失函数包括:多模态情感识别模型和各个单模态情感学习模型的损失函数;获取待识别视频数据,根据训练完成的多模态情感识别模型,确定情感识别结果。本申请能够提高多模态情感识别的准确性。

Description

多模态情感识别方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种多模态情感识别方法及装置。
背景技术
近年来,随着人机交互技术的发展,人们对机器智能化的追求和期许越来越迫切,如何让机器更像人类、更能理解人的情感和需求,成为众多研究学者关注的热点问题。情感识别是让机器感知人类情绪,理解人类情感的重要研究领域。为了让识别更加准确,研究者们正在尝试将更多的情感信号融合,结合语音、文本、面部表情等多模态的情感识别成为大家的关注焦点。多模态情感识别是在人机交互的过程中,使计算机能够更好地了解用户的情感和注意力表达,通过结合不同的生理信号处理分析用户情感。
尽管多模态情感识别取得了一定的进展,但依然面临一些问题。由于不同模态的采样频率和表示形式是完全不同的,忽略了模态之间细粒度水平的交互,影响情感识别的准确性,是亟待解决的一个关键问题。
发明内容
针对现有技术中的至少一个问题,本申请提出了一种多模态情感识别方法及装置,能够提高多模态情感识别的准确性。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种多模态情感识别方法,包括:
获取视频数据样本及其对应的实际情感标签;
根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;
根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;
将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
进一步地,所述根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据,包括:
应用循环神经网络-双向的门控循环神经网络模型,对所述视频数据样本在各个模态的原始数据分别进行编码,得到各个模态的单模态特征数据;
基于各个模态的单模态特征数据和注意力函数,得到各个模态的注意力结果;
将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层,应用归一化指数函数处理所述全连接层的输出数据,得到该模态的情感特征数据。
进一步地,所述根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据,包括:
应用各个模态的单模态特征数据进行模态交互处理,得到时间水平交互下的特征数据以及语句水平交互下的特征数据;
基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理,得到情感预测数据。
进一步地,所述应用各个模态的单模态特征数据进行模态交互处理,得到时间水平交互下的特征数据以及语句水平交互下的特征数据,包括:
应用各个模态的单模态特征数据进行时间水平的模态交互处理,得到时间水平交互下的特征数据;
应用各个模态的单模态特征数据进行语句水平的模态交互处理,得到语句水平交互下的特征数据。
进一步地,所述应用各个模态的单模态特征数据进行时间水平的模态交互处理,得到时间水平交互下的特征数据,包括:
根据任意两个模态的单模态特征数据,得到所述两个模态的第一相关性矩阵;
根据所述两个模态的第一相关性矩阵和归一化指数函数,得到时间水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定时间水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据注意力函数和所述两个模态中的一个的融合特征数据,确定时间水平交互下所述两个模态中的一个到另一个对应的注意力结果;
根据所述时间水平交互下所述两个模态中的一个到另一个对应的注意力结果进行张量拼接操作,得到所述时间水平交互下的特征数据。
进一步地,所述应用各个模态的单模态特征数据进行语句水平的模态交互处理,得到语句水平交互下的特征数据,包括:
根据任意两个模态的注意力结果,得到所述两个模态的第二相关性矩阵;
根据所述两个模态的第二相关性矩阵和归一化指数函数,得到语句水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据所述语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据进行张量拼接操作,得到所述语句水平交互下的特征数据。
进一步地,所述整体损失函数Loverall如下:
Figure BDA0004132231400000031
其中,
Figure BDA0004132231400000032
表示所述多模态情感识别模型对应的损失函数,/>
Figure BDA0004132231400000033
表示不同模态对应的单模态情感学习模型各自的损失函数。
第二方面,本申请提供一种多模态情感识别装置,包括:
获取样本模块,用于获取视频数据样本及其对应的实际情感标签;
单模态情感学习模块,用于根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;
情感预测模块,用于根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;
训练模块,用于将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
情感识别模块,用于获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
进一步地,所述单模态情感学习模块,包括:
编码模块,用于应用循环神经网络-双向的门控循环神经网络模型,对所述视频数据样本在各个模态的原始数据分别进行编码,得到各个模态的单模态特征数据;
注意力处理子模块,用于基于各个模态的单模态特征数据和注意力函数,得到各个模态的注意力结果;
归一化处理子模块,用于将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层,应用归一化指数函数处理所述全连接层的输出数据,得到该模态的情感特征数据。
进一步地,所述情感预测模块包括:
模态交互子模块,用于应用各个模态的单模态特征数据进行模态交互处理,得到时间水平交互下的特征数据以及语句水平交互下的特征数据;
情感推理子模块,用于基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理,得到情感预测数据。
进一步地,所述模态交互子模块,包括:
时间水平模态交互单元,用于应用各个模态的单模态特征数据进行时间水平的模态交互处理,得到时间水平交互下的特征数据;
语句水平模态交互单元,用于应用各个模态的单模态特征数据进行语句水平的模态交互处理,得到语句水平交互下的特征数据。
进一步地,所述时间水平模态交互单元具体用于:
根据任意两个模态的单模态特征数据,得到所述两个模态的第一相关性矩阵;
根据所述两个模态的第一相关性矩阵和归一化指数函数,得到时间水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定时间水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据注意力函数和所述两个模态中的一个的融合特征数据,确定时间水平交互下所述两个模态中的一个到另一个对应的注意力结果;
根据所述时间水平交互下所述两个模态中的一个到另一个对应的注意力结果进行张量拼接操作,得到所述时间水平交互下的特征数据。
进一步地,所述语句水平模态交互单元具体用于:
根据任意两个模态的注意力结果,得到所述两个模态的第二相关性矩阵;
根据所述两个模态的第二相关性矩阵和归一化指数函数,得到语句水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据所述语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据进行张量拼接操作,得到所述语句水平交互下的特征数据。
具体地,所述整体损失函数Loverall可以如下:
Figure BDA0004132231400000051
其中,
Figure BDA0004132231400000052
表示所述多模态情感识别模型对应的损失函数,/>
Figure BDA0004132231400000053
表示不同模态对应的单模态情感学习模型各自的损失函数。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的多模态情感识别方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述的多模态情感识别方法。
由上述技术方案可知,本申请提供一种多模态情感识别方法及装置。其中,该方法包括:获取视频数据样本及其对应的实际情感标签;根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果,能够提高多模态情感识别的准确性;具体地,可以通过对图像信息进行序列学习,建立时间顺序模型进行语义信息的提取,能够使得图像数据更好的与语音数据和文本数据融合;可以结合语音、文本和表情的序列学习特征形成多阶段的交互网络,实现不同模态信息在不同阶段的关联,从而形成更丰富的多模态空间信息进行情感识别;可以针对性地将表情信息补充到文本和语音特征中去,防止图像信息成为其他模态信息的干扰,有效的提高模型整体的识别性能;可以学习不同模态的多种水平的特征表示,对表情信息动态的融合到文本和语音中具有重要意义,且可以提高多种模态特征表示的判别性,有利于提高情感识别的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的多模态情感识别方法的第一流程示意图;
图2是本申请实施例中的多模态情感识别方法的第二流程示意图;
图3是本申请实施例中的多模态情感识别方法的第三流程示意图;
图4是本申请应用实例中的多模态情感识别方法的框架图;
图5是本申请实施例中多模态情感识别装置的结构示意图;
图6是本申请应用实例中多模态情感识别装置的结构示意图;
图7为本申请实施例的电子设备的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有技术中,还存在比如语音和文本作为序列数据,在模态处理和融合的过程中会有更高的贴合度和适应度,但图像信息与二者呈现的形式差别较大,融合起来也更加难以协调的问题。当前融入表情识别的多模态模型均是直接用预训练模型对图像数据进行学习,抽象学习出一个高水平语义表示直接与其他模态进行交互。这种方式忽略了模态之间细粒度水平的交互,使表情信息失去时间维度的含义,从而无法有效的与其他模态进行情感识别。如何抽取有效的特征参数并运用恰当的模型来表达这些特征参数和情感之间的关联性,提高情感识别的准确性,是亟待解决的一个关键问题。
基于此,为了使图像信息更好的与语音和文本融合,本申请提出一种多模态情感识别方法及装置,可以实现细粒度特征融合的多模态情感识别,对表情进行不同水平的特征提取,递进的补充到语音和文本的时间水平和语句水平的特征中。
需要说明的是,本申请公开的多模态情感识别方法及装置可用于金融技术领域,也可用于除金融技术领域之外的任意领域,本申请公开的多模态情感识别方法及装置的应用领域不做限定。本申请各实施例的技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。
具体通过下述各个实施例进行说明。
为了提高多模态情感识别的准确性,本实施例提供一种执行主体是多模态情感识别装置的多模态情感识别方法,该多模态情感识别装置包括但不限于服务器,如图1所示,该方法具体包含有如下内容:
步骤100:获取视频数据样本及其对应的实际情感标签。
具体地,所述视频数据样本可以为批量;一个视频数据样本可以为一段视频;所述实际情感标签可以包括:高兴、害怕、伤心和吃惊等反映视频数据样本真实情感的标签。
步骤200:根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据。
具体地,所述模态可以表示信息的来源或形式;所述多个模态的原始数据可以表示单词、帧和图像。
优选的,可以从单个视频数据样本中按照等长的时间间隔均匀地抽取出5帧具有人脸的图像,利用openface人脸识别模型将每张人脸提出成112×112大小的图像
Figure BDA0004132231400000081
作为原始图像特征数据。将语音从视频数据样本中分离出,通过25ms汉明窗口和10ms移帧进行分帧操作,对每一帧的数据计算26维度的log_Mel filter bank特征,随后计算其一阶导数和二阶导数形成78维的声学特征/>
Figure BDA0004132231400000082
Figure BDA0004132231400000083
作为原始语音特征数据,N为样本数目,f为帧的数目。将语音转录出的文本,用预训练好的Bert模型进行词向量编码,形成768维的文本特征/>
Figure BDA0004132231400000084
作为原始语音特征数据,d为单词数目。
步骤300:根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据。
具体地,通过应用多模态情感识别模型可以实现模态之间细粒度水平的交互。
步骤400:将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
具体地,可以将整体损失函数加入到模型训练过程中,利用梯度下降算法进行迭代,直至达到最大迭代次数或模型收敛。
步骤500:获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
具体地,所述情感识别结果可以是高兴、害怕、伤心和吃惊等。
为了进一步提高单模态情感学习的可靠性,如图2所示,在本申请一个实施例中,步骤200包括:
步骤201:应用循环神经网络-双向的门控循环神经网络模型,对所述视频数据样本在各个模态的原始数据分别进行编码,得到各个模态的单模态特征数据。
步骤202:基于各个模态的单模态特征数据和注意力函数,得到各个模态的注意力结果。
步骤203:将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层,应用归一化指数函数处理所述全连接层的输出数据,得到该模态的情感特征数据。
具体地,对于文本模态s和语音模态t来说,所述循环神经网络-双向的门控循环神经网络模型可以如下所示:
Figure BDA0004132231400000091
其中,
Figure BDA0004132231400000092
表示第i个视频数据样本在模态E对应的第j个原始数据,/>
Figure BDA0004132231400000093
表示第i个视频数据样本在模态E对应的第j个原始数据对应的单模态特征数据,[·,·]表示张量拼接操作,(E∈M=s,t)。可以将视频数据样本在模态E对应的第j个原始数据对应的单模态特征数据确定为模态E对应的单模态特征数据。例如,若模态E为文字,则/>
Figure BDA0004132231400000094
表示第i个视频数据样本对应的第j个单词。
具体地,所述注意力函数可以如下所示:
Figure BDA0004132231400000095
Α(·)的具体过程如下所示:
Figure BDA0004132231400000096
Figure BDA0004132231400000097
Figure BDA0004132231400000098
其中,θE、VT、W和b表示参数,T表示第i个视频数据样本中的原始数据数目,
Figure BDA0004132231400000099
表示第i个视频数据样本在模态E对应的注意力结果,/>
Figure BDA00041322314000000910
包含第i个视频数据样本中每个单词/帧的加权作用。
具体地,可以对图像模态的原始数据分别进行2D卷积和3D卷积,得到序列特征
Figure BDA00041322314000000911
和全局特征:
Figure BDA00041322314000000912
Figure BDA00041322314000000913
其中,
Figure BDA00041322314000000914
表示第i个视频数据样本对应的第j个图像,ζ和η表示参数。
应用序列特征和循环神经网络-双向的门控循环神经网络模型,得到图像模态的单模态特征数据:
Figure BDA00041322314000000915
其中,
Figure BDA00041322314000000916
表示第i个视频数据样本在图像模态的第j个原始数据对应的单模态特征数据,可以将在图像模态的第j个原始数据对应的单模态特征数据确定为图像模态对应的单模态特征数据。
Figure BDA00041322314000001012
送入注意力机制中进行学习得到视觉特征Uv′:
Figure BDA0004132231400000102
其中,θv是的相关参数。将
Figure BDA0004132231400000103
和/>
Figure BDA0004132231400000104
拼接在一起作为图像模态的注意力学习结果
Figure BDA0004132231400000105
将其送入全连接层进行情感分类得到:
Figure BDA0004132231400000106
其中,
Figure BDA0004132231400000107
可以表示第i个视频数据样本在模态F分到第c类的概率。模态F对应的单模态情感学习模型的损失函数/>
Figure BDA0004132231400000108
可以如下所示:
Figure BDA0004132231400000109
其中,C表示视频数据类别的总数;yic表示第i个视频数据样本的实际情感标签,即第i个视频数据样本属于第c类;N表示样本总数;MLP(·)表示全连接层;softmax(·)表示归一化指数函数;
Figure BDA00041322314000001010
表示模态F的注意力结果,(F∈M=s,t,v)。
为了实现模态之间细粒度水平的交互,提高情感识别的准确性,如图3所示,在本申请一个实施例中,步骤300包括:
步骤310:应用各个模态的单模态特征数据进行模态交互处理,得到时间水平交互下的特征数据以及语句水平交互下的特征数据。
步骤320:基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理,得到情感预测数据。
具体地,可以将所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行特征融合,将特征融合结果输入多模态情感识别模型的全连接层,应用归一化指数函数处理所述全连接层的输出数据,得到情感预测数据Pic,如下公式所示:
Upi=[Utli,Uuli]
将其送入全连接层进行情感分类得到:
Pic=softmax(MLP(Upi))
所述多模态情感识别模型对应的损失函数可以如下所示:
Figure BDA00041322314000001011
为了实现模态之间细粒度水平的交互,提高情感识别的准确性,在本申请一个实施例中,步骤310包括:
步骤311:应用各个模态的单模态特征数据进行时间水平的模态交互处理,得到时间水平交互下的特征数据;
步骤312:应用各个模态的单模态特征数据进行语句水平的模态交互处理,得到语句水平交互下的特征数据。
为了实现模态之间时间水平的交互,提高情感识别的准确性,在本申请一个实施例中,步骤311包括:
步骤3111:根据任意两个模态的单模态特征数据,得到所述两个模态的第一相关性矩阵。
步骤3112:根据所述两个模态的第一相关性矩阵和归一化指数函数,得到时间水平交互下所述两个模态中的一个对另一个的影响。
步骤3113:根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定时间水平交互下所述两个模态中的一个到另一个对应的融合特征数据。
步骤3114:根据注意力函数和所述两个模态中的一个的融合特征数据,确定时间水平交互下所述两个模态中的一个到另一个对应的注意力结果。
步骤3115:根据所述时间水平交互下所述两个模态中的一个到另一个对应的注意力结果进行张量拼接操作,得到所述时间水平交互下的特征数据。
具体地,可以根据下列公式,得到时间水平交互下模态B到模态A对应的注意力结果
Figure BDA0004132231400000111
Figure BDA0004132231400000112
Figure BDA0004132231400000113
Figure BDA0004132231400000114
Figure BDA0004132231400000115
其中,
Figure BDA0004132231400000116
表示模态A的单模态特征数据,/>
Figure BDA0004132231400000117
表示模态B的单模态特征数据(A、B∈M=s,t,v且A≠B),s表示语音模态,t表示文本模态,v表示图像模态,/>
Figure BDA0004132231400000118
表示模态A和模态B之间的第一相关性矩阵,A(·)表示注意力函数,θA←B表示参数,/>
Figure BDA0004132231400000119
表示时间水平交互下模态B对模态A的影响,/>
Figure BDA00041322314000001110
表示时间水平交互下模态B到模态A的融合特征数据,/>
Figure BDA00041322314000001111
表示时间水平交互下模态B到模态A对应的注意力结果。基于上述公式,可以得到
Figure BDA0004132231400000121
和/>
Figure BDA0004132231400000122
可以根据时间水平交互下文本模态到语音模态对应的注意力结果
Figure BDA0004132231400000123
语音模态到文本模态对应的注意力结果/>
Figure BDA0004132231400000124
图像模态到语音模态对应的注意力结果/>
Figure BDA0004132231400000125
以及图像模态到语音模态对应的注意力结果/>
Figure BDA0004132231400000126
进行张量拼接操作,得到所述时间水平交互下的特征数据Utli,/>
Figure BDA0004132231400000127
为了实现模态之间语句水平的交互,提高情感识别的准确性,在本申请一个实施例中,步骤312,包括:
步骤3121:根据任意两个模态的注意力结果,得到所述两个模态的第二相关性矩阵。
步骤3122:根据所述两个模态的第二相关性矩阵和归一化指数函数,得到语句水平交互下所述两个模态中的一个对另一个的影响。
步骤3123:根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据。
步骤3124:根据所述语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据进行张量拼接操作,得到所述语句水平交互下的特征数据。
具体地,可以根据下列公式,得到语句水平交互下模态A到模态B对应的信息融合结果:
Figure BDA0004132231400000128
Figure BDA0004132231400000129
Figure BDA00041322314000001210
其中,
Figure BDA00041322314000001211
表示模态A的注意力结果,/>
Figure BDA00041322314000001212
表示模态B的注意力结果(A、B∈M=s,t,v且A≠B),/>
Figure BDA00041322314000001213
表示根据实际需要将/>
Figure BDA00041322314000001214
拓展一维后的结果,/>
Figure BDA00041322314000001215
表示根据实际需要将/>
Figure BDA00041322314000001216
拓展一维后的结果,s表示语音模态,t表示文本模态,v表示图像模态,/>
Figure BDA00041322314000001217
表示模态A和模态B之间的第二相关性矩阵,/>
Figure BDA00041322314000001218
表示语句水平交互下模态B对模态A的影响,/>
Figure BDA00041322314000001219
表示语句水平交互下模态B到模态A的融合特征数据,/>
Figure BDA00041322314000001220
可以是以/>
Figure BDA00041322314000001221
为元素的矩阵。基于上述公式,可以得到/>
Figure BDA00041322314000001222
和/>
Figure BDA00041322314000001223
可以根据语句水平交互下文本模态到语音模态对应的信息融合结果
Figure BDA00041322314000001224
语音模态到文本模态对应的信息融合结果/>
Figure BDA00041322314000001225
图像模态到语音模态对应的信息融合结果/>
Figure BDA0004132231400000131
以及图像模态到文本模态/>
Figure BDA0004132231400000132
对应的信息融合结果进行张量拼接操作,得到所述语句水平交互下的特征数据Uuli,/>
Figure BDA0004132231400000133
具体地,所述整体损失函数Loverall可以如下:
Figure BDA0004132231400000134
其中,
Figure BDA0004132231400000135
表示所述多模态情感识别模型对应的损失函数,/>
Figure BDA0004132231400000136
表示不同模态对应的单模态情感学习模型各自的损失函数。
为了进一步说明本方案,本申请提供一种多模态情感识别方法的应用实例,具体描述如下:
步骤1:数据预处理。可以从单个情绪视频段样本中按照等长的时间间隔均匀地抽取出5帧具有人脸的图像,利用openface人脸识别模型将每张人脸提出成112×112大小的图像
Figure BDA0004132231400000137
将语音从视频中分离出,通过25ms汉明窗口和10ms移帧进行分帧操作,对每一帧的数据计算26维度的log_Mel filter bank特征,随后计算其一阶导数和二阶导数形成78维的声学特征/>
Figure BDA0004132231400000138
其中f为帧的数目。将语音转录出的文本,用预训练好的Bert模型进行词向量编码,形成768维的文本特征/>
Figure BDA0004132231400000139
d为单词数目。
步骤2:模态特征编码。对于文本和语音数据,采用循环神经网Bi-GRU进行编码:
Figure BDA00041322314000001310
Figure BDA00041322314000001311
其中,
Figure BDA00041322314000001312
表示第i个样本的第j个单词,/>
Figure BDA00041322314000001313
表示第i个样本的第j个帧,/>
Figure BDA00041322314000001314
Figure BDA00041322314000001315
和/>
Figure BDA00041322314000001316
是经过Bi-GRU学习后的新的特征空间中的表示,hd为GRU的隐层单元数目。[·,·]表示张量拼接操作。针对图像数据,将5帧人脸图片分别做2D卷积和3D卷积,分别得到具有单张人脸的序列特征/>
Figure BDA00041322314000001317
和全局特征/>
Figure BDA00041322314000001318
Sv=Cov2D(Xv;ζ)
Uv=Cov3D(Xv;η)
其中Cov2D(·)和Cov3D(·)表示Resnet18网络在2D和3D卷积下的操作,ζ和η是网络相关的参数。对单张时序人脸特征用Bi-GRU做时序学习得到
Figure BDA00041322314000001319
Figure BDA00041322314000001320
步骤3:时间水平交互。计算两个模态A和模态B(A、B∈M={s,t,v}且A≠B)的相关性矩阵:
RAB=(HA)T(HB)
Figure BDA0004132231400000141
(a≠b且a、b∈{d,f,5}),然后可以得到模态A中的特征对模态B特征的影响或模态B中的特征对模态A特征的影响:
Figure BDA0004132231400000142
其中,
Figure BDA0004132231400000143
通过下式将模态B中的信息补充到模态A中去:
HA←B=WA←BHB+HA.
其中,
Figure BDA0004132231400000144
通过以上方式,可以得到时间水平的融合特征Hs←t,Hs→t,Hs ←v以及Ht←v,利用注意力机制A(·)可以得到相应的语句水平的特征:
Figure BDA0004132231400000145
相应的,
Figure BDA0004132231400000146
和/>
Figure BDA0004132231400000147
作为时间水平交互下的语句水平的特征用作情感预测的基础/>
Figure BDA0004132231400000148
步骤4:语句水平交互。将时间水平的编码特征送入注意力函数A(·)中,计算每个单词/帧/图像对全局信息的影响,得到语句水平的文本特征
Figure BDA0004132231400000149
语音特征
Figure BDA00041322314000001410
和视觉特征:
Ut=A(Ht;θt),
Us=A(Hs;θs),
Uv′=A(Hv;θv),
θt、θs和θv是相应参数。对于语句水平的交互,采用同样关系矩阵计算方式,先计算单模态中语句水平特征的相关性:
EAB=(UA)T(UB),
其中,
Figure BDA00041322314000001411
从而可以得到语句水平下,模态A中的特征对模态B特征的影响或模态B中的特征对模态A特征的影响:
Figure BDA00041322314000001412
其中,
Figure BDA00041322314000001413
通过下式将模态B中的信息补充到模态A中去:
Figure BDA00041322314000001414
其中
Figure BDA00041322314000001415
和/>
Figure BDA00041322314000001416
则作为语句水平交互下的特征
Figure BDA0004132231400000151
步骤5:损失函数构建。将单模态语句水平的特征送入全连接层后用情感标签约束得到分类损失:
Figure BDA0004132231400000152
Figure BDA0004132231400000153
C为情感的类别总数,yi是样本标签。MLP(·)表示全连接层而softmax(·)是归一化指数函数。对于视觉特征来说,将Uv和Uv拼接在一起作为表情的情感识别特征:
Figure BDA0004132231400000154
整合时间水平和语句水平交互融合后的特征进行情感预测。将时间水平交互下的特征与语句水平交互下的特征进行聚合Up=[Usl,Uul]进行情感预测:
P=softmax(MLP(Up))
对应的损失函数为:
Figure BDA0004132231400000155
通过联合上述过程中的损失函数,得到如下的整体损失函数:
Figure BDA0004132231400000156
将Loverall加入到模型训练过程中,利用梯度下降算法进行迭代,直至达到最大迭代次数或模型收敛。整体的方案框架图如图4所示。模型训练过程得到情感预测数据与情感识别过程得到情感预测数据的方式相同,在根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果时,可以参照步骤1至步骤4的描述,得到待识别视频数据对应的情感预测数据,将情感预测数据输入训练完成的多模态情感识别模型的全连接层,应用归一化指数函数处理所述全连接层的输出数据,得到训练完成的多模态情感识别模型的输出结果,基于该输出结果确定所述待识别视频数据对应的情感识别结果。
在一种举例中,在多模态公共数据集IEMOCAP上的实验结果(Accuracy)如表1所示。
表1
Figure BDA0004132231400000157
Figure BDA0004132231400000161
其中,0.596、0.673、0.501、0.748、0.613、0.711和0.774依次表示对视频数据进行语音Audio模态,文本Text模态,视觉Visual模态,语音和文本结合模态,语音和视觉结合模态,文本和视觉结合模态,语音、文本和视觉结合模态进行情感识别得到的实验结果。
从软件层面来说,为了提高多模态情感识别的准确性,本申请提供一种用于实现所述多模态情感识别方法中全部或部分内容的多模态情感识别装置的实施例,参见图5,所述多模态情感识别装置具体包含有如下内容:
获取样本模块51,用于获取视频数据样本及其对应的实际情感标签;
单模态情感学习模块52,用于根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;
情感预测模块53,用于根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;
训练模块54,用于将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
情感识别模块55,用于获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
在本申请一个实施例中,所述单模态情感学习模块,包括:
编码模块,用于应用循环神经网络-双向的门控循环神经网络模型,对所述视频数据样本在各个模态的原始数据分别进行编码,得到各个模态的单模态特征数据;
注意力处理子模块,用于基于各个模态的单模态特征数据和注意力函数,得到各个模态的注意力结果;
归一化处理子模块,用于将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层,应用归一化指数函数处理所述全连接层的输出数据,得到该模态的情感特征数据。
在本申请一个实施例中,所述情感预测模块包括:
模态交互子模块,用于应用各个模态的单模态特征数据进行模态交互处理,得到时间水平交互下的特征数据以及语句水平交互下的特征数据;
情感推理子模块,用于基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理,得到情感预测数据。
在本申请一个实施例中,所述模态交互子模块,包括:
时间水平模态交互单元,用于应用各个模态的单模态特征数据进行时间水平的模态交互处理,得到时间水平交互下的特征数据;
语句平模态交互单元,用于应用各个模态的单模态特征数据进行语句水平的模态交互处理,得到语句水平交互下的特征数据。
在本申请一个实施例中,所述时间水平模态交互单元具体用于:
根据任意两个模态的单模态特征数据,得到所述两个模态的第一相关性矩阵;
根据所述两个模态的第一相关性矩阵和归一化指数函数,得到时间水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定时间水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据注意力函数和所述两个模态中的一个的融合特征数据,确定时间水平交互下所述两个模态中的一个到另一个对应的注意力结果;
根据所述时间水平交互下所述两个模态中的一个到另一个对应的注意力结果进行张量拼接操作,得到所述时间水平交互下的特征数据。
在本申请一个实施例中,所述语句平模态交互单元具体用于:
根据任意两个模态的注意力结果,得到所述两个模态的第二相关性矩阵;
根据所述两个模态的第二相关性矩阵和归一化指数函数,得到语句水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据所述语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据进行张量拼接操作,得到所述语句水平交互下的特征数据。
具体地,所述整体损失函数Loverall可以如下:
Figure BDA0004132231400000181
其中,
Figure BDA0004132231400000182
表示所述多模态情感识别模型对应的损失函数,/>
Figure BDA0004132231400000183
表示不同模态对应的单模态情感学习模型各自的损失函数。
本说明书提供的多模态情感识别装置的实施例具体可以用于执行上述多模态情感识别方法的实施例的处理流程,其功能在此不再赘述,可以参照上述多模态情感识别方法实施例的详细描述。
为了进一步说明本方案,如图6所示,本申请提供一种多模态情感识别装置的应用实例,具体包含有:
数据预处理模块,用于从视频中分离出文本、语音和视频数据,通过相关的特征提取得到声学特征
Figure BDA0004132231400000184
文本特征/>
Figure BDA0004132231400000185
以及图像信息/>
Figure BDA0004132231400000186
Figure BDA0004132231400000187
其中N为样本数目,f为帧的数目,其中f为帧的数目,78和768是特征编码维度,5为一个样本视频提取的画面帧的数目。所述数据预处理模块实现的功能可以相当于上述获取样本模块实现的功能。
单模态情感学习模块,用于对于文本和语音数据,采用循环神经网络-双向的门控循环神经网络(bidirectional gated recurrent unit,Bi-GRU)进行编码:
Figure BDA0004132231400000188
Figure BDA0004132231400000189
其中
Figure BDA00041322314000001810
表示第i个样本的第j个单词/帧,/>
Figure BDA00041322314000001811
和/>
Figure BDA00041322314000001812
是经过Bi-GRU学习后的新的特征空间中的表示,hd为GRU的隐层单元数目。[·,·]表示张量拼接操作。将上述特征送入注意力函数A(·)中,计算每个单词/帧对全局信息的影响,得到语句水平的文本特征/>
Figure BDA00041322314000001813
和语音特征/>
Figure BDA00041322314000001814
Ut=A(Ht;θt),
Us=A(Hs;θs),
θt和θs是相应参数。A(·)的具体过程如下所示,对如输入的第t个单词/帧水平ht∈H,现做映射:
ct=VTtanh(Wht+b),
VT,W和b为相应的参数。计算每一个单词/帧在所有数据中的权重:
Figure BDA0004132231400000191
其中T∈{f,d}。加权后,语句水平的特征
Figure BDA0004132231400000192
为:
Figure BDA0004132231400000193
u中含有一句话中每个单词/帧的加权作用。送入全连接层后用情感标签约束得到分类损失:
Figure BDA0004132231400000194
Figure BDA0004132231400000195
C为情感的类别总数,yi是样本标签。MLP(·)表示全连接层而softmax(·)是归一化指数函数。
针对图像数据,将5帧人脸图片分别做2D卷积核3D卷积,分别得到具有单张人脸的序列特征
Figure BDA0004132231400000196
和全局特征/>
Figure BDA0004132231400000197
Sv=Cov2D(Xv;ζ)
Uv=Cov3D(Xv;η)
其中Cov2D(·)和Cov3D(·)表示Resnet18网络在2D和3D卷积下的操作,ζ和η是网络相关的参数。对单张时序人脸特征用Bi-GRU做时序学习得到
Figure BDA0004132231400000198
Figure BDA0004132231400000199
将Hv送入注意力机制中进行学习得到时序模型学习到的视觉特征Uv′:
Uv′=A(Hv;θv)
θv是的相关参数。因此,将Uv′和Uv拼接在一起作为表情的情感识别特征:
Figure BDA00041322314000001910
模态交互模块,模态交互包含了时间水平的交互和语句水平的交互。时间水平的交互是在模态数据具备时间序列信息时进行的交互,主要体现在文本特征与语音特征之间的两两交互和表情特征对语音和文本的单方面的影响。具体如下。
首先计算两个模态A和模态B(A、B∈M={s,t,v}且A≠B)的相关性矩阵:
RAB=(HA)T(HB)
Figure BDA00041322314000001911
(a≠b且a、b∈{d,f,5})然后可以得到模态A中的特征对模态B特征的影响或模态B中的特征对模态A特征的影响:
Figure BDA0004132231400000201
其中
Figure BDA0004132231400000202
通过下式将模态B中的信息补充到模态A中去:
HA←B=WA←BHB+HA
其中
Figure BDA0004132231400000203
通过以上方式,可以得到时间水平的融合特征Hs←t,Ht←s,Hs←v以及Ht←v,利用注意力机制可以得到相应的语句水平的特征:
Figure BDA0004132231400000204
相应的,
Figure BDA0004132231400000205
和/>
Figure BDA0004132231400000206
作为时间水平交互下的语句水平的特征用作情感预测的基础/>
Figure BDA0004132231400000207
对于语句水平的交互,采用同样的方式,先计算单模态中语句水平特征的相关性:/>
EAB=(UA)T(UB)
其中
Figure BDA0004132231400000208
从而可以得到语句水平下,模态A中的特征对模态B特征的影响或模态B中的特征对模态A特征的影响:
Figure BDA0004132231400000209
其中
Figure BDA00041322314000002010
通过下式将模态B中的信息补充到模态A中去:
Figure BDA00041322314000002011
其中
Figure BDA00041322314000002012
和/>
Figure BDA00041322314000002013
则作为语句水平交互下的特征
Figure BDA00041322314000002014
情感推理模块,用于整合时间水平和语句水平交互融合后的特征进行情感预测。将时间水平交互下的特征与语句水平交互下的特征进行聚合Up=[Usl,Uul]进行情感预测:
P=softmax(MLP(Up))
对应的损失函数为:
Figure BDA00041322314000002015
结合上述过程中的损失函数,得到如下的整体损失函数:
Figure BDA00041322314000002016
将Loverall加入到模型训练过程中,利用梯度下降算法进行迭代,直至达到最大迭代次数或模型收敛,可以应用训练完成的多模态情感识别模型进行情感识别。模态交互模块和情感推理模块结合实现的功能可以相当于上述情感预测模块和训练模块结合实现的功能。
从硬件层面来说,为了提高多模态情感识别的准确性,本申请提供一种用于实现所述多模态情感识别方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述多模态情感识别装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述多模态情感识别方法的实施例及用于实现所述多模态情感识别装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图7为本申请实施例的电子设备9600的系统构成的示意框图。如图7所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图7是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,多模态情感识别功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤100:获取视频数据样本及其对应的实际情感标签;
步骤200:根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;
步骤300:根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;
步骤400:将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
步骤500:获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
从上述描述可知,本申请的实施例提供的电子设备,能够提高多模态情感识别的准确性。
在另一个实施方式中,多模态情感识别装置可以与中央处理器9100分开配置,例如可以将多模态情感识别装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现多模态情感识别功能。
如图7所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图7中所示的所有部件;此外,电子设备9600还可以包括图7中没有示出的部件,可以参考现有技术。
如图7所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够提高多模态情感识别的准确性。
本申请的实施例还提供能够实现上述实施例中的多模态情感识别方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的多模态情感识别方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:获取视频数据样本及其对应的实际情感标签;
步骤200:根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;
步骤300:根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;
步骤400:将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
步骤500:获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够提高多模态情感识别的准确性。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种多模态情感识别方法,其特征在于,包括:
获取视频数据样本及其对应的实际情感标签;
根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;
根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;
将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
2.根据权利要求1所述的多模态情感识别方法,其特征在于,所述根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据,包括:
应用循环神经网络-双向的门控循环神经网络模型,对所述视频数据样本在各个模态的原始数据分别进行编码,得到各个模态的单模态特征数据;
基于各个模态的单模态特征数据和注意力函数,得到各个模态的注意力结果;
将每个模态的注意力结果输入该模态对应的单模态情感学习模型的全连接层,应用归一化指数函数处理所述全连接层的输出数据,得到该模态的情感特征数据。
3.根据权利要求1所述的多模态情感识别方法,其特征在于,所述根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据,包括:
应用各个模态的单模态特征数据进行模态交互处理,得到时间水平交互下的特征数据以及语句水平交互下的特征数据;
基于所述时间水平交互下的特征数据以及语句水平交互下的特征数据进行情感推理处理,得到情感预测数据。
4.根据权利要求3所述的多模态情感识别方法,其特征在于,所述应用各个模态的单模态特征数据进行模态交互处理,得到时间水平交互下的特征数据以及语句水平交互下的特征数据,包括:
应用各个模态的单模态特征数据进行时间水平的模态交互处理,得到时间水平交互下的特征数据;
应用各个模态的单模态特征数据进行语句水平的模态交互处理,得到语句水平交互下的特征数据。
5.根据权利要求4所述的多模态情感识别方法,其特征在于,所述应用各个模态的单模态特征数据进行时间水平的模态交互处理,得到时间水平交互下的特征数据,包括:
根据任意两个模态的单模态特征数据,得到所述两个模态的第一相关性矩阵;
根据所述两个模态的第一相关性矩阵和归一化指数函数,得到时间水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定时间水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据注意力函数和所述两个模态中的一个的融合特征数据,确定时间水平交互下所述两个模态中的一个到另一个对应的注意力结果;
根据所述时间水平交互下所述两个模态中的一个到另一个对应的注意力结果进行张量拼接操作,得到所述时间水平交互下的特征数据。
6.根据权利要求4所述的多模态情感识别方法,其特征在于,所述应用各个模态的单模态特征数据进行语句水平的模态交互处理,得到语句水平交互下的特征数据,包括:
根据任意两个模态的注意力结果,得到所述两个模态的第二相关性矩阵;
根据所述两个模态的第二相关性矩阵和归一化指数函数,得到语句水平交互下所述两个模态中的一个对另一个的影响;
根据所述两个模态的单模态特征数据以及所述两个模态中的一个对另一模态的影响,确定语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据;
根据所述语句水平交互下所述两个模态中的一个到另一个对应的融合特征数据进行张量拼接操作,得到所述语句水平交互下的特征数据。
7.根据权利要求1所述的多模态情感识别方法,其特征在于,所述整体损失函数Loverall如下:
Figure FDA0004132231390000031
其中,
Figure FDA0004132231390000032
表示所述多模态情感识别模型对应的损失函数,/>
Figure FDA0004132231390000033
表示不同模态对应的单模态情感学习模型各自的损失函数。
8.一种多模态情感识别装置,其特征在于,包括:
获取样本模块,用于获取视频数据样本及其对应的实际情感标签;
单模态情感学习模块,用于根据多个模态各自对应的单模态情感学习模型和所述视频数据样本在各个模态的原始数据,得到各个模态的单模态特征数据和情感特征数据;
情感预测模块,用于根据多模态情感识别模型和各个模态的原始数据,得到情感预测数据;
训练模块,用于将各个模态的情感特征数据、所述情感预测数据以及所述实际情感标签代入整体损失函数,调整所述多模态情感识别模型和各个单模态情感学习模型的参数,当所述整体损失函数值最小时完成所述多模态情感识别模型的训练,所述整体损失函数包括:所述多模态情感识别模型和各个单模态情感学习模型各自对应的损失函数;
情感识别模块,用于获取待识别视频数据,根据训练完成的多模态情感识别模型和所述待识别视频数据,确定所述待识别视频数据对应的情感识别结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的多模态情感识别方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被执行时实现权利要求1至7任一项所述的多模态情感识别方法。
CN202310263531.9A 2023-03-10 2023-03-10 多模态情感识别方法及装置 Pending CN116310983A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310263531.9A CN116310983A (zh) 2023-03-10 2023-03-10 多模态情感识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310263531.9A CN116310983A (zh) 2023-03-10 2023-03-10 多模态情感识别方法及装置

Publications (1)

Publication Number Publication Date
CN116310983A true CN116310983A (zh) 2023-06-23

Family

ID=86777562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310263531.9A Pending CN116310983A (zh) 2023-03-10 2023-03-10 多模态情感识别方法及装置

Country Status (1)

Country Link
CN (1) CN116310983A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131162A (zh) * 2023-10-25 2023-11-28 南京航空航天大学 一种基于跨模态特征交互建模的用户情感识别方法
CN117576784A (zh) * 2024-01-15 2024-02-20 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117131162A (zh) * 2023-10-25 2023-11-28 南京航空航天大学 一种基于跨模态特征交互建模的用户情感识别方法
CN117576784A (zh) * 2024-01-15 2024-02-20 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统
CN117576784B (zh) * 2024-01-15 2024-03-26 吉林大学 一种融合事件和rgb数据潜水员手势识别方法及其系统

Similar Documents

Publication Publication Date Title
CN110490213B (zh) 图像识别方法、装置及存储介质
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN105654952B (zh) 用于输出语音的电子设备、服务器和方法
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
US11657799B2 (en) Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition
CN111985240B (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
WO2022078146A1 (zh) 语音识别方法、装置、设备以及存储介质
CN116310983A (zh) 多模态情感识别方法及装置
CN112069309B (zh) 信息获取方法、装置、计算机设备及存储介质
CN111914076B (zh) 一种基于人机对话的用户画像构建方法、系统、终端及存储介质
CN113421547B (zh) 一种语音处理方法及相关设备
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN112837669B (zh) 语音合成方法、装置及服务器
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
WO2023207541A1 (zh) 一种语音处理方法及相关设备
CN115129848A (zh) 一种视觉问答任务的处理方法、装置、设备和介质
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
CN115757692A (zh) 一种数据处理方法及其装置
CN112668347B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
CN114757247A (zh) 分类预测模型的训练方法、分类预测方法、装置和设备
CN116861363A (zh) 多模态的特征处理方法、装置、存储介质与电子设备
WO2023226239A1 (zh) 对象情绪的分析方法、装置和电子设备
CN113763925B (zh) 语音识别方法、装置、计算机设备及存储介质
CN115240713A (zh) 基于多模态特征和对比学习的语音情感识别方法及装置
CN113342981A (zh) 一种基于机器学习的需求文档分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination