CN116612541A - 一种多模态情感识别方法、装置及存储介质 - Google Patents
一种多模态情感识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116612541A CN116612541A CN202310106979.XA CN202310106979A CN116612541A CN 116612541 A CN116612541 A CN 116612541A CN 202310106979 A CN202310106979 A CN 202310106979A CN 116612541 A CN116612541 A CN 116612541A
- Authority
- CN
- China
- Prior art keywords
- mode
- granularity
- window
- attention
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 40
- 230000008451 emotion Effects 0.000 claims abstract description 45
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 38
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 230000003993 interaction Effects 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 9
- 235000019580 granularity Nutrition 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 238000000844 transformation Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 16
- 230000002996 emotional effect Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多粒度窗口互注意力的多模态情感识别方法、装置及存储介质,其中方法包括:获取训练样本和测试样本;根据获得的样本训练多模态模型进行情感识别任务,并测试模型;将实际环境中的多模态样本,输入训练后的模型中,输出预测情感状态;其中多模态模型对输入的样本数据进行以下处理:特征提取器根据样本数据生成每种模态的初始特征向量;交互模块根据初始特征向量和多粒度窗口互注意力机制生成多粒度特征;融合模块根据多粒度特征生成深度融合特征;分类器根据深度融合特征生成预测情感状态。本发明通过多粒度窗口互注意力机制,提供一个灵活的互注意力窗口,使得多模态情感识别的性能有所提升,可广泛用于情感计算技术领域。
Description
技术领域
本发明涉及情感计算技术领域,尤其涉及一种基于多粒度窗口互注意力的多模态情感识别方法、装置及存储介质。
背景技术
情感计算是一个新兴的研究领域,旨在研发能够识别、解释、处理、模拟人类情感的系统。人们研究情感计算很大程度上是为了能够模拟共情使机器能够解释人类的情绪状态,做出相适应的行为,对情绪给予恰当的回应。进入21世纪以来,随着计算机技术的高速发展,情感计算研究有了更迫切的需求,相关研究逐年加快。情感识别作为智能型人机交互系统的一个必要环节,引起了学术界、工业界的极大关注。
总体来说,根据数据模态来划分,情感识别系统可以分为单模态情感识别系统和多模态情感识别系统。单模态情感识别系统包括了诸如文本、语音、视频、脑电等模态中的其中一种。而多模态情感识别系统包含了更多的信息,文本中的语义关系、声音中的韵律音调、视频中人的表情等等,多个模态之间可以互相补充,帮助机器更好地理解情感,进而进行反馈。
近年来,Transformer方法成为多模态情感识别系统的一种新的趋势。Transformer方法在多模态场景下可以分为自注意力机制方法和互注意力机制方法:自注意力机制的Query、Key、Value都来自于同一个模态,强调模态内的交互;互注意力机制的Query和Key、Value来自不同的模态,强调模态间的交互。此外,根据注意力范围,Transformer方法可以分为全局的全注意力和局部的窗口注意力:全注意力可以实现长距离的交互,但存在计算量大和引入噪声的问题;窗口注意力仅在窗口内进行注意力计算,减少了计算冗余。
窗口互注意力机制可以较好地解决多模态情感识别中的模态间交互问题,然而,它还具有以下缺点:(i)多模态数据是时序错位的,即使是在同样的时间段采集的,以字为基本单位的文本中和以帧为基本单位的语音、视频、脑电等信号不同,一个字对应的帧数是不固定的,这与需要等距窗口的窗口互注意不匹配。(ii)情感在不同模态之间是异步呈现的,文本模态的情感信息更容易集中在一些有情绪倾向的文字中,而其它模态的情感信息可能出现在其它的时间点上,这使得不同模态窗口之间的情感信息很难进行交互。
发明内容
为至少一定程度上解决现有技术中存在的技术问题之一,本发明的目的在于提供一种基于多粒度窗口互注意力的多模态情感识别方法、装置及存储介质。
本发明所采用的技术方案是:
一种基于多粒度窗口互注意力的多模态情感识别方法,包括以下步骤:
获取多模态数据库,根据多模态数据库获取训练样本和测试样本,获取每个样本的真实情感状态;
根据训练样本训练多模态模型Transformer进行情感识别任务;
根据测试样本衡量多模态模型的性能,并获取性能最好的模型;
将实际环境中的多模态样本,输入获得的性能最好的模型,输出预测情感状态;
其中,所述多模态模型包括特征提取器、交互模块、融合模块和分类器;所述多模态模型对输入的样本进行以下处理:
特征提取器根据样本数据生成每种模态的初始特征向量;
交互模块根据初始特征向量和多粒度窗口互注意力机制生成多粒度特征;
融合模块根据多粒度特征生成深度融合特征;
分类器根据深度融合特征生成预测情感状态;
在多模态模型训练过程中,采用预设的损失函数和优化器,拟合预测情感状态和真实情感状态,以实现模型的训练。
进一步地,所述多模态数据库包含文本模态、语音模态、视频模态、脑电模态中的两种模态数据,各种模态数据都具有时序性,在同样的一段时间内由不同的设备采集而来;
所述根据多模态数据库获取训练样本和测试样本,包括:
从多模态数据库中切分出句子级别的数据,并对切分获得的数据进行处理,获得样本数据。
以文本和语音模态为例,每一个样本数据由以下部分组成:
(1)一句话的语音波形U={U1,...Um},其中m为语音波形的数据点数;
(2)一句话的文本内容T={T1,...Tn},其中n为文本内容的单词数;
(3)真实情感标签L。
进一步地,所述特征提取器根据样本数据生成每种模态的初始特征向量,包括:
获取每种模态的大规模预训练模型;根据样本数据和预训练模型提取各模态的预训练特征PU/T;
将每种模态的预训练特征经过各自的单模态模型,计算得出相应的初始特征向量其中,Fi U/T为帧级别或字级别的高维特征向量。
进一步地,所述单模态模型通过多头自注意力机制生成初始特征向量:
多头注意力机制网络的每个头包含Query、Key、Value对应的Wq、Wk、Wv三个矩阵,预训练特征与这三个矩阵逐个相乘得到Q、K、V三个矩阵,随后Q矩阵和转置后的K矩阵相乘,并经过Softmax层得到自注意力关系,再乘以V矩阵产生注意力向量,最后经过线性层生成初始特征向量:
Q=WqP,K=WkP,V=WvP
F=f(Attention)
其中,d为经过Wq、Wk、Wv三个矩阵线性变换后的隐层向量的维度。
进一步地,所述交互模块根据初始特征向量和多粒度窗口互注意力机制生成多粒度特征,包括:
将两种模态的特征向量进行分窗,并确保各模态的窗口数相同;
将两种模态依次分别作为主模态XU/T和次模态XT/U,次模态XT/U经过多粒度化,以为主模态XU/T提供交互信息;
使用分窗后的主模态窗口产生矩阵Qw,使用分窗且多粒度化后的次模态产生矩阵Kw和矩阵Vw,进行模态间的窗口注意力交互:
式中,Wq、Wk、Wv分别为多头注意力机制网络的每个头包含Query、Key、Value对应的矩阵,d为经过Wq、Wk、Wv三个矩阵线性变换后的隐层向量的维度。
进一步地,所述次模态XT/U经过多粒度化,以为主模态XU/T提供交互信息,包括:
通过对次模态进行无重叠的分窗,产生多段帧数为n的次模态窗口数据,每一段窗口作为起始的Kw={Kw1,...,Kwn}和Vw={Vw1,...,Vwn};将每段窗口从两端往两侧延伸,延伸的长度由不同粒度决定,对原始的一段窗口产生N段不同长度的新窗口;其中,原窗口为其中长度最短的窗口,重要性最大,窗口越长重要性越小,使用的池化核越大;拼接不同粒度池化后的窗口,产生新的Key和Value,与主模态的Query进行注意力计算,产生多粒度特征:
进一步地,所述融合模块根据多粒度特征生成深度融合特征,包括:
将两种模态的多粒度特征U和T在时间轴上拼接作为一个整体;采用基于多层多头自注意力机制网络对整体特征进行整合,在token级别进行模态内和模态间的信息融合,产生深度融合特征:
Q=Wq[U,T],K=Wk[U,T],V=Wv[U,T]
两种模态的深度特征HU、HT分别池化掉时间轴后产生特征向量,拼接两个特征向量得出最后的多模态特征向量。
进一步地,所述分类器根据深度融合特征生成预测情感状态,包括:
采用非线性激活的全连接层,对多模态特征向量变换后经过Softmax,通过取最大预测概率的下标得到预测情感状态:
HConcat=[TP(HU),TP(HT)]
P=Softmax(WcHConcat+bc)
其中,TP表示时间轴池化,HU和HT为两种模态的深度特征,Wc、bc表示输出线性层的参数,是数据集对应的情绪类别集合,/>是取最大概率的下标得到的预测情绪类别。
进一步地,所述预设的损失函数为交叉熵函数,表达式为:
式中,N为训练样本数,数据集对应的情绪类别集合,Pi、yi分别为预测情感状态和真实情感状态。
本发明所采用的另一技术方案是:
一种基于多粒度窗口互注意力的多模态情感识别装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上所述方法。
本发明所采用的另一技术方案是:
一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。
本发明的有益效果是:本发明通过多粒度窗口互注意力机制,提供一个灵活的互注意力窗口,并利用彼此模态中的情感信息来帮助其自身的情感挖掘,从而使得多模态情感识别的性能有所提升。
附图说明
为了更清楚地说明本发明实施例或者现有技术中的技术方案,下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍,应当理解的是,下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例,对于本领域的技术人员而言,在无需付出创造性劳动的前提下,还可以根据这些附图获取到其他附图。
图1是本发明实施例中一种基于多粒度窗口互注意力的多模态情感识别方法步的骤流程图;
图2是本发明实施例中基于多粒度窗口互注意力的多模态情感识别方法的训练流程图;
图3是本发明实施例中基于多粒度窗口互注意力的多模态情感识别方法的模型框架图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参见图1、图2和图3,本实施例提供一种基于多粒度窗口互注意力的多模态情感识别方法,通过多粒度化的窗口互注意力,合理地捕获动态变化的情感信息,增强了传统情感识别模型的稳定性。该方法具体包括以下步骤:
S1、获取多模态数据库,根据数据库获取训练样本和测试样本,获取每个样本的真实情感状态。
其中,训练样本和测试样本,由多模态数据库切分、解析得出,具体包括:
多模态数据库包含诸如文本、语音、视频、脑电等模态中的任意两种,各模态数据都具有时序性,在同样的一段时间内由不同的设备采集而来;从数据库中切分出句子级别的数据。以文本和语音模态为例,每一个样本数据由以下部分组成:
(1)一句话的语音波形U={U1,...Um},其中m为语音波形的数据点数;
(2)一句话的文本内容T={T1,...Tn},其中n为文本内容的单词数;
(3)真实情感标签L。
在本实施例中,情感数据集采用IEMOCAP数据库,该数据集记录了10个演员在五次会话中大约12个小时的对话记录,含有文本、语音模态。与国际做法保持一致,采用五折交叉验证的评价方法,即五次会话中的每一次会话数据轮流作为测试样本,而其它的四次会话数据作为训练样本。标签体系则含有“快乐”、“悲伤”、“愤怒”、“中立”等。经过数据预处理后,留下上述四个常用标签下的清洗过的文本、语音、和标签。
S2、根据训练样本训练多模态模型Transformer进行情感识别任务;其中,特征提取器基于预训练模型和多头自注意力模型生成每种模态的初始特征;交互模块基于多粒度窗口互注意力模型生成多粒度特征;融合模块基于自注意力模型生成深度融合特征;分类器基于非线性层生成预测情感状态;损失函数和优化器通过拟合预测情感状态和真实情感状态实现模型的训练。
以下结合以文本和语音模态为例进行解释,具体如下:
首先,分别获取语音、文本模态的大规模预训练模型WavLM和RoBERTa,并依次对训练样本提取预训练特征PU/T;每种模态的预训练特征再经过各自的单模态模型计算得出相应的初始特征向量其中,Fi U/T为帧/字级别的高维特征向量。这里的单模态模型基于多头自注意力机制实现,每个头包含Wq、Wk、Wv三个矩阵,预训练特征与这三个矩阵逐个相乘得到Q、K、V三个矩阵,随后Q矩阵和转置后的K矩阵相乘,并经过Softmax层得到自注意力关系,再乘以V矩阵产生注意力向量,最后经过线性层生成初始特征向量:
Q=WqP K=WkP V=WvP
F=f(Attention)
其中,d为经过Wq、Wk、Wv三个矩阵线性变换后的隐层向量的维度。
得到初始特征向量,交互模块基于多粒度窗口互注意力机制生成多粒度特征。具体来说,语音和文本依次分别作为主模态XU/T和次模态XT/U,经过分窗后,次模态的每段窗口从两端往两侧延伸,延伸的长度由不同粒度决定,对原始的一段窗口产生N段不同长度的新窗口;原窗口为其中长度最短的窗口,重要性最大,窗口越长重要性越小,使用的池化核越大;拼接不同粒度池化后的窗口,产生新的Key和Value,与主模态的Query进行注意力计算,产生多粒度特征,为主模态提供灵活丰富的交互信息。
沿着时间轴拼接两种模态的多粒度特征,融合模块基于多头自注意力网络生成深度融合特征:
Q=Wq[U,T] K=Wk[U,T] V=Wv[U,T]
两种模态的深度特征HU、HT分别池化掉时间轴后产生特征向量,拼接两个特征向量得出最后的多模态特征向量;分类器采用非线性激活的全连接层,对多模态特征向量变换后经过Softmax,通过取最大预测概率的下标得到预测情感状态:
HConcat=[TP(HU),TP(HT)]
P=Softmax(WcHConcat+bc)
其中TP表示时间轴池化,Wc、bc表示输出线性层的参数,是数据集对应的情绪类别集合,/>是取最大概率的下标得到的预测情绪类别;
训练阶段的损失函数为交叉熵函数,其中N为训练样本数,Pi、yi分别为预测情感状态和真实情感状态:
S3、根据测试样本衡量模型的性能表现保存性能最好的模型。
根据测试样本衡量模型的性能表现保存性能最好的模型。可选地,采取的衡量指标是加权准确率和未加权准确率的平均值,从而防止数据不平衡情况下的预测倾斜现象,将指标下性能最优的整个模型的参数和结构都保存下来。
S4、将实际环境中的多模态样本,输入获得的性能最好的模型中,输出预测情感状态。
开放环境中的多模态样本通过性能最好的模型生成预测情感状态。在实际的开放环境中,用各种麦克风设备录取的语音,以及其相应的转录文本构成新的输入样本,通过保存的端到端模型预测情感状态结果并进行反馈。
本实施例还提供一种基于多粒度窗口互注意力的多模态情感识别装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现图1所述方法。
本实施例的一种基于多粒度窗口互注意力的多模态情感识别装置,可执行本发明方法实施例所提供的一种基于多粒度窗口互注意力的多模态情感识别方法,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
本申请实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图1所示的方法。
本实施例还提供了一种存储介质,存储有可执行本发明方法实施例所提供的一种基于多粒度窗口互注意力的多模态情感识别方法的指令或程序,当运行该指令或程序时,可执行方法实施例的任意组合实施步骤,具备该方法相应的功能和有益效果。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的上述描述中,参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施方式,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于上述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (10)
1.一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,包括以下步骤:
获取多模态数据库,根据多模态数据库获取训练样本和测试样本,获取每个样本的真实情感状态;
根据训练样本训练多模态模型进行情感识别任务;
根据测试样本衡量多模态模型的性能,并获取性能最好的模型;
将实际环境中的多模态样本,输入获得的性能最好的模型中,输出预测情感状态;
其中,所述多模态模型包括特征提取器、交互模块、融合模块和分类器;所述多模态模型对输入的样本数据进行以下处理:
特征提取器根据样本数据生成每种模态的初始特征向量;
交互模块根据初始特征向量和多粒度窗口互注意力机制生成多粒度特征;
融合模块根据多粒度特征生成深度融合特征;
分类器根据深度融合特征生成预测情感状态。
2.根据权利要求1所述的一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,所述多模态数据库包含文本模态、语音模态、视频模态、脑电模态中的两种模态数据,各种模态数据都具有时序性;
所述根据多模态数据库获取训练样本和测试样本,包括:
从多模态数据库中切分出句子级别的数据,并对切分获得的数据进行处理,获得样本数据。
3.根据权利要求1所述的一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,所述特征提取器根据样本数据生成每种模态的初始特征向量,包括:
获取每种模态的预训练模型;根据样本数据和预训练模型提取各模态的预训练特征PU /T;将每种模态的预训练特征经过各自的单模态模型,计算得出相应的初始特征向量其中,Fi U/T为帧级别或字级别的高维特征向量。
4.根据权利要求3所述的一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,所述单模态模型通过多头自注意力机制生成初始特征向量:
多头注意力机制网络的每个头包含Query、Key、Value对应的Wq、Wk、Wv三个矩阵,预训练特征与这三个矩阵逐个相乘得到Q、K、V三个矩阵,随后Q矩阵和转置后的K矩阵相乘,并经过Softmax层得到自注意力关系,再乘以V矩阵产生注意力向量,最后经过线性层生成初始特征向量:
Q=WqP,K=WkP,V=WvP
F=f(Attention)
其中,d为经过Wq、Wk、Wv三个矩阵线性变换后的隐层向量的维度。
5.根据权利要求1所述的一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,所述交互模块根据初始特征向量和多粒度窗口互注意力机制生成多粒度特征,包括:
将两种模态的特征向量进行分窗,并确保各模态的窗口数相同;
将两种模态依次分别作为主模态XU/T和次模态XT/U,次模态XT/U经过多粒度化,以为主模态XU/T提供交互信息;
使用分窗后的主模态窗口产生矩阵Qw,使用分窗且多粒度化后的次模态产生矩阵Kw和矩阵Vw,进行模态间的窗口注意力交互:
式中,Wq、Wk、Wv分别为多头注意力机制网络的每个头包含Query、Key、Value对应的矩阵,d为经过Wq、Wk、Wv三个矩阵线性变换后的隐层向量的维度。
6.根据权利要求5所述的一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,所述次模态XT/U经过多粒度化,以为主模态XU/T提供交互信息,包括:
通过对次模态进行无重叠的分窗,产生多段帧数为n的次模态窗口数据,每一段窗口作为起始的Kw={Kw1,...,Kwn}和Vw={Ww1,...,Vwn};将每段窗口从两端往两侧延伸,延伸的长度由不同粒度决定,对原始的一段窗口产生N段不同长度的新窗口;其中,原窗口为其中长度最短的窗口,重要性最大,窗口越长重要性越小,使用的池化核越大;拼接不同粒度池化后的窗口,产生新的Key和Value,与主模态的Query进行注意力计算,产生多粒度特征:
。
7.根据权利要求1所述的一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,所述融合模块根据多粒度特征生成深度融合特征,包括:
将两种模态的多粒度特征U和T在时间轴上拼接作为一个整体;采用基于多层多头自注意力机制网络对整体特征进行整合,在token级别进行模态内和模态间的信息融合,产生深度融合特征:
Q=Wq[U,T],K=Wk[U,T],V=Wv[U,T]
两种模态的深度特征HU、HT分别池化掉时间轴后产生特征向量,拼接两个特征向量得出最后的多模态特征向量。
8.根据权利要求1所述的一种基于多粒度窗口互注意力的多模态情感识别方法,其特征在于,所述分类器根据深度融合特征生成预测情感状态,包括:
采用非线性激活的全连接层,对多模态特征向量变换后经过Softmax,通过取最大预测概率的下标得到预测情感状态:
HConcat=[TP(HU),TP(HT)]
P=Softmax(WcHConcat+bc)
其中,TP表示时间轴池化,HU和HT为两种模态的深度特征,Wc、bc表示输出线性层的参数,是数据集对应的情绪类别集合,/>是取最大概率的下标得到的预测情绪类别。
9.一种基于多粒度窗口互注意力的多模态情感识别装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现权利要求1-8任一项所述方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310106979.XA CN116612541A (zh) | 2023-02-09 | 2023-02-09 | 一种多模态情感识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310106979.XA CN116612541A (zh) | 2023-02-09 | 2023-02-09 | 一种多模态情感识别方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116612541A true CN116612541A (zh) | 2023-08-18 |
Family
ID=87684182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310106979.XA Pending CN116612541A (zh) | 2023-02-09 | 2023-02-09 | 一种多模态情感识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612541A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821691A (zh) * | 2023-08-28 | 2023-09-29 | 清华大学 | 基于任务融合的训练情感识别模型的方法和装置 |
CN117423168A (zh) * | 2023-12-19 | 2024-01-19 | 湖南三湘银行股份有限公司 | 基于多模态特征融合的用户情绪识别方法及系统 |
-
2023
- 2023-02-09 CN CN202310106979.XA patent/CN116612541A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821691A (zh) * | 2023-08-28 | 2023-09-29 | 清华大学 | 基于任务融合的训练情感识别模型的方法和装置 |
CN116821691B (zh) * | 2023-08-28 | 2024-02-23 | 清华大学 | 基于任务融合的训练情感识别模型的方法和装置 |
CN117423168A (zh) * | 2023-12-19 | 2024-01-19 | 湖南三湘银行股份有限公司 | 基于多模态特征融合的用户情绪识别方法及系统 |
CN117423168B (zh) * | 2023-12-19 | 2024-04-02 | 湖南三湘银行股份有限公司 | 基于多模态特征融合的用户情绪识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728997B (zh) | 一种基于情景感知的多模态抑郁症检测系统 | |
Li et al. | Controllable emotion transfer for end-to-end speech synthesis | |
Stanton et al. | Predicting expressive speaking style from text in end-to-end speech synthesis | |
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
Hema et al. | Emotional speech recognition using cnn and deep learning techniques | |
CN113836277A (zh) | 用于数字助理的机器学习系统 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
CN116612541A (zh) | 一种多模态情感识别方法、装置及存储介质 | |
Goh et al. | A Novel Sentiments Analysis Model Using Perceptron Classifier | |
Sadoughi et al. | Meaningful head movements driven by emotional synthetic speech | |
CN111145903A (zh) | 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统 | |
CN117349427A (zh) | 一种面向舆情事件应对的人工智能多模态内容生成系统 | |
Dongmei | Design of English text-to-speech conversion algorithm based on machine learning | |
Murugaiyan et al. | Aspect-based sentiment analysis of customer speech data using deep convolutional neural network and bilstm | |
Qamhan et al. | Speech emotion recognition using convolutional recurrent neural networks and spectrograms | |
CN109767790A (zh) | 一种语音情感识别方法及系统 | |
Oneață et al. | Multimodal speech recognition for unmanned aerial vehicles | |
CN115116443A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
Yang | [Retracted] Design of Service Robot Based on User Emotion Recognition and Environmental Monitoring | |
CN116013371A (zh) | 一种神经退行性疾病监测方法、系统、装置及存储介质 | |
Kilimci et al. | Evaluating raw waveforms with deep learning frameworks for speech emotion recognition | |
CN115618298A (zh) | 基于多模态模型5g有害消息分析方法、装置和存储介质 | |
Jaiswal et al. | A generative adversarial network based ensemble technique for automatic evaluation of machine synthesized speech | |
CN113763992A (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
Iliev | Perspective Chapter: Emotion Detection Using Speech Analysis and Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |