CN116502181A - 基于通道扩展与融合的循环胶囊网络多模态情感识别方法 - Google Patents
基于通道扩展与融合的循环胶囊网络多模态情感识别方法 Download PDFInfo
- Publication number
- CN116502181A CN116502181A CN202310567609.6A CN202310567609A CN116502181A CN 116502181 A CN116502181 A CN 116502181A CN 202310567609 A CN202310567609 A CN 202310567609A CN 116502181 A CN116502181 A CN 116502181A
- Authority
- CN
- China
- Prior art keywords
- capsule
- mode
- feature sequence
- network
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002775 capsule Substances 0.000 title claims abstract description 109
- 230000004927 fusion Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 22
- 125000004122 cyclic group Chemical group 0.000 title claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims abstract description 24
- 230000008451 emotion Effects 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims abstract description 6
- 230000006835 compression Effects 0.000 claims abstract description 5
- 238000007906 compression Methods 0.000 claims abstract description 5
- 230000008569 process Effects 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 15
- 235000019580 granularity Nutrition 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000015556 catabolic process Effects 0.000 claims description 4
- 238000006731 degradation reaction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 241000557626 Corvus corax Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于通道扩展与融合的循环胶囊网络多模态情感识别方法,具体为:从每个视频样本中分别提取音频模态特征序列、视觉模态特征序列和文本模态特征序列;将特征序列逐一输入时域卷积网络中,得到包含上下文信息的模态特征序列、视觉模态特征序列和文本模态特征序列;利用多通道可变形卷积网络从上述模态特征序列中逐一学习,得到包含高层语义信息的音频模态特征序列、视觉模态特征序列和文本模态特征序列,利用构建的多模态语义胶囊融合网络获取全局信息胶囊,并输入到双向长短期记忆网络中进行压缩,最后,送入密集层中进行多模态情感分类。本发明的基于通道扩展与融合的循环胶囊网络合理有效,能够达大大提高多模态情感识别的准确率。
Description
技术领域
本发明属于情感识别技术领域,具体涉及基于通道扩展与融合的循环胶囊网络多模态情感识别方法。
背景技术
近些年伴随计算机硬件资源的提升,人工智能领域得到了飞速的发展。时至今日,人工智能已经融入到了生活的方方面面。例如人工智能中的多模态情感识别,通过结合多种模态信息可以有效识别被采集者的情感状态,在医疗诊断、智能驾驶、人机交互以及舆论监督等场景均发挥了重要的作用。然而,多模态情感识别虽然在各种工业应用中表现出色,但目前仍然有两个难点待解决。首先是如何有效提取各模态特征序列的高层语义信息,为后续的融合阶段提供更加强大、包含更多深层次语义信息的高级表示。其次是如何学习不同模态特征序列之间的潜在关系,有效地融合不同模态特征序列,得到一个更具代表性的多模态融合表示。
发明内容
本发明的目的是提供基于通道扩展与融合的循环胶囊网络多模态情感识别方法,通过通道扩展和融合的方式对各模态特征序列进行处理,以有效提取各模态特征序列的高层语义信息。
本发明所采用的技术方案是,基于通道扩展与融合的循环胶囊网络多模态情感识别方法,具体按照以下步骤实施:
步骤1、从多模态情感视频数据库中提取多个视频样本,从每个视频样本中分别提取音频模态特征序列视觉模态特征序列/>和文本模态特征序列
T为各模态特征序列的序列长度,da、dl和dv分别为音频模态、文本模态和视觉模态的特征向量维度;
步骤2、分别建立三个时域卷积网络,将每个视频样本的音频模态特征序列Za、视觉模态特征序列Zv和文本模态特征序列Zl分别送入对应时域卷积网络中,学习各模态特征序列的时域关系,各模态特征序列的特征向量维度被统一为d,最后,得到包含上下文信息的音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl;
步骤3、构建L个多通道可变形卷积网络并按顺序堆叠在一起,每个多通道可变形卷积网络由三个“通道扩展”模块和一个“通道融合”模块组成;然后,将包含上下文信息的音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl同时输入到堆叠的多通道可变形卷积网络中进行处理,得到包含高层语义信息的音频模态特征序列视觉模态特征序列/>和文本模态特征序列/>
步骤4、构建多模态语义胶囊融合网络,获得全局信息胶囊V;
步骤5、将全局语义胶囊V输入到双向长短期记忆网络中进行压缩,得到压缩的多模态融合
步骤6、将压缩的多模态融合送入密集层中进行多模态情感分类。
本发明的特点还在于,
步骤3中,每个“通道扩展”模块是由卷积核大小为3×3和5×5的卷积神经网络以及池化大小为3×3的最大池化层组成;“通道融合”模块是由五个卷积核大小为3×3的可变形卷积网络组成;
每个多通道可变形卷积网络的具体处理过程为:
步骤A、将包含上下文信息的音频模态特征序列视觉模态特征序列和文本模态特征序列/>分别输入到“通道扩展”模块中;在“通道扩展”模块中,使用大小为3×3和5×5的卷积核以及大小为3×3的最大池化操作分别处理各模态特征序列,提取各模态特征序列不同粒度的语义信息,具体计算过程如式(1)-(3)所示:
其中,i∈{a、v、l},2Conv表示为二维卷积神经网络, 和/>分别是使用为3×3卷积、5×5卷积和3×3最大池化的输出结果,/>是使用3×3卷积操作后的特征通道数,/>是使用5×5卷积操作后的特征通道数,/>是使用3×3最大池化操作后的特征通道数;
步骤B、将相同模态的和/>分别与Xi拼接在一起,以得到“通道扩展”模块的最终输出/>即分别为/>和/>具体计算过程如式(4)所示:
其中,C是拼接后的特征通道维度,计算公式为
步骤C、将三个“通道扩展”模块的输出和/>输入到“通道融合”模块,在“通道融合”模块中,首先按照语义信息的粒度对/>和/>进行划分和拼接,并送入对应的可变形卷积网络中进行处理,具体计算过程如式(5)-(9)所示:
其中,X3×3、X5×5、Xpool和Xavl分别为各模态相同粒度的特征序列融合之后的结果,DeforConv表示为可变形卷积网络, 和/>分别为“通道融合”模块输出的音频模态、文本模态和视觉模态的特征序列;
步骤D、引入残差网络以保证多通道可变形卷积网络不会随着网络层数增加而出现性能下降现象,具体计算过程如式(10)所示:
其中,表示矩阵加法操作,/>和分别为多通道可变形卷积网络输出的各模态特征序列;
步骤E、以和/>作为输入,重复L次步骤A-步骤D,得到堆叠多通道可变形卷积网络的最终输出/>和/>
步骤4中,具体为:
步骤A、将音频模态特征序列视觉模态特征序列/>文本模态特征序列音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl按照维度T拼接在一起,得到输出特征序列/>然后从维度T对特征序列X进行划分,得到T个特征序列/>其中i∈{1,2,...,};
步骤B、使用一维卷积神经网络分别处理特征序列得到T个局部语义信息胶囊/>其中r为一维卷积后的特征维度;
步骤C、分别给每个局部信息胶囊一个初始的权重值,将这些局部信息胶囊和对应的权重值加权求和得到一个新的特征序列将其称为全局信息胶囊;然后计算全局信息胶囊P和每个局部信息胶囊Ui之间的皮尔逊相关系数,并使用得到的皮尔逊相关系数去更新每个局部信息胶囊对应的权重值;其次,使用所有更新后的权重值重新与对应的局部信息胶囊加权求和,得到一个新的全局信息胶囊/>最后,计算新的全局信息胶囊M和每个局部信息胶囊Ui的皮尔逊相关系数,并继续更新对应的权重值,重复N次,得到最终输出的全局信息胶囊/>其中j∈{1,2,...,},具体计算过程如式(11)-(15)所示:
其中,表示权重值,/>为中间胶囊,cij表示胶囊系数,用于和中间胶囊/>加权求和生成全局信息胶囊jj,bij为1,“←”表示对数值进行更新,/>是/>和Vj的皮尔逊相关系数,/>是/>的均值,/>是Vj的均值,/>是/>的均值,是Vj 2的均值,/>是/>的均值。
步骤6中,密集层由一个ReLU激活的全连接层、两个线性全连接层和一个Dropout层组成。
本发明的有益效果是:
1)本发明创新性地提出用于学习各模态特征序列的高层语义信息的网络,即多通道可变形卷积网络。该网络通过“通道扩展”和“通道融合”可以充分提取各模态特征序列不同粒度的语义信息,以及通过可变形卷积网络结合其他模态的语义信息,学习到各模态特征序列中隐式的语义信息。并且堆叠多个多通道可变形卷积网络重复处理各模态特征序列,可以充分的提取各模态特征序列的高层语义信息,使学习到各模态高级表示更具代表性,包含更多抽象的语义信息;
2)与以往使用胶囊网络的情感识别工作相比,本发明对标准的胶囊网络进行了改进,对每个单词上的所有模态特征序列进行组合以生成局部信息胶囊,并且将胶囊从向量形式变为矩阵形式,增强了胶囊网络的表示能力。此外,使用皮尔逊相关系数计算局部信息胶囊与全局信息胶囊之间的关系,使全局信息胶囊的生成过程更加严谨合理;
3)通过大量的实验分析和验证,本发明提出的基于通道扩展与融合的循环胶囊网络合理有效,能够达大大提高多模态情感识别的准确率。
附图说明
图1是本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法的流程图;
图2是本发明“通道扩展”模块的结构图;
图3是本发明“通道融合”模块的结构图;
图4是本发明多模态语义胶囊融合网络的结构图;
图5是本发明特征序列X的划分流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
实施例1
本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法,如图1所示,具体按照以下步骤实施:
步骤1、从多模态情感视频数据库中提取多个视频样本,通过多模态软件开发工具包从每个视频样本中分别提取音频模态特征序列视觉模态特征序列和文本模态特征序列/>
其中,T为各模态特征序列的序列长度,da、dl和dv分别为音频模态、文本模态和视觉模态的特征向量维度;
多模态情感视频数据库包括CMU-MOSI、CMU-MOSEI和IEMOCAP;
步骤2、分别建立三个时域卷积网络,将每个视频样本的音频模态特征序列Za、视觉模态特征序列Zv和文本模态特征序列Zl分别送入对应建立好的时域卷积网络中,以学习各模态特征序列的时域关系,同时滤除各模态特征序列中的冗余信息,此外,通过时域卷积网络处理,各模态特征序列的特征向量维度被统一为d。最后,得到包含上下文信息的音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl;
步骤3、构建L个多通道可变形卷积网络并按顺序堆叠在一起,每个多通道可变形卷积网络由三个“通道扩展”模块和一个“通道融合”模块组成;然后,将包含上下文信息的音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl同时输入到堆叠的多通道可变形卷积网络中进行处理,在每个多通道可变形卷积网络中,各模态特征序列Xa、Xv和Xl首先被分别送入对应的“通道扩展”模块中,通过不同大小的卷积核提取多粒度语义信息,然后所有“通道扩展”模块的输出特征序列被送入“通道融合”模块进一步学习处理,最后得到包含高层语义信息的音频模态特征序列视觉模态特征序列/>和文本模态特征序列/>
其中,每个“通道扩展”模块是由卷积核大小为3×3和5×5的卷积神经网络以及池化大小为3×3的最大池化层组成,详细结构如图2所示;“通道融合”模块是由五个卷积核大小为3×3的可变形卷积网络组成,详细结构如图3所示;具体来说,每个多通道可变形卷积网络的具体过程为:
步骤A、将包含上下文信息的音频模态特征序列视觉模态特征序列和文本模态特征序列/>分别输入到“通道扩展”模块中;在“通道扩展”模块中,使用大小为3×3和5×5的卷积核以及大小为3×3的最大池化操作分别处理各模态特征序列,提取各模态特征序列不同粒度的语义信息,具体计算过程如式(1)-(3)所示:
其中,i∈{a、v、l},2Conv表示为二维卷积神经网络, 和/>分别是使用为3×3卷积、5×5卷积和3×3最大池化的输出结果,/>是使用3×3卷积操作后的特征通道数,/>是使用5×5卷积操作后的特征通道数,/>是使用3×3最大池化操作后的特征通道数。
步骤B、将相同模态的和/>分别与Xi拼接在一起,以得到“通道扩展”模块的最终输出/>即分别为/>和/>具体计算过程如式(4)所示:
其中,C是拼接后的特征通道维度,计算公式为
步骤C、将三个“通道扩展”模块的输出和/>输入到“通道融合”模块,在“通道融合”模块中,首先按照语义信息的粒度对/>和/>进行划分和拼接,并送入对应的可变形卷积网络中进行处理,具体计算过程如式(5)-(9)所示:
其中,X3×3、X5×5、Xpool和Xavl分别为各模态相同粒度的特征序列融合之后的结果,DeforConv表示为可变形卷积网络,结构如表1所示,和/>分别为“通道融合”模块输出的音频模态、文本模态和视觉模态的特征序列。
步骤D、为了防止出现网络退化现象,引入残差网络以保证多通道可变形卷积网络不会随着网络层数增加而出现性能下降现象,具体计算过程如式(10)所示:
其中,表示矩阵加法操作,/>和分别为多通道可变形卷积网络输出的各模态特征序列。
步骤E、以和/>作为输入,重复L次步骤A-步骤D,得到堆叠多通道可变形卷积网络的最终输出/>和/>
表1可变形卷积网络的结构,1和C2表示特征图的通道数
Layer | Kernel | Activation | Filters | Padding | Output |
Input | - | - | - | - | C1×T×d |
Conv 1 | 3×3 | - | C1×2 | 1 | C1×2×T×d |
Offset 1 | - | - | - | - | C1×T×d |
Conv 2 | 3×3 | ReLU | C2 | 1 | C2×T×d |
Batch Norm 1 | - | - | - | - | C2×T×d |
Conv 3 | 3×3 | - | C2×2 | 1 | C2×2×T×d |
Offset 2 | - | - | - | - | C2×T×d |
Conv 4 | 3×3 | ReLU | 1 | 1 | 1×T×d |
Batch Norm 2 | - | - | - | - | 1×T×d |
步骤4、构建多模态语义胶囊融合网络,如图4所示,该网络将输入特征序列划分为T个部分,分别针对每个部分使用一维卷积神经网络处理,输出T个特征序列,将其称为局部信息胶囊;然后,分别给每个局部信息胶囊一个权重值,将这些局部信息胶囊加权求和得到一个新的特征序列,将其称为全局信息胶囊;其次,计算全局信息胶囊和每个局部信息胶囊的皮尔逊相关系数,使用得到皮尔逊相关系数去更新对应的权重值,再使用更新后的权重值重新与对应的局部信息胶囊加权求和,得到新的全局信息胶囊;最后,继续计算新的全局信息胶囊和每个局部信息胶囊的皮尔逊相关系数,并更新对应的权重值,重复N次,输出最后一次得到的全局信息胶囊;
步骤5、将全局语义胶囊V输入到双向长短期记忆网络中进行压缩,得到压缩的多模态融合具体计算过程如式(16)所示:
其中,Bi-LSTM表示双向长短期记忆网络;通过这种方法,模型的参数量从(b*6*r)2降低为(6*)2,减少了b2倍。此外,由于全局信息胶囊的个数b很小,所以双向长短期记忆网络的学习过程中不会存在长程依赖问题。
步骤6、将压缩的多模态融合送入密集层中进行多模态情感分类,具体计算过程如式(17)所示:
其中,Dense表示密集层,由一个ReLU激活的全连接层、两个线性全连接层和一个Dropout层组成。对于不同的数据集和目标任务,o的维度取值是不同的;
实施例2
与实施例1的区别在于,多模态语义胶囊融合网络的具体构建过程为:
步骤A、音频模态特征序列视觉模态特征序列/>文本模态特征序列音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl按照维度T拼接在一起,得到输出特征序列/>然后从维度T对特征序列X进行划分,具体划分步骤如图5所示,得到T个特征序列/>其中i∈{1,2,...,}。
步骤B、使用一维卷积神经网络分别处理特征序列得到T个局部语义信息胶囊/>其中r为一维卷积后的特征维度。
步骤C、分别给每个局部信息胶囊一个初始的权重值,将这些局部信息胶囊和对应的权重值加权求和得到一个新的特征序列将其称为全局信息胶囊;然后计算全局信息胶囊P和每个局部信息胶囊Ui之间的皮尔逊相关系数,并使用得到的皮尔逊相关系数去更新每个局部信息胶囊对应的权重值;其次,使用所有更新后的权重值重新与对应的局部信息胶囊加权求和,得到一个新的全局信息胶囊/>最后,计算新的全局信息胶囊M和每个局部信息胶囊Ui的皮尔逊相关系数,并继续更新对应的权重值,重复N次,得到最终输出的全局信息胶囊/>其中j∈{1,2,...,},具体计算过程如式(11)-(15)所示:
其中,表示权重值,/>为中间胶囊,cij表示胶囊系数,用于和中间胶囊/>加权求和生成全局信息胶囊Vj,bij是一个标量,初始值为1,用于衡量/>有多少信息应该被发送给Vj,当/>和Vj越相似时,就表明Vj包含/>的语义信息越多,对应/>的贡献就越大,因此bij就应该越大,“←”表示对数值进行更新,/>则是/>和Vj的皮尔逊相关系数,/>是/>的均值,/>是Vj的均值,/>是/>的均值,/>是/>的均值,/>是/>的均值。
实施例3
本发明在CMU-MOSI、CMU-MOSEI和IEMOCAP三个多模态情感数据集上进行了大量实验并分析讨论,以评估本发明在各方面指标上的性能。
实验结果对比如下:
对于CMU-MOSI和CMU-MOSEI数据集,本发明将其作为一个回归任务,因此评估指标包含常见的相关系数(Corr)和平均绝对误差(MAE)。此外,由于CMU-MOSI和CMU-MOSEI数据集的连续值标签的取值范围在[-3,3]之间,因此大多数多模态情感识别工作对这个取值范围进行划分,得到新的评估指标七类准确率(Acc7,将[-3,3]划分为七类)、二类准确率(Acc2,将[-3,3]划分为两类)和F1分数(F1)。为了更公平的与大多数模型对比性能,本发明也选择使用这三个指标来评估基于通道扩展与融合的循环胶囊网络的性能。针对IEMOCAP数据集,本发明遵循现有大多数工作的评估方式,使用准确率(Acc)和F1评估基于通道扩展与融合的循环胶囊网络在该数据集上的识别性能。
在CMU-MOSI数据集上不同网络模型的性能对比结果如表2所示;在CMU-MOSEI数据集上不同网络模型的性能对比结果如表3所示;在IEMOCAP数据集上不同网络模型的性能对比结果如表4所示;
表2 CMU-MOSI数据集上不同网络模型的性能对比结果
Methods | Acc7 | Acc2 | F1 | Corr | MAE |
EF-LSTM | 33.7 | 75.3 | 75.2 | 0.608 | 1.023 |
LF-LSTM | 35.3 | 76.8 | 76.7 | 0.625 | 1.015 |
TFN | 34.9 | 75.6 | 75.5 | 0.605 | 1.009 |
LMF | 30.5 | 75.3 | 75.2 | 0.605 | 1.018 |
QMF | 33.5 | 79.7 | 79.6 | 0.696 | 0.915 |
CIA | 38.9 | 79.8 | 79.5 | 0.689 | 0.914 |
MCTN | 35.6 | 79.3 | 79.1 | 0.676 | 0.909 |
MFM | 31.9 | 76.2 | 75.8 | 0.622 | 0.988 |
RAVEN | 33.8 | 78.8 | 76.9 | 0.667 | 0.968 |
MARN | 34.7 | 77.1 | 77.0 | 0.625 | 0.968 |
RCN-CEF | 34.4 | 81.1 | 81.4 | 0.712 | 0.908 |
表3在CMU-MOSEI数据集上不同网络模型的性能对比结果
Methods | Acc7 | Acc2 | F1 | Corr | MAE |
EF-LSTM | 47.5 | 79.2 | 79.0 | 0.627 | 0.656 |
LF-LSTM | 47.2 | 79.1 | 78.6 | 0.610 | 0.667 |
Graph-MFN | 45.0 | 76.9 | 77.0 | 0.54 | 0.71 |
TFN | 47.3 | 79.3 | 78.2 | 0.618 | 0.657 |
LMF | 47.6 | 78.2 | 77.6 | 0.623 | 0.660 |
QMF | 47.9 | 80.7 | 79.8 | 0.658 | 0.640 |
MMMU-BA | 48.4 | 80.7 | 80.2 | 0.672 | 0.627 |
MCTN | 49.6 | 79.8 | 80.6 | 0.670 | 0.609 |
RCN-CEF | 50.8 | 79.7 | 80.7 | 0.681 | 0.596 |
表4在IEMOCAP数据集上不同网络模型的性能对比结果
由表2-表4的实验数据可以看出,本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法,可以准确地识别出用户的情感状态。此外,通过多通道可变形卷积网络的“通道扩展”和“通道融合”模块分别可以提取到各模态特征序列不同粒度的语义信息和各模态特征序列中隐式的语义信息,并且多通道可变形卷积网络模块通过堆叠的方式能够保证学习到各模态特征序列的高层语义信息。同时,多模态语义胶囊融合网络首先分别在局部区域融合各模态特征序列,然后通过集成这些局部融合表示得到一个完整的多模态融合表示,通过这种方法模型可以充分学习到所有的局部语义信息,同时保证学习到的全局语义信息更加完整充分。
综上所述,本发明基于通道扩展与融合的循环胶囊网络多模态情感识别方法整体上是优于现有方法,这验证了本发明提出方法的有效性,能够有效提取各模态特征序列的高层语义信息,同时学习不同模态特征序列之间的潜在关系,有效地融合不同模态特征序列,得到更具代表性的多模态融合表示。
Claims (5)
1.基于通道扩展与融合的循环胶囊网络多模态情感识别方法,其特征在于,具体为:提取多个视频样本,并从每个视频样本中分别提取音频模态特征序列、视觉模态特征序列和文本模态特征序列;将上述模态特征序列逐一输入时域卷积网络中,分别得到包含上下文信息的模态特征序列、视觉模态特征序列和文本模态特征序列;利用多通道可变形卷积网络从上述模态特征序列中逐一学习,分别得到包含高层语义信息的音频模态特征序列、视觉模态特征序列和文本模态特征序列,利用构建的多模态语义胶囊融合网络获取全局信息胶囊,并输入到双向长短期记忆网络中进行压缩,最后,送入密集层中进行多模态情感分类。
2.根据权利要求1所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法,其特征在于,具体按照以下步骤实施:
步骤1、从多模态情感视频数据库中提取多个视频样本,从每个视频样本中分别提取音频模态特征序列视觉模态特征序列/>和文本模态特征序列
T为各模态特征序列的序列长度,da、dl和dv分别为音频模态、文本模态和视觉模态的特征向量维度;
步骤2、分别建立三个时域卷积网络,将每个视频样本的音频模态特征序列Za、视觉模态特征序列Zv和文本模态特征序列Zl分别送入对应时域卷积网络中,学习各模态特征序列的时域关系,各模态特征序列的特征向量维度被统一为d,最后,得到包含上下文信息的音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl;
步骤3、构建L个多通道可变形卷积网络并按顺序堆叠在一起,每个多通道可变形卷积网络由三个“通道扩展”模块和一个“通道融合”模块组成;然后,将包含上下文信息的音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl同时输入到堆叠的多通道可变形卷积网络中进行处理,得到包含高层语义信息的音频模态特征序列视觉模态特征序列/>和文本模态特征序列/>
步骤4、构建多模态语义胶囊融合网络,获得全局信息胶囊V;
步骤5、将全局语义胶囊V输入到双向长短期记忆网络中进行压缩,得到压缩的多模态融合
步骤6、将压缩的多模态融合送入密集层中进行多模态情感分类。
3.根据权利要求2所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法,其特征在于,所述步骤3中,每个“通道扩展”模块是由卷积核大小为3×3和5×5的卷积神经网络以及池化大小为3×3的最大池化层组成;“通道融合”模块是由五个卷积核大小为3×3的可变形卷积网络组成;
每个多通道可变形卷积网络的具体处理过程为:
步骤A、将包含上下文信息的音频模态特征序列视觉模态特征序列和文本模态特征序列/>分别输入到“通道扩展”模块中;在“通道扩展”模块中,使用大小为3×3和5×5的卷积核以及大小为3×3的最大池化操作分别处理各模态特征序列,提取各模态特征序列不同粒度的语义信息,具体计算过程如式(1)-(3)所示:
其中,i∈{a、v、l},2Conv表示为二维卷积神经网络, 和/>分别是使用为3×3卷积、5×5卷积和3×3最大池化的输出结果,/>是使用3×3卷积操作后的特征通道数,/>是使用5×5卷积操作后的特征通道数,/>是使用3×3最大池化操作后的特征通道数;
步骤B、将相同模态的和/>分别与Xi拼接在一起,以得到“通道扩展”模块的最终输出/>即分别为/>和/>具体计算过程如式(4)所示:
其中,C是拼接后的特征通道维度,计算公式为
步骤C、将三个“通道扩展”模块的输出和/>输入到“通道融合”模块,在“通道融合”模块中,首先按照语义信息的粒度对/>和/>进行划分和拼接,并送入对应的可变形卷积网络中进行处理,具体计算过程如式(5)-(9)所示:
其中,X3×3、X5×5、Xpool和Xavl分别为各模态相同粒度的特征序列融合之后的结果,DeforConv表示为可变形卷积网络, 和/>分别为“通道融合”模块输出的音频模态、文本模态和视觉模态的特征序列;
步骤D、引入残差网络以保证多通道可变形卷积网络不会随着网络层数增加而出现性能下降现象,具体计算过程如式(10)所示:
其中,表示矩阵加法操作,/>和/>分别为多通道可变形卷积网络输出的各模态特征序列;
步骤E、以和/>作为输入,重复L次步骤A-步骤D,得到堆叠多通道可变形卷积网络的最终输出/>和/>
4.根据权利要求2所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法,其特征在于,所述步骤4中,具体为:
步骤A、将音频模态特征序列视觉模态特征序列/>文本模态特征序列音频模态特征序列Xa、视觉模态特征序列Xv和文本模态特征序列Xl按照维度T拼接在一起,得到输出特征序列/>然后从维度T对特征序列X进行划分,得到T个特征序列/>其中i∈{1,2,...,T};
步骤B、使用一维卷积神经网络分别处理特征序列得到T个局部语义信息胶囊/>其中r为一维卷积后的特征维度;
步骤C、分别给每个局部信息胶囊一个初始的权重值,将这些局部信息胶囊和对应的权重值加权求和得到一个新的特征序列将其称为全局信息胶囊;然后计算全局信息胶囊P和每个局部信息胶囊Ui之间的皮尔逊相关系数,并使用得到的皮尔逊相关系数去更新每个局部信息胶囊对应的权重值;其次,使用所有更新后的权重值重新与对应的局部信息胶囊加权求和,得到一个新的全局信息胶囊/>最后,计算新的全局信息胶囊M和每个局部信息胶囊Ui的皮尔逊相关系数,并继续更新对应的权重值,重复N次,得到最终输出的全局信息胶囊/>其中j∈{1,2,...,},具体计算过程如式(11)-(15)所示:
其中,表示权重值,/>为中间胶囊,cij表示胶囊系数,用于和中间胶囊加权求和生成全局信息胶囊Vj,bij为1,“←”表示对数值进行更新,/>是/>和Vj的皮尔逊相关系数,/>是/>的均值,/>是Vj的均值,/>是/>的均值,/>是Vj 2的均值,/>是/>的均值。
5.根据权利要求2所述的基于通道扩展与融合的循环胶囊网络多模态情感识别方法,其特征在于,所述步骤6中,密集层由一个ReLU激活的全连接层、两个线性全连接层和一个Dropout层组成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310567609.6A CN116502181A (zh) | 2023-05-19 | 2023-05-19 | 基于通道扩展与融合的循环胶囊网络多模态情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310567609.6A CN116502181A (zh) | 2023-05-19 | 2023-05-19 | 基于通道扩展与融合的循环胶囊网络多模态情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116502181A true CN116502181A (zh) | 2023-07-28 |
Family
ID=87316503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310567609.6A Pending CN116502181A (zh) | 2023-05-19 | 2023-05-19 | 基于通道扩展与融合的循环胶囊网络多模态情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116502181A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058595A (zh) * | 2023-10-11 | 2023-11-14 | 齐鲁工业大学(山东省科学院) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 |
CN117112834A (zh) * | 2023-10-24 | 2023-11-24 | 苏州元脑智能科技有限公司 | 视频的推荐方法和装置、存储介质及电子装置 |
-
2023
- 2023-05-19 CN CN202310567609.6A patent/CN116502181A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117058595A (zh) * | 2023-10-11 | 2023-11-14 | 齐鲁工业大学(山东省科学院) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 |
CN117058595B (zh) * | 2023-10-11 | 2024-02-13 | 齐鲁工业大学(山东省科学院) | 视频语义特征和可扩展粒度感知时序动作检测方法及装置 |
CN117112834A (zh) * | 2023-10-24 | 2023-11-24 | 苏州元脑智能科技有限公司 | 视频的推荐方法和装置、存储介质及电子装置 |
CN117112834B (zh) * | 2023-10-24 | 2024-02-02 | 苏州元脑智能科技有限公司 | 视频的推荐方法和装置、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310707B (zh) | 基于骨骼的图注意力网络动作识别方法及系统 | |
CN111259142B (zh) | 基于注意力编码和图卷积网络的特定目标情感分类方法 | |
CN112926641B (zh) | 基于多模态数据的三阶段特征融合旋转机械故障诊断方法 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
CN112633010B (zh) | 基于多头注意力和图卷积网络的方面级情感分析方法及系统 | |
CN116502181A (zh) | 基于通道扩展与融合的循环胶囊网络多模态情感识别方法 | |
CN113140254B (zh) | 元学习药物-靶点相互作用预测系统及预测方法 | |
CN109817276A (zh) | 一种基于深度神经网络的蛋白质二级结构预测方法 | |
CN111782826A (zh) | 知识图谱的信息处理方法、装置、设备及存储介质 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN116417093A (zh) | 一种结合Transformer和图神经网络的药物靶标相互作用预测方法 | |
Ding et al. | Product color emotional design based on a convolutional neural network and search neural network | |
CN112860904B (zh) | 一种融入外部知识的生物医疗关系抽取方法 | |
CN114780748A (zh) | 基于先验权重增强的知识图谱的补全方法 | |
CN108536735A (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
CN112651940A (zh) | 基于双编码器生成式对抗网络的协同视觉显著性检测方法 | |
Xu et al. | Guided multi-scale refinement network for camouflaged object detection | |
CN112541541B (zh) | 基于多元素分层深度融合的轻量级多模态情感分析方法 | |
Termritthikun et al. | Evolutionary neural architecture search based on efficient CNN models population for image classification | |
CN111340067B (zh) | 一种用于多视图分类的再分配方法 | |
CN112966672A (zh) | 一种复杂背景下的手势识别方法 | |
CN113284627A (zh) | 基于患者表征学习的用药推荐方法 | |
CN112668481A (zh) | 一种遥感图像语义抽取方法 | |
Kaddar et al. | Divnet: efficient convolutional neural network via multilevel hierarchical architecture design | |
Chung et al. | Filter pruning by image channel reduction in pre-trained convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |