CN116189047A - 一种基于多模态信息聚合的短视频分类方法 - Google Patents

一种基于多模态信息聚合的短视频分类方法 Download PDF

Info

Publication number
CN116189047A
CN116189047A CN202310006748.1A CN202310006748A CN116189047A CN 116189047 A CN116189047 A CN 116189047A CN 202310006748 A CN202310006748 A CN 202310006748A CN 116189047 A CN116189047 A CN 116189047A
Authority
CN
China
Prior art keywords
mode
short video
category
graph
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310006748.1A
Other languages
English (en)
Inventor
吕卫
林家欣
褚晶辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310006748.1A priority Critical patent/CN116189047A/zh
Publication of CN116189047A publication Critical patent/CN116189047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多模态信息聚合的短视频分类方法,包括以下步骤:提取出短视频的视觉、轨迹、声音三种模态特征;引入一组并行的图卷积网络,将三种模态特征经过处理后获得的类别嵌入矩阵作为图卷积的初始节点特征输入,不同的图卷积网络的相关矩阵分别代表各个节点间模态共享和各模态特有的两种标签关联模式,利用图卷积的相关矩阵对节点进行更新,获得更新后的节点特征;多模态信息聚合:引入带有聚合瓶颈项的序列自注意力机制,以特定方向聚合并浓缩来自各个模态的重要信息,同时丢弃冗余信息,得到融合后的类别表示;将获得的最终类别表示输入分类器获得短视频的标签预测分数,采用多标签分类损失函数来指导网络寻找模型最优解。

Description

一种基于多模态信息聚合的短视频分类方法
技术领域
本发明涉及短视频分类领域,尤其涉及一种基于多模态信息聚合的短视频分类方法。
背景技术
近年来,各大短视频平台蓬勃发展,表明短视频作为一种新型的用户生成内容方式,正以其易于操作、即时分享、内容贴近生活的特性吸引广大用户,成为社交媒体时代的主流趋势之一。与此同时,这也意味着大量的多媒体数据每时每刻都在产生,且其产生速度还在持续高速增长,使得用户真正需求的信息被规模庞大的无关信息所掩盖,难以获取。因此,对这些爆发性增长的视频数据进行分类管理成为迫切需求。良好的视频分类能够帮助短视频平台和网站实现更加精准的内容搜索、个性化推荐和广告投放,提升用户的使用体验,也为平台带来更高的经济收益,具有重要的应用价值和现实意义。
另一方面,短视频天然的包含多种模态信息,如视觉、音频、轨迹和文本等,这些信息从不同角度对短视频的内容进行了描述,起到相互补充的作用。因此,考虑从多模态的角度解决短视频的分类任务是合理的,也有利于推动相关领域的发展,是一个具有研究价值和应用价值的课题。
经检索,查到的部分相关专利文献如下:
专利110334689公开了一项基于多模态融合的视频分类方法,先使用并行的自注意力机制分别获取各模态类别信息,后将各模态类别信息依次输入门控循环单元实现多模态融合的后融合策略,所用注意力模块用于捕获各模态内部的特征关系,并未涉及对标签之间的相关性的利用。
专利CN111246256公开了一种基于多模态视频内容和多任务学习的视频推荐方法,根据用户对各模态的偏好(即用户特征),采用注意力机制学习视频各模态特征的权重,将各模态特征进行加权和获得视频特征表示,实现对视频多模态特征的融合。
专利CN115129934公开了一种多模态视频理解方法,对多模态信息采用的是后期融合策略,即将各模态特征所得的类别分数加权求和,作为整个视频的类别得分。
专利CN111382309提供了一种基于图模型的短视频推荐方法,使用了用户-短视频图结构,图的节点表示用户和短视频,边表示用户与短视频之间的交互,提出不再将多模态信息作为整体,而是对各个模态分开建模;该专利所用的多模态融合策略为直接拼接各个模态所得的特征向量,作为融合层的输出。
专利CN115329127公开了一种融合情感信息的多模态短视频标签推荐方法,首先通过多模态信息分别提取视频的内容特征和情感特征,后加权相加作为最终表示,其中权重由注意力网络学习。在内容特征和情感特征的学习中,不同模态信息通过跨注意力机制或多头共注意力机制进行交互,即不同模态特征之间互相直接进行交互。
发明内容
本发明提供一种基于多模态信息聚合的短视频分类方法,此分类方法有利于提升多模态场景下多标签短视频分类任务的准确性。技术方案如下:
一种基于多模态信息聚合的短视频分类方法,所述方法包括以下步骤:
步骤一:从所用数据集中预提取出短视频的视觉、轨迹、声音三种模态特征,设三种模态特征分别为视觉特征xv、轨迹特征xt、声音特征xa
步骤二:引入一组并行的图卷积网络,将三种模态特征经过处理后获得的类别嵌入矩阵作为图卷积的初始节点特征输入,不同的图卷积网络的相关矩阵分别代表各个节点间模态共享和各模态特有的两种标签关联模式,利用图卷积的相关矩阵对节点进行更新,获得更新后的节点特征。方法如下:
(1)获得各模态特有图卷积网络的初始节点特征:将三种模态特征xv,xt,xa分别输入3个结构相同的编码器得到编码后的模态表示uv,ut,ua,然后将um,m∈{v,t,a},按行扩展得到各模态的类别嵌入矩阵Zv,Zt,Za作为各模态特有图卷积网络的初始节点特征;
(2)获得模态共享图卷积网络的初始节点特征:通过卷积操作融合三个模态的类别嵌入矩阵Zv,Zt,Za获得,公式为:
Figure BDA0004037257170000021
其中,δ()为Sigmoid激活函数,
Figure BDA0004037257170000022
与/>
Figure BDA0004037257170000023
为卷积层的权重矩阵,C表示图节点数,在此处等于短视频标签个数,dm为类别嵌入的维度数;
(3)将Zv,Zt,Za和Zs分别作为相应的图卷积网络的初始节点特征V,带入下式,获得更新后的节点相应的各个特征:
Figure BDA0004037257170000024
其中,Vu为更新后的节点特征,A∈RC×C为相关矩阵,描述了标签之间的关联性,V为初始节点特征,
Figure BDA0004037257170000031
为状态权重更新矩阵,D为V的特征维度数,Du为Vu的特征维度数,LeakyReLU()为非线性激活函数;
将各模态特有的图卷积网络所得更新后的节点特征记为增强后的各模态类别嵌入Hm,m∈{v,t,a},其中v、t、a分别表示视觉、轨迹和声音模态;将模态共享图卷积网络所得更新后的节点特征记为模态共享的类别嵌入Hs,即更新后的节点特征Vu包含Hm,m∈{v,t,a},Hs
步骤三:多模态信息聚合:引入带有聚合瓶颈项的序列自注意力机制,以特定方向聚合并浓缩来自各个模态的重要信息,同时丢弃冗余信息,得到融合后的类别表示;
步骤四:将获得的最终类别表示输入分类器获得短视频的标签预测分数,采用多标签分类损失函数来指导网络寻找模型最优解。
进一步地,步骤一所述视觉、轨迹和声音三种模态特征的提取方法分别为:
视觉特征xv为以等时间间隔抽取短视频的多个图像帧,使用残差网络提取这些图像帧的深度特征后进行平均池化操作获得;轨迹特征xt为对短视频联合使用轨迹池化深度卷积描述子和费舍尔矢量获得;声音特征xa为提取短视频音频的梅尔倒谱系数获得。
进一步地,步骤三的所述多模态信息聚合过程为:
(1)使用增强后的视觉类别嵌入Hv通过卷积操作初始化生成低维度的聚合瓶颈项Hagg
(2)聚合瓶颈项Hagg通过序列自注意力机制模块按照特定顺序分别与各模态类别嵌入Hv,Ht,Ha进行交互,同时引入模态共享的类别嵌入Hs来指导整个聚合过程,方法如下:
将Hagg分别与Hs和模态类别嵌入Hm,m∈{v,t,a}串联,后分别输入自注意力机制,所得输出结果矩阵即为被该模态类别嵌入和Hs更新后的Hagg,拆分输出结果矩阵获得更新后的Hagg和Hs,再次与另一模态类别重复上述过程,通过自注意力机制进行模态特征融合,直至Hagg与所有模态完成交互;在这个过程中,来自各模态类别嵌入的重要信息被收集压缩至Hagg,将与所有模态类别嵌入交互更新过的聚合瓶颈项Hagg作为最终类别表示。
进一步地,所述损失函数为:
Figure BDA0004037257170000041
其中,log()为对数函数,Sigmoid()为非线性激活函数,C为标签类别数,yi为短视频的真实标签,si为标签预测分数。
本发明提供的技术方案的有益效果是:
(1)针对多模态场景下的多标签分类任务,考虑到不同模态对标签的贡献度不同,将标签相关性分解为各模态特有的标签关联模式和模态共享的标签关联模式,并引入了图卷积网络自适应的挖掘标签相关关系,有效的利用了标签信息;
(2)针对短视频多模态信息由于嵌入噪声信息导致各模态之间内在关联性被掩盖的问题,引入了序列自注意力机制挖掘模态特征空间的内在依赖关系,以此生成更完备的类别表示;
(3)探究了短视频中的多模态数据融合问题,引入了聚合瓶颈项来促使模型更好的收集和浓缩各模态信息,实现多模态信息的聚合,提供了一种多模态数据的融合方案;
本发明充分利用了短视频天然的多模态特性,同时考虑了标签之间、模态和标签之间的依赖关系,有利于提升多模态场景下多标签分类任务的准确性。
附图说明
图1为基于多模态信息聚合的短视频分类方法网络;
图2为基于自注意力机制的特征融合过程;
图3为使用不同模态组合的性能对比和与先进方法的性能对比。
具体实施方式
本发明提供了一种基于多模态信息聚合的短视频分类方法,具体方法框架参见图1,下面对实施方式进行详细描述:
第一步,构建数据集并进行模态特征提取:
(1)本发明使用了2018年AI挑战赛发布的大规模多标签短视频分类数据集,该数据集共包含20万条短视频,63类标签从视频主体、场景、动作等多个维度对短视频进行描述,大部分视频的时长为5到15秒。随机选取数据集中80%的短视频作为训练集,剩余的20%作为测试集。
(2)分别提取短视频的视觉、轨迹、声音三种模态特征:
对于视觉模态,按照等时间间隔抽取短视频的15帧图像帧,使用经过预训练的残差网络(ResNet)模型提取图像帧的深度特征表示,然后对它们进行平均池化(AveragePooling)操作,获得短视频的整体视觉特征xv
Figure BDA0004037257170000051
其中,ResNet()为残差网络,AvePooling()为平均池化操作,fv表示图像帧的深度视觉表示,βv为待学习的网络参数,Dv为视觉特征的维度。
对于轨迹模态,联合使用轨迹池化深度卷积描述子(Trajectory-Pooled Deep-Convolutional Descriptors,TDD)和费舍尔矢量,从短视频中提取轨迹特征xt
Figure BDA0004037257170000052
其中,TDD()表示轨迹池化深度卷积描述子网络,ft为短视频原始轨迹信息,βt为待学习的网络参数,Dt为轨迹特征的维度。
对于声音模态,提取短视频音频的梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients,MFCC),得到声音特征xa
Figure BDA0004037257170000053
其中,MFCC()表示梅尔倒谱系数,fa为短视频原始音频特征,βa为待学习的网络参数,Da为声音特征的维度。
第二步,通过深度学习框架Pytorch搭建基于多模态信息聚合的短视频分类网络。基于多模态信息聚合的短视频分类网络包括三个部分,标签依赖信息嵌入模块、多模态信息聚合模块和多标签分类模块。下面对这三个部分进行详细介绍:
(1)标签依赖关系是多标签学习的重要影响因素之一,除此之外,在多模态情景下,由于不同模态对标签的贡献度不同,模态与标签之间的关联性也需要被考虑。因此构建一组平行的图卷积网络来分别挖掘模态共享和各模态特有的标签关联模式。
首先介绍图结构和图卷积的概念。给定一个有C个标签节点的图G,可以使用一个矩阵V=[v1,v2,...,vC]∈RC×D来描述节点特征,其中D为节点特征的维度。图G的边,即相关矩阵A∈RC×C则反映标签之间的关系。图卷积可以利用这种关联性来更新V的值,公式定义如下:
Figure BDA0004037257170000054
其中,Vu表示更新后的节点特征,
Figure BDA0004037257170000061
为状态权重更新矩阵,LeakyReLU()为非线性激活函数。
①建立初始图结构
将第一步得到的模态特征xv,xt,xa分别输入3个结构相同的编码器得到编码后的模态表示uv,ut,ua
Figure BDA0004037257170000062
其中,m∈{v,t,a}为模态指示器,v、t、a分别表示视觉、轨迹和声音模态,σ()表示非线性激活函数,FC()为全连接层操作,dm为编码后所得表示的维度数。然后将um按行扩展,就得到了类别嵌入矩阵
Figure BDA0004037257170000063
作为图的初始节点特征,该矩阵的各行分别代表对应类别的表示。
②挖掘模态共享和各模态特有的标签关联模式
引入一组并行的图卷积网络分别挖掘上述两种关联模式。将Zv,Zt,Za分别输入各模态特有的图卷积网络,得到更新后的节点Hm
Figure BDA0004037257170000064
其中,Am∈RC×C,
Figure BDA0004037257170000065
分别表示对应模态的特有图卷积网络的相关矩阵和状态权重更新矩阵,Hm,m={v,t,a}代表了模态特有关联模式增强后的类别嵌入。
同时,融合三个模态的嵌入矩阵Zv,Zt,Za作为模态共享图卷积网络的输入,得到模态共享的类别嵌入Hs
Figure BDA0004037257170000066
其中,δ()表示Sigmoid激活函数,As∈RC×C,
Figure BDA0004037257170000067
分别表示模态共享图卷积网络的相关矩阵和状态权重更新矩阵,/>
Figure BDA0004037257170000068
与/>
Figure BDA0004037257170000069
表示卷积层的权重矩阵,通过多个卷积操作实现Zv,Zt,Za三者的融合。
(2)由于自注意机制能够挖掘特征之间的内在联系,强化其中的重要特征,本发明引入了一个低维度的多模态信息聚合瓶颈项
Figure BDA00040372571700000610
使Hagg与Hm,m={v,t,a}通过序列自注意力机制进行交互,从而将各模态的重要信息聚合到Hagg上。
①初始化多模态信息聚合瓶颈项Hagg
由于视觉模态通常包含较其他模态更丰富的信息,因此考虑以视觉模态为主,其他模态信息作为补充,使得
Figure BDA0004037257170000071
初始化如下:
Figure BDA0004037257170000072
其中,Hv为增强后的视觉类别嵌入,Conv_1d()表示一维卷积操作。
②多模态信息聚合
引入序列自注意力机制模块,使得初始化后的
Figure BDA0004037257170000073
与各模态Hm以串行的顺序进行交互,实现多模态信息聚合,同时引入Hs来指导整个聚合过程。
为了简化公式表达,定义基于缩放点积的自注意力操作如下:
Figure BDA0004037257170000074
其中,θ为可学习参数,Softmax()为非线性激活函数,WQ,WK,WV为将输入X分别变换为查询矩阵、键矩阵和值矩阵的映射矩阵,dk为缩放因子,用于抵消使用Softmax函数带来的梯度消失效应。
在模态信息聚合过程中,将Hagg分别与Hs和Hm串联后,将它们输入自注意力机制中,第l层的序列自注意力操作定义如下:
Figure BDA0004037257170000075
其中,l=1,2,3表示当前为第l层模态特征融合过程,Hm为当前特征融合层所选的模态类别嵌入,表示矩阵拼接操作,θst为对应的可学习参数。单层模态特征融合过程如图2所示,将Hagg分别与Hs和模态类别嵌入Hm串联,后分别输入自注意力机制,拆分所得输出结果矩阵获得更新后的Hagg和Hs
以t→a→v的信息聚合顺序为例,即l=1,2,3时,Hm分别取Ht,Ha,Hv,则整个信息聚合过程可表示如下:
Figure BDA0004037257170000081
在这个过程中,来自各模态的信息被迫压缩和汇总到最终的
Figure BDA0004037257170000082
中。
(3)将(2)中取得的
Figure BDA0004037257170000083
作为最终的类别表示矩阵来完成多标签分类任务,其中,hi(i=1,2,...,C)为特定于第i个类别的表示向量,并包含了来自短视频的内容信息。将hi输入对应的分类器得到预测的类别得分s=[s1,s2,...,sC],采用传统的多标签分类损失作为模型的损失函数:
Figure BDA0004037257170000084
其中,log(·)为对数函数,Sigmoid(·)为非线性激活函数,C为标签类别数,yi为短视频的真实标签,si为标签预测结果。
第三步,模型训练和实验:
在训练过程中,使用了SGD随机梯度下降优化器,其中动量(momentum)设为0.9,权重衰减(weight decay)设置为0.001。初始学习率设置为0.01,batch_size设置为64。epoch设置为50,即整个网络总共需要训练50轮,并在训练完45轮后将学习率衰减为原来的0.1倍。训练完成后保存网络的模型和参数。本发明采用平均精度(mAP)、首标记错误(One-error)、覆盖率(Coverage)、排名损失(RankingLoss)和汉明损失(HammingLoss)这五个评价指标来对模型的多标签分类性能进行评估,其中:
(1)平均精度表示多个类别(在本实验中为63个类别)的准确度的平均值,其值越大,模型分类性能越好;
(2)首标记错误计算预测概率值最大的标签不属于正确标签集合的频率,其值越小,模型分类性能越好;
(3)覆盖率将标签的预测概率值从大到小排序,计算平均需要取前多少个值才能覆盖所有的正确标签,其值越小,模型分类性能越好;
(4)排名损失计算实例的倒序标签对的平均分数,其值越小,模型分类性能越好;
(5)汉明损失计算预测标签与正确标签的差异,其值越小,模型分类性能越好。
实验结果如图3所示,v,t,a分别表示视觉、轨迹和声音模态。图3分别展示了不同的模态组合的分类性能对比和与经典方法的分类性能对比,证明了本发明所提方法能够有效聚合来自多个模态的信息,并在与先进方法的对比中取得有竞争性的结果。
综上所述,本发明提供了一种基于多模态信息聚合的短视频分类方法。对于包含多种模态的短视频的内容信息,所提方法致力于聚合多模态信息来生成完备的联合表示,用于多标签分类任务。从标签之间的关联性和模态与标签的关联性考虑,将模态依赖关系分解为模态共享和各模态特有的标签关联模式,引入一组平行的图卷积网络对它们进行挖掘利用。考虑到由于各模态数据中含有的噪声信息会导致模态之间的关联性被掩盖,引入了序列自注意力机制模块来将来自各模块的重要信息收集浓缩到聚合瓶颈项中,同时舍弃冗余信息。将获得的最终类别表示用于的多标签分类。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于多模态信息聚合的短视频分类方法,所述方法包括以下步骤:
步骤一:从所用数据集中预提取出短视频的视觉、轨迹、声音三种模态特征,设三种模态特征分别为视觉特征xv、轨迹特征xt、声音特征xa
步骤二:引入一组并行的图卷积网络,将三种模态特征经过处理后获得的类别嵌入矩阵作为图卷积的初始节点特征输入,不同的图卷积网络的相关矩阵分别代表各个节点间模态共享和各模态特有的两种标签关联模式,利用图卷积的相关矩阵对节点进行更新,获得更新后的节点特征。方法如下:
(1)获得各模态特有图卷积网络的初始节点特征:将三种模态特征xv,xt,xa分别输入3个结构相同的编码器得到编码后的模态表示uv,ut,ua,然后将um,m∈{v,t,a},按行扩展得到各模态的类别嵌入矩阵Zv,Zt,Za作为各模态特有图卷积网络的初始节点特征;
(2)获得模态共享图卷积网络的初始节点特征:通过卷积操作融合三个模态的类别嵌入矩阵Zv,Zt,Za获得,公式为:
Figure FDA0004037257160000011
其中,δ(·)为Sigmoid激活函数,
Figure FDA0004037257160000012
与/>
Figure FDA0004037257160000013
为卷积层的权重矩阵,C表示图节点数,在此处等于短视频标签个数,dm为类别嵌入的维度数;
(3)将Zv,Zt,Za和Zs分别作为相应的图卷积网络的初始节点特征V,带入下式,获得更新后的节点相应的各个特征:
Figure FDA0004037257160000014
其中,Vu包含更新后的节点相应的各个特征,A∈RC×C为相关矩阵,描述了标签之间的关联性,
Figure FDA0004037257160000015
为状态权重更新矩阵,D为V的特征维度数,Du为Vu的特征维度数,LeakyReLU(·)为非线性激活函数;
将各模态特有的图卷积网络所得更新后的节点特征记为增强后的各模态类别嵌入Hm,m∈{v,t,a},其中v、t、a分别表示视觉、轨迹和声音模态;将模态共享图卷积网络所得更新后的节点特征记为模态共享的类别嵌入Hs,即更新后的节点特征Vu包含Hm,m∈{v,t,a},Hs
步骤三:多模态信息聚合:引入带有聚合瓶颈项的序列自注意力机制,以特定方向聚合并浓缩来自各个模态的重要信息,同时丢弃冗余信息,得到融合后的类别表示;
步骤四:将获得的最终类别表示输入分类器获得短视频的标签预测分数,采用多标签分类损失函数来指导网络寻找模型最优解。
2.根据权利要求1所述的基于多模态信息聚合的短视频分类方法,其特征在于,步骤一所述视觉、轨迹和声音三种模态特征的提取方法分别为:
视觉特征xv为以等时间间隔抽取短视频的多个图像帧,使用残差网络提取这些图像帧的深度特征后进行平均池化操作获得;轨迹特征xt为对短视频联合使用轨迹池化深度卷积描述子和费舍尔矢量获得;声音特征xa为提取短视频音频的梅尔倒谱系数获得。
3.根据权利要求1所述的基于多模态信息聚合的短视频分类方法,其特征在于,步骤三的所述多模态信息聚合过程为:
(1)使用增强后的视觉类别嵌入Hv通过卷积操作初始化生成低维度的聚合瓶颈项Hagg
(2)聚合瓶颈项Hagg通过序列自注意力机制模块按照特定顺序分别与各模态类别嵌入Hv,Ht,Ha进行交互,同时引入模态共享的类别嵌入Hs来指导整个聚合过程,方法如下:
将Hagg分别与Hs和模态类别嵌入Hm,m∈{v,t,a}串联,后分别输入自注意力机制,所得输出结果矩阵即为被该模态类别嵌入和Hs更新后的Hagg,拆分输出结果矩阵获得更新后的Hagg和Hs,再次与另一模态类别重复上述过程,通过自注意力机制进行模态特征融合,直至Hagg与所有模态完成交互;在这个过程中,来自各模态类别嵌入的重要信息被收集压缩至Hagg,将与所有模态类别嵌入交互更新过的聚合瓶颈项Hagg作为最终类别表示。
4.根据权利要求1所述的一种基于多模态信息聚合的短视频分类方法,其特征在于,所述损失函数为:
Figure FDA0004037257160000031
其中,log()为对数函数,Sigmoid()为非线性激活函数,C为标签类别数,yi为短视频的真实标签,si为标签预测分数。
CN202310006748.1A 2023-01-04 2023-01-04 一种基于多模态信息聚合的短视频分类方法 Pending CN116189047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310006748.1A CN116189047A (zh) 2023-01-04 2023-01-04 一种基于多模态信息聚合的短视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310006748.1A CN116189047A (zh) 2023-01-04 2023-01-04 一种基于多模态信息聚合的短视频分类方法

Publications (1)

Publication Number Publication Date
CN116189047A true CN116189047A (zh) 2023-05-30

Family

ID=86441643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310006748.1A Pending CN116189047A (zh) 2023-01-04 2023-01-04 一种基于多模态信息聚合的短视频分类方法

Country Status (1)

Country Link
CN (1) CN116189047A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935292A (zh) * 2023-09-15 2023-10-24 山东建筑大学 一种基于自注意力模型的短视频场景分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935292A (zh) * 2023-09-15 2023-10-24 山东建筑大学 一种基于自注意力模型的短视频场景分类方法及系统
CN116935292B (zh) * 2023-09-15 2023-12-08 山东建筑大学 一种基于自注意力模型的短视频场景分类方法及系统

Similar Documents

Publication Publication Date Title
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
US11748613B2 (en) Systems and methods for large scale semantic indexing with deep level-wise extreme multi-label learning
CN110555112B (zh) 一种基于用户正负偏好学习的兴趣点推荐方法
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN111666406B (zh) 基于自注意力的单词和标签联合的短文本分类预测方法
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN111461175B (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN111831924A (zh) 内容推荐方法、装置、设备及可读存储介质
Wang et al. Fusion-supervised deep cross-modal hashing
CN111080551A (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
CN116189047A (zh) 一种基于多模态信息聚合的短视频分类方法
CN113076490B (zh) 一种基于混合节点图的涉案微博对象级情感分类方法
CN117171393A (zh) 一种面向多模态检索的自适应半配对询问哈希方法
CN116992947A (zh) 模型训练方法、视频查询方法和装置
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
CN117093733A (zh) 媒体分类模型的训练方法、媒体数据分类方法和装置
CN114625986A (zh) 对搜索结果进行排序的方法、装置、设备及存储介质
Lin et al. MOD: A deep mixture model with online knowledge distillation for large scale video temporal concept localization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination