CN112287170A - 一种基于多模态联合学习的短视频分类方法及装置 - Google Patents

一种基于多模态联合学习的短视频分类方法及装置 Download PDF

Info

Publication number
CN112287170A
CN112287170A CN202011089720.1A CN202011089720A CN112287170A CN 112287170 A CN112287170 A CN 112287170A CN 202011089720 A CN202011089720 A CN 202011089720A CN 112287170 A CN112287170 A CN 112287170A
Authority
CN
China
Prior art keywords
label
feature
representation
short video
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011089720.1A
Other languages
English (en)
Other versions
CN112287170B (zh
Inventor
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanzhou Jinda Intelligent Research Institute Co ltd
Original Assignee
Quanzhou Jinda Intelligent Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanzhou Jinda Intelligent Research Institute Co ltd filed Critical Quanzhou Jinda Intelligent Research Institute Co ltd
Priority to CN202011089720.1A priority Critical patent/CN112287170B/zh
Publication of CN112287170A publication Critical patent/CN112287170A/zh
Application granted granted Critical
Publication of CN112287170B publication Critical patent/CN112287170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多模态联合学习的短视频分类方法及装置,包括如下步骤:A、对短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;B、分别学习潜在表示特征
Figure DDA0002721689240000011
潜在表示特征
Figure DDA0002721689240000012
潜在表示特征
Figure DDA0002721689240000013
和潜在表示特征
Figure DDA0002721689240000014
C、构建重建损失函数
Figure DDA0002721689240000015
D、得到由标签向量组成的标签特征矩阵P;E、利用Multi‑head Attention得到短视频的最终表示;F、对最终表示做多标签分类,得到分类损失函数
Figure DDA0002721689240000016
H、由重建损失函数
Figure DDA0002721689240000019
和分类损失函数
Figure DDA0002721689240000018
构建目标函数
Figure DDA0002721689240000017
本发明充分利用短视频的模态信息和标签信息,有效解决短视频多标签分类问题,并提高了分类准确度。

Description

一种基于多模态联合学习的短视频分类方法及装置
技术领域
本发明涉及一种基于多模态联合学习的短视频分类方法及装置。
背景技术
近年来,随着数字媒体技术的飞速发展、智能终端的普及以及社交网络的火热,越来越多的信息采用多媒体内容呈现,高清摄像头、大容量存储和高速的网络连接为用户创造了极其便利的拍摄和分享条件,从而创造了海量的多媒体数据。
短视频作为一种新型的用户生成内容,凭借其创作门槛低、碎片化内容以及较强的社交属性等独特优势在社交网络中受到了极大的欢迎。尤其是2011年以来,伴随着移动互联网终端的普及和网络的提速以及流量资费的降低,短视频迅速获得了包括各大内容平台、粉丝以及资本等多方的支持与青睐。有数据显示,全球移动视频流量已经占据移动数据总流量的一半以上,且持续高速增长。规模庞大的短视频数据很容易湮没用户需要的信息,使得用户难以找到其所期望的短视频信息内容,所以如何有效处理和利用这些信息变得至关重要。
以深度学习为代表的人工智能技术已经成为当今最流行的技术之一,被广泛运用到计算机视觉等众多领域中。因此,将其引入到短视频的分类任务中不仅有利于推动计算机视觉以及多媒体领域相关课题的创新,对于用户体验的提升以及工业界的发展也具有很重要的应用价值和现实意义。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于多模态联合学习的短视频分类方法及装置,充分利用短视频的模态信息和标签信息,有效解决短视频多标签分类问题,并提高了分类准确度。
本发明通过以下技术方案实现:
一种基于多模态联合学习的短视频分类方法,其特征在于:包括如下步骤:
A、对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt
B、分别学习视觉模态特征zv的潜在表示特征
Figure BDA0002721689220000021
考虑声音模态特征za后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000022
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000023
和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000024
C、将步骤B中的四种视觉模态的潜在表示特征堆叠成矩阵
Figure BDA0002721689220000025
将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示
Figure BDA0002721689220000026
并由此构建重建损失函数
Figure BDA0002721689220000027
D、获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到步骤A所述短视频的最终表示;
F、对步骤E中的最终表示做多标签分类,得到分类损失函数
Figure BDA0002721689220000028
G、由重建损失函数
Figure BDA0002721689220000029
和分类损失函数
Figure BDA00027216892200000210
构建目标函数
Figure BDA00027216892200000211
并训练至收敛状态,其中,0<λr<1。
进一步的,所述步骤B包括:
利用DNN网络学习视觉模态特征zv的潜在表示特征
Figure BDA00027216892200000212
Figure BDA00027216892200000213
其中,
Figure BDA0002721689220000031
表示特定于视觉特征的映射器,由DNN网络构成,θ0为DNN网络的模型参数;
考虑声音模态特征za后,计算视觉模态特征zv和声音模态特征za的相似程度:
Figure BDA0002721689220000032
把这种相似程度加入视觉模态特征zv中得到
Figure BDA0002721689220000033
Figure BDA0002721689220000034
再通过全连接层学习潜在表示特征
Figure BDA0002721689220000035
Figure BDA0002721689220000036
其中,fc表示全连接层,θ1为全连接层待学习参数;
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000037
为:
Figure BDA0002721689220000038
其中,
Figure BDA0002721689220000039
θ2为全连接层待学习参数;
考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息za&t
Figure BDA00027216892200000310
潜在表示特征
Figure BDA00027216892200000311
为:
Figure BDA00027216892200000312
其中,
Figure BDA00027216892200000313
z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重。
进一步的,所述步骤C中的公共潜在表示特征H为:H=gae(A;Wae),其中,
Figure BDA00027216892200000314
重建表示
Figure BDA00027216892200000315
为:
Figure BDA00027216892200000316
其中,
Figure BDA00027216892200000317
重建损失函数
Figure BDA00027216892200000318
为:
Figure BDA00027216892200000319
其中,gae,gdg为普通的神经网络层,Wae,Wdg为对应网络的待学习参数。
进一步的,所述步骤D包括如下步骤:
D1、获取步骤A所述短视频的标签信息:采用
Figure BDA00027216892200000320
表示标签集合,考虑图G(V,E)(V={1,2,...,C}表示标签节点,E∈|V|×|V|表示对应边集合),对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],
Figure BDA0002721689220000041
为标签C初始特征,
Figure BDA0002721689220000042
表示每个标签的原始特征维度是m,C表示标签类别数量;
D2、引入逆协方差矩阵
Figure BDA0002721689220000043
学习标签间的关系结构:
Figure BDA0002721689220000044
s.t.S≥0;tr(S)=1;
D3、将标签节点特征集合Q输入图注意层,得到新的标签节点特征集合Q':
Figure BDA0002721689220000045
Figure BDA0002721689220000046
表示偏差,Mh表示应用在每个标签节点上的特征映射函数,dk表示标签节点特征集合的维度;
D4、更新标签节点特征的相关系数矩阵S':
Figure BDA0002721689220000047
s.t.S'≥0;tr(S')=1;
D5、建立两到三个图注意层,重复D3、D4步骤,得到由标签向量组成的标签特征矩阵P:
Figure BDA0002721689220000048
du表示标签向量的特征维度。
进一步的,所述步骤E包括:
E1、将公共潜在表示特征H作为查询矩阵Q;
E2、计算每一个视觉模态特征的潜在表示特征与每一类标签向量的余弦相似度:
Figure BDA0002721689220000049
以得到相关性矩阵R:
Figure BDA00027216892200000410
其中,pi是取自标签特征矩阵P中的每一个标签向量,n=[0,1,2,3];
E3、获取键矩阵K:
Figure BDA0002721689220000051
E4、将自标签特征矩阵P作为值矩阵V;
E5、将查询矩阵Q、键矩阵K和值矩阵V作为Multi-head Attention的输入,得到所述短视频的最终表示:
Figure BDA0002721689220000052
其中,
Figure BDA0002721689220000053
Figure BDA0002721689220000054
为投影矩阵,k=[0,1,2,3]。
进一步的,所述步骤F中的分类损失函数
Figure BDA0002721689220000055
为:
Figure BDA0002721689220000056
其中,
Figure BDA0002721689220000057
进一步的,所述步骤A包括:
先对所述短视频关键帧做ResNet,再对所有帧做平均池操作以获取视觉模态特征zv
Figure BDA0002721689220000058
利用长短期记忆网络提取声音模态特征za
Figure BDA0002721689220000059
利用多层感知器提取文本模态特征zt
Figure BDA00027216892200000510
其中,X={Xv,Xa,Xt}表示所述短视频,其中Xv、Xa和Xt表示该短视频的原始视觉信息、原始音频信息和原始文本信息;βvat分别表示用来提取短视频的视觉模态特征、音频模态特征和文本模态特征的网络参数。
进一步的,还包括步骤H:输入短视频训练样本集合,直至目标函数
Figure BDA00027216892200000511
收敛,再输入短视频测试样本集合进行测试,并利用覆盖率、排名损失和平均精度三个评价指标来评估测试结果。
本发明还通过以下技术方案实现:
一种基于多模态联合学习的短视频分类装置,包括:
特征提取模块:用于对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt
潜在表示特征获取模块:用于分别学习视觉模态特征zv的潜在表示特征
Figure BDA0002721689220000061
考虑声音模态特征za后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000062
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000063
和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000064
重建损失函数构建模块:用于将四种视觉模态的潜在表示特征堆叠成矩阵
Figure BDA0002721689220000065
将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示
Figure BDA0002721689220000066
并由此构建重建损失函数
Figure BDA0002721689220000067
标签特征矩阵获取模块:用于获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;
目标函数构建模块:用于利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到所述短视频的最终表示;对步骤E中的最终表示做多标签分类,得到分类损失函数
Figure BDA0002721689220000068
由重建损失函数
Figure BDA0002721689220000069
和分类损失函数
Figure BDA00027216892200000610
构建目标函数
Figure BDA00027216892200000611
并训练至收敛状态,其中,0<λr<1。
本发明具有如下有益效果:
1、本发明针对短视频的多模态属性探究基于视觉模态的短视频内容信息表示,以视觉模态为主,从模态缺失角度构建四个潜在表示特征的子空间,来学习模态间信息互补性,获得四个不同的潜在表示特征,又考虑到视觉模态信息的一致性利用自动编码网络学习视觉模态信息的公共潜在表示,这一过程同时考虑到模态缺失问题和模态信息的互补性及一致性,充分利用了短视频的模态信息;本发明探究了短视频的标签信息空间,从逆协方差估计和图注意网络两个层面考虑,提供了标签相关性学习的一种新思路;本发明针对短视频“短,信息不足”的劣势,从内容信息和标签信息两个角度分别学习相关表示,最后利用Multi-Head Attention融合层获得丰富的短视频表示,整个方案充分利用短视频的各模态信息,有效解决短视频多标签分类问题,并提高了分类准确度。
2、本发明利用覆盖率、排名损失和平均精度三个评价指标来评估测试分类结果,确保结果的客观性。
附图说明
下面结合附图对本发明做进一步详细说明。
图1为本发明的流程图。
具体实施方式
如图1所示,基于多模态联合学习的短视频分类方法,包括如下步骤:
A、对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;具体包括:
先对所述短视频关键帧做ResNet(残差网络),再对所有帧做平均池操作以获取视觉模态特征zv
Figure BDA0002721689220000071
利用长短期记忆网络提取声音模态特征za
Figure BDA0002721689220000072
利用多层感知器提取文本模态特征zt
Figure BDA0002721689220000073
其中,X={Xv,Xa,Xt}表示所述短视频,其中Xv、Xa和Xt表示该短视频的原始视觉信息、原始音频信息和原始文本信息;βvat分别表示用来提取短视频的视觉模态特征、音频模态特征和文本模态特征的网络参数,具体为大于0的自定义参数,实际的取值范围要结合特定的短视频分类任务设定;dv、da、dt分别表示zv、za、zt的维数;
B、分别学习视觉模态特征zv的潜在表示特征
Figure BDA0002721689220000081
考虑声音模态特征za后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000082
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000083
和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000084
具体包括:
利用DNN网络学习视觉模态特征zv的潜在表示特征
Figure BDA0002721689220000085
Figure BDA0002721689220000086
其中,
Figure BDA0002721689220000087
表示特定于视觉特征的映射器,由DNN网络构成,θ0为DNN网络的模型参数;
余弦相似度通过计算两个向量的夹角余弦值来评估他们的相似度,向量夹角的余弦值可以用来表征这两个向量的相似性,而且夹角越小,余弦值越接近于1,方向就越吻合,两个向量就越相似;因此把这种相似性加入到原始视觉信息,然后再去学习视觉特征的潜在表示特征,以此实现其他模态信息对视觉信息的补充,具体过程如下所示:
考虑声音模态特征za后,计算视觉模态特征zv和声音模态特征za的相似程度:
Figure BDA0002721689220000088
把这种相似程度加入视觉模态特征zv中得到
Figure BDA0002721689220000089
Figure BDA00027216892200000810
再通过全连接层学习潜在表示特征
Figure BDA00027216892200000811
Figure BDA00027216892200000812
其中,fc表示全连接层,θ1为全连接层待学习参数;
同理,考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA00027216892200000813
为:
Figure BDA00027216892200000814
其中,
Figure BDA00027216892200000815
θ2为全连接层待学习参数;
当声音模态特征za、文本模态特征zt和视觉模态特征zv都存在时,考虑把声音信息和文本信息联合来补充视觉信息,具体为:
考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息za&t
Figure BDA0002721689220000091
潜在表示特征
Figure BDA0002721689220000092
为:
Figure BDA0002721689220000093
其中,
Figure BDA0002721689220000094
z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重,
Figure BDA0002721689220000095
表示向量与向量相乘;做z′v=tanh(θ′zv+b)变换,是为了保证原始视觉特征与za&t的维度一致;
C、利用自动编码网络可学习视觉模态信息的一致性,四个子空间学到的四种潜在表示特征应该是相似的,理论上它们都表征同一视觉内容,因此,可采用自动编码器将学习到的四种潜在表示特征尽可能地投影到一个公共空间去,即获取公共潜在表示特征;如此有两个优点,一方面在一定程度上防止了数据的过拟合,对数据进行降维,得到更为紧凑的视觉特征潜在表示,另一方面,加强了四个子空间之间的有效联系,使子空间学习变得更有意义;将步骤B中的四种视觉模态的潜在表示特征堆叠成矩阵
Figure BDA0002721689220000096
将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示
Figure BDA0002721689220000097
并由此构建重建损失函数
Figure BDA0002721689220000098
其中,自动编码器为现有技术;
公共潜在表示特征H为:H=gae(A;Wae),其中,
Figure BDA0002721689220000099
重建表示
Figure BDA00027216892200000910
为:
Figure BDA00027216892200000911
其中,
Figure BDA00027216892200000912
重建损失函数
Figure BDA00027216892200000913
为:
Figure BDA00027216892200000914
其中,gae,gdg为普通的神经网络层,Wae,Wdg为对应网络的待学习参数;
D、获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;具体为:
D1、获取步骤A所述短视频的标签信息:首先引入图的概念,采用
Figure BDA0002721689220000101
表示标签集合(标签集合是指类别的集合,在任务的最初就已固定,属于已知条件,标签类别可包括舞蹈、健身、唱歌、场景等多种不同类型标签),考虑图G(V,E)(V={1,2,...,C}表示标签节点,E∈|V|×|V|表示对应边集合),对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],
Figure BDA0002721689220000102
为标签C初始特征,
Figure BDA0002721689220000103
表示每个标签的原始特征维度是m,C表示标签类别数量(标签类别数量为初始条件设定,属于已知条件;短视频分类泛指一系列短视频分类任务,不同任务中C的大小由具体分类任务指定,比如短视频的10分类任务,则C=10;1000分类任务,则C=1000);
D2、由于标签集合
Figure BDA0002721689220000104
中的初始数据关系是未知的,因此引入逆协方差矩阵
Figure BDA0002721689220000105
学习标签间的关系结构:
Figure BDA0002721689220000106
s.t.S≥0;tr(S)=1;
D3、将标签节点特征集合Q输入图注意层,得到新的标签节点特征集合Q':
Figure BDA0002721689220000107
*表示向量与数的乘积,
Figure BDA0002721689220000108
表示偏差,Mh表示应用在每个标签节点上的特征映射函数,dk表示标签节点特征集合的维度;
D4、更新标签节点特征的相关系数矩阵S':
Figure BDA0002721689220000109
s.t.S'≥0;tr(S')=1;
D5、建立两到三个图注意层,重复D3、D4步骤,得到由标签向量组成的标签特征矩阵P:
Figure BDA0002721689220000111
du表示标签向量的特征维度;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到步骤A所述短视频的最终表示;具体包括:
E1、将公共潜在表示特征H作为查询矩阵Q;
E2、对于键矩阵K,考虑标签表示和视觉特征表示的相关性,计算每一个视觉模态特征的潜在表示特征与每一类标签向量的余弦相似度:
Figure BDA0002721689220000112
以得到相关性矩阵R:
Figure BDA0002721689220000113
其中,pi是取自标签特征矩阵P中的每一个标签向量,n=[0,1,2,3];
E3、获取键矩阵K:
Figure BDA0002721689220000114
E4、将自标签特征矩阵P作为值矩阵V;
E5、Multi-head Attention的输入是查询矩阵Q、键矩阵K和值矩阵V,对查询矩阵Q、键矩阵K做线性变换(线性变换为现有技术),并计算注意力权重αk
Figure BDA0002721689220000115
根据注意力权重αk,计算短视频的标签向量输出表示headk
Figure BDA0002721689220000116
因查询矩阵Q有明显的四种语义维度,故k=[0,1,2,3];
将四次标签向量输出表示串联起来,并整体做一次线性变换即得到所述短视频的最终表示:
Figure BDA0002721689220000121
其中,
Figure BDA0002721689220000122
为投影矩阵;
F、对步骤E中的最终表示做多标签分类,得到分类损失函数
Figure BDA0002721689220000123
Figure BDA0002721689220000124
其中,
Figure BDA0002721689220000125
G、由重建损失函数
Figure BDA0002721689220000126
和分类损失函数
Figure BDA0002721689220000127
构建目标函数
Figure BDA0002721689220000128
并训练至收敛状态,其中,0<λr<1;
H、输入短视频训练样本集合,直至目标函数
Figure BDA0002721689220000129
收敛,再输入短视频测试样本集合进行测试,并利用覆盖率、排名损失和平均精度三个评价指标来评估测试结果,具体为:
覆盖率coverage用来计算平均需要多大程度的标签以覆盖实例的所有正确标签,它与召回率最佳水平的精确性有松散的联系,其值越小,性能越好,定义如下:
Figure BDA00027216892200001210
其中xi表示第i个短视频,Yi +是第i个短视频的相关标签集,p表示参与实验的短视频总个数。f表示多标签预测器,公式表示当f在标签方面有效时,相关标签的最大等级小于不相关标签的最小等级;
排名损失ranking-loss计算实例的倒序标签对的平均分数,其值越小,性能越好,定义如下:
Figure BDA00027216892200001211
其中xi表示第i个短视频,Yi是第i个短视频的标签集,
Figure BDA0002721689220000131
是其补集,p表示参与实验的短视频总个数,f表示多标签预测器;
平均精度mAP定义如下:
Figure BDA0002721689220000132
Figure BDA0002721689220000133
Figure BDA0002721689220000134
其中,P为单次预测正确率,AP表示n次预测的平均准确率,mAP表示m类不同的视频的AP的平均值。
基于多模态联合学习的短视频分类装置,包括:
特征提取模块:用于对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt
潜在表示特征获取模块:用于分别学习视觉模态特征zv的潜在表示特征
Figure BDA0002721689220000135
考虑声音模态特征za后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000136
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000137
和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
Figure BDA0002721689220000138
重建损失函数构建模块:用于将四种视觉模态的潜在表示特征堆叠成矩阵
Figure BDA0002721689220000139
将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示
Figure BDA00027216892200001310
并由此构建重建损失函数
Figure BDA00027216892200001311
标签特征矩阵获取模块:用于获取所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,以得到由标签向量组成的标签特征矩阵P;
目标函数构建模块:用于利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到所述短视频的最终表示;对步骤E中的最终表示做多标签分类,得到分类损失函数
Figure BDA0002721689220000141
由重建损失函数
Figure BDA0002721689220000142
和分类损失函数
Figure BDA0002721689220000143
构建目标函数
Figure BDA0002721689220000144
并训练至收敛,其中,0<λr<1。
以上所述,仅为本发明的较佳实施例而已,故不能以此限定本发明实施的范围,即依本发明申请专利范围及说明书内容所作的等效变化与修饰,皆应仍属本发明专利涵盖的范围内。

Claims (9)

1.一种基于多模态联合学习的短视频分类方法,其特征在于:包括如下步骤:
A、对一个完整的短视频提取其视觉模态特征zv、声音模态特征za和文本模态特征zt
B、分别学习视觉模态特征zv的潜在表示特征
Figure FDA0002721689210000011
考虑声音模态特征za后的视觉模态特征的潜在表示特征
Figure FDA0002721689210000012
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure FDA0002721689210000013
和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
Figure FDA0002721689210000014
C、将步骤B中的四种视觉模态的潜在表示特征堆叠成矩阵
Figure FDA0002721689210000015
将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示
Figure FDA0002721689210000016
并由此构建重建损失函数
Figure FDA0002721689210000017
D、获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到步骤A所述短视频的最终表示;
F、对步骤E中的最终表示做多标签分类,得到分类损失函数
Figure FDA0002721689210000018
G、由重建损失函数
Figure FDA0002721689210000019
和分类损失函数
Figure FDA00027216892100000110
构建目标函数
Figure FDA00027216892100000111
并训练至收敛状态,其中,0<λr<1。
2.根据权利要求1所述的一种基于多模态联合学习的短视频分类方法,其特征在于:所述步骤B包括:
利用DNN网络学习视觉模态特征zv的潜在表示特征
Figure FDA00027216892100000112
Figure FDA00027216892100000113
其中,
Figure FDA00027216892100000114
表示特定于视觉特征的映射器,由DNN网络构成,θ0为DNN网络的模型参数;
考虑声音模态特征za后,计算视觉模态特征zv和声音模态特征za的相似程度:
Figure FDA0002721689210000021
把这种相似程度加入视觉模态特征zv中得到
Figure FDA0002721689210000022
Figure FDA0002721689210000023
再通过全连接层学习潜在表示特征
Figure FDA0002721689210000024
Figure FDA0002721689210000025
其中,fc表示全连接层,θ1为全连接层待学习参数;
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure FDA0002721689210000026
为:
Figure FDA0002721689210000027
其中,
Figure FDA0002721689210000028
θ2为全连接层待学习参数;
考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息za&t
Figure FDA0002721689210000029
潜在表示特征
Figure FDA00027216892100000210
为:
Figure FDA00027216892100000211
其中,
Figure FDA00027216892100000212
z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重。
3.根据权利要求2所述的一种基于多模态联合学习的短视频分类方法,其特征在于:所述步骤C中的公共潜在表示特征H为:H=gae(A;Wae),其中,
Figure FDA00027216892100000213
重建表示
Figure FDA00027216892100000214
为:
Figure FDA00027216892100000215
其中,
Figure FDA00027216892100000216
重建损失函数
Figure FDA00027216892100000217
为:
Figure FDA00027216892100000218
其中,gae,gdg为普通的神经网络层,Wae,Wdg为对应网络的待学习参数。
4.根据权利要求3所述的一种基于多模态联合学习的短视频分类方法,其特征在于:所述步骤D包括如下步骤:
D1、获取步骤A所述短视频的标签信息:采用
Figure FDA00027216892100000219
表示标签集合,考虑图G(V,E)(V={1,2,...,C}表示标签节点,E∈|V|×|V|表示对应边集合),对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],
Figure FDA0002721689210000031
为标签C初始特征,
Figure FDA0002721689210000032
表示每个标签的原始特征维度是m,C表示标签类别数量;
D2、引入逆协方差矩阵
Figure FDA0002721689210000033
学习标签间的关系结构:
Figure FDA0002721689210000034
s.t.S≥0;tr(S)=1;
D3、将标签节点特征集合Q输入图注意层,得到新的标签节点特征集合Q':
Figure FDA0002721689210000035
q′i=∑j∈ρ(i)sij*Mh(qj)+bi
Figure FDA0002721689210000036
表示偏差,Mh表示应用在每个标签节点上的特征映射函数,dk表示标签节点特征集合的维度;
D4、更新标签节点特征的相关系数矩阵S':
Figure FDA0002721689210000037
s.t.S'≥0;tr(S')=1;
D5、建立两到三个图注意层,重复D3、D4步骤,得到由标签向量组成的标签特征矩阵P:
Figure FDA0002721689210000038
du表示标签向量的特征维度。
5.根据权利要求4所述的一种基于多模态联合学习的短视频分类方法,其特征在于:所述步骤E包括:
E1、将公共潜在表示特征H作为查询矩阵Q;
E2、计算每一个视觉模态特征的潜在表示特征与每一类标签向量的余弦相似度:
Figure FDA0002721689210000039
以得到相关性矩阵R:
Figure FDA0002721689210000041
其中,pi是取自标签特征矩阵P中的每一个标签向量,n=[0,1,2,3];
E3、获取键矩阵K:
Figure FDA0002721689210000042
E4、将自标签特征矩阵P作为值矩阵V;
E5、将查询矩阵Q、键矩阵K和值矩阵V作为Multi-head Attention的输入,得到所述短视频的最终表示:
Figure FDA0002721689210000043
其中,
Figure FDA0002721689210000044
Figure FDA0002721689210000045
为投影矩阵,k=[0,1,2,3]。
6.根据权利要求5所述的一种基于多模态联合学习的短视频分类方法,其特征在于:所述步骤F中的分类损失函数
Figure FDA0002721689210000046
为:
Figure FDA0002721689210000047
其中,
Figure FDA0002721689210000048
7.根据权利要求1至5任一所述的一种基于多模态联合学习的短视频分类方法,其特征在于:所述步骤A包括:
先对所述短视频关键帧做ResNet,再对所有帧做平均池操作以获取视觉模态特征zv
Figure FDA0002721689210000049
利用长短期记忆网络提取声音模态特征za
Figure FDA00027216892100000410
利用多层感知器提取文本模态特征zt
Figure FDA00027216892100000411
其中,X={Xv,Xa,Xt}表示所述短视频,其中Xv、Xa和Xt表示该短视频的原始视觉信息、原始音频信息和原始文本信息;βvat分别表示用来提取短视频的视觉模态特征、音频模态特征和文本模态特征的网络参数。
8.根据权利要求1至5任一所述的一种基于多模态联合学习的短视频分类方法,其特征在于:还包括步骤H:输入短视频训练样本集合,直至目标函数
Figure FDA0002721689210000051
收敛,再输入短视频测试样本集合进行测试,并利用覆盖率、排名损失和平均精度三个评价指标来评估测试结果。
9.一种基于多模态联合学习的短视频分类装置,其特征在于:包括:
特征提取模块:用于对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt
潜在表示特征获取模块:用于分别学习视觉模态特征zv的潜在表示特征
Figure FDA0002721689210000052
考虑声音模态特征za后的视觉模态特征的潜在表示特征
Figure FDA0002721689210000053
考虑文本模态特征zt后的视觉模态特征的潜在表示特征
Figure FDA0002721689210000054
和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
Figure FDA0002721689210000055
重建损失函数构建模块:用于将四种视觉模态的潜在表示特征堆叠成矩阵
Figure FDA0002721689210000056
将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示
Figure FDA0002721689210000057
并由此构建重建损失函数
Figure FDA0002721689210000058
标签特征矩阵获取模块:用于获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;
目标函数构建模块:用于利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到所述短视频的最终表示;对步骤E中的最终表示做多标签分类,得到分类损失函数
Figure FDA0002721689210000059
由重建损失函数
Figure FDA00027216892100000510
和分类损失函数
Figure FDA0002721689210000061
构建目标函数
Figure FDA0002721689210000062
并训练至收敛状态,其中,0<λr<1。
CN202011089720.1A 2020-10-13 2020-10-13 一种基于多模态联合学习的短视频分类方法及装置 Active CN112287170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011089720.1A CN112287170B (zh) 2020-10-13 2020-10-13 一种基于多模态联合学习的短视频分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011089720.1A CN112287170B (zh) 2020-10-13 2020-10-13 一种基于多模态联合学习的短视频分类方法及装置

Publications (2)

Publication Number Publication Date
CN112287170A true CN112287170A (zh) 2021-01-29
CN112287170B CN112287170B (zh) 2022-05-17

Family

ID=74496776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011089720.1A Active CN112287170B (zh) 2020-10-13 2020-10-13 一种基于多模态联合学习的短视频分类方法及装置

Country Status (1)

Country Link
CN (1) CN112287170B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784111A (zh) * 2021-03-12 2021-05-11 有半岛(北京)信息科技有限公司 视频分类方法、装置、设备及介质
CN113038163A (zh) * 2021-03-26 2021-06-25 百果园技术(新加坡)有限公司 用户体验模型训练方法、短视频用户体验评估方法及装置
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113657272A (zh) * 2021-08-17 2021-11-16 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统
CN113743277A (zh) * 2021-08-30 2021-12-03 上海明略人工智能(集团)有限公司 一种短视频分类方法及系统、设备和存储介质
CN113989697A (zh) * 2021-09-24 2022-01-28 天津大学 基于多模态自监督深度对抗网络的短视频分类方法及装置
CN113989697B (zh) * 2021-09-24 2024-06-07 天津大学 基于多模态自监督深度对抗网络的短视频分类方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100142803A1 (en) * 2008-12-05 2010-06-10 Microsoft Corporation Transductive Multi-Label Learning For Video Concept Detection
CN108536735A (zh) * 2018-03-05 2018-09-14 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
CN111460223A (zh) * 2020-02-25 2020-07-28 天津大学 基于深度网络的多模态特征融合的短视频单标签分类方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111723649A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于语义分解的短视频事件检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100142803A1 (en) * 2008-12-05 2010-06-10 Microsoft Corporation Transductive Multi-Label Learning For Video Concept Detection
CN108536735A (zh) * 2018-03-05 2018-09-14 中国科学院自动化研究所 基于多通道自编码器的多模态词汇表示方法与系统
CN111460223A (zh) * 2020-02-25 2020-07-28 天津大学 基于深度网络的多模态特征融合的短视频单标签分类方法
CN111552807A (zh) * 2020-04-17 2020-08-18 银江股份有限公司 一种短文本多标签分类方法
CN111723649A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于语义分解的短视频事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEN-NUNG LIE: "News Video Classification Based on Multi-modal Information Fusion", 《IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING 2005》 *
刘萌: "视頻分析的多樓态处理技术", 《 中国博士学位论文电子期刊网》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784111A (zh) * 2021-03-12 2021-05-11 有半岛(北京)信息科技有限公司 视频分类方法、装置、设备及介质
CN113038163A (zh) * 2021-03-26 2021-06-25 百果园技术(新加坡)有限公司 用户体验模型训练方法、短视频用户体验评估方法及装置
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113343719B (zh) * 2021-06-21 2023-03-14 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113657272A (zh) * 2021-08-17 2021-11-16 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统
CN113743277A (zh) * 2021-08-30 2021-12-03 上海明略人工智能(集团)有限公司 一种短视频分类方法及系统、设备和存储介质
CN113989697A (zh) * 2021-09-24 2022-01-28 天津大学 基于多模态自监督深度对抗网络的短视频分类方法及装置
CN113989697B (zh) * 2021-09-24 2024-06-07 天津大学 基于多模态自监督深度对抗网络的短视频分类方法及装置

Also Published As

Publication number Publication date
CN112287170B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN110619081B (zh) 一种基于交互图神经网络的新闻推送方法
CN110796166B (zh) 一种基于注意力机制的多任务图像处理方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN109710842B (zh) 业务信息的推送方法、装置及可读存储介质
CN114693397A (zh) 一种基于注意力神经网络的多视角多模态商品推荐方法
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN115588122A (zh) 一种基于多模态特征融合的新闻分类方法
CN113158798A (zh) 一种基于多模态特征完备表示的短视频分类方法
Bayoudh A survey of multimodal hybrid deep learning for computer vision: Architectures, applications, trends, and challenges
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
CN117251586A (zh) 多媒体资源推荐方法、装置及存储介质
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN116189047A (zh) 一种基于多模态信息聚合的短视频分类方法
CN117093733A (zh) 媒体分类模型的训练方法、媒体数据分类方法和装置
CN114912540A (zh) 迁移学习方法、装置、设备及存储介质
CN114936890A (zh) 一种基于逆倾向加权方法的反事实公平的推荐方法
CN110969187B (zh) 一种图谱迁移的语义分析方法
CN113449193A (zh) 基于多分类图像的信息推荐方法及装置
CN117540007B (zh) 基于相似模态补全的多模态情感分析方法、系统和设备
CN116561350B (zh) 一种资源生成方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant