CN112287170B - 一种基于多模态联合学习的短视频分类方法及装置 - Google Patents
一种基于多模态联合学习的短视频分类方法及装置 Download PDFInfo
- Publication number
- CN112287170B CN112287170B CN202011089720.1A CN202011089720A CN112287170B CN 112287170 B CN112287170 B CN 112287170B CN 202011089720 A CN202011089720 A CN 202011089720A CN 112287170 B CN112287170 B CN 112287170B
- Authority
- CN
- China
- Prior art keywords
- label
- feature
- representation
- features
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 81
- 230000000007 visual effect Effects 0.000 claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Biophysics (AREA)
- Game Theory and Decision Science (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明涉及一种基于多模态联合学习的短视频分类方法及装置。
背景技术
近年来,随着数字媒体技术的飞速发展、智能终端的普及以及社交网络的火热,越来越多的信息采用多媒体内容呈现,高清摄像头、大容量存储和高速的网络连接为用户创造了极其便利的拍摄和分享条件,从而创造了海量的多媒体数据。
短视频作为一种新型的用户生成内容,凭借其创作门槛低、碎片化内容以及较强的社交属性等独特优势在社交网络中受到了极大的欢迎。尤其是2011年以来,伴随着移动互联网终端的普及和网络的提速以及流量资费的降低,短视频迅速获得了包括各大内容平台、粉丝以及资本等多方的支持与青睐。有数据显示,全球移动视频流量已经占据移动数据总流量的一半以上,且持续高速增长。规模庞大的短视频数据很容易湮没用户需要的信息,使得用户难以找到其所期望的短视频信息内容,所以如何有效处理和利用这些信息变得至关重要。
以深度学习为代表的人工智能技术已经成为当今最流行的技术之一,被广泛运用到计算机视觉等众多领域中。因此,将其引入到短视频的分类任务中不仅有利于推动计算机视觉以及多媒体领域相关课题的创新,对于用户体验的提升以及工业界的发展也具有很重要的应用价值和现实意义。
发明内容
本发明的目的是针对现有技术的不足,提出一种基于多模态联合学习的短视频分类方法及装置,充分利用短视频的模态信息和标签信息,有效解决短视频多标签分类问题,并提高了分类准确度。
本发明通过以下技术方案实现:
一种基于多模态联合学习的短视频分类方法,其特征在于:包括如下步骤:
A、对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;
B、分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
D、获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到步骤A所述短视频的最终表示;
进一步的,所述步骤B包括:
考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息za&t:潜在表示特征为:其中,z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重。
进一步的,所述步骤D包括如下步骤:
D1、获取步骤A所述短视频的标签信息:采用表示标签集合,考虑图G(V,E)(V={1,2,...,C}表示标签节点,E∈|V|×|V|表示对应边集合),对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],为标签C初始特征,表示每个标签的原始特征维度是m,C表示标签类别数量;
s.t.S≥0;tr(S)=1;
D4、更新标签节点特征的相关系数矩阵S':
s.t.S'≥0;tr(S')=1;
进一步的,所述步骤E包括:
E1、将公共潜在表示特征H作为查询矩阵Q;
其中,pi是取自标签特征矩阵P中的每一个标签向量,n=[0,1,2,3];
E4、将自标签特征矩阵P作为值矩阵V;
E5、将查询矩阵Q、键矩阵K和值矩阵V作为Multi-head Attention的输入,得到所述短视频的最终表示:
进一步的,所述步骤A包括:
其中,X={Xv,Xa,Xt}表示所述短视频,其中Xv、Xa和Xt表示该短视频的原始视觉信息、原始音频信息和原始文本信息;βv,βa,βt分别表示用来提取短视频的视觉模态特征、音频模态特征和文本模态特征的网络参数。
本发明还通过以下技术方案实现:
一种基于多模态联合学习的短视频分类装置,包括:
特征提取模块:用于对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;
潜在表示特征获取模块:用于分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
标签特征矩阵获取模块:用于获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;
目标函数构建模块:用于利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到所述短视频的最终表示;对步骤E中的最终表示做多标签分类,得到分类损失函数由重建损失函数和分类损失函数构建目标函数并训练至收敛状态,其中,0<λr<1。
本发明具有如下有益效果:
1、本发明针对短视频的多模态属性探究基于视觉模态的短视频内容信息表示,以视觉模态为主,从模态缺失角度构建四个潜在表示特征的子空间,来学习模态间信息互补性,获得四个不同的潜在表示特征,又考虑到视觉模态信息的一致性利用自动编码网络学习视觉模态信息的公共潜在表示,这一过程同时考虑到模态缺失问题和模态信息的互补性及一致性,充分利用了短视频的模态信息;本发明探究了短视频的标签信息空间,从逆协方差估计和图注意网络两个层面考虑,提供了标签相关性学习的一种新思路;本发明针对短视频“短,信息不足”的劣势,从内容信息和标签信息两个角度分别学习相关表示,最后利用Multi-Head Attention融合层获得丰富的短视频表示,整个方案充分利用短视频的各模态信息,有效解决短视频多标签分类问题,并提高了分类准确度。
2、本发明利用覆盖率、排名损失和平均精度三个评价指标来评估测试分类结果,确保结果的客观性。
附图说明
下面结合附图对本发明做进一步详细说明。
图1为本发明的流程图。
具体实施方式
如图1所示,基于多模态联合学习的短视频分类方法,包括如下步骤:
A、对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;具体包括:
其中,X={Xv,Xa,Xt}表示所述短视频,其中Xv、Xa和Xt表示该短视频的原始视觉信息、原始音频信息和原始文本信息;βv,βa,βt分别表示用来提取短视频的视觉模态特征、音频模态特征和文本模态特征的网络参数,具体为大于0的自定义参数,实际的取值范围要结合特定的短视频分类任务设定;dv、da、dt分别表示zv、za、zt的维数;
B、分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征具体包括:
余弦相似度通过计算两个向量的夹角余弦值来评估他们的相似度,向量夹角的余弦值可以用来表征这两个向量的相似性,而且夹角越小,余弦值越接近于1,方向就越吻合,两个向量就越相似;因此把这种相似性加入到原始视觉信息,然后再去学习视觉特征的潜在表示特征,以此实现其他模态信息对视觉信息的补充,具体过程如下所示:
当声音模态特征za、文本模态特征zt和视觉模态特征zv都存在时,考虑把声音信息和文本信息联合来补充视觉信息,具体为:
考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息za&t:潜在表示特征为:其中,z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重,表示向量与向量相乘;做z′v=tanh(θ′zv+b)变换,是为了保证原始视觉特征与za&t的维度一致;
C、利用自动编码网络可学习视觉模态信息的一致性,四个子空间学到的四种潜在表示特征应该是相似的,理论上它们都表征同一视觉内容,因此,可采用自动编码器将学习到的四种潜在表示特征尽可能地投影到一个公共空间去,即获取公共潜在表示特征;如此有两个优点,一方面在一定程度上防止了数据的过拟合,对数据进行降维,得到更为紧凑的视觉特征潜在表示,另一方面,加强了四个子空间之间的有效联系,使子空间学习变得更有意义;将步骤B中的四种视觉模态的潜在表示特征堆叠成矩阵将矩阵A输入自动编码器中,得到四种视觉模态的潜在表示特征的公共潜在表示特征H和重建表示并由此构建重建损失函数其中,自动编码器为现有技术;
D、获取步骤A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P可以采用随机初始化方式得到;具体为:
D1、获取步骤A所述短视频的标签信息:首先引入图的概念,采用表示标签集合(标签集合是指类别的集合,在任务的最初就已固定,属于已知条件,标签类别可包括舞蹈、健身、唱歌、场景等多种不同类型标签),考虑图G(V,E)(V={1,2,...,C}表示标签节点,E∈|V|×|V|表示对应边集合),对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],为标签C初始特征,表示每个标签的原始特征维度是m,C表示标签类别数量(标签类别数量为初始条件设定,属于已知条件;短视频分类泛指一系列短视频分类任务,不同任务中C的大小由具体分类任务指定,比如短视频的10分类任务,则C=10;1000分类任务,则C=1000);
s.t.S≥0;tr(S)=1;
D4、更新标签节点特征的相关系数矩阵S':
s.t.S'≥0;tr(S')=1;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到步骤A所述短视频的最终表示;具体包括:
E1、将公共潜在表示特征H作为查询矩阵Q;
其中,pi是取自标签特征矩阵P中的每一个标签向量,n=[0,1,2,3];
E4、将自标签特征矩阵P作为值矩阵V;
E5、Multi-head Attention的输入是查询矩阵Q、键矩阵K和值矩阵V,对查询矩阵Q、键矩阵K做线性变换(线性变换为现有技术),并计算注意力权重αk:
根据注意力权重αk,计算短视频的标签向量输出表示headk:
因查询矩阵Q有明显的四种语义维度,故k=[0,1,2,3];
将四次标签向量输出表示串联起来,并整体做一次线性变换即得到所述短视频的最终表示:
覆盖率coverage用来计算平均需要多大程度的标签以覆盖实例的所有正确标签,它与召回率最佳水平的精确性有松散的联系,其值越小,性能越好,定义如下:
其中xi表示第i个短视频,Yi +是第i个短视频的相关标签集,p表示参与实验的短视频总个数。f表示多标签预测器,公式表示当f在标签方面有效时,相关标签的最大等级小于不相关标签的最小等级;
排名损失ranking-loss计算实例的倒序标签对的平均分数,其值越小,性能越好,定义如下:
平均精度mAP定义如下:
其中,P为单次预测正确率,AP表示n次预测的平均准确率,mAP表示m类不同的视频的AP的平均值。
基于多模态联合学习的短视频分类装置,包括:
特征提取模块:用于对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;
潜在表示特征获取模块:用于分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
标签特征矩阵获取模块:用于获取所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,以得到由标签向量组成的标签特征矩阵P;
目标函数构建模块:用于利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到所述短视频的最终表示;对步骤E中的最终表示做多标签分类,得到分类损失函数由重建损失函数和分类损失函数构建目标函数并训练至收敛,其中,0<λr<1。
以上所述,仅为本发明的较佳实施例而已,故不能以此限定本发明实施的范围,即依本发明申请专利范围及说明书内容所作的等效变化与修饰,皆应仍属本发明专利涵盖的范围内。
Claims (7)
1.一种基于多模态联合学习的短视频分类方法,其特征在于:包括如下:
A、对一个完整的短视频提取其视觉模态特征zv、声音模态特征za和文本模态特征zt;
B、分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征
D、获取A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P采用随机初始化方式得到;
E、利用Multi-head Attention,对公共潜在表示特征H和标签特征矩阵P进行信息融合,得到A所述短视频的最终表示;
所述B包括:
考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息za&t:潜在表示特征为:其中,z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重;
所述D包括如下:
D1、获取A所述短视频的标签信息:采用表示标签集合,考虑图G(V,E),V={1,2,…,C}表示标签节点,E∈|V|×|V|表示对应边集合,对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],为标签C初始特征,表示每个标签的原始特征维度是m,C表示标签类别数量;
s.t.S≥0;tr(S)=1;
D3、将标签节点特征集合Q输入图注意层,得到新的标签节点特征集合Q':q′i=∑j∈ρ(i)sij*Mh(qj)+bi,表示偏差,Mh表示应用在每个标签节点上的特征映射函数,dk表示标签节点特征集合的维度;
D4、更新标签节点特征的相关系数矩阵S':
s.t.S'≥0;tr(S')=1;
7.一种基于多模态联合学习的短视频分类装置,其特征在于:包括:
特征提取模块:用于对一个完整的短视频提取视觉模态特征zv、声音模态特征za和文本模态特征zt;
潜在表示特征获取模块:用于分别学习视觉模态特征zv的潜在表示特征考虑声音模态特征za后的视觉模态特征的潜在表示特征考虑文本模态特征zt后的视觉模态特征的潜在表示特征和考虑声音模态特征za及文本模态特征zt后的视觉模态特征的潜在表示特征具体包括:利用DNN网络学习视觉模态特征zv的潜在表示特征 其中,表示特定于视觉特征的映射器,由DNN网络构成,θ0为DNN网络的模型参数;考虑声音模态特征za后,计算视觉模态特征zv和声音模态特征za的相似程度:把这种相似程度加入视觉模态特征zv中得到 再通过全连接层学习潜在表示特征 其中,fc表示全连接层,θ1为全连接层待学习参数;考虑文本模态特征zt后的视觉模态特征的潜在表示特征为:其中,θ2为全连接层待学习参数;考虑声音模态特征za及文本模态特征zt后,首先获取声音模态特征za和文本模态特征zt的联合信息za&t:潜在表示特征为:其中,z′v=tanh(θ′zv+b),dh表示潜在表示特征的维度,θ3为全连接层待学习参数,θ′表示变换权重,b表示偏重;
标签特征矩阵获取模块:用于获取A所述短视频的标签信息,采用逆协方差估计策略和图注意力模型探究标签间的相关性并更新标签表示,得到由标签向量组成的标签特征矩阵P,其中标签特征矩阵P采用随机初始化方式得到;具体包括:获取A所述短视频的标签信息:采用表示标签集合,考虑图G(V,E),V={1,2,…,C}表示标签节点,E∈|V|×|V|表示对应边集合,对于任意标签节点i,其邻域节点被定义为ρ(i)={j:(i,j)∈E}∪{i},标签节点特征集合为Q=[q1,q2,...,qC],为标签C初始特征,表示每个标签的原始特征维度是m,C表示标签类别数量;引入逆协方差矩阵学习标签间的关系结构:s.t.S≥0;tr(S)=1;将标签节点特征集合Q输入图注意层,得到新的标签节点特征集合Q':
q′i=∑j∈ρ(i)sij*Mh(qj)+bi,表示偏差,Mh表示应用在每个标签节点上的特征映射函数,dk表示标签节点特征集合的维度;更新标签节点特征的相关系数矩阵S':s.t.S'≥0;tr(S')=1;建立两到三个图注意层,重复D3、D4,得到由标签向量组成的标签特征矩阵P:du表示标签向量的特征维度;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011089720.1A CN112287170B (zh) | 2020-10-13 | 2020-10-13 | 一种基于多模态联合学习的短视频分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011089720.1A CN112287170B (zh) | 2020-10-13 | 2020-10-13 | 一种基于多模态联合学习的短视频分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112287170A CN112287170A (zh) | 2021-01-29 |
CN112287170B true CN112287170B (zh) | 2022-05-17 |
Family
ID=74496776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011089720.1A Active CN112287170B (zh) | 2020-10-13 | 2020-10-13 | 一种基于多模态联合学习的短视频分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287170B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784111B (zh) * | 2021-03-12 | 2024-07-02 | 有半岛(北京)信息科技有限公司 | 视频分类方法、装置、设备及介质 |
CN113038163B (zh) * | 2021-03-26 | 2023-06-23 | 百果园技术(新加坡)有限公司 | 用户体验模型训练方法、短视频用户体验评估方法及装置 |
CN113343719B (zh) * | 2021-06-21 | 2023-03-14 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN113657272B (zh) * | 2021-08-17 | 2022-06-28 | 山东建筑大学 | 一种基于缺失数据补全的微视频分类方法及系统 |
CN113743277A (zh) * | 2021-08-30 | 2021-12-03 | 上海明略人工智能(集团)有限公司 | 一种短视频分类方法及系统、设备和存储介质 |
CN113989697B (zh) * | 2021-09-24 | 2024-06-07 | 天津大学 | 基于多模态自监督深度对抗网络的短视频分类方法及装置 |
CN114741556A (zh) * | 2022-03-01 | 2022-07-12 | 东北大学 | 一种基于场景片段和多模态特征增强的短视频分类方法 |
CN118093936B (zh) * | 2024-04-26 | 2024-07-16 | 腾讯科技(深圳)有限公司 | 视频标签处理方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536735A (zh) * | 2018-03-05 | 2018-09-14 | 中国科学院自动化研究所 | 基于多通道自编码器的多模态词汇表示方法与系统 |
CN111460223A (zh) * | 2020-02-25 | 2020-07-28 | 天津大学 | 基于深度网络的多模态特征融合的短视频单标签分类方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN111723649A (zh) * | 2020-05-08 | 2020-09-29 | 天津大学 | 一种基于语义分解的短视频事件检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8218859B2 (en) * | 2008-12-05 | 2012-07-10 | Microsoft Corporation | Transductive multi-label learning for video concept detection |
-
2020
- 2020-10-13 CN CN202011089720.1A patent/CN112287170B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536735A (zh) * | 2018-03-05 | 2018-09-14 | 中国科学院自动化研究所 | 基于多通道自编码器的多模态词汇表示方法与系统 |
CN111460223A (zh) * | 2020-02-25 | 2020-07-28 | 天津大学 | 基于深度网络的多模态特征融合的短视频单标签分类方法 |
CN111552807A (zh) * | 2020-04-17 | 2020-08-18 | 银江股份有限公司 | 一种短文本多标签分类方法 |
CN111723649A (zh) * | 2020-05-08 | 2020-09-29 | 天津大学 | 一种基于语义分解的短视频事件检测方法 |
Non-Patent Citations (2)
Title |
---|
News Video Classification Based on Multi-modal Information Fusion;Wen-Nung Lie;《IEEE International Conference on Image Processing 2005》;20051114;全文 * |
刘萌.视頻分析的多樓态处理技术.《 中国博士学位论文电子期刊网》.2019, * |
Also Published As
Publication number | Publication date |
---|---|
CN112287170A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287170B (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN112966127A (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN102334118B (zh) | 基于用户兴趣学习的个性化广告推送方法与系统 | |
CN113297370B (zh) | 基于多交互注意力的端到端多模态问答方法及系统 | |
CN111985520A (zh) | 一种基于图卷积神经网络的多模态分类方法 | |
CN110225368A (zh) | 一种视频定位方法、装置及电子设备 | |
CN113158798A (zh) | 一种基于多模态特征完备表示的短视频分类方法 | |
CN114298122A (zh) | 数据分类方法、装置、设备、存储介质及计算机程序产品 | |
CN116935170B (zh) | 视频处理模型的处理方法、装置、计算机设备和存储介质 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN111324773A (zh) | 一种背景音乐构建方法、装置、电子设备和存储介质 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
CN115587626A (zh) | 异质图神经网络属性补全方法 | |
CN117540007B (zh) | 基于相似模态补全的多模态情感分析方法、系统和设备 | |
CN114912540A (zh) | 迁移学习方法、装置、设备及存储介质 | |
CN117251586A (zh) | 多媒体资源推荐方法、装置及存储介质 | |
CN116189047A (zh) | 一种基于多模态信息聚合的短视频分类方法 | |
CN117093733A (zh) | 媒体分类模型的训练方法、媒体数据分类方法和装置 | |
CN110969187B (zh) | 一种图谱迁移的语义分析方法 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN114936890A (zh) | 一种基于逆倾向加权方法的反事实公平的推荐方法 | |
CN113869518A (zh) | 视觉常识推理方法、装置、电子设备及存储介质 | |
CN118230224B (zh) | 标签打分方法、标签打分模型训练方法和装置 | |
CN116561350B (zh) | 一种资源生成方法及相关装置 | |
US11687608B2 (en) | Team discovery for community-based question answering systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |