CN112732976B - 一种基于深度哈希编码的短视频多标签快速分类方法 - Google Patents

一种基于深度哈希编码的短视频多标签快速分类方法 Download PDF

Info

Publication number
CN112732976B
CN112732976B CN202110042475.7A CN202110042475A CN112732976B CN 112732976 B CN112732976 B CN 112732976B CN 202110042475 A CN202110042475 A CN 202110042475A CN 112732976 B CN112732976 B CN 112732976B
Authority
CN
China
Prior art keywords
label
representation
potential
network
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110042475.7A
Other languages
English (en)
Other versions
CN112732976A (zh
Inventor
井佩光
张凯
李亚鑫
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202110042475.7A priority Critical patent/CN112732976B/zh
Publication of CN112732976A publication Critical patent/CN112732976A/zh
Application granted granted Critical
Publication of CN112732976B publication Critical patent/CN112732976B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于深度哈希编码的短视频多标签快速分类方法,包括:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行內积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。

Description

一种基于深度哈希编码的短视频多标签快速分类方法
技术领域
本发明涉及社交媒体环境下的短视频快速分类领域,尤其涉及一种基于深度哈希编码的短视频多标签快速分类方法。
背景技术
新世纪以来,随着智能手机及其他终端设备的普及和移动互联网的兴起,多媒体信息处理领域获得了越来越多的关注。当今,生活节奏的加快,人们更倾向于浏览短小的视频,短视频也正快速地融入到人们生活中的方方面面。
从以往的一个电影或者电视剧的长视频信息,到如今人们更倾向于利用碎片化的时间,浏览各个社交平台发布和分享短视频信息。如何能够更加有效地挖掘和管理短视频为用户提供更加精准的服务变得越来越重要,短视频智能分析成为一个极具有前景的研究方向。
尽管移动互联网时代的发展使得短视频数据量变得越来越庞大,但得益于近年硬件设备的发展和算力的提高,以机器学习尤其是深度学习为代表的人工智能技术开始加速发展。在此背景下,利用深度学习对海量的短视频进行智能分析和处理成为了一种必然趋势。
发明内容
本发明致力于解决短视频所面临的多标签分类问题,由于一个短视频具有多个模态,并且往往是多个标签,如何有效地进行多模态的融合和多标签的分类面临挑战;同时短视频的数据量巨大,如何能够高效快速的进行分类也至关重要,本发明基于此,提出了基于深度哈希的短视频多标签快速分类方法,详见下文描述:
一种基于深度哈希编码的短视频多标签快速分类方法,所述方法包括:
将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;
将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
其中,所述将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构具体为:在给定各个视角特征时对其潜在表示进行最大似然建模:
Figure GDA0003182268670000021
其中,
Figure GDA0003182268670000022
是控制从潜在表示H到特征矩阵
Figure GDA00031822686700000213
的网络参数,包括
Figure GDA0003182268670000023
Figure GDA0003182268670000024
为第v个视角下的权重参数,
Figure GDA0003182268670000025
为第v个视角下的偏差参数,∝为正比符号,
Figure GDA0003182268670000026
为重构损失;
最大化对数似然函数等价于最小化重构损失
Figure GDA0003182268670000027
构成多视角子空间重构学习项U(v)为:
Figure GDA0003182268670000028
其中,
Figure GDA0003182268670000029
为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,
Figure GDA00031822686700000210
分别为子空间编码网络的权重和偏置,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F 2代表F范数的平方。
进一步地,所述第三目标函数为:
Figure GDA00031822686700000211
其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h)为潜在表示H的哈希编码,Z(g)为标签表示的哈希编码。
其中,所述依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果具体为:
以平均期望准确率作为最终的评价标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终平均期望准确率收敛,得到最终的参数矩阵
Figure GDA00031822686700000212
Wg,潜在表示矩阵H,哈希编码矩阵Z(h),Z(g)
进一步地,所述整体网络为:
用于对原始空间进行重构的子空间编码网络:采用多层感知机,输入是随机初始化的潜在表示H;
用于获取标签表示的图卷积网络:采用Glove模型获取标签的词向量,作为图卷积网络的输入,网络为两层的人工神经网络;
用于离散二值化的深度哈希编码网络:采用符号函数获取特征表示和标签表示的哈希编码。
本发明提供的技术方案的有益效果是:
1、本发明通过利用子空间学习的原理,找到了对原始视频特征进行重构的公共潜在表示,结合最大似然函数的相关知识,学习每个样本完备的潜在表示;
2、本发明通过构建标签之间的有向图和相关矩阵,通过图卷积网络来更新节点之间的信息,最终得到目标的多标签表示;
3、本发明通过获得样本空间和标签空间的哈希编码,从而能够做到快速分类,提升效率和资源的利用率。将以上多种思想结合在一起以实现最优的分类效果,尤其适合多标签短视频的快速分类。
附图说明
图1为一种基于深度哈希编码的短视频多标签快速分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于深度哈希编码的短视频多标签快速分类方法,参见图1,该方法包括以下步骤:
101:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
102:由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;
103:将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
104:将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
其中,整体网络包括:用于对原始空间进行重构的子空间编码网络,具体采用MLP模型(多层感知机),注意其输入是随机初始化的潜在表示H;用于获取标签表示的图卷积网络,首先采用Glove(手套)模型获取标签的Word Embedding(词向量),将其作为图卷积网络的输入,网络为两层的人工神经网络;用于离散二值化的深度哈希编码网络,此部分直接采用符号函数获取特征表示和标签表示的哈希编码。
在步骤101之前,该方法还包括:
从视频数据集中提取视觉(vision)和音频(audio)两种不同特征,并对二者进行相应归一化处理,最终构成2048维度的特征表示,将2048维度的特征表示进行整合得到特征矩阵
Figure GDA00031822686700000412
综上所述,本发明实施例通过利用子空间学习的内在原理,找到了对原始视频特征的最佳潜在表示,结合图卷积网络的相关知识,学习短视频各个标签之间的关系,进行內积后获得分类结果,从而获得可用于多标签分类的网络模型,基于该模型对实际的短视频多标签进行快速分类。
实施例2
下面结合计算公式、图1、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:将视频等间隔抽取15帧,随后分别使用VGG19(即Oxford的Visual GeometryGroup组提出的深度学习网络)模型和MFCC(梅尔倒谱系数)模型提取其视觉(vision)和音频(audio)两种不同特征,二者的特征维数同为2048维,并对这些特征进行归一化处理,将所有视频的15帧特征整合成1*2048维,最后将视频数据集分成训练集,验证集和测试集,每个集合的视频整合在一起构成了特征矩阵
Figure GDA0003182268670000041
202:确定特征矩阵
Figure GDA0003182268670000042
的完备潜在表示H,假设各个视角是条件独立的,在给定潜在表示H时对特征矩阵进行似然建模:
Figure GDA0003182268670000043
其中,p(X(V)|H)为在第V个视角下进行重构的似然估计,V为视角的数量,p为似然估计下的概率。
在给定各个视角特征时对其潜在表示进行最大似然建模:
Figure GDA0003182268670000044
其中,
Figure GDA0003182268670000045
是控制从潜在表示H到特征矩阵
Figure GDA00031822686700000413
的网络参数,其包括
Figure GDA0003182268670000046
Figure GDA0003182268670000047
为第v个视角下的权重参数,
Figure GDA0003182268670000048
为第v个视角下的偏差参数,∝为正比符号,其中
Figure GDA0003182268670000049
为重构损失,将上式写成对数形式,然后最大化对数似然函数等价于最小化重构损失,所以其可推导为:
Figure GDA00031822686700000410
其中,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F 2代表F范数的平方。由此整体构成多视角子空间重构学习项,U(v)具体为:
Figure GDA00031822686700000411
其中,
Figure GDA0003182268670000051
为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,
Figure GDA0003182268670000052
分别为子空间编码网络的权重和偏置。
203:利用图卷积网络学习标签之间的相关性,构建多标签表示;
首先提取标签特征描述H(l)和对应的相关矩阵A,然后更新标签图,其更新规则如下:
Figure GDA0003182268670000053
其中,
Figure GDA0003182268670000054
是度矩阵,
Figure GDA0003182268670000055
是规范化后的邻接矩阵,
Figure GDA0003182268670000056
是第l层的转换矩阵(该三个参数为图卷积网络中的技术术语,本发明实施例对此不作赘述),σ(·)为非线性激活函数,在实验中,第一层的网络输入为
Figure GDA0003182268670000057
经过图卷积网络的更新,最后一层网络的输出为
Figure GDA0003182268670000058
即训练得到的标签表示,
Figure GDA0003182268670000059
为实数集,d为中间层的特征维度,D为输出层的特征维度,C为标签个数。
将特征矩阵
Figure GDA00031822686700000510
的潜在表示H和标签表示G进行內积的结果作为预测的标签矩阵,对于第n个样本,其预测得分为:
Figure GDA00031822686700000511
T为对矩阵进行转置运算。
将其与原有的标签矩阵Y构成交叉熵损失函数,得到如下公式(即第二目标函数):
Figure GDA00031822686700000512
其中,Wg为图卷积网络的参数,Y为给定的标签矩阵,
Figure GDA00031822686700000513
为预测矩阵,C为视角个数,N为样本个数,σ为sigmoid激活函数;由此整体构成损失函数项(即第二目标函数)。
204:符号函数sign(·)的定义为如下公式:
Figure GDA00031822686700000514
Figure GDA00031822686700000515
利用符号函数获得潜在表示H和标签表示G的离散值,优化以下公式:
Figure GDA00031822686700000516
可以得到Z(h)=sign(H),Z(g)=sign(G),即潜在表示H和标签表示G的哈希编码,因为H和G可以保持标签矩阵的相似性,所以其哈希编码也保持了标签矩阵的相似性。
为了使哈希编码的每一位保持平衡和防止过拟合,在公式后面添加正则化平衡项,即可得到如下公式(第三目标函数):
Figure GDA00031822686700000517
其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h)为潜在表示H的哈希编码,Z(g)为标签表示的哈希编码。由此整体构成哈希编码和正则化平衡项。
205:将公式的目标项整合到一起,得到如下总目标函数:
Figure GDA0003182268670000061
其中,γ,η为自定义平衡参数,D为二值编码的特征维数。
206:对整个模型的总目标函数进行每一次运算,得到每一次迭代的参数矩阵
Figure GDA0003182268670000062
Wg,潜在表示矩阵H,哈希编码矩阵Z(h),Z(g),以平均期望准确率(mAP)作为最终的评价标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终mAP收敛,即可得到最终的参数矩阵
Figure GDA0003182268670000063
Wg,潜在表示矩阵H,哈希编码矩阵Z(h),Z(g)
207:在分类测试中,利用训练好的子空间编码网络获得测试集的潜在表示H,结合图卷积网络获取到的标签表示G,再分别获得两者的哈希编码,两者相乘即可得到最终的预测标签矩阵
Figure GDA0003182268670000064
如果Yij=1,则代表第i个样本含有第j个标签,相反,如果Yij=-1,则代表第i个样本不含有第j个标签,准确率使用mAP作为评价指标,为测试本方案的快速分类性能,统计测试开始和结束的时间差,在准确率和效率之间寻求平衡,获取最优的效果。
综上所述,本发明实施例通过利用子空间学习的内在原理,找到了对原始视频特征的最佳潜在表示,并且其潜在表示是公共且完备的,可以重构出每个视角的特征,结合图卷积网络的相关知识,学习不同标签之间的相关性,最终获得标签表示,通过将潜在表示和标签表示进行哈希编码,获得其离散表示,可以对多标签短视频做到快速分类,提升了效率和资源利用率。本发明实施例将多种思想结合在一起以实现最优的效果,尤其适合多标签视频的快速分类,最终得到了最后的分类结果。
实施例3
下面给出对本发明实施例的一种视频分类方法的测试实验:
本发明实施例的检测性能通过平均期望准确率(mAP)来衡量,定义如下:
Figure GDA0003182268670000071
Figure GDA0003182268670000072
Figure GDA0003182268670000073
其中,P为单次预测正确率,AP表示n次预测的平均准确率,mAP表示m类不同的视频的AP的平均值。
为了评估本方法的算法性能,本发明实施例使用来自美拍的125367余个短视频数据作为数据集,它总共包含113447个单标签视频数据,11002个双标签视频数据,918个三标签视频数据,整体数据集按照8:2:2的比例分别分为训练集,验证集和测试集,本方法输出结果为预测的标签矩阵,最终评价标准为期望平均准确率(即mAP),即预测正确的平均概率,此指标越高越好。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述方法包括:
将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与原有的标签矩阵构成的交叉熵损失函数作为第二目标函数;
将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果;
其中,
在给定各个视角特征时对其潜在表示进行最大似然建模:
Figure FDA0003182268660000011
其中,p(X(V)|H)为在第V个视角下进行重构的似然估计,V为视角的数量,p为似然估计下的概率;
Figure FDA0003182268660000012
其中,
Figure FDA0003182268660000013
是控制从潜在表示H到特征矩阵
Figure FDA0003182268660000014
的网络参数,包括
Figure FDA0003182268660000015
Figure FDA0003182268660000016
为第v个视角下的权重参数,
Figure FDA0003182268660000017
为第v个视角下的偏差参数,∝为正比符号,
Figure FDA0003182268660000018
为重构损失;
最大化对数似然函数等价于最小化重构损失
Figure FDA0003182268660000019
构成多视角子空间重构学习项U(v),作为第一目标函数,为:
Figure FDA00031822686600000110
其中,
Figure FDA00031822686600000111
为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,
Figure FDA00031822686600000112
分别为子空间编码网络的权重和偏置,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F 2代表F范数的平方;
所述第二目标函数为:
Figure FDA00031822686600000113
其中,Wg为图卷积网络的参数,Y为给定的标签矩阵,
Figure FDA00031822686600000114
为预测矩阵,C为视角个数,N为样本个数,σ为sigmoid激活函数;
所述第三目标函数为:
Figure FDA0003182268660000021
其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h)为潜在表示H的哈希编码,Z(g)为标签表示的哈希编码。
2.根据权利要求1所述的一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果具体为:
以平均期望准确率作为最终的评价标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终平均期望准确率收敛,得到最终的参数矩阵
Figure FDA0003182268660000022
Wg,潜在表示矩阵H,哈希编码矩阵Z(h),Z(g)
3.根据权利要求1所述的一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述整体网络为:
用于对原始空间进行重构的子空间编码网络:采用多层感知机,输入是随机初始化的潜在表示H;
用于获取标签表示的图卷积网络:采用Glove模型获取标签的词向量,作为图卷积网络的输入,网络为两层的人工神经网络;
用于离散二值化的深度哈希编码网络:采用符号函数获取特征表示和标签表示的哈希编码。
CN202110042475.7A 2021-01-13 2021-01-13 一种基于深度哈希编码的短视频多标签快速分类方法 Active CN112732976B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110042475.7A CN112732976B (zh) 2021-01-13 2021-01-13 一种基于深度哈希编码的短视频多标签快速分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110042475.7A CN112732976B (zh) 2021-01-13 2021-01-13 一种基于深度哈希编码的短视频多标签快速分类方法

Publications (2)

Publication Number Publication Date
CN112732976A CN112732976A (zh) 2021-04-30
CN112732976B true CN112732976B (zh) 2021-11-09

Family

ID=75592080

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110042475.7A Active CN112732976B (zh) 2021-01-13 2021-01-13 一种基于深度哈希编码的短视频多标签快速分类方法

Country Status (1)

Country Link
CN (1) CN112732976B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339362A (zh) * 2020-02-05 2020-06-26 天津大学 一种基于深度协同矩阵分解的短视频多标签分类方法
CN111460222A (zh) * 2020-02-17 2020-07-28 天津大学 一种基于多视角低秩分解的短视频多标签分类方法
CN111723241A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于特征与多标签增强表示的短视频自动标注方法
CN111737521A (zh) * 2020-08-04 2020-10-02 北京微播易科技股份有限公司 一种视频分类方法和装置
CN111898703A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 多标签视频分类方法、模型训练方法、装置及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8924313B2 (en) * 2010-06-03 2014-12-30 Xerox Corporation Multi-label classification using a learned combination of base classifiers
CN105069173B (zh) * 2015-09-10 2019-04-19 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN110059198B (zh) * 2019-04-08 2021-04-13 浙江大学 一种基于相似性保持的跨模态数据的离散哈希检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339362A (zh) * 2020-02-05 2020-06-26 天津大学 一种基于深度协同矩阵分解的短视频多标签分类方法
CN111460222A (zh) * 2020-02-17 2020-07-28 天津大学 一种基于多视角低秩分解的短视频多标签分类方法
CN111723241A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于特征与多标签增强表示的短视频自动标注方法
CN111737521A (zh) * 2020-08-04 2020-10-02 北京微播易科技股份有限公司 一种视频分类方法和装置
CN111898703A (zh) * 2020-08-14 2020-11-06 腾讯科技(深圳)有限公司 多标签视频分类方法、模型训练方法、装置及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Low-Rank Regularized Deep Collaborative Matrix Factorization for Micro-Video Multi-Label Classification;Yuting Su;《lpdb》;20200330;第740-744页 *
基于多视角低秩表征的短视频多标签学习模型;吕卫;《激光与光电子学进展》;20201130;第221012-1至221012-8页 *
基于深度多模态特征融合的短视频分类;张丽娟;《北京航空航天大学学报》;20200911;第1-9页 *

Also Published As

Publication number Publication date
CN112732976A (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN113190699B (zh) 一种基于类别级语义哈希的遥感图像检索方法及装置
CN110188209B (zh) 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN113177132A (zh) 基于联合语义矩阵的深度跨模态哈希的图像检索方法
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN113222068B (zh) 基于邻接矩阵指导标签嵌入的遥感图像多标签分类方法
CN113269647B (zh) 基于图的交易异常关联用户检测方法
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN114978613B (zh) 基于数据增强和自监督特征增强的网络入侵检测方法
CN113177141A (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN114299321A (zh) 视频分类方法、装置、设备及可读存储介质
Sun et al. Image steganalysis based on convolutional neural network and feature selection
CN113628059A (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
Zhang et al. Hyperspectral band selection using crossover‐based gravitational search algorithm
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
CN113656700A (zh) 基于多相似度一致矩阵分解的哈希检索方法
CN115203471A (zh) 一种基于注意力机制的多模融合视频推荐方法
Hiriyannaiah et al. Deep learning for multimedia data in IoT
CN112364198A (zh) 一种跨模态哈希检索方法、终端设备及存储介质
Farhangi et al. Informative visual words construction to improve bag of words image representation
CN112732976B (zh) 一种基于深度哈希编码的短视频多标签快速分类方法
CN112507912B (zh) 一种识别违规图片的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Jing Peiguang

Inventor after: Zhang Kai

Inventor after: Li Yaxin

Inventor after: Su Yuting

Inventor before: Jing Peiguang

Inventor before: Li Yaxin

Inventor before: Su Yuting

GR01 Patent grant
GR01 Patent grant