CN112732976B - 一种基于深度哈希编码的短视频多标签快速分类方法 - Google Patents
一种基于深度哈希编码的短视频多标签快速分类方法 Download PDFInfo
- Publication number
- CN112732976B CN112732976B CN202110042475.7A CN202110042475A CN112732976B CN 112732976 B CN112732976 B CN 112732976B CN 202110042475 A CN202110042475 A CN 202110042475A CN 112732976 B CN112732976 B CN 112732976B
- Authority
- CN
- China
- Prior art keywords
- label
- representation
- potential
- network
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于深度哈希编码的短视频多标签快速分类方法,包括:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行內积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
Description
技术领域
本发明涉及社交媒体环境下的短视频快速分类领域,尤其涉及一种基于深度哈希编码的短视频多标签快速分类方法。
背景技术
新世纪以来,随着智能手机及其他终端设备的普及和移动互联网的兴起,多媒体信息处理领域获得了越来越多的关注。当今,生活节奏的加快,人们更倾向于浏览短小的视频,短视频也正快速地融入到人们生活中的方方面面。
从以往的一个电影或者电视剧的长视频信息,到如今人们更倾向于利用碎片化的时间,浏览各个社交平台发布和分享短视频信息。如何能够更加有效地挖掘和管理短视频为用户提供更加精准的服务变得越来越重要,短视频智能分析成为一个极具有前景的研究方向。
尽管移动互联网时代的发展使得短视频数据量变得越来越庞大,但得益于近年硬件设备的发展和算力的提高,以机器学习尤其是深度学习为代表的人工智能技术开始加速发展。在此背景下,利用深度学习对海量的短视频进行智能分析和处理成为了一种必然趋势。
发明内容
本发明致力于解决短视频所面临的多标签分类问题,由于一个短视频具有多个模态,并且往往是多个标签,如何有效地进行多模态的融合和多标签的分类面临挑战;同时短视频的数据量巨大,如何能够高效快速的进行分类也至关重要,本发明基于此,提出了基于深度哈希的短视频多标签快速分类方法,详见下文描述:
一种基于深度哈希编码的短视频多标签快速分类方法,所述方法包括:
将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;
将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
其中,所述将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构具体为:在给定各个视角特征时对其潜在表示进行最大似然建模:
其中,为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,分别为子空间编码网络的权重和偏置,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F 2代表F范数的平方。
进一步地,所述第三目标函数为:
其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h)为潜在表示H的哈希编码,Z(g)为标签表示的哈希编码。
其中,所述依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果具体为:
进一步地,所述整体网络为:
用于对原始空间进行重构的子空间编码网络:采用多层感知机,输入是随机初始化的潜在表示H;
用于获取标签表示的图卷积网络:采用Glove模型获取标签的词向量,作为图卷积网络的输入,网络为两层的人工神经网络;
用于离散二值化的深度哈希编码网络:采用符号函数获取特征表示和标签表示的哈希编码。
本发明提供的技术方案的有益效果是:
1、本发明通过利用子空间学习的原理,找到了对原始视频特征进行重构的公共潜在表示,结合最大似然函数的相关知识,学习每个样本完备的潜在表示;
2、本发明通过构建标签之间的有向图和相关矩阵,通过图卷积网络来更新节点之间的信息,最终得到目标的多标签表示;
3、本发明通过获得样本空间和标签空间的哈希编码,从而能够做到快速分类,提升效率和资源的利用率。将以上多种思想结合在一起以实现最优的分类效果,尤其适合多标签短视频的快速分类。
附图说明
图1为一种基于深度哈希编码的短视频多标签快速分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于深度哈希编码的短视频多标签快速分类方法,参见图1,该方法包括以下步骤:
101:将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
102:由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与真实标签矩阵构成的交叉熵损失函数作为第二目标函数;
103:将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
104:将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果。
其中,整体网络包括:用于对原始空间进行重构的子空间编码网络,具体采用MLP模型(多层感知机),注意其输入是随机初始化的潜在表示H;用于获取标签表示的图卷积网络,首先采用Glove(手套)模型获取标签的Word Embedding(词向量),将其作为图卷积网络的输入,网络为两层的人工神经网络;用于离散二值化的深度哈希编码网络,此部分直接采用符号函数获取特征表示和标签表示的哈希编码。
在步骤101之前,该方法还包括:
综上所述,本发明实施例通过利用子空间学习的内在原理,找到了对原始视频特征的最佳潜在表示,结合图卷积网络的相关知识,学习短视频各个标签之间的关系,进行內积后获得分类结果,从而获得可用于多标签分类的网络模型,基于该模型对实际的短视频多标签进行快速分类。
实施例2
下面结合计算公式、图1、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:将视频等间隔抽取15帧,随后分别使用VGG19(即Oxford的Visual GeometryGroup组提出的深度学习网络)模型和MFCC(梅尔倒谱系数)模型提取其视觉(vision)和音频(audio)两种不同特征,二者的特征维数同为2048维,并对这些特征进行归一化处理,将所有视频的15帧特征整合成1*2048维,最后将视频数据集分成训练集,验证集和测试集,每个集合的视频整合在一起构成了特征矩阵
其中,p(X(V)|H)为在第V个视角下进行重构的似然估计,V为视角的数量,p为似然估计下的概率。
在给定各个视角特征时对其潜在表示进行最大似然建模:
其中,是控制从潜在表示H到特征矩阵的网络参数,其包括 为第v个视角下的权重参数,为第v个视角下的偏差参数,∝为正比符号,其中为重构损失,将上式写成对数形式,然后最大化对数似然函数等价于最小化重构损失,所以其可推导为:
203:利用图卷积网络学习标签之间的相关性,构建多标签表示;
首先提取标签特征描述H(l)和对应的相关矩阵A,然后更新标签图,其更新规则如下:
其中,是度矩阵,是规范化后的邻接矩阵,是第l层的转换矩阵(该三个参数为图卷积网络中的技术术语,本发明实施例对此不作赘述),σ(·)为非线性激活函数,在实验中,第一层的网络输入为经过图卷积网络的更新,最后一层网络的输出为即训练得到的标签表示,为实数集,d为中间层的特征维度,D为输出层的特征维度,C为标签个数。
将其与原有的标签矩阵Y构成交叉熵损失函数,得到如下公式(即第二目标函数):
可以得到Z(h)=sign(H),Z(g)=sign(G),即潜在表示H和标签表示G的哈希编码,因为H和G可以保持标签矩阵的相似性,所以其哈希编码也保持了标签矩阵的相似性。
为了使哈希编码的每一位保持平衡和防止过拟合,在公式后面添加正则化平衡项,即可得到如下公式(第三目标函数):
其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h)为潜在表示H的哈希编码,Z(g)为标签表示的哈希编码。由此整体构成哈希编码和正则化平衡项。
205:将公式的目标项整合到一起,得到如下总目标函数:
其中,γ,η为自定义平衡参数,D为二值编码的特征维数。
206:对整个模型的总目标函数进行每一次运算,得到每一次迭代的参数矩阵Wg,潜在表示矩阵H,哈希编码矩阵Z(h),Z(g),以平均期望准确率(mAP)作为最终的评价标准,利用随机梯度下降法对所有的参数进行迭代更新,直到最终mAP收敛,即可得到最终的参数矩阵Wg,潜在表示矩阵H,哈希编码矩阵Z(h),Z(g)。
207:在分类测试中,利用训练好的子空间编码网络获得测试集的潜在表示H,结合图卷积网络获取到的标签表示G,再分别获得两者的哈希编码,两者相乘即可得到最终的预测标签矩阵如果Yij=1,则代表第i个样本含有第j个标签,相反,如果Yij=-1,则代表第i个样本不含有第j个标签,准确率使用mAP作为评价指标,为测试本方案的快速分类性能,统计测试开始和结束的时间差,在准确率和效率之间寻求平衡,获取最优的效果。
综上所述,本发明实施例通过利用子空间学习的内在原理,找到了对原始视频特征的最佳潜在表示,并且其潜在表示是公共且完备的,可以重构出每个视角的特征,结合图卷积网络的相关知识,学习不同标签之间的相关性,最终获得标签表示,通过将潜在表示和标签表示进行哈希编码,获得其离散表示,可以对多标签短视频做到快速分类,提升了效率和资源利用率。本发明实施例将多种思想结合在一起以实现最优的效果,尤其适合多标签视频的快速分类,最终得到了最后的分类结果。
实施例3
下面给出对本发明实施例的一种视频分类方法的测试实验:
本发明实施例的检测性能通过平均期望准确率(mAP)来衡量,定义如下:
其中,P为单次预测正确率,AP表示n次预测的平均准确率,mAP表示m类不同的视频的AP的平均值。
为了评估本方法的算法性能,本发明实施例使用来自美拍的125367余个短视频数据作为数据集,它总共包含113447个单标签视频数据,11002个双标签视频数据,918个三标签视频数据,整体数据集按照8:2:2的比例分别分为训练集,验证集和测试集,本方法输出结果为预测的标签矩阵,最终评价标准为期望平均准确率(即mAP),即预测正确的平均概率,此指标越高越好。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述方法包括:
将多个视角下的特征矩阵进行子空间学习获取潜在表示,将潜在表示对原特征空间进行重构,组成第一目标函数;
由子空间学习获得的潜在表示和图卷积网络学习获得的标签表示进行内积后、与原有的标签矩阵构成的交叉熵损失函数作为第二目标函数;
将潜在表示、标签表示分别进行离散化获得哈希编码,将哈希编码与防止过拟合的正则化平衡项组成第三目标函数;
将第一至第三目标函数进行加权获取总目标函数,并引入拉格朗日乘子,依次迭代更新整体网络中的参数,直至总体目标函数收敛,得到最终的分类效果;
其中,
在给定各个视角特征时对其潜在表示进行最大似然建模:
其中,p(X(V)|H)为在第V个视角下进行重构的似然估计,V为视角的数量,p为似然估计下的概率;
其中,为矩阵U(v)的每一列,hn为每个样本的潜在表示,a(·)为激活函数,分别为子空间编码网络的权重和偏置,U(v)为编码网络的输出,X(v)为各个视角下的样本矩阵,V为视角的数量,v代表不同视角的序号,||.||F 2代表F范数的平方;
所述第二目标函数为:
所述第三目标函数为:
其中,λ是平衡参数,H为完备的潜在表示,G为图卷积网络学习获得的标签表示,Z(h)为潜在表示H的哈希编码,Z(g)为标签表示的哈希编码。
3.根据权利要求1所述的一种基于深度哈希编码的短视频多标签快速分类方法,其特征在于,所述整体网络为:
用于对原始空间进行重构的子空间编码网络:采用多层感知机,输入是随机初始化的潜在表示H;
用于获取标签表示的图卷积网络:采用Glove模型获取标签的词向量,作为图卷积网络的输入,网络为两层的人工神经网络;
用于离散二值化的深度哈希编码网络:采用符号函数获取特征表示和标签表示的哈希编码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110042475.7A CN112732976B (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度哈希编码的短视频多标签快速分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110042475.7A CN112732976B (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度哈希编码的短视频多标签快速分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112732976A CN112732976A (zh) | 2021-04-30 |
CN112732976B true CN112732976B (zh) | 2021-11-09 |
Family
ID=75592080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110042475.7A Active CN112732976B (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度哈希编码的短视频多标签快速分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112732976B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339362A (zh) * | 2020-02-05 | 2020-06-26 | 天津大学 | 一种基于深度协同矩阵分解的短视频多标签分类方法 |
CN111460222A (zh) * | 2020-02-17 | 2020-07-28 | 天津大学 | 一种基于多视角低秩分解的短视频多标签分类方法 |
CN111723241A (zh) * | 2020-05-08 | 2020-09-29 | 天津大学 | 一种基于特征与多标签增强表示的短视频自动标注方法 |
CN111737521A (zh) * | 2020-08-04 | 2020-10-02 | 北京微播易科技股份有限公司 | 一种视频分类方法和装置 |
CN111898703A (zh) * | 2020-08-14 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 多标签视频分类方法、模型训练方法、装置及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8924313B2 (en) * | 2010-06-03 | 2014-12-30 | Xerox Corporation | Multi-label classification using a learned combination of base classifiers |
CN105069173B (zh) * | 2015-09-10 | 2019-04-19 | 天津中科智能识别产业技术研究院有限公司 | 基于有监督的拓扑保持哈希的快速图像检索方法 |
CN110059198B (zh) * | 2019-04-08 | 2021-04-13 | 浙江大学 | 一种基于相似性保持的跨模态数据的离散哈希检索方法 |
-
2021
- 2021-01-13 CN CN202110042475.7A patent/CN112732976B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339362A (zh) * | 2020-02-05 | 2020-06-26 | 天津大学 | 一种基于深度协同矩阵分解的短视频多标签分类方法 |
CN111460222A (zh) * | 2020-02-17 | 2020-07-28 | 天津大学 | 一种基于多视角低秩分解的短视频多标签分类方法 |
CN111723241A (zh) * | 2020-05-08 | 2020-09-29 | 天津大学 | 一种基于特征与多标签增强表示的短视频自动标注方法 |
CN111737521A (zh) * | 2020-08-04 | 2020-10-02 | 北京微播易科技股份有限公司 | 一种视频分类方法和装置 |
CN111898703A (zh) * | 2020-08-14 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 多标签视频分类方法、模型训练方法、装置及介质 |
Non-Patent Citations (3)
Title |
---|
Low-Rank Regularized Deep Collaborative Matrix Factorization for Micro-Video Multi-Label Classification;Yuting Su;《lpdb》;20200330;第740-744页 * |
基于多视角低秩表征的短视频多标签学习模型;吕卫;《激光与光电子学进展》;20201130;第221012-1至221012-8页 * |
基于深度多模态特征融合的短视频分类;张丽娟;《北京航空航天大学学报》;20200911;第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112732976A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309331B (zh) | 一种基于自监督的跨模态深度哈希检索方法 | |
CN111476284B (zh) | 图像识别模型训练及图像识别方法、装置、电子设备 | |
CN113190699B (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN110188209B (zh) | 基于层次标签的跨模态哈希模型构建方法、搜索方法及装置 | |
CN111382555B (zh) | 数据处理方法、介质、装置和计算设备 | |
CN111667022A (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN113177132A (zh) | 基于联合语义矩阵的深度跨模态哈希的图像检索方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN113222068B (zh) | 基于邻接矩阵指导标签嵌入的遥感图像多标签分类方法 | |
CN113269647B (zh) | 基于图的交易异常关联用户检测方法 | |
WO2021042857A1 (zh) | 图像分割模型的处理方法和处理装置 | |
CN114978613B (zh) | 基于数据增强和自监督特征增强的网络入侵检测方法 | |
CN113177141A (zh) | 基于语义嵌入软相似性的多标签视频哈希检索方法及设备 | |
CN114299321A (zh) | 视频分类方法、装置、设备及可读存储介质 | |
Sun et al. | Image steganalysis based on convolutional neural network and feature selection | |
CN113628059A (zh) | 一种基于多层图注意力网络的关联用户识别方法及装置 | |
Zhang et al. | Hyperspectral band selection using crossover‐based gravitational search algorithm | |
Aziguli et al. | A robust text classifier based on denoising deep neural network in the analysis of big data | |
CN113656700A (zh) | 基于多相似度一致矩阵分解的哈希检索方法 | |
CN115203471A (zh) | 一种基于注意力机制的多模融合视频推荐方法 | |
Hiriyannaiah et al. | Deep learning for multimedia data in IoT | |
CN112364198A (zh) | 一种跨模态哈希检索方法、终端设备及存储介质 | |
Farhangi et al. | Informative visual words construction to improve bag of words image representation | |
CN112732976B (zh) | 一种基于深度哈希编码的短视频多标签快速分类方法 | |
CN112507912B (zh) | 一种识别违规图片的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Jing Peiguang Inventor after: Zhang Kai Inventor after: Li Yaxin Inventor after: Su Yuting Inventor before: Jing Peiguang Inventor before: Li Yaxin Inventor before: Su Yuting |
|
GR01 | Patent grant | ||
GR01 | Patent grant |