CN111339362A - 一种基于深度协同矩阵分解的短视频多标签分类方法 - Google Patents
一种基于深度协同矩阵分解的短视频多标签分类方法 Download PDFInfo
- Publication number
- CN111339362A CN111339362A CN202010081003.8A CN202010081003A CN111339362A CN 111339362 A CN111339362 A CN 111339362A CN 202010081003 A CN202010081003 A CN 202010081003A CN 111339362 A CN111339362 A CN 111339362A
- Authority
- CN
- China
- Prior art keywords
- features
- short video
- matrix
- short
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000000354 decomposition reaction Methods 0.000 title claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 17
- 230000009286 beneficial effect Effects 0.000 claims abstract description 5
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000000513 principal component analysis Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 235000009508 confectionery Nutrition 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于深度协同矩阵分解的短视频多标签分类方法,所述方法包括以下步骤:获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果。本发明对短视频多标签进行有效的分类。
Description
技术领域
本发明涉及短视频多标签分类领域,尤其涉及一种基于深度协同矩阵分解的短视频多标签分类方法。
背景技术
随着移动通信设备的快速发展,随时随地拍摄并上传内容丰富的短小视频已经变得非常容易。这些内容涉及我们日常生活中方方面面的短小视频被称为“短视频”。相比于传统的视频,短视频的时长更短(短视频的播放时长大约为5-10秒),所涉及的内容更为丰富,拍摄所需的门槛更低。短视频所具有的传统视频没有的优点,使得短视频更容易占据人们“碎片化”的时间,这也使得在生活节奏快速的今天,短视频比其他多媒体更具商业价值。这一两年来,出现了大量和短视频有关的应用程序,短视频行业的市场规模由2018年的50亿元飙升至2019年的450亿元。
短视频的语义理解对于短视频的应用程序来说至关重要,短视频的语义理解涉及短视频的流行度预测、多标签分类、拍摄场景分析等多个方面,这其中最为重要的便是短视频的多标签分类。由于短视频的特征较为复杂,特征所包含的隐藏信息较多,使得短视频多标签分类成为一个比较困难的工作。
因此提出一种省时有效的短视频多标签分类方法是很有意义的。
发明内容
本发明提供了一种基于深度协同矩阵分解的短视频多标签分类方法,本发明对短视频多标签进行有效的分类,详见下文描述:
基于深度协同矩阵分解的短视频多标签分类方法,所述方法包括以下步骤:
获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;
结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;
结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果。
所述获取短视频特征和类别特征具体为:
将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;
获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维。
所述引入对重构特征矩阵的低秩约束具体为:
s.t.X=Z1Z2…ZlH,A=L1L2…LlW
其中,||·||*是核范数,H和W分别是短视频特征和类别特征的重构特征矩阵,Z1Z2…Zl,L1L2…Ll分别是短视频特征和类别特征的基矩阵。
所述利用标签矩阵建立短视频特征和类别特征之间的联系具体为:
HTW≈Q
其中,Q为标签矩阵。
所述结合F范数整和目标项获取目标函数具体为:
s.t.Ω1,Ω2,Ψ≥0;tr(Ω1)=tr(Ω2)=tr(Ψ)=1.
其中,λ1,…,λ6是系数;||·||F是F范数。
所述利用得到的基矩阵和分类器得到短视频多标签的分类结果具体为:
本发明提供的技术方案的有益效果是:
1、本发明利用短视频特征和类别特征在深度分解后互补的关系,挖掘了更多隐藏信息;
2、本发明结合低秩表征、类间关系学习、特征属性间关系学习,使得重构特征的冗余性最低,并且更适合多标签分类;
3、本发明同时提取了短视频特征和类别特征,并对这两种特征同时进行深度矩阵分解,在深度矩阵分解的过程中考虑重构特征的低秩约束,以及重构特征属性间关系学习,以获取携带最少冗余信息的重构特征;
4、本发明利用标签矩阵做桥梁,建立短视频特征和类别特征之间的互补联系,同时引入类间关系学习;
5、本发明首次提出了“类别特征”的概念,并首次建立了短视频特征和类别特征在深度矩阵分解的框架下的互补关系,填补了相关研究在双深度矩阵分解以处理短视频多标签分类问题上的空白。
附图说明
图1为一种基于深度协同矩阵分解的短视频多标签分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于深度协同矩阵分解的短视频多标签分类方法,参见图1,该方法包括以下步骤:
1)获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;
2)结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;
3)结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果。
其中,上述步骤1)获取短视频特征和类别特征具体为:
将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;
获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维。
综上所述,本发明实施例通过上述步骤实现了对短视频多标签进行有效的分类。
实施例2
下面结合具体的计算公式、实例,对实施例1中的方案进行进一步地介绍,详见下文描述:
1)将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维;
2)同时将短视频特征X和类别特征A分别分解为l个基矩阵和一个重构特征矩阵:
其中,Z1Z2…Zl,L1L2…Ll分别是短视频特征和类别特征的基矩阵;H和W分别是短视频特征和类别特征的重构特征矩阵。
3)引入对重构特征矩阵的低秩约束,以减少冗余信息:
s.t.X=Z1Z2…ZlH,A=L1L2…LlW (2)
其中,||·||*是核范数。
4)在深度矩阵分解的过程中,同时考虑特征属性关联性的学习:
s.t.Ω1,Ω2≥0;tr(Ω1)=tr(Ω2)=1. (3)
其中,Ω1,Ω2是属性关联矩阵,它们的值由公式(4)确定:
其中,tr(·)是迹范数;(·)T是矩阵的转置操作;tr(Ω1)=tr(Ω2)=1是为了限制公式(3)所对应的模型的复杂性,λ2,λ4为系数。
5)利用标签矩阵Q建立短视频特征和类别特征之间的联系:
HTW≈Q (5)
其中,标签矩阵Q的值由人为标注确定,用来表示每个短视频所带标签的信息。qij为标签矩阵第i行第j列的元素,如果第i个短视频带有第j个标签则qij值为1,否则为-1。
6)为了使重构的短视频特征更有利于多标签分类,引入了类间关系学习:
s.t.Ψ≥0;tr(Ψ)=1. (6)
其中,λ6为系数;Ψ为类间关系矩阵,其值由公式(7)确定:
7)用F范数逼近步骤2)、5)中的约等关系,同时整合步骤3)、4)、6)中的目标项,可得到如下的目标函数:
s.t.Ω1,Ω2,Ψ≥0;tr(Ω1)=tr(Ω2)=tr(Ψ)=1. (8)
其中,λ1,…,λ6是系数;||·||F是F范数。
8)利用拉格朗日乘子法优化步骤7)中的目标函数,直至函数值收敛;
其中,上述优化步骤为本领域技术人员所公知,本发明实施例对此不做赘述。
9)利用得到的基矩阵Z1,...,Zl和分类器W得到短视频多标签的分类结果:
综上所述,本发明实施例通过上述步骤实现了对短视频多标签进行有效的分类。
实施例3
下面结合具体的实验对实施例1和2中的方案进行可行性验证,详见下文描述:
选择由AI Challenger发布的MLSV2018短视频多标签数据库作为数据集。将该数据集平均分成5份数据,每份数据按照6折交叉验证的方式进行实验。选择了多标签分类评价指标中的Average precision作为评判模型性能的指标。Average precision的值越大越好。
在5份数据上分别进行训练和测试,最后的结果取五份数据上取得结果的平均。最佳参数为:λ1=10,λ2=10,λ3=5,λ4=5,λ5=200,λ6=100;深度分解最佳层数为6层,每层的降维步长为50,所得的结果如表1所示:
表1
方法 | Average precision |
C3D | 0.7149±0.0089 |
GoogleNet | 0.6676±0.0044 |
SRRS | 0.7912±0.0051 |
LRR | 0.5243±0.0057 |
DNMF | 0.4673±0.0063 |
MlkNN | 0.7891±0.0043 |
Ours | 0.8017±0.0054 |
其中,结果表示为:均值±方差的形式,从表1可以看出本发明所提出的模型表现最优。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度协同矩阵分解的短视频多标签分类方法,其特征在于,所述方法包括以下步骤:
获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;
结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;
结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果。
2.根据权利要求1所述的一种基于深度协同矩阵分解的短视频多标签分类方法,其特征在于,所述获取短视频特征和类别特征具体为:
将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;
获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维。
4.根据权利要求3所述的一种基于深度协同矩阵分解的短视频多标签分类方法,其特征在于,所述利用标签矩阵建立短视频特征和类别特征之间的联系具体为:
HTW≈Q
其中,Q为标签矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010081003.8A CN111339362B (zh) | 2020-02-05 | 2020-02-05 | 一种基于深度协同矩阵分解的短视频多标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010081003.8A CN111339362B (zh) | 2020-02-05 | 2020-02-05 | 一种基于深度协同矩阵分解的短视频多标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339362A true CN111339362A (zh) | 2020-06-26 |
CN111339362B CN111339362B (zh) | 2023-07-18 |
Family
ID=71181486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010081003.8A Active CN111339362B (zh) | 2020-02-05 | 2020-02-05 | 一种基于深度协同矩阵分解的短视频多标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339362B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732976A (zh) * | 2021-01-13 | 2021-04-30 | 天津大学 | 一种基于深度哈希编码的短视频多标签快速分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013171329A (ja) * | 2012-02-17 | 2013-09-02 | Nippon Telegr & Teleph Corp <Ntt> | データ分類予測装置、方法、及びプログラム |
CN106772331A (zh) * | 2016-12-13 | 2017-05-31 | 中国电子科技集团公司第三研究所 | 目标识别方法和目标识别装置 |
US20170228618A1 (en) * | 2014-10-24 | 2017-08-10 | Huawei Technologies Co., Ltd. | Video classification method and apparatus |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN110110610A (zh) * | 2019-04-16 | 2019-08-09 | 天津大学 | 一种用于短视频的事件检测方法 |
-
2020
- 2020-02-05 CN CN202010081003.8A patent/CN111339362B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013171329A (ja) * | 2012-02-17 | 2013-09-02 | Nippon Telegr & Teleph Corp <Ntt> | データ分類予測装置、方法、及びプログラム |
US20170228618A1 (en) * | 2014-10-24 | 2017-08-10 | Huawei Technologies Co., Ltd. | Video classification method and apparatus |
CN106772331A (zh) * | 2016-12-13 | 2017-05-31 | 中国电子科技集团公司第三研究所 | 目标识别方法和目标识别装置 |
WO2019100724A1 (zh) * | 2017-11-24 | 2019-05-31 | 华为技术有限公司 | 训练多标签分类模型的方法和装置 |
CN108846375A (zh) * | 2018-06-29 | 2018-11-20 | 山东大学 | 一种基于神经网络的多模态协同学习方法及装置 |
CN110110610A (zh) * | 2019-04-16 | 2019-08-09 | 天津大学 | 一种用于短视频的事件检测方法 |
Non-Patent Citations (1)
Title |
---|
高晨峰;: "深度神经网络视频新媒体短视频个性化推荐系统研究" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732976A (zh) * | 2021-01-13 | 2021-04-30 | 天津大学 | 一种基于深度哈希编码的短视频多标签快速分类方法 |
CN112732976B (zh) * | 2021-01-13 | 2021-11-09 | 天津大学 | 一种基于深度哈希编码的短视频多标签快速分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111339362B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760821B (zh) | 基于核空间的分类聚集稀疏表示的人脸识别方法 | |
CN110362674B (zh) | 一种基于卷积神经网络的微博新闻摘要抽取式生成方法 | |
CN112765352A (zh) | 基于具有自注意力机制的图卷积神经网络文本分类方法 | |
CN109840560A (zh) | 基于胶囊网络中融入聚类的图像分类方法 | |
CN108932950A (zh) | 一种基于标签扩增与多频谱图融合的声音场景识别方法 | |
CN110046250A (zh) | 三嵌入卷积神经网络模型及其文本多分类方法 | |
CN111242033A (zh) | 一种基于视频和文字对判别分析的视频特征学习方法 | |
CN114913379B (zh) | 基于多任务动态对比学习的遥感图像小样本场景分类方法 | |
CN111723874A (zh) | 一种基于宽度和深度神经网络的声场景分类方法 | |
CN116205222A (zh) | 一种基于多通道注意力融合的方面级情感分析系统及方法 | |
CN111046185B (zh) | 一种文本信息的知识图谱关系抽取方法、装置及终端 | |
CN113435254A (zh) | 一种基于哨兵二号影像的耕地深度学习提取方法 | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
CN112528058A (zh) | 基于图像属性主动学习的细粒度图像分类方法 | |
CN115909390B (zh) | 低俗内容识别方法、装置、计算机设备以及存储介质 | |
CN111339362A (zh) | 一种基于深度协同矩阵分解的短视频多标签分类方法 | |
CN112883066B (zh) | 一种数据库上的多维范围查询基数估计方法 | |
CN110110120B (zh) | 一种基于深度学习的图像检索方法和装置 | |
CN107886109A (zh) | 一种基于有监督视频分割的视频摘要方法 | |
CN110288002B (zh) | 一种基于稀疏正交神经网络的图像分类方法 | |
CN115063692B (zh) | 一种基于主动学习的遥感图像场景分类方法 | |
CN115170843A (zh) | 基于嵌入特征提取的多视图一致性图像聚类方法及系统 | |
CN109857906B (zh) | 基于查询的无监督深度学习的多视频摘要方法 | |
CN115017404A (zh) | 基于压缩空间句子选择的目标新闻话题摘要方法 | |
CN111488840A (zh) | 一种基于多任务学习模型的人体行为分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |