CN111339362B - 一种基于深度协同矩阵分解的短视频多标签分类方法 - Google Patents

一种基于深度协同矩阵分解的短视频多标签分类方法 Download PDF

Info

Publication number
CN111339362B
CN111339362B CN202010081003.8A CN202010081003A CN111339362B CN 111339362 B CN111339362 B CN 111339362B CN 202010081003 A CN202010081003 A CN 202010081003A CN 111339362 B CN111339362 B CN 111339362B
Authority
CN
China
Prior art keywords
short video
features
category
matrix
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010081003.8A
Other languages
English (en)
Other versions
CN111339362A (zh
Inventor
井佩光
洪道政
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010081003.8A priority Critical patent/CN111339362B/zh
Publication of CN111339362A publication Critical patent/CN111339362A/zh
Application granted granted Critical
Publication of CN111339362B publication Critical patent/CN111339362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度协同矩阵分解的短视频多标签分类方法,所述方法包括以下步骤:获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果。本发明对短视频多标签进行有效的分类。

Description

一种基于深度协同矩阵分解的短视频多标签分类方法
技术领域
本发明涉及短视频多标签分类领域,尤其涉及一种基于深度协同矩阵分解的短视频多标签分类方法。
背景技术
随着移动通信设备的快速发展,随时随地拍摄并上传内容丰富的短小视频已经变得非常容易。这些内容涉及我们日常生活中方方面面的短小视频被称为“短视频”。相比于传统的视频,短视频的时长更短(短视频的播放时长大约为5-10秒),所涉及的内容更为丰富,拍摄所需的门槛更低。短视频所具有的传统视频没有的优点,使得短视频更容易占据人们“碎片化”的时间,这也使得在生活节奏快速的今天,短视频比其他多媒体更具商业价值。这一两年来,出现了大量和短视频有关的应用程序,短视频行业的市场规模由2018年的50亿元飙升至2019年的450亿元。
短视频的语义理解对于短视频的应用程序来说至关重要,短视频的语义理解涉及短视频的流行度预测、多标签分类、拍摄场景分析等多个方面,这其中最为重要的便是短视频的多标签分类。由于短视频的特征较为复杂,特征所包含的隐藏信息较多,使得短视频多标签分类成为一个比较困难的工作。
因此提出一种省时有效的短视频多标签分类方法是很有意义的。
发明内容
本发明提供了一种基于深度协同矩阵分解的短视频多标签分类方法,本发明对短视频多标签进行有效的分类,详见下文描述:
基于深度协同矩阵分解的短视频多标签分类方法,所述方法包括以下步骤:
获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;
结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;
结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果。
所述获取短视频特征和类别特征具体为:
将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;
获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维。
所述引入对重构特征矩阵的低秩约束具体为:
s.t.X=Z1Z2…ZlH,A=L1L2…LlW
其中,||·||*是核范数,H和W分别是短视频特征和类别特征的重构特征矩阵,Z1Z2…Zl,L1L2…Ll分别是短视频特征和类别特征的基矩阵。
所述利用标签矩阵建立短视频特征和类别特征之间的联系具体为:
HTW≈Q
其中,Q为标签矩阵。
所述结合F范数整和目标项获取目标函数具体为:
s.t.Ω12,Ψ≥0;tr(Ω1)=tr(Ω2)=tr(Ψ)=1.
其中,λ1,…,λ6是系数;||·||F是F范数。
所述利用得到的基矩阵和分类器得到短视频多标签的分类结果具体为:
其中S2是最终输出的分类结果;是伪逆运算;soft max(·)是softmax归一化操作。
本发明提供的技术方案的有益效果是:
1、本发明利用短视频特征和类别特征在深度分解后互补的关系,挖掘了更多隐藏信息;
2、本发明结合低秩表征、类间关系学习、特征属性间关系学习,使得重构特征的冗余性最低,并且更适合多标签分类;
3、本发明同时提取了短视频特征和类别特征,并对这两种特征同时进行深度矩阵分解,在深度矩阵分解的过程中考虑重构特征的低秩约束,以及重构特征属性间关系学习,以获取携带最少冗余信息的重构特征;
4、本发明利用标签矩阵做桥梁,建立短视频特征和类别特征之间的互补联系,同时引入类间关系学习;
5、本发明首次提出了“类别特征”的概念,并首次建立了短视频特征和类别特征在深度矩阵分解的框架下的互补关系,填补了相关研究在双深度矩阵分解以处理短视频多标签分类问题上的空白。
附图说明
图1为一种基于深度协同矩阵分解的短视频多标签分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于深度协同矩阵分解的短视频多标签分类方法,参见图1,该方法包括以下步骤:
1)获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;
2)结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;
3)结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果。
其中,上述步骤1)获取短视频特征和类别特征具体为:
将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;
获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维。
综上所述,本发明实施例通过上述步骤实现了对短视频多标签进行有效的分类。
实施例2
下面结合具体的计算公式、实例,对实施例1中的方案进行进一步地介绍,详见下文描述:
1)将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维;
2)同时将短视频特征X和类别特征A分别分解为l个基矩阵和一个重构特征矩阵:
其中,Z1Z2…Zl,L1L2…Ll分别是短视频特征和类别特征的基矩阵;H和W分别是短视频特征和类别特征的重构特征矩阵。
3)引入对重构特征矩阵的低秩约束,以减少冗余信息:
s.t.X=Z1Z2…ZlH,A=L1L2…LlW (2)
其中,||·||*是核范数。
4)在深度矩阵分解的过程中,同时考虑特征属性关联性的学习:
s.t.Ω12≥0;tr(Ω1)=tr(Ω2)=1. (3)
其中,Ω12是属性关联矩阵,它们的值由公式(4)确定:
其中,tr(·)是迹范数;(·)T是矩阵的转置操作;tr(Ω1)=tr(Ω2)=1是为了限制公式(3)所对应的模型的复杂性,λ24为系数。
5)利用标签矩阵Q建立短视频特征和类别特征之间的联系:
HTW≈Q (5)
其中,标签矩阵Q的值由人为标注确定,用来表示每个短视频所带标签的信息。qij为标签矩阵第i行第j列的元素,如果第i个短视频带有第j个标签则qij值为1,否则为-1。
6)为了使重构的短视频特征更有利于多标签分类,引入了类间关系学习:
s.t.Ψ≥0;tr(Ψ)=1. (6)
其中,λ6为系数;Ψ为类间关系矩阵,其值由公式(7)确定:
7)用F范数逼近步骤2)、5)中的约等关系,同时整合步骤3)、4)、6)中的目标项,可得到如下的目标函数:
s.t.Ω12,Ψ≥0;tr(Ω1)=tr(Ω2)=tr(Ψ)=1. (8)
其中,λ1,…,λ6是系数;||·||F是F范数。
8)利用拉格朗日乘子法优化步骤7)中的目标函数,直至函数值收敛;
其中,上述优化步骤为本领域技术人员所公知,本发明实施例对此不做赘述。
9)利用得到的基矩阵Z1,...,Zl和分类器W得到短视频多标签的分类结果:
其中,S2是最终输出的分类结果;是伪逆运算;soft max(·)是softmax归一化操作。
综上所述,本发明实施例通过上述步骤实现了对短视频多标签进行有效的分类。
实施例3
下面结合具体的实验对实施例1和2中的方案进行可行性验证,详见下文描述:
选择由AI Challenger发布的MLSV2018短视频多标签数据库作为数据集。将该数据集平均分成5份数据,每份数据按照6折交叉验证的方式进行实验。选择了多标签分类评价指标中的Average precision作为评判模型性能的指标。Average precision的值越大越好。
在5份数据上分别进行训练和测试,最后的结果取五份数据上取得结果的平均。最佳参数为:λ1=10,λ2=10,λ3=5,λ4=5,λ5=200,λ6=100;深度分解最佳层数为6层,每层的降维步长为50,所得的结果如表1所示:
表1
方法 Average precision
C3D 0.7149±0.0089
GoogleNet 0.6676±0.0044
SRRS 0.7912±0.0051
LRR 0.5243±0.0057
DNMF 0.4673±0.0063
MlkNN 0.7891±0.0043
Ours 0.8017±0.0054
其中,结果表示为:均值±方差的形式,从表1可以看出本发明所提出的模型表现最优。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于深度协同矩阵分解的短视频多标签分类方法,其特征在于,所述方法包括以下步骤:
获取短视频特征和类别特征,并分别分解为若干个基矩阵和一个重构特征矩阵,引入对重构特征矩阵的低秩约束;
结合特征属性关联性的学习,对短视频特征和类别特征进行分解;同时利用标签矩阵建立短视频特征和类别特征之间的联系:引入类间关系学习使短视频特征有利于多标签分类;
结合F范数整和目标项获取目标函数,利用拉格朗日乘子法优化目标函数,直至函数值收敛,利用得到的基矩阵和分类器得到短视频多标签的分类结果;
所述获取短视频特征和类别特征具体为:
将每一个短视频按等时间间隔采样出16帧,每一帧的图像用谷歌深度神经网络提取特征,维度为2048维,再经过主成分分析降维,维度由2048减少至1024,之后取这16个1024维度的特征的平均值作为每个短视频的特征;
同时将短视频特征X和类别特征A分别分解为l个基矩阵和一个重构特征矩阵:
其中,Z1Z2…Zl,L1L2…Ll分别是短视频特征和类别特征的基矩阵;H和W分别是短视频特征和类别特征的重构特征矩阵;
引入对重构特征矩阵的低秩约束,以减少冗余信息:
s.t.X=Z1Z2…ZlH,A=L1L2…LlW
其中,||·||*是核范数;
获取谷歌深度神经网络的最后一层全连接层作为类别特征,并将类别特征的维度由2048维经主成分分析降至1024维;
所述引入对重构特征矩阵的低秩约束具体为:
s.t.X=Z1Z2…ZlH,A=L1L2…LlW
其中,||·||*是核范数,H和W分别是短视频特征和类别特征的重构特征矩阵,Z1Z2…Zl,L1L2…Ll分别是短视频特征和类别特征的基矩阵;
所述利用标签矩阵建立短视频特征和类别特征之间的联系具体为:
HTW≈Q
其中,Q为标签矩阵;
所述结合F范数整和目标项获取目标函数具体为:
s.t.Ω12,Ψ≥0;tr(Ω1)=tr(Ω2)=tr(Ψ)=1.
其中,λ1,…,λ6是系数;||·||F是F范数;
所述利用得到的基矩阵和分类器得到短视频多标签的分类结果具体为:
其中,S2是最终输出的分类结果;是伪逆运算;s o f t m a x(·)是softmax归一化操作。
CN202010081003.8A 2020-02-05 2020-02-05 一种基于深度协同矩阵分解的短视频多标签分类方法 Active CN111339362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010081003.8A CN111339362B (zh) 2020-02-05 2020-02-05 一种基于深度协同矩阵分解的短视频多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010081003.8A CN111339362B (zh) 2020-02-05 2020-02-05 一种基于深度协同矩阵分解的短视频多标签分类方法

Publications (2)

Publication Number Publication Date
CN111339362A CN111339362A (zh) 2020-06-26
CN111339362B true CN111339362B (zh) 2023-07-18

Family

ID=71181486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010081003.8A Active CN111339362B (zh) 2020-02-05 2020-02-05 一种基于深度协同矩阵分解的短视频多标签分类方法

Country Status (1)

Country Link
CN (1) CN111339362B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732976B (zh) * 2021-01-13 2021-11-09 天津大学 一种基于深度哈希编码的短视频多标签快速分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171329A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> データ分類予測装置、方法、及びプログラム
CN106772331A (zh) * 2016-12-13 2017-05-31 中国电子科技集团公司第三研究所 目标识别方法和目标识别装置
CN108846375A (zh) * 2018-06-29 2018-11-20 山东大学 一种基于神经网络的多模态协同学习方法及装置
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN110110610A (zh) * 2019-04-16 2019-08-09 天津大学 一种用于短视频的事件检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331442A (zh) * 2014-10-24 2015-02-04 华为技术有限公司 视频分类方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171329A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> データ分類予測装置、方法、及びプログラム
CN106772331A (zh) * 2016-12-13 2017-05-31 中国电子科技集团公司第三研究所 目标识别方法和目标识别装置
WO2019100724A1 (zh) * 2017-11-24 2019-05-31 华为技术有限公司 训练多标签分类模型的方法和装置
CN108846375A (zh) * 2018-06-29 2018-11-20 山东大学 一种基于神经网络的多模态协同学习方法及装置
CN110110610A (zh) * 2019-04-16 2019-08-09 天津大学 一种用于短视频的事件检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高晨峰 ; .深度神经网络视频新媒体短视频个性化推荐系统研究.卫星电视与宽带多媒体.2019,(第05期),全文. *

Also Published As

Publication number Publication date
CN111339362A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
US20200134456A1 (en) Video data processing method and apparatus, and readable storage medium
CN112148916A (zh) 一种基于监督的跨模态检索方法、装置、设备及介质
CN111858954A (zh) 面向任务的文本生成图像网络模型
CN112200211B (zh) 一种基于残差网络和迁移学习的小样本鱼识别方法及系统
CN112633504B (zh) 一种基于知识图谱的果树病虫害智慧云知识服务系统及方法
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN110046250A (zh) 三嵌入卷积神经网络模型及其文本多分类方法
CN113255832B (zh) 双分支多中心的长尾分布识别的方法
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN111242033A (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN110689065A (zh) 一种基于扁平混合卷积神经网络的高光谱图像分类方法
CN111723874A (zh) 一种基于宽度和深度神经网络的声场景分类方法
CN113435254A (zh) 一种基于哨兵二号影像的耕地深度学习提取方法
CN111444390A (zh) 一种基于Spark和深度哈希的视频并行检索方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN112836702B (zh) 一种基于多尺度特征提取的文本识别方法
CN111460222A (zh) 一种基于多视角低秩分解的短视频多标签分类方法
CN112749663B (zh) 基于物联网和ccnn模型的农业果实成熟度检测系统
CN111339362B (zh) 一种基于深度协同矩阵分解的短视频多标签分类方法
CN115909390B (zh) 低俗内容识别方法、装置、计算机设备以及存储介质
CN110110120B (zh) 一种基于深度学习的图像检索方法和装置
CN107609570B (zh) 基于属性分类和多视角特征融合的微视频流行度预测方法
CN110288002B (zh) 一种基于稀疏正交神经网络的图像分类方法
CN111723241B (zh) 一种基于特征与多标签增强表示的短视频自动标注方法
CN117975942A (zh) 语音识别模型的训练方法、语音识别方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant