CN111723241A - 一种基于特征与多标签增强表示的短视频自动标注方法 - Google Patents

一种基于特征与多标签增强表示的短视频自动标注方法 Download PDF

Info

Publication number
CN111723241A
CN111723241A CN202010383978.6A CN202010383978A CN111723241A CN 111723241 A CN111723241 A CN 111723241A CN 202010383978 A CN202010383978 A CN 202010383978A CN 111723241 A CN111723241 A CN 111723241A
Authority
CN
China
Prior art keywords
label
matrix
labeling
item
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010383978.6A
Other languages
English (en)
Other versions
CN111723241B (zh
Inventor
吕卫
李德盛
井佩光
苏育挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202010383978.6A priority Critical patent/CN111723241B/zh
Publication of CN111723241A publication Critical patent/CN111723241A/zh
Application granted granted Critical
Publication of CN111723241B publication Critical patent/CN111723241B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于特征与多标签增强表示的短视频自动标注方法,包括:利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵,构成多视角低秩表征项;通过对整体数据集进行聚类,获取全部数据集以及不同聚类中潜在标签相关性信息,构成全局与局部标签相关性学习项;将公共低秩表示作为预测标签,与真实标签相减得到标注误差并使其最小化,构成最小化标注误差项;由多视角低秩表征项、全局与局部标签相关性学习项、最小化标注误差项进行加权获得总目标函数,利用交替方向乘子法优化总目标函数,引入拉格朗日乘子,依次迭代更新各个矩阵变量,直至目标函数的值收敛,得到最终的标注结果。本发明提高了短视频多标签标注问题中的准确率。

Description

一种基于特征与多标签增强表示的短视频自动标注方法
技术领域
本发明涉及短视频领域,尤其涉及一种基于特征与多标签增强表示的短视频自动标注方法。
背景技术
当前,随着工作生活环境的变化和手机网络的迅速普及,人们对于信息的接收方式逐渐由传统的长时间接收逐渐转化为碎片化的接收方式。人们不再局限于用大段时间单纯地阅读、创作,而是随时通过手机网络等方式短时间内获取自己想要的信息,在此背景下,短视频应运而生。
短视频作为一种新兴的媒体形式广泛传播于各大网络社交平台,并在近些年获得了快速发展。各大短视频网络平台允许用户自己制作,加工,上传长度往往不超过30秒的短视频,因此各大社交平台会周期性地出现大量的短视频原始数据,且这些数据作为多媒体内容往往携带多个标签。例如,“唇彩”和“女生自拍”两个标签常常存在于同一个短视频中。
如今,对于短视频语义理解方面的研究包括场景分类、流行度预测、事件检测等,但在大量短视频数据的背景下,对短视频进行有效的标注仍然存在着一定局限性。采用人工标注的方式会使得流程更为复杂,造成效率低下以及人工成本上升等问题。
因此提出一种有效的短视频自动标注方法是很有意义的。
发明内容
本发明提供了一种基于特征与多标签增强表示的短视频自动标注方法,本发明致力于提高短视频多标签标注问题中的准确率,详见下文描述:
一种基于特征与多标签增强表示的短视频自动标注方法,所述方法包括:
利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵,从而整体构成多视角低秩表征项;
通过对整体数据集进行聚类,获取全部数据集以及不同聚类中潜在标签相关性信息,构成全局与局部标签相关性学习项;
将公共低秩表示作为预测标签,与真实标签相减得到标注误差并使其最小化,构成最小化标注误差项;
由多视角低秩表征项、全局与局部标签相关性学习项、最小化标注误差项进行加权获得总目标函数,利用交替方向乘子法优化总目标函数,引入拉格朗日乘子,依次迭代更新各个矩阵变量,直至目标函数的值收敛,进而得到最终的标注结果。
其中,所述多视角低秩表征项具体为:
Figure BDA0002483217470000021
s.t.Xi=DiL+Ei,i=1,2,...,V
其中,i为视角序号,
Figure BDA0002483217470000022
为第i视角的特征矩阵,
Figure BDA0002483217470000023
为第i视角的字典映射矩阵,L∈RC×N为多视角特征的公共低秩表示,
Figure BDA0002483217470000024
为稀疏误差矩阵,R为实数集,di为第i视角的特征维度,V为视角总数,N为样本总数,C为标签类别总数,∑(·)为求和符号,||·||*为核范数,||·||1为l1范数,λ1和λ4为调节参数。
进一步地,所述全局与局部标签相关性学习项具体为:
Figure BDA0002483217470000025
s.t.BT=GL+EB
其中,k为聚类个数,v为聚类的类别序号,m和n为标签序号,G∈RC×C为标签相关性矩阵,Gm,n为第m个标签与第n个标签之间的相关性,B∈RN×C为短视频的真实标签矩阵,EB∈RC×N为标签误差矩阵,||·||2为2范数,λ3为调节参数,
Figure BDA0002483217470000026
为真实标签矩阵中第v聚类中第m个标签所构成的向量,
Figure BDA0002483217470000027
为真实标签矩阵中第v聚类中第n个标签所构成的向量,λ2为调节参数。
其中,所述最小化标注误差项具体为:
Figure BDA0002483217470000028
其中,T表示矩阵的转置,||·||F代表矩阵的F范数。
本发明提供的技术方案的有益效果是:
1、本发明利用不同视角特征描述同一短视频的一致性,对多视角原始特征进行了低秩表征,去除了原始特征的冗余信息,得到了本征稳定的公共低秩表示;
2、本发明将原始数据集进行聚类,得到了属于不同聚类的样本,从而在全局和局部两个方面分析数据的标签相关性,并利用低秩约束提高其稳健性,以此提高整体标注的准确性;
3、本发明将多种思想结合在一起以实现最优的效果,尤其适合短视频的多标签自动标注。
附图说明
图1为一种基于特征与多标签增强表示的短视频自动标注方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实施例提供了一种基于特征与多标签增强表示的短视频自动标注方法,参见图1,该方法包括以下步骤:
101:利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵,从而整体构成多视角低秩表征项(第一目标函数);
102:通过对整体数据集进行聚类,获取全部数据集以及不同聚类中潜在标签相关性信息,构成全局与局部标签相关性学习项(第二目标函数);
103:将公共低秩表示作为预测标签,与真实标签相减得到标注误差并使其最小化,构成最小化标注误差项(第三目标函数);
104:由以上所有目标函数加权获得总目标函数,利用交替方向乘子法优化总目标函数,引入拉格朗日乘子,依次迭代更新各个矩阵变量,直至目标函数的值收敛,进而得到最终的标注结果。
具体实现时,在步骤101之前,该方法还包括:
利用VGG-m-2048(视觉几何组网络)的倒数第一个全连接层从短视频数据集中提取2048维视觉(visual)语义特征;
利用TDD(轨迹合并的深度卷积描述符)模型和Fisher Vector(费舍尔矢量)从短视频数据集中提取2048维轨迹(trajectory)语义特征;
使用l2范数对上述两种语义特征进行标准化,形成两个2048维的特征表示,将二者归一化分别得到多视角特征矩阵X1和X2
实施例2
下面结合计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:利用VGG-m-2048网络的倒数第一个全连接层提取2048维度的高级视觉语义特征,利用TDD模型和Fisher Vector从视频数据集中提取2048维度的轨迹特征,使用l2范数对每个视角的特征进行标准化处理,得到最终的标准化多视角特征X1和X2
202:确定不同视角特征Xi的公共低秩表示L,根据公式:
Xi=DiL+Ei,i=1,2,...,V
(1)
其中,利用字典映射矩阵Di将不同视角的特征Xi映射到公共低秩表示L,并令L的秩达到最低,通过最小化矩阵的核范数可降低矩阵的秩,由此得到如下公式:
Figure BDA0002483217470000041
其中,i为视角序号,
Figure BDA0002483217470000042
为第i视角的特征矩阵,
Figure BDA0002483217470000043
为第i视角的字典映射矩阵,L∈RC×N为多视角特征的公共低秩表示,
Figure BDA0002483217470000044
为稀疏误差矩阵,R为实数集,di为第i视角的特征维度,V为视角总数,N为样本总数,C为标签类别总数,∑(·)为求和符号,||·||*为核范数,||·||1为l1范数,λ1和λ4为调节参数;由此整体构成多视角低秩表征项(即第一目标函数)。
203:通过对原始数据集进行聚类,得到不同类别样本的标签分布信息,从而从全局和局部两个方面得到潜在的标签相关性表示,其中标签相关性强的两个标签在其相关性矩阵中对应的值应当较大,因此构造以下学习公式:
Figure BDA0002483217470000045
其中,k为聚类个数,v为聚类的类别序号,m和n为标签序号,G∈RC×C为标签相关性矩阵,Gm,n为第m个标签与第n个标签之间的相关性,B∈RN×C为短视频的真实标签矩阵,EB∈RC×N为标签误差矩阵,||·||2为2范数,λ3为调节参数,
Figure BDA0002483217470000046
为真实标签矩阵中第v聚类中第m个标签所构成的向量,
Figure BDA0002483217470000047
为真实标签矩阵中第v聚类中第n个标签所构成的向量。
此外,模型需要对标签相关性矩阵引入低秩约束来保证其稳健性,上式变化为:
Figure BDA0002483217470000048
其中,λ2为调节参数,由此整体构成全局与局部标签相关性学习项(即第二目标函数)。
204:将公共低秩表示作为预测标签,其与原有的真实标签矩阵相减再取其F范数的平方,得到如下公式:
Figure BDA0002483217470000051
其中,[·]T表示矩阵的转置,||·||F代表矩阵的F范数;由此整体构成最小化标注误差项(即第三目标函数)。
205:将以上三个目标函数整合到一起,得到如下总目标函数:
Figure BDA0002483217470000052
s.t.Xi=DiL+Ei,BT=GL+EB,i=1,2,...,V
(6)
其中,λ1、λ2、λ3、λ4、λ5是平衡参数。
206:由于上述目标函数直接优化较为困难,在实际过程中利用交替方向乘子法对步骤205中的总目标函数进行优化,首先将总目标函数转化为如下形式:
Figure BDA0002483217470000053
s.t.Xi=DiL+Ei,BT=GL+EB,L=L,G=G,i=1,2,...,V
(7)
其中,L∈RC×N和G∈RC×C为辅助变量,目的是将目标函数中的非平滑正则项分离;在上式中引入拉格朗日乘子矩阵QX,QB,QL,QG
Figure BDA0002483217470000054
其中,<·>为Frobenius内积,μ为惩罚参数,由此依次迭代更新目标函数中的变量,直至目标函数的值收敛;
207:将测试集的原始数据进行提取特征处理后带入迭代收敛后的整体模型,即在公式(8)中迭代得到其低秩特征表示,作为未标准化的预测标签矩阵;
208:将未标准化的预测标签矩阵带入符号函数sign(·),即可得到最终的标注结果。
综上所述,本发明实施例通过低秩表征稳健性的特点,找到了原始视频数据的最佳公共低秩表示,去除了信息的冗余性,使得最终结果的鲁棒性得到提高,结合样本全局与局部的标签相关性信息,模型整体能够学习到不同标签之间的独立性和依赖型,从而使得最终学习结果更加贴合多标签标注的需求,此外,模型将已被标注的视频信息作为监督项构造了损失函数,使得最终预测结果更加贴近真实标签信息;本发明将多种思想结合在一起以实现最优的效果,尤其适合短视频的多标签标注,并最终得到了良好的自动标注结果。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于特征与多标签增强表示的短视频自动标注方法,其特征在于,所述方法包括:
利用字典映射矩阵、公共低秩表示的积和稀疏误差矩阵重构原始特征矩阵,从而整体构成多视角低秩表征项;
通过对整体数据集进行聚类,获取全部数据集以及不同聚类中潜在标签相关性信息,构成全局与局部标签相关性学习项;
将公共低秩表示作为预测标签,与真实标签相减得到标注误差并使其最小化,构成最小化标注误差项;
由多视角低秩表征项、全局与局部标签相关性学习项、最小化标注误差项进行加权获得总目标函数,利用交替方向乘子法优化总目标函数,引入拉格朗日乘子,依次迭代更新各个矩阵变量,直至目标函数的值收敛,进而得到最终的标注结果。
2.根据权利要求1所述的一种基于特征与多标签增强表示的短视频自动标注方法,其特征在于,所述多视角低秩表征项具体为:
Figure FDA0002483217460000011
s.t.Xi=DiL+Ei,i=1,2,...,V
其中,i为视角序号,
Figure FDA0002483217460000012
为第i视角的特征矩阵,
Figure FDA0002483217460000013
为第i视角的字典映射矩阵,L∈RC×N为多视角特征的公共低秩表示,
Figure FDA0002483217460000014
为稀疏误差矩阵,R为实数集,di为第i视角的特征维度,V为视角总数,N为样本总数,C为标签类别总数,∑(·)为求和符号,||·||*为核范数,||·||1为l1范数,λ1和λ4为调节参数。
3.根据权利要求2所述的一种基于特征与多标签增强表示的短视频自动标注方法,其特征在于,所述全局与局部标签相关性学习项具体为:
Figure FDA0002483217460000015
s.t.BT=GL+EB
其中,k为聚类个数,v为聚类的类别序号,m和n为标签序号,G∈RC×C为标签相关性矩阵,Gm,n为第m个标签与第n个标签之间的相关性,B∈RN×C为短视频的真实标签矩阵,EB∈RC×N为标签误差矩阵,||·||2为2范数,λ3为调节参数,
Figure FDA0002483217460000016
为真实标签矩阵中第v聚类中第m个标签所构成的向量,
Figure FDA0002483217460000017
为真实标签矩阵中第v聚类中第n个标签所构成的向量,λ2为调节参数。
4.根据权利要求3所述的一种基于特征与多标签增强表示的短视频自动标注方法,其特征在于,所述最小化标注误差项具体为:
Figure FDA0002483217460000021
其中,T表示矩阵的转置,||·||F代表矩阵的F范数。
CN202010383978.6A 2020-05-08 2020-05-08 一种基于特征与多标签增强表示的短视频自动标注方法 Active CN111723241B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010383978.6A CN111723241B (zh) 2020-05-08 2020-05-08 一种基于特征与多标签增强表示的短视频自动标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010383978.6A CN111723241B (zh) 2020-05-08 2020-05-08 一种基于特征与多标签增强表示的短视频自动标注方法

Publications (2)

Publication Number Publication Date
CN111723241A true CN111723241A (zh) 2020-09-29
CN111723241B CN111723241B (zh) 2023-11-03

Family

ID=72564767

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010383978.6A Active CN111723241B (zh) 2020-05-08 2020-05-08 一种基于特征与多标签增强表示的短视频自动标注方法

Country Status (1)

Country Link
CN (1) CN111723241B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732976A (zh) * 2021-01-13 2021-04-30 天津大学 一种基于深度哈希编码的短视频多标签快速分类方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150110357A1 (en) * 2013-10-17 2015-04-23 Xerox Corporation Detecting multi-object anomalies utilizing a low rank sparsity model
CN107229702A (zh) * 2017-05-24 2017-10-03 天津大学 基于低秩约束和多视角特征融合的微视频流行度预测方法
CN110009017A (zh) * 2019-03-25 2019-07-12 安徽工业大学 一种基于视角类属特征学习的多视角多标记分类方法
CN110110610A (zh) * 2019-04-16 2019-08-09 天津大学 一种用于短视频的事件检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150110357A1 (en) * 2013-10-17 2015-04-23 Xerox Corporation Detecting multi-object anomalies utilizing a low rank sparsity model
CN107229702A (zh) * 2017-05-24 2017-10-03 天津大学 基于低秩约束和多视角特征融合的微视频流行度预测方法
CN110009017A (zh) * 2019-03-25 2019-07-12 安徽工业大学 一种基于视角类属特征学习的多视角多标记分类方法
CN110110610A (zh) * 2019-04-16 2019-08-09 天津大学 一种用于短视频的事件检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
RONGYAO HU等: "Low-rank feature selection for multi-view regression", 《SPRINGERLINK》 *
YUTING SU等: "Low-Rank Regularized Deep Collaborative Matrix Factorization for Micro-Video Multi-Label Classification", 《IEEE SIGNAL PROCESSING LETTERS》 *
丁昕苗等: "基于多视角融合稀疏表示的恐怖视频识别", 《电子学报 *
井佩光: "基于多特征表征学习的多媒体数据预测方法研究", 《中国博士学位论文全文数据库信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732976A (zh) * 2021-01-13 2021-04-30 天津大学 一种基于深度哈希编码的短视频多标签快速分类方法
CN112732976B (zh) * 2021-01-13 2021-11-09 天津大学 一种基于深度哈希编码的短视频多标签快速分类方法

Also Published As

Publication number Publication date
CN111723241B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN106547880B (zh) 一种融合地理区域知识的多维度地理场景识别方法
CN111680176B (zh) 基于注意力与双向特征融合的遥感图像检索方法及系统
CN112148916A (zh) 一种基于监督的跨模态检索方法、装置、设备及介质
CN112200211B (zh) 一种基于残差网络和迁移学习的小样本鱼识别方法及系统
CN111079847A (zh) 一种基于深度学习的遥感影像自动标注方法
CN104700100A (zh) 面向高空间分辨率遥感大数据的特征提取方法
Rad et al. Image annotation using multi-view non-negative matrix factorization with different number of basis vectors
CN105701225B (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN111460222B (zh) 一种基于多视角低秩分解的短视频多标签分类方法
CN112115806B (zh) 基于Dual-ResNet小样本学习的遥感影像场景精确分类方法
CN113052017B (zh) 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法
CN112232374A (zh) 基于深度特征聚类和语义度量的不相关标签过滤方法
CN109284414A (zh) 基于语义保持的跨模态内容检索方法和系统
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN110533074B (zh) 一种基于双深度神经网络的图片类别自动标注方法及系统
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN111723241A (zh) 一种基于特征与多标签增强表示的短视频自动标注方法
CN117635275A (zh) 基于大数据的智能电商运营商品管理平台及方法
CN115984653B (zh) 一种动态智能货柜商品识别模型的构建方法
CN112559877A (zh) 基于跨平台异构数据及行为上下文的ctr预估方法及系统
CN115019183B (zh) 基于知识蒸馏和图像重构的遥感影像模型迁移方法
CN111339362B (zh) 一种基于深度协同矩阵分解的短视频多标签分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant