CN111460223B - 基于深度网络的多模态特征融合的短视频单标签分类方法 - Google Patents
基于深度网络的多模态特征融合的短视频单标签分类方法 Download PDFInfo
- Publication number
- CN111460223B CN111460223B CN202010117185.XA CN202010117185A CN111460223B CN 111460223 B CN111460223 B CN 111460223B CN 202010117185 A CN202010117185 A CN 202010117185A CN 111460223 B CN111460223 B CN 111460223B
- Authority
- CN
- China
- Prior art keywords
- audio
- modality
- modal
- visual
- private
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于深度网络的多模态特征融合的短视频单标签分类方法,包括:将模态数据划分为音频模态私有的部分、音频模态和视觉模态公有的部分、以及视觉模态私有的部分,进而获得音频模态的私有域特征矩阵、视觉模态的私有域特征矩阵,音频模态的公有域特征矩阵、和视觉模态的公有域特征矩阵;分别计算音频模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失、和视觉模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失,将两个差异性损失联合作为第一目标函数;将第一至第三目标函数加权获取总目标函数,进而迭代深度网络的网络参数,直至目标函数值收敛,得到最终的分类结果。本发明准确地判断短视频的类别,实现对短视频的分类。
Description
技术领域
本发明涉及多媒体环境下的短视频单标签分类领域,尤其涉及一种基于深度网络的多模态特征融合的短视频单标签分类方法。
背景技术
伴随着科学技术的进步和社会的发展,多媒体信息处理及其处理技术日渐兴起。当今,智能手机以及社交软件的迅猛发展,移动互联网的时代已经到来,人们对多媒体信息的需求和获取也有了新的要求。
人们对于多媒体信息的获取方式由原来的台式机、笔记本电脑等到现在的手机可随时随地进行获取,人们对获取的信息形式也由过去冗长的、复杂的、不易处理变成了碎片化的、精炼的。为此,以网络视频为例,现在的网络视频普遍在时间长度上变短,内容上精炼、易于网络共享和传播,而针对这一现象,如何能够准确高效地处理这些短视频成为了现在的研究方向之一。
而现在伴随着抖音、快手等短视频软件的兴起,待处理的短视频数据的数据量已经不足以支持人工进行处理,因此提出一种基于深度网络的多模态特征融合的短视频单标签分类方法是很有意义的。
发明内容
本发明提供了一种基于深度网络的多模态特征融合的短视频单标签分类方法,致力于快速、准确地判断短视频的类别,实现对短视频的分类,详见下文描述:
一种基于深度网络的多模态特征融合的短视频单标签分类方法,所述方法包括:
将模态数据划分为音频模态私有的部分、音频模态和视觉模态公有的部分、以及视觉模态私有的部分,通过上述三部分进而获得音频模态的私有域特征矩阵、视觉模态的私有域特征矩阵,音频模态的公有域特征矩阵、和视觉模态的公有域特征矩阵;
分别计算音频模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失、和视觉模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失,将两个差异性损失联合作为第一目标函数;
将视频数据集的预测标签和真实标签差异性得到的分类损失,作为第二目标函数;
将视频数据集音频模态的公有域特征和视频模态的公有域特征的相似性损失,作为第三目标函数;
将第一至第三目标函数加权获取总目标函数,优化总目标函数,迭代深度网络的网络参数,直至目标函数值收敛,得到最终的分类结果。
其中,所述方法还包括:
使用三条参数不同的I3D神经网络分别作为音频模态的私有网络,视觉模态的私有网络,音频模态和视觉模态的公有网络。
进一步地,
所述音频模态的私有域特征矩阵定义为:将音频模态数据输入到音频模态的私有网络而获得的输出矩阵;视觉模态的私有域特征矩阵定义为:将视觉模态数据输入到视觉模态的私有网络而获得的输出矩阵。
进一步地,
所述音频模态的公有域特征矩阵定义为:将音频模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵;
所述视觉模态的公有域特征矩阵定义为:将视觉模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵。
本发明提供的技术方案的有益效果是:
1、本发明通过结合单一模态公有域特征子空间与私有域特征子空间正交的理论,构建视觉模态、音频模态私有域特征和公有域特征的差异性损失,实现对同一模态下不同域特征的正交性;
2、本发明通过神经网络构建公有域神经网络,通过对神经网络公有域网络全连接层的网络参数进行相似性约束,实现对不同模态公有域特征的相似性;
3、本发明通过结合多种思想以实现最优的效果,尤其适合单标签视频的分类。
附图说明
图1为一种基于深度网络的多模态特征融合的短视频单标签分类方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
本发明实例提供了一种基于深度网络的多模态特征融合的短视频单标签分类方法,参见图1,该方法包括以下步骤:
101:分别计算视频数据集音频模态的私有域特征与公有域特征之间的差异性损失、和视觉模态的私有域特征与公有域特征差异性之间的差异性损失,将两个差异性损失联合作为第一目标函数;
102:将视频数据集的预测标签和真实标签差异性得到的分类损失,作为第二目标函数;
103:将视频数据集音频模态的公有域特征和视频模态的公有域特征的相似性损失,作为第三目标函数;
104:将第一至第三目标函数加权获取总目标函数,优化总目标函数,迭代深度网络的网络参数,直至目标函数值收敛,得到最终的分类结果。
具体实现时,在步骤101之前,该方法还包括:
利用系统的音频信息库Sox对从视频数据库中提取的MP3生成语谱图,作为音频模态的数据集;
利用python的视频处理库opencv从视频数据库中提取图像帧,作为视觉模态的数据集;
利用现有的深度网络I3D从音频模态和视觉模态的数据集中分别提取音频模态的私有域特征矩阵,音频模态的公有域特征矩阵,视觉模态的私有域特征矩阵,视觉模态的公有域特征矩阵。
综上所述,本发明通过结合单一模态公有域特征子空间与私有域特征子空间正交的理论,构建视觉模态、音频模态私有域特征和公有域特征的差异性损失,实现对同一模态下不同域特征的正交性。
实施例2
下面结合计算公式、实例对实施例1中的方案进行进一步地介绍,详见下文描述:
201:构建视频图像模态的数据库时,对视频数据库进行预处理;
即,在构建视频视觉模态数据库时,将视频处理为图片帧流,从图片帧流的中间抽取32帧,构成视频图像模态的数据库;在构建视频音频模态数据库时,将视频分为等间隔的16个视频片段,提取它们的音频信息,构成视频音频模态的数据库。
202:在进行训练的特征子空间中包含音频模态的私有域特征子空间,音频模态和视觉模态的公有域特征子空间,视觉模态的私有域特征子空间;
按照要求,为实现对不同模态数据的域划分,即将数据划分为三部分,分别为:音频模态私有的部分、音频模态和视觉模态公有的部分、以及视觉模态私有的部分,通过上述三部分进而获得四个特征矩阵,分别为:音频模态的私有域特征矩阵、视觉模态的私有域特征矩阵,音频模态的公有域特征矩阵、和视觉模态的公有域特征矩阵。
使用三条参数不同的I3D神经网络分别作为音频模态的私有网络,视觉模态的私有网络,音频模态和视觉模态的公有网络。
其中,音频模态的私有域特征矩阵定义为:将音频模态数据输入到音频模态的私有网络而获得的输出矩阵;视觉模态的私有域特征矩阵定义为:将视觉模态数据输入到视觉模态的私有网络而获得的输出矩阵;音频模态的公有域特征矩阵定义为:将音频模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵;视觉模态的公有域特征矩阵定义为:将视觉模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵。
具体实现时,本发明分别采用表示音频模态的公有域特征矩阵,表示音频模态的私有域特征矩阵,表示视觉模态的公有域特征矩阵,表示视觉模态的私有域特征矩阵,所有矩阵的维度均为N×M,其中N代表数据总数,M代表每个数据的特征向量维度,在本发明实施例中M以512为例进行说明,也可以根据实际应用中的需要选择其他数值,本发明实施例对此不作限制。
203:为保证单一模态下公有特征和私有特征的差异性,依据特征子空间正交性理论,为了满足差异性损失,构建第一个目标函数如下:
通过降低第一个目标函数的数值,使得音频模态的公有域特征和私有域特征之间,视频模态的公有特征和私有特征之间满足正交性。
204:为保证不同模态下音频模态和视觉模态公有特征的相似性,依据张量的正态分布理论去探寻线性层参数的关系,构建第二个目标函数;
为保证其权重张量ωl的三维空间性,分别获取了该层网络对应的特征维度类别维度以及分类维度同时将其进行克罗内克积分解,获得特征协方差矩阵类别协方差矩阵模态分类协方差矩阵并通过获得的上述参数,构建第二个目标函数如下:
205:对得到的音频模态的私有域特征矩阵、公有域特征矩阵,视频模态的私有特征矩阵,公有特征矩阵按照列的维度进行矩阵拼接,并将拼接后的新特征矩阵经过全连接层进行分类,得到最后的预测标签与真实标签做交叉熵损失,构建第三个目标函数:
其中,yi为视频的真实标签;yi为视频的预测标签;NS为对将要预测的视频类别总数。
206:将上述三个目标函数整合到一起,并对不同的目标函数项赋予不同的权重得到最终的目标函数:
Lloss=min(αLdifference+βLsimilarity+γLclassify) (4)
其中,α,β,γ是权重参数。
207:根据优化总目标函数,迭代深度网络的网络参数,直至目标函数值收敛,再将视频数据集经过搭建的深度多模态特征融合网络获取最终的分类结果。
综上所述,本发明实施例通过特征子空间正交性的相关知识,实现对视频单一模态下公有域特征、私有域特征的差异性;通过结合张量分解中克罗内克积和正态分布的相关知识,探寻全连接层网络参数的相关性,实现对视频音频模态和视觉模态的公有特征相似性;最后通过结合视频的分类损失,实现对单标前视频的分类,得到最终的分类结果。
实施例3
下面给出具体的实验对实施例1和2中的方案进行可行性验证,详见下文描述:
本发明实施例的分类性能通过模型对目标域的测试数据的预测标签与真实标签之间的分类准确度(Accuracy)来进行衡量。
其中,Ntest是测试数据的总个数,Nture是测试数据中标签预测正确的样本个数。
为了对本方法的算法性能做基本的评测,本发明实施例使用ai-challenger-mlsv-2018的数据集作为短视频实时分类的数据库,视频的数据集总共分为63类,采用多标签的分类体系。而针对本次完成的是单标签的视频处理任务,从中按照大约10:3的比例划分训练集和测试集,即选取了105316个视频作为训练集,选取了34540个视频作为测试集。
通过在搭建的神经网络上检验本方法的预测性能,根据多次实验后,将权重参数设置为α=0.75,β=0.25,γ=1。
表1
I3D(audio) | 0.3409 |
I3D(video) | 0.7104 |
I3D(multi-modal) | 0.7560 |
I3D(us) | 0.7716 |
从表1可以看出特征子空间分离的方法提高了模型的泛化能力,证明了本方法的有效性。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于深度网络的多模态特征融合的短视频单标签分类方法,其特征在于,所述方法包括:
将模态数据划分为音频模态私有的部分、音频模态和视觉模态公有的部分、以及视觉模态私有的部分,通过上述三部分进而获得音频模态的私有域特征矩阵、视觉模态的私有域特征矩阵,音频模态的公有域特征矩阵、和视觉模态的公有域特征矩阵;
分别计算音频模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失、和视觉模态的私有域特征矩阵与公有域特征矩阵之间的差异性损失,将两个差异性损失联合作为第一目标函数;
将视频数据集的预测标签和真实标签差异性得到的分类损失,作为第二目标函数;
将视频数据集音频模态的公有域特征和视频模态的公有域特征的相似性损失,作为第三目标函数;
将第一至第三目标函数加权获取总目标函数,优化总目标函数,迭代深度网络的网络参数,直至目标函数值收敛,得到最终的分类结果。
2.根据权利要求1所述的一种基于深度网络的多模态特征融合的短视频单标签分类方法,其特征在于,所述方法还包括:
使用三条参数不同的I3D神经网络分别作为音频模态的私有网络,视觉模态的私有网络,音频模态和视觉模态的公有网络。
3.根据权利要求1所述的一种基于深度网络的多模态特征融合的短视频单标签分类方法,其特征在于,
所述音频模态的私有域特征矩阵定义为:将音频模态数据输入到音频模态的私有网络而获得的输出矩阵;视觉模态的私有域特征矩阵定义为:将视觉模态数据输入到视觉模态的私有网络而获得的输出矩阵。
4.根据权利要求1所述的一种基于深度网络的多模态特征融合的短视频单标签分类方法,其特征在于,
所述音频模态的公有域特征矩阵定义为:将音频模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵;
所述视觉模态的公有域特征矩阵定义为:将视觉模态数据输入到音频模态和视频模态的公有网络而获得的输出矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117185.XA CN111460223B (zh) | 2020-02-25 | 2020-02-25 | 基于深度网络的多模态特征融合的短视频单标签分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010117185.XA CN111460223B (zh) | 2020-02-25 | 2020-02-25 | 基于深度网络的多模态特征融合的短视频单标签分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460223A CN111460223A (zh) | 2020-07-28 |
CN111460223B true CN111460223B (zh) | 2023-04-18 |
Family
ID=71678224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010117185.XA Active CN111460223B (zh) | 2020-02-25 | 2020-02-25 | 基于深度网络的多模态特征融合的短视频单标签分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460223B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287170B (zh) * | 2020-10-13 | 2022-05-17 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN113240004B (zh) * | 2021-05-11 | 2024-04-30 | 北京达佳互联信息技术有限公司 | 视频信息确定方法、装置、电子设备以及存储介质 |
CN113312530B (zh) * | 2021-06-09 | 2022-02-15 | 哈尔滨工业大学 | 一种以文本为核心的多模态情感分类方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2953335A1 (en) * | 2014-06-14 | 2015-12-17 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
CN107137107A (zh) * | 2017-05-09 | 2017-09-08 | 上海联影医疗科技有限公司 | 多模态医学图像获取方法及多模态医学图像成像系统 |
GB201814026D0 (en) * | 2017-12-15 | 2018-10-10 | Adobe Systems Inc | Using deep learning techniques to determine the contextual reading order in a document |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN110110610A (zh) * | 2019-04-16 | 2019-08-09 | 天津大学 | 一种用于短视频的事件检测方法 |
-
2020
- 2020-02-25 CN CN202010117185.XA patent/CN111460223B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2953335A1 (en) * | 2014-06-14 | 2015-12-17 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
CN107137107A (zh) * | 2017-05-09 | 2017-09-08 | 上海联影医疗科技有限公司 | 多模态医学图像获取方法及多模态医学图像成像系统 |
GB201814026D0 (en) * | 2017-12-15 | 2018-10-10 | Adobe Systems Inc | Using deep learning techniques to determine the contextual reading order in a document |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN110110610A (zh) * | 2019-04-16 | 2019-08-09 | 天津大学 | 一种用于短视频的事件检测方法 |
Non-Patent Citations (3)
Title |
---|
An-An Liu ; .Multi-Modal Clique-Graph Matching for View-Based 3D Model Retrieval.《IEEE Transactions on Image Processing》.2016, * |
典型相关分析与多伯努利相关模型的图像标注;周晓等;《合肥工业大学学报(自然科学版)》;20100628(第06期);全文 * |
基于人类视觉的混沌阵列在图像上的水印算法;孙锬锋等;《电子学报》;20030125(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111460223A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460223B (zh) | 基于深度网络的多模态特征融合的短视频单标签分类方法 | |
CN107203636B (zh) | 基于超图主集聚类的多视频摘要获取方法 | |
Zhang et al. | An efficient assembly retrieval method based on Hausdorff distance | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
Vijayarani et al. | Multimedia mining research-an overview | |
CN108268510B (zh) | 一种图像标注方法和装置 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
CN110866129A (zh) | 一种基于跨媒体统一表征模型的跨媒体检索方法 | |
CN113408581A (zh) | 一种多模态数据匹配方法、装置、设备及存储介质 | |
CN104317946A (zh) | 一种基于多张关键图的图像内容检索方法 | |
CN113221977A (zh) | 一种基于抗混叠语义重构的小样本语义分割方法 | |
CN117312535A (zh) | 基于人工智能的问题数据处理方法、装置、设备及介质 | |
CN110019910A (zh) | 图像检索方法及装置 | |
CN117173730A (zh) | 一种基于多模态信息的文档图像智能分析及处理方法 | |
CN116756363A (zh) | 一种由信息量引导的强相关性无监督跨模态检索方法 | |
Su et al. | Parallel big image data retrieval by conceptualised clustering and un-conceptualised clustering | |
Meiyu et al. | Image semantic description and automatic semantic annotation | |
CN111666452A (zh) | 用于对视频进行聚类的方法和装置 | |
Kutics et al. | Use of adaptive still image descriptors for annotation of video frames | |
Wang et al. | Learning image embeddings without labels | |
Piramanayagam et al. | Gradient-driven unsupervised video segmentation using deep learning techniques | |
CN116150428B (zh) | 视频标签获取方法、装置、电子设备及存储介质 | |
Xu et al. | Two-stage semantic matching for cross-media retrieval | |
CN115495593B (zh) | 基于大数据的数学知识图谱构建方法 | |
CN111143694B (zh) | 一种情报推送方法、装置及存储设备、程序 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |