CN113657272A - 一种基于缺失数据补全的微视频分类方法及系统 - Google Patents
一种基于缺失数据补全的微视频分类方法及系统 Download PDFInfo
- Publication number
- CN113657272A CN113657272A CN202110944504.9A CN202110944504A CN113657272A CN 113657272 A CN113657272 A CN 113657272A CN 202110944504 A CN202110944504 A CN 202110944504A CN 113657272 A CN113657272 A CN 113657272A
- Authority
- CN
- China
- Prior art keywords
- micro
- video
- mode
- missing
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明属于微视频分类技术领域,提供了一种基于缺失数据补全的微视频分类方法及系统。该方法包括,基于存在部分模态数据缺失的微视频,采用训练好的微视频分类网络,得到存在部分模态数据缺失的微视频的分类结果;所述微视频分类网络包括:基于存在部分模态数据缺失的微视频,采用双向循环生成对抗网络,得到补全微视频的缺失模态;将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量;将得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果。
Description
技术领域
本发明属于微视频分类技术领域,尤其涉及一种基于缺失数据补全的微视频分类方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着Web 2.0概念的诞生以及移动互联网的迅速发展,社交媒体平台不断产生并由原来的PC端逐渐扩展到移动端。与此同时,微视频这种媒体形式应运而生。目前市面上存在众多微视频社交媒体平台,例如抖音、西瓜视频、火山小视频、快手等。微视频分类对于视频的分组展示及为用户的个性化推荐具有重要的作用,是微视频平台的重要功能。
这些微视频数据大多来自普通社交媒体用户,属于用户生成的内容(UserGeneration Content,UGC)。相比传统视频,微视频数据中包含了更多社交属性信息,例如评论、话题、点赞、转发量等。这些社交属性与微视频本身所包含的视觉、语音内容一起,为微视频理解提供了更丰富、更多模态的信息表示。然而由于社交媒体平台用户的主观性,其评论、话题等社交属性是否生成也具有一定的不确定性。这些问题导致部分微视频数据出现某些模态数据缺失的情况,这对于面向真实数据的微视频分类的实现具有一定的挑战性。
目前已有部分研究工作针对微视频分类任务展开研究,包括应用多模态多任务的学习方法,结合微视频的多个模态的特征进行微视频分类;利用多模态之间的关联性和互补性,对微视频进行多模态特征表示;或基于微视频所包含概念语义的稀疏性和微视频的低秩性,对微视频进行特征表示,从而进行微视频分类。
虽然该领域研究已经具有众多研究成果,但这些成果都是假定微视频各模态数据是完整的,不存在数据缺失的问题。而现实应用中,用户上传的数据不具有一定的规范性,存在部分数据缺失的情况。对于这样的微视频数据进行分类,现有方法在模型训练之前需要对微视频预先处理,过滤掉部分数据缺失的视频。这显然会降低真实场景下微视频分类任务的准确率。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于缺失数据补全的微视频分类方法及系统,其通过多模态学习过程中缺失数据补全方法,学习具有更丰富语义表征能力的微视频特征表示。并将该特征表示的微视频数据进行分类,提高了数据缺失场景下微视频分类的准确率。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于缺失数据补全的微视频分类方法。
一种基于缺失数据补全的微视频分类方法,包括:
基于存在部分模态数据缺失的微视频,采用训练好的微视频分类网络,得到存在部分模态数据缺失的微视频的分类结果;
所述微视频分类网络包括:基于存在部分模态数据缺失的微视频,采用双向循环生成对抗网络,得到补全微视频的缺失模态;
将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量;
将得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果
进一步的,所述双向循环生成对抗网络包括:三个循环生成对抗网络,每个循环生成对抗网络包括两个方向,从第一模态生成第二模态和从第二模态生成第一模态,其中,第一模态为视觉模态或声音模态或文本模态,第二模态为视觉模态或声音模态或文本模态,且第一模态与第二模态不相同。
进一步的,所述微视频分类网络训练的过程包括:
S1:获取模态完整的微视频样本,去除模态完整微视频样本的一个或两个模态,构建模态缺失的微视频样本数据集;
具体的,该过程进行数据预处理:为了模拟现实场景下微视频存在的部分模态数据缺失问题,需要对现有数据集进行预处理。在原始真实的数据集中挑选三个模态数据完整的微视频作为本方法的ground truth数据集。从中挑选部分微视频,去掉其中任一或者两个模态,制造数据缺失数据集。
在数据预处理之后还包括:微视频各模态数据分离和微视频各模态特征提取。
微视频各模态数据分离:微视频数据包含三个模态,分别为视觉模态,记为第一模态;声音模态,记为第二模态;文本模态,记为第三模态。首先通过关键帧提取方法,提取微视频数据的关键帧,作为第一模态的数据;然后通过音频提取方法,提取微视频的音频信息,作为第二模态的数据;最后将微视频中的评论、话题信息作为微视频第三模态的数据;
微视频各模态特征提取:微视频各模态首先进行特征提取,其中视觉模态的各帧通过卷积神经网络提取图像特征;声音模态通过去噪自编码器提取音频特征;文本模态通过sentence2vector方法提取该模态特征。存在数据缺失的各模态数据,特征向量为空;
S2:基于模态缺失的微视频样本数据集中的样本,采用构建的双向循环生成对抗网络,得到补全微视频的缺失模态;
缺失数据补全:各模态特征输入双向循环生成对抗网络,该网络包含三个循环生成对抗网络,分别为GAB(第一模态生成第二模态)与GBA(第二模态生成第一模态),GAC(第一模态生成第三模态)与GCA(第三模态生成第一模态)和GBC(第二模态生成第三模态)与GCB(第三模态生成第二模态)。三个模态中的任意模态缺失,都可以通过双向循环生成对抗网络将缺失数据补充完整。
S3:将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果;
该过程包括:公共子空间映射、模态间互补性保持和全连接层分类。
公共子空间映射:补全后的三个模态分别通过各自的映射(线性映射或者非线性映射),将各自特征投影到公共子空间。由于三个模态来自同一微视频数据,其在语义层面存在一致性。因此在公共子空间中,三个模态具有公共的语义特征表示;
模态间互补性保持:三个模态虽然在语义层面具有一致性,但其在内容层面具有各自的特性,即互补性。因此通过双向循环生成对抗网络生成的数据需要与该模态本来的数据在内容上尽可能相似;
全连接层分类:将各微视频样本在公共子空间中的特征表示,输入全连接层,经过非线性激活函数后得到分类结果。
S4:基于循环一致性损失、判别损失和交叉熵损失,计算损失函数,直到损失值小于设定的阈值,得到训练好的微视频分类网络。
其中,计算循环一致性损失:三对生成对抗网络中包含三个生成损失,三个生成损失的和作为循环一致性损失。通过最小化循环一致性损失,保证生成过程的有效性;
计算判别损失:三对生成对抗网络中包含三个判别损失,判别损失主要用于判别生成数据的真伪。通过最小化判别损失,保证判别器的判别能力;
计算交叉熵损失:缺失数据通过双向循环生成对抗网络后,经过子空间学习得到具有更高语义表征能力的特征表示。通过最小化交叉熵损失,保证分类器的分类能力;
网络训练:将循环一致性损失、判别损失和交叉熵损失加权求和,作为该网络结构最终的损失函数。通过反向传播算法进行训练,直到分类准确率达到某个设定值或算法达到收敛,结束训练过程;
预测阶段:将未经训练的测试集样本(存在部分模态数据缺失)输入训练好的网络结构,通过缺失数据补全、公共子空间学习及全连接层的判别,输出分类结果。
本发明的第二个方面提供一种基于缺失数据补全的微视频分类系统。
一种基于缺失数据补全的微视频分类系统,包括:
分类模块,其被配置为:基于存在部分模态数据缺失的微视频,采用训练好的微视频分类网络,得到存在部分模态数据缺失的微视频的分类结果;
模型构建模块,其被配置为:所述微视频分类网络包括:基于存在部分模态数据缺失的微视频,采用双向循环生成对抗网络,得到补全微视频的缺失模态;将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量;将得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的基于缺失数据补全的微视频分类方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的基于缺失数据补全的微视频分类方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明主要在微视频中部分模态数据缺失场景下的分类任务中具有以下几个方面的优势:
第一,本发明主要针对存在数据缺失的微视频数据,这部分数据在以往的方法中通常会被忽略,直接采用数据完整的样本组成数据集。本发明重点针对数据缺失场景下微视频数据的补全和分类,更符合现实场景的需求;
第二,本发明针对微视频中的三个模态的数据采用双向循环生成对抗网络,保证任意模态数据缺失的情况下,都可以通过其它模态进行生成补全。这对于任意一个或两个模态数据缺失的场景,本发明都适用;
第三,本发明采用语义一致性与互补性相结合的策略,多个模态的公共子空间学习可以保证特征的语义表征能力,生成数据与原数据的内容一致性又可以保证该模态的独立性,即多模态之间的互补性。因此,通过多模态互补性保持的约束,使得多模态的公共子空间特征具有更强的语义表征能力,保证分类的准确性。
本发明虽然针对部分模态数据缺失场景下的微视频分类问题,但缺失数据补全的思想及一致性与互补性结合的思想对于其它领域同样适用。现实场景下,数据不完整的情况存在于多个领域。本发明的思想同样可以引用到此类问题,帮助其更好的完成任务。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明基于缺失数据补全的微视频分类方法的框架图;
图2是本发明基于缺失数据补全的微视频分类系统的流程图;
图3是本发明实施例中双向循环生成对抗网络的结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
实施例一
如图1所示,本实施例提供了一种基于缺失数据补全的微视频分类方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器和系统,并通过终端和服务器的交互实现。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本实施例中,该方法包括以下步骤:
基于存在部分模态数据缺失的微视频,采用训练好的微视频分类网络,得到存在部分模态数据缺失的微视频的分类结果;
所述微视频分类网络包括:基于存在部分模态数据缺失的微视频,采用双向循环生成对抗网络,得到补全微视频的缺失模态;
将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量;
将得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果。
作为一种或多种实施方式,所述双向循环生成对抗网络包括:三个循环生成对抗网络,每个循环生成对抗网络包括两个方向,从第一模态生成第二模态和从第二模态生成第一模态,其中,第一模态为视觉模态或声音模态或文本模态,第二模态为视觉模态或声音模态或文本模态,且第一模态与第二模态不相同。
具体的,如图3所示:微视频三个模态的特征经过三组循环生成对抗网络分别生成其它模态的特征表示。每组循环生成对抗网络包括两个方向,从模态A生成模态B和从模态B生成模态A(从模态B生成模态C和从模态C生成模态B或从模态A生成模态C和从模态C生成模态A)。每个方向都是一个基础的生成对抗网络,包括生成器G和判别器D。
作为一种或多种实施方式,所述微视频分类网络训练的过程包括:
S1:获取模态完整的微视频样本,去除模态完整微视频样本的一个或两个模态,构建模态缺失的微视频样本数据集;
具体的,该过程属于数据集预处理,为了保证数据集与真实数据的一致性,去除模态完整的微视频样本中的一个或两个模态,构造部分模态数据缺失的微视频分类数据集。并按照7:3的比例分为训练集和测试集。
作为一种或多种实施方式,在将存在部分模态数据缺失的微视频输入训练好的微视频分类网络之前包括:将视觉模态的各帧通过卷积神经网络提取图像特征,通过去噪自编码器提取声音模态的音频特征,通过sentence2vector方法提取文本模态的文字特征。具体的,微视频数据包括三个模态,分别为视觉模态、声音模态和文本模态。首先通过简单的每隔5帧取一帧的方式,提取微视频的关键帧。所有的关键帧输入VGG16网络中,提取图像的特征;其次通过微视频中音轨提取方法将微视频中的音频信息分离出来,并通过去噪自编码器提取音频特征;最后通过Sentence2Vector方法提取文本模态的特征表示。
S2:基于模态缺失的微视频样本数据集中的样本,采用构建的双向循环生成对抗网络,得到补全微视频的缺失模态;
具体的,微视频三个模态的特征经过三组循环生成对抗网络分别生成其它模态的特征表示。每组循环生成对抗网络包括两个方向,从模态A生成模态B和从模态B生成模态A(从模态B生成模态C和从模态C生成模态B或从模态A生成模态C和从模态C生成模态A)。每个方向都是一个基础的生成对抗网络,包括生成器G和判别器D。所有训练样本集的数据都会经过三组循环生成对抗网络,补全缺失模态。
S3:将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果;
具体的,该过程包括:公共子空间映射和模态间互补性保持。
公共子空间映射:所有补全后完整的数据经过公共子空间学习模块,提取具有更高语义表征能力的语义特征。本实施例中的公共子空间学习模块采用CCA_3V方法,三个模态的数据经过CCA_3V,提取出三个模态公共的语义特征表示向量。其中,公共子空间学习模块是公共子空间学习方法的统称,CCA_3V采用Y.Gong,Q.Ke,M.Isard,and S.Lazebnik,“Amulti-view embedding space for modeling internet images,tags,and theirsemantics,”International Journal of Computer Vision,vol.106,no.2,pp.210–233,2014提出的网络。
模态间互补性保持:各模态通过生成对抗网络生成后的数据,与该模态的groundtruth之间进行相似性计算,通过最大化相似性,保证生成数据的真实性,从而保证各模态的独特性及模态间的互补性。
S4:基于循环一致性损失、判别损失和交叉熵损失,计算损失函数,直到损失值小于设定的阈值,得到训练好的双向循环生成对抗网络。
作为一种或多种实施方式,所述循环一致性损失包括:第一模态到第二模态的生成损失。
循环一致性损失Lcyc包括三部分,分别为模态A到模态B的生成损失lGAB,模态A到模态C的生成损失lGAC,及模态B到模态C的生成损失lGBC。其中 因此,循环一致性损失为三部分生成损失的和:Lcyc=lGAB+lGAC+lGBC。
作为一种或多种实施方式,所述判别损失包括:第一模态到第二模块的判别损失。
三组循环生成对抗网络的判别损失LGAN包括三个部分,分别为模态A到模态B与模态B到模态A的判别损失和lDAB,模态A到模态C与模态C到模态A判别损失和lDAC,及模态B到模态C与模态C到模态B的判别损失和lDBC。其中lDAB=lGAN(GAB,DB,A,B)+lGAN(GBA,DA,B,A),lDAC=lGAN(GAc,DC,A,C)+lGAN(GCA,DA,C,A),lDBC=lGAN(GBC,DC,B,C)+lGAN(GCB,DB,C,B)。因此,判别损失为三部分判别损失的和:LGAN=lDAB+lDAC+lDBC。其中,公式中G表示的是生成器,例如GAB表示的是模态A到模态B的生成器;D表示的判别器,例如DB表示的是B模态上的判别器,用于判别生成的B模态的真假。
作为一种或多种实施方式,所述交叉熵损失包括:存在部分模态数据缺失的微视频的分类结果与对应该微视频的模态完整微视频的真实类别的交叉熵损失。
训练过程:将循环一致性损失、判别损失和交叉熵损失加权求和,得到总的损失函数Loss=Lcyc+αLGAN+βloss,通过反向传播算法不断进行网络训练,使得总的Loss不断下降直至收敛或损失及准确率达到某一个阈值,停止训练。
预测过程:输入待测试的微视频数据到训练好的网络结构中,经过缺失数据补全、公共子空间学习等步骤得到预测结果。
如图3所示,为双向循环生成对抗网络的结构图,图3中的双向循环生成对抗网络为训练阶段的网络结构。当输入为模态A时,可以经过生成器A2B和生成器A2C生成模态B’和模态C’,并通过判别器判断生成数据的真伪。而且可以同时通过生成器B2A和生成器C2A训练反向生成对抗网络。当输入为模态B或模态C时,其训练过程与输入模态A时一致。
当进入测试阶段,网络结构变为单项生效,缺失哪个模态,可以通过其中一个或两个网络结构生成缺失数据。
本发明首先通过双向的循环生成对抗网络方法,使得微视频中任意模态数据缺失时,都可以由其相邻的两个模态生成。因此,可以保证特征学习时各模态数据是完整的。其次通过公共的子空间映射,将多模态的数据映射到一个公共子空间中,学习各模态的特征映射矩阵。因此,可以保证多模态的语义一致性。最后通过生成数据的内容保持,使得生成的内容与该模态其它样本之间具有一致性。因此,也可以保证各模态的独立性以及模态间的互补性。本实施例充分结合了微视频多模态之间的语义一致性与互补性,可以提高微视频特征的语义表征能力及微视频分类的准确率。
需要强调的是,本发明提到的微视频可以是短视频、抖音、西瓜视频、火山小视频、快手等;本发明虽然针对部分模态数据缺失场景下的微视频分类问题,但缺失数据补全的思想及一致性与互补性结合的思想对于其它领域同样适用。现实场景下,数据不完整的情况存在于多个领域。本发明的思想同样可以引用到此类问题,帮助其更好的完成任务。
实施例二
本实施例提供了一种基于缺失数据补全的微视频分类系统。
一种基于缺失数据补全的微视频分类系统,包括:
分类模块,其被配置为:基于存在部分模态数据缺失的微视频,采用训练好的微视频分类网络,得到存在部分模态数据缺失的微视频的分类结果;
模型构建模块,其被配置为:所述微视频分类网络包括:基于存在部分模态数据缺失的微视频,采用双向循环生成对抗网络,得到补全微视频的缺失模态;将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量;将得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果。
如图2所示为本发明提供的微视频分类系统的流程图,图2中测试样本为存在缺失数据的样本,输入训练好的微视频分类网络中,补全缺失模态。然后数据补全后的样本通过多模态的公共子空间学习得到微视频样本的高层语义特征表示。该样本特征经过全连接层得到预测的分类结果。
此处需要说明的是,上述分类模块和模型构建模块与实施例一所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的基于缺失数据补全的微视频分类方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的基于缺失数据补全的微视频分类方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于缺失数据补全的微视频分类方法,其特征在于,包括:
基于存在部分模态数据缺失的微视频,采用训练好的微视频分类网络,得到存在部分模态数据缺失的微视频的分类结果;
所述微视频分类网络包括:基于存在部分模态数据缺失的微视频,采用双向循环生成对抗网络,得到补全微视频的缺失模态;
将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量;
将得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果。
2.根据权利要求1所述的基于缺失数据补全的微视频分类方法,其特征在于,所述双向循环生成对抗网络包括:三个循环生成对抗网络,每个循环生成对抗网络包括两个方向,从第一模态生成第二模态和从第二模态生成第一模态,其中,第一模态为视觉模态或声音模态或文本模态,第二模态为视觉模态或声音模态或文本模态,且第一模态与第二模态不相同。
3.根据权利要求2所述的基于缺失数据补全的微视频分类方法,其特征在于,所述微视频分类网络训练的过程包括:
获取模态完整的微视频样本,去除模态完整微视频样本的一个或两个模态,构建模态缺失的微视频样本数据集;
基于模态缺失的微视频样本数据集中的样本,采用构建的双向循环生成对抗网络,得到补全微视频的缺失模态;
将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果;
基于循环一致性损失、判别损失和交叉熵损失,计算损失函数,直到损失值小于设定的阈值,得到训练好的双向循环生成对抗网络。
4.根据权利要求3所述的基于缺失数据补全的微视频分类方法,其特征在于,所述循环一致性损失包括:第一模态到第二模态的生成损失。
5.根据权利要求3所述的基于缺失数据补全的微视频分类方法,其特征在于,所述判别损失包括:第一模态到第二模态的判别损失。
6.根据权利要求3所述的基于缺失数据补全的微视频分类方法,其特征在于,所述交叉熵损失包括:存在部分模态数据缺失的微视频的分类结果与对应该微视频的模态完整微视频的真实类别的交叉熵损失。
7.根据权利要求1所述的基于缺失数据补全的微视频分类方法,其特征在于,在将存在部分模态数据缺失的微视频输入训练好的微视频分类网络之前包括:将视觉模态的各帧通过卷积神经网络提取图像特征,通过去噪自编码器提取声音模态的音频特征,通过sentence2vector方法提取文本模态的文字特征。
8.一种基于缺失数据补全的微视频分类系统,其特征在于,包括:
分类模块,其被配置为:基于存在部分模态数据缺失的微视频,采用训练好的微视频分类网络,得到存在部分模态数据缺失的微视频的分类结果;
模型构建模块,其被配置为:所述微视频分类网络包括:基于存在部分模态数据缺失的微视频,采用双向循环生成对抗网络,得到补全微视频的缺失模态;将微视频的原有模态与补全微视频的缺失模态经过公共子空间学习模块,提取视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量;将得到的视觉模态语义特征表示向量、声音模态语义特征表示向量和文本模态的语义特征表示向量经过全连接层,得到存在部分模态数据缺失的微视频的分类结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于缺失数据补全的微视频分类方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于缺失数据补全的微视频分类方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110944504.9A CN113657272B (zh) | 2021-08-17 | 2021-08-17 | 一种基于缺失数据补全的微视频分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110944504.9A CN113657272B (zh) | 2021-08-17 | 2021-08-17 | 一种基于缺失数据补全的微视频分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657272A true CN113657272A (zh) | 2021-11-16 |
CN113657272B CN113657272B (zh) | 2022-06-28 |
Family
ID=78480503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110944504.9A Active CN113657272B (zh) | 2021-08-17 | 2021-08-17 | 一种基于缺失数据补全的微视频分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657272B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114548367A (zh) * | 2022-01-17 | 2022-05-27 | 中国人民解放军国防科技大学 | 基于对抗网络的多模态数据的重构方法及装置 |
CN115713722A (zh) * | 2023-01-06 | 2023-02-24 | 山东建筑大学 | 一种多模态第一视角视频分类方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120110460A (ko) * | 2011-03-29 | 2012-10-10 | 서울대학교산학협력단 | 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법 |
CN109344887A (zh) * | 2018-09-18 | 2019-02-15 | 山东大学 | 基于多模态字典学习的短视频分类方法、系统及介质 |
CN110910351A (zh) * | 2019-10-31 | 2020-03-24 | 上海交通大学 | 基于生成对抗网络的超声图像模态迁移、分类方法及终端 |
CN111274445A (zh) * | 2020-01-20 | 2020-06-12 | 山东建筑大学 | 基于三元组深度学习的相似视频内容检索方法及系统 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN112287170A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN112784902A (zh) * | 2021-01-25 | 2021-05-11 | 四川大学 | 一种有缺失数据的两模态聚类方法 |
CN113158798A (zh) * | 2021-03-16 | 2021-07-23 | 天津大学 | 一种基于多模态特征完备表示的短视频分类方法 |
-
2021
- 2021-08-17 CN CN202110944504.9A patent/CN113657272B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120110460A (ko) * | 2011-03-29 | 2012-10-10 | 서울대학교산학협력단 | 멀티미디어 컨텐츠의 멀티모달 학습 및 분류 방법 |
CN109344887A (zh) * | 2018-09-18 | 2019-02-15 | 山东大学 | 基于多模态字典学习的短视频分类方法、系统及介质 |
CN110910351A (zh) * | 2019-10-31 | 2020-03-24 | 上海交通大学 | 基于生成对抗网络的超声图像模态迁移、分类方法及终端 |
CN111274445A (zh) * | 2020-01-20 | 2020-06-12 | 山东建筑大学 | 基于三元组深度学习的相似视频内容检索方法及系统 |
CN111476294A (zh) * | 2020-04-07 | 2020-07-31 | 南昌航空大学 | 一种基于生成对抗网络的零样本图像识别方法及系统 |
CN111581405A (zh) * | 2020-04-26 | 2020-08-25 | 电子科技大学 | 基于对偶学习生成对抗网络的跨模态泛化零样本检索方法 |
CN112287170A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN112784902A (zh) * | 2021-01-25 | 2021-05-11 | 四川大学 | 一种有缺失数据的两模态聚类方法 |
CN113158798A (zh) * | 2021-03-16 | 2021-07-23 | 天津大学 | 一种基于多模态特征完备表示的短视频分类方法 |
Non-Patent Citations (2)
Title |
---|
BOFENG WU ET.AL: "Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching", 《ARXIV》 * |
张衡: "基于模态融合的短视频分类", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114548367A (zh) * | 2022-01-17 | 2022-05-27 | 中国人民解放军国防科技大学 | 基于对抗网络的多模态数据的重构方法及装置 |
CN114548367B (zh) * | 2022-01-17 | 2024-02-20 | 中国人民解放军国防科技大学 | 基于对抗网络的多模态数据的重构方法及装置 |
CN115713722A (zh) * | 2023-01-06 | 2023-02-24 | 山东建筑大学 | 一种多模态第一视角视频分类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113657272B (zh) | 2022-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Koohzadi et al. | Survey on deep learning methods in human action recognition | |
CN108780519B (zh) | 卷积神经网络的结构学习 | |
CN109891897B (zh) | 用于分析媒体内容的方法 | |
WO2021057056A1 (zh) | 神经网络架构搜索方法、图像处理方法、装置和存储介质 | |
US20220028031A1 (en) | Image processing method and apparatus, device, and storage medium | |
Do et al. | Deep neural network-based fusion model for emotion recognition using visual data | |
CN110990631A (zh) | 视频筛选方法、装置、电子设备和存储介质 | |
CN113657272B (zh) | 一种基于缺失数据补全的微视频分类方法及系统 | |
CN111833360B (zh) | 一种图像处理方法、装置、设备以及计算机可读存储介质 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113435520A (zh) | 神经网络的训练方法、装置、设备及计算机可读存储介质 | |
Wang et al. | Exploring hybrid spatio-temporal convolutional networks for human action recognition | |
CN112804558B (zh) | 视频拆分方法、装置及设备 | |
CN114282059A (zh) | 视频检索的方法、装置、设备及存储介质 | |
CN113704419A (zh) | 对话处理方法及装置 | |
CN117711001B (zh) | 图像处理方法、装置、设备和介质 | |
Shehada et al. | A lightweight facial emotion recognition system using partial transfer learning for visually impaired people | |
Liu et al. | Student behavior recognition from heterogeneous view perception in class based on 3-D multiscale residual dense network for the analysis of case teaching | |
Lin et al. | The design of error-correcting output codes based deep forest for the micro-expression recognition | |
CN114529761A (zh) | 基于分类模型的视频分类方法、装置、设备、介质及产品 | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
Mishra et al. | Deep machine learning and neural networks: an overview | |
CN117011741A (zh) | 视频检测模型的训练方法、装置、设备及存储介质 | |
Zhong et al. | Multimodal cooperative self‐attention network for action recognition | |
Li et al. | Attentive 3D‐Ghost Module for Dynamic Hand Gesture Recognition with Positive Knowledge Transfer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20211116 Assignee: Linqing Shanhui Machine Tool Co.,Ltd. Assignor: SHANDONG JIANZHU University Contract record no.: X2023980034075 Denomination of invention: A Microvideo Classification Method and System Based on Missing Data Completion Granted publication date: 20220628 License type: Common License Record date: 20230328 |