CN113743277A

CN113743277A - 一种短视频分类方法及系统、设备和存储介质

Info

Publication number: CN113743277A
Application number: CN202111003237.1A
Authority: CN
Inventors: 范清; 唐大闰
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-12-03

Abstract

本申请公开了一种短视频分类方法及其系统，方法包括：双模态特征融合步骤：将待分类短视频输入预训练完成的特征融合模型，将提取的视觉和声音特征向量嵌入共享子空间进行深度融合，并利用多模态对比损失及优化网络参数后，输出特征融合的待分类短视频；分类推理步骤：将特征融合的待分类短视频输入预训练完成的分类模型，完成短视频推理和分类，输出待分类短视频的分类结果。本发明使用短视频视觉和音频双模态特征进行深度融合，短视频分类准确率显著提高。

Description

一种短视频分类方法及系统、设备和存储介质

技术领域

本申请涉及视频分类领域，特别是涉及一种基于双模态特征融合的短视频方法、系统、计算机设备和计算机可读存储介质。

背景技术

当前，短视频已经成为当今新媒体时代极具有代表性的产物之一，并开始越来越多地融入到大众的生活当中。尽管一些研究工作在解决传统视频分类问题取得了较为理想的性能，然而由于短视频天然的具有时短、强编辑等特点，使得已有的模型并不适合直接应用于短视频分类任务中。

视频分类领域的研究已经取得了巨大的进步。目前已有的多模态特征融合的视频分类方法主要是通过提取不同模态的特征并进行直接融合以解决分类问题。然而，这种视频分类的方法普遍针对的是传统长视频，不能直接应用于短视频的分类，目前现有技术中采用的视频分类方法包括：

1)深度特征学习

早期的视频特征提取方法采用二维卷积网络去学习视频的每一帧特征，这个方法的灵感来源于图像处理，然而这个方法忽略了连续视频帧之间的时间关联性。为了保留时间相关性，现有很多方法通过聚合视频的帧特征来作为一个整体的视频特征表示。近年来，以3D卷积为基础推出的一系列视频特征提取方法被广泛地应用在视频分类领域。

2)多模态特征融合

传统的多模态特征融合策略大致分为前期融合和后期融合两种方式。前期融合通常将每个独立的模态特征拼接成一个全局特征，并且将这个全局特征放入分类器中进行分类。后期融合则采用一些特定的数学方法去融合来自不同模态特征的判断得分，比如平均，加权等操作。基于自监督对比学习的多模态融合方法使用模式之间的时间共现来定义自监督代理任务，并以多模态对比损失来优化模型参数，是一类很有潜力的多模态融合方法。基于自监督对比学习的启发，本方案从特征嵌入空间的角度入手，解决短视频分类问题，取得了很好的效果。

目前针对相关技术中，存在以下瓶颈，尚未提出有效解决方案：

1)现有技术短视频多模态特征融和忽略了视觉-音频特征之间的相关性，分类准确率低；

2)与传统意义上的长视频相比，短视频的时间长度通常只有1-2分钟，所以需要在有限时间长度、有限内容的视频中提取出对分类较为重要的特征。

3)短视频的来源广泛，表现形式多样，所以短视频相比较长视频，具有更高的信息复杂度和冗余度。

4)现有的特征融合方法多都忽视了不同模态特征在特征空间的关联性，而且在融合方式上也缺乏更有效的指导。

为了解决现有技术中存在的问题和瓶颈，本发明基于综合短视频分类任务特点，提出一种基于视觉-声音双模态特征融合的短视频分类方法，实际应用中可以显著提升短视频分类效果。

发明内容

本申请实施例提供了一种基于视觉-声音双模态特征融合的短视频分类方法，实际应用中可以显著提升短视频分类效果。

第一方面，本申请实施例提供了一种短视频分类方法，包括：

双模态特征融合步骤：将待分类短视频输入预训练完成的特征融合模型，将提取的视觉和声音特征向量嵌入共享子空间进行深度融合，并利用多模态对比损失及优化网络参数后，输出特征融合的待分类短视频；

分类推理步骤：将特征融合的待分类短视频输入预训练完成的分类模型，完成短视频推理和分类，输出待分类短视频的分类结果。

在一些实施例中，上述双模态特征融合步骤包括：

特征融合模型训练步骤：基于海量短视频完成特征融合模型的预训练；

分类推理步骤包括：

分类模型训练步骤：基于业务数据完成分类模型的预训练。

在一些实施例中，上述特征融合模型训练步骤包括：

提取多维特征向量步骤：将海量短视频的视频数据和音频数据分别输入到对应的编码器网络，分别生成视觉多维特征向量和声音多维特征向量；

空间嵌入步骤：将视觉多维特征向量和声音多维特征向量分别输入到非线性映射模块，视觉多维特征向量和声音多维特征向量分别被嵌入到低维的特征融合子空间；

对比损失步骤：特征融合子空间中的视觉多维特征向量和声音多维特征向量输入到噪声对比损失函数计算损失loss，根据反向传播算法更新编码器网络参数；

网络优化步骤：使用Adam优化器和优化参数对编码器网络进行优化。

在一些实施例中，上述分类模型训练步骤包括：

线性分类器训练步骤：将特征融合模型添加线性分类器，基于带有类别标签的少量业务数据，对线性分类器进行多轮训练。

第二方面，本申请实施例提供了一种短视频分类系统，采用如上所述短视频分类方法，包括：

双模态特征融合模块：将待分类短视频输入预训练完成的特征融合模型，将提取的视觉和声音特征向量嵌入共享子空间进行深度融合，并利用多模态对比损失及优化网络参数后，输出特征融合的待分类短视频；

分类推理模块：将特征融合的待分类短视频输入预训练完成的分类模型，完成短视频推理和分类，输出待分类短视频的分类结果。

在一些实施例中，上述双模态特征融合模块包括：

特征融合模型训练模块：基于海量短视频完成特征融合模型的预训练；

分类推理模块包括：

分类模型训练模块：基于业务数据完成分类模型的预训练。

在一些实施例中，上述特征融合模型训练模块包括：

提取多维特征向量模块：将海量短视频的视频数据和音频数据分别输入到对应的编码器网络，分别生成视觉多维特征向量和声音多维特征向量；

空间嵌入模块：将视觉多维特征向量和声音多维特征向量分别输入到非线性映射模块，视觉多维特征向量和声音多维特征向量分别被嵌入到低维的特征融合子空间；

对比损失模块：特征融合子空间中的视觉多维特征向量和声音多维特征向量输入到噪声对比损失函数计算损失loss，根据反向传播算法更新编码器网络参数；

网络优化模块：使用Adam优化器和优化参数对编码器网络进行优化。

在一些实施例中，上述分类模型训练模块包括：

线性分类器训练模块：将特征融合模型添加线性分类器，基于带有类别标签的少量业务数据，对线性分类器进行多轮训练。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述第一方面所述的短视频分类方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的短视频分类方法。

相比于相关现有技术，本发明提供的短视频分类与长视频相比，实现了在有限内容的视频中提取出对分类较为重要的特征；同时，由于短视频具有更高的信息复杂度和冗余度，本发明短视频基于模态特征在特征空间的关联性，实现了短视频视觉和音频双模态特征进行深度融合，使短视频分类准确率显著提高。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明短视频分类方法的流程图；

图2为本发明具体实施例分类框架示意图；

图3为本发明具体实施例短视频分类流程示意图；

图4为本发明短视频分类系统示意图；

图5为根据本申请实施例的计算机设备的硬件结构示意图。

以上图中：

100短视频分类系统

10训练数据集准备模块，20特征融合模块

30短视频分类训练模块

81、处理器；82、存储器；83、通信接口；80、总线。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本申请所涉及的短视频分类方法、装置、设备或者计算机可读存储介质基于视频和声音的共现作为代理任务，将视觉和声音特征嵌入一个低维的共享子空间进行深度融合，并利用多模态对比损失优化网络参数。自监督模型训练完成后，在模型头部添加一个线性分类器即可进行短视频分类训练及推理。

图1为本发明短视频分类方法流程示意图，如图1所示，本实施例提供了一种短视频分类方法，包括：

双模态特征融合步骤S10：将待分类短视频输入预训练完成的特征融合模型，将提取的视觉和声音特征向量嵌入共享子空间进行深度融合，并利用多模态对比损失及优化网络参数后，输出特征融合的待分类短视频；

分类推理步骤S20：将特征融合的待分类短视频输入预训练完成的分类模型，完成短视频推理和分类，输出待分类短视频的分类结果。

其中，上述双模态特征融合步骤S10包括：

分类推理步骤S20包括：

分类模型训练步骤：基于业务数据完成分类模型的预训练。

其中，上述特征融合模型训练步骤包括：

其中，上述分类模型训练步骤包括：

以下结合具体附图对本发明具体实施例进行详细说明：

图2为本发明具体实施例训练流程示意图，图3为本发明具体实施例Non-Linear模块结构示意图，如图2和图3所示，本发明方法是一种用于短视频的视觉-音频多模态特征融合的分类框架。

本方案基于视频和声音的共现作为代理任务，将视觉和声音特征嵌入一个低维的共享子空间进行深度融合，并利用多模态对比损失优化网络参数。自监督模型训练完成后，在模型头部添加一个线性分类器即可进行短视频分类训练及推理。

图2为本发明具体实施例训练流程示意图，如图2所示，具体步骤如下：

1)自监督训练数据集准备。从互联网搜索引擎、社交媒体、视频分享平台收集大量的短视频用于训练，数据规模从100万-10亿不等。

2)自监督特征融合预训练。每次从训练集加载一个批次的视频数据(2048个)进行自监督预训练。将视频和音频分别输入到对应的编码器网络产生2048维的特征向量。

其中，对于视觉模态，在3D ResNet50编码器网络的最后一层应用时间和空间平均池化来获得一个单一的2048维的向量。训练时，以10fps速率从视频中采样32帧，输入序列的分辨率为200*200。训练过程中使用以下标准的数据增强：随机裁剪、水平翻转、时间采样和尺度抖动，以及颜色增强。对于音频使用包含80个bins的log-Mel光谱图来表达，采样速率与视频帧采样同步，使用ResNet50编码器提取特征。

a)每次从训练集加载一个批次的视频数据(2048个)进行自监督预训练。将视频和音频分别输入到对应的编码器网络各自产生2048维的特征向量。

b)视觉、音频特征分别输入到非线性映射模块，视频、音频模态分别被嵌入到512维的特征融合子空间。图3为本发明具体实施例Non-Linear模块结构示意图，其中，BU为batch normaliz批量归一化，是深度神经网络中的一种对数据进行标准化的操作。ReLU，Rectified Linear Unit纠正线性单元，是神经网络中最常用的一个激活函数。

c)特征融合子空间的视觉、音频特征输入到噪声对比损失函数计算loss，根据反向传播算法更新网络参数。

其中，Contrastive loss噪声对比损失函数：

where k_i represents a negative sampla.

其中k+表示正样例，ki表示负样例，T表示温度调节系数。

反向传播算法(英:Backpropagation algorithm，简称:BP算法)是一种监督学习算法，常被用来训练多层感知机。

d)使用Adam优化器和参数β₁＝0.9,β₂＝0.999,ε＝10^-8对网络进行优化，训练持续50万次，初始学习率为0.001。

其中，Adam优化器为(自适应矩估计Adaptive moment estimation)。

3)短视频分类训练及推理。当第2步自监督预训练完成后，在视觉编码器ResNet50-3D头部添加一个线性分类器，并保持编码器网络参数不变。训练时只需要使用少量的带有类别标签的业务数据训练线性分类器，通常5个epoch即可完成训练。训练完成后即可进行短视频分类预测，输入短视频，输出短视频分类结果。

本发明短视频分类方法充分挖掘短视频视觉和音频特征相关性并进行深度融合，相比已有方法，短视频分类准确率显著提高。

第二方面，本申请实施例提供了一种短视频分类系统100，采用如上所述任意一项短视频分类方法，图4为本发明短视频分类系统示意图，如图4所示，系统包括：

第二方面，本申请实施例提供了一种短视频分类系统100，采用如上所述短视频分类方法，包括：

双模态特征融合模块10：将待分类短视频输入预训练完成的特征融合模型，将提取的视觉和声音特征向量嵌入共享子空间进行深度融合，并利用多模态对比损失及优化网络参数后，输出特征融合的待分类短视频；

分类推理模块20：将特征融合的待分类短视频输入预训练完成的分类模型，完成短视频推理和分类，输出待分类短视频的分类结果。

其中，上述双模态特征融合模块10包括：

分类推理模块20包括：

分类模型训练模块：基于业务数据完成分类模型的预训练。

在一些实施例中，上述特征融合模型训练模块包括：

在一些实施例中，上述分类模型训练模块包括：

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的短视频分类方法。

另外，结合图5描述的本申请实施例的实体推荐方法可以由计算机设备来实现。图5为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种短视频分类方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图5所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于视觉-听觉双模态深度融合，即使部分信息丢失也能对特征信息进行还原，从而实现结合图1描述的加密数字水印添加方法。

本发明提供的短视频分类与长视频相比，实现了在有限内容的视频中提取出对分类较为重要的特征；同时，由于短视频具有更高的信息复杂度和冗余度，本发明短视频基于模态特征在特征空间的关联性，实现了短视频视觉和音频双模态特征进行深度融合，使短视频分类准确率显著提高。

另外，结合上述实施例中的短视频分类方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种短视频分类方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种短视频分类方法，其特征在于，包括：

分类推理步骤：将所述特征融合的待分类短视频输入预训练完成的分类模型，完成短视频推理和分类，输出所述待分类短视频的分类结果。

2.根据权利要求1所述短视频分类方法，其特征在于，

所述双模态特征融合步骤包括：

特征融合模型训练步骤：基于海量短视频完成所述特征融合模型的预训练；

所述分类推理步骤包括：

分类模型训练步骤：基于业务数据完成所述分类模型的预训练。

3.根据权利要求2所述短视频分类方法，其特征在于，所述特征融合模型训练步骤包括：

空间嵌入步骤：将所述视觉多维特征向量和声音多维特征向量分别输入到非线性映射模块，所述视觉多维特征向量和声音多维特征向量分别被嵌入到低维的特征融合子空间；

对比损失步骤：所述特征融合子空间中的所述视觉多维特征向量和声音多维特征向量输入到噪声对比损失函数计算损失loss，根据反向传播算法更新所述编码器网络参数；

网络优化步骤：使用Adam优化器和优化参数对所述编码器网络进行优化。

4.根据权利要求2所述短视频分类方法，其特征在于，所述分类模型训练步骤包括：

线性分类器训练步骤：将所述特征融合模型添加线性分类器，基于带有类别标签的少量业务数据，对所述线性分类器进行多轮训练。

5.一种短视频分类系统，采用如权利要求1-4中任意一项所述短视频分类方法，其特征在于，包括：

分类推理模块：将所述特征融合的待分类短视频输入预训练完成的分类模型，完成短视频推理和分类，输出所述待分类短视频的分类结果。

6.根据权利要求5所述短视频分类系统，其特征在于，

所述双模态特征融合模块包括：

特征融合模型训练模块：基于海量短视频完成所述特征融合模型的预训练；

所述分类推理模块包括：

分类模型训练模块：基于业务数据完成所述分类模型的预训练。

7.根据权利要求6所述短视频分类系统，其特征在于，所述特征融合模型训练模块包括：

空间嵌入模块：将所述视觉多维特征向量和声音多维特征向量分别输入到非线性映射模块，所述视觉多维特征向量和声音多维特征向量分别被嵌入到低维的特征融合子空间；

对比损失模块：所述特征融合子空间中的所述视觉多维特征向量和声音多维特征向量输入到噪声对比损失函数计算损失loss，根据反向传播算法更新所述编码器网络参数；

网络优化模块：使用Adam优化器和优化参数对所述编码器网络进行优化。

8.根据权利要求6所述短视频分类系统，其特征在于，所述分类模型训练模块包括：

线性分类器训练模块：将所述特征融合模型添加线性分类器，基于带有类别标签的少量业务数据，对所述线性分类器进行多轮训练。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述短视频分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的短视频分类方法。