CN113569942A

CN113569942A - 短视频事件分类方法、系统、电子设备及存储介质

Info

Publication number: CN113569942A
Application number: CN202110843226.8A
Authority: CN
Inventors: 朱彦浩; 胡郡郡; 唐大闰
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-29
Anticipated expiration: 2041-07-26
Also published as: CN113569942B

Abstract

本发明公开了一种短视频事件分类方法、系统、电子设备及存储介质，基于Transformer网络对短视频中的事件进行分类，短视频事件分类方法包括：短视频处理步骤：对短视频进行预处理获得短视频的多个特征向量及短视频的每一事件的起止位置；指引向量获取步骤：根据短视频的每一事件的起止位置获得对应事件的指引向量；分类步骤：根据指引向量及短视频的多个特征向量通过transformer网络进行特征学习后，输出对应每一事件的多标签分类结果；本发明将指引向量与transformer结构进行了融合，既能够实现统一的标准化输入又能够学习到事件特征之间的相关关系，解决了由于事件长度不一带来的双重问题并提升了分类效果。

Description

短视频事件分类方法、系统、电子设备及存储介质

技术领域

本发明涉及视频处理技术领域，特别涉及一种基于Transformer网络的短视频事件分类方法、系统、电子设备及存储介质。

背景技术

随着互联网社交平台的发展，海量的各种各样的媒体形式在互联网上传播。其中，短视频作为一种新兴的媒体在近些年迅速发展流行起来。在海量的短视频中，快速确定短视频的种类，将短视频按照一定的标准进行分类，是进行短视频内容分析的重要环节，是后续进行个性化推荐的重要前提。

事件分类有一个比较明显的问题，这个问题带来了此领域的两个难题。由于不同视频中的不同事件的时间长度不一致，导致不同的事件有着不同的特征长度，例如如果对视频每一秒钟抽取一条特征，那么一个二十秒的事件其特征长度为20，而一个三秒的事件其特征长度只有3。这会带来两个比较明显的问题：一是在进行分类算法训练时无法做到统一的标准化输入。二是特征长度的不同会带来算法学习上的无法聚焦。

现有技术中，大都采取以下方式：

1.将事件特征暴力平均的方法

这种方法的操作是将事件的特征全部进行加和处理，然后除以特征的长度，将这种经过加和后处理的1条特征送入分类器进行分类。其优点比较明显，无论是特征长度有多长，其最终在进入分类器时只有1条特征，满足了特征长度标准化的要求。但这种方法的缺点在于：无法学习特征间关系，暴力的进行特征的加和平均使网络无法学习到那些是有助于分类的重要特征那些是无关紧要的特征，对最后的分类结果不友好。

2.使用循环神经网络的方法

这种方法将事件的每一条特征逐次的送入到网络结构中，对所有的特征进行特征之间相关性的学习，最终得到最后的分类结果。这种方法会学习到事件特征之间的关系，能够做到更好的分类。但这种方法的缺点在于：无法进行统一的标准化输入，训练时每次只能接受一个事件，导致训练成本过高，很难满足实际需求。

因此亟需开发一种克服上述缺陷的基于Transformer网络的短视频事件分类方法、系统、电子设备及存储介质。

发明内容

针对上述问题，本申请实施例提供了一种基于Transformer网络的短视频事件分类方法、系统、电子设备及存储介质，以至少解决由于事件长度不一带来分类不准确的问题。

本发明提供一种短视频事件分类方法，其中，基于Transformer网络对短视频中的事件进行分类，所述事件分类方法包括：

短视频处理步骤：对短视频进行预处理获得所述短视频的多个特征向量及所述短视频的每一事件的起止位置；

指引向量获取步骤：根据短视频的每一所述事件的起止位置获得对应所述事件的指引向量；

分类步骤：根据所述指引向量及所述短视频的多个所述特征向量通过transformer网络进行特征学习后，输出对应每一所述事件的多标签分类结果。

上述的短视频事件分类方法，其中，所述短视频处理步骤包括：根据设定时间对所述短视频进行向量化处理获得多个所述特征向量，根据多个所述特征向量的编号确定每一所述事件的所述起止位置。

上述的短视频事件分类方法，其中，所述分类步骤包括：

编码步骤：通过所述Transformer网络对所述指引向量进行编码获得编码值，并根据所述编码值与多个所述特征向量进行计算获得多个特征；

分类结果输出步骤：所述Transformer网络根据多个所述特征通过自身的注意力机制学习各个所述特征之间的关系，并输出特征学习后的所述多标签分类结果。

上述的短视频事件分类方法，其中，所述编码步骤包括：通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。

本发明还提供一种短视频事件分类系统，其中，基于Transformer网络对短视频中的事件进行分类，所事件分类系统包括：

短视频处理单元，对短视频进行预处理获得所述短视频的多个特征向量及所述短视频的每一事件的起止位置；

指引向量获取单元，根据短视频的每一所述事件的起止位置获得对应所述事件的指引向量；

分类单元，根据所述指引向量及所述短视频的多个所述特征向量通过transformer网络进行特征学习后，输出对应每一所述事件的多标签分类结果。

上述的短视频事件分类系统，其中，所述短视频处理单元根据设定时间对所述短视频进行向量化处理获得多个所述特征向量，根据多个所述特征向量的编号确定每一所述事件的所述起止位置。

上述的短视频事件分类系统，其中，所述分类单元包括：

编码模块，通过所述Transformer网络对所述指引向量进行编码获得编码值，并根据所述编码值与多个所述特征向量进行计算获得多个特征；

分类结果输出模块，所述Transformer网络根据多个所述特征通过自身的注意力机制学习各个所述特征之间的关系，并输出特征学习后的所述多标签分类结果。

上述的短视频事件分类系统，其中，所述编码模块通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上述中任一项所述的短视频事件分类方法。

本发明还提供一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述中任一项所述的短视频事件分类方法。

本发明相对于现有技术其有益效果在于：

本发明使用了在attention领域效果较好的transformer网络结构，并设计了每个事件需要关注的特征的指引向量，将指引向量与transformer结构进行了融合，既能够实现统一的标准化输入又能够学习到事件特征之间的相关关系，解决了由于事件长度不一带来的双重问题并提升了分类效果，同时基于本发明的深度学习技术也提升了计算机视觉能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的短视频事件分类方法的流程图；

图2为图1中步骤S3的分步骤流程图；

图3为本发明的短视频事件分类方法的框架示意图；

图4为本发明的短视频事件分类系统的结构示意图；

图5为本发明的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

事件分类，是指短视频场景下对于短视频中发生的内容进行结构分析，将整个短视频在时间的维度上进行“幕”的划分，每一幕作为一个事件，事件往往是多个镜头下，多个角度下，多个人物对话下的一系列的画面的组合。对于事件进行有效的分类可以更好的理解一个短视频中的内容，可以做到对内容更好的结构化方便进行更加个性化的视频推荐和广告推送工作。对于事件的分类往往有以下几个步骤，先是通过特征提取器提取视频的特征，然后将所有的特征送入事件检测器，检测出每个事件的起止时间，最后对于每一个事件进行分类。

多标签分类，多标签分类是分类问题的一个重要的子问题，多标签分类与普通分类的区别在于，普通的分类问题往往是一个N选1的问题，即有N个类别，判断目前的特征属于哪一个类别即可。但是对于多标签分类问题而言，这是一个N选M的问题，每一个类别都会有发生和不发生的可能性，而且各个类别之间是否发生可能还会存在一定的联系。

Transformer，是一种Attention的模型，最初的transformer应用于机器翻译领域，但随着视觉任务的变化，目前transformer也应用于计算机视觉领域，其强大的地方在于可以学习输入序列中的相关关系。

请参照图1-图3，图1为本发明的短视频事件分类方法的流程图；图2为图1中步骤S3的分步骤流程图；图3为本发明的短视频事件分类方法的框架示意图。如图1-图3所示，本发明依据transformer网络的注意力学习机制和事件分类的实际情况，通过指引向量将transformer网络和实际的事件分类问题进行了结合，从而保证了短视频事件的分类准确性，提升了分类效果，以下结合具体实施例进行说明。

本发明的短视频事件分类方法，基于Transformer网络对短视频中的事件进行分类，所述事件分类方法包括：

短视频处理步骤S1：对短视频进行预处理获得所述短视频的多个特征向量及所述短视频的每一事件的起止位置。

其中，在本步骤中，根据设定时间对所述短视频进行向量化处理获得多个所述特征向量，根据多个所述特征向量的编号确定每一所述事件的所述起止位置。

需要说明的是，在本实施例中，以设定时间为1S，多个特征向量为100个为较佳的实施方式，但本发明并不由此为限。

指引向量获取步骤S2：根据短视频的每一所述事件的起止位置获得对应所述事件的指引向量。

举例来说，在本步骤中，根据每一个事件的起止位置可以得到一个0-1值的100维向量，其中0表示此特征不属于本事件，1表示此特征属于本事件。如：事件A的开始为第20个特征对应的时间点，结束为第45个特征对应的事件点，则在此向量中从20-45个数值为1其他的数值为0。

分类步骤S3：根据所述指引向量及所述短视频的多个所述特征向量通过transformer网络进行特征学习后，输出对应每一所述事件的多标签分类结果。

其中，所述分类步骤S3包括：

编码步骤S31：通过所述Transformer网络对所述指引向量进行编码获得编码值，并根据所述编码值与多个所述特征向量进行计算获得多个特征；所述编码步骤S31包括：通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。

分类结果输出步骤S32：所述Transformer网络根据多个所述特征通过自身的注意力机制学习各个所述特征之间的关系，并输出特征学习后的所述多标签分类结果。

具体地说，将指引向量和整个事件的100个特征向量输入到网络中，在这一步实现了输入的标准化，每一个事件都会输入一个指引向量和100个特征向量，无论事件长度有长其输入不变只是对应的指引向量的值有差别，由此解决了无法进行统一的标准化输入的问题，训练时每次可以接受多个事件，从而降低了导致训练成本，使得本发明的适用性更强。同时，指引向量会通过一个线性编码层进行编码，编码后的值与100个特征向量进行相乘，相乘后的特征进入transformer网络中进行学习，Transformer网络接收到经过指引向量加工后的特征后，会通过自身的注意力机制学习各个特征之间的关系，并给出特征学习后的分类结果，由此实现了特征之间关系的学习，由此解决了无法学习特征间关系导致最后的分类结果不友好的问题。

请参照图4，图4为本发明的短视频事件分类系统的结构示意图。如图4所示，本发明的短视频事件分类系统基于Transformer网络对短视频中的事件进行分类，所事件分类系统包括：

短视频处理单元11，对短视频进行预处理获得所述短视频的多个特征向量及所述短视频的每一事件的起止位置；

指引向量获取单元12，根据短视频的每一所述事件的起止位置获得对应所述事件的指引向量；

分类单元13，根据所述指引向量及所述短视频的多个所述特征向量通过transformer网络进行特征学习后，输出对应每一所述事件的多标签分类结果。

进一步地，所述短视频处理单元11根据设定时间对所述短视频进行向量化处理获得多个所述特征向量，根据多个所述特征向量的编号确定每一所述事件的所述起止位置。

再进一步地，所述分类单元13包括：

编码模块131，通过所述Transformer网络对所述指引向量进行编码获得编码值，并根据所述编码值与多个所述特征向量进行计算获得多个特征；

分类结果输出模块132，所述Transformer网络根据多个所述特征通过自身的注意力机制学习各个所述特征之间的关系，并输出特征学习后的所述多标签分类结果。

其中，所述编码模块131通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。

请参照图5，图4为本发明的电子设备的结构示意图。如图5所示，本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种短视频事件分类方法。

在其中一些实施例中，电子设备还可包括通信接口83和总线80。其中，如图5所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种短视频事件分类方法。

综上所述，本发明依据transformer网络的注意力学习机制和事件分类的实际情况，通过指引向量将transformer网络和实际的事件分类问题进行了结合，从而保证了短视频事件的分类准确性，提升了分类效果。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种短视频事件分类方法，其特征在于，基于Transformer网络对短视频中的事件进行分类，所述事件分类方法包括：

2.如权利要求1所述的短视频事件分类方法，其特征在于，所述短视频处理步骤包括：根据设定时间对所述短视频进行向量化处理获得多个所述特征向量，根据多个所述特征向量的编号确定每一所述事件的所述起止位置。

3.如权利要求1所述的短视频事件分类方法，其特征在于，所述分类步骤包括：

4.如权利要求3所述的短视频事件分类方法，其特征在于，所述编码步骤包括：通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。

5.一种短视频事件分类系统，其特征在于，基于Transformer网络对短视频中的事件进行分类，所事件分类系统包括：

6.如权利要求5所述的短视频事件分类系统，其特征在于，所述短视频处理单元根据设定时间对所述短视频进行向量化处理获得多个所述特征向量，根据多个所述特征向量的编号确定每一所述事件的所述起止位置。

7.如权利要求5所述的短视频事件分类系统，其特征在于，所述分类单元包括：

8.如权利要求7所述的短视频事件分类系统，其特征在于，所述编码模块通过所述Transformer网络的线性编码层对所述指引向量进行编码获得所述编码值。

9.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的短视频事件分类方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至4中任一项所述的短视频事件分类方法。