CN110287789A

CN110287789A - 基于互联网数据的游戏视频分类方法以及系统

Info

Publication number: CN110287789A
Application number: CN201910434309.4A
Authority: CN
Inventors: 迟至真; 李甫; 何栋梁; 文石磊; 丁二锐; 周志超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-27

Abstract

本发明公开了基于互联网数据的游戏视频分类方法以及系统，该方法包括：对待分类视频进行抽帧处理，以得到抽取的视频帧；对所述抽取的视频帧进行特征提取；以及利用训练后的分类模型对所提取的特征进行处理，输出游戏名称，其中，所述分类模型是利用将从视频数据库中抽取的特征输入至NeXtVLAD算法模型中、对特征的信道加入attention机制、然后进行训练所得。该方法克服现有技术中的游戏视频分类的准确度低的问题。

Description

基于互联网数据的游戏视频分类方法以及系统

技术领域

本发明涉及视频分类技术领域，具体地，涉及一种基于互联网数据的游戏视频分类方法以及系统。

背景技术

“抖音”这些视频APP下的用户视频，需要在上传或者入库时为其打上类别标签，我们针对游戏这个子类别，为其输入具体游戏名的标签。视频分类技术，即通过分析、理解视频的图像特征、视频语音或者用户弹幕等信息，为视频输出具体的类别信息，譬如“王者荣耀”、“绝地求生”等游戏名；同时，可以输出不同视频的特征向量，通过该技术，可以解决相似视频去重的问题，禁止重复视频反复出现，可以防止视频搜索时给出重复的结果，影响用户体验。

现有技术中在对游戏名称进行判断时，是通过用户标签这种方式会将主动权放到用户手上，很容易因为用户对视频标签的理解有误引入大量的错误标签；而且，这种方式也很容易受到攻击，比如说有用户故意上传错误视频，会严重影响我们线上的搜索/推荐视频结果；同样地，视频标题也会有这样的问题，现阶段网络上大家都希望通过标题这种方式吸引用户，这势必会导致视频内容和标题的不一致性，通过关键字来吸引用户这样的案例比比皆是。以上的这些情况会导致视频分类准确率严重降低，还消耗大量的人力成本进行过滤，且图片级的分类模型的鲁班性上也会欠缺一些，由于没有引入时间维度的信息，会对视频内容的理解上存在一些偏差，也会导致准确率下降。

因此，提供一种在使用过程中，通过自适应的神经网络去拟合视频的结果，通过视频内容的特征进行分类，从而保证分类准确率，也可以节省入库成本，过滤一些不必要的视频的基于互联网小视频数据的游戏视频分类方法和系统是本发明亟需解决的问题。

发明内容

针对上述技术问题，本发明的目的是克服现有技术中的游戏视频分类的准确度低的问题，从而提供一种在使用过程中，通过自适应的神经网络去拟合视频的结果，通过视频内容的特征进行分类，从而保证分类准确率，也可以节省入库成本，过滤一些不必要的视频的基于互联网小视频数据的游戏视频分类方法和系统。

为了实现上述目的，本发明提供了一种基于互联网数据的游戏视频分类方法，所述游戏视频分类方法包括：

对待分类视频进行抽帧处理，以得到抽取的视频帧；

对所述抽取的视频帧进行特征提取；以及

利用训练后的分类模型对所提取的特征进行处理，输出游戏名称，其中，所述分类模型是利用将从视频数据库中抽取的特征输入至NeXtVLAD算法模型中、对特征的信道加入attention机制、然后进行训练所得。

优选地，所述特征提取是通过基础模型执行的，其中所述基础模型是针对视频数据库中抽取的视频帧、利用时序分段网络算法训练所得。

优选地，所述基础模型的参数通过反向传导算法而被优化。

优选地，所述NeXtVLAD算法模型是通过所述视频数据库中抽取的视频特征和音频特征两路特征数据输入而被训练的。

优选地，所述基础模型和所述分类模型都是通过卷积神经网络算法而训练的。

优选地，所述抽帧处理为均匀抽帧处理。

本发明还提供了一种基于互联网数据的游戏视频分类系统，所述分类系统包括：抽帧处理模块、特征提取模块以及分类模块；其中，

所述抽帧处理模块被配置于对待分类视频进行抽帧处理，以得到抽取的视频帧；

所述特征提取模块被配置于对所述抽取的视频帧进行特征提取；以及

所述分类模块被配置于利用分类模型对所提取的特征进行处理，输出游戏名称，

其中所述分类模型是利用将从视频数据库中抽取的特征输入至NeXtVLAD算法模型中、在对特征的信道加入attention机制、然后进行训练所得。

优选地，所述特征提取模块被配置于利用基础模型对所述抽帧处理模块抽取的视频帧进行特征提取，其中所述基础模型是针对视频数据库中抽取的视频帧、利用时序分段网络算法训练所得。

优选地，所述基础模型的参数通过反向传导算法而被优化。

优选地，所述基础模型和所述分类模型都是通过卷积神经网络算法进行训练。

优选地，所述抽帧处理为均匀抽帧处理。

本发明还提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述基于互联网小视频数据的游戏视频分类方法。

根据上述技术方案，本发明提供的基于互联网数据的游戏视频分类方法在使用时，首先对待分类视频进行抽帧处理，以得到抽取的视频帧；然后对所述抽取的视频帧进行特征提取，最后利用分类模型对所提取的特征进行处理，直接输出游戏名称。其中，本发明中利用的所述分类模型是提高分类准确度的关键之处，它是利用将从视频数据库中抽取的特征输入至NeXtVLAD算法模型中、对特征的信道加入attention机制、然后进行训练所得。该模型可以直接准确地输出游戏名，无需一些繁琐的后处理策略，节省入库成本，过滤一些不必要的视频。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明的一种优选的实施方式中提供的基于互联网数据的游戏视频分类方法的流程框图；

图2是本发明的一种优选的实施方式中提供的基于互联网数据的基于互联网数据的游戏视频分类系统的结构示意图；

图3是本发明的一种优选的实施方式中提供的基于互联网数据的游戏视频分类方法中NeXtVLAD算法模型的训练原理图；

图4是本发明的一种优选的实施方式中提供的基于互联网数据的游戏视频分类方法中时序分段网络算法模型的训练原理图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

以下首先详细描述根据本发明的游戏视频分类方法。如图1所示，本发明提供了一种基于互联网数据的游戏视频分类方法，所述游戏视频分类方法包括：

对待分类视频进行抽帧处理，以得到抽取的视频帧；

对所述抽取的视频帧进行特征提取；以及

在上述方案中，训练所得的分类模型是本发明对视频进行分类的关键所在，针对所述分类模型，其训练的视频资源来自百度内部构建的的3k+标签，500w视频的视频库，提取所述视频库中的视频，将特征送到游戏分类模型中，对视频进行抽帧处理，其中，在视频库中提取视频进行训练的时候，我们采用相同的抽帧和提取特征策略，然后对所述抽取的视频帧进行特征提取，然后利用分类模型进行训练学习，所述分类模型是基于NeXtVLAD算法模型所得。当然在利用训练还的分类模型进行视频分类使用时，其对待分类的视频进行抽帧和提取特征时，使用的策略和上述使用的策略相同。

本发明中就NeXtVLAD算法而言，它是在NetVLAD算法模型的基础上进行优化所得，而NetVLAD算法模型的一大缺点在于编码后得到的特征维度太高了；

我们将获取到的视频特征和音频特征作为两路输入NeXtVLAD模型中，对特征的信道加入attention机制，保证不同特征对不同类别有更好的区分性，流程图如图3所示：将待分类的视频数据分成视频特征和音频特征分别进行分别，所述视频特征先对图像做白化处理，然后利用NeXtVLAD算法模型处理获得视频NeXtVLAD特征和音频NeXtVLAD特征，再将两路特征融合在一起依次进行参数稀疏化、完全连阶、非线性计算以及分类处理；

其基本思想是在NetVLAD聚合基础上，在时间维度上将高维特征分解为一组相对低维的向量并引入注意力机制，这种模型在时间复杂度和空间复杂度上都有降低，实验结果表明是有效的。

在本发明的一种优选的实施方式中，所述特征提取是通过基础模型执行的，其中所述基础模型是针对视频数据库中抽取的视频帧、利用时序分段网络算法训练所得，所述基础模型主要是对抽取的视频帧进行特征提取，然后将它抽取的视频帧数据输入至所述分类模型中进行处理，也可以说在对分类模型进行训练时，其输入就是来自于所述基础模型的输出；其中，由所述基础模型提取的视频特征可以更加准备地反映出视频的属性(视频内容)，从而有效地提高视频分类的准确性。

在上述方案中，所述基础模型训练的视频资源也是来自于百度内部构建的的3k+标签，500w视频的视频库；

在本发明中，就时序分段网络算法(TSN)而言：如图4所示，将一个输入的视频分为N片段，然后在这N片段中随机采样，为了保证整个视频级别的输入，我们尽可能均匀采样，保证可以得到整个视频的特征。

具体来说，给定一段视频V，将其等间隔分为K段{S1,S2,S3,…,SK}，随后模型按照以下公式进行建模：

TSN(T₁,₂,…T_K)＝H(g(F(T₁；W),F(T₂；W),…,F(T_K；W)))；

其中，F(T_K；W)是表示具有参数W的卷积神经网络的函数，它对短片段T_K起作用，并在所有类生成类分数；分段共识函数g组合了来自多个短片段的输出，以达到他们之间的类别假设的共识，基于这个共识，预测函数H预测整个视频中每个动作类的概率。

在得到每帧特征后，由于TSN是可微的，通过反向传导来优化上述模型参数，其中，损失函数如下：

其中，C是动作类的数量，y_i是关于类i的标定好的真实数据的标签，G_j是G的第j个维度。

TSN通过多模态来提升分类能力，将RGB图像作为空间卷积网络，光流场作为时间流卷积网络，单一的RGB图像提供某个时间的静态信息，但缺乏上下文信息；光流场提供前后帧的时序信息，本发明将两者结合在一起来对视频数据进行处理，有效地提高了视频特征提取的准确性，从而间接地来提升分类能力，在日常的相关实验结果也表明RGB图像与光流场二者结合后的效果最佳。

在本发明的一种优选的实施方式中，所述抽帧处理为均匀抽帧处理，保证每隔几个片段有视频帧被抽到，保证时间维度涵盖整个视频，这样也进一步提高了视频分类的准确度。举个例子而言，一个待分类的视频被分成1000个片段，可以规定每隔4个片段进行抽帧处理，则可以抽出200个视频帧。，这个抽帧的策略需要贯穿这个方法中，是的所有的视频抽帧策略或者视频特征提取策略都相同。

以下首先详细描述根据本发明的游戏视频分类系统，如图2所示，本发明还提供了一种基于互联网数据的游戏视频分类系统，所述分类系统包括：抽帧处理模块、特征提取模块以及分类模块；其中，

根据上述技术方案，本发明提供的基于互联网数据的游戏视频分类系统在使用时，首先所述抽帧处理模块对待分类视频进行抽帧处理，以得到抽取的视频帧；然后所述特征提取模块对所述抽取的视频帧进行特征提取，最后利用分类模型对所提取的特征进行处理，直接输出游戏名称。其中，本发明中利用的所述分类模型是提高分类准确度的关键之处，它是利用将从视频数据库中抽取的特征输入至NeXtVLAD算法模型中、对特征的信道加入attention机制、然后进行训练所得。该模型可以直接准确地输出游戏名，无需一些繁琐的后处理策略，节省入库成本，过滤一些不必要的视频。

在本发明的一种优选的实施方式中，所述特征提取模块被配置于利用基础模型对所述抽帧处理模块抽取的视频帧进行特征提取，其中所述基础模型是针对视频数据库中抽取的视频帧、利用时序分段网络算法训练所得。

所述基础模型主要是对抽取的视频帧进行特征提取，然后将它抽取的视频帧数据输入至所述分类模型中进行处理；其中，由所述基础模型提取的视频特征可以更加准备地反映出视频的属性(视频内容)，从而有效地提高视频分类的准确性。

TSN(T₁,T₂,…T_K)＝H(g(F(T₁；W),F(T₂；W),…,F(T_K；W)))；

本发明还提供了一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述任一项权利要求1-6所述的基于互联网小视频数据的游戏视频分类方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于互联网数据的游戏视频分类方法，其特征在于，所述游戏视频分类方法包括：

对待分类视频进行抽帧处理，以得到抽取的视频帧；

对所述抽取的视频帧进行特征提取；以及

2.根据权利要求1所述的基于互联网数据的游戏视频分类方法，其特征在于，所述特征提取是通过基础模型执行的，其中所述基础模型是针对视频数据库中抽取的视频帧、利用时序分段网络算法训练所得。

3.根据权利要求2所述的基于互联网数据的游戏视频分类方法，其特征在于，所述基础模型的参数通过反向传导算法而被优化。

4.根据权利要求1所述的基于互联网数据的游戏视频分类方法，其特征在于，所述NeXtVLAD算法模型是通过所述视频数据库中抽取的视频特征和音频特征两路特征数据输入而被训练的。

5.根据权利要求2所述的基于互联网数据的游戏视频分类方法，其特征在于，所述基础模型和所述分类模型都是通过卷积神经网络算法而训练的。

6.根据权利要求1所述的基于互联网数据的游戏视频分类方法，其特征在于，所述抽帧处理为均匀抽帧处理。

7.一种基于互联网数据的游戏视频分类系统，其特征在于，所述分类系统包括：抽帧处理模块、特征提取模块以及分类模块；其中，

8.根据权利要求7所述的基于互联网数据的游戏视频分类系统，其特征在于，所述特征提取模块被配置于利用基础模型对所述抽帧处理模块抽取的视频帧进行特征提取，其中所述基础模型是针对视频数据库中抽取的视频帧、利用时序分段网络算法训练所得。

9.根据权利要求8所述的基于互联网数据的游戏视频分类系统，其特征在于，所述基础模型的参数通过反向传导算法而被优化。

10.根据权利要求7所述的基于互联网数据的游戏视频分类系统，其特征在于，所述NeXtVLAD算法模型是通过所述视频数据库中抽取的视频特征和音频特征两路特征数据输入而被训练的。

11.根据权利要求8所述的基于互联网数据的游戏视频分类系统，其特征在于，所述基础模型和所述分类模型都是通过卷积神经网络算法进行训练。

12.根据权利要求7所述的基于互联网数据的游戏视频分类系统，其特征在于，所述抽帧处理为均匀抽帧处理。

13.一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行本申请上述任一项权利要求1-6所述的基于互联网小视频数据的游戏视频分类方法。