CN111274995A

CN111274995A - 视频分类方法、装置、设备和计算机可读存储介质

Info

Publication number: CN111274995A
Application number: CN202010091321.2A
Authority: CN
Inventors: 陈观钦; 陈远; 王摘星; 陈斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-12
Anticipated expiration: 2040-02-13
Also published as: CN111274995B

Abstract

本申请涉及一种视频分类方法、装置、设备和计算机可读存储介质，包括：获取待分类视频的至少两个关键帧图片段；根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量；根据全局待分类语义向量，获取待分类视频的预测概率；预测概率用于确定待分类视频的分类结果。采用本方法，可有效提高视频分类的准确率。

Description

视频分类方法、装置、设备和计算机可读存储介质

技术领域

本申请涉及计算机视觉领域，特别是涉及一种视频分类方法、装置、设备和计算机可读存储介质。

背景技术

随着科技的不断发展与进步，各式各样的短视频开始大量涌现。面对数量庞大且内容丰富的各类短视频，采用人工智能与计算机视觉技术的结合实现对视频的识别分类，已成为当前各行视频分类业务的主流技术。

传统的视频分类方法主要包括两大类：一类是完全使用卷积结构的特征提取网络实现对视频的分类，另一类是结合卷积结构与循环结构的特征提取网络实现对视频的分类。然而在实际应用中，这两类方法均存在视频特征提取不够充分，以致最终所得视频分类结果准确率不高。

因此，现有的视频分类方法存在视频分类准确率不高的问题。

发明内容

基于此，有必要针对现有技术中视频分类方法存在视频分类准确率不高的技术问题，提供一种视频分类方法、装置、设备和计算机可读存储介质。

一方面，本发明实施例提供一种视频分类方法，包括：获取待分类视频的至少两个关键帧图片段；根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量；根据全局待分类语义向量，获取待分类视频的预测概率；预测概率用于确定待分类视频的分类结果。

另一方面，本发明实施例提供一种视频分类方法，包括：获取待分类游戏视频的至少两个关键帧图片段；根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；将至少两个的片段语义向量进行双向关联融合，得到待分类游戏视频的全局待分类语义向量；根据全局待分类语义向量，获取待分类游戏视频的异常可疑预测概率；异常可疑预测概率用于确定待分类游戏视频的分类结果；分类结果包括异常游戏视频和正常游戏视频。

另一方面，本发明实施例提供一种视频分类装置，包括：视频片段获取模块，用于获取待分类视频的至少两个关键帧图片段；片段向量获取模块，用于根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；全局待分类向量获取模块，用于将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量；视频分类模块，用于根据全局待分类语义向量，获取待分类视频的预测概率；预测概率用于确定待分类视频的分类结果。

另一方面，本发明实施例提供一种视频分类装置，包括：游戏视频片段获取模块，用于获取待分类游戏视频的至少两个关键帧图片段；游戏片段向量获取模块，用于根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；游戏全局待分类向量获取模块，用于将至少两个的片段语义向量进行双向关联融合，得到待分类游戏视频的全局待分类语义向量；游戏视频分类模块，用于根据全局待分类语义向量，获取待分类游戏视频的异常可疑预测概率；异常可疑预测概率用于确定待分类游戏视频的分类结果；分类结果包括异常游戏视频和正常游戏视频。

又一方面，本发明实施例提供一种视频分类设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取待分类视频的至少两个关键帧图片段；根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量；根据全局待分类语义向量，获取待分类视频的预测概率；预测概率用于确定待分类视频的分类结果。

再一方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取待分类视频的至少两个关键帧图片段；根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量；根据全局待分类语义向量，获取待分类视频的预测概率；预测概率用于确定待分类视频的分类结果。

上述视频分类方法、装置、设备和计算机可读存储介质，通过获取待分类视频中至少两个关键帧图片段的时空信息，可进一步解析得到各关键帧图片段对应的片段语义向量，进而将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量，最后根据全局待分类语义向量获取待分类视频的预测概率，该预测概率可用于进一步确定待分类视频的分类结果。采用本方法，不仅可提高视频分类的准确率，获得更精确的分类结果，还可应用于其他领域帮助提升视频分析效率。

附图说明

图1为一个实施例中视频分类方法的应用环境图；

图2为一个实施例中视频分类设备的结构框图；

图3为一个实施例中视频分类方法的流程示意图；

图4为一个实施例中关键帧图片段获取步骤的流程示意图；

图5为一个实施例中目标视频帧图片段确定步骤的流程示意图；

图6为一个实施例中关键帧图片段确定步骤的流程示意图；

图7为一个具体实施例中关键帧图片段获取步骤的流程示意图；

图8为一个实施例中片段语义向量获取步骤的流程示意图；

图9为另一个实施例中片段语义向量获取步骤的流程示意图；

图10为一个实施例中单片段特征提取网络模型的结构示意图；

图11为一个实施例中全局待分类语义向量获取步骤的流程示意图；

图12为另一个实施例中全局待分类语义向量获取步骤的流程示意图；

图13为一个实施例中多片段视频分类网络模型的结构示意图；

图14为另一个实施例中视频分类方法的流程示意图；

图15为一个实施例中视频分类装置的结构框图；

图16为另一个实施例中视频分类装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先需要说明的是，本发明实施例所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

其次需要说明的是，本申请所运用的计算机视觉技术(Computer Vision，CV)，是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

最后需要说明的是，本申请所运用的机器学习技术(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

利用上述计算机视觉技术与机器学习技术，能够有效提高视频分类技术的准确性。因此，本申请提出结合计算机视觉技术与机器学习技术，设计一种性能优良的视频分类模型，基于该视频分类模型的应用将对整个视频分类的问题转变为对视频中多片段关键帧图分类的问题，即从视频中单个片段的特征提取出发，深入至多片段特征的融合，最终融合成具有整个视频语义信息的向量再行分类处理，可大大提高视频分类技术的准确性。

还需说明的是，本申请所提出的视频分类方法，不仅可应用于视频检测、识别和分类等技术领域，例如安全、涉黄、游戏等领域中对异常情况的检测识别，还可应用于视频推荐领域，例如将分析所得异常指数过高的视频优先推荐至人工审核，以加快人工审核效率、节省人力成本。

图1为一个实施例中视频分类方法的应用环境图。参照图1，该视频分类方法应用于视频分类系统，或视频推荐系统，系统结构包括：终端102和服务器104，两者之间通过网络进行通信。其中，终端102可用于获取待审核推荐或是待分类的视频，并将该视频通过网络发送至服务器104进行分析处理；服务器104中包括有数据库1042和处理引擎1044，数据库1042用于存储终端102发送的视频，处理引擎1044用于分析处理视频数据。同时，本申请提出结合计算机视觉技术与机器学习技术所设计的视频分类模型，可装载于服务器104中，由处理引擎1044基于该模型结构控制处理待审核推荐或是待分类的视频。

此外，上述终端102具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种；服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，且服务器104可以是本地服务器或远程服务器；终端102与服务器104之间的通信媒介-网络包含但不限于：广域网、城域网或局域网。

图2示出了一个实施例中视频分类设备的内部结构图。该视频分类设备具体可以是图1中的服务器104。如图2所示，该视频分类设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该视频分类设备的处理器用于提供计算和控制能力。该视频分类设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该视频分类设备的数据库用于存储视频数据。该视频分类设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频分类方法。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的视频分类设备的限定，具体的视频分类设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提供了一种视频分类方法。本实施例主要以该方法应用于上述图1中的服务器104来举例说明。参照图3，该视频分类方法具体包括如下步骤：

S302，获取待分类视频的至少两个关键帧图片段。

其中，待分类视频可以是指包含有待分类信息的视频数据，例如，包含有新闻事件、才艺演出、监控实景或游戏画面等内容，且需进行按需分类的视频。

其中，关键帧图可以是指具有关键图像信息(图像定位信息)的图片，例如，安全监控视频中具有火光、气液泄露、烟雾等关键图像信息的一帧或多帧图片，又例如，游戏视频中具有玩家击杀敌人、玩家通关、玩家获取收益等关键图像信息的一帧或多帧图片。其中的关键图像信息由视频分类业务需求确定。

其中，关键帧图片段可以是指由多帧关键帧图所构成的序列(片段)。

具体地，待分类视频的关键帧图片段可分别通过视频切图(抽帧)、关键图像信息识别、隔帧采样图片构成序列以及各序列中基于图片关键区域的裁剪等操作，从待分类视频中逐帧分析获取，且一个待分类视频可拆分得到至少两个的关键帧图片段。

更具体地，视频切图(抽帧)操作可利用图像处理工具来实现，如OpenCV或ffmpeg等工具，并按照预设的抽帧频率、抽帧数量进行处理；关键图像信息识别操作可通过图像识别技术来实现，如利用多层CNN(卷积神经网络)图片分类模型识别待分类视频中的每一帧图片是否具有关键图像信息；隔帧采样图片构成序列操作，可以是针对具有关键图像信息的图片，采取隔帧采样(或相邻帧采样)的方式进行前后扩展，从而获取更长时间的图片序列(片段)；各序列中基于图片关键区域的裁剪操作，可以是针对各个序列(片段)中的每帧图片，以图片中心为圆心并按照预设关键区域剪裁，提取不同尺寸比例的关键帧图片后构成关键帧图片段的方式来实现，其作用在于可减少信息冗余和噪声。

需要说明的是，在实际应用中，用于确定关键帧图片段的关键图像信息可设置一个或多个，由视频分类需求或业务数据特点确定。同时，针对同一序列(片段)中的各帧图片，关键区域的裁剪比例需一致，而不同序列(片段)的图片裁剪关键区域比例可不同，且裁剪范围可按原始图片的一定比例进行处理，如按原图比例的1/5、1/4、1/2等，同样可依据不同的业务需求和业务数据特点来确定。

S304，根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量。

其中，时空信息可以是指同时具有时间维度和空间维度的短时浅层时空信息(也可称为时空特征)，而时间维度是以时间作为描述、表达变量的度量尺度，空间维度是以三维空间坐标作为描述、表达变量的度量尺度。

其中，片段语义向量可以是指融合有时空信息的低维度向量，该向量由特征矩阵组成，例如，具有丰富语义的64维度特征向量。

具体地，一个关键帧图片段对应存在一个片段语义向量，而片段语义向量可通过本申请所设计的网络模型来实现获取，该网络模型主要基于对各类自适应网络模型的运用，以实现对关键帧图片段的特征提取和特征融合，即针对待分类视频中的至少两个关键帧图片段，通过特征提取机器模型可分别获取各个关键帧图片段在时间维度和空间维度上的时空信息，利用该时空信息(时空特征)做进一步的特征映射和维度转换处理，可实现对各个关键帧图片段的时空重要特征充分挖掘，最终得到语义丰富且维度低的片段语义向量。

S306，将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量。

其中，双向关联融合可以是指针对至少两个的片段语义向量，从第一方向和第二方向上挖掘其相邻片段语义向量之间的内在关联信息后，对内在关联信息进行有效融合的处理方式，例如，针对至少两个的片段语义向量序列，从正向(前向)及反向(后向)分别获取其内在关联信息并进行信息融合处理。采用双向关联融合处理片段语义向量，能够更加充分地获取到各个关键帧图片段的重要信息，进而基于各类重要信息得以实现视频分类准确率的有效提高。

其中，全局待分类语义向量可以是指包含待分类视频整体语义信息的待分类特征向量。

具体地，全局待分类语义向量同样可通过本申请所设计的网络模型来实现获取，但其与获取片段语义向量的主要区别在于全局待分类语义向量是基于对片段语义向量的深入特征挖掘与融合所得，即需通过Bi-LSTM(Bi-directional Long Short-Term Memory，双向长短期记忆网络)网络模型与多头注意力机制(Multi-Head self-Attention)的结合，从多种特性更充分地挖掘各个片段的权重，最终融合成整个视频的语义信息，进而做分类。

S308，根据全局待分类语义向量，获取待分类视频的预测概率；预测概率用于确定待分类视频的分类结果。

其中，预测概率可以是基于关键图像信息确定待分类视频分类结果的可靠性预测概率，例如，若关键图像信息设置为游戏视频中的玩家击杀敌人行为信息，则预测概率可以是游戏视频中玩家击杀敌人时启用外挂的预测概率。

具体地，获取待分类视频的预测概率可以是基于已训练视频分类模型中的全连接分类层，结合softmax分析全局待分类语义向量，进而输出有关待分类视频的预测概率，同时为了避免在计算过程中出现过拟合现象，对全连接层的权重参数加了L2正则化，通过具有L2正则化的全连接分类层将全局待分类语义向量转换为二维输出，以获取该待分类视频中确定存在关键图像信息的预测概率。

更具体地，预测概率的取值范围可以是0-1之间，也可以是以百分比的形式存在，而根据预测概率确定待分类视频分类结果的方式，可以是通过预设概率阈值的方式来判定待分类视频的分类结果，同时，分类结果的划分可依据实际需求限定，如二分类结果、五分类结果等。

需要说明的是，上述视频分类方法中所涉及的网络模型，均为针对本申请所提视频分类方案而设计的自适应性网络模型，即针对视频分类不同环节所需获取的对象特性而设计，不仅有利于对各类特征的充分提取，还有效控制了模型的参数体量，并非是简单的模型组合，因此，其在本申请中所起作用是本领域技术人员意想不到的。

本实施例中，通过获取待分类视频中至少两个关键帧图片段的时空信息，可进一步解析得到各关键帧图片段对应的片段语义向量，进而将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量，最后根据全局待分类语义向量获取待分类视频的预测概率，该预测概率可用于进一步确定待分类视频的分类结果。采用本方法，不仅可提高视频分类的准确率，获得更精确的分类结果，还可应用于其他领域帮助提升视频分析效率。

如图4所示，在一个实施例中，步骤S302中获取待分类视频的至少两个关键帧图片段，具体包括如下步骤：

S3022，获取待分类视频。

具体地，待分类视频可通过终端102上所运行的业务应用实时获取，或根据业务需求向终端102发送视频获取请求来获取。

S3024，对待分类视频进行抽帧，得到至少两个的待分类视频帧图。

其中，待分类视频帧图可以是待分类视频的图像帧。

具体地，视频的分类识别主要在于对视频中每帧图像所出现特征信息的检测识别，因此需将待分类视频进行抽帧处理，即通过OpenCV或ffmpeg等工具抽取待分类视频帧图，将待分类视频帧图作为后续处理依据进一步识别处理。

S3026，基于预设的图像定位信息，分别对待分类视频帧图进行图像识别，确定目标视频帧图片段；目标视频帧图片段为具有图像定位信息的待分类视频帧图的扩展片段。

其中，图像定位信息可以是上述实施例中所提及的关键图像信息，由视频分类业务需求确定，例如，安全监控视频中待识别的火光、气液泄露、烟雾等信息，又例如，游戏视频中待识别的玩家击杀敌人、玩家通关、玩家获取收益等信息。

其中，目标视频帧图片段可以是指具有图像定位信息的待分类视频帧图的扩展片段，扩展方式可采用针对待分类视频帧图分别进行前N帧和后M帧的隔帧采样方式。

具体地，在获取待分类视频的至少两个关键帧图片段之前，不仅需首先对待分类视频进行抽帧切图处理，还需进一步利用预设的图像定位信息，初步识别获取具有该图像定位信息的目标视频帧图片段。

S3028，根据目标视频帧图片段，确定待分类视频的至少两个关键帧图片段。

具体地，根据目标视频帧图片段确定待分类视频的关键帧图片段的操作，可以是针对目标视频帧图片段中的每帧图片，按照预设的帧图关键区域比例进行图片区域裁剪(按比例提取)的方式来获取至少两个的关键帧图片段。

本实施例中，通过识别具有图像定位信息的待分类视频帧图的扩展片段来获取目标视频帧图片段，不仅有利于后续对视频特征的充分提取、提高视频分类的准确率。

如图5所示，在一个实施例中，步骤S3026中基于预设的图像定位信息，分别对待分类视频帧图进行图像识别，确定目标视频帧图片段；目标视频帧图片段为具有图像定位信息的待分类视频帧图的扩展片段，具体包括如下步骤：

S30262，基于预设的图像定位信息，分别对待分类视频帧图进行图像识别。

S30264，在至少两个的待分类视频帧图中，确定具有图像定位信息的待分类视频帧图，作为目标视频帧图。

S30266，获取与目标视频帧图相邻或间隔的N个视频帧图，组合得到目标视频帧图片段；其中N为大于1的正整数。

具体地，由于对待分类视频进行切图抽帧处理后，将得到至少两个的待分类视频帧图，因此可基于预设的图像定位信息对待分类视频帧图逐个进行图像识别，以便在至少两个的待分类视频帧图中确定具有图像定位信息的待分类视频帧图作为目标视频帧图，进而以该目标视频帧图作为基准进行前后帧图扩展，扩展方式可以是隔帧采样拓展，也可以是相邻帧采样扩展，最终将扩展所得图片与目标视频帧图组合构成目标视频帧图片段。

例如，在游戏视频中，预设的图像定位信息为玩家击杀敌人这一行为图像信息，则针对抽帧后的待分类游戏视频帧图，需进一步逐个对待分类游戏视频帧图进行识别，识别判断每一帧图中是否包含图像定位信息，即识别每一帧图中是否包含玩家击杀敌人这一行为的图像信息，若包含则可作为目标视频帧图，进一步基于该目标视频帧图进行前后扩展采样，构成目标视频帧图片段。

本实施例中，采用相邻帧或隔帧采样方式获取目标视频帧图片段，不仅可进一步分析获取较长时段帧图关系，有利于后续对视频特征的充分提取，还可提高视频分类的准确率。

如图6所示，在一个实施例中，步骤S3028中根据目标视频帧图片段，确定待分类视频的至少两个关键帧图片段，具体包括如下步骤：

S30282，确定预设的帧图关键区域比例，以及，确定目标视频帧图片段中视频帧图的帧图中心坐标。

其中，帧图关键区域比例可以是指针对目标视频帧图片段中视频帧图作背景或噪声切除的图像区域比例，例如，原图比例的1/5、1/4、1/2等。

其中，帧图中心坐标可以是指目标视频帧图片段中视频帧图的图片中心。

具体地，由于经过关键图片信息识别后所确定目标视频帧图片段的每帧视频帧图均可能存在很多冗余背景，影响后续图像处理的判断，因此需对其做进一步关键区域的裁剪处理，且处理方式不直接将图像压缩为固定大小，而是裁剪关键区域部分，以便减少冗余和噪声。

S30284，基于帧图中心坐标，分别对目标视频帧图片段中至少两个的视频帧图按照帧图关键区域比例进行提取，得到至少两个关键帧图片段。

具体地，针对目标视频帧图片段中至少两个视频帧图的裁剪处理，可以是基于帧图中心坐标做同片段相同范围大小地裁剪，从而得到不同片段不同尺寸尺度的至少两个关键帧图片段。

本实施例中，通过获取不同尺寸范围的关键帧图片段分析视频类别，不仅有利于后续对视频特征的充分提取、提高视频分类的准确率，还有利于模型参数的优化。

如图7所示，为一个实施例中目标视频帧图片段确定步骤的流程示意图。参阅图7可见，在一个具体实施例中，关键帧图片段的获取方式分别为：(1)利用OpenCV对待分类视频进行视频切图(抽帧)之后可得到RGB图片帧；(2)将RGB图片帧基于预设的关键图像信息识别，以及图片关键区域裁剪，可得到具有关键图像信息的关键区域图片；(3)针对前序步骤得到的区域图，通过隔帧采样的方式构成序列，得到关键帧图片段。也即是说，对关键帧图片段进行切图抽帧之后，可以是顺序执行图像定位信息识别、帧图关键区域裁剪、帧图采样扩展的操作，也可以是顺序执行图像定位信息识别、帧图采样扩展、帧图关键区域裁剪的操作，帧图关键区域裁剪与帧图采样扩展两操作之间的前后执行顺序，可依据实际应用情况确定。

还需要说明的是，上述获取关键帧图片段的操作归于待分类视频的预处理操作，而待分类视频的预处理操与获取待分类视频预测概率的操作，可以是由不同的服务器处理实现，也即是说，在某些实施例中，待分类视频的预处理可由服务器集群中的服务器A处理或服务器A类集群处理，待分类视频的概率预测可由服务器集群中的服务器B处理或服务器B类集群处理，两部分处理环节可以是异步进行的，由此能够有利于提高待分类视频的预测效率。

如图8所示，在一个实施例中，步骤S304中根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量，具体包括如下步骤：

S3042，根据至少两个关键帧图片段在时间维度和空间维度上的时空信息，确定至少两个时空特征图。

具体地，获取关键帧图片段中至少两个关键帧图在时间维度和空间维度上的时空信息，可以是基于多次信息挖掘处理所获取，基于该时空信息的融合可分别确定关键帧图片段对应的时空特征图。其中，针对大尺寸的关键帧图片段不仅需要获取其时空信息，还需进行最大池化层操作，以便将其尺寸压缩一半，用以减少计算量并降低内存，节省计算资源，而针对小尺寸的关键帧图片段则无需池化操作。

S3044，将至少两个时空特征图的时空融合特征分别按照时间维度进行最大池化融合处理，得到至少两个多通道二维特征图。

具体地，上述步骤实际可包括：(1)分别获取至少两个时空特征图在至少两个通道中的时空融合特征，得到至少两个的多通道状态特征图；(2)分别将该多通道状态特征图按照时间维度进行最大池化处理，得到至少两个的全局时维池化特征图后，将全局时维池化特征图与多通道状态特征图进行拼接融合，得到多通道二维特征图。

更具体地，获取时空融合特征的方式可以是利用ConvLSTM网络计算获取，可进一步提取长时依赖的时空融合特征，同时也能够一定程度上保留空间位置信息。而对ConvLSTM网络的输出进行特征抽取，既可保留时序上的特征，又可保留片段中重要的位置及人物等特征，使得保留的特征更加丰富全面。同时，对上述两种特征做进一步的特征融合，主要包括两个方面：一是通道的重标定，用以减少冗余并加强重要特征；二是通道之间特征的组合，最终可得多通道二维特征图。

S3046，分别将至少两个多通道二维特征图进行卷积池化处理，得到至少两个关键帧图片段的片段语义向量。

具体地，针对多通道二维特征图的卷积操作以及池化操作，可通过多层标准的2DCNN网络实现卷积和池化操作，不仅对确保能够对空间结构的特征图进行更深层次的特征提取，还可将多通道二维特征图压缩为固定大小，且融合有时空信息的片段语义向量，作为后续网络的输入。

本实施例中，通过对视频单片段进行精细化的特征抽取，能够充分获取视频单片段的时空重要特征，得到语义丰富和抽象的片段语义向量，以致提高视频分类的准确率。

如图9所示，在一个实施例中，步骤S304中根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量，具体还包括如下步骤：

S30422，通过第一网络模型，分别获取至少两个关键帧图在时间维度和空间维度上的时空信息，得到至少两个时空特征图。

具体地，可参阅图10，为一个实施例中单片段特征提取网络模型的结构示意图，利用该模型中的多层3D CNN网络模块，可分别获取关键帧图片段在时间维度和空间维度上的时空信息，得到关键帧图片段的短时浅层时空信息，同时，其设置多层的3D CNN网络，有利于对时间重要特征的提取，若当前输入为小尺寸图片序列，为避免信息损失可不做图片大小和序列长度的压缩；若当前输入为大尺寸图片序列，需进行一次最大池化操作将图片大小压缩一半。

更具体地，对于包含10张图片且图片大小为100*100的关键帧图片段，可以首先通过3层3D CNN网络操作，前两层是大小为1*3*3的16个卷积核，第三层是大小为2*3*3的16个卷积核，从时间和空间两个维度同时挖掘相邻帧之间的联系和变化，然后通过窗口和步长都是1*2*2的最大池化操作，把特征图的大小缩减为50*50，得到10张大小为50*50的时空特征图。

S30442，通过第二网络模型和第三网络模型，将至少两个时空特征图的时空融合特征分别按照时间维度进行最大池化融合处理，得到至少两个多通道二维特征图。

具体地，上述步骤实际可包括：(1)通过第二网络模型，分别获取时空特征图在至少两个通道中的时空融合特征，得到至少两个的多通道状态特征图；(2)通过第三网络模型，分别将多通道状态特征图按照时间维度进行最大池化处理，得到至少两个的全局时维池化特征图，并将全局时维池化特征图与多通道状态特征图进行拼接融合，得到至少两个多通道二维特征图。

更具体地，上述步骤(1)的执行过程可参阅图10，利用该模型中的ConvLSTM网络模块，不仅能够进一步提取长时依赖的时空融合特征，同时也能够一定程度上保留空间位置信息。同时，针对上述10*50*50大小的时空特征图，由于ConvLSTM网络的参数设置是基于卷积核大小为3*3的24个ConvLSTM单元，因此该ConvLSTM网络的操作不改变输入特征图的大小，所以其每步的输出都是大小为50*50的24通道特征图。

更具体地，上述步骤(2)中，由于ConvLSTM网络设置有多个单元用以获取时空特征图在多通道中的信息，因此经过ConvLSTM网络模块的计算首先可得到对应单元数层的全局时维池化特征图，即每个时空特征图对应存在多个(单元数个)的RGB状态特征图，所有时空特征图对应的RGB状态特征图构成全局时维池化特征图。同时，将全局时维池化特征图与多通道状态特征图进行拼接融合，从而得到多通道二维特征图的操作，可以是首先取每一层的ConvLSTM最后输出状态，其着重表示时序依赖变化的特征，进而对最后一层ConvLSTM每一步输出的同比特征图沿时间维度做最大池化操作，得到全局时维池化特征图，其重表示同一空间位置的最大变化点特征。然后，把两种操作得到的特征图拼接起来，代表多维度信息的视频片段特征图。

此外，由于简单拼接并不能更好地突出哪些特征图更重要，而且存在一定的信息冗余。所以利用SE(Squeeze-and-Excitation)残差模块进一步融合各通道信息，即根据整体全局信息对各通道的权重做重标定，强化重要特征图的信息，降低冗余等特征图的权重，有利于后续特征的提取，更有利于视频分类结果的准确性。

需要说明的是，在本实施例中所利用的SE残差模块，其计算原理与现有SE残差网络计算原理不同，主要在于不包括“Inception”操作，本实施例中经过特征提取拼接融合后的输出是大小为50*50的48通道二维特征图。

S30462，通过第四网络模型，分别将至少两个多通道二维特征图进行卷积池化处理，得到至少两个关键帧图片段的片段语义向量。

具体地，针对前序步骤输入50*50的48通道二维特征图，首先通过两层的3*3卷积操作(卷积核数均为48)，再接上2*2的最大池化操作，其输出是大小为25*25的48通道二维特征图；然后通过一层64个卷积核的3*3卷积操作和最大池化操作，输出是大小为13*13的64通道二维特征图；同时，通过3层64个卷积核的2*2卷积操作和2*2的最大池化操作，其输出是大小为2*2的64通道二维特征图；最后，把所有二维特征图拉平拼接成256维的向量，即可得到片段语义向量。

本实施例中，通过引入本申请所提出的单片段特征提取网络模型分析待分类视频，可获取视频信息充分的片段语义向量，同时该单片段特征提取网络模型结构的总体参数量不大，需要的计算资源小，可进一步节省视频分析计算资源。

如图11所示，在一个实施例中，步骤S306中将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量，具体包括如下步骤：

S3062，将至少两个的片段语义向量进行特征映射和维度转换，得到至少两个低维片段语义向量。

具体地，针对当前所输入的片段语义向量做进一步的特征映射和维度转换处理，可得到低维度的片段语义向量，有利于后续进一步对特征向量的分析处理。

S3064，将至少两个低维片段语义向量分别在第一方向和第二方向上的关联特征进行拼接，得到至少两个拼接向量。

其中，第一方向可以是由至少两个低维片段语义向量所组成向量序列中的序列正向，第二方向可以是其序列反向。

具体地，可分别获取各低维片段语义向量在第一方向上的第一关联特征，以及，分别获取各低维片段语义向量在第二方向上的第二关联特征，进而将第一关联特征与第二关联特征进行拼接，从而得到至少两个的拼接向量。

更具体地，其中的第一关联特征与第二关联特征可通过Bi-LSTM双向长短期记忆网络分析获取，即分析获取各相邻低维片段语义向量在两个方向上的特征信息，如低维片段语义向量A至低维片段语义向量B的方向(序列正向)、低维片段语义向量B至低维片段语义向量A的方向(序列反向)，进而将第一关联特征与第二关联特征进行拼接，可得到至少两个拼接向量。

S3066，确定至少两个拼接向量的加权系数，并根据加权系数分别对至少两个拼接向量进行加权求和及拼接，得到全局待分类语义向量。

具体地，拼接向量的加权系数可通过以下公式计算得到：

a_i＝sof tmax(V_i tanh(W_iH^T))

其中，H表示拼接向量，W、V分别表示矩阵参数，a表示加权系数，i的取值范围由拼接向量的数量确定。

更具体地，利用上述公式计算得到拼接向量H的加权系数a之后，可进一步对加权向量H进行加权求和，进而得到加权向量P，加权向量P可通过下述公式计算：

更具体地，经过上述步骤获取得到加权向量后，为便于后续处理，可将至少两个的加权向量拼接合并成语义丰富的总特征向量，然后对总特征向量作进一步地融合和维度转换，以获取全局待分类语义向量，该全局待分类语义向量可作用于获取待分类视频的预测概率。

本实施例中，通过对多片段语义向量的特征融合，能够更充分地挖掘各个片段的重要性，最终融合成整个视频的语义信息，进而提高视频分类准确率。

如图12所示，在一个实施例中，步骤S306中将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量，具体还包括如下步骤：

S30622，通过第五网络模型，将至少两个的片段语义向量进行特征映射和维度转换，得到至少两个低维片段语义向量。

具体地，可参阅图13，为一个实施例中多片段视频分类网络模型的结构示意图，利用该模型中的DNN卷积网络全连接层，可对当前所输入的片段语义向量做进一步的特征映射和维度转换处理，可得到低维度的片段语义向量，有利于后续进一步对特征向量的分析处理。

更具体地，该全连接层的单元数是64、激活函数(也称非线性函数)是Relu，为了避免过拟合，可同时对输出向量使用保留率为0.6的Drop out操作，以便将256维的片段语义向量处理得到64维度的片段语义向量，即低维片段语义向量。

S30642，通过第六网络模型，将至少两个低维片段语义向量分别在第一方向和第二方向上的关联特征进行拼接，得到至少两个拼接向量。

具体地，参阅图13，可利用该模型中的Bi-LSTM网络获取拼接向量，即首先使用基于64个LSTM单元的单层双向循环网络，获取低维片段语义向量的双向关联信息，其中的LSTM单元用0.6的dropout保留概率，然后把Bi-LSTM的输出向量做拼接，即可得到不同低维片段语义向量所对应的128维拼接向量。

S30662，通过第七网络模型和第八网络模型，确定至少两个拼接向量的加权系数，并根据加权系数分别对至少两个拼接向量进行加权求和及拼接，得到全局待分类语义向量。

具体地，可参阅图13，可利用该模型中的多头注意力网络(Multi-Head self-Attention)对Bi-LSTM网络输出的拼接向量H做多次的加权求和，以加强全局或局部作弊片段的权重后可获取多个加权向量用以后续拼接等处理，而其加权求和过程中所使用到的加权系数a₂₁、a₂₂……a_2n实际对应于当前所用矩阵参数为W₂时的加权系数a₂，反之，当前若使用矩阵参数W₁进行加权求和计算，则加权系数应为a₁对应的a₁₁、a₁₂……a_1n。同时，重复执行多次的注意力操作，不同的注意力参数可学习不同的特征，当输入为128维的拼接向量H，三次的注意力操作可计算输出384维加权向量。

更具体地，可参阅图13，首先可对加权向量做简单的向量拼接，进而可利用该模型中的DNN网络对拼接后的加权向量做进一步融合处理以及维度转换，其中，该DNN网络具体可存在两层，则首先通过第一层DNN网络全连接层输出维度为192的特征向量，进而通过第二层DNN网络全连接层输出维度为128的特征图，且两层输出的Drop out保留率都设置为0.6，激活函数是Relu。

本实施例中，通过引入本申请所提出的多片段视频分类网络模型分析待分类视频，可获取视频信息充分的全局待分类语义向量，进而提高视频分类的准确率。

如图14所示，在一个实施例中，提供了另一种视频分类方法。本实施例主要以该方法应用于上述图1中的服务器104来举例说明。参照图14，该视频分类方法具体包括如下步骤：

S402，获取待分类游戏视频的至少两个关键帧图片段；

S404，根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；

S406，将至少两个的片段语义向量进行双向关联融合，得到待分类游戏视频的全局待分类语义向量；

S408，根据全局待分类语义向量，获取待分类游戏视频的异常可疑概率；异常可疑概率用于确定待分类游戏视频的分类结果；分类结果包括异常游戏视频和正常游戏视频。

其中，异常可疑概率可表示为待分类游戏视频中出现预设异常图像信息的可能性概率，例如，待分类游戏视频中出现玩家击杀敌人时启用外挂、玩家通关时启用外挂、玩家获取收益时启用外挂等预设异常图像信息的可能性概率。

具体地，在上述实施例的基础上，本申请所提出的视频分类方法实际可应用于游戏视频分类或游戏视频审核场景。如在游戏视频审核场景中，业务平台从举报渠道得到待审核视频之后，客服人员一般需要完整观看、审核每个视频才能确认视频中是否存在作弊行为。然而在实际情况中，大量举报视频实际为正常视频，或某些待审核视频中存在大部分片段未见异常，若客服人员基于人工方式完全审核所有视频，则需消耗过大的人力成本，且当举报视频量过大时，存在审核效率低的情况。因此，采用本发明所提出的视频分类方法，能够在得到视频异常可疑概率的前提下，优先将可疑概率高的视频推荐给客服审核，以便提高视频审核效率。

更具体地，根据异常可疑概率确定待分类游戏视频分类结果的方式，可以是通过预设概率阈值确定达到阈值的待分类游戏视频为优先审核视频，进而优先推荐至客服审核，推荐数量同样可根据实际情况确定。

本实施例中，不仅能够对游戏视频是否存在异常可疑信息进行有效识别预测，还能基于该预测结果-异常可疑概率判定当前分析的游戏视频为正常游戏视频还是异常游戏视频。

应该理解的是，虽然图3-6、8-9、11-12、14的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3-6、8-9、11-12、14中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

为了便于本领域技术人员深入理解本申请实施例，以下将结合表1说明一个具体示例。首先，对于本申请所提出的单片段特征提取网络模型和多片段视频分类网络模型，对于不同尺度关键帧图片段输入，实际均存在一定计算差异，如下表1所示，将单个视频进行特征预处理后可得到N个片段，每个片段包含M张100*100*3(大小为100*100的R、G、B三通道信息)的图片序列数据，以维度是(N，M，100，100，3)单样本数据作为输入样例，整个网络的具体结构参数和输出结果如下表：(一些避免过拟合的Drop Out和正则化辅助处理不在下表中体现)：

表1大范围帧图片段的网络参数表

上述具体实施例，不仅可提高视频分类的准确率，获得更精确的分类结果，还可应用于其他领域帮助提升视频分析效率。

如图15所示，在一个实施例中，提供了一种视频分类装置1500，该装置1500可设置于视频分类系统中，用于执行上述视频分类方法，视频分类装置1500具体包括：视频片段获取模块1502、片段向量获取模块1504、全局待分类向量获取模块1506以及视频分类模块1508，其中：

视频片段获取模块1502，用于获取待分类视频的至少两个关键帧图片段；

片段向量获取模块1504，用于根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；

全局待分类向量获取模块1506，用于将至少两个的片段语义向量进行双向关联融合，得到待分类视频的全局待分类语义向量；

视频分类模块1508，用于根据全局待分类语义向量，获取待分类视频的分类预测概率；分类预测概率用于确定待分类视频的分类结果。

在一个实施例中，视频片段获取模块1502还用于获取待分类视频；对待分类视频进行抽帧，得到至少两个的待分类视频帧图；基于预设的图像定位信息，分别对待分类视频帧图进行图像识别，确定目标视频帧图片段；目标视频帧图片段为具有图像定位信息的待分类视频帧图的扩展片段；根据目标视频帧图片段，确定待分类视频的至少两个关键帧图片段。

在一个实施例中，视频片段获取模块1502还用于基于预设的图像定位信息，分别对待分类视频帧图进行图像识别；在至少两个的待分类视频帧图中，确定具有图像定位信息的待分类视频帧图，作为目标视频帧图；获取与目标视频帧图相邻或间隔的N个视频帧图，组合得到目标视频帧图片段；其中N为大于1的正整数。

在一个实施例中，视频片段获取模块1502还用于确定预设的帧图关键区域比例，以及，确定目标视频帧图片段中视频帧图的帧图中心坐标；基于帧图中心坐标，分别对目标视频帧图片段中至少两个的视频帧图按照帧图关键区域比例进行提取，得到至少两个关键帧图片段。

在一个实施例中，片段向量获取模块1504还用于根据至少两个关键帧图片段在时间维度和空间维度上的时空信息，确定至少两个时空特征图；将至少两个时空特征图的时空融合特征分别按照时间维度进行最大池化融合处理，得到至少两个多通道二维特征图；分别将至少两个多通道二维特征图进行卷积池化处理，得到至少两个关键帧图片段的片段语义向量。

在一个实施例中，片段向量获取模块1504还用于通过第一网络模型，分别获取至少两个关键帧图在时间维度和空间维度上的时空信息，得到至少两个时空特征图；通过第二网络模型和第三网络模型，将至少两个时空特征图的时空融合特征分别按照时间维度进行最大池化融合处理，得到至少两个多通道二维特征图；通过第四网络模型，分别将至少两个多通道二维特征图进行卷积池化处理，得到至少两个关键帧图片段的片段语义向量。

在一个实施例中，第一网络模型为3D CNN网络，第二网络模型为ConvLSTM网络，第三网络模型为最大池化网络和SE残差网络，第四网络模型为2D CNN网络。

在一个实施例中，全局待分类向量获取模块1506还用于将至少两个的片段语义向量进行特征映射和维度转换，得到至少两个低维片段语义向量；将至少两个低维片段语义向量分别在第一方向和第二方向上的关联特征进行拼接，得到至少两个拼接向量；确定至少两个拼接向量的加权系数，并根据加权系数分别对至少两个拼接向量进行加权求和及拼接，得到全局待分类语义向量。

在一个实施例中，全局待分类向量获取模块1506还用于通过第五网络模型，将至少两个的片段语义向量进行特征映射和维度转换，得到至少两个低维片段语义向量；通过第六网络模型，将至少两个低维片段语义向量分别在第一方向和第二方向上的关联特征进行拼接，得到至少两个拼接向量；通过第七网络模型和第八网络模型，确定至少两个拼接向量的加权系数，并根据加权系数分别对至少两个拼接向量进行加权求和及拼接，得到全局待分类语义向量。

在一个实施例中，第五网络模型为DNN网络，第六网络模型为Bi-LSTM网络，第七网络模型为多头注意力网络，第八网络模型为DNN网络。

在本实施例中，不仅可提高视频分类的准确率，获得更精确的分类结果，还可应用于其他领域帮助提升视频分析效率。

如图16所示，在一个实施例中，提供了另一种视频分类装置1600，该装置1600可设置于视频分类系统中，用于执行上述视频分类方法，视频分类装置1600具体包括：游戏视频片段获取模块1602、游戏片段向量获取模块1604、游戏全局待分类向量获取模块1606以及游戏视频分类模块1608，其中：

游戏视频片段获取模块1602，用于获取待分类游戏视频的至少两个关键帧图片段；

游戏片段向量获取模块1604，用于根据至少两个关键帧图片段的时空信息，分别获取至少两个关键帧图片段的片段语义向量；

游戏全局待分类向量获取模块1606，用于将至少两个的片段语义向量进行双向关联融合，得到待分类游戏视频的全局待分类语义向量；

游戏视频分类模块1608，用于根据全局待分类语义向量，获取待分类游戏视频的异常可疑预测概率；异常可疑预测概率用于确定待分类游戏视频的分类结果；分类结果包括异常游戏视频和正常游戏视频。

在本实施例中，不仅能够对游戏视频是否存在异常可疑信息进行有效识别预测，还能基于该预测结果-异常可疑概率判定当前分析的游戏视频为正常游戏视频还是异常游戏视频。

在一个实施例中，本申请提供视频分类装置可以实现为一种计算机程序的形式，计算机程序可在如图2所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频分类装置的各个程序模块，比如，图15所示的视频片段获取模块1502、片段向量获取模块1504、全局待分类向量获取模块1506以及视频分类模块1508，又比如，图16所示的游戏视频片段获取模块1602、游戏片段向量获取模块1604、游戏全局待分类向量获取模块1606以及游戏视频分类模块1608，各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的视频分类方法中的步骤。

例如，图2所示的计算机设备可以通过如图15所示视频分类装置中的视频片段获取模块1502执行步骤S302。计算机设备可通过片段向量获取模块1504执行步骤S304。计算机设备可通过全局待分类向量获取模块1506执行步骤S306。计算机设备可通过视频分类模块1508执行步骤S308。

又例如，图2所示的计算机设备可以通过如图16所示视频分类装置中的游戏视频片段获取模块1602执行步骤S402。计算机设备可通过游戏片段向量获取模块1604执行步骤S404。计算机设备可通过游戏全局待分类向量获取模块1606执行步骤S406。计算机设备可通过游戏视频分类模块1608执行步骤S408。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频分类方法的步骤。此处视频分类方法的步骤可以是上述各个实施例的视频分类方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述视频分类方法的步骤。此处视频分类方法的步骤可以是上述各个实施例的视频分类方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频分类方法，包括：

获取待分类视频的至少两个关键帧图片段；

根据所述至少两个关键帧图片段的时空信息，分别获取所述至少两个关键帧图片段的片段语义向量；

将至少两个的片段语义向量进行双向关联融合，得到所述待分类视频的全局待分类语义向量；

根据所述全局待分类语义向量，获取所述待分类视频的预测概率；所述预测概率用于确定所述待分类视频的分类结果。

2.根据权利要求1所述的方法，其特征在于，所述获取待分类视频的至少两个关键帧图片段，包括：

获取待分类视频；

对所述待分类视频进行抽帧，得到至少两个的待分类视频帧图；

基于预设的图像定位信息，分别对所述待分类视频帧图进行图像识别，确定目标视频帧图片段；所述目标视频帧图片段为具有所述图像定位信息的待分类视频帧图的扩展片段；

根据所述目标视频帧图片段，确定所述待分类视频的至少两个关键帧图片段。

3.根据权利要求2所述的方法，其特征在于，所述基于预设的图像定位信息，分别对所述待分类视频帧图进行图像识别，确定目标视频帧图片段，包括：

基于预设的图像定位信息，分别对所述待分类视频帧图进行图像识别；

在至少两个的待分类视频帧图中，确定具有所述图像定位信息的待分类视频帧图，作为目标视频帧图；

获取与所述目标视频帧图相邻或间隔的N个视频帧图，组合得到所述目标视频帧图片段；其中N为大于1的正整数。

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标视频帧图片段，确定所述待分类视频的至少两个关键帧图片段，包括：

确定预设的帧图关键区域比例，以及，确定所述目标视频帧图片段中视频帧图的帧图中心坐标；

基于所述帧图中心坐标，分别对所述目标视频帧图片段中至少两个的视频帧图按照所述帧图关键区域比例进行提取，得到所述至少两个关键帧图片段。

5.根据权利要求1所述的方法，其特征在于，所述根据所述至少两个关键帧图片段的时空信息，分别获取所述至少两个关键帧图片段的片段语义向量，包括：

根据所述至少两个关键帧图片段在时间维度和空间维度上的时空信息，确定至少两个时空特征图；

将所述至少两个时空特征图的时空融合特征分别按照时间维度进行最大池化融合处理，得到至少两个多通道二维特征图；

分别将所述至少两个多通道二维特征图进行卷积池化处理，得到所述至少两个关键帧图片段的片段语义向量。

6.根据权利要求5所述的方法，其特征在于，还包括：

通过第一网络模型，分别获取所述至少两个关键帧图在时间维度和空间维度上的时空信息，得到所述至少两个时空特征图；

通过第二网络模型和第三网络模型，将所述至少两个时空特征图的时空融合特征分别按照时间维度进行最大池化融合处理，得到至少两个多通道二维特征图；

通过第四网络模型，分别将所述至少两个多通道二维特征图进行卷积池化处理，得到所述至少两个关键帧图片段的片段语义向量。

7.根据权利要求6所述的方法，其特征在于，所述第一网络模型为3D CNN网络，所述第二网络模型为ConvLSTM网络，所述第三网络模型为最大池化网络和SE残差网络，所述第四网络模型为2D CNN网络。

8.根据权利要求1所述的方法，其特征在于，所述将至少两个的片段语义向量进行双向关联融合，得到所述待分类视频的全局待分类语义向量，包括：

将至少两个的片段语义向量进行特征映射和维度转换，得到至少两个低维片段语义向量；

将所述至少两个低维片段语义向量分别在第一方向和第二方向上的关联特征进行拼接，得到至少两个拼接向量；

确定所述至少两个拼接向量的加权系数，并根据所述加权系数分别对所述至少两个拼接向量进行加权求和及拼接，得到所述全局待分类语义向量。

9.根据权利要求8所述的方法，其特征在于，还包括：

通过第五网络模型，将至少两个的片段语义向量进行特征映射和维度转换，得到至少两个低维片段语义向量；

通过第六网络模型，将所述至少两个低维片段语义向量分别在第一方向和第二方向上的关联特征进行拼接，得到至少两个拼接向量；

通过第七网络模型和第八网络模型，确定所述至少两个拼接向量的加权系数，并根据所述加权系数分别对所述至少两个拼接向量进行加权求和及拼接，得到所述全局待分类语义向量。

10.根据权利要求9所述的方法，其特征在于，所述第五网络模型为DNN网络，所述第六网络模型为Bi-LSTM网络，所述第七网络模型为多头注意力网络，所述第八网络模型为DNN网络。

11.一种视频分类方法，包括：

获取待分类游戏视频的至少两个关键帧图片段；

将至少两个的片段语义向量进行双向关联融合，得到所述待分类游戏视频的全局待分类语义向量；

根据所述全局待分类语义向量，获取所述待分类游戏视频的异常可疑预测概率；所述异常可疑预测概率用于确定所述待分类游戏视频的分类结果；所述分类结果包括异常游戏视频和正常游戏视频。

12.一种视频分类装置，其特征在于，所述装置包括：

视频片段获取模块，用于获取待分类视频的至少两个关键帧图片段；

片段向量获取模块，用于根据所述至少两个关键帧图片段的时空信息，分别获取所述至少两个关键帧图片段的片段语义向量；

全局待分类向量获取模块，用于将至少两个的片段语义向量进行双向关联融合，得到所述待分类视频的全局待分类语义向量；

视频分类模块，用于根据所述全局待分类语义向量，获取所述待分类视频的预测概率；所述预测概率用于确定所述待分类视频的分类结果。

13.一种视频分类装置，其特征在于，所述装置包括：

游戏视频片段获取模块，用于获取待分类游戏视频的至少两个关键帧图片段；

游戏片段向量获取模块，用于根据所述至少两个关键帧图片段的时空信息，分别获取所述至少两个关键帧图片段的片段语义向量；

游戏全局待分类向量获取模块，用于将至少两个的片段语义向量进行双向关联融合，得到所述待分类游戏视频的全局待分类语义向量；

游戏视频分类模块，用于根据所述全局待分类语义向量，获取所述待分类游戏视频的异常可疑预测概率；所述异常可疑预测概率用于确定所述待分类游戏视频的分类结果；所述分类结果包括异常游戏视频和正常游戏视频。

14.一种视频分类设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。