CN113542866A

CN113542866A - 视频处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113542866A
Application number: CN202011632806.4A
Authority: CN
Inventors: 杨天舒; 刘绍腾
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-10-22
Anticipated expiration: 2040-12-31
Also published as: CN113542866B

Abstract

本申请实施例提供一种视频处理方法、装置、设备及计算机可读存储介质。涉及人工智能技术领域，其中，方法包括：对抽取到的至少一视频帧中具有目标对象的视频帧进行二分类变形识别，以及，对抽取到的每一视频帧进行三分类图像识别；对每一具有目标对象的视频帧的二分类识别结果和三分类识别结果进行融合，得到对应的具有目标对象的视频帧的图像识别结果；且将每一不具有目标对象的视频帧的三分类识别结果，确定为对应的不具有目标对象的视频帧的图像识别结果；根据至少一视频帧中的每一视频帧的图像识别结果，对待处理视频进行处理。通过本申请，能够适应真实业务场景下对任意视频的识别和处理，并且提高视频识别速度。

Description

视频处理方法、装置、设备及计算机可读存储介质

技术领域

本申请实施例涉及互联网技术领域，涉及但不限于一种视频处理方法、装置、设备及计算机可读存储介质。

背景技术

随着移动互联网的不断发展，智能手机等移动平台的迅速崛起，以智能手机/平板为载体的短视频近年来成为一种新的内容传播形式。短视频的普及，极大满足了人们在日常生活中，更快速方便的获取更多信息的需求。随着短视频数据的爆发式增长，特别是一些用户利用二次创作后生产的视频，后台系统如何快速、准确的判断短视频本身是否存在变形、位移至关重要。

相关技术中，通常是对视频进行视频帧采样，并结合视频帧的清晰度来判断视频的清晰度，进而判断视频是否存在变形和位移，或者，结合3D卷积神经网络、2D卷积神经网络+长短期记忆网络(LSTM，Long Short-Term Memory)等时间序列模型，来判断和识别视频是否发生变形和位移。

但是，相关技术中确定视频是否发生变形和位移的方法，对真实业务场景中的适应度较低，直接采用相关技术中的网络模型无法直接判断视频是否发生变形和位移，并且，相关技术中的方法识别速度较慢。

发明内容

本申请实施例提供一种视频处理方法、装置、设备及计算机可读存储介质，由于采用二分类变形识别和三分类图像识别同时对待处理视频中的视频帧进行识别，进而根据二分类识别结果和三分类识别结果来确定待处理视频的处理方式，如此，在识别待处理视频是否发生变形和位移时，能够适应真实业务场景下的任意视频，并且提高识别速度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种视频处理方法，所述方法包括：

响应于视频处理请求，对待处理视频进行视频帧抽取，得到至少一视频帧；

当确定出所述至少一视频帧中的任一视频帧中具有目标对象时，对具有所述目标对象的视频帧进行二分类变形识别，得到所述视频帧的二分类识别结果；

对所述至少一视频帧中的每一视频帧进行三分类图像识别，对应得到所述每一视频帧的三分类识别结果；

对每一具有所述目标对象的视频帧的所述二分类识别结果和所述三分类识别结果进行融合，得到对应的具有所述目标对象的视频帧的图像识别结果；将每一不具有所述目标对象的视频帧的所述三分类识别结果，确定为对应的不具有所述目标对象的视频帧的所述图像识别结果；

根据所述至少一视频帧中的每一视频帧的所述图像识别结果，对所述待处理视频进行处理。

本申请实施例提供一种视频处理装置，所述装置包括：

视频帧抽取模块，用于响应于视频处理请求，对待处理视频进行视频帧抽取，得到至少一视频帧；

二分类变形识别模块，用于当确定出所述至少一视频帧中的任一视频帧中具有目标对象时，对具有所述目标对象的视频帧进行二分类变形识别，得到所述视频帧的二分类识别结果；

三分类图像识别模块，用于对所述至少一视频帧中的每一视频帧进行三分类图像识别，对应得到所述每一视频帧的三分类识别结果；

图像识别结果确定模块，用于对每一具有所述目标对象的视频帧的所述二分类识别结果和所述三分类识别结果进行融合，得到对应的具有所述目标对象的视频帧的图像识别结果；将每一不具有所述目标对象的视频帧的所述三分类识别结果，确定为对应的不具有所述目标对象的视频帧的所述图像识别结果；

视频处理模块，用于根据所述至少一视频帧中的每一视频帧的所述图像识别结果，对所述待处理视频进行处理。

本申请实施例提供一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中；其中，计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器用于执行所述计算机指令，实现上述的视频处理方法。

本申请实施例提供一种视频处理设备，包括：存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现上述的视频处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现上述的视频处理方法。

本申请实施例具有以下有益效果：当待处理视频中抽取的视频帧中具有目标对象时，对具有目标对象的视频帧进行二分类变形识别，得到视频帧的二分类识别结果；并且，对待处理视频中抽取的每一视频帧进行三分类图像识别，得到每一视频帧的三分类识别结果；对每一具有目标对象的视频帧的二分类识别结果和三分类识别结果进行融合，得到对应的具有目标对象的视频帧的图像识别结果；将每一不具有目标对象的视频帧的三分类识别结果，确定为对应的不具有目标对象的视频帧的图像识别结果；以实现根据图像识别结果对待处理视频进行处理。如此，在识别待处理视频是否发生变形和位移时，采用二分类变形识别和三分类图像识别对待处理视频中的视频帧进行识别，能够适应真实业务场景下的任意视频，并且提高识别速度。

附图说明

图1是本申请实施例提供的视频处理系统的一个可选的架构示意图；

图2是本申请实施例提供的服务器的结构示意图；

图3是本申请实施例提供的视频处理方法的一个可选的流程示意图；

图4是本申请实施例提供的视频处理方法的一个可选的流程示意图；

图5是本申请实施例提供的视频处理方法的一个可选的流程示意图；

图6是本申请实施例提供的三分类模型的训练方法的一个可选的流程示意图；

图7是本申请实施例提供的三分类模型的结构示意图；

图8是本申请实施例提供的SE网络模块的结构示意图；

图9是本申请实施例提供的视频帧类型识别方法的一种实现流程示意图；

图10是本申请实施例提供的视频帧类型识别方法的另一种实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。除非另有定义，本申请实施例所使用的所有的技术和科学术语与属于本申请实施例的技术领域的技术人员通常理解的含义相同。本申请实施例所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

随着短视频数据的爆发式增长，特别是一些用户利用二次创作后生产的视频，后台系统如何快速、准确的判断短视频本身是否存在变形、位移至关重要。为了保证平台内容质量以及不影响用户观感体验，存在明显变形、位移的视频应在视频上传过程中应予以拒绝。本申请实施例的主要目的是利用深度学习方法高效的评价短视频是否存在变形和位移，评价过程中不需人工干预，该方法为后台录入小视频信息提供便利，节约人力成本。

在实际业务场景应用中，例如在一些短视频应用(APP)的后台，在用户上传短视频后，后台需要审核并保存短视频的基本信息，其中包括短视频内容本身是否变形、位移，是否存在广告二维码，是否存在不良内容等。在实际业务场景应用中，短视频的变形评价主要考虑以下问题：视频画面的主要人物是否存在变形、视频是否存在位移现象。由于短视频中的内容常出现灯光昏暗，夜晚、特效等景象，以上均增加了判断视频是否发生变形和位移的难度。

相关技术中，在判断视频是否发生变形和位移时，通常采用以下方法实现：一种实现方式中，先对视频帧进行采样，结合视频帧的清晰度来判断视频的清晰度。该方法一般选取每隔固定时间点进行抽帧，或通过一些传统算子将一些过度帧过滤，再取到视频的k帧(一般k为常数)。对于利用该方法取得的视频帧，再利用深度学习模型判断视频帧是否存在变形、位移，将k帧的结果进行合并，得到视频是否存在变形、位移。

另一种实现方式中，结合3D卷积神经网络(深度学习方法)判断视频是否发生变形、位移。该方法一般通过搭建3D-残差网络(3D Residual Network，3D-resnet)等常用的3D卷积神经网络模型，将已经标注好的短视频数据放入模型中训练，最终用训练好的模型判断短视频是否发生变形位移。

再一种实现方式中，结合2D卷积神经网络+LSTM等时间序列模型判断视频是否发生变形、位移。该方法一般通过搭建2D-resnet等常用的卷积神经网络模型，得出每一视频帧的特征后，将视频帧与视频帧之间的特征融合，通过融合后的特征，判断短视频是否发生变形位移。

相关技术中的上述方法，至少存在以下问题：对业务场景中识别短视频清晰度的适用性较低。上述第一种实现方式，对真实业务场景中的适应度较低：因为直接采用分类模型无法直接判断视频是否发生变形位移，原因是一般的深度学习网络需要接收固定尺寸大小图片作为输入，而由于该任务的特殊性，即resize操作(即改变图像尺寸大小的操作)会改变图片本身的质量性质。即使利用非固定尺寸的图片作为模型输入，考虑到视频的多样性，直接判断会受到视频情节、视频特效等影响，影响模型的准确率，特别是舞台灯光、以及夜晚等的影响。

上述第二种和第三种实现方式，一般识别准确率较上述第一种实现方式高，且均考虑到视频帧与帧视频之间的连续性。但是在真实业务场景中，由于服务器后台处理能力有限，该方法的缺点在于时序模型一般识别速度很慢，在互联网高速发展的今天，后台的实时处理量也是真实业务中需重点考虑的因素之一。

基于相关技术中所存在的上述至少一个问题，由于短视频本身的特点，以及后台对于时效性的要求，本申请实施例主要利用对短视频的视频帧进行采样以及融合多个深度学习模型，以及制定策略的方法来解决识别短视频变形、位移的问题。与相关技术中的方法相比，本申请实施例提出的方法可以将部分视频帧作为模型输入，加快了后台处理的效率，同时结合短视频自身的特点，训练模型和制定策略，最终达到模型可以模拟人的感官给出视频是否变形、位移的目的。本申请实施例的方法，能够结合业务场景给出更适用于业务场景中的视频变形、位移判断过程，且处理效率较快。

本申请实施例提供的视频处理方法中，首先，响应于视频处理请求，对待处理视频进行视频帧抽取，得到至少一视频帧；然后，当确定出待处理视频中抽取的任一视频帧中具有目标对象时，对具有目标对象的视频帧进行二分类变形识别，得到视频帧的二分类识别结果；对待处理视频中抽取的每一视频帧进行三分类图像识别，得到每一视频帧的三分类识别结果；对每一具有目标对象的视频帧的二分类识别结果和三分类识别结果进行融合，得到对应的具有目标对象的视频帧的图像识别结果；将每一不具有目标对象的视频帧的三分类识别结果，确定为对应的不具有目标对象的视频帧的图像识别结果；最后，根据待处理视频中抽取的每一视频帧的所述图像识别结果，对待处理视频进行处理。如此，在识别待处理视频是否发生变形和位移时，采用二分类变形识别和三分类图像识别对待处理视频中的视频帧进行识别，能够适应真实业务场景下的任意视频，并且提高识别速度。

下面说明本申请实施例的视频处理设备的示例性应用，在一种实现方式中，本申请实施例提供的视频处理设备可以实施为笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能机器人、智能电视、智能车载设备等任意的具备视频采集、上传和播放的终端，在另一种实现方式中，本申请实施例提供的视频处理设备还可以实施为服务器。下面，将说明视频处理设备实施为服务器时的示例性应用。

参见图1，图1是本申请实施例提供的视频处理系统的一个可选的架构示意图。为实现对待处理视频的准确处理，本申请实施例提供的视频处理系统10中包括终端100、网络200和服务器300，终端100上具有视频采集装置，通过视频采集装置采集得到待处理视频，终端100通过网络200，将采集的待处理视频作为视频处理请求发送给服务器300。服务器300响应于视频处理请求，对待处理视频进行视频帧抽取，得到至少一视频帧；当确定出待处理视频中抽取的任一视频帧中具有目标对象时，对视频帧进行二分类变形识别，得到视频帧的二分类识别结果；对待处理视频中抽取的每一视频帧进行三分类图像识别，得到每一视频帧的三分类识别结果；对每一具有目标对象的视频帧的二分类识别结果和三分类识别结果进行融合，得到对应的具有目标对象的视频帧的图像识别结果；将每一不具有目标对象的视频帧的三分类识别结果，确定为对应的不具有目标对象的视频帧的图像识别结果；根据待处理视频中抽取的每一视频帧的图像识别结果，对待处理视频进行处理，并将视频处理方法对应的视频处理响应发送给终端100。终端100在接收到视频处理响应之后，根据视频处理响应做出相应的操作。

本申请实施例提供的视频处理方法还涉及人工智能技术领域，通过人工智能技术实现对视频帧是否存在位移和变形的识别，进而实现对待处理视频的识别，即可以通过人工智能技术识别待处理视频。或者还可以采用人工智能技术训练二分类模型和三分类模型，然后，采用训练好的二分类模型和三分类模型对视频帧进行二分类变形识别和三分类图像识别。在一些实施例中，还可以通过人工智能技术确定不同类型的待处理视频的处理方式，以实现对待处理视频进行准确的处理。

本申请实施例中，至少可以通过人工智能技术中的计算机视觉技术来实现。其中，计算机视觉技术(CV，Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OCR，Optical Character Recognition)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

图2是本申请实施例提供的服务器的结构示意图，图2所示的服务器300包括：至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。服务器300中的各个组件通过总线系统340耦合在一起。可理解，总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统340。

处理器310可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331，以及一个或多个输入装置332。

存储器350可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器350旨在包括任意适合类型的存储器。在一些实施例中，存储器350能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统351，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块352，用于经由一个或多个(有线或无线)网络接口320到达其他计算设备，示例性的网络接口320包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

输入处理模块353，用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可采用软件方式实现，图2示出了存储在存储器350中的一种视频处理装置354，该视频处理装置354可以是服务器300中的视频处理装置，其可以是程序和插件等形式的软件，包括以下软件模块：视频帧抽取模块3541、二分类变形识别模块3542、三分类图像识别模块3543、图像识别结果确定模块3544和视频处理模块3545，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的视频处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

参见图3，图3是本申请实施例提供的视频处理方法的一个可选的流程示意图，下面将结合图3示出的步骤进行说明。需要说明的是，本申请实施例中的视频处理方法不仅可以由服务器来实现，还可以由终端来实现，或者还可以由终端与服务器进行交互，共同实现该视频处理方法。本申请实施例将以该视频处理方法由服务器执行为例进行说明，其中，该视频处理方法包括以下步骤：

步骤S301，响应于视频处理请求，对待处理视频进行视频帧抽取，得到至少一视频帧。

这里，服务器在接收到视频处理请求之后，对视频处理请求进行解析，得到待处理视频，视频处理请求用于请求对待处理视频进行识别，并根据识别结果给出对应的视频处理方式，以采用视频处理方式对待处理视频进行视频处理。

对待处理视频进行视频帧抽取即对待处理视频中的任意视频帧进行截取，是从待处理视频中随机抽取或按照一定的规律抽取出至少一帧视频帧，其中，抽取到的视频帧可以是待处理视频在任意播放时刻对应的视频帧。

在一些实施例中，抽取得到的多帧视频帧中可能会存在图像内容的相似度大于相似度阈值的相似视频帧，则此时可以仅保留多帧相似视频帧中的任意一帧，以避免对相似的视频帧进行多次处理，降低服务器的数据计算量，提高视频处理效率。

步骤S302，当确定出抽取到的至少一视频帧中的任一视频帧中具有目标对象时，对具有该目标对象的视频帧进行二分类变形识别，得到视频帧的二分类识别结果。

本申请实施例中，可以首先对每一视频帧进行目标识别，以确定视频帧中是否存在目标对象，例如，可以识别视频帧中是否存在人脸、建筑物、植物、二维码、文字等目标对象；当识别出视频帧中具有目标对象时，对视频帧进行二分类变形识别。

二分类变形识别是用于识别视频帧是否存在变形的过程，或者，对视频帧中的目标对象进行变形识别，其中，二分类变形识别对应的二分类识别结果包括未变形和变形两种结果，即包括正常和变形两种结果。对于输入的每一视频帧，在进行二分类变形识别时，识别的结果不是正常就是变形，即对于识别出异常的视频帧，二分类识别结果均表明该视频帧存在变形。

需要说明的是，视频帧变形可以是视频帧中的目标对象发生扭曲、弯折、局部放大、局部缩小、局部清晰度小于清晰度阈值、整体清晰度小于清晰度阈值、局部图像缺失或重影等视频缺陷。

步骤S303，对抽取到的至少一视频帧中的每一视频帧进行三分类图像识别，对应得到每一视频帧的三分类识别结果。

这里，三分类图像识别用于对图像整体进行识别，三分类图像识别对应的三分类识别结果包括三种识别类型，三分类识别结果包括：正常、变形和位移。当三分类识别结果识别出视频帧位移时，可以是视频帧中的字幕位置偏移、字幕压字、目标对象截断(例如，砍头照或半身照等人体截断)、图像部分显示或显示不全等视频缺陷。

在一些实施例中，二分类变形识别是在确定出视频帧中具有目标对象时进行，三分类图像识别可以是在确定出视频帧中不具有目标对象时进行，也可以对每一视频帧均进行三分类图像识别，也就是说，对抽取到的至少一视频帧，是对于具有目标对象的视频帧进行二分类变形识别，对应得到二分类识别结果，或者是对于具有目标对象的视频帧不仅进行二分类变形识别还进行三分类图像识别，对应得到二分类识别结果和三分类识别结果；对于不具有目标对象的视频帧，则进行三分类图像识别，对应得到三分类识别结果。举例来说，当进行视频帧抽取时抽取到三帧视频帧，其中，第1帧是有人脸的图片、第2帧是景色图片、第3帧是建筑物图片，且预先设定目标对象为人脸；那么，则只对第1帧视频帧进行二分类变形识别，并且，对这三帧视频帧都进行三分类图像识别。这样，第1帧视频帧不仅具有二分类识别结果，还具有三分类识别结果，而第2帧和第3帧视频帧仅具有三分类识别结果。

本申请实施例中，在进行二分类变形识别和三分类图像识别完成之后，每一视频帧至少具有三分类识别结果，即视频帧可以同时具有二分类识别结果和三分类识别结果，或者，视频帧可以仅具有三分类识别结果。

步骤S304，对每一具有目标对象的视频帧的二分类识别结果和三分类识别结果进行融合，得到对应的具有目标对象的视频帧的图像识别结果；将每一不具有目标对象的视频帧的三分类识别结果，确定为对应的不具有目标对象的视频帧的图像识别结果。

本申请实施例中，由于抽取到的视频帧可以同时具有二分类识别结果和三分类识别结果，或者，由于抽取到的视频帧可以仅具有三分类识别结果。当视频帧同时具有二分类识别结果和三分类识别结果时，对视频帧的二分类识别结果和三分类识别结果进行融合是指根据二分类识别结果和三分类识别结果确定图像识别结果，即首先判断二分类识别结果与三分类识别结果是否相同。如果二分类识别结果与三分类识别结果相同，则将相同的结果确定为该视频帧的图像识别结果，即，二分类识别结果与三分类识别结果均为正常时，则确定出该视频帧的图像识别结果为正常，或者二分类识别结果与三分类识别结果均为变形时，则确定出该视频帧的图像识别结果为变形；如果二分类识别结果与三分类识别结果不同，且其中任意一个识别结果为视频帧正常，而另一个识别结果为视频帧异常(变形或位移)时，则本次识别过程无效；如果两个识别结果均为视频帧异常(即一个识别结果为变形，另一个识别结果为位移)时，则可以将二分类识别结果和三分类识别结果中的任意一个确定为最终的图像识别结果，或者将最终的图像识别结果确定为视频帧既存在变形又存在位移，或者还可以对该视频帧进行二次识别，以确定出最终的图像识别结果。在一些实施例中，当视频帧仅具有三分类识别结果，则根据三分类识别结果确定图像识别结果，即将三分类识别结果所识别出的视频帧类型确定为该视频帧的图像识别结果。

步骤S305，根据每一视频帧的图像识别结果，对待处理视频进行处理。

这里，在确定出每一视频帧的图像识别结果之后，根据抽取到的每一视频帧的图像识别结果，对待处理视频进行处理。本申请实施例中，可以根据每一视频帧的图像识别结果，确定出视频类型，即判断出视频是否存在异常。如果视频存在异常的话，根据视频类型确定对应的视频处理方式，对视频进行修正，或者，直接禁止该待处理视频的发送和上传，以避免劣质视频对用户视频观看效果的影响。

本申请实施例提供的视频处理方法，当待处理视频中的视频帧中具有目标对象时，对视频帧进行二分类变形识别，得到视频帧的二分类识别结果；并且，对每一视频帧进行三分类图像识别，得到每一视频帧的三分类识别结果；对每一具有目标对象的视频帧的二分类识别结果和三分类识别结果进行融合，得到对应的具有目标对象的视频帧的图像识别结果；且，将每一不具有目标对象的视频帧的三分类识别结果，确定为对应的不具有目标对象的视频帧的图像识别结果；以实现根据图像识别结果对待处理视频进行处理。如此，在识别待处理视频是否发生变形和位移时，采用二分类变形识别和三分类图像识别同时对待处理视频中的视频帧进行识别，能够适应真实业务场景下的任意视频，并且提高识别速度。

在一些实施例中，视频处理系统中包括终端和服务器，终端采集待处理视频并生成视频处理请求，例如，可以应用于以下场景：用户通过终端拍摄短视频(即待处理视频)，并通过任意视频应用，将短视频上传至该视频应用的服务器请求发布，为了保证所上传短视频的质量，服务器需要对短视频的质量进行判断，以确定短视频是否存在变形和位移等问题，从而实现对视频应用中的视频质量进行管控，因此，可以采用本申请实施例提供的视频处理方法进行视频质量的判断和相应的处理。

图4是本申请实施例提供的视频处理方法的一个可选的流程示意图，如图4所示，方法包括以下步骤：

步骤S401，终端通过视频采集装置采集待处理视频。

当然，在一些实施例中，待处理视频不仅可以是终端自身采集的视频，也可以是终端从网络上下载的视频，还可以是终端采用特定的视频制作软件所制作生成的视频，或者还可以是终端对采集的视频进行视频处理(例如添加水印、添加特效等处理)后所得到的视频。

步骤S402，终端将待处理视频封装于视频处理请求中。

步骤S403，终端将视频处理请求发送给服务器，以请求服务器对待处理视频进行视频处理。

步骤S404，服务器响应于视频处理请求，对待处理视频进行视频帧抽取，得到至少一视频帧。

步骤S405，当确定出抽取到的至少一视频帧中的任一视频帧中具有目标对象时，服务器对视频帧进行二分类变形识别，得到视频帧的二分类识别结果。

步骤S406，服务器对抽取到的至少一视频帧中的每一视频帧进行三分类图像识别，得到每一视频帧的三分类识别结果。

步骤S407，对每一具有目标对象的视频帧的二分类识别结果和三分类识别结果进行融合，得到对应的具有目标对象的视频帧的图像识别结果；且，将每一不具有目标对象的视频帧的三分类识别结果，确定为对应的不具有目标对象的视频帧的图像识别结果。

步骤S408，根据每一视频帧的图像识别结果，确定待处理视频的视频类型。

需要说明的是，步骤S404至步骤S408与上述步骤S301至步骤S305相同，本申请实施例不再赘述。

在一些实施例中，待处理视频的视频类型包括正常视频类型、变形视频类型和位移视频类型中的任意一种；确定视频类型可以通过以下方式中的任意一种来实现：

方式一：当至少一半数量的视频帧的图像识别结果为视频帧正常时，确定待处理视频的视频类型为正常视频类型。也就是说，超过一半数量的视频帧为正常视频帧时，则可以确定待处理视频为正常视频。

方式二：当大于一半数量的视频帧的图像识别结果为视频帧变形或视频帧位移时，对应确定待处理视频的视频类型为变形视频类型或位移视频类型。也就是说，超过一半数量的视频帧为异常视频帧时，则可以确定待处理视频为异常视频，且异常视频还包括变形视频或位移视频，如果是超过一半数量的视频帧为变形视频帧，则待处理视频为变形视频，如果是超过一半数量的视频帧为位移视频帧，则待处理视频为位移视频。

在一些实施例中，还可以当大于一半数量的视频帧的图像识别结果为视频帧变形和视频帧位移时，对应确定待处理视频的视频类型为异常视频类型，此时并不确定异常视频类型具体是变形视频类型还是位移视频类型，即可以不区分变形视频类型和位移视频类型。举例来说，如果待处理视频提取出10帧视频帧，其中有4帧视频帧的图像识别结果为视频帧正常、3帧视频帧的图像识别结果为视频帧变形、3帧视频帧的图像识别结果为视频帧位移，由于视频帧变形和视频帧位移对应的视频帧的数量之和大于总视频帧数量的一半，因此表明有一半以上数量的视频帧为非正常视频帧，所以确定出待处理视频的视频类型为异常视频类型。

方式三：当多帧视频帧对应的图像识别结果中同时具有视频帧正常、视频帧变形和视频帧位移时，将具有最大数量的图像识别结果所对应的类型，确定为待处理视频的视频类型。也就是说，如果待处理视频提取出的多帧视频帧对应有三种图像识别结果，则将最多的图像识别结果所对应的类型确定为待处理视频的视频类型。举例来说，如果待处理视频提取出10帧视频帧，其中有2帧视频帧的图像识别结果为视频帧正常、3帧视频帧的图像识别结果为视频帧变形、5帧视频帧的图像识别结果为视频帧位移，那么可以确定出待处理视频的视频类型为位移。当然，在其他实施例中，图像识别结果还可以存在其他类型，那么此时也可以将具有最大数量的图像识别结果所对应的类型，确定为待处理视频的视频类型。

在一些实施例中，当待处理视频的视频类型为正常视频类型；方法还包括：

步骤S409，正常发送待处理视频。也就是说，对于正常视频类型并不做限定，可以正常发送和上传，也无需进行进一步的修正处理。

在一些实施例中，当待处理视频的视频类型为变形视频类型；方法还包括：

步骤S410，禁止发送待处理视频。或者，

步骤S411，对待处理视频进行变形处理，以得到正常视频并发送。

这里，变形处理是指对待处理视频进行修正处理，以使得处理后的待处理视频为正常视频或趋近于正常视频。举例来说，当待处理视频中存在局部放大时，可以对待处理视频的视频帧中的该局部位置进行缩小，以使得该局部位置与同一视频帧中的其他位置的图像缩放比例匹配，实现整个视频帧图像的比例一致性，或者，当待处理视频中存在局部清晰度小于清晰度阈值时，可以对待处理视频的视频帧中的局部清晰度较低的局部位置进行清晰化处理，以使得该局部位置与同一视频帧中的其他位置的图像清晰度相同或相近，实现整个视频帧图像的清晰度一致性。

在一些实施例中，当待处理视频的视频类型为位移视频类型；方法还包括：步骤S410或者，步骤S412，对待处理视频进行位移处理，以得到正常视频并发送。

这里，位移处理也是指对待处理视频进行修正处理，以使得处理后的待处理视频为正常视频或趋近于正常视频。举例来说，当待处理视频中存在字幕位置偏移或字幕压字时，可以对待处理视频中的字幕的位置进行调整，以使得字幕位于正常位置，或者避免字幕压字。

本申请实施例提供的视频处理方法，对应于不同的视频识别结果，选择对应的视频处理方式对待处理视频进行处理，能够保证正常视频的有效发送，避免异常视频上传后对网络资源的占用，并且，还可以对异常视频进行修正处理，使得用户可以上传更多创造的视频，提高整个视频应用中视频的质量。

基于图3，图5是本申请实施例提供的视频处理方法的一个可选的流程示意图，如图5所示，在一些实施例中，步骤S301中进行视频帧抽取以得到至少一视频帧的过程，可以通过以下步骤实现：

步骤S501，按照等间距时长或不等间距时长对待处理视频进行分割，得到至少两个视频片段。

举例来说，当按照等间距时长进行分割时，可以是每隔5秒进行一次视频分割，得到多个具有5秒时长的视频片段；当按照不等间距时长进行分割时，可以按照时长递增或递减的规律，或者按照时长随机的规律对待处理视频进行分割，得到具有随机时长的视频片段。

步骤S502，在每一视频片段中抽取一帧视频帧，以得到至少两帧视频帧。

这里，可以是将视频片段中的任意一帧视频帧抽取出，或者将视频片段的中间视频帧抽取出，或者，将视频片段中的起始视频帧或结束视频帧抽取出。

步骤S503，对至少两帧视频帧进行视频过滤，以去除至少两帧视频帧中的非合格视频帧，得到过滤后的视频帧。

这里，非合格视频帧包括但不限于：模糊视频帧、显示不全的视频帧和光线较暗的视频帧等。

步骤S504，将过滤后的视频帧，确定为视频帧抽取后所得到的至少一视频帧。

在一些实施例中，上述二分类变形识别可以通过二分类模型来实现，对视频帧进行二分类变形识别时，可以是将视频帧输入至二分类模型中，通过二分类模型对视频帧进行二分类变形识别，得到视频帧的二分类识别结果；其中，二分类识别结果包括视频帧正常和视频帧变形。

在一些实施例中，二分类模型至少包括视频帧特征提取层和分类处理层，其中，在通过二分类模型对视频帧进行二分类变形识别时，可以是首先将具有目标对象的视频帧输入至二分类模型中，通过二分类模型中的视频帧特征提取层对视频帧进行特征提取，得到提取特征；然后，通过二分类模型中的分类处理层，对提取特征进行二分类变形识别，得到视频帧的二分类识别结果。

需要说明的是，视频帧特征提取层可以采用任意一种能够对图像进行特征提取的特征提取网络来实现，分类处理层用于根据所提取的提取特征进行一系列的计算，得到最终的输出结果，即得到二分类变形识别后的二分类识别结果。在一些实施例中，二分类模型还可以包括输出层，用于输出分类处理层计算得到的二分类识别结果。

在一些实施例中，上述三分类图像识别可以通过以下步骤实现：

步骤S11，对抽取到的至少一视频帧中的每一视频帧进行特征提取，得到视频帧特征图。

步骤S12，对视频帧特征图进行SE处理，得到SE特征图。

这里，SE处理可以通过SEnet模型(SEnet，Squeeze Excitation net)来实现，下文中将对SEnet模型进行解释。

步骤S13，对SE特征图进行下采样处理，得到下采样特征图。

这里，下采样处理是为了将通道数相同的任何尺度的SE特征图转化成相同维度的特征向量，从而可以让三分类模型将任意尺度的图像作为模型的输入。

步骤S14，对经过至少一次SE处理和下采样处理之后所得到的下采样特征图，进行自适应降采样处理，对应得到至少一个自适应特征向量。

这里，在第N次SE处理和下采样处理时，是对经过N-1次SE处理和N-1次下采样处理之后所得到的下采样特征图，依次进行SE处理和下采样处理，以得到经过N次下采样处理之后所得到的下采样特征图；并且，对经过N次下采样处理之后所得到的下采样特征图，进行自适应降采样处理，对应得到至少一个自适应特征向量；其中，N为大于1的整数。

步骤S15，对至少一个自适应特征向量，依次进行向量融合和全连接处理，得到视频帧的三分类识别结果。

本申请实施例中，三分类识别结果包括以下视频帧标签中的任意一个：正常标签、变形标签和位移标签，以及，每一标签对应的置信度；在一些实施例中，方法还包括：

步骤S16，根据视频帧标签和置信度，确定视频帧的视频帧类型。

本申请实施例中，视频帧的图像识别结果包括视频帧的视频帧类型，对应地，步骤S304中确定图像识别结果的过程，还可以通过以下方式来实现：

方式一，当抽取到的至少一视频帧中的任一视频帧同时具有二分类识别结果和三分类识别结果时，若二分类识别结果与三分类识别结果相同，则将二分类识别结果对应的视频帧类型或三分类识别结果对应的视频帧类型，确定为该视频帧的图像识别结果。

方式二，当抽取到的至少一视频帧中的任一视频帧仅具有三分类识别结果时，将三分类识别结果对应的视频帧类型，确定为该视频帧的图像识别结果。

在一些实施例中，上述三分类图像识别过程还可以通过三分类模型来实现，即采用三分类模型对抽取到的至少一视频帧中的每一视频帧进行三分类图像识别，对应得到每一视频帧的三分类识别结果。本申请实施例提供一种三分类模型的训练方法，图6是本申请实施例提供的三分类模型的训练方法的一个可选的流程示意图，如图6所示，训练方法包括以下步骤：

步骤S601，将样本图像输入至三分类模型中，通过三分类模型中的特征提取层，对样本图像进行特征提取，得到样本特征图。

这里，样本图像可以是预设样本库中预先标注好的图像。

步骤S602，通过三分类模型中的SE网络层，对样本特征图进行SE处理，得到样本SE特征图。

SE网络层可以是由SEnet模型所形成的网络层。

步骤S603，通过三分类模型中的下采样处理层，对样本SE特征图进行下采样处理，得到样本下采样特征图。

这里，下采样处理层的主要目的是为了降维，即为了降低样本SE特征图的维度。

步骤S604，通过三分类模型中的自适应降采样处理层，对经过至少一次SE处理和下采样处理之后所得到的样本下采样特征图，进行自适应降采样处理，对应得到至少一个样本自适应特征向量。

自适应降采样处理层用于对输入的特征图进行自适应将采样处理，以得到维数固定的特征向量。

步骤S605，对至少一个样本自适应特征向量，依次进行向量融合和全连接处理，得到样本图像的样本识别结果。其中，样本识别结果包括正常、变形和位移。

步骤S606，将样本识别结果输入至预设损失模型中，得到损失结果。

这里，预设损失模型用于将样本识别结果与预设的标注结果进行比较，得到损失结果，其中，预设的标注结果可以是用户预先设置的样本图像的识别类型。

本申请实施例中，预设损失模型中包括损失函数，通过损失函数可以计算样本识别结果与预设的标注结果之间的相似度，需要说明的是，本申请实施例中，样本识别结果与预设的标注结果之间的相似度非零即一，即样本识别结果与预设的标注结果之间的相似度可以是0或者100％。在确定出样本识别结果与预设的标注结果之间的相似度之后，根据该相似度确定上述损失结果。

当样本识别结果与预设的标注结果之间的相似度为100％时，表明模型预测识别出的样本识别结果正确，模型的训练结果与真实值的差距较小，表明模型的训练结果更加接近真实值，可以停止对模型的训练。当样本识别结果与预设的标注结果之间的相似度为0时，表明模型预测识别出的样本识别结果错误，模型的训练结果与真实值的差距较大，需要对模型进行进一步的训练。

本申请实施例中，预设损失模型可以是交叉熵损失模型。

在一些实施例中，还可以设置训练时长阈值和训练次数阈值，当当前的训练时长达到预先设置的训练时长阈值时，停止对三分类模型的训练，或者，当当前的训练次数达到预先设置的训练次数阈值时，停止对三分类模型的训练，或者，当当前的训练结果收敛时，即样本识别结果与预设的标注结果之间的相似度为100％时，停止对三分类模型的训练。

步骤S607，根据损失结果对三分类模型中的参数进行反向传播，以修正参数，实现对三分类模型的训练。

这里，当上述样本识别结果与预设的标注结果之间的相似度为0时，则损失结果表明当前的三分类模型中的特征提取网络不能准确的对样本图像进行特征提取，得到准确的样本特征图，和/或，SE网络层不能准确的对样本特征图进行SE处理，得到准确的样本SE特征图，和/或，下采样处理层不能准确的对所述样本SE特征图进行下采样处理，得到准确的样本下采样特征图，和/或，自适应降采样处理层不能准确的对经过至少一次所述SE处理和所述下采样处理之后所得到的样本下采样特征图，进行自适应降采样处理，对应得到准确的至少一个样本自适应特征向量。因此，需要对当前的三分类模型中的参数进行反向传播，即对三分类模型中的参数进行修正。那么，可以采用特定的权重对特征提取层、SE网络层、下采样处理层和自适应降采样处理层中的至少一个中的参数进行修正，直至三分类模型输出的样本识别结果与预设的标注结果之间的相似度为100％时，将对应的三分类模型确定为训练好的三分类模型。

本申请实施例提供的三分类模型的训练方法，能够根据损失结果对特征提取层、SE网络层、下采样处理层和自适应降采样处理层中的至少一个中的参数进行修正，所得到的三分类模型能够准确的确定出视频帧的视频帧类型，从而准确的对待处理视频进行识别，进而能够根据视频识别结果对待处理视频进行准确的处理，提高用户的使用体验。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

本申请实施例提供一种视频处理方法，可以应用于任意视频软件的后台服务器。目前，短视频数据每日剧增，使用本申请实施例的方法和视频识别模型时，可以不需人工干预，利用机器来自动判断视频是否发生变形和位移，在实际应用中，明显的变形和位移视频应予以拒绝上传处理。

本申请实施例中，在技术侧，在训练视频识别模型时，首先需要进行数据标注，可以基于视频本身的性质，以及后台处理需求，将短视频分为正常视频、变形视频、位移视频三个类别，来分别制定量化标准，对训练样本进行标注。

为了提升视频识别模型识别的准确率，主要为了避免受视频中光线(例如，舞台灯光、夜晚等)场景的影响，以及视频中一些视频特效等影响，考虑到若仅仅只采用分类模型，由于光线较暗的场景特征不明显，为了保证模型的召回率，设计了本申请实施例的级联模型(即视频识别模型)。首先采取人脸检测模型，识别视频帧中是否存在人脸，若存在，则通过人脸部分来判断视频帧有无变形；若视频帧中不存在人脸，则将视频帧作为输入，放入三分类模型中，判断该帧是否存在变形和位移。需要说明的是，视频帧若预先做了resize处理，则会影响到视频帧本身的性质，故本申请实施例还设计了一种不需要固定图像尺寸(size)作为输入的深度学习模型，这样的设计减少了视频识别模型在判断变形和位移的过程中，受光线和特效的影响，同时提升了视频识别模型的召回率和精确率。

在对待处理视频进行识别之前，首先可以利用FFmpeg(Fast Forward Mpeg，一种可以用来记录、转换数字音频、视频，并能将数字音频、视频转化为流的开源计算机程序)，对视频等间隔抽取k帧视频帧；然后根据颜色直方图、canny边缘检测算子等特征对视频帧进行聚类，以过滤k帧视频帧中的重复视频帧，同时对视频帧进行初筛，主要过滤掉过于模糊的视频帧；最终在k帧视频帧中选取m帧视频帧，其中，m为固定常数。

下面对本申请实施例中视频识别模型中所涉及到的模型进行说明。视频识别模型中包括人脸检测模型、二分类模型和三分类模型。

人脸检测模型主要用于判断视频帧中是否存在人脸，这里可以采用多任务卷积神经网络(MT-CNN，Multitask convolutional neural network)模型作为人脸检测模型来实现人脸检测。

二分类模型主要用于判断人脸部分是否存在变形。本申请实施例中，若人脸检测模型判断有人脸，则将人脸部分截出作为二分类模型的输入，并输入至二分类模型中，通过二分类模型判断人脸部分是否存在变形。

三分类模型用于判断视频帧的视频帧类型，其中，视频帧类型包括正常、变形和位移，例如，如果检测到视频帧中存在字幕压字情况，则可以判断视频帧类型为位移，如果检测到视频帧存在人体截断(例如，砍头照或半身照等)，也可以判断视频帧类型为位移。

图7是本申请实施例提供的三分类模型的结构示意图，如图7所示，输入一张尺寸为(w，h，c)的图片701(即一帧视频帧)，对图片进行归一化处理后，进入模型，模型的主干网络中主要由SE网络模块702(SEnet_block，SqueezeExcitation net block)、下采样层703(Down_sampling)、自适应池化层704(AdaptivePool)，以及全连接层705(FC，FullyConnected)组成。

SE网络模块702中主要可以选取一些5*5、3*3和1*1的卷积核的卷积层，卷积过程有SE操作(将在下文中介绍SE操作)；下采样层703主要可以利用步长为2的卷积层或池化层对图片进行降采样；自适应池化层704为自适应降采样层，可以将通道数相同的任何尺度的特征图转化成相同维度的特征向量，这可以让卷积神经网络模型将任意尺度的图像作为模型的输入。

在本申请实施例的视频识别模型的网络中，对下采样层703(Down_sampling)处理后的特征图进行自适应降采样(AdaptivePool)，经过自适应降采样后，得到维度是(k，1)的特征向量(其中，k与通道数有关)，再通过向量融合模块706将这些特征向量融合在一起(concat)，最后经过全连接层705进行全连接处理，则最终视频识别模型输出视频帧标签(共三类：正常、变形和位移)以及每一标签的置信度。

本申请实施例中，图片进入视频识别模型后，首先经过第一个卷积层71和池化层72，该过程主要为了降维，以减少后面网络层的计算量；然后，再经过第一个SE网络模块702和下采样层703，得到的特征图维数是(w_1，h_1，c_1)，其中，c_1为模型在SE网络模块702的卷积层中设定的通道数，该通道数是固定的。下采样层703的主要目的是为了降维，同时提升模型的鲁棒性，将降采样后得到的特征图一方面作为下一个SE网络模块702的输入，另一方面对特征图进行自适应池化(AdaptivePool)操作，在此过程中，虽然w_1和h_1不同，但经过第一个SE网络模块702中的卷积层和下采样层703的通道数是固定的c_1，通过自适应池化后，得到维数固定为(c_1,1)的特征向量。假设第二个、第三个、第四个的SE网络模块702中的卷积层设定的通道数分别设为c_2、c_3、c_4，则每一次经过卷积处理和下采样处理后，分别得到(w_2，h_2，c_2)、(w_3，h_3，c_3)和(w_4，h_4，c_4)的特征图。由于输入的图片701尺寸不固定，所以w_2、h_2、w_3、h_3、w_4、h_4不固定，但卷积层中设定的通道数是固定的，所以c_2、c_3、c_4固定。将这些特征图再经过自适应池化后，得到维数固定为(c_2,1)、(c_3,1)和(c_4,1)的特征向量。接着将四个特征向量按照第二个维度通过向量融合模块706合并起来，则得到的维度为(c_1+c_2+c_3+c_4，1)的特征向量，此时特征向量维数固定，再经过全连接层705和Dropout层707，其中，Dropout层707可有效防止模型过拟合，再经过全连接层708做变形、位移分类，得到最终的输出结果。需要说明的是，上述c_1、c_2、c_3、c_4，可以按照32、64、128、256的经验值来取值，或者按照8的倍数差来取值，这样有利于模型加速。本申请实施例中，视频识别模型中选取的损失模型可以为交叉熵损失模型。

本申请实施例中，经过不同的SE网络模块和下采样层处理后，得到不同大小的特征图，基于卷积神经网络的特点，即在每一层学到的特征图具有局部不变性，最终使模型学习到与变形、位移相关的稳定的图像特征和有意义的语义特征。接着将这些特征图转化为特征向量后进行结合，最后经过全连接层后给出图片是否变形位移的标签以及置信度。

下面对上述实施例中的SE操作进行说明，图8是本申请实施例提供的SE网络模块的结构示意图，如图8所示，通过该SE网络模块实现上述SE操作过程，其中，输入为(w，h，c1)的特征图801，对该特征图801进行特征变换(即采用F_tr(·，θ)对输入的特征图进行特征变换)，其中，θ为特征变换参数，在特征变换之后，生成(w，h，c2)的变换特征图802；然后，对变换特征图802进行挤压处理(即采用F_sq(·)对变换特征图进行挤压处理)之后，得到1×1×c2的挤压特征图803(即一维向量)；然后，对该挤压特征图803进行激励处理(即采用F_ex(·，w)对挤压特征图进行激励处理)之后，得到1×1×c2的激励特征图804；然后，对激励特征图804进行数值变换处理(即采用F_scale(·)对激励特征图进行数值变换处理)，得到最终(w，h，c2)的输出特征图805。

本申请实施例中，在确定出每一视频帧的视频帧类型之后，可以将抽帧后得到的m帧视频帧的视频帧类型识别结果送入到视频类型判断模型中，以确定出视频类型。若m/2(设m为偶数，若m为奇数则为(m+1)/2)帧视频帧或者大于m/2帧视频帧被判断为正常，则给出视频正常的标签；否则，给出视频非正常(变形或位移)的标签。实验证明，本申请实施例的方法，在短视频识别判断中的准确率可达到90％及以上。

图9是本申请实施例提供的视频帧类型识别方法的一种实现流程示意图，如图9所示，在抽取到视频帧之后，将视频帧901首先输入至人脸检测模型902中进行人脸检测，如果检测到人脸，则将视频帧901输入至二分类模型903中判断人脸部分是否存在变形，并输出最终的判断结果变形或正常；如果未检测到人脸，则将视频帧901输入至三分类模型904中判断视频帧的视频帧类型，并输出最终的判断结果正常、变形或位移。当二分类模型903和三分类模型904同时输出有判断结果时，判断二分类模型903和三分类模型904的输出结果是否相同，如果相同，则将相同的结果确定为该视频帧的最终识别结果，如果不相同，则本次识别过程无效，或者，当二分类模型903和三分类模型904中的任意一个的输出结果是变形或位移时，则确定出视频帧的最终识别结果为变形或位移；当二分类模型903和三分类模型904的输出结果均是正常时，则确定出视频帧的最终识别结果为正常。

图10是本申请实施例提供的视频帧类型识别方法的另一种实现流程示意图，如图10所示，在抽取到视频帧之后，将视频帧901不仅输入至人脸检测模型902中进行人脸检测，还直接输入至三分类模型904中判断视频帧的视频帧类型，其中，三分类模型904输出最终的判断结果正常、变形或位移。人脸检测模型902如果检测到人脸，则将视频帧901输入至二分类模型903中判断人脸部分是否存在变形，并输出最终的判断结果变形或正常；如果未检测到人脸，则结束本分支的视频帧处理过程。当二分类模型903和三分类模型904同时输出有判断结果时，判断二分类模型903和三分类模型904的输出结果是否相同，如果相同，则将相同的结果确定为该视频帧的最终识别结果，如果不相同，则本次识别过程无效。

本申请实施例提供的视频处理方法，采用基于深度学习的视频识别模型来实现，该视频识别模型可以对短视频的质量进行评价，即该视频识别模型可以直接使得后台服务器对短视频的变形、位移进行评价，可以省去大量人力成本，同时拒绝变形、位移等低质视频被上传至后台服务器，增强平台的视频质量以及提升用户体验。

下面继续说明本申请实施例提供的视频处理装置354实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器350的视频处理装置354中的软件模块可以是服务器300中的视频处理装置，所述装置包括：

视频帧抽取模块3541，用于响应于视频处理请求，对待处理视频进行视频帧抽取，得到至少一视频帧；

二分类变形识别模块3542，用于当确定出所述至少一视频帧中的任一视频帧中具有目标对象时，对具有所述目标对象的视频帧进行二分类变形识别，得到所述视频帧的二分类识别结果；

三分类图像识别模块3543，用于对所述至少一视频帧中的每一视频帧进行三分类图像识别，对应得到所述每一视频帧的三分类识别结果；

图像识别结果确定模块3544，用于对每一具有所述目标对象的视频帧的所述二分类识别结果和所述三分类识别结果进行融合，得到对应的具有所述目标对象的视频帧的图像识别结果；将每一不具有所述目标对象的视频帧的所述三分类识别结果，确定为对应的不具有所述目标对象的视频帧的所述图像识别结果；

视频处理模块3545，用于根据所述至少一视频帧中的每一视频帧的所述图像识别结果，对所述待处理视频进行处理。

在一些实施例中，所述视频帧抽取模块还用于：按照等间距时长或不等间距时长对所述待处理视频进行分割，得到至少两个视频片段；在每一所述视频片段中抽取一帧视频帧，以得到至少两帧视频帧；对所述至少两帧视频帧进行视频过滤，以去除所述至少两帧视频帧中的非合格视频帧，得到过滤后的视频帧；将所述过滤后的视频帧，确定为所述视频帧抽取后所得到的所述至少一视频帧。

在一些实施例中，所述二分类变形识别模块还用于：将具有所述目标对象的视频帧输入至二分类模型中，其中，所述二分类模型至少包括视频帧特征提取层和分类处理层；通过所述二分类模型中的视频帧特征提取层对所述视频帧进行特征提取，得到提取特征；通过所述二分类模型中的分类处理层，对所述提取特征进行所述二分类变形识别，得到所述视频帧的二分类识别结果；其中，所述二分类识别结果包括视频帧正常和视频帧变形。

在一些实施例中，所述三分类图像识别模块还用于：对所述至少一视频帧中的每一视频帧进行特征提取，得到视频帧特征图；对所述视频帧特征图进行SE处理，得到SE特征图；对所述SE特征图进行下采样处理，得到下采样特征图；对经过至少一次所述SE处理和所述下采样处理之后所得到的下采样特征图，进行自适应降采样处理，对应得到至少一个自适应特征向量；对所述至少一个自适应特征向量，依次进行向量融合和全连接处理，得到所述视频帧的三分类识别结果。

在一些实施例中，所述三分类图像识别模块还用于：在第N次所述SE处理和所述下采样处理时，是对经过N-1次所述SE处理和所述下采样处理之后所得到的下采样特征图，依次进行所述SE处理和所述下采样处理，以得到经过N次下采样处理之后所得到的下采样特征图；并且，对经过N次下采样处理之后所得到的下采样特征图，进行所述自适应降采样处理，对应得到至少一个自适应特征向量；其中，N为大于1的整数。

在一些实施例中，所述三分类识别结果包括以下视频帧标签中的任意一个：正常标签、变形标签和位移标签，以及，每一标签对应的置信度；所述装置还包括：确定模块，用于根据所述视频帧标签和所述置信度，确定所述视频帧的视频帧类型。

在一些实施例中，所述三分类图像识别模块还用于：采用三分类模型对所述至少一视频帧中的每一视频帧进行三分类图像识别，对应得到所述每一视频帧的三分类识别结果；其中，所述三分类模型通过以下步骤进行训练：将样本图像输入至所述三分类模型中，通过所述三分类模型中的特征提取层，对所述样本图像进行特征提取，得到样本特征图；通过所述三分类模型中的SE网络层，对所述样本特征图进行SE处理，得到样本SE特征图；通过所述三分类模型中的下采样处理层，对所述样本SE特征图进行下采样处理，得到样本下采样特征图；通过所述三分类模型中的自适应降采样处理层，对经过至少一次所述SE处理和所述下采样处理之后所得到的样本下采样特征图，进行自适应降采样处理，对应得到至少一个样本自适应特征向量；对所述至少一个样本自适应特征向量，依次进行向量融合和全连接处理，得到所述样本图像的样本识别结果；将所述样本识别结果输入至预设损失模型中，得到损失结果；根据所述损失结果对所述三分类模型中的参数进行反向传播，以修正所述参数，实现对所述三分类模型的训练。

在一些实施例中，所述视频帧的图像识别结果包括所述视频帧的视频帧类型；所述图像识别结果确定模块还用于：当所述至少一视频帧中的任一视频帧同时具有所述二分类识别结果和所述三分类识别结果时，若所述二分类识别结果与所述三分类识别结果相同，则将所述二分类识别结果对应的视频帧类型或所述三分类识别结果对应的视频帧类型，确定为所述视频帧的图像识别结果；当所所述至少一视频帧中的任一视频帧仅具有所述三分类识别结果时，将所述三分类识别结果对应的视频帧类型，确定为所述视频帧的图像识别结果。

在一些实施例中，所述视频处理模块还用于：根据所述至少一视频帧中的每一视频帧的所述图像识别结果，确定所述待处理视频的视频类型；根据所述视频类型，确定所述待处理视频的处理方式；采用所述处理方式对所述待处理视频进行处理。

在一些实施例中，所述待处理视频的视频类型包括正常视频类型；对应地，所述处理方式包括正常发送；所述视频处理模块还用于：正常发送所述待处理视频。

在一些实施例中，所述待处理视频的视频类型包括变形视频类型或位移视频类型；对应地，所述处理方式包括以下任意一种：禁止发送、变形处理和位移处理；所述视频处理模块还用于：禁止发送所述待处理视频；或者，对所述待处理视频进行所述变形处理，以得到正常视频并发送；或者，对所述待处理视频进行所述位移处理，以得到正常视频并发送。

在一些实施例中，所述视频处理模块还用于：当至少一半数量的视频帧的所述图像识别结果为视频帧正常时，确定所述待处理视频的视频类型为正常视频类型；当大于一半数量的视频帧的所述图像识别结果为视频帧变形或视频帧位移时，对应确定所述待处理视频的视频类型为变形视频类型或位移视频类型；当多帧视频帧对应的所述图像识别结果中同时具有视频帧正常、视频帧变形和视频帧位移时，将具有最大数量的图像识别结果所对应的类型，确定为所述待处理视频的视频类型。

需要说明的是，本申请实施例装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的方法。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3示出的方法。

在一些实施例中，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对待处理视频进行视频帧抽取，得到至少一视频帧，包括：

按照等间距时长或不等间距时长对所述待处理视频进行分割，得到至少两个视频片段；

在每一所述视频片段中抽取一帧视频帧，以得到至少两帧视频帧；

对所述至少两帧视频帧进行视频过滤，以去除所述至少两帧视频帧中的非合格视频帧，得到过滤后的视频帧；

将所述过滤后的视频帧，确定为所述视频帧抽取后所得到的所述至少一视频帧。

3.根据权利要求1所述的方法，其特征在于，所述对具有所述目标对象的视频帧进行二分类变形识别，得到所述视频帧的二分类识别结果，包括：

将具有所述目标对象的视频帧输入至二分类模型中，其中，所述二分类模型至少包括视频帧特征提取层和分类处理层；

通过所述二分类模型中的视频帧特征提取层对所述视频帧进行特征提取，得到提取特征；

通过所述二分类模型中的分类处理层，对所述提取特征进行所述二分类变形识别，得到所述视频帧的二分类识别结果；

其中，所述二分类识别结果包括视频帧正常和视频帧变形。

4.根据权利要求1所述的方法，其特征在于，所述对所述至少一视频帧中的每一视频帧进行三分类图像识别，对应得到所述每一视频帧的三分类识别结果，包括：

对所述至少一视频帧中的每一视频帧进行特征提取，得到视频帧特征图；

对所述视频帧特征图进行SE处理，得到SE特征图；

对所述SE特征图进行下采样处理，得到下采样特征图；

对经过至少一次所述SE处理和所述下采样处理之后所得到的下采样特征图，进行自适应降采样处理，对应得到至少一个自适应特征向量；

对所述至少一个自适应特征向量，依次进行向量融合和全连接处理，得到所述视频帧的三分类识别结果。

5.根据权利要求4所述的方法，其特征在于，所述对经过至少一次所述SE处理和所述下采样处理之后所得到的下采样特征图，进行自适应降采样处理，对应得到至少一个自适应特征向量，包括：

在第N次所述SE处理和所述下采样处理时，是对经过N-1次所述SE处理和所述下采样处理之后所得到的下采样特征图，依次进行所述SE处理和所述下采样处理，以得到经过N次下采样处理之后所得到的下采样特征图；并且，

对经过N次下采样处理之后所得到的下采样特征图，进行所述自适应降采样处理，对应得到至少一个自适应特征向量；

其中，N为大于1的整数。

6.根据权利要求4所述的方法，其特征在于，所述三分类识别结果包括以下视频帧标签中的任意一个：正常标签、变形标签和位移标签，以及，每一标签对应的置信度；所述方法还包括：

根据所述视频帧标签和所述置信度，确定所述视频帧的视频帧类型。

7.根据权利要求1所述的方法，其特征在于，所述对所述至少一视频帧中的每一视频帧进行三分类图像识别，对应得到所述每一视频帧的三分类识别结果，包括：

采用三分类模型对所述至少一视频帧中的每一视频帧进行三分类图像识别，对应得到所述每一视频帧的三分类识别结果；

其中，所述三分类模型通过以下步骤进行训练：

将样本图像输入至所述三分类模型中，通过所述三分类模型中的特征提取层，对所述样本图像进行特征提取，得到样本特征图；

通过所述三分类模型中的SE网络层，对所述样本特征图进行SE处理，得到样本SE特征图；

通过所述三分类模型中的下采样处理层，对所述样本SE特征图进行下采样处理，得到样本下采样特征图；

通过所述三分类模型中的自适应降采样处理层，对经过至少一次所述SE处理和所述下采样处理之后所得到的样本下采样特征图，进行自适应降采样处理，对应得到至少一个样本自适应特征向量；

对所述至少一个样本自适应特征向量，依次进行向量融合和全连接处理，得到所述样本图像的样本识别结果；

将所述样本识别结果输入至预设损失模型中，得到损失结果；

根据所述损失结果对所述三分类模型中的参数进行反向传播，以修正所述参数，实现对所述三分类模型的训练。

8.根据权利要求1所述的方法，其特征在于，所述视频帧的图像识别结果包括所述视频帧的视频帧类型；

所述对每一具有所述目标对象的视频帧的二分类识别结果和所述三分类识别结果进行融合，得到对应的具有所述目标对象的视频帧的图像识别结果，包括：

当所述至少一视频帧中的任一视频帧同时具有所述二分类识别结果和所述三分类识别结果时，若所述二分类识别结果与所述三分类识别结果相同，则将所述二分类识别结果对应的视频帧类型或所述三分类识别结果对应的视频帧类型，确定为所述视频帧的图像识别结果；

所述将每一不具有所述目标对象的视频帧的所述三分类识别结果，确定为对应的不具有所述目标对象的视频帧的所述图像识别结果，包括：

当所述至少一视频帧中的任一视频帧仅具有所述三分类识别结果时，将所述三分类识别结果对应的视频帧类型，确定为所述视频帧的图像识别结果。

9.根据权利要求1所述的方法，其特征在于，所述根据所述至少一视频帧中的每一视频帧的所述图像识别结果，对所述待处理视频进行处理，包括：

根据所述至少一视频帧中的每一视频帧的所述图像识别结果，确定所述待处理视频的视频类型；

根据所述视频类型，确定所述待处理视频的处理方式；

采用所述处理方式对所述待处理视频进行处理。

10.根据权利要求9所述的方法，其特征在于，所述待处理视频的视频类型包括正常视频类型；对应地，所述处理方式包括正常发送；

所述采用所述处理方式对所述待处理视频进行处理，包括：

正常发送所述待处理视频。

11.根据权利要求9所述的方法，其特征在于，所述待处理视频的视频类型包括变形视频类型或位移视频类型；对应地，所述处理方式包括以下任意一种：禁止发送、变形处理和位移处理；

所述采用所述处理方式对所述待处理视频进行处理，包括：

禁止发送所述待处理视频；或者，

对所述待处理视频进行所述变形处理，以得到正常视频并发送；或者，

对所述待处理视频进行所述位移处理，以得到正常视频并发送。

12.根据权利要求9所述的方法，其特征在于，所述根据所述至少一视频帧中的每一视频帧的所述图像识别结果，确定所述待处理视频的视频类型，包括：

当至少一半数量的视频帧的所述图像识别结果为视频帧正常时，确定所述待处理视频的视频类型为正常视频类型；

当大于一半数量的视频帧的所述图像识别结果为视频帧变形或视频帧位移时，对应确定所述待处理视频的视频类型为变形视频类型或位移视频类型；

当多帧视频帧对应的所述图像识别结果中同时具有视频帧正常、视频帧变形和视频帧位移时，将具有最大数量的图像识别结果所对应的类型，确定为所述待处理视频的视频类型。

13.一种视频处理装置，其特征在于，所述装置包括：

14.一种视频处理设备，其特征在于，包括：

存储器，用于存储可执行指令；处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的视频处理方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于引起处理器执行所述可执行指令时，实现权利要求1至12任一项所述的视频处理方法。