CN111104930A

CN111104930A - 视频处理方法、装置、电子设备及存储介质

Info

Publication number: CN111104930A
Application number: CN201911423372.4A
Authority: CN
Inventors: 李岩; 史欣田; 纪彬; 康斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-05
Anticipated expiration: 2039-12-31
Also published as: CN111104930B

Abstract

本申请涉及计算机技术领域，公开了一种视频处理方法、装置、电子设备及存储介质，涉及人工智能技术，利用人工智能中机器学习技术进行视频处理，使得提取的视频特征包含更多视频帧之间的运动信息，提升了对动态视频的特征提取能力，进而提高了视频分类的准确度。所述方法包括：分别获取待处理的视频帧序列中各个视频帧的至少两个第一特征信息；至少获取两个相邻视频帧之间各个第一特征信息对应的差异度；根据两个相邻视频帧之间各个第一特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第一特征信息进行增强处理，其中，增强处理的强度与差异度正相关；基于各个视频帧的增强处理后的第一特征信息，确定视频帧序列对应的类别。

Description

视频处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置、电子设备及存储介质。

背景技术

近年来，视频处理技术得到了快速的发展，已在动作识别、视频分类等领域得到广泛地应用。现有的视频处理方法中，通常是将视频中的每一帧图像当作单独的一幅图片进行处理，以获得每一帧图像的图像特征，然后对每一帧图像的图像特征在时间维度进行融合，以充分利用时间信息进行建模，得到包含与时间信息相关的运动信息的视频特征，最后，基于视频特征确定这一段视频所属的类别。

发明内容

本申请实施例提供一种视频处理方法、装置、电子设备及存储介质，使得提取的视频特征包含更多视频帧之间的运动信息，提升了对动态视频的特征提取能力，进而提高了视频分类的准确度。

一方面，本申请一实施例提供了一种视频处理方法，包括：

分别获取待处理的视频帧序列中各个视频帧的至少两个第一特征信息；

至少获取两个相邻视频帧之间各个第一特征信息对应的差异度；

根据两个相邻视频帧之间各个第一特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第一特征信息进行增强处理，其中，增强处理的强度与差异度正相关；

基于各个视频帧的增强处理后的第一特征信息，确定所述视频帧序列对应的类别。

一方面，本申请一实施例提供了一种视频处理装置，包括：

特征提取模块，用于分别获取待处理的视频帧序列中各个视频帧的至少两个第一特征信息；

差异度计算模块，用于至少获取两个相邻视频帧之间各个第一特征信息对应的差异度；

增强处理模块，用于根据两个相邻视频帧之间各个第一特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第一特征信息进行增强处理，其中，增强处理的强度与差异度正相关；

识别模块，用于基于各个视频帧的增强处理后的第一特征信息，确定所述视频帧序列对应的类别。

可选地，所述识别模块，具体用于：

基于多个特征提取层和至少一个帧间差激活层，分别从各个视频帧的增强处理后的第一特征信息中逐级提取各个视频帧的至少两个第二特征信息，其中，所述至少一个帧间差激活层中的每个帧间差激活层分别设置在所述多个特征提取层中的两个相邻特征提取层之间；

其中，每个特征提取层分别从输入数据中提取各个视频帧的至少两个第二特征信息并输出，其中第一个特征提取层的输入数据包括各个视频帧的增强处理后的第一特征信息，除第一个特征提取层以外的其他各特征提取层的输入数据为特征提取层的上一层输出的数据；

其中，每个帧间差激活层根据位于其上一层的特征提取层输出的各个视频帧的至少两个第二特征信息，至少获取两个相邻视频帧之间各个第二特征信息对应的差异度，根据两个相邻视频帧之间各个第二特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第二特征信息进行增强处理并输出；

根据最后一个特征提取层输出的各个视频帧的第二特征信息，确定所述视频帧序列对应的类别。

可选地，所述识别模块，具体用于：

分别根据两个相邻视频帧之间各个第二特征信息对应的差异度，确定各个第二特征信息对应的权重，权重与差异度正相关；

将两个相邻视频帧中的至少一个视频帧的各个第二特征信息分别乘上各个第二特征信息对应的权重，得到所述一个视频帧的增强处理后的第二特征信息。

可选地，其中，至少一个帧间差激活层和位于其之后的特征提取层之间还包括段间偏移层；

所述识别模块，还用于：

每个段间偏移层根据位于其上一层的帧间差激活层确定的各个视频帧的各个第二特征信息对应的权重，确定各个视频帧的第二特征信息中需要进行偏移处理的第二特征信息，对需要进行偏移处理的第二特征信息进行卷积操作，将卷积操作后的各个视频帧的各个第二特征信息输入位于段间偏移层之后的特征提取层。

可选地，所述识别模块，还用于：

将对应的权重大于权重阈值的第二特征信息，确定为需要进行偏移处理的第二特征信息。

可选地，本申请实施例的视频处理模块还包括获取模块，用于：

将待处理视频划分为预设数量个视频片段；

从每个视频片段中抽取一个视频帧；

按抽取的视频帧的时序，将抽取的视频帧组成所述视频帧序列。

一方面，本申请一实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，本申请一实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现上述任一种方法的步骤。

本申请实施例提供的视频处理方法、装置、电子设备及存储介质，通过相邻视频帧的各个第一特征信息之间的差异度，对各个第一特征信息进行增强处理，且差异度与增强处理的强度正相关，使得包含更多运动信息的第一特征信息得到增强，最终使得提取的视频特征包含更多视频帧之间的运动信息，提升了对动态视频的特征提取能力，进而提高了视频分类的准确度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，显而易见地，下面所介绍的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A为本申请实施例提供的视频处理方法的应用场景示意图；

图1B为本申请实施例提供的视频处理方法的应用场景示意图；

图1C为本申请实施例提供的视频处理方法的应用场景示意图；

图2为本申请一实施例提供的视频处理方法的流程示意图；

图3为本申请一实施例提供的将待处理视频平均划分为16个视频片段的示意图；

图4为本申请一实施例提供的确定各个特征信息对应的差异度的流程示意图；

图5为本申请一实施例提供的对第一特征信息进行增强处理的流程示意图；

图6为本申请一实施例提供的一种神经网络的结构示意图；

图7为本申请一实施例提供的另一种神经网络的结构示意图；

图8为本申请一实施例提供的段间偏移操作的示意图；

图9为本申请一实施例提供的基于残差网络、帧间差激活层和段间偏移层得到的神经网络；

图10为本申请一实施例提供的视频处理方法的流程示意图；

图11为本申请一实施例提供的视频处理装置的结构示意图；

图12为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

动作识别：基于视频的动作识别的目标是通过观察运动目标一系列的动作和相应的环境信息，识别运动目标具体的动作/行为的算法。

手语识别作为人体语言理解的一部分，有着非常重要的作用。一方面，它是虚拟现实人机交互的主要手段；另一方面它又是聋哑人利用计算机与正常人交流的辅助工具。每个手语是由一个手势序列组成，而每个手势是由手形变化序列组成。手语识别的主要任务是根据提取的待识别手语的特征，然后用分类器做分类，确定待识别手语的类别。根据手语输入介质的不同，手语识别系统可分为两种：基于摄象机(视觉)的手语识别系统和基于设备输入(如数据手套、铁笔、鼠标、位置跟踪器等)的手语识别系统。目前，手语识别方法主要有基于模板匹配，神经网络，HMM，DTW等方法。

行人重识别：也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。给定一个监控行人图像，检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限，并可与行人识别/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

光流(dense flow)：一种用于描述由于目标表观运动而产生的特征。

卷积(Convolution)：是图像处理领域、深度卷积神经网络中常见的基本算子，用来融合数据中局部区域与其相邻区域的信息，常见的有1D(一维)卷积、2D(二维)卷积、3D(三维)卷积。

Reshape，是一种可以重新调整矩阵的行数、列数、维数的函数。

终端设备：可以安装各类应用，并且能够将已安装的应用中提供的对象进行显示的设备，该电子设备可以是移动的，也可以是固定的。例如，桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personaldigital assistant，PDA)、销售终端(point of sales，POS)或其它能够实现上述功能的电子设备等。

附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在具体实践过程中，通常是将视频中的每一帧图像当作单独的一幅图片进行处理，以获得每一帧图像的图像特征，然后对每一帧图像的图像特征在时间维度进行融合，以充分利用时间信息进行建模，得到包含与时间信息相关的运动信息的视频特征，最后，基于视频特征确定这一段视频所属的类别。为了使得提取的图像特征能更好地描述图像包含的信息，针对每一幅图像通常会提取从多个不同维度的图像特征，进而提高视频分类的准确度。正因为如此，本申请发明人发现，现有视频处理方法在融合视频中的各个图像的图像特征时，只是在时间维度上对多帧图像的图像特征进行简单的加权融合，这样不加区分地进行特征融合，忽略了不同特征维度的特征所表达意义的不同，例如有些维度的特征更能表现出视频中不变的背景信息，而另外一些维度的特征更能表现出帧与帧之间的运动信息，为此，现有的视频处理方法使得提取的视频特征遗漏了视频中包含的大量运动信息，降低了视频分类的准确度。

为此，本申请发明人提出，在提取视频帧序列的视频特征的过程中，分别基于相邻视频帧的各个特征信息之间的差异度，对视频帧的各个特征信息进行增强处理，由于相邻视频帧之间差异度较大的特征信息更多的包括了视频帧序列中的运动信息，而差异度较小的特征信息更多的包含了视频帧序列中的背景信息，而对视频的分类识别任务更大程度上依赖于对运动信息的建模，因此对这些差异度较大的特征信息进行增强，可以提升运动信息在相应特征信息中的表达能力，有助于提升视频分类的准确度。为此，本申请提供了一种视频处理方法，至少包括如下步骤：分别获取待处理的视频帧序列中各个视频帧的至少两个第一特征信息；至少获取两个相邻视频帧之间各个第一特征信息对应的差异度；根据两个相邻视频帧之间各个第一特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第一特征信息进行增强处理，其中，增强处理的强度与差异度正相关；基于各个视频帧的增强处理后的第一特征信息，确定视频帧序列对应的类别。本申请实施例的视频处理方法，使得提取的视频特征包含更多视频帧之间的运动信息，提升了对动态视频的特征提取能力，进而提高了视频分类的准确度。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例中的视频处理方法可以应用于任何一种视频理解场景，比如动作识别场景，包括手势识别场景、动作交互场景、行为识别场景，也可以应用于视频分类、视频内容审核、视频推荐等，还可以应用于目标识别场景，如行人重识别场景、监控安防场景、智能交通场景以及运动目标识别场景等，甚至还可以基于本申请的视频处理方法提取视频特征，进而实现视频聚类、视频检索等任务。

下面以动作识别场景为例进行示例性说明。如图1A所示，该应用场景包括终端设备101和服务器102。上述终端设备101通过无线或有线网络与服务器102连接，终端设备101是具备图像采集功能的电子设备，比如智能手机、平板电脑、智能机器人、体感游戏设备以及VR(Virtual Reality，虚拟现实技术)设备等，服务器102是一台服务器或若干台服务器组成的服务器集群或云计算中心。

终端设备101采集包含用户的待处理视频，然后将采集的视频发送至服务器102。服务器102可以从接收的待处理视频中提取视频特征，然后基于提取的视频特征确定待处理视频中的用户执行的动作对应的动作类别，并根据存储的动作类别与响应数据的对应关系，确定识别到的动作类别对应的响应数据，将响应数据发送给终端设备101。终端设备101执行服务器返回的响应数据，该响应数据不限于文本数据、音频数据、图像数据、视频数据、语音播报或控制指令等，其中，控制指令包括但不限于：控制终端设备显示表情的指令、控制终端设备的动作部件运动的指令(如引领、导航、拍照、跳舞等)、在终端设备的屏幕上展示道具或特效的指令、控制智能家居的指令等。

图1A所示的应用场景还可以用于手语识别场景。终端设备101采集包含用户比划手语的待处理视频，然后将采集的视频发送至服务器102。服务器102可以从接收的待处理视频中提取视频特征，然后基于提取的视频特征确定待处理视频中的手语动作对应的手语类别，并根据存储的手语类别与语义数据的对应关系，确定识别到的手语类别对应的语义数据，将语义数据发送给终端设备101，该语义数据可以是文本数据或语音数据。终端设备101播放服务器返回的语义数据，使得其他用户能够获知该用户比划的手语对应的意思，使得语言障碍或听觉障碍人士能够无障碍地进行交流。

当然，上述服务器102执行的方法也可以在终端设备101执行。

下面以视频分类、视频推荐为例进行示例性说明。如图1B所示，该应用场景包括多个终端设备111(包括终端设备111-1、终端设备111-2、……终端设备111-n)和服务器112。终端设备可以是具备视频播放功能的电子设备，如机、平板电脑、各类可穿戴设备、视频播放器、智能电视等。服务器112是一台服务器或若干台服务器组成的服务器集群或云计算中心。

任一终端设备111可以向视频播放平台对应的服务器112上传视频，以通过视频播放平台发布录制的视频，任一终端设备111可以向服务器112获取发布在视频播放平台上的视频。服务器112在获取到终端设备111上传的视频后，从该视频中提取视频特征，基于提取的视频特征确定视频帧序列对应的视频类别，将该视频存储到对应的视频类别中。服务器112可基于用户观看视频的偏好确定用户喜欢观看的视频类别，从用户喜欢观看的视频类别中选择多个视频推荐给用户。

下面以目标识别场景为例进行示例性说明，如图1C所示，该应用场景包括监控设备121、服务器122、终端设备123。上述服务器122通过无线网络与监控设备121以及终端设备123连接，监控设备121是具备采集图像功能的电子设备，比如摄像头、摄像机、录像机等，终端设备123是具备网络通信能力的电子设备，该电子设备可以是智能手机、平板电脑或便携式个人计算机等，服务器122是一台服务器或若干台服务器组成的服务器集群或云计算中心。

监控设备121实时采集待处理视频，然后将采集的待处理视频发送至服务器122。服务器122可以从接收的待处理视频中提取视频特征，然后基于提取的视频特征对接收的待处理视频中的运动目标进行识别，提取待处理视频中包含的各个运动目标的特征，将各个对象的特征与目标对象的特征进行比对，确定待处理视频中是否包含目标对象。服务器122在识别到目标对象后，还可以对待处理视频中的目标对象进行标记，然后将标记了目标对象的待处理视频发送至终端设备123，终端设备123上可以播放标记了目标对象的待处理视频，以便对视频中的目标对象进行跟踪和分析。

当然，上述服务器122执行的方法也可以在终端设备123执行。上述待处理视频也可以是监控设备121预先录制的视频。

当然，本申请实施例提供的方法并不限用于图1A、1B、1C所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1A、1B、1C所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

本申请实施例提供的任一视频处理方法可应用于终端设备或服务器，本申请实施例对执行主体不作限定。为方便描述，下面主要以服务器为执行主体进行说明，终端设备作为执行主体的实施方式类似，不再赘述。

下面结合上述应用场景，对本申请实施例提供的技术方案进行说明。

参考图2，本申请实施例提供一种视频处理方法，应用于前述应用场景中的服务器，具体包括以下步骤：

S201、分别获取待处理的视频帧序列中各个视频帧的至少两个第一特征信息。

具体实施时，可从多个特征维度提取各个视频帧的第一特征信息，其中一个特征维度对应一种第一特征信息。例如，当特征维度为8时，可从一个视频帧中提取8种第一特征信息。

本申请实施例对从视频帧中提取特征信息的方法不作限定，可以采用多种图像特征提取方法从视频帧中提取多个第一特征信息，也可以采用神经网络从视频帧中提取多个第一特征信息。

具体实施时，可将待处理视频直接作为待处理的视频帧序列。但是，由于待处理视频通常较长，为提高处理速度，可以按时序从待处理视频的视频中抽取出预设数量个视频帧组成待处理的视频帧序列。

具体地，可通过如下方式获取待处理的视频帧序列：将待处理视频划分为预设数量个视频片段；从每个视频片段中抽取一个视频帧；按抽取的视频帧的时序，将抽取的视频帧组成待处理的视频帧序列。

例如，参考图3，预设数量为16，则将待处理视频平均划分为16个视频片段，从每个视频片段中随机抽取一个视频帧，按抽取的视频帧的时序，将抽取的视频帧组成待处理的视频帧序列{P₁、P₂、…P_t、…P₁₆}，其中，P_t为第t段视频片段中的视频帧，第t段视频片段为与第t+1段视频片段相邻、且位于第t+1段视频片段之前的一个视频片段。

具体实施时，预设数量可根据后续分类处理时对视频帧数量的要求预先设定，例如，后续分类处理需要基于10帧视频帧才可以进行分类识别，则预设数量可以是10。也可以根据待处理视频的长短动态确定预设数量，待处理视频的长度较长时，预设数量的取值可以大些，待处理视频的长度较短时，预设数量的取值可以小些，例如预设数量和待处理视频正相关。

S202、至少获取两个相邻视频帧之间各个第一特征信息对应的差异度。

本申请实施例中的差异度表征两个视频帧在同一特征维度上的特征信息之间的差异大小。例如，视频帧P_t在特征维度C₁上的特征信息为F_t,1，视频帧P_t+1在特征维度C₁上的特征信息为F_t,2，则可计算特征信息F_t,1和特征信息F_t,2之间的差值、距离值等可用于衡量两个数据之间的差异大小的数值，作为特征信息F_t,1和特征信息F_t,2之间的差异度。

具体实施时，视频帧P_t和视频帧P_t+1对应的差异度可以表示为{D_1,t,t+1，D_2,t,t+1，…D_j,t,t+1，…D_J,t,t+1}，其中，D_j,t,t+1表示视频帧P_t的第一特征信息F_j和视频帧P_t+1的第一特征信息F_j之间的差异度，J为特征维度，j＝1,2,…J，t可以取1至T中的任意一个或多个数值，T为视频帧序列包含的视频帧的数量，即T等于预设数量。

例如，视频帧序列为{P₁、P₂、…P_t、…P₁₆}，特征维度为8，则可以依次获取视频帧P₁和视频帧P₂之间各个第一特征信息对应的差异度，视频帧P₂和视频帧P₃之间各个第一特征信息对应的差异度，依次类推，直至获取到视频帧P₁₅和视频帧P₁₆之间各个第一特征信息对应的差异度，一共可获取15组视频帧之间的差异度，每一组差异度中包含8个第一特征信息对应的差异度，视频帧P_t和视频帧P_t+1对应的差异度可以表示为{D_1,t,t+1，D_2,t,t+1，…D_j,t,t+1，…D_8,t,t+1}，其中，D_j,t,t+1表示视频帧P_t的第一特征信息F_t,j和视频帧P_t+1的第一特征信息F_t+1,j之间的差异度，j＝1,2,…8。

S203、根据两个相邻视频帧之间各个第一特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第一特征信息进行增强处理，其中，增强处理的强度与差异度正相关。

具体实施时，增强处理的强度与差异度正相关，即两个相邻视频帧的第一特征信息之间的差异度越大，则对该第一特征信息的增强处理的强度越大。

具体实施时，可以基于步骤S203的方式，对视频帧序列中的每个视频帧的各个第一特征信息进行增强处理，也可以对其中部分视频帧的各个第一特征信息进行增强处理，本申请实施例不作限定。

具体实施时，可以基于步骤S203的方式，对两个相邻视频中的任意一个视频帧的各个第一特征信息进行增强处理，也可以同时对这两个视频帧的各个第一特征信息进行增强处理，本申请实施例不作限定。例如，视频帧P_t和视频帧P_t+1对应的差异度可以表示为(D_1,t,t+1，D_2,t,t+1，…D_j,t,t+1，…D_J,t,t+1)，则可以根据D_1,t,t+1对视频帧P_t的第一特征信息F_t,j或视频帧P_t+1的第一特征信息F_t+1,j进行增强处理，当然也可以根据D_1,t,t+1同时对视频帧P_t的第一特征信息F_t,j和视频帧P_t+1的第一特征信息F_t+1,j进行增强处理。

由于相邻视频帧之间差异度较大的特征信息更多的包含了视频帧序列中的运动信息，而差异度较小的特征信息更多的包含了视频帧序列中的背景信息，而对视频的分类识别任务更大程度上依赖于对运动信息的建模，因此对这些差异度较大的特征信息进行增强，可以提升运动信息在相应特征信息中的表达能力，有助于提升视频分类的准确度。

S204、基于各个视频帧的增强处理后的第一特征信息，确定所述视频帧序列对应的类别。

具体实施时，可以采用常见的分类函数对各个视频帧的增强处理后的第一特征信息进行分类，确定视频帧序列对应的类别。也可以采用神经网络、机器识别的方式，基于各个视频帧的增强处理后的第一特征信息进行进一步地特征提取和识别分类，最终确定视频帧序列对应的类别。

本申请实施例的视频处理方法，通过相邻视频帧的各个第一特征信息之间的差异度，对各个第一特征信息进行增强处理，且差异度与增强处理的强度正相关，使得包含更多运动信息的第一特征信息得到增强，最终使得提取的视频特征包含更多视频帧之间的运动信息，提升了对动态视频的特征提取能力，进而提高了视频分类的准确度。

在上述任一实施方式的基础上，步骤S202具体包括：计算两个相邻视频帧之间各个第一特征信息对应的第一差异度；根据至少两个第一特征信息对应的第一差异度，确定至少两个第一特征信息中的一个第一特征信息对应的差异度。

具体实施时，不同的特征提取方式会产生不同形式的第一特征信息，一般可能产生以下几类第一特征信息：数值型、向量型或矩阵型。针对不同的类型的特征信息，可采用不同的方法计算对应的第一差异度，不限于申请实施例中所列的方法。

其中，数值型是指每个视频帧的一个第一特征信息为表征某一图像特征的数值，例如，视频帧的亮度为50，视频帧的清晰度为25。此时，可以计算两个相邻视频帧的第一特征信息之间的差值的绝对值，作为对应的第一差异度。例如，视频帧P_t的第j个第一特征信息F_t,j＝A，视频帧P_t+1的第j个第一特征信息F_t+1,j＝B，则第一特征信息F_t,j和第一特征信息F_t+1,j之间的第一差异度可以是|A-B|，同理可计算得到其他第一特征信息之间的第一差异度。

向量型是指用一个一维向量表示每个视频帧的一个第一特征信息，例如一个向量型的第一特征信息F_t,j可以表示为向量(f₁,f₂,…,f_N)。此时，可以计算两个相邻视频帧P_t和P_t+1的第一特征信息F_t,j和F_t+1,j之间的向量距离，作为第一特征信息F_t,j和F_t+1,j之间对应的第一差异度；也可以计算F_t,j的向量(f₁,f₂,…,f_N)和F_t+1,j的向量(f’₁,f’₂,…,f’_N)中各个元素的差值的平均值，作为第一特征信息F_t,j和F_t+1,j之间对应的第一差异度，即第一差异度等于

矩阵型是指用一个二维矩阵表示每个视频帧的一个第一特征信息，如光流特征，或者通过神经网络提取的特征。例如一个矩阵型的第一特征信息F_t,j可以表示为矩阵

此时，可以计算F_t,j的矩阵

和F_t+1,j的矩阵

中各个元素的差值的平均值，作为第一特征信息F_t,j和F_t+1,j之间对应的第一差异度，即第一差异度等于

在一种可能的实施方式中，可以直接将两个相邻视频帧之间各个第一特征信息对应的第一差异度，作为这两个相邻视频帧之间各个第一特征信息对应的差异度。

在另一种可能的实施方式中，可以融合不同特征维度的第一差异度，得到各个特征维度对应的差异度，进一步增强连续视频帧之间的关联性对各个特征维度所产生的影响。具体地，可以采用两次卷积的方式融合不同特征维度上的特征信息。

为此，参考图4，步骤S202中的根据至少两个第一特征信息对应的第一差异度，确定至少两个第一特征信息中的一个第一特征信息对应的差异度，具体包括如下步骤：

S401、对第一差异度向量进行卷积操作，得到第二差异度向量，第一差异度向量包括各个第一特征信息对应的第一差异度。

其中，两个相邻视频帧P_t和P_t+1对应的第一差异度向量可以表示为(d_1,t,t+1，d_2,t,t+1，…d_j,t,t+1，…d_J,t,t+1)，d_j,t,t+1为视频帧P_t和P_t+1的第j个特征维度的特征信息之间的第一差异度。

步骤S401中的卷积操作，即是对相邻的多个特征维度的第一差异度进行加权处理，进而融合多个特征维度的特征信息。具体实施时，步骤S401中的卷积操作所采用的卷积核可根据融合需求确定，例如，只需要融合相邻的三个特征维度，则卷积核可以是[k₁,k₂,k₃]，第j个特征维度的特征信息对应的第二差异度为d’_j,t,t+1＝k₁ d_j-1,t,t+1+k₂d_j,t,t+1+k₃d_j+1,t,t+1，这样可以得到包含(J-2)个元素的第二差异度向量，即第二差异度向量包含的元素数量被压缩。

具体实施时，可以采用其他的卷积核，以使融合更多特征维度的特征信息，例如，可以将第二差异度向量中包含的元素数量压缩至第一差异度向量中包含的元素数量的一半。

S402、对第二差异度向量进行卷积操作，得到第三差异度向量，第三差异度向量的长度等于第一差异度向量的长度。

步骤S402中的卷积操作本质上是对第二差异度向量中的元素进行扩充，使得扩充后得到的第三差异度向量中包含的元素数量与第一差异度向量中包含的元素数量一致，方便后续处理。

S403、分别将第三差异度向量中各个第一特征信息对应的第三差异度作为各个第一特征信息对应的差异度。

例如，第一差异度向量为(d_1,t,t+1，d_2,t,t+1，…d_j,t,t+1，…d_J,t,t+1)，卷积操作使用的卷积核是[k₁,k₂,k₃]，第一差异度向量经过第一次卷积操作后，得到第二差异度向量(d’_2,t,t+1，…d’_j,t,t+1，…d’_J-1,t,t+1)，再对第二差异度向量进行第二次卷积操作，得到第三差异度向量(d”_1,t,t+1，…d”_j,t,t+1，…d”_J,t,t+1)，其中，d”_j,t,t+1即为第j个特征维度对应的第一特征信息的差异度D_j,t,t+1。其中，第一次卷积操作和第二次卷积操作使用的卷积核是不同的。

通过图4所示的卷积和卷积操作，可以快速融合不同特征维度的第一差异度，得到各个特征维度对应的差异度，进一步挖掘出各个特征维度之间的相互影响，以提高特征提取的准确度，进而提高后续分类的准确度。

在上述任一实施方式的基础上，步骤S203具体包括：分别根据两个相邻视频帧之间各个第一特征信息对应的差异度，确定各个第一特征信息对应的权重，权重与差异度正相关；将两个相邻视频帧中的至少一个视频帧的各个第一特征信息分别乘上各个第一特征信息对应的权重，得到这个视频帧的增强处理后的第一特征信息。

具体实施时，可基于sigmoid函数确定第一特征信息对应的权重，sigmoid函数为

为了保证权重大于1，且保留背景信息，可在sigmoid函数的基础上得到计算权重的公式：权重

其中，x为第一特征信息的差异度，

的取值为(0，1)，权重W的范围为1～2。权重W的大小代表着帧间信息的差异大小，帧间信息差异越大的地方，其产生的权重越接近于2。

当然也可以采用其他的公式确定第一特征信息对应的权重，本申请实施例不作限定。

在一种可能的实施方式中，可根据两个相邻视频的各个第一特征信息对应的权重，对两个相邻视频中时序靠前的视频帧的各个第一特征信息进行增强处理。例如，视频帧P_t和视频帧P_t+1对应的差异度可以表示为(D_1,t,t+1，D_2,t,t+1，…D_j,t,t+1，…D_J,t,t+1)，则根据D_j,t,t+1确定视频帧P_t的第一特征信息F_t,j的权重为W_t,j，则视频帧P_t的第j个特征维度对应的增强处理后的特征信息为W_t,jF_t,j，同理可确定视频帧P_t在其他特征维度上对应的增强处理后的特征信息；视频帧P_t+1和视频帧P_t+2对应的差异度可以表示为(D_1,t+1,t+2，D_2,t+1,t+2，…D_j,t+1,t+2，…D_J,t+1,t+2)，则根据D_j,t+1,t+2确定视频帧P_t+1的第一特征信息F_t+1,j的权重为W_t+1,j，则视频帧P_t+1的第j个特征维度对应的增强处理后的特征信息为W_t+1,jF_t+1,j，同理可确定视频帧P_t+1在其他特征维度上对应的增强处理后的特征信息；依次类推，可以得到各个视频帧的增强处理后的特征信息。其中，对于最后一个视频帧P_T，可以选择不进行增强处理，或者利用视频帧P_T-1对应的权重对视频帧P_T的各个第一特征信息进行增强处理，即视频帧P_T的第j个特征维度对应的增强处理后的特征信息为W_T-1,jF_T,j。

在另一种可能的实施方式中，可根据两个相邻视频的各个第一特征信息对应的权重，对两个相邻视频中时序靠后的视频帧的各个第一特征信息进行增强处理。例如，视频帧P_t和视频帧P_t+1对应的差异度可以表示为(D_1,t,t+1，D_2,t,t+1，…D_j,t,t+1，…D_J,t,t+1)，则根据D_j,t,t+1确定视频帧P_t+1的第一特征信息F_t+1,j的权重为W_t+1,j，则视频帧P_t+1的第j个特征维度对应的增强处理后的特征信息为W_t+1,jF_t+1,j，同理可确定视频帧P_t+1在其他特征维度上对应的增强处理后的特征信息；视频帧P_t+1和视频帧P_t+2对应的差异度可以表示为(D_1,t+1,t+2，D_2,t+1,t+2，…D_j,t+1,t+2，…D_J,t+1,t+2)，则根据D_j,t+1,t+2确定视频帧P_t+2的第一特征信息F_t+2,j的权重为W_t+2,j，则视频帧P_t+2的第j个特征维度对应的增强处理后的特征信息为W_t+2,jF_t+2,j，同理可确定视频帧P_t+2在其他特征维度上对应的增强处理后的特征信息；依次类推，可以得到各个视频帧的增强处理后的特征信息。其中，对于第一个视频帧P₁，可以选择不进行增强处理，或者利用视频帧P₂对应的权重对视频帧P₁的各个第一特征信息进行增强处理，即视频帧P₁的第j个特征维度对应的增强处理后的特征信息为W_2,jF_1,j。

在另一种可能的实施方式中，根据相邻的三个视频帧中，两组相邻视频帧之间各个第一特征信息对应的权重，对这三个视频帧中位于中间的视频帧的各个第一特征信息进行增强处理。例如，根据视频帧P_t-1和视频帧P_t之间的第j个特征维度的差异度D_j,t-1,t确定出权重W_t-1,j，根据视频帧P_t和视频帧P_t+1之间的第j个特征维度的差异度D_j,t,t+1确定出权重W_t,j，则可以根据权重W_t-1,j和权重W_t,j确定出视频帧P_t的第j个特征维度对应的权重W’_t,j，视频帧P_t的第j个特征维度对应的增强处理后的特征信息为W’_t,jF_1,j，其中，W’_t,j可以等于(W_t-1,j+W_t,j)，也可以等于W_t-1,j和W_t,j的加权平均值，本申请实施例不作限定。其中，对于第一个视频帧P₁，可以选择不进行增强处理，或者利用视频帧P₁和视频帧P₂确定出各个第一特征信息的权重，对视频帧P₁的各个第一特征信息进行增强处理，即视频帧P₁的第j个特征维度对应的增强处理后的特征信息为W_1,jF_1,j。对于最后一个视频帧P_T，可以选择不进行增强处理，或者利用视频帧P_T-1和视频帧P_T确定出各个第一特征信息的权重，对视频帧P_T的各个第一特征信息进行增强处理，即视频帧P_T的第j个特征维度对应的增强处理后的特征信息为W_T-1,jF_T,j。

基于与某一视频帧前后相邻的两个视频帧之间的差异度，对该视频帧进行增强处理，总共融合了相邻三帧视频之间的运动信息，进一步增强连续视频帧之间的关联性对各个特征维度所产生的影响，以提高特征提取的准确度，进而提高后续分类的准确度。

下面以矩阵型的第一特征信息为例，对增强过程进行说明。参考图5，每个视频帧的所有第一特征信息可表示为C×H×W维度的矩阵，其中C为特征维度(也可以称为特征通道)的数量，H×W表示一个二维的第一特征信息，则视频帧序列的第一特征信息可表示为一个T×C×H×W维度的特征矩阵X，T为视频帧序列中视频帧的数量。

参考图5，将相邻两个视频帧之间的维度为C×H×W的特征矩阵相减，得到相邻两个视频帧之间的维度为(T-1)×C×H×W的第一差异度矩阵A₁；然后对第一差异度矩阵A₁进行末位补零处理，得到维度为T×C×H×W的第二差异度矩阵A₂；接着在空间维度H×W上对第二差异度矩阵A₂进行平均处理，得到维度为T×C×1的第三差异度矩阵A₃，即得到每个视频帧在各个特征维度对应的差异度；然后，利用一维卷积核对维度为T×C×1的第三差异度矩阵A₃在特征维度C上进行卷积操作，将第三差异度矩阵A₃的维度压缩为T×C/16×1，再对压缩后的第三差异度矩阵A₃在特征维度C上进行卷积操作，将第三差异度矩阵A₃的维度还原为T×C×1；接着，利用sigmoid函数，确定还原后的第三差异度矩阵A₃中每个元素对应的权重，得到维度为T×C×1的权重矩阵W，并将权重矩阵W的维度扩展至T×C×H×W，其中，每个视频帧的每个特征维度C中的所有元素对应同一的权重值，此处使用的权重计算公式为

扩展后的权重矩阵W与特征矩阵X进行点乘，得到加权特征矩阵X₁，最后将加权特征矩阵X₁与特征矩阵X相加，得到视频帧序列对应的增强处理后的特征矩阵X₂。

考虑到静态的背景信息在某些情况下对于识别动作类别仍然是有帮助的，如果把这些特征完全抑制了会影响动作识别的性能，因此将输入的特征矩阵X与加权特征矩阵X₁相加，得到最终的特征矩阵X₂，通过这样的操作，建模运动信息的特征维度上的特征信息得到增强，建模静态信息的特征维度上的特征信息得以保持不变，这样就能得到既能增强运动信息又能尽可能保持原始静态环境信息的特征，从而实现了对于视频序列中的时间信息更合理更有效地建模。将输入的特征矩阵X与加权特征矩阵X₁相加的操作，即相当于权重公式

中的“+1”操作。

本申请实施例的视频处理方法，利用相邻视频帧之间的特征信息的差异度，产生各特征维度的特征信息对应的权重，这个权重的大小代表着帧间特征信息的差异大小，利用各特征维度对应的权重，对原始的视频特征进行重新规整(recalibration)，使得帧间特征信息差异度较大的特征信息得到增强。通过度量帧间特征信息差异度的方式，更好地实现了对视频中时间信息的建模，提升了后续分类识别的精度。

在上述任一实施方式的基础上，可将各个视频帧的增强处理后的第一特征信息输入已训练的神经网络中，通过神经网络从增强处理后的第一特征信息中逐级提取特征信息，最终确定视频帧序列对应的类别。其中，神经网络包括但不限于：残差网络(ResidualNetwork,ResNet)卷积神经网络(Convolutional Neural Networks，CNN)或者VGG模型(Visual Geometry Group Network)。

具体实施时，为了提高神经网络提取特征信息的能力，在现有的神经网络中增加了帧间差激活层。参考图6，神经网络60包括多个特征提取层、至少一个帧间差激活层、以及一个分类层，其中，至少一个帧间差激活层中的每个帧间差激活层分别设置在多个特征提取层中的两个相邻特征提取层之间，分类层设置在最后一个特征提取层之后。

为此，步骤S204具体包括：基于多个特征提取层和至少一个帧间差激活层，分别从各个视频帧的增强处理后的第一特征信息中逐级提取各个视频帧的至少两个第二特征信息；根据最后一个特征提取层输出的各个视频帧的第二特征信息，确定视频帧序列对应的类别。

其中，每个特征提取层分别从输入数据中提取各个视频帧的至少两个第二特征信息并输出，其中第一个特征提取层的输入数据包括各个视频帧的增强处理后的第一特征信息，除第一个特征提取层以外的其他各特征提取层的输入数据为特征提取层的上一层输出的数据。每个特征提取层可输出各视频帧在多个特征通道(即特征维度)上对应的第二特征信息。

其中，每个帧间差激活层根据位于其上一层的特征提取层输出的各个视频帧的至少两个第二特征信息，至少获取两个相邻视频帧之间各个第二特征信息对应的差异度，根据两个相邻视频帧之间各个第二特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第二特征信息进行增强处理并输出。

其中，分类层根据最后一个特征提取层输出的各个视频帧的第二特征信息，确定视频帧序列对应的类别。

具体实施时，分类层可以是全连接层(Fully Connected layer，FC)、Softmax层等，本申请实施例不作限定。

具体实施时，分类层也可以获取最后一个特征提取层输出的各个视频帧在各个特征通道上的第二特征信息，将各个特征通道上的所有视频帧的第二特征信息进行加权平均，得到视频帧序列对应的视频特征，以便根据视频特征实现视频聚类等功能。通过全连接层(Fully Connected layer，FC)，即可将各个视频帧的第二特征信息进行融合成视频特征。

具体实施时，每个特征提取层可包含的特征通道的数量可以相同，也可以不同。

具体实施时，每个特征提取层中，根据两个相邻视频帧之间各个第二特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第二特征信息进行增强处理的步骤，具体包括：分别根据两个相邻视频帧之间各个第二特征信息对应的差异度，确定各个第二特征信息对应的权重，差异度和权重正相；将两个相邻视频帧中的至少一个视频帧的各个第二特征信息分别乘上各个第二特征信息对应的权重，得到所述一个视频帧的增强处理后的第二特征信息。

进一步地，每个帧间差激活层中，获取两个相邻视频帧之间各个第二特征信息对应的差异度的步骤，具体包括：计算两个相邻视频帧之间各个第二特征信息对应的第一差异度；根据至少两个第二特征信息对应的第一差异度，确定至少两个第二特征信息中的一个第二特征信息对应的差异度。

进一步地，每个帧间差激活层中，根据至少两个第二特征信息对应的第一差异度，确定至少两个第二特征信息中的一个第二特征信息对应的差异度，具体包括：对第一差异度向量进行卷积操作，得到第二差异度向量，第一差异度向量包括各个第二特征信息对应的第一差异度；对第二差异度向量进行卷积操作，得到第三差异度向量，第三差异度向量的长度等于第一差异度向量的长度；分别将第三差异度向量中各个第二特征信息对应的第三差异度作为各个第二特征信息对应的差异度。

上述帧间差激活层的功能即是对位于其上一层的特征提取层输出的各个视频帧的第二特征信息进行增强处理，以逐级增强第二特征信息中对运动信息敏感的特征通道对应的特征信息，从而使得最终提取的视频特征中包含更多的运动信息，提高分类准确度。帧间差激活层内的增强处理方式可参考前述对第一特征信息的增强处理方式，不再赘述。

在上述任一实施方式的基础上，为了进一步提高分类准确度，可在神经网络60中增加段间偏移层，通过段间偏移层在相邻视频帧之间进行信息交换。参考图7，神经网络60中，至少一个帧间差激活层和位于其之后的特征提取层之间设置了一个段间偏移层。

为此，步骤S204还包括：每个段间偏移层根据位于其上一层的帧间差激活层确定的各个视频帧的各个第二特征信息对应的权重，确定各个视频帧的第二特征信息中需要进行偏移处理的第二特征信息，对需要进行偏移处理的第二特征信息进行卷积操作，将卷积操作后的各个视频帧的各个第二特征信息输入位于段间偏移层之后的特征提取层。

进一步地，每个段间偏移层中，确定各个视频帧的第二特征信息中需要进行偏移处理的第二特征信息的步骤，具体包括：将对应的权重大于权重阈值的第二特征信息，确定为需要进行偏移处理的第二特征信息。

其中，权重阈值可由本领域技术人员根据不同的应用需求确定，本申请实施例不作限定。

具体实施时，段间偏移层在进行卷积操作时，可从预设的多个卷积核中随机选取一个卷积核进行卷积操作。每个需要进行偏移处理的第二特征信息可采用不同的卷积核进行卷积处理。卷积核的具体形式可由本领域技术人员根据不同的应用需求确定，例如可以是[1,0,0]、[0,0,1]、[0,0,0,0,1]、[0.3,0.5,0.2]等。

下面结合图8对段间偏移层的段间偏移(shift)原理进行说明。段间偏移(shift)可以看作按照一定的模式在相邻视频段之间进行段间信息交换。具体来说，以图8为例，位于该段间偏移层上一层的帧间差激活层中，C＝1特征通道的第二特征信息对应的权重大于权重阈值，C＝2特征通道的第二特征信息对应的权重大于权重阈值，其他特征通道对应的权重均小于权重阈值，则确定C＝1、C＝2这两个特征通道对应的第二特征信息需要进行偏移处理。假设为C＝1特征通道随机选取的卷积核为[1,0,0]，即沿着时间维度对C＝1特征通道上的第二特征信息进行卷积，这相当于C＝1特征通道上的第二特征信息沿着时间维度T进行正向偏移，即在C＝1特征通道的第二特征信息向下平移一格。假设为C＝2特征通道随机选取的卷积核为[0,0,1]，即沿着时间维度对C＝2特征通道上的第二特征信息进行卷积，这相当于C＝2特征通道上的第二特征信息沿着时间维度T进行反向偏移，即在C＝2特征通道上的第二特征信息向上平移一格。图8中的右边的图即对应段间偏移层输入的偏移后的各个视频帧在各个特征通道上的第二特征信息，此时，视频帧P₂的第二特征信息中包含了视频帧P₁在C＝1特征通道上的第二特征信息，还包括视频帧P₃在C＝2特征通道上的第二特征信息。可见通过段间偏移可在时间维度上对各个视频帧的第二特征信息进行简单的加权融合，实现相邻视频帧之间的进行特征信息交换。

上述实施方式，利用帧间差激活层中确定出每个特征通道对应的权重，决定需要进行偏移处理的特征通道，自适应调整段间偏移过程中的加权融合模式，使得包含更多运动信息的特征通道进行偏移以实现时间信息融合，而包含更多静态信息的特征通道则尽可能保持不变，提高特征提取的准确度。

下面以残差网络为例，介绍一下以残差网络作为基础网络得到的神经网络。参考图9为，基于残差网络、帧间差激活层和段间偏移层得到的神经网络，通过残差网络逐级提取视频帧序列的特征信息。神经网络中的每一个残差层的输入为维度为T×C×H×W的特征矩阵X，特征矩阵X输入帧间差激活层后得到增强后的特征矩阵X，然后经过段间偏移层对增强后的特征矩阵X进行偏移操作，然后依次对偏移操作后的特征矩阵进行空间1×1的卷积处理、空间3×3的卷积处理以及空间1×1的卷积处理，并融合增强后的特征矩阵X，得到当前残差层的输出X’，输入到下一个残差层中。

具体实施时，在神经网络中进行偏移操作的目标是：将每个特征通道中的特征信息沿着时间维度T的正向或反向进行移动。假设输入的特征矩阵X的大小为T×C×H×W，在进行段间偏移之前，可先通过reshape操作，将T时间维度置换到数据的最后一维，同时将空间维度合并，使特征大小变为(H×W)×C×T，可参考图5，然后对于特征维度C中的某些特定维度，算法将其沿着时间T维度向左移动，即X[:,c,t]＝X[:,c,t+1]。同时对于C维特征中的另一些维度，算法的目标是沿着时间维度T的正向或反向进行移动，即X[:,c,t]＝X[:,c,t-1]。Reshape操作在偏移策略中的作用是方便数据的高效移动。

本申请实施例中，神经网络60中包含的特征提取层、帧间差激活层和段间偏移层的数量可根据需求自行设置，不限于本申请实施例中所列举的示例。

在一种可能的实施方式中，步骤S201、步骤S202也可以通过神经网络中的网络层实现，例如，步骤S201可通过神经网络60中的特征提取层实现，步骤S202可通过神经网络60中的帧间差激活层实现。参考图10，本申请实施例提供了一种视频处理方法，包括以下步骤：

S1001、获取待处理视频的视频帧序列。

S1002、将视频帧序列输入已训练的神经网络，得到视频帧序列对应的类别。

具体实施时，步骤S1002中的神经网络可以是图6所示的神经网络。

其中，每个特征提取层分别从输入数据中提取各个视频帧的至少两个特征信息并输出，其中第一个特征提取层的输入数据包括视频帧序列，除第一个特征提取层以外的其他各特征提取层的输入数据为特征提取层的上一层输出的数据。

其中，每个帧间差激活层根据位于其上一层的特征提取层输出的各个视频帧的至少两个特征信息，至少获取两个相邻视频帧之间各个特征信息对应的差异度，根据两个相邻视频帧之间各个特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个特征信息进行增强处理并输出。

其中，分类层根据最后一个特征提取层输出的各个视频帧的特征信息，确定视频帧序列对应的类别。

具体实施时，步骤S1002中的神经网络还可以是图7所示的神经网络。其中，特征提取层、帧间差激活层和分类层的功能与图6中的相同，不再赘述。每个段间偏移层根据位于其上一层的帧间差激活层确定的各个视频帧的各个第二特征信息对应的权重，确定各个视频帧的第二特征信息中需要进行偏移处理的第二特征信息，对需要进行偏移处理的第二特征信息进行卷积操作，将卷积操作后的各个视频帧的各个第二特征信息输入位于段间偏移层之后的特征提取层。

具体实施时，步骤S1002中的神经网络还可以是图9所示的神经网络。

本申请实施例的视频处理方法，使得基于这些增强处理后的特征信息中，对于运动信息敏感的特征得以增强，从而使得模型能够拥有更强的时间信息建模能力，使得提取的视频特征包含更多的运动信息，有助于提升对动态视频的特征提取能力，进而提高后续动作识别、视频分类的准确度。

如图11所示，基于与上述视频处理方法相同的发明构思，本申请实施例还提供了一种视频处理装置110，包括：特征提取模块1101、差异度计算模块1102、增强处理模块1103和识别模块1104。

特征提取模块1101，用于分别获取待处理的视频帧序列中各个视频帧的至少两个第一特征信息。

差异度计算模块1102，用于至少获取两个相邻视频帧之间各个第一特征信息对应的差异度。

增强处理模块1103，用于根据两个相邻视频帧之间各个第一特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第一特征信息进行增强处理，其中，增强处理的强度与差异度正相关。

识别模块1104，用于基于各个视频帧的增强处理后的第一特征信息，确定视频帧序列对应的类别。

可选地，增强处理模块1103，具体用于：分别根据两个相邻视频帧之间各个第一特征信息对应的差异度，确定各个第一特征信息对应的权重，权重与差异度正相关；将两个相邻视频帧中的至少一个视频帧的各个第一特征信息分别乘上各个第一特征信息对应的权重，得到一个视频帧的增强处理后的第一特征信息。

可选地，差异度计算模块1102，具体用于：计算两个相邻视频帧之间各个第一特征信息对应的第一差异度；根据至少两个第一特征信息对应的第一差异度，确定至少两个第一特征信息中的一个第一特征信息对应的差异度。

可选地，差异度计算模块1102，具体用于：对第一差异度向量进行卷积操作，得到第二差异度向量，第一差异度向量包括各个第一特征信息对应的第一差异度；对第二差异度向量进行卷积操作，得到第三差异度向量，第三差异度向量的长度等于第一差异度向量的长度；分别将第三差异度向量中各个第一特征信息对应的第三差异度作为各个第一特征信息对应的差异度。

可选地，识别模块1104，具体用于：基于多个特征提取层和至少一个帧间差激活层，分别从各个视频帧的增强处理后的第一特征信息中逐级提取各个视频帧的至少两个第二特征信息，其中，至少一个帧间差激活层中的每个帧间差激活层分别设置在多个特征提取层中的两个相邻特征提取层之间；

根据最后一个特征提取层输出的各个视频帧的第二特征信息，确定视频帧序列对应的类别。

可选地，识别模块1104，具体用于：分别根据两个相邻视频帧之间各个第二特征信息对应的差异度，确定各个第二特征信息对应的权重，权重与差异度正相关；将两个相邻视频帧中的至少一个视频帧的各个第二特征信息分别乘上各个第二特征信息对应的权重，得到一个视频帧的增强处理后的第二特征信息。

可选地，至少一个帧间差激活层和位于其之后的特征提取层之间还包括段间偏移层。

相应地，识别模块1104，还用于：每个段间偏移层根据位于其上一层的帧间差激活层确定的各个视频帧的各个第二特征信息对应的权重，确定各个视频帧的第二特征信息中需要进行偏移处理的第二特征信息，对需要进行偏移处理的第二特征信息进行卷积操作，将卷积操作后的各个视频帧的各个第二特征信息输入位于段间偏移层之后的特征提取层。

可选地，识别模块1104，还用于：将对应的权重大于权重阈值的第二特征信息，确定为需要进行偏移处理的第二特征信息。

可选地，本申请实施例的视频处理模块还包括获取模块，用于：将待处理视频划分为预设数量个视频片段；从每个视频片段中抽取一个视频帧；按抽取的视频帧的时序，将抽取的视频帧组成视频帧序列。

本申请实施例提的视频处理装置与上述视频处理方法采用了相同的发明构思，能够取得相同的有益效果，在此不再赘述。

基于与上述视频处理方法相同的发明构思，本申请实施例还提供了一种电子设备，该电子设备具体可以为终端设备、服务器等。如图12所示，该电子设备120可以包括处理器1201和存储器1202。

处理器1201可以是通用处理器，例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1202还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

本申请实施例提供了一种计算机可读存储介质，用于储存为上述电子设备所用的计算机程序指令，其包含用于执行上述视频处理方法的程序。

上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

以上，以上实施例仅用以对本申请的技术方案进行了详细介绍，但以上实施例的说明只是用于帮助理解本申请实施例的方法，不应理解为对本申请实施例的限制。本技术领域的技术人员可轻易想到的变化或替换，都应涵盖在本申请实施例的保护范围之内。

Claims

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据两个相邻视频帧之间各个第一特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第一特征信息进行增强处理，具体包括：

分别根据两个相邻视频帧之间各个第一特征信息对应的差异度，确定各个第一特征信息对应的权重，权重与差异度正相关；

将两个相邻视频帧中的至少一个视频帧的各个第一特征信息分别乘上各个第一特征信息对应的权重，得到所述至少一个视频帧的增强处理后的第一特征信息。

3.根据权利要求1所述的方法，其特征在于，所述获取两个相邻视频帧之间各个第一特征信息对应的差异度，具体包括：

计算两个相邻视频帧之间各个第一特征信息对应的第一差异度；

根据至少两个第一特征信息对应的第一差异度，确定所述至少两个第一特征信息中的一个第一特征信息对应的差异度。

4.根据权利要求3所述的方法，其特征在于，所述根据至少两个第一特征信息对应的第一差异度，确定所述至少两个第一特征信息中的一个第一特征信息对应的差异度，具体包括：

对第一差异度向量进行卷积操作，得到第二差异度向量，所述第一差异度向量包括各个第一特征信息对应的第一差异度；

对所述第二差异度向量进行卷积操作，得到第三差异度向量，所述第三差异度向量的长度等于所述第一差异度向量的长度；

分别将所述第三差异度向量中各个第一特征信息对应的第三差异度作为各个第一特征信息对应的差异度。

5.根据权利要求1至4任一所述的方法，其特征在于，基于各个视频帧的增强处理后的第一特征信息，确定所述视频帧序列对应的类别，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述根据两个相邻视频帧之间各个第二特征信息对应的差异度，对两个相邻视频帧中的至少一个视频帧的各个第二特征信息进行增强处理，具体包括：

7.根据权利要求6所述的方法，其特征在于，其中，至少一个帧间差激活层和位于其之后的特征提取层之间还包括段间偏移层；

所述基于各个视频帧的增强处理后的第一特征信息，确定所述视频帧序列对应的类别，还包括：

8.根据权利要求7所述的方法，其特征在于，所述确定各个视频帧的第二特征信息中需要进行偏移处理的第二特征信息，具体包括：

9.根据权利要求1至4任一所述的方法，其特征在于，通过如下方式获取所述视频帧序列：

将待处理视频划分为预设数量个视频片段；

从每个视频片段中抽取一个视频帧；

10.一种视频处理装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述增强处理模块，具体用于：

将两个相邻视频帧中的至少一个视频帧的各个第一特征信息分别乘上各个第一特征信息对应的权重，得到所述一个视频帧的增强处理后的第一特征信息。

12.根据权利要求10所述的装置，其特征在于，所述差异度计算模块，具体用于：

13.根据权利要求12所述的装置，其特征在于，所述差异度计算模块，具体用于：

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该计算机程序指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。