CN108960090A

CN108960090A - 视频图像处理方法及装置、计算机可读介质和电子设备

Info

Publication number: CN108960090A
Application number: CN201810639496.5A
Authority: CN
Inventors: 王亚彪; 甘振业; 何长伟; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-12-07
Anticipated expiration: 2038-06-20
Also published as: CN108960090B

Abstract

本发明公开了一种视频图像处理方法及装置、计算机可读介质和电子设备，涉及图像处理技术领域。该视频图像处理方法包括：获取视频中当前帧图像中的目标对象位置区域；获取当前帧的下一帧图像，并基于当前帧图像的目标对象位置区域在下一帧图像中获取目标对象跟踪图像；对目标对象跟踪图像依次进行多组卷积处理以确定下一帧图像中的目标对象位置区域；其中，多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。本公开可以实时跟踪视频图像中的目标对象。

Description

视频图像处理方法及装置、计算机可读介质和电子设备

技术领域

本公开涉及图像处理技术领域，具体而言，涉及一种视频图像处理方法、视频图像处理装置、计算机可读介质和电子设备。

背景技术

在视频图像处理过程中，对目标对象的跟踪已经成为不可或缺的技术，并可以广泛应用到人机交互、智能监控、安全检查、数据娱乐、数码相机等各个领域。

目前，目标对象跟踪的方法通常存在计算量大、过程复杂的问题。尤其对于手机端的实现场景，仅能实现例如约10fps(frames per second，每秒传输帧数)的目标对象跟踪，不能较好地满足实际需要。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种视频图像处理方法、视频图像处理装置、计算机可读介质和电子设备，进而至少在一定程度上克服由于相关技术在实现目标对象跟踪时计算量大的问题。

根据本公开的一个方面，提供一种视频图像处理方法，包括：获取视频中当前帧图像中的目标对象位置区域；获取当前帧的下一帧图像，并基于当前帧图像的目标对象位置区域在下一帧图像中获取目标对象跟踪图像；对目标对象跟踪图像依次进行多组卷积处理以确定下一帧图像中的目标对象位置区域；其中，多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。

根据本公开的一个方面，提供一种视频图像处理装置，该视频图像处理装置可以包括位置获取模块、跟踪图像获取模块和下一位置确定模块。

具体的，位置获取模块可以用于获取视频中当前帧图像中的目标对象位置区域；跟踪图像获取模块可以用于获取当前帧的下一帧图像，并基于当前帧图像的目标对象位置区域在下一帧图像上获取目标对象跟踪图像；下一位置确定模块可以用于对目标对象跟踪图像依次进行多组卷积处理以确定下一帧图像中的目标对象位置区域；其中，多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。

可选地，视频图像处理装置还可以包括置信度确定模块、置信度比较模块和下一图像检测模块。

具体的，置信度确定模块可以用于确定所述下一帧图像中的目标对象位置区域包含目标对象的置信度；置信度比较模块可以用于将所述置信度与一预定阈值进行比较；下一图像检测模块可以用于如果所述置信度小于所述预定阈值，则在下一帧图像中检测目标对象。

可选地，跟踪图像获取模块可以包括区域放大单元和跟踪图像确定单元。

具体的，区域放大单元可以用于将所述当前帧图像的目标对象位置区域放大预定倍数得到目标对象跟踪区域；跟踪图像确定单元可以用于将所述下一帧图像中与所述目标对象跟踪区域对应的图像确定为目标对象跟踪图像。

可选地，下一位置确定模块还可以用于采用跟踪神经网络对目标对象跟踪图像依次进行多组卷积处理；其中，跟踪神经网络包括多个堆叠的卷积块，每个卷积块包括卷积层和最大池化层并且每个卷积块执行一组卷积处理。

可选地，多个堆叠的卷积块中第一个卷积块包括1个卷积层，除第一个卷积块外的其他卷积块均包括2个卷积层；其中，第一个卷积块中的卷积层包括8个大小为7×7且步长为4的卷积核；第二个卷积块中的卷积层包括16个大小为3×3且步长为1的卷积核以及24个3×3且步长为1的卷积核；第三个卷积块中的卷积层包括40个大小为3×3且步长为1的卷积核以及60个大小为3×3且步长为1的卷积核。

可选地，跟踪神经网络还包括在第三个卷积块与跟踪神经网络的输出之间依次配置的维度为96的内积层和维度为128的内积层。

可选地，针对跟踪神经网络确定目标对象跟踪图像中包含目标对象的置信度，视频图像处理装置还可以包括第一损失函数计算模块、第一网络参数确定模块和第一网络调整模块。

具体的，第一损失函数计算模块可以用于根据所述置信度计算第一损失函数；第一网络参数确定模块可以用于确定使第一损失函数最小化的跟踪神经网络参数；第一网络调整模块可以用于根据使第一损失函数最小化的跟踪神经网络参数对所述跟踪神经网络进行调整。

可选地，针对跟踪神经网络确定出下一帧图像的目标对象位置区域，视频图像处理装置还可以包括第二损失函数计算模块、第二网络参数确定模块和第二网络调整模块。

具体的，第二损失函数计算模块可以用于根据所述下一帧图像的目标对象位置区域计算第二损失函数；第二网络参数确定模块可以用于确定使第二损失函数最小化的跟踪神经网络参数；第二网络调整模块可以用于根据使第二损失函数最小化的跟踪神经网络参数对所述跟踪神经网络进行调整。

可选地，视频图像处理装置还可以包括分辨率调整模块。

具体的，分辨率调整模块可以用于在将目标对象跟踪图像输入跟踪神经网络之前，对目标对象跟踪图像的分辨率进行调整，以使目标对象跟踪图像与跟踪神经网络适配。

可选地，视频图像处理装置还可以包括目标对象识别模块。

具体的，目标对象识别模块可以用于采用深度残差网络对下一帧图像的目标对象位置区域中的目标对象进行识别，以确定所述目标对象的类别。

在本公开的一些实施例所提供的技术方案中，通过获取当前帧图像中的目标对象位置区域，据此在下一帧图像中获取目标对象跟踪图像，对该目标对象跟踪图像依次进行多组卷积处理以确定下一帧图像中的目标对象位置区域，其中，多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。本公开可以实时连续地跟踪视频图像中的目标对象，并且计算量较小。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本发明实施例的视频图像处理方法或视频图像处理装置的示例性系统架构的示意图；

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图；

图3示意性示出了根据本公开的示例性实施方式的视频图像处理方法的流程图；

图4示意性示出了根据本公开的示例性实施方式的跟踪神经网络的结构图；

图5示出了根据本公开的示例性实施方式的视频图像处理方法的整个流程的逻辑示意图；

图6示意性示出了根据本公开的第一示例性实施方式的视频图像处理装置的方框图；

图7示意性示出了根据本公开的第二示例性实施方式的视频图像处理装置的方框图；

图8示意性示出了根据本公开的示例性实施方式的跟踪图像获取模块的方框图；

图9示意性示出了根据本公开的第三示例性实施方式的视频图像处理装置的方框图；

图10示意性示出了根据本公开的第四示例性实施方式的视频图像处理装置的方框图；

图11示意性示出了根据本公开的第五示例性实施方式的视频图像处理装置的方框图；

图12示意性示出了根据本公开的第六示例性实施方式的视频图像处理装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

图1示出了可以应用本发明实施例的图像处理方法或图像处理装置的示例性系统架构的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器。例如，服务器105可以获取视频中当前帧图像中的目标对象位置区域；获取当前帧的下一帧图像，并基于当前帧图像的目标对象位置区域在下一帧图像中获取目标对象跟踪图像；对目标对象跟踪图像依次进行多组卷积处理以确定下一帧图像中的目标对象位置区域；其中，多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。在这种情况下，本公开所述的视频图像处理装置一般设置在服务器105中。

然而，应当理解的是，本公开所提供的视频图像处理方法还可以直接由终端设备101、102、103执行，而不会使终端设备消耗大量的系统资源。也就是说，终端设备101、102、103可以直接利用采用下面描述的方法对视频图像进行处理，以实现跟踪视频图像中的目标对象。在这种情况下，本公开可以不依靠服务器。相应地，视频图像处理装置也可以设置在移动设备101、102、103中。

图2示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图2示出的电子设备的计算机系统200仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图2所示，计算机系统200包括中央处理单元(CPU)201，其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中，还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205：包括键盘、鼠标等的输入部分206；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207；包括硬盘等的存储部分208；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器210上，以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地，根据本发明的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分209从网络上被下载和安装，和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

在视频图像处理过程中，目标跟踪是必不可少的技术。根据跟踪方法应用的场景不同，通常可以将其划分为通用目标跟踪和特定目标跟踪。

通用目标跟踪的方法多种多样，具体可以包括Mean Shift(均值漂移)、ParticleFilter(粒子滤波)、Kalman Filter(卡尔曼滤波)等。近几年来，随着技术的发展，相继出现了基于检测的跟踪方法(Track By Detection)、相关滤波方法(如，核相关滤波算法)、基于深度学习的跟踪方法等。

对于特定目标跟踪，顾名思义，主要跟踪的是特定目标。通用目标跟踪算法通常是在线学习目标的特征以完成跟踪，而特定目标跟踪一般是离线训练跟踪器(tracker)，例如，人脸跟踪、手势跟踪、人体跟踪等。离线学习可以基于大量的样本，使得学习得到的模型效果更佳。应当理解的是，本公开的视频图像处理方案是针对上述特定目标跟踪。

然而，目前的目标跟踪方法普遍存在计算量大、处理过程复杂的问题。以手机端为例，采用TLD(Tracking Learning Detection，跟踪学习检测)仅能实现约10fps的目标对象跟踪，不能较好地满足实际需要。

鉴于此，需要一种计算量小，模型构建合理且易于实现的目标对象跟踪方法及装置。

应当理解的是，本公开的视频图像处理方法及装置可以应用于任何视频场景中。例如，视频通话时对人脸的跟踪，短视频中人体的跟踪，手势的跟踪，车辆的跟踪等。在本公开的基础上，可以实时对目标对象添加特效，或对目标对象进行精细识别(例如，是何种手势类型)。

图3示意性示出了本公开的示例性实施方式的视频图像处理方法的流程图。参考图3，所述视频图像处理方法可以包括以下步骤：

S32.获取视频中当前帧图像中的目标对象位置区域。

在本公开的示例性实施方式中，目标对象可以包括但不限于图像中的人脸、手势、汽车、树木、球、动物等。应当理解的是，视频图像中的任何要素均可以作为本公开所述的目标对象。另外，目标对象位置区域可以由目标对象的宽W、高H以及图像中所处具体的位置(x，y)来确定表示。

在本公开的一些实施例中，当前帧图像可以指代视频图像的首帧图像，也就是说，步骤S32获取的是原始视频的首帧图像中的目标对象位置区域。然而，容易理解的，当前帧图像还可以是视频图像中任一帧的图像。

在以例如手机的移动终端执行本公开方案的情况下，视频可以才来自本地存储，也可以是通过手机摄像头的实时拍摄的视频，例如，在视频通话、直播的场景下，可以通过手机的摄像头实时获取视频。

在以服务器执行本公开方案的情况下，视频可以是存储在服务器可以获取到的存储空间内，当需要对视频进行分析时，可以直接获取该视频。另外，服务器还可以获取手机实时拍摄的视频。

本公开对确定当前帧图像中的目标对象位置区域的具体方法不做特殊限制。例如，可以利用现有的图像分割技术来确定目标对象位置区域，也可以采用现有的特征匹配技术来确定目标对象位置区域。另外，随着深度学习的出现与发展，还可以采用例如FasterR-CNN、SSD等模型确定出目标对象位置区域。本示例性实施方式中对此不做特殊限定。

本公开可以以矩形框的形式表示位置区域，可以将当前帧图像中的目标对象位置区域记为(x,y,w,h)，其中，x和y分别表示位置区域的中心点(或任一规定的一点)在当前帧图像中的坐标，w和h分别表示位置区域对应的宽度和高度。然而，容易理解的是，还可以采用除矩形框之外的位置表示方式来表征位置区域，例如，椭圆形位置框、圆形位置框等。

S34.获取当前帧的下一帧图像，并基于当前帧图像的目标对象位置区域在下一帧图像中获取目标对象跟踪图像。

首先，由于在一帧的时间内，目标对象的位移通常较小，因此，可以将当前帧图像的目标对象位置区域放大预定倍数得到目标跟踪区域。具体的，预定倍数可以为1.5倍至2倍，并且可以基于矩形框中心点放大预定倍数，此时，可以将目标跟踪区域记为(x’,y’,w’,h’)。容易理解的是，预定倍数可以根据实际跟踪场景进行设定，例如，车辆行驶速度较快，行人行走速度较慢，对于车辆的跟踪，可以增大该预定倍数，对于行人的跟踪，可以减小该预定倍数。

接下来，可以将下一帧图像中与目标跟踪区域对应的图像确定为目标对象跟踪图像。可以看出，目标对象跟踪图像是下一帧图像的一部分。

S36.对目标对象跟踪图像依次进行多组卷积处理以确定下一帧图像中的目标对象位置区域；其中，多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。

根据本公开的一些实施例，可以采用跟踪神经网络对目标对象跟踪图像依次进行多组卷积过程。其中，跟踪神经网络可以包括多个堆叠的卷积块，每个卷积块可以包括卷积层和最大池化层，并且每个卷积块对应执行一组卷积处理。在这种情况下，多个堆叠的卷积块中第一个卷积块的卷积层数量小于其他卷积块的卷积层数量。

在将步骤S34中确定出的目标对象跟踪图像输入跟踪神经网络之前，可以根据网络训练时结构的要求，确定出适于网络输入的图像分辨率(例如，72×72，100×100)。服务器可以判断目标对象跟踪图像的分辨率是否与网络输入要求的分辨率匹配，如果不匹配，则可以对目标对象跟踪图像的分辨率进行调整，以使目标对象跟踪图像与跟踪神经网络适配。

下面将参考图4对本公开的跟踪神经网络进行示例性描述。

在图4所示实例中，跟踪神经网络可以包括第一个卷积块、第二个卷积块、第三个卷积块。应当理解的是，根据实际视频图像跟踪场景的不同，跟踪神经网络还可以包括其他卷积块。第一个卷积块可以包括1个卷积层，第二个卷积块和第三个卷积块均可以包括2个卷积层。

第一个卷积块可以包括卷积层401和最大池化层403。其中卷积层包括8(图中c)个大小为7×7(图中k)且步长为4(图中s)的卷积核，最大卷积层403的大小为2×2且步长为4。

第二个卷积块中的卷积层包括由16个大小为3×3且步长为1的卷积核构成的卷积层405以及由24个3×3且步长为1的卷积核构成的卷积层407；第三个卷积块中的卷积层包括由40个大小为3×3且步长为1的卷积核构成的卷积层411以及由60个大小为3×3且步长为1的卷积核构成的卷积层413。此外，最大池化层409和最大池化层415与最大卷积层403相同。

基于图4所示卷积的配置，一方面，在起始的第一个卷积块中，将卷积层401的维度设定为8，维度相对较小，有助于整体网络计算速度的提升。另外，通过将卷积层401的卷积核配置成大小为7×7且步长为4，可以在网络初始时提取更多的特征，而不会消耗大量的计算资源；另一方面，通过如上结构和参数设置第二个卷积块和第三个卷积块，在满足跟踪目标对象的同时，模型较小且计算速度快。

此外，应当理解的是，一方面，对于跟踪一些复杂的目标对象，也就是说，目标对象对应的特征较多，可以在跟踪神经网络中配置第四个卷积块、第五个卷积块等，应当理解的是，新配置的卷积块的结构应当与第二和第三卷积块的结构类似。另一方面，对于跟踪一些简单的目标对象，也就是说，目标对象对应的特征较少，可以适当减小图4所示的卷积神经网络中各卷积层的维度和大小，而结构应与图4所示结构适应。这些均应属于本发明的构思。

除各卷积块之外，仍参考图4，本公开所述的跟踪神经网络还可以包括在第三个卷积块与跟踪神经网络的输出之间依次配置的维度为96的内积层417和维度为128的内积层419。其中，本领域技术人员容易理解的是，此处的内积层具有全连接功能，并且这种两次全连接的配置有助于整体网络计算速度的提升。

本公开的跟踪神经网络具有两个输出分支，即图4中的内积层421和内积层423。

针对由C＝2表示的输出分支，其结果是判断目标对象跟踪图像中包含目标对象的置信度。该置信度的范围为[0,1]。本公开可以将输出的置信度与一预定阈值(例如，0.9)进行比较，如果小于该预定阈值，则可以确定该目标跟踪图像中不存在目标对象，此时，可以在整个下一帧图像中检测目标对象。具体的检测过程可以与上述现有的目标检测过程相同，在此不再赘述。

跟踪神经网络输出置信度的意义在于：可以避免错误跟踪，从而及时调整到正确的目标位置。

针对由C＝4表示的输出分支，其结果是目标对象在下一帧图像中的位置区域，可以将其表征为(x₁,y₁,w₁,h₁)。

另外，本公开还提供了对C＝2输出分支进行损失计算以优化跟踪神经网络的方案。首先，可以根据置信度计算第一损失函数，具体的，可以根据公式1计算第一损失函数L_conf’：

其中，针对I{y_G＝j}函数，y_G＝j为真时值为1，否则为0；y_G表示类别标定的真实数据，K为输出的C＝2输出分支的神经元数量。另外，S_j表示将第j个神经元执行归一化处理，利用公式2可得出：

其中，a_j表示内积向量中第j个的值。

接下来，可以确定使第一损失函数最小化的跟踪神经网络参数；随后，可以根据使第一损失函数最小化的跟踪神经网络参数对跟踪神经网络进行调整。

此外，本公开还提供了对C＝4输出分支进行损失计算以优化跟踪神经网络的方案。首先，可以根据下一帧图像的目标对象位置区域计算第二损失函数，具体的，可以利用公式3来计算第二损失函数L_reg：

其中，z_i为目标矩形框的四个分量，分别为x、y、w、h坐标(即p＝4)。表示网络模型的预测输出，z_i表示目标的标定的真实坐标。

接下来，可以确定使第二损失函数最小化的跟踪神经网络参数；随后，可以根据使第二损失函数最小化的跟踪神经网络参数对跟踪神经网络进行调整。

应当注意的是，综合第一损失函数和第二损失函数对跟踪神经网络参数进行调整的方案也应当属于本发明的构思。

经测试，上述跟踪神经网络的模型大小小于1MB，并且可以在手机上实现200fps以上的稳定跟踪，这使得这种模型适于应用到手机端，并具有较好的实时跟踪性能。

在步骤S36确定出下一帧图像中的目标对象位置区域后，可以将该目标对象位置区域作为步骤S32中的当前帧的位置区域，再执行步骤S34和步骤S36，以确定出后续帧图像的目标对象位置区域。如此循环，即可实现视频中连续地跟踪目标对象。

此外，在确定出下一帧图像中的目标对象位置区域之后，本公开的示例性实施方式还可以包括对目标对象进行识别，具体的，本公开可以采用深度残差网络对当前帧图像的目标对象位置区域中的目标对象进行识别，以确定目标对象的类别。然而，还可以采用其他方法实现目标对象的识别，本示例性实施方式中对此不做特殊限定。

本公开所采用的深度残差网络的基本结构与现有的残差网络的基本结构类似，对于残差网络的基本结构，在此不做特殊说明。不同的是，本公开采用的是18层深度残差网络，另外，相比于现有技术中采用10个卷积核的方案，本公开采用3个卷积核，由此，虽然略微牺牲了识别的精确度，但大大提高了识别速度并减小了模型的大小。经测试，这种略牺牲识别精确度的结果并不会对识别出目标对象的类别造成任何影响，而整个网络的性能大大得到了提升。

下面将参考图5，对本公开的视频图像处理方法的整个过程进行说明。

在步骤S500中，可以对视频图像中的目标对象进行检测，以确定目标对象位置区域；在步骤S502中，可以判断是否检测到目标对象，如果检测到，进行步骤S504，如果未检测到，则返回步骤S500，以对视频图像的下一帧进行检测；在步骤S504中，可以对目标对象进行实时跟踪，具体的可以采用上述步骤S36中的跟踪神经网络实现实时跟踪；在步骤S506中，可以判断是否跟踪到目标对象，如果跟踪到则可以进行步骤S508的目标对象识别过程；如果未跟踪到，则返回步骤S500，以对当前进行跟踪的整体图像进行目标对象的检测。另外，视频中还可以预先标有目标对象的位置信息，在这种情况下，可以直接对目标对象进行实时跟踪。

在图5所描述的实施例中，当跟踪到目标对象时，执行识别的处理过程。然而，考虑到负载以及手机端发热的问题，虽然每一帧均实现目标对象的跟踪，然而，可以每隔预定帧执行识别的过程，例如，每5帧执行识别的过程。

此外，利用本公开的实时跟踪方法，可以对目标对象添加一些特效，以丰富交互的过程。例如，在目标对象是手的情况下，可以在手上添加虚拟手链或色彩效果。

综上所述，一方面，本公开的视频图像处理方法所涉及的模型较小，处理速度快，可以直接应用于例如手机的终端设备上；另一方面，本公开的视频图像处理方法可以应用于人机交互、智能监控、安全检查、数据娱乐、数码相机等各个领域，以较好地性能实现例如手势识别、人脸识别、车辆检测等应用目的。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种视频图像处理装置。

图6示意性示出了本公开的一个示例性实施方式的视频图像处理装置的方框图。参考图6，根据本公开的示例性实施方式的视频图像处理装置6可以包括位置获取模块61、跟踪图像获取模块63和下一位置确定模块65。

具体的，位置获取模块61可以用于获取视频中当前帧图像中的目标对象位置区域；跟踪图像获取模块63可以用于获取当前帧的下一帧图像，并基于当前帧图像的目标对象位置区域在下一帧图像上获取目标对象跟踪图像；下一位置确定模块65可以用于对目标对象跟踪图像依次进行多组卷积处理以确定下一帧图像中的目标对象位置区域；其中，多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。

采用本公开所述的视频图像处理装置，可以实时连续地跟踪视频图像中的目标对象，并且计算量较小。

根据本公开的示例性实施例，参考图7，视频图像处理装置7相比于视频图像处理装置6，除包括位置获取模块61、跟踪图像获取模块63和下一位置确定模块65外，还可以包括置信度确定模块71、置信度比较模块73和下一图像检测模块75。

具体的，置信度确定模块71可以用于确定所述下一帧图像中的目标对象位置区域包含目标对象的置信度；置信度比较模块73可以用于将所述置信度与一预定阈值进行比较；下一图像检测模块75可以用于如果所述置信度小于所述预定阈值，则在下一帧图像中检测目标对象。

通过输出置信度并对置信度进行分析，可以避免错误跟踪情况的发生，从而及时调整到正确的目标位置。

根据本公开的示例性实施例，参考图8，跟踪图像获取模块63可以包括区域放大单元801和跟踪图像确定单元803。

具体的，区域放大单元801可以用于将当前帧图像的目标对象位置区域放大预定倍数得到目标对象跟踪区域；跟踪图像确定单元803可以用于将下一帧图像中与所述目标对象跟踪区域对应的图像确定为目标对象跟踪图像。

根据本公开的示例性实施例，下一位置确定模块还可以用于采用跟踪神经网络对目标对象跟踪图像依次进行多组卷积处理；其中，跟踪神经网络包括多个堆叠的卷积块，每个卷积块包括卷积层和最大池化层并且每个卷积块执行一组卷积处理。

根据本公开的示例性实施例，多个堆叠的卷积块中第一个卷积块包括1个卷积层，除第一个卷积块外的其他卷积块均包括2个卷积层；其中，第一个卷积块中的卷积层包括8个大小为7×7且步长为4的卷积核；第二个卷积块中的卷积层包括16个大小为3×3且步长为1的卷积核以及24个3×3且步长为1的卷积核；第三个卷积块中的卷积层包括40个大小为3×3且步长为1的卷积核以及60个大小为3×3且步长为1的卷积核。

根据本公开的示例性实施例，跟踪神经网络还包括在第三个卷积块与跟踪神经网络的输出之间依次配置的维度为96的内积层和维度为128的内积层。

根据本公开的示例性实施例，针对跟踪神经网络确定目标对象跟踪图像中包含目标对象的置信度，参考图9，视频图像处理装置9相比于视频图像处理装置7，除包括位置获取模块61、跟踪图像获取模块63、下一位置确定模块65、置信度确定模块71、置信度比较模块73和下一图像检测模块75外，还可以包括第一损失函数计算模块91、第一网络参数确定模块93和第一网络调整模块95。

具体的，第一损失函数计算模块91可以用于根据所述置信度计算第一损失函数；第一网络参数确定模块93可以用于确定使第一损失函数最小化的跟踪神经网络参数；第一网络调整模块95可以用于根据使第一损失函数最小化的跟踪神经网络参数对所述跟踪神经网络进行调整。

根据本公开的示例性实施例，针对跟踪神经网络确定出下一帧图像的目标对象位置区域，参考图10，视频图像处理装置10相比于视频图像处理装置6，除包括位置获取模块61、跟踪图像获取模块63和下一位置确定模块65外，还可以包括第二损失函数计算模块101、第二网络参数确定模块103和第二网络调整模块105。

具体的，第二损失函数计算模块101可以用于根据所述下一帧图像的目标对象位置区域计算第二损失函数；第二网络参数确定模块103可以用于确定使第二损失函数最小化的跟踪神经网络参数；第二网络调整模块105可以用于根据使第二损失函数最小化的跟踪神经网络参数对所述跟踪神经网络进行调整。

根据本公开的示例性实施例，参考图11，视频图像处理装置11相比于视频图像处理装置6，除包括位置获取模块61、跟踪图像获取模块63和下一位置确定模块65外，还可以包括分辨率调整模块111。

具体的，分辨率调整模块111可以用于在将目标对象跟踪图像输入跟踪神经网络之前，对目标对象跟踪图像的分辨率进行调整，以使目标对象跟踪图像与跟踪神经网络适配。

根据本公开的示例性实施例，参考图12，视频图像处理装置12相比于视频图像处理装置6，除包括位置获取模块61、跟踪图像获取模块63和下一位置确定模块65外，还可以包括目标对象识别模块121。

具体的，目标对象识别模块121可以用于采用深度残差网络对下一帧图像的目标对象位置区域中的目标对象进行识别，以确定所述目标对象的类别。

由于本发明实施方式的程序运行性能分析装置的各个功能模块与上述方法发明实施方式中相同，因此在此不再赘述。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种视频图像处理方法，其特征在于，包括：

获取视频中当前帧图像中的目标对象位置区域；

获取当前帧的下一帧图像，并基于所述当前帧图像的目标对象位置区域在所述下一帧图像中获取目标对象跟踪图像；

对所述目标对象跟踪图像依次进行多组卷积处理以确定所述下一帧图像中的目标对象位置区域；其中，所述多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。

2.根据权利要求1所述的视频图像处理方法，其特征在于，所述视频图像处理方法还包括：

确定所述下一帧图像中的目标对象位置区域包含目标对象的置信度；

将所述置信度与一预定阈值进行比较；

如果所述置信度小于所述预定阈值，则在所述下一帧图像中检测目标对象。

3.根据权利要求1所述的视频图像处理方法，其特征在于，基于所述当前帧图像的目标对象位置区域在所述下一帧图像中获取目标对象跟踪图像包括：

将所述当前帧图像的目标对象位置区域放大预定倍数得到目标对象跟踪区域；

将所述下一帧图像中与所述目标对象跟踪区域对应的图像确定为目标对象跟踪图像。

4.根据权利要求1所述的视频图像处理方法，其特征在于，对所述目标对象跟踪图像依次进行多组卷积处理包括：

采用跟踪神经网络对所述目标对象跟踪图像依次进行多组卷积处理；

其中，所述跟踪神经网络包括多个堆叠的卷积块，每个卷积块包括卷积层和最大池化层并且每个卷积块执行一组卷积处理。

5.根据权利要求4所述的视频图像处理方法，其特征在于，所述多个堆叠的卷积块中第一个卷积块包括1个卷积层，除所述第一个卷积块外的其他卷积块均包括2个卷积层；

其中，所述第一个卷积块中的卷积层包括8个大小为7×7且步长为4的卷积核；

第二个卷积块中的卷积层包括16个大小为3×3且步长为1的卷积核以及24个3×3且步长为1的卷积核；

第三个卷积块中的卷积层包括40个大小为3×3且步长为1的卷积核以及60个大小为3×3且步长为1的卷积核。

6.根据权利要求5所述的视频图像处理方法，其特征在于，所述跟踪神经网络还包括在第三个卷积块与所述跟踪神经网络的输出之间依次配置的维度为96的内积层和维度为128的内积层。

7.根据权利要求2所述的视频图像处理方法，其特征在于，针对所述确定所述目标对象跟踪图像中包含目标对象的置信度，所述视频图像处理方法还包括：

根据所述置信度计算第一损失函数；

确定使第一损失函数最小化的跟踪神经网络参数；

根据使第一损失函数最小化的跟踪神经网络参数对所述跟踪神经网络进行调整。

8.根据权利要求1或7所述的视频图像处理方法，其特征在于，针对所述跟踪神经网络确定出下一帧图像的目标对象位置区域，所述视频图像处理方法还包括：

根据所述下一帧图像的目标对象位置区域计算第二损失函数；

确定使第二损失函数最小化的跟踪神经网络参数；

根据使第二损失函数最小化的跟踪神经网络参数对所述跟踪神经网络进行调整。

9.根据权利要求1所述的视频图像处理方法，其特征在于，在采用跟踪神经网络对所述目标对象跟踪图像依次进行多组卷积处理之前，所述视频图像处理方法还包括：

对所述目标对象跟踪图像的分辨率进行调整，以使所述目标对象跟踪图像与所述跟踪神经网络适配。

10.根据权利要求1所述的视频图像处理方法，其特征在于，所述视频图像处理方法还包括：

采用深度残差网络对所述下一帧图像的目标对象位置区域中的目标对象进行识别，以确定所述目标对象的类别。

11.一种视频图像处理装置，其特征在于，包括：

位置获取模块，用于获取视频中当前帧图像中的目标对象位置区域；

跟踪图像获取模块，用于获取当前帧的下一帧图像，并基于所述当前帧图像的目标对象位置区域在所述下一帧图像上获取目标对象跟踪图像；

下一位置确定模块，用于对所述目标对象跟踪图像依次进行多组卷积处理以确定所述下一帧图像中的目标对象位置区域；其中，所述多组卷积处理中的第一组卷积处理的卷积次数小于其他组卷积处理的卷积次数。

12.根据权利要求11所述的视频图像处理装置，其特征在于，所述视频图像处理装置还包括：

置信度确定模块，用于确定所述下一帧图像中的目标对象位置区域包含目标对象的置信度；

置信度比较模块，用于将所述置信度与一预定阈值进行比较；

下一图像检测模块，用于如果所述置信度小于所述预定阈值，则在所述下一帧图像中检测目标对象。

13.根据权利要求11所述的视频图像处理装置，其特征在于，所述跟踪图像获取模块包括：

区域放大单元，用于将所述当前帧图像的目标对象位置区域放大预定倍数得到目标对象跟踪区域；

跟踪图像确定单元，用于将下一帧图像中与所述目标对象跟踪区域对应的图像确定为目标对象跟踪图像。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至10中任一项所述的视频图像处理方法。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至10中任一项所述的视频图像处理方法。