CN111242081B

CN111242081B - 视频检测方法、目标检测网络训练方法、装置及终端设备

Info

Publication number: CN111242081B
Application number: CN202010068562.5A
Authority: CN
Inventors: 丁旭; 胡文泽
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2023-05-12
Anticipated expiration: 2040-01-19
Also published as: CN111242081A

Abstract

本申请适用于计算机技术领域，提供了一种视频检测方法、目标检测网络训练方法、装置及终端设备，视频检测方法包括：获取目标视频的视频帧数据，所述视频帧数据包括多帧第一帧数据和多帧第二帧数据，其中，相邻的两个所述第一帧数据之间包括至少一个第二帧数据；基于训练后的第一目标检测网络检测所述第一帧数据；基于训练后的第二目标检测网络检测所述第二帧数据。本申请在检测一个视频时同时使用一个大网络和一个小网络对视频帧数据进行检测，相较于现有的只使用大网络进行视频检测检测速度快，相较于现有的只使用小网络进行视频检测的检测准确度更高，所以本申请在对视频进行检测时既保证了检测准确度，同时也提高了检测速度。

Description

视频检测方法、目标检测网络训练方法、装置及终端设备

技术领域

本申请属于计算机技术领域，尤其涉及一种视频检测方法、目标检测网络训练方法、装置及终端设备。

背景技术

近年来，随着互联网的迅速发展，大数据时代来临，各行业对有效数据的需求与日俱增。与此同时，越来越多的视频被上传至网络，成为新兴的数据宝库，从视频中获取有效数据进行分析是发展的方向，因此视频目标检测成为炙手可热的研究问题。

目前，目标检测方法主要包括：基于传统图像处理的目标检测方法和基于深度学习的目标检测方法。基于传统图像处理的目标检测方法为：目标特征提取-目标识别-目标定位；基于深度学习的目标检测方法为：图像的深度特征提取-基于深度神经网络的目标识别与定位。但是，上述两种目标检测方法在检测视频中的目标时，对视频的检测速度都比较慢，无法达到实时检测的效果。

发明内容

本申请实施例提供了一种视频检测方法、目标检测网络训练方法、装置及终端设备，可以解决目前对视频检测速度慢的问题。

第一方面，本申请实施例提供了一种视频检测方法，包括：

获取目标视频的视频帧数据，所述视频帧数据包括多帧第一帧数据和多帧第二帧数据，其中，相邻的两个所述第一帧数据之间包括至少一个第二帧数据；

基于训练后的第一目标检测网络检测所述第一帧数据，得到第一检测结果；

基于训练后的第二目标检测网络检测所述第二帧数据，得到第二检测结果，其中，所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中的通道个数小于所述第一目标检测网络中的通道个数；

基于所述第一检测结果和所述第二检测结果输出视频检测结果。

第二方面，本申请实施例提供了一种目标检测网络训练方法，用于训练第二目标检测网络，所述方法包括：

获取训练后的第一目标检测网络检测待测视频时各个所述第一采样层输出的采样输出数据，其中，第一目标检测网络包括多个第一采样层和多个第一网络层，相邻的两个所述第一采样层之间包括至少一个所述第一网络层；第二目标检测网络包括多个第二采样层和多个第二网络层，相邻的两个所述第二采样层之间包括至少一个所述第二网络层；所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中的通道个数小于所述第一目标检测网络中的通道个数；

基于第j-1个第二网络层的输出层数据对当前第二采样层进行训练，得到当前所述第二采样层的初始输出数据，其中，j≧2；

利用所述初始输出数据和与所述初始输出数据的尺寸相同的所述采样输出数据对第j个所述第二网络层进行训练。

第三方面，本申请实施例提供了一种视频检测装置，包括：

数据获取模块，用于获取目标视频的视频帧数据，所述视频帧数据包括多帧第一帧数据和多帧第二帧数据，其中，相邻的两个所述第一帧数据之间包括至少一个第二帧数据；

第一检测模块，用于基于训练后的第一目标检测网络检测所述第一帧数据，得到第一检测结果；

第二检测模块，用于基于训练后的第二目标检测网络检测所述第二帧数据，得到第一检测结果，其中，所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中至少一个第二网络层的通道个数小于所述第一目标检测网络中各个第一网络层的通道个数；

数据输出模块，用于基于所述第一检测结果和所述第二检测结果输出视频检测结果。

第四方面，本申请实施例提供了一种目标检测网络训练装置，用于训练第二目标检测网络，所述装置包括：

获取模块，用于获取训练后的第一目标检测网络检测待测视频时各个第一采样层输出的采样输出数据，其中，第一目标检测网络包括多个第一采样层和多个第一网络层，相邻的两个所述第一采样层之间包括至少一个所述第一网络层；第二目标检测网络包括多个第二采样层和多个第二网络层，相邻的两个所述第二采样层之间包括至少一个所述第二网络层；所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中的通道个数小于所述第一目标检测网络中的通道个数；

第一训练模块，用于基于第j-1个第二网络层的输出层数据对当前第二采样层进行训练，得到当前所述第二采样层的初始输出数据，其中，j≧2；

第二训练模块，用于利用所述初始输出数据和与所述初始输出数据的尺寸相同的所述采样输出数据对第j个所述第二网络层进行训练。

第五方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的视频检测方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的视频检测方法。

第七方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的视频检测方法。

本申请实施例与现有技术相比存在的有益效果是：本申请通过使用第一目标检测网络检测第一帧数据，使用第二目标网络检测第二帧数据，且第一目标检测网络比第二目标检测网络复杂，所以第二目标检测网络的检测速度比第一目标检测网络的检测速度快，但是第二目标检测网络检测的准确度比第一目标检测网络差，本申请在检测一个视频时同时使用一个大网络和一个小网络对视频帧数据进行检测，由于相邻的两个第一帧数据之间有第二帧数据，所以两个相邻的第一帧数据的前后变化较大，需要采用精度较高的大网络进行检测，两个相邻的第二帧数据之间由于视频帧数据间隔较小，所以第二帧数据之间的图像信息变化小，可以选择检测速度快的小网络；本申请相较于现有的只使用大网络进行视频检测检测速度快，相较于现有的只使用小网络进行视频检测的检测准确度更高，所以本申请在对视频进行检测时既保证了检测准确度，同时也提高了检测速度，达到实时检测的目的。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的视频检测方法的应用场景示意图；

图2是本申请一实施例提供的视频检测方法的流程示意图；

图3是本申请一实施例提供的第一目标检测网络的结构示意图；

图4是本申请一实施例提供的第二目标检测网络的结构示意图；

图5是本申请一实施例提供的第二目标检测网络对第二帧数据进行检测的方法流程示意图；

图6是本申请一实施例提供的第二帧数据的检测方法流程示意图；

图7是本申请一实施例提供的第二目标检测网络的训练方法流程示意图；

图8是本申请一实施例提供的视频检测装置的结构示意图；

图9是本申请一实施例提供的目标检测网络训练装置的结构示意图；

图10是本申请一实施例提供的终端设备的结构示意图；

图11是本申请一实施例提供的计算机的部分结构的框图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

本申请适用于对视频的检测，对于检测器来说，网络层数越多，每层输出的通道数越多，也就是网络越深越宽，越能得到更好的检测效果；但是相应的网络的参数量、计算量也就越大，运算的速度也就越慢。相反的，网络层数越少、通道数越少，计算速度越快，检测到结果的准确度也就越差。

本申请第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或者第二目标检测网络中至少一个第二网络层的通道个数小于所述第一目标检测网络中各个第一网络层的通道个数，所以第一目标检测网络属于大网络，第二目标检测网络数据小网络。大网络检测精确，但是耗时长，小网络检测精确度差，但是检测速度快，通过第一目标检测网络和第二目标检测网络的交替使用，使平均检测时长减小，提高了视频的检测速度，达到了实时检测的效果。

图1为本申请实施例提供的视频检测方法的应用场景示意图，上述视频检测方法可以用于视频的检测。其中，检测设备20用于获取视频输出设备10中输出的视频数据，并对视频数据进行检测，并输出检测结果，运用检测设备20可以快速实时检测视频数据。

以下结合图1对本申请实施例的视频检测方法进行详细说明。

图2示出了本申请提供的视频检测方法的示意性流程图，参照图2，对视频检测方法的详述如下：

S101，获取目标视频的视频帧数据，所述视频帧数据包括多帧第一帧数据和多帧第二帧数据，其中，相邻的两个所述第一帧数据之间包括至少一个第二帧数据。

在本实施例中，视频由一帧一帧的图片组成，对视频的检测，其实是对视频中图片的检测，所以在对目标视频检测时，需要先将目标视频转换成视频帧数据。视频帧数据的获取可以从视频转换器中获得，也可以从一个存储有视频帧数据的终端设备中获得。第一帧数据和第二帧数据可以是按照一定顺序排列好的视频数据。例如，在两个相邻的第一帧数据之间设有至少一个第二帧数据，在进行检测时，按照第一帧数据和第二帧数据的排列顺序依次检测。视频帧数据包括若干个第一帧数据和若干个第二帧数据。

在一种可能的实现方式中，步骤S101的实现过程可以包括：

S1011，获取调用间隔和目标视频的视频帧数据；

S1012，基于所述调用间隔，将所述视频帧数据划分为所述第一帧数据和所述第二帧数据。

在本实施例中，在对视频帧数据进行检测之前，需要先设置或获取调用间隔，也就是第几个视频帧数据需要使用第一目标检测网络进行检测，根据调用间隔调用第一目标检测网络，第一目标检测网络的使用频率越高，对目标视频的检测精度越高，具体的调用间隔可以根据需要设置。

具体的，当帧数据进来后，先根据调用间隔判断当前帧数据应该使用第一目标检测网络还是应该使用第二目标检测网络，将需要使用第一目标检测网络进行检测的视频帧数据定义为第一帧数据，其余的不用第一目标检测网络检测的视频帧数据定义为第二帧数据，将第二帧数据穿插在两个第一帧数据之间，第一目标检测网络的调用间隔是多少，两个相邻的第一帧数据之间就加入多少个第二帧数据，上述安排可以将第一目标检测网络和第二目标检测网络配合使用。

作为举例，视频帧数据包括6个帧数据，第一帧数据和第二帧数据组成视频帧数据，如果第一目标检测网络的调用间隔为2，也就是预设间隔帧数为2，间隔2帧使用一次第一目标检测网络，在检测时第一个帧数据就是第一帧数据，第二个帧数据和第三个帧数据都为第二帧数据，第四个帧数据为第一帧数据，第五个帧数据和第六个帧数据均为第二帧数据，第一帧数据和第二帧数据的划分是按照使用的目标检测网络进行划分的。

S102，基于训练后的第一目标检测网络检测所述第一帧数据，得到第一检测数据，得到第一检测结果。

在本实施例中，第一目标检测网络包括多个网络层，为了便于描述将第一目标检测网络中的网络层定义为第一网络层，每个网络层中包括至少一个卷积层，第一目标检测网络包括多个采样层(池化层)，为了便于描述将第一目标检测网络中的采样层定义为第一采样层，相邻的两个第一采样层之间包括至少一个第一网络层，第一网络层和第二采样层按规定依次连接。

示例性的，第一目标检测网络可以是ssd(Single Shot MultiBox Detector，单目标多框检测)或yolo等检测网络。

作为举例，一共有5个视频帧数据，第一目标检测网络的调用间隔为2，则第一个和第四个视频帧数据需要用第一目标检测网络进行检测，第一个视频帧数据和第四个视频帧数据就是第一帧数据，第二个视频帧数据、第三个视频帧数据和第五个视频帧数据都为第二帧数据。所以在进行第一个视频帧数据检测时调用第一目标检测网络，在进行第四个视频帧数据检测时调用第一目标检测网络，其余的视频帧数据均采用第二目标检测网络进行检测。

S103，基于训练后的第二目标检测网络检测所述第二帧数据，得到第二检测结果，其中，所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中的通道个数小于所述第一目标检测网络中的通道个数。

在本实施例中，第二目标检测网络包括多个网络层，为了便于描述将第二目标检测网络中的网络层定义为第二网络层，每个网络层中包括至少一个卷积层，第二目标检测网络包括多个采样层，为了便于描述将第二目标检测网络中的采样层定义为第二采样层，相邻的两个所述第二采样层之间包括至少一个所述第二网络层。

示例性的，第二目标检测网络可以是ssd或yolo等检测网络。

在本实施例中，第二目标检测网络可以是预先构建完成的，也可以是在使用之前根据第一目标检测网络构建的。第二目标检测网络中第二网络层(在yolo中网络层也就是模块block)的个数小于第一目标检测网络中第一网络层的个数，或/和第二目标检测网络中的通道个数小于第一目标检测网络中的通道个数。

作为举例，以第一目标检测网络和第二目标检测网络均为yolo检测网络进行说明，第一目标检测网络的网络结构如图3所示。图3中，yolo检测网络是由53个卷积层组成的，yolo检测网络包括多个模块(block)，block为方框圈出的部分，方框圈出的部分为第一网络层，每个模块中均包括两个卷积层和一个残差层，图中模块前边的1×表示只有一个该模块，2×表示该模块重复排列两次，8×表示该模块重复排列八次，4×表示该模块重复排列四次，对于第二检测网络可以将重复的模块数减半；从图3可以得到，第一目标检测网络包括四个采样层，也就是图3中圈出来的特征图数据对应的层，第一个第一网络层后边是第一个第一采样层，第二个第一网络层连接第三个第一网络层，第三个第一网络层连接第二个第一采样层，第二个第一采样层和第三个第一采样层之间有八个第一网络层，第三个第一采样层和第四个第一采样层之间有八个第一网络层，第四个第一采样层后还连接有四个第一网络层。第一目标检测网络中各个卷积层的通道的个数为图中Filters(过滤器)对应的一列，对于第二目标检测网络通道的个数可以减少到图3中通道数的一半，第一采样层的输出结果Output为图3中圈出部分。

第二目标检测网络设置时可以在第一个第二采样层和第二个第二采样层之间设置一个或两个第二采样层，第二个第二采样层和第三个第二采样层之间设置八个或小于八个第二网络层，第三个第二采样层和第四个第二采样层之间设置八个或小于八个第二网络层，第四个第二采样层后边可以设置四个或小于四个第二网络层，只要第二网络层的总数小于第一网络层的总数即可。

第二目标检测网络设置时相较于第一目标检测网络中对应的卷积层的通道个数，可以只减少一个卷积层的通道个数，也可以全部的卷积层的通道个数均减小，具体的可以根据需要设置。

具体的，如图4所示，第二目标检测网络可以包括31个卷积层，第一个第二采样层和第二个第二采样层之间设置一个第二网络层，第二个第二采样层和第三个第二采样层之间设置四个第二网络层，第三个第二采样层和第四个第二采样层之间设置四个第二网络层，第四个第二采样层后设置两个第二网络层，每个卷积层的通道个数可以根据需要设置。

S104，基于所述第一检测结果和所述第二检测结果输出视频检测结果。

在本实施例中，利用第一目标检测网络和第二目标检测网络检测木匾视频，将第一目标检测网络得到的第一检测结果和第二目标检测网络得到的第二检测结果进行分析，最后输出视频检测结果。

本申请实施例与现有技术相比存在的有益效果是：本申请通过使用第一目标检测网络检测第一帧数据，使用第二目标网络检测第二帧数据，且第一目标检测网络比第二目标检测网络复杂，所以第二目标检测网络的检测速度比第一目标检测网络的检测速度快，但是第二目标检测网络检测的准确度比第一目标检测网络差，本申请在检测一个视频时同时使用一个大网络和一个小网络对视频帧数据进行检测，由于相邻的两个第一帧数据之间有第二帧数据，所以两个相邻的第一帧数据的前后变化较大，需要采用精度高的大网络进行检测，两个相邻的第二帧数据之间可能不存在第一帧数据，也可能只存在一个第一帧数据，所以第二帧数据之间变化小，可以选择检测速度快的小网络；本申请相较于现有的只使用大网络进行视频检测检测速度快，相较于现有的只使用小网络进行视频检测的检测准确度更高，所以本申请在对视频进行检测时既保证了检测准确度，同时也提高了检测速度，达到实时检测的目的。

在一种可能的实现方式中，在步骤103之前，上述方法还可以包括：

S201，基于训练后的所述第一目标检测网络检测所述第一帧数据，得到所述第一目标检测网络中各个第一采样层的采样特征数据。

在本实施例中，第一目标检测网络中设置第一采样层，第一采样层可以对数据进行下采样，在yolo检测网络中第一采样层也是一个卷积层。

在本实施例中，获取采样特征数据的目的是在调用第二目标检测网络进行第二帧数据检测时，利用采用采样特征数据可以解决由于第二目标检测网络参数量小，检测精度低的问题。

在一种可能的实现方式中，步骤S103的实现过程可以包括：

S1031，基于训练后的第二目标检测网络和上一次调用所述第一目标检测网络得到的所述采样特征数据检测所述第二帧数据，其中，所述上一次为距离当前次调用所述第二目标检测网络最近的一次。

在本实施例中，由于第一目标检测网络和第二目标检测网络是按照调用间隔使用的，在当前第二目标检测网络检测第二帧数据时，第一目标检测网络可能已经被调用过很多次，所以需要使用距离当前第二目标检测网络检测时最近的一次调用第一目标检测网络得到的采样特征数据。

作为举例，一共有5个视频帧数据，第一目标检测网络的调用间隔为2，则第一个和第四个视频帧数据需要用第一目标检测网络进行检测，第一个视频帧数据和第四个视频帧数据就是第一帧数据，第二个视频帧数据、第三个视频帧数据和第五个视频帧数据都为第二帧数据。在检测第五个视频帧数据时，用到的是第一目标检测网络检测第四个视频帧数据时得到的采样特征数据。

如图5所示，在一种可能的实现方式中，步骤S1031的实现过程可以包括：

S10311，基于第i-1个第二网络层的网络输出数据，得到当前所述第二采样层的初始特征数据，其中，j≧2；

S10312，将所述初始特征数据和与所述初始特征数据的尺寸相同的所述采样特征数据输入第i个所述第二网络层进行计算。

在本实施例中，初始特征数据和与所述初始特征数据的尺寸相同的所述采样特征数据可以直接输入到下一第二网络层进行计算，也可以将两个数据进行处理后再输入到下一第二网络层中进行计算。

在一种可能的实现方式中，步骤S10312的实现过程可以包括：

S103121，将所述初始特征数据和与所述初始特征数据的尺寸相同的所述采样特征数据进行特征图拼接，得到当前所述第二采样层的目标特征数据；

S103122，将所述目标特征数据输入第i个所述第二网络层进行计算。

在本实施例中，第二目标检测网络中有多个第二采样层，每个第二采样层输出结果后都需要与对应的采样特征数据进行特征图拼接，将拼接后得到的数据送入到下一第二网络层继续进行计算，如此循环得到第二帧数据的检测结果。本方法增加了第二目标检测网络的参数量，提高第二目标检测网络的检测精确度，进而提高对整个目标视频的检测精确度。

在本实施例中，特征图拼接(concate)是将两个特征图的通道数进行相加，特图的尺寸和特征图里边的数据不变，只有第二采样层得到的数据才需要与第一采样层得到的数据进行特征图拼接，第二网络层得到的数据不需要其他数据进行拼接。

具体的，如图6所示，上述步骤S10311-S10312的实现过程可以包括：

将第二帧数据输入训练后的第二目标检测网络40中，计算第一个第二采样层的第一初始特征数据；

将第一初始特征数据和与第一初始特征数据的尺寸相同的第一目标检测网络30中的采样特征数据进行特征图拼接，得到所述第一个第二采样层的第一目标特征数据；

将第一目标特征数据输入下一第二网络层进行网络层计算；

获取第x个第二采样层的上一第二网络层的网络输出数据，将网络输出数据送入第x个第二采样层进行计算，得到第x个第二采样层的第x初始特征数据；

将所述第x初始特征数据和与所述第x初始特征数据的尺寸相同的所述采样特征数据进行特征图拼接，得到所述第x个第二采样层的第x目标特征数据；

将第x目标特征数据输入下一第二网络层进行网络层计算。

作为举例，第一目标检测网络中第一个第一采样层的第一特征数据为128通道的尺寸为64x64的特征图，在进行第二目标检测网络对第二帧数据进行检测时，第一个第二采样层输出的第一初始特征数据为通道数为64的大小为64x64的特征图，在所有的第一特征数据中查找到与64x64的特征图相同尺寸的第一特征图数据作为第一目标特征数据，第一目标特征数据为128通道的尺寸为64x64的特征图，将64通道且大小为64x64的特征图与128通道且大小为64x64的特征图进行特征图拼接，得到通道数为128+64＝192且大小为64x64的特征图，将通道数为128+64＝192且大小为64x64的特征图输入到下一层第二网络层继续进行计算，循环上述方法，直到第二目标检测网络运行结束。

作为举例，以5个帧数据，第一目标检测网络的调用间隔为2、第一目标检测网络包括两个第一采样层，两个第一采样层之间包括三个第一网络层，第二目标检测网络包括两个第二采样层，两个第二采样层之间包括两个第二网络层为例进行说明：

对帧数据一个一个进行检测，由于调用第一目标检测网络的调用间隔为2，则第一帧数据包括：第一个帧数据和第四个帧数据；第二帧数据包括：第二个帧数据、第三个帧数据和第五个帧数据。

对于第一个帧数据，调用第一目标检测网络进行检测，得到第一目标检测网络检测第一个帧数据时第一个第一采样层输出的第一采样特征数据，第二个第一采样层输出的第二采样特征数据。

对于第二个帧数据，调用第二目标检测网络进行检测，在第一个第二采样层得到第一初始特征数据后，将第一初始特征数据与第一采样特征数据进行特征图拼接，得到第一目标特征数据；将第一目标特征数据输入到下一第二网络层，直到两个第二网络层计算结束得到网络输出值；将网络输出值输入第二个第二采样层进行计算，得到第二个第二采样层的第二初始特征数据，将第二初始特征数据与第二采样特征数据进行特征图拼接，得到第二个第二采样层的第二目标特征图数据；将第二目标特征图数据输入下一第二网络层，直到运算结束。

对于第三个帧数据，调用第二目标检测网络进行检测，具体的检测过程与第二个帧数据的检测过程相同，参照第二个帧数据的检测过程。

对于第四个帧数据，调用第一目标检测网络进行检测，得到第一目标检测网络检测第四个帧数据时第一个第一采样层输出的第三采样特征数据，第二个第一采样层输出的第四采样特征数据。

对于第五个帧数据，调用第二目标检测网络进行检测，在第一个第二采样层得到第三初始特征数据后，将第三初始特征数据与第三采样特征数据进行特征图拼接，得到第三目标特征数据；将第三目标特征数据输入到下一第二网络层，直到两个第二网络层计算结束得到网络输出值；将网络输出值输入第二个第二采样层进行计算，得到第二个第二采样层的第四初始特征数据，将第四初始特征数据与第四采样特征数据进行特征图拼接，得到第二个第二采样层的第四目标特征图数据；将第四目标特征图数据输入下一第二网络层，直到运算结束。

需要说明的是，所有的第二采样层均要与对应的采样特征数据进行特征图拼接。特征图拼接只是通道的个数改变了，特征图的大小不变，特征图里边的特征值也不变。

在本实施例中，采用第一目标检测网络的采样特征数据与第二采样层的输出值进行特征图拼接，可以利用第一目标检测网络的特征提取能力为第二目标检测网络提供更多的信息，同时并不增加第二目标检测网络过多的计算量。

图7示出了本申请提供的目标检测网络训练方法的示意性流程图，上述目标检测网络训练方法用于基于第一目标检测网络采样层输出的数据训练第二目标检测网络。其中，第一目标检测网络包括多个第一采样层和多个第一网络层，相邻的两个所述第一采样层之间包括至少一个所述第一网络层；第二目标检测网络包括多个第二采样层和多个第二网络层，相邻的两个所述第二采样层之间包括至少一个所述第二网络层；所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中的通道个数小于所述第一目标检测网络中的通道个数；

参照图7，以下对上述目标检测网络训练方法详述如下：

S301，获取训练后的第一目标检测网络检测待测视频时各个所述第一采样层输出的采样输出数据；

S302，基于第j-1个第二网络层的输出层数据对当前所述第二采样层进行训练，得到当前所述第二采样层的初始输出数据，其中，j≧2；

S303，利用所述初始输出数据和与所述初始输出数据的尺寸相同的所述采样输出数据对第j个所述第二网络层进行训练。

在本实施例中，第一目标检测网络的训练可以遵循常规的训练方法：将视频样本输入第一目标检测网络中对第一目标检测网络进行训练，得到训练后的第一目标检测网络。第二目标检测网络的训练需要以训练后的第一目标检测网络作为辅助，共同对第二目标检测网络进行训练。

在本实施例中，对下一所述第二网络层进行训练时可以直接将初始输出数据和与所述初始输出数据的尺寸相同的所述采样输出数据输入到下一第二网络层，还可以将初始输出数据和与所述初始输出数据的尺寸相同的所述采样输出数据两个数据进行特征图拼接后再输入至下一第二网络层中。

具体的，步骤S302-S303的实现过程可以包括：

将所述样本视频数据输入所述第二目标检测网络，得到第一个第二采样层的第一初始输出数据；

将所述第一初始输出数据和与所述第一初始输出数据的尺寸相同的采样输出数据进行特征图拼接，得到所述第一个第二采样层的第一目标输出数据；

采用第一目标输出数据输入到下一第二网络层对第二网络层进行训练；

获取第y个第二采样层上一第二网络层的输出层数据，用输出层数据对第y个第二采样层进行训练，得到第y个第二采样层的第y初始输出数据；

将所述第y初始输出数据和与所述第y初始输出数据的尺寸相同的采样输出数据进行特征图拼接，得到所述第y个第二采样层的第y目标输出数据；

采用第y目标输出数据输入到下一第二网络层对第二网络层进行训练。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的视频检测方法，图8示出了本申请实施例提供的视频检测装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图8，该装置100可以包括：数据获取模块110、第一检测模块120、第二检测模块130和数据输出模块140。

其中，数据获取模块110，用于获取目标视频的视频帧数据，所述视频帧数据包括多帧第一帧数据和多帧第二帧数据，其中，相邻的两个所述第一帧数据之间包括至少一个第二帧数据；

第一检测模块120，用于基于训练后的第一目标检测网络检测所述第一帧数据，得到第一检测结果；

第二检测模块130，用于基于训练后的第二目标检测网络检测所述第二帧数据，得到第二检测结果，其中，所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中至少一个第二网络层的通道个数小于所述第一目标检测网络中各个第一网络层的通道个数；

数据输出模块140，用于基于所述第一检测结果和所述第二检测结果输出视频检测结果。

在一种可能的实现方式中，数据获取模块110具体可以用于：

获取调用间隔和目标视频的视频帧数据；

基于所述调用间隔，将所述视频帧数据划分为所述第一帧数据和所述第二帧数据。

在一种可能的实现方式中，与第二检测模块130相连的还包括：

特征数据获取模块，用于基于训练后的所述第一目标检测网络检测所述第一帧数据，得到所述第一目标检测网络中各个第一采样层的第一特征数据，其中，相邻的两个所述第一采样层之间包括至少一个所述第一网络层。

在一种可能的实现方式中，第二检测模块130具体可以包括：

数据检测单元，用于基于训练后的第二目标检测网络和上一次调用所述第一目标检测网络得到的所述采样特征数据，检测所述第二帧数据，其中，所述上一次为距离当前次调用所述第二目标检测网络最近的一次。

在一种可能的实现方式中，相邻的两个所述第二采样层之间包括至少一个所述第二网络层；

数据检测单元具体可以用于：

基于第i-1个第二网络层的网络输出数据，得到当前所述第二采样层的初始特征数据，其中，i≧2；

将所述初始特征数据和与所述初始特征数据的尺寸相同的所述采样特征数据输入第i个所述第二网络层进行计算。

对应于上文实施例所述的目标检测网络训练方法，图9示出了本申请实施例提供的目标检测网络训练装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。参照图9，该装置200可以包括：获取模块210、第一训练模块220和第二训练模块230。

获取模块210，用于获取训练后的第一目标检测网络检测待测视频时各个第一采样层输出的采样输出数据；

第一训练模块220，用于基于第j-1个第二网络层的输出层数据对当前第二采样层进行训练，得到当前所述第二采样层的初始输出数据，其中，j≧2；

第二训练模块230，用于利用所述初始输出数据和与所述初始输出数据的尺寸相同的所述采样输出数据对第j个所述第二网络层进行训练。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，参见图10，该终端设备400可以包括：至少一个处理器410、存储器420以及存储在所述存储器420中并可在所述至少一个处理器410上运行的计算机程序，所述处理器410执行所述计算机程序时实现上述任意各个方法实施例中的步骤，例如图2所示实施例中的步骤S101至步骤S104。或者，处理器410执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块110至140的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器420中，并由处理器410执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段，该程序段用于描述计算机程序在终端设备400中的执行过程。

本领域技术人员可以理解，图10仅仅是终端设备的示例，并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如输入输出设备、网络接入设备、总线等。

处理器410可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器420可以是终端设备的内部存储单元，也可以是终端设备的外部存储设备，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。所述存储器420用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器420还可以用于暂时地存储已经输出或者将要输出的数据。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请实施例提供的视频检测方法可以应用于计算机、平板电脑、笔记本电脑、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

以所述终端设备为计算机为例。图11示出的是与本申请实施例提供的计算机的部分结构的框图。参考图11，计算机包括：通信电路510、存储器520、输入单元530、显示单元540、音频电路550、无线保真(wireless fidelity，WiFi)模块560、处理器570以及电源580等部件。

下面结合图11对计算机的各个构成部件进行具体的介绍：

通信电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将图像采集设备发送的图像样本接收后，给处理器570处理；另外，将图像采集指令发送给图像采集设备。通常，通信电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier，LNA)、双工器等。此外，通信电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(Global System of Mobile communication，GSM)、通用分组无线服务(GeneralPacket Radio Service，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long TermEvolution,LTE))、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器570通过运行存储在存储器520的软件程序以及模块，从而执行计算机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与计算机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器570，并能接收处理器570发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及计算机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器570以确定触摸事件的类型，随后处理器570根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图11中，触控面板531与显示面板541是作为两个独立的部件来实现计算机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现计算机的输入和输出功能。

音频电路550可提供用户与计算机之间的音频接口。音频电路550可将接收到的音频数据转换后的电信号，传输到扬声器由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路550接收后转换为音频数据，再将音频数据输出处理器570处理后，经通信电路510以发送给比如另一计算机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，计算机通过WiFi模块560可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块560，但是可以理解的是，其并不属于计算机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器570是计算机的控制中心，利用各种接口和线路连接整个计算机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行计算机的各种功能和处理数据，从而对计算机进行整体监控。可选的，处理器570可包括一个或多个处理单元；优选的，处理器570可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器570中。

计算机还包括给各个部件供电的电源580(比如电池)，优选的，电源580可以通过电源管理系统与处理器570逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述视频检测方法各个实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述视频检测方法各个实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种视频检测方法，其特征在于，包括：

2.如权利要求1所述的视频检测方法，其特征在于，所述获取目标视频的视频帧数据，所述视频帧数据包括多帧第一帧数据和多帧第二帧数据，包括：

获取调用间隔和目标视频的视频帧数据；

3.如权利要求1所述的视频检测方法，其特征在于，在所述基于训练后的第二目标检测网络检测所述第二帧数据之前，所述方法还包括：

基于训练后的所述第一目标检测网络检测所述第一帧数据，得到所述第一目标检测网络中各个第一采样层的采样特征数据，其中，相邻的两个所述第一采样层之间包括至少一个所述第一网络层。

4.如权利要求3所述的视频检测方法，其特征在于，所述基于训练后的第二目标检测网络检测所述第二帧数据，包括：

基于训练后的第二目标检测网络和上一次调用所述第一目标检测网络得到的所述采样特征数据，检测所述第二帧数据，其中，所述上一次为距离当前次调用所述第二目标检测网络最近的一次。

5.如权利要求4所述的视频检测方法，其特征在于，相邻的两个第二采样层之间包括至少一个所述第二网络层；

所述基于训练后的第二目标检测网络和上一次调用所述第一目标检测网络得到的所述采样特征数据，检测所述第二帧数据，包括：

基于第i-1个第二网络层的网络输出数据，得到当前第二采样层的初始特征数据，其中，i≧2；

6.一种目标检测网络训练方法，其特征在于，用于训练第二目标检测网络，所述方法包括：

获取训练后的第一目标检测网络检测待测视频时各个第一采样层输出的采样输出数据，其中，第一目标检测网络包括多个第一采样层和多个第一网络层，相邻的两个所述第一采样层之间包括至少一个所述第一网络层；第二目标检测网络包括多个第二采样层和多个第二网络层，相邻的两个所述第二采样层之间包括至少一个所述第二网络层；所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中的通道个数小于所述第一目标检测网络中的通道个数；

7.一种视频检测装置，其特征在于，包括：

第二检测模块，用于基于训练后的第二目标检测网络检测所述第二帧数据，得到第二检测结果，其中，所述第二目标检测网络中第二网络层的个数小于所述第一目标检测网络中第一网络层的个数，或/和所述第二目标检测网络中至少一个第二网络层的通道个数小于所述第一目标检测网络中各个第一网络层的通道个数；

8.一种目标检测网络训练装置，其特征在于，用于训练第二目标检测网络，所述装置包括：

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的视频检测方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的视频检测方法。