CN109726683B

CN109726683B - 目标对象检测方法和装置、电子设备和存储介质

Info

Publication number: CN109726683B
Application number: CN201811635978.XA
Authority: CN
Inventors: 李搏; 武伟; 张方毅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2021-06-22
Anticipated expiration: 2038-12-29
Also published as: US11423666B2; JP7153090B2; WO2020134557A1; KR20210024124A; US20210073558A1; CN109726683A; JP2021524093A; SG11202012755TA

Abstract

本公开实施例公开了一种目标对象检测方法和装置、电子设备和存储介质，其中，方法包括：经神经网络分别提取参考帧和检测帧的特征；其中，所述参考帧为目标对象的检测框图像，所述参考帧的图像大小小于所述检测帧；分别将所述神经网络中至少两个网络层输出的至少二组特征中的每一组特征输入检测器，得到所述检测器对应输出的至少二组检测结果；其中，每一组特征包括所述参考帧的特征和所述检测帧的特征，每一组检测结果包括对应于一组特征的目标对象的多个备选框的分类结果和回归结果；根据所述检测器输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框。本公开实施例可以提高目标对象的检测结果的准确性和精确性。

Description

目标对象检测方法和装置、电子设备和存储介质

技术领域

本公开涉及计算机视觉技术，尤其是一种目标对象检测方法和装置、电子设备和存储介质。

背景技术

目标对象检测是计算机视觉的一个重要问题，在智能驾驶、单目标跟踪、多目标跟踪等一系列任务当中都可以用到。例如，在一段视频序列的某一帧图像中指定需要跟踪的目标对象，在之后的帧图像中检测到该目标对象，便可以实现对该目标对象的定位、跟踪、标注等等，在智能驾驶、单目标跟踪、多目标跟踪等领域均有重要意义。

发明内容

本公开实施例提供一种用于进行目标对象检测的技术方案。

本公开实施例的一个方面，提供的一种目标对象检测方法，包括：

经神经网络分别提取参考帧和检测帧的特征；其中，所述检测帧为视频序列中需要进行目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像，所述参考帧为所述视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧中目标对象的检测框图像，所述参考帧的图像大小小于所述检测帧；

分别将所述神经网络中至少两个网络层输出的至少二组特征中的每一组特征输入检测器，得到所述检测器对应输出的一组检测结果；其中，每一组特征包括所述参考帧的特征和所述检测帧的特征，每一组检测结果包括所述目标对象的多个备选框的分类结果和回归结果；

根据所述检测器针对所述至少二组特征输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框。

在基于本公开上述方法的另一个实施例中，还包括：以所述检测帧中所述目标对象的检测框作为下一参考帧，经所述神经网络分别提取所述下一参考帧和视频序列中时序位于所述检测帧之后的下一检测帧的特征；

分别将所述神经网络中至少两个网络层输出的至少二组特征中的每一组特征输入检测器，得到所述检测器对应输出的一组检测结果；其中，每一组特征包括所述下一参考帧的特征和所述下一检测帧的特征；

根据所述检测器针对所述至少二组特征输出的至少二组检测结果，获取所述下一检测帧中所述目标对象的检测框。

在基于本公开上述方法的另一个实施例中，所述神经网络包括多个卷积层；所述分别将所述神经网络中至少两个网络层输出的至少二组特征输入检测器，包括：分别将所述神经网络中至少两个卷积层输出的至少二组特征输入检测器；或者，

所述神经网络包括多个卷积块，每个卷积块包括至少一个卷积层；所述分别将所述神经网络中至少两个网络层输出的至少二组特征输入检测器，包括：分别将所述神经网络中至少两个卷积块输出的至少二组特征输入检测器；或者，

所述神经网络包括至少一个卷积块和至少一个卷积层，每个卷积块包括至少一个卷积层；所述分别将所述神经网络中至少两个网络层输出的至少二组特征输入检测器，包括：分别将所述神经网络中至少一个卷积块和至少一个卷积层输出的至少二组特征输入检测器。

在基于本公开上述方法的另一个实施例中，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述方法还包括：

以所述参考帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于所述参考帧的图像长度和/或宽度的区域图像作为所述检测帧。

在基于本公开上述方法的另一个实施例中，将所述神经网络中一个网络层输出的一组特征输入检测器，得到所述检测器对应输出的一组检测结果，包括：

基于所述参考帧的特征获取检测器的分类权重和回归权重；

分别利用所述分类权重和所述回归权重对所述检测帧的特征进行处理，得到所述检测器输出的多个备选框的分类结果和回归结果。

在基于本公开上述方法的另一个实施例中，基于所述参考帧的特征获取检测器的分类权重，包括：

通过所述检测器中的第一卷积层对所述参考帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述检测器的分类权重。

在基于本公开上述方法的另一个实施例中，基于所述参考帧的特征获取检测器的回归权重，包括：

通过所述检测器中的第二卷积层对所述参考帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述检测器的回归权重。

在基于本公开上述方法的另一个实施例中，所述分别利用所述分类权重和所述回归权重对所述检测帧的特征进行处理，得到所述检测器输出的多个备选框的分类结果和回归结果，包括：

利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果。

在基于本公开上述方法的另一个实施例中，所述利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果，包括：

通过所述检测器中的第三卷积层对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

利用所述分类权重对所述第三特征进行卷积操作，获得多个备选框的分类结果。

在基于本公开上述方法的另一个实施例中，利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果，包括：

通过第四卷积层对所述检测帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述检测帧的特征的通道数量相同；

利用所述回归权重对所述第四特征进行卷积操作，获得多个备选框的回归结果。

通过所述检测器中的第五卷积层对所述参考帧的特征进行卷积操作，以卷积操作得到的L个第五特征作为所述检测器的分类权重；其中，所述参考帧的特征的通道数为M1，所述第五特征的通道数为N1，M1、N1、L为大于0的整数，且M1大于N1。

在基于本公开上述方法的另一个实施例中，所述利用所述分类权重对所述检测帧的特征进行处理，得到所述检测器输出的多个备选框的分类结果，包括：

通过所述检测器中的第六卷积层对所述检测帧的特征进行卷积操作，得到L个通道数为N1的第六特征；其中，所述检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N1；

分别利用所述分类权重中的L个第五特征中的每个特征对所述L个第六特征中的对应特征进行卷积操作，得到L个卷积结果；

通过所述检测器中的第七卷积层对所述L个卷积结果进行卷积操作，得到多个备选框的分类结果。

在基于本公开上述方法的另一个实施例中，所述得到L个卷积结果之后，还包括：对所述L个卷积结果进行连接；

所述通过所述检测器中的第七卷积层对所述L个卷积结果进行卷积操作，包括：通过所述检测器中的第七卷积层对连接后的L个卷积结果进行卷积操作。

通过所述检测器中的第八卷积层对所述参考帧的特征进行卷积操作，以卷积操作得到的P个通道的第八特征作为所述检测器的回归权重；其中，所述参考帧的特征的通道数为M1，所述第八特征的通道数为N2，M1、N2、P为大于0的整数，且M1大于N2。

在基于本公开上述方法的另一个实施例中，所述利用所述回归权重对所述检测帧的特征进行处理，得到所述检测器输出的多个备选框的回归结果，包括：

通过所述检测器中的第九卷积层对所述检测帧的特征进行卷积操作，得到P个通道数为N2的第九特征；其中，所述检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N2；

分别利用所述回归权重中的P个第八特征中的每个特征对所述P个第九特征中的对应特征进行卷积操作，得到P个卷积结果；

通过所述检测器中的第十卷积层对所述P个卷积结果进行卷积操作，得到多个备选框的回归结果。

在基于本公开上述方法的另一个实施例中，所述得到P个卷积结果之后，还包括：对所述P个卷积结果进行连接；

所述通过所述检测器中的第十卷积层对所述P个卷积结果进行卷积操作，包括：通过所述检测器中的第十卷积层对连接后的P个卷积结果进行卷积操作。

在基于本公开上述方法的另一个实施例中，所述根据所述检测器输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框，包括：

对所述至少二组检测结果中的分类结果进行加权、平均或者加权平均，得到多个备选框的综合分类结果；和/或，对所述至少二组检测结果中的回归结果进行加权、平均或者加权平均，得到多个备选框的综合回归结果；

根据所述多个备选框的综合分类结果和综合回归结果，获取所述检测帧中所述目标对象的检测框。

在基于本公开上述方法的另一个实施例中，根据所述多个备选框的综合分类结果和综合回归结果，获取所述检测帧中所述目标对象的检测框，包括：

根据所述多个备选框的综合分类结果和综合回归结果，从所述多个备选框中选取一个备选框，并根据选取的备选框的综合回归结果中的偏移量对所述选取的备选框进行回归，获得所述检测帧中所述目标对象的检测框。

在基于本公开上述方法的另一个实施例中，所述根据所述多个备选框的综合分类结果和综合回归结果，从所述多个备选框中选取一个备选框，包括：

根据所述综合分类结果和所述综合回归结果的权重系数，从所述多个备选框中选取一个备选框。

在基于本公开上述方法的另一个实施例中，所述得到多个备选框的综合回归结果之后，还包括：分别根据各备选框的综合回归结果对综合分类结果进行调整；

所述根据所述多个备选框的综合分类结果和综合回归结果，从所述多个备选框中选取一个备选框，包括：根据调整后的综合分类结果，从所述多个备选框中选取一个备选框。

在基于本公开上述方法的另一个实施例中，所述目标对象包括以下任意一项或多项：行人，车辆，机器人，动物，飞行器，可移动的静止物。

在基于本公开上述方法的另一个实施例中，还包括：

所述获取所述检测帧中所述目标对象的检测框之后，对所述视频序列中所述目标对象的检测框进行标记；和/或，

获取到所述视频序列中多个帧中所述目标对象的检测框之后，根据所述视频序列中多个帧中所述目标对象的检测框的位置，确定所述视频序列中所述目标对象的运动轨迹；和/或，

获取到所述视频序列中多个帧中所述目标对象的检测框之后，根据所述目标对象的检测框的位置调整摄像头的拍摄参数；和/或，

所述获取所述检测帧中所述目标对象的检测框之后，确定所述检测帧中所述目标对象的检测框的位置是否位于预设区域范围内；响应于所述目标对象的检测框的位置位于预设区域范围内，输出提示消息；和/或，

所述目标对象为多个时，所述获取所述检测帧中多个所述目标对象的检测框之后，将所述检测帧中的多个目标对象与所述参考帧中多个目标对象的检测框进行匹配，根据匹配结果和所述参考帧中各目标对象的标识，标注所述检测帧中各目标对象的标识；和/或，

所述目标对象为多个时，获取到所述视频序列中多个帧中多个所述目标对象的检测框之后，根据所述视频序列中多个帧中多个所述目标对象的检测框的位置，确定所述视频序列中多个所述目标对象的运动轨迹；根据所述视频序列中多个所述目标对象的运动轨迹对多个所述目标对象进行跟踪；和/或，

所述目标对象为多个时，获取到所述视频序列中多个帧中多个所述目标对象的检测框之后，根据多个所述目标对象在所述视频序列中多个帧中数量和/或位置的变化，对多个所述目标对象的行为进行分析；和/或，

获取到所述视频序列中多个帧中所述目标对象的检测框之后，所述视频序列中多个帧中所述目标对象的检测框的位置，确定所述目标对象的运动状态；根据所述目标对象的运动状态和拍摄所述视频序列的摄像头所在载体的运动状态，对所述载体进行智能驾驶控制。

在基于本公开上述方法的另一个实施例中，所述载体包括：车辆、机器人或者飞行器；或者，

所述对所述载体进行智能驾驶控制，包括：对所述载体进行运动路线规划，和/或对所述载体的运动状态或者驾驶模式进行控制。

本公开实施例的另一个方面，提供的一种目标对象检测网络的训练方法，包括：

将至少一个样本对输入神经网络，经上述任一实施例所述的目标对象检测方法，输出样本对中检测帧中目标对象的检测框；其中，每个样本对包括对应的一个参考帧和一个检测帧；

以输出的所述检测帧中目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络和所述检测器。

在基于本公开上述方法的另一个实施例中，所述至少二个不同检测帧中目标对象的检测框的位置不同。

在基于本公开上述方法的另一个实施例中，所述至少一个样本对中目标对象的检测框的位置随机分布，或者按照预设偏移量均衡分布。

本公开实施例的又一个方面，提供的一种目标对象检测装置，包括：

神经网络，用于分别提取参考帧和检测帧的特征；其中，所述检测帧为视频序列中需要进行目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像，所述参考帧为所述视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧中目标对象的检测框图像，所述参考帧的图像大小小于所述检测帧；

检测器，用于分别接收所述神经网络中至少两个网络层输出的至少二组特征中的每一组特征，对应输出一组检测结果；其中，每一组特征包括所述参考帧的特征和所述检测帧的特征，每一组检测结果包括所述目标对象的多个备选框的分类结果和回归结果；

获取模块，用于根据所述检测器针对所述至少二组特征输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框。

在基于本公开上述装置的另一个实施例中，所述神经网络包括多个卷积层；所述检测器，用于分别接收所述神经网络中至少两个卷积层输出的至少二组特征；或者，

所述神经网络包括多个卷积块，每个卷积块包括至少一个卷积层；所述检测器，用于分别接收所述神经网络中至少两个卷积块输出的至少二组特征；或者，

所述神经网络包括至少一个卷积块和至少一个卷积层，每个卷积块包括至少一个卷积层；所述检测器，用于分别接收所述神经网络中至少一个卷积块和至少一个卷积层输出的至少二组特征输入检测器。

在基于本公开上述装置的另一个实施例中，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述装置还包括：

选取模块，用于以所述参考帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于所述参考帧的图像长度和/或宽度的区域图像作为所述检测帧。

在基于本公开上述装置的另一个实施例中，所述检测器，用于基于所述参考帧的特征获取检测器的分类权重和回归权重；分别利用所述分类权重和所述回归权重对所述检测帧的特征进行处理，得到多个备选框的分类结果和回归结果。

在基于本公开上述装置的另一个实施例中，所述检测器包括：

第一卷积层，用于对所述参考帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述检测器的分类权重；

第二卷积层，用于对所述参考帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述检测器的回归权重；

第三卷积层，用于对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

第一卷积单元，用于利用所述分类权重对所述第三特征进行卷积操作，获得多个备选框的分类结果；

第四卷积层，用于对所述检测帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述检测帧的特征的通道数量相同；

第二卷积单元，用于利用所述回归权重对所述第四特征进行卷积操作，获得多个备选框的回归结果。

第五卷积层，用于对所述参考帧的特征进行卷积操作，以卷积操作得到的L个第五特征作为所述检测器的分类权重；其中，所述参考帧的特征的通道数为M1，所述第五特征的通道数为N1，M1、N1、L为大于0的整数，且M1大于N1；

第六卷积层，用于对所述检测帧的特征进行卷积操作，得到L个通道数为N1的第六特征；其中，所述检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N1；

第三卷积单元，用于分别利用所述分类权重中的L个第五特征中的每个特征对所述L个第六特征中的对应特征进行卷积操作，得到L个卷积结果；

第七卷积层，用于对所述L个卷积结果进行卷积操作，得到多个备选框的分类结果；

第八卷积层，用于对所述参考帧的特征进行卷积操作，以卷积操作得到的P个通道的第八特征作为所述检测器的回归权重；其中，所述参考帧的特征的通道数为M1，所述第八特征的通道数为N2，N2、P为大于0的整数，且M1大于N2；

第九卷积层，用于对所述检测帧的特征进行卷积操作，得到P个通道数为N2的第九特征；其中，所述检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N2；

第四卷积单元，用于分别利用所述回归权重中的P个第八特征中的每个特征对所述P个第九特征中的对应特征进行卷积操作，得到P个卷积结果；

第十卷积层，用于对所述P个卷积结果进行卷积操作，得到多个备选框的回归结果。

在基于本公开上述装置的另一个实施例中，所述检测器还包括：

第一连接单元，用于对所述L个卷积结果进行连接；

所述第七卷积层，用于对连接后的L个卷积结果进行卷积操作。

第二连接单元，用于对所述P个卷积结果进行连接；

所述第十卷积层，用于对连接后的P个卷积结果进行卷积操作。

在基于本公开上述装置的另一个实施例中，所述获取模块包括：

综合处理单元，用于对所述至少二组检测结果中的分类结果进行加权、平均或者加权平均，得到多个备选框的综合分类结果；和/或，对所述至少二组检测结果中的回归结果进行加权、平均或者加权平均，得到多个备选框的综合回归结果；

获取单元，用于根据所述多个备选框的综合分类结果和综合回归结果，获取所述检测帧中所述目标对象的检测框。

在基于本公开上述装置的另一个实施例中，所述获取单元，用于根据所述多个备选框的综合分类结果和综合回归结果，从所述多个备选框中选取一个备选框，并根据选取的备选框的综合回归结果中的偏移量对所述选取的备选框进行回归，获得所述检测帧中所述目标对象的检测框。

在基于本公开上述装置的另一个实施例中，所述获取单元，具体用于根据所述综合分类结果和所述综合回归结果的权重系数，从所述多个备选框中选取一个备选框。

在基于本公开上述装置的另一个实施例中，所述获取模块还包括：

调整单元，用于分别根据各备选框的综合回归结果对综合分类结果进行调整；

所述获取单元，具体用于根据调整后的综合分类结果，从所述多个备选框中选取一个备选框。

在基于本公开上述装置的另一个实施例中，所述目标对象包括以下任意一项或多项：行人，车辆，机器人，动物，飞行器，可移动的静止物。

在基于本公开上述装置的另一个实施例中，还包括：应用单元，用于：

在基于本公开上述装置的另一个实施例中，所述载体包括：车辆、机器人或者飞行器；或者，

所述应用单元对所述载体进行智能驾驶控制时，用于对所述载体进行运动路线规划，和/或对所述载体的运动状态或者驾驶模式进行控制。

本公开实施例的又一个方面，提供的一种目标对象检测网络的训练装置，包括：

目标对象检测网络，用于接收至少一个样本对，输出样本对中检测帧中目标对象的检测框；其中，每个样本对包括对应的一个参考帧和一个检测帧；所述目标对象检测网络包括上述任一实施例所述的目标对象检测装置；

训练模块，用于以输出的所述检测帧中目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络和所述检测器。

在基于本公开上述装置的另一个实施例中，所述至少二个不同检测帧中目标对象的检测框的位置不同。

在基于本公开上述装置的另一个实施例中，所述至少一个样本对中目标对象的检测框的位置随机分布，或者按照预设偏移量均衡分布。

本公开实施例的再一个方面，提供的一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述任一实施例所述的目标对象检测方法或者目标对象检测网络的训练方法。

本公开实施例的再一个方面，提供的一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例所述的目标对象检测方法或者目标对象检测网络的训练方法。

本公开实施例的再一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述任一实施例所述的目标对象检测方法或者目标对象检测网络的训练方法中各步骤的指令。

基于本公开上述实施例提供的目标对象检测方法和装置、电子设备和存储介质，利用神经网络分别提取参考帧和检测帧的特征，分别将神经网络中至少两个网络层输出的至少二组特征输入检测器，得到至少二组检测结果，根据这至少二组检测结果获取检测帧中目标对象的检测框，本公开实施例引入了具有多个网络层的神经网络对参考帧和检测帧进行特征提取，并分别基于至少两个网络层输出的至少二组特征进行目标对象检测，由于不同网络层的感受野不同，可以实现对图像帧在细节和全局上的综合信息提取，综合不同网络层输出的特征得到的检测结果获取检测帧中目标对象的检测框，使得目标对象的检测结果更加准确、精确；根据检测帧多个备选框的分类结果和回归结果来获取目标对象的检测框，能够更好的估计目标对象的位置和大小变化，更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

基于本公开上述实施例提供的目标对象检测网络的训练方法和装置、电子设备和存储介质，训练得到的目标对象检测网络用于目标对象检测时，可以综合不同网络层输出的特征得到的检测结果获取检测帧中目标对象的检测框，使得目标对象的检测结果更加准确、精确；根据检测帧中多个备选框的分类结果和回归结果来获取目标对象的检测框，能够更好的估计目标对象的位置和大小变化，更精确的找出目标对象在检测帧中的位置，从而提升了目标对象跟踪的速度和准确性，跟踪效果好、速度快。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开目标对象检测方法一个实施例的流程图。

图2为本公开目标对象检测方法另一个实施例的流程图。

图3为本公开实施方式的检测器的一个示意图。

图4为本公开目标对象检测方法一个实施方式的流程图。

图5为本公开对应于图4所示实施方式的检测器的另一个示意图。

图6为对应于图4所示方式的一个应用示例图。

图7为本公开目标对象检测网络的训练方法一个实施例的流程图。

图8为本公开目标对象检测装置一个实施例的结构示意图。

图9为本公开目标对象检测装置另一个实施例的结构示意图。

图10为本公开目标对象检测装置又一个实施例的结构示意图。

图11为本公开目标对象检测网络的训练装置一个实施例的结构示意图。

图12为本公开电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

图1为本公开目标对象检测方法一个实施例的流程图。如图1所示，该实施例的目标对象检测方法包括：

102，经神经网络分别提取参考帧和检测帧的特征。

其中，参考帧的图像大小小于检测帧。

本公开实施例中，检测帧为需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像。检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，在本公开各实施例的一个实施方式中，该区域大于参考帧的图像大小，例如，可以以参考帧图像的中心点为中心点、从当前帧中选取大小为参考帧图像大小的2-4倍的搜索区域作为检测帧。

本公开实施例中，参考帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧中标对象的检测框图像，可以是视频序列中需要进行目标跟踪的起始帧，该起始帧在视频帧序列中的位置是非常灵活的，如可以是视频帧序列中的首帧或者任一中间帧。检测帧是需要进行目标跟踪的帧，检测帧图像中确定了目标对象的检测框后，该检测帧中对应检测框的图像便可以作为下一个检测帧的参考帧图像。

在本公开目标对象检测方法的另一个实施例中，检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，还可以包括：预先以参考帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于参考帧的图像长度和/或宽度的区域图像作为检测帧。

在本公开各实施例的一个实施方式中，该操作102中，可以经同一神经网络分别提取参考帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取参考帧和检测帧的特征。

本公开实施例中，特征的表现方式可以为特征向量或者特征图，然而，本公开实施例不局限于此。

本公开实施例中的神经网络可以采用任意具有多个网络层的深度神经网络实现，例如卷积神经网络、循环神经网络等，例如可以是LeNet、AlexNet、GoogLeNet、VGGNet、ResNet、MobileNet(如ResNet-18、ResNet-34、ResNet-50、ResNet-101等)、ShuffleNet等任意类型的神经网络。

104，分别将神经网络中至少两个网络层输出的至少二组特征中的每一组特征输入检测器，得到检测器对应输出的一组检测结果，共得到对应于上述至少二组特征的至少两组检测结果。

其中，每一组特征包括参考帧的特征和检测帧的特征，每一组检测结果包括对应于一组特征的目标对象的多个备选框的分类结果和回归结果。

其中，分类结果包括各备选框分别为目标对象的检测框的概率值，回归结果包括各备选框相对于参考帧对应的检测框在位置上的偏移量。

本公开实施例中的检测器，可以对输入的一组参考帧的特征和检测帧的特征进行分类处理，确定各备选框分别为目标对象的检测框的概率值；对输入的一组参考帧的特征和检测帧的特征进行回归处理，确定各备选框分别相对于参考帧对应的检测框在位置上的偏移量，从而得到作为目标对象的检测框的多个备选框的分类结果和回归结果。其中，输入的一组特征可以为参考帧的特征图和检测帧的特征图。

例如，在其中一个可选示例中，上述多个备选框可以包括：检测帧中各位置上的K个备选框。其中，K为预先设置的、大于1的整数。K个备选框的长度与宽度的比值各不相同，例如，K个备选框的长度与宽度的比值可以包括：1:1，2:1，2:1，3:1，1:3，等。分类结果用于表示各位置上的K个备选框是否为目标对象的检测框的概率值。

可以通过预先的训练过程配置K的取值和K个备选框的长度与宽度的比值，这样，接收到输入的一组参考帧的特征和检测帧的特征后，可以对参考帧的特征和检测帧的特征进行分类处理，基于参考帧的特征和检测帧的特征确定检测帧中各位置上的K个备选框分别为目标对象的检测框的概率值；对参考帧的特征和检测帧的特征进行回归处理，基于参考帧的特征和检测帧的特征确定检测帧中各位置上的K个备选框分别相对于参考帧对应的检测框在位置上的偏移量，从而得到作为目标对象的检测框的多个备选框的分类结果和回归结果，由此，针对一组参考帧和检测帧，经神经网络分别进行特征提取得到一组参考帧的特征和检测帧的特征并输入检测器后，便可得到检测器输出的、检测帧中可能被确定为目标对象的检测框的多个备选框的分类结果和回归结果。检测器具有上述分类和回归检测功能即可，其可通过用于分类处理的单元、用于回归处理的单元等运算单元构成，本公开对其具体实现方式不做限制。进一步的，该检测器的可能实现方式，在本公开后续实施例(例如图3、图5、图9和图10)中进行介绍，然而，本领域技术人员知悉，本公开介绍的仅仅是检测器的示例性实现方式，检测器的具体实现不局限于此。

106，根据检测器针对上述至少二组特征输出的至少二组检测结果，获取检测帧中目标对象的检测框。

基于本公开上述实施例提供的目标对象检测方法，引入了具有多个网络层的神经网络对参考帧和检测帧进行特征提取，并分别基于至少两个网络层输出的至少二组特征进行目标对象检测，由于不同网络层的感受野不同，可以实现对图像帧在细节和全局上的综合信息提取，综合不同网络层输出的特征得到的检测结果获取检测帧中目标对象的检测框，使得目标对象的检测结果更加准确、精确；根据检测帧多个备选框的分类结果和回归结果来获取目标对象的检测框，能够更好的估计目标对象的位置和大小变化，更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

在本公开目标对象检测方法的又一实施例中，还可以包括：以检测帧中目标对象的检测框作为下一参考帧，经神经网络分别提取下一参考帧和视频序列中时序位于检测帧之后的下一检测帧的特征；分别将神经网络中至少两个网络层输出的至少二组特征中的每一组特征输入检测器，得到检测器对应输出的至少二组检测结果，其中每一组检测结果对应于一组特征；其中，每一组特征包括下一参考帧的特征和下一检测帧的特征；根据检测器针对上述至少二组特征输出的至少二组检测结果，获取下一检测帧中目标对象的检测框。

基于上述实施例，可以依次以一个目标对象的检测框确定的帧中的检测框图像参考帧作为参考帧，对视频序列中时序位于参考帧之后的检测帧进行目标对象检测，从而可以确定视频序列中多个帧中目的对象的检测框，实现了对视频序列中目标对象的跟踪。

在本公开各实施例的一个实施方式中，上述神经网络包括多个卷积层，可以为一个包括多个卷积层的深度神经网络。相应地，操作104中，可以分别将神经网络中至少两个卷积层输出的至少二组特征中的每一组特征输入检测器。该实施例中，神经网络中输出各组特征的网络层为卷积层。

或者，在本公开各实施例的另一个实施方式中，上述神经网络包括多个卷积块(block)，每个卷积块包括至少一个卷积层，神经网络可以为一个包括多个卷积块的深度神经网络。相应地，操作104中，可以分别将神经网络中至少两个卷积块输出的至少二组特征输入检测器。该实施例中，神经网络中输出各组特征的网络层为卷积块，例如可以是该卷积块中的最后一个卷积层(即网络深度最深的一个卷积层)。

或者，在本公开各实施例的另一个实施方式中，上述神经网络包括至少一个卷积块和至少一个卷积层，每个卷积块包括至少一个卷积层，即该神经网络可以为一个包括至少一个卷积块和至少一个卷积层深度神经网络。相应地，操作104中，可以分别将神经网络中至少一个卷积块和至少一个卷积层输出的至少二组特征输入检测器。该实施例中，神经网络中输出至少二组特征的网络层包括至少一个卷积块和至少一个卷积层。输出一组特征的网络层为卷积块时，例如可以是该卷积块中的最后一个卷积层(即网络深度最深的一个卷积层)输出该组特征。

在本公开上述各实施例的一个实施方式中，将神经网络中一个网络层输出的一组特征输入检测器，得到检测器输出的一组检测结果，可以通过如下方式实现：基于参考帧的特征获取检测器的分类权重和回归权重；分别利用分类权重和回归权重对检测帧的特征进行处理，得到检测器输出的多个备选框的分类结果和回归结果。

如图2所示，为本公开目标对象检测方法另一个实施例的流程图。该实施例的目标对象检测方法包括：

202，经神经网络分别提取参考帧和检测帧的特征。

204，分别将神经网络中至少两个网络层输出的至少二组特征输入检测器。

其中，检测器分别针对收入的每一组特征，执行操作206-208，得到对应的一组检测结果，每组检测结果包括：多个备选框的分类结果和回归结果。

206，基于参考帧的特征获取检测器的分类权重和回归权重。

208，分别利用分类权重和回归权重对检测帧的特征进行处理，得到多个备选框的分类结果和回归结果。

通过操作206-208，得到至少二组检测结果，然后针对该至少两组检测结果执行操作210。

210，根据检测器输出的至少二组检测结果，获取检测帧中目标对象的检测框。

本实施例中，基于参考帧，检测器可以从检测帧中快速产生大量的备选框，并获得检测帧中各位置上的多个备选框分别相对于参考帧中目标对象的检测框的偏移量，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升目标跟踪的速度和准确性，跟踪效果好、速度快。

其中，在其中一些实施方式中，操作206中，可以通过第一卷积层对参考帧的特征进行卷积操作，以卷积操作得到的第一特征作为检测器的分类权重。

例如，在其中一个可选示例中，获取分类权重可以通过如下方式实现：通过第一卷积层对参考帧的特征进行卷积操作，增加参考帧的特征的通道数量，得到第一特征，第一特征的通道数量为参考帧的特征的通道数量的2K倍。

其中，在第一特征的通道数量为参考帧的特征的通道数量的2K倍时，分类结果可以包括检测帧中各位置上的K个备选框分别是否为目标对象的检测框的概率值。

在一些实施方式中，操作206中，可以通过第二卷积层对参考帧的特征进行卷积操作，以卷积操作得到的第二特征作为检测器的回归权重。

例如，在其中一个可选示例中，获取回归权重可以通过如下方式实现：通过第二卷积层对参考帧的特征进行卷积操作，增加参考帧的特征的通道数量，得到第二特征，该第二特征的通道数量为参考帧的特征的通道数量的4K倍。

其中，回归结果包括检测帧中各位置上的K个备选框分别相对于参考帧中目标对象的检测框的偏移量，其中的偏移量可以包括位置和大小的变化量，其中的位置可以是中心点的位置，也可以是基准框的四个顶点的位置等。

在第二特征的通道数量为参考帧的特征的通道数量的4K倍时，各备选框分别相对于参考帧中目标对象的检测框的偏移量例如可以包括中心点的位置的横坐标的偏移量(dx)、中心点的位置的纵坐标的偏移量(dy)、高度的变化量(dh)和宽度的变化量(dw)。

在一些实施方式中，操作208中，可以利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果。

例如，在其中一些可选示例中，利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果时，可以通过检测器中的第三卷积层对检测帧的特征进行卷积操作，获得第三特征，该第三特征的通道数量与检测帧的特征的通道数量相同；利用分类权重对第三特征进行卷积操作，获得多个备选框的分类结果。

再例如，在其中一些可选示例中，利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果时，可以通过第四卷积层对检测帧的特征进行卷积操作，获得第四特征，第四特征的通道数量与检测帧的特征的通道数量相同；利用回归权重对第四特征进行卷积操作，获得多个备选框的回归结果。

如图3所示，为本公开对应于上述实施方式的检测器的一个示意图。

另外，在另一些实施方式中，操作206中，基于参考帧的特征获取检测器的分类权重时，可以通过检测器中的第五卷积层对参考帧的特征进行卷积操作，以卷积操作得到的L个第五特征作为检测器的分类权重。其中，参考帧的特征的通道数为M1，第五特征的通道数为N1，M1、N1、L为大于0的整数，且M1大于N1。例如，在其中一个可选示例中，参考帧的特征的通道数为256，通过第五卷积层对参考帧的特征进行卷积操作，得到256个通道数为1的第五特征。

在一些实施方式中，操作208中，利用分类权重对检测帧的特征进行处理，得到多个备选框的分类结果时，可以通过检测器中的第六卷积层对检测帧的特征进行卷积操作，得到L个通道数为N1的第六特征，其中，检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N1；分别利用分类权重中的L个第五特征中的每个特征对L个第六特征中的对应特征进行卷积操作(即，利用第t个第五特征对第t个第六特征进行卷积操作，t的取值依次为大于0且不大于256的整数)，得到L个卷积结果；通过检测器中的第七卷积层对L个卷积结果进行卷积操作，得到多个备选框的分类结果。例如，在其中一个可选示例中，检测帧的特征的通道数为256，通过第六卷积层对参考帧的特征进行卷积操作，得到256个通道数为1的第六特征；分别利用分类权重中的256个第五特征中的每个特征对256个第六特征中的对应特征进行卷积操作，得到256个卷积结果。

可选地，在上述实施方式中，得到L个卷积结果之后，还可以对L个卷积结果进行连接，通过检测器中的第七卷积层对连接后的L个卷积结果进行卷积操作。

在一些实施方式中，操作206中，基于参考帧的特征获取检测器的回归权重时，可以通过检测器中的第八卷积层对参考帧的特征进行卷积操作，以卷积操作得到的P个通道的第八特征作为检测器的回归权重。其中，参考帧的特征的通道数为M1，第八特征的通道数为N2，M1、N2、P为大于0的整数，且M1大于N2。例如，在其中一个可选示例中，检测帧的特征的通道数为256，通过第八卷积层对参考帧的特征进行卷积操作，得到256个通道数为1的第八特征。

在一些实施方式中，操作208中，利用回归权重对检测帧的特征进行处理，得到检测器输出的多个备选框的回归结果时，可以通过检测器中的第九卷积层对检测帧的特征进行卷积操作，得到P个通道数为N2的第九特征；其中，检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N2；分别利用回归权重中的P个第八特征中的每个特征对P个第九特征中的对应特征进行卷积操作(即，利用第t个第八特征对第t个第九特征进行卷积操作，t的取值依次为大于0且不大于256的整数)，得到P个卷积结果；通过检测器中的第十卷积层对P个卷积结果进行卷积操作，得到多个备选框的回归结果。其中，N1与N2的取值可以相同，也可以不同。例如，在其中一个可选示例中，检测帧的特征的通道数为256，通过第九卷积层对参考帧的特征进行卷积操作，得到256个通道数为1的第九特征；分别利用回归权重中的256个第八特征中的每个特征对256个第十特征中的对应特征进行卷积操作，得到256个卷积结果。

可选地，在上述实施方式中，得到P个卷积结果之后，还可以对P个卷积结果进行连接，通过检测器中的第十卷积层对连接后的P个卷积结果进行卷积操作。

图4为本公开对应于上述实施方式的一个流程图。图5为本公开对应于图4所示实施方式的检测器的一个示意图。参见图4和图5，该实施方式的目标对象检测方法包括：

302，经神经网络分别提取参考帧和检测帧的特征。

304，分别将神经网络中至少两个网络层输出的至少二组特征输入检测器。

其中，检测器分别针对收入的每一组特征，执行操作306-312、以及314-320，得到对应的一组检测结果，每组检测结果包括：多个备选框的分类结果和回归结果。

306，通过检测器中的第五卷积层对参考帧的特征进行卷积操作，以卷积操作得到的L个第五特征作为检测器的分类权重。

其中，参考帧的特征的通道数为M1，第五特征的通道数为N1，M1、N1、L为大于0的整数，且M1大于N1。即，通过操作306，降低了参考帧的通道数。

308，通过检测器中的第六卷积层对检测帧的特征进行卷积操作，得到L个通道数为N1的第六特征。

其中，检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N1。即，通过操作308，降低了检测帧的通道数。

310，分别利用分类权重中的L个第五特征中的每个特征对L个第六特征中的对应特征进行卷积操作，得到L个卷积结果。

312，通过检测器中的第七卷积层对L个卷积结果进行卷积操作，得到多个备选框的分类结果。

之后，执行操作322。

314，通过检测器中的第八卷积层对参考帧的特征进行卷积操作，以卷积操作得到的P个通道的第八特征作为检测器的回归权重。

其中，参考帧的特征的通道数为M1，第八特征的通道数为N2，M1、N2、P为大于0的整数，且M1大于N2。即，通过操作314，降低了参考帧的通道数。

316，通过检测器中的第九卷积层对检测帧的特征进行卷积操作，得到P个通道数为N2的第九特征。

其中，检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N2。即，通过操作316，降低了检测帧的通道数。

318，分别利用回归权重中的P个第八特征中的每个特征对P个第九特征中的对应特征进行卷积操作，得到P个卷积结果。

320，通过检测器中的第十卷积层对P个卷积结果进行卷积操作，得到多个备选框的回归结果。

其中，上述操作306-312和操作314-320为两个分支的操作，这两个分支的操作可以同时执行，也可以以任意先后顺序执行，或者以任意时间差开始执行，本实施例对此不做限制。

通过操作306-320，得到至少二组检测结果，然后针对该至少两组检测结果执行操作322。

322，根据检测器输出的至少二组检测结果，获取检测帧中目标对象的检测框。

基于上述实施例，可以将同一组的参考帧的特征和检测帧的特征转换为通道数相等且较少的特征，然后将对应的参考帧的特征图和检测帧的特征图进行相关操作，例如，可以将通道数为256的参考帧的特征图和检测帧的特征图分别转换为256个通道数为1的特征图，进行相关操作可以得到256个特征图，即保证了比较多通道数，在相关操作后再进行卷积操作从而转换为2k、4k通道数的分类结果、回归结果，由于不需要对参考帧进行升维度操作，可以大幅度降低参数量，从而提高了计算速度。

需要说明的是，本公开实施例中的各卷积层、卷积单元，例如上述实施例中的第一卷积层、第二卷积层、…、第十卷积层，例如可以是一个单独的卷积层，也可以是由多个卷积层堆积成的一个卷积层，本公开实施例不局限于此。

另外，在上述各实施例的一些实施方式中，操作106、210或者322中，根据检测器输出的至少二组检测结果，获取检测帧中目标对象的检测框，可以通过如下方式实现：

对至少二组检测结果中的分类结果进行加权、平均或者加权平均，得到多个备选框的综合分类结果；和/或，对至少二组检测结果中的回归结果进行加权、平均或者加权平均，得到多个备选框的综合回归结果；

根据多个备选框的综合分类结果和综合回归结果，获取检测帧中目标对象的检测框。

例如，分类结果和回归结果的表现形式为向量，包括多个分量，例如分类结果包括两个分量，分别对应于一个备选框是否为目标对象的检测框的概率值，回归结果包括四个分量，分别对应于一个备选框相对于参考帧中目标对象的检测框的偏移量(中心点的位置的横坐标的偏移量dx、中心点的位置的纵坐标的偏移量dy、高度的变化量dh和宽度的变化量dw)，则对至少二组检测结果中的分类结果进行加权时，可以利用预先设置的每一组检测结果的加权系数对相应的分类结果中各分量进行加权(相乘)，然后将得到的至少二个分类结果向量中的对应分量进行相加，得到一个综合分类结果。对至少二组检测结果中的回归结果进行加权时，可以利用预先设置的每一组检测结果的加权系数对相应的回归结果中各分量进行加权(相乘)，然后将得到的至少二个回归结果向量中的对应分量进行相加，得到一个综合回归结果。其中，为了更快速、准确的根据多个备选框的综合分类结果和综合回归结果获取检测帧中目标对象的检测框，可以设置至少二组检测结果的加权系数之和为1。

类似地，对至少二组检测结果中的分类结果进行平均时，可以将至少二组检测结果中的分类结果向量中的对应分量进行相加再取平均值，得到一个综合分类结果。对至少二组检测结果中的回归结果进行加权时，可以将至少二组检测结果中的回归结果向量中的对应分量进行相加再取平均值，得到一个综合回归结果。

类似地，对至少二组检测结果中的分类结果进行加权时，可以利用预先设置的每一组检测结果的加权系数对相应的分类结果中各分量进行加权(相乘)，然后将得到的至少二个分类结果向量中的对应分量进行相加再取平均值，得到一个综合分类结果。对至少二组检测结果中的回归结果进行加权平均时，可以利用预先设置的每一组检测结果的加权系数对相应的回归结果中各分量进行加权(相乘)，然后将得到的至少二个回归结果向量中的对应分量进行相加再取平均值，得到一个综合回归结果。

需要说明的是，除了对至少二组检测结果中的分类结果、回归结果通过加权、平均或者加权平均，得到多个备选框的综合分类结果、综合回归结果的方式外，也可以采用其他方式对至少二组检测结果中的分类结果、回归结果进行处理，例如采用求和的方式，分别对至少二组检测结果中的分类结果、回归结果进行处理，得到多个备选框的综合分类结果、综合回归结果，本公开实施例不局限于此。

例如，在一些可选示例中，可以根据多个备选框的综合分类结果和综合回归结果，从多个备选框中选取一个备选框，并根据选取的备选框的综合回归结果中的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

可选地，在一个可能的实现方式中，从多个备选框中选取一个备选框时，可以根据综合分类结果和综合回归结果的权重系数，从多个备选框中选取一个备选框，例如，根据综合分类结果和综合回归结果的权重系数，分别由各备选框的概率值和偏移量计算一个综合分数，根据上述多个备选框的综合分数，从上述多个备选框中选取一个备选框，例如选择一个综合分数最高的备选框。

可选地，在另一个可能的实现方式中，得到多个备选框的综合回归结果之后，还可以分别根据各备选框的综合回归结果对综合分类结果进行调整；从多个备选框中选取一个备选框时，可以根据调整后的综合分类结果，从多个备选框中选取一个备选框。

例如，得到多个备选框的综合回归结果之后，可以根据备选框的综合回归结果中位置和大小的变化量，对该备选框的概率值进行调整，例如，根据综合回归结果中位置和大小的变化量，对该备选框的概率值进行调整。例如，对位置的变化量较大(即：位置移动较大)、大小的变化量较大(即：形状变化较大)的备选框的概率值进行惩罚，降低其概率值。相应的，该示例中，根据综合分类结果和综合回归结果从多个备选框中选取一个备选框时，可以根据调整后的概率值，从多个备选框中，选取一个概率值最高的备选框。

在本公开目标对象检测方法的一个可选实施例中，得到多个备选框的综合分类结果和综合回归结果之后，还可以对其中的分类结果进行归一化处理，使各备选框是否为目标对象的检测框的概率值之和为1，从而有助于判断各备选框是否为目标对象的检测框。

如图6所示，为对应于图4所示方式的一个应用示例图。该应用实施例中，示出了分别将神经网络(ResNet-50)中三个网络块输出的三组特征输入检测器，得到检测器输出的三组检测结果的一个示例。在神经网络输出的特征中，不同大小表示不同分辨率，网络层越深(越到右侧)，特征越深(通道数更大)，空间尺寸会越小。从不同大小的特征引出的线条表示将该特征输入检测器。本领域技术人员基于本公开实施例的记载，可以获知，分别将神经网络中其他数量的多个网络块输出的多组特征输入检测器，得到多组检测结果的实现，此处不再赘述。

在本公开上述实施例中，目标对象例如可以包括但不限于以下任意一项或多项：行人，车辆，机器人，动物，飞行器，可移动的静止物，等等任意对象。

基于本公开上述各实施例得到目标对象的检测框后，可以基于目标对象的检测框进行目标跟踪、智能驾驶控制、安防等各种应用。

例如，在一个应用场景中，获取检测帧中目标对象的检测框之后，可以对视频序列中目标对象的检测框进行标记，从而可以实现对视频序列中目标对象的标注。

再例如，在一个应用场景中，获取到视频序列中多个帧中目标对象的检测框之后，可以根据视频序列中多个帧中目标对象的检测框的位置，确定视频序列中目标对象的运动轨迹，从而可以获知该目标对象的运动轨迹。

再例如，在一个应用场景中，获取到视频序列中多个帧中目标对象的检测框之后，可以根据目标对象的检测框的位置调整摄像头的拍摄参数，从而可以实现摄像头对目标对象的自动聚焦。

再例如，在一个应用场景中，获取检测帧中目标对象的检测框之后，可以确定检测帧中目标对象的检测框的位置是否位于预设区域范围内；响应于目标对象的检测框的位置位于预设区域范围内，输出提示消息，从而实现对目标对象出、入特定区域的预警。

再例如，在一个应用场景中，目标对象为多个时，获取检测帧中多个目标对象的检测框之后，可以将检测帧中的多个目标对象与参考帧中多个目标对象的检测框进行匹配，根据匹配结果和参考帧中各目标对象的标识，标注检测帧中各目标对象的标识，从而实现对多目标对象的标注。

再例如，在一个应用场景中，目标对象为多个时，获取到视频序列中多个帧中多个目标对象的检测框之后，可以根据视频序列中多个帧中多个目标对象的检测框的位置，确定视频序列中多个目标对象的运动轨迹；根据视频序列中多个目标对象的运动轨迹对多个目标对象进行跟踪。

再例如，在一个应用场景中，目标对象为多个时，获取到视频序列中多个帧中多个目标对象的检测框之后，根据多个目标对象在视频序列中多个帧中数量和/或位置的变化，对多个目标对象的行为进行分析，从而实现对多目标对象行为的分析、应用。

再例如，在一个应用场景中，获取到视频序列中多个帧中目标对象的检测框之后，视频序列中多个帧中目标对象的检测框的位置，确定目标对象的运动状态；根据目标对象的运动状态和拍摄视频序列的摄像头所在载体的运动状态，对载体进行智能驾驶控制，从而实现了基于目标对象的智能驾驶控制。

其中的载体例如可以包括但不限于：车辆、机器人或者飞行器，等等任意可以移动的物体。

在一个可选示例中，对载体进行智能驾驶控制，例如可以是对载体进行运动路线规划，和/或对载体的运动状态或者驾驶模式进行控制。

图7为本公开目标对象检测网络的训练方法一个实施例的流程图。如图7所示，该实施例目标对象检测网络的训练方法包括：

402，将至少一个样本对输入神经网络，经上述任一实施例或实施方式或示例中的目标对象检测方法，输出样本对中检测帧中目标对象的检测框。

其中，每个样本对包括对应的一个参考帧和一个检测帧，不同检测帧中目标对象的检测框的位置不同。每个检测帧预先设置有标注信息，其中的标注信息可以包括检测帧中目标对象的检测框的位置。

404，以输出的检测帧中目标对象的检测框作为预测检测框，基于检测帧的标注信息和预测检测框训练神经网络和检测器，即对训练神经网络和检测器中的参数进行调整。

其中，可以迭代执行上述操作402-404，以满足预设限定的训练完成条件，例如，检测帧的标注信息和预测检测框之间的差异小于预设阈值，或者训练次数达到预设次数。

其中，本公开目标对象检测网络的训练方法实施例中与上述目标对象检测方法实施例相关的部分，可以参见上述各实施例的记载，此处不再赘述。

基于本公开上述实施例的目标对象检测网络的训练方法，训练得到的目标对象检测网络用于目标对象检测时，综合不同网络层输出的特征得到的检测结果获取检测帧中目标对象的检测框，使得目标对象的检测结果更加准确、精确；根据检测帧多个备选框的分类结果和回归结果来获取目标对象的检测框，能够更好的估计目标对象的位置和大小变化，更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

在实现本公开的过程中，本公开人通过研究发现，现有的深度神经网络，在卷积过程中为了保持输出的特征图大小不变，会引入padding(填充)，即在上层输出的特征图最外面加入一圈0作为填充，从而破坏了神经网络的严格平移不变形。

为解决上述问题，在本公开的一些实施方式中，上述至少一个样本对中目标对象的检测框的位置随机分布，或者按照预设偏移量均衡分布。

这样，在目标对象检测网络的训练过程中，让目标对象可以位于图像中的任意位置，而不是固定在图像的中心位置，让输入图像中的目标对象本身失去位置先验，以使神经网络会消除这种先验，预测正确的目标对象位置，从而发挥深度神经网络结构的优势。

例如，在一些可能的实现方式中，为了让目标对象的检测框的位置按照预设偏移量均衡分布，可以先获取一个样本对，其中一个为参考帧，一个为检测帧，此时目标对象位于检测帧图像的中心位置；以均匀概率从[-s/2,+s/2]中采样两个偏移量，其中s为检测帧图像的大小；然后，根据偏移量移动目标对象，即让目标对象均匀的出现在检测帧图像中，而不是一直处于检测帧图像的中心位置，同时计算出偏移后的目标对象的实际位置作为监督(即标注信息)。

本公开实施例提供的任一种目标对象检测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种目标对象检测方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种目标对象检测方法。下文不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图8为本公开目标对象检测装置一个实施例的结构示意图。该实施例的目标对象检测装置可用于实现本公开上述各目标对象检测方法实施例。如图8所示，该实施例的目标对象检测装置包括：神经网络、检测器和获取模块。其中：

神经网络，用于分别提取参考帧和检测帧的特征。其中，检测帧为视频序列中需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像，参考帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧中目标对象的检测框图像，参考帧的图像大小小于检测帧。

检测器，用于分别接收神经网络中至少两个网络层输出的至少二组特征中的每一组特征，对应输出一组检测结果；其中，每一组特征包括参考帧的特征和检测帧的特征，每一组检测结果包括目标对象的多个备选框的分类结果和回归结果。

获取模块，用于根据检测器针对至少二组特征输出的至少二组检测结果，获取检测帧中目标对象的检测框。

基于本公开上述实施例提供的目标对象检测装置，综合不同网络层输出的特征得到的检测结果获取检测帧中目标对象的检测框，使得目标对象的检测结果更加准确、精确；根据检测帧多个备选框的分类结果和回归结果来获取目标对象的检测框，能够更好的估计目标对象的位置和大小变化，更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

在本公开各实施例的一个实施方式中，上述神经网络可以包括多个卷积层。相应地，检测器用于分别接收神经网络中至少两个卷积层输出的至少二组特征。

或者，在本公开各实施例的另一个实施方式中，上述神经网络可以包括多个卷积块，每个卷积块包括至少一个卷积层。相应地，检测器用于分别接收神经网络中至少两个卷积块输出的至少二组特征。

或者，在本公开各实施例的又一个实施方式中，上述神经网络包括至少一个卷积块和至少一个卷积层，每个卷积块包括至少一个卷积层；检测器，用于分别接收神经网络中至少一个卷积块和至少一个卷积层输出的至少二组特征输入检测器。

另外，在上述实施例中，检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，目标对象检测装置还包括：选取模块，用于以参考帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于参考帧的图像长度和/或宽度的区域图像作为检测帧。

在本公开各实施例的一个实施方式中，检测器，用于基于参考帧的特征获取检测器的分类权重和回归权重；分别利用分类权重和回归权重对检测帧的特征进行处理，得到多个备选框的分类结果和回归结果。

图9为本公开目标对象检测装置另一个实施例的结构示意图。如图9所示，在其中一个实施方式中，检测器可以包括：第一卷积层，用于对参考帧的特征进行卷积操作，以卷积操作得到的第一特征作为检测器的分类权重；第二卷积层，用于对参考帧的特征进行卷积操作，以卷积操作得到的第二特征作为检测器的回归权重；第三卷积层，用于对检测帧的特征进行卷积操作，获得第三特征，第三特征的通道数量与检测帧的特征的通道数量相同；第一卷积单元，用于利用分类权重对第三特征进行卷积操作，获得多个备选框的分类结果；第四卷积层，用于对检测帧的特征进行卷积操作，获得第四特征，第四特征的通道数量与检测帧的特征的通道数量相同；第二卷积单元，用于利用回归权重对第四特征进行卷积操作，获得多个备选框的回归结果。

图10为本公开目标对象检测装置又一个实施例的结构示意图。如图10所示，在另一个实施方式中，检测器可以包括：第五卷积层，用于对参考帧的特征进行卷积操作，以卷积操作得到的L个第五特征作为检测器的分类权重；其中，参考帧的特征的通道数为M1，第五特征的通道数为N1，M1、N1、L为大于0的整数，且M1大于N1；第六卷积层，用于对检测帧的特征进行卷积操作，得到L个通道数为N1的第六特征；其中，检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N1；第三卷积单元，用于分别利用分类权重中的L个第五特征中的每个特征对L个第六特征中的对应特征进行卷积操作，得到L个卷积结果；第七卷积层，用于对L个卷积结果进行卷积操作，得到多个备选框的分类结果；第八卷积层，用于对参考帧的特征进行卷积操作，以卷积操作得到的P个通道的第八特征作为检测器的回归权重；其中，参考帧的特征的通道数为M1，第八特征的通道数为N2，N2、P为大于0的整数，且M1大于N2；第九卷积层，用于对检测帧的特征进行卷积操作，得到P个通道数为N2的第九特征；其中，检测帧的特征的通道数为M2，M2大于0的整数，且M2大于N2；第四卷积单元，用于分别利用回归权重中的P个第八特征中的每个特征对P个第九特征中的对应特征进行卷积操作，得到P个卷积结果；第十卷积层，用于对P个卷积结果进行卷积操作，得到多个备选框的回归结果。

可选地，再参见图10，在又一个实施方式中，检测器还可以包括：第一连接单元，用于对L个卷积结果进行连接。相应地，第七卷积层，用于对连接后的L个卷积结果进行卷积操作。

可选地，再参见图10，在再一个实施方式中，检测器还可以包括：第二连接单元，用于对P个卷积结果进行连接。相应地，第十卷积层，用于对连接后的P个卷积结果进行卷积操作。

在本公开各实施例的一个实施方式中，获取模块可以包括：综合处理单元，用于对至少二组检测结果中的分类结果进行加权、平均或者加权平均，得到多个备选框的综合分类结果；和/或，对至少二组检测结果中的回归结果进行加权、平均或者加权平均，得到多个备选框的综合回归结果；获取单元，用于根据多个备选框的综合分类结果和综合回归结果，获取检测帧中目标对象的检测框。

在其中一些可选示例中，获取单元，用于根据多个备选框的综合分类结果和综合回归结果，从多个备选框中选取一个备选框，并根据选取的备选框的综合回归结果中的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

其中，在一种可能的实现方式中，获取单元根据多个备选框的综合分类结果和综合回归结果，从多个备选框中选取一个备选框时，可用于根据综合分类结果和综合回归结果的权重系数，从多个备选框中选取一个备选框。

在另一种可能的实现方式中，获取模块还可以包括：调整单元，用于分别根据各备选框的综合回归结果对综合分类结果进行调整。相应地，获取单元，用于根据调整后的综合分类结果，从多个备选框中选取一个备选框。

在本公开上述各实施例中，目标对象例如可以包括但不限于以下任意一项或多项：行人，车辆，机器人，动物，飞行器，可移动的静止物，等等。

另外，在本公开目标对象检测装置的上述各实施例中，还包括：应用单元，用于：

获取检测帧中目标对象的检测框之后，对视频序列中目标对象的检测框进行标记；和/或，获取到视频序列中多个帧中目标对象的检测框之后，根据视频序列中多个帧中目标对象的检测框的位置，确定视频序列中目标对象的运动轨迹；和/或，

获取到视频序列中多个帧中目标对象的检测框之后，根据目标对象的检测框的位置调整摄像头的拍摄参数；和/或，

获取检测帧中目标对象的检测框之后，确定检测帧中目标对象的检测框的位置是否位于预设区域范围内；响应于目标对象的检测框的位置位于预设区域范围内，输出提示消息；和/或，目标对象为多个时，获取检测帧中多个目标对象的检测框之后，将检测帧中的多个目标对象与参考帧中多个目标对象的检测框进行匹配，根据匹配结果和参考帧中各目标对象的标识，标注检测帧中各目标对象的标识；和/或，

目标对象为多个时，获取到视频序列中多个帧中多个目标对象的检测框之后，根据视频序列中多个帧中多个目标对象的检测框的位置，确定视频序列中多个目标对象的运动轨迹；根据视频序列中多个目标对象的运动轨迹对多个目标对象进行跟踪；和/或，

目标对象为多个时，获取到视频序列中多个帧中多个目标对象的检测框之后，根据多个目标对象在视频序列中多个帧中数量和/或位置的变化，对多个目标对象的行为进行分析；和/或，获取到视频序列中多个帧中目标对象的检测框之后，视频序列中多个帧中目标对象的检测框的位置，确定目标对象的运动状态；根据目标对象的运动状态和拍摄视频序列的摄像头所在载体的运动状态，对载体进行智能驾驶控制。

其中的载体例如可以包括但不限于：车辆、机器人或者飞行器等等任意可以移动的物体；或者，上述应用单元对载体进行智能驾驶控制时，用于对载体进行运动路线规划，和/或对载体的运动状态或者驾驶模式进行控制。

图11为本公开目标对象检测网络的训练装置一个实施例的结构示意图。该实施例的目标对象检测网络的训练装置可用于实现本公开上述各目标对象检测网络的训练方法实施例。如图11所示，该实施例目标对象检测网络的训练装置包括：目标对象检测网络，用于接收至少一个样本对，输出样本对中检测帧中目标对象的检测框；其中，每个样本对包括对应的一个参考帧和一个检测帧；目标对象检测网络包括上述任一实施例的目标对象检测装置；训练模块，用于以输出的检测帧中目标对象的检测框作为预测检测框，基于检测帧的标注信息和预测检测框训练神经网络和检测器。

基于本公开上述实施例提供的目标对象检测网络的训练方法，训练得到的目标对象检测网络用于目标对象检测时，可以综合不同网络层输出的特征得到的检测结果获取检测帧中目标对象的检测框，使得目标对象的检测结果更加准确、精确；根据检测帧中多个备选框的分类结果和回归结果来获取目标对象的检测框，能够更好的估计目标对象的位置和大小变化，更精确的找出目标对象在检测帧中的位置，从而提升了目标对象跟踪的速度和准确性，跟踪效果好、速度快。

在本公开各实施例的一个实施方式中，上述至少二个不同检测帧中目标对象的检测框的位置不同。

在本公开各实施例的另一个实施方式中，至少一个样本对中目标对象的检测框的位置随机分布，或者按照预设偏移量均衡分布。

另外，本公开实施例还提供了一种电子设备，其可以包括本公开上述任一实施例的目标对象检测装置或者目标对象检测网络的训练装置。具体地，该电子设备例如可以是终端设备或者服务器等设备。

本公开实施例还提供了另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而实现上述任一实施例所述的目标对象检测方法或者目标对象检测网络的训练方法。

图12为本公开电子设备一个应用实施例的结构示意图。下面参考图12，其示出了适于用来实现本公开实施例的终端设备或服务器的电子设备的结构示意图。如图12所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本公开实施例提供的任一目标对象检测方法对应的操作，例如，经神经网络分别提取参考帧和检测帧的特征；其中，所述检测帧为视频序列中需要进行目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像，所述参考帧为所述视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧中目标对象的检测框图像，所述参考帧的图像大小小于所述检测帧；分别将所述神经网络中至少两个网络层输出的至少二组特征中的每一组特征输入检测器，得到所述检测器对应输出的一组检测结果；其中，每一组特征包括所述参考帧的特征和所述检测帧的特征，每一组检测结果包括所述目标对象的多个备选框的分类结果和回归结果；根据所述检测器针对所述至少二组特征输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框。或者，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本公开实施例提供的任一目标对象检测网络的训练方法对应的操作，例如，将至少一个样本对输入神经网络，经上述任一实施例所述的目标对象检测方法，输出样本对中检测帧中目标对象的检测框；其中，每个样本对包括对应的一个参考帧和一个检测帧；以输出的所述检测帧中目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络和所述检测器。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本公开上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图12所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图12的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本公开实施例提供的人脸防伪检测方法步骤对应的指令。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被CPU执行时，执行本公开的方法中限定的上述功能。

另外，本公开实施例还提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现上述任一实施例所述的目标对象检测方法或者目标对象检测网络的训练方法。

另外，本公开实施例还提供了一种计算机可读存储介质，用于存储计算机可读取的指令，所述指令被执行时执行上述任一实施例所述的目标对象检测方法或者目标对象检测网络的训练方法中各步骤的操作。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种目标对象检测方法，其特征在于，包括：

根据所述检测器针对所述至少二组特征输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框；

其中，所述根据所述检测器针对所述至少二组特征输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框，包括：

对所述至少二组检测结果中的分类结果进行处理，得到所述多个备选框的综合分类结果；对所述至少二组检测结果中的回归结果进行处理，得到所述多个备选框的综合回归结果；

2.根据权利要求1所述的方法，其特征在于，还包括：

以所述检测帧中所述目标对象的检测框作为下一参考帧，经所述神经网络分别提取所述下一参考帧和视频序列中时序位于所述检测帧之后的下一检测帧的特征；

3.根据权利要求1所述的方法，其特征在于，所述神经网络包括多个卷积层；所述分别将所述神经网络中至少两个网络层输出的至少二组特征输入检测器，包括：分别将所述神经网络中至少两个卷积层输出的至少二组特征输入检测器；或者，

4.根据权利要求1所述的方法，其特征在于，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，将所述神经网络中一个网络层输出的一组特征输入检测器，得到所述检测器对应输出的一组检测结果，包括：

基于所述参考帧的特征获取检测器的分类权重和回归权重；

6.根据权利要求5所述的方法，其特征在于，基于所述参考帧的特征获取检测器的分类权重，包括：

7.根据权利要求5所述的方法，其特征在于，基于所述参考帧的特征获取检测器的回归权重，包括：

8.根据权利要求5所述的方法，其特征在于，所述分别利用所述分类权重和所述回归权重对所述检测帧的特征进行处理，得到所述检测器输出的多个备选框的分类结果和回归结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果，包括：

10.根据权利要求8所述的方法，其特征在于，利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果，包括：

11.根据权利要求5所述的方法，其特征在于，基于所述参考帧的特征获取检测器的分类权重，包括：

12.根据权利要求11所述的方法，其特征在于，所述利用所述分类权重对所述检测帧的特征进行处理，得到所述检测器输出的多个备选框的分类结果，包括：

13.根据权利要求12所述的方法，其特征在于，所述得到L个卷积结果之后，还包括：对所述L个卷积结果进行连接；

14.根据权利要求5所述的方法，其特征在于，基于所述参考帧的特征获取检测器的回归权重，包括：

15.根据权利要求14所述的方法，其特征在于，所述利用所述回归权重对所述检测帧的特征进行处理，得到所述检测器输出的多个备选框的回归结果，包括：

16.根据权利要求15所述的方法，其特征在于，所述得到P个卷积结果之后，还包括：对所述P个卷积结果进行连接；

17.根据权利要求1-16任一所述的方法，其特征在于，所述对所述至少二组检测结果中的分类结果进行处理，得到所述多个备选框的综合分类结果，包括：对所述至少二组检测结果中的分类结果进行加权、平均或者加权平均，得到多个备选框的综合分类结果；

和/或，

对所述至少二组检测结果中的回归结果进行处理，得到所述多个备选框的综合回归结果，包括：对所述至少二组检测结果中的回归结果进行加权、平均或者加权平均，得到多个备选框的综合回归结果。

18.根据权利要求1-16任一所述的方法，其特征在于，根据所述多个备选框的综合分类结果和综合回归结果，获取所述检测帧中所述目标对象的检测框，包括：

19.根据权利要求18所述的方法，其特征在于，所述根据所述多个备选框的综合分类结果和综合回归结果，从所述多个备选框中选取一个备选框，包括：

20.根据权利要求18所述的方法，其特征在于，所述得到所述多个备选框的综合回归结果之后，还包括：分别根据各备选框的综合回归结果对综合分类结果进行调整；

21.根据权利要求1-16任一所述的方法，其特征在于，所述目标对象包括以下任意一项或多项：行人，车辆，机器人，动物，飞行器，可移动的静止物。

22.根据权利要求1-16任一所述的方法，其特征在于，还包括：

所述目标对象为多个时，所述获取所述检测帧中所述目标对象的检测框之后，将所述检测帧中的多个目标对象与所述参考帧中多个目标对象的检测框进行匹配，根据匹配结果和所述参考帧中各目标对象的标识，标注所述检测帧中各目标对象的标识；和/或，

获取到所述视频序列中多个帧中所述目标对象的检测框之后，根据所述视频序列中多个帧中所述目标对象的检测框的位置，确定所述目标对象的运动状态；根据所述目标对象的运动状态和拍摄所述视频序列的摄像头所在载体的运动状态，对所述载体进行智能驾驶控制。

23.根据权利要求22所述的方法，其特征在于，所述载体包括：车辆、机器人或者飞行器；或者，

24.一种目标对象检测网络的训练方法，其特征在于，包括：

将至少一个样本对输入神经网络，经权利要求1-23任一所述的目标对象检测方法，输出样本对中检测帧中目标对象的检测框；其中，每个样本对包括对应的一个参考帧和一个检测帧；

以输出的所述检测帧中目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络和检测器。

25.根据权利要求24所述的方法，其特征在于，至少二个不同检测帧中目标对象的检测框的位置不同。

26.根据权利要求24所述的方法，其特征在于，所述至少一个样本对中目标对象的检测框的位置随机分布，或者按照预设偏移量均衡分布。

27.一种目标对象检测装置，其特征在于，包括：

获取模块，用于根据所述检测器针对所述至少二组特征输出的至少二组检测结果，获取所述检测帧中所述目标对象的检测框；所述获取模块包括：

综合处理单元，用于对所述至少二组检测结果中的分类结果进行处理，得到所述多个备选框的综合分类结果；对所述至少二组检测结果中的回归结果进行处理，得到所述多个备选框的综合回归结果；

28.根据权利要求27所述的装置，其特征在于，所述神经网络包括多个卷积层；所述检测器，用于分别接收所述神经网络中至少两个卷积层输出的至少二组特征；或者，

29.根据权利要求27所述的装置，其特征在于，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述装置还包括：

30.根据权利要求27所述的装置，其特征在于，所述检测器，用于基于所述参考帧的特征获取检测器的分类权重和回归权重；分别利用所述分类权重和所述回归权重对所述检测帧的特征进行处理，得到多个备选框的分类结果和回归结果。

31.根据权利要求30所述的装置，其特征在于，所述检测器包括：

32.根据权利要求30所述的装置，其特征在于，所述检测器包括：

33.根据权利要求32所述的装置，其特征在于，所述检测器还包括：

第一连接单元，用于对所述L个卷积结果进行连接；

34.根据权利要求32所述的装置，其特征在于，所述检测器还包括：

第二连接单元，用于对所述P个卷积结果进行连接；

35.根据权利要求27-34任一所述的装置，其特征在于，综合处理单元，具体用于对所述至少二组检测结果中的分类结果进行加权、平均或者加权平均，得到多个备选框的综合分类结果；和/或，对所述至少二组检测结果中的回归结果进行加权、平均或者加权平均，得到多个备选框的综合回归结果。

36.根据权利要求27-34任一所述的装置，其特征在于，所述获取单元，具体用于根据所述多个备选框的综合分类结果和综合回归结果，从所述多个备选框中选取一个备选框，并根据选取的备选框的综合回归结果中的偏移量对所述选取的备选框进行回归，获得所述检测帧中所述目标对象的检测框。

37.根据权利要求36所述的装置，其特征在于，所述获取单元，具体用于根据所述综合分类结果和所述综合回归结果的权重系数，从所述多个备选框中选取一个备选框。

38.根据权利要求36所述的装置，其特征在于，所述获取模块还包括：

39.根据权利要求27-34任一所述的装置，其特征在于，所述目标对象包括以下任意一项或多项：行人，车辆，机器人，动物，飞行器，可移动的静止物。

40.根据权利要求27-34任一所述的装置，其特征在于，还包括：应用单元，用于：

41.根据权利要求40所述的装置，其特征在于，所述载体包括：车辆、机器人或者飞行器；或者，

42.一种目标对象检测网络的训练装置，其特征在于，包括：

目标对象检测网络，用于接收至少一个样本对，输出样本对中检测帧中目标对象的检测框；其中，每个样本对包括对应的一个参考帧和一个检测帧；所述目标对象检测网络包括权利要求27-41任一所述的目标对象检测装置；

训练模块，用于以输出的所述检测帧中目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络和检测器。

43.根据权利要求42所述的装置，其特征在于，至少二个不同检测帧中目标对象的检测框的位置不同。

44.根据权利要求42所述的装置，其特征在于，所述至少一个样本对中目标对象的检测框的位置随机分布，或者按照预设偏移量均衡分布。

45.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-26任一所述的方法。

46.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-26任一所述的方法。