CN108230359A

CN108230359A - 目标检测方法和装置、训练方法、电子设备、程序和介质

Info

Publication number: CN108230359A
Application number: CN201711110587.1A
Authority: CN
Inventors: 李搏; 武伟
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-11-12
Filing date: 2017-11-12
Publication date: 2018-06-29
Anticipated expiration: 2037-11-12
Also published as: PH12020550588A1; US11455782B2; JP2021502645A; CN108230359B; SG11202004324WA; JP7165731B2; KR20200087784A; WO2019091464A1; US20200265255A1

Abstract

本发明实施例公开了一种目标检测方法和装置、训练方法、电子设备、程序和介质，其中，目标检测方法包括：经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；基于所述模版帧的特征获取局部区域检测器的分类权重和回归权重；将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。本发明实施例可以提升目标跟踪的速度和准确性。

Description

目标检测方法和装置、训练方法、电子设备、程序和介质

技术领域

本发明涉及计算机视觉技术，尤其是一种目标检测方法和装置、训练方法、电子设备、程序和介质。

背景技术

单目标跟踪是人工智能领域的一个重要问题，在自动驾驶、多目标跟踪等一系列任务当中都可以用到。单目标跟踪的主要任务为：在一段视频序列的某一帧图像中指定一个需要跟踪的目标，在之后一直跟踪住这个指定的目标。

发明内容

本发明实施例提供一种用于进行目标跟踪的技术方案。

根据本发明实施例的一个方面，提供的一种目标跟踪方法，包括：

经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；

基于所述模版帧的特征获取局部区域检测器的分类权重和回归权重；

将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；

根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。

可选地，在本发明上述各实施例的方法中，还包括：

经所述神经网络提取视频序列中时序位于所述检测帧之后的至少一其他检测帧的特征；

将所述至少一其他检测帧的特征依次输入所述局部区域检测器，依次得到所述局部区域检测器输出的所述至少一其他检测帧中的多个备选框、以及各备选框的分类结果和回归结果；

依次根据所述至少一其他检测帧的多个备选框的分类结果和回归结果，获取所述至少一其他检测帧中所述目标对象的检测框。

可选地，在本发明上述各实施例的方法中，经神经网络分别提取模版帧和检测帧的特征，包括：

经同一神经网络分别提取所述模版帧和所述检测帧的特征；或者，

经具有相同结构的不同神经网络分别提取所述模版帧和所述检测帧的特征。

可选地，在本发明上述各实施例的方法中，所述模板帧为视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧。

可选地，在本发明上述各实施例的方法中，所述检测帧为需要进行所述目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像。

可选地，在本发明上述各实施例的方法中，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述方法还包括：

以所述模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于所述模板帧的图像长度和/或宽度的区域图像作为所述检测帧。

可选地，在本发明上述各实施例的方法中，基于所述模版帧的特征获取局部区域检测器的分类权重，包括：

通过第一卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述局部区域检测器的分类权重。

可选地，在本发明上述各实施例的方法中，基于所述模版帧的特征获取局部区域检测器的回归权重，包括：

通过第二卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述局部区域检测器的回归权重。

可选地，在本发明上述各实施例的方法中，将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果，包括：

利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果。

可选地，在本发明上述各实施例的方法中，提取所述检测帧的特征之后，还包括：通过第三卷积层对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

所述利用所述分类权重对所述检测帧的特征进行卷积操作，获得多个备选框的分类结果，包括：利用所述分类权重对所述第三特征进行卷积操作，获得多个备选框的分类结果。

可选地，在本发明上述各实施例的方法中，提取所述模板帧的特征之后，还包括：通过第四卷积层对所述模板帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述模板帧的特征的通道数量相同；

利用所述回归权重对所述检测帧的特征进行卷积操作，获得多个备选框的回归结果，包括：利用所述回归权重对所述第四特征进行卷积操作，获得多个备选框的回归结果。

可选地，在本发明上述各实施例的方法中，根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框，包括：

根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，并根据选取的备选框的偏移量对所述选取的备选框进行回归，获得所述检测帧中所述目标对象的检测框。

可选地，在本发明上述各实施例的方法中，根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，包括：

根据所述分类结果和所述回归结果的权重系数，从所述多个备选框中选取一个备选框。

可选地，在本发明上述各实施例的方法中，所述获得回归结果之后，还包括：根据所述回归结果对所述分类结果进行调整；

根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，包括：根据调整后的分类结果，从所述多个备选框中选取一个备选框。

根据本发明实施例的另一个方面，提供的一种目标检测网络的训练方法，包括：

通过一卷积层，增加所述模板帧的特征的通道，以得到的第一特征作为所述局部区域检测器的分类权重；以及通过第二卷积层增加所述模板帧的特征的通道，以得到的第二特征作为所述局部区域检测器的回归权重；

根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框；

以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络、所述第一卷积层和所述第二卷积层。

可选地，在本发明上述各实施例的训练方法中，还包括：

可选地，在本发明上述各实施例的训练方法中，经神经网络分别提取模版帧和检测帧的特征，包括：

可选地，在本发明上述各实施例的训练方法中，所述模板帧为视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧。

可选地，在本发明上述各实施例的训练方法中，所述检测帧为需要进行所述目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像。

可选地，在本发明上述各实施例的训练方法中，所述检测帧为需要进行所述目标对象检测的当前帧中可能包含所述目标对象的区域图像时，所述方法还包括：

可选地，在本发明上述各实施例的训练方法中，将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果，包括：

可选地，在本发明上述各实施例的训练方法中，提取所述检测帧的特征之后，还包括：

通过第三卷积层对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

可选地，在本发明上述各实施例的训练方法中，提取所述模板帧的特征之后，还包括：

通过第四卷积层对所述模板帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述模板帧的特征的通道数量相同；

可选地，在本发明上述各实施例的训练方法中，根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框，包括：

可选地，在本发明上述各实施例的训练方法中，根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框，包括：

可选地，在本发明上述各实施例的训练方法中，所述获得回归结果之后，还包括：根据所述回归结果对所述分类结果进行调整；

可选地，在本发明上述各实施例的训练方法中，所述检测帧的标注信息包括：标注的所述目标对象在所述检测帧中的检测框的位置和大小；

以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框，训练所述神经网络、所述第一卷积层和所述第二卷积层，包括：

根据所述标注的检测框的位置和大小与所述预测检测框的位置和大小之间的差异，对所述神经网络、所述第一卷积层和所述第二卷积层的权重值进行调整。

根据本发明实施例的又一个方面，提供的一种目标检测装置，包括：

神经网络，用于分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；

第一卷积层，用于增加所述模板帧的特征的通道，以得到的第一特征作为局部区域检测器的分类权重；

第二卷积层，用于增加所述模板帧的特征的通道，以得到的第二特征作为所述局部区域检测器的回归权重；

局部区域检测器，用于根据所述检测帧的特征，输出多个备选框的分类结果和回归结果；

获取单元，用于根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。

可选地，在本发明上述各实施例的装置中，所述神经网络包括：具有相同结构的、分别用于提取所述模版帧和所述检测帧的特征的不同神经网络。

可选地，在本发明上述各实施例的装置中，所述模板帧为视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧。

可选地，在本发明上述各实施例的装置中，所述检测帧为需要进行所述目标对象检测的当前帧或者当前帧中可能包含所述目标对象的区域图像。

可选地，在本发明上述各实施例的装置中，还包括：

预处理单元，用于以所述模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于所述模板帧的图像长度和/或宽度的区域图像作为所述检测帧。

可选地，在本发明上述各实施例的装置中，所述局部区域检测器具体用于：

可选地，在本发明上述各实施例的装置中，还包括：

第三卷积层，用于对所述检测帧的特征进行卷积操作，获得第三特征，所述第三特征的通道数量与所述检测帧的特征的通道数量相同；

所述局部区域检测器，具体用于利用所述分类权重对所述第三特征进行卷积操作。

可选地，在本发明上述各实施例的装置中，还包括：

第四卷积层，用于对所述模板帧的特征进行卷积操作，获得第四特征，所述第四特征的通道数量与所述模板帧的特征的通道数量相同；

所述局部区域检测器，具体用于利用所述回归权重对所述第四特征进行卷积操作。

可选地，在本发明上述各实施例的装置中，所述获取单元，具体用于：

可选地，在本发明上述各实施例的装置中，所述获取单元根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框时，具体用于：

可选地，在本发明上述各实施例的装置中，还包括：

调整单元，用于根据所述回归结果对所述分类结果进行调整；

所述获取单元根据所述分类结果和所述回归结果从所述多个备选框中选取一个备选框时，具体用于：根据调整后的分类结果，从所述多个备选框中选取一个备选框。

可选地，在本发明上述各实施例的装置中，还包括：

训练单元，用于以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络、所述第一卷积层和所述第二卷积层。

可选地，在本发明上述各实施例的装置中，所述检测帧的标注信息包括：标注的所述目标对象在所述检测帧中的检测框的位置和大小；

所述训练单元，具体用于根据所述标注的检测框的位置和大小与所述预测检测框的位置和大小之间的差异，对所述神经网络、所述第一卷积层和所述第二卷积层的权重值进行调整。

根据本发明实施例的再一个方面，提供的一种电子设备，包括本发明任一实施例所述的目标检测装置。

根据本发明实施例的再一个方面，提供的另一种电子设备，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成本发明任一实施例所述方法的操作。

根据本发明实施例的再一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时实现本发明任一实施例所述方法的操作。

根据本发明实施例的再一个方面，提供的一种计算机程序，包括计算机可读取的指令，当所述计算机可读取的指令在设备中运行时，所述设备中的处理器执行用于实现本发明任一实施例所述方法中的步骤的可执行指令。

基于本发明上述实施例，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。本发明实施例，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明目标检测方法一个实施例的流程图。

图2为本发明目标检测方法另一个实施例的流程图。

图3为本发明目标检测网络的训练方法一个实施例的流程图。

图4为本发明目标检测网络的训练方法另一个实施例的流程图。

图5为本发明目标检测装置一个实施例的结构示意图。

图6为本发明目标检测装置另一个实施例的结构示意图。

图7为本发明目标检测装置又一个实施例的结构示意图。

图8为本发明目标检测装置一个应用实施例的结构示意图。

图9为本发明目标检测装置另一个应用实施例的结构示意图。

图10为本发明电子设备一个应用实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在实现本发明的过程中，发明人发现，由于存在遮挡、光照变化、尺度变化等一些列问题，单目标检测一直都还存在较大的挑战。目前已有的单目标检测算法存在跟踪效果差、或者速度慢等问题，很难在实际中应用。

例如，在现有的一种跟踪算法中，深度神经网络适用于通用物体跟踪，由于不同物体的大小不同，在对具体物体进行跟踪的过程中需要通过深度学习的方式，对深度神经网络的权重值进行在线适应调整，需要较多计算量，使得跟踪算法在实际运行过程中的运算速度较慢。在现有的另一种跟踪算法中，由于追求速度，降低了计算量，导致跟踪效果比较差，容易跟丢目标物体，以及预测的目标物体的检测框和目标物体的位置重合率低。

图1为本发明目标检测方法一个实施例的流程图。如图1所示，该实施例的目标检测方法包括：

102，经神经网络分别提取模版帧和检测帧的特征。

其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧；检测帧为需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像。检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，在本发明各实施例的一个实施方式中，该区域大于模板帧的图像大小，例如，该搜索区域可以以模板帧图像的中心点为中心点、大小可以为模板帧图像大小的2-4倍。

模板帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧，可以是视频序列中需要进行目标跟踪的起始帧，该起始帧在视频帧序列中的位置是非常灵活的，如可以是视频帧序列中的首帧或者任一中间帧。检测帧是需要进行目标跟踪的帧，检测帧图像中确定了目标对象的检测框后，该检测帧中对应检测框的图像便可以作为下一个检测帧的模板帧图像。

在本发明各实施例的一个实施方式中，该操作102中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

104，基于模版帧的特征获取局部区域检测器的分类权重和回归权重。

在本发明各实施例的一个实施方式中，可以通过第一卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为局部区域检测器的分类权重。

例如，在其中一个可选示例中，获取分类权重可以通过如下方式实现：通过第一卷积层增加模板帧的特征的通道数量，得到第一特征，第一特征的通道数量为模板帧的特征的通道数量的2K倍。

在本发明各实施例的一个实施方式中，可以通过第二卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为局部区域检测器的回归权重。

例如，在其中一个可选示例中，获取回归权重可以通过如下方式实现：通过第二卷积层增加模板帧的特征的通道数量，得到第二特征，该第二特征的通道数量为模板帧的特征的通道数量的4K倍。

106，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果。

其中，分类结果包括各备选框分别为目标对象的检测框的概率值，回归结果包括各备选框相对于模板帧对应的检测框的偏移量。

在本发明各实施例的一个可选示例中，上述多个备选框可以包括：检测帧中各位置上的K个备选框。其中，K为预先设置的、大于1的整数。K个备选框的长度与宽度的比值各不相同，例如，K个备选框的长度与宽度的比值可以包括：1:1，2:1，2:1，3:1，1:3，等。分类结果用于表示各位置上的K个备选框是否为目标对象的检测框的概率值。

在本发明目标检测方法的一个可选实施例中，通过该操作106获得多个备选框是否为目标对象的检测框的概率值之后，还可以包括：对该分类结果进行归一化处理，使各备选框是否为目标对象的检测框的概率值之和为1，从而有助于判断各备选框是否为目标对象的检测框。

在本发明各实施例的一个可选示例中，回归结果包括检测帧图像中各位置上的K个备选框分别相对于模板帧中目标对象的检测框的偏移量，其中的偏移量可以包括位置和大小的变化量，其中的位置可以是中心点的位置，也可以是基准框的四个顶点的位置等。

在第二特征的通道数量为模板帧的特征的通道数量的4K倍时，各备选框分别相对于模板帧中目标对象的检测框的偏移量例如可以包括中心点的位置的横坐标的偏移量(dx)、中心点的位置的纵坐标的偏移量(dy)、高度的变化量(dh)和宽度的变化量(dw)。

在本发明各实施例的一个实施方式中，该操作106可以包括：利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果。

108，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

基于本发明上述实施例的目标检测方法，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。本发明实施例，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

本发明实施例基于模板帧，局部区域检测器可以从检测帧中快速产生大量的备选框，并获得检测帧中各位置上的K个备选框分别相对于模板帧中目标对象的检测框的偏移量，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升目标跟踪的速度和准确性，跟踪效果好、速度快。

在本发明目标检测方法的另一实施例中，还可以包括：经神经网络提取视频序列中时序位于检测帧之后的至少一其他检测帧的特征；

将至少一其他检测帧的特征依次输入局部区域检测器，依次得到局部区域检测器输出的至少一其他检测帧中的多个备选框、以及各备选框的分类结果和回归结果，即：针对依次至少一其他检测帧的特征执行操作106；

依次根据至少一其他检测帧的多个备选框的分类结果和回归结果，获取至少一其他检测帧中目标对象的检测框；即：针对依次至少一其他检测帧的多个备选框的分类结果和回归结果执行操作108。

在本发明目标检测方法的又一个实施例中，检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，还可以包括：预先以模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于模板帧的图像长度和/或宽度的区域图像作为检测帧。

图2为本发明目标检测方法另一个实施例的流程图。如图2所示，该实施例的目标检测方法包括：

202，经神经网络分别提取模版帧和检测帧的特征。

其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧；检测帧为需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像。模板帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧。

在本发明各实施例的一个实施方式中，该操作202中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

204，通过第三卷积层对检测帧的特征进行卷积操作，获得第三特征，该第三特征的通道数量与检测帧的特征的通道数量相同；以及通过第四卷积层对模板帧的特征进行卷积操作，获得第四特征，该第四特征的通道数量与模板帧的特征的通道数量相同。

206，基于模版帧的特征获取局部区域检测器的分类权重和回归权重。

其中，操作206与204之间不存在执行顺序限制，二者可以同时执行，也可以以任意先后顺序执行。

208，利用分类权重对第三特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对第四特征进行卷积操作，获得多个备选框的回归结果。

210，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

在本发明各实施例的一个实施方式中，操作108或者210可以包括：根据分类结果和回归结果从多个备选框中选取一个备选框，并根据选取的备选框的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

在其中一个可选示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据分类结果和回归结果的权重系数，从多个备选框中选取一个备选框，例如，根据分类结果和回归结果的权重系数，分别由各备选框的概率值和偏移量计算一个综合分数，根据上述多个备选框的综合分数，从上述多个备选框中选取一个备选框。

在其中的另一个可选示例中，通过上述各实施例获得回归结果之后，还可以包括：根据回归结果中位置和大小的变化量，对备选框的概率值进行调整，例如，根据回归结果中位置和大小的变化量，对备选框的概率值进行调整。例如，对位置的变化量较大(即：位置移动较大)、大小的变化量较大(即：形状变化较大)的备选框的概率值进行惩罚，降低其概率值。相应的，该示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据调整后的分类结果，从多个备选框中选取一个备选框，例如，根据调整后的概率值，从多个备选框中，选取一个概率值最高的备选框。

图3为本发明目标检测网络的训练方法一个实施例的流程图。本发明实施例的目标检测网络，包括本发明实施例的神经网络、第一卷积层和第二卷积层。如图3所示，该实施例的训练方法包括：

302，经神经网络分别提取模版帧和检测帧的特征。

在本发明各实施例的一个实施方式中，该操作302中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

304，通过第一卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为局部区域检测器的分类权重；以及通过第二卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为局部区域检测器的回归权重。

306，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果。

在本发明各实施例的一个实施方式中，该操作306可以包括：利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果。

308，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

310，以获得的检测帧中目标对象的检测框作为预测检测框，基于检测帧的标注信息和预测检测框训练神经网络、第一卷积层和第二卷积层。

基于本发明上述实施例的目标检测网络的训练方法，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框，基于检测帧的标注信息和预测检测框训练目标检测网络。基于本发明实施例训练得到的目标检测网络，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

在本发明训练方法的另一实施例中，还可以包括：经神经网络提取视频序列中时序位于检测帧之后的至少一其他检测帧的特征；

将至少一其他检测帧的特征依次输入局部区域检测器，依次得到局部区域检测器输出的至少一其他检测帧中的多个备选框、以及各备选框的分类结果和回归结果，即：针对依次至少一其他检测帧的特征执行操作306；

依次根据至少一其他检测帧的多个备选框的分类结果和回归结果，获取至少一其他检测帧中目标对象的检测框；即：针对依次至少一其他检测帧的多个备选框的分类结果和回归结果执行操作308。

在本发明训练方法的又一个实施例中，检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，还可以包括：预先以模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于模板帧的图像长度和/或宽度的区域图像作为检测帧。

图4为本发明目标检测网络的训练方法另一个实施例的流程图。本发明实施例的目标检测网络，包括本发明实施例的神经网络、第一卷积层、第二卷积层、第三卷积层和第四卷积层。如图4所示，该实施例的训练方法包括：

402，经神经网络分别提取模版帧和检测帧的特征。

在本发明各实施例的一个实施方式中，该操作402中，可以经同一神经网络分别提取模版帧和检测帧的特征；或者，经具有相同结构的不同神经网络分别提取模版帧和检测帧的特征。

404，通过第三卷积层对检测帧的特征进行卷积操作，获得第三特征，该第三特征的通道数量与检测帧的特征的通道数量相同；以及通过第四卷积层对模板帧的特征进行卷积操作，获得第四特征，该第四特征的通道数量与模板帧的特征的通道数量相同。

406，通过第一卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为局部区域检测器的分类权重；以及通过第二卷积层对模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为局部区域检测器的回归权重。

其中，操作406与404之间不存在执行顺序限制，二者可以同时执行，也可以以任意先后顺序执行。

408，利用分类权重对第三特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对第四特征进行卷积操作，获得多个备选框的回归结果。

410，根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

412，以获得的检测帧中目标对象的检测框作为预测检测框，根据标注的目标对象在检测帧中的检测框的位置和大小，与预测检测框的位置和大小之间的差异，对神经网络、第一卷积层和第二卷积层的权重值进行调整。

在本发明各实施例的一个实施方式中，操作308或者410可以包括：根据分类结果和回归结果从多个备选框中选取一个备选框，并根据选取的备选框的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

在其中一个可选示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据分类结果和回归结果的权重系数，从多个备选框中选取一个备选框，例如，根据分类结果和回归结果的权重系数，分别由各备选框的概率值和偏移量计算一个综合分数，根据上述多个备选框的综合分数，从上述多个备选框中选取一个概率值高、偏移量小的备选框。

在其中的另一个可选示例中，通过上述各实施例获得回归结果之后，还可以包括：根据回归结果中位置和大小的变化量，对备选框的概率值进行调整，例如，根据回归结果中位置和大小的变化量，对备选框的概率值进行调整。相应的，该示例中，根据分类结果和回归结果从多个备选框中选取一个备选框时，可以通过如下方式实现：根据调整后的分类结果，从多个备选框中选取一个备选框，例如，根据调整后的概率值，从多个备选框中，选取一个概率值最高的备选框。

本发明各实施例中，局部区域检测器可以包括第三卷积层、第四卷积层和两个卷积操作单元。其中，局部区域检测器与第一卷积层、第二卷积层结合后，形成的局部区域检测器也可以称为区域提议网络。

图5为本发明目标检测装置一个实施例的结构示意图。本发明各实施例的目标检测装置可用于实现本发明上述各目标检测方法实施例。如图5所示，该实施例的目标检测装置包括：神经网络，第一卷积层，第二卷积层，局部区域检测器和获取单元。其中：

神经网络，用于分别提取模版帧和检测帧的特征，其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧。其中，模版帧为目标对象的检测框图像，模版帧的图像大小小于检测帧；检测帧为需要进行目标对象检测的当前帧或者当前帧中可能包含目标对象的区域图像。模板帧为视频序列中检测时序位于检测帧之前、且目标对象的检测框确定的帧。提取模版帧和检测帧的特征的身价网络可以是同一神经网络，或者，也可以是具有相同结构的不同神经网络。

第一卷积层，用于对所述模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述局部区域检测器的分类权重。

第二卷积层，用于通过第二卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述局部区域检测器的回归权重。

局部区域检测器，用于根据检测帧的特征，输出多个备选框的分类结果和回归结果；其中，分类结果包括各备选框分别为目标对象的检测框的概率值，回归结果包括各备选框相对于模板帧对应的检测框的偏移量。

获取单元，用于根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。

基于本发明上述实施例的目标检测装置，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框。本发明实施例，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

在本发明目标检测装置各实施例的一种实施方式中，局部区域检测器具体用于：利用分类权重对检测帧的特征进行卷积操作，获得多个备选框的分类结果；以及利用回归权重对检测帧的特征进行卷积操作，获得多个备选框的回归结果。

检测帧为需要进行目标对象检测的当前帧中可能包含目标对象的区域图像时，在本发明目标检测装置另一个实施例中，还可以包括：预处理单元，用于以模板帧的中心点为中心点，从当前帧中截取长度和/或宽度对应大于模板帧的图像长度和/或宽度的区域图像作为检测帧。如图6所示，为本发明目标检测装置另一个实施例的结构示意图。

另外，再参见图6，在本发明目标检测装置的又一个实施例中，还可以包括：第三卷积层，用于对检测帧的特征进行卷积操作，获得第三特征，第三特征的通道数量与检测帧的特征的通道数量相同。相应地，该实施例中，局部区域检测器具体用于利用分类权重对第三特征进行卷积操作。

另外，再参见图6，在本发明目标检测装置的再一个实施例中，还可以包括：第四卷积层，用于对模板帧的特征进行卷积操作，获得第四特征，第四特征的通道数量与模板帧的特征的通道数量相同。相应地，该实施例中，局部区域检测器具体用于利用回归权重对第四特征进行卷积操作。

在本发明目标检测装置各实施例的另一种实施方式中，获取单元具体用于：根据分类结果和回归结果从多个备选框中选取一个备选框，并根据选取的备选框的偏移量对选取的备选框进行回归，获得检测帧中目标对象的检测框。

示例性地，获取单元根据分类结果和回归结果从多个备选框中选取一个备选框时，具体用于：根据分类结果和回归结果的权重系数，从多个备选框中选取一个备选框。

另外，再参见图6，在本发明目标检测装置的还一个实施例中，还可以包括：调整单元，用于根据回归结果对分类结果进行调整。相应地，获取单元根据分类结果和回归结果从多个备选框中选取一个备选框时，具体用于根据调整后的分类结果，从多个备选框中选取一个备选框。

图7为本发明目标检测装置再一个实施例的结构示意图。该实施例的目标检测装置可用于实现本发明图3～图4任一目标检测网络的训练方法实施例。如图7所示，与图5或图6所示实施例相比，该实施例的目标检测装置还包括：训练单元，用于以获得的检测帧中目标对象的检测框作为预测检测框，基于检测帧的标注信息和预测检测框训练神经网络、第一卷积层和第二卷积层。

在其中一种实施方式中，检测帧的标注信息包括：标注的目标对象在检测帧中的检测框的位置和大小。相应地，该实施方式中，训练单元具体用于根据标注的检测框的位置和大小与预测检测框的位置和大小之间的差异，对神经网络、第一卷积层和第二卷积层的权重值进行调整。

基于本发明上述实施例，经神经网络分别提取模版帧和检测帧的特征，基于模版帧的特征获取局部区域检测器的分类权重和回归权重，将检测帧的特征输入局部区域检测器，得到局部区域检测器输出的多个备选框的分类结果和回归结果，并根据局部区域检测器输出的多个备选框的分类结果和回归结果，获取检测帧中目标对象的检测框，基于检测帧的标注信息和预测检测框训练目标检测网络。基于本发明实施例训练得到的目标检测网络，由同一或具有相同结果的神经网络可以更好的提取同一目标对象的相似特征，从而使得在不同帧中提取的目标对象的特征变化较小，有助于提高在检测帧中目标对象检测结果的准确性；基于模版帧的特征获取局部区域检测器的分类权重和回归权重，局部区域检测器可以获得检测帧多个备选框的分类结果和回归结果，进而获取检测帧中所述目标对象的检测框，能够更好的估计目标对象的位置和大小变化，能够更精确的找出目标对象在检测帧中的位置，从而提升了目标跟踪的速度和准确性，跟踪效果好、速度快。

如图8所示，为本发明目标检测装置一个应用实施例的结构示意图。如图9所示，为本发明目标检测装置另一个应用实施例的结构示意图。在图8和图9中，LxMxN(例如256x20x20)中，L表示通道数量，M和N分别表示高度(也即长度)和宽度。

本发明实施例还提供了一种电子设备，包括本发明上述任一实施例的目标检测装置。

本发明实施例还提供了另一种电子设备，包括：存储器，用于存储可执行指令；以及处理器，用于与存储器通信以执行可执行指令从而完成本发明上述任一实施例的目标检测方法或者目标检测网络的训练方法的操作。

图10为本发明电子设备一个应用实施例的结构示意图。下面参考图10，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图10所示，该电子设备包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)，和/或一个或多个图像处理器(GPU)等，处理器可以根据存储在只读存储器(ROM)中的可执行指令或者从存储部分加载到随机访问存储器(RAM)中的可执行指令而执行各种适当的动作和处理。通信部可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，处理器可与只读存储器和/或随机访问存储器中通信以执行可执行指令，通过总线与通信部相连、并经通信部与其他目标设备通信，从而完成本申请实施例提供的任一方法对应的操作，例如，经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；基于所述模版帧的特征获取局部区域检测器的分类权重和回归权重；将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框。再如，经神经网络分别提取模版帧和检测帧的特征，其中，所述模版帧为目标对象的检测框图像，所述模版帧的图像大小小于所述检测帧；通过一卷积层，增加所述模板帧的特征的通道，以得到的第一特征作为所述局部区域检测器的分类权重；以及通过第二卷积层增加所述模板帧的特征的通道，以得到的第二特征作为所述局部区域检测器的回归权重；将所述检测帧的特征输入所述局部区域检测器，得到所述局部区域检测器输出的多个备选框的分类结果和回归结果；根据所述局部区域检测器输出的多个备选框的分类结果和回归结果，获取所述检测帧中所述目标对象的检测框；以获得的所述检测帧中所述目标对象的检测框作为预测检测框，基于所述检测帧的标注信息和所述预测检测框训练所述神经网络、所述第一卷积层和所述第二卷积层。

此外，在RAM中，还可存储有装置操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。在有RAM的情况下，ROM为可选模块。RAM存储可执行指令，或在运行时向ROM中写入可执行指令，可执行指令使处理器执行本发明上述任一方法对应的操作。输入/输出(I/O)接口也连接至总线。通信部可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口：包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器上，以便于从其上读出的计算机程序根据需要被安装入存储部分。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

另外，本发明实施例还提供了一种计算机存储介质，用于存储计算机可读取的指令，该指令被执行时实现本发明上述任一实施例的目标检测方法或者目标检测网络的训练方法的操作。

另外，本发明实施例还提供了一种计算机程序，包括计算机可读取的指令，当该计算机可读取的指令在设备中运行时，该设备中的处理器执行用于实现本发明上述任一实施例的目标检测方法或者目标检测网络的训练方法中的步骤的可执行指令。

本发明实施例可以进行单目标跟踪，例如多目标跟踪系统当中，可以不每帧都进行目标检测，而是固定检测间隔，例如每10帧检测一次，而中间的9帧可以通过单目标跟踪来确定中间帧的目标的位置。由于本发明实施例的算法速度较快，所以整体上可以让多目标跟踪系统能够更快完成跟踪，并且达到更好的效果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求1或2所述的方法，其特征在于，经神经网络分别提取模版帧和检测帧的特征，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，所述模板帧为视频序列中检测时序位于所述检测帧之前、且目标对象的检测框确定的帧。

5.一种目标检测网络的训练方法，其特征在于，包括：

通过一卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第一特征作为所述局部区域检测器的分类权重；以及通过第二卷积层对所述模板帧的特征进行卷积操作，以卷积操作得到的第二特征作为所述局部区域检测器的回归权重；

6.一种目标检测装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括权利要求6所述的目标检测装置。

8.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；以及

处理器，用于与所述存储器通信以执行所述可执行指令从而完成权利要求1-5任一所述方法的操作。

9.一种计算机存储介质，用于存储计算机可读取的指令，其特征在于，所述指令被执行时实现权利要求1-5任一所述方法的操作。

10.一种计算机程序，包括计算机可读取的指令，其特征在于，当所述计算机可读取的指令在设备中运行时，所述设备中的处理器执行用于实现权利要求1-5任一所述方法中的步骤的可执行指令。