CN108073864B

CN108073864B - 目标对象检测方法、装置及系统和神经网络结构

Info

Publication number: CN108073864B
Application number: CN201611013117.9A
Authority: CN
Inventors: 康恺; 李鸿升; 欧阳万里; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-11-15
Filing date: 2016-11-15
Publication date: 2021-03-09
Anticipated expiration: 2036-11-15
Also published as: CN108073864A; WO2018090912A1

Abstract

本发明公开一种目标对象检测方法、装置及系统和神经网络结构，其中，所述方法包括：在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息；分别提取当前帧的感兴趣区域中的目标对象的特征；根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果；根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域。因此，在对目标对象进行检测时，能够将当前帧的信息传送至后续帧，实现不同帧图像之间的时域信息复用，充分利用了长程的时域特征，进而为处理对象外貌变化等复杂情况提供了时域依据。

Description

目标对象检测方法、装置及系统和神经网络结构

技术领域

本发明涉及视频图像处理领域，具体涉及一种目标对象检测方法、装置及系统和神经网络结构。

背景技术

视频目标对象检测/跟踪是静态图像目标对象检测在视频邻域的拓展，系统需要在视频的每一帧中进行多类别、多目标的对象检测/跟踪。

现有技术中，视频目标对象检测/跟踪系统主要基于静态对象检测，在静态目标对象检测结果的基础上加入一些后期处理技术来实现视频目标对象检测/跟踪，诸如针对置信度的时域一维卷及神经网络(TCN)、基于运动信息的置信度传递(MGP)，以及基于检测序列的非极大值抑制(Seq-NMS)等等。这些方法一定程度上能在静态目标对象检测的结果上加入时域的约束和信息，进而提升在视频中的检测/跟踪效果，但其实质为将静态目标对象检测、目标对象跟踪、时域目标对象分类等关键步骤分隔成多个串联步骤分别优化。

发明内容

本发明实施例提供一种目标对象检测方法、装置及系统和神经网络结构，以实现不同帧图像之间的时域信息复用。

根据第一方面，本发明实施例提供了一种目标对象检测方法，包括：

在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息；分别提取当前帧的感兴趣区域中的目标对象的特征；根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果；根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域。

可选地，所述预测结果包括：所述感兴趣区域包含目标对象的概率和所述目标对象的预测位置。

可选地，所述根据所述当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域，包括：将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。

可选地，所述根据所述当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域包括：获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；对目标对象所在区域对应的所述边界位置进行加权得到与所述当前帧的感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；所述获取所述当前帧的感兴趣区域中目标对象所在区域的边界位置，包括：分别获取感兴趣区域中各类目标对象所在区域边界位置；所述对目标对象所在区域对应的所述边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：对各类目标对象所在区域边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，所述对目标对象所在区域对应的所述边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，还包括：基于预设规则在视频图像序列的起始帧设置所述至少一个感兴趣区域。

可选地，所述当前帧的感兴趣区域中的目标对象的特征，还包括：所述当前帧的感兴趣区域记忆的目标对象的特征轨迹。

可选地，所述特征轨迹包含：当前帧的感兴趣区域中的目标对象的特征和所述当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

可选地，所述根据所述目标对象的特征对所述各个感兴趣区域进行预测，得到预测结果，还包括：通过所述当前帧的目标对象的特征轨迹对所述各个感兴趣区域进行预测，得到预测结果。

根据第二方面，本发明实施例提供了一种目标对象检测装置，包括：

第一感兴趣模块，用于在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息；特征提取模块，用于分别提取当前帧的感兴趣区域中的目标对象的特征；预测模块，用于根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果；第二感兴趣模块，用于根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域。

可选地，所述第二感兴趣模块用于将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。

可选地，所述第二感兴趣模块包括：位置获取单元，用于获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；位置生成单元，用于对目标对象所在区域对应的所述边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；所述位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；所述位置生成单元用于对各类目标对象所在区域边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，还包括：所述位置生成单元用于对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

可选地，还包括：起始模块，用于基于预设规则在视频图像序列的起始帧设置所述至少一个感兴趣区域。

可选地，所述特征轨迹包含：当前帧的感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

可选地，所述预测模块还用于通过所述当前帧的目标对象的特征轨迹对所述各个感兴趣区域进行预测，得到预测结果。

根据第三方面，本发明实施例提供了一种目标对象检测系统，包括：

图像获取装置，用于获取待检测视频图像的视频图像序列数据；处理器，用于接收待检测视频图像的视频图像序列数据，用于执行上述方法中的操作；存储器，用于存放至少一可执行指令，可执行指令使处理器执行上述方法对应的操作。

根据第四方面，本发明实施例提供了一种用于目标对象检测的神经网络结构，包括：

级联的多层神经网络，各层神经网络用于接收视频图像序列中的一帧图像数据，用于对图像数据生成多个感兴趣区域，并对多个感兴趣区域进行目标对象检测得到预测结果，预测结果包括目标对象的位置；本层神经网络的预测结果作为下一层神经网络的输入，下一层神经网络根据本层神经网络的预测结果对下一层神经网络接收的图像数据生成多个感兴趣区域，并进行目标对象检测得到预测结果。

根据第五方面，本发明实施例还提供了一种计算机存储介质，存储了用于实现本发明实施例提供的任一种目标对象检测方法的计算机可读取的指令。例如，所述指令包括：在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息的指令；分别提取当前帧的感兴趣区域中的目标对象的特征的指令；根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果的指令；根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域的指令，等等。

本发明技术方案，具有如下优点：

本发明实施例提供的技术方案，

在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，而后，根据各个感兴趣区域的特征对各个感兴趣区域进行预测得到预测结果，并且，根据当前帧的各个感兴趣区域的预测结果确定后续帧的感兴趣区域，因此，在对目标对象进行检测时，能够将当前帧的信息传送至后续帧，实现不同帧图像之间的时域信息复用，充分利用了长程的时域特征，进而为处理对象外貌变化等复杂情况提供了时域依据。

此外，在视频图像序列的当前帧确定待检测的至少一个感兴趣区域，而后，根据各个感兴趣区域的特征对各个感兴趣区域进行预测得到预测结果，由于将图像帧确定至少一个感兴趣区域，并对感兴趣区域进行预测，相对于现有技术中分立串联针对每个目标对象进行检测的方案，本发明实施例技术方案基于图像数据本身区域化特征的预测，能够对目标对象进行并行检测(跟踪)，减少了检测耗时。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种对象检测/跟踪方法流程图；

图2为本发明实施例中另一种对象检测/跟踪方法流程图；

图3为本发明实施例中一种用于对象检测/跟踪的神经网络结构示意图；

图4为本发明实施例中一种记忆模型结构示意图；

图5为本发明实施例中一种对象检测/跟踪装置示意图；

图6示意性地示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

通常视频图像为时域上连续的图像集合，不同帧图像之间的特征具有一定的关联性。因此，为了充分利用时域信息，实现不同帧图像的特征(例如时域信息)复用，以提高目标对象检测效率和精度。本实施例公开了一种对象检测方法，需要说明的是，在时域上进行连续检测时，可以实现对对象进行跟踪。请参考图1，为该对象检测方法流程图，该方法包括如下步骤：

步骤S100，确定当前帧至少一个感兴趣区域。本实施例中，在视频图像序列的当前帧确定至少一个感兴趣区域(Region of interest，RoI)，其中，每个感兴趣区域至少部分包含至少一个目标对象的信息。在具体实施例中，当前帧的至少一个感兴趣区域可以根据当前帧的先前帧(例如上一帧)来确定生成，具体地，可参见下文步骤S400中有关根据当前帧的预测结果确定后续帧的感兴趣区域的展开说明，在此不再赘述。本实施例中，视频图像序列的各帧图像中可以包含一个目标对象，也可以包含多个目标对象；在生成的至少一个感兴趣区域中，各个感兴趣区域可能部分包含一个或多个目标对象信息，也可能完整地包含一个或多个目标对象信息。

步骤S200，分别提取当前帧的感兴趣区域中的目标对象特征。本实施例中，可以采用并行的方式提取各个感兴趣区域的特征，从而将感兴趣区域中的目标对象从背景中提取出来，具体地，可以通过已有的神经网络来实现特征的提取，作为例子，可以采用卷积神经网络、GoogleNet、VGG、ResNet等网络，当然，在可选的实施例中，还可以采用其它的高级算法来实现各感兴趣区域的特征提取。本实施例中，提取的特征可以是例如目标对象的外貌特征。

步骤S300，根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果。本实施例中，预测结果包括感兴趣区域包含目标对象的概率p和目标对象的预测位置。本实施例中，目标对象可以是同一类的一个或多个，例如多辆汽车、多架飞机等；也可以不同类的目标对象，例如飞机、汽车、自行车、人等任意组合；在不同类的目标对象中，各类别的目标对象数目也可以是一个或多个。在具体实施例中，当神经网络训练完成后，可以根据目标对象的特征预测每个感兴趣区域(RoI)内所包含每一个对象的可能性(概率)以及每一个对象具体位置的预测，具体地，每个目标对象的具体位置可以通过目标对象所在像素区域的边界(例如边框、各顶角等)坐标表示，当然，当各感兴趣区域为相同大小或者具有一定规律形状或者能够推断出感兴趣区域像素块覆盖范围时，也可以基于一定规则的方式(例如感兴趣区域中心坐标)来表征各类对象所处的位置。通常，针对当前帧的感兴趣区域预测得到的目标对象的位置，相对于当前帧生成的多个目标对象的感兴趣区域会有一定的位置偏移量。作为例子，请参考图3，通过神经网络的卷积层(convolutional layers)进行预测，得到预测结果，该预测结果包括了每一类对象具体的预测位置(bounding boxregression)以及预测概率p。

步骤S400，确定后续帧的待检测的感兴趣区域。具体地，根据当前帧的各个感兴趣区域的预测结果确定后续帧的感兴趣区域。本实施例中，所称后续帧是指时域上滞后于当前帧的图像帧，本实施例中，以后续帧为当前帧的下一帧为例进行说明。在一种实施例中，可以将当前帧的目标对象的预测位置作为后续帧(例如下一帧)的待检测的感兴趣区域，即直接将当前帧预测得到的各个目标对象预测位置区域对应生成后续帧(例如下一帧)的各个目标对象所在的区域，以分别作为后续帧(例如下一帧)的待检测的感兴趣区域；在另一种实施例中，也可以获取当前帧的感兴趣区域中目标对象在区域的边界位置；对目标对象所在区域对应的边界位置进行加权得到与感兴趣区域对应的后续帧(例如下一帧)的目标对象区域的边界位置，从而生成后续帧(例如下一帧)的各个目标对象所在的区域，本实施例中，在确定了后续帧(例如下一帧)的目标对象所在区域的边界位置后，通过确定的边界位置即可作为后续帧(例如下一帧)的待检测的感兴趣区域。请参考图3，在预测得到当前帧Frame t目标对象预测位置区域后，可将该预测位置区域坐标或者加权后的坐标区域作为后续帧(例如下一帧)Frame t+1的目标对象所在的区域，以得到感兴趣区域；而后，再将后续帧(例如下一帧)Frame t+1预测得到预测位置区域作为后续帧(例如当前帧之后两帧)Frame t+2的目标对象所在的区域，以得到感兴趣区域。需要说明的是，上述实施例中，以“后续帧”为“当前帧”的“下一帧”为例进行说明，在其它实施例中，“后续帧”也可能是“当前帧”之后的若干帧，在具体实施过程中，可以根据“后续帧”与“当前帧”的帧数差来合理确定加权系数，或者还可以结合运动估计等来实现对“后续帧”的感兴趣区域更准确地确定。

需要说明的是，在应用本实施例的目标对象检测方法时：可以在对目标对象进行时域上的连续检测时，即可实现对目标对象进行跟踪；也可以在时域上等间隔或者不等间隔对若干图像帧进行抽样检测；还可以在视频图像序列中确定一些待检测的图像帧子序列，而后对这些确定的图像帧子序列进行检测和/或跟踪；还可以检测单帧图像。

相对于现有技术中分隔多个串联步骤分别优化的方式，由于时域的信息未能充分利用。此前的系统通常仅针对置信度进行时域上的优化，长程的时域特征未能充分利用，进而很难处理对象外观变化等复杂情况。分立的串联步骤严重耗时。针对每一个目标对象的检测，此前的系统需要经历完整的跟踪和时域分类步骤，因此随着检测目标数目的增加，系统的耗时会急剧增加，导致这些系统很难接近实际应用。多个步骤之间不能复用特征。由于多个步骤进行分别优化，这些步骤的特征是相互独立的而未能复用，这一方面增加了参数空间的复杂度不利于优化，另一方面多个步骤之间的联系仅仅是简单结果的传递。

本实施例中，在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，而后，根据各个感兴趣区域的特征对各个感兴趣区域进行预测得到预测结果，并且，根据当前帧的各个感兴趣区域的预测结果确定后续帧的感兴趣区域，因此，在对目标对象进行检测时，能够将当前帧的信息传送至后续帧，实现不同帧图像之间的时域信息复用，充分利用了长程的时域特征，进而为处理对象外貌变化等复杂情况提供了时域依据。

为了实现对多类目标对象的检测，作为可选的实施例，当检测/跟踪的目标对象为多个(可以是同类目标对象，也可以是不同类目标对象)时，当前帧的感兴趣区域可能至少部分包含多个目标对象的信息。针对每个感兴趣区域，可以分别获取感兴趣区域中各个目标对象所在区域边界位置d_c，其中，c为整数，且1≤c≤C，C为目标对象的个数；而后，针对当前帧中每个感兴趣区域所包含的各个目标对象，对各个目标对象所在区域边界位置d_c进行加权得到与当前帧的感兴趣区域对应的后续帧的目标对象所在区域的边界位置，通过该加权后得到的边界坐标得到后续帧的目标对象所在区域，以作为与当前帧该感兴趣区域对应的后续帧感兴趣区域。

作为可选的实施例，可以通过各个目标对象被包含的概率来进行加权，具体地，可以分别获取各个目标对象包含在当前帧的感兴趣区域中的概率p_c；对各个目标对象所在区域边界位置d_c和各个目标对象包含在当前帧的感兴趣区域中的概率p_c进行加权得到与感兴趣区域对应的后续帧的目标对象所在区域的边界位置。作为例子，以当前帧中某一个感兴趣区域为例进行说明：分别获取各个目标对象包含在当前帧该感兴趣区域中的概率p_c，c＝1，2，3…C；并获取该感兴趣区域中各个目标对象预测得到位置

其中，

分别为第c个目标对象所在感兴趣区域的左上角、右下角的横纵坐标(当然，也可以采用其它的边界坐标替代)；而后，对目标对象所在边界位置和目标对象包含在该感兴趣区域的概率进行加权得到与感兴趣区域对应的后续帧的目标对象所在区域的边界位置，具体地，可以采用下述公式进行加权得到后续帧的目标对象区域的边界位置：

其中，d^*为与感兴趣区域对应的后续帧的目标对象区域的边界位置；c为整数，且1≤c≤C，C为目标对象的个数；d_c为各个目标对象所在区域边界位置；p_c为各个目标对象包含在当前帧该感兴趣区域中的概率。

为了实现对起始帧感兴趣区域的确定。在具体的实施例中，对于视频图像序列的起始帧，可以基于预设规则在视频图像序列的起始帧设置至少一个感兴趣区域，以对起始帧的各个感兴趣区域进行预测得到预测结果。具体地，在对起始帧的感兴趣区域预测时，可参见上述实施例中当前帧的感兴趣区域的预测方式，在此不再赘述。在具体实施例中，可以利用例如区域提议网络(Region Proposal Network，RPN[3])设置起始帧的感兴趣区域，当然，在其它实施例中，还可以采用其它的网络提议设置起始帧的感兴趣区域。

为了实现在时域上对目标对象特征的记忆，减小因目标对象特征消失而导致发生跟踪失败的概率。在可选的实施例中，当前帧的感兴趣区域中的目标对象的特征还包括：当前帧的感兴趣区域记忆的目标对象的特征轨迹，该特征轨迹可以包含当前帧的感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。由此，在根据目标对象的特征对各个感兴趣区域进行预测时，可以通过当前帧的目标对象的特征轨迹对各个感兴趣区域进行预测，得到预测结果。本实施例中，所称先前帧是指时域上超前于当前帧的图像帧或图像帧集，即：先前帧可以是时域上超前于当前帧的一帧图像帧，也可以是超前于当前帧的若干图像帧构成的图像序列集合。在具体实施例中，请参考图2，在执行步骤S200之后，还包括：

步骤S510，基于预设时长记忆当前时刻对应的当前帧的各个感兴趣区域中目标对象的特征。请参考图4，为本发明实施例中记忆模型结构示意，具体地，可以通过例如长短期记忆(Long Short-term Memory,LSTM)来实现(如图3中标记的LSTM)，该模型可以通过记忆单元c_t、c_t-1、c_t+1对各自对应的当前帧的特征(x_t、x_t-1、x_t+1)进行记忆，其中，记忆单元c_t记忆t时刻对应的当前帧的特征，c_t-1记忆t-1时刻对应的当前帧的特征，c_t+1记忆t+1时刻对应的当前帧的特征等等。本实施例中，可以通过遗忘门来实现预设时长的控制，作为例子，例如通过遗忘门f_t-1来实现t-1时刻特征的记忆控制，通过遗忘门f_t来实现t时刻特征的记忆控制，通过遗忘门f_t+1来实现t+1时刻特征的记忆控制。本实施例中，可以获取目标对象的姿态变化频率，而后，根据姿态变化频率调整预设时长的长短，以完成遗忘门对特征的记忆控制。具体地，当步骤S200提取的特征相对于之前帧的姿态变化显著时，可以关闭遗忘门，以实现更快地记忆当前帧的特征，实现特征的快速更新。

步骤S520，将记忆的各个感兴趣区域中目标对象的特征作为后续帧的记忆输入。本实施例中，当前时刻的记忆单元可以将其记忆的特征传递到下一时刻的记忆单元，例如：请参考图4，c_t-1传递至c_t，c_t传递至c_t+1，从而，在时域上储存着轨迹的特征。需要说明的是，通过在时域上储存轨迹的特征，可以更有效地判断特征的姿态变化是否显著。在将记忆的各个感兴趣区域中目标对象的特征作为后续帧的记忆输入之后，在后续帧确定感兴趣区域时，可以根据记忆输入的特征来判断目标对象的特征是否变化，由此，可以确定是否可以在时域上继承前一时刻记忆的特征。

本实施例中，由于前一时刻的记忆单元可以将其记忆的特征传递到下一时刻的记忆单元，因此，可以将先前帧记忆的目标对象的特征作为当前帧的特征进行记忆，从而能够减小因目标对象特征消失而导致发生跟踪失败的概率。

需要说明的是，在具体实施例中，请参考图4，可以通过输入门来控制各时刻记忆单元记忆的特征(如图3中t-1、t、t+1时刻分别对应的输入门i_t-1、i_t、i_t+1)，输入门控制是否需要用当前的输入来改变记忆单元。因此，在当前帧对象遮挡和运动模糊的情况下可以关闭输入门，以记忆先前帧的特征，从而不影响时域上对目标对象特征的储存。

需要说明的是，在具体实施例中，还可以通过加入其它逻辑门结构来控制信息流向，请参考图4，例如输出门，如图3中t-1、t、t+1时刻分别对应的输出门o_t-1、o_t、o_t+1来控制是否需要输出各时刻对应预测的输出特征h_t-1、h_t、h_t+1，在跟踪失败时，可以关闭对应的输出门，对应的输出特征输出为空，即可停止后续时刻的跟踪。本实施例中，通过输出门的控制，在跟踪失败时，及时退出检测/跟踪，从而能够有效地减少系统运行负荷。

本实施例还公开了一种目标对象检测装置，请参考图5，为该目标对象检测装置结构示意图，该目标对象检测装置包括：第一感兴趣模块100、特征提取模块200、预测模块300和第二感兴趣模块400，其中：

第一感兴趣模块100用于在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息；特征提取模块200用于分别提取当前帧的感兴趣区域中的目标对象的特征；预测模块300用于根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果；第二感兴趣模块400用于根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域。

在可选的实施例中，预测结果包括：感兴趣区域包含目标对象的概率和目标对象的预测位置。

在可选的实施例中，第二感兴趣模块400用于将当前帧的目标对象的预测位置作为后续帧的待检测的感兴趣区域。

在可选的实施例中，第二感兴趣模块400包括：位置获取单元，用于获取当前帧的感兴趣区域中目标对象在区域的边界位置；位置生成单元，用于对目标对象所在区域对应的边界位置进行加权得到与感兴趣区域对应的后续帧的目标对象区域的边界位置。

在可选的实施例中，当前帧的感兴趣区域至少部分包含多类目标对象的信息；位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；位置生成单元用于对各类目标对象所在区域边界位置进行加权得到与感兴趣区域对应的后续帧的目标对象区域的边界位置。

在可选的实施例中，还包括：位置生成单元用于对各类目标对象所在区域边界位置和各类目标对象包含在当前帧的感兴趣区域中的概率进行加权得到与感兴趣区域对应的后续帧的目标对象区域的边界位置。

在可选的实施例中，还包括：起始模块，用于基于预设规则在视频图像序列的起始帧设置至少一个感兴趣区域。

在可选的实施例中，当前帧的感兴趣区域中的目标对象的特征，还包括：当前帧的感兴趣区域记忆的目标对象的特征轨迹。

在可选的实施例中，特征轨迹包含：当前帧的感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

在可选的实施例中，预测模块还用于通过当前帧的目标对象的特征轨迹对各个感兴趣区域进行预测，得到预测结果。

本实施例还公开了一种目标对象检测系统，包括：

图像获取装置，用于获取待检测视频图像的视频图像序列数据；处理器，接收待检测视频图像的视频图像序列数据，用于执行上述方法对象检测中的操作；存储器，用于存放至少一可执行指令，可执行指令使处理器执行上述方法目标对象检测对应的操作。

本实施例还公开了一种用于对象检测的神经网络结构，请参考图3，该神经网络结构包括：

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器、工控机(IPC)等。下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图：如图6所示，计算机系统600包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)601，和/或一个或多个图像处理器(GPU)613等，处理器可以根据存储在只读存储器(ROM)602中的可执行指令或者从存储部分608加载到随机访问存储器(RAM)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡，所述网卡可包括但不限于IB(InfiniBand)网卡，

处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如：在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息的操作；分别提取当前帧的感兴趣区域中的目标对象的特征的操作；根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果的操作；根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域的操作，等等。

此外，在RAM 603中，还可存储有装置操作所需的各种程序和数据。CPU601、ROM602以及RAM603通过总线604彼此相连。在有RAM603的情况下，ROM602为可选模块。RAM603存储可执行指令，或在运行时向ROM602中写入可执行指令，可执行指令使处理器601执行上述通信方法对应的操作。输入/输出(I/O)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个感兴趣区域至少部分包含至少一个目标对象的信息的指令；分别提取当前帧的感兴趣区域中的目标对象的特征的指令；根据目标对象的特征对当前帧的各个感兴趣区域进行预测，得到预测结果的指令；根据当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域的指令，等等。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种目标对象检测方法，其特征在于，包括如下步骤：

在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个所述感兴趣区域至少部分包含至少一个目标对象的信息；

利用神经网络模型分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征；

通过所述神经网络模型对所述至少一个感兴趣区域中的目标对象的特征进行处理，得到所述至少一个感兴趣区域的预测结果；

根据所述当前帧的至少一个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域，包括：

将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。

2.如权利要求1所述的目标对象检测方法，其特征在于，所述预测结果包括：

所述感兴趣区域包含目标对象的概率和所述目标对象的预测位置。

3.如权利要求1或2所述的目标对象检测方法，其特征在于，所述根据所述当前帧的各个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域包括：

获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；

对目标对象所在区域对应的所述边界位置进行加权得到与所述当前帧的感兴趣区域对应的后续帧的目标对象区域的边界位置。

4.如权利要求3所述的目标对象检测方法，其特征在于，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；

所述获取所述当前帧的感兴趣区域中目标对象所在区域的边界位置，包括：分别获取感兴趣区域中各类目标对象所在区域边界位置；

所述对目标对象所在区域对应的所述边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：对各类目标对象所在区域边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

5.如权利要求4所述的目标对象检测方法，其特征在于，

所述对目标对象所在区域对应的所述边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置，包括：

对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

6.如权利要求1或2所述的目标对象检测方法，其特征在于，还包括：基于预设规则在视频图像序列的起始帧设置所述至少一个感兴趣区域。

7.如权利要求1或2所述的目标对象检测方法，其特征在于，所述当前帧的感兴趣区域中的目标对象的特征，还包括：所述当前帧的感兴趣区域记忆的目标对象的特征轨迹。

8.如权利要求7所述的目标对象检测方法，其特征在于，所述特征轨迹包含：当前帧的感兴趣区域中的目标对象的特征和所述当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

9.如权利要求7所述的目标对象检测方法，其特征在于，所述根据所述目标对象的特征对所述各个感兴趣区域进行预测，得到预测结果，还包括：通过所述当前帧的目标对象的特征轨迹对所述各个感兴趣区域进行预测，得到预测结果。

10.一种目标对象检测装置，其特征在于，包括：

第一感兴趣模块，用于在视频图像序列的当前帧确定至少一个待检测的感兴趣区域，每个所述感兴趣区域至少部分包含至少一个目标对象的信息；

特征提取模块，用于利用神经网络模型分别提取所述当前帧的至少一个感兴趣区域中的目标对象的特征；

预测模块，用于通过所述神经网络模型对所述至少一个感兴趣区域中的目标对象的特征进行处理，得到所述至少一个感兴趣区域的预测结果；

第二感兴趣模块，用于根据所述当前帧的至少一个感兴趣区域的预测结果确定后续帧待检测的感兴趣区域，所述第二感兴趣模块用于将所述当前帧的所述目标对象的预测位置作为所述后续帧的待检测的感兴趣区域。

11.如权利要求10所述的目标对象检测装置，其特征在于，所述预测结果包括：所述感兴趣区域包含目标对象的概率和所述目标对象的预测位置。

12.如权利要求10或11所述的目标对象检测装置，其特征在于，所述第二感兴趣模块包括：

位置获取单元，用于获取所述当前帧的感兴趣区域中目标对象在区域的边界位置；

位置生成单元，用于对目标对象所在区域对应的所述边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

13.如权利要求12所述的目标对象检测装置，其特征在于，所述当前帧的感兴趣区域至少部分包含多个目标对象的信息；

所述位置获取单元用于分别获取感兴趣区域中各类目标对象所在区域边界位置；

所述位置生成单元用于对各类目标对象所在区域边界位置进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

14.如权利要求13所述的目标对象检测装置，其特征在于，还包括：

所述位置生成单元用于对各类目标对象所在区域边界位置和各类目标对象包含在所述当前帧的感兴趣区域中的概率进行加权得到与所述感兴趣区域对应的后续帧的目标对象区域的边界位置。

15.如权利要求10或11所述的目标对象检测装置，其特征在于，还包括：

起始模块，用于基于预设规则在视频图像序列的起始帧设置所述至少一个感兴趣区域。

16.如权利要求10或11所述的目标对象检测装置，其特征在于，所述当前帧的感兴趣区域中的目标对象的特征，还包括：所述当前帧的感兴趣区域记忆的目标对象的特征轨迹。

17.如权利要求16所述的目标对象检测装置，其特征在于，所述特征轨迹包含：当前帧的感兴趣区域中的目标对象的特征和当前帧的先前帧的感兴趣区域记忆的目标对象的特征轨迹。

18.如权利要求16所述的目标对象检测装置，其特征在于，所述预测模块还用于通过所述当前帧的目标对象的特征轨迹对所述各个感兴趣区域进行预测，得到预测结果。

19.一种目标对象检测系统，其特征在于，包括：

图像获取装置，用于获取待检测视频图像的视频图像序列数据；

处理器，用于接收所述待检测视频图像的视频图像序列数据，用于执行如权利要求1-9任意一项所述方法中的操作；

存储器，用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9任一项所述方法对应的操作。

20.一种用于目标对象检测的神经网络结构，其特征在于，包括：

级联的多层神经网络，各层神经网络用于接收视频图像序列中的一帧图像数据，用于对所述图像数据生成多个感兴趣区域，并对所述多个感兴趣区域进行目标对象检测得到预测结果，所述预测结果包括所述目标对象的位置；

本层神经网络的预测结果作为下一层神经网络的输入，所述下一层神经网络根据所述本层神经网络的预测结果对所述下一层神经网络接收的图像数据生成多个感兴趣区域，并进行目标对象检测得到预测结果，所述本层神经网络的预测结果作为下一层神经网络的输入包括：本层神经网络将接收到的当前帧的所述目标对象的预测位置作为下一层神经网络接收到的图像数据的待检测的感兴趣区域。