CN115082836B

CN115082836B - 一种行为识别辅助的目标物体检测方法及装置

Info

Publication number: CN115082836B
Application number: CN202210870744.3A
Authority: CN
Inventors: 谭卫军; 姚琪
Original assignee: Shenzhen Shenmu Information Technology Co ltd
Current assignee: Shenzhen Shenmu Information Technology Co ltd
Priority date: 2022-07-23
Filing date: 2022-07-23
Publication date: 2022-11-11
Anticipated expiration: 2042-07-23
Also published as: CN115082836A

Abstract

本发明涉及一种行为识别辅助的目标物体检测方法及装置，其方法包括：获取待检测视频流；对视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，启动人体跟踪器；当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，并基于提取的图像帧获取人体子图像序列和疑似物体子图像序列；将人体子图像序列和疑似物体子图像序列分别输入3DCNN网络，提取出人体行为特征和疑似物体特征；将人体行为特征和所述疑似物体特征进行级联，并将级联后的特征输入行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。本发明既关注了人体的行为，又关注了目标物体的外形，降低了目标检测的误检率。

Description

一种行为识别辅助的目标物体检测方法及装置

技术领域

本发明涉及目标检测的技术领域，尤其是涉及一种行为识别辅助的目标物体检测方法及装置。

背景技术

视频枪支检测，提供了一种及时检测和报警的技术，可以大大节省保安和警察的反应时间，预防或者尽早做出相应，拯救生命。

在视频目标检测技术中，以枪支检测为例，目前的检测技术是使用枪支的外形RGB图像进行枪支检测，只关注了枪支的外形信息，然而，由于枪支这种目标的体积较小，再加上距离、光线、角度的影响，导致检测到的外形不够精准，进而导致枪支的误检率较高。然而，在枪支检测的应用中，如果每次报警都需要引发警方出动，那么误检将会导致巨大的警力浪费，是不可接受的。

综上，在例如枪支的目标检测中，如何降低目标检测的误检率，是一个亟需解决的问题。

发明内容

为了降低目标检测的误检率，本发明提供了一种行为识别辅助的目标物体检测方法及装置。

第一方面，本发明提供一种行为识别辅助的目标物体检测方法，采用如下的技术方案：

获取待检测视频流；

对所述视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，启动人体跟踪器；其中，所述疑似物体是与所述目标物体的外形相同或相似的物体；

当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，并基于提取的图像帧获取人体子图像序列和疑似物体子图像序列；

将所述人体子图像序列和所述疑似物体子图像序列分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

将所述人体行为特征和所述疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。

通过采用上述技术方案，同时利用人体子图像序列和疑似物体子图像序列进行目标物体的检测，既关注了人体的行为，又关注了目标物体的外形信息，相比于仅利用外形信息进行目标检测的技术，能够有效降低目标检测的误检率。

可选的，所述基于提取的图像帧获取人体子图像序列，具体包括：

获取人体在提取的每一图像帧中的第一空间位置；

基于获取的所有第一空间位置，计算所述第一空间位置的最大化Union框；

基于所述第一空间位置的最大化Union框，依次获取所述提取的每一图像帧的子图像，得到人体子图像序列。

通过采用上述技术方案，能够基于所有后续图像帧的最大化Union框提取到人体子图像序列，提取速度快，精度高。

可选的，所述基于提取的图像帧获取疑似物体子图像序列，具体包括：

获取疑似物体在提取的每一图像帧中的第二空间位置；

基于获取的所有第二空间位置，计算第二空间位置的最大化Union框；

基于所述第二空间位置的最大化Union框，依次获取所述提取的每一图像帧的子图像，得到疑似物体子图像序列。

通过采用上述技术方案，能够基于所有后续图像帧的最大化Union框提取到疑似物体子图像序列，提取速度快，精度高。

可选的，在所述将人体子图像序列和疑似物体子图像序列分别输入预先训练的3DCNN网络的步骤之前，还包括：

将所述人体子图像序列和所述疑似物体子图像序列放大到预设尺寸。

通过采用上述技术方案，首先，通过将人体行为特征和疑似物体特征放大至同一预设尺寸，提高了人体行为特征和疑似物体特征的提取和级联的计算效率；其次，对于疑似物体是小目标的情况，能够提高小目标的区分能力，进而降低目标检测的误检率。

可选的，所述预设识别条件是跟踪时长达到预设时长、跟踪到的图像帧的数量达到第二预设数量或跟踪的人体消失。

通过采用上述技术方案，对预设识别条件的所包含的具体情况进行了细化，从而便于根据不同情况进行行为识别。

第二方面，本发明提供一种行为识别辅助的目标物体检测方法，采用如下的技术方案：

获取待检测视频流；

当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，基于提取的图像帧获取人体子图像序列，并基于当前时刻的图像帧提取疑似物体子图像；其中，所述当前时刻的图像帧是达到预设识别条件时，跟踪到的最后一张图像帧；

将所述人体子图像序列和所述疑似物体子图像分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

将所述人体行为特征和所述疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。通过采用上述技术方案，同时利用人体子图像序列和疑似物体子图像进行目标物体的检测，既关注了人体的行为，又关注了目标物体的外形信息，相比于仅利用外形信息进行目标检测的技术，能够有效降低目标检测的误检率，且计算效率较高。

第三方面，本发明提供一种行为识别辅助的目标物体检测装置，采用如下的技术方案：

视频流获取模块，用于获取待检测视频流；

人体跟踪器启动模块，用于对所述视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，启动人体跟踪器；其中，所述疑似物体是与所述目标物体的外形相同或相似的物体；

子图像序列获取模块，用于当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，并基于提取的图像帧获取人体子图像序列和疑似物体子图像序列；

特征提取模块，用于将所述人体子图像序列和所述疑似物体子图像序列分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

分类模块，用于将人体行为特征和疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。

第四方面，本发明提供一种行为识别辅助的目标物体检测装置，采用如下的技术方案：

视频流获取模块，用于获取待检测视频流；

子图像序列获取模块，用于当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，基于提取的图像帧获取人体子图像序列，并基于当前时刻的图像帧提取疑似物体子图像；其中，所述当前时刻的图像帧是达到预设识别条件时，跟踪到的最后一张图像帧；

特征提取模块，用于将所述人体子图像序列和所述疑似物体子图像分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

分类模块，用于将所述人体行为特征和所述疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。

第五方面，本发明提供了一种电子设备，采用如下的技术方案：

一种电子设备，包括存储器和处理器，存储器上存储有能够被处理器加载并执行的方法的计算机程序。

第六方面，本发明提供了一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行的方法的计算机程序。

综上所述，本发明包括以下有益技术效果：

同时利用人体子图像序列和疑似物体子图像序列进行目标物体的检测，既关注了人体的行为，又关注了目标物体的外形信息，相比于仅利用外形信息进行目标检测的技术，能够有效降低目标检测的误检率。

附图说明

图1是本发明实施例的行为识别辅助的目标物体检测方法流程图。

图2是本发明获取人体子图像序列的方法流程图。

图3是本发明获取疑似物体子图像序列的方法流程图。

图4是本发明另一实施例的行为识别辅助的目标物体检测方法流程图。

图5是本发明实施例的行为识别辅助的目标物体检测装置结构框图。

图6是本发明实施例的电子设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图1-6及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明公开一种行为识别辅助的目标物体检测方法，作为一种实施例，参照图1，行为识别辅助的目标物体检测方法包括以下步骤：

S11、获取待检测视频流；

待检测视频流可以是实时视频流，也可以是非实时视频流；当待检测视频流是实时视频流时，通过预设摄像装置来采集实时视频流，当待检测视频流是非实时视频流时，通过外部输入或本地数据库来采集待检测视频流。其中，预设摄像装置可以是可见光摄像头或红外摄像装置等视频采集装置，红外线摄像头可以在夜间或光照条件不佳的情况下，采集到清晰度更高的视频流。

获取待检测视频流时，可以接收所有图像帧，也可以以固定帧率接收图像帧，在此不作具体限定。

S12、对视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，启动人体跟踪器；

对疑似物体进行检测的目标就是目标物体，而实际检测到的疑似物体是和目标物体的外形相同或相似的物体。在该步骤中，依次对视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中同时检测到人体和疑似物体时，将该图像帧作为跟踪起点，启动人体跟踪器，开启对人体进行跟踪的流程。其中，对人体和疑似物体进行检测的算法均为本领域的常规目标检测算法，例如，YOLO、Faster RCNN 等，可采用相同算法对人体和疑似物体进行检测，也可采用不同算法对人体和疑似物体进行检测。并且，在对同一图像帧中的人体和疑似物体进行检测时，可以对人体和疑似物体同时进行检测，也可以在检测到人体时，以人体为中心截取出一张子图，然后在子图上检测疑似物体。

以枪支检测的场景为例，当首次在同一图像帧中同时检测到人和枪支时，可判定疑似检测到枪支这一目标。由于当前检测到的物体是基于传统的枪支的外形RGB图像得到的，只关注了枪支的外形信息，其误检率较高，比如，当前检测到的目标是枪支，但实际上可能是喷壶等其它外向较为相似的物体，这也正是本申请所要解决的技术问题；此时，将当前检测到的枪支作为疑似物体，启动人体跟踪器，进入对人体的跟踪流程，以便于结合后续图像帧中人体行为和枪支的相关性来进行再次判定，以剔除疑似物体检测错误的情况，降低误检率。

在本申请中，以枪支检测为例进行说明，在实际应用中，本申请也适用于人手持的其它目标物体的检测，或其它人体行为与目标物体的检测，其中，目标物体的使用与人的行为有比较强的相关性。需要强调的是，枪支检测仅是一种示例，并不作为对本申请的限定。

S13、当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，并基于跟踪到的图像帧获取人体子图像序列和疑似物体子图像序列；

预设识别条件是由用户预先设定的，其表征可基于当前跟踪到的图像帧进行行为识别，以对目标物体进行检测。具体的，预设识别条件是跟踪时长达到预设时长、跟踪到的图像帧的数量达到第二预设数量或跟踪的人体消失，其中，预设时长和第二预设数量可以根据实际需求进行预先设定。并且，第二预设数量可以与第一预设数量相同，也可以不同，在此不作具体限定。

本领域技术人员应当理解，跟踪到的图像帧的数量通常是多个，具体包括步骤S12中首次检测到人体和疑似物体的同一图像帧（首次检测到人体和疑似物体的第一张图像帧）以及跟踪到的后续图像帧，其中，后续图像帧包括首次检测到人体和疑似物体的第一张图像帧至人体跟踪器关闭之前的所有图像帧。

其中，提取第一预设数量的跟踪到的图像帧，具体包括：

判断达到预设识别条件时，跟踪到的图像帧的数量是否满足第一预设数量；若是，以当前时刻的图像帧为终点，提取第一预设数量的跟踪到的连续图像帧；若否，获取第一预设数量和跟踪到的图像帧的数量的差值，按照预设规则在跟踪到的图像帧中插入差值数量的预设图像帧。其中，当前时刻的图像帧是指达到预设识别条件时，跟踪到的最后一张图像帧；对于实时视频流而言，当前时刻就是当前所处的实际时间，对于非实时视频流而言，当前时刻是达到预设识别条件时，跟踪到的最后一张图像帧的拍摄时间，该拍摄时间早于当前所处的实际时间。第一预设数量可以根据实际需求进行设定，例如为8、16或24。预设规则可以是随机插入，也可以是在跟踪到的所有视频帧的后面插入，或是在跟踪到的所有视频帧的前面插入，在此不作具体限定。

对于预设识别条件是跟踪的人体消失的情况，很可能会出现跟踪到的图像帧的数量不能满足第一预设数量的要求，此时，便需要插入差值数量的预设图像帧。经过提取第一预设数量的跟踪到的图像帧，能够将用于行为识别的图像帧的数量限定在合理的范围内，以提高行为识别的准确度，进而提高目标检测的准确度。

作为一种实施方式，参照图2，基于提取的图像帧获取人体子图像序列，包括以下子步骤：

S1311、获取人体在提取的每一图像帧中的第一空间位置；

根据人体轮廓，在提取的每一图像帧中，获取人体的第一空间位置，其中，第一空间位置为包含人体轮廓的矩形框的位置；

S1312、基于获取的所有第一空间位置，计算第一空间位置的最大化Union框；

S1313、基于第一空间位置的最大化Union框，依次获取提取的每一图像帧的图像，得到人体子图像序列。

在基于第一空间位置的最大化Union框获取的子图像中，均包含了完整的人体图像信息，对应的所有子图像构成了人体子图像序列。

类似的，参照图3，基于提取的图像帧获取疑似物体子图像序列，包括以下子步骤：

S1321、获取疑似物体在提取的每一图像帧中的第二空间位置；

根据疑似物体的轮廓，在提取的每一图像帧中，获取疑似物体的第二空间位置，其中，第二空间位置为包含疑似物体轮廓的矩形框的位置；

S1322、基于获取的所有第二空间位置，计算第二空间位置的最大化Union框；

S1323、基于第二空间位置的最大化Union框，依次获取提取的每一图像帧的子图像，得到疑似物体子图像序列；

在基于第二空间位置的最大化Union框获取的子图像中，均包含了完整的疑似物体图像信息，对应的所有子图像构成了疑似物体子图像序列。

人体子图像序列和疑似物体子图像序列的提取过程可同时执行，也可先提取人体子图像序列，后提取疑似物体子图像序列，或先提取疑似物体子图像序列，后提取人体子图像序列，在此不作具体限定。

S14、将人体子图像序列和疑似物体子图像序列分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

3DCNN网络是指三维卷积神经网络，能够捕获视频中时间和空间的特征信息，同时对外观和运动进行建模，是目前视频行为识别中获取空间和时间特征的常用方法。在本申请中，采用在常见行为识别数据集上训练的3DCNN网络，例如，在 Kinetics数据集上训练的I3D 网络。通过3DCNN网络提取的人体行为特征和疑似物体特征是包含时间属性的特征序列。

作为一种实施方式，在步骤S14之前，将人体子图像序列和疑似物体子图像序列放大到预设尺寸，以在步骤S14中利用放大到预设尺寸的人体子图像序列和疑似物体子图像序列进行人体行为特征和疑似物体特征的提取。将人体子图像序列和疑似物体子图像序列放大到相同的预设尺寸，一方面，便于人体行为特征和疑似物体特征的提取和级联的计算，提高计算效率，另一方面，对于人体在原始图像帧中的尺寸较小的情况，能够提高区分能力，进而降低目标检测的误检率。其中，预设尺寸可根据实际需求进行设定，默认为224×224。需要说明的是，小目标是指体积较小的物体，例如，枪支，其在原始图像帧中的尺寸较小，不容易区分，将疑似物体子图像序列放大到预设尺寸后，能够有效提高小目标的区分能力，进而降低枪支检测的误检率。

S15、将人体行为特征和疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。

行为识别是在连续的视频帧中通过神经网络提取时空的关联性，根据人体行为的模式，以及和物体之间的互动来识别或者检测人的行为。行为识别网络可以直接在 3DCNN特征上进行二分类 (通常 1-3 层全连接层），也就是说，可以将特征提取部分和分类部分一起训练，通常的做法是直接收集有枪和无枪的行人图像序列进行训练，但是，3DCNN 网络通常比较大，参数非常多，训练难度较大。在本申请中，将人手持枪的事件作为视频中的异常事件，将行为识别网络作为一个二分类的异常识别网络，识别的结果是存在异常事件或不存在异常事件，这样，便可以将特征提取部分和分类部分分开训练。具体的，对于特征提取部分，直接使用在其它视频数据集中训练好的3DCNN网络来提取特征，从而无需自己训练一个很大的 3DCNN 网络的问题，大大降低了3DCNN网络的训练难度；对于分类网络，可以使用开源数据集中的枪击视频、自拍的模拟视频和/或现场测试的视频行为作为训练集来训练行为识别网络，其中，用于训练的视频需要进行S11-S14的数据处理过程，以提取出可用于训练的人体行为特征和疑似物体特征。

预设行为是人体对目标物体进行的预设动作，目标物体的使用与预设动作有较强的相关性，例如，目标物体是枪支，预设动作是人手持的动作。如果分类结果是存在预设行为下的预设目标，就说明跟踪到的最后一张图像帧中存在目标物体。本领域技术人员应当理解，对于视频的实时检测而言，跟踪到的最后一张图像帧就是当前时刻的图像帧，因此，如果分类结果是存在预设行为下的预设目标，就说明当前时刻检测到目标物体，此时，应当启动报警，提醒相关人员进行针对性处理，比如，对于枪支检测而言，应当启动报警，从而引发警方出动。

在达到预设识别条件时，可以关闭人体跟踪器，也可以不关闭人体跟踪器。若关闭人体跟踪器，则进入下一周期的检测，其检测过程和当前检测过程相同；若不关闭人体跟踪器，则继续对人体进行跟踪，在达到重复识别条件中，再次提取第一预设数量的跟踪到的图像帧，并基于跟踪到的图像帧获取人体子图像序列和疑似物体子图像序列，并执行S14-S15限定的流程，依次循环，直至满足关闭人体跟踪器的条件，其中，关闭人体跟踪器的条件是跟踪的人体消失。比如，预设识别条件是跟踪到的图像帧的数量达到16张，重复识别条件是增加的图像帧的数量到8张，此时，以滑窗的方式提取第一预设数量的跟踪到的图像帧，提取过程和首次提取过程相同，也就是和步骤S13中的提取过程相同。

由于人体行为特征和疑似物体特征是包含时间属性的特征序列，可根据时间属性对二者进行级联，也可根据序号对二者进行级联。将级联后的特征输入行为识别网络后，在网络中生成存在预设行为下的目标物体的概率得分，当得分大于等于预设阈值时，判定存在预设行为下的目标物体，当得分小于预设阈值时，判定不存在预设行为下的目标物体，并将其判定结果作为行为识别网络的分类结果进行输出。在输出分类结果时，也可以选择同时输出存在预设行为下的目标物体的得分，并将这个得分反馈给步骤S12的疑似物体的检测结果，用于对步骤S12中的检测结果进行性能评估。

需要说明的是，在行为识别网络中利用级联后的人体行为特征和疑似物体特征进行分类，而不是用人体行为特征进行分类，其目的是为了提高区分能力，比如，一个人持枪或者拿着手机，他们的动作可能比较类似，如果同时使用人体行为特征和枪支特征，可以提高区分能力，降低目标检测的误检率。

在本实施例中，同时利用人体子图像序列和疑似物体子图像序列进行目标物体的检测，既关注了人体的行为，又关注了目标物体的外形信息，相比于仅利用外形信息进行目标检测的技术，能够有效降低目标检测的误检率。

作为另一种实施例，参照图4，行为识别辅助的目标物体检测方法包括以下步骤：

S41、获取待检测视频流；

S42、对视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，启动人体跟踪器；

S43、当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，基于提取的图像帧获取人体子图像序列，并基于当前时刻的图像帧提取疑似物体子图像；

其中，当前时刻的图像帧是指达到预设识别条件时，跟踪到的最后一张图像帧。

S44、将人体子图像序列和疑似物体子图像分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

作为一种实施方式，在步骤S44之前，将人体子图像序列和疑似物体子图像放大到预设尺寸，以在步骤S44中利用放大到预设尺寸的人体子图像序列和疑似物体子图像进行人体行为特征和疑似物体特征的提取。

S45、将人体行为特征和疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。

通过3DCNN网络提取的人体行为特征是包含时间属性的特征序列，将疑似物体特征分别与每一人体行为特征进行进行级联，即可得到级联后的特征。

本实施例与上一实施例相比，本实施例仅从跟踪到的最后一张图像帧中提取疑似物体子图像，而上一实施例是从跟踪的所有图像帧中提取疑似物体子图像序列，本实施例具有计算效率更高的优点。但是，两个实施例均是既关注了人体的行为，又关注了目标物体的外形信息，相比于仅利用外形信息进行目标检测的技术，本申请的两个实施例能够有效降低目标检测的误检率。

本发明公开一种行为识别辅助的目标物体检测装置，参照图5，行为识别辅助的目标物体检测装置，包括：视频流获取模块10、人体跟踪器启动模块20、子图像序列获取模块30、特征提取模块40和分类模块50。

作为一种实施方式，各模块功能如下：

视频流获取模块10，用于获取待检测视频流；

人体跟踪器启动模块20，用于对视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，启动人体跟踪器；

子图像序列获取模块30，用于当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，并基于提取的图像帧获取人体子图像序列和疑似物体子图像序列；

特征提取模块40，用于将所述人体子图像序列和所述疑似物体子图像序列分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

分类模块50，用于将人体行为特征和疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。

作为另一种实施方式，各模块功能如下：

视频流获取模块10，用于获取待检测视频流；

人体跟踪器启动模块20，对所述视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，启动人体跟踪器；

子图像序列获取模块30，用于当达到预设识别条件时，提取第一预设数量的跟踪到的图像帧，基于提取的图像帧获取人体子图像序列，并基于当前时刻的图像帧提取疑似物体子图像；

特征提取模块40，用于将所述人体子图像序列和所述疑似物体子图像分别输入预先训练的3DCNN网络，提取出人体行为特征和疑似物体特征；

分类模块50，用于将所述人体行为特征和所述疑似物体特征进行级联，并将级联后的特征输入预先训练的行为识别网络进行分类，得到是否存在预设行为下的目标物体的分类结果。

需要说明的是，本实施例所述的装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

基于同一技术构思，本公开实施例还提供了一种电子设备600。参照图6所示，电子设备600包括处理器601、存储器602和总线603。其中，存储器602用于存储计算机程序，包括内部存储器6021和外部存储器6022；内部存储器6021用于暂时存放处理器601中的运算数据，以及与硬盘等外部存储器6022交换的数据，处理器601通过内部存储器6021与外部存储器6022进行数据交换。

本申请实施例中，存储器602具体用于存储执行本申请技术方案的计算机程序，并由处理器601来控制执行。也即，当电子设备600运行时，处理器601与存储器602之间通过总线603通信，使得处理器601执行存储器602中存储的计算机程序，进而执行前述任一实施例中所述的方法。

其中，存储器602可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read－Only Memory，PROM)，可擦除只读存储器(Erasable Programmable Read－Only Memory，EPROM)等。

处理器601可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备600的具体限定。在本申请另一些实施例中，电子设备600可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

本实施例还提供了一种计算机可读存储介质，如软盘、光盘、硬盘、闪存、U盘、SD(Secure Digital Memory Card，安全数码卡)卡、MMC(Multimedia Card，多媒体卡)卡等，在该可读存储介质中存储有实现上述各个步骤的计算机程序，该计算机程序可被一个或者多个处理器执行，以实现上述实施例中的方法。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

以上均为本发明的较佳实施例，并非依此限制本发明的保护范围，本说明书（包括摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种行为识别辅助的目标物体检测方法，其特征在于，包括：

获取待检测视频流；

对所述视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，将所述同一图像帧作为跟踪起点，启动人体跟踪器；其中，所述疑似物体是与所述目标物体的外形相同或相似的物体；

2.根据权利要求1所述的方法，其特征在于，所述基于提取的图像帧获取人体子图像序列，具体包括：

获取人体在提取的每一图像帧中的第一空间位置；

3.根据权利要求1所述的方法，其特征在于，所述基于提取的图像帧获取疑似物体子图像序列，具体包括：

获取疑似物体在提取的每一图像帧中的第二空间位置；

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述将所述人体子图像序列和所述疑似物体子图像序列分别输入预先训练的3DCNN网络的步骤之前，还包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述预设识别条件是跟踪时长达到预设时长、跟踪到的图像帧的数量达到第二预设数量或跟踪的人体消失。

6.一种行为识别辅助的目标物体检测方法，其特征在于，包括：

获取待检测视频流；

7.一种行为识别辅助的目标物体检测装置，其特征在于，包括：

视频流获取模块，用于获取待检测视频流；

人体跟踪器启动模块，用于对所述视频流中的图像帧进行人体和疑似物体的检测，当首次在同一图像帧中检测到人体和疑似物体时，将所述同一图像帧作为跟踪起点，启动人体跟踪器；其中，所述疑似物体是与所述目标物体的外形相同或相似的物体；

8.一种行为识别辅助的目标物体检测装置，其特征在于，包括：

视频流获取模块，用于获取待检测视频流；

9.一种电子设备，其特征在于：包括存储器和处理器，存储器上存储有能够被处理器加载并执行如权利要求1-6任一项的方法的计算机程序。

10.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行如权利要求1-6任一项的方法的计算机程序。