CN113673342A

CN113673342A - 行为检测方法、电子装置和存储介质

Info

Publication number: CN113673342A
Application number: CN202110814376.6A
Authority: CN
Inventors: 项超; 潘华东; 郑佳; 刘少林
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2021-11-19

Abstract

本申请涉及一种行为检测方法、电子装置和存储介质，其中，该行为检测方法包括：获取待处理监控视频中各个检测对象的头肩图像；利用训练后的第一行为检测模型对各个检测对象的头肩图像进行对象检测，确定各个检测对象中的候选对象，候选对象包括行为与目标行为的相似度大于或者等于第一相似度阈值的检测对象；基于获取的各头肩图像，确定各个候选对象的头肩图像序列；确定各个候选对象的头肩图像序列对应的行为特征，并基于确定的各个行为特征，确定各个候选对象是否存在目标行为，通过本申请，解决了检测目标行为准确度不高的问题，提高了目标行为检测的准确率。

Description

行为检测方法、电子装置和存储介质

技术领域

本申请涉及计算机视觉领域，特别是涉及行为检测方法、电子装置和存储介质。

背景技术

在日常生活和工作当中，很多地方需要对人类的行为进行一定的规范。例如在办公区域、加油站等场所需要对人类的行为进行规范。而人工监视无法起到实时的监督作用，或者事后的监控视频筛查，既需要大量的人力和时间成本，也有着亡羊补牢的功效，不具有主动性。因此需要采取视频智能监督的方法来及时有效地规范特定场景下的人类行为。

目前现有技术中主要是检测单帧的行为，通过累计检测帧达到一定阈值或者其他逻辑方式来判断是否为目标行为，在用逻辑描述无法区分执行行为与非目标行为的情况下，无法准确的判断行为是否为目标行为，存在检测目标行为准确度不高的问题。

发明内容

在本实施例中提供了一种行为检测方法、电子装置和存储介质，以解决相关技术中检测目标行为准确度不高的问题。

第一个方面，在本实施例中提供了一种行为检测方法，包括：

获取待处理监控视频中各个检测对象的头肩图像；

利用训练后的第一行为检测模型对所述各个检测对象的所述头肩图像进行对象检测，确定所述各个检测对象中的候选对象，所述候选对象包括行为与目标行为的相似度大于或者等于第一相似度阈值的检测对象；

基于获取的各头肩图像，确定各个所述候选对象的头肩图像序列；

确定各个所述候选对象的头肩图像序列对应的行为特征，并基于确定的各个行为特征，确定所述各个候选对象是否存在所述目标行为。

在其中的一些实施例中，确定各个候选对象中一个候选对象的所述头肩图像序列包括：

所述待处理监控视频中的所有视频帧包含的所述一个候选对象的头肩图像，按照所述视频帧的时序关系组成的序列；或

所述待处理监控视频中的连续数量的视频帧包含的所述一个候选对象的头肩图像，按照所述视频帧的时序关系组成的序列。

在其中的一些实施例中，所述获取待处理监控视频中各个检测对象的头肩图像之后，还包括：

将获取的各个所述检测对象的头肩图像与各个所述检测对象的标识信息绑定；

所述基于获取的各头肩图像，确定各个所述候选对象的头肩图像序列，包括：

分别针对每个所述检测对象，进行如下操作：

确定所述检测对象的标识信息绑定的各个头肩图像；

从确定的各个头肩图像中，选取出部分或全部的头肩图像；

基于选取出的各个头肩图像所属视频帧在所述待处理监控视频中的时序关系，将所述选取出的各个头肩图像进行排序，得到排序后的各头肩图像；

将所述排序后的各头肩图像，确定为所述检测对象对应的头肩图像序列。

在其中的一些实施例中，从确定的各个头肩图像中，选取出部分或全部的头肩图像，包括：

获取训练样本集中的一个训练对象对应的头肩图像序列的长度；

根据训练样本集中的一个训练对象对应的头肩图像序列的长度，从确定的各个头肩图像中，选取出部分或全部的头肩图像，其中，所述选取出的各个头肩图像的数量与所述一个目标对应的头肩图像序列的长度一致。

在其中的一些实施例中，在将获取的各个所述检测对象的头肩图像与各个所述检测对象的标识信息绑定之前，还包括：

对所述待处理监控视频中的各个所述检测对象进行识别，确定各个所述检测对象在各帧视频帧中的位置信息；

根据各个所述检测对象在各帧所述视频帧中的位置信息，确定各个所述检测对象在各所述视频帧中的平面框，其中，所述平面框用于框定所述检测对象；

根据各个所述检测对象在各所述视频帧中的平面框，确定各个所述检测对象在前后两帧视频帧中的重叠区域，其中，所述重叠区域为各个所述检测对象在前后两帧视频帧中对应的平面框的重叠区域；

根据各个所述检测对象在前后两帧视频帧中的重叠区域，确定各个所述检测对象的标识信息。

在其中的一些实施例中，所述方法应用于目标场景，所述目标行为包括所述目标场景中使用限制物品的行为或携带限制物品的行为。

在其中的一些实施例中，所述获取待处理监控视频中各个检测对象的头肩图像，包括：

使用训练后的头肩模型检测所述待处理监控视频中的各视频帧中各个所述检测对象的头肩部位，得到各个所述检测对象对应的头肩位置的图像框；

将各个所述检测对象对应的头肩位置的图像框往外扩展第一预设值，得到各个检测对象的头肩图像。

在其中的一些实施例中，所述确定各个所述候选对象的头肩图像序列对应的行为特征，包括：

基于训练后的第二行为检测模型，对所述各个候选对象的头肩图像序列对应的行为特征进行检测，得到所述各个候选对象的头肩图像序列对应的行为特征。

在其中的一些实施例中，通过如下方式获得训练后的所述第二行为检测模型：

获取待训练监控视频中的所有视频帧，标注一个以上的第一训练对象在各个所述视频帧中对应的头肩位置，得到各个所述第一训练对象对应的头肩图像序列，其中，所述第一训练对象为具有所述目标行为的对象，各个所述第一训练对象对应的头肩图像序列长度相同；

标注一个以上的第二训练对象在各个所述视频帧中对应的头肩位置，得到各个所述第二训练对象对应的头肩图像序列，其中，所述第二训练对象为不具有所述目标行为的对象，各个所述第二训练对象对应的头肩图像序列长度与所述第一训练对象对应的头肩图像序列长度相同；

根据各个所述第一训练对象对应的头肩图像序列和各个所述第二训练对象对应的头肩图像序列，得到训练样本集，其中，所述第一训练对象对应的头肩图像序列为正样本，所述第二训练对象对应的头肩图像序列为负样本；

使用所述训练样本集训练所述第二行为检测模型，得到训练后的第二行为检测模型。

在其中的一些实施例中，所述方法还包括：

在Transformer模块之前串联卷积神经网络，构建所述第二行为检测模型。

第二个方面，在本实施例中提供了一种电子装置，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一个方面所述的行为检测方法。

第三个方面，在本实施例中提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一个方面所述的行为检测方法。

与相关技术相比，在本实施例中提供的行为检测方法、电子装置和存储介质，通过训练后的第一行为检测模型对所述各个检测对象的所述头肩图像进行对象检测，确定所述各个检测对象中的候选对象，所述候选对象包括行为与目标行为的相似度大于或者等于第一相似度阈值的检测对象；基于获取的各头肩图像，确定各个所述候选对象的头肩图像序列；确定各个所述候选对象的头肩图像序列对应的行为特征，并基于确定的各个行为特征，确定所述各个候选对象是否存在所述目标行为，本申请考虑目标行为时序上的关联性，通过各个所述候选对象的头肩图像序列对应的行为特征确定各个候选对象是否存在目标行为，解决了检测目标行为准确度不高的问题，提高了目标行为检测的准确率。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的行为检测方法的应用终端的硬件结构框图；

图2是根据本申请实施例的一种行为检测方法的流程图；

图3是根据本申请实施例的将各个检测对象的头肩图像与各个检测对象的标识信息绑定的方法流程图；

图4是根据本申请实施例的确定待处理监控视频中各个检测对象的标识信息的方法流程图；

图5是根据本申请实施例的获得训练后的第二行为检测模型的方法流程图；

图6是根据本申请实施例的另一种行为检测方法的流程图；

图7是根据本申请实施例的另一种行为检测方法的流程图；

图8是根据本申请实施例的第二行为检测模型的示意图。

具体实施方式

为更清楚地理解本申请的目的、技术方案和优点，下面结合附图和实施例，对本申请进行了描述和说明。

除另作定义外，本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制，它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体，其目的是涵盖不排他的包含；例如，包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元)，而可包括未列出的步骤或模块(单元)，或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接，而可以包括电气连接，无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。通常情况下，字信息“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等，只是对相似对象进行区分，并不代表针对对象的特定排序。

在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行，图1是根据本申请实施例的行为检测方法的应用终端的硬件结构框图。如图1所示，终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104，其中，处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述终端的结构造成限制。例如，终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示出的不同配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如在本实施例中的行为检测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中，传输设备106包括一个网络适配器(NetworkInterface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输设备106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种行为检测方法，图2是根据本申请实施例的一种行为检测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取待处理监控视频中各个检测对象的头肩图像。

在本实施例中，待处理监控视频包括多个视频帧，在各帧视频帧中可以存在多个检测对象，检测对象可以在所有视频帧中都有对应的头肩图像或者检测对象在连续多个视频帧中存在头肩图像。假设，待处理监控视频包括10个视频帧，每个视频帧中都有检测对象A和检测对象B，则检测对象A和检测对象B总共具有20帧头肩图像。

步骤S202，利用训练后的第一行为检测模型对各个检测对象的头肩图像进行对象检测，确定各个检测对象中的候选对象，候选对象包括行为与目标行为的相似度大于或者等于第一相似度阈值的检测对象。

在本实施例中，第一相似度阈值可以根据实际情况调整，这里不对第一相似度阈值的大小做限定，比如，若想准确的从各检测对象中确定候选对象，可以将第一相似度阈值设置成较大的值，比如0.9，若想从各检测对象中确定较多的候选对象，可以将第一相似度阈值设置成较大的值，比如0.6。

上述第一行为检测模型可以是目标检测网络，比如基于RCNN(RegionConvolutional Neural Networks，区域卷积神经网络)，FAST-RCNN(Fast RegionConvolutional Neural Networks，快速区域卷积神经网络)或FASTER-RCNN(FasterRegion Convolutional Neural Networks，更快速的区域卷积神经网络)构建的目标检测网络，不限于上述几种方式。任何可以从多个头肩图像中识别出可能是具有目标行为的方法均可作为第一行为检测模型，比如可以基于YOLO构建第一行为检测模型，此处不对第一行为检测模型做限定。

需要说明的是，YOLO全称You Only Look Once:Unified,Real-Time ObjectDetection，是在CVPR2016提出的一种目标检测算法，核心思想是将目标检测转化为回归问题求解，并基于一个单独的end-to-end网络，完成从原始图像的输入到物体位置和类别的输出。

此外，在现有方法中基于深度学习检测单帧的目标行为，就止于该步骤，存在无法准确的检测目标行为，基于此，本申请还有后续处理，以解决检测目标行为准确度不高的问题。

步骤S203，基于获取的各头肩图像，确定各个候选对象的头肩图像序列。

需要说明的是，头肩图像序列由多帧头肩图像组成，该多帧头肩图像时间上连续。

步骤S204，确定各个候选对象的头肩图像序列对应的行为特征，并基于确定的各个行为特征，确定各个候选对象是否存在目标行为。

可以理解地，通过训练后的第一行为检测模型对各个检测对象的头肩图像进行对象检测，确定各个检测对象中的候选对象，候选对象包括行为与目标行为的相似度大于或者等于第一相似度阈值的检测对象；基于获取的各头肩图像，确定各个候选对象的头肩图像序列；确定各个候选对象的头肩图像序列对应的行为特征，并基于确定的各个行为特征，确定各个候选对象是否存在目标行为，本申请考虑目标行为时序上的关联性，通过各个候选对象的头肩图像序列对应的行为特征确定各个候选对象是否存在目标行为，解决了检测目标行为准确度不高的问题，提高了目标行为检测的准确率。

在其中的一些实施例中，确定各个候选对象中一个候选对象的头肩图像序列包括：

待处理监控视频中的所有视频帧包含的一个候选对象的头肩图像，按照视频帧的时序关系组成的序列；或

待处理监控视频中的连续数量的视频帧包含的一个候选对象的头肩图像，按照视频帧的时序关系组成的序列。

通过上述方式，从待处理监控视频中确定各个候选对象的头肩图像序列，进一步的，确定各个候选对象的头肩图像序列对应的行为特征，并基于确定的各个行为特征，能够更加准确的确定各个候选对象是否存在目标行为。

在其中的一些实施例中，获取待处理监控视频中各个检测对象的头肩图像之后，还包括：

将获取的各个检测对象的头肩图像与各个检测对象的标识信息绑定；

假设待处理监控视频中包括10帧图像，每帧图像中有3个检测对象A、B和C，3个检测对象在每帧图像中都有对应的头肩图像，则3个检测对象在待处理监控视频中总共有30帧头肩图像，每帧头肩图像都与检测对象对应的标识信息绑定。比如，检测对象A的头肩图像与标识信息a绑定、检测对象B的头肩图像与标识信息b绑定，检测对象C的头肩图像与标识信息c绑定。

基于获取的各头肩图像，确定各个候选对象的头肩图像序列，包括：

分别针对每个检测对象，进行如下操作：

确定检测对象的标识信息绑定的各个头肩图像；

假设检测对象为B，则能够根据检测对象B的标识信息b从30张头肩图像中确定与检测对象为B对应的各个头肩图像。

从确定的各个头肩图像中，选取出部分或全部的头肩图像；

基于选取出的各个头肩图像所属视频帧在待处理监控视频中的时序关系，将选取出的各个头肩图像进行排序，得到排序后的各头肩图像；

将排序后的各头肩图像，确定为检测对象对应的头肩图像序列。

可以理解的，在本实施例中，根据在待处理视频中的时序关系，将选取出的检测对象的各个头肩图像进行排序，并将排序后的头肩图像确定为检测对象的头肩图像序列，因此，该头肩图像序列能够反应该检测对象的行为特征，即根据该检测对象的头肩图像序列能够确定该检测对象的行为特征，进一步的，根据检测对象的行为特征能够更加准确的确定存在目标行为的检测对象。

在其中的一些实施例中，该行为检测方法应用于目标场景，目标行为包括目标场景中使用限制物品的行为或携带限制物品的行为。

在本实施例中，限制物品包括香烟、电话和毒品，使用限制物品的行为包括打电话和抽烟。

若目标行为是使用限制物品的行为，假设通过训练后的第一行为检测模型从3个检测对象中确定有2个候选对象A和B，但其实检测对象B仅仅是携带限制物品的行为，并没有使用限制物品的行为，如果仅通过训练后的第一行为检测模型会将A和B都作为存在目标行为的候选对象，这样会存在错误的判断。本申请根据候选对象A和B的行为特征进一步判断是否具有目标行为，当考虑候选对象A和B的行为特征时，发现候选对象B并不是真正存在目标行为的候选对象，从而可以从候选对象A和B去除候选对象B，得到真正存在目标行为的候选对象A。

在其中的一些实施例中，图3是根据本申请实施例的将各个检测对象的头肩图像与各个检测对象的标识信息绑定的方法流程图，如图3所示，该流程包括如下步骤：

步骤S301，获取待处理监控视频中的各帧视频帧，使用训练后的头肩模型检测各帧视频帧中各检测对象的头肩部位，得到各帧视频帧中的头肩图像。

在本实施例中，上述头肩模型可以是用于检测目标所在区域的目标检测子网络，比如基于RCNN、FAST-RCNN或FASTER-RCNN构建的目标检测子网络。

但不限于上述几种方式构建头肩模型，任何可以用来识别头肩部位的方法都可以用来构建头肩模型，比如可以基于YOLO或者支持向量机(support vector machine，SVM)构建头肩模型，此处不对头肩模型做限定，再使用行人头肩图像正、负样本数据集对头肩模型进行训练，得到训练后的头肩模型。

支持向量机是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

步骤S302，对待处理监控视频中的检测对象进行识别，确定待处理监控视频中各个检测对象的标识信息，其中，待处理监控视频中的不同检测对象用不同的标识信息标识，同一检测对象在各帧图像中用同一标识信息标识。

在本实施例中，可以根据目标跟踪算法对待处理监控视频中的检测对象进行识别，确定待处理监控视频中各检测对象的标识信息。

上述目标跟踪算法包括基于生成式模型的方法、基于判别式模型的方法和基于深度学习的方法，但不限于上述几种目标跟踪算法，任何可以用来跟踪目标的算法都可以用来对待处理监控视频中的检测对象进行识别，此处不对目标跟踪算法做限定。

需要说明的是，生成式模型提取目标特征构建表观模型，在图像中搜索与模型最匹配的区域作为跟踪结果。最早的目标跟踪工作可以追溯到1981年提出的LK光流法(Hornand Schunck，1981)，它假定目标灰度在短时间内保持不变，同时目标邻域内的速度向量场变化缓慢。

与生成式模型不同的是，判别式模型同时考虑了目标和背景信息。判别式模型将跟踪问题看做分类或者回归问题，目的是寻找一个判别函数，将目标从背景中分离出来，从而实现对目标的跟踪。

基于深度学习的目标跟踪方法主要是利用深度特征强大的表征能力来实现跟踪。按照利用深度特征的方式，可分为基于预训练深度特征的跟踪和基于离线训练特征的跟踪。

步骤S303，根据各帧视频帧中的头肩图像和各个检测对象的标识信息，将头肩图像与其所属的检测对象的标识信息绑定。

在本实施例中，待处理监控视频包括多个视频帧，在每个视频帧中可能多个检测对象，每个检测对象在每个视频帧中都有对应的头肩图像，将各个检测对象的标识信息与各个检测对象的头肩图像一一对应，因此，可以根据各个检测对象的标识信息找到与各个检测对象对应的头肩图像。

通过上述步骤，对待处理监控视频中的检测对象进行识别，并将不同的检测对象在各头肩图像中用不同的标识信息标识，同一检测对象在各个头肩图像中用相同的标识信息标识，因此，可以根据各个检测对象对应的标识信息在众多头肩图像中确定与各个检测对象对应的头肩图像，能够在待处理监控视频中识别多个检测对象，从而能够在待处理监控视频中识别多个候选对象。

在其中的一些实施例中，图4是根据本申请实施例的确定待处理监控视频中各个检测对象的标识信息的方法流程图，如图4所示，该流程包括如下步骤：

步骤S401，对待处理监控视频中的各个检测对象进行识别，确定各个检测对象在各帧视频帧中的位置信息。

步骤S402，根据各个检测对象在各帧视频帧中的位置信息，确定各个检测对象在各视频帧中的平面框，其中，平面框用于框定检测对象。

步骤S403，根据各个检测对象在各视频帧中的平面框，确定各个检测对象在前后两帧视频帧中的重叠区域，其中，重叠区域为各个检测对象在前后两帧视频帧中对应的平面框的重叠区域。

步骤S404，根据各个检测对象在前后两帧视频帧中的重叠区域，确定各个检测对象的标识信息。

通过上述步骤，可以根据各个检测对象在前后两帧中重叠区域，确定前后两帧视频帧中的检测对象是否属于同一个检测对象，从而能将同一个检测对象对应的头肩图像用相同的标识信息标识，不同的检测对象对应的头肩图像用不同的标识信息标识，即能够确定各个检测对象的标识信息。

在其中一个实施例中，可以通过判断重叠区域的面积是否大于预设阈值，来确定各个检测对象的标识信息，比如，若重叠区域的面积大于预设阈值，将重叠区域对应的检测对象用相同的标识信息标识，若重叠区域的面积小于或者等于预设阈值，将重叠区域对应的检测对象在前后两帧中用不同的标识信息标识。

在本实施例中，预设阈值可以根据实际情况进行调整，此外，可根据重叠区域的面积与平面框的面积的比值确定是否为同一检测对象，比如重叠区域的面积与平面框的面积的比值大于0.8时，将重叠区域对应的检测对象用相同的标识信息标识，可以理解地，平面框为检测对象在前一帧图像的平面框或者为后一帧图像中的平面框。

通过上述步骤，根据各个检测对象在前后两帧中重叠区域的面积或者各个检测对象在前后两帧中重叠区域的比值，确定前后两帧视频帧中的检测对象是否属于同一个检测对象，从而能将同一个检测对象对应的头肩图像用相同的标识信息标识，不同的检测对象对应的头肩图像用不同的标识信息标识。

在其中的一些实施例中，获取待处理监控视频中各个检测对象的头肩图像，包括：

使用训练后的头肩模型检测待处理监控视频中的各视频帧中各个检测对象的头肩部位，得到各个检测对象对应的头肩位置的图像框；

将各个检测对象对应的头肩位置的图像框往外扩展第一预设值，得到各个检测对象的头肩图像。

通过上述方式，将各个检测对象对应的头肩位置往外扩展第一预设值，得到的头肩图像具有头肩位置附近更多的特征，从而能够更加准确的检测具有目标行为的检测对象。

在其中的一些实施例中，确定各个候选对象的头肩图像序列对应的行为特征，包括：

基于训练后的第二行为检测模型，对各个候选对象的头肩图像序列对应的行为特征进行检测，得到各个候选对象的头肩图像序列对应的行为特征。

在本实施例中，可以通过循环神经网络或者Transformer模块构建第二行为检测模型，但不限于上述两种方式构建第二行为检测模型，任何可以用来提取行为特征的方法都可以用来构建第二行为检测模型，此处不对第二行为检测模型做限定。

在其中的一些实施例中，图5是根据本申请实施例的获得训练后的第二行为检测模型的方法流程图，图5所示，该流程包括如下步骤：

步骤S501，获取待训练监控视频中的所有视频帧，标注一个以上的第一训练对象在各个视频帧中对应的头肩位置，得到各个第一训练对象对应的头肩图像序列，其中，第一训练对象为具有目标行为的对象，各个第一训练对象对应的头肩图像序列长度相同。

步骤S502，标注一个以上的第二训练对象在各个视频帧中对应的头肩位置，得到各个第二训练对象对应的头肩图像序列，其中，第二训练对象为不具有目标行为的对象，各个第二训练对象对应的头肩图像序列长度与第一训练对象对应的头肩图像序列长度相同。

步骤S503，根据各个第一训练对象对应的头肩图像序列和各个第二训练对象对应的头肩图像序列，得到训练样本集，其中，第一训练对象对应的头肩图像序列为正样本，第二训练对象对应的头肩图像序列为负样本。

步骤S504，使用训练样本集训练第二行为检测模型，得到训练后的第二行为检测模型。

通过上述步骤，训练后的第二行为检测模型是根据各个第一训练对象对应的头肩图像序列和各个第二训练对象对应的头肩图像序列训练得到的，因此，训练后的第二行为检测模型能够根据检测对象的行为特征判断是否存在目标行为，实现了更加准确的确定存在目标行为的检测对象。

根据训练样本集中的一个训练对象对应的头肩图像序列的长度，从确定的各个头肩图像中，选取出部分或全部的头肩图像，其中，选取出的各个头肩图像的数量与一个目标对应的头肩图像序列的长度一致。

通过上述方式，选取出的各个头肩图像的数量与训练样本集中的一个目标对应的头肩图像序列的长度一致，即检测对象对应的头肩图像序列长度与训练样本集中的头肩图像序列长度一致，需要说明的是，训练样本集中的头肩训练长度决定第二行为检测模型中待训练的参数个数，因此，训练后的第二行为检测模型中的参数个数固定，检测对象对应的头肩图像序列长度需要与训练样本集中的头肩图像序列长度一致，这样训练后的第二行为检测模型才能更好的提取各检测对象的行为特征，从而能够更加准确的确定存在目标行为的检测对象。

在其中的一些实施例中，循环神经网络或者Transformer模块构建第二行为检测模型。

需要说明的是，循环神经网络(Recurrent Neural Network，RNN)是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network)。

循环神经网络具有记忆性、参数共享并且图灵完备(Turing completeness)，因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理(NaturalLanguage Processing,NLP)，例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。

Transformer抛弃了传统的RNN和CNN，首先它使用了Attention机制，将序列中的任意两个位置之间的距离是缩小为一个常量；其次它不是类似RNN的顺序结构，因此具有更好的并行性，有效的解决了NLP中棘手的长期依赖问题。

通过上述方式，构建的第二行为检测模型能够提取检测对象的行为特征，从而能够根据检测对象的行为特征判断检测对象是否存在目标行为，实现了更加准确的确定存在目标行为的检测对象。

在其中的一些实施例中，本申请还提出一种降低耗时的方法，若基于Transformer模块构建第二行为检测模型，在Transformer模块之前串联卷积神经网络。

通过上述方式，在Transformer模块之前串联的卷积神经网络具有下采样，下采样可以降低输入的头肩图像分辨率，而transformer的耗时与图像分辨率成平方的关系，因此，在Transformer模块之前串联卷积神经网络能够降低第二行为检测模型的训练时间和检测时间。

图6是根据本申请实施例的另一种行为检测方法的流程图，如图6所示，该流程包括如下步骤：

步骤S601，使用训练后的头肩模型检测待处理监控视频中的各视频帧中各个检测对象的头肩部位，得到各个检测对象对应的头肩位置的图像框。

步骤S602，将各个检测对象对应的头肩位置的图像框往外扩展第一预设值，得到各个检测对象的头肩图像。

步骤S603，将获取的各个检测对象的头肩图像与各个检测对象的标识信息绑定。

步骤S604，利用训练后的第一行为检测模型对各个检测对象的头肩图像进行对象检测，确定各个检测对象中的候选对象，候选对象包括行为与目标行为的相似度大于或者等于第一相似度阈值的检测对象。

步骤S605，基于获取的各头肩图像，确定各个候选对象的头肩图像序列。

步骤S606，基于训练后的第二行为检测模型，对各个候选对象的头肩图像序列对应的行为特征进行检测，得到各个候选对象的头肩图像序列对应的行为特征。

步骤S607，基于各个候选对象的头肩图像序列对应的行为特征，确定各个候选对象是否存在目标行为。

可以理解地，通过训练后的第一行为检测模型对头肩图像进行检测，确定待处理监控视频中的候选对象，再通过训练后的第二行为检测模型对候选对象对应的头肩图像序列的行为特征进行检测，确定各个候选对象是否存在目标行为，本申请考虑目标行为时序上的关联性，通过训练后的第二行为检测模型从候选对象中筛选出的真正具有目标行为的检测对象，解决了检测目标行为准确度不高的问题，提高了目标行为检测的准确率。

图7是根据本申请实施例的另一种行为检测方法的流程图，如图7所示，该流程包括如下步骤：

步骤S701，使用YOLO检测框架构建头肩模型，采集各种场景下的头肩图像并对其标注，得到头肩模型的训练样本集，使用训练样本集对头肩模型进行训练，得到训练后的头肩模型。

步骤S702，获取待处理监控视频中的每一帧图像，使用训练后的头肩模型检测每一帧图像中各检测对象的头肩部位，得到各检测对象的头肩图像。

步骤S703，使用跟踪算法对每一个检测对象进行ID绑定，使得每一个检测对象都有一个固定的ID，将每个检测对象的ID与其所属的头肩图像进行绑定，得到绑定后的头肩图像。

在本实施例中，每一个头肩图像都有其对应的检测对象ID号，且前后帧之间同一个检测对象对应的头肩图像ID相同。

步骤S704，使用YOLO检测框架构建第一行为检测模型，采集各种场景下的具有目标行为的图像并对其标注，得到第一行为检测模型的训练样本集，使用训练样本集对第一行为检测模型进行训练，得到训练后的第一行为检测模型。

步骤S705，训练后的第一行为检测模型对绑定后的头肩图像进行打电话检测，初步确定具有目标行为的检测对象对应的ID。

步骤S706，根据具有目标行为的检测对象对应的ID，在绑定后的头肩图像中查找与目标头肩图像序列。

在本实施例中，目标头肩图像序列是与步骤S705中的ID对应的头肩图像序列，目标头肩图像序列与训练样本集中的头肩图像序列的长度一致。

步骤S707，根据ResNeXt网络和Transformer模块构建第二行为检测模型。

需要说明的是，ResNext同时采用VGG堆叠思想和Inception的split-transform-merge思想，但是比起Inception可扩展性很强，可以认为是在增加准确率的同时基本不改变或降低模型的复杂度。

在本实施例中，图8是根据本申请实施例的第二行为检测模型的示意图，如图8所示，FF(feedforward neural network，前馈神经网络)，Norm表示，归一化函数，Multi-HeadAttention表示多头注意力机制，ResNeXt网络与Transformer模块串联得到第二行为检测模型。

步骤S708，构建目标行为的时序训练集，使用时序训练集训练第二行为检测模型，得到训练后的第二行为检测模型。

步骤S709，利用训练后的第二行为检测模型对目标头肩图像序列的行为特征进行检测，确定待处理监控视频中具有目标行为的检测对象，并在具有目标行为的检测对象上进行报警。

在本实施例中，将目标头肩图像序列中的头肩图像裁剪至224×224像素后，经过ResNeXt网络提取特征并降采样至28×28像素后，输入Transformer模块。

可以理解地，通过第一行为检测模型能够初步确定具有目标行为的检测对象，再将初步确定具有目标行为的检测对象对应的头肩图像序列输入第二行为检测模型，筛选出的具有目标行为的检测对象，本申请考虑目标行为时序上的关联性，通过训练后的第二行为检测模型从初步确定具有目标行为的检测对象中筛选出的真正具有目标行为的检测对象，解决了检测目标行为准确度不高的问题，提高了目标行为检测的准确率。

在本实施例中还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

获取待处理监控视频中各个检测对象的头肩图像。

利用训练后的第一行为检测模型对各个检测对象的头肩图像进行对象检测，确定各个检测对象中的候选对象，候选对象包括行为与目标行为的相似度大于或者等于第一相似度阈值的检测对象。

基于获取的各头肩图像，确定各个候选对象的头肩图像序列。

确定各个候选对象的头肩图像序列对应的行为特征，并基于确定的各个行为特征，确定各个候选对象是否存在目标行为。

需要说明的是，在本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，在本实施例中不再赘述。

此外，结合上述实施例中提供的行为检测方法，在本实施例中还可以提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意一种行为检测方法。

应该明白的是，这里描述的具体实施例只是用来解释这个应用，而不是用来对它进行限定。根据本申请提供的实施例，本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例，均属本申请保护范围。

显然，附图只是本申请的一些例子或实施例，对本领域的普通技术人员来说，也可以根据这些附图将本申请适用于其他类似情况，但无需付出创造性劳动。另外，可以理解的是，尽管在此开发过程中所做的工作可能是复杂和漫长的，但是，对于本领域的普通技术人员来说，根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段，不应被视为本申请公开的内容不足。

“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例，也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是，本申请中描述的实施例在没有冲突的情况下，可以与其它实施例结合。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对专利保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种行为检测方法，其特征在于，包括：

获取待处理监控视频中各个检测对象的头肩图像；

2.如权利要求1所述的行为检测方法，其特征在于，确定各个候选对象中一个候选对象的所述头肩图像序列包括：

3.根据权利要求1所述的行为检测方法，其特征在于，所述获取待处理监控视频中各个检测对象的头肩图像之后，还包括：

分别针对每个所述检测对象，进行如下操作：

确定所述检测对象的标识信息绑定的各个头肩图像；

从确定的各个头肩图像中，选取出部分或全部的头肩图像；

4.根据权利要求3所述的行为检测方法，其特征在于，从确定的各个头肩图像中，选取出部分或全部的头肩图像，包括：

5.根据权利要求3所述的行为检测方法，其特征在于，在将获取的各个所述检测对象的头肩图像与各个所述检测对象的标识信息绑定之前，还包括：

6.如权利要求1所述的行为检测方法，其特征在于，所述方法应用于目标场景，所述目标行为包括所述目标场景中使用限制物品的行为或携带限制物品的行为。

7.根据权利要求1所述的行为检测方法，其特征在于，所述获取待处理监控视频中各个检测对象的头肩图像，包括：

8.如权利要求1所述的行为检测方法，其特征在于，所述确定各个所述候选对象的头肩图像序列对应的行为特征，包括：

9.根据权利要求8中所述的行为检测方法，其特征在于，通过如下方式获得训练后的所述第二行为检测模型：

10.根据权利要求8或9所述的行为检测方法，其特征在于，所述方法还包括：

11.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至10中任一项所述的行为检测方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的行为检测方法的步骤。