CN116580456A

CN116580456A - 行为检测方法、装置、计算机设备和存储介质

Info

Publication number: CN116580456A
Application number: CN202310532783.7A
Authority: CN
Inventors: 杨恒; 郑影; 李志涛; 王湾湾; 王杨俊杰; 杨艳鑫
Original assignee: Zhongdian Jinxin Software Co Ltd
Current assignee: Zhongdian Jinxin Software Co Ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-08-11

Abstract

本申请涉及一种行为检测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：将待检测图像输入至行为检测模型中，通过行为检测模型的特征提取层中的初始特征提取模块对待检测图像进行初始特征提取，得到初始特征图，并通过特征提取层对待检测图像进行全局特征提取，得到全局特征的特征图；通过行为检测模型中的跨层融合结构，将初始特征图和特征图进行特征融合，得到目标特征图；对目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像；根据标定图像中标定框的标签和标定框间的位置关系，对标定图像中进行行为检测，确定标定图像中的行为结果。采用本方法能够提高行为检测方法的检测结果的准确率。

Description

行为检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像识别技术领域，特别是涉及一种行为检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着人工智能机器学习技术的发展，人们逐渐使用人工智能机器学习技术中的图像识别技术来自动检测特殊环境的安全情况。在加油站或能源园区等场景中，条例法规对于人员安全的管控越来越严格，因此，对于特殊环境中的人员违规行为，需要使用图像识别来进行检测与监控。

传统技术中，通过目标检测算法对目标场景中的人员违规行为进行检测，常规的目标检测算法有SSD、YOLO等技术，直接对待检测图像中的人员进行违规行为的识别。具体为对图像中的违规物品进行检测，当识别出存在违规物品时，确定图像中的人员存在违规行为。

然而，在进行违规行为的检测过程中，图像中包含的违规物品(例如，手机、香烟等)目标较小，使用目前的目标检测算法，违规行为检测的准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种行为检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种行为检测方法。所述方法包括：

将待检测图像输入至行为检测模型中，通过所述行为检测模型的特征提取层中的初始特征提取模块对所述待检测图像进行初始特征提取，得到初始特征图，并通过所述特征提取层对所述待检测图像进行全局特征提取，得到全局特征的特征图；

通过所述行为检测模型中的跨层融合结构，将所述初始特征图和所述特征图进行特征融合，得到目标特征图；

对所述目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像；

根据所述标定图像中标定框的标签和标定框间的位置关系，对所述标定图像中进行行为检测，确定所述标定图像中的行为结果。

在其中一个实施例中，所述将待检测图像输入至行为检测模型中，通过所述行为检测模型的特征提取层中的初始特征提取模块对所述待检测图像进行初始特征提取，得到初始特征图之前，所述方法还包括：

获取初始行为检测模型；所述初始行为检测模型中包含初始特征提取模块、特征提取聚合模块和输出模块；

根据所述初始行为检测模型中初始特征提取模块包含的各卷积模块的元素信息，在所述各卷积模块中确定目标卷积模块；

将所述目标卷积模块对应输出层的输出维度通道与所述特征提取聚合模块对应输出层的输出维度通道保持相同，完成所述目标卷积模块与所述特征提取聚合模块进行融合，得到跨层融合结构，并将具有所述跨层融合结构的所述初始行为检测模型作为行为检测模型。

在其中一个实施例中，所述对所述目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像，包括：

对所述目标特征图进行坐标变换，并获取坐标变换后所述目标特征图中目标对象的多个坐标；

根据所述目标对象的坐标、所述坐标的置信度以及所述坐标对应的初始标定框，将满足置信度条件的初始标定框作为所述目标对象对应的标定框，输出携带标定框的标定图像。

在其中一个实施例中，所述根据所述目标对象的坐标、所述坐标的置信度以及所述坐标对应的初始标定框，将满足置信度条件的初始标定框作为所述目标对象对应的标定框，包括：

根据所述目标对象对应的每个所述坐标，确定每个所述坐标对应的初始标定框；

根据非极大值抑制方法与每个所述坐标的置信度，在每个所述坐标对应的所述初始标定框中确定目标标定框，将所述目标标定框作为所述目标对象对应的标定框。

在其中一个实施例中，所述标定图像中标定框的标签包括第一对象标签、第二对象标签与第三对象标签；所述根据所述标定图像中标定框的标签和标定框间的位置关系，对所述标定图像中进行行为检测，确定所述标定图像中的行为结果，包括：

检测所述标定图像中存在的标定框的标签；

当所述标定图像中标定框的标签包括第一对象标签时，确定所述标定图像中的行为结果为存在违规行为；

当所述标定图像中标定框的标签不包括第一对象标签时，根据所述第二对象标签对应的标定框与所述第三对象标签对应的标定框之间的位置关系，确定所述标定图像中的行为结果。

在其中一个实施例中，所述当所述标定图像中标定框的标签不包括第一对象标签时，根据所述第二对象标签对应的标定框与所述第三对象标签对应的标定框之间的位置关系，确定所述标定图像中的行为结果，包括：

当所述标定图像中标定框的标签不包括第一对象标签时，根据所述第三对象标签对应的标定框在所述第二对象标签对应的标定框内部的位置关系，确定所述标定图像中的行为结果为存在违规行为；

根据所述第三对象标签对应的标定框在所述第二对象标签对应的标定框外部或与所述第二对象标签对应的标定框相接的位置关系，基于所述第二对象标签对应的标定框与所述第三对象标签对应的标定框的相对距离与预设阈值，确定所述标定图像中的行为结果。

在其中一个实施例中，所述根据所述第三对象标签对应的标定框在所述第二对象标签对应的标定框外部或与所述第二对象标签对应的标定框相接的位置关系，基于所述第二对象标签对应的标定框与所述第三对象标签对应的标定框的相对距离与预设阈值，确定所述标定图像中的行为结果，包括：

若所述第二对象标签对应的标定框与所述第三对象标签对应的标定框的相对距离小于或等于预设阈值，则确定所述标定图像中的行为结果为存在违规行为；

若当所述第二对象标签对应的标定框与所述第三对象标签对应的标定框的相对距离大于预设阈值，则确定所述标定图像中的行为结果为不存在违规行为。

第二方面，本申请还提供了一种行为检测模型的训练方法。所述方法包括：

获取样本图像以及所述样本图像对应的行为检测模型；所述样本图像包括样本类别标签与样本标注框；

将所述样本图像输入至行为检测模型中，通过所述行为检测模型的特征提取层中的初始特征提取模块对所述样本图像进行初始特征提取，得到初始特征图，并通过所述特征提取层对所述样本图像进行全局特征提取，得到全局特征的特征图；

根据所述样本标签以及所述携带标定框的标定图像确定所述行为检测模型的目标损失，当所述目标损失满足预设训练条件时，得到训练后的行为检测模型。

在其中一个实施例中，所述根据所述样本标签以及所述携带标定框的标定图像确定所述行为检测模型的目标损失，包括：

根据所述样本类别标签与所述标定图像中的分类结果确定所述行为检测模型的分类损失；

根据所述样本标注框与所述标定图像中的所述标定框确定回归损失与置信度损失，将所述分类损失、所述回归损失与所述置信度损失作为目标损失。

第三方面，本申请还提供了一种行为检测装置。所述装置包括：

第一特征提取模块，用于将待检测图像输入至行为检测模型中，通过所述行为检测模型的特征提取层中的初始特征提取模块对所述待检测图像进行初始特征提取，得到初始特征图，并通过所述特征提取层对所述待检测图像进行全局特征提取，得到全局特征的特征图；

第一特征融合模块，用于通过所述行为检测模型中的跨层融合结构，将所述初始特征图和所述特征图进行特征融合，得到目标特征图；

第一标定模块，用于对所述目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像；

第一确定模块，用于根据所述标定图像中标定框的标签和标定框间的位置关系，对所述标定图像中进行行为检测，确定所述标定图像中的行为结果。

在其中一个实施例中，所述装置还包括：

第一获取模块，用于获取初始行为检测模型；所述初始行为检测模型中包含初始特征提取模块、特征提取聚合模块和输出模块；

第二确定模块，用于根据所述初始行为检测模型中初始特征提取模块包含的各卷积模块的元素信息，在所述各卷积模块中确定目标卷积模块；

模型融合模块，用于将所述目标卷积模块对应输出层的输出维度通道与所述特征提取聚合模块对应输出层的输出维度通道保持相同，完成所述目标卷积模块与所述特征提取聚合模块进行融合，得到跨层融合结构，并将具有所述跨层融合结构的所述初始行为检测模型作为行为检测模型。

在其中一个实施例中，所述第一标定模块具体用于：

在其中一个实施例中，所述第一标定模块，具体用于：

在其中一个实施例中，所述第一确定模块，具体用于：

检测所述标定图像中存在的标定框的标签；

在其中一个实施例中，所述第一确定模块，具体用于：

第四方面，本申请还提供了一种行为检测模型的训练装置。所述装置包括：

第二获取模块，用于获取样本图像以及所述样本图像对应的行为检测模型；所述样本图像包括样本类别标签与样本标注框；

第二特征提取模块，用于将所述样本图像输入至行为检测模型中，通过所述行为检测模型的特征提取层中的初始特征提取模块对所述样本图像进行初始特征提取，得到初始特征图，并通过所述特征提取层对所述样本图像进行全局特征提取，得到全局特征的特征图；

第二特征融合模块，用于通过所述行为检测模型中的跨层融合结构，将所述初始特征图和所述特征图进行特征融合，得到目标特征图；

第二标定模块，用于对所述目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像；

迭代模块，根据所述样本标签以及所述携带标定框的标定图像确定所述行为检测模型的目标损失，当所述目标损失满足预设训练条件时，得到训练后的行为检测模型。

在其中一个实施例中，所述迭代模块具体用于：

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

检测所述标定图像中存在的标定框的标签；

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的方法的步骤。

第七方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面所述的方法的步骤。

上述行为检测方法、装置、计算机设备、存储介质和计算机程序产品，通过行为检测模型中的特征提取层进行特征提取，得到初始特征图与全局特征的特征图，基于跨层融合结构将初始特征图与全局特征的特征图进行融合，得到目标特征图，通过目标特征图进行行为检测，可以增大行为检测模型针对特定目标的感受野，提高行为检测模型对特定目标的检测精度，并根据标定框间的位置关系，可以增大目标行为对象在待检测图像中的占比，提高了行为检测模型的检测结果的准确率，提高行为检测的准确度。

附图说明

图1为一个实施例中行为检测方法的流程示意图；

图2为一个实施例中方法的流程示意图；

图3为一个实施例中行为检测模型的部分结构示意图；

图4为一个实施例中标定处理步骤的流程示意图；

图5为一个实施例中确定标定框的流程示意图；

图6为一个实施例中根据标定框标签确定行为检测结果方法的流程示意图；

图7为一个实施例中根据标定框间位置关系确定行为检测结果方法的流程示意图；

图8为一个实施例中根据标定框间相对距离确定行为检测结果方法的流程示意图；

图9为一个实施例中行为检测模型的训练方法的流程示意图；

图10为一个实施例中确定目标损失方法的流程示意图；

图11为一个实施例中行为检测装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种行为检测方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，将待检测图像输入至行为检测模型中，通过行为检测模型的特征提取层中的初始特征提取模块对待检测图像进行初始特征提取，得到初始特征图，并通过特征提取层对待检测图像进行全局特征提取，得到全局特征的特征图。

其中，行为检测模型包括特征提取层，特征提取层包括初始特征提取模块。

其中，初始特征图为待检测图像中对目标特征具有针对性的特征图；全局特征的特征图(后续实施例中简称为特征图)为表征待检测图像整体特征的特征图。

本申请实施例中，行为检测模型可以部署于中央监控系统的终端中，与中央监控系统联动，进行实时视频流的分析，其中，中央监控系统的终端可以包括接收实时监控视频流的终端，例如，与各监控设备相连接的计算机终端设备，该计算机终端设备具有已部署的行为检测模型。终端实时获取中央监控系统中的监控视频流，然后，终端在监控视频流中的实时视频数据中抽取每一帧视频图像，作为待检测图像，以实时视频数据中的每一帧视频图像的其中一帧为例进行说明，终端将待检测图像输入至行为检测模型中，行为检测模型的特征提取层中的初始特征提取模块对该待检测图像进行初始特征提取，得到包含目标特征的初始特征图，该目标特征可以为在该待检测图像的分辨率中，像素占比较少(满足预设比例条件)的目标的特征，即该目标特征可以为待检测图像中的小目标(hard case)对应的特征。同时，终端根据特征提取层可以对该待检测图像进行全局特征提取，得到该待检测图像整体特征的特征图。

可选的，除了对实时视频数据进行行为检测之外，本申请的行为检测模型还可以应用于对历史视频数据进行行为检测，其检测过程与实时视频流的检测过程相同，在此不再赘述。

步骤104，通过行为检测模型中的跨层融合结构，将初始特征图和特征图进行特征融合，得到目标特征图。

本申请实施例中，行为检测模型可以为yolov7(一种目标检测模型)模型架构，终端根据行为检测模型中的跨层融合结构将对目标特征(即在该待检测图像的分辨率中，像素占比较少的目标)具有针对性的初始特征图，与具有待检测图像整体特征的特征图进行融合，得到更能体现目标特征的目标特征图。

可选的，终端可以根据跨层融合结构得到具有不同针对性的第一初始特征图、第二初始特征图与特征图进行融合，得到目标特征图，该目标特征图具有第一初始特征图所表征的特定目标的特征与第二初始特征图所表征的特定目标的特征，即本申请对于目标特征对应的初始特征图的数目和具体特征内容不做限定。

步骤106，对目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像。

本申请实施例中，终端对目标特征图中目标对象的特征信息进行坐标转换，得到转换后目标对象的特征信息对应的坐标，同时，终端根据转换后的特征信息对应的坐标进行目标对象的标定处理，得到目标特征图中对所有具有目标对象的特征信息标定框的标定图像，并将该标定图像进行输出。例如，在加油站等目标场景下，人员的打电话行为被视为违规行为，终端可以对目标特征图中“打电话”行为的特征信息进行坐标转换，得到目标特征图中具有“打电话”行为的特征信息进行标定处理，得到标定“打电话”行为的标定图像，并将该标定图像进行输出。

步骤108，根据标定图像中标定框的标签和标定框间的位置关系，对标定图像中进行行为检测，确定标定图像中的行为结果。

本申请实施例中，终端可以根据标定图像中标定框的标签信息，对标定图像进行行为检测，确定标定图像中的行为结果，同时，在目标条件下，终端可以根据标定图像中标定框的标签和标定框间的位置关系，对标定图像中进行行为检测，确定标定图像中的行为结果。具体的，当标定图像中检测到标定框的标签满足检测到目标标签的条件时，终端根据标定图像中标定框的标签信息确定标定图像中的行为结果，当标定图像中检测到标定框的标签不满足检测到目标标签的条件时，终端根据标定图像中标定框的标签信息与标定图像中标定框间的位置关系，确定标定图像中的行为结果。

上述行为检测方法中，通过行为检测模型中的特征提取层进行特征提取，得到初始特征图与全局特征的特征图，基于跨层融合结构将初始特征图与全局特征的特征图进行融合，得到目标特征图，对目标特征图进行目标行为的行为检测，可以增大行为检测模型针对特定目标的感受野，提高行为检测模型对特定目标的检测精度，并根据标定框间的位置关系，可以增大目标行为对象在待检测图像中的占比，提高了行为检测模型针对目标行为的检测结果的准确率，提高行为检测模型的准确度。

在一个实施例中，如图2所示，步骤102将待检测图像输入至行为检测模型中，通过行为检测模型的特征提取层中的初始特征提取模块对待检测图像进行初始特征提取，得到初始特征图之前，该方法还包括：

步骤202，获取初始行为检测模型。

其中，初始行为检测模型中包含初始特征提取模块、特征提取聚合模块和输出模块。

本申请实施例中，终端获取初始行为检测模型，该初始行为检测模型可以为目标检测模型，例如yolo(一种目标检测模型)模型或R-CNN(基于卷积神经网络的目标检测模型)模型等。

步骤204，根据初始行为检测模型中初始特征提取模块包含的各卷积模块的元素信息，在各卷积模块中确定目标卷积模块。

其中，初始行为检测模型的特征提取层包括初始特征提取模块，初始特征提取模块包含多个卷积模块。

本申请实施例中，终端根据初始行为检测模型的初始特征提取模块中各卷积模块的元素信息，在各卷积模块中确定出一个目标卷积模块。具体的，包含不同卷积核个数的卷积模块对不同特定目标具有不同的感受野，根据特定目标的特征，终端在初始特征提取模块的各卷积模块中确定出具有针对该特定目标对应的感受野的卷积模块，并将此卷积模块作为目标卷积模块。

可选的，终端还可以根据初始特征提取模块中各卷积模块的元素信息，确定出多个目标卷积模块，本申请实施例对于目标卷积模块的个数不做限定。

步骤206，将目标卷积模块对应输出层的输出维度通道与特征提取聚合模块对应输出层的输出维度通道保持相同，完成目标卷积模块与特征提取聚合模块进行融合，得到跨层融合结构，并将具有跨层融合结构的初始行为检测模型作为行为检测模型。

本申请实施例中，终端将目标卷积模块对应输出层的输出维度通道与特征提取聚合模块对应输出层的输出通道维度保持相同，具体的，终端可以将特征提取聚合模块对应输出层的维度通道进行缩放，使该特征提取聚合模块对应输出层的维度通道与目标卷积模块对应输出层的输出维度通道保持相同。然后，终端将具有相同维度通道的目标卷积模块与特征提取聚合模块进行融合，得到跨层融合结构，并将具有该跨层融合结构的初始行为检测模型作为行为检测模型。

例如，以初始行为检测模型为yolov7模型结构为例进行说明，如图3所示，终端可以通过跨层融合结构(即图3中的“Concat”)将第二个卷积模块(即图3中第二个“Conv”)与第二个特征提取聚合模块(即图3中最左侧流程中的第二个“ELAN1”)进行融合，得到跨层融合结构，并将具有跨层融合结构的初始行为检测模型作为行为检测模型。

本实施例中，通过将初始行为检测模型的目标卷积模块与特征提取聚合模块进行融合，可以增大行为检测模型对特定目标的感受野，提高行为检测模型做特定目标的检测精度，从而提高行为检测模型针对目标行为检测的准确度。

在一个实施例中，如图4所示，步骤106对目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像，包括：

步骤402，对目标特征图进行坐标变换，并获取坐标变换后目标特征图中目标对象的多个坐标。

本申请实施例中，目标特征图的特征信息包含多个区域，每个区域中包含一种类型的对象特征，终端根据目标特征图中的特征信息，将目标特征图中的特征信息转换为目标特征图中目标对象对应区域的坐标信息，根据该坐标信息，终端可以得到目标特征图中具有该目标对象的多个区域对应的坐标。

步骤404，根据目标对象的坐标、坐标的置信度以及坐标对应的初始标定框，将满足置信度条件的初始标定框作为目标对象对应的标定框，输出携带标定框的标定图像。

本申请实施例中，终端先基于目标特征图中目标对象的坐标，确定该目标对象的每个坐标对应的多个初始标定框，其中，行为检测模型可以计算并得到目标对象的每个初始坐标框对应的坐标的置信度，同时根据预设的置信度筛选条件，在目标对象对应的每个初始坐标框中确定出满足置信度条件的一个或多个初始标定框，将此初始标定框确定为该目标对象对应的标定框，并将携带目标对象对应的标定框的标定图像输出，后续针对标定图进行目标行为的行为检测。

具体的，以违规行为检测为例进行说明，在加油站等目标场景下，人员的打电话行为被视为违规行为。本实施例中针对该违规行为确定出的目标对象可以包括第一目标对象、第二目标对象与第三目标对象，其中，第一目标对象可以为行为检测模型根据违规行为(打电话)为特征，识别待检测图像中存在“打电话”行为的区域，并得到第一目标对象对应的坐标；同理，第二目标对象可以为行为检测模型识别的待检测图像中人员的头部，并得到第二目标对象对应的坐标；第三目标特征可以为行为检测模型识别的待检测图像中违规物品(例如“手机”)，并得到第三目标对象对应的坐标。终端根据得到的第一目标对象、第二目标对象与第三目标对象对应的坐标确定出第一目标对象对应的多个初始坐标框、第二目标对象对应的多个初始坐标框以及第三目标对象对应的多个初始坐标框，并根据预设的置信度筛选条件(例如，置信度筛选条件为满足预设置信度阈值)，确定出第一目标对象对应的标定框、第二目标对象对应的标定框与第三目标对象对应标定框。终端根据行为检测模型将携带三个目标对象分别对应的标定框的标定图像进行输出。

本实施例中，通过对目标特征图进行坐标转换和标定处理，能够得到目标对象对应的标定框，根据携带标定框的标定图像进行待测图像的行为检测，可以提高行为检测方法的准确度。

在一个实施例中，如图5所示，步骤404根据目标对象的坐标、坐标的置信度以及坐标对应的初始标定框，将满足置信度条件的初始标定框作为目标对象对应的标定框，包括：

步骤502，根据目标对象对应的每个坐标，确定每个坐标对应的初始标定框。

其中，目标对象的坐标包括目标对象的坐标中心点，目标对象区域的宽和高。

本申请实施例中，终端根据行为检测模型在待检测图像的目标特征图中得到具有目标对象特征的各个区域，根据各个区域中目标对象的坐标中心点以及目标对象区域的宽和高，确定出目标对象对应的多个初始标定框。

步骤504，根据非极大值抑制方法与每个坐标的置信度，在每个坐标对应的初始标定框中确定目标标定框，将目标标定框作为目标对象对应的标定框。

本申请实施例中，目标对象的每个坐标具有对应的置信度，终端根据非极大值抑制方法以及目标对象的每个坐标对应的置信度，在多个目标对象的初始标定框中，确定出目标对象的目标标定框，作为该目标对象的标定框。具体的，终端根据各初始标定框的置信度对此多个初始标定框进行排序，基于排序结果选择出一个置信度最大的初始标定框作为候选标定框，然后将其他初始标定框与此候选标定框进行重叠度计算，将重叠度大于预设阈值的其他初始标定框进行消除，然后，在剩余初始标定框中重复执行上述对初始标定框进行筛选的操作，直至没有剩余的初始标定框，则将候选标定框作为目标标定框。

本实施例中，通过对目标对象的初始标定框进行筛选，能够得到目标对象对应的标定框，根据携带目标对象的标定框的标定图像进目标行行为的检测，可以提高行为检测方法的准确度。

在一个实施例中，如图6所示，步骤108根据标定图像中标定框的标签和标定框间的位置关系，对标定图像中进行行为检测，确定标定图像中的行为结果，包括：

步骤602，检测标定图像中存在的标定框的标签。

其中，标定图像中标定框的标签包括第一对象标签、第二对象标签与第三对象标签。

本申请实施例中，终端对标定图像进行标定框标签的存在情况进行检测，标定图像中的标定框标签的存在情况可以为第一对象标签、第二对象标签和第三对象标签都存在的情况，也可以为存在第一对象标签，不存在第二对象标签或不存在第三对象标签；不存在第一对象标签，存在第二对象标签和第三对象标签；不存在第一对象标签，存在第二对象标签、第三对象标签中的其中一个；第对象标签、第二对象标签、第三对象标签都不存在的情况。

步骤604，当标定图像中标定框的标签包括第一对象标签时，确定标定图像中的行为结果为存在违规行为。

本申请实施例中，当终端对标定图像中标定框标签的存在情况为存在第一对象标签的情况下，说明行为检测模型在待检测图像的特征图中能够识别到第一目标对象的特征，能够直接确定待检测图像中的行为结果，因此，终端在确定第一对象标签存在的情况下，确定标定图像的行为结果为存在违规行为。

步骤606，当标定图像中标定框的标签不包括第一对象标签时，根据第二对象标签对应的标定框与第三对象标签对应的标定框之间的位置关系，确定标定图像中的行为结果。

本申请实施例中，当终端对标定图像中标定框标签的存在情况为不存在第一对象标签的情况下，说明行为检测模型在待检测图像的特征图中未识别到第一目标对象的特征，终端则针对第二对象标签对应的标定框与第三对象标签对应的标定框之间的位置关系，确定标定图像中的行为结果。

具体的，以违规行为检测为例进行说明，在加油站等目标场景下，人员的打电话行为被视为违规行为。当终端未检测到第一目标对象的特征，即“打电话”行为的特征，终端可以根据第二对象标签(人员头部)与第三对象标签(违规物品，例如“手机”)的位置关系，确定出待检测图像的行为检测结果。

本实施例中，通过不同目标对象的标签的存在情况确定待检测图像的行为检测结果，并在特定条件下根据不同目标对象标签对应的标定框的位置关系确定行为检测结果，可以提高行为检测方法针对特殊情况的灵活性，能够避免特殊情况下行为检测模型的误判状况，提高行为检测方法的准确度。

在一个实施例中，如图7所示，步骤606当标定图像中标定框的标签不包括第一对象标签时，根据第二对象标签对应的标定框与第三对象标签对应的标定框之间的位置关系，确定标定图像中的行为结果，包括：

步骤702，当标定图像中标定框的标签不包括第一对象标签时，根据第三对象标签对应的标定框在第二对象标签对应的标定框内部的位置关系，确定标定图像中的行为结果为存在违规行为。

其中，第二对象标签对应的坐标框与第三对象标签对应的坐标框的位置关系包括第三对象标签对应的坐标框在第二对象标签对应的坐标框的外部、第三对象标签对应的坐标框在第二对象标签对应的坐标框的内部和第三对象标签对应的坐标框与第二对象标签对应的坐标框相接。

本申请实施例中，当标定图像中标定框的标签不包括第一对象标签时，同时标定图像中标定框标签的存在情况为存在第二对象标签和第三对象标签，终端根据第三对象标签对应的标定框在第二对象标签对应的标定框内部的位置关系，确定标定图像中的行为结果为存在违规行为。具体的，当标定图像中标定框标签的存在情况为不存在第一对象标签(“打电话”行为标签)，存在第二对象标签(人员头部标签)、第三对象标签(违规物品标签，例如“手机”)，同时第三对象标签对应的标定框在第二对象标签对应的标定框内部，则终端确认标定图像中的行为结果存在违规行为。

步骤704，根据第三对象标签对应的标定框在第二对象标签对应的标定框外部或与第二对象标签对应的标定框相接的位置关系，基于第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离与预设阈值，确定标定图像中的行为结果。

本申请实施例中，当标定图像中标定框的标签只存在第二对象标签与第三对象标签，同时第三对象标签对应的标定框在第二对象标签对应的标定框的外部或与第二对象标签对应的标定框相接，终端可以计算第二对象标签对应的标定框与第三对象标签对应的标定框标签的相对距离，根据该相对距离与预设阈值的关系，确定标定图像中的行为结果。

本实施例中，通过根据第二对象标签对应的标定框与第三对象标签对应的标定框不同的位置关系，确定标定图像中的行为结果，能够增大检测违规行为所需特征在待检测图像中的占比，同时可以提高行为检测方法的灵活性，提高行为检测方法的准确度。

在一个实施例中，如图8所示，步骤704根据第三对象标签对应的标定框在第二对象标签对应的标定框外部或与第二对象标签对应的标定框相接的位置关系，基于第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离与预设阈值，确定标定图像中的行为结果，包括：

步骤802，若第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离小于或等于预设阈值，则确定标定图像中的行为结果为存在违规行为。

本申请实施例中，终端基于对目标特征图进行坐标变换得到的第二目标对象的坐标，可以确定第二对象标签对应的坐标框的第一中心坐标，同理，终端基于目标特征图进行坐标变换得到的第三对象的坐标，可以确定第三对象标签对应的坐标框的第二中心坐标。终端根据第一中心坐标与第二中心坐标可以计算第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离，若此相对距离小于或等于预设阈值，则终端确定标定图像中的行为结果为存在违规行为。

步骤804，若第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离大于预设阈值，则确定标定图像中的行为结果为不存在违规行为。

本申请实施例中，终端可以基于步骤802中对第二对象标签对应的标定框与第三对象标签对应的标定框计算相对距离的方法，得到第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离，若此相对距离大于预设阈值，说明第二对象与第三对象的相关性较弱，则终端确定标定图像中的行为结果为不存在违规行为。例如，待检测图像中的背景包含第三对象的特征，终端可以将其作为第三对象进行标记，然而，此第三对象标签对应的标定框与第二对象标签对应的标定框的相对距离较大，说明此第三对象与第二对象没有相关性，因此，终端将此情况中待检测图像的行为结果确定为不存在违规行为。

在一个可选的实施例中，如表1所示，在相同训练数据量即评测数据量的条件下，通过改进后的yolov7模型与根据标定图像中标定框的标签和标定框间的位置关系进行行为检测的行为检测方法，其准确率具有一定提升。其中，mAP为均值平均精度(Mean AveragePrecision)，下表包括在默认重叠度下，只使用yolov7模型进行行为检测、使用改进后的yolov7模型进行行为检测以及使用改进后yolov7的同时根据标定图像中标定框的标签和标定框间的位置关系进行行为检测的准确率；mAP50为重叠度设置为0.5时，各行为检测方法的准确率。

表1

本实施例中，通过根据第二、第三对象标签对应的标定框间距离确定行为检测结果，由表1的结果可以看出，应用于yolov7的行为检测方法对比原始yolov7方法，应用于yolov7的行为检测方法具有5％的精度提升，可以提高行为检测方法针对特殊情况的灵活性，能够避免特殊情况下行为检测模型的误判状况，提高行为检测方法的准确度。

如图9所示，提供了一种行为检测模型的训练方法，方法包括：

步骤902，获取样本图像以及样本图像对应的行为检测模型。

其中，样本图像包括样本类别标签与样本标注框。

本申请实施例中，终端获取多个样本图像与样本图像对应的行为检测模型，此样本图像包括样本标注框与样本标注框对应的样本类别。

可选的，在对行为检测模型进行训练前，可以采用Mosaic(一种数据增强方法)和MixUp(一种数据增强方法)对样本图像进行数据增强，提高行为检测模型的泛化能力。

步骤904，将样本图像输入至行为检测模型中，通过行为检测模型的特征提取层中的初始特征提取模块对样本图像进行初始特征提取，得到初始特征图，并通过特征提取层对样本图像进行全局特征提取，得到全局特征的特征图。

本申请实施例中，终端将样本图像输入至行为检测模型中，行为检测模型的特征提取层中初始特征提取模块对该样本图像进行特征提取，得到对目标特征具有针对性的初始特征图，该特定的目标特征可以为在该样本图像的分辨率中，像素占比较少的目标的特征，即该目标特征可以为待检测图像中的小目标对应的特征。同时，终端根据特征提取层可以对该样本图像进行全局特征提取，得到该样本图像整体特征的特征图。

步骤906，通过行为检测模型中的跨层融合结构，将初始特征图和特征图进行特征融合，得到目标特征图。

其中，行为检测模型包括跨层融合结构，用于对初始特征图与特征图进行融合。

本申请实施例中，终端根据行为检测模型中的跨层融合结构将对特定目标(即在该样本图像的分辨率中，像素占比较少的目标)具有针对性的初始特征图，与具有待检测图像整体特征的特征图进行融合，得到更能体现特定目标的特征的目标特征图。

步骤908，对目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像。

本申请实施例中，终端对目标特征图中目标对象的特征信息进行坐标转换，得到转换后目标对象的特征信息对应的坐标，同时，终端根据转换后特征信息对应的坐标进行目标对象的标定处理，得到目标特征图中对所有具有目标对象的特征信息标定框的标定图像，并将该标定图像进行输出。

步骤910，根据样本标签以及携带标定框的标定图像确定行为检测模型的目标损失，当目标损失满足预设训练条件时，得到训练后的行为检测模型。

其中，目标损失包括分类损失、回归损失与置信度损失。

本申请实施例中，终端根据当前样本图像对应的样本标签与行为检测模型输出的携带标定框的标定图像进行比对计算，得到当前样本图像对应的行为检测模型的分类损失、回归损失与置信度损失，并对行为检测模型进行迭代训练。当行为检测模型的分类损失、回归损失与置信度损失分别满足其对应的预设训练条件时，确定目标损失满足预设训练条件，终端停止对行为检测模型的训练，得到训练后的行为检测模型。

本实施例中，通过对行为检测模型进行训练，能够得到准确率较高的行为检测模型，提高行为检测方法的准确率。

在一个实施例中，如图10所示，步骤910根据样本标签以及携带标定框的标定图像确定行为检测模型的目标损失，包括：

步骤1002，根据样本类别标签与标定图像中的分类结果确定行为检测模型的分类损失。

本申请实施例中，终端根据携带标定框的标定图像可以得到各标定框对应的类别，即得到标定图像中的分类结果，将此分类结果与样本图像中的样本类别标签进行比对计算，得到针对当前样本图像，行为检测模型的分类损失。

步骤1004，根据样本标注框与标定图像中的标定框确定回归损失与置信度损失，将分类损失、回归损失与置信度损失作为目标损失。

本申请实施例中，终端根据标定图像中的标定框可以得到标定框对应的置信度与标定框信息，其中，终端根据标定框信息中标定框的宽、高确定回归损失，根据标定框对应的置信度确定置信度损失。在对行为检测模型进行损失计算时，终端对行为预测模型损失计算中针对不同检测类型进行解耦，并将分类损失、回归损失与置信度损失作为目标损失。

本实施例中，通过将行为预测模型针对不同的检测类型进行解耦，能够提高行为检测模型的收敛效率，提高行为检测模型的学习效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的行为检测方法的行为检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个行为检测装置实施例中的具体限定可以参见上文中对于行为检测方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种行为检测装置1100，包括：第一特征提取模块1101、第一特征融合模块1102、第一标定模块1103和第一确定模块1104，其中：

第一特征提取模块1101，用于将待检测图像输入至行为检测模型中，通过行为检测模型的特征提取层中的初始特征提取模块对待检测图像进行初始特征提取，得到初始特征图，并通过特征提取层对待检测图像进行全局特征提取，得到全局特征的特征图；

第一特征融合模块1102，用于通过行为检测模型中的跨层融合结构，将初始特征图和特征图进行特征融合，得到目标特征图；

第一标定模块1103，用于对目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像；

第一确定模块1104，用于根据标定图像中标定框的标签和标定框间的位置关系，对标定图像中进行行为检测，确定标定图像中的行为结果。

在其中一个实施例中，该装置还包括：

第一获取模块，用于获取初始行为检测模型；初始行为检测模型中包含初始特征提取模块、特征提取聚合模块和输出模块；

第二确定模块，用于根据初始行为检测模型中初始特征提取模块包含的各卷积模块的元素信息，在各卷积模块中确定目标卷积模块；

模型融合模块，用于将目标卷积模块对应输出层的输出维度通道与特征提取聚合模块对应输出层的输出维度通道保持相同，完成目标卷积模块与特征提取聚合模块进行融合，得到跨层融合结构，并将具有跨层融合结构的初始行为检测模型作为行为检测模型。

在其中一个实施例中，第一标定模块1103具体用于：

对目标特征图进行坐标变换，并获取坐标变换后目标特征图中目标对象的多个坐标；

根据目标对象的坐标、坐标的置信度以及坐标对应的初始标定框，将满足置信度条件的初始标定框作为目标对象对应的标定框，输出携带标定框的标定图像。

在其中一个实施例中，第一标定模块1103，具体用于：

根据目标对象对应的每个坐标，确定每个坐标对应的初始标定框；

根据非极大值抑制方法与每个坐标的置信度，在每个坐标对应的初始标定框中确定目标标定框，将目标标定框作为目标对象对应的标定框。

在其中一个实施例中，第一确定模块1104，具体用于：

检测标定图像中存在的标定框的标签；

当标定图像中标定框的标签包括第一对象标签时，确定标定图像中的行为结果为存在违规行为；

当标定图像中标定框的标签不包括第一对象标签时，根据第二对象标签对应的标定框与第三对象标签对应的标定框之间的位置关系，确定标定图像中的行为结果。

在其中一个实施例中，第一确定模块1104，具体用于：

当标定图像中标定框的标签不包括第一对象标签时，根据第三对象标签对应的标定框在第二对象标签对应的标定框内部的位置关系，确定标定图像中的行为结果为存在违规行为；

根据第三对象标签对应的标定框在第二对象标签对应的标定框外部或与第二对象标签对应的标定框相接的位置关系，基于第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离与预设阈值，确定标定图像中的行为结果。

在其中一个实施例中，第一确定模块1104，具体用于：

若第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离小于或等于预设阈值，则确定标定图像中的行为结果为存在违规行为；

若当第二对象标签对应的标定框与第三对象标签对应的标定框的相对距离大于预设阈值，则确定标定图像中的行为结果为不存在违规行为。

上述行为检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待检测图像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行为检测方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

将待检测图像输入至行为检测模型中，通过行为检测模型的特征提取层中的初始特征提取模块对待检测图像进行初始特征提取，得到初始特征图，并通过特征提取层对待检测图像进行全局特征提取，得到全局特征的特征图；

通过行为检测模型中的跨层融合结构，将初始特征图和特征图进行特征融合，得到目标特征图；

对目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像；

根据标定图像中标定框的标签和标定框间的位置关系，对标定图像中进行行为检测，确定标定图像中的行为结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取初始行为检测模型；初始行为检测模型中包含初始特征提取模块、特征提取聚合模块和输出模块；

根据初始行为检测模型中初始特征提取模块包含的各卷积模块的元素信息，在各卷积模块中确定目标卷积模块；

将目标卷积模块对应输出层的输出维度通道与特征提取聚合模块对应输出层的输出维度通道保持相同，完成目标卷积模块与特征提取聚合模块进行融合，得到跨层融合结构，并将具有跨层融合结构的初始行为检测模型作为行为检测模型。

检测标定图像中存在的标定框的标签；

获取样本图像以及样本图像对应的行为检测模型；样本图像包括样本类别标签与样本标注框；

将样本图像输入至行为检测模型中，通过行为检测模型的特征提取层中的初始特征提取模块对样本图像进行初始特征提取，得到初始特征图，并通过特征提取层对样本图像进行全局特征提取，得到全局特征的特征图；

根据样本标签以及携带标定框的标定图像确定行为检测模型的目标损失，当目标损失满足预设训练条件时，得到训练后的行为检测模型。

根据样本类别标签与标定图像中的分类结果确定行为检测模型的分类损失；

根据样本标注框与标定图像中的标定框确定回归损失与置信度损失，将分类损失、回归损失与置信度损失作为目标损失。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种行为检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将待检测图像输入至行为检测模型中，通过所述行为检测模型的特征提取层中的初始特征提取模块对所述待检测图像进行初始特征提取，得到初始特征图之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述目标特征图进行坐标转换和标定处理，输出携带标定框的标定图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标对象的坐标、所述坐标的置信度以及所述坐标对应的初始标定框，将满足置信度条件的初始标定框作为所述目标对象对应的标定框，包括：

5.根据权利要求1所述的方法，其特征在于，所述标定图像中标定框的标签包括第一对象标签、第二对象标签与第三对象标签；所述根据所述标定图像中标定框的标签和标定框间的位置关系，对所述标定图像中进行行为检测，确定所述标定图像中的行为结果，包括：

检测所述标定图像中存在的标定框的标签；

6.根据权利要求5所述的方法，其特征在于，所述当所述标定图像中标定框的标签不包括第一对象标签时，根据所述第二对象标签对应的标定框与所述第三对象标签对应的标定框之间的位置关系，确定所述标定图像中的行为结果，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第三对象标签对应的标定框在所述第二对象标签对应的标定框外部或与所述第二对象标签对应的标定框相接的位置关系，基于所述第二对象标签对应的标定框与所述第三对象标签对应的标定框的相对距离与预设阈值，确定所述标定图像中的行为结果，包括：

8.一种行为检测模型的训练方法，其特征在于，所述方法包括：

9.根据权利要求8所述的方法，其特征在于，所述根据所述样本标签以及所述携带标定框的标定图像确定所述行为检测模型的目标损失，包括：

10.一种行为检测装置，其特征在于，所述装置包括：