CN116311535B

CN116311535B - 基于人物交互检测的危险行为分析方法及系统

Info

Publication number: CN116311535B
Application number: CN202310553376.4A
Authority: CN
Inventors: 任卫红; 姜渭博; 刘洪海; 高宇; 许兴隆; 董潜
Original assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Current assignee: Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-08-22
Anticipated expiration: 2043-05-17
Also published as: CN116311535A

Abstract

本发明提供了一种基于人物交互检测的危险行为分析方法及系统，该危险行为分析方法包括：步骤1：原始图像经过图像特征提取器进行高级特征提取；步骤2：将步骤1提取出的特征分别送入动作感知模块和目标感知模块进行隐式的动作语义特征提取和显式的目标感知特征提取；步骤3：将步骤2提取出的动作语义特征和目标感知特征送入交互感知模块进行融合，得到包含动作感知特征和目标感知特征的交互特征，所述交互特征被用于最终的人‑物交互预测。本发明的有益效果是：本发明通过人‑物交互检测从细粒度层级上分析人体行为，可实现危险行为精确分析。

Description

基于人物交互检测的危险行为分析方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及基于人物交互检测的危险行为分析方法及系统。

背景技术

目前应用计算机视觉识别危险行为识别的方法多为基于目标检测+逻辑判定的方法。

现有的人-物交互检测方法多基于Transformer模型，模型存在的一个问题是它的查询（Query）是随机初始化的，导致了模型易受随机信息的干扰而无法关注关键特征区域。为解决该问题，一些人-物交互检测研究工作提出细化查询的方法来优化模型，引导模型关注特定信息，比如向查询中添加人、物的位置信息，物体的类别信息等显式的实例信息。

现有技术的缺陷是：

1.现有危险行为检测方法忽略了危险行为的人-物交互本质，且逻辑判定的方法鲁棒性差，应用于大规模场景时效果不稳定。

2.现有人-物交互检测方法引导模型关注人、物等实例特征，一定程度上提升了模型的检测能力，但是对于人-物交互检测这种多子任务并存的任务，该方法忽略了关键的动作信息，仍难以为模型提供充分的先验知识，导致了模型的检测能力受限。

发明内容

本发明提供了一种基于人物交互检测的危险行为分析方法，包括如下步骤：

步骤1：原始图像输入图像特征提取器，图像特征提取器从原始图像中提取出图像语义特征；

步骤2：将步骤1提取出的图像语义特征分别送入动作感知模块和目标感知模块进行隐式的动作语义特征提取和显式的目标感知特征提取；

步骤3：将步骤2提取出的动作语义特征和目标感知特征送入交互感知模块进行融合，得到包含动作感知特征和目标感知特征的交互感知特征，所述交互感知特征被用于最终的人-物交互预测。

作为本发明的进一步改进，所述图像特征提取器由卷积神经网络、Transformer编码器和Transformer解码器组成，所述卷积神经网络用于提取初级视觉特征；所述Transformer编码器执行自注意力建立全局特征的关联，完善视觉特征；所述Transformer解码器用于提取视觉特征中的关键特征。

作为本发明的进一步改进，所述卷积神经网络为resnet50，所述Transformer编码器由6层Transformer编码层组成，所述Transformer解码器由6层Transformer解码层组成。

作为本发明的进一步改进，所述动作感知模块包括注意力融合模块，所述注意力融合模块用于融合Transformer解码器输出的L层特征为1层特征，将所述注意力融合模块融合后的特征通过一层线性映射得到实例级别的动作语义特征，实例的数目等于Transformer解码器中Query的数目N，实例级别的动作语义特征对应的是某实例发生某一动作的概率；将实例级别的动作语义特征再经过一层线性映射将N映射为1，得到全局级别的动作语义特征，全局级别的动作语义特征表示整个图片场景下有哪些动作发生；人体姿态特征应用Simple Baseline人体姿态检测网络直接对原始图像检测得到。

本发明还提供了一种基于人物交互检测的危险行为分析系统，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现本发明所述危险行为分析方法的步骤。

本发明的有益效果是：

1. 提出用人-物交互检测的方法来做危险行为分析，为危险行为分析提供新思路；

2. 人-物交互检测从细粒度层级上分析人体行为，可实现危险行为精确分析；

3. 所提出的基于交互感知的人-物交互检测模型为Transformer网络提供目标级别的和动作级别的先验知识，帮助网络利用充分的信息来做人-物对的匹配以及交互动作的预测；

4. 所提出的注意力融合模块从全局与实例角度融合动作语义信息，既可以整合上下文信息，又可以实现实例级别的精准动作预测。

附图说明

图1是本发明的流程图；

图2是本发明网络结构示意图；

图3是注意力融合模块结构示意图；

图4是交互感知模块结构示意图。

具体实施方式

如图1所示，本发明公开了一种基于人物交互检测的危险行为分析方法，包括如下步骤：

步骤1：原始图像输入图像特征提取器，图像特征提取器从原始图像中提取出图像语义特征，该图像语义特征将更好地服务于后续的目标感知动作感知任务，原始图像是在医疗、驾驶舱等场景采集到的图像数据；

如图2所示，图像特征提取器由卷积神经网络、Transformer编码器、Transformer解码器组成。卷积神经网络可选择resnet50，用于提取初级视觉特征；Transformer编码器由6层Transformer编码层组成，执行自注意力来建立全局特征的关联，完善视觉特征；Transformer解码器由6层Transformer解码层组成，用来提取视觉特征中的关键特征。

如图2所示，动作感知模块包括注意力融合模块，注意力融合模块用于融合Transformer解码器输出的L层（例如，L层为6层）特征为1层特征，将所述注意力融合模块融合后的特征通过一层线性映射得到实例级别的动作语义特征，实例的数目等于Transformer解码器中Query的数目N，实例级别的动作语义特征对应的是某实例发生某一动作的概率；将实例级别的动作语义特征再经过一层线性映射将N从100映射为1，可取N=100，得到全局级别的动作语义特征，全局级别的动作语义特征表示整个图片场景下有哪些动作发生；人体姿态特征应用Simple Baseline人体姿态检测网络直接对原始图像检测得到。其中，全局级别的动作语义特征和实例级别的动作语义特征产生相应的动作语义损失：；/>，其中，/>和/>分别表示全局级别的动作语义特征和实例级别的动作语义特征产生相应的动作语义损失；C表示所有的动作数目；/>表示第C种动作类别是否发生在全局动作中，/>表示模型预测的第C种动作类别发生的概率；/>表示第C种动作类别是否发生在第/>个实例上，/>表示模型预测的第C种动作类别发生在第/>个实例上的概率。FL表示FocalLoss损失计算函数。

实例级别的动作语义特征和全局级别的动作语义特征通过动作融合模块进行融合，得到全局与局部多尺度融合的动作语义特征。

是Transformer解码器最后一层输出的特征,即，/>是Transformer解码器输出的L层特征。

注意力融合模块如图3所示，其作用是融合Transformer解码器输出的L层特征为1层特征。具体地，本发明开发了用一种基于权重融合的方法来融合这L层特征，其中第L层特征被选为基特征。/>首先经过一层线性映射，该线性映射不改变/>的特征维度。以/>特征的第/>个向量，即/>为例，我们计算它和前面L-1层特征的相同位置上向量，即/>的相似性，后面接一个softmax函数来对其进行归一化处理。该过程可用公式表示为：/>，其中，/>表示前面层的注意力权重；Softmax为归一化函数。然后，这些注意力权重与各自对应的特征相乘再加上基特征得到融合后的特征，该过程可用公式表示为：/>，其中，/>表示第/>层特征和第L层特征之间的相似度权重。

动作融合模块与注意力融合模块结构相同，其中基向量选择为全局级别的动作语义特征，被融合的向量选择为实例级别的动作语义特征/>。融合后的动作语义特征表示为/>。

目标感知模块通过一系列多层感知机（MLP）对映射得到目标检测结果，/>表示Transformer模型的解码器输出的最后一层特征，即L层特征里的最后一层，包括：人的位置，物体的位置，物体的类别。其中，每类结果由一个MLP映射得到，MLP的结构为两层线性映射和中间的一个ReLU激活函数。得到这些检测结果后，对这些结果处理得到目标的外观特征、目标的布局特征、目标的语义特征。其中，目标的外观特征直接从/>中获取；目标的布局特征由/>构成，其中，/>分别表示人和物体沿X轴、y轴和二维坐标系上的距离，/>分别表示人和物体所占的面积，/>分别表示人和物体所属位置的交互面积和联合面积；目标的语义特征表示为物体类别信息的编码。最终，目标感知特征/>由目标外观特征、目标布局特征、目标语义特征拼接得到。

交互感知模块如图4所示，用于融合动作语义特征、人体姿态特征/>以及目标感知特征/>。具体地，/>和/>分别通过MLP映射得到/>和/>，来得到相同特征空间下的特征表示。然后，计算/>和/>之间的余弦相似度并得到权重矩阵/>，其中h表示目标检测中得到的人的数目，融合动作语义特征/>和人体姿态特征/>的特征可表示为/>。/>的计算过程如下：/>，/>是/>的转置矩阵。然后，将动作语义特征/>，人体姿态特征/>以及两者融合的特征/>拼接得到动作感知特征/>。然后，动作感知特征与目标感知特征拼接得到交互感知特征/>。

被用于生成人-物对候选，我们根据每组人-物对的交互性分数来挑选出交互性最高的K组人-物对，对应的交互性特征也直接从/>提取得到。人-物对的挑选过程产生配对损失：/>，其中，/>表示第K组人物对在标签中是否存在，/>表示预测的第K组人物存在的概率。

进一步地，上述的K组高交互性的人-物对之间的交互性特征通过一个线性映射得到交互感知查询（Query），其中，/>表示/>的维度。/>将被输送到一个Transformer解码器中来探索人-物对中存在的动作信息，Transformer解码器中的交叉注意力模块的Key和Value来自于图像特征提取器中卷积神经网络产生的特征的F，F是卷积神经网络产生的特征，具体是一个三维的H*W*D的特征，并最终得到动作预测y，动作预测过程产生动作预测损失：/>，其中，/>表示第K组人-物对中是否存在第c类动作；/>表示预测的第k组人-物对中存在第c类动作的概率。

进一步地，得到网络训练时的总损失：，其中，均为超参数，/>分别表示实例级别的动作语义损失、全局级别的动作语义损失、动作预测损失、人-物对配对损失。

本发明采用余弦退火策略进行模型训练，模型初始学习率大小设置为10e-5。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于人物交互检测的危险行为分析方法，其特征在于，包括如下步骤：

步骤3：将步骤2提取出的动作语义特征和目标感知特征送入交互感知模块进行融合，得到包含动作感知特征和目标感知特征的交互感知特征，所述交互感知特征被用于最终的人-物交互预测；

所述图像特征提取器由卷积神经网络、Transformer编码器和Transformer解码器组成，所述卷积神经网络用于提取初级视觉特征；所述Transformer编码器执行自注意力建立全局特征的关联，完善视觉特征；所述Transformer解码器用于提取视觉特征中的关键特征；

所述动作感知模块包括注意力融合模块，所述注意力融合模块用于融合Transformer解码器输出的层特征为1层特征，将所述注意力融合模块融合后的特征通过一层线性映射得到实例级别的动作语义特征，实例的数目等于Transformer解码器中Query的数目N，实例级别的动作语义特征对应的是某实例发生某一动作的概率；将实例级别的动作语义特征再经过一层线性映射将N映射为1，得到全局级别的动作语义特征，全局级别的动作语义特征表示整个图片场景下有哪些动作发生；人体姿态特征应用Simple Baseline人体姿态检测网络直接对原始图像检测得到；全局级别的动作语义特征和实例级别的动作语义特征产生相应的动作语义损失：

；

其中，和/>分别表示全局级别的动作语义特征和实例级别的动作语义特征产生相应的动作语义损失；/>表示所有的动作数目；/>表示第/>种动作类别是否发生在全局动作中，/>表示模型预测的第/>种动作类别发生的概率；/>表示第/>种动作类别是否发生在第/>个实例上，/>表示模型预测的第/>种动作类别发生在第/>个实例上的概率；FL表示Focal Loss损失计算函数；

2.根据权利要求1所述的危险行为分析方法，其特征在于：所述卷积神经网络为resnet50，所述Transformer编码器由6层Transformer编码层组成，所述Transformer解码器由6层Transformer解码层组成。

3.根据权利要求1所述的危险行为分析方法，其特征在于：在所述注意力融合模块中，第层特征/>被选为基特征，/>经过一层线性映射，线性映射不改变/>的特征维度；/>特征的第/>个向量，即/>，计算/>和前面/>层特征的相同位置上向量，即的相似性，后面接一个softmax函数来对其进行归一化处理。

4.根据权利要求1所述的危险行为分析方法，其特征在于：所述目标感知模块通过多层感知机MLP对映射得到目标检测结果，/>表示Transformer模型的解码器输出的最后一层特征，其中，每类结果由一个MLP映射得到，MLP的结构为两层线性映射和中间的一个ReLU激活函数；得到检测结果后，对目标检测结果处理得到目标的外观特征、目标的布局特征、目标的语义特征，其中，目标的外观特征直接从/>中获取；目标的布局特征由构成，其中，/>分别表示人和物体沿x轴、y轴和二维坐标系上的距离，/>分别表示人和物体所占的面积，/>分别表示人和物体所属位置的交互面积和联合面积；目标的语义特征表示为物体类别信息的编码；最终，目标感知特征/>由目标外观特征、目标布局特征、目标语义特征拼接得到。

5.根据权利要求1所述的危险行为分析方法，其特征在于：所述交互感知模块用于融合动作语义特征、人体姿态特征/>以及目标感知特征/>，/>和/>分别通过MLP映射得到/>和/>，得到相同特征空间下的特征表示，/>表示动作语义特征/>经过MLP映射得到的动作语义特征，/>表示人体姿态特征/>经过MLP映射得到的人体姿态特征；然后，计算/>和/>之间的余弦相似度并得到权重矩阵/>，其中h表示目标检测中得到的人的数目，融合动作语义特征/>和人体姿态特征/>的特征可表示为/>，/>的计算过程如下：

；

然后，将动作语义特征、人体姿态特征/>以及两者融合的特征/>接得到动作感知特征/>；然后，动作感知特征/>与目标感知特征/>拼接得到交互感知特征/>。

6.根据权利要求1至5任一项所述的危险行为分析方法，其特征在于：交互感知特征被用于生成人-物对候选，根据每组人-物对的交互性分数来挑选出交互性最高的/>组人-物对，对应的交互性特征也直接从交互感知特征/>提取得到，人-物对的挑选过程产生配对损失：

；

其中，表示第/>组人物对在标签中是否存在，/>表示预测的第/>组人物存在的概率，FL表示Focal Loss损失计算函数。

7.根据权利要求6所述的危险行为分析方法，其特征在于：组高交互性的人-物对之间的交互性特征通过一个线性映射得到交互感知查询Query，/>，其中，/>表示/>的维度；/>将被输送到一个Transformer解码器中来探索人-物对中存在的动作信息，Transformer解码器中的交叉注意力模块的Key和Value来自于图像特征提取器中卷积神经网络产生的特征的F，F卷积神经网络产生的一个三维的H*W*D的特征，并最终得到动作预测y，动作预测过程产生动作预测损失：

；

其中，表示第/>组人-物对中是否存在第/>类动作；/>表示预测的第/>组人-物对中存在第/>类动作的概率。

8.一种基于人物交互检测的危险行为分析系统，其特征在于，包括：存储器、处理器以及存储在所述存储器上的计算机程序，所述计算机程序配置为由所述处理器调用时实现权利要求1－7中任一项所述危险行为分析方法的步骤。