CN115601841A

CN115601841A - 一种联合外观纹理和运动骨架的人体异常行为检测方法

Info

Publication number: CN115601841A
Application number: CN202211406683.1A
Authority: CN
Inventors: 王玉峰; 曾羡霖; 张泽豪; 丁文锐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-01-13

Abstract

本发明公开了一种联合外观纹理和运动骨架的人体异常行为检测方法，属于计算机视觉领域；首先，将原始视频等间隔划分，分别提取各帧内人体外观关键区域和每个人体的骨架关键点；计算所有人体的全局运动轨迹；然后，使用基于STGAT，预测未来帧中各人体骨架关键点的轨迹；针对每个人体，利用DFE将预测的骨架关键点转化为密集流热图作为指导信息，输入CGAN，生成对应骨架关键点姿态的人体外观关键区域；此外，利用逐像素分析法对外观关键区域的背景偏差进行消除以提高精度；最后，将每个人体的骨架关键点预测值和外观关键区域生成值，与对应的标签值计算误差，进行加权求和得到异常分数。本发明有效降低了虚警率，实现快速有效的视频异常检测。

Description

一种联合外观纹理和运动骨架的人体异常行为检测方法

技术领域

本发明属于计算机视觉中的图像、视频分析与处理领域，是一种联合外观纹理和运动骨架的人体异常行为检测方法。

背景技术

异常检测被定义为在特定域中检测明显偏离正常模式的数据样本的过程。随着监控视频设备的快速普及，人体行为异常检测在社会生活和公共安全中发挥着重要作用。与目标检测和动作识别等完全监督学习任务不同，异常行为检测任务在使用人工标注过程中面临覆盖率低、时间成本高和定义不明确等问题，这是异常数据本身存在的复杂性、未知性和不平衡性所导致的。因此，现有的主流资料和文献将该任务定义为仅使用正常数据训练的一类分类问题，旨在进一步扩大少量异常行为与绝大多数正常事件之间的差距。

在过去几年中，大量研究成果采用了基于深度学习的检测方法，为视频分析相关任务带来了显著的进步。基于深度学习的视频异常行为检测方法通常展现出明显优于传统方法的性能。

基于深度学习的视频异常行为检测方法通过两种常见的模式：重构和预测，以生成符合正常规则行为的准确描述。基于重构的方法通过学习嵌入特征来重新构建输入，以生成异常行为所对应的高误差数据。但是，重构的方法容易受到无关背景噪声的影响，甚至由于模型过度拟合而无法有效检测异常。基于预测的方法利用历史视频帧预测未来帧，并计算预测误差以生成异常分数。预测的方法未能充分学习先验知识，这有利于检测异常，但却难以侦测正常事件，从而导致虚警率升高。

最近，Li等人探索了以简单并列的方式将重构与预测相结合，其精度只得到了有限的提高。Wang等人提供了一种新颖的递进关系来处理上述两种模式的组合方式，但只使用了外观像素作为单一特征。

在视频异常行为检测中，基于特征预提取的深度学习方法因其更好的精度而广受关注。现有的多维预提取特征可以大致分为两类：外观纹理和运动描述，其可被单独使用，也可被组合使用。Pourreza等人中提出的Ano-Graph将从现成的目标检测器中提取的外观关键区域视为时空拓扑图的节点，并使用边描述人体之间的交互作用。与直接生成完整像素的方法相比，Ano-Graph一定程度上降低了背景噪声，缓解了计算负荷。然而，该方法无法有效分离前景和背景区域之间的深度耦合，也无法根据复杂情况进行相应调整，例如强光、倾斜拍摄、极端天气等等。

Yu等人将外观与梯度图和光流表示的运动线索相结合，以准确在视频事件中定位异常活动区域。梯度图通过手工设计的描述符粗略地描述了有限方向下和局部区域内的目标运动趋势；同时密集光流细化了运动表征，但不可避免地带来更多估计噪声。

更棘手的是，生成该两种特征的经典方法要求视频拍摄角度在连续帧中保持静止，这极大地阻碍了其在更多场景下的应用。Morais等人提出了一个基于RNN的模型，名为MPED-RNN，将人体骨架作为运动描述特征并分解为两个子部分，全局运动轨迹和局部身体姿态。Luo等人在没有像素级冗余的情况下，探索了人类关节在异常行为中的运动规律，同时Zeng等人通过分层拓扑图表征了个体之间在不同层级下的交互作用。与其他基于单模态的方法类似，Pang等人已证明基于骨架的方法在检测复杂多样的异常上具有一定的局限性。Liu等人提出了一种流引导帧的预测方法，名为HF²-VAD；对于提取全尺寸光流操作来说，该方法计算代价高昂，并且不如基于骨架的方法高效。

发明内容

本发明针对现有视频下人体异常行为检测算法存在的不足，提出了一种联合外观纹理和运动骨架的人体异常行为检测方法，提升了整体检测效果。

所述的联合外观纹理和运动骨架的人体异常行为检测方法，包括以下步骤：

步骤一、针对包含待测人体行为的原始视频数据，将其等间隔分为若干片段；

步骤二、针对每个片段中的所有独立视频帧，使用目标检测算法提取各帧内的所有人体外观关键区域；

当前片段的T时间内，所有帧图像中N个人体外观关键区域的坐标集合表示为

S＝(x₁，x₂，y₁，y₂)，x₁，x₂，y₁，y₂分别对应人体坐标方框的四个顶点位置。

表示第t帧图像中n个人体的坐标框，t∈T，n表示每帧图像中的所有人体总数，x和y分别表示包括人体的坐标方框横纵坐标；

步骤三、针对每个片段，使用多目标跟踪算法计算该片段内所有人体的全局运动轨迹；

步骤301，针对片段T时间内，将所有人体区域坐标框

作为先验信息；

步骤302，计算相邻帧间所有人体坐标框的两两交并比IOU，得到相对应的代价矩阵M；

令两个相邻帧t₁，t₂内，分别包含n₁，n₂个人体，矩阵M共有n₁行n₂列。每行代表当前帧t₂的所有n₂个人体坐标框，每列代表前一帧t₁的所有n₁个人体坐标框，每个元素即IOU值，表示前后相邻帧内任意两个人体坐标框的相互关联度。

步骤303，使用Sinkhorn最优传输算法迭代标准化代价矩阵M，进一步扩大关联度高低元素之间的距离，得到最优传输距离近似解

步骤304，利用匈牙利算法计算近似解

的二分图匹配，即完成前后帧内每个人体的两两匹配，得到每个人在相邻前后帧中的位置，统计T时间内每个人体在所有帧中的运动轨迹，得到N个人体的全局运动轨迹，记为

其中

表示第t帧内n个人体的轨迹坐标中第i个人体的几何中心点；

步骤四、使用姿态检测算法提取所有人体关键区域内的2D骨架关键点；

将T时间内的N个人体区域坐标框

输入姿态检测算法，提取出各自对应的人体姿态，每个人体均有17个关键点；

T时间内N个人体骨架关键点坐标的集合

为第t帧内n个人体中第i个人体的第j个关键点；

步骤五、利用各片段内所有人体的全局运动轨迹，结合各人体的骨架关键点，基于多尺度注意力机制的时空图注意力网络，预测未来帧中该片段内各人体骨架关键点的轨迹；

时空图注意力网络STGAT由三个子模块组成：轨迹图形化生成器TGO、时空自注意力网络STTN和骨架迁移网络STN。

针对片段T时间内，TGO将所有帧中所有人体的全局轨迹分别转化为时空图结构数据；

第t帧图片对应的n个人体全局轨迹

分别转化为时空图结构数据{G₁，G₂，..，G_t|t∈T}；转化公式为：

G_t＝(V(G_t)，E(G_t))

V(G_t)＝{V_i(G_t)|i∈{1，...，n}}

其中V(G_t)表示单帧图节点的集合，n表示节点总数量，对应各人体的坐标；将所有图节点之间的关联程度采用邻接矩阵A描述，

是邻接矩阵中第i行、第j列的元素，表示第i个和第j个图节点之间的关联程度；所有关联元素

表示单帧图的边，即集合E(G_t)；

STTN负责对时空图结构数据进行有效编码，并通过空间自注意力网络和时间自注意力网络之间的串联来提升轨迹预测的时空一致性。

基于图理论，在结构化图中，信息从图节点j传递到图节点i的过程被定义为m^j→i；对于任意一个结构化图，每个图节点i与其特征h_i和其邻近集Nb(i)相关联；

基于原始的自注意力函数(

vj属于原函数)，图节点i的自注意力机制的图卷积运算为：

h′_i＝f_out(Att(i))+Att(i)

其中f_out是输出函数，全连接层输出的特征h′_i是自注意力机制的图卷积函数对图节点i的更新。

针对该片段内每帧图像中每个人体，STN负责对先前帧中该人体的骨架关键点进行归一化，并将结果迁移到由时空图表示的全局轨迹上，联合预测未来帧中该人体骨架关键点的轨迹。

使用正则化层迁移骨架关键点，使用多层感知机负责预测骨架关键点的轨迹，迁移和预测过程被统一表示为：

其中x代表当前人体的骨架关键点，y代表当前人体的全局轨迹，α(y)表示缩放函数，β(y)表示偏置函数。其中μ(x)，σ(x)分别表示样本的均值和标准差；样本即当前人体的骨架关键点。

步骤六、针对每个人体，利用密集流估计器DFE将预测的未来帧中骨架关键点转化为密集流热图作为指导信息，输入条件生成对抗网络CGAN，生成对应骨架关键点姿态的人体外观关键区域；两者共同组成密集流条件生成对抗网络DFCGAN。

DFE具体为：首先，将骨架关键点转成17通道的姿态热图作为结构指导信息，令p_s和p_t分别表示源图像x_s和目标图像x_t的骨架关键点。

密集流估计器F将p_s、p_t、x_s和x_t作为输入，并生成密集流场w，表示为：

w＝F(p_s，p_t，x_s)

CGAN产生真实的纹理图像

公式为：

G为条件生成对抗网络，通过损失函数

对抗性损失函数L_adv、感知损失函数L_perc和风格损失函数L_style生成联合损失函数LD进行端到端训练，直接学习潜在外观分布和挖掘运动信息到图像的映射关系，从而直接生成大量纹理样本。

其中

λ_a，λ_p和λ_s是各自对应的损失权重。

在DFCGAN的训练中，采用基于背景消除BE的逐像素分析方法，通过使DFCGAN同时重构当前帧和预测未来帧中的关键区域以生成逐像素的纹理，以平衡整体亮度和饱和度，并降低背景中的锐度噪声。

具体地，在t和t+1时刻，分别有骨架关键点p_obs，p_obs+1，

(预测)和外观关键区域x_obs，x_obs+1；BE过程具体表示为：

其中p_sou＝p_obs，

和x_sou＝x_obs用于预测；p_sou＝p_obs，x_tar＝x_obs+1和x_sou＝x_obs重构。

步骤七、针对每帧图像中每个人体，使用两个异常值判断模块将骨架关键点预测值和外观关键区域生成值作为输入，与对应的标签值计算误差，得到两类异常分数，并进行加权求和得到最终异常分数；

1)计算生成值与标签值之间的生成误差；

标签值被定义为当前时刻真实的骨架关键点坐标和外观关键区域，选择均方误差MSE损失函数来计算框架输出值与标签值之间的差异，分别得到骨架关键点的异常分数L₁和外观的异常分数L₂，计算公式为：

其中f^s和f^r分别表示异常值判断模块输出的骨架关键点分数以及DFCGAN输出的外观关键区域分数，

和

表示骨架关键点和外观关键区域的真实标签。

加权求和公式为

其中μ₁、σ₁、μ₂、σ₂分别是L₁和L₂的均值和标准差，ω₁和ω₂分别是L₁和L₂的权重。

步骤八、以二分类的方式对最终异常分数进行异常行为检测，即区分数据集内特定片段中分别包含异常和正常的时长，从而得到异常行为的人体。

本发明的特点及有益效果：

(1)一种联合外观纹理和运动骨架的人体异常行为检测方法，使用基于多尺度注意机制的时空图注意力网络方法(Spatio-Temporal Graph Attention Transformer，STGAT)，将全局历史轨迹的时空特征编码到图结构中表示，并集成相应的局部骨架，以更准确地联合预测骨架的轨迹。该方法遵循一类分类问题的解决范式，确保模型在正常模式下得到很好的学习，从而灵敏地检测人类异常行为。

(2)一种联合外观纹理和运动骨架的人体异常行为检测方法，提出了联合检测框架，通过多模态融合以渐进的方式联合人体骨架关节和外观关键区域，从而改善了视频下人体异常行为的检测精度。具体而言，设计了一种基于密集流条件生成对抗网络方法(Dense Flow Conditional Generative Adversarial Network，DFCGAN)，通过重组源图像和STGAT预测的目标骨架，以预测骨架作为指导信息来生成人类外观关键区域，使得包含异常行为的姿态骨架恶化对应的像素生成质量，并进一步扩大正常和异常样本之间的差距。

(3)一种联合外观纹理和运动骨架的人体异常行为检测方法，在像素生成过程中，利用逐像素分析方法，在不增加新的网络结构的情况下，通过同时重构当前的标签值和预测未来的外观关键区域，实现了前景一致性增强和背景偏差消除。

附图说明

图1是本发明一种联合外观纹理和运动骨架的人体异常行为检测方法流程图；

图2是本发明实施例提出的人体异常行为检测算法整体工作原理图；

图3是本发明提出的人体异常行为检测联合框架全局架构图；

图4是本发明设计的基于图注意机制的时空自注意力网络具体结构示意图；

图5是本发明设计的基于密集流条件生成对抗网络具体结构示意图；

图6是本发明所述的检测方法定性研究结果的部分效果图；

图7是本发明提出的检测方法在多个数据集上的检测精度示意图；

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

本发明提出一种联合外观纹理和运动骨架的人体异常行为检测方法，通过检测框架训练正样本以最大化正常行为的规律，建立一种范式以区分与人类行为相关的正常和异常事件，并结合多特征和多种建模方法来提高视频异常行为检测的准确性，利用像素生成方法将历史帧和骨架指导信息作为输入，以预测未来帧并重构当前帧。在此之前，根据历史骨骼轨迹预测未来骨架，有助于骨架预测的误差渐进式传播，最终恶化像素级的异常生成误差，以进一步提高检测性能。

本发明首先，提取公开的人类异常行为数据集中固定片段视频输入的多模态特征，包括运动骨架和外观纹理；然后，使用时空自注意力网络根据历史骨架轨迹预测未来骨架，同时将其作为指导信息，使用密集流条件生成对抗网络将目标骨架和源图像作为输入，共同生成目标外观关键区域，得到了骨架和纹理两类异常判据生成值，此外通过既重构源图像关键区域，又预测目标关键区域，以增强前景一致性和消除背景噪声，进一步提高了整体方法精度；最后，针对多种特征下不同方法对多种异常行为的侧重性和敏感度不同，根据场景人群密度、环境光照背景、具体行为和相机拍摄角度等因素，对两类异常分数进行加权融合，以得到最终的异常分数，有效提升了框架的检测精度并降低了虚警率，实现快速有效的视频异常行为检测。

所述的联合外观纹理和运动骨架的人体异常行为检测方法，如图1所示，包括以下步骤：

步骤二、针对每个片段中的独立视频帧，使用目标检测算法提取各帧内的所有人体外观关键区域；

B＝(x₁，x₂，y₁，y₂)，x₁，x₂，y₁，y₂分别对应人体坐标方框的四个顶点位置。

步骤三、针对每个片段，使用多目标跟踪算法在该片段内计算出每个人体的全局运动轨迹；

步骤301，针对片段T时间内，将所有人体区域坐标框

作为先验信息；

交并比

令两个相邻帧t₁，t₂内，分别包含n1，n2个人体，矩阵M共有n1行n2列。每行代表当前帧t₂的所有n₂个人体坐标框，每列代表前一帧t₁的所有n₁个人体坐标框，每个元素即IOU值，表示前后相邻帧内任意两个人体坐标框的相互关联度。

步骤304，利用匈牙利算法计算近似解

其中

表示第t帧内n个人体的轨迹坐标中第i个人体的几何中心点；

将T时间内的N个人体区域坐标框

T时间内N个人体骨架关键点坐标的集合

为第t帧内n个人体中第i个人体的第j个关键点；

第t帧图片对应的n个人体全局轨迹

G_t＝(V(G_t)，E(G_t))

V(G_t)＝{V_i(G_t)|i∈{1，...，n}}

表示单帧图的边，即集合E(G_t)；

基于原始的自注意力函数(

v_j属于原函数)，图节点i的自注意力机制的图卷积运算为：

h′_i＝f_out(Att(i))+Att(i)

密集流条件生成对抗网络DFCGAN由两部分组成：密集流估计器(DFE)和条件生成对抗网络(CGAN)。首先将当前人体的历史骨架关键点的轨迹输入到时空图图注意力网络以生成骨架关节预测值，然后将生成的骨架转化为密集流热图作为指导信息，使用条件生成对抗网络输出对应骨架姿态的高质量外观关键区域。

此外，通过基于逐像素分析方法，既重建标签值又预测关键区域，提升了单帧内的前景一致性并消除了一定的背景噪声。

DFE描述一对源骨骼和目标骨骼之间的相对运动，将稀疏骨架转化为密集流像素场，生成密集流热图以作为指导信息输入CGAN生成对应姿态的目标关键区域。具体为：首先，将骨架关键点转成17通道的姿态热图作为结构指导信息，令p_s和p_t分别表示源图像x_s和目标图像x_t的骨架关键点。

w＝F(p_s，p_t，x_s)

条件生成对抗网络G将x_s、p_s、p_t和w作为输入并产生真实的纹理图像

公式为：

CGAN通过对密集流进行网格采样来显式地计算空间形变，以将编码器的外观特征与目标特征空间对齐。通过损失函数

对抗性损失函数L_adv、感知损失函数L_perc和风格损失函数L_style生成联合损失函数LD进行端到端训练条件生成对抗网络G，直接学习潜在外观分布和挖掘运动信息到图像的映射关系，从而直接生成大量纹理样本。

其中

λ_a，λ_p和λ_s是各自对应的损失权重。

具体地，在t和t+1时刻，分别有骨架关键点p_obs，p_obs+1，

(预测)和外观关键区域x_obs，x_obs+1；BE过程具体表示为：

其中p_sou＝p_obs，

1)计算生成值与标签值之间的生成误差；

其中fs和f^r分别表示异常值判断模块输出的骨架关键点分数以及DFCGAN输出的外观关键区域分数，

和

表示骨架关键点和外观关键区域的真实标签。

加权求和公式为

考虑到异常行为的复杂性、不可知性及其正负样本量不均衡等因素，本发明以二分类的方式进行异常行为检测，即区分数据集内特定片段中分别包含异常和正常的时长，而非识别具体行为的种类。针对经典二分类问题的评估标准通常采用受试者工作特征曲线下面积(AUROC)进行，AUROC的合理范围在0到1之间，越高的输出值表示分类器的性能越优秀。

本发明所提出的检测框架报告了在四个大型公开异常行为数据集上的AUROC性能，并取得了良好效果。

实施例：

如图2所示，包括以下具体步骤：

步骤一、将原始视频等间隔分为若干小片段后，首先使用目标检测算法提取每帧内的外观关键区域，即检测人体位置信息；然后使用多目标跟踪算法在多帧视频片段内计算出每个人体的运动轨迹，最后使用骨架关键点定位算法提取人体关键区域内的骨架关节。最终得到的多种预提取特征包含外观关键区域和人体骨架关键点的轨迹。

1)定位人体外观区域坐标；

使用YOLOv5目标检测算法对视频帧进行人体区域坐标(x₁，x₂，y₁，y₂)提取，得到包含固定帧内所有人体区域坐标的集合B_tnxy，其中t表示时间，n表示人数，x和y分别表示横纵坐标。

2)提取外观区域内的2D骨架关键点；

使用HR-Net姿态检测检测算法，根据1)中得到的B_tnxy作为输入，提取17个关键点，得到包含固定帧内所有人体骨架关键点坐标的集合P_tnxy。与基于RGB信息的外观区域特征相比，骨架能够更加简洁明了地描述人体的运动特征。

3)使用Sinkhorn的多目标跟踪算法提取人体运动轨迹；

为了得到多帧内的人体运动轨迹，本实施例将人体区域坐标B_tnxy作为先验信息，通过计算相邻帧间坐标区域的重叠度IOU组成代价矩阵M，以描述同目标前后帧间的关联性，使用Sinkhorn最优传输算法迭代标准化M，Sinkhorn的核心是最小化Wasserstein距离

通过反复迭代直到最小化

至满足预设阈值，并得到M的最优近似解

其中α，β为求解的常参数，λ是控制收敛速度的超参数。

最后利用经典匹配算法：匈牙利算法寻找

的二分图匹配，以完成多目标的全局运动轨迹提取。

步骤二、基于多尺度注意力机制的时空图注意力网络预测未来骨架；基于密集流条件生成对抗网络生成目标外观关键区域，组成联合框架的核心组件。

首先将历史骨架关键点的轨迹输入到时空图注意力网络以生成骨架关节预测值，然后将生成的骨架转化为密集流热图作为指导信息，使用条件生成对抗网络构建对应骨架姿态的高质量外观关键区域。

此外，通过基于逐像素地既重建标签值又预测关键区域分析方法，提升了单帧内的前景一致性并消除了一定的背景噪声。

1)使用时空自注意力网络预测未来骨架；

本发明设计了一种基于多尺度注意力机制的时空自注意力网络(STGAT)，通过图形化的历史骨架关键点轨迹以预测未来骨架关节，STGAT将多目标人体骨架关键点轨迹为全局轨迹和局部骨架两部分进行处理。

如图3和图4所示，展示了STGAT的子模块-时间自注意力模块的具体结构。

自注意模块首先将查询矩阵

键矩阵

和值矩阵

作为输入。

对于第i个节点(人)，表示为：

其中f_Q、f_K和f_V是第i个节点对应的查询函数、键函数和值函数。

分别计算每个节点的注意力特征：

其中head_j＝Att_j(Qⁱ，Kⁱ，Vⁱ)，f_O是一个全连接层，负责融合第k个head和Att_j索引的第j个head的特征。

图3同样展示了空间自注意力模块的具体结构，该模块用于表示人体之间的空间交互。

本发明提出了一种新颖的基于自注意力机制的图卷积操作，自注意力机制可以在无向图结构上传递信息。对于空间特征集合

中的特征向量h_i，将其对应的查询向量表示为q_i＝f_Q(h_i)，键向量为k_i＝f_K(h_i)，值向量为v_i＝f_V(h_i)。从节点j到i的信息传递定义为：

则注意力函数可记为：

类似于传统的图注意力卷积，但基于Transformer带来的强效注意力机制，其具有更好的提取特征能力。对于任意图G＝(V，E)，其中V＝{1，2，...，n}是节点集合，

是边的集合。假设每个节点i与嵌入特征h_i和邻域集合Nb(i)相关联。节点i的自注意力机制的图卷积运算可写为：

h′_i＝f_out(Att(i))+Att(i)

其中f_out是输出函数，全连接层h′_i是自注意力机制的图卷积函数对节点i的更新嵌入。

2)使用密集流条件生成对抗网络生成目标外观关键区域；

本发明设计了一个密集流条件生成对抗网络(DFCGAN)，通过深度解耦和重组源图像的纹理信息和STGAT提供的预测骨架，以生成高质量的人类外观关键区域。如图5所示，DFCGAN由两部分组成：密集流估计器(DFE)和条件生成对抗网络(CGAN)。

首先，对包含17个骨架关键点转成姿态热图作为骨架结构指导，如图6(e)所示。令p_s和p_t分别表示源图像x_s和目标图像x_t的骨架结构指导，密集流估计器F将p_s、p_t、x_s和x_t作为输入，并生成密集流场w，表示为：

w＝F(p_s，p_t，x_s)

将F设计为一个全卷积网络，并提出一种采样正确性损失函数L_c，使得源图像特征v_s和密集流场w在网格采样中找到合理的对齐位置。密集流场w描述了源图像特征v_s的扭曲程度，建立了源和目标特征之间的映射关系，采样正确性损失函数通过预训练的VGG19网络特定层生成的特征和标签值特征之间的相似度，可以约束F输出位置正确的w，通过网格采样生成对应的v_t。采样正确性损失函数L_c计算v_s，w和v_t之间的相对余弦相似度记为：

其中

表示v_s，w和v_t间的余弦相似度，坐标集合Ω表示VGG19的N个特征图，

和

表示位于坐标l＝(x，y)处v_s，w和v_t的特征，

为归一化项。

CGAN通过对密集流进行网格采样来显式地计算空间形变，以将编码器的外观特征与目标特征空间区域对齐。

记为：

通过l₁损失函数、生成对抗性损失函数、感知损失函数和风格损失函数共同训练G。l₁损失函数记为：

生成对抗性损失函数记为：

其中D是G的判别器。感知损失函数计算预训练网络的激活图之间的l₁距离。可记为：

其中φ_i是预训练网络的第i层的激活图。风格损失函数计算激活图之间的统计误差为：

其中

是由激活图构造的Gram矩阵φ_j。

整体方法通过同时优化DFE和CGAN中的联合损失函数L_D进行端到端训练，通过直接学习潜在外观分布以及从运动信息到图像的映射关系以直接生成大量样本。

3)使用逐像素分析方法增强前景一致性和消除背景偏差

为了使得DFCGAN在不同场景下都表现出较好的鲁棒性和精度。DFCGAN通过同时重建当前帧中的关键区域和预测未来帧中的关键区域以生成人类外观的逐像素纹理，包括使得关键区域中前景的亮度和饱和度保持平衡以增强源和目标图像间的一致性，以及平滑图像背景的锐度以降低噪声。

最后，在计算异常分数的阶段，逐像素分析方法更多地关注前景区域的色调差异，并输出一对高度相似的背景区域来抵消彼此存在的偏差，而无需增加额外的模型或网络结构。如图6(d)和(e)与图6(j)和(1)所示，经过逐像素分析后，前景区域的亮度保持一致，凸显色调差异，嘈杂的背景区域被明显模糊，并趋于相似。

步骤三、使用两个异常值判断模块将骨架预测值和外观生成值作为输入，与对应的标签值计算误差，分为获得异常分数1和异常分数2。通过对异常分数1和2的加权融合得到最终异常分数，依据受试者工作特征曲线下面积(AUROC)的评估标准以测试整体检测框架的精度，并与其他最新的方法进行充分比较。

1)计算生成值与标签值之间的生成误差；

经过步骤二，得到运动骨架预测值f^s和外观区域生成值f^r，对于一类分类问题中处于正常模式的训练样本，选择均方误差(MSE)损失函数来计算框架输出值与标签值之间的差异，分别得到异常分数L₁和L₂；

2)异常分数的加权融合；

针对异常行为在复杂场景、多变光照、不同人群密度和多样交互动作等多方面因素，两类异常分数L₁和L₂需要以不同的权重相加从而得到最优的异常分数L₃，加权求和公式为

其中μ₁、σ₁、μ₂、σ₂是所有训练样本的骨架轨迹误差和外观区域误差的均值和标准差，ω₁和ω₂是两个异常分数的权重。

3)计算检测框架精度，与其他最新方法对比；

在实验测试阶段，本发明在实验环境为NVIDIA GTX3080显卡，Ubuntu18.04系统和Pytorch深度学习框架下运行。

使用受试者工作特征曲线下面积(AUROC)作为整体算法的测试标准。

本发明在四种大型公开异常行为数据集：CUHK Avenue、ShanghaiTech、Corridor和ADOC上进行了测试，同时为了进一步证明本发明对与人类有关的异常行为有更好的精度和鲁棒性，根据其他主流方法的策略，剔除掉一些无关数据，组成了人体行为相关的HR-Avenue，HR-ShanghaiTech和HR-Corridor数据集。如下表所示，本发明方法在多个数据集上都领先于其他最新的主流方法。

如图6所示，是联合外观纹理和运动骨架的人体异常行为检测方法在ShanghaiTech数据集上多个不同的场景下运行的定性研究效果图。由图6(a)和(b)可看出，针对异常行为时，STGAT按照正常模式预测骨架关节，与历史骨架存在显著不同；针对正常行为时，预测骨架和历史骨架相似度明显提高。由图6(j)和(l)可看出，DFCGAN很好地重构了源图像的外观关键区域，这有助于增强前景一致消除背景噪声，同时也高质量地预测了目标图像，这有助于骨架层级的异常误差在像素层级放大。由图6(m)可看出，本发明方法在检测异常行为时输出较为混乱模糊的差分图，在检测正常行为时则输出很清晰干净的差分图。

如图7所示，是联合外观纹理和运动骨架的人体异常行为检测方法在CUHKAvenue、ShanghaiTech和Corridor数据集上多个不同的场景下精度测试的示意图，本发明提出的方法在跨多种数据集上展示出较高的精度和较优的可泛化性。

Claims

1.一种联合外观纹理和运动骨架的人体异常行为检测方法，其特征在于，具体步骤如下：

步骤五、利用各片段内所有人体的全局运动轨迹，结合各人体的骨架关键点，基于多尺度注意力机制的时空图注意力网络STGAT，预测未来帧中该片段内各人体骨架关键点的轨迹；

步骤六、针对每个人体，利用密集流估计器DFE将预测的未来帧中骨架关键点转化为密集流热图作为指导信息，输入条件生成对抗网络CGAN，生成对应骨架关键点姿态的人体外观关键区域；

密集流估计器DFE和条件生成对抗网络CGAN，共同组成密集流条件生成对抗网络DFCGAN；

2.如权利要求1所述的一种联合外观纹理和运动骨架的人体异常行为检测方法，其特征在于，所述步骤二中，当前片段的T时间内，所有帧图像中N个人体外观关键区域的坐标集合表示为

B＝(x₁,x₂,y₁,y₂)，x₁,x₂,y₁,y₂分别对应人体坐标方框的四个顶点位置；

表示第t帧图像中n个人体的坐标框，t∈T，n表示每帧图像中的所有人体总数，x和y分别表示包括人体的坐标方框横纵坐标。

3.如权利要求1所述的一种联合外观纹理和运动骨架的人体异常行为检测方法，其特征在于，所述步骤三具体为：

步骤301，针对片段T时间内，将所有人体区域坐标框

作为先验信息；

令两个相邻帧t₁,t₂内，分别包含n₁,n₂个人体，矩阵M共有n₁行n₂列；每行代表当前帧t₂的所有n₂个人体坐标框，每列代表前一帧t₁的所有n₁个人体坐标框，每个元素即IOU值，表示前后相邻帧内任意两个人体坐标框的相互关联度；

步骤304，利用匈牙利算法计算近似解

其中

表示第t帧内n个人体的轨迹坐标中第i个人体的几何中心点。

4.如权利要求1所述的一种联合外观纹理和运动骨架的人体异常行为检测方法，其特征在于，所述步骤四中，将T时间内的N个人体区域坐标框

T时间内N个人体骨架关键点坐标的集合

为第t帧内n个人体中第i个人体的第j个关键点。

5.如权利要求1所述的一种联合外观纹理和运动骨架的人体异常行为检测方法，其特征在于，所述步骤五中，时空图注意力网络STGAT由三个子模块组成：轨迹图形化生成器TGO、时空自注意力网络STTN和骨架迁移网络STN；

第t帧图片对应的n个人体全局轨迹

分别转化为时空图结构数据{G₁,G₂,..,G_t|t∈T}；转化公式为：

G_t＝(V(G_t),E(G_t))

V(G_t)＝{V_i(G_t)|i∈{1,…,n}}

其中V(G_t)表示单帧图节点的集合，n表示节点总数量，对应各人体的坐标；E(G_t)表示单帧图边的集合，将所有图节点之间的关联程度采用邻接矩阵A描述，

是邻接矩阵中第i行、第j列的元素，表示第i个和第j个图节点之间的关联程度；

STTN负责对时空图结构数据进行有效编码，并通过空间自注意力网络和时间自注意力网络之间的串联来提升轨迹预测的时空一致性；

基于原始的自注意力函数(

v_j属于原函数)，图节点i的自注意力机制的图卷积运算为：

h′_i＝f_out(Att(i))+Att(i)

其中f_out是输出函数，全连接层输出的特征h′_i是自注意力机制的图卷积函数对图节点i的更新；

针对该片段内每帧图像中每个人体，STN负责对先前帧中该人体的骨架关键点进行归一化，并将结果迁移到由时空图表示的全局轨迹上，联合预测未来帧中该人体骨架关键点的轨迹；

其中x代表当前人体的骨架关键点，y代表当前人体的全局轨迹，α(y)表示缩放函数，β(y)表示偏置函数；其中μ(x)，σ(x)分别表示样本的均值和标准差；样本即当前人体的骨架关键点。

6.如权利要求1所述的一种联合外观纹理和运动骨架的人体异常行为检测方法，其特征在于，所述步骤六中DFE具体为：首先，将骨架关键点转成17通道的姿态热图作为结构指导信息，令p_s和p_t分别表示源图像x_s和目标图像x_t的骨架关键点；

w＝F(p_s,p_t,x_s)

CGAN产生真实的纹理图像

公式为：

G为条件生成对抗网络，通过损失函数

对抗性损失函数L_adv、感知损失函数L_perc和风格损失函数L_style生成联合损失函数L_D进行端到端训练，直接学习潜在外观分布和挖掘运动信息到图像的映射关系，从而直接生成大量纹理样本；

在DFCGAN的训练中，采用基于背景消除BE的逐像素分析方法，通过使DFCGAN同时重构当前帧和预测未来帧中的关键区域以生成逐像素的纹理，以平衡整体亮度和饱和度，并降低背景中的锐度噪声；

具体地，在t和t+1时刻，分别有骨架关键点p_obs，p_obs+1，

(预测)和外观关键区域x_obs，x_obs+1；BE过程具体表示为：

其中p_sou＝p_obs，

7.如权利要求1所述的一种联合外观纹理和运动骨架的人体异常行为检测方法，其特征在于，所述步骤七中计算生成值与标签值之间的生成误差，具体为：

和

表示骨架关键点和外观关键区域的真实标签；

加权求和公式为