CN116385926A

CN116385926A - 基于深度学习的人体时空动作检测方法及系统、设备

Info

Publication number: CN116385926A
Application number: CN202310256325.5A
Authority: CN
Inventors: 刘军; 程炜
Original assignee: Shenzhen Infinova Intelligent Technology Co Ltd
Current assignee: Shenzhen Infinova Intelligent Technology Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-04

Abstract

本发明公开了一种基于深度学习的人体时空动作检测方法及系统、设备及存储介质，该方法包括：从获取的视频数据中读取连续视频帧并进行预处理；将预处理后的连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到时序特征信息，同时将关键视频帧输入至2D YOLO‑X骨干网络中，得到空间特征信息；通过预设的BERT模型融合时序、空间特征信息，得到聚合结果并进行卷积操作输出动作类别分数和边界框回归参数；通过非极大值抑制算法对聚合结果计算，得到检测结果。通过本发明提供的方法，结合了2D卷积和3D卷积网络结合的双流结构，通过自注意力机制融合时空信息，保证了动作时空特征的一致性，提高了时空定位精度，且训练速度快，收敛快，模型检测精度和速度高。

Description

基于深度学习的人体时空动作检测方法及系统、设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于深度学习的人体时空动作检测方法及系统、设备及存储介质。

背景技术

目前，基于深度学习的人体时空动作定位是计算机视觉技术中一个重要的研究与应用领域。该领域是在动作识别的基础上发展而来，动作识别的目标是给一段切割好的视频分类、打上动作类别标签。但在实际场景中，一个画面可能包含不止一个人，这个人可能在同一时间点进行着多种动作(比如，走路时打电话)，时空动作定位(Spatial-TemporalAction localization)就可以解决复杂场景的多人多动作问题。具体来说，这种任务下的模型，不仅需要推理动作类别、动作的起始/终止时间点，还需要检测动作施行者的(在画面帧中的)空间区域。

相比于基于传统的方法，基于深度学习的时空动作定位算法能有效提高计算精度，并缩短计算时间，具有实时性。由于任务性质类似于目标检测与动作识别二者的结合，目前基于深度学习的时空动作定位方法主要分为以下几种：

(1)两阶段的方法：对于图像中的目标检测，R-CNN系列作为两阶段的检测器在第一阶段使用选择性搜索或区域建议网络(RPN)提取建议区域，并在第二阶段对这些区域中的对象进行分类。尽管Faster R-CNN在目标检测方面实现了最先进的结果，但由于两阶段较耗时，很难实现实时任务。而YOLO和SSD旨在将该过程简化为一个阶段，并具有出色的实时性能。对于视频中的时空动作定位，由于R-CNN系列的成功，大多数研究方法建议首先检测每个帧中的人，然后将这些边界框合理地连接为动作管。例如先在RGB、光流上分别做建议区域检测，然后将结果合并产生一个更大的建议区域集合，在这些区域中做分类，两个流的特征信息互通、互相促进，提升时空动作定位性能。又例如其他一些工作使用3D卷积生成动作管建议，再实现相应3D特征的回归和分类。以上这些方法精度一般比较高，但是实时性较差。

(2)端到端的方法：单阶段的方法一般是参照双流网络的思想，在一个网络中同时提取两种或多种信息，相互促进，相互融合，得到最佳结果。其中有各种可以相互融合的信息，例如SlowFast中利用不同的帧率在两路网络中分别提取时间尺度和空间尺度上的特征；在YOWO中利用3D网络和YOLO网络分别提取时空特征；而在ACRN中，结合区域建议网络和特征提取网络提取动作主体与全局特征的关系。而对于信息的融合手段，既可以考虑轻便性而采用简单的平均法，也可以考虑精度而选择更多参数的自注意力模块。而无论是哪种端到端的方法，都需要在没有提供建议区域的前提下定位动作的发生位置并随之判断类别，因此相比动作识别任务和目标检测任务，更加看重时空特征的建模。端到端的方法在精度上较两阶段的低，但是可以很好保证实时性，在实际应用中更受关注。

上述两类方法均适均是基于深度学习的人体时空动作检测算法，前者更看重高精度，后者更具实时性。在实际应用中，需要检测动作的视频通常是RGB模态的，由于面临逆光、背光、弱光、强光等常见光照变化问题，输入网络的RGB视频的质量参差可能会造成时空信息的失真，进而降低动作检测的精度。

有鉴于此，有必要提出对目前的基于深度学习的人体时空动作检测方法进行进一步的改进。

发明内容

为此，本发明目的在于至少一定程度上解决现有技术中的不足，从而提出一种基于深度学习的人体时空动作检测方法及系统、设备及存储介质。

第一方面，本发明提供了一种基于深度学习的人体时空动作检测方法，所述方法包括：

从获取的视频数据中读取连续视频帧，并对所述连续视频帧进行预处理，所述连续视频帧包括关键视频帧；

将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2D YOLO-X骨干网络中，得到人体的空间特征信息；

通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，对所述聚合结果进行卷积操作输出动作类别分数和边界框回归参数；

通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果。

第二方面，本发明提供了一种基于深度学习的人体时空动作检测系统，所述系统包括：

获取模块：用于从获取的视频数据中读取连续视频帧，并对所述连续视频帧进行预处理，所述连续视频帧包括关键视频帧；

卷积模块：用于将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2D YOLO-X骨干网络中，得到人体的空间特征信息；

融合模块：用于通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，对所述聚合结果进行卷积操作输出动作类别分数和边界框回归参数；

生成模块：用于通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果。

第三方面，本发明还提供了一种基于深度学习的人体时空动作检测设备，包括存储器、处理器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如第一方面所述的基于深度学习的人体时空动作检测方法中的各个步骤。

第四方面，本发明还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的基于深度学习的人体时空动作检测方法中的各个步骤。

本发明提供了一种基于深度学习的人体时空动作检测方法及系统、设备及存储介质，该方法包括：从获取的视频数据中读取连续视频帧，并对所述连续视频帧进行预处理，所述连续视频帧包括关键视频帧；将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2D YOLO-X骨干网络中，得到人体的空间特征信息；通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，对所述聚合结果进行卷积操作输出动作类别分数和边界框回归参数；通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果。通过本发明提供的方法，结合了2D卷积和3D卷积网络结合的双流结构，通过自注意力机制融合时空信息，保证了动作时空特征的一致性，提高了时空定位精度，且训练速度快，收敛快，模型检测精度和速度高，适用面广、鲁棒性强，可有效处理人体动作时空检测中实时性不高、动作识别精度有限、易受复杂环境影响等难点问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的基于深度学习的人体时空动作检测方法的流程示意图；

图2为本发明的基于深度学习的人体时空动作检测方法的另一整体流程示意图；

图3为本发明的基于深度学习的人体时空动作检测方法的子流程示意图；

图4为本发明的基于深度学习的人体时空动作检测方法的又一子流程示意图；

图5为本发明的基于深度学习的人体时空动作检测方法的另一子流程示意图；

图6为本发明的基于深度学习的人体时空动作检测方法的另一子流程示意图；

图7为本发明的基于深度学习的人体时空动作检测方法的BERT模型的结构示意图；

图8为本发明的基于深度学习的人体时空动作检测方法的另一子流程示意图；

图9为本发明的基于深度学习的人体时空动作检测方法的另一子流程示意图；

图10为本发明的基于深度学习的人体时空动作检测方法的伽马强度校正示意图；

图11为本发明的基于深度学习的人体时空动作检测方法的又一整体结构流程示意图；

图12为本发明的基于深度学习的人体时空动作检测系统的程序模块示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参照图1和图2，图1和图2均是本申请实施例的基于深度学习的人体时空动作检测方法的整体流程示意图，在本实施例中，上述基于深度学习的人体时空动作检测方法包括：

步骤101、从获取的视频数据中读取连续视频帧，并对所述连续视频帧进行预处理，所述连续视频帧包括关键视频帧。

在本实施例中，获取需要识别人体时空动作的视频数据，从获取的视频数据中读取连续视频帧，具体地，从获取的视频数据中选择每次从16帧窗口中选择16帧(下采样率为1)作为输入，不选择过长的连续视频帧是为了减少冗余和噪音，而不选择过短的序列是为了包含更完整的动作信息，控制下采样率则是为了更精确地获取快速运动特征。

在本实施例中，将读取的连续视频帧进行预处理，由于实际场景中可能会遇到雨雪阴天、夜晚无灯光、强光过曝等复杂情况，对读取的连续视频帧进行预处理则是为了抑制这些复杂因素对时空特征的干扰。其中，连续视频帧包括关键视频帧，关键视频帧就是视频数据中重要的视频帧，是指角色或物体的运动或变化中有重要运动的视频帧，连续视频帧中的其他帧称为普通帧。

步骤102、将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2D YOLO-X骨干网络中，得到人体的空间特征信息；

在本实施例中，将预处理后的连续视频帧输入至3D ResNeXt101骨干网络中，通过一系列3D卷积残差块提炼，从而可以在预处理后的连续视频帧中提取人体动作在时序上的特征，其中，3D ResNeXt101骨干网络是在二维ResNeXt101网络的基础上把2D卷积替换成3D卷积得到的动作识别网络，3DResNeXt101骨干网络由若干个3D ResNeXt块组成，从而组成101层的深度神经网络。

在本实施例中，将连续视频帧中的关键视频帧输入至2D YOLO-X骨干网络中，从而可以在关键视频帧中提到人体动作的空间特征信息，可以提高人体目标的定位精度。其中，2D YOLO-X骨干网络的主干网络依然使用CSPDarkNet-53，即CSPNet思想在DarkNet-53中体现；DarkNet-53性能接近ResNet-152，但是FPS要高一倍；而CSP模块中，经过两个不同卷积操作的线路，在不明显增加参数的同时增加特征重用性，从而使得2D YOLO-X骨干网络的精度较高。

其中，3D ResNeXt101骨干网络和2D YOLO-X骨干网络从视频帧中获取到的时序特征信息和空间特征信息均是特征图。

步骤103、通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，对所述聚合结果进行卷积操作输出动作类别分数和边界框回归参数。

在本实施例中，将通过3D ResNeXt101骨干网络和2D YOLO-X骨干网络从视频帧中获取到的时序特征信息和空间特征信息分别输入至预设的BERT(Bidirectional EncoderRepresentation from Transformers，双向语言表征)模型中进行融合，其中，双向是指在多头注意力计算的过程中，每一个token之间都会互相作用，而并不是沿固定顺序依次影响，有利于融合前后所有通道的信息，token可以理解为代表时序信息和空间信息的嵌入向量，是3DResNeXt101骨干网络和2D YOLO-X骨干网络的输出特征图的各通道信息。具体地，BART模型的融合办法为Transformer，且在BART模型中额外加入了可训练向量classtoken，可训练向量classtoken的作用在于总结各通道输出的权重，给出融合全局信息的位置预测和类别判断，更具体来讲，由于class token也参与了注意力机制的特征聚合，能基于每个query和key的关系给出各token的权重，相较于对多个输出token直接做平均更具表达能力。

在本实施例中，通过BART模型对时序特征信息和空间特征信息进行融合之后，得到聚合结果，聚合结果为时序特征信息和空间特征信息融合的特征图。得到聚合结果之后，再对聚合结果进行卷积操作，其中该卷积操作类似YOLO检测头，对聚合结果进行卷积操作之后，则在聚合结果上输出类别分数以及边界框回归参数，即在时空特征信息和空间特征信息融合的特征图上标示出人体目标的边界框以及动作类别和置信度。

步骤104、通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果。

在本实施例中，对聚合结果进行卷积操作之后得到多个候选的边界框和动作类别参数，从而通过非极大值抑制算法NMS去除聚合结果上多余的边界框，从而可以得到最后的边界框，也就是人体时空动作检测结果。

在本实施例中，当人体时空动作检测结果实时展示在监控视频的输出界面，方便相关人员及时定位相关动作的发声位置，进而可第一时间采取措施。其中，连续视频帧可以是从监控视频数据中读取出来。

本申请实施例提供了一种基于深度学习的人体时空动作检测方法，该方法包括：从获取的视频数据中读取连续视频帧，并对所述连续视频帧进行预处理，所述连续视频帧包括关键视频帧；将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2D YOLO-X骨干网络中，得到人体的空间特征信息；通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，对所述聚合结果进行卷积操作输出动作类别分数和边界框回归参数；通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果。通过本发明提供的方法，结合了2D卷积和3D卷积网络结合的双流结构，通过自注意力机制融合时空信息，保证了动作时空特征的一致性，提高了时空定位精度，且训练速度快，收敛快，模型检测精度和速度高，适用面广、鲁棒性强，可有效处理人体动作时空检测中实时性不高、动作识别精度有限、易受复杂环境影响等难点问题。

进一步地，请参照图3，图3为本申请实施例中基于深度学习的人体时空动作检测方法的子流程示意图，将预处理后的所述连续视频帧输入至3DResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，具体包括：

步骤201、提取输入至所述3D ResNeXt101骨干网络的所述连续视频帧的第一时序特征图；

步骤202、通过所述3D ResNeXt101骨干网络的第一阶段进行空间维度的下采样，统一所述第一时序特征图的通道数；

步骤203、通过所述3D ResNeXt101骨干网络的第二阶段至第五阶段依次通过不同的残差块对统一通道数后的所述第一时序特征图进行计算，得到所述时序特征信息，其中，所述3D ResNeXt101骨干网络输出的通道数将时间维度转化为1，以适配2D YOLO-X骨干网络。

在本实施例中，首先，把上述采样得到的连续视频帧输入到3DResNeXt101骨干网络中，提取人体动作在时序上的特征信息。3D ResNeXt101骨干网络是在二维ResNeXt101的基础上把2D卷积替换成3D卷积。整个3DResNeXt101骨干网络网络由五大卷积阶段构成：首先在第一个阶段中进行空间维度的下采样，把特征图通道数统一为64。然后在第2至5阶段，依次经过不同的残差块，通道数随着阶段数成倍递增，逐渐从128升至1024；而关于每个阶段中的残差块数目的选取，由于第三、四阶段对参数量和性能的平衡较好，加入的残差块较多，所以各阶段残差块数分别确定为3、24、36、3。最后该网络输出的通道数需要把时间维度转化为1，方便和2D卷积分支的输出大小适配。

进一步地，请参照图4，图4为本申请实施例中基于深度学习的人体时空动作检测方法的又一子流程示意图，任一所述残差块对所述动作时序特征进行计算，具体包括：

步骤301、对所述动作时序特征图进行1×1×1的三维卷积，将所述第一时序特征图的通道数统一为F，并对三维卷积后的所述第一时序特征图通过批归一化和ReLU函数激活，其中，F为大于或等于1的正整数；

步骤302、根据所述动作时序特征图的通道数将激活后的所述第一时序特征图平均等分为多组，将每组分别再次进行相同的3×3×3三维卷积并进行下采样，拼接得到仍具有F个通道数的第二时序特征图，并再次通过批归一化和ReLU函数激活；

步骤303、将再次激活后的所述第二时序特征图进行1×1×1的三维卷积，并将维数升至两部的F，进行批归一化后与所述第一时序特征图进行残差相接，得到第三时序特征图之后再次激活。

在本实施例中，3D ResNeXt101骨干网络由若干个3D ResNeXt块组成，组成101层的深度神经网络。输入到残差块的时空特征信息(即时空特征图)先后进行三步操作：

①先经过一次1×1×1的三维卷积，把通道数统一为F(此处F以128为例)，然后经过一组批归一化加ReLU函数激活操作；

②接着按通道等分成32组，每组各自进行相同的3×3×3的三维卷积进行下采样，拼接得到通道数仍是F的特征图，再经过一次批归一化和ReLU激活；

③最后经过一次1×1×1的三维卷积后，把维数升至两倍的F，批归一化后和原始输入进行残差相接，得到结果后再次激活，完成此残差块的计算。使用该结构能避免单纯堆叠层数带来的计算负担，轻巧地提高识别性能；同时结构简练而统一，超参数少，很适合嵌入到其他各种网络中。其中，值得注意的是，该网络输出的通道数需要把时间维度转化为1，方便和2D卷积分支的输出大小适配。

进一步地，请参照图5，图5为本申请实施例中基于深度学习的人体时空动作检测方法的另一子流程示意图，所述同时将所述关键视频帧输入至2DYOLO-X骨干网络中，得到人体的空间特征信息，具体包括：

步骤401、将所述关键视频帧通过所述2D YOLO-X骨干网络中的CSP模块的进行特征提取，并获取到三个特征层，其中，所述三个特征层的尺寸与3D卷积分支的尺寸相同；

步骤402、通过所述2D YOLO-X骨干网络的加强特征提取PAFPN结构将所述三个特征层分别通过上采样和下采样的融合方式得到所述空间特征信息。

在本实施例中，连续帧中的关键帧需要输入到高精度的2D YOLO-X骨干网络中，2DYOLO-X骨干网络使用CSPDarkNet-53，是CSPNet思想在DarkNet-53中体现。在CSP模块中，一个block分两路，一条线路经过多个瓶颈层提炼特征，另一条线路仅做降维，最后双线路拼接汇合，在不明显增加参数的同时增加特征重用性。2D YOLO-X骨干网络的加强特征提取网络为PAFPN结构，即将高层的特征信息，先通过上采样的方式进行传递融合，再通过下采样融合方式得到预测的特征图，最终输出3个特征层组成的元组结果(即空间特征信息)。其中，2D YOLO-X骨干网络输出的三个特征层的尺寸都需要采样成与3D卷积分支的相同。

进一步地，请参照图6，图6为本申请实施例中基于深度学习的人体时空动作检测方法的另一子流程示意图，所述通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，具体包括：

步骤501、拼接所述时序特征信息和所述空间特征信息，得到通道数为N的特征图；

步骤502、将所述通道数为N的特征图输入至所述预设的BERT模型中，并将网络学习到的位置编码叠加至所述通道数为N的特征图中，赋予位置信息，得到N个token；

步骤503、将所述预设的BERT模型中的class token和所述N个token输入至多头注意力结构中，进行双向自注意力计算，通过所述class token统筹所述N个token的权重；

步骤504、将统筹所述N个token的权重的所述class token经过两层的前馈网络，输出所述聚合结果。

在本实施例中，在网络的末端，我们需要把2D YOLO-X骨干网络提取的空间特征信息和3D ResNeXt101骨干网络提取的时序特征信息进行融合，此处我们选取的融合办法为Transformers的双向语言表征模型(BERT)，结构如图7所示，图7为BERT模型的结构示意图。所谓双向，是指在多头注意力计算的过程中，每一个token之间都会互相作用，而并不是沿固定顺序依次影响，有利于融合前后所有通道的信息。token可以理解为代表时序和空间特征的嵌入向量，是以上两个主干网络的输出特征图的各通道信息。

同时，该结构参照BERT原始结构加入了可训练向量class token，该向量的作用在于总结各通道输出的权重，给出融合全局信息的位置预测和类别判断。更具体来讲，由于class token也参与了注意力机制的特征聚合，能基于每个query和key的关系给出各token的权重，相较于对多个输出token直接做平均更具表达能力。

具体地，3D ResNeXt101骨干网络和2D YOLO-X骨干网络两大网络输出结果拼接得到的通道数为N的特征图，即通过BERT模型融合时序特征信息和空间特征信息之前，先拼接时序特征信息和空间特征信息并得到通道数为N的特征图，再全部输入到BERT模型中。然后，将网络学习到的位置编码叠加到特征图中，赋予位置信息，得到N个token：x1～xN。再初始化一个可训练向量class token用于统筹各token的权重，接着将以上N+1个token输入到多头注意力结构中，进行双向自注意力计算。最后将class token经过一个两层的前馈网络(PFFN)，其中在第一层使用了GELU激活函数，输出最终的融合特征。

进一步地，请参照图8，图8为本申请实施例中基于深度学习的人体时空动作检测方法的另一子流程示意图，所述通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果，具体包括：

步骤601、基于所述聚合结果进行卷积操作之后，输出具有所述动作类别分数和所述边界框回归参数的所述聚合结果，所述边界框回归参数包括多个边界框；

步骤602、通过所述非极大值抑制算法去除多余的所述边界框，得到所述人体时空动作检测结果，其中，所述人体时空动作检测结果包括剩余的所述边界框和动作类别。

在本实施例中，当对聚合结果进行卷积操作之后，聚合结果上输出有多个边界框回归参数和动作类别分数，即在聚合结果上显示有多个人体边框。再通过非极大值抑制算法NMS去除多余的边界框，从而得到人体时空动作检测结果。其中，人体时空动作检测结果中包括从多个边界框中去除多余的边界框而剩下的最终边界框和动作类别。

在本实施例中，聚合结果通过1×1卷积来得到想要的输出通道数，对大小为H×W的输出特征图的每个元素，设置5个先验锚点(锚点的数量是通过在对应数据集中使用K均值算法得到的)，对每个锚点有NumCls个(可根据数据集自行设置)类别得分、4个坐标及是否包含目标的置信度得分，因此该算法最终输出特征图大小为[(5×(NumCls+5))×H×W]，从而可得到具有多个边界框和动作类别的聚合结果，即在聚合结果的特征图上显示有多个人体动作框以及动作类别和置信度。

得到了具有多个边界框和动作类别的聚合结果之后，再通过非极大值抑制算法NMS去除多余的边界框，非极大值抑制算法NMS将所有预测的边界框的得分排序，选中最高分及其对应的边界框，遍历其余的边界框，如果和当前最高分框的IOU大于一定阈值，就将其边界框删除，从而可在聚合结果中绘制检测人体动作框，以便捕获关键行为、危险行为等操作，以便相关人员第一时间采取报警等措施。

进一步地，请参照图9，图9为本申请实施例中基于深度学习的人体时空动作检测方法的另一子流程示意图，所述并对所述连续视频帧进行预处理具体包括：

步骤701、从获取的所述视频数据中按照一定时间间隔截取所述连续视频帧，将所述连续视频帧缩放和裁剪到224×224的分辨率；

步骤702、统计所述连续视频帧中的某一输入帧的平均灰度值，若所述平均灰度值超过预设的灰度阈值，则对所述连续视频帧内的全部输入帧进行伽马强度校正，其中，所述连续视频帧包括多个所述输入帧。

在本实施例中，选择每次从16帧窗口中选择16帧，(下采样率为1)作为输入。不选择过长的序列是为了减少冗余和噪音，而不选择过短的序列是为了包含更完整的动作信息；而控制下采样率则是为了更精确地捕获快速运动特征，然后把输入帧缩放和裁剪到224×224的分辨率。

由于实际场景中可能会遇到雨雪阴天、夜晚无灯光、强光过曝等复杂情况，本发明需要抑制这些复杂因素对时空特征的干扰。本发明首先统计某一序列输入帧的平均灰度值，若灰度大小超过设定的阈值，则对该序列内的所有帧进行伽马强度校正(GIC)，公式如下：

其中，p的范围在0到255之间，pmax是输入帧中的最大亮度值，γ表示亮度增加或减少的幅度。如图10所示，图10为伽马强度校正示意图，当γ>1时，图像整体灰度值会变大；当0<γ<1时，整体灰度值减少。经过实验验证，对于黑夜条件下，令γ＝2对动作识别的精度提高最明显。可以针对不同的环境，选用不同的γ系数，以抵抗各种复杂环境的影响。

注意，以上的亮度调整只针对灰度分布异常的视频，正常场景下的视频将直接输入检测网络，以免造成不必要的信息损失。

请参阅图11，图11为本发明的基于深度学习的人体时空动作检测方法的又一整体结构流程示意图，本发明的整体实施步骤如下：

1、创建BERT模型的网络架构，再设置BERT模型中的参数值；

2、对加载的视频数据进行预处理，从高像素长视频中按照一定的时间间隔截取出连续视频帧，并对连续视频帧图像进行裁剪、旋转、平移等操作。

3、对输入的连续视频帧的灰度进行统计，判断视频受复杂场景的影响程度。

4、对灰度整体过低或过高的视频进行伽马强度校正(GIC)，全面考虑视频的灰度分布，在尽量不损失信息的前提下把灰度拉伸到易于动作特征提取的区域。

5、把处理后的连续视频帧输入到3D ResNeXt101骨干网络中，通过一系列3D卷积残差块提炼视频动作的时序信息；与此同时，把连续视频帧中的关键视频帧输入到2D的YOLO-X的骨干网络中，提取空间特征，提高人体目标的定位精度。

6、拼接以上两个网络得到的特征图，输入到融合办法为Transformer的双向语言表征模型(BERT)，其中额外加入了可训练向量class token，参与注意力机制的特征聚合，总结各通道输出的权重，给出融合全局信息的位置预测和类别判断，相较于直接做平均更具表达能力。

7、将class token的聚合结果，经过类似YOLO检测头的卷积操作，输出类别分数以及边界框回归参数，最后根据具体需求可视化检测结果。其中，最后输出的视频流就是在刚开始获取的视频流上面叠加了框取人体动作的边界框和动作类别等信息。

综上所述，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、使用面广：该方法基于深度学习的单阶段的人体动作时空检测网络适用于从RGB视频中自动化检测，免去了长时间的人工监督与昂贵的远程终端硬件成本，且自适应的亮度恢复可以适用于复杂环境。同时，本发明中的算法配有成熟的训练端口，用户可以自行建立不同场景下的数据集，在本算法上进行微调，训练过程易收敛，可以迅速推广至不同的光照、摄像头角度、硬件设备条件下的人体动作检测场景。此外，该算法的输出结果形象直观，在预测结束后，会在原始视频中标示出人体目标的位置框，并在边框左上角标注动作类别和置信度，将结果实时展示在监控的输出界面，方便相关人员及时定位相关动作的发生位置，第一时间采取措施。总体来说符合实际应用的需求，应用面更广。

2、效率高：相比于两阶段的人体动作时空检测算法，本方法采用单阶段形式，在精度允许下尽量选用轻量化的模块，所需的参数量更小，计算效率更高。同时，端到端的网络可以多卡并行计算，拥有更快的训练和推理速度。其中推理过程中处理视频的帧速率可达25FPS，数据读取、特征提取、结果写入的过程都较为顺畅，满足人眼可流畅观看的实时计算的水平，保证了危险动作报警的及时性。

3、精度高：本方面是属于动作时空定位范畴的技术衍生。视频动作时空定位是指在视频中定位人体动作的开始和结束时间，检测其空间位置(边界框)，并准确识别其动作类别。现有的研究主要集中于直接移植目标检测方法进行单帧检测，这样的做法虽然简单易行，却完全忽略了时间维度上的变化，导致了动作时空定位精度较低。本产品采用的算法使用了2D卷积与3D卷积网络结合的双流结构，通过自注意力机制融合时空信息，保证了动作时空特征的一致性，提高了时空定位精度。同时，对于雨雪、夜间等复杂场景，也有一定的灰度恢复措施，一定程度上提高了模型的鲁棒性。

由此，本发明提供了一种基于深度学习的、能应对复杂场景的、面向RGB视频的人体时空动作检测算法。该方法采取自适应的抗干扰手段，参考双流网络和自注意力机制有效建模时空特征，训练速度快，收敛快，模型检测精度和速度高，适用面广、鲁棒性强，可有效处理人体动作时空检测中实时性不高、动作识别精度有限、易受复杂环境影响等难点问题。

进一步地，本申请实施例还提供了一种基于深度学习的人体时空动作检测系统800，图12为本申请实施例中基于深度学习的人体时空动作检测系统的程序模块示意图，在本实施例中，上述基于深度学习的人体时空动作检测系统800包括：

获取模块801：用于从获取的视频数据中读取连续视频帧，并对所述连续视频帧进行预处理，所述连续视频帧包括关键视频帧；

卷积模块802：用于将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2D YOLO-X骨干网络中，得到人体的空间特征信息；

融合模块803：用于通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，对所述聚合结果进行卷积操作输出动作类别分数和边界框回归参数；

生成模块804：用于通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果。

本发明提供了一种基于深度学习的人体时空动作检测系统800，可以实现：从获取的视频数据中读取连续视频帧，并对所述连续视频帧进行预处理，所述连续视频帧包括关键视频帧；将预处理后的所述连续视频帧输入至3DResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2D YOLO-X骨干网络中，得到人体的空间特征信息；通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，对所述聚合结果进行卷积操作输出动作类别分数和边界框回归参数；通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果。通过本发明提供的方法，结合了2D卷积和3D卷积网络结合的双流结构，通过自注意力机制融合时空信息，保证了动作时空特征的一致性，提高了时空定位精度，且训练速度快，收敛快，模型检测精度和速度高，适用面广、鲁棒性强，可有效处理人体动作时空检测中实时性不高、动作识别精度有限、易受复杂环境影响等难点问题。

进一步地，本申请还提供了一种基于深度学习的人体时空动作检测设备，包括存储器、处理器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述的基于深度学习的人体时空动作检测方法中的各个步骤。

进一步地，本申请还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上述的基于深度学习的人体时空动作检测方法中的各个步骤。

在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

基于这样的理解，本发明的说明书技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

对于本领域的技术人员，依据本申请实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的人体时空动作检测方法，其特征在于，所述方法包括：

将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，同时将所述关键视频帧输入至2DYOLO-X骨干网络中，得到人体的空间特征信息；

2.根据权利要求1所述的方法，其特征在于，所述将预处理后的所述连续视频帧输入至3D ResNeXt101骨干网络中进行3D卷积，得到人体的时序特征信息，具体包括：

提取输入至所述3D ResNeXt101骨干网络的所述连续视频帧的第一时序特征图；

通过所述3D ResNeXt101骨干网络的第一阶段进行空间维度的下采样，统一所述第一时序特征图的通道数；

通过所述3D ResNeXt101骨干网络的第二阶段至第五阶段依次通过不同的残差块对统一通道数后的所述第一时序特征图进行计算，得到所述时序特征信息，其中，所述3DResNeXt101骨干网络输出的通道数将时间维度转化为1，以适配2D YOLO-X骨干网络。

3.根据权利要求2所述的方法，其特征在于，任一所述残差块对所述动作时序特征进行计算，具体包括：

对所述动作时序特征图进行1×1×1的三维卷积，将所述第一时序特征图的通道数统一为F，并对三维卷积后的所述第一时序特征图通过批归一化和ReLU函数激活，其中，F为大于或等于1的正整数；

根据所述动作时序特征图的通道数将激活后的所述第一时序特征图平均等分为多组，将每组分别再次进行相同的3×3×3三维卷积并进行下采样，拼接得到仍具有F个通道数的第二时序特征图，并再次通过批归一化和ReLU函数激活；

将再次激活后的所述第二时序特征图进行1×1×1的三维卷积，并将维数升至两部的F，进行批归一化后与所述第一时序特征图进行残差相接，得到第三时序特征图之后再次激活。

4.根据权利要求1所述的方法，其特征在于，所述同时将所述关键视频帧输入至2DYOLO-X骨干网络中，得到人体的空间特征信息，具体包括：

将所述关键视频帧通过所述2D YOLO-X骨干网络中的CSP模块的进行特征提取，并获取到三个特征层，其中，所述三个特征层的尺寸与3D卷积分支的尺寸相同；

通过所述2D YOLO-X骨干网络的加强特征提取PAFPN结构将所述三个特征层分别通过上采样和下采样的融合方式得到所述空间特征信息。

5.根据权利要求1所述的方法，其特征在于，所述通过预设的BERT模型融合所述时序特征信息和所述空间特征信息，得到聚合结果，具体包括：

拼接所述时序特征信息和所述空间特征信息，得到通道数为N的特征图；

将所述通道数为N的特征图输入至所述预设的BERT模型中，并将网络学习到的位置编码叠加至所述通道数为N的特征图中，赋予位置信息，得到N个token；

将所述预设的BERT模型中的class token和所述N个token输入至多头注意力结构中，进行双向自注意力计算，通过所述class token统筹所述N个token的权重；

将统筹所述N个token的权重的所述class token经过两层的前馈网络，输出所述聚合结果。

6.根据权利要求1所述的方法，其特征在于，所述通过非极大值抑制算法对输出所述动作类别分数和所述边界框回归参数的所述聚合结果进行计算，得到人体时空动作检测结果，具体包括：

基于所述聚合结果进行卷积操作之后，输出具有所述动作类别分数和所述边界框回归参数的所述聚合结果，所述边界框回归参数包括多个边界框；

通过所述非极大值抑制算法去除多余的所述边界框，得到所述人体时空动作检测结果，其中，所述人体时空动作检测结果包括剩余的所述边界框和动作类别。

7.根据权利要求1所述的方法，其特征在于，所述并对所述连续视频帧进行预处理具体包括：

从获取的所述视频数据中按照一定时间间隔截取所述连续视频帧，将所述连续视频帧缩放和裁剪到224×224的分辨率；

统计所述连续视频帧中的某一输入帧的平均灰度值，若所述平均灰度值超过预设的灰度阈值，则对所述连续视频帧内的全部输入帧进行伽马强度校正，其中，所述连续视频帧包括多个所述输入帧。

8.一种基于深度学习的人体时空动作检测系统，其特征在于，所述系统包括：

9.一种基于深度学习的人体时空动作检测设备，包括存储器、处理器、以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-7任一项所述的基于深度学习的人体时空动作检测方法中的各个步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7任一项所述的基于深度学习的人体时空动作检测方法中的各个步骤。