CN117011932A

CN117011932A - 一种奔跑行为检测方法、电子设备及存储介质

Info

Publication number: CN117011932A
Application number: CN202310796643.0A
Authority: CN
Inventors: 赵长福; 谢飞学; 陈维强; 曲磊
Original assignee: Hisense Group Holding Co Ltd
Current assignee: Hisense Group Holding Co Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2023-11-07

Abstract

本申请公开了一种奔跑行为检测方法、电子设备及存储介质，本申请中，首先基于目标检测模型，确定待检测的图像中的待检测对象子图像；然后对待检测对象子图像进行关键点检测，根据检测到的关键点对待检测对象子图像进行区域划分，得到待检测对象的局部区域子图像；最后将待检测对象子图像和局部区域子图像输入行为检测模型，基于行为检测模型确定待检测对象的奔跑行为检测结果。本申请结合待检测对象子图像的特征和局部区域子图像的特征共同进行奔跑行为的检测，提高了奔跑行为检测的准确性。本申请所保护的技术方案具有准确率高、推理速度快、实时性和可复现性较好的特点，符合可信赖特性。

Description

一种奔跑行为检测方法、电子设备及存储介质

技术领域

本申请涉及行为检测技术领域，尤其涉及一种奔跑行为检测方法、电子设备及存储介质。

背景技术

在轨道交通场景中，需要对地铁车站内的通道、站厅、站台等位置检测人群快速奔跑行为，目前的检测方法式通过计算运动速度的方式来判断是否有人员发生快速奔跑事件的发生，但是由于地铁通道、站厅、站台等位置只部署了单台摄像机，即单目测距方式，这样就存在无法检测行人运动速度的真实值，以及受图像近大远小，导致相对速度测量准确性较差的问题，使得地铁车站内快速奔跑事件检测的准确性较差。

发明内容

本申请实施例提供了一种奔跑行为检测方法、电子设备及存储介质，用以解决现有技术奔跑行为检测的准确性较差的问题。

第一方面，本申请提供了一种奔跑行为检测方法，所述方法包括：

获取待检测的图像，将所述图像输入目标检测模型，基于所述目标检测模型确定所述图像中的待检测对象子图像；

对所述待检测对象子图像进行关键点检测，根据检测到的关键点对所述待检测对象子图像进行区域划分，得到所述待检测对象的局部区域子图像；

将所述待检测对象子图像和所述局部区域子图像输入行为检测模型，基于所述行为检测模型对所述待检测对象子图像和所述局部区域子图像进行特征提取、融合和分类，得到所述待检测对象的奔跑行为检测结果。

第二方面，本申请提供了一种奔跑行为检测装置，所述装置包括：

获取模块，用于获取待检测的图像，将所述图像输入目标检测模型，基于所述目标检测模型确定所述图像中的待检测对象子图像；

划分模块，用于对所述待检测对象子图像进行关键点检测，根据检测到的关键点对所述待检测对象子图像进行区域划分，得到所述待检测对象的局部区域子图像；

检测模块，用于将所述待检测对象子图像和所述局部区域子图像输入行为检测模型，基于所述行为检测模型对所述待检测对象子图像和所述局部区域子图像进行特征提取、融合和分类，得到所述待检测对象的奔跑行为检测结果。

第三方面，本申请提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现所述的方法步骤。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法步骤。

本申请提供了一种奔跑行为检测方法、电子设备及存储介质，所述方法包括：获取待检测的图像，将所述图像输入目标检测模型，基于所述目标检测模型确定所述图像中的待检测对象子图像；对所述待检测对象子图像进行关键点检测，根据检测到的关键点对所述待检测对象子图像进行区域划分，得到所述待检测对象的局部区域子图像；将所述待检测对象子图像和所述局部区域子图像输入行为检测模型，基于所述行为检测模型对所述待检测对象子图像和所述局部区域子图像进行特征提取、融合和分类，得到所述待检测对象的奔跑行为检测结果。

上述的技术方案具有如下优点或有益效果：

本申请中，首先基于目标检测模型，确定待检测的图像中的待检测对象子图像；然后对待检测对象子图像进行关键点检测，根据检测到的关键点对待检测对象子图像进行区域划分，得到待检测对象的局部区域子图像；最后将待检测对象子图像和局部区域子图像输入行为检测模型，基于行为检测模型确定待检测对象的奔跑行为检测结果。本申请结合待检测对象子图像的特征和局部区域子图像的特征共同进行奔跑行为的检测，提高了奔跑行为检测的准确性。本申请所保护的技术方案具有准确率高、推理速度快、实时性和可复现性较好的特点，符合可信赖特性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的奔跑行为检测过程示意图；

图2为本申请提供的目标检测模型的训练过程示意图；

图3为本申请提供的目标检测模型的训练过程示意图；

图4为本申请提供的目标检测模型的训练过程示意图；

图5为本申请提供的基于教师模型对学生模型进行模型知识蒸馏，得到目标检测模型的过程示意图；

图6为本申请提供的目标检测模型的训练过程示意图；

图7为本申请提供的奔跑行为检测效果图；

图8为本申请提供的奔跑行为检测过程示意图；

图9为本申请提供的奔跑行为检测过程示意图；

图10为本申请提供的检测模型网络优化示意图；

图11为本申请提供的基于骨骼点的奔跑姿态特征提取示意图；

图12为本申请提供的行为检测模型架构图；

图13为本申请提供的奔跑行为检测准备阶段示意图；

图14为本申请提供的奔跑行为检测推理阶段示意图；

图15为本申请提供的奔跑行为检测装置结构示意图；

图16为本申请提供的电子设备结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

图1为本申请提供的奔跑行为检测过程示意图，该过程包括以下步骤：

S101：获取待检测的图像，将所述图像输入目标检测模型，基于所述目标检测模型确定所述图像中的待检测对象子图像。

S102：对所述待检测对象子图像进行关键点检测，根据检测到的关键点对所述待检测对象子图像进行区域划分，得到所述待检测对象的局部区域子图像。

S103：将所述待检测对象子图像和所述局部区域子图像输入行为检测模型，基于所述行为检测模型对所述待检测对象子图像和所述局部区域子图像进行特征提取、融合和分类，得到所述待检测对象的奔跑行为检测结果。

本申请提供的奔跑行为检测方法应用于电子设备，该电子设备可以是PC、平板电脑等设备，也可以是服务器。

电子设备保存有预先训练完成的目标检测模型，目标检测模型用于从图像中确定出各个目标的类型和位置。目标的类型例如是人员、地面、电梯、广告牌等，目标的位置是指目标在图像中的位置。目标检测模型在训练时，可以基于训练集中的样本图像和样本图像中标注的样本目标的类型和位置，对目标检测模型进行训练。根据目标检测模型输出的预测目标类型和预测目标位置，以及标注的样本目标的类型和位置计算损失值，根据损失值调整目标检测模型的参数，当损失值满足要求时，目标检测模型训练完成。

电子设备获取待检测的图像，其中，待检测的图像可以是地铁车站内的通道、站厅、站台等位置布置的图像采集设备抓拍的图像。获取到待检测的图像之后，将图像输入目标检测模型，基于目标检测模型确定图像中的待检测对象子图像。待检测对象可以是人员，也就是检测出图像中各个人员的子图像。

电子设备确定出待检测对象子图像之后，对待检测对象子图像进行关键点检测。可选的，可以通过人体关键点检测算法，准确的检测出待检测对象子图像中待检测对象(人体)14个主要关键点，包括：左右手肘、左右手腕、左右肩膀、头、脖子、左右脚踝、左右膝盖和左右臀等。根据检测到的关键点对待检测对象子图像进行区域划分，例如将待检测对象子图像中的待检测对象划分为人头、上半身、下半身、左手、右手、左腿以及右腿这七部分，得到待检测对象的局部区域子图像。也就是得到人头区域子图像、上半身区域子图像、下半身区域子图像、左手区域子图像、右手区域子图像、左腿区域子图像以及右腿区域子图像。

电子设备保存有预先训练完成的行为检测模型，行为检测模型用于对待检测对象进行行为检测，本申请中包括对待检测对象进行奔跑行为检测。行为检测模型在训练时，可以基于训练集中的样本对象图像和标注的样本对象是否存在奔跑行为，对行为检测模型进行训练。根据行为检测模型输出的预测奔跑行为检测，以及标注的样本对象是否存在奔跑行为计算损失值，根据损失值调整行为检测模型的参数，当损失值满足要求时，行为检测模型训练完成。较佳的，为了使行为检测模型能够提取更多的特征，在训练行为检测模型时，可以基于训练集中的样本对象图像、样本对象的局部图像和标注的样本对象是否存在奔跑行为，对行为检测模型进行训练。根据行为检测模型输出的预测奔跑行为检测，以及标注的样本对象是否存在奔跑行为计算损失值，根据损失值调整行为检测模型的参数，当损失值满足要求时，行为检测模型训练完成。

电子设备确定出待检测对象的各个局部区域子图像之后，将待检测对象子图像和各个局部区域子图像输入行为检测模型，基于行为检测模型对待检测对象子图像和各个局部区域子图像进行特征提取，然后对提取的各个特征进行融合，再对融合后的特征进行分类，得到待检测对象的奔跑行为检测结果。

可信赖特性：

本申请是基于多目标检测算法、骨骼点提取算法以及分类网络实现的，检测方案可以在给定的时间内完成对于快速奔跑事件的检测，符合可信赖特性中的实时性的特点；

本申请对于同一奔跑事件的图片，即便在不同运行环境中仍然可以检测到奔跑事件，符合可信赖特性中的可复现性的特点；

本申请可以通过用户设置超参数，如：检测与分类的置信度阈值等，进而确定奔跑事件的检出程度，事件检出结果的重视程度以及被采纳的程度可由用户干预，符合可信赖特性中的可控性的特点；

除了具有以上三个可信赖特性，本申请提出一种快速奔跑事件检测方法，该方案可以很好的提高奔跑事件的检测效率和准确性。

目标检测模型包括特征提取网络层、特征融合网络层、分类与检测网络层。图2为本申请提供的目标检测模型的训练过程示意图，包括以下步骤：

S201：将训练集中的样本图像输入特征提取网络层，基于所述特征提取网络层对所述样本图像进行特征提取，得到多尺度特征图。

S202：将所述多尺度特征图输入特征融合网络层，基于所述特征融合网络层对所述多尺度特征图进行融合，得到融合特征图。

S203：将所述融合特征图输入分类与检测网络层，基于所述分类与检测网络层确定所述样本图像的预测类别和预测检测框。

S204：根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练。

目标检测模型包括特征提取网络层、特征融合网络层和分类与检测网络层。括特征提取网络层用于对输入的图像进行特征提取，得到多尺度特征图，多尺度特征图中浅层的特征图的尺度小，深层的特征图的尺度大。特征融合网络层用于对输入的多尺度特征图进行特征融合，得到融合特征图，融合特征图可以是一个也可以是多个。分类与检测网络层用于对输入的融合特征图进行分类与检测，得到图像中的对象是否存在奔跑行为的检测结果。

在训练目标检测模型时，获取训练集中大量的样本图像，每个样本对象存在对应的标注信息，标注信息中包括样本图像中样本对象的真实类别和真实检测框的位置信息。将训练集中的样本图像输入目标检测模型中的特征提取网络层，基于特征提取网络层对样本图像进行特征提取，得到多尺度特征图；将多尺度特征图输入目标检测模型中的特征融合网络层，基于特征融合网络层对多尺度特征图进行融合，得到融合特征图；将融合特征图输入目标检测模型中的分类与检测网络层，基于分类与检测网络层确定样本图像的预测类别和预测检测框的位置信息。根据预测类别和预测检测框，以及样本图像的标注信息中的真实类别和真实检测框，确定目标检测模型的损失值。具体的，根据预测类别和真实类别确定类别损失值，根据预测检测框和真实检测框确定位置损失值，根据类别损失值和位置损失值确定目标检测模型的损失值，当目标检测模型的损失值不满足要求时，调整目标检测模型中特征提取网络层、特征融合网络层和分类与检测网络层的参数，直至目标检测模型的损失值满足要求，目标检测模型训练完成，也就是目标检测模型中特征提取网络层、特征融合网络层和分类与检测网络层的参数训练完成。

考虑到浅层特征图感受野小，更适合检测小目标，深层特征图较大，更适合检测大目标。在地铁行人快速奔跑检测中，行人作为前景中的大目标，更适合从较深的特征图中获取，而浅层特征图起到的作用较小，因此为了提高目标检测模型的检测速度，删除模型的浅层特征。具体的，本申请中，基于所述特征融合网络层对所述多尺度特征图进行融合，得到融合特征图包括：

基于所述特征融合网络层对所述多尺度特征图中预设数量的深层特征图进行融合，得到融合特征图。

预设数量例如是2、3等。例如，多尺度特征图共包含五层，由浅到深分别是第一层特征图、第二层特征图、第三层特征图、第四层特征图、第五层特征图。若预设数量是2，则将基于特征融合网络层对第四层特征图和第五层特征图进行融合，得到融合特征图；若预设数量是3，则将基于特征融合网络层对第三层特征图、第四层特征图和第五层特征图进行融合，得到融合特征图。

图3为本申请提供的目标检测模型的训练过程示意图，包括以下步骤：

S301：将训练集中的样本图像输入所述目标检测模型中的特征提取网络层，基于所述特征提取网络层对所述样本图像进行特征提取，得到多尺度特征图。

S302：将所述多尺度特征图输入所述目标检测模型中的特征融合网络层，基于所述特征融合网络层对所述多尺度特征图中预设数量的深层特征图进行融合，得到融合特征图。

S303：将所述融合特征图输入所述目标检测模型中的分类与检测网络层，基于所述分类与检测网络层确定所述样本图像的预测类别和预测检测框。

S304：根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练。

为了提高目标检测模型的准确性，本申请中，对所述目标检测模型进行训练包括：

将根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练得到的模型作为初始目标检测模型；

获取基于大规模数据集训练的目标检测大模型，以所述目标检测大模型作为教师模型，以所述初始目标检测模型作为学生模型，基于所述教师模型对所述学生模型进行模型知识蒸馏，得到所述目标检测模型。

电子设备获取基于大规模数据集训练的目标检测大模型，目标检测大模型例如是以COCO数据下预训练的yolov5目标检测模型。将目标检测大模型作为教师模型，将根据预测类别和预测检测框，以及样本图像的标注信息中的真实类别和真实检测框，对目标检测模型进行训练得到的初始目标检测模型作为学生模型，基于教师模型对学生模型进行模型知识蒸馏，得到目标检测模型。这样得到的目标检测模型能够学习到目标检测大模型的知识，从而进一步提高了目标检测模型的准确性。

图4为本申请提供的目标检测模型的训练过程示意图，包括以下步骤：

S401：将训练集中的样本图像输入所述目标检测模型中的特征提取网络层，基于所述特征提取网络层对所述样本图像进行特征提取，得到多尺度特征图。

S402：将所述多尺度特征图输入所述目标检测模型中的特征融合网络层，基于所述特征融合网络层对所述多尺度特征图中预设数量的深层特征图进行融合，得到融合特征图。

S403：将所述融合特征图输入所述目标检测模型中的分类与检测网络层，基于所述分类与检测网络层确定所述样本图像的预测类别和预测检测框。

S404：将根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练得到的模型作为初始目标检测模型。

S405：获取基于大规模数据集训练的目标检测大模型，以所述目标检测大模型作为教师模型，以所述初始目标检测模型作为学生模型，基于所述教师模型对所述学生模型进行模型知识蒸馏，得到所述目标检测模型。

本申请中，基于所述教师模型对所述学生模型进行模型知识蒸馏，得到所述目标检测模型包括：

以所述教师模型的检测结果与所述学生模型的检测结果的差值作为第一误差损失；其中，所述第一误差损失包含所述教师模型与所述学生模型预测的第一类别损失和第一位置损失；

以所述学生模型的检测结果和标注的真实结果的差值作为第二误差损失，其中，所述第二误差损失包含所述学生模型与所述标注的真实结果的第二类别损失和第二位置损失；

根据所述第一误差损失和所述第二误差损失，确定总误差损失；根据所述总误差损失对所述学生模型进行模型知识蒸馏，得到所述目标检测模型。

基于教师模型对学生模型进行模型知识蒸馏时，将同一样本图像分别输入教师模型和学生模型，教师模型和学生模型分别输出样本图像的检测结果。根据教师模型的检测结果与学生模型的检测结果的差值确定第一误差损失。其中，教师模型和学生模型分别输出样本图像的检测结果包括预测类别结果和预测位置结果，根据教师模型的预测类别结果与学生模型的预测类别结果的差值确定第一类别损失，根据教师模型的预测位置结果与学生模型的预测位置结果的差值确定第一位置损失，根据第一类别损失和第一位置损失确定第一误差损失。

将样本图像输入学生模型，学生模型输出样本图像的检测结果，根据学生模型的检测结果和标注的真实结果的差值确定第二误差损失。具体的，学生模型输出样本图像的检测结果包括预测类别结果和预测位置结果，根据预测类别结果和样本对象对应的标注的真实类别的差值确定第二类别损失，根据预测位置结果和样本对象对应的标注的真实位置的差值确定第二位置损失，根据第二类别损失和第二位置损失确定第二误差损失。

最后根据第一误差损失和第二误差损失，确定总误差损失；根据总误差损失调整学生模型的参数，直至总误差损失满足要求时，对学生模型进行模型知识蒸馏完成，得到目标检测模型。

图5为本申请提供的基于教师模型对学生模型进行模型知识蒸馏，得到目标检测模型的过程示意图，包括以下步骤：

S501：以所述教师模型的检测结果与所述学生模型的检测结果的差值作为第一误差损失；其中，所述第一误差损失包含所述教师模型与所述学生模型预测的第一类别损失和第一位置损失。

S502：以所述学生模型的检测结果和标注的真实结果的差值作为第二误差损失，其中，所述第二误差损失包含所述学生模型与所述标注的真实结果的第二类别损失和第二位置损失。

S503：根据所述第一误差损失和所述第二误差损失，确定总误差损失；根据所述总误差损失对所述学生模型进行模型知识蒸馏，得到所述目标检测模型。

为了进一步提高目标检测模型的检测速度，本申请中，训练得到所述目标检测模型之后，所述方法还包括：

通过神经网络推断加速引擎对所述目标检测模型进行网络精度加速和模型文件格式加速。

采用神经网络推断加速引擎TensorRT Inference引擎进行模型加速，主要从以下两个方面进行。

1、降低数据的精度，模型训练通常使用32位或16位数据。而TensorRT支持kFLOAT(float32)、kHALF(float16)、kINT8(int8)三种精度的计算。可以通过低精度进行网络推理，达到加速的目的。

2、模型压缩，TensorRT对网络结构进行重构，把一些能合并的运算合并在一起，从而进行加速。主要包括垂直合并以及水平合并。

具体实现步骤为，首先获取TensorRT源码，并将知识蒸馏后获得yolov5s模型.pt权重文件转化为后缀.wts模型，然后搭建软件依赖环境，如CUDA、cuDNN、Cmake软件等，最后通过TensorRT对优化后的Yolov5s模型进行加速，获得后缀为.engine模型文件。通过实验，在显卡配置为NVIDIA Tesla T4显卡，内存配置为125G，CPU配置为72核CPU(CPU型号：Intel(R)Xeon(R)Gold 6254CPU@3.10GHz)的服务器中，未加速的yolov5s检测模型推理一帧大约需要10ms，而加速后推理一帧大约需要4ms，检测速度大约提升一倍。

图6为本申请提供的目标检测模型的训练过程示意图，包括以下步骤：

S601：将训练集中的样本图像输入所述目标检测模型中的特征提取网络层，基于所述特征提取网络层对所述样本图像进行特征提取，得到多尺度特征图。

S602：将所述多尺度特征图输入所述目标检测模型中的特征融合网络层，基于所述特征融合网络层对所述多尺度特征图中预设数量的深层特征图进行融合，得到融合特征图。

S603：将所述融合特征图输入所述目标检测模型中的分类与检测网络层，基于所述分类与检测网络层确定所述样本图像的预测类别和预测检测框。

S604：根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练。

S605：通过神经网络推断加速引擎对所述目标检测模型进行网络精度加速和模型文件格式加速。

为了提高确定待检测对象子图像的效率，本申请中，基于所述目标检测模型确定所述图像中的待检测对象子图像包括：

获取预先绘制的对象检测区域，基于所述目标检测模型确定所述对象检测区域中的待检测对象子图像。

图7为本申请提供的奔跑行为检测效果图，如图7所示，图中包括预先绘制的对象检测区域，基于目标检测模型只需对对象检测区域内的部分进行待检测对象子图像的确定，不对对象检测区域外的部分进行处理，提高了确定待检测对象子图像的效率。

图8为本申请提供的奔跑行为检测过程示意图，该过程包括以下步骤：

S801：获取待检测的图像，将所述图像输入目标检测模型，获取预先绘制的对象检测区域，基于所述目标检测模型确定所述对象检测区域中的待检测对象子图像。

S802：对所述待检测对象子图像进行关键点检测，根据检测到的关键点对所述待检测对象子图像进行区域划分，得到所述待检测对象的局部区域子图像。

S803：将所述待检测对象子图像和所述局部区域子图像输入行为检测模型，基于所述行为检测模型对所述待检测对象子图像和所述局部区域子图像进行特征提取、融合和分类，得到所述待检测对象的奔跑行为检测结果。

为了能够准确提示管理人员待检测对象存在奔跑行为，本申请中，所述方法还包括：

统计确定所述待检测对象存在奔跑行为的连续帧数量，当所述连续帧数量达到预设的数量阈值时，输出用于表征所述待检测对象存在奔跑行为的报警提示信息。

预设的数量阈值例如是3帧、5帧等。当确定待检测对象存在奔跑行为的连续帧数量达到预设的数量阈值时，可以通过声光报警器输出用于表征待检测对象存在奔跑行为的报警提示信息。也可以通过通讯的方式向管理人员的终端设备输出用于表征待检测对象存在奔跑行为的报警提示信息，此时报警提示信息可以是语音信息、文字信息或者震动信息等。

图9为本申请提供的奔跑行为检测过程示意图，该过程包括以下步骤：

S901：获取待检测的图像，将所述图像输入目标检测模型，获取预先绘制的对象检测区域，基于所述目标检测模型确定所述对象检测区域中的待检测对象子图像。

S902：对所述待检测对象子图像进行关键点检测，根据检测到的关键点对所述待检测对象子图像进行区域划分，得到所述待检测对象的局部区域子图像。

S903：将所述待检测对象子图像和所述局部区域子图像输入行为检测模型，基于所述行为检测模型对所述待检测对象子图像和所述局部区域子图像进行特征提取、融合和分类，得到所述待检测对象的奔跑行为检测结果。

S904：统计确定所述待检测对象存在奔跑行为的连续帧数量，当所述连续帧数量达到预设的数量阈值时，输出用于表征所述待检测对象存在奔跑行为的报警提示信息。

下面结合附图对本申请提供的奔跑行为检测过程进行详细说明。

本申请提供的奔跑行为检测方法，能够实现轨道交通高效、准确的多行人快速奔跑检测。首先获取Yolov5x的预训练模型，对优化后的Yolov5s网络进行训练，并将Yolov5x模型作为教师模型，将Yolov5s模型作为学生模型，进行知识蒸馏，获得性能更好Yolov5s检测模型，并通过TensorRT Inference引擎进行加速，提高检测速度。然后获取行人运动的图像数据集，通过骨骼点提取算法，获取人体的局部区域，对行人奔跑分类网络模型进行训练，使网络获得检测行人奔跑的能力。最后通过实时获取视频流并进行抽帧，通过行人奔跑分类网络对图像是否存在奔跑进行检测，当有多帧以及多个人存在奔跑行为时，则确定有快速奔跑事件发生并报警。

目标检测模型的模型加速方案如下：

1、目标检测模型网络优化。

YOLOv5s模型主要由主干特征提取网络层(Backbone)、多尺度融合层(Neck)和分类与检测层(Head)三部分组成，其中Backbone主要负责对输入图像进行特征提取。Neck负责对特征图进行多尺度特征融合，并把这些特征传递给预测层。Head进行最终的回归预测。由于物体在图像中的大小和位置是不确定的。因此采用特征金字塔作为一种多尺度目标检测技术，用来处理不同尺度和大小的目标，它可以通过在骨干网络上添加不同尺度的特征层来实现。

传统的Yolov5模型中，采用的是FPN(Feature Pyramid Network)特征金字塔结构，通过上采样和下采样操作将不同层次的特征图融合在一起，生成多尺度的特征金字塔，通过实验发现浅层特征图感受野小，更适合检测小目标，深层特征图较大，更适合检测大目标。在地铁行人快速奔跑检测中，行人作为前景中的大目标，更适合从较深的特征图中获取，而浅层特征图起到的作用较小，因此为了提高模型的检测速度，删除模型的浅层特征，优化后的网络模型具体如下图所示。最终优化后的Yolov5s检测模型的输出层只包含两个特定大小的特征图，分为是38*38*255，19*19*255。其中225维可以分解为3*85，其中3为3个不同的先验框，85为检测框位置(4维)、检测置信度(1维)、类别(80维)，之后将检测框、置信度以及类别信息解码出来，就可以确定图像中目标的位置等信息。

图10为本申请提供的检测模型网络优化示意图，图中的Focus是指下采样Focus层，Conv是指卷积层，C3是指C3模块，C3模块的作用是：1、在新版yolov5中，将BottleneckCSP(瓶颈层)模块转变为了C3模块，其结构作用基本相同均为CSP架构，只是在修正单元的选择上有所不同，其包含了3个标准卷积层以及多个Bottleneck模块(数量由配置文件.yaml的n和depth_multiple参数乘积决定)；2、C3相对于BottleneckCSP模块不同的是，经历过残差输出后的Conv模块被去掉了，concat后的标准卷积模块中的激活函数也由LeakyRelu变为了SiLU(同上)。3、该模块是对残差特征进行学习的主要模块,其结构分为两支,一支使用了上述指定多个Bottleneck堆叠和3个标准卷积层，另一支仅经过一个基本卷积模块，最后将两支进行concat操作。SSP是指空间金字塔池化层，Concat是指拼接层，Upsample是指上采样层。

2、目标检测模型知识蒸馏。

以COCO数据下预训练的yolov5目标检测算法为例，以经过微调后的yolov5x作为教师模型，以优化后并微调的yolov5s作为学生模型，以教师模型检测的结果与学生模型检测结果的差值作为误差损失第一部分，其中误差损失包含教师模型与学生模型预测的类别损失和位置损失，以学生模型的检测结果和真值结果作为误差损失的第二部分，其中误差损失包含学生模型与实际结果的类别损失和位置损失，那么总的误差定义为L_final，具体表达式为：

其中f_bb为边界框回归目标函数，f_cl为分类概率目标函数，f_obj目标得分函数，为学生网络的输出结果，/>为教师网络的输出结果，/>为目标真值。

具体表达式为：

最后将通过知识蒸馏训练后的yolov5s模型权重保存为.pt文件格式，以用于后续推理阶段。

3、硬件加速。

在模型的推理阶段，采用TensorRT Inference引擎进行模型加速，主要从以下两个方面进行。降低数据的精度，模型训练通常使用32位或16位数据。而TensorRT支持kFLOAT(float32)、kHALF(float16)、kINT8(int8)三种精度的计算。可以通过低精度进行网络推理，达到加速的目的。模型压缩，TensorRT对网络结构进行重构，把一些能合并的运算合并在一起，从而进行加速。主要包括垂直合并以及水平合并。具体实现步骤为，首先获取TensorRT源码，并将知识蒸馏后获得yolov5s模型.pt权重文件转化为后缀.wts模型，然后搭建软件依赖环境，如CUDA、cuDNN、Cmake软件等，最后通过TensorRT对优化后的Yolov5s模型进行加速，获得后缀为.engine模型文件。通过实验，在显卡配置为NVIDIA Tesla T4显卡，内存配置为125G，CPU配置为72核CPU(CPU型号：Intel(R)Xeon(R)Gold 6254CPU@3.10GHz)的服务器中，未加速的yolov5s检测模型推理一帧大约需要10ms，而加速后推理一帧大约需要4ms，检测速度大约提升一倍。

快速奔跑检测方案如下：

1、基于姿态估计的奔跑姿态特征提取。

通过姿态估计提取算法(如openpose等)获取人体14姿态估计点，并将整个人体分为7部分，包括，人头、上半身、下半身、左手、右手、左腿以及右腿，通过这7部分很好的表现出人体奔跑的姿态特征，为奔跑姿态模型检测网路提供训练特征数据。图11为本申请提供的基于骨骼点的奔跑姿态特征提取示意图。

2、奔跑姿态检测模型训练过程。

采集大量地铁行人运动的照片，通过数据标注平台以人工的标注方式为数据打标签，例如：奔跑的行人为1，不奔跑的行人为0，并将整个数据集按照训练集:验证集:测试集＝7:1:2的比例进行划分。将训练集输入到奔跑姿态检测模型训练网络中，通过基于姿态估计的奔跑姿态特征提取(FEN)网络，以及奔跑姿态特征融合网络，获得整个行人的特征图，通过对特征图输入到全连接网络中，并以交叉熵损失函数作为误差损失，将行人特征提取转变为一个二分类的问题。因此可以检测行人的姿态特征，作为是否发生快速奔跑的依据。

图12为本申请提供的行为检测模型架构图，图12中，Feature Extraction Net(FEN)为奔跑姿态特征提取层，用于对待检测对象子图像和局部区域子图像进行特征提取。其中，FEN-C1、FEN-C2和FEN-C3为卷积层，FEN-P1、FEN-P2为池化层，CNN为卷积神经网络，ROI是Region of interest的简写，指的是Faster R-CNN结构中，经过RPN层后，产生的proposal对应的box框。ROI Pooling是pooling层的一种，而且是针对ROIs的pooling。整个ROI的过程，就是将这些proposal抠出来的过程，得到大小统一的feature map。FeatureFusion Net(FFN)为奔跑姿态特征融合层，FFN-1、FFN-2、FFN-3、FFN-4是指四个奔跑姿态特征融合层，Legs是指腿部特征，Arms是指手部特征，LowerBody是指下半身特征，UpperBody是指上半身特征，BodyFusion是指人头特征，WHoleFusion是指待检测对象子图像整体特征。Identification是指识别层，FC是指全连接层，Softmax是指归一化层。

奔跑行为检测准备阶段如下：

1、获取网络模型。

首先在COCO数据集上对优化后的yolov5s网络模型进行训练，保存训练好的模型权重文件(Yolov5s.pt)，并将其作为学生模型，然后获取在COCO数据集上预训练好的Yolov5x.pt，并将其作为教师模型，通过基于响应的知识蒸馏方法对优化后的yolov5s网络模型进一步的提升目标检测的精度。

2、硬件加速方法。

在模型的推理阶段，采用TensorRT Inference引擎对优化后的yolov5s模型进行加速，获得加速之后的后缀为.engine模型文件。

3、数据集准备。

首先要准备数据集，收集行人走路的数据集和奔跑数据集共4万图像，并按照训练集与测试集7：3的比例进行划分，用于后续奔跑姿态分类模型的训练。

4、奔跑姿态分类模型训练。

采用人体骨骼点提取算法(如：openpose等)提取身体的各个区域，进行网络训练，这样就训练好满足快速奔跑检测需求的网络模型。

图13为本申请提供的奔跑行为检测准备阶段示意图，包括目标检测模型训练、硬件加速和行为检测模型训练。目标检测模型训练包括获取预训练权重、训练优化后的网络模型和知识蒸馏；硬件加速包括检测区域、特征提取和目标位置；行为检测模型训练包括数据集准备、骨骼点提取与局部裁剪和奔跑姿态分类模型训练。

奔跑行为检测推理阶段如下：

1、获取视频：

对相机视频流进行视频解码，按照设定算法运行帧率进行图片抽帧。

2、目标区域绘制：

依据实际的检测需求，针对轨道交通中的站厅、站台、通道等场景检测图像中区域的绘制。

3、人体目标检测：对于每一帧图像采用经过知识蒸馏以及硬件加速后的Yolov5s算法目标检测算法进行人体检测，输出检测到的行人的人体框坐标[x,y,w,h]以及置信度confidence。

4、人体骨骼点提取：对于每个行人框，通过姿态估计提取算法(如openpose等)获取人体14姿态估计点，并将整个人体裁剪为7部分，包括，人头、上半身、下半身、左手、右手、左腿以及右腿。

5、奔跑姿态检测：将行人的局部特征图像输入到姿态识别网络，通过局部特征提取网络以及行人姿态特征融合网络，获得整个行人的特征图，通过对特征图输入到全连接网络中，经过Softmax函数进行归一化后，获得行人运动特征分类的置信度。

6、输出事件：将置信度与预先设的奔跑阈值进行比较，当大于阈值时则认为该行人处于奔跑状态，然后重复上述步骤5，检测是否有多人处于奔跑状态，接着重复上述步骤3，是否存在多帧多行人快速奔跑图像，如果存在，则认为发生快速移动事件。最后当有快速移动事件发生时，判断距离上次报警事件是否超过了预先设置的报警间隔，如果大于报警间隔，则输出报警事件，否则重复上述步骤3。

图14为本申请提供的奔跑行为检测推理阶段示意图，包括获取视频、人体目标检测、奔跑姿态检测和输出事件。获取视频包括输入视频流、视频解码和图片抽帧；人体目标检测包括检测区域、特征提取和目标位置；奔跑姿态检测包括目标骨骼点提取、人体局部裁剪和奔跑检测；输出事件包括奔跑人数、奔跑帧数和输出事件。

图15为本申请提供的奔跑行为检测装置结构示意图，包括：

获取模块151，用于获取待检测的图像，将所述图像输入目标检测模型，基于所述目标检测模型确定所述图像中的待检测对象子图像；

划分模块152，用于对所述待检测对象子图像进行关键点检测，根据检测到的关键点对所述待检测对象子图像进行区域划分，得到所述待检测对象的局部区域子图像；

检测模块153，用于将所述待检测对象子图像和所述局部区域子图像输入行为检测模型，基于所述行为检测模型对所述待检测对象子图像和所述局部区域子图像进行特征提取、融合和分类，得到所述待检测对象的奔跑行为检测结果。

所述目标检测模型包括特征提取网络层、特征融合网络层、分类与检测网络层。

获取模块151，还用于将训练集中的样本图像输入特征提取网络层，基于所述特征提取网络层对所述样本图像进行特征提取，得到多尺度特征图；将所述多尺度特征图输入特征融合网络层，基于所述特征融合网络层对所述多尺度特征图进行融合，得到融合特征图；将所述融合特征图输入分类与检测网络层，基于所述分类与检测网络层确定所述样本图像的预测类别和预测检测框；根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练。

获取模块151，具体用于基于所述特征融合网络层对所述多尺度特征图中预设数量的深层特征图进行融合，得到融合特征图。

获取模块151，还用于将根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练得到的模型作为初始目标检测模型；获取基于大规模数据集训练的目标检测大模型，以所述目标检测大模型作为教师模型，以所述初始目标检测模型作为学生模型，基于所述教师模型对所述学生模型进行模型知识蒸馏，得到所述目标检测模型。

获取模块151，具体用于以所述教师模型的检测结果与所述学生模型的检测结果的差值作为第一误差损失；其中，所述第一误差损失包含所述教师模型与所述学生模型预测的第一类别损失和第一位置损失；以所述学生模型的检测结果和标注的真实结果的差值作为第二误差损失，其中，所述第二误差损失包含所述学生模型与所述标注的真实结果的第二类别损失和第二位置损失；根据所述第一误差损失和所述第二误差损失，确定总误差损失；根据所述总误差损失对所述学生模型进行模型知识蒸馏，得到所述目标检测模型。

获取模块151，还用于通过神经网络推断加速引擎对所述目标检测模型进行网络精度加速和模型文件格式加速。

获取模块151，具体用于获取预先绘制的对象检测区域，基于所述目标检测模型确定所述对象检测区域中的待检测对象子图像。

检测模块153，还用于统计确定所述待检测对象存在奔跑行为的连续帧数量，当所述连续帧数量达到预设的数量阈值时，输出用于表征所述待检测对象存在奔跑行为的报警提示信息。

本申请还提供了一种电子设备，如图16所示，包括：处理器161、通信接口162、存储器163和通信总线164，其中，处理器161，通信接口162，存储器163通过通信总线164完成相互间的通信；

所述存储器163中存储有计算机程序，当所述程序被所述处理器161执行时，使得所述处理器161执行以上任一方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口162用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

本申请还提供了一种计算机存储可读存储介质，所述计算机可读存储介质内存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行时实现以上任一方法步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种奔跑行为检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述目标检测模型包括特征提取网络层、特征融合网络层、分类与检测网络层；

所述目标检测模型的训练过程包括：

将训练集中的样本图像输入所述特征提取网络层，基于所述特征提取网络层对所述样本图像进行特征提取，得到多尺度特征图；

将所述多尺度特征图输入所述特征融合网络层，基于所述特征融合网络层对所述多尺度特征图进行融合，得到融合特征图；

将所述融合特征图输入所述分类与检测网络层，基于所述分类与检测网络层确定所述样本图像的预测类别和预测检测框；

根据所述预测类别和预测检测框，以及所述样本图像的标注信息中的真实类别和真实检测框，对所述目标检测模型进行训练。

3.如权利要求2所述的方法，其特征在于，基于所述特征融合网络层对所述多尺度特征图进行融合，得到融合特征图包括：

4.如权利要求3所述的方法，其特征在于，对所述目标检测模型进行训练包括：

5.如权利要求4所述的方法，其特征在于，基于所述教师模型对所述学生模型进行模型知识蒸馏，得到所述目标检测模型包括：

6.如权利要求1至5任一项所述的方法，其特征在于，训练得到所述目标检测模型之后，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，基于所述目标检测模型确定所述图像中的待检测对象子图像包括：

8.如权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-8任一项所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任一项所述的方法步骤。