CN111191486B

CN111191486B - 一种溺水行为识别方法、监控相机及监控系统

Info

Publication number: CN111191486B
Application number: CN201811353946.0A
Authority: CN
Inventors: 罗祥; 谭文明; 王轩瀚
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2023-09-05
Anticipated expiration: 2038-11-14
Also published as: CN111191486A

Abstract

本申请实施例提供了一种溺水行为识别方法、监控相机及监控系统，其中，方法包括：采集监控水域内的多帧图像；将多帧图像中的单帧图像输入预设深度神经网络模型，得到单帧图像中各人体目标的溺水置信度，预设深度神经网络模型为预先根据人体目标溺水时从水域上方采集到的包含人体目标的关键点位置信息的样本图像训练得到的深度神经网络模型；针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为。通过本方案，可以提高溺水行为的识别精度。

Description

一种溺水行为识别方法、监控相机及监控系统

技术领域

本申请涉及智能监控技术领域，特别是涉及一种溺水行为识别方法、监控相机及监控系统。

背景技术

游泳作为一项放松神经、锻炼心肺功能的绝佳运动，一直是人们健身锻炼的首选。然而，人们在游泳时存在一定溺水的危险，溺水的进程很快，一般4至7分钟就可因呼吸心跳停止而导致死亡。

为了应对溺水情况的发生，多在水域周围安排多个救生员，救生员时刻观察水域中游泳者的情况，一旦发现有人溺水，立即实施营救。然而，由于水域中的游泳者众多，人工监控难免会有所疏漏，导致监控效率较低。

为了解决人工监控效率低的问题，相应的在水域底部布置有水下监控系统，通过水下监控系统对游泳者游泳动作的动作频率进行检测，利用动作频率来判断游泳者是否溺水。通常情况下，如果发生溺水，游泳者会由于挣扎而加快动作频率。但是，由于个人游泳习惯的不同，有些游泳者在正常游泳时动作频率较快，这些游泳者的正常游泳行为易被识别为溺水行为，导致识别精度不高。

发明内容

本申请实施例的目的在于提供一种溺水行为识别方法、监控相机及监控系统，以提高溺水行为的识别精度。具体技术方案如下：

第一方面，本申请实施例提供了一种溺水行为识别方法，所述方法包括：

采集监控水域内的多帧图像；

将所述多帧图像中的单帧图像输入预设深度神经网络模型，得到所述单帧图像中各人体目标的溺水置信度，其中，所述预设深度神经网络模型为预先根据人体目标溺水时从水域上方采集到的包含人体目标的关键点位置信息的样本图像训练得到的深度神经网络模型；

针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为。

可选的，所述预设深度神经网络模型包括，预设多任务神经网络框架；

所述将所述多帧图像中的单帧图像输入预设深度神经网络模型，得到所述单帧图像中各人体目标的溺水置信度，包括：

将所述多帧图像中的单帧图像输入所述预设多任务神经网络框架，得到所述单帧图像中各人体目标的关键点位置信息及溺水类别置信度；

所述针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为，包括：

针对各人体目标，根据该人体目标的溺水类别置信度，识别该人体目标是否存在溺水行为。

可选的，所述预设深度神经网络模型还包括，预设行为识别网络模型；

在所述将所述多帧图像中的单帧图像输入预设多任务神经网络框架，得到所述单帧图像中各人体目标的关键点位置信息及溺水类别置信度之后，所述方法还包括：

针对同一人体目标，基于各单帧图像中该人体目标的关键点位置信息，构建该人体目标的张量信息，所述张量信息表征在时间域上人体目标的关键点位置；

将各人体目标的张量信息分别输入所述预设行为识别网络模型，得到各人体目标的溺水行为置信度；

针对各人体目标，根据该人体目标的溺水类别置信度和/或溺水行为置信度，识别该人体目标是否存在溺水行为。

可选的，所述预设多任务神经网络框架，包括：人体目标检测网络模型、特征金字塔网络模型、区域特征聚集模型、人体姿态估计网络模型以及溺水类别识别网络模型；

所述将所述多帧图像中的单帧图像输入所述预设多任务神经网络框架，得到所述单帧图像中各人体目标的关键点位置信息及溺水类别置信度，包括：

将所述多帧图像中的单帧图像输入所述人体目标检测网络模型，得到所述单帧图像中各人体目标框的位置信息、以及在所述人体目标检测网络模型的运算过程中对所述单帧图像进行不同倍数的下采样得到的多张特征图；

将各特征图分别输入所述特征金字塔网络模型，得到各特征图对应的输出特征图；

将各人体目标框的位置信息及各输出特征图输入所述区域特征聚集模型，得到多个相同分辨率的特征图，并对所述多个相同分辨率的特征图进行融合处理，得到融合特征图；

将所述融合特征图输入所述人体姿态估计网络模型，得到所述单帧图像中各人体目标的关键点位置信息；

将所述融合特征图输入所述溺水类别识别网络模型，得到所述单帧图像中各人体目标的溺水类别置信度。

可选的，所述人体目标检测网络模型为YOLO检测网络模型，所述特征金字塔网络模型为FPN模型，所述区域特征聚集模型为ROIAlign模型。

可选的，所述人体姿态估计网络模型包括：第一卷积层、反卷积层及双线性插值层；所述溺水类别识别网络模型为第一卷积神经网络模型，所述第一卷积神经网络模型包括第一卷积层、最大池化层、1×1卷积层及分类层；

所述将所述融合特征图输入所述人体姿态估计网络模型，得到所述单帧图像中各人体目标的关键点位置信息，包括：

将所述融合特征图输入所述第一卷积层，得到第一卷积层输出特征图；

将所述第一卷积层输出特征图输入所述反卷积层，通过反卷积操作，对所述第一卷积层输出特征图进行第一预设倍数的上采样，得到上采样特征图；

将所述上采样特征图输入所述双线性插值层，通过双线性插值运算，对所述上采样特征图进行第二预设倍数的上采样，得到关键点热图；

根据所述关键点热图的通道数及所述关键点热图中的特征值，确定所述单帧图像中各人体目标的关键点数量及关键点位置信息，其中，所述关键点数量与所述通道数相同，各通道的关键点热图中的最大特征值的位置信息为关键点位置信息。

可选的，所述预设行为识别网络模型为第二卷积神经网络模型，所述第二卷积神经网络模型包括第二卷积层、最大池化层、1×1卷积层及分类层。

可选的，所述针对各人体目标，根据该人体目标的溺水类别置信度和/或溺水行为置信度，识别该人体目标是否存在溺水行为，包括：

针对各人体目标，若该人体目标的溺水类别置信度大于第一预设阈值，则确定该人体目标存在溺水行为；

或者，

针对各人体目标，若该人体目标的溺水行为置信度大于第二预设阈值，则确定该人体目标存在溺水行为；

或者，

针对各人体目标，若该人体目标的溺水类别置信度与溺水行为置信度的均值大于第三预设阈值，则确定该人体目标存在溺水行为。

第二方面，本申请实施例提供了一种监控相机，所述监控相机包括摄像头、处理器及机器可读存储介质；

所述摄像头，用于采集监控水域内的多帧图像，并将所述多帧图像发送至所述处理器；

所述机器可读存储介质，用于存储能够被所述处理器执行的机器可执行指令；

所述处理器，用于被所述机器可执行指令促使实现本申请实施例第一方面所述的方法步骤。

可选的，所述监控相机还包括：警报器；

所述处理器，还用于实现在识别到任一人体目标存在溺水行为时，向所述报警器发送报警信息；

所述报警器，用于根据所述报警信息，发射报警信号。

第三方面，本申请实施例提供了一种机器可读存储介质，所述机器可读存储介质存储有机器可执行指令，在被处理器调用和执行时，实现本申请实施例第一方面所述的方法步骤。

第四方面，本申请实施例提供了一种监控系统，所述监控系统包括多个本申请实施例第二方面所述的监控相机；

所述多个监控相机架设在监控水域上方；所述多个监控相机的总监控水域覆盖整个待监控水域。

可选的，所述监控系统还包括报警器；

任一所述监控相机在识别到任一人体目标存在溺水行为时，向所述报警器发送报警信息；

所述报警器，用于根据所述报警信息，发射报警信号。

本申请实施例提供的一种溺水行为识别方法、监控相机及监控系统，通过架设在水域上方的多个监控相机分别采集各自监控水域内的多帧图像，将多帧图像中的单帧图像输入预设深度神经网络模型，得到单帧图像中各人体目标的溺水置信度，针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为。通过监控相机对监控水域进行图像拍摄，利用预设深度神经网络模型可以得到单帧图像中各人体目标的溺水置信度，根据溺水置信度即可判断人体目标是否存在溺水行为。由于预设深度神经网络模型为端到端的神经网络模型架构，具有强大的特征表达能力，因此，实现了基于深度学习的溺水行为识别。预设深度神经网络模型是预先根据人体目标溺水时从水域上方采集到的包含人体目标的关键点位置信息的样本图像训练得到的，在进行溺水行为识别时，准确率高、速度快，从而提高了溺水行为的识别精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的监控系统的结构示意图；

图2为本申请实施例的溺水行为识别方法的流程示意图；

图3为本申请实施例的单帧图像中各人体目标的关键点位置信息及溺水类别置信度获取的流程示意图；

图4为本申请实施例的张量信息的示意图；

图5为本申请实施例的行为识别流程示意图；

图6为本申请实施例的监控相机的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提高溺水行为的识别精度，本申请实施例提供了一种溺水行为识别方法、监控相机及监控系统。

监控系统包括多个监控相机，如图1所示，监控系统中的各监控相机以一定的角度架设于待监控水域的上方，每个监控相机监控一部分水域，所有监控相机的总监控水域能够覆盖整个待监控水域。这里所提及的水域为广义的概念，可以包括泳池、海滩、水上游乐场等，待监控水域即为整个泳池、海滩、水上游乐场，每个监控相机监控待监控水域中的一部分水域。

本申请实施例所提供的溺水行为识别方法可以在监控系统的各监控相机中执行，各监控相机除了有图像采集功能，还需具有行为检测与识别等处理功能；溺水行为识别方法还可以在监控系统的后台处理器中执行。然而，由于溺水营救的时间紧迫，为了保证溺水识别的实时性，通常由具有处理功能的监控相机来执行溺水行为识别方法。实现本申请实施例所提供的一种溺水行为识别方法的方式可以为设置于监控相机中的软件、硬件电路和逻辑电路中的至少一种方式。

如图2所示，本申请实施例所提供的一种溺水行为识别方法可以包括如下步骤：

S201，采集监控水域内的多帧图像。

基于图1所示的监控系统，每一个监控相机分别对各自覆盖的监控水域进行监控，实时采集水域内的图像，监控相机可以是连续性的拍摄视频，也可以是按照一定的间隔拍摄多帧图像。

S202，将多帧图像中的单帧图像输入预设深度神经网络模型，得到单帧图像中各人体目标的溺水置信度。

其中，预设深度神经网络模型为预先根据人体目标溺水时从水域上方采集到的包含人体目标的关键点位置信息的样本训练得到的端对端的深度神经网络模型，通过将单帧图像输入预设深度神经网络模型，就可以端对端的输出单帧图像中人体目标的溺水置信度。溺水置信度为水中的人体目标发生溺水行为的概率程度，溺水置信度越高，则人体目标发生溺水行为的概率就越大。

人体目标的关键点，即为一个人体目标最主要的特征显示点，尤其对于溺水行为识别而言，游泳者在溺水时，手部、肘部、肩部、头部会与正常游泳有明显区别，因此，本实施例中所提及的人体目标的关键点主要包括上述手部、肘部、肩部和头部等。基于预先拍摄的人体目标溺水时的图片作为样本图片进行深度神经网络模型的训练，由于样本图片中包含了人体目标在溺水时关键点位置信息等特征信息，关键点位置信息可以代表人体目标存在溺水行为，因此深度神经网络模型的输出的溺水行为的置信度的可靠性较高。

可选的，预设深度神经网络模型可以包括，预设多任务神经网络框架。

相应的，S202具体可以为：

将多帧图像中的单帧图像输入预设多任务神经网络框架，得到单帧图像中各人体目标的关键点位置信息及溺水类别置信度。

预设多任务神经网络框架为可以实现分类、检测、分割、人体姿态估计等多种任务的端到端的神经网络框架，例如Mask R-CNN(Mask Regions with Convolutional NeuralNetworks，掩码区域卷积神经网络)。Mask R-CNN是一种小巧、灵活的通用对象实例分割框架，它不仅可以对图像中的目标进行检测，还可以对每一个目标给出一个高质量的分割结果。当然，其他能够实现人体姿态估计、人体关键点识别的神经网络框架也属于本申请实施例的保护范围，这里不再赘述。

通过将单帧图像输入例如Mask R-CNN的预设多任务神经网络框架后，输出的即为该单帧图像中各人体目标的关键点位置信息及溺水类别置信度。溺水类别置信度即对于该单帧图像而言，识别出来人体目标发生溺水行为的可能性，溺水可能性越大，溺水类别置信度就越大。将多帧图像中的每一个单帧图像依次输入预设多任务神经网络框架，可以得到每一个单帧图像中各人体目标的关键点位置信息及溺水类别置信度。

可选的，预设多任务神经网络框架，可以包括：人体目标检测网络模型、特征金字塔网络模型、区域特征聚集模型、人体姿态估计网络模型以及溺水类别识别网络模型。

预设多任务神经网络框架可以为Mask R-CNN框架，该框架包括人体目标检测网络模型、特征金字塔网络模型、区域特征聚集模型、人体姿态估计网络模型以及溺水类别识别网络模型五个神经网络模型。

相应的，S202具体可以包括如下步骤：

第一步，将多帧图像中的单帧图像输入人体目标检测网络模型，得到单帧图像中各人体目标框的位置信息、以及在人体目标检测网络模型的运算过程中对单帧图像进行不同倍数的下采样得到的多张特征图。

人体目标检测网络模型用于检测单帧图像中的人体目标，得到人体目标在单帧图像中的ROI(Region of Interest，感兴趣区域)，即人体目标框的位置信息，人体目标检测网络模型可以为Faster R-CNN(快速区域卷积神经网络)检测网络模型、YOLO检测网络模型等。

可选的，人体目标检测网络模型可以为YOLO检测网络模型

由于YOLO检测网络模型相较于传统的Faster R-CNN检测网络模型，能够在保持相同检测精度的情况下获得更快的处理速度，因此，人体目标检测网络模型可以选择为YOLO检测网络模型。

YOLO检测网络模型由一系列的卷积层和池化层组成，处理过程中获得了不同下采样倍数的特征图，其中，卷积层对特征进行提取，池化层进行下采样操作。在进行区域特征聚集时，作为区域特征聚集模型输入的除了YOLO检测网络模型得到的人体目标框的位置信息以外，还包括YOLO检测网络模型中下采样4倍、8倍、16倍及32倍得到的特征图，以进行区域特征聚集。

第二步，将各特征图分别输入特征金字塔网络模型，得到各特征图对应的输出特征图。

对于卷积神经网络而言，不同深度对应着不同层次的语义特征，浅层网络分辨率高，学的更多是细节特征，深层网络分辨率低，学的更多是语义特征。为了更为丰富的展示目标特征，提高目标检测的准确性，本实施例采用特征金字塔网络模型，对特征图进行处理。

可选的，特征金字塔网络模型为FPN模型。

FPN(Feature Pyramid Networks，特征金字塔网络)模型主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量情况下，大幅度提升了小物体检测的性能。

在物体检测里面，有限计算量情况下，网络的深度与stride(步幅)通常是一对矛盾的东西，常用的网络结构对应的stride一般会比较大，而图像中的小物体甚至会小于stride的大小，造成的结果就是小物体的检测性能急剧下降。FPN模型直接在原来的网络模型上做修改，每一层预测所用的特征图都融合了不同分辨率、不同语义强度的特征，融合的不同分辨率的特征图分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。

第三步，将各人体目标框的位置信息及各输出特征图输入区域特征聚集模型，得到多个相同分辨率的特征图，并对多个相同分辨率的特征图进行融合处理，得到融合特征图。

在常见的两级检测框架中，区域特征聚集模型的作用是根据预选框的位置坐标在特征图中将相应区域池化为固定尺寸的特征图，以便进行后续的分类和人体目标框回归操作，传统的区域特征聚集模型通常为ROI Pooling模型。

可选的，区域特征聚集模型可以为ROIAlign模型。

由于预选框的位置通常是由模型回归得到的，一般来讲是浮点数，而池化后的特征图要求尺寸固定，故ROI Pooling这一操作存在两次量化的过程。事实上，经过上述两次量化，此时的候选框已经和最开始回归出来的位置有一定的偏差，这个偏差会影响检测或者分割的准确度造成区域不匹配的问题。ROIAlign模型很好地解决了ROI Pooling操作中两次量化造成的区域不匹配的问题。

ROI Align的具体的处理为：取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集过程转化为一个连续的操作。值得注意的是，在具体的算法操作上，ROI Align并不是简单地补充出候选区域边界上的坐标点，然后将这些坐标点进行池化，而是重新设计了一套流程，包括：遍历每一个候选区域，保持浮点数边界不做量化；将候选区域分割成k×k个单元，每个单元的边界也不做量化；在每个单元中计算固定四个坐标位置，用双线性内插的方法计算出这四个位置的值，然后进行最大池化操作。

FPN模型的每个输出特征图经过ROIAlign后获得相同分辨率的特征图，对这些特征图进行融合处理后，得到融合特征图，其中，融合处理的方式具体可以为Concat、Element-wise Sum处理等。

第四步，将融合特征图输入人体姿态估计网络模型，得到单帧图像中各人体目标的关键点位置信息。

人体姿态估计网络模型可以为传统的神经网络模型，为了提高人体目标姿态估计的精准，人体姿态估计网络模型可以包括卷积层、反卷积层和双线性插值层。

可选的，人体姿态估计网络模型包括：第一卷积层、反卷积层及双线性插值层。

则将融合特征图输入人体姿态估计网络模型，得到单帧图像中各人体目标的关键点位置信息的步骤，具体可以为：

将融合特征图输入第一卷积层，得到第一卷积层输出特征图；

将第一卷积层输出特征图输入反卷积层，通过反卷积操作，对第一卷积层输出特征图进行第一预设倍数的上采样，得到上采样特征图；

将上采样特征图输入双线性插值层，通过双线性插值运算，对上采样特征图进行第二预设倍数的上采样，得到关键点热图；

根据关键点热图的通道数及关键点热图中的特征值，确定单帧图像中各人体目标的关键点数量及关键点位置信息，其中，关键点数量与通道数相同，各通道的关键点热图中的最大特征值的位置信息为关键点位置信息。

第一卷积层可以由8个尺寸为3×3、stride为1、pad(边缘扩充参数)为1的卷积核组成，第一卷积层的卷积运算后进行一次Deconvolution(反卷积)实现2倍上采样，再进行一次双线性插值实现2倍上采样得到关键点热图heatmap_keypoint。当有K个人体关键点时，最终输出的heatmap_keypoint具有K个通道，每个通道对应一个部位的关键点，如索引为0的关键点代表左肘关键点，heatmap_keypoint中最大特征值位置对应关键点位置。

第五步，将融合特征图输入溺水类别识别网络模型，得到单帧图像中各人体目标的溺水类别置信度。

溺水识别网络模型可以为卷积神经网络模型，用于识别单帧图像中的人体目标是否为溺水类别。

可选的，溺水识别网络模型可以为第一卷积神经网络模型，第一卷积神经网络模型包括第一卷积层、最大池化层、1×1卷积层及分类层。

第一卷积神经网络模型的卷积层结构与人体姿态估计网络模型的第一卷积层结构相同，卷积运算之后，依次进行Max Pooling(最大池化)、1×1卷积以及Softmax(分类器)运算后，获得表征溺水类别置信度的cls_drowning_img。其中，Max Pooling、1×1卷积以及Softmax运算与传统的卷积神经网络的运算过程相同，这里不再赘述。

基于上述，计算单帧图像中各人体目标的关键点位置信息及溺水类别置信度的整体流程如图3所示。使用YOLO检测网络模型获得人体目标框位置；YOLO检测网络模型获得的人体目标框位置以及YOLO检测网络模型中下采样4、8、16以及32倍特征图通过FPN模型处理后得到的输出，作为ROIAlign模型的输入，得到相同分辨率的特征图，对这些特征图进行Concat处理后输入到后面的人体姿态估计分支和溺水类别分支中去。人体姿态估计分支通过Conv(卷积)、Deconvolution和双线性插值后得到heatmap_keypoint；溺水类别分支通过Conv、Max Pooling、1×1卷积和Softmax后得到cls_drowning_img。

可选的，预设深度神经网络模型还可以包括，预设行为识别网络模型。

相应的，在S202之后，本申请实施例所提供的溺水行为识别方法还可以执行如下步骤：

针对同一人体目标，基于各单帧图像中该人体目标的关键点位置信息，构建该人体目标的张量信息，其中，张量信息表征在时间域上人体目标的关键点位置；

将各人体目标的张量信息分别输入所述预设行为识别网络模型，得到各人体目标的溺水行为置信度。

使用S202中得到的各单帧图像中人体目标的关键点位置信息，构造一个用于表征在时间域上人体目标的关键点位置的张量信息，作为预设行为识别网络模型的输入，张量信息可以为一种类似图像形式的三维张量，如图4所示的张量信息中，joint为关键点，如左肘、右肩等；(x,y)指的是关键点的横纵坐标；time指的是连续的各帧图像中所携带的时间信息。

预设行为识别网络模型可以为传统的神经网络模型，采用行为识别相关的卷积神经网络。基于人体姿态的行为识别，计算复杂度极低，可以实现实时性。由于救生员在识别溺水时也是通过溺水者姿态动作来进行判断，所以本实施例可以提供足够的信息来获得可靠的分类结果。

可选的，预设行为识别网络模型为第二卷积神经网络模型，第二卷积神经网络模型包括第二卷积层、最大池化层、1×1卷积层及分类层。

如图5所示，行为识别的过程主要是将张量信息输入第二卷积神经网络模型，通过Conv、Max Pooling、1×1卷积和Softmax后得到cls_drowning_pose，其中，Conv可以为5个卷积操作。

上述各网络模型都可以是基于对发生溺水的实际场景进行拍摄得到的图像作为样本，经样本训练得到的神经网络模型。

S203，针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为。

单帧图像和多帧图像都可以从不同形式的特征来判断是否存在溺水行为，因此可以通过溺水置信度进行判断。

可选的，S203具体可以为：

如上述，预设深度神经网络模型可以包括预设多任务神经网络框架，还可以包括预设行为识别网络模型。如果预设深度神经网络模型只包括预设多任务神经网络框架，则可以直接根据得到的溺水类别置信度来识别溺水行为，如果置信度很大，则认为人体目标发生溺水行为；而如果预设深度神经网络模型除了包括你预设多任务神经网络框架外，还包括预设行为识别网络模型，则可以根据得到的溺水类别置信度或者溺水行为置信度来识别溺水行为，如果有一个置信度较大，则认为人体目标发生溺水行为，也可以通过溺水类别置信度和溺水行为置信度进行联合判断，多层次的判断可以降低漏检，提高准确度和鲁棒性。

可选的，S203具体可以为：

或者，

符合以下一个或多个条件时，即可判断人体目标存在溺水行为：

1.cls_drowning_img(溺水类别置信度)大于thresh1(第一预设阈值)；

2.cls_drowning_pose(溺水行为置信度)大于thresh2(第二预设阈值)；

3.mean(cls_drowning_img，cls_drowning_pose)大于thresh3(第三预设阈值)。

可选的，监控系统还可以包括：报警器；

监控相机，还用于在识别人体目标存在溺水行为时，向报警器发送报警信息；

报警器，用于根据报警信息，发射报警信号。

一旦有监控相机识别到存在溺水行为，需要立即触发报警器，报警器通过发射蜂鸣、语音提示、警示灯等报警信号，警示救生员及时实施营救措施。

本申请实施例还提供另一种实施例，各监控相机可以各自包括有一个报警器，一旦某一监控相机识别到溺水行为，就会驱动自身的报警器进行报警，可以保证报警的及时性，避免了报警信息在远程传输途中产生的时延。

应用本实施例，通过架设在水域上方的多个监控相机分别采集各自监控水域内的多帧图像，将多帧图像中的单帧图像输入预设深度神经网络模型，得到单帧图像中各人体目标的溺水置信度，针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为。通过监控相机对监控水域进行图像拍摄，利用预设深度神经网络模型可以得到单帧图像中各人体目标的溺水置信度，根据溺水置信度即可判断人体目标是否存在溺水行为。由于预设深度神经网络模型为端到端的神经网络模型架构，具有强大的特征表达能力，因此，实现了基于深度学习的溺水行为识别。预设深度神经网络模型是预先根据人体目标溺水时从水域上方采集到的包含人体目标的关键点位置信息的样本图像训练得到的，在进行溺水行为识别时，准确率高、速度快，从而提高了溺水行为的识别精度。并且，由于监控系统中的各监控相机架设在水域上方，无需布置在水下，即不需要对各监控相机进行防水处理，布置简单且成本低。

基于上述方法实施例，本申请实施例提供了一种监控相机，如图6所示，该监控相机包括摄像头610、处理器620及机器可读存储介质630；

摄像头610，用于采集监控水域内的多帧图像，并将多帧图像发送至处理器620；

机器可读存储介质630，用于存储能够被处理器620执行的机器可执行指令；

处理器620，用于被机器可执行指令促使实现如下步骤：

可选的，所述预设深度神经网络模型可以包括，预设多任务神经网络框架；

所述处理器620在实现所述将所述多帧图像中的单帧图像输入预设深度神经网络模型，得到所述单帧图像中各人体目标的溺水置信度的步骤时，具体可以实现如下步骤：

所述处理器620在实现所述针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为的步骤时，具体可以实现如下步骤：

可选的，所述预设深度神经网络模型还可以包括，预设行为识别网络模型；

所述处理器620被所述机器可执行指令促使，还可以实现如下步骤：

可选的，所述预设多任务神经网络框架，可以包括：人体目标检测网络模型、特征金字塔网络模型、区域特征聚集模型、人体姿态估计网络模型以及溺水类别识别网络模型；

所述处理器620在实现所述将所述多帧图像中的单帧图像输入所述预设多任务神经网络框架，得到所述单帧图像中各人体目标的关键点位置信息及溺水类别置信度的步骤时，具体可以实现如下步骤：

可选的，所述人体目标检测网络模型可以为YOLO检测网络模型，所述特征金字塔网络模型可以为FPN模型，所述区域特征聚集模型可以为ROIAlign模型。

可选的，所述人体姿态估计网络模型可以包括：第一卷积层、反卷积层及双线性插值层；所述溺水类别识别网络模型可以为第一卷积神经网络模型，所述第一卷积神经网络模型可以包括第一卷积层、最大池化层、1×1卷积层及分类层；

所述处理器620在实现所述将所述融合特征图输入所述人体姿态估计网络模型，得到所述单帧图像中各人体目标的关键点位置信息的步骤时，具体可以实现如下步骤：

可选的，所述预设行可以为识别网络模型为第二卷积神经网络模型，所述第二卷积神经网络模型可以包括第二卷积层、最大池化层、1×1卷积层及分类层。

可选的，所述处理器620在实现所述针对各人体目标，根据该人体目标的溺水类别置信度和/或溺水行为置信度，识别该人体目标是否存在溺水行为的步骤时，具体可以实现如下步骤：

或者，

可选的，所述监控相机还包括：警报器；

所述处理器620，还可以用于实现在识别到任一人体目标存在溺水行为时，向所述报警器发送报警信息；

所述报警器，用于根据所述报警信息，发射报警信号。

机器可读存储介质可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

应用本实施例，监控相机采集监控水域内的多帧图像，将多帧图像中的单帧图像输入预设深度神经网络模型，得到单帧图像中各人体目标的溺水置信度，针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为。通过监控相机对监控水域进行图像拍摄，利用预设深度神经网络模型可以得到单帧图像中各人体目标的溺水置信度，根据溺水置信度即可判断人体目标是否存在溺水行为。由于预设深度神经网络模型为端到端的神经网络模型架构，具有强大的特征表达能力，因此，实现了基于深度学习的溺水行为识别。预设深度神经网络模型是预先根据人体目标溺水时从水域上方采集到的包含人体目标的关键点位置信息的样本图像训练得到的，在进行溺水行为识别时，准确率高、速度快，从而提高了溺水行为的识别精度。

另外，本申请实施例还提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，实现如上述溺水行为识别方法的所有步骤。

本实施例中，机器可读存储介质存储有在运行时执行本申请实施例所提供的溺水行为识别方法的机器可执行指令，因此能够实现：监控相机采集监控水域内的多帧图像，将多帧图像中的单帧图像输入预设深度神经网络模型，得到单帧图像中各人体目标的溺水置信度，针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为。通过监控相机对监控水域进行图像拍摄，利用预设深度神经网络模型可以得到单帧图像中各人体目标的溺水置信度，根据溺水置信度即可判断人体目标是否存在溺水行为。由于预设深度神经网络模型为端到端的神经网络模型架构，具有强大的特征表达能力，因此，实现了基于深度学习的溺水行为识别。预设深度神经网络模型是预先根据人体目标溺水时从水域上方采集到的包含人体目标的关键点位置信息的样本图像训练得到的，在进行溺水行为识别时，准确率高、速度快，从而提高了溺水行为的识别精度。

对于监控相机以及机器可读存储介质实施例而言，由于其涉及的方法内容基本相似于前述的方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于监控相机、监控系统以及机器可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种溺水行为识别方法，其特征在于，所述方法包括：

采集监控水域内的多帧图像；

针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为；

所述预设深度神经网络模型包括，预设多任务神经网络框架；

针对各人体目标，根据该人体目标的溺水类别置信度，识别该人体目标是否存在溺水行为；

所述预设多任务神经网络框架，包括：人体目标检测网络模型、特征金字塔网络模型、区域特征聚集模型、人体姿态估计网络模型以及溺水类别识别网络模型；

2.根据权利要求1所述的方法，其特征在于，所述预设深度神经网络模型还包括，预设行为识别网络模型；

3.根据权利要求1所述的方法，其特征在于，所述人体目标检测网络模型为YOLO检测网络模型，所述特征金字塔网络模型为FPN模型，所述区域特征聚集模型为ROIAlign模型。

4.根据权利要求1所述的方法，其特征在于，所述人体姿态估计网络模型包括：第一卷积层、反卷积层及双线性插值层；所述溺水类别识别网络模型为第一卷积神经网络模型，所述第一卷积神经网络模型包括第一卷积层、最大池化层、1×1卷积层及分类层；

5.根据权利要求2所述的方法，其特征在于，所述预设行为识别网络模型为第二卷积神经网络模型，所述第二卷积神经网络模型包括第二卷积层、最大池化层、1×1卷积层及分类层。

6.根据权利要求2所述的方法，其特征在于，所述针对各人体目标，根据该人体目标的溺水类别置信度和/或溺水行为置信度，识别该人体目标是否存在溺水行为，包括：

或者，

7.一种监控相机，其特征在于，所述监控相机包括摄像头、处理器及机器可读存储介质；

所述处理器，用于被所述机器可执行指令促使实现如下步骤：

所述处理器在实现所述将所述多帧图像中的单帧图像输入预设深度神经网络模型，得到所述单帧图像中各人体目标的溺水置信度的步骤时，具体实现如下步骤：

所述处理器在实现所述针对各人体目标，根据该人体目标的溺水置信度，识别该人体目标是否存在溺水行为的步骤时，具体实现如下步骤：

所述处理器在实现所述将所述多帧图像中的单帧图像输入所述预设多任务神经网络框架，得到所述单帧图像中各人体目标的关键点位置信息及溺水类别置信度的步骤时，具体实现如下步骤：

8.根据权利要求7所述的监控相机，其特征在于，所述预设深度神经网络模型还包括，预设行为识别网络模型；

所述处理器被所述机器可执行指令促使，还实现如下步骤：

9.根据权利要求7所述的监控相机，其特征在于，所述人体目标检测网络模型为YOLO检测网络模型，所述特征金字塔网络模型为FPN模型，所述区域特征聚集模型为ROIAlign模型。

10.根据权利要求7所述的监控相机，所述人体姿态估计网络模型包括：第一卷积层、反卷积层及双线性插值层；所述溺水类别识别网络模型为第一卷积神经网络模型，所述第一卷积神经网络模型包括第一卷积层、最大池化层、1×1卷积层及分类层；

所述处理器在实现所述将所述融合特征图输入所述人体姿态估计网络模型，得到所述单帧图像中各人体目标的关键点位置信息的步骤时，具体实现如下步骤：

11.根据权利要求8所述的监控相机，其特征在于，所述预设行为识别网络模型为第二卷积神经网络模型，所述第二卷积神经网络模型包括第二卷积层、最大池化层、1×1卷积层及分类层。

12.根据权利要求8所述的监控相机，其特征在于，所述处理器在实现所述针对各人体目标，根据该人体目标的溺水类别置信度和/或溺水行为置信度，识别该人体目标是否存在溺水行为的步骤时，具体实现如下步骤：

或者，

13.根据权利要求7所述的监控相机，其特征在于，所述监控相机还包括：报警器；

所述报警器，用于根据所述报警信息，发射报警信号。

14.一种监控系统，其特征在于，所述监控系统包括多个如权利要求7至13任一项所述的监控相机；

所述多个监控相机架设在待监控水域上方；所述多个监控相机的总监控水域覆盖所述待监控水域。

15.根据权利要求14所述的监控系统，其特征在于，所述监控系统还包括报警器；

所述报警器，用于根据所述报警信息，发射报警信号。