CN116740649B

CN116740649B - 一种基于深度学习的船员越界落水行为实时检测方法

Info

Publication number: CN116740649B
Application number: CN202310979779.5A
Authority: CN
Inventors: 李正宝; 高洁; 吴泽伟; 马云鸽; 贾璇; 杜立彬
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-11-03
Anticipated expiration: 2043-08-07
Also published as: CN116740649A

Abstract

本发明公开一种基于深度学习的船员越界落水行为实时检测方法，属于计算机视觉和航运安全领域，其步骤为：在船上布设监控相机，并实时采集监控视频；对采集的视频图像数据进行预处理，获取视频帧序列；基于yolov5算法构建目标检测模型，将视频帧序列输入该模型中进行船员目标检测；对检测结果进行处理，得到处理好的图像帧序列，将图像帧序列输入到动作识别网络中，获得船员发生越界落水行为的概率，若输出的概率超过设定的阈值，则表示发生了越界落水行为，触发报警，提醒工作人员及时采取措施，同时将触发报警的图像序列存储下来，以便后续的查看和分析。该方法能够准确实时地检测船员的越界落水行为，提高船舶安全监控的效果和可靠性。

Description

一种基于深度学习的船员越界落水行为实时检测方法

技术领域

本发明属于计算机视觉和航运安全领域，具体涉及一种基于深度学习的船员越界落水行为实时检测方法。

背景技术

海上交通行业高速发展，但同时海上安全事故数量激增。其中，船员意外落水是引发事故的重要原因之一，造成了巨大的生命财产损失。

针对船员落水的安防措施，当前的解决方案主要有两种。一种是在船舶周围海域划定一个预设监控区域，采用视频摄像机或激光雷达传感器来监控该预设区域，当船员落水进入该区域时，监测系统会检测到落水行为并提供报警。该监控方式需要将摄像机和传感器安装在船体外部，在海上风浪较大的情况下，部分监控区域可能会被遮挡，增加了监控系统的识别难度，存在监控盲点且影响船舶作业。此外，其他物体进入该区域也容易导致误报，无法实现准确智能的报警功能。另一种方案船员携带便携式终端设备，当终端接触到水时会自动触发报警。然而，这种方式需要船员随时携带便携终端，成本较高，且无法检测到未携带终端意外落水的船员。此外上述两个方案船员从船上掉落入水后才能被检测到，存在一定的延迟。

本发明将摄像机安装在二层甲板，在不影响作业的情况下通过实时视频监控船员行为，采用智能检测算法及时检测船员是否存在越界落水行为，达到早发现、早预警、早报警、早救援。该发明可以有效降低船员落水事故发生，保障船员生命安全，促进海上交通行业健康发展。

发明内容

针对现有技术中存在的上述技术问题，本发明提供一种基于深度学习的船员越界落水行为实时检测方法，越界落水行为指的是船员越过船的外围栏杆有掉落的趋势，即认为越界落水，设计合理，解决了现有技术的不足，具有良好的效果。

本发明采用如下技术方案：

一种基于深度学习的船员越界落水行为实时检测方法，包括以下步骤：

S1、在船上布设监控相机，并实时采集监控视频；

S2、对采集的视频图像数据进行预处理，获取视频帧序列；

S3、基于yolov5算法构建目标检测模型，将视频帧序列输入该模型中进行船员目标检测；

S4、对S3的检测结果进行处理，得到处理好的图像帧序列，将图像帧序列输入到动作识别网络中，获得船员发生越界落水行为的概率，若输出的概率超过设定的阈值，则表示发生了越界落水行为，触发报警，提醒工作人员及时采取措施，同时将触发报警的图像序列存储下来，以便后续的查看和分析。

进一步地，在S1中，所述监控相机被安装在船的二层甲板处，以全面覆盖船的外围栏区域，用于采集船员在外围栏杆处的行为。

进一步地，S2包括以下子步骤：

S2.1、采用ffmpeg模块对实时监控视频进行切割，将视频分解成连续的视频帧序列，切割的方式是以1/N秒取一帧的速度进行切割，N的取值为25；

S2.2、每两帧取一帧，得到视频帧序列。

进一步地，在S4中，对检测结果进行处理包括以下子步骤：

S4.1、初始化动作识别网络状态为False，表示未检测到船员，不开启动作识别网络，连续未检测到船员目标的累计帧数C设为0，基于检测结果进行如下判断：

若检测到船员且动作识别网络状态为False，表示船员首次出现或之前未检测到船员，将动作识别网络状态改为True，继续执行S4.2；

若检测到船员且动作识别网络状态为True，表示船员已经被连续检测到或之前已确认为有效目标，继续执行S4.2；

若未检测到船员且动作识别网络状态为True，表示船员出现过，现在可能离开了，累计帧数C递增，判断C是否超过十帧；如果超过十帧，则说明连续未检测到船员目标，确定船员已经离开，将动作识别网络状态改为False，重置累计帧数C为0，不进行后续操作，如果未超过十帧，则继续执行S4.2；

若未检测到船员且动作识别网络状态为False，表示船员目标未出现或之前已确认为无效目标，则不进行后续操作；

S4.2、若检测到船员，根据目标检测模型检测到的船员锚框信息，将输入图像裁剪为大小为p×q的图像；若未检测到船员，按上一帧的锚框信息进行裁剪；

S4.3、将裁剪后的图像存入一个尺寸为s的队列，判断队列中的帧数是否达到s帧，当队列帧数等于s帧时，将队列中的图像帧序列作为动作识别网络的输入，同时取出队首的一帧图像，以便下一时刻的输入可以存入队列；当队列帧数小于s帧时，重复执行步骤S4.1。

进一步地，在S4中，所述动作检测网络基于TR-Dense net3D模型构建，采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练，得到训练好的模型；

所述TR-Dense net3D模型由一个卷积层、一个池化层、四个密集块、三个过渡层和一个分类层组成，其链接顺序为卷积层、最大池化层、密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4、分类层；所述密集块1、2和3均由六个密集单元和TCBAM注意力模块组成；所述密集块4由十二个密集单元和TCBAM注意力模块组成；每个密集单元依次由批归一化层、ReLU激活函数层、1×3×3卷积层、批归一化层、ReLU激活函数层、3×1×1卷积层组成；所述过渡层1、2和3均由一个过渡卷积层和一个平均池化层组成，过渡卷积层依次由批归一化层、ReLU激活函数层、1×1×1卷积层组成；所述分类层由一个全局平均池化层和一个全连接层组成；

视频帧序列以[3,32,224,224]的形式输入TR-Dense net3D模型中，3表示输入的视频帧是RGB三通道的图像，32表示输入的视频帧序列的长度为32帧，两个224分别表示每个视频帧的高度和宽度为224像素；首先在卷积层中，对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积和大小为7×7×3、步长为2的卷积操作，得到的特征图大小为[64,32,112,112]，使用一个3×3×3的最大池化层对特征图进行池化操作，得到的特征图大小为[64,16,56,56]；然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4，输出的特征图大小为[560,2,7,7]，输入到分类层中，全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中，全连接层将特征向量映射到越界落水行为，采用Sigmoid激活函数输出发生越界落水行为的概率，并采用二元交叉熵损失函数不断更新优化。

进一步地，所述TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成；所述时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；所述通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成；所述时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；

密集单元输出的特征图输入到时间注意力模块中，分别利用3维平均池化和3维最大池化来聚合输入特征的空间通道信息，生成两种不同的空间通道上下文描述符，再将两个空间通道上下文描述符拼接在一起，并经过卷积核为1×1×1的3d卷积层进行信息的聚合，最后用Sigmoid函数激活得到时间注意力权重，计算公式为：

M_t(F)=σ(ƒ^1×1×1 ([AvgPool3d(F);MaxPool3d(F)]))；

其中，ƒ^1×1×1代表卷积核为1×1×1的卷积运算，σ代表sigmoid 激活函数，AvgPool3d代表3维平均池化运算，MaxPool3d代表3维最大池化运算；将时间注意力权重图与特征图相乘，能够调整不同时间帧序列的特征权重，得到特征图F`；

特征图F`输入到通道注意力模块中，首先分别利用3维平均池化和3维最大池化来聚合输入特征的时空信息，生成两种不同的时空上下文描述符，再将两个时空上下文描述符分别送入共享权重的多层感知机中，得到两个特征图，最后将得到的特征图进行逐元素求和并用sigmoid函数集合得到最后的通道注意力权重，其计算公式为：

M_c(F`)=σ(MLP (AvgPool3d(F`))+MLP(MaxPool3d(F`)))；

其中，MLP代表两层神经网络，将通道注意力权重图与原始特征图相乘，能够调整不同通道的特征权重，得到特征图F``；

特征图F``输入到时空注意力模块中，首先分别利用平均池化和最大池化来聚合输入特征的通道信息，生产两种不同的通道上下文描述符，再将两个通道上下午描述符拼接在一起，并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合，最后用sigmoid函数激活得到时间注意力权重，其计算公式为：

M_ts(F``)=σ(ƒ^7×7×7 ([AvgPool(F``);MaxPool(F``)]))；

其中，ƒ^7×7×7代表卷积核为7×7×7的卷积运算，将时空注意力权重图与原始特征图相乘，不仅能够聚焦重要的局部空间信息，还能聚焦重要的局部时间信息，能够在时间和空间两个维度上突出重要特征，得到特征图F```。

与现有技术相比，本发明具有以下有益效果：本发明提供了一种基于深度学习的船员越界落水行为实时检测方法，提出的TR-Dense net3D 模型通过卷积拆分降低了计算量，并引入了时间、通道、时空注意力机制，提升了对关键特征的关注和辨别能力，该方法能够准确实时地检测船员的越界落水行为，更早的发现船员落水倾向，增加救援时间，并能够在一定程度上预防船员落水事故的发生，提高船舶安全监控的效果和可靠性。

附图说明

图1为本发明中船员越界落水行为实时检测方法的流程图。

图2为本发明中TCBAM注意力模块的示意图。

图3为本发明中时间注意力模块的示意图。

图4为本发明中通道注意力模块的示意图。

图5为本发明中时空注意力模块的示意图。

具体实施方式

下面结合具体实施例对本发明的具体实施方式做进一步说明：

一种基于深度学习的船员越界落水行为实时检测方法，如图1所示，包括以下步骤：

S1、在船上布设监控相机，并实时采集监控视频；

监控相机被安装在船的二层甲板处，以全面覆盖船的外围栏区域，用于采集船员在外围栏杆处的行为；采集到的实时监控视频将作为后续船员行为检测的输入数据。这样的布设方式既不影响船的正常作业，也能在船员越过栏杆时及时发现船员的越界落水行为，做到早发现、早预警，降低落水发生概率，在事故发生后争取更多的救援时间。

S2、对采集的视频图像数据进行预处理，获取视频帧序列；

S2包括以下子步骤：

S2.1、采用ffmpeg模块对实时监控视频进行切割，将视频分解成连续的视频帧序列，切割的方式是以1/N秒取一帧的速度进行切割，N的取值为25，确保视频帧的连续性和一定的帧率，这样可以保证后续的分析和检测过程在时间上具有较高的准确性和实时性；

S2.2、每两帧取一帧，得到视频帧序列；

通常越界落水行为的持续时间为2~4s，即50帧~100帧，每两帧取一帧即为25帧~50帧，减少需要处理的帧数，提高后续目标检测模型和动作识别模型的处理效率，同时保留足够的帧率来捕捉船员的动作和行为。抽帧后的视频帧序列将作为目标检测模型的输入。通过这一步骤，能够有效地处理和准备视频数据，为后续的船员实时越界落水行为检测提供有序和高效的数据输入。

S3、基于yolov5算法构建目标检测模型，将视频帧序列输入该模型中进行船员目标检测。

对检测结果进行处理包括以下子步骤：

若未检测到船员且动作识别网络状态为True，表示船员出现过，现在可能离开了，可能离开包括船员确实已经离开、暂时离开、被遮挡或目标检测模型出错等情况，累计帧数C递增，判断C是否超过十帧；如果超过十帧，则说明连续未检测到船员目标，确定船员已经离开，将动作识别网络状态改为False，重置累计帧数C为0，不进行后续操作，如果未超过十帧，则继续执行S4.2；

S4.2、若检测到船员，根据目标检测模型检测到的船员锚框信息，将输入图像裁剪为大小为p×q的图像，在本实施例中p=q=224，这样的裁剪尺寸既能够包含更多的信息，又不会增加后续网络的计算量；若未检测到船员，按上一帧的锚框信息进行裁剪，通过此步骤，可以确保裁剪的图像中始终包含船员信息，以便后续的处理和分析；

S4.3、将裁剪后的图像存入一个尺寸为s的队列，设定s=32，32帧能够包含越界落水行为的50%~100%信息，既能更好的描述越界落水行为又不会造成冗余增加计算量。判断队列中的帧数是否达到32帧，当队列帧数等于32帧时，将队列中的图像帧序列作为动作识别网络的输入，同时取出队首的一帧图像，以便下一时刻的输入可以存入队列，这样可以确保连续图像帧不断地被送入动作识别模型进行后续处理；当队列帧数小于s帧时，重复执行步骤S4.1。

通过上次判断和操作，本发明能够识别对船员目标的准备检测，并根据目标的出现与否以及动作识别状态的切换进行后续的行为检测，实现实时、准确的船员落水行为检测。

动作识别网络基于TR-Dense net3D模型构建，采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练，得到训练好的模型；

TR-Dense net3D模型由一个卷积层、一个池化层、四个密集块、三个过渡层和一个分类层组成，其链接顺序为卷积层、最大池化层、密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4、分类层；密集块1、2和3均由六个密集单元和TCBAM注意力模块组成；密集块4由十二个密集单元和TCBAM注意力模块组成；每个密集单元依次由批归一化层、ReLU激活函数层、1×3×3卷积层、批归一化层、ReLU激活函数层、3×1×1卷积层组成；过渡层1、2和3均由一个过渡卷积层和一个平均池化层组成，过渡卷积层依次由批归一化层、ReLU激活函数层、1×1×1卷积层组成，过渡层对特征图进行降维，从而减少通道数，进而减少模型的参数量，平衡模型的复杂度，防止特征图的尺寸过大导致计算负担过重；分类层由一个全局平均池化层和一个全连接层组成；

视频帧序列以[3,32,224,224]的形式输入TR-Dense net3D模型中，3表示输入的视频帧是RGB三通道的图像，32表示输入的视频帧序列的长度为32帧，两个224分别表示每个视频帧的高度和宽度为224像素；首先在卷积层中对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积和大小为7×7×3、步长为2的卷积操作，得到的特征图大小为[64,32,112,112]，使用一个3×3×3的最大池化层对特征图进行池化操作，得到的特征图大小为[64,16,56,56]；然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4，输出的特征图大小为[560,2,7,7]，输入到分类层中，全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中，减少特征图的维度，全连接层将特征向量映射到越界落水行为，采用Sigmoid激活函数输出发生越界落水行为的概率，并采用二元交叉熵损失函数不断更新优化。

如图2所示，TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成；时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成；时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；

密集单元输出的特征图输入到时间注意力模块中，如图3所示，分别利用3维平均池化层和3维最大池化层来聚合输入特征的空间通道信息，生成两种不同的空间通道上下文描述符；再将两个空间通道上下文描述符拼接在一起，并经过卷积核为1×1×1的3d卷积层进行信息的聚合，最后用Sigmoid函数激活得到时间注意力权重，计算公式为：

M_t(F)=σ(ƒ^1×1×1 ([AvgPool3d(F);MaxPool3d(F)]))；

特征图F`输入到通道注意力模块中，如图4所示，首先分别利用3维平均池化和3维最大池化来聚合输入特征的时空信息，生成两种不同的时空上下文描述符，再将两个时空上下文描述符分别送入共享权重的多层感知机中，得到两个特征图，最后将得到的特征图进行逐元素求和并用sigmoid函数集合得到最后的通道注意力权重，其计算公式为：

M_c(F`)=σ(MLP (AvgPool3d(F`))+MLP(MaxPool3d(F`)))；

特征图F``输入到时空注意力模块中，如图5所示，首先分别利用平均池化和最大池化来聚合输入特征的通道信息，生产两种不同的通道上下文描述符，再将两个通道上下午描述符拼接在一起，并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合，最后用sigmoid函数激活得到时间注意力权重，其计算公式为：

M_ts(F``)=σ(ƒ^7×7×7 ([AvgPool(F``);MaxPool(F``)]))；

TR-Dense net3D能够有效地从输入的视频帧序列中提取关键特征，并通过密集块、注意力机制和全局池化层进行特征的整合和压缩。最终，通过全连接层和sigmoid激活函数，将提取的特征用于越界行为概率的计算和识别。TR-Dense net3D继承了Dense net的密集连接和特征重用的优点，通过卷积拆分降低了计算量，并引入了时间、通道、时空注意力机制，提升了对关键特征的关注和辨别能力。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，包括以下步骤：

S1、在船上布设监控相机，并实时采集监控视频；

S2、对采集的视频图像数据进行预处理，获取视频帧序列；

S4、对S3的检测结果进行处理，得到处理好的图像帧序列，将图像帧序列输入到动作识别网络中，获得船员发生越界落水行为的概率，若输出的概率超过设定的阈值，则表示发生了越界落水行为，触发报警，提醒工作人员及时采取措施，同时将触发报警的图像序列存储下来，以便后续的查看和分析；

所述动作检测网络基于TR-Dense net3D模型构建，采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练，得到训练好的模型；

视频帧序列以[3,32,224,224]的形式输入TR-Dense net3D模型中，3表示输入的视频帧是RGB三通道的图像，32表示输入的视频帧序列的长度为32帧，两个224分别表示每个视频帧的高度和宽度为224像素；首先在卷积层中，对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积核大小为7×7×3、步长为2的卷积操作，得到的特征图大小为[64,32,112,112]，使用一个3×3×3的最大池化层对特征图进行池化操作，得到的特征图大小为[64,16,56,56]；然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4，输出的特征图大小为[560,2,7,7]，输入到分类层中，全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中，全连接层将特征向量映射到越界落水行为，采用Sigmoid激活函数输出发生越界落水行为的概率，并采用二元交叉熵损失函数不断更新优化。

2.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，在S1中，所述监控相机被安装在船的二层甲板处，以全面覆盖船的外围栏区域，用于采集船员在外围栏杆处的行为。

3.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，S2包括以下子步骤：

S2.2、每两帧取一帧，得到视频帧序列。

4.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，在S4中，对检测结果进行处理包括以下子步骤：

5.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法，其特征在于，所述TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成；所述时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；所述通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成；所述时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成；

密集单元输出的特征图F输入到时间注意力模块中，分别利用3维平均池化和3维最大池化来聚合输入特征的空间通道信息，生成两种不同的空间通道上下文描述符，再将两个空间通道上下文描述符拼接在一起，并经过卷积核为1×1×1的3d卷积层进行信息的聚合，最后用Sigmoid函数激活得到时间注意力权重，计算公式为：

M_t(F)＝σ(f^1×1×1([AvgPool3d(F)；MaxPool3d(F)]))；

其中，f^1×1×1代表卷积核为1×1×1的卷积运算，σ代表sigmoid激活函数，AvgPool3d代表3维平均池化运算，MaxPool3d代表3维最大池化运算；将时间注意力权重图与特征图F相乘，能够调整不同时间帧序列的特征权重，得到特征图F`；

M_c(F`)＝σ(MLP(AvgPool3d(F`))+MLP(MaxPool3d(F`)))；

特征图F``输入到时空注意力模块中，首先分别利用平均池化和最大池化来聚合输入特征的通道信息，生产两种不同的通道上下文描述符，再将两个通道上下文描述符拼接在一起，并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合，最后用sigmoid函数激活得到时间注意力权重，其计算公式为：

M_ts(F``)＝σ(f^7×7×7([AvgPool(F``)；MaxPool(F``)]))；

其中，f^7×7×7代表卷积核为7×7×7的卷积运算，将时空注意力权重图与原始特征图相乘，不仅能够聚焦重要的局部空间信息，还能聚焦重要的局部时间信息，能够在时间和空间两个维度上突出重要特征，得到特征图F```。