CN116740649B - 一种基于深度学习的船员越界落水行为实时检测方法 - Google Patents
一种基于深度学习的船员越界落水行为实时检测方法 Download PDFInfo
- Publication number
- CN116740649B CN116740649B CN202310979779.5A CN202310979779A CN116740649B CN 116740649 B CN116740649 B CN 116740649B CN 202310979779 A CN202310979779 A CN 202310979779A CN 116740649 B CN116740649 B CN 116740649B
- Authority
- CN
- China
- Prior art keywords
- layer
- time
- crew
- dense
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006399 behavior Effects 0.000 title claims abstract description 48
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 238000011897 real-time detection Methods 0.000 title claims abstract description 11
- 230000009471 action Effects 0.000 claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 28
- 238000012544 monitoring process Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000004458 analytical method Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 64
- 230000006870 function Effects 0.000 claims description 41
- 230000007704 transition Effects 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 230000002093 peripheral effect Effects 0.000 claims description 7
- 230000003213 activating effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000033001 locomotion Effects 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000001960 triggered effect Effects 0.000 abstract 1
- 230000007246 mechanism Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Psychiatry (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度学习的船员越界落水行为实时检测方法,属于计算机视觉和航运安全领域,其步骤为:在船上布设监控相机,并实时采集监控视频;对采集的视频图像数据进行预处理,获取视频帧序列;基于yolov5算法构建目标检测模型,将视频帧序列输入该模型中进行船员目标检测;对检测结果进行处理,得到处理好的图像帧序列,将图像帧序列输入到动作识别网络中,获得船员发生越界落水行为的概率,若输出的概率超过设定的阈值,则表示发生了越界落水行为,触发报警,提醒工作人员及时采取措施,同时将触发报警的图像序列存储下来,以便后续的查看和分析。该方法能够准确实时地检测船员的越界落水行为,提高船舶安全监控的效果和可靠性。
Description
技术领域
本发明属于计算机视觉和航运安全领域,具体涉及一种基于深度学习的船员越界落水行为实时检测方法。
背景技术
海上交通行业高速发展,但同时海上安全事故数量激增。其中,船员意外落水是引发事故的重要原因之一,造成了巨大的生命财产损失。
针对船员落水的安防措施,当前的解决方案主要有两种。一种是在船舶周围海域划定一个预设监控区域,采用视频摄像机或激光雷达传感器来监控该预设区域,当船员落水进入该区域时,监测系统会检测到落水行为并提供报警。该监控方式需要将摄像机和传感器安装在船体外部,在海上风浪较大的情况下,部分监控区域可能会被遮挡,增加了监控系统的识别难度,存在监控盲点且影响船舶作业。此外,其他物体进入该区域也容易导致误报,无法实现准确智能的报警功能。另一种方案船员携带便携式终端设备,当终端接触到水时会自动触发报警。然而,这种方式需要船员随时携带便携终端,成本较高,且无法检测到未携带终端意外落水的船员。此外上述两个方案船员从船上掉落入水后才能被检测到,存在一定的延迟。
本发明将摄像机安装在二层甲板,在不影响作业的情况下通过实时视频监控船员行为,采用智能检测算法及时检测船员是否存在越界落水行为,达到早发现、早预警、早报警、早救援。该发明可以有效降低船员落水事故发生,保障船员生命安全,促进海上交通行业健康发展。
发明内容
针对现有技术中存在的上述技术问题,本发明提供一种基于深度学习的船员越界落水行为实时检测方法,越界落水行为指的是船员越过船的外围栏杆有掉落的趋势,即认为越界落水,设计合理,解决了现有技术的不足,具有良好的效果。
本发明采用如下技术方案:
一种基于深度学习的船员越界落水行为实时检测方法,包括以下步骤:
S1、在船上布设监控相机,并实时采集监控视频;
S2、对采集的视频图像数据进行预处理,获取视频帧序列;
S3、基于yolov5算法构建目标检测模型,将视频帧序列输入该模型中进行船员目标检测;
S4、对S3的检测结果进行处理,得到处理好的图像帧序列,将图像帧序列输入到动作识别网络中,获得船员发生越界落水行为的概率,若输出的概率超过设定的阈值,则表示发生了越界落水行为,触发报警,提醒工作人员及时采取措施,同时将触发报警的图像序列存储下来,以便后续的查看和分析。
进一步地,在S1中,所述监控相机被安装在船的二层甲板处,以全面覆盖船的外围栏区域,用于采集船员在外围栏杆处的行为。
进一步地,S2包括以下子步骤:
S2.1、采用ffmpeg模块对实时监控视频进行切割,将视频分解成连续的视频帧序列,切割的方式是以1/N秒取一帧的速度进行切割,N的取值为25;
S2.2、每两帧取一帧,得到视频帧序列。
进一步地,在S4中,对检测结果进行处理包括以下子步骤:
S4.1、初始化动作识别网络状态为False,表示未检测到船员,不开启动作识别网络,连续未检测到船员目标的累计帧数C设为0,基于检测结果进行如下判断:
若检测到船员且动作识别网络状态为False,表示船员首次出现或之前未检测到船员,将动作识别网络状态改为True,继续执行S4.2;
若检测到船员且动作识别网络状态为True,表示船员已经被连续检测到或之前已确认为有效目标,继续执行S4.2;
若未检测到船员且动作识别网络状态为True,表示船员出现过,现在可能离开了,累计帧数C递增,判断C是否超过十帧;如果超过十帧,则说明连续未检测到船员目标,确定船员已经离开,将动作识别网络状态改为False,重置累计帧数C为0,不进行后续操作,如果未超过十帧,则继续执行S4.2;
若未检测到船员且动作识别网络状态为False,表示船员目标未出现或之前已确认为无效目标,则不进行后续操作;
S4.2、若检测到船员,根据目标检测模型检测到的船员锚框信息,将输入图像裁剪为大小为p×q的图像;若未检测到船员,按上一帧的锚框信息进行裁剪;
S4.3、将裁剪后的图像存入一个尺寸为s的队列,判断队列中的帧数是否达到s帧,当队列帧数等于s帧时,将队列中的图像帧序列作为动作识别网络的输入,同时取出队首的一帧图像,以便下一时刻的输入可以存入队列;当队列帧数小于s帧时,重复执行步骤S4.1。
进一步地,在S4中,所述动作检测网络基于TR-Dense net3D模型构建,采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练,得到训练好的模型;
所述TR-Dense net3D模型由一个卷积层、一个池化层、四个密集块、三个过渡层和一个分类层组成,其链接顺序为卷积层、最大池化层、密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4、分类层;所述密集块1、2和3均由六个密集单元和TCBAM注意力模块组成;所述密集块4由十二个密集单元和TCBAM注意力模块组成;每个密集单元依次由批归一化层、ReLU激活函数层、1×3×3卷积层、批归一化层、ReLU激活函数层、3×1×1卷积层组成;所述过渡层1、2和3均由一个过渡卷积层和一个平均池化层组成,过渡卷积层依次由批归一化层、ReLU激活函数层、1×1×1卷积层组成;所述分类层由一个全局平均池化层和一个全连接层组成;
视频帧序列以[3,32,224,224]的形式输入TR-Dense net3D模型中,3表示输入的视频帧是RGB三通道的图像,32表示输入的视频帧序列的长度为32帧,两个224分别表示每个视频帧的高度和宽度为224像素;首先在卷积层中,对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积和大小为7×7×3、步长为2的卷积操作,得到的特征图大小为[64,32,112,112],使用一个3×3×3的最大池化层对特征图进行池化操作,得到的特征图大小为[64,16,56,56];然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4,输出的特征图大小为[560,2,7,7],输入到分类层中,全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中,全连接层将特征向量映射到越界落水行为,采用Sigmoid激活函数输出发生越界落水行为的概率,并采用二元交叉熵损失函数不断更新优化。
进一步地,所述TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成;所述时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;所述通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成;所述时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;
密集单元输出的特征图输入到时间注意力模块中,分别利用3维平均池化和3维最大池化来聚合输入特征的空间通道信息,生成两种不同的空间通道上下文描述符,再将两个空间通道上下文描述符拼接在一起,并经过卷积核为1×1×1的3d卷积层进行信息的聚合,最后用Sigmoid函数激活得到时间注意力权重,计算公式为:
Mt(F)=σ(ƒ1×1×1 ([AvgPool3d(F);MaxPool3d(F)]));
其中,ƒ1×1×1代表卷积核为1×1×1的卷积运算,σ代表sigmoid 激活函数,AvgPool3d代表3维平均池化运算,MaxPool3d代表3维最大池化运算;将时间注意力权重图与特征图相乘,能够调整不同时间帧序列的特征权重,得到特征图F`;
特征图F`输入到通道注意力模块中,首先分别利用3维平均池化和3维最大池化来聚合输入特征的时空信息,生成两种不同的时空上下文描述符,再将两个时空上下文描述符分别送入共享权重的多层感知机中,得到两个特征图,最后将得到的特征图进行逐元素求和并用sigmoid函数集合得到最后的通道注意力权重,其计算公式为:
Mc(F`)=σ(MLP (AvgPool3d(F`))+MLP(MaxPool3d(F`)));
其中,MLP代表两层神经网络,将通道注意力权重图与原始特征图相乘,能够调整不同通道的特征权重,得到特征图F``;
特征图F``输入到时空注意力模块中,首先分别利用平均池化和最大池化来聚合输入特征的通道信息,生产两种不同的通道上下文描述符,再将两个通道上下午描述符拼接在一起,并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合,最后用sigmoid函数激活得到时间注意力权重,其计算公式为:
Mts(F``)=σ(ƒ7×7×7 ([AvgPool(F``);MaxPool(F``)]));
其中,ƒ7×7×7代表卷积核为7×7×7的卷积运算,将时空注意力权重图与原始特征图相乘,不仅能够聚焦重要的局部空间信息,还能聚焦重要的局部时间信息,能够在时间和空间两个维度上突出重要特征,得到特征图F```。
与现有技术相比,本发明具有以下有益效果:本发明提供了一种基于深度学习的船员越界落水行为实时检测方法,提出的TR-Dense net3D 模型通过卷积拆分降低了计算量,并引入了时间、通道、时空注意力机制,提升了对关键特征的关注和辨别能力,该方法能够准确实时地检测船员的越界落水行为,更早的发现船员落水倾向,增加救援时间,并能够在一定程度上预防船员落水事故的发生,提高船舶安全监控的效果和可靠性。
附图说明
图1为本发明中船员越界落水行为实时检测方法的流程图。
图2为本发明中TCBAM注意力模块的示意图。
图3为本发明中时间注意力模块的示意图。
图4为本发明中通道注意力模块的示意图。
图5为本发明中时空注意力模块的示意图。
具体实施方式
下面结合具体实施例对本发明的具体实施方式做进一步说明:
一种基于深度学习的船员越界落水行为实时检测方法,如图1所示,包括以下步骤:
S1、在船上布设监控相机,并实时采集监控视频;
监控相机被安装在船的二层甲板处,以全面覆盖船的外围栏区域,用于采集船员在外围栏杆处的行为;采集到的实时监控视频将作为后续船员行为检测的输入数据。这样的布设方式既不影响船的正常作业,也能在船员越过栏杆时及时发现船员的越界落水行为,做到早发现、早预警,降低落水发生概率,在事故发生后争取更多的救援时间。
S2、对采集的视频图像数据进行预处理,获取视频帧序列;
S2包括以下子步骤:
S2.1、采用ffmpeg模块对实时监控视频进行切割,将视频分解成连续的视频帧序列,切割的方式是以1/N秒取一帧的速度进行切割,N的取值为25,确保视频帧的连续性和一定的帧率,这样可以保证后续的分析和检测过程在时间上具有较高的准确性和实时性;
S2.2、每两帧取一帧,得到视频帧序列;
通常越界落水行为的持续时间为2~4s,即50帧~100帧,每两帧取一帧即为25帧~50帧,减少需要处理的帧数,提高后续目标检测模型和动作识别模型的处理效率,同时保留足够的帧率来捕捉船员的动作和行为。抽帧后的视频帧序列将作为目标检测模型的输入。通过这一步骤,能够有效地处理和准备视频数据,为后续的船员实时越界落水行为检测提供有序和高效的数据输入。
S3、基于yolov5算法构建目标检测模型,将视频帧序列输入该模型中进行船员目标检测。
S4、对S3的检测结果进行处理,得到处理好的图像帧序列,将图像帧序列输入到动作识别网络中,获得船员发生越界落水行为的概率,若输出的概率超过设定的阈值,则表示发生了越界落水行为,触发报警,提醒工作人员及时采取措施,同时将触发报警的图像序列存储下来,以便后续的查看和分析。
对检测结果进行处理包括以下子步骤:
S4.1、初始化动作识别网络状态为False,表示未检测到船员,不开启动作识别网络,连续未检测到船员目标的累计帧数C设为0,基于检测结果进行如下判断:
若检测到船员且动作识别网络状态为False,表示船员首次出现或之前未检测到船员,将动作识别网络状态改为True,继续执行S4.2;
若检测到船员且动作识别网络状态为True,表示船员已经被连续检测到或之前已确认为有效目标,继续执行S4.2;
若未检测到船员且动作识别网络状态为True,表示船员出现过,现在可能离开了,可能离开包括船员确实已经离开、暂时离开、被遮挡或目标检测模型出错等情况,累计帧数C递增,判断C是否超过十帧;如果超过十帧,则说明连续未检测到船员目标,确定船员已经离开,将动作识别网络状态改为False,重置累计帧数C为0,不进行后续操作,如果未超过十帧,则继续执行S4.2;
若未检测到船员且动作识别网络状态为False,表示船员目标未出现或之前已确认为无效目标,则不进行后续操作;
S4.2、若检测到船员,根据目标检测模型检测到的船员锚框信息,将输入图像裁剪为大小为p×q的图像,在本实施例中p=q=224,这样的裁剪尺寸既能够包含更多的信息,又不会增加后续网络的计算量;若未检测到船员,按上一帧的锚框信息进行裁剪,通过此步骤,可以确保裁剪的图像中始终包含船员信息,以便后续的处理和分析;
S4.3、将裁剪后的图像存入一个尺寸为s的队列,设定s=32,32帧能够包含越界落水行为的50%~100%信息,既能更好的描述越界落水行为又不会造成冗余增加计算量。判断队列中的帧数是否达到32帧,当队列帧数等于32帧时,将队列中的图像帧序列作为动作识别网络的输入,同时取出队首的一帧图像,以便下一时刻的输入可以存入队列,这样可以确保连续图像帧不断地被送入动作识别模型进行后续处理;当队列帧数小于s帧时,重复执行步骤S4.1。
通过上次判断和操作,本发明能够识别对船员目标的准备检测,并根据目标的出现与否以及动作识别状态的切换进行后续的行为检测,实现实时、准确的船员落水行为检测。
动作识别网络基于TR-Dense net3D模型构建,采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练,得到训练好的模型;
TR-Dense net3D模型由一个卷积层、一个池化层、四个密集块、三个过渡层和一个分类层组成,其链接顺序为卷积层、最大池化层、密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4、分类层;密集块1、2和3均由六个密集单元和TCBAM注意力模块组成;密集块4由十二个密集单元和TCBAM注意力模块组成;每个密集单元依次由批归一化层、ReLU激活函数层、1×3×3卷积层、批归一化层、ReLU激活函数层、3×1×1卷积层组成;过渡层1、2和3均由一个过渡卷积层和一个平均池化层组成,过渡卷积层依次由批归一化层、ReLU激活函数层、1×1×1卷积层组成,过渡层对特征图进行降维,从而减少通道数,进而减少模型的参数量,平衡模型的复杂度,防止特征图的尺寸过大导致计算负担过重;分类层由一个全局平均池化层和一个全连接层组成;
视频帧序列以[3,32,224,224]的形式输入TR-Dense net3D模型中,3表示输入的视频帧是RGB三通道的图像,32表示输入的视频帧序列的长度为32帧,两个224分别表示每个视频帧的高度和宽度为224像素;首先在卷积层中对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积和大小为7×7×3、步长为2的卷积操作,得到的特征图大小为[64,32,112,112],使用一个3×3×3的最大池化层对特征图进行池化操作,得到的特征图大小为[64,16,56,56];然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4,输出的特征图大小为[560,2,7,7],输入到分类层中,全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中,减少特征图的维度,全连接层将特征向量映射到越界落水行为,采用Sigmoid激活函数输出发生越界落水行为的概率,并采用二元交叉熵损失函数不断更新优化。
如图2所示,TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成;时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成;时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;
密集单元输出的特征图输入到时间注意力模块中,如图3所示,分别利用3维平均池化层和3维最大池化层来聚合输入特征的空间通道信息,生成两种不同的空间通道上下文描述符;再将两个空间通道上下文描述符拼接在一起,并经过卷积核为1×1×1的3d卷积层进行信息的聚合,最后用Sigmoid函数激活得到时间注意力权重,计算公式为:
Mt(F)=σ(ƒ1×1×1 ([AvgPool3d(F);MaxPool3d(F)]));
其中,ƒ1×1×1代表卷积核为1×1×1的卷积运算,σ代表sigmoid 激活函数,AvgPool3d代表3维平均池化运算,MaxPool3d代表3维最大池化运算;将时间注意力权重图与特征图相乘,能够调整不同时间帧序列的特征权重,得到特征图F`;
特征图F`输入到通道注意力模块中,如图4所示,首先分别利用3维平均池化和3维最大池化来聚合输入特征的时空信息,生成两种不同的时空上下文描述符,再将两个时空上下文描述符分别送入共享权重的多层感知机中,得到两个特征图,最后将得到的特征图进行逐元素求和并用sigmoid函数集合得到最后的通道注意力权重,其计算公式为:
Mc(F`)=σ(MLP (AvgPool3d(F`))+MLP(MaxPool3d(F`)));
其中,MLP代表两层神经网络,将通道注意力权重图与原始特征图相乘,能够调整不同通道的特征权重,得到特征图F``;
特征图F``输入到时空注意力模块中,如图5所示,首先分别利用平均池化和最大池化来聚合输入特征的通道信息,生产两种不同的通道上下文描述符,再将两个通道上下午描述符拼接在一起,并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合,最后用sigmoid函数激活得到时间注意力权重,其计算公式为:
Mts(F``)=σ(ƒ7×7×7 ([AvgPool(F``);MaxPool(F``)]));
其中,ƒ7×7×7代表卷积核为7×7×7的卷积运算,将时空注意力权重图与原始特征图相乘,不仅能够聚焦重要的局部空间信息,还能聚焦重要的局部时间信息,能够在时间和空间两个维度上突出重要特征,得到特征图F```。
TR-Dense net3D能够有效地从输入的视频帧序列中提取关键特征,并通过密集块、注意力机制和全局池化层进行特征的整合和压缩。最终,通过全连接层和sigmoid激活函数,将提取的特征用于越界行为概率的计算和识别。TR-Dense net3D继承了Dense net的密集连接和特征重用的优点,通过卷积拆分降低了计算量,并引入了时间、通道、时空注意力机制,提升了对关键特征的关注和辨别能力。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (5)
1.一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,包括以下步骤:
S1、在船上布设监控相机,并实时采集监控视频;
S2、对采集的视频图像数据进行预处理,获取视频帧序列;
S3、基于yolov5算法构建目标检测模型,将视频帧序列输入该模型中进行船员目标检测;
S4、对S3的检测结果进行处理,得到处理好的图像帧序列,将图像帧序列输入到动作识别网络中,获得船员发生越界落水行为的概率,若输出的概率超过设定的阈值,则表示发生了越界落水行为,触发报警,提醒工作人员及时采取措施,同时将触发报警的图像序列存储下来,以便后续的查看和分析;
所述动作检测网络基于TR-Dense net3D模型构建,采集包含越界落水行为的视频帧序列作为训练集对该模型进行训练,得到训练好的模型;
所述TR-Dense net3D模型由一个卷积层、一个池化层、四个密集块、三个过渡层和一个分类层组成,其链接顺序为卷积层、最大池化层、密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4、分类层;所述密集块1、2和3均由六个密集单元和TCBAM注意力模块组成;所述密集块4由十二个密集单元和TCBAM注意力模块组成;每个密集单元依次由批归一化层、ReLU激活函数层、1×3×3卷积层、批归一化层、ReLU激活函数层、3×1×1卷积层组成;所述过渡层1、2和3均由一个过渡卷积层和一个平均池化层组成,过渡卷积层依次由批归一化层、ReLU激活函数层、1×1×1卷积层组成;所述分类层由一个全局平均池化层和一个全连接层组成;
视频帧序列以[3,32,224,224]的形式输入TR-Dense net3D模型中,3表示输入的视频帧是RGB三通道的图像,32表示输入的视频帧序列的长度为32帧,两个224分别表示每个视频帧的高度和宽度为224像素;首先在卷积层中,对输入依次进行批归一化操作、采用ReLU激活函数映射和卷积核大小为7×7×3、步长为2的卷积操作,得到的特征图大小为[64,32,112,112],使用一个3×3×3的最大池化层对特征图进行池化操作,得到的特征图大小为[64,16,56,56];然后依次经过密集块1、过渡层1、密集块2、过渡层2、密集块3、过渡层3、密集块4,输出的特征图大小为[560,2,7,7],输入到分类层中,全局池化层将特征图转化为固定长度的特征向量[560,1,1,1]并输入到全连接层中,全连接层将特征向量映射到越界落水行为,采用Sigmoid激活函数输出发生越界落水行为的概率,并采用二元交叉熵损失函数不断更新优化。
2.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,在S1中,所述监控相机被安装在船的二层甲板处,以全面覆盖船的外围栏区域,用于采集船员在外围栏杆处的行为。
3.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,S2包括以下子步骤:
S2.1、采用ffmpeg模块对实时监控视频进行切割,将视频分解成连续的视频帧序列,切割的方式是以1/N秒取一帧的速度进行切割,N的取值为25;
S2.2、每两帧取一帧,得到视频帧序列。
4.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,在S4中,对检测结果进行处理包括以下子步骤:
S4.1、初始化动作识别网络状态为False,表示未检测到船员,不开启动作识别网络,连续未检测到船员目标的累计帧数C设为0,基于检测结果进行如下判断:
若检测到船员且动作识别网络状态为False,表示船员首次出现或之前未检测到船员,将动作识别网络状态改为True,继续执行S4.2;
若检测到船员且动作识别网络状态为True,表示船员已经被连续检测到或之前已确认为有效目标,继续执行S4.2;
若未检测到船员且动作识别网络状态为True,表示船员出现过,现在可能离开了,累计帧数C递增,判断C是否超过十帧;如果超过十帧,则说明连续未检测到船员目标,确定船员已经离开,将动作识别网络状态改为False,重置累计帧数C为0,不进行后续操作,如果未超过十帧,则继续执行S4.2;
若未检测到船员且动作识别网络状态为False,表示船员目标未出现或之前已确认为无效目标,则不进行后续操作;
S4.2、若检测到船员,根据目标检测模型检测到的船员锚框信息,将输入图像裁剪为大小为p×q的图像;若未检测到船员,按上一帧的锚框信息进行裁剪;
S4.3、将裁剪后的图像存入一个尺寸为s的队列,判断队列中的帧数是否达到s帧,当队列帧数等于s帧时,将队列中的图像帧序列作为动作识别网络的输入,同时取出队首的一帧图像,以便下一时刻的输入可以存入队列;当队列帧数小于s帧时,重复执行步骤S4.1。
5.根据权利要求1所述的一种基于深度学习的船员越界落水行为实时检测方法,其特征在于,所述TCBAM注意力模块由时间注意力模块、通道注意力模块和时空注意力模块组成;所述时间注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;所述通道注意力模块由最大池化层、平均池化层、多层感知机和Sigmoid激活函数层组成;所述时空注意力模块由最大池化层、平均池化层、3d卷积层和Sigmoid激活函数层组成;
密集单元输出的特征图F输入到时间注意力模块中,分别利用3维平均池化和3维最大池化来聚合输入特征的空间通道信息,生成两种不同的空间通道上下文描述符,再将两个空间通道上下文描述符拼接在一起,并经过卷积核为1×1×1的3d卷积层进行信息的聚合,最后用Sigmoid函数激活得到时间注意力权重,计算公式为:
Mt(F)=σ(f1×1×1([AvgPool3d(F);MaxPool3d(F)]));
其中,f1×1×1代表卷积核为1×1×1的卷积运算,σ代表sigmoid激活函数,AvgPool3d代表3维平均池化运算,MaxPool3d代表3维最大池化运算;将时间注意力权重图与特征图F相乘,能够调整不同时间帧序列的特征权重,得到特征图F`;
特征图F`输入到通道注意力模块中,首先分别利用3维平均池化和3维最大池化来聚合输入特征的时空信息,生成两种不同的时空上下文描述符,再将两个时空上下文描述符分别送入共享权重的多层感知机中,得到两个特征图,最后将得到的特征图进行逐元素求和并用sigmoid函数集合得到最后的通道注意力权重,其计算公式为:
Mc(F`)=σ(MLP(AvgPool3d(F`))+MLP(MaxPool3d(F`)));
其中,MLP代表两层神经网络,将通道注意力权重图与原始特征图相乘,能够调整不同通道的特征权重,得到特征图F``;
特征图F``输入到时空注意力模块中,首先分别利用平均池化和最大池化来聚合输入特征的通道信息,生产两种不同的通道上下文描述符,再将两个通道上下文描述符拼接在一起,并经过一个卷积核为7×7×7的3d卷积层进行信息的聚合,最后用sigmoid函数激活得到时间注意力权重,其计算公式为:
Mts(F``)=σ(f7×7×7([AvgPool(F``);MaxPool(F``)]));
其中,f7×7×7代表卷积核为7×7×7的卷积运算,将时空注意力权重图与原始特征图相乘,不仅能够聚焦重要的局部空间信息,还能聚焦重要的局部时间信息,能够在时间和空间两个维度上突出重要特征,得到特征图F```。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979779.5A CN116740649B (zh) | 2023-08-07 | 2023-08-07 | 一种基于深度学习的船员越界落水行为实时检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310979779.5A CN116740649B (zh) | 2023-08-07 | 2023-08-07 | 一种基于深度学习的船员越界落水行为实时检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116740649A CN116740649A (zh) | 2023-09-12 |
CN116740649B true CN116740649B (zh) | 2023-11-03 |
Family
ID=87918915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310979779.5A Active CN116740649B (zh) | 2023-08-07 | 2023-08-07 | 一种基于深度学习的船员越界落水行为实时检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116740649B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117218212B (zh) * | 2023-11-09 | 2024-02-13 | 杭州巨岩欣成科技有限公司 | 相机标定自适应调整方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119718A (zh) * | 2019-05-15 | 2019-08-13 | 燕山大学 | 一种基于深度学习的落水检测及救援控制系统 |
CN110210323A (zh) * | 2019-05-09 | 2019-09-06 | 浙江大学 | 一种基于机器视觉的溺水行为在线识别方法 |
CN112287816A (zh) * | 2020-10-28 | 2021-01-29 | 西安交通大学 | 一种基于深度学习的危险工作区事故自动检测报警方法 |
CN112288770A (zh) * | 2020-09-25 | 2021-01-29 | 航天科工深圳(集团)有限公司 | 基于深度学习的视频实时多目标检测与跟踪方法和装置 |
CN112380914A (zh) * | 2020-10-21 | 2021-02-19 | 浙江工业大学 | 一种基于深度学习的渔船安全监控方法 |
CN113128360A (zh) * | 2021-03-30 | 2021-07-16 | 苏州乐达纳米科技有限公司 | 基于深度学习的司机驾驶行为检测与识别方法 |
CN114267082A (zh) * | 2021-09-16 | 2022-04-01 | 南京邮电大学 | 基于深度理解的桥侧坠落行为识别方法 |
CN114333070A (zh) * | 2022-03-10 | 2022-04-12 | 山东山大鸥玛软件股份有限公司 | 一种基于深度学习的考生异常行为检测方法 |
CN114359373A (zh) * | 2022-01-10 | 2022-04-15 | 杭州巨岩欣成科技有限公司 | 泳池防溺水目标行为识别方法、装置、计算机设备及存储介质 |
CN115482519A (zh) * | 2022-09-21 | 2022-12-16 | 四川大学 | 基于时空和运动深度学习的驾驶员行为识别方法及设备 |
CN116071836A (zh) * | 2023-03-09 | 2023-05-05 | 山东科技大学 | 基于深度学习的船员异常行为检测与身份识别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428699B (zh) * | 2020-06-10 | 2020-09-22 | 南京理工大学 | 伪3d卷积神经网络与注意力机制结合的驾驶疲劳检测方法及系统 |
US20220415027A1 (en) * | 2021-06-29 | 2022-12-29 | Shandong Jianzhu University | Method for re-recognizing object image based on multi-feature information capture and correlation analysis |
CN114022910B (zh) * | 2022-01-10 | 2022-04-12 | 杭州巨岩欣成科技有限公司 | 泳池防溺水监管方法、装置、计算机设备及存储介质 |
US20230162522A1 (en) * | 2022-07-29 | 2023-05-25 | Nanjing University Of Posts And Telecommunications | Person re-identification method of integrating global features and ladder-shaped local features and device thereof |
-
2023
- 2023-08-07 CN CN202310979779.5A patent/CN116740649B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210323A (zh) * | 2019-05-09 | 2019-09-06 | 浙江大学 | 一种基于机器视觉的溺水行为在线识别方法 |
CN110119718A (zh) * | 2019-05-15 | 2019-08-13 | 燕山大学 | 一种基于深度学习的落水检测及救援控制系统 |
CN112288770A (zh) * | 2020-09-25 | 2021-01-29 | 航天科工深圳(集团)有限公司 | 基于深度学习的视频实时多目标检测与跟踪方法和装置 |
CN112380914A (zh) * | 2020-10-21 | 2021-02-19 | 浙江工业大学 | 一种基于深度学习的渔船安全监控方法 |
CN112287816A (zh) * | 2020-10-28 | 2021-01-29 | 西安交通大学 | 一种基于深度学习的危险工作区事故自动检测报警方法 |
CN113128360A (zh) * | 2021-03-30 | 2021-07-16 | 苏州乐达纳米科技有限公司 | 基于深度学习的司机驾驶行为检测与识别方法 |
CN114267082A (zh) * | 2021-09-16 | 2022-04-01 | 南京邮电大学 | 基于深度理解的桥侧坠落行为识别方法 |
CN114359373A (zh) * | 2022-01-10 | 2022-04-15 | 杭州巨岩欣成科技有限公司 | 泳池防溺水目标行为识别方法、装置、计算机设备及存储介质 |
CN114333070A (zh) * | 2022-03-10 | 2022-04-12 | 山东山大鸥玛软件股份有限公司 | 一种基于深度学习的考生异常行为检测方法 |
CN115482519A (zh) * | 2022-09-21 | 2022-12-16 | 四川大学 | 基于时空和运动深度学习的驾驶员行为识别方法及设备 |
CN116071836A (zh) * | 2023-03-09 | 2023-05-05 | 山东科技大学 | 基于深度学习的船员异常行为检测与身份识别方法 |
Non-Patent Citations (3)
Title |
---|
Remote Sensing Image Retrieval Based on DenseNet Model and CBAM;Yongmei Zhang 等;《2020 IEEE 3rd International Conference on Computer and Communication Engineering Technology (CCET)》;全文 * |
一种基于倒影图像检测的水域落水人员判断方法;陈晗;周强;;电脑知识与技术(第26期);全文 * |
基于关键帧的双流卷积网络的人体动作识别方法;张聪聪;何宁;;南京信息工程大学学报(自然科学版)(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116740649A (zh) | 2023-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiao et al. | A yolov3-based learning strategy for real-time uav-based forest fire detection | |
CN112287816B (zh) | 一种基于深度学习的危险工作区事故自动检测报警方法 | |
CN107818326A (zh) | 一种基于场景多维特征的船只检测方法及系统 | |
CN116740649B (zh) | 一种基于深度学习的船员越界落水行为实时检测方法 | |
CN114333424B (zh) | 一种桥梁防船撞监测预警系统 | |
CN112819068A (zh) | 一种基于深度学习的船舶作业违章行为实时侦测方法 | |
CN114202711A (zh) | 一种列车车厢内异常行为智能监测方法、装置及监控系统 | |
CN110852222A (zh) | 一种基于目标检测的校园走廊场景智能监控方法 | |
CN113642403B (zh) | 基于边缘计算的人群异动智能安全检测系统 | |
CN110780356A (zh) | 地铁站台间隙异物检测系统 | |
Zhang et al. | Transmission line abnormal target detection based on machine learning yolo v3 | |
CN115171336B (zh) | 一种海滩监控溺水防护系统 | |
CN110362907A (zh) | 基于ssd神经网络输电线路目标缺陷识别与诊断方法 | |
CN114202803A (zh) | 一种基于残差网络的多阶段人体异常动作检测方法 | |
CN112464765B (zh) | 一种基于单像素特征放大的安全帽检测方法及其应用 | |
CN113542697B (zh) | 基于深度学习的采砂船自适应监控系统的自适应监控方法 | |
CN115826477A (zh) | 基于数据可视化的水域监控系统及方法 | |
CN111340149B (zh) | 基于背景差分法和深度学习的挖掘机实时检测方法和系统 | |
Al Jarouf et al. | A hybrid method to detect and verify vehicle crash with haar-like features and svm over the web | |
CN115691215A (zh) | 一种基于YOLOv5-GRU的道路护栏碰撞检测方法 | |
JP2024516642A (ja) | 行動検出方法、電子機器およびコンピュータ読み取り可能な記憶媒体 | |
CN114372556A (zh) | 一种基于轻量级多模态神经网络的行车危险场景辨识方法 | |
CN103096026A (zh) | 安全监控系统及安全监控方法 | |
Brax et al. | An ensemble approach for increased anomaly detection performance in video surveillance data | |
CN111429701A (zh) | 报警方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |