CN115994911B

CN115994911B - 一种基于多模态视觉信息融合的游泳馆目标检测方法

Info

Publication number: CN115994911B
Application number: CN202310294182.7A
Authority: CN
Inventors: 杜宏林; 李金屏; 闫子硕; 董子昊; 马亮; 林道程
Original assignee: Shandong Shangshui Environmental Technology Group Co ltd
Current assignee: Shandong Shangshui Environmental Technology Group Co ltd
Priority date: 2023-03-24
Filing date: 2023-03-24
Publication date: 2023-06-02
Anticipated expiration: 2043-03-24
Also published as: CN115994911A

Abstract

本发明涉及计算机视觉监控技术领域，具体提供了一种基于多模态视觉信息融合的游泳馆目标检测方法，包括：在游泳馆布置热成像摄像头、可见光摄像头，服务器通过共享内存机制获取热成像数据，通过RTSP协议获取可见光数据；对两种模态的数据分别进行不同的图像预处理；两个模态的图像分别进行独立的YOLOv4目标检测与跟踪。本发明巧妙利用热成像图像对于水面的透过性低，可见光图像特征全面这一特点，能够准确通过深度学习目标检测算法识别出复杂多变的游泳场景中的人体，进而通过运动一致性等特征判别游泳者是否出现溺水，具有判别准确度高、发现及时、适用面广等特点。

Description

一种基于多模态视觉信息融合的游泳馆目标检测方法

技术领域

本发明涉及计算机视觉监控领域，尤其涉及游泳场所中利用计算机视觉技术进行溺水预警的方法，具体涉及一种基于多模态视觉信息融合的游泳馆目标检测方法。

背景技术

目前，游泳运动成为了一种老少皆宜的健身运动。但游泳行为依然属于高风险运动之一，如何及时的发现游泳馆中的溺水行为极为重要。但现阶段，游泳人员的溺水监测大都依然依靠救护人员，通过肉眼的方式实时观察、及时发现是否有人发生溺水行为。但由于人眼观察范围有限，难免观察疏漏，且由于救护人员的生理条件所限制，难以保证高强度的专注力，长时间注视游泳馆的水面也易出现眼部疲劳与眩晕现象，从而造成溺水事故频繁发生。而随着计算机视觉技术的发展，利用计算机视觉进行游泳馆的智能检测具有重要意义。

现阶段，基于深度学习技术的目标检测与跟踪算法越发成熟，而民用的网络摄像头也基本支持RTSP等网络协议进行通信。通过对多模态进行信息融合，识别出复杂多变的游泳场景中的人体，进而判别游泳者是否出现溺水，具有判别准确度高、发现及时、适用面广的特点。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于多模态视觉信息融合的游泳馆目标检测方法。

本发明采用的技术方案如下：

本发明提供了一种基于多模态视觉信息融合的游泳馆目标检测方法，包括以下步骤：

S1:通过在游泳池中布置热成像和可见光两种模态的摄像头，进行数据采集，并对可见光数据进行图像标注工作，得到两种模态的泳池数据库，即热成像数据库和可见光数据库；

S2:对可见光数据库中的可见光数据采用K-means聚类算法得到适合泳池人员的先验框；

S3:对热成像摄像数据库中的热成像数据采用均值背景建模的方法对泳池中的无人背景进行离线建模，保存好建模生成的背景图像模型；

基于S2得到的先验框对可见光中的可见光数据采用YOLOv4目标检测模型进行可见光数据的人体模型训练，具体流程为：首先通过在计算机上配置YOLOv4目标检测模型所需要的计算机程序设计语言Python训练环境；然后通过配置文件设置模型参数，最后利用标注好的泳池图像对模型进行多次迭代训练，直至损失函数收敛，保存训练好的模型；

对热成像数据库中的热成像数据采用YOLOv4目标检测模型进行热成像数据的人体模型训练，具体流程为：首先通过在计算机上配置YOLOv4目标检测模型所需要的计算机程序设计语言Python训练环境；然后通过配置文件设置模型参数，最后利用采集的热成像数据对模型进行多次迭代训练，直至损失函数收敛，保存训练好的模型；

S4:分别用热成像和可见光摄像头对泳池进行检测，并将检测数据分别输入S3所得模型进行处理，得到热成像目标检测数据和可见光目标检测数据；

S5:基于透视变换以及各摄像头标定的位置，分别计算出热成像目标检测数据和可见光目标检测数据中目标的中心点经过透视变换后的位置；

S6: 基于S5所得到的位置信息，利用速度、方向一致性特征进行行为分析，对溺水行为进行报警。

进一步地，热成像数据的获取包括：通过共享内存机制将C++语言的热成像摄像头的软件开发工具包SDK程序进行改写，对采集的图像数据进行拉流，由C++语言进行图像数据拉流以及内存写入，由计算机程序设计语言Python端的计算机视觉和机器学习软件库Opencv进行内存读出，获取热成像图像，即热成像数据；

可见光数据的获取包括：通过实时流传输协议RTSP协议获取可见光摄像头的图像，即可见光数据。

进一步地，S1中所述的泳池数据库中，热成像和可见光两种模态的摄像头采集泳池中游泳人群的视频，利用命令行工具FFmpeg软件将采集的视频转化为图片格式，之后利用可视化的图像标定工具Labelimg软件将可见光图像标注成VOC格式，得到可见光数据库。热成像图像无需标注直接形成热成像数据库。

进一步地，S3中所述的均值背景建模，具体包括：根据S1采集的热成像数据，将其中无人游泳时的热成像数据通过均值背景建模得到泳池的纯净背景。

进一步地，S3中所述的配置文件，具体如下：设置输入图像的尺寸为608×608，单次传递给程序用以训练的样本个数batch_size设置为16，随机参数random为0，迭代次数为5000，细分批次subdivision=16,初始学习率为0.001，检测物体种类为1类，标签为人物person，使用单图形处理器训练模型，显存要求至少4GB。

进一步地，S5中所述的透视变换具体为：透视变换本质上为空间立体三维变换，根据对热成像摄像头和可见光摄像头预设定义好的目标边界点，获取转换矩阵，再通过转换矩阵将两种模态中检测的目标的中心点的位置执行透视变换。

进一步地，S6包括：利用两种模态中的目标透视变换后的位置，进行匹配，若配对后某一种模态目标的速度变化趋势或者移动方向趋势一致性出现异常，则认定为溺水行为，发出报警信号。

(1)准确判定溺水状态。

本发明无需要求人体佩戴检测装置，通过多模态视觉的方式直接采集游泳者的运动状态，通过运动一致性等运动特征以达到识别出溺水姿态与常规游泳姿态的不同，判别游泳者是否出现溺水，具有溺水判别准确度高的特点。

(2)用户体验度高。

由于无需佩戴检测装置，不会对游泳者的游泳体验、舒适度造成影响，使游泳者能够全身心投入游泳，具有无感游泳、市场潜力大等特点。

(3)及时救援，适用于不同类型的游泳场所。

本发明只需教练员待在现场，关注视觉监控，方便救援人员迅速实施现场救援。摄像头布局灵活多样、适用于不同大小游泳场所，具有适用面广的特点。

附图说明

以下附图仅对本发明作示意性的说明和解释，并不用于限定本发明的范围，其中：

图1为本发明视觉信息融合的目标检测流程图。

具体实施方式

为了使本发明的目的、技术方案、设计方法及优点更加清楚明了，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。

参照图1，本发明提供了一种基于多模态视觉信息融合的游泳馆目标检测方法，包括以下步骤：

步骤1:通过共享内存机制将C++语言的热成像摄像头的软件开发工具包SDK程序进行改写，对采集的图像数据进行拉流，由C++语言进行图像数据拉流以及内存写入，由计算机程序设计语言Python端的计算机视觉和机器学习软件库Opencv进行内存读出，获取热成像图像，即热成像数据；通过实时流传输协议RTSP协议获取可见光摄像头的图像，即可见光数据；

步骤2:通过在游泳池中布置热成像和可见光两种模态的摄像头，进行数据采集，并对可见光数据进行图像标注工作，得到两种模态的泳池数据库，即热成像数据库和可见光数据库；

步骤3:通过对可见光数据库中的可见光数据采用K-means聚类算法得到适合泳池人员的先验框；

步骤4:对热成像数据库中的热成像数据采用均值背景建模的方法对泳池中的无人背景进行离线建模，保存好建模生成的背景图像模型；

步骤5:基于步骤3得到的先验框对可见光数据库中的可见光数据采用YOLOv4目标检测模型进行可见光数据的人体模型训练，具体流程可描述为：首先通过在计算机上配置YOLOv4目标检测模型所需要的计算机程序设计语言Python训练环境；然后通过配置文件设置模型参数，最后利用标注好的泳池图像对模型进行多次迭代训练，直至损失函数收敛，保存训练好的模型；YOLOv4目标检测模型是现有成熟的目标检测模型。

步骤6:分别用热成像和可见光摄像头对泳池进行检测，并将检测数据分别输入S5所得模型进行处理，得到热成像目标检测数据和可见光目标检测数据；

步骤7:基于透视变换以及各摄像头标定的位置，分别计算出热成像目标检测数据和可见光目标检测数据中目标的中心点经过透视变换后的位置；

步骤8: 基于步骤7所得到的位置信息，利用速度、方向一致性等特征进行行为分析，对溺水行为进行报警。

步骤2中所述的泳池数据库中，热成像和可见光两种模态的摄像头采集泳池中游泳人群的视频，利用命令行工具FFmpeg软件将采集的视频转化为图片格式，之后利用可视化的图像标定工具Labelimg软件将可见光图像标注成VOC格式，得到可见光数据库。热成像图像无需标注直接形成热成像数据库。

命令行工具FFmpeg软件是一种现有开源软件，其能够将视频转化为图片格式，具体为：在FFmpeg的命令框中拖入待转换视频，定义图片输出目录，点击回车，即完成。

利用可视化的图像标定工具Labelimg软件将可见光图像标注成VOC格式，具体为：打开软件，选择图片存储文件夹，选择要标注的图片；点击选框，框出要标记的区域，输入标签，标记完毕后保存，即得到标注好的VOC格式图像。

步骤4中所述的均值背景建模，具体包括：根据步骤2采集的热成像数据，将其中无人游泳时的泳池图像通过均值背景建模得到泳池的纯净背景。本发明采用对图像进行3sigma差分处理的方式进行均值背景建模。

具体为，对设定数量的热成像图像进行灰度处理，然后将灰度处理的图像进行二值化处理，并将二值化处理后的图像导入混合高斯背景模型，模型统计输入图像的像素变化，将I(x,y,t)-μ＞3σ的像素设为背景，反之，则为前景，从而实现均值背景建模。其中I(x,y,t)表示当前像素值，μ为像素均值，σ为方差。采用混合高斯背景模型进行背景建模为现有成熟方法，本发明不再一一赘述。

步骤5中所述的配置文件，具体如下：设置输入图像的尺寸为608×608，单次传递给程序用以训练的样本个数batch_size设置为16，随机参数random为0，迭代次数为5000，细分批次subdivision=16,初始学习率为0.001，检测物体种类为1类，标签为人物person，使用单图形处理器训练模型，显存要求至少4GB。

步骤7中所述的透视变换本质上为空间立体三维变换，具体为：根据对热成像和可见光摄像头预设定义好的目标边界点，获取转换矩阵，再通过转换矩阵对两种模态中检测的目标的中心点的位置执行透视变换。

透视变换的通用的变换公式为：

u和v分别是原始图像像素坐标，由于原始图像为二维图片，因此w=1；x＇，y＇，w＇分别为透射变换后的三维坐标，x和y分别为变换后的二维图像像素坐标，x=x＇/w＇，y=y＇/w＇。

为透视变换矩阵；其中，

表示图像线性变换；

表示图像平移；

表示图像透视变换。

则变换公式可以为：

；将目标中心点的坐标输入变换公式中则可得到透视变换位置。

步骤8包括：利用两种模态中的目标透视变换后的位置，进行匹配，若配对后某一种模态目标的速度变化趋势或者移动方向趋势一致性出现异常，则认定为溺水行为，发出报警信号。

具体为：对两种模态下得到的同一时间段内目标透视变换后的位置进行匹配，比如正常情况下，两种模态下的目标透视变换后的位置的速度变化趋势或者移动方向趋势是一致的。而当两种模态下的目标透视变换后的位置移动速度变化趋势不一致，或者移动方向趋势不一致，则表示目标行为异常，即认定为发生了溺水行为。

以下为实施例，本发明提供一种多模态视觉信息的游泳馆目标检测方法，包括热成像摄像头、可见光摄像头和检测算法，其中，热成像摄像头固定在游泳馆的四周墙壁上，用于通过均值背景建模来检测游泳者的运动状态；可见光摄像头固定在游泳馆的中间顶部，用于通过超广角方式来检测游泳者的运动状态；检测算法通过对两种模态的摄像头图像分别进行目标检测算法，通过透视变换算法对检测到的目标的中心点进行透视变换，得到以游泳区域为基准的坐标系中的位置，通过两种模态下的人体运动方向的一致性与运动速度等特征判断游泳者是否溺水，若出现溺水行为，通过声音和视频两种方式进行报警，两种模态的摄像头中的目标进行高亮显示，另外，通过声音播报的方式进行报警提示，向救护人员及时提供救援信息。

综上所述，本发明提供一种多模态视觉信息融合的游泳馆目标检测方法，能够通过热成像与可见光摄像头准确采集游泳者的运动状态，其中，热成像图像通过拉流的方式获取，可见光图像通过RTSP协议的方式获取。获取图像后由透视变换算法将游泳者的运动特征进行模态对齐，再通过运动方向的一致性、运动速度等特征判断出游泳者游泳状态，判别游泳者是否出现溺水。本发明无需定位基站，无需游泳者佩戴传感器设备，只需在游泳馆合理布置摄像头，利用两种模态摄像头进行检测，透视变换以游泳区域建立基准坐标系，有效地保证游泳者的安全，方便救援人员迅速实施救援，具有判别准确度高、发现及时、适用面广等特点。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于多模态视觉信息融合的游泳馆目标检测方法，包括以下步骤：

S2:对可见光数据库中的可见光数据采用K-means聚类算法处理得到适合泳池人员的先验框；

S3:对热成像数据库中的热成像数据采用均值背景建模的方法对泳池中的无人背景进行离线建模，保存好建模生成的背景图像模型；

基于S2得到的先验框对可见光数据库中的可见光数据采用YOLOv4目标检测模型进行可见光数据的人体模型训练，具体流程为：首先通过在计算机上配置YOLOv4目标检测模型所需要的计算机程序设计语言Python训练环境；然后通过配置文件设置模型参数，最后利用标注好的泳池图像对模型进行多次迭代训练，直至损失函数收敛，保存训练好的模型；

S6:基于S5所得到的位置信息，利用速度、方向一致性特征进行行为分析，对溺水行为进行报警；

S6包括：利用两种模态中的目标透视变换后的位置，进行匹配，若配对后两种模态目标的速度变化趋势或者移动方向趋势一致性出现异常，则认定为溺水行为，发出报警信号。

2.根据权利要求1所述的一种基于多模态视觉信息融合的游泳馆目标检测方法，其特征在于，热成像数据的获取包括：通过共享内存机制将C++语言的热成像摄像头的软件开发工具包SDK程序进行改写，对采集的图像数据进行拉流，由C++语言进行图像数据拉流以及内存写入，由计算机程序设计语言Python端的计算机视觉和机器学习软件库Opencv进行内存读出，获取热成像图像，即热成像数据；

3.根据权利要求1所述的一种基于多模态视觉信息融合的游泳馆目标检测方法，其特征在于，S1中所述的泳池数据库中，热成像和可见光两种模态的摄像头采集泳池中游泳人群的视频，利用命令行工具FFmpeg软件将采集的视频转化为图片格式，之后利用可视化的图像标定工具Labelimg软件将可见光图像标注成VOC格式，得到可见光数据库；热成像图像无需标注直接形成热成像数据库。

4.根据权利要求1所述的一种基于多模态视觉信息融合的游泳馆目标检测方法，其特征在于，S3中所述的均值背景建模，具体包括：根据S1采集的热成像数据，将其中无人游泳时的热成像数据通过均值背景建模得到泳池的纯净背景。

5.根据权利要求1所述的一种基于多模态视觉信息融合的游泳馆目标检测方法，其特征在于，S3中所述的配置文件，具体如下：设置输入图像的尺寸为608×608，单次传递给程序用以训练的样本个数batch_size设置为16，随机参数random为0，迭代次数为5000，细分批次subdivision=16,初始学习率为0.001，检测物体种类为1类，标签为人物person，使用单图形处理器训练模型，显存要求至少4GB。

6.根据权利要求1所述的一种基于多模态视觉信息融合的游泳馆目标检测方法，其特征在于，S5中所述的透视变换具体为：根据对热成像摄像头和可见光摄像头预设定义好的目标边界点，获取转换矩阵，再通过转换矩阵对两种模态中检测的目标的中心点的位置执行透视变换。