CN117788463B

CN117788463B - 基于视频ai与多模态数据融合的船舶吃水深度检测方法

Info

Publication number: CN117788463B
Application number: CN202410205021.0A
Authority: CN
Inventors: 朱冰冰; 樊鹏程; 李俊; 宋宜泽; 徐浩森
Original assignee: China Communication Technology Co Ltd
Current assignee: China Communication Technology Co Ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-05-10
Anticipated expiration: 2044-02-26
Also published as: CN117788463A

Abstract

本发明公开一种基于视频AI与多模态数据融合的船舶吃水深度检测方法，包括如下步骤：（1）视觉传感器分别以固定角度和多角度采集船舶在水中的影像数据；采用超声波方法测得船体四个方向的吃水深度；（2）对视觉传感器采集的影像数据进行图像处理，获得用于吃水检测的图像；（3）对图像数据进行水位线检测，同时利用目标检测算法识别船舶上的水尺数值，将水位线和水尺数值进行对比得到吃水深度；针对采用超声波方法测得的船体四个方向的吃水深度，去除异常数据；（4）采用权重矩阵对多模态吃水深度数据进行融合。本发明采用多维数据，结合视频AI算法与多模态数据融合技术提供关于船舶吃水的更精确和更丰富的信息。

Description

基于视频AI与多模态数据融合的船舶吃水深度检测方法

技术领域

本发明涉及水运业中船舶安全管理和图像AI检测，特别是一种基于视频AI与多模态数据融合的船舶吃水深度检测方法。

背景技术

船舶作为一种重要的水上交通工具，其吃水深度的准确测量对于安全导航、港口管理和货物运输至关重要，它直接关系到船舶在不同水域中的航行能力和载货能力。因此，准确测量和监测船舶的吃水深度对于预防搁浅、碰撞和货物装载的平衡以及保障生产安全至关重要。传统的吃水深度测量方法通常涉及使用航海图表、潮汐表和深度仪来预测吃水深度，但这些方法存在一定的限制，如依赖于人工观测和不适用于即时更新。此外，恶劣天气、复杂水域和航道状况也增加了吃水深度测量的难度。

发明内容

发明目的：针对传统吃水深度测量方法存在的不准确性和不稳定性问题，本发明提出一种基于视频AI与多模态数据融合的船舶吃水深度检测方法，通过融合多模态数据，采用目标检测算法获得更为全面的吃水深度信息，有效地降低了计算复杂度，同时提高了吃水深度检测的精度和自动化程度。

本发明为解决上述技术问题采用以下技术方案：一种基于视频AI与多模态数据融合的船舶吃水深度检测方法，包括如下步骤：

（1）视觉传感器分别以固定角度和多角度采集船舶在水中的影像数据；采用超声波方法测得船体四个方向的吃水深度；

（2）对所述视觉传感器采集的影像数据进行图像处理，获得用于吃水检测的图像数据；

（3）对所述图像数据进行水位线检测，同时利用目标检测算法识别船舶上的水尺数值，将水位线和水尺数值进行对比得到吃水深度；针对采用超声波方法测得的船体四个方向的吃水深度，去除异常数据；

（4）采用权重矩阵对多模态吃水深度数据进行融合。

在其中一个实施例中，所述步骤（1）利用港口的固定摄像头和/或使用无人机搭载摄像设备拍摄船舶在水中的影像数据。

在其中一个实施例中，所述步骤（1）利用超声波传感器和水压传感器测得船体四个方向的吃水深度；

定义水压传感器测得的当前水深为，超声波传感器检测得从船底四条边到水底之间的距离/>，则船体四个方向的吃水深度矢量表示为：

；

其中：

；

k表示船体方向。

在其中一个实施例中，所述步骤（2）的图像处理包括帧提取、稳定化、仿射变换中的一种或多种。

具体的，所述仿射变换将图像的二维像素坐标转换为新的二维坐标，具体公式如下：

；

其中，是原坐标，/>是仿射变换后的坐标；/>是用于描述仿射变换中线性变换部分的矩阵，/>是用于描述平移部分的向量。

在其中一个实施例中，所述步骤（3）对图像数据的水位线检测包括如下内容：

（3.1）对图像帧进行水位线检测，以获取水位线在图像帧中的具体位置；将图像划分为网格矩阵，在每一列中使用分类器检测出水位线所在的网格及对应数据，对所有列得到的数据进行平均得到该帧图像中水位线的位置；

（3.2）利用目标检测算法进行船舶上的水尺数值识别，得到水尺数值在图像中的纵坐标；

（3.3）针对第一阶段得到的，在/>中找到首个大于/>的分量，记为/>，则该帧图像中预测的吃水深度/>表示为：

；

其中，第一项为吃水深度的整数部分，第二项为吃水深度的小数部分；G ^-1表示通过图像纵坐标得到水尺数值的函数映射；

根据以上步骤（3.1）-（3.3），分别得到固定角度拍摄和多角度拍摄下的吃水深度矢量：

；

其中：

；

和/>分别为固定角度拍摄和多角度拍摄下的图像帧测得的吃水深度，/>表示提取的帧数量，/>表示船体方向。

具体的，所述步骤（3.1）具体包括如下内容：

将图像划分为m行n列的矩阵，将水位线的检测视为二分类问题，针对第列的水位线预测表示为：

；

其中，表示包含船体某侧的一幅图像；/>表示图像第/>列对应的分类器；/>是一个m维向量，各分量表示该网格中有水位线的概率；

假设第列的水位真实位置由独热标签/>表示，/>是一个m维向量，只有在水位线的真实位置处对应的分量为1，其余分量为0；

损失函数由下式表示：

；

其中，是交叉熵损失函数，根据该损失函数训练分类器；

在一帧图像中，将图像的左上角作为原点建立二维坐标系并为每个像素分配坐标；使用训练好的分类器对网格进行检测，得到第列中水位线具体出现在网格/>，用网格的中心像素/>代表水位线的位置，那么该帧图像中的水位线的位置由一个纵坐标表示：

；

其中，表示获取纵坐标。

进一步的，所述步骤（3.2）利用YOLOv3进行船舶上的水尺数值识别，具体包括如下内容：

使用Darknet卷积神经网络，该网络的三个特征是局部感受野、权重共享和下采样；假设第层是卷积层，第/>层是池化层，那么第/>层的第/>个特征图的计算过程如下：

；

其中，是一个逐元素应用于输入的激活函数，/>是第/>层中对应于索引/>的输入特征图，/>是第/>层中第/>个特征图和第/>个输入特征图之间的卷积核，/>表示卷积操作，/>是第/>层中第/>个特征图的偏置项；第/>层的第/>个特征图的残差计算公式如下：

；

其中，是应用于下一层残差的缩放因子；/>表示激活函数对输入的导数，逐元素应用于输入；/>表示逐元素乘法；/>表示上采样，以使/>的维度与第/>层中输入特征图的维度相匹配；

YOLOv3使用的卷积神经网络将输入图像划分为的网格，每个网格负责检测目标，前提是目标的中心点位于该网格内，并同时预测目标的边界框和与目标相关的置信度得分，置信度得分定义为：

；

其中，表示边界框中包含目标的概率，为/>表示包含，否则为/>；IOU是一种用于度量目标检测中边界框准确性的指标，由实际边界框与预测边界框二者的交集面积和并集面积的比率表示，该值一般在0到1之间，表示实际边界框和预测边界框之间的重叠程度；

经过YOLOv3的预测，得到水尺数值和图像纵坐标的映射关系：

；

其中，G表示通过水尺数值得到图像纵坐标的函数映射；表示水尺数值，/>表示该数值对应的刻度在图像中的纵坐标，由于水尺包含一组刻度，所以/>是一个向量，其维度是YOLOv3检测到的水尺数值的数量，包含一组纵坐标。

在其中一个实施例中，所述步骤（3）使用最小二乘方法去除异常数据，过程如下：

将第次测量和第/>次测量得到的吃水深度/>视为二元组/>；根据最小二乘法构造直线方程：

；

其中，和/>为回归系数，/>为第/>次拟合的吃水深度；将测得的吃水深度和拟合得到的吃水深度进行平方加和，即：

；

式中，为第/>次测得的实际吃水深度，令/>，/>，/>，，/>，令/>，则

；

通过方程，由已测得的吃水深度拟合接下来的吃水深度，当时，/>被判定为异常数据并舍弃，/>为阈值。

在其中一个实施例中，所述步骤（4）采用权重矩阵对多模态吃水深度数据进行融合的过程如下：

（4.1）采用视觉传感器以固定角度拍摄、多角度拍摄船舶视频，同时采用水下传感器检测船舶吃水深度，得到多维吃水深度矢量：

；

其中，分别表示不同的数据采集方式，包括视觉传感器以固定角度采集、视觉传感器以多角度采集、水下传感器采集，该三种采集方式对应的传感器状态观测值为

；

其中，，/>分别为对应传感器的观测矩阵与随机噪声矢量，分别为：

，/>；

其中，噪声矢量中的非零元素服从均值为0的正态分布；

（4.2）对于线性数据模型，基于加权最小二乘法的融合算法表达式为：

；

其中，为参数/>的无偏估计值；/>；/>为状态观测值y_i的第k个元素，/>，/>为/>的第k列；/>为全1列向量；/>为3×3对角加权矩阵，对角元素为/>，/>，/>，/>，/>分别为传感器/>在测量数据/>时的测量精度、总测量时间和单位时间的测量次数，均为归一化值；k=1,2,3,4，表示船体方向；

（4.3）对融合算法表达式求偏导：

；

得到方向吃水深度的加权最小二乘估计值为：

。

与现有技术相比，本发明具有以下有益效果：

（1）由于多样化的数据来源可以适用于不同环境和条件，本发明通过视觉传感器的多种拍摄方式以及水下传感器的检测获取多模态数据，考虑了数据来源的多样性，在完成图像、数据的预处理和整合后，又对多模态数据进行融合，大大提高了检测精度；

（2）使用矩阵化的图像处理技术检测图像中的水位线，将水位线的检测视为二分类问题，相比传统的基于像素的形态学操作，大大降低了计算复杂度；利用先进的目标检测算法进行字符识别，能够从多模态数据中提取出更加全面和准确的吃水深度信息；

（3）针对超声波数据中无法消除的异常数据，采用最小二乘方法对船舶的吃水深度进行拟合，以消除异常数据对检测的影响，进一步提高了吃水深度检测的准确性。

附图说明

图1为本发明一实施例的基于视频AI与多模态数据融合的船舶吃水深度检测方法的流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明进行详细描述。

一种基于视频AI与多模态数据融合的船舶吃水深度检测方法，包括如下步骤：

（1）视觉传感器分别以固定角度和多角度采集船舶在水中的影像数据；超声波传感器利用接收信号的时间差测得船体距离水底的距离，进一步结合水压传感器或其他水下传感器测得的水深，确定船底多点位的吃水深度信息；

（2）对视觉传感器采集的影像数据进行图像处理，获得用于吃水检测的图像数据；

（3）对图像数据进行水位线检测，同时利用目标检测算法识别船舶上的水尺数值，将水位线和水尺数值进行对比得到吃水深度；针对超声波方法测得的船体四个方向的吃水深度，进行异常数据剔除的处理；

（4）采用权重矩阵对多模态吃水深度数据进行融合。

具体的，在步骤（1）的数据采集阶段，从不同来源采集数据，视觉传感器可采用例如港口的摄像头、搭载于无人机的摄像设备实现，同时利用水下传感器检测船底多点位吃水深度信息，这种多样化的数据来源适用于不同环境和条件，可以提供更全面的吃水深度信息。

步骤（2）对视觉传感器采集的视频数据进行预处理，包括但不限于帧提取、稳定化、仿射变换等操作。进行帧提取的目的是得到用于检测船体四个方向的图像数据；针对多维影像进行稳定化则可以提高数据可用性；此外，图像的仿射变换能够将图像中倾斜的水尺变为垂直的，以更精准地反映船体四个侧面的特征。图像的仿射变换是一种线性变换，它将图像的二维像素坐标转换为新的二维坐标，公式如下：

；

其中，是原坐标，/>是仿射变换后的坐标；矩阵/>用于描述仿射变换中的线性变换部分，向量/>描述平移的部分。

步骤（3）针对步骤（1）中视觉传感器、超声波传感器采集的三类数据，使用一种矩阵化的图像处理方法以及字符识别技术进行水位检测，具体分为三个阶段：

在第一阶段，对视觉传感器采集的图像进行水位线检测以获取水位线在图像帧中的具体位置。人为地将图像划分为网格矩阵，在每一列中使用分类器检测出水位线所在的网格，对在所有列得到的数据进行平均以得到该帧图像中水位线的位置。具体来说，将图像划分为m行n列的矩阵，将水位线的检测视为二分类问题，那么对第列的水位线的预测表示为：

；

其中，表示包含船体某侧的一幅图像，/>表示对图像第/>列的分类器，/>则是一个/>维向量，各分量表示该网格中有水位线的概率。假设第/>列的水位真实位置由独热标签/>表示，独热编码将每个标签映射成一个向量，其中只有一个元素的值为1，其余元素的值都为 0，这个1所在的位置表示样本所属的类别。/>是一个m维向量，只有在水位线的真实位置处对应的分量为1，其余分量为0。

损失函数由下式表示：

；

其中，是交叉熵损失函数，根据该损失函数训练分类器，用于精确预测水位线。

在一帧图像中，将图像的左上角作为原点建立二维坐标系并为每个像素分配坐标。经过分类器预测，得到第列中水位具体出现在网格/>，用网格/>的中心像素/>代表水位的位置，那么该帧图像中的水位可由一个纵坐标表示：

；

其中表示获取纵坐标。

在第二阶段，优选利用YOLOv3进行船舶上水尺图的刻度识别。YOLOv3使用Darknet卷积神经网络，该网络的三个特征是局部感受野、权重共享和下采样。假设第层是卷积层，第/>层是池化层，那么第/>层的第/>个特征图的计算过程如下：

；

其中，是一个逐元素应用于输入的激活函数，/>是第/>层中对应于索引/>的输入特征图，/>是第/>层中第/>个特征图和第/>个输入特征图之间的卷积核，/>表示卷积操作，/>是第/>层中第/>个特征图的偏置项。

第层的第/>个特征图的残差计算公式如下：

；

其中，是应用于下一层残差的缩放因子；/>表示激活函数对输入的导数，逐元素应用于输入；/>表示逐元素乘法（哈达玛积）；/>表示上采样，以使/>的维度与第/>层中输入特征图的维度相匹配。YOLOv3使用的卷积神经网络将输入图像划分为/>的网格，每个网格负责检测目标，前提是目标的中心点位于该网格内，并同时预测目标的边界框和与目标相关的置信度得分，置信度得分定义为：

；

其中，表示边界框中包含目标的概率，为/>表示包含，否则为/>。IOU（IntersectionoverUnion）是一种用于度量目标检测中边界框准确性的指标，由实际边界框与预测边界框二者的交集面积和并集面积的比率表示，该值一般在0到1之间，表示实际边界框和预测边界框之间的重叠程度。

经过YOLOv3的预测，可得到水尺数值和图像纵坐标的映射关系：

；

其中，函数G表示经YOLOv3预测得到的水尺数值到图像纵坐标的函数映射，其反函数G ^-1表示通过图像中纵坐标得到水尺数值的读数；表示水尺数值，/>表示该数值对应的刻度在图像中的纵坐标，由于水尺包含一组刻度，所以/>是一个向量，其维度是YOLO检测到的水尺数值的数量，包含了一组纵坐标。

在第三阶段，针对第一阶段得到的，在/>中找到首个大于/>的分量，记为/>，则该帧图像中预测的吃水深度/>表示为：

；

其中，第一项表示吃水深度的整数部分，第二项进行了归一化以得到吃水深度的小数部分。

根据以上三个阶段，可以对视觉传感器以固定角度和多角度模式采集的视频执行吃水检测，得到两种吃水深度矢量：

；

其中：

；

和/>分别是从固定角度和多角度模式图像帧中测得的吃水深度，/>表示提取的帧数量，k表示船体方向。

在利用水下超声波方法测量吃水深度时，可首先利用水压传感器得出当前的水深，然后将超声波传感器的信号发射端布置在船底，信号接收端布置在水底，基于超声波传感器检测出从船底四条边到水底之间的距离/>，则吃水深度矢量表示为：

；

其中：

；

在船舶行进的过程中，螺旋桨转动在船的尾部形成尾流，这部分尾流会形成中值滤波无法消除的异常数据，因此采用最小二乘方法对船舶的吃水深度进行拟合以消除异常数据的影响。

将第次测量和第/>次测量得到的吃水深度/>视为二元组/>。根据最小二乘法构造直线方程：

；

其中，和/>为回归系数，/>为第/>次拟合的吃水值。将测得的吃水深度和拟合得到的吃水深度进行平方加和，得到：

；

式中，为第/>次测得的实际吃水值，令/>，/>，/>，，/>，令/>，则

；

通过方程可由已测得的吃水数据拟合接下来的吃水数据。根据阈值决定是否保留所拟合的吃水数据，当/>时，/>被判定为异常数据，需舍弃。

上述使用矩阵化的图像处理技术检测图像中的水位线，可以有效地降低计算复杂度，并利用YOLOv3等目标检测算法进行字符识别，获得吃水深度信息，这种检测方法结合了计算机视觉和深度学习技术，提高了吃水深度检测的精度和自动化程度。

进一步的，步骤（4）采用权重矩阵对步骤（3）检测得到的多模态吃水深度数据进行融合，目的是提高检测精度与数据丰富性，综合当前天气状况以及海洋状况等因素判断船舶吃水情况。过程如下：

；

其中，分别表示不同的数据采集方式，包括但不限于视觉传感器以固定角度采集、视觉传感器以多角度和/或动态方式采集、水下传感器检测等，该三种采集方式对应的传感器状态观测值为

；

，/>；

其中，噪声矢量中的非零元素服从均值为0的正态分布；

；

其中，为参数/>的无偏估计值；/>；/>为状态观测值y_i的第k个元素，/>，/>为/>的第k列；/>为全1列向量；/>为3×3对角加权矩阵，对角元素为/>，/>，/>，/>，/>分别为传感器/>在测量数据/>时的测量精度、总测量时间和单位时间的测量次数，均为归一化值；

（4.3）对融合算法表达式求偏导：

；

得到k方向（即四个方向其一）的吃水深度的加权最小二乘估计值为：

。

如图1所示为本发明的一种优选实施例，该实施例利用港口位置固定的摄像头和无人机拍摄船舶视频，利用超声波传感器等水下传感器获取多维数据，步骤如下：

步骤101：传感器数据采集。利用港口位置固定的摄像头拍摄船舶在水中的静态影像数据；同时使用无人机搭载摄像设备，捕捉船体在水中的多维影像数据；利用水下超声波传感器和水压传感器计算船底多点位的吃水深度。

步骤102：图像预处理。对采集的影像数据进行预处理，包括帧提取、稳定化、仿射变换等步骤，目的是获得可用于吃水检测的图像。

步骤103：吃水深度计算。对图像数据进行水位线检测，同时利用YOLOv3算法识别船舶上的水尺数值，将水位线和水尺数值进行对比得到吃水深度；针对超声波测量方法计算得到的吃水深度，使用最小二乘方法去除异常数据。

步骤104：多模态数据融合。依据权重矩阵对三类吃水深度数据进行融合，以提高检测精度，具体步骤如下：

S1 ：采用港口固定摄像头、无人机搭载摄像设备、超声波传感器测量得到的吃水深度矢量以及三种采集方式对应的传感器状态观测值；

S2：获得基于加权最小二乘法的融合算法；

S3：求取融合算法的偏导，得到船体四个方向其一的吃水深度的加权最小二乘估计值。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围内。

Claims

1.一种基于视频AI与多模态数据融合的船舶吃水深度检测方法，其特征在于，包括如下步骤：

（3）对所述图像数据进行水位线检测，同时利用目标检测算法识别船舶上的水尺数值，将水位线和水尺数值进行对比得到吃水深度；针对采用超声波方法测得的船体四个方向的吃水深度，去除异常数据；具体过程如下：

（3.3）针对第一阶段得到的，在/>中找到首个大于/>的分量，记为，则该帧图像中预测的吃水深度/>表示为：

；

其中：

；

和/>分别为固定角度拍摄和多角度拍摄下的图像帧测得的吃水深度，/>表示提取的帧数量，/>表示船体方向；

步骤（3.1）的具体过程如下：

；

损失函数由下式表示：

；

其中，是交叉熵损失函数，根据该损失函数训练分类器；

在一帧图像中，将图像的左上角作为原点建立二维坐标系并为每个像素分配坐标；使用训练好的分类器对网格进行检测，得到第列中水位线具体出现在网格/>，用网格/>的中心像素/>代表水位线的位置，那么该帧图像中的水位线的位置由一个纵坐标表示：

；

其中，表示获取纵坐标；

（4）采用权重矩阵对多模态吃水深度数据进行融合；具体过程如下：

；

，/>；

其中，噪声矢量中的非零元素服从均值为0的正态分布；

；

（4.3）对融合算法表达式求偏导：

；

得到方向吃水深度的加权最小二乘估计值为：

。

2.根据权利要求1所述的基于视频AI与多模态数据融合的船舶吃水深度检测方法，其特征在于，所述步骤（1）利用港口的固定摄像头和/或使用无人机搭载摄像设备拍摄船舶在水中的影像数据。

3.根据权利要求1所述的基于视频AI与多模态数据融合的船舶吃水深度检测方法，其特征在于，所述步骤（1）利用超声波传感器和水压传感器测得船体四个方向的吃水深度；

；

其中：

；

k表示船体方向。

4.根据权利要求1所述的基于视频AI与多模态数据融合的船舶吃水深度检测方法，其特征在于，所述步骤（2）的图像处理包括帧提取、稳定化、仿射变换中的一种或多种。

5.根据权利要求4所述的基于视频AI与多模态数据融合的船舶吃水深度检测方法，其特征在于，所述仿射变换将图像的二维像素坐标转换为新的二维坐标，具体公式如下：

；

6.根据权利要求1所述的基于视频AI与多模态数据融合的船舶吃水深度检测方法，其特征在于，所述步骤（3.2）利用YOLOv3进行船舶上的水尺数值识别，具体包括如下内容：

；

其中，是一个逐元素应用于输入的激活函数，/>是第/>层中对应于索引/>的输入特征图，/>是第/>层中第/>个特征图和第/>个输入特征图之间的卷积核，/>表示卷积操作，是第/>层中第/>个特征图的偏置项；第/>层的第/>个特征图的残差计算公式如下：

；

其中，表示边界框中包含目标的概率，为/>表示包含，否则为/>；IOU是一种用于度量目标检测中边界框准确性的指标，由实际边界框与预测边界框二者的交集面积和并集面积的比率表示，该值在0到1之间，表示实际边界框和预测边界框之间的重叠程度；

经过YOLOv3的预测，得到水尺数值和图像纵坐标的映射关系：

；

7.根据权利要求3所述的基于视频AI与多模态数据融合的船舶吃水深度检测方法，其特征在于，所述步骤（3）使用最小二乘方法去除异常数据，过程如下：

；

式中，为第/>次测得的实际吃水深度，令/>，/>，/>，/>，，令/>，则：

；