CN112766274A

CN112766274A - 一种基于Mask RCNN算法的水尺图像水位自动读数方法及系统

Info

Publication number: CN112766274A
Application number: CN202110134842.6A
Authority: CN
Inventors: 陈赛你; 蔡立辉; 陈干发; 范文兵; 贾小娇
Original assignee: Changsha Shengtang Technology Co ltd
Current assignee: Changsha Shengtang Technology Co ltd
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-05-07
Anticipated expiration: 2041-02-01
Also published as: CN112766274B

Abstract

本发明公开了水利信息化水位自动测报技术领域中的一种基于Mask RCNN算法的水尺图像水位自动读数方法，包括以下步骤：(1)安装摄像头和水尺，记录并确认球机的每个预置点位水尺成像后的四个角点坐标，设为预置点参数；(2)采集不同摄像头水尺图像并批量校正；(3)对校正的图像标注水尺检测框，构建训练集；(4)获取最佳锚框尺寸anchors，调整学习率、迭代次数，开始对Mask RCNN模型进行训练、验证、测试，获得最终模型参数文件；(5)部署步骤(4)训练的模型参数文件，对实时采集的图片校正，预测出检测框和分割掩码；(6)结合步骤(1)中的预置点坐标，计算水位；本发明可适应复杂环境下的水尺图像水位自动读数，具备识别准确率高、适用范围广和智能化程度高等优点。

Description

一种基于Mask RCNN算法的水尺图像水位自动读数方法及系统

技术领域

本发明属于水利信息化水位自动测报技术领域，具体涉及一种基于Mask RCNN算法的水尺图像水位自动读数方法及系统。

背景技术

水位是河流湖库的基本水文要素，实时水位是防汛相关部门在山洪灾害防治、流域防洪、城市防洪指挥决策的重要参考依据，同时，水位监测数据也是水资源环境监管、开发利用的重要指标。

河流、湖库水位，除了人工观察读值外，还有自动水位计监测，自动水位计监测主要包括浮子式、压力式、气泡式、超声波式、雷达式，以及会采用传统的图像识别方法对水位进行监测。这些方法在监控时存在诸多缺陷，比如人工监测，存在安全问题，劳动强度大且自动化程度低；各种自动水位计成本高，易受环境影响，安装难度大，维护成本较高；而传统的图像识别方法对每个摄像头的安装角度和位置要求较高，适应性较差。我国每年投入数以亿计的资金对现有自动水位站进行补充建设和设备维护。

在船舶吃水深度检测领域，公开号为CN 108549894 A的中国专利文件中公开了利用传统的边缘检测算子对吃水线进行边缘检测的方法，去除干扰提取吃水线边缘，再用最小二乘法拟合水线。而在水库、河道这种流域的水位监测摄像头离拍摄水尺较远，水尺目标在整幅图片中小，水线不明显，且由于水质清澈或水线上下污渍附着，刻度和水线的边缘检测很困难。

通常对于水位读数的识别需要经验丰富的人，而神经网络可以拟合任意复杂的函数。因此我们通过人工标注水线以上的水尺，使深度神经网络模型不断的去拟合人类的识别经验，实践后统计发现我们训练的模型可以识别各种恶劣环境下的水尺读数，只要人眼能标记清。

发明内容

本发明的目的是为了解决现有水利信息化水位自动测报技术领域中存在的缺点，提出一种基于Mask RCNN算法的水尺图像水位自动读数方法。

为了实现以上目的，本发明采用如下技术方案：

一种基于Mask RCNN算法的水尺图像水位自动读数方法，包括以下步骤：

步骤1：构建用于检测分割水面以上水尺的深度神经网络模型，深度神经网络模型包括预置点配置和图像批量校正模块、目标检测实例分割模块和水尺读数计算模块；

其中，预置点配置和图像批量校正模块包括：

1）现场安装摄像头和水尺时，对摄像头球机的每个预置点位标记水尺成像后的四个角点像素坐标作为预置点参数；

2）收集水尺图像数据，并对收集的水尺图像数据进行批量校正处理；

目标检测实例分割模块基于Mask RCNN，用于识别水尺的位置和实例分割掩码；

水尺读数计算模块是根据预置点坐标和Mask RCNN模型预测的水尺检测框内实例掩码的边界像素坐标来换算水位读数。

步骤2：对基于Mask RCNN的目标检测实例分割模块进行训练，包括：

1）对校正处理后的水尺图像标注检测框，形成包含原始数据与对应的语义掩码的数据集；将数据集随机分为训练集、验证集和测试集；

2）使用训练集对Mask RCNN算法进行训练，然后使用验证集对训练后的Mask RCNN进行验证；如果验证结果的Mask识别准确率符合预设阈值，则进入步骤3，否则，返回步骤2.1，扩大原始数据容量后重新进行标注、训练及验证；

步骤3：利用测试集或采集端实时传来的图像，预测Mask RCNN模型的检测分割效果，结合步骤1中的预置点坐标，计算出目标水尺图像的水位刻度。

进一步地，在步骤1中，为了降低训练模型的偏差，选择具有不同视角、环境条件、光照条件的图片数据。

进一步地，在步骤1.1)中，现场安装摄像头和水尺时，需对球机的每个预置点位，标记水尺成像后内框左上、左下、右下、右上四个角点的像素坐标作为预置点坐标，左上与左下坐标点对应此根水尺的度量范围，预置点坐标用于校正水尺，效果是图像中水尺以其左上角点为中心映射，校正为目标水尺横平竖直；度量范围用于Mask RCNN模型检测出水位以上像素后换算实际水位读数。

进一步地，在步骤1.2)中，采用透视变换的方法批量校正水尺图像中的水尺，将水尺内框四个角点投影到一个新的视平面，通用的变换公式为：

（u，v）为原始图像像素坐标，（x'，y’）为变换之后的图像像素坐标，透视变换的方程组有8个未知数，所以要求解就需要找到4组映射点，四个点就刚好确定了一个三维空间。水尺成像后内框的左上、左下、右下、右上四个角点（ABCD），变换后的理想效果是图像中水尺以其左上角点为中心映射为横平竖直的四个角点(A’B’C’D’)，用此四对角点可计算出透视变换矩阵M。

进一步地，在步骤2.1)中，对水位线以上的水尺图像标注检测框，其他的图像部分都是背景。

进一步地，在步骤2.2)中，所述Mask RCNN采用残差网络加特征金字塔（ResNet101+FPN）作为特征提取器，用于从原始数据的图像中提取特征图像；特征图像输入区域提取网络，生成候选区域；然后对候选区域对齐并进行卷积，识别出分割掩码。

进一步地，在步骤2.2)中，所述Mask RCNN的区域提取网络中引入了锚点，以处理不同尺度和长宽比的对象，观察分析获取最佳的锚框尺寸，调整Mask RCNN模型包括学习率、迭代次数参数，并开始对Mask RCNN模型进行训练；

Mask RCNN的损失函数L如下：

L＝Lcls+Lbox+Lmask

其中，Lcls、Lbox、Lmask分别表示分类、回归、语义预测的损失函数。

进一步地，在步骤3中，对测试集或采集端实时传来的图像数据进行推理，也需要先校正水尺，加载训练后保存的模型文件，预测出水尺检测框和分割掩码mask。

进一步地，在步骤3中，水尺读数计算模块取检测框内的语义掩码像素的最小拓扑框 [x1,y1,x2,y2]为最终分割结果。当分割出水线以上的水尺后，则水线距左上角预置点的像素高度为y2-y1，与整根水尺度量范围maxValue - minValue对应的预置点坐标换算，计算出当前水线代表的刻度值。

一种基于Mask RCNN算法的水尺图像水位自动读数系统，包括视频监控装置、处理器和深度神经网络模型，所述深度神经网络模型是用于检测水面以上水尺的程序模块，所述视频监控装置用于实施获取水尺图像信息，所述处理器用于实时调用深度神经网络模型程序模块对所述视频监控装置实时获取的图像进行分析，从而识别出水尺读数。

与现有技术相比，本发明的有益效果有：

一种基于Mask RCNN算法的水尺图像水位自动读数方法及系统，未直接识别水尺刻度及水位线，原因是当水位多次涨落后，会在水尺面上留下污渍，严重时局部刻度已完全被覆盖，尤其夜间图片会是大面积白色，因此无法标出水尺刻度的标注框。而对于水线则由于其形状不规则，高度很小，在极端条件下不清晰，十分难标注。本发明通过校正图像中的目标水尺，然后直接用矩形框标注出水线以上的完整水尺像素，不直接识别水尺刻度及水线，以像素级的精度分割出水面以上水尺，再根据水尺安装时标定的预置点参数计算水位刻度。

本发明基于Mask RCNN算法的水尺图像水位自动读数方法及系统可以满足环境光线变化大，水尺污损严重，水质清澈，倒影等情况下的识别需求，提高识别准确率，并且可以通过训练学习的方法让识别准确率进一步提升。该产品适用范围广，适用于任何江河、湖库、桥隧等水位监测场所，并广泛适应立杆式、矮桩式等水尺的安装形式。

附图说明

图1是本发明的流程示意图；

图2是本发明优选实施例的原图经透视变换校正前后的对比图；

图3是本发明优选实施例的Mask RCNN算法流程示意图；

图4是本发明优选实施例的最佳锚框尺寸、长宽比效果图；

图5是本发明优选实施例的Mask RCNN 模型目标检测实例分割结果图；

图6是本发明优选实施例的水尺读数计算原理示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如附图1-2所示，一种基于Mask RCNN算法的水尺图像水位自动读数方法及系统，基于现场已部署图像采集设备及图像传输系统，在红外球机监控下，对于水尺大面积污渍、水质清澈、倒影、漂浮物、夜间等极端环境下，只要能拍到水尺面上的水线，就能准确输出水尺读数，误差精度+-2cm内，该方法包括以下步骤：

步骤1：现场安装摄像头和水尺时，需对球机的每个预置点位，标记水尺成像后的四个角点像素坐标作为预置点参数。

在本发明实施例中，所述步骤1具体实现如下：

以水库为例，水尺以间隔1m高程阶梯形排列安装在坝堤上，球机安装位置较远，红外照射距离可达100米，堤坝上的每根水尺对应球机的一个预置点位，球机自带预置位和巡航功能。

球机预置位设置方法：开启录像机，球机旋转自检后，在录像机界面右击，设置-系统设置-云台设置，点击上下左右和变倍、焦距和光圈，确定第一个预置位。以此类推设置其他预置点位，球机复位几次，检查水尺预置点成像坐标基本吻合。

在现场安装摄像头和水尺时，对球机的每个预置点位标记水尺成像后内框的左上、左下、右下、右上四个角点，将成像后的四个角点像素坐标作为预置点参数，左上与左下坐标点对应此水尺的度量范围。预置点坐标用于校正水尺，校正效果是图像中水尺以其左上角点为中心映射，校正为目标水尺横平竖直，度量范围用于Mask RCNN模型检测出水位以上像素后换算实际水位读数。

步骤2：收集水尺图像数据，并对收集的水尺图像数据进行批量校正目标；

在本发明实施例中，所述步骤2具体实现如下：

步骤2.1、图像筛选：筛选出已上水且水尺没有遮挡的图像，重点就是能看清水线。

步骤2.2、批量校正水尺：将左上、左下、右下、右上四个预置点坐标映射为左上-右上为水平、左上-左下为竖直，生成透视变换矩阵M。再用矩阵M对整张图片进行透视变换，就得到水尺校正后的图像，水尺图像的透视变换校正结果见图2。

步骤3：对校正后图像手动标注水尺检测框,只对水线以上的水尺标注，形成训练数据集；

在本发明实施例中，所述步骤3具体实现如下：

步骤3.1、数据标定：选择labelme矩形或多边形标注工具进行标定，水线以上的水尺打ruler标签，其他全为背景，若一张图像中存在两个及以上的水尺时均需标注。

步骤3.2、数据集划分：将数据集随机分为训练集、验证集和测试集；

步骤4：构建Mask RCNN目标检测实例分割网络算法结构，所述Mask RCNN采用残差网络+特征金字塔作为特征提取器，用于从原始数据的图像中提取特征图像；特征图像输入区域提取网络，生成候选区域；然后进行候选区域对齐并进行卷积，识别出分割掩码。

在本发明实施例中，所述步骤4具体实现如下：

步骤4.1、引入锚点，以处理不同尺度和长宽比的对象。

步骤4.2、模型参数调整：在Mask-RCNN模型训练初期根据验证数据集的损失值下降速度和变化趋势，调整学习率和迭代次数，具体调整方式为：若模型收敛速度较慢则终止训练，调高学习率后重新训练；反之，若模型损失值下降速度很快并且起伏变化大，调低学习率以避免模型出现无法收敛状况；当模型在验证数据集上的损失值趋于稳定时，停止训练模型，若已达到迭代轮数模型还未收敛，则设置在上一次训练结束保存的权重基础上增加迭代轮数继续训练；

下面结合附图3、4、5、6对检测分割模块和水尺读数计算模块的原理、工作过程进行详细介绍及举例说明。

一、检测分割模块(基于MaskRCNN)

Mask RCNN与其他基于候选区域的两阶段目标检测网络相似，第一阶段生成一系列可能含有待检测目标的区域，第二阶段使用卷积神经网络将这些区域分类为背景或目标。具体而言，Mask RCNN主要基于Faster RCNN：二者核心的不同之处在于，Mask RCNN针对目标候选区域增加了一个用于预测分割掩码(Segmentation Masks)的分支结构，使得MaskRCNN不仅可以进行目标检测，而且可以胜任实例分割任务。

如图3所示，图像输入Mask RCNN，将首先经过一个基于卷积神经网络(CNN)的特征抽取器。经过该CNN模块的卷积、池化、激活等操作后，得到原图像的一系列特征图像(Feature Maps)。区域提取网络本质上是一个全卷积神经网络(FullyConvolutionalNetwork)，它的作用是以特征图像作为输入，生成可能含有待检测目标的候选区域(RegionProposal，或Region of Interests),并且每个候选区域将伴有一个分类预测和边界框预测。

候选区域生成后，依据它们的尺寸和位置，从特征图像中分割出来。经过RoIAlign层的处理，原先不同尺寸、形状的局部特征图像统一成了一个特定的大小和形状(高宽比)的局部特征图像，将这些局部特征图像作为输入进行如下处理：

(1)作为全连接层(Fully Connected Layers)的输入，经其处理、输出分类和边界框的预测结果。

(2)经过包含若干个卷积层(Convolutional Layers)的CNN模块的处理，生成并输出分割掩码(Segmentation Mask)。

1.网络结构

(1)特征提取器(CNN)

整个神经网络模型的第一个CNN模块作为特征提取器，用于以整个图像为输入，生成一系列相应的特征图像(Feature Maps)。自然地，该CNN模块的具体结构选择有很多。越强大的卷积神经网络，其特征抽取能力越强，效果越好。在本发明中，模型选用了ResNet-50+FPN(残差网络+特征金字塔)作为基础网络结构，具有强大的特征表达能力。

(2)区域提取网络(Region proposal network，RPN)

Mask RCNN采用了Faster RCNN算法所使用的候选区域生成方法：区域提取网络(Region proposal network，RPN)。

如图3所示，具体地，RPN使用ZF Network的网络结构，对特征图像(Feature Maps)用3*3卷积核进行卷积，生成类别未知的候选区域。经过ZF Network的处理，生成了256维的特征向量。作为两个独立的全连接(fc)层的输入，分别生成分类(cls)所用的2*k个评分，以及回归(reg)层所用的4*k个坐标。其中，所述分类层提供检测对象/背景的2个概率，所述回归层提供检测对象边界框(Bbox)的4个坐标值。

此处的超参k是RPN中引入的锚点数量。为了处理不同尺度和长宽比的对象，在RPN中引入锚点。在映射的每个滑动位置处，将锚点定在每个对象边界框的中心，设五个不同的尺寸(16, 32, 64, 128, 256)和纵横比(1：1，1：2，2：1)，共放置了k＝15个锚点（见图4），每个对象边界框都被参数化以对应于锚点。因此，每个位置将生成2*k个分类预测概率，4*k个边界框预测值。

如果最后一个卷积层输出的特征图像的大小是H×W，对应的ROI数量将是H×W×k。

(3)候选区域对齐(RoI Align)

RoI Pooling层则负责收集proposal，并为每一个候选区域提取特征，即计算出proposal feature maps，送入后续网络。Rol pooling层有2个输入：原始的feature maps、RPN输出的proposal boxes（大小各不相同）。

实际上，Mask RCNN中还有一个很重要的改进，就是ROIAlign。Faster RCNN存在的问题是：特征图与原始图像是不对准的，所以会影响检测精度。而Mask RCNN提出了RoIAlign的方法来取代ROI pooling，RoIAlign可以保留大致的空间位置。

在ROI中，变形被数字化：目标(局部)特征图像的单元边界被迫与输入特征图像的边界重新对齐。因此，在ROI池化过程后，每个单元格的尺寸可能并不相等。Mask RCNN使用ROI Align，它避免了单元格的边界数字化，并使每个目标单元格具有相同的大小。它还应用双线性插值来更精确地计算单元格内的要素图值。

(4)端部网络

经过RoI Align的处理，所有的局部特征图像具有了相同的尺寸和比例(长宽比)，作为后续三个预测分支的输入。其中，分类预测和边界框坐标回归共享相同的若干全连接层，它们将输入展开，转化为一维向量，分别输出分类概率预测和边界框相对坐标值。除此之外，Mask RCNN特别采用了全卷积神经网络(Fully Convolutional Layers)构成分割掩码(Segmentation Mask)预测分支，对每个候选区域的分割输出维数为K*m*m(其中：m表示使用RoI Align对齐后的特征图的大小)，即K个类别的m*m的二值语义掩码。与全连接层的向量变达不同，它将保留局部特征图像的空间信息。

2.损失函数(Loss Function)：

在模型的训练过程中，针对每个候选区域，Mask RCNN有一个多任务损失函数，由分类、回归、语义掩码预测三部分组成。

L＝Lcls+Lbox+Lmask

其中，Lcls、Lbox、Lmask分别表示分类、回归、语义掩码预测的损失函数。

分类采用常用的交叉熵函数，计算所预测的目标类别概率分布与真实的概率分布之间的距离；回归采用一般的均方误差损失函数，计算所预测的边界框和真实的边界框的位置坐标、尺寸之间的差异；分割方面，采用基于单像素Signmoid二值交叉熵作为损失函数。

二、水尺读数计算模块

Mask RCNN检测分割模块的输出结果为检测框和分割掩码，图5中红色虚线框就是Mask RCNN模型预测的水尺检测框[x1,y1,x2,y2],(x1,y1)对应检测框左上角点的像素坐标，(x2,y2)对应右下角点。而以颜色填充的像素是模型预测的分割掩码，对于每个RoI就是K个（类别数）分辨率为m * m的二值mask（K*m*m维度）。

结合检测框和mask掩码两个结果，取检测框内mask掩码的最小拓扑矩形框为最终的水尺检测框,见图5。

当分割出水线以上的水尺后，就能知道水线距左上角预置点的像素高度y2-y1，与maxValue - minValue对应的像素点坐标换算，计算出当前水线代表的刻度值，如图6，水尺读数是133.21。

Claims

1.一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，包括以下步骤：

步骤1：构建用于检测分割水面以上水尺的深度神经网络模型，模型包括预置点配置和批量校正模块、目标检测实例分割模块和水尺读数计算模块；

预置点配置和批量校正模块包括：

现场安装摄像头和水尺时，对摄像头球机的每个预置点位标记水尺成像后的四个角点像素坐标作为预置点参数；

收集水尺图像数据，并对收集的水尺图像数据进行批量校正处理；

目标检测实例分割模块基于Mask RCNN，用于识别水尺的位置和语义掩码；

水尺读数计算模块是根据预置点坐标和水尺掩码的边界像素坐标来换算水位读数；

对校正处理后的水尺图像标注水尺检测框，形成包含原始数据与对应的语义掩码的数据集，将数据集随机分为训练集、验证集和测试集；

使用训练集对初始化后的Mask RCNN进行训练，然后使用验证集对训练后的Mask RCNN进行验证；

如果验证结果的Mask识别准确率符合预设阈值，则进入步骤3，否则，返回步骤2.1)，扩大原始数据容量后重新进行标注、训练及验证；

步骤3：利用测试集或采集端实时传来的图像，测试Mask RCNN网络模型的预测效果，结合步骤1中的预置点参数，计算出目标水尺图像的水位刻度。

2.如权利要求1所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，步骤1中，为了降低训练模型的偏差，选择具有不同视角、环境条件、光照条件的图片数据。

3.如权利要求1所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，步骤2.1)中，标注的水尺检测框即是水位线以上的水尺图像，其他的图像部分都是背景。

4.如权利要求1-3任一项所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，步骤1.1)中，现场安装摄像头和水尺时，需对球机的每个预置点位，标记水尺成像后内框左上、左下、右下、右上四个角点的像素坐标作为预置点坐标，左上与左下坐标点对应此根水尺的度量范围，预置点坐标用于校正水尺，效果是图像中水尺以其左上角点为中心映射，校正为目标水尺横平竖直；度量范围用于Mask RCNN模型检测出水位以上像素后换算实际水位读数。

5.如权利要求4所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，步骤1.2)中，采用透视变换的方法批量校正水尺图像中的水尺，将水尺内框四个角点投影到一个新的视平面，通用的变换公式为：

（u，v）为原始图像像素坐标，（x'，y’）为变换之后的图像像素坐标，透视变换的方程组有8个未知数，所以要求解就需要找到4组映射点，四个点就刚好确定了一个三维空间，水尺成像后内框的左上、左下、右下、右上四个角点（ABCD），变换后的理想效果是图像中水尺以其左上角点为中心映射为横平竖直的四个角点(A’B’C’D’)，用此四对角点可计算出透视变换矩阵M。

6.如权利要求5所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，步骤2.2)中，所述Mask RCNN采用残差网络加特征金字塔作为特征提取器，用于从原始数据的图像中提取特征图像，特征图像输入区域提取网络，生成候选区域，然后进行候选区域对齐并进行卷积，识别出语义分割掩码。

7.如权利要求6所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，在步骤2.2)中，所述区域提取网络中引入了锚点，以处理不同尺度和长宽比的对象，观察分析获取最佳的锚框尺寸，调整Mask RCNN模型包括学习率、迭代次数的参数，并开始对Mask RCNN模型进行训练；

Mask RCNN的损失函数L如下：

L＝Lcls+Lbox+Lmask

8.如权利要求7所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，在步骤3中，对测试集或采集端实时传来的图像数据进行推理，也需要先校正水尺，加载训练后保存的模型文件，预测出水尺检测框和语义分割掩码mask。

9.如权利要求8所述的一种基于Mask RCNN算法的水尺图像水位自动读数方法，其特征在于，在步骤3中，水尺读数计算模块取检测框内的语义掩码像素的最小拓扑框 [x1,y1,x2,y2]为最终分割结果，当分割出水线以上的水尺后，则水线距左上角预置点的像素高度为y2-y1，与整根水尺度量范围maxValue – minValue对应的预置点坐标换算，计算出当前水线代表的刻度值。

10.一种基于Mask RCNN算法的水尺图像水位自动读数系统，其特征在于，包括深度神经网络模型、视频监控装置、处理器以及按照权利要求1～9任意一项所述的基于Mask RCNN算法的水尺图像水位自动读数方法进行训练及验证后获得的训练结果，所述深度神经网络模型是用于检测水面以上水尺的程序模块，所述视频监控装置用于实施获取水尺图像信息，所述处理器用于实时调用深度神经网络模型程序模块对所述视频监控装置实时获取的图像进行分析。