CN112183232A

CN112183232A - 基于深度学习的船舷号位置定位方法及系统

Info

Publication number: CN112183232A
Application number: CN202010942031.4A
Authority: CN
Inventors: 林德银; 王林; 孙林
Original assignee: Anhui Yingjue Technology Co ltd; Shanghai Yingjue Technology Co ltd
Current assignee: Anhui Yingjue Technology Co ltd; Shanghai Yingjue Technology Co ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2021-01-05

Abstract

本发明提供了一种基于深度学习的船舷号位置定位方法及系统，包括：S1：数据收集，获取带有船舷号信息的图片；S2：通过标注软件对船舷号图片中船舷号的位置进行标注；S3：建立深度学习神经网络和目标识别模型，将标注的船舷号图片作为输入对目标识别模型进行训练，识别船舷号在图片中的位置坐标；S4：基于港口监控摄像头视频，利用图片去雾、图片增强技术，对低亮度、有水雾及模糊图片进行处理；S5：把处理后图片输入到深度学习神经网络中，进行船舷号位置预测和定位识别，获得船舷号位置坐标。本发明能识别并定位多目标船舷号位置定位,在港口复杂环境有很好的适用场景。

Description

基于深度学习的船舷号位置定位方法及系统

技术领域

本发明涉及深度学习及目标检测技术领域，具体地，涉及一种基于深度学习的船舷号位置定位方法及系统。

背景技术

近些年，随着世界贸易的发展，海上贸易蓬勃发展，船舶越来越多，但是随着而来的是，各种走私，偷沙，偷鱼等活动猖獗，这种走私通过关闭AIS等手段逃避监管。传统的人工检测效率慢，费时费力，达不到有效监管的目的。现在大型港口，重点江河领域都安装了高清摄像头，能通过视频监控重点区域，随着大数据，人工智能的发展，固定大小的文本识别得快速发展，但是如何从视频图片中获得船号位置定位方便后期文本识别成为船舷号识别的关键瓶颈。港口，江河特殊领域，水雾，灯光等多种因素影响更增加了船舷号位置定位的难度。

专利文献CN110288615A(申请号：201910573065.8)公开了基于深度学习的倾斜定位框定位方法，包括如下步骤：步骤S10、获取大量倾斜定位框的DICOM图像；步骤S20、对DICOM图像进行预处理；步骤S30、将预处理后的DICOM图像输入深度学习网络进行训练；步骤S40、对训练完成的深度学习网络的泛化能力进行验证；步骤S50、基于验证通过后的深度学习网络对倾斜定位框进行定位。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度学习的船舷号位置定位方法及系统。

根据本发明提供的基于深度学习的船舷号位置定位方法，包括：

S1：数据收集，获取带有船舷号信息的图片；

S2：通过标注软件对船舷号图片中船舷号的位置进行标注；

S3：建立深度学习神经网络和目标识别模型，将标注的船舷号图片作为输入对目标识别模型进行训练，识别船舷号在图片中的位置坐标；

S4：基于港口监控摄像头视频，利用图片去雾、图片增强技术，对低亮度、有水雾及模糊图片进行处理；

S5：把处理后图片输入到深度学习神经网络中，进行船舷号位置预测和定位识别，获得船舷号位置坐标。

优选的，S1中的数据收集，包括：

S11：通过港口的监控视频，根据监控视频序列的连续性特点，基于帧差分法和三帧差分法提取包含船舷号的图片；

S12：基于互联网获取带有船舷号图片。

优选的，所述帧差分法适用于运动较慢的船，获得视频中的第N和第N+1帧，两帧对应位置像素点的灰度值相减取绝对值，结果大于阀值的为运动目标，结果小于阀值为背景，通过连续性分析，得到完整的船图片；

所述三帧差分法适用于运动较快的船，获得视频中的第N-1、第N和第N+1帧，分别取N-1和N帧、N帧和N+1帧对应位置像素点的灰度值相减取绝对值，对两个结果进行取交操作，结果大于阀值的为运动目标，结果小于阀值为背景，通过连续性分析，得到完整的船图片；

根据光照的抑制系数和总像素确定阈值。

优选的，S2中根据获取带有船舷号信息的图片，先通过人工筛选有船舷号的图片，再通过标注软件labelImg，获得包含船舷号位置中心坐标(x,y)宽度w和高度h的xml文件。

优选的，所述深度学习神经网络采用全卷积网络残差网络，进行图片特征提取、位置预测和分类判定，通过上采样扩展图片大小，对不同深度的特征进行组合拼接；

对标注的船舷号图片进行图片处理，按照放缩比例处理，放缩比例为rate＝min(608/W，608/H)，获得DW＝(608-W*rate)，DH＝(608-H*rate)，若DW或DH大于0，则在放缩后的图片左右分别补充DW/2或DH/2个灰色像素点；

W表示原图片的宽，H表示原图片的高。

优选的，构建模型损失函数，模型损失函数分为预测船舷号框中心坐标点损失函数、预测船舷号框宽高损失函数、预测客观性预测概率损失函数和分类损失函数；

所述预测船舷号框中心坐标点损失函数为：

其中，B为训练的每批图片的数量，N为每个图片预测的文本框数量，

为对应图片输入框对应的锚点位置是否有船舷号，有为1，没有为0；

为框损失比例，

为真实中心坐标，

为预测中心坐标；i表示批次B中的第i个图片；j表示图片预测框总数N中的第j个框；

所述预测船舷号框宽高损失函数为：

其中，

为真实宽高，

为预测宽高；

所述预测客观性预测概率损失函数为：

其中，

为预测的对应图片输入框对应的锚点位置是否有船舷号，

为每个图片预测的框和实际标注的框相交面积除以并面积的结果小于阀值，阀值设置为0.5；

所述分类损失函数为：

其中，

为每个图片船舷号标注的真实类别，

为每个图片船舷号标注的预测类别。

优选的，对图片进行去雾处理，包括：基于暗通道进行去雾处理，所述暗通道为：

其中，J^dark→0，rgb三通道中取最小值组成灰度图，然后进行最小值滤波得到暗通道；

雾图形成模型为：I(x)＝J(x)t(x)+A(1-t(x))

其中，I(x)是现有待去雾图像，J(x)是要恢复的原无雾图像，A是全球大气光成分，t(x)是透射率，通过去雾算法排出水雾对识别带来的影响，公式为：J(x)＝((I(x)-A)/max(t(x)，t_0))+A

其中，c表示彩色图片三通道中的一个，三通道对应红R，绿G，蓝B三个颜色，三通道每个像素取值为0-255；JC(y)表示彩色图片对应通道c的像素；

表示先求出图片中每个像素位置点在三通道中取值的最小值，并把所有最小值组成图片的单通道的灰度图，然后在灰度图中以每个像素点为中心点根据滤波半径获取滤波区域的最小值，用获取的最小值赋值给中心点像素。

优选的，对图片进行增强处理，包括：通过直方图均衡化的图像增强、拉普拉斯算子的图像增强、对数Log变换的图像增强和伽马变换的图像增强对图像进行调节，凸显船舷号的位置。

优选的，对图片进行预测，包括：

S51：把处理后的图片输入到深度学习神经网络中，获得采样率的输出；

S52：把所有预测的框信息归一化，获得每个框预测的得分；

S53：把所有获得的预测框两两计算IOU值，相交IOU大于阀值的预测框，做非最大化抑制，保留最大预测框；

S53：基于文本行间隔最大阀值，及预测框坐标相交阀值，把预测框连接起来，并通过线性回归算法，获得连接后的预测框坐标，参与连接的框的平均得分为连接后预测框的得分，最终得到每个图片指定船舷号大小和位置坐标。

根据本发明提供的基于深度学习的船舷号位置定位系统，包括：

模块M1：数据收集，获取带有船舷号信息的图片；

模块M2：通过标注软件对船舷号图片中船舷号的位置进行标注；

模块M3：建立深度学习神经网络和目标识别模型，将标注的船舷号图片作为输入对目标识别模型进行训练，识别船舷号在图片中的位置坐标；

模块M4：基于港口监控摄像头视频，利用图片去雾、图片增强技术，对低亮度、有水雾及模糊图片进行处理；

模块M5：把处理后图片输入到深度学习神经网络中，进行船舷号位置预测和定位识别，获得船舷号位置坐标。

与现有技术相比，本发明具有如下的有益效果：本发明通过图片去雾增强处理和深度学习船舷号位置定位，可以避免自然因素对识别的影响，通过深度网络，快速定位到船舷号位置，解决了船舷号识别的瓶颈，方便接入成熟的文本识别。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的系统逻辑图；

图2为本发明的深度学习网络架构图；

图3为本发明的深度学习卷积块单元；

图4为本发明的去雾处理原图；

图5为本发明的去雾处理后图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例：

如图1，根据本发明提供的基于深度学习的船舷号位置定位方法，包括：

S1,数据收集，数据收集分为多个来源，可以提取港口监控视频的关键帧图片，包含有船舷号信息的图片。也可以通过互联网来收集带有船舷号的图片或视频。

S11,通过港口的监控视频，根据监控视频序列具有连续性的特点，如果场景内没有运动目标，则连续帧的变化很微弱，如果存在运动目标，则连续的帧和帧之间有明显变化。基于帧差分法和三帧差分法提取包含船的图片。

A,帧差分法适用于运动较慢的船，获得视频中的第N和第N+1帧，两帧对应位置像素点的灰度值相减取绝对值，结果大于阀值的为前景(运动目标)，灰度小于阀值为背景，通过连续性分析，最终得到完成的船图片。

B,三帧差分法对应运动快速的船，获得视频中的第N-1、第N和第N+1帧，分别取N-1和N帧、N帧和N+1帧对应位置像素点的灰度值相减取绝对值后，然后两个结果取交操作。结果大于阀值的为前景(运动目标)，灰度小于阀值为背景，通过连续性分析，最终得到完整的船图片。

C，阀值T的选择，依据光照的抑制系数，总像素等综合考虑。

S12,基于互联网获取船舶图片，如船讯网等网址有大量的带有船舷号图片。

S2,通过标注软件，对获得的包含船舷号图片进行标注，获得船舷号所在图片的位置坐标。

S2中基于S1获得的图片，通过人工筛选有船舷号的图片，然后通过标注软件labelImg，获得包含船舷号位置中心坐标(x,y)宽度w和高度h的xml文件。

S3,通过建立深度学习神经网络，训练目标识别模型，准确识别船舷号位置坐标，网络结构如图2所示。

S31，构建一个提取图片特征，位置预测，分类判定的神经网络，此网络具有三个尺度检测结果。采用全卷积网络残差网络，通过残差网络可以避免深度学习网络过深导致的梯度消失和梯度爆炸问题。通过上采样可扩展图片大小，方便不同深度的特征可做组合拼接。

S32，本发明中的船舷号位置神经网络，有一个输入，72个卷积组，7个上采样，23个残差网络组成，通过维度拼接输出三个不同大小的结果。神经网络详情见图2和图3，本发明中检测分类为两类，一类为有船舷号，一类为无船舷号，网络输出三个不同下采率的结果，不同采样率的数据可以对应不同大小的船舷号位置检测，使用固定宽度的9个先验锚点框：

(8,11),(8,16),(8,23),(8,33),(8,48),(8,97),(8,139),(8,198),(8,283)。

S33，输入层数据处理，本发明船舷号位置神经网络输入大小为(608,608)，S2标记的图片及标签需要做处理以便做神经网络输入。

A,图片处理，图片按照放缩比例处理，如原图片为(W,H),放缩比例为rate＝min(608/W,608/H),然后把图片W,H按照放缩比例rate放缩，获得DW＝(608-W*rate)，DH＝(608-H*rate),如果DW大于0，则在放缩后的图片左右分别补充DW/2个灰色像素点，DH一样操作。使放缩后的图片大小为(608,608)

B,标签处理，把S2标记的坐标也转换为放缩后的大小。并根据设定的9个先验锚点框，计算实际船舷号框和9个锚点框相交面积，获得相交面积的最大的锚点框，并做标记。把实际船舷号坐标根据图片大小做归一化处理，压缩到0-1之间。产生输入神经网络输入数据。

S34，本发明所用神经网络输出三个[y1,y2,y3],分别对应原图32、16、8倍采样，y1，y2,y3分布对应每个下采样三个预测边框的边界(x,y,w,h)、客观性预测概率、类别。

S35、模型损失函数定义，模型损失分为预测船舷号框中心坐标点损失函数，预测船舷号框宽高损失函数，预测客观性预测概率损失函数，分类损失函数。最终通过上述四个损失函数获得总的损失函数。

A,船舷号框中心坐标点损失函数

其中B为训练的每批图片的数量，N为每个图片预测的文本框数量，

为对应图片输入框对应的锚点位置是否有船舷号，有为1，没有为0，

为框损失比例，

为真实中心坐标，

为预测中心坐标。

B，船舷号框宽高损失函数

为框损失比例，

为真实宽高，

为预测宽高。

C，预测客观性预测概率损失函数

为对应图片输入框对应的锚点位置是否有船舷号，有为1，没有为0。

为预测的对应图片输入框对应的锚点位置是否有船舷号。

为每个图片预测的框和实际标注的框相交面积除以并面积的结果小于阀值，此处阀值设置为0.5，我们认为这些框是无效的框，此次需要把无效的框排除掉，以减少对损失函数的影响。

D，分类损失函数，此处分为两类，一类为空白，一类为有文本内容。

为每个图片船舷号标注的真实类别，

为每个图片船舷号标注的预测类别。

S36，基于S33处理的训练数据及S33，S35的深度学习神经网络训练模型，通过多次迭代、测试、验证，获得泛化能力较好的模型，并保存起来供实际预测使用。

S4，基于港口监控摄像头视频，利用图片去雾，图片增强计算，对低亮度，有水雾及模糊图片进行处理。

对待预测的视频图片做增强，基于港口，江河特殊场景，会有水雾，低照明度等不利因素影响，监控摄像头视频得到的图片质量比较低的情况下会对识别定位结果有影响。所以需要基于不同的场景下利用图片去雾，图片增强计算，对低亮度，有水雾及模糊图片进行处理。对图片处理包含以下内容。

S41，图片去雾处理，本发明主要基于暗通道处理的去雾，暗通道指的是绝大多数图片中非天空区域，某些像素总会有至少一个颜色通道具有很低的值，暗通道是：

暗通道先验理论指出J^dark→0，暗通道是rgb三通道中取最小值组成的灰度图，然后在进行一个最小值滤波得到的。雾图形成模型为I(x)＝J(x)t(x)+A(1-t(x))，其中I(x)是现有的图像(待去雾)，J(x)是要恢复的原无雾图像，A是全球大气光成分，t(x)是透射率。通过公式变换可得J(x)＝((I(x)-A)/max(t(x)，t_0))+A，通过此算法去雾，可以有效的排除水雾对识别带来的影响，如图4、5，本发明中去雾前图片整体偏白色，输入到神经网络中船舷号区域定位不全，通过去雾操作，整个图片清晰，特别是船舷号区域和背景船对比明显，输入神经网络中获得精确的船舷号定位。

S42，图片低亮度，对比度增强，港口灯光比较多，会影响图片亮度对比度，通过直方图均衡化的图像增强，拉普拉斯算子的图像增强，对数Log变换的图像增强，伽马变换的图像增强等算法调节图像，以使图片更好的凸显船舷号位置。

S5，把S4处理后图片，输入到深度学习神经网络中，做船舷号位置定位识别，获得船舷号位置坐标。

S51，把S4处理后视频图片，输入到深度学习神经网络中，获得三个采样率的输出

S52，然后把所有预测的框信息归一化，获得每个框预测的得分

S53，把所有获得的预测框两两计算IOU值，相交IOU大于阀值的预测框，做非最大化抑制，保留最大预测框

S53，基于文本行间隔最大阀值，及预测框坐标相交阀值，把预测框连接起来，并通过线性回归算法，获得连接后的预测框坐标，参与取连接框的平均得分为连接后预测框的平均值。

S54，通过以上操作，最后得到每个图片指定船舷号大小，位置坐标。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。