CN112183232A - 基于深度学习的船舷号位置定位方法及系统 - Google Patents

基于深度学习的船舷号位置定位方法及系统 Download PDF

Info

Publication number
CN112183232A
CN112183232A CN202010942031.4A CN202010942031A CN112183232A CN 112183232 A CN112183232 A CN 112183232A CN 202010942031 A CN202010942031 A CN 202010942031A CN 112183232 A CN112183232 A CN 112183232A
Authority
CN
China
Prior art keywords
picture
ship
deep learning
ship board
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010942031.4A
Other languages
English (en)
Inventor
林德银
王林
孙林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Yingjue Technology Co ltd
Shanghai Yingjue Technology Co ltd
Original Assignee
Anhui Yingjue Technology Co ltd
Shanghai Yingjue Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Yingjue Technology Co ltd, Shanghai Yingjue Technology Co ltd filed Critical Anhui Yingjue Technology Co ltd
Priority to CN202010942031.4A priority Critical patent/CN112183232A/zh
Publication of CN112183232A publication Critical patent/CN112183232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的船舷号位置定位方法及系统,包括:S1:数据收集,获取带有船舷号信息的图片;S2:通过标注软件对船舷号图片中船舷号的位置进行标注;S3:建立深度学习神经网络和目标识别模型,将标注的船舷号图片作为输入对目标识别模型进行训练,识别船舷号在图片中的位置坐标;S4:基于港口监控摄像头视频,利用图片去雾、图片增强技术,对低亮度、有水雾及模糊图片进行处理;S5:把处理后图片输入到深度学习神经网络中,进行船舷号位置预测和定位识别,获得船舷号位置坐标。本发明能识别并定位多目标船舷号位置定位,在港口复杂环境有很好的适用场景。

Description

基于深度学习的船舷号位置定位方法及系统
技术领域
本发明涉及深度学习及目标检测技术领域,具体地,涉及一种基于深度学习的船舷号位置定位方法及系统。
背景技术
近些年,随着世界贸易的发展,海上贸易蓬勃发展,船舶越来越多,但是随着而来的是,各种走私,偷沙,偷鱼等活动猖獗,这种走私通过关闭AIS等手段逃避监管。传统的人工检测效率慢,费时费力,达不到有效监管的目的。现在大型港口,重点江河领域都安装了高清摄像头,能通过视频监控重点区域,随着大数据,人工智能的发展,固定大小的文本识别得快速发展,但是如何从视频图片中获得船号位置定位方便后期文本识别成为船舷号识别的关键瓶颈。港口,江河特殊领域,水雾,灯光等多种因素影响更增加了船舷号位置定位的难度。
专利文献CN110288615A(申请号:201910573065.8)公开了基于深度学习的倾斜定位框定位方法,包括如下步骤:步骤S10、获取大量倾斜定位框的DICOM图像;步骤S20、对DICOM图像进行预处理;步骤S30、将预处理后的DICOM图像输入深度学习网络进行训练;步骤S40、对训练完成的深度学习网络的泛化能力进行验证;步骤S50、基于验证通过后的深度学习网络对倾斜定位框进行定位。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于深度学习的船舷号位置定位方法及系统。
根据本发明提供的基于深度学习的船舷号位置定位方法,包括:
S1:数据收集,获取带有船舷号信息的图片;
S2:通过标注软件对船舷号图片中船舷号的位置进行标注;
S3:建立深度学习神经网络和目标识别模型,将标注的船舷号图片作为输入对目标识别模型进行训练,识别船舷号在图片中的位置坐标;
S4:基于港口监控摄像头视频,利用图片去雾、图片增强技术,对低亮度、有水雾及模糊图片进行处理;
S5:把处理后图片输入到深度学习神经网络中,进行船舷号位置预测和定位识别,获得船舷号位置坐标。
优选的,S1中的数据收集,包括:
S11:通过港口的监控视频,根据监控视频序列的连续性特点,基于帧差分法和三帧差分法提取包含船舷号的图片;
S12:基于互联网获取带有船舷号图片。
优选的,所述帧差分法适用于运动较慢的船,获得视频中的第N和第N+1帧,两帧对应位置像素点的灰度值相减取绝对值,结果大于阀值的为运动目标,结果小于阀值为背景,通过连续性分析,得到完整的船图片;
所述三帧差分法适用于运动较快的船,获得视频中的第N-1、第N和第N+1帧,分别取N-1和N帧、N帧和N+1帧对应位置像素点的灰度值相减取绝对值,对两个结果进行取交操作,结果大于阀值的为运动目标,结果小于阀值为背景,通过连续性分析,得到完整的船图片;
根据光照的抑制系数和总像素确定阈值。
优选的,S2中根据获取带有船舷号信息的图片,先通过人工筛选有船舷号的图片,再通过标注软件labelImg,获得包含船舷号位置中心坐标(x,y)宽度w和高度h的xml文件。
优选的,所述深度学习神经网络采用全卷积网络残差网络,进行图片特征提取、位置预测和分类判定,通过上采样扩展图片大小,对不同深度的特征进行组合拼接;
对标注的船舷号图片进行图片处理,按照放缩比例处理,放缩比例为rate=min(608/W,608/H),获得DW=(608-W*rate),DH=(608-H*rate),若DW或DH大于0,则在放缩后的图片左右分别补充DW/2或DH/2个灰色像素点;
W表示原图片的宽,H表示原图片的高。
优选的,构建模型损失函数,模型损失函数分为预测船舷号框中心坐标点损失函数、预测船舷号框宽高损失函数、预测客观性预测概率损失函数和分类损失函数;
所述预测船舷号框中心坐标点损失函数为:
Figure BDA0002673957970000021
其中,B为训练的每批图片的数量,N为每个图片预测的文本框数量,
Figure BDA0002673957970000031
为对应图片输入框对应的锚点位置是否有船舷号,有为1,没有为0;
Figure BDA0002673957970000032
为框损失比例,
Figure BDA0002673957970000033
为真实中心坐标,
Figure BDA0002673957970000034
为预测中心坐标;i表示批次B中的第i个图片;j表示图片预测框总数N中的第j个框;
所述预测船舷号框宽高损失函数为:
Figure BDA0002673957970000035
其中,
Figure BDA0002673957970000036
为真实宽高,
Figure BDA0002673957970000037
为预测宽高;
所述预测客观性预测概率损失函数为:
Figure BDA0002673957970000038
其中,
Figure BDA0002673957970000039
为预测的对应图片输入框对应的锚点位置是否有船舷号,
Figure BDA00026739579700000310
为每个图片预测的框和实际标注的框相交面积除以并面积的结果小于阀值,阀值设置为0.5;
所述分类损失函数为:
Figure BDA00026739579700000311
其中,
Figure BDA00026739579700000312
为每个图片船舷号标注的真实类别,
Figure BDA00026739579700000313
为每个图片船舷号标注的预测类别。
优选的,对图片进行去雾处理,包括:基于暗通道进行去雾处理,所述暗通道为:
Figure BDA00026739579700000314
其中,Jdark→0,rgb三通道中取最小值组成灰度图,然后进行最小值滤波得到暗通道;
雾图形成模型为:I(x)=J(x)t(x)+A(1-t(x))
其中,I(x)是现有待去雾图像,J(x)是要恢复的原无雾图像,A是全球大气光成分,t(x)是透射率,通过去雾算法排出水雾对识别带来的影响,公式为:J(x)=((I(x)-A)/max(t(x),t_0))+A
其中,c表示彩色图片三通道中的一个,三通道对应红R,绿G,蓝B三个颜色,三通道每个像素取值为0-255;JC(y)表示彩色图片对应通道c的像素;
Figure BDA00026739579700000315
表示先求出图片中每个像素位置点在三通道中取值的最小值,并把所有最小值组成图片的单通道的灰度图,然后在灰度图中以每个像素点为中心点根据滤波半径获取滤波区域的最小值,用获取的最小值赋值给中心点像素。
优选的,对图片进行增强处理,包括:通过直方图均衡化的图像增强、拉普拉斯算子的图像增强、对数Log变换的图像增强和伽马变换的图像增强对图像进行调节,凸显船舷号的位置。
优选的,对图片进行预测,包括:
S51:把处理后的图片输入到深度学习神经网络中,获得采样率的输出;
S52:把所有预测的框信息归一化,获得每个框预测的得分;
S53:把所有获得的预测框两两计算IOU值,相交IOU大于阀值的预测框,做非最大化抑制,保留最大预测框;
S53:基于文本行间隔最大阀值,及预测框坐标相交阀值,把预测框连接起来,并通过线性回归算法,获得连接后的预测框坐标,参与连接的框的平均得分为连接后预测框的得分,最终得到每个图片指定船舷号大小和位置坐标。
根据本发明提供的基于深度学习的船舷号位置定位系统,包括:
模块M1:数据收集,获取带有船舷号信息的图片;
模块M2:通过标注软件对船舷号图片中船舷号的位置进行标注;
模块M3:建立深度学习神经网络和目标识别模型,将标注的船舷号图片作为输入对目标识别模型进行训练,识别船舷号在图片中的位置坐标;
模块M4:基于港口监控摄像头视频,利用图片去雾、图片增强技术,对低亮度、有水雾及模糊图片进行处理;
模块M5:把处理后图片输入到深度学习神经网络中,进行船舷号位置预测和定位识别,获得船舷号位置坐标。
与现有技术相比,本发明具有如下的有益效果:本发明通过图片去雾增强处理和深度学习船舷号位置定位,可以避免自然因素对识别的影响,通过深度网络,快速定位到船舷号位置,解决了船舷号识别的瓶颈,方便接入成熟的文本识别。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的系统逻辑图;
图2为本发明的深度学习网络架构图;
图3为本发明的深度学习卷积块单元;
图4为本发明的去雾处理原图;
图5为本发明的去雾处理后图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例:
如图1,根据本发明提供的基于深度学习的船舷号位置定位方法,包括:
S1,数据收集,数据收集分为多个来源,可以提取港口监控视频的关键帧图片,包含有船舷号信息的图片。也可以通过互联网来收集带有船舷号的图片或视频。
S11,通过港口的监控视频,根据监控视频序列具有连续性的特点,如果场景内没有运动目标,则连续帧的变化很微弱,如果存在运动目标,则连续的帧和帧之间有明显变化。基于帧差分法和三帧差分法提取包含船的图片。
A,帧差分法适用于运动较慢的船,获得视频中的第N和第N+1帧,两帧对应位置像素点的灰度值相减取绝对值,结果大于阀值的为前景(运动目标),灰度小于阀值为背景,通过连续性分析,最终得到完成的船图片。
B,三帧差分法对应运动快速的船,获得视频中的第N-1、第N和第N+1帧,分别取N-1和N帧、N帧和N+1帧对应位置像素点的灰度值相减取绝对值后,然后两个结果取交操作。结果大于阀值的为前景(运动目标),灰度小于阀值为背景,通过连续性分析,最终得到完整的船图片。
C,阀值T的选择,依据光照的抑制系数,总像素等综合考虑。
S12,基于互联网获取船舶图片,如船讯网等网址有大量的带有船舷号图片。
S2,通过标注软件,对获得的包含船舷号图片进行标注,获得船舷号所在图片的位置坐标。
S2中基于S1获得的图片,通过人工筛选有船舷号的图片,然后通过标注软件labelImg,获得包含船舷号位置中心坐标(x,y)宽度w和高度h的xml文件。
S3,通过建立深度学习神经网络,训练目标识别模型,准确识别船舷号位置坐标,网络结构如图2所示。
S31,构建一个提取图片特征,位置预测,分类判定的神经网络,此网络具有三个尺度检测结果。采用全卷积网络残差网络,通过残差网络可以避免深度学习网络过深导致的梯度消失和梯度爆炸问题。通过上采样可扩展图片大小,方便不同深度的特征可做组合拼接。
S32,本发明中的船舷号位置神经网络,有一个输入,72个卷积组,7个上采样,23个残差网络组成,通过维度拼接输出三个不同大小的结果。神经网络详情见图2和图3,本发明中检测分类为两类,一类为有船舷号,一类为无船舷号,网络输出三个不同下采率的结果,不同采样率的数据可以对应不同大小的船舷号位置检测,使用固定宽度的9个先验锚点框:
(8,11),(8,16),(8,23),(8,33),(8,48),(8,97),(8,139),(8,198),(8,283)。
S33,输入层数据处理,本发明船舷号位置神经网络输入大小为(608,608),S2标记的图片及标签需要做处理以便做神经网络输入。
A,图片处理,图片按照放缩比例处理,如原图片为(W,H),放缩比例为rate=min(608/W,608/H),然后把图片W,H按照放缩比例rate放缩,获得DW=(608-W*rate),DH=(608-H*rate),如果DW大于0,则在放缩后的图片左右分别补充DW/2个灰色像素点,DH一样操作。使放缩后的图片大小为(608,608)
B,标签处理,把S2标记的坐标也转换为放缩后的大小。并根据设定的9个先验锚点框,计算实际船舷号框和9个锚点框相交面积,获得相交面积的最大的锚点框,并做标记。把实际船舷号坐标根据图片大小做归一化处理,压缩到0-1之间。产生输入神经网络输入数据。
S34,本发明所用神经网络输出三个[y1,y2,y3],分别对应原图32、16、8倍采样,y1,y2,y3分布对应每个下采样三个预测边框的边界(x,y,w,h)、客观性预测概率、类别。
S35、模型损失函数定义,模型损失分为预测船舷号框中心坐标点损失函数,预测船舷号框宽高损失函数,预测客观性预测概率损失函数,分类损失函数。最终通过上述四个损失函数获得总的损失函数。
A,船舷号框中心坐标点损失函数
Figure BDA0002673957970000061
Figure BDA0002673957970000071
其中B为训练的每批图片的数量,N为每个图片预测的文本框数量,
Figure BDA0002673957970000072
为对应图片输入框对应的锚点位置是否有船舷号,有为1,没有为0,
Figure BDA0002673957970000073
为框损失比例,
Figure BDA0002673957970000074
为真实中心坐标,
Figure BDA0002673957970000075
为预测中心坐标。
B,船舷号框宽高损失函数
Figure BDA0002673957970000076
其中B为训练的每批图片的数量,N为每个图片预测的文本框数量,
Figure BDA0002673957970000077
为对应图片输入框对应的锚点位置是否有船舷号,有为1,没有为0,
Figure BDA0002673957970000078
为框损失比例,
Figure BDA0002673957970000079
为真实宽高,
Figure BDA00026739579700000710
为预测宽高。
C,预测客观性预测概率损失函数
Figure BDA00026739579700000711
Figure BDA00026739579700000712
其中B为训练的每批图片的数量,N为每个图片预测的文本框数量,
Figure BDA00026739579700000713
为对应图片输入框对应的锚点位置是否有船舷号,有为1,没有为0。
Figure BDA00026739579700000714
为预测的对应图片输入框对应的锚点位置是否有船舷号。
Figure BDA00026739579700000715
为每个图片预测的框和实际标注的框相交面积除以并面积的结果小于阀值,此处阀值设置为0.5,我们认为这些框是无效的框,此次需要把无效的框排除掉,以减少对损失函数的影响。
D,分类损失函数,此处分为两类,一类为空白,一类为有文本内容。
Figure BDA00026739579700000716
其中B为训练的每批图片的数量,N为每个图片预测的文本框数量,
Figure BDA00026739579700000717
为对应图片输入框对应的锚点位置是否有船舷号,有为1,没有为0。
Figure BDA00026739579700000718
为每个图片船舷号标注的真实类别,
Figure BDA00026739579700000719
为每个图片船舷号标注的预测类别。
S36,基于S33处理的训练数据及S33,S35的深度学习神经网络训练模型,通过多次迭代、测试、验证,获得泛化能力较好的模型,并保存起来供实际预测使用。
S4,基于港口监控摄像头视频,利用图片去雾,图片增强计算,对低亮度,有水雾及模糊图片进行处理。
对待预测的视频图片做增强,基于港口,江河特殊场景,会有水雾,低照明度等不利因素影响,监控摄像头视频得到的图片质量比较低的情况下会对识别定位结果有影响。所以需要基于不同的场景下利用图片去雾,图片增强计算,对低亮度,有水雾及模糊图片进行处理。对图片处理包含以下内容。
S41,图片去雾处理,本发明主要基于暗通道处理的去雾,暗通道指的是绝大多数图片中非天空区域,某些像素总会有至少一个颜色通道具有很低的值,暗通道是:
Figure BDA0002673957970000081
Figure BDA0002673957970000082
暗通道先验理论指出Jdark→0,暗通道是rgb三通道中取最小值组成的灰度图,然后在进行一个最小值滤波得到的。雾图形成模型为I(x)=J(x)t(x)+A(1-t(x)),其中I(x)是现有的图像(待去雾),J(x)是要恢复的原无雾图像,A是全球大气光成分,t(x)是透射率。通过公式变换可得J(x)=((I(x)-A)/max(t(x),t_0))+A,通过此算法去雾,可以有效的排除水雾对识别带来的影响,如图4、5,本发明中去雾前图片整体偏白色,输入到神经网络中船舷号区域定位不全,通过去雾操作,整个图片清晰,特别是船舷号区域和背景船对比明显,输入神经网络中获得精确的船舷号定位。
S42,图片低亮度,对比度增强,港口灯光比较多,会影响图片亮度对比度,通过直方图均衡化的图像增强,拉普拉斯算子的图像增强,对数Log变换的图像增强,伽马变换的图像增强等算法调节图像,以使图片更好的凸显船舷号位置。
S5,把S4处理后图片,输入到深度学习神经网络中,做船舷号位置定位识别,获得船舷号位置坐标。
S51,把S4处理后视频图片,输入到深度学习神经网络中,获得三个采样率的输出
S52,然后把所有预测的框信息归一化,获得每个框预测的得分
S53,把所有获得的预测框两两计算IOU值,相交IOU大于阀值的预测框,做非最大化抑制,保留最大预测框
S53,基于文本行间隔最大阀值,及预测框坐标相交阀值,把预测框连接起来,并通过线性回归算法,获得连接后的预测框坐标,参与取连接框的平均得分为连接后预测框的平均值。
S54,通过以上操作,最后得到每个图片指定船舷号大小,位置坐标。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于深度学习的船舷号位置定位方法,其特征在于,包括:
S1:数据收集,获取带有船舷号信息的图片;
S2:通过标注软件对船舷号图片中船舷号的位置进行标注;
S3:建立深度学习神经网络和目标识别模型,将标注的船舷号图片作为输入对目标识别模型进行训练,识别船舷号在图片中的位置坐标;
S4:基于港口监控摄像头视频,利用图片去雾、图片增强技术,对低亮度、有水雾及模糊图片进行处理;
S5:把处理后图片输入到深度学习神经网络中,进行船舷号位置预测和定位识别,获得船舷号位置坐标。
2.根据权利要求1所述的基于深度学习的船舷号位置定位方法,其特征在于,S1中的数据收集,包括:
S11:通过港口的监控视频,根据监控视频序列的连续性特点,基于帧差分法和三帧差分法提取包含船舷号的图片;
S12:基于互联网获取带有船舷号图片。
3.根据权利要求2所述的基于深度学习的船舷号位置定位方法,其特征在于,所述帧差分法适用于运动较慢的船,获得视频中的第N和第N+1帧,两帧对应位置像素点的灰度值相减取绝对值,结果大于阀值的为运动目标,结果小于阀值为背景,通过连续性分析,得到完整的船图片;
所述三帧差分法适用于运动较快的船,获得视频中的第N-1、第N和第N+1帧,分别取N-1和N帧、N帧和N+1帧对应位置像素点的灰度值相减取绝对值,对两个结果进行取交操作,结果大于阀值的为运动目标,结果小于阀值为背景,通过连续性分析,得到完整的船图片;
根据光照的抑制系数和总像素确定阈值。
4.根据权利要求1所述的基于深度学习的船舷号位置定位方法,其特征在于,S2中根据获取带有船舷号信息的图片,先通过人工筛选有船舷号的图片,再通过标注软件labelImg,获得包含船舷号位置中心坐标(x,y)宽度w和高度h的xml文件。
5.根据权利要求1所述的基于深度学习的船舷号位置定位方法,其特征在于,所述深度学习神经网络采用全卷积网络残差网络,进行图片特征提取、位置预测和分类判定,通过上采样扩展图片大小,对不同深度的特征进行组合拼接;
对标注的船舷号图片进行图片处理,按照放缩比例处理,放缩比例为rate=min(608/W,608/H),获得DW=(608-W*rate),DH=(608-H*rate),若DW或DH大于0,则在放缩后的图片左右分别补充DW/2或DH/2个灰色像素点;
W表示原图片的宽,H表示原图片的高。
6.根据权利要求1所述的基于深度学习的船舷号位置定位方法,其特征在于,构建模型损失函数,模型损失函数分为预测船舷号框中心坐标点损失函数、预测船舷号框宽高损失函数、预测客观性预测概率损失函数和分类损失函数;
所述预测船舷号框中心坐标点损失函数为:
Figure FDA0002673957960000021
其中,B为训练的每批图片的数量,N为每个图片预测的文本框数量,
Figure FDA0002673957960000022
为对应图片输入框对应的锚点位置是否有船舷号,有为1,没有为0;
Figure FDA0002673957960000023
为框损失比例,
Figure FDA0002673957960000024
为真实中心坐标,
Figure FDA0002673957960000025
为预测中心坐标;i表示批次B中的第i个图片;j表示图片预测框总数N中的第j个框;
所述预测船舷号框宽高损失函数为:
Figure FDA0002673957960000026
其中,
Figure FDA0002673957960000027
为真实宽高,
Figure FDA0002673957960000028
为预测宽高;
所述预测客观性预测概率损失函数为:
Figure FDA0002673957960000029
其中,
Figure FDA00026739579600000210
为预测的对应图片输入框对应的锚点位置是否有船舷号,
Figure FDA00026739579600000211
为每个图片预测的框和实际标注的框相交面积除以并面积的结果小于阀值,阀值设置为0.5;
所述分类损失函数为:
Figure FDA00026739579600000212
其中,
Figure FDA00026739579600000213
为每个图片船舷号标注的真实类别,
Figure FDA00026739579600000214
为每个图片船舷号标注的预测类别。
7.根据权利要求1所述的基于深度学习的船舷号位置定位方法,其特征在于,对图片进行去雾处理,包括:基于暗通道进行去雾处理,所述暗通道为:
Figure FDA0002673957960000031
其中,Jdark→0,rgb三通道中取最小值组成灰度图,然后进行最小值滤波得到暗通道;
雾图形成模型为:I(x)=J(x)t(x)+A(1-t(x))
其中,I(x)是现有待去雾图像,J(x)是要恢复的原无雾图像,A是全球大气光成分,t(x)是透射率,通过去雾算法排出水雾对识别带来的影响,公式为:J(x)=((I(x)-A)/max(t(x),t_0))+A
其中,c表示彩色图片三通道中的一个,三通道对应红R,绿G,蓝B三个颜色,三通道每个像素取值为0-255;JC(y)表示彩色图片对应通道c的像素;
Figure FDA0002673957960000032
表示先求出图片中每个像素位置点在三通道中取值的最小值,并把所有最小值组成图片的单通道的灰度图,然后在灰度图中以每个像素点为中心点根据滤波半径获取滤波区域的最小值,用获取的最小值赋值给中心点像素。
8.根据权利要求1所述的基于深度学习的船舷号位置定位方法,其特征在于,对图片进行增强处理,包括:通过直方图均衡化的图像增强、拉普拉斯算子的图像增强、对数Log变换的图像增强和伽马变换的图像增强对图像进行调节,凸显船舷号的位置。
9.根据权利要求1所述的基于深度学习的船舷号位置定位方法,其特征在于,对图片进行预测,包括:
S51:把处理后的图片输入到深度学习神经网络中,获得采样率的输出;
S52:把所有预测的框信息归一化,获得每个框预测的得分;
S53:把所有获得的预测框两两计算IOU值,相交IOU大于阀值的预测框,做非最大化抑制,保留最大预测框;
S53:基于文本行间隔最大阀值,及预测框坐标相交阀值,把预测框连接起来,并通过线性回归算法,获得连接后的预测框坐标,参与连接的框的平均得分为连接后预测框的得分,最终得到每个图片指定船舷号大小和位置坐标。
10.一种基于深度学习的船舷号位置定位系统,其特征在于,采用权利要求1-9中任一种或任多种所述的基于深度学习的船舷号位置定位方法,包括:
模块M1:数据收集,获取带有船舷号信息的图片;
模块M2:通过标注软件对船舷号图片中船舷号的位置进行标注;
模块M3:建立深度学习神经网络和目标识别模型,将标注的船舷号图片作为输入对目标识别模型进行训练,识别船舷号在图片中的位置坐标;
模块M4:基于港口监控摄像头视频,利用图片去雾、图片增强技术,对低亮度、有水雾及模糊图片进行处理;
模块M5:把处理后图片输入到深度学习神经网络中,进行船舷号位置预测和定位识别,获得船舷号位置坐标。
CN202010942031.4A 2020-09-09 2020-09-09 基于深度学习的船舷号位置定位方法及系统 Pending CN112183232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010942031.4A CN112183232A (zh) 2020-09-09 2020-09-09 基于深度学习的船舷号位置定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010942031.4A CN112183232A (zh) 2020-09-09 2020-09-09 基于深度学习的船舷号位置定位方法及系统

Publications (1)

Publication Number Publication Date
CN112183232A true CN112183232A (zh) 2021-01-05

Family

ID=73920275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010942031.4A Pending CN112183232A (zh) 2020-09-09 2020-09-09 基于深度学习的船舷号位置定位方法及系统

Country Status (1)

Country Link
CN (1) CN112183232A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647648A (zh) * 2018-05-14 2018-10-12 电子科技大学 一种基于卷积神经网络的可见光条件下的舰船识别系统及方法
WO2019101220A1 (zh) * 2017-12-11 2019-05-31 珠海大横琴科技发展有限公司 基于深度学习网络和均值漂移的船只自动跟踪方法及系统
CN110147807A (zh) * 2019-01-04 2019-08-20 上海海事大学 一种船舶智能识别跟踪方法
CN110796009A (zh) * 2019-09-29 2020-02-14 航天恒星科技有限公司 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN111222574A (zh) * 2020-01-07 2020-06-02 西北工业大学 基于多模型决策级融合的舰船与民船目标检测与分类方法
CN111291684A (zh) * 2020-02-10 2020-06-16 浙江工业大学 一种自然场景下的船牌检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019101220A1 (zh) * 2017-12-11 2019-05-31 珠海大横琴科技发展有限公司 基于深度学习网络和均值漂移的船只自动跟踪方法及系统
CN108647648A (zh) * 2018-05-14 2018-10-12 电子科技大学 一种基于卷积神经网络的可见光条件下的舰船识别系统及方法
CN110147807A (zh) * 2019-01-04 2019-08-20 上海海事大学 一种船舶智能识别跟踪方法
CN110796009A (zh) * 2019-09-29 2020-02-14 航天恒星科技有限公司 基于多尺度卷积神经网络模型的海上船只检测方法及系统
CN111222574A (zh) * 2020-01-07 2020-06-02 西北工业大学 基于多模型决策级融合的舰船与民船目标检测与分类方法
CN111291684A (zh) * 2020-02-10 2020-06-16 浙江工业大学 一种自然场景下的船牌检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KAIMING HE等: "Single Image Haze Removal Using Dark Channel Prior", 《2009 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》, pages 34 - 37 *
赵相伟等著: "《MATLAB与测量数据处理》", 31 December 2019, 《中国矿业大学出版社》, pages: 223 - 225 *
马吉顺等: "基于 YOLO 算法的船舶识别定位系统", 《新 型 工 业 化》, pages 1 - 5 *

Similar Documents

Publication Publication Date Title
CN112884064B (zh) 一种基于神经网络的目标检测与识别方法
CN110232380B (zh) 基于Mask R-CNN神经网络的火灾夜间场景复原方法
CN111126115B (zh) 暴力分拣行为识别方法和装置
CN109753878B (zh) 一种恶劣天气下的成像识别方法及系统
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN113052170B (zh) 一种无约束场景下的小目标车牌识别方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN110334703B (zh) 一种昼夜图像中的船舶检测和识别方法
CN113205507B (zh) 一种视觉问答方法、系统及服务器
CN111815528A (zh) 基于卷积模型和特征融合的恶劣天气图像分类增强方法
CN116993970A (zh) 基于yolov5的油气管道挖掘机占压检测方法及系统
Dahirou et al. Motion Detection and Object Detection: Yolo (You Only Look Once)
Kheder et al. Transfer learning based traffic light detection and recognition using CNN inception-V3 model
CN115019340A (zh) 一种基于深度学习的夜间行人检测算法
CN114529906A (zh) 基于字符识别的输电设备数字仪表异常检测方法及系统
CN115700737A (zh) 一种基于视频监控的溢油检测方法
CN115661535B (zh) 一种目标去除背景恢复方法、装置和电子设备
CN116797793A (zh) 煤矿井下危险区域识别方法及装置
CN116823775A (zh) 一种基于深度学习的显示屏幕缺陷检测方法
CN116824352A (zh) 一种基于语义分割与图像异常检测的水面漂浮物识别方法
Zacheilas et al. An FPGA-based system for video processing to detect holes in aquaculture nets
CN116682057A (zh) 一种基于窗口自注意力机制的变电站安全隐患检测方法
CN115147450B (zh) 基于运动帧差图像的移动目标检测方法及检测装置
CN112183232A (zh) 基于深度学习的船舷号位置定位方法及系统
CN116152191A (zh) 基于深度学习的显示屏裂纹缺陷检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination