CN114782881B - Ai影像训练实现船舶识别的方法、系统和设备 - Google Patents

Ai影像训练实现船舶识别的方法、系统和设备 Download PDF

Info

Publication number
CN114782881B
CN114782881B CN202210710742.8A CN202210710742A CN114782881B CN 114782881 B CN114782881 B CN 114782881B CN 202210710742 A CN202210710742 A CN 202210710742A CN 114782881 B CN114782881 B CN 114782881B
Authority
CN
China
Prior art keywords
ship
prediction
frame
camera
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210710742.8A
Other languages
English (en)
Other versions
CN114782881A (zh
Inventor
王光峻
刘善田
张恒
张骏
邓峰
刘洋
邱亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Hengtianyi Information Technology Co ltd
Original Assignee
Qingdao Hengtianyi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hengtianyi Information Technology Co ltd filed Critical Qingdao Hengtianyi Information Technology Co ltd
Priority to CN202210710742.8A priority Critical patent/CN114782881B/zh
Publication of CN114782881A publication Critical patent/CN114782881A/zh
Application granted granted Critical
Publication of CN114782881B publication Critical patent/CN114782881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种AI影像训练实现船舶识别的方法、系统和设备,属于船舶识别领域,包括以下步骤:S1、使用两路摄像头对航行的船舶进行自动跟踪及抓拍;S2、通过第一路摄像头对抓拍后的视频帧进行船舶识别,从第一路摄像头采集的视频帧中,将船舶照片处理成清晰图片后发送到船舶识别服务器进行识别,识别拍到的图像是否有船舶。本发明的优点是:结构设计简化、模块化、自动化,对船舶识别较为准确,流程简单,设备连接简单可靠,维护方便,模块化可便于今后很方便对识别效果不断改进提升,自动化不需要人工干预,摄像机自动捕捉目标船舶,并在目标周围绘制边界框,在图像上标示出目标的位置。

Description

AI影像训练实现船舶识别的方法、系统和设备
技术领域
本发明涉及一种AI影像训练实现船舶识别的方法、系统和设备,属于船舶识别领域。
背景技术
目前船舶船号识别主要采用RFID、AIS船舶身份识别等方法,该方法能够准确识别进出港船舶船号,但受RFID识别距离小及AIS设备被关闭不开启的问题,以及RFID需要在船上进行施工安装,不在船上安装RFID就无法识别船号,这给船舶管理特别是外籍船舶管理带来了不少问题。目前港口码头越来越需要一种船舶及船号识别系统 ,能够直接通过摄像机自动对船舶拍照,并获取船上的船号图像,能在视频监控上实时将该船的船号显示在监控器上,后期可根据船号进行船舶信息的查询。使用本发明的这种方法能够解决所有船舶的识别问题,并且不用给船舶加装任何设备,给智慧渔港的基础管理提供了硬抓手。
发明内容
为克服现有技术的缺陷,本发明提供一种AI影像训练实现船舶的识别方法、系统和设备,以解决目前在渔港港口,对进出港的船舶船号识别的问题。本发明的技术方案是:
一种AI影像训练实现船舶的识别方法,包括以下步骤:
S1、使用两路摄像头对航行的船舶进行自动跟踪及抓拍;
S2、通过第一路摄像头对抓拍后的视频帧进行船舶识别,从第一路摄像头采集的视频帧中,将船舶照片处理成清晰图片后发送到船舶识别服务器进行识别,识别拍到的图像是否有船舶;如没有船舶,控制第一路摄像头等待进行再次抓拍;如果识别到了船舶,将船舶的位置传给第二路摄像头;
S3、第二路摄像头根据船舶位置进行PTZ控制,即左右、上下移动,并进行放大处理,并将第二路摄像头采集的视频帧发送到运算服务器进行船号文字识别,如视频帧不清楚,将重新进行拍照;识别到船号后,给视频上的船舶加上船号以及船舶船号框,实现在录像中查看到船舶以及船舶的船号。
在所述的步骤S2中,将清晰的图片使用YOLOv3算法产生候选区域,再对候选区域做分类和位置坐标的预测,具体包括将清晰图片进行特征提取的步骤以及生成候选区域的步骤,该清晰图片通过特征提取的步骤得到特征图,该清晰图片通过生成候选区域的步骤产生预测框标签,将特征图与预测框标签建立关联,创建损失函数,形成船舶识别模型。
所述特征提取的步骤具体为:使用卷积神经网络对原图提取特征,随着网络向前传播,特征图的尺寸越来越小,每个像素点代表更加抽象的特征模式,直到输出特征图,其尺寸减小为原图的1/64。
所述的生成候选区域的步骤具体为:将原图划分成多个小方块,每个小方块的大小是64×64,然后以每个小方块为中心分别生成数个锚框,整张图片都会被锚框覆盖到;在锚框的基础上,产生一个与锚框对应的预测框,根据预测框与图片上物体真实框之间的位置关系,对预测框进行标注。
所述的YOLOv3算法在每个方块的中心生成锚框,每一锚框的位置都是固定的,且不与物体边界框重合;所述的预测框相对于锚框有不同的中心位置和大小,所述的YOLOv3中对每个预测框计算逻辑如下:
(5-1)预测框是否包含物体:objectness=1的概率是多少,用网络输出一个实数x, 用Sigmoid(x)表示objectness为正的概率
Figure 100002_DEST_PATH_IMAGE001
(5-2)标识物体位置和形状:物体位置和形状用
Figure 718162DEST_PATH_IMAGE002
Figure 100002_DEST_PATH_IMAGE003
四个实数来表示,
Figure 193137DEST_PATH_IMAGE004
代表物体横坐标,
Figure DEST_PATH_IMAGE005
代表物体纵坐标,
Figure 676202DEST_PATH_IMAGE006
代表物体宽,
Figure DEST_PATH_IMAGE007
代表物体高;
(5-3)预测物体类别:预测图像中物体的具体类别是什么,或者说其属于每个类别 的概率分别是多少,具体为:总的类别数为C,需要预测物体属于每个类别的概率(
Figure 931734DEST_PATH_IMAGE008
,
Figure DEST_PATH_IMAGE009
,...,
Figure 56816DEST_PATH_IMAGE010
),用网络输出C个实数(
Figure DEST_PATH_IMAGE011
,
Figure 120718DEST_PATH_IMAGE012
,...,
Figure DEST_PATH_IMAGE013
),对每个实数分别求Sigmoid函数让
Figure 305843DEST_PATH_IMAGE014
= Sigmoid(
Figure DEST_PATH_IMAGE015
),则表示出物体属于每个类别的概率;
(5-4)对于一个预测框,按照YOLOv3算法,每个预测框都有5+C个属性;网络需要输出(5+C)个实数来表征它是否包含物体、位置和形状尺寸以及属于每个类别的概率;在每个小方块区域都生成了K个预测框,则所有预测框一共需要网络输出的预测值数目是:[K(5+C)]×m×n;网络输出区分出小方块区域的位置来,不能直接将特征图连接一个输出大小为[K(5+C)]×m×n的全连接层,其中m,n分别代表实际图像的长宽与预测框的长宽的差值,其中,实际图像指的是原图;
(5-5)建立输出特征图与预测框之间关联的观察特征图,经过多次卷积和池化之后,其步幅stride=64,640×480大小的输入图片变成了10×7.5的特征图;而小方块区域的数目正好是10×7.5,也就是说让特征图上每个像素点分别跟原图上一个小方块区域对应;
(5-6)将像素点(i,j)与第i行第j列的小方块区域所需要的预测值关联起来,每个小方块区域产生K个预测框,每个预测框需要(5+C)个实数预测值,则每个像素点相对应的要有K(5+C)个实数,将生成的特征图与每个预测框所需要的预测值对应起来;
(5-7)将输出特征图上的像素点与预测框关联起来,对神经网络进行求解;将网络输出和预测框关联起来,建立起损失函数跟网络输出之间的关系,最终处理输出特征图。
所述预测框的具体生成方法为:
(1)定义锚框的中心点位置坐标为(Cx,Cy),一个方格代表一个单位长度,该此锚框的区域中心坐标是:center_x=Cx+0.5,center_y=Cy+0.5;
(2)基于下面的公式生成预测框的中心坐标:
bx=cx+σ(tx);by=cy+σ(ty);σ(x)=
Figure 517512DEST_PATH_IMAGE016
σ(tx),σ(ty)是Sigmoid函数;tx,ty,tw,th是实数,随机赋值;
(3)锚框的大小是预先设定好的,在模型中当作是超参数,其中,
Figure DEST_PATH_IMAGE017
=350,
Figure 915127DEST_PATH_IMAGE018
= 250,
Figure 958169DEST_PATH_IMAGE017
是锚框高度,
Figure 127244DEST_PATH_IMAGE018
是锚框宽度;
(4)通过下面的公式生成预测框的大小:
Figure DEST_PATH_IMAGE019
=
Figure 68352DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
=
Figure 20390DEST_PATH_IMAGE022
;其中,
Figure 980255DEST_PATH_IMAGE019
是预测框高度,
Figure 710445DEST_PATH_IMAGE021
是预测框宽度;如果
Figure DEST_PATH_IMAGE023
=
Figure 631128DEST_PATH_IMAGE024
= 0,
Figure DEST_PATH_IMAGE025
=
Figure 167282DEST_PATH_IMAGE026
=0,则预测框跟锚框重合;如果给
Figure 325862DEST_PATH_IMAGE002
Figure 679483DEST_PATH_IMAGE003
随机赋值则得到预测框坐标;
(5)设定t是网络预测的输出值,将
Figure DEST_PATH_IMAGE027
作为目标值,将t和
Figure 821883DEST_PATH_IMAGE027
之间的差距作为损失函 数,通过学习网络参数,使得t无限接近
Figure 256669DEST_PATH_IMAGE027
,从而预测框与真实框重合,从而求解出预测框的 位置坐标和大小。
一种基于AI影像训练实现的船舶识别系统,包括:
第一路摄像头,用于自动捕捉海面上卡口处运动的物体,并对抓拍后的视频帧进行船舶识别,从第一路摄像头采集的视频帧中,将船舶照片处理成清晰图片后发送到船舶识别服务器进行识别,识别拍到的图像是否有船舶;如没有船舶,控制第一路摄像头等待进行再次抓拍;如果识别到了船舶,将船舶的位置传给第二路摄像头;
第二路摄像头,用于接收第一路摄像头传输的数据,并根据船舶位置进行PTZ控制,即左右、上下移动,并进行放大处理;
运算服务器,用于接收第二路摄像头采集的视频帧,并进行船号文字识别,如视频帧不清楚,将重新进行拍照;识别到船号后,给视频上的船舶加上船号以及船舶船号框,实现在录像中查看到船舶以及船舶的船号;
视频存储服务器,用于对第一路摄像头、第二路摄像头以及运算服务器生成的数据进行存储。
所述的第一路摄像头为静态固定不动的枪机;所述的第二路摄像头为可进行左右上下移动的球机。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述AI影像训练实现船舶的识别方法的步骤。
本发明的优点是:结构设计简化、模块化、自动化,对船舶识别较为准确,流程简单,设备连接简单可靠,维护方便,模块化可便于今后很方便对识别效果不断改进提升,自动化不需要人工干预,摄像机自动捕捉目标船舶,并在目标周围绘制边界框,在图像上标示出目标的位置。
附图说明
图1是本发明实施例提供的船舶识别方法的一个实施例流程示意图;
图2是本发明实施前的效果图;
图3是本发明实施后的效果图;
图4是本发明识别到的船舶边界框的效果图;
图5是本发明YOLOv3算法训练流程图;
图6是本发明特征图C0与小方块区域形状对比图;
图7是本发明的系统结构框图;
图8是本发明提供的一种计算机设备结构示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的范围构成任何限制。本领域技术人员应该理解的是,在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换,但这些修改和替换均落入本发明的保护范围内。
参见图1至图8,本发明涉及一种AI影像训练实现船舶的识别方法,
包括以下步骤:
S1、使用两路摄像头对航行的船舶进行自动跟踪及抓拍;
S2、通过第一路摄像头对抓拍后的视频帧进行船舶识别,从第一路摄像头采集的视频帧中,将船舶照片处理成清晰图片后发送到船舶识别服务器进行识别,识别拍到的图像是否有船舶;如没有船舶,控制第一路摄像头等待进行再次抓拍;如果识别到了船舶,将船舶的位置传给第二路摄像头;其中,视频帧中将船舶照片处理成清晰的图片的方法,采用先进的人工智能技术,可以分辨真实细节和噪点。即使用sharpen、stabilize、focus三种方式对图像进行清晰操作,包括移除模糊、抑制噪点、添加颗粒三种方式。有效的把模糊、散焦、抖动的照片变的清晰起来。具体包括因虚焦引起的模糊(Out of Focus blur)、因运动引起的模糊(Motion blur)、以及高斯模糊(Gaussian blur)的照片。通过傅里叶变换方法实现了修复模糊和散焦图像,重建失真图像,复原模糊图片;
S3、第二路摄像头根据船舶位置进行PTZ控制,即左右、上下移动,并进行放大处理,并将第二路摄像头采集的视频帧发送到运算服务器进行船号文字识别,如视频帧不清楚,将重新进行拍照;识别到船号后,给视频上的船舶加上船号以及船舶船号框,实现在录像中查看到船舶以及船舶的船号。
在所述的步骤S2中,将清晰的图片使用YOLOv3算法产生候选区域,再对候选区域做分类和位置坐标的预测,具体包括将清晰图片进行特征提取的步骤以及生成候选区域的步骤,该清晰图片通过特征提取的步骤得到特征图,该清晰图片通过生成候选区域的步骤产生预测框标签,将特征图与预测框标签建立关联,创建损失函数,形成船舶识别模型。
所述特征提取的步骤具体为:使用卷积神经网络对原图提取特征,随着网络向前传播,特征图的尺寸越来越小,每个像素点代表更加抽象的特征模式,直到输出特征图,其尺寸减小为原图的1/64。
所述的生成候选区域的步骤具体为:将原图划分成多个小方块,每个小方块的大小是64×64,然后以每个小方块为中心分别生成数个锚框,整张图片都会被锚框覆盖到;在锚框的基础上,产生一个与锚框对应的预测框,根据预测框与图片上物体真实框之间的位置关系,对预测框进行标注。
所述的YOLOv3算法在每个方块的中心生成锚框,每一锚框的位置都是固定的,且不与物体边界框重合;所述的预测框相对于锚框有不同的中心位置和大小,所述的YOLOv3中对每个预测框计算逻辑如下:
(5-1)预测框是否包含物体:objectness=1的概率是多少,用网络输出一个实数x, 用Sigmoid(x)表示objectness为正的概率
Figure 722285DEST_PATH_IMAGE001
(5-2)标识物体位置和形状:物体位置和形状用
Figure 528698DEST_PATH_IMAGE002
Figure 345344DEST_PATH_IMAGE003
四个实数来表示,
Figure 895406DEST_PATH_IMAGE004
代表物体横坐标,
Figure 746687DEST_PATH_IMAGE005
代表物体纵坐标,
Figure 707690DEST_PATH_IMAGE006
代表物体宽,
Figure 700048DEST_PATH_IMAGE007
代表物体高;
(5-3)预测物体类别:预测图像中物体的具体类别是什么,或者说其属于每个类别 的概率分别是多少,具体为:总的类别数为C,需要预测物体属于每个类别的概率(
Figure 568646DEST_PATH_IMAGE008
,
Figure 25167DEST_PATH_IMAGE009
,...,
Figure 625912DEST_PATH_IMAGE010
),用网络输出C个实数(
Figure 682730DEST_PATH_IMAGE011
,
Figure 43435DEST_PATH_IMAGE012
,...,
Figure 806992DEST_PATH_IMAGE013
),对每个实数分别求Sigmoid函数让
Figure 844218DEST_PATH_IMAGE014
= Sigmoid(
Figure 139064DEST_PATH_IMAGE015
),则表示出物体属于每个类别的概率;
(5-4)对于一个预测框,按照YOLOv3算法,每个预测框都有5+C个属性;网络需要输出(5+C)个实数来表征它是否包含物体、位置和形状尺寸以及属于每个类别的概率;在每个小方块区域都生成了K个预测框,则所有预测框一共需要网络输出的预测值数目是:[K(5+C)]×m×n;网络输出区分出小方块区域的位置来,不能直接将特征图连接一个输出大小为[K(5+C)]×m×n的全连接层,其中m,n分别代表实际图像的长宽与预测框的长宽的差值,其中,实际图像指的是原图;
(5-5)建立输出特征图与预测框之间关联的观察特征图,经过多次卷积和池化之后,其步幅stride=64,640×480大小的输入图片变成了10×7.5的特征图;而小方块区域的数目正好是10×7.5,也就是说让特征图上每个像素点分别跟原图上一个小方块区域对应;
(5-6)将像素点(i,j)与第i行第j列的小方块区域所需要的预测值关联起来,每个小方块区域产生K个预测框,每个预测框需要(5+C)个实数预测值,则每个像素点相对应的要有K(5+C)个实数,将生成的特征图与每个预测框所需要的预测值对应起来;
(5-7)将输出特征图上的像素点与预测框关联起来,对神经网络进行求解;将网络输出和预测框关联起来,建立起损失函数跟网络输出之间的关系,最终处理输出特征图。
所述预测框的具体生成方法为:
(1)定义锚框的中心点位置坐标为(Cx,Cy),一个方格代表一个单位长度,该此锚框的区域中心坐标是:center_x=Cx+0.5,center_y=Cy+0.5;
比如定义锚框的中心点位置坐标为(40,90),一个方格代表一个单位长度。
Cx=40,Cy=90
A.CxCy是中心点坐标。
此锚框的区域中心坐标是:
center_x=Cx+0.5=40.5
center_y=Cy+0.5=90.5
可以通过步骤(2)的公式生成预测框的中心坐标:
由于Sigmoid的函数值在0-1之间,因此由上面公式计算出来的预测框的中心点总是落在第40行第90列的小区域内部。
(2)基于下面的公式生成预测框的中心坐标:
bx=cx+σ(tx);by=cy+σ(ty);σ(x)=
Figure 287149DEST_PATH_IMAGE016
σ(tx),σ(ty)是Sigmoid函数;tx,ty,tw,th是实数,随机赋值;
(3)锚框的大小是预先设定好的,在模型中当作是超参数,其中,
Figure 967529DEST_PATH_IMAGE017
=350,
Figure 926389DEST_PATH_IMAGE018
= 250,
Figure 895482DEST_PATH_IMAGE017
是锚框高度,
Figure 847257DEST_PATH_IMAGE018
是锚框宽度;
(4)通过下面的公式生成预测框的大小:
Figure 398456DEST_PATH_IMAGE019
=
Figure 511905DEST_PATH_IMAGE020
Figure 968294DEST_PATH_IMAGE021
=
Figure 271231DEST_PATH_IMAGE022
;其中,
Figure 863886DEST_PATH_IMAGE019
是预测框高度,
Figure 476133DEST_PATH_IMAGE021
是预测框宽度;如果
Figure 170551DEST_PATH_IMAGE023
=
Figure 198550DEST_PATH_IMAGE024
= 0,
Figure 911291DEST_PATH_IMAGE025
=
Figure 445171DEST_PATH_IMAGE026
=0,则预测框跟锚框重合;如果给
Figure 610573DEST_PATH_IMAGE002
Figure 707842DEST_PATH_IMAGE003
随机赋值则得到预测框坐标;
(5)设定t是网络预测的输出值,将
Figure 822560DEST_PATH_IMAGE027
作为目标值,将t和
Figure 714293DEST_PATH_IMAGE027
之间的差距作为损失函 数,通过学习网络参数,使得t无限接近
Figure 429308DEST_PATH_IMAGE027
,从而预测框与真实框重合,从而求解出预测框的 位置坐标和大小。
本发明的工作原理是:将处理后的结果图片帧放入系统中,调用船舶识别模型进行船舶的识别。在这个视频帧中如果发现物体,将进行下一步流程。下一步流程可能会出现三种可能:
1)如发现的物体是船舶,但显示不完整,系统会将信息发送给第一路视频摄像头对物体重新截取新的视频帧,以实现抓取到船舶结果。
2)如发现物体不是船舶,将告诉视频控制器该抓取结束,让其等待抓取下一个活动物体。
3)如果船舶的视频帧完整清晰,则进入到下一个流程。
抓取到船舶视频流后,将会对第二路球机摄像头进行PTZ(Pan/Tilt/Zoom 的简写,代表云台全方位(左右/上下)移动及镜头变倍、变焦控制)的控制,目标位置信息来源于第一路视频。
移动好摄像头后,将进行视频帧的截取,并对截取的视频侦使用图像模糊转清晰AI算法对图片进行处理。
这一步会将清晰的视频帧发送到文字识别运算服务器进行文字识别。这一步流程可能会出现三种可能:
1)如文字可以识别,系统会返回识别到的文字给下一步流程。
2)如文字不能识别,系统会通知回到第二路球机摄像控制模块,重新进行船舶识别。
3)如累计三次仍无法识别,将返回船舶的船号为“无法识别的船号”。
识别出船号后,系统在视频流中将识别到的物体外加上范围框,并在框上显示出识别到的船舶船号,效果如图2所示。最终将处理好的视频流返回到控制端进行显示的操作。
本发明还涉及一种基于AI影像训练实现的船舶识别系统10,包括:
第一路摄像头11,用于自动捕捉海面上卡口处运动的物体,并对抓拍后的视频帧进行船舶识别,从第一路摄像头采集的视频帧中,将船舶照片处理成清晰图片后发送到船舶识别服务器进行识别,识别拍到的图像是否有船舶;如没有船舶,控制第一路摄像头等待进行再次抓拍;如果识别到了船舶,将船舶的位置传给第二路摄像头;
第二路摄像头13,用于接收第一路摄像头传输的数据,并根据船舶位置进行PTZ控制,即左右、上下移动,并进行放大处理;
运算服务器14,用于接收第二路摄像头采集的视频帧,并进行船号文字识别,如视频帧不清楚,将重新进行拍照;识别到船号后,给视频上的船舶加上船号以及船舶船号框,实现在录像中查看到船舶以及船舶的船号;
视频存储服务器15,用于对第一路摄像头、第二路摄像头以及运算服务器生成的数据进行存储。
所述的第一路摄像头11为静态固定不动的枪机;所述的第二路摄像头13为可进行左右上下移动的球机。
本发明还涉及一种计算机设备1,包括存储器2、处理器3及存储在存储器2上并可在处理器上运行的计算机程序4,所述处理器3执行所述计算机程序4时实现AI影像训练实现船舶的识别方法的步骤。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (3)

1.一种AI影像训练实现船舶的识别方法,其特征在于,包括以下步骤:
S1、使用两路摄像头对航行的船舶进行自动跟踪及抓拍;
S2、通过第一路摄像头对抓拍后的视频帧进行船舶识别,从第一路摄像头采集的视频帧中,将船舶照片处理成清晰图片后发送到船舶识别服务器进行识别,识别拍到的图像是否有船舶;如没有船舶,控制第一路摄像头等待进行再次抓拍;如果识别到了船舶,将船舶的位置传给第二路摄像头;
S3、第二路摄像头根据船舶位置进行PTZ控制,即左右、上下移动,并进行放大处理,并将第二路摄像头采集的视频帧发送到运算服务器进行船号文字识别,如视频帧不清楚,将重新进行拍照;识别到船号后,给视频上的船舶加上船号以及船舶船号框,实现在录像中查看到船舶以及船舶的船号;
在所述的步骤S2中,将清晰的图片使用YOLOv3算法产生候选区域,再对候选区域做分类和位置坐标的预测,具体包括将清晰图片进行特征提取的步骤以及生成候选区域的步骤,该清晰图片通过特征提取的步骤得到特征图,该清晰图片通过生成候选区域的步骤产生预测框标签,将特征图与预测框标签建立关联,创建损失函数,形成船舶识别模型;
所述的生成候选区域的步骤具体为:将原图划分成多个小方块,每个小方块的大小是64×64,然后以每个小方块为中心分别生成数个锚框,整张图片都会被锚框覆盖到;在锚框的基础上,产生一个与锚框对应的预测框,根据预测框与图片上物体真实框之间的位置关系,对预测框进行标注;
所述的YOLOv3算法在每个方块的中心生成锚框,每一锚框的位置都是固定的,且不与物体边界框重合;所述的预测框相对于锚框有不同的中心位置和大小,所述的YOLOv3中对每个预测框计算逻辑如下:
(5-1)计算预测框内是否包含物体:通过计算objectness=1的概率是多少,用网络输出一个实数x,用Sigmoid(x)表示objectness为正的概率Pobj
(5-2)标识物体位置和形状:物体位置和形状用tx,ty,tw,th四个实数来表示,tx代表物体横坐标,ty代表物体纵坐标,tw代表物体宽,th代表物体高;
(5-3)预测物体类别:预测图像中物体的具体类别是什么,或者说其属于每个类别的概率分别是多少,具体为:总的类别数为C,需要预测物体属于每个类别的概率(p1,p2,……,pc),用网络输出C个实数(x1,x2,……,xc),对每个实数分别求Sigmoid函数让pi=Sigmoid(xi),则表示出物体属于每个类别的概率;
(5-4)对于一个预测框,按照YOLOv3算法,每个预测框都有5+C个属性;网络需要输出(5+C)个实数来表征它是否包含物体、位置和形状尺寸以及属于每个类别的概率;在每个小方块区域都生成了K个预测框,则所有预测框一共需要网络输出的预测值数目是:[K(5+C)]×m×n;网络输出区分出小方块区域的位置来,不能直接将特征图连接一个输出大小为[K(5+C)]×m×n的全连接层,其中m,n分别代表实际图像的长宽与预测框的长宽的差值,其中,实际图像指的是原图;
(5-5)建立输出特征图与预测框之间关联的观察特征图,经过多次卷积和池化之后,其步幅stride=64,640×480大小的输入图片变成了10×7.5的特征图;而小方块区域的数目正好是10×7.5,也就是说让特征图上每个像素点分别跟原图上一个小方块区域对应;
(5-6)将像素点(i,j)与第i行第j列的小方块区域所需要的预测值关联起来,每个小方块区域产生K个预测框,每个预测框需要(5+C)个实数预测值,则每个像素点相对应的要有K(5+C)个实数,将生成的特征图与每个预测框所需要的预测值对应起来;
(5-7)将输出特征图上的像素点与预测框关联起来,对神经网络进行求解;将网络输出和预测框关联起来,建立起损失函数跟网络输出之间的关系,最终处理输出特征图。
2.根据权利要求1所述的AI影像训练实现船舶的识别方法,其特征在于,所述特征提取的步骤具体为:使用卷积神经网络对原图提取特征,随着网络向前传播,特征图的尺寸越来越小,每个像素点代表更加抽象的特征模式,直到输出特征图,其尺寸减小为原图的1/64。
3.根据权利要求1所述的AI影像训练实现船舶的识别方法,其特征在于,所述预测框的具体生成方法为:
(1)定义锚框的中心点位置坐标为(Cx,Cy),一个方格代表一个单位长度,该此锚框的区域中心坐标是:center_x=Cx+0.5,center_y=Cy+0.5;
(2)基于下面的公式生成预测框的中心坐标:
bx=cx+σ(tx);by=cy+σ(ty);σ(x)=
Figure DEST_PATH_IMAGE001
σ(tx),σ(ty)是Sigmoid函数;tx,ty,tw,th是实数,随机赋值;
(3)锚框的大小是预先设定好的,在模型中当作是超参数,其中,ph=350,pw=250,ph是锚框高度,pw是锚框宽度;
(4)通过下面的公式生成预测框的大小:
bh=
Figure 934307DEST_PATH_IMAGE002
;bw=
Figure DEST_PATH_IMAGE003
;其中,bh是预测框高度,bw是预测框宽度;如果tx=ty=0,tw=th=0,则预测框跟锚框重合;如果给tx,ty,tw,th随机赋值则得到预测框坐标;
(5)设定t是网络预测的输出值,将t*作为目标值,将t和t*之间的差距作为损失函数,通过学习网络参数,使得t无限接近t*,从而预测框与真实框重合,从而求解出预测框的位置坐标和大小。
CN202210710742.8A 2022-06-22 2022-06-22 Ai影像训练实现船舶识别的方法、系统和设备 Active CN114782881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210710742.8A CN114782881B (zh) 2022-06-22 2022-06-22 Ai影像训练实现船舶识别的方法、系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210710742.8A CN114782881B (zh) 2022-06-22 2022-06-22 Ai影像训练实现船舶识别的方法、系统和设备

Publications (2)

Publication Number Publication Date
CN114782881A CN114782881A (zh) 2022-07-22
CN114782881B true CN114782881B (zh) 2022-09-02

Family

ID=82422478

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210710742.8A Active CN114782881B (zh) 2022-06-22 2022-06-22 Ai影像训练实现船舶识别的方法、系统和设备

Country Status (1)

Country Link
CN (1) CN114782881B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860898B2 (en) * 2016-10-16 2020-12-08 Ebay Inc. Image analysis and prediction based visual search
CN109803076B (zh) * 2019-01-21 2020-12-04 刘善成 一种内河水上交通卡口船舶图像抓拍及船名识别的方法
CN111212232A (zh) * 2020-01-17 2020-05-29 南京畅淼科技有限责任公司 一种船舶信息分析用视频分析检测方法
CN111832556A (zh) * 2020-06-04 2020-10-27 国家海洋局南海调查技术中心(国家海洋局南海浮标中心) 一种基于深度学习的船舷字符精准检测方法
CN113920436A (zh) * 2021-11-22 2022-01-11 江苏科技大学 一种基于改进YOLOv4算法的遥感图像海上船舶识别系统及其方法

Also Published As

Publication number Publication date
CN114782881A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN107330439B (zh) 一种图像中物体姿态的确定方法、客户端及服务器
Zhang et al. Densely connected pyramid dehazing network
CN110570454B (zh) 一种检测异物入侵的方法及装置
CN111046880A (zh) 一种红外目标图像分割方法、系统、电子设备及存储介质
JP2021163503A (ja) 2次元カメラによる3次元の姿勢推定
CN112614136A (zh) 一种红外小目标实时实例分割方法及装置
CN112287868A (zh) 一种人体动作识别方法及装置
CN115147488B (zh) 一种基于密集预测的工件位姿估计方法与抓取系统
JP2021176078A (ja) 深層学習及びベクトル場推定による特徴検出
CN112307912A (zh) 一种基于摄像头确定人员轨迹的方法及系统
CN111260687A (zh) 一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法
JP4427052B2 (ja) 画像処理装置および領域追跡プログラム
CN111986163A (zh) 人脸图像选择方法和装置
Tsoukalas et al. Deep learning assisted visual tracking of evader-UAV
CN117710868B (zh) 一种对实时视频目标的优化提取系统及方法
CN113255549B (zh) 一种狼群围猎行为状态智能识别方法及系统
CN117656083A (zh) 七自由度抓取姿态生成方法、装置、介质及设备
Xue Blind image deblurring: a review
CN114782881B (zh) Ai影像训练实现船舶识别的方法、系统和设备
JP2021163502A (ja) 複数の2次元カメラによる3次元の姿勢推定
CN117409463A (zh) 直播播放策略管理系统
CN117132503A (zh) 一种图像局部高亮区域修复方法、系统、设备及存储介质
CN114766039A (zh) 对象检测方法、对象检测设备、终端设备、以及介质
CN116721288A (zh) 一种基于YOLOv5的安全帽检测方法及系统
CN114677859B (zh) 无人机航线自动校正方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant