CN109145747B - 一种水面全景图像语义分割方法 - Google Patents
一种水面全景图像语义分割方法 Download PDFInfo
- Publication number
- CN109145747B CN109145747B CN201810810455.8A CN201810810455A CN109145747B CN 109145747 B CN109145747 B CN 109145747B CN 201810810455 A CN201810810455 A CN 201810810455A CN 109145747 B CN109145747 B CN 109145747B
- Authority
- CN
- China
- Prior art keywords
- water surface
- neural network
- convolutional neural
- panoramic image
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Abstract
本发明公开了一种水面全景图像语义分割方法,包括:设计卷积神经网络,对训练集中的水面全景图像中各目标类别进行像素级标记得到真实标记图像,利用训练集训练卷积神经网络,将卷积神经网络的输出结果与真实标记图像进行对比,得到训练误差,将训练误差在卷积神经网络进行反向传播,更新卷积神经网络的参数,经过多次迭代训练后得到训练好的卷积神经网络。将待测水面全景图像输入卷积神经网络进行实时语义分割,得到水面全景图像的分割结果。本发明分割速度快、对小区域目标分割效果好。为无人艇等水面智能设备提供全面、快速、准确的环境感知信息。
Description
技术领域
本发明属于计算机视觉识别技术领域,更具体地,涉及一种水面全景图像语义分割方法。
背景技术
随着海洋强国战略的提出,我国已经开始大力发展海洋设备。无人艇作为一种无人水面移动平台,不仅能够进入一些恶劣环境中完成任务,同时也能够提高需要长时间作业的任务的完成效率,在许多实际应用中都发挥着十分重要的作用,例如海关巡逻、浅海扫雷和水质监测等等。对于无人艇而言,环境感知技术是其完成自主航行和自主避障不可缺少的一环。特别地,在实际作业的过程当中,仅能够检测前进方向的目标或障碍物是远远不够的,危险可能出现在无人艇周围任何的方位。因此,装备全景相机来采集无人艇周围360°范围内的环境信息,并实时检测其中的目标及障碍物,是提高无人艇自主航行安全性的有效手段。传统的环境感知绝大部分都是基于目标检测实现的。目标检测只对图像中的目标画出检测框(bounding boxes)并判断框内物体类别,这样的方法不仅存在目标位置不够准确的问题,而且缺少全图的语义信息,不利于无人艇的环境感知和航迹规划。而使用语义分割的方法,对图像实现像素级的分类,则可以提供目标确切的位置信息和丰富的环境信息,使无人艇自主安全地航行成为可能。
在现有的技术中,尚没有将水面全景图像用于实时语义分割。有人曾提出一种用水面全景图像实现目标检测的方法,但是这种方法不能为无人艇的环境感知提供足够且准确的信息。目前常用的语义分割算法如下:
2014年,伯克利大学的Jonathan Long等人提出全卷积神经网络(FCN),首次将CNN用于图像的语义分割任务。FCN去掉了传统卷积网络末端的全连接层,并对下采样的卷积特征图进行反卷积,得到与原始图片一致的输出特征图,并在输出特征图上对每个像素点进行分类。随后的语义分割模型基本上都采用了这种结构。FCN在Cityscapes数据集上的平均IOU为65.3%,速度为2fps。2015年,Vijay Badrinarayanan等人提出SegNet将池化层结果应用到译码过程,可以快速得到反卷积结果,实现了比FCN更高效的语义分割。SegNet在Cityscapes数据集上的平均IOU为57%,速度为16.7fps。2016年,Adam Paszke等人提出ENet,该网络使用bottleneck模块先对特征图降维再卷积,然后再升到所需模块,大幅减少了计算量,是第一个实现实时语义分割的网络。2017年,Hengshuang Zhao等人提出PSPNet,用特征金字塔获取多尺度信息,获取了多尺度信息,极大地提高了语义分割的准确度,PSPNet在Cityscapes数据集上的平均IOU为78.4%。
上述方法对当前公共数据库中的图像都有很好的效果,但是速度和准确度没有一个很好的平衡,即要么分割准确率较低,要么分割速度较慢。再者,上述方法用于水面全景图像的语义分割时有以下缺陷:①速度较慢。全景图像比一般数据集的图片要大很多,对应的计算量也大幅增加,使算法的运行速度变慢,不能满足无人艇实时处理图像的要求;②对小区域目标分割效果不好。这些算法对小区域目标的分割准确率较低,而水面场景往往存在一些区域较小但是很重要的目标,例如远处的船只等,对这些区域分割不准不利于无人艇做出决策,执行各项任务。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种水面全景图像语义分割方法,由此解决现有技术存在的速度较慢、对小区域目标分割效果不好的技术问题。
为实现上述目的,本发明提供了一种水面全景图像语义分割方法,包括:
将待测水面全景图像输入卷积神经网络进行实时语义分割,得到水面全景图像的分割结果;
所述卷积神经网络利用N*1和1*N两个卷积核代替传统一个N*N卷积核,N≥3,所述卷积神经网络在不同卷积层之间设置跳级连接,所述卷积神经网络使用扩张卷积,所述卷积神经网络的损失函数中加入各目标类别的权重;
所述卷积神经网络的训练包括:
对训练集中的水面全景图像中各目标类别进行像素级标记得到真实标记图像,利用训练集训练卷积神经网络,将卷积神经网络的输出结果与真实标记图像进行对比,得到训练误差,将训练误差在卷积神经网络进行反向传播,更新卷积神经网络的参数,经过多次迭代训练后得到训练好的卷积神经网络。
进一步地,损失函数为:
进一步地,卷积神经网络中将编码网络的输出特征图与浅层特征图的全局平均池化结果融合,得到全局信息。
进一步地,水面全景图像的分割结果用于控制水面智能设备的前进方向。
进一步地,方法的应用包括:
利用相机标定板标定相机,建立成像平面坐标系与世界坐标系的映射关系,利用映射关系将水面全景图像的分割结果中各像素点的坐标转换至世界坐标系中,得到水面全景图像的分割结果中各像素点在现实空间中的位置,然后利用各像素点在现实空间中的位置进行水面智能设备的自主航迹规划,从而控制水面智能设备的前进方向。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明的卷积神经网络利用N*1和1*N两个卷积核代替传统一个N*N卷积核,传统的卷积核越大,减少的参数量就越多,本发明的卷积方法大幅减少了网络的计算量,提高了卷积神经网络的效率,实现全景图像的实时语义分割;本发明分割速度快、对小区域目标分割效果好。
(2)水面场景中各类目标区域大小差异很大,传统损失函数会导致训练的分类器倾向于把大面积目标(例如水、天空)分割正确,而把小面积目标(例如船只)忽略掉。为了解决这个问题,本发明在卷积神经网络的损失函数中加入各目标类别的权重;极大改善了不同目标类别样本不平衡地问题,提高了对小区域目标的分割精确度。
(3)本发明卷积神经网络在不同卷积层之间设置跳级连接,以避免网络训练中梯度衰减的问题;卷积神经网络使用扩张卷积,在不增加计算量的情况下增加了特征图的感受野,提高分割准确度。本发明融合全局信息,提高网络分割准确度。本发明为无人艇等水面智能设备提供全面、快速、准确的环境感知信息。
附图说明
图1是本发明实施例提供的一种水面全景图像语义分割方法的流程图;
图2(a)是本发明实施例1提供的原始卷积神经网络的结构示意图;
图2(b)是本发明实施例提1供的改进后的卷积神经网络的结构示意图;
图3(a)是本发明实施例1提供的水面全景图像;
图3(b)是本发明实施例1提供的水面全景图像的分割结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种水面全景图像语义分割方法,包括:
将待测水面全景图像输入卷积神经网络进行实时语义分割,得到水面全景图像的分割结果;
所述卷积神经网络利用N*1和1*N两个卷积核代替传统一个N*N卷积核,N≥3,所述卷积神经网络在不同卷积层之间设置跳级连接,所述卷积神经网络使用扩张卷积,所述卷积神经网络的损失函数中加入各目标类别的权重;卷积神经网络中将编码网络的输出特征图与浅层特征图的全局平均池化结果融合,得到全局信息。
所述卷积神经网络的训练包括:
对训练集中的水面全景图像中各目标类别进行像素级标记得到真实标记图像,利用训练集训练卷积神经网络,将卷积神经网络的输出结果与真实标记图像进行对比,得到训练误差,将训练误差在卷积神经网络进行反向传播,更新卷积神经网络的参数,经过多次迭代训练后得到训练好的卷积神经网络。
损失函数为:
实施例1
一种水面全景图像语义分割方法,包括:
将待测水面全景图像输入卷积神经网络进行实时语义分割,得到水面全景图像的分割结果;
如图2(a)所示,传统的卷积神经网络使用长和宽都为3的卷积,传统卷积核大小为3*3,本发明使用的是两个大小分别为3*1和1*3的卷积核,如图2(b)所示,卷积神经网络每隔4个卷积层设置跳级连接。
当输入卷积层通道数为c1、输出卷基层通道数为c2时,传统卷积的计算量为:
3*3*c1*c2=9*c1*c2
本发明的卷积计算量为:
3*1*c1*c2+1*3*c1*c2=6*c1*c2
计算量减少了33.3%。当网络使用更大的卷积核时,参数较少的比例会更大,例如使用长和宽都为5的卷积时,参数量减少60%。
所述卷积神经网络使用扩张卷积,3*3的卷积核使用扩张比例为k的扩张卷积时,对上一层特征图的感受野由原来的3*3变为:
[3+4*(k-1)]*[3+4*(k-1)]
在实际中使用了2、4、8、16四种扩张比例,感受野分别变为原来的5.4、25、106.8、441倍。虽然我们用了两个大小分别为3*1和1*3的卷积代替3*3的卷积,但是使用扩张卷积时仍然有上述结论。
设计合理的下采样比例。对特征图进行下采样不仅能增加感受野,还可以减少网络的计算量(因为下采样之后网络只需在较小的t特征图上做卷积)。但是,如果下采样的比例过大,会损失大量细节信息,导致网络的分割结果非常粗糙。经过试验对比,我们发现下采样比例为8时是比较合理的。
根据需要调整输入尺寸。我们得到的全景图像大小为3840*1920,如果在原始图片上进行训练和预测,需要的显存非常大。由于硬件条件的限制,我们把全景图片调整到2168*1024再进行处理。
统计训练集中各类目标的像素点数,训练网络时根据统计结果分配各类目标对损失函数的影响权重。语义分割中经常使用的损失函数为:
其中i为像素点的序号,pi为第i个像素点预测的类别,为第i个像素点的真实类别,LCE为交叉熵损失函数。水面场景中各类目标区域大小差异很大,用上述损失函数会导致训练的分类器倾向于把大面积目标(例如水、天空)分割正确,而把小面积目标(例如船只)忽略掉。为了解决这个问题,本发明在损失函数中加入各目标类别的权重,损失函数如下:
所述卷积神经网络的训练包括:
对训练集中的水面全景图像中各目标类别进行像素级标记得到真实标记图像,利用训练集训练卷积神经网络,将卷积神经网络的输出结果与真实标记图像进行对比,得到训练误差,将训练误差在卷积神经网络进行反向传播,更新卷积神经网络的参数,经过多次迭代训练后得到训练好的卷积神经网络。
在本实施例中,将6个GoPro相机置于船体上方,分别拍摄6个方向的图片,然后利用全景拼接软件Autopano Giga将6张图片拼接成一副完成的全景图像。此外,在拍摄前利用相机标定板标定相机,建立成像平面坐标系与世界坐标系的映射关系,即能够将目标在全景图像上的坐标转换为真实空间的坐标。如图3(a)所示为水面全景图像,图3(b)是水面全景图像的分割结果。利用映射关系将水面全景图像的分割结果中各像素点的坐标转换至世界坐标系中,得到水面全景图像的分割结果中各像素点在现实空间中的位置,然后利用各像素点在现实空间中的位置进行水面智能设备的自主航迹规划,从而控制水面智能设备的前进方向。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种水面全景图像语义分割方法,其特征在于,包括:
将待测水面全景图像输入卷积神经网络进行实时语义分割,得到水面全景图像的分割结果;
所述卷积神经网络利用N*1和1*N两个卷积核代替传统一个N*N卷积核,N≥3,所述卷积神经网络在不同卷积层之间设置跳级连接,所述卷积神经网络使用扩张卷积,所述卷积神经网络的损失函数中加入各目标类别的权重;
所述卷积神经网络的训练包括:
对训练集中的水面全景图像中各目标类别进行像素级标记得到真实标记图像,利用训练集训练卷积神经网络,将卷积神经网络的输出结果与真实标记图像进行对比,得到训练误差,将训练误差在卷积神经网络进行反向传播,更新卷积神经网络的参数,经过多次迭代训练后得到训练好的卷积神经网络。
3.如权利要求1或2所述的一种水面全景图像语义分割方法,其特征在于,所述水面全景图像的分割结果用于控制水面智能设备的前进方向。
4.如权利要求3所述的一种水面全景图像语义分割方法,其特征在于,所述方法的应用包括:
利用相机标定板标定相机,建立成像平面坐标系与世界坐标系的映射关系,利用映射关系将水面全景图像的分割结果中各像素点的坐标转换至世界坐标系中,得到水面全景图像的分割结果中各像素点在现实空间中的位置,然后利用各像素点在现实空间中的位置进行水面智能设备的自主航迹规划,从而控制水面智能设备的前进方向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810810455.8A CN109145747B (zh) | 2018-07-20 | 2018-07-20 | 一种水面全景图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810810455.8A CN109145747B (zh) | 2018-07-20 | 2018-07-20 | 一种水面全景图像语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145747A CN109145747A (zh) | 2019-01-04 |
CN109145747B true CN109145747B (zh) | 2021-10-08 |
Family
ID=64801262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810810455.8A Active CN109145747B (zh) | 2018-07-20 | 2018-07-20 | 一种水面全景图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145747B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109801297B (zh) * | 2019-01-14 | 2020-12-11 | 浙江大学 | 一种基于卷积实现的图像全景分割预测优化方法 |
CN111489359B (zh) * | 2019-01-25 | 2023-05-30 | 银河水滴科技(北京)有限公司 | 一种图像分割方法及装置 |
CN109919026B (zh) * | 2019-01-30 | 2023-06-30 | 华南理工大学 | 一种水面无人艇局部路径规划方法 |
CN110503651A (zh) * | 2019-08-09 | 2019-11-26 | 北京航空航天大学 | 一种图像显著对象分割方法及装置 |
CN110738666A (zh) * | 2019-09-25 | 2020-01-31 | 北京影谱科技股份有限公司 | 一种基于离散余弦变换的图像语义分割方法及装置 |
CN110782481B (zh) * | 2019-10-18 | 2023-09-05 | 华中光电技术研究所(中国船舶重工集团有限公司第七一七研究所) | 无人艇智能决策方法及系统 |
CN111210435B (zh) * | 2019-12-24 | 2022-10-18 | 重庆邮电大学 | 一种基于局部和全局特征增强模块的图像语义分割方法 |
WO2021147113A1 (zh) * | 2020-01-23 | 2021-07-29 | 华为技术有限公司 | 一种平面语义类别的识别方法以及图像数据处理装置 |
CN111612770B (zh) * | 2020-05-22 | 2021-08-31 | 中国科学院自动化研究所 | 基于主动筛选的半监督病灶检测网络的病灶检测系统 |
CN113159042A (zh) * | 2021-03-30 | 2021-07-23 | 苏州市卫航智能技术有限公司 | 一种激光视觉融合的无人船桥洞通行方法及系统 |
CN113706572B (zh) * | 2021-08-25 | 2023-10-20 | 北京大学 | 一种基于查询向量的端到端的全景图像分割方法 |
CN113743417B (zh) * | 2021-09-03 | 2024-02-23 | 北京航空航天大学 | 语义分割方法和语义分割装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372577A (zh) * | 2016-08-23 | 2017-02-01 | 北京航空航天大学 | 一种基于深度学习的交通标志自动识别与标注方法 |
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2532948B (en) * | 2014-12-02 | 2021-04-14 | Vivo Mobile Communication Co Ltd | Object Recognition in a 3D scene |
-
2018
- 2018-07-20 CN CN201810810455.8A patent/CN109145747B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106372577A (zh) * | 2016-08-23 | 2017-02-01 | 北京航空航天大学 | 一种基于深度学习的交通标志自动识别与标注方法 |
CN107403430A (zh) * | 2017-06-15 | 2017-11-28 | 中山大学 | 一种rgbd图像语义分割方法 |
Non-Patent Citations (2)
Title |
---|
《Unsupervised Total Variation Loss for Semi-supervised Deep Learning of Semantic Segmentation》;Mehran Javanmardi等;《arXiv》;20160504;全文 * |
《图像语义分割深度学习模型综述》;张新明 等;《高技术通讯》;20171031;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109145747A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145747B (zh) | 一种水面全景图像语义分割方法 | |
CN108665496B (zh) | 一种基于深度学习的端到端的语义即时定位与建图方法 | |
CN109635685B (zh) | 目标对象3d检测方法、装置、介质及设备 | |
CN113807187B (zh) | 基于注意力特征融合的无人机视频多目标跟踪方法 | |
Lu et al. | Deep-sea organisms tracking using dehazing and deep learning | |
CN113286194A (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN112183578B (zh) | 一种目标检测方法、介质及系统 | |
CN113506214B (zh) | 一种多路视频图像拼接方法 | |
CN111985475A (zh) | 船舶船牌识别方法、计算设备及存储介质 | |
CN111738071B (zh) | 一种基于单目摄像机的运动变化的逆透视变换方法 | |
CN115147745A (zh) | 一种基于城市无人机图像的小目标检测方法 | |
CN113505634A (zh) | 一种双流解码跨任务交互网络的光学遥感图像显著目标检测方法 | |
CN116434088A (zh) | 基于无人机航拍图像的车道线检测及车道辅助保持方法 | |
CN114972423A (zh) | 一种航拍视频运动目标检测方法及系统 | |
WO2021026855A1 (zh) | 基于机器视觉的图像处理方法和设备 | |
Li et al. | Vehicle object detection based on rgb-camera and radar sensor fusion | |
CN116563553B (zh) | 一种基于深度学习的无人机图像分割方法和系统 | |
CN113495575A (zh) | 一种基于注意力机制的无人机自主着陆视觉引导方法 | |
CN116105721B (zh) | 地图构建的回环优化方法、装置、设备及存储介质 | |
Cai et al. | Sea-skyline-based image stabilization of a buoy-mounted catadioptric omnidirectional vision system | |
CN112800932B (zh) | 海上背景下显著船舶目标的检测方法及电子设备 | |
CN111008555B (zh) | 一种无人机图像弱小目标增强提取方法 | |
CN115359067A (zh) | 一种基于连续卷积网络的逐点融合点云语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |