CN110443155A

CN110443155A - 一种基于卷积神经网络的视觉航标识别与分类方法

Info

Publication number: CN110443155A
Application number: CN201910639281.8A
Authority: CN
Inventors: 赵瑞昱; 王建华; 郑翔; 饶六中; 问靖; 赵军霞
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-11-12

Abstract

本发明涉及一种基于卷积神经网络的视觉航标识别与分类方法，该方法通过收集实际航行和网络上的视觉航标彩色图像为基础，构建卷积神经网络对其进行识别和分类。通过数据集图像的扩充，增加模型的泛化能力和抗过拟合作用；使用支持向量机分类器对图像进行分类。本发明可以简化检测航标图像流程，省略人工提取图像特征的步骤，提高整体效率；能够减轻海员在航行时的负担，并且，在恶劣海况情形下，保证船员的生命与财产安全；为无人系统建立和人船协同操作提供基础。

Description

一种基于卷积神经网络的视觉航标识别与分类方法

技术领域

本发明属于神经网络和图像识别的相关方法，具体涉及卷积神经网络和图像处理领域。

背景技术

航标，即助航标志，是帮助船舶安全、经济和便利航行而设置的视觉的、音响的和无线电的助航设施。视觉航标是专门建造的、通过向船舶上训练有素的观察者传递信息来达到助航目的的设施，包括灯塔、灯桩、立标、灯浮标、浮标、灯船和导标等。信号传递的过程称为发射海上信号。

图像的识别是一种利用计算机程序对数字图像进行处理、分析和理解，以识别各种不同的模式的目标和对象的技术，是计算机领域的一个主要研究方向。使用图像识别技术能够有效地处理特定目标物体的检测和识别以及图片的分类标注。图像识别技术在商业上有着广阔的应用领域。

卷积神经网络是一种处理二维灰度图像或三维彩色图像而特殊设计的多层人工神经网络，网络中的每层都由多个二维平面组成，而每个平面由多个独立的神经元组成，相邻两层的神经元之间互相连接，而处于同一层的神经元之间没有连接。卷积神经网络其作用原理是，先行将图像卷积块进行卷积，将图像的局部特征反映在被卷积的图像层上，通过多次卷积，最后所形成的图像数据进行识别与分类。

基于卷积神经网络的视觉航标识别与分类系统，可以简化检测航标图像流程，省略人工提取图像特征的步骤，提高整体效率；能够减轻海员在航行时的负担，并且，在恶劣海况情形下，保证船员的生命与财产安全；为无人系统建立和人船协同操作提供基础。

发明内容

本发明的目的是提出了一种能够对实际航行环境下的航标进行快速、准确的识别与分类的方法。

为实现上述目的，本发明设计了一种卷积神经网络模型对视觉航标图像进行识别，其主要步骤如下：

步骤1，采集图像和图像的预处理。将用彩色相机采集到的海上以及内河中视觉航标图像和从网络上采集到的视觉航标彩色图像，进行图像预处理。

步骤2，数据集制作。将预处理过的图像用于数据集的制作，并将数据集分为训练样本数据集和测试样本数据集。

步骤3，构建卷积神经网络模型。卷积神经网络模型由输入区、卷积汇聚区、分类区和输出区构成，其中输入区由输入层构成，卷积汇聚层由卷积层和汇聚层构成，分类层由全连接层和支持向量机分类器组成，输出区由输出层构成。输入层、卷积层、汇聚层和全连接层由多层神经元依次连接，其中卷积层、汇聚层和全连接层层数不唯一。全连接层和支持向量机分类器之间，由全连接层输出的一维图像特征向量和支持向量机分类器相连接。支持向量机分类器将识别和分类结果送至输出层，输出层输出识别和分类结果。

步骤4，训练卷积神经网络模型。将含有视觉航标数据集分多次输入到输入区进行图像特征的提取与识别，使输入层、卷积层、汇聚层和全连接层中的各神经元和相邻两层之间神经元连接进行优化同时，全连接层输出的图像特征向量用于优化支持向量机分类器中的核函数，使衡量指标损失函数降为最优。在训练卷积神经网络达到结束条件后，获得最优的卷积神经网络模型。

步骤5，测试卷积神经网络模型。将测试样本数据集输入已经训练好的卷积神经网络模型，验证准确率，获得最优卷积神经网络模型。

优选地，步骤1中，航标图像的预处理，过程如下：

一是将采集到的视觉航标图像进行裁切，仅保留含有视觉航标的语义图像。

二是对裁切好的视觉航标图像进行类别的标签标注。

三将分类标注好的图像进行归一化。

四是将含有视觉航标的图像数据集扩充。

优选地，对裁切好的视觉航标图像进行类别的标签标注，标签分别为灯塔、航行交通信号标志、灯船和浮标标签。

优选地，图像进行归一化为，将视觉航标数据集中图像调整为156×156×3，其中3代表RGB通道数。

优选地，航标图像数据集的扩充有两种方式，包括：

一是对采集到的视觉航标图像进行图像数据集扩充。将原有图像数据集依次根据亮度、旋转、镜像、拉伸、缩放、添加高斯噪声创建新图像数据集，进行数据增强。此基础上的所有图像变化均为创建新图像，扩充数据集。依据Box–Muller算法选择图像，将原始图像创建为0.5-2.0倍之间的随机亮度；依据Box–Muller算法选择，原始图像以图片中心为原点旋转-8度到+8度；依据0-1分布随机将原始图像沿过图片中心点水平线和铅垂线进行左右镜像和上下镜像生成新图像，依据Box–Muller算法选择图像，将原始图像以0.6-1.3之间的任一倍率进行缩放与拉伸，缩放后的图片填充像素为RGB 0,0,0；依据Box–Muller算法选择图像，将原图像加入高斯噪声生成新图像。

二是打乱处理过的视觉航标图像输入顺序，将图像顺序进行随机重排，获得一个用于训练的数据集。

优选地，依据Box–Muller算法选择图像，对每一张图片，通过Box–Muller算法生成服从正态分布的随机数，随机数的取值范围为[-1,1]。设定选择阈值为0，则随机数大于0，则对原始图像进行图像数据集扩充；若随机数小于0，则不对原始图像进行图像数据集扩充。

优选地，步骤3中，卷积神经网络的具体构造，依次为输入层、第一卷积层、ReLU激活层、第一汇聚层、第二卷积层、ReLU激活层、第二汇聚层、第三卷积层、ReLU激活层、第三汇聚层、第四卷积层、ReLU激活层、第四汇聚层、第一全连接层、第二全连接层、第三全连接层、支持向量机分类器和输出层。

第一卷积层所用卷积核大小为5*5*3，卷积核个数为50，滑动步长为1；第二卷积层所用卷积核大小为3*3，卷积核个数为80，滑动步长为1；第三卷积层所用卷积核大小为3*3，卷积核个数为120，滑动步长为1；第四卷积层所用卷积核大小为2*2，卷积核个数为150，滑动步长为1。四层汇聚层的汇聚核为2*2，且滑动步长均为2，均采用最大汇聚。卷积层到汇聚层之间的激活函数均为ReLU函数。

优选地，步骤4中，卷积神经网络训练过程如下：

一是初始化卷积神经网络参数，包括各层卷积核大小、卷积核个数、卷积核滑动步长、汇聚窗口大小、汇聚窗口滑动步长、卷积层权值及偏置、全连接层神经元个数、支持向量机分类器的核函数，完成卷积神经网络的初始化。

二是设定卷积神经网络的训练参数，包括训练学习率、目标最小误差、最大允许训练步数、最大允许比较次数和最大一次训练图像数目。

三是将训练样本输入到卷积神经网络的输入层，进行训练。在每次当前轮训练过程中，采用丢弃方法，将单个神经元将以50％的概率隐藏。

四是计算输出误差，通过反向传播算法更新权值。将当前轮数n(n>1)与前n-1(n>1)次轮数最小输出误差进行比较，若误差更小，则记录当前轮卷积神经网络参数；否则，不记录当前轮卷积神经网络参数，记录比较次数增加一次。

五是重复条件与结束条件，设置最大允许训练步数、最大允许比较次数和目标最小误差为重复条件，若卷积神经网络未达到任一重复条件时，重复三到四；若达到任一重复条件时，结束卷积神经网络的训练。

优选地，步骤5中，在测试卷积神经网络过程，对于采用过丢弃方法训练的神经元，神经元的输入为当前输入乘以丢弃率值后得到的原输入值，丢弃率值取值范围为[0,1]。

于卷积神经网络的视觉航标识别与分类系统，可以简化检测航标图像流程，省略人工提取图像特征的步骤，提高整体效率；能够减轻海员在航行时的负担，并且，在恶劣海况情形下，保证船员的生命与财产安全；为无人系统建立和人船协同操作提供基础。

附图说明

图1为本发明训练和测试过程示意图；

图2为卷积神经网络的连接示意图；

图3为卷积神经网络的具体构造示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为卷积神经网络训练和测试过程示意图。

本发明基本步骤如下：

步骤1，采集图像和图像的预处理。将用彩色相机采集到的海上以及内河中视觉航标图像和从网络上采集到的视觉航标彩色图像，进行图像预处理。从网络上采集视觉航标彩色图像为了弥补实际航行采集数据集偏小的问题。

对于航标图像的预处理，过程如下：

1)将采集到的视觉航标图像进行裁切，仅保留含有视觉航标的语义图像。含有视觉航标的语义图像指图像中含有不被其它物体遮挡的视觉航标图像。

2)对裁切好的视觉航标图像进行类别的标签标注。标签分别为灯塔、灯桩、导标、航行交通信号标志、灯船和浮标标签。

3)将分类标注好的图像进行归一化。将视觉航标数据集中的图像调整为156×156×3，其中3代表RGB通道数。

4)将含有视觉航标的图像数据集扩充。图像数据集扩充有两种方式：

(1)对采集到的视觉航标图像进行图像数据集扩充。将原有图像数据集依次根据亮度、旋转、镜像、拉伸、缩放、添加高斯噪声创建新图像数据集，进行数据增强。此基础上的所有图像变化均为创建新图像，扩充数据集。具体方法为：

a)依据Box–Muller算法选择图像，将原始图像创建为0.5-2.0倍之间的随机亮度；

b)依据Box–Muller算法选择，原始图像以图片中心为原点旋转-8度到+8度；

c)依据0-1分布随机将原始图像沿过图片中心点水平线和铅垂线进行左右镜像和上下镜像生成新图像；

对于0-1分布，定义发生概率P(p₁)＝0.5，则不发生概率为按照0-1分布决定是否将图像镜像。

d)依据Box–Muller算法选择图像，将原始图像以0.6-1.3之间的任一倍率进行缩放与拉伸，缩放后的图片填充像素为RGB 0,0,0；

e)依据Box–Muller算法选择图像，将原图像加入高斯噪声生成新图像。高斯噪声指它的概率密度函数服从正态分布的一类噪声。

其中，Box–Muller算法先得到服从均匀分布的随机数再将服从均匀分布的随机数转变为服从正态分布。

依据Box–Muller算法选择图像，对每一张图片，通过Box–Muller算法生成服从正态分布的随机数，随机数的取值范围为[-1,1]。设定选择阈值为0，则随机数大于0，则对原始图像进行图像数据集扩充；若随机数小于0，则不对原始图像进行图像数据集扩充。

(2)打乱处理过的视觉航标图像输入顺序，将图像顺序进行随机重排，获得一个用于训练的数据集。

步骤3，构建卷积神经网络模型。卷积神经网络模型由输入区、卷积汇聚区、分类区和输出区构成，其中输入区由输入层构成，卷积汇聚层由卷积层、激活层和汇聚层构成，分类层由全连接层和支持向量机分类器组成，输出区由输出层构成。输入层、卷积层、汇聚层和全连接层由多层神经元依次连接，其中卷积层、激活层、汇聚层和全连接层层数不唯一。全连接层和支持向量机分类器之间，由全连接层输出的一维图像特征向量和支持向量机分类器相连接。支持向量机分类器将识别和分类结果送至输出层，输出层输出识别和分类结果。

图2为卷积神经网络的连接示意图。

卷积神经网络的具体构造，依次为输入层、第一卷积层、ReLU激活层、第一汇聚层、第二卷积层、ReLU激活层、第二汇聚层、第三卷积层、ReLU激活层、第三汇聚层、第四卷积层、ReLU激活层、第四汇聚层、第一全连接层、第二全连接层、第三全连接层、支持向量机分类器和输出层。

第一卷积层所用卷积核大小为5*5*3，卷积核个数为50，滑动步长为1；

第二卷积层所用卷积核大小为3*3，卷积核个数为80，滑动步长为1；

第三卷积层所用卷积核大小为3*3，卷积核个数为120，滑动步长为1；

第四卷积层所用卷积核大小为2*2，卷积核个数为150，滑动步长为1。

四层汇聚层的汇聚核为2*2，且滑动步长均为2，均采用最大汇聚。

卷积层到汇聚层之间的激活函数均为ReLU函数。

图3是卷积神经网络的具体构造示意图。

步骤4，训练卷积神经网络模型。将含有视觉航标数据集分多次输入到输入区进行图像特征的提取与识别，使输入层、卷积层、汇聚层和全连接层中的各神经元和相邻两层之间神经元连接进行优化；同时，全连接层输出的图像特征向量用于优化支持向量机分类器中的核函数，使衡量指标损失函数降为最优。在训练卷积神经网络达到结束条件后，获得最优的卷积神经网络模型。

卷积神经网络训练过程如下：

在测试卷积神经网络过程，对于采用过丢弃方法训练的神经元，神经元的输入为当前输入乘以丢弃率值后得到的原输入值，丢弃率值取值范围为[0,1]。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于包括以下步骤：

步骤1，采集图像和图像的预处理，将用彩色相机采集到的海上以及内河中视觉航标图像和从网络上采集到的视觉航标彩色图像，进行图像预处理；

步骤2，数据集制作，将预处理过的图像用于数据集的制作，并将数据集分为训练样本数据集和测试样本数据集；

步骤3，构建卷积神经网络模型，卷积神经网络模型由输入区、卷积汇聚区、分类区和输出区构成，输入区由输入层构成，卷积汇聚层由卷积层和汇聚层构成，分类层由全连接层和支持向量机分类器组成，输出区由输出层构成，输入层、卷积层、汇聚层和全连接层由多层神经元依次连接，全连接层和支持向量机分类器之间由全连接层输出的一维图像特征向量和支持向量机分类器相连接，支持向量机分类器将识别和分类结果送至输出层，输出层输出识别和分类结果；

步骤4，训练卷积神经网络模型，将含有视觉航标数据集分多次输入到输入区进行图像特征的提取与识别，使输入层、卷积层、汇聚层和全连接层中的各神经元和相邻两层之间神经元连接进行优化，同时，全连接层输出的图像特征向量用于优化支持向量机分类器中的核函数，使衡量指标损失函数降为最优，获得最优的卷积神经网络模型；

步骤5，测试卷积神经网络模型，将测试样本数据集输入已经训练好的卷积神经网络模型，验证准确率，获得最优卷积神经网络模型。

2.根据权利要求1所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，所述步骤1中，航标图像的预处理，过程如下：

一是将采集到的视觉航标图像进行裁切，仅保留含有视觉航标的语义图像；

二是对裁切好的视觉航标图像进行类别的标签标注；

三将分类标注好的图像进行归一化；

四是将含有视觉航标的图像数据集扩充。

3.根据权利要求1所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，所述步骤3中，卷积神经网络的具体构造，依次为输入层、第一卷积层、ReLU激活层、第一汇聚层、第二卷积层、ReLU激活层、第二汇聚层、第三卷积层、ReLU激活层、第三汇聚层、第四卷积层、ReLU激活层、第四汇聚层、第一全连接层、第二全连接层、第三全连接层、支持向量机分类器和输出层；

第四卷积层所用卷积核大小为2*2，卷积核个数为150，滑动步长为1；

四层汇聚层的汇聚核为2*2，且滑动步长均为2，均采用最大汇聚；

卷积层到汇聚层之间的激活函数均为ReLU函数。

4.根据权利要求1所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，所述步骤4中，卷积神经网络训练过程如下：

一是初始化卷积神经网络参数，包括各层卷积核大小、卷积核个数、卷积核滑动步长、汇聚窗口大小、汇聚窗口滑动步长、卷积层权值及偏置、全连接层神经元个数、支持向量机分类器的核函数，完成卷积神经网络的初始化；

二是设定卷积神经网络的训练参数，包括训练学习率、目标最小误差、最大允许训练步数、最大允许比较次数和最大一次训练图像数目；

三是将训练样本输入到卷积神经网络的输入层，进行训练，在每次当前轮训练过程中，采用丢弃方法，将单个神经元将以50％的概率隐藏；

四是计算输出误差，通过反向传播算法更新权值，将当前轮数n(n>1)与前n-1(n>1)次轮数最小输出误差进行比较，若误差更小，则记录当前轮卷积神经网络参数，否则不记录当前轮卷积神经网络参数，记录比较次数增加一次；

五是重复条件与结束条件，设置最大允许训练步数、最大允许比较次数和目标最小误差为重复条件，若卷积神经网络未达到任一重复条件时，重复三到四，若达到任一重复条件时，结束卷积神经网络的训练。

5.根据权利要求1所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，所述步骤5中，在测试卷积神经网络过程，对于采用过丢弃方法训练的神经元，神经元的输入为当前输入乘以丢弃率值后得到的原输入值，丢弃率值取值范围为[0,1]。

6.根据权利要求2所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，对裁切好的视觉航标图像进行类别的标签标注，标签分别为灯塔、灯桩、导标、航行交通信号标志、灯船和浮标标签。

7.根据权利要求2所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，图像进行归一化为，将视觉航标数据集中图像调整为156×156×3，其中3代表RGB通道数。

8.根据权利要求2所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，航标图像数据集的扩充有两种方式，包括：

一是对采集到的视觉航标图像进行图像数据集扩充，将原有图像数据集依次根据亮度、旋转、镜像、拉伸、缩放、添加高斯噪声创建新图像数据集；

9.根据权利要求8所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，对采集到的视觉航标图像进行图像数据集扩充过程如下：

依据Box–Muller算法选择图像，将原始图像创建为0.5-2.0倍之间的随机亮度；

依据Box–Muller算法选择，原始图像以图片中心为原点旋转-8度到+8度；

依据0-1分布随机将原始图像沿过图片中心点水平线和铅垂线进行左右镜像和上下镜像生成新图像；

依据Box–Muller算法选择图像，将原始图像以0.6-1.3之间的任一倍率进行缩放与拉伸，缩放后的图片填充像素为RGB 0,0,0；

依据Box–Muller算法选择图像，将原图像加入高斯噪声生成新图像。

10.根据权利要求8所述的一种基于卷积神经网络的视觉航标识别与分类方法，其特征在于，依据Box–Muller算法选择图像过程如下：

对每一张图片，通过Box–Muller算法生成服从正态分布的随机数，随机数的取值范围为[-1,1]；

设定选择阈值为0，则随机数大于0，则对原始图像进行图像数据集扩充；

若随机数小于0，则不对原始图像进行图像数据集扩充。