CN111488940B

CN111488940B - 一种基于深度卷积神经网络的航标图像智能分类方法

Info

Publication number: CN111488940B
Application number: CN202010296631.8A
Authority: CN
Inventors: 潘明阳; 刘乙赛; 顾网林; 李昱; 李超; 李邵喜
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2023-08-29
Anticipated expiration: 2040-04-15
Also published as: CN111488940A

Abstract

本发明提供一种基于深度卷积神经网络的航标图像智能分类方法。包括：采集航标图像；对航标图像进行预处理形成数据集；构建注意力航标分类模型；训练模型并进行测试，形成训练好的注意力航标分类模型；利用tensorflow‑serving对训练好的注意力航标分类模型进行部署，提供调用网络接口；进行航标分类的应用。本发明提出的注意力航标分类模型，专门针对不同细类的航标数据进行训练，应用于智能船舶和智能航行系统中，提高对环境的视觉感知能力，保障船舶的航行安全；也可应用于基于手机的航道信息智能服务APP中，培养和提升社会公众和船员的识标能力和水平。

Description

一种基于深度卷积神经网络的航标图像智能分类方法

技术领域

本发明涉及航标分类技术领域，具体而言，尤其涉及一种基于深度卷积神经网络的航标图像智能分类方法。

背景技术

为了标示航行环境中的航道边界、锚泊区、安全水域和危险物等各种不同的助航和碍航要素，航标分为了多种不同的类别，包括侧面标志、方位标志、孤立危险物标志、安全水域标志和专用标志等，而且每个大的类别下面又分多种细类，它们具有不同外形结构、颜色或顶标。对智能航行系统和智能船舶而言，能够对不同类别的航标进行正确识别，对于指引船舶安全和高效率航行具有十分重要的意义。

然而，由于航标的类别众多，某些细类航标间的视觉外观大致相同，可能只在局部存在着细微的差别，例如顶标、颜色方案或者标牌，对它们进行区分属于细粒度的分类问题。这对基于图像的识别任务带来了挑战，正常的深度卷积神经网络已经很难满足对细类航标的图像细粒度分类要求。

发明内容

根据上述提出的技术问题，而提供一种基于深度卷积神经网络的航标图像智能分类方法。本发明基于ResNet-50网络，提出了一种结合多尺度特征的注意力航标分类模型，专门针对不同细类的航标数据进行训练，大大提升了航标细粒度分类的准确性。该模型可应用于智能船舶和智能航行系统中，提高对环境的视觉感知能力，更好地保障船舶的航行安全；也可应用于基于手机的航道信息智能服务APP中，培养和提升社会公众和船员的识标能力和水平。

本发明采用的技术手段如下：

一种基于深度卷积神经网络的航标图像智能分类方法，包括如下步骤：

S1、采集航标图像；

S2、对上述采集的航标图像进行预处理形成数据集；

S3、构建注意力航标分类模型；

S4、训练步骤S3中构建的注意力航标分类模型，并进行测试，形成训练好的航标分类模型；

S5、利用tensorflow-serving对训练好的注意力航标分类模型进行部署，提供调用网络接口；进行航标分类的应用。

进一步地，所述步骤S1中采集的航标图像包括4个大类，分27个子类，根据其功能、形状、颜色和顶标样式再细分为97个细类。

进一步地，所述步骤S2中的预处理为对所述航标图像进行数据增强操作，具体为：

S21、采用opencv库对所述航标图像添加高斯噪声；

S22、改变上述添加高斯噪声后的航标图像的亮度；

S23、对改变亮度后的航标图像进行平移操作；

S24、对平移后的航标图像进行翻转操作。

进一步地，所述步骤S3中对ResNet-50网络作出改进，通过结合多尺度特征，形成注意力矩阵，再与输入图像进行逐元素乘积，具体包括：

S31、注意力航标分类模型的第一层形成一个注意力矩阵捕捉注意力区域，其基础网络为ResNet-50，包含ImageNet上预先训练的参数，在第一层进行如下操作：

S311、从ResNet-50网络的第二阶段、第三阶段和最后一个阶段输出三个通道的特征映射，分别表示为f1、f2和f3，即三个不同层次的特征细节；

S312、对f1、f2和f3进行卷积操作形成新的特征，表示为F1、F2和F3；

S313、对F1、F2和F3进行上采样，获得具有相同大小的p1、p2和p3；

S314、将p1、p2和p3汇集拼接在一起，以形成融合特征F，航标图像的多尺度特征表达式如下：

F＝concat[AVG(p1),AVG(p2),AVG(p3)]

其中，AVG(*)表示平均池操作，concat(*)表示拼接操作；

S315、消除上采样的混叠效应，在融合特征F上执行卷积，形成具有相同形状的输入图像的注意矩阵A，A＝conv(F)；

S316、采用逐元素乘积将注意力矩阵A和输入图像进行融合，得到注意力增强输入图像X^att：

X^att＝x⊙A

其中，⊙表示逐元素乘法；

S32、分类，注意力航标分类模型的第二层同样是基于ResNet-50网络的分类模块，网络的输入为X^att，最终输出为不同类型的航标的概率分布p(x)，该分布的公式如下：

p(x)＝f(W_C*X^att)

其中，W_C表示ResNet-50网络的参数，f(*)表示全连接操作，将卷积特征映射到可与类别项匹配的特征向量上，并包含一个softmax层，进一步将特征向量转换为最终的分类概率。

进一步地，所述步骤S4中的模型训练过程如下：

S41、改进注意力航标分类模型的损失函数，损失函数如下：

其中，w为类别i对应的权重，y_i为样本属于类别i的概率，logits_i为样本的预测为类别i的概率；

S42、改进注意力航标分类模型的优化器，优化器函数表示如下：

v＝Μ_u*v-LR*dx

x+＝v

其中，v表示变量，Μ_u表示动量参数，LR表示学习率，dx表示当前位置的梯度。

较现有技术相比，本发明具有以下优点：

1、本发明提供的航标图像智能分类方法，解决了航标的准确分类问题，相较于普通的分类模型，本发明能够得到更好的识别准确率。

2、应用本发明提供的注意力航标分类模型，可部署为服务接口，进而通过手机APP为社会公众和船员提供便捷的识标途径，提升航道信息服务水平。

3、航标分类和识别是智能船舶和智能航行系统的感知智能化的关键技术之一，本发明能够为航行环境的视觉智能感知提供很好的技术支撑。

基于上述理由本发明可在航标分类等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明航标图像示意图。

图3为本发明预处理过程示意图。

图4为现有ResNet-50模型结构示意图。

图5为本发明注意力航标分类模型结构示意图。

图6为本发明实施例提供的注意力图像可视化示意图。

图7为本发明实施例提供的模型训练示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在用于图像分类的深度卷积神经网络中，其提取的低级特征包含的语义信息较少，但目标的细节和位置更准确，相反，高级特征包含更丰富的语义信息，但细节和目标位置信息较少。本发明提出了一种多尺度的注意力机制，从ResNet-50网络的不同阶段获得的特征集成为一个注意力矩阵，利用该矩阵与输入图像逐元素相乘得到更有利于分类的图像，再将增强后的图像输入到第二个ResNet-50网络以完成最终分类。

实施例

下面以长江内河航标的分类为例，对本方案进行详细说明。

如图1所示，本发明提供了一种基于深度卷积神经网络的航标图像智能分类方法，包括如下步骤：

S1、采集航标图像；采集的航标图像包括4个大类，分27个子类，根据其功能、形状、颜色和顶标样式再细分为97个细类。如图2所示，为部分航标图像示意图。

S2、对上述采集的航标图像进行预处理形成数据集；深度神经网络一般都需要大量的训练数据才能取得更好的结果，为了提高模型性能，在训练之前需要对图像数据进行数据增强操作。如图3所示，具体为：

S21、采用opencv库对所述航标图像添加高斯噪声；

S22、改变上述添加高斯噪声后的航标图像的亮度；

S23、对改变亮度后的航标图像进行平移操作；

S24、对平移后的航标图像进行翻转操作。

S3、构建注意力航标分类模型；

本发明提出的模型以ResNet-50为基础，如图4所示，ResNet-50中包含了49个卷积层和1个全连接层，图中的CONV是卷积操作，BatchNorm为批正则化处理，Relu为激活函数，MAXPOOL和AvgPOOL是二种池化操作，第二至五阶段代表残差块。图像经过残差块的不断卷积操作，图像像素矩阵的通道数Channel越来越深，再经过扁平层Flatten，将图像像素矩阵尺寸变成batch_size×4096，最后输入全连接层FC中，经softmax层输出对应类别概率。

在图像分类的深度卷积神经网络中，其提取的低层特征包含语义信息较少而目标位置准确，更多的是细节特征；而高层特征则包含的语义信息丰富，但相对位置比较粗略。利用ResNet-50进行图像分类只利用顶层特征进行分类，这无疑会损失了一部分特征信息。针对航标的细粒度图像特征，作为本发明优选的实施方式，在步骤S3中本发明对ResNet-50网络做出改进，通过结合多尺度特征，形成注意力矩阵，再与输入图像进行逐元素乘积，使得处理后的图像能够更好的注意到有利于分类的区域，从而提高了模型的识别准确性。具体包括：

S31、注意力形成，注意力航标分类模型的第一层形成一个注意力矩阵捕捉注意力区域，其基础网络为ResNet-50，包含ImageNet上预先训练的参数，在第一层进行如下操作：

F＝concat[AVG(p1),AVG(p2),AVG(p3)]

其中，AVG(*)表示平均池操作，concat(*)表示拼接操作；

X^att＝x⊙A

其中，⊙表示逐元素乘法；本发明提出的注意力航标分类模型如图5所示，包含两个ResNet-50结构，上方的ResNet-50用来提取注意力矩阵，下方的ResNet-50对注意力图像进行分类。图中的conv表示卷积操作，max-pool表示最大池化操作，Avg-pool表示平均池化操作，Multiply表示注意力矩阵与原图的逐元素相乘操作，最后输入全连接层FC中，经过Soft-max层输出对应类别概率。如图6所示，显示了注意力输入图像X^att的可视化结果，可以看出本发明提出的注意力机制能够准确定位到航标图像中更适合分类的判别性区域，从而提高航标图像分类效果。

p(x)＝f(W_C*X^att)

S4、训练步骤S3中构建的注意力航标分类模型，并进行测试，形成训练好的航标分类模型；在本实施例中，将航标图像的尺寸统一为(240,240)，80％作为训练集，放入搭建好的模型进行训练。训练过程中，训练批次epoch为30次，每一批次训练数据量为100个，训练过程如图7所示，训练过程显示，当训练到15次时，训练集准确率稳定到99.9％左右，模型收敛。

在模型训练过程中，为了提升模型的精确程度以及加速模型训练，在损失函数以及优化器方面进行改进。步骤S4中的模型训练过程如下：

S41、由于数据集的原因，采用图像翻转、平移、加噪等数据增强方法后，各类数据依然存在数据分布不均的问题。对此，通过改进损失函数，使得样本较少的类能够对损失函数的贡献更大。改进注意力航标分类模型的损失函数，损失函数如下：

在正样本的判别上加了一个w系数，w是预先根据数据集计算得出，即取样本数目中值，类别i的权重w为：中值/类别i的数量，w将使得样本数目小的类别，得到更大的权重系数，以加强对损失函数的贡献，从而提升了模型性能。y_i为样本属于类别i的概率，logits_i为样本的预测为类别i的概率。

S42、为了使得模型更快收敛在SGD优化器的基础上加入了moment。改进注意力航标分类模型的优化器，优化器函数表示如下：

v＝Μ_u*v-LR*dx

x+＝v

其中，v表示变量，Μ_u表示动量参数，LR表示学习率，dx表示当前位置的梯度。在实施例中，变量v设置为0；动量参数Μ_u设置为0.9。通过动量更新，参数会在任何有持续梯度的方向上增加速度，加快了模型的训练速度。

S5、利用tensorflow-serving对训练好的注意力航标分类模型进行部署，提供调用网络接口；进行航标分类的应用。采用数据集中20％的航标图像用于验证。在上述数据集中进行实验，并用VGG-16，VGG-19，ResNet-50与本发明提出的方法进行比较，RMA为本方案模型。通过对验证集进行预测得到的结果如下表所示。

结果表明，在验证集上，本发明提出的模型的准确率达到95％以上，在航标分类的准确率上优于VGG和ResNet模型，能够有效提高航标分类问题的准确性。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于深度卷积神经网络的航标图像智能分类方法，其特征在于，包括如下步骤：

S1、采集航标图像；

S2、对上述采集的航标图像进行预处理形成数据集；

S3、构建注意力航标分类模型；所述步骤S3中对ResNet-50网络作出改进，通过结合多尺度特征，形成注意力矩阵，再与输入图像进行逐元素乘积，具体包括：

F＝concat[AVG(p1),AVG(p2),AVG(p3)]

其中，AVG(*)表示平均池操作，concat(*)表示拼接操作；

X^att＝x⊙A

其中，⊙表示逐元素乘法；

p(x)＝f(W_C*X^att)

其中，W_C表示ResNet-50网络的参数，f(*)表示全连接操作，将卷积特征映射到可与类别项匹配的特征向量上，并包含一个softmax层，进一步将特征向量转换为最终的分类概率；

2.根据权利要求1所述的基于深度卷积神经网络的航标图像智能分类方法，其特征在于，所述步骤S1中采集的航标图像包括4个大类，分27个子类，根据其功能、形状、颜色和顶标样式再细分为97个细类。

3.根据权利要求1所述的基于深度卷积神经网络的航标图像智能分类方法，其特征在于，所述步骤S2中的预处理为对所述航标图像进行数据增强操作，具体为：

S21、采用opencv库对所述航标图像添加高斯噪声；

S22、改变上述添加高斯噪声后的航标图像的亮度；

S23、对改变亮度后的航标图像进行平移操作；

S24、对平移后的航标图像进行翻转操作。

4.根据权利要求1所述的基于深度卷积神经网络的航标图像智能分类方法，其特征在于，所述步骤S4中的模型训练过程如下：

S41、改进注意力航标分类模型的损失函数，损失函数如下：

v＝M_u*v-LR*dx

x+＝v

其中，v表示变量，M_u表示动量参数，LR表示学习率，dx表示当前位置的梯度。