CN111639709A

CN111639709A - 一种基于深度学习的航标灯质智能识别方法

Info

Publication number: CN111639709A
Application number: CN202010478280.2A
Authority: CN
Inventors: 潘明阳; 赵丽宁; 韩旭; 李超; 李昱
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2020-09-08
Anticipated expiration: 2040-05-29
Also published as: CN111639709B

Abstract

本发明提供一种基于深度学习的航标灯质智能识别方法，包括：采集视频数据，并进行预处理；构建灯闪网络，并进行训练；灯闪网络以预处理后视频的亮度通道图像为输入，利用循环神经网络提取航标灯的亮度特征，再利用循环神经网络提取亮度特征形成的灯闪周期时序；构建颜色网络，并进行训练；颜色网络以视频的RGB图像为输入，利用卷积神经网络提取航标灯的颜色特征；将灯闪网络和颜色网络的识别结果进行融合，获取航标灯颜色加灯闪周期的灯质分类。本发明主要利用灯闪网络和颜色网络将灯闪周期与颜色分离训练和识别，达到了航标灯质的多标签分类效果。加入了注意力机制，可以使得特征图在训练时更容易关注到所要观察的灯质信息，提升了模型的准确率。

Description

一种基于深度学习的航标灯质智能识别方法

技术领域

本发明涉及航标灯质识别技术领域，具体而言，尤其涉及一种基于深度学习的航标灯质智能识别方法。

背景技术

航标是帮助引导船舶航行、定位和标示碍航物与表示警告的人工标志，为各种水上活动提供安全信息的设施或系统。通常设于通航水域或其近处，以标示航道、锚地、滩险及其他碍航物的位置。航标包括视觉航标、音响航标和无线电航标三大类，视觉航标是其中使用最多最方便也是最重要的航标。为了能使驾驶人员通过直接观测迅速辨明水域，视觉航标具有特征鲜明的标身颜色和形状，以便白天观测和识别。为了在夜间同样起到醒目的视觉指示作用，视觉航标通常安装有可发光的航标灯，而且通过灯质来区别各自不同的功能类别。

灯质是指航标灯的灯光颜色和闪光频率。与国际航标管理协会IALA推荐的一致，目前我国的航标灯采用了白、红、绿和黄4种灯色。而闪光频率包括了单闪、双闪、三闪、快闪、互闪、莫尔斯D、莫尔斯M、莫尔斯P和莫尔斯X等，周期从1秒到10秒不等。灯质的形式远比道路交通信号灯复杂，通过灯质正确地识别航标的类型从而准确“看清”航行环境具有很大的难度，非常容易因识别错误造成搁浅、穿越轨道和进入禁区等航行危险，这给船舶夜间航行造成了较大的障碍。

针对上述问题，现有技术一提出了一种基于Gabor滤波和稀疏表示信号灯检测和信号灯识别方法，其基本思路是：首先采用亮度分割和几何形态滤波对交通信号灯进行定位，结合信号灯与其背板的相对位置和RGB与HSV颜色空间的判别结果判定信号灯颜色；再对信号灯区域进行Gabor滤波，采用K均值奇异值分解算法进行字典学习，利用正交匹配追踪算法求解测试样本的稀疏系数，根据重构误差实现交通灯的类型判别。

现有技术二提出了一种基于深度学习的交通信号灯快速检测与识别算法，在YOLO模型基础进行改进，具有更高的准确率和更少的漏检率，而且提高了检测速率。但是上述公开的现有技术仍然存在如下问题：

现有技术一的缺点：(1)对信号灯区域面积过小的图像检测错误率较高，算法耗时较多，其识别准确率和效率都有很大的提高空间；(2)这种基于模型的识别方法依赖手工制作的特征工程，其鲁棒性不好，因此只适合进行道路交通信号灯的识别，而无法适应航标灯识别的场景。

现有技术二的缺点：虽然通过对YOLO的改进实现了很好的信号灯检测效果，达到96.08％准确率和2.87％的漏检率，但是其只是针对道路交通信号灯静态图像的识别，对于存在具有信号时序特征的航标灯灯质，则无法进行准确的分类识别。

发明内容

根据上述提出的技术问题，而提供一种基于深度学习的航标灯质智能识别方法。本发明主要利用灯闪网络和颜色网络将灯闪周期与颜色分离训练和识别，达到了航标灯质的多标签分类效果，甚至可以识别出训练视频数据集中不存在的灯质类型，解决了数据集不足的问题。此外，该方法加入了注意力机制，可以使得特征图在训练的时候更容易关注到所要观察的灯质信息，提升了模型的准确率。

本发明采用的技术手段如下：

一种基于深度学习的航标灯质智能识别方法，包括如下步骤：

S1、采集视频数据，并对视频数据进行预处理；

S2、构建灯闪网络，并对其进行训练；灯闪网络以预处理后视频的亮度通道图像为输入，利用循环神经网络提取航标灯的亮度特征，再利用循环神经网络提取亮度特征形成的灯闪周期时序；

S3、构建颜色网络，并对其进行训练；颜色网络以视频的RGB图像为输入，利用卷积神经网络提取航标灯的颜色特征；

S4、将灯闪网络和颜色网络的识别结果进行融合，获取航标灯颜色加灯闪周期的灯质分类。

进一步地，所述步骤S1具体为：

S11、视频切割：根据航标灯质的周期规律将各种灯质现场拍摄的视频分割成一定秒数的多个小视频段；

S12、视频切片：每隔一定帧数对上述的小视频段进行一次切割；

S13、RGB图像通道分割：将RGB图像转成HSV格式，并只保留其中的亮度通道图像。

进一步地，所述步骤S2具体为：

S21、构建灯闪网络：灯闪网络包括视频帧输入层、注意力机制层、视频帧特征提取层、LSTM时序学习层；

所述视频帧输入层输入的视频帧维度为[(B,x,y,z,o]，其中，B表示一次输入网络的数据量batch_size；x表示时间步长，y表示图像的通道数；(z,o)表示图像的输入尺寸大小；同时将视频帧输入到混合注意力，对特征向量进行优化计算；

所述注意力机制层的输入为每一个视频帧，即维度为[(B,y,z,o]，注意力机制层不改变特征维度，输出维度同样为[(B,y,z,o]；

所述视频帧特征提取层的输入为每一个经过注意力机制层的视频帧，即维度为[(B,y,z,o]；在原始视频帧特征提取层的基础上，添加了全连接层将输出维度变成[(B,a)]，a表示该层输出神经元个数；放入到时序学习层中进行训练，同时在全连接层之前加入批量归一化(BN)层；

所述LSTM时序学习层连接ResNet152模型，其激活函数设为relu，在最后的预测时间点添加全连接层，使得最后输出的维度为[(B,b)]，b为特征数量，即为视频段相对b个灯闪周期类别所得分数，其中评分最高的即为视频段所对应的类别；

S22、训练灯闪网络：前向传播和反向传递；具体的，前向传播在得到一个预测的结果后，需要和真实标签值进行损失计算，在反向传播的过程中，通过计算的损失值对参数进行更新，对于损失函数，采用的是交叉熵，其计算公式如下所示：

其中，p是真实值，采用one-hot形式；q是预测值；通过训练，直到得到稳定的小的损失值，当最后的损失值趋于稳定，即得到了拟合效果最好的权重，将其作为最终的预测模型。

进一步地，所述步骤S3具体为：

S31、构建颜色网络：颜色网络包括视频帧输入层、注意力机制层、视频帧特征提取层；

所述视频帧输入层输入的视频帧维度为[(B,z,o,y)]，(z,o,y)表示y通道尺寸为z*o的图像；

所述注意力机制层输入的视频帧维度为[(B,z,o,y)]，对特征向量进行优化计算，输出维度为[(B,z,o,y)]的特征图，将计算好的特征向量送入视频帧特征提取层进行计算；

所述视频帧特征提取层的输入为每一个经过注意力机制层的视频帧，输出一个维度为(B，w)的向量，其中，w为最终输出相对于w个类别的w个概率值，概率值最大的即为最终的颜色分类；

S32、训练颜色网络：前向传播和反向传递；具体的训练过程与灯闪网络的训练过程相同。

较现有技术相比，本发明具有以下优点：

1、本发明提供的基于深度学习的航标灯质智能识别方法，利用灯闪网络和颜色网络将灯闪周期与颜色分离训练和识别，达到了航标灯质的多标签分类效果。

2、本发明提供的基于深度学习的航标灯质智能识别方法，还可以识别出训练视频数据集中不存在的灯质类型，解决了数据集不足的问题。

3、本发明提供的基于深度学习的航标灯质智能识别方法，加入了注意力机制，可以使得特征图在训练的时候更容易关注到所要观察的灯质信息，提升了模型的准确率，将为航行环境的视觉智能感知提供很好的技术支撑。

4、本发明提供的基于深度学习的航标灯质智能识别方法，其灯闪网络和颜色网络可部署为服务接口，进而通过手机APP为社会公众和船员提供便捷的识标途径，提升航道信息服务水平。

基于上述理由本发明可在航标灯质识别等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

图2为本发明实施例提供的视频切片结果示意图。

图3为本发明实施例提供的图像通道分割示意图。

图4为本发明实施例提供的灯闪网络结构图。

图5为本发明实施例提供的灯闪网络训练过程的损失函数和准确率曲线示意图。

图6为本发明实施例提供的颜色网络结构图。

图7为本发明实施例提供的颜色网络训练过程的损失函数和准确率曲线示意图。

图8为本发明实施例提供的注意力机制示意图。

图9为本发明实施例提供的注意力模型示意图。

图10为本发明实施例提供的通道注意力结构图。

图11为本发明实施例提供的空间注意力结构图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任向具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

实施例

如图1所示，本发明提供了一种基于深度学习的航标灯质智能识别方法，包括如下步骤：

S1、采集视频数据，并对视频数据进行预处理；

S11、视频切割：本实施例中视频的帧率为25桢/秒，根据航标灯质的周期规律将各种灯质现场拍摄的视频分割成每10s的一个小视频段；航标灯质的周期规律如下表所示：

表1航标灯质表

S12、视频切片：为了增加数据集的综合语义性，将上述的小视频段每隔10帧进行一次切割；即切割成25张图进行训练，这样在训练图片集合中，存在完整周期，不完整周期的情况，增加了数据集本身的鲁棒性。如图2为本实施例中的航道航标灯质视频切片结果。

S13、RGB图像通道分割：将RGB图像转成HSV格式，并只保留其中的亮度通道图像。如图3所示。HSV色彩空间从心理学和视觉的角度出发，指出人眼的色彩知觉主要包含三要素：色调(Hue，也称为色相)、饱和度(Saturation)、亮度(Value))，不同颜色的灯在V通道都将表现出类似的亮度特征。因此，本方案以HSV的V通道图像作为特征图，实现对所有颜色的航标灯的亮度特征提取，以进一步提取它们的灯闪周期。

S21、构建灯闪网络：如图4所示，灯闪网络包括视频帧输入层、注意力机制层、视频帧特征提取层、LSTM时序学习层；

所述视频帧输入层输入的视频帧维度为[(B,25,1,224,224)]，其中，B表示一次输入网络的数据量batch_size；25表示时间步长，即一段视频切成25段视频帧(在后续测试的时候，可根据视频的情况自行设置切割数量)；1表示图像的通道数；(224,224)表示图像的输入尺寸大小；同时将视频帧输入到混合注意力，对特征向量进行优化计算；

所述注意力机制层的输入为每一个视频帧，也就是图4中的帧K，即维度为[(B,1,224,224)]，注意力机制层不改变特征维度，输出维度同样为[(B,y,z,o]；

所述视频帧特征提取层(MobileNet-v2层)的输入为每一个经过注意力机制层的视频帧，即维度为[(B,1,224,224)]；在原始视频帧特征提取层的基础上，添加了全连接层将输出维度变成[(B,512)]，512表示该层输出神经元个数；放入到时序学习层中进行训练，同时在全连接层之前加入批量归一化(BN)层；

所述LSTM时序学习层连接ResNet152模型，其激活函数设为relu，在最后的预测时间点添加全连接层，使得最后输出的维度为[(B,11)]，11为特征数量，即为视频段相对11个灯闪周期类别所得分数，其中评分最高的即为视频段所对应的类别；

S22、训练灯闪网络：前向传播和反向传递；前向传播目的给出模型的输出，反向传播用来更新网络的权重。具体的，前向传播在得到一个预测的结果后，需要和真实标签值进行损失计算，在反向传播的过程中，通过计算的损失值对参数进行更新，对于损失函数，采用的是交叉熵，其计算公式如下所示：

其中，p是真实值，采用one-hot形式；q是预测值；通过训练，直到得到稳定的小的损失值，当最后的损失值趋于稳定，即得到了拟合效果最好的权重，将其作为最终的预测模型。如图5所示，显示了灯闪网络训练过程的损失函数和准确率曲线。

S31、构建颜色网络：如图6所示，颜色网络包括视频帧输入层、注意力机制层、视频帧特征提取层；

所述视频帧输入层输入的视频帧维度为[(B,224,224,3)]，(224,224,3)表示三通道尺寸为224*224的图像；

所述注意力机制层输入的视频帧维度为[(B,224,224,3)]，对特征向量进行优化计算，输出维度为[(B,224,224,3)]的特征图，将计算好的特征向量送入视频帧特征提取层进行计算；

所述视频帧特征提取层的输入为每一个经过注意力机制层的视频帧，输出一个维度为(B，5)的向量，其中，5为最终输出相对于5个类别的5个概率值，概率值最大的即为最终的颜色分类；

S32、训练颜色网络：前向传播和反向传递；具体的训练过程与灯闪网络的训练过程相同。即前向传播在得到一个预测的结果后，需要和真实标签值进行损失计算，在反向传播的过程中，通过计算的损失值对参数进行更新，对于损失函数，采用的是交叉熵，其计算公式如下所示：

其中，p是真实值，采用one-hot形式；q是预测值；通过训练，直到得到稳定的小的损失值，当最后的损失值趋于稳定，即得到了拟合效果最好的权重，将其作为最终的预测模型。如图7所示，显示了颜色网络训练过程的损失函数和准确率曲线。

灯闪周期识别结果：对于灯闪网络，最后网络的预测输出为一个(1，11)的向量，其中的元素分别代表此视频段对应于11个类别的标签所计算的得分。得分最高所在的索引，即为此视频段的预测结果，预测结果如表2所示。各标签对应的索引值为：5S单闪-0；顿光-1；间歇闪-2；定光-3；快闪-4；莫尔斯D-5；莫尔斯P-6；莫尔斯X-7；双闪-8；三闪-9；单闪-10。

表2灯闪周期预测结果

如表2所示，“视频段1”的模型输出结果为向量[5.8022,-5.3931,-10.0166,-7.5773,-10.8110,-4.0312,-5.3725,-8.9399,-1.5886,-1.9100]，从模型对于“视频段1”的输出可以看到，索引为0的得分最高，即对于“视频段1”的预测类别为0，即为5S单闪。记为标签[5S单闪]。最终，灯质时序分类的结果准确率为0.98。

颜色识别结果：对于颜色网络，每一次会训练出每一个视频帧的分类类别，即[无色，绿色，红色，白色，黄色]五个类别，对于一个视频段每一次会生成25个视频帧(在测试推理时可根据情况自行切割数量)，因此会生成一个由颜色标签组成的序列，如：[红色，无色，红色，无色，红色，无色，无色…]，统计其中所对应的颜色数量，例如：红色为3次，无色为4次，则可判断其为单色灯质序列，且颜色为红色，并记为标签[单色，红色]。最终，颜色识别的分类结果准确率为100％。

航标灯质识别结果：在得到了灯闪周期时序标签和颜色分类标签后，根据颜色和时序的相关性进行标签匹配，最终可以得到对应的航标灯质视频的分类结果。即：[单色，红色，5s单闪]。经过模型融合后的航标灯质识别模型，准确率为0.98。

优选地，本实施例中，在灯闪网络和颜色网络中，均采用了注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域。比如对于水面上的航标灯，人类的注意力会追随着灯，水面的信息在视觉系统中，就成为了一个背景信息，如图8所示。在本方案中，采用了混合与注意力机制，意在让模型能够忽略无关信息而关注重点信息，以提高模型的识别准确性。注意力模型的结构如图9所示。混合注意力模型对输入特征图沿着通道和空间两个维度依次推断出注意力权重，然后与原特征图相乘来对特征进行自适应调整。

通道注意力结构如图10所示，特征的每一个通道都代表着一个专门的检测器，为了聚集空间信息，首先平均池化和最大化池化来聚合特征映射的空间信息，生成两个不同空间信息特征向量(F1，F2)。然后送到一个共享网络中(即含有一个隐含层的多层感知机)，分别得到对应的输出特征向量(F1，F2)，然后使用逐元素求和合并输出特征向量。

空间注意力结构如图11所示：与通道注意力不同的是，空间注意力关注的重点是特征的空间信息，为了计算空间注意力，首先在通道轴上使用串联方式应用平均池化和最大池化运算，并将他们连接起来生成一个特征描述符。然后通过一个卷积层连接和卷积混合，产生二维的空间注意图。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于深度学习的航标灯质智能识别方法，其特征在于，包括如下步骤：

S1、采集视频数据，并对视频数据进行预处理；

2.根据权利要求1所述的基于深度学习的航标灯质智能识别方法，其特征在于，所述步骤S1具体为：

3.根据权利要求1所述的基于深度学习的航标灯质智能识别方法，其特征在于，所述步骤S2具体为：

4.根据权利要求1所述的基于深度学习的航标灯质智能识别方法，其特征在于，所述步骤S3具体为：