CN110363796A

CN110363796A - 基于轻量卷积神经网络结构的前视声纳运动目标跟踪方法

Info

Publication number: CN110363796A
Application number: CN201810510986.5A
Authority: CN
Inventors: 叶秀芬; 孙悦; 李传龙; 刘文智; 马兴龙; 赵新华; 贾云鹏
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2019-10-22

Abstract

本发明提供的是一种基于轻量卷积神经网络结构的前视声纳运动目标跟踪方法。(1)检测出目标首次出现时的那一帧图像的所在位置，经过去均值、L2正则化的预处理；(2)采用无需训练的两层卷积神经网络结构，对图像进行滑动窗口采样，采用k‑means聚类的方法从图像块中聚类出滤波器作为卷积核，对目标图像周围的区域随机采样出m个样本，对每一个样本用滑动窗口的方法采样L个图像块；(3)采用稀疏表达的方式表示特征；(4)通过粒子滤波的跟踪框架进行跟踪。本发明易于使用、能很好地克服前视声纳图像中严重的噪声干扰、对目标的跟踪效果更好。该方法很大程度上提高了系统的处理帧率，使得跟踪过程的实时性有了很大保障。

Description

基于轻量卷积神经网络结构的前视声纳运动目标跟踪方法

技术领域

本发明涉及的是一种运动目标跟踪方法，具体地说是一种前视声纳运动目标跟踪方法。

背景技术

机器学习(Machine Learning，简称ML)是一门正在被越来越多的人所熟知并且高速发展的技术，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

深度学习(Deep Learning，简称DL)是机器学习中一种基于对数据进行表征学习的方法。深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

卷积神经网络(Convolutional neural networks，简称CNN)就是一种深度的监督学习下的机器学习模型。

深度学习技术在目标跟踪方面的应用具有十分重要的意义。在大数据背景下，利用深度学习训练网络模型，得到的卷积特征输出表达能力更强。在目标跟踪上，初期的应用方式是把网络学习到的特征，直接应用到相关的目标跟踪框架里面，从而得到更好的跟踪结果，本质上卷积输出得到的特征表达，更优于方向梯度直方图特征，这也是深度学习的优势之一，但同时也带来了计算量的增加，深度学习的另一大优势是端到端的输出。

在前视声纳目标跟踪中，用到的基本单元是卷积神经网络(简称CNN)。卷积神经网络最初是为解决图像识别等问题设计的，卷积神经网络不需要将特征提取和分类训练两个过程分开，它在训练时就自动提取了最有效的特征，并且所提取的特征使跟踪效果达到更好。CNN作为一个深度学习架构被提出的最初诉求，是降低对图像数据预处理的要求，以及避免复杂的特征提取过程。CNN可以直接使用图像的原始像素作为输入，减少了大量重复繁琐的数据预处理工作。CNN的最大特点是在于卷积的权值共享结构，可以大幅减少神经网络参数的数量，防止过拟合的同时又降低了神经网络模型的复杂度，有着很强的泛化性。

一般的卷积神经网络由多个卷积层构成，每个卷积层中通常会进行如下几个操作：首先，图像通过多个不同的卷积核滤波，并添加偏置，提取出局部特征，每一个卷积核会映射出一个新的2D图像；将前面卷积核的滤波输出结果，进行非线性的激活函数处理。常见的激活函数有Relu函数和Sigmoid函数等；对激活函数的结果再进行池化操作，保留最显著的特征，提升模型的畸变容忍能力。

在卷积神经网络中，对图像用一个卷积核进行卷积运算，实际上是一个滤波的过程。卷积的基本数学表示：

其中f(x,y)是一个图像，f(x,y)是图像上面x行y列上点的灰度值。而w(x,y)代表卷积核，a和b定义了卷积核即w(x,y)的大小。

根据深度学习关于人的视觉分层的理论，人的视觉对目标的辨识是分层的，低层会提取一些边缘特征，然后高一些层次进行形状或目标的认知，更高层的会分析一些运动和行为。也就是说高层的特征是低层特征的组合，从低层到高层的特征表示越来越抽象，越来越能表现语义或者意图。而抽象层面越高，存在的可能猜测就越少，就越利于分类。而深度学习就是通过这种分层的自动特征提取来达到目标分类，先构建一些基本的特征层，然后用这些基础特征去构建更高层的抽象，更精准的分类特征。

发明内容

本发明的目的在于提供一种能够提高目标跟踪阶段的实时性，提升目标跟踪的鲁棒性的基于轻量卷积神经网络结构的前视声纳运动目标跟踪方法。

本发明的目的是这样实现的：

(1)检测出目标首次出现时的那一帧图像的所在位置，经过去均值、L2正则化的预处理以去除局部亮度差异和对比度的影响；

(2)采用无需训练的两层卷积神经网络结构，对步骤(1)得到的图像进行滑动窗口采样，然后采用k-means聚类的方法从图像块中聚类出滤波器作为卷积核，对目标图像周围的区域随机采样出m个样本，对每一个样本用滑动窗口的方法采样L个图像块；

(3)采用稀疏表达的方式表示特征；

(4)通过粒子滤波的跟踪框架进行跟踪。

滤波器的生成方式采用均值池化的方式。

传统的前视声纳运动目标跟踪采用的一般都是基于滤波和特征融合的方法。由于前视声纳图像本身具有噪声干扰十分严重的特点，基于普通滤波和特征融合的原理很难克服这种干扰，跟踪效果很差。这就迫切需要提出一种新的目标跟踪算法，在前视声纳图像受到严重噪声干扰以及目标变形严重的情况下依然能保持很好的鲁棒性和实时性。本发明提供了一种基于轻量卷积神经网络结构的高效前视声纳运动目标跟踪方法。

本发明的方法主要包括如下步骤：

(1)首先，根据目标特点用传统方法检测出目标所在位置(groundtruth)，经过去均值、L2正则化的预处理以去除局部亮度差异和对比度的影响；

(2)采用无需训练的两层卷积神经网络结构，根据(1)对图像进行滑动窗口采样，然后采用k-means聚类的方法从图像块中聚类出适当的滤波器作为卷积核，对目标周围的区域随机采样出m个样本，对每一个样本用滑动窗口的方法采样L个图像块，其滤波器的生成方式采用了均值池化的方式；

(3)采用稀疏表达的方式表示特征，增加对目标表观特征的鲁棒性；

(4)最后通过粒子滤波的跟踪框架进行跟踪。

本发明的步骤(1)、(2)中预处理的方法和无需训练的轻量级网络结构，很好地消除了局部亮度的差异和对比度的影响，使得在目标跟踪阶段实时性大幅提高。

本发明的步骤(3)中自适应阈值(soft shrinkage)方法用来实现对全局表达的去噪，形成一个稀疏的表达。这个表达的更新采用的是简单有效的在线策略，能够有效地适应目标外观的变化，增加了对目标表观特征的鲁棒性，使得目标跟踪的鲁棒性大大提升。

本发明与现有技术相比的优势在于：该发明采用了轻量级的卷积神经网络，也就是整个架构只包含两层卷积神经网络，且与标准的卷积神经网络结构相比该轻量级结构去掉了池化层，这样做很大程度地提高了前视声纳目标跟踪系统的实时性。采用局部平均和二次抽样来解决失真问题，利用数据中的局部结构和内部几何布局信息进行视觉跟踪，这样最终呈现的全局图像是基于低级属性的但同时也是接近图像级信息的高级特征构建的，这样做使系统的鲁棒性显著提升，同时整体算法更加简单有效。

附图说明

图1是本发明方法的基本流程图；

图2是本发明方法整个跟踪模型的框架；

图3是用于获取第一帧图像中目标位置信息工具示意图；

图4a-图4f是前视声纳中变形严重的运动目标跟踪效果图；

图5a-图5e是复杂背景下前视声纳运动目标跟踪效果图。

具体实施方式

下面举例对本发明做更详细的描述。

结合图1，本发明的具体步骤如下：

(1)首先在Visual Studio平台上编写一个标定坐标程序，用来获取目标首次出现的那一帧图像上目标的位置信息，如图3所示。

(2)将输入图像进行灰度化的预处理并固定成n*n尺寸大小。然后进行密集重采样得到很多图像块y＝{Y₁....Y_l}，尺寸为w*w大小，经过卷积层的处理后，总的图像块的个数就是(n-w+1)*(n-w+1)，所有的图像块都通过去均值处理和L2正则化来消除光照和对比度的影响。

选取原则是：输入图像的尺寸是n*n，卷积核的尺寸是w*w，那么输入图像在经过卷积层处理之后输出的尺寸是(n-w+1)*(n-w+1)。

(3)采用k means聚类的方法从y中选出一组图像块F作为卷积核模板。给定第i个卷积核模板，于是对输入图像I的相应特征图就可以表示为：尽管目标的外观由于光照变化和尺度变化而发生了明显的改变，但是经过卷积滤波之后的输出，也就是特征图不仅能够保留目标的局部结构，而且还能维持目标的全局几何布局几乎不变。同时由于目标周围的上下文背景可以为区分目标和背景提供很多有用的信息，因此同样需要对背景进行采样并且进行k-means聚类，获得一组模板：然后利用平均池化获得一个平均背景最后与输入图像I做卷积之后，可以得到：

(4)由于传统的CNN方法具有平移不变性，然而这对于目标跟踪会产生位置混淆的问题，于是本发明采用了轻量级的卷积神经网络，也就是整个架构只包含两层卷积神经网络，且与标准的卷积神经网络结构相比该轻量级结构去掉了池化层，提取到的高维特征图可以在位置混淆的情况下保证跟踪的准确性。通过将不同尺度上的目标处理成一个固定的尺度，目标上的每一个有用的部分在处理后的图像上变化不是很明显，因此复杂高维特征可以保留不同尺度上的有用部分的几何布局。用一个3维的张量C∈R^{(n-w+1)×(n-w+1)×d}来表示卷积层获得的d个特征图的集合，同时为了提高鲁棒性，我们可以通过稀疏编码的方法利用一个稀疏的矢量c(vec(C))来近似，实现：然后求解这个模型的解：这样近似之后系统的鲁棒性有了显著提升。

(5)将(1)中得到的位置信息输入到跟踪框架中运行程序即可实现对前视声纳运动目标的跟踪。

通过说明书附图可以看出，本发明对于前视声纳运动目标的跟踪效果很好。

Claims

1.一种基于轻量卷积神经网络结构的前视声纳运动目标跟踪方法，其特征是：

(3)采用稀疏表达的方式表示特征；

(4)通过粒子滤波的跟踪框架进行跟踪。

2.根据权利要求1所述的基于轻量卷积神经网络结构的前视声纳运动目标跟踪方法，其特征是：滤波器的生成方式采用均值池化的方式。