CN110223347A

CN110223347A - 图像中目标物体的定位方法、电子设备和存储介质

Info

Publication number: CN110223347A
Application number: CN201910500076.3A
Authority: CN
Inventors: 张子頔
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-09-10

Abstract

本申请涉及一种图像中目标物体的定位方法，包括：输入图像序列，图像序列包括至少两帧图像；采用第一神经网络，分别对每帧图像进行处理，得到每帧图像的置信度图像，置信度图像中每个像素用不同标识区分不同物体；采用第二神经网络，对图像序列进行光流计算，得到光流矢量图；根据所述置信度图像和光流矢量图进行聚类，得到聚类结果；根据所述聚类结果和相似度匹配标注出图像序列中的目标物体。通过将FCNN(全卷积神经网络，Fully Convolutional Neural Network)和PWC‑Net光流估计算法作为基础结构，将二者结合并重新训练；首先将视频序列输入至FCNN，通过FCNN中已经训练好的模型，识别出物体并将物体与背景进行分割。同时，使用PWC‑Net光流估计算法进行光流计算，通过对两者结果进行统计标注最终的目标物体。

Description

图像中目标物体的定位方法、电子设备和存储介质

技术领域

本申请涉及图像处理领域，尤其涉及一种图像中目标物体的定位方法、电子设备和存储介质。

背景技术

现阶段，在语义分割(semantic segmentation)领域，识别准确率最好的是DeepLabv3+JFT模型，其平均精度达到了89.0％，但是，此网络只能达到8FPS(每秒传输帧数，Frames Per Second)，并且无法识别神经网络从未训练的物体，如果训练的网络没有训练记忆到目标物体，此网络将忽视目标。

在光流领域，PWC-Net光流估计算法成为此领域的经典结构。其错误率为9.6％，并且，此网络在显卡型号为Titan X(Pascal)上的运算速度为每帧0.03s。但是，此网络仅能得到物体两帧之间相对变化较小的光流图像，如果物体运动速度快或者有遮挡物，算法将会失效，为了达到更高的精度，本发明提供一种改进方案。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种图像中目标物体的定位方法、电子设备和存储介质。

根据本申请实施例的第一方面，提供一种图像中目标物体的定位方法，包括：输入图像序列，所述图像序列包括至少两帧图像；

采用第一神经网络，分别对每帧图像进行处理，得到每帧图像的置信度图像，所述置信度图像中每个像素用不同标识区分不同物体；

采用第二神经网络，对所述图像序列进行光流计算，得到光流矢量图；

根据所述置信度图像和所述光流矢量图进行聚类，得到聚类结果；

根据所述聚类结果和相似度匹配标注出所述图像序列中的目标物体。

可选的，所述输入图像序列，包括：

接收无人机的摄像头采集的图像序列。

可选的，所述第一神经网络为FCNN。

可选的，所述FCNN包括：

卷积特征提取层，用于分别提取每帧图像的卷积特征，得到卷积特征图像；

反卷积层，用于对所述卷积特征图像进行反卷积处理，得到每帧图像的置信度图像。

可选的，所述卷积特征提取层包括：

2D卷积层、激活层、2D池化层。

可选的，所述反卷积层包括：

2D卷积层、激活层、Dropout层、2D反卷积层。

可选的，所述第二神经网络为PWC网络。

可选的，所述PWC网络包括：

特征提取金字塔层组、特征关联层、相似度匹配层、光流估计层、网络上下文精炼层。

根据本申请实施例的第二方面，提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行如上述任一项所述的图像中目标物体的定位方法。

根据本申请实施例的第三方面，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如上述任一项所述的图像中目标物体的定位方法。

本申请提供的技术方案可以包括以下有益效果：

通过将FCNN(全卷积神经网络，Fully Convolutional Neural Network，)和PWC-Net光流估计算法作为基础结构，将二者结合并重新训练；首先将视频序列输入至FCNN，通过FCNN中已经训练好的模型，识别出物体并将物体与背景进行分割。同时，使用PWC-Net光流估计算法进行光流计算，并通过光流方向图将相对移动或相对静止目标识别出，通过对光流结果进行语义分割或聚类分割，得到相对移动物体和相对静止物体，通过对两者结果进行统计标注最终的目标物体。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的图像中目标物体的定位方法的流程图；

图2是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是本申请一个实施例提供的图像中目标物体的定位方法的流程图。如图1所示，该方法包括以下步骤：

S11：输入图像序列，所述图像序列包括至少两帧图像；

需要说明的是，图像序列是指在不同时间、不同方位对目标依序连续获取的系列图像。

S12：采用第一神经网络，分别对每帧图像进行处理，得到每帧图像的置信度图像，所述置信度图像中每个像素用不同标识区分不同物体；

S13：采用第二神经网络，对所述图像序列进行光流计算，得到光流矢量图；

需要说明的是，光流法是关于视域中的物体运动检测中的概念。关于光流法对运动目标的检测：给图像中的每个像素点赋予一个速度矢量，这样就形成了一个运动矢量场。根据各个像素点的速度矢量特征，可以对图像进行动态分析。如果图像中没有运动目标，则光流矢量在整个图像区域是连续变化的，此处如果没有目标移动的化失量是0。当图像中有目标物体时，目标和背景存在着相对运动。目标物体所形成的速度矢量必然和背景的速度矢量有所不同，如此便可以计算出目标物体的位置。但是，利用光流法进行目标物体检测时，无法检测移动距离特别大的物体。

S14：根据所述置信度图像和所述光流矢量图进行聚类，得到聚类结果；

需要说明的是，聚类分析又称群分析，它是研究样品或指标分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法。聚类分析是由若干模式组成的，通常，模式是一个度量的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。上述聚类过程可以采用K-means算法、mean shift算法或者其他聚类算法。

S15：根据所述聚类结果和相似度匹配标注出所述图像序列中的目标物体。

需要说明的是，上述目标物体可以是运动物体，也可以是静止物体。

本实施例中，通过将FCNN(全卷积神经网络，Fully Convolutional NeuralNetwork)和PWC-Net光流估计算法作为基础结构，将二者结合并重新训练；首先将视频序列输入至FCNN，通过FCNN中已经训练好的模型，识别出物体并将物体与背景进行分割。同时，使用PWC-Net光流估计算法进行光流计算，并通过光流方向图将相对移动或相对静止目标识别出，通过对光流结果进行语义分割或聚类分割，得到相对移动物体和相对静止物体，通过对两者结果进行统计标注最终的目标物体。

一些实施例中，所述输入图像序列，包括：

接收无人机的摄像头采集的图像序列。

需要说明的是，图像序列在不同时间、不同方位对目标依序连续获取的系列图像。图像序列分析利用计算机视觉技术从图像序列中检测运动及目标物体并对其进行运动分析、跟踪或识别。图像序列分析主要是针对序列图像进行分析处理，根据分析与处理的目的不同，它通常涉及到运动目标检测、运动参数估计、运动景物分割、目标跟踪以及识别几部分内容。其中，运动检测、运动参数估计、目标分割、目标跟踪属于视觉中的低级和中级处理部分，而目标识别则属于高级处理。当然，它们之间也可能存在交叉。

本实施例中，通过采集无人机摄像头采集的图像序列，可辅助无人机追踪标注物体。

一些实施例中，所述第一神经网络为FCNN。

需要说明的是，FCNN是CNN(卷积神经网络，Convolutional Neural Network)结构上的改进，它比CNN能获得更高的识别率，并且得到像素级标注，此处FCNN已经不再是传统意义上的CNN，功能有所变化，但在训练过程中仍需要大量的带标签训练样本。此外，第一神经网络还可以使用Mask-RCNN网络。

本实施例中，通过采用全卷积神经网络，可以提高目标图像的识别率。

一些实施例中，所述FCNN包括：

需要说明的是，卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。一般的，特征提取层中，每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来。

本实施例中，全卷积神经网络不仅包括卷积特征提取层，并且新加入了反卷积层，反卷积层学习上层卷积特征提取层提取的特征之间的关系，并通过双线性插值将低维度抽象关系映射到对应的高维度空间。

一些实施例中，所述卷积特征提取层包括：

2D卷积层、激活层、2D池化层。

需要说明的是，上述2D卷积层用于接收和输出通道矩阵，上述激活层采用RELU(线性整流函数，Rectified Linear Unit)作为激活层函数。

本实施例中，卷积特征提取层包括多个2D卷积层、激活层以及2D池化层，使网络在识别时对输入样本有较高的鲁棒性。

一些实施例中，所述反卷积层包括：

2D卷积层、激活层、Dropout层、2D反卷积层。

需要说明的是，Dropout是指在深度学习网络的训练过程中，按照一定的概率将一部分神经网络单元暂时从网络中丢弃，相当于从原始的网络中找到一个更瘦的网络。2D反卷积层用于将卷积层产生的特征图映射成一个固定长度的特征向量。卷积层的前向传播过程就是反卷积层的反向传播过程，卷积层的反向传播过程就是反卷积层的前向传播过程。

本实施例中，反卷积层包括多个2D卷积层、激活层、Dropout层和2D反卷积层，统计不变性中的平移不变性，起到降维的作用。

一些实施例中，所述第二神经网络为PWC网络。

进一步的，所述PWC网络包括：

需要说明的是，其中，为关联跟踪图像中物体：可使用图像关键区域特征值匹配或相似度匹配进行关联，算法包括，SSIM(结构相似性，structural similarity index)、像素直方图、Ransac、SIFT(尺度不变特征变换，Scale-invariant feature transform)、分类识别卷积神经网络，为优化空间可使用字词树、特征空间划分树等。

本实施例中，使用PWC网络光流估计算法进行光流计算，并通过光流方向图将移动目标识别出，通过对光流结果进行语义分割，得到移动物体和相对静止物体，通过对两者结果进行统计标注最终的目标物体。

图2是本申请一个实施例提供的电子设备的结构示意图。如图2所示，该电子设备包括：处理器21；

用于存储处理器可执行指令的存储器22；

其中，所述处理器21被配置为：执行如上述任一实施例所述的图像中目标物体的定位方法。

需要说明的是，上述处理器和存储器均采用现有技术。

本申请还提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如上述任一实施例所述的图像中目标物体的定位方法。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像中目标物体的定位方法，其特征在于，包括：

输入图像序列，所述图像序列包括至少两帧图像；

2.根据权利要求1所述的定位方法，其特征在于，所述输入图像序列，包括：

接收无人机的摄像头采集的图像序列。

3.根据权利要求1所述的定位方法，其特征在于，所述第一神经网络为FCNN。

4.根据权利要求3所述的定位方法，其特征在于，所述FCNN包括：

5.根据权利要求4所述的定位方法，其特征在于，所述卷积特征提取层包括：

2D卷积层、激活层、2D池化层。

6.根据权利要求4所述的定位方法，其特征在于，所述反卷积层包括：

2D卷积层、激活层、Dropout层、2D反卷积层。

7.根据权利要求1所述的定位方法，其特征在于，所述第二神经网络为PWC网络。

8.根据权利要求7所述的定位方法，其特征在于，所述PWC网络包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行如权利要求1-8任一项所述的图像中目标物体的定位方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-8任一项所述的图像中目标物体的定位方法。