CN108256567A

CN108256567A - 一种基于深度学习的目标识别方法及系统

Info

Publication number: CN108256567A
Application number: CN201810029035.6A
Authority: CN
Inventors: 王永卫; 刘胜旺; 舒羿宁
Original assignee: Global Big Data Technology Co ltd
Current assignee: Global Big Data Technology Co ltd
Priority date: 2018-01-12
Filing date: 2018-01-12
Publication date: 2018-07-06
Anticipated expiration: 2038-01-12
Also published as: CN108256567B

Abstract

本发明提供了一种基于深度学习的目标识别方法，用于解决传统算法仅能识别运动物体，且算法复杂，性能低下的问题。该方法包括：步骤A：获取输入图像；步骤B：对步骤A获取的图像进行若干次卷积层处理和池化层处理，形成全连接层；步骤C：基于单次检测器SSD架构，对步骤B的处理结果进行分类识别，输出分类结果。

Description

一种基于深度学习的目标识别方法及系统

技术领域

本发明涉及图像识别领域，尤其涉及一种基于深度学习的目标识别方法及系统。

背景技术

图像是对客观事物形象、生动的描述，是直观而具体的信息表达形式，是人类最重要的信息载体。特别是在今天的信息社会，随着网络、通信和电子技术的快速发展和人民物质生活水平的提高，以图像为基础的视频以其直观、方便和内容丰富等特点，日益受到人民的青睐。然而在很多应用领域，图像识别可以代替人的这种劳动，把人从繁重的视觉劳动中解放出来。因此用计算机模拟人眼进行各种繁重的视觉活动就成为一种迫切的需要。在这种条件下，有关计算机视觉的各种研究和应用如雨后春笋般发展起来。一些研究机构已经在这方面取得了比较大的成果，比如中科院长春光学精密机械与物理研究所在大型光电经纬仪的研制方面处于国内领先地位。成都光电研究所、上海技物所、北京理工大学和华中科技大学在基于DSP的实时目标测量与识别、精确制导等方面也具有很强的实力。中国科学院研究生院工程教育学院研究的“复杂恶劣环境下多动态目标检测识别追踪技术”取得了很好的研究成果，他研究的SmartMTI的多目标动态检测、识别、跟踪算法具有极强的抗噪声、抗遮挡和抗抖动的性能，对于低对比度目标、单像素目标和复杂恶劣环境下的有噪目标有很强的检测能力。浙江大学构筑了用在智能移动机器人的实时视觉导航系统中的双DSP实时图像处理系统。

在很多领域中，人们往往只对视频中的目标感兴趣。在这些应用领域中，如何利用计算机把目标从有干扰的背景中检测出来并对其进行识别、跟踪、管理等处理是需要研究的关键技术。

具体的现有技术中存在的常见方法及优缺点如下：

(1)、背景差分法

在检测运动目标时，如果背景是静止的，利用当前图像与预存的背景图像作差分，再利用阈值来检测运动区域的一种动态目标识别技术。

背景差分算法适用于背景已知的情况，但难点是如何自动获得长久的静态背景模型。

matlab中单纯的背景差分直接是函数imabsdiff(X,Y)就可以。

优点：部署比较简单。

缺点：使用条件太苛刻，在实际应用中也不会有很多场景适合这种算法。

(2)、帧差分法

利用视频序列中连续的两帧或几帧图像的差来进行目标检测和提取。在运动的检测过程中，该方法利用时间信息，通过比较图像中若干连续帧获得对应像素点的灰度差值，如果均大于一定的阈值T2，则可以判断该位置存在运动的目标。

较适合于动态变化场景。

优点：适用场景比较多，不仅能检测目标，还能检测目标位置、颜色等信息。

缺点：时间要求严格，准确率会随着时间变化，不稳定，识别时间久，效率低下。

(3)、光流场法

利用相邻两帧中对应像素的灰度保持原理来评估二维图像的变化。能够较好的从背景中检测到相关前景目标，甚至是运动屋里中的部分运动目标，适用于摄像机运动过程中相对运动目标的检测。

开口问题、光流场约束方程的解的不唯一性问题。不能正确的表示实际的运动场。

以上技术是传统目标检测方法，仅能对运动目标进行检测，应用场景受到了局限，而且算法复杂度高，性能较低。

发明内容

本发明提供了一种基于深度学习的目标识别方法及系统，区别于传统的目标分类、检测和跟踪，不需要在根据不同场景和事物研究新的算法，而是计算机系统经过对现实世界事物的提取、认知、感知、学习和自我训练后，达到精确识别的能力。

本发明提供的技术方案包括：

一种基于深度学习的目标识别方法，包括：

步骤A：获取输入图像；

步骤B：对步骤A获取的图像进行若干次卷积层处理和池化层处理，形成全连接层；

步骤C：基于单次检测器SSD架构，对步骤B的处理结果进行分类识别，输出分类结果。

较佳地，步骤B具体包括：

步骤B1：提取图像的基础特征，根据基础特征进一步提取图像的复杂特征；

步骤B2：根据图像特征提取结果进行特征的权重学习；

步骤B3：根据权重学习的结果对目标进行预测。

较佳地，步骤B1具体包括：

B11：确定图像的基本特征；

B12：根据图像的基本特征，提取图像的简单线条；

B13：根据图像的简单线条，提取图像的简单形状；

B14：根据图像的简单形状，提取图像的复杂形状。

较佳地，步骤C中的分类识别，包括：

实例层次、类型层次和语义层次三个层次的分类过程。

较佳地，步骤C具体包括：

C1：寻找能准确包含待识别目标的窗口；

C2：将所述窗口与训练结果进行比对，计算出目标可能属于的类型；

C3：将所述窗口的子窗口与训练结果进行比对，计算出每一类型的命中概率。

较佳地，步骤C1具体包括：

C11：获取待识别目标的大致位置，估算待识别目标的大小；

C12：根据所述待识别目标的大致位置和所述待识别目标的大小，生成若干窗口，每个窗口包括若干子窗口；

C13：将各个子窗口与待识别目标的边缘特征作对比、预测和补偿处理，保留符合边缘特征的子窗口；

C14：将完全包含被保留的子窗口的最小窗口，作为目标识别所采用的窗口。

一种基于深度学习的目标识别系统，包括：探测器、颤动处理系统、信息处理系统、显示器；

所述探测器，用于使物体成像并保存成图片或视频；

所述颤动处理系统，用于消除环境对探测器的成像稳定性的影响；

所述信息处理系统，用于获取输入图像；对获取的图像进行若干次卷积层处理和池化层处理，形成全连接层；基于单次检测器SSD架构，对步骤B的处理结果进行分类识别，输出分类结果。

所述显示器，用于将所述分类结果呈现给用户。

较佳地，所述信息处理系统用于对获取的图像进行若干次卷积层处理和池化层处理，形成全连接层时，具体用于：

提取图像的基础特征，根据基础特征进一步提取图像的复杂特征；

根据图像特征提取结果进行特征的权重学习；

根据权重学习的结果对目标进行预测。

较佳地，所述信息处理系统用于提取图像的基础特征，根据基础特征进一步提取图像的复杂特征时，具体用于：

确定图像的基本特征；

根据图像的基本特征，提取图像的简单线条；

根据图像的简单线条，提取图像的简单形状；

根据图像的简单形状，提取图像的复杂形状。

较佳地，所述信息处理系统用于分类识别时，具体用于：

实施实例层次、类型层次和语义层次三个层次的分类过程。

较佳地，所述信息处理系统用于基于单次检测器SSD架构，对步骤B的处理结果进行分类识别，输出分类结果时，具体用于：

寻找能准确包含待识别目标的窗口；

将所述窗口与训练结果进行比对，计算出目标可能属于的类型；

将所述窗口的子窗口与训练结果进行比对，计算出每一类型的命中概率。

较佳地，所述信息处理系统用于寻找能准确包含待识别目标的窗口时，具体用于：

获取待识别目标的大致位置，估算待识别目标的大小；

根据所述待识别目标的大致位置和所述待识别目标的大小，生成若干窗口，每个窗口包括若干子窗口；

将各个子窗口与待识别目标的边缘特征作对比、预测和补偿处理，保留符合边缘特征的子窗口；

将完全包含被保留的子窗口的最小窗口，作为目标识别所采用的窗口。

本发明达到了如下技术效果：

1)解决机器自动识别物体问题，使人从繁重的图像和视频处理任务中解放出来，并且不局限于对运动物体的识别；

2)解决数据表达和特征提取如何实现的问题，使深度学习算法的性能得到极大提升，并且自动的将简单的特征组合成复杂的特征，使用这些特征解决问题。

3)解决传统深度学习识别率低、占用资源高和效率低的问题。

附图说明

图1是本发明提供的一种基于深度学习的目标识别方法的流程示意图；

图2是本发明提供的一种基于深度学习的目标识别方法的技术框架图；

图3是本发明提供的一种基于深度学习的目标识别方法的又一流程示意图；

图4是本发明提供的一种基于深度学习的目标识别方法的分类原理示意图；

图5是本发明提供的一种基于深度学习的目标识别方法的实验图；

图6是本发明提供的一种基于深度学习的目标识别系统的架构图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施方式的限制。

请参考图1所示，图1是本发明提供的一种基于深度学习的目标识别方法的流程示意图，包括：

步骤A：获取输入图像；

较佳地，如图2所示，步骤B具体包括：

步骤B2：根据图像特征提取结果进行特征的权重学习；

步骤B3：根据权重学习的结果对目标进行预测。

较佳地，如图2所示，步骤B1具体包括：

B11：确定图像的基本特征；

B12：根据图像的基本特征，提取图像的简单线条；

B13：根据图像的简单线条，提取图像的简单形状；

B14：根据图像的简单形状，提取图像的复杂形状。

较佳地，步骤C中的分类识别，包括：

实例层次、类型层次和语义层次三个层次的分类过程。

较佳地，步骤C具体包括：

C1：寻找能准确包含待识别目标的窗口；

较佳地，步骤C1具体包括：

C11：获取待识别目标的大致位置，估算待识别目标的大小；

下面结合附图，对以上各流程进行详细说明。

图3是本发明提供的深度学习系统的框架图，深度学习是机器学习的一个分支，它除了可以学习特征和任务之间的关联以外，还能自动从简单特征中提取更加复杂的特征。深度学习一层一层的将简单特征逐步转化成更加复杂的特征，从而使得不同类型的图像更加可分，深度学习可以从图像的像素特征中逐渐组合出线条、边、角、简单形状、复杂形状等更加有效的复杂特征。本发明使用深度学习，提取图像中的数据特征，使用这些特征进行训练，生成数据集，进行识别。

输入层：输入层是整个神经网络的输入，在处理图像的卷积神经网络中，它一般代表了一张图片的像素矩阵。三维矩阵就可以代表一张图片，其中三维矩阵的长和宽代表了图像的大小，而三维矩阵的深度就代表了图像的色彩通道(channel)。比如黑白图片的深度为1，而在RGB色彩模式下，图像的深度为3。从输入层开始，卷积神经网络通过不同的神经网络结构将上一层的三维矩阵转化为下一层的三维矩阵，直到最后的全连接层。

卷积层：卷积层是一个卷积神经网络中最为重要的部分。和传统全连接层不同，卷积层中每一个节点的输入只是上一层神经网络的一小块，这个小块常用的大小有3x3或者5x5。卷积层试图将神经网络中的每一小块进行更加深入的分析从而得到抽象度更高的特征。一般来说，通过卷积层处理过的节点矩阵会变得更深。

池化层：池化层神经网络不会改变三维矩阵的深度，但是它可以缩小矩阵的大小。池化操作可以认为是将一张分辨率较高的图片转化为分辨率较低的图片。通过池化层，可以进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中参数的目的。

全连接层：在经过多轮卷积层和池化层的处理后，在卷积神经网络的最后一般是由1到2个全连接层来给出最后的分类结果。经过几轮卷积层和池化层的处理之后，可以认为图像中的信息已经被抽象成了信息含量最高的特征。我们可以将卷积层和池化层看成自动地提取图像特征的过程，在特征提取完成之后，仍需要使用全连接层来完成识别任务。

Softmax层：Softmax主要用于目标的分类识别。

目标分类识别是视觉研究中的基本问题，也是一个非常具有挑战性的问题，本发明将分类识别分为3层次：实例层次、类别层次和语义层次，如图4所示，分别解决分类识别过程中遇到的不同问题。

实例层次：针对单个物体实例而言，通常由于图像采集过程中光照条件、拍摄视角、距离的不同、物体自身的非刚体形变以及其他物体的部分遮挡，使得物体实例的表观特征产生很大的变化，给视觉识别算法带来了极大的困难。

类别层次：1、类内差别大，也即属于同一类的物体表观特征差别比较大，其原因有前面提到的各种实例层次的变化，但这里更强调的是类内不同实例的差别；2、类间模糊性，即不同类的物体实例具有一定的相似性，在实际场景下，物体不可能出现在一个非常干净的背景下，往往相反，背景可能是非常复杂的、对我们感兴趣的物体存在干扰的，这使得识别问题的难度大大增加。

语义层次：识别过程的困难和挑战与图像的视觉语义相关，这个层次的困难往往难以处理，特别是对现在的计算机视觉理论水平而言，一个典型的问题称为多重稳定性。同样的图像，不同的解释，既与人的观察视角、关注点等物理条件有关，也与人的性格、经历等有关，成为视觉识别系统难以处理的部分。

针对以上问题，需要对目标的特征信息进行预处理和补偿，对这些目标的细微处理不仅要建立良好的模型结构，还要有有效的训练方法，本发明构建单次检测器(SingleShot MultiBox Detector,SSD)架构。架构工作原理如图5所示，包括如下内容：

首先，找到目标的大概位置和估算的大小，用3到9个框将目标框住，在这些框中寻找一个最合适的能够完美包含目标的框，寻找的过程即将所有框分成若干份默认框，将默认框与目标的边缘作对比、预测和补偿处理，符合的、相关的就留下，不符合、不相关的就丢掉，最后统计哪一个大框完全包含留下的默认框并且该框尽量小。框住的部分即为待检测的部分。

训练过程：根据需求，要从网络、实地拍摄、视频截图等方式获取大量图片，使用这些图片进行训练、标记，生成训练数据集，或者从一些研究机构下载数据集，然后进行再训练、补充，使该数据集识别普通图片中的目标准确率达99％以上。

识别过程：将大框中的目标与数据集进行识别，计算出所有目标类型的可能性，再将大框中每个默认框与数据集中目标的细节进行对比，并计算出目标类型可能性的百分比，如果一个目标有两个可能性百分比最高且相近，要进一步检测识别这幅图片中的其他目标和背景(背景即为出目标之外的部分)做参考，根据参考确定目标类型。

具体实施过程如下：首先定位到目标的大体坐标和长宽比例，预测某个位置使用的是这个位置周围的特征，使用3*3的滑窗提取每个位置的特征，然后将这个特征回归得到目标的坐标信息和类别信息，利用多层的特征进行计算，并且要求能够自然地达到多尺度。每张图片要根据长宽划分成m*n份，每一份可以视为一个默认框，在训练过程中，首先需要将目标信息进行预处理，将其对应到相应的默认框上，根据默认框和目标的边界重叠相似度来寻找对应的默认框。最后，生成目标函数，找到对应的默认框和该部分的边缘相似度系数后，对每一部分进行预测和补偿处理。

参见图6，本发明提供了一种基于深度学习的目标识别系统，包括：探测器、颤动处理系统、信息处理系统、显示器；

所述探测器，用于使物体成像并保存成图片或视频；

所述信息处理系统，用于获取输入图像；对获取的图像进行若干次卷积层处理和池化层处理，形成全连接层；将处理结果输入分类函数，输出分类结果。

所述显示器，用于将所述分类结果呈现给用户。

根据图像特征提取结果进行特征的权重学习；

根据权重学习的结果对目标进行预测。

确定图像的基本特征；

根据图像的基本特征，提取图像的简单线条；

根据图像的简单线条，提取图像的简单形状；

根据图像的简单形状，提取图像的复杂形状。

较佳地，所述信息处理系统用于分类识别时，具体用于：

实施实例层次、类型层次和语义层次三个层次的分类过程。

寻找能准确包含待识别目标的窗口；

获取待识别目标的大致位置，估算待识别目标的大小；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度学习的目标识别方法，其特征在于，包括：

步骤A：获取输入图像；

2.如权利要求1所述的方法，其特征在于，步骤B具体包括：

步骤B2：根据图像特征提取结果进行特征的权重学习；

步骤B3：根据权重学习的结果对目标进行预测。

3.如权利要求2所述的方法，其特征在于，步骤B1具体包括：

B11：确定图像的基本特征；

B12：根据图像的基本特征，提取图像的简单线条；

B13：根据图像的简单线条，提取图像的简单形状；

B14：根据图像的简单形状，提取图像的复杂形状。

4.如权利要求1所述的方法，其特征在于，步骤C中的分类识别，包括：

实例层次、类型层次和语义层次三个层次的分类过程。

5.如权利要求1所述的方法，其特征在于，步骤C具体包括：

C1：寻找能准确包含待识别目标的窗口；

6.如权利要求5所述的方法，其特征在于，步骤C1具体包括：

C11：获取待识别目标的大致位置，估算待识别目标的大小；

7.一种基于深度学习的目标识别系统，其特征在于，包括：探测器、颤动处理系统、信息处理系统、显示器；

所述探测器，用于使物体成像并保存成图片或视频；

所述显示器，用于将所述分类结果呈现给用户。

8.如权利要求7所述的系统，其特征在于，所述信息处理系统用于对获取的图像进行若干次卷积层处理和池化层处理，形成全连接层时，具体用于：

根据图像特征提取结果进行特征的权重学习；

根据权重学习的结果对目标进行预测。

9.如权利要求7所述的系统，其特征在于，所述信息处理系统用于分类识别时，具体用于：

实施实例层次、类型层次和语义层次三个层次的分类过程。

10.如权利要求7所述的系统，其特征在于，所述信息处理系统用于基于单次检测器SSD架构，对步骤B的处理结果进行分类识别，输出分类结果时，具体用于：

寻找能准确包含待识别目标的窗口；