CN108876849B

CN108876849B - 基于辅助标识的深度学习目标识别及定位方法

Info

Publication number: CN108876849B
Application number: CN201810533423.8A
Authority: CN
Inventors: 张智; 聂文昌; 任祥华
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-04-24
Filing date: 2018-05-29
Publication date: 2021-11-23
Anticipated expiration: 2038-05-29
Also published as: CN108876849A

Abstract

本发明涉及一种基于辅助标识的深度学习目标识别及定位方法,包括:步骤1、设计图案的优选策略，优选出可分类性强的图案；步骤2、确定大型物体的位置姿态；步骤3、利用优选图案识别小目标；步骤4、通过组合图案类别，拓展可识别类别数量。本发明考虑到深度学习方法用于目标检测时无法准确得到目标位置，将深度学习和双目视觉相结合，利用深度学习优秀的识别能力和鲁棒性，以及双目视觉定位准确的特点，最终实现优于传统方法的目标准确识别与定位。此外在环境中引入图案不同于传统人工标识方法，不会影响环境的美观性。

Description

基于辅助标识的深度学习目标识别及定位方法

技术领域

本发明涉及一种目标识别及定位方法，特别是一种基于辅助标识的深度学习目标识别及定位方法，属于目标视觉定位技术领域。

背景技术

为提高视觉系统在自然环境中的目标识别与定位水平，一种方法是提取环境中自然存在的特征，但该方法过于依赖目标本身及环境的特点，无法在各种场合通用，另一种是在环境中引入人工标识，通过对人工标识的检测来辅助定位或识别目标。人工标识运用得当能够显著提高系统实用水平，但以往人工标识法基于传统视觉方法检测标识，抗干扰能力有限，往往需要将标识设计得足够醒目(如黑白圆环、角点等)来保证成功率，但过于显眼的标识影响环境美观，难以推广，并且能够设计出的标识类别有限，难以用于多种目标分类的问题。在不破坏环境和谐的前提下融入人工标识，如将装饰图案或艺术图形选作标识，将大大提高系统实用性，而深度学习可以具有很强的识别能力和鲁棒性，只要样本集覆盖标识处于不同背景环境的状态、不同角度、不同距离、以及部分遮挡等各类情况，训练好的网络将能以很高的成功率检测标识。

目标识别方法Faster RCNN是Kaming He与RCNN作者共同完成的一项工作，应用深度学习框架CAFFE。自2016年被提出以后成为了目标识别领域的基础，众多的算法都是在Faster RCNN的基础上进行的改进，同时介绍结果时也是以Faster RCNN的结果为标准。Faster RCNN实现了RCNN系列算法中目标检测的端到端检测的过程。FasterRcnn网络的流程为：首先提取图像特征，该任务由分类网络中的卷积部分来完成，第二部分为区域生成网络，其目的是利用卷积得到的特征，生成建议框，并进行删选。第三部分利用生成的建议框对图像特征进行裁剪，得到预测的目标特征区域，然后进行ROI池化，得到维数和大小一样特征向量，最后分别送入到全连接网络进行分类和得到最终的标框。但深度学习方法用于目标检测时无法准确得到目标位置。

双目立体视觉是基于视差原理，由多幅图像获取物体三维几何信息的方法。在机器视觉系统中，双目视觉一般由双摄像机从不同角度同时获取周围景物的两幅数字图像，或有由单摄像机在不同时刻从不同角度获取周围景物的两幅数字图像，并基于视差原理即可恢复出物体三维几何信息，重建周围景物的三维形状与位置。

发明内容

针对上述现有技术，本发明要解决的技术问题是提供一种将深度学习和双目视觉相结合、利用深度学习优秀的识别能力和鲁棒性以及双目视觉定位准确的特点的基于辅助标识的深度学习目标识别及定位方法。

为解决上述技术问题，本发明提出一种基于辅助标识的深度学习目标识别及定位方法，包括以下步骤：

步骤1：设计图案的优选策略，选出可分类性强的图案，利用卷积神经网络，在图案中优选出有限图案子集，具体过程为：

将多种不同的图案送入卷积神经网络训练，假定分类N类，网络的最终输出层有N个节点、分别代表该图案属于每一类的概率,此概率是由网络倒数第二层全连接层经过softmax回归得到的，Softmax函数为：

式(1)中x表示网络的输出属于每一个类别的概率，h_i(x)表示经过回归后第i个样本属于每一类的概率；

改变网络的输出位置,采用回归前的向量输出做为评价函数入口，设计评价函数，具体为：

假定选定图案集类别数量为N，网络包括N+1个输出，前N个输出一一对应各个图案的概率，第N+1类表示背景即非图案区的概率，假定当前输入样本的实际类别编号为r，设计评价函数如下：

式(2)中N为总类别数，p_i代表输出矢量的第i个分量，p_r为输出矢量中正确类别的分量,K为评价函数的计算分数；

采用三维透视变换模拟训练图片集，通过更改背景颜色近似模拟背景变化，亮度变换模拟光照变化，图案的缩放模拟距离的变化；

随机选取图案之外的其它图像区域作为背景图片，做为最后一类输入卷积网络；完成在初始图案集中优选出N类作为优选图案集；

步骤2：确定大型物体的位置姿态，将优选出的图案粘贴在大型物体上，通过将深度学习和双目视觉相结合，实现大型物体位置姿态的辅助计算，具体过程为：

通过训练网络首先对大型物体本身进行检测和分类，以左目大型物体的检测框做模板，利用模板匹配法在右目中找到该大型物体的对应位置，左右目中位置框的中心点代表大型物体在图像中的坐标，其差值即视差，根据相机内参数，利用公式(3)计算大型物体与相机的近似距离：

式中B为两镜头的基线距离即基线距离，f为相机焦距，D为同一点在左右目中的坐标之差,Z为深度，x₁为图案在左目图像中横坐标，x₂为图案在右目图像中横坐标；

当视觉系统接近目标并能识别目标上的图案时，依据图案计算目标的准确位置及姿态：首先通过深度学习在相机左目中找到图案的建议框，通过模板匹配，在右目中找到对应的图案建议框，设两个图案建议框中心点分别为A和B。

利用公式(3)可以得到A到相机的垂直距离d₁和B点到相机的垂直距离d₂，又已知两个图案中心点AB间的实际距离d，利用公式(4)可计算出桌子间的姿态,式中γ为求解出的目标姿态：

步骤3：利用优选图案识别小目标：利用步骤1优选出的N种图案，N为50以内整数，在小物体上粘贴图案，根据图案编号查找对应关系，确定出场景中其他物体的类别；

步骤4：通过组合图案类别，拓展可识别类别数量：通过多个图案的组合，获得指数倍的图案类别，根据不同图案的组合列写出编码表并确定物体类别。

本发明的有益效果：本发明考虑到深度学习方法用于目标检测时无法准确得到目标位置，本发明将深度学习和双目视觉相结合，利用深度学习优秀的识别能力和鲁棒性，以及双目视觉定位准确的特点，最终实现优于传统方法的目标准确识别与定位。此外在环境中引入图案不同于传统人工标识方法，不会影响环境的美观性。

附图说明

图1为目标识别与定位流程图；

图2为卷积神经网络原理图；

图3为图案的变换模拟；

图4初始图案集示意的部分结果；

图5为优选后的图案集；

图6为确定目标位置姿态原理图；

图7为图案的组合应用。

具体实施方式

下面对本发明进行详细说明。

本发明设计了一种基于辅助标识的深度学习目标识别及定位方法，包含图案优选算法，双目Faster-Rcnn目标定位算法。

从图片网站下载装饰图案，共选定500个，选用ZF卷积神经网络优选出可分类性(与被选中的其它图案以及环境目标之间更容易被区分)较强的20种图案。

由于优选图案需要大量类别的数据进行训练，为了避免直接拍摄原始图案集在各种环境状态下的海量样本图片，采用变换模拟，由于图案均为二维图片，无需同三维立体物体一样考虑从不同角度拍摄带来的明显变化,通过对图案进行透视变换即可近似模拟出不同视角下图案的变化。实验室背景颜色较为单一，可通过更改与实验室中桌子，墙面等背景颜色相近的背景色近似模拟背景变化，亮度变换可模拟光照变化，图案的缩放可模拟距离的变化。

选取不同地点拍摄的图片做为背景图片，对每一幅图片随机截取出数个位置框做为候选背景，最后通过人为筛选，找出存在物体的框。所有选中的背景共同构成背景类，做为最后一类输入卷积网络。若将图案应用于其他环境下，可通过变换其他环境的背景图片来消除背景的影响。

将500种不同的图案以及背景送入ZF卷积神经网络训练，网络的最终输出层有501个节点，分别代表该图案属于每一类或背景的概率。此概率是由网络倒数第二层全连接层经过softmax回归得到的。Softmax函数为：

式中，N为网络输出节点数即图案数量，x表示网络的输出属于每一个类别的概率，h_i(x)表示经过回归后第i个样本属于每一类的概率。

向量经过softmax回归可以得到更显著的归一化后的分类结果，高概率的类别的最终概率会更高，低概率的类别的概率将会趋近于零，根据此结果无法判断分类趋势，故采用回归前的向量做为分类条件，设计评价函数：

式中N为总类别数，p_i代表输出矢量的第i个分量，p_r为输出矢量中正确类别的分量,K为评价函数的计算分数，p_bg为背景概率。该评价的好处是对于同样分类成功的图案能够评价哪个“更好”，而对同样分类“失败”的图案仍能评价哪个效果“更差”，此外还也以有效得抑制背景。当训练数据有限、训练次数不足的情况下，仍能实现对每一个图案的可分类性进行评价。

依据上述方法，优选出20种图案。在小物体上粘贴图案，根据图案编号查找对应关系，确定出物体的类别。由于实际环境中物体数量远超过20类，应用时可通过多个图案的组合使用，获得指数倍的图案类别(假如图案集数量为20，通过3种图案的组合应用时将获得20³种分类能力)，根据不同图案的组合列写出编码表并确定物体类别，如图6。

将优选出的图案粘贴在大型物体上可实现目标位置姿态的辅助计算。以桌子为例，首先需要视觉系统在距离较远的时候就能够发现目标并确定其初始位置，能够引导视觉系统靠近目标。为此，通过训练网络首先对目标本身(即桌子)进行检测和分类，当视觉系统接近目标并能识别目标上的图案标识时，再依据图案计算目标的准确位置及姿态。

为实现目标三维位置的估算，引入双目视觉系统，双目系统共用一个训练好的网络，针对左、右目图像各自进行一次目标检测，并将检测结果进行匹配，计算其三维位置。首先需要以左目桌子的检测框做模板，利用模板匹配法在右目中找到该桌子的对应位置，左右目中位置框的中心点代表桌子在图像中的坐标，其差值即视差，根据相机内参数，利用公式7可以计算出桌子与相机的近似距离。

式中B为两镜头的基线距离即基线距离，f为相机焦距，D为同一点在左右目中的坐标之差,Z为深度，x₁为图案在左目图像中横坐标，x₂为图案在右目图像中横坐标。

当已经确定目标的大致位置后，通过在目标上粘贴图案的方法可以确定出目标的距离和姿态。在桌子表面相距较远的位置粘贴两张图案，根据粗检测得出的距离，将相机系统移动至面向桌子附近。

利用Faster Rcnn网络，在左目的图像中得到两个图案的位置框，通过模板匹配，在右目中找到对应的图案，用与左目相同的方法可以确定出该图案在右目图像中的坐标。

两个图案中心点分别为A和B，如图6。利用公式7可以得到A到相机的距离AD。同理，可以得到B到相机的距离BE。又已知两个图案中心点AB间的实际距离d，利用公式8可计算出桌子间的姿态。式中γ为求解出的目标姿态。

本发明具体实施方式还包括：

本发明所要解决的技术问题是目标检测与定位，提供一种结合选定图案的目标识别与定位方法。

本发明针对解决的技术问题所采用的方案是：首先利用卷积神经网络优选出用于辅助定位的图案，将图案粘贴在大型物体上确定目标姿态，将图案粘贴在小物体上辅助检测未知目标的类别。

本发明的步骤如下：

步骤1、设计图案的优选策略，优选出可分类性强的图案。利用卷积神经网络，在众多图案中优选出有限图案子集，保证子集中的各个图案在应用深度网络分类时成功率最高，并且图案子集能够更好地区分与场景中的其它物体。

步骤2、确定大型物体的位置姿态。将优选出的图案粘贴在大型物体上，通过将深度学习和双目视觉相结合，实现目标位置姿态的辅助计算。

步骤3、利用优选图案识别小目标。在目标周围小物体上粘贴图案，根据图案编号查找对应关系，确定出周边物体的类别，该方法通过图案的辅助，可用于对各类未经学习过的物体进行识别。

步骤4、通过组合图案类别，拓展可识别类别数量。实际环境中物体数量很多，可通过多个图案的组合使用，获得指数倍的图案类别(假如图案集数量为m，通过p种图案的组合应用时将获得m^p种分类能力)，根据不同图案的组合列写出编码表并确定物体类别。

实施方法：

1.设计图案的优选策略，优选出可分类性强的图案。优选策略为：将多种不同的图案送入卷积神经网络训练，假定分类N类，网络的最终输出层有N个节点，分别代表该图案属于每一类的概率,此概率是由网络倒数第二层全连接层经过softmax回归得到的。Softmax函数为：

式中x表示网络的输出属于每一个类别的概率，h_i(x)表示经过回归后第i个样本属于每一类的概率。

向量经过softmax回归可以得到更显著的归一化后的分类结果，高概率的类别的最终概率会更高，低概率的类别的概率将会趋近于零，根据此结果很难判断分类趋势，故改变网络的输出位置,采用回归前的向量输出做为评价函数入口，设计评价函数。

卷积神经网络原理以及对网络输出位置的修改如图2所示，假定选定图案集类别数量为N，网络包括N+1个输出，前N个一一对应各个图案的概率，第N+1类表示背景(非图案区)的概率，假定当前输入样本的实际类别编号为r，设计评价函数如下：

式中N为总类别数，p_i代表输出矢量的第i个分量，K为评价函数的计算分数。该评价可以对于同样分类成功的图案能够评价哪个“更好”，此外还也以有效得抑制背景。当训练数据有限、训练次数不足的情况下，仍能实现对每一个图案的可分类性进行评价。

由于优选图案需要大量类别的数据进行训练，为了避免直接拍摄原始图案集在各种环境状态下的海量样本图片，本文采用三维透视变换模拟训练图片集，由于图案均为二维图片，无需同三维立体物体一样考虑从不同角度拍摄带来的明显变化,通过对图案进行透视变换即可近似模拟出不同视角下图案的变化。

通过更改背景颜色近似模拟背景变化，亮度变换可模拟光照变化，图案的缩放可模拟距离的变化。图3给出了部分训练图片库模拟结果。最后随机选取图案之外的其它图像区域作为背景图片，做为最后一类输入卷积网络，使得网络能够正确区分图案与非图案区域。采用该方法在初始众多类图案集中优选出N类作为优选图案集，初始图案集(部分结果)及优选图案集分别如图4和图5所示。

2.确定大型物体的位置姿态。以桌子为例说明目标位置姿态的确定原理。为实现目标的三维位置估算，引入双目视觉系统，将其与深度学习相结合。首先视觉系统需要在距离较远时就能够发现目标并确定其初始位置，并引导视觉系统靠近目标。

为此，可以通过训练网络首先对目标本身进行检测和分类，以左目桌子的检测框做模板，利用模板匹配法在右目中找到该桌子的对应位置，左右目中位置框的中心点代表桌子在图像中的坐标，其差值即视差，根据相机内参数，利用公式(11)计算桌子与相机的近似距离。

式中B为两镜头的基线距离即基线距离，f为相机焦距，D为同一点在左右目中的坐标之差,Z为深度。

当视觉系统接近目标并能识别目标上的图案时，依据图案计算目标的准确位置及姿态，首先通过深度学习在相机左目中找到图案的建议框，通过模板匹配，在右目中找到对应的图案建议框，设两个图案建议框中心点分别为A和B，如图6。

利用公式(11)可以得到A到相机的距离AD。同理得到B点到相机的距离BE。又已知两个图案中心点AB间的实际距离d，利用公式(12)可计算出桌子间的姿态,式中γ为求解出的目标姿态。

3.利用优选图案识别小目标。利用步骤1优选出的N种图案(为保证选出的图案具有优秀的可分类性，N不宜选取过大，通常选择50以内整数)。在小物体上粘贴图案，根据图案编号查找对应关系，确定出物体的类别，该方法通过图案的辅助，可用于对各类未经学习过的物体进行识别。

4.通过组合图案类别，拓展可识别类别数量。由于实际环境中物体数量远超过N类，应用时可通过多个图案的组合使用，获得指数倍的图案类别(假如图案集数量为m，通过p种图案的组合应用时将获得m^p种分类能力)，根据不同图案的组合列写出编码表并确定物体类别。图7为图案的组合应用，图中物体上有两种图案的组合，根据编码关系，可查出对应物体的类别。

Claims

1.一种基于辅助标识的深度学习目标识别及定位方法，其特征在于：包括以下步骤：

步骤1：设计图案的优选策略，选出可分类性强的图案，利用卷积神经网络，在图案中优选出优选图案集，具体过程为：

式(2)中N为总类别数，p_i代表输出矢量的第i个分量，p_r为输出矢量中正确类别的分量，K为评价函数的计算分数；

当视觉系统接近目标并能识别目标上的图案时，依据图案计算目标的准确位置及姿态：首先通过深度学习在相机左目中找到图案的建议框，通过模板匹配，在右目中找到对应的图案建议框，设两个图案建议框中心点分别为A和B；