CN110335312A

CN110335312A - 一种基于神经网络的目标空间定位方法及装置

Info

Publication number: CN110335312A
Application number: CN201910521048.XA
Authority: CN
Inventors: 章登义; 江凌峰; 林馥
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-10-15

Abstract

本发明公开了一种基于神经网络的目标空间定位方法及装置，其中的定位方法，首先在空间地面设置一些样本点位，通过摄像头记录不同水平和垂直旋转角度及焦距下拍摄的样本点位图片，并识别出样本点位在摄像机拍摄图像上的像素坐标，然后将其与样本点位实际空间坐标一一对应得到多组训练数据，接着构建并优化BP神经网络，将训练数据输入神经网络进行训练和验证，获得达到预期标准的神经网络模型，再利用神经网络模型对待定位样本点进行定位。本发明可以实现提高对定位点的定位识别的准确性和提高识别的效率，实现实时定位的技术效果。

Description

一种基于神经网络的目标空间定位方法及装置

技术领域

本发明涉及信息技术领域，具体涉及一种基于神经网络的目标空间定位方法及装置。

背景技术

目前国内外的目标定位中基于硬件的有蓝牙、Wi-Fi和超宽带等，这些方法对硬件的要求较高，且需要在监测场景中布设大量设备，而使用计算机视觉的方法进行目标定位则相对简单。

监控视频的传统定位方法根据摄像头的不同主要分为单目视觉定位和双目视觉定位，单目视觉定位主要是在监控区域设置标志点，通过分析标志点和摄像机之间的几何关系确定摄像机的内外参数，构建空间实际物体和摄像机之间的数学模型以计算出目标点的实际位置。

本申请发明人在实施本发明的过程中，发现现有技术的方法，至少存在如下技术问题：

双目立体视觉定位通过两台摄像机从不同角度拍摄目标物体，利用空间的视差定位物体，但其定位的实时性差，且存在数据处理量大的缺点，从而导致效率较低。

发明内容

有鉴于此，本发明提供了一种基于神经网络的目标空间定位方法及装置，用以解决或者至少部分解决现有的方法存在的处理效率较低的技术问题。

本发明第一方面提供了一种基于神经网络的目标空间定位方法，包括：

步骤S1：在目标场景中布设预设数量的不同颜色的已知实际场景位置坐标的样本点位，并采集摄像头在不同水平和垂直旋转角度及焦距下拍摄的样本点位图片；

步骤S2：采用Canny边缘检测算法对样本点图片进行处理，标识出样本点图片中样本点位的图像轮廓，并记录其轮廓质心在样本点图片中的像素坐标；

步骤S3：将图片的RGB色彩模式转换为HSV色彩模式，计算标识出的图像轮廓的HSV色彩的三个值，并基于HSV色彩的三个值计算其HSV色彩平均值，再根据HSV色彩平均值获得其对应的实际场景位置坐标；

步骤S4：将步骤S2中获得的像素坐标与样本点位图片的PTZ参数进行对应后作为输入，将步骤S3中获得实际场景位置坐标作为输出，构成目标空间定位的数据集；

步骤S5：利用目标定位空间定位数据集对构建的神经网络框架进行训练，获得训练后的神经网络模型；

步骤S6：利用训练后的神经网络模型对待定位样本点进行定位。

在一种实施方式中，步骤S2具体包括：

步骤S2.1：对样本点位图片进行灰度化，求取样本点位图片中包含的各个像素点的R、G、B值求平均值；

步骤S2.2：对灰度化后的图片进行高斯滤波；

步骤S2.3：计算进行高斯滤波后的图片的梯度的幅值和方向；

步骤S2.4：对高斯滤波后的图片进行非极大值抑制处理，得到一个0或128的二值图像；

步骤S2.5：基于计算出的梯度的幅值和方向，采用双阈值检测和连接边缘标识出样本点轮廓，并计算得到其轮廓质心像素坐标。

在一种实施方式中，步骤S3中将图片的RGB色彩模式转换为HSV色彩模式为利用公式(1)进行色彩模型转换，

其中，R、G、B表示在RBG模式下的分量值，H0为通过RGB计算出的中间值，用于计算H分量，H为HSV色彩模式的分量。

在一种实施方式中，步骤S3中根据HSV色彩平均值获得其对应的实际场景位置坐标，具体包括：

根据HSV色彩平均值，从颜色分量范围表中查询出该样本点的对应颜色；

依据样本点的对应颜色获得该样本点应该在实际场景中的位置坐标。

在一种实施方式中，步骤S5具体包括：

步骤S5.1：确定神经网络的层数，并设定每层神经元数量，构建神经网络框架；

步骤S5.2：确定神经网络的超参数、代价函数和激活函数；

步骤S5.3：基于超参数，利用目标定位空间定位数据集对构建的神经网络框架进行训练，并根据代价函数和激活函数进行优化，得到训练后的神经网络模型。

在一种实施方式中，步骤S5.1中神经网络的层数包括输入层、嵌入层、融合层、两个全连接层以及输出层。

在一种实施方式中，超参数包括学习步长和迭代次数。

基于同样的发明构思，本发明第二方面提供了一种基于神经网络的目标空间定位装置，包括：

样本点位图片采集模块，用于在目标场景中布设预设数量的不同颜色的已知实际场景位置坐标的样本点位，并采集摄像头在不同水平和垂直旋转角度及焦距下拍摄的样本点位图片；

图像轮廓标识模块，用于采用Canny边缘检测算法对样本点图片进行处理，标识出样本点图片中样本点位的图像轮廓，并记录其轮廓质心在样本点图片中的像素坐标；

色彩模式转换模块，用于将图片的RGB色彩模式转换为HSV色彩模式，计算标识出的图像轮廓的HSV色彩的三个值，并基于HSV色彩的三个值计算其HSV色彩平均值，再根据HSV色彩平均值获得其对应的实际场景位置坐标；

数据集形成模块，用于将步骤S2中获得的像素坐标与样本点位图片的PTZ参数进行对应后作为输入，将步骤S3中获得实际场景位置坐标作为输出，构成目标空间定位的数据集；

神经网络训练模块，用于利用目标定位空间定位数据集对构建的神经网络框架进行训练，获得训练后的神经网络模型；

定位模块，用于利用训练后的神经网络模型对待定位的样本点进行定位。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

本发明提供的一种基于神经网络的目标空间定位方法，首先，在目标场景中布设一定数量的已知实际场景位置坐标的样本点位，并采集摄像头在不同水平和垂直旋转角度及焦距下拍摄的样本点位图片；然后，采用Canny边缘检测算法对样本点图片进行处理，标识出样本点图片中样本点位的图像轮廓，并记录其轮廓质心在样本点图片中的像素坐标；接着，将图片的RGB色彩模式转换为HSV色彩模式，计算样本点对应的实际场景位置坐标；接下来，将获得的像素坐标与样本点位图片的PTZ参数进行对应后作为输入，将获得实际场景位置坐标作为输出，构成目标空间定位的数据集；然后，利用目标定位空间定位数据集对构建的神经网络框架进行训练，获得训练后的神经网络模型；最后，利用训练后的神经网络模型对待定位样本点进行定位。

由于本发明的方法，获取拍摄样本点位图片中样本点轮廓的坐标，并通过色彩模式转换的方式，计算样本点对应的实际场景位置坐标，并将两种坐标与PTZ进行一一对应，构成目标空间定位的数据集，并利用目标空间定位的数据集对神经网络进行训练，一方面，通过训练后的神经网络模型可以提高对定位点的定位识别的准确性，另一方面，通过神经网络学习摄像头所拍摄样本点位图片的任意像素点位置与空间平面上的坐标的对应关系，可以省去摄像机标定和矫正镜头畸变的步骤及矩阵计算数据的时间，能够简洁、直观地定位空间中的目标物体，并且能够减少计算时间，提高识别的效率，实现实时定位。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于神经网络的目标空间定位方法的流程示意图；

图2为本发明中数据集的获取流程图；

图3为本发明实施例中的神经网络设计流程图；

图4为本发明实施例中拍摄的样本点位图示例图片；

图5为本发明实施例中样本点轮廓标识结果示意图；

图6为本发明实施例中样本点图片像素坐标计算结果；

图7为本发明中神经网络的结构示意图；

图8为本发明提供的一种基于神经网络的目标空间定位装置的结构框图。

具体实施方式

本发明的目的在于针对单目视觉的目标定位方法有使用局限性大、一旦标志物被遮挡则无法准确识别、双目立体视觉定位通过两台摄像机从不同角度拍摄目标物体，利用空间的视差定位物体，但其定位的实时性差，且存在数据处理量大的技术问题，提供的一种基于神经网络的目标空间定位方法及装置，从而达到提高识别准确性以及识别效率目的。

为达到上述目的，本发明的主要构思如下：

首先在空间地面设置一些样本点位，通过摄像头记录不同水平和垂直旋转角度及焦距下拍摄的样本点位图片，使用OpenCV识别出样本点位在摄像机拍摄图像上的像素坐标，并将其与样本点位实际空间坐标一一对应得到多组训练数据，接着构建并优化BP神经网络，将训练数据输入神经网络进行训练和验证，最后获得达到预期标准的神经网络模型。通过神经网络学习摄像头所拍摄图片的任意像素点位置与空间平面上的坐标的对应关系，从而省去了摄像机标定和矫正镜头畸变的步骤及矩阵计算数据的时间，能够简洁、直观地定位空间中的目标物体。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于神经网络的目标空间定位方法，请参见图1，该方法包括：

步骤S1：在目标场景中布设预设数量的不同颜色的已知实际场景位置坐标的样本点位，并采集摄像头在不同水平和垂直旋转角度及焦距下拍摄的样本点位图片。

具体来说，预设数量可以根据实际情况进行设置。不同颜色的已知实际场景位置坐标的样本点位是指，不同颜色对应不同的实际坐标。

如图4所示，在墙上粘贴印有黑白灰红橙黄绿蓝紫等各色的圆形样本点位的样图，拍摄在不同摄像机角度的照片。然后不断地移动样图，拍摄各种不同情况下的样图照片，需要说明的是，图中不同的灰度表示对应不同的色彩。

步骤S2：采用Canny边缘检测算法对样本点图片进行处理，标识出样本点图片中样本点位的图像轮廓，并记录其轮廓质心在样本点图片中的像素坐标。

具体来说，采用Canny边缘检测算法可以检测出样本点位的图像轮廓，然后可以使用OpenCV标记出轮廓质心的像素坐标。

步骤S3：将图片的RGB色彩模式转换为HSV色彩模式，计算标识出的图像轮廓的HSV色彩的三个值，并基于HSV色彩的三个值计算其HSV色彩平均值，再根据HSV色彩平均值获得其对应的实际场景位置坐标。

步骤S4：将步骤S2中获得的像素坐标与样本点位图片的PTZ参数进行对应后作为输入，将步骤S3中获得实际场景位置坐标作为输出，构成目标空间定位的数据集。

具体来说，在分别得到样本点位在摄像机拍摄样本点位图上的像素坐标和实际坐标后，则将两种坐标与拍摄图片的PTZ参数(水平、垂直偏转角度及焦距)一一对应得到目标空间定位的数据集。

请参见图2，为目标空间定位的数据集的具体获取流程，即本发明实施例中的步骤S1～S4。

步骤S5：利用目标定位空间定位数据集对构建的神经网络框架进行训练，获得训练后的神经网络模型。

具体来说，利用步骤S4中的数据集则可以对神经网络进行训练，得到用于目标定位的神经网络。

具体来说，当得到训练好的神经网络后，则可以进行定位了，首先采集待定位样本点的样本图片，并记录其PTZ参数，即不同水平、垂直旋转角度和焦距，并通过步骤S2的方式标识样本点的图像轮廓，记录其轮廓质心在样本点图片中的像素坐标。接着，将得到的像素坐标与PTZ参数输入步骤S5中的神经网络，则可以得到其实际坐标。

在一种实施方式中，步骤S2具体包括：

步骤S2.2：对灰度化后的图片进行高斯滤波；

步骤S2.3：计算进行高斯滤波后的图片的梯度的幅值和方向；

具体来说，步骤S2.2中的高斯滤波，用于过滤图片噪声，以防止错误检测。通过步骤S2.1～步骤S2.5可以得到样本点轮廓的质心像素坐标，具体如图5和图6所示。

具体来说，通常摄像头所获得的图像是RGB格式，但是在图像处理中更多地用到的是HSV格式。HSV(hue，saturation，value)是一种在人们生活中甚至更常用的颜色系统，在电视遥控器上、在画画的调色板中、在手机调整亮度时都很常见，因为它更符合人们描述颜色的方式——是什么颜色、颜色有多深、颜色有多亮。

H即色相，就是通常所说的红、绿。在HSV模型中，用度数来描述色相，其中红色对应0度，绿色对应120度，蓝色对应240度。S即饱和度，色彩的深浅度(0-100％)，对于一种颜色比如红色，可以用浅红、大红、深红、红得发紫等等语言来描述它。V即色调，纯度，色彩的亮度(0-100％)，这个在调整屏幕亮度的时候比较常见。

HSV颜色分量范围表如表1所示：

表1

具体来说，根据公式(1)将图片的RGB色彩模式转换为HSV色彩模式。然后计算步骤S2中标识出的样本点轮廓的HSV色彩的三个值，接着计算HSV平均值，依据颜色分量范围表(表1)得出该样本点的对应颜色，再依据颜色得出该点应该在实际场景上的位置。可以将场景位置坐标以0～1之间的值表示。例如，设定红色的圆形坐标是(0.1,0.1)，蓝色的圆形坐标是(0.2，0.2)。如果识别出来某一轮廓的颜色是红色，便可得知这一点的实际坐标x＝0.1、y＝0.1。依次识别出样本点颜色后得到其实际场景坐标。

在一种实施方式中，步骤S5具体包括：

步骤S5.2：确定神经网络的超参数、代价函数和激活函数；

其中，步骤S5.1中神经网络的层数包括输入层、嵌入层、融合层、两个全连接层以及输出层。

其中，超参数包括学习步长和迭代次数。

具体来说，图3为本发明实施例中的神经网络设计流程图。

在具体实现时，步骤S5.1的实施过程说明如下：

本实施例有五个输入，摄像机所拍摄图像上的像素坐标u，v，以及云台的水平旋转角度PanPos，垂直旋转角度TiltPos，焦距zoomPos。由于坐标和角度之间没有明显的相关性，不是同一个维度的数据，因此，本实施例采用将其映射到高维度空间，从而找出输入数据之间的关系。如图7所示，对于每一个输入，都用一个全连接层对其进行y＝wx+b的变换，得到5个n维的向量。由于当这五个向量不具备同类的特征含义，使用add的方式融合特征会带来信息损失，所以将这5个n维向量通过concat的方式，融合特征，形成一个5*n维的向量。

对于这个5*n维的向量，通过全连接层，进行线性变换，重新降维得到新的n维向量。将该n维向量输入一个全连接层，进行加权求和以及激活函数的计算，得到隐藏层的激活输出，输出一个n维向量，最后，将这个n维向量作为final层的输入，通过一个全连接层输出到输出层的2个神经元中，本实施例神经网络模型层数表如下所示：

表2

步骤S5.2中确定神经网络的超参数的实施例具体的实施过程说明如下：

区别于通过训练得到的参数数据，超参数是在开始学习过程之前设置值的参数，在确定的神经网络的结构之后，训练网络之前需要确定超参数的值。这些超参数包括学习率，也就是步长，训练的迭代次数等参数。其中，相对重要的是学习率的选择，学习率是神经网络优化学习过程中梯度下降法中的步长，也就是控制了学习的速率，如果步长过小，会导致学习率过慢，从而使得迭代训练次数过多，训练时间过慢。如果步长过长，则会导致学习速率过大，容易错过最低点，虽然加快了训练的速度，但可能导致的就是神经网络始终在最低点附近“徘徊”，而无法抵达最低点，从而使得神经网络的训练误差较大，影响神经网络的学习效果。迭代次数选择，取决于神经网络的收敛速度，以及神经网络是否已经饱和。当神经网络的误差不再降低，或者说没有明显的降低的时候，实际上就可以认为此时神经网络已经达到了一种饱和的状态，需要停止。故本实施例选取0.001的学习率和100次迭代次数。

步骤S5.3中确定神经网络的代价函数和激活函数的具体实施过程说明如下：

在确定了神经网络的层数和每层神经元的数量之后，确定了学习率和迭代次数，接下需要选择相关的函数，比如代价函数和激活函数。代价函数主要用来衡量期望的输出值与实际输出值的差异，是用来量化网络模型的误差的目标函数。代价函数的值可以用来评估模型结构和训练结果的好坏，如果代价函数的选择与模型的实际问题不契合，将会影响网络的训练速度，会导致网络收敛缓慢，训练效果不好等问题。

激活函数的设计和选择，激活是神经网络具有非线性拟合能力的核心，激活函数的出现给神经网络提供了线性拟合的能力，激活函数一般要求是连续可微的，不同的激活函数对神经网络训练结果也会产生不同的影响，激活函数的选择不对，就会出现“梯度消失”等问题，如果激活函数过于复杂，或者说微分的代价过大，又会导致神经网络训练缓慢。

由于本实施例的输出是实际世界坐标系上的横坐标和纵坐标，本质是在预测二维坐标轴上的点，代价函数应为预测的点与模型输出的点的距离。因此本实施例选取的代价函数为均方根误差代价函数RMSE，激活函数选择Relu激活函数，至此神经网络设计完成。具体地，本实施例中RMSE均方根误差代价函数的形式如下：

其中，n表示训练数据的总数，x_i表示横坐标上真实的输出，h_θ(x_i)表示模型预测的横坐标输出，y_i表示纵标上真实的输出，h_θ(y_i)表示模型预测的纵坐标输出。

激活函数Relu(Rectified Linear Unit)表达式如下：

f(x)＝max(0，x)。

基于同一发明构思，本申请还提供了与实施例一中一种基于神经网络的目标空间定位方法对应的装置，详见实施例二。

实施例二

本实施例提供了一种基于神经网络的目标空间定位装置，请参见图8，该装置包括：

样本点位图片采集模块201，用于在目标场景中布设预设数量的不同颜色的已知实际场景位置坐标的样本点位，并采集摄像头在不同水平和垂直旋转角度及焦距下拍摄的样本点位图片；

图像轮廓标识模块202，用于采用Canny边缘检测算法对样本点图片进行处理，标识出样本点图片中样本点位的图像轮廓，并记录其轮廓质心在样本点图片中的像素坐标；

色彩模式转换模块203，用于将图片的RGB色彩模式转换为HSV色彩模式，计算标识出的图像轮廓的HSV色彩的三个值，并基于HSV色彩的三个值计算其HSV色彩平均值，再根据HSV色彩平均值获得其对应的实际场景位置坐标；

数据集形成模块204，用于将步骤S2中获得的像素坐标与样本点位图片的PTZ参数进行对应后作为输入，将步骤S3中获得实际场景位置坐标作为输出，构成目标空间定位的数据集；

神经网络训练模块205，用于利用目标定位空间定位数据集对构建的神经网络框架进行训练，获得训练后的神经网络模型；

定位模块206，用于利用训练后的神经网络模型对待定位的样本点进行定位。

在一种实施方式中，图像轮廓标识模块202具体用于执行下述步骤：

步骤S2.2：对灰度化后的图片进行高斯滤波；

步骤S2.3：计算进行高斯滤波后的图片的梯度的幅值和方向；

在一种实施方式中，色彩模式转换模块203中，将图片的RGB色彩模式转换为HSV色彩模式为利用公式(1)进行色彩模型转换，

在一种实施方式中，色彩模式转换模块203中，根据HSV色彩平均值获得其对应的实际场景位置坐标，具体包括：

在一种实施方式中，神经网络训练模块205具体用于执行下述步骤：

步骤S5.2：确定神经网络的超参数、代价函数和激活函数；

在一种实施方式中，神经网络的层数包括输入层、嵌入层、融合层、两个全连接层以及输出层。

在一种实施方式中，超参数包括学习步长和迭代次数。

由于本发明实施例二所介绍的装置，为实施本发明实施例一中基于神经网络的目标空间定位方法所采用的装置，，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置，的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的装置，都属于本发明所欲保护的范围。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于神经网络的目标空间定位方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

步骤S2.2：对灰度化后的图片进行高斯滤波；

步骤S2.3：计算进行高斯滤波后的图片的梯度的幅值和方向；

3.如权利要求1所述的方法，其特征在于，步骤S3中将图片的RGB色彩模式转换为HSV色彩模式为利用公式(1)进行色彩模型转换，

4.如权利要求1所述的方法，其特征在于，步骤S3中根据HSV色彩平均值获得其对应的实际场景位置坐标，具体包括：

5.如权利要求1所述的方法，其特征在于，步骤S5具体包括：

步骤S5.2：确定神经网络的超参数、代价函数和激活函数；

6.如权利要求5所述的方法，其特征在于，步骤S5.1中神经网络的层数包括输入层、嵌入层、融合层、两个全连接层以及输出层。

7.如权利要求5所述的方法，其特征在于，超参数包括学习步长和迭代次数。

8.一种基于神经网络的目标空间定位装置，其特征在于，包括：

定位模块，用于利用训练后的神经网络模型对待定位样本点进行定位。