CN113822935A

CN113822935A - 基于pix2pix的多图像定位方法

Info

Publication number: CN113822935A
Application number: CN202111072675.3A
Authority: CN
Inventors: 颜俊; 朱洪柳; 曹艳华
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-21
Anticipated expiration: 2041-09-14
Also published as: CN113822935B

Abstract

本发明揭示了一种基于pix2pix的多图像定位方法，具体包括：S1、利用多台相机收集训练图像，对多副图像进行水平方向上的拼接，构建得到训练数据集；S2、对训练数据集进行分类学习，得到基于位置的卷积神经网络分类模型；S3、利用pix2pix训练每台相机的图像生成模型；S4、利用相机收集目标图像，若目标图像未出现缺失情况、则拼接得到完整图像，若目标图像出现缺失情况、则利用图像生成模型生成完整图像；S5、将完整图像作为卷积神经网络分类模型的输入，进行目标位置的估计。本发明将室内定位问题转化为机器学习的分类问题，有效地克服了多径干扰、设备部署困难、实现成本高等一系列问题，保证了室内定位效果。

Description

基于pix2pix的多图像定位方法

技术领域

本发明涉及一种室内目标定位方法，具体涉及一种基于pix2pix的多图像定位方法，属于定位导航技术领域。

背景技术

近年来，随着各类基于室内位置的服务需求稳步上升，促使室内定位技术不断发展、更迭。现阶段较为主流的室内定位技术包括：红外线室内定位技术、超声波定位技术，蓝牙定位技术，射频识别定位技术、超宽带定位技术等。这些常见的室内定位技术，大多基于无线网络，在方案实现的过程中通常需要在场景中部署用于信号发送和接收的特定设备、投入大量的人力物力，这样一来无疑会大幅增加室内定位的成本。

与上述方案不同，基于图像和机器学习的室内定位技术能够将定位问题转化为机器学习问题，既能够通过机器学习的方法充分利用图像中的信息，又能够解决现有室内定位技术中所存在的多径干扰、设备部署困难、实现成本高等一系列问题，因此具有重要的研究意义。

目前业内研究者也陆续提出了多种基于图像的室内定位技术方案，如公开号为CN112164111A的中国专利公开了一种基于图像相似度和BPNN回归学习的室内定位算法，该算法包括离线训练阶段和在线定位阶段；在离线阶段，需要对图像进行预处理操作，计算采样点图像与参考图像的余弦相似度、结构相似度和直方图相似度。这一方案虽然操作较为简便，但是如果图像分辨率很高则会在训练数据集的构建阶段浪费大量的时间。又如公开号为CN110443849A的中国专利公开了一种基于深度图像的双流卷积神经网络回归学习的目标定位方法，采用双目相机进行图像采集，然后需要运用图像预处理技术将采集的图像转换为三通道图像。这一方案中图像转化的过程异常复杂，而且由于单相机视角的局限性，可定位的区域较小。

综上所述，如果能够在以上现有技术的基础上，提出一种利用图像和卷积神经网络进行分类学习、进而实现目标定位的方法，那么必将对未来的室内目标定位技术的发展具有重要的参考价值。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于pix2pix的多图像定位方法，包含离线训练阶段和在线定位阶段，具体如下。

所述离线训练阶段包括如下步骤，

S1、利用多台相机收集训练图像，对训练图像进行图像预处理，随后对处理后的多副图像进行水平方向上的拼接，构建得到训练数据集，

S2、利用卷积神经网络对所述训练数据集进行分类学习，得到基于位置的卷积神经网络分类模型，

S3、针对每台相机、构造该台相机的图像生成训练数据库，利用pix2pix训练每台相机的图像生成模型；

所述在线定位阶段包括如下步骤，

S4、利用相机收集目标图像，对目标图像进行图像预处理，若目标图像未出现缺失情况、则对所获得的多幅目标图像进行水平方向上的拼接得到完整图像，若目标图像出现缺失情况、则利用所述图像生成模型生成完整图像，

S5、将完整图像作为所述卷积神经网络分类模型的输入，进行目标位置的估计，输出目标位置的估计值。

优选地，所述S1包括如下步骤：

S11、对待定位区域进行划分、在待定位区域内确定多个参考点，对目标所在的每一格参考点上，利用多个相机采集训练图像；

S12、对所述训练图像进行图像预处理；

S13、在同一个参考点上，对经过预处理后的多幅训练图像进行水平方向上的拼接，构建得到训练数据集。

优选地，在S13中构建训练数据集时，对参考点的位置进行分类，并将类别用作分类训练的标签。

优选地，所述图像预处理过程为利用双线性插值算法对图像进行大小归一化处理。

优选地，所述S3包括如下步骤：

S31、针对某台相机、使用像素为255的黑色图像替代该台相机所采集的图像，然后进行水平方向上多副图像的拼接、得到生成模型输入图像，将所述生成模型输入图像作为输入、将S13中拼接所得的图像作为输出，得到pix2pix训练数据；

S32、搭建pix2pix网络，利用S31中的pix2pix训练数据对所述pix2pix网络进行训练，得到该台相机所对应的图像生成模型；

S33、重复S31～S32，直至获得所有相机的图像生成模型。

本发明的优点主要体现在以下几个方面：

本发明所提出的一种基于pix2pix的多图像定位方法，将室内定位问题转化为机器学习的分类问题，有效地克服了现有室内定位技术中所存在的多径干扰、设备部署困难、实现成本高等一系列问题，保证了室内定位效果。

同时，本发明利用相机采集图像实现定位，无需额外部署复杂的信号采集设备，且不存在设备间的信号干扰问题，数据获取过程方便快捷。而且在本发明的方案中使用了多台相机进行图像采集，相比单一相机采集而言，其视野范围及可定位区域更大。

本发明的方案中考虑到了使用多相机进行数据采集时可能会出现的因相机故障或数据传输错误导致部分图像缺失问题，提出利用利用pix2pix网络对缺失的图像进行补全，进一步保证了本方法的稳健性和鲁棒性。

此外，本发明还为室内目标定位的相关研究和应用提供了可以一种全新的思路，为领域内的其他相关问题提供了参考，可以以此为依据进行拓展延伸和深入研究，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明方法的处理流程示意图；

图2为本发明中利用双线性插值算法对图像进行大小归一化的处理流程示意图；

图3为本发明中所使用的卷积神经网络的架构示意图；

图4为本发明中所使用的pix2pix的原理示意图；

图5为本发明中实验采集点的设置示意图；

图6为本发明的性能分析图。

具体实施方式

如图1所示，本发明揭示了一种基于pix2pix的多图像定位方法，包含离线训练阶段和在线定位阶段，具体方案如下。

所述离线训练阶段包括如下步骤：

S1、利用多台相机收集训练图像，对训练图像进行图像预处理，随后对处理后的多副图像进行水平方向上的拼接，构建得到训练数据集。

S2、利用卷积神经网络对所述训练数据集进行分类学习，得到基于位置的卷积神经网络分类模型。

S3、针对每台相机、构造该台相机的图像生成训练数据库，利用pix2pix训练每台相机的图像生成模型。

进一步而言，所述S1包括如下步骤：

S12、对所述训练图像进行图像预处理；

S13、在同一个参考点上，对经过预处理后的多幅训练图像进行水平方向上的拼接，构建得到训练数据集。需要强调的是，在S13中构建训练数据集时，对参考点的位置进行分类，并将类别用作分类训练的标签。

所述S3包括如下步骤：

S31、针对某台相机、使用像素为255的黑色图像替代该台相机所采集的图像，然后进行水平方向上多副图像的拼接、得到生成模型输入图像，将所述生成模型输入图像作为输入、将S13中拼接所得的图像作为输出，得到pix2pix训练数据。

S32、搭建pix2pix网络，利用S31中的pix2pix训练数据对所述pix2pix网络进行训练，得到该台相机所对应的图像生成模型。

S33、重复S31～S32，直至获得所有相机的图像生成模型。

所述在线定位阶段包括如下步骤：

S4、利用相机收集目标图像，对目标图像进行图像预处理，若目标图像不存在缺失情况、则对所获得的多幅目标图像进行水平方向上的拼接得到完整图像，若目标图像存在因相机故障或数据传输过程中丢失所导致的缺失情况、则利用所述图像生成模型生成完整图像。

需要说明的是，在本发明方案中的所述图像预处理过程均为利用双线性插值算法对图像进行大小归一化处理。

以下结合具体实施例对本发明的方案进行说明。

首先对训练图片进行数据预处理，运用双线性插值法将图像进行归一化。如果原始图像大小为M×N，缩放后目标图像大小为W×H，则两幅图像的边长比分别为：

和

那么目标图像上的任意点(i,j)就可以通过边长比对应到原图像上，其对应坐标为

通常这个对应坐标值不是整数。双线性插值是通过寻找与这个坐标值最近的四个像素点来计算该坐标的值。

若函数f为图像的映射函数，对于任意点(x,y)，其像素值为y＝f(x,y)，其中，0<x≤w,0<y≤h，且x,y为整数，w,h分别为图像的宽和高。如图2所示，现在如果想求未知函数f在点P＝(x,y)处的值，假设已经知道函数f在Q₁₁＝(x₁,y₁)，Q₁₂＝(x₁,y₂)，Q₂₁＝(x₂,y₁)，Q₂₂＝(x₂,y₂)四个点的值。

首先，x轴方向单线性插值：

得到：

其次，在y轴方向进行线性插值：

得到：

将公式(3)、(4)、(6)结合就是双线性插值最后的结果：

在图像的双线性插值处理中，通常会用相邻的4个像素点，因此(x₂-x₁)和(y₂-y₁)的值都为1，故：

f(x,y)≈f(x₁,y₁)(x₂-x)(y₂-y)+f(x₂,y₁)(x-x₁)(y₂-y)+f(x₁,y₂)(x₂-x)(y-y₁)+f(x₂,y₂)(x-x₁)(y-y₁) (8)

然后将大小归一化处理后的同一个数据采集点的三幅图像进行水平拼接操作，组成卷积神经网络的分类训练数据集。

基于CNN的分类训练的网络结构如图3所示。该网络主要由三个卷积层、三个池化层以及两个全连接层组成，各层的结构和参数的具体实现如下：

第一个卷积层(Conv1)，输入为256×256×3，卷积核的大小为3×3，深度为64，padding设置为SAME，输出图像尺寸和输入相同，横向和纵向步长都为1，使用截断的正态分布对权重进行初始化，经过ReLU激活函数之后，再输入池化层pool1，为256×256×64。

第一个池化层(pool1)，输入为256×256×64，使用重叠的最大池化层，尺寸为3×3，步长为2，padding设置为SAME，输出为128×128×64。

第二个卷积层(Conv2)，输入为128×128×64，卷积核的大小为3×3，深度为32，padding设置为SAME，横向和纵向步长都为1，经过ReLU激活函数之后，再输入池化层pool2，为128×128×32。

第二个池化层(Pool2)，输入128×128×32，使用重叠的最大池化层，卷积核尺寸为3×3，步长为2，padding设置为SAME，输出为64×64×32。

第三个卷积层(Conv3)，输入为64×64×32，卷积核的大小为3×3，深度为16，padding设置为SAME，横向和纵向步长都为1，经过ReLU激活函数之后，再输入池化层pool3，为64×64×16。。

第三个池化层(Pool3)，输入为64×64×16，使用重叠的最大池化层，卷积核尺寸为3×3，步长为2，padding设置为SAME，输出为32×32×16。

第一个全连接层(full1)，输入为32×32×16，先对输入进行转换，然后经过ReLU激活函数之后，输出为16384。

第二个全连接层(full2)，输入为16384，经过ReLU激活函数之后，输出为4096。

分类层(softmax)，输入为4096，方案的实验中共有33个类别，所以softmax层输出一个33维的概率向量率，网络最终取概率最大的位置对应的类别，作为输出结果。

对于相机的图像生成模型，本发明利用pix2pix实际上是一种基于条件GAN(conditional generative adversarial network,cGAN)的网络结构，通过输入的图像相当于cGAN中的条件指导生成器的生成图像，与cGAN不同的是pix2pix不需要对生成网络G输入噪音。图4描述了pix2pix原理图。

条件生成对抗网络的目标函数可以表示为公式(9)。对于生成器G来说，训练过程就是要用生成的新数据，来不断的欺骗判别器D，所以要最小化目标函数；而对于判别器D来说则需要不断的学习来防止被欺骗，相应的需要最大化目标函数，所以整体的损失函数可以表示为公式(10)。

L_cGAN(G,D)＝E_{x,y～Pdata(x,y)}[log D(x,y)]+E_x～Pdata(x)[log(1-D(x,G(x)))] (9)

理想情况下最终的训练结果是判别器能够很好的区分真假数据，但是生成器制造的数据能够和真实数据完全吻合，所以判别器最终输出的是一个常量0.5，表示生成的数据是真实数据的可能性。对条件GAN的目标函数加入L1约束，网络的整体损失函数L*设置为公式(11)，通过L1距离来约束生成图像G(x)与真实图像y之间的差异程度。

其中，

L_L1(G)＝E_{x,y～Pdata(x,y)}[‖y-G(x)‖₁] (12)

方案中的生成器和判别器是参照中的U-Net结构进行调整的。U-Net是一个编码器-解码器网络。

本发明实验采集点的具体设置情况如图5所示，设置相机之间的间隔为0.6米，相机距离图像采集点的最近距离为2.3米，最远距离为8.3米。在这个区域内以0.6米为间隔，共将该区域划分为33个图像采集点，并用三个相机分别采集在每个点上的图像各50张，共计4950张图像。

对于CNN网络，训练步数设置为10000，学习率初始值设置为0.0001，激活函数为relu函数，full2层使用dropout设置概率keep_prob＝0.5，共分为33个类别。对于pix2pix网络，设置生成的图像的大小为256×256，由样本量决定训练步数，初始学习率设为0.0001，使用交叉损失熵作为模型损失函数。

选用将三相机图像进行拼接后的1155张图像训练基于距离的分类学习。如图6所示，如果测试的图像也是完整的，用495张图像进行测试，则该模型的分类准确率为0.9677。然后，假设测试集的图像存在缺失，并人为制造每个测试点的15张测试图像中有5张图像缺失，直接用该数据集进行分类测试时，定位的准确率为0.7293。当对缺失的测试图像调用训练好的的pix2pix模型进行新图像生成并用于测试时，分类的准确率为0.9596。可见相对于直接使用缺失的图像，本章所提算法极大的提高了分类定位的准确率。

综上所述，本发明所提出的一种基于pix2pix的多图像定位方法，将室内定位问题转化为机器学习的分类问题，有效地克服了现有室内定位技术中所存在的多径干扰、设备部署困难、实现成本高等一系列问题，保证了室内定位效果。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

最后，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于pix2pix的多图像定位方法，包含离线训练阶段和在线定位阶段，其特征在于：

所述离线训练阶段包括如下步骤，

所述在线定位阶段包括如下步骤，

2.根据权利要求1所述的基于pix2pix的多图像定位方法，其特征在于，所述S1包括如下步骤：

S12、对所述训练图像进行图像预处理；

3.根据权利要求2所述的基于pix2pix的多图像定位方法，其特征在于：在S13中构建训练数据集时，对参考点的位置进行分类，并将类别用作分类训练的标签。

4.根据权利要求1或2所述的基于pix2pix的多图像定位方法，其特征在于：所述图像预处理过程为利用双线性插值算法对图像进行大小归一化处理。

5.根据权利要求1所述的基于pix2pix的多图像定位方法，其特征在于，所述S3包括如下步骤：

S33、重复S31~S32，直至获得所有相机的图像生成模型。