CN112884841A

CN112884841A - 一种基于语义目标的双目视觉定位方法

Info

Publication number: CN112884841A
Application number: CN202110400564.4A
Authority: CN
Inventors: 马琳; 董赫; 张忠旺; 刘晟; 周剑琦; 叶亮; 何晨光
Original assignee: Harbin Institute of Technology; China Aeronautical Radio Electronics Research Institute
Current assignee: Harbin Institute of Technology; China Aeronautical Radio Electronics Research Institute
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2021-06-01
Anticipated expiration: 2041-04-14
Also published as: CN112884841B

Abstract

一种基于语义目标的双目视觉定位方法，本发明涉及基于语义目标的双目视觉定位方法。本发明的目的是为了解决现有室内定位方法均需在定位前知道场景布局，布局成本高，定位准确率低，无法在未知环境下进行室内定位的问题。过程为：一、得到左右两幅图像；二、识别出当前左右两幅图像中含有的语义目标，以及每个语义目标对应的角点坐标；三、用户在语义目标中选择一个左右图像共同含有的语义目标，基于该语义目标对应的角点坐标建立目标的三维坐标系；四、确定选择的语义目标的角点在左右图像中对应的像素坐标；五、对双目相机进行标定；六、求解当前用户相对于该目标的位置坐标及转向角，实现对用户的定位。本发明属于图像处理领域。

Description

一种基于语义目标的双目视觉定位方法

技术领域

本发明属于图像处理领域，是一种利用数字图像处理、深度学习以及视觉成像等技术来实现基于语义目标的双目视觉定位方法。

背景技术

随着当前社会的飞速发展，越来越多的室内场所例如商场、展馆、办公楼如雨后春笋般涌出，人们每天的绝大多数时间都处于室内环境下。而当人们进入到一个完全陌生的室内场所时，当前在该场所内所处的具体位置是人们迫切需要知道的，并希望基于此得到一系列的服务。由于室内环境复杂多变且受到墙壁等障碍物的遮挡，传统的GPS技术并不适用。当前，室内环境下的定位方法主要分为四类，分别为基于无线信号的室内定位方法、基于惯性导航的室内定位方法、基于地磁信息的室内定位方法以及基于视觉的室内定位方法。基于无线信号的室内定位方法例如超宽带、蓝牙、Wi-Fi主要利用信号传播的时间或者信号强度进行定位，该方法在定位前都需要进行大量无线接入点的部署，且无线信号的传播会受到人群及障碍物的干扰，严重影响定位精度。基于惯性导航的室内定位方法主要利用惯性导航器件获得的信息来计算用户当前的运动轨迹，但是由于该方法存在轨迹漂移的问题，导致最终对方向的推算不是很准确，通常需要其他的定位方法进行辅助。基于地磁信息的室内定位方法主要利用磁场数据变化轨迹的匹配来推算出用户行走路径，但是由于磁场的不断变化以及室内环境下铁制品对磁场的影响，导致该方法在定位精度上存在较大的误差。

发明内容

本发明的目的是为了解决现有室内定位方法均需在定位前知道场景布局，布局成本高，定位准确率低，无法在未知环境下进行室内定位的问题，而提出一种基于语义目标的双目视觉定位方法。

一种基于语义目标的双目视觉定位方法具体过程为：

步骤一、用户利用双目相机对当前看到的场景进行拍摄，得到左右两幅图像；

步骤二、将双目相机拍摄到的左右两幅图像输入到训练好的R-FCN语义分割网络，R-FCN语义分割网络识别出当前左右两幅图像中含有的语义目标，以及每个语义目标对应的角点坐标；

步骤三、用户在语义目标中选择一个左右图像共同含有的语义目标，基于该语义目标对应的角点坐标建立目标的三维坐标系；

步骤四、确定步骤三选择的语义目标的角点在左右图像中对应的像素坐标；

步骤五、对拍摄图像所用的双目相机进行标定，获得双目相机内部参数以及外部参数；

步骤六、基于步骤四的语义目标的角点在左右图像中对应的像素坐标差异和步骤五标定后的双目相机，利用双目视觉定位算法求解当前用户在步骤三建立的三维坐标系下相对于该目标的位置坐标及转向角，实现对用户的定位。

本发明的有益效果为：

本发明研究的主要目的在于，如何在未知环境中快速、准确地找到一个具有代表性的标识，并基于此来求解当前用户相对于该标识的位置坐标，从而实现对用户快速且准确的定位服务，提高了定位准确率。

本发明采用基于视觉的室内定位方法，这是因为视觉定位方法不但具有部署成本低、自主性强、定位精度高等优点，并且视觉定位方法中图像的采集与人眼捕捉周围事物非常相似，可以很好地模拟人们通过观察周围具有代表性的标识来确定自身位置的过程。

随着当前智能手机的普及以及终端处理速度的飞速提升，视觉定位技术成为了近几年国内外研究的热点，受到了科研人员的广泛关注。相比于其他室内定位方法，视觉定位技术的优势在于不需要在定位前进行大量无线基站的部署，直接利用用户终端在室内场景中进行图像的拍摄即可，并且可以方便快捷地将采集的图像与他人分享。视觉图像是一种比较可靠的在未知环境中获取内部信息的一种手段，其中包含了丰富的场景信息，当室内的光线亮度充足时，通过对图像信息的挖掘可以帮助人们感知周围的环境，因此视觉定位技术可以获取到其他定位技术无法获取的信息，利用视觉定位技术可以提供给用户更好的定位导航服务。

本发明采用基于标识的视觉定位方法，针对基于位置指纹定位方法存在的数据库容量大、检索时间长等缺陷，该方法去除掉了重复场景的冗余信息，降低了图像匹配阶段的复杂度。为了保证良好的定位效果，所选用的标识需要具有图像内容丰富、图像特征易获取等特点，通过基于标识建立的三维坐标系实现对用户的定位。基于标识的视觉定位方法符合人们习惯以一个标志性的目标为基准来判断自身位置的特点，而在一个未知的室内环境中，无法提前获取该场景中含有的标识信息，但是可以通过深度学习的方法来识别出室内场景中常见的标识例如门、窗、海报、安全出口标识等，并基于识别出的标识来判断自身所处的位置。为了能够正确地识别出用户拍摄图像中含有的语义标识，需要利用图像语义分割技术来对用户图像进行处理。本发明研究的主要目的在于，如何在未知环境中快速、准确地找到一个具有代表性的标识，并基于此来求解当前用户相对于该标识的位置坐标，从而实现对用户快速且准确的定位服务，提高了定位准确率。

当用户间确立了作为定位基准的标识后，需要利用视觉定位技术从用户图像中标识的二维像素信息还原出其真实的三维坐标，并以此反推以标识为中心此刻用户所在的位置坐标。当前按照视觉定位方法中相机工作方式的不同，可将定位系统分为单目视觉定位、双目视觉定位以及深度视觉定位。其中，单目相机和深度相机都配备一个图像传感器，除此之外，深度相机还额外配备有一个激光发射器和一个激光接收器。在单目视觉定位方面，通常我们无法通过一张图像完成定位，因为一张二维图像在成像过程中丢失了场景的深度信息，因此，其深度信息估计的准确度是单目视觉系统好坏的重要衡量指标，通常需要增加额外的约束条件对其进行定位。在深度视觉定位中，通常是通过深度相机进行定位的，深度相机通过主动的方式向目标物体发出光源信号，然后利用接收器接收返回的光信号，通过计算光源信号的飞行时间(ToF,Time-of-Flight)来确定目标物体和相机之间的距离。然而单目相机和深度相机在现阶段的应用中都存在一定程度的局限性，相比之下，双目相机拥有着其独特的优势。

双目视觉定位技术是现阶段机器视觉的一种重要形式，当前广泛地应用在移动机器人导航、虚拟现实、目标识别、场景重建等领域。双目视觉定位技术利用成像设备从不同的角度位置获取含有目标物体的两幅图像，通过计算其中对应点之间的位置偏差，即视差，进而获取目标物体的三维位置信息。双目视觉定位技术符合人类通过双眼进行周围物体位置感知的过程，左右相机分别代表了人类的左右两只眼睛，通过观察同一物体在左右相机之间的成像差别来获取该目标的深度信息。因此，本发明采用双目视觉定位方法来求取选定标识与用户间的距离，进而解算出用户相对于该标识的位置坐标以及转向角信息，实现对用户的定位服务，提高了定位准确率。

附图说明

图1为本发明基于语义目标的双目视觉定位方法流程图；

图2为R-FCN工作流程图；

图3相机成像模型示意图；

图4世界坐标系与相机坐标系间的旋转和平移关系图；

图5相机坐标系与图像坐标系间的模型转换关系图；

图6图像坐标系与像素坐标系间的模型转换关系图；

图7室内实验场景平面示意图图；

图8训练图像的语义标注图，poster为海报，exit_light为出口灯，door为门，vent为通风口，ashbin为灰，hydrant为消防栓；

图9a R-FCN语义分割效果1图；

图9b R-FCN语义分割效果2图，exhibition_board为展板，window为窗户，heating为采暖装置；

图9c R-FCN语义分割效果3图；

图9d R-FCN语义分割效果4图；

图10 R-FCN输出目标对应像素坐标误差CDF曲线图；

图11基于语义目标的双目视觉定位误差CDF曲线图；

图12转向角误差CDF曲线图。

具体实施方式

具体实施方式一：结合图1说明本实施方式，本实施方式一种基于语义目标的双目视觉定位方法具体过程为：

分为图像语义分割和双目视觉定位两个模块；

图像语义分割模块：

步骤三、用户在众多语义目标中选择一个左右图像共同含有的语义目标，基于该语义目标对应的角点坐标建立目标的三维坐标系；

步骤四、确定步骤三选择的语义目标的角点在左右图像中对应的像素坐标，将其输入到双目视觉定位模块中；

双目视觉定位两个模块：

步骤六、基于步骤四的语义目标的角点在左右图像中对应的像素坐标差异和步骤五标定后的双目相机，利用双目视觉定位算法求解当前用户在步骤三建立的三维坐标系(室内场景)下相对于该目标的位置坐标及转向角，实现对用户的定位。

具体实施方式二：本实施方式与具体实施方式一不同的是，所述步骤二中训练好的R-FCN语义分割网络的具体训练过程为：

R-FCN语义分割网络由全卷积网络FCN、候选区域生成网络RPN和ROI子网络组成；

本发明采用语义分割技术的目的是识别出用户拍摄图像中含有的语义目标，并根据这些目标判断用户在室内环境中所处的位置，这也符合人们进入到一个未知场所时利用周围标志性建筑确定自身位置的特点。本文使用的语义分割网络为R-FCN，它是一个两阶段的目标检测模型，从Faster R-CNN发展而来，沿用了全卷积网络FCN的思想，解决了分类网络位置不敏感性和检测网络位置敏感性之间的矛盾。R-FCN是由全卷积网络FCN(FullyConvolutional Network，FCN)、候选区域生成网络RPN(Region Proposal Network，RPN)和ROI(Region Of Interest)子网络组成；其中FCN用于对输入原图像进行特征提取从而生成特征图，RPN网络根据提取的特征来生成感兴趣区域ROI，ROI子网根据FCN提取的特征与RPN输出的ROI进行目标区域的定位与分类。R-FCN在进行图像语义分割时的工作流程如图2所示。

R-FCN语义分割网络训练过程为：

双目相机对当前看到的场景进行拍摄，得到左右两幅图像作为训练集，对训练集中的每一张照片都进行语义目标的标注，将标注后的训练集图像输入R-FCN语义分割网络；

由图2可以看到，ROI子网与RPN一样都是对FCN进行卷积操作得到的结果。为了使检测时覆盖的物体更广泛一些，检测精度可以更高一些，双目相机对当前看到的场景进行拍摄，得到左右两幅图像作为训练集，对训练集中的每一张照片都进行语义目标的标注，将标注后的训练集图像输入全卷积网络FCN，全卷积网络FCN对输入图像进行特征提取生成特征图，RPN对FCN输出层输出的特征图进行卷积生成新的特征图。在新的特征图中会选定若干个点，以每一个点为中心会生成9个不同大小的基准矩形框，其中矩形框选择了3种不同的长宽比分别为1:2、2:1、1:1以及3种不同大小的基础维数分别为128、256、512维；

在选择好矩形框后，对每一个矩形框进行两种判断，一种是分类的判断，判断每一个矩形框是属于前景信息还是背景信息，并给出属于这两类信息的得分scores；另一种是回归的判断，每一个矩形框都要输出矩形框中心点的横纵坐标(x,y)以及矩形宽度w和矩形高度h这4个数据来确定出矩形框所框选目标在特征图的像素位置；

而由于所选取的矩形框不可能每一次都把目标完全框住，因此需要对矩形框进行位置上的修正，矩形框的位置修正参数分别为t_x、t_y、t_w、t_h，修正公式如下：

x′＝wt_x+x

y′＝ht_y+y

w′＝wexp(t_w)

h′＝hexp(t_h)

其中，(x′,y′)为修正后矩形框中心点的横纵坐标，w和h分别为矩形框的宽度和高度，w′和h′分别为修正后矩形框的宽度和高度，修正后的矩形框可以将图像中的前景信息完全覆盖；

ROI子网利用了k×k×(c+1)个1×1×1024卷积核，

其中k表示对上述生成的候选区域矩形框在长宽方向进行等分的份数，一般取k＝3，即对每一个RoI进行9等分，对应的9个位置分别是：上左(左上角)，上中，上右，中左，中中，中右，下左，下中，下右(右下角)；c表示最终划分的类别数，由于还有背景信息，因此一共有(c+1)个类别；

ROI子网将FCN出的W×H×1024的特征图卷积生成新的W×H×9(c+1)的特征图，该特征图称为位置敏感分数图(position-sensitive score map)；

位置敏感分数图共有(c+1)层，每一层对应于一个类别，并且对于每一层都将RPN得到的每个RoI平均分成了9个子区域，划分的意义是为了让此RoI在每一个区域中都应含有类别c_i(i＝1,2,...,c+1)的各个部位，而当所有子区域都与某一目标的相应部位有较高的响应值时，那么分类器才会将该RoI判断为该类别；目标的各个部位和RoI的这些子区域是一一映射的对应关系；

通过RPN提取出来的RoI区域包含横纵坐标、长度、宽度这4个属性，也就是说不同的RoI区域能够对应到位置敏感分数图不同位置，而每个RoI都会分成9个子区域，每个子区域包含了多个位置敏感分数值，由于过多数据会对后续分类操作造成干扰，因此需要利用池化操作对数据进行压缩；对于每一个子区域bin(i,j),0≤i,j≤k-1，都要进行如下的池化操作：

其中，r_c(i,j|Θ)是子区域bin(i,j)对c个类别的池化响应，z_i,j,c是子区域bin(i,j)所对应的位置敏感分数图，(x₀,y₀)代表选定矩形框左上角的像素坐标，x和y分别是当前像素坐标对于左上角像素坐标的偏移量，Θ代表了网络学习所得到的参数，n是子区域bin(i,j)中的像素数目；i是所选子区域在矩形框中的行数，j是所选子区域在矩形框中的列数；

经过池化操作后9个子区域变为了9个位置敏感分数，分别代表了该位置对应该类别9个空间方位的得分，将这9个子区域的得分进行求和得到此RoI属于该类别的得分；最终对于(c+1)个类别，将池化层的输出按照维度求和得到一个(c+1)维的向量r_c(Θ)；

再将向量r_c(Θ)代入到多项逻辑斯特回归(Softmax)公式，就可以利用Softmax回归类方法获得所选矩形框中的目标属于每个类别的概率。

当将全部的概率计算完毕后按照最大概率原则对每个RoI进行归类，最终得知每个RoI所框选目标的类别信息；

为了确定网络训练时的准确程度和最佳迭代次数，需要设置相关的损失函数。当损失函数最终的训练输出值小于事前规定的阈值时，表示网络训练结果较好。

R-FCN网络的损失函数采用了多目标的损失函数，同时考虑了分类的损失和位置的损失；

在训练过程中，如果损失函数小于规定的阈值或者迭代次数达到上限时，即停止训练，得到训练好的R-FCN语义分割网络。

此时R-FCN模型中的各个参数都已经被调整到合适数值，可以进行目标检测与分类操作。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是，所述步骤六中基于步骤四的语义目标的角点在左右图像中对应的像素坐标差异和步骤五标定后的双目相机，利用双目视觉定位算法求解当前用户在步骤三建立的三维坐标系(室内场景)下相对于该目标的位置坐标及转向角，实现对用户的定位；具体过程为：

当我们利用R-FCN识别出用户图像中含有的语义目标以及解算出目标角点在用户图像中对应的像素坐标后，接下来我们将利用目标角点坐标在左右图像中的差异求解当前用户与该目标的距离，进而还原用户相对于该目标的三维坐标以及转向角信息。双目测距实质上是将目标点从像素坐标系转换到世界坐标系的过程，类似人类视觉识别物体距离远近的原理，它根据同一物体在左右相机成像的差异，通过在图像间形成的视差估算目标物体的深度信息。接下来，将对双目测距部分进行公式的推导。

步骤六一、世界坐标系O_w-XYZ到像素坐标系O₂-uv的转换；

步骤六二、对双目相机进行标定；

步骤六三、基于步骤六一和步骤六二，确定选取目标的左上角点在左相机坐标系下的坐标；

步骤六四、基于步骤六三确定的选取目标的左上角点在左相机坐标系下的坐标，将左相机坐标系中的任意一点转换到世界坐标系中；

步骤六五、基于步骤六四求解得到当前选定目标相对于用户的转向角。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是，所述步骤六一中世界坐标系O_w-XYZ到像素坐标系O₂-uv的转换；具体过程为：

双目视觉系统中使用的双目相机一般由左右两个水平放置且内部参数基本相同的相机组成，两个相机的成像过程均满足经典相机的针孔成像模型。在针孔成像的建模过程中，坐标系的建立是至关重要的部分。一般来说，真实世界中的物体形成我们在数字终端中所看到的图像总共经历了如下过程：首先，从世界坐标系映射至相机坐标系，属于三维坐标转换；其次，从相机坐标系投影到图像坐标系，属于三维坐标到二维坐标的映射；最后，从图像坐标系变换至最终的像素坐标系，属于二维坐标之间的转换等三个过程，转换过程如图3所示。下面将详细说明基于针孔成像模型的相机光学成像过程中的三个步骤：

(1)世界坐标系O_w-XYZ到相机坐标系O_c-UVW的转换；具体为：

世界坐标系O_w-XYZ与相机坐标系O_c-UVW都属于三维空间坐标系，二者之间的转换实质上是刚体变换，两个坐标系之间存在着旋转关系和平移关系，变换关系示意图如图4所示。

从数学的表述角度来看，可以用一个旋转矩阵R和一个平移向量t将二者联系起来，具体表达如式(1)所示：

其中，旋转矩阵R是一个3×3维矩阵；平移向量t是一个3×1维的向量，T为转置；O_w为世界坐标系圆心，X、Y、Z为世界坐标系下一点，O_c为相机坐标系圆心，U、V、W为世界坐标系下一点映射到相机坐标系下的点；

(2)相机坐标系O_c-UVW到图像坐标系O₁-xy的转换；具体为：

相机坐标系O_c-UVW与图像坐标系O₁-xy之间的转换关系满足相机的针孔成像模型，该模型对空间点进行一定比例的放缩操作，经过小孔O_c，投影到二维成像平面，由于该过程是三维坐标系到二维坐标系的转换，因此在转换过程中丢失了W轴代表的深度信息。设二维成像平面到小孔的距离为f，即相机的焦距，那么在忽略镜头畸变的情况下，两个坐标系之间的线性转换模型如图5所示。

由图5中可以看到，三角形ΔABO_C与三角形ΔO₁CO_C是相似三角形，三角形ΔPBO_C与三角形ΔpCO_C也是相似三角形，则有以下关系：

根据上式可以推出以下关系：

最终可以求解出相机坐标系O_c-UVW与图像坐标系O₁-xy的对应关系：

其中，其中f为相机的焦距，f的单位为毫米，则当前投影点p的单位也是毫米，

并不是像素，需要进一步转换到像素坐标系；O₁为图像坐标系圆心，x为图像坐标系横坐标，y为图像坐标系纵坐标；

(3)图像坐标系O₁-xy到像素坐标系O₂-uv的转换；具体为：

图像坐标系O₁-xy与像素坐标系O₂-uv都是二维的，并且它们都在成像平面上，只是各自的原点和度量单位不一样，因此它们之间的转换关系实质是尺度的放缩和坐标原点的平移。图像坐标系以相机的CCD传感器为基准，以毫米作为单位，而像素坐标系的单位为像素，描述一个像素点都是几行几列，所以两个坐标系的转换关系示意图如图6所示：

由图6可以看到，图像坐标系中的原点O₁在像素坐标系下的坐标变成了(u₀,v₀)，图像坐标系在x轴和y轴上单位距离内存在的像素数分别记做dx和dy，用来进行尺度上的变换，则存在以下变换关系：

通过式(3)也可以变换成如下形式：

其中，dx和dy的单位为毫米/像素；O₂为像素坐标系圆心，u为像素坐标系横坐标，v为像素坐标系纵坐标；

将式(1)、(2)、(4)联合，得到世界坐标系与像素坐标系的对应关系：

设

f_x和f_y称为有效焦距，单位为像素，则式(5)可以表达成如下形式：

其中，矩阵M表示相机的透视投影矩阵；矩阵M₁表示相机内部参数，它与相机的中心坐标、相机的焦距、CCD传感器的物理尺寸等相机内部参数有关，通常情况不会在使用过程中发生改变；矩阵M₂表示相机外部参数，它与相机的位置和世界坐标的设定有关，包括旋转矩阵R和平移向量t，描述了相机的位姿变换方式；相机标定过程即是确定矩阵M₁和矩阵M₂。标定出相机的内外部参数后，即得到该相机的透视投影矩阵M，进而可以对空间中任意点P(X,Y,Z)，解算出空间中任意点P(X,Y,Z)对应的像素坐标(u,v)。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述步骤六二中对双目相机进行标定；具体过程为：

然而在已知单目相机各参数的条件下，只能得到关于点P(X,Y,Z)的两个线性方程，将投影点确定到一条射线上。仅根据一个像素，我们无法确定这个空间点的具体位置。这是因为，从相机光心到归一化平面连线的所有点，都可以投影至该像素上，而无法唯一确定对应真实世界的三维坐标。因此，我们需要增加一个相机来获取点P的深度信息，只有当P的深度确定时，我们才能确切的知道它的空间位置，来唯一确定它在真实世界的三维坐标。

因此，本发明研究基于双目视觉的定位算法，那么相机内部参数和相对位姿关系表示的外部参数是必不可少的先验条件，我们需要通过双目相机标定过程来获取相机的内部参数和外部参数。

双目相机标定过程主要包括两个方面：一方面，需要分别标定两个相机获得各自内部参数；另一方面，需要通过两个相机的联合标定来计算相机之间的外部参数；

相机的内部参数矩阵K如公式(7)所示：

其中，s_x为偏斜系数，当u轴和v轴完全垂直时s_x＝0；f_x和f_y为有效焦距；(u₀,v₀)为图像主点实际位置的像素坐标。在实际应用过程中，通常情况下成像平面两个坐标轴近似垂直，因此可将s_x可看作0。

在双目视觉系统模型中，左右两个相机对同一物体从不同的角度进行拍摄，得到该物体在两个图像中的像素坐标并最终求解出左右两相机的外参数矩阵中的旋转矩阵R和平移向量t，表示两相机之间的位姿关系。假定左相机的旋转矩阵为R₁，平移向量为t₁；右相机的旋转矩阵为R₂，平移向量为t₂，两个相机处于同一世界坐标系中，则左相机和右相机的外部参数关系如式(8)所示：

从公式(8)可以看出，当通过单目视觉标定获得两个相机坐标系相对同一世界坐标系之间的旋转矩阵和平移向量时，便能够求解出两相机之间的外部参数。

其它步骤及参数与具体实施方式一至四之一相同。

具体实施方式六：本实施方式与具体实施方式一至五之一不同的是：所述步骤六三中基于步骤六一和步骤六二，确定选取目标的左上角点在左相机坐标系下的坐标；具体过程为：

对于双目视觉系统而言，假定世界坐标系中的一点P在左相机坐标系中的坐标表示为(U_l,V_l,W_l)^T，在右相机坐标系中的坐标表示为(U_r,V_r,W_r)^T，那么根据世界坐标系与相机坐标系之间的转换关系就可以建立起左右相机坐标系之间的坐标映射关系，表达式如式(9)所示：

其中，R为左右相机之间的旋转矩阵，为一个3×3矩阵；t为左右相机之间的平移向量，为一个3维向量；R和t联合构成了双目相机的外部参数，两个参数R和t各自的表达式如式(10)所示：

其中，r₁、r₂、r₃、r₄、r₅、r₆、r₇、r₈、r₉为左右相机之间的旋转矩阵R中系数，t_x、t_y、t_z为左右相机之间的平移向量t中系数；

此时将式(9)求得的点P在右相机坐标系中的坐标(U_r,V_r,W_r)^T代入到右相机坐标系与图像坐标系之间的投影关系式(2)中，并利用相机坐标系中坐标与像素坐标系中坐标之间的映射关系，得出以下关系：

其中，x_r为右相机像素坐标系中角点的横坐标，y_r为右相像素机坐标系中角点的纵坐标，f_r为右相机的焦距，x_l为左相机像素坐标系中角点的横坐标，y_l为左相机像素坐标系中角点的纵坐标，f_l为左相机的焦距；W_r为右相机坐标系中的坐标点，作为比例系数；

此时将式(11)中第一行和第三行的方程联立，由此求解出点P在左相机坐标系中的坐标(U_l,V_l,W_l)^T的表达式，如式(12)所示：

由公式(12)看出，根据语义分割网络可以识别出左图像中选取目标的左上角点的像素坐标

和右图像中目标的左上角点的像素坐标

那么根据像素坐标系与图像坐标系之间的缩放和平移关系计算出左图像中目标左上角点在图像坐标系中的坐标

和右图像中目标左上角点在图像坐标系中的坐标

代入到公式(12)中即可求解出选取目标的左上角点在左相机坐标系下的坐标

即完成了双目测距工作；

通过上述双目测距的推导公式，得出了选取目标的左上角点在双目视觉采集平台的左相机坐标系下的位置坐标。理论上说，如果知道以相机光心为原点的左相机坐标系和以目标左上角点为原点建立的世界坐标系之间的旋转角信息，便可以通过旋转矩阵和平移向量完成上述坐标系之间的转换，从而计算出左相机在世界坐标系下的位置坐标，即完成用户定位。

其它步骤及参数与具体实施方式一至五之一相同。

具体实施方式七：本实施方式与具体实施方式一至六之一不同的是：所述步骤六四中基于步骤六三确定的选取目标的左上角点在左相机坐标系下的坐标，将左相机坐标系中的任意一点转换到世界坐标系中；具体过程为：

因此，接下来需要进行左相机坐标系和世界坐标系之间的旋转角信息的求解。世界坐标系O_w-XYZ和左相机坐标系O_cl-UVW均满足左手坐标系的建立准则，并且规定了顺时针方向为旋转的正方向；并且本文在建立过程中保证了世界坐标系的X-Y平面和左相机坐标系的U-W平面均与地面平行。因此，按照坐标系转换关系的理论，将左相机坐标系中的任意一点(U_l,V_l,W_l)^T转换到世界坐标系中的点(X,Y,Z)^T，表示成如下形式：

其中，(U₀,W₀,V₀)^T是选取的目标左上角点在左相机坐标系下的坐标；R_r为旋转矩阵；涉及旋转矩阵公式的计算是不一样的，前面旋转矩阵R是一个三乘三的矩阵，它是放在一个四乘四的一个矩阵里进行乘的，公式13是在这个世界坐标系下与这个相机坐标系之间的一个三乘三的一个成的，他们虽然都表示这个旋转矩阵，但最后实际的乘的效果是不一样的，所以需要换一个表达形式；

由公式(13)可以看到，上述的坐标转换可以分为两个步骤；

第一个步骤是坐标系的平移，将左相机坐标系的原点O_cl平移到世界坐标系的原点O_w处，用平移向量t_r＝(U₀,W₀,V₀)^T表示原点O_cl和原点O_w之间的平移关系，平移向量t_r＝(U₀,W₀,V₀)^T向量也是选定目标左上角点在左相机坐标系下的位置坐标；

第二个步骤是坐标系的旋转，将左相机坐标系中的U-W平面绕V轴顺时针地旋转θ度至世界坐标系的X-Y平面，可以通过一个旋转矩阵R_r来代表相机坐标系与世界坐标系的旋转关系，R_r的表达式如式(14)所示：

其中，θ即为相机坐标系与世界坐标系间的旋转角。

其它步骤及参数与具体实施方式一至六之一相同。

具体实施方式八：本实施方式与具体实施方式一至七之一不同的是：所述步骤六五中基于步骤六四求解得到当前选定目标相对于用户的转向角；具体过程为：

在选取的目标上边沿选取任意一点Q，该点在世界坐标系中的坐标为(0,YQ,0)，在左相机坐标系下的坐标为(UQ,WQ,VQ)，那么根据公式(13)即可得到如下的对应关系：

通过将式(15)三个方程的联立，可以得出以下关系：

Q点通过坐标系的转换在左相机坐标系下的坐标(U_Q,W_Q,V_Q)可以表示为式(16)的形式，接下来还需要将该点转换到图像坐标系中，这是以一个从三维坐标系转换到二维坐标系的过程，该过程符合针孔成像模型，转换过程丢失了深度信息。现假设Q点在左相机坐标系下的坐标(U_Q,W_Q,V_Q)转换到图像坐标系下的坐标为(xQ,yQ)，则根据相机坐标系和图像坐标系之间的转换关系，求解出如下关系：

其中，f为相机的焦距，可由相机内参的标定求解得到；此时将式(16)代入到式(17)中，得到关于图像坐标系下的坐标(xQ,yQ)的方程：

由式(18)看出，现已将选定目标上边沿任意一点在世界坐标系下的坐标Q(0,YQ,0)转换到了图像坐标系中的坐标(xQ,yQ)处；

通过语义分割网络求解得到左图像中选定目标左上角点和右上角点的像素坐标

以及右图像中选定目标左上角点和右上角点的像素坐标

由此计算出选定目标上边沿在像素坐标系下的直线方程；

由此将选定目标上边沿在像素坐标系下的直线方程转换到图像坐标系中表示成如下的形式：

xQ+byQ+c＝0 (19)

其中，b为系数，c为系数；

由式(19)看出公式(19)对于在图像坐标系下选定目标上边沿这条直线的表达形式与式(18)的表达形式一样，由此得到以下关系：

c＝-ftanθ (20)

其中，焦距f也是已知量。因此，可以求解出世界坐标系与相机坐标系间的旋转角θ的值：

由于用户当前所在的位置为左相机坐标系下的原点O_cl(0,0,0)^T，将原点O_cl(0,0,0)^T与式(21)求解得到的旋转角θ一同带入到式(13)中，即求解得到当前用户在世界坐标系下的位置坐标(X_p,Y_p,Z_p)^T；

解算得到当前用户相对于选定目标的位置坐标后，还需要求解当前目标相对于用户的转向角Φ。此时我们忽略用户与选定目标的高度差，由于Y_p代表了当前用户与目标沿相机镜头方向的距离，X_p代表了当前用户与目标垂直相机镜头方向的距离，因此我们可以基于得到的当前用户在世界坐标系下的位置坐标，求解得到当前选定目标相对于用户的转向角Φ；

由于我们求解的坐标值X_p和Y_p是自带正负的，因此最终解算得到的转向角Φ也是有正负的，当转向角Φ的值大于0时，说明当前目标在用户的右侧；当转向角Φ的值小于0时，说明当前目标在用户的左侧；当转向角Φ的值大于0时，说明当前目标在用户的正前方。

以上是本文提出的基于语义目标的双目视觉定位算法的全部公式推导。在该算法中，首先利用语义分割网络求解出了选定语义目标在左右两张图像中各个角点所对应的像素坐标，然后基于这些像素坐标利用上述推导的坐标系转换关系求解出了当前用户在室内场景下相对于选定目标的位置坐标以及转向角，最终完成了对用户的视觉定位服务。

其它步骤及参数与具体实施方式一至七之一相同。

具体实施方式九：本实施方式与具体实施方式一至八之一不同的是：所述当前用户在世界坐标系下的位置坐标(X_p,Y_p,Z_p)^T的表达式为：

其中，Y_p代表当前用户与目标沿相机镜头方向的距离，X_p代表当前用户与目标垂直相机镜头方向的距离，Z_p代表当前用户与目标的垂直高度差。

其它步骤及参数与具体实施方式一至八之一相同。

具体实施方式十：本实施方式与具体实施方式一至九之一不同的是：所述当前选定目标相对于用户的转向角Φ的表达式为：

其它步骤及参数与具体实施方式一至九之一相同。

采用以下实施例验证本发明的有益效果：

实施例一：

结果分析

为了验证本发明所提方法的可行性，需要选取一个实验场景进行测试。本发明的实验环境为哈工大科学园2A栋12楼走廊，该实验场景的平面图如图7所示。在该实验场景中需要进行将拍摄的图像作为训练集对R-FCN语义分割网络模型进行训练。在训练前本文需要对训练集中的每一张照片都进行语义信息的标注。本发明将走廊内的语义分为了10类，分别为：门，窗，暖气片，消防栓，垃圾桶，通风口，海报，展览板，安全出口标识和背景类。标注好的训练图像如图8所示。

当所有图像都标注完成后放入到网络模型中进行训练。当网络训练完毕时，为了验证R-FCN进行图像语义分割的准确性，需要再拍摄几张测试图像来验证R-FCN目标识别的准确性，用户图像经过R-FCN的输出结果如图9a、9b、9c、9d所示。

由图9a、9b、9c、9d中可以看到红色框中为R-FCN识别出的语义目标，上方对应的蓝色框中标注了该语义目标所属的类别以及属于该种语义类别的概率。识别时设置识别概率的阈值为0.8，当高于这一阈值时认为识别是正确的并显示出对应的矩形框。从图中可以看到，绝大多数的语义目标都能被正确地识别出来，但仍然存在少量未能识别出来的目标。本发明为了验证R-FCN对于每一个类别识别的准确度，对大量的测试图像进行语义识别，最终的结果如表1所示。

由表1的统计数据可以看出，R-FCN识别9类语义目标的识别准确率都在95％以上，具有较高的识别精度，因此可以利用该网络模型对用户图像进行语义目标的识别。当利用R-FCN进行语义目标识别时，本发明还需要给出识别出的每一个目标在用户图像中对应的像素区域，以便于可以利用相机成像模型根据像素坐标还原出其在现实世界的三维坐标。R-FCN在识别出图像中的语义目标后还会相应输出4个数据，分别是框选出语义目标的矩形框的左上角点像素坐标(x₁,y₁)以及右下角点像素坐标(x₂,y₂)，利用这4个值我们就可以求解出对应语义目标在图像中的具体位置。对于同一张图像中含有多个相同类别语义目标的情况，同样可以根据输出的像素坐标中像素值的大小判断其在真实世界的位置关系。本发明为了验证R-FCN输出语义目标对应像素值的准确度，对50幅图像中含有的语义目标进行验证，对比每个语义目标输出对应角点的像素值与其在图像真实的像素值，最终的结果如图10所示。

表1 R-FCN对于不同目标的识别准确率

图10为R-FCN输出语义目标对应像素坐标的误差示意图，其中，横坐标代表像素坐标的误差，纵坐标代表累计分布，即CDF。那么，通过分析可以看出，90％的像素坐标的输出误差都在3个像素以内。本发明利用双目视觉采集平台采集到的图像尺寸为1280×960像素，因此输出结果的像素误差基本上可以忽略不计，说明输出图像中语义目标对应的像素坐标具有较高的精度。

当利用R-FCN求解出选定目标角点在相机拍摄的左右图像中对应的像素坐标后，要利用本文提出的双目视觉定位算法解算得到用户的三维坐标以及转向角信息。因此在进行定位前首先要进行双目相机的标定。本发明使用的双目相机分辨率为1280×960，标定时采用张正友标定法分别对左右两个相机进行内参的标定，标定结果如表2所示，内参矩阵中各个参数的单位均为像素。

表2相机内参标定结果

标定完内参后开始对两个相机之间的外参进行标定，由于内参已知，因此可以利用两个相机同时对标定板拍照，利用图像中提取角点的对应关系求得左右两个相机之间的外参，即其旋转矩阵R和平移向量t，得到的结果如式(32)所示。其中，旋转矩阵R没有单位，平移向量的单位为毫米。

t＝[-200.544 0.053 1.277]^T

至此，完成了双目相机的标定工作，得到了左右两个相机的内部参数以及两相机间的外部参数。接下来用户可以利用标定好的双目相机对室内环境进行图像的拍摄，并基于标定好的参数实现双目视觉定位工作。

下面对本发明提出的基于语义目标的双目视觉定位方法的定位精度进行验证，通过实验绘制的定位误差曲线如图11所示。由图中的CDF曲线可以看出，本文提出的方法最大的定位误差可以控制在70cm以内，有90％的概率控制在40cm之内。当对定位误差进行实验验证后，还需要对求解的目标相对于用户的转向角的精度进行验证，得到的角度误差曲线如图12所示。由图12可以看出，本节提出的算法计算目标相对于用户的转向角误差有90％的概率处在±9°之内，最大误差在10°左右。考虑到实验设备在测量时也会产生一些微小误差，因此上述的误差非常微小，对定位结果造成的影响不大，因此夹角的计算结果满足精度要求。

本发明提出了一种基于语义目标的双目视觉定位方法，通过实验表明，该方法可以解算得到用户相对于当前室内环境中不同目标的位置坐标和转向角信息，且求解的三维坐标以及转向角都具有较高的精度，可以提供给用户一个快速、准确的室内定位服务。

本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，本领域技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于语义目标的双目视觉定位方法，其特征在于：所述方法具体过程为：

2.根据权利要求1所述一种基于语义目标的双目视觉定位方法，其特征在于：所述步骤二中训练好的R-FCN语义分割网络的具体训练过程为：

R-FCN网络的损失函数采用了多目标的损失函数；

3.根据权利要求2所述一种基于语义目标的双目视觉定位方法，其特征在于：所述步骤六中基于步骤四的语义目标的角点在左右图像中对应的像素坐标差异和步骤五标定后的双目相机，利用双目视觉定位算法求解当前用户在步骤三建立的三维坐标系下相对于该目标的位置坐标及转向角，实现对用户的定位；具体过程为：

步骤六一、世界坐标系O_w-XYZ到像素坐标系O₂-uv的转换；

步骤六二、对双目相机进行标定；

4.根据权利要求3所述一种基于语义目标的双目视觉定位方法，其特征在于：所述步骤六一中世界坐标系O_w-XYZ到像素坐标系O₂-uv的转换；具体过程为：

(1)世界坐标系O_w-XYZ到相机坐标系O_c-UVW的转换；具体表达如式(1)所示：

(2)相机坐标系O_c-UVW到图像坐标系O₁-xy的转换；具体为：

相机坐标系O_c-UVW与图像坐标系O₁-xy的对应关系：

其中，其中f为相机的焦距；O₁为图像坐标系圆心，x为图像坐标系横坐标，y为图像坐标系纵坐标；

(3)图像坐标系O₁-xy到像素坐标系O₂-uv的转换；具体为：

图像坐标系中的原点O₁在像素坐标系下的坐标变成了(u₀,v₀)，图像坐标系在x轴和y轴上单位距离内存在的像素数分别记做dx和dy，用来进行尺度上的变换，则存在以下变换关系：

通过式(3)也可以变换成如下形式：

设

其中，矩阵M表示相机的透视投影矩阵；矩阵M₁表示相机内部参数；矩阵M₂表示相机外部参数；

标定出相机的内外部参数后，即得到该相机的透视投影矩阵M，进而可以对空间中任意点P(X,Y,Z)，解算出空间中任意点P(X,Y,Z)对应的像素坐标(u,v)。

5.根据权利要求4所述一种基于语义目标的双目视觉定位方法，其特征在于：所述步骤六二中对双目相机进行标定；具体过程为：

相机的内部参数矩阵K如公式(7)所示：

其中，s_x为偏斜系数，当u轴和v轴完全垂直时s_x＝0；

假定左相机的旋转矩阵为R₁，平移向量为t₁；右相机的旋转矩阵为R₂，平移向量为t₂，两个相机处于同一世界坐标系中，则左相机和右相机的外部参数关系如式(8)所示：

6.根据权利要求5所述一种基于语义目标的双目视觉定位方法，其特征在于：所述步骤六三中基于步骤六一和步骤六二，确定选取目标的左上角点在左相机坐标系下的坐标；具体过程为：

其中，x_r为右相机像素坐标系中角点的横坐标，y_r为右相像素机坐标系中角点的纵坐标，f_r为右相机的焦距，x_l为左相机像素坐标系中角点的横坐标，y_l为左相机像素坐标系中角点的纵坐标，f_l为左相机的焦距；

根据像素坐标系与图像坐标系之间的缩放和平移关系计算出左图像中目标左上角点在图像坐标系中的坐标

和右图像中目标左上角点在图像坐标系中的坐标

即完成了双目测距工作。

7.根据权利要求6所述一种基于语义目标的双目视觉定位方法，其特征在于：所述步骤六四中基于步骤六三确定的选取目标的左上角点在左相机坐标系下的坐标，将左相机坐标系中的任意一点转换到世界坐标系中；具体过程为：

世界坐标系O_w-XYZ和左相机坐标系O_cl-UVW均满足左手坐标系的建立准则，并且规定了顺时针方向为旋转的正方向；将左相机坐标系中的任意一点(U_l,V_l,W_l)^T转换到世界坐标系中的点(X,Y,Z)^T，表示成如下形式：

其中，(U₀,W₀,V₀)^T是选取的目标左上角点在左相机坐标系下的坐标；R_r为旋转矩阵；

由公式(13)可以看到，上述的坐标转换可以分为两个步骤；

第一个步骤是坐标系的平移，将左相机坐标系的原点O_cl平移到世界坐标系的原点O_w处，用平移向量t_r＝(U₀,W₀,V₀)^T表示原点O_cl和原点O_w之间的平移关系；

第二个步骤是坐标系的旋转，通过一个旋转矩阵R_r来代表相机坐标系与世界坐标系的旋转关系，R_r的表达式如式(14)所示：

其中，θ即为相机坐标系与世界坐标系间的旋转角。

8.根据权利要求7所述一种基于语义目标的双目视觉定位方法，其特征在于：所述步骤六五中基于步骤六四求解得到当前选定目标相对于用户的转向角；具体过程为：

在选取的目标上边沿选取任意一点Q，该点在世界坐标系中的坐标为(0,Y_Q,0)，在左相机坐标系下的坐标为(U_Q,W_Q,V_Q)，那么根据公式(13)即可得到如下的对应关系：

通过将式(15)三个方程的联立，可以得出以下关系：

假设Q点在左相机坐标系下的坐标(U_Q,W_Q,V_Q)转换到图像坐标系下的坐标为(x_Q,y_Q)，则根据相机坐标系和图像坐标系之间的转换关系，求解出如下关系：

其中，f为相机的焦距；此时将式(16)代入到式(17)中，得到关于图像坐标系下的坐标(x_Q,y_Q)的方程：

由式(18)看出，现已将选定目标上边沿任意一点在世界坐标系下的坐标Q(0,Y_Q,0)转换到了图像坐标系中的坐标(x_Q,y_Q)处；

以及右图像中选定目标左上角点和右上角点的像素坐标

由此计算出选定目标上边沿在像素坐标系下的直线方程；

x_Q+by_Q+c＝0 (19)

其中，b为系数，c为系数；

c＝-f tanθ (20)

求解出世界坐标系与相机坐标系间的旋转角θ的值：

基于得到的当前用户在世界坐标系下的位置坐标，求解得到当前选定目标相对于用户的转向角Φ；

当转向角Φ的值大于0时，说明当前目标在用户的右侧；当转向角Φ的值小于0时，说明当前目标在用户的左侧；当转向角Φ的值大于0时，说明当前目标在用户的正前方。

9.根据权利要求8所述一种基于语义目标的双目视觉定位方法，其特征在于：所述当前用户在世界坐标系下的位置坐标(X_p,Y_p,Z_p)^T的表达式为：

10.根据权利要求9所述一种基于语义目标的双目视觉定位方法，其特征在于：所述当前选定目标相对于用户的转向角Φ的表达式为：