CN115810025A

CN115810025A - 一种基于uwb和视觉的室内行人定位方法及系统

Info

Publication number: CN115810025A
Application number: CN202111067435.4A
Authority: CN
Inventors: 彭萍萍; 余超; 夏祺皓; 顾恒豪; 郑正奇; 赵昆; 陈雯; 黄帅; 纪文清
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-03-17

Abstract

本发明公开了一种基于UWB和视觉的室内行人定位方法，该方法需布置至少四个UWB基站，并在室内定位区域上方安装单目摄像头。在定位过程中，行人手持UWB标签，该标签可以向UWB基站发射脉冲信号，并为行人提供唯一ID号。摄像头采集接口实时获取拍摄到的画面，并将图像送入Yolov3算法的网络模型中检测行人，最后通过改进的DeepSort算法跟踪画面中的行人。在仅由图像定位过程中，一旦检测到行人目标后，将目标用矩形框框定，再采用足底像素坐标换算为世界坐标。该坐标会与仅由UWB定位的结果进行欧氏距离匹配，匹配后行人的UWB标签ID号会和DeepSort跟踪的行人ID号产生关联，此时行人的真实坐标可由图像定位和UWB定位做均值滤波后得到。本发明还公开了实现上述方法的系统。

Description

一种基于UWB和视觉的室内行人定位方法及系统

技术领域

本发明属于信息工程技术领域，涉及一种基于UWB和视觉的室内行人定位方法及系统。

背景技术

近年来，随着基于位置服务应用的快速发展，定位技术越来越得到人们的关注与研究。在一些特殊场景，如监狱、医院、养老院、商业化服务、园区、景区以及在仓储服务领域中，高精度的室内定位技术有着非常重要的意义，是某些应用的基础条件。然而目前成熟的定位服务限于室外场景，卫星定位系统如GPS、北斗等GNSS已经能够较好地解决室外定位问题，但在室内以及其他遮蔽环境下卫星信号强度和质量急速下降。因此提出了许多采用例如WiFi、蓝牙、红外线、超宽带、RFID、ZigBee和超声波等信号实现室内定位，但由于室内环境复杂，无线信号易产生多径效应等干扰，采用单一的技术手段很难实现精准定位。

发明内容

针对上述问题，为了提高室内定位的精度和降低DeepSort算法误检率，本发明提出了一种基于UWB和视觉的室内定位方法及系统，将计算机视觉中的目标检测跟踪算法应用到室内定位中，同时UWB可为监控盲区持续提高空间定位信息。该方法首先由UWB基站通过计算机结算获得行人的粗定位值以及UWB标签ID，同时利用单目视觉目标检测方法检测跟踪视频中的行人目标，通过构建像素-世界坐标转换模型实现室内行人单相机亚米级精确三维定位。随后利用视觉定位值与UWB定位值实现行人身份识别与定位值矫正，并利用UWB定位信息补充监控相机视觉盲区中的行人运动轨迹，实现被动视觉与主动UWB的协同定位。

DeepSort是在Sort目标追踪基础上的改进。引入了在行人重识别数据集上离线训练的深度学习模型，在实时目标追踪过程中，提取目标的表观特征进行最近邻匹配，可以改善有遮挡情况下的目标追踪效果。同时，也减少了目标ID跳变的问题。在此基础上，引入的超宽带脉冲信号的带宽在纳秒级，由定时来计算位置时，引入的误差通常小于几厘米。将视觉与UWB相结合能显著提高多相机室内监控系统的空间定位能力，为大型室内场景安防与智能管理提供理论与技术支撑。

本发明提供的一种基于UWB和视觉的室内行人定位方法是通过以下方案实现的，具体包括以下步骤：

步骤1：在室内布置若干UWB基站，同时在定位区域斜上方安装摄像头，并将拍摄到的视频流实时传输到本地工作台；

步骤2：在定位过程中，行人手持可以发射信号的UWB标签，UWB基站接收到标签发送出的脉冲信号后将时间戳传输给本地服务器，采用chan+taylor算法解算行人坐标位置；

步骤3：摄像头获取实时画面，将获取的视频流送入Yolov3算法的网络模型中进行目标检测，然后将检测结果中‘行人’的类别送入改进后的DeepSort算法，所述改进后的DeepSort算法为每个行人生成唯一的追踪器；

步骤4：采用像素-世界坐标转换模型，将行人足底坐标即行人目标矩形框下边中点的像素点坐标换算成世界坐标；

步骤5：将图像定位的坐标结果与UWB定位的坐标结果进行欧氏距离匹配，使得同一个目标行人的UWB标签ID和追踪器ID进行关联；

步骤6：由图像定位和UWB定位结果均值滤波后得到行人的真实坐标。

步骤1中，所述UWB基站由一个主时钟基站与多个从基站组成，利用不少于四个基站的已知位置坐标和伪距值，通过chan+taylor算法求取移动UWB标签的精确坐标。

步骤2中，所述chan+taylor中，系统首先利用Chan算法和UWB标签的伪距值来计算UWB标签的初始位置，且将该初始位置带入到Taylor算法中。然后在Taylor算法的多次迭代计算中不断调整UWB标签坐标。当某次UWB标签坐标的泰勒迭代增量即|Δx|+|Δy|小于设定的阈值δ时，退出Taylor算法的迭代，并输出UWB标签的最终估计坐标。阈值设定越小，精度越高，迭代次数越大即数据计算量增大，没有具体的限制。

步骤3中，所述对DeepSort的改进是指将原先统一不变的参数max-age采用根据检测目标出现的区域动态分配，在不增加运算资源占用的前提下提高了再识别率。

步骤3中，为了解决跟踪目标丢失一段时间后再重新出现的再识别问题，还需要在视频的第一帧图像上使用opencv2中的selectROI方法划出行人可以离开该画面的出口区域(area-A)，该区域大小和个数可根据具体场景动态调整；检测行人目标特征值的最大存储时间max-age根据不同的划分区域设为不同的值。所述目标特征值的最大储存时间max-age的大小可根据需求进行调整，同时max-age的大小没有特定的范围限制，可以根据实际检测需要进行设定，若需要提高相应的检测精度而不在意检测速率，则可以将max-age取较大的值；若主要是提高检测速率而可以牺牲检测精度，则可以将max-age取较小的值；根据不同的划分区域设定不同的max-age的值相较于各区域设置为同一max-age值，可以有效提高检测精度。

根据目标离开画面的概率设置所述目标特征值的存储时间max-age，所述max-age一般可以取0-200，不设上限。若由Yolov3网络模型检测后的行人目标检测框采用逻辑判断后落入area-A内，则表示该目标正处于出口处，有极大概率离开该画面，因此可以将该行人目标特征值的存储时间即max-age设为较小值，反之则设为较大值。该动态分配max-age值的方法可更加合理的删去若干帧没有匹配到检测结果的追踪器，所以在不增加运算资源占用的前提下提高了再识别率；

所述行人目标检测框是否落入area-A的判断方法为：以图像的左上角为笛卡尔坐标系原点(0，0)，从Yolov3算法中提取目标检测框的左上角坐标(x₁,y₁)和右下角坐标(x₂,y₂)，area-A左上角坐标为(x’₁,y’₁)，右下角坐标为(x’₂,y’₂)；取行人目标检测框下边框中点的坐标，即为

该坐标为行人的足底坐标，将此坐标重新标记为(a,b)。当a＞x’₁，a＜x’₂并且b＞y’₁，b＜y’₂时，即判定目标行人处于area-A内，则表示该目标正处于出口处，有极大概率离开该画面，因此可以将该目标特征值的存储时间即max-age调低。否则均判定目标行人处于area-A外。

为了提高在线定位的实时性，本发明在改进后的DeepSort算法的级联匹配中采用了哈希算法，将输入的当前所有追踪器的更新值全部取出进行排序，然后依次分别从小到大取出更新值所对应的追踪器进行级联匹配，保留了优先权的思想但不需要循环max-age次，提高了算法的运行速度。

所述级联匹配的流程如下：

(1)采用cv2.selectROI方法划定画面中行人可以离开的区域area-A；

(2)将区域area-A内外的行人根据离开画面的概率设置大小不同的max-age值；例如，对于区域area-A内的行人设置max-age为20，区域area-A外的行人设置为50；

(3)分配追踪器ID和检测结果ID；

(4)由哈希算法取出追踪器的更新值进行排序后根据优先级计算余弦距离代价矩阵；

(5)计算卡尔曼预测的每个追踪器平均轨道的位置和实际检测结果的检测框间的平方马氏距离代价矩阵；

(6)在余弦距离代价矩阵中，将马氏距离大于9.4877的跟踪器的余弦距离置为10000(相当于设为无穷大)，方便后续删除；

(7)使用Hungarian算法对追踪器和检测结果进行匹配，并返回匹配结果；

(8)对匹配结果进行筛选，删去外观特征差距大于0.5的匹配，即余弦距离过大；

(9)若所有追踪器都已进行匹配运算，则得到初步的匹配结果，未配对成功的追踪器和未配对成功的检测结果；若还有追踪器未进行匹配运算，则回到步骤(4)继续运行。

步骤4中，所述像素点坐标换算成世界坐标的步骤如下：

4.1、视频图像行人检测得到的结果是像素坐标，将像素坐标(u,v)转变为图像坐标(x,y)的计算公式为：

式中dx，dy表示每个像素在坐标轴方向上的物理尺寸，单位为mm/像素；(u₀,v₀)表示二维平面坐标系原点的平移量；

将上式转变为矩阵形式可得：

4.2、将图像坐标(x,y)转换为相机坐标属于透视投影变换，在假定焦距f已知的情况下，可通过如下公式进行转换：

式中，(x_c,y_c,z_c)表示相机坐标系下的三维坐标；

4.3、将相机坐标转换为世界坐标涉及到坐标的旋转和平移，绕着不同的坐标轴旋转不同的角度，可由以下公式计算得出世界坐标(x_w,y_w,z_w)：

式中，R为旋转矩阵，T为偏移矩阵，假设绕x轴旋转的角度为α，y轴旋转的角度为β，z轴旋转的角度为γ，则R可表示为：

进一步地，步骤5中，欧氏距离匹配算法包括：将计算机解算得到的单UWB定位坐标与所有单视觉定位的坐标分别逐一计算其欧氏距离，计算公式如下所示：

式中x＝(x₁,...,x_n),y＝(y₁,...,y_n)表示n维空间中的两个点。

计算得到所有欧式距离后，取使得该值最小的单视觉定位坐标与单UWB定位坐标进行配对，即将追踪器ID和UWB标签ID进行关联。

步骤6中，所述均值滤波方法为将仅由UWB定位的坐标与所有的仅由视觉定位的坐标取平均值作为行人的真实坐标，设仅由UWB定位的坐标为(x_a,y_a)和仅由视觉定位的坐标为(x_b,y_b)，则取

为行人的真实坐标。

本发明方法中，UWB为跟踪算法提供行人ID信息，同时在摄像头盲区对行人进行持续定位，本发明中使用的图像定位具有连续性，改进的DeepSort跟踪定位结果辅助UWB定位，提高整个方法的定位精度。

本发明还提供了一种实现上述基于UWB和视觉的室内定位方法的系统，所述系统包括：用于采集室内行人视频并转化为数字信号传到本地的网络摄像头、用于运行深度学习算法和解算UWB定位结果的工作站、基于UWB的室内定位系统、用于配置网络的路由器。

其中，所用的网络摄像头支持rtsp视频传输协议，将采集的视频流传入工作站进行处理；所用的工作站拥有3070GPU进行图像的检测和目标的跟踪。UWB的室内定位系统中硬件部分有至少四个UWB基站，一个UWB标签，一个由光纤连接定位基站和工作站的交换机，用于各从基站与服务器的数据转发，软件部分有用于解算位置的chan+Taylor协同定位算法。所用路由器为双频千兆无线路由器，型号为AC1900。

本发明的有益效果包括：

本发明优化了DeepSort算法，将原先统一不变的参数max-age采用根据检测目标出现的区域动态分配的方法，该值为检测目标特征值的最大存储时间，当已经确认的跟踪器连续max-age帧没能匹配检测结果该特征信息便会被删除。该方法可更加合理的设置max-age值，在不增加运算资源占用的前提下提高了再识别率。在原先的DeepSort算法中，若max-age值统一过小则容易导致跟踪目标丢失一段时间后再重新出现的无法识别的问题，若该值过大则会容易导致内存溢出并且代码运行时间过长，无法满足在线定位的实时性。本发明在摄像头传回工作站的第一帧使用opencv的selectROI方法划定画面中行人可以离开的出口区域，为该区域内检测出的目标赋予较小的max-age值，因为当检测目标出现在该范围内时，则表示该目标正处于出口处，有极大概率离开该画面，故该目标的特征信息保存时间可以相对缩减，释放出的内存可用来保存该范围以外的目标特征信息。该方法中设置了出口区域area-A，可有效的提高目标的再识别率，避免跟踪器ID的大量切换。

为了提高在线定位的实时性，本发明在级联匹配中采用了哈希算法，将输入的当前所有跟踪器的更新值全部取出进行排序，然后依次分别从小到大取出更新值所对应的跟踪器进行级联匹配，保留了优先权的思想但不需要循环max-age次，提高了算法的运行速度。

本发明提出的一种将视觉与UWB协同定位的方法，利用UWB标签ID与DeepSort跟踪器ID的唯一性，首先可以在视频第一帧将仅由视觉定位值与仅由UWB定位值进行欧式距离匹配，然后使得UWB标签ID与DeepSort跟踪器ID进行关联，最后把两者定位信息均值滤波后作为行人的最终定位结果。视觉定位的连续性和稳定性可以有效减少UWB定位的误差，提高定位精度，同时利用UWB定位信息补充监控相机视觉盲区中的行人运动轨迹。

附图说明

图1是本发明室内定位方法的流程图。

图2是本发明中Yolov3算法模型图。

图3是本发明中改进后的DeepSort算法中级联匹配的流程图。

图4是本发明中使用selectROI方法画出口区域的示意图(黑框内即为出口区域)。

图5是本发明中本发明实际运行时的效果图。

图6是本发明实施例2拍摄视频的第7秒处检测到的行人图像。

图7是本发明实施例2常规DeepSort算法中行人再识别时的标签图像。

图8是本发明实施例2改进后的DeepSort算法中行人再识别时的标签图像。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明方法需布置四个UWB基站，其中一个为主基站，并在室内定位区域上方安装单目摄像头。在定位过程中，行人手持UWB标签，该标签不仅可以向UWB基站发射脉冲信号，还可以为行人提供唯一ID号。采集摄像头接口实时获取拍摄到的画面，并将图像送入Yolov3算法的网络模型中检测行人，最后通过改进的DeepSort算法跟踪画面中的行人。在仅由图像定位过程中，一旦检测到行人目标后，将目标用矩形框框定，再采用足底像素坐标换算为世界坐标。该坐标会与仅由UWB定位的结果进行欧氏距离匹配，匹配后行人的UWB标签ID号会和DeepSort跟踪的行人ID号产生关联，此时行人的真实坐标可由图像定位和UWB定位做均值滤波后得到。

本发明中，“跟踪器”和“追踪器”的含义相同。

本发明提出了一种基于UWB和视觉的室内行人定位系统，包括：用于监控定位区域并转化为数字图像信号传到本地的网络摄像头、用于运行深度学习算法和解算UWB定位结果的工作站、用于室内定位的UWB系统、用于配置网络的路由器。

其中，所用的网络摄像头支持rtsp视频传输协议，将采集的视频流传入工作站进行处理。所用的工作站拥有3070GPU进行图像的检测和行人的目标跟踪UWB的室内定位系统中硬件部分有四个UWB基站，一个UWB标签，一个由光纤连接定位基站和工作站的交换机，用于各从基站与服务器的数据转发，软件部分有用于解算位置的chan+Taylor协同定位算法。所用路由器为双频千兆无线路由器，型号为AC1900。

本发明还提出了一种利用上述系统进行室内多目标定位的方法，如图1为本发明室内定位方法的流程图，具体包括以下步骤：

步骤1中，所述UWB基站的布置位置要求为由一个主时钟基站与多个从基站组成，利用不少于四个基站的已知位置坐标和伪距值，通过chan+taylor算法求取移动标签的精确坐标。

步骤2中，所述chan+taylor算法为系统首先利用Chan算法和标签的伪距值来计算标签的初始位置，且将该初始位置带入到Taylor算法中。然后在Taylor算法的多次迭代计算中不断调整标签坐标。当某次标签坐标的泰勒迭代增量即|Δx|+|Δy|小于设定的阈值δ时，退出Taylor算法的迭代，并输出标签的最终估计坐标。

步骤3：摄像头获取实时画面，将获取的视频流送入Yolov3算法的网络模型中进行目标检测，然后将检测结果中‘行人’的类别送入改进后的DeepSort算法，所述改进后的DeepSort算法为每个行人生成唯一的追踪器；本发明所述的Yolov3算法模型结构如图2所示。

步骤3中，为了解决跟踪目标丢失一段时间后再重新出现的再识别问题，还需要在视频的第一帧图像上使用opencv2中的selectROI方法划出行人可以离开该画面的出口区域(area-A)，该区域大小和个数可根据具体场景动态调整；检测行人目标特征值的最大存储时间max-age根据不同的划分区域设为不同的值。

若由Yolov3网络模型检测后的行人目标检测框采用逻辑判断后落入area-A内，则表示该目标正处于出口处，有极大概率离开该画面，因此可以将该行人目标特征值的存储时间即max-age设为较小值(本发明中设为20)，反之则设为较大值(本发明中设为50)。该动态分配max-age值的方法可更加合理的删去若干帧没有匹配到检测结果的追踪器，所以在不增加运算资源占用的前提下提高了再识别率；

为了提高在线定位的实时性，本发明在改进后的DeepSort算法的级联匹配中采用了哈希算法，将输入的当前所有追踪器的更新值全部取出进行排序，然后依次分别从小打大取出更新值所对应的追踪器进行级联匹配，保留了优先权的思想但不需要循环max-age次，提高了算法的运行速度。所述改进后的DeepSort算法中级联匹配的流程如下：

(1)采用cv2.selectROI方法划定画面中行人可以离开的区域area-A；

(2)将区域area-A内外的行人根据离开画面的概率设置大小不同的max-age值；

(3)分配追踪器ID和检测结果ID；

(7)使用Hungarian算法对跟踪器和检测结果进行匹配，并返回匹配结果；

(9)若所有跟踪器都已进行匹配运算，则得到初步的匹配结果，未配对成功的跟踪器和未配对成功的检测结果；若还有跟踪器未进行匹配运算，则回到步骤(4)继续运行。

伪代码如下：

1:Assign different max-age value to Detections according to area-A//根据检测目标是否在area-A内分配不同的max-age值

2:Input:Track indices T＝{1,...,N},Detection indices D＝{1,...,M}//输入所有检测到的目标和跟踪器

3:Sort Track list T_SORTED＝{1,...,M}by time_since_update using hashalgorithm//由哈希算法取出跟踪器的更新值进行排序得到T_SORTED

4:Initialize set of matches A←{}//初始化已配对成功的检测目标和跟踪器为空集合

5:Initialize set of unmatches U←D//将所有检测目标初始化为未配对成功的集合

6:For T_n∈T_SORTED do

7:Compute cost matrix C＝[c_i,j]//计算代价矩阵

8:Compute Mahalanobis distance matrix B＝[b_i,j]//计算马氏距离矩阵

9:A’←min_cost_matching(C,T_n,D)//通过匈牙利算法得到线性匹配结果并删去两者差距太大的匹配对

10：

//将匹配成功的新集合与之前匹配成功的集合合并，同时在未配对成功的集合里删去配对成功的检测目标的序号

11:End for

12:Return A,U

上述代码中，T代表跟踪器的序号集合，D代表当前帧所有检测目标的序号集合，T_SORTED代表已经排序好的跟踪器的序号集合，A代表已配对成功的检测目标和跟踪器的匹配对序号集合，U为未配对成功的检测目标序号集合，C为代价矩阵，B为马氏距离矩阵，A’为每层循环的得到的匹配对序号集合，j_detection为A’集合中每个匹配对的检测目标的序号。

步骤4中，所述像素点坐标换算成世界坐标的步骤如下：

将上式转变为矩阵形式可得：

式中，(x_c,y_c,z_c)表示相机坐标系下的三维坐标；

步骤5中，欧氏距离匹配算法采用如下方法：将计算机解算得到的单UWB定位坐标与所有单视觉定位的坐标分别逐一计算其欧氏距离，计算公式如下所示：

式中x＝(x₁,...,x_n),y＝(y₁,...,y_n)表示n维空间中的两个点。

计算得到所有欧式距离后，取使得该值最小的单视觉定位坐标与单UWB定位坐标进行配对，即将跟踪器ID和UWB标签ID进行关联。

为行人的真实坐标。

本发明优化了DeepSort算法，将原先统一不变的参数(检测目标特征值的最大存储时间)max-age采用根据检测目标出现的区域动态分配的方法，该方法可更加合理的设置max-age值，在不增加运算资源占用的前提下提高了再识别率，避免跟踪器ID的大量切换。同时本发明级联匹配中采用了哈希算法，保留了优先权的思想但不需要循环max-age次，提高了算法的运行速度。

实施例1

步骤1：在实验室走廊上布置若干UWB基站，同时在定位区域斜上方安装支持rtsp视频传输协议的网络摄像头，并将拍摄到的视频流实时传输到本地工作台；

步骤2中，所述chan+taylor算法为系统首先利用Chan算法和标签的伪距值来计算标签的初始位置，且将该初始位置带入到Taylor算法中。然后在Taylor算法的多次迭代计算中不断调整标签坐标。当某次标签坐标的泰勒迭代增量即|Δx|+|Δy|小于阈值0.0000001时，退出Taylor算法的迭代，并输出标签的最终估计坐标。

若由Yolov3网络模型检测后的行人目标检测框采用逻辑判断后落入area-A内，则表示该目标正处于出口处，有极大概率离开该画面，因此可以将该行人目标特征值的存储时间即max-age设为20，反之则设为50。该动态分配max-age值的方法可更加合理的删去若干帧没有匹配到检测结果的追踪器，所以在不增加运算资源占用的前提下提高了再识别率；

步骤4中，所述像素点坐标换算成世界坐标的步骤如下：

式中(u,v)单位为mm。

4.2、将图像坐标(x,y)转换为相机坐标属于透视投影变换，在焦距为6的情况下，可通过如下公式进行转换：

式中，(x_c,y_c,z_c)表示相机坐标系下的三维坐标；

式中，R为旋转矩阵，T为偏移矩阵，在本实施例中为T为0，同时因绕z轴旋转的角度为30，则R可表示为：

式中x＝(x₁,...,x_n),y＝(y₁,...,y_n)表示n维空间中的两个点。

为行人的真实坐标。

得到的结果如图5所示。

实施例2

相对于现有的DeepSort算法，本发明中该算法的改进解决了跟踪目标丢失一段时间后再重新出现的再识别问题。

如图6所示为拍摄视频的第7秒处检测到的行人，标记为person-1和person-2。当拍摄的视频送入到常规的DeepSort算法中时，在person-1在走廊柱子后面遮挡3秒后再重新出现时却标记为了person-6，如图7所示，出现了ID频繁切换，无法再识别的问题。而本发明方法中由于对DeepSort算法进行了改进，划出了出口区域area-A，检测行人目标特征值的最大存储时间max-age根据不同的划分区域设为不同的值，有效地提高了检测精度，如图8所示，当第7秒中的person-1在遮挡一段时间后再次出现时，依旧被识别为person-1。

改进后的算法可以解决再识别率的本质原因是检测行人目标特征值的最大存储时间即max-age值的动态分配，提高了出口区域以外的行人目标的max-age值，使得该特征值保存的帧数时间更长，即使行人被遮挡一定时间，但由于该特征值还并未被删除，所以当该行人再次出现时还能与该特征值匹配上；与此同时降低出口区域内的行人目标的max-age值，当该行人目标的特征值在之后的max-age帧未匹配上检测目标，则合理判定该行人目标已离开整个监控画面，因此删除该特征值，使该特征值不会再参与到后续的级联匹配工作中，减少后续匹配算法的运行时间。

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于UWB和视觉的室内定位方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤1中，所述UWB基站由一个主时钟基站与多个从基站组成，利用不少于四个基站的已知位置坐标和伪距值，通过chan+taylor算法求取移动UWB标签的精确坐标。

3.根据权利要求1所述的方法，其特征在于，步骤2中，所述chan+taylor算法中，系统首先利用Chan算法和UWB标签的伪距值来计算UWB标签的初始位置，且将该初始位置带入到Taylor算法中；然后在Taylor算法的多次迭代计算中不断调整UWB标签坐标；当某次UWB标签坐标的泰勒迭代增量即|Δx|+|Δy|小于设定的阈值δ时，退出Taylor算法的迭代，并输出UWB标签的最终估计坐标。

4.根据权利要求1所述的方法，其特征在于，步骤3中，所述对DeepSort的改进是指将原先统一不变的参数max-age采用根据检测目标出现的区域动态分配，在不增加运算资源占用的前提下提高再识别率。

5.根据权利要求1所述的方法，其特征在于，步骤3中，为了解决跟踪目标丢失一段时间后再重新出现的再识别问题，在视频的第一帧图像上使用opencv2中的selectROI方法划定画面中供行人离开的出口区域area-A，该区域大小和个数根据具体场景动态调整；检测行人目标特征值的最大存储时间max-age根据不同的划分区域设为不同的值；根据Yolov3网络模型检测后的行人目标检测框采用逻辑判断后是否落入area-A内，根据目标离开画面的概率设置所述目标特征值的存储时间max-age。

6.根据权利要求1所述的方法，其特征在于，步骤3中，为了提高在线定位的实时性，在改进后的DeepSort算法的级联匹配中采用了哈希算法，将输入的当前所有追踪器的更新值全部取出进行排序，然后依次分别从小到大取出更新值所对应的追踪器进行级联匹配。

7.根据权利要求5所述的方法，其特征在于，所述行人目标检测框是否落入area-A的判断方法为：

以图像的左上角为笛卡尔坐标系原点(0,0)，从Yolov3算法中提取目标检测框的左上角坐标(x₁,y₁)和右下角坐标(x₂,y₂)，area-A左上角坐标为(x′₁,y′₁)，右下角坐标为(x′₂,y′₂)；取行人目标检测框下边框中点的坐标，即为

该坐标为行人的足底坐标，将此坐标重新标记为(a,b)；当a＞x′₁，a＜x′₂并且b＞y′₁，b＜y′₂时，则判定目标行人处于area-A内，及表示该目标正处于出口处，有极大概率离开该画面，设定较低的目标特征值的存储时间max-age；否则均判定目标行人处于area-A外，设定较高的目标特征值的存储时间max-age。

8.根据权利要求6所述的方法，其特征在于，所述改进后的DeepSort算法中级联匹配的流程如下：

(1)采用cv2.selectROI方法划定画面中行人可以离开的区域area-A；

(3)分配追踪器ID和检测结果ID；

(6)在余弦距离代价矩阵中，将马氏距离大于9.4877的跟踪器的余弦距离置为10000，方便后续删除；

9.根据权利要求1所述的方法，其特征在于，步骤4中，所述像素点坐标换算成世界坐标的步骤如下：

将上式转变为矩阵形式可得：

式中，(x_c,y_c,z_c)表示相机坐标系下的三维坐标；

4.3、将相机坐标转换为世界坐标涉及到坐标的旋转和平移，绕着不同的坐标轴旋转不同的角度，由以下公式计算得出世界坐标(x_w,y_w,z_w)：

10.根据权利要求1所述的方法，其特征在于，步骤5中，欧氏距离匹配算法采用如下方法：将工作站解算得到的仅由UWB定位的坐标与所有的仅由视觉定位的坐标分别逐一计算其欧氏距离，计算公式如下所示：

式中x＝(x₁,...,x_n),y＝(y₁,...,y_n)表示n维空间中的两个点；

计算得到所有欧式距离后，取使得该值最小的视觉定位坐标与UWB定位坐标进行配对，将追踪器ID和UWB标签ID进行关联。

11.根据权利要求1所述的方法，其特征在于，步骤6中，所述均值滤波方法为将仅由UWB定位的坐标与所有的仅由视觉定位的坐标取平均值作为行人的真实坐标，设仅由UWB定位的坐标为(x_a,y_a)和仅由视觉定位的坐标为(x_b,y_b)，则取

为行人的真实坐标。

12.一种实现如权利要求1-11之任一项所述方法的基于UWB和视觉的室内定位系统，其特征在于，所述系统包括：用于采集室内行人视频并转化为数字信号传到本地的网络摄像头、用于运行深度学习算法和解算UWB定位结果的工作站、基于UWB的室内定位系统、用于配置网络的路由器。

13.根据权利要求12所述的系统，其特征在于，所用的网络摄像头支持rtsp视频传输协议，将采集的视频流传入工作站进行处理；所用的工作站拥有进行图像的检测和目标跟踪的GPU；UWB的室内定位系统中硬件部分有至少四个UWB基站，一个UWB标签，一个由光纤连接定位基站和工作站的交换机，用于各从基站与服务器的数据转发，软件部分有用于解算位置的chan+Taylor协同定位算法；所用路由器为双频千兆无线路由器。