CN114114239A

CN114114239A - 组对象跟踪

Info

Publication number: CN114114239A
Application number: CN202110971497.1A
Authority: CN
Inventors: 穆斯塔法·帕尔恰米; 费赞·沙克; 斯蒂芬·贾尔迪内利; 金塔拉斯·文森特·普斯科里奥斯; 恩里克·科罗纳; 昆贾·辛格
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2020-08-26
Filing date: 2021-08-23
Publication date: 2022-03-01
Also published as: US20220067407A1; US11403856B2; DE102021121712A1

Abstract

本公开提供了“组对象跟踪”。一种系统包括处理器和存储器，存储器包括可由处理器执行以进行以下各项的指令：从由固定传感器在第一时间步获取的传感器数据识别第一对象特征，确定在第二时间步的第二对象特征。指令还可以包括用于进行以下各项的指令：通过确定第一对象特征与对应的第二对象特征之间以像素为单位测量的距离并将所述距离与一个或多个平均距离进行比较来确定第一对象特征的一个或多个对象聚类；以及通过确定第一对象特征的多个随机样本的多个相似性变换并基于将包括在相似性变换中的第一对象特征的数量最大化确定内点第一对象特征来确定一个或多个对象聚类中的内点第一对象特征的一个或多个对象组，其中相似性变换包括将一组第一对象特征变换为一组第二对象特征的平移、旋转和缩放。指令还可以包括用于进行以下各项的指令：基于对象组的位置来确定一个或多个对象组的跟踪数据；以及将第二对象聚类的跟踪数据提供给车辆。

Description

组对象跟踪

技术领域

本公开总体上涉及车辆传感器和导航。

背景技术

车辆可以配备有计算装置、网络、传感器和控制器以获取关于车辆的环境的数据并基于所述数据来操作车辆。车辆传感器可提供关于在车辆环境中要行驶的路线和要避开的对象的数据。车辆的操作可以依赖于在车辆正在道路上进行操作时获取关于车辆的环境中的对象的准确且及时的数据。

发明内容

可配备车辆以在自主模式和乘员操作模式下进行操作。半自主或完全自主模式意指其中车辆可以由作为具有传感器和控制器的系统的一部分的计算装置部分地或完全地操作的操作模式。车辆可以被占用或未被占用，但是在任何一种情况下，都可以在没有乘员辅助的情况下部分地或完全地操作车辆。出于本公开的目的，自主模式被限定为其中车辆推进(例如，经由包括内燃发动机和/或电动马达的动力传动系统)、制动和转向中的每一者都由一个或多个车辆计算机控制的模式；在半自主模式中，车辆计算机控制车辆推进、制动和转向中的一者或两者。在非自主模式中，这些都不由计算机控制。

车辆中的计算装置可以被编程为获取关于车辆外部环境的数据并使用所述数据来确定在其上以自主或半自主模式操作车辆的车辆路径。车辆可以基于车辆路径通过确定命令来指示车辆的动力传动系统、制动和转向部件操作车辆以沿着所述路径行驶，而在道路上操作。关于外部环境的数据可以包括车辆周围的环境中的一个或多个移动对象(诸如，车辆和行人等)的位置，并且可以由车辆中的计算装置使用来操作车辆。

可以通过与包括在交通基础设施系统中的计算装置通信的固定传感器来获取关于车辆周围的环境中的移动对象的位置的数据。包括视频和激光雷达传感器的固定传感器可以获取关于交通场景的数据并将所述数据传输到计算装置。计算装置可以处理数据以识别和定位对象，例如，包括行人和车辆，并且将关于所识别和定位的对象的数据传送到车辆。车辆可以将关于对象的身份和位置的数据与从包括在车辆中的传感器获取的数据相结合，以确定车辆在其上操作的车辆路径。可以基于避免与车辆周围的环境中的对象接触来确定车辆路径。

获得关于车辆周围的环境中的对象(包括车辆和行人)的移动的准确且及时的数据可以允许包括在车辆中的计算机预测对象的未来位置。多组行人呈现了确定对象的移动所面临的问题。多组行人可以包括子组，每个子组沿不同方向和以不同速度移动。因为子组可以重叠，所以确定一组中的各个行人的方向和速度可能需要大量的计算资源。另外，因为一组中的行人可能被部分遮挡和变得可见，所以跟踪各个行人可能是非常不准确的。本文描述的技术通过确定包括行人的对象的子组并基于子组的运动速度和方向跟踪子组来提高跟踪一组中的行人的准确性并减少所需的计算机资源。

本文公开了一种方法，所述方法包括：从由固定传感器在第一时间步获取的传感器数据识别第一对象特征；确定在第二时间步的第二对象特征；通过确定第一对象特征与对应的第二对象特征之间以像素为单位测量的距离并将所述距离与一个或多个平均距离进行比较来确定第一对象特征的一个或多个对象聚类。可以通过确定第一对象特征的多个随机样本的多个相似性变换并基于将包括在相似性变换中的第一对象特征的数量最大化确定内点第一对象特征来确定一个或多个对象聚类中的内点第一对象特征的一个或多个对象组，其中所述相似性变换测量将一组第一对象特征变换为一组第二对象特征的平移、旋转和缩放。可以基于对象组的位置来确定一个或多个对象组的跟踪数据，并且可以将第二对象聚类的跟踪数据提供给车辆。传感器数据可以包括视频数据和激光雷达数据。第一时间步与第二时间步之间的时间差可以基于视频帧速率。一个或多个对象聚类可以对应于一个或多个行人或一个或多个车辆。可以通过用ORB特征检测器处理传感器数据来确定对象特征，其中ORB特征检测器是包括检测拐角特征并确定拐角特征的取向的机器视觉技术。

可以通过计算关于距离的k最近邻算法来确定对象聚类，其中k最近邻算法将对象特征基于其距离和最近邻来分配给对象聚类。可以基于第一对象特征与第二对象特征之间的最小聚类大小和最大距离来确定对象聚类。可以通过凭借确定对象的一个或多个凸包(convexhull)并将封闭椭圆拟合到凸包确定一个或多个对象特征的位置来确定对象特征的位置。可以通过确定封闭椭圆在传感器数据的连续帧中的位置并用粒子滤波器或卡尔曼滤波器中的一者或多者对所述位置进行滤波来确定对象特征的跟踪数据。可以将一个或多个对象组的跟踪数据下载到包括在车辆中的第二计算装置。第二计算装置可以使用一个或多个对象组的跟踪数据来操作车辆。操作车辆可以包括使用跟踪数据来预测一个或多个对象组的位置，以及操作车辆以避免与一个或多个对象组接触。内点第一对象特征是基于RANSAC算法确定的，其中所述RANSAC算法可以包括基于对象特征的随机样本来确定相似性变换。可以通过基于根据对象特征的随机样本的相似性变换将第一对象特征与第二对象特征进行匹配来确定内点第一对象特征。

还公开了一种计算机可读介质，所述计算机可读介质存储用于执行上述方法步骤中的一些或全部的程序指令。还公开了一种被编程用于执行上述方法步骤中的一些或全部的计算机，所述计算机包括计算机设备，所述计算机设备被编程为：从由固定传感器在第一时间步获取的传感器数据识别第一对象特征；确定在第二时间步的第二对象特征；通过确定第一对象特征与对应的第二对象特征之间以像素为单位测量的距离并将所述距离与一个或多个平均距离进行比较来确定第一对象特征的一个或多个对象聚类。可以通过确定第一对象特征的多个随机样本的多个相似性变换并基于将包括在相似性变换中的第一对象特征的数量最大化确定内点第一对象特征来确定一个或多个对象聚类中的内点第一对象特征的一个或多个对象组，其中所述相似性变换测量将一组第一对象特征变换为一组第二对象特征的平移、旋转和缩放。可以基于对象组的位置来确定一个或多个对象组的跟踪数据，并且可以将第二对象聚类的跟踪数据提供给车辆。传感器数据可以包括视频数据和激光雷达数据。第一时间步与第二时间步之间的时间差可以基于视频帧速率。一个或多个对象聚类可以对应于一个或多个行人或一个或多个车辆。可以通过用ORB特征检测器处理传感器数据来确定对象特征，其中ORB特征检测器是包括检测拐角特征并确定拐角特征的取向的机器视觉技术。

计算机还可以被编程为通过计算关于距离的k最近邻算法来确定对象聚类，其中k最近邻算法将对象特征基于其距离和最近邻来分配给对象聚类。可以基于第一对象特征与第二对象特征之间的最小聚类大小和最大距离来确定对象聚类。可以通过凭借确定对象的一个或多个凸包并将封闭椭圆拟合到凸包确定一个或多个对象特征的位置来确定对象特征的位置。可以通过确定封闭椭圆在传感器数据的连续帧中的位置并用粒子滤波器或卡尔曼滤波器中的一者或多者对所述位置进行滤波来确定对象特征的跟踪数据。可以将一个或多个对象组的跟踪数据下载到包括在车辆中的第二计算装置。第二计算装置可以使用一个或多个对象组的跟踪数据来操作车辆。操作车辆可以包括使用跟踪数据来预测一个或多个对象组的位置，以及操作车辆以避免与一个或多个对象组接触。内点第一对象特征是基于RANSAC算法确定的，其中所述RANSAC算法可以包括基于对象特征的随机样本来确定相似性变换。可以通过基于根据对象特征的随机样本的相似性变换将第一对象特征与第二对象特征进行匹配来确定内点第一对象特征。

附图说明

图1是示例性交通基础设施系统的图式。

图2是具有传感器的示例性车辆的图式。

图3是示例性交通场景的图式。

图4是包括对象特征的示例性交通场景的图式。

图5是包括聚类对象特征的示例性交通场景的图式。

图6是用于对对象进行分组和跟踪的示例性过程的流程图。

具体实施方式

图1是交通基础设施系统100的图示，所述交通基础设施系统包括可以自主(“自主”本身在本公开中意指“完全自主”)、半自主和乘员操作(也称为非自主)模式操作的车辆101。一个或多个车辆101计算装置105可以从传感器110接收关于车辆100的操作的数据。计算装置105可以以自主模式、半自主模式或非自主模式操作车辆101。

计算装置105包括诸如已知的处理器和存储器。此外，存储器包括一种或多种形式的计算机可读介质，并且存储可由处理器执行的用于执行包括如本文所公开的各种操作的指令。例如，计算装置105可以包括编程以操作车辆制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆101的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者，以及确定计算装置105(而不是人类操作员)是否以及何时控制此类操作。

计算装置105可以包括多于一个计算装置(例如，包括在车辆101中以用于监测和/或控制各种车辆部件115的控制器等(例如，动力传动系统控制器、制动控制器、转向控制器等))，或例如经由如下面进一步描述的车辆通信总线通信地耦合到所述多于一个计算装置。计算装置105通常被布置用于通过车辆通信网络(例如，包括车辆101中的总线，诸如控制器局域网(CAN)等)通信；另外或替代地，车辆101网络可以包括诸如已知的有线或无线通信机制，例如以太网或其他通信协议。

计算装置105可以经由车辆网络向车辆中的各种装置(例如，控制器、致动器、传感器(包括传感器110)等)传输消息和/或从所述各种装置接收消息。替代地或另外，在计算装置105实际上包括多个装置的情况下，可使用车辆通信网络来用于在本公开中表示为计算装置105的装置之间进行通信。此外，如下文所提及，各种控制器或感测元件(诸如传感器110)可经由车辆通信网络向计算装置105提供数据。

另外，计算装置105可被配置用于经由网络120通过车辆对基础设施(V对I)接口与服务器125(例如，云服务器或远程服务器计算机)进行通信，如下所述，所述接口包括允许计算装置105经由诸如无线互联网(

)或蜂窝网络的网络120与服务器125进行通信的硬件、固件和软件。因此，计算装置105可被配置为包括被配置为利用各种有线和/或无线联网技术(例如，蜂窝、

和有线和/或无线分组网络)的处理器、存储器、收发器等。计算装置105可被配置用于使用例如在附近车辆101间在移动自组网的基础上形成或通过基于基础设施的网络经由V对I通信形成的车辆对车辆(V对V)网络(例如，根据专用短程通信(DSRC)和/或类似的通信)与其他车辆101进行通信。计算装置105还包括诸如已知的非易失性存储器。计算装置105可以通过将数据存储在非易失性存储器中来记录数据，以便以后检索并经由车辆通信网络传输到服务器125或用户移动装置。服务器计算机125也可用作包括在路边基础设施中的计算装置105，或边缘计算节点，其中边缘计算节点是包括在固定基础设施元件(诸如杆、桥、壁、建筑物等)中或其上的计算装置105，并且所述计算装置获取传感器数据并与车辆101在道路、停车场或停车结构等中的一者或多者的局部部分中经由V对I接口等进行通信。

如已经提及的，用于在没有人类操作员干预的情况下操作一个或多个车辆101部件(例如，制动、转向、推进等)的编程通常包括在存储器中所存储的并可由计算装置105的处理器执行的指令中。使用在计算装置105中接收的数据(例如，来自传感器110、服务器计算机125等的传感器数据)，计算装置105可在没有驾驶员的情况下作出各种确定和/或控制各种车辆101部件和/或操作以操作车辆101。例如，计算装置105可以包括编程以调节车辆101操作行为(即，车辆101操作的物理表现)，诸如速度、加速度、减速度、转向等，以及策略性行为(即，通常以预期实现路线的安全且有效的行驶的方式进行的操作行为控制)，诸如车辆之间的距离和/或车辆之间的时间量、车道改变、车辆之间的最小间隙、左转跨过路径最小值、在特定位置处的到达时间和为了通过十字路口的十字路口(无信号灯)最小到达时间。

如本文使用的术语控制器包括通常被编程来监测和/或控制特定车辆子系统的计算装置。示例包括动力传动系统控制器、制动控制器和转向控制器。控制器可以是诸如已知的电子控制单元(ECU)，可能包括如本文所描述的附加的编程。控制器可通信地连接到计算装置105并从计算装置接收指令以根据指令致动子系统。例如，制动控制器可从计算装置105接收指令以操作车辆101的制动器。

用于车辆101的一个或多个控制器可以包括已知的电子控制单元(ECU)等，作为非限制性示例，包括一个或多个动力传动系统控制器、一个或多个制动控制器和一个或多个转向控制器。控制器中的每一者可以包括相应的处理器和存储器以及一个或多个致动器。控制器可被编程并且连接到诸如控制器局域网(CAN)总线或局域互连网(LIN)总线的车辆101通信总线，以从计算装置105接收指令并基于指令来控制致动器。

传感器110可以包括已知的多种装置，以经由车辆通信总线提供数据。例如，固定到车辆101的前保险杠(未示出)的雷达可提供从车辆101到车辆101前方的下一车辆的距离，或者设置在车辆101中的全球定位系统(GPS)传感器可提供车辆101的地理坐标。例如，由雷达和/或其他传感器110提供的距离和/或由GPS传感器提供的地理坐标可以被计算装置105用来自主或半自主地操作车辆101。

车辆101通常是能够自主和/或半自主操作并且具有三个或更多个车轮的陆基车辆101(例如，客车、轻型卡车等)。车辆101包括一个或多个传感器110、V对I接口、V对V接口、计算装置105和车辆部件115(包括一个或多个控制器)。传感器110可收集与车辆101以及车辆101正在操作的环境有关的数据。以举例的方式而非限制，传感器110可以包括例如测高仪、相机、激光雷达、雷达、超声传感器、红外传感器、压力传感器、加速度计、陀螺仪、温度传感器、压力传感器、霍尔传感器、光学传感器、电压传感器、电流传感器、机械传感器(诸如开关)等。传感器110可用来感测车辆101的操作环境，例如，传感器110可以检测诸如天气条件(降雨、外部环境温度等)的现象、道路坡度、道路位置(例如，使用道路边缘、车道标记等)或目标对象(诸如邻近车辆101)的位置。传感器110还可用于收集数据，包括与车辆101的操作相关的动态车辆101数据，诸如速度、横摆率、转向角度、发动机转速、制动压力、油压、施加到车辆101中的车辆部件115的功率水平、在车辆部件115之间的连接性以及车辆部件115的准确且及时的性能。

交通基础设施系统100包括固定传感器130。固定传感器130包括传感器135。传感器135可以包括一个或多个相机，包括摄像机、激光雷达传感器、雷达传感器和超声传感器。传感器135与计算机140通信，所述计算机可以控制传感器135以引导传感器135获取数据并接收所获取的传感器数据。计算机140可以处理从传感器135获取的数据，并且经由网络120将处理后或未处理的数据传输到服务器125或车辆101。

计算机140可以是如上所述的计算机105，或者可以包括专用电子电路，所述专用电子电路包括针对特定操作而制造的ASIC，例如，用于处理传感器数据和/或传送传感器数据的ASIC。在另一个示例中，计算机140可以包括FPGA，所述FPGA是被制造为可由用户配置的集成电路。通常，在电子设计自动化中使用诸如VHDL(超高速集成电路硬件描述语言)之类的硬件描述语言来描述诸如FPGA和ASIC之类的数字和混合信号系统。例如，ASIC是基于制造前提供的VHDL编程而制造的，而FPGA内部的逻辑部件可基于例如存储在电连接到FPGA电路的存储器中的VHDL编程来配置。在一些示例中，处理器、ASIC和/或FPGA电路的组合可以包括在计算机140中。

图2是交通场景200(即，包括通常在道路202上操作的车辆204的环境)的图式。交通场景200还可以包括安装在杆208上的非移动基础设施元件，诸如固定传感器130，以向固定传感器130提供包括道路202和车辆204的一部分的视场210。固定传感器130可以替代地安装在例如建筑物、塔、立交桥或交通信号灯上。固定传感器130被安装成提供包括道路202的一部分的视场210视场同时相对于道路202保持固定。固定传感器130可以与计算装置(诸如上面关于图1描述的计算机105)通信。由固定传感器130获取的图像数据可以被传送到交通基础设施系统100中的计算装置以进行处理以确定关于固定传感器130的视场210中的对象的数据。视场210中的对象可以包括车辆204、行人和自行车等。关于视场210中的对象的数据可以例如经由服务器125从交通基础设施系统100中的计算装置传送到包括在车辆101中的计算机105。例如，计算机105可以使用关于视场210中的对象的数据来确定车辆101在其上操作的车辆路径，所述车辆路径避免与对象接触。

固定传感器130可以是获取图像数据的视频传感器。图像数据可以是红色、绿色、蓝色图像数据、灰度图像数据、灰度加红色混合图像数据或红外图像数据。视频传感器可以以范围为每秒60帧(fps)至大于每帧一秒的帧速率获取图像数据作为图像数据的连续帧。替代地，固定传感器130可以是激光雷达传感器。激光雷达传感器发射可见光或红外光频率范围内的电磁辐射，并测量光发射、从交通场景200中的表面反射回来与返回到激光雷达传感器之间的运行时间。激光雷达传感器可以使用电磁辐射脉冲或通过调制电磁辐射并测量返回的辐射的相移来测量运行时间。激光雷达传感器可以机电地扫描波束中的输出电磁辐射以创建激光雷达图像，所述激光雷达图像包括到视场210中的表面的距离。例如，计算装置可以处理激光雷达图像以确定视场210中的对象。固定传感器130还可以包括雷达传感器和超声传感器。

图3是由固定传感器130获取的并且为了符合专利局规定而呈现为黑白线条画的交通场景的图像300的图式。图像300可以是彩色、灰度、混合或红外视频图像或激光雷达图像。图像300包括道路302、车辆304和行人306。图像300可以由固定传感器130获取并被传送到交通基础设施系统100中的计算装置。计算装置可以通过用包括在交通基础设施系统100中的计算装置处理图像300来确定包括车辆304和行人306的对象的身份和位置。

本文讨论的技术通过基于多组对象确定对象运动来改进对象跟踪。可以通过基于从固定传感器130获取两个或更多个图像数据帧提供多组对象的跟踪数据来确定对象运动。两个图像数据帧可以对应于在两个时间步获取的图像数据，其中第一时间步与第二时间步之间的时间差可以对应于30fps帧速率，或约33毫秒。本文讨论的技术确定第一图像和第二图像两者中的图像特征，并且确定与沿相同方向以相同速率移动的一个或多个对象的多组图像特征。所述组可以对应于单个三维(3D)对象，如车辆，或沿相同方向以相同速率移动的一组行人。可以跟踪每个组的移动方向和速率，并且将跟踪数据下载到车辆101中的计算机110。

图4是交通场景的图像300的另一个图式。图像300包括道路302、车辆304和行人306。已经使用机器视觉技术处理图像300以确定分别与车辆304和行人306相对应的由圆圈表示的特征406、408。用于确定特征406、408的图像处理技术是ORB(oriented FAST androtated BRIEF)，其是可作为机器视觉软件的OpenCV库的一部分使用的特征检测软件程序。OpenCV是用于实时机器视觉的编程函数库，其最初由Intel公司(加利福尼亚州圣克拉拉市的Intel公司，邮编：95054)开发，并且当前得到OpenCV组织的支持(在提交本申请时，可在互联网上的OpenCV.org处找到)。

ORB使用FAST特征检测器来检测拐角特征并确定拐角特征的取向以确定特征406、408。FAST被定义为“来自加速段测试的特征”，并且基于确定图像数据中的边缘和拐角而从图像中提取特征406、408。图像数据被处理为与灰度、颜色或距离值相对应的像素值的二维阵列。FAST基于像素值的差值大于阈值来检测特征406、408。可以通过处理样本图像并基于用户根据在视觉上检查样本图像而期望的特征数量产生用户确定数量的特征406、408的阈值来凭经验确定所述阈值。通过检测半径为三的圆的中心处的与用户选择数量的连续的较亮或较暗像素(例如，边缘)相邻的像素来确定特征406、408。基于样本图像以经验选择所述数量的连续的较亮或较暗像素来产生期望数量的特征406、408。一旦通过FAST算法检测到原始特征，就使用BRIEF(二进制鲁棒独立的基本特征)算法来形成每个特征406、408的二进制特征描述符，所述二进制特征描述符可以用于例如匹配图像之间的特征。在图像300中，来自ORB的输出由与特征406、408相对应的圆圈示出。

然后，本文描述的技术通过计算基于图像300数据的第一帧中的特征406、408与在第二时间步获取的图像300数据的帧中的对应特征406、408之间的距离的函数来形成特征406、408的聚类410、412。如上面所讨论的，两个时间步可以分开约33毫秒(假设30fps)。可以使用KNN(k-最近邻)算法来确定第一图像与第二图像300之间的对应特征406、408。在该示例中，我们将假设k＝2。可以基于预期与选定特征在同一组中的相邻特征的数量(如通过检查样本图像所确定的)来选择k值。对于第一帧中的每个特征x，计算特征x的x，y位置与第二帧中的两个最接近特征(y和z)之间的距离。如果dist(x，y)/dist(x，z)＜0.8，则将x和y对添加到对应特征的列表中，其中dist(a，b)是向量a与b之间的欧几里德距离。不在第一帧与第二帧之间移动的所有特征都被标记为背景特征并从特征406、408的列表中移除。使用KNN算法处理特征406、408产生在第一时间步和第二时间步获取的两个连续图像300中的对应特征406、408之间的距离。

在距离计算之后，使用MEANSHIFT算法处理特征406、408以形成聚类，以创建特征406、408的n个聚类。MEANSHIFT算法基于第一图像和第二图像300中的特征406、408之间的最小聚类大小和最大距离来形成特征聚类406、408。MEANSHIFT算法基于距离分布来确定概率密度函数，并且检测概率密度函数中与满足最小数量和最大距离约束的特征子集的距离分布相对应的局部极大值或众数(mode)。用户可以基于对图像300的样本对的经验研究来选择最小数量和最大距离约束，以正确地形成与用户期望一致的聚类。例如，可以选择最小数量的特征和最大距离以形成与图像300中的车辆304和行人306相对应的聚类410、412。然后，MEANSHIFT算法通过基于第一图像300与第二图像300之间的距离分布的众数将特征406、408分配给聚类410、412来确定哪些特征406、408对应于图像300中的哪些对象。

图5是交通场景的图像300的另一个图式。图像300包括道路302、车辆304和行人306。图像300包括与上文关于图4所描述的车辆304和行人306相对应的由圆圈表示的特征406、408。如关于图4所描述的那样进一步处理特征406、408以形成聚类410、412，所述聚类是在彼此的最大距离内并且在第一图像与第二图像300之间移动大约相同距离的特征406、408的列表。本文描述的技术基于相似性变换进一步处理包括在聚类410、412中的特征406、408以将特征406、408分类成组。所述组是基于分别在以如下面使用RANSAC算法描述的在第一时间步和第二时间步获取的图像300数据的第一帧与第二帧之间的特征406、408的移动一致性。

使用RANSAC(随机样本一致性)算法将聚类410、412中的特征406、408分配给一组。RANSAC算法基于相似性变换将来自单个聚类410、412的特征406、408划分为一个或多个组。相似性变换(或变换)是确定将来自第一图像300的特征406、408的子集变换为第二图像300的平移、旋转和缩放参数的数学运算。可以根据以下等式基于平移、旋转和缩放来定义相似性变换：

其中x和y是第一图像300中的特征406、408的像素坐标，并且x′和y′是第二图像300中的特征406、408的像素坐标，s是图像之间的缩放因子。t_x和t_y分别是x和y方向上的平移，并且θ是旋转。总之，欧几里德变换(平移、旋转)和缩放因子等于四自由度(DOF)。这种类型的相似性变换下的不变量是线之间的角度、线的长度比和面积比，这意味着例如平行线保持平行。这允许相似性变换保留被定义为多组特征406、408的形状的结构。例如，与车辆304和行人306相对应的多组特征406、408将变换为具有类似形状和取向的多组特征406、408。

因为第一图像和第二图像300中的特征406、408是在图像300之间以小的(33毫秒)时间步获取的，所以旋转θ应当非常小并且缩放因子s应当在0至2之间，使得0＜s＜2。这通常将保留第一图像与第二图像300之间的取向和大小。如果0＜s＜1，则与一组相对应的边界凸包的大小正在缩小，这意味着例如行人正在远离固定传感器130。如果1＜s＜2，则所述组正在扩展，这意味着例如所述组中的行人正在移动得更靠近固定传感器130。基于第一图像与第二图像300之间的相似性变换，对于第一图像和第二图像300中的每个特征406、408，可以基于对应特征406、408之间的平均距离来确定平均重投影误差。相似性变换可以将一组特征406、408以及因此特征406、408所对应的对象定义为沿相同方向以相同速度移动的特征406、408。根据该定义，可以将沿相同方向以相同速率移动的一个或多个行人定义为单个组。

RANSAC算法通过迭代地确定测量特征子集的运动的相似性变换S来确定一组图像特征的移动一致性。一组图像特征被定义为图像特征聚类的子集。RANSAC算法的第一次迭代开始于从聚类410、412选择图像300数据的第一帧中的四个随机特征406、408。计算第二帧中的四个选定特征406、408与其对应特征406、408之间的相似性变换。RANSAC算法对聚类410、412的特征406、408进行迭代，每次选择四个不同特征406、408的不同随机样本并计算四个特征406、408的新相似性变换S。然后，RANSAC算法确定聚类410、412中的特征406、408中有多少特征与该相似性变换S匹配。通过基于相似性变换S将特征406、408的像素位置从第一图像300变换到第二图像300来执行匹配。将变换后的特征406、408的位置与来自第二图像300的对应特征406、408的位置进行比较以确定它们是否在用户选定的公差内匹配。匹配被定义为来自第一图像300的特征406、408的变换位置与第二图像300中的对应特征406、408的位置的欧几里德距离。如果特征406、408的变换后的位置的欧几里德距离在第二图像中的对应特征406、408的位置的用户选定的公差内，则特征406、408被标记为“内点”。用户选定的公差通常小于一个像素，并且可以通过处理样本第一图像和第二图像300来以经验确定以确定当由基于特征406、408的随机子集确定的相似性变换S变换时，预期数量的特征406、408是否如上文定义地那样匹配。可以通过用户检查样本图像中的对应特征406、408来确定要匹配的特征的预期数量。

RANSAC算法跟踪相似性变换S和一致性数据结构中的内点特征406、408的数量。一致性数据结构是与用于确定内点特征406、408的相似性变换S相结合的内点特征406、408的列表。如果对于给定迭代，内点数＞长度(一致性)，这意味着当前迭代中的内点数(“长度”)大于来自任何先前迭代的内点数，则通过将一致性数据结构设置为等于内点列表加上用于选择内点的相似性变换S的参数来更新一致性数据结构：

一致性＝{内点，S} (2)

当达到最大迭代次数(通常为100)时，将一致性数据结构中的内点特征406、408分配给第一组。然后，RANSAC算法以保留在聚类中的特征406、408重复所述过程，从而形成第二组。RANSAC算法继续进行，直到用尽聚类410、412的特征406、408，这意味着给定聚类410、412的所有特征406、408被分配给一个组。图像300示出了通过这种方式形成的三个组。由凸包510示出的第一组由与图像300中的车辆304相对应的聚类410中的特征406形成。由凸包512所示的第二组由包括在聚类412中的特征408的一部分形成，所述部分对应于相对于图像300中的固定传感器130从左向右移动的行人306的一部分。由凸包514所示的第三组由包括在聚类412中的特征408的一部分形成，所述部分对应于远离图像300中的固定传感器130移动的行人306的一部分。凸包510、512、514被定义为具有四个或更多个边的最小凸多面体，所述最小凸多面体封闭由RANSAC算法选择作为最长一致性数据结构中的元素的特征406、408。因为一组在图像300中由具有最少四个边的凸包指示，所以一组中的特征406、408的最小数量需要为四个或更多个。

当所有组的特征406、408被分配给多组时，每个组被凸包510、512、514包围。由凸包510、512、514包围的每个组可以被封闭在最佳拟合椭圆516、518、520(虚线)中。最佳拟合椭圆516、518、520是具有分别与图像300的x和y轴平行的长轴和短轴的最小椭圆，所述长轴和短轴封闭包括在凸包510、512、514中的特征。椭圆516、518、520可以重叠并且被成形为配合凸包510、512、514。椭圆516、518、520用于描述多组而不是凸包510、512、514，因为椭圆具有固定长度的表示，而不是可能需要不确定数量的点来描述的凸包。椭圆可以作为四个数字传送到车辆101，所述四个数字表示椭圆的中心的x和y像素地址以及椭圆的长轴和短轴的像素长度。

在确定封闭椭圆516、518、520之后，交通基础设施系统100中的计算装置可以通过获取和处理图像300对的时间序列来确定固定传感器130的视场210中的对象的跟踪数据，以确定对象的封闭椭圆516、518、520，其包括在两个或更多个时间步内的行人306和车辆304。通过记录对应椭圆516、518、520的中心在两个或更多个时间段内的移动，可以将包括在对应封闭椭圆516、518、520中的对象的方向和速度确定为包括在封闭椭圆516、518、520中的对象的跟踪数据。可以用粒子滤波器处理封闭椭圆516、518、520的中心，所述粒子滤波器跟踪包括在一组中的特征406、408的各个运动。粒子滤波器估计值可以通过计算各个粒子(在该示例中为特征406、408)的状态的后验分布来估计一组各个元素(诸如特征406、408)的运动。计算后验分布意味着基于包括先前确定的证据来计算概率。在该示例中，先前确定的证据包括所述组的估计的运动。可以将封闭椭圆516、518、520的位置的每次测量与基于每组特征406、408的估计速度和方向确定的预期位置进行比较。也可以通过将卡尔曼滤波器应用于封闭椭圆516、518、520的中心的连续位置来确定所述组的运动。粒子滤波器和卡尔曼滤波器两者都基于从一个图像300到下一个图像可能不可预测地改变的特征406、408从潜在嘈杂的数据提供平滑且一致的跟踪数据。

例如，通过对分组的特征406、408进行滤波而确定的跟踪数据可以经由服务器125传送(例如，下载)到车辆101中的计算装置105。车辆101中的计算装置105可以通过将跟踪数据中的像素位置与关于固定传感器130的视场210相对于道路302的真实世界位置和取向的数据组合来处理跟踪数据以预测车辆101周围的环境中的对象的未来位置。包括在车辆101中的计算装置105可以使用变换为真实世界坐标的预测位置来确定车辆101在其上操作的车辆路径，所述车辆路径避免与跟踪数据中描述的对象接触。

本文描述的技术通过使用与包括行人306和车辆304的对象相对应的ORB特征检测器确定特征406、408并使用相似性变换和RANSAC算法处理所确定的特征406、408以确定沿类似方向以类似速度移动的多组对象来确定车辆101周围的环境中的对象的跟踪数据。可以通过用凸包510、512、514包围分组的特征并将封闭椭圆516、518、520拟合到凸包510、512、514来跟踪所确定的组。可以在所获取的图像的时间序列上跟踪封闭椭圆516、518、520以确定与对象相对应的跟踪数据。通过这种方式跟踪多组对象比跟踪一组的各个元素(例如，行人)更准确且更有效。跟踪数据可以被传送到车辆101并用于操作车辆101。

图6是用于向车辆101提供对象跟踪数据的过程600的流程图。过程600可由计算装置的处理器实施，例如将来自传感器的信息作为输入，以及执行命令，以及输出对象信息。过程600包括可以所示顺序执行的多个框。过程600可以替代地或另外包括更少的框，或者可以包括以不同顺序执行的框。

过程600开始于框602，其中包括在交通基础设施系统100中的计算装置获取在第一时间步和第二时间步从固定传感器130获取的第一图像和第二图像300。计算装置通过用如上面关于图4所讨论的ORB算法处理图像300来确定与对象(例如，车辆304和一组行人306)相对应的特征406、408。

在框604处，计算装置通过使用KNN算法处理特征406、408以形成在第一时间步获取的图像300中的特征406、408与在第二时间步获取的图像300中的特征406、408之间的距离来形成与特征406、408相对应的聚类410、412。用MEANSHIFT算法处理距离，以将来自第一图像300的特征406、408分配给与满足最小数量和最大距离约束两者的特征406、408相对应的聚类410、412。可以经用户选择最小数量和最大距离约束以产生与用户对样本图像300的期望一致的数量的聚类。

在框606处，计算装置使用RANSAC算法以基于相似性变换将聚类410、412划分为组来处理聚类410、412以形成组。相似性变换确定将来自在第一时间步获取的图像300的特征406、408的随机子集变换为在第二时间步获取的图像300中的对应特征406、408所需的平移、旋转和缩放。RANSAC算法将聚类410、412划分为与沿相同方向以相同速度移动的对象相对应的组。通过用凸包510、512、514包围每个组的特征406、408来识别组。

在框608处，与多组特征406、408相对应的凸包510、512、514各自被封闭在最小地封闭的椭圆516、518、520中。最小地封闭的椭圆用中心、长轴和短轴识别每个组。这允许每个组以固定长度的数据结构传送到车辆。可以通过确定在一定时间段内获取的多对图像中的组的封闭椭圆并在图像300的时间序列上跟踪分组的特征406、408来跟踪与每个组相对应的对象。可以使用粒子滤波器或卡尔曼滤波来跟踪分组的特征，以产生平滑、一致的跟踪数据。可以将该跟踪数据提供给包括在车辆101中的计算机105，以允许计算机105确定车辆路径。计算机可以使用跟踪数据来预测车辆101周围的环境中的对象的未来位置。车辆101可以在避开对象的未来位置的车辆路径上操作。在框806之后，过程800结束。

诸如本文讨论的那些的计算装置通常各自包括命令，所述命令可由诸如上文所述的那些的一个或多个计算装置执行并用于执行上文所述的过程的框或步骤。例如，上文所讨论的过程框可以体现为计算机可执行命令。

计算机可执行命令可以根据使用各种编程语言和/或技术创建的计算机程序来编译或解译，所述编程语言和/或技术单独地或组合地包括但不限于：Java^TM、C、C++、Python、Julia、SCALA、Visual Basic、Java Script、Perl、HTML等。一般来说，处理器(例如，微处理器)接收例如来自存储器、计算机可读介质等的命令，并且执行这些命令，从而执行一个或多个过程，包括本文所描述的过程中的一者或多者。此类命令和其他数据可以存储在文件中并使用各种计算机可读介质来传输。计算装置中的文件通常是存储在诸如存储介质、随机存取存储器等计算机可读介质上的数据的集合。

计算机可读介质包括参与提供可由计算机读取的数据(例如，命令)的任何介质。这种介质可以采用许多形式，包括但不限于非易失性介质、易失性介质等。非易失性介质包括例如光盘或磁盘以及其他持久性存储器。易失性介质包括通常构成主存储器的动态随机存取存储器(DRAM)。计算机可读介质的常见形式包括例如软磁盘、软盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD、任何其他光学介质、穿孔卡片、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、快闪EEPROM、任何其他存储器芯片或盒式磁带、或者计算机可从其读取的任何其他介质。

除非本文作出相反的明确指示，否则权利要求中使用的所有术语意图给出如本领域技术人员所理解的普通和通常的含义。具体地，除非权利要求叙述相反的明确限制，否则使用诸如“一个”、该”、“所述”等单数冠词应被解读为叙述所指示的要素中的一者或多者。

术语“示例性”在本文中以表示示例的意义使用，例如，对“示例性小部件”的引用应被解读为仅指代小部件的示例。

修饰值或结果的副词“大约”意味着形状、结构、测量值、值、确定、计算等可能因材料、机加工、制造、传感器测量、计算、处理时间、通信时间等的缺陷而与确切描述的几何形状、距离、测量值、值、确定、计算等有偏差。

在附图中，相同的附图标记指示相同的元件。此外，可以改变这些元件中的一些或全部。关于本文所描述的介质、过程、系统、方法等，应当理解，尽管此类过程等的步骤或框已被描述为按照特定顺序的序列发生，但是此类过程可以通过以本文所描述的顺序以外的顺序执行的所描述步骤来实践。还应当理解，可以同时执行某些步骤，可以添加其他步骤，或者可以省略本文所描述的某些步骤。换句话说，本文对过程的描述是出于说明某些实施例的目的而提供的，并且决不应解释为限制所要求保护的发明。

根据本发明，提供了一种系统，所述系统具有计算装置，所述计算装置包括：处理器；以及存储器，所述存储器包括可由所述处理器执行以进行以下各项的指令：从由固定传感器在第一时间步获取的传感器数据识别第一对象特征；确定在第二时间步的第二对象特征；通过确定所述第一对象特征与对应的第二对象特征之间以像素为单位测量的距离并将所述距离与一个或多个平均距离进行比较来确定第一对象特征的一个或多个对象聚类；通过确定第一对象特征的多个随机样本的多个相似性变换并基于将包括在相似性变换中的第一对象特征的数量最大化确定内点第一对象特征来确定所述一个或多个对象聚类中的内点第一对象特征的一个或多个对象组，其中所述相似性变换测量将一组第一对象特征变换为一组第二对象特征的平移、旋转和缩放；基于所述对象组的位置来确定所述一个或多个对象组的跟踪数据；以及将第二对象聚类的所述跟踪数据提供给车辆。

根据实施例，所述传感器数据包括视频数据和激光雷达数据。

根据实施例，所述第一时间步与所述第二时间步之间的时间差是基于视频帧速率。

根据实施例，所述一个或多个对象聚类对应于一个或多个行人或一个或多个车辆。

根据实施例，所述指令包括用于进行以下项的指令：通过用ORB特征检测器处理传感器数据来确定第一和第二对象特征，其中所述ORB特征检测器是包括检测拐角特征并确定所述拐角特征的取向的机器视觉技术。

根据实施例，所述指令包括用于进行以下项的指令：通过计算关于所述距离的k最近邻算法来确定所述对象聚类，其中所述k最近邻算法将对象特征基于其距离和最近邻来分配给所述对象聚类。

根据实施例，所述指令包括用于进行以下项的指令：基于第一对象特征与第二对象特征之间的最小聚类大小和最大距离来确定所述对象聚类。

根据实施例，所述指令包括用于进行以下项的指令：通过确定所述第一对象特征的一个或多个凸包并将封闭椭圆拟合到所述凸包来确定所述一个或多个对象特征的所述位置。

根据实施例，所述指令包括用于进行以下项的指令：通过确定所述封闭椭圆在传感器数据的连续帧中的位置并用粒子滤波器或卡尔曼滤波器中的一者或多者对所述位置进行滤波来确定所述对象特征的跟踪数据。

根据实施例，将所述一个或多个对象组的所述跟踪数据下载到包括在所述车辆中的第二计算装置。

根据实施例，所述第二计算装置使用所述一个或多个对象组的所述跟踪数据来操作所述车辆。

根据实施例，操作所述车辆包括使用所述跟踪数据来预测所述一个或多个对象组的位置，以及操作所述车辆以避免与所述一个或多个对象组接触。

根据本发明，一种方法包括：从由固定传感器在第一时间步获取的传感器数据识别第一对象特征；确定在第二时间步的第二对象特征；通过确定第一对象特征与对应的第二对象特征之间以像素为单位测量的距离并将所述距离与一个或多个平均距离进行比较来确定第一对象特征的一个或多个对象聚类；通过确定第一对象特征的多个随机样本的多个相似性变换并基于将包括在相似性变换中的第一对象特征的数量最大化确定内点第一对象特征来确定所述一个或多个对象聚类中的内点第一对象特征的一个或多个对象组，其中所述相似性变换测量将一组第一对象特征变换为一组第二对象特征的平移、旋转和缩放；基于所述对象组的位置来确定所述一个或多个对象组的跟踪数据；以及将第二对象聚类的所述跟踪数据提供给车辆。

根据实施例，本发明的特征还在于：通过用ORB特征检测器处理传感器数据来确定对象特征，其中所述ORB特征检测器是包括检测拐角特征并确定所述拐角特征的取向的机器视觉技术。

根据实施例，本发明的特征还在于：通过计算关于所述距离的k最近邻算法来确定所述对象聚类，其中所述k最近邻算法将对象特征基于其距离和最近邻来分配给所述对象聚类。

根据实施例，本发明的特征还在于：基于第一对象特征与第二对象特征之间的最小聚类大小和最大距离来确定所述对象聚类。

根据实施例，本发明的特征还在于：通过凭借确定所述对象的一个或多个凸包并将封闭椭圆拟合到所述凸包确定所述一个或多个对象特征的所述位置来确定所述对象特征的所述位置。

Claims

1.一种方法，其包括：

从由固定传感器在第一时间步获取的传感器数据识别第一对象特征；

确定在第二时间步的第二对象特征；

通过确定第一对象特征与对应的第二对象特征之间以像素为单位测量的距离并将所述距离与一个或多个平均距离进行比较来确定第一对象特征的一个或多个对象聚类；

通过确定第一对象特征的多个随机样本的多个相似性变换并基于将包括在相似性变换中的第一对象特征的数量最大化确定内点第一对象特征来确定所述一个或多个对象聚类中的内点第一对象特征的一个或多个对象组，其中所述相似性变换测量将一组第一对象特征变换为一组第二对象特征的平移、旋转和缩放；

基于所述对象组的位置来确定所述一个或多个对象组的跟踪数据；以及

将第二对象聚类的所述跟踪数据提供给车辆。

2.根据权利要求1所述的方法，其中所述传感器数据包括视频数据和激光雷达数据。

3.根据权利要求1所述的方法，其中所述第一时间步与所述第二时间步之间的时间差是基于视频帧速率。

4.根据权利要求1所述的方法，其中所述一个或多个对象聚类对应于一个或多个行人或一个或多个车辆。

5.根据权利要求1所述的方法，其还包括通过用ORB特征检测器处理传感器数据来确定对象特征，其中所述ORB特征检测器是包括检测拐角特征并确定所述拐角特征的取向的机器视觉技术。

6.根据权利要求1所述的方法，其还包括通过计算关于所述距离的k最近邻算法来确定所述对象聚类，其中所述k最近邻算法将对象特征基于其距离和最近邻来分配给所述对象聚类。

7.根据权利要求1所述的方法，其还包括基于第一对象特征与第二对象特征之间的最小聚类大小和最大距离来确定所述对象聚类。

8.根据权利要求1所述的方法，其还包括通过凭借确定所述对象的一个或多个凸包并将封闭椭圆拟合到所述凸包确定所述一个或多个对象特征的所述位置来确定所述对象特征的所述位置。

9.根据权利要求8所述的方法，其还包括通过确定所述封闭椭圆在传感器数据的连续帧中的位置并用粒子滤波器或卡尔曼滤波器中的一者或多者对所述位置进行滤波来确定所述对象特征的跟踪数据。

10.根据权利要求1所述的方法，其中将所述一个或多个对象组的所述跟踪数据下载到包括在所述车辆中的第二计算装置。

11.根据权利要求10所述的方法，其中所述第二计算装置使用所述一个或多个对象组的所述跟踪数据来操作所述车辆。

12.根据权利要求11所述的方法，其中操作所述车辆包括使用所述跟踪数据来预测所述一个或多个对象组的位置，以及操作所述车辆以避免与所述一个或多个对象组接触。

13.根据权利要求1所述的方法，其中所述内点第一对象特征是基于RANSAC算法确定的，其中所述RANSAC算法包括基于对象特征的随机样本来确定相似性变换。

14.根据权利要求13所述的方法，其中通过基于根据对象特征的随机样本的所述相似性变换将第一对象特征与第二对象特征进行匹配来确定所述内点第一对象特征。

15.一种系统，其包括计算机，所述计算机被编程为执行根据权利要求1至14中任一项所述的方法。