CN116601667A - 用单目监视相机进行3d对象检测和跟踪的系统和方法 - Google Patents

用单目监视相机进行3d对象检测和跟踪的系统和方法 Download PDF

Info

Publication number
CN116601667A
CN116601667A CN202180048135.3A CN202180048135A CN116601667A CN 116601667 A CN116601667 A CN 116601667A CN 202180048135 A CN202180048135 A CN 202180048135A CN 116601667 A CN116601667 A CN 116601667A
Authority
CN
China
Prior art keywords
video frames
computing device
parameters
bird
camera
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180048135.3A
Other languages
English (en)
Inventor
宁广涵
黄恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jd Financial Usa
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jd Financial Usa, Jingdong Technology Holding Co Ltd filed Critical Jd Financial Usa
Publication of CN116601667A publication Critical patent/CN116601667A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/164Centralised systems, e.g. external to vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/277Analysis of motion involving stochastic approaches, e.g. using Kalman filters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2628Alteration of picture size, shape, position or orientation, e.g. zooming, rotation, rolling, perspective, translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2420/00Indexing codes relating to the type of sensors based on the principle of their operation
    • B60W2420/40Photo, light or radio wave sensitive means, e.g. infrared sensors
    • B60W2420/403Image sensing, e.g. optical camera
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • B60W50/14Means for informing the driver, warning the driver or prompting a driver intervention
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0025Planning or execution of driving tasks specially adapted for specific operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30236Traffic on road, railway or crossing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种用于车辆的协同操纵和协同风险警告的系统和方法。系统包括:单目监视相机、本地计算设备和主服务器。每个本地计算设备从相机接收多个视频帧,从多个视频帧中检测并跟踪车辆,以及将多个视频帧转换为鸟瞰图。每个检测到的车辆由检测向量表示,检测向量具有第一维度和第二维度,第一维度表示车辆的二维(2D)参数,第二维度表示车辆的三维(3D)参数。通过使基于检测向量的第一维度和第二维度计算的损失最小化来进行车辆的跟踪。主服务器接收来自不同计算设备的鸟瞰图,将鸟瞰图组合为全局鸟瞰图,并使用全局鸟瞰图执行车辆的协同操纵和协同风险警告。

Description

用单目监视相机进行3D对象检测和跟踪的系统和方法
交叉引用
在本公开的描述中引用和讨论了一些参考文献,其可能包括专利、专利申请和各种出版物。提供此类参考文献的引用和/或讨论仅用于阐明本公开的描述,并不承认任何此类参考文献是本文所述公开的“现有技术”。在“参考文献”部分中引用的或在本说明书中讨论的所有参考文献通过引用整体并入本文,并且与每篇参考文献通过引用单独并入的程度相同。
技术领域
本公开总体上涉及对象检测和跟踪,更具体地涉及使用单目监视相机来检测和跟踪车辆的车路协同系统。
背景技术
在此提供的背景描述是为了概括地呈现本公开的上下文。在本背景部分描述的范围内,当前署名的发明人的工作以及在申请递交时本可以不算作现有技术的描述方面,不以明示或暗示的方式被承认为针对本公开的现有技术。
智能交通系统(Intelligent transport systems,ITS)是交通系统,其中整合了先进的信息、通信、计算机、传感器和控制技术并应用于运输领域,以提高安全性、可持续性、效率和舒适性。作为人、路、车一体化的系统,为驾驶员提供道路信息和便捷服务,减少交通拥堵,增加道路通行能力。
作为智能交通系统的高级阶段,车路协同(Cooperative VehicleInfrastructure System,CVIS)可以利用无线通信和传感器检测技术获取车辆和道路信息,实现车辆和基础设施之间的交互和数据共享。该系统很好地解决了车辆与基础设施之间的智能通信和协调,使系统资源得到更高效的利用,使道路交通更安全,减少交通拥堵。该系统可以非常精确地解释交通参与者的意图,并可以大大提高对自动驾驶车辆的感知。视觉、雷达、光探测和测距(light detection and ranging,LiDAR)等传感器可安装在车辆和路灯杆上,演变成一体式信号杆、一体式交通杆和一体式电子报警杆。车辆和道路终端的同时感知可以最小化盲区,并提前通知看不见的碰撞。
CVIS涉及诸如智能车载系统技术、智能道路测试技术、车联网(vehicle toeverything,V2X)等技术。自动驾驶是V2X通信的主要应用之一,可以对人们的生活方式产生第一主要影响。V2X通信克服了现有自动驾驶车辆仅基于由车载传感器组成的感知子系统的两个限制:(1)车载传感器的有限感知范围仅允许检测相邻车辆;(2)车辆无法协同以高效地执行高复杂度的操纵。这些缺点可以被克服,因为V2X在自动驾驶车辆中实现了两个关键特征:(1)协同感测,即通过感测数据的相互交换来增加感测范围;(2)协同操纵,即使一组自动驾驶车辆根据共同的集中或分散决策策略来协同驾驶。为了确保安全和提高效率,将来自可信来源的实时警报发送给驾驶员和行人,从而提供有关道路危险、拥堵状况、紧急车辆存在的信息。
如图1所示,V2X主要部署了四种运营模式:(1)车辆对车辆(Vehicle-to-vehicle,V2V)、(2)车辆对基础设施(Vehicle-to-infrastructure,V2I)、(3)车辆对行人(Vehicle-to-pedestrian,V2P)以及(4)车辆对网络(Vehicle-to-Network,V2N)。V2I可以为车辆提供信息,例如可用停车位、交通拥堵、道路状况等。V2I应用信息由本地可用的应用服务器产生并通过远程交换单元(RSU)传输,其中RSU是路边固定单元,充当收发器。为了提高V2I应用的效率和准确性,建议使用不同类型的传感器,例如高分辨率相机、超高频(UHF)波段无线电波。然而,使用多种传感器的成本很高,并且需要计算资源来整合来自这些传感器的信息。
因此,本领域存在解决上述缺陷和不足的需要。
发明内容
在某些方面,本公开涉及一种系统。在某些实施例中,系统包括:相机;以及与所述相机通信的计算设备。所述计算设备被配置为:
从所述相机接收多个视频帧;
从所述多个视频帧中检测对象,其中在每个视频帧中检测到的对象由检测向量表示,所述检测向量包括第一维度和第二维度,所述第一维度表示所述对象的二维2D参数,所述第二维度表示所述对象的三维3D参数;
基于所述对象在所述多个视频帧中的检测向量,在所述多个视频帧中跟踪所述对象,得到所述对象的轨迹,其中,对象跟踪中的损失最小化是基于检测向量的第一维度和第二维度来计算的;以及
将所述多个视频帧转换为鸟瞰图,其中所述多个视频帧的鸟瞰图包括所述对象的轨迹。
在某些实施例中,所述对象是车辆,所述系统还包括服务器计算设备。所述服务器计算设备被配置为从所述计算设备接收所述多个视频帧的鸟瞰图,并使用接收到的所述多个视频帧的鸟瞰图进行协同操纵和协同风险警告中的至少一个。
在某些实施例中,所述计算设备、所述服务器计算设备和所述车辆通过第五代移动网络进行通信。
在某些实施例中,所述对象的2D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的2D边界框的位置和大小,所述对象的3D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的3D框的顶点、中心点和方向。
在某些实施例中,所述计算设备被配置为使用单发3D对象检测器同时检测所述对象的2D参数和3D参数。
在某些实施例中,所述计算设备被配置为使用2D对象检测器检测所述对象的2D参数并使用3D对象检测器检测所述对象的3D参数,所述2D检测器从视频帧中检测所述对象的2D参数,所述3D对象检测器从所述2D参数中检测所述对象的3D参数。
在某些实施例中,所述计算设备被配置为使用图卷积-长短期记忆GC-LSTM网络来跟踪所述对象,所述GC-LSTM网络采用孪生图卷积网络GCN基于所述对象的2D参数、所述对象的3D参数和所述对象的视觉特征来将所述多个视频帧中所述对象的标识进行关联。
在某些实施例中,所述计算设备被配置为使用卡尔曼滤波器和匈牙利算法来跟踪所述对象,所述卡尔曼滤波器用于对检测到的所述对象的2D参数和3D参数进行优化,所述匈牙利算法用于将所述多个视频帧中所述对象的标识进行关联。
在某些实施例中,所述相机包括单目监视相机,所述计算设备还被配置为校准所述单目监视相机。在某些实施例中,所述相机和所述计算设备安装在交通杆上。
在某些实施例中,所述计算设备被配置为使用内置芯片检测所述对象并跟踪所述对象。
在某些实施例中,本公开涉及一种方法。在某些实施例中,方法包括:
由计算设备接收相机捕获的多个视频帧;
由所述计算设备从所述多个视频帧中检测对象,其中在每个视频帧中检测到的对象由检测向量表示,所述检测向量包括第一维度和第二维度,所述第一维度表示所述对象的二维2D参数,所述第二维度表示所述对象的三维3D参数;
由所述计算设备基于所述对象在所述多个视频帧中的检测向量,在所述多个视频帧中跟踪所述对象,得到所述对象的轨迹,其中,对象跟踪中的损失最小化是基于检测向量的第一维度和第二维度来计算的;以及
由所述计算设备将所述多个视频帧转换为鸟瞰图,其中所述多个视频帧的鸟瞰图包括所述对象的轨迹。
在某些实施例中,所述对象是车辆,所述方法还包括:
由服务器计算设备从所述计算设备接收所述多个视频帧的鸟瞰图;以及
由所述服务器计算设备使用接收到的所述多个视频帧的鸟瞰图进行协同操纵和协同风险警告中的至少一个。
在某些实施例中,所述对象的2D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的2D边界框的位置和大小,所述对象的3D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的3D框的顶点、中心点和方向。
在某些实施例中,使用单发3D对象检测器同时检测所述对象的2D参数和3D参数。
在某些实施例中,分别使用2D对象检测器和3D对象检测器检测所述对象的2D参数和所述对象的3D参数,所述2D检测器从视频帧中检测所述对象的2D参数,所述3D对象检测器从所述2D参数中检测所述对象的3D参数。
在某些实施例中,使用图卷积-长短期记忆GC-LSTM网络来跟踪所述对象,所述GC-LSTM网络采用孪生图卷积网络GCN基于所述对象的2D参数、所述对象的3D参数和所述对象的视觉特征来将所述多个视频帧中所述对象的标识进行关联。
在某些实施例中,使用卡尔曼滤波器和匈牙利算法来跟踪所述对象,所述卡尔曼滤波器用于对检测到的所述对象的2D参数和3D参数进行优化,所述匈牙利算法用于将所述多个视频帧中所述对象的标识进行关联。
在某些实施例中,所述相机包括单目监视相机。
在某些实施例中,本公开涉及一种存储计算机可执行代码的非瞬时计算机可读介质。所述计算机可执行代码在计算设备的处理器处执行时被配置为执行上述方法。
本公开的这些方面和其他方面将从以下结合以下附图及其说明的优选实施方案的描述中变得明显,尽管在不背离本公开的新颖概念的精神和范围的情况下,其中的变化和修改可能会受到影响。
附图说明
附图示出了本公开的一个或多个实施例,并与书面描述一起用于解释本公开的原理。在可能的情况下,在整个附图中使用相同的附图标记来指代实施例的相同或相似元件,其中:
图1示意性地描绘了5G网络环境中车辆与一切的交互。
图2示意性地描绘了根据本公开的某些实施例的车路协同系统的数据流。
图3示意性地描绘了根据本公开的某些实施例的以视觉为中心的3D对象检测和跟踪系统的计算设备。
图4示意性地描绘了根据本公开的某些实施例的用于3D对象跟踪的图卷积-长短期记忆(graph convolution-long short term memory,GC-LSTM)。
图5示意性地描绘了根据本公开的某些实施例的将相机视图转换为鸟瞰图。
图6示意性地描绘了根据本公开的某些实施例的用于协同操纵和协同风险警告的2D和3D检测和跟踪的过程。
具体实施方式
在以下示例中更具体地描述本公开,这些示例仅旨在作为说明,因为其中的许多修改和变化对于本领域技术人员来说将是显而易见的。现在详细描述本公开的各种实施例。参考附图,贯穿视图,相同的数字指示相同的组件。除非上下文另有明确规定,否则本文的描述中和整个权利要求中使用的“一个”、“一”和“所述”的含义包括复数。此外,如在本公开的描述和权利要求书中所使用的,除非上下文另有明确规定,“在”的含义包括“在……中”和“在……上”。并且,说明书中为了方便读者可以使用标题或副标题,这不影响本公开的范围。此外,本说明书中使用的一些术语在下文有更具体的定义。
本说明书中使用的术语在本领域中、在本公开的上下文中以及在使用每个术语的特定上下文中通常具有它们的普通含义。用于描述本公开的某些术语在下文或说明书中的其他地方讨论,以向从业者提供关于本公开的描述的额外指导。可以理解,同样的事情可以用不止一种方式表达出来。因此,替代语言和同义词可用于此处讨论的任何一个或多个术语,并且对于此处是否详细阐述或讨论术语没有任何特殊意义。本公开提供了某些术语的同义词。一个或多个同义词的使用不排除使用其他同义词。本说明书中任何地方的示例的使用,包括本文讨论的任何术语的示例,仅是说明性的,决不限制本公开内容或任何示例性术语的范围和含义。同样,本公开不限于本说明书中给出的各种实施例。
应当理解,当一个元件被称为在另一个元件“上”时,这一元件可以直接在另一个元件上,或者中间元件可以存在于这两个元件之间。相反,当一个元件被称为“直接”在另一个元件“上”时,则不存在中间元件。如本文所用,术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
应当理解,尽管本文中可以使用术语第一、第二、第三等来描述各种元件、组件、区域、层和/或部分,但是这些元件、组件、区域、层和/或部分不应该是受这些术语的限制。这些术语仅用于将一个元件、组件、区域、层或部分与另一个元件、组件、区域、层或部分区分开来。因此,以下讨论的第一元件、组件、区域、层或部分可以被称为第二元件、组件、区域、层或部分,而不背离本公开的教导。
此外,诸如“下部”或“底部”和“上部”或“顶部”之类的相对术语可在本文中用于描述一个元件与另一元件的关系,如图所示。应当理解,相对术语旨在涵盖除了图中描绘的方向之外的装置的不同方向。例如,如果其中一个图中的设备被翻转,则被描述为在其他元件“下”侧的元件将被定向在其他元件的“上”侧。因此,示例性术语“下”可以包括“下”和“上”的方向,这取决于图的特定方向。类似地,如果其中一个图中的设备被翻转,则描述为在其他元件“下方”或“之下”的元件将被定向为在其他元件“上方”。因此,示例性术语“下方”或“之下”可以包括上方和下方的方向。
除非另有定义,本公开使用的所有术语(包括技术和科学术语)具有与本公开内容所属领域的普通技术人员通常理解的相同的含义。还应理解,诸如在常用词典中定义的术语应被解释为具有与其在相关技术和本公开的上下文中一致的含义,并且,除非在此明确定义,不会被解释为理想化的或过于形式化的意义。
如本文所述,“大约”、“大致”、“基本上”或“近似”应通常表示给定值或范围的20%以内,优选10%以内,更优选5%以内。本文给出的数值是近似的,意味着如果没有明确说明,可以推断出术语“大约”、“大致”、“基本上”或“近似”。
如本文所述,“多个”是指两个或更多个。
如本文所述,术语“包括”、“包含”、“携带”、“具有”、“含有”、“涉及”等应理解为开放式的,即意味着包括但不限于。
如本文所述,短语A、B和C中的至少一个应解释为表示逻辑(A或B或C),使用非排外性逻辑或(OR)。应当理解,在不改变本公开的原理的情况下,方法内的一个或多个步骤可以以不同的顺序(或同时)执行。
如本文所述,术语“模块”可指示属于或包括专用集成电路(ASIC);电子线路;组合逻辑电路;现场可编程门阵列(FPGA);执行代码的处理器(共享的、专用的或组);提供所描述功能的其他合适的硬件组件;或以上部分或全部的组合,例如在片上系统中。术语模块可以包括存储由处理器执行的代码的存储器(共享的、专用的或组)。
本文使用的术语“代码”可以包括软件、固件和/或微代码,并且可以指程序、例程、函数、类和/或对象。上面使用的术语共享意味着可以使用单个(共享)处理器执行来自多个模块的部分或全部代码。此外,来自多个模块的部分或全部代码可以存储在单个(共享)存储器中。上面使用的术语组意味着可以使用一组处理器执行来自单个模块的部分或全部代码。此外,可以使用一组存储器来存储来自单个模块的一些或全部代码。
如本文所述,术语“接口”通常是指在组件之间的交互点处用于执行组件之间的数据通信的通信工具或装置。一般而言,接口可以在硬件和软件层面都适用,可以是单向或双向接口。物理硬件接口的示例可以包括电连接器、总线、端口、电缆、端子和其他I/O设备或组件。与接口通信的组件可以是例如计算机系统的多个组件或外围设备。
本公开涉及计算机系统。如附图所示,计算机组件可以包括如实线框所示的物理硬件组件以及如虚线框所示的虚拟软件组件。本领域普通技术人员将理解,除非另有说明,否则这些计算机组件可以以软件、固件或硬件组件或其组合的形式来实现,但不限于这些形式。
本文描述的装置、系统和方法可以通过由一个或多个处理器执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序还可包括存储的数据。非暂时性有形计算机可读介质的非限制性示例是非易失性存储器、磁存储和光存储。
现在将在下文中参考附图更全面地描述本公开,其中示出了本公开的实施例。然而,本公开可以以许多不同的形式体现并且不应被解释为限于这里阐述的实施例;相反,提供这些实施例是为了使本公开彻底和完整,并将本公开的范围充分传达给本领域技术人员。
自动驾驶车辆和V2I技术的结合实现了两个关键的协同特征:感测和操纵。在诸多重要信息当中,车辆3D范围和轨迹是预测车辆未来位置(感测)和基于这些预测结果来规划未来运动(操纵)的关键线索。在某些方面,本公开提供了一种系统,该系统利用静态单目监视相机和相应的本地可用应用服务器来检测和跟踪多个车辆,并将这些车辆映射到相机坐标系以通过本地RSU传输。这些车辆的位置和身份以鸟瞰图的形式展示,以进行协同感测和操纵。
图2示意性地描绘了根据本公开的某些实施例的车路协同系统的数据流。如图2所示,该系统包括主服务器210、多个本地远程交换单元(remote switching units,RSU)230、多个本地相机240和多个本地应用服务器250。每个本地应用服务器250包括校准模块256。校准模块256校准本地相机240,指示本地相机240拍摄环境视频,从本地相机240接收多个视频帧,以及将接收到的多个视频帧准备好并提供给3D对象检测模块258。3D对象检测模块258接收经过校准的视频帧,并检测2D对象和3D对象,例如视频中的车辆。然后3D对象跟踪模块262跟踪视频中的对象。鸟瞰图变换器267将带有对象的视频的视图转换为鸟瞰图。然后将本地应用服务器250的鸟瞰图通过RSU 230传输到主服务器210。当不同相机坐标系中的鸟瞰图可用时,主服务器210将这些鸟瞰图进行组合以获得在由本地相机240覆盖的定义区域内的全局鸟瞰图。利用该区域的全局鸟瞰图和在全局区域中检测到的对象,主服务器201可以执行协同操纵270和协同风险警告290。这些操纵和风险警告可以通过主服务器210、本地RSU 230和本地应用服务器250回传给对象,本地应用服务器250可以直接指示对象的操作或与对象进行通信。在某些实施例中,主服务器210还可以通过其他方式与对象进行通信。在某些实施例中,对象是车辆或自动驾驶车辆。
每个本地相机240可以安装在交通杆上。对应的本地应用服务器250可以安装在交通杆或靠近交通杆的地方。在某些实施例中,本地应用服务器250也可以远离交通杆,只要本地相机240和远程放置的本地应用服务器250之间的通信是高效的,且从本地应用服务器250和/或者主服务器210到靠近交通杆的车辆的通信是高效的。在某些实施例中,本地应用服务器250的功能也可以集成到主服务器210中。
在某些实施例中,使用二维对象检测(two dimensional object detection,2DOD)模型259和三维对象检测(three dimensional object detection,3DOD)模型260来执行3D对象检测模块258。2DOD模型259和3DOD模型260的组合是自上而下的方法。在某些实施例中,在从本地相机240捕获的多个视频帧中检测到对象的2D边界框之后,本公开还使用这些2D检测结果来减少搜索空间,同时还回归3D边界框。备选地,使用单发(single-shot)3D对象检测(3DOD)模块261来执行3D对象检测模块258。这是一种自下而上的方法,其中本公开一次地(in-one-shot)执行联合2D和3D对象检测。在某些实施例中,3D对象检测模块258可以提供上述自上而下的方法和自下而上的方法两者,并提供一种机制以基于某些标准(例如基于本地相机240的位置、本地相机240拍摄的视频的质量、本地相机240与其他相邻本地相机240之间的距离、应用服务器250的计算能力以及诸如协同操纵和协同风险预警等特定任务的要求)从这些方法之一中进行选择。在某些实施例中,3D对象检测模块258可以仅包括单发3DOD模块261,或者仅包括2DOD模型259和3DOD模型260。在某些实施例中,3D对象检测模块258的输入是一系列视频帧,3D对象检测模块258的输出是多个视频帧、视频帧中对象的2D边界框以及3D对象信息。在某些实施例中,对象的2D信息和3D信息被组合,以针对每个检测到的对象形成向量。
在某些实施例中,使用3D卡尔曼滤波器(3D Kalman Filter)263和匈牙利算法(Hungarian Algorithm)264执行3D对象跟踪模块262。卡尔曼滤波器263用于对2D和3D对象的轨迹进行平滑处理,而匈牙利算法264用于将多个视频帧中对象的标识进行关联。卡尔曼滤波器263和匈牙利算法264可以串行或并行执行。备选地,使用GC-LSTM模块265执行3D对象跟踪模块262。在某些实施例中,GC-LSTM模块265执行在线跟踪,具有对轨迹进行平滑处理的副作用。此外,GC-LSTM模块265使用孪生GCN(Siamese Graph ConvolutionalNetwork)来关联对象的ID,例如车辆的ID。在某些实施例中,3D对象跟踪模块262可以提供上述两种跟踪方法,并提供一种机制以基于某些标准(例如本地相机240的位置、由本地相机240捕获的视频的质量、视频中对象或车辆的数量、本地相机240与其他相邻本地相机240之间的距离以及应用服务器250的计算能力)从方法之一中进行选择。在某些实施例中,3D对象跟踪模块262可以只包括GC-LSTM模块265,或者只包括3D卡尔曼滤波器263和匈牙利算法264。
可以通过鸟瞰图变换器267将具有检测和跟踪对象的多个视频帧从相机坐标系转换为鸟瞰图。来自多个本地应用服务器250的本地鸟瞰图通过各自的RSU 230传输到主服务器210。主服务器210在世界坐标系中将鸟瞰图组合成一个全局鸟瞰图,主服务器210可以利用全局鸟瞰图,优选地结合其他相关信息,来实现协同操纵和协同风险预警。在某些实施例中,鸟瞰图变换器267也可以是主服务器210的组件,而不是本地应用服务器250的组件。
图3示意性地描绘了根据本公开的某些实施例的车路协同系统(CVIS)。在某些实施例中,CVIS 300包括多个计算设备350。计算设备350可以是服务器计算机、集群、云计算机、通用计算机、无头计算机或专用计算机,其提供多个视频帧的对象检测和对象跟踪,并在相机坐标系中提供对象的鸟瞰图。在某些实施例中,每个计算设备350可以对应于图2所示的应用服务器250之一。如图3所示,计算设备350可以包括但不限于处理器351、存储器352和存储设备353。在某些实施例中,计算设备350可以包括其他硬件组件和软件组件(未示出)以执行其对应的任务。这些硬件和软件组件的示例可以包括但不限于其他所需的存储器、接口、总线、输入/输出(I/O)模块或设备、网络接口和外围设备。
处理器351可以是中央处理单元(CPU),被配置为控制计算设备350的操作。处理器351可以执行计算设备350的操作系统(OS)或其他应用。在某些实施例中,计算设备350可以具有不止一个CPU作为处理器,例如两个CPU、四个CPU、八个CPU或任何合适数量的CPU。
存储器352可以是易失性存储器,例如随机存取存储器(RAM),用于在计算设备350的操作期间存储数据和信息。在某些实施例中,存储器352可以是易失性存储器阵列。在某些实施例中,计算设备350可以在不止一个存储器352上运行。
在某些实施例中,计算设备350还可以包括显卡以辅助处理器351和存储器352进行图像处理和显示。
存储设备353是用于存储计算设备350的操作系统(未示出)和其他应用的非易失性数据存储介质。存储设备353的示例可以包括非易失性存储器,例如闪存、存储卡、USB驱动器、固态驱动器、软盘、光驱或任何其他类型的数据存储设备。在某些实施例中,计算设备350可以具有多个存储设备353,这些存储设备353可以是相同的存储设备或不同类型的存储设备,计算设备350的应用可以存储在计算设备350的一个或多个存储设备353中。
在该实施例中,处理器351、存储器352、存储设备353是计算设备350(例如服务器计算设备)的组件。在其他实施例中,计算设备350可以是分布式计算设备,处理器351、存储器352和存储设备353是来自预定义区域中的多个计算机的共享资源。
此外,存储设备353包括本地相机应用354。本地相机应用354包括校准模块356、3D对象检测模块358、3D对象跟踪模块362、鸟瞰图变换器367以及可选的用户界面368。在某些实施例中,存储设备353包括内容本地相机应用354运行所需的其他应用或模块。应当注意,模块356、358、362、367和368各自由计算机可执行代码或指令、数据表或数据库实现,它们共同形成一个应用。在某些实施例中,每个模块还可以包括子模块。备选地,一些模块可以组合为一个堆栈。在其他实施例中,某些模块可以实现为电路而非可执行代码,使得计算速度可以显著提高。
校准模块356用于校准本地相机240,从本地相机接收视频,校准接收到的视频,并将校准后的视频发送给3D对象检测模块358。需要对交通杆上的本地相机240进行校准。但由于相机是静态的,所以内参和外参都是稳定的,因此每个相机的校准过程只需要执行一次。在某些实施例中,校准过程获取棋盘的一系列棋盘图像(例如8列6行棋盘),然后检测棋盘角。接着,该校准过程进行迭代以找到角或径向鞍点的子像素精确位置。基于这些信息,实施例校准相机并导出相机矩阵、失真系数以及平移和旋转矢量。然后实施例计算投影矩阵和旋转矩阵。在某些实施例中,校准由校准模块356执行。在某些实施例中,也可以将校准参数加载到相机240中,对相机240输出的视频进行校准,然后可以直接输入到3D对象检测模块358中。在某些实施例中,校准参数被提供给3D对象检测模块358,相机240将捕获的视频直接发送给3D对象检测模块358,使得3D对象模块358可以使用校准参数处理视频。在某些实施例中,校准模块356被配置为存储本地相机应用354中的校准参数,例如投影矩阵和旋转矩阵,并且存储的校准参数可供本地相机应用354的模块使用。
3D对象检测模块358被配置为在接收到来自相机240的视频或来自校准模块356的校准视频后,从多个视频帧中检测2D对象和3D对象,并将2D和3D对象检测结果发送到3D对象跟踪模块362。在某些实施例中,如图3所示,本公开提供了两种检测器选择:1)自上而下检测器,包括2D对象检测器及其后面的3D对象回归器,即2D对象检测(2DOD)模型359和3D对象检测(3DOD)模型360;以及2)自下而上的检测器,其一次地检测2D和3D对象两者,即单发3D对象检测(3DOD)模块361。第一个检测器是通用的,即,2D对象检测器可以是自由更换的,以便采用最新的最先进的方法。由于它是自上而下的,因此在速度-准确性权衡方面,它倾向于更好的准确性但具有更高的复杂性。第二个检测器是自下而上的,计算成本与对象的数量不成正比。在某些实施例中,3D对象检测模块358还包括决策机制,以选择自上而下和自下而上方法之一。例如,当需要高准确性且计算设备350的计算能力足够时,或者当视频不包括很多对象时,3D对象检测模块358可以选择自上而下的方法。当视频中有大量对象时,3D对象检测模块358可以选择自下而上的方法。在某些实施例中,根据环境的特征,预先确定使用自上而下或自下而上方法,使得本地计算设备350的3D对象检测模块358可以只包括自上而下方法或者只包括自下而上的方法。
自上而下3D对象检测器包括2DOD模型359和3DOD模型360。3DOD360具有3D对象回归器和框回归器。2DOD模型359被配置为在从相机240或校准模块356接收到多个视频帧或视频图像后,检测图像坐标系中的2D对象。图像中紧密包围对象的区域被定义为感兴趣区域(region of interest,ROI),每个ROI是图像中围绕例如一辆车而裁剪的区域。2DOD模型359还被配置为将ROI发送到3D对象回归器。3D对象回归器在接收到ROI后,将裁剪的RGB像素回归到(图像坐标系中的)例如车辆的八个矩形点、车辆的尺寸(长度、宽度、高度)以及距相机240的深度/距离,其中车辆被视为长方体。这些信息与相机矩阵一起被馈送到最终框回归器中,并回归为精细的车辆尺寸(高度、宽度、长度)、在相机坐标系(x,y,z)中的车辆中心以及y轴(即偏航轴)上的旋转角θ。
在某些实施例中,2DOD模型359包括以下两个可替换的且现成的2D对象检测器中的至少一个:YOLOv3和CenterNet。2D对象检测器可以是自上而下或自下而上的,只要它们提供准确的2D对象区域即可。因此,2DOD模型359是通用的且模型化的。
在某些实施例中,3DOD模型360的3D对象回归器由预训练的ResNet34主干(backbone)(去除了全连接层)及其后面的3个全连接层来实现。通道可以从512减少到256、128,最终到20。这20个通道表示八个点(2×8=16个通道)、粗略的车辆尺寸(3个通道)和粗略的深度(1个通道)。
在某些实施例中,最终框回归器不是深度神经网络(deep neural network,DNN),而是优化算法。最终框回归器通过将回归像素坐标与通过将估计的3D框投影到图像平面上获得的像素坐标之间的差异最小化来几何估计3D框参数(x、y、z、h、w、l、θ)。在这个最小化处理中,回归的3D框大小和距离用于初始化和正则化。这个非线性最小二乘问题是利用SciPy中优化模块的最小二乘(least_squares)方法解决的,该方法实现了信任区域反射(Trust Region Reflective)算法。
单发3DOD模块361是一级自下而上3D对象检测器。单发3DOD模块361被配置为在接收到来自本地相机240或来自校准模块356的视频后,从多个视频帧中联合检测2D和3D边界框。在某些实施例中,本公开获取整个输入视频帧并回归对象的中心以及这些对象的相应属性,包括诸如宽度、高度、偏移量(以帮助下采样差异)等2D对象信息和诸如车辆尺寸、距离/深度和偏航轴方向θ等3D对象信息。该过程可以通过全卷积网络来实现,具体地由ImageNet上预训练的主干(两个备选:Hourglass和可变形Resnet)及其后面的3D对象检测头来实现。该头(head)由3×3卷积层及其后面的逐点卷积层实现。输出通道的数量与要估计的属性数量相同。输出分辨率是输入图像的1/4,即当输入帧调整为2×256时,输出分辨为64×64。因此,输出张量的大小为64×64×18。在自下而上的单发3DOD模块中,18个通道包括:(1)3个通道用于每个类别的中心关键点:汽车、卡车、行人/自行车;(2)2个通道用于2D边界框:宽度、高度;(3)2个通道用于中心关键点偏移量(将关键点从64×64映射恢复到关键点在256×256映射中的原始位置):Δu、Δv;(4)1个通道用于每个对象的深度估计;(5)4个通道用于旋转:2个用于bin分类,2个用于bin内回归;(6)3个通道用于3D对象形状:(w,h,l);(7)1个通道用于记录指标;(8)1个通道用于偏移量的掩码;(9)1个通道用于旋转的掩码。本公开使用以下步骤对张量进行解码:
(1)通过分别对热图应用3×3最大池化操作来找到这些热图的局部峰值。
(2)根据热图响应,分别找到这些热图的前K个峰值。
(3)将2D图像坐标系展平为1D并找到前K个峰的索引。
(4)取这些峰值,并将这些峰值组织成最终的输出张量,从而提供关于3D对象的方便信息,即中心坐标、维度、深度、旋转、分数、车辆类别等。
在某些实施例中,本公开使用APACHE MXNet实现了单发3D对象检测器,因为MXNet提供命令模式和符号模式两者。命令模式容易用在开发和调试过程中,因为可以访问中间张量结果。符号模式在推理过程中更快。符号和训练的权重可以在不同的目标平台中重复使用且运用简单。在某些实施例中,符号推理部分是用C++实现的,这对于各种平台来说是方便的。
3D对象跟踪模块362用于在接收到来自3D对象检测模块358的2D和3D对象检测结果后,在多个视频帧中跟踪检测到的对象,并将跟踪结果发送给鸟瞰图变换器367。跟踪结果包括检测到的对象的轨迹。如图3所示,3D对象跟踪模块362可以使用3D卡尔曼滤波器模块363和匈牙利算法模块364来执行跟踪,或者替代地使用GC-LSTM模块365和孪生图形卷积(SGC)模块366来执行跟踪。
当3D卡尔曼滤波器模块363和匈牙利算法模块364用于跟踪时,3D卡尔曼滤波器模块363被配置为使用卡尔曼滤波器对轨迹进行平滑处理,匈牙利算法模块364被配置为使用匈牙利算法更新对象的身份。在某些实施例中,本公开将卡尔曼滤波器应用于2D检测结果和3D检测结果两者。在数据关联期间,本公开应用匈牙利算法来关联身份,即将正确的检测到的测量结果分配给预测轨迹。该步骤详细描述如下:
(1)如果没有可用的先前跟踪,则创建跟踪。在本公开的系统中,跟踪是包括若干属性的实体,这些属性包括:a)表示2D和3D位置的预测向量,b)唯一跟踪ID,c)2D和3D对象的卡尔曼滤波器实例,d)该跟踪的轨迹历史,由预测向量列表表示。就卡尔曼滤波器实例而言,它跟踪系统的估计状态以及估计的方差或不确定性。在这种情况下,状态向量是2D/3D对象位置,由坐标向量表示。
(2)基于跟踪历史计算卡尔曼滤波器的预测结果,然后计算预测结果与检测模块的当前检测结果之间的成本。将成本定义为检测结果和预测结果的欧氏距离在2D和3D坐标上的加权。
(3)使用匈牙利算法来根据成本将正确的跟踪实例(检测到的测量结果、轨迹历史)与预测结果相关联。
(4)为未分配的(意味着新的)检测结果创建新的跟踪实体。
(5)对于每个跟踪,如果该跟踪的所分配的关联的成本高于阈值,则将该跟踪标记为未分配。未分配的跟踪会在内存中保留一段时间,以防它们很快再次出现。如果满足以下条件,则删除未分配的跟踪:这些跟踪中的对象在一定数量的帧中未被检测到。
(6)基于所分配的2D和3D预测结果来更新针对每个跟踪实例的卡尔曼滤波器的状态,使得卡尔曼滤波器能够在最新输入下保持准确的预测能力。
在某些实施例中,上述使用卡尔曼滤波器和匈牙利算法的3D对象跟踪是轻量级的选择,因为卡尔曼滤波器只考虑位置历史而不考虑全局视觉线索。因此,3D对象跟踪模块362还提供了更重的跟踪模块-GC-LSTM模块365,计算量更大但更准确。根据计算设备350的计算能力,3D对象跟踪可以方便地在卡尔曼滤波器/匈牙利算法路线和GC-LSTM路线之间切换。GC-LSTM路线充分考虑了视频中的遮挡问题。
GC-LSTM模块365是一个自下而上的3D对象跟踪器。在某些实施例中,GC-LSTM模块365将对象视为点,即将3D对象表示为图像坐标系中的中心点,具有与这些中心点相关的附加属性,例如3D对象尺寸、深度和偏航轴旋转。在某些实施例中,如图4所示,GC-LSTM模块365被配置为将每个车辆视为一组关键点。具体地,GC-LSTM模块365将相机坐标系中的九个点(车辆中心加上八个3D框顶点)作为对象。GC-LSTM模块365被配置为提取车辆中心关键点周围的轻量级低级特征,例如局部二元模式(local binary patterns,LBP)、定向梯度直方图(histogram of oriented gradients,HOG)、颜色直方图或它们的组合。每个关键点由3D坐标表示,并且备选地与中心点的一些局部视觉特征连接。如图4所示,这些关键点表示被输入到GC-LSTM模型,该模型考虑了时空线索来解决遮挡问题并对跟踪轨迹进行平滑处理。具体地,将车辆3D检测边界框Gt-T、Gt-T+1、...、Gt-1的时间序列转换为相应的向量表示At-T、At-T+1、...、At-1,向量表示被馈送到GC-LSTM模型,然后GC-LSTM输出3D边界框在时间t的预测:Pt
在某些实施例中,当3D检测偏离先前帧的对应GC-LSTM预测时,GC-LSTM模块365认为跟踪车辆丢失并执行数据关联,以将检测与跟踪历史联系起来。在某些实施例中,GC-LSTM模块365还包括数据关联模型,例如LightTrack-GCN,以执行数据关联。例如,GC-LSTM模块365可以将数据关联过程视为重新识别(re-identification,Re-ID)问题,并使用孪生GCN网络来分类3D检测是否与3D轨迹预测匹配。为了改进LightTrack-GCN,在某些实施例中,GC-LSTM模块365被配置为将关键点坐标以及局部视觉特征作为输入馈送到GCN网络,以便孪生GCN网络对具有空间布局和视觉特征的对进行分类。考虑一个3D车辆,关键点对其方向、尺寸和位置进行编码,而视觉特征可以对颜色、纹理和其他车辆外观模式进行编码。
在某些实施例中,GC-LSTM路线还包括SGC模块366,SGC模块366用于当GC-LSTM模块365的跟踪偏离检测时,对象的重新识别。在某些实施例中,SGC模块366是参考文献13中描述的LightTrack,其全部内容通过引用并入本文。
在某些实施例中,3D对象跟踪模块362还包括决策机制,以使用3D卡尔曼滤波器模块363和匈牙利算法模块364进行3D对象跟踪,或者使用GC-LSTM模块365进行3D对象跟踪。进行跟踪后,返回参考图3,3D对象跟踪模块362还用于将跟踪结果发送给鸟瞰图变换器367。
鸟瞰图变换器367被配置为在接收到多个视频帧、检测到的2D和3D对象以及3D对象的轨迹后,将信息转换为相机坐标系中的鸟瞰图(或俯视图)。图5示意性地示出了从相机图像视图到鸟瞰图的变换。鸟瞰图存储交通场景的全局空间信息,可用于多种应用,包括:(1)自动驾驶车辆的协同操纵;以及(2)协同风险警告。
在某些实施例中,用户界面368被配置为在计算设备350中提供用户界面或图形用户界面。在某些实施例中,系统的用户或管理员能够为计算设备350配置参数。
在某些实施例中,本地相机应用354还可以包括数据库,该数据库可以被配置为存储以下至少之一:相机240的校准参数、捕获的多个视频帧以及多个视频帧的检测和跟踪结果。然而,本地相机应用354优选将待处理的视频、校准参数、边界框等加载到存储器352中以进行快速处理。
在上述实施例中,3D对象检测模块358和3D对象跟踪模块362中的每一个都包括用于对象检测和对象跟踪的两个不同的路线以及备选地从这两个路线中选择一个的机制。在某些实施例中,3D对象检测模块358和3D对象跟踪模块362中的每一个仅包括两条路线之一。例如,3D对象检测模块358仅包括单发3DOD模块361,3D对象跟踪模块362仅包括GC-LSTM模块365。
返回参考图2,当每个本地相机240的鸟瞰图可用时,RSU 230将来自不同本地应用服务器250的鸟瞰图发送到主服务器210。主服务器210被配置为将相机坐标系中的鸟瞰图映射为世界坐标系,并将鸟瞰图进行结合,得到世界坐标系中的全局鸟瞰图。每个本地应用服务器250对应于位于不同的交通杆或从不同的角度拍摄的不同的相机,车辆实际上被多个相机感知(它们扩大了彼此的覆盖范围但也有重叠以防止盲点)并导致多个相机坐标系。主服务器210被配置为将车辆从各个相机坐标系映射到统一世界坐标系。
一旦有关相机坐标的信息从本地RSU 230传输到主服务器210,就可以导出并同步世界坐标,主服务器210还可以执行更高级的协同操纵270和协同风险警告290,因为它具有对该区域的整体交通进行高级感测和感知。在某些实施例中,可以有特定的协同操纵服务器和特定的协同风险警告服务器与主服务器210一起工作以执行相应的功能。
在某些实施例中,世界坐标系是在测量交通杆相机的距离之后建立的(相机的旋转矩阵也是在相机校准期间得到的)。由于交通杆相机是静态的且只需安装一次,因此世界坐标系非常稳定可靠。
在某些实施例中,本地相机应用354还可以包括调度器以对多个视频帧或视频图像的处理进行调度。例如,调度器可以从多个视频帧的时间序列中确定多个关键帧,用于对象检测和跟踪,调度器可以定义多个视频图像的滑动窗口作为批量处理,调度器可以将多个视频帧实时加载到存储器352。在某些实施例中,调度器还可以被配置为在存储器314中维护视频帧处理步骤的某些输入和输出。输入和输出信息可以包括对象或目标ID、边界框ID(可选地)、2D或3D框的点或顶点、表示对象的2D和3D检测结果的向量。在某些实施例中,调度器还可以将这些信息存储在存储设备353中。在某些实施例中,调度器还被配置为调用本地相机应用354的模块以在不同时间执行它们的相应功能。
图6示意性地描绘了根据本公开的某些实施例的用于3D对象检测和跟踪的过程。在某些实施例中,检测和跟踪过程由计算设备执行,例如图3中所示的计算设备350(或图2所示的应用服务器250),具体由本地相机应用354执行。需要说明的是,除本公开另有说明外,对象检测和跟踪过程或方法的步骤可以按照不同的顺序排列,因此不限于图6所示的顺序。
如图6所示,在步骤602,校准模块356校准本地相机240。在某些实施例中,本地相机240是单目监视相机。本地相机240安装在固定结构上,例如交通杆上。当定义区域内有许多交通杆时,每个交通杆可以安装有本地相机240和相应的计算设备350,用于处理来自本地相机240的图像。以下过程针对安装在同一交通杆上的一个本地相机240和一个对应的计算设备350(或本地应用服务器250)。然而,可以有多个本地相机240安装在同一交通杆上面向不同方向,相应的计算设备350可以不必安装在同一交通杆上。这些不同的相机和计算设备布置可以适应当前的过程,而在系统上有轻微变化。在某些实施例中,校准模块356使用棋盘执行本地相机240的校准。通过拍摄相机视图中不同位置的棋盘图像,可以确定本地相机240的参数。校准可以只需要在安装本地相机240之后执行一次,校准的相机参数可以作为数据文件存储在本地相机应用354中。在某些实施例中,还可以以预定的时间间隔执行校准,例如一年一次或一年两次,以补偿本地相机240和环境的变化。在其他实施例中,可以在交通杆或本地环境改变之后执行校准。
在步骤604,本地相机240捕获环境的视频,并将视频提供给3D对象检测模块358。视频可以在输入到3D对象检测模块358之前进行校准,或者在对象检测之前或对象检测期间进行校准。在某些实施例中,视频是实时拍摄的,视频的多个帧连续地或分批地输入到3D对象检测模块358。在某些实施例中,本地相机应用354可以具有调度器来对多个视频帧的处理进行调度。例如,调度器可以使用滑动窗口来分批处理多个视频帧,每批可以包括例如三到五个帧,并且相邻批的视频帧可以具有重叠的帧。例如,第一批帧是第0、1、2帧,第二批帧是第1、2、3帧,第三批帧是第2、3、4帧。在某些实施例中,调度器也可以从视频帧中选择多个关键帧,只提供关键帧用于目标检测和跟踪。
在步骤606,在接收到多个视频帧后,3D对象检测模块358从多个视频帧中检测2D对象和3D对象,并将检测到的2D对象和3D对象参数发送到3D对象跟踪模块362。在某些实施例中,3D对象检测模块358使用自上而下的路线或自下而上的路线进行检测。在某些实施例中,3D对象检测模块358在使用自上而下路线或自下而上路线之间作出选择。该选择可以由例如计算资源和所需的检测精度来确定。在某些实施例中,自下而上的路线是优选的检测方法,尤其是当多个视频帧中有许多对象时。在某些实施例中,3D对象检测模块358可以仅包括两条路线之一。
当使用自上而下的路线时,在接收到视频帧后,2DOD模型359检测帧中的2D对象。可以使用YOLOv3或CenterNet执行2D对象检测。由于本公开可能只需要检测多个帧中的车辆,因此可以配置2D对象检测参数以适应车辆检测任务,从而可以更高效地执行2D对象检测。检测到的2D对象由边界框表示。边界框参数可以包括边界框在由像素定义的图像坐标系中的位置和大小。在2D对象检测之后,从帧中裁剪出2D边界框,3DOD模型360对每个裁剪的边界框执行3D对象检测。在某些实施例中,3D检测是通过神经网络进行的,神经网络针对每个2D边界框使用,以获得对象的对应3D信息。在某些实施例中,神经网络包括具有几个全连接层的预训练ResNet34主干。检测到的3D对象可以是3D框的形式,由3D框的8个顶点、中心点和3D框的偏航角表示。由于3D对象检测基于2D边界框,因此3D对象检测快速且可靠。
当使用自下而上的路线时,在接收到视频帧后,单发3DOD模块361从RGB帧同时回归2D对象信息和3D对象信息。在某些实施例中,单发3DOD模块361包括预训练的主干及其之后的3D对象检测头。主干可以是Hourglass或可变形的Resnet。获得的检测可以包括2D对象信息,例如2D边界框的宽度、高度、偏移量,以及3D对象信息,例如车辆尺寸、距离/深度和在3D框的偏航轴上的方向。
如前所述,在从自上而下路线或自下而上路线获得2D对象信息和3D对象信息后,3D对象检测模块358还将检测到的2D对象信息和3D对象信息发送给3D对象跟踪模块362。
在步骤608,在从3D对象检测模块358接收到2D信息和3D信息后,3D对象跟踪模块362基于多个帧中的2D信息和3D信息跟踪对象,并将跟踪的对象提供给鸟瞰图变换器367。通过同时使用2D检测信息和3D检测信息,跟踪更准确。在某些实施例中,3D对象跟踪模块362使用两个路线之一进行跟踪。两条路线分别是3D卡尔曼滤波器和匈牙利算法路线、GC-LSTM路线。在某些实施例中,3D对象跟踪模块362在使用两条路线之间做出选择。在某些实施例中,GC-LSTM路线是优选的,GC-LSTM路线高效地提供更准确的跟踪。在某些实施例中,3D对象跟踪模块362可以仅包括两条路线之一。
当使用3D卡尔曼滤波器和匈牙利算法路线时,3D卡尔曼滤波器模块363对对象的轨迹进行平滑处理,匈牙利算法模块364更新对象的身份。例如,多个顺序帧0、1、2用作3D卡尔曼滤波器模块363的输入,来自多个帧的2D检测和3D检测由向量表示。第2帧是当前帧,第0帧和第1帧是先前帧。每个检测到的对象与一个向量对应,因此该向量包括对象的2D信息和3D信息。3D卡尔曼滤波器模块363可以检测向量的缩放维度中的噪声,并对检测到的对象对应的向量进行平滑处理。当向量中的2D检测不准确或3D检测不准确时,3D卡尔曼滤波器模块363可以使用同一向量中对应的3D检测或2D检测来校正不准确。在对第0、1、2帧中对象的轨迹进行平滑处理之后,3D卡尔曼滤波器模块363提供当前第2帧中对象的预测。该预测仍然可以表示为向量,由预测向量指示的预测的2D边界框位置和3D点位置和方向比输入向量中指示的更准确,这是因为预测考虑并补偿了对象在第0、1、2帧中的顺序变化,并考虑了第0、1、2帧中的噪声。然后将对象平滑处理后的预测向量应用到匈牙利算法模块364,使得匈牙利算法模块364通过以下操作来确认或重新分配对象的标识:匹配不同帧中的对象,计算匹配的成本,如果成本小于阈值,则保持相同的ID,如果成本大于阈值,则更改ID或为对象分配新ID。该过程继续进行,例如处理第1、2、3帧以给出第3帧中的对象的预测,以及处理第2、3、4帧以给出第4帧中的对象的预测。在某些实施例中,每次预测的帧数可以多于或少于上述三帧。在上述实施例中,3D卡尔曼滤波器模块363和匈牙利算法模块364对多个帧进行串行处理。在其他实施例中,3D卡尔曼滤波器模块363和匈牙利算法模块364也可以并行处理多个帧,这可以使预测过程更快。然而,串行处理是优选的,因为当匈牙利算法模块364使用由卡尔曼滤波器模块363平滑处理的对象轨迹执行重新识别时,串行处理更快且更可靠。
当使用GC-LSTM和SGC路径时,GC-LSTM模块365对检测向量进行平滑处理并同时更新对象ID,SGC模块366在预测跟踪偏离3D时对对象进行重新识别。GC-LSTM的输入不仅包括2D检测信息和3D检测信息,还包括对象的视觉属性,例如对象中心点周围的视觉属性。可以使用LBP、HOG或颜色直方图来提取对象的这些视觉属性。换句话说,GC-LSTM的输入是图,该图包括对象的特征点和对象的视觉属性;输出是预测的图,该预测的图包括对象的位置和方向以及可选地包括对象的视觉属性。GC-LSTM用于在给定位置历史的情况下推断车辆的平滑位置。GC-LSTM的功能类似于卡尔曼滤波器的功能,但GC-LSTM对遮挡的鲁棒性更强,因为它考虑了时空线索。在某些实施例中,当GC-LSTM 365的跟踪偏离3D检测时,需要Re-ID。Re-ID由SGC模块366执行。在一个示例中,如果在第0、1、2帧的每一帧中有5辆汽车,并且每帧中的5辆汽车被提取为5个图,则第0、1、2帧的每一帧的5个图将用作GC-LSTM的输入,输出是当前帧(第2帧)中的5个预测的图。虽然GC-LSTM可能比卡尔曼滤波器花费更多的计算资源,但它的成本可以比卡尔曼滤波器和匈牙利算法的组合更低。因此,GC-LSTM路线可能是更准确和高效的路线。在某些实施例中,用于检测和跟踪的视频帧是顺序帧。在某些实施例中,也可以以特定时间间隔对多个帧执行检测和跟踪,或者仅使用关键的关键帧。
如上所述,在从上述两条路线中的任意一个获得跟踪之后,3D对象跟踪模块362还将多个视频帧、预测的2D边界框和3D对象框以及对象的轨迹发送给鸟瞰图变换器367。
在步骤610,在接收到多个视频帧、检测信息和跟踪信息后,鸟瞰图变换器367将多个视频帧、检测信息和跟踪信息转换为鸟瞰图,并通过RUS230将鸟瞰图发送到主服务器210。
在步骤612,在从不同的计算设备350(或应用服务器250)接收到鸟瞰图时,主服务器210将这些鸟瞰图组合为世界坐标系中的一个全局鸟瞰图。在某些实施例中,鸟瞰图变换器267也可以位于主服务器210中,鸟瞰图变换器267将来自不同应用服务器250的不同相机坐标系下的多个帧的视图、检测信息和跟踪信息转换为世界坐标系下的全局鸟瞰图。在某些实施例中,与不同相机相对应的鸟瞰图的重叠有助于改善对象的全局鸟瞰图。
在步骤614,当全局鸟瞰图可用时,主服务器210可以通过控制区域内的自动驾驶车辆来执行实时协同操纵和/或通过向区域内的车辆发送警告消息来执行协同风险警告。
在某些方面,本公开涉及一种存储计算机可执行代码的非暂时性计算机可读介质。在某些实施例中,计算机可执行代码可以是存储在如上所述的存储设备353中的软件。计算机可执行代码在被执行时可以执行上述方法。
本公开的某些实施例尤其具有以下新颖的优点:
(1)本公开提供了一种用于车路协同系统(CVIS)的具有单目监视相机的独特3D对象检测和跟踪系统。
(2)本公开首次提供了一种基于交通杆的单目相机跟踪3D车辆的CVIS系统。凭借低成本和广泛使用的单目监视相机以及可选的5G网络,CVIS的设计可靠且具有成本效益。
(3)本公开首次将GC-LSTM用于3D对象跟踪。
(4)本公开首次在3D对象跟踪中使用孪生GCN进行数据关联。
(5)本公开的3D对象检测与跟踪系统在其部分子模块中也具有通用性,如2D对象检测、3D对象检测和多目标跟踪,这些都是可替换、可升级的。
(6)本公开的3D对象检测与跟踪系统也可以作为第三方车路协同系统的子系统或服务。
本公开的示例性实施例的前述描述仅出于说明和描述的目的而呈现并且不旨在穷举或将本公开限制为所公开的精确形式。根据上述教导,许多修改和变化是可能的。
选择和描述实施例是为了解释本公开的原理及其实际应用,从而使本领域的其他技术人员能够利用本公开和各种实施例以及适合于预期的特定用途的各种修改。在不脱离本公开的精神和范围的情况下,替代实施例对于本公开所属领域的技术人员将变得显而易见。因此,本公开的范围由所附权利要求而不是前述描述和其中描述的示例性实施例限定。
参考文献(以引用方式整体并入本文):
1.Sheng-hai An,Byung-Hyug Lee,and Dong-Ryeol Shin,A survey ofintelligent transportation systems,2011Third International Conference onComputational Intelligence,Communication Systems and Networks,IEEE,2011.
2.Ling Sun,Yameng Li,and Jian Gao,Architecture and applicationresearch of cooperative intelligent transport systems,Procedia Engineering,2016,137:747-753.
3.Cooperative vehicle infrastructure system(CVIS)and vehicle toeverything(V2X)industry report,2018.
4.Shangguan Wei,Yu Du,and Linguo Chai,Interactive perception-basedmultiple object tracking via CVIS and AV,IEEE,2019,7:121907-121921.
5.Tong He,and Stefano Soatto,Mono3d++:monocular 3D vehicle detectionwith two-scale 3D hypotheses and task priors,AAAI,2018,8409-8416.
6.Xiaozhi Chen,Kaustav Kundu,Yukun Zhu,Andrew Berneshawi,Huimin Ma,Sanja Fidler,and Raquel Urtasun,3D object proposals for accurate object classdetection,NIPS,2015.
7.Arsalan Mousavian,Dragomir Anguelov,John Flynn,and Jana Kosecka,3Dbounding box estimation using deep learning and geometry,CVPR,2017,5632-5640.
8.Erik Linder-Norn and Fredrik Gustafsson,Automotive 3d objectdetection without target domain annotations,Master of Science Thesis,2018.
9.Joseph Redmon,and Ali Farhadi,YOLOv3:An incremental improvement,2018,arXiV:1804.02767.
10.Xingyi Zhou,Dequan Wang,and Philipp Krahenbuhl,Objects as Points,2019,arXiv:1904.07850.
11.Hou-Ning Hu,et al.,Joint monocular 3D Vehicle detection andtracking,Proceedings of the IEEE ICCV,2019,5390-5399.
12.Jason Ku,Alex D.Pon,and Steven L.Waslander,Monocular 3D objectdetection leveraging accurate proposals and shape reconstruction,Proceedingsof the IEEE CVPR,2019,arXiv:1904.01690.
13.Guanghan Ning,and Heng Huang,LightTrack:a generic framework foronline top-down human pose tracking,2019,arXiv:1905.02822。

Claims (20)

1.一种系统,包括:
相机;以及
与所述相机通信的计算设备,其中所述计算设备被配置为:
从所述相机接收多个视频帧;
从所述多个视频帧中检测对象,其中在每个视频帧中检测到的对象由检测向量表示,所述检测向量包括第一维度和第二维度,所述第一维度表示所述对象的二维2D参数,所述第二维度表示所述对象的三维3D参数;
基于所述对象在所述多个视频帧中的检测向量,在所述多个视频帧中跟踪所述对象,得到所述对象的轨迹,其中,对象跟踪中的损失最小化是基于检测向量的第一维度和第二维度来计算的;以及
将所述多个视频帧转换为鸟瞰图,其中所述多个视频帧的鸟瞰图包括所述对象的轨迹。
2.根据权利要求1所述的系统,其中,所述对象是车辆,所述系统还包括服务器计算设备,所述服务器计算设备被配置为从所述计算设备接收所述多个视频帧的鸟瞰图,并使用接收到的所述多个视频帧的鸟瞰图进行协同操纵和协同风险警告中的至少一个。
3.根据权利要求2所述的系统,其中,所述计算设备、所述服务器计算设备和所述车辆通过第五代移动网络进行通信。
4.根据权利要求1所述的系统,其中,所述对象的2D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的2D边界框的位置和大小,所述对象的3D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的3D框的顶点、中心点和方向。
5.根据权利要求4所述的系统,其中,所述计算设备被配置为使用单发3D对象检测器同时检测所述对象的2D参数和3D参数。
6.根据权利要求4所述的系统,其中,所述计算设备被配置为使用2D对象检测器检测所述对象的2D参数并使用3D对象检测器检测所述对象的3D参数,所述2D检测器从视频帧中检测所述对象的2D参数,所述3D对象检测器从所述2D参数中检测所述对象的3D参数。
7.根据权利要求1所述的系统,其中,所述计算设备被配置为使用图卷积-长短期记忆GC-LSTM网络来跟踪所述对象,所述GC-LSTM网络采用孪生图卷积网络GCN基于所述对象的2D参数、所述对象的3D参数和所述对象的视觉特征来将所述多个视频帧中所述对象的标识进行关联。
8.根据权利要求1所述的系统,其中,所述计算设备被配置为使用卡尔曼滤波器和匈牙利算法来跟踪所述对象,所述卡尔曼滤波器用于对检测到的所述对象的2D参数和3D参数进行优化,所述匈牙利算法用于将所述多个视频帧中所述对象的标识进行关联。
9.根据权利要求1所述的系统,其中,所述相机包括单目监视相机。
10.根据权利要求9所述的系统,其中,所述计算设备还被配置为校准所述单目监视相机。
11.根据权利要求1所述的系统,其中,所述计算设备被配置为使用内置芯片检测所述对象并跟踪所述对象。
12.一种方法,包括:
由计算设备接收相机捕获的多个视频帧;
由所述计算设备从所述多个视频帧中检测对象,其中在每个视频帧中检测到的对象由检测向量表示,所述检测向量包括第一维度和第二维度,所述第一维度表示所述对象的二维2D参数,所述第二维度表示所述对象的三维3D参数;
由所述计算设备基于所述对象在所述多个视频帧中的检测向量,在所述多个视频帧中跟踪所述对象,得到所述对象的轨迹,其中,对象跟踪中的损失最小化是基于检测向量的第一维度和第二维度来计算的;以及
由所述计算设备将所述多个视频帧转换为鸟瞰图,其中所述多个视频帧的鸟瞰图包括所述对象的轨迹。
13.根据权利要求12所述的方法,其中,所述对象是车辆,所述方法还包括:
由服务器计算设备从所述计算设备接收所述多个视频帧的鸟瞰图;以及
由所述服务器计算设备使用接收到的所述多个视频帧的鸟瞰图进行协同操纵和协同风险警告中的至少一个。
14.根据权利要求12所述的方法,其中,所述对象的2D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的2D边界框的位置和大小,所述对象的3D参数包括所述多个视频帧中的一个相应视频帧中包围所述对象的3D框的顶点、中心点和方向。
15.根据权利要求14所述的方法,其中,使用单发3D对象检测器同时检测所述对象的2D参数和3D参数。
16.根据权利要求14所述的方法,其中,分别使用2D对象检测器和3D对象检测器检测所述对象的2D参数和所述对象的3D参数,所述2D检测器从视频帧中检测所述对象的2D参数,所述3D对象检测器从所述2D参数中检测所述对象的3D参数。
17.根据权利要求12所述的方法,其中,使用图卷积-长短期记忆GC-LSTM网络来跟踪所述对象,所述GC-LSTM网络采用孪生图卷积网络GCN基于所述对象的2D参数、所述对象的3D参数和所述对象的视觉特征来将所述多个视频帧中所述对象的标识进行关联。
18.根据权利要求12所述的方法,其中,使用卡尔曼滤波器和匈牙利算法来跟踪所述对象,所述卡尔曼滤波器用于对检测到的所述对象的2D参数和3D参数进行优化,所述匈牙利算法用于将所述多个视频帧中所述对象的标识进行关联。
19.根据权利要求12所述的方法,其中,所述相机包括单目监视相机。
20.一种存储计算机可执行代码的非瞬时计算机可读介质,其中所述计算机可执行代码在计算设备的处理器处执行时被配置为:
从相机接收多个视频帧;
从所述多个视频帧中检测对象,其中在每个视频帧中检测到的对象由检测向量表示,所述检测向量包括第一维度和第二维度,所述第一维度表示所述对象的二维2D参数,所述第二维度表示所述对象的三维3D参数;
基于所述对象在所述多个视频帧中的检测向量,在所述多个视频帧中跟踪所述对象,得到所述对象的轨迹,其中,对象跟踪中的损失最小化是基于检测向量的第一维度和第二维度来计算的;以及
将所述多个视频帧转换为鸟瞰图,其中所述多个视频帧的鸟瞰图包括所述对象的轨迹。
CN202180048135.3A 2020-07-15 2021-07-15 用单目监视相机进行3d对象检测和跟踪的系统和方法 Pending CN116601667A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/929,838 2020-07-15
US16/929,838 US11379995B2 (en) 2020-07-15 2020-07-15 System and method for 3D object detection and tracking with monocular surveillance cameras
PCT/CN2021/106588 WO2022012642A1 (en) 2020-07-15 2021-07-15 System and method for 3d object detection and tracking with monocular surveillance cameras

Publications (1)

Publication Number Publication Date
CN116601667A true CN116601667A (zh) 2023-08-15

Family

ID=79293486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180048135.3A Pending CN116601667A (zh) 2020-07-15 2021-07-15 用单目监视相机进行3d对象检测和跟踪的系统和方法

Country Status (4)

Country Link
US (1) US11379995B2 (zh)
EP (1) EP4182887A4 (zh)
CN (1) CN116601667A (zh)
WO (1) WO2022012642A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7549509B2 (ja) * 2020-10-21 2024-09-11 株式会社Subaru 対象物推定装置、その対象物推定方法、および、車両
CN114782865B (zh) * 2022-04-20 2023-04-14 清华大学 一种基于多视角和重识别的路口车辆定位方法及系统
CN115457084A (zh) * 2022-09-13 2022-12-09 上海高德威智能交通系统有限公司 一种多相机目标检测跟踪方法、装置
CN116010652B (zh) * 2023-03-20 2023-06-09 上海数字治理研究院有限公司 一种非结构化视频数据处理方法和系统
US12125225B1 (en) * 2023-04-04 2024-10-22 GM Global Technology Operations LLC Monocular camera system performing depth estimation of objects surrounding a vehicle
CN116152299B (zh) * 2023-04-21 2023-07-11 之江实验室 一种运动状态的检测方法、装置、存储介质及电子设备

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014074139A1 (en) * 2012-11-06 2014-05-15 Alcatel-Lucent Usa Inc. System and method for processing visual information for event detection
US9792664B2 (en) * 2015-01-29 2017-10-17 Wipro Limited System and method for mapping object coordinates from a video to real world coordinates using perspective transformation
US10779189B2 (en) * 2015-09-24 2020-09-15 Apple Inc. Congestion control for vehicular-to-anything services
US10140872B2 (en) 2016-01-05 2018-11-27 The Mitre Corporation Camera surveillance planning and tracking system
US11249544B2 (en) * 2016-11-21 2022-02-15 TeleLingo Methods and systems for using artificial intelligence to evaluate, correct, and monitor user attentiveness
US10296794B2 (en) * 2016-12-20 2019-05-21 Jayant Rtti On-demand artificial intelligence and roadway stewardship system
US10242282B2 (en) * 2017-03-20 2019-03-26 Conduent Business Services, Llc Video redaction method and system
US10733755B2 (en) * 2017-07-18 2020-08-04 Qualcomm Incorporated Learning geometric differentials for matching 3D models to objects in a 2D image
US10861168B2 (en) * 2017-09-07 2020-12-08 Comcast Cable Communications, Llc Relevant motion detection in video
US11093829B2 (en) * 2017-10-12 2021-08-17 Honda Motor Co., Ltd. Interaction-aware decision making
US20190130191A1 (en) * 2017-10-30 2019-05-02 Qualcomm Incorporated Bounding box smoothing for object tracking in a video analytics system
US11164003B2 (en) * 2018-02-06 2021-11-02 Mitsubishi Electric Research Laboratories, Inc. System and method for detecting objects in video sequences
CN110533687B (zh) 2018-05-11 2023-09-12 上海美城智能科技有限公司 多目标三维轨迹跟踪方法及装置
US10593049B2 (en) 2018-05-30 2020-03-17 Chiral Software, Inc. System and method for real-time detection of objects in motion
US10916125B2 (en) * 2018-07-30 2021-02-09 Honda Motor Co., Ltd. Systems and methods for cooperative smart lane selection
US20200133307A1 (en) * 2018-07-31 2020-04-30 Honda Motor Co., Ltd. Systems and methods for swarm action
US20200312155A1 (en) * 2018-07-31 2020-10-01 Honda Motor Co., Ltd. Systems and methods for swarm action
CN109285180B (zh) 2018-08-31 2021-09-24 电子科技大学 一种3d的道路车辆跟踪方法
US10970871B2 (en) * 2018-09-07 2021-04-06 Huawei Technologies Co., Ltd. Estimating two-dimensional object bounding box information based on bird's-eye view point cloud
KR20200054367A (ko) * 2018-11-05 2020-05-20 현대자동차주식회사 객체 검출 장치 및 그 방법
US10984545B2 (en) * 2018-11-16 2021-04-20 Nvidia Corporation Estimating depth for a video stream captured with a monocular rgb camera
US20200365029A1 (en) * 2019-05-17 2020-11-19 Ford Global Technologies, Llc Confidence map building using shared data
DE102020120479A1 (de) * 2019-08-07 2021-02-11 Harman Becker Automotive Systems Gmbh Fusion von Strassenkarten
US11455813B2 (en) * 2019-11-14 2022-09-27 Nec Corporation Parametric top-view representation of complex road scenes
US11532168B2 (en) * 2019-11-15 2022-12-20 Nvidia Corporation Multi-view deep neural network for LiDAR perception
US11652972B2 (en) * 2020-03-04 2023-05-16 Toyota Research Institute, Inc. Systems and methods for self-supervised depth estimation according to an arbitrary camera
US11400934B2 (en) * 2020-03-17 2022-08-02 Honda Motor Co., Ltd. Systems and methods for cooperative ramp merge
US11468774B2 (en) * 2020-03-17 2022-10-11 Honda Motor Co., Ltd. Systems and methods for cooperative ramp merge
US11442464B2 (en) * 2020-03-25 2022-09-13 Mitsubishi Electric Research Laboratories, Inc. Bird's eye view map based recognition and motion prediction for autonomous systems
US11809986B2 (en) * 2020-05-15 2023-11-07 International Business Machines Corporation Computing graph similarity via graph matching

Also Published As

Publication number Publication date
WO2022012642A1 (en) 2022-01-20
EP4182887A4 (en) 2024-11-06
US11379995B2 (en) 2022-07-05
US20220020158A1 (en) 2022-01-20
EP4182887A1 (en) 2023-05-24

Similar Documents

Publication Publication Date Title
Nidamanuri et al. A progressive review: Emerging technologies for ADAS driven solutions
CN112292711B (zh) 关联lidar数据和图像数据
CN112417967B (zh) 障碍物检测方法、装置、计算机设备和存储介质
US11217012B2 (en) System and method for identifying travel way features for autonomous vehicle motion control
US20220026232A1 (en) System and method for precision localization and mapping
Bovcon et al. Stereo obstacle detection for unmanned surface vehicles by IMU-assisted semantic segmentation
CN110325818B (zh) 经由多模融合的联合3d对象检测和取向估计
US11250296B2 (en) Automatic generation of ground truth data for training or retraining machine learning models
Ghanem et al. Lane detection under artificial colored light in tunnels and on highways: an IoT-based framework for smart city infrastructure
CN116601667A (zh) 用单目监视相机进行3d对象检测和跟踪的系统和方法
JP7239703B2 (ja) 領域外コンテキストを用いたオブジェクト分類
Datondji et al. A survey of vision-based traffic monitoring of road intersections
EP4152204A1 (en) Lane line detection method, and related apparatus
Sivaraman et al. Looking at vehicles on the road: A survey of vision-based vehicle detection, tracking, and behavior analysis
Yao et al. Estimating drivable collision-free space from monocular video
US20230213643A1 (en) Camera-radar sensor fusion using local attention mechanism
JP2021089724A (ja) 構造的制約及び物理的制約を伴う3d自動ラベル付け
Erbs et al. Moving vehicle detection by optimal segmentation of the dynamic stixel world
US11475628B2 (en) Monocular 3D vehicle modeling and auto-labeling using semantic keypoints
Dey et al. VESPA: A framework for optimizing heterogeneous sensor placement and orientation for autonomous vehicles
CN114097006A (zh) 交叉模态传感器数据对准
Parmar et al. Deeprange: deep‐learning‐based object detection and ranging in autonomous driving
EP3703008A1 (en) Object detection and 3d box fitting
Armingol et al. Environmental perception for intelligent vehicles
López et al. Computer vision in vehicle technology: Land, sea, and air

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240206

Address after: Room 221, 2nd Floor, Building C, No. 18 Kechuang 11th Street, Beijing Economic and Technological Development Zone, Daxing District, Beijing

Applicant after: Jingdong Technology Holding Co.,Ltd.

Country or region after: China

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Technology Holding Co.,Ltd.

Country or region before: China

Applicant before: JD financial USA

Country or region before: U.S.A.

TA01 Transfer of patent application right