CN117853851A - 目标信息确定方法及装置、样本数据的生成方法及装置、及应用其的目标检测方法及装置 - Google Patents

目标信息确定方法及装置、样本数据的生成方法及装置、及应用其的目标检测方法及装置 Download PDF

Info

Publication number
CN117853851A
CN117853851A CN202211215249.5A CN202211215249A CN117853851A CN 117853851 A CN117853851 A CN 117853851A CN 202211215249 A CN202211215249 A CN 202211215249A CN 117853851 A CN117853851 A CN 117853851A
Authority
CN
China
Prior art keywords
data
dimensional
value
target
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211215249.5A
Other languages
English (en)
Inventor
柳晓东
任巨龙
邵枭虎
张哲�
赵凭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Idriverplus Technologies Co Ltd
Original Assignee
Beijing Idriverplus Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Idriverplus Technologies Co Ltd filed Critical Beijing Idriverplus Technologies Co Ltd
Priority to CN202211215249.5A priority Critical patent/CN117853851A/zh
Publication of CN117853851A publication Critical patent/CN117853851A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种目标信息确定方法及装置和目标检测方法及装置,方法包括对第一感知数据和第二感知数据进行融合,其中,所述第一感知数据为图像数据,所述第二感知数据包括点云数据;根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息。本发明实施例提供的方案通过将不同维度的传感器感知数据直接进行融合,有效了提高目标检测的准确率;并且,本发明实施例还根据感知层面的数据融合结果,获取到了目标物体的三维空间信息,因而能够准确确定出目标物体的空间位置和尺寸大小,且通过三维空间信息也能够进一步提高目标检出的准确率和可靠性。

Description

目标信息确定方法及装置、样本数据的生成方法及装置、及应 用其的目标检测方法及装置
技术领域
本发明涉及目标检测技术领域,尤其涉及一种目标信息确定方法及装置、用于目标检测模型的样本数据的生成方法及装置、目标检测模型构建方法及装置、和应用其的目标检测方法及装置,以及计算设备、移动工具和存储介质。
背景技术
随着深度学习在图像领域的应用的快速发展,基于视觉的深度学习目标检测已广泛的应用于各个领域。如在无人驾驶领域,基于深度学习的目标检测已被广泛用于障碍物检测、目标跟踪、交通灯检测等方面。在无人驾驶领域,现有的深度学习目标检测主要是基于相机传感器的图像数据进行检测的,具体地,其一般是基于大量经过标注的图像数据来训练出深度学习目标检测模型,以利用训练出的目标检测模型达到检测相机视场中的特定目标的目的。这种检测方案由于严重依赖单一传感器数据,因此目标检测精度严重受限,如可能存在漏检、误检和预测精度损失等不良情况,这会对无人驾驶系统的可靠性产生一定影响。因此,为了提高目标检测的精度,业内目前还提出了一种将相机传感器与激光雷达的数据进行融合的方案,其是在基于相机传感器的图像数据的目标检测结果的基础上,通过将图像数据的目标检测结果与激光雷达的点云目标检测结果进行映射融合以提高目标检出率。但这种方式下,数据融合依赖的图像目标检测结果仍是在单一传感器下得到的预测结果,因而检测精度的提高是有限的,也是不稳定的。
发明内容
基于此,本发明实施例提供一种目标检测方案,以至少解决现有技术中的目标检测结果精度不高的问题。
第一方面,本发明实施例提供一种目标信息确定方法,其包括:
对第一感知数据和第二感知数据进行融合,其中,所述第一感知数据为图像数据,所述第二感知数据包括点云数据;
根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息,其中,所述三维空间信息被用作用于表征目标物体的目标信息,其包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
第二方面,本发明实施例提供一种用于目标检测模型的样本数据的生成方法,其包括:
对第一感知数据和第二感知数据进行融合,生成融合数据和对目标物体的三维标注标签,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值;
根据第一感知数据中对目标物体的标注结果获取目标物体的目标类别标签和二维标注标签;
将融合数据作为目标检测模型的输入部分,将目标物体的目标类别标签、二维标注标签和三维标注标签作为目标检测模型的输出部分,形成用于训练目标检测模型的样本数据。
第三方面,本发明实施例提供一种目标检测模型构建方法,其包括:
利用本发明第二方面所述方法生成的样本数据,对选用的网络模型进行训练,生成用于目标检测的目标检测模型。
第四方面,本发明实施例提供一种目标检测方法,其包括:
基于第二感知数据对第一感知数据进行通道扩展,生成融合数据,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据;
将所述融合数据输入至预先训练好的目标检测模型,以获取目标检测模型输出的对目标物体的预测结果,其中,所述预测结果至少包括目标物体的三维空间信息,其中,所述三维空间信息为目标物体的三维包围框的中心点X值、Y值和三维包围框的宽度值、长度值、高度值。
第五方面,本发明实施例提供一种目标信息确定装置,其包括:
传感器融合模块,用于对第一感知数据和第二感知数据进行融合,其中,所述第一感知数据为图像数据,所述第二感知数据包括点云数据;
三维标注模块,用于根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息,其中,所述三维空间信息包括目标物体的三维包围框的中心点的X值、Y值和包围框的宽度值、长度值、高度值,其被用作用于表征目标物体的目标信息。
第六方面,本发明实施例提供一种用于目标检测模型的样本数据的生成装置,其包括:
三维数据生成模块,用于对第一感知数据和第二感知数据进行融合,生成融合数据和对目标物体的三维标注标签,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值;
二维数据生成模块,用于根据第一感知数据中对目标物体的标注结果获取目标物体的目标类别标签和二维标注标签;
样本数据确定模块,用于将融合数据作为目标检测模型的输入部分,将目标物体的目标类别标签、二维标注标签和三维标注标签作为目标检测模型的输出部分,形成用于训练目标检测模型的样本数据。
第七方面,本发明实施例提供一种目标检测模型训练装置,其包括:
模型训练模块,用于利用生成的样本数据,对选用的网络模型进行训练,生成用于目标检测的目标检测模型,其中,所述样本数据的输入部分为包含R、G、B、X、Y和激光反射值的6通道数据,输出部分包括目标物体的目标类别标签、二维标注标签和三维标注标签,所述目标类别标签为目标物体的类别,所述二维标注标签为目标物体的二维像素框的中心点的x值和y值以及二维像素框的长度值和宽度值,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和包围框的宽度值、长度值、高度值。
第八方面,本发明实施例提供一种目标检测装置,其包括:
通道扩展模块,用于基于第二感知数据对第一感知数据进行通道扩展,生成融合数据,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据;
目标检测模块,用于将所述融合数据输入至预先训练好的目标检测模型,以获取目标检测模型输出的对目标物体的预测结果,其中,所述预测结果至少包括目标物体的三维空间信息,其中,所述三维空间信息为目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
第九方面,本发明实施例提供一种计算设备,其包括:
存储器,用于存储可执行指令;以及
处理器,用于执行存储器中存储的可执行指令,所述可执行指令在由所述处理器执行时实现本发明第一方面提供的方法步骤。
第十方面,本发明实施例提供了一种移动工具,其包括根据本发明第九方面所述的计算设备。
第十一方面,本发明实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面提供的方法的步骤。
第十二方面,本发明实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述第一方面提供的方法。
本发明实施例的有益效果在于:本发明实施例提供的方法将不同维度的传感器获取到的感知数据,如点云数据和图像数据,直接进行融合,由于不需要依赖对图像数据的目标检测预测结果,而是直接基于采集的多个维度的感知数据来进行目标检测,因而用于目标检测的感知数据真实可靠且来源丰富,能够有效提高目标检测的准确率;并且,本发明实施例的方法还根据感知层面的数据融合结果,获取到了目标物体的三维空间信息,因而能够准确确定出目标物体的空间位置和尺寸大小,且通过三维空间信息也能够进一步提高目标检出的准确率和可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施方式的目标信息确定方法的流程示意图;
图2为本发明一实施方式的图1中步骤S11的实现方法流程示意图;
图3示意性地显示了原始的图像数据的展示效果;
图4示意性地显示了激光雷达点云数据的展示效果;
图5示意性地显示了基于第二感知数据中的每个点云的坐标信息将第二感知数据中的点云映射到第一感知数据中后得到的图像数据的展示效果;
图6示意性地显示了一种实施方式的图1中步骤S12的实现方法流程图;
图7示意性地显示了本发明一实施方式的用于目标检测模型的样本数据的生成方法的流程图;
图8示意性地示出了本发明一实施方式的生成融合数据的方法流程图;
图9示意性地显示了本发明一实施方式的目标检测方法的流程图;
图10为本发明一实施方式的目标信息确定装置的原理框图;
图11为本发明另一实施方式的目标信息确定装置的原理框图;
图12示意性地显示了本发明一种实施方式的用于目标检测模型的样本数据的生成装置的原理框图;
图13示意性地显示了本发明一种实施方式的目标检测模型训练装置的原理框图;
图14示意性地显示了本发明一种实施方式的目标检测装置的原理框图;
图15为本发明一实施方式的计算设备的原理框图;
图16为本发明一实施方式的移动工具的原理框图;
图17为本发明的目标检测装置的一实施例的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例中的目标信息检测方案可以应用在任何需要使用目标检测技术的产品中,特别是自主驾驶车辆和机器人中,以使得这些产品能够利用本发明实施例的目标信息检测方案来准确确定出目标物体,提高目标检测的检出率和稳定性。这些需要使用目标检测技术的产品例如包括但不限于自动驾驶车辆(乘用车、公交车、大巴车、货车、卡车等)、无人扫地机、无人清洁车、机器人、无人扫地车、扫地机器人、其他机器人等,本发明对此不作限定。
图1示意性地显示了根据本发明一实施方式的目标信息确定方法,该方法的执行主体可以为自动驾驶车辆上的目标信息确定装置或控制器或规划器,也可以为智能平板、个人PC、计算机、云端服务器等计算设备的处理器,还可以为诸如无人清洁车、无人扫地车、扫地机器人、自动驾驶车辆、半自动驾驶设备等智能移动平台的处理器,本发明实施例不对此进行限制。如图1所示,本发明实施例的方法包括:
步骤S11:对第一感知数据和第二感知数据进行融合,其中,所述第一感知数据为图像数据,所述第二感知数据包括点云数据;
步骤S12:根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息,其中,所述三维空间信息被用作用于表征目标物体的目标信息,其包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
在步骤S11中,第一感知数据可以是通过诸如RGB相机获取的图像数据,第二感知数据可以是通过诸如激光雷达获取的点云数据。其中,在本发明实施例中,是直接将第一感知数据和第二感知数据进行融合,不需要先对图像数据进行目标预测,因而融合依据真实可靠,得到的融合结果准确率和稳定性都更高。图2示意性地显示了本发明一种实施方式的对第一感知数据和第二感知数据进行融合的方法流程,如图2所示,其实现为包括:
步骤S111:对获取的第一感知数据和第二感知数据进行时间同步;
步骤S112:将第二感知数据中的点云映射至与其时间同步的第一感知数据上。
由于第一感知数据和第二感知数据均为传感器采集的感知数据,而传感器是基于一定的采集频率逐帧采集数据的,因此,在本发明实施例中,为了保证采集的感知数据的一致性,在步骤S111中,会先对第一感知数据和第二感知数据进行时间同步,即选取采集时间相同的一帧第一感知数据和一帧第二感知数据作为融合的基础数据,将两帧时间同步的第一感知数据和第二感知数据进行融合,以保证不同维度的感知数据能够被正确的融合,避免因采集时间的误差导致的数据内容偏差。
在步骤S112中,本发明实施例是将时间同步后的一帧第二感知数据映射到相应帧的第一感知数据的维度上,即将时间同步的一帧点云数据映射到相应帧的图像数据的维度上,以实现时间同步的两帧第一感知数据和第二感知数据在空间上的同步。其中,图像数据是人肉眼可简单理解的二维数据,其由多个紧挨着的像素点组成,每个像素点可呈现不同的颜色,其中的颜色是由RGB三原色绘制而成,如图3示意性地显示了原始的图像数据的展示效果。所有的图像数据在计算机中都可表示为w*h*3,w为图片横向的像素数量,h为图片竖向的像素数量,数字3是指图像数据的通道数,分别为R、G、B。由于图像数据要将真实世界的信息转换到二维数据内,这必定会导致一些信息丢失,其中最重要的就是对自动驾驶至关重要的距离信息的丢失,而通过点云数据将可以轻易的获取距离信息,因而通过将时间同步的第二感知数据中的点云映射到第一感知数据上,就能够保证第一感知数据中的图像信息在空间上的数据信息完整性,提高第一感知数据展示的内容的准确性和完整性。图4示意性地显示了激光雷达点云数据的展示效果,如图4所示,由于点云数据是三维的,其中的每一个点都具有其在真实世界中对应雷达的XYZ坐标,其中X代表了物体与雷达的深度距离,Y代表了物体与雷达的横向距离,Z代表了物体与雷达的高度距离,而激光点云数据的颜色则表示了激光碰触到物体后返射回来的强度,这取决于激光反射所耗的时间和对应物体的颜色,因此,点云数据在计算机中可以表示为X、Y、Z和反射强度四个通道的数据。在具体实现中,基于图像数据和点云数据的数据特征,本发明实施例优先是基于第二感知数据中的每个点云的坐标信息来实现与第一感知数据的空间同步的,示例性地,可以首先对第二感知数据中的每个点云的坐标信息进行转换,将其转换为在图像坐标系下的坐标,然后根据每个点云在图像坐标系下的坐标,将第二感知数据中的每个点云都分别映射到第一感知数据的相应坐标位置,从而实现二者在空间上的同步。其中,图5示意性地显示了基于第二感知数据中的每个点云的坐标信息将第二感知数据中的点云映射到第一感知数据中的展示效果,如图5所示,第二感知数据中的点云均通过其在图像坐标系下的坐标位置被映射到了相应的第一感知数据上,实现了二者的融合,且通过这种融合,直接从感知数据的层面弥补了第一感知数据的信息缺失,提高了感知数据本身的数据准确性和完整性,进而保证了基于感知数据的目标检测结果的准确性和稳定性。
在步骤S12中,本发明实施例基于第一感知数据和第二感知数据的融合结果来获知目标物体的三维空间信息,以通过三维空间信息来确定和标识目标物体,由于基于不同维度感知数据的融合使得图像数据的信息得以补全,从而使确定目标物体的三维空间信息成为可能,而三维空间信息能够从空间位置和物体尺寸等多个维度来表征目标物体,因此以此作为表征目标物体的目标信息保证了确定出的目标物体的准确性。以基于融合结果获取到的三维空间信息为包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值的三维空间信息为例,图6示意性地显示了步骤S12的一种实现方式,如图6所示,其实现为包括:
步骤S121:基于第一感知数据中对目标物体的标注信息对映射至第一感知数据上的点云进行聚类,形成聚类点云簇;
步骤S122:获取与目标物体的标注信息对应的聚类点云簇的聚类中心和三维包围框;
步骤S123:确定出聚类中心的X值和Y值,以及三维包围框的长度值、宽度值和高度值,作为目标物体的三维空间信息。
其中,第一感知数据中对目标物体的标注信息是指根据期望的目标检测目的预先在图像数据上标注的目标物体的二维包围框(也称二维像素框)。在步骤S121中,可以根据第一感知数据中对目标物体的标注信息来进行聚类算法,具体地,是将映射至第一感知数据上的位于标注信息内的点云进行聚类,形成聚类点云簇。其中,聚类点云簇是与标注信息的范围相对应的点云簇,对标注信息内的点云进行聚类的具体实现方式,如选用的聚类算法及其具体聚类过程等可以参照现有技术实现,在此不再详细赘述。
在步骤S122中,可以通过为形成的聚类点云簇生成三维包围框来确定目标物体对应的三维空间信息。具体地,可以首先生成聚类点云簇的最小外接长方体作为目标物体对应的三维包围框,并确定出三维包围框的中心作为聚类中心。由于对点云的聚类是基于对目标物体的标注信息进行的,因而形成的聚类点云簇的三维包围框就对应了目标物体的三维空间位置,因此,可以通过对映射至的第一感知数据上的点云进行有方向性的聚类来确定出目标物体的三维空间信息,并以此来表征目标物体,从而提高对第一感知数据中的目标物体检测的准确性。
示例性地,可以通过确定出三维包围框的中心位置坐标和其长、宽、高来作为目标物体的三维空间信息,由此得到包括中心点坐标的X值、Y值和三维包围框的长度值、宽度值和高度值的三维空间信息。其中,三维包围框的中心位置坐标即为聚类中心的位置坐标,确定三维包围框的中心位置坐标和其长、宽、高的具体实现方式可以参照相关现有技术实现,在此不再赘述。
在其他优选实施方式中,除了用基于第一感知数据和第二感知数据的融合结果获取到的三维空间信息作为表征目标物体的三维空间信息之外,还可以根据在第一感知数据中对目标物体的标注信息获取目标物体的目标类别标签和二维像素信息,并将目标类别标签、二维像素信息和三维空间信息共同作为用于表征目标物体的目标信息,以此来进一步提高确定出的目标物体的准确性和描述完整性,进而实现对目标物体的准确检测和稳定追踪。其中,示例性地,目标类别标签可以是目标物体的类别信息,二维像素信息可以是在第一感知数据中标记的二维像素框的中心点的x值和y值,也可以为二维像素框的中心点的x值、y值和二维像素框的宽度值、高度值。
由于基于第一感知数据和第二感知数据的融合,能够从三维空间角度来更加完整地表征和描述目标物体,因此,在具体实践中,可以将上述数据融合方法和对目标物体的表征方式应用到目标检测中,以实现对目标物体的精准检测。
作为一个优选的应用方式,可以将上述数据融合方法和对目标物体的信息表征方式应用到模型训练中,以训练出能够精确检测出目标物体的模型,并使得无人驾驶设备等智能产品能够应用训练出的模型来进行精准的目标检测。
基于此,本发明实施例还提供了一种基于上述数据融合方法和对目标物体的表征方式来生成用于目标检测模型的样本数据的方法,图7示意性地显示了该方案的实现方法流程,如图7所示,用于目标检测模型的样本数据可以通过以下方法步骤生成:
步骤S21:对第一感知数据和第二感知数据进行融合,生成融合数据和对目标物体的三维标注标签,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值;
步骤S22:根据第一感知数据中对目标物体的标注信息获取目标物体的目标类别标签和二维标注标签;
步骤S23:将融合数据作为目标检测模型的输入部分,将目标物体的目标类别标签、二维标注标签和三维标注标签作为目标检测模型的输出部分,形成用于训练目标检测模型的样本数据。
在步骤S21中,本发明实施例为了得到用于模型训练的样本数据,在对第一感知数据和第二感知数据进行融合之后,会基于融合结果生成融合数据。具体地,如图8所示,生成融合数据的方法可以实现为包括:
步骤S211:对获取的第一感知数据和第二感知数据进行时间同步;
步骤S212:将第二感知数据中的点云映射至与其时间同步的第一感知数据上;
步骤S213:基于第二感知数据的点云数据对映射后的第一感知数据进行通道扩展,生成融合数据。
其中,步骤S211和步骤S212的具体实现过程与前文步骤S111和步骤S112的相同,可以参照实现。在步骤S213中,本发明实施例将会基于第一感知数据和第二感知数据的空间同步结果,对第一感知数据进行通道扩展。如前文所述,传统的图像数据一般是由R、G、B三通道表示的二维数据,本发明实施例通过将第二感知数据中的点云映射到第一感知数据上,就可以将第二感知数据中的X、Y、Z和反射强度等点云特征融合到第一感知数据中,从而实现对第一感知数据的通道扩展。优选地,本发明实施例根据点云与第一感知数据中的像素点的对应关系,利用点云的X、Y和激光反射值(即对应反射强度这一点云特征的强度值)三个特征对第一感知数据进行通道扩展,以将第一感知数据扩展成6通道数据,具体地,6通道数据为R、G、B、X、Y和激光反射值。在具体应用中,由于点云数据的稀疏性,并不是第一感知数据中的所有像素点都对应有点云数据,因此,优选地,对于无点云数据的像素点,使用数字0对相应的像素点进行扩展的三个通道即X、Y和激光反射值的通道数据补全。由此,通过基于第二感知数据对第一感知数据进行通道扩展,使得扩展后的第一感知数据能够全面地表征和描述图像信息,避免了因第一感知数据的信息缺失而导致的信息偏差,而基于由此得到的融合数据进行目标检测,就能有效保障目标检测的准确性和稳定性,避免误检和漏检等缺陷。
其中,基于第一感知数据和第二感知数据的融合,生成对目标物体的三维标注标签的具体实现过程,可以参照前文图6所示的方法过程,在此不再赘述。
在步骤S22中,本发明实施例还根据第一感知数据中对目标物体的标注信息,获取目标物体的二维空间信息,如基于类别的目标类别标签和基于二维像素框的中心坐标x值和y值的二维标注标签,或如基于类别的目标类别标签、基于二维像素框的中心坐标x值和y值以及长度值和宽度值的二维标注标签。
由此,作为一种优选实施方式,可以将获取到的融合数据作为模型输入部分,将用于表征目标物体的其他信息,如三维标注标签、目标类别标签和二维标注标签均作为模型的输出部分,来训练出用于目标检测的模型,以使得通过目标检测模型就能够基于融合数据预测出目标物体的多维度的信息,包括三维标注标签、目标类别标签和二维标注标签,以此来提高目标检测的准确性和可靠性。
优选地,在利用步骤S23得到的样本数据进行模型训练时,可以选用深度学习网络模型,特别是满足实时性要求的深度学习网络模型,示例性地,可以选用YOLOv5网络模型。
以选用YOLOv5网络模型为例,在利用上述样本数据进行模型训练时,为了训练出以融合数据为输入部分、以三维标注标签、目标类别标签和二维标注标签为输出部分的目标检测模型,可以将YOLOv5模型的检测输出模块由原有的H*W*(anchor*(C+4+1))扩展为H*W*(anchor*(C+9+1))。其中,H表示输出的特征图的高度,W表示输出的特征图的宽度、anchor表示输出的特征图的先验锚框的数量和C表示输出的特征图的检测类别数量,数字4表示二维像素框在二维坐标中的中心点x、y以及二维像素框框对应的宽w和长h,数字1则是对应二维像素框为前景/背景的置信度。在本发明实施例中,扩展后采用的数字9则表示上述在第一感知数据中标注的二维像素框在二维坐标中的中心点x、y以及二维像素框对应的宽w和长h、以及通过上述聚类生成的三维包围框的中心点的X值、Y值和三维包围框的长度、宽度和高度。由此,通过对YOLOv5模型的检测输出模块的扩展,使得训练出的目标检测模型还能输出目标物体的三维空间信息。
作为一种优选实施方式,在利用上述样本数据对目标检测模型进行训练时,选用的损失函数可以是基于二维像素框的中心点偏移损失、二维像素框的长宽的欧式距离损失、三维包围框的中心点偏移损失、三维包围框的长宽高的欧式距离损失共同确定的,优选地,选用的损失函数具体可以是由二维像素框的中心点偏移损失、二维像素框的长宽的欧式距离损失、三维包围框的中心点偏移损失、三维包围框的长宽高的欧式距离损失、框前景/背景预测损失、和类别识别损失共同定义,示例性地,可以通过以下损失函数对目标检测模型进行训练:
其中,在上述损失函数公式中,函数的第一行用于计算二维像素框的中心点偏移损失,函数的第二行用于计算二维像素框的长宽的欧式距离损失,其中的wi表示第i个二维像素框的宽,hi表示第i个二维像素框的高,xi和yi表示第i个二维像素框的中心点的x值和y值;函数的第三行用于计算三维包围框的中心点偏移损失,函数的第四行用于计算三维包围框的长宽高的欧式距离损失,其中的Xi和Yi表示第i个三维包围框的中心点的X值和Y值,Wi表示第i个三维包围框的宽,Li表示第i个三维包围框的长,Hi表示第i个三维包围框的高;函数的第五行与第六行使用交叉熵计算二维像素框前景/背景预测损失;函数的最后一行则计算对二维像素框进行类别识别的损失。
由此,通过上述样本数据和损失函数即可训练出以融合数据作为输入部分,以目标物体的目标类别标签、二维像素信息和三维空间信息作为输出部分的目标检测模型。
图9示意性地显示了应用基于融合数据训练好的目标检测模型进行目标检测的方法流程,如图9所示,其实现为包括如下步骤:
步骤S30:基于第二感知数据对第一感知数据进行通道扩展,生成融合数据,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据;
步骤S31:将所述融合数据输入至预先训练好的目标检测模型,以获取目标检测模型输出的对目标物体的预测结果,其中,所述预测结果包括目标物体的目标类别标签、二维像素信息和三维空间信息,其中,所述二维像素信息为目标物体的二维像素框的中心点的x值和y值、以及二维像素框的长度值和宽度值,所述三维空间信息为目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
其中,基于第二感知数据对第一感知数据进行通道扩展,生成融合数据的具体实现过程,可以参照前文相关部分的描述,在此不再赘述。在步骤S31中使用的预先训练好的目标检测模型是以融合数据作为输入部分,以目标物体的目标类别标签、二维像素信息和三维空间信息作为输出部分的目标检测模型,示例性地可以为具有实时性特点的深度学习网络模型,如YOLOv5模型。其中,更优地,该目标检测模型可以是通过上述的样本数据和训练方法训练得到的。
在其他实施方式中,在对目标检测模型进行训练时,也可以根据需求调整目标检测模型的输出部分,使其仅包括三维空间信息,或至少包括三维空间信息和其他所需的目标信息,本发明实施例对此不进行限制。
本发明实施例的方案通过将不同传感器的感知数据直接进行融合,完善了感知数据本身表达的数据信息的维度,使得感知数据表达的信息更完整和准确,在此基础上,本发明实施例提出了基于融合的多维度感知数据进行目标检测的方案,以使得目标检测结果的依据更加可靠和完整,能够有效提高目标检测结果的准确率和稳定性,特别是在输出结果中还增加了对目标物体的三维空间信息的描述,使得目标物体的位置和尺寸都更加精确,进而有效保障了目标检测结果的可利用价值。将本发明实施例的目标检测方案应用到无人驾驶领域,还能够有效保证无人驾驶系统的稳定性和安全可靠性。
图10示意性地显示了本发明一种实施方式的目标信息确定装置,如图10所示,该装置包括:
传感器融合模块40,用于对第一感知数据和第二感知数据进行融合,其中,所述第一感知数据为图像数据,所述第二感知数据包括点云数据;
三维标注模块41,用于根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息,其中,所述三维空间信息包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值,其被用作用于表征目标物体的目标信息。
图11示意性地显示了本发明另一种实施方式的目标信息确定装置,如图11所示,其在图10所示装置的基础上,还进一步包括:
二维标注模块42,用于根据第一感知数据中对目标物体的标注信息获取目标物体的目标类别标签和二维像素信息,所述目标类别标签和二维像素信息均被用作用于表征目标物体的目标信息。
其中,三维空间信息可以用于表征目标物体的三维空间信息,目标类别标签可以用于表征目标物体的类别、二维像素信息可以用于表征目标物体的二维空间信息。作为一种优选实施方式,通过将目标类别标签、二维像素信息和三维空间信息共同作为用于表征目标物体的目标信息,可以进一步提高确定出的目标物体的准确性和描述完整性,进而实现对目标物体的准确检测和稳定追踪。其中,示例性地,目标类别标签可以是目标物体的类别信息,二维像素信息可以是在第一感知数据中标记的二维像素框的中心点的x值和y值,也可以为二维像素框的中心点的x值、y值和二维像素框的宽度值、高度值。
作为对基于感知数据融合的目标物体信息确定方法的应用,图12示意性地显示了本发明一种实施方式的用于目标检测模型的样本数据的生成装置,如图12所示,其包括:
三维数据生成模块50,用于对第一感知数据和第二感知数据进行融合,生成融合数据和对目标物体的三维标注标签,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值;
二维数据生成模块51,用于根据第一感知数据中对目标物体的标注结果获取目标物体的目标类别标签和二维标注标签;
样本数据确定模块52,用于将融合数据作为目标检测模型的输入部分,将目标物体的目标类别标签、二维标注标签和三维标注标签作为目标检测模型的输出部分,形成用于训练目标检测模型的样本数据。
本发明实施例形成的样本数据能够用于进行目标检测模型的训练,以训练出以融合数据作为输入部分、以目标物体的目标类别标签、二维标注标签和三维标注标签作为输出部分的目标检测模型,目标检测模型的输入部分是通过对第一感知数据和第二感知数据融合后形成的6通道数据,能够从多个维度完整描述感知信息,从而提高目标检测模型的准确率和目标检出率。并且,在输出部分,由于能够准确表示目标物体的三维空间信息,使得检测出的目标的位置和尺寸信息都更明确,方便进行目标跟踪,且通过对三维空间进行定位,能够进一步提高目标检测的准确率和可靠性。
图13示意性地显示了本发明一种实施方式的目标检测模型训练装置,如图13所示,其包括:
模型训练模块60,用于利用前述生成的样本数据,对选用的网络模型进行训练,生成用于目标检测的目标检测模型。
图14示意性地显示了本发明一种实施方式的目标检测装置,如图14所示,其包括:
通道扩展模块80,用于基于第二感知数据对第一感知数据进行通道扩展,生成融合数据,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据;
目标检测模块81,用于将所述融合数据输入至预先训练好的目标检测模型,以获取目标检测模型输出的对目标物体的预测结果,其中,所述预测结果包括目标物体的目标类别标签、二维像素信息和三维空间信息,其中,所述二维像素信息为目标物体的二维像素框的中心点的x值和y值以及二维像素框的长度值和宽度值,所述三维空间信息为目标物体的三维包围框的中心点的X值、Y值和包围框的宽度值、长度值、高度值。
在其他实施例中,目标检测模块81中获取到的预测结果还可以仅包括目标物体的三维空间信息,或包括目标物体的三维空间信息和其他信息,只需要对目标检测模型的输出模块进行调整并对其进行相应训练即可。
其中,需要说明的是,本发明实施例的目标信息确定装置、用于目标检测模型的样本数据的生成装置、目标检测模型训练装置、目标检测装置中涉及的各个模块的具体实现过程,如第一感知数据和第二感知数据的融合方式、融合数据的生成方式、三维空间信息的获取方式等,均可以参照前文方法部分的描述,在此不再赘述。
图15示意性地显示了本发明一实施方式的计算设备,如图所示,其实现为包括:
存储器100,用于存储可执行指令;以及
处理器200,用于执行存储器中存储的可执行指令,所述可执行指令在由所述处理器执行时实现前述任一项实施例所述的目标信息确定方法或用于目标检测模型的样本数据的生成方法或目标检测模型训练方法或目标检测方法的步骤。
在具体实践中,示例性地,上述计算设备可以应用在自动驾驶车辆、无人驾驶清洁器、无人驾驶扫地机、机器人等自动驾驶设备上或半自动驾驶设备上,以辅助这些设备实现目标检测或用于目标检测的样本数据生成和模型训练,以使得这些半自主驾驶或无人驾驶的工具能够基于多种维度的感知数据准确检测出目标物体,并给出目标物体的三维空间信息,提高其目标检测的准确率和可靠性等。
图16示意性地显示了本发明一种实施方式的移动工具,如图16所示,该移动工具包括计算设备70,以使得本发明实施例的移动工具能够利用所述计算设备提供的功能进行目标检测或目标检测模型的训练或样本数据的生成,进而基于目标检测结果进行诸如行驶控制或目标跟踪或避障等后续处理。其中,计算设备可以为图15所示的计算设备。
可选地,在实际应用中,移动工具还可以包括感知识别模块和其他规划控制模块,如路径规划控制器、底层控制器等,计算设备70的功能也可以在感知识别模块或规划器等中实现,本发明实施例对此不进行限制。
本发明实施例所称的“移动工具”可以是国际自动机工程师学会(Society ofAutomotive Engineers International,SAE International)或中国国家标准《汽车驾驶自动化分级》制定的L0-L5自动驾驶技术等级的车辆。
示例性地,移动工具可以是具有如下各种功能的车辆设备或机器人设备:
(1)载人功能,如家用轿车、公共汽车等;
(2)载货功能,如普通货车、厢式货车、甩挂车、封闭货车、罐式货车、平板货车、集装厢车、自卸货车、特殊结构货车等;
(3)工具功能,如物流配送车、自动导引运输车AGV、巡逻车、起重机、吊车、挖掘机、推土机、铲车、压路机、装载机、越野工程车、装甲工程车、污水处理车、环卫车、吸尘车、洗地车、洒水车、扫地机器人、送餐机器人、导购机器人、割草机、高尔夫球车等;
(4)娱乐功能,如娱乐车、游乐场自动驾驶装置、平衡车等;
(5)特殊救援功能,如消防车、救护车、电力抢修车、工程抢险车等。
在一些实施例中,本发明实施例提供一种非易失性计算机可读存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项实施例的目标信息确定方法或用于目标检测模型的样本数据的生成方法或目标检测模型训练方法或目标检测方法。
在一些实施例中,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项实施例的目标信息确定方法或用于目标检测模型的样本数据的生成方法或目标检测模型训练方法或目标检测方法。
在一些实施例中,本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一实施例的目标信息确定方法或用于目标检测模型的样本数据的生成方法或目标检测模型训练方法或目标检测方法。
在一些实施例中,本发明实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项实施例的目标信息确定方法或用于目标检测模型的样本数据的生成方法或目标检测模型训练方法或目标检测方法。
图17是本发明另一实施例提供的目标检测装置的硬件结构示意图,上述目标检测装置可以该图所示的结构实现,如图17所示,该目标检测装置包括:
一个或多个处理器610以及存储器620,图17中以一个处理器610为例。
目标检测装置还可以包括:输入装置630和输出装置640。
处理器610、存储器620、输入装置630和输出装置640可以通过总线或者其他方式连接,图17中以通过总线连接为例。
存储器620作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的目标检测方法对应的程序指令/模块。处理器610通过运行存储在存储器620中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的目标检测方法。
存储器620可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据目标检测方法的使用所创建的数据等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器620可选包括相对于处理器610远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置630可接收输入的数字或字符信息,以及产生与图像处理设备的用户设置以及功能控制有关的信号。输出装置640可包括显示屏等显示设备。
所述一个或者多个模块存储在所述存储器620中,当被所述一个或者多个处理器610执行时,执行上述任意方法实施例中的目标检测方法。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
本发明实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (17)

1.一种目标信息确定方法,其特征在于,包括:
对第一感知数据和第二感知数据进行融合,其中,所述第一感知数据为图像数据,所述第二感知数据包括点云数据;
根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息,其中,所述三维空间信息被用作用于表征目标物体的目标信息,其包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
2.根据权利要求1所述的方法,其特征在于,对第一感知数据和第二感知数据进行融合,包括:
对获取的第一感知数据和第二感知数据进行时间同步;
将第二感知数据中的点云映射至与其时间同步的第一感知数据上。
3.根据权利要求1所述的方法,其特征在于,所述根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息,包括:
基于第一感知数据中对目标物体的标注信息对映射至第一感知数据上的点云进行聚类,形成聚类点云簇;
获取与目标物体的标注信息对应的聚类点云簇的聚类中心和三维包围框;
确定出聚类中心的X值和Y值,以及三维包围框的长度值、宽度值和高度值,作为目标物体的三维空间信息。
4.根据权利要求1至3任一项所述的方法,其特征在于,还包括:
根据第一感知数据中对目标物体的标注信息获取目标物体的目标类别标签和二维像素信息,其中,所述目标类别标签和二维像素信息与所述三维空间信息共同被用作用于表征目标物体的目标信息。
5.用于目标检测模型的样本数据的生成方法,其特征在于,所述方法包括:
对第一感知数据和第二感知数据进行融合,生成融合数据和对目标物体的三维标注标签,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值;
根据第一感知数据中对目标物体的标注信息获取目标物体的目标类别标签和二维标注标签;
将融合数据作为目标检测模型的输入部分,将目标物体的目标类别标签、二维标注标签和三维标注标签作为目标检测模型的输出部分,形成用于训练目标检测模型的样本数据。
6.根据权利要求5所述的方法,其特征在于,对第一感知数据和第二感知数据进行融合,生成融合数据,包括:
对获取的第一感知数据和第二感知数据进行时间同步;
将第二感知数据中的点云映射至与其时间同步的第一感知数据上;
基于第二感知数据的点云数据对映射后的第一感知数据进行通道扩展,生成融合数据。
7.根据权利要求6所述的方法,其特征在于,对第一感知数据和第二感知数据进行融合,生成对目标物体的三维标注标签,包括:
基于第一感知数据中对目标物体的标注信息对映射至第一感知数据上的点云进行聚类,形成聚类点云簇;
获取与目标物体的标注信息对应的聚类点云簇的聚类中心和三维包围框;
确定出聚类中心的X值和Y值,以及三维包围框的长度值、宽度值和高度值,根据聚类中心的X值和Y值,以及三维包围框的长度值、宽度值和高度值生成目标物体的三维标注标签。
8.目标检测模型构建方法,其特征在于,包括:
利用权利要求5至7任一项所述方法生成的样本数据,对选用的网络模型进行训练,生成用于目标检测的目标检测模型。
9.目标检测方法,其特征在于,包括:
基于第二感知数据对第一感知数据进行通道扩展,生成融合数据,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据;
将所述融合数据输入至预先训练好的目标检测模型,以获取目标检测模型输出的对目标物体的预测结果,其中,所述预测结果至少包括目标物体的三维空间信息,其中,所述三维空间信息为目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
10.根据权利要求9所述的方法,其特征在于,所述目标检测模型通过权利要求8所述的方法训练得到,所述预测结果还包括目标物体的目标类别标签和二维像素信息,其中,所述二维像素信息为目标物体的二维像素框的中心点的x值和y值以及二维像素框的长度值和宽度值。
11.目标信息确定装置,其特征在于,包括:
传感器融合模块,用于对第一感知数据和第二感知数据进行融合,其中,所述第一感知数据为图像数据,所述第二感知数据包括点云数据;
三维标注模块,用于根据融合后的第一感知数据和第二感知数据、以及第一感知数据中对目标物体的标注信息生成目标物体的三维空间信息,其中,所述三维空间信息被用作用于表征目标物体的目标信息,其包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
12.用于目标检测模型的样本数据的生成装置,其特征在于,包括:
三维数据生成模块,用于对第一感知数据和第二感知数据进行融合,生成融合数据和对目标物体的三维标注标签,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值;
二维数据生成模块,用于根据第一感知数据中对目标物体的标注结果获取目标物体的目标类别标签和二维标注标签;
样本数据确定模块,用于将融合数据作为目标检测模型的输入部分,将目标物体的目标类别标签、二维标注标签和三维标注标签作为目标检测模型的输出部分,形成用于训练目标检测模型的样本数据。
13.目标检测模型训练装置,其特征在于,包括:
模型训练模块,用于利用生成的样本数据,对选用的网络模型进行训练,生成用于目标检测的目标检测模型,其中,所述样本数据的输入部分为包含R、G、B、X、Y和激光反射值的6通道数据,输出部分包括目标物体的目标类别标签、二维标注标签和三维标注标签,所述目标类别标签为目标物体的类别,所述二维标注标签包括目标物体的二维像素框的中心点的x值、y值以及二维像素框的长度值和宽度值,所述三维标注标签包括目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
14.目标检测装置,其特征在于,包括:
通道扩展模块,用于基于第二感知数据对第一感知数据进行通道扩展,生成融合数据,其中,所述第一感知数据为图像数据,所述第二感知数据为点云数据,所述融合数据为包含R、G、B、X、Y和激光反射值的6通道数据;
目标检测模块,用于将所述融合数据输入至预先训练好的目标检测模型,以获取目标检测模型输出的对目标物体的预测结果,其中,所述预测结果至少包括目标物体的三维空间信息,其中,所述三维空间信息为目标物体的三维包围框的中心点的X值、Y值和三维包围框的宽度值、长度值、高度值。
15.一种计算设备,其特征在于,包括:
存储器,用于存储可执行指令;以及
处理器,用于执行存储器中存储的可执行指令,所述可执行指令在由所述处理器执行时实现权利要求1至10任一项所述方法的步骤。
16.移动工具,其特征在于,所述移动工具包括:权利要求15所述的计算设备。
17.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至10中任意一项所述方法的步骤。
CN202211215249.5A 2022-09-30 2022-09-30 目标信息确定方法及装置、样本数据的生成方法及装置、及应用其的目标检测方法及装置 Pending CN117853851A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211215249.5A CN117853851A (zh) 2022-09-30 2022-09-30 目标信息确定方法及装置、样本数据的生成方法及装置、及应用其的目标检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211215249.5A CN117853851A (zh) 2022-09-30 2022-09-30 目标信息确定方法及装置、样本数据的生成方法及装置、及应用其的目标检测方法及装置

Publications (1)

Publication Number Publication Date
CN117853851A true CN117853851A (zh) 2024-04-09

Family

ID=90546486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211215249.5A Pending CN117853851A (zh) 2022-09-30 2022-09-30 目标信息确定方法及装置、样本数据的生成方法及装置、及应用其的目标检测方法及装置

Country Status (1)

Country Link
CN (1) CN117853851A (zh)

Similar Documents

Publication Publication Date Title
EP3627180B1 (en) Sensor calibration method and device, computer device, medium, and vehicle
EP3568334B1 (en) System, method and non-transitory computer readable storage medium for parking vehicle
CN108419446B (zh) 用于激光深度图取样的系统及方法
US10024965B2 (en) Generating 3-dimensional maps of a scene using passive and active measurements
US20200041276A1 (en) End-To-End Deep Generative Model For Simultaneous Localization And Mapping
JP7204326B2 (ja) 情報処理装置及びその制御方法及びプログラム、並びに、車両の運転支援システム
US20190065933A1 (en) Augmenting Real Sensor Recordings With Simulated Sensor Data
US20190065637A1 (en) Augmenting Real Sensor Recordings With Simulated Sensor Data
Guo et al. Robust road detection and tracking in challenging scenarios based on Markov random fields with unsupervised learning
US20220036579A1 (en) Systems and Methods for Simulating Dynamic Objects Based on Real World Data
US11756317B2 (en) Methods and systems for labeling lidar point cloud data
Perrollaz et al. A visibility-based approach for occupancy grid computation in disparity space
CN111780771A (zh) 一种定位方法、装置、电子设备及计算机可读存储介质
US20220122324A1 (en) Systems and methods for map generation based on ray-casting and semantic class images
CN110969064A (zh) 一种基于单目视觉的图像检测方法、装置及存储设备
CN115235500A (zh) 基于车道线约束的位姿校正方法及装置、全工况静态环境建模方法及装置
EP4145392A1 (en) Method and apparatus for determining three-dimensional information of target object
CN114494444A (zh) 障碍物动静态估计方法及电子设备和存储介质
CN113076896A (zh) 一种规范停车方法、系统、装置及存储介质
WO2024036984A1 (zh) 目标定位方法及相关系统、存储介质
CN113435224A (zh) 用于获取车辆3d信息的方法和装置
CN117853851A (zh) 目标信息确定方法及装置、样本数据的生成方法及装置、及应用其的目标检测方法及装置
CN114693727A (zh) 信息处理方法及装置、信息处理系统
Wang et al. Holistic Parking Slot Detection with Polygon-Shaped Representations
CN115752476B (zh) 一种基于语义信息的车辆地库重定位方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination