CN116052100A - 图像感知方法、计算机设备、计算机可读存储介质及车辆 - Google Patents
图像感知方法、计算机设备、计算机可读存储介质及车辆 Download PDFInfo
- Publication number
- CN116052100A CN116052100A CN202211723089.5A CN202211723089A CN116052100A CN 116052100 A CN116052100 A CN 116052100A CN 202211723089 A CN202211723089 A CN 202211723089A CN 116052100 A CN116052100 A CN 116052100A
- Authority
- CN
- China
- Prior art keywords
- image
- frame
- point cloud
- network
- image frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及自动驾驶技术领域,具体提供一种图像感知方法、计算机设备、计算机可读存储介质及车辆,旨在解决提高图像感知准确性的问题。为此目的,本发明提供的图像感知方法包括获取车辆采集到的图像帧,采用图像感知模型对图像帧进行图像目标感知;图像感知模型的训练方法包括获取车辆采集到的图像帧和点云帧,根据点云帧获取图像帧的深度信息,根据图像帧及其深度信息对图像感知模型进行图像深度估计的预训练,再根据图像帧及其图像目标标注信息对完成预训练的图像感知模型进行图像目标感知的最终训练。通过上述图像感知方法,不仅可以提高图像感知的准确性,还可以提高图像感知的鲁棒性。
Description
技术领域
本发明涉及自动驾驶技术领域,具体涉及一种图像感知方法、计算机设备、计算机可读存储介质及车辆。
背景技术
在对车辆进行自动驾驶控制时通常会通过视觉传感器采集车辆周围的图像,然后通过感知模型对图像进行感知,以识别车辆周围的车道线、交通标志、行人和障碍物等目标对象的信息。然而目前常规的图像感知方法在识别目标对象时通常无法得到较为准确的深度信息,从而降低了图像感知的准确性。
相应地,本领域需要一种新的技术方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何提高图像感知准确性的技术问题的图像感知方法、计算机设备、计算机可读存储介质及车辆。
在第一方面,提供一种图像感知方法,所述方法包括:
获取车辆采集到的图像帧;
采用图像感知模型对所述图像帧进行图像目标感知;
其中,所述图像感知模型通过下列方式训练得到:
获取车辆采集到的图像帧和点云帧;
根据所述点云帧获取所述图像帧的深度信息;
根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练,再根据所述图像帧及其图像目标标注信息对完成预训练的图像感知模型进行图像目标感知的最终训练。
在上述图像感知方法的一个技术方案中,“根据所述点云帧获取所述图像帧的深度信息”的步骤具体包括:
针对每个图像帧,根据所述图像帧的时间戳与所述点云帧的时间戳,选取与所述图像帧时间距离最近的点云帧;
根据所述最近的点云帧,获取所述图像帧的深度信息。
在上述图像感知方法的一个技术方案中,在“根据所述点云帧获取所述图像帧的深度信息”的步骤之前,所述方法还包括:
对所述最近的点云帧的位置进行矫正,以使所述最近的点云帧与所述图像帧扫描到的对象相同。
在上述图像感知方法的一个技术方案中,“对所述最近的点云帧的位置进行矫正,以使所述最近的点云帧与所述图像帧扫描到的对象相同”的步骤具体包括:
获取所述图像帧的时间戳与所述点云帧的时间戳之间的时间间隔;
根据车辆的速度与所述时间间隔,获取所述图像帧的时间戳与所述点云帧的时间戳之间的位移;
根据所述位移,对所述最近的点云帧的位置进行矫正。
在上述图像感知方法的一个技术方案中,“根据车辆的速度与所述时间间隔,获取所述图像帧的时间戳与所述点云帧的时间戳之间的位移”的步骤具体包括:
预测所述点云帧所属物体的移动速度;
根据车辆的速度、所述移动速度与所述时间间隔,获取所述位移。
在上述图像感知方法的一个技术方案中,在“根据所述位移,对所述最近的点云帧的位置进行矫正”的步骤之后,所述方法还包括:
预测所述点云帧所属物体的移动速度;
根据所述移动速度与所述时间间隔,获取所述点云帧所属物体在所述图像帧的时间戳与所述点云帧的时间戳之间的移动位移;
根据所述移动位移,再次对所述最近的点云帧的位置进行矫正。
在上述图像感知方法的一个技术方案中,“根据所述点云帧获取所述图像帧的深度信息”的步骤还包括:
将所述点云帧上的每个点云分别投影至所述图像帧,以获取每个点云在所述图像帧上的投影点的位置和深度;
根据所述投影点的位置和深度,获取所述图像帧的深度信息。
在上述图像感知方法的一个技术方案中,在“根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练”的步骤之前,所述方法还包括通过下列方式构建所述图像感知模型:
分别构建特征提取网络、目标感知网络和深度估计网络,以形成所述图像感知模型;
其中,所述特征提取网络用于提取图像帧的图像特征,所述目标感知网络用于根据所述图像特征进行图像目标感知,所述深度估计网络用于根据所述图像特征估计图像帧上每个像素点位置处的深度。
在上述图像感知方法的一个技术方案中,“根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练”的步骤具体包括:
根据所述图像帧及其深度信息,对所述图像感知模型进行图像深度估计的预训练,并在预训练完成后移除所述深度估计网络。
在上述图像感知方法的一个技术方案中,所述方法还包括通过下列方式构建所述特征提取网络与所述目标感知网络:
构建一个特征金字塔网络,以形成所述特征提取网络;
构建多个目标感知网络,每个目标感知网络分别用于根据所述特征金字塔网络提取到的图像特征进行不同类型图像目标的感知。
在第二方面,提供一种计算机设备,该计算机设备包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述图像感知方法的技术方案中任一项技术方案所述的图像感知方法。
在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述图像感知方法的技术方案中任一项技术方案所述的图像感知方法。
在第四方面,提供一种车辆,该车辆包括上述计算机设备的技术方案所述的计算机设备。
方案1.一种图像感知方法,其特征在于,所述方法包括:
获取车辆采集到的图像帧;
采用图像感知模型对所述图像帧进行图像目标感知;
其中,所述图像感知模型通过下列方式训练得到:
获取车辆采集到的图像帧和点云帧;
根据所述点云帧获取所述图像帧的深度信息;
根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练,再根据所述图像帧及其图像目标标注信息对完成预训练的图像感知模型进行图像目标感知的最终训练。
方案2.根据方案1所述的图像感知方法,其特征在于,“根据所述点云帧获取所述图像帧的深度信息”的步骤具体包括:
针对每个图像帧,根据所述图像帧的时间戳与所述点云帧的时间戳,选取与所述图像帧时间距离最近的点云帧;
根据所述最近的点云帧,获取所述图像帧的深度信息。
方案3.根据方案2所述的图像感知方法,其特征在于,在“根据所述点云帧获取所述图像帧的深度信息”的步骤之前,所述方法还包括:
对所述最近的点云帧的位置进行矫正,以使所述最近的点云帧与所述图像帧扫描到的对象相同。
方案4.根据方案3所述的图像感知方法,其特征在于,“对所述最近的点云帧的位置进行矫正,以使所述最近的点云帧与所述图像帧扫描到的对象相同”的步骤具体包括:
获取所述图像帧的时间戳与所述点云帧的时间戳之间的时间间隔;
根据车辆的速度与所述时间间隔,获取所述图像帧的时间戳与所述点云帧的时间戳之间的位移;
根据所述位移,对所述最近的点云帧的位置进行矫正。
方案5.根据方案4所述的图像感知方法,其特征在于,“根据车辆的速度与所述时间间隔,获取所述图像帧的时间戳与所述点云帧的时间戳之间的位移”的步骤具体包括:
预测所述点云帧所属物体的移动速度;
根据车辆的速度、所述移动速度与所述时间间隔,获取所述位移。
方案6.根据方案4所述的图像感知方法,其特征在于,在“根据所述位移,对所述最近的点云帧的位置进行矫正”的步骤之后,所述方法还包括:
预测所述点云帧所属物体的移动速度;
根据所述移动速度与所述时间间隔,获取所述点云帧所属物体在所述图像帧的时间戳与所述点云帧的时间戳之间的移动位移;
根据所述移动位移,再次对所述最近的点云帧的位置进行矫正。
方案7.根据方案1至6中任一项所述的图像感知方法,其特征在于,“根据所述点云帧获取所述图像帧的深度信息”的步骤还包括:
将所述点云帧上的每个点云分别投影至所述图像帧,以获取每个点云在所述图像帧上的投影点的位置和深度;
根据所述投影点的位置和深度,获取所述图像帧的深度信息。
方案8.根据方案1所述的图像感知方法,其特征在于,在“根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练”的步骤之前,所述方法还包括通过下列方式构建所述图像感知模型:
分别构建特征提取网络、目标感知网络和深度估计网络,以形成所述图像感知模型;
其中,所述特征提取网络用于提取图像帧的图像特征,所述目标感知网络用于根据所述图像特征进行图像目标感知,所述深度估计网络用于根据所述图像特征估计图像帧上每个像素点位置处的深度。
方案9.根据方案8所述的图像感知方法,其特征在于,“根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练”的步骤具体包括:
根据所述图像帧及其深度信息,对所述图像感知模型进行图像深度估计的预训练,并在预训练完成后移除所述深度估计网络。
方案10.根据方案8所述的图像感知方法,其特征在于,所述方法还包括通过下列方式构建所述特征提取网络与所述目标感知网络:
构建一个特征金字塔网络,以形成所述特征提取网络;
构建多个目标感知网络,每个目标感知网络分别用于根据所述特征金字塔网络提取到的图像特征进行不同类型图像目标的感知。
方案11.一种计算机设备,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行方案1至10中任一项所述的图像感知方法。
方案12.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行方案1至10中任一项所述的图像感知方法。
方案13.一种车辆,其特征在于,所述车辆包括方案11所述的计算机设备。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明提供的图像感知方法的技术方案中,可以获取车辆采集到的图像帧和点云帧,根据点云帧获取图像帧的深度信息,先根据图像帧及其深度信息对图像感知模型进行图像深度估计的预训练,再根据图像帧及其图像目标标注信息对完成预训练的图像感知模型进行图像目标感知的最终训练。在需要对车辆采集到的图像帧进行图像感知时采用上述训练好的图像感知模型对图像帧进行图像目标感知。
通过上述方法,可以在不对图像帧进行深度信息标注的前提下利用点云帧准确得到图像帧的深度信息,进而利用深度信息提高图像感知模型的图像深度估计能力,这样在利用图像帧对具备图像深度估计的模型进行最终的图像目标感知训练之后,可以利用训练好的模型准确地识别出图像帧上的目标。由于该模型具备深度估计能力,因此,无论是二维图像目标,还是三维图像目标都可以准确地识别出来,即提高了图像目标感知的鲁棒性。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:
图1是根据本发明的一个实施例的图像感知方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的图像感知模型训练方法的主要步骤流程示意图;
图3是根据本发明的一个实施例的图像感知模型的网络结构示意图;
图4是根据本发明的一个实施例的计算机设备的主要结构示意图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“处理器”可以包括硬件、软件或者两者的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。
下面对本发明提供的图像感知方法的实施例进行说明。
参阅附图1,图1是根据本发明的一个实施例的图像感知方法的主要步骤流程示意图。如图1所示,本发明实施例中的图像感知方法主要包括下列步骤S101至步骤S102。
步骤S101:获取车辆采集到的图像帧。
在本发明实施例中可以在车辆沿着地图采集路径行驶的过程中,利用车辆上的图像采集装置采集得到图像帧。
步骤S102:采用图像感知模型对图像帧进行图像目标感知。
在此步骤之前,还可以包括一个图像感知模型的训练步骤(S100),以训练得到图像感知模型。具体而言,在本发明实施例中可以通过图2所示的下列步骤S1001至步骤S1004,训练得到图像感知模型。
步骤S1001:获取车辆采集到的图像帧和点云帧。
在本发明实施例中可以在利用车辆上的图像采集装置采集得到图像帧的同时,利用车辆上的激光雷达采集得到点云帧。
步骤S1002:根据点云帧获取图像帧的深度信息。
点云帧上的点云是三维点云,而图像帧是二维的,缺少深度信息。利用三维点云的三维坐标,可以获取图像帧上每个像素点位置处的深度。
步骤S1003:根据图像帧及其深度信息对图像感知模型进行图像深度估计的预训练。
通过预训练可以使图像感知模型具备图像深度估计的能力,有利于对图像帧进行三维图像目标的感知。
步骤S1004:根据图像帧及其图像目标标注信息对完成预训练的图像感知模型进行图像目标感知的最终训练。
图像目标标注信息是根据图像帧预先标注好的,例如可以采用人工标注的方式根据需要感知的图像目标,将图像帧上包含的图像目标标注出来,形成图像目标标注信息。本发明实施例不对图像目标标注信息的获取方法作具体限定。
通过最终训练可以使图像感知模型具备图像目标感知的能力,由于经过预训练之后图像感知模型已经具备了图像深度估计的能力,因此,在完成最终训练之后不仅可以采用图像感知模型进行二维图像目标感知,也可以进行三维图像目标感知,提高了图像目标感知的鲁棒性。
因此,基于上述步骤S101至步骤S102所述的方法,不仅可以提高图像感知模型的准确性,还可以提高图像目标感知的鲁棒性。
下面对上述步骤S1002至步骤S1004作进一步说明。
一、对步骤S1002进行说明。
在确定好用于获取图像帧深度信息的点云帧之后,可以将点云帧上的每个点云分别投影至图像帧,以获取每个点云在图像帧上的投影点的位置和深度,并根据投影点的位置和深度,获取图像帧的深度信息。
具体地,可以获取点云帧上每个点云在世界坐标系的三维坐标,然后利用图像帧采集装置(比如相机)的外参,将点云由世界坐标系转换至图像帧采集装置的装置坐标系(比如相机坐标系),得到点云在该装置坐标系的三维坐标。进一步,利用图像帧采集装置的内参,将点云由装置坐标系转换至图像坐标系,得到点云在该图像坐标系下的二维坐标。根据点云在图像坐标系下的二维坐标,可以得到点云在图像帧上的投影点的位置;根据点云在装置坐标系的Z轴坐标,可以得到点云在图像帧上的投影点的深度。
在得到每个投影点的位置和深度之后,可以将投影点的深度,作为图像帧上位于这个投影点位置处的像素点的深度。
在实际应用中,由于图像帧采集装置(比如相机)和点云帧采集装置(比如激光雷达)的采集频率不同,导致图像帧与点云帧不是一一对应的,对此,为了准确地根据点云帧得到图像帧的深度信息,在一些实施方式中针对每个图像帧,可以根据图像帧的时间戳与点云帧的时间戳,选取与图像帧时间距离最近的点云帧,然后根据最近的点云帧获取图像帧的深度信息,以保证深度信息的准确性。
进一步,在一些实施方式中,为了提高深度信息的准确性,在获取到上述最近的点云帧之后,还可以对最近的点云帧的位置进行矫正,以使最近的点云帧与图像帧扫描到的对象相同,然后再根据矫正后的点云帧获取图像帧的深度信息。点云帧扫描到的对象是指点云帧上的点云所表示的对象,图像帧扫描的对象是指图像帧呈现的画面包含的对象。对象可以是车辆、障碍物、建筑物等等。
在一些优选实施方式中,可以利用车辆自身的速度对点云帧的位置进行矫正。具体而言,可以通过下列步骤11至步骤13进行矫正。
步骤11:获取图像帧的时间戳与点云帧的时间戳之间的时间间隔。时间戳可以表示图像帧和点云帧的采集时间。
步骤12:根据车辆的速度与时间间隔,获取图像帧的时间戳与点云帧的时间戳之间的位移。具体地,可以将车辆的速度与时间间隔进行相乘,将乘积作为位移。
步骤13:根据位移,对最近的点云帧的位置进行矫正。具体地,可以根据位移将最近的点云帧的位置移动到图像帧的时间戳对应的位置。例如,若图像帧的时间戳早于点云帧的时间戳,可以在最近的点云帧的位置的基础上增加上述位移;若图像帧的时间戳晚于点云帧的时间戳,可以在最近的点云帧的位置的基础上减去上述位移。
基于上述步骤11至步骤13,可以利用车辆的速度得到车辆的移动位移,进而根据车辆的移动位移对点云帧进行位置矫正,提高位置矫正的准确性。然而,在实际应用中,点云帧所属物体可能是动态的,具备移动速度,此时需要同时考虑车辆和该物体的移动速度,对点云帧进行位置矫正。下面对同时考虑车辆和该物体的移动速度,对点云帧进行位置矫正的两种方法进行说明。
1、第一种位置矫正方法
具体地,可以将上述步骤13替换成下列步骤131和132。
步骤131:预测点云帧所属物体的移动速度。
在本实施方式中可以采用自动驾驶技术领域中常规的点云预测方法,来预测点云帧所属物体的移动速度。比如,可以训练一个具备预测点云帧所属物体的移动速度的神经网络,将点云帧输入到这个神经网络中,得到点云帧所属物体的移动速度。
步骤132:根据车辆的速度、点云帧所属物体的移动速度与时间间隔,获取位移。具体地,根据车辆的速度与点云帧所属物体的移动速度,可以得到车辆与点云帧所属物体之间的相对速度,将该相对速度与时间间隔进行相乘,将乘积作为位移。
基于上述步骤131至步骤132所述的方法,可以得到同时考虑车辆和该物体的移动速度的位移,根据该位移对点云帧进行位置矫正,可以进一步提高位置矫正的准确性。
2、第二种位置矫正方法
具体地,在通过上述步骤11至步骤13对点云帧的位置进行矫正之后,通过下列步骤14至步骤16再次对点云帧的位置进行矫正。
步骤14:预测点云帧所属物体的移动速度。
在本实施方式中可以采用自动驾驶技术领域中常规的点云预测方法,来预测点云帧所属物体的移动速度。比如,可以训练一个具备预测点云帧所属物体的移动速度的神经网络,将点云帧输入到这个神经网络中,得到点云帧所属物体的移动速度。
步骤15:根据点云帧所属物体的移动速度与时间间隔,获取点云帧所属物体在图像帧的时间戳与点云帧的时间戳之间的移动位移。
步骤16:根据点云帧所属物体的移动位移,再次对最近的点云帧的位置进行矫正。
基于上述步骤11至步骤16所述的方法,可以利用车辆速度进行粗略的位置矫正,再利用点云帧所属物体的移动速度进行精细的位置矫正。
二、对步骤S1003进行说明。
为了对图像感知模型进行图像深度估计训练,使其具备图像深度的估计能力,在构建图像感知模型时除了设置特征提取网络和目标感知网络以外,还可以设置一个深度估计网络。
特征提取网络可以用于提取图像帧的图像特征,目标感知网络可以用于根据图像特征进行图像目标感知,深度估计网络可以用于根据图像特征估计图像帧上每个像素点位置处的深度。
图像帧的深度信息包括图像帧上每个像素点位置处的深度,为了便于描述,此处将用于图像深度估计训练的深度信息称为监督深度信息,监督深度信息包括图像帧上每个像素点位置处的监督深度。在将图像帧及其监督深度信息输入至图像感知模型之后,深度估计网络可以根据图像帧的图像特征估计出图像帧上每个像素点位置处的深度,为了便于描述,此处将深度估计网络估计出的深度称为估计深度。在得到估计深度之后,可以根据估计深度与相同像素点位置处的监督深度,计算图像感知模型的模型损失值,根据模型损失值计算模型参数的参数梯度,根据参数梯度反向传播更新模型参数,直至图像感知模型满足收敛条件后停止训练。
在完成图像深度估计的预训练之后,可以移除深度估计网络。也就是说,在对图像感知模型进行图像目标感知的最终训练时,图像感知模型不再包含上述深度估计网络。
在实际应用中,车辆上可能会设置有多个不同视角的图像采集装置,而在进行图像目标感知时会同时根据这些图像采集装置得到的不同视角的图像帧进行感知。为了保证图像感知模型对每个视角的图像帧都具备较高的图像深度估计能力,在进行图像深度估计训练时可以针对每个视角的图像帧分别进行训练。例如,车辆上设置有2个不同视角的图像采集装置A和B,先获取图像采集装置A采集到的图像帧,利用这些图像帧对图像感知模型进行图像深度估计训练。然后,再获取图像采集装置B采集到的图像帧,利用这些图像帧对图像感知模型进行图像深度估计训练。
三、对步骤S1004进行说明。
根据前述描述可知,在进行图像目标感知训练时图像感知模型主要包括特征提取网络和目标感知网络,并不包含深度估计网络,此训练主要是利用目标感知网络进行图像目标感知训练。
在将图像帧及其图像目标标注信息输入至图像感知模型之后,目标感知网络可以根据图像帧的图像特征进行图像目标感知,得到图像目标感知信息,进而可以根据图像目标标注信息与图像目标感知信息,计算图像感知模型的模型损失值,根据模型损失值计算模型参数的参数梯度,根据参数梯度反向传播更新模型参数,直至图像感知模型满足收敛条件后停止训练。
为了提高图像感知模型对图像目标感知的鲁棒性,可以在图像目标感知模型中设置多个目标感知模型,每个目标感知网络分别用于根据图像帧的图像特征进行不同类型图像目标的感知。例如,可以设置2D目标感知网络、3D目标感知网络和BEV(Bird's Eye View)目标感知网络等等。此外,为了进一步提高图像目标感知的鲁棒性,还可以利用特征金字塔网络构建特征提取网络,利用特征金字塔网络可以从图像帧上提取到不同尺度的图像特征,进而可以根据每个尺度的图像特征分别进行图像目标感知。
如图3所示,图像感知模型中的特征提取网络主要包括骨干网络(Backbone)和特征金字塔网络,特征金字塔网络与三个多任务网络连接,特征金字塔网络可以提取到三个不同尺度的图像特征并将每个尺度的图像特征分别输入至一个多任务网络。多任务网络包括深度估计网络和目标感知网络,目标感知网络包括2D目标感知网络、3D目标感知网络和BEV目标感知网络。在对图像感知模型进行图像深度估计的预训练时主要是利用多任务网络中的深度估计网络进行训练,并在完成预训练后移除这个深度估计网络;在对图像感知模型进行图像目标感知的最终训练时主要是利用目标感知网络进行训练。其中,BEV目标感知网络的输入数据并不是特征金字塔网络提取到的原始图像特征,而对是该原始图像特征进行处理形成的BEV图像特征。
在本发明实施例中通过试验比对可以确定,相比于未进行图像深度估计预训练的图像感知模型,进行了图像深度估计预训练的图像感知模型的性能指标得到了显著提升。例如,采用未进行图像深度估计预训练的图像感知模型进行BEV目标感知的AP(AveragePrecision)指标是34.0,而进行了图像深度估计预训练的图像感知模型的AP指标是37.9,提升了11.4%。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化之后的方案与本发明中描述的技术方案属于等同技术方案,因此也将落入本发明的保护范围之内。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种计算机设备。
参阅附图4,图4是根据本发明的一个计算机设备实施例的主要结构示意图。如图4所示,本发明实施例中的计算机设备主要包括存储装置和处理器,存储装置可以被配置成存储执行上述方法实施例的图像感知方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的图像感知方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。
在本发明实施例中计算机设备可以是包括各种电子设备形成的控制装置设备。在一些可能的实施方式中,计算机设备可以包括多个存储装置和多个处理器。而执行上述方法实施例的图像感知方法的程序可以被分割成多段子程序,每段子程序分别可以由处理器加载并运行以执行上述方法实施例的图像感知方法的不同步骤。具体地,每段子程序可以分别存储在不同的存储装置中,每个处理器可以被配置成用于执行一个或多个存储装置中的程序,以共同实现上述方法实施例的图像感知方法,即每个处理器分别执行上述方法实施例的图像感知方法的不同步骤,来共同实现上述方法实施例的图像感知方法。
上述多个处理器可以是部署于同一个设备上的处理器,例如上述计算机设备可以是由多个处理器组成的高性能设备,上述多个处理器可以是该高性能设备上配置的处理器。此外,上述多个处理器也可以是部署于不同设备上的处理器。
进一步,本发明还提供了一种计算机可读存储介质。
在根据本发明的一个计算机可读存储介质的实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的图像感知方法的程序,该程序可以由处理器加载并运行以实现上述图像感知方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,本发明还提供了一种车辆。
在根据本发明的一个车辆的实施例中,车辆可以包括上述计算机设备实施例所述的计算机设备。在本实施例中车辆可以是自动驾驶车辆、无人车等车辆。此外,按照动力源类型划分,本实施例中车辆可以是燃油车、电动车、电能与燃油混合的混动车或使用其他新能源的车辆等。
至此,已经结合附图所示的一个实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种图像感知方法,其特征在于,所述方法包括:
获取车辆采集到的图像帧;
采用图像感知模型对所述图像帧进行图像目标感知;
其中,所述图像感知模型通过下列方式训练得到:
获取车辆采集到的图像帧和点云帧;
根据所述点云帧获取所述图像帧的深度信息;
根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练,再根据所述图像帧及其图像目标标注信息对完成预训练的图像感知模型进行图像目标感知的最终训练。
2.根据权利要求1所述的图像感知方法,其特征在于,“根据所述点云帧获取所述图像帧的深度信息”的步骤具体包括:
针对每个图像帧,根据所述图像帧的时间戳与所述点云帧的时间戳,选取与所述图像帧时间距离最近的点云帧;
根据所述最近的点云帧,获取所述图像帧的深度信息。
3.根据权利要求2所述的图像感知方法,其特征在于,在“根据所述点云帧获取所述图像帧的深度信息”的步骤之前,所述方法还包括:
对所述最近的点云帧的位置进行矫正,以使所述最近的点云帧与所述图像帧扫描到的对象相同。
4.根据权利要求3所述的图像感知方法,其特征在于,“对所述最近的点云帧的位置进行矫正,以使所述最近的点云帧与所述图像帧扫描到的对象相同”的步骤具体包括:
获取所述图像帧的时间戳与所述点云帧的时间戳之间的时间间隔;
根据车辆的速度与所述时间间隔,获取所述图像帧的时间戳与所述点云帧的时间戳之间的位移;
根据所述位移,对所述最近的点云帧的位置进行矫正。
5.根据权利要求4所述的图像感知方法,其特征在于,“根据车辆的速度与所述时间间隔,获取所述图像帧的时间戳与所述点云帧的时间戳之间的位移”的步骤具体包括:
预测所述点云帧所属物体的移动速度;
根据车辆的速度、所述移动速度与所述时间间隔,获取所述位移。
6.根据权利要求4所述的图像感知方法,其特征在于,在“根据所述位移,对所述最近的点云帧的位置进行矫正”的步骤之后,所述方法还包括:
预测所述点云帧所属物体的移动速度;
根据所述移动速度与所述时间间隔,获取所述点云帧所属物体在所述图像帧的时间戳与所述点云帧的时间戳之间的移动位移;
根据所述移动位移,再次对所述最近的点云帧的位置进行矫正。
7.根据权利要求1至6中任一项所述的图像感知方法,其特征在于,“根据所述点云帧获取所述图像帧的深度信息”的步骤还包括:
将所述点云帧上的每个点云分别投影至所述图像帧,以获取每个点云在所述图像帧上的投影点的位置和深度;
根据所述投影点的位置和深度,获取所述图像帧的深度信息。
8.根据权利要求1所述的图像感知方法,其特征在于,在“根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练”的步骤之前,所述方法还包括通过下列方式构建所述图像感知模型:
分别构建特征提取网络、目标感知网络和深度估计网络,以形成所述图像感知模型;
其中,所述特征提取网络用于提取图像帧的图像特征,所述目标感知网络用于根据所述图像特征进行图像目标感知,所述深度估计网络用于根据所述图像特征估计图像帧上每个像素点位置处的深度。
9.根据权利要求8所述的图像感知方法,其特征在于,“根据所述图像帧及其深度信息对图像感知模型进行图像深度估计的预训练”的步骤具体包括:
根据所述图像帧及其深度信息,对所述图像感知模型进行图像深度估计的预训练,并在预训练完成后移除所述深度估计网络。
10.根据权利要求8所述的图像感知方法,其特征在于,所述方法还包括通过下列方式构建所述特征提取网络与所述目标感知网络:
构建一个特征金字塔网络,以形成所述特征提取网络;
构建多个目标感知网络,每个目标感知网络分别用于根据所述特征金字塔网络提取到的图像特征进行不同类型图像目标的感知。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211723089.5A CN116052100A (zh) | 2022-12-30 | 2022-12-30 | 图像感知方法、计算机设备、计算机可读存储介质及车辆 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211723089.5A CN116052100A (zh) | 2022-12-30 | 2022-12-30 | 图像感知方法、计算机设备、计算机可读存储介质及车辆 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116052100A true CN116052100A (zh) | 2023-05-02 |
Family
ID=86130726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211723089.5A Pending CN116052100A (zh) | 2022-12-30 | 2022-12-30 | 图像感知方法、计算机设备、计算机可读存储介质及车辆 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116052100A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612129A (zh) * | 2024-01-24 | 2024-02-27 | 苏州元脑智能科技有限公司 | 车辆动态感知方法、系统及动态感知模型训练方法 |
-
2022
- 2022-12-30 CN CN202211723089.5A patent/CN116052100A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117612129A (zh) * | 2024-01-24 | 2024-02-27 | 苏州元脑智能科技有限公司 | 车辆动态感知方法、系统及动态感知模型训练方法 |
CN117612129B (zh) * | 2024-01-24 | 2024-04-16 | 苏州元脑智能科技有限公司 | 车辆动态感知方法、系统及动态感知模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325796B (zh) | 用于确定视觉设备的位姿的方法和装置 | |
CN112132972B (zh) | 一种激光与图像数据融合的三维重建方法及系统 | |
CN112419494B (zh) | 用于自动驾驶的障碍物检测、标记方法、设备及存储介质 | |
CN111209770A (zh) | 一种车道线识别方法及装置 | |
CN111091023B (zh) | 一种车辆检测方法、装置及电子设备 | |
CN112753038B (zh) | 识别车辆变道趋势的方法和装置 | |
CN110667474B (zh) | 通用障碍物检测方法、装置与自动驾驶系统 | |
CN109816780B (zh) | 一种双目序列影像的输电线路三维点云生成方法及装置 | |
CN113240734B (zh) | 一种基于鸟瞰图的车辆跨位判断方法、装置、设备及介质 | |
CN112172797B (zh) | 泊车控制方法、装置、设备和存储介质 | |
CN112541938A (zh) | 一种行人速度测量方法、系统、介质及计算设备 | |
CN116052100A (zh) | 图像感知方法、计算机设备、计算机可读存储介质及车辆 | |
CN116978010A (zh) | 图像标注方法和装置、存储介质和电子设备 | |
CN113223064A (zh) | 一种视觉惯性里程计尺度的估计方法和装置 | |
WO2024001804A1 (zh) | 三维目标检测方法、计算机设备、存储介质及车辆 | |
CN111380529B (zh) | 移动设备定位方法、装置、系统及移动设备 | |
US20230368407A1 (en) | Drivable area detection method, computer device, storage medium, and vehicle | |
CN115661394A (zh) | 车道线地图的构建方法、计算机设备及存储介质 | |
CN116229011A (zh) | 一种基于空间数据融合和网格化的车辆感知训练方法 | |
CN116229448A (zh) | 三维目标检测方法、装置、设备及可读存储介质 | |
CN112364693B (zh) | 基于双目视觉的障碍识别方法、装置、设备及存储介质 | |
CN115984795A (zh) | 图像感知方法、计算机设备、计算机可读存储介质及车辆 | |
CN115965942B (zh) | 位置估计方法、车辆控制方法、设备、介质及车辆 | |
CN116152783B (zh) | 目标元素标注数据的获取方法、计算机设备及存储介质 | |
CN115965756B (zh) | 地图构建方法、设备、驾驶设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |