CN111627001B - 图像检测方法及装置 - Google Patents
图像检测方法及装置 Download PDFInfo
- Publication number
- CN111627001B CN111627001B CN202010449279.7A CN202010449279A CN111627001B CN 111627001 B CN111627001 B CN 111627001B CN 202010449279 A CN202010449279 A CN 202010449279A CN 111627001 B CN111627001 B CN 111627001B
- Authority
- CN
- China
- Prior art keywords
- target
- dimensional
- image
- data
- shape data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 343
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000013507 mapping Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102100034112 Alkyldihydroxyacetonephosphate synthase, peroxisomal Human genes 0.000 description 1
- 101000799143 Homo sapiens Alkyldihydroxyacetonephosphate synthase, peroxisomal Proteins 0.000 description 1
- SAZUGELZHZOXHB-UHFFFAOYSA-N acecarbromal Chemical compound CCC(Br)(CC)C(=O)NC(=O)NC(C)=O SAZUGELZHZOXHB-UHFFFAOYSA-N 0.000 description 1
- 238000000848 angular dependent Auger electron spectroscopy Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/62—Analysis of geometric attributes of area, perimeter, diameter or volume
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
- G06V20/584—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
本公开提供了一种图像检测方法、行驶控制方法、装置、电子设备及存储介质,该方法包括:获取待检测图像;对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据,并确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
Description
技术领域
本公开涉及图像检测技术领域,具体而言,涉及一种图像检测方法、行驶控制方法、装置、电子设备及存储介质。
背景技术
单目三维3D目标检测是计算机视觉领域中最基础的问题之一,对于单个视角的目标图像,单目3D检测的任务是从目标图像中检测出目标对象的3D位姿信息。单目3D目标检测可以应用于位置估计、场景建模等任务,因此,设计一种准确度较高的单目3D检测方法至关重要。
单目3D检测方法的关键在于3D候选框的生成,一般的,可以根据二维2D检测结果生成3D候选框,但是在具体实施时,2D检测结果存在对应二维检测框被遮挡、被截断、模糊的情况,使得基于2D检测结果得到的3D候选框的准确度较低。
发明内容
有鉴于此,本公开至少提供一种图像检测方法、行驶控制方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种图像检测方法,包括:
获取待检测图像;
对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;
确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
由于多种平均形状数据能够更全面地表征待检测图像,在基于待检测图像和多种平均形状数据,确定目标对象对应的目标三维位姿数据时,可以较准确的确定目标对象对应的三维检测数据,提高图像检测的精确度。
一种可能的实施方式中,所述基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
上述实施方式下,通过从特征图中截取得到目标特征图,可以将特征图中的背景部分筛除,保留目标对象的特征图,从而基于目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据时,可以提高得到的三维检测数据的精确度。
一种可能的实施方式中,确定与所述二维检测数据对应的形状数据集,包括:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
上述实施方式中,预先确定不同对象类别分别对应的形状数据集,形状数据集中包括多种平均形状数据,在得到二维检测数据后,可以基于二维检测数据指示的对象类别,从预先确定的不同对象类别对应的形状数据集中,选择目标对象类别对应的形状数据集,进而较快地得到二维检测数据对应的形状数据集。
一种可能的实施方式中,根据以下步骤预先确定不同对象类别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
上述实施方式下,通过基于目标对象的真实高度,得到对象类别下的多个图像集合,进而基于该对象类别下的各个图像集合对应的平均形状数据,确定该对象类别对应的形状数据集,为后续确定目标对象的三维检测数据提供了数据支持。
一种可能的实施方式中,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,包括:
基于该图像集合内各个图像中目标对象的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
这里,每个对象类别下多个图像集合中,将每个图像集合对应的平均三维尺寸、以及宽度信息与深度信息之间的映射关系作为该图像集合对应的平均形状数据,这样,通过基于设置的同一对象类别下多种先验形状信息(即设置的多种平均形状数据)以及待检测图像,确定三维检测数据时,可以提高三维检测数据的准确度。
一种可能的实施方式中,基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:
基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
在上述实施方式中,可以基于得到的每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象的三维检测数据,由于考虑了不同平均形状数据所对应的残差信息的置信度,可以提高得到的三维检测数据的准确度。
一种可能的实施方式中,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
上述实施方式下,可以先通过残差信息对对应的平均形状数据进行调整,在根据残差信息的置信度,确定三维检测数据,或者,也可以先根据残差信息的置信度确定目标残差信息以及目标平均形状数据,在利用目标残差信息对目标平均形状数据进行调整,得到三维检测数据,可以减少形状调整过程的运算量。
一种可能的实施方式中,基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据,包括:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
第二方面,本公开提供了一种行驶控制方法,包括:
获取行驶装置在行驶过程中采集的道路图像;
利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
以下装置、电子设备等的效果描述参见上述方法的说明,这里不再赘述。
第三方面,本公开提供了一种图像检测装置,包括:
图像获取模块,用于获取待检测图像;
目标检测模块,用于对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
三维检测数据确定模块,用于基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
三维位姿数据确定模块,用于基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
一种可能的实施方式中,所述三维检测数据确定模块,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述目标检测模块,在确定与所述二维检测数据对应的形状数据集时,用于:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
一种可能的实施方式中,所述装置还包括形状数据集确定模块,所述形状数据集确定模块,用于根据以下步骤预先确定不同对象类别分别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
一种可能的实施方式中,所述形状数据集确定模块,在基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据时,用于:
基于该图像集合内各个图像中目标对象的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
一种可能的实施方式中,所述三维检测数据确定模块,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维位姿数据确定模块,在基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据时,用于:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
第四方面,本公开提供了一种行驶控制装置,包括:
道路图像获取模块,用于获取行驶装置在行驶过程中采集的道路图像;
图像检测模块,用于利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
控制模块,用于基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
第五方面,本公开提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的图像检测方法的步骤,或执行如第二方面所述的行驶控制方法的步骤。
第六方面,本公开提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的图像检测方法的步骤,或执行如第二方面所述的行驶控制方法的步骤。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种图像检测方法的流程示意图;
图2示出了本公开实施例所提供的一种图像检测方法中,预先确定不同对象类别分别对应的形状数据集的方式的流程示意图;
图3示出了本公开实施例所提供的一种行驶控制方法的流程示意图;
图4示出了本公开实施例所提供的一种图像检测装置的架构示意图;
图5示出了本公开实施例所提供的一种行驶控制装置的架构示意图;
图6示出了本公开实施例所提供的一种电子设备600的结构示意图;
图7示出了本公开实施例所提供的另一种电子设备700的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
一般的,可以将根据二维2D检测结果和目标先验信息,生成3D候选框;比如,可以根据2D检测结果中包括的二维检测框的尺寸、位置信息以及预设的三维检测框的形状,生成对应的3D候选框,使得生成的3D候选框的尺寸与2D检测框的尺寸相匹配。但是,得到的二维检测框存在被遮挡、被截断、或者模糊的情况,使得基于2D检测结果和目标先验信息得到的3D候选框的准确度较低。
为了提高目标对象的三维位姿数据的准确度,本公开实施例提供了一种图像检测方法。
其中,本公开实施例提供的一种图像检测方法可以应用于终端设备、服务器中等。服务器可以是本地服务器也可以是云端服务器等,终端设备可以是智能手机、平板电脑、车载系统等,本公开对此并不限定。下述以该方法应用于服务器为例进行说明。
为便于对本公开实施例进行理解,首先对本公开实施例所公开的一种图像检测方法进行详细介绍。
参见图1所示,为本公开实施例所提供的一种图像检测方法的流程示意图,该方法包括S101-S104,其中:
S101,获取待检测图像;
S102,对待检测图像进行目标检测,确定待检测图像中目标对象的二维检测数据;确定与二维检测数据对应的形状数据集;形状数据集中包括目标对象所属对象类别下的多种平均形状数据;
S103,基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据;
S104,基于三维检测数据以及二维检测数据,确定目标对象对应的目标三维位姿数据。
上述方法中,由于多种平均形状数据能够更全面地表征待检测图像,在基于待检测图像和多种平均形状数据,确定目标对象对应的目标三维位姿数据时,可以较准确的确定目标对象对应的三维检测数据,提高图像检测的精确度。
下述对S101-S104进行详细说明。
针对S101:
待检测图像可以为包括目标对象的任一图像,目标对象可以为行人、自行车、摩托车、汽车、宠物等。待检测图像可以为图像获取装置实时获取到的图像,也可以为存储装置中存储的图像。
针对S102:
可以对待检测图像进行目标检测,确定待检测图像中包括的每个目标对象的二维检测数据,其中,二维检测数据可以包括目标对象对应的二维检测框的长度和宽度、二维检测框的中心点的坐标信息、目标对象的目标对象类别、三维检测框中心点在二维平面上的投影点的坐标信息、目标对象的朝向角(即目标对象的三维检测框的基准面与设置的基准线的夹角)。
一种可选实施方式中,确定与二维检测数据对应的形状数据集,可以包括:
基于二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定二维检测数据对应的形状数据集。
预先确定的不同对象类别分别对应的形状数据集可以包括汽车类别对应的形状数据集、行人类别对应的形状数据集、宠物类别对应的形状数据集、自行车类别对应的形状数据集等,其中,不同对象类别对应的类别种类以及类别数量可以根据实际情况进行设置,此处仅为示例性说明。
比如,若目标对象的目标对象类别为汽车类别,则可以从预先确定的不同对象类别对应的形状数据集中确定汽车类别对应的形状数据集,其中,形状数据集中包括汽车对应的多种平均形状数据,每种平均形状数据对应汽车的三维检测框的一个平均形状。
上述实施方式中,预先确定不同对象类别对应的形状数据集,形状数据集中包括多种平均形状数据,在得到二维检测数据后,可以基于二维检测数据指示的目标对象的目标对象类别,从预先确定的不同对象类别对应的形状数据集中,选择目标对象类别对应的形状数据集进而较快的得到二维检测数据对应的形状数据集。
一种可选实施方式中,参见图2所示,可以根据以下步骤预先确定不同对象类别分别对应的形状数据集:
S201,针对每种对象类别,获取该对象类别下的多个图像。
S202,基于多个图像中目标对象的真实高度,将多个图像划分为多个图像集合。
S203,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成对象类别下的形状数据集。
对S201进行说明,比如,对象类别为汽车时,则获取包括不同汽车类型的多个图像,每个图像中标注有对应汽车的真实尺寸,即包括汽车对应的三维检测框的长度、宽度以及高度。
对S202进行说明,可以使用聚类分析算法,基于多个图像中目标对象的真实高度,将多个图像划分为多个图像集合。比如,可以设置划分的图像集合的数量,假设设置的图像集合的数量为7个,基于多个图像中目标对象的真实高度,将包含的目标对象的真实高度之间的差值小于设置的差值阈值的图像划分在一个图像集合中,得到7个图像集合。可以为不同的对象类别设置不同的图像集合的数量,比如,汽车类别对应的图像集合的数量可以为7个,行人类别对应的图像集合的数量可以为10个等,或者,也可以为不同的对象类别设置相同的图像集合的数量,比如,汽车类别和行人类别对应的图像集合的数量可以均为7。这里,得到多个图像集合的方式有多种,此处仅为示例性说明。
这里,可以为每个图像集合设置一个形状类别,比如,汽车类别下有6个图像集合,基于每个图像集合中汽车的真实尺寸信息,6个图像集合的形状类别可以为微型车、小型车、紧凑型车、中型车、中大型车、大型车。或者,6个图像集合的形状类别可以为第一类别、第二类别、第三类别、第四类别、第五类别、第六类别。其中,每个对象类别对应的形状类别可以根据实际情况进行设置,此处仅为示例性说明。
对S203进行说明,针对每个图像集合,基于该图像集合中每个图像中的目标对象的形状数据,确定该图像集合对应的平均形状数据。并将各个图像集合对应的平均形状数据,组成对象类别下的形状数据集。
上述实施方式中,通过基于目标对象的真实高度,得到对象类别下的多个图像集合,进而基于该对象类别对应的各个图像集合对应的形状数据,确定该对象类别对应的形状数据集,为后续确定目标对象的三维检测数据提供了数据支持。
一种可选实施方式中,S203中,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,包括:
基于该图像集合内各个图像中目标对象对应的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,分别得到该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立得到的宽度信息与对应的深度信息之间的映射关系;
将平均三维尺寸以及映射关系,作为图像集合对应的平均形状数据。
这里,目标对象的形状数据包括目标对象的三维检测框的真实三维尺寸,真实三维尺寸包括真实长度、真实宽度、以及真实高度。图像集合对应的平均形状数据包括该图像集合对应的平均三维尺寸、以及宽度信息与对应的深度信息之间的映射关系,平均三维尺寸包括平均长度、平均宽度、以及平均高度。
将该图像集合内各个图像中目标对象的真实高度求平均,得到平均高度;将该图像集合内各个图像中目标对象的真实长度求平均,得到平均长度;将该图像集合内各个图像中目标对象的真实宽度求平均,得到平均宽度,即得到该图像集合对应的目标对象的平均三维尺寸。
在得到该图像集合对应的目标对象的平均三维尺寸之后,将平均三维尺寸下的目标对象置于不同深度信息指示的深度位置后,可以根据固定位置处的摄像设备获取的二维图像,确定每个深度位置处目标对象的三维框(该三维框可以为由平均三维尺寸构成的检测框)在二维图像平面的投影包围框的宽度信息,进而可以通过拟合的方式得到宽度信息与对应的深度信息之间的映射关系,其中,该宽度信息为目标对象的三维框(可以由平均三维尺寸构成)在二维图像平面的投影包围框的宽度,深度信息为该目标对象在真实场景中距离摄像设备的深度。比如,宽度信息与对应的深度信息之间的映射关系可以为:
其中,z3d为深度信息,h2d为宽度信息,a、b为参数信息。
将平均三维尺寸以及映射关系确定为该图像集合对应的平均形状数据,进而,根据各个图像集合分别对应的平均形状数据,得到对象类别下的形状数据集。
上述实施方式中,每个对象类别下多个图像集合中,将每个图像集合对应的平均三维尺寸、以及宽度信息与深度信息之间的映射关系作为该图像集合对应的平均形状数据,这样,通过基于设置的同一对象类别下多种先验形状信息(即设置的多种平均形状数据)以及待检测图像,确定三维检测数据时,可以提高三维检测数据的准确度。
在具体实施时,基于二维检测数据指示的目标对象的目标对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定二维检测数据对应的形状数据集,可以包括:一、基于二维检测数据指示的目标对象的目标对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定与目标对象类别对应的目标形状数据集;目标形状数据集中包括多种平均三维尺寸和对应的映射关系;二、针对每种平均三维尺寸对应的映射关系,以及二维检测数据指示的二维检测框的宽度信息,确定与每种平均三维尺寸对应的深度信息;三、将多种平均三维尺寸和对应的深度信息作为二维检测数据对应的形状数据集。
可以基于二维检测数据中的目标对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定目标对象类别对应的目标形状数据集,目标形状数据集中包括多种平均形状数据,每种平均形状数据包括平均三维尺寸以及对应的映射关系。比如,若目标对象类别可以为汽车,则从预先确定的不同对象类别分别对应的形状数据集中,确定汽车类别对应的目标形状数据集,目标形状数据集中包括多种平均形状数据,每种平均形状数据包括汽车类别对应的平均三维尺寸以及对应的映射关系。
将二维检测数据指示的二维检测框的宽度信息输入至每种平均三维尺寸对应的映射关系中,得到每种平均三维尺寸对应的深度信息。再将多种平均三维尺寸和对应的深度信息作为二维检测数据对应的形状数据集。
上述实施方式中,可以基于二维检测数据指示的目标对象的目标对象类别,确定平均三维尺寸以及映射关系,并根据映射关系以及二维检测框的宽度,可以得到目标对象对应的深度信息,进而得到二维检测数据对应的形状数据集,为后续得到三维检测数据提供了数据支持。
针对S103:
这里,可以基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据,其中,三维检测数据可以包括目标对象的三维检测框的长度、宽度以及高度、三维检测框的目标形状类别、以及三维检测框的深度,三维检测框的深度可以为三维检测框的中心点对应的深度,即三维检测框的深度可以为三维检测框的中心点在相机坐标系中Z轴(相机光轴)方向对应的坐标值。
一种可选实施方式中,对待检测图像进行目标检测,确定待检测图像中目标对象的二维检测数据,可以包括:对待检测图像进行特征提取,生成待检测图像的特征图;基于待检测图像的特征图,确定待检测图像中目标对象的二维检测数据。
这里,可以利用至少一层卷积层对待检测图像进行特征提取,得到待检测图像的特征图,进而可以基于待检测图像的特征图,确定待检测图像中目标对象的二维检测数据。
一种可选实施方式中,基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据,可以包括:
基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从待检测图像对应的特征图中截取目标对象对应的目标特征图;
基于目标对象对应的目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据。
这里,可以先基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从待检测图像的特征图中截取目标对象对应的目标特征图,其中,目标特征图的中心点与二维检测框中心点相匹配,目标特征图的尺寸与二维检测框的尺寸(二维检测框的长度和宽度)相匹配。进而可以基于目标对象对应的目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据。
示例性的,可以先将待检测图像对应的特征图进行标准卷积处理,得到第一中间特征图,以及将待检测图像对应的特征图进行深度感知卷积处理,得到第二中间特征图,将第一中间特征图和第二中间特征图进行卷积处理或者级联处理,得到待检测图像对应的处理后的特征图;在基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从处理后的特征图中截取目标对象对应的目标特征图。
上述实施方式中,通过从特征图中截取得到目标特征图,可以将特征图中的背景部分筛除,保留目标对象的特征图,使得基于目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据时,可以提高得到的三维检测数据的精确度。
一种可选实施方式中,基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据,包括:
基于待检测图像和多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象对应的三维检测数据。
这里,还可以基于待检测图像中目标对象对应的目标特征图和多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;其中,多种平均形状数据中各种平均形状数据对应的残差信息的置信度之和可以为1。进而根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象对应的三维检测数据。
上述实施方式中,可以基于得到的每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象的三维检测数据,由于考虑了不同平均形状数据所对应的残差信息的置信度,可以提高得到的三维检测数据的准确度。
一种可选实施方式中,根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象对应的三维检测数据,可以包括:
方式一、针对每种平均形状数据,利用该平均形状数据对应的残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度。
根据每种平均形状数据对应的残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为目标对象的目标形状类别。
将目标三维尺寸、目标深度以及目标形状类别确定为目标对象对应的三维检测数据。
方式二、从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定目标残差信息对应的目标平均形状数据,并将目标平均形状数据的形状类别作为目标对象的目标形状类别。
利用目标残差信息指示的尺寸调整值对目标平均形状数据中的平均三维尺寸进行调整,得到目标平均形状数据对应的调整后的目标三维尺寸,以及利用目标残差信息指示的深度调整值对目标平均形状数据中的深度信息进行调整,得到目标平均形状数据对应的调整后的目标深度。
将目标三维尺寸、目标深度以及目标形状类别确定为目标对象对应的三维检测数据。
方式一中,可以先根据每种平均形状数据对应的残差信息,对该平均形状数据中的平均三维尺寸以及深度信息进行调整,得到每种平均形状数据对应的候选三维尺寸以及候选深度。再根据每种平均形状数据对应的残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为目标对象的目标形状类别,进而得到目标对象对应的三维检测数据。
方式二中,可以先从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定目标残差信息对应的目标平均形状数据,并将目标平均形状数据的形状类别作为目标对象的目标形状类别。再利用目标残差信息对目标平均形状数据进行调整,得到目标三维尺寸以及目标深度,进而得到目标对象对应的三维检测数据。
上述实施方式中,可以先通过残差信息对对应的平均形状数据进行调整,再根据残差信息的置信度,确定三维检测数据,或者,也可以先根据残差信息的置信度确定目标残差信息以及目标平均形状数据,在利用目标残差信息对目标平均形状数据进行调整,得到三维检测数据,可以减少形状调整过程的运算量。
针对S104:
这里可以将二维检测数据以及三维检测数据,确定为目标对象对应的目标三维位姿数据。也可以从二维检测数据中获取目标数据,将获取的目标数据以及三维检测数据,确定为目标对象对应的目标三维位姿数据。目标数据可以包括三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别。
一种可选实施方式中,基于三维检测数据以及二维检测数据,确定目标对象对应的目标三维位姿数据,包括:
从二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别;
将三维检测数据中的目标三维尺寸、目标深度、和目标形状类别,以及从二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别,确定为目标对象对应的目标三维位姿数据。
这里,目标三维位姿数据包括目标三维尺寸(目标对象的三维检测框的长度、宽度以及高度)、目标深度(可以为三维检测框的中心点在相机坐标系中Z轴方向对应的坐标值)、和目标形状类别,以及从二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别。
示例性的,可以使用图像检测神经网络对待检测图像进行检测,得到目标对象对应的目标三维位姿数据。图像检测神经网络可以包括特征提取器、二维检测器、三维候选检测框生成器、三维回归器。
具体实施时,将待检测图像输入至图像检测神经网络中,特征提取器可以对待检测图像进行特征提取,生成待检测图像对应的特征图;二维检测器对待检测图像对应的特征图进行检测,得到待检测图像中目标对象的二维检测数据;将二维检测数据中的目标对象类别以及二维检测框的宽度输入至三维候选检测框生成器中,确定二维检测数据对应的形状数据集,并将二维检测数据对应的形状数据集输入至三维回归器中;同时,可以根据二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从待检测图像的特征图中截取得到目标对象对应的目标特征图,将得到的目标特征图输入至三维回归器中,三维回归器根据目标特征图、以及二维检测数据对应的形状数据集,确定目标对象对应的三维检测数据,最后得到目标对象对应的目标三维位姿数据。
通过将待检测图像输入至图像检测神经网络中,得到待检测图像中每个目标对象对应的目标三维位姿数据,由于图像检测神经网络为端到端的双阶段网络模型,图像检测神经网络对应的损失较少,相比于单阶段的网络模型和/或非端对端的网络模型,能够较为准确的得到目标对象对应的目标三维位姿数据。
基于相同的构思,本公开实施例还提供了一种行驶控制方法,参见图3所示,为本公开实施例所提供的行驶控制方法的流程示意图,该方法包括S301-S303,其中:
S301,获取行驶装置在行驶过程中采集的道路图像;
S302,利用上述实施例所述的图像检测方法对道路图像进行检测,得到道路图像中包括的目标对象的目标三维位姿数据;
S303,基于道路图像中包括的目标对象的目标三维位姿数据,控制行驶装置。
示例性的,行驶装置可以为自动驾驶车辆、装有高级驾驶辅助系统(AdvancedDriving Assistance System,ADAS)的车辆、或者机器人等。道路图像可以为行驶装置在行驶过程中实时采集到的图像。目标对象可以为道路中可以能出现的任一物体和/或、任一对象。比如,目标对象可以为出现在道路上的动物、行人等,也可以为道路上的其他车辆(包括机动车辆和非机动车辆)等。
其中,在控制行驶装置时,可以控制行驶装置加速、减速、转向、制动等,或者可以播放语音提示信息,以提示驾驶员控制行驶装置加速、减速、转向、制动等。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于相同的构思,本公开实施例还提供了一种图像检测装置,参见图4所示,为本公开实施例提供的图像检测装置的架构示意图,包括图像获取模块401、目标检测模块402、三维检测数据确定模块403、三维位姿数据确定模块404、以及形状数据集确定模块405,具体的:
图像获取模块401,用于获取待检测图像;
目标检测模块402,用于对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
三维检测数据确定模块403,用于基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
三维位姿数据确定模块404,用于基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
一种可能的实施方式中,所述三维检测数据确定模块403,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述目标检测模块402,在确定与所述二维检测数据对应的形状数据集时,用于:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
一种可能的实施方式中,所述装置还包括形状数据集确定模块405,所述形状数据集确定模块405,用于根据以下步骤预先确定不同对象类别分别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
一种可能的实施方式中,所述形状数据集确定模块405,在基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据时,用于:
基于该图像集合内各个图像中目标对象对应的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
一种可能的实施方式中,所述三维检测数据确定模块403,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块403,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维位姿数据确定模块404,在基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据时,用于:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
基于相同的构思,本公开实施例还提供了一种行驶控制装置,参见图5所示,为本公开实施例提供的行驶控制装置的架构示意图,包括道路图像获取模块501、图像检测模块502、控制模块503,具体的:
道路图像获取模块501,用于获取行驶装置在行驶过程中采集的道路图像;
图像检测模块502,用于利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
控制模块503,用于基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
基于同一技术构思,本公开实施例还提供了一种电子设备。参照图6所示,为本公开实施例提供的电子设备600的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当电子设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:
获取待检测图像;
对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
基于同一技术构思,本公开实施例还提供了另一种电子设备。参照图7所示,为本公开实施例提供的电子设备700的结构示意图,包括处理器701、存储器702、和总线703。其中,存储器702用于存储执行指令,包括内存7021和外部存储器7022;这里的内存7021也称内存储器,用于暂时存放处理器701中的运算数据,以及与硬盘等外部存储器7022交换的数据,处理器701通过内存7021与外部存储器7022进行数据交换,当电子设备700运行时,处理器701与存储器702之间通过总线703通信,使得处理器701在执行以下指令:
获取行驶装置在行驶过程中采集的道路图像;
利用上述实施例所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
此外,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的图像检测方法的步骤,或执行上述方法实施例中所述的行驶控制方法的步骤。
本公开实施例所提供的图像检测方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的图像检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例所提供的行驶控制方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的行驶控制方法的步骤,具体可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。
Claims (13)
1.一种图像检测方法,其特征在于,包括:
获取待检测图像;
对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;
确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据;
基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
3.根据权利要求1所述的方法,其特征在于,确定与所述二维检测数据对应的形状数据集,包括:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
4.根据权利要求3所述的方法,其特征在于,根据以下步骤预先确定不同对象类别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
5.根据权利要求4所述的方法,其特征在于,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,包括:
基于该图像集合内各个图像中目标对象的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
6.根据权利要求1所述的方法,其特征在于,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
7.根据权利要求1所述的方法,其特征在于,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
8.根据权利要求7所述的方法,其特征在于,基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据,包括:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
9.一种行驶控制方法,其特征在于,包括:
获取行驶装置在行驶过程中采集的道路图像;
利用权利要求1至8任一项所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
10.一种图像检测装置,其特征在于,包括:
图像获取模块,用于获取待检测图像;
目标检测模块,用于对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
三维检测数据确定模块,用于基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
三维位姿数据确定模块,用于基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据;
三维检测数据确定模块,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
11.一种行驶控制装置,其特征在于,包括:
道路图像获取模块,用于获取行驶装置在行驶过程中采集的道路图像;
图像检测模块,用于利用权利要求1至8任一项所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
控制模块,用于基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
12.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至8任一所述的图像检测方法的步骤,或执行如权利要求9所述的行驶控制方法的步骤。
13.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至8任一所述的图像检测方法的步骤,或执行如权利要求9所述的行驶控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449279.7A CN111627001B (zh) | 2020-05-25 | 2020-05-25 | 图像检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010449279.7A CN111627001B (zh) | 2020-05-25 | 2020-05-25 | 图像检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111627001A CN111627001A (zh) | 2020-09-04 |
CN111627001B true CN111627001B (zh) | 2024-05-17 |
Family
ID=72259103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010449279.7A Active CN111627001B (zh) | 2020-05-25 | 2020-05-25 | 图像检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627001B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418243A (zh) * | 2020-10-28 | 2021-02-26 | 北京迈格威科技有限公司 | 特征提取方法、装置及电子设备 |
CN112926395A (zh) * | 2021-01-27 | 2021-06-08 | 上海商汤临港智能科技有限公司 | 目标检测方法、装置、计算机设备及存储介质 |
CN112818845A (zh) * | 2021-01-29 | 2021-05-18 | 深圳市商汤科技有限公司 | 测试方法、目标对象检测方法、行驶控制方法及装置 |
CN113012227B (zh) * | 2021-03-23 | 2022-09-20 | 华南理工大学 | 基于深度估计与类内平均形状的室内物体位姿估计方法 |
CN113095184B (zh) * | 2021-03-31 | 2023-01-31 | 上海商汤临港智能科技有限公司 | 定位方法、行驶控制方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214980A (zh) * | 2017-07-04 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 一种三维姿态估计方法、装置、设备和计算机存储介质 |
CN109872366A (zh) * | 2019-02-25 | 2019-06-11 | 清华大学 | 基于深度拟合程度评估网络的物体三维位置检测方法和装置 |
CN110826499A (zh) * | 2019-11-08 | 2020-02-21 | 上海眼控科技股份有限公司 | 物体空间参数检测方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9754192B2 (en) * | 2014-06-30 | 2017-09-05 | Microsoft Technology Licensing, Llc | Object detection utilizing geometric information fused with image data |
CN108229307B (zh) * | 2017-11-22 | 2022-01-04 | 北京市商汤科技开发有限公司 | 用于物体检测的方法、装置和设备 |
US11295532B2 (en) * | 2018-11-15 | 2022-04-05 | Samsung Electronics Co., Ltd. | Method and apparatus for aligning 3D model |
-
2020
- 2020-05-25 CN CN202010449279.7A patent/CN111627001B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109214980A (zh) * | 2017-07-04 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 一种三维姿态估计方法、装置、设备和计算机存储介质 |
CN109872366A (zh) * | 2019-02-25 | 2019-06-11 | 清华大学 | 基于深度拟合程度评估网络的物体三维位置检测方法和装置 |
CN110826499A (zh) * | 2019-11-08 | 2020-02-21 | 上海眼控科技股份有限公司 | 物体空间参数检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111627001A (zh) | 2020-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111627001B (zh) | 图像检测方法及装置 | |
CN110163930B (zh) | 车道线生成方法、装置、设备、系统及可读存储介质 | |
CN111209770B (zh) | 一种车道线识别方法及装置 | |
US10789719B2 (en) | Method and apparatus for detection of false alarm obstacle | |
CN104833370B (zh) | 用于映射、定位和位姿校正的系统和方法 | |
WO2021196941A1 (zh) | 三维目标检测方法及装置 | |
CN111539484B (zh) | 训练神经网络的方法及装置 | |
WO2018170472A1 (en) | Joint 3d object detection and orientation estimation via multimodal fusion | |
CN111582054B (zh) | 点云数据处理方法及装置、障碍物检测方法及装置 | |
US20150036887A1 (en) | Method of determining a ground plane on the basis of a depth image | |
CN110119679B (zh) | 物体三维信息估计方法及装置、计算机设备、存储介质 | |
CN111295667B (zh) | 图像立体匹配的方法和辅助驾驶装置 | |
US10657396B1 (en) | Method and device for estimating passenger statuses in 2 dimension image shot by using 2 dimension camera with fisheye lens | |
JP2020126636A (ja) | 自動駐車システム内のセマンティックセグメンテーションを利用した駐車領域を検出するための方法及び装置 | |
CN114913506A (zh) | 一种基于多视角融合的3d目标检测方法及装置 | |
CN112883790A (zh) | 一种基于单目摄像头的3d物体检测方法 | |
CN116168384A (zh) | 点云目标检测方法、装置、电子设备及存储介质 | |
CN117274605B (zh) | 一种从无人机拍摄的照片中提取水域轮廓的方法及装置 | |
EP3629292A1 (en) | Reference point selection for extrinsic parameter calibration | |
CN114120266A (zh) | 车辆变道检测方法、装置、电子设备及存储介质 | |
CN114743001B (zh) | 语义分割方法、装置、电子设备及存储介质 | |
US11884303B2 (en) | Apparatus and method for determining lane change of surrounding objects | |
CN115346191A (zh) | 用于校准的方法和设备 | |
CN111695379B (zh) | 基于立体视觉的地面分割方法、装置、车载设备及存储介质 | |
WO2023281647A1 (ja) | 機械学習装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |