CN115511870A - 对象检测方法、装置、电子设备和存储介质 - Google Patents
对象检测方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN115511870A CN115511870A CN202211290807.4A CN202211290807A CN115511870A CN 115511870 A CN115511870 A CN 115511870A CN 202211290807 A CN202211290807 A CN 202211290807A CN 115511870 A CN115511870 A CN 115511870A
- Authority
- CN
- China
- Prior art keywords
- image
- object detection
- detected
- matrix
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 75
- 238000005070 sampling Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 108010001267 Protein Subunits Proteins 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/08—Projecting images onto non-planar surfaces, e.g. geodetic screens
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种对象检测方法、装置、电子设备和存储介质,可以应用于人工智能技术领域和自动驾驶技术领域。该方法包括:获取待检测图像,其中,待检测图像由目标相机拍摄得到,待检测图像的图像数据包括颜色域数据和深度数据;对颜色域数据进行特征提取,得到第一图像特征;利用目标相机的相机参数处理深度数据,得到第二图像特征;以及将第一图像特征和第二图像特征输入对象检测模型中,得到待检测图像的对象检测结果。
Description
技术领域
本公开涉及人工智能技术领域和自动驾驶技术领域,更具体地,涉及一种对象检测方法、装置、电子设备、存储介质和计算机程序产品。
背景技术
在自动驾驶场景下,自动驾驶车辆不仅需要识别障碍物的类型,还需要识别障碍物的精确位置和朝向,以提供信息给规划控制模块,规划出合理的路线。由于自动驾驶车辆通常使用相机作为信息获取端,因此,在进行障碍物识别之前,不可避免地要对相机拍摄的图像中的三维对象进行检测。
在相关技术中,图像中三维对象的检测通常是基于图像的语义信息进行的,相机参数未参与模型的训练。因此,相关技术中的对象检测模型无法修正不同相机之间的相机参数的差异,其检测精度较低。
发明内容
有鉴于此,本公开提供了一种对象检测方法、装置、电子设备、可读存储介质和计算机程序产品。
本公开的一个方面提供了一种对象检测方法,包括:
获取待检测图像,其中,上述待检测图像由目标相机拍摄得到,上述待检测图像的图像数据包括颜色域数据和深度数据;对上述颜色域数据进行特征提取,得到第一图像特征;利用上述目标相机的相机参数处理上述深度数据,得到第二图像特征;以及将上述第一图像特征和上述第二图像特征输入对象检测模型中,得到上述待检测图像的对象检测结果。
根据本公开的实施例,上述利用上述目标相机的相机参数处理上述深度数据,得到第二图像特征,包括:基于上述深度数据,生成与上述待检测图像对应的视锥体;以及基于上述目标相机的相机参数,对上述视锥体进行投影处理,得到上述第二图像特征。
根据本公开的实施例,上述基于上述目标相机的相机参数,对上述视锥体进行投影处理,得到上述第二图像特征,包括:对上述视锥体进行网格采样,得到采样矩阵;对于上述采样矩阵中的每一个矩阵元素,基于上述相机参数来将上述矩阵元素投影到预设坐标系中,得到与上述矩阵元素对应的坐标值;以及基于分别与上述采样矩阵的多个上述矩阵元素一一对应的多个上述坐标值,确定上述第二图像特征。
根据本公开的实施例,上述采样矩阵中的上述矩阵元素为列向量;其中,上述基于上述相机参数来将上述矩阵元素投影到预设坐标系中,得到与上述矩阵元素对应的坐标值,包括:基于上述相机参数,生成投影矩阵,其中,上述投影矩阵的维度与上述矩阵元素的维度相等;以及将上述矩阵元素与上述投影矩阵的逆矩阵相乘,得到上述坐标值。
根据本公开的实施例,上述将上述第一图像特征和上述第二图像特征输入对象检测模型中,得到上述待检测图像的对象检测结果,包括:对上述第一图像特征和上述第二图像特征进行特征融合,得到第三图像特征;将上述第三图像特征输入上述对象检测模型中,得到输出特征;以及对上述输出特征进行解码,得到上述待检测图像的对象检测结果。
根据本公开的实施例,上述对上述第一图像特征和上述第二图像特征进行特征融合,得到第三图像特征,包括:将上述第一图像特征和上述第二图像特征按通道维度进行拼接,以得到上述第三图像特征。
本公开的另一个方面提供了一种对象检测装置,包括:
获取模块,用于获取待检测图像,其中,上述待检测图像由目标相机拍摄得到,上述待检测图像的图像数据包括颜色域数据和深度数据;特征提取模块,用于对上述颜色域数据进行特征提取,得到第一图像特征;处理模块,用于利用上述目标相机的相机参数处理上述深度数据,得到第二图像特征;以及检测模块,用于将上述第一图像特征和上述第二图像特征输入对象检测模型中,得到上述待检测图像的对象检测结果。
本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个指令,其中,当上述一个或多个指令被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序产品,上述计算机程序产品包括计算机可执行指令,上述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,在对目标相机拍摄的待检测图像进行对象检测时,利用目标相机的相机参数处理待检测图像的深度数据,以将相机参数嵌入位置信息中,得到第二图像特征,并将第二图像特征与基于待检测图像的颜色域数据提取得到的第一图像特征输入到对象检测模型中,得到对象检测结果,使得对象检测模型实现了对相机参数的感知,可以取得更好的预测表现。通过上述技术手段,至少部分地克服了相关技术中因对象检测模型无法修正不同相机之间的相机参数的差异而导致的对象检测精度较低的技术问题,将相机参数作为模型的补充特征,令模型在预测阶段能够显式地感知到相机参数,有效提高了模型预测效果和对象检测精度。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用对象检测方法和装置的示例性系统架构。
图2示意性示出了根据本公开实施例的对象检测方法的流程图。
图3示意性示出了根据本公开实施例的深度数据处理方法的流程图。
图4示意性示出了根据本公开实施例的图像特征处理方法的流程图。
图5示意性示出了根据本公开实施例的对象检测流程的示意图。
图6示意性示出了根据本公开的实施例的对象检测装置的框图。
图7示意性示出了根据本公开实施例的适于实现对象检测方法的电子设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
需要说明的是,本公开实施例中的流程图所示的操作除非明确说明不同操作之间存在执行的先后顺序,或者不同操作在技术实现上存在执行的先后顺序,否则,多个操作之间的执行顺序可以不分先后,多个操作也可以同时执行。
在自动驾驶场景下,自动驾驶车辆不仅需要识别障碍物的类型,还需要识别障碍物的精确位置和朝向,以提供信息给规划控制模块,规划出合理的路线。由于自动驾驶车辆通常使用相机作为信息获取端,因此,在进行障碍物识别之前,不可避免地要对相机拍摄的图像中的三维对象进行检测。
在相关技术中,图像中三维对象的检测通常是基于图像的语义信息进行的,具体地,可以使用对象检测模型对输入图像进行预测,得到三维对象的回归参数,包括尺寸参数、深度参数、2D偏移参数、偏向角参数等;之后,可以使用相机参数,如相机内参、相机外参等对回归参数进行解码,得到最终的输出信息,即输入图像中包含的三维对象的信息。明显的,在模型训练及应用阶段,“三维对象回归参数的预测”与“基于相机参数的解码”两个过程是独立的,相机参数未参与模型的训练,因而在模型回归三维对象的参数时,无法显式地感知相机参数信息,只能基于图像语义信息进行估计预测。而相机参数在三维对象检测中起到了至关重要的作用,因此,相关技术中的方法往往不能取得足够好的效果。
有鉴于此,本公开的实施例提供了一种对象检测方法、装置、电子设备、可读存储介质和计算机程序产品,通过将相机参数作为模型的补充特征,令模型在预测阶段能够显式地感知到相机参数,可以有效提高了模型预测效果和对象检测精度。具体地,该方法包括:获取待检测图像,其中,待检测图像由目标相机拍摄得到,待检测图像的图像数据包括颜色域数据和深度数据;对颜色域数据进行特征提取,得到第一图像特征;利用目标相机的相机参数处理深度数据,得到第二图像特征;以及将第一图像特征和第二图像特征输入对象检测模型中,得到待检测图像的对象检测结果。
图1示意性示出了根据本公开实施例的可以应用对象检测方法和装置的示例性系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。
终端设备101、102、103可以是具有相机功能、或集成有各种相机的设备,包括但不限于自动驾驶汽车、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。终端设备101、102、103可以用于进行拍摄以得到待检测图像。
网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线和/或无线通信链路等等。
服务器105可以是提供各种服务的服务器,例如,对用户利用终端设备101、102、103对待检测图像进行对象检测时,为终端设备101、102、103提供计算资源及存储资源支持的云服务器。
需要说明的是,本公开实施例所提供的对象检测方法一般可以由服务器105执行。相应地,本公开实施例所提供的对象检测装置一般可以设置于服务器105中。本公开实施例所提供的对象检测方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的对象检测装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。或者,本公开实施例所提供的对象检测方法也可以由终端设备101、102、或103执行,或者也可以由不同于终端设备101、102、或103的其他终端设备执行。相应地,本公开实施例所提供的对象检测装置也可以设置于终端设备101、102、或103中,或设置于不同于终端设备101、102、或103的其他终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的对象检测方法的流程图。
如图2所示,该方法包括操作S201~S204。
在操作S201,获取待检测图像,其中,待检测图像由目标相机拍摄得到,待检测图像的图像数据包括颜色域数据和深度数据。
在操作S202,对颜色域数据进行特征提取,得到第一图像特征。
在操作S203,利用目标相机的相机参数处理深度数据,得到第二图像特征。
在操作S204,将第一图像特征和第二图像特征输入对象检测模型中,得到待检测图像的对象检测结果。
根据本公开的实施例,目标相机可以是同时具有常规成像功能和深度成像功能的多模态相机,相应地,通过目标相机拍摄得到的图像可以同时包含有色彩信息和深度信息,即颜色域数据和深度数据。
根据本公开的实施例,颜色域数据可以指图像的每个像素点在特定颜色空间下的数据,该颜色空间可以是RGB颜色空间、HSV颜色空间等。以RGB颜色空间为例,图像上颜色呈白色的像素点,在RGB颜色空间下的颜色域数据可以为(255,255,255)。
根据本公开的实施例,深度数据可以指与图像中的每个像素点对应的真实空间中的点到目标相机的距离数据。
根据本公开的实施例,对颜色域数据进行特征提取例如可以是利用卷积神经网络处理颜色域数据,以实现特征提取。该卷积神经网络可以通过单独训练得到,也可以在对象检测模型的训练过程中一并训练得到。
根据本公开的实施例,相机参数可以包括相机内参、相机外参等参数,一般可以表示为一个3×3或4×4的矩阵。不同相机的相机参数可以存在区别。
根据本公开的实施例,利用相机参数处理深度数据可以是利用任意方法将相机参数嵌入深度数据中,即得到的第二图像特征可以携带有与相机参数相关联的特征。
根据本公开的实施例,对象检测模型可以利用卷积神经网络来实现,该卷积神经网络所基于的模型架构例如可以是AlexNet、VGGNet、ResNet等,在此不作限定。
根据本公开的实施例,在对目标相机拍摄的待检测图像进行对象检测时,利用目标相机的相机参数处理待检测图像的深度数据,以将相机参数嵌入位置信息中,得到第二图像特征,并将第二图像特征与基于待检测图像的颜色域数据提取得到的第一图像特征输入到对象检测模型中,得到对象检测结果,使得对象检测模型实现了对相机参数的感知,可以取得更好的预测表现。通过上述技术手段,至少部分地克服了相关技术中因对象检测模型无法修正不同相机之间的相机参数的差异而导致的对象检测精度较低的技术问题,将相机参数作为模型的补充特征,令模型在预测阶段能够显式地感知到相机参数,有效提高了模型预测效果和对象检测精度。
下面参考图3~图5,结合具体实施例对图2所示的方法做进一步说明。
图3示意性示出了根据本公开实施例的深度数据处理方法的流程图。
如图3所示,该方法包括操作S301~S302。
在操作S301,基于深度数据,生成与待检测图像对应的视锥体。
在操作S302,基于目标相机的相机参数,对视锥体进行投影处理,得到第二图像特征。
根据本公开的实施例,与待检测图像对应的视锥体可以指目标相机在拍摄该待检测图像时的可见空间,可以由与目标相机接近的近裁剪面、与目标相机远离的远裁剪面和与裁剪面相切的四个视锥面构成。该视锥体可以基于点云数据中的深度数据来生成,具体生成视锥体的方法在此不作限定。
根据本公开的实施例,对视锥体进行投影处理例如可以是将该视锥体投影到一个坐标空间中,相应的,第二图像特征可以是该视锥体在原空间中所表示的数据在该坐标空间中的映射。
根据本公开的实施例,操作S302具体可以包括如下操作:
对视锥体进行网格采样,得到采样矩阵;对于采样矩阵中的每一个矩阵元素,基于相机参数来将矩阵元素投影到预设坐标系中,得到与矩阵元素对应的坐标值;以及基于分别与采样矩阵的多个矩阵元素一一对应的多个坐标值,确定第二图像特征。
根据本公开的实施例,对视锥体进行网格采样例如可以是按像素对视锥体进行切分。具体地,对视锥体进行网格采样后得到的每一个网格可以由一个像素在近裁剪面上的区域、在远裁剪面上的区域以及两个区域之间的空间构成。例如,待检测图像的尺寸为H×W,则对该待检测图像的视椎体进行网格采样后,得到的采样矩阵为H×W×D。
根据本公开的实施例,预设坐标系可以是基于目标相机确定的坐标系,例如可以设置目标相机所处的位置为原点,目标相机的镜头朝向方向为正X方向,并设置正Y方向和正Z方向依据右手定律来确定。
根据本公开的实施例,采样矩阵中的矩阵元素可以为列向量。例如,采样矩阵中的矩阵元素可以表示为一个四元列向量p=(u×d,v×d,d,1)T,其中,u和v可以表示为与该矩阵元素对应的像素坐标的所有值,d可以表示为与该矩阵元素对应的网格的深度采样值,相应地,采样矩阵中通道维度D可以表示为深度采样值的数量。
根据本公开的实施例,基于相机参数可以生成投影矩阵,该投影矩阵的维度可以与矩阵元素的维度相等。
根据本公开的实施例,基于相机参数来将矩阵元素投影到预设坐标系中,得到与矩阵元素对应的坐标值具体可以是将矩阵元素与投影矩阵的逆矩阵相乘,得到坐标值,如公式(1)所示:
p3d=(x,y,z,1)=K-1·p
在式中,p3d表示坐标值;K表示投影矩阵;p表示矩阵元素。
根据本公开的实施例,通过对待检测图像的视椎体的采样及投影,可以将相机参数嵌入三维位置信息中,因而使用该第二图像特征进行对象检测模型的训练和对象检测时,可以为对象检测模型提供更加丰富的补充特征,从而提高模型预测效果和对象检测精度。
图4示意性示出了根据本公开实施例的图像特征处理方法的流程图。
如图4所示,该方法包括操作S401~S403。
在操作S401,对第一图像特征和第二图像特征进行特征融合,得到第三图像特征。
在操作S402,将第三图像特征输入对象检测模型中,得到输出特征。
在操作S403,对输出特征进行解码,得到待检测图像的对象检测结果。
根据本公开的实施例,对第一图像特征和第二图像特征进行特征融合可以是通过向量运算或拼接的方式,将第一图像特征和第二图像特征融合为新的第三图像特征。例如,第一图像特征与第二图像特征之间的宽维度和高维度可以相等,通道维度不相等,则对第一图像特征和第二图像特征进行特征融合,得到第三图像特征可以是将第一图像特征和第二图像特征按通道维度进行拼接,以得到第三图像特征。
根据本公开的实施例,对输出特征进行解码例如可以是将输出特征输入到解码器或分类器中,得到的对象检测结果可以是一个向量,向量中的每一个元素可以与一个三维对象相关,且该元素的值可以表示待检测图像中是否存在该三维对象,或者表示该待检测图像中该三维对象的数量。
根据本公开的实施例,通过在模型的预测过程中,引入包含相机参数的图像特征,使模型实现了对相机参数的感知,从而有效提高了模型的预测表现。
图5示意性示出了根据本公开实施例的对象检测流程的示意图。
如图5所示,目标相机拍摄得到的输入图像可以经神经网络进行特征提取,得到第一图像特征,其尺寸为H*W*C1。同时,可以对该输入图像平面所表示的视锥体进行网格采样,得到的采样矩阵可以通过相机参数进行投影,如前述公式(1)所示,以得到第二图像特征,其尺寸为H*W*(D*3),另C2=D*3,则该第二图像特征的尺寸可以表示为H*W*C2。之后,可以将第一图像特征和第二图像特征在通道维度进行拼接,得到第三图像特征,其尺寸为H*W*(C1+C2)。融合得到的第三图像特征继续通过后续的卷积神经网络,得到图像中三维对象的预测值,即输出特征,该输出特征进行解码后,即可得到图像中三维对象的对象检测结果。
图6示意性示出了根据本公开的实施例的对象检测装置的框图。
如图6所示,对象检测装置包括获取模块610、特征提取模块620、处理模块630和检测模块640。
获取模块610,用于获取待检测图像,其中,待检测图像由目标相机拍摄得到,待检测图像的图像数据包括颜色域数据和深度数据。
特征提取模块620,用于对颜色域数据进行特征提取,得到第一图像特征。
处理模块630,用于利用目标相机的相机参数处理深度数据,得到第二图像特征。
检测模块640,用于将第一图像特征和第二图像特征输入对象检测模型中,得到待检测图像的对象检测结果。
根据本公开的实施例,在对目标相机拍摄的待检测图像进行对象检测时,利用目标相机的相机参数处理待检测图像的深度数据,以将相机参数嵌入位置信息中,得到第二图像特征,并将第二图像特征与基于待检测图像的颜色域数据提取得到的第一图像特征输入到对象检测模型中,得到对象检测结果,使得对象检测模型实现了对相机参数的感知,可以取得更好的预测表现。通过上述技术手段,至少部分地克服了相关技术中因对象检测模型无法修正不同相机之间的相机参数的差异而导致的对象检测精度较低的技术问题,将相机参数作为模型的补充特征,令模型在预测阶段能够显式地感知到相机参数,有效提高了模型预测效果和对象检测精度。
根据本公开的实施例,处理模块630包括第一处理子模块和第二处理子模块。
第一处理子模块,用于基于深度数据,生成与待检测图像对应的视锥体。
第二处理子模块,用于基于目标相机的相机参数,对视锥体进行投影处理,得到第二图像特征。
根据本公开的实施例,第二处理子模块包括第一处理单元、第二处理单元和第三处理单元。
第一处理单元,用于对视锥体进行网格采样,得到采样矩阵。
第二处理单元,用于对于采样矩阵中的每一个矩阵元素,基于相机参数来将矩阵元素投影到预设坐标系中,得到与矩阵元素对应的坐标值。
第三处理单元,用于基于分别与采样矩阵的多个矩阵元素一一对应的多个坐标值,确定第二图像特征。
根据本公开的实施例,采样矩阵中的矩阵元素为列向量。
根据本公开的实施例,第二处理单元包括第一处理子单元和第二处理子单元。
第一处理子单元,用于基于相机参数,生成投影矩阵,其中,投影矩阵的维度与矩阵元素的维度相等。
第二处理子单元,用于将矩阵元素与投影矩阵的逆矩阵相乘,得到坐标值。
根据本公开的实施例,检测模块640包括第一检测子模块、第二检测子模块和第三检测子模块。
第一检测子模块,用于对第一图像特征和第二图像特征进行特征融合,得到第三图像特征。
第二检测子模块,用于将第三图像特征输入对象检测模型中,得到输出特征。
第三检测子模块,用于对输出特征进行解码,得到待检测图像的对象检测结果。
根据本公开的实施例,第一检测子模块包括检测单元。
检测单元,用于将第一图像特征和第二图像特征按通道维度进行拼接,以得到第三图像特征。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,获取模块610、特征提取模块620、处理模块630和检测模块640中的任意多个可以合并在一个模块/单元/子单元中实现,或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者,这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合,并在一个模块/单元/子单元中实现。根据本公开的实施例,获取模块610、特征提取模块620、处理模块630和检测模块640中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块610、特征提取模块620、处理模块630和检测模块640中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
需要说明的是,本公开的实施例中对象检测装置部分与本公开的实施例中对象检测方法部分是相对应的,对象检测装置部分的描述具体参考对象检测方法部分,在此不再赘述。
图7示意性示出了根据本公开实施例的适于实现对象检测方法的电子设备的框图。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,根据本公开实施例的计算机电子设备700包括处理器701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。处理器701例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器701还可以包括用于缓存用途的板载存储器。处理器701可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 703中,存储有电子设备700操作所需的各种程序和数据。处理器701、ROM702以及RAM 703通过总线704彼此相连。处理器701通过执行ROM 702和/或RAM 703中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 702和RAM 703以外的一个或多个存储器中。处理器701也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备700还可以包括输入/输出(I/O)接口705,输入/输出(I/O)接口705也连接至总线704。电子设备700还可以包括连接至I/O接口705的以下部件中的一项或多项:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被处理器701执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 702和/或RAM 703和/或ROM 702和RAM 703以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行本公开实施例所提供的方法的程序代码,当计算机程序产品在电子设备上运行时,该程序代码用于使电子设备实现本公开实施例所提供的对象检测方法。
在该计算机程序被处理器701执行时,执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分709被下载和安装,和/或从可拆卸介质711被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种对象检测方法,包括:
获取待检测图像,其中,所述待检测图像由目标相机拍摄得到,所述待检测图像的图像数据包括颜色域数据和深度数据;
对所述颜色域数据进行特征提取,得到第一图像特征;
利用所述目标相机的相机参数处理所述深度数据,得到第二图像特征;以及
将所述第一图像特征和所述第二图像特征输入对象检测模型中,得到所述待检测图像的对象检测结果。
2.根据权利要求1所述的方法,其中,所述利用所述目标相机的相机参数处理所述深度数据,得到第二图像特征,包括:
基于所述深度数据,生成与所述待检测图像对应的视锥体;以及
基于所述目标相机的相机参数,对所述视锥体进行投影处理,得到所述第二图像特征。
3.根据权利要求2所述的方法,其中,所述基于所述目标相机的相机参数,对所述视锥体进行投影处理,得到所述第二图像特征,包括:
对所述视锥体进行网格采样,得到采样矩阵;
对于所述采样矩阵中的每一个矩阵元素,基于所述相机参数来将所述矩阵元素投影到预设坐标系中,得到与所述矩阵元素对应的坐标值;以及
基于分别与所述采样矩阵的多个所述矩阵元素一一对应的多个所述坐标值,确定所述第二图像特征。
4.根据权利要求3所述的方法,其中,所述采样矩阵中的所述矩阵元素为列向量;
其中,所述基于所述相机参数来将所述矩阵元素投影到预设坐标系中,得到与所述矩阵元素对应的坐标值,包括:
基于所述相机参数,生成投影矩阵,其中,所述投影矩阵的维度与所述矩阵元素的维度相等;以及
将所述矩阵元素与所述投影矩阵的逆矩阵相乘,得到所述坐标值。
5.根据权利要求1所述的方法,其中,所述将所述第一图像特征和所述第二图像特征输入对象检测模型中,得到所述待检测图像的对象检测结果,包括:
对所述第一图像特征和所述第二图像特征进行特征融合,得到第三图像特征;
将所述第三图像特征输入所述对象检测模型中,得到输出特征;以及
对所述输出特征进行解码,得到所述待检测图像的对象检测结果。
6.根据权利要求5所述的方法,其中,所述对所述第一图像特征和所述第二图像特征进行特征融合,得到第三图像特征,包括:
将所述第一图像特征和所述第二图像特征按通道维度进行拼接,以得到所述第三图像特征。
7.一种对象检测装置,包括:
获取模块,用于获取待检测图像,其中,所述待检测图像由目标相机拍摄得到,所述待检测图像的图像数据包括颜色域数据和深度数据;
特征提取模块,用于对所述颜色域数据进行特征提取,得到第一图像特征;
处理模块,用于利用所述目标相机的相机参数处理所述深度数据,得到第二图像特征;以及
检测模块,用于将所述第一图像特征和所述第二图像特征输入对象检测模型中,得到所述待检测图像的对象检测结果。
8.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个指令,
其中,当所述一个或多个指令被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令被处理器执行时使处理器实现权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,所述计算机程序产品包括计算机可执行指令,所述计算机可执行指令在被执行时用于实现权利要求1至6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211290807.4A CN115511870A (zh) | 2022-10-20 | 2022-10-20 | 对象检测方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211290807.4A CN115511870A (zh) | 2022-10-20 | 2022-10-20 | 对象检测方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115511870A true CN115511870A (zh) | 2022-12-23 |
Family
ID=84509655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211290807.4A Pending CN115511870A (zh) | 2022-10-20 | 2022-10-20 | 对象检测方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115511870A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612168A (zh) * | 2023-04-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备、图像处理系统及介质 |
-
2022
- 2022-10-20 CN CN202211290807.4A patent/CN115511870A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612168A (zh) * | 2023-04-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备、图像处理系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111598091A (zh) | 图像识别方法、装置、电子设备及计算可读存储介质 | |
JP6230751B1 (ja) | 物体検出装置および物体検出方法 | |
US20150206353A1 (en) | Time constrained augmented reality | |
US9536321B2 (en) | Apparatus and method for foreground object segmentation | |
CN111915483B (zh) | 图像拼接方法、装置、计算机设备和存储介质 | |
CN110349212B (zh) | 即时定位与地图构建的优化方法及装置、介质和电子设备 | |
CN110062157B (zh) | 渲染图像的方法、装置、电子设备和计算机可读存储介质 | |
CN110781823B (zh) | 录屏检测方法、装置、可读介质及电子设备 | |
CN110060230B (zh) | 三维场景分析方法、装置、介质及设备 | |
CN108229494B (zh) | 网络训练方法、处理方法、装置、存储介质和电子设备 | |
EP3561776A1 (en) | Method and apparatus for processing a 3d scene | |
CN111383204A (zh) | 视频图像融合方法、融合装置、全景监控系统及存储介质 | |
CN108229281B (zh) | 神经网络的生成方法和人脸检测方法、装置及电子设备 | |
CN110689014B (zh) | 感兴趣区域的检测方法、装置、电子设备及可读存储介质 | |
CN115511870A (zh) | 对象检测方法、装置、电子设备和存储介质 | |
CN111382695A (zh) | 用于检测目标的边界点的方法和装置 | |
US11017557B2 (en) | Detection method and device thereof | |
CN111105351A (zh) | 一种视频序列影像拼接方法及装置 | |
CN113378605B (zh) | 多源信息融合方法及装置、电子设备和存储介质 | |
CN109816791B (zh) | 用于生成信息的方法和装置 | |
CN109034214B (zh) | 用于生成标记的方法和装置 | |
CN116017129A (zh) | 一种补光灯角度调整方法、装置、系统、设备和介质 | |
CN112150373B (zh) | 图像处理方法、图像处理装置和可读存储介质 | |
CN115797164A (zh) | 固定视场中的图像拼接方法、装置、系统 | |
US20220027623A1 (en) | Object Location Determination in Frames of a Video Stream |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |