CN116091600B - 一种图像目标的定位方法、装置、终端设备和存储介质 - Google Patents
一种图像目标的定位方法、装置、终端设备和存储介质 Download PDFInfo
- Publication number
- CN116091600B CN116091600B CN202211673631.0A CN202211673631A CN116091600B CN 116091600 B CN116091600 B CN 116091600B CN 202211673631 A CN202211673631 A CN 202211673631A CN 116091600 B CN116091600 B CN 116091600B
- Authority
- CN
- China
- Prior art keywords
- image
- target
- processed
- point
- coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 37
- 230000004438 eyesight Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 24
- 230000004297 night vision Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 10
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及图像处理技术领域,提出一种图像目标的定位方法、装置、终端设备和存储介质。该方法包括:获取待处理图像;将待处理图像输入至已训练的目标定位网络进行处理,得到待处理图像中每个像素坐标分别对应的空间坐标;其中,该目标定位网络为以样本点对作为训练集训练得到的用于将图像的像素坐标转换为对应的空间坐标的神经网络,该样本点对包括一一对应的多个像素坐标和多个空间坐标;根据待处理图像中每个像素坐标分别对应的空间坐标,确定待处理图像中的图像目标的目标空间坐标。该方法使用神经网络的方式将图像的像素坐标转换为对应的空间坐标,能够获得比使用相机内外参矩阵更好的坐标转换效果,从而提高图像目标定位的准确率。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种图像目标的定位方法、装置、终端设备和存储介质。
背景技术
基于单一传感器的局限性以及感知融合技术的发展,多传感器感知的数据融合成为一种趋势。视觉相机感知得到的图像目标只有二维信息,无法表示真实世界的空间位置,而在很多场景中需要为图像目标赋予相应的空间坐标,也即实现图像目标的定位。目前,在实现图像目标的定位时,一般使用相机的内外参矩阵将图像目标的二维像素坐标转换为对应的三维空间坐标。然而,由于计算得到的相机内外参矩阵本身存在较大的误差,采用这种方式进行图像目标定位的准确率较低。
发明内容
有鉴于此,本申请实施例提供了一种图像目标的定位方法、装置、终端设备和存储介质,能够提高图像目标定位的准确率。
本申请实施例的第一方面提供了一种图像目标的定位方法,包括:
获取待处理图像;
将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标;其中,所述目标定位网络为以样本点对作为训练集训练得到的用于将图像的像素坐标转换为对应的空间坐标的神经网络,所述样本点对包括一一对应的多个像素坐标和多个空间坐标;
根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标。
在本申请实施例中,首先获取待处理图像,然后将该待处理图像输入至一个已训练的目标定位网络进行处理,从而得到该待处理图像中每个像素坐标分别对应的空间坐标;最后,根据该待处理图像中每个像素坐标分别对应的空间坐标,确定该待处理图像中的图像目标的空间坐标,从而实现图像目标的定位。上述过程使用神经网络的方式将图像的像素坐标转换为对应的空间坐标,能够获得比使用相机内外参矩阵更好的坐标转换效果,从而提高图像目标定位的准确率。
在本申请实施例的一种实现方式中,所述样本点对可以通过以下方式获取:
控制激光雷达检测视觉相机的拍摄范围内的点云数据;
控制所述视觉相机启动夜视功能拍摄所述点云数据,得到夜视图像;
记录所述点云数据中每个点的空间坐标在所述夜视图像中对应的像素坐标,得到所述样本点对。
进一步的,所述控制激光雷达检测视觉相机的拍摄范围内的点云数据,可以包括:
调整所述激光雷达的检测范围处于所述拍摄范围之内;
每次旋转所述激光雷达预设角度,且在每次旋转后控制所述激光雷达检测得到对应的点云数据,直至所述激光雷达的检测范围超出所述拍摄范围。
在本申请实施例的一种实现方式中,所述根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标,可以包括:
检测所述图像目标的中心点;
从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,作为所述目标空间坐标。
进一步的,在将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标之后,还可以包括:
将所述待处理图像中的每个像素坐标分别和对应的空间坐标构建成各个键值对;
所述从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,可以包括:
从所述各个键值对中查找所述中心点的像素坐标所属的目标键值对;
从所述目标键值对中查询获得与所述中心点的像素坐标对应的空间坐标。
进一步的,所述检测所述图像目标的中心点,可以包括:
根据所述待处理图像中的像素坐标对应的空间坐标所处的距离范围大小,将所述待处理图像划分为多个图像区域;
针对每个所述图像区域,按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点。
更进一步的,所述按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点,可以包括:
从所述图像区域包含的所述图像目标的目标检测框中选取指定点;
若所述指定点在包含所述待处理图像的连续多帧图像中的位置变化幅度小于设定阈值,则将所述指定点确定为所述图像目标的中心点。
在本申请实施例的一种实现方式中,所述目标定位网络包括输入层、第一隐含层、第二隐含层和输出层,所述将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标,可以包括:
将所述待处理图像的像素坐标输入至所述输入层进行处理,得到第一特征矩阵;
将所述第一特征矩阵输入至所述第一隐含层进行处理,得到第二特征矩阵;
将所述第二特征矩阵输入至所述第二隐含层进行处理,得到第三特征矩阵;
将所述第三特征矩阵输入至所述输出层进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标。
本申请实施例的第二方面提供了一种图像目标的定位装置,包括:
图像获取模块,用于获取待处理图像;
坐标转换模块,用于将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标;其中,所述目标定位网络为以样本点对作为训练集训练得到的用于将图像的像素坐标转换为对应的空间坐标的神经网络,所述样本点对包括一一对应的多个像素坐标和多个空间坐标;
空间坐标确定模块,用于根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例的第一方面提供的图像目标的定位方法。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本申请实施例的第一方面提供的图像目标的定位方法。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行如本申请实施例的第一方面提供的图像目标的定位方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
图1是本申请实施例提供的一种图像目标的定位方法的流程图;
图2是本申请实施例提供的使用视觉相机拍摄激光雷达的点获得的夜视图像的示意图;
图3是本申请实施例提供的一种图像目标的定位装置的结构示意图;
图4是本申请实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
现有技术一般使用相机的内外参矩阵将图像目标的二维像素坐标转换为对应的三维空间坐标,然而内外参矩阵是通过公式计算得到的,其本身存在较大的计算误差,这会导致坐标转换的效果下降,影响图像目标定位的准确率。有鉴于此,本申请实施例提供了一种图像目标的定位方法、装置、终端设备和存储介质,能够提高图像目标定位的准确率。关于本申请实施例更具体的技术实现细节,请参照下文所述的方法实施例。
应当理解,本申请各个方法实施例的执行主体为各种类型的终端设备或服务器,例如可以是手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)、大屏电视,等等,本申请实施例对该终端设备和服务器的具体类型不作任何限制。
请参阅图1,示出了本申请实施例提供的一种图像目标的定位方法,包括:
101、获取待处理图像;
首先,获取待处理图像,待处理图像可以是需要进行图像目标定位的任意类型任意场景的图像。例如,待处理图像可以是一幅道路场景的图像,其中包含车辆和行人等图像目标,使用本申请实施例提供的图像目标的定位方法可以获得该图像中车辆和行人等图像目标的三维空间坐标,从而实现图像目标的定位。
102、将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标;
在获得待处理图像之后,将该待处理图像输入至一个已训练的目标定位网络进行处理,通过该目标定位网络可以输出该待处理图像中每个像素坐标分别对应的空间坐标。其中,该目标定位网络为以样本点对作为训练集训练得到的用于将图像的像素坐标转换为对应的空间坐标的神经网络,该样本点对包括一一对应的多个像素坐标和多个空间坐标。
在本申请实施例的一种实现方式中,所述样本点对可以通过以下方式获取:
(1)控制激光雷达检测视觉相机的拍摄范围内的点云数据;
(2)控制所述视觉相机启动夜视功能拍摄所述点云数据,得到夜视图像;
(3)记录所述点云数据中每个点的空间坐标在所述夜视图像中对应的像素坐标,得到所述样本点对。
在采集神经网络的训练集样本(也即样本点对)时,可以在收费站、路口等具体场景设置激光雷达和具有夜视功能的视觉相机,使用激光雷达为视觉相机拍摄到的像素坐标提供绝对的三维空间坐标。在具体操作时,开启并控制激光雷达检测视觉相机的拍摄范围内的点云数据,另外开启视觉相机的夜视功能,控制视觉相机拍摄激光雷达的点,得到相应的夜视图像。通过启动视觉相机的夜视功能,能够使视觉相机拍摄的图像捕捉到激光雷达的点,从而得到包含激光雷达的点云数据的夜视图像。如图2所示,为使用视觉相机拍摄激光雷达的点获得的夜视图像的示意图,显然在图2中可以看到激光雷达的点云数据。之后,记录点云数据中每个点的空间坐标在夜视图像中对应的像素坐标,即可获得多个离散且一一对应的像素坐标和空间坐标,从而得到样本点对。需要说明的是,在获取训练神经网络的样本点对时才需要使用到夜视图像,而在使用神经网络实现图像目标定位时无需限制输入的是夜视图像,也即待处理图像可以不是夜视图像。
进一步的,所述控制激光雷达检测视觉相机的拍摄范围内的点云数据,可以包括:
(1)调整所述激光雷达的检测范围处于所述拍摄范围之内;
(2)每次旋转所述激光雷达预设角度,且在每次旋转后控制所述激光雷达检测得到对应的点云数据,直至所述激光雷达的检测范围超出所述拍摄范围。
在控制激光雷达检测视觉相机的拍摄范围内的点云数据时,可以先调整激光雷达的检测范围处于视觉相机的拍摄范围之内,然后设置激光雷达的旋转角度。假设设置的旋转角度是1°,则每次旋转激光雷达1°,然后控制激光雷达检测得到对应的点云数据,也即记录激光雷达每条线的三维位置坐标。每旋转激光雷达一次,记录一次点云数据,同时控制视觉相机拍摄一次夜视图像,如此反复,直至激光雷达的检测范围超出视觉相机的拍摄范围,也即激光雷达的点不在视觉相机的拍摄范围内,至此获得样本点对。
在本申请实施例的一种实现方式中,所述目标定位网络包括输入层、第一隐含层、第二隐含层和输出层,所述将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标,可以包括:
(1)将所述待处理图像的像素坐标输入至所述输入层进行处理,得到第一特征矩阵;
(2)将所述第一特征矩阵输入至所述第一隐含层进行处理,得到第二特征矩阵;
(3)将所述第二特征矩阵输入至所述第二隐含层进行处理,得到第三特征矩阵;
(4)将所述第三特征矩阵输入至所述输出层进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标。
在构建目标定位网络时,可以令神经网络结构包含输入层、第一隐含层、第二隐含层和输出层。其中,输入层可以包含2个节点,第一隐含层可以包含8个节点,第二隐含层可以包含4个节点,输出层可以包含2个节点。每个网络层都可以使用ReLU等激活函数,进行全连接等操作。另外,为了防止过拟合,在神经网络训练的过程中还可以增加Dropout层,其中保持率可以设置为50%。在具体操作时,首先将待处理图像的像素坐标输入至输入层进行处理,进行全连接操作得到对应的特征矩阵,用第一特征矩阵表示;然后,将第一特征矩阵输入至第一隐含层进行处理,进行全连接操作得到第二特征矩阵;接着,将第二特征矩阵输入至第二隐含层进行处理,进行全连接操作得到第三特征矩阵;最后,将第三特征矩阵输入至输出层进行处理,进行全连接操作得到待处理图像中每个像素坐标分别对应的空间坐标。
在训练神经网络时,定义的损失函数可以为目标定位损失Lossloc,具体可以使用以下公式计算:
其中,目标定位损失为平滑的L1损失,t为目标位置预测值,g为真值标签,N为批处理的大小。
目标定位网络的网络层在初始化过程中可以使用高斯函数,例如可以使用均值为0、方差为0.01的高斯函数进行初始化。可以使用Adam优化器对网络进行优化,设置的优化器的初始学习率可以为0.00001,每一万步衰减0.94。另外,在训练过程中使用端到端的训练模式,可以获得更好的神经网络训练效果。
在本申请实施例的一种实现方式中,在将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标之后,还可以包括:
将所述待处理图像中的每个像素坐标分别和对应的空间坐标构建成各个键值对。
将待处理图像的每个像素坐标输入至目标定位网络进行处理,可以得到每个像素坐标分别对应的空间坐标。为了便于后续使用这部分数据,可以将每个像素坐标分别和对应的空间坐标构建成各个键值对,并保存这些键值对。例如,假设像素坐标1和空间坐标1对应,像素坐标2和空间坐标2对应,像素坐标3和空间坐标3对应…,则可以构建并保存以下键值对:[像素坐标1,空间坐标1]、[像素坐标2,空间坐标2]、[像素坐标3,空间坐标3]…,以此类推。
103、根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标。
在得到待处理图像中每个像素坐标分别对应的空间坐标之后,即可从中确定待处理图像中的图像目标的空间坐标,其用目标空间坐标表示。在实际操作中,可以对待处理图像进行目标检测得到各个图像目标的检测框,然后选取检测框内一点(例如中心点)的像素坐标,并查询该像素坐标对应的空间坐标,作为对应图像目标的空间坐标。
在本申请实施例的一种实现方式中,所述根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标,可以包括:
(1)检测所述图像目标的中心点;
(2)从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,作为所述目标空间坐标。
在对待处理图像进行目标检测处理,得到其中包含的各个图像目标后,可以分别检测每个图像目标的中心点,然后从待处理图像每个像素坐标分别对应的空间坐标中,查找与中心点的像素坐标对应的空间坐标,作为对应图像目标的空间坐标。
进一步的,所述从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,可以包括:
(1)从所述各个键值对中查找所述中心点的像素坐标所属的目标键值对;
(2)从所述目标键值对中查询获得与所述中心点的像素坐标对应的空间坐标。
如果在前面的步骤中将待处理图像中的每个像素坐标分别和对应的空间坐标构建成各个键值对并保存,则在获得图像目标的中心点之后,可以从保存的各个键值对中查找中心点的像素坐标所属的目标键值对,然后从该目标键值对中查询获得与中心点的像素坐标对应的空间坐标,作为对应图像目标的空间坐标。通过查询键值对的方式,可以高效而方便地获得图像目标的空间坐标。
进一步的,所述检测所述图像目标的中心点,可以包括:
(1)根据所述待处理图像中的像素坐标对应的空间坐标所处的距离范围大小,将所述待处理图像划分为多个图像区域;
(2)针对每个所述图像区域,按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点。
在检测图像目标的中心点时,可以先根据待处理图像中的像素坐标对应的空间坐标所处的距离范围大小,将待处理图像划分为多个图像区域。例如,可以将待处理图像中空间坐标距离相机位置0-50米的区域划作图像区域1,将待处理图像中空间坐标距离相机位置50-70米的区域划作图像区域2,将待处理图像中空间坐标距离相机位置70-100米的区域划作图像区域3,以此类推。然后,针对每个图像区域,可以按照设定规则从该图像区域包含的图像目标的目标检测框中选取一点,作为对应图像目标的中心点。例如,针对上述图像区域2,可以从图像目标的目标检测框中选取中心位置点,作为图像目标的中心点;针对上述图像区域1,可以从图像目标的目标检测框中选取左下角位置点,作为图像目标的中心点,等等。通过在不同的图像区域选择不同的位置点作为图像目标的中心点,能够在一定程度上提高选取的中心点的准确性和合理性,从而提高图像目标的定位精度。
更进一步的,所述按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点,可以包括:
(1)从所述图像区域包含的所述图像目标的目标检测框中选取指定点;
(2)若所述指定点在包含所述待处理图像的连续多帧图像中的位置变化幅度小于设定阈值,则将所述指定点确定为所述图像目标的中心点。
在选取图像目标的中心点时,可以考虑目标的连续性(目标在前后帧图像中位置不会发生突变)特点。具体的,可以先从图像区域包含的图像目标的目标检测框中选取一个指定点,该指定点可以是目标检测框内的任意一点,例如可以是中心位置点、左下角位置点或者右上角位置点,等等。然后,获取包含该待处理图像的连续多帧图像,如果该指定点在该连续多帧图像中的位置变化幅度小于设定阈值,也即该指定点在该连续多帧图像中形成的位置轨迹连续,则可以确定选取的指定点合适,可以作为图像目标的中心点;反之,如果该指定点在该连续多帧图像中的位置变化幅度超过设定阈值,也即该指定点在该连续多帧图像中形成的位置轨迹不连续,则表示选取的指定点不合适,无法作为图像目标的中心点,此时需要重新选取别的位置点进行相同的判断,直至选取到合适的位置点作为中心点。
在本申请实施例中,首先获取待处理图像,然后将该待处理图像输入至一个已训练的目标定位网络进行处理,从而得到该待处理图像中每个像素坐标分别对应的空间坐标;最后,根据该待处理图像中每个像素坐标分别对应的空间坐标,确定该待处理图像中的图像目标的空间坐标,从而实现图像目标的定位。上述过程使用神经网络的方式将图像的像素坐标转换为对应的空间坐标,能够获得比使用相机内外参矩阵更好的坐标转换效果,从而提高图像目标定位的准确率。
应理解,上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上面主要描述了一种图像目标的定位方法,下面将对一种图像目标的定位装置进行描述。
请参阅图3,本申请实施例中一种图像目标的定位装置的一个实施例包括:
图像获取模块301,用于获取待处理图像;
坐标转换模块302,用于将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标;其中,所述目标定位网络为以样本点对作为训练集训练得到的用于将图像的像素坐标转换为对应的空间坐标的神经网络,所述样本点对包括一一对应的多个像素坐标和多个空间坐标;
空间坐标确定模块303,用于根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标。
在本申请实施例的一种实现方式中,所述图像目标的定位装置还可以包括:
激光雷达控制模块,用于控制激光雷达检测视觉相机的拍摄范围内的点云数据;
视觉相机控制模块,用于控制所述视觉相机启动夜视功能拍摄所述点云数据,得到夜视图像;
样本点对记录模块,用于记录所述点云数据中每个点的空间坐标在所述夜视图像中对应的像素坐标,得到所述样本点对。
进一步的,所述激光雷达控制模块可以包括:
检测范围调整单元,用于调整所述激光雷达的检测范围处于所述拍摄范围之内;
激光雷达旋转单元,用于每次旋转所述激光雷达预设角度,且在每次旋转后控制所述激光雷达检测得到对应的点云数据,直至所述激光雷达的检测范围超出所述拍摄范围。
在本申请实施例的一种实现方式中,所述空间坐标确定模块可以包括:
中心点检测单元,用于检测所述图像目标的中心点;
空间坐标查找单元,用于从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,作为所述目标空间坐标。
进一步的,所述图像目标的定位装置还可以包括:
键值对构建模块,用于将所述待处理图像中的每个像素坐标分别和对应的空间坐标构建成各个键值对;
所述空间坐标查找单元可以包括:
键值对查找子单元,用于从所述各个键值对中查找所述中心点的像素坐标所属的目标键值对;
空间坐标查询子单元,用于从所述目标键值对中查询获得与所述中心点的像素坐标对应的空间坐标。
进一步的,所述中心点检测单元可以包括:
图像划分子单元,用于根据所述待处理图像中的像素坐标对应的空间坐标所处的距离范围大小,将所述待处理图像划分为多个图像区域;
中心点选取子单元,用于针对每个所述图像区域,按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点。
更进一步的,所述中心点选取子单元可以包括:
指定点选取子单元,用于从所述图像区域包含的所述图像目标的目标检测框中选取指定点;
中心点确定子单元,用于若所述指定点在包含所述待处理图像的连续多帧图像中的位置变化幅度小于设定阈值,则将所述指定点确定为所述图像目标的中心点。
在本申请实施例的一种实现方式中,所述目标定位网络包括输入层、第一隐含层、第二隐含层和输出层,所述坐标转换模块可以包括:
第一处理单元,用于将所述待处理图像的像素坐标输入至所述输入层进行处理,得到第一特征矩阵;
第二处理单元,用于将所述第一特征矩阵输入至所述第一隐含层进行处理,得到第二特征矩阵;
第三处理单元,用于将所述第二特征矩阵输入至所述第二隐含层进行处理,得到第三特征矩阵;
第四处理单元,用于将所述第三特征矩阵输入至所述输出层进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一实施例表示的图像目标的定位方法。
本申请实施例还提供一种计算机程序产品,当该计算机程序产品在终端设备上运行时,使得终端设备执行如上述任一实施例表示的图像目标的定位方法。
图4是本申请一实施例提供的终端设备的示意图。如图4所示,该实施例的终端设备4包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机程序42。所述处理器40执行所述计算机程序42时实现上述各个图像目标的定位方法的实施例中的步骤,例如图1所示的步骤101至103。或者,所述处理器40执行所述计算机程序42时实现上述各装置实施例中各模块/单元的功能,例如图3所示模块301至303的功能。
所述计算机程序42可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器41中,并由所述处理器40执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序42在所述终端设备4中的执行过程。
所称处理器40可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器41可以是所述终端设备4的内部存储单元,例如终端设备4的硬盘或内存。所述存储器41也可以是所述终端设备4的外部存储设备,例如所述终端设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器41还可以既包括所述终端设备4的内部存储单元也包括外部存储设备。所述存储器41用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种图像目标的定位方法,其特征在于,包括:
获取待处理图像;
将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标;其中,所述目标定位网络为以样本点对作为训练集训练得到的用于将图像的像素坐标转换为对应的空间坐标的神经网络,所述样本点对包括一一对应的多个像素坐标和多个空间坐标;
根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标;
其中,所述根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标,包括:
检测所述图像目标的中心点;
从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,作为所述目标空间坐标;
所述检测所述图像目标的中心点,包括:
根据所述待处理图像中的像素坐标对应的空间坐标所处的距离范围大小,将所述待处理图像划分为多个图像区域;
针对每个所述图像区域,按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点;
所述按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点,包括:
从所述图像区域包含的所述图像目标的目标检测框中选取指定点;
若所述指定点在包含所述待处理图像的连续多帧图像中的位置变化幅度小于设定阈值,则将所述指定点确定为所述图像目标的中心点。
2.如权利要求1所述的方法,其特征在于,所述样本点对通过以下方式获取:
控制激光雷达检测视觉相机的拍摄范围内的点云数据;
控制所述视觉相机启动夜视功能拍摄所述点云数据,得到夜视图像;
记录所述点云数据中每个点的空间坐标在所述夜视图像中对应的像素坐标,得到所述样本点对。
3.如权利要求2所述的方法,其特征在于,所述控制激光雷达检测视觉相机的拍摄范围内的点云数据,包括:
调整所述激光雷达的检测范围处于所述拍摄范围之内;
每次旋转所述激光雷达预设角度,且在每次旋转后控制所述激光雷达检测得到对应的点云数据,直至所述激光雷达的检测范围超出所述拍摄范围。
4.如权利要求1所述的方法,其特征在于,在将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标之后,还包括:
将所述待处理图像中的每个像素坐标分别和对应的空间坐标构建成各个键值对;
所述从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,包括:
从所述各个键值对中查找所述中心点的像素坐标所属的目标键值对;
从所述目标键值对中查询获得与所述中心点的像素坐标对应的空间坐标。
5.如权利要求1至4任一项所述的方法,其特征在于,所述目标定位网络包括输入层、第一隐含层、第二隐含层和输出层,所述将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标,包括:
将所述待处理图像的像素坐标输入至所述输入层进行处理,得到第一特征矩阵;
将所述第一特征矩阵输入至所述第一隐含层进行处理,得到第二特征矩阵;
将所述第二特征矩阵输入至所述第二隐含层进行处理,得到第三特征矩阵;
将所述第三特征矩阵输入至所述输出层进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标。
6.一种图像目标的定位装置,其特征在于,包括:
图像获取模块,用于获取待处理图像;
坐标转换模块,用于将所述待处理图像输入至已训练的目标定位网络进行处理,得到所述待处理图像中每个像素坐标分别对应的空间坐标;其中,所述目标定位网络为以样本点对作为训练集训练得到的用于将图像的像素坐标转换为对应的空间坐标的神经网络,所述样本点对包括一一对应的多个像素坐标和多个空间坐标;
空间坐标确定模块,用于根据所述待处理图像中每个像素坐标分别对应的空间坐标,确定所述待处理图像中的图像目标的目标空间坐标;
其中,所述空间坐标确定模块包括:
中心点检测单元,用于检测所述图像目标的中心点;
空间坐标查找单元,用于从所述待处理图像中每个像素坐标分别对应的空间坐标中,查找与所述中心点的像素坐标对应的空间坐标,作为所述目标空间坐标;
所述中心点检测单元包括:
图像划分子单元,用于根据所述待处理图像中的像素坐标对应的空间坐标所处的距离范围大小,将所述待处理图像划分为多个图像区域;
中心点选取子单元,用于针对每个所述图像区域,按照设定规则从所述图像区域包含的所述图像目标的目标检测框中选取一点,作为所述图像目标的中心点;
所述中心点选取子单元包括:
指定点选取子单元,用于从所述图像区域包含的所述图像目标的目标检测框中选取指定点;
中心点确定子单元,用于若所述指定点在包含所述待处理图像的连续多帧图像中的位置变化幅度小于设定阈值,则将所述指定点确定为所述图像目标的中心点。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的图像目标的定位方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的图像目标的定位方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211673631.0A CN116091600B (zh) | 2022-12-26 | 2022-12-26 | 一种图像目标的定位方法、装置、终端设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211673631.0A CN116091600B (zh) | 2022-12-26 | 2022-12-26 | 一种图像目标的定位方法、装置、终端设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116091600A CN116091600A (zh) | 2023-05-09 |
CN116091600B true CN116091600B (zh) | 2023-12-01 |
Family
ID=86213036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211673631.0A Active CN116091600B (zh) | 2022-12-26 | 2022-12-26 | 一种图像目标的定位方法、装置、终端设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116091600B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097322A (zh) * | 2016-06-03 | 2016-11-09 | 江苏大学 | 一种基于神经网络的视觉系统标定方法 |
CN110335312A (zh) * | 2019-06-17 | 2019-10-15 | 武汉大学 | 一种基于神经网络的目标空间定位方法及装置 |
CN112611331A (zh) * | 2021-01-04 | 2021-04-06 | 中国神华能源股份有限公司国华电力分公司 | 一种位移监测装置及测量方法 |
CN114998432A (zh) * | 2022-05-31 | 2022-09-02 | 杭州电子科技大学 | 一种基于YOLOv5的电路板检测点定位方法 |
-
2022
- 2022-12-26 CN CN202211673631.0A patent/CN116091600B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106097322A (zh) * | 2016-06-03 | 2016-11-09 | 江苏大学 | 一种基于神经网络的视觉系统标定方法 |
CN110335312A (zh) * | 2019-06-17 | 2019-10-15 | 武汉大学 | 一种基于神经网络的目标空间定位方法及装置 |
CN112611331A (zh) * | 2021-01-04 | 2021-04-06 | 中国神华能源股份有限公司国华电力分公司 | 一种位移监测装置及测量方法 |
CN114998432A (zh) * | 2022-05-31 | 2022-09-02 | 杭州电子科技大学 | 一种基于YOLOv5的电路板检测点定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116091600A (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111612841B (zh) | 目标定位方法及装置、移动机器人及可读存储介质 | |
WO2018128667A1 (en) | Systems and methods for lane-marker detection | |
CN102176243A (zh) | 一种基于可见光和红外摄像机的目标测距方法 | |
CN111062400B (zh) | 目标匹配方法及装置 | |
CN112198878B (zh) | 一种即时地图构建方法、装置、机器人及存储介质 | |
CN112330715A (zh) | 一种跟踪方法、跟踪装置、终端设备及可读存储介质 | |
CN108052869B (zh) | 车道线识别方法、装置及计算机可读存储介质 | |
CN105447869A (zh) | 基于粒子群优化算法的摄像机自标定方法及装置 | |
CN114919584A (zh) | 机动车定点目标测距方法、装置及计算机可读存储介质 | |
CN111862208B (zh) | 一种基于屏幕光通信的车辆定位方法、装置及服务器 | |
CN116091600B (zh) | 一种图像目标的定位方法、装置、终端设备和存储介质 | |
CN112150522A (zh) | 遥感图像的配准方法、装置、设备、存储介质及系统 | |
CN115512542B (zh) | 一种基于路侧激光雷达的考虑遮挡的轨迹复原方法及系统 | |
CN113112551B (zh) | 相机参数的确定方法、装置、路侧设备和云控平台 | |
CN111223139B (zh) | 目标定位方法及终端设备 | |
CN113902047A (zh) | 图像元素匹配方法、装置、设备以及存储介质 | |
CN111462176A (zh) | 一种目标追踪方法、目标追踪装置及终端设备 | |
CN113227708B (zh) | 确定俯仰角的方法、装置及终端设备 | |
CN112197747B (zh) | 利用无线定位辅助目标检测的方法和装置 | |
CN110660134B (zh) | 三维地图构建方法、三维地图构建装置及终端设备 | |
CN115221981B (zh) | 一种目标跟踪方法、装置、终端设备及存储介质 | |
CN116612059B (zh) | 图像处理方法及装置、电子设备、存储介质 | |
CN115331421B (zh) | 路侧多传感环境感知方法、装置及系统 | |
CN113409365B (zh) | 图像处理方法及相关终端、设备和存储介质 | |
CN114742897B (zh) | 路侧感知系统的相机安装信息的处理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |