CN113284221B - 一种目标物检测方法、装置及电子设备 - Google Patents
一种目标物检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113284221B CN113284221B CN202110535339.1A CN202110535339A CN113284221B CN 113284221 B CN113284221 B CN 113284221B CN 202110535339 A CN202110535339 A CN 202110535339A CN 113284221 B CN113284221 B CN 113284221B
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- pixel
- target
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 84
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种目标物检测方法、装置及电子设备,属于图像处理技术,所述目标物检测方法包括:利用卷积神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取;构建平面扫描体来学习像素关系并估计深度信息;将平面扫描体转换为3D几何体,从3D几何体中提取用于目标识别的第二高阶特征;对卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络;利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。本发明通过在平面扫描体中建立立体对应约束,从2D特征转换到具有3D几何特征的3D几何体,提高了双目获取深度信息的精度,对目标物检测的精确度更高,并且将多种神经网络进行整合,提高了目标物检测的效率。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种目标物检测方法、装置及电子设备。
背景技术
物体检测是指利用计算机技术检测与识别出图像或视频中感兴趣目标(如车辆、行人、障碍物等)的类别与位置信息,是计算机视觉领域中重要研究领域之一。随着深度学习技术的不断完善与发展,基于深度学习的物体检测技术已经在诸多现实领域中具有广泛的应用场景,例如:无人驾驶、辅助驾驶、人脸识别、无人安防、人机交互、行为识别等相关领域中。
然而,现有的目标检测方法通常在保证检测精度时却无法满足较好的检测效率,或是在实现高效检测时无法确保检测的精度以及目标物特征的损失度。
发明内容
有鉴于此,本发明提供一种目标物检测方法、装置及电子设备,用于解决目前的目标检测方法无法同时兼顾检测精度和检测效率的问题。
为解决上述技术问题,第一方面,本发明提供一种目标物检测方法,包括:
利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取;
构建平面扫描体来学习像素关系并估计深度信息;
将所述平面扫描体转换为3D几何体,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征;
利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络;
利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。
可选的,所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。
可选的,所述利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络包括:
利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,使得训练得到的卷积神经网络的总损失值小于预设损失阈值,所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。
可选的,所述第一子神经网络为孪生神经网络。
可选的,所述将所述平面扫描体转换为3D几何体包括:
通过可导扭曲操作,将所述平面扫描体转换为3D几何体。
第二方面,本发明还提供一种目标检测装置,包括:
第一提取模块,用于利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取;
平面扫描体模块,用于构建平面扫描体来学习像素关系并估计深度信息;
第二提取模块,用于将所述平面扫描体转换为3D几何体,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征;
训练模块,用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络;
检测模块,用于利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。
可选的,所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。
可选的,所述训练模块包括:
训练单元,用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,使得训练得到的卷积神经网络的总损失值小于预设损失阈值,所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。
可选的,所述第一子神经网络为孪生神经网络。
可选的,所述第二提取模块包括:
转换单元,用于通过可导扭曲操作,将所述平面扫描体转换为3D几何体。
第三方面,本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述处理器执行所述计算机程序时实现上述任一种目标物检测方法。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种目标物检测方法中的步骤。
本发明的上述技术方案的有益效果如下:
本发明实施例中,通过在平面扫描体中建立立体对应约束,从2D特征转换到具有3D几何特征的3D几何体,提高了双目获取深度信息的精度,对目标物检测的精确度更高,并且将多种神经网络进行整合,提高了目标物检测的效率。
附图说明
图1为本发明实施例一提供的一种目标物检测方法的流程示意图;
图2为本发明实施例二提供的一种目标物检测装置的结构示意图;
图3为本发明实施例三提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1为本发明实施例一提供的一种目标物检测方法的流程示意图,该方法包括以下步骤:
步骤11:利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取。
本发明实施例中,将双目图像对输入卷积神经网络中,利用卷积神经网络中的第一子神经网络提取双目图像对中的像素特征和第一高阶特征。可选的,所述第一子神经网络可以选用孪生神经网络(Siamese neural network),孪生神经网络有两个结构相同、且共享权值的子网络,在孪生神经网络中采用的损失函数是对比损失(contrastive loss),对比损失函数可以有效处理孪生神经网络中的配对数据的关系,对比损失的表达式如下:
其中,代表两个样本特征X1和X2的欧式距离,P表示样本特征维数,Y为两个样本是否匹配的标签,Y=1表示两个样本相似或匹配,Y=1表示两个样本不匹配,m为设定阈值,N为样本个数,w表示网络模型的参数,DW表示将输入的特征数据X转换为一组特征向量,L表示损失函数。
本发明实施例中的孪生神经网络利用的上述损失函数能够很好地表达成对样本的匹配程度,训练得到提取特征效果较好的网络模型。
其中,当Y=1时,损失函数为:
即当样本相似时,如果在特征空间的欧式距离比较大,说明当前网络模型不好,因此加大损失;
当Y=0时,损失函数为:
即当样本不相似时,其特征空间的欧氏距离反而变小,损失值会变大,正好符合要求。
步骤12:构建平面扫描体来学习像素关系并估计深度信息。
在双目立体匹配中,双目图像对(一对左右图像)可以用来构造基于视差的匹配代价体,它计算了双目图像对的像素点在水平方向上的位移是视差的匹配代价。根据基于匹配代价体的立体匹配方法,连接双目图像对特征构建平面扫描体(Plane-Sweep Volume),其坐标可以表示为(u,v,d),其中,(u,v) 表示图像上该点的像素点,d表示垂直于图像平面的深度信息,该坐标可以称之为相机坐标系下的坐标。平面扫描体能够学习像素间的相关性约束,因此利用平面扫描体来学习逐像素的对应关系,估计深度信息,可以容易地约束像素相关的一致性。
步骤13:将所述平面扫描体转换为3D几何体,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征。
本发明实施例中,可选的,可以通过可导的扭曲(warping)操作,将上述的平面扫描体转换为3D几何体,即3DGV(3D Geometric Volume),从而构建3D世界坐标系的3D几何特征。3D几何体可以看做是3D世界坐标系的3D体素网格,可以将3D几何体中的感兴趣区域按照大小为高、宽、深度 (W,H,D)的3D体素进行分割,所述高、宽、深度分别为沿摄像机视角的左方,下方和前方。由于前述步骤已经得到照相机坐标(u,v,d),因此,根据已知的相机内参,利用反相3D投影,转换到世界坐标系(x,y,z),具体公式如下:
其中,fx、fy分别为水平和垂直的焦距长度,cu、cv为相机位姿参数。
在得到3D几何体后,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征。可选的,所述第二子神经网络可以由金字塔立体匹配网络(Pyramid Stereo Matching Network,PSMNet)中的SPP 模块连接预设数量的输出层构成。现有的一个PSMNet主要由两个模块组成: SPP模块(Spatial Pyramid Pooling,SPP)和3D卷积神经网络,其中,SPP模块通过聚合不同尺度和不同位置的环境信息构建匹配代价卷来充分利用全局环境信息,3D卷积神经网络则通过将多个堆叠的沙漏网络(hourglassnetwork) 与中间监督(intermediate supervision,使网络不断重复自底向上和自顶向下的过程,相当于每层网络特征之间的连接与监督)结合起来,去调整匹配代价卷。 PSMNet可以将像素级别的特征拓展到包括不同尺度感受野的区域级别的特征,将全局和局部特征信息结合起来构成匹配代价卷以获得更加可靠的视差估计值。SPP模块用于获取特征,通过结合不同级别的特征有助于立体匹配。在现有的PSMNet中,SPP模块通常连接三个输出层(第一至第三输出层),而本发明实施例中,通过对PSMNet进行改进,将SPP模块连接多于3个的输出层,例如额外连接两个输出层(第四输出层和第五输出层),用于捕获更多的第二高阶特征,以提高匹配精度和检测精度,使得最终训练得到的卷积神经网络对目标物的检测更加准确。例如,将更多的计算从第三输出层转换到第四输出层和第五输出层。
步骤14:利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络。
在得到所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征之后,即可对卷积神经网络进行目标物检测训练。具体的,根据3D几何体中的特征图的大小,对高度信息进行下采样,得到用于鸟瞰视角的特征图,对于特征图中的每一个位置(x,z),提供多种不同大小和方向的锚(1,2,3,…,i),用A表示锚的位置、大小和方向,用G表示真实框的位置、大小和方向,则锚与真实框之间的距离为:
为了平衡正负样本的比例,则中心值的计算公式如下:
centerness(A,G)=e-norm(distance(A,G)),
其中,norm为范数。
由于本发明实施例中的卷积神经网络整合了多种神经网络的功能,因此,本发明实施例仅用一个卷积神经网络即可实现特征提取和目标物检测,卷积神经网络是一个端到端的网络,不需要多个独立网络,其过程是可导的,不容易造成数据的流失与失真,极大提高了目标物识别检测的效率,达到了实时检测的效果。
而由于本发明实施例中的卷积神经网络需要进行多种任务、例如特征提取、目标检测等等,因此卷积神经网络的训练过程是一个多任务训练过程,因此,可选的,在本发明的一些实施例中,所述利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络包括:
利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,使得训练得到的卷积神经网络的总损失值小于预设损失阈值,所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。
也就是说,通过利用损失函数来约束卷积神经网络,使训练得到的卷积神经网络的总损失值小于预设损失阈值,以确保训练得到的卷积神经网络在特征提取、目标检测等过程的高效准确。其中,卷积神经网络的总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者,可以知道,考虑的损失约全面,一般训练得到的卷积神经网络的效果也就越好。
示例性的,总损失值可以通过以下公式计算:
LOSS=Ldepth+Lcls+Lreg+Lcenterness,
其中,Ldepth表示深度回归损失,引入smooth损失,采用L1loss,则深度回归损失可以通过以下公式计算:
其中,Lcls表示分类损失,本发明实施例采用焦点损失改善3D空间中分类不平衡的问题,分类损失可以通过以下公式计算:
其中,Fpos表示鸟瞰图中所有的正样本。
由此,通过以上步骤,训练得到(3D)卷积神经网络的总损失值小于预设损失阈值后,即表明该卷积神经网络可以用于对目标物进行高效、准确的检测。
步骤15:利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。
也就是说,在卷积神经网络满足预设条件后,即表明卷积神经网络的训练已经完成,将目标图像输入到训练好的卷积神经网络中,即可通过卷积神经网络输出检测到的目标物的位置等信息,实现目标物的快速、准确检测。
本发明实施例中,通过在平面扫描体中建立立体对应约束,从2D特征转换到具有3D几何特征的3D几何体,提高了双目获取深度信息的精度,对目标物检测的精确度更高,并且将多种神经网络进行整合,提高了目标物检测的效率。
请参阅图2,图2是本发明实施例二提供的一种目标物检测装置的结构示意图,该目标物检测装置20包括:
第一提取模块21,用于利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取;
平面扫描体模块22,用于构建平面扫描体来学习像素关系并估计深度信息;
第二提取模块23,用于将所述平面扫描体转换为3D几何体,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征;
训练模块24,用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络;
检测模块25,用于利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。
可选的,所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。
可选的,所述训练模块包括:
训练单元,用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,使得训练得到的卷积神经网络的总损失值小于预设损失阈值,所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。
可选的,所述第一子神经网络为孪生神经网络。
可选的,所述第二提取模块包括:
转换单元,用于通过可导扭曲操作,将所述平面扫描体转换为3D几何体。
本发明实施例是与上述方法实施例一对应的产品实施例,故在此不再赘述,详细请参阅上述实施例一。
请参阅图3,图3是本发明实施例三提供的一种电子设备的结构示意图,该电子设备30包括处理器31、存储器32及存储在所述存储器32上并可在所述处理器31上运行的计算机程序;所述处理器31执行所述计算机程序时实现如下步骤:
利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取;
构建平面扫描体来学习像素关系并估计深度信息;
将所述平面扫描体转换为3D几何体,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征;
利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络;
利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。
本发明实施例中,可选的,所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。
可选的,所述利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络包括:
利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,使得训练得到的卷积神经网络的总损失值小于预设损失阈值,所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。
可选的,所述第一子神经网络为孪生神经网络。
可选的,所述将所述平面扫描体转换为3D几何体包括:
通过可导扭曲操作,将所述平面扫描体转换为3D几何体。
本发明实施例的具体工作过程与上述方法实施例一中的一致,故在此不再赘述,详细请参阅上述实施例一中方法步骤的说明。
本发明实施例四提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例一中任一种目标物检测方法中的步骤。详细请参阅以上对应实施例中方法步骤的说明。
上述计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种目标物检测方法,其特征在于,包括:
利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取;
构建平面扫描体来学习像素关系并估计深度信息;
将所述平面扫描体转换为3D几何体,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征;
利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络;
利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。
2.根据权利要求1所述的目标物检测方法,其特征在于,所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。
3.根据权利要求1所述的目标物检测方法,其特征在于,所述利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络包括:
利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,使得训练得到的卷积神经网络的总损失值小于预设损失阈值,所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。
4.根据权利要求1所述的目标物检测方法,其特征在于,所述第一子神经网络为孪生神经网络。
5.根据权利要求1所述的目标物检测方法,其特征在于,所述将所述平面扫描体转换为3D几何体包括:
通过可导扭曲操作,将所述平面扫描体转换为3D几何体。
6.一种目标物 检测装置,其特征在于,包括:
第一提取模块,用于利用卷积神经网络的第一子神经网络对输入的双目图像对进行像素特征提取和第一高阶特征提取;
平面扫描体模块,用于构建平面扫描体来学习像素关系并估计深度信息;
第二提取模块,用于将所述平面扫描体转换为3D几何体,利用卷积神经网络的第二子神经网络从所述3D几何体中提取用于目标识别的第二高阶特征;
训练模块,用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,得到满足预设条件的卷积神经网络;
检测模块,用于利用满足预设条件的卷积神经网络对目标双目图像对进行目标物检测。
7.根据权利要求6所述的目标物检测装置,其特征在于,所述第二子神经网络由金字塔立体匹配网络中的SPP模块连接预设数量的输出层构成。
8.根据权利要求6所述的目标物检测装置,其特征在于,所述训练模块包括:
训练单元,用于利用所述像素特征、所述第一高阶特征、所述像素关系、所述深度信息、所述3D几何体以及所述第二高阶特征对所述卷积神经网络进行目标物检测训练,使得训练得到的卷积神经网络的总损失值小于预设损失阈值,所述总损失值包括深度回归损失、分类损失、3D边框回归损失、中心损失中的至少一者。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的目标物检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5中任一项所述的目标物检测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535339.1A CN113284221B (zh) | 2021-05-17 | 2021-05-17 | 一种目标物检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535339.1A CN113284221B (zh) | 2021-05-17 | 2021-05-17 | 一种目标物检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284221A CN113284221A (zh) | 2021-08-20 |
CN113284221B true CN113284221B (zh) | 2022-04-19 |
Family
ID=77279450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110535339.1A Active CN113284221B (zh) | 2021-05-17 | 2021-05-17 | 一种目标物检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284221B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842287B (zh) * | 2022-03-25 | 2022-12-06 | 中国科学院自动化研究所 | 深度引导变形器的单目三维目标检测模型训练方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685141A (zh) * | 2018-12-25 | 2019-04-26 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度神经网络的机器人物品分拣视觉检测方法 |
CN111079523A (zh) * | 2019-11-05 | 2020-04-28 | 北京迈格威科技有限公司 | 物体检测方法、装置、计算机设备和存储介质 |
CN111539484A (zh) * | 2020-04-29 | 2020-08-14 | 北京市商汤科技开发有限公司 | 训练神经网络的方法及装置 |
CN111914615A (zh) * | 2020-06-04 | 2020-11-10 | 江苏君英天达人工智能研究院有限公司 | 基于立体视觉的消防区域可通过性分析系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376235A (zh) * | 2018-01-15 | 2018-08-07 | 深圳市易成自动驾驶技术有限公司 | 图像检测方法、装置及计算机可读存储介质 |
WO2020155522A1 (en) * | 2019-01-31 | 2020-08-06 | Huawei Technologies Co., Ltd. | Three-dimension (3d) assisted personalized home object detection |
CN111462208A (zh) * | 2020-04-05 | 2020-07-28 | 北京工业大学 | 一种基于双目视差和外极线约束的无监督深度预测方法 |
-
2021
- 2021-05-17 CN CN202110535339.1A patent/CN113284221B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109685141A (zh) * | 2018-12-25 | 2019-04-26 | 哈工大机器人(合肥)国际创新研究院 | 一种基于深度神经网络的机器人物品分拣视觉检测方法 |
CN111079523A (zh) * | 2019-11-05 | 2020-04-28 | 北京迈格威科技有限公司 | 物体检测方法、装置、计算机设备和存储介质 |
CN111539484A (zh) * | 2020-04-29 | 2020-08-14 | 北京市商汤科技开发有限公司 | 训练神经网络的方法及装置 |
CN111914615A (zh) * | 2020-06-04 | 2020-11-10 | 江苏君英天达人工智能研究院有限公司 | 基于立体视觉的消防区域可通过性分析系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113284221A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648161B (zh) | 非对称核卷积神经网络的双目视觉障碍物检测系统及方法 | |
Zhou et al. | Self‐supervised learning to visually detect terrain surfaces for autonomous robots operating in forested terrain | |
CN113159151B (zh) | 面向自动驾驶的多传感器深度融合3d目标检测方法 | |
CN112613378B (zh) | 3d目标检测方法、系统、介质及终端 | |
Ohgushi et al. | Road obstacle detection method based on an autoencoder with semantic segmentation | |
CN111582054B (zh) | 点云数据处理方法及装置、障碍物检测方法及装置 | |
CN111091023B (zh) | 一种车辆检测方法、装置及电子设备 | |
EP2637126A2 (en) | Method and apparatus for detecting vehicle | |
CN113408584B (zh) | Rgb-d多模态特征融合3d目标检测方法 | |
CN111311611B (zh) | 一种实时三维大场景多对象实例分割的方法 | |
WO2021114776A1 (en) | Object detection method, object detection device, terminal device, and medium | |
CN114463736A (zh) | 一种基于多模态信息融合的多目标检测方法及装置 | |
CN105574545A (zh) | 环境图像多视角语义切割方法及装置 | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
CN103679740A (zh) | 一种无人机对地目标roi提取方法 | |
CN113284221B (zh) | 一种目标物检测方法、装置及电子设备 | |
CN112712066B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
Kao et al. | Moving object segmentation using depth and optical flow in car driving sequences | |
Engels et al. | 3d object detection from lidar data using distance dependent feature extraction | |
CN110555406B (zh) | 一种基于Haar-like特征及CNN匹配的视频运动目标识别方法 | |
CN116246119A (zh) | 3d目标检测方法、电子设备及存储介质 | |
Salih et al. | Depth estimation using monocular cues from single image | |
Konno et al. | Incremental multi-view object detection from a moving camera | |
Yin et al. | 3D Object Detection Method Based on YOLO and K-Means for Image and Point Clouds | |
Palmer et al. | Scale proportionate histograms of oriented gradients for object detection in co-registered visual and range data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |