CN111932530A - 三维对象检测方法、装置、设备和可读存储介质 - Google Patents

三维对象检测方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN111932530A
CN111932530A CN202010986237.7A CN202010986237A CN111932530A CN 111932530 A CN111932530 A CN 111932530A CN 202010986237 A CN202010986237 A CN 202010986237A CN 111932530 A CN111932530 A CN 111932530A
Authority
CN
China
Prior art keywords
target object
mask
dimensional
feature map
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010986237.7A
Other languages
English (en)
Other versions
CN111932530B (zh
Inventor
周定富
宋希彬
张良俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010986237.7A priority Critical patent/CN111932530B/zh
Publication of CN111932530A publication Critical patent/CN111932530A/zh
Application granted granted Critical
Publication of CN111932530B publication Critical patent/CN111932530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种三维对象检测方法、装置、设备和可读存储介质,涉及计算机视觉、无人驾驶和虚拟现实技术。具体实现方案为对二维图像进行特征提取,得到目标对象的原始特征图;根据所述原始特征图得到所述目标对象的掩码,以及根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图;其中,所述目标对象的掩码用于强化所述目标对象的特征,抑制不属于所述目标对象的特征;根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。本申请实施例可以提高三维检测的精度。

Description

三维对象检测方法、装置、设备和可读存储介质
技术领域
本申请涉及计算机技术,尤其涉及计算机视觉、无人驾驶和虚拟现实技术领域。
背景技术
近年来,随着计算机视觉技术的发展,可以利用二维图像的图像特征进行三维对象的检测与估计。以基于中心点的三维对象检测方法为例,在此类方法中,每一个对象被定义成一个中心点,对象检测转化为中心点的检测。对于每一个中心点,网络将去预测其所对应对象的属性。
二维图像中所检测的对象可能会被其它物体遮挡,导致所检测的对象的中心点落在其他对象上。如图1a所示,车辆2的中心点位于车辆1的表面,该中心点周围的像素大部分来自车辆1。在训练过程中,网络可能会对中心分类以及属性回归使用哪些像素产生混淆,导致网络的三维检测精度较低。
发明内容
本申请实施例提供了一种三维对象检测方法、装置、设备和可读存储介质。
第一方面,本申请实施例提供了一种三维对象检测方法,包括:
对二维图像进行特征提取,得到目标对象的原始特征图;
根据所述原始特征图得到所述目标对象的掩码,以及根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图;其中,所述目标对象的掩码用于强化所述目标对象的特征,抑制不属于所述目标对象的特征;
根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。
第二方面,本申请实施例还提供了一种三维对象检测装置,包括:
特征提取模块,用于对二维图像进行特征提取,得到目标对象的原始特征图;
加强处理模块,用于根据所述原始特征图得到所述目标对象的掩码,以及根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图;其中,所述目标对象的掩码用于强化所述目标对象的特征,抑制不属于所述目标对象的特征;
三维检测模块,用于根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。
第三方面,本申请实施例提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行任一实施例所提供的一种三维对象检测方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行任一实施例所提供的一种三维对象检测方法。
根据本申请的技术可以提高三维检测的精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1a是现有技术中存在遮挡的二维图像示意图;
图1b是本申请实施例中的第一种三维对象检测方法的流程图;
图1c是本申请实施例提供的三维对象检测框架示意图;
图2a是本申请实施例中的第二种三维对象检测方法的流程图;
图2b是本申请实施例中的对原始特征图进行设定操作的示意图;
图3a是本申请实施例中的第三种三维对象检测方法的流程图;
图3b是本申请实施例中的对原始特征图加强处理的示意图;
图4是本申请实施例中的第四种三维对象检测方法的流程图;
图5是本申请实施例中的三维对象检测装置的结构图;
图6是本申请实施例中的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
根据本申请的实施例,图1b是本申请实施例中的第一种三维对象检测方法的流程图,本申请实施例适用于基于二维图像检测对象三维信息的情况。该方法通过三维对象检测装置执行,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图1b所示的三维对象检测方法,包括:
S110、对二维图像进行特征提取,得到目标对象的原始特征图。
本实施例中,二维图像可以为无人驾驶场景中单目摄像头拍摄的图像,或者虚拟现实领域中单目摄像头拍摄的图像。当然,任何领域产生的二维图像都适用于本申请实施例。
通过特征提取网络对二维图像进行特征提取。特征提取网络可以是卷积神经网络,提取目标对象的深度特征图。可选的,目标对象可以是某个物体、动物或人,本实施例不做限定。具体的,图1c是本申请实施例提供的三维对象检测框架示意图。二维图像可以是三通道彩色图像或者一通道灰度图像。二维图像的长、宽以及通道数分别为W、H和C0,经过特征提取网络,又称为主干网络(Backbone Network),提取目标对象的深度特征图(称为原始特征图),如式(1)所示。可选的,特征提取网络可以是ResNet和DLA34等。
Figure BDA0002689356640000041
其中,C_1可以根据实际的需求设定,如C_1=64。一般情况下,C_1>C0,二维图像经过特征提取后,得到高维特征。
S120、根据原始特征图得到目标对象的掩码,以及根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图;其中,目标对象的掩码用于强化目标对象的特征,抑制不属于目标对象的特征。
目标对象的掩码与原始特征图的尺寸一致,包括w*h个点,其中,
Figure BDA0002689356640000042
每个点的权重值表示属于目标对象的概率。原始特征图除了包括目标对象的特征,还包括其它对象以及背景的特征。而非目标对象的特征势必对目标对象的三维信息检测带来影响,有必要过滤这些非目标对象的特征。
可选的,如图1c所示,通过特征加强网络执行S120的操作。具体的,对原始特征图进行特征提取等一系列处理,得到目标对象的掩码。根据掩码中每个点的权重值对原始特征图中对应点的值进行加强处理,得到最终特征图。可以理解的是,当权重值较低时,最终特征图中对应点的值会减小,从而将不属于目标对象的特征抑制;当权重值较高时,最终特征图中对应点的值会减大,从而将不属于目标对象的特征加强。
S130、根据最终特征图检测目标对象的中心点,并估计目标对象的三维信息。
通过S120的操作,最终特征图能滤除大部分不属于目标对象的特征,仅包括属于目标对象的特征。如图1c所示,本实施例将最终特征图替代原始特征图,进行中心点检测和三维信息的估计。
可选的,通过三维检测网络中的中心点检测分支根据最终特征图检测目标对象的中心点,并通过三维信息估计分支估计目标对象的三维信息。其中,中心点为三维目标对象在二维图像上投影得到的质心,三维信息包括三维包围框的大小和朝向等。
本实施例对中心点检测方法和三维信息的估计方法不作限定,可以是任何基于二维图像的单阶段三维检测方法。示例性的,对最终特征图进行关键点检测,通过关键点回归得到中心点,再根据中心点回归三维信息。
如图1c所示,在特征加强网络后连接的卷积层,提高特征维度。中心点检测分支输出关键点的热力图,其中C为类别的个数,三维信息估计分支输出三维信息,其中N为回归参数的个数。
本实施例中,通过根据原始特征图得到目标对象的掩码,以及根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图,使得最终特征图能滤除大部分不属于目标对象的特征,仅包括属于目标对象的特征;进而根据最终特征图能够准确地检测三维对象的信息,即使目标对象被其它对象遮挡,也能精准地检测到中心点和三维信息。
根据本申请的实施例,图2a是本申请实施例中的第二种三维对象检测方法的流程图,本申请实施例在上述各实施例的技术方案的基础上对掩码的获得过程进行优化。
图2a所示的三维对象检测方法,具体包括以下操作:
S210、对二维图像进行特征提取,得到目标对象的原始特征图。
S220、对原始特征图分别进行至少两次不同的设定操作,得到至少两个中间特征图。
具体的,对原始特征图进行一次设定操作,得到一个中间特征图;对原始特征图再进行一次设定操作,又会得到另一个中间特征图。本实施例限定设定操作的数量为至少两次。
每次的设定操作依次包括:卷积操作、激活操作、归一化操作和卷积操作。需要说明的是,任两次设定操作不同,具体指卷积操作、激活操作、归一化操作和卷积操作的参数不同。通过不同的设定操作,得到包含目标对象特征维度信息不同的中间特征图,有利于基于多种维度的信息得到精度较高的掩码。
将原始特征图分别输入至至少两个结构相同的网络,至少两个结构相同的网络包括不同的网络参数;结构相同的网络包括依次连接的卷积模块、激活模块、归一化模块和卷积模块;网络参数为结构相同的网络中各模块的参数。
图2b是本申请实施例中的对原始特征图进行设定操作的示意图。将原始特征图F_1分别输入至网络A和网络B中,网络A和网络B基于各模块分别对原始特征图F_1进行卷积操作、激活操作、归一化操作和卷积操作。卷积核的尺寸如图2b所示。其中,激活模块包括线性整流函数(Rectified Linear Unit,ReLU)。归一化模块用于进行群归一化操作,群归一化参数为8,有利于提高归一化的效率。各模块的参数不完全相同,允许部分模块的参数相同,只要保证任意两个中间特征图不同即可。经过网络A和网络B,分别得到中间特征图F1:w*h*4C,F2:w*h*4C。为了方便后续运算,令d=w*h进行维数转换(reshape),其中d∈R,得到中间特征图F1:d*4C,F2:d*4C。
本实施例提供了生成中间特征图的网络结构,通过共享相同的网络结构,并设置不同的网络参数,使得生成包括不同维度信息的中间特征图,实现方式简单,只需要设置不同的网络参数即可。
S230、融合至少两个中间特征图,得到目标对象的掩码。
由于至少两个中间特征图包含的目标对象特征维度信息不同,通过融合至少两个中间特征图,使得目标对象的掩码能够融合目标对象的多维度特征,提高掩码的准确性,从而有利于准确强化目标对象的特征,抑制不属于目标对象的特征。
可选的,将至少两个中间特征图进行矩阵相乘,得到相乘后的矩阵;激活相乘后的矩阵,得到激活后的矩阵;对激活后的矩阵进行归一化,得到目标对象的掩码。
为了满足矩阵相乘时的维度要求,在将两个中间特征图进行矩阵相乘时,需要将被乘的中间特征图转置,再行矩阵相乘操作。如图2b所示,将F1与F2的转置进行矩阵相乘,得到相乘后的矩阵d*d。然后采用Sigmoid函数对相乘后的矩阵进行激活。Sigmoid函数如式(2)所示:
Figure BDA0002689356640000061
Sigmoid函数将所有的相乘后的矩阵元素变换到[0,1]区间。然后,通过归一化函数Norm对矩阵沿着行进行归一化,得到特征图G:d*d。
S240、根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图。
S250、根据最终特征图检测目标对象的中心点,并估计目标对象的三维信息。
本实施例提供了掩码的获取方式,通过对至少两个中间特征图相乘、激活和归一化,得到规范的、融合不同维度信息的掩码,提高了掩码的规范性和准确性。
根据本申请的实施例,图3a是本申请实施例中的第三种三维对象检测方法的流程图,本实施例在上述实施例的基础上,对加强处理的过程进行优化。
如图3a所示的三维对象检测方法,包括:
S310、对二维图像进行特征提取,得到目标对象的原始特征图。
S320、根据原始特征图得到目标对象的掩码,目标对象的掩码用于强化目标对象的特征,抑制不属于目标对象的特征。
S330、对原始特征图进行下采样。
图3b是本申请实施例中的对原始特征图加强处理的示意图。如图3b所示,一方面将原始特征图调整到与掩码同样大小,另一方面,将原始特征图下采样后可以减少需要处理的数据,减少计算机资源消耗,本实施例可以对原始特征图进行1/2下采样。
S340、将目标对象的掩码和下采样后的原始特征图进行矩阵相乘,得到目标对象的聚合特征。
目标图像的掩码可以采用上述实施例得到,此处不再赘述。
为了满足矩阵相乘时的维数要求,在将目标对象的掩码和下采样后的原始特征图w*h*C进行矩阵相乘时,需要将下采样后的原始特征图进行维数转换,得到H:d*C,再行矩阵相乘操作。具体的,目标对象的掩码和下采样后的原始特征图进行矩阵相乘,得到聚合特征F_aggregated:d*C。
S350、将聚合特征进行上采样,使上采样后的聚合特征与原始特征图尺寸一致。
然后,将F_aggregated按照下采样的采样率的倒数进行上采样,使上采样后的聚合特征与原始特征图尺寸一致。
可选的,如果在S340矩阵相乘前进行了维数转换,还需要在上采样之后,再次进行维数转换,得到聚合特征的最终尺寸w*h*C,与原始特征图尺寸一致。
S360、根据上采样后的聚合特征对原始特征图进行加强处理,得到最终特征图。
可选的,如图3b所示,将上采样后的聚合特征加权后与原始特征图相加,从而实现加强处理。聚合特征的权值通过训练得到。
S370、根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。
本实施例中,聚合特征反映了特征图上每个点受其它点的影响。聚合特征相当于为原始特征图中的每个点学习一个额外的注意图,并明确告诉网络哪些像素属于这个对象,它们应该为中心点分类和三维信息回归做出更多贡献属性回归。直观地说,注意力图的学习可以通过对象的掩码来指导。通过加入这种注意力图来收集属于同一对象的所有像素,以完成目标检测任务。具体地说,该方法显式地学习一个注意映射,以自动地为每个对象聚合有用的信息。
根据本申请的实施例,图4是本申请实施例中的第四种三维对象检测方法的流程图,本实施例在上述实施例的基础上,对模型训练的过程进行优化。
如图4所示的三维对象检测方法,包括:
S410、获取训练样本集,训练样本集包括多个二维图像样本、每个二维图像样本中属于目标对象的每个未遮挡点的目标掩码,以及每个二维图像样本中目标对象的中心点标注信息和三维标注信息。
每个二维图像样本中包括目标对象,例如车辆。为属于目标对象上的每个未遮挡的点构建与整个二维图像样本大小一致的目标掩码,作为根据原始特征图得到掩码的监督。可选的,属于目标对象的像素点标注为1,不属于目标对象的像素点标注为0。
需要说明的是,为了方便对目标对象标注,需要基于二维图像上的像素点标注,从而形成与二维图像尺寸一致的目标掩码,而根据原始特征图得到的掩码尺寸与目标掩码不同,则需要将目标掩码与二维图像样本一起输入至三维对象检测网络,通过三维对象检测网路对目标掩码进行降采样,实现维数转换,使降采样后的目标掩码与根据原始特征图得到的掩码尺寸一致,例如均为w*h。
中心点标注信息为标注的中心点的位置,三维标注信息包括三维包围框的大小以及三维包围框的朝向等。
S420、根据训练样本集训练三维对象检测网络,三维对象检测网络包括依次连接的特征提取网络、特征加强网络和三维检测网络。
其中,特征提取网络用于对二维图像进行特征提取,得到目标对象的原始特征图;特征加强网络用于根据原始特征图得到目标对象的掩码,以及根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图;其中,目标对象的掩码用于强化目标对象的特征,抑制不属于目标对象的特征;三维检测网络用于根据最终特征图检测目标对象的中心点,并估计目标对象的三维信息。
具体的,将多个二维图像样本输入至三维对象检测网络中,采用目标掩码监督原始特征图得到的掩码,采用中心点标注信息监督中心点的位置,采用三维标注信息监督目标对象的三维信息。
S430、对二维图像进行特征提取,得到目标对象的原始特征图。
S440、根据原始特征图得到目标对象的掩码,以及根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图;其中,目标对象的掩码用于强化目标对象的特征,抑制不属于目标对象的特征。
S450、根据最终特征图检测目标对象的中心点,并估计目标对象的三维信息。
本实施例中,将整个三维对象检测网络进行整体训练,对掩码、中心点和三维信息同时约束,从而同时保证了掩码、中心点和三维信息的准确性,从而提高了三维检测的精度。
在上述实施例中,获取每个二维图像样本中属于目标对象的每个未遮挡点的目标掩码,包括:采用物体分割算法对每个二维图像样本进行处理,得到每个二维图像样本中属于目标对象的每个未遮挡点的目标掩码。
可选的,物体分割算法包括Mask-Rcnn(Region-based Convolution NeuralNetworks,基于区域的卷积神经网络)算法。物体分割算法效率更高,但得到的结果比人工标注要粗糙,但实验证明,以粗略的掩码标注作为监督信号,仍然可以很好地学习掩码。
根据本申请的实施例,图5是本申请实施例中的三维对象检测装置的结构图,本申请实施例适用于基于二维图像检测对象三维信息的情况,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图5所示的一种三维对象检测装置500,包括:特征提取模块501、加强处理模块502和三维检测模块503;其中,
特征提取模块501,用于对二维图像进行特征提取,得到目标对象的原始特征图;
加强处理模块502,用于根据原始特征图得到目标对象的掩码,以及根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图;其中,目标对象的掩码用于强化目标对象的特征,抑制不属于目标对象的特征;
三维检测模块503,用于根据最终特征图检测目标对象的中心点,并估计目标对象的三维信息。
本实施例中,通过根据原始特征图得到目标对象的掩码,以及根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图,使得最终特征图能滤除大部分不属于目标对象的特征,仅包括属于目标对象的特征;进而根据最终特征图能够准确地检测三维对象的信息,即使目标对象被其它对象遮挡,也能精准地检测到中心点和三维信息。
可选的,加强处理模块502,包括:掩码获取单元,用于对原始特征图分别进行至少两次不同的设定操作,得到至少两个中间特征图;融合至少两个中间特征图,得到目标对象的掩码;其中,设定操作依次包括:卷积操作、激活操作、归一化操作和卷积操作;加强处理单元,用于根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图。
可选的,掩码获取单元在对原始特征图分别进行至少两次不同的设定操作,得到至少两个中间特征图时,具体用于:将原始特征图分别输入至至少两个结构相同的网络,至少两个结构相同的网络包括不同的网络参数;结构相同的网络包括依次连接的卷积模块、激活模块、归一化模块和卷积模块;网络参数为结构相同的网络中各模块的参数。
可选的,掩码获取单元在融合至少两个中间特征图,得到目标对象的掩码时,具体用于:将至少两个中间特征图进行矩阵相乘,得到相乘后的矩阵;激活相乘后的矩阵,得到激活后的矩阵;对激活后的矩阵进行归一化,得到目标对象的掩码。
可选的,加强处理模块502,包括:掩码获取单元,用于根据原始特征图得到目标对象的掩码;加强处理单元,用于对原始特征图进行下采样;将目标对象的掩码和下采样后的原始特征图进行矩阵相乘,得到目标对象的聚合特征;将聚合特征进行上采样,使上采样后的聚合特征与原始特征图尺寸一致;根据上采样后的聚合特征对原始特征图进行加强处理,得到最终特征图。
可选的,该装置还包括:样本获取模块,用于获取训练样本集,训练样本集包括多个二维图像样本、每个二维图像样本中属于目标对象的每个未遮挡点的目标掩码,以及每个二维图像样本中目标对象的中心点标注信息和三维标注信息;训练模块,用于根据训练样本集训练三维对象检测网络,三维对象检测网络包括依次连接的特征提取网络、特征加强网络和三维检测网络;其中,特征提取网络用于对二维图像进行特征提取,得到目标对象的原始特征图;特征加强网络用于根据原始特征图得到目标对象的掩码,以及根据目标对象的掩码对原始特征图进行加强处理,得到最终特征图;其中,目标对象的掩码用于强化目标对象的特征,抑制不属于目标对象的特征;三维检测网络用于根据最终特征图检测目标对象的中心点,并估计目标对象的三维信息。
可选的,样本获取模块,具体用于:采用物体分割算法对每个二维图像样本进行处理,得到每个二维图像样本中属于目标对象的每个未遮挡点的目标掩码。
上述三维对象检测装置可执行本申请任意实施例所提供的三维对象检测方法,具备执行三维对象检测方法相应的功能模块和有益效果。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是实现本申请实施例的三维对象检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个终端提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的三维对象检测方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的三维对象检测方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的三维对象检测方法对应的程序指令/模块(例如,附图5所示的包括特征提取模块501、加强处理模块502和三维检测模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的三维对象检测方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现三维对象检测方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至执行三维对象检测方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行三维对象检测方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与执行三维对象检测方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (16)

1.一种三维对象检测方法,包括:
对二维图像进行特征提取,得到目标对象的原始特征图;
根据所述原始特征图得到所述目标对象的掩码,以及根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图;其中,所述目标对象的掩码用于强化所述目标对象的特征,抑制不属于所述目标对象的特征;
根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。
2.根据权利要求1所述的方法,所述根据所述原始特征图得到所述目标对象的掩码,包括:
对所述原始特征图分别进行至少两次不同的设定操作,得到至少两个中间特征图;
融合所述至少两个中间特征图,得到所述目标对象的掩码;
其中,所述设定操作依次包括:卷积操作、激活操作、归一化操作和卷积操作。
3.根据权利要求2所述的方法,其中,所述对所述原始特征图分别进行至少两次不同的设定操作,得到至少两个中间特征图,包括:
将所述原始特征图分别输入至至少两个结构相同的网络,所述至少两个结构相同的网络包括不同的网络参数;
所述结构相同的网络包括依次连接的卷积模块、激活模块、归一化模块和卷积模块;所述网络参数为所述结构相同的网络中各模块的参数。
4.根据权利要求2所述的方法,其中,所述融合所述至少两个中间特征图,得到所述目标对象的掩码,包括:
将所述至少两个中间特征图进行矩阵相乘,得到相乘后的矩阵;
激活所述相乘后的矩阵,得到激活后的矩阵;
对所述激活后的矩阵进行归一化,得到所述目标对象的掩码。
5.根据权利要求1所述的方法,其中,所述根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图,包括:
对所述原始特征图进行下采样;
将所述目标对象的掩码和下采样后的原始特征图进行矩阵相乘,得到所述目标对象的聚合特征;
将所述聚合特征进行上采样,使上采样后的聚合特征与所述原始特征图尺寸一致;
根据上采样后的聚合特征对所述原始特征图进行加强处理,得到最终特征图。
6.根据权利要求1-5任一项所述的方法,在所述对二维图像进行特征提取,得到目标对象的原始特征图之前,还包括:
获取训练样本集,所述训练样本集包括多个二维图像样本、每个所述二维图像样本中属于目标对象的每个未遮挡点的目标掩码,以及每个所述二维图像样本中目标对象的中心点标注信息和三维标注信息;
根据所述训练样本集训练三维对象检测网络,所述三维对象检测网络包括依次连接的特征提取网络、特征加强网络和三维检测网络;
其中,所述特征提取网络用于对二维图像进行特征提取,得到目标对象的原始特征图;所述特征加强网络用于根据所述原始特征图得到所述目标对象的掩码,以及根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图;其中,所述目标对象的掩码用于强化所述目标对象的特征,抑制不属于所述目标对象的特征;所述三维检测网络用于根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。
7.根据权利要求6所述的方法,其中,所述获取每个所述二维图像样本中属于目标对象的每个未遮挡点的目标掩码,包括:
采用物体分割算法对每个所述二维图像样本进行处理,得到每个所述二维图像样本中属于目标对象的每个未遮挡点的目标掩码。
8.一种三维对象检测装置,包括:
特征提取模块,用于对二维图像进行特征提取,得到目标对象的原始特征图;
加强处理模块,用于根据所述原始特征图得到所述目标对象的掩码,以及根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图;其中,所述目标对象的掩码用于强化所述目标对象的特征,抑制不属于所述目标对象的特征;
三维检测模块,用于根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。
9.根据权利要求8所述的装置,所述加强处理模块,包括:
掩码获取单元,用于对所述原始特征图分别进行至少两次不同的设定操作,得到至少两个中间特征图;融合所述至少两个中间特征图,得到所述目标对象的掩码;其中,所述设定操作依次包括:卷积操作、激活操作、归一化操作和卷积操作;
加强处理单元,用于根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图。
10.根据权利要求9所述的装置,其中,所述掩码获取单元在对所述原始特征图分别进行至少两次不同的设定操作,得到至少两个中间特征图时,具体用于:
将所述原始特征图分别输入至至少两个结构相同的网络,所述至少两个结构相同的网络包括不同的网络参数;
所述结构相同的网络包括依次连接的卷积模块、激活模块、归一化模块和卷积模块;所述网络参数为所述结构相同的网络中各模块的参数。
11.根据权利要求9所述的装置,其中,所述掩码获取单元在融合所述至少两个中间特征图,得到所述目标对象的掩码时,具体用于:
将所述至少两个中间特征图进行矩阵相乘,得到相乘后的矩阵;
激活所述相乘后的矩阵,得到激活后的矩阵;
对所述激活后的矩阵进行归一化,得到所述目标对象的掩码。
12.根据权利要求8所述的装置,其中,所述加强处理模块,包括:
掩码获取单元,用于根据所述原始特征图得到所述目标对象的掩码;
加强处理单元,用于对所述原始特征图进行下采样;将所述目标对象的掩码和下采样后的原始特征图进行矩阵相乘,得到所述目标对象的聚合特征;将所述聚合特征进行上采样,使上采样后的聚合特征与所述原始特征图尺寸一致;根据上采样后的聚合特征对所述原始特征图进行加强处理,得到最终特征图。
13.根据权利要求8-12任一项所述的装置,还包括:
样本获取模块,用于获取训练样本集,所述训练样本集包括多个二维图像样本、每个所述二维图像样本中属于目标对象的每个未遮挡点的目标掩码,以及每个所述二维图像样本中目标对象的中心点标注信息和三维标注信息;
训练模块,用于根据所述训练样本集训练三维对象检测网络,所述三维对象检测网络包括依次连接的特征提取网络、特征加强网络和三维检测网络;
其中,所述特征提取网络用于对二维图像进行特征提取,得到目标对象的原始特征图;所述特征加强网络用于根据所述原始特征图得到所述目标对象的掩码,以及根据所述目标对象的掩码对所述原始特征图进行加强处理,得到最终特征图;其中,所述目标对象的掩码用于强化所述目标对象的特征,抑制不属于所述目标对象的特征;所述三维检测网络用于根据所述最终特征图检测所述目标对象的中心点,并估计所述目标对象的三维信息。
14.根据权利要求13所述的装置,其中,所述样本获取模块,具体用于:
采用物体分割算法对每个所述二维图像样本进行处理,得到每个所述二维图像样本中属于目标对象的每个未遮挡点的目标掩码。
15.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的一种三维对象检测方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的一种三维对象检测方法。
CN202010986237.7A 2020-09-18 2020-09-18 三维对象检测方法、装置、设备和可读存储介质 Active CN111932530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010986237.7A CN111932530B (zh) 2020-09-18 2020-09-18 三维对象检测方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010986237.7A CN111932530B (zh) 2020-09-18 2020-09-18 三维对象检测方法、装置、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN111932530A true CN111932530A (zh) 2020-11-13
CN111932530B CN111932530B (zh) 2024-02-23

Family

ID=73333481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010986237.7A Active CN111932530B (zh) 2020-09-18 2020-09-18 三维对象检测方法、装置、设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN111932530B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487979A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 目标检测方法和模型训练方法、装置、电子设备和介质
CN112819880A (zh) * 2021-01-07 2021-05-18 北京百度网讯科技有限公司 三维物体检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN110503097A (zh) * 2019-08-27 2019-11-26 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置及存储介质
US20200167929A1 (en) * 2018-03-15 2020-05-28 Boe Technology Group Co., Ltd. Image processing method, image processing apparatus, and computer-program product

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
US20200167929A1 (en) * 2018-03-15 2020-05-28 Boe Technology Group Co., Ltd. Image processing method, image processing apparatus, and computer-program product
CN109215080A (zh) * 2018-09-25 2019-01-15 清华大学 基于深度学习迭代匹配的6d姿态估计网络训练方法及装置
CN110503097A (zh) * 2019-08-27 2019-11-26 腾讯科技(深圳)有限公司 图像处理模型的训练方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李宇杰;李煊鹏;张为公;: "基于视觉的三维目标检测算法研究综述", 计算机工程与应用, no. 01 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487979A (zh) * 2020-11-30 2021-03-12 北京百度网讯科技有限公司 目标检测方法和模型训练方法、装置、电子设备和介质
CN112487979B (zh) * 2020-11-30 2023-08-04 北京百度网讯科技有限公司 目标检测方法和模型训练方法、装置、电子设备和介质
CN112819880A (zh) * 2021-01-07 2021-05-18 北京百度网讯科技有限公司 三维物体检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111932530B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
EP3926526A2 (en) Optical character recognition method and apparatus, electronic device and storage medium
US11841921B2 (en) Model training method and apparatus, and prediction method and apparatus
CN111783870B (zh) 人体属性的识别方法、装置、设备及存储介质
US20230186486A1 (en) Vehicle tracking method and apparatus, and electronic device
CN111598164B (zh) 识别目标对象的属性的方法、装置、电子设备和存储介质
CN111539438B (zh) 文本内容的识别方法、装置及电子设备
CN111783620A (zh) 表情识别方法、装置、设备及存储介质
CN111709873B (zh) 图像转换模型生成器的训练方法和装置
CN111967297B (zh) 图像的语义分割方法、装置、电子设备及介质
CN111626027B (zh) 表格结构还原方法、装置、设备、系统和可读存储介质
CN113591573A (zh) 多任务学习深度网络模型的训练及目标检测方法、装置
CN112561879B (zh) 模糊度评价模型训练方法、图像模糊度评价方法及装置
CN111814637A (zh) 一种危险驾驶行为识别方法、装置、电子设备及存储介质
EP3846122B1 (en) Method and apparatus for generating background-free image, device, and medium
CN111932530B (zh) 三维对象检测方法、装置、设备和可读存储介质
CN115358392A (zh) 深度学习网络的训练方法、文本检测方法及装置
CN111814636A (zh) 一种安全带检测方法、装置、电子设备及存储介质
CN116740355A (zh) 自动驾驶图像的分割方法、装置、设备及存储介质
CN112749701B (zh) 车牌污损分类模型的生成方法和车牌污损分类方法
CN112529180B (zh) 模型蒸馏的方法和装置
CN111563541B (zh) 图像检测模型的训练方法和装置
CN112488126A (zh) 特征图处理方法、装置、设备以及存储介质
CN112529058A (zh) 图像生成模型训练方法和装置、图像生成方法和装置
CN113344121B (zh) 训练招牌分类模型和招牌分类的方法
CN111753960B (zh) 模型训练及图像处理方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant