CN111241969A - 目标检测方法、装置及相应模型训练方法、装置 - Google Patents

目标检测方法、装置及相应模型训练方法、装置 Download PDF

Info

Publication number
CN111241969A
CN111241969A CN202010010846.9A CN202010010846A CN111241969A CN 111241969 A CN111241969 A CN 111241969A CN 202010010846 A CN202010010846 A CN 202010010846A CN 111241969 A CN111241969 A CN 111241969A
Authority
CN
China
Prior art keywords
training
training data
point cloud
target
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010010846.9A
Other languages
English (en)
Inventor
冯阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202010010846.9A priority Critical patent/CN111241969A/zh
Publication of CN111241969A publication Critical patent/CN111241969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种目标检测方法、装置及相应模型训练方法、装置。所述目标检测模型训练方法包括:对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布;依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据;根据所述训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。其有益效果在于,可以根据原始训练数据类别的分布情况对原始训练数据中的少样本类别进行数据增广,得到训练数据再根据增广后的原始数据进行迭代训练,缓解了原始数据不均衡造成的检测结果的长尾效应,提高了多种类别的检测准确性,实现大类别的目标检测。

Description

目标检测方法、装置及相应模型训练方法、装置
技术领域
本申请涉及目标检测领域,具体涉及目标检测方法、装置及相应模型训练方法、装置。
背景技术
在现有的自动驾驶场景中,利用激光雷达对场景中目标进行检测,确定目标与自动驾驶设备之间的相对位置、目标的种类等信息是一种常用手段。但是现有技术所能够检测的目标类别较少,例如,只能判断出一个目标是汽车,而无法识别出具体是大型车还是中型车,是面包车还是SUV(运动型实用汽车),也就是仅能够支持小类别识别的场景,不能有效地对大类别目标进行有效的识别。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的目标检测方法、装置及相应模型训练方法、装置。
依据本申请的一个方面,提供了一种目标检测模型的训练方法,所述目标为自动驾驶场景中的待关注对象,所述方法包括:
对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布;
依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据;
根据所述训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。
可选地,所述原始训练数据为三维点云图,所述依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据包括:
依据所述标注类别分布,确定待增广类别;
选取带有待增广类别的标注的三维点云图,对选取的三维点云图进行若干次整图复制;和/或,从选取的三维点云图中复制出与待增广类别的标注对应的三维点云,将复制出的三维点云与基础点云图进行融合,得到融合点云图。
可选地,所述基础点云图是从原始数据中随机选取的,所述将复制出的三维点云与基础点云图进行融合包括:
根据复制出的三维点云在原始三维点云图中距离激光坐标系原点的相对位置,确定复制出的三维点云在基础点云图中的可放置区域;
从所述可放置区域中选取与指定空间元素相近,且不与已标注目标重合的区域放置复制出的三维点云。
可选地,所述根据所述训练数据对目标检测模型进行迭代训练包括:
根据标注所对应的目标的尺寸划分多个尺寸区间,为每个尺寸区间分别确定一个特征图尺度;
根据输入到目标检测模型的一条训练数据所包含目标的尺寸,确定与该条训练数据包含的各目标分别对应的指定特征图尺度;
由目标检测模型对该条训练数据进行卷积,得到各指定特征图尺度下的特征图,利用得到的各特征图分别对相应的目标进行检测框回归训练。
可选地,所述根据所述训练数据对目标检测模型进行迭代训练还包括:
对训练数据进行统计分析,确定每个特征图尺度下,各类目标的标注数量分布;
根据标注数量分布将目标划分为多个训练类别;
在利用得到的各特征图分别对相应的目标进行检测框回归训练时,使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类。
可选地,所述使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类包括:
根据各目标的出现频率和/或次数,确定相应的多头注意力权重。
依据本申请的另一个方面,提供了一种目标检测方法,包括:
利用如上述任一项所述的方法训练得到的目标检测模型对三维点云图进行检测。
依据本申请的又一个方面,提供了一种目标检测模型的训练装置,所述目标为自动驾驶场景中的待关注对象,所述装置包括:
分析单元,用于对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布;
增广单元,用于依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据;
训练单元,用于根据所述训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。
可选地,所述原始训练数据为三维点云图,所述增广单元,用于依据所述标注类别分布,确定待增广类别;选取带有待增广类别的标注的三维点云图,对选取的三维点云图进行若干次整图复制;和/或,从选取的三维点云图中复制出与待增广类别的标注对应的三维点云,将复制出的三维点云与基础点云图进行融合,得到融合点云图。
可选地,所述基础点云图是从原始数据中随机选取的,所述增广单元,用于根据复制出的三维点云在原始三维点云图中距离激光坐标系原点的相对位置,确定复制出的三维点云在基础点云图中的可放置区域;从所述可放置区域中选取与指定空间元素相近,且不与已标注目标重合的区域放置复制出的三维点云。
可选地,所述训练单元,用于根据标注所对应的目标的尺寸划分多个尺寸区间,为每个尺寸区间分别确定一个特征图尺度;根据输入到目标检测模型的一条训练数据所包含目标的尺寸,确定与该条训练数据包含的各目标分别对应的指定特征图尺度;由目标检测模型对该条训练数据进行卷积,得到各指定特征图尺度下的特征图,利用得到的各特征图分别对相应的目标进行检测框回归训练。
可选地,所述训练单元,还用于对训练数据进行统计分析,确定每个特征图尺度下,各类目标的标注数量分布;根据标注数量分布将目标划分为多个训练类别;在利用得到的各特征图分别对相应的目标进行检测框回归训练时,使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类。
可选地,所述训练单元,用于根据各目标的出现频率和/或次数,确定相应的多头注意力权重。
依据本申请的再一个方面,提供了一种目标检测装置,包括:
检测单元,用于利用如目标检测模型的训练方法训练得到的目标检测模型对三维点云图进行检测。
依据本申请的再一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如目标检测模型的训练方法,或者使所述处理器执行如上任一所述的目标检测模型的训练方法,或者,执行如上所述的目标检测方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上任一所述的目标检测模型的训练方法,或者实现如上所述的目标检测方法。
由上述可知,本申请的技术方案,通过对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布;依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据;根据所述训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。其有益效果在于,可以根据原始训练数据类别的分布情况对原始训练数据中的少样本类别进行数据增广,得到训练数据再根据增广后的原始数据进行迭代训练,缓解了原始数据不均衡造成的检测结果的长尾效应,提高了多种类别的检测准确性,实现大类别的目标检测。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的目标检测模型的训练方法的流程示意图;
图2示出了根据本申请一个实施例的目标检测方法的流程示意图;
图3示出了根据本申请一个实施例的目标检测模型的训练装置的结构示意图;
图4示出了根据本申请一个实施例的目标检测装置的结构示意图;
图5示出了根据本申请一个实施例的电子设备的结构示意图;
图6示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
利用激光雷达对目标物进行检测可以使用基于体积元素的神经网络voxelnet、基于点云柱的算法pointpillars、基于稀疏卷积SECOND(Sparsely Embedded ConvolutionalDetection,稀疏嵌入卷积检测)等方案,这些方案基于体积元素voxel化的特征或3D卷积等特征提取方式对点云进行特征提取,再在bev(鸟瞰图)视角下通过RPN(RegionProposalNetwork,特征堆叠来进行区域生成网络)在相同尺度上进行目标的回归和分类。这里需要说明的是,目标检测领域中的回归,是指将检测框的确定作为一个数学上的回归问题来解决,而检测框是指能够确定目标的最小包围框,例如在2D场景下通常为矩形,在3D场景下通常为长方体。
但是,这些方案下仍然存在诸多缺陷,例如:1)虽然可以针对多种类目标进行识别,但可以处理的类别数较少,主要在4~5类;2)一般只能在相同的特征图尺度上进行目标物的回归和分类;3)在存在多种类别情况下,出现频率不同的目标物的识别效果差别明显,有明显的长尾效应,即检测效果随目标在训练集中的出现频次减少而递减,出现频次高的目标检测效果则较好。
针对上述缺陷,本申请提出的技术方案,可以有效地缓解原始数据不均衡造成的检测结果的长尾效应,提高了多种类别的检测准确性,实现大类别的目标检测。
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
图1示出了根据本申请一个实施例的目标检测模型的训练方法的流程示意图,其中,目标为自动驾驶场景中的待关注对象,如图1所示,该目标检测模型的训练方法包括:
步骤S110,对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布。
本申请可以针对多种类别的目标进行识别检测,因此为了确定原始数据的类别分布,可以预先对原始数据进行相应的标注,然后对带有标注的原始训练数据进行分析。这样,就可以实现确定出原始训练数据所包含的标注类别分布。
例如,这些目标可以是行人、车辆、建筑物等真实场景下存在的多种类别目标物。与现有技术相区别,标注的类别可以更细、更多,即原始训练数据为大类别标注数据。以车辆为例,现有技术可能仅统一标注为汽车,或者标注为大型车、小型车等类别,但在本申请的实施例中可以标注为铲车、救护车、大型货车、小汽车、消防车等不同类别。
步骤S120,依据标注类别分布对原始训练数据进行数据增广,得到训练数据。
在分析原始训练数据中的多个类别的数据分布之后,可以对进行数据增广操作,即增加标注数量较少类别的标注量,这样依据标注类别分布对原始训练数据进行数据增广,可以得到类别较为均衡的训练数据。
步骤S130,根据训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。
可以根据经过原始数据增广的原始数据对目标检测模型进行迭代训练,并预设训练停止条件,直至满足训练停止条件时停止训练。这样,在满足迭代训练条件以后,目标检测模型即训练完成,可以实现自动化地对目标进行检测。
可见,如图1所示的方法,可以根据原始训练数据类别的分布情况对原始训练数据中的少样本类别进行数据增广,得到训练数据再根据增广后的原始数据进行迭代训练,缓解了原始数据不均衡造成的检测结果的长尾效应,提高了多种类别的检测准确性,实现大类别的目标检测,在无人驾驶、物流配送、外卖等领域有着较好的应用。
在本申请的一个实施例中,上述目标检测模型的训练方法中,原始训练数据为三维点云图,依据标注类别分布对原始训练数据进行数据增广,得到训练数据包括:依据标注类别分布,确定待增广类别;选取带有待增广类别的标注的三维点云图,对选取的三维点云图进行若干次整图复制;和/或,从选取的三维点云图中复制出与待增广类别的标注对应的三维点云,将复制出的三维点云与基础点云图进行融合,得到融合点云图。
原始训练数据可以是通过激光雷达获取的三维点云图,在依据标注类别分布对原始训练数据进行数据增广时,即增加标注数量较少,出现频次较少的类别目标物,可以通过将含有少类别标注的标注文件进行直接复制,也可以在3D点云中将标注量比较少的物体的3D框抠出来,然后放在另外一张不同的点云图的合适位置上。这样,就依据标注类别分布,对待增广类别进行了原始数据的增广,将复制出的三维点云与基础点云图进行融合,从而得到了融合点云图。
在本申请的一个实施例中,上述目标检测模型的训练方法中,基础点云图是从原始数据中随机选取的,将复制出的三维点云与基础点云图进行融合包括:根据复制出的三维点云在原始三维点云图中距离激光坐标系原点的相对位置,确定复制出的三维点云在基础点云图中的可放置区域;从可放置区域中选取与指定空间元素相近,且不与已标注目标重合的区域放置复制出的三维点云。
在根据复制出的三维点云在原始三维点云图中距离激光坐标系原点的相对位置时,可以确定复制出的三维点云在基础点云图中的可放置区域,这些合适位置可以是与指定空间元素相近,且不与已标注目标重合的区域放置复制出的三维点云,具体可以是距离激光坐标系距离和原始点云中距离相近、放置在地面、不和当前帧点云中已有标注3D框重叠的位置上。这样,就可以在不干扰原始数据的基础上对实现原始数据的增广。
例如,以真实场景中出现频率较低的消防车辆为例,为了在不干扰原始数据的基础上对实现原始数据的增广,可以首先确定并复制出其他原始数据中的消防车辆三维点云,然后将这些消防车辆三维点云放置在基础点云图中合适的可放置区域,这些合适的可放置区域可以是与指定空间元素相近,如同样是车辆目标的空间中,在放置消防车辆三维点云时应保证消防车辆三维点云不与已标注车辆目标重合,具体可以是距离激光坐标系距离和原始点云中距离相近、放置在地面、不和当前帧点云中已有标注车辆3D框重叠的位置上。
在本申请的一个实施例中,上述目标检测模型的训练方法中,根据训练数据对目标检测模型进行迭代训练包括:根据标注所对应的目标的尺寸划分多个尺寸区间,为每个尺寸区间分别确定一个特征图尺度;根据输入到目标检测模型的一条训练数据所包含目标的尺寸,确定与该条训练数据包含的各目标分别对应的指定特征图尺度;由目标检测模型对该条训练数据进行卷积,得到各指定特征图尺度下的特征图,利用得到的各特征图分别对相应的目标进行检测框回归训练。
可以根据标注所对应的目标的尺寸的不同将目标划分多个尺寸区间,并为每个尺寸区间分别确定一个特征图尺度。
以现有技术中基于体积元素voxel进行目标检测的神经网络voxelnet为例,其从点云中检测出目标的大致流程如下:
首先,将完整点云划分为小的voxel,在每个voxel中进行grouping(分组)、sampling(抽样)操作后,再进行全连接层提取pointwise(点态)特征,最后在z轴上将特征叠加,再进行RPN操作,在同一层级的特征图上对各个类别的目标进行分类和回归。
这样的缺点在于,特征图的尺度是固定的,也就是说在固定尺度的特征图上,每个特征值可以对应一个原始的voxel大小。如果此voxel和需要检测的目标的大小尺寸匹配,那么检测效果就会较好,反之,如果一个像素点所代表的体积元素voxel远大于一个目标物体时,检测效果就会很差。
举例而言,如果原始点云图大小为x-(-78m,78m),y-(-78m,78m),z-(-3.5m,1m),x、y、z分别指代在各个轴向上的区间,每个体积元素voxel的大小设定为(0.3,0.3,0.5),那么原始点云图就会被重新划分为x-520,y-520,z-9的三维网格,每个格中有固定维度的特征向量,特征图大小尺寸(hwc——高、宽、通道)为520x520x9。为了减少计算量,特征图大小会不断缩减,例如从520x520x9缩减到260x260x9,或者再到130x130x9。
那么可见,在520x520x9的特征图上每个像素点对应的voxel大小为(0.3,0.3,0.5),在260x260x9的特征图上每个像素点则对应体积元素voxel大小为(0.6,0.6,0.5),以此类推,如果一个物体的大小为(0.3,0.3,0.5),那么在520x520x9的特征图上是正好对应一个像素点的,但是在260x260x9的特征图上就存在一个特征点对应多个物体的关系,特征就会存在混乱,影响最终检测效果。
因此,本申请实施例所作出的改进是,根据标注所对应的目标的尺寸划分多个尺寸区间,为每个尺寸区间分别确定一个特征图尺度。例如,大尺寸目标,在大特征图尺度上进行回归;小尺寸目标,在小特征图尺度上进行回归。
那么对于一条训练数据,在进入目标检测模型后,会依据其包含的标注目标的尺寸,确定特征图尺度,由目标检测模型对该条训练数据进行卷积,得到各指定特征图尺度下的特征图,利用得到的各特征图分别对相应的目标进行检测框回归训练。
在本申请的一个实施例中,上述目标检测模型的训练方法中,根据训练数据对目标检测模型进行迭代训练还包括:对训练数据进行统计分析,确定每个特征图尺度下,各类目标的标注数量分布;根据标注数量分布将目标划分为多个训练类别;在利用得到的各特征图分别对相应的目标进行检测框回归训练时,使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类。
该实施例进一步对于同一特征图尺度所包含的不同类别目标,进行了训练上的优化。具体而言,可以对训练数据进行统计分析并确定出每个特征图尺度下,各类目标的标注数量分布。
例如,对于同一特征图尺度上的目标,分析目标物体的标注数量,如在此尺度一共有轿车、SUV、面包车三个目标类别,其中,轿车的标注数量为10万,SUV为1万,面包车为1.5万。那么可见,SUV、面包车是同一数量级(104级别),而轿车是另一数量级(105级别)。那么可以依据数量级,将SUV和面包车作为同一训练类别,将轿车作为另一训练类别加以关注。
除了数量级之外,也可以依据其他分布特征实现训练类别的划分,例如通过聚类算法等方式实现。
将同一特征图尺度上的目标划分为多个类别,是为了能够针对不同类别进行不同的关注,优化目标检测效果,具体所使用的技术可以是多头注意力(multihead)技术,每个头对应一个训练类别。注意力机制可以实现从众多信息中选择出对当前任务目标更关键的信息,可以使用多头注意力机制multihead在同一特征图上分别对不同数量级的目标按照不同的权重进行回归和分类。权重调整中可以使标注数量较少的目标权重相对占比较高。这样,就可以是实现针对具有不同标注数量的每个训练类别下的各目标分别进行检测框的回归和分类。
在本申请的一个实施例中,上述目标检测模型的训练方法中,使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类包括:根据各目标的出现频率和/或次数,确定相应的多头注意力权重。
真实场景下,不同目标出现的频次和/或次数具有明显差别,由此可能造成类别的不均衡和检测结果的长尾效应,因此为了缓解这一问题,平衡不同目标的不同权重,可以采用多头注意力机制multihead,从而控制全局损失loss,使不同类别的目标数量尽可能保持平衡。然后,可以针对在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类。这样,就可以实现缓解目标类别的不均衡和检测结果的长尾效应。
图2示出了根据本申请一个实施例的目标检测方法的流程示意图。如图2所示,该目标检测方法包括:
步骤S210,利用通过目标检测模型的训练方法训练得到的目标检测模型对三维点云图进行检测。该目标检测模型的训练方法可以参照如上述任一实施例所述单独实现或结合实现。
在针对目标进行检测时,为了高效处理数量庞大的图像,可以基于以上方法,建立目标检测模型,然后利用以上方法对目标检测模型进迭代训练,并设置训练结束条件。目前,可以将以上方法应用到如Faster R-CNN网络、SSD网络(Single Shot MultiBoxDetector,目前无统一中文名称)和YOLO网络(You Only Look Once,目前无统一中文名称)等目标检测模型的迭代训练中。这样,就可以实现利用目标检测模型对三维点云图进行高效处理。
图3示出了根据本申请一个实施例的目标检测模型的训练装置的结构示意图,其中,目标为自动驾驶场景中的待关注对象。如图3所示,该目标检测模型的训练装置300包括:
分析单元310,用于对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布。
本申请可以针对多种类别的目标进行识别检测,因此为了确定原始数据的类别分布,可以预先对原始数据进行相应的标注,然后对带有标注的原始训练数据进行分析。这样,就可以实现确定出原始训练数据所包含的标注类别分布。
例如,这些目标可以是行人、车辆、建筑物等真实场景下存在的多种类别目标物。与现有技术相区别,标注的类别可以更细、更多,即原始训练数据为大类别标注数据。以车辆为例,现有技术可能仅统一标注为汽车,或者标注为大型车、小型车等类别,但在本申请的实施例中可以标注为铲车、救护车、大型货车、小汽车、消防车等不同类别。
增广单元320,用于依据标注类别分布对原始训练数据进行数据增广,得到训练数据。
在分析原始训练数据中的多个类别的数据分布之后,可以对进行数据增广操作,即增加标注数量较少类别的标注量,这样依据标注类别分布对原始训练数据进行数据增广,可以得到类别较为均衡的训练数据。
训练单元330,用于根据训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。
可以根据经过原始数据增广的原始数据对目标检测模型进行迭代训练,并预设训练停止条件,直至满足训练停止条件时停止训练。这样,在满足迭代训练条件以后,目标检测模型即训练完成,可以实现自动化地对目标进行检测。
可见,如图3所示的装置,可以根据原始训练数据类别的分布情况对原始训练数据中的少样本类别进行数据增广,得到训练数据再根据增广后的原始数据进行迭代训练,缓解了原始数据不均衡造成的检测结果的长尾效应,提高了多种类别的检测准确性,实现大类别的目标检测,在无人驾驶、物流配送、外卖等领域有着较好的应用。
在本申请的一个实施例中,上述目标检测模型的训练装置中,原始训练数据为三维点云图,增广单元320,用于依据标注类别分布,确定待增广类别;选取带有待增广类别的标注的三维点云图,对选取的三维点云图进行若干次整图复制;和/或,从选取的三维点云图中复制出与待增广类别的标注对应的三维点云,将复制出的三维点云与基础点云图进行融合,得到融合点云图。
在本申请的一个实施例中,上述目标检测模型的训练装置中,基础点云图是从原始数据中随机选取的,增广单元320,用于根据复制出的三维点云在原始三维点云图中距离激光坐标系原点的相对位置,确定复制出的三维点云在基础点云图中的可放置区域;从可放置区域中选取与指定空间元素相近,且不与已标注目标重合的区域放置复制出的三维点云。
在本申请的一个实施例中,上述目标检测模型的训练装置中,训练单元330,用于根据标注所对应的目标的尺寸划分多个尺寸区间,为每个尺寸区间分别确定一个特征图尺度;根据输入到目标检测模型的一条训练数据所包含目标的尺寸,确定与该条训练数据包含的各目标分别对应的指定特征图尺度;由目标检测模型对该条训练数据进行卷积,得到各指定特征图尺度下的特征图,利用得到的各特征图分别对相应的目标进行检测框回归训练。
在本申请的一个实施例中,上述目标检测模型的训练装置中,训练单元330,还用于对训练数据进行统计分析,确定每个特征图尺度下,各类目标的标注数量分布;根据标注数量分布将目标划分为多个训练类别;在利用得到的各特征图分别对相应的目标进行检测框回归训练时,使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类。
在本申请的一个实施例中,上述目标检测模型的训练装置中,训练单元330,用于根据各目标的出现频率和/或次数,确定相应的多头注意力权重。
图4示出了根据本申请一个实施例的目标检测装置的结构示意图。如图4所示,该目标检测装置400包括:
检测单元410,用于利用目标检测模型的训练装置训练得到的目标检测模型对三维点云图进行检测。
在针对目标进行检测时,为了高效处理数量庞大的图像,可以基于以上方法,建立目标检测模型,然后利用以上方法对目标检测模型进迭代训练,并设置训练结束条件。目前,可以将以上方法应用到如Faster R-CNN网络、SSD网络(Single Shot MultiBoxDetector,目前无统一中文名称)和YOLO网络(You Only Look Once,目前无统一中文名称)等目标检测模型的迭代训练中。这样,就可以实现利用目标检测模型对三维点云图进行高效处理。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,通过对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布;依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据;根据所述训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。其有益效果在于,可以根据原始训练数据类别的分布情况对原始训练数据中的少样本类别进行数据增广,得到训练数据再根据增广后的原始数据进行迭代训练,缓解了原始数据不均衡造成的检测结果的长尾效应,提高了多种类别的检测准确性,实现大类别的目标检测。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的目标检测模型的训练装置和目标检测装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图5示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备500包括处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如,用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。图6示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531,可以被电子设备500的处理器510读取,当计算机可读程序代码531由电子设备500运行时,导致该电子设备500执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (11)

1.一种目标检测模型的训练方法,所述目标为自动驾驶场景中的待关注对象,所述方法包括:
对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布;
依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据;
根据所述训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。
2.如权利要求1所述的方法,其特征在于,所述原始训练数据为三维点云图,所述依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据包括:
依据所述标注类别分布,确定待增广类别;
选取带有待增广类别的标注的三维点云图,对选取的三维点云图进行若干次整图复制;和/或,从选取的三维点云图中复制出与待增广类别的标注对应的三维点云,将复制出的三维点云与基础点云图进行融合,得到融合点云图。
3.如权利要求2所述的方法,其特征在于,所述基础点云图是从原始数据中随机选取的,所述将复制出的三维点云与基础点云图进行融合包括:
根据复制出的三维点云在原始三维点云图中距离激光坐标系原点的相对位置,确定复制出的三维点云在基础点云图中的可放置区域;
从所述可放置区域中选取与指定空间元素相近,且不与已标注目标重合的区域放置复制出的三维点云。
4.如权利要求1-3中任一项所述的方法,其特征在于,所述根据所述训练数据对目标检测模型进行迭代训练包括:
根据标注所对应的目标的尺寸划分多个尺寸区间,为每个尺寸区间分别确定一个特征图尺度;
根据输入到目标检测模型的一条训练数据所包含目标的尺寸,确定与该条训练数据包含的各目标分别对应的指定特征图尺度;
由目标检测模型对该条训练数据进行卷积,得到各指定特征图尺度下的特征图,利用得到的各特征图分别对相应的目标进行检测框回归训练。
5.如权利要求4所述的方法,其特征在于,所述根据所述训练数据对目标检测模型进行迭代训练还包括:
对训练数据进行统计分析,确定每个特征图尺度下,各类目标的标注数量分布;
根据标注数量分布将目标划分为多个训练类别;
在利用得到的各特征图分别对相应的目标进行检测框回归训练时,使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类。
6.如权利要求5所述的方法,其特征在于,所述使用多头注意力,在同一特征图中对每个训练类别的下的各目标分别进行检测框回归和分类包括:
根据各目标的出现频率和/或次数,确定相应的多头注意力权重。
7.一种目标检测方法,其特征在于,该方法包括:
利用如权利要求1-6中任一项所述的方法训练得到的目标检测模型对三维点云图进行检测。
8.一种目标检测模型的训练装置,所述目标为自动驾驶场景中的待关注对象,所述装置包括:
分析单元,用于对带有标注的原始训练数据进行分析,确定原始训练数据所包含的标注类别分布;
增广单元,用于依据所述标注类别分布对原始训练数据进行数据增广,得到训练数据;
训练单元,用于根据所述训练数据对目标检测模型进行迭代训练,直至满足训练停止条件。
9.一种目标检测装置,其特征在于,该装置包括:
利用如权利要求8所述的装置训练得到的目标检测模型对三维点云图进行检测。
10.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-6中任一项所述的方法,或者,使所述处理器执行如权利要求7所述的方法。
11.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-6中任一项所述的方法,或者,实现如权利要求7所述的方法。
CN202010010846.9A 2020-01-06 2020-01-06 目标检测方法、装置及相应模型训练方法、装置 Pending CN111241969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010010846.9A CN111241969A (zh) 2020-01-06 2020-01-06 目标检测方法、装置及相应模型训练方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010010846.9A CN111241969A (zh) 2020-01-06 2020-01-06 目标检测方法、装置及相应模型训练方法、装置

Publications (1)

Publication Number Publication Date
CN111241969A true CN111241969A (zh) 2020-06-05

Family

ID=70865869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010010846.9A Pending CN111241969A (zh) 2020-01-06 2020-01-06 目标检测方法、装置及相应模型训练方法、装置

Country Status (1)

Country Link
CN (1) CN111241969A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784774A (zh) * 2020-07-06 2020-10-16 北京京东乾石科技有限公司 目标检测方法、装置、计算机可读介质及电子设备
CN111814846A (zh) * 2020-06-19 2020-10-23 浙江大华技术股份有限公司 属性识别模型的训练方法、识别方法及相关设备
CN112395962A (zh) * 2020-11-03 2021-02-23 北京京东乾石科技有限公司 数据增广方法及装置、物体识别方法及系统
CN112488173A (zh) * 2020-11-26 2021-03-12 华南师范大学 基于图像増广的模型训练方法、系统和存储介质
CN112633069A (zh) * 2020-11-26 2021-04-09 贝壳技术有限公司 物体检测方法及装置
CN113255670A (zh) * 2021-06-28 2021-08-13 湖南星汉数智科技有限公司 非均衡小样本目标检测方法、装置和计算机设备
WO2022193604A1 (en) * 2021-03-16 2022-09-22 Huawei Technologies Co., Ltd. Devices, systems, methods, and media for point cloud data augmentation using model injection
CN118101274A (zh) * 2024-02-27 2024-05-28 中国铁道科学研究院集团有限公司 网络入侵检测模型的构建方法、装置、设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150036920A1 (en) * 2013-07-31 2015-02-05 Fujitsu Limited Convolutional-neural-network-based classifier and classifying method and training methods for the same
CN105844238A (zh) * 2016-03-23 2016-08-10 乐视云计算有限公司 视频鉴别方法及系统
CN108596338A (zh) * 2018-05-09 2018-09-28 四川斐讯信息技术有限公司 一种神经网络训练集的获取方法及其系统
CN108647728A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类过采样方法、装置、设备及介质
CN108960276A (zh) * 2018-05-08 2018-12-07 南京理工大学 提升光谱图像监督分类性能的样本扩充与一致性判别方法
US20190050981A1 (en) * 2017-08-09 2019-02-14 Shenzhen Keya Medical Technology Corporation System and method for automatically detecting a target object from a 3d image
CN109359650A (zh) * 2018-09-12 2019-02-19 北京陌上花科技有限公司 目标检测方法及装置、嵌入式设备
CN110097130A (zh) * 2019-05-07 2019-08-06 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN110197212A (zh) * 2019-05-20 2019-09-03 北京邮电大学 图像分类方法、系统及计算机可读存储介质
CN110443280A (zh) * 2019-07-05 2019-11-12 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150036920A1 (en) * 2013-07-31 2015-02-05 Fujitsu Limited Convolutional-neural-network-based classifier and classifying method and training methods for the same
CN105844238A (zh) * 2016-03-23 2016-08-10 乐视云计算有限公司 视频鉴别方法及系统
US20190050981A1 (en) * 2017-08-09 2019-02-14 Shenzhen Keya Medical Technology Corporation System and method for automatically detecting a target object from a 3d image
CN108960276A (zh) * 2018-05-08 2018-12-07 南京理工大学 提升光谱图像监督分类性能的样本扩充与一致性判别方法
CN108596338A (zh) * 2018-05-09 2018-09-28 四川斐讯信息技术有限公司 一种神经网络训练集的获取方法及其系统
CN108647728A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类过采样方法、装置、设备及介质
CN109359650A (zh) * 2018-09-12 2019-02-19 北京陌上花科技有限公司 目标检测方法及装置、嵌入式设备
CN110097130A (zh) * 2019-05-07 2019-08-06 深圳市腾讯计算机系统有限公司 分类任务模型的训练方法、装置、设备及存储介质
CN110197212A (zh) * 2019-05-20 2019-09-03 北京邮电大学 图像分类方法、系统及计算机可读存储介质
CN110443280A (zh) * 2019-07-05 2019-11-12 北京达佳互联信息技术有限公司 图像检测模型的训练方法、装置及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814846A (zh) * 2020-06-19 2020-10-23 浙江大华技术股份有限公司 属性识别模型的训练方法、识别方法及相关设备
CN111784774A (zh) * 2020-07-06 2020-10-16 北京京东乾石科技有限公司 目标检测方法、装置、计算机可读介质及电子设备
WO2022007451A1 (zh) * 2020-07-06 2022-01-13 北京京东乾石科技有限公司 目标检测方法、装置、计算机可读介质及电子设备
CN111784774B (zh) * 2020-07-06 2024-03-05 北京京东乾石科技有限公司 目标检测方法、装置、计算机可读介质及电子设备
CN112395962A (zh) * 2020-11-03 2021-02-23 北京京东乾石科技有限公司 数据增广方法及装置、物体识别方法及系统
CN112488173A (zh) * 2020-11-26 2021-03-12 华南师范大学 基于图像増广的模型训练方法、系统和存储介质
CN112633069A (zh) * 2020-11-26 2021-04-09 贝壳技术有限公司 物体检测方法及装置
WO2022193604A1 (en) * 2021-03-16 2022-09-22 Huawei Technologies Co., Ltd. Devices, systems, methods, and media for point cloud data augmentation using model injection
CN113255670A (zh) * 2021-06-28 2021-08-13 湖南星汉数智科技有限公司 非均衡小样本目标检测方法、装置和计算机设备
CN118101274A (zh) * 2024-02-27 2024-05-28 中国铁道科学研究院集团有限公司 网络入侵检测模型的构建方法、装置、设备及介质
CN118101274B (zh) * 2024-02-27 2024-08-27 中国铁道科学研究院集团有限公司 网络入侵检测模型的构建方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111241969A (zh) 目标检测方法、装置及相应模型训练方法、装置
CN107403424B (zh) 一种基于图像的车辆定损方法、装置及电子设备
US11080839B2 (en) System and method for training a damage identification model
CN113412505B (zh) 用于对通过探测和测距传感器获得的点云进行有序表示和特征提取的处理单元和方法
CN111123927A (zh) 轨迹规划方法、装置、自动驾驶设备和存储介质
Azimi et al. Eagle: Large-scale vehicle detection dataset in real-world scenarios using aerial imagery
US20150235092A1 (en) Parts based object tracking method and apparatus
CN111274927A (zh) 一种训练数据的生成方法、装置、电子设备和存储介质
CN107609483B (zh) 面向驾驶辅助系统的危险目标检测方法、装置
CN111401133A (zh) 目标数据增广方法、装置、电子设备和可读存储介质
CN109919145B (zh) 一种基于3d点云深度学习的矿卡检测方法及系统
US11087450B1 (en) Wheel matcher
CN114820465A (zh) 点云检测模型训练方法、装置、电子设备及存储介质
US20150378014A1 (en) Ascertaining class of a vehicle captured in an image
CN111160395A (zh) 图像识别方法、装置、电子设备和存储介质
US20200104940A1 (en) Artificial intelligence enabled assessment of damage to automobiles
CN114820463A (zh) 点云检测和分割方法、装置,以及,电子设备
CN111126393A (zh) 车辆外观改装判断方法、装置、计算机设备及存储介质
CN115205610A (zh) 感知模型的训练方法、训练装置及电子设备
Gluhaković et al. Vehicle detection in the autonomous vehicle environment for potential collision warning
CN111429463A (zh) 实例分割方法、装置、电子设备和存储介质
CN111191482A (zh) 一种刹车灯识别方法、装置及电子设备
CN113808142A (zh) 一种地面标识的识别方法、装置、电子设备
CN116843983A (zh) 路面病害识别方法、模型训练方法、电子设备及介质
CN111401359A (zh) 目标识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200605

WD01 Invention patent application deemed withdrawn after publication