CN111832471B - 一种物体识别方法及装置 - Google Patents
一种物体识别方法及装置 Download PDFInfo
- Publication number
- CN111832471B CN111832471B CN202010661900.6A CN202010661900A CN111832471B CN 111832471 B CN111832471 B CN 111832471B CN 202010661900 A CN202010661900 A CN 202010661900A CN 111832471 B CN111832471 B CN 111832471B
- Authority
- CN
- China
- Prior art keywords
- tensor
- grid
- position information
- information
- relative position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 230000008569 process Effects 0.000 claims abstract description 27
- 230000006870 function Effects 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 230000001629 suppression Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 241001465754 Metazoa Species 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种物体识别方法及装置。该方法包括:获取三维点云数据;基于三维点云数据生成第一张量;将第一张量输入预先完成训练的识别模型,得到识别模型对第一张量处理后输出的当前环境中物体的位置信息和类别信息。本申请公开的技术方案,基于三维点云数据生成第一张量的过程,是将三维点云数据映射成多个通道的二维点云数据,从而将非结构化的数据转化为结构化数据,便于识别模型进行特征提取,从而提高物体识别效率。
Description
技术领域
本申请属于物体检测技术领域,尤其涉及一种物体识别方法及装置。
背景技术
在智能驾驶领域中,环境感知是非常重要的部分,准确地确定环境中物体的位置和类别,是保证车辆安全行驶的必要条件。目前,主要通过激光雷达获取三维点云数据,基于三维点云数据确定物体的位置和类别。
但是,目前基于三维点云数据进行的物体识别存在效率低的问题。
发明内容
有鉴于此,本申请的目的在于提供一种物体识别方法及装置,以提高物体识别效率。
为实现上述目的,本申请提供如下技术方案:
一方面,本申请提供一种物体识别方法,包括:
获取三维点云数据;
基于所述三维点云数据生成第一张量,所述第一张量为P阶,所述第一张量的每一阶包括H行W列元素,所述第一张量的第k阶中的元素由所述三维点云数据中位于第k个预设高度范围内点的反射强度确定,所述第一张量的第k阶中位于第i行第j列的元素为:所述三维点云数据中位于第k个预设高度范围的第i行第j列的栅格内点的反射强度的平均值,其中,在水平方向上将所述三维点云数据对应的三维空间划分为H行W列的第一网格,在高度方向上将每个第一网格划分为P个栅格,P、H和W为大于2的整数,k=1,2,…P,i=1,2,…H,j=1,2,…W;
将所述第一张量输入预先完成训练的识别模型,得到所述识别模型对所述第一张量处理后输出的当前环境中物体的位置信息和类别信息;所述识别模型根据三维点云样本数据训练得到,所述三维点云样本数据中样本物体的位置信息和类别信息已知。
可选的,所述识别模型对所述第一张量的处理,包括:
对所述第一张量进行特征提取,得到原始特征;
基于所述原始特征生成第二张量,所述第二张量指示各个第二网格中物体元素的类别信息,所述第一张量对应的三维空间在水平方向上划分为M行N列的第二网格,所述第二张量为C1阶,所述第二张量的每一阶包括M行N列元素,其中,C1为预设的物体类别的数量,所述第二张量中位于相同行相同列的C1个元素为同一个第二网格中物体元素属于各个类别的概率,所述第二张量的第a阶中的元素为各第二网格中的物体元素属于第a个类别的概率,a=1,2,…C1;
基于所述原始特征生成第三张量,所述第三张量指示所述各个第二网格的相对位置信息,所述第三张量为C2阶,所述第三张量的每一阶包括M行N列元素,其中,C2为所述各个第二网格的相对位置信息所包含相对位置参数的数量,所述第三张量中位于相同行相同列的C2个元素为同一个第二网格的相对位置参数的值,所述第三张量的第b阶中的元素为所述各个第二网格的相对位置信息中第b个相对位置参数的值,b=1,2,…C2;
根据所述第二张量指示的类别信息和所述第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息。
可选的,所述根据所述第二张量指示的类别信息和所述第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息,包括:
根据所述第二张量在所述各个第二网格中确定类别为第一类别的目标网格,所述第一类别为预设的C1个物体类别中的任意一个;
从所述第三张量获取所述目标网格的相对位置信息;
获得所述目标网格的绝对位置信息;
根据所述目标网格的绝对位置信息和相对位置信息确定所述目标物体的位置信息,将所述目标物体的类别确定为所述第一类别,所述目标物体为所述目标网格所对应的物体。
可选的,所述根据所述目标网格的绝对位置信息和相对位置信息确定所述目标物体的位置信息,包括:
在所述目标网格为多个的情况下,针对每一目标网格,根据所述目标网格的绝对位置信息和相对位置信息确定所述目标物体的备选位置信息;
根据得到的多个备选位置信息确定所述目标物体的位置信息。
可选的,所述根据得到的多个备选位置信息确定所述目标物体的位置信息,包括:
利用非极大值抑制算法NMS或者软化非极大值抑制算法soft-NMS对所述多个备选位置信息进行处理,得到所述目标物体的位置信息。
可选的,所述基于所述原始特征生成第二张量,包括:对所述原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第二张量,所述第二张量为C1阶,所述第二张量的每一阶包括M行N列元素;
所述基于所述原始特征生成第三张量,包括:对所述原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第三张量,所述第三张量为C2阶,且所述第三张量的每一阶包括M行N列元素;
其中,M与H的取值相同,N与W的取值相同。
可选的,所述识别模型的训练过程包括:
获得多个三维点云样本数据,并且所述三维点云样本数据具有标注信息,所述三维点云样本数据包含至少一个样本物体的点云数据,所述标注信息包括位于所述样本物体所对应物体对象框中第三网格的相对位置信息以及类别信息,其中,所述三维点云样本数据对应的三维空间在水平方向上划分为多行多列的第三网格,物体对象框为所述样本物体的最小外切立体框,所述第三网格的相对位置信息包括:所述第三网格的标记点的横坐标与所述第三网格所在物体对象框的标记点的横坐标的差值、所述第三网格的标记点的纵坐标与所述第三网格所在物体对象框的标记点的纵坐标的差值、所述第三网格所在物体对象框所处高度、所述第三网格所在物体对象框的长度、以及所述第三网格所在物体对象框的宽度;
利用预先构建的学习模型对所述三维点云样本数据进行预测,获得预测结果,所述预测结果包括所述学习模型所划分第三网格的预测相对位置信息和预测类别信息;
根据所述预测结果和标注信息调整所述学习模型,直至调整后的学习模型满足预设收敛条件,将满足所述预设收敛条件的学习模型确定为所述识别模型。
可选的,所述预设收敛条件为:预设损失函数的值小于预设的阈值;
其中,所述预设损失函数表征所述第三网格的预测类别信息和标注的类别信息之间的误差,以及所述第三网格的预测相对位置信息和标注的相对位置信息之间的误差。
可选的,计算所述预设损失函数的值,包括:
根据所述第三网格的预测相对位置信息和标注的相对位置信息计算位置损失函数的值;
根据所述第三网格的预测类别信息和标注的类别信息计算类别损失函数的值;
计算所述位置损失函数的值和所述类别损失函数的值的和值,所述和值为所述预设损失函数的值。
另一方面,本申请提供一种物体识别装置,包括:
数据获取单元,用于获取三维点云数据;
数据处理单元,用于基于所述三维点云数据生成第一张量,所述第一张量为P阶,所述第一张量的每一阶包括H行W列元素,所述第一张量的第k阶中的元素由所述三维点云数据中位于第k个预设高度范围内点的反射强度确定,所述第一张量的第k阶中位于第i行第j列的元素为:所述三维点云数据中位于第k个预设高度范围的第i行第j列的栅格内点的反射强度的平均值,其中,在水平方向上将所述三维点云数据对应的三维空间划分为H行W列的第一网格,在高度方向上将每个第一网格划分为P个栅格,P、H和W为大于2的整数,k=1,2,…P,i=1,2,…H,j=1,2,…W;
物体识别单元,用于将所述第一张量输入预先完成训练的识别模型,得到所述识别模型对所述第一张量处理后输出的当前环境中物体的位置信息和类别信息;所述识别模型根据三维点云样本数据训练得到,所述三维点云样本数据中样本物体的位置信息和类别信息已知。
由此可见,本申请的有益效果为:
本申请公开的物体识别方法及装置,在获取三维点云数据后,基于三维点云数据生成第一张量,将第一张量输入识别模型,由识别模型对第一张量进行处理,得到当前环境中物体的位置信息和类别信息。可以看到,本申请中基于三维点云数据生成第一张量的过程,是将三维点云数据映射成多个通道的二维点云数据,从而将非结构化的数据转化为结构化数据,便于识别模型进行特征提取,从而提高物体识别效率,而且基于本申请公开的物体识别方法,能够直接确定当前场景中全部物体的位置和类别。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请公开的一种物体识别方法的流程图;
图2-1为三维点云数据的三维空间视图;
图2-2为三维点云数据的俯视投影图;
图2-3为对三维空间进行划分得到的一个网格的示意图;
图2-4为将一个网格划分为多个栅格的示意图;
图3为本申请公开的识别模型对第一张量进行处理的方法的流程图;
图4为本申请公开的训练识别模型的方法的流程图;
图5为本申请公开的第三网格的相对位置参数和第三网格中物体元素所在样本物体的物体对象框的示意图;
图6为本申请公开的一种物体识别装置的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种物体识别方法及装置,以提高物体识别效率。
参见图1,图1为本申请公开的一种物体识别方法的流程图。该方法包括:
S101:获取三维点云数据。
在具体实现中,可利用激光雷达对环境进行扫描,生成三维点云数据,三维点云数据中的每个点代表三维空间对应位置处的反射强度。
S102:基于三维点云数据生成第一张量。
其中,第一张量为P阶,第一张量的每一阶包括H行W列元素,第一张量的第k阶中的元素由三维点云数据中位于第k个预设高度范围内点的反射强度确定,第一张量的第k阶中位于第i行第j列的元素为:三维点云数据中位于第k个预设高度范围的第i行第j列的栅格内点的反射强度的平均值。其中,在水平方向上将三维点云数据对应的三维空间划分为H行W列的第一网格,在高度方向上将每个网格划分为P个栅格。P、H和W为大于2的整数,k=1,2,…P,i=1,2,…H,j=1,2,…W。
需要说明的是,H、W和P的取值根据激光雷达的扫描范围以及期望的每个栅格的尺寸决定,通常为经验值。
这里结合一个实例进行说明。
假设激光雷达的扫描范围为10米*50米*50米,也就是,激光雷达的扫描高度为10米、扫描宽度为50米、扫描长度(扫描深度)为50米。那么,激光雷达生成10米*50米*50米的三维空间内物体的三维点云数据。
在水平方向上将10米*50米*50米的三维空间平均划分为500行500列,共得到500*500个网格(对应第一网格),每个网格的高度为10米、宽度为0.1米、长度为0.1米,之后针对每个网格,在高度方向上将其平均划分为100份,划分得到的每一份为一个栅格,也就是,每个网格被划分为100个栅格,每个栅格的高度为0.1米、宽度为0.1米、长度为0.1米。
相应的,第一张量为100阶,每阶包括500行500列的元素。例如,第一张量的第1阶中的元素,由三维点云数据中位于第1个预设高度范围(如第0米至第0.1米)内点的反射强度确定,第一张量的第2阶中的元素,由三维点云数据中位于第2个预设高度范围(如第0.1米至第0.2米)内点的反射强度确定,以此类推,第一张量的第100阶中的元素,由三维点云数据中位于第100个预设高度范围(如第9.9米至第10米)内的点的反射强度确定。
这里以第一张量的第1阶中的元素为例进行说明。
第一张量的第1阶中第1行第1列的元素为:三维点云数据中位于第1个预设高度范围的第1行第1列的栅格内点的反射强度的平均值。第一张量的第1阶中第1行第2列的元素为:三维点云数据中位于第1个预设高度范围内的第1行第2列的栅格内点的反射强度的平均值。依次类推,第一张量的第1阶中第500行第500列的元素为:三维点云数据中位于第1个预设高度范围内的第500行第500列的栅格内点的反射强度的平均值。
参见图2-1至图2-4所示。其中,图2-1为三维点云数据的三维空间视图,图2-2为三维点云数据的俯视投影图,图2-3为对三维空间进行划分得到的一个网格的示意图,图2-4为将一个网格划分为多个栅格的示意图。
S103:将第一张量输入预先完成训练的识别模型,得到识别模型对第一张量处理后输出的当前环境中物体的位置信息和类别信息。
其中,识别模型是经过大量的三维点云样本数据训练得到的,每条三维点云样本数据中样本物体的位置信息和类别信息是已知的。识别模型具备将环境中物体的位置预测结果和类别预测结果趋于该物体的实际位置和实际类别的能力。
需要说明的是,本申请中的物体包括但不限于人、动物(除人之外)、车辆以及路障。
本申请公开的物体识别方法,在获取三维点云数据后,基于三维点云数据生成第一张量,将第一张量输入识别模型,由识别模型对第一张量进行处理,得到当前环境中物体的位置信息和类别信息。可以看到,本申请中基于三维点云数据生成第一张量的过程,是将三维点云数据映射成多个通道的二维点云数据,从而将非结构化的数据转化为结构化数据,便于识别模型进行特征提取,从而提高物体识别效率,而且基于本申请公开的物体识别方法,能够直接确定当前场景中全部物体的位置和类别。
下面结合图3对识别模型对第一张量进行处理,得到当前环境中物体的位置信息和类别信息的过程进行说明,具体包括:
S301:对第一张量进行特征提取,得到原始特征。
通过对第一张量进行多次卷积运算,得到原始特征。实施中,可以采用现有的ResNet神经网络或者MobileNet神经网络对第一张量进行特征提取。
S302:基于原始特征生成第二张量。
其中,第一张量对应的三维空间在水平方向上划分为M行N列的第二网格,M和N为大于2的整数。第二张量指示各个第二网格中物体元素的类别信息。需要说明的是,第一张量对应的三维空间也就是获取到的三维点云数据对应的三维空间。
第二张量为C1阶,第二张量的每一阶包括M行N列元素。其中,C1为预设的物体类别的数量,第二张量中位于相同行相同列的C1个元素为同一个第二网格中物体元素属于各个类别的概率,第二张量的第a阶中的元素为各第二网格中的物体元素属于第a个类别的概率,a=1,2,…C1。需要说明的是,第二网格可能包含一个或多个物体的局部,将第二网格包含的物体的局部称为物体元素。
例如,预设的物体类别为4个,分别为:人、动物(除人之外)、车辆以及路障。相应的,第二张量为4阶。其中,第二张量的第1阶中的元素为各个第二网格中的物体元素属于人的概率,第二张量的第2阶中的元素为各个第二网格中的物体元素属于动物的概率,第二张量的第3阶中的元素为各个第二网格中的物体元素属于车辆的概率,第二张量的第4阶中的元素为各个第二网格中的物体元素属于路障的概率。
第二张量中位于各阶中相同行相同列的元素为:同一个第二网格中的物体元素属于各个类别的概率。例如,第二张量中位于第1阶至第4阶中第1行第1列的元素依次为同一个第二网格中的物体元素属于人的概率、属于动物的概率、属于车辆的概率和属于路障的概率。
在一种可能的实现方式中,基于原始特征生成第二张量,包括:利用预设的卷积层对原始特征进行卷积处理,得到第二张量。其中,第二张量为C1阶,第二张量的每一阶包括M行N列元素。
需要说明的是,卷积层中卷积核的数量决定了第二张量的阶数(也可以称为通道数量)。例如,预设的物体类别为4个,那么利用包括4个卷积核的卷积层对原始特征进行卷积处理,得到的第二张量为4阶。
可选的,卷积层中的卷积核的大小为1。
在另一种可能的实现方式中,基于原始特征生成第二张量,包括:对原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第二张量。其中,第二张量为C1阶,第二张量的每一阶包括M行N列元素,并且M和H的取值相同,N与W的取值相同。
也就是说,在第二种实现方式中,第二张量的每一阶包含的元素的行列数与第一张量的每一阶包含的元素的行列数是相同的。可以理解的是,在这种情况下,各个第二网格与各个第一网格的空间位置是一一对应的。
与第一种实现方式相比,在第二种实现方式中,首先对原始特征进行上采样,之后再利用预设的卷积层对上采样的结果进行卷积处理,以得到第二张量,第二张量的阶数与预设的物体类别的数量一致,而且第二张量的每一阶包含H行W列的元素。可以理解的是,在实际应用中,M和H的取值也可以不相同,N与W的取值也可以不相同。如H=2M,W=2N等。
对原始特征的上采样可以理解为对原始特征进行反卷积处理,能够捕捉对象区域更多的关键信息,实现细粒度的预测,使得针对物体类别的预测更加准确。
实施中,可以对原始特征进行2s倍的上采样,s为大于1的自然数。可选的,采用双线性差值上采样方案对原始特征进行上采样。
S303:基于原始特征生成第三张量。
第三张量指示各个第二网格的相对位置信息。第三张量为C2阶,第三张量的每一阶包括M行N列元素。其中,C2为第二网格的相对位置信息所包含相对位置参数的数量,第三张量中位于相同行相同列的C2个元素为同一个第二网格的相对位置参数的值,第三张量的第b阶中的元素为各个第二网格的第b个相对位置参数的值,b=1,2,…C2。
例如,第二网格的相对位置信息包括6个相对位置参数,分别为:第二网格的标记点的横坐标与该第二网格所在物体对象框的标记点的横坐标的差值△x、第二网格的标记点的纵坐标与该第二网格所在物体对象框的标记点的纵坐标的差值△y、第二网格所在物体对象框所处高度h、第二网格所在物体对象框的宽度w、第二网格所在物体对象框的长度l、以及第二网格所在物体对象框的偏转角θ。
需要说明的是,物体对象框是指物体的最小外切立体框。
还需要说明的是,第二网格的相对位置信息中所涉及的坐标系可以采用本车的车辆坐标系。第二网格所在物体对象框的偏转角θ为:第二网格所在物体对象框的长边(也就是沿深度方向的边)与x轴的正方向之间的夹角。
例如,第二网格所在物体对象框中的物体为车辆,那么该第二网格所在物体对象框的偏转角θ为该车辆朝向(该车辆中心轴)与x轴的正方向之间的夹角。例如,第二网格所在物体对象框中的物体为人,那么该第二网格所在物体对象框的偏转角θ为该人的身体朝向与x轴的正方向之间的夹角。
相应的,第三张量为6阶。其中,第三张量的第1阶中的元素为各个第二网格的标记点的横坐标与该第二网格所在物体对象框的标记点的横坐标的差值△x,第三张量的第2阶中的元素为各个第二网格的标记点的纵坐标与第二网格所在物体对象框的标记点的纵坐标的差值△y,第三张量的第3阶中的元素为各个第二网格所在物体对象框所处高度h,第三张量的第4阶中的元素为各第二网格所在物体对象框的宽度w,第三张量的第5阶中的元素为各第二网格所在物体对象框的长度l,第三张量的第6阶中的元素为各第二网格所在物体对象框的偏转角θ。
第三张量中位于各阶中相同行相同列的元素为同一个第二网格的6个相对位置参数的值。例如,第三张量中位于第1阶至第6阶中第1行第1列的元素依次为同一个第二网格的前述6个相对位置参数的值。
在一种可能的实现方式中,基于原始特征生成第三张量,包括:利用预设的卷积层对原始特征进行卷积处理,得到第三张量。其中,第二张量为C2阶,第三张量的每一阶包括M行N列元素。
需要说明的是,卷积层中卷积核的数量决定了第三张量的阶数。例如,第二网格的相对位置参数为6个,那么利用包括6个卷积核的卷积层对原始特征进行卷积处理,得到的第三张量为6阶。
可选的,卷积层中卷积核的大小为1。
在另一种可能的实现方式中,基于原始特征生成第三张量,包括:对原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第三张量,第三张量为C2阶,第三张量的每一阶包括M行N列元素,并且M和H的取值相同,N与W的取值相同。
也就是说,在第二种实现方式中,第三张量的每一阶包含的元素的行列数与第一张量的每一阶包含的元素的行列数是相同的。
与第一种实现方式相比,在第二种实现方式中,首先对原始特征进行上采样,之后再利用预设的卷积层对上采样的结果进行卷积处理,以得到第三张量,第三张量的阶数与第二网格的相对位置信息所包含相对位置参数的数量一致,而且第三张量的每一阶包含H行W列的元素。
对原始特征的上采样可以理解为对原始特征进行反卷积处理,能够捕捉对象区域更多的关键信息,实现细粒度的预测,使得针对物体位置的预测更加准确。
实施中,可以对原始特征进行2s倍的上采样,s为大于1的自然数。可选的,采用双线性差值上采样方案对原始特征进行上采样。
S304:根据第二张量指示的类别信息和第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息。
第二张量指示各个第二网格中物体元素的类别信息,第三张量指示各个第二网格的相对位置信息。也就是说,各个第二网格中物体元素的类别是已知的,各个第二网格与其所在物体对象框之间的相对位置是已知的,而且各个第二网格的绝对位置是已知的。其中,各个第二网格的绝对位置信息对应于各个第二网格对应的点云数据的位置信息。
可以理解的是,第二网格的尺寸通常小于当前环境中物体的尺寸,那么,当前环境中的物体通常位于多个第二网格内。也就是说,类别相同,且位置相邻的多个第二网格中的物体元素构成一个物体。实施中,根据第二张量指示的类别信息确定各物体所在的第二网格,再从第三张量中获取各物体所在第二网格的相对位置信息,根据每个物体所在第二网格的相对位置信息和绝对位置信息确定该目标物体的位置信息,该目标物体的类别为该目标物体所在第二网格的类别。
在一个可能的实现方式中,根据第二张量指示的类别信息和第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息,包括:
1)、根据第二张量在各个第二网格中确定类别为第一类别的目标网格,其中,第一类别为预设的C1个物体类别中的任意一个。
2)、从第三张量获取目标网格的相对位置信息。
3)、获得目标网格的绝对位置信息。
4)、根据目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息,将目标物体的类别确定为第一类别。其中,目标物体为目标网格所对应的物体。
实施中,将C1个物体类别依次作为第一类别,并执行后续的步骤,以确定出当前环境中各物体的位置信息和类别信息。
需要说明的是,目标网格的数量可能为一个,也可能为多个。
在一个实施例中,如果目标网格的数量为一个,那么根据该目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息。
在一个实施例中,如果目标网格的数量为多个,那么根据目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息,可以采用如下方案:根据任意一个目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息。
在一个实施例中,如果目标网格的数量为多个,那么根据目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息,可以采用如下方案:针对每一目标网格,根据目标网格的绝对位置信息和相对位置信息确定目标物体的备选位置信息;根据得到的多个备选位置信息确定目标物体的位置信息。
也就是说,针对每一个目标网格,根据该目标网格的绝对位置信息和相对位置信息确定目标物体的备选位置信息,得到的备选位置信息的数量与目标网格的数量一致。之后,在多个备选位置信息中确定置信度最高的备选位置信息,将该置信度最高的备选位置信息作为目标物体的位置信息,或者,对多个备选位置信息进行综合运算,得到目标物体的位置信息。
在一种可能的实现方式中,利用非极大值抑制算法(Non-maximum suppression,NMS)对多个备选位置信息进行处理,得到目标物体的位置信息。
在另一种可能的实现方式中,利用软化非极大值抑制算法(soft-NMS)对多个备选位置信息进行处理,得到目标物体的位置信息。
下面结合一个实例进行说明:
将预设的多个物体类别中的“车辆”作为第一类别。
根据第二张量在各个第二网格中确定类别为“车辆”的目标网格。需要说明的是,第二张量中位于各阶中相同行相同列的元素为第二网格中物体元素属于各个类别的概率,将概率值最高的类别确定为该第二网格的类别。
从第三张量获取各个目标网格的相对位置信息,并获得各个目标网格的绝对位置信息。根据各个目标网格的绝对位置信息和相对位置信息确定目标物体的备选位置信息。
具体的,根据第三张量可以获得:目标网格的标记点的横坐标与该目标网格所在物体对象框的标记点的横坐标的差值△x、目标网格的标记点的纵坐标与该目标网格所在物体对象框的标记点的纵坐标的差值△y、目标网格所在物体对象框所处高度h、目标网格所在物体对象框的宽度w、目标网格所在物体对象框的长度l、以及目标网格所在物体对象框的偏转角θ。而且,各个目标网格的标记点的横坐标和纵坐标是已知的,因此可以确定目标网格所在物体对象框的标记点的横坐标和纵坐标,而目标网格所在物体对象框的高度、宽度、长度和偏转角采用预测结果即可,从而确定目标物体的备选位置信息。
利用NMS或者soft-NMS对多个备选位置信息进行处理,得到目标物体的位置信息,该目标物体的类别为“车辆”。
之后,将其他预设的物体类别依次作为第一类别,并执行后续的步骤,以确定出当前环境中各物体的位置信息和类别信息。
实施中,第二网格的标记点可以配置为第二网格的中心点。物体对象框的标记点可以配置为物体对象框的中心点。
下面对本申请所使用识别模型的训练进行说明。
参见图4,图4为本申请公开的训练识别模型的方法的流程图。该方法包括:
S401:获得多个三维点云样本数据。
其中,三维点云样本数据对应的三维空间在水平方向上划分为多行多列的第三网格。每个三维点云样本数据包含至少一个样本物体的点云数据。每个三维点云样本数据具有标注信息,标注信息包括:位于样本物体所对应物体对象框中第三网格的相对位置信息以及类别信息。
需要说明的是,样本物体所对应的物体对象框为该样本物体的最小外切立体框。
第三网格的相对位置信息包括:第三网格的标记点的横坐标与该第三网格所在物体对象框的标记点的横坐标的差值△x、第三网格的标记点的纵坐标与该第三网格所在物体对象框的标记点的纵坐标的差值△y、第三网格所在物体对象框所处高度h、第三网格所在物体对象框的宽度w、第三网格所在物体对象框的长度l、以及第三网格所在物体对象框的偏转角θ。
在一种可能的实现方式中,对三维点云样本数据的标注过程为:
1)、标注该三维点云样本数据中各样本物体的位置信息,其中,样本物体的位置信息包括:该样本物体所对应物体对象框的标记点的横坐标、该样本物体所对应物体对象框的标记点的纵坐标、该样本物体所对应物体对象框的高度、该样本物体所对应物体对象框的宽度、该样本物体所对应物体对象框的长度、以及该样本物体所对应物体对象框的偏转角。
2)、对各样本物体的位置信息进行编码,得到各样本物体所在第三网格的相对位置信息。
也就是说,在标注过程中,用户只需要标注三维点云样本数据中的各样本物体的位置信息,由系统根据对各样本物体的位置信息进行编码,从而确定各样本物体所在第三网格的相对位置信息,而不需要用户对被样本物体所在的每个第三网格的相对位置信息进行标注。参见图5,图5为本申请公开的第三网格的相对位置参数和第三网格中物体元素所在样本物体的物体对象框的示意图。
S402:利用预先构建的学习模型对三维点云样本数据进行预测,获得预测结果。其中,预测结果包括学习模型所划分第三网格的预测相对位置信息和预测类别信息。
实施中,基于三维点云样本数据生成张量,将其记为第四张量,之后将第四张量输入预先构建的学习模型,由学习模型对第四张量进行处理,得到第五张量和第六张量。其中,第五张量指示各个第三网格中的物体元素的类别信息,第六张量指示各个第三网格的相对位置信息。
需要说明的是,基于三维点云样本数据生成第四张量的过程,与前文中基于三维点云数据生成第一张量的过程是类似的。学习模型对第四张量进行处理得到第五张量的过程,与前文中识别模型对第一张量进行处理得到第二张量的过程是类似的。学习模型对第四张量进行处理得到第六张量的过程,与前文中识别模型对第一张量进行处理得到第三张量的过程是类似的。
S403:根据预测结果和标注信息调整学习模型,直至调整后的学习模型满足预设收敛条件,将满足预设收敛条件的学习模型确定为识别模型。
预先构建的学习模型的初始模型参数均为自定义数值,训练学习模型的过程就是优化模型参数,以使得学习模型逐渐收敛,且预测结果的准确率逐渐提高的过程。当学习模型满足预设收敛条件时,将当前的学习模型确定为识别模型。
在一种可能的实现方式中,预设收敛条件为:预设损失函数的值小于预设的阈值。其中,预设损失函数表征第三网格的预测类别信息和标注的类别信息之间的误差,以及第三网格的预测相对位置信息和标注的相对位置信息之间的误差。其中,标注的类别信息即为标注信息所包含第三网络的类别信息,标注的相对位置信息即为标注信息所包含第三网格的相对位置信息。预设的阈值为经验值。
可选的,计算预设损失函数的值,包括:
根据第三网格的预测相对位置信息和标注的相对位置信息计算位置损失函数的值;根据第三网格的预测类别信息和标注的类别信息计算类别损失函数的值;计算位置损失函数的值和类别损失函数的值的和值,该和值为总损失函数的值,即为预设损失函数的值。
例如,按照公式(1)、公式(2)和公式(3)计算识别模型的总损失:
/>
LOSS=E+Q 公式(3)
其中,p(a)表示标注的第三网格中的物体元素属于第a个类别的概率,q(a)表示预测的第三网格中的物体元素属于第a个类别的概率,E表示类别损失函数的值,yb表示标注的第三网格的第b个相对位置参数,ybe表示预测的第三网格的第b个相对位置参数,Q表示位置损失函数的值,LOSS表示总损失。
显而易见的是:在本申请设计构思下,还存在其他的实施例。例如,在考虑某一相对位置参数对物体位置预测对实际应用影响不大时,第三张量的阶数也可以少于相对位置信息所包含相对位置参数的数量,如可以不考虑高度参数的影响。又如,在根据第二张量指示的类别信息和第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息时,也可以先将第三张量指示的相对位置信息较为接近的第二网格确定为一个物体,根据相对位置信息较为接近的第二网格的绝对位置信息和相对位置信息确定相应物体的位置信息,然后统计相对位置信息较为接近的第二网格中各类别信息出现的次数,将次数最大的类别信息作为相应物体的类别。
本申请上述提供了物体识别方法,相应的,本申请还提供物体识别装置。说明书中关于物体识别方法和物体识别装置的描述,可以相互参考。
参见图6,图6为本申请公开的一种物体识别装置的结构示意图。该物体识别装置包括数据获取单元100、数据处理单元200和物体识别单元300。
其中:
数据获取单元100,用于获取三维点云数据。
数据处理单元200,用于基于三维点云数据生成第一张量。
其中,第一张量为P阶,第一张量的每一阶包括H行W列元素,第一张量的第k阶中的元素由三维点云数据中位于第k个预设高度范围内点的反射强度确定,第一张量的第k阶中位于第i行第j列的元素为:三维点云数据中位于第k个预设高度范围的第i行第j列的栅格内点的反射强度的平均值。其中,在水平方向上将三维点云数据对应的三维空间划分为H行W列的第一网格,在高度方向上将每个第一网格划分为P个栅格,P、H和W为大于2的整数,k=1,2,…P,i=1,2,…H,j=1,2,…W。
物体识别单元300,用于将第一张量输入预先完成训练的识别模型,得到识别模型对第一张量处理后输出的当前环境中物体的位置信息和类别信息。
其中,识别模型根据三维点云样本数据训练得到,三维点云样本数据中样本物体的位置信息和类别信息已知。
本申请公开的物体识别装置,在获取三维点云数据后,基于三维点云数据生成第一张量,将第一张量输入识别模型,由识别模型对第一张量进行处理,得到当前环境中物体的位置信息和类别信息。可以看到,本申请中基于三维点云数据生成第一张量的过程,是将三维点云数据映射成多个通道的二维点云数据,从而将非结构化的数据转化为结构化数据,便于识别模型进行特征提取,从而提高物体识别效率,而且基于本申请公开的物体识别方法,能够直接确定当前场景中全部物体的位置和类别。
在一个实施例中,识别模型包括特征提取模块、位置预测模块、类别预测模块和解码模块。
其中:
特征提取模块用于:对第一张量进行特征提取,得到原始特征。
类别预测模块用于:基于原始特征生成第二张量。
其中,第一张量对应的三维空间在水平方向上划分为M行N列的第二网格,M和N为大于2的整数。第二张量指示各个第二网格中物体元素的类别信息。第二张量为C1阶,第二张量的每一阶包括M行N列元素。其中,C1为预设的物体类别的数量,第二张量中位于相同行相同列的C1个元素为同一个第二网格中物体元素属于各个类别的概率,第二张量的第a阶中的元素为各第二网格中的物体元素属于第a个类别的概率,a=1,2,…C1。
在一种可能的实现方式中,类别预测模块基于原始特征生成第二张量,具体为:利用预设的卷积层对原始特征进行卷积处理,得到第二张量。其中,第二张量为C1阶,第二张量的每一阶包括M行N列元素。
在另一种可能的实现方式中,类别预测模块基于原始特征生成第二张量,具体为:对原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第二张量。其中,第二张量为C1阶,第二张量的每一阶包括M行N列元素,并且M和H的取值相同,N与W的取值相同。
位置预测模块用于:基于原始特征生成第三张量。
第三张量指示各个第二网格的相对位置信息,第三张量为C2阶,第三张量的每一阶包括M行N列元素。其中,C2为各个第二网格的相对位置信息所包含相对位置参数的数量,第三张量中位于相同行相同列的C2个元素为同一个第二网格的相对位置参数的值,第三张量的第b阶中的元素为各个第二网格的相对位置信息中第b个相对位置参数的值,b=1,2,…C2。
例如,第二网格的相对位置信息包括6个相对位置参数,分别为:第二网格的标记点的横坐标与该第二网格所在物体对象框的标记点的横坐标的差值△x、第二网格的标记点的纵坐标与该第二网格所在物体对象框的标记点的纵坐标的差值△y、第二网格所在物体对象框所处高度h、第二网格所在物体对象框的宽度w、第二网格所在物体对象框的长度l、以及第二网格所在物体对象框的偏转角θ。
在一种可能的实现方式中,位置预测模块基于原始特征生成第三张量,具体为:利用预设的卷积层对原始特征进行卷积处理,得到第三张量。其中,第二张量为C2阶,第三张量的每一阶包括M行N列元素。
在另一种可能的实现方式中,位置预测模块基于原始特征生成第三张量,具体为:对原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第三张量,第三张量为C2阶,第三张量的每一阶包括M行N列元素,并且M和H的取值相同,N与W的取值相同。
解码模块用于:根据第二张量指示的类别信息和第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息。
在一种可能的实现方式中,解码模块根据第二张量指示的类别信息和第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息,具体为:根据第二张量在各个第二网格中确定类别为第一类别的目标网格,其中,第一类别为预设的C1个物体类别中的任意一个;从第三张量获取目标网格的相对位置信息;获得目标网格的绝对位置信息;根据目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息,将目标物体的类别确定为第一类别。其中,目标物体为目标网格所对应的物体。
可选的,如果目标网格的数量为一个,那么解码模块根据该目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息。
可选的,如果目标网格的数量为多个,那么解码模块根据目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息,采用如下方案:根据任意一个目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息。
可选的,如果目标网格的数量为多个,那么解码模块根据目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息,采用如下方案:针对每一目标网格,根据目标网格的绝对位置信息和相对位置信息确定目标物体的备选位置信息;根据得到的多个备选位置信息确定目标物体的位置信息。
可选的,解码模块利用非极大值抑制算法对多个备选位置信息进行处理,得到目标物体的位置信息。
可选的,解码模块利用软化非极大值抑制算法对多个备选位置信息进行处理,得到目标物体的位置信息。
在本申请图6所示物体识别装置的基础上,可以进一步设置模型训练单元。该模型训练单元用于:
获得多个三维点云样本数据。
其中,三维点云样本数据对应的三维空间在水平方向上划分为多行多列的第三网格。每个三维点云样本数据包含至少一个样本物体的点云数据。每个三维点云样本数据具有标注信息,标注信息包括:位于样本物体所对应物体对象框中第三网格的相对位置信息以及类别信息。第三网格的相对位置信息包括:第三网格的标记点的横坐标与该第三网格所在物体对象框的标记点的横坐标的差值△x、第三网格的标记点的纵坐标与该第三网格所在物体对象框的标记点的纵坐标的差值△y、第三网格所在物体对象框所处高度h、第三网格所在物体对象框的宽度w、第三网格所在物体对象框的长度l、以及第三网格所在物体对象框的偏转角θ。
利用预先构建的学习模型对三维点云样本数据进行预测,获得预测结果。其中,预测结果包括学习模型所划分第三网格的预测相对位置信息和预测类别信息。
根据预测结果和标注信息调整学习模型,直至调整后的学习模型满足预设收敛条件,将满足预设收敛条件的学习模型确定为识别模型。
在一种可能的实现方式中,预设收敛条件为:预设损失函数的值小于预设的阈值。其中,预设损失函数表征第三网格的预测类别信息和标注的类别信息之间的误差,以及第三网格的预测相对位置信息和标注的相对位置信息之间的误差。其中,标注的类别信息即为标注信息所包含第三网络的类别信息,标注的相对位置信息即为标注信息所包含第三网格的相对位置信息。预设的阈值为经验值。
可选的,计算预设损失函数的值,包括:
根据第三网格的预测相对位置信息和标注的相对位置信息计算位置损失函数的值;根据第三网格的预测类别信息和标注的类别信息计算类别损失函数的值;计算位置损失函数的值和类别损失函数的值的和值,该和值为总损失函数的值,即为预设损失函数的值。
需要说明的是,本申请提供的物体识别装置可以不包含模型训练单元。也就是说,本申请提供的物体识别装置获取其他电子设备训练得到的识别模型,根据获取到的识别模型对第一张量进行处理,得到当前环境中物体的位置信息和类别信息。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的物体识别装置而言,由于其与实施例公开的物体识别方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (9)
1.一种物体识别方法,其特征在于,包括:
获取三维点云数据;
基于所述三维点云数据生成第一张量,所述第一张量为P阶,所述第一张量的每一阶包括H行W列元素,所述第一张量的第k阶中的元素由所述三维点云数据中位于第k个预设高度范围内点的反射强度确定,所述第一张量的第k阶中位于第i行第j列的元素为:所述三维点云数据中位于第k个预设高度范围的第i行第j列的栅格内点的反射强度的平均值,其中,在水平方向上将所述三维点云数据对应的三维空间划分为H行W列的第一网格,在高度方向上将每个第一网格划分为P个栅格,P、H和W为大于2的整数,k=1,2,…P,i=1,2,…H,j=1,2,…W;
将所述第一张量输入预先完成训练的识别模型,得到所述识别模型对所述第一张量处理后输出的当前环境中物体的位置信息和类别信息;所述识别模型根据三维点云样本数据训练得到,所述三维点云样本数据中样本物体的位置信息和类别信息已知;
其中,所述识别模型对所述第一张量的处理,包括:
对所述第一张量进行特征提取,得到原始特征;
基于所述原始特征生成第二张量,所述第二张量指示各个第二网格中物体元素的类别信息,所述第一张量对应的三维空间在水平方向上划分为M行N列的第二网格,所述第二张量为C1阶,所述第二张量的每一阶包括M行N列元素,其中,C1为预设的物体类别的数量,所述第二张量中位于相同行相同列的C1个元素为同一个第二网格中物体元素属于各个类别的概率,所述第二张量的第a阶中的元素为各第二网格中的物体元素属于第a个类别的概率,a=1,2,…C1;
基于所述原始特征生成第三张量,所述第三张量指示所述各个第二网格的相对位置信息,所述第三张量为C2阶,所述第三张量的每一阶包括M行N列元素,其中,C2为所述各个第二网格的相对位置信息所包含相对位置参数的数量,所述第三张量中位于相同行相同列的C2个元素为同一个第二网格的相对位置参数的值,所述第三张量的第b阶中的元素为所述各个第二网格的相对位置信息中第b个相对位置参数的值,b=1,2,…C2;
根据所述第二张量指示的类别信息和所述第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二张量指示的类别信息和所述第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息,包括:
根据所述第二张量在所述各个第二网格中确定类别为第一类别的目标网格,所述第一类别为预设的C1个物体类别中的任意一个;
从所述第三张量获取所述目标网格的相对位置信息;
获得所述目标网格的绝对位置信息;
根据所述目标网格的绝对位置信息和相对位置信息确定目标物体的位置信息,将所述目标物体的类别确定为所述第一类别,所述目标物体为所述目标网格所对应的物体。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标网格的绝对位置信息和相对位置信息确定所述目标物体的位置信息,包括:
在所述目标网格为多个的情况下,针对每一目标网格,根据所述目标网格的绝对位置信息和相对位置信息确定所述目标物体的备选位置信息;
根据得到的多个备选位置信息确定所述目标物体的位置信息。
4.根据权利要求3所述的方法,其特征在于,所述根据得到的多个备选位置信息确定所述目标物体的位置信息,包括:
利用非极大值抑制算法NMS或者软化非极大值抑制算法soft-NMS对所述多个备选位置信息进行处理,得到所述目标物体的位置信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,
所述基于所述原始特征生成第二张量,包括:对所述原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第二张量,所述第二张量为C1阶,所述第二张量的每一阶包括M行N列元素;
所述基于所述原始特征生成第三张量,包括:对所述原始特征进行上采样,利用预设的卷积层对上采样的结果进行卷积处理,得到第三张量,所述第三张量为C2阶,且所述第三张量的每一阶包括M行N列元素;
其中,M与H的取值相同,N与W的取值相同。
6.根据权利要求1所述的方法,其特征在于,所述识别模型的训练过程包括:
获得多个三维点云样本数据,并且所述三维点云样本数据具有标注信息,所述三维点云样本数据包含至少一个样本物体的点云数据,所述标注信息包括位于所述样本物体所对应物体对象框中第三网格的相对位置信息以及类别信息,其中,所述三维点云样本数据对应的三维空间在水平方向上划分为多行多列的第三网格,物体对象框为所述样本物体的最小外切立体框,所述第三网格的相对位置信息包括:所述第三网格的标记点的横坐标与所述第三网格所在物体对象框的标记点的横坐标的差值、所述第三网格的标记点的纵坐标与所述第三网格所在物体对象框的标记点的纵坐标的差值、所述第三网格所在物体对象框的高度、所述第三网格所在物体对象框的长度、所述第三网格所在物体对象框的宽度、以及所述第三网格所在物体对象框的偏转角;
利用预先构建的学习模型对所述三维点云样本数据进行预测,获得预测结果,所述预测结果包括所述学习模型所划分第三网格的预测相对位置信息和预测类别信息;
根据所述预测结果和标注信息调整所述学习模型,直至调整后的学习模型满足预设收敛条件,将满足所述预设收敛条件的学习模型确定为所述识别模型。
7.根据权利要求6所述的方法,其特征在于,所述预设收敛条件为:预设损失函数的值小于预设的阈值;
其中,所述预设损失函数表征所述第三网格的预测类别信息和标注的类别信息之间的误差,以及所述第三网格的预测相对位置信息和标注的相对位置信息之间的误差。
8.根据权利要求7所述的方法,其特征在于,计算所述预设损失函数的值,包括:
根据所述第三网格的预测相对位置信息和标注的相对位置信息计算位置损失函数的值;
根据所述第三网格的预测类别信息和标注的类别信息计算类别损失函数的值;
计算所述位置损失函数的值和所述类别损失函数的值的和值,所述和值为所述预设损失函数的值。
9.一种物体识别装置,其特征在于,包括:
数据获取单元,用于获取三维点云数据;
数据处理单元,用于基于所述三维点云数据生成第一张量,所述第一张量为P阶,所述第一张量的每一阶包括H行W列元素,所述第一张量的第k阶中的元素由所述三维点云数据中位于第k个预设高度范围内点的反射强度确定,所述第一张量的第k阶中位于第i行第j列的元素为:所述三维点云数据中位于第k个预设高度范围的第i行第j列的栅格内点的反射强度的平均值,其中,在水平方向上将所述三维点云数据对应的三维空间划分为H行W列的第一网格,在高度方向上将每个第一网格划分为P个栅格,P、H和W为大于2的整数,k=1,2,…P,i=1,2,…H,j=1,2,…W;
物体识别单元,用于将所述第一张量输入预先完成训练的识别模型,得到所述识别模型对所述第一张量处理后输出的当前环境中物体的位置信息和类别信息;所述识别模型根据三维点云样本数据训练得到,所述三维点云样本数据中样本物体的位置信息和类别信息已知;
其中,所述识别模型包括:特征提取模块、位置预测模块、类别预测模块和解码模块;
所述特征提取模块用于对所述第一张量进行特征提取,得到原始特征;
所述类别预测模块用于基于所述原始特征生成第二张量,所述第二张量指示各个第二网格中物体元素的类别信息,所述第一张量对应的三维空间在水平方向上划分为M行N列的第二网格,所述第二张量为C1阶,所述第二张量的每一阶包括M行N列元素,其中,C1为预设的物体类别的数量,所述第二张量中位于相同行相同列的C1个元素为同一个第二网格中物体元素属于各个类别的概率,所述第二张量的第a阶中的元素为各第二网格中的物体元素属于第a个类别的概率,a=1,2,…C1;
所述位置预测模块用于基于所述原始特征生成第三张量,所述第三张量指示所述各个第二网格的相对位置信息,所述第三张量为C2阶,所述第三张量的每一阶包括M行N列元素,其中,C2为所述各个第二网格的相对位置信息所包含相对位置参数的数量,所述第三张量中位于相同行相同列的C2个元素为同一个第二网格的相对位置参数的值,所述第三张量的第b阶中的元素为所述各个第二网格的相对位置信息中第b个相对位置参数的值,b=1,2,…C2;
所述解码模块用于根据所述第二张量指示的类别信息和所述第三张量指示的相对位置信息确定当前环境中物体的位置信息和类别信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010661900.6A CN111832471B (zh) | 2020-07-10 | 2020-07-10 | 一种物体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010661900.6A CN111832471B (zh) | 2020-07-10 | 2020-07-10 | 一种物体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832471A CN111832471A (zh) | 2020-10-27 |
CN111832471B true CN111832471B (zh) | 2024-04-12 |
Family
ID=72899716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010661900.6A Active CN111832471B (zh) | 2020-07-10 | 2020-07-10 | 一种物体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832471B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287860B (zh) * | 2020-11-03 | 2022-01-07 | 北京京东乾石科技有限公司 | 物体识别模型的训练方法及装置、物体识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263652A (zh) * | 2019-05-23 | 2019-09-20 | 杭州飞步科技有限公司 | 激光点云数据识别方法及装置 |
WO2020103108A1 (zh) * | 2018-11-22 | 2020-05-28 | 深圳市大疆创新科技有限公司 | 一种语义生成方法、设备、飞行器及存储介质 |
WO2020119661A1 (zh) * | 2018-12-14 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、装置以及行人检测方法、系统 |
-
2020
- 2020-07-10 CN CN202010661900.6A patent/CN111832471B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020103108A1 (zh) * | 2018-11-22 | 2020-05-28 | 深圳市大疆创新科技有限公司 | 一种语义生成方法、设备、飞行器及存储介质 |
WO2020119661A1 (zh) * | 2018-12-14 | 2020-06-18 | 中国科学院深圳先进技术研究院 | 一种目标检测方法、装置以及行人检测方法、系统 |
CN110263652A (zh) * | 2019-05-23 | 2019-09-20 | 杭州飞步科技有限公司 | 激光点云数据识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于点云数据的三维目标识别和模型分割方法;牛辰庚;刘玉杰;李宗民;李华;;图学学报(第02期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111832471A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287962B (zh) | 基于超对象信息的遥感图像目标提取方法、装置及介质 | |
CN107564025B (zh) | 一种基于深度神经网络的电力设备红外图像语义分割方法 | |
KR102143108B1 (ko) | 차선 인식 모델링 방법, 장치, 저장 매체 및 기기, 및 인식 방법, 장치, 저장 매체 및 기기 | |
CN108681693B (zh) | 基于可信区域的车牌识别方法 | |
DE102017100396A1 (de) | Auf Straßenszenenbilder angewendete Klassifikatoren für hohe und niedrige Wiedergabetreue | |
CN110889464B (zh) | 检测目标对象的神经网络训练、目标对象的检测方法及装置 | |
CN111291819A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN110555433A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
CN111191654B (zh) | 道路数据生成方法、装置、电子设备及存储介质 | |
CN111008576B (zh) | 行人检测及其模型训练、更新方法、设备及可读存储介质 | |
CN112861970B (zh) | 一种基于特征融合的细粒度图像分类方法 | |
CN111046787A (zh) | 一种基于改进YOLO v3模型的行人检测方法 | |
CN111461213A (zh) | 一种目标检测模型的训练方法、目标快速检测方法 | |
CN117157678A (zh) | 用于基于图的全景分割的方法和系统 | |
Ullah et al. | Barrier access control using sensors platform and vehicle license plate characters recognition | |
US20220147732A1 (en) | Object recognition method and system, and readable storage medium | |
CN112016569A (zh) | 基于注意力机制的目标检测方法、网络、设备和存储介质 | |
CN111476242A (zh) | 一种激光点云语义分割方法及装置 | |
CN111626134A (zh) | 一种基于隐密度分布的密集人群计数方法、系统及终端 | |
CN111833353B (zh) | 一种基于图像分割的高光谱目标检测方法 | |
CN111832471B (zh) | 一种物体识别方法及装置 | |
CN111178178B (zh) | 结合区域分布的多尺度行人重识别方法、系统、介质及终端 | |
CN114612883A (zh) | 一种基于级联ssd和单目深度估计的前向车辆距离检测方法 | |
WO2023284255A1 (en) | Systems and methods for processing images | |
Chen et al. | Contrast limited adaptive histogram equalization for recognizing road marking at night based on YOLO models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 4 / F, building 1, No.14 Jiuxianqiao Road, Chaoyang District, Beijing 100020 Applicant after: Beijing Jingwei Hengrun Technology Co.,Ltd. Address before: 8 / F, block B, No. 11, Anxiang Beili, Chaoyang District, Beijing 100101 Applicant before: Beijing Jingwei HiRain Technologies Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |