CN114387346A

CN114387346A - 一种图像识别、预测模型处理方法、三维建模方法和装置

Info

Publication number: CN114387346A
Application number: CN202210297840.3A
Authority: CN
Inventors: 顾佳琦; 吴博剑; 樊鲁斌; 周昌; 黄建强
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-04-22

Abstract

本申请实施例公开了一种图像识别、预测模型处理方法、三维建模方法和装置。依据本申请实施例，获取目标相机图像的第一图像特征，将目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征，提取网格单元的网格特征对应在特定视角下的第二图像特征，也即是将三维空间网格单元下的网格特征作为中间转换过程，实现了将相机图像的二维图像特征转换到特定视角下的二维图像特征，进一步根据特定视角下的第二图像特征，可以识别目标相机图像在三维空间中对应的目标对象。由此可见，本申请提供了一种新的对象识别方案，可以将图像特征切换到其他视角进行对象识别。

Description

一种图像识别、预测模型处理方法、三维建模方法和装置

技术领域

本申请涉及数据处理技术领域，具体涉及一种图像识别方法和装置、一种预测模型的处理方法和装置、一种三维建模方法和装置、一种电子设备、一种机器可读介质、一种软件产品。

背景技术

在感知理解场景中，相机作为性价比最高的传感器，被广泛应用在所有城市理解与自动驾驶场景中。通过将相机采集的二维信息映射到三维空间，构建三维场景，在空间定位、智慧驾驶等诸多领域中发挥了重要作用，已经被广泛应用生产生活中，具有较大经济价值。

为了完成二维空间与三维空间的实时映射，拓展下游任务的多样性和丰富三维场景理解，单目三维检测的技术应运而生。单目三维检测通过相机画面得到物体在三维空间的位置与姿态信息，进而构建丰富的场景信息。

经申请人研究发现，上述方案中，由于各个场景下相机摆放的位置姿态不一致，场景空间变化大，并且观测范围局限在整个场景的局部空间，难以准确地还原三维场景的实际情况。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的图像识别方法和装置、预测模型的处理方法和装置、三维建模方法和装置、电子设备、机器可读介质、软件产品。

依据本申请的一个方面，提供了一种图像识别方法，包括：

获取目标相机图像的第一图像特征；

将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征；

提取所述网格单元的网格特征对应在特定视角下的第二图像特征；

根据所述特定视角下的第二图像特征，识别所述目标相机图像在三维空间中对应的目标对象。

可选的，所述将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征包括：

按照三维空间中网格单元与相机图像的像素点之间的坐标映射关系，将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征。

可选的，所述方法还包括：

将三维空间划分为多个立体的网格单元，创建三维空间的网格单元与相机图像的像素点之间的坐标映射关系。

可选的，所述创建三维空间的网格单元与相机图像的像素点之间的坐标映射关系包括：

将所述三维空间的网格单元的中心点按照相机参数转换为二维的相机图像中像素点的坐标值；

确定所述中心点的坐标值和像素点的坐标值之间的映射关系。

可选的，所述提取所述网格单元的网格特征对应在特定视角下的第二图像特征包括：

提取所述网格单元的网格特征对应在鸟瞰视角下的第二图像特征。

提取所述网格单元的网格特征在特定视角下的二维平面对应的图像特征作为第二图像特征。

可选的，所述提取所述网格单元的网格特征对应在特定视角下的第二图像特征还包括：

对所述特定视角下的第二图像特征对应的特征图进行下采样处理，获得多个不同尺寸的采样结果；

对采样结果进行双线性上采样，并对上采样结果进行融合处理，将合并后对应原始尺寸的特征图替换为第二图像特征。

可选的，所述方法基于目标模型实现，所述方法还包括：

训练用于识别目标对象的预测模型。

可选的，所述训练用于识别目标对象的预测模型包括：

使用标记有目标对象的识别结果的相机图像样本进行预测模型的训练，所述目标对象的识别结果采用三维框表征；

在训练过程中，确定相机图像样本标记的三维框对应的第一图像特征和第二图像特征，并确定所述第一图像特征和第二图像特征之间的坐标转换关系；

对使用所述预测模型预测的三维框对应的第一图像特征和所述坐标转换关系预测第二图像特征，并根据预测的第二图像特征与所述相机图像样本标记的三维框对应的第二图像特征的差异，确定第一损失函数，用于训练所述预测模型。

可选的，所述相机图像样本还标记有所述目标对象的分类识别结果和尺寸识别结果，所述训练用于识别目标对象的预测模型包括：

使用所述预测模型预测的分类识别结果和尺寸识别结果，与所述相机图像样本标记的分类识别结果和尺寸识别结果的差异，分别确定第二损失函数和第三损失函数，用于训练所述预测模型。

依据本申请的另一个方面，提供了一种预测模型的处理方法，包括：

提取相机图像样本的第一图像特征，所述相机图像样本标记有目标对象的第一识别结果；

将所述相机图像样本的第一图像特征转换为三维空间中网格单元的网格特征；

根据所述特定视角下的第二图像特征，确定所述相机图像样本在三维空间中对应的目标对象的第二识别结果；

根据所述第一识别结果和第二识别结果的差异进行预测模型的训练。

可选的，所述目标对象的识别结果采用三维框表征；

所述根据所述第一识别结果和第二识别结果的差异进行预测模型的训练包括：

依据本申请的另一个方面，提供了一种三维建模方法，包括：

获取针对目标对象采集的至少一张相机图像；

获取从所述至少一张相机图像中识别到的所述目标对象在三维空间中对应的三维数据；所述三维数据在提取所述相机图像中的第一图像特征后，根据所述第一图像特征转换的三维空间中网格单元的网格特征所对应在特定视角下的第二图像特征生成；

基于所述三维数据创建所述目标对象对应的三维模型。

依据本申请的另一个方面，提供了一种电子设备，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如上述任一项所述的方法。

依据本申请实施例，获取目标相机图像的第一图像特征，将目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征，提取网格单元的网格特征对应在特定视角下的第二图像特征，也即是将三维空间网格单元下的网格特征作为中间转换过程，实现了将相机图像的二维图像特征转换到特定视角下的二维图像特征，进一步根据特定视角下的第二图像特征，可以识别目标相机图像在三维空间中对应的目标对象，由此可见，本申请提供了一种新的对象识别方案，可以将图像特征切换到其他视角进行对象识别。如果该特定视角下图像尺寸更具有一致性，并且没有视角遮挡，例如采用鸟瞰视角，则可以更好地还原三维场景，加强了对不同相机和不同视角的鲁棒性，提高了单目三维检测的精度，并且可以广泛适用于不同内外参的相机，从而可以更有效地应用在基于三维场景在分析或定位等领域中。并且，上述方案的实现过程可以基于预先训练好的预测模型实现，可以保证整个过程的高效执行和实时输出。

据此构建三维模型，通过三维建模还原真实场景，结合增强现实系统或是虚实结合的虚拟现实系统进行场景还原，可以模拟到更准确的环境状态，提高用户体验的真实感。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请的图像识别方案的一个示例；

图2示出了根据本申请的图像识别方案的流程示例；

图3示出了根据本申请实施例一的一种图像识别方法的流程图；

图4示出了根据本申请实施例二的一种预测模型的处理方法的流程图；

图5示出了根据本申请实施例三的一种三维建模方法的流程图；

图6示出了根据本申请实施例四的一种图像识别装置的结构框图；

图7示出了根据本申请实施例五的一种预测模型的处理装置的结构框图；

图8示出了根据本申请实施例六的一种预测模型的处理装置的结构框图；

图9示出了可被用于实现本公开中所述的各个实施例的示例性系统。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种图像分析的方案，可以应用于依据相机采集的图像投射至三维空间，识别出其中包括的目标对象，进一步可以基于目标对象在三维空间的位置和姿态等信息进行对象的运动轨迹，例如可以应用到道路分析的应用场景下，对球机采集到的道路图像进行目标对象的识别，进而进行道路概况分析、安全态势分析、拥堵分析等等。相机图像可以是单目图像。

上述涉及到的目标对象可以包括一个或多个，可以是不同的种类，比如道路分析场景下，可以是对行人、车辆、建筑等对象进行识别。识别的目标对象可以采用各种形式进行表征，例如在三维空间的位置坐标信息或是三维框进行表征。

本申请的方案中，首先对目标相机图像进行特征提取，以获取到二维图像对应的图像特征，此处记为第一图像特征。特征是从图像中提取的有用的数据或信息，得到图像的“非图像”的表示或描述，如数值、向量和符号等，通常是图像区别于其他数据的相应特点或特性，例如亮度、边缘、纹理和色彩，可以供计算机识别和分析，从而使计算机可以对图像进行识别。特征通常不受光线、噪点、几何形变的干扰。

对图像进行特征提取的过程也即是将图像经过运算得到特征点组成的矩阵，也即是特征图，特征图中包括多个维度下的特征点。本申请实施例中，可以采用深度残差网络进行特征提取，也可以采用卷积神经网络对图像进行特征提取，一个图像矩阵经过一个卷积核的卷积操作后，得到了另一个矩阵，每一个卷积核都可以提取特定的特征，不同的卷积核对应提取不同的特征。

进一步，可以将目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征。此处将雷达坐标系下的三维空间划分为多个立体的网格单元，也即是设定XYZ三个方向的分辨率，将三维空间进行体素化，划分为均匀的空间网格。

例如，根据当前图像对应场景范围的先验值，设定三维空间的范围

，确定网格的分辨率为

，因此可以将三维空间按照分辨率划分为均匀的网格单元。取每个网格的中心点代表该网格单元，从而获得代表三维空间的点云

，因此，通过体素化的方式可以构建当前图像对应场景的三维体素化空间，其代表为体素化点云

。

其中，网格单元的形状、大小、数量以及具体的划分规则可以根据实际需求设定，比如，将三维空间划分为大小相同的多个正方体网格单元，将二维的相机图像上的像素点与三维空间中的网格单元进行映射，将二维的相机图像中像素点的图像特征对应转换到三维空间中网格单元的网格特征。

其中，二维的相机图像的像素点与三维空间中网格单元之间的映射关系可以提前确定，将三维空间划分为多个立体的网格单元，创建三维空间的网格单元与相机图像的像素点之间的坐标映射关系，以便按照三维空间中网格单元与相机图像的像素点之间的坐标映射关系，将目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征。

具体而言，在创建三维空间的网格单元与相机图像的像素点之间的坐标映射关系时，网格单元可以采用其中心点代替计算，可以将三维空间的网格单元的中心点按照相机参数转换为二维的相机图像中像素点的坐标值，然后确定中心点的坐标值和像素点的坐标值之间的映射关系。相机参数是物体表面某点的三维几何位置与其在图像上对应点之间的相对变换关系，根据该相对变换关系可以将采集的图像投射到三维空间中，获得描绘三维空间的三维数据。具体可以分为相机内参和相机外参。相机内参主要包括相机焦距、主点位置、斜切系数和畸变参数等参数，畸变参数可以进一步包括径向畸变参数和切向畸变参数。相机外参相机相对于真实世界（三维空间坐标系，真实场景）的参数，用于将世界坐标系转换至相机坐标系下，具体形式可以是世界坐标系到相机坐标系的旋转矩阵和平移向量。

三维空间的网格单元的中心点按照相机参数转换为二维的相机图像中像素点的坐标值的过程中，可以先将网格中心点按照相机内参转换到对应像素点的视角下，然后再按照相机外参从三维空间转换至二维空间，从而可以得到各个网格单元的中心点与二维的相机图像中像素点的坐标值之间的对应关系。上述实现过程也即是通过双线性插值的方式得到网格单元的网格特征，也即是三维空间的三维点的特征，作为三维空间的体素化特征，可以表示为

，其中

分别表示三维空间特征在

方向上的维度，

代表特征维度。

提取网格单元的网格特征之后，可以进一步提取网格单元的网格特征对应在特定视角下的图像特征，记为第二图像特征。例如，可以在特定视角下的二维平面对应的图像特征作为第二图像特征。由于网格单元特征是三维空间下的特征，因此可以通过“坍缩”的方式提取特定视角下的二维的图像特征，也即是将高度方向各维度的特征进行叠加处理后，提取平面特征以及叠加后的高度特征。例如，可以在高度维度上利用全连接层进行单维度的特征提取，将特征从三维空间压缩到特定视角下，最后输出特定视角下的图像特征。

提取上述提取网格单元的网格特征对应在特定视角下的第二图像特征中，涉及的特定视角可以是具有某个方面的更优特性，从而进一步可以根据特定视角下的第二图像特征，识别目标相机图像在三维空间中对应的目标对象时，可以更准确识别到目标对象。如果该特定视角下图像尺寸更具有一致性，并且没有视角遮挡，则可以更好地还原三维场景，加强对不同相机和不同视角的鲁棒性，提高单目三维检测的精度，并且可以广泛适用于不同内外参的相机，从而可以更有效地应用在基于三维场景在分析或定位等领域中。例如，可以将鸟瞰视角作为特定视角，鸟瞰视角是从高处某一点俯视地面起伏对三维场景进行描述，鸟瞰图也即是在空中俯视某一地区所看到的图像。

以鸟瞰视角为例，针对上述获得的网格单元的网格特征

，在高度维度上进行特征提取，将其重组维度表示为

，在

的高度维度上可以利用全连接层进行单维度的特征提取，输出的第二图像特征表示为

。

在提取网格单元的网格特征对应在特定视角下的第二图像特征的过程中，还可以对从网格特征获得的第二图像特征进行特定视角下的特征提取的过程，即基于第二图像特征再进行特征提取，例如，可以对特定视角下的第二图像特征对应的特征图进行下采样处理，获得多个不同尺寸的采样结果，进一步通过对采样结果进行双线性上采样，并对上采样结果进行融合处理，将合并后对应原始尺寸的特征图替换为第二图像特征。该过程可以通过预测模型的编码器和解码器部分实现，对第二图像特征通过卷积层进行下采样，得到1倍

、2倍

、4倍

下采样的特征图，再使用解码器对1倍、2倍、4倍下采样的特征图分别通过双线性上采样的方式，得到原始图像尺寸的特征图，并且融合后进行输出。

上述方案的实现过程可以基于预先训练好的预测模型实现，可以保证整个过程的高效执行和实时输出。相应的，还可以训练用于识别目标对象的预测模型。预测模型的功能可以通过自学习训练实现，预测模型可以是卷积神经网络等可以实现自学习能力的神经网络，本申请对此并不做限制。

预测模型的训练数据的来源可以是公开数据集或者其他场景实地采集的单帧图像、三维框标注信息等。

上述预测模型的特征提取层可以包括一层或多层，仅包括一层特征提取层时，提取的是较为具象的特征，包括多层特征提取层时，可以提取到更抽象更高等级的特征，特征层数越多，意味着提取的特征可以更好地表征图像。例如，对残差网络输出的多张（比如四张）卷积图分别进行特征提取，并利用反卷积方法上采样到相同大小的图像4倍下采样分辨率的图像特征图。还可以将最后两个阶段的卷积层改为可变形卷积层，提高对图像特征理解的能力，获得更精准表征图像的特征。

本申请实施例中，还可以构建相机图像的二维图像特征与根据网格单元的网格特征处理得到的特定视角下二维图像特征之间的映射关系，具体可以采用单应性矩阵来表示，在训练用于识别目标对象的预测模型时，目标对象的识别结果采用三维框表征，可以使用标记有目标对象的识别结果的相机图像样本进行预测模型的训练，在训练过程中，确定相机图像样本标记的三维框对应的第一图像特征和第二图像特征，并确定第一图像特征和第二图像特征之间的坐标转换关系，该坐标转换关系可以采用转换矩阵进行表征，通过透视变换实现两个坐标系之间的互相转换。以鸟瞰视角为例，第一图像特征和第二图像特征之间的坐标转换关系即是鸟瞰图坐标系与相机图像坐标系之间的转换关系。然后对使用预测模型预测的三维框对应的第一图像特征和坐标转换关系预测第二图像特征，并根据预测的第二图像特征与所述相机图像样本标记的三维框对应的第二图像特征的差异，确定第一损失函数，用该第一损失函数训练上述的预测模型。

通过加入上述第一损失函数的训练，可以加强场景所有物体的全局联合优化约束，能够提升单目三维检测训练的稳定性与最终精度。

一些可选的实施例中，相机图像样本可以标记有所述目标对象的分类识别结果和尺寸识别结果，训练用于识别目标对象的预测模型时，可以使用预测模型预测的分类识别结果和尺寸识别结果，与相机图像样本标记的分类识别结果和尺寸识别结果的差异，分别确定第二损失函数和第三损失函数，也即是使用预测模型预测的分类识别结果与相机图像样本标记的分类识别结果确定第二损失函数，使用预测模型预测的尺寸识别结果与相机图像样本标记的尺寸识别结果确定第三损失函数，根据该第二损失函数和第三损失函数训练上述预测模型。当然，可以结合三种损失函数中的一种或多种进行模型训练，此处不做限制。

如下给出上述三种损失函数的具体示例：

上述预测模型的训练中，在每一个网格单元中预设两个角度分别为0和

的锚框，回归的三维框参数为

，因此设定真实三维框与锚框之间的回归残差，如下所示：

,

,

,

,

,

,

。

其中，

，作为归一化系数来进行回归。

在训练过程中，可以预测结果的三维框与具有标注的三维框之间的IoU（面积交并比）大于第一阈值（例如0.6）作为正样本，小于第二阈值（例如0.45）的作为负样本。

其中，第二损失函数可以利用Focal Loss进行约束，公式如下：

,其中，

为锚框估计得到的分类分数，

和

为Focal Loss（焦点损失函数）的超参，这里设为0.25和2.0。

第三损失函数可以针对提取正样本的区域的每个位置，利用Smooth L1 Loss（平滑损失函数）进行约束，公式如下：

针对预测函数获得的三维框和对应的真实三维框，得到所有三维框底面中心点和4个角点在鸟瞰视角下的像素坐标，也即是第二图像特征

，通过投影矩阵得到对应的二维图像像素坐标

，也即是第一图像特征。对每一个真实三维框，对其对应的预测三维框按照分类分数降序排序，选择预测分数最高的三维框。

建立起每个真实三维框和所选择的预测三维框之间的一对一的关系。对每个真实三维框和预测三维框，提取鸟瞰视角下的坐标

和二维图像像素坐标

，共得到预测三维框对应的

和

，以及真实三维框对应的

和

。

按照所有三维框都落在地面上的先验假设，可以以

和

作为输入，计算两者之间的单应性矩阵

。然后通过

与单应性矩阵

得到基于单应性矩阵的鸟瞰视角下的投影坐标

。之后，通过约束

和

之间的误差，可以实现结合场景下所有对象的相对位置关系来联合优化预测的三维框位置。同样利用Smooth L1 Loss（平滑损失函数）对其进行回归，公式如下：

总体损失函数可以结合上述三个损失函数确定，定义为：

，其中，

为各损失函数的权重，例如取

。

基于上述图像分析方案，还可以提供相应的预测模型的处理方法，具体的，可以提取相机图像样本的第一图像特征，该相机图像样本标记有目标对象的第一识别结果，将相机图像样本的第一图像特征转换为三维空间中网格单元的网格特征，然后提取网格单元的网格特征对应在特定视角下的第二图像特征，从而可以根据特定视角下的第二图像特征，确定相机图像样本在三维空间中对应的目标对象的第二识别结果，以根据第一识别结果和第二识别结果的差异进行预测模型的训练。

与上面图像分析方案相应的，目标对象的识别结果可以采用三维框表征，在训练过程中，可以确定相机图像样本标记的三维框对应的第一图像特征和第二图像特征，并确定第一图像特征和第二图像特征之间的坐标转换关系，对使用预测模型预测的三维框对应的第一图像特征和坐标转换关系预测第二图像特征，并根据预测的第二图像特征与相机图像样本标记的三维框对应的第二图像特征的差异，确定第一损失函数，用于训练预测模型。

上述方案可以应用于各种需要将相机数据投射至三维空间的应用场景下。需要说明的是，上述方案的实现可以在相机等图像获取设备的内部，也可以在服务器或是云端实现。方案对应可以实施为应用程序、服务、实例、软件形态的功能模块、虚拟机（VirtualMachine，VM）或容器，或者也可以实现为具有图像处理功能的硬件设备（如服务器或终端设备）或硬件芯片（如CPU、GPU或FPGA）等。计算平台可以利用自身的计算资源提供预测模型的训练、目标对象的识别等部分或全部处理，相机或是需求方可以通过客户端或是设定接口申请上述处理并提交相机采集的相关数据，平台通过上述方法将处理结果反馈给相机或是需求方。或者也可以是相机或是需求方自己的计算资源执行上述处理。具体搭建何种应用架构进行使用本申请并不做限制。

参考图1给出了本申请的图像识别方案的一个示例。该示例中，可以将预测模型配置与街道上用于监测的球机或是服务器，获取球机采集的相机图像，通过预测模型的特征提取层对相机图像进行特征提取，获得第一图像特征，进一步将二维图像对应的第一图像特征转换为三维空间中网格单元的网格特征，然后提取网格单元的网格特征对应在鸟瞰视角下的第二图像特征，根据鸟瞰视角下的第二图像特征识别目标相机图像在三维空间中对应的目标对象。

参考图2给出了根据本申请的图像识别方案的流程示例。其中涉及到预测模型的训练环节，本示例的方案中，预测模型可以应用于单目图像的识别，针对样本图像，提取图像特征后，通过鸟瞰图视角转换的环节，将图像特征转换为三维空间的网格特征并提取网格特征对应在鸟瞰视角下的第二图像特征，之后可以进一步再进行鸟瞰图的特征提取，包括对第二图像特征对应的特征图进行下采样处理，对获得的多个不同尺寸的采样结果，再进行双线性上采样和融合处理，将处理结果替换为第二图像特征，依据第二图像特征进行三维框结果的输出。基于上述过程可以进一步进行三个方向的损失函数计算，包括样本图像标记的分类识别结果、尺寸识别结果、三维框识别结果，分别计算预测的第二图像特征与相机图像样本标记的三维框对应的第二图像特征的差异对应的第一损失函数，对应单应性约束头，使用预测模型预测的分类识别结果和尺寸识别结果，与相机图像样本标记的分类识别结果和尺寸识别结果的差异分别确定的第二损失函数和第三损失函数，对应检测分类头和检测回归头。

参照图3，示出了根据本申请实施例一的一种图像识别方法的流程图，该方法具体可以包括以下步骤：

步骤101，获取目标相机图像的第一图像特征；

步骤102，将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征；

步骤103，提取所述网格单元的网格特征对应在特定视角下的第二图像特征；

步骤104，根据所述特定视角下的第二图像特征，识别所述目标相机图像在三维空间中对应的目标对象。

一种可选的实施例中，所述将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征包括：

一种可选的实施例中，所述方法还包括：

一种可选的实施例中，所述创建三维空间的网格单元与相机图像的像素点之间的坐标映射关系包括：

一种可选的实施例中，所述提取所述网格单元的网格特征对应在特定视角下的第二图像特征包括：

一种可选的实施例中，所述提取所述网格单元的网格特征对应在特定视角下的第二图像特征还包括：

一种可选的实施例中，所述方法基于目标模型实现，所述方法还包括：

训练用于识别目标对象的预测模型。

一种可选的实施例中，所述训练用于识别目标对象的预测模型包括：

一种可选的实施例中，所述相机图像样本还标记有所述目标对象的分类识别结果和尺寸识别结果，所述训练用于识别目标对象的预测模型包括：

依据本申请实施例，获取目标相机图像的第一图像特征，将目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征，提取网格单元的网格特征对应在特定视角下的第二图像特征，也即是将三维空间网格单元下的网格特征作为中间转换过程，实现了将相机图像的二维图像特征转换到特定视角下的二维图像特征，进一步根据特定视角下的第二图像特征，可以识别目标相机图像在三维空间中对应的目标对象，由此可见，本申请提供了一种新的对象识别方案，可以将图像特征切换到其他视角进行对象识别。如果该特定视角下图像尺寸更具有一致性，并且没有视角遮挡，例如采用鸟瞰视角，则可以更好地还原三维场景，加强了对不同相机和不同视角的鲁棒性，提高了单目三维检测的精度，并且可以广泛适用于不同内外参的相机，从而可以更有效地应用在基于三维场景在分析或定位等领域中。并且，上述方案的实现过程可以基于预先训练好的预测模型实现，可以保证整个过程的高效执行和实时输出。据此构建三维模型，通过三维建模还原真实场景，结合增强现实系统或是虚实结合的虚拟现实系统进行场景还原，可以模拟到更准确的环境状态，提高用户体验的真实感。

参照图4，示出了根据本申请实施例二的一种预测模型的处理方法的流程图，该方法具体可以包括以下步骤：

步骤201，提取相机图像样本的第一图像特征，所述相机图像样本标记有目标对象的第一识别结果；

步骤202，将所述相机图像样本的第一图像特征转换为三维空间中网格单元的网格特征；

步骤203，提取所述网格单元的网格特征对应在特定视角下的第二图像特征；

步骤204，根据所述特定视角下的第二图像特征，确定所述相机图像样本在三维空间中对应的目标对象的第二识别结果；

步骤205，根据所述第一识别结果和第二识别结果的差异进行预测模型的训练。

一种可选的实施例中，所述目标对象的识别结果采用三维框表征；所述根据所述第一识别结果和第二识别结果的差异进行预测模型的训练包括：

参照图5，示出了根据本申请实施例三的一种三维建模方法的流程图，该方法具体可以包括：

步骤301，获取针对目标对象采集的至少一张相机图像；

步骤302，获取从所述至少一张相机图像中识别到的所述目标对象在三维空间中对应的三维数据；所述三维数据在提取所述相机图像中的第一图像特征后，根据所述第一图像特征转换的三维空间中网格单元的网格特征所对应在特定视角下的第二图像特征生成；

步骤303，基于所述三维数据创建所述目标对象对应的三维模型。

其中，目标对象可以包括一个或多个，可以对应不同的种类，还可以是当前的整个场景。以道路监控场景为例，可以是道路中拍摄到的楼房、行人、车辆等，还可以是上述内容的总和，也即是整个道路环境。

可以调整相机拍摄的视角，获得多张不同角度的图像，或是结合一个或多个相机拍摄到的图像，以更完整地描述对象，获得更精准的对象模型。

通过上述实施例的方案可以获得目标对象的三维数据，例如可以包括目标对象的三维框，对象分类，对象尺寸等信息，根据该三维数据可以进一步创建目标对象对应的三维模型。具体的建模方式本申请并不做限制。

参照图6，示出了根据本申请实施例四的一种图像识别装置的结构框图，该装置具体可以包括：

第一特征提取模块401，用于获取目标相机图像的第一图像特征；

特征转换模块402，用于将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征；

第二特征提取模块403，用于提取所述网格单元的网格特征对应在特定视角下的第二图像特征；

对象识别模块404，用于根据所述特定视角下的第二图像特征，识别所述目标相机图像在三维空间中对应的目标对象。

一种可选的实施例中，所述特征转换模块，具体用于按照三维空间中网格单元与相机图像的像素点之间的坐标映射关系，将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征。

一种可选的实施例中，所述装置还包括：

关系创建模块，用于将三维空间划分为多个立体的网格单元，创建三维空间的网格单元与相机图像的像素点之间的坐标映射关系。

一种可选的实施例中，所述关系创建模块，具体用于将所述三维空间的网格单元的中心点按照相机参数转换为二维的相机图像中像素点的坐标值；确定所述中心点的坐标值和像素点的坐标值之间的映射关系。

一种可选的实施例中，所述第二特征提取模块，具体用于提取所述网格单元的网格特征对应在鸟瞰视角下的第二图像特征。

一种可选的实施例中，所述第二特征提取模块，具体用于提取所述网格单元的网格特征在特定视角下的二维平面对应的图像特征作为第二图像特征。

一种可选的实施例中，所述第二特征提取模块，还用于对所述特定视角下的第二图像特征对应的特征图进行下采样处理，获得多个不同尺寸的采样结果；对采样结果进行双线性上采样，并对上采样结果进行融合处理，将合并后对应原始尺寸的特征图替换为第二图像特征。

一种可选的实施例中，所述方法基于目标模型实现，所述装置还包括：

模型训练模块，用于训练用于识别目标对象的预测模型。

一种可选的实施例中，所述模型训练模块，具体用于使用标记有目标对象的识别结果的相机图像样本进行预测模型的训练，所述目标对象的识别结果采用三维框表征；在训练过程中，确定相机图像样本标记的三维框对应的第一图像特征和第二图像特征，并确定所述第一图像特征和第二图像特征之间的坐标转换关系；对使用所述预测模型预测的三维框对应的第一图像特征和所述坐标转换关系预测第二图像特征，并根据预测的第二图像特征与所述相机图像样本标记的三维框对应的第二图像特征的差异，确定第一损失函数，用于训练所述预测模型。

一种可选的实施例中，所述相机图像样本还标记有所述目标对象的分类识别结果和尺寸识别结果，所述模型训练模块，具体用于使用所述预测模型预测的分类识别结果和尺寸识别结果，与所述相机图像样本标记的分类识别结果和尺寸识别结果的差异，分别确定第二损失函数和第三损失函数，用于训练所述预测模型。

参照图7，示出了根据本申请实施例五的一种预测模型的处理装置的结构框图，该装置具体可以包括：

第一特征提取模块501，用于提取相机图像样本的第一图像特征，所述相机图像样本标记有目标对象的第一识别结果；

特征转换模块502，用于将所述相机图像样本的第一图像特征转换为三维空间中网格单元的网格特征；

第二特征提取模块503，用于提取所述网格单元的网格特征对应在特定视角下的第二图像特征；

识别结果确定模块504，用于根据所述特定视角下的第二图像特征，确定所述相机图像样本在三维空间中对应的目标对象的第二识别结果；

模型训练模块505，用于根据所述第一识别结果和第二识别结果的差异进行预测模型的训练。

一种可选的实施例中，所述目标对象的识别结果采用三维框表征，所述模型训练模块，具体用于在训练过程中，确定相机图像样本标记的三维框对应的第一图像特征和第二图像特征，并确定所述第一图像特征和第二图像特征之间的坐标转换关系；对使用所述预测模型预测的三维框对应的第一图像特征和所述坐标转换关系预测第二图像特征，并根据预测的第二图像特征与所述相机图像样本标记的三维框对应的第二图像特征的差异，确定第一损失函数，用于训练所述预测模型。

参照图8，示出了根据本申请实施例六的一种三维建模装置的结构框图，该装置具体可以包括：

图像获取模块601，用于获取针对目标对象采集的至少一张相机图像；

数据获取模块602，用于获取从所述至少一张相机图像中识别到的所述目标对象在三维空间中对应的三维数据；所述三维数据在提取所述相机图像中的第一图像特征后，根据所述第一图像特征转换的三维空间中网格单元的网格特征所对应在特定视角下的第二图像特征生成；

模型创建模块603，用于基于所述三维数据创建所述目标对象对应的三维模型。

对于装置和系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的系统。图9示意性地示出了可被用于实现本公开中所述的各个实施例的示例性系统（或装置）700。

对于一个实施例，图9示出了示例性系统700，该系统具有一个或多个处理器702、被耦合到(一个或多个)处理器702中的至少一个的系统控制模块（芯片组）704、被耦合到系统控制模块704的系统存储器706、被耦合到系统控制模块704的非易失性存储器(NVM)/存储设备708、被耦合到系统控制模块704的一个或多个输入/输出设备710，以及被耦合到系统控制模块704的网络接口712。

处理器702可包括一个或多个单核或多核处理器，处理器702可包括通用处理器或专用处理器（例如图形处理器、应用处理器、基频处理器等）的任意组合。在一些实施例中，系统700能够作为本申请实施例中所述的浏览器。

在一些实施例中，系统700可包括具有指令的一个或多个计算机可读介质(例如，系统存储器706或NVM/ 存储设备708) 以及与该一个或多个计算机可读介质相合并被配置为执行指令以实现模块从而执行本公开中所述的动作的一个或多个处理器702。

对于一个实施例，系统控制模块704可包括任意适当的接口控制器，以向(一个或多个)处理器702中的至少一个和/或与系统控制模块704通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块704可包括存储器控制器模块，以向系统存储器706提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

系统存储器706可被用于例如为系统700加载和存储数据和/或指令。对于一个实施例，系统存储器706可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，系统存储器706可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。

对于一个实施例，系统控制模块704可包括一个或多个输入/输出控制器，以向NVM/存储设备708及(一个或多个)输入/输出设备710提供接口。

例如，NVM/存储设备708可被用于存储数据和/或指令。NVM/存储设备708可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。

NVM/存储设备708可包括在物理上作为系统700被安装在其上的设备的一部分的存储资源，或者其可被该设备访问而不必作为该设备的一部分。例如， NVM/存储设备708可通过网络经由(一个或多个)输入/输出设备710进行访问。

(一个或多个)输入/输出设备710可为系统700提供接口以与任意其他适当的设备通信，输入/输出设备710可以包括通信组件、音频组件、传感器组件等。网络接口712可为系统700提供接口以通过一个或多个网络通信，系统700可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G或5G，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器(例如，存储器控制器模块) 的逻辑封装在一起。对于一个实施例，(一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP) 。对于一个实施例， (一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器702中的至少一个可与系统控制模块704的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC) 。

在各个实施例中，系统700可以但不限于是：浏览器、工作站、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中，系统700可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，系统700包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。

其中，如果显示器包括触摸面板，显示屏可以被实现为触屏显示器，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还识别与所述触摸或滑动操作相关的持续时间和压力。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块（programs），该一个或多个模块被应用在终端设备时，可以使得该终端设备执行本申请实施例中各方法步骤的指令（instructions）。

在一个示例中提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如本申请实施例的方法。

在一个示例中还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本申请实施例的方法。

在一个示例中还提供了一种软件产品，包括计算机程序/指令，其中，当所述计算机程序/指令被执行时，实现执行本申请实施例的方法。

虽然某些实施例是以说明和描述为目的的，各种各样的替代、和/或、等效的实施方案、或计算来达到同样的目的实施例示出和描述的实现，不脱离本申请的实施范围。本申请旨在覆盖本文讨论的实施例的任何修改或变化。因此，显然本文描述的实施例仅由权利要求和它们的等同物来限定。

Claims

1.一种图像识别方法，其特征在于，包括：

获取目标相机图像的第一图像特征；

2.根据权利要求1所述的方法，其特征在于，所述将所述目标相机图像的第一图像特征转换为三维空间中网格单元的网格特征包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述创建三维空间的网格单元与相机图像的像素点之间的坐标映射关系包括：

5.根据权利要求1所述的方法，其特征在于，所述提取所述网格单元的网格特征对应在特定视角下的第二图像特征包括：

6.根据权利要求1所述的方法，其特征在于，所述提取所述网格单元的网格特征对应在特定视角下的第二图像特征包括：

7.根据权利要求5或6所述的方法，其特征在于，所述提取所述网格单元的网格特征对应在特定视角下的第二图像特征还包括：

8.根据权利要求1所述的方法，其特征在于，所述方法基于目标模型实现，所述方法还包括：

训练用于识别目标对象的预测模型。

9.根据权利要求8所述的方法，其特征在于，所述训练用于识别目标对象的预测模型包括：

10.根据权利要求9所述的方法，其特征在于，所述相机图像样本还标记有所述目标对象的分类识别结果和尺寸识别结果，所述训练用于识别目标对象的预测模型包括：

11.一种预测模型的处理方法，其特征在于，包括：

12.根据权利要求11所述的方法，其特征在于，所述目标对象的识别结果采用三维框表征；

13.一种三维建模方法，其特征在于，包括：

获取针对目标对象采集的至少一张相机图像；

基于所述三维数据创建所述目标对象对应的三维模型。

14.一种电子设备，其特征在于，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-12中任一项所述的方法。