CN113450459A

CN113450459A - 目标物的三维模型构建方法及装置

Info

Publication number: CN113450459A
Application number: CN202010219874.1A
Authority: CN
Inventors: 万小波
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2021-09-28
Anticipated expiration: 2040-03-25
Also published as: CN113450459B

Abstract

本发明提供一种目标物的三维模型构建方法及装置，其中，该方法通过获取针对目标物拍摄的多帧图像及点云数据；根据每帧图像对应的目标物在该图像中的第一包围盒及点云数据，分别获取每帧图像对应的目标物在点云数据中的第二包围盒；根据多帧图像中，每帧图像对应的目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果构建目标物的三维模型。由于点云数据具有更准确的三维特征信息，通过目标物在点云数据中的第二包围盒构建目标物的三维模型，保证了构建的三维模型的准确性；通过对大量的目标物的第二包围盒进行全局聚类分析，避免由于点云数据与图像匹配偏差较大，导致构建的目标物的三维模型精确度较低的问题。

Description

目标物的三维模型构建方法及装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标物的三维模型构建方法及装置。

背景技术

在智能驾驶技术中，智能驾驶车辆能够通过感知周边环境的信息，并将感知到的环境信息与预先制作的高精度地图进行对比，从而实现智能驾驶车辆的准确自我定位，因此，高精度地图中包括的目标物的精确度极为重要。

现有技术中，通常是首先针对目标物进行测量，获取点云数据，然后对点云数据进行过滤，提取目标物对应的点云，目标物例如为交通标识牌；接着，获取针对目标物的图像，根据上述目标物对应的点云的中心坐标以及获取目标物的图像的位置信息，提取与目标物对应的点云的中心坐标之间的距离满足预设条件的图像；然后，对提取的每帧图像分别进行颜色分割、形状检测、特征选择、识别分类等处理，获取每帧图像的处理结果，并根据所有图像分别对应的处理结果进行融合，从而获得目标物的三维模型构建结果。

但是，现有技术中是通过对多帧图像进行融合，构建目标物的三维模型，而二维的图像所反映的目标物的三维形状特征可能由于视点的变化产生失真现象，因此，导致通过上述方式构建的目标物的三维模型精确度较低。

发明内容

本发明提供一种目标物的三维模型构建方法及装置，以提高构建的目标物的三维模型的精确度。

第一方面，本发明提供一种目标物的三维模型构建方法，包括：

获取针对目标物拍摄的多帧图像以及点云数据；

根据每帧所述图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧所述图像对应的所述目标物的第二包围盒，其中，所述目标物的第一包围盒为所述目标物在所述图像中的包围盒，所述目标物的第二包围盒为所述目标物在点云数据中对应的包围盒；

根据所述多帧图像中，每帧所述图像对应的所述目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型。

第二方面，本发明实施例还提供一种目标物的三维模型构建装置，包括：

获取模块，用于获取针对目标物拍摄的多帧图像以及点云数据；

第一处理模块，用于根据每帧所述图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧所述图像对应的所述目标物的第二包围盒，其中，所述目标物的第一包围盒为所述目标物在所述图像中的包围盒，所述目标物的第二包围盒为所述目标物在点云数据中对应的包围盒；

第二处理模块，用于根据所述多帧图像中，每帧所述图像对应的所述目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型。

第三方面，本发明实施例还提供一种目标物的三维模型构建装置，包括：存储器、处理器及计算机程序指令；

所述存储器存储所述计算机程序指令；

所述处理器执行所述计算机程序指令，以执行如第一方面任一项所述的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，包括：程序；

所述程序被处理器执行时，以执行第一方面任一项所述的方法。

第五方面，本发明实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，所述目标物的三维模型构建装置的至少一个处理器可以从所述可读存储介质中读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得所述目标物的三维模型构建装置执行如第一方面任一项所述的方法。

第六方面，本发明实施例还提供一种目标物的三维模型构建系统，包括：拍摄设备、激光雷达子系统、组合导航装置、点云数据处理装置、目标物的三维模型构建装置；

其中，拍摄设备用于摄取针对目标物的多帧图像；

所述激光雷达子系统用于针对所述目标物进行测量，获取所述目标物的的原始点云数据；

所述点云数据处理装置用于根据所述组合导航装置提供的位置信息以及位姿信息，对激光雷达子系统获取的原始点云数据进行点云解算，获取目标物的点云数据；

所述目标物的三维模型构建装置用于从所述拍摄设备获取所述多帧图像，以及从所述点云数据处理装置获取所述点云数据；以及根据每帧所述图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧所述图像对应的所述目标物的第二包围盒，其中，所述目标物的第一包围盒为所述目标物在所述图像中的包围盒，所述目标物的第二包围盒为所述目标物在点云数据中对应的包围盒；

所述目标物的三维模型构建装置还用于根据所述多帧图像中，每帧所述图像对应的所述目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型。

在一些可能的设计中，所述组合导航装置包括：惯性测量单元(Inertialmeasurement unit，IMU)以及全球定位系统(global positioning system，GPS)装置。

本发明实施例提供一种目标物的三维模型构建方法及装置，其中，该方法通过获取针对目标物拍摄的至少一帧图像以及点云数据；接着，根据每帧图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧图像对应的目标物的第二包围盒，其中，所述目标物的第一包围盒为目标物在该图像中的包围盒，所述目标物的第二包围盒为所述目标物在点云数据中对应的包围盒；之后，根据上述至少一帧图像中，每帧图像对应的目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型。

在该方案中，由于点云数据具有更准确的三维特征信息，因此，通过目标物在点云数据中的第二包围盒构建目标物的三维模型，保证了构建的目标物的三维模型的准确性；另外，本方案通过对大量的图像对应的第二包围盒进行基于距离的全局聚类分析，避免了由于点云数据与图像匹配偏差较大，导致构建的目标物的三维模型不准确的问题，更加保证了构建的目标物的三维模型的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的目标物的三维模型构建系统的结构示意图；

图2为本发明提供的目标物的三维模型构建方法实施例一的流程图；

图3为本发明提供的第一包围盒的示意图；

图4为本发明提供的目标物的三维模型构建方法实施例二的流程图；

图5为本发明提供的目标物的三维模型构建方法实施例三的流程图；

图6为本发明提供的第一包围盒对应的锥束内的点云数据的示意图；

图7为本发明提供的目标物的三维模型构建方法实施例四的流程图；

图8为本发明提供的多帧图像分别对应的，交通标识牌在点云数据中的第二包围盒的叠加时的效果示意图；

图9为本发明提供构建的目标物的三维模型的效果示意图；

图10为本发明提供的目标物的三维模型构建装置实施例一的结构示意图；

图11为本发明提供的目标物的三维模型构建装置实施例二的结构示意图；

图12为本发明提供的目标物的三维模型构建装置实施例三的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中构建目标物的三维模型，通常是首先针对目标物进行测量，获取点云数据，然后对点云数据进行过滤，提取目标物对应的点云，目标物例如为交通标识牌；接着，获取针对目标物的图像，根据上述目标物对应的点云的中心坐标以及获取目标物的图像的位置信息，提取与目标物对应的点云的中心坐标之间的距离满足预设条件的图像；然后，对提取的每帧图像分别进行颜色分割、形状检测、特征选择、识别分类等处理，获取每帧图像的处理结果，并根据所有图像分别对应的处理结果进行融合，从而构建目标物的三维模型。

但是，现有技术中是通过对多帧图像的处理结果进行融合，构建目标物的三维模型，而二维的图像所反映的目标物的三维特征可能由于视点的变化产生失真现象，因此，导致通过上述方式构建的目标物的三维模型精确度较低。

基于现有技术中存在的问题，本发明实施例提供一种目标物的三维模型构建方法，该方法通过获取针对目标物拍摄的多帧图像以及点云数据；接着，根据每帧图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧图像对应的目标物的第二包围盒，其中，所述目标物的第一包围盒为目标物在该图像中的包围盒，所述目标物的第二包围盒为所述目标物在点云数据中对应的包围盒；之后，根据上述多帧图像中，每帧图像对应的目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型。

在该方案中，由于点云数据具有更准确的三维特征信息，因此，通过目标物在点云数据中的第二包围盒构建目标物的三维模型，保证了构建的目标物的三维模型的准确性；另外，本方案通过对大量的第二包围盒进行基于聚类的全局聚类分析，避免了由于点云数据与图像匹配偏差较大，导致构建的目标物的三维模型不准确的问题，更加保证了构建的目标物的三维模型的准确性。

下面，将通过几个具体实施例对本发明提供的目标物的三维模型构建方法进行详细介绍。

图1为本发明提供的基于点云和图像的模型构建系统的结构示意图。参照图1所示，该系统100包括：拍摄装置101、激光雷达子系统102和目标物的三维模型构建装置103。

其中，拍摄装置101可以针对目标物拍摄多帧图像，之后，目标物的三维模型构建装置103可以从拍摄装置101获取该多帧图像。示例性地，拍摄装置101可以为单目相机。

激光雷达子系统102可以通过向目标物方向发射激光，并根据反射的激光，获取距离信息、方位信息等，从而生成激光点(即点云)，激光雷达子系统102按照某个轨迹对目标物不断扫描测量，从而获取大量的点云，形成原始点云数据。可选地，激光雷达子系统102可以包括多个激光雷达探头。

一种可能的实现方式，拍摄装置101和激光雷达子系统102均可安装在一车辆104上，车辆104在静止状态或移动状态，拍摄装置101针对目标物拍摄多帧图像；激光雷达子系统102针对目标物获取点云数据。

需要说明的是，获取针对目标物的点云数据也可以通过其他扫描仪实现，并不限于激光雷达子系统102，本实施例仅为示例。

在一些情况下，车辆104可能还包括组合导航装置105，组合导航装置105能够获取车辆的位置信息以及位姿信息，为后续点云数据处理提供依据。例如，组合导航装置105包括IMU和GPS装置，其中，IMU能够获取车辆的位姿信息，GPS装置能够获取车辆的位置信息。IMU也可以称为IMU装置、惯导装置等其他名称，在实际应用中也可以其他能够获取车辆的位姿信息的装置进行替代。

点云数据处理装置106，用于从组合导航装置105获取车辆104的位置信息以及位姿信息，并根据获取的位置信息以及位姿信息以及激光雷达子系统102针对目标物获取的原始点云数据进行点云解算，获取针对目标物的点云数据。

目标物的三维模型构建装置105，用于从拍摄装置101获取针对目标物拍摄的多帧图像，以及从点云数据处理装置106获取目标物的点云数据；

目标物的三维模型构建装置103还用于根据获取的多帧图像中，每帧图像对应的目标物在该帧图像中的第一包围盒以及点云数据，分别获取每帧图像对应的目标物在点云数据中的第二包围盒；之后，根据上述多帧图像中，每帧图像对应的目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建目标物的三维模型。

其中，该目标物的三维模型构建装置103可以通过任意的软件和/或硬件的方式实现，示例性地，可以为计算机、平板设备、个人数字助理等等电子设备。

在另一些情况下，目标物的三维模型构建装置103也可以从激光雷达子系统102获取目标物的原始点云数据以及组合导航装置105提供的车辆104的位姿信息以及位置信息，并调用点云数据处理装置106对原始点云数据进行点云解算，从而获取目标物的点云数据。

下面通过几个具体实施例对本发明提供的目标物的三维模型构建方法进行详细介绍。

图2为本发明提供的目标物的三维模型构建方法实施例一的流程图；本实施例提供的目标物的三维模型构建方法由图1所示的目标物的三维模型构建系统实现。如图2所示，本实施例的方法包括：

S101、获取针对目标物拍摄的多帧图像以及点云数据。

上述针对目标物拍摄的多帧图像可以是车辆在移动状态或静止状态时，通过车辆上固定的摄像装置针对目标物连续拍摄的图像。拍摄装置可以存储上述多帧图像。之后，拍摄装置可与目标物的三维模型构建装置连接，以使目标物的三维模型构建装置获取上述针对目标物拍摄的多帧图像。

上述多帧图像中的每帧图像可以携带时间信息和/或位置信息等，这里所指的时间信息为获取该帧图像的时间，位置信息为获取该帧图像时拍摄装置的位置，该位置信息可以包括获取该帧图像时拍摄装置所处的经度信息、纬度信息以及高度信息。当然，每帧图像还可以携带图像相关的其他属性信息，本发明实施例对此不做限制。

一种可能的实现方式，拍摄装置与目标物的三维模型构建装置可通过有线或无线的方式连接，并基于用户输入的指令，将选中的图像移动至目标物的三维模型构建装置中。其中，上述用户输入的指令可以是通过语音方式输入的，或者，用户输入的指令还可以是用户通过外部设备输入的，例如，鼠标、键盘等，或者，还可以用户通过目标物的三维模型构建装置的触摸屏手动输入的。

本方案中，针对目标物拍摄的点云数据可以是通过激光雷达子系统对目标物进行扫描获得的，通过激光雷达子系统获得的点云数量较多且点云分布较为密集，因此，针对目标物拍摄的点云数据能够准确反映目标物的三维特征，该三维特征具体可以为三维形状特征。

上述点云数据中的每个点云可以携带距离信息、位置信息、以及方位信息。上述距离信息表示点云与激光雷达子系统之间的距离；位置信息表示获取该点云时激光雷达子系统的位置，该位置信息包括获取该点云时激光雷达子系统所处的经度信息、纬度信息以及高度信息；方位信息表示点云与激光雷达子系统之间的角度。

当然，在实际应用中，也可以通过其他扫描仪获取针对目标物的点云数据，本发明实施例对于获取目标物的点云数据的具体实现方式不做限制。

一种可能的实现方式，激光雷达子系统与目标物的三维模型构建装置建立连接，之后，可基于用户输入的指令，将选中的点云数据移动至目标物的三维模型构建装置中。其中，上述用户输入的指令可以是通过语音方式输入的，或者，用户输入的指令还可以是用户通过外部设备输入的，例如，鼠标、键盘等。

需要说明的是，本方案中，目标物可以为一个，也可以为多个，本方案并不限制。

S102、根据每帧图像对应的目标物的第一包围盒以及点云数据，分别获取每帧图像对应的目标物的第二包围盒。

其中，目标物的第一包围盒为目标物在图像中对应的包围盒，目标物的第二包围盒为目标物在点云数据中对应的包围盒。

本步骤的目的在于将点云数据与图像数据进行匹配，获取每帧图像对应的，目标物在点云数据中的第二包围盒，需要说明的是，目标物在点云数据中的第二包围盒是三维空间的包围盒。在将点云数据与图像数据进行匹配时，需要获取每帧图像对应的目标物的第一包围盒。

可选地，每帧图像对应的目标物的第一包围盒可通过预先训练好的神经网络模型以及上述多帧图像获得。具体地，将上述多帧图像输入至预先训练好的神经网络模型中，该神经网络模型通过对每帧图像进行检测，从而输出检测结果，检测结果即为目标物在该图像中的第一包围盒。

由于神经网络模型在图像检测方法能具有较快的处理速率，因此，本实施例中，将神经网络模型应用于目标物的三维模型的构建，能够有效提高目标物重建效率。另外，神经网络模型的适用性较广，能够提高本发明的适用范围。

可选地，在一些实施例中，每个第一包围盒还可以携带用于指示目标物所属类型的标识，该用于指示目标物所属类型的标识可以包括字母、数字以及特殊符号中的一种或多种。示例性地，目标物所属类型可以是预先根据目标物的尺寸特征划分的多个类型，或者，还可以是预先根据目标物的其他特征划分的。

需要说明的是，包围盒一种特性简单的几何体，该几何体能够近似代替目标物。例如图3中数字编号为00011、00012、10011以及10012的矩形的检测框即为4个目标物(如：交通标识牌)在图3中分别对应的第一包围盒。其中，检测框对应的数字编号即为该第一包围盒携带的用于指示交通标识牌所属类型的标识，检测框对应的编号是根据交通标识牌的尺寸大小以及该交通标识牌在所属类型中的顺序；例如，用于指示“出口1”和“出口2”的交通标识牌为第一类型，编号00011和00012的前三位“000”即为第一类型对应的数字编号，数字编号的后两位“11”和“12”即为该交通标识牌在该第一类型中的顺序。用于指示“距离城市A2km”和“距离城市B 4km和城市C直行方向”的交通标识牌为第二类型，则数字编号10011和10012的前三位“100”即为该第二类型对应的数字编号，数字编号的后两位“11”和“12”即为该交通标识牌在该第二类型中的顺序。

需要说明的是，在实际应用中，用于指示目标物所属类型的标识还可以仅包括其所属类型对应的编号，不包括其在所属类型中的顺序编号，或者，还可以通过其他方式确定用于指示目标物所属类型的标识，本发明实施例对此不作限制。

若输入至神经网络模型的图像为多帧，则每帧图像均对应一个检测结果。需要说明的是，若某帧图像中未包括目标物，则神经网络模型输出的检测结果中不包括目标物在该帧图像中的第一包围盒。若某帧图像中包括多个目标物，则神经网络模型输出的检测结果中可以包括多个目标物在该帧图像中分别对应的第一包围盒；且每个目标物对应的第一包围盒还携带一个用于指示目标物所属类型的标识。

可选地，这里所涉及的神经网络模型为预先训练好的，能够用于获取目标物在图像中的包围盒的模型。该神经网络模型例如可以为卷积神经网络(Convolutional NeuralNetworks,CNN)模型，或者，深度神经网络(Deep Neural Networks，DNN)模型，或者，其他机器学习(Machine Learning，ML)模型中的任意一种，本发明实施例对于神经网络模型的类型不作限制。

可选地，本发明实施例涉及的神经网络模型例如可以通过这样的方式获得：首先，获取大量的样本数据，这些样本数据可以为某一类型的目标物的图像数据，且每个样本数据均携带用于表示目标物在该图像中的包围盒；接着，将这些样本数据输入至初始神经网络模型中，使初始神经网络模型进行学习，获得学习后的神经网络模型；之后，可以将验证数据集中的样本数据，输入至学习后的神经网络模型中，获取验证数据集中每个样本数据的检测结果，并根据验证数据集中每个数据的检测结果，确定该学习后的神经网络模型的精确度是否满足要求，若不满足，则可以针对该神经网络模型进行重新学习，直至其精度满足预设要求。

当然，在实际应用中，也可通过其他方式获取每帧图像对应的目标物的第一包围盒。

在确定每帧图像对应的目标物的第一包围盒之后，可根据目标物的第一包围盒确定一个空间区域，并根据该空间区域内的点云数据携带的位置信息以及时间信息，对该空间区域内的点云数据进行分类，从而获取目标物的第二包围盒。详细可参照图4所示实施例中的描述。

S103、根据多帧图像中，每帧图像对应的目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建目标物的三维模型。

由于上述多帧图像可能是在移动状态对目标物进行重复采样获得的，通过上述步骤S102的处理之后，每帧图像都会对应一个目标物在点云数据中的第二包围盒，而每个第二包围盒即对应一个目标物的三维模型，也就是说，每帧图像对应一个目标物的三维模型。然而，在实际应用中，并不是每一个第二包围盒都是正确的、且完整的，因此，根据上述多帧图像中每帧图像对应的目标物的三维模型，再次重建一个概率意义下完整性以及正确率最高的目标物的三维模型是极为重要的。该方案中，是通过对每帧图像对应的目标物的第二包围盒进行基于距离的聚类分析来解决这个问题，本步骤中的聚类分析是全局聚类分析。

一种可能的实现方式，S103可以包括以下步骤：

步骤一、确定任意一帧图像对应的目标物的第二包围盒为初始聚类中心。

步骤二、根据初始聚类中心对应的第二包围盒与其他第二包围盒之间的聚类，以及与所述初始聚类中心对应的第二包围盒的距离满足第一预设阈值的其他第二包围盒的数量，对每帧所述图像对应的所述目标物的第二包围盒进行第一聚类操作，获得聚类结果。

具体地，以该初始聚类中心对应的第二包围盒为中心，第一预设阈值距离范围内的第二包围盒的数目大于或等于第三预设阈值时，以该初始聚类中心对应的第二包围盒为中心，第一预设阈值距离范围内的所有第二包围盒赋予一个类别标签；接着，遍历所有的第二包围盒，以某个第二包围盒为聚类中心时，若以该第二包围盒为聚类中心，第一预设阈值距离范围内的第二包围盒的数目大于或等于第三预设阈值，则判断以该第二包围盒为聚类中心，第一预设阈值距离范围内的第二包围盒是否携带类别标签，若是，则为其他未携带类别标签的第二包围盒赋予相同的类别标签，若否，则赋予一个新的类别标签；若以某个第二包围盒为聚类中心时，若以该第二包围盒为聚类中心，第一预设阈值距离范围内的第二包围盒的数目小于第三预设阈值，则认为该第二包围盒为需要滤除的第二包围盒，并为该第二包围盒赋予另一个类别标签。通过遍历所有的第二包围盒，则可获得聚类结果，聚类结果包括至少一个类，每个类包括至少一个第二包围盒。

步骤三、根据聚类结果中，每个类包括的第二包围盒的数目，以及每个类包括的第二包围盒的面积，构建目标物的三维模型。

一种可能的实现方式，可根据聚类结果中包括的第二包围盒的数目大于或等于第二预设阈值的类中，面积最大的第二包围盒，构建目标物的三维模型。另一种可能的实现方式，可根据聚类结果中包括的第二包围盒的数目大于或等于第二预设阈值的类中，所有第二包围盒的面积的平均值，构建目标物的三维模型。另一种可能的实现方式，可根据聚类结果中包括的第二包围盒的数目大于或等于第二预设阈值的类中，所有第二包围盒的面积的加权平均值，构建目标物的三维模型。

在本方案中，通过对第二包围盒进行基于距离的全局聚类分析，有效避免了由于点云数据与图像匹配偏差较大时，导致构建的目标物的三维模型不准确的问题。

在一些情况下，若每帧图像中包括一个对象，则该一个对象即为需要构建三维模型的目标物，则可采用上述方式构建目标物的三维模型。

在另一些情况下，每帧图像中可能包括多个对象，实际应用中可能需要针对多个对象中的部分对象进行三维模型的构建，由于多个对象可能属于不同的类型，则可根据上述多个对象分别所属的类型，确定与该需要构建三维模型的目标物所属的类型相同的其他目标物，并根据需要重建的目标物在点云数据中的第二包围盒，以及确定的与其他目标物在点云数据中分别对应的第二包围盒，进行基于距离的第一聚类分析(即全局聚类分析)，从而获得构建的目标物的三维模型。

例如图3所示的图像中包括4个交通标识牌，而实际应用中是需要针对“出口1”的交通标识牌进行重建，由于神经网络模型可能针对图3中所示的4个交通标识牌均输出检测结果，则获取该“出口1”的交通标识牌的重建结果时，可先根据每帧图像的中4个交通标识牌的第一包围盒分别携带的数字编号，确定与“出口1”的交通标识牌类型相同的其他交通标识牌。具体地，在图3所示的图像中，根据“出口1”的交通标识牌的第一包围盒携带的数字编号“00011”的前三位与其他3个交通标识牌的第一包围盒携带的数字编号的前三位进行匹配，从而确定与“出口1”的交通标识牌属于同一类型的交通标识牌为“出口2”的交通标识牌；接着，根据每帧图像中，“出口1”的交通标识牌在点云数据中的第二包围盒，以及“出口2”的交通标识牌在点云数据中分别对应的第二包围盒，进行基于距离的全局聚类分析，为每个第二包围盒赋予一个类别标签，从而获得聚类结果，并根据聚类结果构建“出口1”的交通标识牌的三维模型。

虽然，“出口2”的交通标识牌与“出口1”的交通标识牌属于同一类型，但是，在进行基于距离的全局聚类分析时，会根据多个第二包围盒之间的距离，将“出口2”的交通标识牌对应的第二包围盒滤除，从而保证了聚类结果的准确性，进而保证了构建的“出口1”的交通标识牌的三维模型的准确性。

本实施例通过获取针对目标物拍摄的多帧图像以及点云数据；接着，根据每帧图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧图像对应的目标物的第二包围盒，其中，所述目标物的第一包围盒为目标物在该图像中的包围盒，所述目标物的第二包围盒为所述目标物在点云数据中对应的包围盒；之后，根据上述多帧图像中，每帧图像对应的目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型。在该方案中，由于点云数据具有更准确的三维特征信息，因此，通过目标物在点云数据中的第二包围盒构建目标物的三维模型，保证了构建的目标物的三维模型的准确性；另外，本方案通过对大量的图像对应的第二包围盒进行基于距离的全局聚类分析，避免了由于点云数据与图像匹配偏差较大，导致构建的目标物的三维模型精确度较低的问题，更加保证了构建的目标物的三维模型的准确性。

图4为本发明提供的目标物的三维模型构建方法实施例二的流程图，在图2所示实施例的基础上，S102可包括步骤本实施例中的S1021-S1023：

S1021、根据每帧图像对应的目标物的第一包围盒，分别获取每帧图像对应的第一包围盒对应的锥束。

其中，每帧图像对应的目标物的第一包围盒可通过上述图2所示实施例中S102描述的方式实现。

本步骤中，可根据目标物的第一包围盒，确定一个空间区域，该空间区域内的点云数据即为有效地点云数据，该空间之外的点云数据可视为无效数据。该空间区域例如可以为第一包围盒对应的锥束，其中，锥束的形状可以根据实际情况设定，例如，锥束的形状可以根据目标物的外形设定。

示例性地，目标物为长方体形状的交通标识牌时，锥束可以根据交通标识牌的8个角点确定，该8个角点为第二包围盒的8个顶点。又如，若目标物为圆形的标识牌，则锥束可根据圆形交通标识牌的外轮廓确定。

S1022、根据点云数据中每个点云的全局坐标，以及每帧图像对应的第一包围盒对应的锥束，分别获取每帧图像对应的第一包围盒对应的锥束内的点云数据。

一种可能的实现方式，通过对点云数据进行点云分割处理获取每帧图像对应的第一包围盒对应的锥束内的点云数据。其中，点云分割处理的目的是提取锥束之内的点云数据，滤除锥束之外的点云数据。下面以获取一帧图像对应的第一包围盒对应的锥束内的点云数据为例进行详细说明：

具体地，可将点云数据中每个点云在全局坐标系中的全局坐标转换至相机坐标系中的相对坐标，并基于每个点云的相对坐标确定该点云是否在该帧图像对应的第一包围盒的锥束内，若确定该点云在该锥束内，则保留该点云；若确定该点云不在该锥束内，则滤除该点云；通过对每个点云执行上述过程，从而完成点云分割处理，获取该帧图像对应的第一包围盒对应的锥束内的点云数据。

通过对每帧图像执行上述处理过程，从而获取每帧图像对应的第一包围盒对应的锥束内的点云数据。

这里对全局坐标和相机坐标进行详细介绍：

全局坐标系：全局坐标系是基于地理坐标系建立的直角坐标系。可选地，本发明实施例中的全局坐标系可以为基于WGS84坐标的高斯投影坐标系，其中，WGS84坐标系是一种地心坐标系，WGS84坐标系也可以称为大地坐标系、WGS-84坐标系、地固坐标系等其他名称，WGS84坐标系是以地心、预先定义的方向以及预先定义的椭球参数建立的空间坐标系，该目标物在WGS84坐标系中的坐标可以通过经度信息、纬度信息以及高度信息表示。

高斯投影是指将地球与一个内部相切圆柱体，按照某一经度(例如，中央经度)或者经度范围(例如，3度带，6度带等)投影到圆柱上，并将圆柱展开为平面，从而完成投影。在投影平面上，中央子午线和赤道的投影均是直线，因此，可以中央子午线和赤道的交点作为坐标原点，以中央子午线的投影为纵坐标X轴，以赤道的投影为横坐标Y轴，从而形成全局坐标系的X轴和Y轴，从而获得基于WGS84坐标的高斯投影坐标系。

相机坐标系：这里所指的相机坐标系为自定义坐标系，该相机坐标系的原点为拍摄装置的光心，Z轴为拍摄装置的光轴方向，X轴为沿光轴方向向右的水平方向，Y轴由右手定则确定。当然，在实际应用中，也可以通过其他方式定义相机坐标系，本发明实施例对比不作限制。

需要说明的是，本步骤中所指的点云数据可以为三维结构的点云数据。该三维结构的点云数据可以是通过对激光雷达子系统获得的原始点云数据进行点云解算处理获得的。由于原始点云数据携带的位置信息是局部坐标，而且是相对某一时刻的局部坐标，也就是说，原始点云数据没有连续的三维结构，因此，可以通过对原始点云数据进行点云解算处理，得到三维结构的点云数据，并基于三维结构的点云数据，获取目标物在点云数据中的第二包围盒。

具体地，对原始点云数据进行点云解算处理包括：首先，将点云的局部坐标转换至IMU坐标系，然后根据时间关系查找获取该点云时IMU对应的位置信息和位姿信息；接着，基于上述位姿信息将转换至IMU坐标系中的点云转换至全局坐标系；通过对每个点云进行上述计算，从而完成点云解算处理。

需要说明的是，IMU装置通常固定在车辆中，IMU装置能够获取车辆的位置信息以及位姿信息。这里所指的IMU坐标系为自定义坐标系，其中，IMU坐标系的原点为IMU装置的几何中心，车辆前进的方向为Y轴方向，与Y轴垂直的水平方向为X轴方向，与X轴和Y轴垂直的竖直方向为Z轴方向。当然，在实际应用中，也可以通过其他方式定义IMU坐标系，例如，沿车辆前进的方向为X轴方向，与X轴垂直的水平方向为Y轴方向，与X轴和Y轴垂直的竖直方向为Z轴方向。

在实际应用中，点云解算处理可通过其他装置实现，例如，该其他装置例如可以为应用程序，通过将原始点云数据输入至应用程序中，应用程序可自动执行点云解算处理并获得处理后的点云数据，基于点云与图像的模型构建装置能够获得该处理后的点云数据。

可选地，在执行点云解算处理获取三维结构的点云数据之后，且执行本步骤之前，将先三维结构的点云数据转换为二维结构的点云数据，在转换的过程中，建立每个三维结构的点云与二维结构的点云之间的对应关系，之后，将图像与二维结构的点云数据进行匹配，确定位于第一包围盒对应的锥束内二维结构的点云数据；接着，根据位于第一包围盒对应的锥束内二维结构的点云数据，以及二维结构的点云数据与三维结构的点云数据的对应关系，获取该帧图像对应的第一包围盒对应的锥束内的点云数据。

S1023、根据每帧图像对应的第一包围盒对应的锥束内的点云数据，分别获取每帧图像对应的目标物的第二包围盒。

需要说明的是，若每帧图像中包括一个目标物，则本步骤输出的结果是该一个目标物在点云数据中的第二包围盒；若每帧图像中包括多个目标物，则本步骤输出的结果是该多个目标物在点云数据中分别对应的第二包围盒。

一种可能的实现方式，可针对每帧图像，采用带方向的包围盒OBB算法，根据第一包围盒对应的锥束内的每个点云的全局坐标，获取该帧图像对应的目标物的第二包围盒。可选地，第一包围盒对应的锥束内的每个点云的全局坐标可根据每个点云的索引确定，其中，索引与点云的全局坐标之间具有对应关系。

由于OBB算法是基于点云在全局坐标系中的位置进行计算的，而在获取第一包围盒对应的锥束内的点云数据时，将点云在全局坐标系中的全局坐标转换为相机坐标系中的相对坐标，也就是说，点云在全局坐标系中的全局坐标与相机坐标系中的相对坐标之间具有对应关系，因此，在获取第一包围盒对应的锥束内的点云数据时，可针对每个点云，建立并存储每个点云的全局坐标与相对坐标的对应关系，并可以为每个点云的全局坐标与相对坐标之间的对应关系建立索引。之后便可根据点云的索引获取点云的全局坐标。

在本方案中，根据第一包围盒对应的锥束内的点云的索引，获取该点云的全局坐标，能够有效提高构建目标物的三维模型的效率。

本实施例中，通过上述方式快速获取每帧图像对应的目标物的第二包围盒，之后可根据多帧的图像分别对应的目标物的第二包围盒，构建目标物的三维模型。在该方案中，由于点云数据具有更准确的三维特征信息，因此，通过目标物在点云数据中的第二包围盒构建目标物的三维模型，保证了构建的目标物的三维模型的准确性；另外，本方案通过对大量的图像对应的第二包围盒进行基于距离的全局聚类分析，避免了由于点云数据与图像匹配偏差较大，导致构建的目标物的三维模型不准确的问题，更加保证了构建的目标物的三维模型的准确性。

图5为本发明提供的目标物的三维模型构建方法实施例三的流程图。在图4所示实施例的基础上，S1022可以包括本实施例的方法：

S501、对每帧图像对应的第一包围盒对应的锥束内的点云数据进行基于距离和时间的第二聚类操作，获取每帧图像对应的至少一个点云聚类。

参照图6所示，每帧图像对应第一包围盒对应的锥束内的可能包括目标物(例如，交通标识牌)的点云数据，在目标物的前方或后方也可能包括一些非目标物(例如，建筑物等)的点云数据，因此，为了减小非目标物对目标物的影响，对第一包围盒对应的锥束内的初始点云数据进行基于距离和时间的聚类分析。其中，图6中的观测点表示IMU坐标系的原点。

具体地，首先，根据时间对锥束内的点云进行过滤，即根据获取该帧图像的时刻，获取包括该时刻在内的预设时间段内的点云数据，滤除该时间段之外的点云数据；接着，对于每个未遍历的点云，以任一点云为初始聚类中心，查找与该初始聚类中心对应的点云之间的距离满足第一预设条件的邻域点云，若邻域点云的数量满足第二预设条件，则遍历查找邻域点云的类别标签，若邻域点云携带类别标签，则为上述初始聚类中心对应的点云以及邻域点云中未携带标签的点云赋予同样的类别标签；若邻域点云均未遍历过，则为上述初始聚类中心对应的点云以及邻域点云赋予一个新的类别。

若以某个点云为初始聚类中心时，与该初始聚类中心对应的点云之间的距离满足第一预设条件的邻域点云数量不满足第二预设条件，则滤除该初始聚类中心对应的点云。通过针对每个点云执行上述过程，从而获得聚类结果，聚类结果包括至少一个点云聚类，上述至少一个点云聚类中包括了目标类别的点云聚类。

S502、根据每帧图像对应的至少一个点云聚类，分别获取每帧图像对应的目标物在点云数据中的第二包围盒。

本步骤的目的在于从聚类结果中识别目标点云聚类，并根据目标点云聚类获得目标物在点云数据中的第二包围盒。

具体地，针对每帧图像，根据该帧图像对应的至少一个点云聚类中每个点云聚类的特征，获取目标点云聚类对应的点云数据；其中，点云聚类的特征包括：点云数量、点云的离散特征、点云聚类与参考点之间的距离、点云聚类中点云的时间特征中的任一个或组合，这些特征均能够反映点云数据的位置属性以及时间属性，根据点云的位置属性以及时间属性能够准确地从多个点云聚类中识别目标物对应的点云聚类；接着，根据目标点云聚类对应的点云数据，获取图像对应的所述目标物在点云数据中的第二包围盒。

具体地，根据目标点云聚类对应的点云数据，获取图像对应的所述目标物在点云数据中的第二包围盒，包括：采用OBB算法，根据目标点云聚类中每个点云的全局坐标，获取该图像对应的目标物在点云数据中的第二包围盒，其中，目标点云聚类中每个点云的全局坐标也可根据点云的索引确定。

本实施例中，通过对每帧图像对应的，第一包围盒对应的锥束内的点云数据进行局部聚类分析，减小了非目标物的影响，提高了构建的目标物的三维模型的完整性以及正确性；进一步，通过对多帧图像分别对应的第二包围盒进行全局聚类分析，进一步提高了目标物的重建结果的完整性以及正确性。在实施例中，通过点云索引查询获取点云的全局坐标，能够减少获取第二包围盒所需时长，从而提高目标物的重建效率。

参照图7所示，在一个具体的实施例中，目标物为交通标识牌，且该交通标识牌为长方体，执行该方法的目的在于构建交通标识牌的三维模型。

具体地：

步骤一，获取针对交通标识牌拍摄的N帧图像以及点云数据；N为大于1的整数；本步骤中的点云数据为三维结构的点云数据，该三维结构的点云数据是通过对原始点云数据进行点云解算处理获得的；

步骤二，将获取的包括交通标识牌的N帧图像输入至预先训练好的神经网络模型中，获取交通标识牌在每帧图像中的第一包围盒；

步骤三，对三维结构的点云数据进行点云分割处理，获得交通标示牌的第一包围盒对应的锥束内的初始点云数据；另外，建立点云的索引，索引与点云的全局坐标、点云的相对坐标具有对应关系；

步骤四，对第一包围盒对应的锥束内的初始点云数据进行基于距离和时间的聚类分析，获得第一包围盒对应的锥束内的点云数据；

步骤五，基于点云的索引，采用OBB算法，获得交通标识牌在点云数据中的第二包围盒；

针对N帧图像均执行上述步骤三至步骤五，获得N帧图像分别对应的，交通标识牌在点云数据中的第二包围盒。参照图8所示，两帧图像分别对应的，交通标识牌在点云数据中的第二包围盒叠加时的效果示意图，当然，在实际应用中，也可以包括更多帧图像分别对应的第二包围盒，多个第二包围盒之间的相对距离可以更小，也可以更大，这是根据实际测试数据得到的。

步骤六，基于N帧图像分别对应的，交通标识牌在点云数据中的第二包围盒进行基于距离的第一聚类操作，根据第二包围盒的数量大于或等于预设阈值的类别中，面积最大的第二包围盒构建目标物的三维模型。

例如，图9中即示出了重建的交通标识牌的三维模型。图9中所示的交通标识牌的三维模型可用于制作高精度地图，制作好的高精度地图可用于智能驾驶车辆定位，从而提高定位结果的准确性。

采用本发明实施例提供的目标物的三维模型构建方法具有以下有益效果：

1、由于神经网络模型在图像检测方面具有较快的处理速率，因此，将神经网络模型应用于目标物的三维模型构建中，能够有效提高目标物的三维模型构建效率。2、神经网络模型的适用性较广，能够提高本发明提供的目标物的三维模型构建方法的适用范围。3、通过对每帧图像对应的，第一包围盒对应的锥束内的点云数据进行基于距离和时间的第二聚类操作(即局部聚类分析)，减小了非目标物的影响，提高了构建的目标物的三维模型的完整性以及正确性。4、通过对多帧图像分别对应的第二包围盒进行基于距离的第一聚类操作(即全局聚类分析)，进一步提高了构建的目标物的重建三维模型的完整性以及正确性。5、采用OBB算法，获取每帧图像对应的目标物的第二包围盒时，通过点云的索引查询获取点云的全局坐标，能够减少获取第二包围盒所需时长，从而提高构建目标物的三维模型的效率。

图10为本发明提供的目标物的三维模型构建装置实施例一的结构示意图。参照图10所示，本实施例提供的装置100包括：获取模块11、第一处理模块12以及第二处理模块13。其中，

获取模块11，用于获取针对目标物拍摄的多帧图像以及点云数据；

第一处理模块12，用于根据每帧所述图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧所述图像对应的所述目标物的第二包围盒，其中，所述目标物的第一包围盒为所述目标物在所述图像中的包围盒，所述目标物的第二包围盒为所述目标物在点云数据中对应的包围盒；

第二处理模块13，用于根据所述多帧图像中，每帧所述图像对应的所述目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型。

在一些可能的设计中，第二处理模块13，具体用于：确定任意一帧图像对应的所述目标物的第二包围盒为初始聚类中心；根据所述初始聚类中心对应的第二包围盒与其他第二包围盒之间的距离，以及与所述初始聚类中心对应的第二包围盒的距离满足第一预设阈值的其他第二包围盒的数量，对每帧所述图像对应的所述目标物的第二包围盒进行第一聚类操作，获取聚类结果；以及根据所述聚类结果中，每个类包括的第二包围盒的数目，以及每个类包括的第二包围盒的面积，构建所述目标物的三维模型。

在一些可能的设计中，第二处理模块13，具体用于：根据所述聚类结果中，包括第二包围盒的数目大于或等于第二预设阈值的类中，面积最大的第二包围盒，构建所述目标物的三维模型。

在一些可能的设计中，第一处理模块12，具体用于：

根据每帧所述图像对应的所述目标物的第一包围盒，分别获取每帧图像对应的，所述第一包围盒对应的锥束；根据所述点云数据中每个点云的全局坐标，以及每帧所述图像对应的，所述第一包围盒对应的锥束，分别获取每帧图像对应的，所述第一包围盒对应的锥束内的点云数据；根据每帧图像对应的，所述第一包围盒对应的锥束内的点云数据，分别获取每帧图像对应的所述目标物的第二包围盒。

在一些可能的设计中，第一处理模块12，具体用于：

对每帧所述图像对应的，所述第一包围盒对应的锥束内的点云数据进行基于距离和时间的第二聚类操作，获取每帧所述图像对应的至少一个点云聚类；根据每帧所述图像对应的所述至少一个点云聚类，分别获取每帧所述图像对应的所述目标物在点云数据中的第二包围盒。

在一些可能的设计中，第一处理模块12，具体用于：

针对每帧所述图像，根据所述至少一个点云聚类中每个所述点云聚类的特征，获取目标点云聚类对应的点云数据，其中，所述点云聚类的特征包括：点云数量、点云的离散特征、所述点云聚类与参考点之间的距离、所述点云聚类中点云的时间特征中的任一个或组合；根据所述目标点云聚类对应的点云数据，获取所述图像对应的所述目标物在点云数据中的第二包围盒。

在一些可能的设计中，第一处理模块12，具体用于：

对所述点云数据中每个点云的全局坐标进行坐标转换，获取每个所述点云的相对坐标；在相对坐标系中，根据每个所述点云的相对坐标，以及每帧图像对应的，所述第一包围盒对应的锥束，获取每帧图像对应的，所述第一包围盒对应的锥束内的点云数据。

在一些可能的设计中，第一处理模块12，具体用于：

针对每帧所述图像，根据所述第一包围盒对应的锥束内的每个点云的索引，获取每个所述点云的全局坐标，其中，所述索引与点云的全局坐标之间具有对应关系；采用带方向的包围盒OBB算法，根据每个所述点云的全局坐标，获取所述图像对应的所述目标物的第二包围盒。

本实施例提供的目标物的三维模型构建装置能够执行上述任一方法实施例中的技术方案，其实现原理以及技术效果类似，此处不再赘述。

图11为本发明实施例提供的目标物的三维模型构建装置实施例二的结构示意图。参照图11所示，本实施例的装置1100包括：存储器1101和处理器1102；

存储器1101可以是独立的物理单元，与处理器1102可以通过总线1103连接。存储器1101、处理器1102也可以集成在一起，通过硬件实现等。

存储器1101用于存储程序指令，处理器1102调用该程序指令，执行以上图1至图7任一方法实施例的操作。

可选地，当上述实施例的方法中的部分或全部通过软件实现时，上述装置1100也可以只包括处理器1102。用于存储程序的存储器1101位于装置1100之外，处理器1102通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器1102可以是中央处理器(Central Processing Unit，CPU)，网络处理器(Network Processor，NP)或者CPU和NP的组合。

处理器1102还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit，ASIC)，可编程逻辑器件(ProgrammableLogic Device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device，CPLD)，现场可编程逻辑门阵列(Field-Programmable GateArray，FPGA)，通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。

存储器1101可以包括易失性存储器(Volatile Memory)，例如随机存取存储器(Random-Access Memory，RAM)；存储器也可以包括非易失性存储器(Non-volatileMemory)，例如快闪存储器(Flash Memory)，硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-state Drive，SSD)；存储器还可以包括上述种类的存储器的组合。

图12为本发明提供的目标物的三维模型构建装置实施例三的结构示意图，本实施例提供的目标物的三维模型构建装置1200例如可以是计算机，平板设备，个人数字助理等。

参照图12所示，目标物的三维模型构建装置1200可以包括以下一个或多个组件：处理组件102，存储器104，电源组件106，多媒体组件108，音频组件1010，输入/输出(I/O)接口1012，传感器组件1014，以及通信组件1016。

处理组件102通常控制目标物的三维模型构建装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件102可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件102可以包括一个或多个模块，便于处理组件102和其他组件之间的交互。例如，处理组件102可以包括多媒体模块，以方便多媒体组件108和处理组件102之间的交互。

存储器104被配置为存储各种类型的数据以支持在目标物的三维模型构建装置1200的操作。这些数据的示例包括用于在目标物的三维模型构建装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件106为目标物的三维模型构建装置1200的各种组件提供电力。电源组件106可以包括电源管理系统，一个或多个电源，及其他与为目标物的三维模型构建装置1200生成、管理和分配电力相关联的组件。

多媒体组件108包括在所述目标物的三维模型构建装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件108包括一个前置摄像头和/或后置摄像头。当目标物的三维模型构建装置1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风(MIC)，当目标物的三维模型构建装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器104或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/O接口1012为处理组件102和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为目标物的三维模型构建装置1200提供各个方面的状态评估。例如，传感器组件1014可以检测到目标物的三维模型构建装置1200的打开/关闭状态，组件的相对定位，例如所述组件为目标物的三维模型构建装置1200的显示器和小键盘，传感器组件1014还可以检测目标物的三维模型构建装置1200或目标物的三维模型构建装置1200一个组件的位置改变，用户与目标物的三维模型构建装置1200接触的存在或不存在，目标物的三维模型构建装置1200方位或加速/减速和目标物的三维模型构建装置1200的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于目标物的三维模型构建装置1200和其他设备之间有线或无线方式的通信。目标物的三维模型构建装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G或4G，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还可以包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，目标物的三维模型构建装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

本发明还提供一种计算机可读存储介质，其中，计算机可读存储介质中包括程序，程序在被处理器执行时，以执行以上方法。

本发明实施例还提供一种程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，所述目标物的三维模型构建装置的至少一个处理器可以从所述可读存储介质中读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得所述目标物的三维模型构建装置执行上述任一方法实施例的操作。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种目标物的三维模型构建方法，其特征在于，包括：

获取针对目标物拍摄的多帧图像以及点云数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述多帧图像中，每帧所述图像对应的所述目标物的第二包围盒进行基于距离的第一聚类操作，并根据获取的聚类结果，构建所述目标物的三维模型，包括：

确定任意一帧图像对应的所述目标物的第二包围盒为初始聚类中心；

根据所述初始聚类中心对应的第二包围盒与其他第二包围盒之间的距离，以及与所述初始聚类中心对应的第二包围盒的距离满足第一预设阈值的其他第二包围盒的数量，对每帧所述图像对应的所述目标物的第二包围盒进行第一聚类操作，获取聚类结果；

根据所述聚类结果中，每个类包括的第二包围盒的数目，以及每个类包括的第二包围盒的面积，构建所述目标物的三维模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述聚类结果中，每个类包括的第二包围盒的数目，以及每个类包括的第二包围盒的面积，构建所述目标物的三维模型，包括：

根据所述聚类结果中，包括第二包围盒的数目大于或等于第二预设阈值的类中，面积最大的第二包围盒，构建所述目标物的三维模型。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述根据每帧所述图像对应的所述目标物的第一包围盒以及所述点云数据，分别获取每帧所述图像对应的所述目标物的第二包围盒，包括：

根据每帧所述图像对应的所述目标物的第一包围盒，分别获取每帧图像对应的，所述第一包围盒对应的锥束；

根据所述点云数据中每个点云的全局坐标，以及每帧所述图像对应的，所述第一包围盒对应的锥束，分别获取每帧图像对应的，所述第一包围盒对应的锥束内的点云数据；

根据每帧图像对应的，所述第一包围盒对应的锥束内的点云数据，分别获取每帧图像对应的所述目标物的第二包围盒。

5.根据权利要求4所述的方法，其特征在于，所述根据每帧图像对应的，所述第一包围盒对应的锥束内的点云数据，分别获取每帧图像对应的所述目标物的第二包围盒包括：

对每帧所述图像对应的，所述第一包围盒对应的锥束内的点云数据进行基于距离的第二聚类操作，获取每帧所述图像对应的至少一个点云聚类；

根据每帧所述图像对应的所述至少一个点云聚类，分别获取每帧所述图像对应的所述目标物在点云数据中的第二包围盒。

6.根据权利要求5所述的方法，其特征在于，所述根据每帧所述图像对应的所述至少一个点云聚类，分别获取每帧所述图像对应的所述目标物在点云数据中的第二包围盒，包括：

针对每帧所述图像，根据所述至少一个点云聚类中每个所述点云聚类的特征，获取目标点云聚类对应的点云数据，其中，所述点云聚类的特征包括：点云数量、点云的离散特征、所述点云聚类与参考点之间的距离、所述点云聚类中点云的时间特征中的任一个或组合；

根据所述目标点云聚类对应的点云数据，获取所述图像对应的所述目标物在点云数据中的第二包围盒。

7.根据权利要求4所述的方法，其特征在于，所述根据所述点云数据中每个点云的全局坐标，以及每帧图像对应的，所述第一包围盒对应的锥束，分别获取每帧图像对应的，所述第一包围盒对应的锥束内的点云数据，包括：

对所述点云数据中每个点云的全局坐标进行坐标转换，获取每个所述点云的相对坐标；

在相对坐标系中，根据每个所述点云的相对坐标，以及每帧图像对应的，所述第一包围盒对应的锥束，获取每帧图像对应的，所述第一包围盒对应的锥束内的点云数据。

8.根据权利要求4所述的方法，其特征在于，所述根据每帧图像对应的，所述第一包围盒对应的锥束内的点云数据，分别获取每帧图像对应的所述目标物的第二包围盒，包括：

针对每帧所述图像，根据所述第一包围盒对应的锥束内的每个点云的索引，获取每个所述点云的全局坐标，其中，所述索引与点云的全局坐标之间具有对应关系；

采用带方向的包围盒OBB算法，根据每个所述点云的全局坐标，获取所述图像对应的所述目标物的第二包围盒。

9.一种目标物的三维模型构建装置，其特征在于，包括：

10.一种目标物的三维模型构建装置，其特征在于，包括：存储器、处理器及计算机程序指令；

所述存储器存储所述计算机程序指令；

所述处理器执行所述计算机程序指令，以执行如权利要求1至8任一项所述的方法。