CN113822993B

CN113822993B - 一种基于3d模型匹配的数字孪生方法和系统

Info

Publication number: CN113822993B
Application number: CN202111393832.0A
Authority: CN
Inventors: 金鑫; 宋伟; 朱世强; 顾建军; 姜淑瑾
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-04-08
Anticipated expiration: 2041-11-23
Also published as: CN113822993A

Abstract

本发明公开一种基于3D模型匹配的数字孪生方法和系统，方法包括模型和纹理训练、模型匹配、纹理融合、场景放置四步；其中，模型和纹理训练是离线预处理步骤，模型匹配、纹理融合和场景放置是实时处理步骤。模型的训练使用多视点剪影图像学习三维结构，实现多边形网格三维重建；纹理的训练通过一个固定的UV映射来获得纹理流，实现2D图像到3D纹理的推理。模型匹配使用重建后的模型和数据库的模型进行IOU迭代计算，获取IOU值最接近1的模型作为匹配后指定的模型。纹理融合是将匹配后指定的模型与纹理推理后的3D纹理流融合，形成标准的3D模型。场景放置是将3D模型准确地放置在3D场景中。这种数字孪生方法自动地生成3D模型场景，提高了数字孪生效率。

Description

一种基于3D模型匹配的数字孪生方法和系统

技术领域

本发明涉及数字孪生领域，具体涉及一种基于3D模型匹配的数字孪生方法和系统。

背景技术

目前大部分三维模型自动生成的方法只是将坐标或模型种类等简单数据匹配已有的模型，并没有使用最新的深度神经网络机器学习的方法，如专利CN202010701243.3公开一种隧道三维模型自动生成的方法，包括：S1，建立图形数据库，存储内容包括二维设计图的对象和三维模型的实体对象；S2，创建外部数据库，用于存储用户输入的多个设计参数；S3，基于用户输入的参数，生成二维设计图和隧道三维模型。专利CN202011386970.1公开一种道路交叉口三维模型自动生成方法，包括：获取道路交叉口的基础参数；获得路面模型、人行道模型等；基于模型顶点坐标将模型三角化；分别为模型创建不同的材质，并赋予到相应的三角模型上；合并所有的三角模型。专利CN201711403001.0公开一种地铁车站三维模型自动生成方法，包括：获取车站参数和房间参数；生成用于排布房间的轮廓；根据优先级在不同区域进行房间的排布；获取管线排布的通路空间信息；获取管线端点和尺寸信息；进行管线排布，并生成地铁车站三维模型。专利CN201811570300.8公开一种依靠机器学习和BIM技术的建筑设计方法，使用智能设计模型样本训练，利用决策树算法得到不同建筑风格的特征值，完成智能设计模型训练。专利CN201310343131.5公开一种基于云计算架构的平面空间结构三维模型自动生成和在线互动的实现方法，包括：客户端上传平面结构图；服务端接收后解析图片，生成相应的三维模型；用户对模型进行旋转缩放等操作。用户可以搭配各种家具，并从多角度进行浏览。

专利CN201811570300.8使用的是决策树的机器学习方法，这种算法的侧重点在于数据的分类，这与深度学习方法大不一样。同时机器学习方法主要用于模型的设计，即将决策树作为输入和模型之间的匹配算法，这种算法属于较早的机器学习方法。

专利CN 201310343131.5公开一种平面空间结构三维数字模型自动生成及在线互动的实现方法，比较少见地使用了服务端和客户端的方法，但在模型生成这块比较粗略，只是生成简单的背景模型如墙体、窗户，家具模型则由用户操作客户端进行搭配选择。

另外，在数字孪生技术作为下一代互联网核心技术的背景之下，已有的专利只关注形状的相似性，却没有考虑到原有物体和虚拟模型之间纹理的相似性。纹理的相似性从技术上来说是难点之一。

发明内容

针对现有技术的不足，本发明提出一种基于3D模型匹配的数字孪生方法，具体技术方案如下：

一种基于3D模型匹配的数字孪生方法，该方法包括模型和纹理训练、模型匹配、纹理融合、场景放置四大步骤；

所述模型和纹理训练为使用神经网络的机器学习方法，通过迭代获得与目标物体重建后的三维模型和推理纹理；

所述模型匹配是将重建后的三维模型与数据库中已知的3D模型进行IOU计算，获得IOU最接近1的模型作为目标物体的选定模型；

所述纹理融合是将所述推理纹理进行分裂或合并，使得推理纹理与所述选定模型同构，然后依照UV映射实现纹理与所述选定模型融合；

所述场景放置是依照数字孪生场景中的尺寸、位置、姿态信息将所述选定模型和对应的纹理渲染后放置在可视化场景之中。

进一步地，所述神经网络包括三维模型模块和纹理模块，其中，三维模型模块的神经网络为编码器-解码器架构，解码器由三个全连接层组成；纹理模块也为编码器-解码器架构，解码器由5个上卷积层组成；

将多角度拍摄的目标物体的图片输入编码器中，模型重建的过程为，首先初始化一个具有多个顶点的均匀球体，通过移动顶点的位置重建目标物体，计算移动后的球体模型与目标物体的真实模型的loss差值，进行神经网络迭代运算，获得逼近真实模型的重建后的三维模型；

所述纹理重建的过程为：假设选择匹配的模型是对称的，从输入图片复制像素颜色，使用双线性采样G的方式对纹理进行预测，输出完整的纹理流，并将纹理流映射到所述重建后的三维模型上，得到推理后的UV纹理图；

所述模型和纹理训练的损失函数L为：

其中，

代表轮廓权重，

代表轮廓损失，

代表三维模型平滑程度权重，

代表三维模型平滑损失，

代表纹理流权重，

代表纹理流损失。

进一步地，所述

和

的计算公式如下：

其中，

和

为二元掩膜，

为

中第i条边的两个面之间的夹角，

为

中所有边的集合，

表示元素之间的积；

所述纹理流损失的计算公式如下：

其中，

为可见部分到采样部分的距离，F表示输出的纹理流，

表示输入图片的采样像素的坐标值。

进一步地，所述模型匹配的具体步骤如下：

将重建后的三维模型与数据库中已知的3D模型分别进行体素化处理，之后归一化获得相同大小的体素，按照下式计算待测物体的重建模型和3D模型数据集中的模型的体素的IOU值，并将IOU值最接近1的3D模型数据集中的模型保存，作为选定模型：

其中，

代表3D模型数据集中的模型的体素，s表示待测物体的重建模型的体素，

表示元素之间的积。

进一步地，所述纹理融合的具体步骤如下：

（1）对重建后的三维模型包围的网格进行面积计算，并对面积按照由大到小顺序排列；

（2）若所述选定模型的顶点数大于重建后的三维模型的顶点数n，则对重建后的三维模型中的面积排序靠前的网格进行纹理分裂，一个网格分裂为3个网格，即增加2个网格，分裂后的网格共享分裂前网格的纹理特征；若所述选定模型的顶点数小于重建后的三维模型的顶点数n，则对重建后的三维模型中面积排序靠后的网格进行纹理合并，删除组成网格的随机一个顶点，即减少两个网格，相应也减少两个纹理特征，从而保证重建后的三维模型分裂或者合并后的网格总数与选定模型的网格总数一致；

（3）将分裂或合并后的三维模型的纹理流通过UV映射的方式与所述选定模型融合，并记录纹理流与选定模型的映射关系。

进一步地，所述场景放置中，数字孪生场景中的尺寸、位置通过参照物进行比较计算得到。

进一步地，模型匹配时，为了更快地匹配到合适的模型，对数据库中已知的3D模型创建索引，具体步骤如下：

（1）将数据库中已知的3D模型体素化，储存为npz文件，文件名称为索引名；

（2）将数据库中已知的3D模型文件索引化，索引名对应模型文件；

（3）预加载npz文件，在内存中建立索引。

一种基于3D模型匹配的数字孪生系统，该系统包括可视化端、服务端、视觉端；

所述视觉端用于多角度拍摄目标物体的图片，对图片进行语义分割，将分割后的图片上传至服务端；并对图片中的目标物体进行识别，然后将识别的结果发送给可视化端；

所述服务端用于接收所述视觉端发送的分割后的图片，使用神经网络的机器学习方法，通过迭代获得模型和纹理重建的推理网络结构；并对重建后的三维模型与数据库中的模型进行IOU计算，获得IOU最接近1的模型作为选定模型；然后将推理纹理进行分裂或合并，使得推理纹理与所述选定模型同构，最后依照UV映射实现纹理融合后，将融合后的纹理图以及所述选定模型发送给所述可视化端；

所述可视化端接收所述视觉端发送的场景信息、所述服务端发送的融合后的纹理图以及选定模型，对模型在特定场景中进行渲染，获得渲染后的数字孪生场景。

本发明的有益效果如下：

（1）构建数字孪生场景是一个非常复杂的过程，工作量会随着场景中物体的增加而增加，本发明采用模型匹配的方法，可以快速地将视觉感知到的物体信息转化为模型信息，并从数据库中比对出最相似的模型，实现模型的自动化构建。

（2）通过三维模型重建，可以从一张单视角的图片构建一个3D的模型，与图片中的真实模型相比，在视觉上可以看出非常相似的特征。这些特征包括模型的轮廓和纹理。

（3）本发明实现了数字孪生场景构建的闭环，从视觉端获取物体的图片，发送至服务端，由服务端匹配出与物体相似的模型，依照物体的尺寸、位置和姿态信息，将模型展示在数字孪生场景中。下一个物体的数字孪生模型以同样的方式获取和展示。

附图说明

图1为本发明基于3D模型匹配的机器学习方法的示意图；

图2为本发明的基于3D模型匹配的数字孪生系统的示意图；

图3为本发明的训练和测试数据集如何生成的空间示意图。

图4为实施例的数字孪生空间比较图，其中，（a）为实际拍摄的图片，（b）为通过本发明的方法和系统生成的场景图。

具体实施方式

下面根据附图和优选实施例详细描述本发明，本发明的目的和效果将变得更加明白，应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的基于3D模型匹配的数字孪生方法，包括模型和纹理训练、模型匹配、纹理融合、场景放置五大步骤。其中，模型和纹理训练是离线预处理步骤，模型匹配、纹理融合和场景放置是实时处理步骤。模型的训练使用多视点剪影图像学习三维结构，实现多边形网格三维重建；纹理的训练通过一个固定的UV映射来获得纹理流，实现2D图像到3D纹理的推理。模型匹配使用重建后的模型和数据库的模型进行IOU迭代计算，获取IOU值最接近1的模型作为匹配后指定的模型。纹理融合是将匹配后指定的模型与纹理推理后的3D纹理流融合，形成标准的3D模型。场景放置是将3D模型准确地放置在3D场景中。具体如图1所示。

下面对五个步骤具体展开进行说明。

一、模型和纹理训练

1. 模型训练

模型训练采用基于图像的三维物体重建（image-based 3D reconstruction）方法，这是一种机器学习算法。三维重建可以总结为一个学习预测算子的过程，输入图像到该预测算子可得到一个和目标物体X相似的模型

。因此重建的目标函数L=d(f(θ),X)，其中θ为预测算子的参数，d(f(θ),X)为重建结果和目标X的距离函数。L也称作深度学习中的损失函数。

算法性能很大程度上取决于它们的训练方式。模型首先初始化一个具有n个顶点的均匀球体，n优选642，然后移动每个顶点

到

，其中

表示局部偏移向量、c表示全局偏移向量，此外，需要限制每个顶点在原球面上同一象限内的活动范围。但球体的面并不会改变。因此，中间输出结果

是

和

。

使用encoder-decoder架构，输入图像编码为512D的向量，解码器由三个完全连接的层组成。隐藏层的大小是1024和2048。

该模型训练时每次迭代的函数

使用轮廓损失

和平滑损失

，轮廓损失

代表重建后的轮廓

和真实轮廓

的差距，对应于真实和重建模型轮廓之间IOU数值的一个负的交集；平滑损失

代表模型表面的平滑程度，对应于真实和重建模型轮廓之间IOU数值的一个负的交集，确保所有面的交角接近180度，并且作为一个正则项。目标函数就是两个损失分别乘于相应权重的和

。其中，

和

的计算公式如下：

其中，

和

为二元掩膜（mask），

为

中第i条边的两个面之间的夹角，

为

中所有边的集合，

表示元素之间的积。

该模型训练的具体训练过程如下：

（1）首先多角度拍摄目标物体的图片，对图片进行语义分割，获取目标物体的像素信息，把这些图片划分为训练集和测试集；然后将分割好的图片作为目标区域的掩膜输入到编码器中，同时将像素信息的透明度作为RGB图像的附加通道；

（2）执行训练，将步骤（1）获得的编码矩阵信息作为

的参数传入，输出结果输入到解码器中，然后将生成的网格数据与真实网格进行损失函数计算。一轮迭代之后神经网络模型反向传播，反转数据生成过程，重新进行计算。

（3）训练过程中每迭代多个epoch，便将

的神经网络结构参数记录下来。达到指定的迭代次数之后，损失值便稳定在较小的数值范围内。训练完成后，使用测试集计算训练的效果如何。

以上流程由图1所示。

纹理训练

纹理训练采用UV映射的原理推断纹理流。假设所有重建的模型共享一个底层3D网格结构，这个网格形状与球体同构，球体的纹理可以表示为一个图片

，这个图片可以通过一个固定的UV映射（类似于将一个球体展开成一个平面地图）映射到表面上。因此，纹理训练的任务是推理

的像素值。

本发明通过建立一个解码器，表示

的空间维度，并将任务定义为从原始图像复制像素颜色输出到外观的流。这种预测的纹理流可以保留输入图像中显示的细节。这种纹理流被定义为

,

表示

的高，

表示

的宽，

表示输入图片的采样像素的坐标值。通过双线性采样G生成UV图

，其中I表示输入的图片，F表示输出的纹理流。定义纹理损失函数：

表示3D模型使用

进行的渲染。上述损耗函数为输入图片中可见部分提供了参考，但并未为图片中不可见部分提供监督价值。因为本发明的方法选择匹配的模型总是对称的，因此将图片不可见部分的预测也作为损失函数的一部分。可以通过对图片的可见部分采样，对称的不可见部分同样具有相同的像素特征。设可见部分到采样部分距离

，对于所有可见部分的点x，则

,对结果进行连加：

纹理训练的解码器使用5个上卷积层，最终输出通过tanh函数来保持流在一个归一化的

空间内。

该纹理训练的具体训练过程如下：

（1）纹理训练的数据依然用的模型训练的数据，将图片数据输入编码器；

（2）纹理模块从原始输入图像复制像素颜色，使用双线性采样G的方式对纹理进行预测，同时先验地假设纹理是对称的，那么可以输出完整的纹理流。

（3）反向传播迭代网络架构，直到loss函数的数值趋向于最小。

（4）将纹理流映射到重建的网格模型上，得到的是推理好的UV纹理图。

训练好的模型和纹理网络参数结构会被存储在实时服务架构当中。当视觉端的摄像头将拍摄好的图片传到服务架构中，服务端会进行模型匹配工作。

二、模型匹配

模型匹配的方法并不是以多边形网格的几何形式匹配，而是将3D模型体素化处理，再进行相似度计算，相似度计算使用经典的IOU指标。

（1）将已知的3D模型数据集中的模型和重建后的模型分别进行体素化处理，之后归一化获得相同大小的体素，体素分辨率太大会导致计算性能较低，太小则模型特征不明显，因此

是一个适中的分辨率大小；

（2）比较重建模型和数据库中索引体素的IOU值。体素的代数表示为元素只有0和1的矩阵，1表示是模型的一部分，然后重建体素和索引体素取交集，比上两者的并集，获得商，即为IOU值，理论上两者越相像那么交集和并集越趋同，因此将IOU值最接近1的索引模型作为选定模型。

因为3D模型数据集中的模型非常多，为了更快地匹配到合适的模型，本实施例中通过对数据库中模型创建索引，这样能够实现自动匹配，提高计算效率。具体步骤如下：

（1）将数据库模型体素化，储存为npz文件，文件名称为索引名；

（2）将数据库模型文件索引化，索引名对应模型文件；

（3）预加载npz文件，在内存中建立索引。

创建索引之后，当服务端接收到图片后，会进行模型和纹理推理，获得重建好的模型和推理好的纹理流。

三、纹理融合

将选定的模型与推理好的纹理流进行融合。纹理融合的困难在于，原始重建好的模型与选定的模型很大概率不是同构的，重建的模型网格形状与n个顶点的球体同构，选定模型顶点数并不一样，因此，需要将重建的模型网格进行合并或者分裂，同时纹理流也会进行合并或分裂。假设面积较大的网格和匹配的

纹理进行分裂或者面积较小的网格和其上的像素进行合并对视觉的效果不会造成较大的影响。

具体的纹理融合的步骤如下：

（1）对重建的模型网格包围的网格进行面积计算，并对面积按照由大到小顺序排列；

（2）若数据库中的选定模型的顶点数大于重建的模型的顶点数n，则对面积排序靠前的网格进行纹理分裂，一个网格分裂为3个网格，即增加2个网格，分裂后的网格共享分裂前网格的纹理特征；若数据库中的选定模型的顶点数小于重建的模型的顶点数n，则对面积排序靠后的网格进行纹理合并，删除组成网格的随机一个顶点（一般取第一个点），即减少两个网格，相应也减少两个纹理特征。从而保证重建的模型分裂或者合并后的网格总数与选定模型的网格总数一致；

（3）将相应的纹理流通过UV映射的方式与选定模型融合。纹理流转化为纹理文件png，纹理流与匹配模型的映射关系会被记录在mtl文件中。

四、场景放置

视觉端通常使用参照物的方式获取目标物体的尺寸大小，参照物的大小事先确定，参照物在视野中心点位置与视觉端距离也确定（RGB-D），目标物体与视觉端的距离也确定，那么目标物体的尺寸大小既可以确定下来。目标物体的位置信息则通过原点位置确定。载有摄像头视觉端的机器人往往从原点出发，到达定点位置，调整视角，识别出目标物体，则顶点位置和目标位置都可以计算获得。物体姿态识别算法计算出目标物体的姿态信息，获得姿态信息的四元数。

目标物体上述场景信息传输给可视化端，以物体id作为识别标志。

可视化端同时收到视觉端传输的物体场景信息以及服务端的模型索引信息。以物体id进行匹配，匹配成功，则在场景中渲染模型，并赋予尺寸大小、位置和姿态等属性。

本发明的基于3D模型匹配的数字孪生方法通过数字孪生系统来实现。该数字孪生系统包括可视化端、服务端、视觉端。

其中，视觉端用于图片上传功能，内置图像上传程序。用于实现图像语义分割功能，内置语义分割算法。用于实现物体识别功能，内置物体识别算法。用于物体场景信息识别功能，内置物体场景信息识别和上传程序。

服务端用于实现模型重建、纹理重建的功能，内置模型和纹理推理算法。用于模型匹配的功能，内置模型匹配程序。用于纹理融合和模型文件生成的功能，内置模型生成程序。用于模型文件地址上传的功能，内置模型上传程序。

可视化端用于接收物体场景信息的功能，内置数据接收程序。用于模型接收的功能，内置模型接收程序。用于渲染模型的功能，内置模型渲染程序。

数字孪生系统如图2所示。

实施例

该实施例数据类型针对的是不同视角下的3D模型图片数据，数据库的模型采用的是斯坦福大学开源的3D模型数据集ShapeNet为基础数据。

采用Blender作为渲染的软件。以ShapeNet中的chair集为例，chair集在ShapeNet中的代号是03001627，Blender加载chair集中每个模型。

然后设置摄像头位置，摄像头位置用3个参数表示，分别是距离、海拔和方位角。距离是模型中心位置到摄像头的距离，海拔是摄像头的高度（模型底面位置为水平线），方位角是摄像头位置在三维坐标中xz面的投影向量与x轴正方向向量的夹角，如图3所示。摄像头正对模型中心位置，方位角从0度开始对模型进行拍照，获取一张图片。然后方位角每增加15度拍一张图片。一共可以拍24张图片。chair集每个模型都可以拍摄24张图片。这些图片保存下来作为训练和测试的数据集。

神经网络体系架构分为三维模型和纹理两类组件。三维模型的神经网络架构是encoder-decoder架构，输入图像编码为512D的向量，解码器由三个完全连接的层组成。隐藏层的大小是1024和2048。纹理组件由5个上卷积层组成，最终输出通过tanh函数来保持流在一个归一化的

空间内。

损失函数为

其中

代表轮廓权重和损失的乘积，

代表模型平滑程度权重和损失的乘积，

代表纹理流权重和损失的乘积。三者之和为最终的损失值。

网络参数中，batch_size为64，learning_rate为1e-4，iteration为10000000。操作系统使用ubantu18.04，GPU为nvidia 2080ti，python版本为2.7。

每迭代10次，会将训练的参数保存在log文件夹下。训练过程大概持续一周左右，顺利获得最优的神经网络结构参数，以npz格式保存。

接下来，将chair集的模型进行体素化，并将这些模型的体素以模型的id命名，以npz文件存储。

以上步骤为离线步骤，需要程序预先训练和处理好。离线步骤以服务的方式执行。

核心的服务使用python的flask框架，端口为7788。首先加载chair模型的体素文件，使用字典的方式进行结构化，字典的key为模型的id，value为体素的二进制数据，假设字典名称为voxels_dic。

用/imageToMesh命名接口，接口采用post请求。输入参数用image为key，图片的二进制流为value，然后将value转化为RGBA图片数据。然后用RGBA图片数据和模型纹理的网络结构去重建模型和预测纹理。重建的模型需要进行体素化，将体素化后的数据与voxels_dic进行迭代匹配，获取IOU值， IOU值最大的voxels_dic的key即模型id存储起来。

接着根据模型id加载匹配模型，获取模型的mesh结构，与重建模型进行顶点比较，依据顶点的比较结果进行纹理的合并或分裂。然后将匹配模型与纹理进行融合。融合结果以obj文件和mtl文件存储，融合后的纹理图也以png的格式存储下来。存储的路径作为接口的结果返回。

以机器人作为视觉设备的载体，首先记录出发点位置，并设为原点。机器人开始slam操作，并记录运行的轨迹。

机器人移动过程中摄像头会进行视觉扫描，当移动到疑似物体前会拍摄一张图片，发送到服务端，服务端判断图片质量，若图片质量较差则返回false。若图片质量较高，则返回true。机器人收到返回true的指令，会对目标物体计算位置（结合原点位置、机器人位置、视野位置计算物体坐标位置）、大小、姿态，和物体id一起发送给可视化端。可视化端收到消息后会判断模型文件是否生成，若未生成，则存储物体位置等属性，若已生成，则启动渲染动作。

同时，图片清理算法会将图片进行语义分割处理，将图片中的干扰像素遮盖。服务端收到清洗干净后的图片后启动重建模型算法和纹理推理算法，然后与数据库中的模型进行比对，匹配获得与重建模型最相似的模型，然后进行纹理合并或分裂，融合到匹配模型上，输出obj和mtl文件。将文件的地址和物体id发送给可视化端。

可视化端通过网络获取文件并加载匹配模型，判断物体位置信息是否收到，若未收到则会存储模型，若已收到则依据物体id找到物体的位置、大小和姿态信息，在数字孪生场景中渲染匹配模型。

机器人端继续搜寻其他物体，重复发送图片、匹配模型并渲染的流程。

数字孪生场景就被展示出来了，效果如图4所示。

本领域普通技术人员可以理解，以上所述仅为发明的优选实例而已，并不用于限制发明，尽管参照前述实例对发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在发明的精神和原则之内，所做的修改、等同替换等均应包含在发明的保护范围之内。