CN112037324B

CN112037324B - 箱体图像三维重建方法、计算设备及存储介质

Info

Publication number: CN112037324B
Application number: CN202011214876.8A
Authority: CN
Inventors: 池浩塬
Original assignee: Shanghai Qiaodong Network Technology Co ltd
Current assignee: Shanghai Qiaodong Network Technology Co ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-01-26
Anticipated expiration: 2040-11-04
Also published as: CN112037324A

Abstract

本发明公开了一种箱体图像三维重建方法、计算设备及存储介质，涉及自动化技术领域，为将二维箱体图像转换为三维箱体图像而发明。本发明的方法采集包含箱体所有细节信息的多个拍摄角度的二维箱体图像，通过全连接深度网络将多张二维图像转换为三维图像，与现有技术中分别查看多张二维图像相比，三维图像能够提供连续平滑的视角变换功能，操作者可以对该三维图像进行任意角度的操作和查看，能够大大提高验箱效率。

Description

箱体图像三维重建方法、计算设备及存储介质

技术领域

本发明涉及自动化技术领域，尤其涉及一种箱体图像三维重建方法、计算设备及存储介质。

背景技术

随着运输业的日渐发展，物流运输量也以惊人的速度增加。集装箱作为物流运输的主要载体，在货物运输环节起到了至关重要的作用。在运输之前需要查验集装箱箱体损伤情况，这就要求对集装箱实施箱体检查，也称为验箱。随着科学技术的进步，现阶段的验箱环节原来趋向高效和智能，许多智能验箱环节应运而生。

现有的许多智能验箱的方法多利用摄像机、移动图像采集设备代替人工过程来验查集装箱箱体是否完好。现阶段的验箱过程多依靠二维图像或者视频信息来进行箱体校验，由于单张二维图像可提供的信息有限，需要反复校验和比对多张图像，大大降低了验箱过程的准确性和效率。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的箱体图像三维重建方法、计算设备及存储介质。

第一方面，本发明提供了一种箱体图像三维重建方法，该方法包括：

采集箱体在多个视角上的二维箱体图像，所述二维箱体图像包含三维重建的全部图像信息，包括角度、光照、阴影、物体表面细节；

将摄像机光线穿过三维场景生成一组三维采样点；

将三维场景中采样点的五维参数输入到全连接深度网络，获得所述采样点的体积密度和RGB值，其中，五维参数包括所述采样点的X,Y,Z坐标及采样点上的观察方向

；

通过体渲染技术将所述体积密度和所述RGB值叠加到所述二维箱体图像上，形成三维箱体图像。

第二方面，本发明提供了一种计算设备，包括：摄像头、处理器、存储器、通信接口、通信总线和输出单元，所述摄像头、所述处理器、所述存储器、所述通信接口和所述输出单元通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令用于控制所述计算设备执行以下操作：

将摄像机光线穿过三维场景生成一组三维采样点；

；

第三方面，本发明提供了一种计算机存储介质，该计算机存储介质中存储有至少一可执行指令，该可执行指令用于执行以下操作：

将摄像机光线穿过三维场景生成一组三维采样点；

；

本发明提供的箱体图像三维重建方法、计算设备及存储介质，采集多张不同角度的二维箱体图像，通过全连接深度网络将二维图像转换为三维图像，与现有技术中分别查看多张二维图像相比，三维图像能够提供连续平滑的视角变换功能，操作者可以对该三维图像进行任意角度的操作和查看。本发明实现了验箱过程中的三维立体分析方案，突破了现有数字验箱的二维屏障，提供了验箱所需的更多图像信息，避免了反复查验集装箱各个视角的过程，提高了验箱的效率和准确性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种箱体图像三维重建方法的流程图；

图2示出了本发明实施例提供的全连接深度网络的示意图；

图3示出了本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

实施例一

本发明实施例提供一种箱体图像三维重建方法，该方法通过采集设备采集箱体不同角度的二维图像，然后回传给计算设备进行三维转换。其中所述采集设备可以是固定检测场景下，设置于检测通道四周固定机位上的图像采集设备，也可以非固定检测场景下，采集者手持的便携式图像采集设备，包括但不限于是手机、相机、摄像机、平板电脑等。计算设备可以是服务器，通常部署于远端机房中，或者也可将计算能力部署上云。采集设备与计算设备之间，通过GSM、3G、4G、5G等移动数据网络、无线热点或有线网络进行数据传输。

如图1所示，本发明的方法包括：

S101、采集箱体在多个视角上的二维箱体图像。

该二维箱体图像包含三维重建的全部图像信息，包括角度、光照、阴影、物体表面细节。

在一种实现方式中，可以通过8个角度的图像采集覆盖箱体内外的全部图像信息，这8个拍摄角度包括：集装箱外部左后侧方向、集装箱外部右后侧方向、集装箱外部左前侧方向、集装箱外部右前侧方向、集装箱外部正面箱门闭合方向、集装箱外部正面箱门对开方向、集装箱内部由外向内方向和集装箱内部由内向外方向。

S102、将摄像机光线穿过三维场景生成一组三维采样点。

S103、将三维场景中采样点的五维参数输入到全连接深度网络，获得所述采样点的体积密度和RGB值。

其中，五维参数包括所述采样点的X,Y,Z坐标及采样点上的观察方向

；

综合各视角的二维箱体图像进行三维重建的算法核心是，输入一组稀疏的视角图像，通过优化一个连续体函数得到各位置的体积密度和RGB值，然后采用体绘制技术进行三维重建。本实施例采用全连接深度网络（MLP），其中输入为五维参数（X,Y,Z,

），表示空间位置（xy,z）和表示观察视角方向（

），输出为体积密度和该空间位置的RGB值，然后采用经典的体渲染技术将输出的颜色和密度投影到二维箱体图像中，完成三维重建。其中，体积密度(

)的作用相当于控制光线通过三维空间坐标(x,y,z)时累积的辐射度的差分不透明度，而RGB值则为三维空间坐标(x,y,z)上对应的图像颜色。

如图2所示，其本质是将一个特定场景看成一个连续的5D函数，空间上的点（x，y，z）和该点的观察方向（

）作为输入，该点的体积密度和RGB值作为输出，采用全连接深度网络来表示这个5D函数，实现将一个单独的5D坐标（x,y,z,

）回归到一个体积密度和视角相关的RGB颜色值，即将一个连续场景看成一个5D的向量函数，输入是3d的位置X=（x,y,z)和2维的观察方向d=（

），输出是体积密度

和颜色C=（r,g,b)，之后据此进行三维箱体绘制，由此通过一系列特殊视角的二维箱体图像可以渲染出三维图像。

该5D函数可表达为：

本实施例中，通过优化网络的权值

来将每个5d的输入坐标映射到对应的体积密度和颜色上。并且，通过约束体密度

只和位置X相关，RGB颜色C同时和位置X和观察方向d相关，来保证多视角的一致性。为了实现这种目的，MLP网络首先用8层全连接网络处理3维坐标X输入，输出

和一个256维的特征向量，然后将这个256维的特征向量和观察方向d进行串联，输入到一个4层全连接网络，输出RGB值。

其中，上述8个全连接层使用ReLU激活且每层设置256个通道，上述4个附加全连接层采用ReLU激活，每层设置128个通道。

S104、通过体渲染技术将所述体积密度和所述RGB值叠加到所述二维箱体图像上，形成三维箱体图像。

5D神经辐射场代表了一个场景的体密度和空间任意点的定向辐射。使用经典体绘制的原理渲染穿过场景的任何光线的颜色。体积密度σ（x）可以解释为射线在x位置处终止于无穷小粒子的微分概率。颜色C（r）是沿摄像机射线r（t）=o+td的上下界限（tn，tf）的累计呈现，可公式表达为：

其中，函数T（t）表示沿射线从tn到T的累积透过率，即射线从tn到T而不撞击任何其他粒子的概率。从连续神经辐射场绘制视图需要估计穿过所需虚拟摄像机的每个像素的摄像机光线的积分

，使用求积对该连续积分进行数值估计。确定性求积（Deterministic quadrature）通常用于渲染离散体素网格，它将有效地限制我们表示的分辨率，因为MLP只会在固定的离散位置集上查询。相反，使用分层抽样方法，将[tn，tf]分成N个均匀分布的容器，然后从每个容器内随机均匀地抽取一个样本ti：

虽然使用离散的样本集来估计积分，但分层采样能够实现连续的场景表示，因为MLP在优化过程中是在连续的点上进行的计算。用这些样本来估计积分

：

其中，

是邻近样本的距离，计算

的函数是可微的，这样可以用alpha的值

来进行传统的alpha合成。

进一步的，在本实施例的一种实现方式中，使用梯度下降算法优化神经网络，通过最小化每个观察到的图像和从我们的表示中呈现的相应视图之间的误差来表示复杂的场景。通过将多个视图之间的错误最小化，可以鼓励网络通过为包含真实底层场景内容的位置分配高体积密度和精确颜色来预测场景的相干模型。

进一步的，神经辐射场网络支持在三维图像中添加虚拟对象，该虚拟对象同样是三维形式的，会固定在设定的位置上随摄像机视角的移动切换，与观察对象主体（例如集装箱）一同运动。在本实施例的一种实现方式中，可以在三维图像中插入于对箱体部件进行验伤提示和/或标注表示的虚拟对象。例如，根据检测实例，在需要检测的箱体部件附近标注红色气泡，在不需要检测箱体部件附近标注绿色气泡或不予标注。

再或者当本实施例方案进一步结合图像识别场景时，例如在生成三维箱体图像后，可以经由图像识别技术进行箱体部件的自动探伤检测，并通过不同颜色的虚拟气泡对箱体部件的检测结果进行标注，以便后续人工重点关注损伤部件。

进一步的，三维箱体图像中插入的虚拟对象还可以增加交互能力，允许操作人员对其进行隐藏、移动或链接跳转等操作，例如对于已经人工验视过的部件，可以手动点击隐藏虚拟气泡，对于标注位置不准的虚拟气泡可以通过拖动操作改变其位置，或者当点击某个部件的虚拟气泡时，弹窗显示该部件的维护记录表，可以查看其历史维修记录，并进行增删改操作。

在本实施例的一种实现方式中，可以通过虚拟气泡的交互能力实现同类型部件的批量验视，以减少人工切换查看视角的次数。具体而言：对于同类型的箱体部件，例如箱体的左右侧板，可以预先对其对应的虚拟气泡进行跳转关联，计算每个侧板在三维图像中位置居中时对应的查看角度参数，并保存该角度参数。当操作者查看完左侧板后，点击左侧板对应的虚拟气泡，计算设备根据跳转关联关系获得右侧板的查看角度参数，并使用该参数自动切换三维箱体图像的查看视角，以使得右侧板旋转到视图中心位置显示，方便操作者验视。该方案中，将同类型箱体部件进行集中批量验视可以提高验视效率，另一方面还可以节省人工查找下一验视部件及手动旋转查看视角所花费的时间，能够大大提升验箱效率。

实施例二

如图3所示，本发明还提供了一种计算设备，包括：摄像头、处理器、存储器、通信接口、通信总线和输出单元，所述摄像头、所述处理器、所述存储器、所述通信接口和所述输出单元通过所述通信总线完成相互间的通信；

将摄像机光线穿过三维场景生成一组三维采样点；

；

进一步的，通过优化所述全连接深度网络各层权值，将输入的每个五维参数映射到对应的体积密度和RGB值上。

进一步的，约束体积密度仅与位置X,Y,Z相关，RGB值同时与位置X,Y,Z和观察方向

相关，以保证多视角的一致性。

进一步的，所述全连接深度网络采用8个全连接层处理输入的坐标X,Y,Z，输出所述体积密度及256维特征向量；

将所述256维特征向量和观察方向

进行串联，输入到4个附加全连接层，输出RGB值。

进一步的，所述8个全连接层使用ReLU激活且每层设置256个通道，所述4个附加全连接层采用ReLU激活，每层设置128个通道。

进一步的，将摄像机光线的上下限范围[tn，tf] 分成N个均匀分布的容器，并从每个容器内随机均匀地抽取一个样本ti；

根据ti估算穿过摄像机的每个像素的摄像机光线的积分C（r），以渲染穿过场景的任何光线的颜色。

进一步的，在所述三维箱体图像中插入虚拟对象，所述虚拟对象用于对箱体部件进行验伤提示和/或标注表示。

进一步的，所述虚拟对象具有交互能力，提供隐藏、移动或链接跳转功能。

实施例三

本发明还提供了一种非易失性计算机存储介质，该计算机存储介质存储有至少一可执行指令，该可执行指令可执行上述任意方法实施例中的方法。

可执行指令具体可以执行以下操作：

将摄像机光线穿过三维场景生成一组三维采样点；

；

相关，以保证多视角的一致性。

将所述256维特征向量和观察方向

进行串联，输入到4个附加全连接层，输出RGB值。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。