CN114419249A

CN114419249A - 物体三维形状重建方法、装置、设备及存储介质

Info

Publication number: CN114419249A
Application number: CN202111600844.6A
Authority: CN
Inventors: 郑宇华; 梁延研; 赵默君
Original assignee: Zhuhai Jianxin Interactive Entertainment Co ltd
Current assignee: Zhuhai Jianxin Interactive Entertainment Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-29

Abstract

本发明提供一种物体三维形状重建方法、装置、设备及存储介质，涉及人工智能图像处理，包括：对包括单个物体的二维图像进行归一化，得到归一化图像；将归一化图像输入物体形状重建网络，通过物体形状重建网络的特征提取器获取对应的特征信息，并输入至物体形状重建网络的生成器，得到物体的预测体素的置信度三维张量；基于预设阈值，对置信度三维张量中的每一项元素进行二值化处理，得到表示物体的三维形状的体素。本发明能够准确高效地从二维图像中恢复物体的三维结构，提升三维形状重建的效率，节省了人力物力。

Description

物体三维形状重建方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的图像处理技术领域，尤其涉及一种物体三维形状重建方法、装置、设备及存储介质。

背景技术

三维重建的主要目标之一是从二维图像恢复物体的三维结构。近年来，随着虚拟现实、3D打印、自动驾驶、智能医疗和影视制作等产业的发展，人们对三维模型的需求出现了爆发式的增长，传统的手工建模方法已难以满足这一需求。准确高效的物体三维重建方法成为解决这一问题的关键。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明实施例提出一种物体三维形状重建方法，旨在实现准确高效地从二维图像恢复物体的三维结构。

第一方面，本发明实施例提供一种物体三维形状重建方法，包括：对包括单个物体的二维图像进行归一化，得到归一化图像；将所述归一化图像输入物体形状重建网络，通过所述物体形状重建网络的特征提取器获取对应的特征信息，并输入至所述物体形状重建网络的生成器，得到所述物体的预测体素的置信度三维张量；基于预设阈值，对所述置信度三维张量中的每一项元素进行二值化处理，得到表示所述物体的三维形状的体素。

根据本发明实施例的物体三维形状重建方法，至少具有如下有益效果：通过将包括单个物体的二维图像进行归一化并输入至物体形状重建网络，对物体形状网络进行训练，并通过训练好的物体形状重建网络获取预测体素的置信度三维系统张量，二值化后得到相应的体素，能够准确高效地从二维图像中恢复物体的三维结构，提升三维形状重建的效率，节省了人力物力。

根据本发明的一些实施例，所述特征提取器由多个密集连接块和一个可变形卷积模块构成。

根据本发明的一些实施例，还包括配置每个所述密集连接块的以下参数：所述密集连接块中参与密集连接的每个卷积层的通道数、所述密集连接块输出的特征图的通道数以及所述密集连接块中参与密集连接的卷积层数量。

根据本发明的一些实施例，所述可变形卷积模块包括主线和第一学习分支，所述第一学习分支学习每一次卷积加权求和作用的图像区域，以为主线的卷积操作中对应的窗口的每个点预测偏移向量。

根据本发明的一些实施例，所述特征提取器获取的所述特征信息通过reshape的操作，以使所述特征信息能向三维形状的体素转化。

根据本发明的一些实施例，所述基于预设阈值，对所述置信度三维张量中的每一项元素进行二值化处理包括：若所述元素小于所述预设阈值，则设置该元素对应的值为第一数值，所述第一数值表示所述体素中为空白状态的网格；若所述元素大于所述预设阈值，则设置该元素对应的值为第二数值，所述第二数值表示所述体素中为占有状态的网格。

根据本发明的一些实施例，通过第一损失函数对所述物体形状重建网络进行训练，所述第一损失函数为二元交叉熵损失函数和骰子损失的加权和。

第二方面，本发明实施例提供一种物体三维形状重建装置，包括：归一化模块，用于对包括单个物体的二维图像进行归一化，得到归一化图像；重建模块，用于将所述归一化图像输入物体形状重建网络，通过所述物体形状重建网络的特征提取器获取对应的特征信息，并输入至所述物体形状重建网络的生成器，得到所述物体的预测体素的置信度三维张量；二值化模块，用于基于预设阈值，对所述置信度三维张量中的每一项元素进行二值化处理，得到表示所述物体的三维形状的体素。

根据本发明实施例的物体三维形状重建装置，至少具有如下有益效果：通过将包括单个物体的二维图像进行归一化并输入至物体形状重建网络，对物体形状网络进行训练，并通过训练好的物体形状重建网络获取预测体素的置信度三维系统张量，二值化后得到相应的体素，能够准确高效地从二维图像中恢复物体的三维结构，提升三维形状重建的效率，节省了人力物力。

第三方面，本发明实施例提供一种设备，包括处理器以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令，所述处理器执行所述存储器存储的所述程序指令时实现第一方面所述的物体三维形状重建方法。

第四方面，本发明实施例提供一种存储介质，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现能够实现第一方面所述的物体三维形状重建方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明实施例的方法的步骤流程图。

图2是本发明实施例中物体的三维形状的重建过程示意图；

图3是本发明实施例中物体形状重建网络的网络架构示意图；

图4是本发明实施例中的密集连接块的网络架构示意图；

图5是本发明实施例中的可变形卷积的网络架构示意图；

图6是本发明实施例中的装置的内部模块示意图；

图7是本发明实施例中的设备的示意图；

图8是本发明实施例中的存储介质的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特有的意义。因此，“模块”、“部件”或“单元”可以混合地使用。“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本后续的描述中，对方法步骤的连续标号是为了方便审查和理解，结合本发明的整体技术方案以及各个步骤之间的逻辑关系，调整步骤之间的实施顺序并不会影响本发明技术方案所达到的技术效果。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

实施例1

参照图1，本实施例公开了一种物体三维形状重建方法，包括步骤S100至S300。

步骤S100，对包括单个物体的二维图像进行归一化，得到归一化图像。

具体地，获取包括单个物体的二维图像的方法可以是，例如，对单个物体进行拍摄，或者对包括多个物体的二维图像进行分割，以使一个二维图像中仅包括单个物体。

参照图2，将包括单个物体的二维图像(即2D图像)首先进行归一化，即使图像的灰度值(例如0-255)均匀地映射至0-1之间，以便神经网络进行处理。

步骤S200，将归一化图像输入物体形状重建网络，通过物体形状重建网络的特征提取器获取对应的特征信息，并输入至物体形状重建网络的生成器，得到物体的预测体素的置信度三维张量。

具体地，物体形状重建网络如图2志示，包括特征提取器和生成器。

其中，特征提取器，包括多个密集连接块和一个可变形卷积模块而构成，实质上是卷积层、批归一化层、激活函数层和池化层通过丰富的连接关系组合而成。特征提取器作用于包含单个物体的2D图像，通过逐层压缩和抽象，提取出图像中物体对应的特征信息。

生成器，由若干个反卷积层、批归一化层和激活函数层而构成。生成器逐步解析从图像中提取的特征信息，最终获取得表示该物体的预测体素的置信度三维张量。其中，该置信度三维张量的每项的取值都处于0-1之间，表示该物体的三维形状的体素表示里每个网格处于占有状态的置信度的预测值。

步骤S300，基于预设阈值，对置信度三维张量中的每一项元素进行二值化处理，得到表示物体的三维形状的体素(体积元素的简称)。

具体地，配置预设阈值为d(0≤d≤1)，将该置信度三维张量中小于预设阈值d的元素的值设置为第一数值(例如0)，第一数值表示体素中为空白状态的网格；将该置信度三维张量中小于预设阈值d的元素的值设置第二数值(例如1)，第二数值表示体素中为占有状态的网格。由此，获得最终表示该物体的三维形状的体素。通过该体素，即可重建出物体的三维形状。

本实施例的物体形状重建网络的具体网络架构的示例如图3所示。首先，输入的二维图像通过特征提取器抽象出对应的物体相关的特征信息，为了保证更好的信息表征能力，本实施例中依次使用两种特殊的网络结构：密集连接块(相当于图3中的Dense block)、可变形卷积模块。

密集连接块，会在卷积层之间建立更多更复杂的连接关系，使参与密集连接的卷积层相互之间都会有skipping connection的直接联系。通过密集连接块，可以缓解训练时的梯度弥散，以获得表达效果更好的表示模块，同时，由于大量特征图被重复使用，可以有效减小网络模型的参数量。例如图3中的Dense block仅需要配置3个参数：本密集连接块中参与密集连接的每个卷积层的通道数k、本密集连接块最终输出特征图的通道数c、本密集连接块中参与密集连接的卷积层数量n。例如，图3中的Dense block 2D(32,128,6)中，k为32，c为128，n为6。图3中的密集连接块(Dense block(k,c,n))的网络架构的示例图参照图4。

本实施例的可变形卷积模块，与一般的卷积层相比，参照图5，使用一个第一分支来学习每一次卷积加权求和作用的图像区域，从而打破本身有规律的划窗规则，由此使得网络对于图像中的有效区域给予更多的关注，同时也自适应地降低冗余信息对结果的干扰。对于目标任务，网络仅需关注物体部分的信息，背景则相当于干扰预测的噪声。因此，使用可变形卷积可以有效增强特征表达的能力。如图5所示，本实施例的可变形卷积模块，分支(即第一学习分支)为主线的卷积操作中每个像素对应的划窗中每个点分别预测了一个偏移向量，以实现关注区域的灵活化。图5中，以划窗为3×3为示例，由于输入处理的是二维图像，因此，每个点的偏移量为一个包括两个方向的偏移向量。

本实施例中，特征提取器将获取的特征信息进行reshape的操作，以使在神经网络中二维图像对应的特征信息能向三维形状的体素转化。

特征信息将输入生成器，在以反卷积为核心的运算块作用下，特征信息逐渐被解码并上采样，最终生成预测体素的置信度三维张量。为了保证每个体素点的置信度在0-1之间，最后一层的激活函数例如，选用Sigmoid函数。

用于更好的训练重建模型，本实施例中通过二元交叉熵损失函数(binary crossentropy loss function)和骰子损失函数(dice loss function)共同监督训练过程，分别专注于单个体素网格分类以及整体形态的准确性，以综合衡量局部和全局的还原效果。总损失函数(相当于第一损失函数)为两部分的加权之和：

L_total＝λ₁L_bce+λ₂L_dice

其中，L_bce表示二元交叉熵损失(binary cross entropy loss)的值，L_dice表示骰子损失(dice loss的值)，λ₁和λ₂分别表示两个权重，L_total为总损失的值。

L_bce的公式为：

L_dice的公式为：

其中，gt_i代表ground truth中网格点的状态值，p_i代表网络预测网格点的置信度值，N代表生成体素的模型的边长。

本实施例通过将包括单个物体的二维图像进行归一化并输入至物体形状重建网络，对物体形状网络进行训练，并通过训练好的物体形状重建网络获取预测体素的置信度三维系统张量，二值化后得到相应的体素，能够准确高效地从二维图像中恢复物体的三维结构，提升三维形状重建的效率，节省了人力物力。

实施例2

参照图6，本实施例公开了一种物体三维形状重建装置600，包括：归一化模块610、重建模块620和二值化模块630。

归一化模块610对包括单个物体的二维图像进行归一化，得到归一化图像。

重建模块620将归一化模块610得到的归一化图像输入物体形状重建网络，通过物体形状重建网络的特征提取器获取对应的特征信息，并输入至物体形状重建网络的生成器，得到物体的预测体素的置信度三维张量，并输入至二值化模块630。

二值化模块630，用于基于预设阈值，对置信度三维张量中的每一项元素进行二值化处理，得到表示物体的三维形状的体素。

与实施例1类似地，本实施例通过将包括单个物体的二维图像进行归一化并输入至物体形状重建网络，对物体形状网络进行训练，并通过训练好的物体形状重建网络获取预测体素的置信度三维系统张量，二值化后得到相应的体素，能够准确高效地从二维图像中恢复物体的三维结构，提升三维形状重建的效率，节省了人力物力。

实施例3

参照图7，本实施例提供一种设备，包括处理器810以及与处理器810耦接的存储器820，存储器820存储有可被处理器810执行的程序指令，处理器810执行存储器820存储的程序指令时实现实施例1的物体三维形状重建方法。其中，处理器810还可以称为CPU(CentralProcessing Unit，中央处理单元)。处理器810可能是一种集成电路芯片，具有信号的处理能力。处理器810还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器，或者，通用处理器还可以是任何常规的处理器等。存储器820可包括各种组件(例如，机器可读介质)，包括但不限于随机存取存储器组件、只读组件及其任意组合。存储器820还可包括：(例如，存储于一个或多个机器可读介质的)指令(例如，软件)；该指令实现本发明实施例的方法。

希望理解的是，为了避免赘述，本实施例未涉及的内容可参照实施例1。本实施例至少具有与实施例1同样的有益效果。

实施例4

参照图8，本实施例提供一种存储介质，存储介质内存储有程序指令910，程序指令910被处理器执行时实现能够实现实施例1的物体三维形状重建方法。希望理解的是，为了避免赘述，本实施例未涉及的内容可参照实施例1。本实施例至少具有与实施例1同样的有益效果。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质(简称存储介质)上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机可读介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上参照附图说明了本发明的优选实施例，并非因此局限本发明的权利范围。本领域技术人员不脱离本发明的范围和实质内所作的任何修改、等同替换和改进，均应在本发明的权利范围之内。

Claims

1.一种物体三维形状重建方法，其特征在于，包括：

对包括单个物体的二维图像进行归一化，得到归一化图像；

将所述归一化图像输入物体形状重建网络，通过所述物体形状重建网络的特征提取器获取对应的特征信息，并输入至所述物体形状重建网络的生成器，得到所述物体的预测体素的置信度三维张量；

基于预设阈值，对所述置信度三维张量中的每一项元素进行二值化处理，得到表示所述物体的三维形状的体素。

2.根据权利要求1所述的物体三维形状重建方法，其特征在于，所述特征提取器由多个密集连接块和一个可变形卷积模块构成。

3.根据权利要求2所述的物体三维形状重建方法，其特征在于，还包括配置每个所述密集连接块的以下参数：所述密集连接块中参与密集连接的每个卷积层的通道数、所述密集连接块输出的特征图的通道数以及所述密集连接块中参与密集连接的卷积层数量。

4.根据权利要求2所述的物体三维形状重建方法，其特征在于，所述可变形卷积模块包括主线和第一学习分支，所述第一学习分支学习每一次卷积加权求和作用的图像区域，以为主线的卷积操作中对应的窗口的每个点预测偏移向量。

5.根据权利要求2所述的物体三维形状重建方法，其特征在于，所述特征提取器获取的所述特征信息通过reshape的操作，以使所述特征信息能向三维形状的体素转化。

6.根据权利要求1所述的物体三维形状重建方法，其特征在于，所述基于预设阈值，对所述置信度三维张量中的每一项元素进行二值化处理包括：

若所述元素小于所述预设阈值，则设置该元素对应的值为第一数值，所述第一数值表示所述体素中为空白状态的网格；

若所述元素大于所述预设阈值，则设置该元素对应的值为第二数值，所述第二数值表示所述体素中为占有状态的网格。

7.根据权利要求1所述的物体三维形状重建方法，其特征在于，通过第一损失函数对所述物体形状重建网络进行训练，所述第一损失函数为二元交叉熵损失函数和骰子损失的加权和。

8.一种物体三维形状重构装置，其特征在于，用于实现如权利要求1至7中任意一项所述的物体三维形状重建方法，包括：

归一化模块，用于对包括单个物体的二维图像进行归一化，得到归一化图像；

重建模块，用于将所述归一化图像输入物体形状重建网络，通过所述物体形状重建网络的特征提取器获取对应的特征信息，并输入至所述物体形状重建网络的生成器，得到所述物体的预测体素的置信度三维张量；

二值化模块，用于基于预设阈值，对所述置信度三维张量中的每一项元素进行二值化处理，得到表示所述物体的三维形状的体素。

9.一种设备，包括处理器以及与所述处理器耦接的存储器，所述存储器存储有可被所述处理器执行的程序指令，其特征在于，所述处理器执行所述存储器存储的所述程序指令时，实现如权利要求1至7中任意一项所述的物体三维形状重建方法。

10.一种存储介质，所述存储介质内存储有程序指令，所述程序指令被处理器执行时实现能够实现如权利要求1至7中任意一项所述的物体三维形状重建方法。