CN113781541A

CN113781541A - 基于神经网络的三维图像处理方法、装置及电子设备

Info

Publication number: CN113781541A
Application number: CN202111082286.9A
Authority: CN
Inventors: 罗天文; 戴磊; 刘玉宇
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-15
Filing date: 2021-09-15
Publication date: 2021-12-10
Anticipated expiration: 2041-09-15
Also published as: CN113781541B

Abstract

本发明适用于人工智能及数字医疗领域，并公开了一种基于神经网络的三维图像处理方法、装置及电子设备，在基于神经网络的三维图像处理方法中，通过获取用于表征目标的深度图像的第一深度信息，并将第一深度信息输入至深度神经网络模型中进行转换得到目标的目标三维图像信息，深度神经网络模型是根据三维样本的样本三维图像信息和三维样本的第二深度信息经过训练后得到的，深度神经网络模型经过训练后可以准确地将二维的深度图像转换为与原三维的物体相对应的三维图像，因此将第一深度信息输入至训练好的深度神经网络模型中能够输出准确度高的目标三维图像信息，能够提高构建三维图像的精确度，从而提高计算机视觉识别的精度。

Description

基于神经网络的三维图像处理方法、装置及电子设备

技术领域

本发明涉及人工智能及数字医疗领域技术领域，特别是涉及一种基于神经网络的三维图像处理方法、装置及电子设备。

背景技术

在人工智能及数字医疗领域的计算机视觉应用中往往需要将物体的二维图像信息转换为三维图像即三维模型，例如人脸识别的应用，人脸识别在众多领域中都有广泛应用，终端通过获取人脸的图像信息包括深度图像信息，进行三维图像的构建，可以得到人脸的三维图像即三维人脸模型，从而提高人脸识别中的精确度。但是相关技术中，通过终端设备获取的二维图像信息并从深度图像构建出三维图像存在许多弊端，深度图像是在特定视角采集的二维平面上对应每个位置深度信息，而三维物体在不同视角看总是会有部分区域会被遮挡住的，因此简单地从二维图像信息构建得到三维图像会造成三维图像不准确，无法提高计算机视觉识别的精度。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种基于神经网络的三维图像处理方法、装置、电子设备及存储介质，能够提高构建三维图像的精确度，从而提高计算机视觉识别的精度。

第一方面，本发明实施例提供了一种基于神经网络的三维图像处理方法，包括：

获取目标的第一深度信息，所述第一深度信息用于表征所述目标的深度图像；

将所述第一深度信息输入至深度神经网络模型的输入层中，其中，所述深度神经网络模型根据三维样本的样本三维图像信息和第二深度信息训练得到，所述第二深度信息用于表征所述三维样本的深度图像；

将所述第一深度信息输入至所述深度神经网络模型的卷积层中进行卷积得到第一特征值；

将所述第一特征值输入至所述深度神经网络模型的改变特征维度层中进行特征转换得到第一三维特征体；

将所述第一三维特征体输入至所述深度神经网络模型的三维反卷积层中进行反卷积得到所述目标的目标三维图像信息；

输出所述目标三维图像信息。

在一些实施例中，所述获取目标的第一深度信息，包括：

获取所述目标的二维图像信息和与所述二维图像信息相对应的深度图像信息；

对所述二维图像信息进行目标检测以从所述二维图像信息中识别得到用于表征所述目标的目标图像信息，根据所述目标图像信息从所述深度图像信息中得到对应的所述第一深度信息。

在一些实施例中，所述深度神经网络模型根据以下步骤训练得到：

获取所述三维样本的所述样本三维图像信息；

根据所述样本三维图像信息得到所述三维样本的第二深度信息；

将所述第二深度信息输入至所述输入层中；

将所述第二深度信息输入至所述卷积层中进行卷积得到第二特征值；

将所述第二特征值输入至所述改变特征维度层中进行特征转换得到第二三维特征体；

将所述第二三维特征体输入至所述三维反卷积层中进行反卷积得到所述三维样本的训练三维图像信息；

将所述训练三维图像信息和所述样本三维图像信息输入至损失函数中计算得到损失值；

根据所述损失值得到目标权重参数并根据所述目标权重参数调整所述深度神经网络模型。

在一些实施例中，所述将所述第二深度信息输入至所述输入层中，包括：

对所述第二深度信息进行随机的第一增广变换得到第三深度信息，所述第一增广变换包括随机高斯噪声值、随机缩放、随机角度旋转、随机平移和随机选取深度图像的部分区域中的一种；

将所述第三深度信息输入至所述输入层中。

在一些实施例中，所述将所述训练三维图像信息和所述样本三维图像信息输入至损失函数中计算得到损失值，包括：

将所述样本三维图像信息转换为第一网格信息；

对所述第一网格信息进行与所述第一增广变换相对应的第二增广变换得到与所述第三深度信息视角相对应的第二网格信息，所述第二增广变换包括执行与所述第二深度信息相应地的缩放、角度旋转和平移中的一种；

将所述第二网格信息离散化为样本三维体素信息；

将所述训练三维图像信息和所述样本三维体素信息输入至所述损失函数中计算得到所述损失值。

在一些实施例中，所述根据所述损失值得到目标权重参数并根据所述目标权重参数调整所述深度神经网络模型，包括：

对所述损失值进行优化处理并对优化处理后的所述损失值进行反向传播链式求导得到权重参数梯度；

根据所述权重参数梯度执行梯度下降处理得到所述目标权重参数。

在一些实施例中，所述根据所述权重参数梯度执行梯度下降处理得到所述目标权重参数，包括：

根据最后一次训练得到的所述权重参数梯度执行梯度下降处理得到所述目标权重参数。

第二方面，本发明实施例还提供了一种基于神经网络的三维图像处理装置，包括：

图像获取模块，所述图像获取模块用于获取目标的第一深度信息；

处理模块，所述处理模块与所述图像获取模块连接，所述处理模块用于将所述第一深度信息输入至深度神经网络模型的输入层中，其中，所述深度神经网络模型根据三维样本的样本三维图像信息和第二深度信息训练得到；

所述处理模块，还用于将所述第一深度信息输入至所述深度神经网络模型的卷积层中进行卷积得到第一特征值、将所述第一特征值输入至所述深度神经网络模型的改变特征维度层中进行特征转换得到第一三维特征体、以及将所述第一三维特征体输入至所述深度神经网络模型的三维反卷积层中进行反卷积得到所述目标的目标三维图像信息；

所述处理模块，还用于输出所述目标三维图像信息。

第三方面，本发明实施例还提供了一种电子设备，其特征在于，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面所述的基于神经网络的三维图像处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如第一方面所述的基于神经网络的三维图像处理方法。

本发明实施例至少包括以下有益效果：

本发明公开实施例提出的一种基于神经网络的三维图像处理方法、装置、电子设备及存储介质，通过获取目标的第一深度信息，第一深度信息用于表征目标的深度图像，并将第一深度信息输入至深度神经网络模型中进行转换得到目标的目标三维图像信息，其中，先将第二深度信息输入至深度神经网络模型中的输入层中，输入层将第二深度信息传输到卷积层中进行卷积得到第一特征值，随后第一特征值输入至改变特征维度层进行特征转换得到第一三维特征体，随后三维反卷积层对第一三维特征体进行反卷积得到目标三维图像信息，最终输出经过深度神经网络模型得到的目标三维图像信息，其中，深度神经网络模型是根据三维样本的样本三维图像信息和三维样本的第二深度信息经过训练后得到的，深度神经网络模型经过训练后可以准确地将二维的深度图像转换为与原三维的物体相对应的三维图像，因此将第一深度信息输入至训练好的深度神经网络模型中能够输出准确度高的目标三维图像信息，能够提高构建三维图像的精确度，从而提高计算机视觉识别的精度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一实施例提供的基于神经网络的三维图像处理方法流程示意图；

图2是本发明另一实施例提供的基于神经网络的三维图像处理方法流程示意图；

图3是本发明另一实施例提供的基于神经网络的三维图像处理方法流程示意图；

图4是本发明另一实施例提供的基于神经网络的三维图像处理方法流程示意图；

图5是本发明另一实施例提供的基于神经网络的三维图像处理方法流程示意图；

图6是本发明另一实施例提供的基于神经网络的三维图像处理方法流程示意图；

图7是本发明一实施例提供的基于神经网络的三维图像处理装置示意图；

图8是本发明一实施例提供的电子设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不同于限定本发明。

应了解，在本发明实施例的描述中，若干个的含义是一个以上，多个(或多项)的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

首先，对本申请中涉及的若干名词进行解析：

人工智能(artificial intelligence，AI)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

梯度下降算法作为机器学习中较常使用的优化算法，在其求解过程中，只需要求解损失函数的一阶导数，计算的代价比较小，基本思想为先找梯度方向，找到一个点之后，再找最陡的梯度，直到最低点，即为最小花费函数收敛点，梯度下降法有三种不同的形式：批量梯度下降(Batch Gradient Descent)、随机梯度下降(Stochastic GradientDescent)以及小批量梯度下降(Mini-Batch Gradient Descent)，其中小批量梯度下降法也常用在深度学习中进行模型的训练。

relu激活函数，激活函数是用来加入非线性因素的，假设如果没有激活函数，神经网络模型中每一层节点的输入都是上层输出的线性函数，因此无论神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，引入非线性函数作relu激活函数为激活函数，可以提高神经网络的表达能力，使其不再是输入的线性组合，而relu激活函数没有饱和区，不存在梯度消失问题，且没有复杂的指数运算，计算简单、效率提高，实际收敛速度较快，更符合生物学神经激活机制，当神经网络模型采用relu激活函数时，每个样本都可以有自己的权重系数，即独特的非线性变换。

医疗云(Medical cloud)，是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。

基于此，本发明实施例提供一种基于神经网络的三维图像处理方法、装置、电子设备及存储介质，能够提高构建三维图像的精确度，从而提高计算机视觉识别的精度。

本发明实施例提供基于神经网络的三维图像处理方法、装置、电子设备及存储介质，具体通过如下实施例进行说明，首先描述本公开实施例中的基于神经网络的三维图像处理方法。

本发明实施例提供的基于神经网络的三维图像处理方法，涉及人工智能及数字医疗领域技术领域，可以属于人工智能技术领域中的一个分支领域。本发明实施例提供的基于神经网络的三维图像处理方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机或者智能手表等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现基于神经网络的三维图像处理方法的应用等，但并不局限于以上形式。

图1是本公开实施例提供的基于神经网络的三维图像处理方法的一个可选的流程图，图1中的方法可以包括但不限于包括步骤S110至步骤S160。

步骤S110，获取目标的第一深度信息，第一深度信息用于表征目标的深度图像。

在本发明的一些实施例中，基于神经网络的三维图像处理方法首先获取目标的第一深度信息，目标为本发明实施例所要对其进行三维图像构建的目标对象，在一实施例中，目标可以为人脸，在满足本发明实施例要求的前提下，目标可以为其它物体，需要说明的是，在一实施例中，基于神经网络的三维图像处理方法还可以应用在数字医疗或医疗云中，通过识别目标的第一深度信息实现医疗三维图像的构建，本发明实施例中以人脸作为目标为例子，但并不表示为对本发明的限制，第一深度信息用于表征目标的深度图像，其可以由深度图像摄像头进行获取，通过获取目标的第一深度信息，以便通过对目标的深度图像进行处理。

步骤S120，将第一深度信息输入至深度神经网络模型的输入层中，其中，深度神经网络模型根据三维样本的样本三维图像信息和第二深度信息训练得到，第二深度信息用于表征三维样本的深度图像。

在本发明的一些实施例中，在获取得到第一深度信息后，将第一深度信息输入至训练好的深度神经网络模型中，包括先输入至深度神经网络模型的输入层中，本发明实施例中的深度神经网络模型是事先根据三维样本的样本三维图像信息和三维样本的第二深度信息训练得到的，三维样本是与目标相对应的三维物体，目标为人脸时，三维样本为预先准备的一批用于进行神经网络模型训练的人脸三维样本，在一实施例中，深度神经网络模型是根据输入第二深度信息后输出一个样本的三维模型，并与样本三维图像信息进行计算后优化得到，第二深度信息用于表征三维样本的深度图像。由于事先通过三维样本的三维图像信息和第二深度信息进行训练，可以使得本发明实施例中的深度神经网络模型准确度更高，在面对不同的深度信息时都能较好地通过深度神经网络模型的处理输出一个准确的三维模型，因此将第一深度信息输入至深度神经网络模型后，就能达到输出一个准确的三维模型的目的，在本发明实施例中，深度神经网络模型设有输入层、卷积层、改变特征维度层和三维反卷积层，将第一深度信息输入至深度神经网络模型的输入层后可以包括以下步骤S130、步骤S140、步骤S150等，以便深度神经网络模型对第一深度信息进行处理。

步骤S130，将第一深度信息输入至深度神经网络模型的卷积层中进行卷积得到第一特征值。

在本发明的一些实施例中，卷积层对来自输入层的第一深度信息进行二维卷积，经过卷积后可得到目标的第一特征值，深度神经网络模型可以设置若干个卷积层来对第一深度信息进行卷积，以达到卷积效果，在一实施例中，第一特征值为特征图，输入至深度神经网络模型的第一深度信息的图像宽高为320x320，深度神经网络模型设置了7层卷积层，包括第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层、第六卷积层和第七卷积层，每层卷积层均执行二维卷积(conv2d)，卷积核大小均为3x3。第一卷积层步长2x2，并输出宽高160x160特征图，输出通道数C＝16，然后对输出特征图执行relu激活函数；第二卷积层步长2x2，并输出宽高80x80特征图，输出通道数C＝32，然后对输出特征图执行relu激活函数；第三卷积层步长2x2，并输出宽高40x40特征图，输出通道数C＝64，然后对输出特征图执行relu激活函数；第四卷积层步长2x2，并输出宽高20x20特征图，输出通道数C＝128，然后对输出特征图执行relu激活函数；第五卷积层步长2x2，并输出宽高10x10特征图，输出通道数C＝256，然后对输出特征图执行relu激活函数；第六卷积层步长2x2，并输出宽高5x5特征图，输出通道数C＝512，然后对输出特征图执行relu激活函数；第七卷积层步长1x1，并输出宽高5x5特征图，输出通道数C＝1280，然后对输出特征图执行relu激活函数，第七卷积层输出的特征图为第一特征值。

需要说明的是，通道数中1表示只有一个特征图，数值的多少表示为具有多少个特征图。

步骤S140，将第一特征值输入至深度神经网络模型的改变特征维度层中进行特征转换得到第一三维特征体。

在本发明的一些实施例中，改变特征维度层对来自卷积层的第一特征值进行维度的特征转换，改变特征维度层可对应与深度神经网络模型中的reshape层，经过特征转换后可得到目标的第一三维特征体，深度神经网络模型可以设置若干个改变特征维度层来对第一特征值进行特征转换，以达到转换效果，在一实施例中，深度神经网络模型设置了1层改变特征维度层，在改变特征维度层中，输入特征图宽高5x5保持不变，将输入通道数C＝1280拆分成两个维度——通道和深度，分别为通道C＝256和深度D＝5，由此将二维输入特征图转换为输出三维特征体，其中，输出宽高5x5、深度D＝5、输出通道数C＝256的第一三维特征体。

步骤S150，将第一三维特征体输入至深度神经网络模型的三维反卷积层中进行反卷积得到目标的目标三维图像信息。

在本发明的一些实施例中，三维反卷积层对来自改变特征维度层的第一三维特征体进行三维反卷积，经过三维反卷积后可得到目标的目标三维图像信息，深度神经网络模型可以设置若干个三维反卷积层来对第一三维特征体进行反卷积，以达到三维反卷积效果，在一实施例中，深度神经网络模型设置了6层三维卷积层，包括第一三维反卷积层、第一三维反卷积层、第一三维反卷积层、第一三维反卷积层、第一三维反卷积层和第六三维反卷积层，每层三维反卷积层均执行三维反卷积(deconv3d)，卷积核大小均为3x3x3，步长均为2x2x2。第一三维反卷积层输出宽高10x10、深度D＝10、输出通道数C＝256的三维特征体，然后再对输出的三维特征体执行relu激活函数；第二三维反卷积层输出宽高20x20、深度D＝20、输出通道数C＝128的三维特征体，然后再对输出的三维特征体执行relu激活函数；第三三维反卷积层输出宽高40x40、深度D＝40、输出通道数C＝64的三维特征体，然后再对输出的三维特征体执行relu激活函数；第四三维反卷积层输出宽高80x80、深度D＝80、输出通道数C＝32的三维特征体，然后再对输出的三维特征体执行relu激活函数；第五三维反卷积层输出宽高160x160、深度D＝160、输出通道数C＝16的三维特征体，然后再对输出的三维特征体执行relu激活函数；第六三维反卷积层输出宽高320x320、深度D＝320、输出通道数C＝1的三维特征体，然后再对输出的三维特征体执行relu激活函数，最终第六三维反卷积层输出的三维特征体为目标的目标三维图像信息，即为深度神经网络模型的最终模型输出，最终得到宽高320x320、深度D＝320、输出通道数C＝1的目标三维图像信息。

需要说明的是，通道数中1表示只有一个三维特征体，数值的多少表示为具有多少个三维特特征体。

步骤S160，输出目标三维图像信息。

在本发明的一些实施例中，第一深度信息经过深度神经网络的处理后，得到一个目标的三维图像信息，并输出处理得到的目标三维图像信息，即为经过深度神经网络的处理后将二维的第一深度信息转换得到的三维模型，在一实施例中，输入人脸的深度信息到深度神经网络模型后，输出得到人脸的三维模型，本发明实施例提高构建三维图像的精确度，从而提高计算机视觉识别的精度。

参照图2所示，本发明实施例中的步骤S110，还可以包括但不限于以下步骤S210和步骤S220。

步骤S210，获取目标的二维图像信息和与二维图像信息相对应的深度图像信息。

步骤S210，对二维图像信息进行目标检测以从二维图像信息中识别得到用于表征目标的目标图像信息，根据目标图像信息从深度图像信息中得到对应的第一深度信息。

在本发明的一些实施例中，通过获取目标的二维图像信息和与二维图像信息相对应的深度图像信息后，需要进行目标检测以得到更加准确的第一深度信息，在一实施例中，在终端设备部署的RGB-D(其中D即为深度信息)摄像机，采集得到的RGB-D的图像数据包括二维图像信息和深度图像信息，提取深度通道D得到深度图像信息，提取RGB通道得到彩色RGB图像即为目标对象的二维图像信息，随后进行目标检测以从二维图像信息中识别得到用于表征目标的目标图像信息，当目标对象为人脸，使用通用的人脸检测器在RGB图像上做人脸检测，得到人脸检测框，即可以得到目标图像信息，并截取该区域的深度图像得到第一深度信息。

需要说明的是，在一实施例中，目标检测还可以包括：需要将人脸检测框往上下左右外扩对应边长的20％距离，得到扩大后的人脸框。这是由于人脸检测框是有误差的，按照实践经验取值20％作为扩框范围，确保能完全框住人脸区域，在满足本发明实施例要求的前提下，还可以外扩其他大小的距离，本发明不对其作具体限制，使用扩大后的人脸框坐标在深度图像上对应坐标位置的矩形框区域截取出部分的深度图像，得到的结果即为人脸区域的深度图像，并将人脸区域的深度图像执行数据归一化操作，得到与深度神经网络模型输入一致的320x320大小的深度图像，即第一深度图像，将320x320大小的深度图像作为输入数据，送入深度神经网络模型中执行运算，得到输出结果宽高320x320、深度D＝320的目标三维图像信息，即为深度学习模型推理出的三维人脸(体素)模型。

参照图3所示，本发明实施例中的深度神经网络模型经过以下步骤S310、步骤S320、步骤S330、步骤S340、步骤S350、步骤S360、步骤S370和步骤S380训练得到。

步骤S310，获取三维样本的样本三维图像信息；

步骤S320，根据样本三维图像信息得到三维样本的第二深度信息。

步骤S330，将第二深度信息输入至所述输入层中。

步骤S340，将第二深度信息输入至卷积层中进行卷积得到第二特征值。

步骤S350，将第二特征值输入至改变特征维度层中进行特征转换得到第二三维特征体。

步骤S360，将第二三维特征体输入至三维反卷积层中进行反卷积得到三维样本的训练三维图像信息。

步骤S370，将训练三维图像信息和样本三维图像信息输入至损失函数中计算得到损失值。

步骤S380，根据损失值得到目标权重参数并根据目标权重参数调整深度神经网络模型。

在本发明的一些实施例中，将三维样本的信息输入至深度神经网络模型中进行训练，首先获取三维样本的样本三维图像信息，样本三维图像信息表征样本的三维模型数据，并根据算法和软件将样本三维图像信息转换为深度图像得到三维样本的第二深度信息，说明第二深度信息是直接由样本的三维模型数据直接转换得到的，随后将第二深度信息输入至深度神经网络模型中进行处理，包括先输入至深度神经网络模型的输入层中，在本发明实施例中，深度神经网络模型设有输入层、卷积层、改变特征维度层和三维反卷积层，其结构在上述实施例中已经描述，在此不再赘述。

具体的，第二深度信息输入至卷积层中进行卷积得到第二特征值，第二特征值输入至改变特征维度层中进行特征转换得到第二三维特征体，第二三维特征体输入至三维反卷积层中进行反卷积得到三维样本的训练三维图像信息，训练三维图像信息是第二深度信息输入至深度神经网络模型后得到的三维图像，随后将训练三维图像信息和样本三维图像信息输入至损失函数中计算得到损失值，并通过优化损失值可以得到样本三维图像信息在深度神经网络模型中的所有权重信息，即为目标权重参数，根据优化得到的目标权重参数调整深度神经网络模型中的各项权重，实现了对深度神经网络模型的训练。

需要说明的是，损失函数计算得到损失值是用来更新权重的，通过反向链式传播计算深度神经网络模型每一层张量和每一权重的导数值，用导数值乘以学习率得到目标权重参数的更新量，本发明实施例提出了一种平方训练损失函数，损失函数如下所示：

公式(1)中，其中，θ为样本三维图像信息的所有权重参数，μ为深度神经网络模型的输出值即训练三维图像信息，y为样本三维图像信息。该损失函数的计算结果l(θ)即为损失值，因此根据计算得到的损失值进行优化后可以得到目标权重参数，并调整深度神经网络模型完成训练。

参照图4所示，本发明实施例中的步骤S330，还可以包括但不限于以下步骤S410和步骤S420。

步骤S410，对第二深度信息进行随机的第一增广变换得到第三深度信息，第一增广变换包括随机高斯噪声值、随机缩放、随机角度旋转、随机平移和随机选取深度图像的部分区域中的一种。

步骤S420，将第三深度信息输入至输入层中。

在本发明的一些实施例中，在将第二深度信息输入至深度神经网络模型进行处理前，还需要对其进行数据增广处理，即进行第一增广变换得到第三深度信息，随后才将增广变换后的第三深度信息输入至深度神经网络模型的输入层中，数据增广的目的就是增加数据的多样性和差异性，每个操作步骤都会使用随机数、或者是否执行该步骤有随机性，因此本发明通过对第二深度信息进行随机的数据增广处理是一种增加随机性的方案，包括从以下列出的每一单个的增广变换算法中选取其中一个或多个并随机排序后顺序组合执行，得到最终增广后第三深度信息：在第二深度信息上增加随机高斯噪声值、执行随机缩放、执行随机角度旋转、执行随机平移和随机选取深度图像的部分区域，其中随机选取深度图像的部分区域是随机选取深度图像的部分区域，将其值设为零或最大值，以此模拟“深度摄像机采集深度图像数据存在区域缺失(镂空)”的情况。

需要说明的是，在一实施例中，第二深度信息进行随机的第一增广变换得到第三深度信息后，还需要进行训练数据归一化处理，使得经过训练数据归一化处理后输出的图像满足深度神经网络模型的输入要求，输出的深度图像执行以下两种的其中一种来得到大小一致的归一化图像，包括如果输入第三深度信息的图像宽高大于或等于320x320，则将图像居中裁剪出320x320大小的图像，以及否则将图像居中，将图像的上下左右往外扩，填零值，补齐到宽高为320x320大小的图像，完成训练数据归一化处理后再将处理后的第三深度信息输入至深度神经网络模型的输入层中。

参照图5所示，本发明实施例中的步骤S370，还可以包括但不限于以下步骤S510、步骤S520、步骤S530和步骤S540。

步骤S510，将样本三维图像信息转换为第一网格信息。

步骤S520，对第一网格信息进行与第一增广变换相对应的第二增广变换得到与第三深度信息视角相对应的第二网格信息，第二增广变换包括执行与第二深度信息相应地的缩放、角度旋转和平移中的一种。

步骤S530，将第二网格信息离散化为样本三维体素信息。

步骤S540，将训练三维图像信息和样本三维体素信息输入至损失函数中计算得到损失值。

在本发明的一些实施例中，样本三维图像信息需要进行与第二深度信息相似的数据增广处理，其中，需要先将获取得到的样本三维图像信息转换为第一网格信息，第一网格信息为三维样本的三角面网格模型，即为三维模型表示格式，需要说明的是，第二深度信息也由第一网格信息转换得到。在得到第一网格信息后，对第一网格信息进行与第一增广变换相对应的第二增广变换得到与第三深度信息视角相对应的第二网格信息，例如，如果第二深度信息执行了随机缩放，则第一网格信息执行相同比例缩放；或者，如果第二深度信息执行了随机角度旋转，则第一网格信息执行相同角度的旋转；又或者，如果第二深度信息执行了随机平移，则第一网格信息执行相同距离和方向的平移，其目的是为了取得与第二深度信息视角相同的网格模型，第一网格信息经过第二增广变换后得到第二网格信息，随机对第二网格信息进行离散化处理得到样本三维体素信息，将得到的样本三维体素信息作为与训练三维图像信息相比较的信息，因此将训练三维图像信息和样本三维体素信息输入至损失函数中计算得到损失值。

需要说明的是，在一实施例中，样本三维图像信息进行第二增广变换等处理得到第二网格信息后，还需要进行监督信号数据归一化，将输出的样本三维体素信息执行以下两种的其中一种来得到与第三深度信息体积大小一致的归一化体素模型数据，包括如果输入样本三维体素信息的三个维度长宽高大于或等于320x320x320，则将样本三维体素信息居中裁剪成320x320x320大小的模型，以及否则将样本三维体素信息居中，将其上下左右前后往外扩，填零值，补齐到宽高为320x320x320大小的模型，完成监督信号数据归一化处理后再将处理后的样本三维体素信息输入至损失函数中。

参照图6所示，本发明实施例中的步骤S380，还可以包括但不限于以下步骤S610和步骤S620。

步骤S610，对损失值进行优化处理并对优化处理后的损失值进行反向传播链式求导得到权重参数梯度。

步骤S620，根据权重参数梯度执行梯度下降处理得到目标权重参数。

在本发明的一些实施例中，需要对优化得到后的损失值进行梯度计算，网络训练的优化目标是使损失值l(θ)降低为趋于0的小数值，使用反向传播链式求导方法计算网络中所有的权重参数的梯度dθ，随后权重参数更新，进行梯度下降处理得到目标权重参，在一实施例中，使用梯度dθ和小批量(mini batch)随机梯度下降算法更新权重参数θ，得到目标权重参数，最后根据得到的目标权重参数去优化深度神经网络模型，在满足本发明实施例要求的前提下，还可以进行其它类似的梯度下降算法的处理，本发明不对其做具体限制。

在本发明的一些实施例中，上述步骤S620还可以包括：根据最后一次训练得到的权重参数梯度执行梯度下降处理得到目标权重参数。需要说明的是，本发明实施例中将采集到的所有三维样本的样本三维图像信息均训练一遍，提高了深度神经网络的准确性，在一实施例中，完成一次训练后得到新的权重参数梯度便更新目标权重参数，完成这样一遍训练过程称为训练一个epoch，重复训练200个epoch，取最后一个epoch训练完成后的权重参数θ为最终所需的深度神经网络模型的权重参数，作为最终的目标权重参数，以此优化深度神经网络模型，也实现了从多个不同的视角进行训练，提高了深度神经网络模型的准确度，在满足本发明实施例要求的前提下，还可以进行其他次数的训练，本发明不对其做具体限制。

参照图7所示，本发明实施例还提供一种基于神经网络的三维图像处理装置100，可以实现上述基于神经网络的三维图像处理方法，该装置包括：

图像获取模块101，图像获取模块101用于获取目标的第一深度信息，第一深度信息用于表征目标的深度图像。

处理模块102，处理模块102与图像获取模块101连接，处理模块102用于将第一深度信息输入至深度神经网络模型的输入层中，其中，深度神经网络模型根据三维样本的样本三维图像信息和第二深度信息训练得到，第二深度信息用于表征三维样本的深度图像。

处理模块102，还用于将第一深度信息输入至深度神经网络模型的卷积层中进行卷积得到第一特征值、将第一特征值输入至深度神经网络模型的改变特征维度层中进行特征转换得到第一三维特征体、以及将第一三维特征体输入至深度神经网络模型的三维反卷积层中进行反卷积得到目标的目标三维图像信息。

处理模块102，还用于输出目标三维图像信息。

需要说明的是，本发明实施例中的深度神经网络模型处理的过程均可以在处理模块102中进行，而图像获取模块101还可以用于获取三维样本的图像信息，在一实施例中，图像获取模块101对三维样本可以进行三维扫描，得到样本三维图像信息，以便于进行深度神经网络模型的训练，图像获取模块101可以为终端设备中的摄像头等，处理模块102可以为处理器。

图8示出了本发明实施例提供的电子设备200。电子设备200包括：存储器201、处理器202及存储在存储器201上并可在处理器202上运行的计算机程序，计算机程序运行时用于执行上述的基于神经网络的三维图像处理方法。

处理器202和存储器201可以通过总线或者其他方式连接。

存储器201作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本发明实施例描述的基于神经网络的三维图像处理方法。处理器202通过运行存储在存储器201中的非暂态软件程序以及指令，从而实现上述的基于神经网络的三维图像处理方法。

存储器201可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述的基于神经网络的三维图像处理方法。此外，存储器201可以包括高速随机存取存储器201，还可以包括非暂态存储器201，例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器201可选包括相对于处理器202远程设置的存储器201，这些远程存储器201可以通过网络连接至该电子设备200。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述的基于神经网络的三维图像处理方法所需的非暂态软件程序以及指令存储在存储器201中，当被一个或者多个处理器202执行时，执行上述的基于神经网络的三维图像处理方法，例如，执行图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S220、图3中的方法步骤S310至步骤S380、图4中的方法步骤S410至步骤S420、图5中的方法步骤S510至步骤S540、图6中的方法步骤S610至步骤S620。

本发明实施例还提供了计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述的基于神经网络的三维图像处理方法。

在一实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，执行图1中的方法步骤S110至步骤S160、图2中的方法步骤S210至步骤S220、图3中的方法步骤S310至步骤S380、图4中的方法步骤S410至步骤S420、图5中的方法步骤S510至步骤S540、图6中的方法步骤S610至步骤S620。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

还应了解，本发明实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种基于神经网络的三维图像处理方法，其特征在于，包括：

输出所述目标三维图像信息。

2.根据权利要求1所述的基于神经网络的三维图像处理方法，其特征在于，所述获取目标的第一深度信息，包括：

3.根据权利要求1所述的基于神经网络的三维图像处理方法，其特征在于，所述深度神经网络模型根据以下步骤训练得到：

获取所述三维样本的所述样本三维图像信息；

将所述第二深度信息输入至所述输入层中；

4.根据权利要求3所述的基于神经网络的三维图像处理方法，其特征在于，所述将所述第二深度信息输入至所述输入层中，包括：

将所述第三深度信息输入至所述输入层中。

5.根据权利要求4所述的基于神经网络的三维图像处理方法，其特征在于，所述将所述训练三维图像信息和所述样本三维图像信息输入至损失函数中计算得到损失值，包括：

将所述样本三维图像信息转换为第一网格信息；

将所述第二网格信息离散化为样本三维体素信息；

6.根据权利要求3所述的基于神经网络的三维图像处理方法，其特征在于，所述根据所述损失值得到目标权重参数并根据所述目标权重参数调整所述深度神经网络模型，包括：

7.根据权利要求6所述的基于神经网络的三维图像处理方法，其特征在于，所述根据所述权重参数梯度执行梯度下降处理得到所述目标权重参数，包括：

8.一种基于神经网络的三维图像处理装置，其特征在于，包括：

图像获取模块，所述图像获取模块用于获取目标的第一深度信息，所述第一深度信息用于表征所述目标的深度图像；

处理模块，所述处理模块与所述图像获取模块连接，所述处理模块用于将所述第一深度信息输入至深度神经网络模型的输入层中，其中，所述深度神经网络模型根据三维样本的样本三维图像信息和第二深度信息训练得到，所述第二深度信息用于表征所述三维样本的深度图像；

所述处理模块，还用于输出所述目标三维图像信息。

9.一种电子设备，其特征在于，包括存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的基于神经网络的三维图像处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现权利要求1至7中任意一项所述的基于神经网络的三维图像处理方法。