CN109934342A

CN109934342A - 神经网络模型训练方法、深度图像修复方法及系统

Info

Publication number: CN109934342A
Application number: CN201811626030.8A
Authority: CN
Inventors: 谭方
Original assignee: Shenzhen Orbbec Co Ltd
Current assignee: Shenzhen Orbbec Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-06-25
Anticipated expiration: 2038-12-28
Also published as: CN109934342B

Abstract

本发明公开了一种神经网络模型的训练方法，包括以下步骤：a：采集多幅不同场景下的深度图像；b：将单幅深度图像划分为多个第一窗口；c：选取包含所述第一窗口及其邻域范围内的区域作为第二窗口，对所述第二窗口进行下采样得到第三窗口；d：将所述第一窗口内的像素值以及所述第三窗口内的像素值同时输入神经网络模型以得到相应的输出，并将上述输出与人工修复并标注的结果进行比对，并根据比对结果对所述神经网络模型的参数进行调整；e：重复步骤b～d，直至将步骤a中采集的所有所述深度图像都作为训练数据对所述神经网络模型进行了训练并获得训练好的神经网络模型。本发明还公开了一种深度图像修复方法，以及一种系统及非易失性存储介质。

Description

神经网络模型训练方法、深度图像修复方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及一种神经网络模型训练方法、深度图像修复方法、系统及非易失性存储介质。

背景技术

深度图像是包含与视点的场景对象的表面的距离有关的信息的图像，然而由于环境，光照，物体表面材质等因素，深度图像往往会出现大面积的像素值缺失，因此需要对缺失的区域进行填充，从而获得完整的深度图像。

现有的深度图修复系统大都需要借助RGB图或灰度图的引导，但其运算量大，而且要求RGB图与深度图对齐。另外一些基于单深度图的修复系统大都是逐个未知像素进行处理，最后获得修复后的深度图，然而这样的方法有两个问题，一是逐像素处理时往往只能参考周边固定窗口内的像素，从而忽略了该像素的全局信息，第二个问题则是修复时间不可控，因为对于深度图而言，在遇到有镜面反射的物体，吸光物体，距离过远物体时缺失面积非常大，因此逐个像素进行处理时会使得缺失较大的深度图处理时间长，修复时间难以精确控制。

发明内容

为解决上述问题，本发明提供一种神经网络模型训练方法、深度图像修复方法、系统及非易失性存储介质，其修复结果更精确、耗时更短并可以实现实时修复。

本发明提供的神经网络模型训练方法，包括以下步骤：a：采集多幅不同场景下的深度图像；b：将单幅深度图像划分为多个第一窗口；c：选取包含所述第一窗口及其邻域范围内的区域作为第二窗口，对所述第二窗口进行下采样得到第三窗口，其中，所述第二窗口的大小大于所述第一窗口的大小；所述第三窗口的大小等于所述第一窗口的大小；d：将所述第一窗口内的像素值以及所述第三窗口内的像素值同时输入神经网络模型以得到相应的输出，并将上述输出与人工修复并标注的结果进行比对，并根据比对结果对所述神经网络模型的参数进行调整；e：重复步骤b～d，直至将步骤a中采集的所有所述深度图像都作为训练数据对所述神经网络模型进行了训练并获得训练好的神经网络模型。

本发明还提供一种深度图像修复方法，包括以下步骤：采集待修复的深度图像；将所述待修复的深度图像输入到上述所述的训练好的神经网络模型中，以获得修复后的深度图像。

本发明还提供一种系统，包括：采集单元，用于采集深度图像；非易失性存储介质，用于存储至少一个指令；处理器，分别与所述采集单元和所述非易失性存储介质相连，用于接收并处理所述深度图像，并用于执行所述至少一个指令以实现上述神经网络模型的训练方法的步骤和/或上述深度图像修复方法的步骤。

本发明还提供一种非易失性存储介质，所述非易失性存储介质存储有至少一个指令，所述至少一个指令被处理器执行以上所述神经网络模型的训练方法的步骤和/或实现上述深度图像修复方法的步骤。

本发明的有益效果：通过将多幅深度图像以窗口为单位作为训练数据对神经网络模型进行训练，且输入的窗口是同时兼顾图像的局部信息和全局信息的两维数据，使得训练得到的神经网络模型修复效果更加精确，且耗时更短。基于该神经网络模型，将待修复的深度图像以窗口为单位作为输入进行修复，然后在将经修复后的窗口拼凑起来，即可得到完整的经修复的深度图像，即利用单深度图像即可实现深度图像的修复，无需借助RGB图像或灰度图像；同时其修复结果更精确、耗时更短并可以实现实时修复。

附图说明

图1为本发明实施例中神经网络模型训练方法的流程示意图。

图2为本发明实施例中将深度图像进行窗口划分并提取的示意图。

图3为本发明实施例中深度图像修复方法的流程示意图。

图4为本发明实施例中深度图像修复的结构示意图。

图5为本发明实施例中系统的示意图。

具体实施方式

下面结合具体实施方式并对照附图对本发明作进一步详细说明，应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

请参照图1，图1为本发明实施例中神经网络模型训练方法的流程示意图，如图1所示，该方法包括以下步骤。

a：采集多幅不同场景下的深度图像。

在一个实施例中，采集100幅不同目标场景下的深度图像。例如，可以使用结构光深度相机、TOF深度相机、双目深度相机等采集不同目标场景下的深度图像。

b：将单幅深度图像划分为多个第一窗口。

在一个实施例中，在将单幅深度图像划分为多个第一窗口之前，还可以通过最近邻插值法将步骤a中采集的所有所述深度图像的分辨率大小进行归一化，比如调整为640*480，以便于神经网络的训练。

c：选取包含所述第一窗口及其邻域范围内的区域作为第二窗口，对所述第二窗口进行下采样得到第三窗口，其中，所述第二窗口的大小大于所述第一窗口的大小；所述第三窗口的大小等于所述第一窗口的大小。

请参照图2,图2为本发明实施例中将深度图像进行窗口划分并提取的示意图。由此可知，本实施例中并不是以逐个像素为单位而是以窗口为单位来处理各深度图像。在一个实施例中，处理器将采集到的100幅深度图像中的单幅深度图像都划分为300个大小为32*32的第一窗口201，并选取包含所述第一窗口及其邻域范围内的区域作为第二窗口202，第二窗口的大小为288*288，并对第二窗口202进行下采样得到与第一窗口201大小一致的第三窗口203。在一个实施例中，第一窗口的大小也可以设置为16*16或64*64，可以根据具体的需求来选择。

d：将所述第一窗口内的像素值以及所述第三窗口内的像素值同时输入神经网络模型以得到相应的输出，并将上述输出与人工修复并标注的结果进行比对，并根据比对结果对所述神经网络模型的参数进行调整。

第一窗口201可以反映深度图像中缺失部分的局部信息，第三窗口203可以反映深度图像中缺失部分的全局信息。可以理解的是，将第一窗口201和第三窗口作为输入而不是直接将第一窗口201和第二窗口202作为输入对神经网络进行训练，是因为将前者作为输入更便于神经网络的训练。

可以理解的是，人工标注是对整幅深度图像进行标注，但在与神经网络模型的输出进行比较的过程中，则是以单个窗口为单位进行比较的，将人工标注的深度图像划分为单个窗口进行比较可通过程序来实现。

e：重复步骤b～d，直至将步骤a中采集的所有所述深度图像都作为训练数据对所述神经网络模型进行了训练并获得训练好的神经网络模型。

可以理解的是，将采集的100幅深度图像中的单幅深度图像都划分为300个n*n(n＞1)的第一窗口，每一次的输入都是一组训练数据，则此时神经网络的训练数据扩展为30000组。将这30000组训练数据都输入神经网络进行训练，即可获得训练好的神经网络模型。

请参照图3，图3为本发明实施例中深度图像修复方法的流程示意图，包括如下步骤。

301，采集待修复的深度图像。

302，将所述待修复的深度图像输入到上述的训练好的神经网络模型中，以获得修复后的深度图像。

可以理解的是，基于上述训练好的神经网络模型，将待修复的深度图像以窗口为单位作为输入进行修复，然后再将经修复后的窗口拼凑起来，即可得到完整的经修复的深度图像，即利用单深度图像即可实现深度图像的修复，无需借助RGB图像或灰度图像。

无论是对于缺失小的深度图像还是对于缺失大的深度图像，其修复时间短，而且时间大致相同。举例说明，在软件平台为win10，硬件CPU为Intel Core i5-7200 2.5GHz上运行时，修复时间达到30帧每秒的速率。通过此训练好的深度图像修复模型，可以实现深度图像的实时修复，且修复结果更精确、耗时更短。

请参照图4，图4为本发明实施例中深度图像修复的结构示意图。如图所示，本实施例中的神经网络模型采用端到端的结构，且所述神经网络模型包括卷积层、池化层、卷积层、卷积层和反卷积层5层网络架构。该神经网络模型可应用于上述神经网络模型训练方法和深度图像修复方法中。

将第一窗口201和第三窗口203输入到神经网络模型中，第一层卷积层学习图像的细节特征，如边缘或者平滑区域；第二层池化层将图像进行缩小以供第三层使用；第三层卷积层学习图像的宏观特征，获得更宏观的信息；第四层卷积层根据第一层和第三层学到的信息对图像滤波和恢复；第五层反卷积层将图像放大到原尺寸。

可以理解的是，采用端到端的结构，是为了保证了输出的窗口的大小和输入的窗口大小一致。相较于全卷积(FCN)网络架构、生成式对抗网络(GAN)架构和超分辨率重建网络(SRCNN)架构，本实施例中采用的如上5层网络架构，其网络架构简单、内存消耗低、运行效率高，而且能够训练得到更准确的深度图像修复模型。在一个实施例中，如上的卷积层都采用3*3大小的卷积核，卷积步长为1，从而使得训练效果更好。

图5是根据本发明实施例中系统的示意图。如图5所示的系统10，包括采集单元100、非易失性存储介质200以及处理器300，其中所述处理器300分别与所述采集单元100和所述非易失性存储介质200相连。

采集单元100用于采集多幅不同场景下的深度图像和/或待修复的深度图像。采集单元100一般为深度相机，例如可以是结构光深度相机、TOF深度相机、双目深度相机等。非易失性存储介质200存储有至少一个指令，所述至少一个指令包括所述系统10中各个程序段的程序代码。所述至少一个指令被处理器300执行以实现上述所述神经网络模型的训练方法的步骤和/或实现深度图像修复方法的步骤。其中，所述非易失性存储介质200可以为智能媒体卡(smart media card)、安全数字卡(secure digital card)、快闪存储器卡(flash card)等储存设备。

处理器300用于接收并处理采集单元100采集的深度图像，且用于执行存储在非易失性存储介质200中的至少一个指令以实现上述所述神经网络模型的训练方法的步骤和/或实现深度图像修复方法的步骤。其中，处理器300可以是单个的处理器也可以包含多个处理器单元，包括但不限于中央处理器(CPU)、图形处理器(GPU)、数字信号处理器(DSP)、神经网络处理器(NPU)、图像信号处理器(ISP)等。可以理解的是：深度图像采集单元100和处理器200这二者可以为各自独立的器件也可以集成在装置100的单个设备中。

综上所述，通过将多幅深度图像以窗口为单位作为训练数据对神经网络模型进行训练，且输入的窗口是同时兼顾图像的局部信息和全局信息的两维数据，使得训练得到的神经网络模型修复效果更加精确，且耗时更短。基于该神经网络模型，将待修复的深度图像以窗口为单位作为输入进行修复，然后在将经修复后的窗口拼凑起来，即可得到完整的经修复的深度图像，即利用单深度图像即可实现深度图像的修复，无需借助RGB图像或灰度图像；同时其修复结果更精确、耗时更短并可以实现实时修复。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。

Claims

1.一种神经网络模型训练方法，其特征在于，包括以下步骤：

a：采集多幅不同场景下的深度图像；

b：将单幅深度图像划分为多个第一窗口；

c：选取包含所述第一窗口及其邻域范围内的区域作为第二窗口，对所述第二窗口进行下采样得到第三窗口，其中，所述第二窗口的大小大于所述第一窗口的大小；所述第三窗口的大小等于所述第一窗口的大小；

d：将所述第一窗口内的像素值以及所述第三窗口内的像素值同时输入神经网络模型以得到相应的输出，并将上述输出与人工修复并标注的结果进行比对，并根据比对结果对所述神经网络模型的参数进行调整；

2.如权利要求1所述的训练方法，其特征在于，在步骤b之前，还包括以下步骤：通过最近邻插值法将步骤a中采集的所有所述深度图像的分辨率进行归一化。

3.如权利要求1所述的训练方法，其特征在于，所述神经网络模型采用端到端的结构，且所述神经网络模型包括卷积层、池化层、卷积层、卷积层和反卷积层。

4.如权利要求3所述的训练方法，其特征在于，所述卷积层的卷积核大小为3×3，卷积步长为1。

5.如权利要求1所述的训练方法，其特征在于，所述第一窗口的大小为32*32。

6.如权利要求1所述的训练方法，其特征在于，所述第一窗口的大小：所述第二窗口的大小为1:9。

7.一种深度图像修复方法，其特征在于，包括以下步骤：

采集待修复的深度图像；

将所述待修复的深度图像输入到权利要求1-6任一项所述的训练好的神经网络模型中，以获得修复后的深度图像。

8.一种系统，其特征在于，包括：

采集单元，用于采集深度图像；

非易失性存储介质，用于存储至少一个指令；

处理器，分别与所述采集单元和所述非易失性存储介质相连，用于接收并处理所述深度图像，并用于执行所述至少一个指令以实现权利要求1至6任意一项所述神经网络模型的训练方法的步骤和/或实现如权利要求7所述的深度图像修复方法的步骤。

9.如权利要求8所述的系统，其特征在于，所述采集的深度图像包括多幅不同场景下的深度图像和/或待修复的深度图像。

10.一种非易失性存储介质，其特征在于，所述非易失性存储介质存储有至少一个指令，所述至少一个指令被处理器执行以实现权利要求1至6任意一项所述神经网络模型的训练方法的步骤和/或实现如权利要求7所述的深度图像修复方法的步骤。