CN112348187A

CN112348187A - 神经网络模型的训练方法、装置以及电子设备

Info

Publication number: CN112348187A
Application number: CN202011257810.7A
Authority: CN
Inventors: 苏英菲
Original assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Current assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-09

Abstract

本申请提供了一种神经网络模型的训练方法、装置以及电子设备，涉及神经网络技术领域，缓解了生成图像中边缘模糊的技术问题。该方法包括：获取待训练的初始神经网络模型；利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度；所述目标视差为图像中目标像素的视觉误差；所述目标深度为所述目标像素与校正后双目相机基线之间的垂直距离；基于所述目标深度对所述初始神经网络模型进行训练，得到训练后的神经网络模型。

Description

神经网络模型的训练方法、装置以及电子设备

技术领域

本申请涉及神经网络技术领域，尤其是涉及一种神经网络模型的训练方法、装置以及电子设备。

背景技术

目前，在相机采集的图像的生成过程中，经常使用到神经网络模型，使用的这种神经网络模型一般是经过训练后的模型。现有的神经网络模型训练过程主要是不断的对图像中像素的视觉误差进行优化的过程。

但是，使用目前这种训练方法得到的视差图的准确性较低，导致图像视差估计中产生边缘模糊的问题。

发明内容

本发明的目的在于提供一种神经网络模型的训练方法、装置以及电子设备，以缓解生成图像中边缘模糊的技术问题。

第一方面，本申请实施例提供了一种神经网络模型的训练方法，所述方法包括：

获取待训练的初始神经网络模型；

利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度；所述目标视差为图像中目标像素的视觉误差；所述目标深度为所述目标像素与校正后双目相机基线之间的垂直距离；

基于所述目标深度对所述初始神经网络模型进行训练，得到训练后的神经网络模型。

在一个可能的实现中，所述转换关系通过下述公式表示：

视差＝Fu×D/深度；

其中，D表示双目相机中两个相机之间的物理距离，Fu表示校正后双目相机的横向焦距。

在一个可能的实现中，所述利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度的步骤，包括：

利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的标签以及损失函数中的目标视差均转换为目标深度。

在一个可能的实现中，所述初始神经网络模型中的卷积核为可变形卷积核，以使所述图像中物体对象的边缘处的卷积核统一位于同一物体对象的区域。

在一个可能的实现中，所述方法还包括：

对所述图像中目标物体对象边缘处的神经网络模型目标卷积核进行偏移，以使所述目标卷积核全部位于所述目标物体对象上，或全部位于所述目标物体对象对应的背景处；

基于偏移后的目标卷积核提取图像特征，并基于提取的所述图像特征建立目标图像。

在一个可能的实现中，所述对所述图像中目标物体对象边缘处的神经网络模型目标卷积核进行偏移的步骤，包括：

针对所述图像中目标物体对象的边缘和所述目标物体对象对应背景之间的目标位置，对所述初始神经网络模型中所述目标位置对应的目标卷积核进行偏移。

在一个可能的实现中，所述图像中物体对象包括下述任意一项或多项：

物品对象、人物对象、动物对象。

第二方面，提供了一种神经网络模型的训练装置，包括：

获取模块，用于获取待训练的初始神经网络模型；

转换模块，用于利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度；所述目标视差为图像中目标像素的视觉误差；所述目标深度为所述目标像素与校正后双目相机基线之间的垂直距离；

训练模块，用于基于所述目标深度对所述初始神经网络模型进行训练，得到训练后的神经网络模型。

第三方面，本申请实施例又提供了一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的第一方面所述方法。

第四方面，本申请实施例又提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述的第一方面所述方法。

本申请实施例带来了以下有益效果：

本申请实施例提供的一种神经网络模型的训练方法、装置以及电子设备，能够获取待训练的初始神经网络模型，利用预先确定的视差和深度之间的转换关系将神经网络模型训练过程中的目标视差转换为目标深度，其中的目标视差为图像中目标像素的视觉误差，目标深度为目标像素与校正后双目相机基线之间的垂直距离，然后，基于目标深度对初始神经网络模型进行训练从而得到训练后的神经网络模型，本方案中，通过预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度，实现了利用深度来替换视差，使得在神经网络训练过程中能够直接对深度进行优化而不是对视差进行优化，从而使得到的视差图准确性更高，能够减轻图像视差估计中的边缘模糊问题。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的神经网络模型的训练方法的流程示意图；

图2为本申请实施例提供的神经网络模型的训练方法的另一流程示意图；

图3为本申请实施例提供的一种神经网络模型的训练装置的结构示意图；

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前，在相机采集的图像的生成过程中会使用到神经网络模型，这种神经网络模型一般是经过训练后的神经网络模型。现有的神经网络模型训练过程包括不断的对图像中像素的视觉误差进行优化的过程。但是，使用现有的神经网络模型训练方法得到的视差图的准确性较低，导致图像视差估计中产生边缘模糊的问题。这种边缘模糊指的是在相机采集到的图像中，物体边缘和其背景之间的像素经常出现的边缘模糊情况。

基于此，本申请实施例提供了一种神经网络模型的训练方法、装置以及电子设备，通过该方法可以缓解生成图像中边缘模糊的技术问题。

下面结合附图对本发明实施例进行进一步地介绍。

图1为本申请实施例提供的一种神经网络模型的训练方法的流程示意图。如图1所示，该方法包括：

步骤S110，获取待训练的初始神经网络模型。

本申请实施例中的神经网络模型用于生成双目相机采集到的图像。

步骤S120，利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度。

其中，目标视差为图像中目标像素的视觉误差；目标深度为目标像素与校正后双目相机基线之间的垂直距离。

需要说明的是，本步骤中的转换关系可以通过下述公式表示：

视差＝Fu×D/深度；其中，D表示双目相机中两个相机之间的物理距离，Fu表示校正后双目相机的横向焦距。

步骤S130，基于目标深度对初始神经网络模型进行训练，得到训练后的神经网络模型。

通过将神经网络模型训练过程中的目标视差转换为目标深度，利用深度替换了视差，使得在神经网络训练过程中能够直接对深度进行优化而不是对视差进行优化，从而使得到的视差图准确性更高，能够减轻图像视差估计中的边缘模糊问题。

下面对上述步骤进行详细介绍。

在一些实施例中，上述步骤S120可以包括如下步骤：

步骤a)，利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的标签以及损失函数中的目标视差均转换为目标深度。

在神经网络模型的训练过程中，通过将训练过程所使用的标签中的目标视差，以及训练过程中损失函数(loss)中的目标视差，均转换为目标深度，能够在神经网络模型训练过程中对深度进行更加有效的优化，更有效的缓解图像的边缘模糊问题。

在一些实施例中，初始神经网络模型中的卷积核为可变形卷积核，以使图像中物体对象的边缘处的卷积核统一位于同一物体对象的区域。

其中，图像中物体对象可以包括下述任意一项或多项：物品对象、人物对象、动物对象。

通过神经网络模型中的可变形卷积核，能够使图像中物体对象的边缘处的卷积核统一落在同一物体对象的区域，避免同一卷积核同时落在物体和背景的不同区域上。

在一些实施例中，如图2所示，该方法还可以包括以下步骤：

步骤b)，对图像中目标物体对象边缘处的神经网络模型目标卷积核进行偏移，以使目标卷积核全部位于目标物体对象上，或全部位于目标物体对象对应的背景处；

步骤c)，基于偏移后的目标卷积核提取图像特征，并基于提取的图像特征建立目标图像。

在实际应用中，图像中的物体对象可以包括物品对象、人物对象、动物对象等等任意一项或多项。

需要说明的是，神经网络训练中的可变形的卷积核不同于现有的方方正正的卷积核，例如，3*3方方正正的小方框卷积核。本申请实施例中，对9(3*3)个数中的每个数都进行偏移后，使得模型训练后学习到的偏移后的这9个数的视差值都统一落在视差相似的地方，如均落在物体之内的边界处，或均落在物体之外的背景处，使得相同卷积核的视差值都是相似的，避免卷积核的这9个数同时混淆物体视差和背景视差的情况，不再对掺进不同区域视差的卷积核提取特征后进行加权平均计算，进而不会再导致边缘和背景之间的深度值区分不明显的情况。通过偏移后的卷积核来建立图像，更加减轻了图像中边缘模糊的问题。

在一些实施例中，上述步骤b)可以包括如下步骤：

步骤d)，针对图像中目标物体对象的边缘和目标物体对象对应背景之间的目标位置，对初始神经网络模型中目标位置对应的目标卷积核进行偏移。

本申请实施例中，针对物体边界边缘处和背景之间的地方，对此处的目标卷积核进行偏移后，使得模型训练后学习到的偏移后的视差值都统一落在视差相似的地方，如均落在物体之内的边界处，或均落在物体之外的背景处，使得相同卷积核的视差值都是相似的，从而避免卷积核中的不同数中混淆不同物体区域的视差值，不会发生物体视差掺进背景视差等情况，进而使视差图更加准确明确，进一步缓解了边缘模糊的问题。

图3提供了一种神经网络模型的训练装置的结构示意图。如图3所示，神经网络模型的训练装置300包括：

获取模块301，用于获取待训练的初始神经网络模型；

转换模块302，用于利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度；所述目标视差为图像中目标像素的视觉误差；所述目标深度为所述目标像素与校正后双目相机基线之间的垂直距离；

训练模块303，用于基于所述目标深度对所述初始神经网络模型进行训练，得到训练后的神经网络模型。

在一些实施例中，所述转换关系通过下述公式表示：

视差＝Fu×D/深度；

在一些实施例中，转换模块302具体用于：

在一些实施例中，所述初始神经网络模型中的卷积核为可变形卷积核，以使所述图像中物体对象的边缘处的卷积核统一位于同一物体对象的区域。

在一些实施例中，该装置还包括：

偏移模块，用于对所述图像中目标物体对象边缘处的神经网络模型目标卷积核进行偏移，以使所述目标卷积核全部位于所述目标物体对象上，或全部位于所述目标物体对象对应的背景处；

建立模块，用于基于偏移后的目标卷积核提取图像特征，并基于提取的所述图像特征建立目标图像。

在一些实施例中，偏移模块具体用于：

在一些实施例中，所述图像中物体对象包括下述任意一项或多项：

物品对象、人物对象、动物对象。

本申请实施例提供的神经网络模型的训练装置，与上述实施例提供的神经网络模型的训练方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

本申请实施例提供的一种电子设备，如图4所示，电子设备400包括处理器402、存储器401，所述存储器中存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例提供的方法的步骤。

参见图4，电子设备还包括：总线403和通信接口404，处理器402、通信接口404和存储器401通过总线403连接；处理器402用于执行存储器401中存储的可执行模块，例如计算机程序。

其中，存储器401可能包含高速随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口404(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线403可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器401用于存储程序，所述处理器402在接收到执行指令后，执行所述程序，前述本申请任一实施例揭示的过程定义的装置所执行的方法可以应用于处理器402中，或者由处理器402实现。

处理器402可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器402中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器402可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401，处理器402读取存储器401中的信息，结合其硬件完成上述方法的步骤。

对应于上述神经网络模型的训练方法，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行上述神经网络模型的训练方法的步骤。

本申请实施例所提供的神经网络模型的训练装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

再例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述神经网络模型的训练方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种神经网络模型的训练方法，其特征在于，所述方法包括：

获取待训练的初始神经网络模型；

2.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述转换关系通过下述公式表示：

视差＝Fu×D/深度；

3.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述利用预先确定的视差和深度之间的转换关系，将神经网络模型训练过程中的目标视差转换为目标深度的步骤，包括：

4.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述初始神经网络模型中的卷积核为可变形卷积核，以使所述图像中物体对象的边缘处的卷积核统一位于同一物体对象的区域。

5.根据权利要求1所述的神经网络模型的训练方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的神经网络模型的训练方法，其特征在于，所述对所述图像中目标物体对象边缘处的神经网络模型目标卷积核进行偏移的步骤，包括：

7.根据权利要求4至6任一项所述的神经网络模型的训练方法，其特征在于，所述图像中物体对象包括下述任意一项或多项：

物品对象、人物对象、动物对象。

8.一种神经网络模型的训练装置，其特征在于，包括：

获取模块，用于获取待训练的初始神经网络模型；

9.一种电子设备，包括存储器、处理器，所述存储器中存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行所述权利要求1至7任一项所述的方法。