发明内容
有鉴于此,本发明实施例提供一种物品检测模型的训练方法和装置,能够大大节省物品检测模型训练所耗的时间和人力成本,训练后的物品检测模型能够具有较高的物品检测准确度,达到很好的检测效果,物品检测模型的泛化能力较强。
为实现上述目的,根据本发明实施例的一个方面,提供了一种物品检测模型的训练方法。
一种物品检测模型的训练方法,包括:通过建模生成物品的虚拟图像数据;利用所述虚拟图像数据对物品检测模型进行第一训练,以确定所述物品检测模型的参数;基于所述物品检测模型的参数,利用所述物品的真实图像数据,对所述物品检测模型进行第二训练,所述第二训练包括利用所述真实图像数据训练生成所述物品检测模型中卷积层的每一卷积核的权重值,从而得到训练后的最终物品检测模型。
可选地,所述卷积层中包括预设数量的第一卷积层,利用所述虚拟图像数据对物品检测模型进行第一训练的步骤之前,包括:构建所述物品检测模型,其中包括:将所述预设数量的第一卷积层与目标检测网络连接,所述第一卷积层用于对输入的所述物品的虚拟图像数据进行卷积处理,以生成与所述目标检测网络的输入通道数量匹配的特征图。
可选地,所述目标检测网络为三通道输入的、用于检测所述物品的类别和位置的深度学习网络。
可选地,所述虚拟图像数据和所述真实图像数据包括2D(二维)图像和3D(三维)深度图像,通过建模生成物品的虚拟图像数据的步骤,包括:通过3D建模的方式生成所述物品的虚拟图像数据。
根据本发明实施例的另一方面,提供了一种物品检测模型的训练装置。
一种物品检测模型的训练装置,包括:虚拟图像数据生成模块,用于通过建模生成物品的虚拟图像数据;第一训练模块,用于利用所述虚拟图像数据对物品检测模型进行第一训练,以确定所述物品检测模型的参数;第二训练模块,用于基于所述物品检测模型的参数,利用所述物品的真实图像数据,对所述物品检测模型进行第二训练,所述第二训练包括利用所述真实图像数据训练生成所述物品检测模型中卷积层的每一卷积核的权重值,从而得到训练后的最终物品检测模型。
可选地,所述卷积层中包括预设数量的第一卷积层,所述装置还包括模型构建模块,用于:构建所述物品检测模型,其中包括:将所述预设数量的第一卷积层与目标检测网络连接,所述第一卷积层用于对输入的所述物品的虚拟图像数据进行卷积处理,以生成与所述目标检测网络的输入通道数量匹配的特征图。
可选地,所述目标检测网络为三通道输入的、用于检测所述物品的类别和位置的深度学习网络。
可选地,所述虚拟图像数据和所述真实图像数据包括2D图像和3D深度图像,所述虚拟图像数据生成模块还用于:通过3D建模的方式生成所述物品的虚拟图像数据。
根据本发明实施例的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明提供的物品检测模型的训练方法。
根据本发明实施例的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明提供的物品检测模型的训练方法。
上述发明中的一个实施例具有如下优点或有益效果:通过建模生成物品的虚拟图像数据;利用虚拟图像数据对物品检测模型进行第一训练,以确定物品检测模型的参数;基于物品检测模型的参数,利用物品的真实图像数据,对物品检测模型进行第二训练,第二训练包括利用真实图像数据训练生成物品检测模型中卷积层的每一卷积核的权重值,从而得到训练后的最终物品检测模型。能够大大节省物品检测模型训练所耗的时间和人力成本,且利用物品的2D彩色图像和3D深度图像综合起来训练物品检测模型,训练后的物品检测模型具有较高的物品检测准确度,达到很好的检测效果,物品检测模型的泛化能力较强。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
图1是根据本发明第一实施例的物品检测模型的训练方法的主要步骤示意图。
如图1所示,本发明第一实施例的物品检测模型的训练方法主要包括如下的步骤S101至步骤S103。
步骤S101:通过建模生成物品的虚拟图像数据。
其中,通过3D建模的方式生成物品的虚拟图像数据。虚拟图像数据具体包括2D图像和3D深度图像。
具体地,可以使用物理引擎建立虚拟实验场景,进行3D建模,以生成物品的虚拟图像数据。本发明实施例采用bullet(一个开源的物理模拟计算引擎,世界三大物理模拟引擎之一)来搭建虚拟实验场景。为了增加虚拟数据的真实性,还可以给虚拟物品添加纹理图案。
通过建模生成物品的虚拟图像数据,可以无需通过人工标注即可生成训练所需要的标注数据,大大节省模型训练所耗的时间和人力成本。
步骤S102:利用虚拟图像数据对物品检测模型进行第一训练,以确定物品检测模型的参数。
步骤S101或步骤S102之前,本发明实施例的物品检测模型的训练方法还包括构建物品检测模型,其中包括:
将预设数量的第一卷积层与目标检测网络连接,第一卷积层用于对输入的物品的虚拟图像数据进行卷积处理,以生成与目标检测网络的输入通道数量匹配的特征图。
其中,预设数量可以为一个或多个。
步骤S103:基于物品检测模型的参数,利用物品的真实图像数据,对物品检测模型进行第二训练,第二训练包括利用真实图像数据训练生成物品检测模型中卷积层的每一卷积核的权重值,从而得到训练后的最终物品检测模型。
真实图像数据包括采集的真实物品的2D图像和3D深度图像。并且与生成的虚拟图像数据的数量相比,本发明实施例所需的该真实图像数据的数量是非常少量的,例如,假设虚拟图像数据包括数千至数万张的图片,而相应地,真实图像数据仅需十几张至上百张图片即可,对人力和时间消耗极小。
其中,卷积层包括上述预设数量的第一卷积层,以及目标检测网络中的各卷积层。
目标检测网络可以为三通道输入的、用于检测物品的类别和位置的深度学习网络,例如SSD(单发多盒探测器)网络等。
图2是根据本发明第二实施例的物品检测模型的结构示意图。图2所示的物品检测模型中,一个卷积层(Conv0)与SSD网络连接,SSD网络是一种速度比较快的检测网络结构,包括卷积层(Conv4_3、Conv6、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2)、检测层、非极大值抑制层。
将四通道图像(其中包括三通道的RGB图像和一通道的深度图像)输入该物品检测模型,通过卷积层Conv0(相当于上述的第一卷积层)将输入的四通道图像卷积成三通道特征图,然后将该三通道特征图输入SSD网络进行检测,得到物品的类别和位置信息。
由于检测网络的敏感性,在模型训练的虚拟样本巨大而真实样本不足的时候,模型很容易过拟合到虚拟样本上,一些分布的细微区别会破坏掉检测网络对特征的提取,但这可能只是少数卷积核造成的影响,因为生成的虚拟图片和真实图片的大部分线条纹理结构特征都是相同的。基于上述原因,本发明实施例在卷积层上做出改进,在每个卷积核上增加一个权重w_conv,每个卷积核和输入相乘之前先乘对应的权重w_conv。通过这些w_conv的值,即可决定对卷积核的选择,例如某个卷积核的权重值非常小,接近于零,那么相当于不选择该卷积核。
本发明实施例将对物品检测模型的训练分为两个部分,其中第一部分利用物品的大量虚拟图像数据训练时,锁定上述各w_conv为1,主要为了训练物品检测模型的特征提取能力,得到物品检测模型的参数;第二部分在第一部分训练结果的基础上,利用物品的少量真实图像数据进行训练,锁定卷积核的值,而只训练上述各w_conv的值,使得通过真实图像数据来选择一些合适的卷积核来进行特征提取,以进行物品检测和识别。通过上述训练过程,可以极大地提高物品检测模型的泛化能力,并且,消除过拟合的影响,提高物品检测模型的性能,提高物品检测的准确度。
综上,使用本发明实施例的物品检测模型的训练方法,通过3D建模的方式生成物品的虚拟图像数据,可以省去人工标注所消耗的时间和人力成本,而且,由于利用物品的少量真实图像数据对物品检测模型进行第二训练,使得可以选择合适的卷积核进行特征提取,极大地提高物品检测模型的泛化能力,并消除了过拟合的影响,提高物品检测模型的性能,提高物品检测的准确度,此外,综合利用物品的2D彩色图像和3D深度图像训练物品检测模型,进一步提高了物品检测的准确度。
下面以仓库商品拣选场景为例,结合上述各实施例的物品检测模型,介绍本发明第三实施例的商品检测流程示意图。
如图3所示,本发明第三实施例的商品检测流程包括如下的步骤S301至步骤S305。
步骤S301:进行3D建模,以生成商品的大量虚拟图像数据。
步骤S302:对基于2D图像的深度学习检测网络进行修改,得到商品检测模型。
具体修改包括将预设数量的卷积层与基于2D图像的深度学习检测网络连接。
步骤S303:用步骤S301生成的商品的虚拟图像数据训练商品检测模型,以确定商品检测模型的参数。
步骤S304:利用商品的少量真实图像数据在步骤S303训练好的商品检测模型的基础上,训练该商品检测模型的各卷积层的卷积核权重,得到训练后的最终的商品检测模型。
步骤S305:接收待检测商品的2D图像和3D深度图像,利用训练后的最终的商品检测模型检测该待检测商品,以得到该待检测商品的类别和位置信息。
本实施例中,利用训练后的最终的商品检测模型确定待检测商品的类别和位置信息,使得机械臂可以准确地定位并抓取商品。
本实施例克服了通过传统训练方式需要采集大量的数据、同时对每一张图片里商品的位置和类别做人工标注,成本非常高和非常耗时的缺陷。通过本实施例的训练方法可以降低成本、节省时间,从而提高研发速度,并加快仓库拣选货物场景下在一个模型里增添新货品的速度。本发明实施例的商品检测流程还可以用于对其他物品的检测。
图4是根据本发明第四实施例的物品检测模型的训练装置的主要模块示意图。
如图4所示,本发明第四实施例的物品检测模型的训练装置400主要包括:虚拟图像数据生成模块401、第一训练模块402、第二训练模块403。
虚拟图像数据生成模块401,用于通过建模生成物品的虚拟图像数据。
其中,虚拟图像数据生成模块401可以通过3D建模的方式生成物品的虚拟图像数据。虚拟图像数据具体包括2D图像和3D深度图像。
物品检测模型的训练装置400还可以包括模型构建模块,用于:
构建物品检测模型,其中包括:将预设数量的第一卷积层与目标检测网络连接,第一卷积层用于对输入的物品的虚拟图像数据进行卷积处理,以生成与目标检测网络的输入通道数量匹配的特征图。
目标检测网络可以为三通道输入的、用于检测物品的类别和位置的深度学习网络,例如SSD网络等。
第一训练模块402,用于利用物品的虚拟图像数据对物品检测模型进行第一训练,以确定物品检测模型的参数。
第二训练模块403,用于基于物品检测模型的参数,利用物品的真实图像数据,对物品检测模型进行第二训练,第二训练包括利用物品的真实图像数据训练生成物品检测模型中卷积层的每一卷积核的权重值,从而得到训练后的最终物品检测模型。
其中,物品的真实图像数据包括2D图像和3D深度图像。卷积层中包括上述预设数量的第一卷积层,还包括目标检测网络中的各卷积层。
在本发明实施例中所述物品检测模型的训练装置的具体实施内容,在上面所述物品检测模型的训练方法中已经详细说明了,故在此重复内容不再说明。
图5示出了可以应用本发明实施例的物品检测模型的训练方法或物品检测模型的训练装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的物品检测模型的训练方法一般由服务器505执行,相应地,物品检测模型的训练装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文参考主要步骤示意图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的主要步骤示意图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,主要步骤示意图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或主要步骤示意图中的每个方框、以及框图或主要步骤示意图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括虚拟图像数据生成模块、第一训练模块、第二训练模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,虚拟图像数据生成模块还可以被描述为“用于通过建模生成物品的虚拟图像数据的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:通过建模生成物品的虚拟图像数据;利用所述虚拟图像数据对物品检测模型进行第一训练,以确定所述物品检测模型的参数;基于所述物品检测模型的参数,利用所述物品的真实图像数据,对所述物品检测模型进行第二训练,所述第二训练包括利用所述真实图像数据训练生成所述物品检测模型中卷积层的每一卷积核的权重值,从而得到训练后的最终物品检测模型。
根据本发明实施例的技术方案,通过建模生成物品的虚拟图像数据;利用虚拟图像数据对物品检测模型进行第一训练,以确定物品检测模型的参数;基于物品检测模型的参数,利用物品的真实图像数据,对物品检测模型进行第二训练,第二训练包括利用真实图像数据训练生成物品检测模型中卷积层的每一卷积核的权重值,从而得到训练后的最终物品检测模型。能够大大节省物品检测模型训练所耗的时间和人力成本,且利用物品的2D彩色图像和3D深度图像综合起来训练物品检测模型,训练后的物品检测模型具有较高的物品检测准确度,达到很好的检测效果,物品检测模型的泛化能力较强。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。