CN114648720A

CN114648720A - 神经网络训练方法、图像检测方法、装置、设备及介质

Info

Publication number: CN114648720A
Application number: CN202210333586.8A
Authority: CN
Inventors: 孙蕴哲; 罗棕太
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-06-21

Abstract

本公开提供了一种神经网络训练方法、图像检测方法、装置、设备及存储介质，通过对样本图像进行数据量增强处理，使样本图像中的物品数量增加，可以增加样本图像的丰富性，提升训练数据包含的图像特征数量，提高神经网络的学习效果，从而使用处理后的样本图像对神经网络进行训练，得到训练好的物品检测模型，大大增强训练得到的物品检测模型的鲁棒性，有效提高物品检测模型的图像检测精度，进而可以使用训练得到的物品检测模型对待检测图像进行检测，检测准确度高。

Description

神经网络训练方法、图像检测方法、装置、设备及介质

技术领域

本公开涉及计算机视觉领域，具体而言，涉及一种神经网络训练方法、图像检测方法、装置、设备及存储介质。

背景技术

细粒度物品分类、检索是图像检测、图像识别中的重要研究课题，而这个课题的基础则是大量的物品数据。为了实现精准和快捷的物品检测，大多可以通过训练神经网络的方式，以得到可以对物品进行检测和识别的模型，而训练样本的数据质量很大程度上影响着模型的训练效果。为了获取训练样本，需要对真实业务场景下的物品进行拍照取样，以及在业务运营过程中自动采集样本数据，同时还可以将实际采集的数据集跟现有的细粒度图像分类的大规模开源数据集进行合并，以得到训练样本。

然而，这样构建出来的数据集作为训练样本使用存在着很多问题，采集到的样本数据可能存在图像数量少、图像中包括的物品数量少等情况，在这种情况下对神经网络进行训练，使得神经网络的训练效果不佳，导致训练出的模型检测精度低，模型检测结果的准确度低。

发明内容

本公开实施例至少提供一种神经网络训练方法、图像检测方法、装置、设备及存储介质。

本公开实施例提供了一种神经网络训练方法，所述方法包括：

获取样本图像以及所述样本图像的至少一个标注检测框信息，所述标注检测框信息包括检测框位置；

基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，所述处理后的样本图像包括相同图像内容的至少两个目标样本物品；

使用处理后的样本图像进行神经网络训练，得到用于物品检测的物品检测模型。

这样，通过对样本图像进行数据量增强处理，使样本图像中的物品数量增加，可以增加样本图像的丰富性，提升训练数据包含的图像特征数量，提高神经网络针对不同图像特征的学习效果，从而使用处理后的样本图像对神经网络进行训练，得到训练好的物品检测模型，大大增强通过训练得到的物品检测模型的鲁棒性，有效提高物品检测模型的图像检测精度。

一种可选的实施方式中，所述获取样本图像以及所述样本图像的至少一个标注检测框信息，包括：

获取记录有至少一个样本物品被拿取过程的采集视频；

从所述采集视频中提取出视频帧，所述视频帧中包括至少一个样本物品；

对所述视频帧中的各个样本物品进行物品标注，得到对应的样本图像和所述样本图像中各样本物品对应的标注检测框信息。

一种可选的实施方式中，所述基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，包括：

针对每个样本物品，从所述样本图像中提取所述样本物品的物品图像内容；

基于所述至少一个标注检测框信息指示的各个检测框位置，在所述样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，得到处理后的样本图像。

这样，通过从样本图像中提取出的样本物品的物品图像内容，在样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，以对样本图像进行数据量增强处理，得到处理后的样本图像，有效增加神经网络在学习样本物品的特征的过程中的特征数量，提高学习效果。

一种可选的实施方式中，所述基于所述至少一个标注检测框信息指示的各个检测框，在所述样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，得到处理后的样本图像，包括：

基于所述至少一个标注检测框信息指示的各个检测框位置，确定所述样本图像中的检测框密度；

基于所述检测框密度，确定在所述样本图像中除各个检测框之外的空白图像区域中添加所述物品图像内容的添加数量；

按照所述添加数量，在所述样本图像中除各个检测框之外的空白图像区域中添加所述添加数量的所述物品图像内容，得到处理后的样本图像。

这样，根据至少一个标注检测框信息指示的各个检测框位置，可以确定样本图像中的检测框密度，进而确定在样本图像中除各个检测框之外的空白图像区域中添加物品图像内容的添加数量，以对样本图像进行数据量增强处理，有效增加神经网络在学习样本物品的特征的过程中的特征数量。

一种可选的实施方式中，所述在所述样本图像中除各个检测框之外的空白图像区域中添加所述添加数量的所述物品图像内容，得到处理后的样本图像，包括：

基于所述至少一个标注检测框信息指示的各个检测框位置，确定在所述样本图像中除各个检测框之外的空白图像区域的空白图像区域分布；

基于所述空白图像区域分布，确定所述空白图像区域中与所述添加数量对应的至少一个添加位置；

在每个添加位置处添加所述物品图像内容，得到处理后的样本图像。

这样，在确定添加位置后，可以根据至少一个标注检测框信息指示的各个检测框位置，确定在样本图像中除各个检测框之外的空白图像区域的空白图像区域分布，进而确定与添加数量对应的添加位置，以便在添加位置处添加物品图像内容，以对样本图像进行数据量增强处理，增加样本图像的丰富性，提升训练数据包含的图像特征数量。

一种可选的实施方式中，在获取样本图像以及所述样本图像的至少一个标注检测框信息之后，所述方法还包括：

基于所述至少一个标注检测框信息，对所述样本图像进行干扰剔除处理，得到处理后的样本图像，处理后的样本图像中除样本物品之外的图像内容一致。

这样，通过对样本图像进行干扰剔除处理，使得样本图像中除样本物品之外的图像内容一致，从而使用处理后的样本图像对神经网络进行训练，得到训练好的物品检测模型，可以有效降低样本图像中嘈杂背景对于神经网络训练的影响，加快神经网络的训练速度，大大增强通过训练得到的物品检测模型的鲁棒性，有效提高物品检测模型的图像检测精度。

一种可选的实施方式中，所述基于所述至少一个标注检测框信息，对所述样本图像进行干扰剔除处理，得到处理后的样本图像，包括：

基于每个标注检测框信息指示的检测框位置，确定对应的每个样本物品在所述样本图像中的物品图像内容；

将所述样本图像中除各个样本物品对应的物品图像内容之外的其他图像内容设置为单一图像内容，得到处理后的样本图像。

这样，通过将样本图像中除物品图像内容之外的其他图像内容设置为单一图像内容，以对样本图像进行干扰剔除处理，可以有效减少神经网络在学习样本物品的特征的过程中其他图像内容的干扰，有利于加快学习速度，提高学习效果。

本公开实施例提供了一种图像检测方法，所述方法包括：

获取待检测图像和根据上述的神经网络训练方法训练得到的物品检测模型；

使用所述物品检测模型对所述待检测图像进行识别，得到所述待检测图像的图像检测结果。

这样，可以使用训练得到的物品检测模型对待检测图像进行检测，从而得到针对待检测图像的图像检测结果，有助于检测出物品信息，检测准确度高。

本公开实施例还提供一种神经网络训练装置，所述装置包括：

样本获取模块，用于获取样本图像以及所述样本图像的至少一个标注检测框信息，所述标注检测框信息包括检测框位置；

增强处理模块，用于基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，所述处理后的样本图像包括相同图像内容的至少两个目标样本物品；

模型训练模块，用于使用处理后的样本图像进行神经网络训练，得到用于物品检测的物品检测模型。

一种可选的实施方式中，所述样本获取模块具体用于：

获取记录有至少一个样本物品被拿取过程的采集视频；

一种可选的实施方式中，所述增强处理模块具体用于：

一种可选的实施方式中，所述增强处理模块在用于基于所述至少一个标注检测框信息指示的各个检测框位置，在所述样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，得到处理后的样本图像时，具体用于：

一种可选的实施方式中，所述增强处理模块在用于在所述样本图像中除各个检测框之外的空白图像区域中添加所述添加数量的所述物品图像内容，得到处理后的样本图像时，具体用于：

一种可选的实施方式中，所述神经网络训练装置还包括剔除处理模块，所述剔除处理模块用于：

一种可选的实施方式中，所述剔除处理模块在用于基于所述至少一个标注检测框信息，对所述样本图像进行干扰剔除处理，得到处理后的样本图像时，具体用于：

本公开实施例还提供一种图像检测装置，所述装置包括：

图像获取模块，用于获取待检测图像和根据上述的神经网络训练装置训练得到的物品检测模型；

图像检测模块，用于使用所述物品检测模型对所述待检测图像进行识别，得到所述待检测图像的图像检测结果。

本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述神经网络训练方法或者图像检测方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述神经网络训练方法或者图像检测方法的步骤。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开的技术方案。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种神经网络训练方法的流程图；

图2示出了本公开实施例中一种获取样本图像的示意图；

图3示出了本公开实施例中一种样本图像的示意图；

图4示出了本公开实施例中对样本图像进行数据量增强处理的示意图；

图5示出了本公开实施例所提供的另一种神经网络训练方法的流程图；

图6示出了本公开实施例中对样本图像进行干扰剔除处理的示意图；

图7示出了本公开实施例所提供的一种图像检测方法的流程图；

图8示出了本公开实施例所提供的一种神经网络训练装置的示意图之一；

图9示出了本公开实施例所提供的一种神经网络训练装置的示意图之二；

图10示出了本公开实施例所提供的一种图像检测装置的示意图；

图11示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

针对图像检测、图像识别而言，大多可以通过训练样本对神经网络进行训练，以得到用于物品检测的模型，因此用于训练神经网络的训练样本是实现高质量训练效果的关键，若样本数据存在图像数量少、图像中包括的物品数量少等情况，在这种情况下对神经网络进行训练，使得神经网络的训练效果不佳，影响训练出的模型的精度和准确度，导致训练出的模型存在检测不准确、检测精度低等问题，使得训练出的模型无法有效和准确地检测到图像中的物品，难以得到高质量的检测模型，模型检测结果的准确度低，导致后续需要花费大量时间和精力来调整和改进模型。

基于上述研究，本公开提供了一种神经网络训练方法和图像检测方法，通过对样本图像进行数据量增强处理，使样本图像中的物品数量增加，可以增加样本图像的丰富性，提升训练数据包含的图像特征数量，提高神经网络针对不同图像特征的学习效果，从而使用处理后的样本图像对神经网络进行训练，得到训练好的物品检测模型，大大增强通过训练得到的物品检测模型的鲁棒性，有效提高物品检测模型的图像检测精度。

进一步的，可以使用训练得到的物品检测模型对待检测图像进行检测，从而得到针对待检测图像的图像检测结果，有助于检测出物品信息，检测准确度高。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种神经网络训练方法进行详细介绍，本公开实施例所提供的神经网络训练方法的执行主体可以是神经网络训练装置，例如，神经网络训练方法可以由终端设备或服务器或其它处理设备执行。在一些可能的实现方式中，该神经网络训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参阅图1，图1为本公开实施例提供的一种神经网络训练方法的流程图。如图1中所示，本公开实施例提供的神经网络训练方法包括：

S101：获取样本图像以及所述样本图像的至少一个标注检测框信息，所述标注检测框信息包括检测框位置。

在需要进行神经网络训练的时候，首先需要准备好训练用的样本图像，并且需要确定所述样本图像中所包含样本物品的标注检测框信息。

这里，所述标注检测框信息包括针对所述样本图像中样本物品的检测框在所述样本图像中的检测框位置，所述标注检测框信息用于在所述样本图像中对样本物品的检测框在进行指示和标注。所述样本图像中可以包括至少一个所述样本物品，可以理解，在所述样本图像中包括两个或者两个以上的样本物品时，每个样本物品可以有各自的标注检测框信息。

可选地，可以根据训练需求，确定样本图像对应的目标业务场景，通过在目标业务场景下设置摄像头等拍摄设备，按照预设的时间设置周期性地抓拍得到目标业务场景下的样本图像，也可以是通过目标业务场景下设置的拍摄设备，拍摄得到包括业务过程的视频，再从视频中提取出关键帧，作为样本图像，在此并不做任何限定。

示例性的，在训练需求为训练得到用于在用户购物时，识别出用户所购买的物品信息并辅助结算和交易的情况下，目标场景为自助购物，相应地，本示例以目标业务场景为自助购物为例进行说明。请参阅图2，图2为本公开实施例中一种获取样本图像的示意图。如图2中所示，以使用例如冰箱、冰柜、货架、货柜等作为自助货柜实现自助购物为例，可以通过在自助货柜上增加摄像头等拍摄设备，以在有用户选购物品时，拍摄选购过程的视频，通过所拍摄的视频来识别用户所购买的物品，进而可以针对所识别的物品进行收款，从而辅助实现自助购物。这样，无论是针对现有的自助货柜，还是针对需要制作的自助货柜等，仅需安装价格相对低廉的摄像头等拍摄设备即可，大大降低了成本，而且通过视频动态识别用户所需要选购的物品，对于物品的摆放、位置等没有要求，可以大大降低工作人员的工作量，减少人力物力的消耗。

其中，在自助货柜上增加的拍摄设备，可以是一个、两个(如图1中所示)、甚至多个，对此并不做限定，仅需可以完整拍摄出货柜和拿取物品的过程即可。

通过视频动态的识别用户购买的物品，与传统的需要安装辅助作用的射频识别(Radio Frequency Identification，RFID)装置特制的自助售货设备、以及静态识别的方式相比，对于自助货柜内部的容积率和物品的摆放、位置等没有依赖，可以节省大量人工成本，降低运营成本，大大提高无人售货柜、无人售货机等门槛。

相应的，鉴于在实际自助购物中，是通过视频识别用户所购买物品的，为了保证训练的可靠性和多个识别结果之间的关联性，对于训练神经网络使用的样本图像，可以是从同一视频中获取的。

具体的，在一些可能的实施方式中，所述获取样本图像以及所述样本图像的至少一个标注检测框信息，包括：

获取记录有至少一个样本物品被拿取过程的采集视频；

这里，在需要训练神经网络时，可以是先获取采集视频，在所述采集视频中，记录有至少一个样本物品的被拿取过程，以自助购物的场景为例，采集视频中需要包括用户在自助购物过程中拿取物品的完整过程，然后，可以通过FFmpeg技术等方式对所述采集视频进行解码，并进而对所述采集视频进行视频帧抽取处理，从而可以从所述采集视频中抽取出视频帧，接着，可以对每帧视频帧进行标注处理，针对所述视频帧中的至少一个样本物品，可以标注出每个样本物品的标注位置，从而得到样本图像和各样本物品对应的标注检测框信息。

其中，FFmpeg技术为可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序，其采用LGPL或GPL许可证，提供有录制、转换以及流化音视频的完整解决方案，并且包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多code都是可以从头开发的，从而可以提高数据使用的简便性和适配性。

相应的，以自助购物的场景为例，在实际使用中，对于拍摄的用户自助购物的视频，也可以是使用FFmpeg技术进行保存和传输的。其中，由于为了保证所述样本视频的全面性，在拍摄时所拍摄的内容大多会拍摄到自助货柜的至少部分画面，而在训练神经网络和使用神经网络进行识别的过程中，是不需要对这部分内容进行学习和识别的，因此，对于自助货柜和自助货柜中的物品是不需要进行标注的，仅对用户拿取的物品进行标注即可。

示例性的，请参阅图3，图3为本公开实施例中一种样本图像的示意图。如图3中所示，承接上述示例，以自助购物的场景为例进行说明，可以理解，样本图像300为在用户购物的过程中获取到的图像，在对样本图像300进行标注的过程中，对于货柜310和货柜310中的物品320是不需要进行标注的，仅标注用户拿取的物品330即可，也就是说，在神经网络学习的过程中，可以弱化货柜310和物品320的学习，具体的，例如可以将货柜310所在的区域340设置为无需学习的区域，相应的，在进行物品识别过程中，也可以将货柜部分设置为无需识别的区域，从而无需对货柜部分进行识别，仅识别用户拿取的物品即可。

具体的，针对样本物品在所述样本图像中的标注位置，可以是以检测框的形式对所述样本物品进行标注，具体的，可以通过标注框的左上角和右下角的坐标来体现所述样本物品的标注位置，还可以通过标注框的左下角和右上角的坐标来体现所述样本物品的标注位置，也可以通过所述标注框的中心点坐标、长度、宽度来体现所述样本物品的标注位置，还可以通过标注框的四个角的坐标来体现所述样本物品的标注位置，在此并不做任何限定。

S102：基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，所述处理后的样本图像包括相同图像内容的至少两个目标样本物品。

该步骤中，为了提升训练数据的丰富性，增加神经网络可学习的图像特征，可以对所述样本图像进行数据量增强处理，具体的，可以将所述样本图像中的目标样本物品的物品图像内容适应性地添加到所述样本图像中，以得到处理后的样本图像。

这里，在所述样本图像中包括多个样本物品的情况下，可以只对一个样本物品进行数据量增强处理，也可以对两个甚至全部样本物品进行数据量增强处理。

在实际应用中，出于对处理工作量的考虑，无需对所有样本物品进行数据量增强处理，只需根据图像处理需求对部分样本物品进行数据量增强处理，将需要进行数据量增强处理的样本物品作为目标样本物品。可以理解，对目标样本物品进行数据量增强处理后，处理后的样本图像就会包括相同图像内容的至少两个目标样本物品。

具体的，在一些可能的实施方式中，所述基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，包括：

该步骤中，为了丰富用于训练的样本图像的类型和效果，可以将所述样本图像中的所述样本物品的物品图像内容提取出来，以便在后续基于提取出的物品图像内容对所述样本图像进行数据量增强处理。为了保证训练数据的完整性，可以在所述样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，从而得到处理后的样本图像。

其中，在确定所述至少一个标注检测框信息指示的各个检测框位置的情况下，可以确定所述样本图像中除各个检测框之外的空白图像区域，并结合提取出的物品图像内容，确定在空白图像区域中添加的物品图像内容的数量和对应的位置。

相应的，在一些可能的实施方式中，所述基于所述至少一个标注检测框信息指示的各个检测框，在所述样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，得到处理后的样本图像，包括：

该步骤中，在确定所述至少一个标注检测框信息指示的各个检测框位置的情况下，可以确定所述样本图像中样本物品的数量以及每个样本物品的检测框的面积，再结合所述样本图像的面积，可以确定所述样本物品的检测框在所述样本图像中的面积占比，即确定所述样本图像中的检测框密度，基于所述检测框密度，可以确定在所述样本图像中添加所述物品图像内容的添加数量，进而可以在所述样本图像中除各个检测框之外的空白图像区域中的添加位置处，添加所述添加数量的所述物品图像内容，得到处理后的样本图像。

进而，在一些可能的实施方式中，所述在所述样本图像中除各个检测框之外的空白图像区域中添加所述添加数量的所述物品图像内容，得到处理后的样本图像，包括：

该步骤中，在确定所述添加数量后，基于所述至少一个标注检测框信息指示的各个检测框位置，可以确定所述样本图像中除各个检测框之外的空白图像区域的空白图像区域分布，再结合所述添加数量，可以确定所述空白图像区域中与所述添加数量对应的至少一个添加位置，这里，为了防止所述物品图像内容被裁剪，保证所述物品图像内容的完整性，需要保证所述物品图像内容按照对应的添加位置添加至所述样本图像后，所述物品图像内容全部在所述样本图像的范围内，即所述物品图像内容不超出所述样本图像的范围，进而可以按照所述添加位置，在每个添加位置处添加所述物品图像内容，得到处理后的样本图像。

示例性的，请参阅图4，图4为本公开实施例中对样本图像进行数据增强处理的示意图。如图4中所示，承接上述示例，以自助购物的场景为例进行说明，可以理解，样本图像400为在用户购物的过程中获取到的图像，以样本图像包括一个样本物品为例进行说明，对于样本图像400而言，可以将样本图像400中的样本物品410的物品图像内容提取出来，根据样本物品410的检测框位置，确定样本图像400中的检测框密度，从而基于检测框密度，确定在样本图像400中除检测框之外的空白图像区域中添加物品图像内容的添加数量为2，从而可以确定与添加数量对应的2个添加位置420和430，进而在每个添加位置处添加提取的物品图像内容，得到处理后的样本图像。

S103：使用处理后的样本图像进行神经网络训练，得到用于物品检测的物品检测模型。

在该步骤中，在得到处理后的样本图像之后，即认为已经准备好进行神经网络训练的样本，接下来，就可以使用处理后的样本图像以及所述标注检测框信息来训练预先构建好的神经网络，从而得到用于进行物品检测的物品检测模型。

其中，在对所述神经网络进行训练时，可以是将处理后的样本图像作为所述神经网络的输入，将所述标注检测框信息作为所述神经网络的输出，以对所述神经网络进行训练，也可以是将处理后的样本图像作为所述神经网络的输入，通过所述神经网络对处理后的样本图像进行检测，从而得到预测标注检测框信息，通过所述标注检测框信息和所述预测标注检测框信息对所述神经网络进行收敛，从而完成训练。

本公开实施例提供的神经网络训练方法，通过对样本图像进行数据量增强处理，使样本图像中的物品数量增加，可以增加样本图像的丰富性，提升训练数据包含的图像特征数量，提高神经网络针对不同图像特征的学习效果，从而使用处理后的样本图像对神经网络进行训练，得到训练好的物品检测模型，大大增强通过训练得到的物品检测模型的鲁棒性，有效提高物品检测模型的图像检测精度。

请参阅图5，图5为本公开实施例提供的另一种神经网络训练方法的流程图。如图5中所示，本公开实施例提供的神经网络训练方法包括：

S501：获取样本图像以及所述样本图像的至少一个标注检测框信息，所述标注检测框信息包括检测框位置。

S502：基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，所述处理后的样本图像包括相同图像内容的至少两个目标样本物品。

S503：基于所述至少一个标注检测框信息，对所述样本图像进行干扰剔除处理，得到处理后的样本图像，处理后的样本图像中除样本物品之外的图像内容一致。

该步骤中，在获取到样本图像和所述至少一个标注检测框信息之后，对于所述样本图像来讲，可以通过所述样本图像对应的所述标注检测框信息，对所述样本图像进行干扰剔除处理，以着重体现所述样本图像中包括的样本物品，使得处理后的样本图像中除其中的样本物品之外的图像内容一致，以区分出所述样本物品和其他的图像内容，这样可以为神经网络提供更好的特征进行学习。

其中，对于同一个处理后的样本图像来讲，除其中的样本物品之外，其他的图像内容均是一致的，而对于不同的两个处理后的样本图像来讲，两个处理后的样本图像之间，其各自的其他的图像内容可以是一致的，也可以是不一致的，由于对于每个处理后的样本图像而言，神经网络需要学习其中的样本物品的特征，而无需学习其他的图像内容的特征，通过将其他的图像内容设置为一致的内容，达到降低神经网络学习所述样本物品的特征时对神经网络的干扰的目的，而不同处理后的样本图像间基本可以忽略干扰，因此，不同处理后的样本图像中其他的图像内容是否一致，并不做限定。

相应的，在一些可能的实施方式中，所述基于所述至少一个标注检测框信息，对所述样本图像进行干扰剔除处理，得到处理后的样本图像，包括：

该步骤中，针对所述样本图像，在进行干扰剔除处理时，可以先对所述标注检测框信息进行解析，以得到所述样本图像中标注出的每个样本物品的检测框位置，进而可以确定出每个样本物品在所述样本图像中的物品图像内容，示例性的，在以标注框对所述样本物品进行标注的情况下，所示物品图像内容即可以是标注框在所述样本图像中所占的图像内容，进而可以将所述样本图像中除各个样本物品对应的物品图像内容之外的其他图像内容设置为单一图像内容，以得到处理后的样本图像。

这里，所述单一图像内容，可以是单一颜色，也可以是单一背景纹理，还可以是其他预设的单一内容，在此并不做任何限定。

示例性的，在所述单一图像内容为单一颜色的情况下，所设置的单一颜色，可以是预设的颜色，可以是随机设置的颜色。

其中，如上文中所述，不同处理后的样本图像中其他的图像内容可以是一致的，也可以是不一致的，因此在此处，不同的两个处理后的样本图像中其他的图像内容所设置的单一图像内容，可以是相同的单一图像内容，也可以是不同的单一图像内容。

示例性的，请参阅图6，图6为本公开实施例中对样本图像进行干扰剔除处理的示意图。如图6中所示，承接上述示例，以自助购物的场景为例进行说明，可以理解，样本图像600为在用户购物的过程中获取到的图像，以样本图像包括两个样本物品为例进行说明，对于样本图像600而言，可以将样本图像600中除样本物品对应的物品图像内容610和物品图像内容620之外的其他图像内容630设置为纯色图像内容。

具体的，对于将样本图像600中除样本物品对应的物品图像内容610和物品图像内容620之外的其他图像内容630设置为纯色图像内容，可以先获取与样本图像600中除物品图像内容610和物品图像内容620之外的其他图像内容630对应的纯色遮罩，然后将纯色遮罩和样本图像600进行融合，得到包括物品图像内容和纯色图像内容的样本图像。

这里，所述纯色遮罩，可以是针对所述样本图像的实际情况生成的遮罩，所述纯色遮罩可以将遮罩中与所述物品图像内容对应的图像内容镂空，以在融合时不会影响所述物品图像内容。

在其他实施方式中，针对实际训练需求，可以先对所述样本图像进行数据量增强处理，再对进行数据量增强处理后的样本图像进行干扰剔除处理，从而得到处理后的样本图像，也可以是先对所述样本图像进行干扰剔除处理，再对进行干扰剔除处理后的样本图像进行数据量增强处理，从而得到处理后的样本图像，在此并不做任何限定。

S504：使用处理后的样本图像进行神经网络训练，得到用于物品检测的物品检测模型。

其中，步骤S501至步骤S502和步骤S504的描述可以参照步骤S201至步骤S203的描述并且可以达到相同的技术效果和解决相同的技术问题，在此不做赘述。

本公开实施例提供的神经网络训练方法，通过对样本图像进行干扰剔除处理，使得样本图像中除样本物品之外的图像内容一致，对样本图像进行数据量增强处理，增加样本图像的丰富性，提升训练数据包含的图像特征数量，提高神经网络针对不同图像特征的学习效果，从而使用处理后的样本图像对神经网络进行训练，得到训练好的物品检测模型，可以有效降低样本图像中嘈杂背景对于神经网络训练的影响，加快神经网络的训练速度，大大增强通过训练得到的物品检测模型的鲁棒性，有效提高物品检测模型的图像检测精度。

进一步的，在训练得到所述物品检测模型之后，即可使用所述物品检测模型对图像中的物品进行物品检测，因此，本公开实施例还提供一种图像检测方法，请参阅图7，图7为本公开实施例提供的一种图像检测方法的流程图。本公开实施例提供的图像检测方法，可以使用所述物品检测模型对采集的用户自助购物过程的待检测图像进行识别，如图7中所示，本公开实施例提供的图像检测方法包括：

S701：获取待检测图像和根据上述的神经网络训练方法训练得到的物品检测模型。

该步骤中，在需要进行物品检测时，可以获取待检测图像和根据上述的神经网络训练方法训练得到的物品检测模型。

其中，所述待检测图像可以是在真实业务场景下，在业务运营过程中对物品进行采集。

示例性的，以自助购物的场景为例，所述待检测图像可以是基于通过在自助货柜上设置的拍摄设备采集的待检测视频解析得到的，所述待检测视频中包括用户拿取至少一种目标物品的过程。

S702：使用所述物品检测模型对所述待检测图像进行识别，得到所述待检测图像的图像检测结果。

该步骤中，在将待检测图像输入物品检测模型后，可以得到针对待检测图像的图像检测结果。

其中，所述图像检测结果可以包括所述待检测图像中的目标物品在所述待检测图像中的位置信息，例如可以通过检测框标注出所述目标物品的位置，具体的，可以通过标注框的左上角和右下角的坐标来体现所述样本物品的标注位置，还可以通过标注框的左下角和右上角的坐标来体现所述样本物品的标注位置，也可以通过所述标注框的中心点坐标、长度、宽度来体现所述样本物品的标注位置，还可以通过标注框的四个角的坐标来体现所述样本物品的标注位置，在此并不做任何限定。

示例性的，以自助购物的场景为例，所述物品检测模型在对所述目标物品进行定位时，是仅对用户所拿取的物品进行定位，而对于所述待检测图像中货柜以及其中的物品无需进行定位。

具体的，在获取到通过自助货柜上设置的拍摄设备拍摄到的待检测视频之后，需要对获取的所述待检测视频进行关键帧抽取处理，例如通过FFmpeg技术等方式对所述待检测视频进行解码，并进而对所述待检测视频进行关键帧抽取处理，从而可以得到从所述待检测视频中抽取出的待检测图像。

进一步的，在得到所述目标物品的位置信息之后，可以基于所述目标物品的所述位置信息，例如通过抠图、截图等方式，从所述待检测图像中截取目标物品的物品图像，然后可以基于所述物品图像，识别出所述目标物品的物品信息。

这里，在需要识别所述目标物品的物品信息时，可以是将所述物品输入到预先训练好的、用于识别物品信息的物品识别模型中进行识别，以得到识别出的物品信息。进一步，还可根据识别出的物品信息进行结算，生成对应的订单信息。

本公开实施例提供的图像检测方法，可以使用训练得到的物品检测模型对待检测图像进行检测，从而得到针对待检测图像的图像检测结果，有助于检测出物品信息，检测准确度高。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与神经网络训练方法对应的神经网络训练装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述神经网络训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图8和图9，图8为本公开实施例提供的一种神经网络训练装置的示意图之一，图9为本公开实施例提供的一种神经网络训练装置的示意图之二。如图8中所示，本公开实施例提供的神经网络训练装置800包括：

样本获取模块810，用于获取样本图像以及所述样本图像的至少一个标注检测框信息，所述标注检测框信息包括检测框位置；

增强处理模块820，用于基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，所述处理后的样本图像包括相同图像内容的至少两个目标样本物品；

模型训练模块830，用于使用处理后的样本图像进行神经网络训练，得到用于物品检测的物品检测模型。

一种可选的实施方式中，所述样本获取模块810具体用于：

获取记录有至少一个样本物品被拿取过程的采集视频；

一种可选的实施方式中，所述增强处理模块820具体用于：

一种可选的实施方式中，所述增强处理模块820在用于基于所述至少一个标注检测框信息指示的各个检测框位置，在所述样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，得到处理后的样本图像时，具体用于：

一种可选的实施方式中，所述增强处理模块820在用于在所述样本图像中除各个检测框之外的空白图像区域中添加所述添加数量的所述物品图像内容，得到处理后的样本图像时，具体用于：

一种可选的实施方式中，如图9中所示，所述神经网络训练装置800还包括剔除处理模块840，所述剔除处理模块840用于：

一种可选的实施方式中，所述剔除处理模块840在用于基于所述至少一个标注检测框信息，对所述样本图像进行干扰剔除处理，得到处理后的样本图像时，具体用于：

本公开实施例提供的神经网络训练装置，通过对样本图像进行干扰剔除处理，使得样本图像中除样本物品之外的图像内容一致，对样本图像进行数据量增强处理，使样本图像中的物品数量增加，可以增加样本图像的丰富性，提升训练数据包含的图像特征数量，提高神经网络针对不同图像特征的学习效果，从而使用处理后的样本图像对神经网络进行训练，得到训练好的物品检测模型，可以有效降低样本图像中嘈杂背景对于神经网络训练的影响，加快神经网络的训练速度，大大增强通过训练得到的物品检测模型的鲁棒性，有效提高物品检测模型的图像检测精度。

基于同一发明构思，本公开实施例中还提供了与图像检测方法对应的图像检测装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述图像检测方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图10，图10为本公开实施例提供的一种图像检测装置的示意图。如图10中所示，本公开实施例提供的图像检测装置1000包括：

图像获取模块1010，用于获取待检测图像和根据上述的神经网络训练装置训练得到的物品检测模型；

图像检测模块1020，用于使用所述物品检测模型对所述待检测图像进行识别，得到所述待检测图像的图像检测结果。

本公开实施例提供的图像检测装置，可以使用训练得到的物品检测模型对待检测图像进行检测，从而得到针对待检测图像的图像检测结果，有助于检测出物品信息，检测准确度高。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

对应于上述的神经网络训练方法或者图像检测方法，本公开实施例还提供了一种电子设备1100，如图11所示，为本公开实施例提供的电子设备1100结构示意图，包括：

处理器1110、存储器1120、和总线1130；存储器1120用于存储执行指令，包括内存1121和外部存储器1122；这里的内存1121也称内存储器，用于暂时存放处理器1110中的运算数据，以及与硬盘等外部存储器1122交换的数据，处理器1110通过内存1121与外部存储器1122进行数据交换，当所述电子设备1100运行时，所述处理器1110与所述存储器1120之间通过总线1130通信，使得所述处理器1110可以执行上述的神经网络训练方法或者图像检测方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的神经网络训练方法或者图像检测方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品包括有计算机指令，所述计算机指令被处理器执行时可以执行上述方法实施例中所述的神经网络训练方法或者图像检测方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种神经网络训练方法，其特征在于，所述方法包括：

2.根据权利要求1所的方法，其特征在于，所述获取样本图像以及所述样本图像的至少一个标注检测框信息，包括：

获取记录有至少一个样本物品被拿取过程的采集视频；

3.根据权利要求1所述的方法，其特征在于，所述基于所述至少一个标注检测框信息，对所述样本图像中的样本物品进行数据量增强处理，得到处理后的样本图像，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述至少一个标注检测框信息指示的各个检测框，在所述样本图像中除各个检测框之外的空白图像区域中添加至少一个提取出的物品图像内容，得到处理后的样本图像，包括：

5.根据权利要求4所述的方法，其特征在于，所述在所述样本图像中除各个检测框之外的空白图像区域中添加所述添加数量的所述物品图像内容，得到处理后的样本图像，包括：

6.根据权利要求1所述的方法，其特征在于，在获取样本图像以及所述样本图像的至少一个标注检测框信息之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述至少一个标注检测框信息，对所述样本图像进行干扰剔除处理，得到处理后的样本图像，包括：

8.一种图像检测方法，其特征在于，所述方法包括：

获取待检测图像和根据权利要求1至7中任一项所述的神经网络训练方法训练得到的物品检测模型；

9.一种神经网络训练装置，其特征在于，所述装置包括：

10.一种图像检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像和根据权利要求9所述的神经网络训练装置训练得到的物品检测模型；

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的神经网络训练方法或者如权利要求8中所述的图像检测方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至7任一项所述的神经网络训练方法或者如权利要求8中所述的图像检测方法的步骤。