CN114821234A

CN114821234A - 网络训练及目标检测方法、装置、设备及存储介质

Info

Publication number: CN114821234A
Application number: CN202210457140.6A
Authority: CN
Inventors: 李思奇; 田茂清; 刘建博; 伊帅
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-29

Abstract

本公开提供了一种网络训练及目标检测方法、装置、设备及存储介质，其中，该方法包括：获取第一图片样本和第二图片样本；第一图片样本由第一相机采集得到，且第一图片样本携带已有商品标签，第二图片样本由第二相机采集得到，且第二图片样本未携带新增商品标签；通过第一图片样本和第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络以用于对目标图片进行目标检测，得到目标图片中新增商品的检测结果。本公开中的目标检测网络不仅对于源域具有较高的检测准确率，对于目标域同样具有较高的检测准确率，与此同时，基于训练好的目标检测网络可以快速地对新增商品进行上新，节省了大量的人工标注成本，具有更高的实用性。

Description

网络训练及目标检测方法、装置、设备及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体而言，涉及一种网络训练及目标检测方法、装置、设备及存储介质。

背景技术

近年来，智能货柜、智能冰柜等的研究取得了重大的进展，但是如何快速新增以件、盒、托盘为库存量单位(Stock Keeping Unit，SKU)的商品依然是智慧零售中最棘手的问题。通常而言，对于一个智慧零售系统，新增SKU(即新增商品)不仅仅包括新的商品的到来，更常见的是商品的新包装的加入，往往新包装(比如圣诞包装、新年包装、双十一包装等)比新商品的诞生更加频繁。

通常智慧零售中原本的商品是一个非常庞大的真实数据集，新增SKU时，仅仅用智能零售使用的鱼眼相机拍摄一些新SKU的图片对于算法来说是完全不够的，往往这个时候会进行的是将新商品摆放在智慧零售中规定的架子上，这个新SKU会被新旧物体包围，做不同的组合，拍摄非常多组照片，然后进行大量的标注工作(包括标注检测框的检测任务和标注出每个检测框类别的分类任务)，这时哪怕新增SKU只是非常少的类别，这个标注成本也非常高且耗时过久。

可知的是，目前新增SKU的方案每次新增都需要采集大量的数据，而且标注过程需要进行检测人工标注和分类人工标注两步，采集时间和人工标注成本都过高，这将不利于进行后续有关目标检测网络的训练。

发明内容

本公开实施例至少提供一种网络训练及目标检测方法、装置、设备及存储介质。

第一方面，本公开实施例提供了一种网络训练方法，包括：

获取第一图片样本和第二图片样本；所述第一图片样本由第一相机采集得到，且所述第一图片样本携带已有商品标签，所述第二图片样本由第二相机采集得到，且所述第二图片样本未携带新增商品标签；

通过所述第一图片样本和所述第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络；

其中，所述训练好的目标检测网络用于对目标图片进行目标检测，得到所述目标图片中新增商品的检测结果。

采用上述网络训练方法，在获取到第一图片样本和第二图片样本的情况下，可以通过第一图片样本和第二图片样本对预训练的目标检测网络进行训练来得到用于对目标图片进行目标检测的目标检测网络。本公开在训练目标检测网络的过程中，可以将采集第一图片样本的第一相机(如鱼眼相机)的拍摄域视为源域，将采集第二图片样本的第二相机的拍摄域视为目标域，其中目标域图片更易于获取，这样，在将大量目标域下未标注的图片特征迁移到源域下已标注的图片特征的情况下，可以使得训练好的目标检测网络不仅对于源域具有较高的检测准确率，对于目标域同样具有较高的检测准确率，与此同时，基于训练好的目标检测网络可以快速地对新增商品进行上新，节省了大量的人工标注成本，具有更高的实用性。

在一种可能的实施方式中，所述通过所述第一图片样本和所述第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络，包括：

在当前输入到预训练的目标检测网络包括第一图片样本的情况下，利用所述第一图片样本以及针对所述第一图片样本携带的已有商品标签对所述预训练的目标检测网络进行网络训练；以及，

在当前输入到预训练的目标检测网络包括第二图片样本的情况下，利用所述预训练的目标检测网络对所述第二图片样本进行目标检测，得到检测结果，将所述检测结果作为所述第二图片样本的伪标签以利用携带有伪标签的第二图片样本对所述预训练的目标检测网络进行网络训练；

直至满足训练截止条件，得到训练好的目标检测网络：

这里，针对不同的图片样本而言，可以实现不同的操作。对于具有已有商品标签的第一图片样本而言，可以基于第一图片样本以及携带的已有商品标签进行网络训练；对于未携带有新增商品标签的第二图片样本而言，可以利用目标检测网络确定伪标签，并基于伪标签支撑第二图片样本的有关网络训练，使得在整个网络训练的过程中，能更多的挖掘各种图片样本的图片特征，得到性能更好的目标检测网络。

在一种可能的实施方式中，所述方法还包括：

获取第三图片样本；所述第三图片样本由第二相机采集得到，且携带新增商品标签，所述第三图片样本的数量小于所述第二图片样本的数量，且所述第二图片样本与所述第三图片样本之间的数量差大于预设阈值；

在当前输入到预训练的目标检测网络为第三图片样本的情况下，利用所述第三图片样本以及所述第三图片样本携带的新增商品标签对所述预训练的目标检测网络进行网络训练。

这里，还可以结合携带有新增商品标签的第三图片样本进行网络训练，进一步提升所训练目标检测网络对于目标域的图片特征挖掘能力，提升后续的检测准确度，与此同时，带有新增商品标签的第三图片样本的数量远远小于未携带有新增商品标签的第二图片样本的数量，这在训练数据收集个过程中，将显著降低数据收集的难度，进一步提升整个网络训练的效率。

在一种可能的实施方式中，所述目标检测网络包括特征提取层以及分类层；所述通过所述第一图片样本和所述第二图片样本对预训练的目标检测网络进行训练，包括：

通过携带有已有商品标签的第一图片样本、携带有伪标签的第二图片样本以及携带有新增商品标签的第三图片样本对预训练的目标检测网络进行训练。

在一种可能的实施方式中，所述通过携带有已有商品标签的第一图片样本、携带有伪标签的第二图片样本以及携带有新增商品标签的第三图片样本对预训练的目标检测网络进行训练，包括：

将所述第一图片样本、所述第二图片样本和所述第三图片样本输入所述预训练的目标检测网络包括的特征提取层，分别提取所述第一图片样本对应的第一图片特征、所述第二图片样本对应的第二图片特征、以及所述第三图片样本对应的第三图片样本；

将所述第一图片特征、所述第二图片特征和所述第三图片特征分别输入到所述预训练的目标检测网络包括的分类层，得到针对所述第一图片样本的检测结果、针对所述第二图片样本的检测结果、以及针对所述第三图片样本的检测结果；

却地名所述第一图片样本的检测结果与所述第一图片样本携带的已有商品标签之间的第一匹配度、所述第二图片样本的检测结果与所述第二图片样本携带的伪标签之间的第二匹配度、以及所述第三图片样本的检测结果与所述第三图片样本携带的新增商品标签之间的第三匹配度；

基于所述第一匹配度、所述第二匹配度以及所述第三匹配度对所述预训练的目标检测网络进行训练。

在一种可能的实施方式中，所述基于所述第一匹配度、所述第二匹配度以及所述第三匹配度对所述预训练的目标检测网络进行训练，包括：

基于所述第一匹配度、所述第二匹配度以及所述第三匹配度，确定所述目标检测网络的损失函数值；

基于所述损失函数值对所述预训练的目标检测网络进行训练。

在一种可能的实施方式中，所述目标检测网络还包括设置于特征提取层与分类层之间的梯度逆转层；所述基于所述第一匹配度、所述第二匹配度以及所述第三匹配度，确定所述目标检测网络的损失函数值，包括：

在确定所述第一图片样本和所述第三图片样本包括同一类商品的情况下，基于所述梯度逆转层确定所述第一图片特征和所述第三图片特征之间的相似度；

基于所述相似度、所述第一匹配度、所述第二匹配度以及所述第三匹配度，确定所述目标检测网络的损失函数值。

这里，考虑到属于不同域的同一类商品所具备图片特征的相关性，这里，可以基于梯度逆转层确定第一图片特征和第三图片特征之间的相似度，相似度越大，说明两个图片特征所对应的商品是同一类商品的可能性越大，反之，相似度越小，说明两个图片特征所对应的商品是同一类商品的可能性越小，基于相似度和匹配度的双重约束，可以使得所确定的损失函数值进行更为准确的网络调整，提升训练性能。

在一种可能的实施方式中，所述特征提取层包括骨干网络层以及金字塔网络层；按照如下步骤提取所述第一图片样本对应的第一图片特征：

将所述第一图片样本输入所述特征提取层包括的骨干网络层，得到所述骨干网络层输出的第一原始图片特征；

将所述骨干网络层输出的第一原始图片特征输入所述特征提取层包括的金字塔网络层，得到所述金字塔网络层输出的多个不同维度的第一图片特征，并作为所述第一图片样本对应的第一图片特征。

这里，利用金字塔网络层实现多个不同维度的第一图片特征的提取，使得所提取的第一图片特征具有更为丰富的信息，这将有利于实现多层目标检测，进一步确保检测性能。

在一种可能的实施方式中，按照如下步骤获取所述第二图片样本或所述第三图片样本：

通过调整所述第二相机相对新增商品的拍摄角度，获取在各个拍摄角度下采集的图片样本，所述图片样本中包括所述新增商品；或者，

通过调整所述新增商品朝向所述第二相机的商品视角，获取采集到的图片样本，所述图片样本包括各个商品视角下的新增商品。

从所述第一图片样本、所述第二图片样本以及所述第三图片样本中选取包括同一类商品的图片样本；

将选取出的图片样本作为预训练的目标检测网络的输入数据，对预训练的目标检测网络进行训练。

这里，可以将包括同一类商品的图片样本对应为同一个类别，这样，在进行网络训练的过程中，无需单独进行类别预测，很大程度上解决了传统方法中需要进行类别标注而存在的标注成本高的问题，从而进一步提升了检测效率。

第二方面，本公开实施例还提供了一种目标检测方法，包括：

获取目标图片；

将所述目标图片输入到利用第一方面及其各种实施方式任一所述的网络训练方法训练好的目标检测网络，得到所述目标图片中新增商品的检测结果。

第三方面，本公开实施例还提供了一种网络训练装置，包括：

获取模块，用于获取第一图片样本和第二图片样本；所述第一图片样本由第一相机采集得到，且所述第一图片样本携带已有商品标签，所述第二图片样本由第二相机采集得到，且所述第二图片样本未携带新增商品标签；

训练模块，用于通过所述第一图片样本和所述第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络；

第四方面，本公开实施例还提供了一种目标检测装置，包括：

获取模块，用于获取目标图片；

检测模块，用于将所述目标图片输入到利用第一方面及其各种实施方式任一所述的网络训练方法训练好的目标检测网络，得到所述目标图片中新增商品的检测结果。

第五方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的网络训练方法的步骤或者执行如第二方面所述的目标检测方法的步骤。

第六方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的网络训练方法的步骤或者执行如第二方面所述的目标检测方法的步骤。

关于上述装置、电子设备、及计算机可读存储介质的效果描述参见上述方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种网络训练方法的流程图；

图2示出了本公开实施例所提供的一种网络训练方法的应用示意图；

图3示出了本公开实施例所提供的一种目标检测方法的流程图；

图4示出了本公开实施例所提供的一种网络训练装置的示意图；

图5示出了本公开实施例所提供的一种目标检测装置的示意图；

图6示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，通常智慧零售中原本的商品是一个非常庞大的真实数据集，新增SKU时，仅仅用智能零售使用的鱼眼相机拍摄一些新SKU的图片对于算法来说是完全不够的，往往这个时候会进行的是将新商品摆放在智慧零售中规定的架子上，这个新SKU会被新旧物体包围，做不同的组合，拍摄非常多组照片，然后进行大量的标注工作(包括标注检测框的检测任务和标注出每个检测框类别的分类任务)，这时哪怕新增SKU只是非常少的类别，这个标注成本也非常高且耗时过久。

目前的新增SKU方案都是将新增物体摆放回原货架，已有尝试使用手机进行快速采集，快速检测，但是适用于智慧零售的鱼眼相机的算法模型，使用在手机检测中，检测和检索(分类)准确率大大降低，所以还是不得不将物品摆放回超市原货架，进行漫长的采集过程。

可知的是，将新增商品摆放进原货架，并用新旧商品密集摆放，需要摆放出非常多不同的组合，每次新增都需要采集大量的数据，而且标注过程需要进行检测人工标注和检索人工标注两步，采集时间和人工标注成本都，同时，放入检测模型中手机域与鱼眼相机域之间的差异过大，现有检测模型无法使用，而且手机本身的型号比较多，不同的手机拍摄的图片的分辨率也不同，无法利用手机进行新SKU的快速上新。

基于上述研究，本公开提供了一种联合售货终端拍摄的第一图片样本以及移动终端拍摄的第二图片样本进行目标检测网络训练的方案，以通过提升训练性能实现新增商品的快速上新。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种网络训练方法进行详细介绍，本公开实施例所提供的网络训练方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、个人数字助理(Personal DigitalAssistant，PDA)、手持设备、计算设备等。在一些可能的实现方式中，该网络训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

接下来以服务器作为执行主体为例对本公开实施例提供的网络训练方法进行具体说明

参见图1所示，为本公开实施例提供的网络训练方法的流程图，方法包括步骤S101～S102，其中：

S101：获取第一图片样本和第二图片样本；第一图片样本由第一相机采集得到，且第一图片样本携带已有商品标签，第二图片样本由第二相机采集得到，且第二图片样本未携带新增商品标签；

S102：通过第一图片样本和第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络；其中，训练好的目标检测网络用于对目标图片进行目标检测，得到目标图片中新增商品的检测结果。

为了便于理解本公开实施例提供的网络训练方法，接下来可以对本方法的应用场景进行详细介绍。本公开实施例中的网络训练方法主要可以应用于无人售卖领域中的目标检测，例如，可以应用于坐落在商场、医院等场合的无人零售咖啡机、无人零售早餐机、无人零售水果设备、无人零售零食设备等售货终端的目标检测，这里的目标检测主要可以包括针对新增商品的检测，这里的新增商品指的是未曾或几乎很少出现在货柜的商品，可以指的是新上架的一款商品或一类商品，例如，可以对新增的咖啡商品进行检测以确定咖啡商品的数量实现上货、下货等各种操作，这里不做具体的限制。

这里的售货终端可以包括售货柜这一主体，并设置在目标管理区域内。目标管理区域可以是预先划分的一个管理区域，例如，可以将某商场的一个楼层所对应区域确定为一个目标管理区域，也可以将整个商场的各个楼层所对应区域确定为一个目标管理区域，除此以外，这里的目标管理区域还可以是结合地域位置划分的，例如，可以将A市中的B区确定为一个目标管理区域。在实际应用中，还可以是结合不同的管理需求来确定对应的目标管理区域，这里不做具体的限制。

本公开实施例中，可以获取售货终端上设置的第一相机采集的第一图片样本，还可以获取移动终端上设置的第二相机采集的第二图片样本。第一相机可以是常用在售货终端上的鱼眼相机，第二相机可以是移动终端(如手机)的摄像头。

其中，上述售货终端可以实时采集第一图片样本，也可以是在特定的响应时机下才采集第一图片样本，所采集到的第一图片样本通常是包含所在第一相机视角下有关多个商品的图片。

上述移动终端可以是手机、IPAD等可移动设备，相对售货终端而言，移动终端更便于对新增商品进行图片采集，所采集到的第二图片样本可以是仅包含新增商品的图片。在实际应用中，可以通过调整移动设备相对新增商品的拍摄角度，获取在各个拍摄角度下采集的第二图片样本，也即，只要通过调整相机位置即可实现多角度的新SKU的呈现；还可以通过调整新增商品朝向移动设备的商品视角，获取采集到的第二图片样本，也即，只要通过旋转商品即可以使得所采集的图片样本中包含新SKU的各个表面。

这里，可以将第二相机拍摄域视为目标域(不同的手机拍摄的域也不同)，第一相机拍摄域为源域，目前源域已有大量标注图片样本(即第一图片样本)，而第一相机拍摄域标注图片样本(即第二图片样本)较少。由于移动终端可以快速获取大量SKU图片，所以可以将有关新增商品的检测问题转换为在目标域拥有大量无标注数据的弱监督领域自适应问题。

在解决上述问题的过程中，本公开实施例混合了第一图片样本和第二图片样本进行训练，且在训练的过程中以第一图片样本携带的已有商品标签为第一监督数据(可以是主导监督数据)，与此同时，还可以将目标检测网络针对第二图片样本所得到的检测结果作为第二监督数据(可以是辅助监督数据)，以这将使得所训练好的目标检测网络不仅适应于源域下的检测，还将适应于目标域下的目标检测。

本公开实施例中的目标检测网络训练的是输入的图片样本与针对图片样本中有关目标的检测结果的对应关系，在训练得到对应关系的情况下，可以得到有关目标检测网络的网络参数值，这样，在需要对目标图片进行目标检测的情况下，可以直接将目标图片输入到训练好的目标检测网络中，得到有关新增商品的检测结果。

需要说明的是，本公开实施例中预训练的目标检测网络可以是构建的原始神经网络，还可以是经过一定训练次数的神经网络，在此不做具体的限制。

本公开实施例在进行目标检测网络训练的过程中，若当前输入到预训练的目标检测网络包括第一图片样本，可以利用第一图片样本以及针对第一图片样本设置的已有商品标签对预训练的目标检测网络进行网络训练，也即，可以将第一图片样本作为预训练的目标检测网络的输入数据，将针对第一图片样本设置的已有商品标签作为输出结果的监督数据，以实现有关网络训练；若当前输入到预训练的目标检测网络包括未携带新增商品标签的第二图片样本，可利用预训练的目标检测网络对第二图片样本进行目标检测，得到检测结果，将检测结果作为第二图片样本的伪标签以利用携带有伪标签的第二图片样本对预训练的目标检测网络进行网络训练，也即，可以利用目标检测网络对第二图片样本进行标签预测，并在确定需要对携带有伪标签的第二图片样本进行训练的情况下，可以基于伪标签的监督作用实现网络训练。

需要说明的是，有关第一图片样本和第二图片样本的联合训练可以是第一图片样本和第二图片样本交替训练，例如，在训练一张第一图片样本之后，可以训练一张第二图片样本，还可以是先训练第一图片样本，以得到调整后的目标检测网络，而后利用调整后的目标检测网络作为对第二图片样本进行目标检测的目标检测网络，通过目标检测，赋予第二图片样本以伪标签，后续可以利用带有伪标签的第二图片样本再继续调整网络参数。除此之外，本公开实施例还采集采用其它的联合训练方式，在此不做具体的限定。

在进行有关第一图片样本和第二图片样本的联合训练的情况下，可以在每经过一轮训练均进行训练截止条件的验证，从而得到训练好的目标检测网络。其中，这里的训练截止条件可以是训练达到预设次数，损失函数值足够小等。

在实际应用中，除了基于有关第一图片样本以及未携带有新增商品标签的第二图片样本进行网络训练，还可以联合少部分携带有新增商品标签的第三图片样本进行网络训练，以更大程度的挖掘出更为准确的目标域图片特征，提升网路训练的性能。

其中，第三图片样本的数量小于第二图片样本的数量，且第二图片样本与第三图片样本之间的数量差大于预设阈值，也即，第三图片样本的数量远远小于第二图片样本的数量。此外，第三图片样本也可以是由第二相机采集得到的。

本公开实施例中，可以使用RetinaNet这个更为快速的单阶段目标检测结构为主体结构，主要是考虑到在领域自适应目标检测领域大都使用的两阶段算法，如快速区域自适应卷积神经网络(Faster Region-CNN，R-CNN)，的检测效率不高。

在训练阶段，可以利用字典学习方式为目标域下的无标注数据(即第二图片样本)生成标签。在训练的过程中，可以预先为训练数据定义好字典，然后基于字典对数据进行标识，如稀疏表示，除此之外，还可以不预先定义好字典，而是根据训练数据进行训练得到，在训练的过程中分为字典学习、数据表示来进行，从而可以为RetinaNet的分类和检测框回归更为快速地提供伪标签，并且由于字典学习的稀疏化，将进一步提高训练的时效性，从而更加便于应用到诸如无人零售等各种需要快速响应的相关领域。

与此同时，为了便于进行目标分类，可以预先从第一图片样本、第二图片样本和第三图片样本中选取包括同一类商品的图片样本，在将包括同一类商品的图片样本放入同一文件的情况下，可以直接作为训练的输入数据，即一次检测就可以得到有关检测框和具体分类的结果。

本公开实施例中，通过携带有已有商品标签的第一图片样本、携带有伪标签的第二图片样本以及携带有新增商品标签的第三图片样本可以对预训练的目标检测网络进行训练，具体可以按照如下步骤进行网络训练：

步骤一、将第一图片样本、第二图片样本、和第三图片样本输入预训练的目标检测网络包括的特征提取层，分别提取第一图片样本对应的第一图片特征、第二图片样本对应的第二图片特征、以及第三图片样本对应的第三图片特征；

步骤二、将第一图片特征、第二图片特征和第三图片特征分别输入到预训练的目标检测网络包括的分类层，得到针对第一图片样本的检测结果、针对第二图片样本的检测结果、以及针对第三图片样本的检测结果；

步骤三、确定第一图片样本的检测结果与第一图片样本携带的已有商品标签之间的第一匹配度、第二图片样本的检测结果与第二图片样本携带的伪标签之间的第二匹配度、以及第三图片样本的检测结果与第三图片样本携带的新增商品标签之间的第三匹配度；

步骤四、基于第一匹配度、第二匹配度以及第三匹配度对预训练的目标检测网络进行训练。

这里，可以利用目标检测网络包括的特征提取层分别得到第一图片样本对应的第一图片特征、第二图片样本对应的第二图片特征以及第三图片样本对应的第三图片特征。其中，有关提取的第一图片特征可以是与第一图片样本相关的图片特征，可以是包括图片纹理、颜色等维度的特征，还可以是包括图片中目标对象的相关特征，例如，目标人物在图片中的位置等特征。同理，有关提取的第二图片特征和第三图片特征，与上述第一图片特征类似，在此不再赘述。

这里，在基于预训练的目标检测网络包括的分类层确定第一图片样本的检测结果的情况下，可以基于第一图片样本的检测结果与第一图片样本携带的已有商品标签之间的第一匹配度可以确定预训练的目标检测网络的第一子损失函数值，还可以基于第二图片样本的检测结果与第二图片样本携带的伪标签之间的第二匹配度确定第二子损失函数值，还可以基于第三图片样本的检测结果与第三图片样本携带的新增商品标签之间的第三匹配度确定第三子损失函数值，而后基于三个子损失函数值确定的损失函数值对预训练的目标检测网络进行训练。

上述损失函数值可以表征的是目标检测网络输出的结果与针对各图片样本的标签之间的偏差情况，偏差情况越大，说明网络性能不佳，此时，可以通过损失函数值对网络参数值进行调整。在得到调整后的第一神经网络的情况下，可以基于调整后的目标检测网络进行下一轮网络训练，也即再次输入图片样本到目标检测网络中进行特征提取，并可以确定调整后的损失函数值，这样，直至下一轮网络训练满足训练迭代截止条件，即可以得到训练好的目标检测网络。

这里，为了实现在目标域和源域下的双重检测性能，可以在特征提取层与分类层之间设置梯度逆转层，以通过梯度逆转层进行源域和目标域的特征对齐，具体可以利用对齐特征进行有关损失函数值的确定，包括如下步骤：

步骤一、在确定第一图片样本和第三图片样本包括同一类商品的情况下，基于梯度逆转层确定第一图片特征和第三图片特征之间的相似度；

步骤二、基于相似度、第一匹配度、第二匹配度以及第三匹配度，确定目标检测网络的损失函数值。

这里，可以基于同一类商品的监督作用，将第一图片特征和第三图片特征进行对齐，这样所确定的损失函数值可以进行更为准确的网络调整。

本公开实施例中，为了进一步提升网络训练性能，可以联合骨干网络层以及金字塔网络层实现多个维度图片特征的提取，具体可以通过如下步骤来实现：

步骤一、将第一图片样本输入特征提取层包括的骨干网络层，得到骨干网络层输出的第一原始图片特征；

步骤二、将骨干网络层输出的第一原始图片特征输入特征提取层包括的金字塔网络层，得到金字塔网络层输出的多个不同维度的第一图片特征，并作为第一图片样本对应的第一图片特征。

这里，首先可以利用骨干网络层提取原始图片特征，然后再利用金字塔网络层提取多个不同维度的图片特征，由于不同维度的图片特征适应于不同目标对象的检测，这将大大提升有关目标检测的准确率。

同理，本公开实施例中，可以按照上述方法来提取第二图片样本对应的第二图片特征以及第三图片样本对应的第三图片特征，具体过程参见上述描述，在此不做赘述。

在实际应用中，上述金字塔网络层可以是特征金字塔网络(Feature PyramidNetwork，FPN)来实现，这样，每一个网络子层均可以设置一个梯度逆转层，以实现在该维度下的准确检测。

为了便于进一步理解上述目标检测网络的训练过程，接下来可以结合图2进行具体说明。

如图2所示，在将第一图片样本汇总为鱼眼数据集，将第二图片样本汇总为手机数据集的情况下，可以先通过骨干网络层(即backbone)提取有关图片样本的原始图片特征。再通过金字塔网络层(即FPN)之后，针对第一图片样本和第二图片样本均可以提取三层图片特征，且在FPN的每层输出均设置有梯度逆转层以实现对应的两个图片特征的对齐，继而得到检测结果。

在将第一图片样本检测结果与预先设置的标签进行比对的情况下，可以确定损失函数值，并通过反向传播进行有关目标检测网络的网络参数值的调整。

需要说明的是，针对第二图片样本，作为无标签的手机数据，可以通过字典学习生成伪标签以支持网络的训练。

基于上述实施例提供的网络训练方法，本公开实施例还提供了一种目标检测的方法，如图3所示，上述方法具体包括如下步骤：

S301：获取目标图片；

S302：将目标图片输入到训练好的目标检测网络，得到目标图片中新增商品的检测结果。

这里的目标图片可以是基于不同的应用场景获取的，仅需将获取的目标图片输入到上述训练好的目标检测网络，即可实现目标检测，简单高效，有关检测过程参见上述描述，在此不再赘述。

其中，这里的新增商品可以是目标零售场景下上架的新商品，具体参见前述内容，在此不再赘述。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与方法对应的装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图4所示，为本公开实施例提供的一种网络训练装置的示意图，装置包括：获取模块401、训练模块402；其中，

获取模块401，用于获取第一图片样本和第二图片样本；第一图片样本由第一相机采集得到，且第一图片样本携带已有商品标签，第二图片样本由第二相机采集得到，且第二图片样本未携带新增商品标签；

训练模块402，用于通过第一图片样本和第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络；

其中，训练好的目标检测网络用于对目标图片进行目标检测，得到目标图片中新增商品的检测结果。

采用上述网络训练装置，在获取到第一图片样本和第二图片样本的情况下，可以通过第一图片样本和第二图片样本对预训练的目标检测网络进行训练来得到用于对目标图片进行目标检测的目标检测网络。本公开在训练目标检测网络的过程中，可以将采集第一图片样本的第一相机(如鱼眼相机)的拍摄域视为源域，将采集第二图片样本的第二相机的拍摄域视为目标域，其中目标域图片更易于获取，这样，在将大量目标域下未标注的图片特征迁移到源域下已标注的图片特征的情况下，可以使得训练好的目标检测网络不仅对于源域具有较高的检测准确率，对于目标域同样具有较高的检测准确率，与此同时，基于训练好的目标检测网络可以快速地对新增商品进行上新，节省了大量的人工标注成本，具有更高的实用性。

在一种可能的实施方式中，训练模块402，用于按照如下步骤通过第一图片样本和第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络：

在当前输入到预训练的目标检测网络包括第一图片样本的情况下，利用第一图片样本以及针对第一图片样本设置的已有商品标签对预训练的目标检测网络进行网络训练；以及，

在当前输入到预训练的目标检测网络包括第二图片样本的情况下，利用预训练的目标检测网络对第二图片样本进行目标检测，得到检测结果，将检测结果作为第二图片样本的伪标签以利用携带有伪标签的第二图片样本对预训练的目标检测网络进行网络训练；

直至满足训练截止条件，得到训练好的目标检测网络：

在一种可能的实施方式中，训练模块402，还用于：

获取第三图片样本；第三图片样本由第二相机采集得到，且携带新增商品标签，第三图片样本的数量小于第二图片样本的数量，且第二图片样本与第三图片样本之间的数量差大于预设阈值；

在当前输入到预训练的目标检测网络为第三图片样本的情况下，利用第三图片样本以及第三图片样本携带的新增商品标签对预训练的目标检测网络进行网络训练。

在一种可能的实施方式中，目标检测网络包括特征提取层以及分类层；训练模块402，用于按照如下步骤通过第一图片样本和第二图片样本对预训练的目标检测网络进行训练：

在一种可能的实施方式中，训练模块402，用于按照如下步骤通过携带有已有商品标签的第一图片样本、携带有伪标签的第二图片样本以及携带有新增商品标签的第三图片样本对预训练的目标检测网络进行训练：

将第一图片样本、第二图片样本和第三图片样本输入预训练的目标检测网络包括的特征提取层，分别提取第一图片样本对应的第一图片特征、第二图片样本对应的第二图片特征、以及第三图片样本对应的第三图片样本；

将第一图片特征、第二图片特征和第三图片特征分别输入到预训练的目标检测网络包括的分类层，得到针对第一图片样本的检测结果、针对第二图片样本的检测结果、以及针对第三图片样本的检测结果；

却地名第一图片样本的检测结果与第一图片样本携带的已有商品标签之间的第一匹配度、第二图片样本的检测结果与第二图片样本携带的伪标签之间的第二匹配度、以及第三图片样本的检测结果与第三图片样本携带的新增商品标签之间的第三匹配度；

基于第一匹配度、第二匹配度以及第三匹配度对预训练的目标检测网络进行训练。

在一种可能的实施方式中，训练模块402，用于按照如下步骤基于第一匹配度、第二匹配度以及第三匹配度对预训练的目标检测网络进行训练：

基于第一匹配度、第二匹配度以及第三匹配度，确定目标检测网络的损失函数值；

基于损失函数值对预训练的目标检测网络进行训练。

在一种可能的实施方式中，目标检测网络还包括设置于特征提取层与分类层之间的梯度逆转层；训练模块402，用于按照如下步骤基于第一匹配度、第二匹配度以及第三匹配度，确定目标检测网络的损失函数值：

在确定第一图片样本和第三图片样本包括同一类商品的情况下，基于梯度逆转层确定第一图片特征和第三图片特征之间的相似度；

基于相似度、第一匹配度、第二匹配度以及第三匹配度，确定目标检测网络的损失函数值。

在一种可能的实施方式中，特征提取层包括骨干网络层以及金字塔网络层；训练模块402，用于按照如下步骤提取第一图片样本对应的第一图片特征：

将第一图片样本输入特征提取层包括的骨干网络层，得到骨干网络层输出的第一原始图片特征；

将骨干网络层输出的第一原始图片特征输入特征提取层包括的金字塔网络层，得到金字塔网络层输出的多个不同维度的第一图片特征，并作为第一图片样本对应的第一图片特征。

在一种可能的实施方式中，按照获取模块401，用于按照如下步骤获取第二图片样本或第三图片样本：

通过调整第二相机相对新增商品的拍摄角度，获取在各个拍摄角度下采集的图片样本，图片样本中包括新增商品；或者，

通过调整新增商品朝向第二相机的商品视角，获取采集到的图片样本，图片样本包括各个商品视角下的新增商品。

从第一图片样本、第二图片样本以及第三图片样本中选取包括同一类商品的图片样本；

参照图5所示，为本公开实施例提供的一种目标检测装置的示意图，装置包括：获取模块501、检测模块502；其中，

获取模块501，用于获取目标图片；

检测模块502，用于将目标图片输入到训练好的目标检测网络，得到目标图片中新增商品的检测结果。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图6所示，为本公开实施例提供的电子设备结构示意图，包括：处理器601、存储器602、和总线603。存储器602存储有处理器601可执行的机器可读指令(比如，图4中的装置中获取模块401、训练模块402对应的执行指令等；再如，图5中的装置中获取模块501、检测模块502对应的执行指令等)，当电子设备运行时，处理器601与存储器602之间通过总线603通信，机器可读指令被处理器601执行时执行如1所示的网络训练方法的步骤或者如图3所示的目标检测方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种网络训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述通过所述第一图片样本和所述第二图片样本对预训练的目标检测网络进行训练，得到训练好的目标检测网络，包括：

在当前输入到预训练的目标检测网络包括第一图片样本的情况下，利用所述第一图片样本以及所述第一图片样本携带的已有商品标签对所述预训练的目标检测网络进行网络训练；以及，

直至满足训练截止条件，得到训练好的目标检测网络。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述目标检测网络包括特征提取层以及分类层；所述通过所述第一图片样本和所述第二图片样本对预训练的目标检测网络进行训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述通过携带有已有商品标签的第一图片样本、携带有伪标签的第二图片样本以及携带有新增商品标签的第三图片样本对预训练的目标检测网络进行训练，包括：

将所述第一图片样本、所述第二图片样本、和所述第三图片样本输入所述预训练的目标检测网络包括的特征提取层，分别提取所述第一图片样本对应的第一图片特征、所述第二图片样本对应的第二图片特征、以及所述第三图片样本对应的第三图片特征；

确定所述第一图片样本的检测结果与所述第一图片样本携带的已有商品标签之间的第一匹配度、所述第二图片样本的检测结果与所述第二图片样本携带的伪标签之间的第二匹配度、以及所述第三图片样本的检测结果与所述第三图片样本携带的新增商品标签之间的第三匹配度；

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一匹配度、所述第二匹配度以及所述第三匹配度对所述预训练的目标检测网络进行训练，包括：

7.根据权利要求6所述的方法，其特征在于，所述目标检测网络还包括设置于特征提取层与分类层之间的梯度逆转层；所述基于所述第一匹配度、所述第二匹配度以及所述第三匹配度，确定所述目标检测网络的损失函数值，包括：

8.根据权利要求4至7任一所述的方法，其特征在于，所述特征提取层包括骨干网络层以及金字塔网络层；按照如下步骤提取所述第一图片样本对应的第一图片特征：

9.根据权利要求1至8任一所述的方法，其特征在于，按照如下步骤获取所述第二图片样本或所述第三图片样本：

10.根据权利要求4至8任一所述的方法，其特征在于，所述通过携带有已有商品标签的第一图片样本、携带有伪标签的第二图片样本以及携带有新增商品标签的第三图片样本对预训练的目标检测网络进行训练，包括：

从所述第一图片样本、第二图片样本以及所述第三图片样本中选取包括同一类商品的图片样本；

11.一种目标检测方法，其特征在于，包括：

获取目标图片；

将所述目标图片输入到利用权利要求1至10任一所述的网络训练方法训练好的目标检测网络，得到所述目标图片中新增商品的检测结果。

12.一种网络训练装置，其特征在于，包括：

13.一种目标检测装置，其特征在于，包括：

获取模块，用于获取目标图片；

检测模块，用于将所述目标图片输入到利用权利要求1至10任一所述的网络训练方法训练好的目标检测网络，得到所述目标图片中新增商品的检测结果。

14.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至10任一所述的网络训练方法的步骤或者执行如权利要求11所述的目标检测方法的步骤。

15.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至10任一所述的网络训练方法的步骤或者执行如权利要求11所述的目标检测方法的步骤。