CN110378361B

CN110378361B - 一种用于密集拿取物品检测的方法和装置

Info

Publication number: CN110378361B
Application number: CN201811402692.7A
Authority: CN
Inventors: 李艺
Original assignee: Beijing Jingdong Qianshi Technology Co Ltd
Current assignee: Beijing Jingbangda Trade Co Ltd; Beijing Jingdong Qianshi Technology Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2022-04-12
Anticipated expiration: 2038-11-23
Also published as: CN110378361A

Abstract

本发明提供了一种用于密集拿取物品检测的方法和装置，通过获取多个物品被拿取并做相互远离和靠近运动的视频数据，并对视频数据中的每个物品进行追踪，确定每个物品对应的在每帧视频图像中的边界标注框；将确定了每个物品的边界标注框的视频图像作为训练样本，并基于预设的Repulsion损失函数进行训练，得到对应的检测模型，使得该检测模型可以用于密集拿取物品检测。应用本发明的方法，能够降低人工标注成本，并有效提高密集拿取物品的检测效果。

Description

一种用于密集拿取物品检测的方法和装置

技术领域

本发明涉及通信技术领域，特别涉及一种用于密集拿取物品检测的方法和装置。

背景技术

在无人超市和无人货柜中，物品拿取的检测作为一种基本技术有着重要的作用，其他应用都需要在物品拿取检测的基础上去实现。

现有检测技术中，采用计算机视觉的检测模型，尤其是深度学习的模型来解决，例如fasterRCNN，yolo、SSD等。为训练有效的检测模型，通常还需要采集大量的训练数据，进行人工标注。

现有检测技术中，以人工为主的训练数据采集方法效率偏低，对密集拿取物体进行标注的时候，工作量将会变得非常大。另外，现有检测技术只考虑通用的检测情况，对于物品靠得很近的情况没有做特殊处理，这会影响检测模型的检测效果，例如两个相近物品经常会被检测为同一物体，导致少算拿取的物品数量。

发明内容

有鉴于此，本发明的目的在于提供一种用于密集拿取物品检测的方法和装置，能够降低人工标注成本，并有效提高密集拿取物品的检测效果。

为了达到上述目的，本发明提供了如下技术方案：

一种用于密集拿取物品检测的训练样本提取方法，包括：

获取多个物品被拿取并做相互远离和靠近运动的视频数据；

追踪视频数据中的每个物品，确定该物品在每帧视频图像中的边界标注框；

将确定了每个物品的边界标注框的每帧视频图像，作为用于密集拿取物品检测的训练样本。

一种用于密集拿取物品检测的训练模型生成方法，包括：

预先获取用于密集拿取物品检测的训练样本；所述训练样本是利用如上述用于密集拿取物品检测的训练样本提取方法提取得到的；

基于预设损失函数对所述训练样本进行训练，得到用于密集拿取物品检测的训练模型。

一种用于密集拿取物品检测的训练样本提取装置，包括：

获取单元，用于获取多个物品被拿取并做相互远离和靠近运动的视频数据；

追踪单元，用于追踪视频数据中的每个物品，确定该物品在每帧视频图像中的边界标注框；

收集单元、用于将确定了每个物品的边界标注框的每帧视频图像，作为用于密集拿取物品检测的训练样本。

一种用于密集拿取物品检测的训练模型生成装置，包括：

获取单元，用于预先获取用于密集拿取物品检测的训练样本；所述训练样本是利用如上述用于密集拿取物品检测的训练样本提取方法提取得到的；

生成单元，用于基于预设损失函数对所述训练样本进行训练，得到用于密集拿取物品检测的训练模型。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；所述至少一个处理器执行所述一个或多个计算机程序时实现上述用于密集拿取物品检测的训练样本提取方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现上述用于密集拿取物品检测的训练样本提取方法。

一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；所述至少一个处理器执行所述一个或多个计算机程序时实现上述用于密集拿取物品检测的训练模型生成方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现上述用于密集拿取物品检测的训练模型生成方法。

由上面的技术方案可知，本发明中，通过获取多个物品被拿取并做相互远离和靠近运动的视频数据，并对视频数据中的每个物品进行追踪，得到每个物品对应的在每帧视频图像中的边界标注框；将这些边界标注框作为训练样本，并基于预设的Repulsion损失函数进行训练，得到对应的检测模型，使得该检测模型可以用于密集拿取物品检测。应用本发明的方法，可以提取出用于密集拿取物品检测的训练样本，不需要人工标注训练样本，因此可以降低成本；另外，通过使用Repulsion损失函数训练检测模型，可以是训练得到的检测模型能够提高密集拿取物品的检测效果。

附图说明

图1是本发明实施例用于密集拿取物品检测的训练样本提取方法流程图；

图2是本发明实施例通过运动捕捉方法确定物品的边界标注框的示例图；

图3是本发明实施例用于密集拿取物品检测的训练模型生成方法流程图；

图4是本发明实施例用于密集拿取物品检测的训练样本提取装置的结构示意图；

图5是本发明实施例用于密集拿取物品检测的训练模型生成装置的结构示意图；

图6是本发明实施例电子设备600的结构示意图；

图7是本发明实施例电子设备700的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图并据实施例，对本发明的技术方案进行详细说明。

密集物品，是指两个以上距离比较近的物品，物品之间有部分遮挡。当用户同时拿取多个物品时，导致物品之间距离比较近且有部分遮挡的拿取行为，称为密集拿取物品。当用户密集拿取物品时，由于物品之间有部分遮挡，使用现有物品拿取的检测方法，可能会出现物品检测出错或少检测出物品的情况。

为了解决上述问题，本发明提供了一种用于密集拿取物品检测的训练样本提取方法和一种用于密集拿取物品检测的检测模型生成方法，前者可以提取生成用于密集拿取物品检测的检测模型所需的大量训练样本，后者可以利用前者提取的大量训练样本，训练生成检测模型，利用该检测模型执行密集拿取商品检测。

参见图1，图1是本发明实施例用于密集拿取物品检测的训练样本提取方法流程图，如图1所示，该方法包括以下步骤：

步骤101、获取多个物品被拿取并做相互远离和靠近运动的视频数据。

为了能够训练出能够有效检测密集拿取物品的检测模型，需要大量确定了物品的边界标注框(边界标注框，标注有物品的标识和边界框)的图像作为训练样本。如果使用人工标注方法，需要耗费大量的人力和时间。本发明中，可以让采集人员模拟密集拿取物品的场景，通过对密集拿取物品的场景分析，获得大量的训练样本。

在实际实现中，可以让采集人员同时拿取并移动多个物品，并在移动物品的过程中让这些物品反复做相互靠近和相互远离的运动，例如，采集人员两个手各拿取一件物品，初始在两个物品分开时晃动两个物品，随后移动这两个物品并在移动过程中让这两个物品作相互靠近和相互远离的运动。从而模拟出只有两个物品的密集拿取物品的场景；另外，如果需要模拟两个以上物品的密集物品拿取场景，则可以让多个采集人员合作，每个采集人员至少拿取一个物品，并且移动过程中，让这些物品作相互靠近和相互远离的运动，从而模拟出两个以上物品的密集拿取物品的场景。采集人员模拟密集拿取物品的场景时，需要保持身体稳定，除了手以外的其它部位只可以慢速移动，拿取物品的手部则可以快速移动，这样做的目的是为了利用运动捕捉的方法标注采集人员手部拿取的物品。

对密集拿取物品的场景分析，实际上是对密集拿取物品的过程的视频数据进行分析，因此，需要先获取多个物品被拿取并做相互远离和靠近运动的视频数据，以用于后续的训练样本提取。

步骤102、追踪视频数据中的每个物品，确定该物品在每帧视频图像中的边界标注框。

本发明实施例中，先使用运动捕捉方法确定在某个视频图像中首次出现或消失后再次出现的物品的边界标注框，然后在之后的视频图像中对该物品进行追踪，并在追踪过程中确定该物品在多个视频图像中的边界标注框。

本步骤的具体实现方法为：

针对视频数据中的每帧视频图像，利用运动捕捉方法确定该帧视频图像中每个物品的边界标注框；

如果确定该帧视频图像中存在未被追踪的物品，则基于该未被追踪的物品在该帧视频图像中的边界标注框，在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪，确定该物品在该帧视频图像之后的每帧视频图像中的边界标注框。

上述步骤102的具体实现方法中，利用运动捕捉方法确定该帧视频图像中每个物品的边界标注框，具体可以采用以下方法步骤实现：

1)按照预设比例缩小该帧视频图像，这里的缩小视频图像是指缩小图像的分辨率；

2)对缩小后的视频图像进行背景减除；

3)对背景减除后的视频图像进行二值化处理；

4)对二值化处理后的视频图像进行中值滤波，去除运行噪声；

5)将经中值滤波后的视频图像进行膨胀处理，得到该帧视频图像中每个物品的轮廓；

6)根据该帧视频图像中每个物品的轮廓确定该物品的边界标注框。

图2是本发明实施例通过运动捕捉方法确定物品的边界标注框的示例图，从该图中可以看出，通过以上6个步骤的图像处理操作，将得到只包括物品和拿取物品的手部范围的边界标注框。

上述步骤102的具体实现方法中，基于该未被追踪的物品在该帧视频图像中的边界标注框，在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪的方法具体如下：

将该被未被追踪的物品在该帧视频图像中的边界标注框作为初始边界标注框，使用核化相关滤波(KCF)追踪算法对该帧视频图像之后的视频数据进行针对该物品的追踪，得到该物品在该帧视频图像之后的每帧视频图像中的边界标注框。

这里，视频数据实际上是由多帧视频图像构成的，从任一帧视频图像开始的连续多帧视频图像构成一个视频片段，视频片段实际上也属于视频数据。以物品的初始边界标注框作为输入，使用KCF追踪算法对视频数据进行追踪时，KCF算法可以确定该物品在该视频数据中的每一帧视频图像中的边界标注框。

在本发明实施例中，为了区分物品是否被追踪，可以对被追踪的物品设置一个追踪标志，未被追踪的物品则不设追踪标志，从而可以根据每个物品是否设置有对应的追踪标志来判断该物品是否被追踪。

为此，上述在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪时，需要进一步设置该物品对应的追踪标志，以表明该物品已经被追踪。

另外，上述使用核化相关滤波KCF追踪算法对该帧视频图像之后的视频数据进行针对该物品的追踪的过程中，如果对该帧视频图像之后的视频数据中的任一帧视频图像进行针对该物品的追踪失败，则需要删除该物品对应的追踪标志，以表明该物品未被追踪，如果该物品在之后的视频图像中再次出现，则可以再次对该物品进行追踪。

步骤103、将确定了每个物品的边界标注框的每帧视频图像，作为用于密集拿取物品检测的训练样本。

本发明实施例中，只将通过追踪确定的物品的边界标注框作为物品在该视频图像中的边界标注框，而利用运动捕捉方法确定的物品在某一帧视频图像中的边界标注框，只会在物品首次出现或消失后再次出现时作为初始边界标注框使用，用于在之后视频数据中针对该物品的追踪。

从上述方法可以看出，本发明实施例提供的用于密集拿取物品检测的训练样本提取方法，可以针对一段密集拿取物品的视频数据中的每帧视频图像中的物品确定对应边界标注框，这些确定了每个物品的边界标注框的视频图像都可以作为训练样本。因此，可以通过对大量物品多次模拟密集拿取物品的场景，并通过对这些场景的分析，得到大量训练样本，这些训练样本可以用于密集拿取物品检测的训练模型的生成。

参见图3，图3是本发明实施例用于密集拿取物品检测的训练模型生成方法流程图，如图3所示，该方法包括以下步骤：

步骤301、预先获取用于密集拿取物品检测的训练样本。

本步骤中获取的训练样本，是利用如图1所示方法提取得到的。

在实际应用中，可以模拟不同物品组合的密集拿取物品的场景，并利用图1所示方法对相应的密集拿取物品的视频数据中的所有物品进行追踪，最终获取涵盖了很多物品的大量训练样本。

步骤302、基于预设损失函数对所述训练样本进行训练，得到用于密集拿取物品检测的训练模型。

本发明实施例中，预设损失函数为排斥(Repulsion)损失函数,Repulsion损失函数使用以下公式表示:

L＝L_Attr+α×L_RepGT+β×L_RepBox，

其中，L为损失值，L_Attr为物品的检测输出框与边界标注框的吻合程度，L_RepGT为物品的检测输出框与同一训练样本中其它物品的边界标注框的远离程度，L_RepBox为物品的检测输出框与其它物品的检测输出框的远离程度，α和β是预先设定的权重系数值。

需要说明的是，上述物品的检测输出框，是指使用包含该物品的一个训练样本训练检测模型时，检测模型输出的该物品的边界框；物品的边界标注框，是指使用图1所示方法获取该训练样本过程中确定的该物品在该训练样本中的边界标注框。

当使用图3所示方法训练得到用于密集拿取物品检测的训练模型后，就可以用该训练模型对用户在无人超市、无人货柜等地方的密集拿取物品进行检测。

以上对本申请实施例用于密集拿取物品检测的训练样本提取方法和用于密集拿取物品检测的训练模型生成方法进行了详细说明，本发明还提供了一种用于密集拿取物品检测的训练样本提取装置和一种用于密集拿取物品检测的训练模型生成装置，以下结合图4和图5进行详细说明。

参见图4，图4是本发明实施例用于密集拿取物品检测的训练样本提取装置的结构示意图，如图4所示，该装置包括：

获取单元401，用于获取多个物品被拿取并做相互远离和靠近运动的视频数据；

追踪单元402，用于追踪所述视频数据中的每个物品，确定该物品在每帧视频图像中的边界标注框；

收集单元403、用于将确定了每个物品的边界标注框的每帧视频图像，作为用于密集拿取物品检测的训练样本。

图4所示装置中，

所述追踪单元402，追踪视频数据中的每个物品，确定该物品在每帧视频图像中的边界标注框，包括：

图4所示装置中，

所述追踪单元402，基于该未被追踪的物品在该帧视频图像中的边界标注框，在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪时，用于：

将该被未被追踪的物品在该帧视频图像中的边界标注框作为初始边界标注框，使用核化相关滤波追踪算法对该帧视频图像之后的视频数据进行针对该物品的追踪，得到该物品在该帧视频图像之后的每帧视频图像中的边界标注框。

图4所示装置中，

所述追踪单元402，在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪时，进一步设置该物品对应的追踪标志；

所述追踪单元，判断物品是否被追踪时，用于：如果设置有该物品对应的追踪标志，则确定该物品已经被追踪，否则，确定该物品未被追踪。

图4所示装置中，

所述追踪单元，使用核化相关滤波KCF追踪算法对该帧视频图像之后的视频数据进行针对该物品的追踪的过程中，如果对该帧视频图像之后的视频数据中的任一帧视频图像进行针对该物品的追踪失败，则删除该物品对应的追踪标志。

图4所示装置中，

所述追踪单元402，利用运动捕捉方法确定该帧视频图像中每个物品的边界标注框时，用于：

按照预设比例缩小该帧视频图像；

对缩小后的视频图像进行背景减除；

对背景减除后的视频图像进行二值化处理；

对二值化处理后的视频图像进行中值滤波；

将经中值滤波后的视频图像进行膨胀处理，得到该帧视频图像中每个物品的轮廓；

根据该帧视频图像中每个物品的轮廓确定该物品的边界标注框。

参见图5，图5是本发明实施例用于密集拿取物品检测的训练模型生成装置的结构示意图，如图5所示，该装置包括：

获取单元501，用于预先获取用于密集拿取物品检测的训练样本；所述训练样本是利用如权利要求1-6中任一权项所述的方法提取得到的；

生成单元502，用于基于预设损失函数对所述训练样本进行训练，得到用于密集拿取物品检测的训练模型。

图5所示装置中，

所述损失函数为排斥Repulsion损失函数,使用以下公式表示:

L＝LAttr+α×LRepGT+β×LRepBox，

其中，L为损失值，LAttr为检测输出框与边界标注框的吻合程度，LRepGT为检测输出框与其它物体的边界标注框的远离程度，LRepBox为检测输出框与其它物体的检测输出框的远离程度，α和β是预先设定的权重系数值。

参见图6，本发明的另一实施例还提供了一种电子设备600，功能与如图4所示装置相同，图6所示的电子设备包括：至少一个处理器601，以及与所述至少一个处理器通过总线相连的存储器602；所述存储器602存储有可被所述至少一个处理器601执行的一个或多个计算机程序；所述至少一个处理器602执行所述一个或多个计算机程序时实现图1所示的方法步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现图1所示的方法。

参见图7，本发明的另一实施例还提供了一种电子设备700，功能与如图5所示装置相同，图7所示的电子设备包括：至少一个处理器701，以及与所述至少一个处理器701通过总线相连的存储器702；所述存储器702存储有可被所述至少一个处理器701执行的一个或多个计算机程序；所述至少一个处理器701执行所述一个或多个计算机程序时实现图3所示的方法步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现图3所示的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于密集拿取物品检测的训练样本提取方法，其特征在于，该方法包括：

获取多个物品被拿取并做相互远离和靠近运动的视频数据；

2.根据权利要求1所述的方法，其特征在于，

追踪视频数据中的每个物品，确定该物品在每帧视频图像中的边界标注框，包括：

3.根据权利要求2所述的方法，其特征在于，

基于该未被追踪的物品在该帧视频图像中的边界标注框，在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪的方法为：

将该未被追踪的物品在该帧视频图像中的边界标注框作为初始边界标注框，使用核化相关滤波追踪算法对该帧视频图像之后的视频数据进行针对该物品的追踪，得到该物品在该帧视频图像之后的每帧视频图像中的边界标注框。

4.根据权利要求3所述的方法，其特征在于，

在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪时，进一步设置该物品对应的追踪标志；

判断物品是否被追踪的方法为：如果设置有该物品对应的追踪标志，则确定该物品已经被追踪，否则，确定该物品未被追踪。

5.根据权利要求4所述的方法，其特征在于，

使用核化相关滤波追踪算法对该帧视频图像之后的视频数据进行针对该物品的追踪的过程中，如果对该帧视频图像之后的视频数据中的任一帧视频图像进行针对该物品的追踪失败，则删除该物品对应的追踪标志。

6.根据权利要求2所述的方法，其特征在于，

利用运动捕捉方法确定该帧视频图像中每个物品的边界标注框的方法为：

按照预设比例缩小该帧视频图像；

对缩小后的视频图像进行背景减除；

对背景减除后的视频图像进行二值化处理；

对二值化处理后的视频图像进行中值滤波；

7.一种用于密集拿取物品检测的训练模型生成方法，其特征在于，该方法包括：

预先获取用于密集拿取物品检测的训练样本；所述训练样本是利用如权利要求1-6中任一权项所述的方法提取得到的；

8.根据权利要求7所述的方法，其特征在于，

所述损失函数为排斥Repulsion损失函数,使用以下公式表示:

L＝L_Attr+α×L_RepGT+β×L_RepBox，

其中，L为损失值，L_Attr为检测输出框与边界标注框的吻合程度，L_RepGT为检测输出框与其它物体的边界标注框的远离程度，L_RepBox为检测输出框与其它物体的检测输出框的远离程度，α和β是预先设定的权重系数值。

9.一种用于密集拿取物品检测的训练样本提取装置，其特征在于，该装置包括：

10.根据权利要求9所述的装置，其特征在于，

所述追踪单元，追踪视频数据中的每个物品，确定该物品在每帧视频图像中的边界标注框，包括：

11.根据权利要求10所述的装置，其特征在于，

所述追踪单元，基于该未被追踪的物品在该帧视频图像中的边界标注框，在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪时，用于：

12.根据权利要求11所述的装置，其特征在于，

所述追踪单元，在该帧视频图像之后的视频数据中对该未被追踪的物品进行追踪时，进一步设置该物品对应的追踪标志；

13.根据权利要求12所述的装置，其特征在于，

14.根据权利要求10所述的装置，其特征在于，

所述追踪单元，利用运动捕捉方法确定该帧视频图像中每个物品的边界标注框时，用于：

按照预设比例缩小该帧视频图像；

对缩小后的视频图像进行背景减除；

对背景减除后的视频图像进行二值化处理；

对二值化处理后的视频图像进行中值滤波；

15.一种用于密集拿取物品检测的训练模型生成装置，其特征在于，该装置包括：

获取单元，用于预先获取用于密集拿取物品检测的训练样本；所述训练样本是利用如权利要求1-6中任一权项所述的方法提取得到的；

16.根据权利要求15所述的装置，其特征在于，

所述损失函数为排斥Repulsion损失函数,使用以下公式表示:

L＝L_Attr+α×L_RepGT+β×L_RepBox，

17.一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；其特征在于，所述至少一个处理器执行所述一个或多个计算机程序时实现权利要求1-6任一权项所述的方法步骤。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。

19.一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通过总线相连的存储器；所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序；其特征在于，所述至少一个处理器执行所述一个或多个计算机程序时实现权利要求7-8任一权项所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储一个或多个计算机程序，所述一个或多个计算机程序被处理器执行时实现权利要求7-8中任一项所述的方法。