CN113869343A

CN113869343A - 用于基于视觉的结账的被遮挡物品检测

Info

Publication number: CN113869343A
Application number: CN202110721952.2A
Authority: CN
Inventors: 弗兰克·道格拉斯·希内克; 杨茜
Original assignee: NCR Corp
Current assignee: NCR Voyix Corp
Priority date: 2020-06-30
Filing date: 2021-06-28
Publication date: 2021-12-31
Also published as: US20210407124A1; US11494933B2; US12008614B2; EP3933677A1; US20230012617A1

Abstract

针对单个物品从不同视图训练给定物品的物品识别。然后，针对被第二物品部分遮挡的所述给定物品的图像训练所述物品识别，所述第二物品的形状和特征与所述给定物品的形状和特征相同、相似或不同。当向所述给定物品呈现具有多个不同的被遮挡视图的多个不同的物品时，标注所述物品的一般特征并使用所述一般特征来检测所述给定物品。

Description

用于基于视觉的结账的被遮挡物品检测

技术领域

背景技术

当前的物品结账方法需要将单个物品放在指定架子上，以便于相机捕获或扫描经过扫描器的单个物品的条形码。相机物品捕获和后续物品识别需要对从多个不同角度拍摄的每个物品的各种图像进行大量训练。此外，在训练期间，对图像进行注释，以确保对每个物品进行适当的训练和识别。

与在结账期间一次标识和识别单个物品相关联的当前方法是低效的。客户已经单独选择要购买的物品，并且在结账期间，客户或收银员为了标识要结账的每个物品而再次单独处理每个物品，这非常耗时。

一些技术尝试在结账期间识别多个物品，但此类技术容易出错且准确性差。这是因为当将多个物品放在收银台(已经是小区域)上时，物品会部分覆盖或遮挡彼此在所述收银台上的完整视图。

现有技术试图通过尝试利用全部从不同位置和角度覆盖彼此的多个不同物品训练物品识别来解决这个问题。对可能出现的所有可能的组合进行训练并不可行(如果有可能的话)。因此，这些技术的准确性较差，并且实施这些技术需要很长时间，因为即使实现边缘水平的可接受准确性也需要极大的训练图像大小。此外，训练图像需要手动注释，这意味着即使获得质量良好且大小足够的图像训练集也是相当艰巨的任务。

发明内容

在各种实施例中，呈现了用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的方法和系统。PIN小键盘(PINpad)包含集成式扫描器/相机和独立的安全处理。

根据实施例，提供了一种用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的方法。获得图像；所述图像表示包括多个物品的交易区域。从所述图像中提取特征，并且基于所述特征在所述图像内限定边界框。每个边界框表示不同物品或不同物品集合，其中所述不同物品集合中的至少一个物品在对应的边界框内被遮挡。用所述边界框处理所述特征并且将物品标识符分配到来自所述图像的所述多个物品中的每一个。在交易终端处进行交易期间向交易管理器提供所述物品标识符。

附图说明

图1是根据示例实施例的用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的系统的图式。

图2是根据示例实施例的用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的方法的图式。

图3是根据示例实施例的用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的另一方法的图式。

具体实施方式

根据示例实施例，图1是根据示例实施例的用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的系统100的图式。应注意，组件是以大大简化的形式示意性地示出，其中仅绘示了与对实施例的理解相关的那些组件。

此外，仅出于图解目的，图示了各种组件(标示于图1中)并呈现了所述组件的布置。应注意，在不脱离本文和下文呈现的对具有被遮挡物品视图的多个物品的基于视觉的检测的教示的情况下，具有更多或更少组件的其它布置是可能的。

如本文和下文将更全面地论述，相比于在交易期间对于多个物品的基于视觉的检测通常可实现的数据集，系统100准许针对更小的数据集训练多个机器学习算法。对给定物品训练第一机器学习算法，其中给定物品定向为朝向和远离相机，使得给定物品的不同部分或角度在所捕获图像中可见。提取给定物品的一般特征，并使所述特征与所述物品相关联。对两个物品的不同集合训练第二机器学习算法(每个集合包含给定物品和不同物品)，并且给定物品在每个集合中被部分遮挡。第二训练中的不同物品属于形状同与给定物品相关联的形状相同、相似或不同的物品。在训练两种机器学习算法后，基于视觉的交易捕获交易区域的图像，所述图像包括两个或更多个物品以及每个物品的一个或多个被遮挡视图。物品识别器将图像传递到经过训练的机器学习算法，并且物品标识符从交易区域中的物品返回。向交易管理器提供物品标识符，并且在不进行任何物品扫描且在没有其它交易物品时不单独捕获每个交易物品本身的图像的情况下完成基于视觉的交易。

系统100包括相机110、交易终端120和服务器130。

交易终端120包括处理器121和非瞬态计算机可读存储介质122，所述非瞬态计算机可读存储介质包括表示交易管理器122和物品识别器123(取决于系统100的配置而为任选的)的可执行指令。非瞬态计算机可读存储介质122中的所述可执行指令在由处理器121执行时，使处理器121执行下文关于交易管理器122和物品识别器123所论述的处理。

服务器130包括处理器131和非瞬态计算机可读存储介质132，所述非瞬态计算机可读存储介质包括表示训练器133、机器学习算法134、物品识别器135(取决于系统100的配置而为任选的)和交易管理器 136的可执行指令。非瞬态计算机可读存储介质132中的所述可执行指令在由处理器131执行时，使处理器131执行下文关于训练器133、机器学习算法134、物品识别器135和交易管理器136所论述的处理。

首先，训练器133提供用户界面以训练第一机器学习算法134，从而从物品本身的所拍摄的各种图像中识别物品。例如，物品本身的训练图像可包含物品的由相机110拍摄的俯视图、侧视图、前视图、后/ 背视图、各种倾斜视图等。第一机器学习算法134(在下文中，“机器学习算法”称为“MLA”)提取在训练会话期间作为输入提供的训练图像的特征，此类特征包含颜色、尺寸、大小、边缘、线、形状等。第一MLA 134还为每个训练图像提供来自与训练图像相关联的训练物品的预期物品标识符。第一MLA 134基于所供应的训练图像中的所提取特征而配置权重和因子，使得当在交易期间提供交易物品的后续非训练图像时，MLA 134通过提取物品特征并分配所配置和训练的权重和因子以达到与物品标识符匹配的得分来返回交易物品的物品标识符。应注意，训练图像不是详尽的，包含所有可能的相机角度，并且这没有必要。此外，由于仅单个物品与任何额外物品隔离地训练，因此训练数据集和用于训练的时间长度显著减少。

训练器133提供相同或不同的用户界面以利用额外训练图像训练第二MLA 134。每个额外训练图像包括两个物品一起处于图像中的图像。训练器已经利用第一MLA 134针对仅包括所述物品的图像训练每个物品以供识别(如上文所论述)。每个训练图像示出在不同定向上定向的两个物品，其在所述训练图像中具有这两个物品或这两个物品中的仅一个物品的部分遮挡视图。同样，这一对物品的训练图像中存在的不同定向和不同遮挡不需要且不预期是详尽的。第二MLA 134还为每个训练图像中的每个物品提供对应的所执行物品标识符。然后，第二MLA 134提取特征并分配权重和因子，以便根据单个图像自动预测物品标识符，这类似于上文关于第一MLA 134讨论的内容。

训练并配置物品识别器135以从由相机110提供的多个物品中标识给定物品，以检测图像中的每个潜在唯一物品的像素特征。然后，物品识别器将单个图像裁剪成一系列图像，所述系列中的每个图像包括单个物品的特征(线、边缘、形状、颜色等)或两个或更多个物品的特征，其中两个或更多个物品存在遮挡。

然后，将从具有多个物品的交易区域的单个所捕获图像获得的已裁剪图像提供到第一MLA 134(当所述已裁剪图像中仅存在一个物品时)或第二MLA 134(当所述已裁剪图像中存在两个或更多个物品时)。第一MLA 134和第二MLA 135将每个已裁剪图像的物品标识符作为输出返回到物品识别器135。

每个已裁剪图像表示给定物品或具有至少一个物品的物品集合的边界框，所述物品具有与已裁剪图像中的另一个物品相关联的被遮挡或被阻挡像素。当存在被遮挡或被阻挡的像素时，可以将边界框作为输入传递到第二MLA 134以用于物品检测。

然后，物品识别器135向交易管理器136提供交易区域的单个图像的物品标识符。交易管理器136获得每个物品标识符的物品细节和物品定价，并向交易管理器123提供所述物品细节和物品定价，以在交易终端120的交易显示器上呈现。

系统100对两个重叠物品执行训练，所述训练使得能够通过推断来检测N个(大于2个重叠物品)重叠物品。因此，可以通过对简化数据集进行训练来推广可扩展性。另外，根据一个相机视图检测例如边界框(已裁剪图像)等一般特征使得能够根据其它视图进行检测。来自多视图的例如形状、边缘和颜色等特性共享共同特征，并且可以彼此推广。另外，对某些物品进行训练的边界框检测模型能够检测未被看到的物品。例如，充分表示边缘特征的训练集不需要包含所有要检测的物品。此外，并且在实施例中，通过将识别模型分成检测-分类级联，只需要4,000个图像就能获得适当的检测模型，所述检测模型不仅可以检测被遮挡物品，还可以基于迁移学习而检测尚未训练的物品。在实施例中，在训练之后，要分类的每个物品只需要几百个训练图像就能从简单得多的分类器获得高准确性分类，这样做的准确性明显高于现有识别模型，并且系统100所需要的训练图像更少。因此，系统 100准许相比于现有技术提高准确性，同时系统100所需要的训练数据远少于现有技术。与行业中的教示相反，在准确性提高的同时，所需的训练减少。

在实施例中，系统100被配置成使得物品识别器124对终端120 执行上文针对物品识别器135所论述的处理。在此类实施例中，单个所捕获图像的已裁剪图像可以作为像素坐标发送到第一MLA 134或第二MLA 134，使得多个图像无需经由终端120与服务器130之间的网络连接进行传送；实际上，仅发送元数据坐标，这大大减少了网络带宽并且对应地减少了第一MLA 134和第二MLA 134提供物品标识符时的响应时间。

在实施例中，系统100配置有物品识别器123和135两者，这两个物品识别器协作以从第一MLA 134和第二MLA 134获得物品标识符。

在实施例中，至少一个相机110集成到终端110中。

在实施例中，终端110是由客户在进行基于视觉的交易结账期间操作的自助服务终端(SST)。

在实施例中，终端110是由收银员操作的销售点(POS)终端，以帮助客户进行基于视觉的交易结账。

在实施例中，服务器120是作为云处理环境(云)进行逻辑协作的多个服务器之一。

现在参考图2到3讨论这些和其它实施例。

现在参考图2到3讨论这些实施例和其它实施例。

图2是根据示例实施例的用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的方法200的图式。实施方法200的软件模块被称为“基于视觉的多物品标识符”。基于视觉的多物品标识符被实施为可执行指令，所述可执行指令经过编程且驻存在存储器和/或非瞬态计算机可读(处理器可读)存储介质内，并由装置的一个或多个处理器执行。执行基于视觉的多物品标识符的装置的处理器经过专门配置和编程，以处理基于视觉的多物品标识符。基于视觉的多物品标识符可在其处理期间访问一个或多个网络连接。网络连接可以是有线的、无线的或有线与无线的组合。

在实施例中，执行基于视觉的多物品标识符的装置是终端120。在实施例中，终端120是基于视觉的SST。在实施例中，终端120是基于视觉的POS终端。

在实施例中，执行基于视觉的多物品标识符的装置是服务器130。在实施例中，服务器130是包括云处理环境(云)的多个服务器之一。

在实施例中，基于视觉的多物品标识符是交易管理器123、物品识别器124、MLA134、物品识别器135和/或交易管理器136中的全部或某一组合。

在210处，基于视觉的多物品标识符获得表示包括多个物品的交易区域的图像。

在实施例中，在211处，基于视觉的多物品标识符通过从图像去除与交易区域的已知背景场景相关联的像素来裁剪图像。

在220处，基于视觉的多物品标识符从图像提取特征。

在211和220的实施例中，在221处，基于视觉的多物品标识符从图像中标识形状、颜色、特定特征之间的边界、边缘和线。

在230处，基于视觉的多物品标识符基于特征而在图像内限定边界框，每个边界框表示不同物品或不同物品集合，其中所述不同物品集合中的至少一个物品在对应的边界框内被遮挡。

在240处，基于视觉的多物品标识符利用边界框处理特征，并且将物品标识符分配给来自图像的多个物品中的每一个。

在221和240的实施例中，在241处，基于视觉的多物品标识符标识第一组边界框，所述第一组边界框包括从图像内的视图看未被阻挡的单物品的单物品特征，其中每个单物品表示对应的不同物品。

在241的实施例中且在242处，基于视觉的多物品标识符将第一组边界框和对应的单物品特征提供到经过训练的第一机器学习算法，并且从经过训练的第一机器学习算法接收表示单物品的第一物品标识符作为输出。

在242的实施例中且在243处，基于视觉的多物品标识符标识第二组边界框，所述第二组边界框包括从图像内的视图看被遮挡的被遮挡物品的多物品特征，其中每个被遮挡物品表示对应的不同物品集合。

在243的实施例中且在244处，基于视觉的多物品标识符将第二组边界框和对应多物品特征提供到经过训练的第二机器学习算法，并且从经过训练的第二机器学习算法接收表示被遮挡物品的第二物品标识符作为输出。

在250处，在交易终端处进行交易期间，基于视觉的多物品标识符向交易管理器提供物品标识符。

在260处，交易管理器基于物品标识符而获得物品细节和物品定价。

在260的实施例中且在261处，交易管理器基于物品定价而从客户获得与交易相关联的支付细节。

在261的实施例中且在262处，交易管理器从与支付细节相关联的支付服务获得客户的支付，并在交易终端处完成与客户的交易。

图3是根据示例实施例的用于对具有被遮挡物品视图的多个物品进行基于视觉的检测的另一方法300的图式。实施方法300的软件模块被称为“被遮挡物品标识符”。被遮挡物品标识符被实施为可执行指令，所述可执行指令经过编程且驻存在存储器和/或非瞬态计算机可读 (处理器可读)存储介质内，并由装置的一个或多个处理器执行。执行被遮挡物品标识符r的处理器经过专门配置和编程，以处理被遮挡物品标识符。被遮挡物品标识符可在其处理期间访问一个或多个网络连接。网络连接可以是有线的、无线的或有线与无线的组合。

在实施例中，执行被遮挡物品标识符的装置是服务器120。在实施例中，服务器120是作为单个云处理环境(云)进行逻辑协作的多个服务器之一。

在实施例中，被遮挡物品标识符是训练器133、MLA 134、物品识别器135、交易管理器136和/或方法200中的全部或某一组合。

被遮挡物品标识符呈现上文所论述的方法200的另一且在某些方面增强的处理视角。

在310处，被遮挡物品标识符针对第一图像训练第一机器学习算法以基于第一图像中存在的第一物品的未遮挡视图而标识第一物品。

在实施例中，在311处，被遮挡物品标识符提供第一图像作为第一物品中的每一个的多个不同的相机角度视图。

在320处，被遮挡物品标识符针对第二图像训练第二机器学习算法以基于第二图像中存在的多对第二物品的被遮挡视图而标识第二物品。

在实施例中，在321处，被遮挡物品标识符提供第二图像作为每对第二物品的多个不同的被遮挡视图。

在330处，在交易终端处进行交易期间，被遮挡物品标识符接收交易区域的交易图像。

在实施例中，在331处，被遮挡物品标识符通过去除交易图像中存在的已知背景场景而将交易图像裁剪为已裁剪图像。

在340处，被遮挡物品标识符在交易图像内创建边界框，所述边界框包括与第一物品的未遮挡视图相关联的第一边界框和与第二物品的被遮挡视图相关联的第二边界框。

在实施例中，在341处，被遮挡物品标识符从已裁剪图像中标识特征，并处理特征以标识未遮挡视图和被遮挡视图。

在350处，被遮挡物品标识符将第一边界框提供到第一机器学习算法，并接收回对应第一物品的第一物品标识符。

在341和350的实施例中，在351处，被遮挡物品标识符将与第一边界框相关联的对应特征提供到第一机器学习算法。

在360处，被遮挡物品标识符将第二边界框提供到第二机器学习算法，并接收回对应第二物品的第二物品标识符。

在351和360的实施例中，在361处，被遮挡物品标识符将与第二边界框相关联的对应特征提供到第二机器学习算法。

在370处，被遮挡物品标识符用第一物品标识符和第二物品标识符处理交易。

此外，尽管软件模块示为在一件硬件上执行，但软件可跨越多个处理器或以任何其它方便方式分布。

以上描述是说明性且非限制性的。所属领域的技术人员在查阅以上描述后将会明白许多其它实施例。因此，实施例的范围应参考随附的权利要求书连同此些权利要求书有权拥有的等效物的完整范围加以确定。

在实施例的前述描述中，将各种特征分组在单个实施例中以简化本公开。这种公开方法不应理解为反映所要求实施例的特征比各权利要求中明确表述的特征要多。实际上，如所附权利要求书所反映，本发明主题在于单个公开实施例的不到全部的特征。因此，以下权利要求书在此并入具体实施方式，其中每项权利要求自身代表单独的示范性实施例。

Claims

1.一种方法，其包括：

针对第一图像训练第一机器学习算法以基于所述第一图像中存在的第一物品的未遮挡视图而标识所述第一物品；

针对第二图像训练第二机器学习算法以基于所述第二图像中存在的多对第二物品的被遮挡视图而标识所述第二物品；

在交易终端处进行交易期间接收交易区域的交易图像；

在所述交易图像内创建边界框，所述边界框包括与所述第一物品的所述未遮挡视图相关联的第一边界框和与所述第二物品的所述被遮挡视图相关联的第二边界框；

将所述第一边界框提供到所述第一机器学习算法，并接收回对应第一物品的第一物品标识符；

将所述第二边界框提供到所述第二机器学习算法，并接收回对应第二物品的第二物品标识符；以及

用所述第一物品标识符和所述第二物品标识符处理所述交易。

2.根据权利要求1所述的方法，其中训练所述第一机器学习算法进一步包含提供所述第一图像作为所述第一物品中的每一个的多个不同的相机角度视图。

3.根据权利要求1所述的方法，其中训练所述第二机器学习算法进一步包含提供所述第二图像作为每对所述第二物品的多个不同的被遮挡视图。

4.根据权利要求1所述的方法，其中接收进一步包含通过去除所述交易图像中存在的已知背景场景而将所述交易图像裁剪为已裁剪图像。

5.根据权利要求4所述的方法，其中创建进一步包含从所述已裁剪图像中标识特征，并处理所述特征以标识所述未遮挡视图和所述被遮挡视图。

6.根据权利要求5所述的方法，其中提供所述第一边界框进一步包含将与所述第一边界框相关联的对应特征提供到所述第一机器学习算法。

7.根据权利要求6所述的方法，其中提供所述第二边界框进一步包含将与所述第二边界框相关联的所述对应特征提供到所述第二机器学习算法。

8.一种系统，其包括：

相机；

交易终端；

服务器，其包括处理器和非瞬态计算机可读存储介质，所述非瞬态计算机可读存储介质具有可执行指令；并且

所述可执行指令在由所述处理器从所述非瞬态计算机可读存储介质执行时，使所述处理器执行包括以下各项的处理：

从所述相机获得交易的交易区域的交易图像；

通过去除与所述交易区域相关联的已知背景场景而将所述交易图像裁剪为已裁剪图像；

从所述已裁剪图像提取特征；

基于所述特征而从所述已裁剪图像中标识单物品；

基于所述特征而标识重叠的具有被遮挡视图的多个物品；

从经过训练的第一机器学习算法获得所述单物品的第一物品标识符；

从经过训练的第二机器学习算法获得所述多个物品的第二物品标识符；以及

处理所述第一物品标识符和所述第二物品标识符以在所述交易终端处完成交易。

9.根据权利要求8所述的系统，其中所述交易终端是自助服务终端(SST)。

10.根据权利要求9所述的系统，其中所述SST是基于视觉的SST，其通过提供所述第一物品标识符和所述第二物品标识符而基于所述交易图像执行交易物品的物品识别。

11.一种方法，包括权利要求1-7中的任意一个技术特征或者技术特征的任意组合。

12.一种系统，包括权利要求8-10中的任意一个技术特征或者技术特征的任意组合。