CN111738184B

CN111738184B - 一种商品取放识别方法、装置、系统及设备

Info

Publication number: CN111738184B
Application number: CN202010600350.7A
Authority: CN
Inventors: 邹明杰; 张天琦; 程浩; 吴昌建; 陈鹏; 戴华东; 龚晖; 张玉全; 张迪; 朱皓
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2023-09-26
Anticipated expiration: 2040-06-28
Also published as: CN111738184A

Abstract

本申请提供一种商品取放识别方法、装置、系统及设备，包括：接收到重力检测设备上报的货格信息，并基于货格信息确定目标货格取或放商品及其数量；依据所述重量变化的目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；从所述目标视频流中识别出与所述目标货格关联的目标手部对象、以及所述目标手部对象取或放的商品及其数量；若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联。使用本申请提供的方法可以提高商品取放识别的准确性。

Description

一种商品取放识别方法、装置、系统及设备

技术领域

本申请涉及图像处理领域，尤其涉及一种商品取放识别方法、装置、系统及设备。

背景技术

随着电子支付技术、身份感知技术及云计算技术的发展，无人超市项目在技术上具备很高的可行性。

在无人超市项目中，电子设备需要准确识别用户从货格上取或放的商品及其数量，以自动更新用户的虚拟购物车的商品信息，并基于虚拟购物车实现为客户的自动结算。

因此，如何准确识别用户取或放的商品及其数量就成为亟待解决的问题。

发明内容

有鉴于此，本申请提供一种商品取放识别方法、装置、系统及电子设备，用于提高商品取放识别的准确性。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提供一种商品取放的识别方法，所述方法应用于电子设备，包括：

接收到重力检测设备上报的货格信息：所述货格信息包括：配备有所述重力检测设备的目标货格的目标货格标识、目标货格发生重量变化的目标时间、重量变化后的目标货格重量；所述货格信息是所述重力检测设备在检测到所述目标货格的重力发生变化后上报的；

基于所述目标货格标识、所述重量变化后的目标货格重量，确定目标货格被取或放的商品及其数量；

依据所述目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；所述目标视频流包括：采集时间在目标时间之后的至少一组第一预设数量图像帧、和/或采集时间在目标时间之前的至少一组第二预设数量图像帧；目标监控设备至少用于采集所述目标货格所处区域的视频流；

从所述目标视频流中识别出与所述目标货格关联的目标手部对象、以及所述目标手部对象取或放的商品及其数量；

若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联。

可选的，所述基于所述目标货格标识、所述重量变化后的目标货格重量，确定目标货格被取或放的商品及其数量，包括：

在预设的货格标识、商品标识、单件商品重量、货格原有重量的对应关系中，查找所述目标货格标识对应的商品标识、单件商品重量和货格原有重量；

基于查找到的货格原有重量和所述重量变化后的目标货格重量，确定所述目标货格的重量变化量；

基于所述货格的重量变化量和查找到的单件商品重量，确定商品数量；

将查找到的商品标识和确定出的商品数量作为该目标货格被取或放的商品及其数量。

可选的，从所述目标视频流中识别出与所述目标货格关联的目标手部对象，包括：

在预设的货格标识与货格顶点三维坐标信息的对应关系中，查找与所述目标货格标识对应的目标货格顶点三维坐标信息，基于所述目标货格顶点三维坐标信息，确定所述目标货格对应的目标三维区域；

获得从所述目标视频流的每一帧视频图像中识别出的手部对象的手部对象三维坐标信息，将手部对象三维坐标信息处于所述目标三维区域中的手部对象确定为所述目标手部对象。

可选的，从所述目标视频流中识别出所述目标手部对象取或放的商品及其数量，包括：

在所述目标视频流的各视频图像中确定所述目标手部对象对应的目标手部区域；

依据所述目标视频流的各视频图像中目标手部区域的商品，确定目标手部对象取或放的商品及其数量。

可选的，所述依据所述目标视频流的各视频图像中目标手部区域的商品，确定目标手部对象取或放的商品及其数量，包括：

依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量；

依据在所述目标时间之后和/或在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定目标手部对象取或放的目标商品及其目标数量。

可选的，依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识，包括：

从所有第一预设数量图像帧的所有视频图像中目标手部区域的商品标识中，选择第一目标商品标识，并将所述第一目标商品标识作为在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识；其中，所有第一预设数量图像帧中包含所述第一目标商品标识的视频图像的个数最多，或者所述第一目标商品标识为所述目标货格被取或放的商品标识；

和/或，

从所有第二预设数量图像帧的所有帧视频图像中目标手部区域的商品标识中，选择第二目标商品标识，作为在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识；其中，所有第二预设数量图像帧中包含所述第二目标商品标识的视频图像的个数最多，或者所述第二目标商品标识为所述目标货格被取或放的商品标识。

可选的，在所述监控设备的数量为一个的情况下，依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量，包括：

在来自于所述监控设备的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量中，选择候选商品标识对应的数量作为所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品的候选商品数量；和/或，在来自于该所述监控设备的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量中，选择候选商品标识对应的数量作为所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品的候选商品数量。

可选的，在所述监控设备的数量为多个的情况下，依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量，包括：

从来自于不同监控设备的各第一预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，从来自于不同监控设备的各第二预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量。

可选的，所述依据在所述目标时间之后和/或在所述目标时间之前目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定目标手部对象取或放的目标商品及其目标数量，包括：

依据在所述目标时间之后和/或目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定该候选商品标识对应的所有候选数量，从所述所有候选数量中，选择至少一个目标候选数量；其中，目标候选数量以及该候选商品标识二者共同关联的帧标识的个数大于设定阈值；

从至少一个目标候选数量中选择最大候选数量，将所述候选商品标识和所述最大候选数量作为目标手部对象持有的参考商品及其参考数量；

基于在所述目标时间之后和/或目标时间之前确定的目标手部对象持有的参考商品及其参考数量，确定目标手部对象取或放的目标商品及其目标数量。

可选的，所述若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联，包括：

确定从所述目标视频流中识别出与所述目标货格关联的目标手部对象的数量；

在所述目标手部对象的数量为一个的情况下，若所述目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量匹配，则将所述目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联；

在所述目标手部对象的数量为多个的情况下，若任一目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，则将该任一目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联；若所有目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量不匹配，则对所有目标手部对象取或放的同一商品的数量进行累加，若该商品及其累加数量与所述目标货格被取或放的商品及其数量匹配，则将各目标手部对象对应的目标用户标识与该目标手部对象取或放的商品及其数量关联。

根据本申请的第二方面，提供一种商品取放的识别装置，所述装置应用于电子设备，包括：

接收单元，用于接收到重力检测设备上报的货格信息：所述货格信息包括：配备有所述重力检测设备的目标货格的目标货格标识、目标货格发生重量变化的目标时间、目标货格重量变化后的重量；所述货格信息是所述重力检测设备在检测到所述目标货格的重力发生变化后上报的；

确定单元，用于基于所述目标货格标识、所述目标货格重量变化后的重量，确定目标货格被取或放的商品及其数量；

获取单元，用于依据所述目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；所述目标视频流包括：采集时间在目标时间之后的至少一组第一预设数量图像帧、和/或采集时间在目标时间之前的至少一组第二预设数量图像帧；目标监控设备至少用于采集所述目标货格所处区域的视频流；

识别单元，用于从所述目标视频流中识别出与所述目标货格关联的目标手部对象、以及所述目标手部对象取或放的商品及其数量；

关联单元，用于若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联。

根据本申请的第三方面，提供一种商品取放的识别系统，所述系统包括：电子设备、重力检测设备、以及至少一个监控设备；

所述重力检测设备，用于在检测到配备有本重力检测设备的目标货格的重量发生变化时，向电子设备上报货格信息；所述货格信息包括：所述目标货格的目标货格标识、所述目标货格发生重量变化的目标时间、重量变化后的目标货格重量；

所述监控设备，用于至少用于采集所述目标货格所处区域的视频流，并将采集的视频流发送给所述电子设备；

所述电子设备，用于接收到重力检测设备上报的货格信息，基于所述目标货格标识、所述重量变化后的目标货格重量，确定目标货格被取或放的商品及其数量；依据所述目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；所述目标视频流包括：采集时间在目标时间之后的至少一组第一预设数量图像帧、和/或采集时间在目标时间之前的至少一组第二预设数量图像帧；目标监控设备至少用于采集所述目标货格所处区域的视频流；从所述目标视频流中识别出与所述目标货格关联的目标手部对象、以及所述目标手部对象取或放的商品及其数量；若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联。

根据本申请的第四方面，提供一种电子设备，所述电子设备包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现第一方面所述方法的步骤。

由上述描述可知，电子设备结合重力检测设备上报的目标货格被取或放的商品及其数量、以及从视频流中识别出的目标用户在目标货格上取或放的商品及其数量，来确定目标用户实际在目标货格上取或放的商品及其数量，从而到达商品取放的识别。

由于电子设备在进行商品取放识别时，结合了重力检测设备上报的信息和从视频流识别出的信息这两方面信息，所以商品取放的识别更为准确。

附图说明

图1是本申请一示例性实施例示出的一种商品取放识别系统的组网架构图；

图2是本申请一示例性实施例示出的一种监控设备部署的示意图；

图3是本申请一示例性实施例示出的一种商品取放的识别方法的流程图；

图4是本申请一示例性实施例示出的一种货格和货架的示意图；

图5是本申请一示例性实施例示出的一种电子设备的硬件结构图；

图6是本申请一示例性实施例示出的一种商品取放的识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请旨在提出一种商品取法的识别方法，用于在无人监管购物场景中，自动识别用户取或放的商品及其数量，并基于识别出的商品及其数量自动更新该用户的虚拟购物车中的商品信息。

在本申请中，电子设备结合重力检测设备上报的目标货格被取或放的商品及其数量、以及从视频流中识别出的目标用户在目标货格上取或放的商品及其数量，来确定目标用户实际在目标货格上取或放的商品及其数量，从而到达商品取放的识别。

参见图1，图1是本申请一示例性实施例示出的一种商品取放识别系统的组网架构图。

该组网包括：至少一个可以进行深度信息检测的监控设备、电子设备、以及重力检测设备。

1)监控设备

监控设备是指可以采集图像，并且可以提供图像中的目标对象的深度信息的监控设备。

比如该监控设备可以是双目相机，具有两个摄像头，其中一个摄像头可以采集视野范围内的RGB图像，另一个摄像头可以采集灰度图像。监控设备可以基于RGB图像和灰度图像确定出RGB图像中的目标对象的三维坐标等。这里只是对监控设备的功能进行示例性地说明，不对其进行具体地限定。

在部署监控设备时，可部署一个监控设备，使得该监控设备的监控区域至少包括货架各个货格所处的区域。当然在实际应用中，为了保证监控设备视野内的商品不被遮挡，或者不出现视野盲区。本申请可以在货架周围的不同方位配置多个监控设备。每个监控设备的监控区域均包含货架各个货格所处区域，每个监控设备彼此之间的监控区域可以相互补充，以防止商品被遮挡或出现视野盲区。

此外，为了保证监控设备可以采集到在货架上进行商品取或放操作的用户的视频图像，每个监控设备的监控区域还包括货架区域的前方指定区域(比如货架前方50cm的区域)。这样的部署使得监控设备不仅能采集到包含商品的图像，还可以采集到货架前的用户的图像。

例如，如图2所示，在部署时，可将两个监控设备架设在货架正前方约2.5m高的位置上，分别拍摄货架的下方一个角落且监控设备中轴线与水平面呈约45°，保证监控设备能够覆盖到货架及货架前方50cm的区域。

这里只是对监控设备的部署方式进行示例性地说明，不对其进行具体地限定。

2)重力检测设备

货架的每个货格上可配备重力检测设备。重力检测设备可以检测货格的重量变化，当检测到货格重力发生变化时，重力检测设备可以确定货格被取或放的商品以及数量，并向电子设备上报商品取放信息。

3)电子设备

电子设备可以接收监控设备采集的视频流，以及接收重力检测设备上报的商品取放信息，电子设备可以基于这两方面信息来进行商品取放的识别。

参见图3，图3是本申请一示例性实施例示出的一种商品取放的识别方法的流程图，该方法可应用在电子设备上，可包括如下所示步骤。

步骤301：电子设备接收到重力检测设备上报的货格信息：所述货格信息包括：配备有所述重力检测设备的目标货格的目标货格标识、目标货格发生重量变化的目标时间、重量变化后的目标货格重量；所述货格信息是所述重力检测设备在检测到所述目标货格的重力发生变化后上报的。

在实现时，重力检测设备在检测到配备有本重力检测设备的目标货格的重力发生变化时，重力检测设备可向电子设备上报货格信息。该货格信息至少包括：配备有所述重力检测设备的目标货格的目标货格标识、目标货格发生重量变化的目标时间(目标时间是指重量变化的时间，为了方便叙述，这里目标时间记为T)、重量变化后的目标货格重量。

步骤302：电子设备基于所述目标货格标识、所述重量变化后的目标货格重量，确定目标货格被取或放的商品及其数量。

在本申请实施例中，每个货格上配置了一种商品，电子设备上配置了货格标识、商品标识、单件商品重量、以及货格原有重量的对应关系。电子设备可在该对应关系中，查找目标货格的目标货格标识对应的商品标识、单件商品重量和目标货格原有重量。其中，目标货格原有重量即是重量发生变化前该目标货格的重量。

电子设备基于查找到的货格原有重量和所述重量变化后的目标货格重量，确定所述目标货格的重量变化量。

然后，电子设备可基于目标货格的重量变化量、以及查找到的单件商品重量，确定出商品数量。电子设备可将查找到的商品标识所指示的商品作为目标货格被取或放的商品，以及将确定出的商品数量作为目标货格被取或放的商品数量。

需要说明的是，在一种可选的实现方式中，电子设备可计算重量变化后的目标货格重量与重量变化前的目标货格重量的差值作为上述重量变化量。若该重量变化量为正值，则表明目标货格上被放置了商品。若该重量变化量为负值，则表明目标货格被取走了商品。当然，电子设备还可采用其他方式来区分目标货格被取或放商品的两种场景。

例如，假设货格标识、商品标识、以及单件商品重量的对应关系可如表1所示。

货格标识	商品标识	单件商品重量	货格原有重量
				货格1	可乐	250g	500g

表1

假设，重量变化后的货格1的重量为0g，确定出重量变化量为-500g。

电子设备可在表1中查找货格1对应的商品标识(即可乐)、以及单件商品重量(即250g)、以及货格1的原有重量(即500g)。然后，电子设备可基于货格1的原有重量(即500g)、以及重量变化后的货格1的重量(即0g)确定出的重量变化量(即-500g)、以及单件商品重量(即250g)，确定出商品数量(即2个)。然后，重力检测设备可确定货格1被取走了2个可乐。

需要说明的是，在确定出目标货格取或放商品及其数量后，电子设备可采用该货格信息中携带的重量变化后的目标货格重量，更新与目标货格对应的对应关系中的货格原有重量。

步骤303：电子设备依据所述目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；所述目标视频流包括：采集时间在目标时间之后的至少一组第一预设数量图像帧、和/或采集时间在目标时间之前的至少一组第二预设数量图像帧；目标监控设备至少用于采集所述目标货格所处区域的视频流。

下面从视频流的采集，以及目标视频流的获取两方面对步骤302进行详细地说明。

1)视频流的采集

在一种可选的实现方式中，任一监控设备可持续采集视频流，并定期将视频流上报给电子设备。

在另一种可选的实现方式中，监控设备在检测到视野范围内出现用户，就开启视频流采集功能。在检测到视野范围内没有用户，且采集功能已开启的情况，停止视频流采集功能。监控设备可定期将采集的视频流上报给电子设备

这里只是对监控设备采集视频流进行示例性地说明，不对其进行具体地限定。

2)目标视频流的获取

由于每个监控设备均会上报采集的视频流，所以电子设备上储存了每个监控设备采集的视频流。

比如，假设部署了2个监控设备，监控设备1会向电子设备上报货架区域在9:00-9:10的视频流，同时，监控设备2也会向电子设备上报货架区域在9:00-9:10的视频流。也就是说，不同监控设备上报的视频流对应的货架场景和时间组是相同的。

针对每一个监控设备采集的视频流，电子设备可从该视频流中获取采集时间在重量变化的目标时间T之前的一组第二预设数量图像帧，以及获取在重量变化的时间T之后的一组第一预设数量图像帧。

由此，电子设备可以得到与每个监控设备对应的第一预设数量图像帧和第二预设数量图像帧，电子设备可将得到的至少一组第一预设数量图像帧和至少一组第二预设数量图像帧作为目标视频流。

例如，假设部署了2个监控设备，分别为监控设备1和监控设备2。监控设备1采集的视频流为视频流1，监控设备2采集的视频流为视频流2。

电子设备可从视频流1中获取T之前的第二预设数量图像帧1，以及T之后的第一预设数量图像帧1。

电子设备可从视频流2中获取T之前的第二预设数量图像帧2，以及T之后的第一预设数量图像帧2。

电子设备可将第一预设数量图像帧1、第一预设数量图像帧2、第二预设数量图像帧1和第二预设数量图像帧2作为目标视频流。

需要说明的是，在每个监控设备采集的视频流中获取第一预设数量图像帧和第二预设数量图像帧时，电子设备可获取该时间T之前第二预设数量的图像帧，作为第二预设数量图像帧，获取时间T之后第一预设数量的图像帧，作为第二预设数量图像帧。

这里只是对第一预设数量图像帧和第二预设数量图像帧的获取进行示例性地说明，不对其进行具体地限定。

步骤304：电子设备从所述目标视频流中识别出与所述目标货格关联的目标手部对象、以及所述目标手部对象取或放的商品及其数量。

下面从目标手部对象的识别、以及目标手部对象取或放的商品及其数量的识别这两面进行详细地说明。

1)目标手部对象的识别

下面通过步骤A1至步骤A2对“目标手部对象的识别”进行详细地说明。

步骤A1：电子设备在预设的货格标识与货格顶点三维坐标信息的对应关系中，查找与所述目标货格标识对应的目标货格顶点三维坐标信息，基于所述目标货格顶点三维坐标信息，确定所述目标货格对应的目标三维区域。

在实现时，本申请预配置了货格标识与货格顶点三维坐标信息的对应关系。其中货格的三维坐标信息和手部对象三维坐标信息对应同一坐标系。

电子设备可在该对应关系中，查找目标货格标识对应的目标货格顶点的三维坐标信息。

然后电子设备可基于目标货格顶点的三维坐标信息，确定目标货格对应的目标三维区域。

在确定目标三维区域时，在一种可选的实现方式中，假设将目标货格想象为长方体。电子设备可以基于目标货格三维坐标信息，确定出目标货格正对用户的正面的中心点的三维坐标信息。然后，电子设备可以该中心点的三维坐标信息作为球心，以预设值作为半径，生成三维球型区域，并将该三维球型区域作为目标货格对应的目标三维区域。

例如，如图4所示，假设货格1为目标货格，货格1正对用户的正面为面ABCD，货格1正面的中心点为图4中的点O。电子设备可以以点O为球心，以预设值作为半径，生成三维球型区域。

需要说明的是，在实际应用中，该预设值可以是货格宽度的1.5倍。当然，该预设值也可以是其他值，这里只是对该预设值进行示例性地说明，不对其进行具体地限定。

当然，在实际应用中，电子设备也可以通过其他方式确定目标三维区域。比如，电子设备可将目标货格顶点三维坐标围成的区域，作为目标三维区域。这里只是对确定目标三维区域进行示例性地说明，不对其进行具体地限定。

步骤A2：电子设备获得从所述目标视频流的每一帧视频图像中识别出的手部对象的手部对象三维坐标信息，将手部对象三维坐标信息处于所述目标三维区域中的手部对象确定为所述目标手部对象。

在实现时，电子设备可获得从目标视频流的每一帧视频图像中识别出的手部对象的手部对象三维坐标信息。

然后，电子设备可从识别出的所有手部对象中，选择手部对象三维坐标信息处于上述目标三维区域中的手部对象，并将选择出的手部对象确定为目标手部对象。

下面介绍几种“获得从所述目标视频流的每一帧视频图像中识别出的手部对象的手部对象三维坐标信息”的方式：

方式一：监控设备对采集的视频流中的每帧图像进行识别，将识别得到的手部对象的二维坐标和三维坐标发送给电子设备。

在实现时，在采集到视频流后，监控设备可对视频流中的每一帧图像进行识别，若该帧图像中存在用户，则识别得到该用户的手部对象信息。其中，手部对象信息可包括：手部对象在该帧视频图像中的二维坐标信息、手部对象的三维坐标信息。上述手部对象可包括左手和/或右手。

下面以监控设备为双目相机为例，对“监控设备可对视频流中的每一帧图像进行识别，若该帧图像中存在用户，则得到该用户的人脸信息、手部对象信息”进行说明。

双目相机的每一目可采集一段视频流。比如双目相机的一目可采集RGB视频流，另一目可采集灰度图像视频流。这两段视频流中相同帧标识的图像是关联的。比如，RGB视频流第一帧图像表示货架区域在时刻1的RGB图像，灰度图像视频流的第一帧图像表示货架区域在时刻1的灰度图像。两个图像对应的场景和时刻相同。

双目相机可以将RGB视频流中的每一帧RGB图像输入至识别模型中，以得到每一帧图像中的用户的手部对象的二维坐标信息。其中该识别模型可以是神经网络模型，比如CNN模型等，这里只是对识别模型进行示例性地说明，不对其进行具体地限定。

此外，双目相机还可结合每一帧的RGB图像以及该RGB图像对应的灰度图像，确定手部对象的三维坐标信息。

双目相机可将从每帧视频图像中识别出的手部对象信息发送给电子设备。

此外，双目相机还可从每帧图像中识别用户的人脸信息等其他信息，并将其他信息上报给电子设备，这里只是对双目相机识别的信息进行示例性地说明，不对其进行具体地限定。

方式二：电子设备对各监控设备上报的视频流的每帧视频图像进行识别，识别得到每帧视频图像中的手部对象信息。

其中，该手部对象信息包括：手部对象的三维坐标信息和手部对象的二维坐标信息等，这里只是对手部对象信息进行示例性地说明，不对其进行具体地限定。

具体手部对象信息的识别方法与方式一相同，这里不再赘述。

其中，识别出的目标手部对象可以是一个，也可以是多个。

2)目标手部对象取或放的商品及其数量的识别

每个目标手部对象取或放的商品及其数量的识别都是相同，这里以针对一个目标手部对象取或放的商品及其数量的识别为例，进行介绍。

下面通过步骤B1至步骤B2对“目标手部对象取或放的商品及其数量的识别”进行说明。

步骤B1：电子设备在所述目标视频流的各视频图像中确定所述目标手部对象对应的目标手部区域。

在实现时，在确定出目标手部对象后，电子设备可在获得的各手部对象的手部信息中，确定目标手部对象在各帧视频图像中的二维坐标。

针对每一帧视频图像，电子设备可以以该目标手部对象在该帧视频图像中的二维坐标所指示的点作为中心，然后依据预设的外扩尺寸沿中心进行外扩，得到目标手部对象在该帧视频图像中的目标手部区域。

其中，外扩尺寸与货格和监控设备的距离相关。当货格与监控设备的距离越近时，该外扩尺寸越大。当货格与监控设备的距离越远时，外扩尺寸越小。

这里只是对目标手部区域的确定进行示例性地说明，不对其进行具体地限定。

步骤B2：电子设备依据所述目标视频流的各视频图像中目标手部区域的商品，确定目标手部对象取或放的商品及其数量。

下面通过步骤B21至步骤B24对步骤B2进行详细地说明。

步骤B21：电子设备对目标视频流的各视频图像中的目标手部区域的商品进行识别，得到每一帧视频图像对应的商品及其数量。

下面介绍下从一帧视频图像中识别出该帧视频图像对应的商品及其数量的方式。

在实现时，针对目标视频流中的每一帧视频图像，电子设备可截取该帧视频图像中的目标手部区域。然后，电子设备可将截取出的目标手部区域输入至商品识别模型中，以获取商品识别模型输出的目标手部区域中的商品及其数量。

在一种可选的实现方式中，该商品识别模型可包括实例分割子模型和识别子模型。

实例分割子模型可将目标手部区域中的不同商品进行切分，得到至少一个商品图像，其中每个商品图像对应一个商品。

然后，实例分割子模型可将切分出的每一个商品图像输入至识别子模型中，识别子模型可以提取该商品图像中的商品的特征。然后将该特征与预设商品特征库中的各商品的特征进行匹配，并将匹配到的商品作为该帧图像对应的商品。

针对每一识别出的商品，将包含该商品的商品图像的数量作为该帧图像对应的商品数量。

例如，假设目标手部区域中有3个商品，实例分割子模型可将目标手部区域切分为3个商品图像。然后将3个商品图像输入到识别子模型中。假设识别子模型可识别出商品图像1中的商品为可乐，商品图像2中的商品为可乐，商品图像3中的商品为可乐，则电子设备可确定该帧图像对应的商品为可乐，数量为3。

其中，上述实例分割子模型可以是Mask-RCNN(Mask RegionConvolutionalNeural Network，基于卷积神经网络的候选区域提取掩膜的网络模型)网络，当然也可以是其他实例分割的神经网络，比如HTC(hybrid task cascade，混合任务级联)网络，SOLO(Segmenting Objects by Locations，基于区域的实例分割)网络。这里只是示例性地说明，不对其进行具体地限定。

上述识别子模型可以是InceptionNet(卷积神经网络的一种类型)、HRNet(卷积神经网络的一种类型)，ShuffleNet(卷积神经网络的一种类型)等，当然，也可以是其他类型的卷积神经网络，这里只是示例性地说明，不对其进行具体地限定。

需要说明的是，在从图像中识别出目标手部区域中的商品及其数量时，电子设备采用的方式是目标手部区域提取+商品实例分割+图像特征提取与匹配的方式来进行识别，相比于直接采用分类模型来识别目标手部区域中的商品及其数量，该识别方式的准确性更高。

基于此，电子设备可以得到每一组第一预设数量图像帧中的每一帧视频图像对应的商品及其数量、以及得到每一组第二预设数量图像帧中的每一帧视频图像对应的商品及其数量。

步骤B22：电子设备依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量。

1、监控设备的数量为多个的情况

1.1、电子设备确定T之后所述目标手部对象在各帧标识下关联的候选商品标识。

电子设备依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品，选择第一目标商品标识，并将选择出的第一目标商品标识确定出在所述T之后所述目标手部对象在各帧标识下关联的候选商品标识。

在一种可选的选择方式中，各第一预设数量图像帧中包含所述第一目标商品标识的视频图像的个数最多。

例如，假设有两组第一预设数量图像帧，分别为第一预设数量图像帧1和第一预设数量图像帧2。假设每组第一预设数量图像帧有5帧图像。

假设除第一预设数量图像帧2的第1帧视频图像中目标手部区域的商品标识为雪碧外，其他视频图像(包括第一预设数量图像帧1中的所有视频图像、第一预设数量图像帧2中的第2-5帧图像)中目标手部区域的商品标识为可乐。由于包含可乐的视频图像的个数最多，所以电子设备确定在所述T之后目标手部对象在各帧标识关联的候选商品标识为可乐。

在另一种可选的选择方式中，电子设备可将目标货格被取或放的商品标识作为第一目标商品标识。

例如，由上文确定出目标货格被取或放的商品标识为可乐，则电子设备确定在所述T之后目标手部对象在各帧标识关联的候选商品标识为可乐。

1.2、电子设备确定T之后所述目标手部对象在各帧标识下关联的候选商品的候选数量。

电子设备从各不同的第一预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述T之后所述目标手部对象在该帧标识下关联的候选商品的候选数量。

在实现时，每一组第一预设数量图像帧中的每一帧图像都对应有帧标识、商品标识和数量。

针对每一个帧标识，电子设备可以从不同第一预设数量图像帧中，选取与该帧标识对应的所有视频图像。然后，电子设备还可选取目标手部区域中具有候选商品的最大数量作为所述目标手部对象在该帧标识下关联的候选数量。

例如，假设存在2组第一预设数量图像帧，分别为视频流1和视频流2，假设视频流1和视频流2中的每一视频图像对应的商品标识及数量如表2所示。

表2

针对第1帧(第1帧为帧标识)，电子设备可以获取视频流1中的第一帧，以及视频流2中的第一帧。电子设备可以将视频流1和视频流2中的第1帧中的候选商品(即可乐)的数量。将视频1的第1帧和视频流2的第1帧对应候选商品的最大数量作为候选数量。得到目标手部对象在第一帧下关联的候选商品(即可乐)的候选数量(即3个)。

同理，电子设备可以得到在所述T之后目标手部对象在各帧标识下关联的候选商品及候选数量。目标手部对象在各帧标识下关联的候选商品及候选数量如表3所示。

表3

2、监控设备的数量为1个的情况

2.1、电子设备确定T之后所述目标手部对象在各帧标识下关联的候选商品标识。

例如，假设有1组第一预设数量图像帧，为第一预设数量图像帧1，假设第一预设数量图像帧1有5帧图像。

假设除第一预设数量图像帧1的第1帧视频图像中目标手部区域的商品标识为雪碧外，其他视频图像(包括第一预设数量图像帧1中的第2-5帧图像)中目标手部区域的商品标识为可乐。由于包含可乐的视频图像的个数最多，所以电子设备确定在所述T之后目标手部对象在各帧标识关联的候选商品标识为可乐。

2.2、电子设备确定T之后所述目标手部对象在各帧标识下关联的候选商品的候选数量。

在实现时，电子设备可在来自于所述监控设备的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量中，选择候选商品标识对应的数量作为所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品的候选商品数量。

例如，假设有1组第一预设数量图像帧，为第一预设数量图像帧1，假设第一预设数量图像帧1有5帧图像。假设候选商品标识为可乐。

假设第一帧至第五帧分别包含的可乐的数量为1、2、2、2、2，则在目标时间之后，目标手部对象在第一帧至第五帧的帧标识下关联的候选商品数量分别为1、2、2、2、2。

步骤B23：电子设备依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品，确定出在所述T之前所述目标手部对象在各帧标识下关联的候选商品标识以及候选商品数量。电子设备从各不同的第二预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述T之前所述目标手部对象在该帧标识下关联的候选商品标识和候选数量。

确定T之前所述目标手部对象在该帧标识下关联的候选商品标识和候选数量的方式与步骤B22描述的方式相同，这里不再赘述。

步骤B24：电子设备依据在所述T之后和/或在所述T之前所述目标手部对象在各帧标识下关联的候选商品标识和数量，确定目标手部对象取或放的目标商品及其目标数量。

1)电子设备可依据在所述T之后目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定T之后目标手部对象持有的参考商品和参考数量。

在确定时，针对每一候选商品标识，电子设备可以确定T之后该候选商品标识对应的所有候选数量，然后，电子设备可在所有候选数量中选择至少一个目标候选数量。其中，目标候选数量以及该候选商品标识二者共同关联的帧标识的个数大于或等于设定阈值。

然后，电子设备可从至少一个目标候选数量中选择最大候选数量，将该候选商品标识作为T之后目标手部对象持有的参考商品标识，将选择出的最大候选数量，作为T之后目标手部对象持有的参考商品数量。

例如，假设T之后目标手部对象在各帧标识下关联的候选商品和候选数量如表3所示。

假设，设定阈值为2。

如表3所示，电子设备可确定候选商品可乐对应的所有候选数量(即3和2)，然后，电子设备可在候选数量3和2中，选择至少一个目标候选数量。由于候选数量3对应的帧标识的个数(即3)大于设定阈值(即2)，候选数量2对应的帧标识的个数(即2)等于设定阈值(即2)，所以候选数量3和候选数量2均可以是目标候选数量。

然后，电子设备可在候选数量3和候选数量2中，最大候选数量(即3)，此时电子设备可确定在T之后目标手部对象持有的参考商品为可乐，参考数量为3。

2)电子设备可依据在所述T之前目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定T之前目标手部对象持有的参考商品和参考数量。

确定方式如上述“可依据在所述T之后目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定T之后目标手部对象持有的参考商品和参考数量”，这里不再赘述。

3)电子设备可以基于在所述T之后和/或T之前确定的目标手部对象持有的参考商品及其参考数量，确定目标手部对象取或放的目标商品及其目标数量。

在实现时，若T之后目标手部对象持有的参考商品的参考数量大于T之前的参考商品的参考数量，电子设备可确定目标手部对象取走了商品，取走的商品数量为T之后的参考数量减去T之前的参考数量。

例如，假设在T之后目标手部对象持有的参考商品为可乐，参考数量为3；

假设在T之前目标手部对象持有的参考商品为可乐，参考数量为2。

电子设备可确定，目标手部对象取的目标商品为可乐，取的数量为1。

若T之后目标手部对象持有的参考商品的参考数量小于T之前的参考商品的参考数量，电子设备可确定目标手部对象放置了商品，放置的商品数量为T之前的参考数量减去T之后的参考数量。

例如，假设在T之前目标手部对象持有的参考商品为可乐，参考数量为3；

假设在T之后目标手部对象持有的参考商品为可乐，参考数量为2。

电子设备可确定，目标手部对象放的目标商品为可乐，放的数量为1。

步骤305：若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，电子设备可将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联。

在本申请实施例中，电子设备可确定识别出的目标手部对象的数量，再依据目标手部对象的数量进行匹配检测和关联操作。

1)在所述目标手部对象的数量为一个的情况下，若所述目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量匹配，则将所述目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联，以依据所述目标用户标识关联的商品及其数量更新所述目标用户标识对应的虚拟购物车中的商品信息。

例如，假设从步骤303中识别出的目标手部对象取了可乐的数量为1，并且重力检测设备上报了目标货格被取走1个可乐，则确定目标手部对象取的可乐及其数量与目标货格被取走的可乐及其数量匹配。

假设目标手部对象对应的用户为用户1，则将用户1与取了1个可乐进行关联，并将用户1的虚拟购物车中增加1个可乐。

2)在所述目标手部对象的数量为多个的情况下，若任一目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，则将该任一目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联，以依据所述目标用户标识关联的商品及其数量更新所述目标用户标识对应的虚拟购物车中的商品信息。

例如，假设从步骤303中识别出了两个目标手部对象，分别为目标手部对象1和目标手部对象2。假设目标手部对象1对应用户1，目标手部对象2对应用户2。

假设目标手部对象1取了2个可乐，目标手部对象2取了1个可乐。

假设重力检测设备上报的目标货格被取走了2个可乐，则确定目标手部对象1取的可乐及其数量与目标货格被取走的可乐及其数量匹配，则将目标用户1与取走2个可乐关联，并将用户1的虚拟购物车中增加2个可乐。

3)在所述目标手部对象的数量为多个的情况下，若所有目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量不匹配，则对所有目标手部对象取或放的同一商品的数量进行累加，若该商品及其累加数量与所述目标货格被取或放的商品及其数量匹配，则将各目标手部对象对应的目标用户标识与该目标手部对象取或放的商品及其数量关联。

例如，例如，假设从步骤303中识别出了两个目标手部对象，分别为目标手部对象1和目标手部对象2。假设目标手部对象1对应用户1，目标手部对象2对应用户2。

假设重力检测设备上报的目标货格被取走了3个可乐，则确定任一目标手部对象取或放的商品及其数量与目标货格被取的商品及其数量均不匹配。此时可以将目标手部对象1和目标手部对象2取的可乐的数量进行累加，即得到取了3个可乐。

在本例中，电子设备确定累加和与目标货格被取走商品及其数量匹配，则电子设备可将用户1与取了2个可乐关联，并在用户1的虚拟购物车中增加2个可乐。电子设备可将用户2与取了1个可乐关联，并在用户2的虚拟购物车中增加1个可乐。

此外，在本申请实施例中，若确定目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量不匹配，电子设备可向管理员终端发送告警信息，以提示管理员通过监控设备采集的视频流来识别商品取放。

由上述描述可知，一方面，由于电子设备在进行商品取放识别时，结合了重力检测设备上报的信息和从视频流识别出的信息这两方面信息，所以商品取放的识别更为准确。

另一方面，电子设备通过依据多个监控设备采集分别采集的视频流进行商品取放识别，由于多个监控设备可以避免商品的遮挡，所以电子设备依据多个监控设备采集分别采集的视频流识别出的商品取放更为准确。

第三方面，在从图像中识别出目标手部区域中的商品及其数量时，电子设备采用的方式是目标手部区域提取+商品实例分割+图像特征提取与匹配的方式来进行识别，相比于直接采用分类模型来识别目标手部区域中的商品及其数量，该识别方式的准确性更高。

第四方面，在本申请实施例中，电子设备在确定目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量不匹配时，可以向管理员进行告警，由管理员进行商品取放的识别，从而大大提高了商品取放识别的准确性。

参见图5，图5是本申请一示例性实施例示出的一种电子设备的硬件结构图。

该电子设备包括：通信接口501、处理器502、机器可读存储介质503和总线504；其中，通信接口501、处理器502和机器可读存储介质503通过总线504完成相互间的通信。处理器502通过读取并执行机器可读存储介质503中与商品识别的取放控制逻辑对应的机器可执行指令，可执行上文描述的商品识别的取放方法。

本文中提到的机器可读存储介质503可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，机器可读存储介质503可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

参见图6，图6是本申请一示例性实施例示出的一种商品取放的识别装置的框图。装置应用于图5所示的电子设备，包括：

接收单元601，用于接收到重力检测设备上报的货格信息：所述货格信息包括：配备有所述重力检测设备的目标货格的目标货格标识、目标货格发生重量变化的目标时间、目标货格重量变化后的重量；所述货格信息是所述重力检测设备在检测到所述目标货格的重力发生变化后上报的；

确定单元602，用于基于所述目标货格标识、所述目标货格重量变化后的重量，确定目标货格被取或放的商品及其数量；

获取单元603，用于依据所述目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；所述目标视频流包括：采集时间在目标时间之后的至少一组第一预设数量图像帧、和/或采集时间在目标时间之前的至少一组第二预设数量图像帧；目标监控设备至少用于采集所述目标货格所处区域的视频流；

识别单元604，用于从所述目标视频流中识别出与所述目标货格关联的目标手部对象、以及所述目标手部对象取或放的商品及其数量；

关联单元605，用于若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联。

可选的，所述确定单元602，具体用于在预设的货格标识、商品标识、单件商品重量、货格原有重量的对应关系中，查找所述目标货格标识对应的商品标识、单件商品重量和货格原有重量；基于查找到的货格原有重量和所述重量变化后的目标货格重量，确定所述目标货格的重量变化量；基于所述货格的重量变化量和查找到的单件商品重量，确定商品数量；将查找到的商品标识和确定出的商品数量作为该目标货格被取或放的商品及其数量。

可选的，所述识别单元604，在从所述目标视频流中识别出与所述目标货格关联的目标手部对象时，用于在预设的货格标识与货格顶点三维坐标信息的对应关系中，查找与所述目标货格标识对应的目标货格顶点三维坐标信息，基于所述目标货格顶点三维坐标信息，确定所述目标货格对应的目标三维区域；

可选的，所述识别单元604，在从所述目标视频流中识别出所述目标手部对象取或放的商品及其数量时，用于在所述目标视频流的各视频图像中确定所述目标手部对象对应的目标手部区域；

可选的，所述识别单元604，在依据所述目标视频流的各视频图像中目标手部区域的商品，确定目标手部对象取或放的商品及其数量时，用于依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量；

可选的，所述识别单元604，在依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识时，用于从所有第一预设数量图像帧的所有视频图像中目标手部区域的商品标识中，选择第一目标商品标识，并将所述第一目标商品标识作为在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识；其中，所有第一预设数量图像帧中包含所述第一目标商品标识的视频图像的个数最多，或者所述第一目标商品标识为所述目标货格被取或放的商品标识；和/或，从所有第二预设数量图像帧的所有帧视频图像中目标手部区域的商品标识中，选择第二目标商品标识，作为在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识；其中，所有第二预设数量图像帧中包含所述第二目标商品标识的视频图像的个数最多，或者所述第二目标商品标识为所述目标货格被取或放的商品标识。

可选的，所述识别单元604，在在所述监控设备的数量为一个的情况下，依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量时，用于在来自于所述监控设备的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量中，选择候选商品标识对应的数量作为所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品的候选商品数量；和/或，在来自于该所述监控设备的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量中，选择候选商品标识对应的数量作为所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品的候选商品数量。

可选的，所述识别单元604，在所述监控设备的数量为多个的情况下，在依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量时，用于从来自于不同监控设备的各第一预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，从来自于不同监控设备的各第二预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量。

可选的，所述识别单元604，在依据在所述目标时间之后和/或在所述目标时间之前目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定目标手部对象取或放的目标商品及其目标数量时，用于依据在所述目标时间之后和/或目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定该候选商品标识对应的所有候选数量，从所述所有候选数量中，选择至少一个目标候选数量；其中，目标候选数量以及该候选商品标识二者共同关联的帧标识的个数大于设定阈值；

可选的，所述关联单元605，在若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联时，用于确定从所述目标视频流中识别出与所述目标货格关联的目标手部对象的数量；在所述目标手部对象的数量为一个的情况下，若所述目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量匹配，则将所述目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联；

此外，本申请还提供一种商品取放的识别系统，所述系统包括：电子设备、重力检测设备、以及至少一个监控设备；

可选的，所述电子设备，在基于所述目标货格标识、所述重量变化后的目标货格重量，确定目标货格被取或放的商品及其数量时，用于在预设的货格标识、商品标识、单件商品重量、货格原有重量的对应关系中，查找所述目标货格标识对应的商品标识、单件商品重量和货格原有重量；基于查找到的货格原有重量和所述重量变化后的目标货格重量，确定所述目标货格的重量变化量；基于所述货格的重量变化量和查找到的单件商品重量，确定商品数量；将查找到的商品标识和确定出的商品数量作为该目标货格被取或放的商品及其数量。

可选的，所述电子设备，在从所述目标视频流中识别出与所述目标货格关联的目标手部对象时，用于在预设的货格标识与货格顶点三维坐标信息的对应关系中，查找与所述目标货格标识对应的目标货格顶点三维坐标信息，基于所述目标货格顶点三维坐标信息，确定所述目标货格对应的目标三维区域；获得从所述目标视频流的每一帧视频图像中识别出的手部对象的手部对象三维坐标信息，将手部对象三维坐标信息处于所述目标三维区域中的手部对象确定为所述目标手部对象。

可选的，所述电子设备，在从所述目标视频流中识别出所述目标手部对象取或放的商品及其数量时，用于在所述目标视频流的各视频图像中确定所述目标手部对象对应的目标手部区域；依据所述目标视频流的各视频图像中目标手部区域的商品，确定目标手部对象取或放的商品及其数量。

可选的，所述电子设备，在依据所述目标视频流的各视频图像中目标手部区域的商品，确定目标手部对象取或放的商品及其数量时，用于依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选商品的候选数量；依据在所述目标时间之后和/或在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定目标手部对象取或放的目标商品及其目标数量。

可选的，所述电子设备，在依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识时，用于从所有第一预设数量图像帧的所有视频图像中目标手部区域的商品标识中，选择第一目标商品标识，并将所述第一目标商品标识作为在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识；其中，所有第一预设数量图像帧中包含所述第一目标商品标识的视频图像的个数最多，或者所述第一目标商品标识为所述目标货格被取或放的商品标识；和/或，从所有第二预设数量图像帧的所有帧视频图像中目标手部区域的商品标识中，选择第二目标商品标识，作为在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识；其中，所有第二预设数量图像帧中包含所述第二目标商品标识的视频图像的个数最多，或者所述第二目标商品标识为所述目标货格被取或放的商品标识。

可选的，所述电子设备，在在所述监控设备的数量为一个的情况下，依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量时，用于在来自于所述监控设备的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量中，选择候选商品标识对应的数量作为所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品的候选商品数量；和/或，在来自于该所述监控设备的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量中，选择候选商品标识对应的数量作为所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品的候选商品数量。

可选的，所述电子设备，在所述监控设备的数量为多个的情况下，依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量时，用于从来自于不同监控设备的各第一预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，从来自于不同监控设备的各第二预设数量图像帧中选取具有相同帧标识的视频图像，依据该选取的各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量。

可选的，所述电子设备，在依据在所述目标时间之后和/或在所述目标时间之前目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定目标手部对象取或放的目标商品及其目标数量时，用于依据在所述目标时间之后和/或目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定该候选商品标识对应的所有候选数量，从所述所有候选数量中，选择至少一个目标候选数量；其中，目标候选数量以及该候选商品标识二者共同关联的帧标识的个数大于设定阈值；从至少一个目标候选数量中选择最大候选数量，将所述候选商品标识和所述最大候选数量作为目标手部对象持有的参考商品及其参考数量；基于在所述目标时间之后和/或目标时间之前确定的目标手部对象持有的参考商品及其参考数量，确定目标手部对象取或放的目标商品及其目标数量。

可选的，所述电子设备，在若所述目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，将目标手部对象对应的目标用户标识与目标货格被取或放的商品及其数量关联时，用于确定从所述目标视频流中识别出与所述目标货格关联的目标手部对象的数量；在所述目标手部对象的数量为一个的情况下，若所述目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量匹配，则将所述目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联；在所述目标手部对象的数量为多个的情况下，若任一目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，则将该任一目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联；若所有目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量不匹配，则对所有目标手部对象取或放的同一商品的数量进行累加，若该商品及其累加数量与所述目标货格被取或放的商品及其数量匹配，则将各目标手部对象对应的目标用户标识与该目标手部对象取或放的商品及其数量关联。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种商品取放的识别方法，其特征在于，所述方法应用于电子设备，包括：

依据所述目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；所述目标视频流包括：采集时间在目标时间之后的至少一组第一预设数量图像帧和/或采集时间在目标时间之前的至少一组第二预设数量图像帧；目标监控设备至少用于采集所述目标货格所处区域的视频流；

在所述目标手部对象的数量为多个的情况下，若所有目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量不匹配，则对所有目标手部对象取或放的同一商品的数量进行累加，若该商品及其累加数量与所述目标货格被取或放的商品及其数量匹配，则将各目标手部对象对应的目标用户标识与该目标手部对象取或放的商品及其数量关联。

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标货格标识、所述重量变化后的目标货格重量，确定目标货格被取或放的商品及其数量，包括：

3.根据权利要求1所述的方法，其特征在于，从所述目标视频流中识别出与所述目标货格关联的目标手部对象，包括：

4.根据权利要求1所述的方法，其特征在于，从所述目标视频流中识别出所述目标手部对象取或放的商品及其数量，包括：

5.根据权利要求4所述的方法，其特征在于，所述依据所述目标视频流的各视频图像中目标手部区域的商品，确定目标手部对象取或放的商品及其数量，包括：

6.根据权利要求5所述的方法，其特征在于，依据各第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在各帧标识下关联的候选商品标识；和/或，依据各第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在各帧标识下关联的候选商品标识，包括：

和/或，

7.根据权利要求5所述的方法，其特征在于，在所述监控设备的数量为一个的情况下，依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量，包括：

8.根据权利要求5所述的方法，其特征在于，在所述监控设备的数量为多个的情况下，依据各不同的第一预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之后所述目标手部对象在该帧标识下关联的候选商品的候选数量；和/或，依据各不同的第二预设数量图像帧中各视频图像中目标手部区域的商品标识和数量，确定在所述目标时间之前所述目标手部对象在该帧标识下关联的候选商品的候选数量，包括：

9.根据权利要求5所述的方法，其特征在于，所述依据在所述目标时间之后和/或在所述目标时间之前目标手部对象在各帧标识下关联的候选商品标识和候选数量，确定目标手部对象取或放的目标商品及其目标数量，包括：

10.根据权利要求1所述的方法，其特征在于，在所述确定从所述目标视频流中识别出与所述目标货格关联的目标手部对象的数量之后，所述方法还包括：

在所述目标手部对象的数量为多个的情况下，若任一目标手部对象取或放的商品及其数量与目标货格被取或放的商品及其数量匹配，则将该任一目标手部对象对应的目标用户标识与所述目标货格被取或放的商品及其数量关联。

11.一种商品取放的识别装置，其特征在于，所述装置应用于电子设备，包括：

关联单元，用于确定从所述目标视频流中识别出与所述目标货格关联的目标手部对象的数量；在所述目标手部对象的数量为多个的情况下，若所有目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量不匹配，则对所有目标手部对象取或放的同一商品的数量进行累加，若该商品及其累加数量与所述目标货格被取或放的商品及其数量匹配，则将各目标手部对象对应的目标用户标识与该目标手部对象取或放的商品及其数量关联。

12.一种商品取放的识别系统，其特征在于，所述系统包括：电子设备、重力检测设备、以及至少一个监控设备；

所述电子设备，用于接收到重力检测设备上报的货格信息，基于所述目标货格标识、所述重量变化后的目标货格重量，确定目标货格被取或放的商品及其数量；依据所述目标时间，从至少一个目标监控设备所采集的视频流中获取目标视频流；所述目标视频流包括：采集时间在目标时间之后的至少一组第一预设数量图像帧、和/或采集时间在目标时间之前的至少一组第二预设数量图像帧；目标监控设备至少用于采集所述目标货格所处区域的视频流；从所述目标视频流中识别出与所述目标货格关联的目标手部对象、以及所述目标手部对象取或放的商品及其数量；确定从所述目标视频流中识别出与所述目标货格关联的目标手部对象的数量；在所述目标手部对象的数量为多个的情况下，若所有目标手部对象取或放的商品及其数量与所述目标货格被取或放的商品及其数量不匹配，则对所有目标手部对象取或放的同一商品的数量进行累加，若该商品及其累加数量与所述目标货格被取或放的商品及其数量匹配，则将各目标手部对象对应的目标用户标识与该目标手部对象取或放的商品及其数量关联。

13.一种电子设备，其特征在于，所述电子设备包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现权利要求1-10任一所述方法的步骤。