CN113128463B

CN113128463B - 图像识别方法和系统

Info

Publication number: CN113128463B
Application number: CN202110495857.5A
Authority: CN
Inventors: 宋启恒
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2022-08-26
Anticipated expiration: 2041-05-07
Also published as: CN113128463A

Abstract

本说明书提供的图像识别方法和系统，可以获取开门前的第一图像、关门前的以及关门后的第二图像。与第二图像按照时间顺序形成连续的图像帧。所述方法和系统可以通过对比多个连续帧与第一图像之间的差异区域，排除由于关门振动和人影晃动等外界环境影响引起的开门前图像和关门后图像的差异，提高图像识别的准确率，精确识别出开门前的图像与关门后的图像是否存在由于拿取物品引起的差异，从而提高识别用户是否拿取物品的准确度，防止在用户没有拿取物品的情况下由于数据传输引起的等待，提高用户体验感。

Description

图像识别方法和系统

技术领域

本说明书涉及无人零售领域，尤其涉及一种图像识别方法和系统。

背景技术

在基于计算机视觉的智能货柜场景中，货柜中每层摄像头会在开门前拍摄柜内图像、关门后再次拍摄柜内图像。在进行商品结算时，货柜会将开门前的图像与关门后的图像进行对比，若二者存在差异，则判定用户拿取了商品，货柜会将开门前的图像与关门后的图像上传至云端服务器进一步做物品识别；若二者不存在差异，则判定用户没有拿取商品，货柜不会将图像上传到服务器。目前通常采用图像差分法直接对比开门前的图像与关门后的图像来获取图像差异。当用户没有拿取商品时，图像可能受到一些外界的影响(如门外人影变化，关门之后产生的震动导致商品在来回位移)，导致开门前的图像与关门后的图像存在差异，从而将图像上传至服务器。这会导致结算流程过长，影响用户体验。

因此，需要提供一种精度更高的图像识别方法和系统，能够剔除外界环境影响，精确识别出开门前的图像与关门后的图像是否存在差异，从而确定用户是否拿取商品。

发明内容

本说明书提供一种精度更高的图像识别方法和系统，能够剔除外界环境影响，精确识别出开门前的图像与关门后的图像是否存在差异，从而确定用户是否拿取商品。

第一方面，本说明书提供一种图像识别方法，用于对智能货柜进行图像识别，包括：从所述智能货柜的视觉传感器中获取第一图像以及第二图像，所述第一图像包括所述视觉传感器采集的所述智能货柜的开门信号前的一个图像帧，所述第二图像包括所述视觉传感器采集的所述关门信号后的一个图像帧；从服务器中获取目标图像，所述目标图像包括所述服务器对上一次交易的物品识别结果；以及基于所述第一图像与所述第二图像的差异以及所述目标图像，识别所述第一图像与所述第二图像之间是否存在目标差异，所述目标差异包括所述智能货柜中的物品变化引起的差异。

在一些实施例中，所述目标图像包括至少一个位置区域，所述至少一个位置区域包括所述目标图像中的至少一个物品中的每个物品对应的像素点所在的位置区域，所述至少一个位置区域与所述至少一个物品相对应。

在一些实施例中，所述基于所述第一图像与所述的差异，识别所述第一图像与所述第二图像之间是否存在目标差异，包括：将所述第一图像与所述第二图像求差，确定所述第二图像与所述第一图像的差异区域；以及基于所述差异区域与所述目标图像，确定所述第一图像与所述第二图像之间是否存在所述目标差异。

在一些实施例中，所述将所述第一图像与所述第二图像求差，确定所述第二图像与所述第一图像的差异区域，包括：基于预设图像处理方法获取所述第一图像的多个第一像素点以及所述第二图像的多个第二像素点，所述多个第一像素点与所述多个第二像素点一一对应；对所述多个第一像素点与所述多个第二像素点逐一求差，确定目标像素点的位置以及差异值，所述目标像素点包括所述多个第一像素点与所述多个第二像素点中存在差异的像素点；以及将相邻的所述目标像素点作为一个差异点集合，将所述差异点集合中的所述目标像素点的差异值进行特征融合作为所述差异点集合的差异值，确定所述差异区域，所述差异区域包括所述差异点集合及其对应的差异值。

在一些实施例中，所述基于所述差异区域与所述目标图像，确定所述第一图像与所述第二图像之间是否存在所述目标差异，包括：确定所述差异区域的差异小于预设的第一阈值，确定所述第一图像与所述第二图像之间不存在所述目标差异；或者确定所述差异区域的差异大于所述第一阈值，对所述差异区域以及所述至少一个位置区域求交集，获取差异交集区域，基于所述差异交集区域，确定所述第一图像与所述第二图像之间是否存在所述目标差异。

在一些实施例中，所述确定所述差异区域的差异小于预设的第一阈值，包括：确定所述差异区域中的所述差异点集合的数量小于预设的第一数量阈值，并且所述差异区域中的所述差异点集合的差异值均小于预设的第一差异阈值，所述第一阈值包括所述第一数量阈值以及所述第一差异阈值；以及所述确定所述差异区域的差异大于所述第一阈值，包括以下情况中的至少一个：确定所述差异区域中的所述差异点集合的数量大于所述第一数量阈值；以及确定所述差异区域中的所述差异点集合的差异值中的至少一个大于所述第一差异阈值。

在一些实施例中，所述对所述差异区域以及所述至少一个位置区域求交集，获取差异交集区域，包括：对所述差异区域以及所述至少一个位置区域求交集，确定同时在所述差异区域中和所述至少一个位置区域中存在的目标交集像素点的位置；以及将相邻的所述目标交集像素点作为一个目标交集点集合，将所述目标交集点集合中的所述目标交集像素点的差异值进行特征融合作为所述目标交集点集合的差异值，确定所述差异交集区域，所述差异交集区域包括所述目标交集点集合及其对应的差异值。

在一些实施例中，所述基于所述差异交集区域，确定所述第一图像与所述第二图像之间是否存在所述目标差异，包括：确定所述差异交集区域的差异小于预设的第二阈值，确定所述第一图像与所述第二图像之间存在不所述目标差异；或者确定所述差异交集区域的差异大于所述第二阈值，确定所述第一图像与所述第二图像之间存在所述目标差异。

在一些实施例中，所述确定所述差异交集区域的差异小于预设的第二阈值，包括：确定所述差异交集区域中的每个所述目标交集点集合中的所述目标交集像素点的数量均小于预设的第二数量阈值，并且所述差异交集区域中的所述目标交集点集合的差异值均小于预设的第二差异阈值，所述第二阈值包括所述第二数量阈值以及所述第二差异阈值；以及所述确定所述差异交集区域的差异大于所述第二阈值，包括以下情况中的至少一个：确定所述差异交集区域中的至少一个所述目标交集点集合中的所述目标交集像素点的数量大于所述第二数量阈值；以及确定所述差异交集区域中的至少一个所述目标交集点集合的差异值大于所述第二差异阈值。

在一些实施例中，所述图像识别方法，还包括：确定所述第一图像与所述第二图像之间存在所述目标差异，将所述第一图像和所述第二图像发送至所述智能货柜的服务器。

第二方面，本说明书还提供一种图像识别系统，包括至少一个存储介质以及至少一个处理器，所述至少一个存储介质存储有至少一个指令集用于对智能货柜进行图像识别；所述至少一个处理器同所述至少一个存储介质通信连接，其中，当所述图像识别系统运行时，所述至少一个处理器读取所述至少一个指令集并实施本说明书第一方面所述的图像识别方法。

由以上技术方案可知，本说明书提供的图像识别方法和系统，可以获取开门前的第一图像以及关门后的第二图像，并对第一图像与第二图像求差，获取第一图像和第二图像的差异区域。所述方法和系统还可以从服务器中获取包含上一次交易的物品识别结果的目标图像。目标图像中包含有上一次交易结束后，智能货柜中剩余的物品，以及每个物品在目标图像中对应的像素点所在的位置区域。所述方法可以对比第一图像和第二图像的差异区域与目标图像中剩余物品所在的位置区域之间是否存在交集。若不存在交集或交集小于阈值，则认为差异是由于外界环境因素引起的；若存在交集，则认为差异是由于用户拿取物品引起的目标差异。所述方法和系统可以通过将本次开门采集的第一图像、第二图像与上一次开门交易产生的物品识别结果向结合，对比本次开门第一图像与第二图像之间的差异区域是否落入物品所在的位置区域，从而确定本次开门用户是否拿取物品，排除由于外界环境影响引起的开门前图像和关门后图像的差异，提高图像识别的准确率，精确识别出开门前的图像与关门后的图像是否存在由于拿取物品引起的差异，从而提高识别用户是否拿取物品的准确度，防止在用户没有拿取物品的情况下由于数据传输引起的等待，提高用户体验感。

本说明书提供的图像识别方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的图像识别方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种智能货柜的结构示意图；

图2示出了根据本说明书的实施例提供的一种计算设备的结构示意图；

图3示出了根据本说明书的实施例提供的一种图像识别方法流程图；

图4示出了根据本说明书的实施例提供的一种目标图像的示意图；

图5示出了根据本说明书的实施例提供的一种识别目标差异的流程图；

图6示出了根据本说明书的实施例提供的一种确定差异区域的流程图；以及

图7示出了根据本说明书的实施例提供的一种差异交集区域的示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

智慧零售就是运用互联网、物联网技术，感知消费习惯，预测消费趋势，引导生产制造，为消费者提供多样化、个性化的产品和服务。智能货柜是智能零售最典型的应用。在基于视觉识别技术的智能货柜场景中，顾客通过人脸识别或者扫码开门，从所述智能货柜中取出商品，所述智能货柜依靠摄像头获取用户开门前的图像以及用户关门后的图像，并对关门前的图像和关门后的图像进行对比，以确定二者之间是否存在差异。若存在差异则认为用户从所述智能货柜中拿取了物品，将两个图像上传至云端服务器进一步对图像进行商品自动识别并进行商品自动交易结算；若不存在差异则认为用户没有从智能货柜中拿取物品，则不会将图像上传至云端服务器，以节省数据传输的时间，提升用户体验。

现有技术中，在对开门前的图像和关门后的图像进行对比时，主要通过是简单的图像差分算法，仅对开门前的图像和关门后的图像进行相减，获取2张图像的RGB通道的差异，并将RGB通道的差异与预先设定好的阈值进行对比。若RGB通道的差异不大于所述阈值，则认为图像无变动，无需将图像上传至云端的服务器进行物品识别；若RGB通道的差异大于所述阈值，则认为图像有变动，需将图像上传至云端的服务器进行进一步的物品识别。这种方法依赖于阈值的设定，阈值设定过大，无法识别到更换商品的情况；阈值设定过小，无法剔除掉由于外界因素导致的图像差异，比如，门外光线变化引起的图像差异，再比如，门外人影晃动或人影经过引起的差异，再比如，关门时门体振动导致商品晃动引起的差异，等等。在这种情况下，当用户并没有拿取商品时，由于外界因素导致的开门前的图像和关门后的图像存在差异，也会触发智能货柜将开门前的图像和关门后的图像上传至云端的服务器进行进一步的物品识别，这样会增加结算流程的时间，影响用户体验。

为了剔除掉其他的由于外界因素引起的开门前的图像和关门后的图像差异，精确的识别出开门前的图像和关门后的图像之间的差异是否是由于用户拿取商品而产生的，本说明书提供一种图像识别方法和系统，可以对比开门前的图像和关门后的图像，获取开门前的图像和关门后的图像的差异区域。所述方法和系统还可以从服务器中获取包含上一次交易的物品识别结果的目标图像。目标图像中包含有上一次交易结束后，智能货柜中剩余的物品，以及每个物品在目标图像中对应的像素点所在的位置区域。所述方法可以对比开门前的图像和关门后的图像的差异区域与目标图像中剩余物品所在的位置区域之间是否存在交集。若不存在交集或交集小于阈值，则认为差异是由于外界环境因素引起的；若存在交集，则认为差异是由于用户拿取物品引起的目标差异。所述方法和系统可以通过获取关门前的多个连续的图像帧并进行对比，剔除由于外界因素导致的图像差异，从而精确识别出用户是否拿取物品，减少用户等待时间，提升用户体验。

图1示出了根据本说明书的实施例提供的一种智能货柜001的结构示意图。智能货柜001可以用于陈列和存储物品。所述物品可以是零星的可以单独存在的物体。比如，一瓶饮料、一包零食，等等。如图1所示，智能货柜001可以包括至少一个承载装置400以及图像识别系统200。在一些实施例中，智能货柜001还可以包括机架600。在一些实施例中，智能货柜001还可以包括服务器800。在一些实施例中，智能货柜001还可以包括感应传感器900。

机架600可以是智能货柜001的支撑基座。

至少一个承载装置400可以安装在机架600上，用于承载所述物品。图1示出了5个承载装置400。需要说明的是，图1只是示例性说明，智能货柜001上的承载装置400的数量可以是任意数。每个承载装置400可以包括托盘460和视觉传感器480。

托盘460可以安装在机架600上。托盘460可以用于承载物品。所述物品在托盘460上可以按照预设的陈列规则陈列。比如，托盘460可以被分割为多列，每一列陈列同一种物品，不同列可以陈列不同种类的物品，也可以陈列同一种物品。为了帮助提高图像识别模型的识别准确率，托盘460上的物品应满足预设的陈列规则。比如，从视觉传感器480的角度来说，托盘460上的物品之间不应该相互遮挡。

视觉传感器480可以位于托盘460上方，用于拍摄承载装置400上的托盘460上的所述物品的图像，以监测托盘460上的所述物品的变化。智能货柜001可以根据视觉传感器480采集的所述图像识别出时刻用户从托盘460上取走的物品。视觉传感器480可以安装在托盘460的预设位置和预设角度。视觉检测装置800可以是普通摄像头，也可以使用一个广角的普通摄像头，例如拍摄角度是160度的广角摄像头，或者可以使用鱼眼摄像头。

图像识别系统200可以存储有执行本说明书描述的图像识别方法的数据或指令，并可以执行或用于执行所述数据和/或指令。图像识别系统200可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。当然，图像识别系统200也可以仅为具有数据处理能力的硬件设备，或者，仅为运行在硬件设备中的程序。图像识别系统200运行时可以与每个承载装置400中的视觉传感器480通信连接，接收视觉传感器480采集的托盘460上的物品的图像，并基于本说明书描述的图像识别方法对视觉传感器480拍摄的图像进行识别，以确定开门前的图像和关门后的图像之间是否存在由于用户拿取商品引起的目标差异。图像识别系统200运行时还可以与服务器800通信连接，当确定开门前的图像和关门后的图像之间存在所述目标差异时，将开门前的图像和关门后的图像发送给服务器800。图像识别系统200运行时还可以与感应传感器900通信连接，接收感应传感器900的感应数据。在一些实施例中，图像识别系统200可以安装在智能货架001上，比如，安装在智能货架001的机架600上，或机架600的内部。

所述通信连接是指能够直接地或者间接地接收信息的任何形式的连接。在一些实施例中，图像识别系统200可以同视觉传感器480以及感应传感器900通过无线通信连接来彼此传递数据；在一些实施例中，图像识别系统200也可以同视觉传感器480以及感应传感器900通过电线直接连接来彼此传递数据；在一些实施例中，图像识别系统200也可以通过电线同其他电路直接连接来建立同视觉传感器480以及感应传感器900的间接连接，从而实现彼此传递数据。所述无线通信连接可以是网络连接，蓝牙连接，NFC连接，等等。

在一些实施例中，图像识别系统200可以包括移动设备、平板电脑、笔记本电脑、机动车辆的内置设备或类似内容，或其任意组合。在一些实施例中，所述移动设备可包括智能家居设备、智能移动设备或类似设备，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，所述智能移动设备可包括智能手机、个人数字辅助、游戏设备、导航设备等，或其任意组合。在一些实施例中，所述机动车中的内置装置可包括车载计算机、车载电视等。在一些实施例中，图像识别系统200可以是具有定位技术的设备，用于定位图像识别系统200的位置。

服务器800可以存储有对图像进行物品识别的数据或指令，并可以执行或用于执行所述数据和/或指令。服务器800可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。当然，服务器800也可以仅为具有数据处理能力的硬件设备，或者，仅为运行在硬件设备中的程序。

图像识别系统200可以通过网络100与服务器800通信连接。网络100可以促进信息和/或数据的交换。如图1所示，图像识别系统200与服务器800可以同网络100连接，并且通过网络100互相传输信息和/或数据。例如，图像识别系统200可以通过网络100向服务器800发送图像数据。在一些实施例中，网络100可以是任何类型的有线或无线网络，也可以是其组合。比如，网络100可以包括电缆网络，有线网络、光纤网络、电信通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、大都市市区网(MAN)、广域网(WAN)、公用电话交换网(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络或类似网络。在一些实施例中，网络100可以包括一个或多个网络接入点。例如，有线或无线网络接入点，如基站和/或互联网交换点，通过该接入点，图像识别系统200与服务器800可以连接到网络100以交换数据和/或信息。

感应传感器900可以设置在智能货柜001的柜门处，用户感应所述柜门的状态，比如，打开状态还是闭合状态。感应传感器900可以与图像识别系统200通信连接，并将感应数据发送给图像识别系统200。图像识别系统200可以根据所述感应数据判断时刻柜门是打开状态还是闭合状态。感应传感器900可以是霍尔传感器，也可以是红外传感器，还可以是超声波传感器、雷达传感器，等等。

图2示出了根据本说明书的实施例提供的一种计算设备300的结构示意图。在一些实施例中，计算设备300所示的结构适用于图像识别系统200。在一些实施例中，计算设备300所示的结构也适用于服务器800。在一些实施例中，图像识别系统200执行所述图像识别方法的数据或指令可以在计算设备300上实现。所述图像识别方法在本说明书中的其他部分介绍。

如图2所示，计算设备300可以包括至少一个存储介质330和至少一个处理器320。在一些实施例中，计算设备300还可以包括通信端口350和内部通信总线310。在一些实施例中，计算设备300还可以包括I/O组件360。

内部通信总线310可以连接不同的系统组件，实现各组件间的数据通信，包括存储介质330、处理器320、通信端口350以及I/O组件360。例如，处理器320可以通过内部通信总线310将数据发送到存储介质330或I/O组件360等其它硬件中。在一些实施例中，内部通信总线310可以为工业标准(ISA)总线、扩展工业标准(EISA)总线、视频电子标准(VESA)总线、外部部件互联标准(PCI)总线等。

I/O组件360可以用于输入或输出信号、数据或信息。I/O组件360支持计算设备300和其他组件之间的输入/输出。在一些实施例中，I/O组件360可以包括输入装置和输出装置。示例性输入装置可以包括摄像头、键盘、鼠标、显示屏和麦克风等，或其任意组合。示例性输出装置可以包括显示装置、语音播放装置(比如，扬声器等等)、打印机、投影仪等或其任意组合。示例性显示装置可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等或其任意组合。

通信端口350可以连接到网络以便计算设备300同外界的数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如，3G、4G或5G等)等或其任意组合。在一些实施例中，通信端口350可以是标准化端口，如RS232、RS485等。在一些实施例中，通信端口350可以是专门设计的端口。

存储介质330可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘332、只读存储介质(ROM)334或随机存取存储介质(RAM)336中的一种或多种。存储介质330还包括存储在所述数据存储装置中的至少一个指令集。所述至少一个指令集用于所述图像识别。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的图像识别方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器320可以同至少一个存储介质330以及通信端口350通过内部通信总线310通信连接。至少一个处理器320用以执行上述至少一个指令集。当计算设备300运行时，至少一个处理器320读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书提供的图像识别方法。当所述图像识别系统200运行时，至少一个处理器320读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书提供的图像识别方法。处理器320可以执行图像识别方法包含的所有步骤。处理器320可以是一个或多个处理器的形式，在一些实施例中，处理器320可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中央处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中计算设备300中仅描述了一个处理器320。然而，应当注意，本说明书中计算设备300还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中计算设备300的处理器320执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器320联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

图3示出了根据本说明书的实施例提供的一种图像识别方法P100的流程图。如前所述，图像识别系统200可以执行本说明书所述的图像识别方法P100。具体地，当图像识别系统200在计算设备300上运行时，处理器320可以读取存储在其本地存储介质中的指令集，然后根据所述指令集的规定，执行本说明书所述的图像识别方法P100，用于对智能货柜001进行图像识别。

所述方法P100可以包括：

S120：从所述智能货柜001的视觉传感器480中获取第一图像以及第二图像。

所述第一图像可以是所述视觉传感器480采集的所述智能货柜001的开门信号前的一个图像帧。所述第二图像可以包括所述视觉传感器480采集的所述关门信号后的一个图像帧。如前所述，视觉传感器480运行时用于拍摄托盘460上的物品的图像，生成视频数据。图像识别系统200可以与感应传感器900通信连接。感应传感器900可以感应柜门的状态，并向图像识别系统200发送监测数据。当用户开启柜门时，感应传感器900检测到柜门的状态为打开，向图像识别系统200发送开门信号。图像识别系统200基于所述开门信号的时间，从视觉传感器480拍摄的视频数据中获取开门前的图像。也就是说，感应传感器900在监测到柜门打开时，会生成开门信号，所述开门信号中包含有柜门打开时的时间。图像识别系统200基于所述开门信号的时间，从所述视频数据中获取所述开门信号前的最近一个图像帧作为开门前的图像，即所述第一图像。

当用户关闭柜门时，感应传感器900检测到柜门的状态为关闭，向图像识别系统200发送关门信号。图像识别系统200基于所述关门信号的时间，从视觉传感器480拍摄的视频数据中获取关门后的图像。也就是说，感应传感器900在监测到柜门关闭时，会生成关门信号，所述关门信号中包含有柜门关闭时的时间。图像识别系统200基于所述关门信号的时间，从所述视频数据中获取所述关门信号后的最近一个图像帧作为关门后的图像，即所述第二图像。

S140：从服务器800中获取目标图像，所述目标图像包括所述服务器800对上一次交易的物品识别结果。

如前所述，在用户每次开启柜门和关闭柜门后，图像识别系统200都会从视觉传感器480中获取开门前的图像(即所述第一图像)以及关门后的图像(即所述第二图像)，并识别所述第一图像和所述第二图像之间是否存在所述目标差异。当所述第一图像与所述第二图像之间不存在所述目标差异时，图像识别系统200判定此次开门用户没有从智能货柜001中拿取物品，也不会将所述第一图像和所述第二图像上传至服务器800。当所述第一图像与所述第二图像之间存在所述目标差异时，图像识别系统200判定此次开门用户从智能货柜001中拿取了物品，因此，图像识别系统200会将所述第一图像和所述第二图像上传至服务器800，服务器800则会对所述第一图像和所述第二图像进一步进行物品识别，获取所述第一图像的物品识别结果以及所述第二图像的物品识别结果。所述第一图像的物品识别结果可以包括所述第一图像中包含的第一物品和第一物品在所述第一图像中所处的位置区域。所述第二图像的物品识别结果可以包括所述第二图像中包含的第二物品以及第二物品在所述第二图像中所处的位置区域。服务器800可以对比所述第一图像的物品识别结果以及所述第二图像的物品识别结果，以识别出所述第二图像中的第二物品相对于所述第一图像中的第一物品的变化，从而识别出此次开门用户从所述智能货柜001中取走的目标物品，从而对此次开门发生的交易进行结算。

所述目标图像可以是服务器800对上一次交易过程中的图像的物品识别结果。具体地，所述目标图像可以是服务器800对上一次交易过程中的关门后的图像的物品识别结果，也就是对上一次交易过程中的所述第二图像的物品识别结果。所述上一次交易过程中的第二图像中可以包含后上一次交易结束后，智能货柜001中剩余的至少一个物品的图像。所述目标图像可以包括至少一个位置区域。所述至少一个位置区域与所述至少一个物品相对应。所述至少一个位置区域可以包括所述目标图像中的所述至少一个物品中的每个物品对应的像素点所在的位置区域。所述至少一个物品中的每个物品在所述目标图像中都对应一个所述位置区域。

图4示出了根据本说明书的实施例提供的一种目标图像010的示意图。如图4所示，目标图像010中包括4个物品，所述4个物品分别对应4个位置区域，分别是位置区域011、位置区域012、位置区域013以及位置区域014。每个物品对应一个位置区域。所述位置区域可以是物品在目标图像010中所对应的像素点所在的位置区域。为了方便展示，服务器800可以用一个矩形框标记出物品对应的位置区域。

需要说明的是，在智能货柜001中，柜门前的区域是没有摆放物品的。因此，目标图像010中的位置区域不会落入柜门前的区域。

S160：基于所述第一图像与所述第二图像的差异以及所述目标图像010，识别所述第一图像与所述第二图像之间是否存在目标差异。

为了方便描述，我们将所述目标差异定义为所述智能货柜001中的物品变化引起的差异，比如，用户从智能货柜001中拿取物品引起的差异，比如，用户更换智能货柜中物品的位置引起的差异，等等。所述目标差异不包括由于外界环境因素引起的差异，比如，关门振动导致物品振动的差异、比如柜门处人影晃动引起的差异，等等。

如图3所示，在一些实施例中，所述方法P100还可以包括：

S180：确定所述第一图像与所述第二图像之间存在所述目标差异，将所述第一图像和所述第二图像发送至所述智能货柜001的服务器800。

图5示出了根据本说明书的实施例提供的一种识别目标差异的流程图。图5示出的流程图与步骤S160相对应。如图5所示，步骤S160可以包括：

S162：将所述第一图像与所述第二图像求差，确定所述第二图像与所述第一图像的差异区域。

将所述第一图像与所述第二图像求差可以是对所述第一图像与所述第二图像相减，获得所述第一图像与所述第二图像的差分图像。所述差分图像由所述第一图像与所述第二图像之间存在差异的像素点构成。

图6示出了根据本说明书的实施例提供的一种确定差异区域的流程图。图6示出了步骤S162的具体流程图。如图6所示，具体地，步骤S162可以是：

S162-2：基于预设图像处理方法获取所述第一图像的多个第一像素点以及所述第二图像的多个第二像素点。

其中，所述多个第一像素点与所述多个第二像素点一一对应。所述第一图像以及所述第二图像都是由多个像素点构成的，并且所述第一图像的多个第一像素点的个数以及位置与所述第二图像的多个第二像素点的个数以及位置一致。

S162-4：对所述多个第一像素点与所述多个第二像素点逐一求差，确定目标像素点的位置以及差异值。

具体地，步骤S162-4可以是，将所述多个第二像素点中的每个第二像素点的像素值与其对应的第一像素点的像素值进减，获取其对应的差异值。当第二像素点与第一像素点的像素值相同时，二者之间的差异值为0。为了方便描述，我们将所述第一图像与第二图像中存在差异的像素点(即差异值不为0的像素点)定义为所述目标像素点。通过步骤S162-4可以确定所述第一图像与所述第二图像之间存在差异的目标像素点的位置以及目标像素点对应的差异值。

S162-6：将相邻的所述目标像素点作为一个差异点集合，将所述差异点集合中的所述目标像素点的差异值进行特征融合作为所述差异点集合的差异值，确定所述差异区域。

为了防止噪点出现，我们将相邻的所述目标像素点作为一个差异点集合，并将所述差异点集合中的目标像素点所在的位置划分为一个区域。所述差异点集合对应的差异值可以是所述差异点集合中的所有目标像素点的差异值进行特征融合的结果。所述特征融合可以是平均值计算，也可以是加权平均值计算，等等。所述第一图像与所述第二图像之间的所有目标像素点可以被划分为至少一个差异点集合。每个差异点集合可以形成一个区域。所述目标像素点可以被划分为至少一个区域。所述至少一个区域可以作为所述第一图像与所述第二图像之间的差异区域。所述差异区域可以包括所述至少一个差异点集合及其对应的差异值。

如图5所示，步骤S160还可以包括：

S164：基于所述差异区域与所述目标图像，确定所述第一图像与所述第二图像之间是否存在所述目标差异。

当获取所述第一图像与所述第二图像之间的差异区域时，我们可以先对差异区域进行判断，以确定所述第一图像与所述第二图像之间是否存在所述目标差异。若所述第一图像与所述第二图像之间不存在差异，则所述第一图像与所述第二图像之间也不存在所述目标差异。若所述第一图像与所述第二图像之间存在差异，则需进一步判断所述差异是否是所述目标差异。

步骤S164判断所述第一图像与所述第二图像之间是否存在差异，可以是判断所述第一图像与所述第二图像之间的差异是否足够小。即判断差异区域的差异是否足够小，或者说判断差异区域的差异是否小于预设的第一阈值。若差异区域的差异足够小或没有差异，小于第一阈值，则判定所述第一图像与所述第二图像之间不存在差异；若差异区域的差异足够大，大于第一阈值，则判定所述第一图像与所述第二图像之间存在差异。

具体地，步骤S164可以包括S164-2和S164-4中的一种：

S164-2：确定所述差异区域的差异小于预设的第一阈值，确定所述第一图像与所述第二图像之间不存在所述目标差异。

所述第一阈值可以包括第一数量阈值以及第一差异阈值。所述第一阈值可以预先存储在图像识别系统200中。所述第一阈值可以依据经验获得，也可以依据标注数据通过机器学习的方法得到。所述确定所述差异区域的差异小于预设的第一阈值可以是确定所述差异区域中的所述差异点集合的数量小于所述第一数量阈值，并且所述差异区域中的所述差异点集合的差异值均小于预设的第一差异阈值。

S164-4：确定所述差异区域的差异大于所述第一阈值，对所述差异区域以及所述至少一个位置区域求交集，获取差异交集区域，基于所述差异交集区域，确定所述第一图像与所述第二图像之间是否存在所述目标差异。

所述确定所述差异区域的差异大于所述第一阈值，可以是确定所述差异区域中的所述差异点集合的数量大于所述第一数量阈值，也可以是，确定所述差异区域中的所述差异点集合的差异值中的至少一个大于所述第一差异阈值。

当所述差异区域的差异大于所述第一阈值时，说明所述第一图像与所述第二图像之间存在差异。所述第一图像与所述第二图像之间的差异是不是所述目标差异需要进一步证明。若所述第一图像与所述第二图像之间的差异是由所述目标差异引起的，那么所述差异区域中至少有一部分会落入所述目标图像中的所述至少一个位置区域所在的区域，也即是说，所述差异区域与所述目标图像的所述至少一个位置区域之间存在交集。若所述第一图像与所述第二图像之间的差异不是由所述目标差异引起的，那么所述差异区域不会落入所述目标图像中的所述至少一个位置区域所在的区域，或者落入所述目标图像中的所述至少一个位置区域所在的区域的面积很小，也就是说，所述差异区域与所述目标图像的所述至少一个位置区域之间不存在交集或者交集很小。因此，要判断所述第一图像与所述第二图像之间的差异是否是所述目标差异，需要进一步判断所述差异区域与所述目标图像的所述至少一个位置区域是否存在交集。

差异交集区域可以是在所述差异区域与所述至少一个位置区域中同时出现的目标像素点的位置及其对应的差异值。为了方便描述，我们将在所述差异区域与所述至少一个位置区域中同时出现的目标像素点定义为目标交集像素点。差异交集区域可以包括在所述差异区域与所述至少一个位置区域中同时出现的目标交集像素点所在的位置及其对应的差异值。

在步骤S164-4中，获取差异交集区域的方法可以是对所述差异区域以及所述至少一个位置区域求交集，确定同时在所述差异区域中和所述至少一个位置区域中存在差异的目标交集像素点的位置；以及将相邻的所述目标交集像素点作为一个目标交集点集合，将所述目标交集点集合中的所述目标交集像素点的差异值进行特征融合作为所述目标交集点集合的差异值，确定所述差异交集区域。所述差异交集区域包括所述目标交集点集合及其对应的差异值。

为了防止噪点出现，在一些实施例中，步骤S164-4可以是将相邻的所述目标交集像素点作为一个差异点集合，并将所述目标交集点集合中的目标交集像素点所在的位置划分为一个区域。在一些实施例中，步骤S164-4还可以是以差异区域中的差异交集点集合和所述至少一个位置区域为单位求交集，所述交集可以是多个区域，每个区域中包含的目标交集像素点组成一个目标交集点的集合。所述目标交集点集合对应的差异值可以是所述目标交集点集合中的所有目标交集像素点的差异值进行特征融合的结果。所述特征融合可以是平均值计算，也可以是加权平均值计算，等等。目标交集像素点的差异值可以是目标交集像素点在差异区域中对应的差异值与其在所述至少一个位置区域中对应的差异值的特征融合的结果。所述特征融合可以是平均值计算，也可以是加权平均值计算，等等。

图7示出了根据本说明书的实施例提供的一种差异交集区域的示意图。如图7所示，在图像010中，所述差异区域包括4个差异点集合，分别是差异点集合015、差异点集合016、差异点集合017以及差异点集合018。差异点集合015与位置区域011之间存在交集，即目标交集点集合021。差异点集合018与位置区域014之间存在交集，即目标交集点集合022。

如图3所示，步骤S164-4可以包括S164-42和S164-44中的一种：

S164-42：确定所述差异交集区域的差异小于预设的第二阈值，确定所述第一图像与所述第二图像之间存在不所述目标差异。

所述第二阈值可以包括第二数量阈值以及第二差异阈值。所述第二阈值可以预先存储在图像识别系统200中。所述二阈值可以依据经验获得，也可以依据标注数据通过机器学习的方法得到。所述确定所述差异交集区域的差异小于预设的第二阈值可以是确定所述差异交集区域中的每个所述目标交集点集合中的所述目标交集像素点的数量均小于所述第二数量阈值，并且所述差异交集区域中的所述目标交集点集合的差异值均小于所述第二差异阈值。当所述目标交集点集合中的目标交集像素点的数量小于所述第二数量阈值时，说明所述目标交集点集合可能是噪声引起的。

S164-44：确定所述差异交集区域的差异大于所述第二阈值，确定所述第一图像与所述第二图像之间存在所述目标差异。

所述差异交集区域的差异大于所述第二阈值，可以是确定所述差异交集区域中的至少一个所述目标交集点集合中的所述目标交集像素点的数量大于所述第二数量阈值，也可以是确定所述差异交集区域中的至少一个所述目标交集点集合的差异值大于所述第二差异阈值。

当所述目标交集点集合中至少有一个目标交集点集合中的目标交集像素点的数量大于所述第二数量阈值时，说明当前目标交集点集合与所述至少一个位置区域之间存在交集，且交集足够大，说明所述差异区域中至少有一部分差异落入物品所在的至少一个位置区域中。这种情况下用户可能从智能货柜001中拿取了物品，因此所述第一图像与所述第二图像之间存在所述目标差异。

当当所述目标交集点集合中至少有一个目标交集点集合的差异值大于所述第二差异阈值时，说明当前目标交集点集合与所述至少一个位置区域之间存在交集，且交集足够大，说明所述差异区域中至少有一部分差异落入物品所在的至少一个位置区域中。这种情况下用户可能从智能货柜001中拿取了物品，因此所述第一图像与所述第二图像之间存在所述目标差异。

综上所述，本说明书提供的图像识别的方法P100和系统001，可以获取开门前的第一图像以及关门后的第二图像，还可以获取上一次交易结束后服务器800对智能货柜001中剩余物品的物品识别结果，即剩余物品中每个物品在目标图像中对应的像素点所在的位置区域。所述方法和系统可以将开门前的第一图像与关门后的第二图像求差，获取第一图像和第二图像对应的差异区域，并对比所述差异区域与剩余物品的至少一个位置区域之间是否存在交集，若不存在交集或交集小于阈值，则认为差异是由于外界环境因素引起的；若存在交集且交集大于阈值，则认为差异是由于用户拿取物品引起的目标差异。所述方法和系统可以通过将当前开门引起的差异与上一次交易的物品识别结果进行对比，识别当前开门引起的差异是否与物品所在的位置区域有交集，从而判断当前差异是否是由于用户拿取物品引起的目标差异。所述方法和系统可以排除由于外界环境影响引起的开门前图像和关门后图像的差异，提高图像识别的准确率，精确识别出开门前的图像与关门后的图像是否存在由于拿取物品引起的差异，从而提高识别用户是否拿取物品的准确度，防止在用户没有拿取物品的情况下由于数据传输引起的等待，提高用户体验感。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组图像识别的可执行指令。当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的图像识别的方法P100的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在计算设备300上运行时，所述程序代码用于使计算设备300执行本说明书描述的图像识别的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在计算设备300上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统(例如处理器320)使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备300上执行、部分地在计算设备300上执行、作为一个独立的软件包执行、部分在计算设备300上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分设备标注出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

Claims

1.一种图像识别方法，用于对智能货柜进行图像识别，包括：

从所述智能货柜的视觉传感器中获取第一图像以及第二图像，所述第一图像包括所述视觉传感器采集的所述智能货柜的开门信号前的一个图像帧，所述第二图像包括所述视觉传感器采集的关门信号后的一个图像帧；

从服务器中获取目标图像，所述目标图像包括所述服务器对上一次交易过程中关门后所述智能货柜中剩余的至少一个物品的图像的物品识别结果，所述目标图像包括至少一个位置区域，所述至少一个位置区域包括所述至少一个物品中的每个物品对应的像素点所在的位置区域，所述至少一个位置区域与所述至少一个物品相对应；以及

基于所述第一图像与所述第二图像的差异区域或者所述差异区域以及所述差异区域与所述至少一个位置区域的交集，识别所述第一图像与所述第二图像之间是否存在目标差异，所述目标差异包括所述智能货柜中的物品变化引起的差异。

2.如权利要求1所述的图像识别方法，其中，所述识别所述第一图像与所述第二图像之间是否存在目标差异，包括：

将所述第一图像与所述第二图像求差，确定所述第二图像与所述第一图像的差异区域；以及

基于所述差异区域与所述目标图像，确定所述第一图像与所述第二图像之间是否存在所述目标差异。

3.如权利要求2所述的图像识别方法，其中，所述将所述第一图像与所述第二图像求差，确定所述第二图像与所述第一图像的差异区域，包括：

基于预设图像处理方法获取所述第一图像的多个第一像素点以及所述第二图像的多个第二像素点，所述多个第一像素点与所述多个第二像素点一一对应；

对所述多个第一像素点与所述多个第二像素点逐一求差，确定目标像素点的位置以及差异值，所述目标像素点包括所述多个第一像素点与所述多个第二像素点中存在差异的像素点；以及

将相邻的所述目标像素点作为一个差异点集合，将所述差异点集合中的所述目标像素点的差异值进行特征融合作为所述差异点集合的差异值，确定所述差异区域，所述差异区域包括所述差异点集合及其对应的差异值。

4.如权利要求2所述的图像识别方法，其中，所述基于所述差异区域与所述目标图像，确定所述第一图像与所述第二图像之间是否存在所述目标差异，包括：

确定所述差异区域的差异小于预设的第一阈值，确定所述第一图像与所述第二图像之间不存在所述目标差异；或者

确定所述差异区域的差异大于所述第一阈值，对所述差异区域以及所述至少一个位置区域求交集，获取差异交集区域，基于所述差异交集区域，确定所述第一图像与所述第二图像之间是否存在所述目标差异。

5.如权利要求4所述的图像识别方法，其中，所述确定所述差异区域的差异小于预设的第一阈值，包括：

确定所述差异区域中的差异点集合的数量小于预设的第一数量阈值，并且所述差异区域中的所述差异点集合的差异值均小于预设的第一差异阈值，所述第一阈值包括所述第一数量阈值以及所述第一差异阈值；以及

所述确定所述差异区域的差异大于所述第一阈值，包括以下情况中的至少一个：

确定所述差异区域中的所述差异点集合的数量大于所述第一数量阈值；以及

确定所述差异区域中的所述差异点集合的差异值中的至少一个大于所述第一差异阈值。

6.如权利要求4所述的图像识别方法，其中，所述对所述差异区域以及所述至少一个位置区域求交集，获取差异交集区域，包括：

对所述差异区域以及所述至少一个位置区域求交集，确定同时在所述差异区域中和所述至少一个位置区域中存在的目标交集像素点的位置；以及

将相邻的所述目标交集像素点作为一个目标交集点集合，将所述目标交集点集合中的所述目标交集像素点的差异值进行特征融合作为所述目标交集点集合的差异值，确定所述差异交集区域，所述差异交集区域包括所述目标交集点集合及其对应的差异值。

7.如权利要求6所述的图像识别方法，其中，所述基于所述差异交集区域，确定所述第一图像与所述第二图像之间是否存在所述目标差异，包括：

确定所述差异交集区域的差异小于预设的第二阈值，确定所述第一图像与所述第二图像之间存在不所述目标差异；或者

确定所述差异交集区域的差异大于所述第二阈值，确定所述第一图像与所述第二图像之间存在所述目标差异。

8.如权利要求7所述的图像识别方法，其中，所述确定所述差异交集区域的差异小于预设的第二阈值，包括：

确定所述差异交集区域中的每个所述目标交集点集合中的所述目标交集像素点的数量均小于预设的第二数量阈值，并且所述差异交集区域中的所述目标交集点集合的差异值均小于预设的第二差异阈值，所述第二阈值包括所述第二数量阈值以及所述第二差异阈值；以及

所述确定所述差异交集区域的差异大于所述第二阈值，包括以下情况中的至少一个：

确定所述差异交集区域中的至少一个所述目标交集点集合中的所述目标交集像素点的数量大于所述第二数量阈值；以及

确定所述差异交集区域中的至少一个所述目标交集点集合的差异值大于所述第二差异阈值。

9.如权利要求1所述的图像识别方法，其中，还包括：

确定所述第一图像与所述第二图像之间存在所述目标差异，将所述第一图像和所述第二图像发送至所述智能货柜的服务器。

10.一种图像识别系统，包括：

至少一个存储介质，所述至少一个存储介质存储有至少一个指令集用于对智能货柜进行图像识别；以及

至少一个处理器，同所述至少一个存储介质通信连接，

其中，当所述图像识别系统运行时，所述至少一个处理器读取所述至少一个指令集并实施权利要求1-9中任一项所述的图像识别方法。