CN111415461A

CN111415461A - 物品识别方法及系统、电子设备

Info

Publication number: CN111415461A
Application number: CN201910016934.7A
Authority: CN
Inventors: 邹文财; 欧阳高; 岳泊暄; 王进
Original assignee: Arcsoft Hangzhou Multimedia Technology Co ltd
Current assignee: Arcsoft Hangzhou Multimedia Technology Co ltd; ArcSoft Corp Ltd
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2020-07-14
Anticipated expiration: 2039-01-08
Also published as: CN111415461B; US20210397844A1; EP3910608A1; EP3910608B1; US11335092B2; WO2020143179A1; KR102329369B1; KR20200088219A; JP2021513690A; JP6986576B2; EP3910608A4

Abstract

本发明公开了一种物品识别方法及系统、电子设备。其中，该方法包括：通过图像捕获装置获取物品的多帧图像；对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息；通过信息捕获装置获取物品的辅助信息；将位置信息与辅助信息进行多模态融合，获得融合结果；根据类别信息和融合结果，确定物品的识别结果。本发明解决了相关技术中在识别物品时，识别精度低的技术问题。

Description

物品识别方法及系统、电子设备

技术领域

本发明涉及信息处理技术领域，具体而言，涉及一种物品识别方法及系统、电子设备。

背景技术

在相关技术中，智能货柜是新零售行业发展的一个重要方向，在识别物品时，目前主要有两种解决方案，一种是传统的RFID(Radio Frequency Identification，无线射频识别)技术方案，另一种是基于视觉识别的静态识别。对于第一种，基于RFID电子标签的解决方案，需要为不同类别的物品制定不同的RFID电子标签，通过无线电信号识别电子标签中的数据以达到物品识别与统计目的，其成本高昂，一方面RFID电子标签的成本高，另一方面推向市场后对成千上万的物品粘贴标签的人力成本太高；而且对金属、液体类物品的识别准确度不足；标签容易被人为撕下，导致货损率较高；而对于第二种，基于视觉识别的静态识别方案，需要在货柜的每层顶部安装相机，开门前和关门后各拍摄一张图像，然后通过视觉识别技术自动识别物品种类和数量，最后通过对比得出最后的结果，空间利用率低，因为相机要距离下层隔板要有较高的高度，否则难以拍到全貌，识别精度容易受到物品遮挡影响，物品不能堆叠摆放。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种物品识别方法及系统、电子设备，以至少解决相关技术中在识别物品时，识别精度低的技术问题。

根据本发明实施例的一个方面，提供了一种物品识别方法，包括：通过图像捕获装置获取物品的多帧图像；对所述物品的多帧图像进行处理，以获得每帧图像中所述物品的位置信息和类别信息；通过信息捕获装置获取所述物品的辅助信息；将所述位置信息与所述辅助信息进行多模态融合，获得融合结果；根据所述类别信息和所述融合结果，确定所述物品的识别结果。

进一步地，对所述物品的多帧图像进行处理，以获得每帧图像中所述物品的位置信息和类别信息包括：对所述物品的每帧图像进行图像预处理；确定进行图像预处理后的每帧图像中的物品检测框和所述类别信息，其中，在所述物品检测框中包括至少一种物品；根据所述物品检测框确定所述物品的位置信息。

进一步地，所述方法还包括：对所述物品检测框进行非极大值抑制。

进一步地，所述方法还包括：通过图像捕获装置获取目标部位的多帧图像；对所述目标部位的多帧图像进行处理，以获得每帧图像中所述目标部位的位置信息和判别结果。

进一步地，根据所述每帧图像中所述目标部位的位置信息和判别结果、所述物品的所述类别信息和所述融合结果，确定所述物品的识别结果。

进一步地，对所述目标部位的多帧图像进行处理，以获得每帧图像中所述目标部位的位置信息和判别结果包括：对所述目标部位的每帧图像进行图像预处理，以增强用户的目标部位的图像轮廓；选取进行图像预处理后的每帧图像中出现用户的目标部位的部位候选区域；提取所述部位候选区域中的特征信息，得到多个部位特征；通过预先训练的分类器识别所述多个部位特征，以得到每帧图像中所述目标部位的位置信息及判别结果。

进一步地，选取进行图像预处理后的每帧图像中出现用户的目标部位的部位候选区域，包括：通过子窗口扫描每帧图像，以确定每帧图像中可能出现用户的目标部位的部位候选区域。

进一步地，所述方法还包括：对所述物品进行细粒度分类。

进一步地，所述信息捕获装置包括下述至少之一：深度相机、读卡器、重力装置、气味传感器。

进一步地，在所述信息捕获装置为所述深度相机时，通过所述深度相机获取所述物品的深度图像，所述物品的辅助信息包括深度信息。

进一步地，将所述位置信息与所述辅助信息进行多模态融合，获得融合结果包括：获取所述图像捕获装置和所述深度相机的镜头参数和位置参数；根据所述深度相机的镜头参数、所述深度信息和所述物品在所述深度图像中的位置，获得所述物品在所述深度相机坐标系中的位置；根据所述图像捕获装置和所述深度的位置参数，以所述深度相机的坐标系为基准，标定出所述图像捕获装置相对于所述深度相机的相对位置关系；基于所述镜头参数、所述物品在所述深度图像中的位置、所述深度信息和所述相对位置关系，确定所述物品在所述深度图像中的位置对应到所述物品在所述图像捕获装置获取的图像中的映射位置信息；将所述位置信息和所述映射位置信息进行比对，获得所述融合结果。

进一步地，通过图像捕获装置获取物品的多帧图像包括：开启所述图像捕获装置以获取所述物品的视频；从所述视频中截取所述物品的多帧图像。

进一步地，所述方法还包括：根据所述融合结果，确定物品的跟踪轨迹；对所述跟踪轨迹进行分类，得到轨迹分类结果，其中，所述轨迹分类结果对应于物品的移动结果；根据所述轨迹分类结果，确定物品拿取结果和物品放回结果；根据物品拿取结果和物品放回结果，更新物品管理列表。

进一步地，根据所述融合结果，确定物品的跟踪轨迹包括：根据所述融合结果，获得所述物品的位置信息和所述物品的移动趋势；根据所述物品当前的检测框与预测的候选框之间的重合相似度和特征相似度，判断当前检测结果与上一帧检测结果的匹配度，得到物品的跟踪轨迹，其中，所述预测的候选框在上一帧所述物品的位置信息基础上根据所述物品的移动趋势获得，所述跟踪轨迹包括：在每个时间节点上物品的位置、物品种类、物品移动的时间戳。

进一步地，对所述跟踪轨迹进行分类，得到轨迹分类结果的步骤，包括：从所述跟踪轨迹中提取物品移动长度；结合预先训练的分类决策树模型和所述物品移动长度，对对所述跟踪轨迹进行分类，得到轨迹分类结果。

进一步地，根据所述轨迹分类结果，确定物品拿取结果或物品放回结果的步骤，包括：获取所述图像捕获装置、或者所述图像捕获装置与所述信息捕获装置结合在同一时刻的轨迹分类结果；根据所述图像捕获装置、或者所述图像捕获装置和所述信息捕获装置结合在同一时刻的轨迹分类结果，建立基于分类规则库的分类判别方案；依据所述分类判别方案和所述轨迹分类结果，确定物品拿取结果或物品放回结果。

进一步地，所述方法还包括：获取物品价格表，其中，所述物品价格表中包含每种物品的价格；依据物品拿取结果和物品放回结果，确定被拿取的物品和物品数量；根据被拿取的物品和物品数量，以及每种物品的价格，确定物品结算总价。

进一步地，所述方法应用于新零售场景，所述新零售场景至少包括：无人售货商店、智能货柜。

根据本发明实施例的另一方面，还提供了一种物品识别系统，所包括：图像捕获装置，用于获取物品的多帧图像；信息捕获装置，用于获取所述物品的辅助信息；服务器，用于对所述物品的多帧图像进行处理，以获得每帧图像中所述物品的位置信息和类别信息，并将所述位置信息与所述辅助信息进行多模态融合，获得融合结果，再根据所述类别信息和所述融合结果，确定所述物品的识别结果。

进一步地，所述图像捕获装置还用于获取目标部位的多帧图像。

进一步地，所述服务器，还用于对所述目标部位的多帧图像进行处理，以获得每帧图像中所述目标部位的位置信息和判别结果，并根据所述每帧图像中所述目标部位的位置信息和判别结果、所述类别信息和所述融合结果，确定所述物品的识别结果。

进一步地，还包括：物品存储装置，所述图像捕获装置和所述信息捕获装置在所述物品存储装置打开时开启。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的物品识别方法。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的物品识别方法。

在本发明实施例中，通过图像捕获装置获取物品的多帧图像，对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息，通过信息捕获装置获取物品的辅助信息，将位置信息与辅助信息进行多模态融合，获得融合结果，根据类别信息和融合结果，确定物品的识别结果。在该实施例中，可以实现多帧图像的获取，并分析得到物品的位置信息和类别信息，结合物品的辅助信息，准确识别出物品，同样可以准确识别被用户拿取的物品种类和物品数量，进而解决相关技术中在识别物品时，识别精度低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1根据本发明实施例的一种可选的物品识别系统的示意图；

图2是根据本发明实施例的一种可选的物品识别方法的流程图；

图3是根据本发明实施例的一种实现物品识别的示意图；

图4是根据本发明实施例一种识别图像中目标部位的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于用户理解本发明，下面对本发明各实施例中涉及的部分术语或名词做出解释：

新零售：是指以互联网为依托，通过运用大数据、人工智能等技术手段，对物品的生产、流通与销售过程进行升级改造，并对线上服务、线下体验以及现代物流进行深度融合。

RFID：无线射频识别(Radio Frequency Identification，RFID)，又称作RFID电子标签，可通过无线电讯号识别特定目标并读写相关数据，而无需识别系统与特定目标之间建立机械或光学接触。

智能货柜：搭载有视觉识别技术的货柜。

货损率：货柜在运营过程中损失的物品数量占总物品数量的比例。

TOF深度相机:Time of Flight深度相机，又被称为3D相机，与传统相机不同之处在于该相机可同时拍摄景物的灰阶信息以及包含深度的3维信息。

NMS:Non Maximum Suppression,非极大值抑制。

相机：本文专指定制的摄像头。

多帧图像：基于图像或视频获取的包含至少一帧的图像。

本发明实施例可以应用于新零售的各种实施场景中，例如对于新零售中的智能货柜的使用，相对于相关技术中，在物品识别过程中，无法准确识别图像捕获装置捕获的图像中被用户拿取的物品的种类和数量，如仅仅通过开门前和关门后各拍摄一张图像，然后通过视觉识别技术自动识别物品种类和数量，最后通过对比得出最后的结果，会出现被拿取的物品无法通过一张照片识别出来，本发明实施例中，可以在智能货柜上安装多个相机，并拍摄开门后的视频，并分析视频中的多帧图像，对图像进行多模态融合，从而准确识别被用户拿取的物品种类和物品数据，提高智能货柜的物品识别智能化程度，减少货损率。

下面通过详细的实施例来说明本发明。

本发明实施例可以应用于新零售等领域，具体使用范围可以是在智能货柜、智能橱柜、商场、超市等区域，本发明可以以智能货柜对本发明进行示意性说明，但不限于此。

图1根据本发明实施例的一种可选的物品识别系统的示意图，如图1所示，该系统可以包括：图像捕获装置11，信息捕获装置12，服务器13，其中，

图像捕获装置11，用于获取物品的多帧图像。可选的，图像捕获装置可以安装于货柜或者商场等区域中，布置图像捕获装置的数量为至少一个。可选的，在本发明实施例中，图像捕获装置可以为普通相机，例如，RGB相机、红外相机等。当然，本领域技术人员可根据实际需求调整图像捕获装置的类型和数量而不限于此处所给出的示例，并且当图像捕获装置的数量为2个以上时，可以均使用相同类型的图像捕获装置或者使用不同类型的图像捕获装置的组合。

信息捕获装置12，用于获取物品的辅助信息。而对于信息捕获装置，可以设置在图像捕获装置周围，与图像捕获装置合作使用，设置的信息捕获装置的数量为至少一个。可选的，在本发明实施例中，信息捕获装置可以包括：用于获取深度信息的深度相机，用于扫描物品标识码的读卡器，用于获取重力信息的重力装置(如重力板)，用于获取气味信息的气味传感器等。具体地，深度相机包括TOF深度相机、双目相机、结构光相机等。当然，本领域技术人员可根据实际需求调整信息捕获装置的类型和数量而不限于此处所给出的示例，并且当信息捕获装置的数量为2个以上时，均可以使用相同类型的信息捕获装置或者使用不同类型的信息捕获装置的组合。

例如，在上述信息装置为重力装置时，其可以通过比较重力装置在不同时刻获取的重力信息，判断是否拿取商品，以及大致拿取哪些商品。该重力装置可设置在物品存储装置中。通过重力装置检测到的重力信息，结合图像捕获装置分析的物品信息确定出物品识别结果。

例如，在上述信息装置为气味传感器时，其可以通过气味传感器获取物品的气味信息，并结合图像捕获装置分析的物品信息确定物品识别结果。该气味传感器可设置在物品存储装置中。

服务器13，用于对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息，并将位置信息与辅助信息进行多模态融合，获得融合结果，再根据物品的类别信息和融合结果，确定物品的识别结果。

上述物品识别系统，利用图像捕获装置11获取物品的多帧图像，通过信息捕获装置12获取物品的辅助信息，最后通过服务器13对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息，并将位置信息与辅助信息进行多模态融合，获得融合结果，再根据类别信息和融合结果，确定物品的识别结果。通过对图像中的物品的位置和类别进行识别，与信息捕获装置得到的辅助信息进行多模态融合，从而准确得到物品的识别结果，同样可以准确识别货柜中被用户拿取的物品种类和物品数量，提高物品识别率，减少货损率，进而解决相关技术中在识别物品时，识别精度低的技术问题。

对于图像捕获装置的布置数量和信息捕获装置的布置数量，可以根据每个使用区域和使用的设备进行合理性布置，例如，对于一个智能货柜而言，可以布设两个图像捕获装置和一个信息捕获装置。

优选的，信息捕获装置为TOF深度相机，用于获取物品的深度图像，而物品的辅助信息包括深度信息。即可以通过深度相机采集物品的深度图像，得到物品摆放的深度信息，这样就可以有效识别重叠或者被遮盖的物品。

作为本申请一可选的实施例，上述物品识别系统还包括：使用图像捕获装置获取目标部位的多帧图像。在本申请中，目标部位可以为手、机械手、假肢或者其它可以拿取物品的人体部位、机械装置等，即本申请可以检测用户通过手拿取物品时的图像，通过对用户目标部位的图像检测，分析目标部位所处的位置。

另一种可选的，上述服务器还用于对目标部位的多帧图像进行处理，以获得每帧图像中目标部位的位置信息和判别结果，并根据每帧图像中目标部位的位置信息和判别结果、物品的类别信息和融合结果，确定物品的识别结果。即可以通过目标部位的位置信息和判别结果，结合图像捕获装置和信息捕获装置得到的图像分析出物品的类别信息和融合结果，进而提高物品识别精确度。通过该目标部位的检测还可以得到被用户拿取的物品种类和物品数量。

可选的，上述判别结果指示判别是不是目标部位。

优选的，目标部位的检测可以为手的检测。本发明下述实施例可以通过用户的手作为用户的目标部位进行说明，并检测每帧图像中手的位置。

作为本申请一可选的实施例，上述物品识别系统还包括：物品存储装置，图像捕获装置和信息捕获装置在物品存储装置打开时开启。

可选的，物品存储装置指示存储物品的设备、装置，在本申请中，物品存储装置可以包括但不限于上述的：智能货柜。

通过本发明实施例的物品识别系统，可以通过物品存储装置的开启信息为触发信息，同时开启图像捕获装置和信息捕获装置，以分别采集物品的多帧图像和物品的辅助信息，进而对多帧图像和辅助信息进行分析，得到物品的位置、类别等信息，进而与辅助信息进行多模态融合，得到物品的识别结果。还可以通过图像捕获装置检测到目标部位的多帧图像，并对目标部位进行检测，进而根据每帧图像中目标部位的位置信息和判别结果，结合图像捕获装置和信息捕获装置得到的图像并分析出物品的类别信息和融合结果，更准确的得到物品的识别结果，提高物品的识别精度。

下面说明本发明实施例中一种应用于上述物品识别系统的物品识别方法的实施例。

根据本发明实施例，提供了一种物品识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种可选的物品识别方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，通过图像捕获装置获取物品的多帧图像；

步骤S204，对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息；

步骤S206，通过信息捕获装置获取物品的辅助信息；

步骤S208，将位置信息与辅助信息进行多模态融合，获得融合结果；

步骤S210，根据类别信息和融合结果，确定物品的识别结果。

通过上述步骤，可以通过图像捕获装置获取物品的多帧图像，对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息，通过信息捕获装置获取物品的辅助信息，将位置信息与辅助信息进行多模态融合，获得融合结果，根据类别信息和融合结果，确定物品的识别结果。在该实施例中，可以实现多帧图像的获取，并分析得到物品的位置信息和类别信息，结合物品的辅助信息，准确识别出物品，同样可以准确识别被用户拿取的物品种类和物品数量，进而解决相关技术中在识别物品时，识别精度低的技术问题。

本发明实施例中，物品识别方法可以应用于新零售场景，新零售场景至少包括：无人售货商店中的智能货柜售货、超市购物中的智能货柜售货。

下面对上述各步骤进行详细说明。

步骤S202，通过图像捕获装置获取物品的多帧图像。

在本申请中，可选的，在本发明实施例中，图像捕获装置可以为普通相机，例如，RGB相机、红外相机、摄像头等。当然，本领域技术人员可根据实际需求调整图像捕获装置的类型和数量而不限于此处所给出的示例，图像捕获装置的数量为至少一个，当图像捕获装置的数量为2个以上时，可以均使用相同类型的图像捕获装置或者使用不同类型的图像捕获装置的组合。每个图像捕获装置都可以捕获至少两张图像，在识别时，需要统一图像捕获装置之间的图像捕获时间点，即对同一时间点的图像分别进行分析，以从多个角度识别出物品。

可选地，物品的数量为至少一个，物品可以放置在物品存储装置中，例如，将物品存放在智能货柜中。物品存储装置包括但不限于：智能货柜。

另一种可选的，在检测到物品存储装置被打开后，可以开启图像捕获装置和信息捕获装置。

在一可选的实施例中，通过图像捕获装置获取物品的多帧图像包括：开启图像捕获装置以获取物品的视频；从视频中截取物品的多帧图像。即可以在物品存储装置被打开后，通过图像捕获装置实时获取到物品存储装置内的视频，在物品存储装置被关闭或者检测到用户的拿取动作停止后，可以从视频中获取到多帧图像。

步骤S204，对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息。

本发明实施例中，在处理图像时，重点识别图像中物品所在的位置和类别，在分析位置信息时，可以重点分析物品在图像中的当前位置或者分析物品当前位置与上几帧图像中物品所处的位置之间的关系。

本发明实施例中，在对图像进行处理时，包括两种情况，第一种情况，是对图像中物品所在位置和物品类别进行识别，第二种，是对图像中目标部位所在位置进行识别。

第一种情况，对图像中物品所在位置和物品类别进行识别。

可选地，对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息包括：对物品的每帧图像进行图像预处理。其中，该处图像预处理包括下述至少之一：图像增强、图像缩放、图像减均值；确定进行图像预处理后的每帧图像中的物品检测框和类别信息，其中，在物品检测框中包括至少一种物品；根据物品检测框确定物品的位置信息。

可选的，上述在确定进行图像预处理后的每帧图像中的物品检测框之前，可以先提取多个物品候选框(prior box)，然后进行物品候选框进行深度学习和分析，以确定物品检测框和物品的类别信息。

其中，在分析物品检测框时，可以结合物品候选框和目标部位所在位置，对物品检测框进行高精度识别。

另一种可选的，上述物品识别方法还包括：对物品检测框进行非极大值抑制，以防止误检测，提高物品的识别精度。

即可以在识别图像中的物品时，先对图像进行预处理，包括图像增强、缩放以及减均值等操作，接下来是提取物品检测框，并对提取的物品检测框进行非极大值抑制(NMS)，以防止误检测，提高物品的识别精度。

在另一可选的实施例中，上述物品识别方法还包括：对物品进行细粒度分类，以提高物品的识别精度。即可以通过对物品进行细粒度分析，以得到物品识别信息。可选的，针对相似物品进行细粒度分类，通过分析相似物品之间的微小差异提高物品的识别精度。可选的，本发明实施例中的物品的类型包括但不限于：蔬菜类、水果类、零食类、鲜肉类、海产类等。

图3是根据本发明实施例的一种实现物品识别的示意图，如图3所示，在进行物品识别时，可以先输入图像捕获装置拍摄的视频，在对视频进行裁剪后，可以对图像进行预处理，并提取物品候选框，结合目标部位的检测对提取的物品候选框进行分析，得到物品检测框，然后对物品检测框进行非极大值抑制，最后可以利用细粒度分类与多模态融合技术，确定出物品识别结果。

第二种情况，对图像中目标部位所在位置进行识别。

本发明实施例中，可以以手作为目标部位进行说明。

作为本发明一可选的实施例，上述物品识别方法还包括：通过图像捕获装置获取目标部位的多帧图像；对目标部位的多帧图像进行处理，以获得每帧图像中目标部位的位置信息和判别结果。

而在本发明另一可选的实施例，对目标部位的多帧图像进行处理，以获得每帧图像中目标部位的位置信息和判别结果包括：对目标部位的每帧图像进行图像预处理，以增强用户的目标部位的图像轮廓。其中，该处的图像预处理可以包括下述至少之一：图像降噪、图像增强、对比度增强、图像平滑、图像锐化等一项或多项处理方式；选取进行图像预处理后的每帧图像中出现用户的目标部位的部位候选区域；提取部位候选区域中的特征信息，得到多个部位特征；通过预先训练的分类器识别多个部位特征，以得到每帧图像中目标部位的位置信息及判别结果。

本发明实施例中的该处图像预处理，主要是针对目标部位的每帧图像进行图像预处理，通过图像预处理(可包括图像降噪、图像增强)等操作，对手部位进行增强，包括对比度增强、图像平滑、噪声滤除、图像锐化以增强目标轮廓。

在完成上述的图像预处理后，可以确定出多个部位候选区域，例如，确定多个手势候选区域(Region of Interest,ROI)，在相机的全局感知范围中选取一些可能的手势候选区域。

可选的，选取进行图像预处理后的每帧图像中出现用户的目标部位的部位候选区域，包括：通过子窗口扫描每帧图像，以确定每帧图像中可能出现用户的目标部位的部位候选区域。即可以采用子窗口扫描全图，选取图像高度的1/n作为手部最小尺度，子窗口的大小在此基础上以一定倍数逐步增加。

上述的手势候选区域指示的是对手可能做出动作进行识别，在确定这些手势候选区域时，一般会参考手臂的位置、货柜的位置这些因素。

作为本发明一可选的示例，在提取部位候选区域中的特征信息，得到多个部位特征时，可以是指提取部位候选区域中的特征信息，得到多个部位特征，如，可以对手可能处于拿取物品的手势或者准备放回物品的手势进行识别。

可选的，上述的分类器可以为预先训练的部位分类模型，例如，确定部位分类模型为手势分类模型，在将提取的手部特征放入训练好的分类器模型后，可以对手进行识别，确定出图像中的手的完整大小、手的位置、手的轮廓。当然，本发明实施例中还能对头部、肩部等部位特征进行识别，以更精确分析物品与物品存储装置、用户之间所处的相对位置。

图4是根据本发明实施例一种识别图像中目标部位的示意图，如图4所示，在进行图像识别时，可以通过图像捕获装置获取到物品的视频，然后分析得到多帧图像，并对拍摄的图像进行图像预处理，并提取出多个部位候选区域，然后对每个部位候选区域进行特征提取和描述，并利用分类器对手势进行检测识别，最后可以输出识别结果，并进行决策。

上述实施方式，指示了在提取ROI候选区域后，要将所有目标缩放为统一的判别大小，计算其各种特征，为每个目标选取一组特征作为分类的基础，而后将特征输入已训练好的分类器，对目标候选区域进行识别。

可选地，根据每帧图像中目标部位的位置信息和判别结果、结合图像捕获装置和信息捕获装置得到的图像并分析出物品的类别信息和融合结果，确定物品的识别结果。

步骤S206，通过信息捕获装置获取物品的辅助信息。

可选的，在本发明实施例中，信息捕获装置包括：用于获取深度信息的深度相机，用于扫描物品标识码的读卡器，用于获取重力信息的重力装置(如重力板)，用于获取气味信息的气味传感器等，具体地，深度相机包括TOF深度相机、双目相机、结构光相机等。当然，本领域技术人员可根据实际需求调整信息捕获装置的类型和数量而不限于此处所给出的示例，并且当信息捕获装置的数量为2个以上时，可以均使用相同类型的信息捕获装置或者使用不同类型的信息捕获装置的组合。

可选的，信息捕获装置为深度相机，用于获取物品的深度图像，物品的辅助信息包括深度信息。即可以通过选取的深度相机来获取到物品的深度信息，例如，在用户拿取多个物品后，物品出现重叠或者遮挡，此时，通过图像捕获装置捕获的图像无法准确分析被遮挡的物品，通过该信息捕获装置可以获取到物品的辅助信息(如深度信息)，对辅助信息进行分析，可以得到物品的分析结果。

步骤S208，将位置信息与辅助信息进行多模态融合，获得融合结果。

作为本发明另一可选的实施例，将位置信息与辅助信息进行多模态融合，获得融合结果包括：获取图像捕获装置和深度相机的镜头参数和位置参数。其中，镜头参数至少包括：相机焦距、相机中心点，位置参数用于指示所述物品在所述深度图像中的位置，位置参数至少包括：每个图像捕获装置或深度相机的安装坐标；根据深度相机的镜头参数、深度信息和物品在深度图像中的位置获得物品在深度相机坐标系中的位置；根据图像捕获装置和深度的位置参数，以深度相机的坐标系为基准，标定出图像捕获装置相对于所述深度相机的相对位置关系；基于镜头参数、物品在深度图像中的位置、深度信息和相对位置关系，确定物品在深度图像中的位置对应到物品在图像捕获装置获取的图像中的映射位置信息品在图像捕获装置中的第二位置信息；将位置信息和映射位置信息进行比对，获得融合结果。

下面对多模态融合进行说明。多模态融合基于深度信息来对识别结果进行融合，本发明实施例中的多模态融合，针对普通相机和深度相机两种相机拍摄的图像。

分别以两个图像捕获装置(定义为普通相机，即相机1和相机3)和一个深度相机(深度相机2)为例进行说明。在相机设备出厂之前，对三个相机的镜头参数和位置参数进行获取，其中，镜头参数包括相机焦距，相机中心点等；根据深度相机2的镜头参数、位置参数获得物品在深度相机2中的坐标；以深度相机2的坐标系为基准，标定出图像捕获装置相对于深度相机2的相对位置关系；并基于镜头参数、物品在深度图像中的位置、深度信息和相对位置关系，根据物品在深度相机2中的坐标确定物品在图像捕获装置(即相机1和相机3)中的映射位置信息，最后可以将位置信息和映射位置信息进行比对，获得融合结果。

在相机模型中，根据小孔成像原理，三维点在图像中的位置与在相机坐标系中的位置满足如下关系：

其中，s表示缩放因子，f_x和f_y分别为x轴和y轴上的相机焦距，m_x和m_y分别为x轴和y轴上的相机中心点，K表示相机内参矩阵，

X表示物品的三维点在相机坐标系中的位置，X＝[X Y Z]^T，x表示物品的三维点在图像中的位置，x＝[u v]^T。

基于上述关系，对于深度相机，存在下列公式：

其中，d₂表示深度相机2的深度信息，[u₂ v₂ 1]^T表示物品在深度图像中的位置，K₂表示深度相机2的内参矩阵，[X₂ Y₂ Z₂]^T表示物品在深度相机2坐标系中的位置。

在上述公式(1)中，深度d₂，内参矩阵K₂，及物品在深度图像中的位置[u₂ v₂ 1]^T为已知量，因此，根据所述深度相机的镜头参数、所述深度信息和所述物品在所述深度图像中的位置可计算出物品在深度相机2坐标系中的位置[X₂ Y₂ Z₂]^T。

同样，对于相机1和3，分别存在下列公式：

本发明实施例中，可以以深度相机2的坐标系为基准，标定出相机1和3相对于深度相机2的相对位置关系T₁₂和T₃₂，其中T₁₂表示深度相机2坐标系到相机1坐标系之间的相对位置关系，T₃₂表示深度相机2坐标系到相机3坐标系之间的相对位置关系。

因此，物品在相机1坐标系中的位置[X₁ Y₁ Z₁]^T可根据物品在深度相机2坐标系中的位置[X₂ Y₂ Z₂]^T和相对位置关系T₁₂得到，即

同样，物品在相机3坐标系中的位置[X₃ Y₃ Z₃]^T可根据物品在深度相机2坐标系中的位置[X₂ Y₂ Z₂]^T和相对位置关系T₃₂得到，即

将公式(1)、(4)和(5)分别代入公式(2)和(3)，经过变换可得到：

则物品在深度图像中的位置[u₂ v₂]在相机1和相机3上捕获的图像中的位置分别为[u₁ v₁]和[u₃ v₃]。

通过上述公式，可以确定出物品在深度相机中成像点在其它相机中的成像点，即将深度相机的拍摄的物品映射到其它普通相机中，并比较相机之间拍摄到的物品种类和物品数量是否出现误差，若有误差，需要服务器重新进行计算、比较，以确定识别出的物品结果。

上述的多模态融合，可以实现图像中物品的准确识别，得到图像中的物品融合结果。

步骤S210，根据类别信息和融合结果，确定物品的识别结果。

即可以根据预先分析得到的物品类别，以及物品识别的融合结果，得到物品的识别结果，本申请可以重点得到物品类别、每一物品类别的物品数量、具体物品。

对整个视频进行分析后，可以对连续多帧图像进行分析，以确定出物品被拿取和放回的数据。

本发明实施例中，确定被拿取的商品和被放回的商品，包括三种方式。

第一种，根据多帧图像中物品的识别结果，确定被拿取和被放回的商品。

其中，本发明实施例中，在分析物品拿取和物品放回时，方法还包括：根据融合结果，确定物品的跟踪轨迹；对跟踪轨迹进行分类，得到轨迹分类结果，其中，轨迹分类结果对应于物品的移动结果；根据轨迹分类结果，确定物品拿取结果和物品放回结果；根据物品拿取结果和物品放回结果，更新物品管理列表。

即可以分为三步，第一步，基于信息捕获装置和图像捕获装置的轨迹跟踪；第二步，基于机器学习的轨迹分类；第三步，对轨迹分类结果进行判别。其中，在进行轨迹跟踪时，可选的，根据融合结果，确定物品的跟踪轨迹包括：根据融合结果，获得物品的位置信息和物品的移动趋势；根据物品当前的检测框与预测的候选框之间的重合相似度和特征相似度，判断当前检测结果与上一帧检测结果的匹配度，得到物品的跟踪轨迹，其中，预测的候选框在上一帧物品的位置信息基础上根据物品的移动趋势获得，跟踪轨迹包括：在每个时间节点上物品的位置、物品种类、物品移动的时间戳。

以拍摄RGB图像的RGB相机作为图像捕获装置，以深度相机作为信息捕获装置进行说明。深度相机和RGB相机信息的多模态信息融合，可以使系统获得物品的位置信息以及物品的移动趋势，根据所述物品当前的检测框与预测的候选框的重合相似度以及物品当前的检测框与预测的候选框的特征相似度，判断当前检测结果与上一帧检测结果的匹配度，如下式所示：

r＝αIOU(BBox_current，BBox_predict)+βf(BBox_current，BBox_predict),

其中，r为上一帧检测结果与当前帧检测结果的匹配度，IOU(BBox_current，BBox_predict)，为当前物品检测框与预测的候选框在空间上的重合相似度，f(BBox_current，BBox_predict)为当前物品检测框与预测的候选框的特征相似度，α和分别为重合相似度和特征相似度的权重系数，其中，预测的候选框在上一帧物品的位置信息基础上根据物品的移动趋势获得。

将连续的检测结果轨迹连接，形成完整的跟踪轨迹，该跟踪轨迹包括：在每个时间节点上物品的位置、物品种类、物品移动的时间戳，即每个时间节点可以包括商品位置，品类，时间戳等。

对于轨迹分类，即第二步，基于机器学习的轨迹分类，可选的，对跟踪轨迹进行分类，得到轨迹分类结果的步骤，包括：从跟踪轨迹中提取物品移动长度；结合预先训练的分类决策树模型和物品移动长度，对跟踪轨迹进行分类，得到轨迹分类结果。

在本发明实施例中，通过跟踪轨迹的人工提取参数与决策树模式识别算法结合，对轨迹进行分类。结合专家经验，从轨迹中提取轨迹长度，图像中起始位置，最大位置，结束时位置等特征，结合决策树模型，可以将轨迹分类成“准确拿取”“准确放回”，“疑似拿取”，“疑似放回”，“误识”，“其他”等六类。

另外，对于轨迹判别，即第三步，对轨迹分类结果进行判别。可选的，根据所述轨迹分类结果，确定物品拿取结果或物品放回结果的步骤，包括：获取所述图像捕获装置、或者所述图像捕获装置与所述信息捕获装置结合在同一时刻的轨迹分类结果；根据所述图像捕获装置、或者所述图像捕获装置和所述信息捕获装置结合在同一时刻的轨迹分类结果，建立基于分类规则库的分类判别方案；依据分类判别方案和轨迹分类结果，确定物品拿取结果或物品放回结果。

可选的，在进行分类判别时，可以针对上述分类结果进行判别，可以基于分类规则库进行对图像捕获装置的轨迹分类结果进行判别，可选的，以多个摄像头和至少一个深度相机为例进行说明，下面通过一种判别规则进行说明，建立如下规则：

1.多数摄像头认为“准确拿取”或“准确放回”则确认结果。

2.多数摄像头认为“疑似”，少数认为“准确”，则认为“准确”。

3.多数摄像头认为“疑似拿取”或“疑似放回”，则认为“拿取”或“放回”。

4.摄像头结果方向存在争议，则忽略此次结果。

通过上述方式，可以识别出多帧图像中的物品，并通过轨迹跟踪、轨迹分类、分类判别等方式，确定出被用户(或机器)拿取和放回的商品，从而为后续结算做准备。

第二种，通过售货参考线确定被拿取的物品和放回的商品。

可选的，本发明中的方法还包括：在图像获取装置拍摄的画面中确定一售货参考线，其中，售货参考线用于确定物品的拿取操作和物品的放回操作；根据售货参考线，确定物品存储装置(如货柜)中被拿取的物品和物品数量，以及在拿取后被放回物品存储装置的物品和物品数量。

即可以在相机视野中定义一条售货参考线l，物品从货柜内向外经过参考线则判定为拿取，反之，物品从参考线以外朝货柜运动，经过参考线，则判定为放回。

第三种，基于物品感应区来实时检测被用户拿取和放回的物品。

可选的，本发明中的方法还包括：确定每个图像获取装置的坐标系；在坐标系中划分出一个物品感应区域；通过物品感应区域和视频，确定物品存储装置中被拿取的物品和物品数量，以及在拿取后被放回物品存储装置的物品和物品数量。

在相机坐标系中划定一个有效区域(物品感应区域)，实时检测此区域中出现的物品个数，并结合前后帧信息，判断物品移动方向(可以依据初始点位置和终止点位置判断)，做出拿取放回判定。

通过上述步骤，可以确定出被用户拿取的物品和放回的物品，进而可以进行自动结算。

作为本申请另一可选的示例，上述物品识别方法还包括：获取物品价格表，其中，物品价格表中包含每种物品的价格；依据物品拿取结果和物品放回结果，确定被拿取的物品和物品数量；根据被拿取的物品和物品数量，以及每种物品的价格，确定物品结算总价。

可选的，上述物品价格表可以是使用物品存储装置的商店(或其它商场等)所使用的价格表，里面记录每个物品存储装置中所放置的物品和被拿取的、以及放回的物品，通过本发明的物品价格表，能够实现物品的自动管理。

通过本发明实施例中，可以有效提高物品识别与计数的精度，大幅度降低货柜成本与运营成本，同时有效减少货损率。

根据本发明实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述任意一项的物品识别方法。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述任意一项的物品识别方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：通过图像捕获装置获取物品的多帧图像；对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息；通过信息捕获装置获取物品的辅助信息；将位置信息与辅助信息进行多模态融合，获得融合结果；根据类别信息和融合结果，确定物品的识别结果。

可选的，上述处理器执行程序时，还可以实现以下步骤：对物品的每帧图像进行图像预处理，其中，图像预处理包括下述至少之一：图像增强、图像缩放、图像减均值；确定进行图像预处理后的每帧图像中的物品检测框和类别信息，其中，在物品检测框中包括至少一种物品；根据物品检测框确定物品的位置信息。

可选的，上述处理器执行程序时，还可以实现以下步骤：对物品检测框进行非极大值抑制。

可选的，上述处理器执行程序时，还可以实现以下步骤：通过图像捕获装置获取目标部位的多帧图像；对目标部位的多帧图像进行处理，以获得每帧图像中目标部位的位置信息和判别结果。

可选地，根据每帧图像中目标部位的位置信息和判别结果、物品的类别信息和融合结果，确定物品的识别结果。

可选的，上述处理器执行程序时，还可以实现以下步骤：对目标部位的每帧图像进行图像预处理，以增强用户的目标部位的图像轮廓，其中，图像预处理包括下：图像降噪、图像增强、对比度增强、图像平滑、图像锐化等一项或多项处理方式；选取进行图像预处理后的每帧图像中出现用户的目标部位的部位候选区域；提取部位候选区域中的特征信息，得到多个部位特征；通过预先训练的分类器识别多个部位特征，以得到每帧图像中目标部位的位置信息及判别结果。

可选的，上述处理器执行程序时，还可以实现以下步骤：通过子窗口扫描每帧图像，以确定每帧图像中可能出现用户的目标部位的部位候选区域。

可选的，上述处理器执行程序时，还可以实现以下步骤：对物品进行细粒度分类。

可选地，信息捕获装置为深度相机，用于获取物品的深度图像，物品的辅助信息包括深度信息。

可选的，上述处理器执行程序时，还可以实现以下步骤：获取图像捕获装置和深度相机的镜头参数和坐标参数；根据深度相机的镜头参数、深度信息和物品在深度图像中的位置获得物品在深度相机坐标系中的位置；根据图像捕获装置和深度的位置参数，以深度相机的坐标系为基准，标定出图像捕获装置相对于所述深度相机的相对位置关系；基于镜头参数、物品在深度图像中的位置、深度信息和相对位置关系，确定物品在深度图像中的位置对应到物品在图像捕获装置获取的图像中的映射位置信息；将位置信息和映射位置信息进行比对，获得融合结果。

可选的，上述处理器执行程序时，还可以实现以下步骤：开启图像捕获装置以获取物品的视频；从视频中截取物品的多帧图像。

可选的，上述处理器执行程序时，还可以实现以下步骤：根据融合结果，确定物品的跟踪轨迹；对跟踪轨迹进行分类，得到轨迹分类结果，其中，轨迹分类结果对应于物品的移动结果；根据轨迹分类结果，确定物品拿取结果和物品放回结果；根据物品拿取结果和物品放回结果，更新物品管理列表。

可选的，上述处理器执行程序时，还可以实现以下步骤：根据融合结果，获得物品的位置信息和物品的移动趋势；根据物品当前的检测框与预测的候选框之间的重合相似度和特征相似度，判断当前检测结果与上一帧检测结果的匹配度，得到物品的跟踪轨迹，其中，预测的候选框在上一帧物品的位置信息基础上根据物品的移动趋势获得，跟踪轨迹包括：在每个时间节点上物品的位置、物品种类、物品移动的时间戳。

可选的，上述处理器执行程序时，还可以实现以下步骤：从跟踪轨迹中提取物品移动长度；结合预先训练的分类决策树模型和物品移动长度，对对跟踪轨迹进行分类，得到轨迹分类结果。

可选的，上述处理器执行程序时，还可以实现以下步骤：获取图像捕获装置、或者图像捕获装置与信息捕获装置结合在同一时刻的轨迹分类结果；根据图像捕获装置、或者图像捕获装置和所述信息捕获装置结合在同一时刻的轨迹分类结果，建立基于分类规则库的分类判别方案；依据分类判别方案和轨迹分类结果，确定物品拿取结果或物品放回结果。

可选的，上述处理器执行程序时，还可以实现以下步骤：获取物品价格表，其中，物品价格表中包含每种物品的价格；依据物品拿取结果和物品放回结果，确定被拿取的物品和物品数量；根据被拿取的物品和物品数量，以及每种物品的价格，确定物品结算总价。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：通过图像捕获装置获取物品的多帧图像；对物品的多帧图像进行处理，以获得每帧图像中物品的位置信息和类别信息；通过信息捕获装置获取物品的辅助信息；将位置信息与辅助信息进行多模态融合，获得融合结果；根据类别信息和融合结果，确定物品的识别结果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种物品识别方法，其特征在于，包括：

通过图像捕获装置获取物品的多帧图像；

对所述物品的多帧图像进行处理，以获得每帧图像中所述物品的位置信息和类别信息；

通过信息捕获装置获取所述物品的辅助信息；

将所述位置信息与所述辅助信息进行多模态融合，获得融合结果；

根据所述类别信息和所述融合结果，确定所述物品的识别结果。

2.根据权利要求1所述的方法，其特征在于，对所述物品的多帧图像进行处理，以获得每帧图像中所述物品的位置信息和类别信息包括：

对所述物品的每帧图像进行图像预处理；

确定进行图像预处理后的每帧图像中的物品检测框和所述类别信息，其中，在所述物品检测框中包括至少一种物品；

根据所述物品检测框确定所述物品的位置信息。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：对所述物品检测框进行非极大值抑制。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过图像捕获装置获取目标部位的多帧图像；

对所述目标部位的多帧图像进行处理，以获得每帧图像中所述目标部位的位置信息和判别结果。

5.根据权利要求4所述的方法，其特征在于，根据所述每帧图像中所述目标部位的位置信息和判别结果、所述物品的所述类别信息和所述融合结果，确定所述物品的识别结果。

6.根据权利要求4所述的方法，其特征在于，对所述目标部位的多帧图像进行处理，以获得每帧图像中所述目标部位的位置信息和判别结果包括：

对所述目标部位的每帧图像进行图像预处理，以增强用户的目标部位的图像轮廓；

选取进行图像预处理后的每帧图像中出现用户的目标部位的部位候选区域；

提取所述部位候选区域中的特征信息，得到多个部位特征；

通过预先训练的分类器识别所述多个部位特征，以得到每帧图像中所述目标部位的位置信息及判别结果。

7.根据权利要求6所述的方法，其特征在于，选取进行图像预处理后的每帧图像中出现用户的目标部位的部位候选区域，包括：

通过子窗口扫描每帧图像，以确定每帧图像中可能出现用户的目标部位的部位候选区域。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述物品进行细粒度分类。

9.根据权利要求1所述的方法，其特征在于，所述信息捕获装置包括下述至少之一：深度相机、读卡器、重力装置、气味传感器。

10.根据权利要求9所述的方法，其特征在于，在所述信息捕获装置为所述深度相机时，通过所述深度相机获取所述物品的深度图像，所述物品的辅助信息包括深度信息。

11.根据权利要求10所述的方法，其特征在于，将所述位置信息与所述辅助信息进行多模态融合，获得融合结果包括：

获取所述图像捕获装置和所述深度相机的镜头参数和位置参数；

根据所述深度相机的镜头参数、所述深度信息和所述物品在所述深度图像中的位置，获得所述物品在所述深度相机坐标系中的位置；

根据所述图像捕获装置和所述深度的位置参数，以所述深度相机的坐标系为基准，标定出所述图像捕获装置相对于所述深度相机的相对位置关系；

基于所述镜头参数、所述物品在所述深度图像中的位置、所述深度信息和所述相对位置关系，确定所述物品在所述深度图像中的位置对应到所述物品在所述图像捕获装置获取的图像中的映射位置信息；

将所述位置信息和所述映射位置信息进行比对，获得所述融合结果。

12.根据权利要求1所述的方法，其特征在于，通过图像捕获装置获取物品的多帧图像包括：

开启所述图像捕获装置以获取所述物品的视频；

从所述视频中截取所述物品的多帧图像。

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述融合结果，确定物品的跟踪轨迹；

对所述跟踪轨迹进行分类，得到轨迹分类结果，其中，所述轨迹分类结果对应于物品的移动结果；

根据所述轨迹分类结果，确定物品拿取结果和物品放回结果；

根据物品拿取结果和物品放回结果，更新物品管理列表。

14.根据权利要求13所述的方法，其特征在于，根据所述融合结果，确定物品的跟踪轨迹包括：

根据所述融合结果，获得所述物品的位置信息和所述物品的移动趋势；

根据所述物品当前的检测框与预测的候选框之间的重合相似度和特征相似度，判断当前检测结果与上一帧检测结果的匹配度，得到物品的跟踪轨迹，其中，所述预测的候选框在上一帧所述物品的位置信息基础上根据所述物品的移动趋势获得，所述跟踪轨迹包括：在每个时间节点上物品的位置、物品种类、物品移动的时间戳。

15.根据权利要求13所述的方法，其特征在于，对所述跟踪轨迹进行分类，得到轨迹分类结果的步骤，包括：

从所述跟踪轨迹中提取物品移动长度；

结合预先训练的分类决策树模型和所述物品移动长度，对所述跟踪轨迹进行分类，得到轨迹分类结果。

16.根据权利要求15所述的方法，其特征在于，根据所述轨迹分类结果，确定物品拿取结果或物品放回结果的步骤，包括：

获取所述图像捕获装置、或者所述图像捕获装置与所述信息捕获装置结合在同一时刻的轨迹分类结果；

根据所述图像捕获装置、或者所述图像捕获装置和所述信息捕获装置结合在同一时刻的轨迹分类结果，建立基于分类规则库的分类判别方案；

依据所述分类判别方案和所述轨迹分类结果，确定物品拿取结果或物品放回结果。

17.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取物品价格表，其中，所述物品价格表中包含每种物品的价格；

依据物品拿取结果和物品放回结果，确定被拿取的物品和物品数量；

根据被拿取的物品和物品数量，以及每种物品的价格，确定物品结算总价。

18.根据权利要求1所述的方法，其特征在于，所述方法应用于新零售场景，所述新零售场景至少包括：

无人售货商店、智能货柜。

19.一种物品识别系统，其特征在于，所包括：

图像捕获装置，用于获取物品的多帧图像；

信息捕获装置，用于获取所述物品的辅助信息；

服务器，用于对所述物品的多帧图像进行处理，以获得每帧图像中所述物品的位置信息和类别信息，并将所述位置信息与所述辅助信息进行多模态融合，获得融合结果，再根据所述类别信息和所述融合结果，确定所述物品的识别结果。

20.根据权利要求19所述的物品识别系统，其特征在于，所述图像捕获装置还用于获取目标部位的多帧图像。

21.根据权利要求20所述的物品识别系统，其特征在于，所述服务器，还用于对所述目标部位的多帧图像进行处理，以获得每帧图像中所述目标部位的位置信息和判别结果，并根据所述每帧图像中所述目标部位的位置信息和判别结果、所述类别信息和所述融合结果，确定所述物品的识别结果。

22.根据权利要求19所述的物品识别系统，其特征在于，还包括：

物品存储装置，所述图像捕获装置和所述信息捕获装置在所述物品存储装置打开时开启。

23.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至18中任意一项所述的物品识别方法。

24.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至18中任意一项所述的物品识别方法。