CN115249356A

CN115249356A - 识别方法、装置、设备及存储介质

Info

Publication number: CN115249356A
Application number: CN202211148576.3A
Authority: CN
Inventors: 祝继伟; 仇诗凯; 刘西洋; 倪鼎; 冯昊; 冯雪涛
Original assignee: Zhejiang Lianhe Technology Co ltd
Current assignee: Zhejiang Shenxiang Intelligent Technology Co ltd
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-10-28
Anticipated expiration: 2042-09-21
Also published as: CN115249356B

Abstract

本申请实施例提供一种识别方法、装置、设备及存储介质。该方法包括：获取采集到的第一视角下货架的货架图像，基于货架图像，确定目标对象与货架交互的交互信息，交互信息包括三维触碰位置，基于三维触碰位置，确定待识别商品位置，待识别商品位置为第二视角货架平面中的位置，第二视角货架平面为第二视角下货架的空间平面；基于第二视角货架平面中商品位置与SKU之间的对应关系，确定待识别商品位置处的商品。本申请提供的识别方法，无需货架内置重量传感器，从而可以降低成本，有利于市场的推广与应用。

Description

识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种识别方法、装置、设备及存储介质。

背景技术

为了给商家提供更好的管理方案，在商超、商场、无人店等场景中，通常需要识别人在货架上触碰的商品。

目前，是通过货架内置重量传感器，并通过重量传感器采集到的重量信息以及拍摄装置采集的商品图像信息来识别触碰的商品，然而，这样的方式由于需要对货架进行定制，因此存在成本较高且不利于大规模推广的问题。

发明内容

本申请实施例提供一种识别方法、装置、设备及存储介质，用以解决现有技术中需要对货架进行定制，成本较高且不利于大规模推广的问题。

第一方面，本申请实施例提供一种识别方法，包括：

获取采集到的第一视角下货架的货架图像；

基于所述货架图像，确定目标对象与所述货架交互的交互信息，所述交互信息包括三维触碰位置；

基于所述三维触碰位置，确定待识别商品位置，所述待识别商品位置为第二视角货架平面中的位置，所述第二视角货架平面为第二视角下所述货架的空间平面；

基于所述第二视角货架平面中商品位置与库存量单位SKU之间的对应关系，确定所述待识别商品位置处的商品。

第二方面，本申请实施例提供一种识别装置，包括：

获取模块，用于获取采集到的第一视角下货架的货架图像；

第一确定模块，用于基于所述货架图像，确定目标对象与所述货架交互的交互信息，所述交互信息包括三维触碰位置；

第二确定模块，用于基于所述三维触碰位置，确定待识别商品位置，所述待识别商品位置为第二视角货架平面中的位置，所述第二视角货架平面为第二视角下所述货架的空间平面；

第三确定模块，用于基于所述第二视角货架平面中商品位置与库存量单位SKU之间的对应关系，确定所述待识别商品位置处的商品。

第三方面，本申请实施例提供一种电子设备，包括：存储器、处理器；其中，所述存储器存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如第一方面中任一项所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现第一方面中任一项所述的方法。

本申请实施例还提供一种计算机程序，当所述计算机程序被计算机执行时，用于实现如第一方面任一项所述的方法。

在本申请实施例中，可以基于第一视角下货架的货架图像，确定目标对象与货架交互的交互信息，交互信息包括三维触碰位置，基于三维触碰位置，确定待识别商品位置，待识别商品位置为第二视角货架平面中的位置，第二视角货架平面为第二视角下货架的空间平面；基于第二视角货架平面中商品位置与库存量单位（Stock Keeping Unit，SKU）之间的对应关系，确定待识别商品位置处的商品，实现了根据第一视角下货架的货架图像以及第二视角对应的商品位置与SKU之间的对应关系识别触碰的商品，无需货架内置重量传感器，从而可以降低成本，有利于市场的推广与应用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的应用场景示意图；

图2为本申请一实施例提供的应用的识别方法的流程示意图；

图3至图8为本申请一实施例提供的识别商品和动作类型的实现方式的示意图；

图9A-图9C为本申请一实施例提供的检测货架和商品的示意图；

图10为本申请一实施例提供的识别装置的结构示意图；

图11为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者系统所固有的要素。在没有更多限制情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

为了方便本领域技术人员理解本申请实施例提供的技术方案，下面先对技术方案实现的技术环境进行说明。

图1为本申请实施例提供的识别方法的应用场景示意图，如图1所示，该应用场景中可以包括货架11、拍摄装置12和电子设备13。其中，货架11用于放置商品，目标对象（例如人或者机器人）可以触碰货架11上的商品，拍摄装置12（例如摄像头）可以采集货架11的货架图像，电子设备13可以获取拍摄装置12采集到的货架11的货架图像，并识别目标对象触碰的商品。

目前，是通过货架内置重量传感器，并通过重量传感器采集到的重量信息以及拍摄装置采集的商品图像信息来识别人触碰的商品，然而，这样的方式由于需要对货架进行定制，因此存在成本较高且不利于大规模推广的问题。

为了解决需要对货架进行定制导致成本较高且不利于大规模推广的技术问题，在本申请实施例中，可以基于第一视角下货架的货架图像，确定目标对象与货架交互的交互信息，交互信息包括三维触碰位置，基于三维触碰位置，确定待识别商品位置，待识别商品位置为第二视角货架平面中的位置，第二视角货架平面为第二视角下货架的空间平面；基于第二视角货架平面中商品位置与库存量单位SKU之间的对应关系，确定待识别商品位置处的商品，实现了根据第一视角下货架的货架图像以及第二视角对应的商品位置与SKU之间的对应关系识别触碰的商品，无需货架内置重量传感器，从而可以降低成本，有利于市场的推广与应用。

需要说明的是，图1中是以拍摄装置12采集货架11的货架图像为例，可以理解的是，在其他实施例中在电子设备13具备图像采集功能时也可以由电子设备13采集货架11的货架图像。

需要说明的是，本申请实施例提供的识别方法可以应用于任何需要布置货架来放置商品的场景，包括但不限于商超、超市、无人店等。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突情况下，下述的实施例及实施例中的特征可以相互组合。

图2为本申请一实施例提供的识别方法的流程示意图，本实施例可以应用于图1中的电子设备13，具体可以由电子设备13的处理器执行。如图2所示，本实施例的方法可以包括：

步骤21，获取采集到的第一视角下货架的货架图像；

步骤22，基于货架图像，确定目标对象与货架交互的交互信息，交互信息包括三维触碰位置；

步骤23，基于三维触碰位置，确定待识别商品位置，待识别商品位置为第二视角货架平面中的位置，第二视角货架平面为第二视角下货架的空间平面；

步骤24，基于第二视角货架平面中商品位置与SKU之间的对应关系，确定待识别商品位置处的商品。

本申请实施例中，第一视角是指商超、超市、无人店等场景中设置的拍摄装置的视角，为了尽量避免遮挡，一个实施例中，第一视角可以包括俯视视角。应理解，获取的第一视角下货架的货架图像中可以包括货架、放置在货架上的商品以及与货架进行交互的目标对象，目标对象可以从货架上拿取商品。其中，目标对象包括但不限于人、机器人等。

本申请实施例中，在获取到第一视角下货架的货架图像之后，可以基于货架图像确定目标对象与货架交互的交互信息，交互信息包括三维触碰位置。

一个实施例中，可以通过确定目标对象触碰货架上的商品时目标对象的目标部位的关键点位置，确定三维触碰位置。其中，目标对象能够从货架上拿取商品的部位可以记为目标部位，以目标对象为人或机器人为例，目标部位可以为手部。关键点位置也是三维位置，例如可以通过采集第一视角下货架的货架图像的拍摄装置是双目相机的方式，来确定三维的关键点位置。又例如，可以通过采集第一视角下货架的货架图像的拍摄装置是飞行时间（time of flight，TOF）相机的方式，来确定三维的关键点位置。当然，在其他实施例中也可以通过其他方式确定三维的关键点位置，本申请对此不做限定。

可选的，可以直接将货架图像中目标对象触碰货架上的商品时目标对象的目标部位的关键点位置，作为目标对象触碰货架上商品的位置（以下可以记为三维触碰位置）。基于此，一个实施例中，所述基于货架图像，确定目标对象与货架交互的三维触碰位置，具体可以包括：基于货架图像，确定目标对象触碰货架上的商品时目标对象的目标部位的关键点位置；将目标对象触碰货架上的商品时目标对象的目标部位的关键点位置，确定为目标对象与货架交互的三维触碰位置。

或者可选的，可以将关键点位置投影到第一视角货架平面上的投影位置作为三维触碰位置，有利于提高三维触碰位置的准确性，从而有利于提高商品识别的精度。基于此，另一个实施例中，所述基于货架图像，确定目标对象与货架交互的三维触碰位置，具体可以包括：基于货架图像，确定目标对象触碰货架上的商品时目标对象的目标部位的关键点位置；将关键点位置投影到第一视角货架平面上的投影位置，确定为目标对象与货架交互的三维触碰位置，第一视角货架平面为第一视角下货架的空间平面。其中，第一视角货架平面可以通过货架的标定点计算得到，标定点可以为货架正面的四个角，应理解，空间中的3个点可以决定一个平面，4个点的话可以用最小二乘法得到一个误差最小的平面。

一个实施例中，可以基于目标部位的关键点轨迹，确定货架图像中目标对象触碰货架上的商品时目标对象的目标部位的关键点位置。基于此，一个实施例中，所述基于货架图像，确定目标对象触碰货架上的商品时目标对象的目标部位的关键点位置，具体可以包括：基于货架图像，确定目标部位的关键点轨迹；基于目标部位的关键点轨迹，确定目标部位进入货架的第一时间点以及目标部位离开货架的第二时间点；以及，基于第一时间点和第二时间点，确定目标对象触碰货架上的商品时，目标对象的目标部位的关键点位置。一个实施例中，可以将第一时间点与第二时间点之间某一时间点对应的一帧货架图像中目标部位的关键点位置，确定为目标对象触碰货架上的商品时目标对象的目标部位的关键点位置。

其中，目标部位进入货架的第一时间点可以表示目标对象即将开始触碰货架上的商品的时间点，目标部位离开货架的第二时间点可以表示目标对象已经结束触碰货架上的商品的时间点，因此第一时间点与第二时间点之间可以存在目标对象正在触碰货架上的商品的时间点，从而可以将第一时间段与第二时间点之间某一时间点对应的一帧货架图像中目标部位的关键点位置，确定为目标对象触碰货架上的商品时目标对象的目标部位的关键点位置。例如，可以将第一时间点与第二时间点之间的中间时间点对应的一帧货架图像中目标部位的关键点位置，确定为目标对象触碰货架上的商品时目标对象的目标部位的关键点位置。

示例性的，可以基于货架图像中目标部位的关键点的运动方向以及关键点与货架的位置关系，确定第一时间点和第二时间点。基于此，一个实施例中，所述基于目标部位在多帧货架图像中的关键点轨迹，确定目标部位进入货架的第一时间点以及目标部位离开货架的第二时间点，具体可以包括：将多帧货架图像中目标部位的关键点向靠近货架的方向运动，且目标部位的关键点是在目标直线的第一侧的第一货架图像对应的时间点，确定为目标部位进入货架的第一时间点，目标直线是根据用于表示货架的多个边中与第一视角相应的目标边得到；将该多帧货架图像中目标部位的关键点向远离货架的方向运动，且目标部位的关键点是在目标直线的第二侧的第二货架图像对应的时间点，确定为目标部位离开货架的第二时间点，第二侧与第一侧相反。

一个实施例中，目标直线可以是通过将用于表示货架的多个边中的与第一视角相应的目标边向外扩得到（例如按比例向外扩）。以第一视角为俯视视角为例，目标边可以为多个边中的底边。以第一视角为侧视视角为例，目标边可以为多个边中的侧边。

本申请实施例中，在确定目标对象与货架交互的三维触碰位置之后，可以基于三维触碰位置，确定待识别商品位置，待识别商品位置为第二视角货架平面中的位置，第二视角货架平面为第二视角下货架的空间平面。

其中，第二视角和第一视角可以为不同的视角，或者，第二视角和第一视角可以为相同的视角。一个实施例中，第二视角可以包括平视视角。第二视角货架平面可以通过对第二视角下货架的货架图像进行货架检测的方式得到。

在第二视角和第一视角为不同的视角的情况下，基于三维触碰位置，确定待识别商品位置，具体可以包括：基于第一视角货架平面到第二视角货架平面的转换关系，将三维触碰位置在第二视角货架平面中的对应位置，确定为待识别商品位置。其中，转换关系（例如转换关系矩阵）可以通过货架的标定点计算得到，标定点可以为货架正面的四个角，应理解，空间中的3个点可以决定一个平面，4个点的话可以用最小二乘法得到一个误差最小的平面。

一个实施例中，本申请实施例提供的方法还可以包括：通过货架的标定点，计算第一视角货架平面；通过标定点，计算第一视角货架平面到第二视角货架平面的转换关系。需要说明的是，关于通过标定点计算空间平面，以及通过标定点计算一空间平面到另一空间平面的转换关系的具体方式，可以参考相关技术中的具体描述，在此不再赘述。

需要说明的是，在第二视角和第一视角为相同的视角的情况下，第一视角货架平面和第二视角货架平面是同一空间平面，因此可以直接将确定的三维触碰位置作为待识别商品位置。

本申请实施例中，在确定待识别商品位置之后，可以基于第二视角货架平面中商品位置与SKU之间的对应关系，确定待识别商品位置处的商品。其中，商品位置的形状可以为矩形，可以表示为矩形框的左上角位置+长宽。可选的，可以直接将待识别商品位置对应的SKU识别为待识别商品位置处的商品的SKU。基于此，一个实施例中，示例性的，所述基于第二视角货架平面中商品位置与SKU之间的对应关系，确定待识别商品位置处的商品，具体可以包括：可以将中心位置距离对应位置最近的商品位置对应的SKU，确定为待识别商品位置处的商品的SKU。应理解，待识别商品位置处的商品的SKU即为识别的目标对象触碰的商品。

或者可选的，可以基于待识别商品位置的邻域内的多个位置分别对应的SKU待识别商品位置处的商品，从而可以减少出现由于待识别商品位置不准确导致商品的识别结果错误的问题，有利于提高商品识别的精度。基于此，另一个实施例中，所述基于第二视角货架平面中商品位置与SKU之间的对应关系，确定待识别商品位置处的商品，具体可以包括：对于待识别商品位置的邻域内的多个位置中的每个位置，根据对应关系确定每个位置对应的SKU；确定每个位置对应SKU的商品图像特征与目标对象所触碰商品的商品图像特征之间的相似度；基于相似度，确定待识别商品位置处的商品。

示例性的，可以将中心位置距离一个位置最近的商品位置对应的SKU，确定为该位置对应的SKU。目标对象所触碰的商品可以通过对货架图像进行图像检测的方式得到。

一个实施例中，在邻域内存在相似度大于阈值的位置时，可以将相似度大于阈值的位置对应的SKU确定为待识别商品位置处的商品的SKU，在邻域内不存在相似度大于阈值的位置时，可以将对应位置对应的SKU确定为待识别商品位置处的商品的SKU，基于此，基于相似度，确定待识别商品位置处的商品，具体可以包括：如果多个位置对应的相似度中的最高相似度高于相似度阈值，则将最高相似度对应的SKU，确定为待识别商品位置处的商品的SKU；如果多个位置对应的相似度中的最高相似度低于相似度阈值，则将三维触碰位置对应的SKU，确定为待识别商品位置处的商品的SKU。

可选的，基于货架图像所确定的交互信息中除了包括三维触碰位置，还可以包括动作类型。一个实施例中，基于货架图像，确定目标对象与货架交互的动作类型，具体可以包括：确定对应于三维触碰位置的触碰前后的多帧货架图像；根据多帧货架图像，确定动作识别信息；根据动作识别信息，确定目标对象与货架交互的动作类型。

一个实施例中，动作识别信息可以包括多帧货架图像中的每帧货架图像中目标对象是否拿有商品的信息，可以通过对货架图像进行商品图像检测的方式来确定货架图像中的目标对象是否拿有商品，所述根据动作识别信息确定目标对象与货架交互的动作类型，具体可以包括：如果触碰前目标对象拿有商品，触碰后目标对象没有拿商品，则可以确定目标对象与货架交互的动作类型为放商品；如果触碰前目标对象未拿有商品，触碰后目标对象拿有商品，则可以确定目标对象与货架交互的动作类型为取商品；如果触碰前目标对象拿有商品，触碰后目标对象拿有商品，则可以确定目标对象与货架交互的动作类型为换商品；如果触碰前目标对象未拿有商品，触碰后目标对象未拿有商品，则可以确定目标对象与货架交互的动作类型为触碰商品。

另一个实施例中，动作识别信息可以包括多帧货架图像中的每帧货架图像中目标对象是否拿有商品的信息，以及每帧货架图像中目标对象的目标部位的关键点到目标直线的距离信息，所述根据动作识别信息确定关键点位置对应的动作类型，具体可以包括：将动作识别信息输入动作分类模型进行处理，得到关键点位置对应的动作类型。其中，动作分类模型例如可以为基于梯度提升决策树（Gradient Boosting Decision Tree，GBDT）的交互动作分类模型，基于GBDT的交互动作分类模型是指基于GBDT算法实现的用于进行动作分类的模型。通过动作分类模型得到动作类型，有利于提高动作类型结果的准确性。需要说明的是，关于目标直线的具体说明可以参考前述的相关描述，在此不再赘述。

其中，动作分类模型可以是采用下述方式训练得到：构建动作分类模型，动作分类模型中设置有训练参数；将多个样本动作识别信息分别输入至动作分类模型中，生成预测结果；基于预测结果与样本动作识别信息的样本标签对应的期望结果之间的差异，对训练参数进行迭代调整，直至差异满足预设要求。其中，一个样本动作识别信息的样本标签用于表征该样本动作识别信息对应的动作类型。

以第一视角为俯视视角，第二视角为平视视角，通过双目相机得到三维位置，且识别人触碰的商品以及人触碰商品时的动作类型为例，一个实施例中，识别方法的整体流程可以如图3所示。

参考图3，整体流程可以分为两部分，第一部分通过人货交互检测和双目立体匹配，得到人与货架交互类型，并提供与货架交互的三维位置；第二部分通过货架数字化，得到商品位置和特征；最后融合两部分结果实现对商品SKU的判断。整个方案可以包括五个功能模块，人货交互检测31、双目立体匹配32、触碰位置变换33、货架数字化34和商品检索35。

整个流程的输入可以包含双目相机视频、货架三维坐标标定以及货架正面视角照片。整个流程可以包括：首先通过双目相机提供的单目视频进行人和货架上商品之间交互动作的检测识别，可以包括取商品、放商品、触碰、换商品四种典型动作和发生动作的图上位置，同时，双目立体匹配模块可以通过双目相机视频预测出图上每个位置处的深度，这样就可以得到三维的触碰位置。利用三维触碰位置，经过位置变换投影到正面视角的货架数字化平面，结合货架数字化的商品位置检测结果，可以通过位置计算得到商品初始的SKU，另外对比拿出商品的特征和货架特征库中特征，通过商品检索的方式可以优化商品SKU。

以下对五个功能模块分别进行详细介绍。

31.人货交互检测

人货交互检测模块的输入可以为单目视频数据，输出可以为发生人货交互的跟踪标识（trackID）、交互动作类型、动作发生时间和位置。如图4所示，在步骤41中，可以对俯视视频中的人体进行检测跟踪，同时提取人体关键点。在步骤42中，可以通过人体手部关键点轨迹与目标直线的位置关系来检测和货架发生触碰动作的发生时间（即前述的第一时间点与第二时间点之间的时间段），并基于动作发生时间可以得到动作发生位置（即二维的手部关键点位置）。在步骤43中，可以对触碰前后的多帧图像中货架附近进行手持商品检测，得到每帧图像中是否手持商品的检测结果。在步骤44中，可以通过手持商品检测结果，并结合手部关键点到货架的距离等信息，提供给基于GBDT的交互动作分类模型，输出trackID的与货架交互的动作类型、交互位置以及动作发生时间。

32.双目立体匹配

如图5所示，双目立体匹配可以分为四步，分别为步骤51-步骤54。步骤51是双目标定，现有双目标定算法已经比较成熟，可以通过OpenCV，MATLAB等软件提供的工具在双目相机安装之前标定得到双目相机的内外参数。步骤52是校正对齐，利用第一步双目标定得到的内外参数对双目图像去畸变，并投影到同一平面使得左右图像处于行对齐状态，此过程同样可以通过第一步中提到的软件工具完成。步骤53是双目立体匹配，已有大量公开技术可实现双目立体匹配，这些技术从原理上来分，主要分为传统的基于特征匹配代价聚合的技术以及基于深度学习的技术，近年来，深度学习算法在立体匹配上的效果已经超越了传统算法，因此，在本流程中可以采用基于深度学习的立体匹配技术来得到精细的视差图。步骤54是三维重建生成局部点云，双目重建恢复深度的依据为三角测量公式，局部点云中可以包括二维的手部关键点位置对应的三维点在相机坐标系下的深度值，从而可以得到三维的手部关键点位置。

33.触碰位置变换

获得俯视视角下人与货架触碰时三维的手部关键点位置后，触碰位置变换模块可以将根据手部关键点计算的三维触碰位置投影到货架数字化平面的对应位置上。首先，可以通过货架标定点计算俯视货架平面，将初始位置（即三维的手部关键点位置）投影到俯视视角货架平面上，具体可以如图6所示。然后，可以再次通过货架标定点计算俯视视角到正面视角的坐标转换矩阵，将触碰位置转换到货架数字化正面视角的平面上得到待识别商品位置，具体可以如图7所示。对比货架数字化商品位置结果，就可以获得基于待识别商品位置的商品SKU。一个实施例中，目标直线可以是通过将用于表示货架的多个边中的与第一视角相应的目标边向外扩得到（例如按比例向外扩）

需要说明的是，图6中用于形成梯形区域的四条实线箭头可以表示货架的4条边，梯形的四个顶点可以是4个货架标定点，目标直线是通过将这4条边中的底边向外扩的方式得到。图6中的位置点K是手部关键点位置，位置点K到位置点P的箭头表示将位置点K投影到俯视货架平面，位置点P是位置点K在俯视货架平面上的投影位置。

需要说明的是，图7中俯视货架平面中的位置点K转换到货架数字化平面中的对应位置可以为货架数字化平面中的位置点K’，俯视货架平面中的位置点P转换到货架数字化平面中的对应位置可以为货架数字化平面中的位置点P’。对比位置点K’和位置点P’可以看出，通过将关键点位置投影到俯视货架平面上的投影位置作为三维触碰位置，有利于提高三维触碰位置的准确性。

34.货架数字化

货架数字化是通过商品位置检测和特征提取，提供货架上商品位置和商品特征。货架数字化模块主要提供正视视角下商品的位置和特征库。如图8所示，在步骤81中，店员可以通过手机或其他专有设备对货架进行拍摄，采集货架正面图像。在步骤后82和步骤83中，可以采用货架检测模型和货架商品检测模型对采集到的货架图像处理，识别完整货架及货架中的每件商品，计算商品与货架的相对坐标，如图9A所示可以先用多边形检测检测出货架图像90中的货架91，在检测出货架91之后可以对货架图像90进行矫正以将货架91矫正到矩形（矫正结果可以如图9B所示），如图9C所示可以从矫正后的货架图像90中检测货架上商品92（图9C中仅示出检测出的一个商品）。在步骤84中，可以将货架检测结果与货架空间管理团队（Space planning team，SPT）陈列图进行比对，得到每件商品的SKU信息，其中，货架SPT陈列图可以用于描述SKU在货架上的陈列信息。在步骤85中，可以通过商品特征模型，提取每件商品的商品特征。在步骤86中，可以将商品与货架的相对坐标、商品SKU信息和商品特征等数据，构建货架商品的数字化库。

35.商品检索

在通过触碰位置获得商品初始的SKU后。商品检索模块可以根据拿放的商品特征进一步提高SKU识别精度。可以利用人货交互检测模块输出的商品检测图像，提取商品特征。可以在三维触碰位置投影在货架数字化平面的对应位置（即待识别商品位置）的周围邻域内，从货架数字化库中进行特征检索比对，选择外观相似度最高的检索结果，作为检索得到的商品SKU。最终会对拿货触碰的商品SKU和特征检索的商品SKU进行合并，当检索分（即相似度）高于阈值时，则可以输出特征检索的商品SKU；当分数低于阈值时，则可以输出拿货触碰的商品SKU，实现对商品SKU精度的进一步优化。

为了给商家提供更好的管理方案，对丢失商品进行快速排查，及时发现偷盗行为，需要精准识别顾客在商超中的取放货行为，同时对取放的商品SKU进行识别。用户的拿放记录作为重要的喜好信息，也可以用于构建用户画像，辅助商家进行精准营销。

图3至图8所示的方案，实现了一种仅依赖双目镜头和低成本的货架数字化（这里货架数字化是指通过手机或其他设备拍照恢复货架商品布局，手机拍照在普通超市的运营中属于常规流程）来实现高精度的人-货交互动作识别的系统，创造性地提出基于双目摄像头和货架数字化进行人货交互检测，通过双目图像立体匹配得到的深度图像，提供更精确的三维触碰位置，再利用货架数字化结果，精确识别取放商品的SKU。

本申请实施例提供的识别方法，通过获取采集到的第一视角下货架的货架图像，基于货架图像，确定目标对象与货架交互的交互信息，交互信息包括三维触碰位置，基于三维触碰位置，确定待识别商品位置，待识别商品位置为第二视角货架平面中的位置，第二视角货架平面为第二视角下货架的空间平面；基于第二视角货架平面中商品位置与SKU之间的对应关系，确定待识别商品位置处的商品，实现了根据第一视角下货架的货架图像以及第二视角对应的商品位置与SKU之间的对应关系识别触碰的商品，无需货架内置重量传感器，从而可以降低成本，有利于市场的推广与应用。

图10为本申请一实施例提供的识别装置的结构示意图；参考附图10所示，本实施例提供了一种识别装置，该装置可以执行上述实施例提供的识别方法，具体的，该装置可以包括：

获取模块101，用于获取采集到的第一视角下货架的货架图像；

第一确定模块102，用于基于所述货架图像，确定目标对象与所述货架交互的交互信息，所述交互信息包括三维触碰位置；

第二确定模块103，用于基于所述三维触碰位置，确定待识别商品位置，所述待识别商品位置为第二视角货架平面中的位置，所述第二视角货架平面为第二视角下所述货架的空间平面；

第三确定模块104，用于基于所述第二视角货架平面中商品位置与库存量单位SKU之间的对应关系，确定所述待识别商品位置处的商品。

可选的，第一确定模块102具体用于：基于所述货架图像，确定所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置；将所述关键点位置投影到第一视角货架平面上的投影位置，确定为所述目标对象与所述货架交互的三维触碰位置，所述第一视角货架平面为所述第一视角下所述货架的空间平面。

可选的，所述第一确定模块102用于基于所述货架图像，确定所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置，包括：

基于所述货架图像，确定所述目标部位的关键点轨迹；

基于所述目标部位的关键点轨迹，确定所述目标部位进入所述货架的第一时间点以及所述目标部位离开所述货架的第二时间点；

基于所述第一时间点和所述第二时间点，确定所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置。

可选的，所述第一确定模块102用于基于所述第一时间点和所述第二时间点，确定所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置，包括：

将所述第一时间点与所述第二时间点之间某一时间点对应的一帧货架图像中所述目标部位的关键点位置，确定为所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置。

可选的，所述第一确定模块102用于基于所述目标部位的关键点轨迹，确定所述目标部位进入所述货架的第一时间点以及所述目标部位离开所述货架的第二时间点，包括：

将多帧货架图像中所述目标部位的关键点向靠近所述货架的方向运动，且所述目标部位的关键点是在目标直线的第一侧的第一货架图像对应的时间点，确定为所述目标部位进入所述货架的第一时间点，所述目标直线是根据用于表示所述货架的多个边中与所述第一视角相应的目标边得到；

将所述多帧货架图像中所述目标部位的关键点向远离所述货架的方向运动，且所述目标部位的关键点是在目标直线的第二侧的第二货架图像对应的时间点，确定为所述目标部位离开所述货架的第二时间点，所述第二侧与所述第一侧相反。

可选的，所述第一视角和所述第二视角为不同的视角；第二确定模块103具体用于：基于所述第一视角货架平面到所述第二视角货架平面的转换关系，将所述三维触碰位置在所述第二视角货架平面中的对应位置，确定为待识别商品位置。

可选的，第三确定模块104具体用于：

对于所述待识别商品位置的邻域内的多个位置中的每个位置，根据所述对应关系确定所述每个位置对应的SKU；

确定每个位置对应SKU的商品图像特征与所述目标对象所触碰商品的商品图像特征之间的相似度；

基于所述相似度，确定所述待识别商品位置处的商品。

可选的，第三确定模块104用于基于所述相似度，确定所述待识别商品位置处的商品，包括：

如果所述多个位置对应的相似度中的最高相似度高于相似度阈值，则将所述最高相似度对应的SKU，确定为所述待识别商品位置处的商品的SKU；

如果所述多个位置对应的相似度中的最高相似度低于所述相似度阈值，则将所述待识别商品位置对应的SKU，确定为所述待识别商品位置处的商品的SKU。

可选的，所述交互信息还包括动作类型。

可选的，第一确定模块102用于基于所述货架图像，确定所述目标对象与所述货架交互的动作类型，包括：

确定对应于所述三维触碰位置的触碰前后的多帧货架图像；

根据所述多帧货架图像，确定动作识别信息；

根据所述动作识别信息，确定所述目标对象与所述货架交互的动作类型。

可选的，所述动作识别信息包括：所述多帧货架图像中的每帧货架图像中所述目标对象是否拿有商品的信息，以及所述每帧货架图像中所述目标对象的目标部位的关键点到目标直线的距离信息，所述目标直线是根据用于表示所述货架的多个边中与所述第一视角相应的目标边得到；

第一确定模块102用于根据所述动作识别信息，确定所述目标对象与所述货架交互的动作类型，包括：将所述动作识别信息输入动作分类模型进行处理，得到所述目标对象与所述货架交互的动作类型。

可选的，所述动作分类模型是采用下述方式训练得到：

构建所述动作分类模型，所述动作分类模型中设置有训练参数；

将多个样本动作识别信息分别输入至所述动作分类模型中，生成预测结果；

基于所述预测结果与所述样本动作识别信息的样本标签对应的期望结果之间的差异，对所述训练参数进行迭代调整，直至所述差异满足预设要求。

可选的，所述第一视角包括俯视视角。

可选的，所述第二视角包括平视视角。

图10所示装置可以执行图2所示实施例提供的方法，本实施例未详细描述的部分，可参考对图10所示实施例的相关说明。该技术方案的执行过程和技术效果参见图10所示实施例中的描述，在此不再赘述。

在一个可能的实现中，图10所示装置的结构可实现为一电子设备。如图11所示，该电子设备可以包括：处理器111和存储器112。其中，存储器112存储支持控制器执行上述图2所示实施例所提供方法的程序，处理器111被配置为用于执行存储器112中存储的程序。

程序包括一条或多条计算机指令，其中，一条或多条计算机指令被处理器111执行时能够实现如下步骤：

获取采集到的第一视角下货架的货架图像；

可选的，处理器111还用于执行前述图2所示实施例中的全部或部分步骤。

其中，电子设备的结构中还可以包括通信接口113，用于电子设备与其他设备或通信网络通信。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被执行时，实现如图2所示实施例所述的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器，使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、链表、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种识别方法，其特征在于，包括：

获取采集到的第一视角下货架的货架图像；

2.根据权利要求1所述的方法，其特征在于，基于所述货架图像，确定所述目标对象与所述货架交互的三维触碰位置，包括：

基于所述货架图像，确定所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置；

将所述关键点位置投影到第一视角货架平面上的投影位置，确定为所述目标对象与所述货架交互的三维触碰位置，所述第一视角货架平面为所述第一视角下所述货架的空间平面。

3.根据权利要求2所述的方法，其特征在于，所述基于所述货架图像，确定所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置，包括：

基于所述货架图像，确定所述目标部位的关键点轨迹；

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一时间点和所述第二时间点，确定所述目标对象触碰所述货架上的商品时，所述目标对象的目标部位的关键点位置，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述目标部位的关键点轨迹，确定所述目标部位进入所述货架的第一时间点以及所述目标部位离开所述货架的第二时间点，包括：

6.根据权利要求1所述的方法，其特征在于，所述第一视角和所述第二视角为不同的视角；所述基于所述三维触碰位置，确定待识别商品位置，包括：

基于所述第一视角货架平面到所述第二视角货架平面的转换关系，将所述三维触碰位置在所述第二视角货架平面中的对应位置，确定为待识别商品位置。

7.根据权利要求1所述的方法，其特征在于，所述基于所述第二视角货架平面中商品位置与SKU之间的对应关系，确定所述待识别商品位置处的商品，包括：

基于所述相似度，确定所述待识别商品位置处的商品。

8.根据权利要求7所述的方法，其特征在于，所述基于所述相似度，确定所述待识别商品位置处的商品，包括：

9.根据权利要求1所述的方法，其特征在于，所述交互信息还包括动作类型。

10.根据权利要求9所述的方法，其特征在于，基于所述货架图像，确定所述目标对象与所述货架交互的动作类型，包括：

确定对应于所述三维触碰位置的触碰前后的多帧货架图像；

根据所述多帧货架图像，确定动作识别信息；

11.根据权利要求10所述的方法，其特征在于，所述动作识别信息包括：所述多帧货架图像中的每帧货架图像中所述目标对象是否拿有商品的信息，以及所述每帧货架图像中所述目标对象的目标部位的关键点到目标直线的距离信息，所述目标直线是根据用于表示所述货架的多个边中与所述第一视角相应的目标边得到；

所述根据所述动作识别信息，确定所述目标对象与所述货架交互的动作类型，包括：将所述动作识别信息输入动作分类模型进行处理，得到所述目标对象与所述货架交互的动作类型。

12.根据权利要求11所述的方法，其特征在于，所述动作分类模型是采用下述方式训练得到：

13.根据权利要求1所述的方法，其特征在于，所述第一视角包括俯视视角。

14.根据权利要求1所述的方法，其特征在于，所述第二视角包括平视视角。

15.一种识别装置，其特征在于，包括：

获取模块，用于获取采集到的第一视角下货架的货架图像；

16.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行时实现如权利要求1至14中任一项所述的方法。

17.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被执行时，实现如权利要求1至14中任一项所述的方法。