CN109840504B

CN109840504B - 物品取放行为识别方法、装置、存储介质及设备

Info

Publication number: CN109840504B
Application number: CN201910102996.XA
Authority: CN
Inventors: 李习华; 高斌斌; 贾佳亚; 戴宇荣; 沈小勇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-01
Filing date: 2019-02-01
Publication date: 2022-11-25
Anticipated expiration: 2039-02-01
Also published as: CN109840504A

Abstract

本申请实施例公开了一种物品取放行为识别方法、装置、存储介质及设备，属于计算机技术领域。所述方法包括：对无人货柜中摄像头拍摄的目标图像帧进行物品检测，得到检测结果；根据所述检测结果和所述至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹，所述至少一个历史图像帧是所述摄像头在拍摄所述目标图像帧之前拍摄的图像帧；根据所述移动轨迹生成用户行为的识别结果，所述识别结果为拿取物品行为或放回物品行为。本申请实施例可以降低对使用场景的要求；另外，由于是对图像帧进行物品检测，而不是对RFID标签进行物品检测，从而解决了RFID标签被遮挡或被重叠时，识别的准确率较低的问题，达到了提高识别的准确率的效果。

Description

物品取放行为识别方法、装置、存储介质及设备

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种物品取放行为识别方法、装置、存储介质及设备。

背景技术

无人零售，如无人超市、无人货柜，是近期兴起的一个热门领域，拥有非常广阔的前景。

在相关技术中，无人货柜一般采用RFID(Radio Frequency Identification，射频识别)技术对物品取放行为进行识别。在这种实现方式中，需要为每件物品贴一个RFID标签，并在无人货柜上布置检测模块，检测模块通过检测RFID标签来识别是取出物品行为还是放回物品行为。

然而，无人货柜需要屏蔽其它信号对射频信号的干扰，对使用场景的要求较高，且当RFID标签被遮挡或被重叠时，识别的准确率较低。

发明内容

本申请实施例提供了一种物品取放行为识别方法、装置、存储介质及设备，可用于解决相关技术中识别物品取放行为对使用场景要求较高，且准确率较低的问题。技术方案如下：

一方面，本申请实施例提供了一种物品取放行为识别方法，所述方法包括：

对无人货柜中摄像头拍摄的目标图像帧进行物品检测，得到检测结果；

根据所述检测结果和所述至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹，所述至少一个历史图像帧是所述摄像头在拍摄所述目标图像帧之前拍摄的图像帧；

根据所述移动轨迹生成用户行为的识别结果，所述识别结果为拿取物品行为或放回物品行为。

一方面，本申请实施例提供了一种物品取放行为识别装置，所述装置包括：

物品检测模块，用于对无人货柜中摄像头拍摄的目标图像帧进行物品检测，得到检测结果；

轨迹生成模块，用于根据所述检测结果和所述至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹，所述至少一个历史图像帧是所述摄像头在拍摄所述目标图像帧之前拍摄的图像帧；

结果生成模块，用于根据所述轨迹生成模块生成的所述移动轨迹生成用户行为的识别结果，所述识别结果为拿取物品行为或放回物品行为。

一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的物品取放行为识别方法。

一方面，本申请实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的物品取放行为识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过根据目标图像帧和至少一个历史图像帧生成物品的移动轨迹，由于物品的移动轨迹即为拿着该物品的手的移动轨迹，所以，可以根据该手的移动轨迹确定用户行为是物品拿取行为还是物品放回行为。上述物品拿取行为识别的过程中无需屏蔽信号干扰，从而降低了对使用场景的要求；另外，由于是对图像帧进行物品检测，而不是对RFID标签进行物品检测，从而解决了RFID标签被遮挡或被重叠时，识别的准确率较低的问题，达到了提高识别的准确率的效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的实施环境的示意图；

图2是本申请一个实施例提供的物品取放行为识别方法的流程图；

图3是本申请另一个实施例提供的物品取放行为识别方法的流程图；

图4是本申请另一个实施例提供的检测结果的示意图；

图5是本申请另一个实施例提供的FSSD算法的网络结构的示意图；

图6是本申请另一个实施例提供的staple算法的示意图；

图7是本申请另一个实施例提供的第一识别区域和第二识别区域的示意图；

图8是本申请另一个实施例提供的单手拿取两个物品的示意图；

图9是本申请另一个实施例提供的双手拿取两个物品的示意图；

图10是本申请另一个实施例提供的物品取放行为识别方法的流程图；

图11是本申请一个实施例提供的物品取放行为识别装置的结构示意图；

图12是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境可以包括：无人货柜10和计算机设备20。

无人货柜10中包括柜体101、摄像头102以及重力托盘103。摄像头102用于采集无人货柜中物品的图像帧，重力托盘103用于对无人货柜中所有物品的重力变化值进行测量。可选地，无人货柜10为5层货柜，第一层和第三层货柜的左右两侧的柜体101上各安装有一个摄像头102，每一层货柜下方都安装有一个重力托盘103。无人货柜10支持15SKU(StockKeeping Unit，库存量单位)，即15种物品类别的运营。

计算机设备20是指具备计算和处理能力的电子设备，例如，PC(PersonalComputer，个人计算机)、服务器等。服务器可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。

无人货柜10中的摄像头采集到物品的图像帧后，将图像帧发送给计算机设备20，计算机设备20对用户行为是物品拿取行为还是物品放回行为进行识别。

计算机设备20可以集成于无人货柜10中，也可以独立于无人货柜10存在。无人货柜10和计算机设备20之间可以通过网络进行通信，该网络可以是有线网络，也可以是无线网络。

为了便于描述，在下述方法实施例中，仅以各步骤的执行主体为计算机设备进行说明，但对此不构成限定。

请参考图2，其示出了本申请一个实施例提供的物品取放行为识别方法的流程图，用于计算机设备中。该方法可以包括以下几个步骤：

步骤201，对无人货柜中摄像头拍摄的目标图像帧进行物品检测，得到检测结果。

无人货柜中的摄像头以一定的帧率拍摄图像帧。比如，摄像头的帧率为120fps，则摄像头每秒拍摄120个图像帧。

目标图像帧是摄像头在当前时刻拍摄得到的图像帧。

当无人货柜包括一个摄像头时，计算机设备获取到一个目标图像帧，对该目标图像帧进行物品检测。以摄像头的帧率为120fps为例，则此时计算机设备的计算速率为120帧/秒。

当无人货柜包括至少两个摄像头时，计算机设备获取到至少两个目标图像帧，对该至少两个目标图像帧进行物品检测。以摄像头的帧率为120fps、且无人货柜包括4个摄像头为例，则此时计算机设备的计算速率为480帧/秒。

物品检测是指采用物品检测模型对图像帧中的物品进行识别的技术。其中，物品检测模型的内容详见下文中的描述。

可选的，当计算机设备未从目标图像帧中检测到物品，且从至少一个历史图像帧中也未检测到物品时，确定此时没有用户取放物品，继续执行步骤201；当计算机设备未从目标图像帧中检测到物品，且从至少一个历史图像帧中检测到物品时，确定此时用户正在取放物品，且该物品可能由于拍摄角度等原因被遮挡了，继续执行步骤202-203来识别针对该物品的用户行为；当计算机设备从目标图像帧中检测到至少一个物品时，对于每个物品，执行步骤202-203来识别针对该物品的用户行为。

步骤202，根据检测结果和至少一个历史图像帧中物品的跟踪结果生成物品的移动轨迹。

历史图像帧是摄像头在当前时刻之前拍摄得到的图像帧，即，历史图像帧是摄像头在拍摄目标图像帧之前拍摄的图像帧。

可选的，历史图像帧可以是摄像头在当前时刻之前的预定时间段内拍摄的图像帧。其中，预定时间段的时长不大于用户单次在无人货柜中购物的时长，比如，该时长可以是2分钟、5分钟等等。假设该时长为2分钟，则历史图像帧是摄像头在当前时刻之前的2分钟内拍摄的图像帧。

本实施例中，预定时间段的时长不大于用户单次在无人货柜中购物的时长，既可以避免时长太大时，历史图像帧的数量较多，处理大量的历史图像帧耗时较长，导致识别的效率较低的问题；也可以避免时长太小时，丢失单次用户行为的部分历史图像帧，导致无法识别用户行为的问题，从而兼顾识别的效率和准确率。

对于每个历史图像帧，在拍摄该历史图像帧的历史时刻，可以将该历史图像帧称为该历史时刻的目标图像帧，则计算机设备会采用物品检测模型对该历史时刻的目标图像帧进行物品检测。

跟踪结果包括物品在每个历史图像帧中的位置，计算机设备将各个位置相连即可得到物品的移动轨迹。本实施例中将跟踪结果中物品的位置称为跟踪位置。

可选的，当物品检测模型可以识别物品在图像帧中的位置时，若从目标图像帧中检测到物品，则检测结果包括该物品在目标图像帧中的位置，本实施例中将物品检测模型检测到的物品的位置称为检测位置。此时，计算机设备可以采用跟踪算法对该检测位置和各个跟踪位置进行处理，得到物品的移动轨迹，相关算法详见下文中的描述。

可选的，当物品检测模型可以识别物品在图像帧中的位置时，若从目标图像帧中未检测到物品且存在该物品的跟踪结果，则检测结果不包括该物品在目标图像帧中的检测位置。此时，计算机设备可以采用跟踪算法对各个跟踪位置进行处理，预估物品在目标图像帧中的跟踪位置，从而得到物品的移动轨迹，相关算法详见下文中的描述。

在拍摄图像帧时，可能会由于拍摄角度原因，导致部分图像帧中的物品被遮挡而无法被识别，此时，计算机设备生成的移动轨迹可能会有部分缺失。本实施例中，计算机设备可以根据已有的跟踪结果来预估缺失的跟踪位置，从而得到物品连续的移动轨迹。

步骤203，根据移动轨迹生成用户行为的识别结果，该识别结果为拿取物品行为或放回物品行为。

计算机设备可以根据移动轨迹确定该物品是在远离无人货柜还是在靠近无人货柜，从而在该物品远离无人货柜时生成用户行为是拿取物品行为的识别结果，在该物品靠近无人货柜时生成用户行为是放回物品行为的识别结果。

综上所述，本申请实施例提供的物品取放行为识别方法，通过根据目标图像帧和至少一个历史图像帧生成物品的移动轨迹，由于物品的移动轨迹即为拿着该物品的手的移动轨迹，所以，可以根据该手的移动轨迹确定用户行为是物品拿取行为还是物品放回行为。上述物品拿取行为识别的过程中无需屏蔽信号干扰，从而降低了对使用场景的要求；另外，由于是对图像帧进行物品检测，而不是对RFID标签进行物品检测，从而解决了RFID标签被遮挡或被重叠时，识别的准确率较低的问题，达到了提高识别的准确率的效果。

另外，由于计算机设备可以将物品的移动轨迹作为手的移动轨迹，而不需要通过深度摄像头+普通摄像头的组合来识别手的移动轨迹，即可以节省无人货柜的制造成本，也可以减少后期对摄像头的运维成本。

请参考图3，其示出了本申请一个实施例提供的物品取放行为识别方法的流程图，用于计算机设备中。该方法可以包括以下几个步骤：

步骤301，获取无人货柜中摄像头拍摄的目标图像帧。

目标图像帧是摄像头在当前时刻拍摄得到的图像帧。

步骤302，将目标图像帧输入训练得到的物品检测模型中，得到检测结果。

物品检测模型是用于对图像帧中的物品进行检测，得到检测结果的模型。本实施例中以检测结果包括物品的类别和位置为例进行说明，当然，检测结果还可以包括其他信息，本实施例不作限定。其中，物品的类别可以用该物品的名称、商标、条形码等信息表示，物品的位置可以用该物品的坐标、该物品的中心位置的坐标、该物品的包围盒的角点的坐标、该物品的包围盒的中心位置的坐标等信息表示，本实施例不作限定。

请参考图4，图4中以物品为矿泉水401，且矿泉水401的包围盒402是矩形框为例进行示意，则计算机设备可以在矩形框的上方显示“矿泉水”的字样403，并以黑点(包围盒的中心位置)404的坐标表示物品的位置。可选的，图4中还包括无人货柜的柜体405、用于放置物品的托盘406和托盘上的物品407。可选的，计算机设备还可以在矩形框的上方显示“kuangquanshui”的字样，本实施例不作限定。

本实施例中，物品检测模型可以由计算机设备训练得到，也可以由其他设备训练得到，再发送给计算机设备，本实施例不对物品检测模型的来源作限定。

当物品检测模型由计算机设备训练得到时，计算机设备先创建物品检测模型；再获取训练样本，该训练样本包括包含物品的图像帧和用于标注该图像帧中每个物品的类别和位置的标注信息；最后根据该训练样本对物品检测模型进行训练。

其中，计算机设备可以以任一卷积神经网络的结构模型构建物品检测模型，本实施例不作限定。在一种可能的实现方式中，计算机设备以FSSD(Feature Fusion SingleShot Multibox Detector，特征融合单镜头多盒检测器)算法构建物品检测模型，请参考图5所示的FSSD算法的网络结构，其中，灰色框表示特征图(Feature Map)，白色框表示预测模块(Predict Module)，轻量化网络可以是MobileNet-V2。可见，FSSD算法能够将更多下层(low-level)的特征引入到高层，这样虽然可以获取对小目标更准确的检测，但是，会导致计算量较大。

由于要求计算机设备的计算效率较高(例如480帧/秒)，所以，可以对FSSD算法中某些层的通道数(channel)进行裁剪，以满足计算效率的需求。请参考图5中的虚线框，本实施例减少了该虚线框内连接到融合层的通道数，以满足计算效率的需求。

步骤303，根据检测结果和至少一个历史图像帧中物品的跟踪结果生成物品的移动轨迹。

历史图像帧和跟踪结果的内容详见步骤202中的描述，此处不作赘述。

下面根据物品检测模型是否从目标图像帧中检测到物品，即检测结果是否包括物品在目标图像帧中的检测位置，对生成物品的移动轨迹的两种实现方式进行说明。

第一种实现方式：检测结果包括物品在目标图像帧中的检测位置，且跟踪结果包括物品在前一历史图像帧中的跟踪位置，此时该实现方式可以由以下步骤实现：

步骤3031，根据跟踪位置和目标图像帧生成物品在目标图像帧中的预测位置。

这里所说的跟踪位置是前一历史图像帧中物品的跟踪位置，该前一历史图像帧是当前时刻的前一时刻拍摄的图像帧。

可选的，计算机设备可以采用跟踪算法计算预测位置。比如，计算机设备可以将物品在前一历史图像帧中的跟踪位置和目标图像帧输入跟踪算法，跟踪算法根据该跟踪位置和目标图像帧中的图像帧特征生成物品在目标图像帧中的预测位置，并将该预测位置输出给计算机设备，计算机设备得到该预测位置。本实施例中的跟踪算法可以是任意一种跟踪算法，本实施例不作限定。

在一个示例中，跟踪算法可以是Staple算法。其中，Staple算法是基于相关滤波进行改进的，将HOG(Histogram of Oriented Gradient，方向梯度直方图)-KCF(KernelizedCorrelation Filters，核相关滤波器)特征和Color(颜色)-KCF特征进行结合来对物品进行跟踪。HOG特征对形变和运动模糊比较敏感，但对颜色变化跟踪效果较好；相反，Color特征对颜色比较敏感，但是对形变和运动模糊跟踪效果更好。因此，二者的融合能够解决大部分跟踪中碰到的形变、尺度变化、运动模糊、颜色变化等问题。简单来说，Staple算法的原理是基于目标图像帧中物品的特征(HOG特征、Color特征)，预测该物品在下一个图像帧中的预测位置。

在物品跟踪过程中发现，物品在移动过程中形状方面形变很大，在尺度层面也有较大的变化，但相对来说颜色特征变化较少。所以，可以增大颜色特征的权重，以保证对物品的稳定跟踪。

请参考图6，图6中的左侧视图是目标图像帧；中间视图中的上面一个图像帧是基于HOG特征的概率图，表示基于HOG特征预测出来的该物品在下一个图像帧中的预测位置的概率分布；下面一个图像帧是基于Color特征的概率图，表示基于Color特征预测出来的该物品在下一个图像帧中的预测位置的概率分布。通过把中间两个概率图对应位置的概率求平均或者相乘，得到综合的概率图，即得到可能性最大的中心点位置，右侧视图中以P_t+1表示中心点位置，该中心点位置即为计算机设备最终得到的预测位置。

步骤3032，根据检测位置和预测位置确定物品在目标图像帧中的跟踪位置。

本实施例中，根据物品检测模型可以得到物品的检测位置，根据跟踪算法可以得到物品的预测位置，所以，计算机设备还需要根据该检测位置和该预测位置得到最终的跟踪位置。

其中，根据检测位置和预测位置确定物品在目标图像帧中的跟踪位置，可以包括：确定检测位置和预测位置之间的重合度；若重合度大于第一阈值，则将检测位置确定为物品在目标图像帧中的跟踪位置；若重合度小于或等于第一阈值，则将预测位置确定为物品在目标图像帧中的跟踪位置。

由于物品具有一定的体积，所以，这里所说的检测位置可以理解为是一个检测区域，预测位置也可以理解为是一个预测区域。此时，计算机设备可以计算检测区域和预测区域之间的重合度，并将该重合度与预先设定的第一阈值进行比较。当重合度大于第一阈值时，说明检测位置和预测位置较为靠近，也就说明检测出的物品和预测出的物品是同一物品，此时，计算机设备将检测位置作为该物品在目标图像帧中的跟踪位置。当重合度小于或等于第一阈值时，说明检测位置和预测位置相距较远，可能是该物品在预测位置处被遮挡，而用户拿取的另外一个物品位于该检测位置处，此时，计算机设备将预测位置作为该物品在目标图像帧中的跟踪位置。

步骤3033，根据物品在目标图像帧和至少一个历史图像帧中的跟踪位置生成物品的移动轨迹。

计算机设备可以将物品在目标图像帧中的跟踪位置，以及物品在至少一个历史图像帧中的各个跟踪位置相连，得到移动轨迹。

第二种实现方式，检测结果不包括物品在目标图像帧中的检测位置，且跟踪结果包括物品在前一历史图像帧中的跟踪位置，此时该实现方式可以由以下步骤实现：

步骤3034，根据跟踪位置和目标图像帧生成物品在目标图像帧中的预测位置。

本步骤的实现流程详见步骤3031中的描述，此处不作赘述。

步骤3045，将预测位置确定为物品在目标图像帧中的跟踪位置。

由于计算机设备可以得到预测位置，而无法得到检测位置，所以，计算机设备直接将预测位置作为物品在目标图像帧中的跟踪位置。

步骤3046，根据物品在目标图像帧和至少一个历史图像帧中的跟踪位置生成物品的移动轨迹。

步骤304，根据虚拟的第一分割线对摄像头的拍摄区域进行分割，得到第一识别区域和第二识别区域。

第一分割线是计算机设备虚拟出的一根分割线，用于对摄像头的拍摄区域进行分割，得到第一识别区域和第二识别区域。

可选的，第一识别区域为无人货柜与第二识别区域之间的区域。

可选的，无论用户行为是拿取物品行为还是放回物品行为，物品都需要经过第一识别区域和第二识别区域。其中，物品从第一识别区域移动到第二识别区域对应于拿取物品行为，物品从第二识别区域移动到第一识别区域对应于放回物品行为。

请参考图7，计算机设备通过第一分割线701将物品取出或者放入的区域从里向外分成1和2这两个区域，并以1表示第一识别区域，2表示第二识别区域，图7中以加粗的实线表示第一分割线701。如虚线箭头702所示，每一次正常的拿取物品行为，物品的移动轨迹一定是经过12的顺序，当然中间可能有反复或跳变，但从最终状态来说，拿取一件物品，其位置一定是从区域1变动到区域2，所以，虚线箭头702表示拿取物品行为时物品的移动方向。相反，如虚线箭头703所示，每一次正常的放回物品行为，物品的移动轨迹一定是经过21的顺序，当然中间可能有反复或跳变，但从最终状态来说，拿取一件物品，其位置一定是从区域2变动到区域1，所以，虚线箭头703表示放回物品行为时物品的移动方向。

可选的，第一分割线可以是计算机设备便于分析所虚拟出来的线条，在摄像头拍摄得到的图像帧中并不存在该第一分割线。

步骤305，若移动轨迹指示物品从第一识别区域移动到第二识别区域，则生成用户行为是拿取物品行为的识别结果。

当移动轨迹指示目标图像帧中物品位于第一识别区域内，且至少一个历史图像帧中物品位于第二识别区域内，则计算机设备确定物品从第一识别区域移动到第二识别区域，该物品是在远离无人货柜，从而生成用户行为是拿取物品行为的识别结果。

步骤306，若移动轨迹指示物品从第二识别区域移动到第一识别区域，则生成用户行为是放回物品行为的识别结果。

当移动轨迹指示目标图像帧中物品位于第二识别区域内，且至少一个历史图像帧中物品位于第一识别区域内，则计算机设备确定物品从第二识别区域移动到第一识别区域，该物品是在靠近无人货柜，从而生成用户行为是放回物品行为的识别结果。

需要说明的是，无论图像帧中包含了多少物品，对于每个物品，计算机设备都可以对该物品进行检测和跟踪，从而能够支持多只手同时取放物品的用户行为的识别，提高了识别的准确性。

请参考图8和图9，其中，图8中一只手拿取了两个物品401，图9中每只手拿取了一个物品401，对于这两种使用场景，计算机设备都可以准确识别用户的行为。

通过将拍摄区域划分为第一识别区域和第二识别区域，可以在移动轨迹指示物品从第一识别区域移动到第二识别区域时生成拿取物品行为的识别结果，在移动轨迹指示物品从第二识别区域移动到第一识别区域时生成放回物品行为的识别结果，既降低了识别的复杂性，也提高了识别的准确性。

如图3所示的实施例所述，计算机设备可以在从图像帧中检测出物品时即对该物品进行跟踪，生成该物品的移动轨迹。由于用户有时可能只是拿起物品来查看物品的相关说明，并不是真正要从无人货柜中拿取物品或将物品放回无人货柜中，所以，可选的，计算机设备还可以设置判断用户是否准备执行拿取物品行为或放回物品行为。

当用户准备执行拿取物品行为时，计算机设备再对该物品进行跟踪，生成该物品的移动轨迹，此时可以将该移动轨迹称为有效的移动轨迹。在根据目标图像帧和至少一个历史图像帧生成物品的移动轨迹之前，该方法还包括：根据虚拟的第二分割线对第一识别区域进行分割，得到第一准备子区域和第一识别子区域，其中，物品从第一准备子区域移动到第一识别子区域对应于准备执行物品拿取行为；若从目标图像帧中检测到的物品位于第一识别子区域内，且从至少一个历史图像帧中检测到的物品位于第一准备子区域内，则触发执行根据目标图像帧和至少一个历史图像帧生成物品的移动轨迹的步骤。

第二分割线可以是计算机设备虚拟出的一根分割线，用于对拍摄区域中的第一区域进行分割，得到第一识别子区域和第一准备子区域。

可选的，第一识别子区域为无人货柜与第一准备子区域之间的区域。请参考图7，计算机设备通过第二切割线704将第一识别区域从里向外分成0和1这2个子区域，并以0表示第一准备子区域705，1表示第一识别子区域706。如虚线箭头702所示，每一次正常的拿取物品行为，物品的移动轨迹一定是经过012的顺序，当然中间可能有反复或跳变，但从最终状态来说，拿取一件物品，其位置一定是从区域0变动到区域1，此时可以认为用户准备执行拿取物品行为；其位置再从区域1变动到区域2，此时可以认为用户执行了拿取物品行为，所以，虚线箭头702表示拿取物品行为时物品的移动方向。

当用户准备执行放回物品行为时，再对该物品进行跟踪，生成该物品的移动轨迹，此时可以将该移动轨迹称为有效的移动轨迹。在根据目标图像帧和至少一个历史图像帧生成物品的移动轨迹之前，该方法还包括：根据虚拟的第三分割线对第二识别区域进行分割，得到第二准备子区域和第二识别子区域，其中，物品从第二准备子区域移动到第二识别子区域对应于准备执行物品放回行为；若从目标图像帧中检测到的物品位于第二识别子区域内，且从至少一个历史图像帧中检测到的物品位于第二准备子区域内，则触发执行根据目标图像帧和至少一个历史图像帧生成物品的移动轨迹的步骤。

第三分割线是计算机设备虚拟出的一根分割线，用于对拍摄区域中的第二区域进行分割，得到第二识别子区域和第二准备子区域。

可选的，第二识别子区域为第一识别子区域与第二准备子区域之间的区域。请参考图7，计算机设备通过第三切割线707将第二识别区域从里向外分成2和3这2个子区域，并以3表示第二准备子区域708，2表示第二识别子区域709。如虚线箭头703所示，每一次正常的放回物品行为，物品的移动轨迹一定是经过321的顺序，当然中间可能有反复或跳变，但从最终状态来说，拿取一件物品，其位置一定是从区域3变动到区域2，此时可以认为用户准备执行放回物品行为；其位置再从区域2变动到区域1，此时可以认为用户执行了放回物品行为，所以，虚线箭头703表示放回物品行为时物品的移动方向。

可选的，计算机设备还可以将上述四个子区域进行结合，这样，计算机设备将拍摄区域从里向外分成0、1、2和3这4个子区域，并以0表示第一准备子区域，1表示第一识别子区域，2表示第二识别子区域，3表示第二准备子区域。此时，拿取物品行为时物品的移动轨迹经过0123子区域，放回物品行为时物品的移动轨迹经过3210子区域。

可选的，在通过步骤305或306得到用户行为的识别结果后，计算机设备可以直接将该识别结果确定为用户行为最终的识别结果；或者，计算机设备还可以对该识别结果进行验证。当识别结果通过该验证时，将该识别结果确定为用户行为最终的识别结果；当识别结果未通过该验证时，丢弃该识别结果，重新识别物品取放行为。下面对验证识别结果的流程进行描述，请参考图10。

步骤307，获取在用户行为前后无人货柜中所有物品的重力变化值。

无人货柜中所有物品的重力变化值是指无人货柜中的原有物品的重力值与用户取放物品之后的无人货柜中的剩余物品的重力值的差值。

可选的，无人货柜中所有物品的重力变化值可以根据无人货柜中的重力托盘的测量值得到。

例如，无人货柜中的原有物品的重力值为20，用户取放物品之后的无人货柜中的剩余物品的重力值为15，则无人货柜中所有物品的重力变化值是15-20＝-5。

步骤308，根据重力变化值对识别结果进行验证。

本实施例中需要识别用户行为是拿取物品行为还是放回物品行为，且拿取物品时无人货柜中所有物品的重力值变小，放回物品时无人货柜中所有物品的重力值变大，所以，计算机设备可以根据重力变化值的正负来对识别结果进行验证。

比如，若识别结果为拿取物品行为，且重力变化值为负，则确定识别结果是正确的，该识别结果通过验证；若识别结果为拿取物品行为，且重力变化值为正，则确定识别结果是错误的，该识别结果未通过验证，重新进行物品拿取行为识别。若识别结果为放回物品行为，且重力变化值正，则确定识别结果是正确的，该识别结果正确通过验证；若识别结果为放回物品行为，且重力变化值负，则确定识别结果是错误的，该识别结果正确未通过验证。

步骤309，在识别结果通过验证时，将识别结果确定为用户行为最终的识别结果。

可选的，若计算机设备不仅需要验证用户行为是拿取物品行为还是放回物品行为，还需要验证识别的物品的类别是否准确，则计算机设备还可以获取物品的重力值；检测重力变化值的绝对值与重力值的差值是否小于第二阈值；若重力变化值的绝对值与重力值的差值小于第二阈值，则确定识别结果通过验证；若重力变化值的绝对值与重力值的差值大于或等于第二阈值，则确定识别结果不通过验证。

理想情况下，重力变化值的绝对值与重力值的差值应该是0。考虑到测量时可能存在测量误差，所以，可以设置一个大于0，且小于无人货柜中重力值最小的物品的重力值的第二阈值。

在一个示例中，假设识别结果是用户拿取了一瓶可乐，可乐上标注的重力值是5，且第二阈值为3，若此时不存在测量误差，则测得的重力变化值为-5，计算得到的差值为0，小于该第二阈值，确定识别结果通过验证；若此时存在测量误差，且测得的重力变化值为-3，计算得到的差值为2，小于该第二阈值，确定识别结果通过验证。

由于用户行为前后无人货柜中所有物品的重力值会发生变化，所以，通过根据用户行为前后无人货柜中所有物品的重力变化值对识别结果进行验证；在识别结果通过验证时，再将识别结果确定为用户行为最终的识别结果，从而可以保证识别结果的准确性。

需要说明的是，若计算机设备直接采用重力值来识别用户行为，由于可能会存在测量误差时，所以，对物品有限制。比如，测量误差为5，且物品本身自重的误差为5，则无人货柜中每两件物品之间的重力值的差值要大于10，才能确定用户取放的是什么物品，从而限制了无人货柜中摆放的物品。另外，当用户一次性拿取至少两个物品时，且该至少两个物品的重力值与其他一个或至少两个物品的重力值相同时，计算机设备无法识别用户拿取的是什么商品，从而限制了用户拿取的物品。

本实施例采用重力值对识别结果进行验证，而不是采用重力值识别用户行为，可以避免上述问题，扩大了无人货柜中摆放的物品和用户拿取的物品的范围。

在一个实际应用场景中，以用户购买无人货柜中的物品为例。无人货柜中可以摆放多种供用户选择购买的商品，如饮料、零食、日用品等各种商品。例如，无人货柜分为多层货柜，每一层货柜上放置有售卖的商品，且每一层货柜的下方均设置有重力托盘。另外，无人货柜中安装有至少一个摄像头，无人货柜内部集成有具备计算和处理能力的计算机设备，且无人货柜的柜体上设置或显示有图形码。示例性地，一次完整的物品购买过程如下：

1、用户使用手机等终端扫描上述图形码进行身份验证，绑定用户账户，并解锁无人货柜。无人货柜在解锁之后，其柜门能够被用户打开。

2、用户打开柜门，执行至少一次物品取放行为，在无人货柜中挑选所要购买的物品。

3、在用户挑选物品的过程中，无人货柜能够通过上文介绍的检测技术、跟踪技术和重力匹配等手段，识别出用户的每一次物品取放行为是在拿取还是放回物品，且识别出拿取或放回的物品的类别，进而得出在无人货柜的柜门打开期间用户的物品取放行为对应的取放物品总和。

4、挑选完成后，用户关闭无人货柜的柜门。

5、在检测到无人货柜的柜门被关闭之后，计算机设备计算出用户拿取的所有物品的总价，并从用户账户中扣除用户拿取的所有物品的总价。

下面以无人货柜应用于无人超市中进行举例说明。无人超市中至少有一台无人货柜。无人超市设置有门禁设备，门禁设备内置摄像头，可以对用户进行人脸识别，如果用户不是该无人超市的会员，则门禁设备的面板上会显示提示信息，提示用户注册人脸成为该无人超市的会员，并开通账户免密代扣。用户注册成功后，门禁设备打开，用户进入无人超市；如果用户已经是无人超市的会员，门禁设备的摄像头对用户进行人脸识别后，门禁设备自动打开，用户进入无人超市。用户在无人货柜中挑选商品，无人货柜中集成有具备计算和处理能力的计算机设备。无人货柜通过检测技术、跟踪技术和重力匹配等手段得到用户在无人货柜中执行的物品取放行为对应的取放物品总和，将该取放物品总和发送到结算台。结算台通过摄像头识别用户人脸以及用户的确认支付手势，自动从用户账户中扣款。如果商品已经结算过，则门禁设备打开，用户可以离开无人超市。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的物品取放行为识别装置的结构示意图，用于计算机设备中。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该物品取放行为识别装置可以包括：

物品检测模块1110，用于对无人货柜中摄像头拍摄的目标图像帧进行物品检测，得到检测结果；

轨迹生成模块1120，用于11根据检测结果和至少一个历史图像帧中物品的跟踪结果生成物品的移动轨迹，至少一个历史图像帧是摄像头在拍摄目标图像帧之前拍摄的图像帧；

结果生成模块1130，用于根据轨迹生成模块1120生成的移动轨迹生成用户行为的识别结果，识别结果为拿取物品行为或放回物品行为。

可选地，结果生成模块1130，包括：

分割单元，用于根据虚拟的第一分割线对摄像头的拍摄区域进行分割，得到第一识别区域和第二识别区域，其中，物品从第一识别区域移动到第二识别区域对应于拿取物品行为，物品从第二识别区域移动到第一识别区域对应于放回物品行为；

第一生成单元，用于在移动轨迹指示物品从第一识别区域移动到第二识别区域时，生成用户行为是拿取物品行为的识别结果；

第二生成单元，用于在移动轨迹指示物品从第二识别区域移动到第一识别区域时，生成用户行为是放回物品行为的识别结果。

可选地，该装置还包括：

第一分割模块，用于在轨迹生成模块1120根据检测结果和至少一个历史图像帧中物品的跟踪结果生成物品的移动轨迹之前，根据虚拟的第二分割线对第一识别区域进行分割，得到第一准备子区域和第一识别子区域，其中，物品从第一准备子区域移动到第一识别子区域对应于准备执行物品拿取行为；

第一触发模块，用于当从目标图像帧中检测到的物品位于第一识别子区域内，且从至少一个历史图像帧中检测到的物品位于第一准备子区域内时，触发执行根据检测结果和至少一个历史图像帧中物品的跟踪结果生成物品的移动轨迹的步骤。

可选地，该装置还包括：

第二分割模块，用于在轨迹生成模块1120根据检测结果和至少一个历史图像帧中物品的跟踪结果生成物品的移动轨迹之前，根据虚拟的第三分割线对第二识别区域进行分割，得到第二准备子区域和第二识别子区域，其中，物品从第二准备子区域移动到第二识别子区域对应于准备执行物品放回行为；

第二触发模块，用于当从目标图像帧中检测到的物品位于第二识别子区域内，且从至少一个历史图像帧中检测到的物品位于第二准备子区域内时，触发执行根据检测结果和至少一个历史图像帧中物品的跟踪结果生成物品的移动轨迹的步骤。

可选地，物品检测模块1110，包括：

获取单元，用于获取无人货柜中摄像头拍摄的目标图像帧；

检测单元，用于将获取单元得到的目标图像帧输入训练得到的物品检测模型中，得到检测结果。

可选地，轨迹生成模块1120，包括：

第三生成单元，用于在检测结果包括物品在目标图像帧中的检测位置，且跟踪结果包括物品在前一历史图像帧中的跟踪位置时，根据跟踪位置和目标图像帧生成物品在目标图像帧中的预测位置；

第一确定单元，用于根据检测位置和第三生成单元生成的预测位置确定物品在目标图像帧中的跟踪位置；

第四生成单元，用于根据物品在目标图像帧和至少一个历史图像帧中的跟踪位置生成物品的移动轨迹。

可选地，确定单元，还用于：

确定检测位置和预测位置之间的重合度；

若重合度大于第一阈值，则将检测位置确定为物品在目标图像帧中的跟踪位置；

若重合度小于或等于第一阈值，则将预测位置确定为物品在目标图像帧中的跟踪位置。

可选地，轨迹生成模块1120，包括：

第五生成单元，用于在检测结果不包括物品在目标图像帧中的检测位置，且跟踪结果包括物品在前一历史图像帧中的跟踪位置时，根据跟踪位置和目标图像帧生成物品在目标图像帧中的预测位置；

第二确定单元，用于将第五生成单元生成的预测位置确定为物品在目标图像帧中的跟踪位置；

第六生成单元，用于根据物品在目标图像帧和至少一个历史图像帧中的跟踪位置生成物品的移动轨迹。

可选地，该装置还包括：

重力获取模块，用于获取在用户行为前后无人货柜中所有物品的重力变化值；

结果验证模块，用于根据重力获取模块得到的重力变化值对识别结果进行验证；

结果确定模块，用于在识别结果通过验证时，将识别结果确定为用户行为最终的识别结果。

可选地，结果验证模块，还用于：

若识别结果为拿取物品行为，且重力变化值为负，则确定识别结果通过验证；

若识别结果为放回物品行为，且重力变化值正，则确定识别结果正确通过验证。

可选地，结果验证模块，还用于：

获取物品的重力值；

检测重力变化值的绝对值与重力值的差值是否小于第二阈值；

若重力变化值的绝对值与重力值的差值小于第二阈值，则确定识别结果通过验证。

综上所述，本申请实施例提供的物品取放行为识别装置，通过根据目标图像帧和至少一个历史图像帧生成物品的移动轨迹，由于物品的移动轨迹即为拿着该物品的手的移动轨迹，所以，可以根据该手的移动轨迹确定用户行为是物品拿取行为还是物品放回行为。上述物品拿取行为识别的过程中无需屏蔽信号干扰，从而降低了对使用场景的要求；另外，由于是对图像帧进行物品检测，而不是对RFID标签进行物品检测，从而解决了RFID标签被遮挡或被重叠时，识别的准确率较低的问题，达到了提高识别的准确率的效果。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内容结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图12，其示出了本申请一个实施例提供的计算机设备1200的结构框图。该计算机设备1200指具备计算和处理能力的电子设备，例如PC、服务器等。该计算机设备1200可用于实施上述实施例中提供的物品取放行为识别方法。

通常，计算机设备1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的物品取放行为识别方法。

在一些实施例中，计算机设备1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备可以包括：显示屏1204、音频电路1205、通信接口1206和电源1207中的至少一种。

本领域技术人员可以理解，图12中示出的结构并不构成对计算机设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例中实施例中，还提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行，以实现上述物品取放行为识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述物品取放行为识别方法。

可选地，上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述物品取放行为识别方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种物品取放行为识别方法，其特征在于，所述方法包括：

根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹，所述至少一个历史图像帧是所述摄像头在拍摄所述目标图像帧之前拍摄的图像帧；

若所述移动轨迹指示所述物品从第一识别区域移动到第二识别区域，则生成用户行为是拿取物品行为的识别结果；其中，所述第一识别区域和所述第二识别区域是根据虚拟的第一分割线对所述摄像头的拍摄区域进行分割得到的；

若所述移动轨迹指示所述物品从所述第二识别区域移动到所述第一识别区域，则生成所述用户行为是放回物品行为的识别结果。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹之前，所述方法还包括：

根据虚拟的第二分割线对所述第一识别区域进行分割，得到第一准备子区域和第一识别子区域，其中，所述物品从所述第一准备子区域移动到所述第一识别子区域对应于准备执行所述物品拿取行为；

若从所述目标图像帧中检测到的所述物品位于所述第一识别子区域内，且从所述至少一个历史图像帧中检测到的所述物品位于所述第一准备子区域内，则触发执行所述根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹的步骤。

3.根据权利要求1所述的方法，其特征在于，在所述根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹之前，所述方法还包括：

根据虚拟的第三分割线对所述第二识别区域进行分割，得到第二准备子区域和第二识别子区域，其中，所述物品从所述第二准备子区域移动到所述第二识别子区域对应于准备执行所述物品放回行为；

若从所述目标图像帧中检测到的所述物品位于所述第二识别子区域内，且从所述至少一个历史图像帧中检测到的所述物品位于所述第二准备子区域内，则触发执行所述根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹的步骤。

4.根据权利要求1所述的方法，其特征在于，所述对无人货柜中摄像头拍摄的目标图像帧进行物品检测，得到检测结果，包括：

获取所述无人货柜中摄像头拍摄的所述目标图像帧；

将所述目标图像帧输入训练得到的物品检测模型中，得到所述检测结果。

5.根据权利要求1所述的方法，其特征在于，所述根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹，包括：

若所述检测结果包括所述物品在所述目标图像帧中的检测位置，且所述跟踪结果包括所述物品在前一历史图像帧中的跟踪位置，则根据所述跟踪位置和所述目标图像帧生成所述物品在所述目标图像帧中的预测位置；

根据所述检测位置和所述预测位置确定所述物品在所述目标图像帧中的跟踪位置；

根据所述物品在所述目标图像帧和所述至少一个历史图像帧中的跟踪位置生成所述物品的移动轨迹。

6.根据权利要求5所述的方法，其特征在于，所述根据所述检测位置和所述预测位置确定所述物品在所述目标图像帧中的跟踪位置，包括：

确定所述检测位置和所述预测位置之间的重合度；

若所述重合度大于第一阈值，则将所述检测位置确定为所述物品在所述目标图像帧中的跟踪位置；

若所述重合度小于或等于第一阈值，则将所述预测位置确定为所述物品在所述目标图像帧中的跟踪位置。

7.根据权利要求1所述的方法，其特征在于，所述根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹，包括：

若所述检测结果不包括所述物品在所述目标图像帧中的检测位置，且所述跟踪结果包括所述物品在前一历史图像帧中的跟踪位置，则根据所述跟踪位置和所述目标图像帧生成所述物品在所述目标图像帧中的预测位置；

将所述预测位置确定为所述物品在所述目标图像帧中的跟踪位置；

8.根据权利要求1至7任一所述的方法，其特征在于，所述方法还包括：

获取在所述用户行为前后所述无人货柜中所有物品的重力变化值；

根据所述重力变化值对所述识别结果进行验证；

在所述识别结果通过所述验证时，将所述识别结果确定为所述用户行为最终的识别结果。

9.根据权利要求8所述的方法，其特征在于，所述根据所述重力变化值对所述识别结果进行验证，包括：

若所述识别结果为所述拿取物品行为，且所述重力变化值为负，则确定所述识别结果通过所述验证；或者，

若所述识别结果为所述放回物品行为，且所述重力变化值为正，则确定所述识别结果通过所述验证。

10.根据权利要求9所述的方法，其特征在于，所述确定所述识别结果通过所述验证，包括：

获取所述物品的重力值；

检测所述重力变化值的绝对值与所述重力值的差值是否小于第二阈值；

若所述重力变化值的绝对值与所述重力值的差值小于所述第二阈值，则确定所述识别结果通过所述验证。

11.一种物品取放行为识别装置，其特征在于，所述装置包括：

轨迹生成模块，用于根据所述检测结果和至少一个历史图像帧中物品的跟踪结果生成所述物品的移动轨迹，所述至少一个历史图像帧是所述摄像头在拍摄所述目标图像帧之前拍摄的图像帧；

结果生成模块，用于若所述移动轨迹指示所述物品从第一识别区域移动到第二识别区域，则生成用户行为是拿取物品行为的识别结果；若所述移动轨迹指示所述物品从所述第二识别区域移动到所述第一识别区域，则生成所述用户行为是放回物品行为的识别结果；其中，所述第一识别区域和所述第二识别区域是根据虚拟的第一分割线对所述摄像头的拍摄区域进行分割得到的。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的物品取放行为识别方法。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至10任一项所述的物品取放行为识别方法。