CN105245828A

CN105245828A - 物品分析方法和设备

Info

Publication number: CN105245828A
Application number: CN201510557968.9A
Authority: CN
Inventors: 俞刚; 李超; 何奇正; 章放; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2015-09-02
Filing date: 2015-09-02
Publication date: 2016-01-13

Abstract

本发明公开了一种物品分析方法和设备。该物品分析方法包括：采集物品附近的目标场景的视频；在所述视频中检测并跟踪对象，以获得跟踪信息；根据所述跟踪信息识别所述对象对所述物品的操作并且识别所述物品；以及根据所述操作，分析所述对象与所述物品的交互情况。上述物品分析方法和设备利用视频数据，通过对视频数据中的对象与物品的交互进行自动分析，不仅能够高效、准确地提取出有价值的信息，而且无需人工干预，有效节约了人力资源。

Description

物品分析方法和设备

技术领域

本发明涉及自动化领域，具体涉及一种物品分析方法和设备。

背景技术

在很多场合中，需要对物品进行分析。例如，在图书馆中，管理员可能希望了解哪些书目最受借阅者喜欢，从而可以多购买一些相关书目以供借阅。实体店铺的零售商可能希望了解哪个商品最受客户喜欢，客户会在什么时段购买这个商品，什么样的客户会购买这个商品等等。

目前，对于诸如图书和商品等的物品的分析是基于人为的统计和计算。这就需要很大的人力去观察和统计。所需人力之大对于大型书店、店铺和商场等往往不切合实际。此外，人工的手动计算往往可能会有一定的错误和误差，这给最后的分析结果带来不确定性。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的物品分析方法和设备。

根据本发明一个方面，提供了一种物品分析方法。该方法包括：采集物品附近的目标场景的视频；在所述视频中检测并跟踪对象，以获得跟踪信息；根据所述跟踪信息识别所述对象对所述物品的操作并且识别所述物品；以及根据所述操作，分析所述对象与所述物品的交互情况。

根据本发明另一个方面，还提供了一种物品分析设备，包括视频采集装置、检测跟踪装置、识别装置和第一分析装置。其中，视频采集装置用于采集物品附近的目标场景的视频。检测跟踪装置用于在所述视频中检测并跟踪对象，以获得跟踪信息。识别装置用于根据所述跟踪信息识别所述对象对所述物品的操作并且识别所述物品。第一分析装置用于根据所述操作分析所述对象与所述物品的交互情况。

上述物品分析方法和设备利用视频数据，通过对视频数据中的对象与物品的交互进行自动分析，不仅能够高效、准确地提取出有价值的信息，而且无需人工干预，有效节约了人力资源。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的物品分析方法的流程图；

图2示出了根据本发明一个实施例的摄像头设置的示意图；

图3示出了根据本发明另一个实施例的物品分析方法的流程图；

图4示出了根据本发明一个实施例的物品分析设备的示意性框图；以及

图5示出了根据本发明另一个实施例的物品分析设备的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明所提供的物品分析方法和设备中，利用视频数据，通过对每个与物品有交互的对象的行为进行跟踪，来获得物品的有效信息。该方法和设备可以应用于诸如商场的多种场合中。在商场中，物品可以是待售商品，对象可以是前来商场进行消费的客户。通过该物品分析方法和设备，可以获得商品的关注和/或销售分析结果等。下面详细说明本发明所提供的物品分析方法和设备。

图1示出了根据本发明一个实施例的物品分析方法1000的流程图。如图1所示，该方法100包括步骤S110、步骤S130、步骤S150和步骤S170。

在步骤S110中，采集物品附近的目标场景的视频。

物品可以是期望分析的任何目标。如上所述，在商场中，物品可以是待售商品。在图书馆中，物品可以是待借阅的图书。诸如客户或图书借阅者等的对象可以对物品进行操作，例如客户购买商品、图书借阅者翻看图书等。目标场景是期望观察分析的、物品附近的场景。对象对物品的操作会出现在该目标场景中。物品可以放置于陈列架上。例如，商品可以放置于货架上。目标场景可以是陈列架前面的场景。可以将用于采集视频的摄像头设置于陈列架的顶部，例如高度为2.5至3.5米处。摄像头的视角斜向下，覆盖陈列架前的目标场景。图2示出了根据本发明一个实施例的摄像头210设置的示意图。如图2所示，摄像头210设置在放置商品(未示出)的陈列架230的顶部，其可以采集目标场景250的视频。目标场景250在该实施例中是陈列架230前面的过道区域。在当前的目标场景250中，存在对象251和对象252。

通过摄像头的配置(例如摄像头距地平面的高度、摄像头的视角等)，可以计算所采集的视频的每帧图像的图像空间与目标场景的物理空间之间的坐标变换。换言之，可以计算出与视频的每帧图像中的每个像素相对应的、目标场景中的空间位置，例如陈列架上的某个位置。以此可以将图像中的像素与真实场景中的位置相关联。

可选地，视频可以是深度视频，即采用深度摄像头所采集的视频。深度视频中除了普通的颜色信息，例如红绿蓝(RGB)通道数据，还包括目标场景的深度信息。相对每帧为普通二维图像的视频，深度视频可通过深度信息表示出物体之间更加丰富的位置关系。以下步骤中，深度信息也可以参与运算，以得到更准确的计算结果。

在步骤S130中，在视频中检测并跟踪对象，以获得跟踪信息。

在该步骤S130中，首先检测出目标场景中的每个对象，如前所述，例如商场里的客户、图书馆里的借阅者等。可以采用任何目标检测方法来实现该检测。可选地，采用视频的每帧的积分通道特征(IntegralChannelFeature)来检测对象。具体地，首先对每帧图像做线性和非线性的变换。然后通过积分图来快速计算诸如局部求和、直方图、哈尔特征等特征。最后，基于这些特征来检测对象。可选地，采用快速基于区域的卷积神经网络(FastR-CNN)来检测目标场景中的每个对象。

对于所采集的视频是深度视频的情况，可以对目标场景进行背景建模，得到目标场景中每个位置默认的深度信息。在视频序列中，如果当前帧中的某些位置的深度值发生变化，则可以认为有对象出现。上述检测算法通过结合视频的深度信息，可以很好的对对象的形状进行分割，从而能够更高效且准确地定位出目标场景中的每个对象。

在步骤S130中，通过检测出的对象，可以在视频的不同帧之间对各个对象进行关联，以进行跟踪。可以给每个对象一个唯一的标识符(ID)，用于跟踪。对象跟踪可以采用任何现有的方法，例如基于连续能量最小化的多任务跟踪方法。本领域普通技术人员可以理解，该方法仅为示例，而非限制。

与对象检测一样，也可以利用所采集的视频的深度信息来进行对象跟踪。由于不同对象在三维物理空间的坐标不同，虽然他们在RGB成像上面可能是有很大重叠，但通过深度信息可以很容易区分不同对象，因而提高跟踪的精度。

跟踪完成之后，每个对象对应一个跟踪片段(tracklet)。也即获得了从该对象第一次进入目标场景一直到最后其走出目标场景整个时间段内，该对象的所有位置信息以及出现在该位置的时间信息，可以将其称为跟踪信息。

可选地，在对视频进行对象检测前，首先将视频帧正规化为特定尺寸，例如128*64。将视频帧正规化为特定尺寸可以方便对视频的后续处理。

在步骤S150中，根据对象的跟踪信息识别对象对物品的操作，并且识别物品。

首先针对每个经跟踪的对象，识别出其对物品的操作。例如，在商场中，从货架取出商品的动作以及将商品放回货架的动作等。这可以通过各种已知的根据视频进行动作识别的方法或未来实现的根据视频进行动作识别的方法来实现。

此外，在该步骤中，还需要对对象所操作的具体物品进行识别，即确定对象所操作的具体物品是哪种物品，例如**牌方便面。

由于摄像头很可能不能达到足够的精度用于捕捉物品表面的文字或者条码，因此很难通过简单的商标或者条码识别来识别物品的类别。另外，由于物品可能会被手部遮挡，例如，对象取物品并将其握在手里，因此，也很难通过简单的图像检索(imageretrieval)来跟本地的物品数据库进行对比判断。

根据本发明的一个实施例，已知了对象对物品的操作，则可以确定对象所操作的物品在陈列架中的具体位置，例如特定陈列架的特定层中的特定位置。假设已知每种物品在陈列架上的、固定的放置位置。则可以根据所确定的、对象所操作的物品在陈列架中的具体位置来识别所操作的具体物品。该方法简单且识别准确率高。

在步骤S170中，根据对象对物品的操作，分析对象与物品的交互情况。在不同场合下，对象与物品的交互情况可以不同。

例如，在商场中，对象与物品的交互情况可以包括每个商品的被取出的次数，以及被放回的次数。还可以根据上述每个商品被取出的操作和每个商品被放回的操作来判断每件商品的销售和/或关注情况。商品被取出但没有被放回，则可以认为此商品已经被购买。商品被取出，然后又被放回，则可以认为此商品被关注了一次。

还可以分析每种商品分时段的销售情况。具体来讲，可以以一天为单位，统计一天内每个时段的商品销售情况。还可以分析一周内每天商品的销售情况等等。

此外，通过对同一个客户的跟踪，可以分析哪些商品可能被同时购买。

本领域普通技术人员可以理解，上述对象与物品的交互情况仅为示例，并非限制。

上述物品分析方法利用视频数据，通过对视频数据中的对象与物品的交互进行自动分析，不仅能够高效、准确地提取出有价值的信息，而且无需人工干预，有效节约了人力资源。为用户的物品布局，优化以及调整给出可靠的依据和支持。

可选地，上述步骤S150中，根据对象的跟踪信息，识别对象对物品的操作进一步包括以下步骤。

步骤S151，根据对象的跟踪信息，针对每个对象识别在视频的各帧中该对象身体上的关键点。身体上的关键点是身体上能够帮助识别手部的部位。关键点包括手部，例如左手和/或右手。关键点还可以包括左手肘、右手肘和头部。上述关键点仅为示例，而非限制，例如关键点还可以包括左肩和右肩等。

可以利用各种人工智能系统，例如神经网络，来进行该关键点的识别。其中，该人工智能系统可以通过对视频样本集的训练而获得。视频样本集的每个样本中的每帧已经标记了对象的关键点的位置。将待识别的视频输入到该人工智能系统中，经该人工智能系统的计算，即可获得每一帧上对象的关键点的具体位置信息。

在本发明的人工智能系统中，利用了多帧视频序列，各帧之间的相互关系被较好地用于每帧的关键点识别，所以识别结果更鲁棒。

可选地，识别在视频的各帧中对象身体上的关键点是利用递归神经网络(RNN)。RNN是具有固定权值、外部输入和内部状态的神经网络，可将其看作以权值和外部输入为参数的，关于内部状态的行为动力系统。根据本发明的实施例，在RNN训练时，其误差函数可以是关键点的识别结果和在视频样本的帧中所人工标注的实际位置之间的距离函数，例如欧式距离。误差函数是期望优化的目标函数，RNN最终所输出的结果将使误差函数值最小。然后通过RNN网络的记忆功能把时间序列中的信息整合进去。最后得到当前视频序列中每帧上的对象的关键点的具体位置。RNN因为有反馈的存在，所以它是一个非线性动力系统，将其用来实现求解关键点位置最优化的问题可以取得更理想效果。此外，其将视频的时间序列的信息整合到识别计算中，进一步理想化了识别结果。

当视频为深度视频时，上述关键点识别过程将有效利用视频的每帧中对象的深度信息。从而，有效提高了关键点的识别准确率。

步骤S152，根据所识别的关键点与物品的放置位置之间的位置关系、视频的各帧之间的时间关系和与手部相关的像素，确定对象对物品的操作。

首先，综合视频中所有帧中所识别的关键点的位置信息和物品的放置位置之间的位置关系，对手部(左手或者右手)随时间推移而发生的行为轨迹进行分析。物品在视频的各帧中的大体放置位置是可以识别的，例如货架的位置。关于该步骤中所涉及的时间，可以利用视频的各帧之间的时间关系来确定。当确定手部在三维的物理空间中距离货架越来越近，且最后与货架的物理距离小于距离阈值时，则可以认为有动作发生。

然后，判断视频的各帧中与手部相关的像素是否有深度变化，进而确定对象对物品的操作，例如确定是取商品还是放回商品。与手部相关的像素可以是视频的帧中的手部附近的像素，例如，在视频帧中的，自手部的最上边的像素起继续向上10个像素的行、自手部的最左边的像素起继续向左8个像素的列、自手部的最下边的像素起继续向下15个像素的行以及自手部的最右边的像素起继续向右6个像素的列所围成的矩形内的所有像素。本领域普通技术人员可以理解，上面的数字10、8、15和6仅为示例，其可以是适合于物品形状的任意数字。如果物品体积较大，可以将该数字相应地设置为较大；否则，可以将该数字相应地设置为较小。

根据视频帧，可以确定对象手中没有任何物品时手部的原始颜色。如果根据与手部相关的像素确定对象的手部在与物品的放置位置接触之前是原始颜色，但接触之后颜色值有变化，则认为对象执行了取出物品的操作。另外，如果根据与手部相关的像素确定对象在接触物品的放置位置之前手部不是原始颜色，并且在接触之后变化为原始颜色，则认为对象执行了放回物品的操作。

上述步骤S151和步骤S152中，首先识别对象身体上的、与手部动作有关的关键点，然后根据关键点确定对象对物品的操作，准确性高，易于实现。

可选地，上述步骤S150中，识别物品是利用分类器，根据物品的放置位置和与手部相关的像素来实现。该过程可以通过学习的方法来实现。

如上所述，通过识别对象对物品的操作，可以准确地确定对象手部在视频帧中的位置，进而确定与手部相关的像素。根据视频帧中与手部相关的像素，可以提取样本中物品的表面部分的颜色、纹理以及深度变化(shape)值等特征进行学习训练以获得分类器，其中该样本中物品的种类已经标识。然后，利用该分类器即可对待识别视频中的物品进行识别。可选地，在学习训练时，还考虑物品的放置位置因素。换言之，即将物品的放置位置因素也作为用于学习训练的一个特征。该分类器可以是支持向量机、随机森林等任何适宜的分类器。

根据物品的放置位置和与手部相关的像素来识别物品，因为考虑到了物品有关的多种因素，所以识别准确率高。此外，该方式排除了一些不必要的因素，例如与手部无关的像素，因此计算量较小。

图3示出了根据本发明另一个实施例的物品分析方法300的流程图。如图3所示，该方法300包括步骤S310、步骤S330、步骤S340、步骤S350、步骤S370和步骤S380。其中步骤S310、步骤S330、步骤S350和步骤S370与上述方法100中的步骤S110、步骤S130、步骤S150和步骤S170分别类似，为了简洁，在此不再赘述。

如图3所示，在步骤S330在视频中检测并跟踪对象之后，物品分析方法300进一步包括步骤S340，根据对象的跟踪信息，分析对象的身份属性。该步骤是通过跟踪的对象的多帧视频数据，推断出对象的身份属性。身份属性例如包括性别(男或女)、年龄段(小孩、少年、青年、中年或老年)，穿着风格(运动人士、休闲人士、商务人士或其他)等等。

该步骤S340可以采用深度学习的方法来分析对象的身份属性。例如，首先，利用预先标注的图像样本集来训练人工智能系统，该图像可以是视频帧。图像样本集中包括N个对象的图像，每个对象可能有T个图像。然后，通过已经训练所获得的人工智能系统来根据视频中的各帧确定对象的身份属性。可选地，上述人工智能系统是深度卷积神经网络(DeepConvolutionalNeuralNetworks)。深度卷积神经网络的误差函数采用交叉熵(crossentropy)，其中交叉熵表示数据之间的相似性，其在本发明的应用中具有较大的合理性。

深度卷积神经网络在本质上是一种输入到输出的映射，它能够学习大量的输入与输出之间的映射关系，而不需要任何输入和输出之间的精确的数学表达式，只要用已知的模式对深度卷积神经网络加以训练，其就具有输入输出对之间的映射能力。因此，其非常适用于根据视频图像分析对象的身份属性，能够利用深度卷积神经网络获得较准确地身份属性。

可选地，该步骤S340进一步包括：针对同一对象，将根据视频的各帧所识别的身份属性进行平均池化(averagepooling)。

由于本发明的物品分析是利用视频，其包括多帧数据。对于同一对象，存在多帧数据包括其跟踪信息。根据每帧数据、利用人工智能系统均可获得身份属性输出。对于多帧数据，可以使用平均池化来平均根据多帧数据所获得的身份属性，以作为最后的身份属性。与通过单帧图像来进行对象的身份属性的分析相比，利用同一个对象的多帧数据来做分析，结果将更准确。这是由于多帧数据可能包含同一对象的不同视角的信息以及运动过程中的走路姿态信息等等，因此对于身份属性的判定会更为精确。

可选地，对于所分析的每帧数据，除了分析其中的RGB通道信息，还参考深度信息，以使分析结果更准确。

可选地，步骤S370中分析对象与物品的交互情况是结合对象的身份属性的。

例如，可以分析统计目标场景内的人流情况。该人流情况例如包括：一天里每个时刻的对象人数以及一周里每天的客户人数等。又例如，可以从不同角度分析对象，比如，男士人数、女士人数以及对象年龄段分布等等。再例如，可以统计什么类型的对象喜欢什么类型的物品。具体地，在商场，年轻女士可能会喜欢购买婴儿用品。

结合对象的身份属性，可以更详尽的分析物品的情况，以便提供更详尽的分析结果。

如图3所示，在步骤S370分析对象与物品的交互情况之后，物品分析方法300进一步包括步骤S380，生成关于对象和物品的分析报表。根据步骤S370的分析结果，可以生成一个分析报表以供用户查看，便于为用户方便地提供分析结果。

根据本发明另一方面，还提供了一种物品分析设备。该物品分析设备可以用于商场、图书馆、超市等各个场合。图4示出了根据本发明一个实施例的物品分析设备400。如图4所示，物品分析设备400包括：视频采集装置410、检测跟踪装置430、识别装置450和第一分析装置470。

视频采集装置410用于采集物品附近的目标场景的视频。该视频采集装置410可以利用摄像头来采集视频。可选地，摄像头是深度摄像头，则其采集的视频是深度视频，即视频不仅包括颜色信息还包括深度信息。本领域普通技术人员可以理解，检测跟踪装置430、识别装置450的计算都可以考虑该深度信息，以提高检测、跟踪或识别的准确率。

检测跟踪装置430用于在视频中检测并跟踪对象，以获得跟踪信息。检测跟踪装置430可以首先在视频中检测出目标场景中的每个对象。可选地，其采用FastR-CNN来检测对象。然后，将在视频的不同帧中检测出的对象进行关联，以跟踪每个对象。

识别装置450用于根据对象的跟踪信息识别对象对物品的操作并且识别物品。

首先，识别装置450针对每个经跟踪的对象，识别出其对物品的操作。例如，在图书馆中，从书架上取出图书以及将图书放回书架的动作等。

可选地，识别装置450进一步包括关键点识别模块和操作确定模块。关键点识别模块用于根据对象的跟踪信息，识别在视频的各帧中对象身体上的关键点，其中关键点包括手部。对象身体上的关键点可以帮助确定对象的手部动作。关键点识别模块识别在视频的各帧中对象身体上的关键点可以利用递归神经网络来完成，其中递归神经网络的误差函数是距离函数。操作确定模块用于根据所识别的关键点与物品的放置位置之间的位置关系、视频的各帧之间的时间关系和与手部相关的像素，确定对象对物品的操作。所识别的关键点与物品的放置位置之间的位置关系以及视频的各帧之间的时间关系可以帮助确定对象手部的动作行为。与手部相关的像素可以帮助确定对象手中是否有物品。综合这三个因素，即可更准确地确定对象对物品的操作。

然后，识别装置450对对象所操作的具体物品进行识别，以确定其特定类别。例如，识别出某客户从货架取下了某某牌纸尿裤。可选地，识别装置450识别物品是利用分类器，根据物品的放置位置和与手部相关的像素来实现。

第一分析装置470用于根据对象对物品的操作分析对象与物品的交互情况。通过上面对物品分析方法的描述，本领域技术人员可以理解，该分析过程可以涉及用户感兴趣的多方面情况，为了简洁再次不再赘述。

图5示出了根据本发明另一个实施例的物品分析设备500的示意性框图。如图5所示，该设备500包括视频采集装置510、检测跟踪装置530、第二分析装置540、识别装置550、第一分析装置570和报表生成装置580。其中视频采集装置510、检测跟踪装置530、识别装置550和第一分析装置570分别与上述设备400中的采集装置410、检测跟踪装置430、识别装置450和第一分析装置470类似，为了简洁，在此不再赘述。

设备500中的第二分析装置540用于根据对象的跟踪信息，分析对象的身份属性。第二分析装置540可以采用深度学习的方法来分析对象的身份属性。可选地，第二分析装置540进一步包括身份分析模块和平均化模块。其中，身份分析模块用于利用卷积神经网络，根据视频的各帧识别对象的身份属性，其中卷积神经网络的误差函数是交叉熵。平均化模块用于针对同一对象，将根据视频的各帧所识别的身份属性进行平均池化。可选地，设备500中的第一分析装置570分析对象与物品的交互情况是结合第二分析装置540所分析的对象的身份属性的。

如图5所示，设备500可以包括报表生成装置580，其用于生成关于对象和物品的分析报表，以供用户查看。

本领域普通技术人员可以理解，虽然在图5中包括第二分析装置540和报表生成装置580二者，但二者之间没有相互依存关系，其中任何一个均可以独立存在。

本领域普通技术人员通过阅读上文关于物品分析方法的详细描述，能够理解上述物品分析设备的结构、实现以及优点，因此这里不再赘述。

在此提供的方法和设备不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种物品分析方法，包括：

采集物品附近的目标场景的视频；

在所述视频中检测并跟踪对象，以获得跟踪信息；

根据所述跟踪信息识别所述对象对所述物品的操作并且识别所述物品；以及

根据所述操作，分析所述对象与所述物品的交互情况。

2.如权利要求1所述的方法，其中，所述视频是深度视频。

3.如权利要求1所述的方法，其中，所述识别所述对象对所述物品的操作进一步包括：

根据所述跟踪信息，识别在所述视频的各帧中所述对象身体上的关键点，其中所述关键点包括手部；以及

根据所识别的关键点与所述物品的放置位置之间的位置关系、所述视频的各帧之间的时间关系和与所述手部相关的像素，确定所述对象对物品的操作。

4.如权利要求3所述的方法，其中，所述识别在所述视频的各帧中所述对象身体上的关键点是利用递归神经网络，其中所述递归神经网络的误差函数是距离函数。

5.如权利要求3或4所述的方法，其中，所述识别所述物品是利用分类器，根据所述放置位置和所述与所述手部相关的像素来实现。

6.如权利要求1至4任一项所述的方法，其中，所述在所述视频中检测并跟踪对象之后，所述方法进一步包括：

根据所述跟踪信息，分析所述对象的身份属性。

7.如权利要求6所述的方法，其中，所述分析所述对象的身份属性进一步包括：

利用卷积神经网络，根据所述视频的各帧识别所述对象的身份属性，其中所述卷积神经网络的误差函数是交叉熵；以及

针对同一对象，将根据所述视频的各帧所识别的身份属性进行平均池化。

8.如权利要求6所述的方法，其中，所述分析所述对象与所述物品的交互情况是结合所述对象的身份属性的。

9.如权利要求1所述的方法，其中，在所述分析所述对象与所述物品的交互情况之后，所述方法进一步包括：

生成关于所述对象和所述物品的分析报表。

10.一种物品分析设备，包括：

视频采集装置，用于采集物品附近的目标场景的视频；

检测跟踪装置，用于在所述视频中检测并跟踪对象，以获得跟踪信息；

识别装置，用于根据所述跟踪信息识别所述对象对所述物品的操作并且识别所述物品；以及

第一分析装置，用于根据所述操作分析所述对象与所述物品的交互情况。

11.如权利要求10所述的设备，其中，所述视频是深度视频。

12.如权利要求10所述的设备，其中，所述识别装置进一步包括：

关键点识别模块，用于根据所述跟踪信息，识别在所述视频的各帧中所述对象身体上的关键点，其中所述关键点包括手部；以及

操作确定模块，用于根据所识别的关键点与所述物品的放置位置之间的位置关系、所述视频的各帧之间的时间关系和与所述手部相关的像素，确定所述对象对物品的操作。

13.如权利要求12所述的设备，其中，所述关键点识别模块识别在所述视频的各帧中所述对象身体上的关键点是利用递归神经网络，其中所述递归神经网络的误差函数是距离函数。

14.如权利要求12或13所述的设备，其中，所述识别装置识别所述物品是利用分类器，根据所述放置位置和所述与所述手部相关的像素来实现。

15.如权利要求10至13任一项所述的设备，其中，所述设备进一步包括：

第二分析装置，用于根据所述跟踪信息，分析所述对象的身份属性。

16.如权利要求15所述的设备，其中，所述第二分析装置进一步包括：

身份分析模块，用于利用卷积神经网络，根据所述视频的各帧识别所述对象的身份属性，其中所述卷积神经网络的误差函数是交叉熵；以及

平均化模块，用于针对同一对象，将根据所述视频的各帧所识别的身份属性进行平均池化。

17.如权利要求15所述的设备，其中，所述第一分析装置分析所述对象与所述物品的交互情况是结合所述对象的身份属性的。

18.如权利要求10所述的设备，其中，所述设备进一步包括：

报表生成装置，用于生成关于所述对象和所述物品的分析报表。