CN109711498B

CN109711498B - 目标对象的行为预测方法、装置、处理设备及智能置物架

Info

Publication number: CN109711498B
Application number: CN201811608180.6A
Authority: CN
Inventors: 丁予春; 陈晨
Original assignee: Beijing Kuangshi Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2022-09-06
Anticipated expiration: 2038-12-26
Also published as: CN109711498A

Abstract

本发明提供了一种目标对象的行为预测方法、装置、处理设备及智能置物架，涉及智能监测技术领域，用于置物架，该方法包括：获取目标对象的视频帧图像；获取指定置物架的传感器监测数据；其中，指定置物架与目标对象相距预设距离范围内；根据视频帧图像和传感器监测数据，预测目标对象的行为。本发明采用传感器监测数据和视频帧图像相结合的多维度行为预测方式，能够有效提升行为预测的可靠性。

Description

目标对象的行为预测方法、装置、处理设备及智能置物架

技术领域

本发明涉及智能监测技术领域，尤其是涉及一种目标对象的行为预测方法、装置、处理设备及智能置物架。

背景技术

置物架广泛应用于各行各业，诸如商场中采用的货架、图书馆或书店里采用的书架、仓库中采用的储物货架等均属于置物架。管理者为了能够清楚地了解“人-物”状态(诸如，获知某个消费者拿取了哪种商品等信息)，大多会采用摄像头对置物架进行监控，通过对摄像头实时采集的图像进行分析，以对目标对象(诸如消费者、工作人员等)的行为进行预测。但是，在摄像头监测过程中不可避免的会出现人和物之间互相遮挡，或者光照环境不稳定等情况，均会影响摄像头采集到的图像的品质，导致基于图像对目标对象的行为预测准确率不高。由此可见，现有的行为预测方式的可靠性较差。

发明内容

有鉴于此，本发明的目的在于提供一种目标对象的行为预测方法、装置、处理设备及智能置物架，采用传感器监测数据和视频帧图像相结合的多维度行为预测方式，能够有效提升行为预测的可靠性。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种目标对象的行为预测方法，用于置物架，所述方法包括：获取目标对象的视频帧图像；获取指定置物架的传感器监测数据；其中，所述指定置物架与所述目标对象相距预设距离范围内；根据所述视频帧图像和所述传感器监测数据，预测所述目标对象的行为。

进一步，所述获取目标对象的视频帧图像的步骤，包括：通过安装在所述置物架第一指定位置的第一摄像头采集所述目标对象的视频帧图像。

进一步，所述获取指定置物架的传感器监测数据的步骤，包括：通过安装在所述置物架第二指定位置的至少一个传感器获取指定置物架的传感器监测数据；其中，所述传感器包括重量传感器和/或深度传感器。

进一步，所述根据所述视频帧图像和所述传感器监测数据，预测所述目标对象的行为的步骤，包括：基于所述传感器监测数据，从所述视频帧图像中抽取符合预设条件的视频帧图像；其中，所述符合预设条件的视频帧图像包括以下中的一种或多种：图像清晰度高于预设清晰度的视频帧图像、与传感器的触发起始时间或触发结束时间对应的视频帧图像、与传感器监测数据中的指定值或边界值对应的视频帧图像；基于所述传感器监测数据和抽取的所述视频帧图像，预测所述目标对象的行为。

进一步，所述基于所述传感器监测数据和抽取的所述视频帧图像，预测所述目标对象的行为的步骤，包括：根据所述传感器监测数据对所述目标对象的行为进行预测，得到第一预测结果；根据抽取的所述视频帧图像对所述目标对象的行为进行预测，得到第二预测结果；基于所述第一预测结果和所述第二预测结果，生成所述目标对象的行为事件。

进一步，所述方法还包括：基于所述传感器监测数据和所述视频帧图像，生成所述行为事件的置信度；判断所述行为事件的置信度是否高于预设的置信阈值；如果是，记录所述行为事件；如果否，发起错误提示。

进一步，所述方法还包括：通过安装在第三指定位置的第二摄像头获取所述指定置物架上的物品图像；所述根据所述视频帧图像和所述传感器监测数据，预测所述目标对象的行为的步骤，包括：根据所述视频帧图像、所述物品图像和所述传感器监测数据，预测所述目标对象的行为。

第二方面，本发明实施例还提供一种目标对象的行为预测装置，用于置物架，所述装置包括：图像获取模块，用于获取目标对象的视频帧图像；数据获取模块，用于获取指定置物架的传感器监测数据；其中，所述指定置物架与所述目标对象相距预设距离范围内；行为预测模块，用于根据所述视频帧图像和所述传感器监测数据，预测所述目标对象的行为。

第三方面，本发明实施例提供了一种处理设备，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种智能置物架，包括置物架本体，以及如第三方面所述的处理设备；其中，所述置物架本体上设置有摄像头和传感器，所述摄像头和所述传感器分别与所述处理设备通信连接。

进一步，所述摄像头包括第一摄像头和第二摄像头；所述第一摄像头和所述第二摄像头的拍摄精度相同或不同；所述第一摄像头和所述第二摄像头在每秒采集的图像帧数相同或不同；所述第一摄像头和所述第二摄像头均设置于所述置物架本体的顶部。

进一步，所述第一摄像头的光轴与水平面平行。

进一步，所述第二摄像头的光轴与水平面垂直。

进一步，所述传感器包括深度传感器；所述深度传感器设置于所述置物架本体的底部、顶部或者所述置物架本体的侧边；且所述置物架上的每种物品均位于所述深度传感器的感测区域内。

进一步，所述传感器包括重量传感器；其中，所述重量传感器的数量为一个，且所述重量传感器设置于所述置物架本体的底部；或者，所述重量传感器的数量为多个，所述置物架本体的每个置物层底部设置有一个重量传感器；或者，所述置物架本体的每个置物位的底部或挂钩处设置有一个重量传感器。

本发明实施例提供了一种目标对象的行为预测方法、装置、处理设备及智能置物架，首先获取目标对象的视频帧图像和指定置物架的传感器监测数据，然后根据视频帧图像和传感器监测数据，预测所述目标对象的行为。与现有技术中采用摄像头这种单维度的行为预测方式相比，本实施例所提供的上述方式采用传感器监测数据和视频帧图像相结合的多维度行为预测方式，能够有效提升行为预测的可靠性。

本发明的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子系统的结构示意图；

图2示出了本发明实施例所提供的一种智能置物架的正面结构示意图；

图3示出了本发明实施例所提供的第一种智能置物架的侧面结构示意图；

图4示出了本发明实施例所提供的第二种智能置物架的侧面结构示意图；

图5示出了本发明实施例所提供的一种目标对象的行为预测方法流程图；

图6示出了本发明实施例所提供的另一种目标对象的行为预测方法流程图；

图7示出了本发明实施例所提供的一种目标对象的行为预测装置的结构框图。

图标：

10-置物层；20-传感器；30-第一摄像头；40-第二摄像头。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的行为预测方式的可靠性较差，本发明实施例提供的一种目标对象的行为预测方法、装置、处理设备及智能置物架，该技术可以采用相应的软件和硬件实现，可应用于诸如智能零售、智能工厂等相关管理人员想要对目标对象进行行为预测的场景，为便于理解，以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的目标对象的行为预测方法、装置、处理设备及智能置物架的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、图像采集装置110以及传感器112，这些组件通过总线系统114和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

所述传感器112可以包括深度传感器和/或重量传感器，深度传感器可以为多像素深度传感器，或者ToF测距传感器、结构光传感器等各种能够在感测空间内对物品进行探测，并可产生相应的探测信息(诸如信号或数值)的传感器。重量传感器是将质量信号转变为可测量的电信号输出的装置，诸如，该重量传感器可以为单点式重量传感器，该重量传感器设置于置物架的底部，能够测量整个置物架的重量。当然，重量传感器也可以为常规传感器，并分设于置物架上的每个置物位底部，不同的置物位放置的物品种类不同。

示例性地，用于实现根据本发明实施例的一种目标对象的行为预测方法、装置、处理设备及智能置物架的示例电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集装置110和多个传感器112分离设置于置物架的各个位置。

为便于理解，以下对本实施例的电子系统的应用示例作进一步介绍。该电子系统可以安装设置于超市、图书馆、仓库等布设有置物架的场所；其中，深度传感器可以设置于置物架本体的底部、顶部等位置，深度传感器的数量和位置可以灵活设定，只需保证每个物品都位于深度传感器的感测空间即可；重量传感器的数量可以为一个并设置于置物架本体底部，能够测量整个置物架的重量，或者重量传感器的数量可以为多个，并在置物架本体的每个置物层或置物位底部或者挂钩处设置有一个重量传感器；设置有上述电子系统的置物架可以称之为智能置物架，并可灵活应用于各个场合。

实施例二：

首先，为便于理解，本实施例提供了一种智能置物架，示例性说明了一种目标对象的行为预测方法的应用场景。该智能置物架包括置物架本体和处理设备。其中，置物架本体上设置有摄像头和传感器，摄像头和传感器分别与处理设备通信连接。

在一种实现方式中，处理设备包括处理器和存储器，存储器上存储有计算机程序，计算机程序在被所述处理器运行时执行本实施例提供的目标对象的行为预测方法，也即根据获取到的摄像头的视频帧图像和传感器的传感器监测数据，预测目标对象的行为。

本实施例中的智能置物架可以为货架、书柜、冰箱、冷风柜等任何能够放置物品的设备，本实施例对智能置物架的结构和实际用途并不限定，为便于理解，以在置物架本体上安装有摄像头和传感器的智能置物架为例，可参见图2所示的一种智能置物架的正面结构示意图，示意出置物架本体上的置物层10以及和安装于置物架本体的顶部两端的第一摄像头30、安装在置物架本体的顶部中间的第二摄像头40，以及安装于置物架本体的底部的传感器20。在实际应用中，上述第一摄像头30可以用于拍摄在置物架前的目标对象(诸如消费者、工作人员、机器人等)，也即主要用于采集目标对象的视频帧图像；第二摄像头可以主要用于拍摄在置物架的物体，也即主要用于采集指定置物架上的物品图像。

具体实施时，可以令第一摄像头的光轴可以与水平面平行，以使第一摄像头能够向前拍摄，从而较好地获取到位于置物架前的人图像。第二摄像头的光轴可以与水平面垂直，以使第二摄像头能够向下拍摄，从而较好地获取到物品图像。在实际应用中，第一摄像头和第二摄像头的拍摄精度相同或不同；第一摄像头和第二摄像头在每秒采集的图像帧数相同或不同，具体可根据需求而灵活设置。

为了使第二摄像头的拍摄范围能够覆盖指定置物架上的全部物品，第二摄像头可以设置为两个，分别安装于置物架本体顶部的两端。当然，第一摄像头也可以根据置物架的长度而设置多个。可以理解的是，图2所示的智能置物架仅为示例性说明，在实际应用中，可以采用不同数量的第一摄像头和/或第二摄像头实现，摄像头的安装位置也可以灵活设置，在此不进行限制。

其中，如图2所示，本实施例中的置物架本体可以采用条形支架支撑，支架之间由下到上间隔设置有多个置物层，置物层用于承载物品；上述置物层可以具有相同规格，构成的置物架本体为长方体结构。当然，图2仅为示例性说明，在实际应用中，置物层可以直接采用置物板实现，在此不进行限制。

参见图3和图4所示的智能置物架的侧面结构示意图；不同的置物层可以由下到上宽度逐渐变小，构成的置物架本体为梯型结构，以避免置物架上不同层物品的遮挡，便于第二摄像头在顶部能够朝下清楚地采集各层物品的图像信息，也降低了位于底部的传感器(诸如深度传感器)从下向上对置物架进行监测时被遮挡的可能性。此外，在置物架本体的下方还可以固定安装有置物架底座。

其中，本实施例中的传感器可以包括深度传感器；在具体实施时，深度传感器设置于置物架本体的底部、顶部或者置物架本体的侧边；且置物架上的每种物品均位于深度传感器的感测区域内。图2至图4中均以深度传感器设置在置物架底部为例进行示意，诸如，该深度传感器设置在底部前侧，且传感器朝上设置，以感测置物架上的每种物体。在实际应用中，深度传感器可以为面阵式传感器、多线数激光雷达或结构光传感器等具有至少一个视场角，能够对一个立体空间进行感测的传感器。可以理解的是，为了能够感测置物架本体上的全部物品，深度传感器的数量为至少一个，并根据实际情况灵活设定深度传感器的安装位置，诸如可以将深度传感器安装于置物架本体的顶部、底部或者侧边等位置，所设置的深度传感器需要能够感测整个置物架本体上全部的物品。

本实施例中的传感器还可以包括重量传感器；在实际应用中，重量传感器的数量可以为一个，且重量传感器设置于置物架本体的底部；或者，重量传感器的数量可以为多个，置物架本体的每个置物层底部设置有一个重量传感器；或者，置物架本体的每个置物位的底部或挂钩处设置有一个重量传感器。

进一步，本实施例提供了如图5所示的一种目标对象的行为预测方法的流程图，该方法可应用于上述的智能置物架；该方法以从处理设备侧描述为例进行说明，其中，该处理设备首先可以与安装于置物架本体上的摄像头和传感器相连，置物架本体上的每种物品均位于摄像头和传感器的感测空间内，具体包括以下步骤：

步骤S502，获取目标对象的视频帧图像。其中，目标对象可以为人，也可以为被监测的工作机器人等，不同场合下的目标对象的身份不同，诸如仓库中场合下的工作人员或者机器人、展览会场合下的观众，购物场合下的消费者等等。其中，视频帧图像可以包括目标对象的完整图像，该完整图像可以是至少包括面部和手臂的图像，诸如全身图像。

通过处理设备对视频帧图像作进一步处理，还可以获取目标对象的身高，目标对象与置物架的相对位置等信息。其中，获取目标对象的身高的方式诸如：使用Kinect的视场角以及结合目标对象构成的三角关系，运用几何运算，预测目标对象的身高。或者，使用Kinect骨骼追踪提供的骨骼数据，根据关节点之间的距离预测目标对象的身高。

步骤S504，获取指定置物架的传感器监测数据；其中，指定置物架与目标对象相距预设距离范围内，在一种具体的实施实例中，该预设距离范围大于或等于目标对象能够触及置物架的距离。此外，在获取视频帧图像和传感器监测数据之前，可以首先采用时间同步机制控制传感器和摄像头同步，以使获取的视频帧图像和传感器监测数据的时间同步。

本实施例所提及的传感器监测数据可以包括基于深度传感器而获取的坐标监测数据，还可以包括基于重量传感器而获取的重量监测数据。

上述坐标监测数据的获取方式可参考如下步骤：

步骤1，基于深度传感器在置物架本体上的安装位置，获取深度传感器在预设坐标系下的坐标信息；其中，预设坐标系可以为空间立体坐标系。

步骤2，在目标对象伸手触碰、拿取或归置置物架上的物品时，手或手臂上的多个感测点会触发深度传感器生成相应的距离信息。

步骤3，根据深度传感器的坐标信息以及目标对象的多个被感测点对应的距离信息，确定目标对象的多个被感测点在预设坐标系下的坐标信息。

步骤4，记录深度传感器的触发起始时间和触发结束时间。上述多个被感测点的坐标信息以及深度传感器的触发起始时间、触发结束时间共同构成坐标检测数据。

上述重量监测数据的获取方式可参考如下步骤：

步骤1，获取当前置物架上每种物品的自重和数量。

步骤2，在目标对象拿取、归置物品的情况下，重量传感器采集重量改变信息，并根据重量改变信息和每种物品的自重，确定发生变化的物品种类以及每种物品的变化数量。

步骤3，记录重量传感器的触发起始时间、触发结束时间。上述的发生变化的物品种类、每种物品的变化数量以及重量传感器的触发起始时间、触发结束时间共同构成重量检测数据。为便于理解，给出一种实际应用的场景：假设当前置物架上有3种物品A、B和C，A自重为260g，B自重为485g，C自重为1050g；在当目标对象拿取物品的情况下，触发重量传感器对重量前后变化进行感测，如果监测的重量改变信息重量减少1265g，且考虑到物品数量的改变只能是整数，则确定A物品数量减少3个，B物品数量减少1个。

步骤S506，根据视频帧图像和传感器监测数据，预测目标对象的行为。

在本实施例中，采用两种维度数据(也即视频帧图像和传感器监测数据)，以提高预测目标对象行为的可靠性，对目标对象的行为形成更好的预测精度。其中，目标对象的行为诸如取放物品行为，集货、分货行为、翻阅物品行为等等。该方法的实现过程可参考如下具体步骤：

步骤一，将传感器的相邻的触发起始时间、触发结束时间作为一个触发阶段，基于该触发阶段对传感器监测数据进行过滤，得到多个触发阶段内的第一传感器监测数据。

第一传感器监测数据诸如各触发起始时间所对应的坐标监测数据和/或重量监测数据，各触发结束时间所对应的坐标监测数据和/或重量监测数据，以及各触发过程中所对应的重量监测数据和/或重量监测数据等等。可以理解，每个触发阶段内的第一传感器监测数据均为多个数据的集合，例如，随着目标对象将手伸入置物架内部的由远及近，坐标监测数据可为表示为：Q(X,Y,Z)＝{(0,25,135),(0,18,134),(1,3,136),(0,-12,133),(0,0,134),(0,12,136)}，且集合中的每一组数据均对应有唯一的时间点；其中，X、Y和Z为空间坐标系的三个坐标方向，空间坐标系的中心以置物架的中心为参考。还例如，随着目标对象取放不同物品，重量监测数据可以表示为P(ΔG)＝{-260,-485,+260,-970}，且集合中的每一个数据均对应有唯一的时间点；ΔG为物品的重量变化，-260表示目标对象拿走一个重量为260g的物品，+260表示目标对象放回一个重量为260g的物品。

步骤二，对于每个触发阶段内的第一传感器监测数据，均设定状态变化阈值，对超过状态变化阈值的第一传感器监测数据进行抽取，得到第二传感器监测数据。分别以坐标监测数据和重量监测数据为例对上述的状态变化阈值进行示例性说明。

示例一：基于物品放置位置的坐标设置坐标检测数据的状态变化阈值，可称为坐标变化阈值；当目标对象有将手伸入置物架的动作，且监测到手达到的坐标超过坐标变化阈值时，表示该伸入行为有效。示例二：对于重量监测数据，将自重最小的物品的自重设置为重量检测数据的状态变化阈值，可称为重量变化阈值。

步骤三，基于得到的第一传感器监测数据和第二传感器监测数据，根据预设条件对视频帧图像进行抽取，得到第一图像。其中，预设条件可以包括以下中的一种或多种：图像清晰度高于预设清晰度的视频帧图像、与传感器的触发起始时间或触发结束时间对应的视频帧图像、与传感器监测数据中的指定值或边界值对应的视频帧图像；上述指定值和边界值也即设定的不同的状态变化阈值。其中，状态可以表征反射率状态，也可以表征距离远近状态、重量状态等。诸如，边界值可以是深度传感器反射率的变化最大值(诸如，可说明有人将手探入置物架)；也可以是重量传感器当前相比于之前测得的重量最小的状态(诸如，可说明有人从置物架上拿取物品)。

步骤四，对第一图像中目标对象的姿态进行识别，得到姿态识别结果。

相对于现有技术需要对全部图像进行处理的方法，本步骤中只需对从视频帧图像中抽取的第一图像进行姿态识别，大大减少了运算量。

步骤五，对第一传感器监测数据和第二传感器监测数据进行聚类，得到多个监测数据子集。其中，聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个组别或子集中的成员对象都有相似的一些属性。具体实现时，可以采用诸如K-MEANS算法、CLARANS算法等划分方法，结合聚类规则对第一传感器监测数据和第二传感器监测数据进行聚类，得到多个监测数据子集。其中，可以将触发起始时间、触发结束时间作为聚类规则，也可以将坐标监测数据、重量监测数据作为聚类规则，在此不进行限制。

由于上述的监测数据子集是聚类的结果，能够反映出一定的行为规律性，因此，可以单独利用监测数据子集对目标对象的行为进行预测。诸如：根据预先已知的置物架上各物体的布局情况，以及深度传感器的触发起始时间、触发结束时间，以及重量变化情况等，可以预测到置物架的哪种物体被人触及或拿取。

此外，还可以仅根据重量变化情况进行行为预测。诸如，将重量监测数据作为聚类规则，对营业时间8:00至20:00之间内的重量监测数据进行聚类，得到重量监测数据子集。根据重量监测数据子集得到营业时间内销售量最大的物品，进而预测出大众消费者(也即目标对象)的购买需求。

步骤六，将监测数据子集与姿态识别结果进行结合，预测目标对象的行为。为便于理解，本实施例示例性给出一种预测目标对象的行为的具体的实现方式：

假设根据触发阶段内的时间(比如15:00)得到的监测数据子集包括坐标监测数据(0，-12,133)和重量监测数据(-970)，与该触发阶段内的时间相对应的姿态识别结果为多根手指抓取物品的姿态结果；上述的坐标监测数据(0，-12,133)表示有目标对象的手/手臂位于置物架内，可能在取货放物品，上述的重量监测数据(-970)表示有物品B减少了2个，上述的多根手指抓取物品的姿态结果表示目标对象正在取物品，将以上三方面进行结合，预测出目标对象的行为为拿取了两个B物品。

本发明实施例提供的目标对象的行为预测方法，首先获取目标对象的视频帧图像和指定置物架的传感器监测数据，然后根据视频帧图像和传感器监测数据，预测所述目标对象的行为。与现有技术中采用摄像头这单维度的行为预测方式相比，本实施例所提供的上述方式采用传感器监测数据和视频帧图像相结合的多维度行为预测方式，能够有效提升行为预测的可靠性。

在具体实施时，本实施例给出的获取目标对象的视频帧图像的步骤可以包括：通过安装在置物架第一指定位置的第一摄像头采集目标对象的视频帧图像。

上述第一指定位置具体可以为置物架本体顶部的某个位置，诸如置物架顶部的中间，第一摄像头的光轴与水平面平行，向前方探测目标对象。安装第一摄像头的第一指定位置可以满足如下条件：在与智能置物架相距预设距离范围内，且以第一摄像头采集到的目标对象的视频帧图像至少包括完整的面部和手臂图像为佳。

进一步，本实施例给出的获取指定置物架的传感器监测数据的步骤，可以包括：通过安装在置物架第二指定位置的至少一个传感器获取指定置物架的传感器监测数据；其中，传感器包括重量传感器和/或深度传感器。

基于实施例二中对传感器的描述，可以理解的是，当传感器为重量传感器时，上述第二指定位置可以为置物架本体的底部，或者为置物架本体的每个置物层底部，或者为置物架本体的每个置物位的底部或挂钩处。当传感器为深度传感器时，第二指定位置可以为于置物架本体的底部、顶部或者置物架本体的侧边。当然，以上仅为示例性说明，不应当被视为限制。

当获取了视频帧图像和传感器监测数据之后，可以根据视频帧图像和传感器监测数据，预测目标对象的行为，诸如，首先，基于传感器监测数据，从视频帧图像中抽取符合预设条件的视频帧图像；其中，符合预设条件的视频帧图像包括以下中的一种或多种：图像清晰度高于预设清晰度的视频帧图像、与传感器的触发起始时间或触发结束时间对应的视频帧图像、与传感器监测数据中的指定值或边界值对应的视频帧图像。然后，基于传感器监测数据和抽取的视频帧图像，预测目标对象的行为。

为便于理解，本实施例给出一种将图像清晰度高于预设清晰度的视频帧图像、与深度传感器的触发起始时间对应的视频帧图像作为预设条件，来抽取视频帧图像的一种实现方式，可参考如下步骤：

步骤1，获取深度传感器的触发起始时间，记录为第一时间；

步骤2，在视频帧图像中抽取与第一时间相对应的多帧图像；

步骤3，按照清晰度对多帧图像进行排序，得到的清晰度最高的图像即为抽取结果，也即上述的第一图像。

与现有技术中为了获取较全面的目标对象的行为数据，需要对大量的图像进行处理，以致运算量非常大相比，本实施例仅基于抽取的少量视频帧物品图像和传感器监测数据来预测目标对象行为，在数据处理上大大降低了运算量。

为了进一步提高对目标对象的行为预测的可靠性，本实施例提供的上述方法还包括：通过安装在第三指定位置的第二摄像头获取指定置物架上的物品图像。其中，第二摄像头为对物品进行图像采集的摄像头，其光轴与水平面垂直；安装第二摄像头的第三指定位置可以为置物架本体顶部的两端。

基于第二摄像头，本实施例提供的根据视频帧图像和传感器监测数据，预测目标对象的行为的步骤，还可以包括：根据视频帧图像、物品图像和传感器监测数据，预测目标对象的行为。对物品图像的处理过程与对视频帧图像的处理过程相同，诸如图像抽取、图像识别，在此不再赘述。

进一步，本实施例还提供了如图6所示的另一种目标对象的行为预测方法流程图，具体可以参照如下步骤执行：

步骤S602，采用时间同步机制控制传感器和摄像头同步。接下来分别执行步骤S604和步骤S606。

步骤S604，通过传感器获取传感器监测数据。接下来执行步骤S608。

步骤S606，通过摄像头获取传目标对象的视频帧图像。接下来执行步骤S610。

步骤S608，基于触发阶段对传感器监测数据进行过滤，得到多个触发阶段内的第一传感器监测数据；以及，基于状态变化阈值对第一传感器监测数据进行抽取，得到第二传感器监测数据。在一种实施方式中，第一传感器监测数据可以包括深度传感器触发开始时间、深度传感器触发结束时间、重量传感器触发开始时间；第二传感器监测数据可以包括深度传感器的反射率变化最大值，当然也可以包括深度传感器的反射率指定值等。在步骤S608之后，接下来执行步骤S612。

步骤S610，基于步骤S608所得的第一传感器监测数据和第二传感器监测数据，根据预设条件对视频帧图像进行抽取，得到第一图像。接下来执行步骤S614。

步骤S612，对第一传感器监测数据和第二传感器监测数据进行聚类，得到多个监测数据子集。接下来执行步骤S616。

步骤S614，对第一图像中目标对象的姿态进行识别，得到姿态识别结果。接下来执行步骤S616。

步骤S616，将监测数据子集与姿态识别结果进行结合，预测目标对象的行为。在一种实现方式中，可以首先根据传感器监测数据对目标对象的行为进行预测，得到第一预测结果；诸如，根据监测数据子集中的坐标监测数据和重量监测数据预测目标对象的行为为拿取两个物品B，即为第一预测结果。然后，根据抽取的视频帧图像对目标对象的行为进行预测，得到第二预测结果；诸如，与抽取的视频帧图像相对应的姿态识别结果为一名儿童的手的抓取动作。最后，基于第一预测结果和第二预测结果，生成目标对象的行为事件。诸如，将拿取两个物品B与一名儿童的手的抓取动作相结合，生成儿童拿取两个物品B的事件，即为目标对象的行为事件。

步骤S618，基于传感器监测数据和视频帧图像，生成行为事件的置信度。置信度也可以理解为置信区间，在统计学中，行为事件的置信区间是对总体行为事件的区间估计。置信区间展现的是这个行为事件的真实值有一定概率落在测量结果的周围的程度。也可以理解为，行为事件的置信度体现了预测得到的行为事件发生的可能性。在实际应用中，可以采用预先训练得到的决策模型基于传感器监测数据和视频帧图像，生成行为事件的置信度。该决策模型可以是通过机器学习的方式训练得到，可以较为准确客观的生成行为事件的置信度。

步骤S620，判断行为事件的置信度是否高于预设的置信阈值，如果是，执行步骤S622，如果否，执行步骤S624。置信阈值可以根据需求而灵活设置，诸如设置为0.6、0.7等。

以儿童拿取两个物品B的事件为例，假设物品B为电饭煲，则儿童拿取两个电饭煲的事件明显低于置信阈值；假设物品B为文具盒，则儿童拿取两个文具盒的事件明显高于置信阈值。通过将行为事件的置信度与置信阈值相比对，可以预先辨别预测错误的行为事件。

步骤S622，记录行为事件。

步骤S624，发起错误提示。

综上所述，本实施例提供的目标对象的行为预测方法，采用传感器监测数据和视频帧图像相结合的多维度行为预测方式，能够有效提升行为预测的可靠性。

实施例三：

对应于前述实施例提供的一种目标对象的行为预测方法，本实施例提供了一种目标对象的行为预测装置，用于置物架，参见图7所示的一种目标对象的行为预测装置的结构框图，该装置包括：

图像获取模块702，用于获取目标对象的视频帧图像。

数据获取模块704，用于获取指定置物架的传感器监测数据；其中，指定置物架与目标对象相距预设距离范围内。

行为预测模块706，用于根据视频帧图像和传感器监测数据，预测目标对象的行为。

本实施例提供的一种目标对象的行为预测装置，首先获取目标对象的视频帧图像和指定置物架的传感器监测数据，然后根据视频帧图像和传感器监测数据，预测所述目标对象的行为。与现有技术中采用摄像头这一单维度的行为预测方式相比，本实施例所提供的上述装置采用传感器监测数据和视频帧图像相结合的多维度行为预测方式，能够有效提升行为预测的可靠性。

在一种实施方式中，上述图像获取模块702还用于，通过安装在置物架第一指定位置的第一摄像头采集目标对象的视频帧图像。

在一种实施方式中，上述数据获取模块704还用于，通过安装在置物架第二指定位置的至少一个传感器获取指定置物架的传感器监测数据；其中，传感器包括重量传感器和/或深度传感器。

在一种实施方式中，上述行为预测模块706还用于，基于传感器监测数据，从视频帧图像中抽取符合预设条件的视频帧图像；其中，符合预设条件的视频帧图像包括以下中的一种或多种：图像清晰度高于预设清晰度的视频帧图像、与传感器的触发起始时间或触发结束时间对应的视频帧图像、与传感器监测数据中的指定值或边界值对应的视频帧图像；基于传感器监测数据和抽取的视频帧图像，预测目标对象的行为。

在一种实施方式中，上述行为预测模块706还用于，根据传感器监测数据对目标对象的行为进行预测，得到第一预测结果；根据抽取的视频帧图像对目标对象的行为进行预测，得到第二预测结果；基于第一预测结果和第二预测结果，生成目标对象的行为事件。

在一种实施方式中，上述行为预测模块706还用于，基于传感器监测数据和视频帧图像，生成行为事件的置信度；判断行为事件的置信度是否高于预设的置信阈值；并在是的情况下，记录行为事件；以及在不是的情况下，发起错误提示。

在一种实施方式中，图像获取模块702还用于，通过安装在第三指定位置的第二摄像头获取指定置物架上的物品图像；上述行为预测模块还用于，根据视频帧图像、物品图像和传感器监测数据，预测目标对象的行为。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例二相同，为简要描述，本实施例部分未提及之处，可参考前述实施例二中相应内容。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述实施例二提供的任一项方法的步骤，或者，计算机程序被处理设备运行时执行上述实施例二提供的任一项的方法的步骤。

本发明实施例所提供的一种目标对象的行为预测方法、装置、处理设备及智能置物架的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标对象的行为预测方法，用于置物架，其特征在于，所述方法包括：

获取目标对象的视频帧图像；

获取指定置物架的传感器监测数据；其中，所述指定置物架与所述目标对象相距预设距离范围内；所述传感器监测数据包括基于深度传感器获得的坐标监测数据和/或基于重量传感器获得的重量监测数据；

基于所述传感器监测数据，从所述视频帧图像中抽取符合预设条件的视频帧图像，得到第一图像；其中，所述符合预设条件的视频帧图像包括以下一种或多种：图像清晰度高于预设清晰度的视频帧图像、与传感器监测数据中的指定值或边界值对应的视频帧图像、与传感器的触发起始时间或触发结束时间对应的视频帧图像；

对所述第一图像中目标对象的姿态进行识别，得到姿态识别结果；

对所述传感器监测数据进行聚类，得到监测数据子集；

基于所述监测数据子集和所述姿态识别结果，预测所述目标对象的行为。

2.根据权利要求1所述的方法，其特征在于，所述获取目标对象的视频帧图像的步骤，包括：

通过安装在所述置物架第一指定位置的第一摄像头采集所述目标对象的视频帧图像。

3.根据权利要求1所述的方法，其特征在于，所述获取指定置物架的传感器监测数据的步骤，包括：

通过安装在所述置物架第二指定位置的至少一个传感器获取指定置物架的传感器监测数据；其中，所述传感器包括重量传感器和/或深度传感器。

4.根据权利要求1所述的方法，其特征在于，所述基于所述监测数据子集和所述姿态识别结果，预测所述目标对象的行为的步骤，包括：

根据所述监测数据子集中的传感器监测数据对所述目标对象的行为进行预测，得到第一预测结果；

根据所述姿态识别结果对所述目标对象的行为进行预测，得到第二预测结果；

基于所述第一预测结果和所述第二预测结果，生成所述目标对象的行为事件。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

基于所述传感器监测数据和所述视频帧图像，生成所述行为事件的置信度；

判断所述行为事件的置信度是否高于预设的置信阈值；

如果是，记录所述行为事件；

如果否，发起错误提示。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

通过安装在第三指定位置的第二摄像头获取所述指定置物架上的物品图像；

所述根据所述视频帧图像和所述传感器监测数据，预测所述目标对象的行为的步骤，包括：

根据所述视频帧图像、所述物品图像和所述传感器监测数据，预测所述目标对象的行为。

7.一种目标对象的行为预测装置，其特征在于，用于置物架，所述装置包括：

图像获取模块，用于获取目标对象的视频帧图像；

数据获取模块，用于获取指定置物架的传感器监测数据；其中，所述指定置物架与所述目标对象相距预设距离范围内；所述传感器监测数据包括基于深度传感器获得的坐标监测数据和/或基于重量传感器获得的重量监测数据；

行为预测模块，用于基于所述传感器监测数据，从所述视频帧图像中抽取符合预设条件的视频帧图像，得到第一图像；对所述第一图像中目标对象的姿态进行识别，得到姿态识别结果；对所述传感器监测数据进行聚类，得到监测数据子集；基于所述监测数据子集和所述姿态识别结果，预测所述目标对象的行为，其中，所述符合预设条件的视频帧图像包括以下一种或多种：图像清晰度高于预设清晰度的视频帧图像、与传感器监测数据中的指定值或边界值对应的视频帧图像、与传感器的触发起始时间或触发结束时间对应的视频帧图像。

8.一种处理设备，其特征在于，包括处理器和存储器，所述存储器上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至6任一项所述的方法。

9.一种智能置物架，其特征在于，包括置物架本体，以及如权利要求8所述的处理设备；

其中，所述置物架本体上设置有摄像头和传感器，所述摄像头和所述传感器分别与所述处理设备通信连接。

10.根据权利要求9所述的置物架，其特征在于，所述摄像头包括第一摄像头和第二摄像头；所述第一摄像头和所述第二摄像头的拍摄精度相同或不同；所述第一摄像头和所述第二摄像头在每秒采集的图像帧数相同或不同；

所述第一摄像头和所述第二摄像头均设置于所述置物架本体的顶部。

11.根据权利要求10所述的置物架，其特征在于，所述第一摄像头的光轴与水平面平行。

12.根据权利要求10所述的置物架，其特征在于，所述第二摄像头的光轴与水平面垂直。

13.根据权利要求9所述的置物架，其特征在于，所述传感器包括深度传感器；所述深度传感器设置于所述置物架本体的底部、顶部或者所述置物架本体的侧边；且所述置物架上的每种物品均位于所述深度传感器的感测区域内。

14.根据权利要求9所述的置物架，其特征在于，所述传感器包括重量传感器；其中，

所述重量传感器的数量为一个，且所述重量传感器设置于所述置物架本体的底部；

或者，所述重量传感器的数量为多个，所述置物架本体的每个置物层底部设置有一个重量传感器；

或者，所述置物架本体的每个置物位的底部或挂钩处设置有一个重量传感器。