CN112307864A

CN112307864A - 用于确定目标对象的方法、装置、人机交互系统

Info

Publication number: CN112307864A
Application number: CN202010065483.9A
Authority: CN
Inventors: 亢乐; 包英泽
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-07-31
Filing date: 2020-01-20
Publication date: 2021-02-02
Also published as: US20210034868A1; US11087133B2

Abstract

本申请实施例公开了用于确定目标对象的方法、装置、人机交互系统。本申请一实施例的方法包括：响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列；对待检测帧序列中的待检测图像帧进行人体关键点检测；基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。该实现方式有利于确定出的目标对象的准确性。

Description

用于确定目标对象的方法、装置、人机交互系统

相关申请的交叉引用

本申请要求申请日为2019年7月31日，申请号为16/528,134，发明名称为“MethodAnd Apparatus for Determining a Target Object，and Human-Computer InteractionSystem”的美国专利申请的优先权。

技术领域

本申请实施例涉及计算机领域，具体涉及图像识别领域，尤其涉及用于确定目标对象的方法、装置、人机交互系统。

背景技术

智慧零售店，是顾客在店内随意挑选商品，在购物结束时不用排队结账而自动把账单推送给顾客的一种新的零售体验。

为了自主地向顾客提供零售服务，需自动地判断哪位顾客购买了什么商品。也即，需识别出，哪个货架上什么商品被哪个顾客拿走。

发明内容

本申请实施例提出了用于确定目标对象的方法、装置、人机交互系统。

第一方面，本申请实施例提供了一种用于确定执行目标操作行为的目标对象的方法，包括：响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列；对待检测帧序列中的待检测图像帧进行人体关键点检测；基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。

在一些实施例中，响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列，包括：响应于检测到物品的位置变化，确定检测到位置变化的检测时刻；将图像采集时刻与检测时刻的时间差小于预设时长的图像帧按照采集时刻先后顺序排列形成待检测图像帧序列。

在一些实施例中，对待检测帧序列中的待检测图像帧进行人体关键点检测，包括：对待检测帧序列中，图像采集时刻与检测时刻最接近的目标图像帧进行人体关键点检测。

在一些实施例中，响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列，包括：响应于检测到物品的位置变化，基于物品的位置，确定采集待检测图像帧序列的目标图像采集装置；从目标图像采集装置采集的图像帧序列中，确定与检测时刻的时间差小于预设时长的采集时刻所采集的图像帧形成待检测图像帧序列。

在一些实施例中，基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象，包括：基于目标图像帧的人体关键点检测的检测结果中各人体对象与物品之间的距离，确定目标对象。

在一些实施例中，目标图像帧中的人体对象与物品之间的距离通过如下的距离确定步骤确定：对于目标图像帧中的人体对象，检测目标图像帧中是否存在指示该人体对象的手部的手部关键点；若存在，则将该人体对象的手部关键点与物品之间的距离作为该人体对象与物品之间的距离。

在一些实施例中，距离确定步骤还包括：对于目标图像帧中的人体对象，若目标图像帧中不存在用于指示该人体对象的手部的关键点，按照关键点优先级顺序，选取存在于目标图像帧中的该人体对象的人体关键点中，优先级最高的关键点；将所选取的人体关键点与物品之间的距离作为该人体对象与物品之间的距离。

在一些实施例中，基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象，包括：基于对各待检测图像帧的人体关键点检测的检测结果，生成待检测图像帧序列中，各人体对象的移动轨迹；确定出各移动轨迹中，与物品之间的距离最接近的轨迹点作为候选轨迹点；基于所确定出的候选轨迹点与物品之间距离，确定目标对象。

在一些实施例中，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中存在该人体对象的手部关键点，则将该手部关键点作为该人体对象的轨迹上的轨迹点。

在一些实施例中，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中不存在该人体对象的手部关键点，则按照关键点优先级顺序，选取存在于该待检测图像帧中的该人体对象的人体关键点中，优先级最高的关键点作为该人体对象的轨迹上的轨迹点。

在一些实施例中，人体关键点检测的检测结果中，各人体关键点的位置为在预设三维坐标系下的位置。

在一些实施例中，对待检测帧序列中的待检测图像帧进行人体关键点检测，包括：对于待检测帧序列中的待检测图像帧，确定出该待检测图像帧中，各人体对象所处的对象区域；对各对象区域进行人体关键点检测，得到该待检测图像帧的检测结果。

第二方面，本申请实施例还提供了人机交互系统，包括：货架，其上设置有物品，至少一个货架分隔预设区域形成通道；图像采集装置，采集至少一个通道内的图像；传感器，检测设置在货架上的物品是否发生位置变化；处理器，响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列；对待检测帧序列中的待检测图像帧进行人体关键点检测；基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。

在一些实施例中，图像采集装置为深度相机。

第三方面，本申请实施例提供了一种用于确定执行目标操作行为的目标对象的装置，包括：待检测图像帧序列确定单元，被配置成响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列；人体关键点检测单元，被配置成对待检测帧序列中的待检测图像帧进行人体关键点检测；目标对象确定单元，被配置成基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。

在一些实施例中，待检测图像帧序列确定单元进一步被配置成：响应于检测到物品的位置变化，确定检测到位置变化的检测时刻；将图像采集时刻与检测时刻的时间差小于预设时长的图像帧按照采集时刻先后顺序排列形成待检测图像帧序列。

在一些实施例中，人体关键点检测单元进一步被配置成：对待检测帧序列中，图像采集时刻与检测时刻最接近的目标图像帧进行人体关键点检测。

在一些实施例中，待检测图像帧序列确定单元进一步被配置成：响应于检测到物品的位置变化，基于物品的位置，确定采集待检测图像帧序列的目标图像采集装置；从目标图像采集装置采集的图像帧序列中，确定与检测时刻的时间差小于预设时长的采集时刻所采集的图像帧形成待检测图像帧序列。

在一些实施例中，目标对象确定单元进一步被配置成：基于目标图像帧的人体关键点检测的检测结果中各人体对象与物品之间的距离，确定目标对象。

在一些实施例中，目标对象确定单元通过如下的距离确定步骤确定目标图像帧中的人体对象与物品之间的距离：对于目标图像帧中的人体对象，检测目标图像帧中是否存在指示该人体对象的手部的手部关键点；若存在，则将该人体对象的手部关键点与物品之间的距离作为该人体对象与物品之间的距离。

在一些实施例中，目标对象确定单元进一步被配置成：基于对各待检测图像帧的人体关键点检测的检测结果，生成待检测图像帧序列中，各人体对象的移动轨迹；确定出各移动轨迹中，与物品之间的距离最接近的轨迹点作为候选轨迹点；根据所确定出的候选轨迹点与物品之间距离，确定目标对象。

在一些实施例中，人体关键点检测单元可以进一步被配置成：对于待检测帧序列中的待检测图像帧，确定出该待检测图像帧中，各人体对象所处的对象区域；对各对象区域进行人体关键点检测，得到该待检测图像帧的检测结果。

第四方面，本申请实施例提供了一种电子设备，包括：接口；一个或多个处理器；存储器，其上存储有一个或多个程序，以及一个或多个处理器，在操作上连接到上述接口和上述存储器，用于：响应于检测到物品的位置变化，基于检测到所述位置变化的检测时刻，确定待检测图像帧序列；对所述待检测帧序列中的待检测图像帧进行人体关键点检测；基于所述人体关键点检测的检测结果，确定出对所述物品执行目标操作行为的目标对象。

第五方面，本申请实施例还提供了一种电子设备，一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的用于确定执行目标操作行为的目标对象的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器：响应于检测到物品的位置变化，基于检测到所述位置变化的检测时刻，确定待检测图像帧序列；对所述待检测帧序列中的待检测图像帧进行人体关键点检测；基于所述人体关键点检测的检测结果，确定出对所述物品执行目标操作行为的目标对象。

第七方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器执行以上第一方面所述的用于确定执行目标操作行为的目标对象的方法。

本申请实施例提供的用于确定执行目标操作行为的目标对象的方案，首先响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列，接着，对待检测帧序列中的待检测图像帧进行人体关键点检测，最后，基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象，从而实现了在确定物品发生位置变化的情况下，基于对待检测图像帧中的人体对象执行的关键点检测的结果来确定待检测图像帧中，对物品执行目标从操作行为的目标对象，有利于确定出的目标对象的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请一个实施例的用于确定执行目标操作行为的目标对象的方法可以应用于其中的示例性系统架构图；

图2是根据本申请的用于确定执行目标操作行为的目标对象的方法的一个实施例的流程图；

图3是根据本申请的用于确定执行目标操作行为的目标对象的方法中，待检测图像帧的一种示意性的区域划分方法；

图4是根据本申请的用于确定执行目标操作行为的目标对象的方法的一个应用场景的示意图；

图5是根据本申请的用于确定执行目标操作行为的目标对象的方法的另一个实施例的流程图；

图6是应用本申请的用于确定执行目标操作行为的目标对象的方法的一个应用场景的示意图；

图7是根据本申请的用于确定执行目标操作行为的目标对象的方法的一些可选的实现方式中，确定目标图像帧中各人体对象与物品之间的距离的示意性流程；

图8是根据本申请的用于确定执行目标操作行为的目标对象的装置的一个实施例的结构图；

图9是适于用来实现本申请实施例的用于确定执行目标操作行为的目标对象的方法的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

图1示出了可以应用本申请的用于确定执行目标操作行为的目标对象的方法或用于确定执行目标操作行为的目标对象的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括图像采集设备101、102、103，网络104和服务器105。网络104用以在图像采集设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

图像采集设备101、102、103可以通过网络104将其采集到的图像向服务器105传输。图像采集设备101、102、103可以是具有图像采集功能的各种设备。包括但不限于单独设置的摄像头或者集成在其它电子设备上的图像采集单元，这些电子设备例如可以包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对图像采集设备101、102、103采集的图像进行处理的后台服务器。后台服务器可以根据所接收到的图像进行数据处理，并基于处理结果(例如，用于指示拿起商品的人物对象的信息)向关联终端(图中未示出)发送支付提示信息。

需要说明的是，本申请实施例所提供的用于确定执行目标操作行为的目标对象的方法可以由服务器105执行。相应地，用于确定执行目标操作行为的目标对象的装置可以设置于服务器105中。或者，本申请实施例所提供的用于确定执行目标操作行为的目标对象的方法可以由集成在图像采集设备101、102、103上的处理器执行。相应地，用于确定执行目标操作行为的目标对象的装置可以设置于图像采集设备101、102、103上的处理器中。

应该理解，图1中的图像采集设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的图像设备、网络和服务器。例如服务器可以为集群式的服务器，包括部署了不同进程的多台服务器。

继续参考图2，其示出了根据本申请的用于确定执行目标操作行为的目标对象的方法的一个实施例的流程200。

该用于确定执行目标操作行为的目标对象的方法，包括以下步骤：

步骤201，响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列。

在这里，物品可以是任何以实物方式存在的货物。例如，物品可以是摆放在货架上供顾客挑选、购买的商品。

可以利用各种可行的方式来检测物品的位置变化。例如，在一些可选的实现方式中，摆放物品的货架上可以设置多个重力传感器，若货架上的某一个或者某几个重力传感器检测到重力变化，则可确定该货架上摆放的物品发生了位置的变化。

或者，在另一些可选的实现方式中，可以设置多个图像采集装置，各图像采集装置可以以某采样间隔采集摆放物品的货架的区域内的图像。若相邻采样时刻采集的图像存在差异，则可以确定该图像采集装置的采集范围内，存在物品位置的变化。

或者，在另一些可选的实现方式中，摆放物品的货架上还可以设置有位置传感器(例如，可以包括但不限于光电式位置传感器、磁感应式位置传感器等)。若某一个或者某几个位置传感器检测到位置变化，则可确定该货架上摆放的物品发生了位置的变化。

此外，可以理解，在一些可选的实现方式中，还可以利用多种传感器的组合来检测物品的位置变化，例如，可以对分别基于重力传感器、图像采集装置、位置传感器等传感器中任意至少二者所确定出的存在物品位置变化的概率值进行加权，并基于加权和来确定是否存在物品位置变化。

在基于传感器的检测结果判断存在物品位置变化的情况下，执行主体可以进一步确定发生物品位置变化的时刻。

在一些可选的实现方式中，可以将执行主体作出“发生了物品位置变化”这一判断结果的时刻直接作为检测时刻。

或者，在另一些可选的实现方式中，在执行主体作出“发生了物品位置变化”这一判断结果的情况下，将作出这一判断结果的判断依据的采集时刻作为检测到位置变化的检测时刻。具体地，例如，在一些应用场景中，利用图像采集装置在相邻采样时刻采集到的图像来判断是否存在物品的位置变化。假设执行主体接收到t1时刻采集的图像和t2时刻采集的图像(t2＞t1)，并且判断出t2时刻采集的图像不同于t1时刻采集的图像(也即，发生了物品位置变化)，那么，可以将t2时刻作为检测到位置变化的检测时刻。

根据确定出的检测到位置变化的检测时刻，可以确定出待检测图像帧序列。

在这里，待检测图像帧序列可以是由设置在发生位置变化的物品附近的、用于采集对物品执行目标操作行为(例如，拿起)的对象(例如，人)的图像的图像采集装置采集得到的图像帧按照采集时刻先后顺序排列形成的序列。

在一些可选的实现方式中，若检测到物品发生位置变化，可以按照如上的方式确定出检测时刻。接着，可以将图像采集装置采集的图像帧中，图像采集时刻与检测时刻的时间差小于一预先设置的时长的那部分图像帧，按照采集时刻先后顺序进行排列，形成待检测图像帧序列。

例如，在这些可选的实现方式的在一些应用场景中，若检测到位置变化的检测时刻为2019年3月28日上午10:01:58，那么，可以将图像采集时刻在2019年3月28日上午10:00:58～2019年3月28日上午10:02:58之间采集得到的待检测图像帧按照采集时刻先后顺序排列形成的图像帧序列，作为待检测图像帧序列。

步骤202，对待检测帧序列中的待检测图像帧进行人体关键点检测。

人体关键点检测，通常是指从图像中，确定出隶属于某一个人体的一个或多个关键点。人体关键点例如可以能够体现人体的某方面的关键信息的点。具体地，在本申请各实施例的用于确定执行目标操作行为的目标对象的方法中，为了确定出执行目标操作行为的对象(即，目标对象)，人体关键点例如可以是能够体现待检测图像帧中的人体对象的姿态的特征点。例如，人体关键点可以包括用于表征人体的头、颈、肩、肘、手、臂等部位的点。通过人体关键点检测，可以确定出待检测图像帧中的人体对象的各个关键点的位置，并根据各关键点的位置确定待检测图像帧中，人体对象的姿态。

在一些可选的实现方式中，在对于待检测帧序列中的待检测图像帧进行人体关键点检测时，可以首先确定出该待检测图像帧中，人体对象所处的对象区域，接着，再在确定出的对象区域内进行人体关键点检测，得到该待检测图像帧的检测结果。这样一来，通过首先确定人体对象所处的区域，再在该区域中进行人体关键点检测，从而确保检测得到的人体关键点处于人体对象所处的区域内，提升人体关键点检测的可靠性。

可以理解的是，若待检测图像帧中包含了多个人体对象，可以对该待检测图像帧所包含的多个人体对象分别进行人体关键点检测，从而得到检测结果。例如，可以首先确定出待检测图像帧中的各人体对象所处的对象区域，再分别对所确定出的对象区域进行人体关键点检测，从而得到待检测图像帧中，各人体对象的人体关键点。

在这里，可以采用任意可行的算法来进行人体关键点检测。例如，可以采用自上而下的检测方法，或者，还可以采用自下而上的检测方法。

其中，自上而上的人体骨骼关键点定位算法主要包含两个部分，人体检测和单人人体关键点检测，即首先通过目标检测算法将每一个人检测出来，然后在检测框的基础上针对单个人做人体骨骼关键点检测。例如，可以利用CPM(Convolutional Pose Machines，卷积姿态网络)来进行关键点检测。具体地，将网络结构划分为多个级(stage)，其中第一个stage会产生初步的关键点的检测效果，接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入，进一步提高关键点的检测效果。或者，还可以利用CPN(Cascaded Pyramid Network，级联金字塔网络)来进行关键点检测。具体地，CPN包括GlobalNet(全局网络)和RefineNet(优化网络)，由GlobalNet来进行容易检测和较难检测的关键点的检测，而利用RefineNet来进行更难或者不可见关键点的检测，二者检测结果的并集，即可作为最终的人体关键点检测的检测结果。

自下而上的方法也包含两个部分，关键点检测和关键点聚类，即首先需要将图片中所有的关键点都检测出来，然后通过相关策略将所有的关键点聚类成不同的个体。在自下而上的方法中，如何准确地对检测得到的关键点进行连接和聚类，是影响最终检测结果准确性的关键。例如，可以采用Part Segmentation(区域分割)算法来进行关键点聚类。具体地，对人体进行不同部位分割，而关键点都落在分割区域的特定位置，通过部位分割对关键点之间的关系进行建模，既可以显式的提供人体关键点的空间先验知识，指导网络的学习，同时在最后对不同人体关键点进行聚类时也能起到相应的连接关键点的作用。或者，还可以采用PAFs(Part Affinity Fields)算法来进行建模。具体地，可以通过对人体的不同肢体结构进行建模，并使用向量场来模拟不同肢体结构，从而解决单纯使用中间点是否在肢干上造成的错连问题。

通过本步骤202所得到的检测结果例如可以包括检测得到的人体关键点的标识信息和相应的位置信息。

在这里，标识信息例如可以是任何能够表征人体关键点的身份的信息。例如，用于表征人体关键点所属的人体对象(如，属于人体对象A或者人体对象B)，以及关键点所属的类型的信息(例如，该关键点所表征的是人体对象的头部或肘部或手部或其它等)。

此外，位置信息可以是任何能够定性或者定量地描述人体关键点的实际位置的信息。例如，位置信息可以是在预先建立的坐标系下，人体关键点的坐标。

或者，位置信息还可以是定性描述人体关键点实际位置的描述信息，例如，可以预先将待检测图像帧在水平方向划分为左、中、右三个区域，并将待检测图像帧在竖直方向划分为上、中、下三个区域，那么，如图3所示，待检测图像帧300可以划分为9个区域(即：上左，上中，上右，中左，中中，中右，下左，下中和下右)。那么，人体关键点的位置信息可以是用于指示该人体关键点处于这9个区域中的哪一个区域的信息。

或者，位置信息还可以是定性描述人体关键点是否处于待检测图像帧中的某个特定区域的描述信息。例如，位置信息可以用于描述人体关键点是否处于按照图3所示的方式划分的待检测图像帧的“上右”区域。

步骤203，基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。

正如在步骤202中描述的，通过人体关键点检测，可以得到待检测图像帧中，人体关键点的标识信息和相应的位置信息，相应地，便可以根据人体关键点的位置信息和标识信息来确定出待检测图像帧中，哪一个人体对象对物品执行了目标操作行为。

例如，在一些应用场景中，对“从货架上拿起物品”这一目标操作行为进行检测，也即，期望从待检测图像帧中，确定出执行了“从货架上拿起物品”这一目标操作行为的人体对象。那么，在这些应用场景中，可以从待检测图像帧中确定出各人体对象的手部关键点，并根据手部关键点的位置，来确定出从货架上拿起物品的人体对象。

继续参见图4，图4是根据本实施例的用于确定执行目标操作行为的目标对象的方法的应用场景的一个示意图400。

在图4所示的应用场景中，旨在确定出从货架上拿起商品的人。

在该应用场景中，设置在货架401上方的摄像头(图中未示出)可以以某一采样间隔采集图像，并将采集得到的图像传输至处理器进行缓存或存储。并且，货架上可以设置有能够检测出商品位置是否发生变化的传感器。若检测到货架上某一商品发生位置变化，传感器可以向处理器发送相应的触发信号，使得处理器可以根据接收到传感器触发信号的时刻来从缓存或者存储摄像头采集到的图像的单元中确定出待检测图像帧序列。

接着，处理器可以进一步对待检测图像帧序列中的待检测图像帧进行人体关键点检测，从而得到检测结果。检测结果例如可以包括人体关键点的标识信息和位置信息。

具体地，在图4所示的应用场景中，人体关键点的标识信息可以用于指示人体关键点所属的人体对象402，以及人体关键点的类型。例如，人体关键点a的标识信息可以包括用于指示“对象402的手部”的信息，人体关键点b的标识信息可以包括用于指示“对象402的肘部”的信息，人体关键点c的标识信息可以包括用于指示“对象402的肩部”的信息，人体关键点e的标识信息可以包括用于指示“对象402的头部”的信息。

此外，在图4所示的应用场景中，人体关键点的位置信息例如可以是用于指示人体关键点的位置是否处于货架区域内的信息。货架区域如图4中的虚线框403所示。可以理解的是，货架区域在待检测图像帧中所处的位置和范围例如可以根据摄像头和货架401之间的相对位置、摄像头的图像采集范围和角度等因素预先确定。

若人体关键点检测的检测结果指示人体对象402的手部和肘部均处于货架区域403中，则可以认为，人体对象402对货架上的商品执行了“从货架上拿起商品”这一动作。

可以理解的是，判断人体对象是否执行了“从货架上拿起商品”这一目标操作行为、待检测图像帧中哪一个人体对象执行了“从货架上拿起商品”这一目标操作行为的判断条件可以根据应用场景和/或人体关键点检测的检测结果的表现形式的不同来调整。例如，若人体关键点检测的检测结果中，位置信息表现为人体关键点在待检测图像帧中的坐标值，则可以根据表征手部的人体关键点的位置与货架或货架上商品的位置之间的距离，来确定执行了“从货架上拿起商品”这一目标操作行为的人体对象。

进一步参考图5，其示出了用于确定执行目标操作行为的目标对象的方法的又一个实施例的流程500。

该用于确定执行目标操作行为的目标对象的方法的流程500，包括以下步骤：

步骤501，响应于检测到物品的位置变化，基于物品的位置，确定采集待检测图像帧序列的目标图像采集装置。

本步骤中，检测物品位置变化的方式可以采用如图2所示的实施例中步骤201中类似的方式执行。也即是说，例如，可以通过设置在货架上的重力传感器来检测重力变化，并将重力的变化作为判断物品位置变化的依据。或者，通过图像采集装置以某种采样间隔采集货架图像，并通过比对两次采集到的图像来确定是否发生物品位置变化。或者，通过位置传感器来直接检测是否发生物品位置变化。或者，还可以通过以上任意至少两种传感器所确定出的存在物品位置变化的概率值进行加权，并基于加权和来确定是否存在物品位置变化。

与步骤201不同的是，本步骤中，还可以进一步地根据发生位置变化的物品的位置确定出采集待检测图像帧序列的目标图像采集装置。

例如，在一些可选的实现方式中，用于检测物品位置变化的传感器可以具有用于指示其位置的位置标识。在这些可选的实现方式中，若某一个传感器检测到发生物品位置变化，则执行主体可以根据检测到发生物品位置变化的传感器的位置标识，来确定发生物品位置变化的位置。

进一步地，在这些可选的实现方式中，可以根据用于检测物品位置变化的传感器的位置和用于采集待检测图像帧的图像采集装置的图像采集范围来预先设置用于检测物品位置变化的传感器和用于采集待检测图像帧的图像采集装置之间的关联关系。

在这些可选的实现方式的一些应用场景中，例如，本实施例的用于确定执行目标操作行为的目标对象的方法应用于智慧零售店中，并且用于从图像中确定出拿起货架上的商品的人体对象。用于采集待检测图像帧的图像采集装置可以用于采集某货架或者智慧零售店中的某区域的图像。在这些应用场景中，可以预先将图像采集装置的图像采集范围内的货架区域与该图像采集装置进行关联。

例如，如图6所示的智慧零售店600中，设有3排货架(即，货架A～C)，每排货架的前方设置有供用户进行商品拿取的通道，即智慧零售店600中设置有通道1～通道4共4条通道。货架内可以设置有多个用于检测物品位置变化的传感器(图中未示出)。通道上方(例如，通道上方的天花板上和/或货架的顶部)设置有用于采集通道和相应货架的图像的图像采集装置。图6中示意性地示出了每条通道中设置了4组图像采集装置，分别采集通道内某个货架区域内的图像。例如，图像采集装置Aa1采集通道1的区域a中的货架A的图像。在图6所示的智慧零售店600中，可以预先将图像采集装置Aa1与货架A的处于通道1的区域a的货架区域进行关联。这样一来，当设置在货架A的处于通道1的区域a的货架区域内的传感器(即，具有用于指示处于“货架A的通道1的区域a”这一货架区域的位置标识的传感器)检测到物品位置变化时，便可以将图像采集装置Aa1确定为目标图像传感器。

可以理解的是，图像采集装置和与其预先关联的货架区域可以是一一对应的；或者，图像采集装置和与其预先关联的货架区域可以具有“一对多”或者“多对多”的对应关系。

具体地，在一些应用场景中，每一个图像采集装置可采集某一个货架区域内的图像，并且不同的图像采集装置用于采集不用的货架区域内的图像。以如图6所示的智慧零售店600为例，图像采集装置Aa1仅采集通道1的区域a中的货架A这一货架区域内的图像。

或者，在另一些应用场景中，可以设置多个图像采集装置来采集某一个货架区域内的图像。例如，以如图6所示的智慧零售店600为例，通道1的区域a中的货架A这一货架区域内，可以设置多个用于采集该货架区域内的图像的图像采集装置。

或者，在另一些应用场景中，某一个图像采集装置可以采集多个货架区域内的图像。例如，以如图6所示的智慧零售店600为例，图像采集装置Aa1既可以采集通道1的区域a中的货架A这一货架区域内的图像，也可以采集通道1的区域b中的货架A这一货架区域内的图像；类似地，图像采集装置Ab1既可以采集通道1的区域b中的货架A这一货架区域内的图像，也可以采集通道1的区域c中的货架A这一货架区域内的图像，等等。

可以理解的是，若图像采集装置和与其预先关联的货架区域为“多对多”的对应关系，通过该步骤501得到的目标图像采集装置可以有多个。

具体地，仍以图6所示的智慧零售店600为例。若智慧零售店600中，图像采集装置Aa1既采集通道1的区域a中的货架A这一货架区域内的图像，也采集通道1的区域b中的货架A这一货架区域内的图像，并且图像采集装置Ab1既采集通道1的区域b中的货架A这一货架区域内的图像，也采集通道1的区域c中的货架A这一货架区域内的图像，那么，若设置在货架A的处于通道1的区域b的货架区域内的传感器(即，具有用于指示处于“货架A的通道1的区域b”这一货架区域的位置标识的传感器)检测到物品位置变化，由于图像采集装置Aa1和图像采集装置Ab1均可以采集“货架A的通道1的区域b”这一货架区域的图像，该货架区域可以与图像采集装置Aa1和图像采集装置Ab1均存在关联关系。这样一来，通过本步骤501，可以将图像采集装置Aa1和图像采集装置Ab1均确定为目标图像采集装置。

步骤502，从目标图像采集装置采集的图像帧序列中，确定与检测时刻的时间差小于预设时长的采集时刻所采集的图像帧形成待检测图像帧序列。

本步骤中，检测时刻的确定方式可以采用如在图2所示的实施例的步骤201中描述的方式。此外，根据所确定的检测时刻，从目标图像采集装置所采集的图像帧序列中确定出与检测时刻的时间差小于预设时长的采集时刻所采集的图像帧的方式也可以采用如在图2所示的实施例的步骤201中描述的方式在此不再赘述。

与步骤201不同的是，若图像采集装置和与其预先关联的货架区域为“多对多”的对应关系，通过该步骤502得到的待检测图像帧序列可以为一个或者多个。

具体而言，正如对步骤501的描述中提到的，图像采集装置和与其预先关联的货架区域为“多对多”的对应关系，可以理解为，某一个图像采集装置可以采集多个货架区域内的图像，而某一个货架区域内的图像可以由多个图像采集装置进行采集。例如，图6所示的智慧零售店600中，图像采集装置Aa1既采集通道1的区域a中的货架A这一货架区域内的图像，也采集通道1的区域b中的货架A这一货架区域内的图像，图像采集装置Ab1既采集通道1的区域b中的货架A这一货架区域内的图像，也采集通道1的区域c中的货架A这一货架区域内的图像，这样一来，通道1的区域b中的货架A这一货架区域内的图像可以由图像采集装置Aa1和图像采集装置Ab1进行采集。

在这种“多对多”的对应关系的应用场景中，通过上述步骤501确定出的目标图像采集装置可以有多个，例如，在如上的示例中，若检测到通道1的区域b中的货架A这一货架区域内存在物品位置变化，与该货架区域对应的目标图像采集装置可以为图像采集装置Aa1和图像采集装置Ab1。

这样一来，可以根据所确定的检测时刻，从目标图像采集装置Aa1所采集的图像帧序列中确定出与检测时刻的时间差小于预设时长的采集时刻所采集的一系列图像帧，也可以根据所确定的检测时刻，从目标图像采集装置Ab1所采集的图像帧序列中确定出与检测时刻的时间差小于预设时长的采集时刻所采集的一系列图像帧。

进而，在一些应用场景中，可以将目标图像采集装置Aa1中确定出的与检测时刻的时间差小于预设时长的采集时刻所采集的一系列图像帧作为一个待检测图像帧序列(以下简称为待检测图像帧序列a)，并将目标图像采集装置Ab1中确定出的与检测时刻的时间差小于预设时长的采集时刻所采集的一系列图像帧作为另一个待检测图像帧序列(以下简称为待检测图像帧序列b)，也即，在这种应用场景中，通过步骤502可以得到两个待检测图像帧序列，即，待检测图像帧序列a和待检测图像帧序列b。

或者，在另一些应用场景中，可以通过某种方式将分别由目标图像采集装置Aa1和目标图像采集装置Ab1采集得到的待检测图像帧序列a和待检测图像帧序列b进行拼接，并将拼接得到的图像帧序列作为由步骤502得到的待检测图像帧序列。在这些应用场景中，可以采用任何可行的方式来进行拼接。例如，可以按照待检测图像帧序列a和待检测图像帧序列b中，各图像帧的采集时刻的先后顺序对这些图像帧进行排列，并将排列得到的图像帧序列作为待检测图像帧序列。或者，可以直接将待检测图像帧序列b拼接至待检测图像帧序列a的尾部形成待检测图像帧序列，或者，直接将待检测图像帧序列a拼接至待检测图像帧序列b的尾部形成待检测图像帧序列。

步骤503，对待检测帧序列中的待检测图像帧进行人体关键点检测。

步骤504，基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。

上述步骤503和步骤504可以分别采用与图2所示的实施例中的步骤202和步骤203类似的方式执行，在此不再赘述。

本实施例的用于确定执行目标操作行为的目标对象的方法，与图2所示的实施例相比，可以进一步根据检测物品位置变化的传感器和采集图像的图像采集装置之间的关联关系，来从图像采集装置中，确定出目标图像采集装置。这样一来，在包含多个图像采集装置的应用场景中，可以根据图像采集装置和传感器之间的关联关系和检测到发生物品位置变化的位置，来确定出能够采集到发生物品位置变化的区域的图像的图像采集装置，进而提升待检测图像帧序列中的各图像帧捕捉到使得物品发生位置变化的操作对象的可能性。

可以理解的是，在本申请各实施例的用于确定执行目标操作行为的目标对象的方法的一些可选的实现方式中，对待检测帧序列中的待检测图像帧进行人体关键点检测的步骤(例如，图2所示实施例中的步骤202或图5所示实施例中的步骤503)可以通过如下的方式执行：

对待检测帧序列中，图像采集时刻与检测时刻最接近的目标图像帧进行人体关键点检测。

这样一来，在这些可选的实现方式中，可以从待检测图像帧序列中，确定出一个目标图像帧进行关键点检测。从而，一方面，可以减少需要进行关键点检测的图像帧的数量，另一方面，由于该目标图像帧为由目标图像采集装置在最接近检测时刻的时刻采集得到的，该图像帧能够更加客观地体现发生物体位置变化的时刻的场景，进而有利于确定出对物品执行了目标操作行为的目标对象的准确性。

可以理解的是，若将上述可选的实现方式应用于图5所示实施例的步骤503中，上述目标图像帧为由目标图像采集装置采集得到的图像帧序列中的一个图像帧。

进一步地，在这些可选的实现方式的一些应用场景中，若从待检测图像帧序列中确定出了目标图像帧，则本申请各实施例中的基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象，可以通过如下的方式执行：

基于目标图像帧的人体关键点检测的检测结果中各人体对象与物品之间的距离，确定目标对象。例如，可以将目标图像帧中，与物品之间的距离最接近的人体对象作为目标对象。或者，还可以根据各人体对象与物品之间的距离，确定各人体对象为目标对象的概率，并将具有最大概率的人体对象作为目标对象。

例如，在这些应用场景中，可以将目标图像帧中，拿起物品(与物品之间距离为0)的人体对象作为对该物品执行了目标操作的目标对象。

或者，在这些应用场景中，尽管目标图像帧中未能呈现某人体对象拿起物品，但在该目标图像帧中，存在某个人体对象，其与物品之间的距离小于该目标图像帧中其他任意人体对象与该物品之间的距离，在这种示例中，可以将与物品之间距离最小的人体对象确定为对该物品执行了目标操作(例如，“拿起”操作)的目标对象。

在这里，在确定人体对象与物品之间的距离时，可以基于人体关键点检测的检测结果，从人体对象中确定出某个点，并将该点与物品之间的距离作为该人体对象与该物品之间的距离。

例如，作为示例，假设目标图像帧中呈现有A、B两个人体对象。并且，对目标图像帧的关键点检测结果中，检测到人体对象A的关键点a1～a7，人体对象B的关键点b1～b5。在该示例中，可以分别对关键点a1～a7的位置求取平均值，得到平均位置a，对关键点b1～b5的位置求取平均值，得到平均位置b，并分别用平均位置a和平均位置b代表人体对象A和人体对象B在目标图像帧中的位置。这样一来，可以将a与物品之间的距离d1作为人体对象A与该物品之间的距离，并将b与该物品之间的距离d2作为人体对象B与该物品之间的距离。通过比较d1和d2，便可以确定出人体对象A和人体对象B中的哪一者为目标对象。

或者，作为另一种示例，还可以通过如图7所示的流程，来确定目标图像帧中，各人体对象与该物品之间的距离。

具体地，首先，如步骤701所示，可以从目标图像帧中选取一人体对象(假设选取人体对象A)，并判断目标图像帧中是否存在用于指示人体对象A的手部的手部关键点。

接着，若目标图像帧的人体关键点检测结果中，存在某人体对象的手部关键点，则如步骤702所示，将该人体对象的手部关键点与物品之间的距离作为该人体对象与该物品之间的距离。例如，若人体对象A的关键点a1～a7中，a3为表征人体对象A的手部的手部关键点，那么，可以将a3与物品之间的距离，作为人体对象A与该物品之间的距离。

相应地，若目标图像帧的人体关键点检测结果中，不存在某人体对象的手部关键点，则如步骤703所示，按照关键点优先级顺序，选取该人体对象的人体关键点。

在这里，关键点优先级顺序可以是预先设置的。例如，关键点优先级顺序可以按照与目标操作行为的关联度正相关，也即是说，与目标操作行为的关联度越高，该关键点的优先级越高。具体地，若目标操作行为为“拿起物品”这一行为，那么，显然，手部关键点与“拿起物品”这一行为的关联度最高，因而在步骤701中首先确定目标图像帧中是否存在手部关键点。而由于肘部关键点、肩部关键点、颈部关键点、头部关键点与“拿起物品”这一行为的关联度逐步下降，相应地，在确定“拿起物品”这一行为的目标对象时，关键点的优先级可以按照手部关键点→肘部关键点→颈部关键点→头部关键点等的顺序逐步递减。

或者，关键点优先级顺序也可以与目标图像帧中，人体对象所处的姿态相关。例如，可以对目标图像帧中的人体对象的姿态进行识别，并根据预先设置的姿态和关键点优先级顺序之间的对应关系，来确定与人体对象的姿态相对应的关键点优先级顺序。

接着，若通过步骤703选取出了存在于目标图像帧中的某个人体对象的人体关键点中，具有最高优先级的人体关键点，则在步骤704中，可以将所选取的人体关键点与物品之间的距离作为该人体对象与该物品之间的距离。

例如，目标图像帧的人体关键点检测结果中，检测得到人体对象B的关键点为b1～b5，分别为肘部关键点b1、颈部关键点b2、头部关键点b3、髋部关键点b4和腿部关键点b5。那么，按照预先确定的优先级顺序，可知，肘部关键点b1的优先级最高，从而可以将肘部关键点b1与物品之间的距离作为该人体对象与该物品之间的距离。

可以理解的是，在该示例中，若对目标图像帧中的人体对象A的关键点检测结果中包含了两个用于指示人体对象A的手部的关键点，设为关键点a3和关键点a5，那么，可以将a3和物体之间距离、a5与物体之间距离中较小的一者，作为人体对象A与该物体之间的距离。

在本申请各实施例的一些可选的实现方式中，基于所述人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象的步骤(例如，图2所示的实施例中的步骤203和图5所示的实施例中的步骤504)还可以通过如下的方式执行：

首先，基于对各待检测图像帧的人体关键点检测的检测结果，生成待检测图像帧序列中，各人体对象的移动轨迹。

接着，确定出各移动轨迹中，与物品之间的距离最接近的轨迹点作为候选轨迹点。

最后，根据所确定出的候选轨迹点与物品之间距离，确定目标对象。例如，可以将所确定出的候选轨迹点中，与物品之间距离最小的候选轨迹点所对应的人体对象，作为目标对象。或者，还可以根据各候选轨迹点与物品之间的距离，确定各候选轨迹点所对应的人体对象为目标对象的概率，并将具有最大概率的人体对象作为目标对象。

可以理解的是，在这些可选的实现方式中，可以利用已有的或待未来开发的人脸和/或人体识别技术来区分各待检测图像帧所包含的人体对象，并采用如上的方式得到针对各人体对象的移动轨迹。

进一步地，在这些可选的实现方式的一些应用场景中，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中存在该人体对象的手部关键点，则将该手部关键点作为该人体对象的轨迹上的轨迹点。

例如，在待检测图像帧序列的某一个待检测图像帧中，若人体对象A的关键点a1～a7中，a3为表征人体对象A的手部的手部关键点，那么，可以将a3作为人体对象A的一个轨迹点。

相应地，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中不存在该人体对象的手部关键点，则按照关键点优先级顺序，选取存在于该待检测图像帧中的该人体对象的人体关键点中，优先级最高的关键点作为该人体对象的轨迹上的轨迹点。按照优先级顺序从人体对象的人体关键点中选取优先级最高的关键点的具体实现方式可以按照如上的步骤703所描述的方式执行，在此不再赘述。

此外，可以理解的是，还可以结合基于目标图像帧所确定的人体对象为目标对象的概率以及基于待检测图像帧序列所确定的人体对象为目标对象的概率，并最终确定出对物体执行了目标操作行为的目标对象。例如，可以按照预先确定的加权方式对基于目标图像帧所确定的人体对象为目标对象的概率以及基于待检测图像帧序列所确定的人体对象为目标对象的概率进行加权，并将加权和中，具有最大概率值的人体对象作为最终确定出的目标对象。

在本申请以上描述的各实施例、各种实现方式和各种应用场景中，人体关键点检测结果中，各人体关键点的位置可以是在预设三维坐标系下的位置。这样一来，目标图像帧中，各人体关键点的位置可以用在该预设三维坐标系下的三维坐标来表示。类似地，通过待检测图像帧序列确定出的各人体对象的移动轨迹中的轨迹点也可以用在该预设三维坐标系下的三维坐标来表示。

例如，用于采集图像帧的图像采集装置可以是深度相机。深度相机可以采集其采集范围内的平面图像(例如，彩色图像)以及深度图，并将平面图像中的像素点和深度图中的像素点进行关联，从而不仅获得其采集范围内的任意点的色彩信息还可以获得该点的深度信息。

此外，可以对各个用于采集图像帧的深度相机进行内外参数标定，从而使得各个深度相机采集得到的深度图中，每个像素点的位置均可以对应至同一个预先设置的三维坐标系下的三维坐标位置。

相应地，物品的位置也可以表示为同一个三维坐标系下的位置。

例如，可以以空间中某一个点为原点建立三维笛卡尔坐标系，并且确定各物品在该三维笛卡尔坐标系下的三维坐标。此外，还可以通过对用于采集图像帧的深度相机进行内外参数标定，使其采集到的深度图中的每个像素点均具有该三维笛卡尔坐标系下的三维坐标。

这样一来，当传感器检测到某个物品被移动时，便可以根据该物品在该三维坐标系下的坐标(x1,y1,z1)和目标图像帧中各人体对象的人体关键点的三维坐标值之间的距离，来确定拿起该物品的人体对象。或者，还可以根据该物品在该三维坐标系下的坐标(x1,y1,z1)和各人体对象的移动轨迹中的轨迹点在该三维坐标系下的坐标之间的距离值，来确定拿起该物品的人体对象。

本申请还公开了一种人机交互系统，包括：货架、图像采集装置、传感器和处理器。

其中，货架上设置有物品，并且至少一个货架分隔预设区域形成通道。

图像采集装置，采集至少一个通道内的图像。

传感器，检测设置在货架上的物品是否发生位置变化。

处理器，响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列；对待检测帧序列中的待检测图像帧进行人体关键点检测；基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。

此外，本申请的人机交互系统中，处理器还可以通过执行如上的任意一种实施例所描述的用于确定执行目标操作行为的目标对象的方法来确定出目标对象。

可选地，上述人机交互系统中，图像采集装置可以为深度相机。深度相机可以采集其采集范围内的平面图像(例如，彩色图像)以及深度图，并将平面图像中的像素点和深度图中的像素点进行关联，从而不仅获得其采集范围内的任意点的色彩信息还可以获得该点的深度信息。

进一步参考图8，作为对上述各图所示方法的实现，本申请提供了一种用于确定执行目标操作行为的目标对象的装置的一个实施例800，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的用于确定执行目标操作行为的目标对象的装置包括待检测图像帧序列确定单元801、人体关键点检测单元802以及目标对象确定单元803。

待检测图像帧序列确定单元801可被配置成响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列。

人体关键点检测单元802可被配置成对待检测帧序列中的待检测图像帧进行人体关键点检测。

目标对象确定单元803可被配置成基于人体关键点检测的检测结果，确定出对物品执行目标操作行为的目标对象。

在一些可选的实现方式中，待检测图像帧序列确定单元801可进一步被配置成：响应于检测到物品的位置变化，确定检测到位置变化的检测时刻；将图像采集时刻与检测时刻的时间差小于预设时长的图像帧按照采集时刻先后顺序排列形成待检测图像帧序列。

在一些可选的实现方式中，人体关键点检测单元802可进一步被配置成：对待检测帧序列中，图像采集时刻与检测时刻最接近的目标图像帧进行人体关键点检测。

在一些可选的实现方式中，待检测图像帧序列确定单元801可进一步被配置成：响应于检测到物品的位置变化，基于物品的位置，确定采集待检测图像帧序列的目标图像采集装置；从目标图像采集装置采集的图像帧序列中，确定与检测时刻的时间差小于预设时长的采集时刻所采集的图像帧形成待检测图像帧序列。

在一些可选的实现方式中，目标对象确定单元803可进一步被配置成：基于目标图像帧的人体关键点检测的检测结果中各人体对象与物品之间的距离，确定目标对象。

在这些可选的实现方式中，目标对象确定单元803通过如下的距离确定步骤确定目标图像帧中的人体对象与物品之间的距离：对于目标图像帧中的人体对象，检测目标图像帧中是否存在指示该人体对象的手部的手部关键点；若存在，则将该人体对象的手部关键点与物品之间的距离作为该人体对象与物品之间的距离。

此外，在这些可选的实现方式中，距离确定步骤还包括：对于目标图像帧中的人体对象，若目标图像帧中不存在用于指示该人体对象的手部的关键点，按照关键点优先级顺序，选取存在于目标图像帧中的该人体对象的人体关键点中，优先级最高的关键点；将所选取的人体关键点与物品之间的距离作为该人体对象与物品之间的距离。

在一些可选的实现方式中，目标对象确定单元803可进一步被配置成：基于对各待检测图像帧的人体关键点检测的检测结果，生成待检测图像帧序列中，各人体对象的移动轨迹；确定出各移动轨迹中，与物品之间的距离最接近的轨迹点作为候选轨迹点；根据所确定出的候选轨迹点与物品之间距离，确定目标对象。

在这些可选的实现方式中，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中存在该人体对象的手部关键点，则将该手部关键点作为该人体对象的轨迹上的轨迹点。

在这些可选的实现方式中，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中不存在该人体对象的手部关键点，则按照关键点优先级顺序，选取存在于该待检测图像帧中的该人体对象的人体关键点中，优先级最高的关键点作为该人体对象的轨迹上的轨迹点。

在一些可选的实现方式中，人体关键点检测的检测结果中，各人体关键点的位置为在预设三维坐标系下的位置。

在一些可选的实现方式中，人体关键点检测单元802还可以进一步被配置成：对于待检测帧序列中的待检测图像帧，确定出该待检测图像帧中，各人体对象所处的对象区域；对各对象区域进行人体关键点检测，得到该待检测图像帧的检测结果。

下面参考图9，其示出了适于用来实现本申请实施例的用于确定执行目标操作行为的目标对象的方法的电子设备的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括一个或多个处理器901(例如，CPU)，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分906加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括硬盘等的存储部分906；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分907。通信部分907经由诸如因特网的网络执行通信处理。驱动器908也根据需要连接至I/O接口905。可拆卸介质909，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器908上，以便于从其上读出的计算机程序根据需要被安装入存储部分906。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分907从网络上被下载和安装，和/或从可拆卸介质909被安装。在该计算机程序被处理单元901执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括待检测图像帧序列确定单元、人体关键点检测单元和目标对象确定单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，待检测图像帧序列确定单元还可以被描述为“响应于检测到物品的位置变化，基于检测到位置变化的检测时刻，确定待检测图像帧序列的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取当前采样时刻的使用者图像；对所获取的使用者图像进行人脸识别，以确定当前使用者与上一采样时刻的使用者是否相同；响应于当前使用者与上一采样时刻的使用者相同，将当前采样时刻与上一采样时刻之间的时间差作为当前使用者的使用时长。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于确定执行目标操作行为的目标对象的方法，包括：

响应于检测到物品的位置变化，基于检测到所述位置变化的检测时刻，确定待检测图像帧序列；

对所述待检测帧序列中的待检测图像帧进行人体关键点检测；

基于所述人体关键点检测的检测结果，确定出对所述物品执行目标操作行为的目标对象。

2.根据权利要求1所述的方法，其中，所述所述响应于检测到物品的位置变化，基于检测到所述位置变化的检测时刻，确定待检测图像帧序列，包括：

响应于检测到物品的位置变化，确定检测到所述位置变化的检测时刻；

将图像采集时刻与所述检测时刻的时间差小于预设时长的图像帧按照采集时刻先后顺序排列形成所述待检测图像帧序列。

3.根据权利要求1所述的方法，其中，所述对所述待检测帧序列中的待检测图像帧进行人体关键点检测，包括：

对所述待检测帧序列中，图像采集时刻与所述检测时刻最接近的目标图像帧进行人体关键点检测。

4.根据权利要求1所述的方法，其中，所述响应于检测到物品的位置变化，基于检测到所述位置变化的检测时刻，确定待检测图像帧序列，包括：

响应于检测到物品的位置变化，基于所述物品的位置，确定采集所述待检测图像帧序列的目标图像采集装置；

从所述目标图像采集装置采集的图像帧序列中，确定与所述检测时刻的时间差小于预设时长的采集时刻所采集的图像帧形成所述待检测图像帧序列。

5.根据权利要求3所述的方法，其中，所述基于所述人体关键点检测的检测结果，确定出对所述物品执行目标操作行为的目标对象，包括：

基于所述目标图像帧的人体关键点检测的检测结果中各人体对象与所述物品之间的距离，确定所述目标对象。

6.根据权利要求5所述的方法，其中，所述目标图像帧中的人体对象与所述物品之间的距离通过如下的距离确定步骤确定：

对于所述目标图像帧中的人体对象，检测所述目标图像帧中是否存在指示该人体对象的手部的手部关键点；

若存在，则将该人体对象的手部关键点与所述物品之间的距离作为该人体对象与所述物品之间的距离。

7.根据权利要求6所述的方法，其中，所述距离确定步骤还包括：

对于所述目标图像帧中的人体对象，若所述目标图像帧中不存在用于指示该人体对象的手部的关键点，按照关键点优先级顺序，选取存在于所述目标图像帧中的该人体对象的人体关键点中，优先级最高的关键点；

将所选取的人体关键点与所述物品之间的距离作为该人体对象与所述物品之间的距离。

8.根据权利要求1所述的方法，其中，所述基于所述人体关键点检测的检测结果，确定出对所述物品执行目标操作行为的目标对象，包括：

基于对各所述待检测图像帧的人体关键点检测的检测结果，生成待检测图像帧序列中，各人体对象的移动轨迹；

确定出各移动轨迹中，与所述物品之间的距离最接近的轨迹点作为候选轨迹点；

根据所确定出的候选轨迹点与所述物品之间距离，确定所述目标对象。

9.根据权利要求8所述的方法，其中，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中存在该人体对象的手部关键点，则将该手部关键点作为该人体对象的轨迹上的轨迹点。

10.根据权利要求9所述的方法，其中，对于待检测图像帧中的人体对象，若对该人体对象的人体关键点检测的检测结果指示在该待检测图像帧中不存在该人体对象的手部关键点，则按照关键点优先级顺序，选取存在于该待检测图像帧中的该人体对象的人体关键点中，优先级最高的关键点作为该人体对象的轨迹上的轨迹点。

11.根据权利要求1所述的方法，所述人体关键点检测的检测结果中，各人体关键点的位置为在预设三维坐标系下的位置。

12.根据权利要求1所述的方法，其中，所述对所述待检测帧序列中的待检测图像帧进行人体关键点检测，包括：

对于所述待检测帧序列中的待检测图像帧，确定出该待检测图像帧中，各人体对象所处的对象区域；

对各对象区域进行人体关键点检测，得到该待检测图像帧的检测结果。

13.一种人机交互系统，包括：

货架，其上设置有物品，至少一个货架分隔预设区域形成通道；

图像采集装置，采集至少一个通道内的图像；

传感器，检测设置在所述货架上的物品是否发生位置变化；

处理器，响应于检测到物品的位置变化，基于检测到所述位置变化的检测时刻，确定待检测图像帧序列；对所述待检测帧序列中的待检测图像帧进行人体关键点检测；基于所述人体关键点检测的检测结果，确定出对所述物品执行目标操作行为的目标对象。

14.根据权利要求13所述的人机交互系统，其中，所述图像采集装置为深度相机。

15.一种用于确定执行目标操作行为的目标对象的装置，包括：

待检测图像帧序列确定单元，被配置成响应于检测到物品的位置变化，基于检测到所述位置变化的检测时刻，确定待检测图像帧序列；

人体关键点检测单元，被配置成对所述待检测帧序列中的待检测图像帧进行人体关键点检测；

目标对象确定单元，被配置成基于所述人体关键点检测的检测结果，确定出对所述物品执行目标操作行为的目标对象。

16.一种电子设备，包括：

接口；

一个或多个处理器；

存储器，其上存储有一个或多个程序，

以及一个或多个处理器，在操作上连接到上述接口和上述存储器，用于执行如权利要求1-12任意一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序，其中，当上述计算机程序被一个或多个处理器执行时，使得上述一个或多个处理器执行如权利要求1-12任意一项所述的方法。