CN116097322A

CN116097322A - 基于关键点检测的计算机自动交互活动识别

Info

Publication number: CN116097322A
Application number: CN202180051785.3A
Authority: CN
Inventors: 张丹; 张红兵; 忻超; 刘雪萍; 彭智星; 蔡浞
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-09-29
Filing date: 2021-07-16
Publication date: 2023-05-09
Also published as: DE112021004329T5; GB202305407D0; US11514605B2; JP2023542469A; WO2022068320A1; GB2614840A; GB2614840B; US20220101556A1

Abstract

基于关键点检测的计算机自动交互活动识别包含由一个或多个处理器从视频记录检索图像帧的时间序列。所述一个或多个处理器使用机器学习技术来识别所述时间序列中的所述图像帧中的每个图像帧中的第一和第二关键点。所述第一关键点与所述图像帧的时间序列中的对象相关联，而所述第二关键点与和所述对象交互的个体相关联。所述一个或多个处理器组合所述第一关键点与所述第二关键点且从所述组合提取空间‑时间特征，所述空间‑时间特征用以训练分类模型，基于所述分类模型可识别交互活动。

Description

基于关键点检测的计算机自动交互活动识别

背景技术

本发明总体上涉及人工智能(AI)领域，并且更具体地涉及用于使用机器学习技术基于关键点检测的自动交互活动识别的方法、系统和计算机程序产品。

交互式活动识别系统对于计算机理解图片或视频中的人的行为是重要的。这些系统可用于许多领域。例如，在制造和维护过程中，交互活动识别系统可以是被实施为通过识别操作错误来改进某些机器的使用。然而，人类与对象之间的交互活动是复杂的，并且识别所涉及的动作可能是具有挑战性的任务。

发明内容

通过提供一种用于交互式活动识别的方法，克服了现有技术的缺点并且提供了另外的优点。所述方法包括：由一个或多个处理器从视频记录中检索图像帧的时间序列；由所述一个或多个处理器，识别所述时间序列中所述图像帧中的每个图像帧中的第一关键点和第二关键点，所述第一关键点与所述图像帧的时间序列中的对象相关联，而所述第二关键点与和所述对象交互的个体相关联。所述一个或多个处理器组合所述第一关键点与所述第二关键点，且从所述组合的第一关键点和第二关键点提取空间-时间特征。基于所述提取的空间-时间特征，该一个或多个处理器训练用于识别所述个体与所述对象之间的交互活动的分类模型。

本公开的另实施例提供了一种用于基于上述方法的交互活动识别的计算机程序产品。

本公开的另实施例提供了一种用于基于上述方法的交互活动识别的计算机系统。

附图说明

结合附图，将最好地理解以下通过举例的方式给出的并且不旨在将本发明仅限于此的详细描述，在附图中：

图1是示出了根据本公开的实施例的联网计算机环境的框图；

图2A描绘了根据本公开的实施例的用于基于关键点检测的自动交互活动识别的系统；

图2B描绘了根据本公开的实施例的基于图2A的关键点检测的用于自动交互活动识别的系统的示例实现方式；

图3描绘了根据本公开的实施例的说明用于基于关键点检测的自动交互活动识别的计算机实施的方法的步骤的流程图；

图4是根据本公开的实施例的计算机系统的内部和外部组件的框图；

图5是根据本公开的实施例的说明性云计算环境的框图；以及

图6是根据本公开的实施例的图5的云计算环境的功能层的框图。

附图不一定按比例绘制。附图仅是示意性表示，并不旨在描述本发明的具体参数。附图仅旨在描述本发明的典型实施例。在附图中，相同的标号表示相同的元件。

具体实施方式

在此公开了所要求保护的结构和方法的详细实施例；然而，应当理解的是，所公开的实施例仅仅是对所要求保护的结构和方法的展示，这些结构和方法可以按不同形式实施。然而，本发明可以体现在许多不同的形式并且不应被解释为局限于所阐述的示例性实施例。在描述中，可以省略众所周知的特征和技术的细节，以避免不必要地使所呈现的实施例模糊。

人类进行的复杂交互活动的识别在许多应用中起重要作用，如用于人类-机器人交互、安全、运动、生物力学等的监测系统。交互活动识别系统必须能够自动分析日常活动并检测可能不希望的人类与机器的交互，以便提供适当的响应。这样的不期望的交互可包括例如当人类正在操作机器时可能是危险的交互。

那些应用中的许多应用可以受益于感兴趣的特征的空间定位。这些感兴趣的特征经常被称为“关键点”。关键点检测通常涉及同时检测图像中的空间位置或点，该空间位置或点定义在给定时间图像中(即，空间-时间特征)的感兴趣的特征或显著特征。关键点检测的所要性质可包含准确定位、抗移位不变性、旋转、尺度、亮度改变、针对噪声的稳健性、高可重复性等。

然而，人类每天取决于其意图(例如，待执行的工作等)以不同的方式与不同类型的对象交互，从而使得对所执行的交互活动的检测和识别成为非常具有挑战性的任务。

因此，本发明的实施例提供了一种用于基于关键点检测来自动识别交互活动的方法、系统和计算机程序产品。以下描述的示范性实施例提供了一种系统、方法和计算机程序产品，所述系统、方法和计算机程序产品尤其用于：从视频记录中捕捉图像帧序列；使用机器学习技术来检测与所述图像帧中的每个图像帧中的交互活动相关联的关键点；组合所检测到的关键点(例如，对象关键点和人类关键点)；使用组合的关键点作为用于确定空间-时间的图形卷积网络的输入；以及使用所确定的空间-时间特征来训练分类模型，基于所述分类模型可识别并分类交互活动。

因此，通过提供一种自动识别并且使用深度学习算法对来自可用视频记录的交互活动进行分类的系统和计算机实现的方法，本实施例能够改善人工智能的技术领域。本实施例可以准确地识别人类和特定对象之间的交互以确定可以被改进的动作。例如，生产设施中的设备被错误地操作可能导致操作或安全危害。另一示例可以包括关于运动的物理运动分析以优化运动员的技能或技术。在这两种情况，所提出的用于自动交互活动识别的方法，在用户的授权之前，可以收集和分析数据以检测不那么优化的人体力学，并且基于其可以生成采取纠正措施的通知。

现在参见图1，描绘了根据本公开的实施例的示例性联网计算机环境100。图1仅提供了实施例的图示并不暗示关于其中可以实施不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行许多修改，而不脱离如权利要求所述的本发明的范围。

联网计算机环境100可以包括客户端计算机102和通信网络110。客户端计算机102可以包括数据存储设备106a和处理器104，其能够运行交互活动识别程序108。客户端计算机102可以是例如移动设备、电话(包括智能电话)、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机、或能够访问网络的任何类型的计算设备。

联网计算机环境100还可以包括服务器计算机114，所述服务器计算机具有数据存储设备120和处理器118，其能够运行软件程序112。在一些实施例中，服务器计算机114可以是资源管理服务器、web服务器或能够接收和发送数据的任何其他电子设备。在另一实施例中，服务器计算机114可表示诸如在云计算环境中利用多个计算机作为服务器系统的服务器计算系统。

在客户端计算机102上运行的交互式活动识别程序108可以经由通信网络110与在服务器计算机114上运行的软件程序112进行通信。如将参考图4讨论的，客户端计算机102和服务器计算机114可以包括内部组件和外部组件。

联网计算机环境100可以包括多个客户端计算机102和服务器计算机114，仅示出其中之一。通信网络110可以包括不同类型的通信网络，诸如局域网(LAN)、广域网(WAN)(诸如互联网)、公共交换电话网(PSTN)、蜂窝或移动数据网络(例如，由第三或第四代移动电话移动提供的无线互联网)、专用交换机(PBX)、其任何组合、或将支持客户端计算机102与服务器计算机114之间的通信的连接和协议的任何组合。通信网络110可以包括有线、无线或光纤连接。如本领域技术人员已知的，联网计算机环境100可以包括另外的计算设备、服务器或未示出的其他装置。

可以为在此描述为单个实例的部件、操作或结构提供多个实例。不同组件、操作和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中示出了特定操作。功能的其他分配是预想的并且可以落入本发明。通常，在示例性配置中呈现为单独组件的结构和功能可以实现为组合的结构或组件。类似地，作为单个组件呈现的结构和功能可以实现为单独的组件。这些和其他变化、修改、添加和改进可以落入本发明的范围内。

现在参见图2A，示出根据本公开的实施例的用于基于关键点检测的自动交互活动识别的系统200。图2B是将与图2A同时说明的系统200的示例性实施例。

根据实施例，用于自动交互式活动识别的系统200包括图像捕获模块212、关键点检测模块214、特征提取模块218和交互活动分类模块220。图像捕获模块212从光学仪器捕获视频或图像。在实施例中，光学仪器可以是例如摄像机。具体地，图像捕获模块212能够从由光学仪器(未示出)捕获的视频记录中检索图像帧序列240(图2B)。从所记录的视频中检索图像帧序列240的过程可以使用任何已知的图像处理工具来执行。例如，图像帧240的序列可使用诸如

(开放源计算机视觉库)的软件库来检索，该软件库将图像转换成多维阵列。

应注意的是，在用户同意的情况下经由选择加入或选择退出特征来完成任何数据收集(例如，图片、视频等)。如本领域技术人员已知的，选择加入和选择退出特征一般涉及用户可修改参与状态(即，接受或拒绝数据收集)的方法。在一些实施例中，选择加入和选择退出特征可以包括在客户端计算机102中可用的软件应用。此外，用户可以选择停止收集或使用他/她的信息。在一些实施例中，可以在每次收集数据时通知用户。所收集的数据被设想为是安全的并且未经用户同意不与任何人共享。用户可以在任何时间停止数据收集。

在从视频提取图像帧序列240之后，关键点检测模块214识别与图像帧序列240中存在的人和对象相关联的特征或兴趣点(即，关键点)。具体来说，关键点检测模块从所检索的图像帧序列240识别与每一图像帧中的对象250相关联的关键点。随后，关键点检测模块214从所检索的图像帧序列240中识别与每一图像帧中的人(或个体)260相关联的关键点。

根据实施例，可以使用用于确定感兴趣的对象点的预先训练的卷积神经网络(CNN)来确定对象关键点252。如本领域的技术人员已知的，CNN是用于图像识别和分类的一类深度学习神经网络，能够分析输入(即，图像)并且输出该类或该输入是特定类的概率。在实施例中，基于CNN的实时对象检测模型(例如，

(You Only Look One)和/或Faster

)可以用于检测图像帧序列240中的特定对象(例如，对象250)的边界框并且识别对象关键点252。预先标记的数据可用于训练用于识别对象关键点的基于CNN的检测模型。

类似地，人类关键点262可使用现有技术来确定。例如，可使用用于图像和视频中的多人姿势检测的实时方法(例如OpenPosee)来确定人关键点262。如本领域技术人员已知的，这些实时多人检测方法能够联合检测单个图像上的人体、手、面部和脚上的关键点。

在一些情况下，在图像帧序列240中可能存在被遮挡的关键点(例如，相机难以看到或未捕捉的关键点)并且不被传统关键点确定系统注意到。为了避免这个问题，系统200使用图像帧序列240中的每个图像帧的前面和后面来确定现有的被遮挡(人或对象)的关键点。具体地，关键点检测模块在关键点检测过程中使用跟踪算法来确定图像帧序列240中的第n帧和第(n+1)帧之间的关系。当人类或对象关键点在(n+1)帧中被遮挡时，被遮挡的关键点的位置可基于关键点可见或未阻挡的第n帧中的同一关键点的位置来确定。

对象关键点252和人类关键点262被组合并用作特征提取模块218的输入。特征提取模块218由提取空间-时间特征的图形卷积神经网络(GCN)组成，该空间-时间特征可以用于训练交互式活动分类模块220的分类模型。所述空间-时间特征分别与跨对应于所确定的对象和个人类关键点252、262的空间和时间两者所收集的数据相关联。

如本领域技术人员已知的，GCN提供了一种图像分类方法，包括用于对图进行机器学习的非常强大的神经网络架构。具体地，GCN对图执行卷积，而不是对由像素组成的图像执行卷积。例如，CNN模型从图像帧序列240提取最重要的信息以对序列进行分类，GCN模型在图上通过滤波器，寻找可帮助对图内的节点进行分类的基本顶点和边(即，关键点)。具体地，GCN模型可更有效地处理非欧几里德结构数据(例如，图像)，并且能够在拓扑连接数据结构上提供更多应用空间。来自GCN模型的结果包含将用作交互活动分类模块220的分类模型的输入的最终对象和人类关键点。

所提取的空间-时间特征被输入到交互活动分类模块220的分类模型。根据实施例，交互活动分类模块220基于所提取的空间-时间特征来输出或产生针对人类与对象之间的交互的最佳分类。交互活动分类模块220的分类模型使用从输入数据(即，与从图像帧序列240提取的关键点相关联的空间-时间特征)学习的受监督学习算法，并且然后使用此学习来对人和对象之间的新交互活动进行分类。

在一些实施例中，基于训练数据集，交互活动分类模块220的分类模型可以识别人类与对象之间的不想要的交互活动，并且生成通知该不寻常的交互动作的警报。

现在参见图3，示出根据本公开的实施例的用于基于关键点检测的自动交互活动识别的计算机实施的方法的步骤的流程图。

该过程在步骤302通过接收多个图像帧而开始。如上所述，多个图像帧对应于从视频记录中提取的图像帧的序列。在步骤304处，使用基于CNN的模型来检测与对象相关联的兴趣点(例如，图2B的对象250和对象关键点252)相对应的第一关键点。根据实施例，基于CNN的模型先前已经被训练用于识别第一(对象)关键点。

类似地，在步骤306处，在所接收的多个图像帧中检测对应于与同对象进行交互的人或个体相关联的兴趣点的第二关键点。使用用于图像和视频中的多人姿势检测的当前实时方法来检测第二个或人类关键点。

在存在遮挡或隐藏关键点的实施例中，所提出的方法使用每个图像帧的前面和后面来确定现有的遮挡(人和/或物体)关键点，如以上参考图2A所解释的。

在步骤308处，组合第一(对象)关键点和第二(人)关键点并且在步骤310处用作图2A的特征提取模块218的GCN模型的输入。具体地，在步骤308，设置预定的时间窗口N，并且在步骤310，选择并组合对应于该时间窗口N的第一和第二关键点以用作GCN模型的输入。然后，对于对应的时间窗口N，GCN模型的输出可以用于训练分类模型(例如，图2A的交互活动分类模块220的分类模型)。基于训练的分类模型，在步骤312可以执行人类与物体之间的交互活动的识别。换句话说，GCN模型的输出(即，组合关键点的相关空间-时间特征)用于馈送(交互)分类模型，如上文参看图2A所述。

在一些实施例中，基于将交互活动识别为不想要的或少于最佳地，所提出的方法可以生成警报，该警报通知所检测的人类与对象之间的不寻常交互。这在制造过程或安全系统中可能是特别有用的。

因此，本发明的实施例提供了一种用于基于从图像帧的时间序列检测到的关键点识别并分类人类与物体之间的交互活动的方法、系统和计算机程序产品。在所提出的实施例中使用机器学习算法来准确地识别和分类人类和对象关键点，这些关键点随后可用于训练用于交互式活动识别的分类模型。所提出的实施例对于其中需要人类与物体之间的活动的识别(包括制造过程、安全系统、维护系统等等)的许多实际应用是有用。

现在参见图4，根据本公开的实施例示出了图1的联网计算机环境100的客户端计算机102和服务器计算机114的部件的框图。应当理解，图4仅提供一个实现方式的图示并且不暗示与以下可以实现不同的实施例的环境有关的任何限制。可以对所描绘的环境做出许多修改。

客户端计算机102和服务器计算机114可以包括一个或多个处理器402、一个或多个计算机可读RAM 404、一个或多个计算机可读ROM 406、一个或多个计算机可读存储介质408、设备驱动器412、读/写驱动器或接口414、网络适配器或接口416，全部通过通信结构418互连。通信结构418可以用被实现为用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。

一个或多个操作系统410和一个或多个应用程序411存储在一个或多个计算机可读存储介质408，用于由一个或多个处理器402经由一个或多个相应的RAM 404(其通常包括高速缓冲存储器)执行。在所示实施例中，计算机可读存储介质408中的每一个可以是内部硬盘驱动器、CD-ROM、DVD、记忆棒、磁带、磁盘、光盘的磁盘存储设备、诸如RAM、ROM、EPROM、闪存之类的半导体存储设备或可以存储计算机程序和数字信息的任何其他计算机可读有形存储设备。

客户端计算机102和服务器计算机114还可以包括用于从一个或多个便携式计算机可读存储介质426读取和写入该一个或多个便携式计算机可读存储介质的R/W驱动器或接口414。客户端计算机102上的应用程序411和服务器计算机114可以存储在以下各项中的一项或多项上：便携式计算机可读存储介质426，经由相应的R/W驱动器或接口414读取并被加载到相应的计算机可读存储介质408中。

客户端计算机102和服务器计算机114还可以包括用于连接到网络428的网络适配器或接口416，如TCP/IP适配器卡或无线通信适配器(如使用OFDMA技术的4G无线通信适配器)。客户端计算机102上的应用程序411和服务器计算机114可以经由网络(例如，互联网、局域网或其他广域网或无线网络)和网络适配器或接口416从外部计算机或外部存储装置下载到计算装置。程序可以从网络适配器或接口416加载到计算机可读存储介质408上。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

客户端计算机102和服务器计算机114还可以包括显示屏420、键盘或小键盘422、以及计算机鼠标或触摸板424。设备驱动程序412与用于成像的显示屏420、键盘或小键盘422、计算机鼠标或触摸板424、和/或用于字母数字字符输入和用户选择的压力感测的显示屏420接口连接。设备驱动器412、R/W驱动器或接口414以及网络适配器或接口416可以包括硬件和软件(存储在计算机可读存储介质408和/或ROM 406上)。

应当理解的是，尽管本公开包括关于云计算的详细描述，但本文所叙述的教导的实现不限于云计算。相反，本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务交付模型，用于使得能够方便地、按需地访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以最少的管理工作或与服务提供者的交互来快速提供和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面供应计算能力，诸如服务器时间和网络存储，根据需要自动进行，而不需要与服务提供商进行人为交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上计算机、和PDA)的使用。

资源池：供应商的计算资源被合并以使用多租户模型服务于多个消费者，其中根据需求动态地分配和重新分配不同的物理和虚拟资源。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

可测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽、和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供商的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。该消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是在云基础设施上部署消费者创建的或获取的使用编程语言创建的应用以及由提供商支持的工具。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者所处的其他基本计算资源，其中消费者能够部署并运行任意软件，该软件可以包括操作系统和应用程序。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础设施由若干组织共享并且支持共享了关注点(例如，任务、安全要求、策略、和合规性考虑)。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用并且由出售云服务的组织拥有。

混合云：云基础设施是由两个或多个云(私有、社区或公共)组成的，这些云仍然是唯一的实体，但通过标准化或专有技术绑定在一起，从而实现数据和应用程序的可移植性(例如，用于云之间负载平衡的云破裂)。

云计算环境是面向服务的，专注于状态低耦合、模块性以及语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图5，描绘了说明性云计算环境50。如图所示，云计算环境50包括一个或多个云计算节点10，云计算消费者使用该云计算节点10的本地计算设备，诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N可以进行通信。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务，对于该服务，云消费者不需要在本地计算设备上维护资源。应当理解，图5中所示的计算装置54A-N的类型仅旨在是说明性的，并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化装置通信。

现在参见图6，示出了由云计算环境50(图5)提供的一组功能抽象层。应提前理解，图6中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。如所描述，提供以下层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：大型机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证、以及数据和其他资源的保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供了云计算资源的预先安排和采购，根据SLA，云计算资源预计会有未来需求。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟课堂教育交付93；数据分析处理94；交易处理95；以及用于基于关键点检测的自动交互活动识别的系统96。

在此描述的程序是基于它们在本发明的具体实施例中针对其实现的应用来标识的。然而，应当理解，本文中的任何特定程序术语仅为了方便而使用，并且因此本发明不应局限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

附图中的流程图和框图展示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此而言，流程图或框图中的每一块可表示包括一个或一个以上用于实现规定的逻辑功能的可执行指令的模块、片段或代码部分。还应注意，在一些备选实现中，在框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。还将注意到，框图和/或流程图中的每个块以及框图和/或者流程图中块的组合可以由执行指定功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现。

本发明可以是在任何可能的技术细节集成度处的系统、方法、和/或计算机程序产品。该计算机程序产品可以包括计算机可读存储介质(或多个介质)，在其上具有用于使处理器执行本发明的各方面的计算机可读程序指令。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电子存储设备、磁存储设备、以及光学存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑光盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的凹槽中的凸起结构的机械编码设备、以及前述各项的任何合适的组合。如本文所使用的，计算机可读存储介质不应被解释为是瞬态信号本身，诸如无线电波或其他自由传播的电磁波，电磁波传播通过波导或其他传输介质(例如，通过光纤电缆的光脉冲)，或通过电线传输的电信号。

在此所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载至对应的计算/处理装置或者下载至外部计算机或外部存储装置。网络可以包括铜传输电缆、光纤根传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码，包括面向对象的编程语言(诸如Smalltalk)、C++等，和过程编程语言，诸如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接至用户的计算机，包括局域网(LAN)或广域网(WAN)，或可与外部计算机(例如，使用互联网服务提供商通过互联网)进行连接。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来个性化电子电路来执行计算机可读程序指令，以便执行本发明的方面。

在此参照根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的多个方面。应当理解，流程图的每个块图示和/或框图以及流程图图示和/或框图中的框的组合可以由计算机可读程序指令实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，通过计算机处理器或者其他可编程数据处理装置的执行以创建用于实现流程图中和/或框图的框或多个框中指定这些功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，其使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括制造品，该制造品包括实现流程图和/或框图的或多个框中规定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置、或其他设备上，以便使得在该计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程，从而使得在该计算机、其他可编程装置或其他设备上执行的指令实现在流程图和/或框图的框或多个框中指定的功能/动作。

附图中的流程图和框图展示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图中的每个方框或框图可表示指令的模块、区段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些可替换的实施例中，方框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个块实际上可以基本上同时执行，或者这些块有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

虽然所公开的方法的步骤以及所公开的系统的部件和环境已使用数字和字母顺序地或顺序地识别，此类编号或字母不是此类步骤必须以所列举的次序执行的指示，且仅为提供以便于清楚地参考方法的步骤。此外，可以并行地执行该方法的步骤以执行它们所描述的功能。

已经出于说明的目的呈现了本发明的各个实施例的描述，但并不旨在穷尽或限制于这些实施例。许多修改和变化对于本领域普通技术人员是显而易见的。在不脱离所描述的实施例的范围的情况下。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种用于交互式活动识别的计算机实现的方法，包括：

由一个或多个处理器从视频记录中检索图像帧的时间序列；

由所述一个或多个处理器识别所述时间序列中的所述图像帧中的每个图像帧中的第一关键点，所述第一关键点与所述图像帧的时间序列中的对象相关联；

由所述一个或多个处理器识别所述时间序列中的所述图像帧中的每个图像帧中的第二关键点，所述第二关键点与和所述对象交互的个体相关联；

由所述一个或多个处理器组合所述第一关键点与所述第二关键点；

由所述一个或多个处理器从所述组合的第一关键点和第二关键点提取空间-时间特征；以及

基于所述提取的空间-时间特征，由所述一个或多个处理器训练用于识别所述个体与所述对象之间的交互活动的分类模型。

2.根据权利要求1所述的方法，其中识别所述第一关键点进一步包括：

由所述一个或多个处理器使用训练的用于识别所述第一关键点的基于卷积神经网络(CNN)的检测模型。

3.根据权利要求2所述的方法，进一步包括：

由所述一个或多个处理器使用预标记的数据来训练用于识别所述第一关键点的所述基于CNN的检测模型。

4.根据权利要求1所述的方法，其中识别所述第二关键点进一步包括：

由所述一个或多个处理器使用用于图像和视频中的多人姿势检测的实时方法。

5.根据权利要求1所述的方法，其中从所述组合的第一关键点和第二关键点提取所述空间-时间特征进一步包括：

由所述一个或多个处理器使用所述组合的第一关键点和第二关键点作为图形卷积神经网络(GCN)模型的输入来提取所述空间-时间特征，其中所述GCN模型的结果包括最终第一关键点和最终第二关键点。

6.根据权利要求1所述的方法，进一步包括：

由所述一个或多个处理器将所述空间-时间特征馈送给所述分类模型。

7.根据权利要求1所述的方法，进一步包括：

由所述一个或多个处理器识别对应于遮挡关键点的第三关键点。

8.根据权利要求7所述的方法，其中识别所述第三关键点进一步包括：

由所述一个或多个处理器使用跟踪算法来确定来自所述图像帧的时间序列的第n帧与第n+1帧之间的关系，其中，在第n+1帧中所述第三关键点的位置是基于所述第n帧中的其中所述第三关键点可见的所述第三关键点的位置来确定的。

9.一种用于交互活动识别的计算机系统，包括：

一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读有形存储设备，以及存储在所述一个或多个存储设备中的至少一个上的用于由所述一个或多个处理器中的至少一个经由所述一个或多个存储器中的至少一个执行的程序指令，其中所述计算机系统能够执行一种方法，所述方法包括：

由一个或多个处理器从视频记录检索图像帧的时间序列；

10.根据权利要求9所述的计算机系统，其中识别所述第一关键点进一步包括：

11.根据权利要求10所述的计算机系统，进一步包括：

12.根据权利要求9所述的计算机系统，其中识别所述第二关键点进一步包括：

13.根据权利要求9所述的计算机系统，其中从所述组合的第一关键点和第二关键点提取所述空间-时间特征进一步包括：

由所述一个或多个处理器使用所述组合的第一关键点和第二关键点作为图形卷积神经网络GCN模型的输入来提取所述空间-时间特征，其中所述GCN模型的结果包括最终第一关键点和最终第二关键点。

14.根据权利要求9所述的计算机系统，进一步包括：

15.根据权利要求9所述的计算机系统，进一步包括：

16.根据权利要求15所述的计算机系统，其中识别所述第三关键点进一步包括：

17.一种用于交互活动识别的计算机程序产品，包括：

一个或多个计算机可读存储介质，以及共同存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括：

用于由一个或多个处理器从视频记录中检索图像帧的时间序列的程序指令；

用于由所述一个或多个处理器识别所述时间序列中的所述图像帧中的每个图像帧中的第一关键点的程序指令，所述第一关键点与所述图像帧的时间序列中的对象相关联；

用于由所述一个或多个处理器识别所述时间序列中的所述图像帧中的每个图像帧中的第二关键点的程序指令，所述第二关键点与和所述对象交互的个体相关联；

用于由所述一个或多个处理器组合所述第一关键点与所述第二关键点的程序指令；

用于由所述一个或多个处理器从所述组合的第一关键点和第二关键点提取空间-时间特征的程序指令；以及

基于所述提取的空间-时间特征，用于由所述一个或多个处理器训练用于识别所述个体与所述对象之间的交互活动的分类模型的程序指令。

18.根据权利要求17所述的计算机程序产品，其中识别所述第一关键点和识别所述第二关键点进一步包括：

由所述一个或多个处理器使用经训练的用于识别所述第一关键点的基于卷积神经网络(CNN)的检测模型；以及

由所述一个或多个处理器使用用于图像和视频中的多人姿势检测的实时方法来识别所述第二关键点。

19.根据权利要求17所述的计算机程序产品，其中从所述组合的第一关键点和第二关键点提取所述空间-时间特征进一步包括：

由所述一个或多个处理器使用所述组合的第一关键点和第二关键点作为图形卷积神经网络(GCN)模型的输入来提取所述空间-时间特征，其中所述GCN模型的结果包括最终第一关键点和非最终第二关键点。

20.根据权利要求17所述的计算机程序产品，进一步包括：

由所述一个或多个处理器识别对应于被遮挡关键点的第三关键点，其中识别所述第三关键点包括使用跟踪算法来确定来自所述图像帧的时间序列的第n帧与第n+1帧之间的关系，其中，在第n+1帧中所述第三关键点的位置是基于所述第n帧中的其中所述第三关键点可见的所述第三关键点的位置来确定的。