CN113128368A

CN113128368A - 一种人物交互关系的检测方法、装置及系统

Info

Publication number: CN113128368A
Application number: CN202110355107.8A
Authority: CN
Inventors: 谢雪梅; 李锦航; 李启越; 吴树奇
Original assignee: Guangzhou Institute of Technology of Xidian University
Current assignee: Guangzhou Institute of Technology of Xidian University
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-16
Anticipated expiration: 2041-04-01
Also published as: CN113128368B

Abstract

本发明公开了一种人物交互关系的检测方法、装置及系统，该方法包括：获取待检测的视频段；其中，视频段包含有预设的人物交互动作；将视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的可能与人体发生交互的第一物体检测点；对所述视频段进行分帧处理，提取每一帧图像的预设的第一人体骨架点；将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果。本发明能解决现有技术中因对场景中所有物体进行检测和只关注人体整体特征并分析人与物体的交互关系而导致的耗时、计算复杂、缺少细粒度的问题。

Description

一种人物交互关系的检测方法、装置及系统

技术领域

本发明涉及人体行为识别分析技术领域，尤其涉及一种人物交互关系的检测方法、装置及系统。

背景技术

要实现对场景的认知，不仅要检测到对象实例，而且要学会识别对象实例之间的视觉关系。视觉关系包含物与物的关系、人与物的关系、人与人的关系，其中人物交互关系是一种特殊的视觉关系，在识别人物交互关系中，不仅要求检测图像中的人和物体，还要识别交互的类别。

大多数现有的人物交互检测方法都是把人作为一个实例来进行检测，但只利用外观特征和粗糙的空间信息来预测所有可能的人与物体之间的交互，不足以识别复杂的人物交互关系。一方面会对场景中的所有物体进行检测，把不可能与人发生交互关系的物体也一并检测，导致耗费时间、计算复杂，另一方面只关注人体的整体外观特征，忽略与人体动作有关的骨架细节特征，致使检测的细粒度不足。

发明内容

本发明实施例的目的是提出一种人物交互关系的检测方法、装置及系统，以解决现有人物交互检测方法因对场景中所有物体进行检测和只关注人体整体外观特征而导致的耗时、计算复杂、缺少细粒度的问题。

为实现上述目的，本发明一实施例提供了一种人物交互关系的检测方法，包括：

获取待检测的视频段；其中，所述视频段包含有预设的人物交互动作；

将所述视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的可能与人体发生交互的第一物体检测点；

对所述视频段进行分帧处理，提取每一帧图像的预设的第一人体骨架点；

将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果。

优选地，所述目标检测网络是通过将目标图像训练集输入到预设的目标检测网络进行训练得到的。

优选地，所述时空图卷积网络模型是通过以下方式进行训练的：

获取包含有所述预设的人物交互动作的视频训练集；

将所述视频训练集输入到所述目标检测网络，得到第二物体检测点；

采用BlazePose人体姿态追踪算法提取所述视频训练集中每一帧图像的第二人体骨架点；

将所述第二物体检测点与所述第二人体骨架点按照所述预设的连接方式进行连接，构建第二时空图并输入到预设的时空图卷积网络模型中进行训练。

优选地，所述对所述视频段进行分帧处理，提取每一帧图像的人体骨架点，具体包括：

对所述视频段进行分帧处理，采用BlazePose人体姿态追踪算法提取每一帧图像中人体上半身的人体骨架点。

优选地，所述将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果，具体包括：

将每一帧图像对应的所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建对应每一帧图像的空间图；

将相邻帧对应的所述空间图的相同点进行连接，得到所述第一时空图；

将所述第一时空图输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果并显示在所述视频段中。

优选地，在所述获取待检测的视频段之前，还包括：

获取待检测的原始视频，对所述原始视频进行剪切，得到若干个所述视频段；其中，每个所述视频段对应一个所述人物交互动作。

本发明另一实施例提供一种人物交互关系的检测装置，包括：

视频获取模块，用于获取待检测的视频段；其中，所述视频段包含有预设的人物交互动作；

目标检测模块，用于将所述视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的可能与人体发生交互的第一物体检测点；

骨架点获取模块，用于对所述视频段进行分帧处理，提取每一帧图像的预设的第一人体骨架点；

检测模块，用于将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果。

本发明另一实施例提供一种人物交互关系的检测系统，包括采集设备、处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一项所述的人物交互关系的检测方法，所述采集设备用于采集待检测的视频段。

本发明另一实施例提供一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一项所述的人物交互关系的检测方法。

与现有技术相比，本发明实施例所提供的一种人物交互关系的检测方法、装置及系统，在对待检测视频进行交互人物交互关系进行检测时，把可能与人发生交互的物体视为一个个点，称为物体点，物体点与人的上半身骨架点进行连接，同时放入时空图卷积网络模型中进行时空序列编码，增强帧间和帧内信息的联系，提高人物交互检测中人与物之间的关系。本发明可以快速识别待检测视频段的人物交互关系，从而解决现有技术中因对场景中所有物体进行检测和只关注人体整体外观特征并分析人与物体的交互关系而导致的耗时、计算复杂、缺少细粒度的问题。

附图说明

图1是本发明一实施例提供的一种人物交互关系的检测方法的流程示意图；

图2是本发明一实施例提供的每一帧图像中第一人体骨架点的连接方式的示意图；

图3为本发明一实施例提供的每一帧图像中第一人体骨架点与第一物体检测点的连接方式的示意图；

图4为本发明一实施例提供的根据第一物体检测点与第一人体骨架点构建的第一时空图的示意图；

图5是本发明另一实施例提供的一种人物交互关系的检测方法的流程示意图；

图6是本发明一实施例提供的一种人物交互关系的检测装置的结构示意图；

图7是本发明一实施例提供的一种人物交互关系的检测系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明该实施例提供的一种人物交互关系的检测方法的流程示意图，所述方法包括步骤S1至步骤S4：

S1、获取待检测的视频段；其中，所述视频段包含有预设的人物交互动作；

S2、将所述视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的可能与人体发生交互的第一物体检测点；

S3、对所述视频段进行分帧处理，提取每一帧图像的预设的第一人体骨架点；

S4、将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果。

具体地，获取待检测的视频段；其中，视频段包含有预设的人物交互动作。也就是说，待检测的视频段一般包含有预设的人物交互动作，通过本发明的检测方法，可以检测出视频段中人物交互动作是什么。

将视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的可能与人体发生交互的第一物体检测点。每个视频段都是由若干帧图像组成的，该步骤就是进行预设目标检测，将可能与人发生交互关系的物体先标记出来。

对视频段进行分帧处理，提取每一帧图像的预设的第一人体骨架点。同样地，在每一帧图像中也存在人的图像，为了识别人的行为动作，将人虚化为若干个人体骨架点，选择与人体动作相关的几个关键点即可，避免引入大量不必要的节点加入运算，提高运算的复杂度。

将第一物体检测点与第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果。参见图2，是本发明该实施例提供的每一帧图像中第一人体骨架点的连接方式的示意图。参见图3，是本发明该实施例提供的每一帧图像中第一人体骨架点与第一物体检测点的连接方式的示意图。在图3中，H代表人，1、2、3、4代表第一物体检测点。参见图4，是本发明该实施例提供的根据第一物体检测点与第一人体骨架点构建的第一时空图的示意图。

为了加深对本发明该实施例的理解，本发明该实施例还提供一种人物交互关系的检测方法的另一流程示意图，具体参见图5。由图5可知，对视频段的处理分两步：目标检测和姿态估计，从而对应得到目标数据序列和骨架数据序列。目标检测指的是标记出视频中的预设物体，一般为物体的中心点，姿态估计指的是标记出视频中的预设人体骨架点。得到两组数据序列后，将两组数据序列合并在一起，进行时空建模，输入到训练好的时空图卷积网络模型中得到检测结果。

所以，本发明分为两个阶段，一、初始状态：目标检测阶段，专注人周围的物体；二、交互状态：在发生交互过程中，已经明确发生交互的物体，则不需要对所有物体进行目标检测，只需要通过交互轨迹来判断交互行为。

本发明该实施例通过提供一种人物交互关系的检测方法，通过预先训练目标检测网络只检测与人交互的特定物体，并将检测到的物体检测点与人体骨架点融合起来构建时空图，输入到时空图卷积网络模型中，可以快速识别待检测视频段的人物交互关系，从而解决现有技术中因对场景中所有物体进行检测和只关注人体整体外观特征并分析人与物体的交互关系而导致的耗时、计算复杂、缺少细粒度的问题。

作为上述方案的改进，所述目标检测网络是通过将目标图像训练集输入到预设的目标检测网络进行训练得到的。

具体地，目标检测网络是通过将目标图像训练集输入到预设的目标检测网络进行训练得到的。目标图像训练集可以通过以下方式得到：利用摄像设备采集相关的人物交互行为视频，通过对人物交互行为视频进行抽帧得到对应的目标图像训练集，即从人物交互行为视频中抽取包含有目标物体的图片，然后将这些图片输入到预设的目标检测网络进行训练，目标检测网络可以选择网络YOLOv5，batch_size设为16，迭代训练300个epochs，得到目标检测网络。目标图像训练集包含的物体例如手机、杯子、苹果、笔等。

作为上述方案的改进，所述时空图卷积网络模型是通过以下方式进行训练的：

获取包含有所述预设的人物交互动作的视频训练集；

具体地，获取包含有预设的人物交互动作的视频训练集。例如，利用摄像设备采集相关的人物交互行为原始视频，例如喝水、吃苹果、写字、看手机等视频。为了更好地训练网络识别交互动作，可以先对原始视频进行初步处理，例如对原始视频进行剪切，得到若干个视频子集；其中，每个视频子集对应一个人物交互动作。也就是说，视频训练集包含多个视频子集，每个子集对应一个动作，在训练前，一般要先进行标记，标记出动作类型。

在进行时空图卷积网络模型的训练之前，先要对视频训练集进行分帧，提取图像帧中的物体检测点和人体骨架点。所以将视频训练集输入到目标检测网络，得到第二物体检测点；采用BlazePose人体姿态追踪算法提取视频训练集中每一帧图像的第二人体骨架点。

将第二物体检测点与第二人体骨架点按照预设的连接方式进行连接，构建第二时空图并输入到预设的时空图卷积网络模型中进行训练。同样地，在每一帧图像中，第二物体检测点与第二人体骨架点按照图2和图3的连接方式进行连接，构建第二空间图，两个点之间的连接组成一条边，相邻两帧中的时序边为将相邻帧之间的相同关键点连接起来；所有输入帧中的关键点构成节点集，连接的两点组成的边构成边集，所有图像帧的空间图按时间顺序连接起来构成了时空图。将第二时空图输入ST-GCN网络，批处理尺寸设置为32，迭代训练直至收敛，得到训练好的时空图卷积网络模型。当时空图卷积网络模型训练好后，就具备了识别特定人物交互动作的能力，从而能对含有特定人物交互动作的视频段进行检测。

作为上述方案的改进，所述对所述视频段进行分帧处理，提取每一帧图像的人体骨架点，具体包括：

具体地，对视频段进行分帧处理，采用BlazePose人体姿态追踪算法提取每一帧图像中人体上半身的人体骨架点。为了避免检测不必要的监测点，优选地，人体骨架点只关注人体上半身的部分，选定如图2所示的14个人体骨架点，包括耳朵、肩膀、手肘、手腕、嘴巴和脖子，一般地，这些节点的移动是人体产生不同动作引起的，与人体动作比较相关，因此只关注这些节点的变化和移动，能快速有效地捕捉到人体动作的变化，从而快速判断出交互动作的检测结果。

作为上述方案的改进，所述将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果，具体包括：

具体地，将每一帧图像对应的第一物体检测点与第一人体骨架点按照预设的连接方式进行连接，构建对应每一帧图像的空间图。即第一人体骨架点按照人体结构的形式进行连接，具体如图2所示，第一物体检测点与第一人体骨架点的连接具体指的是手腕点与物体的连接，因为在预设的人物交互动作中，相关动作主要由人体的手指来完成。如果是关注的人物交互动作发生了调整，那么物体与人体骨架点的连接也会发生调整，例如调整为物体与手肘的连接。

将相邻帧对应的空间图的相同点进行连接，得到第一时空图。即将每一帧图像中相同的关键点连接起来，例如将第一帧、第二帧……到最后一帧的左肩膀点依次连接起来，从而可以知道左肩膀的运动趋势，同理得到其他节点的运动趋势，结合所有的节点，就得到了第一时空图。

将第一时空图输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果并显示在视频段中。时空图卷积网络模型正是通过之前的训练学习到对应每一运动趋势是什么人物交互动作，从而将类似的或相同的运动趋势检测为对应的人物交互动作，并将检测结果显示在视频段中。例如，当检测出喝水的结果后，就将喝水这两个字显示在视频段中。这种检测方法可以代替人工来监控某些地方，对有危险的交互行为进行提醒，保证生命财产安全；还可用于机器人巡逻异常行为，及时发现异常操作。

参见图6，是本发明该实施例提供的一种人物交互关系的检测装置的结构示意图，所述装置包括：

视频获取模块11，用于获取待检测的视频段；其中，所述视频段包含有预设的人物交互动作；

目标检测模块12，用于将所述视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的可能与人体发生交互的第一物体检测点；

骨架点获取模块13，用于对所述视频段进行分帧处理，提取每一帧图像的预设的第一人体骨架点；

检测模块14，用于将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果。

本发明实施例所提供的一种人物交互关系的检测装置能够实现上述任一实施例所述的人物交互关系的检测方法的所有流程，装置中的各个模块、单元的作用以及实现的技术效果分别与上述实施例所述的人物交互关系的检测方法的作用以及实现的技术效果对应相同，这里不再赘述。

参见图7，是本发明该实施例提供的一种人物交互关系的检测系统的示意图，所述人物交互关系的检测系统包括采集设备30、处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10执行所述计算机程序时实现上述任一实施例所述的人物交互关系的检测方法，所述采集设备30用于采集待检测的视频段。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器20中，并由处理器10执行，以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在一种人物交互关系的检测中的执行过程。例如，计算机程序可以被分割成视频获取模块、目标检测模块、骨架点获取模块和检测模块，各模块具体功能如下：

目标检测模块12，用于将所述视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的第一物体检测点；

所述人物交互关系的检测系统可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述人物交互关系的检测系统可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，示意图7仅仅是一种人物交互关系的检测系统的示例，并不构成对所述人物交互关系的检测系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述人物交互关系的检测系统还可以包括输入输出设备、网络接入设备、总线等。

处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者处理器10也可以是任何常规的处理器等，处理器10是所述人物交互关系的检测系统的控制中心，利用各种接口和线路连接整个人物交互关系的检测系统的各个部分。

存储器20可用于存储所述计算机程序和/或模块，处理器10通过运行或执行存储在存储器20内的计算机程序和/或模块，以及调用存储在存储器20内的数据，实现所述人物交互关系的检测系统的各种功能。存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述人物交互关系的检测系统集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一实施例所述的人物交互关系的检测方法。

综上，本发明实施例所提供的一种人物交互关系的检测方法、装置及系统，在对待检测视频进行交互人物交互关系进行检测时，把可能与人发生交互的物体视为一个个点，称为物体点，物体点与人的上半身骨架点进行连接，同时放入ST-GCN网络中进行时空序列编码，增强帧间和帧内信息的联系，提高人物交互检测中人与物之间的关系。本发明可以快速识别待检测视频段的人物交互关系，从而解决现有技术中因对场景中所有物体进行检测和只关注人体整体外观特征并分析人与物体的交互关系而导致的耗时、计算复杂、缺少细粒度的问题。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种人物交互关系的检测方法，其特征在于，包括：

将所述视频段输入预先训练好的目标检测网络中进行分帧目标检测，得到对应每一帧图像的预设的可能与人体发生交互的第一物体检测点；对所述视频段进行分帧处理，提取每一帧图像的预设的第一人体骨架点；

2.如权利要求1所述的人物交互关系的检测方法，其特征在于，所述目标检测网络是通过将目标图像训练集输入到预设的目标检测网络进行训练得到的。

3.如权利要求1所述的人物交互关系的检测方法，其特征在于，所述时空图卷积网络模型是通过以下方式进行训练的：

获取包含有所述预设的人物交互动作的视频训练集；

4.如权利要求1所述的人物交互关系的检测方法，其特征在于，所述对所述视频段进行分帧处理，提取每一帧图像的人体骨架点，具体包括：

5.如权利要求1所述的人物交互关系的检测方法，其特征在于，所述将所述第一物体检测点与所述第一人体骨架点按照预设的连接方式进行连接，构建第一时空图并输入到预先训练好的时空图卷积网络模型，得到人物交互动作的检测结果，具体包括：

6.一种人物交互关系的检测装置，其特征在于，包括：

7.一种人物交互关系的检测系统，其特征在于，包括采集设备、处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的人物交互关系的检测方法，所述采集设备用于采集待检测的视频段。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5中任意一项所述的人物交互关系的检测方法。