CN116363566A

CN116363566A - 一种基于关系知识图的目标交互关系识别方法

Info

Publication number: CN116363566A
Application number: CN202310643957.7A
Authority: CN
Inventors: 涂宏斌; 徐任玉; 李启翔; 彭圆圆; 胡剑文; 章翔
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-06-30
Anticipated expiration: 2043-06-02
Also published as: CN116363566B

Abstract

本发明公开了一种基于关系知识图的目标交互关系识别方法，所述方法包括以下步骤：S1、构建用于判断多人交互场景中目标是否存在交互行为的交互估计框架；S2、基于所述交互估计框架提取输入训练图像中的特征信息，进而构建关系知识图；S3、提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征，进而构建交互场景图，然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。本发明通过提取输入视频图像中信息逻辑关系并构建关系知识图，并将关系知识图融入到交互关系的识别中，进而不同场景，不同物品，不同动作之间联系起来，有效增强了输入视频图像中交互关系的识别准确性。

Description

一种基于关系知识图的目标交互关系识别方法

技术领域

本发明涉及图像识别处理技术领域，尤其涉及一种基于关系知识图的目标交互关系识别方法。

背景技术

随着计算机的计算能力不断提高，基于现有识别技术已经能够对单人行为做出十分有效的识别，但在多人交互行为识别方面，大多是开发一个复杂度不断增加的模型，用以解决检测、识别、跟着、姿态估计等多个子任务，将多种功能的模块通过简单集成而达成复杂目的的方法看似是合理的，但它有一定的局限性。首先，大多数先进的检测方法难以联合优化多目标，因此，贪婪的非最优决策很常见；其次，对每个对象的特征提取忽略了大量的上下文信息和先验知识推理作用，因为一些具有交互关系的人体物体的位置与其动作和背景可以是高度相关。

由此可见，检测多人交互行为仅仅是一项初步的工作，更重要的是对交互行为进行识别和分类，现有的一些方法，大多是基于人物的动作特征构建相互模型，进而对交互进行分类；也有一些比较复杂的模型，将背景环境和上下文信息融入人物的动作特征，从而构建人物-背景相结合的交互模型，并取得了不错的效果，但上述的方法都存在一个明显的缺点：缺乏对人物关系的考虑，因为在不同的人物关系下，相同的动作可能代表不同的含义，例如，同样的打斗动作，在陌生人之间，就是矛盾冲突，在熟人关系之间，就可能是嬉戏打闹，因此，如何识别人物关系，从而进一步帮助机器理解人物交互行为，是一个需要解决的问题。

发明内容

为了解决上述技术问题，本发明提供了一种基于关系知识图的目标交互关系识别方法，所述包括以下步骤：

S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架，并基于所述交互估计框架判断视频图像中的目标是否存在交互行为；

S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征，进而构建关系知识图；

S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征，进而构建交互场景图，然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。

优选地，所述交互估计框架判断视频图像中的目标是否存在交互行为的具体实现方式包括：

S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出，在交互估计框架中定义三个指标：个人移动时间

、非重叠移动时间/>

和群体移动时间/>

，并假设非重叠移动时间/>

与交互行为的发生概率成正比；

S12、基于视频图像中的多人交互场景，分别计算每一个目标的个人移动时间

、非重叠移动时间/>

和群体移动时间/>

，其中，/>

、/>

和/>

分别表示第/>

个人的个人移动时间、非重叠移动时间和群体移动时间，用公式表示为：

，

；

S13、基于步骤S12的计算结果，选取非重叠移动时间

最高的两个目标，并判断该两个目标各自的非重叠移动时间/>

是否大于自身的个人移动时间/>

，若是，则判断该两个目标存在潜在交互关系，然后进入步骤S14；

S14、选取剩余目标中非重叠移动时间

是否大于自身的个人移动时间/>

之间的差值，若是，则判断该两个目标存在潜在交互关系，然后更新目标的潜在交互关系，并将新获取的两个目标与步骤S13中所获取的两个目标相关联；

S15、重复步骤S14，直至所有目标的非重叠移动时间

均不大于自身的个人移动时间/>

，则认为完成多人交互场景中所有潜在交互关系的目标捕捉，进入步骤S16；

S16、基于预设标准值和所获取所有存在潜在交互关系的目标，并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间

，若其对应的各自群体移动时间

均不小于预设标准值，则判断该对目标存在交互行为，否则不存在交互行为。

优选地，所述步骤S2的具体实现方式包括：

S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标，并基于人体关键点标注算法和图卷积网络获取人体姿态特征，然后基于所获取的人体姿态特征识别出该目标的动作特征；

S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征；

S23、重复步骤S21和步骤S22，直至完成所有训练数据集中输入视频图像的处理，进入步骤S24；

S24、基于所识别出的目标动作特征和背景物体特征，构建关系知识图。

优选地，所述步骤S24中所构建的关系知识图用公式表示为：

，

式中，

表示节点集合，/>

表示边集合，其中，所述节点是指输入视频图像中的交互关系/>

、物体/>

和动作/>

，边是指物体/>

在交互关系/>

中出现的概率/>

或/和动作/>

在交互关系/>

中出现的概率/>

，/>

，/>

表示交互关系的种类，/>

表示目标的动作特征，/>

表示物体的种类。

优选地，所述交互关系分为陌生、熟悉、冲突和竞争四类。

优选地，所述步骤S3的具体实现方式包括：

S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征，同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征；

S32、获取待测试输入视频图像中交互目标之间的关系值

，用公式表示为：

，

式中，

分别表示具有交互行为的两个交互目标，/>

表示两个交互目标之间的动作特征关系函数表达式，/>

表示动作特征，/>

表示针对提取目标/>

的动作特征做群体关系运算，/>

表示正则化参数，/>

表示目标/>

边界框中心点欧氏距离，/>

表示目标边界框的中心坐标，其中，/>

表示根据关键程度将提取的动作特征打上标签，/>

表示目标动作特征因子，即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例，/>

，/>

表示该待测试输入视频图像中所有动作特征因子；

S33、计算两个交互目标之间的关系值，进而构建交互场景图，所述交互场景图用公式表示为：

，

式中，

是指/>

两个目标的特征/>

和/>

，/>

，

，/>

表示环境特征，/>

表示物体特征，/>

表示动作特征；

S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系。

优选地，所述步骤S34的具体实现方式包括：

S341、将所构建的交互场景图进行第一次图卷积处理，得到场景矩阵，用公式表示为：

，

式中，

表示检测到的目标动作个数和物体个数，/>

表示检测到的目标动作特征值和物体特征值；

S342、从所述场景矩阵中抽取

个特征向量，用公式表示为：

；

S343、将步骤S24所构建的关系知识图作为第二次图卷积的相关矩阵

，步骤S342所抽取的特征向量作为第二次图卷积的特征输入进行第二次图卷积处理，其中，第二次图卷积处理过程用公式表示为：

，

式中，

表示第二次图卷积，/>

表示融合关系知识图的特征向量；

S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算，进而实现了目标动作特征和物体特征的重新调整，运算过程用公式表示为：

；

S345、基于预设得分函数对步骤S344的运算结果进行评分，从而判断待测试输入视频图像中交互目标的交互关系，所述预设得分函数用公式表示为：

，

式中，

表示动作特征、物体特征与交互关系之间的相关率，相关率表示交互场景中出现的动作和物体在关系知识图中与交互关系的相关度，其采用条件概率的计算方式进行计算，即根据构建好的关系知识图计算在某一交互关系出现时，已检测到的物体特征和动作特征出现的频率；/>

表示矩阵/>

中的值，/>

表示检测到的动作和物体的个数，

表示检测到的动作和物体的特征值，/>

表示动作个数。

与现有技术比较，本发明利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取，进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图，基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析，进而识别出待测试输入视频图像的多人交互关系。首先，本发明采用轻量化检测模型（即交互估计框架和ResNet-101算法）提取输入视频图像中的关键特征信息，进而避免了因为整合过多检测模型而造成鲁棒性差的问题，其次，本发明将关键特征信息的逻辑关系进行提取并构建关系知识图，即将大量重复性工作放在前期完成并能够重复使用，当需要处理不同场景的数据时，只需要将数据处理后对关系知识图进行更新，并不需要将整个检测模型重新进行训练；而且，通过提取简单的关键特征，并建立大量的交互关系，将不同场景，不同物品，不同动作之间联系起来，使得检测结果是基于大量现实逻辑而得，对交互关系的识别更细致，更合理，本发明基于知识图逻辑性强的特点，能够有效增强输入视频图像中交互关系的识别准确性。

附图说明

图1是本发明中一种基于关系知识图的目标交互关系识别方法的流程图；

图2是本发明中基于交互估计框架和ResNet-101算法提取特征信息的结构图；

图3是本发明中关系知识图的示意图；

图4是本发明中构建交互场景图的流程图；

图5是本发明中基于关系知识图和交互场景图识别目标交互关系的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

如图1-图5所示，本实施例提供了一种基于关系知识图的目标交互关系识别方法，所述方法包括以下步骤：

在本步骤中，所述交互估计框架判断多人交互场景中目标是否存在交互行为的具体实现方式包括：

、非重叠移动时间/>

和群体移动时间/>

，并假设非重叠移动时间/>

与交互行为的发生概率成正比；

、非重叠移动时间/>

和群体移动时间/>

，其中，/>

、/>

和/>

分别表示第/>

，

；

S13、基于步骤S12的计算结果，选取非重叠移动时间

是否大于自身的个人移动时间/>

S14、选取剩余目标中非重叠移动时间

是否大于自身的个人移动时间/>

S15、重复步骤S14，直至所有目标的非重叠移动时间

均不大于自身的个人移动时间/>

，若其对应的各自群体移动时间

均不小于预设标准值，则判断该对目标存在交互行为，否则不存在交互行为，该步骤中的预设标准值根据实际情况设定；

本步骤具体为：

S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标，并基于人体关键点标注算法和图卷积网络获取人体姿态特征，然后基于所获取的人体姿态特征识别出该目标的动作特征；该步骤中，利用开源且有效的人体关键点标注算法Openpose能够获取人体骨架，而通过图卷积网络对人体骨架进行处理后获取到人体姿态特征，进而识别出该人体的具体动作；

基于步骤S21和步骤S22的交互估计框架和ResNet-101算法结合对输入视频图像中的特征信息进行提取，能够在保证识别精度的同时降低对计算力的要求；同时，基于步骤S23处理大量的训练数据，这里的训练数据来自各种已知人物关系的交互场景中，因而既能够得到需要的特征数据，又能够加快处理训练数据的速度；

S24、基于所识别出的目标动作特征和背景物体特征，构建关系知识图；该步骤中，在通过步骤S23的大量数据训练后，即可得到一张完备的关系知识图，该关系知识图的作用只是将不同类别的物体、动作和场景联系起来，其数据量只与物体、动作的类别相关，与数量无关，因此，该关系知识图并没有太多的数据量；其中，所述关系知识图用公式表示为：

，

式中，

表示节点集合，/>

、物体/>

和动作/>

，边是指物体/>

在交互关系/>

中出现的概率/>

或/和动作/>

在交互关系/>

中出现的概率/>

，/>

，/>

表示交互关系的种类，/>

表示目标的动作特征，/>

表示物体的种类；

本步骤具体包括：

S32、获取待测试输入视频图像中交互目标之间的关系值

，用公式表示为：

，

式中，

分别表示具有交互行为的两个交互目标，/>

表示两个交互目标之间的动作特征关系函数表达式，/>

表示动作特征，/>

表示针对提取目标/>

的动作特征做群体关系运算，/>

表示正则化参数，/>

表示目标/>

边界框中心点欧氏距离，/>

表示目标边界框的中心坐标，其中，/>

表示根据关键程度将提取的动作特征打上标签，/>

表示目标动作特征因子，即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例，即可认为在交互中，重要的关键性动作往往持续比较短，/>

，/>

表示该待测试输入视频图像中所有动作特征因子；

，

式中，

是指/>

两个目标的特征/>

和/>

，/>

，

，/>

表示环境特征，/>

表示物体特征，/>

表示动作特征，/>

两个目标的特征值/>

和/>

作为交互场景图的节点，/>

两个目标之间的关系值作为交互场景图的边，进而构建出交互场景图，在处理输入视频图像过程中，是对输入视频图像的每一帧进行处理最后整合，在一个输入视频图像中，人物可能呈现出不同的动作特征，每一个动作特征都可能影响到人物关系，因此，需要对不同的动作特征全部进行捕捉整合；

S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系，具体为：

，

式中，

表示实数集，/>

表示检测到的目标动作个数和物体个数，/>

表示检测到的目标动作特征值和物体特征值；

S342、从所述场景矩阵中抽取

个特征向量，用公式表示为：

，

，

式中，

表示第二次图卷积，/>

表示融合关系知识图的特征向量；

；

，

式中，

表示矩阵/>

中的值，/>

表示检测到的动作和物体的个数，

表示检测到的动作和物体的特征值，/>

表示动作个数。

本实施例中，需要说明的是，所述交互关系分为陌生、熟悉、冲突和竞争四类。其中，所述输入视频图像输出的多人交互关系具体为陌生、熟悉、冲突和竞争四类中的一种，从而实现多人交互关系的识别，图3中节点之间的连接线越粗，则说明节点之间的相关性越强；其中，预设得分函数对步骤S344的运算结果进行评分，基于最后得分交互关系进行分类，不同的交互关系之间的得分不同，偏陌生的交互关系之间的得分较低，目标交互关系多的竞争或敌视之间的得分较高，即评分从低到高依次对应的交互关系为：陌生、熟悉、竞争、冲突，其划分依据为：随着交互关系的变化，动作特征和物体的出现频率会依次提高。面对有类似动作出现的竞争与冲突场景，甚至是熟悉的双方发生的打闹场景，在引入关系知识图之前，仅仅依靠动作和物体评分很容易错判，而通过融入关系知识图能够将动作、物体与交互关系进行联系，进而指导和改变对场景中动作的识别，从而有效降低错判的概率。

本实施例中，利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取，进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图，基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析，进而识别出待测试输入视频图像的多人交互关系。首先，本发明采用轻量化检测模型（即交互估计框架和ResNet-101算法）提取输入视频图像中的关键特征信息，进而避免了因为整合过多检测模型而造成鲁棒性差的问题，其次，本发明将关键特征信息的逻辑关系进行提取并构建关系知识图，即将大量重复性工作放在前期完成并能够重复使用，当需要处理不同场景的数据时，只需要将数据处理后对关系知识图进行更新，并不需要将整个检测模型重新进行训练；而且，通过提取简单的关键特征，并建立大量的交互关系，将不同场景，不同物品，不同动作之间联系起来，使得检测结果是基于大量现实逻辑而得，对交互关系的识别更细致，更合理，本发明基于知识图逻辑性强的特点，能够有效增强输入视频图像中交互关系的识别准确性。

以上对本发明所提供的一种基于关系知识图的目标交互关系识别方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。