CN116363566A - 一种基于关系知识图的目标交互关系识别方法 - Google Patents

一种基于关系知识图的目标交互关系识别方法 Download PDF

Info

Publication number
CN116363566A
CN116363566A CN202310643957.7A CN202310643957A CN116363566A CN 116363566 A CN116363566 A CN 116363566A CN 202310643957 A CN202310643957 A CN 202310643957A CN 116363566 A CN116363566 A CN 116363566A
Authority
CN
China
Prior art keywords
interaction
target
targets
representing
video image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310643957.7A
Other languages
English (en)
Other versions
CN116363566B (zh
Inventor
涂宏斌
徐任玉
李启翔
彭圆圆
胡剑文
章翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310643957.7A priority Critical patent/CN116363566B/zh
Publication of CN116363566A publication Critical patent/CN116363566A/zh
Application granted granted Critical
Publication of CN116363566B publication Critical patent/CN116363566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于关系知识图的目标交互关系识别方法,所述方法包括以下步骤:S1、构建用于判断多人交互场景中目标是否存在交互行为的交互估计框架;S2、基于所述交互估计框架提取输入训练图像中的特征信息,进而构建关系知识图;S3、提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。本发明通过提取输入视频图像中信息逻辑关系并构建关系知识图,并将关系知识图融入到交互关系的识别中,进而不同场景,不同物品,不同动作之间联系起来,有效增强了输入视频图像中交互关系的识别准确性。

Description

一种基于关系知识图的目标交互关系识别方法
技术领域
本发明涉及图像识别处理技术领域,尤其涉及一种基于关系知识图的目标交互关系识别方法。
背景技术
随着计算机的计算能力不断提高,基于现有识别技术已经能够对单人行为做出十分有效的识别,但在多人交互行为识别方面,大多是开发一个复杂度不断增加的模型,用以解决检测、识别、跟着、姿态估计等多个子任务,将多种功能的模块通过简单集成而达成复杂目的的方法看似是合理的,但它有一定的局限性。首先,大多数先进的检测方法难以联合优化多目标,因此,贪婪的非最优决策很常见;其次,对每个对象的特征提取忽略了大量的上下文信息和先验知识推理作用,因为一些具有交互关系的人体物体的位置与其动作和背景可以是高度相关。
由此可见,检测多人交互行为仅仅是一项初步的工作,更重要的是对交互行为进行识别和分类,现有的一些方法,大多是基于人物的动作特征构建相互模型,进而对交互进行分类;也有一些比较复杂的模型,将背景环境和上下文信息融入人物的动作特征,从而构建人物-背景相结合的交互模型,并取得了不错的效果,但上述的方法都存在一个明显的缺点:缺乏对人物关系的考虑,因为在不同的人物关系下,相同的动作可能代表不同的含义,例如,同样的打斗动作,在陌生人之间,就是矛盾冲突,在熟人关系之间,就可能是嬉戏打闹,因此,如何识别人物关系,从而进一步帮助机器理解人物交互行为,是一个需要解决的问题。
发明内容
为了解决上述技术问题,本发明提供了一种基于关系知识图的目标交互关系识别方法,所述包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
优选地,所述交互估计框架判断视频图像中的目标是否存在交互行为的具体实现方式包括:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间
Figure SMS_1
、非重叠移动时间/>
Figure SMS_2
和群体移动时间/>
Figure SMS_3
,并假设非重叠移动时间/>
Figure SMS_4
与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间
Figure SMS_5
、非重叠移动时间/>
Figure SMS_6
和群体移动时间/>
Figure SMS_7
,其中,/>
Figure SMS_8
、/>
Figure SMS_9
和/>
Figure SMS_10
分别表示第/>
Figure SMS_11
个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
Figure SMS_12
Figure SMS_13
S13、基于步骤S12的计算结果,选取非重叠移动时间
Figure SMS_14
最高的两个目标,并判断该两个目标各自的非重叠移动时间/>
Figure SMS_15
是否大于自身的个人移动时间/>
Figure SMS_16
,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间
Figure SMS_17
最高的两个目标,并判断该两个目标各自的非重叠移动时间/>
Figure SMS_18
是否大于自身的个人移动时间/>
Figure SMS_19
之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S15、重复步骤S14,直至所有目标的非重叠移动时间
Figure SMS_20
均不大于自身的个人移动时间/>
Figure SMS_21
,则认为完成多人交互场景中所有潜在交互关系的目标捕捉,进入步骤S16;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间
Figure SMS_22
,若其对应的各自群体移动时间
Figure SMS_23
均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为。
优选地,所述步骤S2的具体实现方式包括:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图。
优选地,所述步骤S24中所构建的关系知识图用公式表示为:
Figure SMS_24
式中,
Figure SMS_25
表示节点集合,/>
Figure SMS_30
表示边集合,其中,所述节点是指输入视频图像中的交互关系/>
Figure SMS_33
、物体/>
Figure SMS_26
和动作/>
Figure SMS_29
,边是指物体/>
Figure SMS_32
在交互关系/>
Figure SMS_35
中出现的概率/>
Figure SMS_28
或/和动作/>
Figure SMS_37
在交互关系/>
Figure SMS_38
中出现的概率/>
Figure SMS_39
,/>
Figure SMS_27
,/>
Figure SMS_31
表示交互关系的种类,/>
Figure SMS_34
表示目标的动作特征,/>
Figure SMS_36
表示物体的种类。
优选地,所述交互关系分为陌生、熟悉、冲突和竞争四类。
优选地,所述步骤S3的具体实现方式包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
S32、获取待测试输入视频图像中交互目标之间的关系值
Figure SMS_40
,用公式表示为:
Figure SMS_41
式中,
Figure SMS_42
分别表示具有交互行为的两个交互目标,/>
Figure SMS_48
表示两个交互目标之间的动作特征关系函数表达式,/>
Figure SMS_52
表示动作特征,/>
Figure SMS_45
表示针对提取目标/>
Figure SMS_46
的动作特征做群体关系运算,/>
Figure SMS_50
表示正则化参数,/>
Figure SMS_53
表示目标/>
Figure SMS_44
边界框中心点欧氏距离,/>
Figure SMS_49
表示目标边界框的中心坐标,其中,/>
Figure SMS_51
表示根据关键程度将提取的动作特征打上标签,/>
Figure SMS_54
表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,/>
Figure SMS_43
,/>
Figure SMS_47
表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
Figure SMS_55
式中,
Figure SMS_57
是指/>
Figure SMS_59
两个目标的特征/>
Figure SMS_62
和/>
Figure SMS_58
,/>
Figure SMS_60
Figure SMS_63
,/>
Figure SMS_64
表示环境特征,/>
Figure SMS_56
表示物体特征,/>
Figure SMS_61
表示动作特征;
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系。
优选地,所述步骤S34的具体实现方式包括:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
Figure SMS_65
式中,
Figure SMS_66
表示检测到的目标动作个数和物体个数,/>
Figure SMS_67
表示检测到的目标动作特征值和物体特征值;
S342、从所述场景矩阵中抽取
Figure SMS_68
个特征向量,用公式表示为:
Figure SMS_69
S343、将步骤S24所构建的关系知识图作为第二次图卷积的相关矩阵
Figure SMS_70
,步骤S342所抽取的特征向量作为第二次图卷积的特征输入进行第二次图卷积处理,其中,第二次图卷积处理过程用公式表示为:
Figure SMS_71
式中,
Figure SMS_72
表示第二次图卷积,/>
Figure SMS_73
表示融合关系知识图的特征向量;
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
Figure SMS_74
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
Figure SMS_75
式中,
Figure SMS_76
表示动作特征、物体特征与交互关系之间的相关率,相关率表示交互场景中出现的动作和物体在关系知识图中与交互关系的相关度,其采用条件概率的计算方式进行计算,即根据构建好的关系知识图计算在某一交互关系出现时,已检测到的物体特征和动作特征出现的频率;/>
Figure SMS_77
表示矩阵/>
Figure SMS_78
中的值,/>
Figure SMS_79
表示检测到的动作和物体的个数,
Figure SMS_80
表示检测到的动作和物体的特征值,/>
Figure SMS_81
表示动作个数。
与现有技术比较,本发明利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取,进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图,基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析,进而识别出待测试输入视频图像的多人交互关系。首先,本发明采用轻量化检测模型(即交互估计框架和ResNet-101算法)提取输入视频图像中的关键特征信息,进而避免了因为整合过多检测模型而造成鲁棒性差的问题,其次,本发明将关键特征信息的逻辑关系进行提取并构建关系知识图,即将大量重复性工作放在前期完成并能够重复使用,当需要处理不同场景的数据时,只需要将数据处理后对关系知识图进行更新,并不需要将整个检测模型重新进行训练;而且,通过提取简单的关键特征,并建立大量的交互关系,将不同场景,不同物品,不同动作之间联系起来,使得检测结果是基于大量现实逻辑而得,对交互关系的识别更细致,更合理,本发明基于知识图逻辑性强的特点,能够有效增强输入视频图像中交互关系的识别准确性。
附图说明
图1是本发明中一种基于关系知识图的目标交互关系识别方法的流程图;
图2是本发明中基于交互估计框架和ResNet-101算法提取特征信息的结构图;
图3是本发明中关系知识图的示意图;
图4是本发明中构建交互场景图的流程图;
图5是本发明中基于关系知识图和交互场景图识别目标交互关系的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
如图1-图5所示,本实施例提供了一种基于关系知识图的目标交互关系识别方法,所述方法包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为;
在本步骤中,所述交互估计框架判断多人交互场景中目标是否存在交互行为的具体实现方式包括:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间
Figure SMS_82
、非重叠移动时间/>
Figure SMS_83
和群体移动时间/>
Figure SMS_84
,并假设非重叠移动时间/>
Figure SMS_85
与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间
Figure SMS_86
、非重叠移动时间/>
Figure SMS_87
和群体移动时间/>
Figure SMS_88
,其中,/>
Figure SMS_89
、/>
Figure SMS_90
和/>
Figure SMS_91
分别表示第/>
Figure SMS_92
个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
Figure SMS_93
Figure SMS_94
S13、基于步骤S12的计算结果,选取非重叠移动时间
Figure SMS_95
最高的两个目标,并判断该两个目标各自的非重叠移动时间/>
Figure SMS_96
是否大于自身的个人移动时间/>
Figure SMS_97
,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间
Figure SMS_98
最高的两个目标,并判断该两个目标各自的非重叠移动时间/>
Figure SMS_99
是否大于自身的个人移动时间/>
Figure SMS_100
之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S15、重复步骤S14,直至所有目标的非重叠移动时间
Figure SMS_101
均不大于自身的个人移动时间/>
Figure SMS_102
,则认为完成多人交互场景中所有潜在交互关系的目标捕捉,进入步骤S16;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间
Figure SMS_103
,若其对应的各自群体移动时间
Figure SMS_104
均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为,该步骤中的预设标准值根据实际情况设定;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
本步骤具体为:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;该步骤中,利用开源且有效的人体关键点标注算法Openpose能够获取人体骨架,而通过图卷积网络对人体骨架进行处理后获取到人体姿态特征,进而识别出该人体的具体动作;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
基于步骤S21和步骤S22的交互估计框架和ResNet-101算法结合对输入视频图像中的特征信息进行提取,能够在保证识别精度的同时降低对计算力的要求;同时,基于步骤S23处理大量的训练数据,这里的训练数据来自各种已知人物关系的交互场景中,因而既能够得到需要的特征数据,又能够加快处理训练数据的速度;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图;该步骤中,在通过步骤S23的大量数据训练后,即可得到一张完备的关系知识图,该关系知识图的作用只是将不同类别的物体、动作和场景联系起来,其数据量只与物体、动作的类别相关,与数量无关,因此,该关系知识图并没有太多的数据量;其中,所述关系知识图用公式表示为:
Figure SMS_105
式中,
Figure SMS_109
表示节点集合,/>
Figure SMS_110
表示边集合,其中,所述节点是指输入视频图像中的交互关系/>
Figure SMS_114
、物体/>
Figure SMS_107
和动作/>
Figure SMS_111
,边是指物体/>
Figure SMS_115
在交互关系/>
Figure SMS_118
中出现的概率/>
Figure SMS_106
或/和动作/>
Figure SMS_113
在交互关系/>
Figure SMS_116
中出现的概率/>
Figure SMS_119
,/>
Figure SMS_108
,/>
Figure SMS_112
表示交互关系的种类,/>
Figure SMS_117
表示目标的动作特征,/>
Figure SMS_120
表示物体的种类;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
本步骤具体包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
S32、获取待测试输入视频图像中交互目标之间的关系值
Figure SMS_121
,用公式表示为:
Figure SMS_122
式中,
Figure SMS_123
分别表示具有交互行为的两个交互目标,/>
Figure SMS_130
表示两个交互目标之间的动作特征关系函数表达式,/>
Figure SMS_133
表示动作特征,/>
Figure SMS_125
表示针对提取目标/>
Figure SMS_127
的动作特征做群体关系运算,/>
Figure SMS_131
表示正则化参数,/>
Figure SMS_135
表示目标/>
Figure SMS_124
边界框中心点欧氏距离,/>
Figure SMS_128
表示目标边界框的中心坐标,其中,/>
Figure SMS_132
表示根据关键程度将提取的动作特征打上标签,/>
Figure SMS_134
表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,即可认为在交互中,重要的关键性动作往往持续比较短,/>
Figure SMS_126
,/>
Figure SMS_129
表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
Figure SMS_136
式中,
Figure SMS_137
是指/>
Figure SMS_141
两个目标的特征/>
Figure SMS_144
和/>
Figure SMS_140
,/>
Figure SMS_143
Figure SMS_146
,/>
Figure SMS_148
表示环境特征,/>
Figure SMS_138
表示物体特征,/>
Figure SMS_145
表示动作特征,/>
Figure SMS_147
两个目标的特征值/>
Figure SMS_149
和/>
Figure SMS_139
作为交互场景图的节点,/>
Figure SMS_142
两个目标之间的关系值作为交互场景图的边,进而构建出交互场景图,在处理输入视频图像过程中,是对输入视频图像的每一帧进行处理最后整合,在一个输入视频图像中,人物可能呈现出不同的动作特征,每一个动作特征都可能影响到人物关系,因此,需要对不同的动作特征全部进行捕捉整合;
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系,具体为:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
Figure SMS_150
式中,
Figure SMS_151
表示实数集,/>
Figure SMS_152
表示检测到的目标动作个数和物体个数,/>
Figure SMS_153
表示检测到的目标动作特征值和物体特征值;
S342、从所述场景矩阵中抽取
Figure SMS_154
个特征向量,用公式表示为:
Figure SMS_155
S343、将步骤S24所构建的关系知识图作为第二次图卷积的相关矩阵
Figure SMS_156
,步骤S342所抽取的特征向量作为第二次图卷积的特征输入进行第二次图卷积处理,其中,第二次图卷积处理过程用公式表示为:
Figure SMS_157
式中,
Figure SMS_158
表示第二次图卷积,/>
Figure SMS_159
表示融合关系知识图的特征向量;
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
Figure SMS_160
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
Figure SMS_161
式中,
Figure SMS_162
表示动作特征、物体特征与交互关系之间的相关率,相关率表示交互场景中出现的动作和物体在关系知识图中与交互关系的相关度,其采用条件概率的计算方式进行计算,即根据构建好的关系知识图计算在某一交互关系出现时,已检测到的物体特征和动作特征出现的频率;/>
Figure SMS_163
表示矩阵/>
Figure SMS_164
中的值,/>
Figure SMS_165
表示检测到的动作和物体的个数,
Figure SMS_166
表示检测到的动作和物体的特征值,/>
Figure SMS_167
表示动作个数。
本实施例中,需要说明的是,所述交互关系分为陌生、熟悉、冲突和竞争四类。其中,所述输入视频图像输出的多人交互关系具体为陌生、熟悉、冲突和竞争四类中的一种,从而实现多人交互关系的识别,图3中节点之间的连接线越粗,则说明节点之间的相关性越强;其中,预设得分函数对步骤S344的运算结果进行评分,基于最后得分交互关系进行分类,不同的交互关系之间的得分不同,偏陌生的交互关系之间的得分较低,目标交互关系多的竞争或敌视之间的得分较高,即评分从低到高依次对应的交互关系为:陌生、熟悉、竞争、冲突,其划分依据为:随着交互关系的变化,动作特征和物体的出现频率会依次提高。面对有类似动作出现的竞争与冲突场景,甚至是熟悉的双方发生的打闹场景,在引入关系知识图之前,仅仅依靠动作和物体评分很容易错判,而通过融入关系知识图能够将动作、物体与交互关系进行联系,进而指导和改变对场景中动作的识别,从而有效降低错判的概率。
本实施例中,利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取,进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图,基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析,进而识别出待测试输入视频图像的多人交互关系。首先,本发明采用轻量化检测模型(即交互估计框架和ResNet-101算法)提取输入视频图像中的关键特征信息,进而避免了因为整合过多检测模型而造成鲁棒性差的问题,其次,本发明将关键特征信息的逻辑关系进行提取并构建关系知识图,即将大量重复性工作放在前期完成并能够重复使用,当需要处理不同场景的数据时,只需要将数据处理后对关系知识图进行更新,并不需要将整个检测模型重新进行训练;而且,通过提取简单的关键特征,并建立大量的交互关系,将不同场景,不同物品,不同动作之间联系起来,使得检测结果是基于大量现实逻辑而得,对交互关系的识别更细致,更合理,本发明基于知识图逻辑性强的特点,能够有效增强输入视频图像中交互关系的识别准确性。
以上对本发明所提供的一种基于关系知识图的目标交互关系识别方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (6)

1.一种基于关系知识图的目标交互关系识别方法,其特征在于,所述方法包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为,具体为:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间
Figure QLYQS_1
、非重叠移动时间/>
Figure QLYQS_2
和群体移动时间/>
Figure QLYQS_3
,并假设非重叠移动时间/>
Figure QLYQS_4
与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间
Figure QLYQS_5
、非重叠移动时间/>
Figure QLYQS_6
和群体移动时间/>
Figure QLYQS_7
,其中,/>
Figure QLYQS_8
、/>
Figure QLYQS_9
和/>
Figure QLYQS_10
分别表示第/>
Figure QLYQS_11
个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
Figure QLYQS_12
Figure QLYQS_13
S13、基于步骤S12的计算结果,选取非重叠移动时间
Figure QLYQS_14
最高的两个目标,并判断该两个目标各自的非重叠移动时间/>
Figure QLYQS_15
是否大于自身的个人移动时间/>
Figure QLYQS_16
,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间
Figure QLYQS_17
最高的两个目标,并判断该两个目标各自的非重叠移动时间/>
Figure QLYQS_18
是否大于自身的个人移动时间/>
Figure QLYQS_19
之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S15、重复步骤S14,直至所有目标的非重叠移动时间
Figure QLYQS_20
均不大于自身的个人移动时间/>
Figure QLYQS_21
,则认为完成多人交互场景中所有潜在交互关系的目标捕捉,进入步骤S16;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间
Figure QLYQS_22
,若其对应的各自群体移动时间/>
Figure QLYQS_23
均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
2.如权利要求1所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S2的具体实现方式包括:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图。
3.如权利要求2所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S24中所构建的关系知识图用公式表示为:
Figure QLYQS_24
式中,
Figure QLYQS_26
表示节点集合,/>
Figure QLYQS_31
表示边集合,其中,所述节点是指输入视频图像中的交互关系/>
Figure QLYQS_34
、物体/>
Figure QLYQS_28
和动作/>
Figure QLYQS_30
,边是指物体/>
Figure QLYQS_35
在交互关系/>
Figure QLYQS_36
中出现的概率/>
Figure QLYQS_25
或/和动作/>
Figure QLYQS_32
在交互关系
Figure QLYQS_38
中出现的概率/>
Figure QLYQS_39
,/>
Figure QLYQS_27
,/>
Figure QLYQS_29
表示交互关系的种类,/>
Figure QLYQS_33
表示目标的动作特征,/>
Figure QLYQS_37
表示物体的种类。
4.如权利要求3所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述交互关系分为陌生、熟悉、冲突和竞争四类。
5.如权利要求4所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S3的具体实现方式包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
S32、获取待测试输入视频图像中交互目标之间的关系值
Figure QLYQS_40
,用公式表示为:
Figure QLYQS_41
式中,
Figure QLYQS_42
分别表示具有交互行为的两个交互目标,/>
Figure QLYQS_46
表示两个交互目标之间的动作特征关系函数表达式,/>
Figure QLYQS_49
表示动作特征,/>
Figure QLYQS_44
表示针对提取目标/>
Figure QLYQS_48
的动作特征做群体关系运算,/>
Figure QLYQS_51
表示正则化参数,/>
Figure QLYQS_54
表示目标/>
Figure QLYQS_43
边界框中心点欧氏距离,/>
Figure QLYQS_47
表示目标边界框的中心坐标,其中,/>
Figure QLYQS_50
表示根据关键程度将提取的动作特征打上标签,/>
Figure QLYQS_52
表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,/>
Figure QLYQS_45
,/>
Figure QLYQS_53
表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
Figure QLYQS_55
式中,
Figure QLYQS_57
是指/>
Figure QLYQS_61
两个目标的特征值/>
Figure QLYQS_62
和/>
Figure QLYQS_58
,/>
Figure QLYQS_60
Figure QLYQS_63
,/>
Figure QLYQS_64
表示环境特征,/>
Figure QLYQS_56
表示物体特征,/>
Figure QLYQS_59
表示动作特征;
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系。
6.如权利要求5所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S34的具体实现方式包括:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
Figure QLYQS_65
式中,
Figure QLYQS_66
表示实数集,/>
Figure QLYQS_67
表示检测到的目标动作个数和物体个数,/>
Figure QLYQS_68
表示检测到的目标动作特征值和物体特征值;
S342、从所述场景矩阵中抽取
Figure QLYQS_69
个特征向量,用公式表示为:
Figure QLYQS_70
S343、将步骤S24所构建的关系知识图作为第二次图卷积的相关矩阵
Figure QLYQS_71
,步骤S342所抽取的特征向量作为第二次图卷积的特征输入进行第二次图卷积处理,其中,第二次图卷积处理过程用公式表示为:
Figure QLYQS_72
式中,
Figure QLYQS_73
表示第二次图卷积,/>
Figure QLYQS_74
表示融合关系知识图的特征向量;
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
Figure QLYQS_75
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
Figure QLYQS_76
式中,
Figure QLYQS_77
表示动作特征、物体特征与交互关系之间的相关率,/>
Figure QLYQS_78
表示矩阵/>
Figure QLYQS_79
中的值,/>
Figure QLYQS_80
表示检测到的动作和物体的个数,/>
Figure QLYQS_81
表示检测到的动作和物体的特征值,/>
Figure QLYQS_82
表示动作个数。
CN202310643957.7A 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法 Active CN116363566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310643957.7A CN116363566B (zh) 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310643957.7A CN116363566B (zh) 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法

Publications (2)

Publication Number Publication Date
CN116363566A true CN116363566A (zh) 2023-06-30
CN116363566B CN116363566B (zh) 2023-10-17

Family

ID=86928525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310643957.7A Active CN116363566B (zh) 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法

Country Status (1)

Country Link
CN (1) CN116363566B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN112528966A (zh) * 2021-02-05 2021-03-19 华东交通大学 一种取款人周边环境智能监控识别方法、装置及介质
WO2021212922A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种对象拖拽方法及设备
WO2021212388A1 (zh) * 2020-04-22 2021-10-28 南京阿凡达机器人科技有限公司 一种交互沟通实现方法、设备和存储介质
CN114386774A (zh) * 2021-12-21 2022-04-22 中国中煤能源集团有限公司 基于cpim的选煤厂三维可视化全生命周期管理平台
CN114399606A (zh) * 2021-12-24 2022-04-26 中国科学院自动化研究所 基于立体可视化的交互展示系统、方法、设备
CN114399838A (zh) * 2022-01-18 2022-04-26 深圳市广联智通科技有限公司 基于姿态估计和二重分类的多人行为识别方法及系统
US20220156582A1 (en) * 2020-11-13 2022-05-19 Accenture Global Solutions Limited Generating Knowledge Graphs From Conversational Data
CN114519132A (zh) * 2020-11-18 2022-05-20 北京大学 一种基于公式引用图的公式检索方法与装置
CN115359394A (zh) * 2022-08-17 2022-11-18 杭州菩公英科技有限公司 一种基于多模态融合的识别方法及其应用

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
WO2021212388A1 (zh) * 2020-04-22 2021-10-28 南京阿凡达机器人科技有限公司 一种交互沟通实现方法、设备和存储介质
WO2021212922A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种对象拖拽方法及设备
US20220156582A1 (en) * 2020-11-13 2022-05-19 Accenture Global Solutions Limited Generating Knowledge Graphs From Conversational Data
CN114519132A (zh) * 2020-11-18 2022-05-20 北京大学 一种基于公式引用图的公式检索方法与装置
CN112528966A (zh) * 2021-02-05 2021-03-19 华东交通大学 一种取款人周边环境智能监控识别方法、装置及介质
CN114386774A (zh) * 2021-12-21 2022-04-22 中国中煤能源集团有限公司 基于cpim的选煤厂三维可视化全生命周期管理平台
CN114399606A (zh) * 2021-12-24 2022-04-26 中国科学院自动化研究所 基于立体可视化的交互展示系统、方法、设备
CN114399838A (zh) * 2022-01-18 2022-04-26 深圳市广联智通科技有限公司 基于姿态估计和二重分类的多人行为识别方法及系统
CN115359394A (zh) * 2022-08-17 2022-11-18 杭州菩公英科技有限公司 一种基于多模态融合的识别方法及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TU HONGBIN等: "Multiperson Interactive Activity Recognition Based on Interaction Relation Model", WEB OF SCIENCE *
张洪岩;周成虎;闾国年;吴志峰;陆锋;王劲峰;岳天祥;骆剑承;葛咏;秦承志;: "试论地学信息图谱思想的内涵与传承", 地球信息科学学报, no. 04 *
韩磊;李君峰;贾云得;: "基于时空单词的两人交互行为识别方法", 计算机学报, no. 04 *

Also Published As

Publication number Publication date
CN116363566B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
Babiker et al. Automated daily human activity recognition for video surveillance using neural network
Chung et al. An efficient hand gesture recognition system based on deep CNN
CN107203753B (zh) 一种基于模糊神经网络和图模型推理的动作识别方法
CN109635686B (zh) 结合人脸与外观的两阶段行人搜索方法
Deng et al. Amae: Adaptive motion-agnostic encoder for event-based object classification
CN110298297A (zh) 火焰识别方法和装置
Heo et al. Appearance and motion based deep learning architecture for moving object detection in moving camera
CN109740679A (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
CN115713715B (zh) 一种基于深度学习的人体行为识别方法及识别系统
CN111783619B (zh) 人体属性的识别方法、装置、设备及存储介质
US11494922B2 (en) Object tracking device, object tracking method, and object tracking program
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
CN114519880A (zh) 基于跨模态自监督学习的主动说话人识别方法
CN114049581A (zh) 一种基于动作片段排序的弱监督行为定位方法和装置
Patil et al. An approach of understanding human activity recognition and detection for video surveillance using HOG descriptor and SVM classifier
CN116363566B (zh) 一种基于关系知识图的目标交互关系识别方法
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
Sha et al. An improved two-stream CNN method for abnormal behavior detection
CN113763418B (zh) 一种基于头肩检测的多目标跟踪方法
Ayumi et al. Multimodal decomposable models by superpixel segmentation and point-in-time cheating detection
Nayak et al. Exploiting spatio-temporal scene structure for wide-area activity analysis in unconstrained environments
CN114241363A (zh) 工序识别方法、装置、电子设备和存储介质
Huu et al. Action recognition application using artificial intelligence for smart social surveillance system.
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection
CN114926764A (zh) 一种工业场景下的遗留物检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant