CN116363566B - 一种基于关系知识图的目标交互关系识别方法 - Google Patents

一种基于关系知识图的目标交互关系识别方法 Download PDF

Info

Publication number
CN116363566B
CN116363566B CN202310643957.7A CN202310643957A CN116363566B CN 116363566 B CN116363566 B CN 116363566B CN 202310643957 A CN202310643957 A CN 202310643957A CN 116363566 B CN116363566 B CN 116363566B
Authority
CN
China
Prior art keywords
interaction
representing
targets
target
video image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310643957.7A
Other languages
English (en)
Other versions
CN116363566A (zh
Inventor
涂宏斌
徐任玉
李启翔
彭圆圆
胡剑文
章翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202310643957.7A priority Critical patent/CN116363566B/zh
Publication of CN116363566A publication Critical patent/CN116363566A/zh
Application granted granted Critical
Publication of CN116363566B publication Critical patent/CN116363566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于关系知识图的目标交互关系识别方法,所述方法包括以下步骤:S1、构建用于判断多人交互场景中目标是否存在交互行为的交互估计框架;S2、基于所述交互估计框架提取输入训练图像中的特征信息,进而构建关系知识图;S3、提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。本发明通过提取输入视频图像中信息逻辑关系并构建关系知识图,并将关系知识图融入到交互关系的识别中,进而不同场景,不同物品,不同动作之间联系起来,有效增强了输入视频图像中交互关系的识别准确性。

Description

一种基于关系知识图的目标交互关系识别方法
技术领域
本发明涉及图像识别处理技术领域,尤其涉及一种基于关系知识图的目标交互关系识别方法。
背景技术
随着计算机的计算能力不断提高,基于现有识别技术已经能够对单人行为做出十分有效的识别,但在多人交互行为识别方面,大多是开发一个复杂度不断增加的模型,用以解决检测、识别、跟着、姿态估计等多个子任务,将多种功能的模块通过简单集成而达成复杂目的的方法看似是合理的,但它有一定的局限性。首先,大多数先进的检测方法难以联合优化多目标,因此,贪婪的非最优决策很常见;其次,对每个对象的特征提取忽略了大量的上下文信息和先验知识推理作用,因为一些具有交互关系的人体物体的位置与其动作和背景可以是高度相关。
由此可见,检测多人交互行为仅仅是一项初步的工作,更重要的是对交互行为进行识别和分类,现有的一些方法,大多是基于人物的动作特征构建相互模型,进而对交互进行分类;也有一些比较复杂的模型,将背景环境和上下文信息融入人物的动作特征,从而构建人物-背景相结合的交互模型,并取得了不错的效果,但上述的方法都存在一个明显的缺点:缺乏对人物关系的考虑,因为在不同的人物关系下,相同的动作可能代表不同的含义,例如,同样的打斗动作,在陌生人之间,就是矛盾冲突,在熟人关系之间,就可能是嬉戏打闹,因此,如何识别人物关系,从而进一步帮助机器理解人物交互行为,是一个需要解决的问题。
发明内容
为了解决上述技术问题,本发明提供了一种基于关系知识图的目标交互关系识别方法,所述包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
优选地,所述交互估计框架判断视频图像中的目标是否存在交互行为的具体实现方式包括:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间、非重叠移动时间/>和群体移动时间,并假设非重叠移动时间/>与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间、非重叠移动时间/>和群体移动时间/>,其中,/>、/>分别表示第/>个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
S13、基于步骤S12的计算结果,选取非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S15、重复步骤S14,直至所有目标的非重叠移动时间均不大于自身的个人移动时间/>,则认为完成多人交互场景中所有潜在交互关系的目标捕捉,进入步骤S16;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间,若其对应的各自群体移动时间均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为。
优选地,所述步骤S2的具体实现方式包括:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图。
优选地,所述步骤S24中所构建的关系知识图用公式表示为:
式中,表示节点集合,/>表示边集合,其中,所述节点是指输入视频图像中的交互关系/>、物体/>和动作/>,边是指物体/>在交互关系/>中出现的概率/>或/和动作/>在交互关系/>中出现的概率/>,/>,/>表示交互关系的种类,/>表示目标的动作特征,/>表示物体的种类。
优选地,所述交互关系分为陌生、熟悉、冲突和竞争四类。
优选地,所述步骤S3的具体实现方式包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
S32、获取待测试输入视频图像中交互目标之间的关系值,用公式表示为:
式中,分别表示具有交互行为的两个交互目标,/>表示两个交互目标之间的动作特征关系函数表达式,/>表示动作特征,/>表示针对提取目标/>的动作特征做群体关系运算,/>表示正则化参数,表示目标/>边界框中心点欧氏距离,/>表示目标边界框的中心坐标,其中,/>表示根据关键程度将提取的动作特征打上标签,/>表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,/>,/>表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
式中,是指/>两个目标的特征/>和/>,/>表示环境特征,/>表示物体特征,/>表示动作特征;
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系。
优选地,所述步骤S34的具体实现方式包括:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
式中,表示检测到的目标动作个数和物体个数,/>表示检测到的目标动作特征值和物体特征值;
S342、从所述场景矩阵中抽取个特征向量,用公式表示为:
S343、将步骤S24所构建的关系知识图作为第二次图卷积的相关矩阵,步骤S342所抽取的特征向量作为第二次图卷积的特征输入进行第二次图卷积处理,其中,第二次图卷积处理过程用公式表示为:
式中,表示第二次图卷积,/>表示融合关系知识图的特征向量;
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
式中,表示动作特征、物体特征与交互关系之间的相关率,相关率表示交互场景中出现的动作和物体在关系知识图中与交互关系的相关度,其采用条件概率的计算方式进行计算,即根据构建好的关系知识图计算在某一交互关系出现时,已检测到的物体特征和动作特征出现的频率;/>表示矩阵/>中的值,/>表示检测到的动作和物体的个数,/>表示检测到的动作和物体的特征值,/>表示动作个数。
与现有技术比较,本发明利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取,进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图,基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析,进而识别出待测试输入视频图像的多人交互关系。首先,本发明采用轻量化检测模型(即交互估计框架和ResNet-101算法)提取输入视频图像中的关键特征信息,进而避免了因为整合过多检测模型而造成鲁棒性差的问题,其次,本发明将关键特征信息的逻辑关系进行提取并构建关系知识图,即将大量重复性工作放在前期完成并能够重复使用,当需要处理不同场景的数据时,只需要将数据处理后对关系知识图进行更新,并不需要将整个检测模型重新进行训练;而且,通过提取简单的关键特征,并建立大量的交互关系,将不同场景,不同物品,不同动作之间联系起来,使得检测结果是基于大量现实逻辑而得,对交互关系的识别更细致,更合理,本发明基于知识图逻辑性强的特点,能够有效增强输入视频图像中交互关系的识别准确性。
附图说明
图1是本发明中一种基于关系知识图的目标交互关系识别方法的流程图;
图2是本发明中基于交互估计框架和ResNet-101算法提取特征信息的结构图;
图3是本发明中关系知识图的示意图;
图4是本发明中构建交互场景图的流程图;
图5是本发明中基于关系知识图和交互场景图识别目标交互关系的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
如图1-图5所示,本实施例提供了一种基于关系知识图的目标交互关系识别方法,所述方法包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为;
在本步骤中,所述交互估计框架判断多人交互场景中目标是否存在交互行为的具体实现方式包括:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间、非重叠移动时间/>和群体移动时间,并假设非重叠移动时间/>与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间、非重叠移动时间/>和群体移动时间/>,其中,/>、/>分别表示第/>个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
S13、基于步骤S12的计算结果,选取非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S15、重复步骤S14,直至所有目标的非重叠移动时间均不大于自身的个人移动时间/>,则认为完成多人交互场景中所有潜在交互关系的目标捕捉,进入步骤S16;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间,若其对应的各自群体移动时间均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为,该步骤中的预设标准值根据实际情况设定;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
本步骤具体为:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;该步骤中,利用开源且有效的人体关键点标注算法Openpose能够获取人体骨架,而通过图卷积网络对人体骨架进行处理后获取到人体姿态特征,进而识别出该人体的具体动作;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
基于步骤S21和步骤S22的交互估计框架和ResNet-101算法结合对输入视频图像中的特征信息进行提取,能够在保证识别精度的同时降低对计算力的要求;同时,基于步骤S23处理大量的训练数据,这里的训练数据来自各种已知人物关系的交互场景中,因而既能够得到需要的特征数据,又能够加快处理训练数据的速度;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图;该步骤中,在通过步骤S23的大量数据训练后,即可得到一张完备的关系知识图,该关系知识图的作用只是将不同类别的物体、动作和场景联系起来,其数据量只与物体、动作的类别相关,与数量无关,因此,该关系知识图并没有太多的数据量;其中,所述关系知识图用公式表示为:
式中,表示节点集合,/>表示边集合,其中,所述节点是指输入视频图像中的交互关系/>、物体/>和动作/>,边是指物体/>在交互关系/>中出现的概率/>或/和动作/>在交互关系/>中出现的概率/>,/>,/>表示交互关系的种类,/>表示目标的动作特征,/>表示物体的种类;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
本步骤具体包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
S32、获取待测试输入视频图像中交互目标之间的关系值,用公式表示为:
式中,分别表示具有交互行为的两个交互目标,/>表示两个交互目标之间的动作特征关系函数表达式,/>表示动作特征,/>表示针对提取目标/>的动作特征做群体关系运算,/>表示正则化参数,表示目标/>边界框中心点欧氏距离,/>表示目标边界框的中心坐标,其中,/>表示根据关键程度将提取的动作特征打上标签,/>表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,即可认为在交互中,重要的关键性动作往往持续比较短,,/>表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
式中,是指/>两个目标的特征/>和/>,/>表示环境特征,/>表示物体特征,/>表示动作特征,/>两个目标的特征值/>和/>作为交互场景图的节点,/>两个目标之间的关系值作为交互场景图的边,进而构建出交互场景图,在处理输入视频图像过程中,是对输入视频图像的每一帧进行处理最后整合,在一个输入视频图像中,人物可能呈现出不同的动作特征,每一个动作特征都可能影响到人物关系,因此,需要对不同的动作特征全部进行捕捉整合;
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系,具体为:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
式中,表示实数集,/>表示检测到的目标动作个数和物体个数,/>表示检测到的目标动作特征值和物体特征值;
S342、从所述场景矩阵中抽取个特征向量,用公式表示为:
S343、将步骤S24所构建的关系知识图作为第二次图卷积的相关矩阵,步骤S342所抽取的特征向量作为第二次图卷积的特征输入进行第二次图卷积处理,其中,第二次图卷积处理过程用公式表示为:
式中,表示第二次图卷积,/>表示融合关系知识图的特征向量;
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
式中,表示动作特征、物体特征与交互关系之间的相关率,相关率表示交互场景中出现的动作和物体在关系知识图中与交互关系的相关度,其采用条件概率的计算方式进行计算,即根据构建好的关系知识图计算在某一交互关系出现时,已检测到的物体特征和动作特征出现的频率;/>表示矩阵/>中的值,/>表示检测到的动作和物体的个数,/>表示检测到的动作和物体的特征值,/>表示动作个数。
本实施例中,需要说明的是,所述交互关系分为陌生、熟悉、冲突和竞争四类。其中,所述输入视频图像输出的多人交互关系具体为陌生、熟悉、冲突和竞争四类中的一种,从而实现多人交互关系的识别,图3中节点之间的连接线越粗,则说明节点之间的相关性越强;其中,预设得分函数对步骤S344的运算结果进行评分,基于最后得分交互关系进行分类,不同的交互关系之间的得分不同,偏陌生的交互关系之间的得分较低,目标交互关系多的竞争或敌视之间的得分较高,即评分从低到高依次对应的交互关系为:陌生、熟悉、竞争、冲突,其划分依据为:随着交互关系的变化,动作特征和物体的出现频率会依次提高。面对有类似动作出现的竞争与冲突场景,甚至是熟悉的双方发生的打闹场景,在引入关系知识图之前,仅仅依靠动作和物体评分很容易错判,而通过融入关系知识图能够将动作、物体与交互关系进行联系,进而指导和改变对场景中动作的识别,从而有效降低错判的概率。
本实施例中,利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取,进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图,基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析,进而识别出待测试输入视频图像的多人交互关系。首先,本发明采用轻量化检测模型(即交互估计框架和ResNet-101算法)提取输入视频图像中的关键特征信息,进而避免了因为整合过多检测模型而造成鲁棒性差的问题,其次,本发明将关键特征信息的逻辑关系进行提取并构建关系知识图,即将大量重复性工作放在前期完成并能够重复使用,当需要处理不同场景的数据时,只需要将数据处理后对关系知识图进行更新,并不需要将整个检测模型重新进行训练;而且,通过提取简单的关键特征,并建立大量的交互关系,将不同场景,不同物品,不同动作之间联系起来,使得检测结果是基于大量现实逻辑而得,对交互关系的识别更细致,更合理,本发明基于知识图逻辑性强的特点,能够有效增强输入视频图像中交互关系的识别准确性。
以上对本发明所提供的一种基于关系知识图的目标交互关系识别方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (3)

1.一种基于关系知识图的目标交互关系识别方法,其特征在于,所述方法包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为,具体为:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间、非重叠移动时间/>和群体移动时间,并假设非重叠移动时间/>与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间、非重叠移动时间/>和群体移动时间/>,其中,/>、/>和/>分别表示第/>个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
S13、基于步骤S12的计算结果,选取非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S15、重复步骤S14,直至所有目标的非重叠移动时间均不大于自身的个人移动时间/>,则认为完成多人交互场景中所有潜在交互关系的目标捕捉,进入步骤S16;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间,若其对应的各自群体移动时间均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
所述步骤S2的具体实现方式包括:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图;
所述步骤S24中所构建的关系知识图用公式表示为:
式中,表示节点集合,/>表示边集合,其中,所述节点是指输入视频图像中的交互关系/>、物体/>和动作/>,边是指物体/>在交互关系/>中出现的概率/>或/和动作/>在交互关系/>中出现的概率/>,/>,/>表示交互关系的种类,/>表示目标的动作特征,/>表示物体的种类;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断;
所述步骤S3的具体实现方式包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
S32、获取待测试输入视频图像中交互目标之间的关系值,用公式表示为:
式中,分别表示具有交互行为的两个交互目标,/>表示两个交互目标之间的动作特征关系函数表达式,/>表示动作特征,/>表示针对提取目标/>的动作特征做群体关系运算,/>表示正则化参数,表示目标/>边界框中心点欧氏距离,/>表示目标边界框的中心坐标,其中,/>表示根据关键程度将提取的动作特征打上标签,/>表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,/>,/>表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
式中,是指/>两个目标的特征值/>和/>,/>表示环境特征,/>表示物体特征,/>表示动作特征;
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系。
2.如权利要求1所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述交互关系分为陌生、熟悉、冲突和竞争四类。
3.如权利要求1所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S34的具体实现方式包括:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
式中,表示实数集,/>表示检测到的目标动作个数和物体个数,/>表示检测到的目标动作特征值和物体特征值;
S342、从所述场景矩阵中抽取个特征向量,用公式表示为:
S343、将步骤S24所构建的关系知识图作为第二次图卷积的相关矩阵,步骤S342所抽取的特征向量作为第二次图卷积的特征输入进行第二次图卷积处理,其中,第二次图卷积处理过程用公式表示为:
式中,表示第二次图卷积,/>表示融合关系知识图的特征向量;
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
式中,表示动作特征、物体特征与交互关系之间的相关率,/>表示矩阵/>中的值,/>表示检测到的动作和物体的个数,/>表示检测到的动作和物体的特征值,/>表示动作个数。
CN202310643957.7A 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法 Active CN116363566B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310643957.7A CN116363566B (zh) 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310643957.7A CN116363566B (zh) 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法

Publications (2)

Publication Number Publication Date
CN116363566A CN116363566A (zh) 2023-06-30
CN116363566B true CN116363566B (zh) 2023-10-17

Family

ID=86928525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310643957.7A Active CN116363566B (zh) 2023-06-02 2023-06-02 一种基于关系知识图的目标交互关系识别方法

Country Status (1)

Country Link
CN (1) CN116363566B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
CN112528966A (zh) * 2021-02-05 2021-03-19 华东交通大学 一种取款人周边环境智能监控识别方法、装置及介质
WO2021212922A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种对象拖拽方法及设备
WO2021212388A1 (zh) * 2020-04-22 2021-10-28 南京阿凡达机器人科技有限公司 一种交互沟通实现方法、设备和存储介质
CN114386774A (zh) * 2021-12-21 2022-04-22 中国中煤能源集团有限公司 基于cpim的选煤厂三维可视化全生命周期管理平台
CN114399606A (zh) * 2021-12-24 2022-04-26 中国科学院自动化研究所 基于立体可视化的交互展示系统、方法、设备
CN114399838A (zh) * 2022-01-18 2022-04-26 深圳市广联智通科技有限公司 基于姿态估计和二重分类的多人行为识别方法及系统
CN114519132A (zh) * 2020-11-18 2022-05-20 北京大学 一种基于公式引用图的公式检索方法与装置
CN115359394A (zh) * 2022-08-17 2022-11-18 杭州菩公英科技有限公司 一种基于多模态融合的识别方法及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220156582A1 (en) * 2020-11-13 2022-05-19 Accenture Global Solutions Limited Generating Knowledge Graphs From Conversational Data

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492581A (zh) * 2018-11-09 2019-03-19 中国石油大学(华东) 一种基于tp-stg框架的人体动作识别方法
CN110378281A (zh) * 2019-07-17 2019-10-25 青岛科技大学 基于伪3d卷积神经网络的组群行为识别方法
WO2021212388A1 (zh) * 2020-04-22 2021-10-28 南京阿凡达机器人科技有限公司 一种交互沟通实现方法、设备和存储介质
WO2021212922A1 (zh) * 2020-04-24 2021-10-28 华为技术有限公司 一种对象拖拽方法及设备
CN114519132A (zh) * 2020-11-18 2022-05-20 北京大学 一种基于公式引用图的公式检索方法与装置
CN112528966A (zh) * 2021-02-05 2021-03-19 华东交通大学 一种取款人周边环境智能监控识别方法、装置及介质
CN114386774A (zh) * 2021-12-21 2022-04-22 中国中煤能源集团有限公司 基于cpim的选煤厂三维可视化全生命周期管理平台
CN114399606A (zh) * 2021-12-24 2022-04-26 中国科学院自动化研究所 基于立体可视化的交互展示系统、方法、设备
CN114399838A (zh) * 2022-01-18 2022-04-26 深圳市广联智通科技有限公司 基于姿态估计和二重分类的多人行为识别方法及系统
CN115359394A (zh) * 2022-08-17 2022-11-18 杭州菩公英科技有限公司 一种基于多模态融合的识别方法及其应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multiperson Interactive Activity Recognition Based on Interaction Relation Model;tu hongbin等;web of science;全文 *
基于时空单词的两人交互行为识别方法;韩磊;李君峰;贾云得;;计算机学报(04);全文 *
试论地学信息图谱思想的内涵与传承;张洪岩;周成虎;闾国年;吴志峰;陆锋;王劲峰;岳天祥;骆剑承;葛咏;秦承志;;地球信息科学学报(04期);全文 *

Also Published As

Publication number Publication date
CN116363566A (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
Babiker et al. Automated daily human activity recognition for video surveillance using neural network
Chung et al. An efficient hand gesture recognition system based on deep CNN
CN107203753B (zh) 一种基于模糊神经网络和图模型推理的动作识别方法
CN109635686B (zh) 结合人脸与外观的两阶段行人搜索方法
Deng et al. Amae: Adaptive motion-agnostic encoder for event-based object classification
US10922531B2 (en) Face recognition method
CN110298297A (zh) 火焰识别方法和装置
CN109740679A (zh) 一种基于卷积神经网络和朴素贝叶斯的目标识别方法
WO2018107492A1 (zh) 基于直觉模糊随机森林的目标跟踪方法及装置
CN111783619B (zh) 人体属性的识别方法、装置、设备及存储介质
US11494922B2 (en) Object tracking device, object tracking method, and object tracking program
CN114049581A (zh) 一种基于动作片段排序的弱监督行为定位方法和装置
US20200005444A1 (en) Systems and methods of feature correspondence analysis
Avola et al. A shape comparison reinforcement method based on feature extractors and f1-score
CN116363566B (zh) 一种基于关系知识图的目标交互关系识别方法
CN113221667A (zh) 一种基于深度学习的人脸口罩属性分类方法及系统
CN108197593B (zh) 基于三点定位方法的多尺寸人脸表情识别方法及装置
Sha et al. An improved two-stream CNN method for abnormal behavior detection
CN113763418B (zh) 一种基于头肩检测的多目标跟踪方法
Abayomi-Alli et al. Facial image quality assessment using an ensemble of pre-trained deep learning models (EFQnet)
CN114241363A (zh) 工序识别方法、装置、电子设备和存储介质
Ayumi et al. Multimodal decomposable models by superpixel segmentation and point-in-time cheating detection
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection
Huu et al. Action recognition application using artificial intelligence for smart social surveillance system.
CN114926764A (zh) 一种工业场景下的遗留物检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant