CN116363566A - 一种基于关系知识图的目标交互关系识别方法 - Google Patents
一种基于关系知识图的目标交互关系识别方法 Download PDFInfo
- Publication number
- CN116363566A CN116363566A CN202310643957.7A CN202310643957A CN116363566A CN 116363566 A CN116363566 A CN 116363566A CN 202310643957 A CN202310643957 A CN 202310643957A CN 116363566 A CN116363566 A CN 116363566A
- Authority
- CN
- China
- Prior art keywords
- interaction
- target
- targets
- representing
- video image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 209
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000002452 interceptive effect Effects 0.000 claims abstract description 17
- 230000006399 behavior Effects 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 14
- 239000013598 vector Substances 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于关系知识图的目标交互关系识别方法,所述方法包括以下步骤:S1、构建用于判断多人交互场景中目标是否存在交互行为的交互估计框架;S2、基于所述交互估计框架提取输入训练图像中的特征信息,进而构建关系知识图;S3、提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。本发明通过提取输入视频图像中信息逻辑关系并构建关系知识图,并将关系知识图融入到交互关系的识别中,进而不同场景,不同物品,不同动作之间联系起来,有效增强了输入视频图像中交互关系的识别准确性。
Description
技术领域
本发明涉及图像识别处理技术领域,尤其涉及一种基于关系知识图的目标交互关系识别方法。
背景技术
随着计算机的计算能力不断提高,基于现有识别技术已经能够对单人行为做出十分有效的识别,但在多人交互行为识别方面,大多是开发一个复杂度不断增加的模型,用以解决检测、识别、跟着、姿态估计等多个子任务,将多种功能的模块通过简单集成而达成复杂目的的方法看似是合理的,但它有一定的局限性。首先,大多数先进的检测方法难以联合优化多目标,因此,贪婪的非最优决策很常见;其次,对每个对象的特征提取忽略了大量的上下文信息和先验知识推理作用,因为一些具有交互关系的人体物体的位置与其动作和背景可以是高度相关。
由此可见,检测多人交互行为仅仅是一项初步的工作,更重要的是对交互行为进行识别和分类,现有的一些方法,大多是基于人物的动作特征构建相互模型,进而对交互进行分类;也有一些比较复杂的模型,将背景环境和上下文信息融入人物的动作特征,从而构建人物-背景相结合的交互模型,并取得了不错的效果,但上述的方法都存在一个明显的缺点:缺乏对人物关系的考虑,因为在不同的人物关系下,相同的动作可能代表不同的含义,例如,同样的打斗动作,在陌生人之间,就是矛盾冲突,在熟人关系之间,就可能是嬉戏打闹,因此,如何识别人物关系,从而进一步帮助机器理解人物交互行为,是一个需要解决的问题。
发明内容
为了解决上述技术问题,本发明提供了一种基于关系知识图的目标交互关系识别方法,所述包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
优选地,所述交互估计框架判断视频图像中的目标是否存在交互行为的具体实现方式包括:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间、非重叠移动时间/>和群体移动时间/>,并假设非重叠移动时间/>与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间、非重叠移动时间/>和群体移动时间/>,其中,/>、/>和/>分别表示第/>个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
S13、基于步骤S12的计算结果,选取非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间,若其对应的各自群体移动时间均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为。
优选地,所述步骤S2的具体实现方式包括:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图。
优选地,所述步骤S24中所构建的关系知识图用公式表示为:
式中,表示节点集合,/>表示边集合,其中,所述节点是指输入视频图像中的交互关系/>、物体/>和动作/>,边是指物体/>在交互关系/>中出现的概率/>或/和动作/>在交互关系/>中出现的概率/>,/>,/>表示交互关系的种类,/>表示目标的动作特征,/>表示物体的种类。
优选地,所述交互关系分为陌生、熟悉、冲突和竞争四类。
优选地,所述步骤S3的具体实现方式包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
式中,分别表示具有交互行为的两个交互目标,/>表示两个交互目标之间的动作特征关系函数表达式,/>表示动作特征,/>表示针对提取目标/>的动作特征做群体关系运算,/>表示正则化参数,/>表示目标/>边界框中心点欧氏距离,/>表示目标边界框的中心坐标,其中,/>表示根据关键程度将提取的动作特征打上标签,/>表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,/>,/>表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系。
优选地,所述步骤S34的具体实现方式包括:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
式中,表示动作特征、物体特征与交互关系之间的相关率,相关率表示交互场景中出现的动作和物体在关系知识图中与交互关系的相关度,其采用条件概率的计算方式进行计算,即根据构建好的关系知识图计算在某一交互关系出现时,已检测到的物体特征和动作特征出现的频率;/>表示矩阵/>中的值,/>表示检测到的动作和物体的个数,表示检测到的动作和物体的特征值,/>表示动作个数。
与现有技术比较,本发明利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取,进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图,基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析,进而识别出待测试输入视频图像的多人交互关系。首先,本发明采用轻量化检测模型(即交互估计框架和ResNet-101算法)提取输入视频图像中的关键特征信息,进而避免了因为整合过多检测模型而造成鲁棒性差的问题,其次,本发明将关键特征信息的逻辑关系进行提取并构建关系知识图,即将大量重复性工作放在前期完成并能够重复使用,当需要处理不同场景的数据时,只需要将数据处理后对关系知识图进行更新,并不需要将整个检测模型重新进行训练;而且,通过提取简单的关键特征,并建立大量的交互关系,将不同场景,不同物品,不同动作之间联系起来,使得检测结果是基于大量现实逻辑而得,对交互关系的识别更细致,更合理,本发明基于知识图逻辑性强的特点,能够有效增强输入视频图像中交互关系的识别准确性。
附图说明
图1是本发明中一种基于关系知识图的目标交互关系识别方法的流程图;
图2是本发明中基于交互估计框架和ResNet-101算法提取特征信息的结构图;
图3是本发明中关系知识图的示意图;
图4是本发明中构建交互场景图的流程图;
图5是本发明中基于关系知识图和交互场景图识别目标交互关系的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
如图1-图5所示,本实施例提供了一种基于关系知识图的目标交互关系识别方法,所述方法包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为;
在本步骤中,所述交互估计框架判断多人交互场景中目标是否存在交互行为的具体实现方式包括:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间、非重叠移动时间/>和群体移动时间/>,并假设非重叠移动时间/>与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间、非重叠移动时间/>和群体移动时间/>,其中,/>、/>和/>分别表示第/>个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
S13、基于步骤S12的计算结果,选取非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间,若其对应的各自群体移动时间均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为,该步骤中的预设标准值根据实际情况设定;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
本步骤具体为:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;该步骤中,利用开源且有效的人体关键点标注算法Openpose能够获取人体骨架,而通过图卷积网络对人体骨架进行处理后获取到人体姿态特征,进而识别出该人体的具体动作;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
基于步骤S21和步骤S22的交互估计框架和ResNet-101算法结合对输入视频图像中的特征信息进行提取,能够在保证识别精度的同时降低对计算力的要求;同时,基于步骤S23处理大量的训练数据,这里的训练数据来自各种已知人物关系的交互场景中,因而既能够得到需要的特征数据,又能够加快处理训练数据的速度;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图;该步骤中,在通过步骤S23的大量数据训练后,即可得到一张完备的关系知识图,该关系知识图的作用只是将不同类别的物体、动作和场景联系起来,其数据量只与物体、动作的类别相关,与数量无关,因此,该关系知识图并没有太多的数据量;其中,所述关系知识图用公式表示为:
式中,表示节点集合,/>表示边集合,其中,所述节点是指输入视频图像中的交互关系/>、物体/>和动作/>,边是指物体/>在交互关系/>中出现的概率/>或/和动作/>在交互关系/>中出现的概率/>,/>,/>表示交互关系的种类,/>表示目标的动作特征,/>表示物体的种类;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
本步骤具体包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
式中,分别表示具有交互行为的两个交互目标,/>表示两个交互目标之间的动作特征关系函数表达式,/>表示动作特征,/>表示针对提取目标/>的动作特征做群体关系运算,/>表示正则化参数,/>表示目标/>边界框中心点欧氏距离,/>表示目标边界框的中心坐标,其中,/>表示根据关键程度将提取的动作特征打上标签,/>表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,即可认为在交互中,重要的关键性动作往往持续比较短,/>,/>表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
式中,是指/>两个目标的特征/>和/>,/>,,/>表示环境特征,/>表示物体特征,/>表示动作特征,/>两个目标的特征值/>和/>作为交互场景图的节点,/>两个目标之间的关系值作为交互场景图的边,进而构建出交互场景图,在处理输入视频图像过程中,是对输入视频图像的每一帧进行处理最后整合,在一个输入视频图像中,人物可能呈现出不同的动作特征,每一个动作特征都可能影响到人物关系,因此,需要对不同的动作特征全部进行捕捉整合;
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系,具体为:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
式中,表示动作特征、物体特征与交互关系之间的相关率,相关率表示交互场景中出现的动作和物体在关系知识图中与交互关系的相关度,其采用条件概率的计算方式进行计算,即根据构建好的关系知识图计算在某一交互关系出现时,已检测到的物体特征和动作特征出现的频率;/>表示矩阵/>中的值,/>表示检测到的动作和物体的个数,表示检测到的动作和物体的特征值,/>表示动作个数。
本实施例中,需要说明的是,所述交互关系分为陌生、熟悉、冲突和竞争四类。其中,所述输入视频图像输出的多人交互关系具体为陌生、熟悉、冲突和竞争四类中的一种,从而实现多人交互关系的识别,图3中节点之间的连接线越粗,则说明节点之间的相关性越强;其中,预设得分函数对步骤S344的运算结果进行评分,基于最后得分交互关系进行分类,不同的交互关系之间的得分不同,偏陌生的交互关系之间的得分较低,目标交互关系多的竞争或敌视之间的得分较高,即评分从低到高依次对应的交互关系为:陌生、熟悉、竞争、冲突,其划分依据为:随着交互关系的变化,动作特征和物体的出现频率会依次提高。面对有类似动作出现的竞争与冲突场景,甚至是熟悉的双方发生的打闹场景,在引入关系知识图之前,仅仅依靠动作和物体评分很容易错判,而通过融入关系知识图能够将动作、物体与交互关系进行联系,进而指导和改变对场景中动作的识别,从而有效降低错判的概率。
本实施例中,利用所构建的交互估计框架和ResNet-101算法可对输入视频图像中的动作特征信息和交互目标信息以及背景物体特征进行检测提取,进而利用所提取的特征信息构建训练数据集中输入视频图像对应的关系知识图以及待测试输入视频图像对应的交互场景图,基于关系知识图和交互场景图对待测试输入视频图像进行交互关系分析,进而识别出待测试输入视频图像的多人交互关系。首先,本发明采用轻量化检测模型(即交互估计框架和ResNet-101算法)提取输入视频图像中的关键特征信息,进而避免了因为整合过多检测模型而造成鲁棒性差的问题,其次,本发明将关键特征信息的逻辑关系进行提取并构建关系知识图,即将大量重复性工作放在前期完成并能够重复使用,当需要处理不同场景的数据时,只需要将数据处理后对关系知识图进行更新,并不需要将整个检测模型重新进行训练;而且,通过提取简单的关键特征,并建立大量的交互关系,将不同场景,不同物品,不同动作之间联系起来,使得检测结果是基于大量现实逻辑而得,对交互关系的识别更细致,更合理,本发明基于知识图逻辑性强的特点,能够有效增强输入视频图像中交互关系的识别准确性。
以上对本发明所提供的一种基于关系知识图的目标交互关系识别方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (6)
1.一种基于关系知识图的目标交互关系识别方法,其特征在于,所述方法包括以下步骤:
S1、构建用于捕捉输入视频图像中目标交互行为的交互估计框架,并基于所述交互估计框架判断视频图像中的目标是否存在交互行为,具体为:
S11、构建交互估计框架并利用目标检测器将输入视频图像中的目标框出,在交互估计框架中定义三个指标:个人移动时间、非重叠移动时间/>和群体移动时间/>,并假设非重叠移动时间/>与交互行为的发生概率成正比;
S12、基于视频图像中的多人交互场景,分别计算每一个目标的个人移动时间、非重叠移动时间/>和群体移动时间/>,其中,/>、/>和/>分别表示第/>个人的个人移动时间、非重叠移动时间和群体移动时间,用公式表示为:
S13、基于步骤S12的计算结果,选取非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>,若是,则判断该两个目标存在潜在交互关系,然后进入步骤S14;
S14、选取剩余目标中非重叠移动时间最高的两个目标,并判断该两个目标各自的非重叠移动时间/>是否大于自身的个人移动时间/>之间的差值,若是,则判断该两个目标存在潜在交互关系,然后更新目标的潜在交互关系,并将新获取的两个目标与步骤S13中所获取的两个目标相关联;
S16、基于预设标准值和所获取所有存在潜在交互关系的目标,并分别计算每一对存在潜在交互关系目标对应的各自群体移动时间,若其对应的各自群体移动时间/>均不小于预设标准值,则判断该对目标存在交互行为,否则不存在交互行为;
S2、利用交互估计框架和ResNet-101算法提取训练数据集中输入视频图像的目标动作特征和背景物体特征,进而构建关系知识图;
S3、利用交互估计框架和ResNet-101算法提取待测试视频图像中目标的动作特征和交互目标位置特征以及背景物体特征,进而构建交互场景图,然后基于所构建的关系知识图和交互场景图对待测试视频图像中的多人交互关系进行识别判断。
2.如权利要求1所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S2的具体实现方式包括:
S21、通过所述交互估计框架确定输入视频图像中存在交互行为的目标,并基于人体关键点标注算法和图卷积网络获取人体姿态特征,然后基于所获取的人体姿态特征识别出该目标的动作特征;
S22、基于ResNet-101算法直接识别出输入视频图像交互场景中的背景物体特征;
S23、重复步骤S21和步骤S22,直至完成所有训练数据集中输入视频图像的处理,进入步骤S24;
S24、基于所识别出的目标动作特征和背景物体特征,构建关系知识图。
4.如权利要求3所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述交互关系分为陌生、熟悉、冲突和竞争四类。
5.如权利要求4所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S3的具体实现方式包括:
S31、基于交互估计框架提取待测试输入视频图像中目标的动作特征和交互目标位置特征,同时利用ResNet-101算法提取待测试视频图像中交互场景的背景物体特征;
式中,分别表示具有交互行为的两个交互目标,/>表示两个交互目标之间的动作特征关系函数表达式,/>表示动作特征,/>表示针对提取目标/>的动作特征做群体关系运算,/>表示正则化参数,/>表示目标/>边界框中心点欧氏距离,/>表示目标边界框的中心坐标,其中,/>表示根据关键程度将提取的动作特征打上标签,/>表示目标动作特征因子,即在该待测试输入视频图像中目标动作特征的帧数占总帧数的比例,/>,/>表示该待测试输入视频图像中所有动作特征因子;
S33、计算两个交互目标之间的关系值,进而构建交互场景图,所述交互场景图用公式表示为:
S34、基于步骤S24所构建的关系知识图以及步骤S33所构建的交互场景图识别判断待测试输入视频图像中的多人交互关系。
6.如权利要求5所述的基于关系知识图的目标交互关系识别方法,其特征在于,所述步骤S34的具体实现方式包括:
S341、将所构建的交互场景图进行第一次图卷积处理,得到场景矩阵,用公式表示为:
S344、将步骤S343融合关系知识图的特征向量与场景矩阵作运算,进而实现了目标动作特征和物体特征的重新调整,运算过程用公式表示为:
S345、基于预设得分函数对步骤S344的运算结果进行评分,从而判断待测试输入视频图像中交互目标的交互关系,所述预设得分函数用公式表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310643957.7A CN116363566B (zh) | 2023-06-02 | 2023-06-02 | 一种基于关系知识图的目标交互关系识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310643957.7A CN116363566B (zh) | 2023-06-02 | 2023-06-02 | 一种基于关系知识图的目标交互关系识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116363566A true CN116363566A (zh) | 2023-06-30 |
CN116363566B CN116363566B (zh) | 2023-10-17 |
Family
ID=86928525
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310643957.7A Active CN116363566B (zh) | 2023-06-02 | 2023-06-02 | 一种基于关系知识图的目标交互关系识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116363566B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492581A (zh) * | 2018-11-09 | 2019-03-19 | 中国石油大学(华东) | 一种基于tp-stg框架的人体动作识别方法 |
CN110378281A (zh) * | 2019-07-17 | 2019-10-25 | 青岛科技大学 | 基于伪3d卷积神经网络的组群行为识别方法 |
CN112528966A (zh) * | 2021-02-05 | 2021-03-19 | 华东交通大学 | 一种取款人周边环境智能监控识别方法、装置及介质 |
WO2021212922A1 (zh) * | 2020-04-24 | 2021-10-28 | 华为技术有限公司 | 一种对象拖拽方法及设备 |
WO2021212388A1 (zh) * | 2020-04-22 | 2021-10-28 | 南京阿凡达机器人科技有限公司 | 一种交互沟通实现方法、设备和存储介质 |
CN114386774A (zh) * | 2021-12-21 | 2022-04-22 | 中国中煤能源集团有限公司 | 基于cpim的选煤厂三维可视化全生命周期管理平台 |
CN114399606A (zh) * | 2021-12-24 | 2022-04-26 | 中国科学院自动化研究所 | 基于立体可视化的交互展示系统、方法、设备 |
CN114399838A (zh) * | 2022-01-18 | 2022-04-26 | 深圳市广联智通科技有限公司 | 基于姿态估计和二重分类的多人行为识别方法及系统 |
US20220156582A1 (en) * | 2020-11-13 | 2022-05-19 | Accenture Global Solutions Limited | Generating Knowledge Graphs From Conversational Data |
CN114519132A (zh) * | 2020-11-18 | 2022-05-20 | 北京大学 | 一种基于公式引用图的公式检索方法与装置 |
CN115359394A (zh) * | 2022-08-17 | 2022-11-18 | 杭州菩公英科技有限公司 | 一种基于多模态融合的识别方法及其应用 |
-
2023
- 2023-06-02 CN CN202310643957.7A patent/CN116363566B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492581A (zh) * | 2018-11-09 | 2019-03-19 | 中国石油大学(华东) | 一种基于tp-stg框架的人体动作识别方法 |
CN110378281A (zh) * | 2019-07-17 | 2019-10-25 | 青岛科技大学 | 基于伪3d卷积神经网络的组群行为识别方法 |
WO2021212388A1 (zh) * | 2020-04-22 | 2021-10-28 | 南京阿凡达机器人科技有限公司 | 一种交互沟通实现方法、设备和存储介质 |
WO2021212922A1 (zh) * | 2020-04-24 | 2021-10-28 | 华为技术有限公司 | 一种对象拖拽方法及设备 |
US20220156582A1 (en) * | 2020-11-13 | 2022-05-19 | Accenture Global Solutions Limited | Generating Knowledge Graphs From Conversational Data |
CN114519132A (zh) * | 2020-11-18 | 2022-05-20 | 北京大学 | 一种基于公式引用图的公式检索方法与装置 |
CN112528966A (zh) * | 2021-02-05 | 2021-03-19 | 华东交通大学 | 一种取款人周边环境智能监控识别方法、装置及介质 |
CN114386774A (zh) * | 2021-12-21 | 2022-04-22 | 中国中煤能源集团有限公司 | 基于cpim的选煤厂三维可视化全生命周期管理平台 |
CN114399606A (zh) * | 2021-12-24 | 2022-04-26 | 中国科学院自动化研究所 | 基于立体可视化的交互展示系统、方法、设备 |
CN114399838A (zh) * | 2022-01-18 | 2022-04-26 | 深圳市广联智通科技有限公司 | 基于姿态估计和二重分类的多人行为识别方法及系统 |
CN115359394A (zh) * | 2022-08-17 | 2022-11-18 | 杭州菩公英科技有限公司 | 一种基于多模态融合的识别方法及其应用 |
Non-Patent Citations (3)
Title |
---|
TU HONGBIN等: "Multiperson Interactive Activity Recognition Based on Interaction Relation Model", WEB OF SCIENCE * |
张洪岩;周成虎;闾国年;吴志峰;陆锋;王劲峰;岳天祥;骆剑承;葛咏;秦承志;: "试论地学信息图谱思想的内涵与传承", 地球信息科学学报, no. 04 * |
韩磊;李君峰;贾云得;: "基于时空单词的两人交互行为识别方法", 计算机学报, no. 04 * |
Also Published As
Publication number | Publication date |
---|---|
CN116363566B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Babiker et al. | Automated daily human activity recognition for video surveillance using neural network | |
Chung et al. | An efficient hand gesture recognition system based on deep CNN | |
CN107203753B (zh) | 一种基于模糊神经网络和图模型推理的动作识别方法 | |
CN109635686B (zh) | 结合人脸与外观的两阶段行人搜索方法 | |
Deng et al. | Amae: Adaptive motion-agnostic encoder for event-based object classification | |
CN110298297A (zh) | 火焰识别方法和装置 | |
Heo et al. | Appearance and motion based deep learning architecture for moving object detection in moving camera | |
CN109740679A (zh) | 一种基于卷积神经网络和朴素贝叶斯的目标识别方法 | |
CN115713715B (zh) | 一种基于深度学习的人体行为识别方法及识别系统 | |
CN111783619B (zh) | 人体属性的识别方法、装置、设备及存储介质 | |
US11494922B2 (en) | Object tracking device, object tracking method, and object tracking program | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN114519880A (zh) | 基于跨模态自监督学习的主动说话人识别方法 | |
CN114049581A (zh) | 一种基于动作片段排序的弱监督行为定位方法和装置 | |
Patil et al. | An approach of understanding human activity recognition and detection for video surveillance using HOG descriptor and SVM classifier | |
CN116363566B (zh) | 一种基于关系知识图的目标交互关系识别方法 | |
CN108197593B (zh) | 基于三点定位方法的多尺寸人脸表情识别方法及装置 | |
Sha et al. | An improved two-stream CNN method for abnormal behavior detection | |
CN113763418B (zh) | 一种基于头肩检测的多目标跟踪方法 | |
Ayumi et al. | Multimodal decomposable models by superpixel segmentation and point-in-time cheating detection | |
Nayak et al. | Exploiting spatio-temporal scene structure for wide-area activity analysis in unconstrained environments | |
CN114241363A (zh) | 工序识别方法、装置、电子设备和存储介质 | |
Huu et al. | Action recognition application using artificial intelligence for smart social surveillance system. | |
Abdulhamied et al. | Real-time recognition of American sign language using long-short term memory neural network and hand detection | |
CN114926764A (zh) | 一种工业场景下的遗留物检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |