CN116311535B - 基于人物交互检测的危险行为分析方法及系统 - Google Patents

基于人物交互检测的危险行为分析方法及系统 Download PDF

Info

Publication number
CN116311535B
CN116311535B CN202310553376.4A CN202310553376A CN116311535B CN 116311535 B CN116311535 B CN 116311535B CN 202310553376 A CN202310553376 A CN 202310553376A CN 116311535 B CN116311535 B CN 116311535B
Authority
CN
China
Prior art keywords
features
action
perception
target
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310553376.4A
Other languages
English (en)
Other versions
CN116311535A (zh
Inventor
任卫红
姜渭博
刘洪海
高宇
许兴隆
董潜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Original Assignee
Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology filed Critical Harbin Institute Of Technology shenzhen Shenzhen Institute Of Science And Technology Innovation Harbin Institute Of Technology
Priority to CN202310553376.4A priority Critical patent/CN116311535B/zh
Publication of CN116311535A publication Critical patent/CN116311535A/zh
Application granted granted Critical
Publication of CN116311535B publication Critical patent/CN116311535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于人物交互检测的危险行为分析方法及系统,该危险行为分析方法包括:步骤1:原始图像经过图像特征提取器进行高级特征提取;步骤2:将步骤1提取出的特征分别送入动作感知模块和目标感知模块进行隐式的动作语义特征提取和显式的目标感知特征提取;步骤3:将步骤2提取出的动作语义特征和目标感知特征送入交互感知模块进行融合,得到包含动作感知特征和目标感知特征的交互特征,所述交互特征被用于最终的人‑物交互预测。本发明的有益效果是:本发明通过人‑物交互检测从细粒度层级上分析人体行为,可实现危险行为精确分析。

Description

基于人物交互检测的危险行为分析方法及系统
技术领域
本发明涉及图像处理技术领域,尤其涉及基于人物交互检测的危险行为分析方法及系统。
背景技术
目前应用计算机视觉识别危险行为识别的方法多为基于目标检测+逻辑判定的方法。
现有的人-物交互检测方法多基于Transformer模型,模型存在的一个问题是它的查询(Query)是随机初始化的,导致了模型易受随机信息的干扰而无法关注关键特征区域。为解决该问题,一些人-物交互检测研究工作提出细化查询的方法来优化模型,引导模型关注特定信息,比如向查询中添加人、物的位置信息,物体的类别信息等显式的实例信息。
现有技术的缺陷是:
1.现有危险行为检测方法忽略了危险行为的人-物交互本质,且逻辑判定的方法鲁棒性差,应用于大规模场景时效果不稳定。
2.现有人-物交互检测方法引导模型关注人、物等实例特征,一定程度上提升了模型的检测能力,但是对于人-物交互检测这种多子任务并存的任务,该方法忽略了关键的动作信息,仍难以为模型提供充分的先验知识,导致了模型的检测能力受限。
发明内容
本发明提供了一种基于人物交互检测的危险行为分析方法,包括如下步骤:
步骤1:原始图像输入图像特征提取器,图像特征提取器从原始图像中提取出图像语义特征;
步骤2:将步骤1提取出的图像语义特征分别送入动作感知模块和目标感知模块进行隐式的动作语义特征提取和显式的目标感知特征提取;
步骤3:将步骤2提取出的动作语义特征和目标感知特征送入交互感知模块进行融合,得到包含动作感知特征和目标感知特征的交互感知特征,所述交互感知特征被用于最终的人-物交互预测。
作为本发明的进一步改进,所述图像特征提取器由卷积神经网络、Transformer编码器和Transformer解码器组成,所述卷积神经网络用于提取初级视觉特征;所述Transformer编码器执行自注意力建立全局特征的关联,完善视觉特征;所述Transformer解码器用于提取视觉特征中的关键特征。
作为本发明的进一步改进,所述卷积神经网络为resnet50,所述Transformer编码器由6层Transformer编码层组成,所述Transformer解码器由6层Transformer解码层组成。
作为本发明的进一步改进,所述动作感知模块包括注意力融合模块,所述注意力融合模块用于融合Transformer解码器输出的L层特征为1层特征,将所述注意力融合模块融合后的特征通过一层线性映射得到实例级别的动作语义特征,实例的数目等于Transformer解码器中Query的数目N,实例级别的动作语义特征对应的是某实例发生某一动作的概率;将实例级别的动作语义特征再经过一层线性映射将N映射为1,得到全局级别的动作语义特征,全局级别的动作语义特征表示整个图片场景下有哪些动作发生;人体姿态特征应用Simple Baseline人体姿态检测网络直接对原始图像检测得到。
本发明还提供了一种基于人物交互检测的危险行为分析系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述危险行为分析方法的步骤。
本发明的有益效果是:
1. 提出用人-物交互检测的方法来做危险行为分析,为危险行为分析提供新思路;
2. 人-物交互检测从细粒度层级上分析人体行为,可实现危险行为精确分析;
3. 所提出的基于交互感知的人-物交互检测模型为Transformer网络提供目标级别的和动作级别的先验知识,帮助网络利用充分的信息来做人-物对的匹配以及交互动作的预测;
4. 所提出的注意力融合模块从全局与实例角度融合动作语义信息,既可以整合上下文信息,又可以实现实例级别的精准动作预测。
附图说明
图1是本发明的流程图;
图2是本发明网络结构示意图;
图3是注意力融合模块结构示意图;
图4是交互感知模块结构示意图。
具体实施方式
如图1所示,本发明公开了一种基于人物交互检测的危险行为分析方法,包括如下步骤:
步骤1:原始图像输入图像特征提取器,图像特征提取器从原始图像中提取出图像语义特征,该图像语义特征将更好地服务于后续的目标感知动作感知任务,原始图像是在医疗、驾驶舱等场景采集到的图像数据;
步骤2:将步骤1提取出的图像语义特征分别送入动作感知模块和目标感知模块进行隐式的动作语义特征提取和显式的目标感知特征提取;
步骤3:将步骤2提取出的动作语义特征和目标感知特征送入交互感知模块进行融合,得到包含动作感知特征和目标感知特征的交互感知特征,所述交互感知特征被用于最终的人-物交互预测。
如图2所示,图像特征提取器由卷积神经网络、Transformer编码器、Transformer解码器组成。卷积神经网络可选择resnet50,用于提取初级视觉特征;Transformer编码器由6层Transformer编码层组成,执行自注意力来建立全局特征的关联,完善视觉特征;Transformer解码器由6层Transformer解码层组成,用来提取视觉特征中的关键特征。
如图2所示,动作感知模块包括注意力融合模块,注意力融合模块用于融合Transformer解码器输出的L层(例如,L层为6层)特征为1层特征,将所述注意力融合模块融合后的特征通过一层线性映射得到实例级别的动作语义特征,实例的数目等于Transformer解码器中Query的数目N,实例级别的动作语义特征对应的是某实例发生某一动作的概率;将实例级别的动作语义特征再经过一层线性映射将N从100映射为1,可取N=100,得到全局级别的动作语义特征 ,全局级别的动作语义特征表示整个图片场景下有哪些动作发生;人体姿态特征应用Simple Baseline人体姿态检测网络直接对原始图像检测得到。其中,全局级别的动作语义特征 和实例级别的动作语义特征 产生相应的动作语义损失:;/>,其中,/>和/>分别表示全局级别的动作语义特征和实例级别的动作语义特征产生相应的动作语义损失;C表示所有的动作数目;/>表示第C种动作类别是否发生在全局动作中,/>表示模型预测的第C种动作类别发生的概率;/>表示第C种动作类别是否发生在第/>个实例上,/>表示模型预测的第C种动作类别发生在第/>个实例上的概率。FL表示FocalLoss损失计算函数。
实例级别的动作语义特征和全局级别的动作语义特征通过动作融合模块进行融合,得到全局与局部多尺度融合的动作语义特征
是Transformer解码器最后一层输出的特征,即,/>是Transformer解码器输出的L层特征。
注意力融合模块如图3所示,其作用是融合Transformer解码器输出的L层特征为1层特征。具体地,本发明开发了用一种基于权重融合的方法来融合这L层特征,其中第L层特征被选为基特征。/>首先经过一层线性映射,该线性映射不改变/>的特征维度。以/>特征的第/>个向量,即/>为例,我们计算它和前面L-1层特征的相同位置上向量,即/>的相似性,后面接一个softmax函数来对其进行归一化处理。该过程可用公式表示为:/>,其中,/>表示前面层的注意力权重;Softmax为归一化函数。然后,这些注意力权重与各自对应的特征相乘再加上基特征得到融合后的特征,该过程可用公式表示为:/>,其中,/>表示第/>层特征和第L层特征之间的相似度权重。
动作融合模块与注意力融合模块结构相同,其中基向量选择为全局级别的动作语义特征,被融合的向量选择为实例级别的动作语义特征/>。融合后的动作语义特征表示为/>
目标感知模块通过一系列多层感知机(MLP)对映射得到目标检测结果,/>表示Transformer模型的解码器输出的最后一层特征,即L层特征里的最后一层,包括:人的位置,物体的位置,物体的类别。其中,每类结果由一个MLP映射得到,MLP的结构为两层线性映射和中间的一个ReLU激活函数。得到这些检测结果后,对这些结果处理得到目标的外观特征、目标的布局特征、目标的语义特征。其中,目标的外观特征直接从/>中获取;目标的布局特征由/>构成,其中,/>分别表示人和物体沿X轴、y轴和二维坐标系上的距离,/>分别表示人和物体所占的面积,/>分别表示人和物体所属位置的交互面积和联合面积;目标的语义特征表示为物体类别信息的编码。最终,目标感知特征/>由目标外观特征、目标布局特征、目标语义特征拼接得到。
交互感知模块如图4所示,用于融合动作语义特征、人体姿态特征/>以及目标感知特征/>。具体地,/>和/>分别通过MLP映射得到/>和/>,来得到相同特征空间下的特征表示。然后,计算/>和/>之间的余弦相似度并得到权重矩阵/>,其中h表示目标检测中得到的人的数目,融合动作语义特征/>和人体姿态特征/>的特征可表示为/>。/>的计算过程如下:/>,/>是/>的转置矩阵。然后,将动作语义特征/>,人体姿态特征/>以及两者融合的特征/>拼接得到动作感知特征/>。然后,动作感知特征与目标感知特征拼接得到交互感知特征/>
被用于生成人-物对候选,我们根据每组人-物对的交互性分数来挑选出交互性最高的K组人-物对,对应的交互性特征也直接从/>提取得到。人-物对的挑选过程产生配对损失:/>,其中,/>表示第K组人物对在标签中是否存在,/>表示预测的第K组人物存在的概率。
进一步地,上述的K组高交互性的人-物对之间的交互性特征通过一个线性映射得到交互感知查询(Query),其中,/>表示/>的维度。/>将被输送到一个Transformer解码器中来探索人-物对中存在的动作信息,Transformer解码器中的交叉注意力模块的Key和Value来自于图像特征提取器中卷积神经网络产生的特征的F,F是卷积神经网络产生的特征,具体是一个三维的H*W*D的特征,并最终得到动作预测y,动作预测过程产生动作预测损失:/>,其中,/>表示第K组人-物对中是否存在第c类动作;/>表示预测的第k组人-物对中存在第c类动作的概率。
进一步地,得到网络训练时的总损失:,其中,均为超参数,/>分别表示实例级别的动作语义损失、全局级别的动作语义损失、动作预测损失、人-物对配对损失。
本发明采用余弦退火策略进行模型训练,模型初始学习率大小设置为10e-5。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种基于人物交互检测的危险行为分析方法,其特征在于,包括如下步骤:
步骤1:原始图像输入图像特征提取器,图像特征提取器从原始图像中提取出图像语义特征;
步骤2:将步骤1提取出的图像语义特征分别送入动作感知模块和目标感知模块进行隐式的动作语义特征提取和显式的目标感知特征提取;
步骤3:将步骤2提取出的动作语义特征和目标感知特征送入交互感知模块进行融合,得到包含动作感知特征和目标感知特征的交互感知特征,所述交互感知特征被用于最终的人-物交互预测;
所述图像特征提取器由卷积神经网络、Transformer编码器和Transformer解码器组成,所述卷积神经网络用于提取初级视觉特征;所述Transformer编码器执行自注意力建立全局特征的关联,完善视觉特征;所述Transformer解码器用于提取视觉特征中的关键特征;
所述动作感知模块包括注意力融合模块,所述注意力融合模块用于融合Transformer解码器输出的层特征为1层特征,将所述注意力融合模块融合后的特征通过一层线性映射得到实例级别的动作语义特征,实例的数目等于Transformer解码器中Query的数目N,实例级别的动作语义特征对应的是某实例发生某一动作的概率;将实例级别的动作语义特征再经过一层线性映射将N映射为1,得到全局级别的动作语义特征,全局级别的动作语义特征表示整个图片场景下有哪些动作发生;人体姿态特征应用Simple Baseline人体姿态检测网络直接对原始图像检测得到;全局级别的动作语义特征和实例级别的动作语义特征产生相应的动作语义损失:
其中,和/>分别表示全局级别的动作语义特征和实例级别的动作语义特征产生相应的动作语义损失;/>表示所有的动作数目;/>表示第/>种动作类别是否发生在全局动作中,/>表示模型预测的第/>种动作类别发生的概率;/>表示第/>种动作类别是否发生在第/>个实例上,/>表示模型预测的第/>种动作类别发生在第/>个实例上的概率;FL表示Focal Loss损失计算函数;
实例级别的动作语义特征和全局级别的动作语义特征通过动作融合模块进行融合,得到全局与局部多尺度融合的动作语义特征
2.根据权利要求1所述的危险行为分析方法,其特征在于:所述卷积神经网络为resnet50,所述Transformer编码器由6层Transformer编码层组成,所述Transformer解码器由6层Transformer解码层组成。
3.根据权利要求1所述的危险行为分析方法,其特征在于:在所述注意力融合模块中,第层特征/>被选为基特征,/>经过一层线性映射,线性映射不改变/>的特征维度;/>特征的第/>个向量,即/>,计算/>和前面/>层特征的相同位置上向量,即的相似性,后面接一个softmax函数来对其进行归一化处理。
4.根据权利要求1所述的危险行为分析方法,其特征在于:所述目标感知模块通过多层感知机MLP对映射得到目标检测结果,/>表示Transformer模型的解码器输出的最后一层特征,其中,每类结果由一个MLP映射得到,MLP的结构为两层线性映射和中间的一个ReLU激活函数;得到检测结果后,对目标检测结果处理得到目标的外观特征、目标的布局特征、目标的语义特征,其中,目标的外观特征直接从/>中获取;目标的布局特征由构成,其中,/>分别表示人和物体沿x轴、y轴和二维坐标系上的距离,/>分别表示人和物体所占的面积,/>分别表示人和物体所属位置的交互面积和联合面积;目标的语义特征表示为物体类别信息的编码;最终,目标感知特征/>由目标外观特征、目标布局特征、目标语义特征拼接得到。
5.根据权利要求1所述的危险行为分析方法,其特征在于:所述交互感知模块用于融合动作语义特征、人体姿态特征/>以及目标感知特征/>,/>和/>分别通过MLP映射得到/>和/>,得到相同特征空间下的特征表示,/>表示动作语义特征/>经过MLP映射得到的动作语义特征,/>表示人体姿态特征/>经过MLP映射得到的人体姿态特征;然后,计算/>和/>之间的余弦相似度并得到权重矩阵/>,其中h表示目标检测中得到的人的数目,融合动作语义特征/>和人体姿态特征/>的特征可表示为/>,/>的计算过程如下:
然后,将动作语义特征、人体姿态特征/>以及两者融合的特征/>接得到动作感知特征/>;然后,动作感知特征/>与目标感知特征/>拼接得到交互感知特征/>
6.根据权利要求1至5任一项所述的危险行为分析方法,其特征在于:交互感知特征被用于生成人-物对候选,根据每组人-物对的交互性分数来挑选出交互性最高的/>组人-物对,对应的交互性特征也直接从交互感知特征/>提取得到,人-物对的挑选过程产生配对损失:
其中,表示第/>组人物对在标签中是否存在,/>表示预测的第/>组人物存在的概率,FL表示Focal Loss损失计算函数。
7.根据权利要求6所述的危险行为分析方法,其特征在于:组高交互性的人-物对之间的交互性特征通过一个线性映射得到交互感知查询Query,/>,其中,/>表示/>的维度;/>将被输送到一个Transformer解码器中来探索人-物对中存在的动作信息,Transformer解码器中的交叉注意力模块的Key和Value来自于图像特征提取器中卷积神经网络产生的特征的F,F卷积神经网络产生的一个三维的H*W*D的特征,并最终得到动作预测y,动作预测过程产生动作预测损失:
其中,表示第/>组人-物对中是否存在第/>类动作;/>表示预测的第/>组人-物对中存在第/>类动作的概率。
8.一种基于人物交互检测的危险行为分析系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-7中任一项所述危险行为分析方法的步骤。
CN202310553376.4A 2023-05-17 2023-05-17 基于人物交互检测的危险行为分析方法及系统 Active CN116311535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310553376.4A CN116311535B (zh) 2023-05-17 2023-05-17 基于人物交互检测的危险行为分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310553376.4A CN116311535B (zh) 2023-05-17 2023-05-17 基于人物交互检测的危险行为分析方法及系统

Publications (2)

Publication Number Publication Date
CN116311535A CN116311535A (zh) 2023-06-23
CN116311535B true CN116311535B (zh) 2023-08-22

Family

ID=86817120

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310553376.4A Active CN116311535B (zh) 2023-05-17 2023-05-17 基于人物交互检测的危险行为分析方法及系统

Country Status (1)

Country Link
CN (1) CN116311535B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN113722536A (zh) * 2021-07-27 2021-11-30 陕西师范大学 基于双线性自适应特征交互与目标感知的视频描述方法
CN114005178A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
US11521377B1 (en) * 2021-10-26 2022-12-06 Nanjing University Of Information Sci. & Tech. Landslide recognition method based on laplacian pyramid remote sensing image fusion
CN115984966A (zh) * 2023-01-03 2023-04-18 西南交通大学 一种基于特征精炼与多视图的人物物交互动作检测方法
CN116129129A (zh) * 2022-10-09 2023-05-16 南京恩博科技有限公司 一种人物交互检测模型及检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315354B2 (en) * 2018-12-24 2022-04-26 Samsung Electronics Co., Ltd. Method and apparatus that controls augmented reality (AR) apparatus based on action prediction
CN112001385B (zh) * 2020-08-20 2024-02-06 长安大学 一种目标跨域检测与理解方法、系统、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444889A (zh) * 2020-04-30 2020-07-24 南京大学 基于多级条件影响的卷积神经网络的细粒度动作检测方法
CN112464875A (zh) * 2020-12-09 2021-03-09 南京大学 一种视频中的人-物交互关系检测方法及装置
CN113722536A (zh) * 2021-07-27 2021-11-30 陕西师范大学 基于双线性自适应特征交互与目标感知的视频描述方法
US11521377B1 (en) * 2021-10-26 2022-12-06 Nanjing University Of Information Sci. & Tech. Landslide recognition method based on laplacian pyramid remote sensing image fusion
CN114005178A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
CN116129129A (zh) * 2022-10-09 2023-05-16 南京恩博科技有限公司 一种人物交互检测模型及检测方法
CN115984966A (zh) * 2023-01-03 2023-04-18 西南交通大学 一种基于特征精炼与多视图的人物物交互动作检测方法

Also Published As

Publication number Publication date
CN116311535A (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Han et al. A survey on visual transformer
Boulahia et al. Early, intermediate and late fusion strategies for robust deep learning-based multimodal action recognition
Zhou et al. CCAFNet: Crossflow and cross-scale adaptive fusion network for detecting salient objects in RGB-D images
Baradel et al. Pose-conditioned spatio-temporal attention for human action recognition
Hu et al. Global-local enhancement network for NMF-aware sign language recognition
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
Areeb et al. Helping hearing-impaired in emergency situations: A deep learning-based approach
CN115797706B (zh) 目标检测方法、目标检测模型训练方法及相关装置
CN114663915B (zh) 基于Transformer模型的图像人-物交互定位方法及系统
CN111897940A (zh) 视觉对话方法、视觉对话模型的训练方法、装置及设备
CN113378676A (zh) 基于多特征融合的图像中人物交互检测方法
CN114119975A (zh) 一种语言引导的跨模态实例分割方法
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
Sultan et al. Sign language identification and recognition: A comparative study
Javed et al. Learning unsupervised visual grounding through semantic self-supervision
CN109033321B (zh) 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN113343950A (zh) 一种基于多特征融合的视频行为识别方法
CN115099234A (zh) 一种基于图神经网络的中文多模态细粒度情感分析方法
CN116561305A (zh) 基于多模态和transformer的假新闻检测方法
CN114529842B (zh) 一种基于知识引导下双向注意力机制的人物交互检测方法
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
Yan et al. Video-text pre-training with learned regions for retrieval
Pan et al. Micro‐expression recognition by two‐stream difference network
CN117173715A (zh) 一种注意力视觉问答方法、装置、电子设备及存储介质
CN116311535B (zh) 基于人物交互检测的危险行为分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant