CN113469018A - 基于rgb与三维骨骼的多模态交互行为识别方法 - Google Patents

基于rgb与三维骨骼的多模态交互行为识别方法 Download PDF

Info

Publication number
CN113469018A
CN113469018A CN202110725737.XA CN202110725737A CN113469018A CN 113469018 A CN113469018 A CN 113469018A CN 202110725737 A CN202110725737 A CN 202110725737A CN 113469018 A CN113469018 A CN 113469018A
Authority
CN
China
Prior art keywords
human
modal
rgb
information
skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110725737.XA
Other languages
English (en)
Other versions
CN113469018B (zh
Inventor
李传坤
李剑
郭锦铭
韩星程
王黎明
韩焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North University of China
Original Assignee
North University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North University of China filed Critical North University of China
Priority to CN202110725737.XA priority Critical patent/CN113469018B/zh
Publication of CN113469018A publication Critical patent/CN113469018A/zh
Application granted granted Critical
Publication of CN113469018B publication Critical patent/CN113469018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于RGB与骨骼多模态的人体交互行为识别方法,首先会对视频进行预处理,提取视频中人和物体信息,然后利用多模态从全局到局部构建人与物体之间的空间关系;并利用图卷积网络提取对应的深度特征,最后在特征层和决策层融合各个模态特征,用于识别人体交互行为;本发明利用RGB信息与人体三维骨骼模态的数据,通过构建空间关系网络模型,挖掘人与物体之间的空间关系,提取人与物体之间的多模态交互信息,并建立基于多模态交互信息的融合网络,有效地融合各个模态特征,利用各个模态的优势提高交互行为识别精度。

Description

基于RGB与三维骨骼的多模态交互行为识别方法
技术领域
本发明属于计算机视频理解、人工智能技术领域,具体涉及一种基于RGB与三维骨骼的多模态交互行为识别方法。
背景技术
早期的人体行为识别研究主要基于RGB视频,容易受到视角变化、光照变化、复杂背景等因素的影响,使得识别精度一直不能令人满意。近年来,随着低成本深度相机的发展(例如微软的kinect),人们可以非常容易的获取深度数据,并且可以从深度数据中实时提取人体骨骼关节点的可靠的位置信息。与RGB数据相比,三维数据能够提供更丰富的三维场景的结构信息,并且对光照和尺度的变化具有较强的鲁棒性,其中骨骼数据是一种包含人体关节位置的较高层次的运动特征,并且对摄像机的视角、人体的旋转和运动速度的变化都具有一定的不变性,但骨骼序列没有外观信息。为了充分利用各个模态的优势,目前学术界已经提出了许多基于多模态的人体行为识别方法,主要分为以下三种融合方式:数据层融合、特征层融合或决策层融合。数据融合需要要求不同模态之间具有兼容性,例如,RGB可以与深度图在时空间上对齐,但RGB与骨骼数据只能在时间上对齐。与数据层融合的方法相比,在特征层和决策层上的融合更为常见。在特征融合中,特征从每个模态独立提取,然后连接到一起用于任务的分类。然而,如果多个模态彼此独立,简单地将不同模态的特征串联起来是有效的,但是相关性强的特征串联却会对分类产生不利影响。在这种情况下,决策融合更为合适,但是决策融合的性能取决于每个模态的分类概率,很容易被错误的分类概率干扰。
交互动作是生活中最常见的动作,如人与物体或者人与人交互,但也具有复杂性高、相似度高的特点。不同类别的交互动作之间有很多共享的肢体动作或背景环境,会出现不同交互动作间差异性小的问题,如吃饭和喝水这两个动作,人的内在姿势和背景是一样的,唯一差异的是人交互的对象不同,动作的区分度很小,导致识别精度下降。而单独利用物体检测提供交互行为的物体信息,不能有效地提高识别精度。
发明内容
本发明提供一种基于RGB与三维骨骼的多模态交互行为识别方法,解决上述缺陷。
为了解决以上技术问题,本发明提供了一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,包括以下步骤:
S1、首先对视频进行预处理,提取视频中人和物体信息;
S2、然后利用多模态从全局到局部构建人与物体之间的空间关系;
S3、利用图卷积网络提取对应的深度特征,最后在特征层和决策层融合各个模态特征,用于识别人体交互行为;
S4、在特征层和决策层融合各个模态特征;
S5、根据S4得到的决策概率值识别人体交互行为,即最大决策概率值对应的交互行为为预测动作。
有益效果:本发明利用RGB信息与人体三维骨骼模态的数据,通过构建空间关系网络模型,挖掘人与物体之间的空间关系,提取人与物体之间的多模态交互信息,并建立基于多模态交互信息的融合网络,有效地融合各个模态特征,利用各个模态的优势提高交互行为识别精度。
附图说明
图1多模态交互行为识别方框图;
图2人体图卷积网络;
图3多模态特征融合示意图。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面对本发明的具体实施方式作进一步详细描述。
本发明提出的一种基于RGB与三维骨骼的多模态交互行为识别方法,主要包括以下步骤:视频预处理、多模态空间关系、图卷积网络的特征提取和特征融合;首先会对视频进行预处理,提取视频中人和物体信息,然后利用多模态从全局到局部构建人与物体之间的空间关系;并利用图卷积网络提取对应的深度特征,最后在特征层和决策层融合各个模态特征,用于识别人体交互行为,具体如下:
(1)视频预处理:物体信息与三维骨骼信息的提取
先利用一个网络模型(为现有的自上而下方法获取的网络模型)估计RGB视频中的三维骨骼节点位置以及检测物体信息,该网络模型首先利用一个MASK_RCNN网络模块检测物体和人体位置信息,然后利用三维人物根定位网络和单人姿势估计网络从人体位置信息提取对应人体的三维骨骼信息;
(2)建立多模态空间关系
如图1所示,针对交互行为识别的问题,采用RGB模态和骨骼模态构建三种不同的空间关系:人体骨骼节点之间的空间关系、人体骨骼节点各个身体部位与被检测物体的空间关系和RGB视频中人体全局信息与物体之间的空间关系。通过这三个空间关系可以很好地捕获到人体自生的动态信息以及局部到全局的人体与物体的交互信息,可以有效地避免不相关的背景噪声干扰。
根据步骤(1)提取的三维骨骼信息,即人体的各个骨骼节点,利用提取的骨骼节点数据构建图谱结构挖掘人体各个身体部分的空间关系,人体骨骼的每一个节点当作图谱中的一个节点,人体相连接的节点看成相邻的节点;
在人与物体交互时,一般他们之间的距离会比较近,人与物体的空间关系可以通过人和物体在图片中位置构建图谱结构。首先以人为中心,计算人与各个物体的位置距离,与距离近的物体构成一条边,然后依次计算其他物体之间的距离,距离相近的物体建立边的关系。为了能够捕获到人与物体空间的局部关系和全局关系,构建2个图谱:1)人体骨骼的中五个身体部分(躯干、左右手、左右腿)与RGB视频中物体的图谱;2)RGB视频中人整体部分与物体的图谱。同时利用它们之间的距离信息构建对应图谱的邻接矩阵A,公式如下:
Figure BDA0003138563670000041
其中dij是节点i跟节点j之间的距离,c是图谱中节点的个数。aij是邻接矩阵A的元素,代表着节点i与节点j之间的关联程度;与人距离越近的物体,两者之间的关联程度越高。
(3)利用图卷积网络提取对应的深度特征
S3.1针对人体骨骼节点之间的空间关系,利用层次图卷积神经网络提取骨骼模态特征;人体骨骼数据不具备规则的空间结构,传统的卷积神经网络很难提取骨骼节点之间的结构信息,而且人体骨骼具有固定的空间关系,比较适用图卷积网络提取特征信息。为能够更好地抽取局部关节信息,同时加快节点信息传播速度,采用层次图卷积网络,如图2所示,先将人体骨架分为5个身体部分,每个部分对应一个子图,然后经过各自独立的三层图卷积模块后,利用一个注意力模块,关注重要的身体部位并对每个部分进行池化;最后各个身体部分之间构建一个新子图,并利用一层图卷积模块捕获子图之间的信息。每一个图卷积模块包含2个图卷积操作:位移空间图卷积和位移时间图卷积。与传统的图卷积操作不同,位移图卷积利用移位图操作和轻量点卷积降低了计算的复杂度,同时移位图操作为空间图和时间图提供了灵活的感受野。
S3.2、利用步骤(2)中人体骨骼节点各个身体部位与被检测物体的空间关系,利用三层图卷积模块提取对应的两模态交互特征,即骨骼与RGB视频的局部混合特征;
S3.3、最后利用步骤(2)中RGB视频中人体全局信息与物体之间的空间关系,构建三层全局图卷积模块提取RGB视频的模态特征。
但有些动作人不仅跟近的物体互动,同时也涉及到一些远的物体,比如投篮动作,除了跟球的互动,还跟篮筐之间有交互的信息。对于S3.2和S3.3,为了能够探索人节点与其他远节点的信息交互,在每层图卷积模块后引入一个Non-local模块,提取重要的时空交互信息用于人体行为识别。
(4)在特征层和决策层融合各个模态特征
根据步骤(3)提取的三种不同模态的特征:骨骼模态特征、骨骼与RGB视频的局部混合特征以及RGB视频的模态特征,在特征层融合生成一个融合特征,并在决策层与上述三个模态特征进一步融合得到识别人体交互行为的决策概率值。
为了提高人体行为识别的精度,本发明采用联合框架的多模态融合方法融合特征,生成更具有判别能力的融合特征,即将多模态空间映射到共享语义子空间中,从而融合多个模态特征。为了最大化各个特征集中对应特征的相关关系,同时最大化不同类之间的差异,先利用判别相关分析方法(DCA)进行特征的空间变换;然后利用克罗内克积联合各个模态特征,生成共享语义的子空间用于人体行为识别。
同时借助多任务的思想对每种特征的表达进行约束,让融合后的特征能够获取更好的泛化能力,每个模态特征和融合特征都有对应的动作分类器。训练的损失函数是各个特征损失和融合后特征损失的一个加权求和:
Figure BDA0003138563670000051
lossf是融合特征的损失函数,lossk是每个模态特征的损失函数。由于多loss的使用,每个模态特征和融合特征都会得到一个决策概率值,可以进一步利用乘法决策融合提升行为动作的识别率。
(5)根据步骤(4)得到的决策概率值识别人体交互行为,即最大决策概率值对应的交互行为为预测动作。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,包括以下步骤:
S1、首先对视频进行预处理,提取视频中人和物体信息;
S2、然后利用多模态从全局到局部构建人与物体之间的空间关系;
S3、利用图卷积网络提取对应的深度特征,最后在特征层和决策层融合各个模态特征,用于识别人体交互行为;
S4、在特征层和决策层融合各个模态特征;
S5、根据S4得到的决策概率值识别人体交互行为,即最大决策概率值对应的交互行为为预测动作。
2.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,S1具体为:先利用一个网络模型估计RGB视频中的三维骨骼节点位置以及检测物体信息,该网络模型首先利用一个MASK_RCNN网络模块检测物体和人体位置信息,然后利用三维人物根定位网络和单人姿势估计网络从人体位置信息提取对应人体的三维骨骼信息。
3.根据权利要求2所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,所述网络模型为自上而下方法获取的网络模型。
4.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,S2中,采用RGB模态和骨骼模态构建三种不同的空间关系:人体骨骼节点之间的空间关系、人体骨骼节点各个身体部位与被检测物体的空间关系和RGB视频中人体全局信息与物体之间的空间关系;通过这三个空间关系捕获人体自生的动态信息以及局部到全局的人体与物体的交互信息。
5.根据权利要求4所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,根据S1提取的三维骨骼信息,即人体的各个骨骼节点,利用提取的骨骼节点数据构建图谱结构挖掘人体各个身体部分的空间关系,人体骨骼的每一个节点当作图谱中的一个节点,人体相连接的节点看成相邻的节点;在人与物体交互时,首先以人为中心,计算人与各个物体的位置距离,与距离近的物体构成一条边,然后依次计算其他物体之间的距离,距离相近的物体建立边的关系。
6.根据权利要求5所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,为了能够捕获到人与物体空间的局部关系和全局关系,构建2个图谱:1)人体骨骼的中五个身体部分与RGB视频中物体的图谱;2)RGB视频中人整体部分与物体的图谱;同时利用它们之间的距离信息构建对应图谱的邻接矩阵A,公式如下:
Figure FDA0003138563660000021
其中dij是节点i跟节点j之间的距离,c是图谱中节点的个数。aij是邻接矩阵A的元素,代表着节点i与节点j之间的关联程度;与人距离越近的物体,两者之间的关联程度越高。
7.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,S3具体包括以下步骤:
S3.1针对人体骨骼节点之间的空间关系,利用层次图卷积神经网络提取骨骼模态特征;
S3.2、利用S2中人体骨骼节点各个身体部位与被检测物体的空间关系,利用三层图卷积模块提取对应的两模态交互特征,即骨骼与RGB视频的局部混合特征;
S3.3、最后利用步骤(2)中RGB视频中人体全局信息与物体之间的空间关系,构建三层全局图卷积模块提取RGB视频的模态特征。
8.根据权利要求7所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,S3.1中,采用层次图卷积网络,先将人体骨架分为5个身体部分,每个部分对应一个子图,然后经过各自独立的三层图卷积模块后,利用一个注意力模块,关注重要的身体部位并对每个部分进行池化;最后各个身体部分之间构建一个新子图,并利用一层图卷积模块捕获子图之间的信息。
9.根据权利要求8所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,S4中,根据S3提取的三种不同模态的特征:骨骼模态特征、骨骼与RGB视频的局部混合特征以及RGB视频的模态特征,在特征层融合生成一个融合特征,并在决策层与上述三个模态特征进一步融合得到识别人体交互行为的决策概率值。
10.根据权利要求1所述的一种基于RGB与三维骨骼的多模态交互行为识别方法,其特征在于,S4中,先利用判别相关分析方法进行特征的空间变换;然后利用克罗内克积联合各个模态特征,生成共享语义的子空间用于人体行为识别;
同时借助多任务的思想对每种特征的表达进行约束,让每个模态特征和融合特征都有对应的动作分类器;训练的损失函数是各个特征损失和融合后特征损失的一个加权求和:
Figure FDA0003138563660000031
lossf是融合特征的损失函数,lossk是每个模态特征的损失函数。由于多loss的使用,每个模态特征和融合特征都会得到一个决策概率值,可以进一步利用乘法决策融合提升行为动作的识别率。
CN202110725737.XA 2021-06-29 2021-06-29 基于rgb与三维骨骼的多模态交互行为识别方法 Active CN113469018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110725737.XA CN113469018B (zh) 2021-06-29 2021-06-29 基于rgb与三维骨骼的多模态交互行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110725737.XA CN113469018B (zh) 2021-06-29 2021-06-29 基于rgb与三维骨骼的多模态交互行为识别方法

Publications (2)

Publication Number Publication Date
CN113469018A true CN113469018A (zh) 2021-10-01
CN113469018B CN113469018B (zh) 2024-02-23

Family

ID=77873848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110725737.XA Active CN113469018B (zh) 2021-06-29 2021-06-29 基于rgb与三维骨骼的多模态交互行为识别方法

Country Status (1)

Country Link
CN (1) CN113469018B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117137435A (zh) * 2023-07-21 2023-12-01 北京体育大学 一种基于多模态信息融合的康复动作识别方法和系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
CN109064487A (zh) * 2018-07-02 2018-12-21 中北大学 一种基于Kinect骨骼节点位置追踪的人体姿势比较方法
US20190294871A1 (en) * 2018-03-23 2019-09-26 Microsoft Technology Licensing, Llc Human action data set generation in a machine learning system
CN111651035A (zh) * 2020-04-13 2020-09-11 济南大学 一种基于多模态交互的虚拟实验系统及方法
CN111967379A (zh) * 2020-08-14 2020-11-20 西北工业大学 一种基于rgb视频和骨架序列的人体行为识别方法
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
WO2021057027A1 (zh) * 2019-09-27 2021-04-01 北京市商汤科技开发有限公司 人体检测方法、装置、计算机设备及存储介质
CN112784736A (zh) * 2021-01-21 2021-05-11 西安理工大学 一种多模态特征融合的人物交互行为识别方法
CN112906604A (zh) * 2021-03-03 2021-06-04 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
CN108388882A (zh) * 2018-03-16 2018-08-10 中山大学 基于全局-局部rgb-d多模态的手势识别方法
US20190294871A1 (en) * 2018-03-23 2019-09-26 Microsoft Technology Licensing, Llc Human action data set generation in a machine learning system
CN109064487A (zh) * 2018-07-02 2018-12-21 中北大学 一种基于Kinect骨骼节点位置追踪的人体姿势比较方法
WO2021057027A1 (zh) * 2019-09-27 2021-04-01 北京市商汤科技开发有限公司 人体检测方法、装置、计算机设备及存储介质
CN111651035A (zh) * 2020-04-13 2020-09-11 济南大学 一种基于多模态交互的虚拟实验系统及方法
CN111967379A (zh) * 2020-08-14 2020-11-20 西北工业大学 一种基于rgb视频和骨架序列的人体行为识别方法
CN112364757A (zh) * 2020-11-09 2021-02-12 大连理工大学 一种基于时空注意力机制的人体动作识别方法
CN112784736A (zh) * 2021-01-21 2021-05-11 西安理工大学 一种多模态特征融合的人物交互行为识别方法
CN112906604A (zh) * 2021-03-03 2021-06-04 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何俊佑: "多模态人体动作识别研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117137435A (zh) * 2023-07-21 2023-12-01 北京体育大学 一种基于多模态信息融合的康复动作识别方法和系统

Also Published As

Publication number Publication date
CN113469018B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
Liang et al. Stereo matching using multi-level cost volume and multi-scale feature constancy
US10719759B2 (en) System for building a map and subsequent localization
Walch et al. Image-based localization using lstms for structured feature correlation
CN110135249B (zh) 基于时间注意力机制和lstm的人体行为识别方法
CN103646391B (zh) 一种针对动态变化场景的实时摄像机跟踪方法
CN110147743A (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN113095106A (zh) 一种人体姿态估计方法、装置
WO2021249114A1 (zh) 目标跟踪方法和目标跟踪装置
CN114613013A (zh) 一种基于骨骼节点的端到端人类行为识别方法与模型
US20190279382A1 (en) 4d tracking
CN112668550B (zh) 基于关节点-深度联合关注rgb模态数据的双人交互行为识别方法
CN111767854B (zh) 一种结合场景文本语义信息的slam回环检测方法
CN116798070A (zh) 一种基于光谱感知和注意力机制的跨模态行人重识别方法
CN114241379A (zh) 一种乘客异常行为识别方法、装置、设备及乘客监控系统
Yan et al. Human-object interaction recognition using multitask neural network
Neverova Deep learning for human motion analysis
Kumar et al. Human pose estimation using deep learning: review, methodologies, progress and future research directions
CN111401267A (zh) 基于自学习局部特征表征的视频行人再识别方法及系统
Cai et al. Doppelgangers: Learning to disambiguate images of similar structures
Chen et al. Informed Patch Enhanced HyperGCN for skeleton-based action recognition
Chen et al. Occlusion and multi-scale pedestrian detection A review
CN114550208A (zh) 基于全局级别和局部级别联合约束的跨模态行人再识别方法
Yuan et al. Thermal infrared target tracking: A comprehensive review
CN117422963A (zh) 基于高维度特征映射和特征聚合的跨模态地点识别方法
Liu et al. Weighted sequence loss based spatial-temporal deep learning framework for human body orientation estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant