CN113892112A - 使用深度嵌入聚类的动作分类 - Google Patents

使用深度嵌入聚类的动作分类 Download PDF

Info

Publication number
CN113892112A
CN113892112A CN202080039707.7A CN202080039707A CN113892112A CN 113892112 A CN113892112 A CN 113892112A CN 202080039707 A CN202080039707 A CN 202080039707A CN 113892112 A CN113892112 A CN 113892112A
Authority
CN
China
Prior art keywords
classification
motion
computer
rnn
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080039707.7A
Other languages
English (en)
Inventor
A·M·拉希米
H·霍夫曼
权赫晟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HRL Laboratories LLC
Original Assignee
HRL Laboratories LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HRL Laboratories LLC filed Critical HRL Laboratories LLC
Publication of CN113892112A publication Critical patent/CN113892112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)

Abstract

描述了一种通过应用深度嵌入聚类进行动作识别的系统。对于输入视频的各个图像帧,所述系统计算基于骨骼关节的位姿特征,所述位姿特征表示该图像帧中的人类的动作。执行所述位姿特征到嵌入动作空间中的非线性映射。执行所述动作的时间分类并获得基于分类姿势的标签的集合。基于分类姿势的标签的集合被用于控制机器的移动。

Description

使用深度嵌入聚类的动作分类
相关申请的交叉引用
本申请是2019年7月10日在美国提交的名称为“Action Classification UsingDeep Embedded Clustering”的美国临时申请No.62/872,630的非临时申请,其全部内容通过引用并入本文。
发明背景
(1)技术领域
本发明涉及一种用于动作识别的系统,并且更具体地,涉及一种通过应用深度嵌入聚类来进行动作识别的系统。
(2)相关技术描述
当前的无监督动作识别技术依赖于图像空间或位姿空间(pose space)中的聚类技术。动作识别技术可以分为两个类别:基于图像的和基于骨骼关节的。在基于图像的技术中,输入特征是根据被跟踪人员的视觉外观计算的,而在基于骨骼关节的技术中,输入特征是关节位置的关节星座(二维(2D)或三维(3D))(参见并入的参考文献列表中的参考文献No.1至No.5)。
在参考文献No.3中,Ofli等人利用一系列信息最丰富的关节来定义各个动作,所述关节捕获了不同人类动作的不变性。在各个实例中,他们基于各个动作的关节角度轨迹的均值和方差,将关节总数修减(prune down)为一个更小但信息丰富的子集。在给定关节之间的角速度的情况下,他们应用支持向量机(SVM)和K最近邻(KNN)来对动作进行分类。
Evangelidis等人定义了对相对关节位置进行编码的动作描述符(参见参考文献No.2)。在获得视图不变的骨骼表示后,他们使用fisher向量来对特征进行编码,并应用SVM分类器对动作进行分类。除了关节位置之外,Sung等人在应用层级最大熵马尔可夫模型来表示动作时,考虑了运动、手部位置和外观特征(参见参考文献No.1)。他们使用动态编程方法对两层图进行推理。
Yang等人(在参考文献No.4中)提出了基于视频帧内和跨视频帧的关节位置之间的差异的新的动作描述符,来定义本征关节特征,然后是非参数朴素贝叶斯最近邻分类器,以在动作之间进行判别。Wang等人将关节位置与深度数据结合起来,并构建了actionlet集成模型来捕获身体部位与环境之间的关系(参见参考文献No.6)。Wang等人解决了动作识别中的噪声和遮挡问题(参见参考文献No.7)。他们引入了基于随机占用模式(ROP)的特征,并使用稀疏编码进行稳健编码。
在参考文献No.5中,Xia等人利用来自动作深度序列的3D关节位置的直方图表示姿态。然后,他们使用线性判别分析(LDA)对这些特征进行投影,并将它们聚类成k个姿态视觉词。然后他们使用隐马尔可夫模型(HMM)对这些视觉词的时间相关性进行建模。他们的技术的新颖之处在于使用了球坐标系,这使得他们的技术视图不变。在参考文献No.8中,Yang等人将深度图投影到三个正交平面上,并使用高斯直方图(HOG)特征来表示动作。在参考文献No.10中,Liu等人提出了关节动作分组/建模并定义了具有如下两个子任务的非凸优化问题;多任务学习和任务相关性发现。在参考文献No.9中,Xie等人提出了数据的非线性映射,使得嵌入空间中的动作高度可分离。基于视觉的动作识别受到建模信息不丰富信号(诸如背景或位姿信息不足)的影响。它们也容易受到身体部位的部分遮挡的影响。
因此,仍然需要通过将位姿特征映射到动作模式更可区分的嵌入动作空间中来提高动作识别性能的方法。
发明内容
本发明涉及一种用于动作识别的系统,并且更具体地,涉及一种通过应用深度嵌入聚类来进行动作识别的系统。所述系统包括非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行多个操作。对于输入视频的各个图像帧,所述系统计算基于骨骼关节的位姿特征,所述位姿特征表示所述图像帧中的人类(human)的动作。执行所述位姿特征到嵌入动作空间中的非线性映射。执行所述动作的时间分类并获得基于分类姿势的标签的集合。基于所述基于分类姿势的标签的集合来控制机器的移动。
在另一方面,所述位姿估计技术是部分亲和字段(PAF)特征生成技术。
在另一方面,所述嵌入动作空间是循环神经网络(RNN)框架。
在另一方面,所述RNN框架包括:第一循环层,所述第一循环层对关节位置集之间的一阶相关性进行编码,以对所述动作进行建模;以及第二循环层,所述第二循环层对所述关节位置集之间的更高阶相关性进行编码。
在另一方面,时间分类是使用长短期记忆(LSTM)来执行的。
在另一方面,非线性映射是使用所述RNN框架中的深度嵌入聚类来执行的。
在另一方面,所述机器是自主车辆。
在另一方面,所述图像帧中的所述人类的所述动作包括在交通环境中指挥交通的人类的手势,并且所述基于分类姿势的标签的集合是基于指挥交通的所述人类的所述手势的,并且所述系统对通过所述交通环境的所述自主车辆的导航进行控制。
最后,本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括被存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令可以由具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,计算机实现的方法包括使计算机执行这些指令并执行所得操作的动作。
附图说明
根据本发明的各个方面的以下详细描述,结合参考以下附图,本发明的目的、特征和优点将显而易见,在附图中:
图1是描绘了根据本公开的一些实施方式的用于动作识别的系统的部件的框图;
图2是根据本公开的一些实施方式的计算机程序产品的例示图;
图3是根据本公开的一些实施方式的用于按顺序建模的具有部分亲和字段(PAF)特征和循环神经网络(RNN)的动作表示的例示图;
图4是根据本公开的一些实施方式的具有深度循环嵌入聚类(DREC)的动作的无监督学习的例示图;
图5是根据本公开的一些实施方式的使用长短期记忆(LSTM)对来自位姿或集群质心标签的时间序列的动作进行分类的例示图;
图6A是根据本公开的一些实施方式的具有发光二极管(LED)标记物(marker)的RGB数据和三维(3D)深度图的例示图;
图6B是根据本公开的一些实施方式的用于数据收集的摄像头设置的例示图;
图7是根据本公开的一些实施方式的具有LSTM和不具有LSTM的测试过程的例示图;
图8A是根据本公开的一些实施方式的例示了动作识别准确度的实验结果的曲线图;
图8B是根据本公开的一些实施方式的例示了位姿分类成动作的准确度的实验结果的曲线图;以及
图9是根据本公开的一些实施方式的RNN架构的例示图。
具体实施方式
本发明涉及一种用于动作识别的系统,并且更具体地,涉及一种通过应用深度嵌入聚类来进行动作识别的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的上下文中。对于本领域技术人员而言,各种修改以及在不同应用中的多种用途将显而易见,并且本文定义的一般原理可以被应用于广泛的方面。因此,本发明并非旨在限于所呈现的方面,而是与符合本文所公开的原理和新颖特征的最广范围相一致。
在下面的详细描述中,阐述了许多具体细节以便提供对本发明的更透彻理解。然而,对本领域技术人员而言将显而易见的是,本发明可以在不必限于这些具体细节的情况下来实践。在其他情况下,公知结构和设备以框图形式示出,而非详细示出,以避免模糊本发明。
请读者关注与本说明书同时提交并且与本说明书一起开放以供公众查阅的所有论文和文档,并且所有这些论文和文档的内容通过引用并入本文。除非另有明确说明,否则本说明书(包括任何所附权利要求、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的另选特征来代替。因此,除非另有明确说明,否则所公开的各个特征仅是一个通用系列的等同或相似特征中的一个示例。
此外,权利要求中没有明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何要素不应被解释为如35U.S.C.第112节第6款中规定的“装置”或“步骤”条款。特别地,在本文的权利要求中使用“……的步骤”或“……的动作”并非旨在触发35U.S.C.第112节第6款的规定。
在详细描述本发明之前,首先提供参考文献列表。接下来,提供本发明各个主要方面的描述。最后,提供本发明各个实施方式的具体细节,以使得能够理解具体方面。
(1)并入的参考文献列表
本申请通篇引用且并入以下参考文献。为清楚和方便起见,本文中为读者列出这些参考文献作为集中式资源。以下参考文献通过引用并入于此,如同在本文中充分阐述一样。这些参考文献通过参照如下对应参考文献而在本申请中加以引用:
1.Sung,Jaeyong,et al.“Unstructured Human Activity Detection from RGBDImages”,Robotics and Automation(ICRA),2012IEEE International Conference.
2.Evangelidis,Georgios et al.“Skeletal Quads:Human Action RecognitionUsing Joint Quadruples”,Pattern Recognition(ICPR),2014 22nd InternationalConference,IEEE.
3.Ofli,Ferda,et al.“Sequence of the Most Informative Joints(SMIJ):ANew Representation for Human Skeletal Action Recognition.”Journal of VisualCommunication and Image Representation 25.1(2014):24-38.
4.Yang,Xiaodong et al.“Effective 3D Action Recognition UsingEigenjoints”,Journal of Visual Communication and Image Representation,2014.
5.Xia,Lu,et al.“View Invariant Human Action Recognition UsingHistograms of3D Joints”,Computer Vision and Pattern Recognition Workshops(CVPRW),2012IEEE Computer Society Conference.
6.Wang,Jiang,et al.“Mining Actionlet Ensemble for Action Recognitionwith Depth Cameras”,Computer Vision and Pattern Recognition(CVPR),2012IEEEConference.
7.Wang,Jiang,et al.“Robust 3D Action Recognition with RandomOccupancy Patterns”,Computer vision--ECCV 2012.
8.Yang,Xiaodong,et al.“Recognizing Actions Using Depth Motion Maps-Based Histograms of Oriented Gradients”,Proceedings of the 20th ACMInternational Conference on Multimedia,2012.
9.Xie,Junyuan,et al.“Unsupervised Deep Embedding for ClusteringAnalysis”,International Conference on Machine Learning,2016.
10.Liu,An-An,et al.“Hierarchical Clustering Multi-Task Learning forjoint human action grouping and recognition”,IEEE Transactions on PatternAnalysis and Machine Intelligence,2017.
11.Cao,Zhe,et al.“Realtime Multi-Person 2D Pose Estimation Using PartAffinity Fields.”Proceedings of the IEEE Conference on Computer Vision andPattern Recognition.2017.
(2)主要方面
本发明的各种实施方式包括三个“主要”方面。第一个主要方面是一种用于动作识别的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的设备中。第二个主要方面是使用数据处理系统(计算机)操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示存储在诸如光学存储设备(例如,光盘(CD)或数字通用盘(DVD))或磁存储设备(诸如软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其他非限制性示例包括:硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下面进行更详细描述。
图1中提供了描绘本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面,本文讨论的某些处理和步骤被实现为驻留在计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。所述指令在被执行时,使计算机系统100执行特定动作并展现特定行为,如本文所描述的。
计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,诸如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。
计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如,只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪速存储器等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口,诸如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其他电子设备和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如,串行电缆、调制解调器、网络适配器等)和/或无线(例如,无线调制解调器、无线网络适配器等)通信技术。
在一个方面,计算机系统100可以包括与地址/数据总线102联接的输入设备112,其中,输入设备112被配置成将信息和命令选择传送至处理器104。根据一个方面,输入设备112是字母数字输入设备(诸如键盘),其可以包括字母数字键和/或功能键。另选地,输入设备112可以是除字母数字输入设备之外的其他输入设备。在一方面,计算机系统100可以包括与地址/数据总线102联接的光标控制设备114,其中,光标控制设备114被配置成将用户输入信息和/或命令选择传送至处理器104。在一方面,光标控制设备114是使用诸如鼠标器、轨迹球、轨迹板、光学跟踪设备或触摸屏之类的设备来实现的。尽管前述如此,但在一方面,光标控制设备114经由来自输入设备112的输入(诸如响应于使用与输入设备112相关联的特殊键和键序列命令)而被引导和/或启用。在另选方面,光标控制设备114被配置成通过语音命令管理或引导。
在一方面,计算机系统100还可以包括一个或更多个可选计算机可用数据存储设备,诸如与地址/数据总线102联接的存储设备116。存储设备116被配置成存储信息和/或计算机可执行指令。在一个方面,存储设备116是诸如磁盘驱动器或光盘驱动器(例如,硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))之类的存储设备。依据一个方面,显示设备118与地址/数据总线102联接,其中,显示设备118被配置成显示视频和/或图形。在一方面,显示设备118可以包括:阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器,或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其他显示设备。
本文所呈现的计算机系统100是根据一方面的示例计算环境。然而,计算机系统100的非限制示例并不严格限于作为计算机系统。例如,一个方面提供了计算机系统100表示可以根据本文所述各个方面使用的一类数据处理分析。此外,还可以实现其他计算系统。实际上,本技术的精神和范围不限于任何单一数据处理环境。因此,在一方面,使用通过计算机执行的计算机可执行指令(诸如程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外,一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面,诸如在该计算环境中,任务由通过通信网络链接的远程处理设备执行,或者诸如在该计算环境中,各种程序模块位于包括存储器-存储设备的本地计算机存储介质和远程计算机存储介质两者中。
图2中描绘了具体实施本发明的计算机程序产品(即,存储设备)的例示图。计算机程序产品被描绘为软盘200或诸如CD或DVD之类的光盘202。然而,如先前提到的,该计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或单个分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子设备(即,编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上,诸如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何,这些指令被编码在非暂时性计算机可读介质上。
(3)各种实施方式的具体细节
动作识别技术可以分为两个类别:基于图像的和基于骨骼关节的。本文描述的本发明专注于后一类别,其中,关节的位置是可用的((通过RGB-D(红色、蓝色、绿色、深度)数据或通过某种关节估计技术)。根据本公开的实施方式的系统提供了长短期记忆(LSTM)框架的改进,其中,基于骨骼关节的特征被映射到动作更可分离的嵌入空间中。
当前的无监督动作识别技术依赖于图像空间或位姿空间中的聚类技术。如果仅依赖于视觉外观进行动作判别,则在动作之间会获得许多不相关的特征,并因此在识别动作方面表现不佳。本文描述的系统通过首先获取稳健的位姿估计器并进一步应用深度嵌入聚类(DEC)技术来克服这一挑战,其中,位姿特征被映射到动作模式更可区分的嵌入动作空间中。利用这种聚类技术,LSTM框架通过将堆叠的LSTM的输出馈送至DEC层并在嵌入空间中实施最大分离而得到增强。然后,使用密集层来预测动作。本发明展示了对标准数据集的性能改进,如下文将详细描述的。
根据本发明的实施方式的系统以涉及基于视觉的人机交互的任何应用为目标。关于这个主题,解决了动作识别的问题,使得自主代理可以使用所识别的动作以控制特定响应。以自动驾驶汽车的应用为例,车辆不仅应该能够安全且自主地行驶,还应该能够在其执行驾驶任务时可靠地识别交通警察的指令。为此,考虑如下场景,在该场景中,本文描述的系统的输入仅是包含执行特定动作的人(或多个人)的视频馈送。下面是一系列步骤的描述,所述步骤导致可靠的动作识别,这进而使机器能够遵循给予它的指令。此外,下面是一种方法的描述,在该方法中,仅使用小数据表示就可以实现类似的性能。为了实现与现有技术的动作识别类似的性能但仅使用一小部分信息,根据本公开的实施方式的创新在循环神经网络(RNN)框架中制定了称为部分亲和字段(Part Affinity Fields,PAF)的非参数方法。这种监督技术确保了RNN框架在能够对时间序列数据执行模式识别以及在少量动作之间进行判别方面的效力。图3描绘了该任务的总体流程图。
位姿估计(要素300)是本文描述的动作分类过程中的第一步骤,其中,计算准确且可靠的位姿估计器(estimator)。最近开发的PAF特征生成技术(要素302)(参见参考文献No.11)考虑了身体关节之间的预期关系,以消除检测中的假阳性关节位置。此外,参考文献No.11的作者通过在图像平面中对身体部位进行随机采样并“形成(growing)”剩余身体部位的连接来提高他们技术的速度。利用这种技术,即使某些部位不完全可见,也可以可靠地检测身体关节位置。请注意,在PAF特征生成技术(要素302)的各个阶段,存在两个分支(例如,分支1(要素304)和分支2(要素306))。简言之,第一分支(分支1(要素304))负责对身体部位(例如,左肩、右膝)的可能位置进行定位,并且第二分支(分支2(要素306))负责得到有助于正确关节连接(例如,右肩应从一侧连接至右肘,并从另一侧连接至颈部)的向量场(vector fields)。针对另外的细节,请参考参考文献No.11。将这种技术应用于各个图像帧,可以获得及时的稳健位姿信息。
特征映射是动作/活动分类过程(要素308)中的下一步骤,其中,关节特征被映射至更低维特征空间,约束条件是嵌入空间已利用聚类目标进行了优化。在分析骨骼关节位置的移动时,存在许多具有相似关节动力学的动作,并且这使得动作识别的工作变得非常重要。动作之间的判别模式位于与骨骼关节空间不同的空间中。许多动作在骨骼关节特征空间(跑步与步行)中存在细微差异,并且因此,分类器通常会在这两个动作之间变得混淆。为了改进分类器以使它们能够在关节空间的细微差异之间进行区分,将关节特征映射至更低维特征空间,约束条件是嵌入空间已利用聚类目标进行了优化。该想法受到Xie等人(参见参考文献9)的启发,其中他们引入了深度嵌入聚类(DEC),以使用聚类目标和深度神经网络架构将数据从原始特征空间映射至更低维空间。这种嵌入空间的维度通常要小得多,以避免维度灾难(curse)。非线性映射与RNN框架中的深度嵌入聚类(DEC)一起使用,以减少冗余并增加判别模式,如下详述。
如图3所示,过程中的第三步骤是时间建模(要素308)。本文描述的发明使用LSTM和四个“静态”分类器(决策树(DT)、支持向量机(SVM)、贝叶斯和k-最近邻(KNN))来执行动作的时间和静态分类。给定RNN在建模短期和长期上下文信息方面的能力,然后利用RNN架构来对骨骼位姿移动的时间建模进行参数化。为此,构建了RNN架构,其中,第一循环层对11个关节位置之间的一阶相关性进行编码,以对动作进行建模。在该阶段,特征只是三个连接的关节位置之间的角度。存在17个点,并且各个关节角度需要3个点(即,身体部位);因此,17个点中的3个点的任何排列都是有效的。基于直觉选择了11个关节位置。图5例示了被认为信息最丰富且最相关的手工选择角度(即,位姿身体部位的列表(要素502))(其中“手工选择”意味着选择了最相关的角度)。然后利用第二循环层对更高阶相关性(例如,给定动作的不同角度之间的关系)进行编码,以对动作进行更精细的建模。
图9例示了示例RNN架构,其包括组织成层的类神经元节点,所述层包括输入层(要素900)、隐藏层(要素902)和输出层(要素904)。在该示例中,输入层(要素900)中的X节点(要素906)表示17个位姿特征,输出层(要素904)中的Y节点(要素908)表示动作标签,并且隐藏层(要素902)中的H节点(要素910)对从输入层(要素900)到输出层(要素904)途中的数据进行修改。W(要素912)表示节点之间的连接的权重。虚线箭头(要素914)表明架构的时间方面。例如,一个实线箭头表示时间倒退一步,并且三个实线箭头表示时间倒退三步。因此,虚线箭头(要素914)表示时间倒退的任何步数。
应用类似于参考文献No.9的DEC技术,其中,估计RNN参数并且同时学习嵌入空间中的聚类分派(assignment)。参考文献No.9引入了聚类技术,而本文描述的技术作为动作识别框架的一部分来应用。本领域技术人员可以理解,可以使用其他聚类方法,并且总体概念仍然有效。本文描述的DEC技术用于特征映射步骤(要素300、要素302、要素304和要素306)。主要思想是将DEC机制赋予堆叠的LSTM框架,使得通过仅使用一小部分信息即可实现类似的性能(即,完全连接的softmax层之前的中间嵌入层加强了动作之间的判别模式)。RNN的目标函数是将嵌入空间中的集群间变化最大化。在该任务中,类似于参考文献No.9,迭代地优化聚类目标(KL散度),同时学习嵌入表示。在本文描述的方法中,学习是无监督的,并且目的是创建稍后可以用于描述新的动作集合的“动作表示”集合(例如,图7中的带圆圈的数字(要素700))。
图4例示了具有深度循环嵌入聚类(DREC)的动作的无监督学习的实验设置。首先,针对各个特定动作从例如YouTube收集视频(例如,具有多个人的1080p(其中p表示逐行扫描)的视频帧(要素400))。然后,创建PAF基本特征表示(即,部分亲和字段(要素302))。接下来,通过最小化期望分布与观察分布之间的距离来训练DREC(要素402)。如图4所示,其中,Kullback-Leibler收敛(L)被用于最小化P和Q的两个分布之间的差异。DREC的结果(要素404)被用于通过来自数据集合的地面真值的小的已标记数据集合进行训练。动作识别分类器(要素408)的输出(要素406)(其是类别动作标签)用于自主代理的高级控制(要素310)。代理的非限制性示例是需要对观察到的行人动作进行分类以便在行人周围进行导航的自动驾驶汽车(自主车辆)。行人周围的导航可以包括车辆操纵操作,诸如由车辆的机械和电气部件控制的转向、加速、减速和/或制动操作。此外,代理可以是需要理解飞行器引导信号(即,手部和手臂姿态)才能起飞的自主无人机(UAV)。
动作分类过程中的第四步骤是控制和决策制定(图3的要素310)。来自时间建模(要素308)的预测动作采用基于分类姿势的标签(例如,“指向左边”、“停止”或“继续”)的形式。在控制和决策制定(要素310)过程中,预测动作被用于高级决策制定过程。例如,在自动驾驶汽车的应用中,一旦检测到交通警察,自动驾驶汽车就应该脱离其标称操作行为,以遵守警察的指令。非限制性示例是交通警察指示“停止”行为的建筑区(construction zone)。在这种场景中,自动驾驶汽车的决策制定者应该通过控制制动机制的应用来触发停止行为。
图5描绘了根据位姿身体部位列表(要素502)创建的关节位置的关节星座(要素500)。关节的位置可以通过RGB-D数据或通过关节估计技术获得。基于相对角度对位姿星座特征进行归一化(要素504)。图5例示了特征提取(要素500、要素502和要素504)和分类(要素506和要素514)两者。在与时间相关的分析(要素506)过程中,第一LSTM被直接应用于位姿星座特征(即,直接使用位姿描述符进行LSTM比较(要素508)),并且将第二LSTM应用于DEC集群ID(即,间接使用位姿(DEC集群ID)进行LSTM比较(要素510))。集群ID是赋予集群的唯一标识。然后,LSTM被用作时间分类器,以对来自位姿或集群质心标签的时间序列的动作进行分类(要素512)。请注意,使用DEC,各个位姿配置被映射至特定集群ID,因此计算量较小。在与时间无关的分析(要素514,其用作本发明的性能比较)中,经归一化的位姿星座特征(要素504)被用作输入,以利用SVM对位姿进行分类(要素516)。这些分析是RNN的动作/活动分类(图3中的要素308)的一部分,其描述了位姿随时间变化的时间建模。为了证明时间特征的优越性,将特征联结,并且创建了与时间无关的特征并利用诸如SVM之类的类似分类器对该特征进行测试(要素516、要素518)。性能差异示于图8A和图8B中。在要素516中,利用SVM对原子位姿和原子动作进行分类。在要素518中,执行整个序列的类别分类,其中,输入特征是没有任何时间建模的整个序列。
两种不同LSTM方法表现出相似的性能。请注意,第一LSTM被直接应用于位姿星座特征,并且第二LSTM被应用于集群ID。尽管性能的差异很小(参考曲线808和曲线810的比较,如下所述),但是请注意,与完整位姿特征信息相比,单个数字(DEC集群ID)被用于表示各个动作实例。在两种不同LSTM方法中,分类器相同但输入信号不同。在一个实验中,使用整个位姿信息(要素508),而在另一实验中,使用各个位姿的集群ID(用单个数字表示)(要素510)。因此,使用小的表示(即,单个数字与完整位姿特征信息)可以实现类似的结果。
(3.1)实验研究
为了证明本文所述方法的有效性,利用具有以下规格的伯克利多模态人类动作数据集合(B-MHAD)来测试所述方法:12名受试者(不同年龄的7名男性和5名女性)执行11个动作并重复5次;12个Dragonfly2摄像头(OEM式的IEEE-1394板级摄像头)以22赫兹(Hz)按不同角度同时采样;摄像机视野中只有一个人的受控环境;动作:跳跃、开合跳、弯腰、打拳、挥动两只手、挥动一只手、拍手、投掷、坐下/站起来、坐下、站起来;以及一些跨动作的主体间行为变化。图6A描绘了B-MHAD中的动作类型,并且图6B描绘了用于数据收集的摄像头设定/设置。图6A是具有发光二极管(LED)标记物的RGB数据(要素600)和三维(3D)深度图(要素602)的例示图,其中,灰度表明深度。LED标记物是附接至各个图像中的人身体的反射器。在图6B的所示实施方式中,多模态传感器包括由填充的三角形表示的八个最佳运动捕获系统(要素604)、由“C”索引并由非填充的三角形表示的十二个Dragonfly2摄像头(要素606)、由“K”索引的两个Kinect摄像头(要素608)、六个三轴加速度计和由“M”索引的四个麦克风(要素610)。
利用B-MHAD数据,在提取身体中的11个相对关节角度之后运行动作识别测试(没有面部信息),如图7所示。测试按照两个不同类别运行:具有LSTM(要素506)和不具有LSTM(要素514)。在不具有LSTM过程(要素514)的情况下,应用了SVM、DT、KNN和贝叶斯方法。在具有LSTM过程(要素506)的情况下运行的测试中,LSTM被应用于实际位姿信息和DEC信息。
图8A示出了通过上述过程的准确度结果,其中,曲线800表示SVM方法,曲线802表示DT方法,曲线804表示KNN方法,曲线806表示贝叶斯方法,曲线808表示LSTM_DEC方法,并且曲线810表示LSTM_Pose方法。如平均准确度表(要素812)所示,具有LSTM的方法(LSTM_DEC和LSTM_Pose)比不具有LSTM的方法提供了更好的动作识别准确度(分别为0.79和0.80)。两种不同LSTM方法(LSTM_DEC和LSTM_Pose)表现出相似的性能。请注意,第一LSTM直接应用于位姿星座特征(LSTM_Pose),并且第二LSTM应用于集群ID(LSTM_DEC)。尽管性能差异很小,但请注意,与完整位姿特征信息相比,单个数字(DEC集群ID)被用于表示各个动作实例。换句话说,LSTEM_DEC方法可能优于LSTM_Pose方法,因为LSTM_DEC需要更少的存储器,因此计算开销也更少。这种可比性能证明DEC聚类技术能够捕获属于嵌入空间中不同动作的位姿之间的判别模式。
图8B展示了不利用时间建模(即,不利用本发明)的动作分类的无效性,如平均准确度表(要素814)中所示。在该评估中,属于同一标签的所有位姿被分成单独的训练集,并应用线性分类器(诸如SVM(曲线800))来识别动作。
本文描述的发明支持计算机视觉和机器学习。例如,稳健的人类姿势识别可以有助于利用人类指令的自主汽车。以建筑区中的自动驾驶车辆为例,附接至车辆的传感器(例如,摄像头)将捕获视频信号,并且同时处理各个帧以寻找建筑工人的信号,以便在交通条件下进行导航。导致被执行以用于自动驾驶车辆的导航的操作的非限制性示例包括制动、转向以避免碰撞、减速和加速以及本领域技术人员已知的其他操作。这些操作中的各个操作都需要多个车辆部件的协调,包括用作制动机构(例如,制动器)、转向机构(例如,方向盘)和加速机构(例如,油门)的一部分的部件。例如,如果建筑工人(或交通警察)发出停止的手势信号,则本文描述的系统可以使自动驾驶车辆应用功能响应(诸如制动操作),以使自动驾驶车辆停止。针对其他人类手势的其他适当响应可以包括转向操作、加速或减速的油门操作或保持航线和速度不变的决策中的一者或更多者。这些响应可以适用于在交通环境中避免碰撞或保持安全。
应用的附加非限制性示例包括安全威胁检测、基于姿势的机器控制(例如,飞行器引导,这需要UAV通过本文描述的框架处理观察到的引导器指令以对动作进行分类,诸如“启动左发动机”、“启动右发动机”、“准许滑行”、“准许起飞”)。在作战态势感知(例如,特种武器和战术(SWAT))的应用中,如果存在人机协作,则机器需要了解其指挥官的信号。在不同应用中,根据本公开的实施方式的动作识别框架可以用于主动辅助生活(AAL)和医疗保健监测系统,其中,可以监测医院中老年人或患者的移动,以最大化护理质量。
最后,虽然已经根据若干实施方式对本发明进行了描述,但本领域普通技术人员将容易地认识到,本发明可以在其他环境中具有其他应用。应注意,可以有许多实施方式和实现。此外,所附权利要求绝不旨在将本发明的范围限于上述具体实施方式。另外,“用于……的装置”的任何叙述旨在引发要素和权利要求的装置加功能的解读,而未特别使用“用于……的装置”叙述的任何要素不应被解读为装置加功能要素,即使权利要求以其他方式包括了“装置”一词。此外,虽然已经按特定顺序叙述了特定方法步骤,但这些方法步骤可以按任何期望的顺序进行并且落入本发明的范围内。

Claims (20)

1.一种用于动作识别的系统,所述系统包括:
非暂时性计算机可读介质和一个或更多个处理器,所述非暂时性计算机可读介质上编码有可执行指令,使得当执行所述可执行指令时,所述一个或更多个处理器执行以下操作:
对于输入视频的各个图像帧,计算基于骨骼关节的位姿特征,所述位姿特征表示所述图像帧中的人类的动作;
执行所述位姿特征到嵌入动作空间中的非线性映射;
执行所述动作的时间分类并获得基于分类姿势的标签的集合;以及
基于所述基于分类姿势的标签的集合来控制机器的移动。
2.根据权利要求1所述的系统,其中,所述位姿估计技术是部分亲和字段(PAF)特征生成技术。
3.根据权利要求1所述的系统,其中,所述嵌入动作空间是循环神经网络(RNN)框架。
4.根据权利要求3所述的系统,其中,所述RNN框架包括:
第一循环层,所述第一循环层对关节位置集之间的一阶相关性进行编码,以对所述动作进行建模;以及
第二循环层,所述第二循环层对所述关节位置集之间的更高阶相关性进行编码。
5.根据权利要求1所述的系统,其中,时间分类是使用长短期记忆(LSTM)来执行的。
6.根据权利要求3所述的系统,其中,非线性映射是使用所述RNN框架中的深度嵌入聚类来执行的。
7.一种用于动作识别的计算机实现的方法,所述方法包括以下动作:
使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令,使得当执行所述指令时,所述一个或更多个处理器执行以下操作:
对于输入视频的各个图像帧,计算基于骨骼关节的位姿特征,所述位姿特征表示所述图像帧中的人类的动作;
执行所述位姿特征到嵌入动作空间中的非线性映射;
执行所述动作的时间分类并获得基于分类姿势的标签的集合;以及
基于所述基于分类姿势的标签的集合来控制机器的移动。
8.根据权利要求7所述的方法,其中,所述位姿估计技术是部分亲和字段(PAF)特征生成技术。
9.根据权利要求7所述的方法,其中,所述嵌入动作空间是循环神经网络(RNN)框架。
10.根据权利要求9所述的方法,其中,所述RNN框架包括:
第一循环层,所述第一循环层对关节位置集之间的一阶相关性进行编码,以对所述动作进行建模;以及
第二循环层,所述第二循环层对所述关节位置集之间的更高阶相关性进行编码。
11.根据权利要求7所述的方法,其中,时间分类是使用长短期记忆(LSTM)来执行的。
12.根据权利要求9所述的方法,其中,非线性映射是使用所述RNN框架中的深度嵌入聚类来执行的。
13.一种用于动作识别的计算机程序产品,所述计算机程序产品包括:
存储在非暂时性计算机可读介质上的计算机可读指令,所述计算机可读指令能够由具有一个或更多个处理器的计算机执行,以使所述处理器执行以下操作:
对于输入视频的各个图像帧,计算基于骨骼关节的位姿特征,所述位姿特征表示所述图像帧中的人类的动作;
执行所述位姿特征到嵌入动作空间中的非线性映射;
执行所述动作的时间分类并获得基于分类姿势的标签的集合;以及
基于所述基于分类姿势的标签的集合来控制机器的移动。
14.根据权利要求13所述的计算机程序产品,其中,所述位姿估计技术是部分亲和字段(PAF)特征生成技术。
15.根据权利要求13所述的计算机程序产品,其中,所述嵌入动作空间是循环神经网络(RNN)框架。
16.根据权利要求15所述的计算机程序产品,其中,所述RNN框架包括:
第一循环层,所述第一循环层对关节位置集之间的一阶相关性进行编码,以对所述动作进行建模;以及
第二循环层,所述第二循环层对所述关节位置集之间的更高阶相关性进行编码。
17.根据权利要求13所述的计算机程序产品,其中,时间分类是使用长短期记忆(LSTM)来执行的。
18.根据权利要求15所述的计算机程序产品,其中,非线性映射是使用所述RNN框架中的深度嵌入聚类来执行的。
19.根据权利要求1所述的系统,其中,所述机器是自主车辆。
20.根据权利要求19所述的系统,其中,所述图像帧中的所述人类的所述动作包括在交通环境中指挥交通的人类的手势,并且其中,所述基于分类姿势的标签的所述集合是基于所述指挥交通的人类的所述手势的,并且其中,所述一个或更多个处理器执行对通过所述交通环境的所述自主车辆的导航进行控制的操作。
CN202080039707.7A 2019-07-10 2020-05-13 使用深度嵌入聚类的动作分类 Pending CN113892112A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962872630P 2019-07-10 2019-07-10
US62/872,630 2019-07-10
PCT/US2020/032701 WO2021006949A1 (en) 2019-07-10 2020-05-13 Action classification using deep embedded clustering

Publications (1)

Publication Number Publication Date
CN113892112A true CN113892112A (zh) 2022-01-04

Family

ID=70919234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080039707.7A Pending CN113892112A (zh) 2019-07-10 2020-05-13 使用深度嵌入聚类的动作分类

Country Status (4)

Country Link
US (1) US11232296B2 (zh)
EP (1) EP3997613A1 (zh)
CN (1) CN113892112A (zh)
WO (1) WO2021006949A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014075082A1 (en) 2012-11-12 2014-05-15 Gregory Thomas Everson Disease severity index for assessment of chronic liver disease and method for diagnosis of three distinct subtypes of primary sclerosing cholangitis
US11203348B2 (en) * 2019-10-28 2021-12-21 Denso International America, Inc. System and method for predicting and interpreting driving behavior
US11334797B2 (en) 2019-10-28 2022-05-17 Denso International America, Inc. System and method for predicting and interpreting driving behavior
EP3832420B1 (en) * 2019-12-06 2024-02-07 Elektrobit Automotive GmbH Deep learning based motion control of a group of autonomous vehicles
US20210232810A1 (en) * 2020-01-24 2021-07-29 University Of Washington Automated monitoring system for biomechanical postural assessment
CN113639760A (zh) * 2020-04-27 2021-11-12 福特全球技术公司 一种导航系统及导航地图的显示方法
US20220019888A1 (en) * 2020-07-20 2022-01-20 Adobe Inc. Unified framework for dynamic clustering and discrete time event prediction
TWI820347B (zh) * 2020-09-04 2023-11-01 仁寶電腦工業股份有限公司 行為識別方法、行為識別系統及手寫辨識系統
US20220198180A1 (en) * 2020-12-23 2022-06-23 Gm Cruise Holdings Llc Gesture analysis for autonomous vehicles
TWI779454B (zh) * 2021-01-08 2022-10-01 財團法人資訊工業策進會 動作辨識裝置及動作辨識方法
US11854305B2 (en) 2021-05-09 2023-12-26 International Business Machines Corporation Skeleton-based action recognition using bi-directional spatial-temporal transformer
WO2022241583A1 (zh) * 2021-05-15 2022-11-24 电子科技大学 一种基于多目视频的家庭场景动作捕捉方法
US11965747B2 (en) * 2022-04-19 2024-04-23 Ford Global Technologies, Llc Multimodal route data collection for improved routing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108762250A (zh) * 2018-04-27 2018-11-06 深圳市商汤科技有限公司 设备的控制方法和装置、设备、计算机程序和存储介质
CN109176512A (zh) * 2018-08-31 2019-01-11 南昌与德通讯技术有限公司 一种体感控制机器人的方法、机器人及控制装置
CN109214452A (zh) * 2018-08-29 2019-01-15 杭州电子科技大学 基于注意深度双向循环神经网络的hrrp目标识别方法
CN109325517A (zh) * 2018-08-14 2019-02-12 浙江大学 一种基于Attention的循环神经网络模型的图分类方法
CN109716393A (zh) * 2016-09-23 2019-05-03 蓝色视觉实验室英国有限公司 用于创建虚拟3d模型的方法和系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016091108A (ja) * 2014-10-30 2016-05-23 パナソニックIpマネジメント株式会社 人体部位検出システムおよび人体部位検出方法
US9984154B2 (en) * 2015-05-01 2018-05-29 Morpho Detection, Llc Systems and methods for analyzing time series data based on event transitions
DE102017216000A1 (de) 2017-09-11 2019-03-14 Conti Temic Microelectronic Gmbh Gestensteuerung zur Kommunikation mit einem autonomen Fahrzeug auf Basis einer einfachen 2D Kamera
US11263409B2 (en) * 2017-11-03 2022-03-01 Board Of Trustees Of Michigan State University System and apparatus for non-intrusive word and sentence level sign language translation
EP3723604A4 (en) * 2017-12-15 2021-04-21 Somatix Inc. SYSTEMS AND PROCEDURES FOR MONITORING THE WELL-BEING OF A USER
US11790213B2 (en) * 2019-06-12 2023-10-17 Sri International Identifying complex events from hierarchical representation of data set features

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109716393A (zh) * 2016-09-23 2019-05-03 蓝色视觉实验室英国有限公司 用于创建虚拟3d模型的方法和系统
CN108762250A (zh) * 2018-04-27 2018-11-06 深圳市商汤科技有限公司 设备的控制方法和装置、设备、计算机程序和存储介质
CN109325517A (zh) * 2018-08-14 2019-02-12 浙江大学 一种基于Attention的循环神经网络模型的图分类方法
CN109214452A (zh) * 2018-08-29 2019-01-15 杭州电子科技大学 基于注意深度双向循环神经网络的hrrp目标识别方法
CN109176512A (zh) * 2018-08-31 2019-01-11 南昌与德通讯技术有限公司 一种体感控制机器人的方法、机器人及控制装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ERXUE MIN , XIFENG GUO, QIANG LIU , (MEMBER, IEEE), GEN ZHANG , JIANJING CUI, AND JUN LONG: "A Survey of Clustering With Deep Learning: From the Perspective of Network Architecture", 《IEEE》, 17 July 2018 (2018-07-17), pages 2 - 7 *
SIJIE SONG, CUILING LAN, JUNLIANG XING, WENJUN ZENG, JIAYING LIU: "An End-to-End Spatio-Temporal Attention Model for Human Action Recognition from Skeleton Data", 《IEEE》, 18 November 2016 (2016-11-18), pages 2 - 5 *

Also Published As

Publication number Publication date
US20210012100A1 (en) 2021-01-14
EP3997613A1 (en) 2022-05-18
WO2021006949A1 (en) 2021-01-14
US11232296B2 (en) 2022-01-25

Similar Documents

Publication Publication Date Title
US11232296B2 (en) Action classification using deep embedded clustering
US11288498B2 (en) Learning actions with few labels in the embedded space
Camara et al. Pedestrian models for autonomous driving Part I: low-level models, from sensing to tracking
Borges et al. Video-based human behavior understanding: A survey
Rasouli et al. Bifold and semantic reasoning for pedestrian behavior prediction
Rasouli Deep learning for vision-based prediction: A survey
Natarajan et al. Hand gesture controlled drones: An open source library
Cheung et al. Lcrowdv: Generating labeled videos for simulation-based crowd behavior learning
Azorin-Lopez et al. A novel prediction method for early recognition of global human behaviour in image sequences
Azorín-López et al. Human behaviour recognition based on trajectory analysis using neural networks
Bi et al. How can i see my future? fvtraj: Using first-person view for pedestrian trajectory prediction
Henrio et al. Anomaly detection in videos recorded by drones in a surveillance context
CN112241757A (zh) 用于操作神经网络的设备和方法
Taylor et al. Regroup: A robot-centric group detection and tracking system
Avola et al. Machine learning for video event recognition
Kulbacki et al. Intelligent video monitoring system with the functionality of online recognition of people’s behavior and interactions between people
Duth et al. Human Activity Detection Using Pose Net
Rajendran et al. Study on machine learning and deep learning methods for human action recognition
Foroozandeh Shahraki Cyclist detection, tracking, and trajectory analysis in urban traffic video data
Khan et al. A Constructive Review on Pedestrian Action Detection, Recognition and Prediction
AlZoubi et al. Vehicle activity recognition using mapped QTC trajectories
Chen et al. Hand gesture recognition for human-computer interaction using moment invariants and neural network classifier
Apatean et al. Image Features Extraction, Selection and Fusion for Computer Vision
Mehtab Deep neural networks for road scene perception in autonomous vehicles using LiDARs and vision sensors
Bouzid Dynamic scene understanding: Pedestrian tracking from aerial devices.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination