CN111553326B - 手部动作识别方法、装置、电子设备及存储介质 - Google Patents

手部动作识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111553326B
CN111553326B CN202010472074.0A CN202010472074A CN111553326B CN 111553326 B CN111553326 B CN 111553326B CN 202010472074 A CN202010472074 A CN 202010472074A CN 111553326 B CN111553326 B CN 111553326B
Authority
CN
China
Prior art keywords
hand
target object
determining
handheld
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010472074.0A
Other languages
English (en)
Other versions
CN111553326A (zh
Inventor
黄杰
余镇滔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yitu Technology Co ltd
Original Assignee
Shanghai Yitu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yitu Technology Co ltd filed Critical Shanghai Yitu Technology Co ltd
Priority to CN202010472074.0A priority Critical patent/CN111553326B/zh
Publication of CN111553326A publication Critical patent/CN111553326A/zh
Application granted granted Critical
Publication of CN111553326B publication Critical patent/CN111553326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及人工智能技术领域,公开了一种手部动作识别方法、装置、电子设备及存储介质,提高针对手部危险动作识别的准确度。所述方法包括:从包含目标对象的视频帧中提取目标对象的手部位置;识别手部位置周围的局部图像中包含的手持物品的类别;确定目标对象的手部位置姿态,手部位置姿态表征手部相对人体所处的位置;基于包含目标对象的多个视频帧,确定目标对象的手部运动状态;基于手持物品的类别、手部位置姿态和手部运动状态,确定目标对象的手部动作所属的危险动作类别。

Description

手部动作识别方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种手部动作识别方法、装置、电子设备及存储介质。
背景技术
日常生活中可能会发生一些危险行为,比如手持刀具或者棍棒、投掷危险物品,等等,这些危险行为会给人民的生命财产带来一定的威胁。目前市场上还没有能自动检测危险动作的相关技术和产品,无法在危险事件发生的第一时间就生成报警信息,以降低对人民的生命和财产的威胁。
发明内容
本申请实施例提供一种手部动作识别方法、装置、电子设备及存储介质,提高针对手部危险动作识别的准确度。
一方面,本申请一实施例提供了一种手部动作识别方法,包括:
从包含目标对象的视频帧中提取所述目标对象的手部位置;
识别所述手部位置周围的局部图像中包含的手持物品的类别;
确定所述目标对象的手部位置姿态,所述手部位置姿态表征手部相对人体所处的位置;
基于包含所述目标对象的多个视频帧,确定所述目标对象的手部运动状态;
基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别。
可选地,所述基于包含所述目标对象的多个视频帧,确定所述目标对象的手部运动状态,具体包括:
获取包含所述目标对象的多个视频帧;
从所述多个视频帧中分别提取所述目标对象的手部位置和人体中心位置;
基于所述目标对象在所述多个视频帧中的手部位置和人体中心位置,获得所述手部位置相对于人体中心位置的移动速度。
可选地,所述基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别,具体包括:
确定所述手持物品的类别和所述手部位置姿态所满足的目标判断条件,其中,每个危险动作类别对应一个判断条件;
若移动速度大于速度阈值,则将所述目标判断条件对应的危险动作类别,确定为所述目标对象的手部动作所属的危险动作类别。
可选地,所述方法还包括:
基于包含所述目标对象的多个视频帧,确定所述手持物品的运动状态;
所述基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别,具体包括:
基于所述手持物品的类别、所述手部位置姿态、所述手部运动状态和所述手持物品的运动状态,确定所述目标对象的手部动作所属的危险动作类别。
可选地,所述确定所述目标对象的手部位置姿态,具体包括:
从所述视频帧中获取所述目标对象的多个人体关键点;
根据所述手部位置与所述多个人体关键点之间的位置关系,确定手部位置姿态。
可选地,所述确定所述目标对象的手部位置姿态之前,所述方法还包括:
从所述视频帧中获取所述目标对象的多个人体关键点;
基于所述多个人体关键点之间的位置关系,确定所述目标对象处于站立姿态。
可选地,所述基于所述多个人体关键点之间的位置关系,确定所述目标对象处于站立姿态,具体包括:
若所述多个人体关键点之间的位置关系满足预设条件,则确定所述目标对象处于站立姿态;
其中,所述预设条件包括:
头部位置和脚腕位置的连线与水平线的夹角大于预设角度;以及,
多个人体关键点在所述视频帧中所处位置由高到低的顺序依次为:头部位置、髋部位置、膝盖位置和脚腕位置。
可选地,所述识别所述手部位置周围的局部图像中包含的手持物品的类别之前,所述方法还包括:
对所述局部图像进行手部识别,确定所述局部图像中包含手部。
可选地,所述识别所述手部位置周围的局部图像中包含的手持物品的类别之前,所述方法还包括:
对所述局部图像进行物品识别,确定所述局部图像中包含手持物品。
一方面,本申请一实施例提供了一种手部动作识别装置,包括:
关键点提取模块,用于从包含目标对象的视频帧中提取所述目标对象的手部位置;
物品识别模块,用于识别所述手部位置周围的局部图像中包含的手持物品的类别;
手部姿态识别模块,用于确定所述目标对象的手部位置姿态,所述手部位置姿态表征手部相对人体所处的位置;
手部运动状态识别模块,用于基于包含所述目标对象的多个视频帧,确定所述目标对象的手部运动状态;
动作分类模块,用于基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别。
可选地,所述手部运动状态识别模块,具体用于:
获取包含所述目标对象的多个视频帧;
从所述多个视频帧中分别提取所述目标对象的手部位置和人体中心位置;
基于所述目标对象在所述多个视频帧中的手部位置和人体中心位置,获得所述手部位置相对于人体中心位置的移动速度。
可选地,所述动作分类模块,具体用于:
确定所述手持物品的类别和所述手部位置姿态所满足的目标判断条件,其中,每个危险动作类别对应一个判断条件;
若移动速度大于速度阈值,则将所述目标判断条件对应的危险动作类别,确定为所述目标对象的手部动作所属的危险动作类别。
可选地,所述装置还包括:物品运动状态识别模块,用于基于包含所述目标对象的多个视频帧,确定所述手持物品的运动状态;
所述动作分类模块,具体用于基于所述手持物品的类别、所述手部位置姿态、所述手部运动状态和所述手持物品的运动状态,确定所述目标对象的手部动作所属的危险动作类别。
可选地,手部姿态识别模块,具体用于:
从所述视频帧中获取所述目标对象的多个人体关键点;
根据所述手部位置与所述多个人体关键点之间的位置关系,确定手部位置姿态。
可选地,所述装置还包括站立姿态识别模块,用于在执行所述手部姿态识别模块之前,从所述视频帧中获取所述目标对象的多个人体关键点,基于所述多个人体关键点之间的位置关系,判断所述目标对象是否处于站立姿态,若确定所述目标对象是否处于站立姿态,则执行所述手部姿态识别模块。
可选地,所述站立姿态识别模块,具体用于:
若所述多个人体关键点之间的位置关系满足预设条件,则确定所述目标对象处于站立姿态;
其中,所述预设条件包括:
头部位置和脚腕位置的连线与水平线的夹角大于预设角度;以及,
多个人体关键点在所述视频帧中所处位置由高到低的顺序依次为:头部位置、髋部位置、膝盖位置和脚腕位置。
可选地,所述装置还包括手部识别模块,用于在执行所述物品识别模块之前,对所述局部图像进行手部识别,判断所述局部图像中是否包含手部,若确定所述局部图像中包含手部,则执行所述物品识别模块。
可选地,所述物品识别模块还用于:在识别所述手部位置周围的局部图像中包含的手持物品的类别之前,对所述局部图像进行物品识别,确定所述局部图像中包含手持物品。
一方面,本申请一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种方法的步骤。
一方面,本申请一实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法的步骤。
本申请实施例提供手部动作识别方法、装置、电子设备及存储介质,首先,基于人体关键点检测技术,从包含目标对象的视频帧中提取目标对象的手部位置;然后,从视频帧中获取手部位置周围的局部图像,识别局部图像中包含的手持物品的类别,同时确定目标对象的手部位置姿态,即手部相对人体所处的位置;基于包含目标对象的多个视频帧,确定目标对象的手部运动状态;最后,基于手持物品的类别、手部位置姿态和手部运动状态,确定目标对象的手部动作所属的危险动作类别。相比于单个整张图像的识别方式,基于手部位置周围的局部图像进行识别,可提高识别手持物品类别的准确度,此外,结合手持物品类别、手部位置姿态以及基于多个视频帧确定出的手部运动状态,进行危险动作识别,可提高危险动作识别的准确度,只有当手持物品类别属于危险物品且手部位置姿态处于某些状态时,才认为目标对象正在执行危险动作,可排除守法公民的正常行为,降低误判率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的手部动作识别方法的应用场景示意图;
图2为本申请一实施例提供的手部动作识别方法的流程示意图;
图3为本申请一实施例提供的确定目标对象的手部运动状态的流程示意图;
图4为本申请一实施例提供的确定手持物品的运动状态的流程示意图;
图5为本申请一实施例提供的手部动作识别装置的结构示意图;
图6为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
为了方便理解,下面对本申请实施例中涉及的名词进行解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
深度学习:深度学习的概念源于人工神经网络的研究,含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,通过模仿人脑的机制来解释数据,例如图像,声音和文本等。常用的深度学习模型包括:卷积神经网络(Convolutional NeuralNetworks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、是长短期记忆网络(Long Short-Term Memory,LSTM)、深度神经网络(Deep Neural Network,DNN)、深度置信网(Deep Belief Nets,DBNs)等神经网络。数据在神经网络中的传播有两种方式,一种是沿着输入到输出的路径,被称为前向传播(Forwardpropagation),另一种是从输出返回到输入,被成为反向传播(Backpropagation)。在正向传播过程中,输入信息通过神经网络逐层处理并传向输出层,通过损失函数描述输出值与期望之间的误差,转入反向传播,逐层求出损失函数对各神经元的权重的偏导数,构成损失函数对权值向量的权重梯度数据,作为更新权重参数的依据,在不断更新权重参数的过程中完成神经网络的训练。
目标跟踪技术,即对视频中的运动目标进行追踪,是计算机视觉技术中的一个融合了图像图形学、模式识别、计算机技术与仿真、人工智能、人机工程学等多项技术的分支。目标跟踪的一般由4个基本部分构成:特征提取、运动模型、外观模型、在线更新机制。特征提取(Feature Extraction)用于提取跟踪的目标对象的特征,常见的特征有灰度特征、颜色特征、纹理特征、Haar-like矩形特征、兴趣点特征、超像素特征、人脸特征等,当然也还有许多其他特征。运动模型(Motion Model)旨在描述帧与帧目标运动状态之间的关系,显式或隐式地在视频帧中预测目标图像区域,并给出一组可能的候选区域,经典的运动模型有均值漂移(Mean shift)、滑动窗口(Slide window)、卡尔曼滤波(Kalman Filtering)、粒子滤波(Particle Filtering)等。外观模型(Appearance Model)的作用是在当前帧中判决候选图像区域是被跟踪目标的可能性,提取图像区域的视觉特征,输入外观模型进行匹配或决策,最终确定被跟踪目标的空间位置。在线更新机制(Online Update Mechanism)的作用是捕捉目标和背景在跟踪过程中的变化,在跟踪过程中不断更新外观模型,常见的外观模型更新方式有模板更新、增量子空间学习算法及在线分类器等。目标跟踪算法主要分为两类:(1)生成式(generative)模型:通过在线学习方式建立目标模型,然后使用模型搜索重建误差最小的图像区域,完成目标定位,比较著名的有卡尔曼滤波,粒子滤波,mean-shift等;(2)判别式(discrimination)模型:将目标跟踪看作是一个二元分类问题,同时提取目标和背景信息用来训练分类器,将目标从图像序列背景中分离出来,从而得到当前帧的目标位置。
人体关键点是指人体的各个部位的关键位置点,人体关键点对于描述人体姿态、预测人体行为至关重要。人体关键点主要包括:手腕(可以分为右手腕和左手腕)、手肘(可以分为左胳膊肘关节和右胳臂肘关节)、肩部(可分为左肩和右肩)、脚腕(可分为左脚腕和右脚腕)、膝盖(可分为左膝盖和右膝盖)、胯骨、髋部、臀部(可分为左臀部和右臀部)、胸部、头部、眼睛、下巴、头顶等。传统方法主要采用图形结构来解决人体关键点检测问题,例如,树模型(TreeModels)和随机森林模型(Random Forest Models)。近年来,深度学习技术得到了广泛的应用,产生了一系列人体关键点检测算法,例如DeepPose、CPM、SHN、PAFs、RMPE、CPN及其一系列衍生算法。基于深度学习方法,获得人体关键点检测模型的训练过程包括:获取训练样本集合,训练样本包括样本人体图像和样本人体图像中显示的人体的至少一个部位的关键点的位置信息;获取初始人体关键点检测模型,初始人体关键点检测模型包括特征提取网络、与至少一个部位对应的至少一个关键点检测网络;利用深度学习方法,将训练样本集合中的训练样本的样本人体图像作为特征提取网络的输入,将特征提取网络输出的特征信息分别输入至少一个关键点检测网络,将输入的样本人体图像中显示的人体的至少一个部位的关键点的位置信息分别作为对应的关键点检测网络的期望输出,训练得到人体关键点检测模型。
附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
本申请发明人发现,目前市场上还没有能自动检测危险动作的相关技术和产品,无法在危险事件发生的第一时间就生成报警信息,以降低对人民的生命和财产的威胁。而常用的图像识别方法通常是直接对整张图像进行识别,例如基于大量标记了动作类别的图像对图像分类模型进行训练,使用时直接将整张图像输入图像分类模型,获得针对该图像的动作识别结果,这种基于整张图像进行动作识别方法的识别准确度较低。
为此,本申请提供了一种手部动作识别方法,首先,基于人体关键点检测技术,从包含目标对象的视频帧中提取目标对象的手部位置;然后,从视频帧中获取手部位置周围的局部图像,识别局部图像中包含的手持物品的类别,同时确定目标对象的手部位置姿态,即手部相对人体所处的位置;基于包含目标对象的多个视频帧,确定目标对象的手部运动状态;最后,基于手持物品的类别、手部位置姿态和手部运动状态,确定目标对象的手部动作所属的危险动作类别。相比于单个整张图像的识别方式,基于手部位置周围的局部图像进行识别,可提高识别手持物品类别的准确度,此外,结合手持物品类别、手部位置姿态以及基于多个视频帧确定出的手部运动状态,进行危险动作识别,可提高危险动作识别的准确度,只有当手持物品类别属于危险物品且手部位置姿态处于某些状态时,才认为目标对象正在执行危险动作,可排除守法公民的正常行为,降低误判率。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
参考图1,其为本申请实施例提供的手部动作识别方法的应用场景示意图。该应用场景包括多个摄像头101、服务器102和告警设备103,其中,摄像头101和服务器102之间、以及服务器102和告警设备103之间均通过无线或有线网络连接。摄像头101可以是设置在公共场所的各种监控摄像头,服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。摄像头101将采集的视频发送台服务器102,服务器102对视频进行处理,识别视频中包含的人的手部动作,确定该手部动作是否为危险动作,当确定视频中存在危险动作时,生成报警信息,并将报警信息推送至告警设备103。告警设备103可以是设置在安全部门的设备,或者可以是安全人员随身携带的终端设备,以便第一时间通知安全人员发生了危险事件。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其它可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。
下面结合图1所示的应用场景,对本申请实施例提供的技术方案进行说明。
参考图2,本申请实施例提供一种手部动作识别方法,可应用于图1所示的服务器,具体包括以下步骤:
S201、从包含目标对象的视频帧中提取目标对象的手部位置。
具体实施时,服务器可先对待处理的视频进行解帧处理,获得若干视频帧组成的视频帧序列,然后,针对视频帧中出现的每个目标对象,基于目标跟踪技术对该目标对象进行跟踪识别,进而从视频帧序列中抽取出包含该目标对象的多个视频帧。其中,采用的目标跟踪技术可以是DeepSort(Simple Online and Realtime Tracking with a DeepAssociation Metric,具有深度关联度量的简单在线实时跟踪)或KCF(KernelCorrelation Filter,核相关滤波算法)等,本申请实施例不作限定。通过上述方法可获得视频中每个目标对象所对应的多个视频帧,然后分别基于各个目标对象的视频帧,识别各个目标对象是否存在危险动作。步骤S201~S205是针对一个目标对象的处理过程,视频帧中的每个目标对象的处理方式相同。
具体实施时,针对每个目标对象,可以从包含该目标对象的任一视频帧中提取该目标对象的手部位置,并在该视频帧中截取手部位置周围的局部图像,用于后续识别手持物品。
S202、识别手部位置周围的局部图像中包含的手持物品的类别。
具体实施时,可基于已训练的物品识别模型,识别局部图像中包含的手持物品的类别。其中,物品识别模型可以是通过训练现有的神经网络获得的模型,可使用的神经网络包括但不限于CNN(Convolutional Neural Network,卷积神经网络)、VGG(VisualGeometry Group Network,视觉几何群网络)等。为了提高物品识别模型的精度,用于训练的图像可以是手握物品的图像。本申请实施例的方法主要用于识别手部危险动作,由于危险分子常常手持的物品大致可分为以下几类:刀具、投掷物、传单以及横幅等,为此,可收集手持刀具、手持各类投掷物(如酒瓶、手榴弹、烟雾弹等)、手持传单、手持横幅的图像,并为这些图像标注上对应物品类别的标签,将标注好的图像添加到第一训练样本集中,同时第一训练样本集中还包括不属于上述几类物品的其它物品的图像,这些图像被的标签为其他物品;基于第一训练样本集中的图像对物品识别模型进行训练,获得能够识别刀具、投掷物、传单、横幅以及其它物品的物品识别模型。实际应用中,手持物品的类别可根据应用场景进行调整,不限于上述列举的类别。
实际应用中,在一些视频帧中存在目标对象的手部位置被遮挡的情况,此时无法准确获取到手部位置,甚至无法获取到手部位置,或者截取的局部图像不清晰,导致无法准确识别手持物品的类别。为此,可从多个包含该目标对象的视频帧中提取该目标对象的手部位置,进而获取到多个局部图像,对多个局部图像进行手持物品的识别,综合多次识别结果最终确认目标对象手持的物品类别,以提高物品识别的准确度。
S203、确定目标对象的手部位置姿态,手部位置姿态表征手部相对人体所处的位置。
其中,手部位置姿态是指目标对象的手部相对于目标对象的人体所处的位置。
具体实施时,可以根据手部位置与多个人体关键点之间的位置关系,确定手部位置姿态,为此,步骤203具体包括:从视频帧中获取目标对象的多个人体关键点,根据手部位置与多个人体关键点之间的位置关系,确定手部位置姿态。其中,人体关键点包括但不限于:眼睛位置、手肘位置和髋部位置等。例如,若手部位置高于眼睛位置,则确定手部位置姿态为上举姿态;若手部位置不低于眼睛位置且手部位置高于手肘位置,则确定手部位置姿态为置于胸前;若手部位置不低于手肘位置且手部位置高于髋部位置,则确定手部位置姿态为置于腹部;若手部位置不低于髋部位置,则确定手部位置姿态为放下姿态。
实际应用中,可根据应用场景的实际需求选择合适的人体关键点,不限于上述列举的内容,例如人体关键点还可以包括:头部位置、髋部位置、膝盖位置和脚腕位置等。对于手部位置姿态的分类,也不限于上述列举的手部位置姿态。
S204、基于包含目标对象的多个视频帧,确定目标对象的手部运动状态。
基于包含目标对象的多个连续的视频帧,可以确定出目标对象的手部运动状态,例如目标对象在进行投掷物品、挥舞刀具等危险动作时,手部存在一定的运动规律,这样可以排除手握物品但不在进行投掷物品、挥舞刀具等危险动作的对象。因此,基于多个连续的视频帧确定手部运动状态,结合手部运动状态进行动作识别,可显著提高针对危险动作的识别准确度。
S205、基于手持物品的类别、手部位置姿态和手部运动状态,确定目标对象的手部动作所属的危险动作类别。
具体实施时,可根据实际应用场景预先设定多种危险动作类别,并为每种危险动作类别设置对应的判断条件,每个判断条件包括对手持物品类别和手部位置姿态的限定。当目标对象手持的物品类别与某一判断条件中的手持物品类别一致,且目标对象的手部位置姿态属于该判断条件中限定的手部位置姿态时,则确定该目标对象的手部动作为该判断条件对应的危险动作类别。
例如,可设定以下几种危险动作类别:投掷物品、挥舞刀具、拉横幅和抛洒传单。投掷物品对应的判断条件可以是:手持物品的类别为投掷物,手部位置姿态为上举或置于胸前,手部运动状态为运动;挥舞刀具对应的判断条件可以是:手持物品的类别为刀具,手部位置姿态为上举或置于胸前,手部运动状态为运动;拉横幅对应的判断条件可以是:手持物品的类别为横幅,手部位置姿态为上举或置于胸前,手部运动状态为运动为静止;抛洒传单对应的判断条件可以是:手持物品的类别为传单,手部位置姿态为上举,手部运动状态为运动。此时,若目标对象的手持物品为刀具,且目标对象是手部位置姿态为上举,手部运动状态为运动,则确定目标对象的手部动作为挥舞刀具。
在确定出目标对象的手部动作所属的危险动作类别后,可生成报警信息,并将报警信息推送至告警设备,以便第一时间通知相关人员,及时作出应对危险事件的措施。其中,报警信息包括但不限于以下内容:目标对象的图像、危险动作类别、危险事件发生地点等信息。其中,可从视频中截取目标对象的图像,截取的图像可以是目标对象的人脸图像或全身图像等包含明显的人体特征的图像。危险事件发生地点可根据采集视频的摄像头的布控位置确定,为此,每个向服务器上传视频的摄像头都有唯一的编号,并预先存储各个摄像头对应的布控位置,方便相关人员快速获取到危险事件发生地点。
具体实施时,若基于包含目标对象的视频帧确定出的手持物品的类别和手部位置姿态,不满足任何一个判断条件,则确定该目标对象未执行危险动作。此时,可继续对视频中其他的目标对象进行动作识别,或者获取下一个视频进行动作识别。
本申请实施例的手部动作识别方法,首先,基于人体关键点检测技术,从包含目标对象的视频帧中提取目标对象的手部位置;然后,从视频帧中获取手部位置周围的局部图像,识别局部图像中包含的手持物品的类别,同时确定目标对象的手部位置姿态,即手部相对人体所处的位置;基于包含目标对象的多个视频帧,确定目标对象的手部运动状态;最后,基于手持物品的类别和手部位置姿态,确定目标对象的手部动作所属的危险动作类别。相比于单个整张图像的识别方式,基于手部位置周围的局部图像进行识别,可提高识别手持物品类别的准确度,此外,结合手持物品类别、手部位置姿态以及基于多个视频帧确定出的手部运动状态,进行危险动作识别,可提高危险动作识别的准确度,只有当手持物品类别属于危险物品且手部位置姿态处于某些状态时,才认为目标对象正在执行危险动作,可排除守法公民的正常行为,降低误判率。
在上述任一实施方式的基础上,参考图3,可通过如下方式确定目标对象的手部运动状态:
S301、获取包含目标对象的多个视频帧。
具体实施时,可基于目标跟踪技术对目标对象进行跟踪识别,进而从视频帧序列中抽取出包含该目标对象的多个视频帧,将这多个视频帧按时间的先后顺序排列,获得目标对象的帧序列P。
S302、从多个视频帧中分别提取目标对象的手部位置和人体中心位置。
具体实施时,可将识别到目标对象手握物品的视频帧作为当前帧,对当前帧中的目标对象进行人体关键点提取,获得目标对象的手部位置在当前帧中的坐标,以及目标对象的人体中心点位置在当前帧中的坐标。然后,以同样的方式,从目标对象的帧序列P中位于当前帧前后的多个视频帧中分别提取目标对象的手部位置的坐标和人体中心位置的坐标。
S303、基于目标对象在多个视频帧中的手部位置和人体中心位置,获得手部位置相对于人体中心位置的移动速度。
以两帧个视频帧求解移动速度为例,可通过如下公式获得手部位置相对于人体中心位置的移动速度:
Figure BDA0002514591470000141
其中,(m0,n0)是目标对象的帧序列P中的第i帧的人体中心位置的坐标,(x0,y0)是第i帧的手部位置的坐标,(m1,n1)是帧序列P中的第j帧的人体中心点位置的坐标,(x1,y1)是第j帧的手部位置的坐标,t1-t0是第i帧和第j帧的时间差。
实际应用中,第i帧和第j帧可以是目标对象的帧序列P中相邻的两个视频帧,也可以是不相邻的视频帧。
进一步地,还可以基于目标对象在多个视频帧中的手部位置、人体中心位置以及目标对象的身高参数,获得手部位置相对于人体中心位置的移动速度。具体地,可通过如下公式获得手部位置相对于人体中心位置的移动速度:
Figure BDA0002514591470000151
其中,(m0,n0)是目标对象的帧序列P中的第i帧的人体中心位置的坐标,(x0,y0)是第i帧的手部位置的坐标,(m1,n1)是帧序列P中的第j帧的人体中心点位置的坐标,(x1,y1)是第j帧的手部位置的坐标,t1-t0是第i帧和第j帧的时间差,h0是第i帧中人体的身高,h1是第j帧中人体的身高。当然,上述公式中的身高参数
Figure BDA0002514591470000152
也可以替换成h0或h1等。在计算目标对象手部的移动速度时,增加人体的身高参数,可在一定程度起到避免因目标对象与摄像头之间的距离不同,造成速度计算基准不统一的问题,提高移动速度计算的准确率。
具体实施时,还可以通过上述任一速度计算公式,基于目标对象的帧序列P中任意两个视频帧,获得多个移动速度,基于这多个移动速度,获得更加精准的移动速度。例如,目标对象的帧序列P中包含20帧,可基于第1帧和第11帧获得移动速度V1,基于第2帧和第12帧获得移动速度V2,以此类推,直至基于第10帧和第20帧获得移动速度V10,可将平均移动速度
Figure BDA0002514591470000153
作为手部位置相对于人体中心位置的移动速度。当然,也可以仅选取目标对象的帧序列P中的部分视频帧参与上述移动速度的计算。
在此基础上,步骤S205的具体实施方式可以是:将基于包含目标对象的视频帧确定出的手持物品的类别和手部位置姿态,与预设的判断条件进行比对,确定手持物品的类别和手部位置姿态所满足的目标判断条件;在确定出目标判断条件后,判断手部位置相对于人体中心位置的移动速度是否大于速度阈值,若该移动速度大于速度阈值,则将目标判断条件对应的危险动作类别,确定为目标对象的手部动作所属的危险动作类别;若该移动速度不大于速度阈值,则确定该目标对象未执行危险动作。其中,若基于包含目标对象的视频帧确定出的手持物品的类别和手部位置姿态,不满足任何一个判断条件,则确定该目标对象未执行危险动作。
基于多个连续的视频帧确定手部运动状态,结合手部运动状态进行动作识别,提高动作识别的准确度。
进一步地,还可以基于包含目标对象的多个视频帧,确定手持物品的运动状态,基于手持物品的类别、手部位置姿态、手部运动状态和手持物品的运动状态,确定目标对象的手部动作所属的危险动作类别。结合手持物品的运动状态进行动作识别,可进一步地提高动作识别的准确度。例如,投掷物品这一动作,势必会发生手持物品从有到无的过程,因此结合手持物品的运动状态,可以更准确地识别危险动作的类别。
具体地,参考图4,可通过如下方式确定手持物品的运动状态:
S401、确定识别到手持物品的局部图像所属的第一视频帧。
步骤401中的局部图像是步骤S202中使用的局部图像。
S402、从包含目标对象的多个视频帧中获取位于第一视频帧之后的多个视频帧。
具体实施时,可基于目标跟踪技术对目标对象进行跟踪识别,进而从视频帧序列中抽取出包含该目标对象的多个视频帧,将这多个视频帧按时间的先后顺序排列,获得目标对象的帧序列P,从帧序列P中获取位于第一视频帧前后的多个视频帧,这些视频帧中都包含目标对象。
S403、针对获取的多个视频帧中每个视频帧,从该视频帧中截取目标对象的手部位置周围的局部图像。
S404、对通过步骤S403获得的各个局部图像进行物品识别,确定各个局部图像中是否包含步骤S202中识别出的手持物品。
S405、若至少一个局部图像不包含手持物品,则确定手持物品的运动状态为从有到无,否则,确定手持物品的状态为持续持有。
如果手持物品的运动状态为从有到无,则表明目标对象已将手持物品投掷出去了,如果手持物品的状态为持续持有,则表明目标对象未将手持物品投掷出去。
结合上述多种动作识别的方式,针对各类危险动作各自的特点,可为不同的危险动作设置不同的动作识别方式,例如:
当目标对象的手部动作满足挥舞刀具对应的判断条件时,进一步判断目标对象的手部运动状态,若目标对象手部的移动速度超过速度阈值,则确定该目标对象的手部动作为挥舞刀具;
当目标对象的手部动作满足拉横幅对应的判断条件时,确定该目标对象的手部动作为拉横幅;
当目标对象的手部动作满足投掷物品对应的判断条件时,进一步判断目标对象的手部运动状态以及手持物品的运动状态,若目标对象手部的移动速度超过速度阈值,且手持物品从有到无,则确定该目标对象的手部动作为投掷物品;
当目标对象的手部动作满足抛洒传单对应的判断条件时,进一步判断目标对象的手部运动状态以及手持物品的运动状态,若目标对象手部的移动速度超过速度阈值,且手持物品从有到无,则确定该目标对象的手部动作为抛洒传单。
在上述任一实施方式的基础上,在执行步骤S203之前,本申请实施例的方法还包括如下步骤:从视频帧中获取目标对象的多个人体关键点;基于获取的多个人体关键点之间的位置关系,判断目标对象是否处于站立姿态;若确定目标对象处于站立姿态,则执行步骤S203,否则,确定目标对象未执行危险动作。
当目标对象处于站立姿态时,才会进一步识别手部位置姿态,当目标对象处于非站立姿态时,直接确定目标对象未执行危险动作,即不进行后续的动作识别处理。通过识别目标对象是否处于站立姿态,进行危险动作的预判,过滤掉部分明显不在执行危险动作的目标对象,将更多的计算资源用于检测可疑度更高的目标对象,提高处理效率。
具体实施时,可将目标对象的多个人体关键点之间的位置关系,与预设条件进行比对,若多个人体关键点之间的位置关系满足预设条件,则确定目标对象处于站立姿态,否则确定目标对象处于非站立姿态。
其中,预设条件包括但不限于以下至少一个条件:
预设条件一:目标对象的头部位置和脚腕位置的连线与水平线的夹角大于预设角度。其中,预设角度可根据实际应用场景以及经验确定,例如预设角度可以取45度、50度等数值。
预设条件二:目标对象的多个人体关键点在视频帧中所处位置由高到低的顺序依次为:头部位置、髋部位置、膝盖位置和脚腕位置。即当视频帧中,目标对象的头部、髋部、膝盖和脚腕处于自上向下的状态时,表明目标对象处于站立姿态,否则目标对象处于非站立姿态。
具体实施时,可设定:当同时满足上述两个预设条件时,才可以确定目标对象处于站立姿态。也可以设定:仅满足一个预设条件时,即可确定目标对象处于站立姿态。
在上述任一实施方式的基础上,在执行步骤S202之间,本申请实施例的方法还包括如下步骤:对目标对象的手部位置对应的局部图像进行手部识别,判断该局部图像中是否包含手部;若确定局部图像中包含手部,则执行步骤S202;否则,从其它包含该目标对象的视频帧中重新定位该目标对象的手部位置,并截取目标对象的手部位置对应的局部图像,对重新截取的局部图像进行手部识别,判断该局部图像中是否包含手部。
具体实施时,可基于一个已训练的手部判别模型,判断局部图像中是否包含手部。其中,手部判别模型可以是一个二分类深度神经网络,该二分类深度神经网络包括但不限于CNN(Convolutional Neural Network,卷积神经网络)、VGG(Visual Geometry GroupNetwork,视觉几何群网络)等。获取大量包含手的图像和不包含手的图像,并为每个图像标注好表征是否包含手的标签,将标注好的图像添加到第二训练样本集中,基于第二训练样本集中的图像对手部判别模型进行训练,使得训练后的手部判别模型能够识别输入图像中是否包含手部。
实际应用中,基于人体关键点提取方法定位到的手部位置,可能存在误差,或者实际上定位到的区域内不存在手。为此,基于手部判别模型,可准确地识别出不包含手的局部图像,提高后续手持物品识别的准确度。
在上述任一实施方式的基础上,在执行步骤S202之前,本申请实施例的方法还包括如下步骤:对目标对象的手部位置对应的局部图像进行物品识别,判断该局部图像中是否包含手持物品;若确定局部图像中包含手持物品,则执行步骤S202;否则,从其它包含该目标对象的视频帧中重新定位该目标对象的手部位置,并截取目标对象的手部位置对应的局部图像,对重新截取的局部图像进行物品识别,判断该局部图像中是否包含手持物品。
具体实施时,可基于一个已训练的物品判别模型,判断局部图像中是否包含手持物品。其中,物品判别模型可以是一个二分类深度神经网络,该二分类深度神经网络包括但不限于CNN(Convolutional Neural Network,卷积神经网络)、VGG(Visual GeometryGroup Network,视觉几何群网络)等。获取大量包含手持物品的图像和不包含手持物品的图像,并为每个图像标注好表征是否包含手持物品的标签,将标注好的图像添加到第三训练样本集中,基于第三训练样本集中的图像对物品判别模型进行训练,使得训练后的物品判别模型能够识别输入图像中是否包含手持物品。
基于物品判别模型,可过滤掉部分明显不包含手持物品的局部图像,提高处理效率。
具体实施时,可先对局部图像进行手部识别,确定局部图像中包含手持物品后,再对局部图像进行物品识别,确定局部图像中包含手持物品后,再执行步骤S202。
如图5所示,基于与上述手部动作识别方法相同的发明构思,本申请实施例还提供了一种手部动作识别装置50,包括关键点提取模块501、物品识别模块502、手部姿态识别模块503、手部运动状态识别模块504和动作分类模块505。
关键点提取模块501,用于从包含目标对象的视频帧中提取目标对象的手部位置;
物品识别模块502,用于识别手部位置周围的局部图像中包含的手持物品的类别;
手部姿态识别模块503,用于确定目标对象的手部位置姿态,手部位置姿态表征手部相对人体所处的位置;
手部运动状态识别模块504,用于基于包含目标对象的多个视频帧,确定目标对象的手部运动状态;
动作分类模块505,用于基于手持物品的类别、手部位置姿态和手部运动状态,确定目标对象的手部动作所属的危险动作类别。
可选地,手部运动状态识别模块504,具体用于:
获取包含目标对象的多个视频帧;
从多个视频帧中分别提取目标对象的手部位置和人体中心位置;
基于目标对象在多个视频帧中的手部位置和人体中心位置,获得手部位置相对于人体中心位置的移动速度。
可选地,动作分类模块505,具体用于:
确定手持物品的类别和手部位置姿态所满足的目标判断条件,其中,每个危险动作类别对应一个判断条件;
若移动速度大于速度阈值,则将目标判断条件对应的危险动作类别,确定为目标对象的手部动作所属的危险动作类别。
可选地,手部动作识别装置50还包括:物品运动状态识别模块506,用于基于包含目标对象的多个视频帧,确定手持物品的运动状态。
相应地,动作分类模块505,具体用于基于手持物品的类别、手部位置姿态、手部运动状态和手持物品的运动状态,确定目标对象的手部动作所属的危险动作类别。
可选地,手部姿态识别模块503,具体用于:
从视频帧中获取目标对象的多个人体关键点;
根据手部位置与多个人体关键点之间的位置关系,确定手部位置姿态。
可选地,手部动作识别装置50还包括站立姿态识别模块507,用于在执行手部姿态识别模块503之前,从视频帧中获取目标对象的多个人体关键点,基于多个人体关键点之间的位置关系,判断目标对象是否处于站立姿态,若确定目标对象是否处于站立姿态,则执行手部姿态识别模块503。
可选地,站立姿态识别模块507,具体用于:
若多个人体关键点之间的位置关系满足预设条件,则确定目标对象处于站立姿态;
其中,预设条件包括:
头部位置和脚腕位置的连线与水平线的夹角大于预设角度;以及,
多个人体关键点在视频帧中所处位置由高到低的顺序依次为:头部位置、髋部位置、膝盖位置和脚腕位置。
可选地,手部动作识别装置50还包括手部识别模块508,用于在执行物品识别模块502之前,对局部图像进行手部识别,判断局部图像中是否包含手部,若确定局部图像中包含手部,则执行物品识别模块502。
可选地,物品识别模块502还用于:在识别手部位置周围的局部图像中包含的手持物品的类别之前,对局部图像进行物品识别,确定局部图像中包含手持物品。
本申请实施例提的手部动作识别装置与上述手部动作识别方法采用了相同的发明构思,能够取得相同的有益效果,在此不再赘述。
基于与上述手部动作识别方法相同的发明构思,本申请实施例还提供了一种电子设备,该电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、服务器等。如图6所示,该电子设备60可以包括处理器601和存储器602。
处理器601可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器602作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本申请实施例提供了一种计算机可读存储介质,用于储存为上述电子设备所用的计算机程序指令,其包含用于执行上述手部动作识别方法的程序。
上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。
以上实施例仅用以对本申请的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本申请实施例的方法,不应理解为对本申请实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (20)

1.一种手部动作识别方法,其特征在于,包括:
从包含目标对象的视频帧中提取所述目标对象的手部位置;
识别所述手部位置周围的局部图像中包含的手持物品的类别;
确定所述目标对象的手部位置姿态,所述手部位置姿态表征手部相对人体所处的位置;
基于包含所述目标对象的多个视频帧,确定所述目标对象的手部运动状态;
基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别。
2.根据权利要求1所述的方法,其特征在于,所述基于包含所述目标对象的多个视频帧,确定所述目标对象的手部运动状态,具体包括:
获取包含所述目标对象的多个视频帧;
从所述多个视频帧中分别提取所述目标对象的手部位置和人体中心位置;
基于所述目标对象在所述多个视频帧中的手部位置和人体中心位置,获得所述手部位置相对于人体中心位置的移动速度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别,具体包括:
确定所述手持物品的类别和所述手部位置姿态所满足的目标判断条件,其中,每个危险动作类别对应一个判断条件;
若移动速度大于速度阈值,则将所述目标判断条件对应的危险动作类别,确定为所述目标对象的手部动作所属的危险动作类别。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于包含所述目标对象的多个视频帧,确定所述手持物品的运动状态;
所述基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别,具体包括:
基于所述手持物品的类别、所述手部位置姿态、所述手部运动状态和所述手持物品的运动状态,确定所述目标对象的手部动作所属的危险动作类别。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述确定所述目标对象的手部位置姿态,具体包括:
从所述视频帧中获取所述目标对象的多个人体关键点;
根据所述手部位置与所述多个人体关键点之间的位置关系,确定手部位置姿态。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述确定所述目标对象的手部位置姿态之前,所述方法还包括:
从所述视频帧中获取所述目标对象的多个人体关键点;
基于所述多个人体关键点之间的位置关系,确定所述目标对象处于站立姿态。
7.根据权利要求6所述的方法,其特征在于,所述基于所述多个人体关键点之间的位置关系,确定所述目标对象处于站立姿态,具体包括:
若所述多个人体关键点之间的位置关系满足预设条件,则确定所述目标对象处于站立姿态;
其中,所述预设条件包括:
头部位置和脚腕位置的连线与水平线的夹角大于预设角度;以及,
多个人体关键点在所述视频帧中所处位置由高到低的顺序依次为:头部位置、髋部位置、膝盖位置和脚腕位置。
8.根据权利要求1至4任一项所述的方法,其特征在于,所述识别所述手部位置周围的局部图像中包含的手持物品的类别之前,所述方法还包括:
对所述局部图像进行手部识别,确定所述局部图像中包含手部。
9.根据权利要求1至4任一项所述的方法,其特征在于,所述识别所述手部位置周围的局部图像中包含的手持物品的类别之前,所述方法还包括:
对所述局部图像进行物品识别,确定所述局部图像中包含手持物品。
10.一种手部动作识别装置,其特征在于,包括:
关键点提取模块,用于从包含目标对象的视频帧中提取所述目标对象的手部位置;
物品识别模块,用于识别所述手部位置周围的局部图像中包含的手持物品的类别;
手部姿态识别模块,用于确定所述目标对象的手部位置姿态,所述手部位置姿态表征手部相对人体所处的位置;
手部运动状态识别模块,用于基于包含所述目标对象的多个视频帧,确定所述目标对象的手部运动状态;
动作分类模块,用于基于所述手持物品的类别、所述手部位置姿态和所述手部运动状态,确定所述目标对象的手部动作所属的危险动作类别。
11.根据权利要求10所述的装置,其特征在于,所述手部运动状态识别模块,具体用于:
获取包含所述目标对象的多个视频帧;
从所述多个视频帧中分别提取所述目标对象的手部位置和人体中心位置;
基于所述目标对象在所述多个视频帧中的手部位置和人体中心位置,获得所述手部位置相对于人体中心位置的移动速度。
12.根据权利要求11所述的装置,其特征在于,所述动作分类模块,具体用于:
确定所述手持物品的类别和所述手部位置姿态所满足的目标判断条件,其中,每个危险动作类别对应一个判断条件;
若移动速度大于速度阈值,则将所述目标判断条件对应的危险动作类别,确定为所述目标对象的手部动作所属的危险动作类别。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括:物品运动状态识别模块,用于基于包含所述目标对象的多个视频帧,确定所述手持物品的运动状态;
所述动作分类模块,具体用于基于所述手持物品的类别、所述手部位置姿态、所述手部运动状态和所述手持物品的运动状态,确定所述目标对象的手部动作所属的危险动作类别。
14.根据权利要求10至13任一项所述的装置,其特征在于,所述手部姿态识别模块,具体用于:
从所述视频帧中获取所述目标对象的多个人体关键点;
根据所述手部位置与所述多个人体关键点之间的位置关系,确定手部位置姿态。
15.根据权利要求10至13任一项所述的装置,其特征在于,所述装置还包括站立姿态识别模块,用于在执行所述手部姿态识别模块之前,从所述视频帧中获取所述目标对象的多个人体关键点,基于所述多个人体关键点之间的位置关系,判断所述目标对象是否处于站立姿态,若确定所述目标对象是否处于站立姿态,则执行所述手部姿态识别模块。
16.根据权利要求15所述的装置,其特征在于,所述站立姿态识别模块,具体用于:
若所述多个人体关键点之间的位置关系满足预设条件,则确定所述目标对象处于站立姿态;
其中,所述预设条件包括:
头部位置和脚腕位置的连线与水平线的夹角大于预设角度;以及,
多个人体关键点在所述视频帧中所处位置由高到低的顺序依次为:头部位置、髋部位置、膝盖位置和脚腕位置。
17.根据权利要求10至13任一项所述的装置,其特征在于,所述装置还包括手部识别模块,用于在执行所述物品识别模块之前,对所述局部图像进行手部识别,判断所述局部图像中是否包含手部,若确定所述局部图像中包含手部,则执行所述物品识别模块。
18.根据权利要求10至13任一项所述的装置,其特征在于,所述物品识别模块还用于:在识别所述手部位置周围的局部图像中包含的手持物品的类别之前,对所述局部图像进行物品识别,确定所述局部图像中包含手持物品。
19.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至9任一项所述方法的步骤。
CN202010472074.0A 2020-05-29 2020-05-29 手部动作识别方法、装置、电子设备及存储介质 Active CN111553326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010472074.0A CN111553326B (zh) 2020-05-29 2020-05-29 手部动作识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010472074.0A CN111553326B (zh) 2020-05-29 2020-05-29 手部动作识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111553326A CN111553326A (zh) 2020-08-18
CN111553326B true CN111553326B (zh) 2023-04-18

Family

ID=72008617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010472074.0A Active CN111553326B (zh) 2020-05-29 2020-05-29 手部动作识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111553326B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528757B (zh) * 2020-11-22 2023-04-28 肖士朋 一种用于辅助识别注射器的装置及方法
CN112530133B (zh) * 2020-11-22 2022-08-09 李绪明 一种用于识别注射器的装置及方法
CN112906515B (zh) * 2021-02-03 2024-07-19 珠海研果科技有限公司 车内异常行为识别方法、系统、电子设备及存储介质
CN113163135B (zh) * 2021-04-25 2022-12-16 北京字跳网络技术有限公司 视频的动画添加方法、装置、设备及介质
CN113448443A (zh) * 2021-07-12 2021-09-28 交互未来(北京)科技有限公司 一种基于硬件结合的大屏幕交互方法、装置和设备
CN114170429B (zh) * 2021-11-18 2024-09-24 华中科技大学 一种刀具路径特征点的识别方法及装置
CN115661944A (zh) * 2022-12-29 2023-01-31 浙江大华技术股份有限公司 动作识别方法、电子设备及计算机可读存储介质
CN117095339B (zh) * 2023-10-20 2024-01-30 江西师范大学 一种基于深度学习的rgb视频帧手持物检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017045517A1 (zh) * 2015-09-17 2017-03-23 深圳市国华识别科技开发有限公司 基于手势识别的文字输入方法、装置及存储介质
CN110516511A (zh) * 2018-05-21 2019-11-29 北京京东尚科信息技术有限公司 用于处理信息的方法和装置
CN111104816A (zh) * 2018-10-25 2020-05-05 杭州海康威视数字技术股份有限公司 一种目标物的姿态识别方法、装置及摄像机

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017045517A1 (zh) * 2015-09-17 2017-03-23 深圳市国华识别科技开发有限公司 基于手势识别的文字输入方法、装置及存储介质
CN110516511A (zh) * 2018-05-21 2019-11-29 北京京东尚科信息技术有限公司 用于处理信息的方法和装置
CN111104816A (zh) * 2018-10-25 2020-05-05 杭州海康威视数字技术股份有限公司 一种目标物的姿态识别方法、装置及摄像机

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙宝聪 ; .基于图像检测的机场人员异常行为分析技术研究.数字通信世界.2020,(01),全文. *

Also Published As

Publication number Publication date
CN111553326A (zh) 2020-08-18

Similar Documents

Publication Publication Date Title
CN111553326B (zh) 手部动作识别方法、装置、电子设备及存储介质
Suma Computer vision for human-machine interaction-review
CN105051755A (zh) 用于姿势识别的部位和状态检测
Mici et al. A self-organizing neural network architecture for learning human-object interactions
Ghadi et al. Syntactic model-based human body 3D reconstruction and event classification via association based features mining and deep learning
Ghadi et al. Multiple events detection using context-intelligence features
CN113435335B (zh) 微观表情识别方法、装置、电子设备及存储介质
CN108875456A (zh) 目标检测方法、目标检测装置和计算机可读存储介质
Kumar Jain et al. (Retracted) Modeling of human action recognition using hyperparameter tuned deep learning model
Ansar et al. Robust hand gesture tracking and recognition for healthcare via Recurent neural network
Ali et al. Deep Learning Algorithms for Human Fighting Action Recognition.
Batool et al. Telemonitoring of daily activities based on multi-sensors data fusion
Khaire et al. RGB+ D and deep learning-based real-time detection of suspicious event in Bank-ATMs
Hoang et al. Advances in skeleton-based fall detection in RGB videos: From handcrafted to deep learning approaches
Aftab et al. A boosting framework for human posture recognition using spatio-temporal features along with radon transform
Batool et al. Fundamental recognition of ADL assessments using machine learning engineering
Yu Deep learning methods for human action recognition
Kim et al. Human Activity Recognition as Time‐Series Analysis
Zeng et al. Deep learning approach to automated data collection and processing of video surveillance in sports activity prediction
Duth et al. Human Activity Detection Using Pose Net
Sun et al. Hybrid LSTM and GAN model for action recognition and prediction of lawn tennis sport activities
Tan et al. Attention-based Grasp Detection with Monocular Depth Estimation
Kumar et al. Real-time detection of abnormal human activity using deep learning and temporal attention mechanism in video surveillance
Bhaidasna et al. A Survey on Different Deep Learning Model for Human Activity Recognition Based on Application
Amrutha et al. Deep Learning for Human Action Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant