CN109101901A - 人体动作识别及其神经网络生成方法、装置和电子设备 - Google Patents

人体动作识别及其神经网络生成方法、装置和电子设备 Download PDF

Info

Publication number
CN109101901A
CN109101901A CN201810815078.7A CN201810815078A CN109101901A CN 109101901 A CN109101901 A CN 109101901A CN 201810815078 A CN201810815078 A CN 201810815078A CN 109101901 A CN109101901 A CN 109101901A
Authority
CN
China
Prior art keywords
neural network
human body
action recognition
action
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810815078.7A
Other languages
English (en)
Other versions
CN109101901B (zh
Inventor
吴骞
张弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201810815078.7A priority Critical patent/CN109101901B/zh
Publication of CN109101901A publication Critical patent/CN109101901A/zh
Application granted granted Critical
Publication of CN109101901B publication Critical patent/CN109101901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations

Abstract

本发明提供了一种人体动作识别及其神经网络生成方法、装置和电子设备,涉及图像识别技术领域,用于进行人体动作识别的神经网络生成方法包括:对目标图像进行检测,得到人体目标点检测结果;对所述目标图像进行识别,得到初步动作识别结果;根据所述人体目标点检测结果与所述动作识别结果对特征进行融合,得到融合结果;根据所述融合结果,通过训练生成动作识别神经网络,解决了现有技术中存在的目前的图像识别神经网络对于动作识别的识别能力较低的技术问题。

Description

人体动作识别及其神经网络生成方法、装置和电子设备
技术领域
本发明涉及图像识别技术领域,尤其是涉及一种人体动作识别及其神经网络生成方法、装置和电子设备。
背景技术
目前,动作识别作为视频自动分析的重要基础,将在智能监控,新零售、人机互动,教育教学等一系列应用场景中发挥重要的作用。
例如,在安防监控场景中,若能很好的识别出扒窃,撬锁,打斗等异常行为,能够起到减少人力监控成本、维护治安的重要功能;在新零售领域中,动作识别有助于更好的理解用户行为,自动分析顾客喜好,提升用户体验。
但是,目前的动作识别神经网络主要集中于长短期记忆网络(Long Short-TermMemory,简称LSTM)、时标网状图(time scalar network,简称TSN)等传统的图像识别神经网络方法,对于动作识别的识别能力较低。
发明内容
有鉴于此,本发明的目的在于提供一种人体动作识别及其神经网络生成方法、装置和电子设备,以解决现有技术中存在的目前的图像识别神经网络对于动作识别的识别能力较低的技术问题。
第一方面,本发明实施例提供了一种用于人体动作识别的神经网络生成方法,包括:
对目标图像进行检测,得到人体目标点检测结果;
对所述目标图像进行识别,得到初步动作识别结果;
根据所述人体目标点检测结果与所述动作识别结果对特征进行融合,得到融合结果;
根据所述融合结果,通过训练生成动作识别神经网络。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述对目标图像进行检测,得到人体目标点检测结果,包括:
通过人体姿态估计算法对目标图像进行检测,得到人体目标点检测结果;
其中,所述人体目标点检测结果包括:人体关节部位点的位置信息和/或角度信息,和/或,肢体关键部位点的位置信息和/或角度信息。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据所述人体目标点检测结果与所述动作识别结果对特征进行融合,得到融合结果,包括:
根据所述人体目标点检测结果得到第一特征向量组;
根据所述动作识别结果得到第二特征向量组;
将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述根据所述融合结果,通过训练生成动作识别神经网络,包括:
通过所述第三特征向量组对所述目标图像进行调整,得到素材图像;
利用所述素材图像对初始神经网络进行训练,生成动作识别神经网络。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组,包括:
通过每个元素对应相乘法或每个元素对应相加法将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组,包括:
通过数组连接法将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组。
第二方面,本发明实施例还提供一种人体动作识别方法,包括:
对目标图像进行检测,得到人体目标点检测结果;
对所述目标图像进行识别,得到初步动作识别结果;
根据所述人体目标点检测结果与所述初步动作识别结果对特征进行融合,得到融合结果;
根据所述融合结果,通过训练生成动作识别神经网络;
通过所述动作识别神经网络对所述目标图像进行识别,得到最终动作识别结果。
第三方面,本发明实施例还提供一种用于人体动作识别的神经网络生成装置,包括:
检测模块,用于对目标图像进行检测,得到人体目标点检测结果;
识别模块,用于对所述目标图像进行识别,得到初步动作识别结果;
融合模块,用于根据所述人体目标点检测结果与所述动作识别结果对特征进行融合,得到融合结果;
生成模块,用于根据所述融合结果,通过训练生成动作识别神经网络。
第四方面,本发明实施例还提供一种人体动作识别装置,包括:
检测模块,用于对目标图像进行检测,得到人体目标点检测结果;
第一识别模块,用于对所述目标图像进行识别,得到初步动作识别结果;
融合模块,用于根据所述人体目标点检测结果与所述初步动作识别结果对特征进行融合,得到融合结果;
生成模块,用于根据所述融合结果,通过训练生成动作识别神经网络;
第二识别模块,用于通过所述动作识别神经网络对所述目标图像进行识别,得到最终动作识别结果。
第五方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述如第一方面或第二方面所述的方法的步骤。
第六方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如第一方面或第二方面所述的方法。
本发明实施例提供的技术方案带来了以下有益效果:本发明实施例提供的人体动作识别及其神经网络生成方法、装置和电子设备。首先,对目标图像进行检测从而得到人体目标点检测结果,对目标图像进行识别从而得到初步动作识别结果,然后,根据人体目标点检测结果与动作识别结果对特征进行融合从而得到融合结果,之后,根据融合结果,通过训练生成动作识别神经网络,因此,通过将检测到的目标图像中人体目标点与初步动作识别结果进行特征融合,再利用融合结果训练生成动作识别神经网络,使该动作识别神经网络能够更好的集中提取人体目标点信息,从而更有效的捕捉图像中的人体动作信息,使该动作识别神经网络更加适合人体动作的识别,实现了动作识别稳定性与准确性的提高,从而解决了现有技术中存在的图像识别神经网络对于动作识别能力较低的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例一所提供的用于人体动作识别的神经网络生成方法的流程图;
图2示出了本发明实施例二所提供的用于人体动作识别的神经网络生成方法的流程图;
图3示出了本发明实施例二所提供的用于人体动作识别的神经网络生成方法的另一流程图;
图4示出了本发明实施例三所提供的一种人体动作识别方法的流程图;
图5示出了本发明实施例四所提供的一种用于人体动作识别的神经网络生成装置的结构示意图;
图6示出了本发明实施例五所提供的一种人体动作识别装置的结构示意图;
图7示出了本发明实施例六所提供的一种电子设备的结构示意图。
图标:1-用于人体动作识别的神经网络生成装置;11-检测模块;12-识别模块;13-融合模块;14-生模块;2-人体动作识别装置;21-检测模块;22-第一识别模块;23-融合模块;24-生成模块;25-第二识别模块;4-电子设备;41-存储器;42-处理器;43-总线;44-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,动作识别神经网络主要集中于长短期记忆网络、时标网状图等传统的图像识别神经网络方法,对于动作识别的准确率较低,特别是在对以人为对象的场景中进行动作识别的识别能力较低。
基于此,本发明实施例提供的一种人体动作识别及其神经网络生成方法、装置和电子设备,可以解决现有技术中存在的目前的图像识别神经网络对于动作识别的识别能力较低的技术问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种人体动作识别及其神经网络生成方法、装置和电子设备进行详细介绍。
实施例一:
本发明实施例提供的一种用于人体动作识别的神经网络生成方法,作为融合人体关键点信息的神经网络生成方法,如图1所示,该神经网络生成方法包括:
S11:对目标图像进行检测,得到人体目标点检测结果。
其中,目标图像可以是通过普通摄像机或深度摄像机等图像采集装置获取到的动态视频、静态图片等。再者,人体目标点检测结果可以为若干个人体关键点的位置信息和若干个人体关键点之间的角度信息。
本实施例中,先对将要进行动作识别的目标图像进行检测,即在将目标图像正式输入动作识别神经网络之前,先对该目标图像进行检测,从而获得人体关键点的位置、人体关键点之间的角度等人体关键点信息。其中,对于检测的过程,可以通过多层的卷积神经网络(Convolutional Neural Network,简称CNN)实现,该卷积神经网络可以由若干层卷积、池化、全连接等构成。
在其他实施方式中,根据具体的应用环境需要,人体关键点信息也可以为若干个人体关键点的位置信息或若干个人体关键点之间的角度信息,即人体关键点信息仅为人体关键点的位置信息、人体关键点之间的角度信息中的一种。
S12:对目标图像进行识别,得到初步动作识别结果。
具体的,对将要进行正式动作识别的目标图像,也就是步骤S11中所提到的目标图像,先对其进行初步的图像动作识别,从而获得初步的动作识别结果。
对于上述初步的图像动作识别过程,可以通过多层的卷积神经网络(Convolutional Neural Network,简称CNN)实现,该多层CNN网络的结构和参数可以使用3D卷积网络,也可以使用已经训练好的基础模型初始化,如:GoogleNet,VGG,ResNet等。
作为本实施例的优选实施方式,步骤S11与步骤S12可以同时进行,当然,也可以先进行步骤S11,再进行步骤S12,还可以先进行步骤S12,再进行步骤S11。
S13:根据人体目标点检测结果与初步动作识别结果对特征进行融合,得到融合结果。
优选的,通过对人体目标点检测结果进行分析以及特征提取,得到表示人体关键点信息的特征向量;通过对初步动作识别结果进行分析以及特征提取,得到表示初步动作识别结果的特征向量。本步骤中,将这两者的特征向量进行特征融合,从而得到特征融合结果,且该特征融合结果中包含了初步动作识别信息以及人体关键点信息。
S14:根据融合结果,通过训练生成动作识别神经网络。
本步骤中,利用上述包含了初步动作识别信息以及人体关键点信息的融合结果,进行动作识别神经网络的训练,通过训练学习的过程生成动作识别神经网络。
在生成的动作识别神经网络中,由于训练过程中利用上了人体关键点等相关信息,因此能够将识别网络集中于分析人体动作区域,从而更好的集中提取人体关键点位置、人体关键点角度等相对更加重要的信息。本实施例中,将人体关键点信息作为重要信息,通过将人体关键点信息与动作识别特性结合在一起,使得动作识别的过程能够更加符合人体运动发生的分布和规律,因此,利用这个融合了初步动作识别信息以及人体关键点信息的动作识别神经网络而进行图像动作识别,识别出的动作信息能够更加准确、精确且稳定性更高。
因此,通过本实施例提供的用于人体动作识别的神经网络生成方法,使动作识别神经网络更加深入的结合了人体关键点检测和动作识别特性,从而使动作识别神经网络在以人为主体的动作场景中,其识别过程更加准确且稳定。
实施例二:
本发明实施例提供的一种用于人体动作识别的神经网络生成方法,作为融合人体关键点信息的神经网络生成方法,如图2所示,该神经网络生成方法包括:
S21:通过人体姿态估计算法对目标图像进行检测,得到人体目标点检测结果。
本步骤中,对目标图像进行基于人体姿态估计技术的检测识别,得到人体目标点检测结果。其中,人体目标点检测结果包括人体关节部位点的位置信息、人体关节部位点的角度信息、肢体关键部位点的位置信息以及肢体关键部位点的角度信息中的至少一种。例如,人体目标点可以是头顶、颈部、左肩、右肩、左肘、右肘、左手、右手、左髋、右髋、左膝、右膝、左脚及右脚十四个人体关节点等等。因此,人体目标点检测结果也可以为人体关键点信息。
作为一个优选方案,对于人体关键点的检测,可以使用姿态估计算法,例如目前常用的实时多人的姿态估计(Real time Multi-Person Pose Estimation)识别方法。
通过姿态估计法检测识别出的人体关键点信息能够包括人体关键点的位置信息和/或人体关键点之间的角度信息,从而能够更准确有效的为后续的图像动作识别过程提供动作发生区域的分布。
S22:对目标图像进行识别,得到初步动作识别结果。
本步骤中,对将要进行正式动作识别的目标图像,也就是步骤S21中所提到的目标图像,先对其进行初步的图像动作识别,从而获得初步的动作识别结果。
其中,步骤S21与步骤S22可以同时进行,也可以先进行步骤S21,再进行步骤S22,还可以先进行步骤S22,再进行步骤S21。需要说的是,本步骤独立执行且与步骤S21无关,即单独对目标图像进行初步识别,得到初步动作识别结果,因此,该初步的动作识别结果与人体关键点的获取过程无关联。
S23:根据人体目标点检测结果得到第一特征向量组。
然后,根据上述人体关键点信息生成第一特征向量组。本步骤中,基于若干个人体关键点的位置、若干个人体关键点之间的角度等人体关键点信息生成对应的若干个特征向量即第一特征向量组,以实现通过向量的形式更好的表示出动作发生区域的分布。其中,在第一特征向量组中可以只有一个特征向量,也可以包括多个特征向量。
其中,若干个特征向量可以为多种方向,本实施例以x轴、y轴的方向为例进行说明,例如,多种方向可以包括:向x轴正向方向偏置的向量,向y轴负向方向偏置的向量,向与x轴负向夹角为25°且与y轴正向夹角为65°的方向偏置的向量,等等任意方向的向量。
作为本实施例的另一种实施方式,除人体关键点信息外,第一特征向量组也可以基于其他各种不同的信息获取,例如,可以基于目标图像的自身图像特征,也可以根据目标图像中的人物服装折皱度、人物面部表情神态等信息获取第一特征向量组。
S24:根据动作识别结果得到第二特征向量组。
同样的,根据上述初步的动作识别结果生成第二特征向量组。本步骤中,基于初步的动作识别结果生成对应的若干个特征向量即第二特征向量组。其中,在第二特征向量组中可以只有一个特征向量,也可以包括多个特征向量。
上述若干个特征向量可以为多种方向,本实施例以x轴、y轴的方向为例进行说明。例如,向x轴负向方向偏置的向量,向y轴正向方向偏置的向量,向与x轴正向夹角为35°且与y轴负向夹角为55°的方向偏置的向量,等等任意方向的向量。
S25:将第一特征向量组与第二特征向量组进行特征融合,得到第三特征向量组。
具体的,将基于人体关键点信息而生成的第一特征向量组,与基于初始动作识别结果而生成的第二特征向量组,进行特征融合,得到第三特征向量组即融合向量组。
在一种实现方式中,通过每个元素对应(element-wise)相乘法或element-wise相加法将第一特征向量组与第二特征向量组进行特征融合,得到第三特征向量组。
其中,element-wise相乘或相加法,也可称为元素智能相乘或相加法,指每个对应的元素相乘或相加。例如,特征向量(a,b)与特征向量(c,d)的element-wise乘法方式特征融合结果为:(a×c,b×d),即a与c之间是对应元素,b与d之间是对应元素;特征向量(a,b)与特征向量(c,d)的element-wise加法方式特征融合结果为:(a+c,b+d),即a与c之间是对应元素,b与d之间是对应元素。
在另一种实现方式中,通过数组连接法(concat)将第一特征向量组与第二特征向量组进行特征融合,得到第三特征向量组。其中,数组连接法(concat)用于连接两个或多个数组,该方法不会改变现有的数组,而仅仅会返回被连接数组的一个副本,即返回一个新的数组。该新的数组是通过把所有第二个数组参数添加到第一个数组中生成的。如果进行concat操作的参数是数组,那么添加的是数组中的元素,而不是数组。例如,将特征向量(a,b)与特征向量(c,d)进行concat法特征融合,则结果为:(a,b,c,d)。
S26:通过第三特征向量组对目标图像进行调整,得到素材图像。
通过第三特征向量组对目标图像中的特征元素点进行偏移以及调整,得到融合的特征图即素材图像,此素材图像带有所有人体关键点的分布图,动作往往发生在这些区域。
例如,第三特征向量组中的(1,1),代表目标图像中对应的特征元素点在x维度与y维度上各向正方向偏移调整一个位置。再例如,(3,-2)代表目标图像中对应的特征元素点在x维度上向正方向移动三个位置,在y维度上向负方向移动两个位置。
因此,目标图像的调整过程可以理解为在x维度、y维度的二维空间的扩展,能够在空间上进行偏移调整,从而使神经网络训练过程利用到的素材图像,更加符合人体发生的动作在空间中的分布。
作为本实施例的另一种实施方式,除了利用第三特征向量组对目标图像进行调整,还可以同时结合第一特征向量组和/或第二特征向量组对目标图像进行调整,从而得到素材图像。例如,同时结合第一特征向量组与第三特征向量组,对目标图像进行调整,得到素材图像;还可以同时结合第一特征向量组、第二特征向量组以及第三特征向量组,对目标图像进行调整,得到素材图像。因此,将二者融合后的第三特征向量组,结合二者各自的特征向量组即第一特征向量组、第二特征向量组,从而使得到的素材图像能够更加贴合人体关键点信息,从而更加贴近人体动作在空间中的分布。
S27:利用素材图像对初始神经网络进行训练,生成动作识别神经网络。
本步骤中,利用步骤S26得到的素材图像对初始神经网络进行训练学习,从而生成动作识别神经网络。其中,初始神经网络可以为初始卷积神经网络,该初始卷积神经网络可以为现有技术中常用的动作识别神经网络等卷积神经网络(Convolutional NeuralNetwork,简称CNN),卷积神经网络是目前图像识别、视频分析中常用的一种网络,由若干层卷积、池化、全连接等构成。该初始卷积神经网络可以由多层卷积神经网络构成,也可以使用已经训练好的基础模型初始化,如:GoogleNet、VGG、ResNet等网络结构。需要说明的是,卷积神经网络是一种深度前馈人工神经网络,人工神经元可以响应周围单元,应用于图像识别,可以进行大型图像处理。
在神经网络的训练学习过程中,每一次训练得到的损失(loss)值,将对下次的训练过程进行调整,从而通过一次次的联合人体关键点的网络训练学习过程,逐渐形成融合人体关键点信息的动作识别神经网络,以更好的抓住人体关键点信息。由于人体关键点信息的分布极大的提示了动作发生的可能区域,从而较快较好的令动作识别神经网络的注意力集中在人体动作发生的区域,能够更好的捕捉人体动作发生的空间信息,使该动作识别神经网络更加符合人体动作发生特性,实现了动作识别结果的准确度、精确度以及稳定性的提高。
作为本实施例的另一种实施方式,如图3所示,在神经网络的训练学习过程中,可以基于三种损失(loss)值对每次训练过程进行调整,即通过人体关键点检测网络产生的loss值(即图中loss2)、通过初步动作识别网络产生的loss值(即图中loss3)、通过特征融合后的动作识别神经网络产生的loss值(即图中loss1)。其中,loss1、loss2以及loss3可以共同参与对初始卷积神经网络的训练过程,以使每次训练过程的调整更加全面、精细,从而使最终生成的动作识别神经网络的识别效果得到进一步提高。
作为本实施例的另一种实施方式,最终形成的动作识别神经网络也可以为分类神经网络,该分类神经网络由若干层卷积层和全连接层相连接,通过该分类神经网络能够对目标图像的人体动作类型进行分类,获得动作的分类结果。例如,人体行走的动作类型、人体跑步的动作类型、人体跳起的动作类型等等。
实施例三:
本发明实施例提供的一种人体动作识别方法,作为融合人体关键点信息的动作识别方法,如图4所示,该人体动作识别方法包括:
S31:对目标图像进行检测,得到人体目标点检测结果。
S32:对目标图像进行识别,得到初步动作识别结果。
S33:根据人体目标点检测结果与初步动作识别结果对特征进行融合,得到融合结果。
S34:根据融合结果,通过训练生成动作识别神经网络。
作为一个优选方案,上述步骤S31、S32、S33以及S34的具体实施方式和实施例一或实施例二相同,在此不再详细叙述。
S35:通过动作识别神经网络对目标图像进行识别,得到最终动作识别结果。
最后,利用步骤S31至S34训练学习得到的最终的动作识别神经网络,对目标图像进行图像动作识别,从而得到更加符合人体动作发生特性更加精确且稳定性更高的动作识别结果。
本实施例中,动作识别将神经网络中融合了人体关键点信息,以增加人体动作识别的稳定性与准确性。具体的,本实施例提供的方法将人体关键点信息应用于人体动作识别方法中。在动作识别神经网络的训练生成过程中,自适应的学习人体发生的动作在空间的分布,通过人体关键点信息能够自主学习人体动作在空间维度中的分布变化,能够更好的集中提取重要的信息例如人体关键点信息,使动作识别神经网络的人体动作识别过程更加全面、准确、精确、具针对性且稳定性更高。例如,动作识别神经网络趋向于密集分布在动作集中发生的空间区域,而对背景等较为不重要信息的响应会减小,以使识别效果更加精确且具有针对性。因此,利用该融合人体关键点信息的动作识别神经网络进行图像动作识别,识别出的动作信息能够更加准确、精确且稳定性更高,从而能够提高人体动作识别的准确度与效率。
再者,将人体关键点信息结合于神经网络的训练过程中,有助于自身动作分布变化的学习。由于人体关键点处的信息较大程度的揭露了动作发生的区域及趋势,其所携带的信息将引导图像动作识别过程朝着响应相关动作发生区域和发生朝向的方向积极变化,从而增加系统的鲁棒性。
实施例四:
本发明实施例提供的一种用于人体动作识别的神经网络生成装置,如图5所示,用于人体动作识别的神经网络生成装置1包括:检测模块11、识别模块12、融合模块13、生成模块14。
作为本实施例的优选实施方式,检测模块11用于对目标图像进行检测,得到人体目标点检测结果。识别模块12用于对目标图像进行识别,得到初步动作识别结果。
进一步的是,融合模块13用于根据人体目标点检测结果与动作识别结果对特征进行融合,得到融合结果。生成模块14用于根据融合结果,通过训练生成动作识别神经网络。
本发明实施例提供的用于人体动作识别的神经网络生成装置,与上述实施例提供的用于人体动作识别的神经网络生成方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例五:
本发明实施例提供的一种人体动作识别装置,如图6所示,人体动作识别装置2包括:检测模块21、第一识别模块22、融合模块23、生成模块24、第二识别模块25。
需要说明的是,检测模块21用于对目标图像进行检测,得到人体目标点检测结果。第一识别模块22用于对目标图像进行识别,得到初步动作识别结果。
在实际应用中,融合模块23用于根据人体目标点检测结果与初步动作识别结果对特征进行融合,得到融合结果。生成模块24用于根据融合结果,通过训练生成动作识别神经网络。第二识别模块25用于通过动作识别神经网络对目标图像进行识别,得到最终动作识别结果。
本发明实施例提供的人体动作识别装置,与上述实施例提供的人体动作识别方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例六:
本发明实施例提供的一种电子设备,如图7所示,电子设备4包括存储器41、处理器42,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例一、实施例二或实施例三提供的方法的步骤。
参见图7,电子设备还包括:总线43和通信接口44,处理器42、通信接口44和存储器41通过总线43连接;处理器42用于执行存储器41中存储的可执行模块,例如计算机程序。
其中,存储器41可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口44(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线43可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器41用于存储程序,所述处理器42在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器42中,或者由处理器42实现。
处理器42可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器42中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器42可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器41,处理器42读取存储器41中的信息,结合其硬件完成上述方法的步骤。
实施例七:
本发明实施例提供的一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述实施例一、实施例二或实施例三提供的方法。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例提供的具有处理器可执行的非易失的程序代码的计算机可读介质,与上述实施例提供的神经网络生成方法、神经网络生成装置、人体动作识别方法、人体动作识别装置以及电子设备具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的进行人体动作识别方法及其神经网络生成方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (11)

1.一种用于人体动作识别的神经网络生成方法,其特征在于,包括:
对目标图像进行检测,得到人体目标点检测结果;
对所述目标图像进行识别,得到初步动作识别结果;
根据所述人体目标点检测结果与所述动作识别结果对特征进行融合,得到融合结果;
根据所述融合结果,通过训练生成动作识别神经网络。
2.根据权利要求1所述的用于人体动作识别的神经网络生成方法,其特征在于,所述对目标图像进行检测,得到人体目标点检测结果,包括:
通过人体姿态估计算法对目标图像进行检测,得到人体目标点检测结果;
其中,所述人体目标点检测结果包括:人体关节部位点的位置信息和/或角度信息,和/或,肢体关键部位点的位置信息和/或角度信息。
3.根据权利要求1所述的用于人体动作识别的神经网络生成方法,其特征在于,所述根据所述人体目标点检测结果与所述动作识别结果对特征进行融合,得到融合结果,包括:
根据所述人体目标点检测结果得到第一特征向量组;
根据所述动作识别结果得到第二特征向量组;
将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组。
4.根据权利要求3所述的用于人体动作识别的神经网络生成方法,其特征在于,所述根据所述融合结果,通过训练生成动作识别神经网络,包括:
通过所述第三特征向量组对所述目标图像进行调整,得到素材图像;
利用所述素材图像对初始神经网络进行训练,生成动作识别神经网络。
5.根据权利要求3所述的用于人体动作识别的神经网络生成方法,其特征在于,所述将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组,包括:
通过每个元素对应相乘法或每个元素对应相加法将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组。
6.根据权利要求3所述的用于人体动作识别的神经网络生成方法,其特征在于,所述将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组,包括:
通过数组连接法将所述第一特征向量组与所述第二特征向量组进行特征融合,得到第三特征向量组。
7.一种人体动作识别方法,其特征在于,包括:
对目标图像进行检测,得到人体目标点检测结果;
对所述目标图像进行识别,得到初步动作识别结果;
根据所述人体目标点检测结果与所述初步动作识别结果对特征进行融合,得到融合结果;
根据所述融合结果,通过训练生成动作识别神经网络;
通过所述动作识别神经网络对所述目标图像进行识别,得到最终动作识别结果。
8.一种用于人体动作识别的神经网络生成装置,其特征在于,包括:
检测模块,用于对目标图像进行检测,得到人体目标点检测结果;
识别模块,用于对所述目标图像进行识别,得到初步动作识别结果;
融合模块,用于根据所述人体目标点检测结果与所述动作识别结果对特征进行融合,得到融合结果;
生成模块,用于根据所述融合结果,通过训练生成动作识别神经网络。
9.一种人体动作识别装置,其特征在于,包括:
检测模块,用于对目标图像进行检测,得到人体目标点检测结果;
第一识别模块,用于对所述目标图像进行识别,得到初步动作识别结果;
融合模块,用于根据所述人体目标点检测结果与所述初步动作识别结果对特征进行融合,得到融合结果;
生成模块,用于根据所述融合结果,通过训练生成动作识别神经网络;
第二识别模块,用于通过所述动作识别神经网络对所述目标图像进行识别,得到最终动作识别结果。
10.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
11.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。
CN201810815078.7A 2018-07-23 2018-07-23 人体动作识别及其神经网络生成方法、装置和电子设备 Active CN109101901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810815078.7A CN109101901B (zh) 2018-07-23 2018-07-23 人体动作识别及其神经网络生成方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810815078.7A CN109101901B (zh) 2018-07-23 2018-07-23 人体动作识别及其神经网络生成方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN109101901A true CN109101901A (zh) 2018-12-28
CN109101901B CN109101901B (zh) 2020-10-27

Family

ID=64847322

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810815078.7A Active CN109101901B (zh) 2018-07-23 2018-07-23 人体动作识别及其神经网络生成方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN109101901B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109618097A (zh) * 2018-12-29 2019-04-12 维沃移动通信有限公司 辅助拍照方法及终端设备
CN109902659A (zh) * 2019-03-15 2019-06-18 北京字节跳动网络技术有限公司 用于处理人体图像的方法和装置
CN110084123A (zh) * 2019-03-28 2019-08-02 上海拍拍贷金融信息服务有限公司 人体行为检测方法及系统、计算机可读存储介质
CN110210429A (zh) * 2019-06-06 2019-09-06 山东大学 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN111460870A (zh) * 2019-01-18 2020-07-28 北京市商汤科技开发有限公司 目标的朝向确定方法及装置、电子设备及存储介质
CN112115746A (zh) * 2019-06-21 2020-12-22 富士通株式会社 人体动作识别装置及方法、电子设备
CN112784765A (zh) * 2021-01-27 2021-05-11 北京百度网讯科技有限公司 用于识别动作的方法、装置、设备以及存储介质
CN113627220A (zh) * 2020-05-09 2021-11-09 上海汽车集团股份有限公司 一种电动尾门的开启控制方法及装置
CN114005178A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663449A (zh) * 2012-03-12 2012-09-12 西安电子科技大学 基于最大几何流向直方图的人体运动跟踪方法
US20140145936A1 (en) * 2012-11-29 2014-05-29 Konica Minolta Laboratory U.S.A., Inc. Method and system for 3d gesture behavior recognition
CN104021381A (zh) * 2014-06-19 2014-09-03 天津大学 一种基于多层级特征的人体动作识别方法
CN105389549A (zh) * 2015-10-28 2016-03-09 北京旷视科技有限公司 基于人体动作特征的对象识别方法及装置
CN106778796A (zh) * 2016-10-20 2017-05-31 江苏大学 基于混合式协同训练的人体动作识别方法及系统
CN107729805A (zh) * 2017-09-01 2018-02-23 北京大学 用于行人再识别的神经网络和基于深度学习的行人再识别算法
CN107808111A (zh) * 2016-09-08 2018-03-16 北京旷视科技有限公司 用于行人检测和姿态估计的方法和装置
CN107886069A (zh) * 2017-11-10 2018-04-06 东北大学 一种多目标人体2d姿态实时检测系统及检测方法
CN108062536A (zh) * 2017-12-29 2018-05-22 纳恩博(北京)科技有限公司 一种检测方法及装置、计算机存储介质
CN108108674A (zh) * 2017-12-08 2018-06-01 浙江捷尚视觉科技股份有限公司 一种基于关节点分析的行人再识别方法
CN108229343A (zh) * 2017-12-18 2018-06-29 北京市商汤科技开发有限公司 目标对象关键点检测方法、深度学习神经网络及装置
CN108229308A (zh) * 2017-11-23 2018-06-29 北京市商汤科技开发有限公司 目标对象识别方法、装置、存储介质和电子设备
CN108280455A (zh) * 2018-01-19 2018-07-13 北京市商汤科技开发有限公司 人体关键点检测方法和装置、电子设备、程序和介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663449A (zh) * 2012-03-12 2012-09-12 西安电子科技大学 基于最大几何流向直方图的人体运动跟踪方法
US20140145936A1 (en) * 2012-11-29 2014-05-29 Konica Minolta Laboratory U.S.A., Inc. Method and system for 3d gesture behavior recognition
CN104021381A (zh) * 2014-06-19 2014-09-03 天津大学 一种基于多层级特征的人体动作识别方法
CN105389549A (zh) * 2015-10-28 2016-03-09 北京旷视科技有限公司 基于人体动作特征的对象识别方法及装置
CN107808111A (zh) * 2016-09-08 2018-03-16 北京旷视科技有限公司 用于行人检测和姿态估计的方法和装置
CN106778796A (zh) * 2016-10-20 2017-05-31 江苏大学 基于混合式协同训练的人体动作识别方法及系统
CN107729805A (zh) * 2017-09-01 2018-02-23 北京大学 用于行人再识别的神经网络和基于深度学习的行人再识别算法
CN107886069A (zh) * 2017-11-10 2018-04-06 东北大学 一种多目标人体2d姿态实时检测系统及检测方法
CN108229308A (zh) * 2017-11-23 2018-06-29 北京市商汤科技开发有限公司 目标对象识别方法、装置、存储介质和电子设备
CN108108674A (zh) * 2017-12-08 2018-06-01 浙江捷尚视觉科技股份有限公司 一种基于关节点分析的行人再识别方法
CN108229343A (zh) * 2017-12-18 2018-06-29 北京市商汤科技开发有限公司 目标对象关键点检测方法、深度学习神经网络及装置
CN108062536A (zh) * 2017-12-29 2018-05-22 纳恩博(北京)科技有限公司 一种检测方法及装置、计算机存储介质
CN108280455A (zh) * 2018-01-19 2018-07-13 北京市商汤科技开发有限公司 人体关键点检测方法和装置、电子设备、程序和介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109618097B (zh) * 2018-12-29 2021-03-16 维沃移动通信有限公司 辅助拍照方法及终端设备
CN109618097A (zh) * 2018-12-29 2019-04-12 维沃移动通信有限公司 辅助拍照方法及终端设备
CN111460870A (zh) * 2019-01-18 2020-07-28 北京市商汤科技开发有限公司 目标的朝向确定方法及装置、电子设备及存储介质
CN109902659A (zh) * 2019-03-15 2019-06-18 北京字节跳动网络技术有限公司 用于处理人体图像的方法和装置
CN109902659B (zh) * 2019-03-15 2021-08-20 北京字节跳动网络技术有限公司 用于处理人体图像的方法和装置
CN110084123A (zh) * 2019-03-28 2019-08-02 上海拍拍贷金融信息服务有限公司 人体行为检测方法及系统、计算机可读存储介质
CN110210429A (zh) * 2019-06-06 2019-09-06 山东大学 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN110210429B (zh) * 2019-06-06 2022-11-29 山东大学 一种基于光流、图像、运动对抗生成网络提高焦虑、抑郁、愤怒表情识别正确率的方法
CN112115746A (zh) * 2019-06-21 2020-12-22 富士通株式会社 人体动作识别装置及方法、电子设备
CN113627220A (zh) * 2020-05-09 2021-11-09 上海汽车集团股份有限公司 一种电动尾门的开启控制方法及装置
CN112784765A (zh) * 2021-01-27 2021-05-11 北京百度网讯科技有限公司 用于识别动作的方法、装置、设备以及存储介质
CN114005178A (zh) * 2021-10-29 2022-02-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质
CN114005178B (zh) * 2021-10-29 2023-09-01 北京百度网讯科技有限公司 人物交互检测方法、神经网络及其训练方法、设备和介质

Also Published As

Publication number Publication date
CN109101901B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN109101901A (zh) 人体动作识别及其神经网络生成方法、装置和电子设备
CN108960192A (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
Moon et al. Camera distance-aware top-down approach for 3d multi-person pose estimation from a single rgb image
Simon et al. Hand keypoint detection in single images using multiview bootstrapping
CN108369643B (zh) 用于3d手部骨架跟踪的方法和系统
EP3711024B1 (en) Event camera-based deformable object tracking
CN106503671B (zh) 确定人脸姿态的方法和装置
CN108717531B (zh) 基于Faster R-CNN的人体姿态估计方法
Cusumano-Towner et al. Bringing clothing into desired configurations with limited perception
CN107689075B (zh) 导航地图的生成方法、装置及机器人
Zeng et al. View-invariant gait recognition via deterministic learning
CN109685037B (zh) 一种实时动作识别方法、装置及电子设备
CN108985443A (zh) 动作识别方法及其神经网络生成方法、装置和电子设备
CN110220493A (zh) 一种双目测距方法及其装置
CN111178170B (zh) 一种手势识别方法和一种电子设备
CN112801064A (zh) 一种模型训练方法、电子设备及存储介质
Cao et al. Human posture recognition using skeleton and depth information
CN107818596A (zh) 一种场景参数确定方法、装置及电子设备
CN109117888A (zh) 目标对象识别方法及其神经网络生成方法以及装置
Zhou et al. Pose comparison based on part affinity fields
Otberdout et al. Hand pose estimation based on deep learning depth map for hand gesture recognition
Tran et al. Action recognition in the frequency domain
Matthews et al. Creating a large-scale synthetic dataset for human activity recognition
Kumar et al. Human action recognition from motion trajectory using fourier temporal features of skeleton joints
Ryu et al. Skeleton-based Human Action Recognition Using Spatio-Temporal Geometry (ICCAS 2019)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant