CN109829451B - 生物体动作识别方法、装置、服务器及存储介质 - Google Patents
生物体动作识别方法、装置、服务器及存储介质 Download PDFInfo
- Publication number
- CN109829451B CN109829451B CN201910221201.7A CN201910221201A CN109829451B CN 109829451 B CN109829451 B CN 109829451B CN 201910221201 A CN201910221201 A CN 201910221201A CN 109829451 B CN109829451 B CN 109829451B
- Authority
- CN
- China
- Prior art keywords
- vector
- neural network
- characteristic information
- network model
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000031018 biological processes and functions Effects 0.000 title claims abstract description 17
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 230000009471 action Effects 0.000 claims abstract description 56
- 230000000306 recurrent effect Effects 0.000 claims abstract description 41
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 124
- 238000012549 training Methods 0.000 claims description 34
- 238000010586 diagram Methods 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 230000001133 acceleration Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 52
- 241000282414 Homo sapiens Species 0.000 description 20
- 238000012544 monitoring process Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 210000003127 knee Anatomy 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 210000003128 head Anatomy 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 210000003423 ankle Anatomy 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002493 climbing effect Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及一种生物体动作识别方法、装置、服务器及存储介质。方法包括:获得时间连续的多帧图像分别对应的生物体的肢体特征信息;创建特征信息序列,所述特征信息序列包括按照多帧图像中的各帧图像的时间顺序排列的肢体特征信息;将所述特征信息序列输入已训练的循环神经网络模型,并根据所述循环神经网络模型的输出确定所述特征信息序列对应的生物体的动作。本公开实施例对动作识别的适用性较好。
Description
技术领域
本公开涉及生物特征识别领域,尤其涉及一种生物体动作识别方法、装置、服务器及存储介质。
背景技术
随着模式识别技术的发展,人们希望计算机能够自主识别和理解人类的日常动作,从而通过计算机为人类提供服务,因此人体姿态及动作识别等已经成为目前计算机视觉领域的研究热点。目前的动作识别主要应用在人机交互、医疗保健、智能安防、家居智能等领域。
在一些相关技术中,人体姿态检测主要针对于静态图像的人体肢体关键点进行训练标注,并进行肢体关键点的连接标注。在另一些相关技术中,人体动作检测采用加速度传感器以及陀螺仪等元件进行数据输入,或者利用速度、距离等标量进行分析来搭建模型。
发明内容
在本公开的一个方面,提供一种生物体动作识别方法,包括:
获得时间连续的多帧图像分别对应的生物体的身体特征信息;
创建特征信息序列,所述特征信息序列包括按照所述多帧图像中的各帧图像的时间顺序排列的身体特征信息;
将所述特征信息序列输入已训练的循环神经网络模型,并根据所述循环神经网络模型的输出确定所述特征信息序列对应的生物体的动作。
在一些实施例中,获得身体特征信息的操作包括:
获得所述多帧图像中的每帧图像内的生物体的身体列向量,所述身体列向量用于表征所述多帧图像中的每帧图像内所述生物体的不同身体部位之间的至少一组连接关系。
在一些实施例中,获得身体列向量的操作包括:
获取所述图像中生物体的至少一对身体部位对应的身体向量,所述身体向量通过二维置信图表示的单位向量矩阵图进行存储;
对所述单位向量矩阵图进行积分运算,确定所述身体向量对应的连接向量;
根据所述连接向量的起点位置和终点位置计算所述连接向量在图像坐标系中相对于预设坐标轴的偏转角度;
根据各个身体向量对应的偏转角度创建所述生物体的身体列向量。
在一些实施例中,获取身体向量的操作包括:
将所述图像输入已训练的卷积神经网络模型,并根据所述卷积神经网络模型确定所述身体向量
在一些实施例中,所述方法还包括:
创建生物体的图片数据集,所述图片数据集包括至少一个生物体的图像、所述生物体在所述图像内的身体部位的标识信息和所述生物体在所述图像内的至少一对身体部位的身体向量的标识信息;
将所述图片数据集输入未训练的卷积神经网络模型进行训练,获得所述生物体对应的已训练的卷积神经网络模型。
在一些实施例中,所述方法还包括:采用神经网络推理引擎对所述卷积神经网络模型的训练进行加速。
在一些实施例中,所述方法还包括:
创建生物体的动作数据集,所述动作数据集包括至少一种预设场景下的已定义动作的至少一组时间连续的多帧图像对应的特征信息序列,所述特征信息序列包含按照各帧图像的时间顺序排列的身体特征信息;
将所述动作数据集输入未训练的循环神经网络模型进行训练,获得训练后的至少一种预设场景下的已定义动作对应的循环神经网络模型。
在一些实施例中,所述方法还包括:采用可编程推理加速引擎对所述循环神经网络模型的训练进行加速。
在一些实施例中,所述循环神经网络模型为双向循环神经网络模型。
在一些实施例中,所述生物体包括人体。
在本公开的一个方面,提供一种生物体动作识别装置,包括:
信息获得模块,用于获得时间连续的多帧图像分别对应的生物体的身体特征信息;
序列创建模块,用于创建特征信息序列,所述特征信息序列包括按照所述多帧图像中的各帧图像的时间顺序排列的身体特征信息;
动作确定模块,用于将所述特征信息序列输入已训练的循环神经网络模型,并根据所述循环神经网络模型的输出确定所述特征信息序列对应的生物体的动作。
在一些实施例中,所述信息获得模块包括:
身体向量获取单元,用于获取所述图像中生物体的至少一对身体部位对应的身体向量,所述身体向量通过二维置信图表示的单位向量矩阵图进行存储;
积分运算单元,用于对所述单位向量矩阵图进行积分运算,确定所述身体向量对应的连接向量;
偏转角度计算单元,用于根据所述连接向量的起点位置和终点位置计算所述连接向量在图像坐标系中相对于预设坐标轴的偏转角度;
列向量创建单元,用于根据各个身体向量对应的偏转角度创建所述生物体的身体列向量。
在本公开的一个方面,提供一种服务器,包括:存储器和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行前述的生物体动作识别方法。
在本公开的一个方面,提供一种存储介质,在其上存储有计算机指令,其中,所述计算机指令被处理器运行时执行前述的生物体动作识别方法。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是根据本公开生物体动作识别方法的一个实施例的流程示意图;
图2是根据本公开生物体动作识别方法的一个实施例所应用的双向循环神经网络模型的原理图;
图3是根据本公开生物体动作识别方法的一个实施例中多帧图像内通过线条标识优选连接向量的示意图;
图4是根据本公开生物体动作识别方法的一个实施例中获得身体特征信息的流程示意图;
图5是根据本公开生物体动作识别方法的一个实施例中卷积神经网络模型输出的存储身体向量的二维置信图;
图6是根据本公开生物体动作识别装置的一个实施例的方框示意图;
图7是根据本公开生物体动作识别装置的另一个实施例的方框示意图;
图8是根据本公开服务器的一个实施例的方框示意图。
应当明白,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外,相同或类似的参考标号表示相同或类似的构件。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现,不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整,并且向本领域技术人员充分表达本公开的范围。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、材料的组分、数字表达式和数值应被解释为仅仅是示例性的,而不是作为限制。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的部分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
在本公开中,当描述到特定器件位于第一器件和第二器件之间时,在该特定器件与第一器件或第二器件之间可以存在居间器件,也可以不存在居间器件。当描述到特定器件连接其它器件时,该特定器件可以与所述其它器件直接连接而不具有居间器件,也可以不与所述其它器件直接连接而具有居间器件。
本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同,除非另外特别定义。还应当理解,在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在一些相关技术中,人体姿态检测主要针对于静态图像的人体身体关键点进行训练标注,并进行身体关键点的连接标注。在另一些相关技术中,人体动作检测采用加速度传感器以及陀螺仪等元件进行数据输入,或者利用速度、距离等标量进行分析来搭建模型。
发明人经研究发现,相关技术中的人体姿态检测仅能实现静态图像下人体关键部位的连接和姿态判断,难以直接应用于人体动作监控的场景,而人体动作监测则需要依赖传感器的数据输入,缺乏经济性和通用性,并且基于某种动作建立的模型难以泛化到其他动作,适用性差。
有鉴于此,本公开实施例提供一种适用性较好的生物体动作识别方法、装置、服务器及存储介质。
图1是根据本公开生物体动作识别方法的一个实施例的流程示意图。
参考图1,在一些实施例中,生物体动作识别方法包括步骤100~步骤300。在步骤100中,获得时间连续的多帧图像分别对应的生物体的身体特征信息。时间连续的多帧图像是指存在时序关系的多帧图像,相邻帧图像的时间间隔可以相同,也可以不同。多帧图像可来自于监控设施所拍摄的监控视频,例如多帧图像取自一段监控视频包含的多个视频帧。在每帧图像中通常包含至少一个生物体的整体或局部图像。在一些特殊情况(例如生物体短暂的脱离监控范围、监控设施受外部影响短视间未接收数据等)下,也存在部分图像中没有生物体的图像的情形。在后续处理时可将没有生物体的该帧图像删除,或者将该帧作为空的身体特征信息处理。
生物体可以包括植物体、动物体或人体。考虑到动作的识别需求,本公开实施例主要针对于动物体或人体的动作进行识别。身体特征信息是表征生物体的多个身体部位以及身体部分之间的连接关系的符号化或数值化的特征信息。以人体为例,人体的身体部位可以包括解剖学意义的身体部位,例如颈部、左肩、右膝、右踝等关节或者头部上的鼻子、嘴、左眼、右耳等器官。身体部分也可以包括自定义的非解剖学意义的身体部位。
不同身体部位之间可形成特定的连接关系来体现人体的头颈、四肢及躯干等,例如头颈的特征通过头部与颈部的连接关系体现、左上臂的特征通过左肩与左肘的连接关系体现、右大腿的特征通过臀部与右膝的连接关系体现、躯干的特征通过颈部到臀部的连接关系体现等。该连接关系也可以包括头部上各器官之间的连接关系,例如左右眼之间的连接关系、左耳与左眼的连接关系、鼻与嘴的连接关系等。
在步骤200中,创建特征信息序列,所述特征信息序列包括按照各帧图像的时间顺序排列的身体特征信息。在获得了各帧图像对应的生物体的身体特征信息之后,就可以根据身体特征信息创建出特征信息序列。
在步骤300中,将该特征信息序列输入已训练的循环神经网络模型,并根据所述循环神经网络模型的输出确定所述特征信息序列对应的生物体的动作。循环神经网络(Recurrent Neural Network,简称RNN)模型是一种用于序列数据训练的神经网络模型,其在训练过程中可对在先的信息进行记忆并将在先信息应用于当前输出的计算中。在相关技术中,RNN主要用于自然语言处理中的语音识别、手写识别以及机器翻译等领域。而在本公开实施例中,RNN模型被用于图像内生物体的动作的识别,已训练的RNN模型可对应于特定场景下至少一种已定义的动作。该RNN模型的输入可采用包含生物体身体特征信息的特征信息序列获得,而RNN模型的输出可用于判断对应的动作。
根据需要,可预先训练RNN模型来实现多种特定场景下已定义的动作(例如在广场上的挥手动作、在公路上的摔倒动作、在建筑物外部的攀爬动作等)的确定。当获得一段监控视频对应的特征信息序列时,可将其分别输入多个动作分别对应的已训练的RNN模型,根据各个RNN模型的输出来确定该段监控视频最可能包含了生物体的哪种动作。这样可使监控人员及时的了解视频中生物体的动作,从而对存在风险或危险的动作及时做出有效应对。
在本实施例中,通过获取时间连续的多帧图像对应的生物体的身体特征信息来创建特征信息序列,并将该特征信息序列输入到已训练的循环神经网络模型中,利用循环神经网络的序列处理能力可以从多帧图像识别出图像内生物体可能的动作。由于身体特征信息来源于多帧图像的分析,无需依赖生物体佩戴的各种传感器的数据输入,因此经济性和通用性较好。而且对于处于不同场景或者不同类型的动作来说,都可以训练循环神经网络模型来满足这些动作的预测需求,训练的循环神经网络模型能够泛化到各种动作,从而具有良好的适应性。
RNN模型可针对于不同场景下的不同动作进行训练,以实现动作的监测。并且,RNN模型可以根据场景和动作的变化进行更新,从而满足不同场景和不同动作的监测需求,而不限于固定形式的动作的监测。相应地,本公开的动作识别方法可带来广泛的场景应用,例如用于消防监测人员安全情况,用于医院监测患者活动,用于学校监测打架斗殴等场景,并且可适用于任意类型的动作的预测。
在一些实施例中,生物体动作识别方法还可以包括RNN模型的训练过程。在训练RNN模型之前,可先创建生物体的动作数据集。该动作数据集可包括至少一种预设场景下的已定义动作的至少一组时间连续的多帧图像对应的特征信息序列。该特征信息序列包含各帧图像对应的生物体的身体特征信息。然后,将所述动作数据集输入未训练的RNN模型进行训练,获得训练后的至少一种预设场景下的已定义动作对应的RNN模型。RNN模型的训练可通过可编程推理加速引擎(例如NVIDIA推出的TensorRT等)进行推理加速。
图2是根据本公开生物体动作识别方法的一个实施例所应用的双向循环神经网络模型的原理图。图3是根据本公开生物体动作识别方法的一个实施例中多帧图像内通过线条标识优选连接向量的示意图。
在监控视频画面中,生物体的动作通常是连贯的。动作在每个时间片段中体现的姿态既与上一个时间片段的姿态有关,也与下一个时间片段的姿态有关。为了提高模型预测的准确性,参考图2,在一些实施例中,RNN模型可采用双向循环神经网络模型(Bidirectional Recurrent Neural Network,简称Bi-RNN)。这种循环神经网络模型的每一个训练序列向前和向后分别是两个RNN,而且这两个RNN都连接着一个输出层。Bi-RNN模型可以同时使用特征信息序列中输入的历史数据和未来数据,从而使得特征信息序列中的各个时刻能够基于上下文进行预测。
在图2中,在作为Bi-RNN模型的输入层的特征信息序列中,t是各帧图像所对应的时步。换句话说,特征信息序列中的xt为当前帧图像对应的身体特征信息,xt-1和xt+1为前一帧图像和后一帧图像分别对应的身体特征信息。作为输出的yt、yt-1和yt+1可以为当前帧、前一帧和后一帧图像分别对应的动作的分类概率。在输入层和输出层之间设有两个隐含层,根据计算方向分别称为向前隐含层和向后隐含层。在向前隐含层各节点数值的计算中,可采用以下公式:
At=f(WAt-1+Uxt);
在向后隐含层各节点数值的计算中,可采用以下公式:
A’t=f(W’A’t+1+U’xt);
根据每一时步分别对应的向前隐含层和向后隐含层的节点数值,可计算出每一时步的输出,即以下公式:
yt=g(VAt+V’A’t)。
f()为向前隐含层和向后隐含层的激活函数,g()为输出层的激活函数。W、W’、U、U’、V、V’分别为不同的权重矩阵。通过向Bi-RNN模型输入训练用的数据集,可以对各个权重矩阵进行调整,从而优化Bi-RNN的预测性能。在另一些实施例中,也可以采用普通的RNN模型或其他RNN优化模型。
以图3(a)-图3(i)所示的九帧图像为例,这几张图像表现了图内的一个人在室内环境下的爬起动作。图3中各帧图像中除了背景、人的图像之外,还通过线条(参见图中白色箭头A所指的线条)对身体向量进行了标识。这九帧图像可用于创建生物体的动作数据集,以便进行RNN模型的训练。在另一些实施例中,也可以对包括多个生物体的图像进行特征信息序列的创建和用于爬起动作的RNN模型的训练。多个生物体之间可以同时监测且相互独立。
图4是根据本公开生物体动作识别方法的一个实施例中获得身体特征信息的流程示意图。图5是根据本公开生物体动作识别方法的一个实施例中卷积神经网络模型输出的存储身体向量的二维置信图。
参考图4,在一些实施例中,步骤100中获得身体特征信息的操作可以包括:获得所述多帧图像中的每帧图像内的生物体的身体列向量,所述身体列向量用于表征所述图像内所述生物体的不同身体部位之间的至少一组连接关系。这样,时间连续的多帧图像就可以被表示成包括多个时步的身体列向量的特征信息序列。
在图4中,获得身体列向量的过程可包括步骤110~步骤140。在步骤110中,获取所述图像中生物体的至少一对身体部位对应的身体向量。具体来说,可将所述图像输入已训练的卷积神经网络(Convolutional Neural Network,简称CNN)模型,并根据CNN模型的输出来获得所述生物体的各对身体部位的身体向量。所述身体向量可采用图5所示的以二维置信图表示的单位向量矩阵图进行存储。在图5中,N为身体向量的数量。每个身体向量的二维置信图中包括图像中划分的各个图像单元(例如一个或多个像素)分别对应的二维矢量,例如(0.5,0.86),(0.7,0.7),(0,1),……。该二维矢量可代表某个图像单元属于某个身体向量的概率。
CNN模型的训练可通过含有标识信息的生物体的图片数据集训练获得。即首先创建生物体的图片数据集。图片数据集包括至少一个生物体的图像、所述生物体在所述图像内的身体部位的标识信息和所述生物体在所述图像内的至少一对身体部位之间的身体向量的标识信息。该身体部位的标识信息可以包括图像中身体部位的坐标值,根据该坐标值可获得图像中身体部位所对应的一维置信图。标识信息可以独立于图像存储,也可以存储在图像数据中。身体部位可由训练方自行定义,例如定义人的头顶、左耳、右耳、右眼、左眼、鼻、嘴、脖颈、左肩、右肩、左肘、右肘、左腕、右腕、臀、左膝、右膝、左踝和右踝等多个身体部位。
除此之外,标识信息还可以包括身体部位之间的单位身体向量的起点坐标和终点坐标。根据该起点坐标和终点坐标可获得图像中单位身体向量的二维置信图等。单位身体向量可由训练方根据已定义的身体部位进一步进行定义,例如定义人的左肩到左肘、臀部到右膝等单位身体向量。然后,可将上述图片数据集输入未训练的CNN模型进行训练,获得所述生物体对应的已训练的CNN模型。在训练过程中,可采用高斯峰值定义身体部位的置信图和身体向量的二维置信图,并且可通过可编程推理加速引擎(例如NVIDIA推出的TensorRT等)进行推理加速。在另一些实施例中,CNN模型的训练所用到的数据集也可以包括生物体佩戴的各种传感器所提供的数据。
在步骤120中,对获得的单位向量矩阵图进行积分运算(integral operation),确定运算结果中最优连接方式作为所述身体向量对应的连接向量。
在步骤130中,当获得了身体向量对应的连接向量时,可根据所述连接向量的起点位置和终点位置计算所述连接向量在图像坐标系(即在二维图像中预定义的直角坐标系)中相对于预设坐标轴(例如直角坐标系中的x轴)的偏转角度。在计算时,可通过三角函数计算获得,例如θ=arctan((ye-ys)/(xe-xs)),其中θ为偏转角度,xs和ys分别为连接向量的起点位置的x轴和y轴坐标,xe和ye分别为连接向量的终点位置的x轴和y轴坐标。
在步骤140中,根据各个身体向量对应的偏转角度创建所述生物体的身体列向量。通过前述步骤120和130,可计算出身体向量所对应的连接向量在图像坐标系中的偏转角度,该偏转角度即为该身体向量所对应的偏转角度。对于多个身体向量来说,这些身体向量可转换成对应的多个偏转角度。例如将人的左肩到左肘、臀部到右膝等多组身体向量转换成人的左肩到左肘、臀部到右膝等分别对应的偏转角θ1,θ2,…,θN,N为身体向量的数量,通过转换得到身体列向量v,vT=(θ1,θ2,…,θN)。
一张图像中的一个生物体可创建一组对应的身体列向量,这样就可以进一步获得时间连续的多帧图像分别对应的生物体的身体列向量所组成的特征信息序列。通过图3(a)-图3(i)中的九帧图像可以获得包括九个身体列向量的特征信息序列,并用于人在室内的爬起动作的RNN模型训练。
图6是根据本公开生物体动作识别装置的一个实施例的方框示意图。
参考图6,在一些实施例中,生物体动作识别装置包括:信息获得模块10、序列创建模块20和动作确定模块30。信息获得模块10用于获得时间连续的多帧图像分别对应的生物体的身体特征信息。该身体特征信息可以为多帧图像中的每帧图像内涉及的各个生物体的至少一个身体列向量。所述身体列向量用于表征所述图像内所述生物体的身体部位的连接关系。序列创建模块20用于创建特征信息序列,所述特征信息序列包括按照各帧图像的时间顺序排列的身体特征信息。动作确定模块30用于将所述特征信息序列输入已训练的循环神经网络模型,并根据所述循环神经网络模型的输出确定所述特征信息序列对应的生物体的动作。
在本实施例中,通过获取时间连续的多帧图像对应的生物体的身体特征信息来创建特征信息序列,并将该特征信息序列输入到已训练的循环神经网络模型中,利用循环神经网络的序列处理能力可以从多帧图像识别出图像内生物体可能的动作。由于身体特征信息来源于多帧图像的分析,无需依赖生物体佩戴的各种传感器的数据输入,因此经济性和通用性较好。而且对于处于不同场景或者不同类型的动作来说,都可以训练循环神经网络模型来满足这些动作的预测需求,训练的循环神经网络模型能够泛化到各种动作,从而具有良好的适应性。
图7是根据本公开生物体动作识别装置的另一个实施例的方框示意图。
参考图7,在一些实施例中,所述信息获得模块10可包括:身体向量获取单元11、积分运算单元12、偏转角度计算单元13和列向量创建单元14。第一单元11用于获取所述图像中生物体的至少一对身体部位对应的身体向量。身体向量获取单元11获取所述图像中生物体的至少一对身体部位对应的身体向量,所述身体向量通过二维置信图表示的单位向量矩阵图进行存储。身体向量获取单元11可将所述图像输入已训练的卷积神经网络模型,并根据所述卷积神经网络模型确定所述身体向量。积分运算单元12用于对所述单位向量矩阵图进行积分运算,确定所述身体向量对应的连接向量。
偏转角度计算单元13用于根据所述连接向量的起点位置和终点位置计算所述连接向量在图像坐标系中相对于预设坐标轴的偏转角度。列向量创建单元14用于根据各个身体向量对应的偏转角度创建所述生物体的身体列向量。
在一些实施例中,生物体动作识别装置还可以包括其他模块,用于创建生物体的图片数据集,并将所述图片数据集输入未训练的卷积神经网络模型进行训练,获得所述生物体对应的已训练的卷积神经网络模型。图片数据集包括至少一个生物体的图像、所述生物体在所述图像内的身体部位的标识信息和所述生物体在所述图像内的至少一对身体部位之间的单位身体向量的标识信息。该模块在进行卷积神经网络模型的训练时,还可采用神经网络推理引擎对所述卷积神经网络模型的训练进行加速。
在一些实施例中,生物体动作识别装置还可以包括其他模块,用于创建生物体的动作数据集,并将所述动作数据集输入未训练的循环神经网络模型进行训练,获得训练后的至少一种预设场景下的已定义动作对应的循环神经网络模型。动作数据集包括至少一种预设场景下的已定义动作的至少一组时间连续的多帧图像对应的特征信息序列,所述特征信息序列包含按照各帧图像的时间顺序排列的身体特征信息。该模块在进行循环神经网络模型的训练时,还可采用神经网络推理引擎对所述循环神经网络模型的训练进行加速。另外,循环神经网络模型可为双向循环神经网络模型。
图8是根据本公开服务器的一个实施例的方框示意图。
参考图8,在一些实施例中,服务器包括:存储器40和耦接至所述存储器的处理器50,所述处理器50被配置为基于存储在所述存储器40中的指令,执行前述的生物体动作识别方法。在本公开的一些实施例中,还提供了一种非易失性的存储介质,在其上存储有计算机指令,其中,所述计算机指令被处理器运行时执行前述的生物体动作识别方法。存储介质例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。
本领域内的技术人员应当明白,本公开的控制方法实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本说明书中多个实施例采用递进的方式描述,各实施例的重点有所不同,而各个实施例之间相同或相似的部分相互参见即可。对于装置实施例而言,由于其整体以及涉及的步骤与方法实施例中的内容存在对应关系,因此描述的比较简单,相关之处参见方法实施例的部分说明即可。
至此,已经详细描述了本公开的各实施例。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。
Claims (10)
1.一种生物体动作识别方法,包括:
获得时间连续的多帧图像分别对应的生物体的身体特征信息;
创建特征信息序列,所述特征信息序列包括按照所述多帧图像中的各帧图像的时间顺序排列的身体特征信息;
将所述特征信息序列输入已训练的循环神经网络模型,并根据所述循环神经网络模型的输出确定所述特征信息序列对应的生物体的动作;
其中,获得身体特征信息的操作包括:
获得所述多帧图像中的每帧图像内的生物体的身体列向量,所述身体列向量用于表征所述多帧图像中的每帧图像内所述生物体的不同身体部位之间的至少一组连接关系;其中,获得身体列向量的操作包括:
获取所述图像中生物体的至少一对身体部位对应的身体向量,所述身体向量为通过以二维置信图表示的单位向量矩阵图进行存储;
对所述单位向量矩阵图进行积分运算,确定所述身体向量对应的连接向量;
根据所述连接向量的起点位置和终点位置,计算所述连接向量在图像坐标系中相对于预设坐标轴的偏转角度;
根据各个身体向量对应的偏转角度创建所述生物体的身体列向量。
2.根据权利要求1所述的方法,其中,获取身体向量的操作包括:
将所述图像输入已训练的卷积神经网络模型,并根据所述卷积神经网络模型确定所述身体向量。
3.根据权利要求2所述的方法,还包括:
创建生物体的图片数据集,所述图片数据集包括至少一个生物体的图像、所述生物体在所述图像内的身体部位的标识信息和所述生物体在所述图像内的至少一对身体部位的身体向量的标识信息;
将所述图片数据集输入未训练的卷积神经网络模型进行训练,获得所述生物体对应的已训练的卷积神经网络模型。
4.根据权利要求3所述的方法,还包括:采用神经网络推理引擎对所述卷积神经网络模型的训练进行加速。
5.根据权利要求1所述的方法,还包括:
创建生物体的动作数据集,所述动作数据集包括至少一种预设场景下的已定义动作的至少一组时间连续的多帧图像对应的特征信息序列,所述特征信息序列包含按照各帧图像的时间顺序排列的身体特征信息;
将所述动作数据集输入未训练的循环神经网络模型进行训练,获得训练后的至少一种预设场景下的已定义动作对应的循环神经网络模型。
6.根据权利要求5所述的方法,还包括:采用可编程推理加速引擎对所述循环神经网络模型的训练进行加速。
7.根据权利要求1所述的方法,其中,所述循环神经网络模型为双向循环神经网络模型。
8.一种生物体动作识别装置,包括:
信息获得模块,用于获得时间连续的多帧图像分别对应的生物体的身体特征信息,其中,获得所述身体特征信息的操作包括:获得所述多帧图像中的每帧图像内的生物体的身体列向量,所述身体列向量用于表征所述多帧图像中的每帧图像内所述生物体的不同身体部位之间的至少一组连接关系;
序列创建模块,用于创建特征信息序列,所述特征信息序列包括按照所述多帧图像中的各帧图像的时间顺序排列的身体特征信息;
动作确定模块,用于将所述特征信息序列输入已训练的循环神经网络模型,并根据所述循环神经网络模型的输出确定所述特征信息序列对应的生物体的动作;
其中,所述信息获得模块包括:
身体向量获取单元,用于获取所述图像中生物体的至少一对身体部位对应的身体向量,所述身体向量通过二维置信图表示的单位向量矩阵图进行存储;
积分运算单元,用于对所述单位向量矩阵图进行积分运算,确定所述身体向量对应的连接向量;
偏转角度计算单元,用于根据所述连接向量的起点位置和终点位置计算所述连接向量在图像坐标系中相对于预设坐标轴的偏转角度;
列向量创建单元,用于根据各个身体向量对应的偏转角度创建所述生物体的身体列向量。
9.一种服务器,包括:存储器和耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行权利要求1~7任一所述的生物体动作识别方法。
10.一种存储介质,在其上存储有计算机指令,其中,所述计算机指令被处理器运行时执行权利要求1~7任一所述的生物体动作识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910221201.7A CN109829451B (zh) | 2019-03-22 | 2019-03-22 | 生物体动作识别方法、装置、服务器及存储介质 |
US16/540,459 US11138416B2 (en) | 2019-03-22 | 2019-08-14 | Method and apparatus for recognizing an organism action, server, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910221201.7A CN109829451B (zh) | 2019-03-22 | 2019-03-22 | 生物体动作识别方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829451A CN109829451A (zh) | 2019-05-31 |
CN109829451B true CN109829451B (zh) | 2021-08-24 |
Family
ID=66871109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910221201.7A Active CN109829451B (zh) | 2019-03-22 | 2019-03-22 | 生物体动作识别方法、装置、服务器及存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11138416B2 (zh) |
CN (1) | CN109829451B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018192500A1 (zh) * | 2017-04-19 | 2018-10-25 | 上海寒武纪信息科技有限公司 | 处理装置和处理方法 |
CN110465937A (zh) * | 2019-06-27 | 2019-11-19 | 平安科技(深圳)有限公司 | 同步方法、图像处理方法、人机交互方法及相关设备 |
CN110765967B (zh) * | 2019-10-30 | 2022-04-22 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的动作识别方法和相关装置 |
CN113395542B (zh) * | 2020-10-26 | 2022-11-08 | 腾讯科技(深圳)有限公司 | 基于人工智能的视频生成方法、装置、计算机设备及介质 |
CN112308977B (zh) * | 2020-10-29 | 2024-04-16 | 字节跳动有限公司 | 视频处理方法、视频处理装置和存储介质 |
CN112580543B (zh) * | 2020-12-24 | 2024-04-16 | 四川云从天府人工智能科技有限公司 | 行为识别方法、系统及装置 |
CN112818881B (zh) * | 2021-02-07 | 2023-12-22 | 国网福建省电力有限公司营销服务中心 | 一种人体行为识别方法 |
CN115984944A (zh) * | 2023-01-20 | 2023-04-18 | 北京字跳网络技术有限公司 | 表情信息识别方法、装置、设备、可读存储介质及产品 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577836B (zh) | 2013-09-30 | 2018-01-23 | 吴家宝 | 人体摔倒检测模型建立方法及模型系统 |
KR102013935B1 (ko) * | 2017-05-25 | 2019-08-23 | 삼성전자주식회사 | 위험 상황을 감지하는 방법 및 시스템 |
US10275691B2 (en) * | 2017-08-22 | 2019-04-30 | Northrop Grumman Systems Corporation | Adaptive real-time detection and examination network (ARDEN) |
CN107644519A (zh) * | 2017-10-09 | 2018-01-30 | 中电科新型智慧城市研究院有限公司 | 一种基于视频人体行为识别的智能报警方法和系统 |
CN107862331A (zh) * | 2017-10-31 | 2018-03-30 | 华中科技大学 | 一种基于时间序列及cnn的不安全行为识别方法及系统 |
CN108052896B (zh) * | 2017-12-12 | 2020-06-02 | 广东省智能制造研究所 | 基于卷积神经网络与支持向量机的人体行为识别方法 |
CN108985259B (zh) | 2018-08-03 | 2022-03-18 | 百度在线网络技术(北京)有限公司 | 人体动作识别方法和装置 |
US11179064B2 (en) * | 2018-12-30 | 2021-11-23 | Altum View Systems Inc. | Method and system for privacy-preserving fall detection |
US20200349347A1 (en) * | 2019-01-07 | 2020-11-05 | Cherry Labs Inc. | Systems and methods for monitoring and recognizing human activity |
-
2019
- 2019-03-22 CN CN201910221201.7A patent/CN109829451B/zh active Active
- 2019-08-14 US US16/540,459 patent/US11138416B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11138416B2 (en) | 2021-10-05 |
CN109829451A (zh) | 2019-05-31 |
US20200302162A1 (en) | 2020-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829451B (zh) | 生物体动作识别方法、装置、服务器及存储介质 | |
KR102014385B1 (ko) | 수술영상 학습 및 학습 기반 수술동작 인식 방법 및 장치 | |
US20180186452A1 (en) | Unmanned Aerial Vehicle Interactive Apparatus and Method Based on Deep Learning Posture Estimation | |
CN112906604B (zh) | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 | |
CN109934881B (zh) | 图像编码方法、动作识别的方法及计算机设备 | |
CN108154075A (zh) | 经由单次学习的群体分析法 | |
Zhao | A concise tutorial on human motion tracking and recognition with Microsoft Kinect | |
Avola et al. | Deep temporal analysis for non-acted body affect recognition | |
Vakanski et al. | Mathematical modeling and evaluation of human motions in physical therapy using mixture density neural networks | |
He et al. | Development of distributed control system for vision-based myoelectric prosthetic hand | |
CN114998983A (zh) | 一种基于增强现实技术和姿态识别技术的肢体康复方法 | |
Tang et al. | Wearable supernumerary robotic limb system using a hybrid control approach based on motor imagery and object detection | |
Hafeez et al. | Multi-fusion sensors for action recognition based on discriminative motion cues and random forest | |
Wang et al. | Fusion of skeleton and inertial data for human action recognition based on skeleton motion maps and dilated convolution | |
Hajjej et al. | Deep human motion detection and multi-features analysis for smart healthcare learning tools | |
Ramadoss et al. | Computer Vision for Human‐Computer Interaction Using Noninvasive Technology | |
Hoshino et al. | Copycat hand—robot hand imitating human motions at high speed and with high accuracy | |
Shah et al. | Gesture recognition technique: a review | |
Mocanu et al. | Human activity recognition with convolution neural network using tiago robot | |
Dutta et al. | A hand gesture-operated system for rehabilitation using an end-to-end detection framework | |
CN115120250A (zh) | 基于脑电信号和slam控制的智能脑控轮椅系统 | |
Bastico et al. | Continuous Person Identification and Tracking in Healthcare by Integrating Accelerometer Data and Deep Learning Filled 3D Skeletons | |
Abdelrazik et al. | Efficient deep learning algorithm for egyptian sign language recognition | |
de La Bourdonnaye et al. | Gaze trajectory prediction in the context of social robotics | |
Rodríguez-Tapia et al. | Sign Language Recognition Based on EMG Signals through a Hibrid Intelligent System. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |