CN111783711B - 基于身体部件层面的骨架行为识别方法及装置 - Google Patents
基于身体部件层面的骨架行为识别方法及装置 Download PDFInfo
- Publication number
- CN111783711B CN111783711B CN202010658060.8A CN202010658060A CN111783711B CN 111783711 B CN111783711 B CN 111783711B CN 202010658060 A CN202010658060 A CN 202010658060A CN 111783711 B CN111783711 B CN 111783711B
- Authority
- CN
- China
- Prior art keywords
- skeleton
- matrix
- dimensional coordinate
- behavior recognition
- output characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims description 162
- 230000006870 function Effects 0.000 claims description 58
- 238000010606 normalization Methods 0.000 claims description 41
- 238000011176 pooling Methods 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 18
- 239000000126 substance Substances 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 4
- 230000006399 behavior Effects 0.000 description 125
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,具体涉及一种基于身体部件层面的骨架行为识别方法及装置。为了解决现有技术行为识别的准确率较低,无法满足实际使用过程的需要的问题,本发明提出一种基于身体部件层面的骨架行为识别方法及装置,该方法包括获取待识别视频中目标对象的第一骨架三维坐标,其中,第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标;基于第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定目标对象处于多个预设骨架行为类型的概率;将概率大于预设阈值的预设骨架行为类型作为目标对象对应的骨架行为类型。利用本发明的方法能够有效提高行为识别准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于身体部件层面的骨架行为识别方法及装置。
背景技术
行为识别是计算机视觉任务中重要且具有挑战性的任务,在安防监控、智能视频分析、人机交互等领域具有广泛的应用。随着人体姿态估计技术的发展,基于人体骨架的行为识别在近几年的研究中受到广泛的关注。
由于人体骨架天然具有的图结构,现有的人体骨架行为识别方法主要采用图卷积网络作为主要框架,但是其行为识别的准确率较低,无法满足实际使用过程的需要。
因此,如何提出一种提高行为识别准确率的方法是本领域技术人员需要解决的技术问题。
发明内容
为了解决现有技术中的上述问题,本发明的第一方面提供了一种基于身体部件层面的骨架行为识别方法,所述方法包括:
获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
优选地,所述训练样本包括多个预设对象的第一骨架三维坐标,“基于预设的训练样本进行骨架行为识别优化”,其方法包括:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
优选地,所述第一矩阵对应的损失函数包括:
优选地,所述第二矩阵对应的损失函数包括:
优选地,所述第七输出特征向量对应的损失函数包括:
优选地,在“获得第七输出特征向量”的步骤之后,“通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型”的步骤之前,所述方法还包括按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
其中,表示所述待训练的骨架行为识别模型的全局损失,表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,表示预先获取的第一矩阵对应的损失函数的值,表示预先获取的第二矩阵对应的损失函数的值。
本发明的第二方面提供了一种基于身体部件层面的骨架行为识别装置,所述装置包括:
坐标获取模块,用于获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
行为识别模块,用于基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
优选地,所述训练样本包括多个预设对象的第一骨架三维坐标,所述行为识别模块还用于:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
优选地,所述第一矩阵对应的损失函数包括:
优选地,所述第二矩阵对应的损失函数包括:
优选地,所述第三矩阵对应的损失函数包括:
优选地,所述装置还包括全局损失获取模块,所述全局损失获取模块用于:
按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
其中,表示所述待训练的骨架行为识别模型的全局损失,表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,表示预先获取的第一矩阵对应的损失函数的值,表示预先获取的第二矩阵对应的损失函数的值。
本发明提供的方法能够利用从待识别视频中获取的目标对象的第一骨架三维坐标,并基于第一骨架三维坐标,通过骨架行为识别模型确定目标对象处于多个预设骨架行为类型的概率,一方面骨架行为识别模型能够进行端到端的学习,另一方面可以根据人体关节点与人体部件的对应关系,使骨架行为识别模型学习到适合于不同行为的关节点划分,能够有效提高行为识别准确率。
附图说明
图1是本发明的基于身体部件层面的骨架行为识别方法的流程示意图;
图2是本发明的基于身体部件层面的骨架行为识别装置的结构示意图。
具体实施方式
为使本发明的实施例、技术方案和优点更加明显,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所述的实施例是本发明的一部分实施例,而不是全部实施例。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参照图1,图1示例性地示出了本发明的基于身体部件层面的骨架行为识别方法的流程示意图。
本发明提供的基于身体部件层面的骨架行为识别方法包括如下步骤:
S101、获取待识别视频中目标对象的第一骨架三维坐标。
在一种可能的实现方式中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标。
示例性地,以大型行为识别数据库为例,数据库可以包括56880个视频及其对应的人体骨架关节点三维坐标。实际应用中,可以获取数据库中待识别视频的目标对象的人体关节点三维坐标,人体关节点三维坐标的大小可以为300*25*3,其中,300可以表示视频帧数,25可以表示人体关节点的个数,3可以表示坐标维度。
示例性地,其中,第一差值三维坐标可以是关节点三维坐标的帧间差,第一相对三维坐标可以是相对于人体中心的相对坐标,第一关节点三维坐标可以是相对于预设坐标中心的三维坐标,需要说明的是,本申请实施例对第一骨架三维坐标的类型不进行限定。
通过第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标可以构成九通道的输入数据。
S102、基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率。
在一种可能的实现方式中,可以将第一骨架三维坐标输入预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率。
其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化。
示例性地,训练样本可以包括多个预设对象的第一骨架三维坐标,在一种可能的实现方式中,在步骤S102之前,“基于预设的训练样本进行骨架行为识别优化”,其方法包括:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
示例性地,可以将第一骨架三维坐标送入到骨架行为识别模型的批量归一化层中,然后还可以将第一骨架三维坐标送入到1*1的卷积层中,对第一骨架三维坐标进行数据维度变换,得到第一输出特征,其中,第一输出特征的数据维度与预设的人体部件数量相同。
对第一输出特征进行第一归一化操作,获得第一矩阵,其中,第一归一化操作可以包括soft-max操作以及L2归一化操作。其中,第一矩阵对应的损失函数如下公式(1)所示:
公式(1):
其中,第二矩阵对应的损失函数如下公式(2)所示:
公式(2):
根据所述第一矩阵对应的特征向量以及所述第一矩阵的转置矩阵,通过所述待训练的骨架行为识别模型的卷积层对所述第一矩阵对应的特征向量进行反池化操作,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体关节数量相同。
示例性地,可以通过前述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同。
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同。
对所述第四输出特征进行第一归一化操作,获得第二矩阵。
具体地,可以将第四输出特征经过一个1*1的卷积层,将数据维度变换到预设的人体部件个数,然后经过节点维度进行soft-max操作,得到图池化矩阵,即第二矩阵。
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同。
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量。
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
具体地,可以根据所得到的图池化矩阵得到图池化后的特征,也即,第一矩阵和第二矩阵对应的图池化后的特征,将图池化后的特征反池化到人体关节图的大小,经过一层卷积层对时间信息进行建模。
得到多个维度的第七输出特征向量后,可以将第七输出特征向量送入全局平均池化层,并连接一个与训练集行为数大小相同的60维度的全连接层,并通过soft-max分类器计算其与真实值的偏差,其中,第七输出特征向量对应的损失函数可以如下公式(3)所示:
公式(3):
在一种可能的实现方式中,在“获得第七输出特征向量”的步骤之后,“通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型”的步骤之前,所述方法还包括按照如下公式(4)所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
公式(4):
其中,表示所述待训练的骨架行为识别模型的全局损失,表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,表示预先获取的第一矩阵对应的损失函数的值,表示预先获取的第二矩阵对应的损失函数的值。
示例性地,λa与λr的值可以分别设置为0.1和0.1,S表示所述骨架行为识别模型的网络层数,可以设置为9。
在一种可能的实现方式中,还可以采用反向传播算法和随机梯度下降算法来减小预测整体误差以训练该模型,经过多次迭代训练后可以得到训练好的骨架行为识别模型,通常需要在整个数据集上迭代80次,当损失不再收敛时停止训练。
S103、将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
在一种可能的实现方式中,可以利用训练好的骨架行为识别模型进行测试。首先可以将测试的16560个视频的骨架点三维坐标及对应的关节点三维坐标的帧间差、关节点三维坐标相对人体中心的相对坐标构造为九通道的输入数据,送入到训练好的骨架行为识别模型,分类分数最高的即为视频中发生的行为类别。
本发明提供的方法能够利用从待识别视频中获取的目标对象的第一骨架三维坐标,并基于第一骨架三维坐标,通过骨架行为识别模型确定目标对象处于多个预设骨架行为类型的概率,一方面骨架行为识别模型能够进行端到端的学习,另一方面可以根据人体关节点与人体部件的对应关系,使骨架行为识别模型学习到适合于不同行为的关节点划分,能够有效提高行为识别准确率。
参照图2,图2示例性地示出了本发明的基于身体部件层面的骨架行为识别装置的结构示意图。
本发明提供的基于身体部件层面的骨架行为识别装置包括:
坐标获取模块1,用于获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
行为识别模块2,用于基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
在一种可能的实现方式中,所述行为识别模块2还用于:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
在一种可能的实现方式中,所述第一矩阵对应的损失函数包括:
在一种可能的实现方式中,所述第二矩阵对应的损失函数包括:
在一种可能的实现方式中,所述第七输出特征向量对应的损失函数包括:
在一种可能的实现方式中,所述装置还包括全局损失获取模块,所述全局损失获取模块用于:
按照如下公式所示的方法,获取所述待训练的骨架行为识别模型的全局损失:
其中,表示所述待训练的骨架行为识别模型的全局损失,表示所述第七输出特征向量对应的损失函数的值,λr和λa表示调节参数,用于调节损失函数的权重的比值,S表示所述骨架行为识别模型的网络层数,表示预先获取的第一矩阵对应的损失函数的值,表示预先获取的第二矩阵对应的损失函数的值。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种基于身体部件层面的骨架行为识别方法,其特征在于,所述方法包括:
获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型;
其中,所述训练样本包括多个预设对象的第一骨架三维坐标,基于预设的训练样本进行骨架行为识别优化,其方法包括:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
5.一种基于身体部件层面的骨架行为识别装置,其特征在于,所述装置包括:
坐标获取模块,用于获取待识别视频中目标对象的第一骨架三维坐标,其中,所述第一骨架三维坐标包括第一差值三维坐标、第一相对三维坐标以及第一关节点三维坐标,所述第一差值三维坐标为所述待识别视频中相邻两帧同一目标对象的骨架三维坐标差,所述第一相对三维坐标为所述目标对象的各个关节点相对于所述目标对象的人体中心的三维坐标,所述第一关节点三维坐标为所述目标对象的各个关节点相对于预设坐标中心的三维坐标;
行为识别模块,用于基于所述第一骨架三维坐标,通过预先训练好的骨架行为识别模型,确定所述目标对象处于多个预设骨架行为类型的概率,其中,所述骨架行为识别模型是基于图卷积神经网络构建的模型,并且基于预设的训练样本进行骨架行为识别优化;
将概率大于预设阈值的预设骨架行为类型作为所述目标对象对应的骨架行为类型。
6.根据权利要求5所述的装置,其特征在于,所述训练样本包括多个预设对象的第一骨架三维坐标,所述行为识别模块还用于:
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的图卷积层,获得第一输出特征;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第二输出特征,其中,所述第二输出特征的数据维度与预设的人体部件数量相同;
对所述第二输出特征进行第一归一化操作,获得第一矩阵,其中,所述第一归一化操作包括soft-max操作以及L2归一化操作;
根据所述第一矩阵、待训练的骨架行为识别模型的图卷积层以及所述第一矩阵的转置矩阵,对所述第一骨架三维坐标依次进行池化操作,图卷积操作以及反池化操作,获得第三输出特征,其中,所述第三输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第四输出特征,其中,所述第四输出特征的数据维度与预设的人体部件数量相同;
对所述第四输出特征进行第一归一化操作,获得第二矩阵;
将所述第一骨架三维坐标输入待训练的骨架行为识别模型的卷积层,获得第五输出特征,其中,所述第五输出特征的数据维度与预设的人体部件数量相同;
对所述第五输出特征进行第二归一化操作,获得第三矩阵,其中,所述第二归一化操作包括soft-max操作;
根据所述第二矩阵、第三矩阵对所述第一骨架三维坐标依次进行池化操作、反池化操作,获得第六输出特征,其中,所述第六输出特征的数据维度与预设的人体关节图的大小相同;
将所述第一输出特征、所述第三输出特征以及所述第六输出特征相加,并进行全局平均池化操作,获得第七输出特征向量;
根据所述第七输出特征向量,通过反向传播算法以及随机梯度下降算法训练所述待训练的骨架行为识别模型,以使所述待训练的骨架行为识别模型的预测结果满足预设的误差条件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010658060.8A CN111783711B (zh) | 2020-07-09 | 2020-07-09 | 基于身体部件层面的骨架行为识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010658060.8A CN111783711B (zh) | 2020-07-09 | 2020-07-09 | 基于身体部件层面的骨架行为识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783711A CN111783711A (zh) | 2020-10-16 |
CN111783711B true CN111783711B (zh) | 2022-11-08 |
Family
ID=72759358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010658060.8A Active CN111783711B (zh) | 2020-07-09 | 2020-07-09 | 基于身体部件层面的骨架行为识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783711B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615983A (zh) * | 2015-01-28 | 2015-05-13 | 中国科学院自动化研究所 | 基于递归神经网络和人体骨架运动序列的行为识别方法 |
CN104850846A (zh) * | 2015-06-02 | 2015-08-19 | 深圳大学 | 一种基于深度神经网络的人体行为识别方法及识别系统 |
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN108764107A (zh) * | 2018-05-23 | 2018-11-06 | 中国科学院自动化研究所 | 基于人体骨架序列的行为与身份联合识别方法及装置 |
CN110222653A (zh) * | 2019-06-11 | 2019-09-10 | 中国矿业大学(北京) | 一种基于图卷积神经网络的骨架数据行为识别方法 |
-
2020
- 2020-07-09 CN CN202010658060.8A patent/CN111783711B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615983A (zh) * | 2015-01-28 | 2015-05-13 | 中国科学院自动化研究所 | 基于递归神经网络和人体骨架运动序列的行为识别方法 |
CN104850846A (zh) * | 2015-06-02 | 2015-08-19 | 深圳大学 | 一种基于深度神经网络的人体行为识别方法及识别系统 |
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN108764107A (zh) * | 2018-05-23 | 2018-11-06 | 中国科学院自动化研究所 | 基于人体骨架序列的行为与身份联合识别方法及装置 |
CN110222653A (zh) * | 2019-06-11 | 2019-09-10 | 中国矿业大学(北京) | 一种基于图卷积神经网络的骨架数据行为识别方法 |
Non-Patent Citations (1)
Title |
---|
基于骨架模型的人体行为分析;朱凌飞等;《电子测量技术》;20190423(第08期);74-79 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783711A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111523621B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN114398961B (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
CA3066029A1 (en) | Image feature acquisition | |
CN110765882B (zh) | 一种视频标签确定方法、装置、服务器及存储介质 | |
CN112328715B (zh) | 视觉定位方法及相关模型的训练方法及相关装置、设备 | |
EP4322056A1 (en) | Model training method and apparatus | |
CN113067653B (zh) | 一种频谱感知方法、装置、电子设备及介质 | |
CN115100574A (zh) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 | |
CN112163637B (zh) | 基于非平衡数据的图像分类模型训练方法、装置 | |
CN113095370A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114155397B (zh) | 一种小样本图像分类方法及系统 | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN114897136A (zh) | 多尺度注意力机制方法及模块和图像处理方法及装置 | |
CN113705596A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
WO2023020214A1 (zh) | 检索模型的训练和检索方法、装置、设备及介质 | |
CN111062428A (zh) | 一种高光谱图像的聚类方法、系统及设备 | |
CN111310918B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN113987236B (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
CN113469091B (zh) | 人脸识别方法、训练方法、电子设备及存储介质 | |
CN110135428A (zh) | 图像分割处理方法和装置 | |
CN111814804B (zh) | 基于ga-bp-mc神经网络的人体三维尺寸信息预测方法及装置 | |
CN111783711B (zh) | 基于身体部件层面的骨架行为识别方法及装置 | |
CN114445692B (zh) | 图像识别模型构建方法、装置、计算机设备及存储介质 | |
CN113971737A (zh) | 用于机器人的物体识别方法、电子设备、介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |