CN114792401A - 行为识别模型的训练方法、装置、设备及存储介质 - Google Patents

行为识别模型的训练方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114792401A
CN114792401A CN202110103940.3A CN202110103940A CN114792401A CN 114792401 A CN114792401 A CN 114792401A CN 202110103940 A CN202110103940 A CN 202110103940A CN 114792401 A CN114792401 A CN 114792401A
Authority
CN
China
Prior art keywords
human
structure diagram
skeleton structure
human body
human skeleton
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110103940.3A
Other languages
English (en)
Inventor
祝淑琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110103940.3A priority Critical patent/CN114792401A/zh
Publication of CN114792401A publication Critical patent/CN114792401A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行为识别模型的训练方法、装置、设备及存储介质。其中,所述方法包括:获取待处理视频;所述待处理视频包括多个图像帧;提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。

Description

行为识别模型的训练方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种行为识别模型的训练方法、装置、设备及存储介质。
背景技术
随着人工智能技术的快速发展,机器视觉技术得到了迅速发展,机器视觉技术可以应用于人体行为识别领域。人体行为识别可以是指对人体的动作进行分类和识别。通常,可以采用基于深度学习的行为识别算法对人体的动作进行识别,但是,采用现有的行为识别算法可能会出现对人体动作识别的准确度不高的问题,从而导致识别的动作类别发生错误。
因此,亟需找到一种能够提高对人体动作识别的准确率的技术方案。
发明内容
有鉴于此,本发明实施例期望提供一种行为识别模型的训练方法、装置、设备及存储介质。
本发明实施例的技术方案是这样实现的:
本发明的至少一个实施例提供了一种行为识别模型的训练方法,所述方法包括:
获取待处理视频;所述待处理视频包括多个图像帧;
提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;
提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;
基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
此外,根据本发明的至少一个实施例,提取与所述多个人体骨骼结构图对应的第一特征,包括:
确定与各个人体骨骼结构图对应的注意力权重矩阵;所述注意力权重矩阵表征人体骨骼结构图中非相邻骨骼关节点之间相互作用的作用力强度;
将各个人体骨骼结构图作为图卷积神经网络模型的输入,结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;
基于各个人体骨骼结构图的特征向量,得到所述第一特征。
此外,根据本发明的至少一个实施例,所述确定与各个人体骨骼结构图对应的注意力权重矩阵,包括:
针对每个人体骨骼结构图,分别使用第一尺寸的卷积核和第二尺寸的卷积核进行降维处理,得到第一人体骨骼结构图和第二人体骨骼结构图;
针对每个人体骨骼结构图中的每两个非相邻骨骼关节点,确定两个非相邻骨骼关节点中第一节点在所述第一人体骨骼结构图中的第一坐标,并确定两个非相邻骨骼关节点中第二节点在所述第二人体骨骼结构图中的第二坐标;
基于所述第一坐标和第二坐标,确定与所述第一节点和第二节点对应的注意力权重,得到与每个人体骨骼结构图对应的多个注意力权重值;
基于与各个人体骨骼结构图对应的多个注意力权重值,构建与各个人体骨骼结构图对应的注意力权重矩阵。
此外,根据本发明的至少一个实施例,所述结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,包括:
利用所述图卷积神经网络模型,对各个人体骨骼结构图和对应的注意力矩阵分别进行图卷积操作,以实现对各个人体骨骼结构图的特征提取处理。
此外,根据本发明的至少一个实施例,提取与所述多个人体骨骼结构图对应的第二特征,包括:
将各个人体骨骼结构图作为图卷积神经网络模型的输入,利用所述图卷积神经网络模型,按照不同倍速对各个人体骨骼结构图进行抽样处理,得到抽样处理后的人体骨骼结构图;
对抽样处理后的各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;
基于各个人体骨骼结构图的特征向量,得到所述第二特征。
此外,根据本发明的至少一个实施例,所述基于各个人体骨骼结构图的特征向量,得到所述第二特征,包括:
对各个人体骨骼结构图的特征向量进行对齐处理;
将对齐处理后的特征向量进行拼接,得到拼接后的特征向量;
将拼接后的特征向量作为所述第二特征。
此外,根据本发明的至少一个实施例,所述利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,包括:
针对每个图像帧,判断相应图像帧的人体骨骼关节点序列中是否包含缺失的关节点;当确定相应图像帧的人体骨骼关节点序列中包含缺失的关节点时,确定与所述缺失的关节点的位置距离满足预设条件的至少两个关节点;
基于所述满足预设条件的至少两个关节点,对相应图像帧的人体骨骼关节点序列中缺失的关节点进行补齐;
利用补齐后的人体骨骼关节点序列,生成与相应图像帧对应的人体骨骼结构图,得到各个图像帧的人体骨骼结构图。
本发明的至少一个实施例提供一种行为识别模型的训练装置,包括:
获取单元,用于获取待处理视频;所述待处理视频包括多个图像帧;
第一处理单元,用于提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;以及提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;
第二处理单元,用于基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
本发明的至少一个实施例提供一种电子设备,包括:
通信接口,用于获取待处理视频;所述待处理视频包括多个图像帧;
处理器,用于提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;以及提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;还用于基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
本发明的至少一个实施例提供一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行上述任一方法的步骤。
本发明的至少一个实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
本发明实施例提供的行为识别模型的训练方法、装置、设备及存储介质,获取待处理视频;所述待处理视频包括多个图像帧;提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。采用本发明实施例的技术方案,可以从空间维度提取人体骨骼结构图中非相邻骨骼关节点之间的关联作用信息,弥补了一般通用行为识别算法直接使用人体关键节点的连接关系的局限性;还可以从时间维度提取人体骨骼结构图中包含的动作速度特性;基于提取的空间维度特征和/或时间维度特征进行行为识别模型的训练,可以提升行为识别模型对于由非相邻骨骼关节点相互作用产生的动作的识别能力以及对于形态相近动作的识别能力。
附图说明
图1是本发明实施例行为识别模型的训练方法的实现流程示意图;
图2是本发明实施例人体骨骼结构图的示意图;
图3是本发明实施例对人体骨骼关节点序列划分区域的示意图;
图4是本发明实施例生成各个图像帧的人体骨骼结构图的实现流程示意图;
图5a是本发明实施例图卷积神经网络模型的示意图一;
图5b是本发明实施例非相邻但具有相互作用的关节点的示意图;
图6是本发明实施例提取第一特征的实现流程示意图;
图7是本发明实施例图卷积神经网络模型的示意图二;
图8是本发明实施例提取第二特征的实现流程示意图;
图9是本发明实施例端到端的行为识别过程的示意图;
图10是本发明实施例行为识别模型的训练过程的示意图;
图11是本发明实施例行为识别模型的训练装置的组成结构示意图;
图12是本发明实施例电子设备的组成结构示意图。
具体实施方式
在对本发明实施例的技术方案进行介绍之前,先对相关技术进行说明。
相关技术中,随着人工智能技术的快速发展,机器视觉技术得到了迅速发展,计算机视觉技术领域中一个非常热门的研究方向是人体行为识别,吸引了非常多研究人员的注意。随着人工智能应用的发展以及物联网智能设备的不断演进,人体行为识别技术的落地应用价值也在不断提升。在人体行为识别的应用场景中,例如,端到端的行为识别场景中,即包括数据获取、数据处理、行为识别结果输出的一个端到端的行为识别场景中,大都是使用摄像头或是毫米波雷达等传感器设备采集视野内的图像数据,然后,使用人工观测、基于规则的判断或是行为识别算法来对人体行为进行判断,但是,基于人工观测的行为识别,人力成本比较高,无法承担识别多类动作的任务,而且人无法长时间保持注意力集中,导致识别质量难以保障;基于规则的行为识别,大多只能识别某一种或者几种动作,而且准确率也不是很高,导致应用范围局限,加大了推广难度,因此越来越多的研究人员和公司将基于深度学习的行为识别算法应用到实际的人体行为识别场景中。
相关技术中,基于深度学习的行为识别算法,虽然可以提高对人体动作的识别准确率,如准确率达到94%以上,以及能够识别多种动作,如60种。但是,基于深度学习的行为识别算法对人体动作进行识别,存在的技术缺陷是:一、应用到实际场景中还存在一定的问题,即,大多数都是基于实验室采集的样本进行模型训练,但是,在实际应用时,采集到的数据并不能如实验室采集到的数据那么完整,从而会出现部分节点缺失或者帧缺失的情况;二、对采集的数据进行特征提取后,通过训练的神经网络模型对提取的特征进行分类识别,若在特征提取阶段仅提取关节点之间的特征如距离、角度等等,可能会导致对人体动作识别的准确度不高问题的发生,从而导致识别的动作类别发生错误。
基于此,本发明各实施例中,获取待处理视频;所述待处理视频包括多个图像帧;提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
下面结合附图及实施例对本发明再作进一步详细的描述。
本发明实施例提供了一种行为识别模型的训练方法,如图1所示,所述方法包括:
步骤101:获取待处理视频;所述待处理视频包括多个图像帧;
步骤102:提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;
步骤103:提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;
步骤104:基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
这里,在步骤101中,实际应用时,所述待处理视频可以是对人体在一段时间内发生的动作进行连续拍摄得到的,如用户双手执行的“鼓掌”动作,用户单手执行的“翻书”动作等等。
这里,在步骤102中,实际应用时,考虑到相关技术中采用基于神经网络的行为识别算法对输入的所有视频片段进行动作识别处理,会存在计算量大、背景环境干扰明显的问题;其中,神经网络模型包括CNN网络和RNN网络等等。因此,为了避免由于直接对视频图像进行动作识别导致计算量大、背景环境干扰问题的发生,本申请实施例中,可以使用姿态估计算法提取待处理视频中的人体骨骼数据即人体骨骼关节点序列,后续利用人体骨骼关节点序列生成对应的人体骨骼结构图,并利用人体骨骼结构图进行行为识别模型的训练。
这里,在步骤103中,实际应用时,考虑到用户在某些场景下会产生一些特定动作,例如,连续击打手掌形成“鼓掌”动作,手指连续接触形成视觉上的人机交互动作等等,因此,为了能够对这些动作进行准确识别,可以提取各个图像帧对应的人体骨骼结构图的第一特征,实现从空间维度角度挖掘出人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息,后续可作为样本训练数据进行行为识别模型的训练。另外,实际应用时,考虑到用户产生的动作可能会随着时间的变化导致动作速度发生变化,例如,用户在前一分钟进行跑步动作,后一分钟进行慢走动作等等,因此,为了能够对这些动作进行准确识别,可以提取各个图像帧对应的人体骨骼结构图的第二特征,实现从时间维度挖掘出人体骨骼结构图对应的动作速度的信息,后续可作为样本训练数据进行行为识别模型的训练。
这里,在步骤104中,实际应用时,当利用第一特征对预测模型进行训练得到行为识别模型后,后续采集目标视频后,可以利用训练好的行为识别模型对所述目标视频包含的多个图像帧进行人体动作识别,以识别出至少由非相邻骨骼关节点之间发生作用产生的动作的类型。和/或,当利用第二特征对预测模型进行训练得到行为识别模型后,后续采集目标视频后,可以利用训练好的行为识别模型对所述目标视频包含的多个图像帧进行人体动作识别,以识别出动作速度有差异变化的动作的类型。
下面对如何确定各个图像帧的人体骨骼结构图,以及如何利用多个人体骨骼结构图进行行为识别模型训练的过程进行详细说明。
实际应用时,可以利用电子设备的摄像头采集待处理视频,若直接对摄像头采集的待处理视频中包含的动作片段进行行为识别,则可能会存在计算量大、背景环境干扰明显的问题,因此,可以使用姿态估计算法提取待处理视频中的人体骨骼关节点序列;其中,姿态估计算法可以是openpose等等。另外,可以根据人体关键骨骼节点及节点之间的连接关系构建图数据结构,得到人体骨骼结构图。
基于此,在一实施例中,所述利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,包括:
针对每个图像帧,确定相应图像帧对应的人体骨骼关节点序列中各个关节点的坐标,得到多个坐标;
利用所述多个坐标,生成第一集合和第二集合;所述第一集合表征用于形成人体骨骼结构图的顶点的坐标集合;所述第二集合表征用于形成人体骨骼结构图的边的坐标集合;
利用第一集合和第二集合,生成人体骨骼结构图。
这里,所述人体骨骼结构图可以是指一种图数据结构,即由顶点构成的集合和边构成的集合组成。
举例来说,图2是人体骨骼结构图的示意图,如图2所示,以一个图像帧为例,利用该图像帧对应的人体骨骼关节点序列中各个关节点形成人体骨骼结构图的顶点,利用人体骨骼关节点序列中具有连接关系的关节点形成人体骨骼结构图的边。
实际应用时,在某些场景如实验室中采集待处理视频,由于待处理视频是在无遮挡环境中进行采集,因此提取待处理视频的多个图像帧分别对应的人体骨骼关节点序列中不会存在缺失的节点,但是,在有遮挡的环境下采集待处理视频,则可能会出现提取的人体骨骼关节点序列中存在缺失的节点的情况。因此,在生成各个图像帧的人体骨骼结构图之前,可以先判断相应图像帧的人体骨骼关节点序列中是否包含缺失的节点,若存在缺失的节点,则进行补齐后再生成人体骨骼结构图。
基于此,在一实施例中,所述利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,包括:
针对每个图像帧,判断相应图像帧的人体骨骼关节点序列中是否包含缺失的关节点;当确定相应图像帧的人体骨骼关节点序列中包含缺失的关节点时,确定与所述缺失的关节点的位置距离满足预设条件的至少两个关节点;
基于所述满足预设条件的至少两个关节点,对相应图像帧的人体骨骼关节点序列中缺失的关节点进行补齐;
利用补齐后的人体骨骼关节点序列,生成与相应图像帧对应的人体骨骼结构图,得到各个图像帧的人体骨骼结构图。
这里,判断相应图像帧的人体骨骼关节点序列中是否包含缺失的关节点的过程,可以包括:
将相应图像帧的人体骨骼关节点序列划分为至少两个区域;
针对所述至少两个区域中每个区域,判断相应区域中是否包含坐标等于坐标阈值的坐标;
若相应区域中包含坐标等于坐标阈值的坐标,则确定与所述坐标对应的关节点为相应图像帧的人体骨骼关节点序列中缺失的节点。
这里,图3是对人体骨骼关节点序列划分区域的示意图,如图3所示,可以按照人体结构将人体骨骼关节点序列划分为五个区域。
这里,可以按照公式(1)对相应图像帧的人体骨骼关节点序列中缺失的关节点进行补齐,如下:
Figure BDA0002917103750000091
其中,
Figure BDA0002917103750000092
表示对相应图像帧的人体骨骼关节点序列中缺失的关节点进行补齐后得到的坐标;vi表示相应图像帧的人体骨骼关节点序列中缺失的节点。
这里,如公式(1)所示,根据人体躯干的划分选取离vi距离最近的上下两个节点vi+1和vi-1,并使用节点vi+1和vi-1坐标的平均值来表示补齐后的节点vi的坐标。
在一示例中,如图4所示,描述生成各个图像帧的人体骨骼结构图的过程,包括:
步骤401:获取待处理视频;所述待处理视频包括多个图像帧。
步骤402:针对每个图像帧,判断相应图像帧的人体骨骼关节点序列中是否包含缺失的关节点;当确定相应图像帧的人体骨骼关节点序列中包含缺失的关节点时,执行步骤403。
这里,针对每个图像帧,可以使用姿态估计算法提取待处理视频中的人体骨骼关节点序列,从而得到该人体骨骼关节点序列中每个关节点的坐标;判断该人体骨骼关节点序列中是否包含坐标为0的关节点,当确定该人体骨骼关节点序列中包含坐标为0的关节点时,将对应的关节点作为该人体骨骼关节点序列中缺失的关节点。
步骤403:确定与所述缺失的关节点的位置距离满足预设条件的至少两个关节点;基于所述满足预设条件的至少两个关节点,对相应图像帧的人体骨骼关节点序列中缺失的关节点进行补齐。
这里,确定与缺失的关节点的位置距离最近的至少两个关节点;从所述至少两个关节点中确定一个位置处于该缺失的关节点上方的关节点和一个位置处于该缺失的关节点下方的关节点;对这两个关节点的坐标求平均值,得到对缺失的关节点进行补齐后的坐标。
步骤404:利用补齐后的人体骨骼关节点序列,生成与相应图像帧对应的人体骨骼结构图,得到各个图像帧的人体骨骼结构图。
这里,检测各个图像帧的人体骨骼关节点序列中是否包含缺失的节点,具备以下优点:
(1)通过数据预处理操作,即从人体骨骼关节点序列中搜索由于遮挡导致缺失的节点,并对缺失的节点的坐标进行补齐,保障了数据的完整性,从而可以有效避免缺失的关节点数据对模型训练产生干扰。
(2)实际应用时,可以利用在有部分遮挡的应用场景中采集的视频数据进行行为识别模型的训练。
实际应用时,考虑到人体骨骼关节点序列数据具有天然的图连接结构,因此,可以使用图卷积神经网络(GCN,Graph Convolution Network)从空间维度角度挖掘出人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息。考虑到用户在某些情况下产生的动作是由非相邻骨骼关节点之间相互发生作用产生的,例如,用户产生的“鼓掌”动作等等。因此,可以利用“注意力机制”,挖掘出人体骨骼结构图中非相邻骨骼关节点之间的作用关系,即,通过为人体骨骼结构图分配注意力权重矩阵的方式,结合图卷积神经网络,将输入的人体骨骼结构图与对应的注意力权重矩阵进行图卷积操作,可以得到人体骨骼结构图中非相邻骨骼关节点之间的关联关系。
基于此,在一实施例中,提取与所述多个人体骨骼结构图对应的第一特征,包括:
确定与各个人体骨骼结构图对应的注意力权重矩阵;所述注意力权重矩阵表征人体骨骼结构图中非相邻骨骼关节点之间相互作用的作用力强度;
将各个人体骨骼结构图作为图卷积神经网络模型的输入,结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;
基于各个人体骨骼结构图的特征向量,得到所述第一特征。
这里,可以将各个人体骨骼结构图对应的特征向量进行拼接组合,得到所述第一特征。
实际应用时,为了能够挖掘出人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息,即得到与人体骨骼结构图对应的注意力权重矩阵,可以对人体骨骼结构图进行降维处理,以辨别出非相邻骨骼关节点之间的关联程度。具体地,以一个人体骨骼结构图为例,可以利用两个尺寸不同的卷积核对该人体骨骼结构图分别进行降维处理,得到降维处理后的两个人体骨骼结构图;在降维处理后的两个人体骨骼结构图中分别确定非相邻骨骼关节点中每两个节点的坐标,并基于每两个节点的坐标得到一个注意力权重值,最终得到多个注意力权重值;利用多个注意力权重值,生成所述注意力权重矩阵。
基于此,在一实施例中,所述确定与各个人体骨骼结构图对应的注意力权重矩阵,包括:
针对每个人体骨骼结构图,分别使用第一尺寸的卷积核和第二尺寸的卷积核进行降维处理,得到第一人体骨骼结构图和第二人体骨骼结构图;
针对每个人体骨骼结构图中的每两个非相邻骨骼关节点,确定两个非相邻骨骼关节点中第一节点在所述第一人体骨骼结构图中的第一坐标,并确定两个非相邻骨骼关节点中第二节点在所述第二人体骨骼结构图中的第二坐标;
基于所述第一坐标和第二坐标,确定与所述第一节点和第二节点对应的注意力权重,得到与每个人体骨骼结构图对应的多个注意力权重值;
基于与各个人体骨骼结构图对应的多个注意力权重值,构建与各个人体骨骼结构图对应的注意力权重矩阵。
举例来说,以一个图像帧为例,假设该图像帧对应的人体骨骼结构图的尺寸用(C,T,N)表示,其中,C表示通道数,即人体骨骼结构图中骨骼关节点坐标的维数,如C=3;T表示图像帧的帧数;N表示人体骨骼结构图包含的骨骼关节点的数量。假设第一尺寸的卷积核用N×CgT表示,第二尺寸的卷积核用CgT×N表示,这样,使用第一尺寸的卷积核对人体骨骼结构图进行降维处理后,得到的第一人体骨骼结构图的尺寸为N×CgT,使用第二尺寸的卷积核对人体骨骼图进行降维处理后,得到的第二人体骨骼结构图的尺寸为CgT×N,对N×CgT和CgT×N进行矩阵相乘运算,得到N×N的矩阵,即与人体骨骼结构图对应的注意力权重矩阵。
这里,所述第一节点和第二节点对应的注意力权重可以作为所述注意力权重矩阵中的一个元素,具体地,可以按照公式(2)计算所述第一节点和第二节点对应的注意力权重,如下:
Figure BDA0002917103750000121
其中,
Figure BDA0002917103750000122
表示非相邻骨骼关节点中第一节点vi和第二节点vj对应的注意力权重;
Figure BDA0002917103750000123
表示非相邻骨骼关节点中第一节点vi在第一骨骼结构图中的第一坐标,φ(vj)表示非相邻骨骼关节点中第二节点vj在第二骨骼结构图中的第二坐标;softmax()表示将输入的第一坐标和第二坐标映射为0到1之间的数值。
实际应用时,在使用采用注意力机制的图卷积神经网络挖掘人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息时,可以对输入的人体骨骼结构图和对应的注意力权重矩阵进行图卷积操作,以挖掘出该人体骨骼结构图中非相邻骨骼关节点之间相互作用的特征向量。
基于此,在一实施例中,所述结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,包括:
利用所述图卷积神经网络模型,对各个人体骨骼结构图和对应的注意力矩阵分别进行图卷积操作,以实现对各个人体骨骼结构图的特征提取处理。
这里,实际应用时,可以利用所述图卷积神经网络模型,对每个人体骨骼结构图和对应的注意力矩阵进行图卷积操作,以挖掘出各个人体骨骼结构图中非相邻人体骨骼关节点之间相互作用的作用力强度,还可以利用所述图卷积神经网络模型,对每个人体骨骼结构图和对应的邻接矩阵进行图卷积操作,以挖掘出各个人体骨骼结构图中相邻人体骨骼关节点之间相互作用的作用力强度。
这里,执行图卷积操作的过程如公式(3)所示:
Figure BDA0002917103750000131
其中,fout表示图卷积神经网络输出的与人体骨骼结构图对应的第一特征。fin表示图卷积神经网络输入的人体骨骼结构图。Sk表示与人体骨骼结构图对应的注意力权重矩阵。Ak表示与人体骨骼结构图对应的邻接矩阵,邻接矩阵中每个元素表示人体骨骼结构图中相邻关节点之间的作用关系,假设节点vi和节点vj相邻,则
Figure BDA0002917103750000132
否则
Figure BDA0002917103750000133
Λ表示规范化的对角矩阵。Wk表示权重函数,其中,k是根据卷积核大小进行设定的。
这里,图5a是图卷积神经网络模型的示意图,如图5a所示,该图卷积神经网络模型可以利用与各个图像帧的人体骨骼结构图对应的Sk提取非相邻但具有相互作用关系的关节点之间的作用信息。图5b是非相邻但具有相互作用的关节点的示意图,如图5b所示,针对节点1来说,节点1对应的非相邻但具有相互作用的关节点为节点3和节点4,节点1对应的相邻但具有相互作用的关节点为节点2。通过实验验证,通过增加非相邻但具有相互作用关系的节点间的作用信息,对NTU数据集中的测试数据进行人体行为识别的准确率能够提升约6%。
在一示例中,如图6所示,描述提取第一特征的过程,包括:
步骤601:获取待处理视频;所述待处理视频包括多个图像帧。
步骤602:提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图。
步骤603:确定各个人体骨骼结构图的注意力权重矩阵。
其中,所述注意力权重矩阵中每个元素可以表征人体骨骼结构图中每两个非相邻人体骨骼关节点之间相互作用的作用力强度。
这里,还可以确定各个人体骨骼结构图的邻接矩阵;所述邻接矩阵中每个元素可以表征人体骨骼结构图中每两个相邻人体骨骼关节点之间相互作用的作用力强度。
步骤604:将各个人体骨骼结构图作为图卷积神经网络模型的输入,结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;基于各个人体骨骼结构图的特征向量,得到所述第一特征。
这里,实际应用时,还可以将各个人体骨骼结构图作为图卷积神经网络模型的输入,结合确定的注意力权重矩阵和邻接矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;基于各个人体骨骼结构图的特征向量,得到所述第一特征。
这里,提取与多个人体骨骼结构图对应的第一特征,具备以下优点:
(1)与相关技术中仅提取关节点之间的特征如距离、角度等等的方式相比,本申请实施例中,在空间维度,确定各个人体骨骼结构图的注意力权重矩阵和邻接矩阵,从而可以利用该注意力矩阵和人体骨骼结构图进行图卷积操作,以提取到人体骨骼结构图中非相邻但具有相互作用关系的关节点之间的作用信息,以及利用邻接矩阵和人体骨骼结构图进行图卷积操作,以提取到人体骨骼结构图中相邻但具有相互作用关系的关节点之间的作用信息。
(2)利用挖掘的人体骨骼结构图中非相邻但具有相互作用关系的关节点之间的作用信息形成第一特征,后续利用所述第一特征进行行为识别模型的训练,可以提高行为识别模型的鲁棒性以及对至少由非相邻骨骼关节点相互作用产生的动作识别的准确率。
(3)利用所述第一特征训练得到的行为识别模型可以应用于深度学习领域中进行人体动作识别。
实际应用时,考虑到用户产生的不同动作的运动速度会存在差异,不同用户产生的相同动作的动作速度也会存在差异,以及不同用户产生的形态相近的动作的动作速度也会存在差异。因此,可以采用“时间多尺度结构”的图卷积神经网络模型,挖掘各个人体骨骼结构图对应的动作速度信息,即,通过在图卷积神经网络模型中各个基础网络层设置不同的步长,如此,利用多个基础网络层对应的不同步长对各个人体骨骼结构图进行不同倍速的抽样,并利用抽样得到的各个人体骨骼结构图,以及图卷积神经网络模型的卷积层的卷积核实现图卷积操作,从而得到表征各个人体骨骼结构图的动作速度信息。
基于此,在一实施例中,提取与所述多个人体骨骼结构图对应的第二特征,包括:
将各个人体骨骼结构图作为图卷积神经网络模型的输入,利用所述图卷积神经网络模型,按照不同倍速对各个人体骨骼结构图进行抽样处理,得到抽样处理后的人体骨骼结构图;
对抽样处理后的各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;
基于各个人体骨骼结构图的特征向量,得到所述第二特征。
这里,具体地,可以在图卷积神经网络模型的卷积层的多个时间卷积模块设置不同的步长;多个时间卷积模块利用不同的步长,从各个人体骨骼结构图中抽样出能够反映动作速度变化的骨骼关节点,并利用卷积核对抽样得到的骨骼关节点形成的人体骨骼结构图进行图卷积操作,得到各个人体骨骼结构图的特征向量。
举例来说,图7是图卷积神经网络模型的示意图,如图7所示,该图卷积神经网络模型包括基础网络层、空间维度对齐层、聚合层、池化层(pooling)。其中,基础网络层用于按不同倍速对各个人体骨骼结构图进行抽样处理,得到在时间尺度上不同的人体骨骼结构图,例如,假设输入20个图像帧的人体骨骼结构图,基础网络层的各层分别抽样得到第1帧、第3帧、第5帧、第10帧、第15帧、第20帧的人体骨骼结构图等等;空间维度层对齐用于使用1×1的卷积核,对抽样处理后的人体骨骼结构图进行图卷积操作,得到与各个人体骨骼结构图分别对应的特征向量,并将与各个人体骨骼结构图对应的特征向量进行对齐;聚合层用于将对齐后的特征向量进行拼接操作,以完成不同动作速度特征的聚合,从而得到所述第二特征。
这里,基于各个人体骨骼结构图的特征向量,得到所述第二特征,包括:
将各个人体骨骼结构图的特征向量进行对齐;
将对齐后的特征向量进行拼接,得到所述第二特征。
这里,可以按照公式(4)将对齐后的特征向量进行拼接,如下:
Tout=pooling(concat(l1T1,l2T2,...,lnTn)) (4)
其中,Tout表示所述第二特征;l1T1,l2T2,...,lnTn表示对齐后的各个人体骨骼结构图的特征向量;concat()函数表示将对齐后的特征向量组合起来;pooling()函数表示对拼接得到的特征向量进行压缩。
在一示例中,如图8所示,描述提取第二特征的过程,包括:
步骤801:获取待处理视频;所述待处理视频包括多个图像帧。
步骤802:提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图。
步骤803:将各个人体骨骼结构图作为图卷积神经网络模型的输入,利用所述图卷积神经网络模型,按照不同倍速对各个人体骨骼结构图进行抽样处理,得到抽样处理后的人体骨骼结构图;
步骤804:对抽样处理后的各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;基于各个人体骨骼结构图的特征向量,得到所述第二特征。
这里,提取与多个人体骨骼结构图对应的第二特征,具备以下优点:
(1)在时间维度,利用图卷积神经网络模型中多个基础网络层之间的步长能够发生变化的特点,在各个基础网络层中构建“时间多尺度结构”的时间图卷积模块和聚合模块,多个时间图卷积模块分别采用不同的步长,来实现对各个人体骨骼结构图进行不同倍速的抽样,从而提取到多层级的动作速度特征,也就是各个人体骨骼结构图对应的动作速度不同。
(2)利用挖掘的各个人体骨骼结构图的动作速度信息形成第二特征,后续利用所述第二特征进行行为识别模型的训练,不仅不会加大数据运算量,而且可以提高对形态相近动作进行识别的准确率。
(3)利用所述第二特征训练得到的行为识别模型可以应用于深度学习领域中进行人体动作识别。
(4)与相关技术中采用时域图卷积(TGCN)对相邻图像帧的数据做卷积操作的方式相比,通过对各个人体骨骼结构图进行不同倍速的抽样,能够提取到人体骨骼序列中反映时间维度的多层级的动作速度变化特征,同时也不会加大数据运算量。
需要说明的是,这里,除了可以利用所述第二特征进行行为识别模型的训练之外,还可以利用所述第一特征和所述第二特征这两个特征一起进行行为识别模型的训练。
图9是端到端的行为识别过程的示意图,如图9所示,端到端的行为识别过程包括提取训练数据、模型训练、行为识别应用共三个阶段;其中,
提取训练数据阶段,用于利用传感器设备获取待处理视频;所述待处理视频包括多个图像帧;使用姿态估计算法提取各个图像帧的人体骨骼关节点序列;通过数据预处理操作,对人体骨骼关节点序列中缺失的关节点坐标进行补齐,并利用补齐后的人体骨骼关节点序列,生成人体骨骼结构图,得到多个人体骨骼结构图。
模型训练阶段,用于基于采用“注意力机制”的图卷积神经网络模型,从空间维度提取与所述多个人体骨骼结构图对应的第一特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;和/或,基于采用“时间多尺度结构”的图卷积神经网络模型,从时间维度提取与所述多个人体骨骼结构图对应的第二特征;所述第二特征表征各个人体骨骼结构图对应的动作速度;还用于基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型。
行为识别应用阶段,用于利用传感器设备获取目标视频;所述目标视频包括多个图像帧;使用姿态估计算法提取各个图像帧的人体骨骼关节点序列;通过数据预处理操作,对人体骨骼关节点序列中缺失的关节点坐标进行补齐,并利用补齐后的人体骨骼关节点序列,生成人体骨骼结构图,得到多个人体骨骼结构图;将多个人体骨骼结构图作为训练好的行为识别模型的输入,利用训练好的行为识别模型,对目标视频中的人体行为进行识别,得到行为识别结果。
图10是行为识别模型的训练过程的示意图,如图10所示,所述行为识别模型包括:多个A-SGCN模块、多个TGCN模块和MT module模块;其中,
多个A-SGCN模块,为采用“注意力机制”的空间维度图卷积模块,具体用于确定与输入的各个人体骨骼结构图对应的注意力权重矩阵,并利用确定的注意力权重矩阵,从空间维度提取与输入的多个人体骨骼结构图对应的第一特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息。
多个TGCN模块,为采用“时间多尺寸”结构的时间维度图卷积模块,具体用于按照不同倍速对输入的各个人体骨骼结构图进行抽样处理,对抽样处理后的各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量。
MT module模块,为基于时间多尺度结构的聚合模块,具体用于对各个人体骨骼结构图的特征向量进行对齐、拼接处理,得到拼接聚合后的特征向量,将拼接后的特征向量作为所述第二特征;所述第二特征表征各个人体骨骼结构图对应的动作速度。
这里,得到所述第一特征和第二特征之后,利用预设模型对所述第一特征和第二特征进行分类识别,得到行为识别得分;利用得到的行为识别得分以及标记真实行为的标签,计算损失值。在对预设模型进行每轮训练的过程中根据每一轮计算的损失值,采用反向传播算法对所述预设模型的网络参数进行更新;当计算的损失值低于预设阈值时,得到训练好的行为识别模型。其中,所述行为识别模型为采用注意力机制和时间多尺度结构的图卷积神经网络模型。
这里,计算损失值的损失函数如公式(5)所示:
Figure BDA0002917103750000181
其中,Lloss表示计算的损失值;yi表示对所述第一特征和第二特征进行分类识别得到的行为识别得分;
Figure BDA0002917103750000182
表示标记真实行为的标签。
需要说明的是,这里,采用注意力机制和时间多尺度结构的图卷积神经网络模型来训练行为识别模型的好处是:一,在行为识别算法训练上,提出了基于注意力机制、时间多尺度结构的图卷积模型来提取骨骼数据的空间-时间特征,即,利用注意力机制为各个人体骨骼结构图确定对应的注意力权重矩阵,从空间维度挖掘人体骨骼结构图中非相邻骨骼关节点之间的关联作用信息,弥补了一般通用行为识别算法直接使用人体关键节点的连接关系的局限性;采用时间多尺度结构,将基础网络层各层的深度设置不同,从而从时间维度输出人体骨骼结构图中包含的动作速度特性。二、在一个网络模型中同时训练空间维度和时间维度的图卷积神经网络来得到行为识别模型,可以降低计算复杂度。三、利用在空间维度提取到人体骨骼关节点中非相邻骨骼关节点之间的关系,可以提升行为识别模型对于由非相邻骨骼关节点相互作用产生的动作的识别能力;利用在时间维度提取到表征动作速度差异变化的特征,可以提升行为识别模型对于形态相近动作的识别能力。
采用本发明实施例的技术方案,可以从空间维度提取人体骨骼结构图中非相邻骨骼关节点之间的关联作用信息,弥补了一般通用行为识别算法直接使用人体关键节点的连接关系的局限性;还可以从时间维度提取人体骨骼结构图中包含的动作速度特性;基于提取的空间维度特征和/或时间维度特征进行行为识别模型的训练,可以提升行为识别模型对于由非相邻骨骼关节点相互作用产生的动作的识别能力以及对于形态相近动作的识别能力。
为实现本发明实施例的行为识别模型的训练方法,本发明实施例还提供一种行为识别模型的训练装置,图11为本发明实施例行为识别模型的训练装置的组成结构示意图;如图11所示,所述装置包括:
获取单元111,用于获取待处理视频;所述待处理视频包括多个图像帧;
第一处理单元112,用于提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;以及提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;
第二处理单元113,用于基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
在一实施例中,所述第一处理单元112,具体用于:
确定与各个人体骨骼结构图对应的注意力权重矩阵;所述注意力权重矩阵表征人体骨骼结构图中非相邻骨骼关节点之间相互作用的作用力强度;将各个人体骨骼结构图作为图卷积神经网络模型的输入,结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;基于各个人体骨骼结构图的特征向量,得到所述第一特征。
在一实施例中,所述第一处理单元112,具体用于:
针对每个人体骨骼结构图,分别使用第一尺寸的卷积核和第二尺寸的卷积核进行降维处理,得到第一人体骨骼结构图和第二人体骨骼结构图;针对每个人体骨骼结构图中的每两个非相邻骨骼关节点,确定两个非相邻骨骼关节点中第一节点在所述第一人体骨骼结构图中的第一坐标,并确定两个非相邻骨骼关节点中第二节点在所述第二人体骨骼结构图中的第二坐标;基于所述第一坐标和第二坐标,确定与所述第一节点和第二节点对应的注意力权重,得到与每个人体骨骼结构图对应的多个注意力权重值;基于与各个人体骨骼结构图对应的多个注意力权重值,构建与各个人体骨骼结构图对应的注意力权重矩阵。
在一实施例中,所述第一处理单元112,具体用于:
利用所述图卷积神经网络模型,对各个人体骨骼结构图和对应的注意力矩阵分别进行图卷积操作,以实现对各个人体骨骼结构图的特征提取处理。
在一实施例中,所述第一处理单元112,具体用于:
将各个人体骨骼结构图作为图卷积神经网络模型的输入,利用所述图卷积神经网络模型,按照不同倍速对各个人体骨骼结构图进行抽样处理,得到抽样处理后的人体骨骼结构图;对抽样处理后的各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;基于各个人体骨骼结构图的特征向量,得到所述第二特征。
在一实施例中,所述第一处理单元112,具体用于:
对各个人体骨骼结构图的特征向量进行对齐处理;将对齐处理后的特征向量进行拼接,得到拼接后的特征向量;将拼接后的特征向量作为所述第二特征。
在一实施例中,所述第一处理单元112,具体用于:
针对每个图像帧,判断相应图像帧的人体骨骼关节点序列中是否包含缺失的关节点;当确定相应图像帧的人体骨骼关节点序列中包含缺失的关节点时,确定与所述缺失的关节点的位置距离满足预设条件的至少两个关节点;基于所述满足预设条件的至少两个关节点,对相应图像帧的人体骨骼关节点序列中缺失的关节点进行补齐;利用补齐后的人体骨骼关节点序列,生成与相应图像帧对应的人体骨骼结构图,得到各个图像帧的人体骨骼结构图。
实际应用时,所述获取单元111可以由行为识别模型的训练装置中的通信接口实现;所述第一处理单元112、第二处理单元113可以由行为识别模型的训练装置中的处理器实现。
需要说明的是:上述实施例提供的行为识别模型的训练装置在进行信息处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的行为识别模型的训练装置与行为识别模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供了一种电子设备,如图12所示,电子设备120包括:
通信接口121,能够与其它设备进行信息交互;
处理器122,与所述通信接口121连接,用于运行计算机程序时,执行上述智能设备侧一个或多个技术方案提供的方法。而所述计算机程序存储在存储器123上。
需要说明的是:所述处理器122和通信接口121的具体处理过程详见方法实施例,这里不再赘述。
当然,实际应用时,电子设备120中的各个组件通过总线系统124耦合在一起。可理解,总线系统124用于实现这些组件之间的连接通信。总线系统124除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图12中将各种总线都标为总线系统124。
本申请实施例中的存储器123用于存储各种类型的数据以支持终端120的操作。这些数据的示例包括:用于在电子设备120上操作的任何计算机程序。
上述本申请实施例揭示的方法可以应用于所述处理器122中,或者由所述处理器122实现。所述处理器122可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过所述处理器122中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器122可以是通用处理器、数字数据处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器122可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器123,所述处理器122读取存储器123中的信息,结合其硬件完成前述方法的步骤。
在示例性实施例中,电子设备120可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,本申请实施例的存储器(存储器123)可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-OnlyMemory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-OnlyMemory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-OnlyMemory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器123,上述计算机程序可由电子设备的处理器122执行,以完成前述控制服务器侧方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (11)

1.一种行为识别模型的训练方法,其特征在于,所述方法包括:
获取待处理视频;所述待处理视频包括多个图像帧;
提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;
提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;
基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
2.根据权利要求1所述的方法,其特征在于,提取与所述多个人体骨骼结构图对应的第一特征,包括:
确定与各个人体骨骼结构图对应的注意力权重矩阵;所述注意力权重矩阵表征人体骨骼结构图中非相邻骨骼关节点之间相互作用的作用力强度;
将各个人体骨骼结构图作为图卷积神经网络模型的输入,结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;
基于各个人体骨骼结构图的特征向量,得到所述第一特征。
3.根据权利要求2所述的方法,其特征在于,所述确定与各个人体骨骼结构图对应的注意力权重矩阵,包括:
针对每个人体骨骼结构图,分别使用第一尺寸的卷积核和第二尺寸的卷积核进行降维处理,得到第一人体骨骼结构图和第二人体骨骼结构图;
针对每个人体骨骼结构图中的每两个非相邻骨骼关节点,确定两个非相邻骨骼关节点中第一节点在所述第一人体骨骼结构图中的第一坐标,并确定两个非相邻骨骼关节点中第二节点在所述第二人体骨骼结构图中的第二坐标;
基于所述第一坐标和第二坐标,确定与所述第一节点和第二节点对应的注意力权重,得到与每个人体骨骼结构图对应的多个注意力权重值;
基于与各个人体骨骼结构图对应的多个注意力权重值,构建与各个人体骨骼结构图对应的注意力权重矩阵。
4.根据权利要求2或3所述的方法,其特征在于,所述结合确定的注意力权重矩阵,利用所述图卷积神经网络模型,对各个人体骨骼结构图分别进行特征提取处理,包括:
利用所述图卷积神经网络模型,对各个人体骨骼结构图和对应的注意力矩阵分别进行图卷积操作,以实现对各个人体骨骼结构图的特征提取处理。
5.根据权利要求1所述的方法,其特征在于,提取与所述多个人体骨骼结构图对应的第二特征,包括:
将各个人体骨骼结构图作为图卷积神经网络模型的输入,利用所述图卷积神经网络模型,按照不同倍速对各个人体骨骼结构图进行抽样处理,得到抽样处理后的人体骨骼结构图;
对抽样处理后的各个人体骨骼结构图分别进行特征提取处理,得到各个人体骨骼结构图的特征向量;
基于各个人体骨骼结构图的特征向量,得到所述第二特征。
6.根据权利要求5所述的方法,其特征在于,所述基于各个人体骨骼结构图的特征向量,得到所述第二特征,包括:
对各个人体骨骼结构图的特征向量进行对齐处理;
将对齐处理后的特征向量进行拼接,得到拼接后的特征向量;
将拼接后的特征向量作为所述第二特征。
7.根据权利要求1所述的方法,其特征在于,所述利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,包括:
针对每个图像帧,判断相应图像帧的人体骨骼关节点序列中是否包含缺失的关节点;当确定相应图像帧的人体骨骼关节点序列中包含缺失的关节点时,确定与所述缺失的关节点的位置距离满足预设条件的至少两个关节点;
基于所述满足预设条件的至少两个关节点,对相应图像帧的人体骨骼关节点序列中缺失的关节点进行补齐;
利用补齐后的人体骨骼关节点序列,生成与相应图像帧对应的人体骨骼结构图,得到各个图像帧的人体骨骼结构图。
8.一种行为识别模型的训练装置,其特征在于,包括:
获取单元,用于获取待处理视频;所述待处理视频包括多个图像帧;
第一处理单元,用于提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;以及提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;
第二处理单元,用于基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
9.一种电子设备,其特征在于,包括:
通信接口,用于获取待处理视频;所述待处理视频包括多个图像帧;
处理器,用于提取各个图像帧的人体骨骼关节点序列,并利用提取的人体骨骼关节点序列,生成各个图像帧的人体骨骼结构图,得到多个人体骨骼结构图;以及提取与所述多个人体骨骼结构图对应的第一特征和/或第二特征;所述第一特征表征各个人体骨骼结构图中非相邻骨骼关节点之间相互作用的信息;所述第二特征表征各个人体骨骼结构图对应的动作速度;还用于基于所述第一特征和/或所述第二特征,进行预设模型的训练,得到对人体行为识别的行为识别模型;所述行为识别模型,用于对目标视频中的人体行为进行识别。
10.一种电子设备,其特征在于,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行权利要求1至7任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202110103940.3A 2021-01-26 2021-01-26 行为识别模型的训练方法、装置、设备及存储介质 Pending CN114792401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110103940.3A CN114792401A (zh) 2021-01-26 2021-01-26 行为识别模型的训练方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110103940.3A CN114792401A (zh) 2021-01-26 2021-01-26 行为识别模型的训练方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114792401A true CN114792401A (zh) 2022-07-26

Family

ID=82459525

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110103940.3A Pending CN114792401A (zh) 2021-01-26 2021-01-26 行为识别模型的训练方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114792401A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761902A (zh) * 2022-12-08 2023-03-07 厦门农芯数字科技有限公司 基于人体骨骼关节点识别的入口消毒识别方法
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761902A (zh) * 2022-12-08 2023-03-07 厦门农芯数字科技有限公司 基于人体骨骼关节点识别的入口消毒识别方法
CN115761902B (zh) * 2022-12-08 2023-07-21 厦门农芯数字科技有限公司 基于人体骨骼关节点识别的入口消毒识别方法
CN116386087A (zh) * 2023-03-31 2023-07-04 阿里巴巴(中国)有限公司 目标对象处理方法以及装置
CN116386087B (zh) * 2023-03-31 2024-01-09 阿里巴巴(中国)有限公司 目标对象处理方法以及装置

Similar Documents

Publication Publication Date Title
CN111291739B (zh) 面部检测、图像检测神经网络训练方法、装置和设备
CN111797893B (zh) 一种神经网络的训练方法、图像分类系统及相关设备
CN112750140B (zh) 基于信息挖掘的伪装目标图像分割方法
CN109960742B (zh) 局部信息的搜索方法及装置
CN112288011B (zh) 一种基于自注意力深度神经网络的图像匹配方法
Liang et al. Model-based hand pose estimation via spatial-temporal hand parsing and 3D fingertip localization
CN112597941A (zh) 一种人脸识别方法、装置及电子设备
CN111274994B (zh) 漫画人脸检测方法、装置、电子设备及计算机可读介质
CN113591872A (zh) 一种数据处理系统、物体检测方法及其装置
CN111062263A (zh) 手部姿态估计的方法、设备、计算机设备和存储介质
CN111709268B (zh) 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置
CN114641799A (zh) 对象检测设备、方法和系统
CN114792401A (zh) 行为识别模型的训练方法、装置、设备及存储介质
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN115018999A (zh) 一种多机器人协作的稠密点云地图构建方法及装置
CN110992404A (zh) 目标跟踪方法、装置和系统及存储介质
CN114168768A (zh) 图像检索方法及相关设备
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
CN114387304A (zh) 目标跟踪方法、计算机程序产品、存储介质及电子设备
CN114067371B (zh) 一种跨模态行人轨迹生成式预测框架、方法和装置
CN117011566A (zh) 一种目标检测方法、检测模型训练方法、装置及电子设备
CN116152334A (zh) 图像处理方法及相关设备
CN115994944A (zh) 三维关键点预测方法、训练方法及相关设备
CN114387465A (zh) 图像识别方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination