CN112587129B - 一种人体动作识别方法及装置 - Google Patents

一种人体动作识别方法及装置 Download PDF

Info

Publication number
CN112587129B
CN112587129B CN202011392024.8A CN202011392024A CN112587129B CN 112587129 B CN112587129 B CN 112587129B CN 202011392024 A CN202011392024 A CN 202011392024A CN 112587129 B CN112587129 B CN 112587129B
Authority
CN
China
Prior art keywords
feature vector
feature
inputting
decoding
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011392024.8A
Other languages
English (en)
Other versions
CN112587129A (zh
Inventor
宋波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yingpu Technology Co ltd
Original Assignee
Shanghai Yingpu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yingpu Technology Co ltd filed Critical Shanghai Yingpu Technology Co ltd
Priority to CN202011392024.8A priority Critical patent/CN112587129B/zh
Publication of CN112587129A publication Critical patent/CN112587129A/zh
Application granted granted Critical
Publication of CN112587129B publication Critical patent/CN112587129B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1126Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique
    • A61B5/1128Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb using a particular sensing technique using image analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0033Features or image-related aspects of imaging apparatus classified in A61B5/00, e.g. for MRI, optical tomography or impedance tomography apparatus; arrangements of imaging apparatus in a room
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • A61B5/1121Determining geometric values, e.g. centre of rotation or angular range of movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Abstract

本申请实施例提供的一种人体动作识别方法及装置,该方法包括获取视频片段,对视频片段中的图像帧序列进行特征提取以及降维处理,然后对降维后的特征向量进行编码,将降维特征向量进行扩充,得到预设个数的扩充特征向量;将扩充特征向量和所述编码特征向量输入至三层单层解码器进行解码;将最后一层解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。经过序列到序列的编码和解码过程,能够更加准确的识别出每个人的行为动作标签,提高了人体动作识别的准确性。

Description

一种人体动作识别方法及装置
技术领域
本发明实施例涉及计算机识别技术领域,具体涉及一种人体动作识别方法及装置。
背景技术
近几年,计算机视觉和机器学习的飞速发展,视频分析任务已经从推断当前的状态转变为预测未来状态。基于视频的人体动作识别和预测就是这样的任务,其中动作识别是基于完整的动作执行来推断人类动作的当前状态,动作预测基于不完整的动作执行来预测人类动作的未来状态。由于这两项任务在现实世界中爆炸性地出现,例如智能安防视频监视、人机交互、虚拟现实和医疗监护等领域,因此成为热门的研究方向。
但是,基于深度特征提取的人体动作识别存在如下问题:1)在实际场景下,异常动作发生频率很低,数据收集和标注困难,即无论是常规动作还是异常动作都存在多样且复杂的特点,进而导致类别内的多样性较高和在真实场景下,特别在安防领域,基于深度学习的人体动作识别遇到了较大的挑战。2)在深度特征的提取上,传统的人体动作特征提取模型无法精确并且完整的提取特征信息。在复杂场景下,受到遮挡和摄像头角度等情况的影响,传统的特征提取模型能力弱,算法鲁棒性还需要提升。
发明内容
本发明针对视频中人的行为动作识别,设计了一种新型的序列到序列的编码器-解码器的人体行为动作识别方法及装置。其具体技术方案如下:
根据本发明实施例提供的一种人体动作识别方法,包括步骤:
获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;
对所述视频片段进行隔帧采样,得到多个图像帧序列;
对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;
获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;
将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小等于图像高度乘以图像宽度;预设维度与特征通道数相同;
将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;所述节点的维度与所述分解特征向量的维度相对应,所述节点的个数与所述分解特征向量的个数相对应;
将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;
将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;
将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第三解码特征向量对应矩形框的人体行为动作类别。
进一步的,所述将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量,包括步骤:
将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;
将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;
将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。
进一步的,所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器,包括步骤:
S1将所述扩充特征向量和所述编码特征向量中输入至所述第一单层解码器;
S2每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;
S3将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;
S4将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到第一解码特征向量;
将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,并重复步骤S2-S4,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,并重复步骤S2-S4,得到第三解码特征向量。
进一步的,所述基于区域的目标检测算法采用FasterRCNN算法;所述前馈神经网络特征提取算法采用3D CNN ResNet。
本发明的另一方面提供一种人体动作识别装置,包括:
人体目标检测,用于获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;
采样模块,用于对所述视频片段进行隔帧采样,得到多个图像帧序列;
多层特征提取模块,用于对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;
降维处理模块,用于获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;
分解特征向量模块,用于将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小等于图像高度乘以图像宽度;预设维度与特征通道数相同;
编码特征向量模块,用于将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;
扩充模块,用于将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;
循环解码特征向量模块,用于将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;
分类模块,用于将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第二码特征向量对应矩形框的人体行为动作类别。
进一步的,所述编码器包括:
第一变换特征向量模块,用于将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;
第一反馈特征向量模块,用于将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;
归一化处理模块,用于将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。
进一步的,所述解码器包括:
第二变换特征向量模块,用于将所述扩充特征向量和所述编码特征向量中的每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;
第二反馈特征向量模块,用于将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;
解码特征向量的归一化模块,用于将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到解码特征向量。
进一步的,所述基于区域的目标检测算法采用FasterRCNN算法;所述前馈神经网络特征提取算法采用3D CNN ResNet。
本申请实施例提供的一种人体动作识别方法及装置,该方法包括获取视频片段,对视频片段中的图像帧序列进行特征提取以及降维处理,然后对降维后的特征向量进行编码,得到编码特征向量;将降维特征向量进行扩充,得到预设个数的扩充特征向量;将扩充特征向量和所述编码特征向量输入至三层单层解码器进行解码;将最后一层解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为最后一层解码特征向量对应矩形框的人体行为动作类别。经过序列到序列的编码和解码过程,能够更加准确的识别出每个人的行为动作标签,提高了人体动作识别的准确性。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本申请实施例提供的一种人体动作识别方法的优选实施方式的流程图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供的一种视频与时空信息同步检测方法应用于具有控制和处理功能的设备。
参见图1为本申请实施例提供的一种人体动作识别方法的优选实施方式的流程图,包括步骤:
获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;
对所述视频片段进行隔帧采样,得到多个图像帧序列;
对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;
获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;
将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小等于图像高度乘以图像宽度;预设维度与特征通道数相同;
将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;所述节点的维度与所述分解特征向量的维度相对应,所述节点的个数与所述分解特征向量的个数相对应;
将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;
将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;
将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第三解码特征向量对应矩形框的人体行为动作类别。
上述节点的维度与所述分解特征向量的维度相对应,所述节点的个数与所述分解特征向量的个数相对应;比如m个512维特征向量输入至编码器的各节点,则每个节点对应一个512维的特征向量。
上述末层特征图是指对图像帧序列采用前馈神经网络特征提取算法进行多层特征提取后,神经网络最后一层网络进行特征提取后得到的特征图,此特征图中的特征向量最能全面反映图像帧特征。众所周知神经网络是有多层的,在前馈神经网络中,至少存在3层,即输入层,中间层和输出层,网络的层数会随着具体要求的不同而不同。
上述降维特征向量是指人体特征向量采用降维处理后得到的特征向量。上述分解特征向量是指将降维特征向量经过分解处理后得到的特征向量。上述第一解码特征向量是指经过第一次解码操作得到的特征向量;上述扩充特征向量是指经过扩充处理后得到的特征向量。
本发明对图像帧序列特征提取后进行降维、分解和扩充后对特征向量进行算法运算,使得特征向量更能体现图像帧序列的所有特性;然后再对特征向量经过序列到序列的编码和解码过程,能够更加准确的识别出每个人的行为动作标签,提高了人体动作识别的准确性。
进一步的,所述将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量,包括步骤:
将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;
将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;
将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。
进一步的,所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器,包括步骤:
S1将所述扩充特征向量和所述编码特征向量中输入至所述第一单层解码器;
S2每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;
S3将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;
S4将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到第一解码特征向量;
将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,并重复步骤S2-S4,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,并重复步骤S2-S4,得到第三解码特征向量。
进一步的,所述基于区域的目标检测算法采用FasterRCNN算法;所述前馈神经网络特征提取算法采用3D CNN ResNet。
本申请实施例提供的一种人体动作识别方法,该方法包括获取视频片段,对视频片段中的图像帧序列进行特征提取以及降维处理,然后对降维后的特征向量进行解码,将降维特征向量进行扩充,得到预设个数的扩充特征向量;将扩充特征向量和所述编码特征向量输入至三层单层解码器进行解码;将最后一层解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第二码特征向量对应矩形框的人体行为动作类别。经过序列到序列的编码和解码过程,能够更加准确的识别出每个人的行为动作标签,提高了人体动作识别的准确性。
下面以一个具体的例子来对本申请的技术方案进行详细的介绍,针对64帧的视频片段,识别出每个人的行为动作标签。行为动作标签可以根据实际情况选择,该方法是通用的行为动作识别方法。
具体流程:
1、输入64帧视频片段。针对第32帧图片,通过FasterRCNN进行人体检测,得到该帧中每个人的检测框,记为bbox_f_p1,bbox_f_p2,……
bbox_f_pn,其中n为图片中人的最大数量。
2、针对输入的64帧视频片段,隔帧采样,得到32帧图片序列,作为特征提取网络BP的输入。BP选取3D CNN ResNet
3、使用BP对32帧图像序列进行特征提取,获取最后一层特征图,维度为(C,T,H,W),其中,C为特征通道数,T为时间维度,仍然保持32,H为卷积后图像高度,W为卷积后图像宽度。针对每个空间位置的每个特征通道,对所有时间维度的特征值求平均,得到维度为(C,H,W)的特征图last_feat_map。针对n个人的人体检测框,提取出last_feat_map对应的每个人的特征向量bbox_f_pj_feat,j表示第j个人,得到n个C维特征向量,通常C要大于512,因此通过降维操作将n个C维特征向量变换为n个512维特征向量。
4、将维度为(C,H,W)的特征图last_feat_map,分解为HxW个C维特征向量,记HxW为m。通常C要大于512,因此通过降维操作将m个C维特征向量变换为m个512维特征向量。
5、将m个512维特征向量输入到单层encoder,每个特征向量输入到encoder的一个节点,encoder共m个输入节点。单层encoder如下所述:
1>每个特征向量通过3个变换矩阵变换为3个特征向量Q,K,V,得到共3xm个特征向量Qi,Ki,Vi(i从1到m)
2>将以上得到的3xm个特征向量输入multi-head attention层,得到m个512维向量
3>将2>得到的m个向量与encoder输入的m个向量相加,得到m个512维向量
4>针对3>得到的m个512维向量,做LayerNorm运算,得到归一化的m个512维向量
5>针对4>得到的m个向量,将每个向量输入2层全连接前馈网络,得到m个512维向量。其中,m个向量共享一个前馈网络
6>将5>和4>得到的m个向量相加,并对相加后的m个向量做LayerNorm运算,得到归一化的m个512维向量,记为encoder_feat_i
(i从1到m)
6、将4中得到的n个512维特征向量扩充为k个512维特征向量,扩充的向量以0填充。其中k为固定值,代表某个应用场景下可能出现的最大人数。可根据具体应用场景设定,这里设定为16。
7、将7中得到的k个512维向量,或者每个decoder层输出的k个512维向量,记为person_feat_j(j从1到k),连同6中得到的m个向量encoder_feat_i(i从1到m),输入decoder层,该方法共设置3个decoder层。单层decoder如下所述。
1>将k个向量person_feat_j中的每个特征向量通过3个变换矩阵变换为3个特征向量Q,K,V,得到共3xk个特征向量Qj,Kj,Vj(j从1到k)
2>将以上得到的3xk个特征向量输入multi-head attention层,得到k个512维向量
3>将2>得到的k个向量与该层decoder输入的k个向量相加,得到k个512维向量
4>针对3>得到的k个512维向量,做LayerNorm运算,得到归一化k个512维向量
5>将4得到的k个向量中的每个向量通过变换矩阵变为向量Q,将m个向量encoder_feat_i中的每个向量通过2个不同的变换矩阵变为K,V。总共得到2xm+k个向量,记为Qj(j从1到k),Ki,Vi(i从1到m)。
6>将5得到的Q,K,V输入multi-head attention层,得到k个512维向量
7>将6>得到的k个向量与4得到的k个向量相加,得到k个512维向量
8>针对7>得到的k个512维向量,做LayerNorm运算,得到归一化k个512维向量
9>针对8>得到的k个向量,将每个向量输入2层全连接前馈网络,得到k个512维向量。其中,k个向量共享一个前馈网络
10>将9>和8>得到的k个向量相加,并对相加后的k个向量做LayerNorm运算,得到归一化的k个512维向量,作为每个decoder层输出的k个512维向量,同时作为下一个decoder层的输入
8、针对最后一个decoder层输出的k个512维向量,将每个向量输入单层全连接前馈网络,该前馈网络的输出为L个类别的预测值,其中L行为动作标签的类别数。再将L个预测值输入softmax,得到L个类别的预测概率,选取最大概率值对应的类别作为该向量对应矩形框的人的行为动作类别。其中,每个向量共享一个前馈网络。由该步骤,最终得到k个矩形框对应的人的行为动作类别,再去掉7中扩充的0向量对应的类别,得到真正的n个矩形框对应的人的行为动作类别。
本申请的另一方面提供一种人体动作识别装置,包括:
人体目标检测,用于获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;
采样模块,用于对所述视频片段进行隔帧采样,得到多个图像帧序列;
多层特征提取模块,用于对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;
降维处理模块,用于获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;
分解特征向量模块,用于将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小等于图像高度乘以图像宽度;预设维度与特征通道数相同;
编码特征向量模块,用于将所述分解特征向量输入到编码器的节点进行解码,得到编码特征向量;
扩充模块,用于将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;
解码特征向量模块,用于将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;
分类模块,用于将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第二码特征向量对应矩形框的人体行为动作类别。
进一步的,所述编码特征向量模块包括:
第一变换特征向量模块,用于将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;
第一反馈特征向量模块,用于将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;
归一化处理模块,用于将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。
进一步的,所述解码特征向量模块包括:
第二变换特征向量模块,用于将所述扩充特征向量和/或所述第一解码特征向量中的每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;
第二反馈特征向量模块,用于将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;
解码特征向量的归一化模块,用于将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到解码特征向量。
进一步的,所述基于区域的目标检测算法采用FasterRCNN算法;所述前馈神经网络特征提取算法采用3D CNN ResNet。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种人体动作识别方法,其特征在于,包括步骤:
获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;
对所述视频片段进行隔帧采样,得到多个图像帧序列;
对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;
获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;
将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小等于图像高度乘以图像宽度;预设维度与特征通道数相同;
将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;所述节点的维度与所述分解特征向量的维度相对应,所述节点的个数与所述分解特征向量的个数相对应;
将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;
将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;
将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第三解码特征向量对应矩形框的人体行为动作类别。
2.根据权利要求1所述的一种人体动作识别方法,其特征在于,所述将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量,包括步骤:
将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;
将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;
将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。
3.根据权利要求1所述的一种人体动作识别方法,其特征在于,所述将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器,包括步骤:
S1将所述扩充特征向量和所述编码特征向量中输入至所述第一单层解码器;
S2每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;
S3将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;
S4将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到第一解码特征向量;
将所述第一解码特征向量和所述扩充特征向量输入至第二单层解码器,并重复步骤S2-S4,得到第二解码特征向量;将所述第二解码特征向量和所述扩充特征向量输入至第三单层解码器,并重复步骤S2-S4,得到第三解码特征向量。
4.根据权利要求1所述的一种人体动作识别方法,其特征在于,所述基于区域的目标检测算法采用FasterRCNN算法;所述前馈神经网络特征提取算法采用3D CNN ResNet。
5.一种人体动作识别装置,其特征在于,包括:
人体目标检测,用于获取预设帧数的视频片段,对所述视频片段中的中间帧采用基于区域的目标检测算法进行人体目标检测,得到所述中间帧的多个人体检测框;
采样模块,用于对所述视频片段进行隔帧采样,得到多个图像帧序列;
多层特征提取模块,用于对所述图像帧序列采用前馈神经网络特征提取算法进行多层特征提取,得到所述图像帧序列对应的特征图;
降维处理模块,用于获取所述特征图中的末层特征图,针对检测出的所述人体检测框,对所述末层特征图中的所述人体检测框对应的人体特征向量进行降维处理,得到降维特征向量;其中,降维后的特征向量的维度包括特征通道数、图像高度、图像宽度;
分解特征向量模块,用于将所述降维特征向量分解为预设大小和预设维度的分解特征向量,所述特征向量的预设大小等于图像高度乘以图像宽度;预设维度与特征通道数相同;
编码特征向量模块,用于将所述分解特征向量输入到编码器的节点进行编码,得到编码特征向量;
扩充模块,用于将所述降维特征向量进行扩充,得到预设个数的扩充特征向量;其中,所述预设个数为某个应用场景下出现的总人数;
循环解码特征向量模块,用于将所述扩充特征向量和所述编码特征向量输入至第一单层解码器进行解码,得到第一解码特征向量;将所述第一解码特征向量和所述编码特征向量输入至第二单层解码器,得到第二解码特征向量;将所述第二解码特征向量和所述编码特征向量输入至第三单层解码器,得到第三解码特征向量;其中,所述第一单层解码器、第二单层解码器、第三单层解码器均为相同的解码器;
分类模块,用于将所述第三解码特征向量输入至单层全连接前馈网络进行计算,得到多个预测值;再将所述预测值输入至逻辑回归模型,得到对应的预测概率,选取最大概率值对应的类别作为第二码特征向量对应矩形框的人体行为动作类别。
6.根据权利要求5所述的一种人体动作识别装置,其特征在于,所述编码器包括:
第一变换特征向量模块,用于将所述分解特征向量中的每个特征向量通过3个变换矩阵变换为3个第一变换特征向量;
第一反馈特征向量模块,用于将所述第一变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第一反馈特征向量;
归一化处理模块,用于将所述第一反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到编码特征向量。
7.根据权利要求5所述的一种人体动作识别装置,其特征在于,所述解码器包括:
第二变换特征向量模块,用于将所述扩充特征向量和所述编码特征向量中的每个特征向量通过3个变换矩阵变换为3个第二变换特征向量;
第二反馈特征向量模块,用于将所述第二变换特征向量输入至多层前反馈网络进行计算,得到与所述分解特征向量个数和位数均相同的第二反馈特征向量;
解码特征向量的归一化模块,用于将所述第二反馈特征向量与所述分解特征向量相加后,采用归一化算法进行处理,并将处理后的归一化特征向量的每个向量输入2层全连接前馈网络后,与所述归一化特征向量相加,再将相加后的特征向量做归一化处理,得到解码特征向量。
8.根据权利要求5所述的一种人体动作识别装置,其特征在于,所述基于区域的目标检测算法采用FasterRCNN算法;所述前馈神经网络特征提取算法采用3D CNN ResNet。
CN202011392024.8A 2020-12-01 2020-12-01 一种人体动作识别方法及装置 Active CN112587129B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011392024.8A CN112587129B (zh) 2020-12-01 2020-12-01 一种人体动作识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011392024.8A CN112587129B (zh) 2020-12-01 2020-12-01 一种人体动作识别方法及装置

Publications (2)

Publication Number Publication Date
CN112587129A CN112587129A (zh) 2021-04-02
CN112587129B true CN112587129B (zh) 2024-02-02

Family

ID=75187772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011392024.8A Active CN112587129B (zh) 2020-12-01 2020-12-01 一种人体动作识别方法及装置

Country Status (1)

Country Link
CN (1) CN112587129B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657460A (zh) * 2021-07-28 2021-11-16 上海影谱科技有限公司 一种基于Boosting的属性识别方法及装置
WO2023050433A1 (zh) * 2021-09-30 2023-04-06 浙江大学 视频编解码方法、编码器、解码器及存储介质
CN115690917B (zh) * 2023-01-04 2023-04-18 南京云创大数据科技股份有限公司 一种基于外观和运动智能关注的行人动作识别方法
CN116824116A (zh) * 2023-06-26 2023-09-29 爱尔眼科医院集团股份有限公司 一种超广角眼底影像识别方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
WO2019091417A1 (zh) * 2017-11-09 2019-05-16 清华大学 基于神经网络的识别方法与装置
CN110427807A (zh) * 2019-06-21 2019-11-08 诸暨思阔信息科技有限公司 一种时序事件动作检测方法
WO2020119527A1 (zh) * 2018-12-11 2020-06-18 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN112001324A (zh) * 2020-08-25 2020-11-27 北京影谱科技股份有限公司 篮球比赛视频的球员动作识别方法、装置和设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609460A (zh) * 2017-05-24 2018-01-19 南京邮电大学 一种融合时空双重网络流和attention机制的人体行为识别方法
WO2019091417A1 (zh) * 2017-11-09 2019-05-16 清华大学 基于神经网络的识别方法与装置
WO2020119527A1 (zh) * 2018-12-11 2020-06-18 中国科学院深圳先进技术研究院 人体动作识别方法、装置、终端设备及存储介质
CN110427807A (zh) * 2019-06-21 2019-11-08 诸暨思阔信息科技有限公司 一种时序事件动作检测方法
CN111460926A (zh) * 2020-03-16 2020-07-28 华中科技大学 一种融合多目标跟踪线索的视频行人检测方法
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112001324A (zh) * 2020-08-25 2020-11-27 北京影谱科技股份有限公司 篮球比赛视频的球员动作识别方法、装置和设备

Also Published As

Publication number Publication date
CN112587129A (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN112587129B (zh) 一种人体动作识别方法及装置
Cho et al. Self-attention network for skeleton-based human action recognition
Ma et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition
Han et al. Video representation learning by dense predictive coding
CN112800894B (zh) 一种基于时空流间注意力机制的动态表情识别方法及系统
Ullah et al. One-shot learning for surveillance anomaly recognition using siamese 3d cnn
Mishra et al. A novel image watermarking scheme using extreme learning machine
CN111523378B (zh) 一种基于深度学习的人体行为预测方法
CN113158723A (zh) 一种端到端的视频动作检测定位系统
KR20180123810A (ko) X-Ray 의료 영상 판독을 위한 데이터 심화학습 처리 기술 및 그 방법
Ullah et al. Vision transformer attention with multi-reservoir echo state network for anomaly recognition
CN114913465A (zh) 一种基于时序注意力模型的动作预测方法
Naeem et al. T-VLAD: Temporal vector of locally aggregated descriptor for multiview human action recognition
CN114973097A (zh) 电力机房内异常行为识别方法、装置、设备及存储介质
Fu et al. Learned image compression with gaussian-laplacian-logistic mixture model and concatenated residual modules
CN117315293A (zh) 一种基于Transformer的时空上下文目标跟踪方法及系统
Tan et al. Enhanced AlexNet with super-resolution for low-resolution face recognition
CN114120076A (zh) 基于步态运动估计的跨视角视频步态识别方法
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
Amintoosi et al. QR decomposition-based algorithm for background subtraction
CN111432208B (zh) 一种利用神经网络确定帧内预测模式的方法
CN111062315A (zh) 2d和3d混合行为识别方法
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
Bhargava et al. A comprehensive study and detection of anomalies for autonomous video surveillance using neuromorphic computing and self learning algorithm
Ding A detachable lstm with residual-autoencoder features method for motion recognition in video sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant