CN115690917B

CN115690917B - 一种基于外观和运动智能关注的行人动作识别方法

Info

Publication number: CN115690917B
Application number: CN202310005505.6A
Authority: CN
Inventors: 刘鹏; 张真; 张堃; 王美民; 江兴斌
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-18
Anticipated expiration: 2043-01-04
Also published as: CN115690917A

Abstract

本发明公开了一种基于外观和运动智能关注的行人动作识别方法，该识别方法包括以下步骤：S1、获取视频解码后的图像序列，并对图像序列进行预处理，获取特征序列；S2、对特征序列进行固定位置编码，获取特征向量序列；S3、利用编码器对特征向量数列进行特征编码及特征转换，获取最终的特征序列；S4、对最终的特征序列进行自适应注意力计算，并适应对不同场景的行为识别；S5、对最终的特征序列进行融合及输出，并对输出的融合特征进行最终行为分类。本发明能够通过自注意力的技术进行智能适应行为识别，具有更强的泛化能力，比现有的动作识别方法具有更加多样的应用场景。

Description

一种基于外观和运动智能关注的行人动作识别方法

技术领域

本发明涉及动作识别技术领域，具体来说，涉及一种基于外观和运动智能关注的行人动作识别方法。

背景技术

随着视频监控在社会生产，人民日常生活中扮演着越来越重要的地位，利用深度学习技术进行视频理解的需求也日益复杂，其中，以人为核心的行为识别是视频理解任务中的重要组成部分。

近年来，随着深度神经网络技术的发展，尤其是CNN（卷积神经网络）和Transformer的网络出现，对视频特征的提取从传统的HOG，SIFT特征发展为深度抽象特征，这种特征虽然不易被解释，但有着更加鲁棒性的优越性，总体上，基于深度学习的行为识别算法分为两大类，分别是基于光流特征的行为识别和基于人体骨骼点序列的行为识别方法；

这些方法在一些标准的实验数据集上表现出不错的效果，例如UCF101数据集，但是这两类方法都有各自针对的场景，无法适用于现实中复杂的场景，例如铁路、机场等安保场景，这些场景的复杂主要表现为行人外观复杂、光照和场景中物体运动复杂等。具体来说，行人的一些行为识别需求往往是多样的，例如，需要检测行人是否在喝水、抽烟、饮食等，这需要强烈地关注视频的外观表现，而运动表现是辅助的；若需要检测行人是否摔倒、挥手、点赞等，这些和视频的外观信息表现为弱相关，我们只需要通过人的骨骼点位置变化即可判断行为事件是否发生。除了行为检测需求的差异外，还有就是场景的复杂变化，例如在一些机场等光照条件稳定、摄像头不发生移动的环境下，可以通过光流信息进行行为识别，而在高速运行的列车上，光流信息会极大的干扰行为识别的效果，甚至此环境下并不满足光流的提取条件。

综上所述，目前随着现实需求的不断提高，仅仅满足一些实验数据集上的行为识别算法在世纪场景中并不能满足需求，需要提出一个能够更加适用于实际应用场景下的端到端的行为识别算法。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于外观和运动智能关注的行人动作识别方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于外观和运动智能关注的行人动作识别方法，该识别方法包括以下步骤：

S1、获取视频解码后的图像序列，并对图像序列进行预处理，获取特征序列；

S2、对特征序列进行固定位置编码，获取特征向量序列；

S3、利用编码器对特征向量数列进行特征编码及特征转换，获取最终的特征序列；

S4、对最终的特征序列进行自适应注意力计算，并适应对不同场景的行为识别；

S5、对最终的特征序列进行融合及输出，并对输出的融合特征进行最终行为分类。

进一步的，所述获取视频解码后的图像序列，并对图像序列进行预处理，获取特征序列包括以下步骤：

S11、获取行人动作视频，并对行人动作视频进行解码，得到图像序列；

S12、利用外观信息提取模块对图片序列中的图片进行特征提取，获取特征图集合；

S13、利用光流信息提取模块对相邻的视频帧进行初步特征提取，并通过解码器获取光流场；

S14、利用人体骨骼点提取模块对图片序列中的图片进行特征提取，获取人体骨骼点图序列。

进一步的，所述利用光流信息提取模块提取的视频帧进行初步特征提取，并通过解码器获取光流场包括以下步骤：

S131、利用CNN对两张相邻的视频帧进行初步特征提取；

S132、通过单次互相关操作进行高维特征融合，并提取更加细粒度的特征；

S133、利用FlowNetC解码器将相邻的两帧图像输入，并获取光流场图像。

进一步的，所述单次互相关操作的表达式为：

式中， o表示卷积核窗口大小；

k表示卷积核大小；

x _1， x ₂表示初步CNN，即函数𝑓提取的特征向量。

进一步的，所述对特征序列进行固定位置编码，获取特征向量序列包括以下步骤：

S21、利用固定位置编码方法将输入视觉词的绝对位置编码到最大序列长度；

S22、将编码向量与输入视觉词组合，并输入位置信息；

S23、对输出特征序列添加线性变换层，并采用卷积和池化进行降维和向量维度对齐，得到特征向量序列。

进一步的，所述利用编码器对特征向量序列进行特征编码及特征转换，获取最终的特征序列包括以下步骤：

S31、将特征向量序列输入到Video Swin Transformer编码器中进行编码；

S32、将特征向量序列中的特征经过线性变换矩阵，并进一步提取信息；

S33、获取查询矩阵、关键词矩阵及值矩阵，并进行自注意力计算；

S34、对自注意力计算进行偏置修正；

S35、将特征向量序列按照指定的窗口大小进行切分，在指定的窗口内进行自注意力计算。

进一步的，所述对自注意力计算进行偏置修正的计算公式为：

式中，β表示修正偏置向量；

Q表示查询矩阵；

K表示关键词矩阵；

U表示置矩阵；

d表示特征序列的维度。

进一步的，所述对最终的特征序列进行自适应注意力计算的计算公式为：

式中，、及均表示可学习的权重参数；

App表示外观信息；

Opt表示光流信息；

Kpt表示人体骨骼点信息。

进一步的，所述对最终的特征序列进行融合及输出，并对输出的融合特征进行最终行为分类包括以下步骤：

S51、对最终的特征序列进行融合；

S52、利用参数矩阵及偏置向量对特征融合的输出进行线性变换，并利用非线性激活函数进行非线性变换；

S53、通过Soft-max函数进行概率分布输出；

S54、将输出的融合特征输入到全连接网络进行最终分类，得到概率分布。

进一步的，所述将输出的融合特征输入到全连接网络进行最终分类，得到概率分布的表达式为：

式中， W表示参数矩阵，其中， W∈ R ^{n×
c}， b∈ R ⁿ；

b表示偏置向量；

ReLU表示非线性激活函数；

f _out表示特征融合的输出。

本发明的有益效果为：

1、本发明首先获取视频解码后的图片序列，并分别利用外观信息提取模块及信息提取模块进行初步信息提取，然后将得到的特征序列分别通过Video Swin Transforme编码器进行特征转换和特征编码，最后通过一个整体的基于注意力机制的特征融合模块进行特征融合和行为识别分类，从而能够通过自注意力的技术进行智能适应行为识别，具有更强的泛化能力，比现有的动作识别方法具有更加多样的应用场景。

2、本发明采用HigherHRNet人体姿态估计器能够在训练方面具有多分辨率监督，在推理方面具有多分辨率聚合功能，能够较好地解决自底向上多人姿态估计中的尺度变化挑战，并能更精确地定位关键点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于外观和运动智能关注的行人动作识别方法的流程图；

图2是根据本发明实施例的一种基于外观和运动智能关注的行人动作识别方法的原理框图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

根据本发明的实施例，提供了一种基于外观和运动智能关注的行人动作识别方法。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的基于外观和运动智能关注的行人动作识别方法，该识别方法包括以下步骤：

其中，所述获取视频解码后的图像序列，并对图像序列进行预处理，获取特征序列包括以下步骤：

具体的，在对行人动作视频解码后得到图像序列 V={ I ₁， I ₂，⋯， I _n}，其中 n约为25-60左右， I _i表示视频中的第 i帧解码后的图片， i=1，2，⋯， n，将该图片序列经过外观信息提取模块、光流信息提取模块及人体骨骼点提取模块进行处理。

具体的，外观信息提取模块是一个2D-CNN骨架，例如ResNet，VGG等，其表达式为：

其中，表示CNN神经网路计算过程函数，和函数f（x）=x2+1中的f含义相同；表示输出类型；R表示实数域，Rn表示n维实数向量；表示实数张量，其中维度为H×W×3；其表示的是一张RGB彩色图片，所以函数的输入为一张彩色图片，输出的是一个高为h，宽为w，颜色通道数为c的高维张量，称为特征图；

该2D-CNN骨架对图片序列中的每个图片进行特征提取，得到一个特征序列，其中根据上述的表达，一个视频表示为V={I1，I2，⋯，In}，即n张图片序列，每张图片通过CNN得到一个特征图，将这些特征图收集得到特征图集合，其表达式如下：

式中，表示CNN神经网路计算过程函数；

表示特征图集合；

I _i表示视频中的第 i帧解码后的图片，其中， i=1，2，⋯， n。

具体的，光流信息提取模块采用FlowNetC进行提取，FlowNetC是一个孪生网络，将相邻的两帧图像输入得到一张光流场图，两张相邻的视频帧先通过CNN进行初步特征提取，随后利用单次互相关操作进行高维特征融合，提取更加细粒度的特征，最后通过解码器得到光流场 L。

其中，所述利用光流信息提取模块提取的视频帧进行初步特征提取，并通过解码器获取光流场包括以下步骤：

S131、利用CNN对两张相邻的视频帧进行初步特征提取；

其中，所述单次互相关操作的表达式为：

式中， o表示卷积核窗口大小；

k表示卷积核大小；

x _1， x ₂表示初步CNN，即函数𝑓提取的特征向量。

具体的，为内积操作，该操作相当于一次卷积操作，且卷积核为单位矩阵，因此该操作不需要任何参数。

S133、利用FlowNetC解码器将相邻的两帧图像输入，并获取光流场图像；

S14、利用人体骨骼点提取模块对图片序列中的图片进行特征提取，获取人体骨骼点图序列；

具体的，人体骨骼点信息提取模块采用基于HigherHRNet人体姿态估计器，其表示一种自下而上（Bottom-up）的人体姿态估计方法。该方法在训练方面具有多分辨率监督，在推理方面具有多分辨率聚合功能，能够较好地解决自底向上多人姿态估计中的尺度变化挑战，并能更精确地定位关键点，特别是对小人物；

HigherHRNet人体姿态估计器中的特征金字塔由HRNet的特征映射输出和通过转置卷积的上采样高分辨率输出组成，通过HigherHRNet人体姿态估计器对图片序列的每一张图片进行特征提取，得到一个人体骨骼点图序列 K。

如图2所示，通过外观信息提取模块、光流信息提取模块及人体骨骼点提取模块分别提取到的三类特征信息拥有相同的序列长度，也分别代表了三种不同角度的视频信息，然而这些信息是先验的、离散的和孤立的。

S2、对特征序列进行固定位置编码，获取特征向量序列；

其中，所述对特征序列进行固定位置编码，获取特征向量序列包括以下步骤：

S22、将编码向量与输入视觉词组合，并输入位置信息；

S23、对输出特征序列添加线性变换层，并采用卷积和池化进行降维和向量维度对齐，得到特征向量序列；

具体的，由于视频天然具有时序性，无需特殊的词化操作，而仅需要对视频中的特征序列进行位置编码即可，在Transformer技术领域，位置编码主要分为两类，固定位置编码和相对位置编码，固定位置编码方法将输入视觉词的绝对位置从1编码到最大序列长度 n，也就是说，每个位置都有单独的编码向量，然后将编码向量与输入视觉词组合，以将位置信息输入给模型；

相对位置方法对输入视觉词之间的相对距离进行编码，并学习视觉词之间的成对关系，相对位置编码通常通过具有与自注意力模块中的查询向量和关键词向量交互的可学习参数的查询表来计算，这样的方案允许模块捕获视觉词之间非常长的依赖关系。

由于大量文献证明，在Transformer领域中的相对位置编码所得到的效果仍然存在一定的争议，因此对外观信息提取模块、光流信息提取模块及人体骨骼点提取模块三个模块得到的特征向量一致采用固定位置编码，其表达式为：

式中，表示位置向量的维度；

i表示位置向量的第 i个元素。

其中，为了统一向量长度，每个模块的输出特征序列后会添加一个线性变换层，以对其向量维度，特别的，对于外观信息和光流信息，本发明采用卷积和池化进行降维和向量维度对齐，通过三个外观提取模块得到的特征表达式分别为：

其中，、及∈ R ^m；

App表示Appearance，即外观信息；

Opt表示Optical，即光流信息；

Kpt表示Keypoint，及人体骨骼点信息。

其中，所述利用编码器对特征向量序列进行特征编码及特征转换，获取最终的特征序列包括以下步骤：

具体的，特征图序列 v∈R^{n×
h×
w×
c}，这些特征序列可以视作一个“视频”，即一个3D特征图，在经过第二步的固定位置编码后，得到一个96维的特征向量序列，将96维的特征向量序列输入到Video Swin Transformer编码模块；

Video Swin Transformer编码模块分为两个步骤进行编码，分别是3D W-MSA和3DSW-MSA，这两个编码步骤中的核心是一个多头注意力机制（Multi-head Self-Attention，MSA），其具体流程为：

S32、将特征向量序列中的特征经过线性变换矩阵，，，并进一步提取信息得到，，；

S33、获取查询矩阵 Q=[ q ₁， q ₂，⋯， q _n]、关键词矩阵 K=[ k ₁， k ₂，⋯， k _n]及值矩阵 U=[ u ₁， u ₂，⋯， u _n]，并进行自注意力（Attention）计算，其计算公式为：

S34、对自注意力计算进行偏置修正；

其中，所述对自注意力计算进行偏置修正的计算公式为：

式中，β表示修正偏置向量；

Q表示查询矩阵；

K表示关键词矩阵；

U表示置矩阵；

d表示特征序列的维度，其中， d=96。

具体的，添加该偏执向量的原因是输入的序列信息是2D或3D的，而不是自然语言领域中的1D信号，所以经过位置编码后，自注意力的相关性会发生偏差，例如对于2D特征，第一行的最后一个窗口和下一行第一个窗口之间在位置信息上是相邻的，但是对于先验知识，我们知道特征有空间相关性，因此需要进行一定的修正，在3D环境中，由于时间维度的存在，发生这样的现象更加严重，例如，第 i帧的最后一个窗口和第 i+1帧第一个窗口之间在位置编码中是相邻的，但是实际的相关性非常低，因此加上该修正项是非常必要的。

S35、将特征向量序列按照指定的窗口大小进行切分，在指定的窗口内进行自注意力计算；

具体的，3D W-MSA模块表示在降低全局注意力的计算成本，在Swin Transformer中，W-MSA是将特征序列按照指定的窗口大小进行切分，在指定的窗口内进行自注意力计算。本发明中的3D W-MSA对于时域上就行扩张，形成的是一个立方体窗口，并对此窗口内的视觉词进行自注意力计算。3D SW-MSA模块是对3D W-MSA模块中的不同窗口进行跨窗口注意力，弥补3D W-MSA的局部注意力的局限性。

其中，所述对最终的特征序列进行自适应注意力计算的计算公式为：

式中，、及均表示可学习的权重参数；

App表示Appearance，即外观信息；

Opt表示Optical，即光流信息；

Kpt表示Keypoint，即人体骨骼信息。

具体的，基于上述S1、S2及S3步骤分别得到了比较具有表征特性和泛化能力的三种视频特征信息，分别是外观信息，光流信息及人体骨骼点信息，对这三种信息进行自适应注意力，以应对不同场景下的行为识别。

S5、对最终的特征序列进行融合及输出，并对输出的融合特征进行最终行为分类；

其中，所述对最终的特征序列进行融合及输出，并对输出的融合特征进行最终行为分类包括以下步骤：

S51、对最终的特征序列进行融合，其计算公式为：

式中， fout表示特征融合的输出；

i表示位置向量的第 i个元素；

n表示最大序列长度。

S53、通过Soft-max函数进行概率分布输出；

S54、将输出的融合特征输入到全连接网络进行最终分类，得到概率分布；

其中，所述将输出的融合特征输入到全连接网络进行最终分类，得到概率分布的表达式为：

式中， W表示参数矩阵，其中， W∈ R ^{n×
c}， b∈ R ⁿ；

b表示偏置向量；

ReLU表示非线性激活函数；

f _out表示特征融合的输出。

具体的，特征融合的输出为 f _out，通过参数矩阵 W和偏置向量 b进行线性变换，随后通过非线性激活函数ReLU（x）=max{0，x}进行非线性变换，最后通过Soft-max函数进行概率分布输出，对输出的融合特征进行输入到全连接网络进行最终分类，得到概率分布。

综上所述，借助于本发明的上述技术方案，本发明首先获取视频解码后的图片序列，并分别利用外观信息提取模块及信息提取模块进行初步信息提取，然后将得到的特征序列分别通过Video Swin Transforme编码器进行特征转换和特征编码，最后通过一个整体的基于注意力机制的特征融合模块进行特征融合和行为识别分类，从而能够通过自注意力的技术进行智能适应行为识别，具有更强的泛化能力，比现有的动作识别方法具有更加多样的应用场景；本发明采用HigherHRNet人体姿态估计器能够在训练方面具有多分辨率监督，在推理方面具有多分辨率聚合功能，能够较好地解决自底向上多人姿态估计中的尺度变化挑战，并能更精确地定位关键点。

此外，当前的行为分析识别需求通常被分为两类，一类是行人本身的动作识别，例如跳跃、行走、挥手等，这些行为不依赖于外界的物体；另一类行为识别需求是对行人以外的物体产生关联，例如喝水饮食需要实际的物体进行支撑，弹琴需要琴进行支持该行为的发生，这一类的行为分析需求有时候是在一个固定的场景中发生的，有的时候是在运动的场景中发生的，比如摄像头在飞速的移动等场景，根据以上两个大类的场景，进行动作识别需要关注视频图像本身的信息、行人的动作信息及光流信息。本发明能够通过自注意力的技术进行智能适应行为识别，具有更强的泛化能力，比现有的动作识别方法具有更加多样的应用场景。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于外观和运动智能关注的行人动作识别方法，其特征在于，该识别方法包括以下步骤：

S2、对特征序列进行固定位置编码，获取特征向量序列；

所述对最终的特征序列进行自适应注意力计算的计算公式为：

；

式中，、及均表示可学习的权重参数；

App表示外观信息；

Opt表示光流信息；

Kpt表示人体骨骼点信息；

所述对最终的特征序列进行融合及输出，并对输出的融合特征进行最终行为分类包括以下步骤：

S51、对最终的特征序列进行融合；

S53、通过Soft-max函数进行概率分布输出；

所述将输出的融合特征输入到全连接网络进行最终分类，得到概率分布的表达式为：

；

式中，W表示参数矩阵，其中，W∈R ^n×c，b∈R ⁿ；

b表示偏置向量；

ReLU表示非线性激活函数；

f _out表示特征融合的输出。

2.根据权利要求1所述的一种基于外观和运动智能关注的行人动作识别方法，其特征在于，所述获取视频解码后的图像序列，并对图像序列进行预处理，获取特征序列包括以下步骤：

3.根据权利要求2所述的一种基于外观和运动智能关注的行人动作识别方法，其特征在于，所述利用光流信息提取模块提取的视频帧进行初步特征提取，并通过解码器获取光流场包括以下步骤：

S131、利用CNN对两张相邻的视频帧进行初步特征提取；

4.根据权利要求3所述的一种基于外观和运动智能关注的行人动作识别方法，其特征在于，所述单次互相关操作的表达式为：

；

式中，o表示卷积核窗口大小；

k表示卷积核大小；

x _1， x ₂表示初步CNN。

5.根据权利要求4所述的一种基于外观和运动智能关注的行人动作识别方法，其特征在于，所述对特征序列进行固定位置编码，获取特征向量序列包括以下步骤：

S22、将编码向量与输入视觉词组合，并输入位置信息；

6.根据权利要求5所述的一种基于外观和运动智能关注的行人动作识别方法，其特征在于，所述利用编码器对特征向量数列进行特征编码及特征转换，获取最终的特征序列包括以下步骤：

S34、对自注意力计算进行偏置修正；

7.根据权利要求6所述的一种基于外观和运动智能关注的行人动作识别方法，其特征在于，所述对自注意力计算进行偏置修正的计算公式为：

；

式中，β表示修正偏置向量；

Q表示查询矩阵；

K表示关键词矩阵；

U表示置矩阵；

d表示特征序列的维度。