CN111062355A

CN111062355A - 一种人体动作识别方法

Info

Publication number: CN111062355A
Application number: CN201911362989.XA
Authority: CN
Inventors: 高朋; 许野平; 刘辰飞; 陈英鹏; 张朝瑞; 席道亮
Original assignee: Synthesis Electronic Technology Co Ltd
Current assignee: Synthesis Electronic Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-04-24
Also published as: WO2021129569A1

Abstract

本发明公开一种人体动作识别方法，本方法首先对图像进行构建最小邻域和滤波的预处理，然后进行图像通道变换、目标轮廓增强和提取差分图像，对前景图像进行阈值处理和前景图处理，最后基于三维卷积网络，进行模型训练或动作识别及动作定位。本方法解决现有动作识别方法中，模型在大场景、小目标、复杂背景下，检测精度下降的问题，同时，实现了对任意连续无边界视频流中动作检测及动作定位，提高了人体动作识别的精度以及在不同应用场景下的鲁棒性提高了模型的范化应用能力。

Description

一种人体动作识别方法

技术领域

本发明涉及一种人体动作识别方法，属于人体动作识别技术领域。

背景技术

动作识别通过提连续视频帧的动作特征，实现动作分类分类任务，在实际中避免可能存在的危险行为的发生，实际应用场景广泛，因此其一直是计算机视觉领域一个活跃的研究方向。现有的基于深度学习的动作识别方法，在所得模型在小场景、大目标下，取得了较高的分类精度。但是在复杂背景(存在噪音)、小目标的实时监控中，现有人体动作识别方法存在识别精度低、出现大量漏报及误报的现象。

发明内容

针对现有技术的缺陷，本发明提供一种人体动作识别方法，决大场景，小目标、复杂背景下，动作识别精度较低的问题，同时，在较小计算量下，解决了实现对任意长度连续视频中的动作精确地定位及动作分类问题。

为了解决所述技术问题，本发明采用的技术方案是：一种人体动作识别方法，包括以下步骤：

S01)、将视频解码，对每一帧图片进行预处理，所述预处理包括最小邻域选择和滤波器设计，采用卡尔曼滤波器对图像进行滤波；

S02)、对预处理后的图像根据公式21完成图像格式转换，输出图像由三通道RGB图像转化为单通道GRAY图像：

Gray(m,n)＝0.299r(m,n)+0.587g(m,n)+0.441b(m,n) (21)，

其中Gray(m,n)为滤波器输出灰度图像在像素点(m,n)处的灰度值，r(m,n)、g(m,n)、b(m,n)为彩色图像在像素点(m,n)处对应的三通道像素值；

S03)、通过公式31对图像进行目标轮廓增强，以去除灰度图像中噪声，同时提高图像中目标的轮廓清晰度：

其中Pixel(m,n)表示预处理输出灰度图像在像素点(m,n)处进行轮廓增强后计算出的像素值，Gray(m,n)为经过公式21转化后得到的单通道灰度图像在(m,n)处的像素值，w(m,n,i,j)为权重，i、j表示邻域大小；

权重w(m,n,i,j)由两部分组成，分别为空间距离d(m,n,i,j)、像素距离r(m,n,i,j)，其计算过程为：

w(m,n,i,j)＝d(m,n,i,j)·r(m,n,i,j) (32)，

其中δ_d＝0.7，δ_r＝0.2，

S04)、每间隔8帧，在图像序列中选取三张图像I_t、I_t-8、I_t-16，获取的前景图片用D表示，三张图片在像素点(m,n)处的像素值分别为：I_t(m,n)、I_t-8(m,n)、I_n-16(m,n)，则前景图像为：

D(m,n)＝|I_t(m,n)-I_t-8(m,n)|∩|I_t-8(m,n)-I_t-16(m,n)| (41)，

对前景图像D(m,n)进行阈值操作：

其中阈值T的计算采用如下方式：

T＝Min(T_t/t-8,T_t-8/t-16) (43)，

公式43中，T_t/t-8、T_t-8/t-16分别取符合公式44、45的值，

其中，A为整张图片的像素点个数，δ＝0.6；

S05)、对前景图像D(m,n)进行腐蚀及膨胀操作；

S06)、将获取的灰度前景图像D(m,n)并转为三通道图像，组合成连续图片序列，输入三维卷积网络进行训练和检测。

进一步的，三维卷积网络对连续图片序列进行检测的具体步骤为：

S61)、三维卷积网络输入的是3通道、视频长度为L、视频帧图像高度为H、视频帧图像宽度为W的视频帧图像集合，经过三维卷积网络前向传播后，得到的输出为2048通道、视频长度为

视频帧图像高度为

视频帧图像宽度为

的特征图集合；

S62)、

以均匀分布的时间位置为中心预定义多尺度窗口，每个时间位置指定K个锚段，每个锚段的固定比例不同，通过应用内核尺寸为

的3D max-pooling滤波器，对空间维度进行从

到1×1的采样，以生成仅时间的特征图集合C_tpn，C_tpn中是2048通道、视频长度为

视频帧图像高度为1、视频帧图像宽度为1的图片，C_tpn中每个时间位置处的2048维特征向量用于预测到每个锚段的中心位置和长度{C_k,l_k},k∈{1,...,K}的相对偏移{σC_k,σl_k}；

S63)、使用softmax损失函数进行分类，使用平滑L1损失函数进行回归，L1损失函数为：

其中，N_cls和N_reg代表批次大小和建议框的数量，λ是损失权衡参数，并设置为值1，k是批次中的建议框索引，a_k是在建议框或动作预测的概率，

是为真实动作框动作值，

表示与锚定段或建议框预测的相对偏移，

表示视频真实段到锚定段或建议的坐标转换，坐标转换的计算为：

其中：c_k和l_k是锚点或提议的中心位置和长度，而

和

代表视频真实动作段的中心位置和长度。

进一步的，所述L1损失函数同时应用于临时建议框子网和动作分类子网，在建议框子网中，二进制分类损失L_cls预测建议框表示是包含一个动作，回归损失L_reg优化建议与基本事实之间的相对位移，在动作分类子网中，多类别分类损失L_cls为建议框预测特定的动作类别，类别数是动作数加一个作为背景的动作，回归损失L_reg优化动作和基本事实之间的相对位移。

进一步的，步骤S01中，设置二维图像的最小邻域宽度为9，即取一个像素点和其周围8个像素点作为最小滤波邻域，基于该最小滤波邻域的卡尔曼滤波器设计过程为：

S11)、像素点(m,n)的灰度值X(m,n)的线性表示为：

X(m,n)＝F(m|i,n|j)·X^T(m|i,n|j)+Φ(m,n) (11)，

其中，T为转置操作，φ(m,n)为噪声项，

则公式11表示为：

其中：x(m+i,n+j)为图像中每个点的像素值，为已知量；c(m+i,n+j)为原始视频帧图像每个点的权重，为未知量；

S12)、c(m+i,n+j)的计算标准为：

c(m+i,n+j)的取值必须使公式15达到最小值，则：

上式的A，B分别表示为：

A＝x(m+i,n+j) (17)，

B＝x(m+i,n+j)-x(m+i-1,n+j)

S13)、设观测方程为：

Z(m,n)＝X(m,n)+V(m,n) (18)，

其中v(m,n)为噪声，

S14)、按最小线性方差，得到像素点(m,n)点的3×3邻域内的二维离散卡尔曼滤波器的递推公式为：

X(m,n)＝F(m|i,n|j)X^T(m|i,n|j)+K(m,n)[Z(m,n)-F(m|i,n|j)X^T(m|i,n|j)](19)，

一步预报方差方程为：

增益方程为：

K(m,n)＝P_m/m-1(m,n)/[P_m/m-1(m,n)+r(m,n)] (111)，

误差方差矩阵方程：

P_m/m(m,n)＝[1-K(m,n)]²P_m/m-1(m,n)+K²(m,n)r(m,n) (112)

由公式19、110、111、112四式构建滤波器，完成对输入数据的预处理。

本发明的有益效果：本发明在连续视频动作检测任务中，使用背景去除的方法，降低视频背景对检测精度的影响。解决现有动作识别方法中，模型在大场景、小目标、复杂背景下，检测精度下降的问题，同时，实现了对任意连续无边界视频流中动作检测及动作定位，提高了人体动作识别的精度以及在不同应用场景下的鲁棒性提高了模型的范化应用能力。同时，使用三维卷积神经网络,对视频流进行编码，提取视频动作特征，同时完成动作分类任务以及动作定位任务。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

实施例1

本实施例主要针对大场景、小目标下，通过对训练及测试数据的预处理，降低复杂背景对模型检测精度影响，提高模型的动作识别精度。同时，仅仅使用一个三维卷积深度学习模型，实现对任意长度连续视频中的动作检测及精确地定位动作，降低了计算量。

如图1所示，本实施例包括以下步骤：

第一步：图像预处理操作：

将视频解码，对每一帧图片进行预处理，预处理包括以下步骤：

1)最小邻域选择

对于二维图像，最小邻域宽度为9，即取一个像素点和其周围8个像素点作为最小滤波邻域，即像素点的邻域窗长(i，j)中，i和j的取值范围为[-1,1]之间的整数。

2)滤波器设计

像素点(m,n)的灰度值X(m,n)的线性表示为：

X(m,n)＝F(m|i,n|j)·X^T(m|i,n|j)+Φ(m,n) (11)，

其中，T为转置操作，φ(m,n)为噪声项，

则公式11表示为：

其中x(m+i,n+j)为原始视频帧图像每个点的像素值，为已知量，c(m+i,n+j)为原始视频帧图像每个点的权重，为未知量；

c(m+i,n+j)的计算标准为：

公式15中的E为概率中矩阵均值运算符号；

c(m+i,n+j)的取值必须使公式15达到最小值，由此则可以得出：

其中：

A＝x(m+i,n+j)

设观测方程为：

Z(m,n)＝X(m,n)+V(m,n) (18)，

其中，V(m,n)为零均值、方差为r(m,n)的白噪声；

按最小线性方差，得到像素点(m,n)点的3×3邻域内的二维离散Kalman滤波器的递推公式为：

X(m,n)＝F(m|i,n|j)X^T(m|i,n|j)+K(m,n)[Z(m,n)-F(m|i,n|j)X^T(m|i,n|j)](19)，

一步预报方差方程为：

增益方程：

K(m,n)＝P_m/m-1(m,n)/[P_m/m-1(m,n)+r(m,n)] (111)，

误差方差矩阵方程：

P_m/m(m,n)＝[1-K(m,n)]²P_m/m-1(m,n)+K²(m,n)r(m,n) (112)，

第二步：图像格式转化相关处理：

对预处理后的图像根据公式21完成图像格式转换，输出图像由三通道RGB图像转化为单通道GRAY图像；

Gray(m,n)＝0.299r(m,n)+0.587g(m,n)+0.441b(m,n) (21)，

第三步：目标轮廓增强，方法如下：

输出灰度图像的在(m,n)处的像素值为：

w(m,n,i,j)＝d(m,n,i,j)·r(m,n,i,j) (32)，

其中δ_d＝0.7，δ_r＝0.2，

采用上述方法，可以去除灰度图像中噪声，同时提高图像中目标的轮廓清晰度。

第四步：考虑动作的幅度以及视频的帧频，尽量去除空洞现象，每间隔8帧，在图像序列中选取三张图像I_n、I_n-8、I_n-16，获取的前景图片用D表示，三张图片在像素点(m,n)处的像素值分别为：I_t(m,n)、I_t-8(m,n)、I_n-16(m,n)，则前景图像为：

D(m,n)＝|I_t(m,n)-I_t-8(m,n)|∩|I_t-8(m,n)-I_t-16(m,n)| (41)，

对前景图像D(m,n)进行阈值操作：

其中阈值T的计算采用如下方式：

T＝Min(T_t/t-8,T_t-8/t-16) (43)，

公式43中，T_t/t-8、T_t-8/t-16分别取符合公式44、45的值，

其中，A为整张图片的像素点个数，δ＝0.6；

第五步：在上一步的基础上对前景图像D(x,y)去除空洞及微小噪声，可以进行腐蚀及膨胀操作；

第六步，模型训练及测试

将获取的灰度前景图像D(x,y)并转为三通道图像，组合成连续图片序列，输入三维卷积网络进行训练和检测。

模型的输入是一系列R^3×L×H×W尺寸帧图像，3D-ConvNet的架构以Resnet-50为骨干网络，通过深层网络结构可获得更加丰富的动作特征，最后生成了一个特征图

R^3×L×H×W表示输入的尺寸帧图像是3通道、视频长度为L、视频帧图像高度为H、视频帧图像宽度为W的视频帧图像集合，

表示输出的是2048通道、视频长度为

视频帧图像高度为

视频帧图像宽度为

的特征图集合。

以

均匀分布的时间位置为中心的预定义多尺度窗口，每个时间位置指定K个锚段，每个锚段的固定比例不同。通过应用内核尺寸为

的3D max-pooling滤波器，对空间维度进行下采样(从

到1×1)以生成仅时间的特征图

C_tpn中每个时间位置处的2048维特征向量用于预测到每个锚段的{C_k,l_k},k∈{1,...,K}的相对偏移{σC_k,σl_k}；

是为真实动作框动作值，

表示与锚定段或建议框预测的相对偏移，

其中：c_k和l_k是锚点或提议的中心位置和长度，而

和

代表视频真实动作段的中心位置和长度。

以上损失函数同时应用于临时建议框子网和动作分类子网。在建议框子网中，二进制分类损失L_cls预测建议框表示是包含一个动作，而回归损失L_reg优化建议框与基本事实之间的相对位移。在建议框子网中，损失与动作类别无关。在动作分类子网中，多类别分类损失L_cls会为建议框预测特定的动作类别，而类别数是动作数加一个作为背景的动作。回归损失L_reg优化了动作和基本事实之间的相对位移。两个子网的所有四个损耗共同优化。

以上描述的仅是本发明的基本原理和优选实施例，本领域技术人员根据本发明做出的改进和替换，属于本发明的保护范围。

Claims

1.一种人体动作识别方法，其特征在于：包括以下步骤：

Gray(m,n)＝0.299r(m,n)+0.587g(m,n)+0.441b(m,n) (21)，

w(m,n,i,j)＝d(m,n,i,j)·r(m,n,i,j) (32)，

其中δ_d＝0.7，δ_r＝0.2，

D(m,n)＝|I_t(m,n)-I_t-8(m,n)|∩|I_t-8(m,n)-I_t-16(m,n)| (41)，

对前景图像D(m,n)进行阈值操作：

其中阈值T的计算采用如下方式：

T＝Min(T_t/t-8,T_t-8/t-16) (43)，

公式43中，T_t/t-8、T_t-8/t-16分别取符合公式44、45的值，

其中，A为整张图片的像素点个数，δ＝0.6；

S05)、对前景图像D(m,n)进行腐蚀及膨胀操作；

2.根据权利要求1所述的人体动作识别方法，其特征在于：三维卷积网络对连续图片序列进行检测的具体步骤为：

视频帧图像高度为

视频帧图像宽度为

的特征图集合；

S62)、

的3D max-pooling滤波器，对空间维度进行从

是为真实动作框动作值，

表示与锚定段或建议框预测的相对偏移，

其中：c_k和l_k是锚点或提议的中心位置和长度，而

和

代表视频真实动作段的中心位置和长度。

3.根据权利要求2所述的人体动作识别方法，其特征在于：所述L1损失函数同时应用于临时建议框子网和动作分类子网，在建议框子网中，二进制分类损失L_cls预测建议框表示是包含一个动作，回归损失L_reg优化建议与基本事实之间的相对位移，在动作分类子网中，多类别分类损失L_cls为建议框预测特定的动作类别，类别数是动作数加一个作为背景的动作，回归损失L_reg优化动作和基本事实之间的相对位移。

4.根据权利要求1所述的人体动作识别方法，其特征在于：步骤S01中，设置二维图像的最小邻域宽度为9，即取一个像素点和其周围8个像素点作为最小滤波邻域，基于该最小滤波邻域的卡尔曼滤波器设计过程为：

S11)、像素点(m,n)的灰度值X(m,n)的线性表示为：

X(m,n)＝F(m|i,n|j)·X^T(m|i,n|j)+Φ(m,n) (11)，

其中，T为转置操作，φ(m,n)为噪声项，