CN112926522A

CN112926522A - 一种基于骨骼姿态与时空图卷积网络的行为识别方法

Info

Publication number: CN112926522A
Application number: CN202110339729.1A
Authority: CN
Inventors: 吴亮生; 李辰潼; 黄天仑; 黄凯; 雷欢; 卢杏坚; 何峰
Original assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Current assignee: Institute of Intelligent Manufacturing of Guangdong Academy of Sciences
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2021-06-08
Anticipated expiration: 2041-03-30
Also published as: CN112926522B

Abstract

一种基于骨骼姿态与时空图卷积网络的行为识别方法，包括如下步骤：建立包含若干视频段的数据集；利用改进的ViBe算法，提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心；采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标，计算所述质心与所述节点的距离，根据距离优先原则分配节点置信度；将经处理的数据送入ST_GCN算法模型中进行训练；利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。利用本发明能够对视频中的人物行为有效识别，保证识别的准确性与实时性，能够应用于工业生产、公共安防、智慧养老等领域，具有广泛的推广价值。

Description

一种基于骨骼姿态与时空图卷积网络的行为识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种基于骨骼姿态与时空图卷积网络的行为识别方法。

背景技术

行为识别是计算机视觉技术中的重要研究分支，它在公共安防、智慧养老、工业生产、自动驾驶等方面具有广阔的应用前景。虽然行为识别在各个领域的不同场景都有很大的应用，但是其受到检测背景的复杂性、光照分布、目标遮挡等问题的限制。

如今，随着计算机视觉在各行各业取得的极大进展，使得行为识别在工业生产、公共安防、智慧养老等领域的研究也日益增加，行为识别从传统方法上的DT算法、IDT算法到如今深度学习上的单/双流法、基于骨架数据的行为识别方法。而基于骨骼数据的行为识别具备对不同的环境有着很强的鲁棒性、数据量级小、实现端到端系统的优点，因此许多科研人员进行基于骨骼数据的行为识别相关研究。可是在现有的相关研究中基于LSTM的方法、基于图卷积的方法中没有充分发挥基于骨骼数据集的行为识别优势，动作识别的准确率低；同时以往的图卷积网络存在计算量大，检测速度慢等问题，导致在各个领域应用受限，难以发挥实际效果。

发明内容

本发明针对现有技术的缺陷，提供一种基于骨骼姿态与时空图卷积网络的行为识别方法，能够利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务，保证识别的准确性与实时性。

本发明首先提供了一种基于骨骼姿态与时空图卷积网络的行为识别方法，包括如下步骤：

步骤S1，建立包含若干视频段的数据集；

步骤S2,利用改进的ViBe算法，提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心；

步骤S3，采用OpenPose算法对所述关键帧进行骨骼数据提取得到若干个节点坐标，计算所述质心与所述节点的距离，根据距离优先原则分配节点置信度；

步骤S4，将经所述步骤S3处理的数据送入ST_GCN算法模型中进行训练；

步骤S5，利用经过训练的ST_GCN算法模型对采集的实时视频进行检测。

进一步地，在所述步骤S1中，所述数据集包括训练集、测试集和验证集。

进一步地，所述步骤S2包括：

步骤S21、计算当前帧与上一帧之间像素的波动差，当两帧之间的像素波动数量大于设定阈值时，确定所述当前帧为关键帧并提取；

步骤S22、初始化所述关键帧中每个像素点的背景模型，使时刻t＝0，随机挑选每个像素点的邻域像素点作为背景模型；

步骤S23、对后续的图像序列进行前景目标分割处理，确定前景点区域；

步骤S24、对前景点区域求质心。

进一步地，在所述步骤S21中，当当前帧与上一帧之间的像素波动数量大于5％时，确定此帧为关键帧C₀并提取，所述关键帧的判断公式为：

其中S为当前帧与上一帧之间的像素波动数量总数，F_n(i,j),F_n-1(i,j)分别为当前帧与上一帧在(i,j)处的像素值，n为视频中帧的索引,依次对视频进行关键帧的提取得到关键帧C₀,C₁,C₂,C₃,C₄,…C_n。

进一步地，在所述步骤S22中，时刻t＝0时的背景模型公式如下：

BK_M0＝f⁰(xⁱ,yⁱ)|(xⁱ,yⁱ)∈N_G(x,y)，

其中，f⁰(x,y)表示当前像素点的像素值，N_G(x,y)表示空域上相邻的像素值，

为当前像素点的背景模型。

进一步地，在所述步骤S23中，当t＝k时，像素点(x,y)的背景模型为

当前像素值为f^k(x,y)，根据如下公式判断该像素点是否为前景点：

其中，D用于计算当前像素点f^k(x,y)与其对应的背景模型

中的像素点fⁱ(x,y)距离，R、G、B为每个像素点的像素值，T为预设的距离阈值，f^k(x,y)为待判断像素点，若背景模型中的像素点fⁱ(x,y)与当前像素点f^k(x,y)的距离D小于预设的距离阈值T，则使N＝N+1，N的初始值为0，当N达到一设定阈值时，判断当前像素点f^k(x,y)为背景点，否则判断该像素点为前景点；遍历单帧图像的所有像素点以确定前景点。

进一步地，所述步骤S24包括：

步骤S241、计算图像中所有前景点的像素灰度值之和，计算公式如下：

步骤S242、计算图像中每个像素点与对应的X坐标的乘积之和及每个像素点与其对应的Y坐标的乘积之和，计算公式如下：

步骤S243、分别计算质心坐标的x和y，计算公式如下：

进一步地，所述步骤S3包括：

步骤S31、将所述提取的关键帧送入Openpose算法模型中进行骨骼数据提取，输出五维张量(N，C，T，V，M)，其中N表示一次批处理视频的个数，C表示关节特征，C＝(x，y，acc)，所述关节特征包括节点坐标及节点置信度，T表示视频帧数，V表示单帧图像中节点数，M表示单帧图像行人的个数；

步骤S32、计算所述提取的关键帧的前景区域的质心与节点的距离，计算公式如下：

其中(x₀,y₀)为质心坐标，(x_i,y_j)为各个节点坐标，得到各节点与质心的距离d₁,d₂,d₃.....d_v，V为单帧图像的节点数；

步骤S33、对所述质心与节点的距离d₁,d₂,d₃.....d_v进行归一化处理，得到新的节点与质心的距离e₁,e₂,e₃,e₄,…e_v，经过归一化处理使得0≤e^*＜1，该e^*用于后续节点置信度重分配，归一化公式式如下：

其中d_max、d_min为所述质心与节点的距离最大值、距离最小值；

步骤S34、对节点置信度进行重分配，得到新的节点置信度ACC₁，ACC₂，...ACC_v，分配公式如下：

ACC_i＝acc_i+(1-acc_i)*e_i,其中i＝1,2…V。

进一步地，所述步骤S4包括：

步骤S41、搭建ST_GCN算法模型；

步骤S42、对经所述步骤S3生成的骨骼数据从时间和空间两个维度进行归一化处理，使同一节点在不同帧下的位置特征归一化；

步骤S43、将经步骤S42归一化处理的数据送入ST_GCN单元，进行图卷积和时间卷积处理，并根据步骤S3生成的节点置信度进行训练；

步骤S44、采用随机梯度下降SGD算法优化网络参数，得到经训练的模型。

进一步地，所述步骤S5包括：

步骤S51，对实时视频进行预处理，提取时域上的关键帧与空域上的前景区域的质心；

步骤S52，将处理后的视频送入openpose模型中进行骨骼数据提取，然后送入经训练的ST_GCN算法模型中进行行为分类，输出行为识别结果。

本发明提供的基于骨骼姿态与时空图卷积网络的行为识别方法能够对监控中的视频图像首先进行视频预处理，通过改进的ViBe算法对实时监控的视频进行关键帧的提取，并获取关键帧中运动区域的质心，提高检测效率，改善网络的检测精度；再通过人体姿态估计算法OpenPose对处理后的视频进行骨骼数据提取,去除视频中的冗杂信息，再次改善网络检测的速度；计算质心与骨骼节点间的坐标距离，并根据距离优先原则提高节点置信度；最后将处理后的骨骼数据送入时空图卷积网络ST-GCN进行特征提取实现行为分类，该网络具有准确性高，速度快的特点，同时利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务，针对检测到的异常行为能够及时生成结果，保证识别的准确性与实时性，能够应用于工业生产、公共安防、智慧养老等领域，具有广泛的推广价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法的实现流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

此外，以下各实施例的说明是参考附加的图示，用以例示本发明可用以实施的特定实施例。本发明中所提到的方向用语，例如，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”、“侧面”等，仅是参考附加图式的方向，因此，使用的方向用语是为了更好、更清楚地说明及理解本发明，而不是指示或暗指所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

请参阅图1，本发明的实施例公开了一种基于骨骼姿态与时空图卷积网络的行为识别方法，包括如下步骤：

步骤S1，建立包含若干视频段的数据集；

步骤S2,利用改进的ViBe算法，提取视频段中的关键帧并计算关键帧中的前景区域的质心；

步骤S3，采用OpenPose算法对关键帧进行骨骼数据提取得到若干个节点坐标，计算质心与节点的距离，根据距离优先原则分配节点置信度；

步骤S4，将经步骤S3处理的数据送入ST_GCN算法模型中进行训练，优化训练参数；

本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法主要包括基于时序的视频关键帧提取、人体运动区域(即前景区域)检测、人体骨骼姿态估计、骨骼姿态关节点置信度重分配、基于时空图卷积网络的行为分类五个部分。首先通过改进的ViBe算法对实时监控的视频进行关键帧的提取，并获取关键帧中运动区域的质心，提高检测效率，改善网络的检测精度；再通过人体姿态估计算法OpenPose对处理后的视频进行骨骼数据提取,去除视频中的冗杂信息，再次改善网络检测的速度；计算质心与骨骼节点间的坐标距离，并根据距离优先原则提高节点置信度；最后将处理后的骨骼数据送入经训练的时空图卷积网络ST-GCN进行特征提取实现行为分类，该网络具有准确性高，速度快的特点，同时利用时间与空间两个维度的节点特征训练更精确的完成行为识别的任务，针对检测到的异常行为能够及时生成结果，保证识别的准确性与实时性，能够应用于工业生产、公共安防、智慧养老等领域，具有广泛的推广价值。

在步骤S1中，在目标区域安装摄像头，并设置镜头角度采集实时视频。数据集采用至少三台摄像机同时捕获，视频分辨率不低于1920*1080，并在不同时刻、不同地点进行视频采集，将采集的视频分为训练集、测试集和验证集。其中训练集用于送入ST_GCN算法模型中进行训练，测试集用于输入经过训练的ST_GCN算法模型进行测试，验证集用于对测试结果进行验证。

在步骤S2中，针对检测到的前景区域计算质心，通过改进的ViBe算法对视频进行预处理，去除视频中冗杂重复的信息，提高模型检测速度并改善模型的检测精度。ViBe算法是一种基于背景更新的前景检测算法，该算法基于提取像素点(x，y)周围的像素值和先前像素值，创建一组样本像素，然后将另一帧(x，y)处的像素值与样本集中的像素值进行对比，如果结果与样本集中的像素值的距离大于某个阈值，则将该像素定为前景像素，否则定为背景像素点。

在本实施例中，步骤S2包括：

步骤S21、计算当前帧与上一帧之间像素的波动差，当两帧之间的像素波动数量大于设定阈值时，确定当前帧为关键帧并提取；

步骤S22、初始化关键帧中每个像素点的背景模型，使时刻t＝0，随机挑选每个像素点的邻域像素点作为背景模型；

步骤S24、对前景点区域求质心。

在本实施例中，在步骤S21中，当当前帧与上一帧之间的像素波动数量大于5％时，确定此帧为关键帧C₀并提取，关键帧的判断公式为：

其中S为当前帧与上一帧之间的像素波动数量总数，F_n(i,j),F_n-1(i,j)分别为当前帧与上一帧在(i,j)处的像素值，n为视频中帧的索引,依次对视频进行关键帧的提取得到关键帧C₀,C₁,C₂，C₃,C₄,...C_n。

在本实施例中，采用改进的ViBe算法对视频进行预处理，在步骤S22中，时刻t＝0时的背景模型公式如下：

BK_M0＝f⁰(xⁱ,yⁱ)|(xⁱ,yⁱ)∈N_G(x,y)，

为当前像素点的背景模型，在N次的初始化的过程中，N_G(x,y)中的像素点(xⁱ,yⁱ)被选中的可能次数L＝1,2,3，…，N。

在所述步骤S23中，当t＝k时，像素点(x,y)的背景模型为

其中，第一个式子中，R,G,B为每个像素点的像素值，D用来计算当前像素点f^k(x,y)与其对应的背景模型

中的像素点fⁱ(x,y)距离。第二个式子中，T为预设的距离阈值，f^k(x,y)为待判断像素点。若背景模型中的像素点fⁱ(x,y)与当前像素点f^k(x,y)的距离D小于预设的距离阈值T，则使N＝N+1，N的初始值为0，当N达到一设定阈值时，判断当前像素点f^k(x,y)为背景点，否则判断该像素点为前景点。根据此计算过程，遍历单帧图像的所有像素点以确定前景点。

进一步地，步骤S24包括：

步骤S243、分别计算质心坐标的x和y，计算公式如下：

所述步骤S3包括：

ACC_i＝acc_i+(1-acc_i)*e_i,其中i＝1,2…V。

在步骤S3中，将提取的关键帧送入Openpose算法模型中进行骨骼数据提取，去除视频中的冗杂信息，根据前景区域的质心与各个节点的距离增加相应节点的权重，有利于异常行为动作的识别精度，提高模型的准确性。openpose算法是一种自底向上的算法，首先检测出图像中所有人的关节(关键点)，然后将检出的关键点分配给每个对应的人。OpenPose人体姿态识别算法项目是美国卡耐基梅隆大学(CMU)基于卷积神经网络和监督学习并以Caffe为框架开发的开源库，可以实现人体动作、面部表情、手指运动等姿态估计，适用于单人和多人，具有极好的鲁棒性。

在步骤S4中，将得到的数据送入构建好的模型中进行训练，得到训练好的模型。其中，ST_GCN算法模型即时空图卷积网络模型。步骤S4包括：

步骤S41、搭建ST_GCN算法模型；

在本实施例中，具体地，ST_GCN算法模型的训练过程可包括以下步骤：

步骤S401，采用批处理的方式一次从数据集中抽取256个视频用于模型的训练；

步骤S402，将视频先送入ViBe算法中进行前景区域检测，并通过分支计算区域区域的质心以及提取关键帧；

步骤S403，将提取的关键帧送入openpose中进行骨骼提取，生成骨骼数据；

步骤S404，对生成的骨骼数据从时间和空间两个维度进行归一化处理，即同一节点在不同帧下的位置特征归一化；

步骤S405，将归一化的数据送入ST_GCN单元，连续进行图卷积、时间卷积处理，增加关节维度同时降低关键帧的维度；

步骤S406，计算质心到节点的距离，并根据质心与节点距离调整节点数据的训练权重进行训练，具体地，可将距离较近的前五个节点在训练时增加权重；

步骤S407，采用随机梯度下降SGD算法，对网络参数进行优化。

在步骤S5中，通过训练好的模型对采集的实时视频进行检测，对视频中异常行为进行判断，并生成相应的检测框与行为类别。其中，步骤S5包括：

在本发明的一种实施方式中，本发明可应用于基于行为识别的ATM提款机智能安防系统，通过对ATM提款区域下的异常行为的视频制作训练数据，通过基于骨骼行为识别的时空图卷积网络对模型进行数据优化，作为控制模块的检测单元对监控区域下的异常行为及时警告或报警。与其它骨骼行为识别方法相比，此方法针对场景的适用性更强、准确度更高。在此应用场景下，步骤S52之后，还可包括：

步骤S53，接收检测结果，针对异常行为中的“拍打机器”、“踢机器”进行语音警告、连续警告两次后，若仍监测到拍打机器或踢机器的异常行为选择报警；

步骤S54，针对异常行为中的“持刀”、“偷窃”、“抢东西”直接选择报警；

本发明实施例的基于骨骼姿态与时空图卷积网络的行为识别方法通过建立数据集，将数据集进行预处理提取关键帧，然后对关键帧进行骨骼数据提取并调整节点置信度，再将处理后的数据送入模型进行训练，最后将整个模型采取端到端的方式进行反向传播训练，优化模型参数完成训练，将训练好的模型进行实时视频检测，将生成的检测框与行为类别输出，极大地提高了检测精度与检测速度，对多个领域具有可见的应用价值。

以上并不限于本发明的实施方式，以上具体实施方式的描述旨在描述与说明本发明的技术方案，以上具体实施方式仅仅是示意式的，并不是限制式的。任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及发明专利构思加以同等替换或改变，都属于本发明专利的保护范围之内。

Claims

1.一种基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，包括如下步骤：

步骤S1，建立包含若干视频段的数据集；

步骤S2，利用改进的ViBe算法，提取所述视频段中的关键帧并计算所述关键帧中的前景区域的质心；

2.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，在所述步骤S1中，所述数据集包括训练集、测试集和验证集。

3.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，所述步骤S2包括：

步骤S24、对前景点区域求质心。

4.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，在所述步骤S21中，当前帧与上一帧之间的像素波动数量大于5％时，确定此帧为关键帧C₀并提取，所述关键帧的判断公式为：

其中S为当前帧与上一帧之间的像素波动数量总数，F_n(i，j)，F_n-1(i，j)分别为当前帧与上一帧在(i，j)处的像素值，n为视频中帧的索引，依次对视频进行关键帧的提取得到关键帧C₀，C₁，C₂，C₃，C₄，…C_n。

5.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，在所述步骤S22中，时刻t＝0时的背景模型公式如下：

其中，f⁰(xⁱ，yⁱ)表示当前点的像素值，N_G(x，y)表示空域上相邻的像素值，

为t＝0时刻当前像素点的背景模型。

6.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，在所述步骤S23中，当t＝k时，像素点(x，y)的背景模型为

当前像素值为f^k(x，y)，根据如下公式判断该像素点是否为前景点：

其中，D用于计算当前像素点f^k(x，y)与其对应的背景模型

中的像素点fⁱ(x，y)距离，R、G、B为每个像素点的像素值，T为预设的距离阈值，f^k(x，y)为待判断像素点，若背景模型中的像素点f^ι(x，y)与当前像素点f^k(x，y)的距离D小于预设的距离阈值T，则使N＝N+1，N的初始值为0，当N达到一设定阈值时，判断当前像素点f^k(x，y)为背景点，否则判断该像素点为前景点；遍历单帧图像的所有像素点以确定前景点。

7.根据权利要求3所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，所述步骤S24包括：

步骤S243、分别计算质心坐标的x和y，计算公式如下：

8.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，所述步骤S3包括：

其中(x₀，y₀)为质心坐标，(x_i，y_j)为各个节点坐标，得到各节点与质心的距离d₁，d₂，d₃......d_v，V为单帧图像的节点数；

步骤S33、对所述质心与节点的距离d₁，d₂，d₃.....d_v进行归一化处理，得到新的节点与质心的距离e₁，e₂，e₃，e₄，...e_v，经过归一化处理使得0≤e^*＜1，该e^*用于后续节点置信度重分配，归一化公式式如下：

ACC_i＝acc_i+(1-acc_i)*e_i，其中i＝1，2...V。

9.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，所述步骤S4包括：

步骤S41、搭建ST_GCN算法模型；

10.根据权利要求1所述的基于骨骼姿态与时空图卷积网络的行为识别方法，其特征在于，所述步骤S5包括：