CN109919036B

CN109919036B - 基于时域分析深度网络的工人作业姿势分类方法

Info

Publication number: CN109919036B
Application number: CN201910104156.7A
Authority: CN
Inventors: 王永利; 王振鹏; 周子韬; 曹娜; 冯霞; 袁欢欢; 范嘉捷; 赵宁; 明晶晶; 刘聪; 秦昊; 刘晨阳
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-01-18
Filing date: 2019-01-18
Publication date: 2022-09-27
Anticipated expiration: 2039-01-18
Also published as: CN109919036A

Abstract

本发明公开了一种基于时域分析深度网络的工人作业姿势分类方法。首先，根据工地监控视频的操作安全应用需求，对视频中的镜头进行检测;同时使用RGB‑D传感器完成基于视觉的动作捕捉，创建虚拟人体模型和完整的人体姿势的图像序列；并按OWAS（Working Posture Analysing System,工作姿态分析系统）定义手臂、腿部和背部三个身体部位对应的姿势，获得用于分类算法学习的虚拟训练姿势图像数据集；之后采用时域分析和背景差分法结合中值滤波噪声消除算法获取清晰工作姿势轮廓图像，提取使用基于形状和径向直方图两种工作姿势轮廓图像的特征；最后采用VGG神经网络模型完成姿势图像的分类。本发明对于WMSDs（产生原因和危险因素）的预防工作有着非常重大和迫切的意义，具有很高的社会效益和经济效益。

Description

基于时域分析深度网络的工人作业姿势分类方法

技术领域

本发明涉及视频图像处理领域，具体地说，是一种基于时域分析深度网络的工人作业姿势分类方法。

背景技术

建筑行业工人通常需要长时间处于固定的、高强度、重复性的施工姿态下完成劳动工作，从而导致建筑行业的非致命性职业伤害和疾病，如职业性肌肉骨骼损失(WMSDs)。随着社会的发展和技术的进步，越来越多的从业者都追求一个安全、健康、高效安全的工作环境，这一方面需要劳动密集、机械化程度较低以及人工参与多的劳动行业内部加大技术改进，另一方面生产安全的管理和执法部门对于监测、管理和规范也需要满足WMSDs预防工作保障。

目前，政府职能部门及社会各个相关劳动行业都在为了有效的预防WMSDs控制WMSDs的患病率进行分析研究，阶段研究成果发现，从业者的不正确的操作姿势、严重的体力负荷、非合理的重复操作和超标的静态负重等生物力学的因素会诱发WMSDs的发生。为了有效的预防WMSDs，掌握其产生发展的原因和危险因素是解决问题的关键，近年来，随着工效学视角在职业安全、健康领域的控制应用的展开，越来越多的专业技术被引进到预防和控制WMSDs的研究领域，通过相关研究工作建立问题模型，利用模型识别WMSDs原因，并通过解决发现的系统环境与实际工人之间的关键问题，从而消除产生WMSDs基础。故需要利用人体工程学来对其进行分析评估。

尽管在建筑中应用人体工程学技术的需求日益增加，但常规的研究和实践都只专注基于工作姿势或材料处理基础上的得出的针对人体工程学的指导，而没有深入了解实际施工任务的实际需求。一般来说，详细的工作描述诸如动作，动作和力量需要多次迭代才能获得。

行为识别一般是指对于给定视频序列输入对其进行分析并得出其正确的对应行为分类，以实现其行为的识别。目前研究人的行为姿势识别的方法一般分为基于模型方法和基于相似性度量的方法。前者首先建立某种准则，然后从运动图像序列中提取目标的外形、运动等特征，根据所获得的特征信息，通过人工或半监督的方法来定义正常行为的数学模型。而后者需要学习大量的人体行为样本，但是在实际环境下，复杂的背景以及人体行为的多样性增加了学习难度，导致识别准确率下降。

发明内容

本发明的目的在于提供一种基于时域分析深度网络的工人作业姿势分类方法，能够对工地上工人的作业姿势进行分类，以研究工人出现WMSDs的原因。

实现本发明目的的技术解决方案为：一种基于时域分析深度网络的工人作业姿势分类方法，包括样本采集、样本预处理、模型训练以及姿势分类四大步。

第一步，样本采集；对原始视频集进行处理，运用基于时域分析的新型镜头变化检测方法从动态图像专家组MPEG视频流中提取工人的运动信息，对视频镜头的一段时间内的工人姿势变化进行检测，根据检测结果对视频分帧，对分帧结果进行镜头分割后获得初始部分样本集；采用高斯脉冲响应滤波器消除初始部分样本集的噪声；制作人体模型，对其进行运动捕捉，得到完整的人体姿势的图像序列，虚拟构建出另一部分样本集，与上述镜头分割后的样本集共同组成初始样本集；

第二步，样本预处理；利用背景差分、轮廓检测、图像降噪和提取特征的方法对初始样本集进行处理，其中，采用时域分析、背景差分法和中值滤波噪声消除算法获取清晰工作姿势轮廓图像，利用基于形状的特征提取方法和基于径向直方图的特征提取方法综合提取工作姿势轮廓图像的特征；

第三步，模型训练；将第二步提取的特征集划分为训练集和测试集，根据OWAS(Working Posture Analysing System,工作姿态分析系统)定义的手臂、腿部和背部三个身体部位的姿势为训练集设置虚拟训练姿势图像数据集标签，构建VGG网络模型，通过该模型对划分的训练集进行训练，得到可用于姿势分类的模型；

第四步，姿势分类；利用分类模型对第三步中的测试集进行测试，得到分类结果，若分类结果对应的连续帧在n毫秒内出现姿势类别变化，n<2000，那么分类出的结果是不正确的分类姿势，这些结果通常被称为噪声，最后对结果中的噪声进行去噪处理。

本发明与现有技术相比，其显著优点：

1)根据应用需求分析，结合行业实际工作环境，提出了一种基于时域分析的新型镜头变化检测方法，能够准确的捕捉视频流中有价值的镜头。通过使用虚拟环境中开发虚拟人体建模创建训练数据集，解决了真实施工现场存在的不同观测点和人体测量的差异变化，最大限度地减少了广泛手动收集大量训练数据集的繁琐工作。

2)实现了基于计算机视觉建筑行业工人工作姿势分类方法，完成了基于视觉的动作捕捉并创建虚拟人体模型和完整的人体姿势的图像序列，按OWAS定义的身体姿势，获得用于分类算法学习的虚拟训练图像数据集，采用时域分析和背景差分法结合中值滤波噪声消除算法完成从视频图像序列中获取清晰工作姿势轮廓图像，使用基于形状和径向直方图两种方法完成对工作姿势的轮廓图像的特征提取，采用VGG网络完成姿势图像的分类。

附图说明

图1是本发明基于时域分析深度网络的工人作业姿势分类方法结构图。

图2是本发明中确定分类类别的OWAS姿态分析示意图。

图3是本发明中镜头分割利用到的帧三元组中的镜头变化位置图。

图4是本发明中为得到训练集的虚拟训练数据集的过程图。

图5是本发明基于视觉姿势分类的过程图。

图6是本发明基于时域分析深度网络的工人作业姿势分类算法流程图。

具体实施方式

本发明基于时域分析深度网络的工人作业姿势分类方法包括：样本采集、样本预处理、模型训练以及姿势分类四大步。通过该分类算法，可以将工人的作业姿势进行分类，以便够快速评估职业任务帮助完成人体工程学的指导，筛选出需要干预的危险任务，最终指导工人工作、提高工作效率。

下面结合附图对本发明作进一步描述。

结合图1，基于时域分析深度网络的工人作业姿势分类方法，包括样本采集、样本预处理、模型训练以及姿势分类四大步。

第四步，姿势分类；利用分类模型对第三步中的测试集进行测试，得到分类结果，若分类结果对应的连续帧在较短时间段内出现姿势类别变化，那么分类出的结果是不正确的分类姿势，这些结果通常被称为噪声，最后对结果中的噪声进行去噪处理。

结合图2，按OWAS(Working Posture Analysing System,工作姿态分析系统)定义了手臂、腿部和背部三个身体部位对应的姿势，获得用于分类算法学习的虚拟训练姿势图像数据集。其中，a表示双臂低于肩、b表示单臂高于肩、c表示双臂高于肩、d表示坐姿、e表示双脚站立、f表示走姿、g表示单脚站立腿直立、h表示跪姿、i表示深蹲、j表示单脚站立腿弯曲、k表示直立、l表示弯曲、m表示扭转、n表示弯曲及扭转。

结合图3，展示了帧三元组中的镜头变化位置，如果前参考帧B_i是具有不同视觉内容(a)的第一帧，则下一个参考帧R_i+2向后预测B_i和b_i+1中MB的显著百分比。如果在后参考帧R_i(b)内容发生变化，则双向帧B_i-2和b_i-1将主要由前一参考帧R_i-3向前预测。最后，如果在b_i(c)处发生内容变化，那么B_i-1将被前一参考帧R_i-2向前强预测，而b_i将被下一参考帧R_i+1向后预测。根据镜头的变化情况，对原始视频数据进行镜头分割，以获取可用的样本集。

结合图4，虚拟人体建模(VHM)是利用虚拟环境完成实际应用开发中需要的相应运动模拟的一种有效技术手段。通过使用虚拟人体建模可以方便的获得不同姿势所对应的训练图像，同时可以3D根据虚拟空间中的人体运动捕捉插入的特定人体身高和体重属性，最终生成虚拟训练图像的数据集。其中①为运动捕捉、②为构建虚拟人体模型及人体姿势图像、③为获得虚拟培训数据集。

结合图5，展示了姿势分类的大致过程，使用基于形状和径向直方图两种方法完成对工作姿势的轮廓图像的特征提取，最后对特征进行学习以到达对姿势进行分类的目标。其中a表示真实图像、b表示虚拟训练图像、c表示图像处理过程、d表示基于轮廓的特征提取、e表示训练图像获得的特征、f表示学习后的分类、g表示真实图像获得的特征。

结合图6，算法的具体步骤如下：

一、样本采集

步骤1.1：对原始视频数据进行时域分析，将镜头进行分割。MPEG-2编码器将每帧分成大小为16x16的宏块MB来压缩视频；每个MB包含关于其时间预测的类型和用于运动补偿的相应向量的信息；将MPEG序列分析为一组三元组帧(RBb)的形式，R代表两种预测类型的参考帧，B为三元组的前双向帧，b为第二双向帧；定义帧三元组中的视觉差异测度的度量：

其中k是系数，

β_T(i)，ι_T(i)和π_T(i)表示帧三元组集合的基数变量，与两个双向帧B和b进行线性组合。

步骤1.2：上一步定义的原始差异度量具有很强的噪声，采用高斯脉冲响应滤波器消除噪声。

步骤1.3：通过虚拟人体建模的方式准备训练的数据集。虚拟人体建模(VHM)是利用虚拟环境完成实际应用开发中需要的相应运动模拟的一种有效技术手段。通过使用虚拟人体建模可以方便的获得不同姿势所对应的训练图像，同时可以3D根据虚拟空间中的人体运动捕捉插入的特定人体身高和体重属性，最终生成虚拟训练图像的数据集。镜头分割的数据集和虚拟构建的数据集共同组成初始样本集。

二、样本预处理

步骤2.1：对初始样本集进行处理。采用背景差分法结合噪声消除算法完成从视频图像序列中获取轮廓图像。通过比较设定阈值与其对应的背景模型M(X)在N个前面的帧中得到的值，定义M(x)＝{v₁,v₂,…,v_N}其中vi是背景像素样本，对新的像素值(V(x))进行分类，即像素中位于x处的像素值。具体而言，如果在欧几里得颜色空间中接近新像素值的背景像素样本的数量高于给定阈值，则将新像素分类为背景。

步骤2.2：减去背景后的前景模板在背景中还是可能会有一些噪声点像素，通过中值滤波噪声消除算法对前景进行去噪。

步骤2.3：通过前面的步骤得到了清晰的轮廓图像。现在使用基于形状和径向直方图两种方法完成对工作姿势的轮廓图像的特征提取。鉴于形状特征的直观性、易理解性、对噪声不敏感性和实现容易的特性，通过提取图像的形状特征可以较好的识别图像中的目标，具体的实现过程如下：首先，使用MATLAB中的度量图像区域属性的regionprops函数，获取适合身体轮廓的边界框和椭圆。函数regionprops语法规则为：STATS＝regionprops(L,Properties)其中：返回值STATS是一个区域L对应属性Properties下的度量。Properties可以是由逗号分割的字符串列表、包含字符串的单元数组、单个字符串'all'或者'basic'，然后，依次分别完成三个身体轮廓基于形状的特征值的获取：

1)边界框的纵横比(边界框的水平长度/边界框的垂直长度)；

2)适合轮廓的椭圆的短轴与长轴的椭圆率(短轴的长度/椭圆的长轴的长度)；

3)椭圆取向。

步骤2.4：为了提取轮廓的径向直方图，先按边界框较大侧的平方标准化边界框的长度，然后通过使用下式，计算出轮廓的重心(x_c,y_c)。

其中，N_c表示该轮廓内的像素点个数，x_i表示第i个像素点的x坐标值，y_i表示第i个像素点的y坐标值；

接着以计算出的轮廓重心点为中心，按径向(在径向平面内通过轴心线的沿直径或半径的直线方向)将边界框依次分别完成8、12、16和20份的切片工作，并且针对获得的每个切片中对应的黑色和白色像素的比率进行直方图化。

三、模型训练

步骤3.1：构建VGG网络，在步骤9.6和步骤9.7已经得到了将要进行训练的特征，将提取出的特征输入到构建好的网络模型中进行训练。

四、姿势分类

步骤4.1：将测试集输入到上一步获得分类模型中进行测试，并对测试结果进行分析。

步骤4.2：若执行的分类结果对应的连续帧在较的短时间段内出现变化，那么就又有可能分类出的结果是不正确的分类姿势，这些结果通常被称为噪声，最后对结果中的噪声进行去噪处理。

综上所述，本发明提供了时域分析的镜头分割算法，用以对原始视频数据进行处理，得到便于利用的样本数据集。同时提供了基于VGG网络的姿态分类算法，用以对工人的作业姿势进行分类，以便够快速评估职业任务帮助完成人体工程学的指导，筛选出需要干预的危险任务，最终指导工人工作、提高工作效率。

Claims

1.一种基于时域分析深度网络的工人作业姿势分类方法，其特征在于：包括样本采集、样本预处理、模型训练以及姿势分类四步；

第一步，样本采集；对原始视频集进行处理，运用基于时域分析的镜头变化检测方法从动态图像专家组MPEG视频流中提取工人的运动信息，对视频镜头的一段时间内的工人姿势变化进行检测，根据检测结果对视频分帧，对分帧结果进行镜头分割后获得初始部分样本集；采用高斯脉冲响应滤波器消除初始部分样本集的噪声；制作人体模型，对其进行运动捕捉，得到完整的人体姿势的图像序列，虚拟构建出另一部分样本集，与上述镜头分割后的样本集共同组成初始样本集；

第三步，模型训练；将第二步提取的特征集划分为训练集和测试集，根据OWAS定义的手臂、腿部和背部三个身体部位的姿势为训练集设置虚拟训练姿势图像数据集标签，构建VGG网络模型，通过该模型对划分的训练集进行训练，得到可用于姿势分类的模型；

第四步，姿势分类；利用分类模型对第三步中的测试集进行测试，得到分类结果，若分类结果对应的连续帧在n毫秒内出现姿势类别变化，n<2000，则分类出的结果是不正确的分类姿势，这些结果为噪声，最后对结果中的噪声进行去噪处理。

2.根据权利要求1所述的基于时域分析深度网络的工人作业姿势分类方法，其特征在于：所述原始视频集是收集多个时间段内拍摄的工人作业视频组成的视频集合。

3.根据权利要求1所述的基于时域分析深度网络的工人作业姿势分类方法，其特征在于：所述第一步中，MPEG-2编码器将每帧分成大小为16x16的宏块MB来压缩视频；每个MB包含关于其时间预测的类型和用于运动补偿的相应向量的信息；将MPEG序列分析为一组三元组帧(RBb)的形式，R代表两种预测类型的参考帧，B为三元组的前双向帧，b为第二双向帧；定义帧三元组中的视觉差异测度的度量：

其中k是系数，

4.根据权利要求1所述的基于时域分析深度网络的工人作业姿势分类方法，其特征在于：第一步中制作人体模型时，使用RGB-D传感器，在虚拟空间的人体运动中插入特定人体身高和体重属性，完成基于视觉的动作捕捉，创建虚拟人体模型和完整的人体姿势的图像序列，获得训练的数据集；镜头分割的数据集和虚拟构建的数据集共同组成初始样本集。

5.根据权利要求1所述的基于时域分析深度网络的工人作业姿势分类方法，其特征在于，第二步中利用基于形状的方法对工作姿势的轮廓图像的特征进行提取，具体的实现过程如下：首先，使用MATLAB中的度量图像区域属性的regionprops函数，获取适合身体轮廓的边界框和椭圆；函数regionprops语法规则为：STATS＝regionprops(L,Properties)其中：返回值STATS是一个区域L对应属性Properties下的度量；Properties是由逗号分割的字符串列表、包含字符串的单元数组、单个字符串'all'或者'basic'，然后，依次分别完成三个身体轮廓基于形状的特征值的获取：

1)边界框的纵横比，边界框的水平长度/边界框的垂直长度；

2)适合轮廓的椭圆的短轴与长轴的椭圆率，短轴的长度/椭圆的长轴的长度；

3)椭圆取向。

6.根据权利要求1所述的基于时域分析深度网络的工人作业姿势分类方法，其特征在于，第二步中利用基于径向直方图的特征提取方法提取轮廓的径向直方图，具体的实现方法为：先按边界框较大侧的平方标准化边界框的长度，然后通过使用下式，计算出轮廓的重心(x_c,y_c)；

接着以计算出的轮廓重心点为中心，按径向将边界框依次分别完成8、12、16和20份的切片工作，并且针对获得的每个切片中对应的黑色和白色像素的比率进行直方图化。