CN114998990B - 一种工地人员安全行为识别方法及装置 - Google Patents
一种工地人员安全行为识别方法及装置 Download PDFInfo
- Publication number
- CN114998990B CN114998990B CN202210581561.XA CN202210581561A CN114998990B CN 114998990 B CN114998990 B CN 114998990B CN 202210581561 A CN202210581561 A CN 202210581561A CN 114998990 B CN114998990 B CN 114998990B
- Authority
- CN
- China
- Prior art keywords
- image
- staff
- histogram
- generating
- key points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供了一种工地人员安全行为识别方法及装置,通过获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;依据所述工作人员的骨骼信息生成工作人员的姿态特征;依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。通过色彩增强、灰度化等图像处理操作得到更适合神经网络处理分析的图像,提高数据处理的效率。
Description
技术领域
本发明涉及工地生产现场安全监测领域,具体涉及一种工地人员安全行为识别方法及装置。
背景技术
通过对作业人员在工地上的动作行为进行监测,配合一定的监管制度,能够在一定程度上降低安全事故的发生率,提高作业人员作业的安全系数。随着人工智能等技术快速更迭,将人工智能应用于工地的智慧工地越来越具有实际意义,其中人体行为识别作为以上作业人员行为监测的实质问题,作为人工智能领域中一个非常重要的分支,在深度学习飞速的发展之下,逐渐成为了国内外学者研究的热门领域。
随着相机的普及,RGB图像(RGB色彩模式是工业界的一种颜色标准,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的)视频数据的使用变得十分广泛,很多科研工作者着手于基于RGB图像视频实现行为识别的方法。
目前主流的方法有将图像数据和光流组成双流网络的双流法和直接使用图像数据输入3D卷积网络的方法,还有一系列基于骨骼数据的监督方法等。在我国,中国科学院自动化研究所国家重点实验室是首先接触肢体识别领域并对其开展研究的机构之一,现有一种采用加权递推平均滤波算法平滑骨骼数据的方法,该方法降低了骨骼点的不稳定性提高了数据的有效性,采用模板匹配的方法分析骨骼数据点进而实现人体动作识别,同时进行实时分类,精度较高。还有一种基于马氏距离的测量学习方法,用于人体动作识别,但以上方法大多以彩色视频作为数据处理的输入,数据处理运算量很大,虽结果准确率较高但处理过程复杂繁琐,比较耗费资源。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种工地人员安全行为识别方法及装置,包括:
一种工地人员安全行为识别方法,所述方法用于对工地人员行为是否安全进行识别,包括:
获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;
依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;
依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;
依据所述工作人员的骨骼信息生成工作人员的姿态特征;
依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
优选地,所述依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征的步骤,包括:
依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像;
依据所述增强图像中进行灰度化生成相对应的灰度图像;
将所述灰度图输入全卷积神经网络获得所述工作人员的外部特征。
优选地,所述依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像的步骤,包括:
依据所述视频数据中的每帧图像分别生成子灰度直方图集;其中,所述子灰度直方图集包括第一子灰度直方图、第二子灰度直方图、第三子灰度直方图以及第四子灰度直方图;
依据所述子灰度直方图集生成均衡直方图集;其中,所述均衡直方图集包括第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图;
依据所述均衡直方图集生成相对应的增强图像。
优选地,所述依据所述均衡直方图集生成相对应的增强图像的步骤,包括:
确定所述均衡直方图集内的第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图的灰度级分别占相对应所述视频数据中每帧图像的灰度级的比例;
依据所述比例将所述第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图进行合并生成所述相对应的增强图像。
优选地,所述依据所述增强图像中进行灰度化生成相对应的灰度图像的步骤,包括:
依据所述增强图像进行均衡化处理生成相对应的均衡化图像;
依据所述均衡化图像进行灰度化生成相对应的加权平均灰度图像;
依据所述加权平均灰度图像进行降噪生成相对应的灰度图像。
优选地,所述依据所述加权平均灰度图像进行降噪生成相对应的灰度图像的步骤,包括:
依据所述加权平均灰度图像进行方差稳定性变化生成相对应的含噪图像;
依据所述含噪图像生成相对应的第一含噪图像和相对应的第二含噪图像;
将所述第一含噪图像进行聚合并加入残差图生成相对应的聚合图像;
依据所述第二含噪图像和所述聚合图像进行协同滤波生成相对应的灰度图像。
优选地,所述依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据的步骤,包括:
依据所述工作人员的外部特征的灰度图像进行骨骼点卷积生成相对应的骨骼关键点的位置数据;
依据所述工作人员的外部特征的灰度图像进行骨骼线卷积生成相对应的骨骼关键点之间的连接信息数据。
为实现本申请还包括一种工地人员安全行为识别装置,所述装置用于对工地人员行为是否安全进行识别,包括:
外部特征模块,用于获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;
连接信息数据模块,用于依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;
骨骼信息模块,用于依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;
姿态特征模块,用于依据所述工作人员的骨骼信息生成工作人员的姿态特征;
安全结果模块,用于依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
为实现本申请还包括一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如所述的工地人员安全行为识别方法的步骤。
为实现本申请还包括一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如所述的工地人员安全行为识别方法的步骤。
本申请具有以下优点:
在本申请的实施例中,通过获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;依据所述工作人员的骨骼信息生成工作人员的姿态特征;依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。通过提高OpenPose算法的处理速度。传统的OpenPose算法使用VGG-19网络对数据进行特征提取,但VGG耗费资源较多,并且使用了更多的参数,导致更多的内存占用,其中绝大多数的参数来自于第一个全连接层,且VGG有3个全连接层,从而导致整体的运算效率不高,本文采用FCN网络代替VGG-19网络,将3个全连接层使用卷积层代替,提高了运算的效率,同时FCN网络可以输入任意尺寸的图片,提高了处理数据的灵活性。本文数据输入神经网络前做了充分的预处理工作,通过色彩增强、灰度化等图像处理操作得到更适合神经网络处理分析的图像,提高数据处理的效率。本申请通过对工地作业人员的行为动作进行监测识别,通过神经网络对其动作进行特征提取、分析来判断其行为是否危险,可能发生安全事故,再配以一定的监督管理制度,从一定程度上保障了工地作业人员的安全。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种工地人员安全行为识别方法的步骤流程图;
图2是本申请一实施例提供的一种工地人员安全行为识别方法的工地作业人员作业情况图;
图3是本申请一实施例提供的一种工地人员安全行为识别方法的基于直方图分割的彩色图像增强算法对图片处理后的示意图;
图4是本申请一实施例提供的一种工地人员安全行为识别方法的用加权平均法对图像进行灰度化处理后的示意图;
图5是本申请一实施例提供的一种工地人员安全行为识别方法的使用BM3D 降噪法对图片进行降噪后的示意图;
图6是本申请一实施例提供的一种工地人员安全行为识别方法的改进BM3D算法流程图;
图7是本申请一实施例提供的一种工地人员安全行为识别方法的骨骼点信息提取示意图;
图8是本申请一实施例提供的一种工地人员安全行为识别方法的OpenPose算法网络结构图;
图9是本申请一实施例提供的一种工地人员安全行为识别方法的人体骨骼关键点示意图;
图10是本申请一实施例提供的一种工地人员安全行为识别方法的人体骨骼关键点的定义图;
图11是本申请一实施例提供的一种工地人员安全行为识别方法的全卷积神经网络结构图;
图12是本申请一实施例提供的一种工地人员安全行为识别方法的一幅227*227*3的图像实例图;
图13是本申请一实施例提供的一种工地人员安全行为识别方法的FCN中的heatmap图;
图14是本申请一实施例提供的一种工地人员安全行为识别方法的卷积与反卷积过程示意图;
图15是本申请一实施例提供的一种工地人员安全行为识别方法的池化与反池化的两种形式示意图;
图16是本申请一实施例提供的一种工地人员安全行为识别方法的融合操作示意图;
图17是本申请一实施例提供的一种工地人员安全行为识别方法的不同数量的Maxout层测试结果图;
图18是本申请一实施例提供的一种工地人员安全行为识别方法的MaxoutMLP层模块中的特征映射计算公式图;
图19是本申请一实施例提供的一种工地人员安全行为识别方法的构建嵌套Maxout层的卷积层结构图;
图20是本申请一实施例提供的一种工地人员安全行为识别方法的嵌套Maxout层的卷积神经网络整体结构图;
图21是本申请一实施例提供的一种工地人员安全行为识别方法的Softmax分类器的向量角度计算函数的公式图;
图22是本申请一实施例提供的一种工地人员安全行为识别方法的神经网络训练过程中利用Softmax分类的损失函数计算公式图;
图23是本申请一实施例提供的一种工地人员安全行为识别方法的梯度下降算法计算反向传播过程中损失函数的公式图;
图24是本申请一实施例提供的一种工地人员安全行为识别方法的发明流程图;
图25是本申请一实施例提供的一种工地人员安全行为识别装置的结构框图;
图26是本发明一实施例提供的一种计算机设备的结构示意图;
图27是本申请一实施例提供的一种工地人员安全行为识别方法的分支t_1、分支t_2和总的损失函数的公式图。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,示出了本申请一实施例提供的一种工地人员安全行为识别方法的步骤流程图,具体包括如下步骤:
S110、获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;
S120、依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;
S130、依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;
S140、依据所述工作人员的骨骼信息生成工作人员的姿态特征;
S150、依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
下面,对本示例性实施例中工地人员安全行为识别方法作进一步地说明。
如上述步骤S110所述,获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征。
在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征”的具体过程。
在一具体实施例中,在工地作业人员附近安装4K(4K是指水平方向每行像素值达到或者接近4096个)高清摄像头对作业区域进行拍照,如图2所示。
如下列步骤所述,依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像;依据所述增强图像中进行灰度化生成相对应的灰度图像;将所述灰度图输入全卷积神经网络获得所述工作人员的外部特征。
在本发明一实施例中,结合下列描述进一步说明步骤“依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像”的具体过程。
在一具体实施例中,对摄像头拍摄到的照片使用基于直方图分割的彩色图像增强算法,得到色彩增强后有更好视觉效果的图像。在于改善图像视觉效果,将摄像头拍摄的图片转化为更适合机器处理分析的形式,如图3所示。
如下列步骤所述,依据所述视频数据中的每帧图像分别生成子灰度直方图集;其中,所述子灰度直方图集包括第一子灰度直方图、第二子灰度直方图、第三子灰度直方图以及第四子灰度直方图;依据所述子灰度直方图集生成均衡直方图集;其中,所述均衡直方图集包括第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图;依据所述均衡直方图集生成相对应的增强图像。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述均衡直方图集生成相对应的增强图像”的具体过程。
如下列步骤所述,确定所述均衡直方图集内的第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图的灰度级分别占相对应所述视频数据中每帧图像的灰度级的比例;依据所述比例将所述第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图进行合并生成所述相对应的增强图像。
需要说明的是,图像增强是图像分析与处理的一个重要的预处理过程是利用各种数学方法和变换手段来提高图像的对比度和清晰度以突出主体区域的手段。采用直方图均衡化对彩色图像进行增强的方式主要有以下几种:(1)先将彩色图像分成RGB,3幅子图像,然后分别对这三幅子图像进行处理合并;(2)直接对3维彩色图像进行处理,并计算出RGB三幅子图像的联合概率密度,再根据此密度进行直方图均衡化;(3)将图像从RGB色彩空间转换到HIS(用色调、色饱和度和亮度来描述色彩)色彩空间然后对亮度分量I进行增强。
在一具体实施例中,本申请基于以上增强算法提出一种新的彩色图像直方图均衡化方法,该方法分别按图像灰度均值和灰度直方图等面积原则对RGB各分量子图的灰度直方图做分割,首先生成 4个子灰度直方图,同时对生成的 4个子灰度直方图进行均衡化处理,然后计算RGB各分量子图的灰度级占原彩色图像灰度级总数的比例并按照此比例合并RGB各分量子图,该方法对彩色图像进行增强处理不仅具有较低的运算复杂度而且合并后的图像具有良好的视觉效果。
需要说明的是,直方图均衡化就是把给定图像的灰度直方图分布改造成近似均匀的直方图分布,使得输出图像的像。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述增强图像中进行灰度化生成相对应的灰度图像”的具体过程。
如下列步骤所述,依据所述增强图像进行均衡化处理生成相对应的均衡化图像;依据所述均衡化图像进行灰度化生成相对应的加权平均灰度图像;依据所述加权平均灰度图像进行降噪生成相对应的灰度图像。
在一具体实施例中,对色彩增强后的图像使用加权平均法对图素灰度的概率密度均匀分布。由于直方图均衡化算法是用于对灰度图像进行处理的算法,因此在利用其处理彩色图像时是对每个分量分别进行处理。
本申请提出的算法是在进行直方图分割后,再根据各自区间内的直方图进行均衡化处理。像进行灰度化处理,如图4所示,得到障碍区域的灰度图,使用BM3D(BlockMatching 3D,三维块匹配算法)降噪法对图片进行降噪,如图5所示。目的在于提高图像处理效率,抑制消除噪点,提高图像的质量,便于后续对图片的预处理工作。
在一具体实施例中,将增强图像转化成为灰度图像的过程称为图像的灰度化处理。本文使用加权平均法进行图像的灰度化处理,加权平均法是根据重要性等因素,将三个分量按不同的权值进行加权平均,由于人眼对绿色的敏感最高,对蓝色敏感最低,因此,按下式对RGB三分量进行加权平均才能得到较合理的灰度图像,如下式所示:
Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j)
加权平均灰度化处理的方法能够更好的保留图片细节,有效的避免了像素溢出的问题又能够得出效果良好的灰度图像,能够较好地完成对图片的灰度化处理。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述加权平均灰度图像进行降噪生成相对应的灰度图像”的具体过程。
如下列步骤所述,依据所述加权平均灰度图像进行方差稳定性变化生成相对应的含噪图像;依据所述含噪图像生成相对应的第一含噪图像和相对应的第二含噪图像;将所述第一含噪图像进行聚合并加入残差图生成相对应的聚合图像;依据所述第二含噪图像和所述聚合图像进行协同滤波生成相对应的灰度图像。
作为一种示例,依据所述含噪图像生成相对应的第一含噪图像和相对应的第二含噪图像;具体地,依据所述含噪图像进行相似块分组生成相对应的第一含噪图像和相对应的第二含噪图像;依据所述第一含噪图像进行协调滤波处理生成相对应的协调滤波图像;依据所述协调滤波图像进行聚合并加入残差图生成相对应的聚合图像;依据所述第二含噪图像和所述聚合图像进行相似块分组并进行维纳滤波生成相对应的灰度图像。
需要说明的是,目前常见的图像去噪的算法主要分为三类:第一类为基于空间滤波的去噪算法,如常见的均值滤波等、高斯滤波等;第二类为基于变换域的去噪算法,如经典的小波去噪算法;第三类为基于噪声的统计模型,如基于极大似然估计的去噪算法,BM3D算法(Block Matching 3D,三维块匹配算法),是一种根据图像块间的相似性进行去噪的三维滤波算法。经典BM3D算法主要思想为:将具有相似性结构的二维图像块组合成三维的图像块组,利用联合滤波对这个三维数组进行去噪处理,从而得到滤波后的图像,但由于图像噪声复合的特殊性和复杂性,传统的BM3D 算法处理的效果不够理想,出现了细节丢失、模糊等现象。
由此,本申请对BM3D算法进行了改进,提出了一种改进版的BM3D降噪法。在传统算法的初步估计后我们将得到的残差图的一部分加入到初步去噪的图像中,再进行第二步的最终估计。
首先通过VST(方差稳定性)变换,得到方差均匀稳定的含噪图像,使得常见算法对于图像的噪声处理有更大用处,同时提高改进算法的后续去噪能力,然后通过向第一步滤波图像中加入残差图,降低图像细节的损失,再通过 BM3D 算法的第二步,将组合图像和噪声图像同时进行相似块分组,得到去噪图像的最终估计,改进后的BM3D算法流程图如图6所示。
在一具体实施例中,VST(方差稳定)变换:由于随机噪声并非单纯的高斯白噪声,直接使用BM3D 算法进行去噪效果不佳,为了能使 BM3D 能在自然图像去噪上取得较好的效果,采用方差稳定的方法(VST)得到方差分布均匀的噪声,然后用改进的 BM3D 方法对同方差的噪声图像进行处理,最后将图像进行方差稳定的逆变换得到去噪图像的无偏估计。
在BM3D算法的最终估计时,使用维纳滤波取代硬阈值,能够更好地保护图像的边缘细节,在已经进行过初步估计的前提下,使得在去噪的同时达到了保留细节的效果。
在一具体实施例中,加入残差图后的最终估计的具体为,在进行完第一步以后,得到了去噪图像i'的初步估计,本申请认为进行完第一步后的滤波噪声,包含了图像的部分细节信息,为了进一步提高算法的精度,将第一步滤波过后的部分残差图添加到滤波图像中,即向初步估计的结果中加入噪声反馈,将得到的新的图像再进行最终估计。此过程可以简单的理解成为将滤波图像和噪声图像进行加权平均,组合得到新的图像,新图像可表示为:Inew=i'+δ(i-i'),其中i为原始含噪图像,Inew为所得新的组合图像,δ为一个参数,表示噪声图像在新图像中所占比例为δ。
将所得的组合图像进行分块,步骤类似于初步估计,选定参考块,并将与参考块相似的图像块组合成为相似块组S(p)',对这个新的三维矩阵及噪声图像的三维矩阵S(p)进行一维变换及二维变换,本文使用DCT变换,与第一步初步估计不同,此处利用第一步基础估计的权值用维纳滤波对三维变换的矩阵进行系数收缩,然后通过逆变换得到各图像块的最终估计值。最后,将所有的图像块根据维纳滤波后得到的权重融合到原来的位置,得到最终的去噪图像。
如下列步骤所述,依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像;依据所述增强图像中进行灰度化生成相对应的灰度图像;将所述灰度图输入全卷积神经网络获得所述工作人员的外部特征。将所述灰度图输入三个全连接层生成所述工作人员的外部特征。
在一具体实施例中,传统的OpenPose算法使用VGG-19网络对数据进行特征提取,但VGG耗费资源较多,并且使用了更多的参数,导致更多的内存占用,其中绝大多数的参数来自于第一个全连接层,且VGG有3个全连接层,从而导致整体的运算效率不高。遂本文提出采用全卷积神经网络(FCN)代替VGG-19网络,将3个全连接层使用卷积层代替。首先将预处理充分的图片输入全卷积神经网络(FCN)中,获得图像的外部特征。
在一具体实施例中,全卷积神经网络,FCN是在CNN(卷积神经网络)基础上的发展和延伸。CNN通过构建多层的卷积层自动提取图像上的特征,但CNN存在图像精细分割等局限性,由此FCN网络被提出,FCN与CNN的核心区别就是FCN将CNN末尾的全连接层转化成了卷积层,如图11。
FCN能够确定影像中每一个像素的类别,不仅能够识别像素“是什么”,还能够定位像素“在哪里”,实现了从CNN图像级别的分类进一步延伸到像素级别的分类,一定程度上提高了对图片的处理效率,FCN网络原理如下:
以一幅227*227*3的图像为例,前5层是卷积层,第5层的输出是256个特征图,大小是6*6,即256*6*6,第6、7、8层分别是长度是4096、4096、1000的一维向量如图12所示。
在FCN中第6、7、8层都是通过卷积得到的,卷积核的大小全部是1*1,第6层的输出是4096*7*7,第7层的输出是4096*7*7,第8层的输出是1000*7*7(7是输入图像大小的1/32),即1000个大小是7*7的特征图(称为heatmap),如图13所示。
经过多次卷积后,图像的分辨率越来越低,为了从低分辨率的heatmap恢复到原图大小,以便对原图上每一个像素点进行分类预测,需要对heatmap先上池化操作再进行反卷积,即上采样操作,使图像分辨率提高到原图大小。
在FCN中,将特征图恢复至原图尺寸的过程称为上采样,上采样操作常用的是反卷积、反池化等方法。FCN中的反卷积与数学意义的反卷积过程不同,它实际上采用的是转置卷积的过程,目的是还原特征图的尺寸。图14为卷积和反卷积过程示意图。卷积过程中输入图像为4*4,通过步长为1、大小为3*3的卷积核,得到2*2大小的特征图。反卷积过程则是希望通过2*2的输入图像获得4*4大小的输出特征图如图14所示。假设输入图像尺寸为Wl-1×Wl-1,输出图像尺寸为Wl×Wl,步长为Stride,边界填充padding,根据下式可推算出反卷积层的卷积核大小Kernel Size:
Kernel Size=Wl+2×paddiing-Stride×(Wl-1-1)
反池化操作是池化操作的逆过程,如图15所示。对于最大池化,需记录下池化过程中最大值的位置,并在反池化过程中将输入图像中的元素值赋予特征图中相应的位置上,其余位置为0,如图15中的a所示。对于平均池化,则反池化过程是在特征图中的每个位置均赋予与输入图像中的元素相同的值,如图15中的b所示。
对第5层的输出执行32倍的反卷积得到原图,得到的结果不是很精确,同时执行第4层和第3层输出的反卷积操作(分别需要16倍和8倍的上采样),再把这3个反卷积的结果图像融合,提升结果的精确度,如图16。
如下列步骤所述,依据所述工作人员的外部特征的灰度图像进行骨骼线卷积生成相对应的骨骼关键点之间的连接信息数据。
如上述步骤S120所述,依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据”的具体过程。
如下列步骤所述,依据所述工作人员的外部特征的灰度图像进行骨骼点卷积生成相对应的骨骼关键点的位置数据;依据所述工作人员的外部特征的灰度图像进行骨骼线卷积生成相对应的骨骼关键点之间的连接信息数据。
作为一种示例,依据所述工作人员的外部特征的灰度图像进行骨骼点卷积生成相对应的骨骼关键点的位置数据;具体地,依据所述工作人员的外部特征的灰度图像通过OpenPose算法(OpenPose人体姿态识别项目是美国卡耐基梅隆大学基于卷积神经网络和监督学习并以caffe为框架开发的开源库)生成相对应的骨骼关键点的位置数据。
在一具体实施例中,使用OpenPose算法提取行为动作的骨节点信息,首先将充分预处理的图像输入到全卷积神经网络(FCN)中,获得图像的外部特征,进而获得图像中作业人员行为动作骨节点信息,如图7所示。
需要说明的是,OpenPose算法最初是以Caffe(卷积神经网络框架)为框架的开源人体检测项目,其采用自下而上的方法,能够对面部关键点、人体关键点和手部关键点进行检测,适用于单人和多人的检测,具有很强的鲁棒性,其网络结构图如图8所示。但传统的OpenPose算法使用VGG-19网络对数据进行特征提取,但VGG((visual geometry group,超分辨率测试序列)耗费资源较多,并且使用了更多的参数,导致更多的内存占用,其中绝大多数的参数来自于第一个全连接层,且VGG有3个全连接层,从而导致整体的运算效率不高。
在本申请一具体实施例中,因为上述原因遂本申请提出采用全卷积神经网络(FCN)代替VGG-19网络,将3个全连接层使用卷积层代替。首先将预处理充分的图片输入全卷积神经网络(FCN)中,获得图像的外部特征。
然后进入预测阶段,每个预测阶段被分为两个分支进行迭代训练,分支t_1通过多个卷积层来预测人体各个骨骼关键点的位置;分支t_2通过多个卷积层来预测各个骨骼关键点之间的连接信息。每个预测阶段都会计算一次损失函数,之后将FCN提取到的图像特征、骨骼点位置信息、骨骼点之间的连接信息融合,并送入下一个阶段再进行训练。如此反复,最后经过T(T≥2)个阶段,得到图像中人体的骨骼关键点。其中,t_1、分支t_2和总的损失函数计算公式如图27所示。
其中,是t阶段分支t_1的损失函数值,表示t_1输出的预测值/>与标注值/>之间的L2范数;j为骨骼点序号;t表示预测阶段序号。W(p)为二值矩阵,当其取0时表示某个关键点标注缺失,损失函数不计算该点;当其取1时表示关键点标注正常。/>是t阶段分支t_2的损失函数值,表示t_2输出的预测值/>与标注值/>之间的L2范数;c表示关键连接号。f表示训练阶段总的损失函数值,是/>和/>的总和。
在一具体实施例中,经过OpenPose算法检测后,得到人体的骨骼关键点,如图9所示,对应的18个骨骼点序号如图10所示。得到骨骼点数据之后还需对数据进行优化,首先要确定主关键点,由图9可知,脖子关键点与其他所有关键点都相连,是所有关键点中的核心关键点,所以把脖子关键点确定为整个骨骼点数据的主关键点,若在所有的骨骼数据中未检测到脖子关键点,即缺失图10中的No.0 Neck(脖子)的数据,则剔除该动作并重新采样数据,其次,若有部分关键点的缺失则连续拍摄图片采取数据,通过前后两帧图像关键点位置的均值来估计填充,若前后两帧均无缺失关键点的信息则将其直接删除。若由于遮挡等原因无法检测到腿部、肘部等位置的关键点,则进行补0操作,至此已完成对作业人员行为动作骨节点信息的提取。
本申请提出了更高效的图片预处理方法。本文所提出的方法对摄像机采集到的高清图片进行了充分的预处理工作,首先对图像进行色彩增强而后对其进行灰度化处理,最后对其进行降噪操作,通过三步操作提高了摄像机采集到图像的质量,且将原本体积较大的图片在保留重要特征的前提下进行压缩,充分提高了后续对图片处理的速度,在一定程度上也提高了处理速度。
如上述步骤S130所述,依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息。
在本发明一实施例中,可以结合下列描述进一步说明步骤S130所述“依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息”的具体过程。
如下列步骤所述,将所述骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成在所述工作人员的外部特征上进行结合生成相对应的工作人员的骨骼信息。
作为一种示例,在所述工作人员的外部特征上描绘所述骨骼关键点的位置,再将所述骨骼关键点之间的连接信息数据将所述骨骼关键点进行连接,生成得到相对应的工作人员的骨骼信息。
本申请提出了使用改进的OpenPose算法进行骨节点信息提取。本文使用OpenPose算法来提取作业人员行为动作的骨节点信息,传统OpenPose算法使用VGG19网络对图片进行特征分析等操作,但VGG19网络庞大繁杂,参数量极大,耗费资源较多,遂本文采用FCN网络代替VGG-19网络,将3个全连接层使用卷积层代替,提高了运算的效率,同时FCN网络可以输入任意尺寸的图片,提高了处理数据的灵活性。
如上述步骤S140所述,依据所述工作人员的骨骼信息生成工作人员的姿态特征。
在本发明一实施例中,可以结合下列描述进一步说明步骤S140所述“依据所述工作人员的骨骼信息生成工作人员的姿态特征”的具体过程。
如下列步骤所述,依据所述工作人员的骨骼信息输入嵌套Maxout层的卷积神经网络模型生成工作人员的姿态特征;其中,所述嵌套MaxoutMLP层为四层。
作为一种示例,所述嵌套Maxout层的卷积神经网络模型的包括:确定嵌套层数为四层、构建嵌套层、叠加四个嵌套Maxout层的卷积层模块形成本文嵌套MaxoutMLP层的卷积神经网络整体结构。
在一具体实施例中,因为在骨节点提取时已经使用FCN网络对图像的外部特征进行了提取,所以在此基础上使用Mo-CNN神经网络对FCN网络已经提取的信息进行二次特征提取,即提取人体的姿态特征。
本文提出基于CNN网络优化的Mo-CNN网络,传统CNN在卷积层使用单层线性卷积,对非线性特征的提取和复杂图像隐含的抽象特征提取表现不突出。激活函数具有强大的拟合能力,在神经元数量足够的情况下,能够拟合所有特征模式,因此采用嵌套MaxoutMLP(Multi Layer Perceptron,多重层感知)层(是深度学习网络中的一层网络)与激活函数组合来提升算法的拟合能力,提高模型的识别准确率。
在一具体实施例中,嵌套层数的确定,嵌套Maxout层的神经网络中线性区域的数量随着Maxout层的数量增加而增加,此外激活函数ReLU和Maxout网络中的线性区域的数量随着层数呈指数增长。使用不同数量的Maxout层片段在数据集上测试了本文方法,如图17所示。不同数量的Maxout片段与使用Maxout层与批量归一化(BatchNormaliztion,BN)层片段组合测试结果,当Maxout片段为5时嵌套模型已经达到饱和状态,所以本文选择四个嵌套层。
在一具体实施例中,构建嵌套层:嵌套多层Maxout网络的卷积层,即基于嵌套网络结构使用MaxoutMLP进行特征提取,构建的卷积神经网络模型使用批量标准化来降低饱和度并使用压差来防止过度拟合。此外,为了增加对象空间转换的稳健性,在所有池层中应用平均池以聚合MaxoutMLP获得的基本特征嵌套MaxoutMLP层模块中的特征映射计算如图18所示,式中,BN(·)表示批量归一化层;(i,j)是特征图中像素的位置;xi,j是以像素点(i,j)为中心的输入块;kn等是特征图中的各通道序号;n则是嵌套MaxoutMLP的层数。批量标准化层可以在激活函数之前应用,在这种情况下,非线性单元倾向于产生具有稳定分布的激活,降低饱和度。如图19所示,构建嵌套Maxout层的卷积层结构图。
在一具体实施例中,嵌套Maxout层的卷积神经网络模型,通过叠加四个嵌套Maxout层的卷积层模块形成本文嵌套MaxoutMLP层的卷积神经网络整体结构,如图20所示。
嵌套MaxoutMLP层的网络结构相当于级联的跨通道参数池和卷积层上的跨通道最大池,嵌套结构可以线性地组合特征图并选择最有效信息的组合输出到下一层。嵌套结构通过应用批量归一化来降低饱和度,并且可以对路径或Maxout碎片的激活模式中的信息进行编码,增强卷积神经网络深层架构的辨别能力。
本申请提出对卷积神经网络CNN进行修改,嵌套多个Maxout层提高网络模型的效率。通过嵌套 Maxout MLP 层的网络结构,提高了神经网络对非线性特征以及复杂图像隐含的抽象特征提取能力。嵌套层中使用激活函数 ReLU,在神经元数量足够的情况下,能够提升神经网络拟合特征模式的性能,嵌套结构使用批量归一化来降低饱和度,并且可以对路径或 Maxout 碎片的激活模式中的信息进行编码,增强卷积神经网络深层架构的辨别能力,与传统方法和传统 CNN方法比较,有一定的进步。
如上述步骤S150所述,依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
在本发明一实施例中,可以结合下列描述进一步说明步骤S150所述“依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全”的具体过程。
如下列步骤所述,将所述姿态特征输入Softmax分类器中生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
在一具体实施例中,Softmax分类器是logistic回归模型在多分类问题上的推广,通常用来解决多分类问题,本文优化的卷积神经网络模型使用Softmax分类器对行为进行分类处理。假设将异常行为分为k个,并对k个行为进行分类,样本数据有m个,样本维度为n。假设卷积神经网络训练数据集为T:
T={(x(1),y(1)),(x(2),y(2)),...,(x(m),y(m))}
式中:x(i)为第i个输入样本;y(i)为第i个样本的行为标签,y(i)∈{1,2,…,k}。
对于每个输入x(i),Softmax分类器会计算对应每个类的概率,计算公式如下:
P(y=j|x)y=1,2…k
从向量角度来看,计算函数的公式图21所示,图21的公式中:θ表示神经网络参数。可见,行为有k个,每个行为对应一个概率值,概率的取值范围在[0,1]之间,k个异常行为的概率和为1。神经网络的输出对应行为的概率以及该概率对应行为的标签。
神经网络训练过程中利用Softmax进行行为分类,损失函数计算公式如图22所示,图22的公式中:1{y(i)=j}表示指示函数,当y(i)与j相等时,输出为1,反之,输出为0,其输出为异常行为的标签矩阵。
通常情况下,利用梯度下降算法计算反向传播过程中损失函数,计算公式如图23所示。
利用上式得到损失函数对权值参数的梯度,利用该梯度指导神经网络模型参数调整,直至神经网络训练结束并得到最佳的权值参数。
在一具体实施例中,如图24,步骤1-2为设备准备及图像采集部分。
步骤1:准备4K高清摄像机及必要安装设备,将摄像机安装在作业人员作业环境周围,保证摄像机供电充足且能够对作业人员行为动作拍摄清晰且不影响作业人员作业。
步骤2:启动摄像机对作业人员行为动作进行拍照。
(步骤3-4为图像预处理部分)
步骤3:对摄像机拍摄的照片使用直方图分割的彩色图像增强算法,得到色彩效果更明显更易于计算机处理的图像。
步骤4:对色彩增强后的图像进行降噪、灰度化处理,得到去色后的图像,提高对图像的处理效率。
(步骤5-6为提取行为动作骨节点部分)
步骤5:将步骤4处理后的图片输入到全卷积神经网络(FCN)中,进行外部特征提取,便于后续使用OpenPose算法进行骨骼点信息的提取。
步骤6:将FCN提取的信息输入到OpenPose算法中,使用OpenPose算法对图片中作业人员的行为动作进行骨节点信息提取。
(步骤7为提取行为动作特征部分)
步骤7:将步骤6中提取到的骨节点信息输入到Mo-CNN网络中进行二次特征提取,即提取人体的姿态特征。
(步骤8为分类识别,检测行为部分)
步骤8:将步骤7中提取到的信息输入到Softmax分类器中,进行分类识别,检测出行为是否安全。
本申请中的图像预处理方法具有更细节、更精准、更高效的特点,结合FCN网络及OpenPose算法提取出行为动作的骨节点信息,通过使用FCN网络使得在数据处理方面更加高效、灵活,通过嵌套MaxoutMLP层的网络结构,提高了神经网络对非线性特征以及复杂图像隐含的抽象特征提取能力,提高了行为动作识别的效率,在一定程度上提高了作业人员作业时的安全系数。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图25,示出了本申请一实施例提供的一种工地人员安全行为识别装置,具体包括如下模块,
外部特征模块251:用于获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;
连接信息数据模块252:用于依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;
骨骼信息模块253:用于依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;
姿态特征模块254:用于依据所述工作人员的骨骼信息生成工作人员的姿态特征;
安全结果模块255:用于依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
在本发明一实施例中,所述外部特征模块251包括:
增强图像子模块:用于依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像;
灰度图像子模块:用于依据所述增强图像中进行灰度化生成相对应的灰度图像;
外部特征子模块:用于将所述灰度图输入全卷积神经网络获得所述工作人员的外部特征。
在本发明一实施例中,所述增强图像子模块包括:
子灰度直方图集子模块:用于依据所述视频数据中的每帧图像分别生成子灰度直方图集;其中,所述子灰度直方图集包括第一子灰度直方图、第二子灰度直方图、第三子灰度直方图以及第四子灰度直方图;
均衡直方图集子模块:用于依据所述子灰度直方图集生成均衡直方图集;其中,所述均衡直方图集包括第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图;
增强图像生成子模块:用于依据所述均衡直方图集生成相对应的增强图像。
在本发明一实施例中,所述增强图像生成子模块包括:
灰度级的比例子模块:用于确定所述均衡直方图集内的第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图的灰度级分别占相对应所述视频数据中每帧图像的灰度级的比例;
合并子模块:用于依据所述比例将所述第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图进行合并生成所述相对应的增强图像。
在本发明一实施例中,所述灰度图像子模块包括:
均衡化图像生成子模块:用于依据所述增强图像进行均衡化处理生成相对应的均衡化图像;
加权平均灰度图像生成子模块:用于依据所述均衡化图像进行灰度化生成相对应的加权平均灰度图像;
相对应的灰度图像生成子模块:用于依据所述加权平均灰度图像进行降噪生成相对应的灰度图像。
在本发明一实施例中,所述相对应的灰度图像生成子模块包括:
含噪图像子模块:用于依据所述加权平均灰度图像进行方差稳定性变化生成相对应的含噪图像;
第二含噪图像子模块:用于依据所述含噪图像生成相对应的第一含噪图像和相对应的第二含噪图像;
聚合图像子模块:用于将所述第一含噪图像进行聚合并加入残差图生成相对应的聚合图像;
协同滤波子模块:用于依据所述第二含噪图像和所述聚合图像进行协同滤波生成相对应的灰度图像。
在本发明一实施例中,所述连接信息数据模块252包括:
位置数据子模块:用于依据所述工作人员的外部特征的灰度图像进行骨骼点卷积生成相对应的骨骼关键点的位置数据;
连接信息数据子模块:用于依据所述工作人员的外部特征的灰度图像进行骨骼线卷积生成相对应的骨骼关键点之间的连接信息数据。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
在本具体实施例与上述具体实施例中有重复的操作步骤,本具体实施例仅做简单描述,其余方案参考上述具体实施例描述即可。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图26,示出了本申请的一种工地人员安全行为识别方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,内存28,连接不同系统组件(包括内存28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、音视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
内存28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图26中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些程序模块42被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过I/O接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图26所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图26中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在内存28中的程序,执行各种功能应用以及数据处理,例如实现本申请实施例所提供的一种工地人员安全行为识别方法。
也即,上述处理单元16执行上述程序时实现:获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;依据所述工作人员的骨骼信息生成工作人员的姿态特征;依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
在本申请实施例中,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种工地人员安全行为识别方法。
也即,给程序被处理器执行时实现:获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;依据所述工作人员的骨骼信息生成工作人员的姿态特征;依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种工地人员安全行为识别方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (8)
1.一种工地人员安全行为识别方法,所述方法用于对工地人员行为是否安全进行识别,其特征在于,包括:
获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;具体地,依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像;依据所述增强图像中进行灰度化生成相对应的灰度图像;将所述灰度图输入全卷积神经网络获得所述工作人员的外部特征;
依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;具体地,进入预测阶段,每个预测阶段被分为两个分支进行迭代训练;分支t_1依据所述工作人员的外部特征进行骨骼点卷积生成相对应的骨骼关键点的位置数据;分支t_2依据所述工作人员的外部特征进行骨骼线卷积生成相对应的骨骼关键点之间的连接信息数据;每个预测阶段都会计算一次损失函数,然后将工作人员的外部特征、骨骼关键点位置信息、骨骼关键点之间的连接信息融合,并送入下一阶段再进行训练,一共经过T个阶段,T≥2;其中,分支t_1、分支t_2和总的损失函数计算公式如下所示:
式中,是t阶段分支t_1的损失函数值,表示t_1输出的预测值/>与标注值/>之间的L2范数;j为骨骼点序号;t表示预测阶段序号;W(P)为二值矩阵,当其取0时表示某个关键点标注缺失,损失函数不计算该点;当其取1时表示关键点标注正常;/>是t阶段分支t_2的损失函数值,表示t_2输出的预测值/>与标注值/>之间的L2范数;c表示骨骼关键点连接序号;f表示训练阶段总的损失函数值,是/>和/>的总和;
依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;
依据所述工作人员的骨骼信息生成工作人员的姿态特征;依据所述工作人员的骨骼信息输入嵌套Maxout层的卷积神经网络模型生成工作人员的姿态特征;
依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
2.根据权利要求1所述的工地人员安全行为识别方法,其特征在于,所述依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像的步骤,包括:
依据所述视频数据中的每帧图像分别生成子灰度直方图集;其中,所述子灰度直方图集包括第一子灰度直方图、第二子灰度直方图、第三子灰度直方图以及第四子灰度直方图;
依据所述子灰度直方图集生成均衡直方图集;其中,所述均衡直方图集包括第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图;
依据所述均衡直方图集生成相对应的增强图像。
3.根据权利要求2所述的工地人员安全行为识别方法,其特征在于,所述依据所述均衡直方图集生成相对应的增强图像的步骤,包括:
确定所述均衡直方图集内的第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图的灰度级分别占相对应所述视频数据中每帧图像的灰度级的比例;
依据所述比例将所述第一均衡直方图、第二均衡直方图、第三均衡直方图以及第四均衡直方图进行合并生成所述相对应的增强图像。
4.根据权利要求1所述的工地人员安全行为识别方法,其特征在于,所述依据所述增强图像中进行灰度化生成相对应的灰度图像的步骤,包括:
依据所述增强图像进行均衡化处理生成相对应的均衡化图像;
依据所述均衡化图像进行灰度化生成相对应的加权平均灰度图像;
依据所述加权平均灰度图像进行降噪生成相对应的灰度图像。
5.根据权利要求4所述的工地人员安全行为识别方法,其特征在于,所述依据所述加权平均灰度图像进行降噪生成相对应的灰度图像的步骤,包括:
依据所述加权平均灰度图像进行方差稳定性变化生成相对应的含噪图像;
依据所述含噪图像生成相对应的第一含噪图像和相对应的第二含噪图像;
将所述第一含噪图像进行聚合并加入残差图生成相对应的聚合图像;
依据所述第二含噪图像和所述聚合图像进行协同滤波生成相对应的灰度图像。
6.一种工地人员安全行为识别装置,所述装置用于对工地人员行为是否安全进行识别,其特征在于,包括:
外部特征模块,用于获取工作区域内工作人员视频数据,并依据全卷积神经网络确定所述视频数据中所述工作人员的外部特征;具体地,依据所述视频数据中的每帧图像分别进行彩色图像增强生成相对应的增强图像;依据所述增强图像中进行灰度化生成相对应的灰度图像;将所述灰度图输入全卷积神经网络获得所述工作人员的外部特征;
连接信息数据模块,用于依据所述工作人员的外部特征生成骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据;具体地,进入预测阶段,每个预测阶段被分为两个分支进行迭代训练;分支t_1依据所述工作人员的外部特征进行骨骼点卷积生成相对应的骨骼关键点的位置数据;分支t_2依据所述工作人员的外部特征进行骨骼线卷积生成相对应的骨骼关键点之间的连接信息数据;每个预测阶段都会计算一次损失函数,然后将工作人员的外部特征、骨骼关键点位置信息、骨骼关键点之间的连接信息融合,并送入下一阶段再进行训练,一共经过T个阶段,T≥2;其中,分支t_1、分支t_2和总的损失函数计算公式如下所示:
式中,是t阶段分支t_1的损失函数值,表示t_1输出的预测值/>与标注值/>之间的L2范数;j为骨骼点序号;t表示预测阶段序号;W(P)为二值矩阵,当其取0时表示某个关键点标注缺失,损失函数不计算该点;当其取1时表示关键点标注正常;/>是t阶段分支t_2的损失函数值,表示t_2输出的预测值/>与标注值/>之间的L2范数;c表示骨骼关键点连接序号;f表示训练阶段总的损失函数值,是/>和/>的总和;
骨骼信息模块,用于依据所述工作人员的外部特征、骨骼关键点的位置数据以及骨骼关键点之间的连接信息数据生成相对应的工作人员的骨骼信息;
姿态特征模块,用于依据所述工作人员的骨骼信息生成工作人员的姿态特征;依据所述工作人员的骨骼信息输入嵌套Maxout层的卷积神经网络模型生成工作人员的姿态特征;
安全结果模块,用于依据所述姿态特征生成所述工作人员的行为的安全结果;其中,所述安全结果包括安全和不安全。
7.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的工地人员安全行为识别方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的工地人员安全行为识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581561.XA CN114998990B (zh) | 2022-05-26 | 2022-05-26 | 一种工地人员安全行为识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210581561.XA CN114998990B (zh) | 2022-05-26 | 2022-05-26 | 一种工地人员安全行为识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114998990A CN114998990A (zh) | 2022-09-02 |
CN114998990B true CN114998990B (zh) | 2023-07-25 |
Family
ID=83029334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210581561.XA Active CN114998990B (zh) | 2022-05-26 | 2022-05-26 | 一种工地人员安全行为识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114998990B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287866A (zh) * | 2020-11-10 | 2021-01-29 | 上海依图网络科技有限公司 | 一种基于人体关键点的人体动作识别方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574328A (zh) * | 2015-01-06 | 2015-04-29 | 北京环境特性研究所 | 一种基于直方图分割的彩色图像增强方法 |
CN111144263B (zh) * | 2019-12-20 | 2023-10-13 | 山东大学 | 一种建筑工人高坠事故预警方法及装置 |
CN112633209B (zh) * | 2020-12-29 | 2024-04-09 | 东北大学 | 一种基于图卷积神经网络的人类动作识别方法 |
CN114399838A (zh) * | 2022-01-18 | 2022-04-26 | 深圳市广联智通科技有限公司 | 基于姿态估计和二重分类的多人行为识别方法及系统 |
-
2022
- 2022-05-26 CN CN202210581561.XA patent/CN114998990B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287866A (zh) * | 2020-11-10 | 2021-01-29 | 上海依图网络科技有限公司 | 一种基于人体关键点的人体动作识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114998990A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111242208B (zh) | 一种点云分类方法、分割方法及相关设备 | |
Xie et al. | Multilevel cloud detection in remote sensing images based on deep learning | |
Zhou et al. | BOMSC-Net: Boundary optimization and multi-scale context awareness based building extraction from high-resolution remote sensing imagery | |
CN111241989A (zh) | 图像识别方法及装置、电子设备 | |
TW202207077A (zh) | 一種文本區域的定位方法及裝置 | |
CN116579616B (zh) | 一种基于深度学习的风险识别方法 | |
CN113191204B (zh) | 一种多尺度遮挡行人检测方法及系统 | |
CN115294563A (zh) | 一种基于Transformer的增强了局部语义学习能力的3D点云分析方法及装置 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
Avola et al. | Real-time deep learning method for automated detection and localization of structural defects in manufactured products | |
Zhou et al. | Adaptive weighted locality-constrained sparse coding for glaucoma diagnosis | |
Liu et al. | Attentive semantic and perceptual faces completion using self-attention generative adversarial networks | |
Qin et al. | Depth estimation by parameter transfer with a lightweight model for single still images | |
Xiang et al. | Crowd density estimation method using deep learning for passenger flow detection system in exhibition center | |
Shit et al. | An encoder‐decoder based CNN architecture using end to end dehaze and detection network for proper image visualization and detection | |
CN114998990B (zh) | 一种工地人员安全行为识别方法及装置 | |
CN114118303B (zh) | 基于先验约束的人脸关键点检测方法及装置 | |
CN114863132A (zh) | 图像空域信息的建模与捕捉方法、系统、设备及存储介质 | |
Zhang et al. | Se-dcgan: a new method of semantic image restoration | |
Pei et al. | FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction | |
Liu | Research on intelligent visual image feature region acquisition algorithm in Internet of Things framework | |
Yi et al. | Progressive back-traced dehazing network based on multi-resolution recurrent reconstruction | |
Yun et al. | A multi-target detection algorithm for infrared image based on retinex and LeNet5 neural network | |
CN117542067B (zh) | 一种基于视觉识别的区域标注表单识别方法 | |
Chen et al. | An image denoising method of picking robot vision based on feature pyramid network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |