CN111460896B

CN111460896B - 视觉数据中防护设备的检测方法、装置和存储介质

Info

Publication number: CN111460896B
Application number: CN202010140099.0A
Authority: CN
Inventors: 蔡长青
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2020-03-03
Filing date: 2020-03-03
Publication date: 2023-03-31
Anticipated expiration: 2040-03-03
Also published as: CN111460896A

Abstract

本发明公开了一种防护设备的检测方法、装置和存储介质。所述检测方法包括获取视觉数据，将所述视觉数据输入到YOLO‑v3模型中，获取所述YOLO‑v3模型的输出结果，根据所述YOLO‑v3模型的输出结果确定变换矩阵，将所述变换矩阵中的至少部分参数输入到机器学习分类器中，以及获取所述机器学习分类器的输出结果等步骤。本发明防护设备检测方法工作过程中无需与工作人员进行接触，具有不易受损的特点，且具有良好的客观性和可靠性；在实际使用时，只需要在合适位置设置视觉数据拍摄装置，即可实施防护设备检测方法，在拍摄装置的视野范围内的人员都属于检测范围，可以低成本、高效地进行检测。本发明广泛应用于图像检测技术领域。

Description

视觉数据中防护设备的检测方法、装置和存储介质

技术领域

本发明涉及图像检测技术领域，尤其是一种视觉数据中防护设备的检测方法、装置和存储介质。

背景技术

对建设工地、生产流水线等的工作人员进行对个人防护设备(PPE)穿戴的检查和监督，可以促使工作人员合规穿戴防护设备，为安全生产提供有力支持。但是人工的检查和监督往往效率低、可靠性低，而且依赖人工去实现还伴随着疏忽甚至作弊等情况发生。

一种现有技术是对防护设备进行改装，例如向防护设备加装监控硬件，如果防护设备未被穿戴或未被正确穿戴，则监控硬件会发出警报信号。这种现有技术虽然能一定程度上提高效率和客观性，但是其安装在穿戴防护设备，存在损坏的可能性，当防护设备的数量较多时存在误报或漏报的可能性，而且由于需要投入新的硬件和软件，将产生较高的使用成本。

发明内容

针对上述至少一个技术问题，本发明的目的在于提供一种视觉数据中防护设备的检测方法、装置和存储介质。

一方面，本发明实施例包括一种视觉数据中防护设备的检测方法，包括以下步骤：

获取视觉数据；所述视觉数据能够显示出至少一个人员；

将所述视觉数据输入到YOLO-v3模型中；所述YOLO-v3模型包括依次连接的第一输出层、第二输出层和第三输出层，所述第一输出层的尺寸为s₁×s₁×b×6，所述第二输出层的尺寸为s₂×s₂×b×6，所述第三输出层的尺寸为s₃×s₃×b×6，s₁为所述第一输出层中每个网格的尺寸，s₂为所述第二输出层中每个网格的尺寸，s₃为所述第三输出层中每个网格的尺寸，b为所述第一输出层中每个网格所使用的边界框的数量，n为所要识别的防护设备的类型数量；

获取所述YOLO-v3模型的输出结果；所述YOLO-v3模型的输出结果为使用边界框标示出所述视觉数据中的所有人员；

根据所述YOLO-v3模型的输出结果确定变换矩阵；经过所述变换矩阵变换的各所述边界框具有统一的宽度和高度；

将所述变换矩阵中的至少部分参数输入到机器学习分类器中；所述机器学习分类器包括依次连接的卷积层、输出层和两个完全连接层，所述完全连接层由整流线性单元激活；在所述机器学习分类器的整体经过训练之后，两个所述完全连接层经过再次训练；

获取所述机器学习分类器的输出结果；所述机器学习分类器的输出结果将各所述边界框所标示的人员所穿戴的防护设备类型表示出来。

进一步地，所述YOLO-v3模型的训练过程包括：

使用第一数据集对所述YOLO-v3模型进行训练，使得所述YOLO-v3模型中的各层获得权重；

使用第二数据集对所述YOLO-v3模型中的第一输出层、第二输出层和第三输出层进行训练，使得所述第一输出层、第二输出层和第三输出层获得权重。

进一步地，所述YOLO-v3模型的训练过程还包括：

对所述YOLO-v3模型中各层的权重进行调整，使得所述YOLO-v3模型的学习速率达到目标值。

进一步地，所述对所述YOLO-v3模型中的各层的权重进行调整，使得所述YOLO-v3模型的学习率达到目标值这一步骤，具体包括：

在每次调整所述YOLO-v3模型中各层的权重后，检测所述YOLO-v3模型的验证损失；

当连续三次调整对应的验证损失均不减小，则将学习率调整至一半的水平；

当连续三次调整对应的验证损失均不减小，则将学习率调整至零。

进一步地，所述第一数据集为COCO数据集，所述第二数据集为Pictor-v3数据集。

进一步地，所述检测方法还包括以下步骤：

对所述第一数据集和/或第二数据集进行数据增强操作；所述数据增强操作包括按比例放缩、平移、翻转以及色彩空间中的至少一种。

进一步地，所述根据所述YOLO-v3模型的输出结果确定变换矩阵这一步骤，具体包括：

确定一个所述边界框对应的第一矢量和第二矢量；所述第一矢量指向该边界框的一个角，所述第二矢量与所述第一矢量具有相同的起点，并指向该边界框的一个对角；

根据所述第一矢量和第二矢量，确定该边界框的高度和宽度；

确定用于对矩阵

进行归一化的变换矩阵/>

W_i表示该边界框，/>

为该边界框的高度，/>

为该边界框的宽度，/>

表示该边界框的一个角的坐标，/>

表示该边界框的一个对角的坐标。

进一步地，将所述变换矩阵中的参数

和/>

输入到机器学习分类器中。

另一方面，本发明实施例还包括一种防护设备的检测装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行实施例中的防护设备的检测方法。

另一方面，本发明实施例还包括一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行实施例所述的物体形状测量方法。

本发明的有益效果是：实施例中的防护设备检测方法是基于对视觉数据的分析而进行的，由于视觉数据的获取过程中无需与工作人员进行接触，用于获取视觉数据的设备也不会被工作人员接触到，因此具有不易受损的特点；使用YOLO-v3模型和机器学习分类器的过程基于计算机数据处理，具有良好的客观性和可靠性；在实际使用时，只需要在建设工地以及生产流水线等场合的合适位置设置视觉数据拍摄装置，即可实施本实施例中的防护设备检测方法，在拍摄装置的视野范围内的工作人员都属于检测范围，因此可以低成本、高效地进行检测。

附图说明

图1为实施例中防护设备检测方法的流程图。

具体实施方式

实施例1

本实施例中的检测方法，目的是从包含有工作人员的视觉数据中，检测出含有工作人员的部分，并检测工作人员所穿戴的防护设备的类型，而工人未穿戴防护设备也可以视为工作人员所穿戴的防护设备的一种类型。所述视觉数据包括图像和视频等，具体可以是视频中的一个片段或一个帧，可以通过对建设工地和生产流水线等场合进行实时拍摄或者录像拍摄，从而获得视觉数据。所要检测的防护设备包括安全帽、安全背心、手套、护目镜和钢趾鞋等类型，可以通过对YOLO-v3模型的参数配置以及训练过程，来确定其所能检测到的防护设备的类型。本实施例中，所希望达到的效果是能够检测安全帽和安全背心这两种类型的防护设备。

参照图1，本实施例中的检测方法包括以下步骤：

S1.获取视觉数据；当视觉数据被播放出来时，能够显示出至少一个人员；

S2.将所述视觉数据输入到YOLO-v3模型中；

S3.获取所述YOLO-v3模型的输出结果；所述YOLO-v3模型的输出结果为使用边界框标示出所述视觉数据中的所有人员；

S4.根据所述YOLO-v3模型的输出结果确定变换矩阵；所述变换矩阵能够将同类的所有边界框转换成具有统一的宽度和高度；

S5.将所述变换矩阵中的至少部分参数输入到机器学习分类器中；

S6.获取所述机器学习分类器的输出结果；所述机器学习分类器的输出结果将各所述边界框所标示的人员所穿戴的防护设备类型表示出来。

本实施例中所使用的YOLO-v3模型是在标准的YOLO-v3模型基础上进行改造得到的，具体地是在标准的YOLO-v3模型的最后添加三个输出层，即第一输出层、第二输出层和第三输出层，从而得到本实施例中所使用的YOLO-v3模型。第一输出层、第二输出层和第三输出层的尺寸设置如下：

第一输出层：s₁×s₁×b×6；b为每个网格所使用的边界框的数量，s₁为每个网格的尺寸，本实施例中，YOLO-v3模型只起到对视觉数据中工作人员的检测作用，而不去对工作人员所穿戴的防护设备进行识别，对工作人员所穿戴的防护设备进行识别的任务由机器学习分类器来完成，也就是YOLO-v3模型只需要从视觉数据中检测出一个类，即视觉数据中的工作人员，因此s₁×s₁×b×6实际上是s₁×s₁×b×(1+5)；如果第一输出层中每个网格的尺寸为13×13，每个网格中使用3个边界框，那么第一输出层的尺寸为13×13×3×6；

第二输出层：s₂×s₂×b×6；与上述第一输出层的尺寸响应，第二输出层中每个网格的尺寸为26×26，每个网格中使用3个边界框，那么第一输出层的尺寸为26×26×3×6；

第三输出层：s₃×s₃×b×6；与上述第二输出层的尺寸响应，第三输出层中每个网格的尺寸为52×52，每个网格中使用3个边界框，那么第一输出层的尺寸为52×52×3×6。

第一输出层、第二输出层和第三输出层的设置，使得YOLO-v3模型与机器学习分类器能够实现清晰的分工：由YOLO-v3模型将视觉数据中工作人员所在区域裁剪出来，交由机器学习分类器检测工作人员所穿戴的防护设备的种类，这样可以提高检测效率。

在执行步骤S2之前，先执行以下对YOLO-v3模型的训练步骤：

P1.使用COCO数据集对所述YOLO-v3模型进行训练；完成使用COCO数据集进行的训练后，所述YOLO-v3模型中的各层获得了预定权重；对于第一输出层、第二输出层和第三输出层，则可以使用随机值作为它们的初始权重；这些权重使得YOLO-v3模型可从输入的视觉数据中提取出颜色和边缘等特征，从而区分出人、汽车、电脑、时钟等COCO数据集中包含的类；

P2.使用Pictor-v3数据集对所述YOLO-v3模型中的第一输出层、第二输出层和第三输出层进行再训练，使得所述第一输出层、第二输出层和第三输出层获得权重；在对第一输出层、第二输出层和第三输出层的再训练，并不改变YOLO-v3模型中其他层的权重；在对第一输出层、第二输出层和第三输出层的再训练过程中，可使用Adam优化器以10^-3的学习率训练25个周期；

在执行步骤P1和P2的基础上，还可以执行以下训练步骤：

P3.对所述YOLO-v3模型中各层的权重进行调整，以使得YOLO-v3模型稍微修改在步骤P1和P2过程中学习到的检测能力，以更好地检测目标类别。

在对YOLO-v3模型各层权重调整后，YOLO-v3模型的学习率会下降，因此可以在每个调整周期后，通过监视YOLO-v3模型的验证损失来确定学习率的目标值，从而确定对YOLO-v3模型进行调整的水平，即所述步骤P3具体包括：

P301.在每次调整所述YOLO-v3模型中各层的权重后，检测所述YOLO-v3模型的验证损失；

P302.当连续三次调整对应的验证损失均不减小，则将学习率调整至原先一半的水平；

P303.当连续三次调整对应的验证损失均不减小，则将学习率调整至零。

通过对YOLO-v3模型中各层的权重进行微调，可以防止YOLO-v3模型的过拟合。

对于训练YOLO-v3模型时所使用的COCO数据集和Pictor-v3数据集，可以对其中的数据进行增强操作，例如按比例放大或缩小30％、水平或垂直平移30％、水平翻转50％，或者将色调、饱和度以及亮度等色彩空间在[-10％，10％]或[-33％，50％]等范围内改变，从而对数据集进行扩充，以克服对YOLO-v3模型进行训练时所面对的图像数据和标签数据的随机失真问题。

将经过步骤P1-P3训练的YOLO-v3模型用于步骤S2。通常，所接收的图像尺寸为416×416，如果视觉数据不是这个尺寸，可以使用双三次插值将其尺寸调整为416×416。通过沿视觉数据两条较短边方向的两侧进行均等填充，可以在调整尺寸时保持视觉数据的宽高比。

将视觉数据输入到YOLO-v3模型中，可以获得YOLO-v3模型所输出的边界框(或称检测盒子)，它将视觉数据中的所有人员识别并标示出来。由于YOLO-v3模型的各输出层设置了合适的尺寸，因此YOLO-v3模型能够识别出n种防护设备。

接下来，需要进行的是根据这些边界框，来判断视觉数据中的人员穿戴的是哪一种类型的防护设备。本实施例中，使用机器学习分类器来完成这一过程。

本实施例中，将设置n个机器学习分类器，也就是机器学习分类器的个数与所要识别的防护设备的种类数相同，以使得每个机器学习分类器用于识别一种防护设备。由于每个机器学习分类器的工作过程是相似的，因此以下只以一个机器学习分类器为例进行说明。

机器学习分类器是对YOLO-v3模型从视觉数据中检测出的边界框进行进一步识别的，其对每个边界框都进行相似的操作，因此对一个边界框的操作过程可以用到对其他边界框的操作中去。

对于YOLO-v3模型从视觉数据中检测出的一个边界框，在设定一个原点后，其左上角的坐标可以表示为

其左上角的对角，也就是其右下角的坐标可以表示为

本实施例中的第一矢量，是从原点指向这个边界框左上角的矢量，可以表示为

第二矢量是从原点指向这个边界框右下角的矢量，可以表示为

一个矩形边界框可由第一矢量和第二矢量确定。

根据第一矢量和第二矢量，可以得到该边界框的高度和宽度的矩阵形式表达：

其中W_i表示该边界框，/>

为该边界框的高度，

为该边界框的宽度。对于通过矩阵形式表达的边界框高度和宽度，可以使用下式进行变换，以使得所有对应同一类识别对象(例如均标示出安全帽)的边界框变换为具有统一的高度和统一的宽度：

式中最右边的一项也可以表示为/>

它就是变换矩阵。其中的参数/>

和/>

就是输入到机器学习分类器中的数据。

机器学习分类器可以使用神经网络(NN)来实现。使用神经网络的原因在于，它可以学习复杂的函数以将输入要素映射到输出决策。神经网络模型的体系结构由一个包含四个节点的输入层(由于要素数量为四个)，两个隐藏层(每个要素包含八个节点)和一个包含一个节点的输出层(由于输出是二进制决策)组成。该模型使用Adam优化器训练50个周期。

本实施例中，机器学习分类器是由依次连接的卷积层、输出层和两个完全连接层组成的。其构造方式为：使用经过训练的VGG-16、ResNet-50或Xception中的卷积层作为基本模型，然后将两个完全连接层(其中一个包含64个节点，另一个包含16个节点)分别附加到整流线性单元(ReLU)激活功能之后，添加到基本模型中。输出层包含多个节点，其节点的数量与所要识别出的防护设备的种类数量相应，输出层由SoftMax激活。在使用机器学习分类器之前，使用ImageNet数据集对机器学习分类器的整体进行一次训练，然后单独针对两个完全连接层再次进行训练。还可以选择Adam优化器对整个机器学习分类器进行微调。

通过上述结构设置以及两次训练，机器学习分类器具备了对防护设备的识别能力。由于输入到机器学习分类器中的数据是YOLO-v3模型从视觉数据中提取出的，相当于事先经过了YOLO-v3模型的一次提取，因此机器学习分类器的识别效果将更准确。

机器学习分类器的输出结果是，将各所述边界框所标示的人员所穿戴的防护设备类型表示出来。从机器学习分类器的输出结果中，可以知道视觉数据中所包含的人员是否穿戴防护设备，以及他所穿戴的防护设备是何种类型。

本实施例中的防护设备检测方法是基于对视觉数据的分析而进行的，由于视觉数据的获取过程中无需与工作人员进行接触，用于获取视觉数据的设备也不会被工作人员接触到，因此具有不易受损的特点；使用YOLO-v3模型和机器学习分类器的过程基于计算机数据处理，具有良好的客观性和可靠性；在实际使用时，只需要在建设工地以及生产流水线等场合的合适位置设置视觉数据拍摄装置，即可实施本实施例中的防护设备检测方法，在拍摄装置的视野范围内的工作人员都属于检测范围，因此可以低成本、高效地进行检测。

实施例2

将实施例1所记载的检测方法编写成相应的计算机代码并写入至存储介质中，当存储介质被连接到控制器时，其中的计算机程序代码可被读取出来并执行，从而自动执行步骤S1-S6或P1-P3，实现与实施例1中所述的相同的技术效果。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向目标终端的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的目标终端，包括显示器上产生的物理和有形目标终端的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。