CN108052881A

CN108052881A - 一种实时检测施工现场图像中多类实体对象的方法及设备

Info

Publication number: CN108052881A
Application number: CN201711241150.1A
Authority: CN
Inventors: 骆汉宾; 丁烈云; 方伟立; 钟波涛; 刘佳静; 张永成
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-05-18

Abstract

本发明公开了一种基于机器视觉的实时检测施工现场多类实体对象的方法及设备，该方法包括：步骤1，利用训练过的卷积神经网络从施工现场的原始图像中提取特征图像；步骤2，使用区域建议网络从特征图像中提取候选区域；步骤3，在快速卷积神经网络中使用候选区域；步骤4，使区域建议网络和快速卷积神经网络共享卷积层，得到实时卷积神经网络；步骤5，利用实时卷积神经网络识别待检测的施工现场图像中的实体对象。本发明的设备包括用于执行上述方法的计算机程序。本发明能够实时识别施工现场的多类实体对象，为复杂环境下建筑工程施工全过程进度、安全管理提供重要基础。

Description

一种实时检测施工现场图像中多类实体对象的方法及设备

技术领域

本发明属于建筑工程信息化领域，更具体地，涉及一种实时检测施工现场图像中多类实体对象的方法及设备。

背景技术

施工环境的动态性和复杂性致使工程建设期间的事故数和死亡人数始终居高不下，而不安全行为和不安全状态是造成事故发生的两个直接原因。如果施工中的不安全行为和状态可以被实时地监控和了解，无疑将提高安全绩效。实时识别工地视频监控中施工作业涉及的人、机械和材料等施工对象，对于充分了解复杂建筑工地的不安全行为至关重要。同时，图像/视频中的目标检测也是生产率测量和进度监测的基础。尽管如此，研究学者对施工环境中的目标检测关注度不够，相关研究较少。

最初的研究关注于一类或两类施工对象的检测，存在明显缺陷：

(1)对于涉及众多种类的机械、材料等施工对象的复杂工地显然是不够的；

(2)由于对整个图像区域缺乏综合检测，特定应用将受到很大限制。

由于目前识别两类以上施工对象的研究仍然很少，而且在应用于设备和工人的检测时，局限于机器视觉的传统范式，有效性、综合性地提取特征受很大的限制，模型泛化能力差，此外，由于现有方法依赖于手动的特征提取，且无法进行计算量大的处理，不能做到实时识别。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种实时检测施工现场图像中实体对象的方法，通过将快速卷积神经网络与区域建议网络有机融合，建立实时卷积神经网络，从而得到用于多类施工现场对象检测的深度学习模型，达到从施工现场图像中实时检测多个实体的目的。

为了实现上述目的，本发明提供了一种实时检测施工现场图像中多类实体对象的方法，包括如下步骤：

步骤1：通过预先标记出实体对象的施工现场图像训练卷积神经网络，利用训练完成的卷积神经网络从施工现场的原始图像中提取特征图像；

步骤2：使用区域建议网络从特征图像中提取候选区域；

步骤3：将步骤2提取出的候选区域输入快速卷积神经网络进行训练，得到检测网络；在快速卷积神经网络中对候选区域的最后一个卷积层的特征图像进行池化处理，为每个候选区域生成固定长度的特征向量roi_pool5；将roi_pool5输入到快速卷积神经网络中的全连接层，以生成最终应用于多任务学习和计算多任务损失的特征，并使区域建议网络与快速卷积神经网络共享卷积层；

步骤4：利用步骤3建立的检测网络将区域建议网络初始化，然后固定区域建议网络和快速卷积神经网络共享的卷积层，先微调区域建议网络独有的层，再微调快速卷积神经网络的全连接层，得到实时卷积神经网络；

步骤5：利用步骤4得到的实时卷积神经网络，对待检测的施工现场图像进行检测，识别出其中的实体对象。

进一步地，对于卷积神经网络中的卷积层，将上一层的输出作为下一层的输入，步骤1中，提取特征图像的方法如下：

首先，向首层卷积层输入原始图像，由不同的卷积核向原始图像的x轴方向和y轴方向移动，进行卷积处理，得到初步特征图像；之后，用线性修正函数对初步特征图像进行修正，得到修正特征图像；然后，对修正特征图像进行池化操作、归一化处理，获得该卷积层的基本特征图像，作为下一卷积层的输入；对卷积神经网络中的所有卷积层重复上述过程，获取最终的特征图像。

进一步地，步骤2中使用区域建议网络从特征图像中提取候选区域的方法如下：

使用ImageNet预训练的模型将区域建议网络初始化，使用初始化后的区域建议网络在步骤1获得的特征图像上进行滑动窗口处理，每个滑动窗口被映射成d维向量，作为框分类层和框回归层的输入；当滑动窗口到达卷积特征矩阵的末尾时，框分类层输出对象/非对象的概率，框回归层则输出表示真实目标框架的变换参数，从而提取出候选区域。

进一步地，步骤2包括如下子步骤：

2.1使用ImageNet预训练的模型对区域建议网络进行初始化，并对初始化后的区域建议网络进行端到端微调；利用调整后的区域建议网络在步骤1获得的特征图像上进行滑动窗口处理，每个滑动窗口映射为一个d维特征向量；在区域建议网络中，原始图像的候选区域被称为锚框，滑动窗口在特征图象上滑动的每个位置都在原始图像上对应k个不同的锚框，k个锚框对应p种不同尺度以及q种不同长宽比，k＝p*q；

2.2将d维特征向量输入框分类层和框回归层；框分类层输出2k维向量，表示锚框属于前景和背景的概率，框回归层输出4k维向量，表示真实目标框的变换参数，从而完成候选区域的提取。

进一步地，步骤3包括如下子步骤：

3.1得到区域建议网络提取的候选区域后，将候选区域输入快速卷积神经网络进行训练，得到检测网络；利用ImageNet预训练的模型将检测网络初始化；使用ROI池化层对候选区域在快速卷积神经网络的最后一层卷积层的特征图像进行处理获得结果特征图，进而为每个候选区域生成固定长度的特征向量roi_pool5；

3.2将roi_pool5输入到快速卷积神经网络中的全连接层，以生成最终应用于多任务学习和计算多任务损失的特征，使区域建议网络与快速卷积神经网络共享卷积层；全连接层的输出包括SoftMax损失和回归损失；

SoftMax损失是用于计算i+1个类的分类函数，其中，i表示目标类别数量；

回归损失是与i+1分类结果相对应的候选区域的边界框的四角坐标。

进一步地，步骤4包括如下子步骤：

4.1利用步骤3.1的检测网络将区域建议网络初始化，但固定区域建议网络中可供共享的卷积层，并且只微调区域建议网络独有的层，从而使区域建议网络和快速卷积网络共享卷积层；

4.2保持区域建议网络和快速卷积网络共享的卷积层固定，微调快速卷积神经网络的全连接层，得到实时卷积神经网络。

进一步地，步骤4包括如下子步骤：

4.3利用步骤4.2中微调后的快速卷积神经网络初始化步骤4.1中微调后的区域建议网络；

4.4利用步骤4.3得到的区域建议网络重新提取候选区域，利用该候选区域重新训练步骤4.2中微调后的快速卷积神经网络，得到新的检测网络和新的检测网络输出的特征参数；

4.5重复步骤4.1～4.4，直至实时卷积神经网络的预测值符合预期。

进一步地，步骤1中的原始图像来源包括不同光照条件下和/或不同视角下的图片。

为了实现上述目的，本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一种方法。

为了实现上述目的，本发明还提供了一种实时检测施工现场图像中多类实体对象的设备，包括上述计算机可读存储介质以及处理器，处理器用于调用和处理计算机可读存储介质中存储的计算机程序。

总体而言，本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明通过使区域建议网络与快速卷积神经网络共享卷积层，使得区域建议神经网络能够将提取的候选区域共享给快速卷积神经网络，进而使快速卷积神经网络能够直接利用区域建议网络提取的候选区域进行后续的卷积运算，从而有效地提高快速卷积神经网络的性能；利用快速卷积神经网络和区域建议网络共享卷积层得到的实时卷积神经网络，能近乎实时的识别施工图像中的多类实体对象，为复杂环境下建设项目施工全过程进度、安全管理提供重要基础。

2、本发明所构建的实时卷积神经网络实现端到端的自动检测图像中的施工对象，鉴于目前视频监控在施工现场的广泛使用，使得基于工程视频、图像的数据采集成本低，因此，本发明使用方便，利于推广应用。

3、与现有技术相比，本发明提出的方法实现了图像中多类对象实时或近实时的检测识别，为研究不同设备之间，设备与工人之间的作用提供了基础，同时为施工期间不安全行为和不安全状态的自动检测以及工人的行为矫正创造了条件。

4、通过随机选取施工图片模型的准确性进行验证，结果显示本发明方识别不同类别的施工对象的准确率较高，相比目前最先进的方法(例如：HOG、SIFT、SURF、BRISK)，准确率平均高出38％，优势明显，证明本发明构建的实时卷积神经网络能很好地适应施工背景环境下的对象识别。

附图说明

图1是本发明的步骤示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为实现上述目的，按照本发明的实施路径，提供了一种实时检测施工现场图像中多类实体对象的方法，在离线训练阶段，按照如下方法采集样本：收集施工作业中实体对象的图像数据。针对服务的目标，收集特定的施工实体对象图像，如：挖掘机、起重机、工人等。图像数据来源包括不同施工条件下施工现场的图像数据库，如：不同光照条件下，不同视角下的图片，可以通过现场拍摄和视频监控获得，充当模型的训练集和测试集。步骤1～4为离线训练步骤。

步骤1，基于卷积神经网络(CNN)从原始图像中提取特征图像。卷积神经网络具有多层架构，其将原始图像作为输入并输出相应的特征图。在每层操作中，先利用不同的卷积核进行卷积操作，接着依次通过线性激活函数，池化操作，归一化处理，提取相应图像的特征图像。

步骤2，使用区域建议网络(RPN)的“关注”机制提取候选区域。快速卷积神经网络的核心组件即区域建议网络，是一个小的完全卷积神经网络(Fully ConvolutionalNetworks，FCN)，其用ImageNet预训练的模型初始化，并端到端微调用于候选区域提取任务，此时区域建议网络和快速卷积神经网络还未共享卷积层。利用滑动窗口在原始图像经最后一层卷积层处理获得的特征图像上滑动，每个滑动窗口被映射成d维向量，作为两个全连接层(fully connected layers,FC)的输入：(1)框分类(cls)层；和(2)框回归(reg)层。当滑动窗口到达卷积特征矩阵的末尾时，框分类层输出2k分数，其表示对象/非对象的概率，框回归层则输出表示真实目标框架的4k变换参数。

步骤3，在快速卷积神经网络中使用候选区域。基于区域建议网络提取候选区域后，采用快速卷积神经网络进行目标检测，其同样由ImageNet预训练的模型初始化。通过ROI池化层对候选窗口的最后卷积层特征图像进行处理，获得结果特征图，为每个候选区域生成固定长度特征向量roi_pool5。这个特征向量接着输入全连接层，生成用于多任务学习和多任务损失计算的特征。

步骤4，训练实时卷积神经网络模型。为有效训练算法、调节网络参数，借助交替优化手段来学习区域建议网络和快速卷积神经网络的共享特征。利用检测网络初始化区域建议网络进行训练，但固定共享的卷积层，并且只微调区域建议网络独有的层，此时区域建议网络和快速卷积神经网络共享卷积层。接着，保持共享的卷积层固定，微调快速卷积神经网络的全连接层。迭代进行上述步骤，使检测结果尽可能接近真实情况，检测结果的准确性可以通过测试集进行测试。

本实施例提供一种基于快速卷积神经网络实时检测施工现场图像中对象的方法，请参照图1，具体包括特征图像提取、候选区域的提取、候选区域的运用、实时卷积神经网络的训练、实体对象的识别五个步骤，具体实施方式如下。

在离线训练阶段，先要进行数据收集，即采集现场施工对象的图像数据，在本实施例中，是指收集现场作业中施工实体的图像数据。针对识别的目标对象，收集施工背景下包含特定施工对象的图像，如：挖掘机、起重机、工人等。图像数据库是从不同施工条件下施工现场的图像数据中随机抽取构成，如：不同光照条件下，不同视角下的图片，使得模型的适应性更强，可以通过现场拍摄或视频监控获得。

第1步：图像特征提取，卷积神经网络(CNN)从原始图像中提取获得特征图像，需完成以下操作：

1.1卷积神经网络具有用于自我学习和特征提取的多层架构，能够在输入原始图像后获得其特征图像。本实施例采用ZF网络结构，综合考虑处理的有效性及复杂性后，选取具有五个卷积层的卷积神经网络。

1.2每层的操作一致，首先输入960*540的原始图像，将会有96个不同的卷积核对其进行卷积处理。每个卷积核为7*7的尺寸，卷积操作过程中以2个像素的差值向x轴方向和y轴方向移动。卷积处理之后，特征图像用线性修正函数进行处理，然后经过池化操作，以减小模型计算量及过拟合现象。

1.3以相同的方式在接下来的四层中进行处理，由此获取最终的特征图像。

第2步：候选区域的提取，利用区域建议网络(RPN)提取候选区域，需完成以下操作：

2.1用ImageNet预训练的模型初始化区域建议网络，将原始图像输入区域建议网络进行训练，在区域建议网络的最后一层卷积层输出的特征图象上用n*n的窗口进行滑窗处理，每个滑动窗口都映射成一个d维特征向量。在区域建议网络中，原始图像中的候选区域被称为锚框，n*n的滑动窗口在卷积特征图象滑动的每个位置都在原始图像对应k个不同的锚框，k个锚框对应p种不同尺度以及q种不同长宽比的锚框。d、p、q按照经验值选取，本实施例中，d＝256，p＝3，q＝3，k＝p*q＝9。

2.2将映射的d维特征向量作为两个全连接层即框分类层和框回归层的输入，框分类层输出2k维向量，表示锚属于前景和背景的概率，框回归层输出4k维向量，表示真实目标框的变换参数。

第3步：候选区域的运用，即区域建议网络提取的候选区域输入快速卷积神经网络中进行处理，具体地，需完成以下操作：

3.1将区域建议网络提取的候选区域输入快速卷积神经网络进行训练，得到一个单独的检测网络，利用ImageNet预训练的模型将该检测网络初始化，此时区域建议网络和快速卷积神经网络还未共享卷积层。

具体地，将区域建议网络提取的候选区域输入快速卷积神经网络中，将候选区域经过最后一层卷积层处理后得到的特征图像，输入ROI池化层进行处理，获得结果特征图，从而为每个候选区域生成固定长度的特征向量roi_pool5。ROI池化层可以为输入的任意大小的特征图像生成固定维度特征表示，以确保每个候选区域的后续分类能够正确执行。

3.2将ROI层输出的roi_pool5输入到快速卷积神经网络的全连接层，全连接层的输出由两个分支组成：

SoftMax损失，它是计算i+1个类的分类函数，其中“i”表示有i个目标类别，“1”是表示将背景作为一个类别；

回归损失，是与i+1分类结果相对应的候选区域的边界框的四角坐标。

经过上述处理，得到检测网络以及检测网络输出的最终应用于多任务学习和计算多任务损失的特征参数。

第4步：实时卷积神经网络的训练，需完成以下操作：

4.1利用检测网络输出的特征参数，将区域建议网络初始化，但固定区域建议网络中可供共享的卷积层，并且只微调区域建议网络独有的层，从而使区域建议网络和快速卷积网络共享卷积层；

第5步：利用步骤4得到的实时卷积神经网络，对待检测的施工现场图像进行检测，识别出其中的实体对象。

为了提高实时卷积神经网络的预测能力，使模型的预测值与真实值尽可能的接近，还可以在步骤4中增加如下步骤进行交替优化：

步骤4.3：利用步骤4.2中微调后的快速卷积神经网络初始化步骤4.1中微调后的区域建议网络；

步骤4.4：利用步骤4.3得到的区域建议网络重新提取候选区域，利用该候选区域重新训练步骤4.2中微调后的快速卷积神经网络，得到新的检测网络和新的检测网络输出的特征参数；

步骤4.5：重复步骤4.1～4.4，直至实时卷积神经网络的预测值符合预期。

实时卷积神经网络利用区域建议网络代替了快速卷积神经网络的选择性查找，区域建议网络将候选区域提取的问题与原始图像经过卷积神经网络提取的特征图矩阵结合起来。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时检测施工现场图像中多类实体对象的方法，其特征在于，包括如下步骤：

步骤2：使用区域建议网络从特征图像中提取候选区域；

2.根据权利要求1所述的一种实时检测施工现场图像中多类实体对象的方法，其特征在于，对于卷积神经网络中的卷积层，将上一层的输出作为下一层的输入，步骤1中，提取特征图像的方法如下：

3.根据权利要求2所述的一种实时检测施工现场图像中多类实体对象的方法，其特征在于，步骤2中使用区域建议网络从特征图像中提取候选区域的方法如下：

4.根据权利要求3所述的一种实时检测施工现场图像中多类实体对象的方法，其特征在于，步骤2包括如下子步骤：

5.根据权利要求3或4所述的一种实时检测施工现场图像中多类实体对象的方法，其特征在于，步骤3包括如下子步骤：

6.根据权利要求5所述的一种实时检测施工现场图像中多类实体对象的方法，其特征在于，步骤4包括如下子步骤：

7.根据权利要求6所述的一种实时检测施工现场图像中多类实体对象的方法，其特征在于，步骤4包括如下子步骤：

8.根据权利要求1所述的一种实时检测施工现场图像中多类实体对象的方法，其特征在于，步骤1中的原始图像来源包括不同光照条件下和/或不同视角下的图片。

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如权利要求1～8任一项所述的方法。

10.一种实时检测施工现场图像中多类实体对象的设备，其特征在于，包括如权利要求9所述的计算机可读存储介质以及处理器，处理器用于调用和处理计算机可读存储介质中存储的计算机程序。