CN113837164A

CN113837164A - 一种基于图像识别技术的工地积水点检测方法和装置

Info

Publication number: CN113837164A
Application number: CN202111428547.8A
Authority: CN
Inventors: 申永利; 周岐文; 李新刚
Original assignee: China National Chemical Communications Construction Group Coltd
Current assignee: China National Chemical Communications Construction Group Coltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2021-12-24

Abstract

本公开公开了一种基于图像识别技术的工地积水点检测方法和装置，涉及建筑工程施工技术领域。具体实现方案为：实时采集视频数据；其中，视频数据中包括施工区域的路面图像；将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中的图像部分至少包括路面图像；将路面检测框中的图像部分输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。由此，能够实现对施工区积水情况的自动识别检测，可以辅助各级施工区安全监管单位进行施工区智能化监管，提高施工区安全监管信息化水平。

Description

一种基于图像识别技术的工地积水点检测方法和装置

技术领域

本公开涉及建筑工程施工技术领域，尤其涉及一种基于图像识别技术的工地积水点检测方法和装置。

背景技术

目前，在雨天，工地路面情况要比晴天情况复杂很多，如果施工区域的路面存在积水，会给施工人员带来一定的不便和风险。

发明内容

本公开提供了一种基于图像识别技术的工地积水点检测方法和装置。

根据本公开的一方面，提供一种基于图像识别技术的工地积水点检测方法，包括：实时采集视频数据；其中，视频数据中包括施工区域的路面图像；将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中的图像部分至少包括路面图像；将路面检测框中的图像部分输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。

根据本公开的第二方面，提供了一种基于图像识别技术的工地积水点检测装置，包括：数据采集单元、处理单元和检测单元。

其中，数据采集单元，用于实时采集视频数据；其中，视频数据中包括施工区域的路面图像。处理单元，用于将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中包括路面图像。检测单元，用于将路面检测框包括的路面图像输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过实时采集视频数据；其中，视频数据中包括施工区域的路面图像；将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中的图像部分至少包括路面图像；将路面检测框中的图像部分输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。由此，能够通过对路面图像中的路面进行检测，获取检测到的路面特征，并将其作为输入对路面中的积水区和干燥区进行分类，进而实现对积水点的检测，采用这样的方式能够实现对施工区积水情况的自动识别检测，可以辅助各级施工区安全监管单位进行施工区智能化监管，提高施工区安全监管信息化水平。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的流程图；

图2是根据本公开第二实施例的流程图；

图3是根据本公开第二实施例中步骤S20的子步骤的流程图；

图4是根据本公开第二实施例中步骤S30的子步骤的流程图；

图5是根据本公开第二实施例的另一种流程图；

图6是根据本公开第二实施例中步骤S100的子步骤的流程图；

图7是根据本公开第三实施例的结构图；

图8是根据本公开第三实施例的又一种结构图；

图9是根据本公开第三实施例的又一种结构图；

图10是根据本公开第三实施例的又一种结构图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供一种基于图像识别技术的工地积水点检测方法，图1是根据本公开第一实施例的流程图。

如图1所示，该方法包括但不限于如下步骤：

S1：实时采集视频数据；其中，视频数据中包括施工区域的路面图像。

本公开实施例中，可以在施工现场、或者施工现场的特定区域，设置视频采集装置，示例性的，视频采集装置可以为摄像头。

需要说明的是，上述示例仅作为示意，不作为对本公开实施例的具体限制，本领域的技术人员可以根据需要采用其他任意可以实现上述功能的方式进行任意设置。

本公开实施例中，在能够获取施工区域中路面图像的位置设置图像采集装置，以通过图像采集装置获取包括施工区域的路面图像的视频数据。

可以理解的是，施工区域的范围很大，路面区域的位置比较分散，可能无法通过一个图像采集装置获取的视频数据获取到完整的路面图像，或者可能通过视频数据获取到路面图像不清晰。基于此，本公开实施例中，可以设置多个图像采集装置，每个图像采集装置采集包括一部分路面图像的视频数据，从而能够获取到施工区域中，清晰完整的路面图像，方便后续对施工区域中的路面区域中是否存在积水点进行检测。

S2：将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中的图像部分至少包括路面图像。

可以理解的是，在实际施工过程中，施工区域的场景较为复杂，且含有积水点的图像较少，数据量小不利于目标检测的准确性，基于此，本公开实施例中将积水点检测的任务分为两个过程。

第一个过程为识别获取路面图像，第二个过程为对获取的路面图像进行分类识别。

示例性的，本公开实施例中将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中的图像部分至少包括路面图像，以此，实现识别获取路面图像。

需要说明的是，本公开实施例中，训练好的路面检测模型能够识别路面图像，并用路面检测框将识别的路面图像进行标识，从而能够获取路面图像。

S3：将路面检测框中的图像部分输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。

本公开实施例中，在将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框之后，将获取的路面检测框中的图像部分输入至训练好的VGG网络模型进行分类操作，得到的分类包括两类，可以得到带有dry标签和wet标签的路面区域图像，即为干燥地面和积水区地面，从而实现对积水点的检测。

通过实施本公开实施例中，实时采集视频数据；其中，视频数据中包括施工区域的路面图像；将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中的图像部分至少包括路面图像；将路面检测框中的图像部分输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。由此，能够获取视频数据中的路面图像，进一步对路面图像进行分类识别，以实现对积水点的检测，采用这样的方式能够实现对施工区积水情况的自动识别检测，可以辅助各级施工区安全监管单位进行施工区智能化监管，提高施工区安全监管信息化水平。

图2是根据本公开第二实施例的流程图。

如图2所示，本公开实施例提供的基于图像识别技术的工地积水点检测方法，包括但不限于如下步骤：

S10：实时采集视频数据；其中，视频数据中包括施工区域的路面图像。

本公开实施例中S10的描述说明可以参见上述实施例中的S1中的描述，此处不再赘述。

S20：将视频数据输入至实时目标检测框架Yolov5网络模型，获取特征向量集合。

本公开实施例中，Yolov5网络模型包含两个部分，包括输入端和backbone，其中输入端对图像进行预处理操作，backbone部分包括focus结构和CSP结构，用于获取特征向量集合。

在一些实施例中，如图3所示，本公开实施例中S20包括但不限于如下子步骤：

S21：从视频数据中截取多张图片。

本公开实施例中，在实时采集的视频数据中，截取多张图片，示例性的，可以每秒截取一张图片。

S22：通过mosaic数据增强对多张图片进行随机缩放、随机裁剪、随机排布的方式进行拼接，生成数据集。

本公开实施例中，模型的输入端采用了马赛克mosaic数据增强，其实现思路为：每次读取四张图片；分别对四张图片进行翻转、缩放、色域变化等，并且按照四个方向位置摆好；进行图片的组合和框的组合。随机缩放、随机裁剪、随机排布的方式进行拼接，对于小目标的检测效果较好。mosaic数据增强主要有几个优点：1 .丰富数据集：随机使用四张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好。2 .减少GPU（graphics processing unit, 图形处理器）：mosaic增强训练时，可以直接计算四张图片的数据，使得小批量mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。

S23：通过focus结构对数据集中所有拼接图片进行切片，生成特征图。

本公开实施例中，focus结构的关键是切片操作，示例性的，原始608*608*3的图像输入到focus结构之后，采用切片操作，先变成304*304*12的特征图，再经过一次32个卷积核的卷积操作，最终变成304*304*32的特征图。

S24：通过CSP结构对特征图进行特征提取，生成特征向量集合。

本公开实施例中，通过CSP结构对图像进行下采样，生成特征向量集合。CSP结构可以增强CNN的学习能力，使得在轻量化的同时保持准确性，降低内存成本。

请继续参见图2，本公开实施例中，在S20之后执行S30：将特征向量集合输入至注意力变换transformer模型，生成类别为路面的路面检测框。

可以理解的是，注意力transformer模型包含三个部分，分别为编码器encoder、解码器decoder和前馈神经网络FFN（feedforward neural network），将Backbone部分输出的特征向量集合进行降维，降维之后加上位置信息送到encoder中，最后得到编码后的特征，然后将encoder的输出和对象查询Object Query输入到decoder中，最后接入两个FFN，得到预测的类别、置信度和地面检测框。

在一些实施例中，如图4所示，本公开实施例中S30包括但不限于如下子步骤：

S31：将特征向量集合中的特征进行降维，之后加上位置信息输入至注意力transformer模型中的编码器encoder中，得到编码后的特征。

S32：将编码后的特征和对象查询object query输入至注意力transformer模型中的解码器decoder中，接入两个FFN，生成类别为路面的路面检测框。

对象查询object query可以有N个（其中N是一个事先设定的、远比图像image中对象object个数大的整数），输入至注意力transformer模型中的解码器decoder后分别得到N个decoder 输出嵌入output embedding，经过FFN处理后就得到了N个预测的检测框boxes和这个检测框boxes的类别。具体实现上，对象查询是N个学习嵌入learning embedding，训练刚开始时可以随机初始化，在训练过程中，因为需要生成不同的boxes，object queries会变得不同，来反应位置信息。

本公开实施例中，将编码后的特征和对象查询object query输入至注意力transformer模型中的解码器decoder中，接入两个FFN，从而能够生成类别为路面的路面检测框。

请继续参见图2，本公开实施例中，在S30之后执行S40：将路面检测框中的图像部分输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。

本公开实施例中S40的描述说明可以参见上述实施例中的S3中的描述，此处不再赘述。

本公开本公开如图5所示，在一些实施例中，本公开实施例中提供的基于图像识别技术的工地积水点检测方法，还包括：

S100：获取训练数据集。

可以理解的是，本公开实施例中提供的基于图像识别技术的工地积水点检测方法，包括对路面检测模型和VGG网络模型分别进行训练，以得到训练好的路面检测模型和训练好的VGG网络模型。

示例性的，对路面检测模型进行训练以生成训练好的路面检测模型；对VGG网络模型进行训练，以生成训练好的VGG网络模型。

本公开实施例中，获取训练样本集，可以理解的是，训练样本的数量足够多，才能够使训练的模型识别精度更高，基于此，本公开实施例中获取训练样本集，其中包括多个训练样本，以对模型进行训练。S200：将训练数据集输入至路面检测模型和VGG网络模型，对路面检测模型和VGG网络模型进行训练，以生成训练好的路面检测模型和训练好的VGG网络模型。

可以理解的是，训练数据集中的样本包括路面检测模型的训练样本，还包括VGG网络模型的训练样本，或者路面检测模型和VGG网络模型可以共用相同的训练样本。

在一些实施例中，如图6所示，本公开实施例中S100包括但不限于如下子步骤：

S101：采集样本视频数据。

本公开实施例中，采集样本视频数据的方式可以与实时采集视频数据的方式相同，此处不再赘述。

S102：从样本视频数据中截取多张样本图片。

本公开实施例中，从样本视频数据中截取多张样本图片，可以理解的是，样本图片中包括路面检测模型的样本图片，还包括VGG网络模型的样本图片。

可以理解的是，路面检测模型的样本图片和VGG网络模型的样本图片可以用相同，VGG网络模型的样本图片为标记为wet的积水点样本图片和/或标记为dry的干燥路面样本图片，其中均包括路面图像，因此，可以将VGG网络模型的样本图片的不同标记合为一个标记，输入至路面检测模型，对路面检测模型进行训练。

其中，路面检测模型的样本图片，可以为标记为路面的样本图片和/或标记为非路面的样本图片；VGG网络模型的样本图片，可以为标记为wet的积水点样本图片和/或标记为dry的干燥路面样本图片。

本公开实施例中，在对路面检测模型和VGG网络模型进行训练时，可以采用相同的样本图片，其中，在对路面检测模型进行训练时，标记为wet的积水点样本图片和/或标记为dry的干燥路面样本图片，将标签合为一个输入至路面检测模型，以对路面检测模型进行训练，在路面检测模型训练完成后，继续输入至VGG网络模型，标记为wet的积水点样本图片和/或标记为dry的干燥路面样本图片输入至VGG网络模型，以对VGG网络模型进行训练。

S103：通过标记软件对样本图片中的路面图像部分进行标记，标记为干燥路面或者积水路面，生成训练数据集。

本公开实施例中可以使用数据集标注软件labelimg进行人工标注，将样本图片中的路面图像部分进行标记，并将路面图像标记为干燥路面或者积水路面，从而生成训练样本集。

图7为本公开第三实施例的结构图。

如图7所示，本公开实施例提供的基于图像识别技术的工地积水点检测装置1。该工地积水点检测装置包括：数据采集单元11、处理单元12和检测单元13。

其中，数据采集单元11，用于实时采集视频数据；其中，视频数据中包括施工区域的路面图像。

处理单元12，用于将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中包括路面图像。

检测单元13，用于将路面检测框包括的路面图像输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。

本公开如图8所示，在一些实施例中，本公开实施例中，处理单元12，包括：

第一处理子单元121，用于将视频数据输入至实时目标检测框架Yolov5网络模型，获取特征向量集合。

第二处理子单元122，用于将特征向量集合输入至注意力变换transformer模型，生成类别为路面的路面检测框。

如图9所示，在一些实施例中，本公开实施例中，第一处理子单元121，包括：

图片获取单元1211，用于从视频数据中截取多张图片。

数据集生成单元1212，用于通过mosaic数据增强对多张图片进行随机缩放、随机裁剪、随机排布的方式进行拼接，生成数据集。

特征图生成单元1213，用于通过focus结构对数据集中所有拼接图片进行切片，生成特征图。

特征向量集合生成单元1214，用于通过CSP结构对特征图进行特征提取，生成特征向量集合。

如图10所示，在一些实施例中，本公开实施例中，第二处理子单元122，包括：

特征编码处理单元1221，用于将特征向量集合中的特征进行降维，之后加上位置信息输入至注意力transformer模型中的编码器encoder中，得到编码后的特征。

检测框生成单元1222，用于将编码后的特征和对象查询object query输入至注意力transformer模型中的解码器decoder中，接入两个FFN，生成类别为路面的路面检测框。

需要说明的是，前述对基于机器视觉的仪表示数识别方法的解释说明也适用于本实施例的基于机器视觉的仪表示数识别装置，此处不再赘述。

通过实施本公开实施例中，数据采集单元11实时采集视频数据；其中，视频数据中包括施工区域的路面图像，处理单元12将视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，路面检测框中包括路面图像，检测单元13将路面检测框包括的路面图像输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。由此，获取视频数据中的路面图像，进一步对路面图像进行分类识别，以实现对积水点的检测，采用这样的方式能够实现对施工区积水情况的自动识别检测，可以辅助各级施工区安全监管单位进行施工区智能化监管，提高施工区安全监管信息化水平。

除非上下文另有要求，否则，在整个说明书和权利要求书中，术语“包括被解释为开放、包含的意思，即为“包含，但不限于”。在说明书的描述中，术语“一些实施例”、“示例性实施例”、“示例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本公开的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。此外，所述的特定特征、结构、材料或特点可以以任何适当方式包括在任何一个或多个实施例或示例中。

除非另有说明，“多个”的含义是两个或两个以上。术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

本文中“用于”的使用意味着开放和包容性的语言，其不排除适用于或被配置为执行额外任务或步骤的设备。

另外，“基于”的使用意味着开放和包容性，因为“基于”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于图像识别技术的工地积水点检测方法，其特征在于，包括：

实时采集视频数据；其中，所述视频数据中包括施工区域的路面图像；

将所述视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，所述路面检测框中的图像部分至少包括所述路面图像；

将所述路面检测框中的图像部分输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框，包括：

将所述视频数据输入至实时目标检测框架Yolov5网络模型，获取特征向量集合；

将所述特征向量集合输入至注意力变换transformer模型，生成类别为路面的路面检测框。

3.根据权利要求2所述的方法，其特征在于，所述将所述视频数据输入至实时目标检测框架Yolov5网络模型，获取特征向量集合，包括：

从所述视频数据中截取多张图片；

通过mosaic数据增强对多张图片进行随机缩放、随机裁剪、随机排布的方式进行拼接，生成数据集；

通过focus结构对所述数据集中所有拼接图片进行切片，生成特征图；

通过CSP结构对所述特征图进行特征提取，生成特征向量集合。

4.根据权利要求3所述的方法，其特征在于，所述将所述特征向量集合输入至注意力变换transformer模型，生成类别为路面的路面检测框，包括：

将所述特征向量集合中的特征进行降维，之后加上位置信息输入至所述注意力transformer模型中的编码器encoder中，得到编码后的特征；

将编码后的特征和对象查询object query输入至所述注意力transformer模型中的解码器decoder中，接入两个FFN，生成类别为路面的路面检测框。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法，还包括：

获取训练数据集；

将所述训练数据集输入至路面检测模型和VGG网络模型，对所述路面检测模型和所述VGG网络模型进行训练，以生成训练好的路面检测模型和训练好的VGG网络模型。

6.根据权利要求5所述的方法，其特征在于，所述获取训练数据集，包括：

采集样本视频数据；

从所述样本视频数据中截取多张样本图片；

通过标记软件对所述样本图片中的路面图像部分进行标记，标记为干燥路面或者积水路面，生成所述训练数据集。

7.一种基于图像识别技术的工地积水点检测装置，其特征在于，所述装置，包括：

数据采集单元，用于实时采集视频数据；其中，所述视频数据中包括施工区域的路面图像；

处理单元，用于将所述视频数据输入至训练好的路面检测模型，获取类别为路面的路面检测框；其中，所述路面检测框中包括所述路面图像；

检测单元，用于将所述路面检测框包括的所述路面图像输入至训练好的VGG网络模型，以生成是否存在积水区的检测结果。

8.根据权利要求7所述的装置，其特征在于，所述处理单元，包括：

第一处理子单元，用于将所述视频数据输入至实时目标检测框架Yolov5网络模型，获取特征向量集合；

第二处理子单元，用于将所述特征向量集合输入至注意力变换transformer模型，生成类别为路面的路面检测框。

9.根据权利要求8所述的装置，其特征在于，所述第一处理子单元，包括：

图片获取单元，用于从所述视频数据中截取多张图片；

数据集生成单元，用于通过mosaic数据增强对多张图片进行随机缩放、随机裁剪、随机排布的方式进行拼接，生成数据集；

特征图生成单元，用于通过focus结构对所述数据集中所有拼接图片进行切片，生成特征图；

特征向量集合生成单元，用于通过CSP结构对所述特征图进行特征提取，生成特征向量集合。

10.根据权利要求9所述的装置，其特征在于，所述第二处理子单元，包括：

特征编码处理单元，用于将所述特征向量集合中的特征进行降维，之后加上位置信息输入至所述注意力transformer模型中的编码器encoder中，得到编码后的特征；

检测框生成单元，用于将编码后的特征和对象查询object query输入至所述注意力transformer模型中的解码器decoder中，接入两个FFN，生成类别为路面的路面检测框。