CN115171011A

CN115171011A - 一种多类别建材视频计数方法及系统、计数设备

Info

Publication number: CN115171011A
Application number: CN202210756710.1A
Authority: CN
Inventors: 殷蔚明; 彭建铖; 罗大鹏; 程卓; 陈应; 黄罗琪; 董蓓; 柳旭辉
Original assignee: China University of Geosciences; Second Construction Engineering Co Ltd of China Construction Third Engineering Division; China Construction Third Bureau Intelligent Technology Co Ltd
Current assignee: China University of Geosciences; Second Construction Engineering Co Ltd of China Construction Third Engineering Division; China Construction Third Bureau Intelligent Technology Co Ltd
Priority date: 2022-06-30
Filing date: 2022-06-30
Publication date: 2022-10-11

Abstract

本发明提供了一种多类别建材视频计数方法及系统、计数设备，所述计数方法包括：提取机器人拍摄视频的视频帧；将待测视频帧输入到YOLOv4模型中，提取出待测图像的特征；对主干特征提取网络的最后一个特征层进行三次卷积后，利用多尺度的最大池化处理，以分离待测图像中的上下文特征；对获取的特征进行多尺度预测，经解码获取预测框在待测输入图像中的位置；将所有框信息输入到NMS模块中，以得到筛选后的框信息；将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中，输出帧间目标id。本发明采用神经网络方法并使用一个多类别多目标跟踪，关联视频的帧间信息，克服目标遮挡，最后通过双过线计数算法计算出整个视频中的建材数量和种类。

Description

一种多类别建材视频计数方法及系统、计数设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种多类别建材视频计数方法及系统、计数设备。

背景技术

随着“数字化工地”理念的提出，机器人智能监控技术在建筑行业得到广泛应用，逐步实现了建筑工地建材巡检，建材数量检测，实时反馈建材的需求，以减少工地事故的发生，提高建筑行业的实施效率。

目前，在建材企业将建材通过运输车辆运送到工地上之后，一般需要供货方、劳务队材料员、项目部材料员三方工地人员对建材数量进行清点以完成货物验收。而工地普遍采用人工计数方法，例如一般使用不同颜色的颜料或者电子自动计数笔对将要清点的建材进行区分标记。

采用人工计数方法虽然简单，但工作强度大，清点过程繁琐枯燥，工作人员会长时间处于高度紧张的状态，容易导致计数误差；此外，整个过程常常需要进行反复校对，工人数完建材一般需要花费数小时左右，计数效率非常低，这已经无法满足现代化建筑企业快速生产的需求。

发明内容

为了克服上述现有技术的不足，本发明提供了一种多类别建材视频计数方法及系统，以解决目前工地人工计数方法导致工作强度大、清点过程繁琐、易计数产生误差和工作效率低的技术问题。

为解决上述问题，本发明的第一目的在于提供一种多类别建材视频计数方法，应用于工地建材数量的估计，所述视频计数方法包括：

S₁₀₀：提取机器人拍摄视频的视频帧；

S₂₀₀：将所述拍摄视频中的待测视频帧输入到YOLOv4模型中，经主干特征提取网络CSPDarknet53提取出所述待测图像的特征；

S₃₀₀：对所述主干特征提取网络CSPdarknet53的最后一个特征层进行三次卷积后，分别利用多个不同尺度的最大池化方法进行处理，以分离出所述待测图像中最显著的上下文特征；

S₄₀₀：提取完特征后，采用YOLOv3Head对获取的特征进行多尺度预测，得到3个有效特征层的预测结果，所述3个有效特征层经解码获取预测框在待测输入图像中的位置；

S₅₀₀：将预测头输出的所有框信息输入到NMS模块中，以得到筛选后的框信息；

S₆₀₀：将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中，所述sort模块输出帧间目标id；

S₇₀₀：通过双过线算法计算出视频中的建材目标数，并打印在输出视频中。

可选的，在步骤S₂₀₀中，所述提取出所述待测图像的特征具体操作为：

提取待测图像中的3个有效特征层(76，76，256)、(38，38，512)和(19，19，1024)，所述3个有效特征层分别位于主干特征提取网络CSPDarknet53的不同位置，以用于分别检测小、中和大的待测目标。

可选的，在步骤S₃₀₀中，将所述主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度(13，13)、(9，9)、(5，5)和(1，1)的最大池化核进行处理，以改善感受野域尺寸大小，并分离出最显著的上下文特征。

可选的，在步骤S₄₀₀中，所述采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括：

采用YOLOv3Head对获取的特征进行多尺度预测，得到3个有效特征层的预测结果，从而输出编码后的3个张量值为(19，19，33)、(38，38，33)和(76，76，33)，并且可以确定三个预测框的位置。

得到(19*19+38*38+76*76)*3个box的坐标，其坐标结构为[x,y,w,h,confidence,class1，class2，…，classN]

其中：x、y代表每一先验框的左上角坐标，w、h分别代表先验框的宽度和高度，confidence代表网络认定先验框属于classN的置信度，classN表示N个类别。

可选的，在步骤S₅₀₀中，所述将预测头输出的所有框信息输入到NMS模块中，以得到筛选后的框信息具体包括：

从yolov4网络中得到的若干框后，将该包含框信息的数组输入NMS模块中，进行非极大值抑制，输出最后的检测结果。

可选的，在步骤S₆₀₀中，所述将目标检测器输出帧序列中前后帧的框坐标序列输入sort模块中，所述sort模块输出帧间目标id的具体操作为：

将经过NMS模块筛选过后的框矩阵输入到sort跟踪模块，所述sort跟踪模块给当前帧中的所有目标分配一个id，以用于确定两帧中的目标是否为同一个目标。

可选的，在步骤S₇₀₀中，所述通过双过线算法计算出视频中的建材目标数具体包括：

S₇₀₁：通过分配的id来锁定前后帧是否为同一个目标；

S₇₀₂：将每个目标的当前帧的框中心坐标与上一帧的中心坐标相连形成向量；

S₇₀₃：判断每帧的向量方向，以确定双过线的计数线是哪一根，若该向量与计数线相交，则目标数加一。

可选的，所述YOLOv3Head网络的损失函数包括坐标损失coordError，置信度损失IOUError和类别预测损失classError，所述YOLOv3Head网络的损失函数表达式如下：

其中：

表示第i个单元格包含目标，

表示第i个单元格的第j个边界框包含目标，

表示第i个单元格的第j个边界框不包含目标，λ_coord表示框回归损失的权重值，λ_noobj表示没有目标的类别所占的权重值，

表示预测目标是第i类的置信度，C_i代表第i类的真实置信度，

代表预测为第i类的概率，p_i(c)代表第i类的真实概率，x,y,w,h分别代表预测框的中心x,y坐标和框的宽和高。

本发明的第二目的在于提供一种多类别建材视频计数设备，包括：处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令，所述处理器执行所述计算机程序指令时用于上述所述的多类别建材视频计数方法。

本发明的第三目的在于提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述所述的多类别建材视频计数方法。

本发明与现有技术相比具有显著的优点和有益效果，具体体现在以下方面：

本发明提出了一种机器人拍摄的工地建材视频通过算法计数场地中的建材的方法，该方法采用深度学习中的神经网络方法，通过使用计算机自动检测出视频中每帧的建材种类和位置，并使用一个多类别多目标跟踪，关联视频的帧间信息，克服目标遮挡；最后，通过双过线计数算法计算出整个视频中的建材数量个种类。

附图说明

图1为本发明实施例中多类别建材视频计数方法的流程示意图；

图2为本发明实施例中多类别建材视频计数设备的结构示意图；

图3为本发明实施例中BLSTM的结构示意图；

图4为本发明实施例中置信度模块的结构示意图；

图5为本发明实施例中PAN网络的结构示意图；

图6为本发明第一实施例中多类别建材视频计数方法的算法部分效果图；

图7为本发明第二实施例中多类别建材视频计数方法的算法部分效果图；

图8为本发明第三实施例中多类别建材视频计数方法的算法部分效果图；

图9为本发明第四实施例中多类别建材视频计数方法的算法部分效果图；

图10为本发明第五实施例中多类别建材视频计数方法的算法第四部分效果图；

图11为本发明第六实施例中多类别建材视频计数方法的算法第四部分效果图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

请参阅图1-5所示，在本发明的实施例当中提供了一种多类别建材视频计数方法，应用于工地建材数量的估计，所述视频计数方法包括：

S₁₀₀：提取机器人拍摄视频的视频帧；

具体地，在本实施例当中，提取视频帧的具体操作为：将机器人拍摄的视频，从每帧1920*1080压缩至每帧416*416，目的是为了与网络的输入维度相匹配。

S₂₀₀：将所述视频帧中的待测图像输入到YOLOv4网络模型中，经主干特征提取网络CSPDarknet53提取出所述待测图像的特征；

具体地，在本实施例当中，将待测视频帧输入到YOLOv4网络模型中的主干部分，提取出三个不同尺度的特征，三个不同尺度的特征的维度分别是(19*19*1024)、(38*38*512)和(76*76*256)。

需要特别说明的是，YOLOv4网络模型中的SPP模块的结构如图2所示，主干网络的输出分别经过4种不同尺度的最大池化(MaxPooling)操作，最大池化操作的池化核大小分别为1*1(无处理)、5*5、9*9、13*13，然后再将不同尺度的特征图进行拼接(Concat)，SPP模块可以将不同尺寸的图像生成固定尺寸的图像，很大程度上增加感受野，分离出最显著的上下文特征，起到特征增强的作用。

在多尺度预测过程中，PANet模块对特征的反复提取与融合，是多尺度特征提取的重要方法，

请参阅图5所示，PANet模块主要包含FPN和PAN两个子模块，FPN子模块在神经网络提取语义特征的基础上，进行一系列上采样(UpSamping)将深层网络丰富的语义信息传递到浅层网络；然后在对应特征尺度上用横向连接(LateralConnection)实现特征融合；PAN子模块通过一系列下采样(DownSamping)将浅层网络的定位信息传递给深层网络；然后再一次特征融合。

由此，PANet模块通过两次特征金字塔操作，将FPN子模块传达的强语义信息与PAN子模块传达的强定位特征在对应的检测层上进行特征融合，可以在浅层网络和深层网络同时获取精准的定位信息和丰富的语义信息，得到定位精度和语义信息的双重提升，提高模型对不同目标的检测能力。

由此，通过加入sort跟踪模块，sort跟踪模块解决了视频计数的单帧性，在实时计数的基础上增加了全局计数的功能，不仅能预测当前帧的目标数，还能预测从视频起始至当前帧的所有目标数，为工地统计建材数量提供极大的便利性。

在此，对sort跟踪模块做如下具体说明：

将检测器中得到的一系列框的结果序列输入一个预测模型，这里的预测模型我们使用卡尔曼滤波，这个模型独立于其他物体，也独立于拍摄物体的摄影机的运动。每个目标的状态被建模为：

其中：u和v代表目标中心的x、y坐标，s、r表示边界框boundingbox的尺寸(面积)和长宽比。这里的长宽比是固定的，所以前后帧的长宽比都一样。

表示下一帧的预测中心的坐标和检测框面积。边界框boundingbox用于更新目标状态，其中的速度分量使用卡尔曼滤波进行求解，如果没有和目标关联的检测框，就使用线性的预测模型而不需要修正。

为现有的目标分配检测框时，每个目标的边界框形状是通过预测其在当前帧中的新位置估计的。然后计算分配代价矩阵，将其作为目标与检测框之间的交并比(IOU)。如果IOU小于一定的阈值，则拒绝分配检测框。

将分配完成检测框的目标认定为跟踪成功，并且给它分配一个id，如果前后帧的目标的id相同，则认定为同一个目标。

在本实施例当中，统计相邻两帧的所有目标框的移动情况，如果某一方向的框数量大于另一方向的框数量，则判定该帧为这一方向移动的帧；然后再判断当前所有的左移帧是否大于右移帧，如果大于，则计数结果按照右边线来统计，反之，则按照左边线来统计。

由此，通过加入双过线计数策略，该策略可以解决镜头移动方向不确定导致的单过线策略计数误差的情况，双过线计数策略可以自适应的根据摄像机的移动方向而确定计数策略，极大的提高了计数的精度。

另外，所使用的训练数据集是通过工地巡检机器人搭载的摄像头所拍摄的照片。

需要在此进一步解释说明的是，YOLOv4的主干网络是CSPDarknet53，其在YOLOv3的主干网络Darknet53的基础上添加了跨阶段初等网络(Cross StageParitialNetwork，CSPNet)。

Darknet53是一个全卷积网络，使用了大量的残差连接(Resunit)，并且采用stride＝2的卷积操作代替池化层进行下采样，在保证网络性能的同时加快运算速度。

请参阅图2所示，跨阶段初等网络CSPNet主要解决的是深层网络造成的计算量过大的问题，跨阶段初等网络CSPNet先将基础层的特征映射划分为两部分，一部分进行残差连接缓解梯度爆炸和过拟合问题，另一部分跳跃连接减少计算，然后通过跳跃连接将它们合并，加快训练速度。

具体地，在本发明的实施例当中，在步骤S₂₀₀中，所述提取出所述待测图像的特征具体操作为：

具体地，在本发明的实施例当中，步骤S₃₀₀中，将主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度(13，13)、(9，9)、(5，5)和(1，1)的最大池化核进行处理，以改善感受野域尺寸大小，并分离出最显著的上下文特征。

由此，通过四个不同尺度的最大池化核进行处理，其目的就是为了显著的改善感受野域尺寸大小，分离出最重要的上下文特征。

具体地，在本发明的实施例当中，步骤S₄₀₀中，采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括：

分类回归层主要完成不同尺度上的目标检测任务。用三种不同的网格划分特征图，分别检测不同尺度上的目标。

其中，三种不同的网格划分如下：

13×13的网格划分的每一块网格面积最大，用于预测大物体；

26×26的网格划分的每一块网格大小中等，用于预测中等物体；

52×52的网格划分每一块网格大小最小，用于预测小物体。

在得到三个尺度上的先验框之后，模型进一步通过回归损失函数和分类损失函数得到目标的所属类别，返回目标的边界框，得到最终的检测结果。

具体地，在本发明的实施例当中，在步骤S₅₀₀中，所述将预测头输出的所有框信息输入到NMS模块中，以得到筛选后的框信息具体包括：

从YOLOv4网络模型中得到的若干框后，将该包含框信息的数组输入NMS模块中，进行非极大值抑制，输出最后的检测结果。

具体地，在本发明的实施例当中，步骤S₆₀₀中，所述将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中，所述sort跟踪模块输出帧间目标id的具体操作为：

具体地，在本发明的实施例当中，步骤S₇₀₀中，所述通过双过线算法计算出视频中的建材目标数具体包括：

S₇₀₁：通过分配的id来锁定前后帧是否为同一个目标；

具体地，在本发明的实施例当中，所述YOLOv3Head网络的损失函数包括坐标损失coordError，置信度损失IOUError和类别预测损失classError，所述YOLOv3Head网络的损失函数表达式如下：

其中：

表示第i个单元格包含目标；

表示第i个单元格的第j个边界框包含目标；

表示第i个单元格的第j个边界框不包含目标。λ_coord表示框回归损失的权重值，λ_noobj表示没有目标的类别所占的权重值，

表示预测目标是第i类的置信度，C_i代表第i类的真实置信度。

代表预测为第i类的概率，p_i(c)代表第i类的真实概率。x,y,w,h分别代表预测框的中心x,y坐标和框的宽和高。

请参阅下表1所示，在本发明的实施例当中，计数指标如下表所示：

表1

注：表中*表示视频中包含钢筋条和钢筋圈。

图6-11为本发明实施例中算法部分效果图，通过机器人拍摄的工地建材视频，利用算法计数场地中的建材的方法，并采用深度学习中的神经网络方法，解决使用计算机自动检测出视频中每帧的建材种类和位置，并使用一个多类别多目标跟踪，关联视频的帧间信息，克服目标遮挡，最后通过双过线计数算法计算出整个视频中的建材数量个种类。

请参阅图2所示，本发明实施例还提供了一种多类别建材视频计数设备，包括：处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令，所述处理器执行所述计算机程序指令时用于实现上述所述的多类别建材视频计数方法。

本申请实施例提供的视频计数设备，可用于执行上述任一方法实施例提供的多类别建材视频计数方法，其实现原理和技术效果类似，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当计算机执行指令在在计算机上运行时，使得计算机执行上述所述的多类别建材视频计数方法。

需要说明的是，上述的计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

可选的，将可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路中。当然，处理器和可读存储介质也可以作为分立组件存在于设备中。

虽然本发明公开披露如上，但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种多类别建材视频计数方法，应用于工地建材数量的估计，其特征在于，所述视频计数方法包括：

S₁₀₀：提取机器人拍摄视频的视频帧；

2.根据权利要求1所述的多类别建材视频计数方法，其特征在于，在步骤S₂₀₀中，所述提取出所述待测图像的特征具体操作为：

3.根据权利要求1所述的多类别建材视频计数方法，其特征在于，在步骤S₃₀₀中，将所述主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后，分别利用四个不同尺度(13，13)、(9，9)、(5，5)和(1，1)的最大池化核进行处理，以改善感受野域尺寸大小，并分离出最显著的上下文特征。

4.根据权利要求1所述的多类别建材视频计数方法，其特征在于，在步骤S₄₀₀中，所述采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括：

采用YOLOv3Head对获取的特征进行多尺度预测，得到3个有效特征层的预测结果，从而输出编码后的3个张量值为(19，19，33)、(38，38，33)和(76，76，33)，并且可以确定三个预测框的位置；

得到(19*19+38*38+76*76)*3个box的坐标，其坐标结构为[x,y,w,h,confidence,class1，class2，…，class N]；

其中：x、y代表每一先验框的左上角坐标，w、h分别代表先验框的宽度和高度，confidence代表网络认定先验框属于class N的置信度，class N表示N个类别。

5.根据权利要求1所述的多类别建材视频计数方法，其特征在于，在步骤S₅₀₀中，所述将预测头输出的所有框信息输入到NMS模块中，以得到筛选后的框信息具体包括：

6.根据权利要求1所述的多类别建材视频计数方法，其特征在于，在步骤S₆₀₀中，所述将目标检测器输出帧序列中前后帧的框坐标序列输入sort模块中，所述sort模块输出帧间目标id的具体操作为：

7.根据权利要求1所述的多类别建材视频计数方法，其特征在于，在步骤S₇₀₀中，所述通过双过线算法计算出视频中的建材目标数具体包括：

S₇₀₁：通过分配的id来锁定前后帧是否为同一个目标；

8.根据权利要求1所述的多类别建材视频计数方法，其特征在于，所述YOLOv3Head网络的损失函数包括坐标损失coordError，置信度损失IOUError和类别预测损失classError，所述YOLOv3Head网络的损失函数表达式如下：

其中：

表示第i个单元格包含目标，

表示第i个单元格的第j个边界框包含目标，

9.一种多类别建材视频计数设备，包括：处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令，其特征在于，所述处理器执行所述计算机程序指令时用于实现如权利要求1至8任一项所述的多类别建材视频计数方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的多类别建材视频计数方法。