CN115171011A - 一种多类别建材视频计数方法及系统、计数设备 - Google Patents

一种多类别建材视频计数方法及系统、计数设备 Download PDF

Info

Publication number
CN115171011A
CN115171011A CN202210756710.1A CN202210756710A CN115171011A CN 115171011 A CN115171011 A CN 115171011A CN 202210756710 A CN202210756710 A CN 202210756710A CN 115171011 A CN115171011 A CN 115171011A
Authority
CN
China
Prior art keywords
frame
counting
target
prediction
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210756710.1A
Other languages
English (en)
Inventor
殷蔚明
彭建铖
罗大鹏
程卓
陈应
黄罗琪
董蓓
柳旭辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Second Construction Engineering Co Ltd of China Construction Third Engineering Division
China Construction Third Bureau Intelligent Technology Co Ltd
Original Assignee
China University of Geosciences
Second Construction Engineering Co Ltd of China Construction Third Engineering Division
China Construction Third Bureau Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences, Second Construction Engineering Co Ltd of China Construction Third Engineering Division, China Construction Third Bureau Intelligent Technology Co Ltd filed Critical China University of Geosciences
Priority to CN202210756710.1A priority Critical patent/CN115171011A/zh
Publication of CN115171011A publication Critical patent/CN115171011A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种多类别建材视频计数方法及系统、计数设备,所述计数方法包括:提取机器人拍摄视频的视频帧;将待测视频帧输入到YOLOv4模型中,提取出待测图像的特征;对主干特征提取网络的最后一个特征层进行三次卷积后,利用多尺度的最大池化处理,以分离待测图像中的上下文特征;对获取的特征进行多尺度预测,经解码获取预测框在待测输入图像中的位置;将所有框信息输入到NMS模块中,以得到筛选后的框信息;将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,输出帧间目标id。本发明采用神经网络方法并使用一个多类别多目标跟踪,关联视频的帧间信息,克服目标遮挡,最后通过双过线计数算法计算出整个视频中的建材数量和种类。

Description

一种多类别建材视频计数方法及系统、计数设备
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种多类别建材视频计数方法及系统、计数设备。
背景技术
随着“数字化工地”理念的提出,机器人智能监控技术在建筑行业得到广泛应用,逐步实现了建筑工地建材巡检,建材数量检测,实时反馈建材的需求,以减少工地事故的发生,提高建筑行业的实施效率。
目前,在建材企业将建材通过运输车辆运送到工地上之后,一般需要供货方、劳务队材料员、项目部材料员三方工地人员对建材数量进行清点以完成货物验收。而工地普遍采用人工计数方法,例如一般使用不同颜色的颜料或者电子自动计数笔对将要清点的建材进行区分标记。
采用人工计数方法虽然简单,但工作强度大,清点过程繁琐枯燥,工作人员会长时间处于高度紧张的状态,容易导致计数误差;此外,整个过程常常需要进行反复校对,工人数完建材一般需要花费数小时左右,计数效率非常低,这已经无法满足现代化建筑企业快速生产的需求。
发明内容
为了克服上述现有技术的不足,本发明提供了一种多类别建材视频计数方法及系统,以解决目前工地人工计数方法导致工作强度大、清点过程繁琐、易计数产生误差和工作效率低的技术问题。
为解决上述问题,本发明的第一目的在于提供一种多类别建材视频计数方法,应用于工地建材数量的估计,所述视频计数方法包括:
S100:提取机器人拍摄视频的视频帧;
S200:将所述拍摄视频中的待测视频帧输入到YOLOv4模型中,经主干特征提取网络CSPDarknet53提取出所述待测图像的特征;
S300:对所述主干特征提取网络CSPdarknet53的最后一个特征层进行三次卷积后,分别利用多个不同尺度的最大池化方法进行处理,以分离出所述待测图像中最显著的上下文特征;
S400:提取完特征后,采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,所述3个有效特征层经解码获取预测框在待测输入图像中的位置;
S500:将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息;
S600:将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,所述sort模块输出帧间目标id;
S700:通过双过线算法计算出视频中的建材目标数,并打印在输出视频中。
可选的,在步骤S200中,所述提取出所述待测图像的特征具体操作为:
提取待测图像中的3个有效特征层(76,76,256)、(38,38,512)和(19,19,1024),所述3个有效特征层分别位于主干特征提取网络CSPDarknet53的不同位置,以用于分别检测小、中和大的待测目标。
可选的,在步骤S300中,将所述主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后,分别利用四个不同尺度(13,13)、(9,9)、(5,5)和(1,1)的最大池化核进行处理,以改善感受野域尺寸大小,并分离出最显著的上下文特征。
可选的,在步骤S400中,所述采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括:
采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,从而输出编码后的3个张量值为(19,19,33)、(38,38,33)和(76,76,33),并且可以确定三个预测框的位置。
得到(19*19+38*38+76*76)*3个box的坐标,其坐标结构为[x,y,w,h,confidence,class1,class2,…,classN]
其中:x、y代表每一先验框的左上角坐标,w、h分别代表先验框的宽度和高度,confidence代表网络认定先验框属于classN的置信度,classN表示N个类别。
可选的,在步骤S500中,所述将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息具体包括:
从yolov4网络中得到的若干框后,将该包含框信息的数组输入NMS模块中,进行非极大值抑制,输出最后的检测结果。
可选的,在步骤S600中,所述将目标检测器输出帧序列中前后帧的框坐标序列输入sort模块中,所述sort模块输出帧间目标id的具体操作为:
将经过NMS模块筛选过后的框矩阵输入到sort跟踪模块,所述sort跟踪模块给当前帧中的所有目标分配一个id,以用于确定两帧中的目标是否为同一个目标。
可选的,在步骤S700中,所述通过双过线算法计算出视频中的建材目标数具体包括:
S701:通过分配的id来锁定前后帧是否为同一个目标;
S702:将每个目标的当前帧的框中心坐标与上一帧的中心坐标相连形成向量;
S703:判断每帧的向量方向,以确定双过线的计数线是哪一根,若该向量与计数线相交,则目标数加一。
可选的,所述YOLOv3Head网络的损失函数包括坐标损失coordError,置信度损失IOUError和类别预测损失classError,所述YOLOv3Head网络的损失函数表达式如下:
Figure BDA0003722781460000031
其中:
Figure BDA0003722781460000041
表示第i个单元格包含目标,
Figure BDA0003722781460000042
表示第i个单元格的第j个边界框包含目标,
Figure BDA0003722781460000043
表示第i个单元格的第j个边界框不包含目标,λcoord表示框回归损失的权重值,λnoobj表示没有目标的类别所占的权重值,
Figure BDA0003722781460000044
表示预测目标是第i类的置信度,Ci代表第i类的真实置信度,
Figure BDA0003722781460000045
代表预测为第i类的概率,pi(c)代表第i类的真实概率,x,y,w,h分别代表预测框的中心x,y坐标和框的宽和高。
本发明的第二目的在于提供一种多类别建材视频计数设备,包括:处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时用于上述所述的多类别建材视频计数方法。
本发明的第三目的在于提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述所述的多类别建材视频计数方法。
本发明与现有技术相比具有显著的优点和有益效果,具体体现在以下方面:
本发明提出了一种机器人拍摄的工地建材视频通过算法计数场地中的建材的方法,该方法采用深度学习中的神经网络方法,通过使用计算机自动检测出视频中每帧的建材种类和位置,并使用一个多类别多目标跟踪,关联视频的帧间信息,克服目标遮挡;最后,通过双过线计数算法计算出整个视频中的建材数量个种类。
附图说明
图1为本发明实施例中多类别建材视频计数方法的流程示意图;
图2为本发明实施例中多类别建材视频计数设备的结构示意图;
图3为本发明实施例中BLSTM的结构示意图;
图4为本发明实施例中置信度模块的结构示意图;
图5为本发明实施例中PAN网络的结构示意图;
图6为本发明第一实施例中多类别建材视频计数方法的算法部分效果图;
图7为本发明第二实施例中多类别建材视频计数方法的算法部分效果图;
图8为本发明第三实施例中多类别建材视频计数方法的算法部分效果图;
图9为本发明第四实施例中多类别建材视频计数方法的算法部分效果图;
图10为本发明第五实施例中多类别建材视频计数方法的算法第四部分效果图;
图11为本发明第六实施例中多类别建材视频计数方法的算法第四部分效果图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
请参阅图1-5所示,在本发明的实施例当中提供了一种多类别建材视频计数方法,应用于工地建材数量的估计,所述视频计数方法包括:
S100:提取机器人拍摄视频的视频帧;
具体地,在本实施例当中,提取视频帧的具体操作为:将机器人拍摄的视频,从每帧1920*1080压缩至每帧416*416,目的是为了与网络的输入维度相匹配。
S200:将所述视频帧中的待测图像输入到YOLOv4网络模型中,经主干特征提取网络CSPDarknet53提取出所述待测图像的特征;
具体地,在本实施例当中,将待测视频帧输入到YOLOv4网络模型中的主干部分,提取出三个不同尺度的特征,三个不同尺度的特征的维度分别是(19*19*1024)、(38*38*512)和(76*76*256)。
S300:对所述主干特征提取网络CSPdarknet53的最后一个特征层进行三次卷积后,分别利用多个不同尺度的最大池化方法进行处理,以分离出所述待测图像中最显著的上下文特征;
需要特别说明的是,YOLOv4网络模型中的SPP模块的结构如图2所示,主干网络的输出分别经过4种不同尺度的最大池化(MaxPooling)操作,最大池化操作的池化核大小分别为1*1(无处理)、5*5、9*9、13*13,然后再将不同尺度的特征图进行拼接(Concat),SPP模块可以将不同尺寸的图像生成固定尺寸的图像,很大程度上增加感受野,分离出最显著的上下文特征,起到特征增强的作用。
S400:提取完特征后,采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,所述3个有效特征层经解码获取预测框在待测输入图像中的位置;
在多尺度预测过程中,PANet模块对特征的反复提取与融合,是多尺度特征提取的重要方法,
请参阅图5所示,PANet模块主要包含FPN和PAN两个子模块,FPN子模块在神经网络提取语义特征的基础上,进行一系列上采样(UpSamping)将深层网络丰富的语义信息传递到浅层网络;然后在对应特征尺度上用横向连接(LateralConnection)实现特征融合;PAN子模块通过一系列下采样(DownSamping)将浅层网络的定位信息传递给深层网络;然后再一次特征融合。
由此,PANet模块通过两次特征金字塔操作,将FPN子模块传达的强语义信息与PAN子模块传达的强定位特征在对应的检测层上进行特征融合,可以在浅层网络和深层网络同时获取精准的定位信息和丰富的语义信息,得到定位精度和语义信息的双重提升,提高模型对不同目标的检测能力。
S500:将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息;
S600:将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,所述sort模块输出帧间目标id;
由此,通过加入sort跟踪模块,sort跟踪模块解决了视频计数的单帧性,在实时计数的基础上增加了全局计数的功能,不仅能预测当前帧的目标数,还能预测从视频起始至当前帧的所有目标数,为工地统计建材数量提供极大的便利性。
在此,对sort跟踪模块做如下具体说明:
将检测器中得到的一系列框的结果序列输入一个预测模型,这里的预测模型我们使用卡尔曼滤波,这个模型独立于其他物体,也独立于拍摄物体的摄影机的运动。每个目标的状态被建模为:
Figure BDA0003722781460000071
其中:u和v代表目标中心的x、y坐标,s、r表示边界框boundingbox的尺寸(面积)和长宽比。这里的长宽比是固定的,所以前后帧的长宽比都一样。
Figure BDA0003722781460000072
表示下一帧的预测中心的坐标和检测框面积。边界框boundingbox用于更新目标状态,其中的速度分量使用卡尔曼滤波进行求解,如果没有和目标关联的检测框,就使用线性的预测模型而不需要修正。
为现有的目标分配检测框时,每个目标的边界框形状是通过预测其在当前帧中的新位置估计的。然后计算分配代价矩阵,将其作为目标与检测框之间的交并比(IOU)。如果IOU小于一定的阈值,则拒绝分配检测框。
将分配完成检测框的目标认定为跟踪成功,并且给它分配一个id,如果前后帧的目标的id相同,则认定为同一个目标。
S700:通过双过线算法计算出视频中的建材目标数,并打印在输出视频中。
在本实施例当中,统计相邻两帧的所有目标框的移动情况,如果某一方向的框数量大于另一方向的框数量,则判定该帧为这一方向移动的帧;然后再判断当前所有的左移帧是否大于右移帧,如果大于,则计数结果按照右边线来统计,反之,则按照左边线来统计。
由此,通过加入双过线计数策略,该策略可以解决镜头移动方向不确定导致的单过线策略计数误差的情况,双过线计数策略可以自适应的根据摄像机的移动方向而确定计数策略,极大的提高了计数的精度。
另外,所使用的训练数据集是通过工地巡检机器人搭载的摄像头所拍摄的照片。
需要在此进一步解释说明的是,YOLOv4的主干网络是CSPDarknet53,其在YOLOv3的主干网络Darknet53的基础上添加了跨阶段初等网络(Cross StageParitialNetwork,CSPNet)。
Darknet53是一个全卷积网络,使用了大量的残差连接(Resunit),并且采用stride=2的卷积操作代替池化层进行下采样,在保证网络性能的同时加快运算速度。
请参阅图2所示,跨阶段初等网络CSPNet主要解决的是深层网络造成的计算量过大的问题,跨阶段初等网络CSPNet先将基础层的特征映射划分为两部分,一部分进行残差连接缓解梯度爆炸和过拟合问题,另一部分跳跃连接减少计算,然后通过跳跃连接将它们合并,加快训练速度。
具体地,在本发明的实施例当中,在步骤S200中,所述提取出所述待测图像的特征具体操作为:
提取待测图像中的3个有效特征层(76,76,256)、(38,38,512)和(19,19,1024),所述3个有效特征层分别位于主干特征提取网络CSPDarknet53的不同位置,以用于分别检测小、中和大的待测目标。
具体地,在本发明的实施例当中,步骤S300中,将主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后,分别利用四个不同尺度(13,13)、(9,9)、(5,5)和(1,1)的最大池化核进行处理,以改善感受野域尺寸大小,并分离出最显著的上下文特征。
由此,通过四个不同尺度的最大池化核进行处理,其目的就是为了显著的改善感受野域尺寸大小,分离出最重要的上下文特征。
具体地,在本发明的实施例当中,步骤S400中,采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括:
采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,从而输出编码后的3个张量值为(19,19,33)、(38,38,33)和(76,76,33),并且可以确定三个预测框的位置。
得到(19*19+38*38+76*76)*3个box的坐标,其坐标结构为[x,y,w,h,confidence,class1,class2,…,classN]
其中:x、y代表每一先验框的左上角坐标,w、h分别代表先验框的宽度和高度,confidence代表网络认定先验框属于classN的置信度,classN表示N个类别。
分类回归层主要完成不同尺度上的目标检测任务。用三种不同的网格划分特征图,分别检测不同尺度上的目标。
其中,三种不同的网格划分如下:
13×13的网格划分的每一块网格面积最大,用于预测大物体;
26×26的网格划分的每一块网格大小中等,用于预测中等物体;
52×52的网格划分每一块网格大小最小,用于预测小物体。
在得到三个尺度上的先验框之后,模型进一步通过回归损失函数和分类损失函数得到目标的所属类别,返回目标的边界框,得到最终的检测结果。
具体地,在本发明的实施例当中,在步骤S500中,所述将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息具体包括:
从YOLOv4网络模型中得到的若干框后,将该包含框信息的数组输入NMS模块中,进行非极大值抑制,输出最后的检测结果。
具体地,在本发明的实施例当中,步骤S600中,所述将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,所述sort跟踪模块输出帧间目标id的具体操作为:
将经过NMS模块筛选过后的框矩阵输入到sort跟踪模块,所述sort跟踪模块给当前帧中的所有目标分配一个id,以用于确定两帧中的目标是否为同一个目标。
具体地,在本发明的实施例当中,步骤S700中,所述通过双过线算法计算出视频中的建材目标数具体包括:
S701:通过分配的id来锁定前后帧是否为同一个目标;
S702:将每个目标的当前帧的框中心坐标与上一帧的中心坐标相连形成向量;
S703:判断每帧的向量方向,以确定双过线的计数线是哪一根,若该向量与计数线相交,则目标数加一。
具体地,在本发明的实施例当中,所述YOLOv3Head网络的损失函数包括坐标损失coordError,置信度损失IOUError和类别预测损失classError,所述YOLOv3Head网络的损失函数表达式如下:
Figure BDA0003722781460000101
其中:
Figure BDA0003722781460000102
表示第i个单元格包含目标;
Figure BDA0003722781460000103
表示第i个单元格的第j个边界框包含目标;
Figure BDA0003722781460000104
表示第i个单元格的第j个边界框不包含目标。λcoord表示框回归损失的权重值,λnoobj表示没有目标的类别所占的权重值,
Figure BDA0003722781460000105
表示预测目标是第i类的置信度,Ci代表第i类的真实置信度。
Figure BDA0003722781460000106
代表预测为第i类的概率,pi(c)代表第i类的真实概率。x,y,w,h分别代表预测框的中心x,y坐标和框的宽和高。
请参阅下表1所示,在本发明的实施例当中,计数指标如下表所示:
Figure BDA0003722781460000107
表1
注:表中*表示视频中包含钢筋条和钢筋圈。
图6-11为本发明实施例中算法部分效果图,通过机器人拍摄的工地建材视频,利用算法计数场地中的建材的方法,并采用深度学习中的神经网络方法,解决使用计算机自动检测出视频中每帧的建材种类和位置,并使用一个多类别多目标跟踪,关联视频的帧间信息,克服目标遮挡,最后通过双过线计数算法计算出整个视频中的建材数量个种类。
请参阅图2所示,本发明实施例还提供了一种多类别建材视频计数设备,包括:处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,所述处理器执行所述计算机程序指令时用于实现上述所述的多类别建材视频计数方法。
本申请实施例提供的视频计数设备,可用于执行上述任一方法实施例提供的多类别建材视频计数方法,其实现原理和技术效果类似,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当计算机执行指令在在计算机上运行时,使得计算机执行上述所述的多类别建材视频计数方法。
需要说明的是,上述的计算机可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
可选的,将可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
虽然本发明公开披露如上,但本发明公开的保护范围并非仅限于此。本领域技术人员在不脱离本公开的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

Claims (10)

1.一种多类别建材视频计数方法,应用于工地建材数量的估计,其特征在于,所述视频计数方法包括:
S100:提取机器人拍摄视频的视频帧;
S200:将所述拍摄视频中的待测视频帧输入到YOLOv4模型中,经主干特征提取网络CSPDarknet53提取出所述待测图像的特征;
S300:对所述主干特征提取网络CSPdarknet53的最后一个特征层进行三次卷积后,分别利用多个不同尺度的最大池化方法进行处理,以分离出所述待测图像中最显著的上下文特征;
S400:提取完特征后,采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,所述3个有效特征层经解码获取预测框在待测输入图像中的位置;
S500:将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息;
S600:将目标检测器输出帧序列中前后帧的框坐标序列输入sort跟踪模块中,所述sort模块输出帧间目标id;
S700:通过双过线算法计算出视频中的建材目标数,并打印在输出视频中。
2.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S200中,所述提取出所述待测图像的特征具体操作为:
提取待测图像中的3个有效特征层(76,76,256)、(38,38,512)和(19,19,1024),所述3个有效特征层分别位于主干特征提取网络CSPDarknet53的不同位置,以用于分别检测小、中和大的待测目标。
3.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S300中,将所述主干特征提取网络CSPDarknet53中的最后一个输出特征层进行三次DarknetConv2D_BN_Leaky卷积后,分别利用四个不同尺度(13,13)、(9,9)、(5,5)和(1,1)的最大池化核进行处理,以改善感受野域尺寸大小,并分离出最显著的上下文特征。
4.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S400中,所述采用YOLOv3Head对获取的特征进行多尺度预测的具体操作包括:
采用YOLOv3Head对获取的特征进行多尺度预测,得到3个有效特征层的预测结果,从而输出编码后的3个张量值为(19,19,33)、(38,38,33)和(76,76,33),并且可以确定三个预测框的位置;
得到(19*19+38*38+76*76)*3个box的坐标,其坐标结构为[x,y,w,h,confidence,class1,class2,…,class N];
其中:x、y代表每一先验框的左上角坐标,w、h分别代表先验框的宽度和高度,confidence代表网络认定先验框属于class N的置信度,class N表示N个类别。
5.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S500中,所述将预测头输出的所有框信息输入到NMS模块中,以得到筛选后的框信息具体包括:
从yolov4网络中得到的若干框后,将该包含框信息的数组输入NMS模块中,进行非极大值抑制,输出最后的检测结果。
6.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S600中,所述将目标检测器输出帧序列中前后帧的框坐标序列输入sort模块中,所述sort模块输出帧间目标id的具体操作为:
将经过NMS模块筛选过后的框矩阵输入到sort跟踪模块,所述sort跟踪模块给当前帧中的所有目标分配一个id,以用于确定两帧中的目标是否为同一个目标。
7.根据权利要求1所述的多类别建材视频计数方法,其特征在于,在步骤S700中,所述通过双过线算法计算出视频中的建材目标数具体包括:
S701:通过分配的id来锁定前后帧是否为同一个目标;
S702:将每个目标的当前帧的框中心坐标与上一帧的中心坐标相连形成向量;
S703:判断每帧的向量方向,以确定双过线的计数线是哪一根,若该向量与计数线相交,则目标数加一。
8.根据权利要求1所述的多类别建材视频计数方法,其特征在于,所述YOLOv3Head网络的损失函数包括坐标损失coordError,置信度损失IOUError和类别预测损失classError,所述YOLOv3Head网络的损失函数表达式如下:
Figure FDA0003722781450000031
其中:
Figure FDA0003722781450000032
表示第i个单元格包含目标,
Figure FDA0003722781450000033
表示第i个单元格的第j个边界框包含目标,
Figure FDA0003722781450000034
表示第i个单元格的第j个边界框不包含目标,λcoord表示框回归损失的权重值,λnoobj表示没有目标的类别所占的权重值,
Figure FDA0003722781450000035
表示预测目标是第i类的置信度,Ci代表第i类的真实置信度,
Figure FDA0003722781450000036
代表预测为第i类的概率,pi(c)代表第i类的真实概率,x,y,w,h分别代表预测框的中心x,y坐标和框的宽和高。
9.一种多类别建材视频计数设备,包括:处理器、显示器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序指令,其特征在于,所述处理器执行所述计算机程序指令时用于实现如权利要求1至8任一项所述的多类别建材视频计数方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的多类别建材视频计数方法。
CN202210756710.1A 2022-06-30 2022-06-30 一种多类别建材视频计数方法及系统、计数设备 Pending CN115171011A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210756710.1A CN115171011A (zh) 2022-06-30 2022-06-30 一种多类别建材视频计数方法及系统、计数设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210756710.1A CN115171011A (zh) 2022-06-30 2022-06-30 一种多类别建材视频计数方法及系统、计数设备

Publications (1)

Publication Number Publication Date
CN115171011A true CN115171011A (zh) 2022-10-11

Family

ID=83489171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210756710.1A Pending CN115171011A (zh) 2022-06-30 2022-06-30 一种多类别建材视频计数方法及系统、计数设备

Country Status (1)

Country Link
CN (1) CN115171011A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7274675B1 (ja) * 2023-03-23 2023-05-16 株式会社 日立産業制御ソリューションズ 資材自動計数システム及び資材自動計数方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7274675B1 (ja) * 2023-03-23 2023-05-16 株式会社 日立産業制御ソリューションズ 資材自動計数システム及び資材自動計数方法
WO2024195770A1 (ja) * 2023-03-23 2024-09-26 株式会社日立産業制御ソリューションズ 資材自動計数システム及び資材自動計数方法

Similar Documents

Publication Publication Date Title
CN110084292B (zh) 基于DenseNet和多尺度特征融合的目标检测方法
CN113468967B (zh) 基于注意力机制的车道线检测方法、装置、设备及介质
CN110765865B (zh) 基于改进的yolo算法的水下目标检测方法
CN109101897A (zh) 水下机器人的目标检测方法、系统及相关设备
CN111612002A (zh) 一种基于神经网络的多目标物体运动追踪方法
CN109543662A (zh) 基于区域提议的目标检测方法、系统、装置和存储介质
CN110909712B (zh) 运动目标检测方法、装置、电子设备及存储介质
CN112364865B (zh) 一种复杂场景中运动小目标的检测方法
CN110287875B (zh) 视频目标的检测方法、装置、电子设备和存储介质
CN109934170B (zh) 一种基于计算机视觉的矿山资源统计方法
CN113610895A (zh) 目标跟踪方法、装置、电子设备及可读存储介质
CN110543838A (zh) 车辆信息检测的方法及装置
CN113191204B (zh) 一种多尺度遮挡行人检测方法及系统
CN112800955A (zh) 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统
Weber et al. Single-shot panoptic segmentation
CN115272691A (zh) 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备
CN110827312A (zh) 一种基于协同视觉注意力神经网络的学习方法
CN111091101A (zh) 基于一步法的高精度行人检测方法、系统、装置
KR20210093875A (ko) 비디오 분석 방법 및 연관된 모델 훈련 방법, 기기, 장치
CN111242066A (zh) 大尺寸图像目标检测方法、装置及计算机可读存储介质
CN115063447A (zh) 一种基于视频序列的目标动物运动追踪方法及相关设备
CN112132130A (zh) 一种面向全场景的实时性车牌检测方法及系统
CN115147418A (zh) 缺陷检测模型的压缩训练方法和装置
CN115171011A (zh) 一种多类别建材视频计数方法及系统、计数设备
CN113887455B (zh) 一种基于改进fcos的人脸口罩检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination