CN116502810B - 一种基于图像识别的标准化生产监测方法 - Google Patents

一种基于图像识别的标准化生产监测方法 Download PDF

Info

Publication number
CN116502810B
CN116502810B CN202310769238.XA CN202310769238A CN116502810B CN 116502810 B CN116502810 B CN 116502810B CN 202310769238 A CN202310769238 A CN 202310769238A CN 116502810 B CN116502810 B CN 116502810B
Authority
CN
China
Prior art keywords
network
module
yolov5
layer
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310769238.XA
Other languages
English (en)
Other versions
CN116502810A (zh
Inventor
陈永
赵晨阳
易世华
李林峰
韩跟伟
谢映海
李先怀
范律
许建
李君�
李峻
余伟峰
陈超鑫
蒋鑫伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Willfar Information Technology Co Ltd
Original Assignee
Willfar Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Willfar Information Technology Co Ltd filed Critical Willfar Information Technology Co Ltd
Priority to CN202310769238.XA priority Critical patent/CN116502810B/zh
Publication of CN116502810A publication Critical patent/CN116502810A/zh
Application granted granted Critical
Publication of CN116502810B publication Critical patent/CN116502810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Strategic Management (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Operations Research (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图像识别的标准化生产监测方法,包括以下步骤:采集图像数据,构建图像数据集;构建YOLOv5网络模型;将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理,得到最优模型,并通过所述最优模型实时输出标准化生产的监测结果;构建监测服务平台,对标准化生产的监测结果进行实时监测和处理。本发明解决了现有的生产监管方式不够便捷以及监管响应不及时的技术问题。

Description

一种基于图像识别的标准化生产监测方法
技术领域
本发明涉及生产监测技术领域,尤其涉及一种基于图像识别的标准化生产监测方法。
背景技术
随着人工智能技术的高速发展,智能制造时代已经来临,许多企业将对工厂进行各种智能化改造,用于确保整个工厂高效稳定运行。其中,在生产中为了保证生产的标准化和生产的安全性,往往会有多个监管人员对其进行实地巡逻检测。此种方式需要投入大量的人力和时间,以确保生产安全有序的进行。传统监管方式是一种非常效率低下,且浪费人力资源的情况,而且人工监管的方式也存在监管模式不全面以及监管响应不及时的问题,因此,亟待提出一种基于图像识别的标准化生产监测方法,解决现有的生产监管方式不够便捷以及监管响应不及时的技术问题。
发明内容
本发明的主要目的是提供一种基于图像识别的标准化生产监测方法,旨在解决现有的生产监管方式不够便捷以及监管响应不及时的技术问题。
为实现上述目的,本发明提供一种基于图像识别的标准化生产监测方法,其中,所述基于图像识别的标准化生产监测方法包括以下步骤:
S1、采集图像数据,构建图像数据集;
S2、构建YOLOv5网络模型;
S3、将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理,得到最优模型,并通过所述最优模型实时输出标准化生产的监测结果;
S4、构建监测服务平台,对标准化生产的监测结果进行实时监测和处理。
优选方案之一,所述步骤S1采集图像数据,构建图像数据集之后,还包括:
对所述图像数据集中的图像数据进行数据增强。
优选方案之一,所述步骤S2构建YOLOv5网络模型,具体为:
S1、构造主干网络,通过所述主干网络提取图像数据的有效特征;
S2、构造检测头网络,通过所述检测头网络对有效特征进行融合,并进行目标分类和回归。
优选方案之一,所述主干网络包括Conv模块、CSP1CA_n模块和SPPF模块。
优选方案之一,所述检测头网络包括Conv模块、Upsample模块、Concat模块、CSP2_n模块和Detect模块。
优选方案之一,所述步骤S3中将YOLOv5网络模型通过图像数据集进行迭代训练,具体为:
构建dataloader,对数据进行预处理;
将预处理后的数据输入至YOLOv5网络模型,进行前向推理;
构建损失函数,并通过所述损失函数计算YOLOv5网络模型的损失值;
计算YOLOv5网络模型各参数的梯度值,并进行更新。
优选方案之一,所述计算YOLOv5网络模型各参数的梯度值,并进行更新,具体为:
通过反向传播计算YOLOv5网络模型各参数的梯度值,并采用优化函数更新所述YOLOv5网络模型中的各参数。
优选方案之一,所述步骤S3中量化处理,具体为:
将迭代训练后的YOLOv5网络模型进行量化得到INT8模型,以及对应的ONNX文件。
优选方案之一,所述步骤S3中转换处理,具体为:
将量化后的ONNX文件转换为TensorRT推理引擎文件。
优选方案之一,所述监测服务平台包括前端与后端;
所述前端,用于对标准化生产的监测结果进行实时监测;
所述后端,用于获取图像数据、TensorRT前向推理和前后端通信。
本发明的上述技术方案中,该基于图像识别的标准化生产监测方法包括以下步骤:采集图像数据,构建图像数据集;构建YOLOv5网络模型;将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理,得到最优模型,并通过所述最优模型实时输出标准化生产的监测结果;构建监测服务平台,对标准化生产的监测结果进行实时监测和处理。本发明解决了现有的生产监管方式不够便捷以及监管响应不及时的技术问题。
在本发明中,通过对迭代训练后的模型进行训练后量化,降低了模型文件大小的同时,使得网络的推理速度得到提升,且对于模型本身的精度损失较小。
在本发明中,采用非对称量化算法对训练好的YOLOv5网络模型进行量化,得到INT8模型,在不损失精度的情况下,可提升模型的检测速度,减少模型存储大小,节省部署资源开销。
在本发明中,构造监测服务平台,采用TensorRT部署量化后的YOLOv5网络模型,图像数据通过最优模型进行实时识别,并将识别结果通过监测服务平台前端进行实时显示,有利于作业人员实时查看当前工厂状况。
附图说明
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例一种基于图像识别的标准化生产监测方法的示意图;
图2为本发明实施例图像数据集的图像数据的示意图;
图3为本发明实施例YOLOv5网络模型的结构示意图;
图4为本发明实施例 CSP1CA_n模块的结构示意图;
图5为本发明实施例SPPF模块的结构示意图;
图6为本发明实施例 CSP2_n模块的结构示意图;
图7为本发明实施例CA注意力模块的结构示意图。
本发明目的的实现、功能特点及优点将结合实施方式,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
需要说明,本发明实施方式中所有方向性指示(诸如上、下……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
并且,本发明各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参见图1,根据本发明的一方面,本发明提供一种基于图像识别的标准化生产监测方法,其中,所述基于图像识别的标准化生产监测方法包括以下步骤:
S1、采集图像数据,构建图像数据集;
S2、构建YOLOv5网络模型;
S3、将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理,得到最优模型,并通过所述最优模型实时输出标准化生产的监测结果;
S4、构建监测服务平台,对标准化生产的监测结果进行实时监测和处理。
具体地,在本实施例中,所述步骤S1采集图像数据,构建图像数据集,具体为:采集 工厂环境中作业人员是否穿着静电服的图像数据,并进行数据清洗和标记,构建图像数据 集,参见图2,为图像数据集中的部分图像,(a)、(b)为图像数据集中采集的工厂环境中作业 人员未穿静电服的图像,(c)、(d)为图像数据集中采集的工厂环境中作业人员穿着静电服 的图像,通过YOLOv5网络模型对图像数据集进行识别,对工厂环境中作业人员是否穿着静 电服进行监测,实现工厂环境标准化生产;所述图像数据集包括训练集、验证集和测试集; 所述图像数据集按照8:1:1进行划分,依次得到训练集、验证集和测试集;本发明不进行具体限定,具体可根据需要进行设定。
具体地,在本实施例中,所述步骤S1采集图像数据,构建图像数据集之后,还包括: 对所述图像数据集中的图像数据进行数据增强;具体为,将训练集采用图像平移、翻 转、裁剪、颜色空间变换、随机擦除等多个数据增强方法进行数据增强,所述数据增强也叫 数据扩增,在不增加数据数目的情况下,让有限的数据产生等价于更多数据的价值,使得训 练出来的模型更具有泛化能力。
具体地,在本实施例中,参见图3-图7,所述步骤S2构建YOLOv5网络模型,具体为:
S1、构造主干网络,通过所述主干网络提取图像数据的有效特征;所述主干网络采用CSPDarknet主干特征提取网络,所述主干网络包括空间金字塔池化和CA注意力模块,所述CA注意力模块能够以高权重去聚焦重要信息,以低权重去忽略不相关的信息,并且还可以不断调整权重,使得在不同的情况下也可以选取重要的信息;所述主干网络包括Conv模块、CSP1CA_n模块和SPPF模块;构建所述主干网络,具体为:采用5个Conv模块、4个CSP1CA_n模块和1个SPPF模块构建主干网络的网络层,所述Conv模块为卷积操作、BatchNorm归一化和SiLU激活函数组成,所述CSP1CA_n模块是在原始的CSP1_n模块残差块上加入CA注意力模块,其中,n表示残差网络的个数,在每个残差网络后加入CA注意力,所述SPPF模块是由卷积和池化组成;
S2、构造检测头网络,通过所述检测头网络对有效特征进行融合,并进行目标分类 和回归;所述检测头网络包括路径聚合网络作为特征融合网络,通过所述特征融合网络进 行有效特征的融合,最终将融合后的特征网络通过检测头网络进行分类和回归处理,所述 检测头包括Conv模块、Upsample模块、Concat模块、CSP2_n模块和Detect模块;构造检测头 网络,具体为,采用4个Conv模块、2个Upsample模块、4个Concat模块、4个CSP2_n模块和1个 Detect模块构建检测头网络的网络层;Conv模块为卷积操作、BatchNorm归一化和SiLU激活 函数组成,所述Upsample模块采用最近邻插值进行插值,所述Concat模块讲两个特征图进 行连接,所述CSP2_n模块是由多个Conv组合而成,n表示Bottleneck的个数,Bottleneck由 两个Conv组成,所述Detect模块为输出三个不同尺度大小的检测头;所述主干网络和检测 头网络共25层网络组成,第i层网络层的输出的特征图记为,其中i为0,1,2,3...24,前 23层网络的特征图的大小为,其中,为每个批次中样本的个数,为特征 图的通道个数,为特征图的高度,为特征图的宽度,第24层网络由第17层网络、第20层 网络和第23层网络组成。
具体地,在本实施例中,所述步骤S3中将YOLOv5网络模型通过图像数据集进行迭代训练,具体为:
构建dataloader,对数据进行预处理;将进行数据增强后的图像数据集的训练集中随机挑选个样本,图像的通道为,,高为,宽为,则模型的输入维 度为
将预处理后的数据输入至YOLOv5网络模型,进行前向推理;具体为:随机挑选 个样本输入到YOLOv5网络模型中,YOLOv5网络模型中主干网络包括10层网络,检测头网络 包括15层网络,第0层网络为Conv模块,第1层网络为Conv模块,第2层网络为CSP1CA_4模块, 第3层网络为Conv模块,第4层网络为CSP1CA_8模块,第5层网络为Conv模块,第6层网络为 CSP1CA_12模块,第7层网络为Conv模块,第8层网络为CSP1CA_4模块,第9层网络为SPPF模 块,第10层网络为Conv模块,第11层网络为Upsample模块,第12层网络为Concat模块,第13 层网络为CSP2_4模块,第14层网络为Conv模块,第15层网络为Upsample模块,第16层网络为 Concat模块,第17层网络为CSP2_4模块,第18层网络为Conv模块,第19层网络为Concat模 块,第20层网络为CSP2_4模块,第21层网络为Conv模块,第22层网络为Concat模块,第23层 网络为CSP2_4模块,第24层网络为Detect模块;
所述主干网络主要进行有效特征提取,包括10层网络;
第0层网络,使用个尺寸6*6卷积核进行卷积操作,卷积的步长为2,卷积的 padding为2,输入特征图维度为,输出特征图为,其中
第1层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第2层网络,使用CSP1CA_4模块,该模块包含4个残差块,且每个残差块后加入 CA注意力机制,输入特征图维度为,输出特征图为,其中
第3层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第4层网络,使用CSP1CA_8模块,该模块包含8个残差块,且每个残差块后加入 CA注意力机制,输入特征图维度为,输出特征图为,其中
第5层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第6层网络,使用CSP1CA_12模块,该模块包含12个残差块,且每个残差块后加 入CA注意力机制,输入特征图维度为,输出特征图为,其中
第7层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第8层网络,使用CSP1CA_4模块,该模块包含4个残差块,且每个残差块后加入 CA注意力机制,输入特征图维度为,输出特征图为,其中
第9层网络,使用SPPF模块,该模块使用了三个最大值池化,第一个最大值池 化层的核为5*5,步长为1,padding为2,第二个最大值池化层的核为5*5,步长为1,padding 为2,第三个最大值池化层的核为5*5,步长为1,padding为2,输入特征图维度为,输出特征图为,其中
所述检测头网络包括15层网络层,通过检测头网络进行多层信息融合,从而提高检测效果;
第10层网络,使用个1*1卷积核进行卷积操作,卷积的步长为1,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第11层网络,使用Upsample模块对特征图的高和宽进行2倍上采样,上采样的 方式为最近邻插值,输入特征图维度为,输出特征图为,其中
第12层网络,使用Concat模块将第6层网络的输出特征图和第11层网络的输出特征图在通道维度上进行连 接,输入特征图维度为,输出特征图为,其中
第13层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第14层网络,使用个1*1卷积核进行卷积操作,卷积的步长为1,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第15层网络,使用Upsample模块对特征图的高和宽进行2倍上采样,上采样的 方式为最近邻插值,输入特征图维度为,输出特征图为,其中
第16层网络,使用Concat模块将第4层网络的输出特征图和第15层网络的输出特征图在通道维度上进行连 接,输入特征图维度为,输出特征图为,其中
第17层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第18层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第19层网络,使用Concat模块将第14层网络的输出特征图和第18层网络的输出特征图在通道维度上进行 连接,输入特征图维度为,输出特征图为,其中
第20层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第21层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其 中
第22层网络,使用Concat模块将第10层网络的输出特征图和第21层网络的输出特征图在通道维度上进行 连接,输入特征图维度为,输出特征图为,其中,
第23层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第24层网络,该模块包含3个尺度的特征图,分别用来回归大目标、中目标和 小目标,大目标的特征图为,其中,中目标的特征图为,其中,小目标的特征图为,其中为检测类别个数。
其中,在每个残差块后增加CA注意力模块,使得特征提取时更加聚焦于主要信息; 所述CA注意力模块为缓解2D全局池化造成位置信息丢失,将通道注意力分解为两个并行(x 和y方向)的1D特征编码过程,有效地将空间坐标信息整合到生成的注意图中,更具体来说, 利用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感 知特征图,这两个嵌入特定方向信息的特征图分别被编码位两个注意力图,每个注意力图 都捕获了输入特征图图沿着一个空间方向的长程依赖,因此,位置信息就被保存在生成的 注意力图中,两个注意力图接着被乘到输入特征图上来增强特征图的表达能力;首先,将全 局池化分解为一对一维特征编码操作,具体而言,对输入,先使用尺寸的 池化核沿着水平坐标方向和竖直坐标方向对每个通道进行池化,这两个变换沿着两个空间 方向进行特征聚合,返回一对方向感知注意力图。因此,第通道竖直方向,高度的注意力 图为:
同理,第c通道水平方向,宽度w的注意力图为:
将两个方向的注意力图进行空间维度的级联操作,进行1*1卷积和非线性操作,生成f;
其中,表示空间维度的级联操作,为1*1卷积操作,属于非线性操作,,r表示通道下采样比例;
接着对进行切分为、再分别进行卷积、非线性操作等操作得到
其中,表示sigmod函数;
最后将输入进行张量逐元素相乘得到
构建损失函数,并通过所述损失函数计算YOLOv5网络模型的损失值;使用前向推理得到的特征图和真实标签计算YOLOv5网络模型的损失值,所述YOLOv5网络模型的损失函数包括分类损失、边界框损失和置信度损失;所述分类损失为对检测到的目标进行识别分类;所述边界框损失为预测边界框与真实框之间的误差,检测出的目标的大小,通常为恰好包围目标的矩形框;所述置信度损失为检测出图像中目标的位置,同一张图像中可能存在多个检测目标;所述损失函数为:
其中,为检测层个数,是标签分配到先验框的目标个数, 为该尺度被分 割成的网格数;为边界框回归损失,对每个目标计算;为目标物体损失,对每个网格 计算;为分类损失,同样对每个目标计算,分别为这三种损失的权重;
损失函数为:
其中,IoU为交并比,计算的是“预测的边框”和“真实的边框”的交叠率,即它们的 交集和并集的比值,最理想情况是完全重叠,即比值为1;分别为预测框和标签框,分别为标签框的宽高和预测框的宽高,代表计算两个框的中心点距离, 为两个框边界的最远距离;均采用 BCEWithLogitsLoss,计算方式如公式如下:
其中,为样本个数,为标签值,为预测值;
计算YOLOv5网络模型各参数的梯度值,并进行更新;具体为,通过反向传播计算YOLOv5网络模型各参数的梯度值,并采用优化函数更新所述YOLOv5网络模型中的各参数,并判断所述YOLOv5网络模型是否收敛,若收敛,则结束模型的迭代训练;若未收敛,则继续重新随机挑选样本,输入模型进行处理。
具体地,在本实施例中,所述步骤S3中量化处理,具体为:将迭代训练后的YOLOv5网络模型进行量化得到INT8模型,以及对应的ONNX文件;所述ONNX文件所需存储空间更小,使得模型部署时加速效果更好。
具体地,在本实施例中,所述步骤S3中转换处理,具体为:采用转换工具将量化后的ONNX文件转换为TensorRT推理引擎文件,在转换过程中进行了各种图优化操作,使得其推理效果更高。
具体地,在本实施例中,所述监测服务平台包括前端与后端;所述前端,用于对标 准化生产的监测结果进行实时监测,同时可实时查看历史识别结果;所述后端,用于获取图 像数据、TensorRT前向推理和前后端通信;所述获取图像数据,具体为:FFmpeg数据获取,获 取网络摄像头的图像数据需要对RTSP格式的流数据进行解协议、解封装、视频解码、像素格 式转换等操作,最终得到RGB图像数据,将预处理后的图像数据,并通过最优模型进行识别; 所述TensorRT前向推理具体为:构造YOLOv5推理引擎,创建推理上下文、绑定模型输入输出 接口、将RGB图像数据输入到模型的输入接口、推理上下文执行推理和获取模型输出结果等 操作;所述后端用于对输出结果进行处理,将模型前向推理输出的结果,其输出格式为,其中,n为预测目标框的个数,4为坐标信息,1为置信度,c为类别概率;我们需 要将置信度大于阈值的候选框挑选出来,同时模型输出最终都会在同一目标的附近区域产 生一些重合度比较高的预测框,通常采用非极大值抑制来剔除冗余的预测框;所述前端实 时显示结果以及记录历史识别结果,所述后端将最新识别的结果编码成视频流,并通过 WebSocket将视频流发送给前端显示实时识别画面,同时所述前端支持历史识别查询。
具体地,在本实施例中,随机挑选个样本,图像的通道为/>,高为/>,宽为/>,那么模型的输入维度为/>,为例进行说明,本发明不进行具体限定,具体可根据需要进行设定;
第0层网络,使用个尺寸6*6卷积核进行卷积操作,卷积的步长为2,卷积的 padding为2,输入特征图维度为,输出特征图为,其中
第1层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第2层网络,使用CSP1CA_4模块,该模块包含4个残差块,且每个残差块后加入 CA注意力机制,输入特征图维度为,输出特征图为,其中
第3层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第4层网络,使用CSP1CA_8模块,该模块包含8个残差块,且每个残差块后加入 CA注意力机制,输入特征图维度为,输出特征图为,其中
第5层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第6层网络,使用CSP1CA_12模块,该模块包含12个残差块,且每个残差块后加 入CA注意力机制,输入特征图维度为,输出特征图为,其中
第7层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第8层网络,使用CSP1CA_4模块,该模块包含4个残差块,且每个残差块后加入 CA注意力机制,输入特征图维度为,输出特征图为,其中
第9层网络,使用SPPF模块,该模块使用了三个最大值池化,第一个最大值池 化层的核为5*5,步长为1,padding为2,第二个最大值池化层的核为5*5,步长为1,padding 为2,第三个最大值池化层的核为5*5,步长为1,padding为2,输入特征图维度为,输出特征图为,其中
第10层网络,使用个1*1卷积核进行卷积操作,卷积的步长为1,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第11层网络,使用Upsample模块对特征图的高和宽进行2倍上采样,上采样的 方式为最近邻插值,输入特征图维度为,输出特征图为,其中
第12层网络,使用Concat模块将第6层网络的输出特征图和第11层网络的输出特征图在通道维度上进行连 接,输入特征图维度为,输出特征图为,其中
第13层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第14层网络,使用个1*1卷积核进行卷积操作,卷积的步长为1,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第15层网络,使用Upsample模块对特征图的高和宽进行2倍上采样,上采样的 方式为最近邻插值,输入特征图维度为,输出特征图为,其中
第16层网络,使用Concat模块将第4层网络的输出特征图和第15层网络的输出特征图在通道维度上进行连 接,输入特征图维度为,输出特征图为,其中
第17层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第18层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其中
第19层网络,使用Concat模块将第14层网络的输出特征图和第18层网络的输出特征图在通道维度上进行 连接,输入特征图维度为,输出特征图为,其中
第20层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第21层网络,使用个3*3卷积核进行卷积操作,卷积的步长为2,卷积的 padding为1,输入特征图维度为,输出特征图为,其 中
第22层网络,使用Concat模块将第10层网络的输出特征图和第21层网络的输出特征图在通道维度上进行 连接,输入特征图维度为,输出特征图为,其中
第23层网络,使用CSP2_4模块,该模块包含4个残差块,输入特征图维度为,输出特征图为,其中
第24层网络,该模块包含3个尺度的特征图,分别用来回归大目标、中目标和 小目标,大目标的特征图为,其中,中目标的 特征图为,其中,小目标的特征图为, 其中,根 据数据集中样本的类别种类为,那么检测类别个数的值为2。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

Claims (5)

1.一种基于图像识别的标准化生产监测方法,其特征在于,包括以下步骤:
S1、采集图像数据,构建图像数据集;
S2、构建YOLOv5网络模型;所述步骤S2构建YOLOv5网络模型,具体为:
S21、构造主干网络,通过所述主干网络提取图像数据的有效特征;所述主干网络采用CSPDarknet主干特征提取网络,所述主干网络包括金字塔池化和CA注意力模块;所述主干网络包括Conv模块、CSP1CA_n模块和SPPF模块;在每个残差块后增加CA注意力模块,所述CA注意力模块为缓解2D全局池化造成位置信息丢失,采用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感知特征图,两个嵌入特定方向信息的特征图分别编码为两个注意力图;
S22、构造检测头网络,通过所述检测头网络对有效特征进行融合,并进行目标分类和回归;所述检测头网络采用路径聚合网络作为特征融合网络,通过所述特征融合网络进行有效特征的融合,最终将融合后的特征网络通过检测网络进行分类和回归处理;所述检测头网络包括Conv模块、Upsample模块、Concat模块、CSP2_n模块和Detect模块;
S3、将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理,得到最优模型,并通过所述最优模型实时输出标准化生产的监测结果;所述步骤S3中将YOLOv5网络模型通过图像数据集进行迭代训练,具体为:
构建dataloader,对数据进行预处理;
将预处理后的数据输入至YOLOv5网络模型,进行前向推理;
构建损失函数,并通过所述损失函数计算YOLOv5网络模型的损失值;具体为:使用前向推理得到的特征图和真实标签计算YOLOv5网络模型的损失值,所述YOLOv5网络模型的损失函数包括分类损失、边界框损失和置信度损失;所述分类损失为对检测到的目标进行识别分类;所述边界框损失为预测边界框与真实框之间的误差,检测出的目标的大小,为恰好包围目标的矩形框;所述置信度损失为检测出图像中目标的位置,同一张图像中存在多个检测目标;
计算YOLOv5网络模型各参数的梯度值,并进行更新;具体为:
通过反向传播计算YOLOv5网络模型各参数的梯度值,并采用优化函数更新所述YOLOv5网络模型中的各参数;
S4、构建监测服务平台,对标准化生产的监测结果进行实时监测和处理。
2.根据权利要求1所述的一种基于图像识别的标准化生产监测方法,其特征在于,所述步骤S1采集图像数据,构建图像数据集之后,还包括:
对所述图像数据集中的图像数据进行数据增强。
3.根据权利要求1-2任意一项所述的一种基于图像识别的标准化生产监测方法,其特征在于,所述步骤S3中量化处理,具体为:
将迭代训练后的YOLOv5网络模型进行量化得到INT8模型,以及对应的ONNX文件。
4.根据权利要求3所述的一种基于图像识别的标准化生产监测方法,其特征在于,所述步骤S3中转换处理,具体为:
将量化后的ONNX文件转换为TensorRT推理引擎文件。
5.根据权利要求1-2任一项所述的一种基于图像识别的标准化生产监测方法,其特征在于,所述监测服务平台包括前端与后端;
所述前端,用于对标准化生产的监测结果进行实时监测;
所述后端,用于获取图像数据、TensorRT前向推理和前后端通信。
CN202310769238.XA 2023-06-28 2023-06-28 一种基于图像识别的标准化生产监测方法 Active CN116502810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310769238.XA CN116502810B (zh) 2023-06-28 2023-06-28 一种基于图像识别的标准化生产监测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310769238.XA CN116502810B (zh) 2023-06-28 2023-06-28 一种基于图像识别的标准化生产监测方法

Publications (2)

Publication Number Publication Date
CN116502810A CN116502810A (zh) 2023-07-28
CN116502810B true CN116502810B (zh) 2023-11-03

Family

ID=87317000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310769238.XA Active CN116502810B (zh) 2023-06-28 2023-06-28 一种基于图像识别的标准化生产监测方法

Country Status (1)

Country Link
CN (1) CN116502810B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117787575B (zh) * 2024-02-27 2024-05-03 四川绿豆芽信息技术有限公司 一种碳监控方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486890A (zh) * 2021-06-16 2021-10-08 湖北工业大学 基于注意力特征融合和空洞残差特征增强的文本检测方法
CN114627371A (zh) * 2022-02-24 2022-06-14 湖北工业大学 一种基于注意力机制的桥梁健康监测方法
CN115035381A (zh) * 2022-06-13 2022-09-09 湖北工业大学 一种SN-YOLOv5的轻量化目标检测网络及农作物采摘检测方法
CN115423995A (zh) * 2022-08-11 2022-12-02 湖北工业大学 一种轻量化幕墙裂纹目标检测方法及系统、安全预警系统
CN115690687A (zh) * 2022-11-11 2023-02-03 上海研视信息科技有限公司 一种基于深度学习技术的安全穿戴规范检测系统
CN115810157A (zh) * 2022-12-19 2023-03-17 南京航空航天大学 一种基于轻量级特征融合的无人机目标检测方法
CN116071701A (zh) * 2023-01-13 2023-05-05 昆明理工大学 基于注意力机制和GSConv的YOLOv5行人检测方法
CN116206185A (zh) * 2023-02-27 2023-06-02 山东浪潮科学研究院有限公司 一种基于改进YOLOv7的轻量级小目标检测方法
CN116246059A (zh) * 2022-12-17 2023-06-09 艾迪恩(山东)科技有限公司 一种基于改进的yolo多尺度检测的车辆目标识别方法
CN116310669A (zh) * 2022-11-21 2023-06-23 湖北工业大学 基于多模态特征提取网络的目标检测方法、系统及设备
CN116311412A (zh) * 2022-11-23 2023-06-23 长春理工大学 一种融合3d注意力机制和空洞卷积的口罩佩戴检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486890A (zh) * 2021-06-16 2021-10-08 湖北工业大学 基于注意力特征融合和空洞残差特征增强的文本检测方法
CN114627371A (zh) * 2022-02-24 2022-06-14 湖北工业大学 一种基于注意力机制的桥梁健康监测方法
CN115035381A (zh) * 2022-06-13 2022-09-09 湖北工业大学 一种SN-YOLOv5的轻量化目标检测网络及农作物采摘检测方法
CN115423995A (zh) * 2022-08-11 2022-12-02 湖北工业大学 一种轻量化幕墙裂纹目标检测方法及系统、安全预警系统
CN115690687A (zh) * 2022-11-11 2023-02-03 上海研视信息科技有限公司 一种基于深度学习技术的安全穿戴规范检测系统
CN116310669A (zh) * 2022-11-21 2023-06-23 湖北工业大学 基于多模态特征提取网络的目标检测方法、系统及设备
CN116311412A (zh) * 2022-11-23 2023-06-23 长春理工大学 一种融合3d注意力机制和空洞卷积的口罩佩戴检测方法
CN116246059A (zh) * 2022-12-17 2023-06-09 艾迪恩(山东)科技有限公司 一种基于改进的yolo多尺度检测的车辆目标识别方法
CN115810157A (zh) * 2022-12-19 2023-03-17 南京航空航天大学 一种基于轻量级特征融合的无人机目标检测方法
CN116071701A (zh) * 2023-01-13 2023-05-05 昆明理工大学 基于注意力机制和GSConv的YOLOv5行人检测方法
CN116206185A (zh) * 2023-02-27 2023-06-02 山东浪潮科学研究院有限公司 一种基于改进YOLOv7的轻量级小目标检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于轻量化改进型YOLOv5的车辆检测方法;郭雨;建模与仿真;第12卷(第3期);正文第1-12页 *

Also Published As

Publication number Publication date
CN116502810A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
Vojir et al. Road anomaly detection by partial image reconstruction with segmentation coupling
CN110728236B (zh) 车辆定损方法及其专用设备
CN110059728B (zh) 基于注意力模型的rgb-d图像视觉显著性检测方法
CN112347987A (zh) 一种多模数据融合的三维目标检测方法
CN116502810B (zh) 一种基于图像识别的标准化生产监测方法
CN117372880B (zh) 一种基于遥感影像的道路工程监管系统及方法
CN113642474A (zh) 一种基于yolov5的危险区域人员监控方法
CN113034444A (zh) 一种基于MobileNet-PSPNet神经网络模型的路面裂缝检测方法
Bartoccioni et al. Lara: Latents and rays for multi-camera bird’s-eye-view semantic segmentation
CN116797787B (zh) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN112991364A (zh) 基于卷积神经网络跨模态融合的道路场景语义分割方法
CN114092487A (zh) 目标果实实例分割方法及系统
CN114648714A (zh) 一种基于yolo的车间规范行为的监测方法
CN116052026B (zh) 一种无人机航拍图像目标检测方法、系统及存储介质
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN112801974A (zh) 一种嵌入式继电保护压板投退状态识别方法及装置
CN115909221A (zh) 图像识别方法、系统、计算机设备及可读存储介质
CN115965578A (zh) 一种基于通道注意力机制的双目立体匹配检测方法及装置
CN116030074A (zh) 一种道路病害的识别方法、重识别方法及相关设备
CN115937736A (zh) 基于注意力和上下文感知的小目标检测方法
CN114299285A (zh) 三维点云半自动标注方法、系统、电子设备及存储介质
CN117218545A (zh) 基于LBP特征与改进Yolov5的雷达图像检测方法
CN117351409A (zh) 混凝土坝面作业风险智能识别方法
Skilton et al. Combining object detection with generative adversarial networks for in-component anomaly detection
CN115861948A (zh) 车道线检测方法、设备及预警方法、系统、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant