CN116502810A

CN116502810A - 一种基于图像识别的标准化生产监测方法

Info

Publication number: CN116502810A
Application number: CN202310769238.XA
Authority: CN
Inventors: 陈永; 赵晨阳; 易世华; 李林峰; 韩跟伟; 谢映海; 李先怀; 范律; 许建; 李君�; 李峻; 余伟峰; 陈超鑫; 蒋鑫伟
Original assignee: Willfar Information Technology Co Ltd
Current assignee: Willfar Information Technology Co Ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-07-28
Anticipated expiration: 2043-06-28
Also published as: CN116502810B

Abstract

本发明公开了一种基于图像识别的标准化生产监测方法，包括以下步骤：采集图像数据，构建图像数据集；构建YOLOv5网络模型；将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理，得到最优模型，并通过所述最优模型实时输出标准化生产的监测结果；构建监测服务平台，对标准化生产的监测结果进行实时监测和处理。本发明解决了现有的生产监管方式不够便捷以及监管响应不及时的技术问题。

Description

一种基于图像识别的标准化生产监测方法

技术领域

本发明涉及生产监测技术领域，尤其涉及一种基于图像识别的标准化生产监测方法。

背景技术

随着人工智能技术的高速发展，智能制造时代已经来临，许多企业将对工厂进行各种智能化改造，用于确保整个工厂高效稳定运行。其中，在生产中为了保证生产的标准化和生产的安全性，往往会有多个监管人员对其进行实地巡逻检测。此种方式需要投入大量的人力和时间，以确保生产安全有序的进行。传统监管方式是一种非常效率低下，且浪费人力资源的情况，而且人工监管的方式也存在监管模式不全面以及监管响应不及时的问题，因此，亟待提出一种基于图像识别的标准化生产监测方法，解决现有的生产监管方式不够便捷以及监管响应不及时的技术问题。

发明内容

本发明的主要目的是提供一种基于图像识别的标准化生产监测方法，旨在解决现有的生产监管方式不够便捷以及监管响应不及时的技术问题。

为实现上述目的，本发明提供一种基于图像识别的标准化生产监测方法，其中，所述基于图像识别的标准化生产监测方法包括以下步骤：

S1、采集图像数据，构建图像数据集；

S2、构建YOLOv5网络模型；

S3、将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理，得到最优模型，并通过所述最优模型实时输出标准化生产的监测结果；

S4、构建监测服务平台，对标准化生产的监测结果进行实时监测和处理。

优选方案之一，所述步骤S1采集图像数据，构建图像数据集之后，还包括：

对所述图像数据集中的图像数据进行数据增强。

优选方案之一，所述步骤S2构建YOLOv5网络模型，具体为：

S1、构造主干网络，通过所述主干网络提取图像数据的有效特征；

S2、构造检测头网络，通过所述检测头网络对有效特征进行融合，并进行目标分类和回归。

优选方案之一，所述主干网络包括Conv模块、CSP1CA_n模块和SPPF模块。

优选方案之一，所述检测头网络包括Conv模块、Upsample模块、Concat模块、CSP2_n模块和Detect模块。

优选方案之一，所述步骤S3中将YOLOv5网络模型通过图像数据集进行迭代训练，具体为：

构建dataloader，对数据进行预处理；

将预处理后的数据输入至YOLOv5网络模型，进行前向推理；

构建损失函数，并通过所述损失函数计算YOLOv5网络模型的损失值；

计算YOLOv5网络模型各参数的梯度值，并进行更新。

优选方案之一，所述计算YOLOv5网络模型各参数的梯度值，并进行更新，具体为：

通过反向传播计算YOLOv5网络模型各参数的梯度值，并采用优化函数更新所述YOLOv5网络模型中的各参数。

优选方案之一，所述步骤S3中量化处理，具体为：

将迭代训练后的YOLOv5网络模型进行量化得到INT8模型，以及对应的ONNX文件。

优选方案之一，所述步骤S3中转换处理，具体为：

将量化后的ONNX文件转换为TensorRT推理引擎文件。

优选方案之一，所述监测服务平台包括前端与后端；

所述前端，用于对标准化生产的监测结果进行实时监测；

所述后端，用于获取图像数据、TensorRT前向推理和前后端通信。

本发明的上述技术方案中，该基于图像识别的标准化生产监测方法包括以下步骤：采集图像数据，构建图像数据集；构建YOLOv5网络模型；将所述YOLOv5网络模型通过图像数据集进行迭代训练以及量化、转换处理，得到最优模型，并通过所述最优模型实时输出标准化生产的监测结果；构建监测服务平台，对标准化生产的监测结果进行实时监测和处理。本发明解决了现有的生产监管方式不够便捷以及监管响应不及时的技术问题。

在本发明中，通过对迭代训练后的模型进行训练后量化，降低了模型文件大小的同时，使得网络的推理速度得到提升，且对于模型本身的精度损失较小。

在本发明中，采用非对称量化算法对训练好的YOLOv5网络模型进行量化，得到INT8模型，在不损失精度的情况下，可提升模型的检测速度，减少模型存储大小，节省部署资源开销。

在本发明中，构造监测服务平台，采用TensorRT部署量化后的YOLOv5网络模型，图像数据通过最优模型进行实时识别，并将识别结果通过监测服务平台前端进行实时显示，有利于作业人员实时查看当前工厂状况。

附图说明

为了更清楚地说明本发明实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明实施例一种基于图像识别的标准化生产监测方法的示意图；

图2为本发明实施例图像数据集的图像数据的示意图；

图3为本发明实施例YOLOv5网络模型的结构示意图；

图4为本发明实施例 CSP1CA_n模块的结构示意图；

图5为本发明实施例SPPF模块的结构示意图；

图6为本发明实施例 CSP2_n模块的结构示意图；

图7为本发明实施例CA注意力模块的结构示意图。

本发明目的的实现、功能特点及优点将结合实施方式，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明的一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

需要说明，本发明实施方式中所有方向性指示（诸如上、下……）仅用于解释在某一特定姿态（如附图所示）下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

并且，本发明各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参见图1，根据本发明的一方面，本发明提供一种基于图像识别的标准化生产监测方法，其中，所述基于图像识别的标准化生产监测方法包括以下步骤：

S1、采集图像数据，构建图像数据集；

S2、构建YOLOv5网络模型；

具体地，在本实施例中，所述步骤S1采集图像数据，构建图像数据集，具体为：采集工厂环境中作业人员是否穿着静电服的图像数据，并进行数据清洗和标记，构建图像数据集，参见图2，为图像数据集中的部分图像，（a）、（b）为图像数据集中采集的工厂环境中作业人员未穿静电服的图像，（c）、（d）为图像数据集中采集的工厂环境中作业人员穿着静电服的图像，通过YOLOv5网络模型对图像数据集进行识别，对工厂环境中作业人员是否穿着静电服进行监测，实现工厂环境标准化生产；所述图像数据集包括训练集、验证集和测试集；所述图像数据集按照8:1:1进行划分，依次得到训练集、验证集和测试集；本发明不进行具体限定，具体可根据需要进行设定。

具体地，在本实施例中，所述步骤S1采集图像数据，构建图像数据集之后，还包括：对所述图像数据集中的图像数据进行数据增强；具体为，将训练集采用图像平移、翻转、裁剪、颜色空间变换、随机擦除等多个数据增强方法进行数据增强，所述数据增强也叫数据扩增，在不增加数据数目的情况下，让有限的数据产生等价于更多数据的价值，使得训练出来的模型更具有泛化能力。

具体地，在本实施例中，参见图3-图7，所述步骤S2构建YOLOv5网络模型，具体为：

S1、构造主干网络，通过所述主干网络提取图像数据的有效特征；所述主干网络采用CSPDarknet主干特征提取网络，所述主干网络包括空间金字塔池化和CA注意力模块，所述CA注意力模块能够以高权重去聚焦重要信息，以低权重去忽略不相关的信息，并且还可以不断调整权重，使得在不同的情况下也可以选取重要的信息；所述主干网络包括Conv模块、CSP1CA_n模块和SPPF模块；构建所述主干网络，具体为：采用5个Conv模块、4个CSP1CA_n模块和1个SPPF模块构建主干网络的网络层，所述Conv模块为卷积操作、BatchNorm归一化和SiLU激活函数组成，所述CSP1CA_n模块是在原始的CSP1_n模块残差块上加入CA注意力模块，其中，n表示残差网络的个数，在每个残差网络后加入CA注意力，所述SPPF模块是由卷积和池化组成；

S2、构造检测头网络，通过所述检测头网络对有效特征进行融合，并进行目标分类和回归；所述检测头网络包括路径聚合网络作为特征融合网络，通过所述特征融合网络进行有效特征的融合，最终将融合后的特征网络通过检测头网络进行分类和回归处理，所述检测头包括Conv模块、Upsample模块、Concat模块、CSP2_n模块和Detect模块；构造检测头网络，具体为，采用4个Conv模块、2个Upsample模块、4个Concat模块、4个CSP2_n模块和1个 Detect模块构建检测头网络的网络层；Conv模块为卷积操作、BatchNorm归一化和SiLU激活函数组成，所述Upsample模块采用最近邻插值进行插值，所述Concat模块讲两个特征图进行连接，所述CSP2_n模块是由多个Conv组合而成，n表示Bottleneck的个数，Bottleneck由两个Conv组成，所述Detect模块为输出三个不同尺度大小的检测头；所述主干网络和检测头网络共25层网络组成，第i层网络层的输出的特征图记为，其中i为0,1,2,3...24，前 23层网络的特征图的大小为，其中，为每个批次中样本的个数，为特征图的通道个数，为特征图的高度，为特征图的宽度，第24层网络由第17层网络、第20层网络和第23层网络组成。

具体地，在本实施例中，所述步骤S3中将YOLOv5网络模型通过图像数据集进行迭代训练，具体为：

构建dataloader，对数据进行预处理；将进行数据增强后的图像数据集的训练集中随机挑选个样本，图像的通道为，，高为，宽为，则模型的输入维度为；

将预处理后的数据输入至YOLOv5网络模型，进行前向推理；具体为：随机挑选个样本输入到YOLOv5网络模型中，YOLOv5网络模型中主干网络包括10层网络，检测头网络包括15层网络，第0层网络为Conv模块，第1层网络为Conv模块，第2层网络为CSP1CA_4模块，第3层网络为Conv模块，第4层网络为CSP1CA_8模块，第5层网络为Conv模块，第6层网络为 CSP1CA_12模块，第7层网络为Conv模块，第8层网络为CSP1CA_4模块，第9层网络为SPPF模块，第10层网络为Conv模块，第11层网络为Upsample模块，第12层网络为Concat模块，第13 层网络为CSP2_4模块，第14层网络为Conv模块，第15层网络为Upsample模块，第16层网络为 Concat模块，第17层网络为CSP2_4模块，第18层网络为Conv模块，第19层网络为Concat模块，第20层网络为CSP2_4模块，第21层网络为Conv模块，第22层网络为Concat模块，第23层网络为CSP2_4模块，第24层网络为Detect模块；

所述主干网络主要进行有效特征提取，包括10层网络；

第0层网络，使用个尺寸6*6卷积核进行卷积操作，卷积的步长为2，卷积的 padding为2，输入特征图维度为，输出特征图为，其中，，，；

第1层网络，使用个3*3卷积核进行卷积操作，卷积的步长为2，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第2层网络，使用CSP1CA_4模块，该模块包含4个残差块，且每个残差块后加入 CA注意力机制，输入特征图维度为，输出特征图为，其中，，，；

第3层网络，使用个3*3卷积核进行卷积操作，卷积的步长为2，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第4层网络，使用CSP1CA_8模块，该模块包含8个残差块，且每个残差块后加入 CA注意力机制，输入特征图维度为，输出特征图为，其中，，，；

第5层网络，使用个3*3卷积核进行卷积操作，卷积的步长为2，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第6层网络，使用CSP1CA_12模块，该模块包含12个残差块，且每个残差块后加入CA注意力机制，输入特征图维度为，输出特征图为，其中，，，；

第7层网络，使用个3*3卷积核进行卷积操作，卷积的步长为2，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第8层网络，使用CSP1CA_4模块，该模块包含4个残差块，且每个残差块后加入 CA注意力机制，输入特征图维度为，输出特征图为，其中，，，；

第9层网络，使用SPPF模块，该模块使用了三个最大值池化，第一个最大值池化层的核为5*5，步长为1，padding为2，第二个最大值池化层的核为5*5，步长为1，padding 为2，第三个最大值池化层的核为5*5，步长为1，padding为2，输入特征图维度为，输出特征图为，其中，，，；

所述检测头网络包括15层网络层，通过检测头网络进行多层信息融合，从而提高检测效果；

第10层网络，使用个1*1卷积核进行卷积操作，卷积的步长为1，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第11层网络，使用Upsample模块对特征图的高和宽进行2倍上采样，上采样的方式为最近邻插值，输入特征图维度为，输出特征图为，其中，，，；

第12层网络，使用Concat模块将第6层网络的输出特征图和第11层网络的输出特征图在通道维度上进行连接，输入特征图维度为和，输出特征图为，其中，，，；

第13层网络，使用CSP2_4模块，该模块包含4个残差块，输入特征图维度为，输出特征图为，其中，，，；

第14层网络，使用个1*1卷积核进行卷积操作，卷积的步长为1，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第15层网络，使用Upsample模块对特征图的高和宽进行2倍上采样，上采样的方式为最近邻插值，输入特征图维度为，输出特征图为，其中，，，；

第16层网络，使用Concat模块将第4层网络的输出特征图和第15层网络的输出特征图在通道维度上进行连接，输入特征图维度为和，输出特征图为，其中，，，；

第17层网络，使用CSP2_4模块，该模块包含4个残差块，输入特征图维度为，输出特征图为，其中，，，；

第18层网络，使用个3*3卷积核进行卷积操作，卷积的步长为2，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第19层网络，使用Concat模块将第14层网络的输出特征图和第18层网络的输出特征图在通道维度上进行连接，输入特征图维度为和，输出特征图为，其中，，，；

第20层网络，使用CSP2_4模块，该模块包含4个残差块，输入特征图维度为，输出特征图为，其中，，，；

第21层网络，使用个3*3卷积核进行卷积操作，卷积的步长为2，卷积的 padding为1，输入特征图维度为，输出特征图为，其中，，，；

第22层网络，使用Concat模块将第10层网络的输出特征图和第21层网络的输出特征图在通道维度上进行连接，输入特征图维度为和，输出特征图为，其中，，，，；

第23层网络，使用CSP2_4模块，该模块包含4个残差块，输入特征图维度为，输出特征图为，其中，，，；

第24层网络，该模块包含3个尺度的特征图，分别用来回归大目标、中目标和小目标，大目标的特征图为，其中，，，，中目标的特征图为，其中，，，，小目标的特征图为，其中，，，，为检测类别个数。

其中，在每个残差块后增加CA注意力模块，使得特征提取时更加聚焦于主要信息；所述CA注意力模块为缓解2D全局池化造成位置信息丢失，将通道注意力分解为两个并行（x 和y方向）的1D特征编码过程，有效地将空间坐标信息整合到生成的注意图中，更具体来说，利用两个一维全局池化操作分别将垂直和水平方向的输入特征聚合为两个独立的方向感知特征图，这两个嵌入特定方向信息的特征图分别被编码位两个注意力图，每个注意力图都捕获了输入特征图图沿着一个空间方向的长程依赖，因此，位置信息就被保存在生成的注意力图中，两个注意力图接着被乘到输入特征图上来增强特征图的表达能力；首先，将全局池化分解为一对一维特征编码操作，具体而言，对输入，先使用尺寸和的池化核沿着水平坐标方向和竖直坐标方向对每个通道进行池化，这两个变换沿着两个空间方向进行特征聚合，返回一对方向感知注意力图。因此，第通道竖直方向，高度的注意力图为：

；

同理，第c通道水平方向，宽度w的注意力图为：

；

将两个方向的注意力图进行空间维度的级联操作，进行1*1卷积和非线性操作，生成f；

；

其中，表示空间维度的级联操作，为1*1卷积操作，属于非线性操作，，r表示通道下采样比例；

接着对进行切分为和、再分别进行卷积、非线性操作等操作得到和；

；

其中，，表示sigmod函数；

最后将输入、和进行张量逐元素相乘得到；

构建损失函数，并通过所述损失函数计算YOLOv5网络模型的损失值；使用前向推理得到的特征图和真实标签计算YOLOv5网络模型的损失值，所述YOLOv5网络模型的损失函数包括分类损失、边界框损失和置信度损失；所述分类损失为对检测到的目标进行识别分类；所述边界框损失为预测边界框与真实框之间的误差，检测出的目标的大小，通常为恰好包围目标的矩形框；所述置信度损失为检测出图像中目标的位置，同一张图像中可能存在多个检测目标；所述损失函数为：

；

其中，为检测层个数，是标签分配到先验框的目标个数，为该尺度被分割成的网格数；为边界框回归损失，对每个目标计算；为目标物体损失，对每个网格计算；为分类损失，同样对每个目标计算，、、分别为这三种损失的权重；

损失函数为：

；

其中，IoU为交并比，计算的是“预测的边框”和“真实的边框”的交叠率，即它们的交集和并集的比值，最理想情况是完全重叠，即比值为1；、分别为预测框和标签框，分别为标签框的宽高和预测框的宽高，代表计算两个框的中心点距离，为两个框边界的最远距离；和均采用 BCEWithLogitsLoss，计算方式如公式如下：

；

其中，为样本个数，为标签值，为预测值；

计算YOLOv5网络模型各参数的梯度值，并进行更新；具体为，通过反向传播计算YOLOv5网络模型各参数的梯度值，并采用优化函数更新所述YOLOv5网络模型中的各参数，并判断所述YOLOv5网络模型是否收敛，若收敛，则结束模型的迭代训练；若未收敛，则继续重新随机挑选样本，输入模型进行处理。

具体地，在本实施例中，所述步骤S3中量化处理，具体为：将迭代训练后的YOLOv5网络模型进行量化得到INT8模型，以及对应的ONNX文件；所述ONNX文件所需存储空间更小，使得模型部署时加速效果更好。

具体地，在本实施例中，所述步骤S3中转换处理，具体为：采用转换工具将量化后的ONNX文件转换为TensorRT推理引擎文件，在转换过程中进行了各种图优化操作，使得其推理效果更高。

具体地，在本实施例中，所述监测服务平台包括前端与后端；所述前端，用于对标准化生产的监测结果进行实时监测，同时可实时查看历史识别结果；所述后端，用于获取图像数据、TensorRT前向推理和前后端通信；所述获取图像数据，具体为：FFmpeg数据获取，获取网络摄像头的图像数据需要对RTSP格式的流数据进行解协议、解封装、视频解码、像素格式转换等操作，最终得到RGB图像数据，将预处理后的图像数据，并通过最优模型进行识别；所述TensorRT前向推理具体为：构造YOLOv5推理引擎，创建推理上下文、绑定模型输入输出接口、将RGB图像数据输入到模型的输入接口、推理上下文执行推理和获取模型输出结果等操作；所述后端用于对输出结果进行处理，将模型前向推理输出的结果，其输出格式为，其中，n为预测目标框的个数，4为坐标信息，1为置信度，c为类别概率；我们需要将置信度大于阈值的候选框挑选出来，同时模型输出最终都会在同一目标的附近区域产生一些重合度比较高的预测框，通常采用非极大值抑制来剔除冗余的预测框；所述前端实时显示结果以及记录历史识别结果，所述后端将最新识别的结果编码成视频流，并通过 WebSocket将视频流发送给前端显示实时识别画面，同时所述前端支持历史识别查询。

具体地，在本实施例中，随机挑选个样本，图像的通道为/>，高为/>，宽为/>，那么模型的输入维度为/>，为例进行说明，本发明不进行具体限定，具体可根据需要进行设定；

第22层网络，使用Concat模块将第10层网络的输出特征图和第21层网络的输出特征图在通道维度上进行连接，输入特征图维度为和，输出特征图为，其中，，，；

第24层网络，该模块包含3个尺度的特征图，分别用来回归大目标、中目标和小目标，大目标的特征图为，其中，，，，中目标的特征图为，其中，，，小目标的特征图为，其中，，根据数据集中样本的类别种类为和，那么检测类别个数的值为2。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。

Claims

1.一种基于图像识别的标准化生产监测方法，其特征在于，包括以下步骤：

S1、采集图像数据，构建图像数据集；

S2、构建YOLOv5网络模型；所述步骤S2构建YOLOv5网络模型，具体为：

S21、构造主干网络，通过所述主干网络提取图像数据的有效特征；所述主干网络包括Conv模块、CSP1CA_n模块和SPPF模块；

S22、构造检测头网络，通过所述检测头网络对有效特征进行融合，并进行目标分类和回归；所述检测头网络包括Conv模块、Upsample模块、Concat模块、CSP2_n模块和Detect模块；

2.根据权利要求1所述的一种基于图像识别的标准化生产监测方法，其特征在于，所述步骤S1采集图像数据，构建图像数据集之后，还包括：

对所述图像数据集中的图像数据进行数据增强。

3.根据权利要求1-2任意一项所述的一种基于图像识别的标准化生产监测方法，其特征在于，所述步骤S3中将YOLOv5网络模型通过图像数据集进行迭代训练，具体为：

构建dataloader，对数据进行预处理；

将预处理后的数据输入至YOLOv5网络模型，进行前向推理；

计算YOLOv5网络模型各参数的梯度值，并进行更新。

4.根据权利要求3所述的一种基于图像识别的标准化生产监测方法，其特征在于，所述计算YOLOv5网络模型各参数的梯度值，并进行更新，具体为：

5.根据权利要求1-2任意一项所述的一种基于图像识别的标准化生产监测方法，其特征在于，所述步骤S3中量化处理，具体为：

6.根据权利要求5所述的一种基于图像识别的标准化生产监测方法，其特征在于，所述步骤S3中转换处理，具体为：

将量化后的ONNX文件转换为TensorRT推理引擎文件。

7.根据权利要求1-2任一项所述的一种基于图像识别的标准化生产监测方法，其特征在于，所述监测服务平台包括前端与后端；

所述前端，用于对标准化生产的监测结果进行实时监测；