CN113536847A

CN113536847A - 一种基于深度学习的工业场景视频分析系统及其方法

Info

Publication number: CN113536847A
Application number: CN202010306648.7A
Authority: CN
Inventors: 秦迎梅; 门聪
Original assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Current assignee: Tianjin University of Technology and Education China Vocational Training Instructor Training Center
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2021-10-22

Abstract

本发明公开一种基于深度学习的工业场景视频分析系统及其方法，所述分析系统通过网络公开数据集和人工采集标注的方法构建样本大数据集合，利用YOLOV₃模型进行类别标签训练和识别，客户可以把该模型部署到嵌入式系统上，从而获取相关识别结果，解决了人工监控效率低下的问题，客户可基于识别信息，做出记录或报警等有效决策。

Description

一种基于深度学习的工业场景视频分析系统及其方法

技术领域

本发明涉及视频处理技术领域，特别是涉及一种基于深度学习的工业场景视频分析系统及其方法。

背景技术

在工业领域，视频监控需要识别视频中人的行为特征，进而进行相关决策。在工厂中，每个作业区域在不同时间段的人数应服从一定规律，否则为异常情况，比如在工作时间段旷工，没有按规定巡查，在危险区域停留等，视频可实时记录工人在相应区域的工作是否符合规范，出勤和工作效率情况，进而进行有效整改和优化。然而现在记录这些信息，需要人工识别并记录，需要耗费大量的人力和物力，效率低下。

发明内容

本发明的目的是针对现有技术中存在的识别工业场景中识别工人工作状态耗时耗力的问题，而提供一种基于深度学习的工业场景视频分析系统。

本发明的另一方面，是提供所述基于深度学习的工业场景视频分析系统的分析方法。

为实现本发明的目的所采用的技术方案是：

一种基于深度学习的工业场景视频分析系统，包括大数据样本采集模块、数据预处理模块、深度学习模型训练模块和视频识别与处理模块，

所述大数据样本采集模块用于构建数据集，所述数据预处理模块用于对所述数据集中的图片进行过滤和标准化，所述深度学习模型训练模块通过预处理后的图片对深度学习模型进行训练，所述视频识别与处理模块用于采集图像，并利用训练后的所述深度学习模型进行识别，得到识别结果。

在上述技术方案中，基于深度学习模型训练模块得到的深度学习模型对相关信息进行识别和处理，部署于云端或部署于本地；

所述大数据样本采集模块包括真实样本采集模块和公开数据集采集模块；

所述深度学习模型训练模块中的深度学习模型采用YOLOV₃模型；

所述视频识别与处理模块本地使用或部署于云端。

本发明的另一方面，所述基于深度学习的工业场景视频分析系统在工厂人员监控中的应用。

本发明的另一方面，一种基于深度学习的工业场景视频分析系统的分析方法，包括以下步骤：

步骤1，大数据样本采集模块采集构建数据集C，所述数据集C包括50％的训练集合A和50％的训练集合B，其中：训练集合A是对公开数据集进行标注后得到的预训练样本集合，训练集合B是对摄像头采集真实环境图片样本进行标注后得到的预训练样本集合，训练集合A和训练集合B标注时，“有人”的训练样本中记录有人在的区域像素矩形区域坐标，无人则不标注；

步骤2，数据预处理模块对步骤1得到的所述数据集中C的样本图片进行过滤和标准化，并分为训练集和验证集；

步骤3，首先利用训练集合A训练所述深度学习模型，然后利用数据集C的训练集训练所述深度学习模型，再利用数据集C的验证集验证所述深度学习模型，保存在数据集C的验证集上效果最优的深度学习模型，得到最优深度学习模型并将其部署于云端服务器或本地嵌入式系统；

步骤4，在摄像头采集的视频流中抽取图片，并记录对应的时间点，对抽取图片进行标准化，得到标准化图片；

步骤5，将步骤4得到的标准化图片输入到最优深度学习模型中，最优深度学习模型输出多个区域中识别为人的概率、对应分值、以及识别为人的区域的矩形坐标。

在上述技术方案中，所述步骤2中过滤时，将宽度小于200像素的样本图片过滤掉，标准化时对样本图片进行重采样和黑色填充，处理成416*416像素的图片，所述步骤4中的标准化也是将抽取图片进行重采样和黑色填充，处理成416*416像素的图片。

在上述技术方案中，所述步骤2中，训练集和验证集两者样本图片的数量比例为4:1。

在上述技术方案中，所述步骤2中，对样本图片进行过滤和标准化，再利用样本增强方法增加样本图片数量，样本增强方法为平移随机像素、旋转随机角度或左右镜像；

更为优选的，平移时，可对样本图片随机向上下左右平移1-50像素，旋转随机角度-20度-20度。

在上述技术方案中，所述步骤4中，利用opencv工具在摄像头采集的视频流中抽取图片；

所述步骤4中，每间隔1-5s抽取一次图片，最为预选的，每间隔2s抽取一次图片。

在上述技术方案中，所述步骤5中，对应分值在0-1之间，如果对应分值在阈值a以上，且模型输出的矩形框的长宽比大于1.5，则认为该区域包含人，更为优选的，a的选取值为0.5。

本发明的另一方面，还包括所述分析方法在工厂人员监控中的应用。

与现有技术相比，本发明的有益效果是：

1.本发明可以通过基于深度学习的YOLOV₃图像检测技术进行工厂场景的监控视频分析，提升视频分析和处理的效率。可以有效监控各区域人员密度，和时间序列规律。加强危险或机密区域人员管理，自动监控每个区域人员工作情况，实现异常情况报警，提升了整体工作效率。

2.通过网络公开数据集和人工采集标注的方法构建样本大数据集合，可优化学习模型的预测效果。

附图说明

图1所示为工厂场景人员检测效果。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

基于深度学习模型训练模块得到的深度学习模型，对相关信息进行识别和处理，可部署于云端，获得网络请求并返回相应结果，也可以部署于本地。

所述大数据样本采集模块包括真实样本采集模块和公开数据集采集模块，真实样本采集模块包括嵌入式linux系统及对应硬件系统和通用无畸变的摄像头，如果所述系统的计算在云端进行，则硬件系统可选用树莓派等以CPU计算为主的模块，如果所述系统的计算在本地进行，则硬件系统可选用英伟达jetson nano等以GPU计算为主的模块。公开数据集采集模块可利用COCO公开数据集。

所述深度学习模型训练模块中的深度学习模型采用YOLOV₃模型，使用经过预训练的标准初始权重，初始权重为COCO数据集训练得到的，YOLOV₃采用Darknet-53的网络结构，含有53个卷积层，借鉴残差网络的做法，在一些层之间设置快捷链路，方便信息的传输。YOLOV₃模型采用3个不同尺度(三个尺度为13，26，53)的特征图来进行对象检测，实现图像细粒度的检测。比如检测网络采用了32倍的下采样，由于下采样倍数高，这里特征图的感受野比较大，适合检测图像中尺寸比较大的对象。根据样本特点，设置模型六个先验框大小如下：(15x40)，(20x60)，(30x90)，(40x120)，(50x150)，(60x180)，单位为像素。具体参数可基于实际样本特点进行优化调整。

视频识别与处理模块可本地使用也可部署于云端，如本地部署需要较高算力，部署于云端的流程如下：首先，利用python flask框架进行服务器后端部署，搭建http服务。云端系统可以选用阿里云。然后，服务器端开放某一端口如8080，处理互联网传输的请求。互联网的请求通过http协议完成。

实施例2

如实施例1所述的基于深度学习的工业场景视频分析系统的分析方法，包括以下步骤：

步骤2，数据预处理模块对步骤1得到的所述数据集中C的样本图片进行过滤和标准化，并分为训练集和验证集(划分训练集和验证集时，随机分配)；

步骤4，在摄像头采集的视频流中抽取图片(关键帧)，并记录对应的时间点，对抽取图片进行标准化，得到标准化图片；

为了将得到的训练样本中的图片归一化，所述步骤2中过滤时，将宽度小于200像素的样本图片过滤掉，标准化时对样本图片进行重采样和黑色填充，处理成416*416像素的图片，所述步骤4中的标准化也是将抽取图片进行重采样和黑色填充，处理成416*416像素的图片。

为了得到最优深度学习模型，所述步骤2中，训练集和验证集两者样本图片的数量比例为4:1。

作为优选的，为了提升深度学习模型的泛化能力，所述步骤2中，对样本图片进行过滤和标准化，再利用样本增强方法增加样本图片数量，样本增强方法为平移随机像素、旋转随机角度或左右镜像。如此对所有图片进行增强，一个图片通过不同增强方法得到多个图片，这些图片都作为训练样本。

更为具体的，平移时，可对样本图片随机向上下左右平移1-50像素，旋转随机角度-20度-20度。

作为优选的，所述步骤4中，利用opencv工具在摄像头采集的视频流中抽取图片。

更为优选的，所述步骤4中，每间隔1-5s抽取一次图片，最为预选的，每间隔2s抽取一次图片。

作为优选的，所述步骤5中，对应分值在0-1之间，如果对应分值在阈值a以上，且模型输出的矩形框的长宽比大于1.5，则认为该区域包含人。更为优选的，a的选取值为0.5。

实施例3

本实施例对实施例1的分析系统和实施例2的分析方法的应用场景进行举例说明。

实施例1的分析系统和实施例2的分析方法可应用于工厂危险或机密区域人员监控，如果模型检测到该区域有人员进入则触发报警装置。

实施例1的分析系统和实施例2的分析方法可应用于人员出勤情况监控，监控每个人在工位停留时间规律，计算每日的有效工作时间，并进行汇总，辅助工厂管理人员的管理。

实施例1的分析系统和实施例2的分析方法可应用于工厂各区域人员密度监控，优化设备布局，提升效率。

图1是利用发明的分析系统和分析方法得到的人体检测效果图。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的工业场景视频分析系统，其特征在于，包括大数据样本采集模块、数据预处理模块、深度学习模型训练模块和视频识别与处理模块，

2.如权利要求1所述的基于深度学习的工业场景视频分析系统，其特征在于，基于深度学习模型训练模块得到的深度学习模型对相关信息进行识别和处理，部署于云端或部署于本地；

所述视频识别与处理模块本地使用或部署于云端。

3.如权利要求1或2所述基于深度学习的工业场景视频分析系统在工厂人员监控中的应用。

4.一种基于深度学习的工业场景视频分析系统的分析方法，其特征在于，包括以下步骤：

5.如权利要求4所述的分析方法，其特征在于，所述步骤2中过滤时，将宽度小于200像素的样本图片过滤掉，标准化时对样本图片进行重采样和黑色填充，处理成416*416像素的图片，所述步骤4中的标准化也是将抽取图片进行重采样和黑色填充，处理成416*416像素的图片。

6.如权利要求4所述的分析方法，其特征在于，所述步骤2中，训练集和验证集两者样本图片的数量比例为4:1。

7.如权利要求4所述的分析方法，其特征在于，所述步骤2中，对样本图片进行过滤和标准化，再利用样本增强方法增加样本图片数量，样本增强方法为平移随机像素、旋转随机角度或左右镜像；

8.如权利要求4所述的分析方法，其特征在于，所述步骤4中，利用opencv工具在摄像头采集的视频流中抽取图片；

9.如权利要求4所述的分析方法，其特征在于，所述步骤5中，对应分值在0-1之间，如果对应分值在阈值a以上，且模型输出的矩形框的长宽比大于1.5，则认为该区域包含人，更为优选的，a的选取值为0.5。

10.如权利要求4-9中任一项所述分析方法在工厂人员监控中的应用。