CN117253092B - 一种基于机器视觉的料仓视频分类识别方法及系统 - Google Patents
一种基于机器视觉的料仓视频分类识别方法及系统 Download PDFInfo
- Publication number
- CN117253092B CN117253092B CN202311307032.1A CN202311307032A CN117253092B CN 117253092 B CN117253092 B CN 117253092B CN 202311307032 A CN202311307032 A CN 202311307032A CN 117253092 B CN117253092 B CN 117253092B
- Authority
- CN
- China
- Prior art keywords
- video
- bin
- recognition
- model
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013145 classification model Methods 0.000 claims abstract description 59
- 238000012360 testing method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000006870 function Effects 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000005286 illumination Methods 0.000 claims description 7
- 239000000463 material Substances 0.000 claims description 7
- 238000007599 discharging Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000001976 improved effect Effects 0.000 description 19
- 238000004519 manufacturing process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005672 electromagnetic field Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000011900 installation process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于机器视觉的料仓视频分类识别方法及系统,涉及图像处理技术领域,该方法包括基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本;对采集的料仓数据视频样本进行处理,构成料仓数据集,并将料仓数据集划分为训练样本集与测试样本集;基于C3D模型,通过添加SE注意力机制,构建SE‑C3D视频识别分类模型;将训练样本集代入构建的SE‑C3D视频识别分类模型进行训练,得到训练好的SE‑C3D视频识别分类模型,将测试样本集代入训练好的SE‑C3D视频识别分类模型进行测试,得到识别结果。本发明提高了运动视频的识别精度,提高了混凝土搅拌站上料控制系统的上料效率,提高了上料系统自动化和智能化水平。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于机器视觉的料仓视频分类识别方法及系统。
背景技术
工业制造4.0正成为世界工业发展的趋势,智能生产会成为现代工业的常规配置。上料系统是部分生产线的首要环节,也是制造业生产线进行智能化、自动化的第一个落脚点。快速、准确上料是保证工业生产过程环节正常运作的基础。
在混凝土搅拌站上料控制系统中,整个上料系统由卡车接料斗,卡车卸料仓输送带,斗式提升机,仓顶可逆分料皮带机、360°旋转喂料机。本发明是针对其中的360°旋转喂料机进行改进,旋转喂料机是上料系统中进行分料的装置,受电动机驱动,由下方的电感传感器获取位置信息,从而将原料分别传输到各料仓中。实际的旋转喂料机如图1所示:主要由电动机、排料机械臂、传感器、料仓口等构成。
多物料自动上料系统的作业环境要求多样且复杂,并需要具备很高的准确性与可靠性。在多物料上料过程中,其料仓识别和控制技术直接影响着生产的效益与成本,是实现制造企业生产高效率、高可靠性的关键因素。在某些生产领域的大型上料系统中,仍使用传统的非接触式传感器,由传统传感器传递位置信号。由于该类传感器误差相对较大且无法反馈误差信息,导致控制率单一。在生产开始前的安装过程中,机械臂的对准控制需要大量的调试,以及甚至可能在生产过程发生偏离,进而出现生产事故。
料仓识别及对准精确问题是现代自动上料控制系统的最重要的问题之一,随着机器视觉的快速发展,机器视觉在智能制造中主要应用于引导、识别、定位、检测和测量,其优势在于可实现非接触测量,可以长时间稳定地测量、分析和识别,从而提高了系统的可靠性。机器视觉对准技术是机器视觉的一个重要研究方向,多用于全自动装配和生产。科研人员逐渐将机器视觉引入上料系统中,其基本思想是利用机器视觉,寻求达到对各个料仓的识别快速性以及准确性。此技术在工业中得到越来越广泛的应用,对提高生产效率、达到生产智能化的目的起着至关重要的作用。
利用机器视觉算法和工业相机来替代传统传感器以实现高精度对准。从识别的层面出发,可以提高上料效率,对进一步促进上料系统自动化和智能化水平的提高具有重要的现实意义。
发明内容
有上述可知,本发明所要解决的技术问题为:基于混凝土搅拌站上料控制系统,在上料过程中,旋转喂料机需要准确寻找料仓,通常使用电感式传感器来获取料仓位置信息。然而,这种识别方式需要使用多个传感器,并且容易受到外界环境的干扰,如温度、湿度、电磁场等,以及这种方式还需要进行繁琐的校准工作的问题。
为了解决上述问题,本发明实施例提供一种基于机器视觉的料仓视频分类识别方法,所述方法包括:
步骤S1:基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本;
步骤S2:对所述采集的料仓数据视频样本进行处理,构成料仓数据集,并将料仓数据集划分为训练样本集与测试样本集;
步骤S3:基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型;
步骤S4:将训练样本集代入构建的SE-C3D视频识别分类模型进行训练,得到训练好的SE-C3D视频识别分类模型,将测试样本集代入训练好的SE-C3D视频识别分类模型进行测试,得到识别结果。
优选地,所述方法还包括步骤S5:将训练好的SE-C3D视频识别分类模型的识别结果与其他主流模型的识别结果进行对比,并针对识别结果进行分析。
优选地,在步骤S1中,基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本的方法具体包括:
基于混凝土搅拌站上料控制系统,首先设计了一套与各料仓口相对应的合作标靶;然后将工业相机固定在排料机械臂的下方,在料仓口对应的半径上固定着各个料仓的合作标靶,标靶号与各料仓相对应;最后利用工业相机采集不同时间段,不同光照条件下各个料仓标靶的运动视频。
优选地,步骤S2中,对所述采集的料仓数据视频样本进行处理,构成料仓数据集的方法具体包括:
将原始采集的视频数据进行处理,按照对应的料仓以及非料仓进行类别划分;将3帧图像作为一个视频样本,将每个视频样本中最后一帧第一次出现完整的标靶作为有效料仓视频类别,其他的则都判定为非料仓类别。
优选地,所述视频样本包括强光照样本、弱光照样本、正常样本、模糊抖动样本。
优选地,在步骤S3中,基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型的方法具体包括:
所述C3D模型的结构为:所述C3D模块由5个块组成,block1、block2分别有3D卷积层、ReLU激活函数和3D池化层;从block3到block5,每个block有两个3D卷积层,两个ReLU激活函数和一个3D池化层;
基于C3D模型,将SE注意力机制嵌入在所述C3D识别模型的最后一层,得到SE-C3D视频识别分类模型。
优选地,所述SE-C3D视频识别分类模型采用交叉熵损失函数L进行训练,所述交叉熵损失函数L的数学表达式为:
式中,M为类别的数量;yic符号函数(0或1);pic观测样本i为类别c的预测概率。
本发明实施例还提供了一种基于机器视觉的料仓视频分类识别系统,用于实现上述所述的基于机器视觉的料仓视频分类识别方法,所述系统包括:
数据采集模块,用于基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本;
数据处理模块,用于对所述采集的料仓数据视频样本进行处理,构成料仓数据集,并将料仓数据集划分为训练样本集与测试样本集;
分类模型构建模块,用于基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型;
识别分类模块,用于将训练样本集代入构建的SE-C3D视频识别分类模型进行训练,得到训练好的SE-C3D视频识别分类模型,将测试样本集代入训练好的SE-C3D视频识别分类模型进行测试,得到识别结果。
本发明实施例还提供了一种电子装置,所述电子装置包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的基于机器视觉的料仓视频分类识别方法。
从以上技术方案可以看出,本发明申请具有以下优点:
本发明实施例中提供一种基于机器视觉的料仓视频分类识别方法及系统,针对现有基于深度学习的视频目标分类方法中,普遍存在背景图像干扰、无法高效利用前后帧时序信息等问题,基于实际需求,设计了一种合作标靶,利用工业相机采集料仓数据视频样本,建立了料仓识别视频数据集。在视频识别的任务中,需要兼顾时序信息的同时能够高效提取特征从而提高识别准确率,本发明提出了一种基于深度学习的SE-C3D视频识别分类模型,将SE注意力机制融合入C3D网络中,该网络模型相较于原C3D网络以及其他相关方法有更高的识别精度。本发明构建的SE-C3D视频识别分类模型最终在测试集上准确率达到99.61%,与CNN模型相比,准确率提高了7.32%,F1值提高了7.5%,与其他模型相比有较大的性能提升。本发明将机器视觉和深度学习应用到了混凝土上料控制系统中,取代了旋转喂料机原有的电感式传感器工作方式。
附图说明
为了更清楚地说明本发明实施案例或现有技术中的技术方案,下边将对实施例中所需要使用的附图做简单说明,通过参考附图会更清楚的理解本发明的特征和优点,附图是示意性的而不应该理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为旋转喂料机示意图;
图2为根据实施例中提供的一种基于机器视觉的料仓视频分类识别方法的流程图;
图3为实施例中视频采集示意图;
图4为实施例中有效类别示意图;
图5为实施例中复杂样本展示;
图6为实施例中C3D网络结构图;
图7为实施例中SENet结构示意图;
图8为实施例中SE-C3D视频识别分类模型的整体结构示意图
图9为实施例中为混淆矩阵对比示意图;
图10为根据实施例中提供的一种基于机器视觉的料仓视频分类识别系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案与优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
在混凝土搅拌站上料控制系统中,作业环境十分复杂,对准确性和可靠性要求很高。目前,在上料过程中,通常使用电感式传感器来获取各个料仓位置信息。然而,这种识别方式需要使用多个传感器,并且容易受到外界环境的干扰,还需要进行繁琐的校准工作。针对此类问题,如图2所示,本发明实施例提出一种基于机器视觉的料仓视频分类识别方法,该方法包括:
步骤S1:基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本;
步骤S2:对所述采集的料仓数据视频样本进行处理,构成料仓数据集,并将料仓数据集划分为训练样本集与测试样本集;
步骤S3:基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型;
步骤S4:将训练样本集代入构建的SE-C3D视频识别分类模型进行训练,得到训练好的SE-C3D视频识别分类模型,将测试样本集代入训练好的SE-C3D视频识别分类模型进行测试,得到识别结果;
步骤S5:将训练好的SE-C3D视频识别分类模型的识别结果与其他主流模型的识别结果进行对比,并针对识别结果进行分析。
从上述技术方案可知,本发明实施例提供了一种基于机器视觉的料仓视频分类识别方法,在视频识别的任务中,为了兼顾时序信息的同时能够高效提取特征从而提高识别准确率,基于实际需求,建立了料仓识别视频数据集;并构建了一种融合了注意力机制的C3D料仓识别分类模型,将SE注意力机制模块嵌入了3D卷积神经网络中,C3D模型从时空两个维度中提取特征,捕获多个相邻帧中的视频信息,SE注意力机制模块可以有效的在复杂场景的视频帧中找出标靶的显著区域。本发明构建的SE-C3D视频识别分类模型相较于原C3D网络以及其他相关方法有更高的识别精度。
在本实施例中,步骤S1:基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本。
具体地,为实现对料仓口的识别,本发明首先设计了一套与各料仓口相对应的合作标靶。如图3所示:将工业相机固定在排料机械臂的下方,在料仓口对应的半径上固定着各个料仓的合作标靶,标靶号与各料仓相对应。这种设计的优点是通过标靶实现了机械臂排料口和各料仓口的间接识别,相较于工业相机直接拍摄料仓口进行识别,这种识别方式更加精准,能达到与直接识别方式相同的效果。
考虑到项目的实际要求,实验装置共设计了9个料仓号。实验中视频采集帧率为100fps,视频帧图像的原始尺寸是720像素×540像素。工业相机采集不同时间段,不同光照条件下各个料仓标靶的运动视频。实验平台中工业相机旋转一周采集视频需要的时间大约为15秒,为了采集到丰富的数据集,机械臂需要旋转多次进行采集。
在本实施例中,步骤S2:对所述采集的料仓数据视频样本进行处理,构成料仓数据集。
具体地,将原始采集的数据经过处理按照1至9号料仓以及非料仓共10种类别划分,考虑到后续控制工作的实时性,以3帧图像作为一个视频样本。数据集样本如图4所示:以1号仓为例,以每个视频样本中最后一帧第一次出现完整的标靶,为有效料仓视频类别,其他的则都判定为非料仓类别。
在实际生产环境中,除了正常视频样本外,还会出现光线过亮、光线过暗以及机械臂在运动的过程中因抖动导致相机拍摄视频模糊等复杂的识别场景,这都会给识别带来巨大的困难。因此本实验在数据集制作过程中,添加了识别困难的复杂样本,如图5所示:
本实验共采集37000个视频样本。其中约10%是由强光照(复杂样本1)和弱光照(复杂样本2)下采集,40%是由模糊样本(复杂样本3)构成。每类对应仓口的样本各为3500个,处于非料仓口的样本5500个。训练样本集、测试样本集按照7:3的比例划分,训练样本集共有25900个视频样本,测试样本集共有11100个视频样本,具体划分如表1所示:
表1
在本实施例中,步骤S3:基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型。
具体地,本实施例中采用C3D技术提取视频特征。将三维卷积和池化核大小表示为d×k×k,其中d为核时间深度,k为核空间大小。3D卷积、ReLU激活和3D MaxPool池化的计算如下:
3D卷积:是通过将一个3D核卷积到由多个连续帧叠加在一起形成的立方体来实现的。这种结构使得卷积层中的特征映射与前一层中的多个连续帧相连接,从而有效地捕获运动信息。具体而言,第i层第j个特征图在位置(x,y,z)的数值可以表示为:
式中:Pi、Qi、Ri为三维卷积核的大小,m为i-1层特征图的个数;为第i-1层第k个特征映射(x+p,y+q,z+r)的值;/>是连接到第i-1层的第k个特征映射的卷积核;bi,j是偏集;f(·)为ReLU激活函数。
三维最大池化:三维池化操作使特征立方体在时间维度上具有一定的不变性,同时大大减少了计算量,从而提高了三维卷积神经网络在时间维度上的鲁棒性。最大池化的公式如下:
式中:u为三维输入向量,m为三维池化运算后的输出,(s,t,r)为坐标(x,y,z)沿x,y,z方向的上采样步长;S1×S2×S3为采样面积大小。
如图6所示:所使用的C3D模块由5个块组成,前两个块(block1、block2)分别有3D卷积层、ReLU激活函数和3D池化层;从block3到block5,每个block有两个3D卷积层,两个ReLU激活函数和一个3D池化层。本发明在卷积过程中采用了步长为3×3×3小核尺寸,有助于从时空信息方面捕捉所有变化。
通过多层卷积和子采样,将输入帧转换为捕捉料仓口视频运动信息的特征向量。在网络中,每个卷积层的输出都可以看作时空特征。在C3D模型中,最后一层Conv5具有更大的接受域,并获得了最大的不变性和鉴别特征。
在本实施例中,SENet的基本结构如图7所示:这个注意力机制模块由三个函数组成:挤压(squeeze),激励(excitation)以及注意(attention)。
Squeeze:通过全局平均池化将每个通道的二维特征(H×W)压缩为1个实数,得到1×1×C的特征向量,计算过程如下述公式所示:
式中:H和W分别表示每个特征图的高和宽,C表示特征图的通道维度。
Excitation:两个全连接层形成一个瓶颈层结构以模拟通道之间的关联性,并输出与输入特征相同数量的权值,计算过程如下述公式所示:
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
式中:δ(·)表示ReLU激活函数,σ(·)表示sigmoid函数。W1和W2代表两个不同的全连接操作,s代表每张特征图的重要程度。
Scale(Fscale):将前面两个函数得到的归一化权重加权到每个通道的特征上,并权重系数逐个通道相乘,以完成通道维度上注意力机制的引入,如下述公式所示:
式中:Fscale(uc,sc)表示特征图uc和标量s对应通道的乘积。
SENet旨在通过使网络能够执行动态通道特征重新校准来提高网络的表示能力。因此选择在C3D模型的基础上增加SENet,对原始数据的特征向量序列生成注意力权重,从而提高视频识别的准确率。
鉴于SE-C3D模型对视频片段可以同时学习图特征和相邻帧之间复杂的时序特征进而提高识别的准确性,以及SENet通过网络的不断学习来更新每个特征通道的权重值,以提升有效的通道响应。本发明构建了SE-C3D视频识别分类模型,对料仓口的标靶号进行识别分类。将SE注意力机制嵌入在所述C3D识别模型的最后一层,得到SE-C3D视频识别分类模型,SE-C3D视频识别分类模型的整体结构,如图8所示:
SE-C3D视频识别分类模型的输入层是为帧数为3、大小为64像素×64像素的样本,先用改进的C3D网络提取输入数据的局部时空特征,然后将提取的视频特征序列放入3维通道注意力模块中,用于凸显分类相关特征或削弱无关特征。模型采用交叉熵损失函数L进行训练,即为:
式中:M为类别的数量;yic符号函数(0或1);pic观测样本i为类别c的预测概率。学习率设置为0.00005。
在本实施例中,步骤S4:将训练样本集代入构建的SE-C3D视频识别分类模型进行训练,得到训练好的SE-C3D视频识别分类模型,将测试样本集代入训练好的SE-C3D视频识别分类模型进行测试,得到识别结果。
在本实施例中,步骤S5:将训练好的SE-C3D视频识别分类模型的识别结果与其他主流模型的识别结果进行对比,并针对识别结果进行分析。
具体地,在模型的选择中,不同的网络会直接影响识别的效果,如表2所示。在使用逐帧识别方式的2DCNN网络的准确率最低,仅有92.29%,长期卷积循环网络(Long-termrecurrent convolutional networks,LRCN)是一种结合了传统卷积网络和长短期记忆网络的新型网络结构,具有处理视频时序信息的能力。在其融合了LSTM(Long Short TermMemory,LSTM)网络组成的LRCN网络准确率提升了约3%,LRCN将循环神经网络(RNN)的序列建模能力与CNN的图像特征提取能力相结合。这使得LRCN能够更好地捕捉视频等时序数据中的长期依赖关系,从而使得准确率有所提升。但是其准确率还是不足以满足实际需求。
表2
从表2中可知,C3D网络对比于CNN网络,准确率提升了约5%,C3D网络带来的提升是明显的,因为C3D网络是一种专门用于处理视频数据的模型,它在卷积层中引入了时间维度,从而能够同时捕捉图像的空间特征和视频序列的时间特征。这使得C3D网络能够更好地捕捉视频中的运动和动态变化,而传统的2D CNN(在时序上只考虑单一帧)无法做到这一点。而本发明提出的SE-C3D视频识别分类模型在测试样本集上的准确率达到99.61%,精确率达到99.57%;与改进前C3D模型相比,准确率提高2.56%,精确率提高2.11%,召回率提高2.58%,F1值提高2.52%,各项指标都有明显的提升,这是SE-C3D视频识别分类模型引入了Squeeze-and-Excitation模块,该模块能够自适应地对每个特征通道进行权重重标定。通过学习通道之间的关系,SE模块可以将更多的注意力集中在对任务有贡献的重要通道上,从而改善特征表示的质量,使得模型性能得以提升。
针对识别结果进行分析:初始的C3D网络仅仅依靠3D卷积神经网络进行视频特征的提取,虽然相较于2D卷积神经网络的逐帧识别方式准确率有所提升,但这对特征提取的能力提升依然有限,远远达不到工程的实际生产标准。为了更清楚的展示模型在测试集中各个类别中的识别结果,经过100次迭代后,引入混淆矩阵对实验结果进行详细分析,如图9所示,其中左图为C3D混淆矩阵,右图为本发明经过改进的SE-C3D混淆矩阵图。
其中,从C3D的识别结果可以得出:初始C3D模型在类别4、类别5、类别6、类别7、类别9、类别10中均出现错误识别,尤其类别6的错误率最高,达到了14.74%,这可能是因为C3D模型对于输入样本本身模糊不清,C3D的性能可能会受到限制,可能导致模型难以从中提取有用的特征,从而降低识别的准确性。在SE-C3D视频识别分类模型中,除了类别5、类别7、类别10出现个别错误识别外,其余7种类别都能得到100%的准确识别。这是由于SE注意力机制通过学习特征通道之间的关系,能够自适应地为每个通道分配不同的权重。这使得模型能够更加关注对于特定任务更有用的特征通道,从而增强了特征的表征能力。这有助于模型更好地区分不同类别之间的差异,提高了识别的准确性;也可以减少冗余特征的影响,使模型更关注对任务有帮助的特征。这有助于提高模型的计算效率,同时也能防止过拟合。使得SE-C3D视频识别分类模型能够整合特征通道的重要程度,可以有效的在复杂场景的视频帧中找出标靶的显著区域,从而提高了识别的准确率。这表明本发明有效提升C3D的识别能力,极大地提高了网络的性能。SE-C3D视频识别分类模型具有更加强大的表达能力和学习能力,能够更好地处理具体连续时序信息特征的分类识别问题。
实施例二
如图10所示,本发明提供一种基于机器视觉的料仓视频分类识别系统,该系统包括:
数据采集模块10,用于基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本;
数据处理模块20,用于对所述采集的料仓数据视频样本进行处理,构成料仓数据集,并将料仓数据集划分为训练样本集与测试样本集;
分类模型构建模块30,用于基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型;
识别分类模块40,用于将训练样本集代入构建的SE-C3D视频识别分类模型进行训练,得到训练好的SE-C3D视频识别分类模型,将测试样本集代入训练好的SE-C3D视频识别分类模型进行测试,得到识别结果;
模型对比分析模块50,用于将训练好的SE-C3D视频识别分类模型的识别结果与其他主流模型的识别结果进行对比,并针对识别结果进行分析。
本实施例的一种基于机器视觉的料仓视频分类识别系统,用于实现前述的基于机器视觉的料仓视频分类识别方法,因此基于机器视觉的料仓视频分类识别系统中的具体实施方式可见前文基于机器视觉的料仓视频分类识别方法的实施例部分,例如,数据采集模块10,数据处理模块20,分类模型构建模块30,识别分类模块40,模型对比分析模块50,分别用于实现上述基于机器视觉的料仓视频分类识别方法中步骤S1,S2,S3,S4,S5,所以,其具体实施方式可以参照相应的各个部分实施例的描述,为了避免冗余,在此不再赘述。
实施例三
本发明实施例还提供了一种电子装置,所述电子装置包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的基于机器视觉的料仓视频分类识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之。
Claims (8)
1.一种基于机器视觉的料仓视频分类识别方法,其特征在于,包括:
步骤S1:基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本,具体包括:
基于混凝土搅拌站上料控制系统,首先设计了一套与各料仓口相对应的合作标靶;然后将工业相机固定在排料机械臂的下方,在料仓口对应的半径上固定着各个料仓的合作标靶,标靶号与各料仓相对应;最后利用工业相机采集不同时间段,不同光照条件下各个料仓标靶的运动视频;
步骤S2:对所述采集的料仓数据视频样本进行处理,构成料仓数据集,并将料仓数据集划分为训练样本集与测试样本集;
步骤S3:基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型,具体包括:
所述C3D模型的结构为:所述C3D模块由5个块组成,block1、block2分别有3D卷积层、ReLU激活函数和3D池化层;从block3到block5,每个block有两个3D卷积层,两个ReLU激活函数和一个3D池化层;
基于C3D模型,将SE注意力机制嵌入在所述C3D识别模型的最后一层,得到SE-C3D视频识别分类模型;
步骤S4:将训练样本集代入构建的SE-C3D视频识别分类模型进行训练,得到训练好的SE-C3D视频识别分类模型,将测试样本集代入训练好的SE-C3D视频识别分类模型进行测试,得到识别结果。
2.根据权利要求1所述的基于机器视觉的料仓视频分类识别方法,其特征在于,所述方法还包括步骤S5:将训练好的SE-C3D视频识别分类模型的识别结果与其他主流模型的识别结果进行对比,并针对识别结果进行分析。
3.根据权利要求1所述的基于机器视觉的料仓视频分类识别方法,其特征在于,步骤S2中,对所述采集的料仓数据视频样本进行处理,构成料仓数据集的方法具体包括:
将原始采集的视频数据进行处理,按照对应的料仓以及非料仓进行类别划分;将3帧图像作为一个视频样本,将每个视频样本中最后一帧第一次出现完整的标靶作为有效料仓视频类别,其他的则都判定为非料仓类别。
4.根据权利要求3所述的基于机器视觉的料仓视频分类识别方法,其特征在于,所述视频样本包括强光照样本、弱光照样本、正常样本、模糊抖动样本。
5.根据权利要求1所述的基于机器视觉的料仓视频分类识别方法,其特征在于,所述SE-C3D视频识别分类模型采用交叉熵损失函数L进行训练,所述交叉熵损失函数L的数学表达式为:
式中,M为类别的数量;yic符号函数(0或1);pic观测样本i为类别c的预测概率。
6.一种基于机器视觉的料仓视频分类识别系统,其特征在于,用于实现权利要求1至5任意一项所述的基于机器视觉的料仓视频分类识别方法,所述系统包括:
数据采集模块,用于基于混凝土搅拌站上料控制系统,设计一套与各料仓口相对应的合作标靶,利用工业相机采集料仓数据视频样本;
数据处理模块,用于对所述采集的料仓数据视频样本进行处理,构成料仓数据集,并将料仓数据集划分为训练样本集与测试样本集;
分类模型构建模块,用于基于C3D模型,通过添加SE注意力机制,构建SE-C3D视频识别分类模型;
识别分类模块,用于将训练样本集代入构建的SE-C3D视频识别分类模型进行训练,得到训练好的SE-C3D视频识别分类模型,将测试样本集代入训练好的SE-C3D视频识别分类模型进行测试,得到识别结果。
7.根据权利要求6所述的基于机器视觉的料仓视频分类识别系统,其特征在于,还包括模型对比分析模块,用于将训练好的SE-C3D视频识别分类模型的识别结果与其他主流模型的识别结果进行对比,并针对识别结果进行分析。
8.一种电子装置,其特征在于,所述电子装置包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至5任意一项所述的基于机器视觉的料仓视频分类识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311307032.1A CN117253092B (zh) | 2023-10-10 | 2023-10-10 | 一种基于机器视觉的料仓视频分类识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311307032.1A CN117253092B (zh) | 2023-10-10 | 2023-10-10 | 一种基于机器视觉的料仓视频分类识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117253092A CN117253092A (zh) | 2023-12-19 |
CN117253092B true CN117253092B (zh) | 2024-05-24 |
Family
ID=89134835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311307032.1A Active CN117253092B (zh) | 2023-10-10 | 2023-10-10 | 一种基于机器视觉的料仓视频分类识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117253092B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN204847257U (zh) * | 2015-06-30 | 2015-12-09 | 宁夏广天夏电子科技有限公司 | 皮带运输机节能检测装置 |
CN109239100A (zh) * | 2018-10-24 | 2019-01-18 | 东莞市乐琪光电科技有限公司 | 锂电池表面检测设备 |
CN111283875A (zh) * | 2020-04-09 | 2020-06-16 | 郑州三和水工机械有限公司 | 一种基于料仓置顶满铺结构的环保型混凝土搅拌楼 |
CN112985770A (zh) * | 2019-12-17 | 2021-06-18 | 宁波舜宇光电信息有限公司 | 标板机构及相应的模组检测设备 |
CN114359637A (zh) * | 2022-01-10 | 2022-04-15 | 华南师范大学 | 一种脑部医学影像分类方法及装置 |
WO2022111236A1 (zh) * | 2020-11-24 | 2022-06-02 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及系统 |
CN218035290U (zh) * | 2022-03-30 | 2022-12-13 | 常德市三一机械有限公司 | 一种物位计的校准系统以及搅拌站 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112044793B (zh) * | 2020-09-02 | 2022-01-28 | 合肥工业大学 | 一种废旧手机的自动识别分类生产线及其分类方法 |
-
2023
- 2023-10-10 CN CN202311307032.1A patent/CN117253092B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN204847257U (zh) * | 2015-06-30 | 2015-12-09 | 宁夏广天夏电子科技有限公司 | 皮带运输机节能检测装置 |
CN109239100A (zh) * | 2018-10-24 | 2019-01-18 | 东莞市乐琪光电科技有限公司 | 锂电池表面检测设备 |
CN112985770A (zh) * | 2019-12-17 | 2021-06-18 | 宁波舜宇光电信息有限公司 | 标板机构及相应的模组检测设备 |
CN111283875A (zh) * | 2020-04-09 | 2020-06-16 | 郑州三和水工机械有限公司 | 一种基于料仓置顶满铺结构的环保型混凝土搅拌楼 |
WO2022111236A1 (zh) * | 2020-11-24 | 2022-06-02 | 华中师范大学 | 一种结合注意力机制的面部表情识别方法及系统 |
CN114359637A (zh) * | 2022-01-10 | 2022-04-15 | 华南师范大学 | 一种脑部医学影像分类方法及装置 |
CN218035290U (zh) * | 2022-03-30 | 2022-12-13 | 常德市三一机械有限公司 | 一种物位计的校准系统以及搅拌站 |
Also Published As
Publication number | Publication date |
---|---|
CN117253092A (zh) | 2023-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321923B (zh) | 不同尺度感受野特征层融合的目标检测方法、系统及介质 | |
US11823429B2 (en) | Method, system and device for difference automatic calibration in cross modal target detection | |
CN111815564B (zh) | 一种检测丝锭的方法、装置及丝锭分拣系统 | |
CN109766873B (zh) | 一种混合可变形卷积的行人再识别方法 | |
CN110633738B (zh) | 一种用于工业零件图像的快速分类方法 | |
CN110533654A (zh) | 零部件的异常检测方法及装置 | |
CN111062423B (zh) | 基于自适应特征融合的点云图神经网络的点云分类方法 | |
CN115049821A (zh) | 一种基于多传感器融合的三维环境目标检测方法 | |
Basamakis et al. | Deep object detection framework for automated quality inspection in assembly operations | |
CN115937736A (zh) | 基于注意力和上下文感知的小目标检测方法 | |
CN111104855A (zh) | 一种基于时序行为检测的工作流识别方法 | |
CN115147644A (zh) | 图像描述模型的训练和描述方法、系统、设备及存储介质 | |
CN114689038A (zh) | 基于机器视觉的果实检测定位与果园地图构建方法 | |
CN114550023A (zh) | 一种交通目标静态信息提取装置 | |
CN112561885B (zh) | 基于YOLOv4-tiny的插板阀开度检测方法 | |
Xia et al. | Kiwifruit counting using KiwiDetector and KiwiTracker | |
CN117253092B (zh) | 一种基于机器视觉的料仓视频分类识别方法及系统 | |
CN117381793A (zh) | 一种基于深度学习的物料智能检测视觉系统 | |
CN113112479A (zh) | 基于关键区块提取的渐进式目标检测方法和装置 | |
CN113012244A (zh) | 基于Inception模块与Attention机制的鸡蛋新鲜度检测方法 | |
CN116994049A (zh) | 全自动针织横机及其方法 | |
CN115631402A (zh) | 一种适用于智慧养殖的ai算法服务平台构建方法 | |
CN112132816B (zh) | 一种基于多任务与感兴趣区域分割引导的目标检测方法 | |
ALSAADI et al. | An automated classification of mammals and reptiles animal classes using deep learning | |
Pal et al. | A video-based human activity and motion direction classification framework for agricultural fields |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |