CN114663803A - 基于视频流的物流中心挂装类服装分类方法及装置 - Google Patents
基于视频流的物流中心挂装类服装分类方法及装置 Download PDFInfo
- Publication number
- CN114663803A CN114663803A CN202210193004.0A CN202210193004A CN114663803A CN 114663803 A CN114663803 A CN 114663803A CN 202210193004 A CN202210193004 A CN 202210193004A CN 114663803 A CN114663803 A CN 114663803A
- Authority
- CN
- China
- Prior art keywords
- image
- boundary
- scale
- images
- video stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于视频流的物流中心挂装类服装分类方法及装置,所述方法的步骤包括,接收录入的视频流,基于预设的深度学习模型识别视频流的服装,并在视频流的图像数据中标记服装的边界框;基于服装在视频流的图像数据中的出现顺序,对服装的边界框顺序编号;将视频流的图像数据划分为多个第一图像帧,基于所述边界框对所述第一图像帧进行裁剪,得到边界图像;对边界框编号相同的边界图像,提取边界图像中的图像特征,基于边界图像的尺度,对不同尺度的边界图像中的图像特征赋予不同的权重,基于注意力机制对边界框编号相同的边界图像进行特征融合,得到融合图像;将融合图像输入到预设的卷积神经网络分类器中,得出融合图像的类别。
Description
技术领域
本发明涉及物流技术领域,尤其涉及一种基于视频流的物流中心挂装类服装分类方法及装置。
背景技术
物流中心一般会同时运输多种挂装类服装,比如西服、大衣、羽绒服等,这些服装可能来自混杂在一起的多个订单,因此在分拣环节需要对服装按照类别进行分类,方便后续对服装打包然后运送到对应的服装厂家。
目前,服装分类的相关技术可大致分为利用条形码逐个进行识别,或者采用图像识别的方式进行识别,若采用条形码识别则通常为人工或者使用摄像头读取条形码的方式进行识别,效率较低;若采用图像识别的方式,则通常只能对单个图像进行识别,然而,在真实物流场景中,挂装类服装在输送设备上高速移动,难以捕获清晰的条形码或者单幅图像,导致以上方法在实际应用中效果较差。
发明内容
鉴于此,本发明的实施例提供了一种基于视频流的物流中心挂装类服装分类方法,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种基于视频流的物流中心挂装类服装分类方法,所述方法的步骤包括,
接收录入的视频流,基于预设的深度学习模型识别视频流的图像数据中的服装,并在视频流的图像数据中标记服装的边界框;
基于服装在视频流的图像数据中的出现顺序,对服装的边界框顺序编号;
将视频流的图像数据划分为多个第一图像帧,基于所述边界框对所述第一图像帧进行裁剪,得到边界图像;
对边界框编号相同的边界图像,提取边界图像中的图像特征,基于边界图像的尺度,对不同尺度的边界图像中的图像特征赋予不同的权重,基于注意力机制对边界框编号相同的边界图像进行特征融合,得到融合图像;
将融合图像输入到预设的卷积神经网络分类器中,得出融合图像的类别。
采用上述方案,本方案能够实时接收视频流,由于在视频流中同一件衣服通常为由远及近或者由近及远的规律,本方案对于同一件衣服能够得到不同尺度的多张图像,而同一特征在不同尺度的图像中的代表性不同,因此本方案赋予不同的权重,并得到融合图像,对融合图像进行分类,即可得到原始图像数据中边界框编号相同的服装的类别,本方案一方面能够实时识别服装类别,提高处理效率,且通过为特征赋予不同的权重,能够提高分类的准确性。
在本发明的一些实施方式中,在视频流的图像数据中标记服装的边界框的步骤中,根据服装在图像数据中的尺度生成边界框,所述服装的图像在边界框框定的范围内;
所述边界框随着其框定的服装在视频流的图像数据中尺度的变大或变小。
在本发明的一些实施方式中,在视频流的图像数据中标记服装的边界框的步骤中,基于预设的边界框阈值,实时将当前的边界框的大小与边界框阈值相比较,若当前的边界框的大小不在边界框阈值范围内,则不显示边界框。
在本发明的一些实施方式中,将视频流的图像数据划分为多个第一图像帧的步骤包括,根据图像数据的帧将视频流的图像数据划分为多个初始图像帧;
将所述初始图像帧转化为灰度图,基于所述灰度图中各个像素点的灰度值计算每个灰度图的灰度质心;
基于每个灰度图的灰度质心计算平均灰度质心,分别计算各个灰度图的灰度质心与平均灰度质心之间的距离;
基于灰度质心与平均灰度质心之间的距离在所有灰度图中筛选出第一预设个数个距离较近的灰度图作为第一图像帧。
在本发明的一些实施方式中,根据如下公式基于所述灰度图中各个像素点的灰度值计算每个灰度图的灰度质心:
根据上述公式组合xc,yc得到灰度质心的坐标(xc,yc),公式中xc表示灰度质心的横坐标,yc表示灰度质心的纵坐标,xij为尺寸为M*N灰度图的第i行第j列的像素点的像素灰度值,M为灰度图的像素点行数总数,N为灰度图的像素点列数总数。
在本发明的一些实施方式中,根据如下公式计算各个灰度图的灰度质心与平均灰度质心之间的距离:
在本发明的一些实施方式中,分别计算每个灰度图的灰度质心与平均灰度质心之间的距离,筛选出第一预设个数个距离较近的灰度图作为第一图像帧。
在本发明的一些实施方式中,划分出多个尺度范围,每个尺度范围对应一个预设的特征-权重组,在所述特征-权重组中对应每个图像特征设置有权重参数,在基于边界图像的尺度,对不同尺度的边界图像中的特征赋予不同的权重的步骤包括,
基于边界图像的尺度判定该边界图像对应的尺度范围,根据尺度范围为边界图像匹配对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数。
在本发明的一些实施方式中,划分出多个尺度阈值,基于多个尺度阈值的数值大小将尺度阈值顺序排列,每个所述尺度阈值对应设置有特征-权重组,在所述特征-权重组中对应每个图像特征设置有权重参数,在基于边界图像的尺度,对不同尺度的边界图像中的特征赋予不同的权重的步骤包括;
将边界框编号相同的边界图像基于在视频流中的顺序排序,基于边界图像的排序顺序,将边界图像排序中第一个边界图像的尺度与在尺度排序中第一个尺度阈值相比较;
若第一个边界图像的尺度大于第一个尺度阈值,则继续与下一个尺度阈值比较,直到边界图像小于或等于第n个尺度阈值,为第一个边界图像匹配第n个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
若第一个边界图像的尺度小于或等于第一个尺度阈值,则为第一个边界图像匹配第一个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
将边界图像排序中第a个边界图像的尺度与第a-1个边界图像所匹配的第b个尺度阈值相比较;
若第a个边界图像的尺度大于第b个尺度阈值,则继续与第b+1个尺度阈值比较,直到边界图像小于或等于第m个尺度阈值,为第a个边界图像匹配第m个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
若第a个边界图像的尺度小于或等于第b个尺度阈值,则为第a个边界图像匹配第b个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数。
在本发明的一些实施方式中,基于如下的损失函数公式对所述卷积神经网络分类器进行训练:
L表示损失函数值,f表示第f个融合图像,F表示融合图像总数,是对第f个融合图像的图像特征对应的特征向量xf进行归一化得出的值,e表示欧拉数,g表示第g个图像特征,sg表示第g个图像特征的特征值,G表示图像特征的类别总数,是对第f个融合图像所对应的同类别融合图像中的图像特征sg进行归一化得出的值,γ表示对特征距离函数的权重,特征距离函数为 表示融合图像f所对应的同类别的融合图像的特征向量的中心点。
在本发明的一些实施方式中,将视频流的图像数据划分为多个第一图像帧的步骤还包括,将划分出的第一图像帧进行清晰化处理,所述清晰化处理的步骤包括采用维纳滤波去除多个第一图像帧中含有噪声的第一图像帧。
在本发明的一些实施方式中,基于所述边界框对所述第一图像帧进行裁剪,得到边界图像的步骤包括,对边界图像进行去高光处理,所述去高光处理的步骤包括,
基于SURF算法获取同一边界框编号的多个边界图像对应的变换矩阵;
将同一边界框编号的多个边界图像每α个划分为一个融合组,对同一融合组中的边界图像基于变换矩阵作对齐处理;
对同一融合组中的边界图像采用取最小像素灰度值、取灰度平均值、高斯差分和中值结合的方式将同一融合组中的边界图像融合为同一边界图像。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明基于视频流的物流中心挂装类服装分类方法一种实施方式的示意图;
图2为边界框编号的使用示意图;
图3为卷积神经网络的处理结构示意图;
图4为本发明基于视频流的物流中心挂装类服装分类方法另一种实施方式的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
现有技术介绍:
(1)扫码枪读码进行分类
最直接的方法就是人工利用扫码枪读码进行分类,这种方法在准确率上几乎达到百分百,但是在效率上很慢,挂装类服装很占据空间,所以对其进行扫码很难操作,不能用于订单量很大的物流中心。
进一步地,若采取人工扫码读码进行分类,首先需要将服装从生产线上取下,然后手持扫码枪识别,效率较低,且存在严重的人力资源浪费。
(2)摄像头读取条形码进行分类
这种方法是利用摄像头读取条形码进行分类,只要服装的标签出现在摄像头的拍摄范围内就可以获取其条形码,然后将服装送到交叉带分拣机输送到对应的档口。这种方法比人工分类效率更快一些,但是还不足以应对物流中心多订单多种类的挑战,如果标签正反颠倒就无法获取条形码内容,从而不能进行分类。
进一步地,若采用摄像头读码器,需人工辅助将服装标签放在摄像头的拍摄范围内读码识别分类,标签正反颠倒、局部遮挡等情况都会导致无法识别,效率同样较低,自动化程度有待提高。
(3)基于零样本识别的服装分类方法
这种方法将服装特征标注成属性向量,提取服装图像的特征向量,学习从训练集的属性向量到特征向量的映射,然后将测试集的特征向量输入学习好的映射中,得到该测试集相应的属性向量并寻找与其最接近的服装类别。该方法的缺点是没有从根本上利用服装特征进行分类,并且预测的类别还是比较少的,如果类别数量很多的话可能就无法进行分类。
(4)基于特征增强的服装分类方法
这种方法提取服装图像的纹理特征和形状特征,然后组合成属性特征并输入判别器,通过判别器预测服装的类别。该方法对图像清晰度要求较高,对于运动过程中的模糊图像不能达到识别的要求,其中纹理特征是比较难获取的,增加了整合的难度。
(5)基于深度学习的服装分类方法
这种方法采用注意力机制将服装图像特征的关键向量与权重进行放大,利用空间变换网络变换图像特征的感受域,然后将图像特征输入到胶囊网络提取空间关联信息,根据高层信息对服装进行分类。其不足之处在于不能达到实时的服装分类,并且在网络的设计方面还是采用的普通卷积神经网络模型,对于边缘特征比较强的衣服如冲锋衣和旗袍,分类效果不是很好。
进一步地,基于单幅图像的服装分类技术,自动化程度比上述方式高,但是对摄像头的分辨率要求较高,否则会由于无法准确提取图像特征导致分类失败,无法满足物流中心实际场景中挂装类服装实时分类的需求。
上述现有方法都是基于条形码或者单幅图像进行服装分类,然而,在真实物流场景中,挂装类服装在输送设备上高速移动,难以捕获清晰的条形码或者单幅图像,导致以上方法在实际应用中效果不佳。目前,基于视频流的服装分类相关研究较少,所以本专利的目标是实现基于视频流的物流中心挂装类服装分类,并且存在以下难点亟待解决:1、由于高速输送设备运动产生的震动,导致视频流中难以获取清晰帧;2、由于物流中心挂装类的服装带有塑料包装,容易产生高光反射,严重影响图像质量,增加了识别难度。
为解决以上问题,本发明提出一种基于视频流的物流中心挂装类服装分类方法,该方法将获取的视频流划分成多幅图像,首先去除图像中的高光反射,然后通过注意力机制对多幅不同尺度的图像进行特征融合,以获取区分度较大的图像特征,最终实现对挂装类服装的精确分类。
如图1、4所示,本发明的一个方面提供了一种基于视频流的物流中心挂装类服装分类方法,所述方法的步骤包括,
步骤S100,接收录入的视频流,基于预设的深度学习模型识别视频流的图像数据中的服装,并在视频流的图像数据中标记服装的边界框;
在本发明的一些实施方式中,待处理挂装类服装进入摄像头的拍摄范围后开始记录,首先检测视频中的服装,用边界框标记出来并进行编号,初始编号为1,如果后续帧中出现新的服装,则其边界框编号依次累加,实现对多件服装的同步跟踪;
步骤S200,基于服装在视频流的图像数据中的出现顺序,对服装的边界框顺序编号;
步骤S300,将视频流的图像数据划分为多个第一图像帧,基于所述边界框对所述第一图像帧进行裁剪,得到边界图像;
在本发明的一些实施方式中,根据边界框编号,将多幅图像中共同出现的边界框编号相同的同一件服装进行裁剪,从而获取该服装不同尺度的图像。
步骤S400,对边界框编号相同的边界图像,提取边界图像中的图像特征,基于边界图像的尺度,对不同尺度的边界图像中的图像特征赋予不同的权重,基于注意力机制对边界框编号相同的边界图像进行特征融合,得到融合图像;
所述图像特征包括但不限于轮廓特征和纹理特征。
步骤S500,将融合图像输入到预设的卷积神经网络分类器中,得出融合图像的类别。
采用上述方案,本方案能够实时接收视频流,由于在视频流中同一件衣服通常为由远及近或者由近及远的规律,本方案对于同一件衣服能够得到不同尺度的多张图像,而同一特征在不同尺度的图像中的代表性不同,因此本方案赋予不同的权重,并得到融合图像,得到清晰的图片帧,对融合图像进行分类,即可得到原始图像数据中边界框编号相同的服装的类别,本方案一方面能够实时识别服装类别,提高处理效率,且通过为特征赋予不同的权重,能够提高分类的准确性。
在本发明的一些实施方式中,获取到的多尺度图像进行特征融合以获取区分度更高的融合图像,然后送入分类器,根据分类结果将服装通过交叉带分拣机送入对应类别的档口,完成对服装的实时分类。
在本发明的一些实施方式中,若服装完成分类,则其对应的边界框编号可以再次使用。
在本发明的一些实施方式中,所述边界框编号的序列可以为循环使用的序列,由于先出现在视频中的服装会率先完成分类,则该服装的边界框编号可以回到编号池中,此时出现的服装再次使用该编号,彼此不会相互影响,且避免长期使用序号过大,提高计算难度。
如图2所示,在本发明的一些实施方式中,可以为边界框编号设置一个编号循环队列,初始时编号是从1到100,并且设置两个指针front和rear,分别指向下一个将要使用的编号和将要存入的编号,使用完一个编号或者存放一个编号后指针向后移动一个位置。
从循环队列队头取出数字对多幅图像中的边界框进行编号,相同位置的边界框编号相同,如果后续帧中出现新的服装则以前面图像中的编号顺序为准,新服装的编号依次累加,当编号相同的边界框分类结束则将编号重新放入编号队列,方便后续边界框的使用。
在本发明的一些实施方式中,在视频流的图像数据中标记服装的边界框的步骤中,根据服装在图像数据中的尺度生成边界框,所述服装的图像在边界框框定的范围内;
所述边界框随着其框定的服装在视频流的图像数据中尺度的变化变大或变小。
在本发明的一些实施方式中,在视频流的图像数据中标记服装的边界框的步骤中,基于预设的边界框阈值,实时将当前的边界框的大小与边界框阈值相比较,若当前的边界框的大小不在边界框阈值范围内,则不显示边界框。
如下公式所示:
thresholdlow≤Sbounding box≤thresholdhigh。
采用上述方案,设置边界框大小的高低阈值,判断视频帧中的边界框大小是否在高低阈值之间,只有在此范围内的视频帧才保留下来,若不在此范围内则说明图像过大或过小,难以识别特征,直接舍弃降低处理负担。
在本发明的一些实施方式中,将视频流的图像数据划分为多个第一图像帧的步骤包括,根据图像数据的帧将视频流的图像数据划分为多个初始图像帧;
将所述初始图像帧转化为灰度图,基于所述灰度图中各个像素点的灰度值计算每个灰度图的灰度质心;
基于每个灰度图的灰度质心计算平均灰度质心,分别计算各个灰度图的灰度质心与平均灰度质心之间的距离;
基于灰度质心与平均灰度质心之间的距离在所有灰度图中筛选出第一预设个数个距离较近的灰度图作为第一图像帧。
在本发明的一些实施方式中,根据如下公式基于所述灰度图中各个像素点的灰度值计算每个灰度图的灰度质心:
根据上述公式组合xc,yc得到灰度质心的坐标(xc,yc),公式中xc表示灰度质心的横坐标,yc表示灰度质心的纵坐标,xij为尺寸为M*N灰度图的第i行第j列的像素点的像素灰度值,M为灰度图的像素点行数总数,N为灰度图的像素点列数总数。
在本发明的一些实施方式中,根据如下公式计算各个灰度图的灰度质心与平均灰度质心之间的距离:
在本发明的一些实施方式中,分别计算每个灰度图的灰度质心与平均灰度质心之间的距离,筛选出第一预设个数个距离较近的灰度图作为第一图像帧。
在本发明的一些实施方式中,划分出多个尺度范围,每个尺度范围对应一个预设的特征-权重组,在所述特征-权重组中对应每个图像特征设置有权重参数,在基于边界图像的尺度,对不同尺度的边界图像中的特征赋予不同的权重的步骤包括,
基于边界图像的尺度判定该边界图像对应的尺度范围,根据尺度范围为边界图像匹配对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数。
在本发明的一些实施方式中,划分出多个尺度阈值,基于多个尺度阈值的数值大小将尺度阈值顺序排列,每个所述尺度阈值对应设置有特征-权重组,在所述特征-权重组中对应每个图像特征设置有权重参数,在基于边界图像的尺度,对不同尺度的边界图像中的特征赋予不同的权重的步骤包括;
将边界框编号相同的边界图像基于在视频流中的顺序排序,基于边界图像的排序顺序,将边界图像排序中第一个边界图像的尺度与在尺度排序中第一个尺度阈值相比较;
若第一个边界图像的尺度大于第一个尺度阈值,则继续与下一个尺度阈值比较,直到边界图像小于或等于第n个尺度阈值,为第一个边界图像匹配第n个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
若第一个边界图像的尺度小于或等于第一个尺度阈值,则为第一个边界图像匹配第一个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
将边界图像排序中第a个边界图像的尺度与第a-1个边界图像所匹配的第b个尺度阈值相比较;
在本发明的一些实施方式中,a为大于1的正整数,b为正整数,若a等于2,b可能等于1。
若第a个边界图像的尺度大于第b个尺度阈值,则继续与第b+1个尺度阈值比较,直到边界图像小于或等于第m个尺度阈值,为第a个边界图像匹配第m个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
在本发明的一些实施方式中,m≥b+1。
若第a个边界图像的尺度小于或等于第b个尺度阈值,则为第a个边界图像匹配第b个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数。
采用上述方案,由于服装在流水线上的运动是逐渐靠近摄像机或者逐渐远离摄像机的,因此,摄像机所拍摄到的服装是逐渐变大或者逐渐缩小的,由于边界框编号相同的边界图像基于在视频流中的顺序排序,顺序排序的多张边界图像为依次变大或者依次缩小的顺序,因此,将边界图像排序中第a个边界图像的尺度不需要与第a-1个边界图像所匹配的第b个尺度阈值之前尺度阈值的相比较,相比于每次匹配都要对比所有区间的方式,能够显著提高处理效率,尤其在本发明的应用场景中,需要保证实时处理,保证处理效率。
在本发明的一些实施方式中,若在场景中的服装为由远及近靠近摄像机,边界图像的排序为尺度较小的编号较小,则尺度阈值数值较小的编号较小,并随着尺度阈值数值变大而变大。
为不同的图像特征赋予不同的权重,由于不同时刻图像的尺度不一样,尺度较小的图像轮廓特征更明显,而尺度较大的图像纹理特征更明显,所以需要提取多尺度信息,增大模型的感受野,但是如果直接将图像放缩到同一尺度,图像可能会变模糊甚至出现锯齿状,导致图像的特征无法适用,利用时间信息在尺度方面进行加权。
现有的网络模型都是在低分辨率特征图的空间局部点上来生成高分辨率的细节,而本发明提出的方法可以从所有的特征处生成细节,并且可以判断两幅具有明显差异的图像是否具有一致的高度精细特征。本发明所提出的注意力机制对特征进行提取及融合,是根据时间信息和图像信息对提取的图像特征进行加权组合,重点在于每个信息权值的计算,对输入的每个元素考虑不同的权重参数,从而更加关注与输入的元素相似的部分,而抑制其他无用的信息,最大的优势在于能一步到位的考虑全局联系和局部联系,且能并行化计算,在物流中心庞大数据量的压力下同样能够进行实时的挂装类服装分类。
在每个卷积层都应用了注意力机制,用来对图像中特征信息进行加权,然后将原始图层的输出和加权后的特征信息进行融合,形成区分度更为明显的新特征,还有关键的一点是需要将提取到的信息进行放缩,因为是不同尺度下的图像,所以提取出来的信息也应该需要进行归一化,放缩到统一的尺度,然后将归一化后的信息输入到融合模块,融合模块能够将每张图像的特征信息进行融合得到更具区分度的特征。
整体的网络结构如下图3所示,输入是图像预处理之后的帧序列图像,对图像特征和时间信息都进行编码,然后通过注意力机制对编码后的图像特征进行加权,将加权后的特征进行融合然后送入最终的卷积神经网络分类器。
在本发明的一些实施方式中,基于如下的损失函数公式对所述卷积神经网络分类器进行训练:
L表示损失函数值,f表示第f个融合图像,F表示融合图像总数,是对第f个融合图像的图像特征对应的特征向量xf进行归一化得出的值,e表示欧拉数,g表示第g个图像特征,sg表示第g个图像特征的特征值,G表示图像特征的类别总数,是对第f个融合图像所对应的同类别融合图像中的图像特征sg进行归一化得出的值,γ表示对特征距离函数的权重,特征距离函数为 表示融合图像f所对应的同类别的融合图像的特征向量的中心点。
若融合图像f的类别为裤子,融合图像f所对应的同类别的融合图像为同样的裤子类别的图像,二者图像特征可能存在差异,但同属裤子类。
本方案可以采用上述损失函数对卷积神经网络分类器进行训练,也可以采用通用的训练方式进行训练。
基于损失函数更新卷积神经网络分类器中的参数数值,完成训练。
在本发明的一些实施方式中,随着γ值越来越大,同类特征与中心点距离越来越小,同类样本分布更加紧凑,同时,不同类别的特征间距越来越大,不同类别样本的区分度越来越高,从而提升分类的准确率。最终根据分类器输出的类别将服装传送到合适的档口,完成分类过程。
在本发明的一些实施方式中,每个融合图像包括多个图像特征,由多个图像特征构成该融合图像的特征向量。
在本发明的一些实施方式中,将视频流的图像数据划分为多个第一图像帧的步骤还包括,将划分出的第一图像帧进行去噪处理,所述去噪处理的步骤为采用维纳滤波去除多个第一图像帧中含有噪声的第一图像帧。
在本发明的一些实施方式中,基于所述边界框对所述第一图像帧进行裁剪,得到边界图像的步骤包括,对边界图像进行去高光处理,所述去高光处理的步骤包括,
基于SURF算法获取同一边界框编号的多个边界图像对应的变换矩阵;
将同一边界框编号的多个边界图像每α个划分为一个融合组,对同一融合组中的边界图像基于变换矩阵作对齐处理;
对同一融合组中的边界图像顺序采用取最小像素灰度值、取灰度平均值、高斯差分和中值结合的方式将同一融合组中的边界图像融合为同一边界图像。
采用上述方案,由于在流水线上的服装通常设置有塑料包装,容易产生高光反射,本方案通过去高光处理通过SURF算法极大程度保证了图像的特征,且能通过最小像素灰度值、取灰度平均值、高斯差分和中值结合的方式消除高光,并能实时处理,提高服装分类准确性。
在本发明的一些实施方式中,α可以为1、2或3等。
本发明对带有塑料包装的挂装类服装进行分类,通过图像预处理将塑料包装造成的高光反射降到最低,以提高后续服装分类的准确率;
在挂装类服装传送过程中因输送设备的高速运动产生震动,导致图像模糊,本发明从视频流中提取多幅不同尺度的图像,分别计算其特征,利用注意力机制将提取到的特征融合成区分度更高的特征,降低设备速度过快及震动给图像识别带来的负面影响;
本发明能够同时跟踪输送设备上的多件服装,分别进行定位、编号区分和识别,有效防止因传送速度过快或者服装间距过小而产生服装无法及时分类的情况。
针对现有技术存在的自动化程度低、处理速度慢、人力资源严重浪费的问题,本发明在挂装类服装传送过程中利用摄像头记录视频流,从视频流中提取多幅图像,对图像中的多件服装进行定位、编号边界框,在进行区分和识别,对同一编号的服装提取特征,利用注意力机制对多幅不同尺度的图像进行融合,得到区分度更强的特征以供分类,从而提高了物流中心挂装类服装的分类速度与准确率。
本发明的实施例还提供一种基于视频流的物流中心挂装类服装分类装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述基于视频流的物流中心挂装类服装分类方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于视频流的物流中心挂装类服装分类方法,其特征在于,接收录入的视频流,基于预设的深度学习模型识别视频流的图像数据中的服装,并在视频流的图像数据中标记服装的边界框;
基于服装在视频流的图像数据中的出现顺序,对服装的边界框顺序编号;
将视频流的图像数据划分为多个第一图像帧,基于所述边界框对所述第一图像帧进行裁剪,得到边界图像;
对边界框编号相同的边界图像,提取边界图像中的图像特征,基于边界图像的尺度,对不同尺度的边界图像中的图像特征赋予不同的权重,基于注意力机制对边界框编号相同的边界图像进行特征融合,得到融合图像;
将融合图像输入到预设的卷积神经网络分类器中,得出融合图像的类别。
2.根据权利要求1所述的基于视频流的物流中心挂装类服装分类方法,其特征在于,在视频流的图像数据中标记服装的边界框的步骤中,
根据服装在图像数据中的尺度生成边界框,所述服装的图像在边界框框定的范围内;
所述边界框随着其框定的服装在视频流的图像数据中尺度的变化变大或变小。
3.根据权利要求1或2所述的基于视频流的物流中心挂装类服装分类方法,其特征在于,在视频流的图像数据中标记服装的边界框的步骤中,基于预设的边界框阈值,实时将当前的边界框的大小与边界框阈值相比较,若当前的边界框的大小不在边界框阈值范围内,则不显示边界框。
4.根据权利要求1所述的基于视频流的物流中心挂装类服装分类方法,其特征在于,将视频流的图像数据划分为多个第一图像帧的步骤包括,
根据图像数据的帧将视频流的图像数据划分为多个初始图像帧;
将所述初始图像帧转化为灰度图,基于所述灰度图中各个像素点的灰度值计算每个灰度图的灰度质心;
基于每个灰度图的灰度质心计算平均灰度质心,分别计算各个灰度图的灰度质心与平均灰度质心之间的距离;
基于灰度质心与平均灰度质心之间的距离在所有灰度图中筛选出第一预设个数个距离较近的灰度图作为第一图像帧。
6.根据权利要求1所述的基于视频流的物流中心挂装类服装分类方法,其特征在于,划分出多个尺度范围,每个尺度范围对应一个预设的特征-权重组,在所述特征-权重组中对应每个图像特征设置有权重参数,在基于边界图像的尺度,对不同尺度的边界图像中的特征赋予不同的权重的步骤包括,
基于边界图像的尺度判定该边界图像对应的尺度范围,根据尺度范围为边界图像匹配对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数。
7.根据权利要求1所述的基于视频流的物流中心挂装类服装分类方法,其特征在于,划分出多个尺度阈值,基于多个尺度阈值的数值大小将尺度阈值顺序排列,每个所述尺度阈值对应设置有特征-权重组,在所述特征-权重组中对应每个图像特征设置有权重参数,在基于边界图像的尺度,对不同尺度的边界图像中的特征赋予不同的权重的步骤包括;
将边界框编号相同的边界图像基于在视频流中的顺序排序,基于边界图像的排序顺序,将边界图像排序中第一个边界图像的尺度与在尺度排序中第一个尺度阈值相比较;
若第一个边界图像的尺度大于第一个尺度阈值,则继续与下一个尺度阈值比较,直到边界图像小于或等于第n个尺度阈值,为第一个边界图像匹配第n个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
若第一个边界图像的尺度小于或等于第一个尺度阈值,则为第一个边界图像匹配第一个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
将边界图像排序中第a个边界图像的尺度与第a-1个边界图像所匹配的第b个尺度阈值相比较;
若第a个边界图像的尺度大于第b个尺度阈值,则继续与第b+1个尺度阈值比较,直到边界图像小于或等于第m个尺度阈值,为第a个边界图像匹配第m个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数;
若第a个边界图像的尺度小于或等于第b个尺度阈值,则为第a个边界图像匹配第b个尺度阈值所对应的特征-权重组,为该边界图像中每个图像特征赋予对应的权重参数。
8.根据权利要求1所述的基于视频流的物流中心挂装类服装分类方法,其特征在于,基于所述边界框对所述第一图像帧进行裁剪,得到边界图像的步骤包括,对边界图像进行去高光处理,所述去高光处理的步骤包括,
基于SURF算法获取同一边界框编号的多个边界图像对应的变换矩阵;
将同一边界框编号的多个边界图像每α个划分为一个融合组,对同一融合组中的边界图像基于变换矩阵作对齐处理;
对同一融合组中的边界图像顺序采用取最小像素灰度值、取灰度平均值、高斯差分和中值结合的方式将同一融合组中的边界图像融合为同一边界图像。
10.一种基于视频流的物流中心挂装类服装分类装置,其特征在于,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1-9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210193004.0A CN114663803A (zh) | 2022-02-28 | 2022-02-28 | 基于视频流的物流中心挂装类服装分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210193004.0A CN114663803A (zh) | 2022-02-28 | 2022-02-28 | 基于视频流的物流中心挂装类服装分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114663803A true CN114663803A (zh) | 2022-06-24 |
Family
ID=82028067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210193004.0A Pending CN114663803A (zh) | 2022-02-28 | 2022-02-28 | 基于视频流的物流中心挂装类服装分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114663803A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486116A (zh) * | 2023-06-16 | 2023-07-25 | 济宁大爱服装有限公司 | 一种基于机器视觉的服装加工用吊挂机异常检测方法 |
-
2022
- 2022-02-28 CN CN202210193004.0A patent/CN114663803A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116486116A (zh) * | 2023-06-16 | 2023-07-25 | 济宁大爱服装有限公司 | 一种基于机器视觉的服装加工用吊挂机异常检测方法 |
CN116486116B (zh) * | 2023-06-16 | 2023-08-29 | 济宁大爱服装有限公司 | 一种基于机器视觉的服装加工用吊挂机异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334706B (zh) | 一种图像目标识别方法及装置 | |
CN112686812B (zh) | 银行卡倾斜矫正检测方法、装置、可读存储介质和终端 | |
CN106203539B (zh) | 识别集装箱箱号的方法和装置 | |
CN110503054B (zh) | 文本图像的处理方法及装置 | |
CN110135514B (zh) | 一种工件分类方法、装置、设备及介质 | |
EP2434431A1 (en) | Method and device for classifying image | |
CN110599463B (zh) | 一种基于轻量级联神经网络的舌像检测及定位算法 | |
CN104166841A (zh) | 一种视频监控网络中指定行人或车辆的快速检测识别方法 | |
CN106384345B (zh) | 一种基于rcnn的图像检测以及流量统计方法 | |
CN110334703B (zh) | 一种昼夜图像中的船舶检测和识别方法 | |
CN112991280B (zh) | 视觉检测方法、系统及电子设备 | |
CN114445879A (zh) | 一种高精度人脸识别方法及人脸识别设备 | |
Pervej et al. | Real-time computer vision-based bangla vehicle license plate recognition using contour analysis and prediction algorithm | |
CN114663803A (zh) | 基于视频流的物流中心挂装类服装分类方法及装置 | |
CN106548195A (zh) | 一种基于改进型hog‑ulbp特征算子的目标检测方法 | |
CN111402185A (zh) | 一种图像检测方法及装置 | |
CN113454649A (zh) | 目标检测方法、装置、电子设备和计算机可读存储介质 | |
CN117474924A (zh) | 基于机器视觉的标签缺陷检测方法 | |
CN106778675B (zh) | 一种视频图像中目标对象的识别方法和装置 | |
CN112348026A (zh) | 一种基于机器视觉的磁性硬盘序列码识别方法 | |
CN115797970B (zh) | 基于YOLOv5模型的密集行人目标检测方法及系统 | |
CN111968154A (zh) | 一种融合hog-lbp和kcf的行人跟踪方法 | |
Ilayarajaa et al. | Text recognition in moving vehicles using deep learning neural networks | |
CN109858342B (zh) | 一种融合手工设计描述子和深度特征的人脸姿态估计方法 | |
CN116258908A (zh) | 一种基于无人机遥感影像数据的地灾预测评估分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |