CN114708295A

CN114708295A - 一种基于Transformer的物流包裹分离方法

Info

Publication number: CN114708295A
Application number: CN202210346880.2A
Authority: CN
Inventors: 谢巍; 秦奕; 别业泉; 谭淏; 周雅静
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2022-07-05
Anticipated expiration: 2042-04-02
Also published as: CN114708295B

Abstract

本发明公开了一种基于Transformer的物流包裹分离方法，包括以下步骤：将图像送入改进的Transformer语义分割模型，将接收的图像划分为多个图块并将图块传入分层编码器，该编码器利用重叠特征合并操作、前馈神经网络结合自注意力机制输出不同分辨率的多级图像特征；使用轻量级的基于多层感知机的解码器进行特征拼接和融合，预测出图像的包裹分割掩码信息；对于该掩码信息进行图像形态学后处理，提取出所有包裹的边缘信息，获取当前包裹的分布情况后对包裹在传送带上的分布情况进行统计，获取在传送带最前方的包裹作为目标包裹，将此目标包裹信息作为卡尔曼滤波目标跟踪环节的更新输入，从而实现对于物流包裹的单件分拣。

Description

一种基于Transformer的物流包裹分离方法

技术领域

本发明属于物流系统包裹分拣领域，涉及一种基于Transformer的物流包裹分离方法。

背景技术

随着互联网技术的普及和我国电子商务的繁荣，物流仓储行业获得了快速发展。由于我国人口众多，网上购物的客户不断增加，物流仓库的包裹分拣工作日益繁重。人工智能尤其是计算机视觉技术的发展让人工分拣的场合越来越少，使用智能算法辅助物流仓库进行包裹分拣以实现仓储自动化、智能化已成为趋势。

目前用于包裹识别分拣的计算机视觉方法主要为深度学习语义分割算法，一般基于卷积神经网络或Transformer模型。卷积神经网络作为经典的深度学习方法曾经主导了计算机视觉领域，但在2021年Transformer被引入视觉领域后逐渐被取代。目前主流应用的视觉Transformer模型主要包括ViT、SETR、Deeplab系列、PSPNet和Swin Transformer等(Dosovitskiy,Alexey,et al."An image is worth 16x16 words:Transformers forimage recognition at scale."arXiv preprint arXiv:2010.11929(2020).)，尽管此类Transformer模型能够在分类任务上表现很好，但在语义分割上仍存在一些局限性：在将图像分成图块并进行嵌入操作的时候是对每个独立的图块分别操作的，并没有考虑到不同图块之间的局部连续性；SETR(Strudel,Robin,et al."Segmenter:Transformer forsemantic segmentation."Proceedings of the IEEE/CVF International Conferenceon Computer Vision.2021.)采用ViT-large作为编码器，参数和计算量非常大，对于系统的实时性有较大影响；网络结构为柱状结构，只能输出固定分辨率的特征图，分辨率较低，在轮廓等细节要求比较精细的场景效果一般；尽管Swin Transformer(Swin Transformer：Liu,Ze,et al."Swin transformer:Hierarchical vision transformer using shiftedwindows."Proceedings of the IEEE/CVF International Conference on ComputerVision.2021.)在这些局限性上做了改进，可以输出高分辨率的粗粒度特征和低分辨率的细粒度特征，但仍然采用位置编码，当测试图像与训练图像的尺寸不一致时需要使用双线性插值，导致性能损耗，或者做固定分辨率的滑动窗口测试，效率较低且不灵活；而在Deeplab系列、PSPNet等模型中，解码器设计的较为臃肿，结构复杂，也会带来计算复杂度的提高。

发明内容

本发明旨在利用目标检测和语义分割技术，提出一种基于Transformer的物流包裹分离方法用于包裹识别和分离的计算机视觉方法，实现物流系统中包裹的单件分离、流量监测与负载均衡等，主要应用于物流仓储环境的智能自动化。针对物流包裹分拣这一任务在分割精度和模型计算复杂度两个指标下进行改进。采用重叠的特征合并操作充分考虑图像的局部连续性，并且舍弃位置编码，使用基于卷积核和多层感知机的前馈网络结构来引入位置信息，最后在扩大有效感受野的前提下简化解码器结构，使得模型参数和计算复杂度大大降低，在物流包裹分拣这一任务上获得了更高的分割精度和实时性，有利于实现物流仓储环境的智能自动化。

一种基于Transformer的物流包裹分离方法，包括以下步骤：

(1)实时采集物流包裹的原始图像，选取原始包裹图像的感兴趣区域；

(2)将原始图像的感兴趣区域作为输入特征传入具有分层结构的改进的Transformer语义分割模型中，每个层级均进行如下步骤：

(21)使用重叠特征合并操作使特征图的尺度随着语义分割模型的加深而缩减，将输出的特征图映射为特征序列后传入到自注意力模块；

(22)通过自注意力模块计算注意力特征，通过线性层对序列长度进行缩减；

(23)将自注意力模块的输出特征传入前馈神经网络；所述前馈神经网络使用卷积核进行卷积操作，采用高斯误差线性单元作为激活函数，并经过全连接线性层得到多级特征；

(24)将多级特征通过线性层统一通道维数；将各级特征上采样并进行特征拼接；通过线性层融合拼接后的各级特征；

(25)将融合特征输入至感知机层，预测得到分割掩膜；

(26)对于获得的特征掩膜进行形态学开运算，得到去除噪声的二值图像；使用边缘检测算法提取用于分离的包裹边缘信息；

(3)建立运动模型，运用相关滤波方法，综合运动模型和检测模型的信息，对图像中最前方的包裹进行追踪。

进一步地，所述原始输入图像的尺寸为H×W×C，其中H为图像宽度，W为图像高度，C为图像通道数；将每张图像划分为不同的图块，图块的尺寸为7×7，划分之后的特征图维度为

进一步地，所述步骤(21)的重叠特征合并操作是将原始图像上不同的区域图块特征以尺寸为K，步长为S，填充尺寸为P进行合并，分层结构输出的特征图的维度分别为

进一步地，所述步骤(22)中当原来的特征图的序列长度为N且缩减比设定为R时，序列长度将变为

注意力机制中的key键的维度变为

C为通道数，视觉Transformer使用的多头注意力机制计算公式如下：

其中，Q、K、V分别为注意力机制中的查询Query、键Key、值Value，d_head为头部特征图维度，计算复杂度为O(n²)，而经过自注意力模块的序列长度缩减操作后复杂度降为

O(·)表示时间复杂度评估，n为输入特征序列的维度。

进一步地，所述步前馈神经网络如下：

Output＝Linear(GELU(Conv_3×3(MLP(Input))))+Input

其中，Input和Output表示该前馈神经网络的输入和输出，输入来自于自注意力模块输出的特征图，MLP表示多层感知机，Conv_3×3表示使用3×3的卷积核进行卷积操作，GELU为高斯误差线性单元。

进一步地，高斯误差线性单元公式如下：

其中，x为激活函数的输入值，

为高斯分布的概率函数，X为随机变量，P为概率函数，tanh为双曲正切函数。

进一步地，步骤(24)由基于多层感知机的解码器模块完成，在获取编码器输出的多级特征F_i后，经过一个线性层将各级特征图的通道数统一为C：

F_i,c＝Linear(C_i,C)(F_i),i＝1,2,3

其中C_i为原来的特征图F_i的通道数，F_i,c为统一通道数为C后的特征图；之后上采样为原特征图尺寸的

其中H为图像宽度，W为图像高度，

为经过上采样操作后的特征图；

将上采样得到的特征拼接起来并通过一个线性层进行融合，将拼接后的特征维度重新压缩至C：

其中F_fuse表示为该线性层输出的融合特征；

融合后的特征通过一个全连接线性层输出预测的分割掩码M：

M＝Linear(C,N_p)(F_fuse)

其中N_p为包裹个数。

进一步地，所述步骤(3)具体包括：

在传送带匀速运动的情况下建立运动模型：

其中，x_i和

表示待追踪包裹第i时刻的位置和速度，Δt表示捕获两帧图像之间的时间间隔，取状态量

则包裹状态的先验估计

及其协方差P_t ^-：

P_t ^-＝FP_t-1F^T+Q

其中，ω_t为过程噪声，且ω_t～N(0,Q)，Q为过程噪声的协方差，N(0,Q)表示均值为0、协方差为Q的高斯分布，F为状态转移矩阵，P_t-1为t-1时刻包裹状态估计x_t的协方差，根据分割结果获取最前方包裹的位置，得到观测量z_t：

z_t＝x_t+R_t＝Hx_t+v_t

其中，v_t为测量噪声，且v_t～N(0,R)，R为测量噪声的协方差，N(0,Q)表示均值为0、协方差为R的高斯分布，H为状态到观测的转移矩阵。

进一步地，所述的相关滤波的方式采用一阶卡尔曼滤波：

建立一阶卡尔曼滤波模型，有F＝H＝1，卡尔曼增益K_t为：

Q为过程噪声的协方差，权衡预测状态协方差矩阵P和观测量协方差矩阵R的大小，对包裹位置作出最优估计：

基于此最优估计更新预测状态的协方差：

P_t＝(I-K_tH)P_t ^-

最后，为保证一阶卡尔曼滤波的线性约束，逐帧对图像进行上述迭代，完成对包裹位置的追踪。

进一步地，根据输出的包裹边缘信息，以前一帧包裹边缘为边界框，在当前帧图像f上进行相关运算，设相关核为h，输出图像p，根据卷积定理可计算输出图像的频域响应图P：

其中，F(·)表示傅里叶变换，F为图像f的傅里叶变换，F(h)^*表示对相关核h先做傅里叶变换再取共轭，H^*为相关核傅里叶变换取共轭的结果，也即目标滤波器，⊙表示点积运算，

表示相关互运算；对视频第一帧的跟踪窗口施加随机的仿射扰动，产生多组图像以对滤波器H^*进行初始化：

其中，F_i为第i组仿射扰动前原图的傅里叶变换，P_i为第i组仿射扰动后图片的傅里叶变换，H_i ^*为第i组仿射扰动得到的滤波器，

由最小二乘法求取闭式解：

其中，F_i ^*表示F_i的共轭；

对滤波器H^*进行在线更新：

A_i＝ηP_i⊙F_i ^*+(1-η)A_i-1

B_i＝ηP_i⊙F_i ^*+(1-η)B_i-1

A_i、B_i分别都代表利用第i时刻的信息对滤波器H_i ^*进行更新；

对于当前帧图像，将频域响应图P变换回到时域，时域响应图中最大值对应的位置即为当前时刻预测的目标位置。

与现有的技术相比，本发明的有益效果为：

本发明提供的基于改进的Transformer算法的物流包裹分离方法与现有技术相比，具有以下优点：使用改进的Transformer算法进行语义分割，其分割性能要优于传统的卷积神经网络语义分割算法，尤其对于密集包裹的识别分割精度大大提升；在Transformer模型的基础上，使用一种不需要位置编码的具有分层结构的编码器，能够输出多尺度特征，避免了现有技术在针对实际应用时图像尺寸与训练图像尺寸不同的问题上使用位置编码插值带来的性能精度下降；在基于较大有效感受野的基础上，采用了一种新的基于多层感知机的解码器结构，大大降低模型的计算复杂度，提升了物流计算机系统对于包裹图像的分割处理速度，在时间性能上有明显优势。

附图说明

图1本发明一种基于改进的Transformer模型的物流包裹单件分离方法流程示意图；

图2本发明改进的Transformer语义分割模型结构示意图；

图3本发明输入图像分块过程示意图；

图4本发明重叠特征图分块融合过程示意图；

图5本发明一阶卡尔曼滤波追踪包裹位置过程示意图；

图6本发明实施例利用改进的Transformer模型进行图像分割的结果示意图；

图7本发明实施例利用一阶卡尔曼滤波进行包裹跟踪的结果示意图

图8本发明实施例使用MOG算法得到的分割结果示意图；

图9本发明实施例使用工业3D相机捕获的包裹深度图像示意图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

实施例1

请参阅图1和图2，本发明提供一种基于Transformer的物流包裹分离方法，包括以下步骤：

步骤1、使用相机实时采集传送带物流包裹图像，在系统内完成对于感兴趣区域的选取。在本实施例中，所述相机类型为内置深度计算芯片的工业3D相机。

步骤2、将尺寸为H×W×C的图像传入包裹分离方法的改进的Transformer语义分割模型中，如图3所示，将原始图像划分为多个图块，不同图块之间具有局部连续性。所述原始输入图像的尺寸为H×W×C，其中H为图像宽度，W为图像高度，C为图像通道数，当原始图像的为RGB图像时C＝3；将每张图像划分为不同的图块，图块的尺寸为7×7(像素)，划分之后的特征图维度为

相比于传统视觉Transformer使用的16×16的图块尺寸，本模型采用更小的图块尺寸以适应包裹分拣这种更加密集的分割任务。

在本实施例中，输入图像分块大小K＝7，填充大小P＝3，分块步长S＝4，图像尺寸变为

将图像送入Transformer的分层结构中，每经过一个Transformer模块，都将当前的特征图作为输出传入解码器，共采用三个Transformer模块(即三个层级)，即共计算三级不同的分辨率特征图，每个层级均进行如下步骤：

步骤3、使用重叠特征合并操作使特征图的尺度随着网络的加深而缩减，扩大有效感受野，将输出的特征图映射为特征序列后传入到自注意力模块；

所述步骤(3)的重叠特征合并操作将原始图像上不同的区域图块特征以尺寸为K，步长为S，填充尺寸为P进行合并，从而减小特征图的宽度和高度，增加深度，三个层级输出的特征图的维度分别为

重叠特征合并操作充分考虑了特征图上不同区域之间的局部连续性，同时随着网络的加深增大有效感受野。

步骤4、通过Transformer自注意力模块计算注意力特征。在传统的视觉Transformer的注意力机制上通过线性层对序列长度进行缩减，降低计算复杂度；

步骤5、将自注意力模块的输出特征传入前馈神经网络，并使用一个3×3的卷积核进行卷积操作代替传统视觉Transformer中使用的位置编码，采用高斯误差线性单元(GELU)作为激活函数，并经过一个全连接线性层得到编码特征；编码器分层操作结束；以下步骤由解码器部分完成：

步骤6、将编码器输出的多级特征F_i通过一层线性层统一通道维数；将各级特征上采样并进行特征拼接；通过一层线性层融合拼接后的各级特征；

步骤7、将融合特征输入至一层感知机层，预测得到分割掩膜M，其维度大小为

N_p为包裹个数；

步骤8、对于获得的特征掩膜进行形态学开运算，得到去除噪声的二值图像；使用边缘检测算法提取用于分离的包裹边缘信息。

步骤9、建立传送带运动模型，如图5所示，运用卡尔曼滤波方法，综合运动模型和本发明改进的Transformer语义分割模型的信息，对图像中最前方的包裹进行追踪，提高包裹分割的精度和分拣的鲁棒性。

本发明所述的重叠特征合并操作是对特征图进行边缘填充，以一定的大小和步长将特征图划分为多个图块以进行合并，所述步骤3的特点如下：

如图4所示，对自注意力模块输出的序列进行分块融合。在本实施例中，三个Transformer模块均使用参数K＝3，S＝2，P＝1，逐层减小特征图的宽度和高度，增加深度，三个层级输出的特征图的维度分别为

所述步骤4中，当原来的序列长度为N且缩减比设定为R时，序列长度将变为

注意力机制中的键(key)的维度变为

其中，Q、K、V分别为注意力机制中的查询Query、键Key、值Value，d_head为头部特征图维度，计算复杂度为O(n²)，而经过自注意力模块)的序列长度缩减操作后复杂度降为

O(·)为大O表示法，是国际通用的时间复杂度评估方法，n为输入特征序列的维度。

所述步骤5中使用前馈神经网络代替传统视觉Transformer中的位置编码，可以避免由于位置编码而需要进行插值带来的精度下降问题，该前馈神经网络的计算公式如下：

Output＝Linear(GELU(Conv_3×3(MLP(Input))))+Input

其中，Input和Output表示该前馈神经网络的输入和输出，输入来自于自注意力模块输出的特征图，MLP表示多层感知机，由多个线性层组成，Conv_3×3表示使用3×3的卷积核进行卷积操作，GELU为高斯误差线性单元，公式如下：

其中，x为激活函数的输入值，此处为前馈神经网络的输入经过多层感知机后的输出，

为高斯分布的概率函数，X为随机变量，P为概率函数，tanh为双曲正切函数；

所述步骤6由基于多层感知机的解码器模块完成，在获取编码器输出的各级特征F_i,(i＝1,2,3)后，经过一个线性层将各级特征图的通道数统一为C：

F_i,c＝Linear(C_i,C)(F_i),i＝1,2,3

其中H为图像宽度，W为图像高度，

为经过上采样操作后的特征图；

其中F_fuse表示为该线性层输出的融合特征；

融合后的特征通过一个全连接线性层输出预测的分割掩码M：

M＝Linear(C,N_p)(F_fuse)

其中N_p为包裹个数。本实施例通过改进的Transformer算法得到的分割掩码M的效果如图6所示。

最后，本实施例中借助OpenCV开源工具，对分割结果M进行开运算去噪处理，并使用边缘检测算法提取出包裹的边缘信息。本实施例对分割算法进行了精度评估，结果如表1。

表1分割精度评估

所述步骤(9)在传送带匀速运动的情况下建立运动模型：

其中，x_i和

表示待追踪包裹第i时刻的位置和速度，Δt表示捕获两帧图像之间的时间间隔。取状态量

则包裹状态的先验估计

及其协方差P_t ^-：

P_t ^-＝FP_t-1F^T+Q

其中，ω_t为过程噪声，且ω_t～N(0,Q)，Q为过程噪声的协方差，N(0,Q)表示均值为0、协方差为Q的高斯分布，F为状态转移矩阵，P_t-1为t-1时刻包裹状态估计x_t的协方差。

系统由分割结果获取最前方包裹的位置，得到观测量z_t：

z_t＝x_t+R_t＝Hx_t+v_t

由于传送带匀速运动，建立一阶卡尔曼滤波模型，有F＝H＝1，卡尔曼增益K_t为：

如图5所示，权衡预测状态协方差矩阵P和观测量协方差矩阵R的大小，对包裹位置作出最优估计：

基于此最优估计更新预测状态的协方差：

P_t＝(I-K_tH)P_t ^-

在本实施例中，使用高精度的工业3D相机，因此观测器精度较高，调优参数时适当减小超参数R，使得卡尔曼增益K_t增大，模型更偏向高精度的观测结果。

最后，为保证一阶卡尔曼滤波的线性约束，逐帧对图像进行上述迭代，对状态变量赋予初值

为第一帧检测到包裹的位置，协方差P₀＝1，完成对包裹位置的追踪。本实施例通过一阶卡尔曼滤波进行包裹追踪的效果如图7所示。

实施例2

在部分物流包裹分拣系统中，传送带的状态是保持不变的，由顶部相机捕捉到的视频流中，相邻帧组成的图片组中背景几乎不变，故可将上述步骤2～步骤7的分割方式更换为高斯混合模型分离算法(MOG)，以增强包裹检测的实时性。本实施例借助OpenCV开源库实现，通过调节参数以适应算法对阴影的检测，排除图像中阴影区域的干扰，从而更关注包裹实际的特征，具体有如下步骤：1)对实施例1中由相机捕获的图像进行中值滤波去除噪声；2)将图像矩阵置入GPU以加速检测过程；3)使用MOG算法分割图像，得到分割掩码M′；4)对M′做二值化处理，并通过形态学开运算减少轮廓间的粘连；5)使用边缘检测算法提取出包裹的边缘信息。

由边缘信息进行包裹跟踪的流程与实施例1保持一致。上述过程使用混合高斯模型拟合图像的概率分布，代替了实例1中基于深度学习的分割模型，图8所示为MOG算法得到的分割掩码M′，可见在背景稳定的情况下达到良好的检测精度。通过上述改进，本发明提供的一种基于改进的Transformer的物流包裹单件分离方法能够应用传统的图像处理技术对包裹进行实时分割，在硬件设备难以高效完成深度学习推理的情况下，本方法依然能够精准地完成物流包裹的单件分离任务。

实施例3

由于本实施例使用内置深度计算芯片的工业3D相机，故可以利用图像的深度信息进行前景分割，增强包裹检测的鲁棒性。本实施例使用的工业3D相机可自动计算深度信息，输出深度图像。如图9所示，为本实施例中使用深度相机捕获的包裹深度图像。使用深度信息进行包裹分割的基本思路是通过深度图的梯度来判别轮廓，若相邻两个区域内深度差异较大，则边界处的梯度将会很大，可提取为轮廓。本实施例借助OpenCV开源库实现，具体有如下步骤：1)对深度图做形态学闭运算，减少图像中的空洞；2)利用Sobel算子求取深度图像在X、Y方向的梯度，并做绝对值处理以消除负梯度的影响，得到梯度图像；3)对梯度图像做二值化处理，将梯度超过阈值的像素检测为边缘，得到包裹的边缘信息。

由边缘信息进行包裹跟踪的流程与实施例1保持一致。经实验调试，本实施例在二值化处理中，以60为阈值可以取得良好的效果。本实施例中的Sobel算子不仅集合了高斯平滑和一阶微分的功能，还兼备处理速度快的优点，使用深度信息进行分割可达到良好的实时性。通过上述改进，本发明提供的一种基于改进的Transformer的物流包裹单件分离方法能够应用于装配有深度相机的仓储系统，在硬件设备难以高效完成深度学习推理的情况下，本方法依然能够精准地完成物流包裹的单件分离任务。

实施例4

本实施例的一种基于Transformer的物流包裹分离方法，首先使用深度相机实时采集包裹图像，选取感兴趣区域，随后将图像送入一个改进的Transformer语义分割模型。模型将接收的图像划分为多个图块并将图块传入分层编码器，该编码器利用重叠特征合并操作、前馈神经网络结合自注意力机制输出不同分辨率的多级图像特征。在获得多级图像特征后，使用一个轻量级的基于多层感知机的解码器进行特征拼接和融合，预测出图像的包裹分割掩码信息。对于该掩码信息进行图像形态学后处理，提取出所有包裹的边缘信息，获取当前时刻包裹在传送带上的分布情况。最后，对包裹在传送带上的分布情况进行统计，获取在传送带最前方的包裹作为目标包裹，将此目标包裹信息作为卡尔曼滤波目标跟踪环节的更新输入，并将目标包裹的位置等信息按上下位机约定的通信协议发送给流水线分离方法，从而实现对于物流包裹的单件分拣。

在部分物流包裹分拣系统中，传送带并非匀速运动，当传送带进行加速运动时，若使用实施例1中的一阶卡尔曼滤波，则无法考虑加速度输入带来的影响，影响包裹追踪的效果，对于小件包裹的后续分拣工作造成困难。针对这种情况，将实施例1中的一阶卡尔曼滤波改为MOSSE算法，使用相关滤波的方式对包裹进行追踪。

在大多数物流包裹分离应用场景中，包裹的大小、形状几乎不产生变化，因此基于信号相关性的滤波算法具有很强的鲁棒性。具体地，结合实施例1中输出的包裹边缘信息，以前一帧包裹边缘为边界框，在当前帧图像f上进行相关运算，设相关核为h，输出图像p，根据卷积定理可计算输出图像的频域响应图P：

表示相关互运算。对视频第一帧的跟踪窗口施加随机的仿射扰动，产生多组图像以对滤波器H^*进行初始化：

由最小二乘法求取闭式解：

其中，F_i ^*表示F_i的共轭。

之后，由于目标包裹会不断发生改变，因此对滤波器H^*进行在线更新：

A_i＝ηG_i⊙F_i ^*+(1-η)A_i-1

B_i＝ηF_i⊙F_i ^*+(1-η)B_i-1

A_i、B_i分别都代表利用第i时刻的信息对滤波器H_i ^*进行更新。

在本实施例中，取更新率η＝0.125。最后，对于当前帧图像，将频域响应图P变换回到时域，时域响应图中最大值对应的位置即为当前时刻预测的目标位置。迭代上述过程，即可实现对目标包裹的跟踪。通过上述改进，本发明提供的一种基于改进的Transformer的物流包裹单件分离方法能够应用于多种传送带运动状态的情况，即使传送带进行非匀速运动，本方法依然能够精准地完成对目标包裹的跟踪。

上述实施例仅用于详细阐述以帮助理解本发明的技术方案，对本领域技术人员而言，在不脱离本发明原理的前提下做出的任何改进与替换，均属于本发明的保护范围。