CN115018711B

CN115018711B - 一种用于仓库调度的图像超分辨率重建方法

Info

Publication number: CN115018711B
Application number: CN202210830018.9A
Authority: CN
Inventors: 麻亮; 左柳波; 刘啸; 李一航; 刘欢; 帅科; 唐清霖; 刘鹏
Original assignee: Chengdu Yunlitchi Technology Co ltd
Current assignee: Chengdu Yunlitchi Technology Co ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-25
Anticipated expiration: 2042-07-15
Also published as: CN115018711A

Abstract

本发明公开了一种用于仓库调度的图像超分辨率重建方法，属于人工智能和图像处理技术领域，包括训练深度学习网络，头级卷积层对场景图像进行卷积运算，依次利用各个多头特征映射模块对特征图进行操作，图像重建单元对特征图进行上采样，输出得到重建后的重置图像等步骤。本发明的注意力机制信息来源不仅有本模块内部的多尺度特征信息，还有部分直接来自其上游多头特征映射模块输出的特征信息，复杂场景图像中干扰信息对注意力机制的影响小，内部特征信息具有很好的连贯性，各个模块输出的特征图中特征信息的抽象程度低，重建效果优于现有的先进模型。

Description

一种用于仓库调度的图像超分辨率重建方法

技术领域

本发明属于仓库和人工智能技术领域，具体地说，涉及一种用于仓库调度的图像超分辨率重建方法。

背景技术

现代化的仓库中，安装在顶部的摄像头能够实时获取仓库内部的影像，利用计算机视觉技术可以对仓库中的货物、叉车和操作人员等目标进行识别和追踪，与大数据等技术结合，实现对仓库作业的自动化控制和智能调度。精准的图像识别依赖于高质量的图像输入，但在仓库这样的应用场景中，识别的目标对象多种多样，场景变化也比较复杂，在一些情况下，目标距离摄像头较远，获取的目标对象图像分辨率低，限制了识别和追踪的准确率。

发明内容

针对现有技术中上述的不足，本发明提供了一种用于仓库调度的图像超分辨率重建方法，通过对一些低分辨率图像进行重建，提高图像质量，进而提高对目标对象的识别和追踪准确率。

为了达到上述目的，本发明采用的解决方案是：一种用于仓库调度的图像超分辨率重建方法，包括以下步骤：

S100、获取深度学习网络，利用训练集对所述深度学习网络进行训练；所述深度学习网络包括依次设置的头级卷积层、深层特征抽取单元和图像重建单元，所述深层特征抽取单元包括顺次连接的多个多头特征映射模块；

S200、获取待重建的场景图像，将所述场景图像输入步骤S100中训练好的深度学习网络，经过所述头级卷积层对所述场景图像进行卷积运算后，输出得到具象特征图；

S300、将所述具象特征图输入所述深层特征抽取单元，依次利用各个所述多头特征映射模块对特征图进行操作后，所述深层特征抽取单元输出抽象特征图；

所述多头特征映射模块对特征图的操作过程表示为如下数学模型：

其中，W_n-1表示从第一端口输入多头特征映射模块的特征图，H_n-1表示从第二端口输入多头特征映射模块的特征图，U_n-1表示从第三端口输入多头特征映射模块的特征图，对于第一个多头特征映射模块，从其第一端口、第二端口和第三端口输入的特征图均为具象特征图；f31()、f32()、f51()和f52()均表示普通的卷积运算处理层，f31()和f32()的卷积核大小为3*3，f51()和f52()的卷积核大小为5*5，ρ¹()、ρ²()、ρ³()和ρ⁴()均代表非线性激活函数ReLU，M1表示经过ρ¹()函数激活后输出得到的特征图，M2表示经过ρ²()函数激活后输出得到的特征图，f_LA()表示左翼注意力模块，LG表示左翼注意力模块输出的左翼调制图，f_RA()表示右翼注意力模块，RG表示右翼注意力模块输出的右翼调制图，×表示元素对应乘积，[·]表示将其中的特征图做拼接操作，M3表示左翼调制图校准特征图M1、右翼调制图校准特征图M2后拼接得到的特征图，f_TM()表示中路特征整合模块，W_n表示从多头特征映射模块的第四端口输出的特征图，W_n作为下游多头特征映射模块第一端口的输入，H_n表示从多头特征映射模块的第五端口输出的特征图，H_n作为下游多头特征映射模块第二端口的输入，U_n表示从多头特征映射模块的第六端口输出的特征图，U_n作为下游多头特征映射模块第三端口的输入；

S400、将所述抽象特征图输入所述图像重建单元，所述图像重建单元对特征图进行上采样，并输出重建后的重置图像，所述重置图像的分辨率大于所述场景图像。

进一步地，所述深度学习网络中设有长跳跃连接，所述具象特征图经所述长跳跃连接输入到所述深层特征抽取单元与所述图像重建单元之间，所述具象特征图与所述抽象特征图相加后，再输入所述图像重建单元。

进一步地，所述中路特征整合模块对特征图的运算过程表示为如下数学模型：

其中，特征图W_n和特征图U_n共同作为所述中路特征整合模块的输入，W_n表示从多头特征映射模块的第四端口输出的特征图，U_n表示从多头特征映射模块的第六端口输出的特征图，[·]表示将其中的特征图在通道方向上拼接，f^J1()和f^J3()分别表示卷积核大小为1*1的卷积操作和卷积核大小为3*3的卷积操作，T₁()和T₂()均表示Tanh激活函数，JO表示T₁()函数激活后输出得到的特征图，JE表示特征图W_n与特征图U_n作差后生成得到的特征图，JM代表所述中路特征整合模块输出的特征图。

进一步地，所述左翼注意力模块按照如下数学公式对特征图进行操作：

其中，特征图M1+M2和特征图W_n-1共同作为左翼注意力模块的输入，W_n-1表示从第一端口输入多头特征映射模块的特征图，MAV()、MEV()和VAV()分别表示对特征图做全局最大池化操作、全局平均池化操作和全局方差池化操作，MAV()、MEV()和VAV()池化操作的方向均沿着通道方向；分别对特征图M1+M2沿着通道方向做全局最大池化操作和全局平均池化操作后得到第一矩阵和第二矩阵，S1表示将第一矩阵与第二矩阵作差后得到的第三矩阵；分别对特征图W_n-1沿着通道方向做全局最大池化操作和全局平均池化操作后得到第四矩阵和第五矩阵，S2表示将第四矩阵与第五矩阵作差后得到的第六矩阵；分别对特征图M1+M2和特征图W_n-1沿着通道方向做全局方差池化操作后得到第七矩阵和第八矩阵，S3表示将第七矩阵与第八矩阵相加后得到的第九矩阵；f_W()表示卷积核大小为1*1的卷积运算，θ_W()为非线性激活函数sigmoid，[·]表示将其中的特征图拼接，LG表示所述左翼注意力模块输出的左翼调制图。

进一步地，所述右翼注意力模块按照如下数学公式对特征图进行操作：

其中，特征图M1+M2和特征图U_n-1共同作为右翼注意力模块的输入，U_n-1表示从第三端口输入多头特征映射模块的特征图，MAV()、MEV()和VAV()分别表示对特征图做全局最大池化操作、全局平均池化操作和全局方差池化操作，MAV()、MEV()和VAV()池化操作的方向均沿着通道方向；分别对特征图M1+M2沿着通道方向做全局最大池化操作和全局平均池化操作后得到第一矩阵和第二矩阵，S1表示将第一矩阵与第二矩阵作差后得到的第三矩阵；分别对特征图U_n-1沿着通道方向做全局最大池化操作和全局平均池化操作后得到第十矩阵和第十一矩阵，C1表示将第十矩阵与第十一矩阵作差后得到的第十二矩阵；分别对特征图M1+M2和特征图U_n-1沿着通道方向做全局方差池化操作后得到第七矩阵和第十三矩阵，C2表示将第七矩阵与第十三矩阵相加后得到的第十四矩阵；f_U()表示卷积核大小为1*1的卷积运算，θ_U()为非线性激活函数sigmoid，[·]表示将其中的特征图拼接，RG表示所述右翼注意力模块输出的右翼调制图。

进一步地，所述图像重建单元包括串联设置的上采样组件和输出卷积层，所述上采样组件包括顺次连接的重建卷积层、ReLU激活层和亚像素卷积层。

本发明的有益效果是：

（1）为了使深度学习网络能够很好地提取各种仓库复杂场景下的低分辨率图像特征，本发明的多头特征映射模块内部采用了多尺度的特征提取结构，以获取不同尺度下的特征信息，并采用左翼注意力模块和右翼注意力模块分别对不同的特征信息进行校准，网络能够更好地聚焦高频信息区域，特征抽取效果好；

（2）注意力机制的信息来源中，不仅有本模块内部的多尺度特征信息（M1+M2），还有部分直接来自其上游多头特征映射模块输出的特征信息（W_n-1或U_n-1），这样适当地增大一点注意力机制的关注范围，可以降低复杂场景图像中干扰信息对注意力机制的影响，降低注意力机制对特征图产生错误调制的概率，同时也增强了不同多头特征映射模块内部特征信息的连贯性，减少有用信息丢失；

（3）对于中路特征整合模块，同时采用拼接降维和作差两种方式融合特征图W_n和特征图U_n，这样可以有效地去除两个特征图中多种形式的重复低频信息，避免高频信息淹没在大量重复无用的低频信息中，降低后续多头特征映射模块提取有效特征的难度，提高特征提取效果；

（4）在多头特征映射模块中，还利用左翼调制图和右翼调制图相加得到的注意力图去校准中路特征整合模块输出的特征图，使得输出的特征图H_n中特征信息的抽象程度更低，信息的层级与低层次的图像超分辨重建任务（相对图像识别而言）更加匹配，有利于提升最终重建得到的图像质量。

附图说明

图1为本发明的深度学习网络整体架构示意图；

图2为图1所示深度学习网络中多头特征映射模块的内部结构示意图；

图3为图2所示多头特征映射模块中左翼注意力机构或右翼注意力机构的内部结构示意图；

图4为图2所示多头特征映射模块中中路特征整合模块的内部结构示意图；

图5为图2所示多头特征映射模块中图像重建单元的内部结构示意图；

图6为对比例1中修改后的多头特征映射模块的内部结构示意图；

图7为对比例2中修改后的多头特征映射模块的内部结构示意图；

附图中：

1-场景图像，2-头级卷积层，3-深层特征抽取单元，4-图像重建单元，41-重建卷积层，42-ReLU激活层，43-亚像素卷积层，44-输出卷积层，5-多头特征映射模块，51-第一端口，52-第二端口，53-第三端口，54-第四端口，55-第五端口，56-第六端口，57-左翼注意力模块，58-右翼注意力模块，59-中路特征整合模块，6-重置图像，7-长跳跃连接。

具体实施方式

以下结合附图对本发明作进一步描述：

实施例：

在计算机上通过编程搭建图1所示的深度学习网络，该深度学习网络包括依次设置的头级卷积层2、深层特征抽取单元3和图像重建单元4。头级卷积层2用于提取场景图像1的浅层特征信息，所以采用普通卷积操作实现，其卷积核的大小为3*3，输出具象特征图通道数量为48。深层特征抽取单元3包括顺次连接的五个多头特征映射模块5，多头特征映射模块5的内部结构如图2所示，多头特征映射模块5上设有六个端口，其中第一端口51、第二端口52、第三端口53为信息输入端口，上游多头特征映射模块5输出的特征信息通过该三个端口输入。第四端口54、第五端口55、第六端口56为信息输出端口，用于向下游多头特征映射模块5输出特征图。抽象特征图为最后一个多头特征映射模块5第五端口55输出的特征图，最后一个多头特征映射模块5的第四端口54和第六端口56单独输出的特征图则不再向后传递。f31()和f51()卷积运算不改变特征图尺寸，输出特征图通道数量为48，拼接后得到的M3特征图通道数量为96，经过f32()和f52()卷积运算后，得到的特征图W_n和特征图U_n通道数量重新降为48。

如图4所示，特征图W_n和特征图U_n输入中路特征整合模块59后，一方面，两者拼接得到通道为96的特征图，然后利用1*1卷积将通道数量降为48，激活后得到特征图JO。另一方面，两个特征图直接作差，同样得到通道数量为48的特征图JE。最后，再次拼接、卷积和激活，输出得到通道数量为48的特征图JM。

左翼注意力模块57和右翼注意力模块58均为空间注意力模块，它们内部对特征图的操作过程几乎是一样的。请参考图3，输入的特征图M1+M2通道数量为48，经过通道方向的全局最大池化操作、全局方差池化操作和全局平均池化操作后，分别得到一个二维的矩阵。特征图W_n-1和特征图U_n-1输入注意力模块后，操作过程与特征图M1+M2相同。然后经过加减法操作后，得到两个矩阵并拼接起来，再利用1*1卷积将通道数量降为1，经过sigmoid函数激活后，得到左翼调制图或右翼调制图。

为了避免特征消失，深度学习网络中设有长跳跃连接7，具象特征图经长跳跃连接7输入到深层特征抽取单元3与图像重建单元4之间，具象特征图与抽象特征图相加后，再输入图像重建单元4。如图5所示，图像重建单元4包括串联设置的上采样组件和输出卷积层44，上采样组件包括顺次连接的重建卷积层41、ReLU激活层42和亚像素卷积层43，重建卷积层41和输出卷积层44的卷积核大小均为3*3。一个上采样组件只将特征图的长宽尺寸增大两倍，所以上采样组件的数量需要根据对场景图像1的上采样倍数确定。当上采样倍数为2时，上采样组件数量为1，当上采样倍数为4时，上采样组件数量为2，当上采样倍数为8时，上采样组件数量为3，以此类推。对于上采样组件内部，重建卷积层41输出特征图通道数量为输入时的4倍，重建卷积层41前后特征图长宽尺寸保持不变。亚像素卷积层43输出特征图的长宽尺寸为输入时的两倍，通道数量则变为输入时的四分之一。最后特征图经输出卷积层44卷积运算后，输出得到通道数量为3的重置图像6。

截取仓库中各种目标的高清监控影像，一共1400张，通过双三次下采样获得这些图像对应的低分辨率图像。随机选取1000张高清影像及其对应的低分辨率图像组成训练集，剩下的400张高清影像及其对应的低分辨率图像作为测试集。然后利用训练集训练深度学习网络，训练过程中，采用L1损失函数对网络中的参数进行优化。为了更好地说明本发明所提出网络的性能，本实施例还采用相同的训练集对现有的先进模型SAN和CARN进行训练，三个模型训练完成后，在相同测试集上的测试结果如下：

表1 实施例1、SAN模型和CARN模型在测试集上的测试结果

PSNR和SSIM的结果越大，表明重建后的图像质量越好，如表1所示，本发明所提供的图像重建方法相对现有技术取得了明显的进步，能够更好地重建出仓库内复杂的场景影像。

对比例1：

为了证明中路特征整合模块59在深度学习网络中的作用，对比例1在实施例的基础上对深度学习网络进行了修改，以常规的求和方式融合特征图W_n和特征图U_n（修改后的多头特征映射模块5结构如图6所示），网络的其他部分保持与实施例完全相同。采用与实施例相同的训练和测试过程对修改后的网络进行训练和测试，结果如下：

表2 对比例1在测试集上的测试结果

如表2所示，通过对比数据可以看出，采用中路特征整合模块59融合特征图W_n和特征图U_n后，重建图像在PSNR和SSIM两个参数上的测量结果均高于对比例1。

对比例2：

为了证明左翼调制图和右翼调制图相加得到的注意力图去校准特征图JM的作用效果，对比例2在实施例的基础上对深度学习网络进行了修改，对比例2中去掉了对特征图JM的校准，修改后的多头特征映射模块5结构如图7所示，网络的其他部分保持与实施例完全相同。采用与实施例相同的训练和测试过程对修改后的网络进行训练和测试，结果如下：

表3 对比例2在测试集上的测试结果

如表3所示，通过对比数据可以看出，利用左翼调制图和右翼调制图相加得到的注意力图去校准特征图JM后，重建图像在PSNR和SSIM两个参数上的测量结果均得到了明显的提高，说明利用左翼调制图和右翼调制图相加得到的注意力图去校准特征图JM能够明显提高网络重建图像的质量。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种用于仓库调度的图像超分辨率重建方法，其特征是：包括以下步骤：

其中，W_n-1表示从第一端口输入多头特征映射模块的特征图，H_n-1表示从第二端口输入多头特征映射模块的特征图，U_n-1表示从第三端口输入多头特征映射模块的特征图，f31()、f32()、f51()和f52()均表示普通的卷积运算处理层，f31()和f32()的卷积核大小为3*3，f51()和f52()的卷积核大小为5*5，ρ¹()、ρ²()、ρ³()和ρ⁴()均代表非线性激活函数ReLU，M1表示经过ρ¹()函数激活后输出得到的特征图，M2表示经过ρ²()函数激活后输出得到的特征图，f_LA()表示左翼注意力模块，LG表示左翼注意力模块输出的左翼调制图，f_RA()表示右翼注意力模块，RG表示右翼注意力模块输出的右翼调制图，×表示元素对应乘积，[·]表示将其中的特征图做拼接操作，M3表示左翼调制图校准特征图M1、右翼调制图校准特征图M2后拼接得到的特征图，f_TM()表示中路特征整合模块，W_n表示从多头特征映射模块的第四端口输出的特征图，W_n作为下游多头特征映射模块第一端口的输入，H_n表示从多头特征映射模块的第五端口输出的特征图，H_n作为下游多头特征映射模块第二端口的输入，U_n表示从多头特征映射模块的第六端口输出的特征图，U_n作为下游多头特征映射模块第三端口的输入；

2.根据权利要求1所述的用于仓库调度的图像超分辨率重建方法，其特征是：所述深度学习网络中设有长跳跃连接，所述具象特征图经所述长跳跃连接输入到所述深层特征抽取单元与所述图像重建单元之间，所述具象特征图与所述抽象特征图相加后，再输入所述图像重建单元。

3.根据权利要求1所述的用于仓库调度的图像超分辨率重建方法，其特征是：所述中路特征整合模块对特征图的运算过程表示为如下数学模型：

其中，特征图W_n和特征图U_n共同作为所述中路特征整合模块的输入，[·]表示将其中的特征图在通道方向上拼接，f^J1()和f^J3()分别表示卷积核大小为1*1的卷积操作和卷积核大小为3*3的卷积操作，T₁()和T₂()均表示Tanh激活函数，JO表示T₁()函数激活后输出得到的特征图，JE表示特征图W_n与特征图U_n作差后生成得到的特征图，JM代表所述中路特征整合模块输出的特征图。

4.根据权利要求1所述的用于仓库调度的图像超分辨率重建方法，其特征是：所述左翼注意力模块按照如下数学公式对特征图进行操作：

其中，特征图M1+M2和特征图W_n-1共同作为左翼注意力模块的输入，MAV()、MEV()和VAV()分别表示对特征图做全局最大池化操作、全局平均池化操作和全局方差池化操作，MAV()、MEV()和VAV()池化操作的方向均沿着通道方向；分别对特征图M1+M2沿着通道方向做全局最大池化操作和全局平均池化操作后得到第一矩阵和第二矩阵，S1表示将第一矩阵与第二矩阵作差后得到的第三矩阵；分别对特征图W_n-1沿着通道方向做全局最大池化操作和全局平均池化操作后得到第四矩阵和第五矩阵，S2表示将第四矩阵与第五矩阵作差后得到的第六矩阵；分别对特征图M1+M2和特征图W_n-1沿着通道方向做全局方差池化操作后得到第七矩阵和第八矩阵，S3表示将第七矩阵与第八矩阵相加后得到的第九矩阵；f_W()表示卷积核大小为1*1的卷积运算，θ_W()为非线性激活函数sigmoid，[·]表示将其中的特征图拼接，LG表示所述左翼注意力模块输出的左翼调制图。

5.根据权利要求1所述的用于仓库调度的图像超分辨率重建方法，其特征是：所述右翼注意力模块按照如下数学公式对特征图进行操作：

其中，特征图M1+M2和特征图U_n-1共同作为右翼注意力模块的输入，MAV()、MEV()和VAV()分别表示对特征图做全局最大池化操作、全局平均池化操作和全局方差池化操作，MAV()、MEV()和VAV()池化操作的方向均沿着通道方向；分别对特征图M1+M2沿着通道方向做全局最大池化操作和全局平均池化操作后得到第一矩阵和第二矩阵，S1表示将第一矩阵与第二矩阵作差后得到的第三矩阵；分别对特征图U_n-1沿着通道方向做全局最大池化操作和全局平均池化操作后得到第十矩阵和第十一矩阵，C1表示将第十矩阵与第十一矩阵作差后得到的第十二矩阵；分别对特征图M1+M2和特征图U_n-1沿着通道方向做全局方差池化操作后得到第七矩阵和第十三矩阵，C2表示将第七矩阵与第十三矩阵相加后得到的第十四矩阵；f_U()表示卷积核大小为1*1的卷积运算，θ_U()为非线性激活函数sigmoid，[·]表示将其中的特征图拼接，RG表示所述右翼注意力模块输出的右翼调制图。

6.根据权利要求1所述的用于仓库调度的图像超分辨率重建方法，其特征是：所述图像重建单元包括串联设置的上采样组件和输出卷积层，所述上采样组件包括顺次连接的重建卷积层、ReLU激活层和亚像素卷积层。