CN115115522A

CN115115522A - 一种货架商品图像拼接方法及系统

Info

Publication number: CN115115522A
Application number: CN202210976559.2A
Authority: CN
Inventors: 潘�清; 曾波波; 朱锦涛; 陆飞; 方路平
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-09-27

Abstract

本发明提供了一种货架商品图像拼接方法及系统，本发明先将两张货架商品图像A和B输入至一训练好的深度单应性估计网络，获得估计的单应性矩阵H；依据单应性矩阵H对货架商品图像B进行形变，得到对应的形变图像C；再将得到的形变图像C与货架商品图像A进行拼接融合，最后进行特征优化，增强图像质量，得到高分辨率的拼接图像E。本发明采用了一个由特征提取模块、特征相关层、回归模块组成的深度单应性估计网络来对两幅图像之间的单应性进行预测，大大减少了拼接图像中的伪影现象，提高了图像质量。本发明模型具有拼接任意尺寸输入图像的功能，解决了货架输入图像尺寸多样的难题。

Description

一种货架商品图像拼接方法及系统

技术领域

本发明涉及计算机视觉中的图像拼接领域，具体为一种基于深度神经网络的货架商品图像拼接方法及系统。

背景技术

在零售行业中，消费品生产企业为了更好地得悉商品在货架上的陈列情况，从而更好地洞察市场以制定市场营销管理上的决策，往往会通过店铺货架拍摄图像来分析货架上摆放商品的种类以及摆放位置，得出不同商品在该店铺的铺货率、排面数等信息，判定是否符合生产企业的要求。而对于货架这种拍摄空间相对狭窄，且具有宽视角、包含内容多的场景来说，通过单张图像拍摄来包含所有商品是比较困难的。因此想要得到超宽视角且高分辨率的图像，直接利用镜头获取便很困难，需要通过图像拼接技术来完成。

图像拼接是指将多张相似视角下具有重叠区域的图像进行无缝衔接，组合成一张超宽视角图像。近年来，深度神经网络得益于其强大的特征提取能力，在计算机视觉领域得到了快速发展，越来越多的研究者将深度神经网络应用于图像拼接。但是，在拍摄货架商品图像过程中，由于不同的拍摄角度会得到具有大视差的图像，这种大视差图像进行拼接后会出现伪影以及拉伸现象；此外，目前流行的基于深度神经网络的图像拼接方法通过训练得到的模型，只适合于处理与训练集尺寸相同的图像，而对于任意尺寸大小的图像，在推理阶段的效果不尽如意。

发明内容

在货架图像拼接的场景中，由于拍摄角度问题，会得到具有大视差的图像，这种大视差图像进行拼接后会出现伪影以及拉伸现象。针对于上述问题，本发明提供了一种基于深度学习模型的货架商品图像拼接方法，用于处理货架图像拼接任务，并解决由于拍摄角度带来的拼接图像模糊问题，使得拼接过程更加方便和高效。

本发明解决其技术问题所采用的技术方案是：

一种货架商品图像拼接方法，包括：

(1)获取待拼接的两张货架商品图像A和B；

(2)将两张货架商品图像A和B输入至一训练好的深度单应性估计网络，获得估计的单应性矩阵H；依据单应性矩阵H对货架商品图像B进行形变，得到对应的形变图像C；所述深度单应性估计网络由依次连接的n个特征处理模块、全局特征相关层和回归网络模块组成，其中：特征处理模块用于依据输入的图像提取特征；全局特征相关层用于对第n个特征处理模块输出的货架商品图像A和B对应的特征图进行每个特征点的相关性计算；回归网络模块用于依据全局特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H；所述训练好的深度单应性估计网络是基于获取的训练数据集，以训练数据集的每一样本对作为输入，最小化预测的单应性矩阵H与真值的误差为目标训练获得；

(3)将步骤(2)得到的形变图像C与货架商品图像A进行拼接融合，得到融合后的图像D；

(4)对步骤(3)获得的图像D进行特征优化，增强图像质量，得到高分辨率的拼接图像E。

进一步地，所述深度单应性估计网络还包括n-2个局部特征相关层和n-2个回归网络模块，其中，第n-1个回归网络模块用于依据全局特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H；第n-2个局部特征相关层用于对第n-2个特征处理模块输出的货架商品图像A的特征图和依据第n个回归网络模块输出的单应性矩阵H对第n个特征处理模块输出的货架商品图像B对应的特征图进行形变后的特征图F_B’^{1/(2^(n-2))}进行每个特征点的相关性计算；第n-2个回归网络模块用于依据第n-2个局部特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H；以此类推，直至第1个回归网络模块依据第1个局部特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H。

进一步地，所述步骤(3)具体为：

将步骤(2)得到的形变图像C与货架商品图像A输入至一训练好的编码器-解码器网络进行拼接融合，得到融合后的图像D；所述编码器-解码器网络包括编码器和解码器，编码器用于依据输入的步骤(2)得到的形变图像C与货架商品图像A，重建两幅图像中重叠区域的特征；解码器用于依据编码器输出的特征解码，同时恢复非重叠区域，得到融合后的图像D。

进一步地，所述步骤(4)具体为：

将步骤(3)获得的图像D输入至一训练好的优化分支进行特征优化，增强图像质量，得到高分辨率的拼接图像E；所述优化分支由依次连接的第一卷积层、多个深度残差块和多个第二卷积层组成。

进一步地，所述回归网络模块中，依据全局特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，并依据输入的待拼接的两张货架商品图像与训练数据集中图像的尺寸比值对预测的x、y坐标偏移量进行调整，具体如下：

其中，σw＝w/W，σh＝h/H，w和h分别表示训练数据集中图像的宽度以及高度，W和H分别表示待拼接的两张货架商品图像的宽度以及高度；ΔU_i和ΔV_i(i＝1,2,3,4)分别表示训练数据集中图像进行单应性估计时，同一坐标系下重叠区域的四个顶点的x坐标以及y坐标的偏移量；σwΔU_i和σwΔV_i(i＝1,2,3,4)分别表示待拼接的两张货架商品图像进行单应性估计时，同一坐标系下重叠区域的四个顶点的x坐标以及y坐标的偏移量。

一种货架商品图像拼接系统，用于实现上述方法，包括：

单应性估计模块，用于将两张货架商品图像A和B输入至一训练好的深度单应性估计网络，获得估计的单应性矩阵H；依据单应性矩阵H对货架商品图像B进行形变，得到对应的形变图像C；

拼接融合模块，用于将得到的形变图像C与货架商品图像A进行拼接融合，得到融合后的图像D；

特征优化模块，用于对获得的图像D进行特征优化，增强图像质量，得到高分辨率的拼接图像E。

本发明的有益效果主要体现在：

本发明较好地解决了拍摄货架图像时，镜头难以容纳整个货架内容的难题，利用卷积神经网络优秀的特征提取能力，提出了一种用于解决货架图像场景的深度学习模型拼接技术。在拍摄货架商品图像过程中，由于不同的拍摄角度而得到具有大视差的图像，这种大视差图像之间的单应性难以预测，从而拼接后的图像会出现伪影以及拉伸现象。针对于这一问题，本发明采用了一个由特征提取模块、特征相关层、回归模块组成的深度单应性估计网络来对两幅图像之间的单应性进行预测，大大减少了拼接图像中的伪影现象，提高了图像质量。此外，本发明还提供了一种基于偏移量调整的方法使得模型具有拼接任意尺寸输入图像的功能，进而货架图像在进行拼接前无需裁剪成与训练图像具有相同的尺寸，解决了货架输入图像尺寸多样的难题。

附图说明

图1为本发明的实现流程图；

图2为深度单应性估计网络结构图；

图3为warp后的图像示意图；

图4为图像特征融合网络(编码器-解码器网络)结构图；

图5为图像特征优化网络(优化分支)结构图

图6为图像特征优化残差模块结构图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明。

本发明提供的一种货架商品图像拼接方法，如图1所示，包括以下步骤：

(1)获取待拼接的两张货架商品图像A和B；

本发明方法是依据其中一张图像对另一张图像先进行形变，再将形变后的图像与原先的图像进行拼接融合，为了便于区分，本实施例中，将两张图像中未变形和进行变形的货架商品图像分别定义为参考图像A和目标图像B，尺寸大小均为W×H，其中W表示图像的宽度，H表示图像的高度；

(2)将步骤(1)所述的两幅图像输入至一训练好的深度单应性估计网络进行深度单应性估计，如图3所示，图像之间的单应性是指利用相机从不同位置拍摄同一物体时，所得图像重叠部分之间的位置坐标的投影关系，可以表示为：

其中[u',v']和[u,v]表示在不同位置下拍摄的图像的坐标，H表示一个3ⅹ3的单应性矩阵，矩阵H中的[H₁₁ H₁₂；H₂₁ H₂₂]表示旋转参数，[H₁₃ H₂₃]表示平移参数，[H₃₁ H₃₂]表示图像与两个坐标轴的交点位置参数，H₃₃表示一个投影变换因子，通常为1。

其中，所述深度单应性估计网络由依次连接的n个特征处理模块、全局特征相关层和回归网络模块组成；将步骤(1)所述的两幅图像输入至一训练好的深度单应性估计网络后，输入图像先通过由卷积层和最大池化层组成的n个特征处理模块进行特征处理，特征处理模块依据输入的图像提取特征；处理后的特征送入特征相关层，对第n个特征处理模块输出的货架商品图像A和B对应的特征图进行每个特征点的相关性计算，对两幅图像之间特征进行匹配，再送入回归网络模块，依据全局特征相关层输出的每个特征点的相关性获得货架商品图像A和B重叠的各两个顶点(图中为参考图像右边两个顶点，目标图像左边两个顶点)的x、y坐标偏移，并根据得到的八个偏移坐标以及投影变换因子1预测两幅图像之间的单应性矩阵H；最后根据两幅图像之间的单应性对目标图像B进行形变(warp)，得到最终的warp图像C；

进一步地，所述深度单应性估计网络还包括n-2个局部特征相关层和n-2个回归网络模块，其中，第n-1个回归网络模块用于依据全局特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H；第n-2个局部特征相关层用于对第n-2个特征处理模块输出的货架商品图像A和依据第n个回归网络模块输出的单应性矩阵H对第n个特征处理模块输出的货架商品图像B对应的特征图进行形变后的特征图F_B’^{1/(2^(n-2))}进行每个特征点的相关性计算；第n-2个回归网络模块用于依据第n-2个局部特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H；以此类推，直至第1个回归网络模块依据第1个局部特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H。

示例性地，以四个特征处理模块、三个特征相关层以及三个回归网络模块构成的深度单应性估计网络为例，进行单应性估计实际上就是预测单应性矩阵H的过程如图2所示，其中每个特征处理模块通过两个3ⅹ3卷积层以及一个最大池化层对输入图像A和B进行特征处理：

(2a)输入图像A、B分别经过第一个特征处理模块的卷积层conv1和卷积层conv2以及最大池化层maxpooling1得到特征图F¹ _A和F¹ _B，尺寸大小均为W/2*H/2*64；

(2b)将得到的特征图F¹ _A和F¹ _B分别输入到第二个特征处理模块，得到特征图F_A ^1/2和F_B ^1/2,尺寸大小均为W/4*H/4*128；

(2c)再将得到的特征图F_A ^1/2和F_B ^1/2输入到第三个特征处理模块，得到特征图F_A ^1/4和F_B ^1/4,尺寸大小均为W/8*H/8*256；

(2d)最后将得到的特征图F_A ^1/4和F_B ^1/4输入到第四个特征处理模块，得到特征图F_A ¹ ^/8和F_B ^1/8,尺寸大小为W/16*H/16*512；

(2e)将步骤2d得到的特征图F_A ^1/8和F_B ^1/8一同输入到一个全局特征相关层中来对该两块特征图的特征进行匹配，两幅特征图之间的特征相关性可以表示为：

其中c表示特征相关性，F_A ^l和F_B ^l(l＝1，1/2，1/4，1/8)分别表示参考图像A以及目标图像B得到的特征图，x^l _A，x^l _B分别表示特征图F_A ^l和F_B ^l上对应特征的二维空间位置，F_A ^l(x^l _A)和F_B ^l(x^l _B)则分别表示特征图F_A ^l和F_B ^l上，x^l _A，x^l _B位置上的特征，<F_A ^l(x^l _A)，F_B ^l(x^l _B)>表示两特征的点积，|F_A ^l(x^l _A)||F_B ^l(x^l _B)|表示两特征的模的乘积，c(x^l _A，x^l _B)的值越大，表示特征匹配越好。

然后通过第三个回归网络模块估计出两者间的单应性。第三个回归网络模块由三个卷积层和两个全连接层组成来预测确定单应性的八个坐标偏移(通过图A与图B四个顶点特征匹配最好的特征点坐标进行预测)，即货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，根据得到的八个偏移坐标以及投影变换因子1即可得到所需的单应性矩阵H；对特征图F_B ^1/4进行warp操作；

(2f)步骤2e得到的warp后的特征图再与特征图F_A ^1/4一同输入到第二个局部特征相关层中来对该两块特征图的特征进行匹配，然后经过第二个回归网络模块估计出该两层间的单应性，并相应地对特征图F_B ^1/2进行warp操作；

(2g)与步骤2e相同，对得到的特征图相应地输入到第一个局部特征相关层对该两块特征图的特征进行匹配，进一步通过第一个回归网络模块估计出单应性，然后根据该层得到的单应性对目标图像B进行warp操作，即得到最终的warp图像C。

(3)将步骤(2)得到的图像C与参考图像A进行图像融合操作，得到融合后的图像D；

所述步骤(3)中，图像融合指的是将参考图像A与warp后的目标图像C的特征信息融合到一张图像上，达到拼接的目的。这一过程可以通过查找特征点并匹配实现，也可以通过深度学习实现，本实施例中，主要是通过一个由卷积层和池化层组成的编码器-解码器网络来学习图像特征的融合规则，并通过跳跃连接来连接具有相同分辨率的低级和高级特征，从而得到一个融合后的图像D。如图4所示，具体操作步骤如下：

(3a)输入步骤(2)得到的warp后的目标图像C以及参考图像A；

(3b)两幅图像依次通过四层编码器进行特征编码，其中只关注两幅图像的重叠区域，非重叠区域的特征全部被抑制(通过步骤(2)得到的单应性矩阵得到两幅图像的重叠区域，并抑制非重叠区域的像素，使其像素值置0)。每一层编码器都由两层3*3卷积层以及一个最大池化层组成，相应的滤波器数量依次为64、128、256、512；

(3c)从步骤(3b)得到的编码特征输入到三层解码器中进行特征解码，并恢复非重叠区域的像素值。每层解码器都由三层3*3反卷积层组成，对应的滤波器数量依次为256、128、64；

(3d)通过步骤3a以及3b的特征编码与特征解码过程，可以得到特征融合后的图像D。

所述编码器-解码器网络构建感知损失函数以无监督的方式训练获得，表示如下：

其中感知损失函数将网络每一层学习到的特征与输入图像特征进行比较，损失函数可表示如下：

其中j表示编码器-解码器网络层数的索引，C、H、W分别表示图像的通道数、高度、宽度，C_jH_jW_j表示该层网络上特征图的大小，

表示输入图像y(A或B)在第j层编码器网络上的特征输出，

表示第j层编码器网络学习到的特征输出(即第j层解码器网络上的特征输出)。||*||₂表示L2范数；通过最小化两特征值在同一层网络上的平方差使得两个特征的内容以及全局结构接近。

(4)步骤(3)得到的拼接图像D分辨率较小，相对比较模糊，需要进一步进行图像特征优化，增强图像质量，以得到高分辨率的拼接图像E；

本实施例中，对图像特征进行优化主要是通过一个训练好的由卷积层和深度残差块组成的优化分支来实现，其中卷积块是为了优化图像的基本像素特征，残差块是为了优化图像的视觉感知特征，使得拼接后的图像在视觉感知上的效果更好。如图5所示，具体步骤实现如下：

(4a)通过步骤(4)得到的粗拼接图像先输入到第一层3*3卷积层进行像素特征优化，该层滤波器数量为64；

(4b)优化后的图像特征再依次通过八个深度残差模块进行视觉感知特征的优化，每个模块都由相同的五个部分组成，分别为卷积块、RELU激活函数、卷积块、求和块、RELU激活函数，如图6所示；

(4c)步骤4b优化后的图像特征最后再经过两个卷积层，大小分别为3*3*6以及3*3*3得到一张高分辨率的货架拼接图像E。此外采用了跳跃连接来连接第一个卷积层与第二个卷积层，防止特征信息的丢失。

进一步地，若待拼接图像尺寸与训练数据集中的训练图像尺寸不一致，通过两幅图像的宽度比(σw)以及高度比(σh)得到图像warp时的位置偏移量变化，从而网络模型能够在推理阶段处理任意尺寸的输入图像。进而货架图像在进行拼接前无需裁剪成与训练图像具有相同的尺寸。具体地：

(5a)在推理阶段，图像输入进单应性估计网络后，会先根据输入图像尺寸与模型训练时的训练图像尺寸得到对应的宽度比σw以及高度比σh，计算公式如下：

σw＝w/W σh＝h/H

其中w和h分别表示模型训练时图像的宽度以及高度，W和H分别表示实际应用阶段中待拼接图像的宽度以及高度；

(5b)根据得到的σw以及σh来调整待拼接图像重叠区域的四个顶点的坐标偏移量，再通过这个新的坐标偏移量来完成单应性估计，然后进行warp操作，该过程可以表示为：

其中，ΔU_i和ΔV_i(i＝1,2,3,4)分别表示训练图像进行单应性估计时，同一坐标系下重叠区域的四个顶点的x坐标以及y坐标的偏移量；σwΔU_i和σwΔV_i(i＝1,2,3,4)分别表示测试图像进行单应性估计时，同一坐标系下重叠区域的四个顶点的x坐标以及y坐标的偏移量。

与前述一种货架商品图像拼接方法的实施例相对应，本发明还提供了一种货架商品图像拼接系统的实施例。

一种货架商品图像拼接系统，用于实现上述任一项所述方法，包括：

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种货架商品图像拼接方法，其特征在于，包括：

(1)获取待拼接的两张货架商品图像A和B；

2.根据权利要求1所述的方法，其特征在于，所述深度单应性估计网络还包括n-2个局部特征相关层和n-2个回归网络模块，其中，第n-1个回归网络模块用于依据全局特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H；第n-2个局部特征相关层用于对第n-2个特征处理模块输出的货架商品图像A的特征图和依据第n个回归网络模块输出的单应性矩阵H对第n个特征处理模块输出的货架商品图像B对应的特征图进行形变后的特征图F_B’^{1/(2^(n-2))}进行每个特征点的相关性计算；第n-2个回归网络模块用于依据第n-2个局部特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H；以此类推，直至第1个回归网络模块依据第1个局部特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，再根据得到的八个偏移坐标以及投影变换因子1得到估计的单应性矩阵H。

3.根据权利要求1所述的方法，其特征在于，所述步骤(3)具体为：

4.根据权利要求1或3所述的方法，其特征在于，所述步骤(4)具体为：

5.根据权利要求1所述的方法，其特征在于，所述回归网络模块中，依据全局特征相关层输出的每个特征点的相关性预测货架商品图像A和B重叠的各两个顶点的x、y坐标偏移，并依据输入的待拼接的两张货架商品图像与训练数据集中图像的尺寸比值对预测的x、y坐标偏移量进行调整，具体如下：

6.一种货架商品图像拼接系统，其特征在于，用于实现权利要求1-5任一项所述方法，包括：