CN115019038B

CN115019038B - 一种相似图像像素级语义匹配方法

Info

Publication number: CN115019038B
Application number: CN202210564636.3A
Authority: CN
Inventors: 卢海峰
Original assignee: Hangzhou Haima Photography Co ltd
Current assignee: Hangzhou Haima Photography Co ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2024-04-30
Anticipated expiration: 2042-05-23
Also published as: CN115019038A

Abstract

本发明公开了一种相似图像像素级语义匹配方法，包括：取原始图像A、B扩边得到扩边图像A、B；高斯模糊得到模糊图像a、b；预测网格偏移量并作用于模糊图像a得到偏移图像A’，对偏移图像A’和模糊图像b计算VGG平均值_预测；对正则惩罚项和VGG平均值_预测通过反向传播方式计算梯度，调整位移网格偏移参数；重复步骤S5至S6得到最终位移网格偏移参数；将位移网格基准和最终位移网格偏移参数相加，得到最终网格偏移量作用于扩边图像A并将扩边部分删除，得到匹配图像。通过以上方法，本发明能够更好地处理图像匹配的问题，匹配过程中无需标注图像关键点，且能够很好地匹配到高分辨率图片中的小目标物体，适用范围更广。

Description

一种相似图像像素级语义匹配方法

技术领域

本发明涉及图像匹配领域，尤其涉及一种相似图像像素级语义匹配方法。

背景技术

目前在对图像进行处理时，经常需要对图像进行调色、去噪、风格迁移等操作，在这些操作过程中，经常需要对处理前以及处理后的图像进行匹配，从而便于应用各种算法进行快速处理。

现有的匹配方法一般是通过预测图像关键点的方式，对图像进行仿射变换，从而实现近似匹配，但是现有的方法存在以下问题：

问题1:需要标注图像关键点，而且不同场景的图像没有统一的关键点定义标准；

问题2:关键点预测不准确会导致图像不能完全匹配；

问题3:不能处理高分辨率(例如1080P、2K、4K)图片的小目标物体的匹配。

发明内容

本发明针对现有的匹配方法需要标注图像关键点，当关键点预测不准确时会导致图像不能完全匹配，不能处理高分辨率图片的小目标物体的匹配等缺陷，提供了新的一种相似图像像素级语义匹配方法。

为了解决上述技术问题，本发明通过以下技术方案实现：

一种相似图像像素级语义匹配方法，包括以下步骤：

S1、取两张图像记为原始图像A和原始图像B，所述原始图像A和原始图像B为相似图像；

S2、对原始图像A和原始图像B分别进行扩边操作，得到扩边图像A和扩边图像B，扩边图像A和扩边图像B的长宽像素值皆为256的倍数；

S3、对扩边图像A和扩边图像B进行高斯模糊，记为模糊图像a和模糊图像b；

S4、定义位移网格基准和位移网格偏移参数，并且定义位移网格偏移参数的正则惩罚项；

S5、位移网格基准和位移网格偏移参数相加，得到预测网格偏移量，将预测网格偏移量作用于模糊图像a得到偏移图像A’，并对偏移图像A’和模糊图像b计算VGG平均值_预测；

S6、对正则惩罚项和VGG平均值_预测通过反向传播方式计算位移网格偏移参数的梯度，并按梯度方向调整位移网格偏移参数；

S7、重复步骤S5至S6，直至正则惩罚项+VGG平均值_预测≤0.2时停止，并得到最终位移网格偏移参数；

S8、训练完成后，将位移网格基准和最终位移网格偏移参数相加，得到最终网格偏移量；

S9、将最终网格偏移量作用于扩边图像A得到中间图像，将中间图像中的扩边部分删除，得到匹配图像，所述匹配图像与原始图像B在语义上像素级别匹配。

其中，步骤S2中将扩边图像A和扩边图像B的长宽像素值皆设置为256的倍数，更加便于后续VGG平均值_预测的计算；步骤S3中的高斯模糊可以让模型更关注图像的整体信息，忽略纹理细节，使VGG loss不受纹理细节的影响；步骤S4至步骤S7用于训练得到最终位移网格偏移参数，训练时采用位移网格基准可以使位移网格偏移参数在参数更新时数值上更加稳定，也更容易收敛；而VGG平均值_预测可以计算两张图像的结构相似性，并忽略颜色信息，减少干扰，正则惩罚项能够确保位移网格偏移参数足够平滑；当正则惩罚项+VGG平均值_预测≤0.2时，能够保证偏移图像A’和模糊图像b在像素级语义上完全匹配，从而得到所需的最终位移网格偏移参数；步骤S8应用得到的最终位移网格偏移参数并结合位移网格基准，得到最终网格偏移量，从而通过步骤S9最终得到与原始图像B在语义上像素级别匹配的匹配图像。

通过以上方法，本发明能够更好地处理图像匹配的问题，匹配过程中无需标注图像关键点，且能够很好地匹配到高分辨率图片中的小目标物体，适用范围更广。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述步骤S5中，所述VGG平均值_预测的计算方法为：将偏移图像A’和模糊图像b分别均等分割出一一对应的N个图像块a’和N个图像块b，所述图像块a’、图像块b的大小为256x256像素，一一计算相对应的图像块a’、图像块b之间的VGG loss并汇总后计算出VGG平均值_预测。

通过对每个图像块计算VGG loss可以实现像素级的匹配，能够大大提高匹配准度。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述分割方法为：设定尺寸为256x256像素大小的滑动窗口，并分别在偏移图像A’和模糊图像b上从上到下、从左到右按步长为256像素进行逐次滑动，从而分割出一一对应的N个图像块a’和N个图像块b。

通过以上分割方法获取得到的图像块不会存在重叠区域。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述步骤S4中，所述位移网格基准为网格大小都为96x96像素的网格矩阵，所述位移网格偏移参数为96x96x2的网格矩阵。

过大的网格尺寸会加大训练难度，且容易过拟合，过小的网格尺寸会造成不完全匹配的问题，通过以上设置，能够更加符合本发明的训练的要求。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述正则惩罚项为：

所述i、j、k分别表示位移网格偏移参数中第一维数组中第i个元素、第二维数组中第j个元素以及第三维数组中第k个元素。

其中第一项为横向正则惩罚项，第二项为纵向正则惩罚项，第三项为斜对角正则惩罚项，这三种正则惩罚项相互结合，能够加快收敛，使位移网格偏移参数更加平滑。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述位移网格偏移参数的学习率为0.1，学习率下降方式为CosineAnnealing。

过大或过小的学习率都不利于模型的收敛，通过以上参数的设置，能够更好地适应本发明的训练要求。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述高斯模糊的高斯核半径为3。

高斯核半径越大，模糊图像信息损失越多，越不容易匹配，而半径必须为奇数，所以3是最优选择。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述扩边操作在进行扩边时用0填充。

以上扩边操作能够更好地适应后续模型训练的需要。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述步骤S1中，所述相似图像的判断方法为：将原始图像A和原始图像B各自缩放为512x512像素大小从而得到缩放图像A和缩放图像B，计算缩放图像A和缩放图像B之间的VGG平均值_原始，若VGG平均值_原始≤0.4则判定为相似图像。

缩放操作的目的是为了加快相似图像判断速度，在不影响相似图像判断的准确率的前提下，将图像缩放到512x512像素大小能够更好地适应计算VGG平均值_原始的输入尺寸范围。

作为优选，上述所述的一种相似图像像素级语义匹配方法，所述步骤S2中，对原始图像A和原始图像B进行扩边操作之前先进行归一化处理，所述归一化处理方法为：对输入的图像中的每个像素值除以255然后减去0.5再除以0.5，从而得到输出的图像。

以上的归一化处理能够更好地适应计算VGG平均值_预测的输入数值范围。

具体实施方式

下面结合具体实施方式对本发明作进一步详细描述，但它们不是对本发明的限制：

实施例1

一种相似图像像素级语义匹配方法，包括以下步骤：

作为优选，所述步骤S5中，所述VGG平均值_预测的计算方法为：将偏移图像A’和模糊图像b分别均等分割出一一对应的N个图像块a’和N个图像块b，所述图像块a’、图像块b的大小为256x256像素，一一计算相对应的图像块a’、图像块b之间的VGG loss并汇总后计算出VGG平均值_预测。

作为优选，所述分割方法为：设定尺寸为256x256像素大小的滑动窗口，并分别在偏移图像A’和模糊图像b上从上到下、从左到右按步长为256像素进行逐次滑动，从而分割出一一对应的N个图像块a’和N个图像块b。

作为优选，所述步骤S4中，所述位移网格基准为网格大小都为96x96像素的网格矩阵，所述位移网格偏移参数为96x96x2的网格矩阵。

作为优选，所述正则惩罚项为：

作为优选，所述位移网格偏移参数的学习率为0.1，学习率下降方式为CosineAnnealing。

作为优选，所述高斯模糊的高斯核半径为3。

作为优选，所述扩边操作在进行扩边时用0填充。

作为优选，所述步骤S1中，所述相似图像的判断方法为：将原始图像A和原始图像B各自缩放为512x512像素大小从而得到缩放图像A和缩放图像B，计算缩放图像A和缩放图像B之间的VGG平均值_原始，若VGG平均值_原始≤0.4则判定为相似图像。

作为优选，所述步骤S2中，对原始图像A和原始图像B进行扩边操作之前先进行归一化处理，所述归一化处理方法为：对输入的图像中的每个像素值除以255然后减去0.5再除以0.5，从而得到输出的图像。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利的范围所作的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种相似图像像素级语义匹配方法，其特征在于：包括以下步骤：

S9、将最终网格偏移量作用于扩边图像A得到中间图像，将中间图像中的扩边部分删除，得到匹配图像，所述匹配图像与原始图像B在语义上像素级别匹配；

所述步骤S5中，所述VGG平均值_预测的计算方法为：将偏移图像A’和模糊图像b分别均等分割出一一对应的N个图像块a’和N个图像块b，所述图像块a’、图像块b的大小为256x256像素，一一计算相对应的图像块a’、图像块b之间的VGGloss并汇总后计算出VGG平均值_预测；

所述步骤S4中，所述位移网格基准为网格大小都为96x96像素的网格矩阵，所述位移网格偏移参数为96x96x2的网格矩阵；

所述正则惩罚项为：

2.根据权利要求1所述的一种相似图像像素级语义匹配方法，其特征在于：所述分割方法为：设定尺寸为256x256像素大小的滑动窗口，并分别在偏移图像A’和模糊图像b上从上到下、从左到右按步长为256像素进行逐次滑动，从而分割出一一对应的N个图像块a’和N个图像块b。

3.根据权利要求1所述的一种相似图像像素级语义匹配方法，其特征在于：所述位移网格偏移参数的学习率为0.1，学习率下降方式为CosineAnnealing。

4.根据权利要求1所述的一种相似图像像素级语义匹配方法，其特征在于：所述高斯模糊的高斯核半径为3。

5.根据权利要求1所述的一种相似图像像素级语义匹配方法，其特征在于：所述扩边操作在进行扩边时用0填充。

6.根据权利要求1所述的一种相似图像像素级语义匹配方法，其特征在于：所述步骤S1中，所述相似图像的判断方法为：将原始图像A和原始图像B各自缩放为512x512像素大小从而得到缩放图像A和缩放图像B，计算缩放图像A和缩放图像B之间的VGG平均值_原始，若VGG平均值_原始≤0.4则判定为相似图像。

7.根据权利要求1所述的一种相似图像像素级语义匹配方法，其特征在于：所述步骤S2中，对原始图像A和原始图像B进行扩边操作之前先进行归一化处理，所述归一化处理方法为：对输入的图像中的每个像素值除以255然后减去0.5再除以0.5，从而得到输出的图像。