CN115019038B - 一种相似图像像素级语义匹配方法 - Google Patents

一种相似图像像素级语义匹配方法 Download PDF

Info

Publication number
CN115019038B
CN115019038B CN202210564636.3A CN202210564636A CN115019038B CN 115019038 B CN115019038 B CN 115019038B CN 202210564636 A CN202210564636 A CN 202210564636A CN 115019038 B CN115019038 B CN 115019038B
Authority
CN
China
Prior art keywords
image
original
grid
offset
vgg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210564636.3A
Other languages
English (en)
Other versions
CN115019038A (zh
Inventor
卢海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Haima Photography Co ltd
Original Assignee
Hangzhou Haima Photography Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Haima Photography Co ltd filed Critical Hangzhou Haima Photography Co ltd
Priority to CN202210564636.3A priority Critical patent/CN115019038B/zh
Publication of CN115019038A publication Critical patent/CN115019038A/zh
Application granted granted Critical
Publication of CN115019038B publication Critical patent/CN115019038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种相似图像像素级语义匹配方法,包括:取原始图像A、B扩边得到扩边图像A、B;高斯模糊得到模糊图像a、b;预测网格偏移量并作用于模糊图像a得到偏移图像A’,对偏移图像A’和模糊图像b计算VGG平均值预测;对正则惩罚项和VGG平均值预测通过反向传播方式计算梯度,调整位移网格偏移参数;重复步骤S5至S6得到最终位移网格偏移参数;将位移网格基准和最终位移网格偏移参数相加,得到最终网格偏移量作用于扩边图像A并将扩边部分删除,得到匹配图像。通过以上方法,本发明能够更好地处理图像匹配的问题,匹配过程中无需标注图像关键点,且能够很好地匹配到高分辨率图片中的小目标物体,适用范围更广。

Description

一种相似图像像素级语义匹配方法
技术领域
本发明涉及图像匹配领域,尤其涉及一种相似图像像素级语义匹配方法。
背景技术
目前在对图像进行处理时,经常需要对图像进行调色、去噪、风格迁移等操作,在这些操作过程中,经常需要对处理前以及处理后的图像进行匹配,从而便于应用各种算法进行快速处理。
现有的匹配方法一般是通过预测图像关键点的方式,对图像进行仿射变换,从而实现近似匹配,但是现有的方法存在以下问题:
问题1:需要标注图像关键点,而且不同场景的图像没有统一的关键点定义标准;
问题2:关键点预测不准确会导致图像不能完全匹配;
问题3:不能处理高分辨率(例如1080P、2K、4K)图片的小目标物体的匹配。
发明内容
本发明针对现有的匹配方法需要标注图像关键点,当关键点预测不准确时会导致图像不能完全匹配,不能处理高分辨率图片的小目标物体的匹配等缺陷,提供了新的一种相似图像像素级语义匹配方法。
为了解决上述技术问题,本发明通过以下技术方案实现:
一种相似图像像素级语义匹配方法,包括以下步骤:
S1、取两张图像记为原始图像A和原始图像B,所述原始图像A和原始图像B为相似图像;
S2、对原始图像A和原始图像B分别进行扩边操作,得到扩边图像A和扩边图像B,扩边图像A和扩边图像B的长宽像素值皆为256的倍数;
S3、对扩边图像A和扩边图像B进行高斯模糊,记为模糊图像a和模糊图像b;
S4、定义位移网格基准和位移网格偏移参数,并且定义位移网格偏移参数的正则惩罚项;
S5、位移网格基准和位移网格偏移参数相加,得到预测网格偏移量,将预测网格偏移量作用于模糊图像a得到偏移图像A’,并对偏移图像A’和模糊图像b计算VGG平均值预测
S6、对正则惩罚项和VGG平均值预测通过反向传播方式计算位移网格偏移参数的梯度,并按梯度方向调整位移网格偏移参数;
S7、重复步骤S5至S6,直至正则惩罚项+VGG平均值预测≤0.2时停止,并得到最终位移网格偏移参数;
S8、训练完成后,将位移网格基准和最终位移网格偏移参数相加,得到最终网格偏移量;
S9、将最终网格偏移量作用于扩边图像A得到中间图像,将中间图像中的扩边部分删除,得到匹配图像,所述匹配图像与原始图像B在语义上像素级别匹配。
其中,步骤S2中将扩边图像A和扩边图像B的长宽像素值皆设置为256的倍数,更加便于后续VGG平均值预测的计算;步骤S3中的高斯模糊可以让模型更关注图像的整体信息,忽略纹理细节,使VGG loss不受纹理细节的影响;步骤S4至步骤S7用于训练得到最终位移网格偏移参数,训练时采用位移网格基准可以使位移网格偏移参数在参数更新时数值上更加稳定,也更容易收敛;而VGG平均值预测可以计算两张图像的结构相似性,并忽略颜色信息,减少干扰,正则惩罚项能够确保位移网格偏移参数足够平滑;当正则惩罚项+VGG平均值预测≤0.2时,能够保证偏移图像A’和模糊图像b在像素级语义上完全匹配,从而得到所需的最终位移网格偏移参数;步骤S8应用得到的最终位移网格偏移参数并结合位移网格基准,得到最终网格偏移量,从而通过步骤S9最终得到与原始图像B在语义上像素级别匹配的匹配图像。
通过以上方法,本发明能够更好地处理图像匹配的问题,匹配过程中无需标注图像关键点,且能够很好地匹配到高分辨率图片中的小目标物体,适用范围更广。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述步骤S5中,所述VGG平均值预测的计算方法为:将偏移图像A’和模糊图像b分别均等分割出一一对应的N个图像块a’和N个图像块b,所述图像块a’、图像块b的大小为256x256像素,一一计算相对应的图像块a’、图像块b之间的VGG loss并汇总后计算出VGG平均值预测
通过对每个图像块计算VGG loss可以实现像素级的匹配,能够大大提高匹配准度。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述分割方法为:设定尺寸为256x256像素大小的滑动窗口,并分别在偏移图像A’和模糊图像b上从上到下、从左到右按步长为256像素进行逐次滑动,从而分割出一一对应的N个图像块a’和N个图像块b。
通过以上分割方法获取得到的图像块不会存在重叠区域。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述步骤S4中,所述位移网格基准为网格大小都为96x96像素的网格矩阵,所述位移网格偏移参数为96x96x2的网格矩阵。
过大的网格尺寸会加大训练难度,且容易过拟合,过小的网格尺寸会造成不完全匹配的问题,通过以上设置,能够更加符合本发明的训练的要求。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述正则惩罚项为:
所述i、j、k分别表示位移网格偏移参数中第一维数组中第i个元素、第二维数组中第j个元素以及第三维数组中第k个元素。
其中第一项为横向正则惩罚项,第二项为纵向正则惩罚项,第三项为斜对角正则惩罚项,这三种正则惩罚项相互结合,能够加快收敛,使位移网格偏移参数更加平滑。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述位移网格偏移参数的学习率为0.1,学习率下降方式为CosineAnnealing。
过大或过小的学习率都不利于模型的收敛,通过以上参数的设置,能够更好地适应本发明的训练要求。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述高斯模糊的高斯核半径为3。
高斯核半径越大,模糊图像信息损失越多,越不容易匹配,而半径必须为奇数,所以3是最优选择。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述扩边操作在进行扩边时用0填充。
以上扩边操作能够更好地适应后续模型训练的需要。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述步骤S1中,所述相似图像的判断方法为:将原始图像A和原始图像B各自缩放为512x512像素大小从而得到缩放图像A和缩放图像B,计算缩放图像A和缩放图像B之间的VGG平均值原始,若VGG平均值原始≤0.4则判定为相似图像。
缩放操作的目的是为了加快相似图像判断速度,在不影响相似图像判断的准确率的前提下,将图像缩放到512x512像素大小能够更好地适应计算VGG平均值原始的输入尺寸范围。
作为优选,上述所述的一种相似图像像素级语义匹配方法,所述步骤S2中,对原始图像A和原始图像B进行扩边操作之前先进行归一化处理,所述归一化处理方法为:对输入的图像中的每个像素值除以255然后减去0.5再除以0.5,从而得到输出的图像。
以上的归一化处理能够更好地适应计算VGG平均值预测的输入数值范围。
具体实施方式
下面结合具体实施方式对本发明作进一步详细描述,但它们不是对本发明的限制:
实施例1
一种相似图像像素级语义匹配方法,包括以下步骤:
S1、取两张图像记为原始图像A和原始图像B,所述原始图像A和原始图像B为相似图像;
S2、对原始图像A和原始图像B分别进行扩边操作,得到扩边图像A和扩边图像B,扩边图像A和扩边图像B的长宽像素值皆为256的倍数;
S3、对扩边图像A和扩边图像B进行高斯模糊,记为模糊图像a和模糊图像b;
S4、定义位移网格基准和位移网格偏移参数,并且定义位移网格偏移参数的正则惩罚项;
S5、位移网格基准和位移网格偏移参数相加,得到预测网格偏移量,将预测网格偏移量作用于模糊图像a得到偏移图像A’,并对偏移图像A’和模糊图像b计算VGG平均值预测
S6、对正则惩罚项和VGG平均值预测通过反向传播方式计算位移网格偏移参数的梯度,并按梯度方向调整位移网格偏移参数;
S7、重复步骤S5至S6,直至正则惩罚项+VGG平均值预测≤0.2时停止,并得到最终位移网格偏移参数;
S8、训练完成后,将位移网格基准和最终位移网格偏移参数相加,得到最终网格偏移量;
S9、将最终网格偏移量作用于扩边图像A得到中间图像,将中间图像中的扩边部分删除,得到匹配图像,所述匹配图像与原始图像B在语义上像素级别匹配。
作为优选,所述步骤S5中,所述VGG平均值预测的计算方法为:将偏移图像A’和模糊图像b分别均等分割出一一对应的N个图像块a’和N个图像块b,所述图像块a’、图像块b的大小为256x256像素,一一计算相对应的图像块a’、图像块b之间的VGG loss并汇总后计算出VGG平均值预测
作为优选,所述分割方法为:设定尺寸为256x256像素大小的滑动窗口,并分别在偏移图像A’和模糊图像b上从上到下、从左到右按步长为256像素进行逐次滑动,从而分割出一一对应的N个图像块a’和N个图像块b。
作为优选,所述步骤S4中,所述位移网格基准为网格大小都为96x96像素的网格矩阵,所述位移网格偏移参数为96x96x2的网格矩阵。
作为优选,所述正则惩罚项为:
所述i、j、k分别表示位移网格偏移参数中第一维数组中第i个元素、第二维数组中第j个元素以及第三维数组中第k个元素。
作为优选,所述位移网格偏移参数的学习率为0.1,学习率下降方式为CosineAnnealing。
作为优选,所述高斯模糊的高斯核半径为3。
作为优选,所述扩边操作在进行扩边时用0填充。
作为优选,所述步骤S1中,所述相似图像的判断方法为:将原始图像A和原始图像B各自缩放为512x512像素大小从而得到缩放图像A和缩放图像B,计算缩放图像A和缩放图像B之间的VGG平均值原始,若VGG平均值原始≤0.4则判定为相似图像。
作为优选,所述步骤S2中,对原始图像A和原始图像B进行扩边操作之前先进行归一化处理,所述归一化处理方法为:对输入的图像中的每个像素值除以255然后减去0.5再除以0.5,从而得到输出的图像。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利的范围所作的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (7)

1.一种相似图像像素级语义匹配方法,其特征在于:包括以下步骤:
S1、取两张图像记为原始图像A和原始图像B,所述原始图像A和原始图像B为相似图像;
S2、对原始图像A和原始图像B分别进行扩边操作,得到扩边图像A和扩边图像B,扩边图像A和扩边图像B的长宽像素值皆为256的倍数;
S3、对扩边图像A和扩边图像B进行高斯模糊,记为模糊图像a和模糊图像b;
S4、定义位移网格基准和位移网格偏移参数,并且定义位移网格偏移参数的正则惩罚项;
S5、位移网格基准和位移网格偏移参数相加,得到预测网格偏移量,将预测网格偏移量作用于模糊图像a得到偏移图像A’,并对偏移图像A’和模糊图像b计算VGG平均值预测
S6、对正则惩罚项和VGG平均值预测通过反向传播方式计算位移网格偏移参数的梯度,并按梯度方向调整位移网格偏移参数;
S7、重复步骤S5至S6,直至正则惩罚项+VGG平均值预测≤0.2时停止,并得到最终位移网格偏移参数;
S8、训练完成后,将位移网格基准和最终位移网格偏移参数相加,得到最终网格偏移量;
S9、将最终网格偏移量作用于扩边图像A得到中间图像,将中间图像中的扩边部分删除,得到匹配图像,所述匹配图像与原始图像B在语义上像素级别匹配;
所述步骤S5中,所述VGG平均值预测的计算方法为:将偏移图像A’和模糊图像b分别均等分割出一一对应的N个图像块a’和N个图像块b,所述图像块a’、图像块b的大小为256x256像素,一一计算相对应的图像块a’、图像块b之间的VGGloss并汇总后计算出VGG平均值预测
所述步骤S4中,所述位移网格基准为网格大小都为96x96像素的网格矩阵,所述位移网格偏移参数为96x96x2的网格矩阵;
所述正则惩罚项为:
所述i、j、k分别表示位移网格偏移参数中第一维数组中第i个元素、第二维数组中第j个元素以及第三维数组中第k个元素。
2.根据权利要求1所述的一种相似图像像素级语义匹配方法,其特征在于:所述分割方法为:设定尺寸为256x256像素大小的滑动窗口,并分别在偏移图像A’和模糊图像b上从上到下、从左到右按步长为256像素进行逐次滑动,从而分割出一一对应的N个图像块a’和N个图像块b。
3.根据权利要求1所述的一种相似图像像素级语义匹配方法,其特征在于:所述位移网格偏移参数的学习率为0.1,学习率下降方式为CosineAnnealing。
4.根据权利要求1所述的一种相似图像像素级语义匹配方法,其特征在于:所述高斯模糊的高斯核半径为3。
5.根据权利要求1所述的一种相似图像像素级语义匹配方法,其特征在于:所述扩边操作在进行扩边时用0填充。
6.根据权利要求1所述的一种相似图像像素级语义匹配方法,其特征在于:所述步骤S1中,所述相似图像的判断方法为:将原始图像A和原始图像B各自缩放为512x512像素大小从而得到缩放图像A和缩放图像B,计算缩放图像A和缩放图像B之间的VGG平均值原始,若VGG平均值原始≤0.4则判定为相似图像。
7.根据权利要求1所述的一种相似图像像素级语义匹配方法,其特征在于:所述步骤S2中,对原始图像A和原始图像B进行扩边操作之前先进行归一化处理,所述归一化处理方法为:对输入的图像中的每个像素值除以255然后减去0.5再除以0.5,从而得到输出的图像。
CN202210564636.3A 2022-05-23 2022-05-23 一种相似图像像素级语义匹配方法 Active CN115019038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210564636.3A CN115019038B (zh) 2022-05-23 2022-05-23 一种相似图像像素级语义匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210564636.3A CN115019038B (zh) 2022-05-23 2022-05-23 一种相似图像像素级语义匹配方法

Publications (2)

Publication Number Publication Date
CN115019038A CN115019038A (zh) 2022-09-06
CN115019038B true CN115019038B (zh) 2024-04-30

Family

ID=83068221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210564636.3A Active CN115019038B (zh) 2022-05-23 2022-05-23 一种相似图像像素级语义匹配方法

Country Status (1)

Country Link
CN (1) CN115019038B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116668709B (zh) * 2023-07-28 2023-10-17 天津卓朗昆仑云软件技术有限公司 图像传输方法、装置、服务端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799646A (zh) * 2012-06-27 2012-11-28 浙江万里学院 一种面向多视点视频的语义对象分割方法
CN104103075A (zh) * 2014-07-24 2014-10-15 北京邮电大学 一种多视角人体部件语义匹配方法和装置
CN108921196A (zh) * 2018-06-01 2018-11-30 南京邮电大学 一种改进全卷积神经网络的语义分割方法
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
WO2020192471A1 (zh) * 2019-03-26 2020-10-01 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158731B (zh) * 2011-05-26 2014-03-12 威盛电子股份有限公司 影像处理系统及方法
US11062216B2 (en) * 2017-11-21 2021-07-13 International Business Machines Corporation Prediction of olfactory and taste perception through semantic encoding
EP3561727A1 (en) * 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
US11741728B2 (en) * 2020-04-15 2023-08-29 Toyota Research Institute, Inc. Keypoint matching using graph convolutions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799646A (zh) * 2012-06-27 2012-11-28 浙江万里学院 一种面向多视点视频的语义对象分割方法
CN104103075A (zh) * 2014-07-24 2014-10-15 北京邮电大学 一种多视角人体部件语义匹配方法和装置
CN108921196A (zh) * 2018-06-01 2018-11-30 南京邮电大学 一种改进全卷积神经网络的语义分割方法
WO2020156303A1 (zh) * 2019-01-30 2020-08-06 广州市百果园信息技术有限公司 语义分割网络的训练方法及装置、基于语义分割网络的图像处理方法及装置、设备、存储介质
WO2020192471A1 (zh) * 2019-03-26 2020-10-01 腾讯科技(深圳)有限公司 一种图像分类模型训练的方法、图像处理的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于ResNet和RF-Net的遥感影像匹配;廖明哲;吴谨;朱磊;;液晶与显示;20200915(09);全文 *
基于卷积神经网络特征和改进超像素匹配的图像语义分割;郭呈呈;于凤芹;陈莹;;激光与光电子学进展;20180328(08);全文 *

Also Published As

Publication number Publication date
CN115019038A (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
CN109671023B (zh) 一种人脸图像超分辨率二次重建方法
CN108776969B (zh) 基于全卷积网络的乳腺超声图像肿瘤分割方法
US20220188999A1 (en) Image enhancement method and apparatus
WO2018161775A1 (zh) 一种用于图像处理的神经网络模型的训练方法、装置和存储介质
CN111680695A (zh) 一种基于反向注意力模型的语义分割方法
CN111709980A (zh) 基于深度学习的多尺度图像配准方法和装置
WO2021115242A1 (zh) 一种超分辨率图像处理方法以及相关装置
CN111899295B (zh) 一种基于深度学习的单目场景深度预测方法
CN112784874B (zh) 双目视觉立体匹配方法、装置、电子设备及存储介质
CN115019038B (zh) 一种相似图像像素级语义匹配方法
Cao et al. New architecture of deep recursive convolution networks for super-resolution
CN109389617A (zh) 一种基于片上异构系统的运动目标识别与追踪方法及系统
CN110298829A (zh) 一种舌诊方法、装置、系统、计算机设备和存储介质
CN116681636A (zh) 基于卷积神经网络的轻量化红外与可见光图像融合方法
CN111047618A (zh) 基于多尺度的无参考屏幕内容图像质量评估方法
CN111369435B (zh) 基于自适应稳定模型的彩色图像深度上采样方法及系统
Huang et al. An end-to-end dehazing network with transitional convolution layer
CN111010605A (zh) 一种视频画中画窗口的显示方法
Ma et al. A Novel Generative Image Inpainting Model with Dense Gated Convolutional Network
CN101702238A (zh) 基于浮雕图像的运动分割方法
CN112766338B (zh) 一种计算距离图像的方法、系统及计算机可读存储介质
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质
CN113298702A (zh) 基于大尺寸图像像素点的重新排序和分割方法
CN113038055A (zh) 图像处理方法、装置及电子设备
CN110827238A (zh) 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: No. 1001, 10th floor, No. 65, kejiyuan Road, Hangzhou Economic and Technological Development Zone, Zhejiang Province, 310018

Applicant after: Hangzhou Haima Photography Co.,Ltd.

Address before: No. 1001, 10th floor, No. 65, kejiyuan Road, Hangzhou Economic and Technological Development Zone, Zhejiang Province, 310018

Applicant before: Hangzhou manto photography Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant