CN116503686A - 图像矫正模型的训练方法、图像矫正方法、装置及介质 - Google Patents
图像矫正模型的训练方法、图像矫正方法、装置及介质 Download PDFInfo
- Publication number
- CN116503686A CN116503686A CN202310318509.XA CN202310318509A CN116503686A CN 116503686 A CN116503686 A CN 116503686A CN 202310318509 A CN202310318509 A CN 202310318509A CN 116503686 A CN116503686 A CN 116503686A
- Authority
- CN
- China
- Prior art keywords
- feature
- sub
- inputting
- decoder
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003702 image correction Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012549 training Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 140
- 238000010606 normalization Methods 0.000 claims description 128
- 238000012937 correction Methods 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 239000012633 leachable Substances 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 10
- 239000004973 liquid crystal related substance Substances 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了图像矫正模型的训练方法、图像矫正方法、装置及介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域。具体实现方案为:将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图;基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失;基于目标损失调整图像矫正模型的参数。本公开实施例中,基于第一损失使得图像矫正模型输出的偏移图能够关心图像中心区域,基于第二损失使得偏移图能够适应复杂的背景和边缘的形变,由此训练得到的图像矫正模型,具有很好的泛化能力和鲁棒性。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域。
背景技术
随着存储技术和智能设备的不断发展,电子化图像越来越成为人们提高工作效率的手段。图像矫正技术则是图像电子化的基本而重要的处理手段。由于拍摄设备的质量差异、拍摄环境的复杂以及图像的扭曲变形都给图像矫正技术带来了一定的挑战,如何对扭曲变形的图像进行矫正,以获得更高质量的图像成为亟待解决的问题。
发明内容
本公开提供了一种图像矫正模型的训练方法、图像矫正方法、装置及介质。
根据本公开的一方面,提供了一种图像矫正模型的训练方法,包括:
将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;偏移图用于表示扭曲图和扭曲图的矫正图之间的映射关系;
基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图;
基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失;
基于目标损失调整图像矫正模型的参数。
根据本公开的另一方面,提供一种图像矫正方法,包括:
获取待矫正图像;
将待矫正图像输入至基于前述方法得到的已训练的图像矫正模型,得到待矫正图像的偏移图;
基于偏移图矫正待矫正图像。
根据本公开的另一方面,提供了一种图像矫正模型的训练装置,包括:
输入单元,用于将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;偏移图用于表示扭曲图和扭曲图的矫正图之间的映射关系;
矫正单元,用于基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图;
确定单元,用于基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失;
调参单元,用于基于目标损失调整图像矫正模型的参数。
根据本公开的另一方面,提供一种图像矫正装置,包括:
获取单元,用于获取待矫正图像;
图像输入单元,用于将待矫正图像输入至前述装置得到的已训练的图像矫正模型,得到待矫正图像的偏移图;
图像矫正单元,用于基于偏移图矫正待矫正图像。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
本公开实施例中,基于第一损失使得图像矫正模型输出的偏移图能够关心图像中心区域,基于第二损失使得偏移图能够适应复杂的背景和边缘的形变,由此训练得到的图像矫正模型,具有很好的泛化能力和鲁棒性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开一实施例中图像矫正模型的训练方法的流程示意图;
图2a是根据本公开另一实施例中图像矫正模型的结构示意图;
图2b是根据本公开另一实施例中图像矫正模型的结构示意图;
图3是根据本公开另一实施例中第一目标子编码器的结构示意图;
图4是根据本公开另一实施例中第二目标子编码器的结构示意图;
图5是根据本公开另一实施例中第一目标子解码器的结构示意图;
图6是根据本公开另一实施例中第二目标子编码器的结构示意图;
图7是根据本公开另一实施例中第三目标子编码器的结构示意图;
图8是根据本公开另一实施例中第四目标子编码器的结构示意图;
图9是根据本公开另一实施例中图像矫正模型的结构示意图;
图10是根据本公开一实施例中图像矫正方法的流程示意图;
图11是根据本公开一实施例中图像矫正方法矫正图像后的对比图;
图12是根据本公开一实施例中图像矫正模型的训练装置的结构示意图;
图13是根据本公开一实施例中图像矫正装置的结构示意图;
图14是用来实现本公开实施例的图像矫正模型的训练方法/图像矫正方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前的图像矫正方法,均只会对图像的中心区域的内容进行矫正,针对扭曲形变较大的图像,其矫正效果差、泛化性能差,且对于背景复杂的图像,矫正效果容易受背景影响,缺乏鲁棒性,难以获得高质量的矫正图像。有鉴于此,如果能在矫正图像中心内容的基础上,加入对图像边缘背景的矫正,就能使矫正图像的质量更高、矫正效果更加理想。
基于此技术构思,本公开实施例提供了一种图像矫正模型的训练方法,如图1所示,为本公开实施例中图像矫正模型的训练方法的流程示意图,包括:
S101,将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;该偏移图用于表示扭曲图和扭曲图的矫正图之间的映射关系。
其中,偏移图表示了一种变换关系,该变化关系用于矫正扭曲图的形变。该变换关系可包括偏移量、偏移方向。偏移图可以为后向图或前向图。在偏移图为后向图的情况下,偏移图表示扭曲图的矫正图到扭曲图的映射关系;在偏移图为前向图的情况下,偏移图表示扭曲图到扭曲图的矫正图的映射关系。
S102,基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图。
其中,采用前背景分割方法处理扭曲图,可识别出扭曲图中各像素点的类别。即识别出各像素点属于前景还是属于背景。在一些实施例中,可将属于前景的像素标识为1,属于背景的像素标识为0,或,将属于前景的像素标识为0,将属于背景的像素标识为1。
其中,如前文对偏移图所阐述的内容可知,偏移图主要用于对扭曲图的形变进行矫正。由此,偏移图也相当于扭曲图的前背景分割图和扭曲图的原图(即未产生形变的图像)的前背景分割图之间的映射关系,因此可以使用偏移图对扭曲图的前背景分割图的形变进行矫正,以得到已矫正分割图。
S103,基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失。
其中,标准偏移图即偏移图的训练标签,其表示扭曲图和扭曲图的原图之间的正确的映射关系。
类似的,标准分割图即已矫正分割图的训练标签,其表示扭曲图的原图的前背景分割图,即采用偏移图对扭曲图的前背景分割图矫正之后理论上可达到的最好的效果。
S104,基于目标损失调整图像矫正模型的参数。
本公开实施例中,采用偏移图和标准偏移图之间的第一损失能够学习到扭曲图和其原图之间的映射关系,即得到正确的偏移图。进一步的,在考虑了复杂背景和边缘情况对形变矫正的影响,在第一损失的基础上结合已矫正分割图和标准分割图之间的第二损失,实现图像矫正模型对复杂背景和形变较大的边缘的适应能力。由此,本公开实施例中,基于第一损失使得图像矫正模型输出的偏移图能够关心图像中心区域,基于第二损失使得偏移图能够适应复杂的背景和边缘的形变,由此训练得到的图像矫正模型,具有很好的泛化能力和鲁棒性。
为便于理解,本公开实施例对图像矫正模型的结构以及训练方法进行详细说明。
在一些实施例中,如图2a所示,为本公开实施例图像矫正模型的结构示意图,包括下采样模块、编码器、解码器和上采样模块。其中,将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图,可实施为如图2a所示:基于下采样模块对扭曲图进行下采样,得到下采样特征。
由于编码复杂度与图像分辨率的平方正相关,本公开实施例中采用下采样模块提取扭曲图的图像特征得到下采样特征,并降低图像分辨率,以便于提高编码器的处理效率。
下采样特征中可包括扭曲图的一些浅层特征。其中下采样特征中包括多张特征图,每张特征图的分辨率均低于扭曲图的分辨率,这样有利于降低后续处理的数据量,提高图像矫正模型的处理效率。
举例来说,比如对于一幅尺寸为M×N的扭曲图(M和N均为正整数),对其进行s倍下采样,下采样特征中每张特征图的尺寸为(M/s)×(N/s)。
在一些实施例中,可以采用例如高斯滤波等卷积方式来实现下采样。
如图2a所示,将下采样特征输入编码器,得到编码器输出的编码特征。
在一些实施例中,在将下采样特征输入编码器之前,可使用flatten(展平)层(图2a中未示出)将下采样特征降维处理,即将下采样特征中的三维特征图进行二维化,以便于编码器处理下采样特征。具体来说,下采样特征中一共c个通道,共产生c张特征图。flatten层的输入是c*h*w,其中,h和w分别是该特征图的高和宽。flatten层将h和w这两维变成一维的n,通道数c维度不变,flatten层输出的二维数据是c*n。
本公开实施例中下采样模块可用于学习扭曲图的局部特征。为了能够获取更高层次的全局特征,本公开实施例中,通过编码器对下采样特征进一步理解,将其处理为深层次的编码特征,然后如图2a所示,将编码特征输入解码器,得到解码器输出的解码特征。
由于解码特征通常尺寸小于扭曲图,为了得到扭曲图的偏移图,本公开实施例中,如图2a所示,基于上采样模块对解码特征进行上采样,得到偏移图,该偏移图的尺寸与扭曲图的尺寸相同。
其中,上采样也可以采用一个或多个卷积层来实现,以便于上采样模块学习到解码特征到偏移图的映射关系。
在一些实施例中,还可以采用例如插值法、反卷积法等方式实现上采样,具体说明如下:
(1)插值法。
可以采用例如均值、中值、最近邻等来作为内插值,能够实现在上述解码特征周围既有像素颜色的基础上,用数学公式计算丢失像素的颜色。
(2)反卷积法。
即通过转置卷积核的方法来实现卷积的逆过程,通过调整反卷积层的参数,使得上采样模块学习到编码特征到偏移图的映射关系。
本公开实施例中,通过下采样模块提取扭曲图的浅层特征,以便于降低编码器处理的特征图的分辨率,有利于减少编码器的计算量、缓解过拟合问题。通过上采样模块将解码特征放大还原为扭曲图大小,得到偏移图,有利于使用偏移图对扭曲图进行矫正。
在一些实施例中,本公开实施例中的编码器如图2b所示包括串联设置的多个子编码器,以便于各个子编码器能够对下采样特征迭代处理,以便于能够学习到更具深层次的特征。在此基础上,将下采样特征输入编码器,得到编码器输出的编码特征,可实施为:
A1,将下采样特征输入多个子编码器中的第一个子编码器,得到第一个子编码器的输出特征。
如图2b所示,该第一个子编码器为子编码器1,下采样特征属于子编码器1得到子编码器1的输出特征,子编码器的输出特征将会输入给下一个子编码器,得到下一个子编码器的输出特征,以此类推。由此,在A2中,针对多个子编码器中的除第一个子编码器之外的任意一个子编码器,将该任意一个子编码器的输入特征输入该任意一个子编码器,得到该任意一个子编码器的输出特征。
其中,该任意一个子编码器的输入特征包括该任意一个子编码器的上一个子编码器的输出特征;最后一个子编码器的输出特征即为编码特征。
本公开实施例中,采用多个子编码器依序迭代处理下采样特征,有利于实现对于下采样特征的进一步学习,从而得到高层次的编码特征,以便于基于该编码特征提高偏移图的准确性。此外,结合第一损失和第二损失调整该编码器中多个子编码器的参数,也有助于使得图像矫正模型输出的扭曲图不仅能够对中心区域进行形变矫正,也能够很好的矫正图像的边缘。
在一些实施例中,本公开可示例性的提供两种子编码器,一种为第一目标子编码器,另一种为第二目标子编码器。
1)第一目标子编码器的结构
多个子编码器中存在至少一个第一目标子编码器。该第一目标子编码器如图3所示,包括依序串联设置的第一自注意力模块、第一残差和标准化层、第一前向反馈网络以及第二残差和标准化层。
在一些实施例中,采用第一目标子编码器处理第一目标子编码器的输入特征得到第一目标子编码器的输出特征,可实施为:
B1,将第一目标子编码器的输入特征作为第一自注意力模块的查询向量、值向量和键向量,输入第一自注意力模块,得到第一自注意力模块输出的第一自注意力特征。
在一些实施例中,可通过自注意力模块对浅层特征两两之间计算相似性,并进行加权求和,以便于得到具有全局信息的图像特征。其中,第一自注意力模块进行计算所需的权重,可根据输入特征序列中的具体信息动态调整,由此可适应不同形变,不同背景复杂度的扭曲图。
B2,将第一自注意力特征以及第一目标子编码器的输入特征输入第一残差和标准化层,得到第一中间特征。
B3,将第一中间特征输入第一前向反馈网络,得到第一前向特征。
其中,在前向反馈网络中,各神经元可以接收前一层神经元的信号,并产生输出到下一层。第0层为输入层,最后一层为输出层,其他中间层可以为隐层。隐层可以是一层,也可以是多层。整个前向反馈网络中,信号从输入层向输出层单向传播,可以用一个有向无环图来进行表示。采用前向反馈网络,有利于对第一自注意力模块提取的全局特征进一步理解,得到更高层次的图像特征,以便于提高偏移图的准确性。
B4,将第一前向特征和第一中间特征输入第二残差和标准化层,得到第一目标子编码器的输出特征。
在有多个子编码器的情况下,如图2b所示,最后一个子编码器的输出特征,即为编码器输入给解码器的编码特征。
本公开实施例中,第一目标子编码器通过第一自注意力模块能够对下采样特征进一步理解,学习到一些全局特征。而且,第一自注意力模块能够对不同的扭曲图给予不同的权重,使得本公开实施例提供的图像矫正模型能够适应不同的扭曲图,以便于提高模型的泛化能力。通过第一目标子编码器中的残差和标准化层(包括第一残差和标注化层和第二残差和标准化层)能够对不同层次的特征进行学习,以便于学习到更多的特征。通过第一前向反馈网络能够进一步学习深层次的特征,由此使得整个编码器能够充分理解扭曲图,得到适用于预测偏移图的编码特征,有助于利用第一损失和第二损失来得到能够对形变进行矫正且考虑边缘情况的偏移图。
2)第二目标子编码器的结构
多个子编码器中存在至少一个第二目标子编码器。该第二目标子编码器如图4所示,包括依序串联设置的第一标准化层、第二自注意力模块、第一残差层、第二标准化层、第二前向反馈网络、以及第二残差层。
在一些实施例中,采用第二目标子编码器处理第二目标子编码器的输入特征得到第二目标子编码器的输出特征,可实施为:
C1,将第二目标子编码器的输入特征输入第一标准化层,得到第一标准化特征。
C2,将第一标准化特征作为第二自注意力模块的查询向量、值向量和键向量,输入第二自注意力模块,得到第二自注意力模块输出的第二自注意力特征。
C3,将第二自注意力特征以及第一标准化特征输入第一残差层,得到第一残差特征。
C4,将第一残差特征输入第二标准化层,得到第二标准化特征。
C5,将第二标准化特征输入第二前向反馈网络,得到第二前向特征。
C6,将第二前向特征和第二标准化特征输入第二残差层,得到第二目标子编码器的输出特征。
本公开实施例中,提供了另一种可能的子编码器的结构。该第二目标子编码器中通过第一标准化层加速收敛速度、避免梯度消失,通过第二自注意力模块学习到全局信息,而且,第二自注意力模块能够适应不同的扭曲图给予不同的权重,使得本公开实施例提供的图像矫正模型能够适应不同的扭曲图,以便于提高模型的泛化能力。通过第一残差层对学习到的全局信息和可学习特征进行融合,以便于学习到更多特征。在此基础上,通过第二标准化层加速收敛速度、避免梯度消失。进而,通过第二前向反馈网络和第五残差层进一步理解学习到的深层次的特征,有助于利用第一损失和第二损失来得到能够对形变进行矫正且考虑边缘情况的偏移图。
与编码器类似,本公开实施例中,如图2b所示解码器包括串联设置的多个子解码器,以便于通过多个子解码器能够学习到偏移图的特征。在此基础上,将编码特征输入解码器,得到解码器输出的解码特征,可实施为:
D1,将编码特征和可学习特征输入解码器中的第一个子解码器,得到第一个子解码器的输出特征。
D2,针对多个子解码器中的除第一个子解码器之外的任意一个子解码器,将该任意一个子解码器的输入特征输入该任意一个子解码器,得到该任意一个子解码器输出的可学习特征。
其中,该任意一个子解码器的输入特征包括该任意一个子解码器的上一个子解码器输出的可学习特征以及编码器输出的编码特征;相应的,最后一个子解码器输出的可学习特征为解码特征。
本公开实施例中,编码特征和可学习特征经多个串联设置的解码器处理,有利于实现对于编码特征和可学习特征的理解,以便于解码器输出的编码特征能够学习到准确的偏移图。
类似的,本公开实施例中,可提供多种子解码器,包括第一目标子解码器、第二目标子解码器、第三目标子解码器、以及第四目标子解码器。下面对这几种子解码器的结构进行说明。
1)第一目标子解码器的结构
多个子解码器中包括至少一个第一目标子解码器。如图5所示,该第一目标子解码器包括依序串联设置的第三自注意力模块、第三残差和标准化层、第一交叉注意力模块、第四残差和标准化层、第三前向反馈网络、以及第五残差和标准化层。
实施时,在解码器的第一个子解码器为第一目标子解码器的情况下,该第一目标子解码器的输入特征包括图2b所示的可学习特征和编码器输出的编码特征。输入该第一目标子解码器的可学习特征为随机初始化得到的特征。
在解码器的非第一个子解码器为第一目标子解码器的情况下,该第一目标子解码器的输入特征为其上一个子解码器的输出特征(即上一个子解码器输出的可学习特征),以及编码器输出的编码特征。
无论第一目标子解码器是否是编码器的第一个子编码器,本公开实施例中针对任意一个第一目标子解码器,采用该第一目标子解码器处理该第一目标子解码器的输入特征得到该第一目标子解码器输出的可学习特征,可实施为如图5所示:
E1,将第一目标子解码器的输入特征中的可学习特征作为第三自注意力模块的查询向量、值向量和键向量,输入至第三自注意力模块,得到第三自注意力模块输出的第三自注意力特征。
E2,将第三自注意力特征和该第一目标子解码器的输入特征中的可学习特征输入第三残差和标准化层,得到第二中间特征。
E3,将第二中间特征作为第一交叉注意力模块的查询向量,并将解码特征作为第一交叉注意力模块的键向量和值向量,输入第一交叉注意力模块,得到第一交叉特征。
E4,将第一交叉特征和第二中间特征输入第四残差和标准化层,得到第三中间特征。
E5,将第三中间特征输入第三前向反馈网络,得到第三前向特征。
E6,将第三前向特征和第三中间特征输入第五残差和标准化层,得到第一目标子解码器输出的可学习特征。
本公开实施例中,提供了一种可能的子解码器的结构。该第一目标子解码器中通过第三自注意力模块学习到全局信息,进而通过第三残差和标准化层对学习到的全局信息和可学习特征进行融合,以便于学习到更多特征。在此基础上,进一步通过第一交叉注意力模快对编码特征和可学习特征进行融合,有利于适用不同情况的扭曲图,提高图像矫正模型的泛化能力和鲁棒性。进而,通过第四残差和标准化层、第三前向反馈网络和第五残差和标准化层进一步理解学习到的深层次的特征,有助于利用第一损失和第二损失来得到能够对形变进行矫正且考虑边缘情况的偏移图。
2)第二目标子解码器的结构
多个子解码器中包括至少一个第二目标子解码器。如图6所示,该第二目标子解码器包括依序串联设置的第三标准化层、第四自注意力模块、第三残差层、第四标准化层、第二交叉注意力模块、第四残差层、第五标准化层、第四前向反馈网络以及第五残差层。
实施时,在解码器的第一个子解码器为第二目标子解码器的情况下,该第二目标子解码器的输入特征包括图2b所示的可学习特征和编码器输出的编码特征。输入该第二目标子解码器的可学习特征为随机初始化得到的特征。
在解码器的非第一个子解码器为第二目标子解码器的情况下,该第二目标子解码器的输入特征为其上一个子解码器的输出特征(即上一个子解码器输出的可学习特征),以及编码器输出的编码特征。
无论第二目标子解码器是否是编码器的第一个子编码器,本公开实施例中针对任意一个第二目标子解码器,采用该第二目标解码器处理该第二目标子解码器的输入特征得到该第二目标子解码器输出的可学习特征,可实施为如图6所示:
F1,将第二目标子解码器的输入特征中的可学习特征输入第三标准化层,得到第三标准化特征。
F2,将第三标准化特征作为第四自注意力模块的查询向量、值向量和键向量,输入第四自注意力模块,得到第四自注意力模块输出的第四自注意力特征。
F3,将第四自注意力特征和第三标准化特征输入第三残差层,得到第三残差特征。
F4,将第三残差特征输入第四标准化层,得到第四标准化特征。
F5,将第四标准化特征作为第二交叉注意力模块的查询向量,并将编码特征作为第二交叉注意力模块的键向量和值向量,输入第二交叉注意力模块,得到第二交叉特征。
F6,将第二交叉特征和第四标准化特征输入第四残差层,得到第四残差特征。
F7,将第四残差特征输入第五标准化层,得到第五标准化特征。
F8,将第五标准化特征输入第四前向反馈网络,得到第四前向特征。
F9,将第四前向特征和第五标准化特征输入第五残差层,得到第二目标子解码器输出的可学习特征。
本公开实施例中,提供了另一种可能的子解码器的结构。该第二目标子编码器中通过第三标准化层加速收敛速度、避免梯度消失,通过第四自注意力模块学习到全局信息,通过第三残差层对学习到的全局信息和可学习特征进行融合,以便于学习到更多特征。在此基础上,通过第四标准化层加速收敛速度、避免梯度消失,通过第二交叉注意力模快对编码特征和可学习特征进行融合,有利于适用不同情况的扭曲图,提高图像矫正模型的泛化能力和鲁棒性。通过第四残差层对学习到的全局信息和可学习特征进行融合,以便于学习到更多特征。进而,通过第五标准化层、第四前向反馈网络和第五残差层进一步理解学习到的深层次的特征,有助于利用第一损失和第二损失来得到能够对形变进行矫正且考虑边缘情况的偏移图。
3)第三目标子解码器的结构
多个子解码器中包括至少一个第三目标子解码器。如图7所示,该第三目标子解码器包括依序串联设置的第三交叉注意力模块、第六残差和标准化层、第五前向反馈网络以及第七残差和标准化层。实施时,在解码器的第一个子解码器为第三目标子解码器的情况下,该第三目标子解码器的输入特征包括图2b所示的可学习特征和编码器输出的编码特征。输入该第三目标子解码器的可学习特征为随机初始化得到的特征。
在解码器的非第一个子解码器为第三目标子解码器的情况下,该第三目标子解码器的输入特征为其上一个子解码器的输出特征(即上一个子解码器输出的可学习特征),以及编码器输出的编码特征。
无论第三目标子解码器是否是编码器的第一个子编码器,本公开实施例中针对任意一个第三目标子解码器,采用该第三目标子解码器处理该第三目标子解码器的输入特征得到该第三目标子解码器输出的可学习特征,可实施为如图7所示:
G1,将第三目标子解码器的输入特征中的可学习特征作为第三交叉注意力模块的查询向量,并将编码特征作为第三交叉注意力模块的键向量和值向量,输入第三交叉注意力模块,得到第三交叉特征。
G2,将第三交叉特征和第三目标子解码器的输入特征中的可学习特征输入第六残差和标准化层,得到第四中间特征。
G3,将第四中间特征输入第五前向反馈网络,得到第五前向特征。
G4,将第五前向特征和第四中间特征输入第七残差和标准化层,得到第三目标子解码器输出的可学习特征。
本公开实施例中,提供了另一种可能的子解码器的结构。该第三目标子编码器中通过第三交叉注意力模块对编码特征和可学习特征进行融合,有利于适用不同情况的扭曲图,提高图像矫正模型的泛化能力和鲁棒性。进而,通过第六残差和标准化层、第五前向反馈网络和第七残差和标准化层进一步理解学习到的深层次的特征,有助于利用第一损失和第二损失来得到能够对形变进行矫正且考虑边缘情况的偏移图。此外与带有自注意力模块的解码器相比,在能基本实现与其相同的解码效果的基础上,简化了解码器结构,在实现对编码特征和可学习特征进行解码的同时,实现了解码器结构的轻量化,有利于减轻计算压力和系统负担。
4)第四目标子解码器的结构
多个子解码器中包括至少一个第四目标子解码器。如图8所示,该第三目标子解码器包括依序串联设置的第六标准化层、第四交叉注意力模块、第六残差层、第七标准化层、第六前向反馈网络以及第七残差层。实施时,在解码器的第一个子解码器为第四目标子解码器的情况下,该第四目标子解码器的输入特征包括图2b所示的可学习特征和编码器输出的编码特征。输入该第四目标子解码器的可学习特征为随机初始化得到的特征。
在解码器的非第一个子解码器为第四目标子解码器的情况下,该第四目标子解码器的输入特征为其上一个子解码器的输出特征(即上一个子解码器输出的可学习特征),以及编码器输出的编码特征。
无论第四目标子解码器是否是编码器的第一个子编码器,本公开实施例中针对任意一个第四目标子解码器,采用该第四目标子解码器处理该第四目标子解码器的输入特征得到该第四目标子解码器输出的可学习特征,可实施为如图8所示:
H1,将第四目标子解码器的输入特征中的可学习特征输入第六标准化层,得到第六标准化特征。
H2,将第六标准化特征作为第四交叉注意力模块的查询向量,并将编码特征作为第四交叉注意力模块的键向量和值向量,输入第四交叉注意力模块,得到第四交叉特征。
H3,将第四交叉特征和第六标准化特征输入第六残差层,得到第六残差特征。
H4,将第六残差特征输入第七标准化层,得到第七标准化特征。
H5,将第七标准化特征输入第六前向反馈网络,得到第六前向特征。
H6,将第六前向特征和第七标准化特征输入第七残差层,得到第四目标子解码器输出的可学习特征。
本公开实施例中,提供了另一种可能的子解码器的结构。该第四目标子编码器中通过第六标准化层加速收敛速度、避免梯度消失。通过第四交叉注意力模块对编码特征和可学习特征进行融合,有利于适用不同情况的扭曲图,提高图像矫正模型的泛化能力和鲁棒性。通过第六残差层对学习到的全局信息和可学习特征进行融合,以便于学习到更多特征。进而,通过第七标准化层、第六前向反馈网络和第七残差层进一步理解学习到的深层次的特征,有助于利用第一损失和第二损失来得到能够对形变进行矫正且考虑边缘情况的偏移图。
在一些实施例中,确定已矫正分割图和标准分割图之间的第二损失,可实施为:确定已矫正分割图和标准分割图之间的平均绝对误差或平均平方误差,得到第二损失。
在一些实施例中,计算第二损失可采用平均绝对误差或平均平方误差。
其中,平均绝对误差是所有单个观测值与算术平均值的偏差的绝对值的平均,如式(1)所示:
Ldewarp=||fgt-fb|| (1)
其中,fb为图像矫正模型的已矫正分割图输出,fgt为标准分割图的真实标签,Ldewarp为第二损失。
平均平方误差是反映估计量与被估计量之间差异程度的一种度量,如式(2)所示:
Ledge=|Mgt-Mpred| (2)
其中,Mgt、Mpred分别为标准分割图的真实标签和图像矫正模型的已矫正分割图。其中,Mgt、Mpred取值分别为0或1,或Mgt、Mpred取值分别为1或0,1表示前景,0表示背景,Ledge为第二损失。
本公开实施例中,采用平均绝对误差,有利于避免误差相互抵消的问题,从而有利于更加准确地反映已校正分割图和标准分割图之间所产生的误差的大小,有利于更好地反映误差的实际情况。采用平均平方误差,有利于反映已校正分割图和标准分割图之间的差异程度。
综上,如图9所示,为本公开实施例提供的一种图像矫正模型的详细结构图。
其中,扭曲图经图像矫正模型下采样,继续由编码器(包括自注意力层、残差和标准化层、前向反馈层)、解码器(包括自注意力层、残差和标准化层、交叉注意力层、前向反馈层,或包括标准层、自注意力层、残差层、交叉注意力层、前向反馈层)进行处理后,再进行上采样,得到偏移图。然后基于该偏移图矫正扭曲图的前背景分割图后,得到已矫正分割图。再利用偏移图和标准偏移图之间的第一损失、以及已矫正分割图和标准分割图之间的第二损失作为目标损失调整图像矫正模型的参数,最终得到参数调整完毕的图像矫正模型。
对于下采样,可以采用卷积神经网络实现,如图9所示,下采样模块中通过一层7×7的卷积层和3组包括两层3×3的卷积层,使得下采样特征中的特征图的分辨率调整为扭曲图的1/8,以实现对扭曲图的下采样。本公开实施例中对下采样卷积神经网络结构的设计不做具体限制。
在一些实施例中,对于上采样,可以采用卷积神经网络的方式,如图9所示,通过两层3×3的卷积层,使得由编码特征映射为偏移图。本公开实施例中对上采样卷积神经网络结构的设计不做具体限制。
如图9所示,本公开实施例中编码器中共有6个子编码器,最后一个子编码器输出的编码特征分别输入给解码器中的各个子解码器。编码器中各个子编码器的结构可以相同,也可以不同。例如其中部分子编码器采用第一目标子编码器的结构,部分子编码器采用第二目标子编码器的结构。
类似的,如图9所示,本公开实施例中解码器中共设置了6个子解码器。最后一个子解码器输出的解码特征用于上采样为偏移图。解码器中各个子解码器的结构可以相同,也可以不同。例如其中部分子解码器采用第一目标子解码器的结构,部分子解码器采用第二目标子解码器的结构,当然也可以采用第三目标子解码器的结构或第四目标子解码器的结构。
综上,基于前述的图像矫正模型结构和训练方法能够得到已训练的图像矫正模型。基于相同的技术构思,本公开实施例还提供了一种图像矫正方法,如图10所示,为本公开实施例中图像矫正方法的流程示意图,包括:
S1001,获取待矫正图像。
S1002,将待矫正图像输入至已训练的图像矫正模型,得到待矫正图像的偏移图。
S1003,基于偏移图矫正待矫正图像。
本公开实施例中,通过将待矫正图像输入至已训练的图像矫正模型,得到待矫正图像的偏移图,再基于偏移图对待矫正图像进行矫正。由于该已训练的图像矫正模型是采用偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失来进行训练的,因而有利于提高模型的泛化能力,使图像矫正模型趋向于输出对扭曲图矫正效果更好的偏移图,能够在矫正图像的中心区域的同时,对待矫正图像的边缘背景也进行矫正,有利于达成更好的图像矫正效果。而且该模型能适用不同情况的扭曲图,有利于提高图像矫正模型的泛化能力和鲁棒性,从而得到更高质量的矫正图像。
如图11所示,加入了边缘约束后的图像矫正效果,相比于只采用偏移图和标准偏移图之间的第一损失矫正待矫正图像中心内容的方法,本公开实施例提供的已训练的图像矫正模型,能够将边缘背景处理得更干净,边缘信息更加清楚完整,从而使得图像矫正更加准确。
基于相同的技术构思,本公开实施例还提供一种图像矫正模型的训练装置1200,如图12所示,该装置包括:
输入单元1201,用于将扭曲图输入图像矫正模型,得到图像矫正模型输出的偏移图;偏移图用于表示扭曲图和扭曲图的矫正图之间的映射关系;
矫正单元1202,用于基于偏移图矫正扭曲图的前背景分割图,得到已矫正分割图;
确定单元1203,用于基于偏移图和标准偏移图之间的第一损失,以及已矫正分割图和标准分割图之间的第二损失,确定目标损失;
调参单元1204,用于基于目标损失调整图像矫正模型的参数。
在一些实施例中,图像矫正模型,包括下采样模块、编码器、解码器和上采样模块,其中,输入单元,具体用于:
基于下采样模块对扭曲图进行下采样,得到下采样特征;
将下采样特征输入编码器,得到编码器输出的编码特征;
将编码特征输入解码器,得到解码器输出的解码特征;
基于上采样模块对解码特征进行上采样,得到偏移图,偏移图的尺寸与扭曲图的尺寸相同。
在一些实施例中,编码器包括串联设置的多个子编码器,其中,执行将下采样特征输入编码器,得到编码器输出的编码特征,输入单元具体用于:
将下采样特征输入多个子编码器中的第一个子编码器,得到第一个子编码器的输出特征;
针对多个子编码器中的除第一个子编码器之外的任意一个子编码器,将任意一个子编码器的输入特征输入任意一个子编码器,得到任意一个子编码器的输出特征;
其中,任意一个子编码器的输入特征包括任意一个子编码器的上一个子编码器的输出特征;最后一个子编码器的输出特征为编码特征。
在一些实施例中,多个子编码器中至少一个第一目标子编码器中包括依序串联设置的第一自注意力模块、第一残差和标准化层、第一前向反馈网络以及第二残差和标准化层;
执行采用第一目标子编码器处理第一目标子编码器的输入特征得到第一目标子编码器的输出特征,输入单元,具体用于:
将第一目标子编码器的输入特征作为第一自注意力模块的查询向量、值向量和键向量,输入第一自注意力模块,得到第一自注意力模块输出的第一自注意力特征;
将第一自注意力特征以及第一目标子编码器的输入特征输入第一残差和标准化层,得到第一中间特征;
将第一中间特征输入第一前向反馈网络,得到第一前向特征;
将第一前向特征和第一中间特征输入第二残差和标准化层,得到第一目标子编码器的输出特征。
在一些实施例中,多个子编码器中至少一个第二目标子编码器中包括依序串联设置的第一标准化层、第二自注意力模块、第一残差层、第二标准化层、第二前向反馈网络、以及第二残差层;
执行采用第二目标子编码器处理第二目标子编码器的输入特征得到第二目标子编码器的输出特征,输入单元,具体用于:
将第二目标子编码器的输入特征输入第一标准化层,得到第一标准化特征;
将第一标准化特征作为第二自注意力模块的查询向量、值向量和键向量,输入第二自注意力模块,得到第二自注意力模块输出的第二自注意力特征;
将第二自注意力特征以及第一标准化特征输入第一残差层,得到第一残差特征;
将第一残差特征输入第二标准化层,得到第二标准化特征;
将第二标准化特征输入第二前向反馈网络,得到第二前向特征;
将第二前向特征和第二标准化特征输入第二残差层,得到第二目标子编码器的输出特征。
在一些实施例中,解码器包括串联设置的多个子解码器,其中,执行将编码特征输入解码器,得到解码器输出的解码特征,输入单元,具体用于:
将编码特征和可学习特征输入解码器中的第一个子解码器,得到第一个子解码器的输出特征;
针对多个子解码器中的除第一个子解码器之外的任意一个子解码器,将任意一个子解码器的输入特征输入任意一个子解码器,得到任意一个子解码器输出的可学习特征;
其中,任意一个子解码器的输入特征包括任意一个子解码器的上一个子解码器输出的可学习特征以及编码特征;最后一个子解码器输出的可学习特征为解码特征。
在一些实施例中,多个子解码器中至少一个第一目标子解码器包括依序串联设置的第三自注意力模块、第三残差和标准化层、第一交叉注意力模块、第四残差和标准化层、第三前向反馈网络、以及第五残差和标准化层;
执行采用第一目标子解码器处理第一目标子解码器的输入特征得到第一目标子解码器输出的可学习特征,输入单元,具体用于:
将第一目标子解码器的输入特征中的可学习特征作为第三自注意力模块的查询向量、值向量和键向量,输入至第三自注意力模块,得到第三自注意力模块输出的第三自注意力特征;
将第三自注意力特征和第一目标子解码器的输入特征中的可学习特征输入第三残差和标准化层,得到第二中间特征;
将第二中间特征作为第一交叉注意力模块的查询向量,并将解码特征作为第一交叉注意力模块的键向量和值向量,输入第一交叉注意力模块,得到第一交叉特征;
将第一交叉特征和第二中间特征输入第四残差和标准化层,得到第三中间特征;
将第三中间特征输入第三前向反馈网络,得到第三前向特征;
将第三前向特征和第三中间特征输入第五残差和标准化层,得到第一目标子解码器输出的可学习特征。
在一些实施例中,多个子解码器中至少一个第二目标子解码器包括依序串联设置的第三标准化层、第四自注意力模块、第三残差层、第四标准化层、第二交叉注意力模块、第四残差层、第五标准化层、第四前向反馈网络以及第五残差层;
执行采用第二目标解码器处理第二目标子解码器的输入特征得到第二目标子解码器输出的可学习特征,输入单元,具体用于:
将第二目标子解码器的输入特征中的可学习特征输入第三标准化层,得到第三标准化特征;
将第三标准化特征作为第四自注意力模块的查询向量、值向量和键向量,输入第四自注意力模块,得到第四自注意力模块输出的第四自注意力特征;
将第四自注意力特征和第三标准化特征输入第三残差层,得到第三残差特征;
将第三残差特征输入第四标准化层,得到第四标准化特征;
将第四标准化特征作为第二交叉注意力模块的查询向量,并将编码特征作为第二交叉注意力模块的键向量和值向量,输入第二交叉注意力模块,得到第二交叉特征;
将第二交叉特征和第四标准化特征输入第四残差层,得到第四残差特征;
将第四残差特征输入第五标准化层,得到第五标准化特征;
将第五标准化特征输入第四前向反馈网络,得到第四前向特征;
将第四前向特征和第五标准化特征输入第五残差层,得到第二目标子解码器输出的可学习特征。
在一些实施例中,多个子解码器中至少一个第三目标子解码器包括依序串联设置的第三交叉注意力模块、第六残差和标准化层、第五前向反馈网络以及第七残差和标准化层;
执行采用第三目标子解码器处理第三目标子解码器的输入特征得到第三目标子解码器输出的可学习特征,输入单元,具体用于:
将第三目标子解码器的输入特征中的可学习特征作为第三交叉注意力模块的查询向量,并将编码特征作为第三交叉注意力模块的键向量和值向量,输入第三交叉注意力模块,得到第三交叉特征;
将第三交叉特征和第三目标子解码器的输入特征中的可学习特征输入第六残差和标准化层,得到第四中间特征;
将第四中间特征输入第五前向反馈网络,得到第五前向特征;
将第五前向特征和第四中间特征输入第七残差和标准化层,得到第三目标子解码器输出的可学习特征。
在一些实施例中,多个子解码器中至少一个第四目标子解码器包括依序串联设置的第六标准化层、第四交叉注意力模块、第六残差层、第七标准化层、第六前向反馈网络以及第七残差层;
执行采用第四目标子解码器处理第四目标子解码器的输入特征得到第四目标子解码器输出的可学习特征,输入单元,具体用于:
将第四目标子解码器的输入特征中的可学习特征输入第六标准化层,得到第六标准化特征;
将第六标准化特征作为第四交叉注意力模块的查询向量,并将编码特征作为第四交叉注意力模块的键向量和值向量,输入第四交叉注意力模块,得到第四交叉特征;
将第四交叉特征和第六标准化特征输入第六残差层,得到第六残差特征;
将第六残差特征输入第七标准化层,得到第七标准化特征;
将第七标准化特征输入第六前向反馈网络,得到第六前向特征;
将第六前向特征和第七标准化特征输入第七残差层,得到第四目标子解码器输出的可学习特征。
在一些实施例中,确定单元,具体用于,确定已矫正分割图和标准分割图之间的平均绝对误差或平均平方误差,得到第二损失。
基于相同的技术构思,本公开实施例还提供一种图像矫正装置1300,如图13所示,该装置包括:
获取单元1301,用于获取待矫正图像;
图像输入单元1302,用于将待矫正图像输入至前述图像矫正模型的训练装置得到的已训练的图像矫正模型,得到待矫正图像的偏移图;
图像矫正单元1303,用于基于偏移图矫正待矫正图像。
本公开实施例的装置的各单元、子单元的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图14所示,设备1400包括计算单元1401,其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序,来执行各种适当的动作和处理。在RAM 1403中,还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。
设备1400中的多个部件连接至I/O接口1405,包括:输入单元1406,例如键盘、鼠标等;输出单元1407,例如各种类型的显示器、扬声器等;存储单元1408,例如磁盘、光盘等;以及通信单元1409,例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理,例如图像矫正模型的训练方法、图像矫正方法。例如,在一些实施例中,图像矫正模型的训练方法或图像矫正方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时,可以执行上文描述的图像矫正模型的训练方法或图像矫正方法的一个或多个步骤。备选地,在其他实施例中,计算单元1401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像矫正模型的训练方法或图像矫正方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (27)
1.一种图像矫正模型的训练方法,包括:
将扭曲图输入图像矫正模型,得到所述图像矫正模型输出的偏移图;所述偏移图用于表示所述扭曲图和所述扭曲图的矫正图之间的映射关系;
基于所述偏移图矫正所述扭曲图的前背景分割图,得到已矫正分割图;
基于所述偏移图和标准偏移图之间的第一损失,以及所述已矫正分割图和标准分割图之间的第二损失,确定目标损失;
基于所述目标损失调整所述图像矫正模型的参数。
2.根据权利要求1所述的方法,所述图像矫正模型,包括下采样模块、编码器、解码器和上采样模块,其中,所述将扭曲图输入图像矫正模型,得到所述图像矫正模型输出的偏移图,包括:
基于所述下采样模块对所述扭曲图进行下采样,得到下采样特征;
将所述下采样特征输入所述编码器,得到所述编码器输出的编码特征;
将所述编码特征输入所述解码器,得到所述解码器输出的解码特征;
基于所述上采样模块对所述解码特征进行上采样,得到所述偏移图,所述偏移图的尺寸与所述扭曲图的尺寸相同。
3.根据权利要求2所述的方法,所述编码器包括串联设置的多个子编码器,其中,所述将所述下采样特征输入所述编码器,得到所述编码器输出的编码特征,包括:
将所述下采样特征输入所述多个子编码器中的第一个子编码器,得到所述第一个子编码器的输出特征;
针对所述多个子编码器中的除所述第一个子编码器之外的任意一个子编码器,将所述任意一个子编码器的输入特征输入所述任意一个子编码器,得到所述任意一个子编码器的输出特征;
其中,所述任意一个子编码器的输入特征包括所述任意一个子编码器的上一个子编码器的输出特征;最后一个子编码器的输出特征为所述编码特征。
4.根据权利要求3所述的方法,其中,所述多个子编码器中至少一个第一目标子编码器中包括依序串联设置的第一自注意力模块、第一残差和标准化层、第一前向反馈网络以及第二残差和标准化层;
采用所述第一目标子编码器处理所述第一目标子编码器的输入特征得到所述第一目标子编码器的输出特征,包括:
将所述第一目标子编码器的输入特征作为所述第一自注意力模块的查询向量、值向量和键向量,输入所述第一自注意力模块,得到所述第一自注意力模块输出的第一自注意力特征;
将所述第一自注意力特征以及所述第一目标子编码器的输入特征输入所述第一残差和标准化层,得到第一中间特征;
将所述第一中间特征输入所述第一前向反馈网络,得到第一前向特征;
将所述第一前向特征和所述第一中间特征输入所述第二残差和标准化层,得到所述第一目标子编码器的输出特征。
5.根据权利要求3所述的方法,所述多个子编码器中至少一个第二目标子编码器中包括依序串联设置的第一标准化层、第二自注意力模块、第一残差层、第二标准化层、第二前向反馈网络、以及第二残差层;
采用所述第二目标子编码器处理所述第二目标子编码器的输入特征得到所述第二目标子编码器的输出特征,包括:
将所述第二目标子编码器的输入特征输入所述第一标准化层,得到第一标准化特征;
将所述第一标准化特征作为所述第二自注意力模块的查询向量、值向量和键向量,输入所述第二自注意力模块,得到所述第二自注意力模块输出的第二自注意力特征;
将所述第二自注意力特征以及所述第一标准化特征输入所述第一残差层,得到第一残差特征;
将所述第一残差特征输入所述第二标准化层,得到第二标准化特征;
将所述第二标准化特征输入所述第二前向反馈网络,得到第二前向特征;
将所述第二前向特征和所述第二标准化特征输入所述第二残差层,得到所述第二目标子编码器的输出特征。
6.根据权利要求2所述的方法,所述解码器包括串联设置的多个子解码器,其中,所述将所述编码特征输入所述解码器,得到所述解码器输出的解码特征,包括:
将所述编码特征和可学习特征输入所述解码器中的第一个子解码器,得到所述第一个子解码器的输出特征;
针对所述多个子解码器中的除所述第一个子解码器之外的任意一个子解码器,将所述任意一个子解码器的输入特征输入所述任意一个子解码器,得到所述任意一个子解码器输出的可学习特征;
其中,所述任意一个子解码器的输入特征包括所述任意一个子解码器的上一个子解码器输出的可学习特征以及所述编码特征;最后一个所述子解码器输出的可学习特征为所述解码特征。
7.根据权利要求6所述的方法,其中,所述多个子解码器中至少一个第一目标子解码器包括依序串联设置的第三自注意力模块、第三残差和标准化层、第一交叉注意力模块、第四残差和标准化层、第三前向反馈网络、以及第五残差和标准化层;
采用所述第一目标子解码器处理所述第一目标子解码器的输入特征得到所述第一目标子解码器输出的可学习特征,包括:
将所述第一目标子解码器的输入特征中的可学习特征作为所述第三自注意力模块的查询向量、值向量和键向量,输入至所述第三自注意力模块,得到所述第三自注意力模块输出的第三自注意力特征;
将所述第三自注意力特征和所述第一目标子解码器的输入特征中的可学习特征输入所述第三残差和标准化层,得到第二中间特征;
将所述第二中间特征作为所述第一交叉注意力模块的查询向量,并将所述解码特征作为所述第一交叉注意力模块的键向量和值向量,输入所述第一交叉注意力模块,得到第一交叉特征;
将所述第一交叉特征和所述第二中间特征输入所述第四残差和标准化层,得到第三中间特征;
将所述第三中间特征输入所述第三前向反馈网络,得到第三前向特征;
将所述第三前向特征和所述第三中间特征输入所述第五残差和标准化层,得到所述第一目标子解码器输出的可学习特征。
8.根据权利要求6所述的方法,其中,所述多个子解码器中至少一个第二目标子解码器包括依序串联设置的第三标准化层、第四自注意力模块、第三残差层、第四标准化层、第二交叉注意力模块、第四残差层、第五标准化层、第四前向反馈网络以及第五残差层;
采用所述第二目标解码器处理所述第二目标子解码器的输入特征得到所述第二目标子解码器输出的可学习特征,包括:
将所述第二目标子解码器的输入特征中的可学习特征输入所述第三标准化层,得到第三标准化特征;
将所述第三标准化特征作为所述第四自注意力模块的查询向量、值向量和键向量,输入所述第四自注意力模块,得到所述第四自注意力模块输出的第四自注意力特征;
将所述第四自注意力特征和所述第三标准化特征输入所述第三残差层,得到第三残差特征;
将所述第三残差特征输入所述第四标准化层,得到第四标准化特征;
将所述第四标准化特征作为所述第二交叉注意力模块的查询向量,并将所述编码特征作为所述第二交叉注意力模块的键向量和值向量,输入所述第二交叉注意力模块,得到第二交叉特征;
将所述第二交叉特征和所述第四标准化特征输入所述第四残差层,得到第四残差特征;
将所述第四残差特征输入所述第五标准化层,得到第五标准化特征;
将所述第五标准化特征输入所述第四前向反馈网络,得到第四前向特征;
将所述第四前向特征和所述第五标准化特征输入所述第五残差层,得到所述第二目标子解码器输出的可学习特征。
9.根据权利要求6所述的方法,其中,所述多个子解码器中至少一个第三目标子解码器包括依序串联设置的第三交叉注意力模块、第六残差和标准化层、第五前向反馈网络以及第七残差和标准化层;
采用所述第三目标子解码器处理所述第三目标子解码器的输入特征得到所述第三目标子解码器输出的可学习特征,包括:
将所述第三目标子解码器的输入特征中的可学习特征作为所述第三交叉注意力模块的查询向量,并将所述编码特征作为所述第三交叉注意力模块的键向量和值向量,输入所述第三交叉注意力模块,得到第三交叉特征;
将所述第三交叉特征和所述第三目标子解码器的输入特征中的可学习特征输入所述第六残差和标准化层,得到第四中间特征;
将所述第四中间特征输入所述第五前向反馈网络,得到第五前向特征;
将所述第五前向特征和所述第四中间特征输入所述第七残差和标准化层,得到所述第三目标子解码器输出的可学习特征。
10.根据权利要求6所述的方法,其中,所述多个子解码器中至少一个第四目标子解码器包括依序串联设置的第六标准化层、第四交叉注意力模块、第六残差层、第七标准化层、第六前向反馈网络以及第七残差层;
采用所述第四目标子解码器处理所述第四目标子解码器的输入特征得到所述第四目标子解码器输出的可学习特征,包括:
将所述第四目标子解码器的输入特征中的可学习特征输入所述第六标准化层,得到第六标准化特征;
将所述第六标准化特征作为所述第四交叉注意力模块的查询向量,并将所述编码特征作为所述第四交叉注意力模块的键向量和值向量,输入所述第四交叉注意力模块,得到第四交叉特征;
将所述第四交叉特征和所述第六标准化特征输入所述第六残差层,得到第六残差特征;
将所述第六残差特征输入所述第七标准化层,得到第七标准化特征;
将所述第七标准化特征输入所述第六前向反馈网络,得到第六前向特征;
将所述第六前向特征和所述第七标准化特征输入所述第七残差层,得到所述第四目标子解码器输出的可学习特征。
11.根据权利要求1-10中任一项所述的方法,其中,确定所述已矫正分割图和标准分割图之间的第二损失,包括:
确定所述已矫正分割图和所述标准分割图之间的平均绝对误差或平均平方误差,得到所述第二损失。
12.一种图像矫正方法,包括:
获取待矫正图像;
将所述待矫正图像输入至权利要求1-11中任一项所述的方法得到的已训练的图像矫正模型,得到所述待矫正图像的偏移图;
基于所述偏移图矫正所述待矫正图像。
13.一种图像矫正模型的训练装置,包括:
输入单元,用于将扭曲图输入图像矫正模型,得到所述图像矫正模型输出的偏移图;所述偏移图用于表示所述扭曲图和所述扭曲图的矫正图之间的映射关系;
矫正单元,用于基于所述偏移图矫正所述扭曲图的前背景分割图,得到已矫正分割图;
确定单元,用于基于所述偏移图和标准偏移图之间的第一损失,以及所述已矫正分割图和标准分割图之间的第二损失,确定目标损失;
调参单元,用于基于所述目标损失调整所述图像矫正模型的参数。
14.根据权利要求13所述的装置,所述图像矫正模型,包括下采样模块、编码器、解码器和上采样模块,其中,所述输入单元,具体用于:
基于所述下采样模块对所述扭曲图进行下采样,得到下采样特征;
将所述下采样特征输入所述编码器,得到所述编码器输出的编码特征;
将所述编码特征输入所述解码器,得到所述解码器输出的解码特征;
基于所述上采样模块对所述解码特征进行上采样,得到所述偏移图,所述偏移图的尺寸与所述扭曲图的尺寸相同。
15.根据权利要求14所述的装置,所述编码器包括串联设置的多个子编码器,其中,执行所述将所述下采样特征输入所述编码器,得到所述编码器输出的编码特征,所述输入单元具体用于:
将所述下采样特征输入所述多个子编码器中的第一个子编码器,得到所述第一个子编码器的输出特征;
针对所述多个子编码器中的除所述第一个子编码器之外的任意一个子编码器,将所述任意一个子编码器的输入特征输入所述任意一个子编码器,得到所述任意一个子编码器的输出特征;
其中,所述任意一个子编码器的输入特征包括所述任意一个子编码器的上一个子编码器的输出特征;最后一个子编码器的输出特征为所述编码特征。
16.根据权利要求15所述的装置,其中,所述多个子编码器中至少一个第一目标子编码器中包括依序串联设置的第一自注意力模块、第一残差和标准化层、第一前向反馈网络以及第二残差和标准化层;
执行采用所述第一目标子编码器处理所述第一目标子编码器的输入特征得到所述第一目标子编码器的输出特征,所述输入单元,具体用于:
将所述第一目标子编码器的输入特征作为所述第一自注意力模块的查询向量、值向量和键向量,输入所述第一自注意力模块,得到所述第一自注意力模块输出的第一自注意力特征;
将所述第一自注意力特征以及所述第一目标子编码器的输入特征输入所述第一残差和标准化层,得到第一中间特征;
将所述第一中间特征输入所述第一前向反馈网络,得到第一前向特征;
将所述第一前向特征和所述第一中间特征输入所述第二残差和标准化层,得到所述第一目标子编码器的输出特征。
17.根据权利要求15所述的装置,所述多个子编码器中至少一个第二目标子编码器中包括依序串联设置的第一标准化层、第二自注意力模块、第一残差层、第二标准化层、第二前向反馈网络、以及第二残差层;
执行采用所述第二目标子编码器处理所述第二目标子编码器的输入特征得到所述第二目标子编码器的输出特征,所述输入单元,具体用于:
将所述第二目标子编码器的输入特征输入所述第一标准化层,得到第一标准化特征;
将所述第一标准化特征作为所述第二自注意力模块的查询向量、值向量和键向量,输入所述第二自注意力模块,得到所述第二自注意力模块输出的第二自注意力特征;
将所述第二自注意力特征以及所述第一标准化特征输入所述第一残差层,得到第一残差特征;
将所述第一残差特征输入所述第二标准化层,得到第二标准化特征;
将所述第二标准化特征输入所述第二前向反馈网络,得到第二前向特征;
将所述第二前向特征和所述第二标准化特征输入所述第二残差层,得到所述第二目标子编码器的输出特征。
18.根据权利要求14所述的装置,所述解码器包括串联设置的多个子解码器,其中,执行所述将所述编码特征输入所述解码器,得到所述解码器输出的解码特征,所述输入单元,具体用于:
将所述编码特征和可学习特征输入所述解码器中的第一个子解码器,得到所述第一个子解码器的输出特征;
针对所述多个子解码器中的除所述第一个子解码器之外的任意一个子解码器,将所述任意一个子解码器的输入特征输入所述任意一个子解码器,得到所述任意一个子解码器输出的可学习特征;
其中,所述任意一个子解码器的输入特征包括所述任意一个子解码器的上一个子解码器输出的可学习特征以及所述编码特征;最后一个所述子解码器输出的可学习特征为所述解码特征。
19.根据权利要求18所述的装置,其中,所述多个子解码器中至少一个第一目标子解码器包括依序串联设置的第三自注意力模块、第三残差和标准化层、第一交叉注意力模块、第四残差和标准化层、第三前向反馈网络、以及第五残差和标准化层;
执行采用所述第一目标子解码器处理所述第一目标子解码器的输入特征得到所述第一目标子解码器输出的可学习特征,所述输入单元,具体用于:
将所述第一目标子解码器的输入特征中的可学习特征作为所述第三自注意力模块的查询向量、值向量和键向量,输入至所述第三自注意力模块,得到所述第三自注意力模块输出的第三自注意力特征;
将所述第三自注意力特征和所述第一目标子解码器的输入特征中的可学习特征输入所述第三残差和标准化层,得到第二中间特征;
将所述第二中间特征作为所述第一交叉注意力模块的查询向量,并将所述解码特征作为所述第一交叉注意力模块的键向量和值向量,输入所述第一交叉注意力模块,得到第一交叉特征;
将所述第一交叉特征和所述第二中间特征输入所述第四残差和标准化层,得到第三中间特征;
将所述第三中间特征输入所述第三前向反馈网络,得到第三前向特征;
将所述第三前向特征和所述第三中间特征输入所述第五残差和标准化层,得到所述第一目标子解码器输出的可学习特征。
20.根据权利要求18所述的装置,其中,所述多个子解码器中至少一个第二目标子解码器包括依序串联设置的第三标准化层、第四自注意力模块、第三残差层、第四标准化层、第二交叉注意力模块、第四残差层、第五标准化层、第四前向反馈网络以及第五残差层;
执行采用所述第二目标解码器处理所述第二目标子解码器的输入特征得到所述第二目标子解码器输出的可学习特征,所述输入单元,具体用于:
将所述第二目标子解码器的输入特征中的可学习特征输入所述第三标准化层,得到第三标准化特征;
将所述第三标准化特征作为所述第四自注意力模块的查询向量、值向量和键向量,输入所述第四自注意力模块,得到所述第四自注意力模块输出的第四自注意力特征;
将所述第四自注意力特征和所述第三标准化特征输入所述第三残差层,得到第三残差特征;
将所述第三残差特征输入所述第四标准化层,得到第四标准化特征;
将所述第四标准化特征作为所述第二交叉注意力模块的查询向量,并将所述编码特征作为所述第二交叉注意力模块的键向量和值向量,输入所述第二交叉注意力模块,得到第二交叉特征;
将所述第二交叉特征和所述第四标准化特征输入所述第四残差层,得到第四残差特征;
将所述第四残差特征输入所述第五标准化层,得到第五标准化特征;
将所述第五标准化特征输入所述第四前向反馈网络,得到第四前向特征;
将所述第四前向特征和所述第五标准化特征输入所述第五残差层,得到所述第二目标子解码器输出的可学习特征。
21.根据权利要求18所述的装置,其中,所述多个子解码器中至少一个第三目标子解码器包括依序串联设置的第三交叉注意力模块、第六残差和标准化层、第五前向反馈网络以及第七残差和标准化层;
执行采用所述第三目标子解码器处理所述第三目标子解码器的输入特征得到所述第三目标子解码器输出的可学习特征,所述输入单元,具体用于:
将所述第三目标子解码器的输入特征中的可学习特征作为所述第三交叉注意力模块的查询向量,并将所述编码特征作为所述第三交叉注意力模块的键向量和值向量,输入所述第三交叉注意力模块,得到第三交叉特征;
将所述第三交叉特征和所述第三目标子解码器的输入特征中的可学习特征输入所述第六残差和标准化层,得到第四中间特征;
将所述第四中间特征输入所述第五前向反馈网络,得到第五前向特征;
将所述第五前向特征和所述第四中间特征输入所述第七残差和标准化层,得到所述第三目标子解码器输出的可学习特征。
22.根据权利要求18所述的装置,其中,所述多个子解码器中至少一个第四目标子解码器包括依序串联设置的第六标准化层、第四交叉注意力模块、第六残差层、第七标准化层、第六前向反馈网络以及第七残差层;
执行采用所述第四目标子解码器处理所述第四目标子解码器的输入特征得到所述第四目标子解码器输出的可学习特征,所述输入单元,具体用于:
将所述第四目标子解码器的输入特征中的可学习特征输入所述第六标准化层,得到第六标准化特征;
将所述第六标准化特征作为所述第四交叉注意力模块的查询向量,并将所述编码特征作为所述第四交叉注意力模块的键向量和值向量,输入所述第四交叉注意力模块,得到第四交叉特征;
将所述第四交叉特征和所述第六标准化特征输入所述第六残差层,得到第六残差特征;
将所述第六残差特征输入所述第七标准化层,得到第七标准化特征;
将所述第七标准化特征输入所述第六前向反馈网络,得到第六前向特征;
将所述第六前向特征和所述第七标准化特征输入所述第七残差层,得到所述第四目标子解码器输出的可学习特征。
23.根据权利要求13-22中任一项所述的装置,其中,所述确定单元,具体用于,确定所述已矫正分割图和所述标准分割图之间的平均绝对误差或平均平方误差,得到所述第二损失。
24.一种图像矫正装置,包括:
获取单元,用于获取待矫正图像;
图像输入单元,用于将所述待矫正图像输入至权利要求13-23中任一项所述的装置得到的已训练的图像矫正模型,得到所述待矫正图像的偏移图;
图像矫正单元,用于基于所述偏移图矫正所述待矫正图像。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。
27.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318509.XA CN116503686A (zh) | 2023-03-28 | 2023-03-28 | 图像矫正模型的训练方法、图像矫正方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310318509.XA CN116503686A (zh) | 2023-03-28 | 2023-03-28 | 图像矫正模型的训练方法、图像矫正方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116503686A true CN116503686A (zh) | 2023-07-28 |
Family
ID=87323838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310318509.XA Pending CN116503686A (zh) | 2023-03-28 | 2023-03-28 | 图像矫正模型的训练方法、图像矫正方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503686A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557447A (zh) * | 2024-01-11 | 2024-02-13 | 深圳智能思创科技有限公司 | 图像还原方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103477626A (zh) * | 2012-04-19 | 2013-12-25 | 佳能株式会社 | 图像处理设备、图像处理方法、程序和存储介质 |
CN111091504A (zh) * | 2019-11-20 | 2020-05-01 | 上海联影智能医疗科技有限公司 | 图像偏差场矫正方法、计算机设备和存储介质 |
WO2020192471A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN112597998A (zh) * | 2021-01-07 | 2021-04-02 | 天津师范大学 | 一种基于深度学习的扭曲图像矫正方法、装置和存储介质 |
CN113706400A (zh) * | 2021-04-02 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 图像矫正方法、装置、显微镜图像的矫正方法及电子设备 |
CN113705597A (zh) * | 2021-03-05 | 2021-11-26 | 腾讯科技(北京)有限公司 | 一种图像处理方法、装置、计算机设备以及可读存储介质 |
CN114648763A (zh) * | 2022-04-01 | 2022-06-21 | 西安电子科技大学 | 一种基于前向预测的扭曲文档图像矫正方法及系统 |
CN115063303A (zh) * | 2022-05-18 | 2022-09-16 | 大连理工大学 | 一种基于图像修复的图像3d化方法 |
CN115187834A (zh) * | 2022-07-11 | 2022-10-14 | 中国银行股份有限公司 | 一种票据识别的方法及装置 |
CN115660991A (zh) * | 2022-10-31 | 2023-01-31 | 北京百度网讯科技有限公司 | 模型的训练方法、图像曝光矫正方法、装置、设备及介质 |
-
2023
- 2023-03-28 CN CN202310318509.XA patent/CN116503686A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103477626A (zh) * | 2012-04-19 | 2013-12-25 | 佳能株式会社 | 图像处理设备、图像处理方法、程序和存储介质 |
WO2020192471A1 (zh) * | 2019-03-26 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
CN111091504A (zh) * | 2019-11-20 | 2020-05-01 | 上海联影智能医疗科技有限公司 | 图像偏差场矫正方法、计算机设备和存储介质 |
CN112597998A (zh) * | 2021-01-07 | 2021-04-02 | 天津师范大学 | 一种基于深度学习的扭曲图像矫正方法、装置和存储介质 |
CN113705597A (zh) * | 2021-03-05 | 2021-11-26 | 腾讯科技(北京)有限公司 | 一种图像处理方法、装置、计算机设备以及可读存储介质 |
CN113706400A (zh) * | 2021-04-02 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 图像矫正方法、装置、显微镜图像的矫正方法及电子设备 |
CN114648763A (zh) * | 2022-04-01 | 2022-06-21 | 西安电子科技大学 | 一种基于前向预测的扭曲文档图像矫正方法及系统 |
CN115063303A (zh) * | 2022-05-18 | 2022-09-16 | 大连理工大学 | 一种基于图像修复的图像3d化方法 |
CN115187834A (zh) * | 2022-07-11 | 2022-10-14 | 中国银行股份有限公司 | 一种票据识别的方法及装置 |
CN115660991A (zh) * | 2022-10-31 | 2023-01-31 | 北京百度网讯科技有限公司 | 模型的训练方法、图像曝光矫正方法、装置、设备及介质 |
Non-Patent Citations (2)
Title |
---|
SHAODI YOU等: "Multiview Rectification of Folded Documents", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 40, no. 2, pages 505 - 511 * |
徐胜军等: "一种编解码结构的车牌图像超分辨率网络", 西安交通大学学报, vol. 56, no. 10, pages 101 - 110 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117557447A (zh) * | 2024-01-11 | 2024-02-13 | 深圳智能思创科技有限公司 | 图像还原方法、装置、设备及存储介质 |
CN117557447B (zh) * | 2024-01-11 | 2024-04-26 | 深圳智能思创科技有限公司 | 图像还原方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109101975B (zh) | 基于全卷积神经网络的图像语义分割方法 | |
CN109377530B (zh) | 一种基于深度神经网络的双目深度估计方法 | |
CN110335290B (zh) | 基于注意力机制的孪生候选区域生成网络目标跟踪方法 | |
WO2022033048A1 (zh) | 视频插帧方法、模型训练方法及对应装置 | |
CN113792730B (zh) | 文档图像的矫正方法、装置、电子设备和存储介质 | |
CN109389667B (zh) | 一种基于深度学习的高效全局光照明绘制方法 | |
CN113792526B (zh) | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 | |
CN111861880A (zh) | 基于区域信息增强与块自注意力的图像超分与融合方法 | |
CN114612289A (zh) | 风格化图像生成方法、装置及图像处理设备 | |
CN112308866A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113688907A (zh) | 模型训练、视频处理方法,装置,设备以及存储介质 | |
CN113792853B (zh) | 字符生成模型的训练方法、字符生成方法、装置和设备 | |
WO2023077809A1 (zh) | 神经网络训练的方法、电子设备及计算机存储介质 | |
CN116503686A (zh) | 图像矫正模型的训练方法、图像矫正方法、装置及介质 | |
Jeon et al. | ABCD: Attentive bilateral convolutional network for robust depth completion | |
CN116645598A (zh) | 一种基于通道注意力特征融合的遥感图像语义分割方法 | |
CN114202648B (zh) | 文本图像矫正方法、训练方法、装置、电子设备以及介质 | |
CN110782398B (zh) | 图像处理方法、生成式对抗网络系统和电子设备 | |
CN116363429A (zh) | 图像识别模型的训练方法、图像识别方法、装置及设备 | |
CN115660991A (zh) | 模型的训练方法、图像曝光矫正方法、装置、设备及介质 | |
CN115131414A (zh) | 基于深度学习的无人机图像对齐方法、电子设备和存储介质 | |
CN115439669A (zh) | 基于深度学习的特征点检测网络及跨分辨率图像匹配方法 | |
CN114821116A (zh) | 图像的显著性区域提取方法、装置、设备以及存储介质 | |
CN111382845B (zh) | 一种基于自注意力机制的模板重建方法 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |