CN116681980B - 基于深度学习的大缺失率图像修复方法、装置和存储介质 - Google Patents

基于深度学习的大缺失率图像修复方法、装置和存储介质 Download PDF

Info

Publication number
CN116681980B
CN116681980B CN202310943486.1A CN202310943486A CN116681980B CN 116681980 B CN116681980 B CN 116681980B CN 202310943486 A CN202310943486 A CN 202310943486A CN 116681980 B CN116681980 B CN 116681980B
Authority
CN
China
Prior art keywords
feature map
image
domain feature
frequency domain
spatial domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310943486.1A
Other languages
English (en)
Other versions
CN116681980A (zh
Inventor
王恒友
柯熔基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN202310943486.1A priority Critical patent/CN116681980B/zh
Publication of CN116681980A publication Critical patent/CN116681980A/zh
Application granted granted Critical
Publication of CN116681980B publication Critical patent/CN116681980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例提供了基于深度学习的大缺失率图像修复方法、装置和存储介质,方法包括:采集待修补图像;以所述待修补图像为输入,输入到预设的深度学习模型中;通过所述深度学习模型,分别提取所述待修补图像的空间域特征图和频率域特征图;基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像。本申请提供的技术方案用以解决被修补后区域的纹理与原图像对应不上的问题。

Description

基于深度学习的大缺失率图像修复方法、装置和存储介质
技术领域
本申请件涉及图像处理技术领域,尤其涉及基于深度学习的大缺失率图像修复方法、装置和存储介质。
背景技术
大区域缺失的图像修复问题作为一项具有重要应用价值的研究问题,引起了学术界图像领域的广泛关注。
现有技术采用门卷积对存在缺陷的图像进行两个阶段的修复。
然而,现有技术在图像修复时没有考虑频率对图像的影响,导致被修补后区域的纹理与原图像对应不上,从而降低了修复精度。
发明内容
鉴于上述的分析,本申请旨在提出基于深度学习的大缺失率图像修复方法、装置和存储介质,以提高图像修复的精确度。
第一方面,本说明书一个或多个实施例提供了一种基于深度学习的大缺失率图像修复方法,包括:
采集待修补图像;
以所述待修补图像为输入,输入到预设的深度学习模型中;
通过所述深度学习模型,分别提取所述待修补图像的空间域特征图和频率域特征图;
基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像。
进一步地,所述深度学习模型的训练过程包括:
每次训练完成后,分别计算基于空间域的L1范数损失值和基于频率域的L1范数损失值;
根据所述空间域的L1范数损失值和所述基于频率域的L1范数损失值,得到复合损失值。
进一步地,在所述得到复合损失值之后,所述方法还包括:
根据所述复合损失值,确定所述深度学习模型中参数的梯度值;
利用预设优化器根据所述梯度值调整所述深度学习模型的参数。
进一步地,所述深度学习模型包括:空间域编码器和频率域编码器;
所述通过所述深度学习模型,分别提取所述待修补图像的空间域特征图和频率域特征图,包括:
通过所述空间域编码器提取所述待修补图像的空间域特征图;
通过所述频率域编码器提取所述待修补图像的频率域特征图。
进一步地,所述基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像,包括:
计算所述空间域特征图和所述频率域特征图的相关性;
根据所述相关性分别确定所述空间域特征图的注意力分数和所述频率域特征图的注意力分数;
根据所述空间域特征图、所述频率域特征图、所述空间域特征图的注意力分数和所述频率域特征图的注意力分数,确定所述最终修复图像。
第二方面,本申请实施例提供了一种基于深度学习的大缺失率图像修复装置,包括:采集模块、数据处理模块和修复模块;
所述采集模块用于采集待修补图像;
所述数据处理模块用于以所述待修补图像为输入,输入到预设的深度学习模型中;通过所述深度学习模型,分别提取所述待修补图像的空间域特征图和频率域特征图;
所述修复模块用于基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像。
进一步地,所述深度学习模型包括:空间域编码器;
所述数据处理模块用于通过所述空间域编码器提取所述待修补图像的空间域特征图。
进一步地,所述深度学习模型包括:频率域编码器;
所述数据处理模块通过所述频率域编码器提取所述待修补图像的频率域特征图。
进一步地,所述修复模块用于计算所述空间域特征图和所述频率域特征图的相关性;根据所述相关性分别确定所述空间域特征图的注意力分数和所述频率域特征图的注意力分数;根据所述空间域特征图、所述频率域特征图、所述空间域特征图的注意力分数和所述频率域特征图的注意力分数,确定所述最终修复图像。
第三方面,本申请实施例提供了一种存储介质,包括:
用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现第一方面中任一项所述的方法。
与现有技术相比,本申请至少能实现以下技术效果:
基于深度学习模型分别提取待修补图像的空间域特征图和频率域特征图,为后续空间域-频率域特征融合奠定基础。基于注意力机制,将空间域特征和频率域特征的关联关系引入图像修复,以实现考虑频率对图像的影响,从而提高图像修复的效率。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的基于深度学习的大缺失率图像修复方法的流程图;
图2为本说明书一个或多个实施例提供的深度学习模型的训练过程的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请件的保护范围。
在我们的生活中会经常遇到以下场景,拍照的时候把一些不感兴趣的物体也一起拍到了照片中,然后就希望能把这些不感兴趣的物体去掉的同时,能使整张照片保持一个合理的模样。图像修复就包含了刚才描述的任务。也就是,图像修复是指对一张图像的缺失部分进行填充,并且填充的图像能保持整体的合理性,即能够使填充部分与周围的已知部分保持语义和纹理的一致性。对于图像的小区域缺失,传统的图像修复方法都能很好地进行修复;但对于图像的大区域缺失(即大缺失率),例如图像缺失率在10%-50%之间时,传统的图像修复方法就很难使得缺失区域的修复结果能与周围的已知部分保持语义和纹理的一致性。具体地,现有技术存在以下缺点:
1. 从输出的结果来看,修复结果中缺失部分的结构和细节并不能与周围已知部分的很好地融合,即不具有整体的合理性。
2. 两个分支之间的特征融合使用了直接相加的方式,不能很好地做好内部特征的保留和结合。
3. 网络在对图像进行修复的过程中,仅使用了图像的空间域的信息,没有把图像的其他域的信息也引入到修复过程中,使得修复过程并不够全面。
4. 损失函数使用的是基于空间域的L1范数损失,这样的计算仅能代表图像的空间域,并不能比较全面地概括图像的其他域。
针对上述问题,本申请提出了一种基于深度学习的大缺失率图像修复方法,包括以下步骤:
步骤1、采集待修补图像。
步骤2、以待修补图像为输入,输入到预设的深度学习模型中。
在本申请实施例中,在深度学习模型中,需要对待修补图像进行预处理,具体地,从图像数据集中获取成对的自然图像和掩码图像数据。
步骤3、通过深度学习模型,分别提取待修补图像的空间域特征图和频率域特征图。
在本申请实施例中,深度学习模型包括:空间域编码器和频率域编码器;通过空间域编码器提取待修补图像的空间域特征图;通过频率域编码器提取待修补图像的频率域特征图。通过设置空间域编码器和频率域编码器,实现分别提取空间域特征和频率域特征,为后续融合创造条件。
步骤4、基于注意力机制,融合空间域特征图和频率域特征图,得到最终修复图像。
在本申请实施例中,计算空间域特征图和频率域特征图的相关性;根据相关性分别确定空间域特征图的注意力分数和频率域特征图的注意力分数;根据空间域特征图、频率域特征图、空间域特征图的注意力分数和频率域特征图的注意力分数,确定最终修复图像。当融合两个形状一样的不同性质的特征图时,本申请没有选择简单地直接逐元素相加,而是计算两个特征图之间的相关性,并得到关于相关性的注意力分数,根据注意力分数对两个特征图进行相加。具体地,首先针对要融合的空间域和频率域两个分支分别进行了卷积和压缩通道数,然后对压缩后的两个分支计算其相关性并基于归一化指数函数得到注意力分数(0和1之间的比率),之后把空间域分支与注意力分数进行矩阵相乘后再乘上一个可学习的缩放因子,最后与其自身相加,即可得到融合之后的特征图。
在本申请实施例中,深度学习模型训练过程除了包括上述步骤1-4以外,为了加快收敛还包括以下步骤:
每次训练完成后,分别计算基于空间域的L1范数损失值和基于频率域的L1范数损失值;
根据所述空间域的L1范数损失值和所述基于频率域的L1范数损失值,得到复合损失值。
其中,本申请的损失函数为:
其中代表的是频率转换运算,/>是本申请设计的神经网络,/>是该神经网络的参数,/>是每一张含有缺失的图像,/>是/>对应的没有缺失的完整图像,/>是训练时的图像总数。
本申请通过改进损失函数可以更好的保留图像的细节信息。
在本申请实施例中,根据复合损失值,确定深度学习模型中参数的梯度值。利用预设优化器根据梯度值调整深度学习模型的参数。通过优化器基于测梯度值,对深度学习模型的参数优化,从而加速训练过程中的模型收敛。
为了更好地说明模型的训练过程,本申请给出下述实施例,如图2所示。训练过程分为5个阶段:输入含有缺失区域图像预处理阶段、模型算法修复阶段、损失函数计算阶段、模型优化阶段和测试评估阶段。
一、输入含有缺失区域图像预处理阶段,该阶段主要对应图2中的输入含有破损区域的图像和图像预处理,具体包括:
步骤1-1:从图像数据集中获取成对的自然图像和掩码图像数据,加载到GPU显存中;
步骤1-2:对图像做标准化操作,将数值范围缩放到0到1之间,根据设置的大小进行裁剪,并适当使用随机翻转、旋转等数据增强操作;
步骤1-3:根据设置好的批量大小将数据组成批量的形式,对应的将由自然图像和掩码图像生成的含有缺失区域图像组成一批,自然图像组成一批,分别用于后期模型算法的输入和作为目标图像计算距离损失。
二、模型算法修复阶段,该阶段主要对应图2中的模型前向传播得到修复后的图像,具体包括:
步骤2-1:输入含有缺失区域的图像,通过由卷积层构成的初步编码器中,进行特征的编码操作,得到空间尺寸小于输入的特征图;
步骤2-2:将特征图输入到由反卷积层构成的初步解码器中,进行解码操作,得到输出初步修复图像;
步骤2-3:将初步修复图像输入由卷积层构成的空间域编码器中,进行空间域特征的编码操作;同时,将初步修复图像进行频率域转换后输入由卷积层构成的频率域编码器中,进行频率域特征的编码操作;最后得到关于空间域和频率域的两个特征图;
步骤2-4:将空间域和频率域的两个特征图输入空间-频率注意模块中进行特征融合,得到空间域与频率域的融合特征图;
步骤2-5:将上一步得到的空间域与频率域的融合特征图输入由反卷积层组成的最终解码器,进行特征的解码操作,最后直接输出最终修复图像。
三、损失函数计算阶段,该阶段主要对应图2中的梯度方向传播,更新模型参数,具体包括:
步骤3-1:计算基于空间域的L1范数损失值(Content Loss)
步骤3-1-1:以成对的方式取模型算法修复后的图像和自然图像作为基于空间域的L1范数损失函数的输入;
步骤3-1-2:计算两个图像的Content损失。
步骤3-2:计算基于频率域的L1范数损失值(Frequency Loss)
步骤3-2-1:同样以成对的方式取模型算法修复后的图像和自然图像作为基于频率域的L1范数损失函数的输入;
步骤3-2-2:计算两个图像的Frequency损失。
步骤3-3:计算复合损失的值,使用设置好的损失函数超参数,对所有损失进行加权融合,得到最终的复合损失值。
四、模型优化阶段,该阶段主要对应图2中的梯度方向传播,更新模型参数,具体包括:
步骤4-1:代码实现基于PyTorch深度学习框架,可以从最终计算的复合损失值出发进行反向传播,自动计算模型中参数的梯度值;
步骤4-2:利用前面步骤中计算的梯度,使用优化器(例如Pytorch的Adam优化器)对模型算法的可学习参数值进行更新操作;
步骤4-3:在模型达到超参数设定的轮数之前重复上述所有执行步骤,达到训练轮数后停止模型的训练过程。
五、测试评估阶段,该阶段主要对应图2中测试模型的修复效果及其之后的流程,具体包括:
步骤5-1:读取测试集的自然图像和掩码图像,将由自然图像和掩码图像生成的含有缺失区域图像作为测试模型的输入,将自然图像作为目标图像,加载至GPU显存,并进行和训练环节相同的标准化操作(注意测试时不需要进行裁剪和图像增强);
步骤5-2:采用图像修复中常用的Frechet Inception Distance (FID)、LearnedPerceptual Image Patch Similarity (LPIPS,学习感知图像块相似度)和Deep ImageStructure and Texture Similarity (DISTS)作为评价指标,通过评估计算的指标值,初步进行模型优劣的评价。
步骤5-3:由于上一步骤中的评估指标并不能完全代表模型算法的修复效果,在实际使用中,也需要由人们进行打分,针对图像给出更为直观的质量评估。
步骤5-4:若评估结果未达到要求,则需要调整模型的超参数,回到执行步骤的第一步,重新进行模型的训练环节,若评估结果达到要求,则可以保存模型权重,得到图像修复的解决方案。
本申请实施例提供了一种基于深度学习的大缺失率图像修复装置,包括:采集模块、数据处理模块和修复模块;
所述采集模块用于采集待修补图像;
所述数据处理模块用于以所述待修补图像为输入,输入到预设的深度学习模型中;通过所述深度学习模型,分别提取所述待修补图像的空间域特征图和频率域特征图;
所述修复模块用于基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像。
在本申请实施例中,所述深度学习模型包括:空间域编码器;
所述数据处理模块用于通过所述空间域编码器提取所述待修补图像的空间域特征图。
在本申请实施例中,所述深度学习模型包括:频率域编码器;
所述数据处理模块通过所述频率域编码器提取所述待修补图像的频率域特征图。
在本申请实施例中,所述修复模块用于计算所述空间域特征图和所述频率域特征图的相关性;根据所述相关性分别确定所述空间域特征图的注意力分数和所述频率域特征图的注意力分数;根据所述空间域特征图、所述频率域特征图、所述空间域特征图的注意力分数和所述频率域特征图的注意力分数,确定所述最终修复图像。
本申请实施例提供了一种存储介质,包括:
用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现以下流程:
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪30年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本申请中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书的一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请件的实施例而已,并不用于限制本申请件。对于本领域技术人员来说,本申请件可以有各种更改和变化。凡在本申请件的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请件的权利要求范围之内。

Claims (9)

1.一种基于频率扩展推理的深度学习图像大区域缺失修复方法,其特征在于,包括:
采集待修补图像;
以所述待修补图像为输入,输入到预设的深度学习模型中;
通过所述深度学习模型,分别提取所述待修补图像的空间域特征图和频率域特征图;
基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像;
所述基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像,包括:
计算所述空间域特征图和所述频率域特征图的相关性;
根据所述相关性确定所述空间域特征图和所述频率域特征图之间的注意力分数;
根据所述空间域特征图、所述频率域特征图、所述空间域特征图和所述频率域特征图之间的注意力分数,确定所述最终修复图像;
首先针对要融合的空间域和频率域两个分支分别进行了卷积和压缩通道数,然后对压缩后的两个分支计算其相关性并基于归一化指数函数得到注意力分数,之后把空间域分支与注意力分数进行矩阵相乘后再乘上一个可学习的缩放因子,最后与其自身相加,即可得到融合之后的特征图。
2.根据权利要求1所述的方法,其特征在于,
所述深度学习模型的训练过程包括:
每次训练完成后,分别计算基于空间域的L1范数损失值和基于频率域的L1范数损失值;
根据所述空间域的L1范数损失和所述基于频率域的L1范数损失,得到复合损失值。
3.根据权利要求2所述的方法,其特征在于,
在所述得到复合损失值之后,所述方法还包括:
根据所述复合损失值,确定所述深度学习模型中参数的梯度值;
利用预设优化器根据所述梯度值调整所述深度学习模型的参数。
4.根据权利要求1所述的方法,其特征在于,
所述深度学习模型包括:空间域编码器和频率域编码器;
所述通过所述深度学习模型,分别对所述待修补图像的空间域特征图和频率域特征图,包括:
通过所述空间域编码器提取所述待修补图像的空间域特征图;
通过所述频率域编码器提取所述待修补图像的频率域特征图。
5.一种基于频率扩展推理的深度学习图像大区域缺失修复装置,其特征在于,包括:采集模块、数据处理模块和修复模块;
所述采集模块用于采集待修补图像;
所述数据处理模块用于以所述待修补图像为输入,输入到预设的深度学习模型中;通过所述深度学习模型,分别提取所述待修补图像的空间域特征图和频率域特征图;
所述修复模块用于基于注意力机制,融合所述空间域特征图和所述频率域特征图,得到最终修复图像;
所述修复模块用于计算所述空间域特征图和所述频率域特征图的相关性;根据所述相关性确定所述空间域特征图和所述频率域特征图之间的注意力分数;根据所述空间域特征图、所述频率域特征图、所述空间域特征图和所述频率域特征图之间的注意力分数,确定所述最终修复图像;
所述修复模块用于首先针对要融合的空间域和频率域两个分支分别进行了卷积和压缩通道数,然后对压缩后的两个分支计算其相关性并基于归一化指数函数得到注意力分数,之后把空间域分支与注意力分数进行矩阵相乘后再乘上一个可学习的缩放因子,最后与其自身相加,即可得到融合之后的特征图。
6.根据权利要求5所述的装置,其特征在于,
所述深度学习模型包括:空间域编码器;
所述数据处理模块用于通过所述空间域编码器提取所述待修补图像的空间域特征图。
7.根据权利要求5所述的装置,其特征在于,
所述深度学习模型包括:频率域编码器;
所述数据处理模块通过所述频率域编码器提取所述待修补图像的频率域特征图。
8.根据权利要求5所述的装置,其特征在于,
所述修复模块用于计算所述空间域特征图和所述频率域特征图的相关性;根据所述相关性确定所述空间域特征图和所述频率域特征图之间的注意力分数;根据所述空间域特征图、所述频率域特征图、所述空间域特征图和所述频率域特征图之间的注意力分数,确定所述最终修复图像。
9.一种存储介质,其特征在于,包括:
用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现权利要求1-4中任一项所述的方法。
CN202310943486.1A 2023-07-31 2023-07-31 基于深度学习的大缺失率图像修复方法、装置和存储介质 Active CN116681980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310943486.1A CN116681980B (zh) 2023-07-31 2023-07-31 基于深度学习的大缺失率图像修复方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310943486.1A CN116681980B (zh) 2023-07-31 2023-07-31 基于深度学习的大缺失率图像修复方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN116681980A CN116681980A (zh) 2023-09-01
CN116681980B true CN116681980B (zh) 2023-10-20

Family

ID=87782235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310943486.1A Active CN116681980B (zh) 2023-07-31 2023-07-31 基于深度学习的大缺失率图像修复方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN116681980B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961174A (zh) * 2018-05-24 2018-12-07 北京飞搜科技有限公司 一种图像修复方法、装置以及电子设备
CN109671094A (zh) * 2018-11-09 2019-04-23 杭州电子科技大学 一种基于频域分级的眼底图像血管分割方法
CN114359062A (zh) * 2021-12-03 2022-04-15 华南理工大学 基于阶梯流特征融合的图像修复方法、系统及存储介质
CN114463209A (zh) * 2022-01-25 2022-05-10 广州大学 一种基于深度多特征协同学习的图像修复方法
CN114612434A (zh) * 2022-03-14 2022-06-10 北京理工大学 一种波纹管表面缺陷检测方法及系统
CN114677311A (zh) * 2022-03-03 2022-06-28 南京邮电大学 一种基于注意力机制的跨模态图像修复方法及装置
CN114723630A (zh) * 2022-03-31 2022-07-08 福州大学 基于空洞双残差多尺度深度网络的图像去模糊方法及系统
CN115018727A (zh) * 2022-06-14 2022-09-06 中国地质大学(武汉) 一种多尺度图像修复方法、存储介质及终端
WO2022242029A1 (zh) * 2021-05-18 2022-11-24 广东奥普特科技股份有限公司 视觉分辨率增强的生成方法、系统、装置及存储介质
CN115423697A (zh) * 2022-08-11 2022-12-02 中国科学技术大学 图像修复方法、终端及计算机存储介质
CN115456902A (zh) * 2022-09-21 2022-12-09 重庆大学 金属零件表面高光去除方法及模型构建方法和计算机可读介质
CN115511969A (zh) * 2022-11-22 2022-12-23 阿里巴巴(中国)有限公司 图像处理与数据渲染方法、设备及介质
CN115861108A (zh) * 2022-12-08 2023-03-28 天津大学 一种基于小波自注意力生成对抗网络的图像修复方法
CN116052082A (zh) * 2023-02-01 2023-05-02 江苏方天电力技术有限公司 一种基于深度学习算法的配电站房异常检测方法及装置
CN116188308A (zh) * 2023-02-21 2023-05-30 北京航空航天大学 一种联合空域频域双判别器的生成对抗去云雾方法
CN116309192A (zh) * 2023-05-22 2023-06-23 深圳赛陆医疗科技有限公司 基因测序图像对焦矫正方法及装置、设备、存储介质
CN116309155A (zh) * 2023-03-08 2023-06-23 中国传媒大学 基于卷积和转换器混合网络的图像修复方法、模型和装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108961174A (zh) * 2018-05-24 2018-12-07 北京飞搜科技有限公司 一种图像修复方法、装置以及电子设备
CN109671094A (zh) * 2018-11-09 2019-04-23 杭州电子科技大学 一种基于频域分级的眼底图像血管分割方法
WO2022242029A1 (zh) * 2021-05-18 2022-11-24 广东奥普特科技股份有限公司 视觉分辨率增强的生成方法、系统、装置及存储介质
CN114359062A (zh) * 2021-12-03 2022-04-15 华南理工大学 基于阶梯流特征融合的图像修复方法、系统及存储介质
CN114463209A (zh) * 2022-01-25 2022-05-10 广州大学 一种基于深度多特征协同学习的图像修复方法
CN114677311A (zh) * 2022-03-03 2022-06-28 南京邮电大学 一种基于注意力机制的跨模态图像修复方法及装置
CN114612434A (zh) * 2022-03-14 2022-06-10 北京理工大学 一种波纹管表面缺陷检测方法及系统
CN114723630A (zh) * 2022-03-31 2022-07-08 福州大学 基于空洞双残差多尺度深度网络的图像去模糊方法及系统
CN115018727A (zh) * 2022-06-14 2022-09-06 中国地质大学(武汉) 一种多尺度图像修复方法、存储介质及终端
CN115423697A (zh) * 2022-08-11 2022-12-02 中国科学技术大学 图像修复方法、终端及计算机存储介质
CN115456902A (zh) * 2022-09-21 2022-12-09 重庆大学 金属零件表面高光去除方法及模型构建方法和计算机可读介质
CN115511969A (zh) * 2022-11-22 2022-12-23 阿里巴巴(中国)有限公司 图像处理与数据渲染方法、设备及介质
CN115861108A (zh) * 2022-12-08 2023-03-28 天津大学 一种基于小波自注意力生成对抗网络的图像修复方法
CN116052082A (zh) * 2023-02-01 2023-05-02 江苏方天电力技术有限公司 一种基于深度学习算法的配电站房异常检测方法及装置
CN116188308A (zh) * 2023-02-21 2023-05-30 北京航空航天大学 一种联合空域频域双判别器的生成对抗去云雾方法
CN116309155A (zh) * 2023-03-08 2023-06-23 中国传媒大学 基于卷积和转换器混合网络的图像修复方法、模型和装置
CN116309192A (zh) * 2023-05-22 2023-06-23 深圳赛陆医疗科技有限公司 基因测序图像对焦矫正方法及装置、设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"层间特征融合与多注意力的图像修复算法研究";魏域林;《中国优秀硕士学位论文全文数据库信息科技辑》(第12期);正文第1-4章,图4.1-4.3 *

Also Published As

Publication number Publication date
CN116681980A (zh) 2023-09-01

Similar Documents

Publication Publication Date Title
CN117372631B (zh) 一种多视角图像生成模型的训练方法、应用方法
CN116205290A (zh) 一种基于中间特征知识融合的知识蒸馏方法和装置
CN110033093A (zh) 超参数确定方法、装置及设备
CN116304720A (zh) 一种代价模型训练的方法、装置、存储介质及电子设备
CN116805393A (zh) 一种基于3DUnet光谱-空间信息融合的高光谱图像分类方法和系统
CN113888415B (zh) 一种模型训练以及图像修复方法及装置
CN117880444A (zh) 一种长短时特征引导的人体康复运动视频数据生成方法
CN116681980B (zh) 基于深度学习的大缺失率图像修复方法、装置和存储介质
CN117197781B (zh) 一种交通标志识别的方法、装置、存储介质及电子设备
CN114359935A (zh) 一种模型训练以及表格识别方法及装置
CN117036829A (zh) 一种基于原型学习实现标签增强的叶片细粒度识别方法和系统
CN117409466A (zh) 一种基于多标签控制的三维动态表情生成方法及装置
CN115830633B (zh) 基于多任务学习残差神经网络的行人重识别方法和系统
CN116630480A (zh) 一种交互式文本驱动图像编辑的方法、装置和电子设备
CN117808976B (zh) 一种三维模型构建方法、装置、存储介质及电子设备
CN117726907B (zh) 一种建模模型的训练方法、三维人体建模的方法以及装置
CN117975202B (zh) 模型训练方法、业务执行方法、装置、介质及设备
CN115953706B (zh) 虚拟形象处理方法及装置
CN117875413B (zh) 一种知识图谱本体中概念构建方法、装置、介质及设备
CN117873789B (zh) 一种基于分段量化的检查点写入方法及装置
CN117830564B (zh) 一种姿态分布指导的三维虚拟人模型重建方法
CN117251730A (zh) 一种风控模型的预训练方法、装置、存储介质及电子设备
CN117521011A (zh) 一种基于语言指导采样的指代表达理解方法
CN117456026A (zh) 图像处理方法及装置
CN117520850A (zh) 一种模型训练方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant