CN113888430B - 图像处理方法和装置以及模型训练方法和装置 - Google Patents

图像处理方法和装置以及模型训练方法和装置 Download PDF

Info

Publication number
CN113888430B
CN113888430B CN202111160654.7A CN202111160654A CN113888430B CN 113888430 B CN113888430 B CN 113888430B CN 202111160654 A CN202111160654 A CN 202111160654A CN 113888430 B CN113888430 B CN 113888430B
Authority
CN
China
Prior art keywords
image
layer
image processing
feature
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111160654.7A
Other languages
English (en)
Other versions
CN113888430A (zh
Inventor
王砚丞
徐宁
陈翀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202111160654.7A priority Critical patent/CN113888430B/zh
Publication of CN113888430A publication Critical patent/CN113888430A/zh
Application granted granted Critical
Publication of CN113888430B publication Critical patent/CN113888430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本公开提供一种图像处理方法和装置以及模型训练方法和装置。所述图像处理方法可包括以下步骤:获取第一图像;将所述第一图像输入至图像处理模型中,得到第二图像,所述第二图像的质量高于所述第一图像,其中,所述图像处理模型嵌入有注意力模块,所述注意力模块用于确定所述图像处理模型中不同层之间的相关性。

Description

图像处理方法和装置以及模型训练方法和装置
技术领域
本公开涉及图像处理和神经网络领域,尤其涉及一种用于图像恢复的图像处理方法和图像处理装置以及图像处理模型的训练方法和训练装置。
背景技术
图像恢复根据退化先验知识,从退化的低质量图像恢复高质量图像的过程。图像恢复根据退化模型的不同可应用于图像超分辨率、图像降噪和图像去马赛克处理等任务。随着深度学习技术的进步,神经网络模型在图像重建任务中取得了较好的效果,常用的神经网络模型如EDSR和RCAN,已被广泛应用于图像恢复任务。
为了增强神经网络模型的学习能力,自注意力机制被提出用于学习特征间的全局相关性,并被验证可提高神经网络在图像恢复任务上的学习能力。例如,针对图像恢复任务的残差非局部注意力网络构建了基于非局部注意力机制的神经网络模型,在其神经网络模型中,设计了一条非局部信息提取的分支,使用非局部注意力机制模型进行单层的全局特征学习,并通过残差模型将该分支嵌入到所用的神经网络。但是,这种方法仅探索了单层特征间的全局相关性,而忽视了不同层特征间的相关性。另外,这种方法在处理较大尺寸的图像时速度较慢,并且也没有探索所提出的注意力模块在神经网络中的部署方案。
发明内容
本公开提供一种图像处理方法和装置以及模型训练方法和装置,以至少解决上述提及的问题。
根据本公开实施例的第一方面,提供一种图像处理方法,可包括:获取第一图像;将所述第一图像输入至图像处理模型中,得到第二图像,所述第二图像的质量高于所述第一图像,其中,所述图像处理模型嵌入有注意力模块,所述注意力模块用于确定所述图像处理模型中不同层之间的相关性。
可选地,所述图像处理模型可至少包含标记层和参考层,其中,所述标记层为所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层为所述图像处理模型中在所述第一个层之前的层,所述标记层和所述参考层用于对所述第一图像进行处理,以获得所述第一图像的不同特征图,所述注意力模块被配置为基于所述标记层的特征图中的查询特征,从所述参考层的特征图中获取被叠加在所述查询特征的全局特征,其中,所述全局特征被用于获得所述第二图像。
可选地,注意力模块可包括第一处理层和第二处理层,其中,第一处理层被配置为基于所述查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;并且根据所述偏移量在所述参考层的特征图中采样与所述查询特征相关的参考特征,第二处理层被配置为通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;并且按照所述注意力权重对所述每个参考特征进行加权求和,以获得所述全局特征。
可选地,在所述图像处理模型中嵌入有多个注意力模块的情况下,针对当前注意力模块的参考层可包括所述图像处理模型的在所述当前注意力模块的位置之前的每个注意力模块被嵌入的位置之前的第一个层。
可选地,根据所述偏移量在所述参考层的特征图中采样与所述查询特征相关的参考特征,可包括:根据所述偏移量分别在由所述参考层的每个参考层的特征图中采样参考特征,其中,按照所述注意力权重对所述每个参考特征进行加权求和,以获得所述全局特征,可包括:针对所述每个参考层,按照所述注意力权重对从该参考层的特征图中采样的参考特征进行加权求和,以获得针对该参考层的全局特征;将针对所述每个参考层的全局特征进行累加以获得所述全局特征。
可选地,所述查询特征在特征图中位于整数坐标位置,在偏移量包含小数部分的情况下,该偏移量可被执行插值采样处理。
可选地,所述图像处理模型可基于以下方式被训练:获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;基于所述第四图像利用所述图像处理模型来得到预测图像;基于所述预测图像和相应的第三图像来构建损失函数;利用由所述损失函数计算的损失来训练所述图像处理模型中的网络参数。
可选地,在所述图像处理模型中嵌入有多个注意力模块的情况下,所述图像处理模型可基于以下方式被训练:获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;基于所述第四图像利用所述第二神经网络来得到预测图像;基于所述预测图像和相应的第三图像以及所述每一层的注意力模块的结构参数来构建损失函数;利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数,以得到所述图像处理模型。
根据本公开实施例的第二方面,提供一种图像处理模型的训练方法,可包括:获取训练数据,其中,所述训练数据包括高分辨率的第一图像和从所述第一图像获得的低分辨率的第二图像;利用所述训练数据对所述图像处理模型进行训练,其中,所述图像处理模型嵌入有注意力模块,所述注意力模块用于确定所述图像处理模型中不同层之间的相关性。
可选地,所述图像处理模型可至少包含标记层和参考层,其中,所述标记层为所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层为所述图像处理模型中在所述第一个层之前的层,所述标记层和所述参考层用于对所述第二图像进行处理,以获得所述第二图像的不同特征图,所述注意力模块被配置为基于所述标记层的特征图中的查询特征,从所述参考层的特征图中获取被叠加在所述查询特征的全局特征,其中,所述全局特征被用于预测所述第二图像的高分辨率图像。
可选地,利用所述训练数据对所述图像处理模型进行训练,可包括:在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;基于所述第二图像利用所述第二神经网络来获得预测图像;基于所述预测图像和相应的第一图像以及所述每一层的注意力模块的结构参数来构建损失函数;利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数,以得到所述图像处理模型。
可选地,所述损失函数可包括基于所述预测图像和相应的第一图像生成的第一损失函数和基于注意力模块的每秒浮点运算次数和所述结构参数生成的第二损失函数。
可选地,所述结构参数在训练中可被更新为第一值或第二值,其中,第一值表示在神经网络中不嵌入与第一值的结构参数对应的注意力模块,第二值表示在神经网络中嵌入与第二值的结构参数对应的注意力模块。
可选地,在所述第二神经网络中去掉与结构参数为第一值的注意力模块并且保留与结构参数为第二值的注意力模块,以得到第三神经网络,其中,利用所述训练数据对所述图像处理模型进行训练,还可包括:基于所述第二图像利用所述第三神经网络来得到另外的预测图像;基于所述另外的预测图像和相应的第一图像构建另外的损失函数;利用由所述另外的损失函数计算的损失来训练所述第三神经网络;并且将训练好的所述第三神经网络作为所述图像处理模型。
根据本公开实施例的第三方面,提供一种图像处理装置,可包括:获取模块,被配置为获取第一图像;应用模块,被配置为将所述第一图像输入至图像处理模型中,得到第二图像,所述第二图像的质量高于所述第一图像,其中,所述图像处理模型嵌入有注意力模块,所述注意力模块用于确定所述图像处理模型中不同层之间的相关性。
可选地,所述图像处理模型可至少包含标记层和参考层,其中,所述标记层为所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层为所述图像处理模型中在所述第一个层之前的层,所述标记层和所述参考层用于对所述第一图像进行处理,以获得所述第一图像的不同特征图,所述注意力模块可被配置为基于所述标记层的特征图中的查询特征,从所述参考层的特征图中获取被叠加在所述查询特征的全局特征,其中,所述全局特征被用于获得所述第二图像。
可选地,注意力模块可包括第一处理层和第二处理层,其中,第一处理层被配置为基于所述查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;并且根据所述偏移量在所述参考层的特征图中采样与所述查询特征相关的参考特征,第二处理层被配置为通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;并且按照所述注意力权重对所述每个参考特征进行加权求和,以获得所述全局特征。
可选地,在所述图像处理模型中嵌入有多个注意力模块的情况下,针对当前注意力模块的参考层包括所述图像处理模型的在所述当前注意力模块的位置之前的每个注意力模块被嵌入的位置之前的第一个层。
可选地,所述第一处理层被配置为根据所述偏移量分别在由所述参考层的每个参考层输出的特征图中采样参考特征,其中,所述第二处理层被配置为:针对所述每个参考层,按照所述注意力权重对从该参考层的特征图中采样的参考特征进行加权求和,以获得针对该参考层的全局特征;将针对所述每个参考层的全局特征进行累加以获得所述全局特征。
可选地,所述查询特征在特征图中位于整数坐标位置,在偏移量包含小数部分的情况下,该偏移量被执行插值采样处理。
可选地,所述图像处理模型可基于以下方式被训练:获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;基于所述第四图像利用所述图像处理模型来得到预测图像;基于所述预测图像和相应的第三图像来构建损失函数;利用由所述损失函数计算的损失来训练所述图像处理模型中的网络参数。
可选地,在所述图像处理模型中嵌入有多个注意力模块的情况下,所述图像处理模型可基于以下方式被训练:获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;基于所述第四图像利用所述第二神经网络来得到预测图像;基于所述预测图像和相应的第三图像以及所述每一层的注意力模块的结构参数来构建损失函数;利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数,以得到所述图像处理模型。
根据本公开实施例的第四方面,提供一种图像处理模型的训练装置,可包括:获取模块,被配置为获取训练数据,其中,所述训练数据包括高分辨率的第一图像和从所述第一图像获得的低分辨率的第二图像;训练模块,被配置为利用所述训练数据对所述图像处理模型进行训练,其中,所述图像处理模型嵌入有注意力模块,所述注意力模块用于确定所述图像处理模型中不同层之间的相关性。
可选地,所述图像处理模型可至少包含标记层和参考层,其中,所述标记层为所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层为所述图像处理模型中在所述第一个层之前的层,所述标记层和所述参考层用于对所述第二图像进行处理,以获得所述第二图像的不同特征图,所述注意力模块被配置为基于所述标记层的特征图中的查询特征,从所述参考层的特征图中获取被叠加在所述查询特征的全局特征,其中,所述全局特征被用于预测所述第二图像的高分辨率图像。
可选地,训练模块可包括:配置模块,被配置为在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;预测模块,被配置为基于所述第二图像利用所述第二神经网络来获得预测图像;第一训练模块,被配置为:基于所述预测图像和相应的第一图像以及所述每一层的注意力模块的结构参数来构建损失函数,利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数。
可选地,所述损失函数可包括基于所述预测图像和相应的第一图像生成的第一损失函数和基于注意力模块的每秒浮点运算次数和所述结构参数生成的第二损失函数。
可选地,所述结构参数在训练中可被更新为第一值或第二值,其中,第一值表示在神经网络中不嵌入与第一值的结构参数对应的注意力模块,第二值表示在神经网络中嵌入与第二值的结构参数对应的注意力模块。
可选地,配置模块可被配置为在所述第二神经网络中去掉与结构参数为第一值的注意力模块并且保留与结构参数为第二值的注意力模块,以得到第三神经网络,其中,所述训练装置还可包括第二训练模块,被配置为:基于从所述第二图像利用所述第三神经网络来得到另外的预测图像;基于所述另外的预测图像和相应的第一图像构建另外的损失函数;利用由所述另外的损失函数计算的损失来训练所述第三神经网络;并且将训练好的所述第三神经网络作为所述图像处理模型。
根据本公开实施例的第五方面,提供一种电子设备,所述电子设备可包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的图像处理方法和模型训练方法。
根据本公开实施例的第六方面,提供一种存储指令的计算机可读存储介质,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的图像处理方法和模型训练方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的图像处理方法和模型训练方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开提出了一种新的注意力模块来代替传统非局部注意力模型,用以探索神经网络不同层特征间的非局部相关性。同时,利用神经网络架构搜索的方式来部署本公开的注意力模块,从而在降低计算消耗的同时找到更好的嵌入了注意力模块的神经网络,从而提高神经网络在图像恢复任务中的性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据本公开的实施例的语音处理模型的示意图;
图2是根据本公开的实施例的图像处理方法的流程图;
图3是根据本公开的实施例的图像处理方法的流程示意图;
图4是根据本公开的实施例的语音处理模型的训练方法的流程图;
图5是根据本公开的实施例的在神经网络中部署注意力模块的示意图;
图6是根据本公开的实施例的图像处理装置的框图;
图7是根据本公开的实施例的图像处理模型的训练装置的框图;
图8是根据本公开的实施例的图像处理设备的结构示意图;
图9是根据本公开的实施例的电子设备的框图;
图10是根据本公开的另一实施例的图像处理方法的流程图;
图11是根据本公开的另一实施例的语音处理模型的训练方法的流程图;
图12是根据本公开的另一实施例的图像处理装置的框图;
图13是根据本公开的另一实施例的图像处理模型的训练装置的框图。
在整个附图中,应注意,相同的参考标号用于表示相同或相似的元件、特征和结构。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解,但这些细节仅被视为是示例性的。因此,本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下,可对描述于此的实施例进行各种改变和修改。此外,为了清楚和简洁,省略对公知的功能和结构的描述。
以下描述和权利要求中使用的术语和词语不限于书面含义,而仅由发明人用来实现本公开的清楚且一致的理解。因此,本领域的技术人员应清楚,本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本公开可探索用于图像恢复的神经网络中不同层特征间的相关性,因为神经网络不同层特征具有不同的感受野,所以可获取不同颗粒度的信息,从而更好地恢复图像。同时,本公开可降低非局部注意力机制的计算消耗,并且提供将注意力模块嵌入神经网络的部署方案。
在下文中,根据本公开的各种实施例,将参照附图对本公开的方法、装置以及系统进行详细描述。
图1是根据本公开的实施例的语音处理模型的示意图。根据本公开的图像处理方法可用于将低质量图像恢复为高质量图像(诸如高分辨率图像),诸如对输入的图像进行图像超分辨率、图像降噪和图像去马赛克处理等。
本公开的图像处理模型可由用于图像恢复的现有任意神经网络以及根据本公开的注意力模块构成。注意力模块可用于确定图像处理模型中不同层之间的相关性。即,从其他层的特征图中找到当前层的特征图中的特征的全局特征。
图像处理模型可至少包含标记层和参考层,标记层可表示图像处理模型中在注意力模块被嵌入的位置之前的第一个层,参考层可表示图像处理模型中在第一个层之前的层,标记层和参考层可用于对输入图像进行处理,以获得不同的特征图。这里,不对标记层和参考层的数量进行限制。标记层和参考层可利用在其之前的层输出的特征图来获得另外的特征图。
例如,参照图1,在基于残差网络的现有图像恢复神经网络模型(包括图1中由白色框示出的层(诸如卷积Conv层和残差块ResBlock))中嵌入本公开的注意力模块(图1中由灰色框示出的层(诸如CLDA))以构成本公开的图像处理模型。这里,CLDA表示本公开的注意力模块,可被称为跨层可形变注意力(Cross-Layer Deformable Attention)模块。在图1中,每个ResBlock可基于该ResBlock前面的ResBlock输出的特征图来输出相应的特征图。
下面将参照图2和图3详细描述本公开的注意力模块。
在图1中,示出了将本公开的注意力模块均匀部署在图像恢复神经网络中,可每隔x个Resblock嵌入一个CLDA,例如,x可以是1、2或8等,但是本公开不限于此。本公开可通过对图像处理模型的结构参数和网络参数进行训练来确定在现有的图像恢复神经网络中的哪些位置嵌入本公开的注意力模块。下面将参照图4和图5描述如何在神经网络中部署本公开的注意力模块。
此外,图1示出的基于残差网络的现有图像恢复神经网络的结构仅是示例性的,本公开的注意力模块可按照上述方式或将被描述的部署方式被嵌入在任何用于图像恢复的神经网络中。
本公开的注意力模块(CLDA)可探索神经网络中不同层的特征间的相关性。下面将参照图2和3来详细描述如何利用CLDA进行神经网络不同层的全局特征学习。
图2是根据本公开的实施例的图像处理方法的流程图。图3是根据本公开的实施例的图像处理方法的流程示意图。根据本公开的图像处理方法可用于将低质量图像恢复为高质量图像。
根据本公开的图像处理方法可由任意具有图像处理功能的电子设备执行。电子设备可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。电子设备可安装有目标应用,用于对输入的图像进行图像超分辨率、图像降噪和图像去马赛克处理等。图2所示的图像处理方法可由嵌入有根据本公开的注意力模块的图像处理模型实现。
在本公开中,诸如标记层“标记层”、“参考层”、“第一个层”的描述均指用于图像恢复的神经网络中的层(诸如图1示出的白色框所示),而非本公开的注意力模块中的层,除非另有明确说明。
参照图2,在步骤S201,基于由图像处理模型的标记层针对输入图像输出的特征图中的查询特征,获取查询特征与查询特征所关注的特征之间的偏移量。这里,标记层可以是图像处理模型的在注意力模块被嵌入的位置之前的第一个层。
例如,参照图3,注意力模块以图像恢复神经网络中某一层的特征图(即在嵌入的注意力模块之前的第一个层输出的特征图)为输入,对于输入特征图的某一位置的查询特征,为计算该查询特征与另一参考层(参考层可以是图像处理模型的在标记层之前的层)特征间的相关性,可首先通过卷积层(即第一处理层)(图3中左侧的1×1Conv)计算得到该查询特征所要关注的特征点与该查询特征位置之间的偏移量(如图3中的实线箭头所示的偏移)。
在计算偏移量时,可针对查询特征在输入特征图中搜索该查询特征所关注的特征点,并且根据搜索到的特征点与查询特征位置来确定相应的偏移量。
在步骤S202,根据获取的偏移量在由图像处理模型的参考层输出的特征图中采样与查询特征相关的参考特征。这里,参考层可以是图像处理模型的在标记层之前的层。这里,在标记层之前的层可以是预先指定的层,也可根据嵌入的注意力模块的位置来确定使用哪些参考层。
例如,在图3中,在获取偏移量后,可在参考层的特征图中采样出相应位置的参考特征。由于特征仅定义在整数坐标位置,在偏移量包含小数部分时,可进行插值采样处理。
图3仅示出了在一个参考层的特征图中采样与查询特征相关的参考特征,但是本公开不限于此,在图像处理模型中嵌入有多个注意力模块的情况下,针对当前注意力模块的参考层可包括图像处理模型的在当前注意力模块的位置之前的每个注意力模块被嵌入的位置之前的第一个层。例如,参照图1,最后一个CLDA可参考在它之前的每个CLDA前面的第一个ResBlock的特征图。
在步骤S203,通过对查询特征执行卷积运算来获得参考特征中每个参考特征的注意力权重。
参照图3,可利用由另一卷积层(图3中右侧的1×1Conv)和Softmax函数构成的第二处理层通过对查询特征的卷积计算得到该查询特征对这些特征点的注意力权重,作为相应参考特征的注意力权重。
在步骤S204,按照获得的注意力权重对每个参考特征进行加权求和,以获得用于查询特征的全局特征。
参照图3,可按照注意力权重对采样出的参考特征进行加权求和,以得到应被叠加到该查询特征上的全局信息。可按照图3示出的方式针对不同标记层的特征图中的各个位置处的查询特征获取相应查询特征的全局特征,然后注意力模块可输出由针对不同查询特征的全局特征形成的特征图,诸如图3的输出特征图。
在图像处理模型中嵌入有多个注意力模块的情况下,可根据获取的偏移量分别在由每个参考层输出的特征图中采样参考特征,然后针对每个参考层,按照注意力权重对从该参考层的特征图中采样的参考特征进行加权求和,以获得针对该参考层的全局特征,将针对每个参考层的全局特征进行累加以获得用于查询特征的全局特征。
也就是说,在图像处理模型中嵌入多个注意力模块的情况下,可针对查询特征从当前注意力模块之前的多个参考层中分别采样出每个参考层的参考特征,并且在针对该每个参考层的参考特征进行加权求和之后,最后将该每个参考层的全局特征再进行相加以的到针对查询特征的最终全局特征。
在图像处理模型中嵌入一个注意力模块的情况下,用于该注意力模块的参考层可以是该注意力模块之前的第一个层,即该层的特征图既作为该注意力模块的输入,又作为参考层的特征图。
在步骤S205,基于全局特征生成与输入图像相应的高质量图像。
例如,参照图1,在最后一个CLDA获得全局特征后,可基于全局特征和通过对输入图像执行卷积运算得到的特征图进行相加来得到高质量图像。
通过对现有的图像恢复神经网络中嵌入本公开的注意力模块,可探索神经网络不同层特征之间的相关性,从而提高现有神经网络在图像恢复任务中的性能。
本公开的注意力模块可包括两个卷积层和Softmax函数,其中,一个卷积层可用于计算查询特征与其所关注的特征之间的偏移量,另一个卷积层和Softmax函数可用于计算所关注的特征的注意力权重并且执行加权求和运算,以得到针对查询特征的全局特征。注意力模块可输出包括每个查询特征的全局特征的特征图。
本公开的注意力模块可被表示为下面的等式(1):
Figure BDA0003290070270000121
其中,x表示输入特征,y表示输出特征(即全局特征),i表示特征中的位置,j表示第j层,K表示每个查询特征所关注的特征点的数量,C表示基于输入特征的正则项,pi表示查询特征的位置,Δpik表示采样特征相对于查询特征的偏移量。然而,上述示例仅是示例性的,本公开不限于此。
图4是根据本公开的实施例的语音处理模型的训练方法的流程图。图5是根据本公开的实施例的在神经网络中部署注意力模块的示意图。
在将本公开的注意力模块嵌入到神经网络的过程中,为了节省计算资源,可通过神经网络架构搜索的方法,找到注意力模块的最佳嵌入位置。
参照图4,在步骤S401,在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,每一层的注意力模块具有结构参数。这里,结构参数在训练中可被更新为第一值或第二值,其中,第一值表示在神经网络中不嵌入与第一值的结构参数对应的注意力模块,第二值表示在神经网络中嵌入与第二值的结构参数对应的注意力模块。
例如,参照图5,在基于残差网络的现有图像恢复神经网络(即第一神经网络)中的每个ResBlock后嵌入一个注意力模块,以得到图5所示的神经网络架构(即第二神经网络)。在图5中,每个注意力模块配置有一个结构参数,诸如S1、S2、SL-1和SL。结构参数可通过gumbel-softmax函数得到,通过gumbel-softmax函数可保证了该参数在训练中的值在0和1之间。gumbel-softmax函数在优化结束时会逼近0或者1,最终0代表在该位置不插入CLDA模块,1代表插入CLDA模块。
在步骤S402,基于从高质量图像得到的低质量图像利用第二神经网络来获得预测图像。可先将高质量图像处理成低质量图像,诸如对高质量图像进行加噪处理、马赛克处理或低分辨率处理等。然后将得到的低质量图像输入到第二神经网络中以得到预测的图像。
在步骤S403,基于预测图像和高质量图像以及每一层的注意力模块的结构参数来构建损失函数。根据本公开的实施例,损失函数可包括基于预测图像和高质量图像生成的第一损失函数和基于注意力模块的每秒浮点运算次数和结构参数生成的第二损失函数。
作为示例,在现有的图像恢复神经网络中,原高质量图像与神经网络复原结果的平均平方误差(MSE)被用于网络训练的损失函数。在本公开中,在训练嵌入了CLDA的神经网络(即第二神经网络)的过程中,可在平均平方误差MSE的基础上增加一个基于每秒浮点运算次数(FLOPs)的正则项,以得到如下面等式(2)所示的损失函数:
Loss=LMSE+λlogμFLOPs (2)
其中,λ和μ均为用以平衡两项损失的超参数,LMSE表示平均平方误差(即第一损失函数),FLOPs表示基于每秒浮点运算次数(FLOPs)的正则项(即第二损失函数)。
这里,
Figure BDA0003290070270000131
FLOPsj表示第j个CLDA的每秒浮点运算次数,sj表示第j个CLDA的结构参数,如图5所示。
在步骤S404,利用损失函数来训练每一层的注意力模块的结构参数和第二神经网络的网络参数。
例如,在该训练阶段,可利用上面等式(2)示出的损失函数,可优化神经网络的网络参数以及注意力模块的结构参数s(即图5中标注的参数sj,用以表示是否保留该位置的CLDA模块)。
可采用与原图像恢复网络训练相似的流程,在训练过程中交替地更新训练结构参数和网络参数,即一个epoch更新结构参数,一个epoch更新网络参数,交替进行。在训练结束后,可确定哪些CLDA对应的结构参数为1,哪些CLDA对应的结构参数为0。
在该训练阶段,对于网络参数的训练,可仅针对嵌入的注意力模块中的各个层(诸如卷积层)的网络参数进行训练,也可针对第二神经网络中的各个层网络参数进行训练。
在第二神经网络中去掉与结构参数为第一值的注意力模块并且保留与结构参数为第二值的注意力模块,以得到第三神经网络后,可基于从高质量图像得到的低质量图像利用第三神经网络来得到另外的预测图像,基于另外的预测图像和高质量图像构建另外的损失函数,利用由另外的损失函数计算的损失来训练第三神经网络,并且将训练好的第三神经网络作为最终的图像处理模型。
例如,可仅保留第二神经网络中结构参数s优化结果为1的CLDA模块,去掉其余CLDA模块后,对网络进行再一次训练,训练流程与原图像恢复网络训练相似,由于此时网络结构已经确定,可仅使用原高质量图像与神经网络复原结果的平均平方误差(MSE)为损失函数来训练网络,最终得到语音处理模型。
根据本公开的实施例,语音处理模型的训练过程可分为两个阶段,一个阶段主要用于确定网络结构,另一阶段主要用于更新结构已确定的神经网络的网络参数。
此外,当在现有的图像恢复神经网络中嵌入一个注意力模块时,可基于从高质量图像得到的低质量图像利用该神经网络来得到预测图像,基于预测图像和高质量图像来构建损失函数(诸如MSE),利用由损失函数计算的损失来训练该神经网络中的网络参数。也就是说,可不对神经网络的结构参数进行训练。
图6是根据本公开的实施例的图像处理装置的框图。
参照图6,图像处理装置600可包括采样模块601、加权模块602和应用模块603。图像处理装置600中的每个模块可由一个或多个模块来实现,并且对应模块的名称可根据模块的类型而变化。在各种实施例中,可省略图像处理装置600中的一些模块,或者还可包括另外的模块。此外,根据本公开的各种实施例的模块/元件可被组合以形成单个实体,并且因此可等效地执行相应模块/元件在组合之前的功能。
采样模块601可基于由嵌入有注意力模块的图像处理模型的标记层针对输入图像输出的特征图中的查询特征,获取查询特征与查询特征所关注的特征之间的偏移量,根据偏移量在由图像处理模型的参考层输出的特征图中采样与查询特征相关的参考特征。标记层可以是图像处理模型的在注意力模块被嵌入的位置之前的第一个层。参考层可以是图像处理模型的在标记层之前的层。采样模块601可由本公开的注意力模块中用于计算偏移量的卷积层实现。
加权模块602可通过对查询特征执行卷积运算来获得参考特征中每个参考特征的注意力权重,按照注意力权重对每个参考特征进行加权求和,以获得用于查询特征的全局特征。加权模块602可由本公开的注意力模块中用于计算注意力权重和的卷积层和Softmax函数实现。
应用模块603可基于全局特征生成与输入图像相应的高质量图像。应用模块603可包括现有的图像恢复神经网络中的各个层,诸如图1中由白色框示出的卷积层和ResBlock。
可选地,在图像处理模型中嵌入有多个注意力模块的情况下,针对当前注意力模块的参考层可包括图像处理模型的在当前注意力模块的位置之前的每个注意力模块被嵌入的位置之前的第一个层。
可选地,采样模块601可根据偏移量分别在由每个参考层输出的特征图中采样参考特征。
可选地,加权模块602可针对每个参考层,按照注意力权重对从该参考层的特征图中采样的参考特征进行加权求和,以获得针对该参考层的全局特征,将针对每个参考层的全局特征进行累加以获得用于查询特征的全局特征。
可选地,查询特征在特征图中位于整数坐标位置,在偏移量包含小数部分的情况下,该偏移量可被执行插值采样处理。
此外,图像处理装置600还可包括训练模块(未示出)。训练模块可对图像处理模型的参数进行训练更新。
可选地,图像处理模型可基于以下方式被训练:基于从高质量图像得到的低质量图像利用图像处理模型来得到预测图像;基于预测图像和高质量图像来构建损失函数;利用由损失函数计算的损失来训练图像处理模型中的网络参数。
可选地,在图像处理模型中嵌入有多个注意力模块的情况下,图像处理模型可基于以下方式被训练:在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,每一层的注意力模块具有结构参数;基于从高质量图像得到的低质量图像利用第二神经网络来得到预测图像;基于预测图像和高质量图像(真实图像)以及每一层的注意力模块的结构参数来构建损失函数,利用损失函数来训练每一层的注意力模块的结构参数和第二神经网络的网络参数,以得到图像处理模型。
上面已根据图2和图3详细描述了根据本公开实施例的图像处理过程,这里不再进行描述。
图7是根据本公开的实施例的图像处理模型的训练装置的框图。
参照图7,训练装置700可包括配置模块701、预测模块702、第一训练模块703和第二训练模块704。训练装置700中的每个模块可由一个或多个模块来实现,并且对应模块的名称可根据模块的类型而变化。在各种实施例中,可省略训练装置700中的一些模块,或者还可包括另外的模块。此外,根据本公开的各种实施例的模块/元件可被组合以形成单个实体,并且因此可等效地执行相应模块/元件在组合之前的功能。
配置模块701可在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,每一层的注意力模块具有结构参数。这里,结构参数在训练中可被更新为第一值或第二值,其中,第一值表示在神经网络中不嵌入与第一值的结构参数对应的注意力模块,第二值表示在神经网络中嵌入与第二值的结构参数对应的注意力模块。
根据本公开的实施例,注意力模块可用于基于由第一神经网络的在注意力模块被嵌入的位置之前的第一个层针对低质量图像输出的特征图中的查询特征,从由第一神经网络的从第一个层之前的层输出的特征图中获取用于查询特征的全局特征。全局特征可被用于预测图像。
预测模块702可基于从高质量图像得到的低质量图像利用第二神经网络来获得预测图像。
第一训练模块703可基于预测图像和高质量图像以及每一层的注意力模块的结构参数来构建损失函数,利用损失函数来训练每一层的注意力模块的结构参数和第二神经网络的网络参数。这里的网络参数可以是仅针对嵌入的注意力模块中的各个层(诸如卷积层)的网络参数,也可以是针对第一神经网络中的各个层以及注意力模块中的层的网络参数。
可选地,损失函数可包括基于预测图像和高质量图像生成的第一损失函数和基于注意力模块的每秒浮点运算次数和结构参数生成的第二损失函数。
可选地,配置模块701可在第二神经网络中去掉与结构参数为第一值的注意力模块并且保留与结构参数为第二值的注意力模块,以得到第三神经网络。
第二训练模块704可基于从高质量图像得到的低质量图像利用第三神经网络来得到另外的预测图像,基于另外的预测图像和高质量图像构建另外的损失函数,利用由另外的损失函数计算的损失来训练第三神经网络,并且将训练好的第三神经网络作为最终的图像处理模型。
上面已根据图4和图5详细描述了根据本公开实施例的图像处理过程,这里不再进行描述。
图8是本公开实施例的硬件运行环境的图像处理设备的结构示意图。
如图8所示,图像处理设备800可包括:处理组件801、通信总线802、网络接口803、输入输出接口804、存储器805以及电源组件804。其中,通信总线802用于实现这些组件之间的连接通信。输入输出接口804可以包括视频显示器(诸如,液晶显示器)、麦克风和扬声器以及用户交互接口(诸如,键盘、鼠标、触摸输入装置等),可选地,输入输出接口804还可包括标准的有线接口、无线接口。网络接口803可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器805可以是高速的随机存取存储器,也可以是稳定的非易失性存储器。存储器805可选的还可以是独立于前述处理组件801的存储装置。
本领域技术人员可以理解,图8中示出的结构并不构成对图像处理设备800的限定,可包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图8所示,作为一种存储介质的存储器805中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、图像处理程序以及数据库。
在图8所示的图像处理设备800中,网络接口803主要用于与外部电子设备/终端进行数据通信;输入输出接口804主要用于与用户进行数据交互;图像处理设备800中的处理组件801、存储器805可被设置在图像处理设备800中,图像处理设备800通过处理组件801调用存储器805中存储的图像处理程序、素材以及由操作系统提供的各种API,执行本公开实施例提供的图像处理方法和模型训练方法。
处理组件801可以包括至少一个处理器,存储器805中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器执行时,执行根据本公开实施例的图像处理方法和模型训练方法。然而,上述示例仅是示例性的,本公开不限于此。
处理组件801可通过执行程序来实现对图像处理设备800所包括的组件的控制。
图像处理设备800可经由输入输出接口804接收或输出图像、视频和/或音频。例如,图像处理设备800可经由输入输出接口804输出图像增强后的高质量图像。
作为示例,图像处理设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里,图像处理设备800并非必须是单个的电子设备,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。图像处理设备800还可以是集成控制系统或系统管理器的一部分,或者可以被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子设备。
在图像处理设备800中,处理组件801可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理组件801还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
处理组件801可运行存储在存储器中的指令或代码,其中,存储器805还可以存储数据。指令和数据还可以经由网络接口803而通过网络被发送和接收,其中,网络接口803可以采用任何已知的传输协议。
存储器805可以与处理组件801集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储器805可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件801可以在操作上进行耦合,或者可以例如通过I/O端口、网络连接等互相通信,使得处理组件801能够读取存储在存储器805中的数据。
根据本公开的实施例,可提供一种电子设备。图9是根据本公开实施例的电子设备的框图,该电子设备900可包括至少一个存储器902和至少一个处理器901,所述至少一个存储器902存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个处理器901执行时,执行根据本公开实施例的图像处理方法和模型训练方法。
处理器901可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器901还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
作为一种存储介质的存储器902可包括操作系统(例如,MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、图像处理程序、模型训练程序以及数据库。
存储器902可与处理器901集成为一体,例如,可将RAM或闪存布置在集成电路微处理器等之内。此外,存储器902可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器902和处理器901可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器901能够读取存储在存储器902中的文件。
此外,电子设备900还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。电子设备900的所有组件可经由总线和/或网络而彼此连接。
本领域技术人员可理解,图9中示出的结构并不构成对的限定,可包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图10是根据本公开的另一实施例的图像处理方法的流程图。
参照图10,在步骤S1001,获取第一图像。
在步骤S1002,将第一图像输入至图像处理模型,得到比第一图像质量更高的第二图像,其中,图像处理模型嵌入有注意力模块。
本公开的注意力模块可用于确定图像处理模型中不同层之间的相关性。作为示例,注意力模块可基于由图像处理模型中在注意力模块被嵌入的位置之前的第一个层针对第一图像输出的特征图中的查询特征,从由图像处理模型的参考层输出的特征图中获取用于查询特征的全局特征,其中,参考层是图像处理模型的在第一个层之前的层。全局特征被用于获得更高质量的第二图像。
本公开的图像处理模型可基于以下方式被训练:获取训练数据,其中,训练数据包括高分辨率的第三图像和从第三图像获得的低分辨率的第四图像,基于第四图像利用图像处理模型来得到预测图像,基于预测图像和相应的第三图像来构建损失函数,利用由损失函数计算的损失来训练图像处理模型中的网络参数。
根据另一实施例,在图像处理模型中嵌入有多个注意力模块的情况下,图像处理模型可基于以下方式被训练:获取训练数据,其中,训练数据包括高分辨率的第三图像和从第三图像获得的低分辨率的第四图像;在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,每一层的注意力模块具有结构参数;基于第四图像利用第二神经网络来得到预测图像;基于预测图像和相应的第三图像以及每一层的注意力模块的结构参数来构建损失函数;利用损失函数来训练每一层的注意力模块的结构参数和第二神经网络的网络参数,以得到图像处理模型。
图11是根据本公开的另一实施例的语音处理模型的训练方法的流程图。
参照图11,在步骤S1101,获取训练数据,其中,训练数据包括高分辨率的第一图像和从第一图像获得的低分辨率的第二图像。
在步骤S1102,利用训练数据对嵌入有本公开的注意力模块的图像处理模型进行训练。
这里,注意力模块可用于确定图像处理模型中不同层之间的相关性。作为示例,注意力模块可基于由图像处理模型的在注意力模块被嵌入的位置之前的第一个层针对第二图像输出的特征图中的查询特征,从由图像处理模型的从第一个层之前的层输出的特征图中获取用于查询特征的全局特征。全局特征被用于预测图像。
图12是根据本公开的另一实施例的图像处理装置的框图。在各种实施例中,可省略图像处理装置1200中的一些模块,或者还可包括另外的模块。此外,根据本公开的各种实施例的模块/元件可被组合以形成单个实体,并且因此可等效地执行相应模块/元件在组合之前的功能。
参照图12,图像处理装置1200可包括获取模块1201和应用模块1202。
获取模块1201可获取第一图像。
应用模块1202可将第一图像输入至图像处理模型中,获得比第一图像质量更高的第二图像,其中,图像处理模型嵌入有本公开的注意力模块。
此外,应用模块1202也可对图像处理模型进行训练。或者,图像处理装置1200可包括训练模块(未示出),用于训练更新图像处理模型的参数。
图13是根据本公开的另一实施例的图像处理模型的训练装置的框图。
参照图13,训练装置1300可包括获取模块1301和训练模块1302。在各种实施例中,可省略图像处理装置1300中的一些模块,或者还可包括另外的模块。此外,根据本公开的各种实施例的模块/元件可被组合以形成单个实体,并且因此可等效地执行相应模块/元件在组合之前的功能。。训练模块1302可包括配置模块1321、预测模块1322、第一训练模块1323和第二训练模块1324。
获取模块1301可获取训练数据,其中,训练数据可包括高分辨率的第一图像和从第一图像获得的低分辨率的第二图像。
训练模块1302可利用训练数据对嵌入有本公开的注意力模块的图像处理模型进行训练。
具体地,配置模块1321可在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,每一层的注意力模块具有结构参数。
预测模块1322可基于低分辨率的第二图像利用第二神经网络来获得预测图像。
第一训练模块1323可基于预测图像和相应的高分辨率的第一图像以及每一层的注意力模块的结构参数来构建损失函数,利用损失函数来训练每一层的注意力模块的结构参数和第二神经网络的网络参数。
配置模块1321可在第二神经网络中去掉与结构参数为第一值的注意力模块并且保留与结构参数为第二值的注意力模块,以得到第三神经网络。
第二训练模块1324可基于从低分辨率的第二图像利用第三神经网络来得到另外的预测图像,基于另外的预测图像和相应的高分辨率的第一图像构建另外的损失函数,利用由另外的损失函数计算的损失来训练第三神经网络;并且将训练好的第三神经网络作为最终的图像处理模型。
根据本公开的实施例,还可提供一种存储指令的计算机可读存储介质,其中,当指令被至少一个处理器运行时,促使至少一个处理器执行根据本公开的图像处理方法和模型训练方法。这里的计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如,多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置,所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,此外,在一个示例中,计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上,使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。
根据本公开的实施例中,还可提供一种计算机程序产品,该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述图像处理方法和模型训练方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (26)

1.一种图像处理方法,其特征在于,所述图像处理方法基于嵌入有注意力模块的图像处理模型实现,所述方法包括:
获取第一图像;
基于由所述图像处理模型的标记层针对所述第一图像输出的特征图中的查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;
根据所述偏移量在由所述图像处理模型的参考层针对所述第一图像输出的特征图中采样与所述查询特征相关的参考特征;
通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;
按照所述注意力权重对所述每个参考特征进行加权求和,以获得被叠加在所述查询特征的全局特征;
基于所述全局特征生成与所述第一图像相应的第二图像,所述第二图像的质量高于所述第一图像,
其中,所述标记层是所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层是所述图像处理模型中在所述第一个层之前的层。
2.根据权利要求1所述的图像处理方法,其特征在于,注意力模块包括第一处理层和第二处理层,
其中,第一处理层被配置为基于所述查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;并且根据所述偏移量在所述参考层的特征图中采样与所述查询特征相关的参考特征,
第二处理层被配置为通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;并且按照所述注意力权重对所述每个参考特征进行加权求和,以获得所述全局特征。
3.根据权利要求1所述的图像处理方法,其特征在于,在所述图像处理模型中嵌入有多个注意力模块的情况下,针对当前注意力模块的参考层包括所述图像处理模型的在所述当前注意力模块的位置之前的每个注意力模块被嵌入的位置之前的第一个层。
4.根据权利要求2所述的图像处理方法,其特征在于,根据所述偏移量在所述参考层的特征图中采样与所述查询特征相关的参考特征,包括:
根据所述偏移量分别在由所述参考层的每个参考层的特征图中采样参考特征,
其中,按照所述注意力权重对所述每个参考特征进行加权求和,以获得所述全局特征,包括:
针对所述每个参考层,按照所述注意力权重对从该参考层的特征图中采样的参考特征进行加权求和,以获得针对该参考层的全局特征;
将针对所述每个参考层的全局特征进行累加以获得所述全局特征。
5.根据权利要求2所述的图像处理方法,其特征在于,所述查询特征在特征图中位于整数坐标位置,在偏移量包含小数部分的情况下,该偏移量被执行插值采样处理。
6.根据权利要求1所述的图像处理方法,其特征在于,所述图像处理模型基于以下方式被训练:
获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;
基于所述第四图像利用所述图像处理模型来得到预测图像;
基于所述预测图像和相应的第三图像来构建损失函数;
利用由所述损失函数计算的损失来训练所述图像处理模型中的网络参数。
7.根据权利要求1所述的图像处理方法,其特征在于,在所述图像处理模型中嵌入有多个注意力模块的情况下,所述图像处理模型基于以下方式被训练:
获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;
在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;
基于所述第四图像利用所述第二神经网络来得到预测图像;
基于所述预测图像和相应的第三图像以及所述每一层的注意力模块的结构参数来构建损失函数;
利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数,以得到所述图像处理模型。
8.一种图像处理模型的训练方法,包括:
获取训练数据,其中,所述训练数据包括高分辨率的第一图像和从所述第一图像获得的低分辨率的第二图像;
利用所述训练数据对所述图像处理模型进行训练,
其中,所述图像处理模型嵌入有注意力模块并且包括标记层和参考层,其中,所述标记层为所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层为所述图像处理模型中在所述第一个层之前的层,
所述注意力模块被配置为基于所述标记层针对所述第二图像输出的特征图中的查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;根据所述偏移量在由所述参考层针对所述第二图像输出的特征图中采样与所述查询特征相关的参考特征;通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;按照所述注意力权重对所述每个参考特征进行加权求和,以获得被叠加在所述查询特征的全局特征,所述全局特征被用于预测所述第二图像的高分辨率图像。
9.根据权利要求8所述的训练方法,其特征在于,利用所述训练数据对所述图像处理模型进行训练,包括:
在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;
基于所述第二图像利用所述第二神经网络来获得预测图像;
基于所述预测图像和相应的第一图像以及所述每一层的注意力模块的结构参数来构建损失函数;
利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数,以得到所述图像处理模型。
10.根据权利要求9所述的训练方法,其特征在于,所述损失函数包括基于所述预测图像和相应的第一图像生成的第一损失函数和基于注意力模块的每秒浮点运算次数和所述结构参数生成的第二损失函数。
11.根据权利要求9所述的训练方法,其特征在于,所述结构参数在训练中被更新为第一值或第二值,其中,第一值表示在神经网络中不嵌入与第一值的结构参数对应的注意力模块,第二值表示在神经网络中嵌入与第二值的结构参数对应的注意力模块。
12.根据权利要求11所述的训练方法,其特征在于,在所述第二神经网络中去掉与结构参数为第一值的注意力模块并且保留与结构参数为第二值的注意力模块,以得到第三神经网络,
其中,利用所述训练数据对所述图像处理模型进行训练,还包括:
基于所述第二图像利用所述第三神经网络来得到另外的预测图像;
基于所述另外的预测图像和相应的第一图像构建另外的损失函数;
利用由所述另外的损失函数计算的损失来训练所述第三神经网络;并且
将训练好的所述第三神经网络作为所述图像处理模型。
13.一种图像处理装置,包括:
获取模块,被配置为获取第一图像;
应用模块,被配置为:
基于由图像处理模型的标记层针对所述第一图像输出的特征图中的查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;
根据所述偏移量在由所述图像处理模型的参考层针对所述第一图像输出的特征图中采样与所述查询特征相关的参考特征;
通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;
按照所述注意力权重对所述每个参考特征进行加权求和,以获得被叠加在所述查询特征的全局特征;
基于所述全局特征生成与所述第一图像相应的第二图像,所述第二图像的质量高于所述第一图像,
其中,所述图像处理模型嵌入有注意力模块,所述标记层是所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层是所述图像处理模型中在所述第一个层之前的层。
14.根据权利要求13所述的图像处理装置,其特征在于,注意力模块包括第一处理层和第二处理层,
其中,第一处理层被配置为基于所述查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;并且根据所述偏移量在所述参考层的特征图中采样与所述查询特征相关的参考特征,
第二处理层被配置为通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;并且按照所述注意力权重对所述每个参考特征进行加权求和,以获得所述全局特征。
15.根据权利要求13所述的图像处理装置,其特征在于,在所述图像处理模型中嵌入有多个注意力模块的情况下,针对当前注意力模块的参考层包括所述图像处理模型的在所述当前注意力模块的位置之前的每个注意力模块被嵌入的位置之前的第一个层。
16.根据权利要求14所述的图像处理装置,其特征在于,所述第一处理层被配置为根据所述偏移量分别在由所述参考层的每个参考层输出的特征图中采样参考特征,
其中,所述第二处理层被配置为:
针对所述每个参考层,按照所述注意力权重对从该参考层的特征图中采样的参考特征进行加权求和,以获得针对该参考层的全局特征;
将针对所述每个参考层的全局特征进行累加以获得所述全局特征。
17.根据权利要求14所述的图像处理装置,其特征在于,所述查询特征在特征图中位于整数坐标位置,在偏移量包含小数部分的情况下,该偏移量被执行插值采样处理。
18.根据权利要求13所述的图像处理装置,其特征在于,所述图像处理模型基于以下方式被训练:
获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;
基于所述第四图像利用所述图像处理模型来得到预测图像;
基于所述预测图像和相应的第三图像来构建损失函数;
利用由所述损失函数计算的损失来训练所述图像处理模型中的网络参数。
19.根据权利要求13所述的图像处理装置,其特征在于,在所述图像处理模型中嵌入有多个注意力模块的情况下,所述图像处理模型基于以下方式被训练:
获取训练数据,其中,所述训练数据包括高分辨率的第三图像和从所述第三图像获得的低分辨率的第四图像;
在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;
基于所述第四图像利用所述第二神经网络来得到预测图像;
基于所述预测图像和相应的第三图像以及所述每一层的注意力模块的结构参数来构建损失函数;
利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数,以得到所述图像处理模型。
20.一种图像处理模型的训练装置,包括:
获取模块,被配置为获取训练数据,其中,所述训练数据包括高分辨率的第一图像和从所述第一图像获得的低分辨率的第二图像;
训练模块,被配置为利用所述训练数据对所述图像处理模型进行训练,
其中,所述图像处理模型嵌入有注意力模块并且包括标记层和参考层,其中,所述标记层为所述图像处理模型中在所述注意力模块被嵌入的位置之前的第一个层,所述参考层为所述图像处理模型中在所述第一个层之前的层,
所述注意力模块被配置为基于所述标记层针对第二图像输出的特征图中的查询特征,获取所述查询特征与所述查询特征所关注的特征之间的偏移量;根据所述偏移量在由所述参考层针对所述第二图像输出的特征图中采样与所述查询特征相关的参考特征;通过对所述查询特征执行卷积运算来获得所述参考特征中每个参考特征的注意力权重;按照所述注意力权重对所述每个参考特征进行加权求和,以获得被叠加在所述查询特征的全局特征,所述全局特征被用于预测所述第二图像的高分辨率图像。
21.根据权利要求20所述的训练装置,其特征在于,训练模块包括:
配置模块,被配置为在用于图像处理的第一神经网络的每一层之后嵌入注意力模块以得到第二神经网络,其中,所述每一层的注意力模块具有结构参数;
预测模块,被配置为基于所述第二图像利用所述第二神经网络来获得预测图像;
第一训练模块,被配置为:基于所述预测图像和相应的第一图像以及所述每一层的注意力模块的结构参数来构建损失函数,利用所述损失函数来训练所述每一层的注意力模块的结构参数和所述第二神经网络的网络参数。
22.根据权利要求21所述的训练装置,其特征在于,所述损失函数包括基于所述预测图像和相应的第一图像生成的第一损失函数和基于注意力模块的每秒浮点运算次数和所述结构参数生成的第二损失函数。
23.根据权利要求21所述的训练装置,其特征在于,所述结构参数在训练中被更新为第一值或第二值,其中,第一值表示在神经网络中不嵌入与第一值的结构参数对应的注意力模块,第二值表示在神经网络中嵌入与第二值的结构参数对应的注意力模块。
24.根据权利要求23所述的训练装置,其特征在于,配置模块被配置为在所述第二神经网络中去掉与结构参数为第一值的注意力模块并且保留与结构参数为第二值的注意力模块,以得到第三神经网络,
其中,所述训练装置还包括第二训练模块,被配置为:
基于从所述第二图像利用所述第三神经网络来得到另外的预测图像;
基于所述另外的预测图像和相应的第一图像构建另外的损失函数;
利用由所述另外的损失函数计算的损失来训练所述第三神经网络;并且
将训练好的所述第三神经网络作为所述图像处理模型。
25.一种电子设备,其特征在于,包括:
至少一个处理器;
至少一个存储计算机可执行指令的存储器,
其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到12中的任一项权利要求所述的方法。
26.一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如权利要求1到12中的任一项权利要求所述的方法。
CN202111160654.7A 2021-09-30 2021-09-30 图像处理方法和装置以及模型训练方法和装置 Active CN113888430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111160654.7A CN113888430B (zh) 2021-09-30 2021-09-30 图像处理方法和装置以及模型训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111160654.7A CN113888430B (zh) 2021-09-30 2021-09-30 图像处理方法和装置以及模型训练方法和装置

Publications (2)

Publication Number Publication Date
CN113888430A CN113888430A (zh) 2022-01-04
CN113888430B true CN113888430B (zh) 2023-03-24

Family

ID=79004805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111160654.7A Active CN113888430B (zh) 2021-09-30 2021-09-30 图像处理方法和装置以及模型训练方法和装置

Country Status (1)

Country Link
CN (1) CN113888430B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875592A (zh) * 2018-04-13 2018-11-23 哈尔滨工程大学 一种基于注意力的卷积神经网络优化方法
KR102524766B1 (ko) * 2019-12-17 2023-04-24 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 자연어 및 지식 그래프 기반 표현 학습 방법 및 장치
CN111950643B (zh) * 2020-08-18 2022-06-28 创新奇智(上海)科技有限公司 图像分类模型训练方法、图像分类方法及对应装置
CN113177579A (zh) * 2021-04-08 2021-07-27 北京科技大学 一种基于注意力机制的特征融合方法
CN113222823B (zh) * 2021-06-02 2022-04-15 国网湖南省电力有限公司 基于混合注意力网络融合的高光谱图像超分辨率方法
CN113344806A (zh) * 2021-07-23 2021-09-03 中山大学 一种基于全局特征融合注意力网络的图像去雾方法与系统

Also Published As

Publication number Publication date
CN113888430A (zh) 2022-01-04

Similar Documents

Publication Publication Date Title
CN108062754B (zh) 基于密集网络图像的分割、识别方法和装置
US11568544B2 (en) Utilizing a two-stream encoder neural network to generate composite digital images
CN109087258B (zh) 一种基于深度学习的图像去雨方法及装置
US20190370659A1 (en) Optimizing neural network architectures
CN111898696A (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
TWI799191B (zh) 用於知識保存類神經網絡剪除之系統及方法
US11948281B2 (en) Guided up-sampling for image inpainting
CN111487624A (zh) 一种预测降雨量的方法与设备
CN116310667B (zh) 联合对比损失和重建损失的自监督视觉表征学习方法
WO2021026034A1 (en) Artificial intelligence job recommendation neural network machine learning training based on embedding technologies and actual and synthetic job transition latent information
CN112001485B (zh) 一种组卷积数目搜索方法和装置
CN117934254A (zh) 水印处理模型训练方法、水印处理方法、装置和设备
CN114792387A (zh) 图像恢复方法和设备
CN113888430B (zh) 图像处理方法和装置以及模型训练方法和装置
CN116861262A (zh) 一种感知模型训练方法、装置及电子设备和存储介质
Kurte et al. Performance analysis and optimization for scalable deployment of deep learning models for country‐scale settlement mapping on Titan supercomputer
Chen et al. Alfpn: adaptive learning feature pyramid network for small object detection
CN113194270B (zh) 视频处理方法、装置、电子设备及存储介质
EP4040378A1 (en) Burst image-based image restoration method and apparatus
JP7041239B2 (ja) 深層距離学習方法およびシステム
Qi et al. A Lightweight Binarized Convolutional Neural Network Model for Small Memory and Low‐Cost Mobile Devices
CN114510592A (zh) 图像分类方法、装置、电子设备及存储介质
CN113628338A (zh) 一种采样重建方法、装置、计算机设备及存储介质
Xiao et al. CTNet: hybrid architecture based on CNN and transformer for image inpainting detection
CN111524090A (zh) 一种基于深度预测图的rgb-d显著性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant