CN115578261A - 图像处理方法、深度学习模型的训练方法、装置 - Google Patents
图像处理方法、深度学习模型的训练方法、装置 Download PDFInfo
- Publication number
- CN115578261A CN115578261A CN202211263864.3A CN202211263864A CN115578261A CN 115578261 A CN115578261 A CN 115578261A CN 202211263864 A CN202211263864 A CN 202211263864A CN 115578261 A CN115578261 A CN 115578261A
- Authority
- CN
- China
- Prior art keywords
- feature
- residual
- characteristic
- model
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title claims abstract description 56
- 238000003672 processing method Methods 0.000 title claims abstract description 37
- 238000004821 distillation Methods 0.000 claims abstract description 130
- 238000012545 processing Methods 0.000 claims abstract description 128
- 238000013507 mapping Methods 0.000 claims abstract description 53
- 230000004927 fusion Effects 0.000 claims abstract description 6
- 238000000605 extraction Methods 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 7
- 238000013508 migration Methods 0.000 claims description 6
- 230000005012 migration Effects 0.000 claims description 6
- 230000003213 activating effect Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000003190 augmentative effect Effects 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000001994 activation Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本公开提供了一种图像处理方法、深度学习模型的训练方法、图像处理装置、深度学习模型的训练装置、设备、存储介质以及程序产品,涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域。图像处理方法的具体实现方案为:确定低分辨率图像的初始图像特征,初始图像特征具有目标通道数目;对初始图像特征执行至少一次残差特征蒸馏处理,得到目标残差特征,其中,残差特征蒸馏处理包括:以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合和基础残差特征蒸馏处理;根据目标残差特征和初始图像特征,确定映射特征;以及根据映射特征,得到与低分辨率图像对应的高分辨率图像。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、增强现实、虚拟现实、深度学习等技术领域,具体涉及一种图像处理方法、深度学习模型的训练方法、图像处理装置、深度学习模型的训练装置、设备、存储介质以及程序产品。
背景技术
图像处理是人工智能技术的一个重要分支,超分辨率则是图像处理的一个重要研究方向,如何准确、快速地将低分辨率图像转换为高分辨率图像成为亟待解决的技术问题。
发明内容
本公开提供了一种图像处理方法、深度学习模型的训练方法、图像处理装置、深度学习模型的训练装置、设备、存储介质以及程序产品。
根据本公开的一方面,提供了一种图像处理方法,包括:确定低分辨率图像的初始图像特征,初始图像特征具有目标通道数目;对初始图像特征执行至少一次残差特征蒸馏处理,得到目标残差特征,其中,残差特征蒸馏处理包括:以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合和基础残差特征蒸馏处理;根据目标残差特征和初始图像特征,确定映射特征;以及根据映射特征,得到与低分辨率图像对应的高分辨率图像。
根据本公开的另一方面,提供了一种深度学习模型的训练方法,深度学习模型包括至少一个残差特征蒸馏网络;深度学习模型的训练方法包括:根据初始超分模型的至少一个残差特征蒸馏网络对低分辨率样本进行特征提取,得到目标残差特征,其中,残差特征蒸馏网络构造成以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据,第一支路和第二支路分别包括用于进行基础残差特征蒸馏处理的基础残差特征蒸馏模块;根据目标残差特征和低分辨率样本,确定映射特征;根据映射特征和低分辨率样本对应的高分辨率样本,确定模型反馈数据;根据模型反馈数据,调整初始超分模型的参数,得到目标超分模型。
根据本公开的另一方面,提供了一种图像处理装置,包括:初始图像特征确定模块、至少一个残差特征蒸馏处理网络、映射特征第一确定模块、高分辨率图像确定模块。初始图像特征确定模块,用于确定低分辨率图像的初始图像特征,初始图像特征具有目标通道数目;至少一个残差特征蒸馏处理网络,用于对初始图像特征执行至少一次残差特征蒸馏处理,得到目标残差特征,其中,残差特征蒸馏处理网络用于以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合和基础残差特征蒸馏处理;映射特征第一确定模块,用于根据目标残差特征和初始图像特征,确定映射特征;高分辨率图像确定模块,用于根据映射特征,得到与低分辨率图像对应的高分辨率图像。
根据本公开的另一方面,提供了一种深度学习模型的训练装置,深度学习模型包括至少一个残差特征蒸馏网络;深度学习模型的训练装置包括:目标残差特征确定模块、映射特征第二确定模块、模型反馈数据确定模块以及目标超分模型确定模块。目标残差特征确定模块,用于根据初始超分模型的至少一个残差特征蒸馏网络对低分辨率样本进行特征提取,得到目标残差特征,其中,残差特征蒸馏网络构造成以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据,第一支路和第二支路分别包括用于进行基础残差特征蒸馏处理的基础残差特征蒸馏模块;映射特征第二确定模块,用于根据目标残差特征和低分辨率样本,确定映射特征;模型反馈数据确定模块,用于根据映射特征和低分辨率样本对应的高分辨率样本,确定模型反馈数据;目标超分模型确定模块,用于根据模型反馈数据,调整初始超分模型的参数,得到目标超分模型。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器和与至少一个处理器通信连接的存储器。其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行本公开实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序存储于可读存储介质和电子设备其中至少之一上,计算机程序在被处理器执行时实现本公开实施例的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示意性示出了根据本公开实施例的图像处理方法、深度学习模型的训练方法及其装置的系统架构图;
图2示意性示出了根据本公开实施例的图像处理方法的流程图;
图3示意性示出了可以执行本公开实施例的图像处理方法的深度学习模型的结构;
图4示意性示出了根据本公开一实施例的RFDB-LB网络的结构;
图5示意性示出了根据本公开一实施例的CA模块的结构;
图6示意性示出了根据本公开一实施例的RFDB模块的结构;
图7示意性示出了根据本公开一实施例的SRB模块的结构;
图8示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图;
图9示意性示出了根据本公开实施例的图像处理装置的框图;
图10示意性示出了根据本公开实施例的深度学习模型的训练装置的框图;以及
图11示意性示出了可以实现本公开实施例的图像处理方法、深度学习模型的训练方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
图像处理是人工智能技术的一个重要分支,将低分辨率图像转换为高分辨率的超分辨率则是图像处理的一个重要研究方向。超分辨率可以提升图像的分辨率、改善画质,例如可以应用于直播、视频播放等应用场景。
一些实施方式采用深度学习模型进行超分辨率,但是这种实施方式的深度学习模型的参数量巨大、需要大量的计算资源,并且预测速度较慢,例如在视频素材库较大或更新速度较快时需要投入较大的硬件资源成本,因此应用范围十分受限。
图1示意性示出了根据本公开一实施例的图像处理方法、深度学习模型的训练方法及其装置的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括:用于获取训练样本的终端101、用于训练深度学习模型的终端102和用于图像处理的终端103。
本公开实施例中,终端101可以用于获取训练集,训练集可以包括低分辨率样本和高分辨率样本的样本对。终端102可以根据终端101获得的训练集执行对应的深度学习模型的训练方法以实现对应的模型训练。终端103可以基于终端102获得的深度学习模型对低分辨率图像进行图像处理,得到高分辨率图像。
需要说明的是,获取训练样本和深度学习模型的训练可以在同一终端上实现,也可在不同终端实现。
终端101、终端102和终端103可以是服务器,还可以是服务器集群。
应该理解,图1中终端101、终端102和终端103的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端101、终端102和终端103。
应注意,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
在本公开的技术方案中,在获取或采集用户个人信息之前,均获取了用户的授权或同意。
本公开实施例提供了一种图像处理方法,下面结合图1的系统架构,参考图2~图7来描述根据本公开示例性实施方式的图像处理方法。本公开实施例的图像处理方法例如可以由图1所示的终端103来执行。本公开实施例的深度学习模型的训练方法例如可以由图1所示的终端102来执行。
图2示意性示出了根据本公开一实施例的图像处理方法的流程图。
如图2所示,本公开实施例的图像处理方法200例如可以包括操作S210~操作S240。
在操作S210,确定低分辨率图像的初始图像特征。
初始图像特征具有目标通道数目。
示例性地,低分辨率图像例如可以是RGB三通道的图像(RGB为三原色),目标通道数目例如可以大于3,例如可以是32。
示例性地,例如可以将低分辨率图像在通道维度进行升维,得到具有目标通道数目的初始图像特征。每一个通道可以理解为一个特征维度,具有目标通道数据的初始图像特征相应地具有更高的特征维度,基于初始图像特征,可以获得更多以及更具表征性的特征,用于准确地确定高分辨率图像。
在操作S220,对初始图像特征执行至少一次残差特征蒸馏处理,得到目标残差特征。
残差特征蒸馏处理包括:以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合和基础残差特征蒸馏处理。
需要说明的是,第一支路和第二支路的输入数据根据当前残差特征蒸馏处理的次数而改变。例如,对于第一次残差特征蒸馏处理,第一支路的输入数据可以是初始图像特征,对于第二次残差特征蒸馏处理,第一支路的输入数据可以是第一次(当前次数的上一次)残差特征蒸馏处理的输出数据。“以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合”可以理解为将第一支路的输入数据与第二支路的输入数据向同一条支路集中,例如可以通过加和、加权等方式进行融合,使得融合之后得到的数据可以包括至少一部分第一支路的输入数据和至少一部分第二支路的输入数据。
在操作S230,根据目标残差特征和初始图像特征,确定映射特征。
映射特征可以理解为由低分辨率图像得到高分辨率图像的特征向量。
示例性地,可以利用x表征低分辨率图像的初始图像特征,利用f(*)表征低分辨率图像至高分辨率图像的映射关系,可以利用f(x)-x表征目标残差特征,可以利用目标残差特征与初始图像特征的加和结果f(x)表征映射特征。
在操作S240,根据映射特征,得到与低分辨率图像对应的高分辨率图像。
根据本公开实施例的图像处理方法,可以达到至少以下技术效果之一。
1)第一支路和第二支路交叉,使得第一支路的输入数据和第二支路的输入数据在进行基础残差特征蒸馏整理处理之前或者之后融合,融合后的数据可以综合第一支路和第二支路的特征,使得由此得到的目标残差特征具有更优的表征性。
2)基础残差特征蒸馏处理相比于卷积具有特征蒸馏和残差学习的优势,可以从更多、更深层的特征中得到具有更优表征性的特征。
3)相比于直接从低分辨率图像映射到高分辨率图像的图像重建式的图像处理方法,本公开实施例是基于目标残差特征和初始图像特征得到的映射特征确定高分辨率图像的,在不损失图像分辨率精度的情况下,从低分辨率图像至高分辨率图像转换过程更简单,具有更高的图像处理效率。
需要说明的是,本公开实施例的图像处理方法例如还可以利用端到端的深度学习模型执行,以下将以深度学习模型执行本公开实施例的图像处理方法进行说明,但是本公开实施例的图像处理方法并不限于利用深度学习模型执行。
图3示意性示出了可以执行本公开实施例的图像处理方法的深度学习模型的结构,深度学习模型的相应网络、模块、处理层等可以执行图像处理方法的对应操作,深度学习模型的输入为低分辨率图像LR,输出为高分辨率图像SR。
如图3所示,根据本公开另一实施例的图像处理方法,例如可以利用以下实施例实现对初始图像特征执行至少一次残差特征蒸馏处理的具体示例。
在操作S321,对初始图像特征执行N次残差特征蒸馏处理,得到N个残差特征。N为大于1的整数。
在操作S322,将N个残差特征进行通道连接,得到目标残差特征。
对初始图像特征执行N次残差特征蒸馏处理可以理解为将初始图像特征作为第一次残差特征蒸馏处理的输入数据,以串联的形式执行N次残差特征蒸馏处理,经过每一次残差特征蒸馏处理后,可以得到一个对应的残差特征。
在图3的示意性示例中,低分辨率图像LR经过Conv-1处理层后可以得到具有目标通道数目的初始图像特征。Conv-1表征卷积核为1*1的卷积层。在低分辨率图像为RGB三通道、目标通道数目为32的情况下,Conv-1表征由32个1*1*3的卷积核组成的卷积层。
在图3的示意性示例中,Concat处理层可以用于对残差特征执行通道连接。
在图3的示意性示例中,示出了RFDB-LB-1至RFDB-LB-N的共计N个RFDB-LB网络,每一个RFDB-LB网络可以用于执行一次残差特征蒸馏处理,N个RFDN-LB网络的结构可以是相同的。
需要说明的是,在第一次残差特征蒸馏处理时,针对的对象是初始图像特征,在第n次残差特征蒸馏处理时,针对的对象是第n-1次残差特征蒸馏处理得到的第n-1个残差特征。n为大于1且小于等于N的整数。
图4示意性示出了根据本公开一实施例的RFDB-LB网络的结构。
如图4所示,例如可以利用以下实施例实现第n次残差特征蒸馏处理的具体示例。
在操作S41,经由第一支路R1,将第n-1次残差特征蒸馏处理得到的第n-1个残差特征RF-(n-1)进行基础残差特征蒸馏处理以及通道注意力增强,得到第一特征F1。
在操作S42,经由第二支路R2,对第n-1个残差特征RF-(n-1)进行与第一特征F1加和、基础残差特征蒸馏处理以及通道注意力增强,得到第二特征F2。
在操作S43,将第一特征F1和第二特征F2进行通道连接,得到第n个残差特征RF-n。
在图4的示意性示例中,示出了RFDB模块,RFDB模块用于执行基础残差特征蒸馏处理。
在图4的示意性示例中,示出了CA模块,CA模块用于执行通道注意力增强。
在图4的示意性示例中,例如还可以经第一支路R1,在操作S41之后,对第一特征F1进行通道注意力增强,例如还可以经第二支路R2,在操作S42之前,对第n-1个残差特征RF-(n-1)进行通道注意力增强。
根据本公开实施例的图像处理方法,针对每一次残差特征蒸馏处理可以综合经第一支路、第二支路进行加和、基础残差特征蒸馏、通道注意力增强的操作步骤,获得更具表征性的特征。例如第一支路和第二支路可以分别以不同的操作流程对输入数据进行特征提取,第一支路和第二支路的输入数据加和可以综合两个支路的特征;通过通道注意力增强可以差异化地关注通道特征。
示例性地,如图4所示,例如还可以利用Conv-1处理层对第n个残差特征RF-n进行通道维度调整,使得第n个残差特征RF-n与目标通道数目保持一致。
示例性地,如图3所示,例如可以利用以下实施例实现根据映射特征,得到与低分辨率图像对应的高分辨率图像的具体示例。
在操作S330,根据上采样倍数,对映射特征上采样处理,得到与低分辨率图像对应的高分辨率图像。
在图3的示意性示例中,示出了利用Pixel Shuffle处理层对映射特征上采样处理的示例。Pixel Shuffle处理层用于对映射特征进行像素重组,得到具有预期分辨率的高分辨图像。
上采样倍数可以根据具体的需求进行选择,例如在上采样倍数为2的情况下,高分辨率图像的分辨率可以提升为低分辨率图像的两倍。
在图3的示意性示例中,在对映射特征上采样处理后,例如还可以利用Conv-1处理层对上采样处理后的特征进行通道维度调整。例如,在低分辨率图像为RGB三通道,期望高分辨率图像也为三通道,并且上采样处理后的特征的通道数目与目标通道数目相同,均为32的情况下,Conv-1例如可以用于将上采样处理后的特征的通道数目32降维为3。
图5示意性示出了根据本公开一实施例的CA模块的结构。
如图5所示,例如可以通过全局池化、卷积处理、第一次激活处理、卷积处理以及第二次激活处理的方式,进行通道注意力增强。
在图5的示意性示例中,例如可以利用Global Pooling处理层进行全局池化、例如可以利用Conv处理层进行卷积处理、例如可以利用Relu处理层进行第一次激活处理,例如可以利用Sigmoid处理层进行第二次激活处理。可以理解,第一次激活处理基于Relu激活函数,第二次激活处理基于Sigmoid激活函数。
图6示意性示出了根据本公开一实施例的RFDB模块的结构。
如图6所示,根据本公开又一实施例的图像处理方法,例如可以利用以下实施例实现基础残差特征蒸馏处理的具体示例。
在操作S61,对残差特征进行M次目标特征提取处理,得到M个浅层特征和M个卷积特征。
在操作S62,对第M次目标特征提取处理得到的第M个浅层特征进行下采样,得到第一下采样特征。
在操作S63,将第一下采样特征和M个卷积特征进行通道连接,得到通道连接特征。
在操作S64,将通道连接特征与残差特征进行加和。
在图6的示意性示例中,示出了利用Conv-3处理层进行下采样的示例。Conv-3表征在非通道维度为3*3的卷积层。
在图6的示意性示例中,示出了M为3的情况。
如图6所示,例如可以利用以下实施例实现第m次目标特征提取处理的具体示例。
对第m-1次目标特征提取处理得到的第m-1个浅层特征分别进行卷积处理和浅层特征提取,得到第m个卷积特征和第m个浅层特征。
需要说明的是,在第一次目标特征提取处理时,针对的对象是初始图像特征,在第m次目标特征提取处理时,针对的对象是第m-1次目标特征提取处理得到的第m-1个浅层特征。M为大于1的整数、m为大于1且小于等于M的整数。
在图6的示意性示例中,针对每一次目标特征提取处理,示出了利用Conv-1处理层进行卷积处理,得到卷积特征的具体示例。在图6的示意性示例中,Conv-1表征在非通道维度为1*1的卷积层。
在图6的示意性示例中,针对目标特征提取处理,示出了利用SRB模块进行浅层特征提取,得到浅层特征的具体示例。
根据本公开实施例的图像处理方法,通过M次目标特征提取处理,可以提取更深层的特征,针对每一次目标特征提取处理,通过将相应的数据分别进行卷积处理和浅层特征提取,可以综合地获得具有更优表征性的特征,提高本公开实施例的图像处理方法的超分效果。
图7示意性示出了根据本公开一实施例的SRB模块的结构。
如图7所示,例如可以利用以下实施例实现对第m-1次目标特征处理得到的第m-1个浅层特征进行浅层特征提取,得到第m个浅层特征的具体示例。
在操作S71,对第m-1个浅层特征进行下采样,得到第二下采样特征。
在操作S72,将第m-1个浅层特征与第二下采样特征加和,得到第m个浅层残差特征。
在操作S73,对第m个浅层残差特征进行激活处理,得到第m个浅层特征。
在图7的示意性示例中,示出了利用Conv-3处理层进行下采样的示例。Conv-3处理层表征在非通道维度为3*3的卷积层。
在图7的示意性示例中,示出了利用Relu处理层进行激活处理的示例。可以理解,Relu处理层基于Relu激活函数进行激活处理。
在利用如图3所示的深度学习模型执行本公开实施例的图像处理方法的情况下,图3所示的深度学习模型作为一种轻量级超分模型,通过堆叠多个RFDB-LB网络,可以提取具有更优表征性的特征,还结合例如通道注意力增强、特征蒸馏、残差学习、浅层特征等,对于该轻量级超分模型的结构进行优化,使得该轻量级超分模型的参数并没有大幅增加,同时在例如预测速度等、画质提升等模型性能方面具有有效提升,该轻量级超分模型具有更低的算力需求,可以广泛应用于例如直播、视频播放的客户端等。
具体地,该轻量级超分模型通过RFDB模块,可以提高不同尺度和通道间的特征融合能力,能够有效提升对纹理细节的解析力,从而提升超分后图像的整体主观画质。
该轻量级超分模型通过RFDB-LB网络的第一支路和第二支路交叉的方式可以优化模型结构,使得多个RFDB-LB网络堆叠形成的模型在超分后主观画质没有明显损失的前提下,可以有效提高预测速度,降低模型参数量和flops。
该轻量级超分模型的参数量更少,模型结构也更加轻量级,例如可以降低相应的计算机系统的存储量,提高计算机系统的超分运行速度等。
本公开实施例还提出了一种深度学习模型的训练方法。深度学习模型包括至少一个残差特征蒸馏网络。
图8示意性示出了根据本公开实施例的深度学习模型的训练方法的流程图。
如图8所示,根据本公开实施例的深度学习模型的训练方法800包括操作S810~操作S840。
在操作S810,根据初始超分模型的至少一个残差特征蒸馏网络对低分辨率样本进行特征提取,得到目标残差特征。
残差特征蒸馏网络构造成以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据,第一支路和第二支路分别包括用于进行基础残差特征蒸馏处理的基础残差特征蒸馏模块。
在操作S820,根据目标残差特征和低分辨率样本,确定映射特征。
示例性地,可以利用x表征特征向量形式的低分辨率样本,利用f(*)表征低分辨率样本至高分辨率图像的的映射关系,可以利用f(x)-x表征目标残差特征,可以利用目标残差特征与特征向量形式的低分辨率样本x的加和结果f(x)表征映射特征。“以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据”可以理解为将第一支路的输入数据与第二支路的输入数据向同一条支路集中,例如可以通过加和、加权等方式进行融合,使得融合之后得到的数据可以包括至少一部分第一支路的输入数据和至少一部分第二支路的输入数据。
在操作S830,根据映射特征和低分辨率样本对应的高分辨率样本,确定模型反馈数据。
在操作S840,根据模型反馈数据,调整初始超分模型的参数,得到目标超分模型。
初始超分模型可以理解为具体结构、模型参数中的至少一者并不确定的超分模型,目标超分模型可以理解为具有具体结构和具体模型参数的超分模型。
映射特征表征当前的深度学习模型的从低分辨率样本至高分辨率图像的映射,通过模型期望得到与低分辨率样本对应的高分辨率样本,实际得到的是高分辨率图像。根据高分辨率样本与映射特征得到的模型反馈数据可以反映当前的深度学习模型的从低分辨率样本至高分辨率图像的超分效果,模型反馈数据可以用于调整初始超分模型的参数,使得目标超分模型可以达到预期的超分效果。
本公开实施例的深度学习模型的训练方法,针对超分辨率的深度学习模型的训练过程,训练样本为低分辨率样本和相应的高分辨率样本。
本公开实施例的深度学习模型的训练方法,可以达到以下技术效果之一。
1)基于初始超分模型进行训练时,初始超分模型包括至少一个残差特征蒸馏网络,通过将残差特征蒸馏网络构造成以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据,融合后的数据可以综合第一支路和第二支路的特征,使得由此得到的目标残差特征具有更优的表征性。
2)基础残差特征蒸馏处理相比于卷积具有特征蒸馏和残差学习的优势,可以从更多、更深层的特征中得到具有更优表征性的特征。
3)相比于直接从低分辨率图像映射到高分辨率图像的图像重建式的图像处理方法,本公开实施例的深度学习模型的训练方法是基于目标残差特征和初始图像特征得到的映射特征这种残差学习的方式确定高分辨率图像的,在不损失图像分辨率精度的情况下,深度学习模型的学习任务更简单,具有更高的模型训练效率。
需要说明的是,本公开实施例的深度学习模型的训练方法的目标超分模型例如可以执行上述的图像处理方法,目标超分模型的结构例如可以如上述图3-图7所示,在此不再赘述。
示例性地,例如可以使用默认参数的Adam优化器训练深度学习模型,初始学习率例如可以设置为5e-3,每5000次迭代学习率乘以0.5,直至学习率为1e-5。
根据本公开又一实施例的深度学习模型的训练方法,目标超分模型可以是学生模型,学生模型根据教师模型与学生模型之间基于特征参数的监督数值得到,监督数值用于表征教师模型向学生模型进行模型迁移的迁移度。
示例性地,例如可以预先得到训练好的教师模型,教师模型例如可以是相对于学生模型规模更大、结构更复杂的深度学习模型。
特征参数可以理解为预先定义的、用于表征教师模型向学生模型迁移学习的参数。在特征参数达到预期时,可以认为教师模型的超分辨率能力迁移至学生模型,学生模型可以达到预期的超分效果。
示例性地,特征参数可以包括:针对任意一个低分辨率样本,由教师模型得到的高分辨率图像与由学生模型得到的高分辨率图像之间的差值、由教师模型得到高分辨率图像的预测时间与由学生模型得到高分辨率图像的预测时间之间的差值。
根据本公开实施例的深度学习模型的训练方法,目标超分模型可以作为学生模型,根据教师模型经过迁移学习得到,学生模型在可以达到预期的超分效果的情况下更加轻量级,并且相比于直接训练目标超分模型,由教师模型得到学生模型的训练方法更加简单和高效。
根据本公开又一实施例的深度学习模型的训练方法,初始超分模型可以包括多个候选残差特征蒸馏模块,每一个候选残差特征蒸馏模块的结构不同。
根据本公开实施例的深度学习模型的训练方法,例如可以利用以下实施例实现根据模型反馈数据,调整初始超分模型的参数,得到目标超分模型的具体示例。
根据损失函数的数值,调整初始超分模型的参数,得到目标超分模型。
初始超分模型的参数包括以下中的至少一个:通道数的数值、残差特征蒸馏模块的数目以及候选残差特征蒸馏模块。
示例性地,损失函数的变量可以包括:通道数的数值、残差特征蒸馏模块的数目、候选残差特征蒸馏模块中的至少一个。
示例性地,损失函数可以包括多个,例如通道数的数值、残差特征蒸馏模块的数目、候选残差特征蒸馏模块中的一个或者多个例如可以作为每一个损失函数的自变量。
示例性地,以上述图3至图7所示的深度学习模型为例,候选残差特征蒸馏模块的结构不同例如可以体现在:RFDB-LB网络的第一支路和第二支路上RFDB模块的位置不同、数量不同等。RFDB模块的具体结构也可以不同。
根据本公开实施例的深度学习模型的训练方法,可以根据损失函数,自适应调整例如通道数的数值、残差特征蒸馏模块的数目以及候选残差特征蒸馏模块等,具有更高的深度学习模型训练效率。
需要说明的是,根据本公开实施例的深度学习模型的训练方法,还可以根据损失函数的数值,自适应调整模型的例如每一个隐藏层的权重和偏置量。
图9示意性示出了根据本公开一实施例的图像处理装置的框图。
如图9所示,本公开实施例的图像处理装置900例如包括初始图像特征确定模块910、至少一个残差特征蒸馏处理网络920、映射特征第一确定模块930、高分辨率图像确定模块940。
初始图像特征确定模块910,用于确定低分辨率图像的初始图像特征,初始图像特征具有目标通道数目。
至少一个残差特征蒸馏处理网络920,用于对初始图像特征执行至少一次残差特征蒸馏处理,得到目标残差特征。
残差特征蒸馏处理网络用于以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合和基础残差特征蒸馏处理。
映射特征第一确定模块930,用于根据目标残差特征和初始图像特征,确定映射特征。
高分辨率图像确定模块940,用于根据映射特征,得到与低分辨率图像对应的高分辨率图像。
根据本公开另一实施例,至少一个残差特征蒸馏处理网络包括:N个残差特征蒸馏网络和目标残差特征确定模块。
N个残差特征蒸馏网络,用于对初始图像特征执行N次残差特征蒸馏处理,得到N个残差特征。N为大于1的整数。
目标残差特征确定模块,用于将N个残差特征进行通道连接,得到目标残差特征;
第n个残差特征蒸馏网络包括:第一特征确定模块、第二特征确定模块以及残差特征确定模块。
第一特征确定模块,用于经由第一支路,将第n-1次残差特征蒸馏处理得到的第n-1个残差特征进行基础残差特征蒸馏处理以及通道注意力增强,得到第一特征。n为大于1且小于等于N的整数。
第二特征确定模块,用于经由第二支路,对第n-1个残差特征进行与第一特征加和、基础残差特征蒸馏处理以及通道注意力增强,得到第二特征。
残差特征确定模块,用于将第一特征和第二特征进行通道连接,得到第n个残差特征。
根据本公开另一实施例,基础残差特征蒸馏处理模块用于执行基础残差特征蒸馏处理,基础残差特征蒸馏处理模块包括:M个目标特征提取处理子模块、第一下采样特征确定子模块、通道连接特征确定子模块以及加和子模块。
M个目标特征提取处理子模块,用于对残差特征进行M次目标特征提取处理,得到M个浅层特征和M个卷积特征。
第一下采样特征确定子模块,用于对第M次目标特征提取处理得到的第M个浅层特征进行下采样,得到第一下采样特征。
通道连接特征确定子模块,用于将第一下采样特征和M个卷积特征进行通道连接,得到通道连接特征。
加和子模块,用于将通道连接特征与残差特征进行加和。
第M个目标特征提取处理子模块包括:卷积特征确定单元和浅层特征提取单元,卷积特征确定单元和浅层特征提取单元用于对第m-1次目标特征提取处理得到的第m-1个浅层特征分别进行卷积处理和浅层特征提取,得到第m个卷积特征和第m个浅层特征。M为大于1的整数、m为大于1且小于等于M的整数。
根据本公开另一实施例,第M个浅层特征提取单元包括:第二下采样特征确定子单元、浅层残差特征确定子单元、浅层特征确定子单元。
第二下采样特征确定子单元,用于对第m-1个浅层特征进行下采样,得到第二下采样特征。
浅层残差特征确定子单元,用于将第m-1个浅层特征与第二下采样特征加和,得到第m个浅层残差特征。
浅层特征确定子单元,用于对第m个浅层残差特征进行激活处理,得到第m个浅层特征。
根据本公开另一实施例,高分辨率图像确定模块包括:高分辨率图像确定子模块,用于根据上采样倍数,对映射特征上采样处理,得到与低分辨率图像对应的高分辨率图像。
图10示意性示出了根据本公开一实施例的深度学习模型的训练装置的框图。
如图10所示,本公开实施例的深度学习模型的训练装置1000例如包括至少一个残差特征蒸馏网络,深度学习模型的训练装置1000包括目标残差特征确定模块1010、映射特征第二确定模块1020、模型反馈数据确定模块1030以及目标超分模型确定模块1040。
目标残差特征确定模块1010,用于根据初始超分模型的至少一个残差特征蒸馏网络对低分辨率样本进行特征提取,得到目标残差特征。
残差特征蒸馏网络构造成以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据,第一支路和第二支路分别包括用于进行基础残差特征蒸馏处理的基础残差特征蒸馏模块。
映射特征第二确定模块1020,用于根据目标残差特征和低分辨率样本,确定映射特征。
模型反馈数据确定模块1030,用于根据映射特征和低分辨率样本对应的高分辨率样本,确定模型反馈数据。
目标超分模型确定模块1040,用于根据模型反馈数据,调整初始超分模型的参数,得到目标超分模型。
根据本公开另一实施例,目标超分模型为学生模型,学生模型根据教师模型与学生模型之间基于特征参数的监督数值得到,监督数值用于表征教师模型向学生模型进行模型迁移的迁移度。
根据本公开另一实施例,初始超分模型包括多个候选残差特征蒸馏模块,每一个候选残差特征蒸馏模块的结构不同,目标超分模块确定模块包括:参数调整子模块,用于根据损失函数的数值,调整初始超分模型的参数,得到目标超分模型,初始超分模型的参数包括以下中的至少一个:通道数的数值、残差特征蒸馏模块的数目以及候选残差特征蒸馏模块。
应该理解,本公开装置部分的实施例与本公开方法部分的实施例对应相同或类似,所解决的技术问题和所达到的技术效果也对应相同或类似,本公开在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如图像处理方法、深度学习模型的训练方法。例如,在一些实施例中,图像处理方法、深度学习模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的图像处理方法、深度学习模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法、深度学习模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种图像处理方法,包括:
确定低分辨率图像的初始图像特征,所述初始图像特征具有目标通道数目;
对所述初始图像特征执行至少一次残差特征蒸馏处理,得到目标残差特征,其中,所述残差特征蒸馏处理包括:以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合和基础残差特征蒸馏处理;
根据所述目标残差特征和所述初始图像特征,确定映射特征;以及
根据所述映射特征,得到与所述低分辨率图像对应的高分辨率图像。
2.根据权利要求1所述的方法,其中,所述对所述初始图像特征执行至少一次残差特征蒸馏处理包括:
对所述初始图像特征执行N次残差特征蒸馏处理,得到N个残差特征,其中,N为大于1的整数;以及
将所述N个残差特征进行通道连接,得到所述目标残差特征;
其中,第n次所述残差特征蒸馏处理包括:
经由所述第一支路,将第n-1次残差特征蒸馏处理得到的第n-1个残差特征进行基础残差特征蒸馏处理以及通道注意力增强,得到第一特征,其中,n为大于1且小于等于N的整数;
经由所述第二支路,对所述第n-1个残差特征进行与所述第一特征加和、所述基础残差特征蒸馏处理以及通道注意力增强,得到第二特征;以及
将所述第一特征和所述第二特征进行通道连接,得到第n个残差特征。
3.根据权利要求2所述的方法,其中,所述基础残差特征蒸馏处理包括:
对所述残差特征进行M次目标特征提取处理,得到M个浅层特征和M个卷积特征;
对第M次所述目标特征提取处理得到的第M个浅层特征进行下采样,得到第一下采样特征;
将所述第一下采样特征和所述M个卷积特征进行通道连接,得到通道连接特征;以及
将所述通道连接特征与所述残差特征进行加和;
其中,第m次目标特征提取处理包括:对第m-1次目标特征提取处理得到的第m-1个浅层特征分别进行卷积处理和浅层特征提取,得到第m个卷积特征和第m个浅层特征,M为大于1的整数、m为大于1且小于等于M的整数。
4.根据权利要求3所述的方法,其中,所述对第m-1次目标特征处理得到的第m-1个浅层特征进行浅层特征提取,得到第m个浅层特征包括:
对所述第m-1个浅层特征进行下采样,得到第二下采样特征;
将所述第m-1个浅层特征与所述第二下采样特征加和,得到第m个浅层残差特征;以及
对所述第m个浅层残差特征进行激活处理,得到所述第m个浅层特征。
5.根据权利要求1-4中任一项所述的方法,其中,所述根据所述映射特征,得到与所述低分辨率图像对应的高分辨率图像包括:
根据上采样倍数,对所述映射特征上采样处理,得到与所述低分辨率图像对应的所述高分辨率图像。
6.一种深度学习模型的训练方法,所述深度学习模型包括至少一个残差特征蒸馏网络;所述方法包括:
根据初始超分模型的所述至少一个残差特征蒸馏网络对低分辨率样本进行特征提取,得到目标残差特征,其中,所述残差特征蒸馏网络构造成以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据,所述第一支路和所述第二支路分别包括用于进行基础残差特征蒸馏处理的基础残差特征蒸馏模块;
根据所述目标残差特征和所述低分辨率样本,确定映射特征;
根据所述映射特征和所述低分辨率样本对应的高分辨率样本,确定模型反馈数据;
根据所述模型反馈数据,调整所述初始超分模型的参数,得到目标超分模型。
7.根据权利要求6所述的方法,其中,所述目标超分模型为学生模型,所述学生模型根据教师模型与所述学生模型之间基于特征参数的监督数值得到,所述监督数值用于表征所述教师模型向所述学生模型进行模型迁移的迁移度。
8.根据权利要求7所述的方法,其中,所述初始超分模型包括多个候选残差特征蒸馏模块,每一个所述候选残差特征蒸馏模块的结构不同,所述根据所述模型反馈数据,调整所述初始超分模型的参数,得到目标超分模型包括:
根据损失函数的数值,调整所述初始超分模型的参数,得到所述目标超分模型,所述初始超分模型的参数包括以下中的至少一个:通道数的数值、所述残差特征蒸馏模块的数目以及所述候选残差特征蒸馏模块。
9.一种图像处理装置,包括:
初始图像特征确定模块,用于确定低分辨率图像的初始图像特征,所述初始图像特征具有目标通道数目;
至少一个残差特征蒸馏处理网络,用于对所述初始图像特征执行至少一次残差特征蒸馏处理,得到目标残差特征,其中,残差特征蒸馏处理网络用于以第一支路和第二支路交叉的形式,分别对第一支路的输入数据和第二支路的输入数据进行融合和基础残差特征蒸馏处理;
映射特征第一确定模块,用于根据所述目标残差特征和所述初始图像特征,确定映射特征;以及
高分辨率图像确定模块,用于根据所述映射特征,得到与所述低分辨率图像对应的高分辨率图像。
10.根据权利要求9所述的装置,其中,所述至少一个残差特征蒸馏处理网络包括:
N个残差特征蒸馏网络,用于对所述初始图像特征执行N次残差特征蒸馏处理,得到N个残差特征,其中,N为大于1的整数;以及
目标残差特征确定模块,用于将所述N个残差特征进行通道连接,得到所述目标残差特征;
其中,第n个所述残差特征蒸馏网络包括:
第一特征确定模块,用于经由所述第一支路,将第n-1次残差特征蒸馏处理得到的第n-1个残差特征进行基础残差特征蒸馏处理以及通道注意力增强,得到第一特征,其中,n为大于1且小于等于N的整数;
第二特征确定模块,用于经由所述第二支路,对所述第n-1个残差特征进行与所述第一特征加和、所述基础残差特征蒸馏处理以及通道注意力增强,得到第二特征;以及
残差特征确定模块,用于将所述第一特征和所述第二特征进行通道连接,得到第n个残差特征。
11.根据权利要求10所述的装置,其中,基础残差特征蒸馏处理模块用于执行所述基础残差特征蒸馏处理,所述基础残差特征蒸馏处理模块包括:
M个目标特征提取处理子模块,用于对所述残差特征进行M次目标特征提取处理,得到M个浅层特征和M个卷积特征;
第一下采样特征确定子模块,用于对第M次所述目标特征提取处理得到的第M个浅层特征进行下采样,得到第一下采样特征;
通道连接特征确定子模块,用于将所述第一下采样特征和所述M个卷积特征进行通道连接,得到通道连接特征;以及
加和子模块,用于将所述通道连接特征与所述残差特征进行加和;
其中,第M个所述目标特征提取处理子模块包括:卷积特征确定单元和浅层特征提取单元,所述卷积特征确定单元和所述浅层特征提取单元用于对第m-1次目标特征提取处理得到的第m-1个浅层特征分别进行卷积处理和浅层特征提取,得到第m个卷积特征和第m个浅层特征,M为大于1的整数、m为大于1且小于等于M的整数。
12.根据权利要求11所述的装置,其中,第M个所述浅层特征提取单元包括:
第二下采样特征确定子单元,用于对所述第m-1个浅层特征进行下采样,得到第二下采样特征;
浅层残差特征确定子单元,用于将所述第m-1个浅层特征与所述第二下采样特征加和,得到第m个浅层残差特征;以及
浅层特征确定子单元,用于对所述第m个浅层残差特征进行激活处理,得到所述第m个浅层特征。
13.根据权利要求9-12中任一项所述的装置,其中,所述高分辨率图像确定模块包括:
高分辨率图像确定子模块,用于根据上采样倍数,对所述映射特征上采样处理,得到与所述低分辨率图像对应的所述高分辨率图像。
14.一种深度学习模型的训练装置,所述深度学习模型包括至少一个残差特征蒸馏网络;所述装置包括:
目标残差特征确定模块,用于根据初始超分模型的所述至少一个残差特征蒸馏网络对低分辨率样本进行特征提取,得到目标残差特征,其中,所述残差特征蒸馏网络构造成以第一支路和第二支路交叉的形式融合第一支路和第二支路的输入数据,所述第一支路和所述第二支路分别包括用于进行基础残差特征蒸馏处理的基础残差特征蒸馏模块;
映射特征第二确定模块,用于根据所述目标残差特征和所述低分辨率样本,确定映射特征;
模型反馈数据确定模块,用于根据所述映射特征和所述低分辨率样本对应的高分辨率样本,确定模型反馈数据;
目标超分模型确定模块,用于根据所述模型反馈数据,调整所述初始超分模型的参数,得到目标超分模型。
15.根据权利要求14所述的装置,其中,所述目标超分模型为学生模型,所述学生模型根据教师模型与所述学生模型之间基于特征参数的监督数值得到,所述监督数值用于表征所述教师模型向所述学生模型进行模型迁移的迁移度。
16.根据权利要求15所述的装置,其中,所述初始超分模型包括多个候选残差特征蒸馏模块,每一个所述候选残差特征蒸馏模块的结构不同,所述目标超分模块确定模块包括:
参数调整子模块,用于根据损失函数的数值,调整所述初始超分模型的参数,得到所述目标超分模型,所述初始超分模型的参数包括以下中的至少一个:通道数的数值、所述残差特征蒸馏模块的数目以及所述候选残差特征蒸馏模块。
17.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序存储于可读存储介质和电子设备其中至少之一上,所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263864.3A CN115578261A (zh) | 2022-10-14 | 2022-10-14 | 图像处理方法、深度学习模型的训练方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211263864.3A CN115578261A (zh) | 2022-10-14 | 2022-10-14 | 图像处理方法、深度学习模型的训练方法、装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115578261A true CN115578261A (zh) | 2023-01-06 |
Family
ID=84584229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211263864.3A Pending CN115578261A (zh) | 2022-10-14 | 2022-10-14 | 图像处理方法、深度学习模型的训练方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578261A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051935A (zh) * | 2023-03-03 | 2023-05-02 | 北京百度网讯科技有限公司 | 图像检测方法、深度学习模型的训练方法及装置 |
-
2022
- 2022-10-14 CN CN202211263864.3A patent/CN115578261A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116051935A (zh) * | 2023-03-03 | 2023-05-02 | 北京百度网讯科技有限公司 | 图像检测方法、深度学习模型的训练方法及装置 |
CN116051935B (zh) * | 2023-03-03 | 2024-03-22 | 北京百度网讯科技有限公司 | 图像检测方法、深度学习模型的训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112396115B (zh) | 基于注意力机制的目标检测方法、装置及计算机设备 | |
CN112950471A (zh) | 视频超分处理方法、装置、超分辨率重建模型、介质 | |
CN115294349B (zh) | 训练模型的方法、装置、电子设备及存储介质 | |
JP2023531350A (ja) | サンプル画像を増分する方法、画像検出モデルの訓練方法及び画像検出方法 | |
CN114792355B (zh) | 虚拟形象生成方法、装置、电子设备和存储介质 | |
CN114913325B (zh) | 语义分割方法、装置及计算机程序产品 | |
CN115409855B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
US20230135109A1 (en) | Method for processing signal, electronic device, and storage medium | |
JP2023001926A (ja) | 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
JP7324891B2 (ja) | バックボーンネットワーク生成方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN113920313B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
JP2023133274A (ja) | Roi検出モデルのトレーニング方法、検出方法、装置、機器および媒体 | |
CN115578261A (zh) | 图像处理方法、深度学习模型的训练方法、装置 | |
CN113705575B (zh) | 一种图像分割方法、装置、设备及存储介质 | |
CN114078097A (zh) | 图像去雾模型的获取方法、装置和电子设备 | |
CN114202648A (zh) | 文本图像矫正方法、训练方法、装置、电子设备以及介质 | |
CN113327194A (zh) | 图像风格迁移方法、装置、设备和存储介质 | |
CN116310643A (zh) | 视频处理模型训练方法、装置以及设备 | |
CN113610856B (zh) | 训练图像分割模型和图像分割的方法和装置 | |
WO2021218414A1 (zh) | 视频增强方法及装置、电子设备、存储介质 | |
CN114792370A (zh) | 一种全肺图像分割方法、装置、电子设备及存储介质 | |
CN114419327A (zh) | 图像检测方法和图像检测模型的训练方法、装置 | |
CN116137017A (zh) | 超分辨率视频的确定方法和电子设备 | |
CN114282664A (zh) | 自反馈模型训练方法、装置、路侧设备及云控平台 | |
CN118151983B (zh) | 微服务补全方法、装置、相关设备和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |