CN115131198B - 模型训练方法、图像处理方法、装置、设备及存储介质 - Google Patents
模型训练方法、图像处理方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115131198B CN115131198B CN202210398075.4A CN202210398075A CN115131198B CN 115131198 B CN115131198 B CN 115131198B CN 202210398075 A CN202210398075 A CN 202210398075A CN 115131198 B CN115131198 B CN 115131198B
- Authority
- CN
- China
- Prior art keywords
- image
- channel
- model
- target
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 257
- 238000000034 method Methods 0.000 title claims abstract description 146
- 238000003672 processing method Methods 0.000 title claims description 25
- 238000012545 processing Methods 0.000 claims abstract description 55
- 238000011176 pooling Methods 0.000 claims description 89
- 238000005070 sampling Methods 0.000 claims description 80
- 230000008569 process Effects 0.000 claims description 54
- 230000015654 memory Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 21
- 238000005516 engineering process Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 230000000007 visual effect Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000013139 quantization Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 101100365548 Caenorhabditis elegans set-14 gene Proteins 0.000 description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 4
- 230000004913 activation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000004438 eyesight Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000004821 distillation Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4092—Image resolution transcoding, e.g. client/server architecture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4023—Decimation- or insertion-based scaling, e.g. pixel or line decimation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
- G06T3/4046—Scaling the whole image or part thereof using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Abstract
本申请公开了一种模型训练方法、图像处理方法、装置、设备及存储介质,属于人工智能技术领域。该模型训练方法包括:获取训练图像和参考图像;调用初始下采样模型对训练图像进行下采样,得到下采样图像;基于下采样图像和参考图像,获取各个第一候选通道分别对应的损失,第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到;利用基于各个第一候选通道分别对应的损失获取的目标损失对初始下采样模型的模型参数进行更新,得到目标下采样模型。利用上述模型训练方式,能够减小训练好的下采样模型输出的下采样图像与真值图像之间的偏差,提高下采样模型的训练准确性,进而提高图像处理的质量。
Description
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种模型训练方法、图像处理方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,图像处理的应用场景越来越多,例如,调用目标下采样模型将高分辨率的图像下采样为低分辨率的图像来进行传输、存储等。在此种应用场景下,需要预先通过模型训练得到目标下采样模型。
相关技术中的模型训练过程包括:调用初始下采样模型对训练图像进行下采样,得到下采样图像;基于下采样图像在色彩空间中的每个候选通道下对应的图像和参考图像在相同的候选通道下对应的图像之间的像素值差异,获取目标损失;利用目标损失更新初始下采样模型的模型参数,得到目标下采样模型。其中,参考图像利用参考下采样方式对训练图像进行下采样得到。
在上述目标损失下,模型参数在每个候选通道方面的更新方向均为:缩小下采样图像在每个候选通道下对应的图像和参考图像在相同的候选通道下对应的图像之间的像素值差异的方向。在此种更新方向下,训练好的下采样模型仅能够输出在每个候选通道方面均与参考图像尽可能接近的下采样图像。由于参考图像并不是下采样图像对应的真值(ground-truth)图像,所以上述模型训练方式,容易导致训练好的下采样模型输出的下采样图像与真值图像之间有较大的偏差,使得下采样模型的训练准确性较低,进而导致利用训练好的下采样模型进行图像处理的质量较差。
发明内容
本申请实施例提供了一种模型训练方法、图像处理方法、装置、设备及存储介质,可用于提高下采样模型的训练准确性,提高图像处理的质量。所述技术方案如下:
一方面,本申请实施例提供了一种模型训练方法,所述方法包括:
获取训练图像和所述训练图像对应的参考图像,所述参考图像利用参考下采样方式对所述训练图像进行下采样得到;
调用初始下采样模型对所述训练图像进行下采样,得到下采样图像;
基于所述下采样图像和所述参考图像,获取第一色彩空间中的各个第一候选通道分别对应的损失,其中,所述各个第一候选通道中满足选取条件的第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到,所述第一池化图像通过对所述下采样图像在所述第一目标通道下对应的图像进行池化得到,所述第二池化图像通过对所述参考图像在所述第一目标通道下对应的图像进行池化得到;
基于所述各个第一候选通道分别对应的损失,获取目标损失,利用所述目标损失对所述初始下采样模型的模型参数进行更新,得到目标下采样模型。
还提供了一种图像处理方法,所述方法包括:
获取第一图像;
调用目标下采样模型对所述第一图像进行下采样,得到第二图像;
对所述第二图像进行处理;
其中,所述目标下采样模型利用上述任一所述的模型训练方法训练得到。
另一方面,提供了一种模型训练装置,所述装置包括:
第一获取单元,用于获取训练图像和所述训练图像对应的参考图像,所述参考图像利用参考下采样方式对所述训练图像进行下采样得到;
第一下采样单元,用于调用初始下采样模型对所述训练图像进行下采样,得到下采样图像;
所述第一获取单元,还用于基于所述下采样图像和所述参考图像,获取第一色彩空间中的各个第一候选通道分别对应的损失,其中,所述各个第一候选通道中满足选取条件的第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到,所述第一池化图像通过对所述下采样图像在所述第一目标通道下对应的图像进行池化得到,所述第二池化图像通过对所述参考图像在所述第一目标通道下对应的图像进行池化得到;基于所述各个第一候选通道分别对应的损失,获取目标损失;
更新单元,用于利用所述目标损失对所述初始下采样模型的模型参数进行更新,得到目标下采样模型。
在一种可能实现方式中,所述第一获取单元,还用于调用初始上采样模型对所述下采样图像进行上采样,得到上采样图像,所述上采样图像为所述训练图像对应的重建图像;基于所述各个第一候选通道分别对应的损失,获取第一监督损失,所述第一监督损失用于对所述下采样图像进行监督;基于所述上采样图像和所述训练图像,获取第二监督损失,所述第二监督损失用于对所述上采样图像进行监督;基于所述第一监督损失和所述第二监督损失,获取所述目标损失。
在一种可能实现方式中,所述第一获取单元,还用于基于所述各个第一候选通道分别对应的损失,获取第一子损失;基于所述上采样图像和所述训练图像之间的残差信息,获取所述第一目标通道对应的监督图像;基于所述下采样图像在所述第一目标通道下对应的图像和所述监督图像之间的像素值差异,获取第二子损失;基于所述第一子损失和所述第二子损失,获取所述第一监督损失。
在一种可能实现方式中,所述第一获取单元,还用于在第二色彩空间中的各个第二候选通道中确定满足关注条件的第三目标通道,将所述各个第二候选通道中除所述第三目标通道外的其他通道作为第四目标通道;基于所述上采样图像在所述第三目标通道下对应的图像和所述训练图像在所述第三目标通道下对应的图像之间的像素值差异,获取所述第三目标通道对应的损失;对所述上采样图像在所述第四目标通道下对应的图像进行池化,得到第三池化图像;对所述训练图像在所述第四目标通道下对应的图像进行池化,得到第四池化图像;基于所述第三池化图像和所述第四池化图像之间的像素值差异,获取所述第四目标通道对应的损失;基于所述第三目标通道对应的损失和所述第四目标通道对应的损失,获取所述第二监督损失。
在一种可能实现方式中,所述第一获取单元,还用于对于各个第二候选通道中的任一通道,基于所述上采样图像在所述任一通道下对应的图像和所述训练图像在所述任一通道下对应的图像之间的像素值差异,获取所述任一通道对应的损失;基于所述各个第二候选通道分别对应的损失,获取所述第二监督损失。
在一种可能实现方式中,调用初始上采样模型对所述下采样图像进行上采样的计算量,小于调用初始下采样模型对所述训练图像进行下采样的计算量。
在一种可能实现方式中,所述初始上采样模型通过对所述初始下采样模型执行缩减模型结构和减少模型参数中的至少一项轻量化操作得到。
在一种可能实现方式中,所述更新单元,还用于利用所述目标损失对所述初始上采样模型的模型参数进行更新,得到目标上采样模型。
在一种可能实现方式中,所述各个第一候选通道还包括不满足所述选取条件的第二目标通道,所述第二目标通道对应的损失基于所述下采样图像在所述第二目标通道下对应的图像和所述参考图像在所述第二目标通道下对应的图像之间的像素值差异得到。
在一种可能实现方式中,所述各个第一候选通道包括纹理通道、第一颜色通道和第二颜色通道,所述第一目标通道为所述第一颜色通道和所述第二颜色通道。
还提供了一种图像处理装置,所述装置包括:
第二获取单元,用于获取第一图像;
第二下采样单元,用于调用目标下采样模型对所述第一图像进行下采样,得到第二图像;
处理单元,用于对所述第二图像进行处理;
其中,所述目标下采样模型利用上述任一所述的模型训练方法训练得到。
在一种可能实现方式中,所述处理单元,用于向目标设备发送所述第二图像,所述目标设备用于调用目标上采样模型对所述第二图像进行上采样,得到第三图像,所述第三图像为所述第一图像对应的重建图像。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现上述任一所述的模型训练方法或图像处理方法。
另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现上述任一所述的模型训练方法或图像处理方法。
另一方面,还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现上述任一所述的模型训练方法或图像处理方法。
本申请实施例提供的技术方案至少带来如下有益效果:
本申请实施例提供的技术方案,目标损失是基于各个第一候选通道分别对应的损失获取的,其中,各个第一候选通道中的第一目标通道对应的损失是基于第一池化图像和第二池化图像之间的像素值差异获取的。在此种目标损失下,模型参数在第一目标通道方面的更新方向是:缩小第一池化图像和第二池化图像之间的像素值差异的方向。由于第一池化图像和第二池化图像通过池化得到,池化后的图像中的像素点较少,所以上述目标损失能够减轻对模型参数在第一目标通道方面的更新方向的约束程度,从而为下采样模型在第一目标通道方面的学习提供更多的自由度。利用上述模型训练方式,能够减小训练好的下采样模型输出的下采样图像与真值图像之间的偏差,提高下采样模型的训练准确性,进而提高利用训练好的下采样模型进行图像处理的质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种实施环境的示意图;
图2是本申请实施例提供的一种模型训练方法的流程图;
图3是本申请实施例提供的一种获取第一子损失的过程的示意图;
图4是本申请实施例提供的一种非对称的网络结构的框架的示意图;
图5是本申请实施例提供的一种不同模型的定量比对结果的示意图;
图6是本申请实施例提供的一种不同模型的定性比较结果的示意图;
图7是本申请实施例提供的一种不同模型的定性比较结果的示意图;
图8是本申请实施例提供的一种不同模型的定性比较结果的示意图;
图9是本申请实施例提供的一种下采样图像的比对图;
图10是本申请实施例提供的一种下采样图像的比对图;
图11是本申请实施例提供的一种图像处理方法的流程图;
图12是本申请实施例提供的一种图像处理过程的示意图;
图13是本申请实施例提供的一种模型训练装置的示意图;
图14是本申请实施例提供的一种图像处理装置的示意图;
图15是本申请实施例提供的一种终端的结构示意图;
图16是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
需要说明的是,本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在示例性实施例中,本申请实施例提供的模型训练方法以及图像处理方法可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。本申请实施例提供的方案涉及人工智能的计算机视觉技术和机器学习等。
计算机视觉(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition,光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(三维)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供了一种模型训练方法和一种图像处理方法,请参考图1,其示出了本申请实施例提供的方法的实施环境的示意图。该实施环境可以包括:终端11和服务器12。
本申请实施例提供的模型训练方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本申请实施例对此不加以限定。对于本申请实施例提供的模型训练方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
本申请实施例提供的图像处理方法可以由终端11执行,也可以由服务器12执行,还可以由终端11和服务器12共同执行,本申请实施例对此不加以限定。对于本申请实施例提供的图像处理方法由终端11和服务器12共同执行的情况,服务器12承担主要计算工作,终端11承担次要计算工作;或者,服务器12承担次要计算工作,终端11承担主要计算工作;或者,服务器12和终端11二者之间采用分布式计算架构进行协同计算。
需要说明的是,模型训练方法的执行设备与图像处理方法的执行设备可以相同,也可以不同,本申请实施例对此不加以限定。
在一种可能实现方式中,终端11可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品,例如,PC(Personal Computer,个人计算机)、手机、智能手机、PDA(Personal Digital Assistant,个人数字助手)、可穿戴设备、PPC(Pocket PC,掌上电脑)、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设备、智能家电、车载终端、飞行器等。服务器12可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。终端11与服务器12通过有线或无线网络建立通信连接。
本领域技术人员应能理解上述终端11和服务器12仅为举例,其他现有的或今后可能出现的终端或服务器如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
基于上述图1所示的实施环境,本申请实施例提供一种模型训练方法,该方法由计算机设备执行,该计算机设备可以为终端11,也可以为服务器12,本申请实施例对此不加以限定。如图2所示,本申请实施例提供的模型训练方法可以包括如下步骤201至步骤205。
在步骤201中,获取训练图像和训练图像对应的参考图像,参考图像利用参考下采样方式对训练图像进行下采样得到。
训练图像是指在一次模型训练过程中所利用的图像,训练图像的数量可以为一个,也可以为多个,本申请实施例对此不加以限定。本申请实施例以训练图像的数量为一个为例进行说明。
示例性地,训练图像为分辨率较高的图像,通过对训练图像进行下采样,能够得到分辨率较低的图像。需要说明的是,图像的分辨率可以利用图像的横向尺寸与图像的纵向尺寸的乘积表示,横向尺寸和纵向尺寸均可以利用像素点的数量表示。例如,若图像的横向尺寸为512个像素点,纵向尺寸为512个像素点,则图像的分辨率可以表示为512×512;若图像的横向尺寸为1024个像素点,纵向尺寸为1024个像素点,则图像的分辨率可以表示为1024×1024。
示例性地,通过对训练图像进行下采样可以得到一个保留训练图像的视觉信息的图像,也就是说,通过对训练图像进行下采样得到的图像是与训练图像具有相似的视觉信息,且分辨率较低的图像。示例性地,对训练图像进行下采样的过程还可以称为缩小训练图像的过程。
示例性地,计算机设备获取训练图像的方式包括:计算机设备从训练图像集中获取训练图像。训练图像集是指存放有大量图像的集合,本申请实施例对训练图像集的类型不加以限定,示例性地,训练图像集可以是图像处理常用的超分辨图像重建数据集,比如Set5(一种超分辨图像重建数据集),Set14(一种超分辨图像重建数据集),BSD100(一种超分辨图像重建数据集),Urban100(一种超分辨图像重建数据集),DIV2K(一种超分辨图像重建数据集)。
示例性地,计算机设备获取训练图像的方式还包括:计算机设备从网络环境中收集训练图像;计算机设备接收图像采集设备发送的训练图像等。
训练图像对应的参考图像用于对调用下采样模型对训练图像进行下采样得到的下采样图像提供监督信息,参考图像利用参考下采样方式对训练图像进行下采样得到。参考图像的分辨率低于训练图像的分辨率。参考下采样方式是指除调用本申请中待训练的下采样模型进行下采样外的其他方式,参考下采样方式根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。在示例性实施例中,参考下采样方式可以是双线性插值(Bilinear Interpolation)、双三次插值(Bicubic Interpolation,Bi)等。
在示例性实施例中,获取训练图像对应的参考图像的方式可以为在获取训练图像后,利用参考下采样方式对训练图像进行下采样,得到参考图像。在示例性实施例中,训练图像对应的参考图像存储在计算机设备中,获取训练图像对应的参考图像的方式还可以为:在获取训练图像后,提取训练图像对应的参考图像。
在步骤202中,调用初始下采样模型对训练图像进行下采样,得到下采样图像。
初始下采样模型是待更新模型参数的下采样模型,初始下采样模型具有对训练图像进行下采样的功能,通过调用初始下采样模型对训练图像进行下采样,能够得到下采样图像。下采样图像的分辨率低于训练图像的分辨率。示例性地,下采样图像的分辨率等于参考图像的分辨率,以便于比对。
本申请实施例对初始下采样模型的类型不加以限定,只要能够具有对训练图像进行下采样的功能即可。示例性地,初始下采样模型的类型可以是深度残差通道注意网络(Residual Channel Attention Networks,RCAN)、增强深度超分辨率网络(Enhanced DeepSuper-Resolution Network,EDSR)或者图像恢复强基线模型(Image Restoration UsingSwin Transformer,SWIN-IR)等。
在一种可能实现方式中,调用初始下采样模型对训练图像进行下采样,得到下采样图像的实现过程可以包括:调用初始下采样模型对训练图像进行下采样,得到下采样像素点的第一像素值;对下采样像素点的第一像素值进行量化,得到下采样像素点的第二像素值;基于下采样像素点的第二像素,获取下采样图像。
下采样像素点为构成下采样图像的像素点,下采样像素点的第一像素值为初始下采样模型输出的用于表征下采样像素点的像素值,下采样像素点的第二像素值为获取下采样图像所直接利用的像素值。下采样像素点的第二像素值通过对下采样像素点的第一像素值进行量化得到,相比于第一像素值,量化后得到的第二像素值占用的存储空间较小,基于下采样像素点的第二像素值获取的下采样图像为一种更适合存储的图像。示例性地,下采样像素点的第一像素值的类型为浮点型;下采样像素点的第二像素值的类型为整数型,如,8位无符号整数型、16位无符号整数型等。整数型为一种存储图像时常用的像素值类型。
示例性地,对下采样像素点的第一像素值进行量化,得到下采样像素点的第二像素值的实现过可以程包括:调用量化模型对下采样像素点的第一像素值进行处理,得到下采样像素点的第二像素值。量化模型是指可以将浮点型的像素值转化为整数型的像素值的模型。示例性地,量化模型可以采用与可逆图像缩放(Invertible Image Rescaling,IRN)相同的量化模型,其梯度由直通估计器(Straight-Through Estimator,STE)计算。
示例性地,对下采样像素点的第一像素值进行量化,得到下采样像素点的第二像素值的实现过程还可以包括:利用激活函数对下采样像素点的第一像素值进行处理,得到下采样像素点的第三像素值,调用量化模型对下采样像素点的第三像素值进行处理,得到下采样像素点的第二像素值。激活函数用于将下采样像素点的第一像素值转换成处于0~1之间的第三像素值,以增加模型训练的稳定性。示例性地,激活函数可以为sigmoid函数(S型函数)。
在得到下采样像素点的第二像素值后,基于下采样像素点的第二像素值,获取下采样图像。示例性地,基于下采样像素点的第二像素值,获取下采样图像的过程包括:基于下采样像素点的第二像素值,对下采样像素点进行可视化呈现,将呈现出的下采样像素点构成的图像作为下采样图像。
在一种可能实现方式中,调用初始下采样模型对训练图像进行下采样,得到下采样图像的实现过程还可以包括:调用初始下采样模型对训练图像进行下采样,得到下采样像素点的第一像素值;直接基于下采样像素点的第一像素值,获取下采样图像。直接基于下采样像素点的第一像素值,获取下采样图像的实现原理与基于下采样像素点的第二像素值,获取下采样图像的实现原理相同,此处不再加以赘述。
在步骤203中,基于下采样图像和参考图像,获取第一色彩空间中的各个第一候选通道分别对应的损失,其中,各个第一候选通道中满足选取条件的第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到,第一池化图像通过对下采样图像在第一目标通道下对应的图像进行池化得到,第二池化图像通过对参考图像在第一目标通道下对应的图像进行池化得到。
第一色彩空间可以为图像的任一色彩空间(色彩空间也可以称为颜色空间),例如,第一色彩空间包括但不限于RGB(红色绿色蓝色)色彩空间、YCbCr(亮量色度)色彩空间、YUV(亮度色度)色彩空间等。将第一色彩空间中的各个通道称为各个第一候选通道,在第一色彩空间的不同情况下,各个第一候选通道的情况也有所不同。示例性地,若第一色彩空间为RGB色彩空间,则各个第一候选通道分别为R通道、G通道和B通道;若第一色彩空间为YCbCr色彩空间,则各个第一候选通道分别为Y通道、Cb通道和Cr通道;若第一色彩空间为YUV色彩空间,则各个第一候选通道分别为Y通道、U通道和V通道。
各个第一候选通道包括满足选取条件的第一目标通道。满足选取条件的第一目标通道是指需要通过池化的方式获取损失的通道,满足选取条件的第一目标通道根据经验设置,或者根据各个第一候选通道的类型灵活调整,本申请实施例对此不加以限定。
在示例性实施例中,各个第一候选通道包括纹理通道、第一颜色通道和第二颜色通道,由于纹理通道对图像的视觉信息的影响比较大,第一颜色通道和第二颜色通道对图像的视觉信息的影响比较小,所以可以将第一颜色通道和第二颜色通道作为满足选取条件的第一目标通道,以减轻对下采样模型在对图像的视觉信息的影响较小的通道方面的学习方向的约束,进而提高下采样模型的训练准确性。示例性地,纹理通道是指能够表征图像的纹理特征的通道,例如,纹理通道是指YCbCr色彩空间中的Y通道或者YUV色彩空间中的Y通道,此种情况下,第一色彩空间为YCbCr色彩空间,第一颜色通道和第二颜色通道分别为Cb通道和Cr通道;或者,各个第一候选通道为YUV色彩空间,第一颜色通道和第二颜色通道分别为U通道和V通道。
当然,各个第一候选通道和第一目标通道还可以为其他情况,本申请实施例对此不加以限定,例如,各个第一候选通道为R通道、G通道和B通道,第一目标通道为R通道、G通道和B通道,或者,第一目标通道为G通道,或者,第一目标通道为G通道和B通道等。
需要说明的是,各个第一候选通道可能仅包括满足选取条件的第一目标通道,也可能既包括满足选取条件的第一目标通道,还包括不满足选取条件的第二目标通道。在不同的情况下,基于下采样图像和参考图像,获取第一色彩空间中的各个第一候选通道分别对应的损失的实现方式有所不同。
对于各个第一候选通道仅包括满足选取条件的第一目标通道的情况,在基于下采样图像和参考图像获取第一色彩空间中的各个第一候选通道分别对应的损失的过程中,仅需基于下采样图像和参考图像获取第一目标通道对应的损失即可。其中,第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到,第一池化图像通过对下采样图像在第一目标通道下对应的图像进行池化得到,第二池化图像通过对参考图像在第一目标通道下对应的图像进行池化得到。也就是说,第一目标通道对应的损失的获取过程包括以下步骤2031至步骤2033。
步骤2031:获取下采样图像在第一目标通道下对应的图像,以及参考图像在第一目标通道下对应的图像。
将下采样图像所处的色彩空间称为原始色彩空间,原始色彩空间可能为第一色彩空间,也可能不为第一色彩空间,在不同的情况下,获取下采样图像在第一目标通道下对应的图像的实现过程有所不同。
在一种可能实现方式中,对于原始色彩空间为第一色彩空间的情况,获取下采样图像在第一目标通道下对应的图像的实现过程包括:从构成下采样图像的各个通道图像中提取第一目标通道对应的通道图像,将第一目标通道对应的通道图像作为下采样图像在第一目标通道下对应的图像。由于下采样图像所处的色彩空间为第一色彩空间,所以构成下采样图像的各个通道图像即为各个第一候选通道分别对应的通道图像,从各个第一候选通道分别对应的通道图像中能够提取出第一目标通道对应的通道图像,然后将第一目标通道对应的通道图像作为下采样图像在第一目标通道下对应的图像。
在一种可能实现方式中,对于原始色彩空间不为第一色彩空间的情况,获取下采样图像在第一目标通道下对应的图像的实现过程包括:将下采样图像从原始色彩空间转换至第一色彩空间,得到转换图像;从构成转换图像的各个通道图像中提取第一目标通道对应的通道图像,将第一目标通道对应的通道图像作为下采样图像在第一目标通道下对应的图像。
示例性地,计算机设备利用色彩空间转换算法将下采样图像从原始色彩空间转换到第一色彩空间,将转换到第一色彩空间后得到的图像作为转换图像。
示例性地,利用色彩空间转换算法将下采样图像从原始色彩空间转换到第一色彩空间,得到转换图像的实现方式包括:将下采样图像与色彩空间转换矩阵相乘,得到转换图像。色彩空间转换矩阵用于指示将原始色彩空间中的图像转换为第一色彩空间中的图像的转换方式。
需要说明的是,第一目标通道的数量可能为一个,也可能为多个,对于第一目标通道的数量为多个的情况,需要获取下采样图像在每个第一目标通道下分别对应的图像。
获取参考图像在第一目标通道下对应的图像的实现原理与获取下采样图像在第一目标通道下对应的图像的实现原理相同,此处不再加以赘述。
步骤2032:对下采样图像在第一目标通道下对应的图像进行池化,得到第一池化图像;对参考图像在第一目标通道下对应的图像进行池化,得到第二池化图像。
在获取下采样图像在第一目标通道下对应的图像后,对下采样图像在第一目标通道下对应的图像进行池化,将池化后得到的图像作为第一池化图像。示例性地,对下采样图像在第一目标通道下对应的图像进行池化的方式可以是对下采样图像在第一目标通道下对应的图像进行最大池化(Max Pooling),也可以是指对下采样图像在第一目标通道下对应的图像进行平均池化(Avg Pooling)等,本申请实施例对此不加以限定。示例性地,本申请实施例对池化过程采用的池化核的尺寸不加以限定,示例性地,池化核的尺寸可以为2×2,也可以为3×3等。
需要说明的是,对于第一目标通道的数量为多个的情况,对下采样图像在每个第一目标通道下对应的图像进行池化,均得到一个第一池化图像,也就是说,第一池化图像的数量与第一目标通道的数量相同。
对参考图像在第一目标通道下对应的图像进行池化,得到第二池化图像的实现原理与对下采样图像在第一目标通道下对应的图像进行池化,得到第一池化图像的实现原理相同,此处不再加以赘述。
需要说明的是,第二池化图像的分辨率与第一池化图像的分辨率相同,以便于比对。需要进一步说明的是,第二池化图像的数量与第一池化图像的数量相同,且第二池化图像与第一池化图像一一对应,具有对应关系的第二池化图像和第一池化图像是基于相同的第一目标通道获取的图像。
步骤2033:基于第一池化图像和第二池化图像之间的像素值差异,获取第一目标通道对应的损失。
第一池化图像和第二池化图像之间的像素值差异是指第一池化图像中的像素点的像素值和第二池化图像中的像素点的像素值之间的差异。本申请实施例对获取第一池化图像中的像素点的像素值和第二池化图像中的像素点的像素值之间的差异的方法不加以限定。示例性地,利用L1范数计算公式计算第一池化图像中的像素点的像素值和第二池化图像中的像素点的像素值之间差异。示例性地,利用L2范数计算公式计算第一池化图像中的像素点的像素值和第二池化图像中的像素点的像素值之间的差异。
示例性地,对于第一目标通道的数量为一个,也即第一池化图像和第二池化图像的数量均为一个的情况,基于第一池化图像和第二池化图像之间的像素值差异,获取第一目标通道对应的损失的实现方式包括:将第一池化图像和第二池化图像之间的像素值差异作为第一目标通道对应的损失。
示例性地,对于第一目标通道的数量为多个,也即第一池化图像和第二池化图像的数量均为多个的情况,基于第一池化图像和第二池化图像之间的像素值差异,获取第一目标通道对应的损失的实现方式包括:将基于任一第一目标通道获取的第一池化图像和第二池化图像之间的像素值差异,作为基于该任一第一目标通道确定的子损失;将基于各个第一目标通道分别确定的子损失之和(或平均值)作为第一目标通道对应的损失。
在示例性实施例中,各个第一候选通道还可能既包括满足选取条件的第一目标通道,还包括不满足选取条件的第二目标通道,在此种情况下,在基于下采样图像和参考图像获取第一色彩空间中的各个第一候选通道分别对应的损失的过程中,除了需要基于下采样图像和参考图像获取第一目标通道对应的损失(参见上述步骤1至步骤3)外,还需要基于下采样图像和参考图像获取第二目标通道对应的损失。
在示例性实施例中,基于下采样图像和参考图像获取第二目标通道对应的损失的实现过程包括:基于下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异,获取第二目标通道对应的损失。也就是说,第二目标通道对应的损失基于下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异得到。
示例性地,下采样图像在第二目标通道下对应的图像的获取方式包括:响应于下采样图像所处的原始色彩空间为第一色彩空间,从构成下采样图像的各个通道图像中提取第二目标通道对应的通道图像,将第二目标通道对应的通道图像作为下采样图像在第二目标通道下对应的图像;响应于下采样图像所处的原始色彩空间不为第一色彩空间,将下采样图像从原始色彩空间转换至第一色彩空间,得到转换图像;从构成转换图像的各个通道图像中提取第二目标通道对应的通道图像,将第二目标通道对应的通道图像作为下采样图像在第二目标通道下对应的图像。
参考图像在第二目标通道下对应的图像的获取原理与下采样图像在第二目标通道下对应的图像的获取原理相同,此处不再加以赘述。
示例性地,下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异是指下采样图像在第二目标通道下对应的图像中的像素点的像素值和参考图像在第二目标通道下对应的图像中的像素点的像素值之间的差异。示例性地,下采样图像在第二目标通道下对应的图像中的像素点的像素值和参考图像在第二目标通道下对应的图像中的像素点的像素值之间的差异可以利用L1范数计算公式计算得到,也可以利用L2范数计算公式计算得到等,本申请实施例对此不加以限定。
示例性地,下采样图像在第二目标通道下对应的图像的数量以及参考图像在第二目标通道下对应的图像的数量,均与第二目标通道的数量相同,可能均为一个,也可能均为多个。
示例性地,对于第二目标通道的数量为一个,也即下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像的数量均为一个的情况,基于下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异,获取第二目标通道对应的损失的实现方法包括:将下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异作为第二目标通道对应的损失。
示例性地,对于第二目标通道的数量为多个,也即下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像的数量均为多个的情况,基于下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异,获取第二目标通道对应的损失的实现方式包括:将下采样图像在任一第二目标通道下对应的图像和参考图像在该任一第二目标通道下对应的图像之间的像素值差异,作为基于该任一第二目标通道确定的子损失;将基于各个第二目标通道分别确定的子损失之和(或平均值)作为第二目标通道对应的损失。
在步骤204中,基于各个第一候选通道分别对应的损失,获取目标损失。
在获取各个第一候选通道分别对应的损失后,基于各个第一候选通道分别对应的损失,获取更新初始下采样模型的模型参数所利用的目标损失。在示例性实施例中,本申请实施例提供的模型训练方式既可以应用在对初始下采样模型进行单独训练的场景中,也可以应用在对初始下采样模型和初始上采样模型进行联合训练的场景中。应用的场景不同,基于各个第一候选通道分别对应的损失获取目标损失的实现方式也有所不同。
在一种可能实现方式中,以本申请实施例提供的模型训练方法应用在对初始下采样模型和初始上采样模型进行联合训练的场景中为例,基于各个第一候选通道分别对应的损失获取目标损失的实现方式包括以下步骤2041至步骤2044。
步骤2041:调用初始上采样模型对下采样图像进行上采样,得到上采样图像,上采样图像为训练图像对应的重建图像。
初始上采样模型是待更新模型参数的上采样模型,初始上采样模型具有对下采样图像进行上采样的功能,通过对下采样图像进行上采样,可以得到与训练图像的分辨率相同的上采样图像。上采样图像为训练图像对应的重建图像,由于获取上采样图像依据的模型为待训练的模型,所以上采样图像与训练图像之间的相似度可能较低。示例性地,由于上采样图像的分辨率与训练图像的分辨率相同,且下采样图像的分辨率小于训练图像的分辨率,所以上采样图像可视为对下采样图像进行放大后得到的图像。
本申请实施例对初始上采样模型的类型不加以限定,示例性地,初始上采样模型的类型可以与初始下采样模型的类型相同。示例性地,初始上采样模型可以是指比初始下采样模型更加轻量化的模型。
示例性地,对于初始上采样模型是指比初始下采样模型更加轻量化的模型的情况,调用初始上采样模型对下采样图像进行上采样的计算量,小于调用初始下采样模型对训练图像进行下采样的计算量。此种情况,能够减少利用训练好的目标上采样模型进行上采样的计算量,提高上采样效率,更加适应上采样的设备所具有的计算资源有限且希望尽快得到上采样后的图像的实际场景。
示例性地,对于初始上采样模型是指比初始下采样模型更加轻量化的模型的情况,初始上采样模型可以通过对初始下采样模型执行缩减模型结构和减少模型参数中的至少一项轻量化操作得到。示例性地,以初始下采样模型的类型为EDSR模型为例,可以将缩减EDSR模型中的残差块(Residual block,RES)得到的模型作为初始上采样模型,也可以将减少EDSR模型的模型参数后得到的模型作为初始上采样模型,还可以将缩减EDSR模型中的残差块且减少EDSR模型的模型参数后得到的模型作为初始上采样模型。示例性地,通过减少模型参数可以减少特征的通道数。
示例性地,对于初始上采样模型是指比初始下采样模型更加轻量化的模型的情况,还可以直接选取轻量化的模型作为初始上采样模型。示例性地,轻量化的模型的类型包括但不限于级联剩余网络(Cascading Residual Network,CARN)、残差特征蒸馏网络(Residual Feature Distillation Network,RFDN)等。
在示例性实施例中,调用初始上采样模型对下采样图像进行上采样,得到上采样图像的实现过程包括:调用初始上采样模型对下采样图像进行上采样,得到初始上采样模型输出的上采样像素点的像素值;基于上采样像素点的像素值,获取上采样图像。示例性地,基于上采样像素点的像素值,获取上采样图像的实现过程包括:基于上采样像素点的像素值,对上采样像素点进行可视化呈现,将呈现出的上采样像素点构成的图像作为上采样图像。
步骤2042:基于各个第一候选通道分别对应的损失,获取第一监督损失。
第一监督损失用于对下采样图像进行监督。也就是说,根据第一监督损失,能够确定下采样图像应该朝着什么样的方向优化。
在一种可能实现方式中,基于各个第一候选通道分别对应的损失,获取第一监督损失的过程包括以下步骤A和步骤B。
步骤A:基于各个第一候选通道分别对应的损失,获取第一子损失。
示例性地,将各个第一候选通道分别对应的损失之和作为第一子损失。示例性地,将各个第一候选通道分别对应的损失的平均值作为第一子损失。示例性地,基于各个第一候选通道分别对应的权重,对各个第一候选通道分别对应的损失进行加权求和,将加权求和后得到的损失作为第一子损失。
在示例性实施例中,由于在获取第一子损失所依据的各个第一候选通道分别对应的损失中,第一目标通道对应的损失是基于通过池化的方式获取的,所以第一子损失还可以称为Pooling Loss(池化损失)。
在示例性实施例中,以各个第一候选通道包括Y通道、Cb通道和Cr通道,且第一目标通道为Cb通道和Cr通道,第二目标通道为Y通道为例。基于各个第一候选通道分别对应的损失,获取第一子损失的实现过程可以基于以下公式(1)实现:
其中,Lpooling表示第一子损失;IHR表示训练图像;f(IHR)表示利用参考下采样方式对训练图像进行下采样得到的参考图像;表示下采样图像;Y(f(IHR))表示参考图像在Y通道下对应的图像;/>表示下采样图像在Y通道下对应的图像;表示第二目标通道对应的损失;CbCr(f(IHR))包括参考图像在Cb通道下对应的图像和在Cr通道下对应的图像;/>包括下采样图像在Cb通道下对应的图像和在Cr通道下对应的图像;P(CbCr(f(IHR)))表示第二池化图像;/>表示第一池化图像;/>表示第一目标通道对应的损失。基于公式(1)计算得到的第一子损失可以减少下采样模型对颜色通道(Cr通道和Cb通道)的约束,从而为纹理通道(Y通道)方面的编码提供额外的空间。
示例性地,以下采样图像所处的色彩空间为RGB色彩空间,第一色彩空间为YCbCr色彩空间,第一目标通道为Cb通道和Cr通道为例,获取第一子损失的过程如图3所示。将下采样图像从RGB色彩空间转换至YCbCr色彩空间,得到转换图像,基于转换图像,获取下采样图像在Y通道下对应的图像、在Cb通道下对应的图像和在Cr通道下对应的图像;对下采样图像在Cb通道下对应的图像以及在Cr通道下对应的图像分别进行池化,得到Cb通道对应的池化图像以及Cr通道对应的池化图像;基于下采样图像在Y通道下对应的图像、Cb通道对应的池化图像以及Cr通道对应的池化图像,获取第一子损失。需要说明的是,下采样图像为彩色图像,图3中示出的下采样图像为对彩色图像进行灰度化后的图像。
步骤B:基于第一子损失,获取第一监督损失。
在示例性实施例中,直接将第一子损失作为第一监督损失。例如,获取第一监督损失的过程基于以下公式(2)实现:
其中,表示第一监督损失;Lpooling表示第一子损失。
在示例性实施例中,基于第一子损失,获取第一监督损失的过程包括以下步骤B-1和步骤B-3。
步骤B-1:基于上采样图像和训练图像之间的残差信息,获取第一目标通道对应的监督图像。
上采样图像和训练图像之间的残差信息用于指示上采样图像相对于训练图像的偏差。上采样图像和训练图像之间的残差信息能够通过将上采样图像与训练图像进行比对得到。示例性地,上采样图像和训练图像之间的残差信息可以是指上采样图像和训练图像之间具有的综合性的残差信息,也可以是指上采样图像和训练图像之间在一个或多个第一候选通道方面具有的残差信息,本申请实施例对此不加以限定。示例性地,以各个第一候选通道包括纹理通道、第一颜色通道和第二颜色通道,第一目标通道为第一颜色通道和第二颜色通道为例,上采样图像和训练图像之间的残差信息可以是指上采样图像和训练图像之间在纹理通道方面具有的残差信息。
第一目标通道对应的监督图像用于为上采样图像在第一目标通道下对应的图像提供额外的监督信息。需要说明的是,第一目标通道的数量为一个或多个,获取第一目标通道对应的监督图像是指获取各个第一目标通道分别对应的监督图像。
在一种可能实现方式中,基于上采样图像和训练图像之间的残差信息,获取第一目标通道对应的监督图像的过程通过调用残差信息学习模型实现,该残差信息学习模型具有将上采样图像和训练图像之间的残差信息转换成第一目标通道对应的监督图像的功能。示例性地,残差信息学习模型可以由一个或多个残差块构成,每个残差块中可以包括一个或多个卷积层。
步骤B-2:基于下采样图像在第一目标通道下对应的图像和监督图像之间的像素值差异,获取第二子损失。
示例性地,下采样图像在第一目标通道下对应的图像和监督图像之间的像素值差异是指下采样图像在第一目标通道下对应的图像中的像素点和监督图像中的像素点之间的差异。示例性地,下采样图像在第一目标通道下对应的图像中的像素点和监督图像中的像素点之间的差异可以利用L1范数计算公式计算得到,也可以利用L2范数计算公式计算得到等,本申请实施例对此不加以限定。
示例性地,对于第一目标通道的数量为一个的情况,基于下采样图像在第一目标通道下对应的图像和监督图像之间的像素值差异,获取第二子损失的实现过程包括:将下采样图像在第一目标通道下对应的图像和监督图像之间的像素值差异作为第二子损失。
示例性地,对于第一目标通道的数量为多个的情况,基于下采样图像在第一目标通道下对应的图像和监督图像之间的像素值差异,获取第二子损失的实现过程包括:将下采样图像在任一第一目标通道下对应的图像和该任一目标通道对应的监督图像之间的像素值差异,作为该任一目标通道对应的子损失;将各个第一目标通道分别对应的子损失之和(或平均值)作为第二子损失。
示例性地,以上采样图像和训练图像之间的残差信息是指上采样图像和训练图像之间在纹理通道(也即Y通道)方面具有的残差信息,第一目标通道为Cb通道和Cr通道为例。基于上采样图像和训练图像之间的残差信息,获取第一目标通道对应的监督图像的过程可以基于以下公式(3)实现,基于下采样图像在第一目标通道下对应的图像和监督图像之间的像素值差异,获取第二子损失的过程可以基于公式(4)实现。
其中,Info包括Cb通道对应的监督图像和Cr通道对应的监督图像;Block(·)表示残差信息学习模型的内部处理过程;IHR表示训练图像;表示上采样图像;Y(IHR)表示训练图像在Y通道下对应的图像;/>表示上采样图像在Y通道下对应的图像;表示上采样图像和训练图像之间在Y通道方面具有的残差信息。
其中,Linfo表示第二子损失,还可以称为Info Loss(信息损失);表示下采样图像;/>包括下采样图像在Cb通道下对应的图像以及在Cr通道下对应的图像;Info包括Cb通道对应的监督图像和Cr通道对应的监督图像;/>表示Cb通道对应的子损失和Cr通道对应的子损失之和,其中,Cb通道对应的子损失是指下采样图像在Cb通道下对应的图像和Cb通道对应的监督图像之间的像素值差异,Cr通道对应的子损失是指下采样图像在Cr通道下对应的图像和Cr通道对应的监督图像之间的像素值差异。基于公式(4)计算得到的第二子损失能够约束下采样图像在Cb通道下对应的图像以及在Cr通道下对应的图像与学习到的监督图像接近。
示例性地,人眼对颜色通道(如,Cb通道和Cr通道)中的颜色信息相对不敏感,第二子损失可以学习上采样图像和训练图像之间的残差信息来约束模型将纹理信息编码进颜色通道的空余空间,以使下采样图像中保存更多的纹理信息,进而提高上采样图像的重建性能,从而得到更加准确的上采样图像。
步骤B-3:基于第一子损失和第二子损失,获取第一监督损失。
在一种可能实现方式中,基于第一子损失和第二子损失,获取第一监督损失的过程可以基于以下公式(5)实现:
其中,表示第一监督损失;Lpooling表示第一子损失;Linfo表示第二子损失;λ是平衡第一子损失和第二子损失的权重,本申请实施例对λ的取值不加以限定,示例性地,无论在何种缩放倍数(如,2倍缩放、4倍缩放等)下,均将λ的取值设置为λ=1/4。其中,缩放倍数用于指示训练图像(或上采样图像)的分辨率与下采样图像的分辨率的比值。
需要说明的是,基于公式(5)实现基于第一子损失和第二子损失,获取第一监督损失的过程仅为一种示例性举例,本申请实施例并不局限于此,示例性地,还可以直接将第一子损失和第二子损失的和作为第一监督损失。
步骤2043:基于上采样图像和训练图像,获取第二监督损失。
第二监督损失用于对上采样图像进行监督。也就是说,根据第二监督损失,能够确定上采样图像应该朝着什么样的方向优化。
在一种可能实现方式中,对上采样图像进行监督的监督目的包括但不限于使上采样图像同等关注第二色彩空间中的各个第二候选通道,以及使上采样图像更加关注各个第二候选通道中的部分通道。在不同的监督目的下,基于上采样图像和训练图像,获取第二监督损失的实现方式有所不同。
第二色彩空间是指获取第二监督损失的过程中考虑的色彩空间,第二色彩空间可以与第一色彩空间相同,也可以与第二色彩空间不同,本申请实施例对此不加以限定。各个第二候选通道是指第二色彩空间中的各个通道。
在一种可能实现方式中,以对上采样图像进行监督的监督目的为使上采样图像同等关注第二色彩空间中的各个第二候选通道为例,基于上采样图像和训练图像,获取第二监督损失的实现过程包括:对于各个第二候选通道中的任一通道,基于上采样图像在任一通道下对应的图像和训练图像在任一通道下对应的图像之间的像素值差异,获取任一通道对应的损失;基于各个第二候选通道分别对应的损失,获取第二监督损失。
基于上采样图像在任一通道下对应的图像和训练图像在任一通道下对应的图像之间的像素值差异,获取任一通道对应的损失的实现原理与基于下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异,获取第二目标通道对应的损失的实现原理相同,此处不再加以赘述。
参考获取任一通道对应的损失的方式,能够获取各个第二候选通道分别对应的损失,然后基于各个第二候选通道分别对应的损失,获取第二监督损失。
示例性地,将各个第二候选通道分别对应的损失之和作为第二监督损失。示例性地,将各个第二候选通道分别对应的损失的平均值作为第二监督损失。示例性地,基于各个第二候选通道分别对应的权重,对各个第二候选通道分别对应的损失进行加权求和,将加权求和后得到的损失作为第二监督损失。
基于各个第二候选通道分别对应的损失,获取第二监督损失的实现过程可以基于以下公式(6)实现:
其中,表示第二监督损失;IHR表示训练图像;/>表示上采样图像;表示各个第二候选通道分别对应的损失之和。以各个第二候选通道包括纹理通道、第一颜色通道和第二颜色通道为例,此种方式下,同时关注纹理通道中的纹理信息和颜色通道中的颜色信息,侧重于重建出纹理信息和颜色信息都接近训练图像的上采样图像。
在一种可能实现方式中,以对上采样图像进行监督的监督目的为使上采样图像更加关注各个第二候选通道中的部分通道为例,基于上采样图像和训练图像,获取第二监督损失的实现过程包括以下步骤2043-1至步骤2043-4。
步骤2043-1:在第二色彩空间中的各个第二候选通道中确定满足关注条件的第三目标通道,将各个第二候选通道中除第三目标通道外的其他通道作为第四目标通道。
满足关注条件的第三目标通道即为各个第二候选通道中需要更加关注的部分通道,满足关注条件的第三目标通道根据经验设置,或者根据实际情况灵活调整,本申请实施例对此不加以限定。示例性地,各个第二候选通道包括纹理通道、第一颜色通道和第二颜色通道,第三目标通道是指纹理通道(也即Y通道)。当然,各个第二候选通道以及第三目标通道还可以为其他情况,如,各个第二候选通道包括R通道、G通道和B通道,第三目标通道为R通道。
在各个第二候选通道中确定出满足关注条件的第三目标通道后,将各个第二候选通道中除第三目标通道外的其他通道作为第四目标通道。该第四目标通道即为相对第三目标通道而言,可以降低关注的通道。例如,各个第二候选通道包括纹理通道、第一颜色通道和第二颜色通道,第四目标通道是指第一颜色通道和第二颜色通道(如,Cb通道和Cr通道)。
步骤2043-2:基于上采样图像在第三目标通道下对应的图像和训练图像在第三目标通道下对应的图像之间的像素值差异,获取第三目标通道对应的损失。
该步骤2043-2的实现原理与基于下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异,获取第二目标通道对应的损失的实现原理相同,此处不再加以赘述。
步骤2043-3:对上采样图像在第四目标通道下对应的图像进行池化,得到第三池化图像;对训练图像在第四目标通道下对应的图像进行池化,得到第四池化图像;基于第三池化图像和第四池化图像之间的像素值差异,获取第四目标通道对应的损失。
该步骤2043-3的实现原理与步骤2032和步骤2033的实现原理相同,此处不再加以赘述。
步骤2043-4:基于第三目标通道对应的损失和第四目标通道对应的损失,获取第二监督损失。
在示例性实施例中,将第三目标通道对应的损失和第四目标通道对应的损失作为第二监督损失。在示例性实施例中,将第三目标通道对应的损失与第四目标通道对应的损失的平均值作为第二监督损失。在示例性实施例中,计算第三目标通道对应的损失与第三权重的乘积,以及第四目标通道对应的损失与第四权重的乘积,将两个乘积的和作为第二监督损失。
示例性地,以各个第二候选通道包括Y通道、Cb通道和Cr通道,且第三目标通道为Y通道,第四目标通道为Cb通道和Cr通道为例。基于第三目标通道对应的损失和第四目标通道对应的损失,获取第二监督损失的过程可以基于公式(7)实现:
其中,表示第二监督损失;IHR表示训练图像;/>表示上采样图像;Y(IHR)表示训练图像在Y通道下对应的图像;/>表示上采样图像在Y通道下对应的图像;表示第三目标通道对应的损失;CbCr(IHR)包括训练图像在Cb通道下对应的图像和在Cr通道下对应的图像;/>包括上采样图像在Cb通道下对应的图像和在Cr通道下对应的图像;P(CbCr(IHR))表示第四池化图像;/>表示第三池化图像;/> 表示第四目标通道对应的损失。此种方式下,更关注第三目标通道内的信息,即纹理通道中的纹理信息,更侧重于基于更多的纹理信息恢复具有相似视觉外观的上采样图像。
步骤2044:基于第一监督损失和第二监督损失,获取目标损失。
在示例性实施例中,将第一监督损失和第二监督损失之和作为目标损失。在示例性实施例中,计算第一监督损失和第一监督权重之间的乘积,以及第二监督算个第二监督权重之间的乘积,将两个乘积的和作为目标损失。
在示例性实施例中,以第一监督损失基于公式(2)计算得到,第二监督损失基于公式(6)计算得到为例,基于第一监督损失和第二监督损失获取目标损失的过程可以基于公式(8)实现:
其中,Ls1表示目标损失;表示第二监督损失;/>表示第一监督损失;αs1表示第二监督权重;βs1表示第一监督权重;αs1和βs1用于平衡/>和/>本申请实施例对αs1和βs1的大小不加以限定,可以根据缩放倍数灵活调整。示例性地,在缩放倍数为2倍缩放时,设置αs1=1,βs1=4;在缩放倍数为4倍缩放时,设置αs1=1,βs1=16。基于公式(8)计算得到的目标损失,能够使重建出的上采样图像在纹理通道和颜色通道方面都尽可能与输入的训练图像保持一致。
在示例性实施例中,以第一监督损失基于公式(5)计算得到,第二监督损失基于公式(7)计算得到为例,基于第一监督损失和第二监督损失获取目标损失的过程可以基于公式(9)实现:
其中,表示目标损失;/>表示第二监督损失;/>表示第一监督损失;/>表示第二监督权重;βs2表示第一监督权重;/>和βs2用于平衡/>和/>本申请实施例对/>和βs2的大小不加以限定,可以根据缩放倍数灵活调整。示例性地,在缩放倍数为2倍缩放时,设置/>βs2=4;在缩放倍数为4倍缩放时,设置/>βs2=16。基于公式(9)计算得到的目标损失,能够侧重于通过更多关注纹理信息来重建出上采样图像,以使重建的上采样图像具有更多的纹理信息。
需要说明的是,以上步骤2041至步骤2044仅以本申请实施例提供的模型训练方法应用在对初始下采样模型和初始上采样模型进行联合训练的场景中为例,介绍了基于各个第一候选通道分别对应的损失获取目标损失的实现方式。本申请实施例并不局限于此。
本申请实施例提供的模型训练方法还可以应用在对初始下采样模型进行单独训练的场景中,此种情况下,基于各个第一候选通道分别对应的损失获取目标损失的实现方式可以包括:基于各个第一候选通道分别对应的损失,获取第一监督损失;将第一监督损失作为目标损失。基于各个第一候选通道分别对应的损失,获取第一监督损失的实现方式详见步骤2042,此处不再赘述。
在一些实施例中,在本申请实施例提供的模型训练方法应用在对初始下采样模型进行单独训练的场景中的情况下,也可以基于上述步骤2041至步骤2044的方式获取目标损失。
在步骤205中,利用目标损失对初始下采样模型的模型参数进行更新,得到目标下采样模型。
在获取目标损失后,利用目标损失对初始下采样模型的模型参数进行更新,以得到目标下采样模型。目标下采样模型比初始上采样模型具有更加准确的下采样能力。
在一种可能实现方式中,在本申请实施例提供的模型训练方法应用在对初始下采样模型进行单独训练的场景中的情况下,利用目标损失仅对初始下采样模型的模型参数进行更新,从而仅得到目标下采样模型。
在一种可能实现方式中,在本申请实施例提供的模型训练方法应用在对初始下采样模型和初始上采样模型进行联合训练的场景中的情况下,除了利用目标损失对初始下采样模型的模型参数进行更新,得到目标下采样模型外,还利用目标损失对初始上采样模型的模型参数进行更新,得到目标上采样模型。也就是说,利用目标损失同时对初始下采样模型的模型参数和初始上采样模型的模型参数进行更新,同时得到目标下采样模型和目标上采样模型。
本申请实施例对利用目标损失对模型(初始下采样模型,或,初始下采样模型和初始上采样模型)的模型参数进行更新的实现方式不加以限定,示例性地,利用目标损失基于梯度下降法对模型的模型参数进行更新。梯度下降法包括但不限于随机梯度下降,带动量项的随机梯度下降,Adam(Adaptive Moment Estimation,自适应矩估计),AdaGard(Adaptive Gradient,自适应梯度算法)等。
示例性地,以利用目标损失同时对初始下采样模型的模型参数和初始上采样模型的模型参数进行更新,同时得到目标下采样模型和目标上采样模型的实现过程为例进行详细说明。在一种可能实现方式中,该实现过程包括:利用目标损失同时对初始下采样模型的模型参数和初始上采样模型的模型参数进行更新,得到更新一次的下采样模型和更新一次的上采样模型;判断当前训练过程是否满足训练终止条件,若当前训练过程满足训练终止条件,则将该更新一次的下采样模型作为目标下采样模型,将该更新一次的上采样模型作为目标上采样模型。
若当前训练过程不满足训练终止条件,则在更新一次后的下采样模型和更新一次后的上采样模型的基础上,获取新的目标损失,利用新的目标损失同时对上述更新一次的下采样模型和更新一次的上采样模型的模型参数进行更新,得到更新两次的下采样模型和更新两次的上采样模型,以此类推,直至当前训练过程满足训练终止条件,将满足训练终止条件时得到的下采样模型作为目标下采样模型,将满足训练终止条件是得到的上采样模型作为目标上采样模型。
当前训练过程满足训练终止条件根据经验设置,或者根据应用场景灵活调整,本申请实施例对此不加以限定。示例性地,当前训练过程满足训练终止条件包括但不限于:在当前训练过程下已经执行的迭代过程的次数达到次数阈值、当前训练过程所利用的目标损失收敛、当前训练过程所利用的目标损失不大于损失阈值等。
示例性地,对于上采样模型为比下采样模型更加轻量化的模型的情况,本申请实施例提供的网络结构可视为一种非对称的网络结构。示例性地,非对称的网络结构的框架可以如图4所示,该框架主要由一个下采样模型,一个量化模型和一个上采样模型构成。其中,上采样模型为比上采样模型更加轻量化的模型。
给定一张较高分辨率的训练图像IHR,首先通过下采样模型、激活函数δ和量化模型,可以得到较低分辨率的下采样图像下采样图像/>具有与训练图像IHR相似的视觉信息。然后可以通过轻量化的上采样模型对下采样图像/>进行上采样,快速得到重建后的上采样图像/>重建得到的上采样图像/>能够保留原始的训练图像IHR的图像细节。
在图4所示的网络结构的框架下,上采样图像利用基于上采样图像/>训练图像IHR和L2范数计算公式计算得到的第二监督损失进行监督。下采样图像/>利用基于第一子损失(Pooling Loss)和第二子损失(Info Loss)获取的第一监督损失进行监督,第一子损失基于下采样图像/>在Y通道下对应的图像、对下采样图像/>在Cb通道下对应的图像进行池化得到的池化图像、对下采样图像/>在Cr通道下对应的图像进行池化得到的池化图像、参考图像ILR在Y通道下对应的图像、对参考图像ILR在Cb通道下对应的图像进行池化得到的池化图像、对参考图像ILR在Cr通道下对应的图像进行池化得到的池化图像以及L2范数计算公式计算得到。
第二子损失基于包括Cb通道对应的监督图像和Cr通道对应的监督图像的Info、上采样图像在Cb通道下对应的图像、上采样图像/>在Cr通道下对应的图像以及L2范数计算公式计算得到。其中,Info通过调用残差学习模型中的卷积层对上采样图像/>和训练图像IHR之间在Y通道方面具有的残差信息进行卷积得到。
本申请实施例采用了非对称的网络结构设计,且提供了一种综合考虑第一子损失(Pooling Loss)和第二子损失(Info Loss)得到的目标损失,第一子损失能够减少模型对下采样图像的颜色通道(如,Cb通道和Cr通道)的约束,从而为纹理信息的编码提供额外的空间,第二子损失可以学习重建的上采样图像与输入的训练图像之间的残差信息来约束模型将残差信息相关的信息编码进颜色通道(如,Cb通道和Cr通道)的空余空间。此种目标损失的设计,能够使模型更好地将纹理信息(Y通道的信息)编码进下采样图像的颜色通道(如,Cb通道和Cr通道),从而重建出一个质量更好的上采样图像。本申请实施例提供的技术方案在视觉效果和数值比较上均能得到更好的效果。
对本实施例提供的技术方案进行了定量和定性评测,以体现本申请实施例提供的技术方案相比于相关技术带来的效果。
示例性地,本申请实施例使用β1=0.9,β2=0.999的Adam(Adaptive MomentEstimation,自适应矩估计)来训练上采样模型和下采样模型,在训练上采样模型和下采样模型的过程中,batch size(批量大小)=16,总迭代训练次数为50k次,将梯度裁剪(gradient clipping)设置为10,并将权重衰减(weight decay)设置为1e-5,初始学习速率设置为2e-4,并在[10k,20k,30,40k]更新时将其减半。
示例性地,将利用基于公式(8)计算得到的目标损失训练得到目标下采样模型和目标上采样模型构成的模型称为第一图像缩放模型,将利用基于公式(9)计算得到的目标损失训练得到目标下采样模型和目标上采样模型构成的模型称为第二图像缩放模型。
为了充分分析和比较利用本申请实施例提供的模型训练方法训练得到的模型与利用相关技术中的模型训练方法训练得到的模型的性能,本申请实施例选择了4个数据集,分别是Set5、Set14、BSD100和Urban100,并将基于YCbCr色彩空间中Y通道确定的峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似度(Structural Similarity Index,SSIM)作为图像质量的衡量指标,以此来定量评估模型的性能。
图5示出了利用本申请实施例提供的模型训练方法训练得到的第一图像缩放模型、第二图像缩放模型与利用相关技术中的模型训练方法训练得到的图像缩放模型(Bi&Bi、Bi&SRCNN、Bi&EDSR、Bi&RDN、Bi&RCAN、Bi&SAN、TAD&TAU、CNN-CR&SR、CAR&EDSR和IRN)在2倍缩放上的定量比对结果,以及利用本申请实施例提供的模型训练方法训练得到的第一图像缩放模型、第二图像缩放模型与利用相关技术中的模型训练方法训练得到的图像缩放模型(Bi&Bi、Bi&SRCNN、Bi&EDSR、Bi&RDN、Bi&RCAN、Bi&ESRGAN、Bi&SAN、TAD&TAU、CAR&EDSR和IRN)在4倍缩放上的定量比对结果。
其中,SRCNN是指超分辨率重建卷积神经网络(Super-Resolution ConvolutionalNeural Network)模型;RDN是指深度残差网络(Residual Dense Network)模型;SAN是指二阶注意力网络(Second-order Attention Network)模型;TAD是指基于学习的图像下采样(Task-aware Downscaling)模型;TAU是指基于学习的图像上采样(Task-awareUpscaling)模型;CNN-CR是指压缩图像分辨率的卷积神经网络(Convolutional NeuralNetwork for Image Compact-Resolution)模型;SR是指超分辨率(Super Resolution)模型;CAR是指内容自适应图像重采样器(Content Adaptive Resampler)模型;ESRGAN是指增强型超分辨率生成对抗网络(Enhanced Super-Resolution Generative AdversarialNetworks)模型。
图5所示的定量比对结果包括通过基于重建出的图像确定的PSNR和SSIM的比对结果。根据图5所示的定量比对结果可知,利用本申请实施例提供的模型训练方法训练得到具有非对称结构的第一图像缩放模型和第二图像缩放模型所有数据集上具有的PSNR和SSIM都明显优于利用相关技术中的模型训练方法训练得到的模型。根据图5可知,第一图像缩放模型和第二图像缩放模型均具有一个轻量化的上采样模型(在2倍缩放下的参数数量约为0.27M,在4倍缩放下的参数数量约为0.70M),上采样模型的参数数量明显少于其他模型中的上采样模型的参数数量。虽然第一图像缩放模型和第二图像缩放模型中的上采样模型包含的参数最少,但是仍然可以获得所有模型中最好的图像重建性能。实验结果表明,本申请实施例设计的非对称网络结构和基于Pooling Loss获取的目标损失是有效的。
此外,根据图5所示的定量比对结果,还可以发现,利用第二图像缩放模型能够重建出具有更优的PSNR和SSIM的图像,由于PSNR和SSIM都是基于YCbCr色彩空间中Y通道(也即纹理通道)确定的,所以能够表明第二图像缩放模型可以进一步改进纹理方面的重建效果。
图6-图8中展示了第一图像缩放模型、第二图像缩放模型、Bi&Bi模型和IRN模型的定性比较结果。图6中(1)是从Set14数据集中抽取出的图像,图6中(2)是利用Bi&Bi模型对图6中(1)所示的图像进行重建后得到的图像,图6中的(3)是利用IRN模型对图6中(1)所示的图像进行重建后得到的图像,图6中的(4)是利用第一图像缩放模型对图6中(1)所示的图像进行重建后得到的图像,图6中的(5)是利用第二图像缩放模型对图6中(1)所示的图像进行重建后得到的图像。
图7中的(1)是从Urban100数据集中抽取出的图像,图7中的(2)是从图7中的(1)所示的图像中裁剪出的分辨率为144×144的图像,图7中的(3)是利用Bi&Bi模型对图7中(2)所示的图像进行重建后得到的图像,图7中的(4)利用IRN模型对图7中(2)所示的图像进行重建后得到的图像,图7中的(5)是利用第一图像缩放模型对图7中(2)所示的图像进行重建后得到的图像,图7中的(6)是利用第二图像缩放模型对图7中(2)所示的图像进行重建后得到的图像。
图8中的(1)是从Urban 100中抽取出的图像,图8中的(2)是从图8中的(1)所示的图像中裁剪出的分辨率为288×288的图像,图8中的(3)是利用Bi&Bi模型对图8中(2)所示的图像进行重建后得到的图像,图8中的(4)利用IRN模型对图8中(2)所示的图像进行重建后得到的图像,图8中的(5)是利用第一图像缩放模型对图8中(2)所示的图像进行重建后得到的图像,图8中的(6)是利用第二图像缩放模型对图8中(2)所示的图像进行重建后得到的图像。
根据图6-图8可以看出,利用第一图像缩放模型和第二图像缩放模型重建出的图像比利用Bi&Bi模型和IRN模型重建出的图像具有更好的视觉质量和保真度,恢复了更多的图像细节,能够提高视觉感受。利用第一图像缩放模型和第二图像缩放模型重建出的图像在视觉外观上是相似的。
示例性地,还评估第一图像缩放模型中的下采样模型和第二图像缩放模型中的下采样模型下采样得到的下采样图像的质量。表1列出了在2倍和4倍缩放下,利用第一图像缩放模型中的下采样模型和第二图像缩放模型中的下采样模型下采样得到的下采样图像的SSIM,计算SSIM所依据的真值图像是利用双三次插值进行下采样得到的图像。根据表1可知,利用第一图像缩放模型中的下采样模型和第二图像缩放模型中的下采样模型下采样得到的下采样图像与利用双三次插值进行下采样得到的下采样图像的相似度都很高。此外,利用第二图像缩放模型中的下采样模型下采样得到的下采样图像与利用双三次插值进行下采样得到的下采样图像的相似度更高,说明利用第二图像缩放模型中的下采样模型下采样得到的下采样图像保留了更多有用的纹理信息。
表1
图9和图10示出了利用第一图像缩放模型中的下采样模型下采样得到的下采样图像、利用第二图像缩放模型中的下采样模型下采样得到的下采样图像以及利用双三次插值进行下采样得到的下采样图像的比对图。
图9中的(1)表示在2倍缩放的情况下,利用双三次插值进行下采样得到的下采样图像,图9中的(2)表示在2倍缩放的情况下,利用第一图像缩放模型中的下采样模型下采样得到的下采样图像,图9中的(3)表示在2倍缩放的情况下,利用第二图像缩放模型中的下采样模型下采样得到的下采样图像。
图10中的(1)表示在4倍缩放的情况下,利用双三次插值进行下采样得到的下采样图像,图10中的(2)表示在4倍缩放的情况下,利用第一图像缩放模型中的下采样模型下采样得到的下采样图像,图10中的(3)表示在4倍缩放的情况下,利用第二图像缩放模型中的下采样模型下采样得到的下采样图像。
根据图9和图10可知,利用第一图像缩放模型中的下采样模型下采样得到的下采样图像和利用双三次插值进行下采样得到的下采样图像的视觉效果非常相似,利用第二图像缩放模型中的下采样模型下采样得到的下采样图像和利用双三次插值进行下采样得到的下采样图像的视觉效果几乎没有区别,利用双三次插值进行下采样得到的下采样图像中编码了更多有用的纹理信息。
示例性地,本申请实施例验证了Pooling Loss的有效性。计算在不考虑PoolingLoss、考虑基于最大池化(2)得到的Pooling Loss、考虑基于最大池化(3)得到的PoolingLoss、考虑基于平均池化(2)得到的Pooling Loss以及考虑基于平均池化(3)得到的Pooling Loss这四种情况下,调用训练好的模型得到的重建后的上采样图像的PSNR,以及重建的上采样图像与训练图像之间的SSIM,计算结果如表2所示。需要说明的是,最大池化(2)表示利用2×2的池化核进行最大池化,平均池化(2)表示利用2×2的池化核进行平均池化,最大池化(3)表示利用3×3的池化核进行最大池化,平均池化(3)表示利用3×3的池化核进行平均池化。
根据表2可知,在考虑Pooling Loss的情况下得到的PSNR和SSIM的值均明显高于在不考虑Pooling Loss的情况下得到的PSNR和SSIM的值。在考虑基于平均池化(2)得到的Pooling Loss情况下得到的PSNR和SSIM的值最大,性能表现最好,可以说明平均池化比最大池化更适合保留颜色信息。另外,池化核大小为2×2比池化核大小为3×3所得到的PSNR和SSIM的值要大,性能要好,也就是说,较大的池化核大小可能会丢失较多的信息。
表2
Pooling Loss | Set5 | Set14 | BSD100 | Urban100 | DIV2K |
不考虑 | 44.31/0.9736 | 41.48/0.9827 | 41.61/0.9888 | 40.45/0.9888 | 44.65/0.9919 |
最大池化(2) | 45.27/0.9912 | 42.36/0.9851 | 42.73/0.9915 | 41.32/0.9905 | 45.62/0.9935 |
最大池化(3) | 44.59/0.9897 | 41.70/0.9893 | 41.89/0.9893 | 40.67/0.9890 | 44.88/0.9922 |
平均池化(2) | 45.23/0.9912 | 42.38/0.9853 | 42.82/0.9915 | 41.37/0.9907 | 45.68/0.9937 |
平均池化(3) | 44.22/0.9889 | 41.43/0.9816 | 41.64/0.9886 | 40.55/0.9883 | 44.60/0.9914 |
示例性地,本申请实施例验证了Info Loss的有效性。计算在不考虑Pooling Loss和Info Loss、仅考虑Pooling Loss以及综合考虑Pooling Loss和Info Loss的情况下,调用训练好的模型得到的重建后的上采样图像的PSNR,以及重建后的上采样图像与训练图像之间的SSIM,计算结果如表3所示。
根据表3可知,在综合考虑Pooling Loss和Info Loss的情况下得到的PSNR和SSIM的值最大,也即在综合考虑Pooling Loss和Info Loss的情况下模型表现最好。这是因为Info Loss可以更好地指导模型将从上采样图像和训练图像的残差信息中学习到的有用纹理信息编码进下采样图像中,从而使重建后的上采样图像具有更高的PSNR结果,重建后的上采样图像与训练图像之间SSIM也更高。
表3
本申请实施例提供的方法能够解决现实世界中的图像缩放问题。随着摄像技术和显示技术的发展,现实世界中存在越来越多的高分辨率的图像,而图像缩放方法可以先将高分辨率图像下采样为低分辨率图像来进行传输、存储等,在收到图像后又可以重新上采样到原来高分辨率。在现实世界中,图像缩放中的下采样和上采样往往是在不同的设备上进行的,不同类型的设备的处理性能和要求是不一样的,从而对图像缩放的要求也是不一样的。在传输端(如云服务器)往往具有充足的计算资源进行下采样处理,因此下采样模型可以保持较大模型来保证下采样后的图像的信息表达能力,而对于接收端(如智能手机、VR设备)往往性能有限并且用户也希望能够快速得到结果,因此上采样模型需要采用轻量化设计。本申请实施例针对实际世界的图像缩放问题进行了如下关键技术:
1.针对现实世界图像缩放问题,本申请实施例提出一种非对称的网络结构,其中一个较大的下采样模型结构可以符合传输端对高分辨率图像下采样的处理需求,以具有足够的特征提取和表达能力,此外,一个轻量化的上采样模型结构可以符合接收端性能条件,也能够快速地对图像进行上采样。此种网络结构更符合现实世界的需求。
2.为了提升图像缩放的高分辨率图像的重建质量,本申请实施例提出两种损失函数来约束模型在冗余的颜色通道上编码更多的纹理信息。通过在冗余的颜色通道上编码更多的纹理信息可以使得轻量化的上采样模型恢复出更准确的高分辨率图像,使得高分辨率图像能够保留更多的纹理细节和信息。示例性地,高分辨率图像还可以称为高清图像。
本申请实施例提供的模型训练方法,目标损失是基于各个第一候选通道分别对应的损失获取的,其中,各个第一候选通道中的第一目标通道对应的损失是基于第一池化图像和第二池化图像之间的像素值差异获取的。在此种目标损失下,模型参数在第一目标通道方面的更新方向是:缩小第一池化图像和第二池化图像之间的像素值差异的方向。由于第一池化图像和第二池化图像通过池化得到,池化后的图像中的像素点较少,所以上述目标损失能够减轻对模型参数在第一目标通道方面的更新方向的约束程度,从而为下采样模型在第一目标通道方面的学习提供更多的自由度。利用上述模型训练方式,能够减小训练好的下采样模型输出的下采样图像与真值图像之间的偏差,提高下采样模型的训练准确性,进而提高利用训练好的下采样模型进行图像处理的质量。
基于上述图1所示的实施环境,本申请实施例提供一种图像处理方法,该图像处理方法由计算机设备执行,该计算机设备可以为终端11,也可以为服务器12。如图11所示,本申请实施例提供的图像处理方法可以包括如下步骤1101至步骤1103。
在步骤1101中,获取第一图像。
第一图像是指需要进行下采样的具有较高分辨率的图像,本申请实施例对获取第一图像的方式不加以限定,示例性地,获取第一图像的方式包括但不限于接收图像采集设备发送的第一图像、接收交互对象上传的第一图像、从图像库中提取第一图像、从网络上截图第一图像等。
在步骤1102中,调用目标下采样模型对第一图像进行下采样,得到第二图像。
在获取第一图像后,调用目标下采样模型对第一图像进行下采样,得到第二图像。其中,目标下采样模型利用图2所示的实施例中的模型训练方法训练得到。第二图像的分辨率小于第一图像的分辨率。
在步骤1103中,对第二图像进行处理。
第二图像为具有较低的分辨率的图像,相比于第一图像,第二图像占用的存储空间较小,且第二图像的传输速度更快。
对第二图像进行处理的方式根据实际的应用场景灵活设置,示例性地,若实际的应用场景为存储第二图像,则对第二图像进行处理的方式为存储第二图像。示例性地,若实际的应用场景为向目标设备发送第二图像,则对第二图像进行处理的方式为向目标设备发送第二图像。示例性地,若实际的应用场景为存储第二图像且向目标设备发送第二图像,则对第二图像进行处理的方式为存储第二图像,且向目标设备发送第二图像。目标设备是指与图11所示的实施例的执行主体不同的任一设备,目标设备可以为终端,也可以为服务器,本申请实施例对此不加以限定。
在示例性实施例中,以对第二图像进行处理的方式包括向目标设备发送第二图像为例。目标设备在接收到第二图像后,能够将第二图像存储在目标设备本地,还能够在需要对第二图像进行上采样时,调用目标上采样模型对第二图像进行上采样,得到第三图像。第三图像为第一图像对应的重建图像,第三图像的分辨率与第一图像分辨率相同。由于第三图像是调用目标上采样模型对第二图像进行上采样得到的,第二图像是调用目标下采样模型对第一图像进行下采样得到的,且目标上采样模型和目标下采样模型均是利用图2所示的实施例中的目标损失训练得到的准确性较高的模型,所以第三图像与第一图像的相似度较高。
示例性地,目标设备在得到第三图像后,可以显示第三图像。
示例性地,目标上采样模型是在图2所示的模型训练方法应用在对初始上采样模型和初始下采样模型进行联合训练的情况下,训练得到的目标上采样模型。也就说是,在通过对初始上采样模型和初始下采样模型进行联合训练得到目标上采样模型和目标下采样模型后,将目标上采样模型部署在目标设备上以供进行上采样,将目标下采样模型部署在计算机设备上以供进行下采样。
在示例性实施例中,调用目标上采样模型对第二图像进行上采样的计算量,小于调用目标下采样模型对第一图像进行下采样的计算量。也就是说,目标上采样模型为一种比目标下采样模型更加轻量化的模型。
示例性地,以计算机设备为服务器,以目标设备为终端为例,图像处理过程可以如图12所示,将具有较高分辨率的第一图像上传至服务器,服务器调用目标下采样模型对第一图像进行下采样,得到具有较低分辨率的第二图像;服务器向终端发送第二图像,终端调用目标上采样模型对第二图像进行上采样,快速得到重建后的具有较高分辨率的第三图像。第二图像具有与第一图像相似的视觉信息,第三图像能够保留第一图像的图像细节。
本申请实施例提供的方法,能够应用在现实世界的图像传输,存储等任务中。传输端调用目标下采样模型对高分辨率的图像进行下采样可以得到一个保留图像信息的低分辨率的图像,从而加快传输速度,降低传输成本,减少存储成本。在需要高分辨率的图像时,接收端调用轻量化的目标上采样模型对低分辨率的图像进行上采样,快速地恢复出高分辨率的图像。由于目标上采样模型是轻量化的模型,所以能够应用在多数终端中。
本申请实施例提供的图像处理方法,利用目标下采样模型进行图像处理,目标下采样模型利用目标损失训练得到,目标损失是基于各个第一候选通道分别对应的损失获取的,其中,各个第一候选通道中的第一目标通道对应的损失是基于第一池化图像和第二池化图像之间的像素值差异获取的。在此种目标损失下,模型参数在第一目标通道方面的更新方向是:缩小第一池化图像和第二池化图像之间的像素值差异的方向。由于第一池化图像和第二池化图像通过池化得到,池化后的图像中的像素点较少,所以上述目标损失能够减轻对模型参数在第一目标通道方面的更新方向的约束程度,从而为下采样模型在第一目标通道方面的学习提供更多的自由度。利用上述模型训练方式,能够减小训练好的下采样模型输出的下采样图像与真值图像之间的偏差,提高下采样模型的训练准确性,进而提高利用目标下采样模型进行图像处理的质量。
参见图13,本申请实施例提供了一种模型训练装置,该装置包括:
第一获取单元1301,用于获取训练图像和训练图像对应的参考图像,参考图像利用参考下采样方式对训练图像进行下采样得到;
第一下采样单元1302,用于调用初始下采样模型对训练图像进行下采样,得到下采样图像;
第一获取单元1301,还用于基于下采样图像和参考图像,获取第一色彩空间中的各个第一候选通道分别对应的损失,其中,各个第一候选通道中满足选取条件的第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到,第一池化图像通过对下采样图像在第一目标通道下对应的图像进行池化得到,第二池化图像通过对参考图像在第一目标通道下对应的图像进行池化得到;基于各个第一候选通道分别对应的损失,获取目标损失;
更新单元1303,用于利用目标损失对初始下采样模型的模型参数进行更新,得到目标下采样模型。
在一种可能实现方式中,第一获取单元1301,还用于调用初始上采样模型对下采样图像进行上采样,得到上采样图像,上采样图像为训练图像对应的重建图像;基于各个第一候选通道分别对应的损失,获取第一监督损失,第一监督损失用于对下采样图像进行监督;基于上采样图像和训练图像,获取第二监督损失,第二监督损失用于对上采样图像进行监督;基于第一监督损失和第二监督损失,获取目标损失。
在一种可能实现方式中,第一获取单元1301,还用于基于各个第一候选通道分别对应的损失,获取第一子损失;基于上采样图像和训练图像之间的残差信息,获取第一目标通道对应的监督图像;基于下采样图像在第一目标通道下对应的图像和监督图像之间的像素值差异,获取第二子损失;基于第一子损失和第二子损失,获取第一监督损失。
在一种可能实现方式中,第一获取单元1301,还用于在第二色彩空间中的各个第二候选通道中确定满足关注条件的第三目标通道,将各个第二候选通道中除第三目标通道外的其他通道作为第四目标通道;基于上采样图像在第三目标通道下对应的图像和训练图像在第三目标通道下对应的图像之间的像素值差异,获取第三目标通道对应的损失;对上采样图像在第四目标通道下对应的图像进行池化,得到第三池化图像;对训练图像在第四目标通道下对应的图像进行池化,得到第四池化图像;基于第三池化图像和第四池化图像之间的像素值差异,获取第四目标通道对应的损失;基于第三目标通道对应的损失和第四目标通道对应的损失,获取第二监督损失。
在一种可能实现方式中,第一获取单元1301,还用于对于各个第二候选通道中的任一通道,基于上采样图像在任一通道下对应的图像和训练图像在任一通道下对应的图像之间的像素值差异,获取任一通道对应的损失;基于各个第二候选通道分别对应的损失,获取第二监督损失。
在一种可能实现方式中,调用初始上采样模型对下采样图像进行上采样的计算量,小于调用初始下采样模型对训练图像进行下采样的计算量。
在一种可能实现方式中,初始上采样模型通过对初始下采样模型执行缩减模型结构和减少模型参数中的至少一项轻量化操作得到。
在一种可能实现方式中,更新单元1303,还用于利用目标损失对初始上采样模型的模型参数进行更新,得到目标上采样模型。
在一种可能实现方式中,各个第一候选通道还包括不满足选取条件的第二目标通道,第二目标通道对应的损失基于下采样图像在第二目标通道下对应的图像和参考图像在第二目标通道下对应的图像之间的像素值差异得到。
在一种可能实现方式中,各个第一候选通道包括纹理通道、第一颜色通道和第二颜色通道,第一目标通道为第一颜色通道和第二颜色通道。
本申请实施例提供的模型训练装置,目标损失是基于各个第一候选通道分别对应的损失获取的,其中,各个第一候选通道中的第一目标通道对应的损失是基于第一池化图像和第二池化图像之间的像素值差异获取的。在此种目标损失下,模型参数在第一目标通道方面的更新方向是:缩小第一池化图像和第二池化图像之间的像素值差异的方向。由于第一池化图像和第二池化图像通过池化得到,池化后的图像中的像素点较少,所以上述目标损失能够减轻对模型参数在第一目标通道方面的更新方向的约束程度,从而为下采样模型在第一目标通道方面的学习提供更多的自由度。利用上述模型训练方式,能够减小训练好的下采样模型输出的下采样图像与真值图像之间的偏差,提高下采样模型的训练准确性,进而提高利用训练好的下采样模型进行图像处理的质量。
参见图14,本申请实施例提供了一种图像处理装置,该装置包括:
第二获取单元1401,用于获取第一图像;
第二下采样单元1402,用于调用目标下采样模型对第一图像进行下采样,得到第二图像;
处理单元1403,用于对第二图像进行处理;
其中,目标下采样模型利用图2所示的实施例中的模型训练方法训练得到。
在一种可能实现方式中,处理单元1403,用于向目标设备发送第二图像,目标设备用于调用目标上采样模型对第二图像进行上采样,得到第三图像,第三图像为第一图像对应的重建图像。
本申请实施例提供的图像处理装置,利用目标下采样模型进行图像处理,目标下采样模型利用目标损失训练得到,目标损失是基于各个第一候选通道分别对应的损失获取的,其中,各个第一候选通道中的第一目标通道对应的损失是基于第一池化图像和第二池化图像之间的像素值差异获取的。在此种目标损失下,模型参数在第一目标通道方面的更新方向是:缩小第一池化图像和第二池化图像之间的像素值差异的方向。由于第一池化图像和第二池化图像通过池化得到,池化后的图像中的像素点较少,所以上述目标损失能够减轻对模型参数在第一目标通道方面的更新方向的约束程度,从而为下采样模型在第一目标通道方面的学习提供更多的自由度。利用上述模型训练方式,能够减小训练好的下采样模型输出的下采样图像与真值图像之间的偏差,提高下采样模型的训练准确性,进而提高利用目标下采样模型进行图像处理的质量。
需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条计算机程序。该至少一条计算机程序由一个或者一个以上处理器加载并执行,以使该计算机设备实现上述任一种模型训练方法或图像处理方法。该计算机设备可以为终端,也可以为服务器,本申请实施例对此不加以限定。接下来,对终端和服务器的结构分别进行介绍。
图15是本申请实施例提供的一种终端的结构示意图。该终端可以是:PC、手机、智能手机、PDA、可穿戴设备、PPC、平板电脑、智能车机、智能电视、智能音箱、智能语音交互设备、智能家电、车载终端、飞行器等。终端还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端包括有:处理器1501和存储器1502。
处理器1501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1501可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1501可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1501还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1501所执行,以使该终端实现本申请中方法实施例提供的模型训练方法或图像处理方法。
在一些实施例中,终端还可选包括有:外围设备接口1503和至少一个外围设备。处理器1501、存储器1502和外围设备接口1503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1503相连。具体地,外围设备包括:射频电路1504、显示屏1505、摄像头组件1506、音频电路1507和电源1508中的至少一种。
外围设备接口1503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1501和存储器1502。在一些实施例中,处理器1501、存储器1502和外围设备接口1503被集成在同一芯片或电路板上;在一些其他实施例中,处理器1501、存储器1502和外围设备接口1503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1504用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1504还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏1505用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1505是触摸显示屏时,显示屏1505还具有采集在显示屏1505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1501进行处理。此时,显示屏1505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1505可以为一个,设置在终端的前面板;在另一些实施例中,显示屏1505可以为至少两个,分别设置在终端的不同表面或呈折叠设计;在另一些实施例中,显示屏1505可以是柔性显示屏,设置在终端的弯曲表面上或折叠面上。甚至,显示屏1505还可以设置成非矩形的不规则图形,也即异形屏。显示屏1505可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件1506用于采集图像或视频。可选地,摄像头组件1506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路1507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1501进行处理,或者输入至射频电路1504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1501或射频电路1504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1507还可以包括耳机插孔。
电源1508用于为终端中的各个组件进行供电。电源1508可以是交流电、直流电、一次性电池或可充电电池。当电源1508包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端还包括有一个或多个传感器1509。该一个或多个传感器1509包括但不限于:加速度传感器1510、陀螺仪传感器1511、压力传感器1512、光学传感器1513以及接近传感器1514。
加速度传感器1510可以检测以终端建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1510可以用于检测重力加速度在三个坐标轴上的分量。处理器1501可以根据加速度传感器1510采集的重力加速度信号,控制显示屏1505以横向视图或纵向视图进行用户界面的显示。加速度传感器1510还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器1511可以检测终端的机体方向及转动角度,陀螺仪传感器1511可以与加速度传感器1510协同采集用户对终端的3D动作。处理器1501根据陀螺仪传感器1511采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器1512可以设置在终端的侧边框和/或显示屏1505的下层。当压力传感器1512设置在终端的侧边框时,可以检测用户对终端的握持信号,由处理器1501根据压力传感器1512采集的握持信号进行左右手识别或快捷操作。当压力传感器1512设置在显示屏1505的下层时,由处理器1501根据用户对显示屏1505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器1513用于采集环境光强度。在一个实施例中,处理器1501可以根据光学传感器1513采集的环境光强度,控制显示屏1505的显示亮度。具体地,当环境光强度较高时,调高显示屏1505的显示亮度;当环境光强度较低时,调低显示屏1505的显示亮度。在另一个实施例中,处理器1501还可以根据光学传感器1513采集的环境光强度,动态调整摄像头组件1506的拍摄参数。
接近传感器1514,也称距离传感器,通常设置在终端的前面板。接近传感器1514用于采集用户与终端的正面之间的距离。在一个实施例中,当接近传感器1514检测到用户与终端的正面之间的距离逐渐变小时,由处理器1501控制显示屏1505从亮屏状态切换为息屏状态;当接近传感器1514检测到用户与终端的正面之间的距离逐渐变大时,由处理器1501控制显示屏1505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图15中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图16是本申请实施例提供的一种服务器的结构示意图,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)1601和一个或多个存储器1602,其中,该一个或多个存储器1602中存储有至少一条计算机程序,该至少一条计算机程序由该一个或多个处理器1601加载并执行,以使该服务器实现上述各个方法实施例提供的模型训练方法或图像处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条计算机程序,该至少一条计算机程序由计算机设备的处理器加载并执行,以使计算机实现上述任一种模型训练方法或图像处理方法。
在一种可能实现方式中,上述计算机可读存储介质可以是只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact DiscRead-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或计算机指令,该计算机程序或计算机指令由处理器加载并执行,以使计算机实现上述任一种模型训练方法或图像处理方法。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本申请中涉及到的第一图像是在充分授权的情况下获取的。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (27)
1.一种模型训练方法,其特征在于,所述方法包括:
获取训练图像和所述训练图像对应的参考图像,所述参考图像利用参考下采样方式对所述训练图像进行下采样得到;
调用初始下采样模型对所述训练图像进行下采样,得到下采样图像;
基于所述下采样图像和所述参考图像,获取第一色彩空间中的各个第一候选通道分别对应的损失,其中,所述各个第一候选通道中满足选取条件的第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到,所述第一池化图像通过对所述下采样图像在所述第一目标通道下对应的图像进行池化得到,所述第二池化图像通过对所述参考图像在所述第一目标通道下对应的图像进行池化得到;
基于所述各个第一候选通道分别对应的损失,获取目标损失,利用所述目标损失对所述初始下采样模型的模型参数进行更新,得到目标下采样模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述各个第一候选通道分别对应的损失,获取目标损失,包括:
调用初始上采样模型对所述下采样图像进行上采样,得到上采样图像,所述上采样图像为所述训练图像对应的重建图像;
基于所述各个第一候选通道分别对应的损失,获取第一监督损失,所述第一监督损失用于对所述下采样图像进行监督;
基于所述上采样图像和所述训练图像,获取第二监督损失,所述第二监督损失用于对所述上采样图像进行监督;
基于所述第一监督损失和所述第二监督损失,获取所述目标损失。
3.根据权利要求2所述的方法,其特征在于,所述基于所述各个第一候选通道分别对应的损失,获取第一监督损失,包括:
基于所述各个第一候选通道分别对应的损失,获取第一子损失;
基于所述上采样图像和所述训练图像之间的残差信息,获取所述第一目标通道对应的监督图像;
基于所述下采样图像在所述第一目标通道下对应的图像和所述监督图像之间的像素值差异,获取第二子损失;
基于所述第一子损失和所述第二子损失,获取所述第一监督损失。
4.根据权利要求2所述的方法,其特征在于,所述基于所述上采样图像和所述训练图像,获取第二监督损失,包括:
在第二色彩空间中的各个第二候选通道中确定满足关注条件的第三目标通道,将所述各个第二候选通道中除所述第三目标通道外的其他通道作为第四目标通道;
基于所述上采样图像在所述第三目标通道下对应的图像和所述训练图像在所述第三目标通道下对应的图像之间的像素值差异,获取所述第三目标通道对应的损失;
对所述上采样图像在所述第四目标通道下对应的图像进行池化,得到第三池化图像;对所述训练图像在所述第四目标通道下对应的图像进行池化,得到第四池化图像;基于所述第三池化图像和所述第四池化图像之间的像素值差异,获取所述第四目标通道对应的损失;
基于所述第三目标通道对应的损失和所述第四目标通道对应的损失,获取所述第二监督损失。
5.根据权利要求2所述的方法,其特征在于,所述基于所述上采样图像和所述训练图像,获取第二监督损失,包括:
对于各个第二候选通道中的任一通道,基于所述上采样图像在所述任一通道下对应的图像和所述训练图像在所述任一通道下对应的图像之间的像素值差异,获取所述任一通道对应的损失;
基于所述各个第二候选通道分别对应的损失,获取所述第二监督损失。
6.根据权利要求2-5任一所述的方法,其特征在于,调用初始上采样模型对所述下采样图像进行上采样的计算量,小于调用初始下采样模型对所述训练图像进行下采样的计算量。
7.根据权利要求6所述的方法,其特征在于,所述初始上采样模型通过对所述初始下采样模型执行缩减模型结构和减少模型参数中的至少一项轻量化操作得到。
8.根据权利要求2-5、7任一所述的方法,其特征在于,所述方法还包括:
利用所述目标损失对所述初始上采样模型的模型参数进行更新,得到目标上采样模型。
9.根据权利要求1-5、7任一所述的方法,其特征在于,所述各个第一候选通道还包括不满足所述选取条件的第二目标通道,所述第二目标通道对应的损失基于所述下采样图像在所述第二目标通道下对应的图像和所述参考图像在所述第二目标通道下对应的图像之间的像素值差异得到。
10.根据权利要求1-5、7任一所述的方法,其特征在于,所述各个第一候选通道包括纹理通道、第一颜色通道和第二颜色通道,所述第一目标通道为所述第一颜色通道和所述第二颜色通道。
11.一种图像处理方法,其特征在于,所述方法包括:
获取第一图像;
调用目标下采样模型对所述第一图像进行下采样,得到第二图像;
对所述第二图像进行处理;
其中,所述目标下采样模型利用如权利要求1-10任一所述的模型训练方法训练得到。
12.根据权利要求11所述的方法,其特征在于,所述对所述第二图像进行处理,包括:
向目标设备发送所述第二图像,所述目标设备用于调用目标上采样模型对所述第二图像进行上采样,得到第三图像,所述第三图像为所述第一图像对应的重建图像。
13.一种模型训练装置,其特征在于,所述装置包括:
第一获取单元,用于获取训练图像和所述训练图像对应的参考图像,所述参考图像利用参考下采样方式对所述训练图像进行下采样得到;
第一下采样单元,用于调用初始下采样模型对所述训练图像进行下采样,得到下采样图像;
所述第一获取单元,还用于基于所述下采样图像和所述参考图像,获取第一色彩空间中的各个第一候选通道分别对应的损失,其中,所述各个第一候选通道中满足选取条件的第一目标通道对应的损失基于第一池化图像和第二池化图像之间的像素值差异得到,所述第一池化图像通过对所述下采样图像在所述第一目标通道下对应的图像进行池化得到,所述第二池化图像通过对所述参考图像在所述第一目标通道下对应的图像进行池化得到;基于所述各个第一候选通道分别对应的损失,获取目标损失;
更新单元,用于利用所述目标损失对所述初始下采样模型的模型参数进行更新,得到目标下采样模型。
14.根据权利要求13所述的装置,其特征在于,所述第一获取单元,用于调用初始上采样模型对所述下采样图像进行上采样,得到上采样图像,所述上采样图像为所述训练图像对应的重建图像;基于所述各个第一候选通道分别对应的损失,获取第一监督损失,所述第一监督损失用于对所述下采样图像进行监督;基于所述上采样图像和所述训练图像,获取第二监督损失,所述第二监督损失用于对所述上采样图像进行监督;基于所述第一监督损失和所述第二监督损失,获取所述目标损失。
15.根据权利要求14所述的装置,其特征在于,所述第一获取单元,用于基于所述各个第一候选通道分别对应的损失,获取第一子损失;基于所述上采样图像和所述训练图像之间的残差信息,获取所述第一目标通道对应的监督图像;基于所述下采样图像在所述第一目标通道下对应的图像和所述监督图像之间的像素值差异,获取第二子损失;基于所述第一子损失和所述第二子损失,获取所述第一监督损失。
16.根据权利要求14所述的装置,其特征在于,所述第一获取单元,用于在第二色彩空间中的各个第二候选通道中确定满足关注条件的第三目标通道,将所述各个第二候选通道中除所述第三目标通道外的其他通道作为第四目标通道;基于所述上采样图像在所述第三目标通道下对应的图像和所述训练图像在所述第三目标通道下对应的图像之间的像素值差异,获取所述第三目标通道对应的损失;对所述上采样图像在所述第四目标通道下对应的图像进行池化,得到第三池化图像;对所述训练图像在所述第四目标通道下对应的图像进行池化,得到第四池化图像;基于所述第三池化图像和所述第四池化图像之间的像素值差异,获取所述第四目标通道对应的损失;基于所述第三目标通道对应的损失和所述第四目标通道对应的损失,获取所述第二监督损失。
17.根据权利要求14所述的装置,其特征在于,所述第一获取单元,用于对于各个第二候选通道中的任一通道,基于所述上采样图像在所述任一通道下对应的图像和所述训练图像在所述任一通道下对应的图像之间的像素值差异,获取所述任一通道对应的损失;基于所述各个第二候选通道分别对应的损失,获取所述第二监督损失。
18.根据权利要求14-17任一所述的装置,其特征在于,调用初始上采样模型对所述下采样图像进行上采样的计算量,小于调用初始下采样模型对所述训练图像进行下采样的计算量。
19.根据权利要求18所述的装置,其特征在于,所述初始上采样模型通过对所述初始下采样模型执行缩减模型结构和减少模型参数中的至少一项轻量化操作得到。
20.根据权利要求14-17、19任一所述的装置,其特征在于,所述更新单元,还用于利用所述目标损失对所述初始上采样模型的模型参数进行更新,得到目标上采样模型。
21.根据权利要求13-17、19任一所述的装置,其特征在于,所述各个第一候选通道还包括不满足所述选取条件的第二目标通道,所述第二目标通道对应的损失基于所述下采样图像在所述第二目标通道下对应的图像和所述参考图像在所述第二目标通道下对应的图像之间的像素值差异得到。
22.根据权利要求13-17、19任一所述的装置,其特征在于,所述各个第一候选通道包括纹理通道、第一颜色通道和第二颜色通道,所述第一目标通道为所述第一颜色通道和所述第二颜色通道。
23.一种图像处理装置,其特征在于,所述装置包括:
第二获取单元,用于获取第一图像;
第二下采样单元,用于调用目标下采样模型对所述第一图像进行下采样,得到第二图像;
处理单元,用于对所述第二图像进行处理;
其中,所述目标下采样模型利用如权利要求1-10任一所述的模型训练方法训练得到。
24.根据权利要求23所述的装置,其特征在于,所述处理单元,用于向目标设备发送所述第二图像,所述目标设备用于调用目标上采样模型对所述第二图像进行上采样,得到第三图像,所述第三图像为所述第一图像对应的重建图像。
25.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行,以使所述计算机设备实现如权利要求1至10任一所述的模型训练方法,或者如权利要求11或12所述的图像处理方法。
26.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行,以使计算机实现如权利要求1至10任一所述的模型训练方法,或者如权利要求11或12所述的图像处理方法。
27.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序或计算机指令,所述计算机程序或所述计算机指令由处理器加载并执行,以使计算机实现如权利要求1至10任一所述的模型训练方法,或者如权利要求11或12所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210398075.4A CN115131198B (zh) | 2022-04-12 | 2022-04-12 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210398075.4A CN115131198B (zh) | 2022-04-12 | 2022-04-12 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115131198A CN115131198A (zh) | 2022-09-30 |
CN115131198B true CN115131198B (zh) | 2024-03-22 |
Family
ID=83376342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210398075.4A Active CN115131198B (zh) | 2022-04-12 | 2022-04-12 | 模型训练方法、图像处理方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115131198B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN112949629A (zh) * | 2021-02-25 | 2021-06-11 | 平安科技(深圳)有限公司 | 目标检测方法、装置、计算机设备及可读存储介质 |
CN113256592A (zh) * | 2021-06-07 | 2021-08-13 | 中国人民解放军总医院 | 图像特征提取模型的训练方法、系统及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102148785B (zh) * | 2010-02-05 | 2014-03-12 | 中兴通讯股份有限公司 | 一种lte系统中主同步信号检测与序列生成方法及装置 |
-
2022
- 2022-04-12 CN CN202210398075.4A patent/CN115131198B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111192200A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于融合注意力机制残差网络的图像超分辨率重建方法 |
CN112949629A (zh) * | 2021-02-25 | 2021-06-11 | 平安科技(深圳)有限公司 | 目标检测方法、装置、计算机设备及可读存储介质 |
CN113256592A (zh) * | 2021-06-07 | 2021-08-13 | 中国人民解放军总医院 | 图像特征提取模型的训练方法、系统及装置 |
Non-Patent Citations (1)
Title |
---|
基于浅层空间特征融合与自适应 通道筛选的目标检测方法;陈乔松 等;《江苏大学学报(自然科学版)》;第43卷(第1期);第67-74页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115131198A (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136136B (zh) | 场景分割方法、装置、计算机设备及存储介质 | |
JP7417747B2 (ja) | 超解像度再構築方法及び関連装置 | |
CN110473141B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN110288518B (zh) | 图像处理方法、装置、终端及存储介质 | |
CN108305236B (zh) | 图像增强处理方法及装置 | |
CN111598776B (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN111932463B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111445392B (zh) | 图像处理方法及装置、计算机可读存储介质和电子设备 | |
CN112562019A (zh) | 图像色彩调整方法及装置、计算机可读介质和电子设备 | |
WO2023284401A1 (zh) | 图像美颜处理方法、装置、存储介质与电子设备 | |
CN114820633A (zh) | 语义分割方法、语义分割模型的训练方法、装置及设备 | |
CN113706440A (zh) | 图像处理方法、装置、计算机设备及存储介质 | |
CN114359225A (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN115131199A (zh) | 图像生成模型的训练方法、图像生成方法、装置及设备 | |
CN110807769A (zh) | 图像显示控制方法及装置 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114283299A (zh) | 图像聚类方法、装置、计算机设备及存储介质 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
CN111107357A (zh) | 一种图像处理的方法、装置及系统 | |
CN115131198B (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
CN111539353A (zh) | 一种图像场景识别方法及装置、计算机设备以及存储介质 | |
CN113822955B (zh) | 图像数据处理方法、装置、计算机设备及存储介质 | |
CN115223221A (zh) | 人脸检测方法、装置、电子设备和存储介质 | |
CN115330610A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN114494835A (zh) | 目标检测方法、装置和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |