CN116977343A - 图像处理方法、装置、设备、存储介质及程序产品 - Google Patents
图像处理方法、装置、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN116977343A CN116977343A CN202211349174.XA CN202211349174A CN116977343A CN 116977343 A CN116977343 A CN 116977343A CN 202211349174 A CN202211349174 A CN 202211349174A CN 116977343 A CN116977343 A CN 116977343A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- feature
- processing
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 38
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 239
- 238000005070 sampling Methods 0.000 claims abstract description 139
- 238000000605 extraction Methods 0.000 claims abstract description 111
- 238000000034 method Methods 0.000 claims abstract description 88
- 238000013473 artificial intelligence Methods 0.000 claims abstract description 43
- 238000007499 fusion processing Methods 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 120
- 230000004913 activation Effects 0.000 claims description 101
- 230000004927 fusion Effects 0.000 claims description 89
- 230000000875 corresponding effect Effects 0.000 claims description 85
- 230000008569 process Effects 0.000 claims description 48
- 238000001228 spectrum Methods 0.000 claims description 45
- 238000010586 diagram Methods 0.000 claims description 44
- 230000015654 memory Effects 0.000 claims description 23
- 230000001902 propagating effect Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015556 catabolic process Effects 0.000 claims description 7
- 238000006731 degradation reaction Methods 0.000 claims description 7
- 238000011282 treatment Methods 0.000 claims description 7
- 230000002596 correlated effect Effects 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 18
- 238000001994 activation Methods 0.000 description 91
- 230000006870 function Effects 0.000 description 46
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 17
- 238000011084 recovery Methods 0.000 description 16
- 230000008447 perception Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 11
- 230000008707 rearrangement Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 239000000463 material Substances 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000003709 image segmentation Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本申请提供了一种基于人工智能的图像处理方法、装置、电子设备、存储介质及程序产品;方法包括:对第一图像进行均等分割处理,得到多个第二图像,对多个第二图像在图像通道维度上进行拼接处理,得到第三图像;对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图;对多个深度层级的第二特征图进行相加处理,得到第三特征图,对第三特征图进行残差特征提取处理,得到第四特征图;对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像。通过本申请能够提高图像超分感知效果。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
相关技术中使用深度学习技术实现图像的超分感知,但是申请人在实施本申请实施例时发现相关技术中图像生成器对于细节信息的恢复能力比较弱,从而会丢失原图中的高频细节信息,并且产生影响观感的伪影。
发明内容
本申请实施例提供一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够提高图像超分感知效果。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的图像处理方法,包括:
对第一图像进行均等分割处理,得到多个第二图像,并对所述多个第二图像在图像通道维度上进行拼接处理,得到第三图像;
对所述第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个所述深度层级的第一特征图,对每个所述深度层级的第一特征图分别进行多倍上采样处理,得到每个所述深度层级的第二特征图;
对多个所述深度层级的第二特征图进行相加处理,得到第三特征图,并对所述第三特征图进行残差特征提取处理,得到第四特征图;
对所述第四特征图以及每个所述深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,其中,所述第四图像的分辨率高于所述第一图像的分辨率。
本申请实施例提供一种基于人工智能的图像处理装置,包括:
获取模块,用于对第一图像进行均等分割处理,得到多个第二图像,并对所述多个第二图像在图像通道维度上进行拼接处理,得到第三图像;
特征模块,用于对所述第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个所述深度层级的第一特征图,对每个所述深度层级的第一特征图分别进行多倍上采样处理,得到每个所述深度层级的第二特征图;
残差模块,用于对多个所述深度层级的第二特征图进行相加处理,得到第三特征图,并对所述第三特征图进行残差特征提取处理,得到第四特征图;
融合模块,用于对所述第四特征图以及每个所述深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,其中,所述第四图像的分辨率高于所述第一图像的分辨率。
对第一图像进行均等分割处理,得到多个第二图像,并对所述多个第二图像在图像通道维度上进行拼接处理,得到第三图像;
对所述第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个所述深度层级的第一特征图,对每个所述深度层级的第一特征图分别进行多倍上采样处理,得到每个所述深度层级的第二特征图;
对多个所述深度层级的第二特征图进行相加处理,得到第三特征图,并对所述第三特征图进行残差特征提取处理,得到第四特征图;
对所述第四特征图以及每个所述深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,其中,所述第四图像的分辨率高于所述第一图像的分辨率。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的图像处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于被处理器执行时,实现本申请实施例提供的基于人工智能的图像处理方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时,实现本申请实施例提供的基于人工智能的图像处理方法。
本申请实施例具有以下有益效果:
通过本申请实施例将待处理的第一图分割为更小分辨率的子图像并提取多种不同深度层级的特征,并对提取的不同深度层级的特征执行多倍上采样处理,最后将前面提取的特征逐步进行基于多倍上采样机制的融合处理,得到分辨率提升后的第四图像,可以实现高频细节信息恢复能力,并且减轻伪影现象。
附图说明
图1是本申请实施例提供的基于人工智能的图像处理系统的结构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A-图3C是本申请实施例提供的基于人工智能的图像处理方法的流程示意图;
图4是本申请实施例提供的基于人工智能的图像处理装置的模块示意图;
图5是本申请实施例提供的基于人工智能的图像处理方法的流程示意图;
图6是本申请实施例提供的基于人工智能的图像处理方法的生成器的结构示意图;
图7是本申请实施例提供的基于人工智能的图像处理方法的判别器示意图;
图8是本申请实施例提供的基于人工智能的图像处理方法的判别器示意图的特征提取示意图;
图9是本申请实施例提供的基于人工智能的图像处理方法的应用流程图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)模型推理:是深度学习中获取模型预测结果的图像处理过程。
2)卷积神经网络,是一类包括卷积计算且具有深度结构的前馈神经网络,人工神经元可以响应周围单元,卷积神经网络包括卷积层和池化层。
3)超分辨率过程(Super Resolution),由一幅或多幅低分辨率图像重建得到高分辨率图像的过程。
4)低分辨率图像(ILR,Low Resolution Image):指分辨率低的图像,即通过人的感知清晰度低且质量较差的图像。
5)高分辨率图像(IHR,High Resolution Image),指分辨率高的图像,即通过人的感知清晰度高且质量较好的图像。
6)超分辨率图像(ISR,Super Resolution Image),通过超分辨率重建方法由低分辨率图像提升得到的高分辨率图像。
7)生成式对抗网络(GAN,Generative Adversarial Networks),是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块:生成器和判别模型的互相博弈学习产生相当好的输出。
超分任务旨在输入低分辨率图像,从而可以输出超分辨率图像,以逼近真实的超分辨率图像的效果。早期超分领域主要采用预测方式,具体是根据已知像素集合预测未知像素从而提升图像的分辨率,例如最近邻插值、兰索斯插值、双三次插值等算法,该类方式实现简单、运算速度较快,但过于简化超分重建的过程,得到的超分辨率图像往往过于平滑,缺少细节信息,不符合人对高分辨率图像的感知需求;相关技术中还可以采取基于建模的方式,具体是对成对的低分辨率图像和高分辨率图像进行编码,根据先验信息建立二者之间的映射关系,该类方法虽然相比插值算法精度较高,但存在实现难度大、泛化能力差等问题。此外,基于深度学习的超分方法通常只训练并使用以三通道图像为输入和输出的超分网络。在处理四通道图像时往往需要对第四通道进行单独处理,在超分问题上缺乏灵活性和精度。现有超分方法支持的图像格式一般为PNG、JPEG、BMP等,对图像存储格式TGA的支持度不够,而TGA格式在贴图领域应用广泛,在对老旧游戏素材进行更新复用时使用四通道图像超分技术能大大降低人力和时间成本。
基于深度学习的超分方案仍存在细节信息恢复不够充分、可能产生影响观感的伪影等缺陷,导致人对超分辨率图像的感知清晰度降低,本申请实施例采用基于对抗网络的架构完成超分任务,对低分辨率图像进行多倍分辨率提升。为提高低分辨率的感知效果,提出一种新型生成器结构和新型判别器结构。相比相关技术得到的超分辨率图像拥有更好的高频细节信息恢复效果,同时减轻了伪影现象,使得超分辨率图像更加符合人的感知需求。具体来说,新型生成器强化了图像的细节信息恢复能力,以更小的粒度完成超分任务,得到的超分辨率图像细节更充分、伪影现象更少。新型的判别器增强了对图像细节部分的区分能力,使用该判别器约束生成器训练能够有效提升生成器对高频细节信息的恢复效果。这两种新型结构配合训练,能有效提高超分任务所得的超分辨率图像的感知效果,与真实的超分辨率图像更加接近。并且,基于深度学习的超分方法通常只训练以三通道图像作为输入的网络,未将四通道图像直接用于网络训练和推断,对于四通道图像的超分处理不够灵活。本申请实施例能够根据图像格式提供适配通道数的生成网络,无需对第四个通道(一般为Alpha通道)进行单独处理,支持对TGA格式的图像进行超分,支持的图像格式更加丰富,在处理四通道图像超分问题上更具灵活性和精度。
本申请实施例提供一种基于人工智能的图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在准确降噪的同时保留纹理细节,从而优化降噪效果。
参见图1,图1是本申请实施例提供的基于人工智能的图像处理系统的结构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,本申请实施例提供的基于人工智能的图像处理方法可以由终端与服务器协同实施,终端400接收用户上传的第一图像,终端400将第一图像发送至服务器200,服务器200对第一图像进行均等分割处理,得到多个第二图像,对多个第二图像在图像通道维度上进行拼接处理,得到第三图像;对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图;对多个深度层级的第二特征图进行相加处理,得到第三特征图,对第三特征图进行残差特征提取处理,得到第四特征图;对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,服务器200将第四图像(生成的超分辨率图像)返回至终端400,在终端400上呈现超分辨率图像。
在一些实施例中,本申请实施例提供的基于人工智能的图像处理方法还可以由终端或服务器单独实施,以终端单独实施为例进行说明,终端400接收用户上传的第一图像,终端400对第一图像进行均等分割处理,得到多个第二图像,对多个第二图像在图像通道维度上进行拼接处理,得到第三图像;对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图;对多个深度层级的第二特征图进行相加处理,得到第三特征图,对第三特征图进行残差特征提取处理,得到第四特征图;对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,在终端400上呈现第四图像(生成的超分辨率图像)。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的图像处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Applic ation),即需要在操作系统中安装才能运行的程序,视频APP、直播APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,该电子设备可以是终端或服务器,在本申请实施例中,以该电子设备为终端为例进行说明。图2所示的终端400包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他电子设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的基于人工智能的图像处理装置可以采用软件方式实现,图2示出了存储在存储器450中的基于人工智能的图像处理装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、特征模块4552、残差模块4553、融合模块4554以及训练模块4555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
参见图3A,图3A是本申请实施例提供的基于人工智能的图像处理方法的流程示意图,将结合图3A示出的步骤进行说明,图3A示出的步骤可以由电子设备执行。
在步骤101中,对第一图像进行均等分割处理,得到多个第二图像,并对多个第二图像在图像通道维度上进行拼接处理,得到第三图像。
作为示例,第一图像是待处理的低分辨率图像,低分辨率图像的分辨率低于分辨率阈值,对输入的低分辨率图像进行分割操作,得到四张1/2倍分辨率(长、宽均为原图的一半)的第二图像。分割规则依照像素在行和列排布上的奇偶性,四张子图像分别取原图的奇数行、奇数列;偶数行、奇数列;偶数行、偶数列;奇数行、偶数列上的像素构成图像。随后将四张第二图像在通道维度上进行拼接,得到第三图像。
作为示例,第一图像还可以是对待处理的低分辨率图像进行预处理得到的,即对低分辨率图像进行归一化、预填充等操作。
在步骤102中,对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图。
作为示例,基于多个深度层级的卷积特征提取处理可以提取出不同深度层级的特征,是基于与多个深度层级一一对应的卷积网路实现的,以3个深度层级为例进行说明,通过3个卷积网络分别对第三图像进行卷积特征提取处理,分别得到3个深度层级的第一特征图,再对3个深度层级的第一特征图分别进行多倍上采样处理,得到3个深度层级的第二特征图。
在步骤103中,对多个深度层级的第二特征图进行相加处理,得到第三特征图,并对第三特征图进行残差特征提取处理,得到第四特征图。
承接上述示例,将3个深度层级的第二特征图的相加结果作为第三特征图,并对第三特征图进行残差特征提取处理,从而可以得到更深层级的特征,所得到的第四特征图可以承载第一图像的高层特征信息。
在步骤104中,对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,其中,第四图像的分辨率高于第一图像的分辨率。
作为示例,使用承载高层特征信息的第四特征图对低分辨率图像进行上采样处理,并在上采样过程中逐步融合不同深度层级的细节信息,从而得到第四图像。
通过本申请实施例将待处理的第一图分割为更小分辨率的子图像并提取多种不同深度层级的特征,并对提取的不同深度层级的特征执行多倍上采样处理,最后将前面提取的特征逐步进行基于多倍上采样机制的融合处理,得到分辨率提升后的第四图像,可以实现高频细节信息恢复能力,并且减轻伪影现象。
在一些实施例中,步骤102中基于多个深度层级的卷积特征提取处理是通过调用多层级卷积网络实现的,多层级卷积网络包括与多个深度层级一一对应的卷积网络,例如包括卷积网络A、卷积网络B和卷积网络C,步骤102中对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,可以通过以下技术方案实现:针对每个卷积网络,通过卷积网络对第三图像进行卷积特征提取处理,得到与卷积网络的深度层级对应的第一特征图,即每个卷积网络输出的第一特征图的深度层级各不相同。通过本申请实施例可以通过并行网络计算出各个深度层级的第一特征图,有效提高模型推导效率。
在一些实施例中,每个卷积网络包括至少一个级联卷积层以及一个激活层,卷积网络包括的卷积层的数目与对应卷积网络的深度层级的深度正相关;即卷积层的数目越多则卷积网络的深度层级的深度越大,仅包括一个卷积层和一个激活层的卷积网络的深度层级的深度最小,上述通过卷积网络对第三图像进行卷积特征提取处理,得到与卷积网络的深度层级对应的第一特征图,可以通过以下技术方案实现:当卷积网络包括一个级联卷积层时,通过卷积网络的级联卷积层对第三图像进行第一卷积处理,得到第一卷积结果,通过激活层对第一卷积结果进行第一激活处理,得到与卷积网络的深度层级对应的第一特征图;当卷积网络包括N个级联卷积层时,通过第n级联卷积层,对第n级联卷积层的输入进行第n级联卷积处理,得到第n级联卷积结果,将第n级联卷积结果传输到第n+1级联卷积层以继续进行第n+1级联卷积处理,通过激活层对第N级联卷积结果进行第一激活处理,得到与卷积网络的深度层级对应的第一特征图;其中,N的取值范围满足2≤N,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,第n级联卷积层的输入是第三图像,当n取值为2≤n≤N-1时,第n级联卷积层的输入是第n-1卷积层输出的第n-1级联卷积结果。通过本申请实施例的级联处理方式可以可视化控制第一特征图的深度层级,例如级联卷积层的数目越多表征深度层级的深度越大,可以提高模型的可解释性。
承接上述示例,卷积网络A仅包括一个卷积层以及一个激活层,卷积层的卷积核大小为1×1,过滤器数目为64;卷积网络B包括两个卷积层(N为2)以及一个激活层,卷积层B1的卷积核大小为1×1,卷积层B1的过滤器数目为32,卷积层B2的卷积核大小为3×3,卷积层B2的过滤器数目为64;两个卷积层是级联的关系,通过卷积层B1对第三图像执行卷积处理(第1级联卷积处理),得到第1级联卷积结果,通过卷积层B2对第1级联卷积结果执行卷积处理(第2级联卷积处理),得到第2级联卷积结果,第2级联卷积结果即为第N级联卷积结果,通过激活层对第N级联卷积结果进行第一激活处理,得到与卷积网络的深度层级对应的第一特征图,通过激活层执行的第一激活处理是使用SiLU激活函数进行激活处理。
在一些实施例中,多倍上采样处理是通过调用上采样网络实现的,上采样网络包括上采样卷积层以及替换层,参见图3B,步骤102中对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图,可以通过图3B示出的步骤1021至步骤1022。
在步骤1021中,通过上采样网络的上采样卷积层对每个深度层级的第一特征图分别进行第二卷积处理,得到每个深度层级的多个上采样特征图。
在步骤1022中,通过替换层针对每个深度层级的第一特征图执行以下处理:针对第一特征图的多个上采样特征图中任意一个相同位置执行以下处理:,获取多个上采样特征图中对应相同位置的像素值;对多个上采样特征图中对应相同位置的像素值进行组合处理;利用组合结果替换第一特征图中对应相同位置的像素值;将每个位置经过替换的第一特征图作为第二特征图。
作为示例,将第一特征图通过一个卷积核大小为3×3,过滤器数目为第一特征图的通道数四倍的上采样卷积层,得到4个新的特征图,随后在第一特征图的每个像素的原位置使用4个新的特征图的对应位置的像素值重新排列以替换,从而实现两倍分辨率提升。
在一些实施例中,残差特征提取处理是通过调用第一残差网络实现的,第一残差网络包括M个残差子网络,步骤103中对第三特征图进行残差特征提取处理,得到第四特征图,可以通过以下技术方案实现:通过M个级联的残差子网络中的第m残差子网络,对第m残差子网络的输入进行第m残差处理,得到第m残差结果,将第m残差结果传输到第m+1残差子网络以继续进行第m+1残差处理;将第M残差子网络输出的第M残差结果作为第四特征图;其中,M的取值范围满足2≤M,m为取值从1开始递增的整数,且m的取值范围满足1≤m≤M-1;当m取值为1时,第m残差子网络的输入是第三特征图,当m取值为2≤m≤M-1时,第m残差子网络的输入是第m-1残差子网络输出的第m-1残差结果。通过本申请实施例可以进行级联的残差处理,从而有效强化残差处理特性,保证图像的细节信息不丢失,提高图像恢复的准确度。
作为示例,以第一残差网络包括两个残差子网络为例进行说明,第1残差子网络对第三特征图进行第1残差处理,得到第1残差结果,通过第2残差子网络对第1残差结果进行第2残差处理,得到第2残差结果,并将第2残差结果作为第四特征图。
在一些实施例中,上述通过M个级联的残差子网络中的第m残差子网络,对第m残差子网络的输入进行第m残差处理,得到第m残差结果,可以通过以下技术方案实现:通过第m残差子网络对第m残差子网络的输入执行以下处理:对第m-1残差结果进行第三卷积处理,得到对应第m残差子网络的残差卷积结果;对残差卷积结果进行第二激活处理,得到对应第m残差子网络的激活结果;将对应第m残差子网络的激活结果与第m-1残差结果进行求和处理,得到第m残差结果。通过本申请实施例可以更加全面的保留图像的细节信息,从而提高图像恢复的准确度。
作为示例,第三卷积处理过程中所使用的卷积核的尺寸是大小为3×3,过滤器数目为32,第二激活处理是利用LeakyReLU激活函数实现的。
在一些实施例中,深度层级的数目为P,多个深度层级包括第p深度层级,P的取值范围满足2≤P,p为取值从1开始递增的整数,且p的取值范围满足1≤p≤P,p的取值与深度层级的深度正相关;参见图3C,步骤104中对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,可以通过图3C示出的步骤1041至步骤1044实现。
在步骤1041中,对第四特征图进行第四卷积处理,得到第四卷积结果。
在步骤1042中,对第P深度层级的第二特征图与第四卷积结果进行求和处理,得到第一求和结果。
在步骤1043中,通过Q个级联的融合网络中的第q个融合网络,对第q融合网络的输入进行基于所述多倍上采样机制的第q融合处理,得到第q融合结果,将第q融合结果传输到第q+1融合网络以继续进行基于所述多倍上采样机制的第q+1融合处理。
作为示例,Q的取值为P-1,q为取值从1开始递增的整数,且q的取值范围满足1≤q≤Q-1;当q取值为1时,第q融合网络的输入是第一求和结果以及第P-1深度层级的第二特征图,当q取值为2≤q≤Q-1时,第q融合网络的输入是第q-1融合网络输出的第q-1融合结果以及第P-q深度层级的第二特征图。
在一些实施例中,当q取值为1时,对第q融合网络的输入进行基于所述多倍上采样机制的第q融合处理,得到第q融合结果,可以通过以下技术方案实现:对第一求和结果进行多倍上采样处理,得到第一上采样结果;对第P-1深度层级的第二特征图进行多倍上采样处理,得到第二上采样结果;对第一上采样结果与第二上采样结果进行求和处理,得到第二求和结果;对第二求和结果进行第一激活处理,得到对应第q融合网络的激活结果;对对应第q融合网络的激活结果进行第四卷积处理,得到第五卷积结果,并将第五卷积结果作为第q融合结果。通过本申请实施例可以逐级融合不同深度层级的第二特征图,从而更加全面的保留图像的细节信息,从而提高图像恢复的准确度。
作为示例,多倍上采样处理的过程可以参见步骤102中所涉及到的多倍上采样处理的过程,第一激活处理是采用SiLU激活函数执行的激活处理,第四卷积处理对应的卷积核大小为3×3、过滤器数目为64、卷积步长为1。
在一些实施例中,当q取值为2≤q≤Q-1时,上述对第q融合网络的输入进行基于多倍上采样机制的第q融合处理,得到第q融合结果,可以通过以下技术方案实现:对第P-q深度层级的第二特征图进行多倍上采样处理,得到第三上采样结果;对第三上采样结果与对第q-1融合结果进行求和处理,得到第四求和结果;对第四求和结果进行多倍上采样处理,得到第四上采样结果,对第四上采样结果进行第一激活处理,得到对应第q融合网络的激活结果;对对应第q融合网络的激活结果进行第四卷积处理,得到第五卷积结果,并将第五卷积结果作为第q融合结果。
在步骤1044中,对第Q融合网络输出的第Q融合结果进行分辨率输出处理,得到第四图像。
在一些实施例中,分辨率输出处理是通过分辨率输出网络实现,步骤1044中对第Q融合网络输出的第Q融合结果进行分辨率输出处理,得到第四图像,可以通过以下技术方案实现:对第Q融合结果进行第一激活处理,得到对应分辨率输出网络的激活结果;对对应分辨率输出网络的激活结果进行第四卷积处理,得到第六卷积结果,并对第六卷积结果进行第五卷积处理,得到第七卷积结果;对第七卷积结果进行恢复处理,得到第四图像。通过本申请实施例可以强化了图像的细节信息恢复能力,以更小的粒度完成超分任务。
作为示例,第一激活处理是采用SiLU激活函数执行的激活处理,第四卷积处理对应的卷积核大小为3×3、过滤器数目为64、卷积步长为1,第五卷积处理对应的卷积核大小为3×3、过滤器数目为3。
作为示例,恢复处理是对预处理中所做的归一化、预填充等操作进行恢复,解除相应操作带来的副效应。若需要对低分辨率图像进行二或八倍的分辨率提升,本步骤将对超分辨率图像采用双三次插值采样等方法进行分辨率的调整。
在一些实施例中,对第一图像进行均等分割处理,得到多个第二图像之前,对第一图像进行解码处理,得到第一图像的像素信息;对第一图像的像素信息进行格式分析处理,得到第一图像的通道数目;获取与通道数目匹配的生成器,其中,生成器用于被调用以实现图像处理方法。通过本申请实施例提高处理四通道图像超分问题上的灵活性和精度。
作为示例,生成器用于被调用以实现图像处理方法,即执行步骤101至步骤104。从指定路径单张或批量读取待处理的低分辨率图像,解码得到像素信息。从像素信息中分析低分辨率图像的图像文件格式,以获取适配的对应通道数匹配的生成器。适配不同通道的生成器是基于通道数不同的训练样本集合训练得到的。
在一些实施例中,对第一图像进行均等分割处理,得到多个第二图像之前,获取第一图像样本,并对第一图像样本进行分辨率下降处理,得到第二图像样本;基于第一图像样本以及第二图像样本对初始化的生成器进行预训练;将经过预训练的生成器以及初始化的判别器组成对抗生成器;基于第一图像样本以及第二图像样本对对抗生成器进行训练;将经过训练的对抗生成器中的生成器作为实现图像处理方法的生成器。通过本申请实施例可以预训练生成器,从而提高生成器的训练效率以及训练效果。
作为示例,对输入的高分辨率图像进行预处理,构建训练数据对样本(第一图像样本和第二图像样本)。具体而言,对高分辨率图像进行随机裁剪,将分辨率限制为400×400。对高分辨率图像使用镜像、旋转等操作进行数据增强。对高分辨率图像进行归一化、锐化,并采用高阶退化算法,将高分辨率图像进行两次具有随机性的模糊化、插值上下采样、注入噪声、JPEG压缩等操作,输出分辨率为100×100的低分辨率图像。对高分辨率图像和低分辨率图像再次进行随机裁剪,得到256×256分辨率的高分辨率图像(第一图像样本)和对应的64×64分辨率的低分辨率图像(第二图像样本)作为训练数据对样本,将低分辨率图像作为生成器的输入。得到训练数据对样本之后,首先针对生成器进行预训练,再将预训练得到的生成器与判别器组成对抗生成器,再利用训练数据对样本对对抗生成器进行训练,将经过训练的对抗生成器中的生成器作用执行步骤101至步骤104的生成器。
在一些实施例中,基于第一图像样本以及第二图像样本对初始化的生成器进行预训练,可以通过以下技术方案实现:将第二图像样本在初始化的生成器中进行正向传播,得到对应第二图像样本的第三图像样本;基于第三图像样本以及第一图像样本之间的像素差异,确定第一生成损失,并获取第一生成损失收敛时的第一参数变化值;基于第一参数变化值更新初始化的生成器。通过本申请实施例可以评估超分辨率图像和高分辨率图像在像素上的平均逼近程度,从而提高生成器的图像恢复效果。
作为示例,使用第一生成损失约束生成器预训练至指定迭代次数,使生成器在正式训练之前得到初步收敛,预训练仅对生成器进行,判别器不参与预训练过程,生成器的预训练损失函数参见公式(1):
其中,xi表示输入生成器的低分辨率图像(第二图像样本),G表示将括号内的内容通过生成器得到超分分辨率图像(第三图像样本),y表示对应的真实高分辨率图像(第一图像样本),表示多个训练数据对样本得到的像素差异的期望。生成器的损失函数LG(第一生成损失)由上述公式(1)定义。基于重建得到的超分辨率图像G(xi)和真实高分辨率图像y之间的1-范数距离,评估超分辨率图像和高分辨率图像在像素上的平均逼近程度。
预训练的批量训练尺寸为24,使用Adam优化器优化生成器的参数,预训练过程中参数设置β1为0.9,β2为0.999,前20万训练数据对样本的学习率为0.0003,后20万训练数据对样本的学习率为0.0002。训练过程中通过观察LG的变化情况来判断生成器的收敛情况。预训练得到的生成器将用于对抗网络训练中生成器的初始参数分配。
在一些实施例中,上述基于第一图像样本以及第二图像样本对对抗生成器进行训练,可以通过以下技术方案实现:将第二图像样本在经过预训练的生成器中进行正向传播,得到对应第二图像样本的第四图像样本;将第四图像样本以及第一图像样本在判别器中进行正向传播,得到将第四图像样本识别为第一图像样本的第一概率以及将第一图像样本识别为第四图像样本的第二概率;基于第一概率以及第二概率,确定对应生成器的判别损失以及对应判别器的判别损失;获取对应判别器的判别损失时,判别器的第二参数变化值,并基于第二参数变化值更新判别器;基于第四图像样本与第一图像样本之间的像素差异,确定第二生成损失,基于第四图像样本与第一图像样本之间的特征差异,确定第三生成损失,将第二生成损失、第三生成损失与对应生成器的判别损失进行融合处理,得到融合生成损失;获取融合生成损失收敛时,对抗生成器中的生成器的第三参数变化值,并基于第三参数变化值更新对抗生成器中的生成器。通过本申请实施例可以交替训练生成器以及判别器,从而利用判别器有效提高生成器的训练效果。
作为示例,生成器的参数更新过程与判别器的参数更新过程是交替进行的,首先读取预训练的生成器,随后交替训练生成器和判别器,生成器学习生成质量更高、真实性更强的超分辨率图像(第四图像样本),判别器区分生成器生成的超分辨率图像(第四图像样本)和真实的高分辨率图像(第一图像样本)。判别损失函数用于评估判别器对超分辨率图像(第四图像样本)和高分辨率图像(第一图像样本)的区分能力,生成器和判别器在训练中相互对抗,前者试图令判别损失(第三求和结果)最大化,后者令判别损失(第三求和结果)最小化。同时,为了限制生成器生成的超分辨率图像拥有更好的超分感知效果,生成器的损失函数还包括像素损失和使用VGG19网络计算得到的感知损失。
训练判别器时,需冻结生成器的权重参数,判别器的优化目标为最小化判别器的判别损失,判别器的判别损失参见公式(2):
其中,判别损失函数LD包括判别器将超分辨率图像(第四图像样本)当作高分辨率图像(第二图像样本)的损失以及判别器将高分辨率图像(第二图像样本)当作超分辨率图像(第四图像样本)的损失。xhr表示输入判别器的高分辨率图像分布(第二图像样本),xsr表示输入判别器的超分辨率图像(第四图像样本)。D(xhr,xsr)计算判别器将高分辨率图像当作超分辨率图像的概率,表示基于多个训练数据对计算得到的log(D(xhr,xsr))的期望,D(xsr,xhr)的计算类似。
训练生成器时,需冻结判别器的权重参数,生成器损失函数包括像素损失、判别损失和感知损失三部分。生成器的优化目标为最大化判别器的判别损失,通过提升生成器生成的超分辨率图像在判别器处获得的真实性评分来优化生成器的超分效果,生成器的判别损失形式与基本LD相同,区别是生成器的优化目标相反,为方便使用梯度下降法训练,生成器的判别损失函数参见公式(3):
其中,生成器的判别损失LD包括判别器将超分辨率图像(第四图像样本)当作高分辨率图像(第二图像样本)的损失以及判别器将高分辨率图像(第二图像样本)当作超分辨率图像(第四图像样本)的损失。xhr表示输入判别器的高分辨率图像分布(第二图像样本),xsr表示输入判别器的超分辨率图像(第四图像样本)。D(xhr,xsr)计算判别器将高分辨率图像当作超分辨率图像的概率,表示基于多个训练数据对计算得到的log(1-D(xhr,xsr))的期望,D(xsr,xhr)的计算类似。
像素损失与预训练损失相同,基于重建图像G(xi)和高分辨率图像y之间的1-范数距离,以此评估超分辨率图像和高分辨率图像在像素上的平均逼近程度,参见公式(4):
其中,xi表示输入生成器的低分辨率图像(第二图像样本),G表示将括号内的内容通过生成器得到超分分辨率图像(第四图像样本),y表示对应的真实高分辨率图像(第一图像样本),表示多个训练数据对样本得到的像素差异的期望。生成器的损失函数LG(第二生成损失)由上述公式(4)定义。基于重建得到的超分辨率图像G(xi)和真实高分辨率图像y之间的1-范数距离,评估超分辨率图像和高分辨率图像在像素上的平均逼近程度。
感知损失通过引入使用ImageNet数据集预训练的VGG19网络计算,感知损失参见公式(5):
其中,VGG表示对括号内的图像由指定层输出的特征提取结果,因而感知损失实际上是基于重建图像G(xi)和高分辨率图像y的高层级特征之间的1-范数距离,以此来评估超分辨率图像(第四图像样本)和高分辨率图像(第一图像样本)在人的感知上的接近程度。
最后生成器的融合生成损失为判别损失、像素损失、感知损失三部分的加权和,参见公式(6):
LG=αLGAN+βLPixel+γLPercep (6);
综合考虑由上式计算出的各损失函数数值之间的数量级差异以及通过实验得出的有效性,将损失函数权重设置为:α=0.1,β=1,γ=1。综上所述,生成器训练的融合生成损失为LG,判别器训练的判别损失函数为LD。
训练的批量训练尺寸为24,使用Adam优化器优化生成器的参数,训练过程中参数设置β1为0.9,β2为0.999,训练样本的学习率为0.0002。训练过程中通过观察损失函数的变化情况来判断生成器以及判别器的收敛情况,本申请实施例按照一定频率输出测试图像的超分结果的方式来观察网络训练的有效性。
在一些实施例中,上述将第四图像样本以及第二图像样本在判别器中进行正向传播,得到将第四图像样本识别为第一图像样本的第一概率以及将第一图像样本识别为第四图像样本的第二概率,可以通过以下技术方案实现:将第四图像样本在判别器中进行正向传播,得到将第四图像样本识别为第一图像样本的第一概率;将第二图像样本在判别器中进行正向传播,得到将第一图像样本识别为第四图像样本的第二概率。通过本申请实施例可以从两个维度来评估判别器的判断能力,从而提高判别器的训练效果。
在一些实施例中,判别器包括头部处理网络、特征级联网络以及尾部处理网络,上述将第四图像样本在判别器中进行正向传播,得到将第四图像样本识别为第一图像样本的第一概率,可以通过以下技术方案实现:通过头部处理网络对第四图像样本进行头部特征提取处理,得到第四图像样本的头部特征图;通过特征级联网络对头部特征图进行级联特征提取处理,得到第四图像样本的级联特征图;通过尾部处理网络对级联特征进行尾部特征提取处理,得到第四图像样本的判别特征图,第四图像样本的判别特征图包括每个像素被识别为属于第一图像样本的第一概率。通过本申请实施例可以加强细节判断能力,有助于生成器学习出更强的图像细节纹理恢复能力。
作为示例,头部特征提取处理是对超分辨率图像(第四图像样本)或高分辨率图像(第一图像样本)进行初步特征提取,级联特征提取处理是基于初步特征提取结果继续提取更深层次的特征,例如边缘特征、区域特征,尾部特征提取处理是基于级联特征提取结果继续提取进一步学习特征并输出用于计算判别损失的特征图。
在一些实施例中,特征级联网络包括R个特征网络,上述通过特征级联网络对头部特征图进行级联特征提取处理,得到第四图像样本的级联特征图,可以通过以下技术方案实现:通过R个级联的特征网络中的第r个特征网络,对第r特征网络的输入进行第r局部特征提取处理,得到第r局部特征结果,将第r局部特征结果传输到第r+1特征网络以继续进行第r+1局部特征提取处理;其中,R的取值范围满足2≤R,r为取值从1开始递增的整数,且r的取值范围满足2≤r≤R-1;当r取值为1时,第r特征网络的输入是头部特征图,当r取值为2≤r≤R-1时,第r特征网络的输入是第r-1特征网络输出的第r-1局部特征提取结果,第R特征网络的输出是第四图像样本的级联特征图。通过级联的方式可以有效加强对边缘特征、区域特征的提取,从而提高判别器的判别能力。
作为示例,以R为3进行说明,通过3个级联的特征网络中的第1个特征网络,对头部特征图进行第1局部特征提取处理,得到第1局部特征结果,将第1局部特征结果传输到第2特征网络以继续进行第2局部特征提取处理,得到第2局部特征结果,将第2局部特征结果传输到第32特征网络以继续进行第3局部特征提取处理,得到第3局部特征提取结果,作为第四图像样本的级联特征图。
在一些实施例中,上述通过R个级联的特征网络中的第r个特征网络,对第r特征网络的输入进行第r局部特征提取处理,得到第r局部特征结果,可以通过以下技术方案实现:对第r特征网络的输入进行多阶特征提取处理,得到多阶特征结果;对多阶特征结果进行谱激活残差处理,得到谱激活残差特征;对谱激活残差特征进行谱激活处理,得到谱激活特征;对谱激活特征进行第六卷积处理,得到第八卷积结果;将第r特征网络的输入与第八卷积结果相加,得到第r局部特征结果。
作为示例,参见图7,多阶特征提取处理是通过图7所示的TDB级联模块中的四阶特征提取主模块实现的,谱激活残差处理是通过图7所示的TDB级联模块中的残差块实现的,谱激活处理是通过图7所示的TDB级联模块中的谱激活层实现的,第六卷积处理是通过图7所示的TDB级联模块中的卷积层实现的。残差块由三级级联谱激活层和跳接层构成;三级级联谱激活层由三个谱激活层构成;跳接层由一个条件卷积层构成,即满足某种条件进行卷积操作,不满足则不进行操作。谱激活层由卷积层、谱标准化操作以及激活层构成。以上残差块、谱激活层、卷积层中涉及到的卷积层的卷积核大小为3×3,且卷积步长为1。
在一些实施例中,多阶特征提取处理是通过调用多阶特征网络实现的,多阶特征网络包括S个下采样网络、T个上采样网络以及第二残差网络,上述对第r特征网络的输入进行多阶特征提取处理,得到多阶特征结果,可以通过以下技术方案实现:通过S个级联的下采样网络对第r特征网络的输入依次进行多次下采样处理,得到下采样结果;通过第二残差网络对下采样结果进行级联残差处理,得到级联残差特征;通过T个上采样网络对级联残差特征与每个下采样网络的输入进行融合上采样处理,得到多阶特征结果。通过级联的方式可以有效加强对边缘特征、区域特征的提取,从而提高判别器的判别能力。
作为示例,参见图8,图8示出了4个下采样网络以及4个上采样网络、每个下采样网络包括一个下采样层以及一个二级级联残差层1,每个上采样网络包括一个上采样层以及一个二级级联残差层3,第二残差网络是用于连接下采样网络与上采样网络的二级级联残差层2,二级级联残差层1、2、3都是由两个残差块构成。残差块由三级级联谱激活层和跳接层构成;三级级联谱激活层由三个谱激活层构成;跳接层由一个条件卷积层构成,即满足某种条件进行卷积操作,不满足则不进行操作。本申请实施例中的每个上采样网络的上采样层的处理过程与2-US结构的处理过程相同。
在一些实施例中,上述通过S个级联的下采样网络对第r特征网络的输入依次进行多次下采样处理,得到下采样结果,可以通过以下技术方案实现:通过S个级联的下采样网络中的第s个下采样网络,对第s下采样网络的输入进行第s级联下采样处理,得到第s级联下采样结果,将第s级联下采样结果传输到第s+1下采样网络以继续进行第s+1级联下采样处理;其中,S的取值范围满足2≤S,s为取值从1开始递增的整数,且s的取值范围满足2≤s≤S-1;当s取值为1时,第s下采样网络的输入是第r特征网络的输入,当s取值为2≤s≤S-1时,第s下采样网络的输入是第s-1下采样网络输出的第s-1级联下采样结果,第S级联下采样结果为下采样结果。通过级联的方式可以有效加强对边缘特征、区域特征的提取,从而提高判别器的判别能力。
作为示例,以两个下采样网络为例进行说明,通过2个级联的下采样网络中的第1个下采样网络,对第1下采样网络的输入进行第1级联下采样处理,得到第1级联下采样结果,将第1级联下采样结果传输到第2下采样网络以继续进行第2级联下采样处理,得到第2级联下采样结果作为S个级联的下采样网络的下采样结果。
在一些实施例中,上述通过T个上采样网络对级联残差特征与每个下采样网络的输入进行融合上采样处理,得到多阶特征结果,可以通过以下技术方案实现:通过T个级联的上采样网络中的第t个上采样网络,对第t上采样网络的输入进行第t级联上采样处理,得到第t级联上采样结果,将第t级联上采样结果传输到第t+1上采样网络以继续进行第t+1级联上采样处理;将第1下采样网络的输入与第T级联上采样结果进行融合处理,得到多阶特征结果;其中,T的取值与S相同,t为取值从1开始递增的整数,且t的取值范围满足2≤t≤T-1;当t取值为1时,第t上采样网络的输入是级联残差特征,当t取值为2≤t≤T-1时,第t上采样网络的输入是第t-1上采样网络输出的第t-1级联上采样结果与第T-t+2下采样网络的输入的融合结果。通过级联的方式可以有效加强对边缘特征、区域特征的提取,从而提高判别器的判别能力。
作为示例,以两个上采样网络为例进行说明,通过2个级联的上采样网络中的第1个上采样网络,对级联残差特征进行第1级联上采样处理,得到第1级联上采样结果,将第1级联上采样结果传输到第2上采样网络以继续进行第2级联上采样处理,得到第2级联上采样结果,将第1下采样网络的输入与第2级联上采样结果进行融合处理,得到多阶特征结果,对融合处理说明如下:将第1下采样网络的输入经过局部跳连结构,局部跳连结构由两个残差块组成,残差块由三级级联谱激活层和跳接层构成;三级级联谱激活层由三个谱激活层构成;跳接层由一个条件卷积层构成,即满足某种条件进行卷积操作,不满足则不进行操作。谱激活层由卷积层、谱标准化操作以及激活层构成,将经过局部跳连结构的第1下采样网络的输入与第2级联上采样结果进行求和处理,得到多阶特征结果。
通过本申请实施例将待处理的第一图分割为更小分辨率的子图像并提取多种不同深度层级的特征,并对提取的不同深度层级的特征执行多倍上采样处理,最后将前面提取的特征逐步进行基于多倍上采样机制的融合处理,得到分辨率提升后的第四图像,可以实现高频细节信息恢复能力,并且减轻伪影现象。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
在一些实施例中,终端接收用户上传的第一图像,终端将第一图像发送至服务器,服务器对第一图像进行均等分割处理,得到多个第二图像,对多个第二图像在图像通道维度上进行拼接处理,得到第三图像;对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图;对多个深度层级的第二特征图进行相加处理,得到第三特征图,对第三特征图进行残差特征提取处理,得到第四特征图;对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,服务器将第四图像(生成的超分辨率图像)返回至终端,在终端上呈现超分辨率图像。
本申请实施例提供一种基于对抗生成网络的图像超分感知装置,参见图4,超分感知装置包括图像输入模块301、预处理模块302、对抗网络模块303(包括生成器模块3031和判别器模块3032)、模型存储模块304、推断模块305、超分图像输出模块306,用于完成训练及推断任务。
图像输入模块301用于解码图像,并获取像素信息:支持单张或批量读取JPEG、PNG、BMP、TGA等图像文件格式的图像;预处理模块302用于预处理数据,并构建训练数据对样本:对来源于训练集的真实高分辨率图像进行数据增强、随机裁剪、归一化、锐化等操作,将处理后的高分辨率图像经退化算法处理以合成低分辨率图像,得到用于训练的数据对样本;对抗网络模块303包括生成器模块3031和判别器模块3032,用于构建和控制相关网络的预训练及训练过程:按指定结构和参数构建对抗网络模型并初始化网络权重参数,建立用于预训练及训练的优化器和损失函数,控制网络的预训练及训练流程;生成器模块3031接收低分辨率图像为输入,输出提升四倍分辨率的超分辨率图像;判别器模块3032接收高分辨率图像和生成器模块3031输出的超分辨率图像为输入,输出对应的感知特征图用于判别损失和感知损失的计算,生成器模块3031和判别器模块3032在训练过程中相互对抗;模型存储模块304输出并存储预训练及训练得到的生成器和判别器:包括按指定频率存储的中间检查点模型和训练完成得到的最终模型。推断模块305用于按需使用训练完成的模型以完成超分任务:输入需要进行超分的低分辨率图像,首先判断低分辨率图像的通道数并建立适配的网络结构,随后对低分辨率图像进行预填充、分割等操作,从模型存储模块304中读取训练好的网络模型,输入低分辨率图像至生成器以获得四倍分辨率提升的超分辨率图像。超分感知装置支持二、四、八倍分辨率提升,若提升倍数被设置为二或八倍,将按需求对超分辨率图像的分辨率进行进一步调整。超分图像输出模块306用于输出和存储超分辨率图像,并将超分结果按指定格式进行编码以及存储。
上述超分感知装置以包括中央处理器或图形处理器的电子设备为载体,已被配置和编程用于实现以上模块,程序代码基于python3.8实现,主要使用Py Torch深度学习框架。
本申请实施例提供一种面向超分感知任务的新型对抗生成网络的图像处理方法,图像处理方法包括模型训练及模型推断两个主要过程。模型训练过程包括预训练和训练两个子过程。参见图5,图5是本申请实施例提供的基于人工智能的图像处理方法的流程示意图训练流程。
在步骤S201中,输入训练图像,来源为真实的高分辨率图像数据集。
具体而言,本申请实施例使用超分领域通用的DIV2K数据集和OST高清图像数据集作为训练集。在读取高分辨率图像前,对DIV2K数据集的高分辨率图像分别进行1、1/2、1/3倍数的放缩,并将结果裁剪为多张400×400分辨率的子图像。因此实际使用训练集为经过放缩和裁剪操作的DIV2K数据集和原始的OST高清图像数据集。训练数据样本由低分辨率图像和高分辨率图像数据对构成,本申请实施例仅需要高分辨率图像数据集,低分辨率图像由高分辨率图像经退化操作得到。
步骤S202,对输入的高分辨率图像进行预处理,构建训练数据对样本。
具体而言,对高分辨率图像进行随机裁剪,将高分辨率图像的分辨率限制为400×400。对高分辨率图像使用镜像、旋转等操作进行数据增强。对高分辨率图像进行归一化、锐化,并采用高阶退化算法,将高分辨率图像进行两次具有随机性的模糊化、插值上下采样、注入噪声、JPEG压缩等操作,输出分辨率为100×100的低分辨率图像。对高分辨率图像和低分辨率图像再次进行随机裁剪,得到256×256分辨率的高分辨率图像和对应的64×64分辨率的低分辨率图像作为训练数据对样本,将低分辨率图像作为生成器的输入。
步骤S203,构建生成器,并初始化生成器的权重参数。
具体而言,图6是本申请实施例提供的基于人工智能的图像处理方法的生成器的结构示意图,生成器由四个部分组成:图像分割单元、多层级特征提取单元、残差卷积级联单元、特征重排上采样单元。
图像分割单元对输入的低分辨率图像进行分割操作,得到四张1/2倍分辨率(长、宽均为原图的一半)的子图像。分割规则依照像素在行和列排布上的奇偶性,四张子图像分别取原图的奇数行、奇数列;偶数行、奇数列;偶数行、偶数列;奇数行、偶数列上的像素构成图像。随后将四张子图像在通道维度上进行拼接,并将拼接结果输入多层级特征提取单元。
多层级特征提取单元用于提取由浅至深三种不同层级的特征,由三组卷积结构构成。第一组卷积结构包括一个卷积层:卷积核大小为1×1,过滤器数目为64;第二组卷积结构包括两个卷积层:卷积核大小分别为1×1、3×3,过滤器数目分别为32、64;第三组卷积结构包括三个卷积层:卷积核大小分别为1×1、3×3、3×3,过滤器数目分别为32、48、64。以上卷积层均为组数为2的分组卷积层,且步长为1,不使用偏置项。三组卷积结构的输出均使用SiLU激活函数激活,并通过2倍上采样结构(2-US结构)进行两倍上采样处理,将第一、二、三组卷积结构输出的结果分别记作F1、F2、F3,将F1、F2、F3的相加结果作为残差卷积级联单元的输入。
本申请实施例所使用的2-US结构包括卷积操作和特征重排操作,能够对输入特征图进行两倍上采样处理,具体而言,将输入特征图通过一个卷积核大小为3×3,过滤器数目为输入特征图的通道数四倍的卷积层,随后在输入特征图的每个像素的原位置使用4个新的特征图的对应位置的像素值重新排列以替换,从而实现两倍分辨率提升,所有2-US结构中的卷积层都参与网络训练并共享学习参数。
残差卷积级联单元用来提取图像的更深层级的特征,具体而言,残差卷积级联单元由23个残差卷积结构级联而成,用于进行更深层级的特征提取。残差卷积级联单元由卷积层、LeakyReLU激活层、短路连接结构构成。残差卷积级联单元输出低分辨率图像的高层特征信息,记作F。
特征重排上采样单元使用残差卷积级联单元提取到的高层特征信息F对低分辨率图像进行上采样处理,并在上采样过程中逐步融合多层级特征提取单元所提取的不同层级的细节信息。特征重排上采样单元由多个卷积层、SiLU激活层、2-US结构、特征连接结构构成。将F通过卷积层1后,连接由多层级特征提取单元所提取的F3特征,并将连接结果通过2-US结构进行两倍上采样处理。随后将F2特征通过2-US结构上采样处理后,再和上一步结果进行连接,并将连接结果通过卷积层2和SiLU激活层。最后将F1通过2-US结构进行上采样处理后,再和上一步结果进行连接,将连接结果再次通过2-US上采样处理,按序通过卷积层3、SiLU激活层、卷积层4、SiLU激活层。特征重排上采样单元的处理过程可以参见下公式(7):
Ffinal=C(C(C((F+F3)2up+(F2)2up)+(F1)2up)2up) (7);
其中,加号表示特征连接操作,右下角标注2up表示使用2-US结构对括号内的数据进行两倍上采样处理,C表示对括号内的数据进行卷积处理以及SiLU激活处理,Ffinal表示特征重排上采样单元所得到的最终特征信息。
以上卷积层1、2、3、4均为卷积核大小为3×3、过滤器数目为64、卷积步长为1的卷积层。最后将Ffinal通过一个卷积核大小为3×3,过滤器数目为3的卷积层用以输出提升了四倍分辨率的超分辨率图像。
本申请实施例提供的新型生成器有用于生成原图中细节的纹理信息,减轻伪影现象。
在步骤S204中,构建判别器,初始化判别器权重参数。
判别器由头部处理单元、TDB级联单元、尾部处理单元组成,参见图7,图7是本申请实施例提供的基于人工智能的图像处理方法的判别器示意图。
头部处理单元用于对超分辨率图像或高分辨率图像进行初步特征提取,由谱激活层、残差块1、下采样层、残差块2、残差块3构成。谱激活层由卷积层、谱标准化层和ReLU激活层构成,其中卷积层的卷积核大小为7×7,步长为2,过滤器数目为64。下采样层采用卷积核大小4×4,步长为2的卷积层进行下采样。残差块1、残差块2和残差块3是带有残差连接的卷积层,过滤器数目分别为128、128和3。经由头部处理单元提取的特征将输入TDB级联单元中进行更深层次的特征提取及细节捕捉。
TDB级联单元为判别器的核心结构,由特征提取结构和全局连接结构组成。特征提取结构通过级联的若干基本单元提取更深层次的特征,例如边缘特征、区域特征,全局连接结构是通过加和操作将特征提取结构得出的结果与原始输入的数据进行加和从而实现全局跳连。
特征提取结构由级联的特征提取主单元和三个附属单元构成。特征提取主单元实现了特征提取的核心功能,三个附属单元分别是残差层、谱激活层、卷积层,对特征提取后的图像进一步处理以方便接入下一个基本单元。上述特征提取主单元由特征提取结构和局部跳连结构组成。特征提取结构由下采样层、二级级联残差层1、二级级联残差层2、二级级联残差层3、2-US构成,二级级联残差层1、2、3都是由两个残差块构成。残差块由三级级联谱激活层和跳接层构成;三级级联谱激活层由三个谱激活层构成;跳接层由一个条件卷积层构成,即满足某种条件进行卷积操作,不满足则不进行操作。谱激活层由卷积层、谱标准化操作以及激活层构成。局部跳连结构由两个残差块组成。以上结构中残差块、谱激活层、卷积层中均使用大小为3×3的卷积核,且卷积步长为1。
尾部处理单元由三个卷积层构成,进一步学习特征并输出用于计算判别损失的特征图。三个卷积层的卷积核大小都为3×3,步长为1,过滤器数目分别为3、3、1。最后一层用过滤器数目为1的卷积层输出判别器对图像的判别特征图。
本申请实施例提供的新型的判别器有助于提取图像特征信息,拥有更强的判断能力,使用该判别器计算判别损失用于生成器训练,能够提升生成器对图像细节纹理信息的恢复能力,提高网络精度。
在步骤S205中,输入低分辨率图像至生成器,输出超分辨率图像,通过高分辨率图像和超分辨率图像计算生成器预训练的损失函数,更新生成器的权重参数。
在步骤S206中,判断是否达到预训练迭代次数。当达到迭代次数时,执行步骤S207,当未达到迭代次数时,执行步骤S205。
在步骤S207中,储存预训练模型的权重参数。
具体而言,使用训练样本联合预训练损失函数约束生成器预训练至指定迭代次数,使生成器在正式训练之前得到初步收敛,预训练仅对生成器进行,判别器不参与预训练过程,生成器的预训练损失函数参见公式(8):
其中,xi表示输入生成器的低分辨率图像,G表示将括号内的内容通过生成器得到超分分辨率图像,y表示对应的真实高分辨率图像,表示期望。生成器与训练损失函数LG由上述公式(8)定义。基于重建得到的超分辨率图像G(xi)和真实高分辨率图像y之间的1-范数距离,评估超分辨率图像和高分辨率图像在像素上的平均逼近程度。
预训练的批量训练尺寸为24,使用Adam优化器优化生成器的参数,预训练过程中参数设置β1为0.9,β2为0.999,前20万训练样本的学习率为0.0003,后20万训练样本的学习率为0.0002。训练过程中通过观察LG的变化情况来判断生成器的收敛情况。预训练得到的生成器将用于对抗网络训练中生成器的初始权重参数分配。
在步骤S208中,载入预训练得到的生成器以及初始化判断器。
在步骤S209中,输入低分辨率图像至生成器,输出超分辨率图像,通过高分辨率图像和超分辨率图像计算像素损失函数。
在步骤S210中,输入超分辨率图像和高分辨率图像至判别网络,输出感知特征,通过超分辨率图像和高分辨率图像的感知特征计算感知损失函数,通过判别器对图像的真实性分别进行评判,以计算判别损失函数作为判别器损失函数。
在步骤S211中,计算生成器融合生成损失。基于判别器损失函数以及生成器融合生成损失交替更新生成器和判别器的权重参数。生成器融合生成损失是像素损失、感知损失以及判别损失进行加权求和处理得到的。
在步骤S212中,判断是否达到训练迭代次数。当达到训练迭代次数时,执行步骤S213,当未达到训练迭代次数时,执行步骤S209。
在步骤S213中,存储生成器以及判别器的权重参数。
具体而言,使用训练样本正式训练对抗生网络至指定迭代次数,得到最终的生成器并予以存储,下面详细说明对抗生成网络的训练过程。
首先读取预训练的生成器,随后交替训练生成器和判别器,生成器学习生成质量更高、真实性更强的超分辨率图像,判别器区分生成器生成的超分辨率图像和真实的高分辨率图像。判别损失函数用于评估判别器对超分辨率图像和高分辨率图像的区分能力,生成器和判别器在训练中相互对抗,前者试图令判别损失最大化,后者令判别损失最小化。同时,为了限制生成器生成的超分辨率图像拥有更好的超分感知效果,生成器的损失函数还包括像素损失和使用VGG19网络计算得到的感知损失。
训练判别器时,需冻结生成器的权重参数,判别器的优化目标为最小化判别损失函数,判别损失函数参见公式(9):
其中,判别损失函数LD包括判别器将超分辨率图像当作高分辨率图像的损失以及判别器将高分辨率图像当作超分辨率图像的损失。xhr表示输入判别器的高分辨率图像分布,xsr表示输入判别器的超分辨率图像分布。D(xhr,xsr)计算判别器将高分辨率图像当作超分辨率图像的概率,损失的计算方式为计算判断高分辨率图像为超分辨率图像的二分类交叉熵,D(xsr,xhr)的计算类似。因两项的值均为负数,为令判别器的优化目标是最小化判别损失函数,所以在两项前面都添加了负号。
训练生成器时,需冻结判别器的权重参数,生成器损失函数包括像素损失、判别损失和感知损失三部分。生成器的优化目标为最大化判别损失函数,通过提升生成器生成的超分辨率图像在判别器处获得的真实性评分来优化生成器的超分效果,判别损失函数形式与基本LD相同,区别是生成器的优化目标相反,为方便使用梯度下降法训练,生成器的判别损失函数参见公式(10):
像素损失与预训练损失相同,基于重建图像G(xi)和高分辨率图像y之间的1-范数距离,以此评估超分辨率图像和高分辨率图像在像素上的平均逼近程度,参见公式(11):
感知损失通过引入使用ImageNet数据集预训练的VGG19网络计算,感知损失参见公式(12):
VGG表示对括号内的图像由指定层输出的特征提取结果,因而感知损失实际上是基于重建图像G(xi)和高分辨率图像y的高层级特征之间的1-范数距离,以此来评估超分辨率图像和高分辨率图像在人的感知上的接近程度。
最后生成器的融合生成损失为判别损失、像素损失、感知损失三部分的加权和,参见公式(13):
LG=αLGAN+βLPixel+γLPercep (13);
综合考虑由上式计算出的各损失函数数值之间的数量级差异以及通过实验得出的有效性,将损失函数权重参数设置为:α=0.1,β=1,γ=1。综上所述,生成器训练的融合生成损失为LG,判别器训练的损失函数为LD。
训练的批量训练尺寸为24,使用Adam优化器优化生成器的参数,训练过程中参数设置β1为0.9,β2为0.999,训练样本的学习率为0.0002。训练过程中通过观察损失函数的变化情况来判断生成器以及判别器的收敛情况,本申请实施例按照一定频率输出测试图像的超分结果的方式来观察网络训练的有效性。
参见图9,图9是本申请实施例提供的基于人工智能的图像处理方法的应用流程图,模型推断过程的流程如图9所示。
在步骤601中,输入待处理的低分辨率图像并进行预处理。
具体而言,从指定路径单张或批量读取待超分的低分辨率图像,解码得到像素信息。首先分析低分辨率图像的图像文件格式,为后面建立适配的对应通道数的网络提供支持。对低分辨率图像进行归一化、预填充等操作。
在步骤602中,加载训练完成的生成器。
根据上一步得到的信息建立适配低分辨率图像通道数的生成器,读取训练完成的生成器权重参数。
在步骤603中,输入低分辨率图像至生成器,输出提升四倍分辨率的超分辨率图像。
生成器接收低分辨率图像像素信息为输入,按序将低分辨率图像通过图像分割单元、多层级特征提取单元、残差卷积级联单元、特征重排上采样单元,得到提升四倍分辨率的超分辨率图像。
在步骤604中,对超分辨率图像进行后期处理操作。
对预处理中所做的归一化、预填充等操作进行恢复,解除相应操作带来的副效应。若需要对低分辨率图像进行二或八倍的分辨率提升,本步骤将对超分辨率图像采用双三次插值采样等方法进行分辨率的调整。
在步骤605中,输出并存储最终的超分辨率图像。
将超分辨率图像按照指定路径和图像格式进行输出和存储。
以上步骤用于对实际的低分辨率图像进行超分推断,得到二、四或八倍分辨率提升的超分辨率图像。
本申请实施例提供一种新型的生成器结构,在图像分割单元及多层级特征提取单元中将输入分割为更小分辨率的子图像并提取三种不同层级的特征,在特征重排上采样单元中将前面提取的特征逐步连接加入。本生成器得到的超分辨率图像拥有更好的高频细节信息恢复能力,同时减轻伪影现象。
本申请实施例还提供一种新型的判别器结构,使用TDB级联单元,加强对边缘特征、区域特征的提取并用全局连接操作让这些特征得以保留。本判别器拥有更强的细节判断能力,有助于生成器学习出更强的图像细节纹理恢复能力。
本申请实施例支持输入三通道或四通道图像,在完成超分任务时,能够根据图像格式提供适配通道数的生成网络,支持对TGA格式的图片进行超分,相较于传统网络支持的图片格式更加丰富,在处理四通道图像超分问题上更具灵活性和精度。
在一些实施例中,服务器接收游戏素材更新指令,游戏素材更新指令携带有待更新的游戏素材的图像,服务器将待更新的游戏素材的图像作为第一图像,并对第一图像进行均等分割处理,得到多个第二图像,对多个第二图像在图像通道维度上进行拼接处理,得到第三图像;对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图;对多个深度层级的第二特征图进行相加处理,得到第三特征图,对第三特征图进行残差特征提取处理,得到第四特征图;对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,服务器将第四图像(生成的超分辨率图像)发送至游戏素材数据库中进行保存。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的基于人工智能的图像处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的基于人工智能的图像处理装置455中的软件模块可以包括:获取模块4551,用于对第一图像进行均等分割处理,得到多个第二图像,并对多个第二图像在图像通道维度上进行拼接处理,得到第三图像;特征模块4552,用于对第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个深度层级的第一特征图,对每个深度层级的第一特征图分别进行多倍上采样处理,得到每个深度层级的第二特征图;残差模块4553,用于对多个深度层级的第二特征图进行相加处理,得到第三特征图,并对第三特征图进行残差特征提取处理,得到第四特征图;融合模块4554,用于对第四特征图以及每个深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,其中,第四图像的分辨率高于第一图像的分辨率。
在一些实施例中,基于多个深度层级的卷积特征提取处理是通过调用多层级卷积网络实现的,多层级卷积网络包括与多个深度层级一一对应的卷积网络;特征模块4552,还用于:针对每个卷积网络,通过卷积网络对第三图像进行卷积特征提取处理,得到与卷积网络的深度层级对应的第一特征图。
在一些实施例中,每个卷积网络包括至少一个级联卷积层以及一个激活层,卷积网络包括的卷积层的数目与对应卷积网络的深度层级的深度正相关;特征模块4552,还用于:当卷积网络包括一个级联卷积层时,通过卷积网络的级联卷积层对第三图像进行第一卷积处理,得到第一卷积结果,通过激活层对第一卷积结果进行第一激活处理,得到与卷积网络的深度层级对应的第一特征图;当卷积网络包括多个级联卷积层时,通过N个级联的卷积层中的第n级联卷积层,对第n级联卷积层的输入进行第n级联卷积处理,得到第n级联卷积结果,将第n级联卷积结果传输到第n+1级联卷积层以继续进行第n+1级联卷积处理,通过激活层对第N级联卷积结果进行第一激活处理,得到与卷积网络的深度层级对应的第一特征图;其中,N的取值范围满足2≤N,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,第n级联卷积层的输入是第三图像,当n取值为2≤n≤N-1时,第n级联卷积层的输入是第n-1卷积层输出的第n-1级联卷积结果。
在一些实施例中,多倍上采样处理是通过调用上采样网络实现的,上采样网络包括上采样卷积层以及替换层,特征模块4552,还用于:通过上采样网络的上采样卷积层对每个深度层级的第一特征图分别进行第二卷积处理,得到每个深度层级的多个上采样特征图;通过替换层针对每个深度层级的第一特征图执行以下处理:针对第一特征图的多个上采样特征图中任意一个相同位置执行以下处理:获取多个上采样特征图中对应相同位置的像素值;对多个上采样特征图中对应相同位置的像素值进行组合处理;利用组合结果替换第一特征图中对应相同位置的像素值;将每个位置经过替换的第一特征图作为第二特征图。
在一些实施例中,残差特征提取处理是通过调用第一残差网络实现的,第一残差网络包括M个残差子网络,特征模块4552,还用于:通过M个级联的残差子网络中的第m残差子网络,对第m残差子网络的输入进行第m残差处理,得到第m残差结果,将第m残差结果传输到第m+1残差子网络以继续进行第m+1残差处理;将第M残差子网络输出的第M残差结果作为第四特征图;其中,M的取值范围满足2≤M,m为取值从1开始递增的整数,且m的取值范围满足1≤m≤M-1;当m取值为1时,第m残差子网络的输入是第三特征图,当m取值为2≤m≤M-1时,第m残差子网络的输入是第m-1残差子网络输出的第m-1残差结果。
在一些实施例中,特征模块4552,还用于:通过第m残差子网络对第m残差子网络的输入执行以下处理:对第m-1残差结果进行第三卷积处理,得到对应第m残差子网络的残差卷积结果;对残差卷积结果进行第二激活处理,得到对应第m残差子网络的激活结果;将对应第m残差子网络的激活结果与第m-1残差结果进行求和处理,得到第m残差结果。
在一些实施例中,深度层级的数目为P,多个深度层级包括第p深度层级,P的取值范围满足2≤P,p为取值从1开始递增的整数,且p的取值范围满足1≤p≤P,p的取值与深度层级的深度正相关;融合模块4554,还用于:对第四特征图进行第四卷积处理,得到第四卷积结果;对第P深度层级的第二特征图与第四卷积结果进行求和处理,得到第一求和结果;通过Q个级联的融合网络中的第q个融合网络,对第q融合网络的输入进行基于所述多倍上采样机制的第q融合处理,得到第q融合结果,将第q融合结果传输到第q+1融合网络以继续进行基于所述多倍上采样机制的第q+1融合处理;对第Q融合网络输出的第Q融合结果进行分辨率输出处理,得到第四图像;其中,Q的取值为P-1,q为取值从1开始递增的整数,且q的取值范围满足1≤q≤Q-1;当q取值为1时,第q融合网络的输入是第一求和结果以及第P-1深度层级的第二特征图,当q取值为2≤q≤Q-1时,第q融合网络的输入是第q-1融合网络输出的第q-1融合结果以及第P-q-1深度层级的第二特征图。
在一些实施例中,当q取值为1时,融合模块4554,还用于:对第一求和结果进行多倍上采样处理,得到第一上采样结果;对第P-1深度层级的第二特征图进行多倍上采样处理,得到第二上采样结果;对第一上采样结果与第二上采样结果进行求和处理,得到第二求和结果;对第二求和结果进行第一激活处理,得到对应第q融合网络的激活结果;对对应第q融合网络的激活结果进行第四卷积处理,得到第五卷积结果,并将第五卷积结果作为第q融合结果。
在一些实施例中,分辨率输出处理是通过分辨率输出网络实现,融合模块4554,还用于:对第Q融合结果进行第一激活处理,得到对应分辨率输出网络的激活结果;对对应分辨率输出网络的激活结果进行第四卷积处理,得到第六卷积结果,并对第六卷积结果进行第五卷积处理,得到第七卷积结果;对第七卷积结果进行恢复处理,得到第四图像。
在一些实施例中,对第一图像进行均等分割处理,得到多个第二图像之前,获取模块4551,还用于:对第一图像进行解码处理,得到第一图像的像素信息;对第一图像的像素信息进行格式分析处理,得到第一图像的通道数目;获取与通道数目匹配的生成器,其中,生成器用于被调用以实现图像处理方法。
在一些实施例中,对第一图像进行均等分割处理,得到多个第二图像之前,装置还包括:训练模块4555,用于:获取第一图像样本,并对第一图像样本进行分辨率下降处理,得到第二图像样本;基于第一图像样本以及第二图像样本对初始化的生成器进行预训练;将经过预训练的生成器以及初始化的判别器组成对抗生成器;基于第一图像样本以及第二图像样本对对抗生成器进行训练;将经过训练的对抗生成器中的生成器作为实现图像处理方法的生成器。
在一些实施例中,训练模块4555,还用于:将第二图像样本在初始化的生成器中进行正向传播,得到对应第二图像样本的第三图像样本;基于第三图像样本以及第一图像样本之间的像素差异,确定第一生成损失,并获取第一生成损失收敛时的第一参数变化值;基于第一参数变化值更新初始化的生成器。
在一些实施例中,训练模块4555,还用于:将第二图像样本在经过预训练的生成器中进行正向传播,得到对应第二图像样本的第四图像样本;将第四图像样本以及第一图像样本在判别器中进行正向传播,得到将第四图像样本识别为第一图像样本的第一概率以及将第一图像样本识别为第四图像样本的第二概率;获取对应第一概率的第一判别损失以及对应第二概率的第二判别损失,并对第一判别损失以及第二判别损失进行求和处理,得到第三求和结果;获取第三求和结果收敛时,判别器的第二参数变化值,并基于第二参数变化值更新判别器;基于第四图像样本与第一图像样本之间的像素差异,确定第二生成损失,基于第四图像样本与第一图像样本之间的特征差异,确定第三生成损失,将第二生成损失、第三生成损失与第三求和结果的相反数进行融合处理,得到融合生成损失;获取融合生成损失收敛时,对抗生成器中的生成器的第三参数变化值,并基于第三参数变化值更新对抗生成器中的生成器。
在一些实施例中,训练模块4555,还用于:将第四图像样本在判别器中进行正向传播,得到将第四图像样本识别为第一图像样本的第一概率;将第二图像样本在判别器中进行正向传播,得到将第一图像样本识别为第四图像样本的第二概率。
在一些实施例中,判别器包括头部处理网络、特征级联网络以及尾部处理网络,训练模块4555,还用于:通过头部处理网络对第四图像样本进行头部特征提取处理,得到第四图像样本的头部特征图;通过特征级联网络对头部特征图进行级联特征提取处理,得到第四图像样本的级联特征图;通过尾部处理网络对级联特征进行尾部特征提取处理,得到第四图像样本的判别特征图,第四图像样本的判别特征图包括每个像素被识别为属于第一图像样本的第一概率。
在一些实施例中,特征级联网络包括R个特征网络,训练模块4555,还用于:通过R个级联的特征网络中的第r个特征网络,对第r特征网络的输入进行第r局部特征提取处理,得到第r局部特征结果,将第r局部特征结果传输到第r+1特征网络以继续进行第r+1局部特征提取处理;其中,R的取值范围满足2≤R,r为取值从1开始递增的整数,且r的取值范围满足2≤r≤R-1;当r取值为1时,第r特征网络的输入是头部特征图,当r取值为2≤r≤R-1时,第r特征网络的输入是第r-1特征网络输出的第r-1局部特征提取结果。
在一些实施例中,训练模块4555,还用于:对第r特征网络的输入进行多阶特征提取处理,得到多阶特征结果;对多阶特征结果进行谱激活残差处理,得到谱激活残差特征;对谱激活残差特征进行谱激活处理,得到谱激活特征;对谱激活特征进行第六卷积处理,得到第八卷积结果;将第r特征网络的输入与第八卷积结果相加,得到第r局部特征结果。
在一些实施例中,多阶特征提取处理是通过调用多阶特征网络实现的,多阶特征网络包括S个下采样网络、T个上采样网络以及第二残差网络,训练模块4555,还用于:通过S个级联的下采样网络对第r特征网络的输入依次进行多次下采样处理,得到下采样结果;通过第二残差网络对下采样结果进行级联残差处理,得到级联残差特征;通过T个上采样网络对级联残差特征与每个下采样网络的输入进行融合上采样处理,得到多阶特征结果。
在一些实施例中,训练模块4555,还用于:通过S个级联的下采样网络中的第s个下采样网络,对第s下采样网络的输入进行第s级联下采样处理,得到第s级联下采样结果,将第s级联下采样结果传输到第s+1下采样网络以继续进行第s+1级联下采样处理;其中,S的取值范围满足2≤S,s为取值从1开始递增的整数,且s的取值范围满足2≤s≤S-1;当s取值为1时,第s下采样网络的输入是第r特征网络的输入,当s取值为2≤s≤S-1时,第s下采样网络的输入是第s-1下采样网络输出的第s-1级联下采样结果;通过T个级联的上采样网络中的第t个上采样网络,对第t上采样网络的输入进行第t级联上采样处理,得到第t级联上采样结果,将第t级联上采样结果传输到第t+1上采样网络以继续进行第t+1级联上采样处理;将第1下采样网络的输入与第T级联上采样结果进行融合处理,得到多阶特征结果;其中,T的取值与S相同,t为取值从1开始递增的整数,且t的取值范围满足2≤t≤T-1;当t取值为1时,第t上采样网络的输入是级联残差特征,当t取值为2≤t≤T-1时,第t上采样网络的输入是第t-1上采样网络输出的第t-1级联上采样结果与第T-t+2下采样网络的输入的融合结果。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或者计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例上述的基于人工智能的图像处理方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的基于人工智能的图像处理方法,例如,如图3A-3C示出的基于人工智能的图像处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上所述,通过本申请实施例将待处理的第一图分割为更小分辨率的子图像并提取多种不同深度层级的特征,并对提取的不同深度层级的特征执行多倍上采样处理,最后将前面提取的特征逐步进行基于多倍上采样机制的融合处理,得到分辨率提升后的第四图像,可以实现高频细节信息恢复能力,并且减轻伪影现象。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包括在本申请的保护范围之内。
Claims (20)
1.一种基于人工智能的图像处理方法,其特征在于,所述方法包括:
对第一图像进行均等分割处理,得到多个第二图像,并对所述多个第二图像在图像通道维度上进行拼接处理,得到第三图像;
对所述第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个所述深度层级的第一特征图,对每个所述深度层级的第一特征图分别进行多倍上采样处理,得到每个所述深度层级的第二特征图;
对多个所述深度层级的第二特征图进行相加处理,得到第三特征图,并对所述第三特征图进行残差特征提取处理,得到第四特征图;
对所述第四特征图以及每个所述深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,其中,所述第四图像的分辨率高于所述第一图像的分辨率。
2.根据权利要求1所述的方法,其特征在于,所述基于多个深度层级的卷积特征提取处理是通过调用多层级卷积网络实现的,所述多层级卷积网络包括与多个所述深度层级一一对应的卷积网络;
所述对所述第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个所述深度层级的第一特征图,包括:
针对每个所述卷积网络,通过所述卷积网络对所述第三图像进行卷积特征提取处理,得到与所述卷积网络的深度层级对应的第一特征图。
3.根据权利要求2所述的方法,其特征在于,每个所述卷积网络包括至少一个级联卷积层以及一个激活层,所述卷积网络包括的卷积层的数目与对应所述卷积网络的深度层级的深度正相关;
所述通过所述卷积网络对所述第三图像进行卷积特征提取处理,得到与所述卷积网络的深度层级对应的第一特征图,包括:
当所述卷积网络包括一个级联卷积层时,通过所述卷积网络的级联卷积层对所述第三图像进行第一卷积处理,得到第一卷积结果,通过所述激活层对所述第一卷积结果进行第一激活处理,得到与所述卷积网络的深度层级对应的第一特征图;
当所述卷积网络包括N个级联卷积层时,通过第n级联卷积层,对所述第n级联卷积层的输入进行第n级联卷积处理,得到第n级联卷积结果,将所述第n级联卷积结果传输到第n+1级联卷积层以继续进行第n+1级联卷积处理,通过所述激活层对第N级联卷积结果进行第一激活处理,得到与所述卷积网络的深度层级对应的第一特征图;
其中,N的取值范围满足2≤N,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,所述第n级联卷积层的输入是所述第三图像,当n取值为2≤n≤N-1时,所述第n级联卷积层的输入是所述第n-1卷积层输出的第n-1级联卷积结果。
4.根据权利要求1所述的方法,其特征在于,所述多倍上采样处理是通过调用上采样网络实现的,所述上采样网络包括上采样卷积层以及替换层,所述对每个所述深度层级的第一特征图分别进行多倍上采样处理,得到每个所述深度层级的第二特征图,包括:
通过所述上采样网络的上采样卷积层,对每个所述深度层级的第一特征图分别进行第二卷积处理,得到每个所述深度层级的多个上采样特征图;
通过所述替换层针对每个所述深度层级的第一特征图执行以下处理:
针对所述第一特征图的多个所述上采样特征图中任意一个相同位置执行以下处理:
获取多个所述上采样特征图中对应所述相同位置的像素值;
对多个所述上采样特征图中对应所述相同位置的像素值进行组合处理;
利用组合结果替换所述第一特征图中对应所述相同位置的像素值;
将每个位置经过替换的第一特征图作为所述第二特征图。
5.根据权利要求1所述的方法,其特征在于,所述深度层级的数目为P,多个所述深度层级包括第p深度层级,P的取值范围满足2≤P,p为取值从1开始递增的整数,且p的取值范围满足1≤p≤P,p的取值与所述深度层级的深度正相关;
所述对所述第四特征图以及每个所述深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,包括:
对所述第四特征图进行第四卷积处理,得到第四卷积结果;
对第P深度层级的第二特征图与所述第四卷积结果进行求和处理,得到第一求和结果;
通过Q个级联的融合网络中的第q个融合网络,对所述第q融合网络的输入进行基于所述多倍上采样机制的第q融合处理,得到第q融合结果,将所述第q融合结果传输到第q+1融合网络以继续进行基于所述多倍上采样机制的第q+1融合处理;
对第Q融合网络输出的第Q融合结果进行分辨率输出处理,得到所述第四图像;
其中,Q的取值为P-1,q为取值从1开始递增的整数,且q的取值范围满足1≤q≤Q-1;当q取值为1时,所述第q融合网络的输入是所述第一求和结果以及第P-1深度层级的第二特征图,当q取值为2≤q≤Q-1时,所述第q融合网络的输入是所述第q-1融合网络输出的第q-1融合结果以及第P-q-1深度层级的第二特征图。
6.根据权利要求5所述的方法,其特征在于,当q取值为1时,所述对所述第q融合网络的输入进行基于所述多倍上采样机制的第q融合处理,得到第q融合结果,包括:
对所述第一求和结果进行多倍上采样处理,得到第一上采样结果;
对所述第P-1深度层级的第二特征图进行所述多倍上采样处理,得到第二上采样结果;
对所述第一上采样结果与所述第二上采样结果进行求和处理,得到第二求和结果;
对所述第二求和结果进行第一激活处理,得到对应所述第q融合网络的激活结果;
对对应所述第q融合网络的激活结果进行第四卷积处理,得到第五卷积结果,并将所述第五卷积结果作为所述第q融合结果。
7.根据权利要求5所述的方法,其特征在于,所述分辨率输出处理是通过分辨率输出网络实现,所述对第Q融合网络输出的第Q融合结果进行分辨率输出处理,得到所述第四图像,包括:
对所述第Q融合结果进行第一激活处理,得到对应所述分辨率输出网络的激活结果;
对对应所述分辨率输出网络的激活结果进行第四卷积处理,得到第六卷积结果,并对所述第六卷积结果进行第五卷积处理,得到第七卷积结果;
对所述第七卷积结果进行恢复处理,得到所述第四图像。
8.根据权利要求1所述的方法,其特征在于,所述对第一图像进行均等分割处理,得到多个第二图像之前,所述方法还包括:
获取第一图像样本,并对所述第一图像样本进行分辨率下降处理,得到第二图像样本;
基于所述第一图像样本以及所述第二图像样本对初始化的生成器进行预训练;
将经过预训练的生成器以及初始化的判别器组成对抗生成器;
基于所述第一图像样本以及所述第二图像样本对所述对抗生成器进行训练;
将经过训练的对抗生成器中的生成器作为实现所述图像处理方法的生成器。
9.根据权利要求8所述的方法,其特征在于,所述基于所述第一图像样本以及所述第二图像样本对所述对抗生成器进行训练,包括:
将所述第二图像样本在经过预训练的生成器中进行正向传播,得到对应所述第二图像样本的第四图像样本;
将所述第四图像样本以及所述第一图像样本在所述判别器中进行正向传播,得到将所述第四图像样本识别为所述第一图像样本的第一概率以及将所述第一图像样本识别为所述第四图像样本的第二概率;
基于所述第一概率以及所述第二概率,确定对应所述生成器的判别损失以及对应所述判别器的判别损失;
获取对应所述判别器的判别损失时,所述判别器的第二参数变化值,并基于所述第二参数变化值更新所述判别器;
基于所述第四图像样本与所述第一图像样本之间的像素差异,确定第二生成损失,基于所述第四图像样本与所述第一图像样本之间的特征差异,确定第三生成损失,将所述第二生成损失、所述第三生成损失与对应所述生成器的判别损失进行融合处理,得到融合生成损失;
获取所述融合生成损失收敛时,所述对抗生成器中的生成器的第三参数变化值,并基于所述第三参数变化值更新所述对抗生成器中的生成器。
10.根据权利要求9所述的方法,其特征在于,所述将所述第四图像样本以及所述第一图像样本在所述判别器中进行正向传播,得到将所述第四图像样本识别为所述第一图像样本的第一概率以及将所述第一图像样本识别为所述第四图像样本的第二概率,包括:
将所述第四图像样本在所述判别器中进行正向传播,得到将所述第四图像样本识别为所述第一图像样本的第一概率;
将所述第一图像样本在所述判别器中进行正向传播,得到将所述第一图像样本识别为所述第四图像样本的第二概率。
11.根据权利要求10所述的方法,其特征在于,所述判别器包括头部处理网络、特征级联网络以及尾部处理网络,所述将所述第四图像样本在所述判别器中进行正向传播,得到将所述第四图像样本识别为所述第一图像样本的第一概率,包括:
通过所述头部处理网络对所述第四图像样本进行头部特征提取处理,得到所述第四图像样本的头部特征图;
通过所述特征级联网络对所述头部特征图进行级联特征提取处理,得到所述第四图像样本的级联特征图;
通过所述尾部处理网络对所述级联特征进行尾部特征提取处理,得到所述第四图像样本的判别特征图,所述第四图像样本的判别特征图包括每个像素被识别为属于所述第一图像样本的第一概率。
12.根据权利要求11所述的方法,其特征在于,所述特征级联网络包括R个特征网络,所述通过所述特征级联网络对所述头部特征图进行级联特征提取处理,得到所述第四图像样本的级联特征图,包括:
通过R个级联的特征网络中的第r个特征网络,对所述第r特征网络的输入进行第r局部特征提取处理,得到第r局部特征结果,将所述第r局部特征结果传输到第r+1特征网络以继续进行第r+1局部特征提取处理;
其中,R的取值范围满足2≤R,r为取值从1开始递增的整数,且r的取值范围满足2≤r≤R-1;当r取值为1时,所述第r特征网络的输入是所述头部特征图,当r取值为2≤r≤R-1时,所述第r特征网络的输入是所述第r-1特征网络输出的第r-1局部特征提取结果,第R特征网络的输出是所述第四图像样本的级联特征图。
13.根据权利要求12所述的方法,其特征在于,所述通过R个级联的特征网络中的第r个特征网络,对所述第r特征网络的输入进行第r局部特征提取处理,得到第r局部特征结果,包括:
对所述第r特征网络的输入进行多阶特征提取处理,得到多阶特征结果;
对所述多阶特征结果进行谱激活残差处理,得到谱激活残差特征;
对所述谱激活残差特征进行谱激活处理,得到谱激活特征;
对所述谱激活特征进行第六卷积处理,得到第八卷积结果;
将所述第r特征网络的输入与所述第八卷积结果相加,得到所述第r局部特征结果。
14.根据权利要求13所述的方法,其特征在于,所述多阶特征提取处理是通过调用多阶特征网络实现的,所述多阶特征网络包括S个下采样网络、T个上采样网络以及第二残差网络,所述对所述第r特征网络的输入进行多阶特征提取处理,得到多阶特征结果,包括:
通过所述S个级联的下采样网络对所述第r特征网络的输入依次进行多次下采样处理,得到下采样结果;
通过所述第二残差网络对所述下采样结果进行级联残差处理,得到级联残差特征;
通过所述T个上采样网络对所述级联残差特征与每个所述下采样网络的输入进行融合上采样处理,得到所述多阶特征结果。
15.根据权利要求14所述的方法,其特征在于,所述通过所述S个级联的下采样网络对所述第r特征网络的输入依次进行多次下采样处理,得到下采样结果,包括:
通过S个级联的下采样网络中的第s个下采样网络,对所述第s下采样网络的输入进行第s级联下采样处理,得到第s级联下采样结果,将所述第s级联下采样结果传输到第s+1下采样网络以继续进行第s+1级联下采样处理;
其中,S的取值范围满足2≤S,s为取值从1开始递增的整数,且s的取值范围满足2≤s≤S-1;当s取值为1时,所述第s下采样网络的输入是所述第r特征网络的输入,当s取值为2≤s≤S-1时,所述第s下采样网络的输入是所述第s-1下采样网络输出的第s-1级联下采样结果;
所述通过所述T个上采样网络对所述级联残差特征与每个所述下采样网络的输入进行融合上采样处理,得到所述多阶特征结果,包括:
通过T个级联的上采样网络中的第t个上采样网络,对所述第t上采样网络的输入进行第t级联上采样处理,得到第t级联上采样结果,将所述第t级联上采样结果传输到第t+1上采样网络以继续进行第t+1级联上采样处理;
将第1下采样网络的输入与所述第T级联上采样结果进行融合处理,得到所述多阶特征结果;
其中,T的取值与S相同,t为取值从1开始递增的整数,且t的取值范围满足2≤t≤T-1;当t取值为1时,所述第t上采样网络的输入是所述级联残差特征,当t取值为2≤t≤T-1时,所述第t上采样网络的输入是所述第t-1上采样网络输出的第t-1级联上采样结果与所述第T-t+2下采样网络的输入的融合结果。
16.根据权利要求1所述的方法,其特征在于,所述对第一图像进行均等分割处理,得到多个第二图像之前,所述方法还包括:
对所述第一图像进行解码处理,得到所述第一图像的像素信息;
对所述第一图像的像素信息进行格式分析处理,得到所述第一图像的通道数目;
获取与所述通道数目匹配的生成器,其中,所述生成器用于被调用以实现所述图像处理方法。
17.一种基于人工智能的图像处理装置,其特征在于,所述装置包括:
获取模块,用于对第一图像进行均等分割处理,得到多个第二图像,并对所述多个第二图像在图像通道维度上进行拼接处理,得到第三图像;
特征模块,用于对所述第三图像进行基于多个深度层级的卷积特征提取处理,得到对应每个所述深度层级的第一特征图,对每个所述深度层级的第一特征图分别进行多倍上采样处理,得到每个所述深度层级的第二特征图;
残差模块,用于对多个所述深度层级的第二特征图进行相加处理,得到第三特征图,并对所述第三特征图进行残差特征提取处理,得到第四特征图;
融合模块,用于对所述第四特征图以及每个所述深度层级的第二特征图进行基于多倍上采样机制的融合处理,得到第四图像,其中,所述第四图像的分辨率高于所述第一图像的分辨率。
18.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至16任一项所述的基于人工智能的图像处理方法。
19.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至16任一项所述的基于人工智能的图像处理方法。
20.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现权利要求1至16任一项所述的基于人工智能的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349174.XA CN116977343A (zh) | 2022-10-31 | 2022-10-31 | 图像处理方法、装置、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349174.XA CN116977343A (zh) | 2022-10-31 | 2022-10-31 | 图像处理方法、装置、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977343A true CN116977343A (zh) | 2023-10-31 |
Family
ID=88473674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211349174.XA Pending CN116977343A (zh) | 2022-10-31 | 2022-10-31 | 图像处理方法、装置、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116977343A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252787A (zh) * | 2023-11-17 | 2023-12-19 | 北京渲光科技有限公司 | 图像重新照明方法、模型训练方法、装置、设备及介质 |
-
2022
- 2022-10-31 CN CN202211349174.XA patent/CN116977343A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252787A (zh) * | 2023-11-17 | 2023-12-19 | 北京渲光科技有限公司 | 图像重新照明方法、模型训练方法、装置、设备及介质 |
CN117252787B (zh) * | 2023-11-17 | 2024-02-02 | 北京渲光科技有限公司 | 图像重新照明方法、模型训练方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Su et al. | Convolutional tensor-train LSTM for spatio-temporal learning | |
CN111681252B (zh) | 一种基于多路径注意力融合的医学图像自动分割方法 | |
Kim et al. | Fully deep blind image quality predictor | |
CN109033095B (zh) | 基于注意力机制的目标变换方法 | |
Tang et al. | Deep networks for robust visual recognition | |
Li et al. | The theoretical research of generative adversarial networks: an overview | |
Liang et al. | MAFNet: Multi-style attention fusion network for salient object detection | |
CN111583285A (zh) | 一种基于边缘关注策略的肝脏影像语义分割方法 | |
CN109300531A (zh) | 一种脑疾病早期诊断方法和装置 | |
US20240161251A1 (en) | Image denoising method and apparatus based on wavelet high-frequency channel synthesis | |
Rivadeneira et al. | Thermal image super-resolution challenge-pbvs 2021 | |
CN115239591A (zh) | 图像处理方法、装置、电子设备、存储介质及程序产品 | |
CN111325766A (zh) | 三维边缘检测方法、装置、存储介质和计算机设备 | |
Bezak | Building recognition system based on deep learning | |
CN116977343A (zh) | 图像处理方法、装置、设备、存储介质及程序产品 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN116168197A (zh) | 一种基于Transformer分割网络和正则化训练的图像分割方法 | |
Lai et al. | Generative focused feedback residual networks for image steganalysis and hidden information reconstruction | |
CN111626296A (zh) | 基于深度神经网络的医学图像分割系统及方法、终端 | |
CN116612416A (zh) | 一种指代视频目标分割方法、装置、设备及可读存储介质 | |
US20230073175A1 (en) | Method and system for processing image based on weighted multiple kernels | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN113378722B (zh) | 基于3d卷积和多级语义信息融合的行为识别方法及系统 | |
CN115601257A (zh) | 一种基于局部特征和非局部特征的图像去模糊方法 | |
Jiao et al. | Laplacian denoising autoencoder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |