CN116205806B - 一种图像增强方法及电子设备 - Google Patents
一种图像增强方法及电子设备 Download PDFInfo
- Publication number
- CN116205806B CN116205806B CN202310042833.3A CN202310042833A CN116205806B CN 116205806 B CN116205806 B CN 116205806B CN 202310042833 A CN202310042833 A CN 202310042833A CN 116205806 B CN116205806 B CN 116205806B
- Authority
- CN
- China
- Prior art keywords
- image
- enhanced
- dictionary
- enhancement
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 238000006243 chemical reaction Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 36
- 238000010586 diagram Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 19
- 238000012545 processing Methods 0.000 description 75
- 239000010410 layer Substances 0.000 description 30
- 230000008569 process Effects 0.000 description 29
- 238000004891 communication Methods 0.000 description 18
- 230000000873 masking effect Effects 0.000 description 16
- 238000010295 mobile communication Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 239000004973 liquid crystal related substance Substances 0.000 description 8
- 238000006731 degradation reaction Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000002708 enhancing effect Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
-
- G06T5/94—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Abstract
本申请实施例一种图像增强方法及电子设备,该方法包括:获取待增强图像,对待增强图像进行卷积提取,得到待增强特征图,利用预先训练的第一字典和预先训练的用于计算待增强图像的稀疏编码的算法参数,得到待增强特征图的第一稀疏编码,通过预先训练的编码转换关系,将第一稀疏编码转换为对应的第二稀疏编码,利用第二稀疏编码和预先训练的第二字典,得到对应的增强特征图,根据增强特征图得到与待增加图像对应的增强后的图像。本申请实现了对待增强图像中的所有需要增强区域同时进行增强,解决了待增强图像中需要增强区域的数量的限制问题,并且对稀疏编码进行转换,不再共用一套稀疏编码,使得待增强图像的增强效果满足用户需求,增强效果更好。
Description
技术领域
本申请涉及图像处理领域,尤其涉及一种图像增强方法及电子设备。
背景技术
在日常生活中,用户经常会使用智能手机进行照片的拍摄,由于智能手机的摄像头、传感器等硬件条件限制,在手机端往往需要对拍摄得到的照片进行后期处理,包括去噪、超分辨率等处理方法,让智能手机所输出的照片可以满足用户对于照片清晰度方面的要求,例如:对于包括人脸信息的照片进行人脸增强处理,对于包含建筑的照片对建筑进行增强等。
当前技术中,以人脸为例进行说明,对于人脸增强的方法通常是基于“人脸检测-人脸剪切-人脸增强-人脸回帖”的处理逻辑,对包含人脸信息的图像中的每张人脸进行单独处理。
上述方法虽然可以对图像中的需要增强的区域进行增强,但是必须对图像中需要增强的区域逐一处理,受到图像中需要增强的区域的数量的制约,无法处理同时存在多个需要增强区域的图像(例如:合影场景、包含多个建筑的风景图等)。
发明内容
本申请提供的一种图像增强方法,解决了图像中存在增强需求的区域数量的制约问题,可以同时对图像中的所有需要增强的区域进行增强处理。
为达到上述目的,本申请采用如下技术方案:
本申请的第一方面提供一种图像增强方法,该方法包括:获取待增强图像,对待增强图像进行卷积提取,得到对应的待增强特征图,利用预先训练的第一字典和预先训练的用于计算待增强图像的稀疏编码的算法参数,得到待增强特征图的第一稀疏编码,通过预先训练的编码转换关系,将第一稀疏编码转换为对应的第二稀疏编码,利用第二稀疏编码和预先训练的第二字典,得到对应的增强特征图,根据增强特征图得到与待增加图像对应的增强后的图像,完成图像增强方法。通过稀疏编码的方式,对待增强图像的全局进行增强,解决了待增强图像中需要增强区域的数量的限制问题,可以同时对图像中所有需要增强的区域进行增强处理;并且根据编码转换关系对稀疏编码进行了转换,不再共用一套稀疏编码,从而使得待增强图像的增强效果更好,满足用户对于增强效果的需求。
在一种可能的实现方式中,首先获取屏蔽先验信息;利用屏蔽先验信息引导对待增强图像进行特征提取,以得到与待增强图像中的存在增强需求的区域对应的待增强特征图。引入屏蔽先验知识作为引导,使得后续的处理更加关注需要增强的区域,而忽视不需要增强的区域,大大减少了整个处理过程的计算量,减少了整个过程所需要的时间,提高了图像增强的效率。
在一种可能的实现方式中,待增强图像是:包含多张人脸的合影图像;那么待增强图像中的存在增强需求的区域是:该合影图像中的人脸区域。随着技术的发展,对于合影图像中的人脸的清晰度的要求也在提高,需要对人脸区域进行增强处理的需要也随之提高,所以本申请可以满足用户对于人脸区域增强处理的需求。
在一种可能的实现方式中,待增强图像是:包含多个建筑的风景图像;那么待增强图像中的存在增强需求的区域是:该风景图像中的建筑区域。
在一种可能的实现方式中,编码转换关系是表示待增强图像特征的稀疏编码与表示增强后图像特征的稀疏编码的非线性转换关系。本申请中不再共用一个稀疏编码表达待增强特征图和增强特征图,规避了图像增强处理过程是线性处理的先验知识,图像增强的效果能够更加适配待增强图像,从而使得图像增强效果更好。
在一种可能的实现方式中,对第一类图像中的第一图像进行特征提取,得到第一特征图,利用第一初始字典和用于计算待增强图像的稀疏编码的初始算法参数,得到与第一特征图对应的稀疏编码,根据第一特征图对应的稀疏编码和第一初始字典,计算得到第一输出特征图,对第一输出特征图进行处理得到第一输出图像,根据第一图像和第一输出图像进行第一损失函数的计算,根据第一损失函数的计算结果,调整第一初始字典以及用于计算所述待增强图像的稀疏编码的初始算法参数,最终得到预先训练的第一字典以及预先训练的用于计算所述待增强图像的稀疏编码的算法参数。
在一种可能的实现方式中,基于第一类图像中任意一个第一图像,得到第一初始字典。
在一种可能的实现方式中,对第一类图像中的第一图像进行特征提取,得到第一特征图,基于第一特征图得到对应的稀疏编码,利用初始编码转换关系,将第一特征图对应的稀疏编码转换为增强后的第一图像的稀疏编码,根据增强后的第一图像的稀疏编码和初始第二字典,得到第二特征图,对第二特征图进行处理得到第二输出图像,根据与第一图像对应的第二图像和第二输出图像进行第二损失函数的计算,根据第二损失函数的计算结果,调整初始编码转换关系以及第二初始字典,最终得到预先训练的编码转换关系和所述预先训练的第二字典。
在一种可能的实现方式中,基于第二类图像中任意一个第二图像,得到第二初始字典。
在一种可能的实现方式中,第一类图像中的第一图像是通过第一拍摄设备在第一时间、第一角度、拍摄目标所得到的;第二类图像中的第二图像是通过第二拍摄设备在第二时间、第二角度、拍摄目标所得到的,第一时间与第二时间的时间间隔小于预设时间间隔,第一角度和第二角度的角度偏差小于预设角度范围,第一拍摄设备得到的图像的分辨率小于所述第二拍摄设备得到的图像的分辨率。在网络训练过程中,为了满足实际情况,在本申请中训练图像增强模型采用两类来自不同硬件设备的图像,由于第一类图像与第二类图像来自于两种完全不同的摄像头模组与传感器,所以无法获取高清图像到低清图像的退化过程的先验信息,规避了图像增强处理过程是线性处理的先验知识,图像增强的效果能够更加适配待增强图像,从而使得图像增强效果更好。
第二方面,本申请提供了一种电子设备,该电子设备包括处理器和存储器;存储器存储计算机执行指令;处理器执行存储器存储的计算机执行指令,使得处理器执行上述第一方面的方法。
第三方面,本申请提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序或指令,当计算机程序或指令被运行时,实现上述第一方面的方法。
第四方面,本申请提供了一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时,实现上述第一方面的方法。
附图说明
图1A为本申请实施例提供的一种电子设备的组成示例图;
图1B为本申请实施例提供的一种电子设备的软件结构示例图;
图2为本申请实施例提供的一种人脸增强模型的结构示意图;
图3A为本申请实施例提供的一种ISTA算法框图的示意图;
图3B为本申请实施例提供的一种LISTA算法框图的示意图;
图4为本申请实施例提供的一种人脸增强模型训练方法示意图;
图5为本申请实施例提供的一种图像增强方法的流程示意图。
实施方式
本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于限定特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍:
超分辨率(Super-Resolution),简称超分(SR),通常是指将分辨率较低的图像转换成分辨率较高的图像,超分辨率的目的简单来说是增大图像的分辨率,以防止图像质量下降。
特征提取(Feature extraction)是对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一种方法。以下结合当前技术中对存在需要增强区域的图像进行增强的方法,对比说明本申请实施例提供的一种图像增强方法的优势。以待增强图像为合影图像为例进行说明。
在一些实现方式中,人脸增强方法是基于“人脸检测-人脸裁切-人脸增强-人脸回帖”的处理逻辑对每张人脸单独处理。人脸检测(Face Detection)是指对于任意一幅给定的图像,采用一定的策略对给定的图像进行搜索,以确定给定的图像是否含有人脸,如果是,则返回人脸的位置、大小和姿态;人脸裁切是指将检测到人脸数据从图像中裁切出来;人脸增强是指对于裁切出来的人脸数据进行增强,从而得到增强后的人脸数据;人脸回帖是指将增强后的人脸数据重新贴回给定的图像中,从而完成人脸增强。
采用上述处理逻辑对人脸数据进行增强可以达到较好的增强效果,上述处理逻辑对人脸增强的过程中,必须对给定的图像中的每张人脸单独进行处理,例如:图像中包括人脸a、人脸b和人脸c,通过上述处理逻辑,需要先对人脸a进行增强处理,对人脸a处理完成后,再对人脸b进行增强处理,对人脸b处理完成后,最后对人脸c进行增强处理。针对包含多张人脸数据的图像(例如:毕业大合影图像)进行人脸的增强的话,无法对所有人脸同时进行增强。因为基于“人脸检测-人脸裁切-人脸增强-人脸回帖”处理逻辑做并行化处理的话,需要多个“人脸检测-人脸裁切-人脸增强-人脸回帖”处理逻辑构成的模型,同时进行人脸数据的处理,需要存储多个人脸的输入输出数据,以及存储与多个人脸数据一一对应的处理模型,内存开销太大,从而导致内存不足以支撑并行处理,从而可能会导致人脸增强失败。所以采用上述处理逻辑对所有人脸数据都进行增强,需要对于所有人脸进行单独的增强处理,需要较长的处理时间,使得人脸增强的效率较低。
在另一些实现方式中,可以采用在全图尺寸下的整体超分辨率任务对图像的清晰度整体进行提升,但是人脸增强包括了人脸超分、人脸去噪、人脸重塑等一系列任务,普通的超分辨率任务无法实现针对于人脸的增强任务。并且普通的超分辨率任务是对于整体画面的超分辨率任务,即是适用于各种情况下的,所以普通的超分辨率任务没有针对性,并不能完全适配于人脸增强任务中。
综上所述,当前已有的图像增强方法中,如果要达到较好的增强效果,需要对待增强图像中的多个需要增强区域进行逐一处理,受到图像中需要增强区域的数量的限制;采用常用的全图尺寸下的整体超分辨率任务,无法完全适配图像中的需要增强区域,导致增强效果较差,比如:当前已有的超分辨率任务是共用一套稀疏编码,只能对图片进行简单的锐化、去噪等处理,对于图像细节的增强效果较差,所以对于需要增强的区域的增强效果较差。
本申请中,在图像增强任务中,将稀疏编码、字典学习和深度学习相结合,对待增强图像中的所有需要增强区域(例如:合影图像中的人脸区域、包含多个建筑的风景图像中的建筑区域)同时进行增强。以对合影图像中需要增强区域为人脸区域为例进行介绍,电子设备输入合影图像,引入屏蔽模块作为先验信息,然后对合影图像进行特征提取从而得到合影特征图,根据合影特征图和预先训练好的低清字典,通过LISTA算法输出对应的低清空间稀疏编码,通过编码转换得到对应的高清空间的稀疏编码,根据高清字典和对应的高清空间稀疏编码得到高清空间的合影特征图,经过卷积输出从而得到对人脸增强后的合影图像。
综上所述,本申请提供的图像增强方法通过一次处理即可实现同时对所有需要增强区域的增强,大大减少了处理时所占用的内存,从而避免了待增强图像中的需要增强区域数量的限制,并且由于是对所有需要增强的区域进行处理,从而也减少了处理时间,提高了图像增强的效率。并且图像增强处理过程中,低清空间的稀疏编码转换为高清空间的稀疏编码的部分,引入了非线性转换网络,规避了低清空间的稀疏编码转换为高清空间的稀疏编码的转换过程是线性转换的先验知识,使得进行图像增强处理的模型的拟合能力更强。由于稀疏编码的转换过程不再是线性变换,所以对于图像的增强处理不仅仅是简单的锐化、去噪等简单处理,而是更加关注图像细节的增强,提高了图像增强的效果。
进一步,在输入待增强图像之前,图像增强处理的模型引入屏蔽模块作为先验知识,使得后续的处理更加关注需要增强区域,大大减少了整个图像增强处理过程的计算量,大大减少了整个过程所需要的时间,进一步提高了图像增强的效率,并且图像增强处理更加关注需要增强区域,进一步提高了图像增强的效果。
由此可知,利用训练数据集对图像增强模型进行训练,从而得到训练好的图像增强模型,训练好的图像增强模型对所有需要增强区域同时进行增强,从而可以实现针对待增强图像中的所有需要增强区域同时进行增强,在保证图像增强效果满足用户需求的同时,大大减少了所需的处理内存,同时也减少了所需要的处理时间,大大提高了图像增强的效率。
在一些实施例中,电子设备可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant,PDA)、可穿戴电子设备、智能手表等设备,本申请对上述电子设备的具体形式不做特殊限制。在本实施例中,电子设备的结构可以如图1A所示,图1A为本申请实施例提供的一种电子设备的结构示意图。
如图1A所示,电子设备可以包括处理器110,天线1,天线2,移动通信模块120,无线通信模块130,显示屏140,摄像头150,内部存储器160以及触摸传感器170等。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。例如:可以执行对于合影图像中的人脸进行增强处理,从而使得合影图像中人脸数据的清晰图满足用户的需求;也可以执行对于包含多个建筑的风景图像中的建筑进行增强处理。
其中,控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器170,充电器,闪光灯,摄像头150等。例如:处理器110可以通过I2C接口耦合触摸传感器170,使处理器110与触摸传感器170通过I2C总线接口通信,实现电子设备的触摸功能。
MIPI接口可以被用于连接处理器110与显示屏140,摄像头150等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头150通过CSI接口通信,实现电子设备的拍摄功能。处理器110和显示屏140通过DSI接口通信,实现电子设备的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头150,显示屏140,无线通信模块130,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
电子设备的无线通信功能可以通过天线1,天线2,移动通信模块120,无线通信模块130,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块120可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块120可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块120可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块120还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块120的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块120的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏140显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块120或其他功能模块设置在同一个器件中。
无线通信模块130可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块130可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块130经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块130还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备的天线1和移动通信模块120耦合,天线2和无线通信模块130耦合,使得电子设备可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC ,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system ,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备通过GPU,显示屏140,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏140和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏140用于显示图像,视频等。显示屏140包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oled,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备可以包括1个或N个显示屏140,N为大于1的正整数。
电子设备的显示屏140上可以显示一系列图形用户界面(graphical userinterface,GUI),这些GUI都是该电子设备的主屏幕。一般来说,电子设备的显示屏140的尺寸是固定的,只能在该电子设备的显示屏140中显示有限的控件。控件是一种GUI元素,它是一种软件组件,包含在应用程序中,控制着该应用程序处理的所有数据以及关于这些数据的交互操作,用户可以通过直接操作(direct manipulation)来与控件交互,从而对应用程序的有关信息进行读取或者编辑。一般而言,控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
电子设备可以通过ISP,摄像头150,视频编解码器,GPU,显示屏140以及应用处理器等实现拍摄功能。
ISP 用于处理摄像头150反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头150中。
摄像头150用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。例如:电子设备通过摄像头150对目标进行拍摄,从而获取有用图像。在一些实施例中,电子设备可以包括1个或N个摄像头150,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样,电子设备可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器160可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器160的指令,从而执行电子设备的各种功能应用以及数据处理。例如,在本实施例中,处理器110可以通过执行存储在内部存储器160中的指令,进行重新计算视频流的第一显示时间戳以及重新计算音频流的第二显示时间戳。内部存储器160可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器160可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器160的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备的各种功能应用以及数据处理。
触摸传感器170,也称“触控器件”。触摸传感器170可以设置于显示屏140,由触摸传感器170与显示屏140组成触摸屏,也称“触控屏”。触摸传感器170用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏140提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器170也可以设置于电子设备的表面,与显示屏140所处的位置不同。
另外,在上述部件之上,运行有操作系统。例如苹果公司所开发的iOS操作系统,谷歌公司所开发的Android开源操作系统,微软公司所开发的Windows操作系统等。在该操作系统上可以安装运行应用程序。
电子设备的操作系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android系统为例,示例性说明电子设备的软件结构。
图1B是本申请实施例的电子设备的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。如图1B所示,应用程序包可以包括相机,图库,日历,通话,视频,短信息,图像处理等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。如图1B所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。
表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
2D图形引擎是2D绘图的绘图引擎。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
需要说明的是,本申请实施例虽然以Android系统为例进行说明,但是其基本原理同样适用于基于iOS、Windows等操作系统的电子设备。
为了便于理解,下面以待增强图像为包含多张人脸的合影图像为例对本申请提供的图像增强方法进行介绍。需要说明的是,下面仅仅是以待增强图像为包含多张人脸的合影图像为例,当然,待增强图像也可以是包含多个建筑的风景图像,在本申请中不做具体限定。
结合图2-图3B,详细介绍本申请实施例提供的人脸增强模型200。人脸增强模型200包括:特征提取模块210、低清模块220、编码转换模块230、高清模块240以及卷积输出模块250。
其中,特征提取模块210用于将电子设备输入的合影图像进行特征提取从而获得合影图像的特征图。
具体的,在特征提取模块210对电子设备输入的合影图像(包含人脸数据的图像)进行特征提取之前,屏蔽模块260用于引入一个屏蔽人脸外的区域的屏蔽先验信息,引导后续处理。例如:特征提取模块210基于引入的屏蔽先验信息会更加关注人脸区域,也可以说该屏蔽先验信息能够引导特征提取模块210主要针对人脸区域进行特征提取,从而得到与合影图像中的人脸区域所对应的合影特征图。
需要说明的是,在本申请实施例中可以使用简单的3*3卷积神经网络实现合影图像的特征提取,也可以采用其他特征提取方式,在本申请实施例中不做具体限定。
其中,屏蔽模块260,又称为mask模块,屏蔽模块260引入屏蔽人脸外的区域的屏蔽先验信息,目的是为了使用屏蔽模块260引入的屏蔽先验信息来引导后续进行图像增强处理的时候更加关注人脸区域。屏蔽模块260引入屏蔽先验信息,可以大大减少图像增强处理过程中的计算量,从而大大减少了整个图像增强处理过程所需要的时间,进一步提高了图像增强处理的效率;与此同时,引入屏蔽先验信息,在训练过程以及图像增强处理过程中更加关注人脸区域(需要增强区域),使得对于人脸区域的增强处理的适配性高,合影图像的人脸区域的增强效果好,足以满足对于人脸区域的清晰度要求。
具体的,屏蔽模块260可以是任意人像分割网络、语义分割网络等,例如:ExtremeC3Net模型、FCN(fully convolutional networks)分割网络,在本申请实施例中不做具体限定。
其中,低清模块220用于根据特征提取模块210输出的合影特征图,基于通过网络训练得到的低清(LR)空间的低清字典(可以称为第一字典)和用于计算合影特征图的稀疏编码的算法参数,最终输出与输入的合影特征图对应的低清空间的稀疏编码(也可以称为第一稀疏编码)。
其中,稀疏编码(Sparse Coding)的本质是将输入的图像分解为多个基元的线性组合。其中这个线性组合的系数就是稀疏编码,多个基元共同构成基(基也可以称为字典)。
为了方便理解,下面结合公式1详细介绍一下低清空间的字典和与输入对应的稀疏编码。
x=D x *α (1)
其中,x表示的是低清空间的图像(在本申请实施例中是特征提取模块210输出的合影特征图),D x 表示的是低清空间的低清字典,α表示的是在低清空间中与x对应的稀疏编码。
具体的,合影特征图输入到低清模块220,低清模块220根据低清字典D x ,通过LISTA算法,最终输出与输入的合影特征图对应的低清空间的稀疏编码。
其中,低清字典是一组可以良好表示低清空间图像(待增强图像)的超完备基。低清字典是通过网络训练进行更新迭代(学习)得到的。
其中,LISTA(Learned Iterative Shrinkage and Thresholding Algorithm,可学习迭代软阈值法),这是一种高效的基于学习的方法,可以在固定的时间内计算最佳稀疏编码的良好近似稀疏编码。
具体的,下面结合图3A和图3B详细介绍一下LISTA算法。
其中,图3A为本申请实施例提供的一种ISTA算法框图的示意图。
其中,迭代收缩阈值算法(Iterative Shrinkage Thresholding Algorithm,ISTA)是一种常用用于计算稀疏编码的数学算法。为了方便理解,下面结合图3A对ISTA算法框图进行说明。
如图3A所示的是ISTA算法框图。其中,x表示的是输入(合影特征图)、hθ是激活函数(具有阈值θ的坐标收缩函数)、W是字典矩阵Wd的转置矩阵、S=Wd T*Wd。
LISTA算法是针对ISTA算法的升级版,相当于把ISTA的数学迭代过程与神经网络的训练过程做了结合。
为了方便理解,下面结合图3B所示的本申请实施例提供的一种LISTA算法框图的示意图,对LISTA算法进行说明。
LISTA算法框图使用了ISTA算法框图的时间展开版本,被截断为固定次数的迭代(在本申请实施例中,被截断为3次的迭代),通过网络训练从而学习到满足需求的LISTA算法系数(LISTA算法系数包括:hθ、W和S),从而使得输出的最优稀疏编码的近似误差最小化。
LISTA算法框图可以用公式表示:
Zk+1=hθ(W*x+S*Zk)(2)
其中,k为正整数。LISTA算法最终输出Z为迭代完成后的稀疏编码α。
进一步,在LISTA算法中对S施加限制,以进一步减少计算负担(例如保持许多项为0,或使用低秩矩阵分解)。
其中,编码转换模块230用于根据低清模块220输出的与输入合影特征图对应的稀疏编码,转换为满足高清空间的与合影特征图对应的稀疏编码。
在普通超分辨率任务中,通常默认高清(HR)图像到低清(LR)图像的退化过程为近似线性的,所以高清空间的稀疏编码与低清空间的稀疏编码共用一套稀疏编码,但是在实际情况中,无法获取高清图像到低清图像的退化过程的先验信息,并且上述退化过程在实际情况中显然是一个非线性过程。
在网络训练过程中,为了满足实际情况,在本申请中训练图像增强模型采用两类来自不同硬件设备的图像(可以称为第一类图像和第二类图像,第一类图像的分辨率小于第二类图像),在本申请实施例中第一类图像以手机拍摄得到的图像为例,第二类图像以单反相机拍摄得到的图像为例进行说明手机图像的分辨率小于单反图像的分辨率。其中,手机图像作为待增强图像(输入图像),单反图像作为增强后的图像(人脸增强后输出的目标图像),由于输入图像与目标图像来自于两种完全不同的摄像头模组与传感器,所以无法获取高清图像到低清图像的退化过程的先验信息,并且是非线性的退化过程,在实际情况中,高清图像和低清图像的退化过程是未知的(不存在退化过程的先验信息),所以预先训练的非线性编码转换关系更加符合实际情况,从而增强后的图像更加满足实际需求,增强效果更好。
具体的,由上述可知,编码转换模块230采用一个不必须需要先验信息的非线性网络映射模块进行低清空间的稀疏编码转换为高清空间的稀疏编码。例如:多层感知机(MLP,Multilayer Perceptron),除了输入层和输出层,中间可以有多个隐藏层,最简单的MLP只包含一个隐藏层,这样的MLP的结构为三层结构。在本申请实施例中,多层感知机的输入维度和输出维度一致,中间加入一层或多层(不做数量限制)的隐藏层用于对低清空间的稀疏编码进行重组、转换,最终获得的高清空间的稀疏编码的每个点都融合了输入层所有节点的信息。
需要说明的是,编码转换模块230可以采用多层感知机结构,也可以采用其他不必须需要先验信息的非线性网络映射模块,在本申请实施中不做具体限定。
其中,高清模块240由于根据编码转换模块230输出的高清空间的稀疏编码,根据高清空间的高清字典(也可以称为第二字典),从而得到高清空间的最终特征图。
其中,高清字典是一组可以良好表示高清空间图像(增强后图像)的基。高清字典是通过网络训练,从而更新迭代(学习)得到的。
其中,卷积输出模块250用于根据输入的高清空间的最终特征图,使用卷积输出方式将最终特征图转换为目标图像(RGB图像),也就是得到增强后的图像。
RGB图像是一种采用RGB格式的图像,RGB是一种颜色标准,通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个标准几乎包括了人类视力所能感知的所有颜色。
具体的,卷积输出模块250所采用的方式应该和特征提取模块210所采用的方式所对应。例如:在本申请实施例中特征提取模块210采用3*3卷积模块进行特征提取,那么卷积输出模块250采用卷积3*3卷积模块来输出特征,最终输出目标图像。
结合图4,详细介绍本申请实施例提供的人脸增强模型200的监督训练。基于人脸增强模型200的结构,需要进行监督训练主要是低清模块220、编码转换模块230以及高清模块240。根据低清空间和高清空间的类别,将上述三个模块的监督训练分为两部分,低清模块220为第一部分,编码转换模块230和高清模块240共同构成第二部分。
训练所用的训练数据集由第一类图像和第二类图像构成,第一类图像和第二类图像存在一一对应的关系,即训练数据集包括多组训练数据对,每组训练数据对由第一类图像中的第一图像和第二类图像中对应的第二图像所构成。
其中,第一类图像中的第一图像是通过第一拍摄设备在第一时间、第一角度、拍摄目标所得到的;第二类图像中的第二图像是通过第二拍摄设备在第二时间、第二角度、拍摄目标所得到的。具体的,第一时间与第二时间的时间间隔小于预设时间间隔,第一角度和所述第二角度的角度偏差小于预设角度范围,并且第一拍摄设备得到的图像的分辨率小于第二拍摄设备得到的图像的分辨率。
具体的,在本申请实施例中,训练所用的训练数据集由真实拍摄数据对构成,具体的数据对为手机图像(第一图像)和单反图像(第二图像)对应构成。训练数据集中的一组数据对中的手机图像和单反图像的拍摄位置在预设位置范围内、拍摄角度在预设角度范围内、拍摄时间在预设时间间隔内、拍摄同一个合影场景从而获得的。
具体的,以一组数据对为例进行说明。
第一部分,电子设备将手机图像(第一图像)输入人脸增强模型200,经过屏蔽模块260和特征提取模块210的处理后,得到输入特征图(也可以称为第一特征图),将得到的输入特征图输入给低清模块220,低清模块220根据初始低清字典(也可以称为第一初始字典)和用于计算待增强图像(输入的手机图像)的稀疏编码的初始算法参数进行计算,从而得到低清空间220的低清特征图(也可以称为第一输出特征图),对得到的低清特征图进行卷积输出,从而得到低清模块220对应的低清输出图像(也可以称为第一输出图像),将低清输出图像与训练输入的手机图像(第一图像)进行第一损失函数的计算,利用第一损失函数的计算结果监督第一部分的训练。
低清模块220的学习模式是采用的编码与字典交替学习,首先确定初始低清字典,然后固定初始低清字典;根据初始低清字典采用LISTA算法得到与输入(输入的手机图像的特征图)对应的稀疏编码;固定对应的稀疏编码,根据对应的稀疏编码,获得对应的低清字典(固定稀疏编码,进行低清字典学习/更新迭代)。低清模块220最终确定一组满足需求的低清字典(第一字典)和用于计算所述待增强图像的稀疏编码的算法参数。
其中,首先确定初始低清字典,可以是根据已有的先验信息确定一组低清空间的字典,作为初始低清字典,也可以采用自编码器(Auto Encoder)的结构来获得初始低清字典。在本申请不做具体限定。
具体的,初始低清字典(第一初始字典)可以是根据第一类图像中任意一个第一图像得到的。
然后根据初始低清字典,通过LISTA算法得到低清空间的稀疏编码α,在采用LISTA算法得到迭代完成后的稀疏编码α,将稀疏编码α固定,根据固定了的稀疏编码α进行低清字典的迭代更新(学习)。
其中,字典学习(Dictionary Learning)的目标是提取事物的本质特征。用字典来表征该事物的特征。(用尽可能少的资源表示尽可能多的知识)。例如:在本申请实施例中,通过字典学习得到完备的低清字典,低清模块220可以基于该完备的低清字典,通过稀疏编码的方式表征出输入到人脸增强模型200的合影图像的特征(训练数据集中的低分辨率图像)。
具体的,低清字典的迭代更新可以使用神经网络进行,也可以使用KSVD算法等传统方法来进行更新,本申请实施例中不做具体限定。
其中,使用神经网络对低清字典进行更新迭代,可以参考自编码器(AutoEncoder)的结构进行更新迭代。自编码器的结构是一种无监督学习模型,基于反向传播算法与最优化方法(例如梯度下降法),例如输入数据本身作为监督,来指导神经网络学习一个映射关系,从而得到一个重构输出。
其中,KSVD算法是一种经典的字典训练算法,依据误差最小原则,对误差项进行SVD分解,选择使误差最小的分解项作为更新的字典原子和对应的原子系数,经过不断的迭代从而得到优化的解。即是在满足稀疏编码的条件下对低清字典进行更新优化,从而减少整体误差。
具体的,第一部分的损失函数主要由均方差损失函数、对抗损失函数和感知损失函数共同构成。需要说明的是,第一部分的损失函数也可以称为第一损失函数。
其中,均方差(Mean Squared Error,MSE)损失函数,也称为了L2 loss,均方差损失函数是预测数据和原始数据对应点误差的平方和的均值。
其中,对抗损失函数(Adversarial loss)为了模拟真实世界各种影响因素的情况(例如噪声影响),让模型鲁棒性更强,准确性更高。
其中,感知损失函数(Perceptual loss),也被成为VGG Loss,可以用于比较两张图像感官上的差距。具体来说的话就是将两张图像送入预训练好的VGG-19网络中提取各层特征,然后对比各层特征之间的差异(使用L1Loss)来评判。
具体的,第一部分的损失函数(第一损失函数)的公式如下:
(3)
其中,x'为低清模块220得到的低清字典Dx和低清空间的稀疏编码Zx计算获得的特征图,并经过卷积输出处理后的低清输出图像,x为是实际的输入图像。
第二部分,将低清模块220输出的与输入图像对应的低清空间的稀疏编码输入编码转换模块230,编码转换模块230将利用初始转换关系将低清空间的稀疏编码转换为高清空间的稀疏编码并输入到高清模块240,根据高清空间的稀疏编码和初始高清字典(第二初始字典)进行计算得到高清输出特征图(第二输出特征图),然后将高清输出特征图输入到卷积输出模块250,卷积输出模块250输出高清输出图像(第二输出图像),将高清输出图像与对应的单反图像(与第一图像对应的第二图像)进行第二损失函数的计算,利用损失函数的计算结果监督第二部分的训练(利用第二损失函数监督编码转换模块230和高清模块240的训练)。
其中,根据编码转换模块230输出的高清空间的稀疏编码对初始高清字典(第二初始字典)进行更新迭代(学习)。
其中,首先确定初始高清字典,可以是根据已有的先验信息确定一组高清空间的字典,作为初始高清字典,也可以采用自编码器(Auto Encoder)的结构来获得初始高清字典。在本申请不做具体限定。
具体的,初始高清字典(第二初始字典)可以是根据第二类图像中任意一个第二图像得到的。
具体的,将编码转换模块230输出的高清空间的稀疏编码进行固定,根据固定后的高清空间稀疏编码对高清字典进行更新迭代。
具体的,高清字典进行更新迭代的方式跟低清模块220中的低清字典的更新迭代方式相同。可以采用神经网络方式(例如:自编码器),也可以使用KSVD等传统方式,在本申请实施例中不做具体限定。
具体的,第二部分的损失函数主要由均方差损失函数、对抗损失函数和感知损失函数共同构成。需要说明的是,第二部分的损失函数也可以称为第二损失函数。
具体的,第二部分的损失函数的公式如下:
(4)
其中,y'为人脸增强模型200的高清输出图像,y为目标图像(数据集中与输入图像对应的单反图像)。
具体的,第一部分的训练和第二部分的训练可以分开进行,也可以同时进行,本申请不做具体限定。
其中,分开进行训练时,先训练人脸增强模型200的第一部分,得到已经训练好的低清模块220后,基于训练好的低清模块220,对第二部分进行训练,从而得到训练好的人脸增强模型200。
在本申请实施例中,利用训练数据集对人脸增强模型进行训练,从而得到训练好的人脸模型可以实现针对合影场景下的多个人脸数据同时进行增强。具体的,电子设备输入合影图像到人脸增强模型中,首先引入屏蔽模块作为先验信息,然后通过特征提取模块处理得到合影特征图,将合影特征图输入到低清模块,低清模块根据训练得到的低清字典和固定的LISTA算法参数,输出对应的低清空间的稀疏编码,并输入给编码转换模块;编码转换模块根据输入的低清空间稀疏编码,输出对应的高清空间稀疏编码并输入给高清模块;高清模块根据训练得到的高清字典以及输入的高清空间的稀疏编码,得到对应的高清空间的合影特征图,并输入给卷积输出模块,卷积输出模块输出人脸增强处理后的合影图像。在人脸增强任务中引入了稀疏编码、字典学习和深度学习结合的方法,通过对所有需要增强区域同时进行增强,从而避免了受到人脸数量限制的问题;在低清空间的稀疏编码转换为高清空间的稀疏编码的过程中,引入了非线性转换网络,规避了低清空间的稀疏编码转换为高清空间的稀疏编码的转换过程是线性转换的先验知识,使得人脸增强模型的拟合能力更强,更加符合现实情况。
进一步,在输入合影图像之前,人脸增强模型引入屏蔽模块作为先验知识,使得后续的处理更加关注人脸区域,大大减少了整个处理过程的计算量,减少了整个过程所需要的时间,提高了人脸增强的效率,并且人脸增强模型的训练也更加关注人脸区域,使得训练得到的人脸增强模型对于人脸区域增强的适配性高,从而使得人脸区域的增强效果好。
下面结合图5,介绍一下本申请实施例还提供一种图像增强方法。
S501、电子设备获取待增强图像。
具体的,待增强图像可以是包含多个需要增强区域的图像。例如:包含多个人脸区域的合影图像、包含多个建筑区域的风景图像等。
S502、电子设备对该待增强图像进行特征提取,得到与所述待增强图像对应的待增强特征图。
具体的,电子设备获取屏蔽先验信息,根据获取的屏蔽先验信息,对所述待增强图像进行特征提取,得到与所述待增强图像中的存在增强需求的区域对应的待增强特征图。
其中,屏蔽先验信息是屏蔽所述待增强图像中的没有增强需求的区域的先验信息,也可以称为引导后续增强处理更加关注需要增强区域的先验信息。
S503、电子设备根据待增强特征图,利用预先训练的第一字典以及预先训练的用于计算待增强图像的稀疏编码的算法参数,得到与待增强特征图对应的第一稀疏编码。
其中,第一字典为一组用于表示待增强特征图的超完备基。
其中,用于计算待增强图像的稀疏编码的算法是可学习迭代软阈值法。
S504、电子设备利用预先训练的编码转换关系,将第一稀疏编码转换为所述第一稀疏编码对应的第二稀疏编码。
其中,编码转换关系为表示待增强图像特征的稀疏编码与表示增强后图像特征的稀疏编码的转换关系。
具体的,编码转换关系为表示待增强图像特征的稀疏编码与表示增强后图像特征的稀疏编码的非线性转换关系。
其中,第二稀疏编码为待增强图像增强后的图像对应的稀疏编码。
S505、电子设备根据第二稀疏编码,利用预先训练的第二字典,得到待增强图像增强后的图像对应的增强特征图。
其中,第二字典为一组用于表示增强特征图的超完备基;
S506、电子设备基于增强特征图,得到与待增强图像对应的增强后的图像。
具体的,对增强特征图进行卷积输出,从而得到增强后的图像,即目标图像,实现对待增强图像的增强处理。
本申请实施例提供了一种图像增强方法,该方法包括:获取待增强图像,对该待增强图像进行特征提取,得到对应的待增强特征图,利用预先训练的第一字典以及预先训练的用于计算待增强图像的稀疏编码的算法参数,计算得到与所述待增强特征图对应的第一稀疏编码,利用预先训练的编码转换关系,将第一稀疏编码转换为所述第一稀疏编码对应的第二稀疏编码,根据第二稀疏编码和预先训练的第二字典,得到待增强图像增强后的图像对应的增强特征图,根据增强特征图得到目标图像。通过稀疏编码的方式,对待增强图像的所有需要增强区域同时进行增强,避免了需要增强区域的数量的限制,并且存在编码转换关系,不再共用一个稀疏编码表达待增强特征图和增强特征图,规避了图像增强处理过程是线性处理的先验知识,图像增强的效果能够更加适配待增强图像,从而使得图像增强效果更好。
进一步,引入屏蔽先验知识作为引导,使得后续的处理更加关注需要增强的区域,而忽视不需要增强的区域,大大减少了整个处理过程的计算量,减少了整个过程所需要的时间,提高了图像增强的效率。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或指令被运行时,使得电子设备实现上述的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时,使得电子设备实现上述的各个功能或者步骤。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种图像增强方法,其特征在于,所述方法包括:
获取待增强图像;
对所述待增强图像进行特征提取,得到与所述待增强图像对应的待增强特征图;
基于所述待增强特征图,利用预先训练的第一字典以及预先训练的用于计算所述待增强图像的稀疏编码的算法参数,得到与所述待增强特征图对应的第一稀疏编码;所述第一字典为一组用于表示所述待增强特征图的超完备基;
基于所述第一稀疏编码,利用预先训练的编码转换关系,得到与所述第一稀疏编码对应的第二稀疏编码;所述编码转换关系为表示所述待增强图像特征的稀疏编码与表示增强后图像特征的稀疏编码的转换关系;所述第二稀疏编码为所述待增强图像增强后的图像对应的稀疏编码;
基于所述第二稀疏编码,利用预先训练的第二字典,得到所述待增强图像增强后的图像对应的增强特征图;所述第二字典为一组用于表示所述增强特征图的超完备基;
基于所述增强特征图,得到与所述待增强图像对应的增强后的图像;
其中,所述编码转换关系和所述第二字典基于第一图像对应的第二图像和输出图像之间的损失函数训练得到;所述输出图像是所述第一图像增强后的图像,所述第一图像的分辨率小于所述第二图像的分辨率。
2.根据权利要求1所述的方法,其特征在于,所述对所述待增强图像进行特征提取,得到与所述待增强图像对应的待增强特征图包括:
获取屏蔽先验信息;所述屏蔽先验信息为屏蔽所述待增强图像中的没有增强需求的区域的先验信息;
基于所述屏蔽先验信息,对所述待增强图像进行特征提取,得到与所述待增强图像中的存在增强需求的区域对应的待增强特征图。
3.根据权利要求2所述的方法,其特征在于,所述待增强图像包括:包含多张人脸的合影图像;所述待增强图像中的存在增强需求的区域包括:所述合影图像中的人脸区域。
4.根据权利要求2所述的方法,其特征在于,所述待增强图像包括:包含多个建筑的风景图像;所述待增强图像中的存在增强需求的区域包括:所述风景图像中的建筑区域。
5.根据权利要求1所述的方法,其特征在于,所述编码转换关系包括:表示所述待增强图像特征的稀疏编码与表示增强后图像特征的稀疏编码的非线性转换关系。
6.根据权利要求1所述的方法,其特征在于,所述预先训练的第一字典以及预先训练的用于计算所述待增强图像的稀疏编码的算法参数是通过如下方式获得的:
对第一图像进行特征提取,从而获得与所述第一图像对应的第一特征图;所述第一图像为第一类图像中的任意一个,所述第一类图像存在对应的第二类图像,所述第一类图像的分辨率小于所述对应的第二类图像的分辨率;
基于所述第一特征图,利用第一初始字典以及用于计算所述待增强图像的稀疏编码的初始算法参数,得到与所述第一特征图对应的稀疏编码;
基于与所述第一特征图对应的稀疏编码和第一初始字典,计算获得对应的第一输出特征图;
基于所述第一输出特征图,得到对应的第一输出图像;
基于所述第一图像与所述第一输出图像,进行第一损失函数的计算;
基于所述第一损失函数的计算结果,调整所述第一初始字典以及用于计算所述待增强图像的稀疏编码的初始算法参数,以得到预先训练的第一字典以及预先训练的用于计算所述待增强图像的稀疏编码的算法参数。
7.根据权利要求6所述的方法,其特征在于,所述第一初始字典是通过如下方式获得的:基于所述第一类图像中任意一个第一图像,得到所述第一初始字典。
8.根据权利要求1所述的方法,其特征在于,所述预先训练的编码转换关系和所述预先训练的第二字典是通过如下方式获得的:
对第一图像进行特征提取,得到与所述第一图像对应的第一特征图;所述第一图像为第一类图像中的任意一个,所述第一类图像存在对应的第二类图像,所述第一类图像的分辨率小于所述对应的第二类图像的分辨率;
基于所述第一特征图,得到与所述第一特征图对应的稀疏编码;
基于所述与所述第一特征图对应的稀疏编码和初始编码转换关系,得到与增强后的第一图像对应的稀疏编码;
基于所述与增强后的第一图像对应的稀疏编码和第二初始字典,得到对应的第二输出特征图;
基于所述第二输出特征图,得到对应的第二输出图像;
基于所述第二类图像中的与第一图像对应的第二图像和所述第二输出图像,进行第二损失函数的计算;
基于所述第二损失函数的计算结果,调整所述初始编码转换关系以及所述第二初始字典,以得到所述预先训练的编码转换关系和所述预先训练的第二字典。
9.根据权利要求8所述的方法,其特征在于,所述第二初始字典是通过如下方式获得的:基于所述第二类图像中任意一个第二图像,得到所述第二初始字典。
10.根据权利要求6-9任意一项所述的方法,其特征在于,所述第一类图像中的第一图像是通过第一拍摄设备在第一时间、第一角度、拍摄目标所得到的;
所述第二类图像中的第二图像是通过第二拍摄设备在第二时间、第二角度、拍摄目标所得到的;
所述第一时间与所述第二时间的时间间隔小于预设时间间隔,所述第一角度和所述第二角度的角度偏差小于预设角度范围;
所述第一拍摄设备得到的图像的分辨率小于所述第二拍摄设备得到的图像的分辨率。
11.一种电子设备,其特征在于,包括处理器和存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1-10中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或指令被运行时,实现如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042833.3A CN116205806B (zh) | 2023-01-28 | 2023-01-28 | 一种图像增强方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310042833.3A CN116205806B (zh) | 2023-01-28 | 2023-01-28 | 一种图像增强方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116205806A CN116205806A (zh) | 2023-06-02 |
CN116205806B true CN116205806B (zh) | 2023-09-19 |
Family
ID=86518383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310042833.3A Active CN116205806B (zh) | 2023-01-28 | 2023-01-28 | 一种图像增强方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205806B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN104253994A (zh) * | 2014-09-03 | 2014-12-31 | 电子科技大学 | 一种基于稀疏编码融合的夜间监控视频实时增强方法 |
CN105631807A (zh) * | 2015-12-21 | 2016-06-01 | 西安电子科技大学 | 基于稀疏域选取的单帧图像超分辨重建方法 |
CN106709872A (zh) * | 2016-12-08 | 2017-05-24 | 中国人民解放军国防科学技术大学 | 一种快速图像超分辨率重构方法 |
CN106780342A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华星光电技术有限公司 | 基于稀疏域重构的单帧图像超分辨重建方法及装置 |
CN107833182A (zh) * | 2017-11-20 | 2018-03-23 | 西安建筑科技大学 | 基于特征提取的红外图像超分辨率重建方法 |
CN108447020A (zh) * | 2018-03-12 | 2018-08-24 | 南京信息工程大学 | 一种基于极深卷积神经网络的人脸超分辨率重建方法 |
CN109741256A (zh) * | 2018-12-13 | 2019-05-10 | 西安电子科技大学 | 基于稀疏表示和深度学习的图像超分辨率重建方法 |
CN110570351A (zh) * | 2019-08-01 | 2019-12-13 | 武汉大学 | 一种基于卷积稀疏编码的图像超分辨率重建方法 |
CN112907449A (zh) * | 2021-02-22 | 2021-06-04 | 西南大学 | 一种基于深度卷积稀疏编码的图像超分辨率重建方法 |
CN114331918A (zh) * | 2022-03-08 | 2022-04-12 | 荣耀终端有限公司 | 图像增强模型的训练方法、图像增强方法及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8867857B2 (en) * | 2011-12-28 | 2014-10-21 | Samsung Electronics Co., Ltd. | Method for restoration of blurred barcode images |
CN111583097A (zh) * | 2019-02-18 | 2020-08-25 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
-
2023
- 2023-01-28 CN CN202310042833.3A patent/CN116205806B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103971690A (zh) * | 2013-01-28 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声纹识别方法和装置 |
CN104253994A (zh) * | 2014-09-03 | 2014-12-31 | 电子科技大学 | 一种基于稀疏编码融合的夜间监控视频实时增强方法 |
CN105631807A (zh) * | 2015-12-21 | 2016-06-01 | 西安电子科技大学 | 基于稀疏域选取的单帧图像超分辨重建方法 |
CN106709872A (zh) * | 2016-12-08 | 2017-05-24 | 中国人民解放军国防科学技术大学 | 一种快速图像超分辨率重构方法 |
CN106780342A (zh) * | 2016-12-28 | 2017-05-31 | 深圳市华星光电技术有限公司 | 基于稀疏域重构的单帧图像超分辨重建方法及装置 |
CN107833182A (zh) * | 2017-11-20 | 2018-03-23 | 西安建筑科技大学 | 基于特征提取的红外图像超分辨率重建方法 |
CN108447020A (zh) * | 2018-03-12 | 2018-08-24 | 南京信息工程大学 | 一种基于极深卷积神经网络的人脸超分辨率重建方法 |
CN109741256A (zh) * | 2018-12-13 | 2019-05-10 | 西安电子科技大学 | 基于稀疏表示和深度学习的图像超分辨率重建方法 |
CN110570351A (zh) * | 2019-08-01 | 2019-12-13 | 武汉大学 | 一种基于卷积稀疏编码的图像超分辨率重建方法 |
CN112907449A (zh) * | 2021-02-22 | 2021-06-04 | 西南大学 | 一种基于深度卷积稀疏编码的图像超分辨率重建方法 |
CN114331918A (zh) * | 2022-03-08 | 2022-04-12 | 荣耀终端有限公司 | 图像增强模型的训练方法、图像增强方法及电子设备 |
Non-Patent Citations (5)
Title |
---|
Multitask dictionary learning and sparse representation based single-image super-resolution reconstruction;Shuyuan Yang et al.;《Neurocomputing》;第74卷(第17期);3193-3203 * |
Return of reconstruction-based single image super-resolution: A simple and accurate approach;Feng Wang et al.;《2016 9th International Congress on Image and Signal Processing, BioMedical Engineering and Informatics (CISP-BMEI)》;229-234 * |
基于深度学习和稀疏编码的图像超分辨率重建;谭成兵等;《计算机应用与软件》;第39卷(第12期);219-226 * |
基于深度学习的图像超分辨率研究综述;李洪安等;《图学学报》;第44卷(第1期);1-15 * |
增强稀疏编码的超分辨率重建(英文);李民等;《光电工程》;第38卷(第1期);127-133 * |
Also Published As
Publication number | Publication date |
---|---|
CN116205806A (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112262563B (zh) | 图像处理方法及电子设备 | |
CN113538273B (zh) | 图像处理方法及图像处理装置 | |
CN117063461A (zh) | 一种图像处理方法和电子设备 | |
US20220319077A1 (en) | Image-text fusion method and apparatus, and electronic device | |
WO2021218364A1 (zh) | 一种图像增强方法及电子设备 | |
CN103930923A (zh) | 用于捕获图像的方法、装置和计算机程序产品 | |
CN114640783B (zh) | 一种拍照方法及相关设备 | |
CN115061770B (zh) | 显示动态壁纸的方法和电子设备 | |
CN115661320B (zh) | 图像处理方法及电子设备 | |
CN117078509B (zh) | 模型训练方法、照片生成方法及相关设备 | |
CN113538227B (zh) | 一种基于语义分割的图像处理方法及相关设备 | |
CN116205806B (zh) | 一种图像增强方法及电子设备 | |
CN115359105B (zh) | 景深扩展图像生成方法、设备及存储介质 | |
CN113724151B (zh) | 一种图像增强方法、电子设备和计算机可读存储介质 | |
CN114793283A (zh) | 图像编码方法、图像解码方法、终端设备及可读存储介质 | |
CN115601536B (zh) | 一种图像处理方法及电子设备 | |
CN115861042B (zh) | 一种图像处理方法、电子设备及介质 | |
CN116993619B (zh) | 图像处理方法及相关设备 | |
CN117593611B (zh) | 模型训练方法、图像重建方法、装置、设备及存储介质 | |
CN116453131B (zh) | 文档图像矫正方法、电子设备及存储介质 | |
CN115460343B (zh) | 图像处理方法、设备及存储介质 | |
WO2023216957A1 (zh) | 一种目标定位方法、系统和电子设备 | |
CN116723415B (zh) | 缩略图生成的方法及终端设备 | |
CN117290004A (zh) | 组件预览的方法和电子设备 | |
CN117593611A (zh) | 模型训练方法、图像重建方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |