CN115546858A - 人脸图像处理方法和电子设备 - Google Patents

人脸图像处理方法和电子设备 Download PDF

Info

Publication number
CN115546858A
CN115546858A CN202210975393.2A CN202210975393A CN115546858A CN 115546858 A CN115546858 A CN 115546858A CN 202210975393 A CN202210975393 A CN 202210975393A CN 115546858 A CN115546858 A CN 115546858A
Authority
CN
China
Prior art keywords
frequency
image
face image
feature
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210975393.2A
Other languages
English (en)
Other versions
CN115546858B (zh
Inventor
岳帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Honor Device Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honor Device Co Ltd filed Critical Honor Device Co Ltd
Priority to CN202210975393.2A priority Critical patent/CN115546858B/zh
Publication of CN115546858A publication Critical patent/CN115546858A/zh
Application granted granted Critical
Publication of CN115546858B publication Critical patent/CN115546858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种人脸图像处理方法和电子设备,涉及终端技术领域,电子设备对待处理人脸图像进行特征提取,得到待处理人脸图像的多个特征图。获取每幅特征图对应的高频特征图像和低频特征图像,对每幅特征图的高频特征图像进行多阶段卷积操作,对每幅特征图的低频特征图像进行单阶段卷积操作。根据目标人脸图像的分辨率尺寸,确定每个像素点的位置,分别根据每个阶段卷积操作的结果计算阶段对应的各个像素点的特征向量,从而将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,获取目标人脸图像中每个像素点的像素值。本方法既可以保证输出人脸图像的真实性,同时,又可以适用于不同尺寸的人脸输入图像的效果。

Description

人脸图像处理方法和电子设备
技术领域
本申请涉及终端技术领域,尤其涉及一种人脸图像处理方法和电子设备。
背景技术
随着终端拍照技术的日益发展,人们对终端拍摄的人脸照片的清晰度的要求越来越高。然而现有的终端受镜头、传感器等硬件的限制,想要得到更清晰的人脸照片,获得更丰富的人脸细节,只能借助软件算法来对采集到的人脸照片中的人脸进行增强,来生成更多的脸部细节,提高人脸照片的清晰度。
当前针对人脸增强的方法很多,例如,基于stylegan结构的人脸重建方法、基于传统的超分算法对人脸图片进行细节补充的方法等。其中,基于stylegan结构的人脸重建方法生成的人脸细节更多,但是生成的人脸存在生成痕迹过重,看起来不真实的缺点。基于传统的超分算法对人脸图片进行细节补充的方法生成的人脸真实性更强,但是该方法的输入图像和输出图像尺寸都是固定的,实用性不强。
现有技术中的人脸增强方法无法满足即适用于不同尺寸的人脸输入图像,又可以保证输出图像真实性的目的。
发明内容
本申请实施例提供一种人脸图像处理方法和电子设备,既可以保证输出人脸图像的真实性,同时,又可以适用于不同尺寸的人脸输入图像的效果。为达到上述目的,本申请的实施例采用如下技术方案。
第一方面,提供了一种人脸图像处理方法,该方法包括:
电子设备对待处理人脸图像进行特征提取,得到待处理人脸图像的至少一个特征图;获取每幅特征图对应的高频特征图像和低频特征图像;对每幅特征图的高频特征图像进行多阶段卷积操作,对每幅特征图的低频特征图像进行单阶段卷积操作;根据目标人脸图像的分辨率尺寸,确定每个像素点的位置;分别根据每个阶段卷积操作的结果计算阶段对应的各个像素点的特征向量;将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,获取目标人脸图像中每个像素点的像素值。
其中,高频特征图像包括特征图中的高频像素点,低频特征图像包括特征图中的低频像素点。
其中,人脸图像指的是包括人脸部的图像。电子设备获取到初始人脸图像。初始人脸图像为空间域的RGB图像。在一种实现方式中,电子设备对该初始人脸图像进行格式转换,将RGB格式转换为YUV格式,得到初始人脸图像对应的YUV图像。进一步地,电子设备提取YUV图像中Y通道的图像作为待处理人脸图像。
在本实施例中,Y通道表征着图像的亮度信息,UV通道表征着图像的色调等信息。本实施例中提取YUV图像中Y通道的图像作为待处理人脸图像,对待处理人脸图像的亮度信息进行处理,对待处理人脸图像中的人脸进行增强,不会损失色彩通道的图像信息,也即,不会产生偏色问题,同时,也可以减少图像处理的计算量。
在本实施例中,高频像素点可以表征图像的边缘、细节、纹理等信息,低频像素点可以表征图像的基本结构等信息,将特征图进行高低频分离处理,得到对应的高频特征图像和低频特征图像,对高频特征图像进行人脸增强处理,可实现丰富人脸细节、恢复人脸纹理、提升人脸精细度的效果;进一步地,通过多阶段卷积操作增加高频特征图像的通道数可以得到高频特征图像中更细节的特征,通道数越多,使得电子设备进行后续图像处理的准确性更高。且,电子设备对低频特征图像进行单阶段卷积操作可减少计算量。电子设备通过对根据每个阶段卷积操作的结果计算阶段对应的各个像素点的特征向量,并将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,实现对每个阶段卷积操作的结果的图像增强处理,针对的是特征图的像素点而不是目标人脸图像的实际像素,从而避免了由于传统超分处理带来的伪纹理和马赛克的问题,减少了目标人脸图像的信息损失,提高了目标人脸图像的真实性,并且,对各个阶段卷积操作的结果进行图像增强处理,实现了多尺度、任意尺度的人脸图像处理,适用性更强。
结合第一方面,在一种可能的设计方式中,电子设备获取每幅特征图对应的高频特征图像和低频特征图像,包括:
对每幅特征图进行频域转换,得到每幅特征图对应的频率特征图;获取每幅频率特征图对应的高频像素点集合和低频像素点集合;对每幅频率特征图的高频像素点集合和低频像素点集合分别进行空间域转换,得到每幅特征图对应的高频特征图像和低频特征图像。
在本实施例中,电子设备根据对每幅特征图进行频域转换,指的是将空间域的特征图转换至频域下,得到特征图对应的频率特征图。频率特征图包括的是各个像素点的频率值。在得到每幅频率特征图的高频像素点集合和低频像素点集合之后,将高频像素点集合和低频像素点集合转换至空间域,得到空间域下每幅特征图对应的高频特征图像和低频特征图。
在本实施例中,由于高频像素点可以表征图像的边缘、细节、纹理等信息;低频像素点可以表征图像的基本结构等信息。电子设备对每幅特征图进行高低频分离处理,得到每幅特征图对应的高频特征图像和低频特征图像,基于每幅特征图对应的高频特征图像进行后续的图像增强处理,可实现丰富人脸细节、恢复人脸纹理、提升人脸精细度的效果。
结合第一方面,在一种可能的设计方式中,电子设备获取每幅频率特征图对应的高频像素点集合和低频像素点集合,包括:
根据频率特征图中像素点的频率值对像素点进行分类,得到高频像素点集合和低频像素点集合。
在本实施例中,电子设备可以基于频率特征图中各个像素点的频率值确定属于高频像素点的像素点,从而得到高频像素点集合;确定属于低频像素点的像素点,从而得到低频像素点集合。
在本实施例中,电子设备基于频率特征图中各个像素点的频率值进行高低频分类,可以快速地得到高频像素点集合和低频像素点集合。
结合第一方面,在一种可能的设计方式中,电子设备根据频率特征图中像素点的频率值对像素点进行分类,包括:
采用神经网络学习的方式,生成与频率特征图对应的掩膜;利用掩膜对频率特征图中的所有像素点的频率值进行过滤,得到高频像素点和低频像素点。
在本实施例中,电子设备可以通过采用神经网络学习的方式,学习一个与特征图同样大小的掩膜(mask),将mask作用在每幅频率特征图上。mask基于频率特征图中的像素点的频率进行过滤,滤掉频率低的像素点,从而得到频率高的像素点,形成高频像素点集合;滤掉频率高的像素点,形成低频像素点集合。
在本实施例中,在对每幅频率特征图进行高低频分离过程中,神经网络采用学习的方式不断更新mask,以使mask可以针对不同的频率特征图进行更有针对性的高低频分离,得到的高频像素点集合和低频像素点集合更准确。
结合第一方面,在一种可能的设计方式中,电子设备根据频率特征图中像素点的频率值对像素点进行分类,包括:
获取频率特征图中各个像素点的频率值;将频率值大于或等于预设频率阈值的像素点确定为高频像素点;将频率值小于预设频域阈值的像素点确定为低频像素点。
在本实施例中,将每个频率特征图中频率大于或等于频率阈值的像素点确定为高频像素点,得到每幅频率特征图中所有高频像素点形成的高频像素点集合;将每个频率特征图中频率小于频率阈值的像素点确定为低频像素点,得到每幅频率特征图中所有低频像素点形成的低频像素点集合
在本实施例中,基于频域阈值进行像素点的高低频分类,该方法更快速更简单,计算量比较小。
结合第一方面,在一种可能的设计方式中,电子设备对每幅特征图的高频特征图像进行多阶段卷积操作,包括:
按照每一阶段卷积操作的下采样倍数和通道增加数量,对特征图对应的高频特征图像进行多阶段卷积操作,得到每个阶段卷积操作的结果;每个阶段卷积操作的结果为下一阶段卷积操作的输入。
在本实施例中,高频特征图像意味着更多、更细节的人脸特征,按照每一阶段卷积操作的下采样倍数和通道增加数量,对特征图对应的高频特征图像进行多阶段卷积操作,不同阶段输出的不同尺寸的高频特征图像代表着不同程度的特征。示例性地,第一阶段或第二阶段输出的特征图像提取到的是较为浅层的特征,第三阶段输出的特征图像提取到的是比较关键、高维的特征。电子设备得到每个阶段卷积操作的结果所表示的特征信息更全面,在用于后续进行图像增强处理过程中,可以学习到多个尺度下的编码结果,使得图像增强处理结果更准确。
结合第一方面,在一种可能的设计方式中,电子设备对每幅特征图的低频特征图像进行单阶段卷积操作,包括:
根据特征图对应的高频特征图像的最后一个阶段卷积操作的结果,确定目标下采样倍数和目标通道增加数量;基于目标下采样倍数和目标通道增加数量,对特征图的低频特征图像进行单阶段卷积操作。
在本实施例中,低频特征图像意味着较少的人脸特征,对低频特征图像进行单阶段的卷积操作,在不影响卷积操作结果输出的同时,可以减少电子设备的计算量。
结合第一方面,在一种可能的设计方式中,电子设备根据每个阶段卷积操作的结果计算阶段对应的各个像素点的特征向量,包括:
将当前像素点分别与每个阶段卷积操作的结果置于同一坐标系下,基于局部隐式图像函数和放大倍率,计算当前像素点在每个阶段卷积操作的结果下的特征向量。
可选地,如果放大倍率大于1,局部隐式图像函数为插值计算方式确定的函数;如果放大倍率小于1,局部隐式图像函数为平均值计算方式确定的函数。
在本实施例中,针对任意放大倍率,电子设备均可以采用不同的局部隐式图像函数计算当前像素点在每个阶段卷积操作的结果下的特征向量,不限定输出的目标图像的分辨率尺寸,适用性更强。
结合第一方面,在一种可能的设计方式中,电子设备将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,获取目标人脸图像中每个像素点的像素值,包括:
将每个像素点在全部特征图的各个阶段卷积操作的结果中的特征向量进行拼接,得到每个像素点的目标特征向量;将每个像素点的目标特征向量输入至多层感知器中进行预测,得到每个像素点的像素值。
在本实施例中,将每个像素点的目标特征向量输入至多层感知器得到每个像素点的预测的像素值,由于每个像素点的目标特征向量是基于多阶段卷积操作的结果得到的,多阶段卷积操作的结果表征的特征更全面,由此得到的每个像素点的预测的像素值更准确。
结合第一方面,在一种可能的设计方式中,像素点的像素值为Y通道图像的像素值,该方法还包括:
对目标人脸图像进行格式转换,得到目标人脸图像对应的RGB图像。
在本实施例中,得到的目标人脸图像仍为YUV图像。为更符合用户的需求,电子设备还可以将目标人脸图像转换为RGB图像。
在本实施例中,电子设备将目标人脸图像转换为RGB图像,可以更满足用户的需求。
结合第一方面,在一种可能的设计方式中,该方法应用于预设的增强网络模型中,预设的增强网络模型包括特征提取子网络、高低频分离子网络以及增强子网络,该方法包括:
特征提取子网络对待处理人脸图像进行特征提取,得到待处理人脸图像的至少一个特征图;高低频分离子网络获取每幅特征图对应的高频特征图像和低频特征图像;增强子网络对每幅特征图的高频特征图像进行多阶段卷积操作,对每幅特征图的低频特征图像进行单阶段卷积操作;根据目标人脸图像的分辨率尺寸,确定每个像素点的位置;分别根据每个阶段卷积操作的结果计算阶段对应的各个像素点的特征向量;将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,获取目标人脸图像中每个像素点的像素值。
在本实施例中,高频像素点可以表征图像的边缘、细节、纹理等信息,低频像素点可以表征图像的基本结构等信息,高低频分离子网络将特征图进行高低频分离处理,得到对应的高频特征图像和低频特征图像,对高频特征图像进行人脸增强处理,可实现丰富人脸细节、恢复人脸纹理、提升人脸精细度的效果;进一步地,增强子网络通过多阶段卷积操作增加高频特征图像的通道数得到高频特征图像中更细节的特征,通道数越多,增强子网络学习到的特征越多,其输出的结果更准确。且,电子设备对低频特征图像进行单阶段卷积操作可减少计算量。电子设备通过对根据每个阶段卷积操作的结果计算阶段对应的各个像素点的特征向量,并将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,实现对每个阶段卷积操作的结果的图像增强处理,而不是在得到输出的目标人脸图像之后进行超分处理,针对的是特征图的像素点而不是目标人脸图像的实际像素,从而避免了传统超分处理带来的伪纹理和马赛克的问题,减少了目标人脸图像的信息损失,提高了目标人脸图像的真实性,并且,对各个阶段卷积操作的结果进行图像增强处理,实现了多尺度、任意尺度的人脸图像增强处理,适用性更强。
结合第一方面,在一种可能的设计方式中,该方法还包括:
将样本人脸图像输入至初始增强网络模型中进行迭代训练;计算每一次增强网络模型输出的训练目标人脸图像与标准人脸图像之间的损失函数,在损失函数满足预设条件时停止迭代,得到增强网络模型;其中,标准人脸图像为分辨率大于预设分辨率的人脸图像。
在本实施例中,计算训练目标人脸图像与标准人脸图像之间的损失函数loss,基于计算得到的loss调整初始增强网络模型的参数,直到迭代结束,得到增强网络模型。该增强网络模型更加关注人脸区域的增强任务,输出的目标人脸图像更准确。
结合第一方面,在一种可能的设计方式中,损失函数由第一损失函数和第二损失函数确定;其中,第一损失函数用于计算训练目标人脸图像与标准人脸图像之间的差值;第二损失函数用于计算训练目标人脸图像与样本人脸图像之间的差值。
在本实施例中,第一损失函数表示训练目标人脸图像是否更贴近真实图像,这里真实图像指的是标准人脸图像。第二损失函数表示训练目标人脸图像是否更贴近原始图像,这里原始图像指的是样本人脸图像。
本实施例中的损失函数对人脸区域添加单独的loss,让网络更加关注人脸区域的细节增强,经过本实施例训练得到的增强网络模型更加关注人脸区域的增强任务,输出的目标人脸图像更准确。
第二方面,提供了一种电子设备,该电子设备包括存储器和一个或多个处理器;所述存储器与所述处理器耦合;所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如上述第一方面中任一项所述的方法。
第三方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在电子设备上运行时,使得电子设备可以执行上述第一方面中任一项所述的方法。
第四方面,提供了一种包含指令的计算机程序产品,当其在电子设备上运行时,使得电子设备可以执行上述第一方面中任一项所述的方法。
第五方面,本申请实施例提供了一种芯片,芯片包括处理器,处理器用于调用存储器中的计算机程序,以执行如第一方面的方法。
可以理解地,上述提供的第二方面所述的电子设备,第三方面所述的计算机可读存储介质,第四方面所述的计算机程序产品,第五方面所述的芯片所能达到的有益效果,可参考第一方面及其任一种可能的设计方式中的有益效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种电子设备的硬件结构示意图;
图2为本申请实施例提供的一种人脸图像处理方法的流程图;
图3为本申请实施例提供的一种人脸图像处理方法中多阶段卷积处理流程示意图;
图4为本申请实施例提供的一种人脸图像处理方法中图像增强处理流程示意图;
图5为本申请实施例提供的另一种人脸图像处理方法的数据处理流程图;
图6为本申请实施例提供的另一种人脸图像处理方法的数据处理流程图;
图7为本申请实施例提供的一种芯片系统的结构示意图。
具体实施方式
在本申请实施例的描述中,以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请以下各实施例中,“至少一个”、“一个或多个”是指一个或两个以上(包含两个)。术语“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。术语“连接”包括直接连接和间接连接,除非另外说明。“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
随着电子设备拍照技术的日益发展,人们对电子设备拍摄的人脸照片的清晰度的要求越来越高。然而现有的电子设备受镜头、传感器等硬件的限制,想要得到更清晰的人脸照片,获得更丰富的人脸细节,只能借助软件算法来对采集到的人脸照片中的人脸进行增强,来生成更多的脸部细节,提高人脸照片的清晰度。
当前针对人脸增强的方法众多,一部分是基于stylegan结构的人脸重建方法,这类模型无中生有的能力更强,生成的人脸细节更多,但相对的生成的人脸可能存在生成痕迹过重,看起来不真实等缺点。也有一部分方法是对人脸图片使用传统的超分算法来进行细节的补充,这类的方法生成的人脸真实性更强,且生成的人脸结果稳定不易出现伪纹理;但是这类方法中,超分任务的本质是图像分辨率的放大,即会改变原始图像的尺寸大小,且绝大多数的超分网络的输入图像和输出图像尺寸都是固定的,实用性弱,难以应用于不同的人脸拍摄场景。
在实际工程应用中,我们需要面对的人脸图像可能是各种尺寸的。因此,本实施例提供一种人脸图像处理方法对人脸图像进行增强处理操作,实现既可以保证输出人脸图像的真实性,同时,又可以适用于不同尺寸的人脸输入图像的效果。
本申请实施例中的电子设备可以为包括拍摄装置的电子设备,其中拍摄装置可以为摄像头。示例性地,电子设备可以为便携式计算机(如手机)、平板电脑、笔记本电脑、个人计算机(personal computer,PC)、可穿戴电子设备(如智能手表)、增强现实(augmentedreality,AR)\虚拟现实(virtual reality,VR)设备等,以下实施例对该电子设备的具体形式不做特殊限制。
请参考图1,其示出本申请实施例提供一种电子设备(如电子设备100)的结构框图。其中,电子设备100可以包括处理器310,外部存储器接口320,内部存储器321,通用串行总线(universal serial bus,USB)接口330,充电管理模块340,电源管理模块341,电池342,天线1,天线2,射频模块350,通信模块360,音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,传感器模块380,按键390,马达391,指示器392,摄像头393,显示屏394,以及用户标识模块(subscriber identification module,SIM)卡接口395等。
本发明实施例示意的结构并不构成对电子设备100的限定。可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器310可以包括一个或多个处理单元。例如,处理器310可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
上述控制器可以是指挥电子设备100的各个部件按照指令协调工作的决策者。是电子设备100的神经中枢和指挥中心。控制器根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器310中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器310中的存储器为高速缓冲存储器,可以保存处理器310刚用过或循环使用的指令或数据。如果处理器310需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器310的等待时间,因而提高了系统的效率。
在一些实施例中,处理器310可以包括接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuit sound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,SIM接口,和/或USB接口等。
本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。电子设备100可以采用本发明实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块340用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块340可以通过USB接口330接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块340可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块340为电池342充电的同时,还可以通过电源管理模块341为电子设备100供电。
电源管理模块341用于连接电池342,充电管理模块340与处理器310。电源管理模块341接收所述电池342和/或充电管理模块340的输入,为处理器310,内部存储器321,外部存储器接口320,显示屏394,摄像头393,和通信模块360等供电。电源管理模块341还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在一些实施例中,电源管理模块341也可以设置于处理器310中。在一些实施例中,电源管理模块341和充电管理模块340也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,射频模块350,通信模块360,调制解调器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将蜂窝网天线复用为无线局域网分集天线。在一些实施例中,天线可以和调谐开关结合使用。
射频模块350可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案的通信处理模块。射频模块350可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。射频模块350由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调器进行解调。射频模块350还可以对经调制解调器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,射频模块350的至少部分功能模块可以被设置于处理器310中。在一些实施例中,射频模块350的至少部分功能模块可以与处理器310的至少部分模块被设置在同一个器件中。
调制解调器可以包括调制器和解调器。调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器370A,受话器370B等)输出声音信号,或通过显示屏394显示图像或视频。在一些实施例中,调制解调器可以是独立的器件。在一些实施例中,调制解调器可以独立于处理器310,与射频模块350或其他功能模块设置在同一个器件中。
通信模块360可以提供应用在电子设备100上的包括无线局域网(wireless localarea networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(blue tooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequencymodulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案的通信处理模块。通信模块360可以是集成至少一个通信处理模块的一个或多个器件。通信模块360经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器310。通信模块360还可以从处理器310接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和射频模块350耦合,天线2和通信模块360耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(code divisionmultiple access,CDMA),宽带码分多址(wideband code division multiple access,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(satellite based augmentation systems,SBAS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(BeiDounavigation satellite system,BDS),准天顶卫星系统(Quasi-Zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏394,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏394和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器310可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏394用于显示图像,视频等。显示屏394包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏394,N为大于1的正整数。
电子设备100可以通过ISP,摄像头393,视频编解码器,GPU,显示屏以及应用处理器等实现拍摄功能。
ISP用于处理摄像头393反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头393中。
摄像头393用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头393,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
在本实施例中,DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号之后,可以将标准的RGB,YUV等格式的图像信号传输至CPU,CPU基于本实施例提供的人脸图像处理方法对接收到的标准的RGB,YUV等格式的图像信号进行图像增强处理。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口320可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口320与处理器310通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器321可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器310通过运行存储在内部存储器321的指令,从而执行电子设备100的各种功能应用以及数据处理。存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。此外,存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,其他易失性固态存储器件,通用闪存存储器(universal flashstorage,UFS)等。
电子设备100可以通过音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块370用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块370还可以用于对音频信号编码和解码。在一些实施例中,音频模块370可以设置于处理器310中,或将音频模块370的部分功能模块设置于处理器310中。
扬声器370A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器370A收听音乐,或收听免提通话。
受话器370B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器370B靠近人耳接听语音。
麦克风370C,也称“话筒”,“传声器”,用于将声音信号转换为音频电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风370C发声,将声音信号输入到麦克风370C。电子设备100可以设置至少一个麦克风370C。在一些实施例中,电子设备100可以设置两个麦克风370C,除了采集声音信号,还可以实现降噪功能。在一些实施例中,电子设备100还可以设置三个,四个或更多麦克风370C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口370D用于连接有线耳机。耳机接口370D可以是USB接口330,也可以是3.5mm的开放移动终端平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
按键390包括开机键,音量键等。按键390可以是机械按键。也可以是触摸式按键。电子设备100接收按键390输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达391可以产生振动提示。马达391可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏394不同区域的触摸操作,也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器392可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
以电子设备100执行本公开实施例为例,本公开实施例提供了一种人脸图像处理方法,参见图2,本公开实施例提供的方法流程包括:
S201、获取待处理人脸图像。
其中,人脸图像指的是包括人脸部的图像。电子设备通过拍摄装置(比如摄像头)采集人脸图像,即获取到初始人脸图像。在另一些实施方式中,也可以从其他电子设备(比如其他终端、服务器等)获取初始人脸图像。初始人脸图像为空间域的RGB图像。在一种实现方式中,电子设备对该初始人脸图像进行格式转换,将RGB格式转换为YUV格式,得到初始人脸图像对应的YUV图像。进一步地,电子设备提取YUV图像中Y通道的图像作为待处理人脸图像。需要说明的是,Y通道表征着图像的亮度信息,UV通道表征着图像的色调等信息。本实施例通过对人脸图像的亮度信息进行处理,对人脸图像中的人脸进行增强;不会损失色彩通道的图像信息也即不会产生偏色问题的同时,也可以减少图像处理的计算量。
S202、对待处理人脸图像进行特征提取,得到待处理人脸图像的多个特征图。
在一种实现方式中,电子设备可以将待处理人脸图像输入至预设的增强网络模型的特征提取子网络中进行特征提取处理,其中,特征提取子网络可以为卷积神经网络。可选地,卷积神经网络的参数可根据实际情况确定。其中,卷积神经网络的参数包括卷积核尺寸、卷积核数量、步长等。示例性地,卷积核尺寸可以为2*2、3*3、4*4等;卷积核个数可以为16、32、48等;步长可以为1、2、3等。本实施例中,电子设备得到的特征图与待处理人脸图像的尺寸一致。基于该原则,示例性的,本实施例采用的卷积神经网络的卷积核尺寸可为3*3、步长可为1。
可选地,电子设备还可以将待处理人脸图像输入至独立的特征提取网络中进行特征提取处理,从而得到待处理人脸图像对应的多个特征图。其中,每个特征图用于表征待处理人脸图像的一种特征;比如,颜色特征、纹理特征、形状特征、空间关系特征等。
S203、根据特征图中像素点的频率,将每幅特征图进行高低频分离处理,得到每幅特征图对应的高频特征图像和低频特征图像。
在本实施例中,电子设备可以将空间域的每幅特征图转换至频域,得到对应的频率特征图。示例性地,电子设备可以通过离散余弦变换(discrete cosine transform,DCT),将空间域下的特征图转换至频域。
在频率特征图中,频率越高的像素点指的是与周围像素点相比变化越强的像素点;高频像素点可以表征图像的边缘、细节、纹理等信息。低频像素点指的是与周围像素点相比变化较弱的像素点,低频像素点可以表征图像的基本结构等信息。
在一种实现方式中,电子设备可以通过设定频率阈值,对频率特征图中所有的像素点进行高频与低频分类。例如,将每个频率特征图中频率大于或等于频率阈值的像素点确定为高频像素点,得到每幅频率特征图中所有高频像素点形成的高频像素点集合;将每个频率特征图中频率小于频率阈值的像素点确定为低频像素点,得到每幅频率特征图中所有低频像素点形成的低频像素点集合。
在另一种实现方式中,电子设备还可以通过采用神经网络学习的方式,学习一个与特征图同样大小的掩膜(mask),利用该mask来对每幅频率特征图进行逐像素点的高低频分类。示例性地,电子设备在获得mask之后,将mask作用在每幅频率特征图上。mask基于频率特征图中的像素点的频率进行过滤,滤掉频率低的像素点,从而得到频率高的像素点,形成高频像素点集合;滤掉频率高的像素点,形成低频像素点集合。在对每幅频率特征图进行高低频分离过程中,神经网络采用学习的方式不断更新mask,以使mask可以针对不同的频率特征图进行针对性的高低频分离。
在电子设备得到频域下的每幅频率特征图对应的高频像素点集合和低频像素点集合之后,电子设备可以通过反DCT变换,将每幅频率特征图对应的高频像素点集合和低频像素点集合分别进行空间域转换,得到每幅特征图对应的高频特征图像和低频特征图像。
高频像素点可以表征图像的边缘、细节、纹理等信息。本实施例将特征图进行高低频分离处理,得到对应的高频特征图像和低频特征图像,对高频特征图像进行人脸增强处理,可实现丰富人脸细节、恢复人脸纹理、提升人脸精细度的效果。
S204、对每幅特征图的高频特征图像和低频特征图像进行图像增强处理,得到一幅目标人脸图像。
在本实施例中,电子设备针对每幅特征图的高频特征图像进行多阶段的卷积操作,具体通过对高频特征图像进行多阶段的下采样处理和通道数处理,得到每一阶段卷积操作的结果。在本实施例中,每一阶段卷积操作的结果作为下一阶段卷积操作的输入。
针对低频特征图像进行单阶段的卷积操作,在得到最后一个阶段的卷积操作输出的高频特征图像之后,根据最后一个阶段的卷积操作输出的高频特征图像的维度信息,将低频特征图像编码至与该高频特征图像维度相同,得到卷积操作之后的低频特征图像。示例性地,维度信息包括下采样倍数和通道数。
其中,电子设备可以基于卷积神经网络对每幅特征图的高频特征图像进行多阶段的卷积操作,对每幅特征图的低频特征图像进行单阶段的卷积操作。示例性地,卷积神经网络的结构可以为unet结构。电子设备基于卷积神经网络,得到每幅特征图的多个阶段的卷积操作的结果。其中,每幅特征图的多个阶段的卷积操作的结果包括多张卷积处理后的高频特征图像以及一张卷积处理后的低频特征图像。
示例性地,图3给出了一种对特征图进行多个阶段卷积操作的示例。参考图3,一幅特征图包括一幅512*512*16的高频特征图像和一幅512*512*16的低频特征图像。对512*512*16的高频特征图像进行多阶段的卷积操作,通过多阶段的卷积操作实现对高频特征图像的下采样操作和整体增加通道数操作。例如,在第一阶段,将512*512的高频特征图像进行下采样处理,得到256*256的高频特征图像,将通道数16增加至32。在第二阶段,将256*256的高频特征图像进行下采样处理,得到128*128的高频特征图像,将通道数32增加至64。在第三阶段,将128*128的高频特征图像进行下采样处理,得到64*64的高频特征图像,在该阶段通道数没有变化。对低频特征图像进行单阶段的卷积操作,在确定得到的高频特征图像维度为64*64*64时,将512*512*16的低频特征图像进行下采样处理,得到64*64*64的低频特征图像。在得到每一个阶段的卷积操作的结果之后,电子设备可以对基于增强子网络对每一个阶段的卷积操作的结果进行图像增强处理,从而得到目标人脸图像。
需要说明的是,在对高频特征图像进行多阶段卷积操作的过程中,通道数是呈现整体趋势上的增加,具体到每一阶段中,一个阶段在处理高频特征图像时可以增加其通道数,也可以保持其通道数不变。通道增加数可以成倍数增加,也可以基于预设数量增加。一般的,每一阶段以2的倍数进行高频特征图像的下采样操作,或者,也可以以其他倍数进行高频特征图像的下采样操作。图3仅是示例,不做限定。
在本实施例中,不同阶段输出的不同尺寸的特征图像代表着不同程度的特征。示例性地,第一阶段或第二阶段输出的特征图像提取到的是较为浅层的特征,第三阶段输出的特征图像提取到的是比较关键、高维的特征。电子设备得到的所有阶段卷积操作的结果的特征图像信息比较全面,在对每一个阶段卷积操作的结果进行图像增强处理的过程中,可以学习到多个尺度下的编码结果,使得图像增强效果更准确。
在本实施例中,由于高频特征图像对增强效果影响较大,电子设备针对信息较多的高频特征图像进行多阶段卷积增强处理,低频特征图像对增强效果影响较小,针对信息较少的低频特征图像进行单阶段卷积增强处理,一定程度上在满足图像增强处理要求的同时,减少了电子设备的计算量。
在得到多个阶段卷积操作的结果之后,电子设备对多个阶段卷积操作的结果进行图像增强的处理。
在本实施例中,电子设备可以基于输入的放大倍率,引入局部隐式图像函数(local implicit image function),对多个阶段卷积操作的结果进行图像增强处理。其中,放大倍率指的是分辨率的放大倍率,这里放大倍率可以为0.8、1、1.2、1.3等。本实施例中的放大倍率不受整数限制。也即,本实施例中的图像增强处理可以实现将分辨率较低的图像处理得到分辨率较高的图像;或者,将分辨率较高的图像处理得到分辨率较低的图像;或者,保持分辨率不变进行图像处理。
在输入图像(每幅特征图的多个阶段卷积操作的结果)的分辨率小于目标人脸图像的分辨率的情况下,也即,在放大倍率大于1的情况下,局部隐式图像函数可以为基于插值计算方式得到的函数,电子设备可以采用逐像素点插值的方法对输入图像进行图像增强处理;在输入图像的分辨率大于目标人脸图像的分辨率的情况下,也即,在放大倍率小于1的情况下,局部隐式图像函数可以为计算平均值的方式得到的函数,电子设备可采用逐像素点计算平均值的方式来对输入图像进行图像增强处理。
图4给出了一种放大倍率大于1的情况下,对输入图像进行图像增强处理的示意图。为便于描述,以输入图像包括8*8*16的高频特征图像和4*4*32的低频特征图像,输出人脸目标图像为13*13的图像为例来说明。
参考图4,电子设备基于目标人脸图像的分辨率尺寸确定目标像素点以及每个目标像素点的位置。针对每一个目标像素点,将目标像素点分别与多阶段卷积操作中输出的每一个阶段的结果(也即每一个阶段卷积操作输出的高频特征图像)、单阶段卷积操作输出的低频特征图像置于同一坐标系下,通过各个高频特征图像中与目标像素点最相近的四个像素点的特征向量确定各个高频特征图像中目标像素点的第一特征向量;通过低频特征图像中与目标像素点最相近的四个像素点的特征向量确定低频特征图像中目标像素点的第二特征向量。示例性地,在图4中,可通过对四个像素点的特征向量进行加权求和,得到目标像素点的特征向量。图4中,高频特征图像、低频特征图像中的实心圆为目标像素点,空心圆为与目标像素最相近的四个像素点。可选地,本实施例中加权求和可以采用Area Resize方法、Bilinear Resize方法等实现特征图像的分辨率计算。
在得到目标像素点的第一特征向量和第二特征向量之后,将第一特征向量和第二特征向量进行拼接,得到拼接后的目标像素点的特征向量。示例性地,目标像素点的第一特征向量为1*1*16,目标像素点的第二特征向量为1*1*32,进行拼接即将其通道数相加,得到1*1*48的特征向量。电子设备将拼接后的目标像素点的特征向量输入至多层感知器(MLP)中进行预测,得到目标像素点的预测像素值。
需要说明的是,在实际应用中,一幅待处理人脸图像经过特征提取可得到M幅特征图,每一幅特征图包括N幅卷积操作后的高频特征图像和一幅卷积操作后的低频特征图像,也即,一幅特征图包括N+1个阶段的卷积操作的结果。电子设备在每一幅特征图的N+1个阶段的卷积操作的结果中,计算目标像素点的特征向量,得到目标像素点的N个第一特征向量和一个第二特征向量。在拼接部分,电子设备将N个第一特征向量与一个第二特征向量进行拼接,得到每一个目标像素点的第三特征向量(1*1*(N+1))。进一步地,针对每一个目标像素点,将M幅特征图进行拼接,得到每一个目标像素点的目标特征向量(1*1*((N+1)*M))。
在得到每一个目标像素点的目标特征向量之后,将每一个目标像素点的特征向量输入至多层感知器(MLP)中进行预测,得到每一个目标像素点的预测像素值。基于所有目标像素点的预测像素值,得到一幅目标人脸图像。
在本实施例中,电子设备通过多阶段卷积操作增加高频特征图像的通道数可以得到高频特征图像中更细节的特征,通道数越多,图像增强处理过程中学习到的特征越多,使得输出的结果更准确。进一步地,电子设备通过引入局部隐式图像函数(local implicitimage function)实现了多尺度、任意尺度的人脸图像的图像增强操作,避免了现有技术中对人脸图像的像素点进行resize可能带来的伪纹理、马赛克等问题,减少了目标人脸图像的信息损失,提高了目标人脸图像的真实性。且,本实施例提供方法可基于任意倍率对特征图像进行图像增强处理,不受整数倍限制,相较于现有技术适用性更强。
可选地,电子设备在得到目标人脸图像之后,还可以对目标人脸图像进行格式转换,将YUV格式转换为RGB格式,得到目标人脸图像对应的RGB图像。
图5给出了一种人脸图像处理方法的流程示意图,参考图5,在电子设备得到待处理人脸图像之后,对待处理人脸图像进行特征提取,得到待处理人脸图像对应的多个特征图,对多个特征图进行mask分类,也即,对多个特征图进行高低频分离操作,得到各个特征图对应的高频特征图像和低频特征图像,从而根据高频特征图像和低频特征图像与设定的放大倍率进行图像增强处理,得到目标人脸图像。
可选地,电子设备可以基于预设的增强网络模型,实现上述S201-S204的方法,增强网络模型包括特征提取子网络、高低频分离子网络以及增强子网络,基于增强网络模型,提供一种人脸图像处理方法,如图6包括:
S301、获取待处理人脸图像。
本实施例中,获取待处理人脸图像的操作可参考S201,这里不做赘述。
S302、通过特征提取子网络,对待处理人脸图像输入进行特征提取,输出待处理人脸图像的多个特征图。
本实施例中,特征提取子网络进行特征提取的操作可参考S202,这里不做赘述。
S303、通过高低频分离子网络,对每幅特征图进行高低频分离处理,输出每幅特征图对应的的高频特征图像和低频特征图像。
本实施例中,高低频分离子网络进行高低频分离处的操作可参考S203,这里不做赘述。
S304、通过增强子网络,对每幅特征图的高频特征图像和低频特征图像进行图像增强处理,得到一幅目标人脸图像。
本实施例中,增强子网络进行图像增强处理操作可参考S204,这里不做赘述。
在一些实施例中,提供了一种增强网络模型的训练方法,包括:
步骤一:将样本人脸图像输入至初始增强网络模型中进行迭代训练。
可选地,包括:
(1)将样本人脸图像输入至增强网络模型的特征提取子网络中进行特征提取,得到样本人脸图像的多个样本特征图。
(2)将多个样本特征图输入至增强网络模型的高低频分离子网络进行高低频分离处理,得到各样本特征图的样本高频特征图像和样本低频特征图像。
(3)将每幅样本特征图的样本高频特征图像和样本低频特征图像输入至增强网络模型的增强子网络进行图像增强处理,得到训练目标人脸图像。
步骤二:计算每一次增强网络模型输出的训练目标人脸图像与标准人脸图像之间的损失函数,在损失函数满足预设条件时,停止迭代,得到增强网络模型。
其中,标准人脸图像可以为分辨率较高的真实人脸图像。标准人脸图像比样本人脸图像的分辨率高。损失函数满足预设条件可以包括损失函数的损失值达到预设阈值;或者,损失函数的损失值接近最小值;或者,损失函数的损失值不再产生变化等。
在本实施例中,损失函数loss由第一损失函数SR loss和第二损失函数ID Loss确定。其中,第一损失函数SR Loss(LSR)表示训练目标人脸图像是否更贴近真实图像(标准人脸图像),示例性地,第一损失函数可以表示训练目标人脸图像与标准人脸图像之间的差值;第二损失函数ID Loss(LID)表示训练目标人脸图像是否更贴近原始图像(样本人脸图像),示例性地,第二损失函数可以表示训练目标人脸图像与样本人脸图像之间的差值。
示例性地,loss的计算方式可表示为:
loss=LSR+LID
人脸图像中第i个局部区域的
Figure BDA0003798117550000141
的计算方式可表示为:
Figure BDA0003798117550000142
其中,
Figure BDA0003798117550000143
表示使用预训练好的VGG19网络计算得到的feature map进行loss计算;Lcomp代表人脸局部区域的对抗loss;y为生成图像;
Figure BDA0003798117550000144
为真实图像;LL1为一阶范数的loss。
人脸图像的LSR可表示为:
Figure BDA0003798117550000151
其中,λ为权重。I是脸部局部区域的集合,例如{左眼,右眼,鼻子...},实际情况中可以根据需要做取舍。
LID的计算方式可表示为:
Figure BDA0003798117550000152
其中,η代表脸部特征提取器,例如ArcFace。
在本实施例中,电子设备基于计算得到的loss可以调整初始增强网络模型的参数,直到迭代结束,得到增强网络模型。
本实施例中的损失函数对人脸区域添加单独的loss,让网络更加关注人脸区域的细节增强,经过本实施例训练得到的增强网络模型更加关注人脸区域的增强任务,输出的目标人脸图像更准确。
本申请一些实施例提供了一种电子设备,该电子设备可以包括:存储器、摄像头和一个或多个处理器。该摄像头、存储器和处理器耦合。该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令。当处理器执行计算机指令时,电子设备可执行上述方法实施例中电子设备执行的各个功能或者步骤。该电子设备的结构可以参考图1所示的电子设备100的结构。
本申请实施例还提供一种芯片系统(例如,片上系统(system on a chip,SoC)),如图7所示,该芯片系统包括至少一个处理器701和至少一个接口电路702。处理器701和接口电路702可通过线路互联。例如,接口电路702可用于从其它装置(例如电子设备的存储器)接收信号。又例如,接口电路702可用于向其它装置(例如处理器701或者电子设备的的摄像头)发送信号。示例性的,接口电路702可读取存储器中存储的指令,并将该指令发送给处理器701。当所述指令被处理器701执行时,可使得电子设备执行上述实施例中的各个步骤。当然,该芯片系统还可以包含其他分立器件,本申请实施例对此不作具体限定。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质包括计算机指令,当所述计算机指令在上述电子设备上运行时,使得该电子设备执行上述方法实施例中电子设备100执行的各个功能或者步骤。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述方法实施例中电子设备100执行的各个功能或者步骤。例如,该计算机可以是上述电子设备100。
通过以上实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种人脸图像处理方法,其特征在于,包括:
对待处理人脸图像进行特征提取,得到所述待处理人脸图像的至少一个特征图;
获取每幅所述特征图对应的高频特征图像和低频特征图像;所述高频特征图像包括特征图中的高频像素点,所述低频特征图像包括特征图中的低频像素点;
对每幅所述特征图的高频特征图像进行多阶段卷积操作,对每幅所述特征图的低频特征图像进行单阶段卷积操作;
根据目标人脸图像的分辨率尺寸,确定每个像素点的位置;
分别根据每个阶段卷积操作的结果计算所述阶段对应的各个像素点的特征向量;
将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,获取所述目标人脸图像中每个像素点的像素值。
2.根据权利要求1所述的方法,其特征在于,所述获取每幅所述特征图对应的高频特征图像和低频特征图像,包括:
对每幅所述特征图进行频域转换,得到每幅所述特征图对应的频率特征图;
获取每幅所述频率特征图对应的高频像素点集合和低频像素点集合;
对每幅所述频率特征图的高频像素点集合和低频像素点集合分别进行空间域转换,得到每幅所述特征图对应的所述高频特征图像和所述低频特征图像。
3.根据权利要求2所述的方法,其特征在于,所述获取每幅所述频率特征图对应的高频像素点集合和低频像素点集合,包括:
根据频率特征图中像素点的频率值对像素点进行分类,得到所述高频像素点集合和所述低频像素点集合。
4.根据权利要求3所述的方法,其特征在于,所述根据频率特征图中像素点的频率值对像素点进行分类,包括:
采用神经网络学习的方式,生成与所述频率特征图对应的掩膜;
利用所述掩膜对所述频率特征图中的所有像素点的频率值进行过滤,得到所述高频像素点和所述低频像素点。
5.根据权利要求3所述的方法,其特征在于,所述根据频率特征图中像素点的频率值对像素点进行分类,包括:
获取所述频率特征图中各个像素点的频率值;
将频率值大于或等于预设频率阈值的像素点确定为高频像素点;
将频率值小于所述预设频率阈值的像素点确定为低频像素点。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述对每幅所述特征图的高频特征图像进行多阶段卷积操作,包括:
按照每一阶段卷积操作的下采样倍数和通道增加数量,对特征图对应的高频特征图像进行多阶段卷积操作,得到所述每个阶段卷积操作的结果;所述每个阶段卷积操作的结果为下一阶段卷积操作的输入。
7.根据权利要求6所述的方法,其特征在于,所述对每幅所述特征图的低频特征图像进行单阶段卷积操作,包括:
根据特征图对应的高频特征图像的最后一个阶段卷积操作的结果,确定目标下采样倍数和目标通道增加数量;
基于所述目标下采样倍数和所述目标通道增加数量,对所述特征图的低频特征图像进行单阶段卷积操作。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述根据每个阶段卷积操作的结果计算所述阶段对应的各个像素点的特征向量,包括:
将当前像素点分别与所述每个阶段卷积操作的结果置于同一坐标系下,基于局部隐式图像函数和放大倍率,计算所述当前像素点在所述每个阶段卷积操作的结果下的特征向量。
9.根据权利要求8所述的方法,其特征在于,如果所述放大倍率大于1,所述局部隐式图像函数为插值计算方式确定的函数;如果所述放大倍率小于1,所述局部隐式图像函数为平均值计算方式确定的函数。
10.根据权利要求1所述的方法,其特征在于,所述将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,获取目标人脸图像中每个像素点的像素值,包括:
将所述每个像素点在所述全部特征图的各个阶段卷积操作的结果中的特征向量进行拼接,得到所述每个像素点的目标特征向量;
将所述每个像素点的目标特征向量输入至多层感知器中进行预测,得到所述每个像素点的像素值。
11.根据权利要求1-5任一项所述的方法,其特征在于,在所述对待处理人脸图像进行特征提取之前,所述方法还包括:
获取初始人脸图像;所述初始人脸图像为RGB图像;
将所述初始人脸图像进行格式转换,得到所述初始人脸图像对应的YUV图像;
提取所述YUV图像中Y通道的图像作为所述待处理人脸图像。
12.根据权利要求1-11任一项所述的方法,其特征在于,所述像素点的像素值为Y通道图像的像素值,所述方法还包括:
对所述目标人脸图像进行格式转换,得到所述目标人脸图像对应的RGB图像。
13.根据权利要求1-12任一项所述的方法,其特征在于,所述方法应用于预设的增强网络模型中,所述预设的增强网络模型包括特征提取子网络、高低频分离子网络以及增强子网络,所述方法包括:
所述特征提取子网络对所述待处理人脸图像进行特征提取,得到所述待处理人脸图像的所述至少一个特征图;
所述高低频分离子网络获取每幅所述特征图对应的所述高频特征图像和所述低频特征图像;
所述增强子网络对每幅所述特征图的高频特征图像进行多阶段卷积操作,对每幅所述特征图的低频特征图像进行单阶段卷积操作;根据所述目标人脸图像的分辨率尺寸,确定每个像素点的位置;分别根据每个阶段卷积操作的结果计算所述阶段对应的各个像素点的特征向量;将全部特征图的各个阶段卷积操作的结果中每个像素点的特征向量按照像素点进行拼接,获取所述目标人脸图像中每个像素点的像素值。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
将样本人脸图像输入至初始增强网络模型中进行迭代训练;
计算每一次增强网络模型输出的训练目标人脸图像与标准人脸图像之间的损失函数,在所述损失函数满足预设条件时停止迭代,得到所述增强网络模型;其中,所述标准人脸图像为分辨率大于预设分辨率的人脸图像。
15.根据权利要求14所述的方法,其特征在于,所述损失函数由第一损失函数和第二损失函数确定;其中,所述第一损失函数用于计算所述训练目标人脸图像与所述标准人脸图像之间的差值;所述第二损失函数用于计算所述训练目标人脸图像与所述样本人脸图像之间的差值。
16.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;所述存储器与所述处理器耦合;所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-15中任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-15中任一项所述的方法。
CN202210975393.2A 2022-08-15 2022-08-15 人脸图像处理方法和电子设备 Active CN115546858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210975393.2A CN115546858B (zh) 2022-08-15 2022-08-15 人脸图像处理方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210975393.2A CN115546858B (zh) 2022-08-15 2022-08-15 人脸图像处理方法和电子设备

Publications (2)

Publication Number Publication Date
CN115546858A true CN115546858A (zh) 2022-12-30
CN115546858B CN115546858B (zh) 2023-08-25

Family

ID=84726025

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210975393.2A Active CN115546858B (zh) 2022-08-15 2022-08-15 人脸图像处理方法和电子设备

Country Status (1)

Country Link
CN (1) CN115546858B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861042A (zh) * 2023-02-08 2023-03-28 荣耀终端有限公司 一种图像处理方法、电子设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977932A (zh) * 2017-12-28 2018-05-01 北京工业大学 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN109741280A (zh) * 2019-01-04 2019-05-10 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN110246084A (zh) * 2019-05-16 2019-09-17 五邑大学 一种超分辨率图像重构方法及其系统、装置、存储介质
CN110348319A (zh) * 2019-06-18 2019-10-18 武汉大学 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN113077397A (zh) * 2021-03-29 2021-07-06 Oppo广东移动通信有限公司 图像美颜处理方法、装置、存储介质与电子设备
WO2022121256A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 人脸图像分辨率重建方法、装置、设备及存储介质
CN114757832A (zh) * 2022-06-14 2022-07-15 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977932A (zh) * 2017-12-28 2018-05-01 北京工业大学 一种基于可鉴别属性约束生成对抗网络的人脸图像超分辨率重建方法
CN109741280A (zh) * 2019-01-04 2019-05-10 Oppo广东移动通信有限公司 图像处理方法、装置、存储介质及电子设备
CN110246084A (zh) * 2019-05-16 2019-09-17 五邑大学 一种超分辨率图像重构方法及其系统、装置、存储介质
CN110348319A (zh) * 2019-06-18 2019-10-18 武汉大学 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
WO2022121256A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 人脸图像分辨率重建方法、装置、设备及存储介质
CN113077397A (zh) * 2021-03-29 2021-07-06 Oppo广东移动通信有限公司 图像美颜处理方法、装置、存储介质与电子设备
CN114757832A (zh) * 2022-06-14 2022-07-15 之江实验室 基于交叉卷积注意力对抗学习的人脸超分辨方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王先傲: "基于生成对抗网络的人脸超分辨率重建算法", 《桂林电子科技大学学报》, vol. 40, no. 01, pages 49 - 53 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115861042A (zh) * 2023-02-08 2023-03-28 荣耀终端有限公司 一种图像处理方法、电子设备及介质

Also Published As

Publication number Publication date
CN115546858B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
CN111179282B (zh) 图像处理方法、图像处理装置、存储介质与电子设备
CN108594997B (zh) 手势骨架构建方法、装置、设备及存储介质
CN111598776B (zh) 图像处理方法、图像处理装置、存储介质与电子设备
CN109831622B (zh) 一种拍摄方法及电子设备
CN113538273B (zh) 图像处理方法及图像处理装置
US20220319077A1 (en) Image-text fusion method and apparatus, and electronic device
CN112954251B (zh) 视频处理方法、视频处理装置、存储介质与电子设备
CN111741303B (zh) 深度视频处理方法、装置、存储介质与电子设备
CN111539882A (zh) 辅助化妆的交互方法、终端、计算机存储介质
CN113473013A (zh) 图像美化效果的显示方法、装置和终端设备
CN114724055A (zh) 视频切换方法、装置、存储介质及设备
CN113744257A (zh) 图像融合方法、装置、终端设备以及存储介质
CN115546858B (zh) 人脸图像处理方法和电子设备
CN113096022A (zh) 图像虚化处理方法、装置、存储介质与电子设备
CN110189348A (zh) 头像处理方法、装置、计算机设备及存储介质
CN113660369A (zh) 来电处理及模型训练方法、装置、终端设备和存储介质
CN116703995B (zh) 视频虚化处理方法和装置
CN112308202A (zh) 一种确定卷积神经网络的决策因素的方法及电子设备
CN113810622B (zh) 一种图像处理方法及设备
CN111626931B (zh) 图像处理方法、图像处理装置、存储介质与电子设备
CN114531578A (zh) 光源光谱获取方法和设备
CN116843583B (zh) 图像处理方法、装置、电子设备及存储介质
CN116912602B (zh) 图像处理模型的训练方法、图像处理方法及电子设备
CN116703791B (zh) 图像的处理方法、电子设备及可读介质
CN111626929B (zh) 深度图像的生成方法及装置、计算机可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant