CN117764853A - 人脸图像增强方法和电子设备 - Google Patents
人脸图像增强方法和电子设备 Download PDFInfo
- Publication number
- CN117764853A CN117764853A CN202410041037.2A CN202410041037A CN117764853A CN 117764853 A CN117764853 A CN 117764853A CN 202410041037 A CN202410041037 A CN 202410041037A CN 117764853 A CN117764853 A CN 117764853A
- Authority
- CN
- China
- Prior art keywords
- face image
- image
- training
- face
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims description 220
- 230000015654 memory Effects 0.000 claims description 42
- 230000004044 response Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 10
- 230000015556 catabolic process Effects 0.000 claims description 8
- 238000006731 degradation reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 22
- 238000004891 communication Methods 0.000 description 34
- 230000006854 communication Effects 0.000 description 34
- 230000006870 function Effects 0.000 description 34
- 238000007726 management method Methods 0.000 description 21
- 239000010410 layer Substances 0.000 description 18
- 230000005236 sound signal Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 10
- 210000000988 bone and bone Anatomy 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 210000000697 sensory organ Anatomy 0.000 description 8
- 210000001331 nose Anatomy 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 210000004027 cell Anatomy 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000001508 eye Anatomy 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 210000001061 forehead Anatomy 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002138 osteoinductive effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000011148 porous material Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003238 somatosensory effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
一种人脸图像增强方法和电子设备。其中,该方法可应用于具备图像处理能力的电子设备上,例如智能手机、平板电脑等。在对人脸图像进行图像增强处理的过程中,电子设备可先确定待处理人脸图像对应的UV图像;然后,将待处理人脸图像对应的UV图像作为引导图,与待处理人脸图像一起输入到训练后的噪声预测模型中,得到预测噪声;最后,基于待处理人脸图像和预测噪声,确定待处理人脸图像对应的目标人脸图像。这样,可提升图像增强处理后的人脸图像的质量。
Description
技术领域
本申请涉及计算设备领域,尤其涉及一种人脸图像增强方法和电子设备。
背景技术
受限于电子设备中图像传感器的能力,电子设备拍摄图像存在清晰度不足的问题,特别是拍摄人脸图像时,拍摄出的人脸图像存在纹理真实感不强、五官立体感不强等问题。因此,电子设备需要采用图像增强方法对拍摄到的人脸图像的清晰度、纹理、五官等各个方面进行人脸增强处理。
目前,常用的图像增强方法有传统的图像增强方法和基于深度学习的图像增强方法。然而,传统的图像增强方法,如采用图像融合的方法,或者基于伽马变换和对数变换的非线性变换算法等,可以处理的特征信息十分有限,从而普适性不足,且图像增强处理后的图像质量不高。基于深度学习的图像增强方法,如基于清晰帧引导的端到端深度学习方法,或者基于人脸区域分割单独增强的深度学习方法等,在对图像进行处理时,需要将整张图像输入到深度学习网络中,从而会产生复杂的特征信息,而并不能准确的对目标部位进行增强处理,从而导致图像增强处理后的图像效果较差。
因此,如何提升图像增强处理后的人脸图像质量成为了一个亟待解决的问题。
发明内容
本申请实施例提供了一种人脸图像增强方法和电子设备,可提升图像增强处理后的人脸图像的质量。
第一方面,本申请实施例提供了一种人脸图像增强方法,该方法包括:确定待处理人脸图像对应的纹理贴图坐标UV图像;待处理人脸图像对应的UV图像的清晰度大于待处理人脸图像的清晰度;将待处理人脸图像对应的UV图像和待处理人脸图像输入到训练后的噪声预测模型中,得到第一预测噪声;其中,噪声预测模型是基于多个训练人脸图像对应的UV图像以及多个训练人脸图像训练得到的;基于待处理人脸图像和第一预测噪声,确定待处理人脸图像对应的目标人脸图像。
实施第一方面提供的方法后,电子设备100可以利用UV图像作为引导图像,与待处理人脸图像一起输入到训练后的噪声预测模型中,获得预测噪声;然后,基于待处理人脸图像和预测噪声,获得待处理人脸图像对应的目标人脸图像(或者称为增强人脸图像),从而,能够提升图像增强后的人脸图像的质量。
结合第一方面,在一种可选的实施方式中,确定待处理人脸图像对应的UV图像,包括:将待处理人脸图像输入到人脸3D形变模型中,获得待处理人脸图像的第一3D人脸关键点;基于第一3D人脸关键点,确定待处理人脸图像对应的UV图像。
该实施方式中,电子设备100通过利用包含了人脸形状信息、表情信息等丰富的人脸深度信息的3D人脸关键点,可以确定出更准确的或是更符合用户需求的待处理人脸图像对应的UV图像,从而利用该UV图像作为引导图,能够获得更高质量的图像增强后的人脸图像。
结合第一方面,在一种可选的实施方式中,基于第一3D人脸关键点,确定待处理人脸图像对应的UV引导图像,包括:计算第一3D人脸关键点与多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点之间的相似度;基于相似度,从多个训练人脸图像对应的UV图像中,确定待处理人脸图像对应的UV图像。
该实施方式中,电子设备100可以根据待处理人脸图像对应的第一3D人脸关键点和多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点之间的相似度,确定待处理人脸图像对应的UV图像,从而,能够利用所确定的待处理人脸图像对应的UV图像作为引导图,获得更准确的图像增强处理后的人脸图像。
结合第一方面,在一种可选的实施方式中,基于第一3D人脸关键点,确定待处理人脸图像对应的UV图像,包括:检测到第一操作;响应于第一操作,从多个训练人脸图像对应的UV图像中确定至少一个UV图像;计算第一3D人脸关键点和至少一个UV图像中每个UV图像对应的3D人脸关键点之间的相似度;基于相似度,从至少一个UV图像中确定待处理人脸图像对应的UV图像。
该实施方式中,电子设备100可以在检测到用户的第一操作后,从多个训练人脸图像对应的UV图像中,选择出更符合用户需求的至少一个UV图像,然后,根据待处理人脸图像对应的第一3D人脸关键点和至少一个UV图像中每个UV图像对应的3D人脸关键点之间的相似度,确定待处理人脸图像对应的UV图像,从而,能够利用所确定的待处理人脸图像对应的UV图像作为引导图,获得更满足用户需求的图像增强处理后的人脸图像。
结合第一方面,在一种可选的实施方式中,基于待处理人脸图像和第一预测噪声,确定待处理人脸图像对应的目标人脸图像,包括:利用待处理人脸图像减去第一预测噪声,获得待处理人脸图像对应的目标人脸图像。
结合第一方面,在一种可选的实施方式中,该方法还包括:获取多个训练人脸图像;针对多个训练人脸图像中的每个训练人脸图像,对该训练人脸图像进行数据退化处理,得到第一训练人脸图像;第一训练人脸图像的清晰度小于该训练人脸图像的清晰度;确定第一训练人脸图像对应的UV图像;第一训练人脸图像对应的UV图像的清晰度大于第一训练人脸图像的清晰度;将第一训练人脸图像和第一训练人脸图像对应的UV图像输入到初始噪声预测模型中,得到第二预测噪声;基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型。
结合第一方面,在一种可选的实施方式中,基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型,包括:按照减小第二预测噪声和该训练人脸图像的真实噪声之间差异的方向,对初始噪声预测模型进行训练,获得训练后的噪声预测模型。
结合第一方面,在一种可选的实施方式中,基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型,包括:利用第一训练人脸图像减去第二预测噪声,获得该训练人脸图像对应的目标人脸图像;按照减小该训练人脸图像对应的目标人脸图像和该训练人脸图像之间差异的方向,对初始噪声预测模型进行训练,获得训练后的噪声预测模型。
该实施方式中,电子设备100基于该训练人脸图像对应的目标人脸图像和该训练人脸图像之间的损失,对初始噪声预测模型进行训练,可提升训练后的噪声预测模型的准确度,从而,有利于提升第一预测噪声的准确度,进而,有利于提升待处理人脸图像对应的图像增强处理后的人脸图像的质量。
结合第一方面,在一种可选的实施方式中,基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型,包括:利用第一训练人脸图像减去第二预测噪声,获得该训练人脸图像对应的目标人脸图像;确定该训练人脸图像对应的目标人脸图像的3D人脸关键点;按照减小该训练人脸图像对应的目标人脸图像的3D人脸关键点和该训练人脸图像的3D人脸关键点之间差异的方向,对初始噪声预测模型进行训练,得到训练后的噪声预测模型。
该实施方式中,电子设备100基于该训练人脸图像对应的目标人脸图像的3D人脸关键点和该训练人脸图像的3D人脸关键点之间的损失,对初始噪声预测模型进行训练,可提升训练后的噪声预测模型的准确度,从而,有利于提升第一预测噪声的准确度,进而,有利于提升待处理人脸图像对应的图像增强处理后的人脸图像的质量。
结合第一方面,在一种可选的实施方式中,确定该训练人脸图像对应的目标人脸图像的3D人脸关键点,包括:对该训练人脸图像对应的目标人脸图像进行数据退化处理,获得第三训练人脸图像;第三训练人脸图像的清晰度小于该训练人脸图像对应的目标人脸图像的清晰度;将第三训练人脸图像输入到人脸3D形变模型中,获得该训练人脸图像对应的目标人脸图像的3D人脸关键点。
第二方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器和存储器;该存储器与一个或多个处理器耦合,该存储器用于存储计算机程序代码,该计算机程序代码包括计算机指令,该一个或多个处理器调用该计算机指令以使得该电子设备执行:确定待处理人脸图像对应的纹理贴图坐标UV图像;待处理人脸图像对应的UV图像的清晰度大于待处理人脸图像的清晰度;将待处理人脸图像对应的UV图像和待处理人脸图像输入到训练后的噪声预测模型中,得到第一预测噪声;其中,噪声预测模型是基于多个训练人脸图像对应的UV图像以及多个训练人脸图像训练得到的;基于待处理人脸图像和第一预测噪声,确定待处理人脸图像对应的目标人脸图像。
可选的,第二方面的可选的实施方式及有益效果可参见前述第一方面的任意一种可选的实施方式的描述,此处不再进行赘述。
第三方面,本申请实施例提供了一种电子设备,包括:触控屏、摄像头、一个或多个处理器和一个或多个存储器;所述一个或多个处理器与所述触控屏、所述摄像头、所述一个或多个存储器耦合,所述一个或多个存储器用于存储计算机程序代码,计算机程序代码包括计算机指令,当所述一个或多个处理器执行所述计算机指令时,使得所述电子设备执行如第一方面或第一方面的任意一种可选的实施方式所述的方法。
第四方面,本申请提供一种芯片系统,该芯片系统应用于电子设备,该芯片系统包括一个或多个处理器,该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种可选的实施方式所述的方法。
第五方面,本申请实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在电子设备上运行时,使得该电子设备执行如第一方面或第一方面的任意一种可选的实施方式所述的方法。
第六方面,本申请提供一种计算机可读存储介质,包括指令,当该指令在电子设备上运行时,使得该电子设备执行如第一方面或第一方面的任意一种可选的实施方式所述的方法。
附图说明
图1A-图1F是本申请实施例提供的一组用户界面示意图;
图2是本申请实施例提供的一种人脸图像增强方法的流程示意图;
图3是本申请实施例提供的一种训练噪声预测模型的流程示意图;
图4是本申请实施例提供的一种利用deffusion模型生成第一训练人脸图像的过程示意图;
图5是本申请实施例提供的一种电子设备100的软件架构示意图;
图6是本申请实施例提供的一种电子设备100的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例,也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,对本申请实施例涉及的一些概念进行阐述。这些概念的阐述包括但不限于以下内容。
1、图像增强
图像增强是指对图像的有用信息进行增强,提高图像的分辨率,改善图像的视觉体验效果,有目的性的强调图像的局部与整体特征,抑制不感兴趣的特征,使图像满足特定需求。对于人脸图像来说,图像增强主要包括提升清晰度、纹理自然感、毛孔细致感、立体五官等四个方面。
2、高清头模UV图像
高清头摸UV图像是通过三维扫描仪(3D scanner)对人脸图像进行扫描获得的UV头像。
其中,三维扫描仪是一种科学仪器,用来检测并分析现实世界中物体的形状、颜色、表面反照率等,这些数据通常可以被用来进行三维重建计算,在虚拟世界中创建实际物体的数字模型。所创建的数字模型可以应用于虚拟现实、游戏开发或者电影特性开发等场景中。
其中,UV图像用于表示3D模型的2D纹理坐标,指三维表面转换为平面图像的二维坐标系。UV图像可以实现比单反采集到的图像更高的分辨率以及更高的图像保真度。其中,3D模型的公式如下公式(1)。
(1)
公式(1)中,P3D表示的是3D模型的三维坐标;x表示的是水平方向坐标;y表示的是竖直方向坐标;z表示的是垂直于电子设备的屏幕方向坐标。
UV图像的公式如下公式(2)。
(2)
公式(2)中,PUV表示的是3D模型的二维展开坐标;u表示的是二维展开坐标的水平方向;v表示的是二维展开坐标的竖直方向。
纹理绘画图像的公式如下公式(3)。
(3)
公式(3)中,T表示的是UV图像上每一个点贴回3D模型的表面的结果;x,y,z的物理含义可参见上述对公式(1)中的x,y,z的相关阐述;u,v的物理含义可参见上述对公式(2)中的u,v的相关阐述,此处不再进行赘述。
3、人脸关键点
人脸关键点是指人脸图像中关键区域的位置,其中,人脸图像中的关键区域如眉毛、眼睛、鼻子、嘴巴、脸部轮廓等。人脸关键点可通过对指定人脸图像进行检测获得,其中,人脸关键点分为2D人脸关键点和3D人脸关键点。
其中,2D人脸关键点是通过对2D人脸图像中的关键点进行定位获得的,通常情况下,2D人脸关键点的数量少于100个。
3D人脸关键点比2D人脸关键点多出更多的深度信息,通常情况下,3D人脸关键点的数量超过280个,甚至可以达到1000个。可选的,电子设备100可通过采用人脸3D形变模型(3D morphable face model,3DMM)重建高清图像的3D网格(mesh),将3D网格映射到2D图像空间中,获得3D人脸关键点。
目前,常用的图像增强方法有传统的图像增强方法和基于深度学习的图像增强方法。其中,传统的图像增强方法,如采用图像融合的方法,或者基于伽马变换和对数变换的非线性变换算法等,可以处理的特征信息十分有限,从而普适性不足,且图像增强处理后的图像质量不高。基于深度学习的图像增强方法,如基于清晰帧引导的端到端深度学习方法,或者基于人脸区域分割单独增强的深度学习方法等,在对图像进行处理时,需要将整张图像输入到深度学习网络中,从而会产生复杂的特征信息,而并不能准确的对目标部位进行增强处理,从而导致图像增强处理后的图像效果较差。
为了解决上述问题,本申请实施例提供了一种人脸图像增强方法。该人脸图像增强方法可应用于具备图像处理能力的电子设备上。
实施本申请实施例提供的人脸图像增强方法,电子设备100可以利用UV图像作为引导图像,与待处理人脸图像一起输入到训练后的噪声预测模型中,获得预测噪声;然后,基于待处理人脸图像和预测噪声,获得待处理人脸图像对应的目标人脸图像(或者称为增强人脸图像)。
具体的,电子设备100在确定待处理人脸图像后,可确定待处理人脸图像对应的UV图像,待处理人脸图像对应的UV图像的清晰度大于待处理人脸图像的清晰度;将待处理人脸图像对应的UV图像和待处理人脸图像输入到训练后的噪声预测模型中,得到第一预测噪声;其中,噪声预测模型是基于多个训练人脸图像对应的UV图像以及多个训练人脸图像训练得到的;基于待处理人脸图像和第一预测噪声,确定待处理人脸图像对应的目标人脸图像。
在一种可选的实施方式中,电子设备确定待处理人脸图像对应的UV图像,可包括:将待处理人脸图像输入到人脸3D形变模型中,获得待处理人脸图像的第一3D人脸关键点;基于第一3D人脸关键点,确定待处理人脸图像对应的UV图像。
在一种可选的实施方式中,训练后的噪声预测模型是电子设备100基于如下方式获得的:首先,电子设备100可获取多个训练人脸图像,针对多个训练人脸图像中的每个训练人脸图像,对该训练人脸图像进行数据退化处理,得到第一训练人脸图像,其中,第一训练人脸图像的清晰度小于该训练人脸图像的清晰度。其次,电子设备100可利用三维扫描仪对该训练人脸图像进行扫描,得到该训练人脸图像对应的UV图像,该训练人脸图像对应的UV图像的清晰度大于第一训练人脸图像的清晰度;然后,电子设备100可以将第一训练人脸图像和该训练人脸图像对应的UV图像输入到初始噪声预测模型中,得到第二预测噪声;基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型。
实施上述人脸图像增强方法,电子设备100可以利用UV图像作为引导图像,与待处理人脸图像一起输入到训练后的噪声预测模型中,获得预测噪声;然后,基于待处理人脸图像和预测噪声,获得待处理人脸图像对应的目标人脸图像(或者称为增强人脸图像),从而,提升图像增强后的人脸图像的质量。
可选的,电子设备100可以包括但不限于是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence, AI)设备、可穿戴式设备(如智能手表)、车载设备(如车载摄像机)、医疗器械设备(如医疗器械摄像机)、智能家居设备和/或智慧城市设备等。本申请实施例对该电子设备的具体类型不作特殊限制。
图1A-图1F是本申请实施例提供的一组用户界面示意图,下面结合图1A-图1C具体介绍实施本申请实施例提供的人脸图像增强方法的应用场景。
图1A是本申请实施例提供的一种电子设备100上展示已安装应用程序图标的用户界面,即主页面(home page)。如图1A所示,该主页面显示有多个应用程序图标,例如“信息”应用程序图标、“通讯录”应用程序图标、“电话”应用程序图标等等。
该主页面中的多个应用程序图标包括“相机”应用程序图标,即图标111。相机应用是智能手机、平板电脑等等电子设备上的一款图像拍摄的应用程序。电子设备100可检测到作用于图标111的用户操作,上述操作例如是点击操作、长按操作等等。响应于上述操作,电子设备100可打开相机应用,并显示图1B所示的用户界面,图1B所示的用户界面可以为相机应用提供的默认拍照界面。
可以理解的是,电子设备100还可以通过其他方式打开相机应用,例如电子设备100可以检测到用户的语音指令“打开相机”,触发打开相机应用,本申请实施例对打开相机应用的方式不作限制。
图1B是本申请实施例提供的一种电子设备100上首次运行“相机”时“相机”的主界面。如图1B所示,该用户界面可以包括窗口121、相机模式选项122、图库快捷控件123、快门控件124、摄像头翻转控件125、功能选择控件126。其中:
窗口121可用于显示摄像头实时采集的图像。电子设备100可以实时刷新其中的显示内容,以便用户预览摄像头当前采集的图像。
相机模式选项122中可以显示有一个或多个拍摄模式选项,这一个或多个拍摄模式选项可以包括夜景模式选项、视频模式选项、照片模式选项、人像模式选项、更多模式选项等等。当检测到作用于拍摄模式选项上的用户操作,电子设备100可以开启用户选择的拍摄模式。特别的,当检测到作用于更多模式选项的用户操作,电子设备100可以进一步显示其他更多的拍摄模式选项,例如慢动作拍摄模式选项等等,从而向用户展示更丰富的拍摄功能。不限于图1B所示,相机模式选项122可以不显示更多模式选项,电子设备100可以检测到用户在相机模式选项122中向左/右滑动的操作,显示其他更多的拍摄模式选项。默认的,在电子设备100进入相机应用时,电子设备100可以默认启动照片模式选项。
图库快捷控件123可用于开启图库应用。响应于作用于图库快捷控件123的用户操作,例如点击操作,电子设备100可以开启图库应用。这样,用户可以便捷地查看到拍摄的图片和视频,而无需先退出相机应用,再开启图库应用。图库应用可以支持用户对存储于电子设备100上的图片和视频进行各种操作,例如浏览、编辑、删除、选择等操作。另外,电子设备100还可以在图库快捷控件123中显示所保存的图像的缩略图。
快门控件124可用于检测触发拍摄的用户操作,响应于该操作,电子设备100可以将窗口121中的图像保存为图库应用中的图片,或者开始录制视频。
摄像头翻转控件125可用于检测触发翻转摄像头的用户操作,响应于该操作,电子设备100可以翻转摄像头,例如将后置摄像头切换为前置摄像头。默认的,在电子设备100进入相机应用时,电子设备100可以默认启动后置摄像头,在窗口121中显示该摄像头采集的图像。
功能选择控件126可用于开启拍摄功能选项。电子设备100可检测到作用于功能选择控件126的用户操作,例如点击操作。响应于上述操作,电子设备100可显示图1C所示的用户界面。图1C是本申请实施例提供的一种电子设备100拍摄图像之前显示不同功能选项的用户界面。
如图1C所示,该用户界面可以包括五官提升选项131、风格趋势选项132。
示例性的,当用户有需要对待处理人脸图像的鼻子的立体感、脸型的变化、皮肤状态等进行提升的需求时,电子设备100在检测到作用于快门控件124的用户操作之前,可先检测到作用于五官提升选项131的用户操作,响应于该用户操作,电子设备100可显示图1D所示的用户界面。
图1D是本申请实施例提供的一种电子设备100显示提供给用户选择五官中不同部位进行提升的用户界面。如图1D所示,五官提升选项131中包括多个功能选项,如鼻梁立体感141、嘴唇立体感142、面部立体感143、额头立体感144等。用户可以选择电子设备100提供的五官提升选项中的一个或多个。响应于上述选择五官提升选项的操作,电子设备100可以从数据库中存储的多个训练人脸图像对应的UV图像中确定至少一个UV图像,其中,至少一个UV图像中每个UV图像是与用户选择的五官提升功能选项相对应的训练图像对应的UV图像。
可选的,响应于上述选择五官提升选项的操作之前,电子设备100还将窗口121中显示的人脸图像输入到人脸3D形变模型中,获得待处理人脸图像的第一3D人脸关键点。
可选的,电子设备100从多个训练人脸图像对应的UV图像中确定至少一个UV图像之后,还可以计算待处理人脸图像的第一3D人脸关键点和至少一个UV图像中每个UV图像对应的3D人脸关键点之间的相似度,并基于相似度,确定待处理人脸图像对应的UV图像。
示例性的,当用户有需要对待处理人脸图像的整体外形风格进行改变的需求时,电子设备100在检测到作用于快门控件124的用户操作之前,可以先检测到作用风格趋势选项132的用户操作,响应于该用户操作,电子设备100可显示图1E所示的用户界面。
图1E是本申请实施例提供的一种电子设备100显示提供给用户选择不同风格趋势人像的用户界面。如图1E所示,风格趋势选项中包括多个风格选项,如漫画风格151、儿童风格152、欧美风格153等。用户可以选择电子设备100提供的风格趋势选项中的任意一个。响应于上述选择风格选项的操作,电子设备100可以从数据库中存储的多个训练人脸图像对应的UV图像中确定至少一个UV图像,其中,至少一个UV图像中每个UV图像是与用户选择的风格选项相对应的训练图像对应的UV图像。
可选的,响应于上述选择风格选项的操作之前,电子设备100还将窗口121中显示的人脸图像(待处理人脸图像)输入到人脸3D形变模型中,获得待处理人脸图像的第一3D人脸关键点。
可选的,电子设备100从多个训练人脸图像对应的UV图像中确定至少一个UV图像之后,还可以计算待处理人脸图像的第一3D人脸关键点和至少一个UV图像中每个UV图像对应的3D人脸关键点之间的相似度,并基于相似度,确定待处理人脸图像对应的UV图像。
在确定待处理人脸图像对应的UV图像之后,电子设备100还可将待处理人脸图像对应的UV图像和待处理人脸图像输入到训练后的噪声预测模型中,得到第一预测噪声。
电子设备100还可以检测到作用于快门控件124的用户操作,响应于该操作,电子设备100可以将待处理人脸图像减去第一预测噪声,获得待处理人脸图像对应的目标人脸图像(或者称为增强人脸图像),并显示图1F所示的用户界面。图1F是本申请实施例提供的一种电子设备100对通过后置摄像头采集到的人脸图像进行图像增强后显示的用户界面。
图1F中窗口121显示的即为对采集到的人脸图像进行图像增强后的目标人脸图像。
可选的,电子设备100还可以将窗口121中显示的目标人脸图像保存为图库应用中的图片。
下面对本申请实施例提供的人脸图像增强方法进行介绍。
请参加图2,图2是本申请实施例提供的一种人脸图像增强方法的流程示意图。如图2所示,该人脸图像增强方法可包括但不限于如下步骤:
S201、电子设备100获取待处理人脸图像。
可选的,参见图1A所示的用户界面,电子设备100可以检测到作用于图标111的用户操作,响应于该操作,电子设备100可对人脸图像进行采集,获得待处理人脸图像。
可选的,待处理人脸图像的格式可以是RGB格式,也可以是YUV格式,还可以是Raw格式等,本申请对待处理人脸图像的格式不进行限定。
可选的,待处理人脸图像可以是单帧人脸图像,也可以是多帧人脸图像,本申请对此不进行限定。为便于阐述,下面均以待处理人脸图像是单帧人脸图像为例进行阐述。
S202、电子设备100将待处理人脸图像输入到3DMM模型中,获得待处理人脸图像的第一3D人脸关键点。
其中,第一3D人脸关键点的数量根据任务的不同,可分为280个,500个,750个不等,甚至更多个。本申请中,以280个第一3D人脸关键点为例。
3DMM模型是一类参数化人脸模型的统称,其具体实现是把人脸3D模型参数化表示。以人脸形状为例,基于如下公式(4),电子设备100可以将一个平均人脸形状和一些表示人脸特征的特征向量进行线性组合,以表示一个3D人脸形状。
(4)
公式(4)中,表示的是平均人脸形状;Si表示的是人脸形状维度的特征向量;Bi表示的是人脸表情维度的特征向量;ai表示的是人脸形状的系数;wi表示的是人脸表情的系数。
电子设备100通过对公式(4)中的ai和wi进行参数调制,可获得一个和真实人脸形状一致的3D人脸形状。
其中,电子设备100可通过求解公式(4)中的ai和wi两个调制系数,使得如下公式(5)所示的损失函数获得最优解。
(5)
公式(5)中,E表示的是损失函数;s、R、t均是投影相关的系数,其中,s表示的是缩放系数,R表示的是旋转系数,t表示的是平移系数;表示的是第i个关键点在3D模型上的坐标;/>表示的是第i个关键点在2D模型上的坐标;n表示的是有明确语义定义的关键点(3D人脸关键点的个数)的个数。在本申请中,n为280,其指的是280个第一3D人脸关键点。其中,280个第一3D人脸关键点覆盖待处理人脸图像的面部轮廓中的所有关键点。
S203、电子设备100基于第一3D人脸关键点,确定待处理人脸图像对应的UV图像。
在一种可选的实施方式中,电子设备100基于第一3D人脸关键点,确定待处理人脸图像对应的UV图像,可包括:计算第一3D人脸关键点与多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点之间的相似度;基于相似度,从多个训练人脸图像对应的UV图像中,确定待处理人脸图像对应的UV图像。
其中,多个训练人脸图像对应的UV图像以及多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点,均是电子设备100利用三维扫描仪对多个训练人脸图像分别进行扫描获得的。
该实施方式中,电子设备100计算第一3D人脸关键点与多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点之间的相似度,可以是计算第一3D人脸关键点与多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点之间的欧式距离。
该实施方式中,电子设备100基于相似度,从多个训练人脸图像对应的UV图像中,确定待处理人脸图像对应的UV图像,可以是从多个训练人脸图像对应的UV图像中,选择与第一3D人脸关键点之间的欧式距离最小的UV图像,作为待处理人脸图像对应的UV图像。
示例性的,假设有4个训练人脸图像,该4个训练人脸图像对应的UV图像分别为UV图像1、UV图像2、UV图像3以及UV图像4。电子设备100确定第一3D人脸关键点与UV图像1对应的3D人脸关键点之间的欧式距离为0.225,第一3D人脸关键点与UV图像2对应的3D人脸关键点之间的欧式距离为0.246,第一3D人脸关键点与UV图像3对应的3D人脸关键点之间的欧式距离为0.207,第一3D人脸关键点与UV图像1对应的3D人脸关键点之间的欧式距离为0.232,这种情况下,电子设备100可确定第一3D人脸关键点与UV图像3对应的3D人脸关键点之间的欧式距离最小,此时,电子设备100可以确定UV图像3为待处理人脸图像对应的UV图像。
在另一种可选的实施方式中,电子设备100基于第一3D人脸关键点,确定待处理人脸图像对应的UV图像,可包括:检测到第一操作;响应于第一操作,从多个训练人脸图像对应的UV图像中确定至少一个UV图像;计算第一3D人脸关键点和至少一个UV图像中每个UV图像对应的3D人脸关键点之间的相似度;基于相似度,从至少一个UV图像中确定待处理人脸图像对应的UV图像。
其中,多个训练人脸图像对应的UV图像以及多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点,均是电子设备100利用三维扫描仪对多个训练人脸图像分别进行扫描获得的。
示例性的,参见图1D所示的用户界面,电子设备100可以检测到作用于鼻梁立体感141的用户操作,响应于该用户操作,电子设备100可以从多个训练人脸图像对应的UV图像中确定出与用户选择的鼻梁立体感141选项相对应的至少一个UV图像。
示例性的,参见图1E所示的用户界面,电子设备100可以检测到作用于漫画风格151的用户操作,响应于该用户操作,电子设备100可以从多个训练人脸图像对应的UV图像中确定出与用户选择的漫画风格151选项相对应的至少一个UV图像。
该实施方式中,电子设备100计算第一3D人脸关键点和至少一个UV图像中每个UV图像对应的3D人脸关键点之间的相似度,可以是计算第一3D人脸关键点和至少一个UV图像中每个UV图像对应的3D人脸关键点之间的欧式距离。
该实施方式中,电子设备100基于相似度,从至少一个UV图像中确定待处理人脸图像对应的UV图像,可以是从至少一个UV图像中,选择与第一3D人脸关键点之间的欧式距离最大的UV图像,作为待处理人脸图像对应的UV图像。
S204、电子设备100将待处理人脸图像对应的UV图像和待处理人脸图像输入到训练后的噪声预测模型中,得到第一预测噪声;其中,训练后的噪声预测模型是基于多个训练人脸图像对应的UV图像以及多个训练人脸图像训练得到的。
在一种可选的实施方式中,训练后的噪声预测模型是电子设备100基于图3所示的方法训练得到的,图3是本申请实施例提供的一种训练噪声预测模型的流程示意图。如图3所示,电子设备100训练噪声预测模型的过程可包括但不限于如下步骤:
(1)、电子设备100获取多个训练人脸图像。
其中,训练人脸图像可以是单反采集的高清图像。也就是说,本申请中,将单反采集的高清图像作为ground truth(GT)。
(2)、电子设备100针对多个训练人脸图像中的每个训练人脸图像,对该训练人脸图像进行数据退化处理,得到第一训练人脸图像,其中,第一训练人脸图像的清晰度小于该训练人脸图像的清晰度。
在一种可选的实施方式中,电子设备100对训练人脸图像进行数据退化处理,获得第一训练人脸图像,可以是将训练人脸图像输入到扩散(deffusion)模型中,输出第一训练人脸图像。
其中,deffusion模型是一类生成模型,给定输入图像X0~q(x)(X0服从q(x)正态分布),deffusion前向过程即是利用一系列高斯噪声经过T轮迭代,将输入图像X0变为纯高斯噪声XT的过程。由于采用deffusion模型对输入图像进行处理时,是一个渐进加噪的过程,因此可以充分保证每次噪声拟合的准确性,在处理效果退化等问题时具有较好的效果。
请参见图4,图4是本申请实施例提供的一种利用deffusion模型生成第一训练人脸图像的过程示意图。如图4所示,电子设备100可以将训练人脸图像输入到deffusion模型中,经过50次迭代获得第一训练人脸图像。其中,训练人脸图像也可以称为高清人脸图像,第一训练人脸图像也可以称为低清人脸图像。由于deffusion模型的前向过程中当前时刻的图像xt只和上一时刻的图像xt-1有关,因此该过程可以视为马尔科夫过程,其满足如下公式(6)和(7)。
(6)
(7)
公式(6)和公式(7)中,x0表示的是训练人脸图像;xt表示的是当前时刻的图像;xt-1表示的是当前时刻的上一时刻的图像;βt表示的是高斯分布的方差超参数,βt∈(0,1),并且β1<β2<…<βT。其中,公式(7)表示的是xt服从均值为,方差为/>的高斯分布。
电子设备100可基于上述公式(6)和公式(7)在任意时间步长下通过重参数技巧采样得到当前时刻的图像xt。其中,重参数技巧用于解决随机采样样本这一过程中无法求导的问题。比如要从高斯分布中采样样本z,电子设备100可以通过引入随机变量/>,使得z=μ+σ⊙ε,此时z依旧具有随机性,且服从高斯分布N(μ,σ2I),同时μ与σ可导。
电子设备100可通过上述公式(7)采样xt的方法,即生成随机变量ε~N(0,I),然后,结合公式(8)和公式(9)采样得到xt,即得到公式(10)。
(8)
公式(8)中,βt表示的是高斯分布的方差超参数;表示的是根据βt获得的重参数。
(9)
公式(9)中,表示的是重参数;/>表示的是重参数的平均值。
where/>(10)
公式(10)中,xt表示的是通过重参数技巧采样得到当前时刻的图像;表示的是重参数的平均值;ε表示的是随机变量;x0表示的是待处理人脸图像。/>
deffusion模型的前向过程中,随着t的增大,xt越来越接近纯高斯噪声。当T趋于无穷大时,xt为完全的高斯噪声。
(3)、电子设备100确定第一训练人脸图像对应的UV图像,第一训练人脸图像对应的UV图像的清晰度大于第一训练人脸图像的清晰度。
可选的,电子设备100确定第一训练图像对应的UV图像时,可以是利用三维扫描仪对第一训练图像进行扫描,得到第一训练图像对应的UV图像。
(4)、电子设备100将第一训练人脸图像和第一训练人脸图像对应的UV图像输入到初始噪声预测模型中,得到第二预测噪声。
可选的,初始噪声预测模型可以是Unet网络模型。
可选的,第二预测噪声也可以称为该训练人脸图像的预测噪声。
(5)、电子设备100基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型。
在一种可选的实施方式中,电子设备100基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型,可包括:按照减小第二预测噪声和该训练人脸图像的真实噪声之间的差异的方向,对初始噪声预测模型进行训练,获得训练后的噪声预测模型。
其中,该训练人脸图像的真实噪声是电子设备100将该训练人脸图像输入到deffusion模型中,经过T轮迭代获得的纯高斯噪声。
可选的,该训练人脸图像的预测噪声(第二预测噪声)和该训练人脸图像的真实噪声之间的差异可以是该训练人脸图像的预测噪声和该训练人脸图像的真实噪声之间的结构损失。电子设备100按照减小第二预测噪声和该训练人脸图像的真实噪声之间的差异的方向,对初始噪声预测模型进行训练,获得训练后的噪声预测模型,可以是电子设备100计算该训练人脸图像的预测噪声和该训练人脸图像的真实噪声之间的结构损失值;当结构损失值不满足停止训练条件时,根据结构损失值对初始噪声预测模型中的参数进行调整,获得训练后的噪声预测模型;当结构损失值满足停止训练条件时,将初始噪声预测模型作为训练后的噪声预测模型。其中,停止训练条件可以是结构损失值小于或等于预设结构损失阈值。
该实施方式中,电子设备100可以从有序时间序列1,2,…,T中随机采样一个时间t,然后,从标准高斯分布中采样一个噪声;最后,电子设备100可通过最小化该训练人脸图像的预测噪声和该训练人脸图像的真实噪声之间的结构损失值,获得训练后的噪声预测模型。
其中,电子设备100可利用如下公式(11)计算该训练人脸图像的预测噪声和该训练人脸图像的真实噪声之间的结构损失值。
(11)
公式(11)中,表示的是该训练人脸图像的预测噪声和该训练人脸图像的真实噪声之间的结构损失值;/>表示的是噪声;/>、/>以及/>均为度量该训练人脸图像的预测噪声和该训练人脸图像的真实噪声之间的相似度的参数;x0表示的是该训练人脸图像。/>
可选的,结构损失值包括第一结构损失值和第二结构损失值;电子设备100根据结构损失值对初始噪声预测模型中的参数进行调整,获得训练后的噪声预测模型,可包括:根据第一结构损失值对初始噪声预测模型的参数进行调整,得到调整参数后的噪声预测模型;将第一训练人脸图像和第一训练人脸图像对应的UV图像输入到调整参数后的噪声预测模型中,得到第三预测噪声;根据第三预测噪声和该训练人脸图像的真实噪声,确定第二结构损失值;在确定第二结构损失值满足停止训练条件时,得到训练后的噪声预测模型。
在另一种可选的实施方式中,电子设备100基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型,包括:利用第一训练人脸图像减去第二预测噪声,获得该训练人脸图像对应的目标人脸图像;按照减小该训练人脸图像对应的目标人脸图像和该训练人脸图像之间的差异的方向,对初始噪声预测模型进行训练,获得训练后的噪声预测模型。
可选的,该训练人脸图像对应的目标人脸图像和该训练人脸图像之间的差异可以是该训练人脸图像对应的目标人脸图像和该训练人脸图像之间的结构损失和感知损失。
在又一种可选的实施方式中,电子设备100基于第二预测噪声对初始噪声预测模型进行训练,得到训练后的噪声预测模型,包括:利用第一训练人脸图像减去第二预测噪声,获得该训练人脸图像对应的目标人脸图像;确定该训练人脸图像对应的目标人脸图像的3D人脸关键点;按照减小该训练人脸图像对应的目标人脸图像的3D人脸关键点和该训练人脸图像的3D人脸关键点之间的差异的方向,对初始噪声预测模型进行训练,得到训练后的噪声预测模型。
可选的,该训练人脸图像对应的目标人脸图像的3D人脸关键点和该训练人脸图像的3D人脸关键点之间的差异可以是训练人脸图像对应的目标人脸图像的3D人脸关键点和该训练人脸图像的3D人脸关键点之间的交叉熵损失。
该实施方式中,电子设备100确定该训练人脸图像对应的目标人脸图像的3D人脸关键点,包括:对该训练人脸图像对应的目标人脸图像进行数据退化处理,获得第三训练人脸图像;第三训练人脸图像的清晰度小于该训练人脸图像对应的目标人脸图像的清晰度;将第三训练人脸图像输入到人脸3D形变模型中,获得该训练人脸图像对应的目标人脸图像的3D人脸关键点。
S205、电子设备100基于待处理人脸图像和第一预测噪声,确定待处理人脸图像对应的目标人脸图像。
在一种可选的实施方式中,电子设备100基于待处理人脸图像和第一预测噪声,确定待处理人脸图像对应的目标人脸图像,可包括:利用待处理人脸图像减去第一预测噪声,得到待处理人脸图像对应的目标人脸图像。
本申请实施例中,电子设备100可以利用UV图像作为引导图像,与待处理人脸图像一起输入到训练后的噪声预测模型中,获得预测噪声;然后,基于待处理人脸图像和预测噪声,获得待处理人脸图像对应的目标人脸图像(或者称为增强人脸图像),从而,能够提升图像增强后的人脸图像的质量。
此外,本申请实施例中,电子设备100通过利用包含了人脸形状信息、表情信息等丰富的人脸深度信息的3D人脸关键点,可以确定出更准确的或是更符合用户需求的待处理人脸图像对应的UV图像,从而利用该UV图像作为引导图,能够获得更高质量的图像增强后的人脸图像。
可选的,本申请实施例中,电子设备100还可以利用2D人脸关键点,确定出待处理人脸图像对应的UV图像。也就是说,电子设备100可以通过计算待处理人脸图像的2D人脸关键点和多个训练人脸图像对应的UV图像中,每个UV图像对应的2D人脸关键点之间的相似度,确定出待处理人脸图像对应的UV图像。
请参见图5,图5是本申请实施例提供的一种电子设备100的软件架构示意图。
电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。
应用程序层可以包括一系列应用程序包。如图5所示,应用程序包可以包括相机,图库,视频,音乐,导航,日历,地图,WLAN等应用程序。本申请实施例中,电子设备100可通过运行相机采集人脸图像,并输出对采集到的人脸图像进行图像增强处理后的目标人脸图像。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。如图2所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。
资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。
通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android Runtime负责安卓系统的调度和管理。核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。2D图形引擎是2D绘图的绘图引擎。
开放图形库(Open Graphics Library,OpenGL)提供有多个图像渲染函数,可用来绘制从简单的图形到复杂的三维景象。在本申请实施例中,系统库提供的OpenGL可用于为视频编辑应用提供图形图像编辑操作,例如前述实施例介绍的添加贴纸的操作、添加文本的操作等等。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
图6是本申请实施例提供的一种电子设备100的硬件结构示意图。
如图6所示,电子设备100可以包括处理器110,外部存储器接口120A,内部存储器120B,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块140A,电池140B,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图6所示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图6所示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在本申请实施例中,处理器110可用于:确定第待处理人脸图像对应的纹理贴图坐标UV图像;待处理人脸图像对应的UV图像的清晰度大于待处理人脸图像的清晰度;将待处理人脸图像对应的UV图像和待处理人脸图像输入到训练后的噪声预测模型中,得到第一预测噪声;其中,噪声预测模型是基于多个训练人脸图像对应的UV图像以及多个训练人脸图像训练得到的;基于待处理人脸图像和第一预测噪声,确定待处理人脸图像对应的目标人脸图像。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在一些实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在一些实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在一些实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface,CSI),显示屏串行接口(displayserial interface,DSI)等。在一些实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在一些实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。该接口还可以用于连接其他电子设备,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池140B充电的同时,还可以通过电源管理模块140A为电子设备供电。
电源管理模块140A用于连接电池140B,充电管理模块140与处理器110。电源管理模块140A接收电池140B和/或充电管理模块140的输入,为处理器110,内部存储器120B,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块140A还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块140A也可以设置于处理器110中。在另一些实施例中,电源管理模块140A和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system ,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
在本申请实施例中,电子设备100显示图1A-图1F所示的用户界面可通过显示屏194显示。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro- OLED,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
在本申请实施例中,待处理人脸图像可以是电子设备100通过ISP,摄像头193,显示屏194拍摄得到的。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度等进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在一些实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device,CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在一些实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器120B可以包括一个或多个随机存取存储器(random access memory,RAM)和一个或多个非易失性存储器(non-volatile memory,NVM)。
随机存取存储器可以包括静态随机存储器(static random-access memory,SRAM)、动态随机存储器(dynamic random access memory,DRAM)、同步动态随机存储器(synchronous dynamic random access memory, SDRAM)、双倍资料率同步动态随机存取存储器(double data rate synchronous dynamic random access memory,DDR SDRAM,例如第五代DDR SDRAM一般称为DDR5 SDRAM)等;
非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。
快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等,按照存储单元电位阶数划分可以包括单阶存储单元(single-level cell,SLC)、多阶存储单元(multi-level cell,MLC)、三阶储存单元(triple-level cell, TLC)、四阶储存单元(quad-level cell, QLC)等,按照存储规范划分可以包括通用闪存存储(universalflash storage,UFS)、嵌入式多媒体存储卡(embedded multi media Card,eMMC)等。
随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。
非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
外部存储器接口120A可以用于连接外部的非易失性存储器,实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120A与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
压力传感器180A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A,电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194,电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。例如:当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时,执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时,执行新建短消息的指令。
陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中,可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即,x,y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的,当按下快门,陀螺仪传感器180B检测电子设备100抖动的角度,根据角度计算出镜头模组需要补偿的距离,让镜头通过反向运动抵消电子设备100的抖动,实现防抖。陀螺仪传感器180B还可以用于导航,体感游戏场景。
气压传感器180C用于测量气压。在一些实施例中,电子设备100通过气压传感器180C测得的气压值计算海拔高度,辅助定位和导航。
磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中,当电子设备100是翻盖机时,电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态,设置翻盖自动解锁等特性。
加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态,应用于横竖屏切换,计步器等应用。
距离传感器180F,用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中,拍摄场景,电子设备100可以利用距离传感器180F测距以实现快速对焦。
接近光传感器180G可以包括例如发光二极管(LED)和光检测器,例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时,可以确定电子设备100附近有物体。当检测到不充分的反射光时,电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话,以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式,口袋模式自动解锁与锁屏。
环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合,检测电子设备100是否在口袋里,以防误触。
指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹拍照,指纹接听来电等。
温度传感器180J用于检测温度。在一些实施例中,电子设备100利用温度传感器180J检测的温度,执行温度处理策略。例如,当温度传感器180J上报的温度超过阈值,电子设备100执行降低位于温度传感器180J附近的处理器的性能,以便降低功耗实施热保护。在另一些实施例中,当温度低于另一阈值时,电子设备100对电池140B加热,以避免低温导致电子设备100异常关机。在其他一些实施例中,当温度低于又一阈值时,电子设备100对电池140B的输出电压执行升压,以避免低温导致的异常关机。
触摸传感器180K,也称“触控器件”。触摸传感器180K可以设置于显示屏194,由触摸传感器180K与显示屏194组成触摸屏,也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器180K也可以设置于电子设备100的表面,与显示屏194所处的位置不同。
在本申请实施例中,电子设备100检测是否有作用于电子设备100显示屏194的用户操作可通过触摸传感器180K完成。在触摸传感器180K检测到上述用户操作后,电子设备100可执行上述用户操作指示的图像处理,实现相应的处理。
骨传导传感器180M可以获取振动信号。在一些实施例中,骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏,接收血压跳动信号。在一些实施例中,骨传导传感器180M也可以设置于耳机中,结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号,解析出语音信号,实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息,实现心率检测功能。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在一些实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。
在本申请实施例中:
1、用户点击作用于多个功能选项中任意一个功能选项的操作可以称为第一操作。其中,多个功能选项例如是图1D中的鼻梁立体感141、嘴唇立体感142、面部立体感143、额头立体感144等,或者,是图1E中的漫画风格151、儿童风格152、欧美风格153等。
2、第一训练人脸图像也可以称为数据退化处理后的训练人脸图像。
3、待处理人脸图像对应的目标人脸图像也可以称为是待处理人脸图像对应的增强人脸图像。
本申请的说明书和权利要求书及附图中的术语“用户界面 (user interface,UI)”,是应用程序或操作系统与用户之间进行交互和信息交换的介质接口,它实现信息的内部形式与用户可以接受形式之间的转换。应用程序的用户界面是通过java、可扩展标记语言(extensible markup language,XML)等特定计算机语言编写的源代码,界面源代码在终端设备上经过解析,渲染,最终呈现为用户可以识别的内容,比如图片、文字、按钮等控件。控件(control)也称为部件(widget),是用户界面的基本元素,典型的控件有工具栏(toolbar)、菜单栏(menu bar)、文本框(text box)、按钮(button)、滚动条(scrollbar)、图片和文本。界面中的控件的属性和内容是通过标签或者节点来定义的,比如XML通过<Textview>、<ImgView>、<VideoView>等节点来规定界面所包含的控件。一个节点对应界面中一个控件或属性,节点经过解析和渲染之后呈现为用户可视的内容。此外,很多应用程序,比如混合应用(hybrid application)的界面中通常还包含有网页。网页,也称为页面,可以理解为内嵌在应用程序界面中的一个特殊的控件,网页是通过特定计算机语言编写的源代码,例如超文本标记语言(hyper text markup language,GTML),层叠样式表(cascading style sheets,CSS),java脚本(JavaScript,JS)等,网页源代码可以由浏览器或与浏览器功能类似的网页显示组件加载和显示为用户可识别的内容。网页所包含的具体内容也是通过网页源代码中的标签或者节点来定义的,比如GTML通过<p>、<img>、<video>、<canvas>来定义网页的元素和属性。
用户界面常用的表现形式是图形用户界面(graphic user interface,GUI),是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素,其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。
在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。上述实施例中所用,根据上下文,术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地,根据上下文,短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。
本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、等是区别于不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元,或者可选地,还包括没有列出的步骤或单元,或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。
附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。
Claims (12)
1.一种人脸图像增强方法,其特征在于,所述方法包括:
确定待处理人脸图像对应的纹理贴图坐标UV图像;所述待处理人脸图像对应的UV图像的清晰度大于所述待处理人脸图像的清晰度;
将所述待处理人脸图像对应的UV图像和所述待处理人脸图像输入到训练后的噪声预测模型中,得到第一预测噪声;其中,所述噪声预测模型是基于多个训练人脸图像对应的UV图像以及所述多个训练人脸图像训练得到的;
基于所述待处理人脸图像和所述第一预测噪声,确定所述待处理人脸图像对应的目标人脸图像。
2.根据权利要求1所述的方法,其特征在于,所述确定待处理人脸图像对应的UV图像,包括:
将待处理人脸图像输入到人脸3D形变模型中,获得所述待处理人脸图像的第一3D人脸关键点;
基于所述第一3D人脸关键点,确定所述待处理人脸图像对应的UV图像。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一3D人脸关键点,确定所述待处理人脸图像对应的UV引导图像,包括:
计算所述第一3D人脸关键点与所述多个训练人脸图像对应的UV图像中,每个UV图像对应的3D人脸关键点之间的相似度;
基于所述相似度,从所述多个训练人脸图像对应的UV图像中,确定所述待处理人脸图像对应的UV图像。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一3D人脸关键点,确定所述待处理人脸图像对应的UV图像,包括:
检测到第一操作;
响应于第一操作,从所述多个训练人脸图像对应的UV图像中确定至少一个UV图像;
计算所述第一3D人脸关键点和所述至少一个UV图像中每个UV图像对应的3D人脸关键点之间的相似度;
基于所述相似度,从所述至少一个UV图像中确定所述待处理人脸图像对应的UV图像。
5.根据权利要求1所述的方法,其特征在于,所述基于所述待处理人脸图像和所述第一预测噪声,确定所述待处理人脸图像对应的目标人脸图像,包括:
利用所述待处理人脸图像减去所述第一预测噪声,获得所述待处理人脸图像对应的目标人脸图像。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取多个训练人脸图像;
针对所述多个训练人脸图像中的每个训练人脸图像,对该训练人脸图像进行数据退化处理,得到第一训练人脸图像;所述第一训练人脸图像的清晰度小于该训练人脸图像的清晰度;
确定所述第一训练人脸图像对应的UV图像;所述第一训练人脸图像对应的UV图像的清晰度大于所述第一训练人脸图像的清晰度;
将所述第一训练人脸图像和所述第一训练人脸图像对应的UV图像输入到初始噪声预测模型中,得到第二预测噪声;
基于所述第二预测噪声对所述初始噪声预测模型进行训练,得到所述训练后的噪声预测模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二预测噪声对所述初始噪声预测模型进行训练,得到所述训练后的噪声预测模型,包括:
按照减小所述第二预测噪声和该训练人脸图像的真实噪声之间差异的方向,对所述初始噪声预测模型进行训练,获得训练后的噪声预测模型。
8.根据权利要求6所述的方法,其特征在于,所述基于所述第二预测噪声对所述初始噪声预测模型进行训练,得到所述训练后的噪声预测模型,包括:
利用所述第一训练人脸图像减去所述第二预测噪声,获得该训练人脸图像对应的目标人脸图像;
按照减小该训练人脸图像对应的目标人脸图像和该训练人脸图像之间差异的方向,对所述初始噪声预测模型进行训练,获得训练后的噪声预测模型。
9.根据权利要求6所述的方法,其特征在于,所述基于所述第二预测噪声对所述初始噪声预测模型进行训练,得到所述训练后的噪声预测模型,包括:
利用所述第一训练人脸图像减去所述第二预测噪声,获得该训练人脸图像对应的目标人脸图像;
确定该训练人脸图像对应的目标人脸图像的3D人脸关键点;
按照减小该训练人脸图像对应的目标人脸图像的3D人脸关键点和该训练人脸图像的3D人脸关键点之间差异的方向,对所述初始噪声预测模型进行训练,得到训练后的噪声预测模型。
10.根据权利要求9所述的方法,其特征在于,所述确定该训练人脸图像对应的目标人脸图像的3D人脸关键点,包括:
对该训练人脸图像对应的目标人脸图像进行数据退化处理,获得第三训练人脸图像;所述第三训练人脸图像的清晰度小于该训练人脸图像对应的目标人脸图像的清晰度;
将所述第三训练人脸图像输入到人脸3D形变模型中,获得该训练人脸图像对应的目标人脸图像的3D人脸关键点。
11.一种电子设备,其特征在于,包括:存储器、处理器和触控屏;其中:
所述触控屏用于显示内容;
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器用于调用所述程序指令,使得所述电子设备执行如权利要求1至10任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410041037.2A CN117764853A (zh) | 2024-01-11 | 2024-01-11 | 人脸图像增强方法和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410041037.2A CN117764853A (zh) | 2024-01-11 | 2024-01-11 | 人脸图像增强方法和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117764853A true CN117764853A (zh) | 2024-03-26 |
Family
ID=90320010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410041037.2A Pending CN117764853A (zh) | 2024-01-11 | 2024-01-11 | 人脸图像增强方法和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117764853A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537610A (zh) * | 2014-09-23 | 2015-04-22 | 中国人民解放军重庆通信学院 | 基于稀疏表示和uv通道处理的图像超分辨率重建方法 |
CN112184580A (zh) * | 2020-09-27 | 2021-01-05 | 北京金山云网络技术有限公司 | 一种人脸图像增强方法、装置、设备及存储介质 |
CN113838176A (zh) * | 2021-09-16 | 2021-12-24 | 网易(杭州)网络有限公司 | 模型的训练方法、三维人脸图像生成方法及设备 |
CN114049420A (zh) * | 2021-10-29 | 2022-02-15 | 马上消费金融股份有限公司 | 一种模型训练方法、图像渲染方法、装置和电子设备 |
US20220398695A1 (en) * | 2021-06-14 | 2022-12-15 | Samsung Electronics Co., Ltd. | Method and apparatus with image enhancement |
CN116664422A (zh) * | 2023-05-19 | 2023-08-29 | 网易(杭州)网络有限公司 | 图像高光处理方法、装置、电子设备及可读存储介质 |
CN117274109A (zh) * | 2023-11-14 | 2023-12-22 | 荣耀终端有限公司 | 图像处理方法、降噪模型训练方法及电子设备 |
-
2024
- 2024-01-11 CN CN202410041037.2A patent/CN117764853A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537610A (zh) * | 2014-09-23 | 2015-04-22 | 中国人民解放军重庆通信学院 | 基于稀疏表示和uv通道处理的图像超分辨率重建方法 |
CN112184580A (zh) * | 2020-09-27 | 2021-01-05 | 北京金山云网络技术有限公司 | 一种人脸图像增强方法、装置、设备及存储介质 |
US20220398695A1 (en) * | 2021-06-14 | 2022-12-15 | Samsung Electronics Co., Ltd. | Method and apparatus with image enhancement |
CN113838176A (zh) * | 2021-09-16 | 2021-12-24 | 网易(杭州)网络有限公司 | 模型的训练方法、三维人脸图像生成方法及设备 |
CN114049420A (zh) * | 2021-10-29 | 2022-02-15 | 马上消费金融股份有限公司 | 一种模型训练方法、图像渲染方法、装置和电子设备 |
CN116664422A (zh) * | 2023-05-19 | 2023-08-29 | 网易(杭州)网络有限公司 | 图像高光处理方法、装置、电子设备及可读存储介质 |
CN117274109A (zh) * | 2023-11-14 | 2023-12-22 | 荣耀终端有限公司 | 图像处理方法、降噪模型训练方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021013132A1 (zh) | 输入方法及电子设备 | |
CN113838490B (zh) | 视频合成方法、装置、电子设备及存储介质 | |
CN114140365B (zh) | 基于事件帧的特征点匹配方法及电子设备 | |
CN116048933B (zh) | 一种流畅度检测方法 | |
CN112150499A (zh) | 图像处理方法及相关装置 | |
CN115145436B (zh) | 一种图标处理方法及电子设备 | |
CN114866860B (zh) | 一种播放视频的方法及电子设备 | |
CN114222187B (zh) | 视频编辑方法和电子设备 | |
CN114205457B (zh) | 一种移动用户界面元素的方法、电子设备及存储介质 | |
CN116828100A (zh) | 蓝牙音频播放方法、电子设备及存储介质 | |
CN115994006A (zh) | 动画效果显示方法及电子设备 | |
CN113721827A (zh) | 悬浮键盘显示方法、电子设备及存储介质 | |
CN117764853A (zh) | 人脸图像增强方法和电子设备 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
CN114942741B (zh) | 数据传输方法及电子设备 | |
CN117221713B (zh) | 参数加载方法和电子设备 | |
WO2024046010A1 (zh) | 一种界面显示方法、设备及系统 | |
CN116522400B (zh) | 图像处理方法和终端设备 | |
CN114584652B (zh) | 一种用户图形界面显示方法、装置、计算机设备及存储介质 | |
WO2024067551A1 (zh) | 界面显示方法及电子设备 | |
CN117692714A (zh) | 视频显示方法和电子设备 | |
CN117785343A (zh) | 界面生成方法及电子设备 | |
CN116958955A (zh) | 3d模型匹配方法、电子设备及相关装置 | |
CN117714860A (zh) | 图像处理方法及电子设备 | |
CN117132984A (zh) | 一种文本识别方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |