CN116977485A - 一种图像处理方法、装置、设备、介质及程序产品 - Google Patents
一种图像处理方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN116977485A CN116977485A CN202310106891.8A CN202310106891A CN116977485A CN 116977485 A CN116977485 A CN 116977485A CN 202310106891 A CN202310106891 A CN 202310106891A CN 116977485 A CN116977485 A CN 116977485A
- Authority
- CN
- China
- Prior art keywords
- face
- image
- target
- network
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 claims abstract description 127
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000001514 detection method Methods 0.000 claims description 147
- 238000006243 chemical reaction Methods 0.000 claims description 103
- 238000012549 training Methods 0.000 claims description 77
- 230000008569 process Effects 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 41
- 230000014759 maintenance of location Effects 0.000 claims description 32
- 230000000903 blocking effect Effects 0.000 claims description 28
- 238000002372 labelling Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012790 confirmation Methods 0.000 claims description 19
- 230000004044 response Effects 0.000 claims description 16
- 230000001960 triggered effect Effects 0.000 claims description 12
- 230000008485 antagonism Effects 0.000 claims description 10
- 208000006440 Open Bite Diseases 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 abstract description 22
- 238000013473 artificial intelligence Methods 0.000 abstract description 21
- 238000012986 modification Methods 0.000 abstract description 7
- 230000004048 modification Effects 0.000 abstract description 7
- 238000000586 desensitisation Methods 0.000 description 121
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 22
- 210000000887 face Anatomy 0.000 description 12
- 210000000214 mouth Anatomy 0.000 description 12
- 210000001331 nose Anatomy 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 210000001508 eye Anatomy 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 210000003128 head Anatomy 0.000 description 7
- 230000001976 improved effect Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000008093 supporting effect Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 210000001061 forehead Anatomy 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003796 beauty Effects 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 210000004209 hair Anatomy 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003997 social interaction Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 210000003467 cheek Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种图像处理方法、装置、设备、介质及程序产品;其中的方法包括:显示图像编辑界面,图像编辑界面中显示有人脸;采用目标遮挡对象遮挡人脸中的目标人脸部位;其中,被遮挡后的人脸保留原人脸的人脸外观属性。本申请实施例可以应用于车载领域、自动驾驶领域、云技术、人工智能、智慧交通、辅助驾驶等各种场景,在去除图像中的人脸隐私信息的同时,降低图像修改痕迹,保持图像的自然性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种人工智能领域,具体涉及一种图像处理方法、一种图像处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。
背景技术
图像脱敏是指去除图像中的敏感信息(如人脸、身份号码或车牌等信息)的过程。
目前,现有技术是对整个人脸进行脱敏处理。例如,对整个人脸所在区域进行矩形框覆盖,由于矩形框会覆盖图像中除人脸的其他区域,导致对图像不必要破坏;再如,对整个人脸进行马赛克(或涂抹),这种人脸脱敏的方法较为粗糙,降低脱敏后图像的美观性和友好性;又如,将整个人脸替换为虚拟人脸(如动漫人脸),但这种方式难以实现人脸对齐,导致人脸姿态不匹配,换脸效果突兀和不自然等缺陷。因此,如何对图像进行人脸脱敏,成为敏感信息处理领域的研究热点。
发明内容
本申请实施例提供一种图像处理方法、装置、设备、介质及程序产品,在去除人脸隐私信息的同时,降低图像修改痕迹,保持图像的自然性。
一方面,本申请实施例提供了一种图像处理方法,该方法包括:
显示图像编辑界面,图像编辑界面中显示有人脸;
采用目标遮挡对象遮挡人脸中的目标人脸部位;其中,被遮挡后的人脸保留原人脸的人脸外观属性。
另一方面,本申请实施例提供了一种图像处理装置,该装置包括:
显示单元,用于显示图像编辑界面,图像编辑界面中显示有人脸;
处理单元,用于采用目标遮挡对象遮挡人脸中的目标人脸部位;其中,被遮挡后的人脸保留原人脸的人脸外观属性。
在一种实现方式中,一个遮挡对象对应人脸的一个或多个人脸部位;不同遮挡对象对应的人脸部位相同或不同;
人脸外观属性包括:头部朝向,视线,表情,穿戴以及性别。
在一种实现方式中,处理单元,还用于:
接收针对人脸的遮挡触发操作;
其中,遮挡触发操作包括以下任一种:针对图像编辑界面中的部位去除选项的触发操作,在图像编辑界面中执行的手势操作,在图像编辑界面中的语音信号输入操作,或者,目标应用程序静默检测到目标图像中包含人脸的操作。
在一种实现方式中,遮挡触发操作为:目标应用程序静默检测到目标图像中包含人脸的操作;处理单元,还用于:
输出遮挡提示信息,遮挡提示信息用于指示遮挡人脸中的目标人脸部位;
响应于针对遮挡提示信息的确认操作,触发执行采用目标遮挡对象遮挡人脸中的目标人脸部位的步骤。
在一种实现方式中,遮挡提示信息显示于提示窗口中,提示窗口中还包括目标人脸部位的部位标识和部位刷新组件;处理单元,还用于:
当部位刷新组件被触发时,在提示窗口中输出人脸中除目标人脸部位的候选人脸部位的目标部位标识;
响应于针对目标部位标识的确认操作,采用候选人脸部位对应的遮挡对象,遮挡候选人脸部位。
在一种实现方式中,处理单元,还用于:
显示对象选择界面,对象选择界面中包含目标人脸部位对应的一个或多个候选遮挡对象;不同候选遮挡对象的对象样式不同;
响应于对象选择操作,从一个或多个候选遮挡对象中选择目标遮挡样式的目标遮挡对象。
在一种实现方式中,图像处理方法应用于目标应用场景,目标应用场景包括以下至少一个:训练图像回传场景和车载场景;
目标应用场景为所述车载场景时,处理单元,还用于:
显示人脸留存提示信息,人脸留存提示信息用于指示是否备份未遮挡目标人脸部位的人脸;
响应于针对人脸留存提示信息的确认操作,显示留存通知信息,留存通知信息中包含未遮挡目标人脸部位的人脸的留存地址信息。
在一种实现方式中,图像编辑界面中显示的人脸属于目标图像,目标图像显示于图像编辑界面中;
处理单元用于采用目标遮挡对象遮挡人脸中的目标人脸部位时,具体用于:
获取训练好的人脸检测网络,并调用人脸检测网络对目标图像进行人脸识别处理,得到目标图像中包含人脸的人脸区域;
对目标图像进行区域裁剪,得到目标图像对应的人脸图像,人脸图像中包含目标图像中的人脸;
获取训练好的人脸转换网络,并调用人脸转换网络对人脸图像进行人脸转换处理,得到转换后的人脸图像,转换后的人脸图像中的目标人脸部位被目标遮挡对象遮挡;
采用转换后的人脸图像替换目标图像中的人脸区域,得到新的目标图像。
在一种实现方式中,人脸检测网络的训练过程包括:
获取人脸检测数据集合,人脸检测数据集合中包含至少一个样本图像和各样本图像对应的人脸标注信息,人脸标注信息用于标注相应样本图像中的人脸所在区域;
从人脸检测数据集合中选取第i个样本图像,并利用人脸检测网络对第i个样本图像进行多尺度特征处理,得到不同尺度的特征图和各特征图对应的人脸预测信息,人脸预测信息用于指示相应特征图中预测得到的人脸所在区域;i为正整数;
基于不同尺度的特征图,各特征图对应的人脸预测信息和第i个样本图像对应的人脸标注信息,对人脸检测网络进行训练,得到训练后的人脸检测网络;
重新从人脸检测数据集合中选择第i+1个样本图像,并采用第i+1个样本图像对训练后的人脸检测网络进行迭代训练,直至人脸检测模型趋于稳定为止。
在一种实现方式中,人脸转换网络中包含第一图像域生成器,第一图像域判别器,第二图像域生成器和第二图像域判别器;人脸转换网络的训练过程包括:
获取人脸转换数据集合,人脸转换数据集合中包含属于第一图像域的多个第一样本人脸图像,和属于第二图像域的多个第二样本人脸图像;第一样本人脸图像中的目标人脸部位未被遮挡,第二样本人脸图像中的目标人脸部位被遮挡;
利用第一图像域生成器,对第二样本人脸图像进行图像生成处理,得到第一参考人脸图像,第一参考人脸图像中的目标人脸部位未被遮挡;并利用第二图像域生成器,对第一样本人脸图像进行图像生成处理,得到第二参考人脸图像,第二参考人脸图像中的目标人脸部位被遮挡对象遮挡;
利用第一图像域判别器,对第一参考人脸图像进行图像判别处理,以及利用第二图像域判别器,对第二参考人脸图像进行图像判别处理,得到人脸转换网络的对抗生成损失信息;
基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练。
在一种实现方式中,处理单元,用于基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练时,具体用于:
利用第二图像域生成器,对第一参考人脸图像进行图像重建处理,得到第二重建人脸图像,第二重建人脸图像中的目标人脸部位被遮挡对象遮挡;并利用第一图像域生成器,对第二参考人脸图像进行图像重建处理,得到第一重建人脸图像,第一重建人脸图像中的目标人脸部位未被遮挡;
基于第一重建人脸图像和相应第一样本人脸图像之间的相似性,第二重建人脸图像和相应第二样本人脸图像之间的相似性,得到人脸转换网络的重建损失信息;
基于重建损失信息和对抗生成损失信息,对人脸转换网络进行训练。
另一方面,本申请实施例提供一种计算机设备,该计算机设备包括:
处理器,适于执行计算机程序;
计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时,实现如上述的图像处理方法。
另一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行如上述的图像处理方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的图像处理方法。
本申请实施例中,在图像编辑界面中显示有人脸;在目标对象(如任一用户)具有人脸脱敏需求时,支持采用目标遮挡对象自动遮挡该人脸中的目标人脸部位(如鼻子部位和嘴巴部位),以实现对人脸的脱敏。在上述方案中,采用目标遮挡对象对人脸中的目标人脸部位进行遮挡时,该目标遮挡对象能够适应人脸姿态,灵活地对人脸中的目标人脸部位进行遮挡;这使得遮挡后的人脸仍然能够保留原人脸的人脸外观属性,如原人脸的姿态是头部朝上,那么该目标遮挡对象的形状能够适应人脸姿态进行变化,使得变化形状后的目标遮挡对象能够与人脸的姿态进行很好地匹配,从而在去除人脸中的敏感信息(如五官等能够识别出人脸的信息)的同时,确保人脸基本不形成修改痕迹,保持遮挡后的人脸的和谐美观和自然性,提供给目标对象一种无感的人脸脱敏效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请提供的一种现有人脸脱敏的示意图;
图1b是本申请一个示例性实施例提供的一种采用目标遮挡对象,对人脸中目标人脸部位进行遮挡的人脸脱敏的示意图;
图2a是本申请一个示例性实施例提供的一种图像处理系统的架构示意图;
图2b是本申请一个示例性实施例提供的另一种图像处理系统的架构示意图;
图3是本申请一个示例性实施例提供的一种图像处理方法的流程示意图;
图4是本申请一个示例性实施例提供的一种从视频中选取一帧或多帧视频帧,作为待人脸脱敏的目标图像的示意图;
图5是本申请一个示例性实施例提供的一种采用口罩遮挡人脸中的鼻子部位和嘴巴部位后的人脸示意图;
图6a是本申请一个示例性实施例提供的一种遮挡触发操作为,针对部位去除选项的触发操作的示意图;
图6b是本申请一个示例性实施例提供的一种由目标对象自主选择,待脱敏的人脸部位的示意图;
图7是本申请一个示例性实施例提供的一种遮挡触发操作为,在图像编辑界面中的手势操作的示意图;
图8是本申请一个示例性实施例提供的一种遮挡触发操作为,在图像编辑界面中的语音信号输入操作的示意图;
图9a是本申请一个示例性实施例提供的一种脱敏提示信息的示意图;
图9b是本申请一个示例性实施例提供的一种遮挡提示信息的示意图;
图9c是本申请一个示例性实施例提供的一种遮挡提示信息显示于提示窗口的示意图;
图10是本申请一个示例性实施例提供的一种由目标对象自主选择目标遮挡对象的对象样式的示意图;
图11是本申请一个示例性实施例提供的另一种图像处理方法的流程示意图;
图12是本申请一个示例性实施例提供的一种利用训练好的人脸检测网络和人脸转换网络,对目标图像实现人脸脱敏的流程示意图;
图13是本申请一个示例性实施例提供的一种采用矩形框标注图像中人脸的示意图;
图14是本申请一个示例性实施例提供的一种人脸检测网络的网络结构的示意图;
图15是本申请一个示例性实施例提供的一种人脸转换数据集合的示意图;
图16是本申请一个示例性实施例提供的一种生成器网络的结构示意图;
图17是本申请一个示例性实施例提供的一种判别器网络的结构示意图;
图18是本申请一个示例性实施例提供的一种确定损失函数的流程示意图;
图19是本申请一个示例性实施例提供的一种图像处理装置的结构示意图;
图20是本申请一个示例性实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种基于人工智能技术的图像处理方案,下面先对图像处理方案所涉及的技术术语和相关概念进行简单介绍,其中:
一、人工智能(ArtificialIntelligence,AI)。
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例主要涉及人工智能领域下的计算机视觉技术和机器学习等方向。其中:
①计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术。
本申请实施例具体涉及计算机视觉技术下的视频语义理解(video semanticunderstanding,VSU);视觉语义理解又可以进一步细分为目标检测与定位(targetdetection/localization)、目标识别(target recognition)和目标跟随(targettracking)等等。更为详细地,本申请实施例提供的图像处理方案主要涉及视频语义理解下的目标检测和定位(或简称为目标检测)。其中,目标检测是一种与计算机视觉和图像处理相关的计算机技术,用于检测数字图像(或称为电子图像,可以简称为图像)和视频中特定类别的语义对象(如人,建筑物或汽车,在本申请实施例中是指人脸)的实例。
②机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习可以被看成一项任务,这个任务的目标就是让机器(广义上的计算机)通过学习来获得类似人类的智能。例如人类能从图像或视频中识别感兴趣的目标,那么计算机程序(AlphaGo或AlphaGo Zero)被设计成掌握了目标识别能力的程序。其中,多种方法可用来实现机器学习的任务,比如,神经网络、线性回归、决策树、支持向量机、贝叶斯分类器、强化学习、概率图模型、聚类等多种方法。
其中,神经网络(Neural Network)是实现机器学习任务的一种方法,在机器学习领域谈论神经网络,一般是指“神经网络学习”。它是一种由许多简单元组成的网络结构,这种网络结构类似于生物神经系统,用来模拟生物与自然环境之间的交互,并且网络结构越多,神经网络的功能往往越丰富。神经网络是一个比较大的概念,针对语音、文本、图像等不同的学习任务,衍生出了更适用于具体学习任务的神经网络模型,如递归神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)、全连接卷积神经网络(fully convolutiona l neural network,FCNN)等等。
二、数据脱敏(Data Masking)。
数据脱敏是屏蔽敏感数据(或称为敏感信息),以实现保护敏感数据的过载。具体是对某些敏感信息(如身份证号、手机号、卡号、客户姓名、客户地址、邮箱地址、薪资、人脸及车牌等涉及个人隐私的信息)通过脱敏规则进行数据的变形,实现隐私数据的可靠保护。在本申请实施例中主要涉及图像脱敏,即去除图像中涉及个人隐私的敏感信息,此处的敏感信息具体是指图像中能够识别出用户身份的人脸;也就是说,本申请实施例提供的图像处理方案主要是为了实现去除图像中的人脸这类敏感信息,以实现保护人脸隐私的目的。
基于上述提及的人工智能和数据脱敏等相关内容,本申请实施例提出一种无感的人脸脱敏方案,在本申请实施例中称为图像处理方案;该方案能够利用人工智能(具体是人工智能领域下的机器学习和计算机视觉技术)训练得到人脸检测网络和人脸转换网络,以通过该人脸检测网络在目标图像(如任一图像)中进行目标检测(此处的目标是指人脸),以确定出目标图像中人脸所在区域。进一步的,通过人脸转换网络对从目标图像中检测到的人脸进行去除,以实现图像脱敏的过程;具体是采用目标遮挡对象(如任一遮挡对象,如口罩)遮挡人脸中的目标人脸部位,如为不戴口罩的人脸戴上口罩,不仅实现去除人脸中的人脸敏感信息,避免根据人脸识别出用户身份,从而起到保护人脸隐私的目的,而且这种采用目标遮挡对象遮挡人脸中的目标人脸部位的方式,确保人脸脱敏的自然性,使得目标对象难以看出人脸脱敏痕迹,实现无感人脸脱敏。上述提及的目标人脸部位可以是指人脸中的任一或多个人脸部位;人脸部位可以包括:眉毛、眼睛、鼻子、嘴巴、耳朵、脸颊和额头等。
本申请实施例提供的图像处理方案,相比于现有主流的人脸脱敏具有明显优势;下面对本申请实施例提供的图像处理方案所涉及的人脸脱敏,和现有主流人脸脱敏进行对比说明。如图1a所示的第一附图,现有技术支持采用矩形框从图像中选中人脸所在区域,然后采用马赛克填充矩形框或者涂抹矩形框等方式,以实现去除人脸隐私信息;可以理解的是,矩形框是一个形状规则的框,而人脸往往是轮廓缓和的形状,这使得矩形框会覆盖图像中部分非人脸区域,对图像造成不必要的损坏,在一些应用场景(如将去除人脸后的图像作为训练数据场景中,会对模型训练产生一定的负面影响;并且,直接对矩形框打码或者涂抹的方法比较粗糙,会影响下游产品的友好性、美观性和趣味性。如图1a所示的第二附图,现有技术还支持将图像中的人脸替换为虚拟人脸或动漫人脸,但是在一些场景中,如车载视角下人脸成像都比较小,难以实现人脸对齐等操作,容易造成人脸姿态不匹配,换脸效果突兀不自然;并且,由于车载视觉下人脸较小,五官比较模糊,如果再进行动漫化,五官会被进一步平滑,导致模糊“无脸”的不自然效果。综上所述,现有主流人脸脱敏,不管是通过马赛克、涂抹还是动漫脸去除人脸,都导致图像中人脸去除痕迹明显,不利于人脸脱敏后下游应用的开发。
然而,本申请实施例提供的图像处理方案,是采用遮挡对象对人脸中的部分人脸部位进行遮挡,如遮挡对象为口罩,那么支持采用口罩遮挡人脸中的鼻子部位和嘴巴部位,以将不戴口罩的人脸转化为戴口罩的人脸,实现对人脸中部分隐私信息的去除。这种去除人脸中部分隐私信息的方式,不仅可以保护人脸隐私信息(如根据人脸中未遮挡人脸部位并不能识别出用户身份),而且脱敏后的人脸能够保持原人脸的人脸外观属性如图1b所示,遮挡对象为口罩时,采用口罩遮挡口鼻后的人脸不仅看起来效果很自然,而且保持原人脸的头部朝向和视线等人脸外观属性,从而实现目标对象(即想要对人脸进行脱敏的任一用户)的无感脱敏(即去除图像中敏感信息的同时,保持图像的和谐美观,难以看出脱敏处理痕迹),即目标对象基于脱敏后的图像并不能感受到脱敏痕迹,保持了图像的和谐美观。
人脸脱敏是个人隐私保护的一种必要手段,本申请实施例提供的图像处理方案可以应用于目标应用场景中,该目标应用场景可以包括任何需要人脸脱敏的应用场景,包括但不限于以下至少一种:训练图像回传场景和车载场景等。下面对图像处理方案应用于上述各应用场景的具体实施过程进行相关介绍,其中:
(1)训练数据回传场景。
图像感知算法是一类可以用于目标检测的算法,如通过该图像感知算法从图像中检测出行人、车辆、车道线、交通牌、交通灯和可行驶区域等目标,这些感知算法的开发和迭代需要用到大量的图像数据。在实际应用中,用于算法训练的图像数据可以是来自于车辆,即车辆上部署有图像采集装置(如摄像头),以通过该图像采集装置采集图像,作为算法训练的图像数据。例如,通过专属用于图像采集的图像数据采集车获取图像数据;再如,考虑到市场上量产车(如广泛售卖至社会的任意车辆)数量多且分布广,对图像数据的数量和多样性都有较强保证,因此还将量产车拍到的图像回传,作为算法训练的图像数据。然而,不管是从图像数据采集车还是量产车回传的图像,均会包含人脸等敏感信息,需要先进行脱敏处理;如果采用上述提及的现有主流人脸脱敏(如打码或者不自然的换脸),会产生明显的图像修改痕迹,降低图像质量,不利于感知算法的训练;但是,使用本申请实施例提出的这种无感脱敏的图像处理方案,能够在实现脱敏的同时较大限度地避免图像被破坏,更符合算法训练要求,提升算法训练的友好性。
(2)车载场景。
可选的,车载场景包括驻车哨兵场景。具体地,车辆在驻车状态下,可以通过雷达等传感器实时感知周围情况;当检测到车辆附件存在异常情况(如有人靠近)时,车端将异常情况实时通知给车主,此时车主可以通过终端设备(如部署有与车辆中运行的图像采集应用对应的应用的智能手机等设备),通过车载摄像头远程实时查看车辆周围情况。可选的,车载场景包括远程自动泊车场景。具体地,在车主通过终端设备对车辆进行远程泊车的过程中,需要通过车载摄像头将实时采集的车辆周围的图像传输至车主所持有的终端设备;这样车主可以通过终端设备输出的实时图像及时掌握车辆周围情况,从而确保车辆能够安全且正确的停靠至正确位置。
在上述过程中,无论是驻车哨兵场景还是远程自动泊车场景中,自动推送给车主的图像均需要进行脱敏,若图像脱敏痕迹太严重,会大大降低图像的美观性,影响车主的使用感受。因此,采用用本申请实施例提出的无感脱敏的图像处理方案,采用遮挡对象对人脸中的部分人脸部位进行遮挡,而保持人脸的人脸外观属性,能够降低人脸脱敏痕迹,使得车主基本看不出图像脱敏的痕迹,增加实时视频的美观性,有利于提高产品的竞争力。当然,为便于查看车辆附近的异常情况,本申请实施例还支持在车辆本地保存一份未脱敏图像,这样在远程确认有偷盗、砸车等异常行为,需要确认人脸时,就可以到车辆本地调看未脱敏图像,以确保车辆安全。可选的,在车辆本地保留未脱图像可以是默认的,即在目标应用场景中默认在车辆本地保留一份未脱敏图像。可选的,在车辆本地保留未脱敏图像还可以是由目标对象自主确定的。例如,在目标应用场景为车载场景时,支持显示人脸留存提示信息,该人脸留存提示信息用于指示是否备份未遮挡目标人脸部位的人脸;如果目标对象想要在车辆本地保存未脱敏图像,则可以针对该人脸留存信息执行确认操作,此时计算机设备响应于针对该人脸留存提示信息的确认操作,显示留存通知信息,该留存通知信息中包含未遮挡目标人脸部位的人脸的留存地址信息,以便于目标对象直观且及时的了解未脱敏图像的保存位置,方便目标对象查看图像。
需要说明的是,本申请实施例提供的友好型(如体现在敏感信息的无感脱敏)的图像处理方案所适用的目标应用场景并不仅限于上述两种应用场景;本申请实施例提供的图像处理方案可以应用于各种应用场景,包括但是不限于云技术、人工智能、智慧交通以及辅助驾驶等场景。举例来说,目标应用场景还可以包括人流检测场景中,如在人流密集的地方可以部署人流检测设备,并由人流检测设备将采集的环境图像传输至目标对象(即拥有人流检测设备的查看或管理权限的任意用户),以便于目标对象基于环境图像及时了解环境情况。在上述提及的人流检测场景中,同样需要对传输至目标对象的环境图像进行人脸脱敏处理,以在一定程度上确保人脸隐私性,以及在人流检测设备本地存储一份未脱敏图像,以便于在需要排除异常情况时,能够确认人脸。还需说明的是,本申请实施例运用到具体产品或技术中时,如获取车辆采集的图像时,不可避免要获取具有车辆管理权限的车主的信息(如车主名称或编号等),那么需要获得车主的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在实际应用中,根据图像处理方案所应用的目标应用场景的不同,用于执行本申请实施例提供的图像处理方案的计算机设备有所不同。
可选的,计算机设备可以是目标对象(即接收图像的用户)所使用的终端设备;如图2a所示,车辆上部署的摄像头将采集的图像传输至后台服务器后,由该后台服务器将图像转发至目标对象所使用的终端设备,并由该终端设备对图像执行人脸脱敏并显示脱敏后的图像;或者,车辆上部署的摄像头直接将采集的图像传输至终端设备,由终端设备对图像执行人脸脱敏并显示脱敏后的图像。其中,该终端设备可以包括但是不限于:智能手机(如Android手机、iOS手机等,可以简称为手机)、平板电脑(或简称为电脑)、便携式个人计算机、移动互联网设备(Mobile Internet Devices,简称MID)、智能语音交互设备、智能家电、车载设备(或称为车载终端)、头戴设备以及飞行器等可以进行触屏的智能设备。
可选的,计算机设备可以包括目标对象所使用的终端设备,和终端设备所对应的服务器;也就是说,图像处理方案可以由终端设备和服务器共同执行。如图2b所示,车辆上部署的摄像头将采集的图像传输至后台服务器后,可以由该后台服务器来对图像执行人脸脱敏,并将脱敏后的图像发送至终端设备进行脱敏显示。其中,服务器可以包括但是不限于:数据处理服务器、Web服务器、应用服务器等等具有复杂计算能力的设备。服务器可以是独立的物理服务器,也可以是由多个物理服务器构成的服务器集群或者分布式系统。目标终端设备和服务器可以通过有线或无线方式进行直接或间接地通信连接,本申请实施例并不对目标终端和计算机设备之间的连接方式进行限定。
进一步的,本申请实施例提供的图像处理方案,具体可以是由计算机设备中部署的目标应用程序或插件所执行的。上述提及的,目标应用程序或插件中集成有本申请实施例提供的人脸脱敏功能,那么可以通过终端设备调用目标应用程序或插件,以使用人脸脱敏功能。其中,目标应用程序可是指为完成某项或多项特定工作的计算机程序;按照不同维度(如应用程序的运行方式、功能等)对应用程序进行归类,可得到同一应用程序在不同维度下的类型,其中:①按照应用程序的运行方式分类,应用程序可包括但不限于:安装在终端中的客户端、无需下载安装即可使用的小程序、通过浏览器打开的web应用程序等等。②按照应用程序的功能类型分类,应用程序可包括但不限于:IM(Instant Messaging,即时通信)应用程序、内容交互应用程序等等;其中,即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序,即时通信应用程序可以包括但不限于:包含通信功能的社交应用程序、包含社交交互功能的地图应用程序、游戏应用程序等等。内容交互应用程序是指能够实现内容交互的应用程序,例如可以是网银、分享平台、个人空间、新闻等应用程序。
值得注意的是,本申请实施例对具有人脸脱敏功能的目标应用程序具体为上述哪种类型的应用程序不作限定。并且,为便于阐述,以计算机设备执行图像处理方案为例进行介绍,特在此说明。
基于上述描述的图像处理方案可知,本申请实施例支持采用训练好的人脸检测网络和人脸转换网络,来实现人脸脱敏处理,以降低人脸脱敏痕迹,确保脱敏后的人脸的自然性。下面先结合图3所示实施例对本申请实施例提出的更为详细的图像处理方法的界面实现过程进行介绍;该图像处理方法可以由上述提及的计算机设备来执行,该图像处理方法可以包括但是不限于步骤S301-S302:
S301:显示图像编辑界面。
图像编辑界面是用于实现人脸脱敏的用户界面(User Interface,UI),是系统和用户之间进行交互和信息交换的媒介。正如前述所描述的,本申请实施例提供的图像处理方法可以集成至插件或目标应用程序,那么该图像编辑界面可以是由插件或目标应用程序提供,并由部署插件或目标应用程序的终端设备显示的;为便于阐述,以图像处理方法集成至目标应用程序为例。
具体实现中,在目标对象具有查看图像的需求时,目标对象可以使用终端设备打开目标应用程序,并显示该目标应用程序提供的图像编辑界面;在该图像编辑界面中显示有人脸,该人脸具体是属于目标图像的,且该目标图像显示于图像编辑界面中,以实现在图像编辑界面中显示人脸。
需要说明的是,①本申请实施例对图像编辑界面中包含的人脸的数量,以及图像编辑界面中包含的目标图像的数量,不作限定;为便于阐述,以图像编辑界面中包含一张目标图像,且该目标图像中包含一个未脱敏的人脸为例进行阐述。
②本申请实施例对图像编辑界面中的目标图像的来源不作限定;目标图像的来源方式可以包括但是不限于:通过摄像头实时拍摄的图像,从终端设备的本地内存或网络中下载的图像,或者从视频(如车载设置拍摄的视频)中截取的图像等等。本申请实施例这种支持目标对象通过多种方式,获取需要人脸脱敏处理的目标图像,能够丰富目标应用程序实现人脸脱敏的路径,以满足目标对象自定义选中人脸脱敏的图像需求,提升用户体验。
根据目标图像的来源方式不同,在图像编辑界面中添加并显示该目标图像的实施方式可能相同或不同。下面结合附图4对目标图像的来源为从视频中选取为例,对从视频中截取目标图像的一种示例性实施方式进行介绍,并不会对本申请实施例产生限定。如图4所示,在显示应目标用程序提供的图像编辑界面之前,可以先显示目标应用程序提供的图像获取界面401,在该图像获取界面中包含目标视频402(如由车载设备采集的任意时长的视频)。如果目标对象想要从该目标视频402中选取目标图像,那么可以对该目标视频402执行视频查看操作,该视频查看操作可以包括对该目标视频402的触发操作,对查看按键403(或组件,按钮,选项等)的点击操作等,此时终端设备响应于该视频查看操作,以缩略图形式显示该目标视频所包含的多帧视频帧(即图像)。这样,目标对象可以从多帧视频帧中选择至少一帧包含人脸的目标图像。进一步的,响应于针对选取的目标图像的确认操作(如针对确认选项404的触发操作),可以输出目标应用程序提供的图像编辑界面405,并在该图像编辑界面中显示被选择的至少一帧包含人脸的目标图像(图像所包含的人脸未脱敏或已脱敏)。
值得注意的是,上述图4是以从目标视频中选取一帧或多帧视频帧作为目标图像为例进行阐述的;在实际应用中,还支持选取整个目标视频所包含的全部视频帧作为待人脸脱敏的目标图像,此时在图像编辑界面中支持以播放视频的方式显示人脸脱敏后的目标视频,即在图像编辑界面中播放的目标视频中只要包含人脸的视频帧均被执行人脸脱敏,以实现批量人脸脱敏,提高人脸脱敏速度和效率。另外,本申请实施例还支持对实时获取的图像进行人脸脱敏后,通过图像编辑界面进行输出;如该实时获取的图像可以是车辆中部署的车载设备实时采集的,这样对于车主来说,其通过所持有的终端设备播放的图像均是脱敏处理后的图像,如果车主需要查看未脱敏图像,则需要从车辆本地中查看。另外,在一些应用场景中,上述提及的图像获取界面和图像编辑界面还可以是同一界面;例如,在训练数据回传场景中,图像获取界面和图像编辑界面可以是同一界面(以图像编辑界面为例),在该图像编辑界面中显示的任意图像均作为训练图像需执行人脸脱敏,而无需执行上述提及的图像选择的相关操作。
S302:采用目标遮挡对象遮挡人脸中的目标人脸部位。
在计算机设备获取到待人脸脱敏的人脸(具体是包含人脸的目标图像)后,可以调用训练好的人脸检测网络和人脸转换网络,对该待人脸脱敏的目标图像进行人脸脱敏处理,得到脱敏后的人脸;并在图像编辑界面中输出脱敏后的人脸,该脱敏后的人脸是采用目标遮挡对象遮挡人脸中的目标人脸部位所得到的。上述提及的目标遮挡对象是与人脸中的目标人脸部位相匹配的遮挡对象;例如,目标人脸部位为口鼻部位,那么用于遮挡口鼻部位的目标遮挡对象可以为口罩;再如,目标人脸部位为眼睛部位,那么用于遮挡眼睛部位的目标遮挡对象可以为眼镜或墨镜;又如,目标人脸部位为头发部位,那么用于遮挡头发部位的目标遮挡对象可以为假发型或帽子等。由此可见,在本申请实施例中一个遮挡对象可以对应人脸中的一个或多个人脸部位,且不同遮挡对象对应的人脸部位相同或不同;例如,遮挡对象“口罩”对应两个人脸部位“嘴巴部位和鼻子部位”,而遮挡对象“眼镜”可能对应一个人脸部位“眼睛”。本申请实施例对目标遮挡对象的具体样式不作限定,为便于阐述后续以目标遮挡对象为口罩,目标遮挡部位为口鼻部位为例进行阐述,特在此说明。
需要特别说明的是,本申请实施例中被目标遮挡对象遮挡后的人脸保留原人脸的人脸外观属性;其中,人脸外观属性可以包括:头部朝向,视线,表情,穿戴以及性别等可以用于描述用户人脸的外观属性。换句话说,被目标遮挡对象覆盖了目标人脸部位的人脸,相比于原人脸(即未被目标遮挡对象遮挡目标人脸部位的人脸),只是在目标人脸部位处增加了目标遮挡对象,而不会影响该人脸的外观。一种示例性的目标遮挡对象为口罩时,采用口罩遮挡人脸中的鼻子部位和嘴巴部位后的人脸示意图可以参见图5所示;如图5所示可知,采用口罩脱敏后的人脸保持原人脸的人脸外观属性,如保持头部朝向是倾斜,保持头部发型以及保持眼睛视线等。这种保持人脸的人脸外观属性的人脸脱敏方式,在消除人脸敏感信息的同时,基本不会产生人脸脱敏的痕迹,使得目标对象从脱敏后的人脸中并看不出脱敏痕迹,保持了人脸的和谐美观和自然性,从而将较为友好和自然的脱敏后人脸应用于目标应用场景时,确保场景的图像使用效率,如有利于对图像数据的回传使用或者脱敏后下游应用的开发。
在实际应用中,本申请实施例支持在接收到针对图像编辑界面中的人脸的遮挡触发操作时,才触发执行采用目标遮挡对象遮挡人脸中的目标人脸部位的步骤。其中,遮挡触发操作可以包括但是不限于以下任一种:针对图像编辑界面中的部位去除选项的触发操作,在图像编辑界面中执行的手势操作,在图像编辑界面中的语音信号输入操作,或者,集成有图像处理方法的目标应用程序针对接收到的目标图像中人脸的静默检测操作(如该接收到的目标图像在未脱敏前并不显示于图像编辑界面中),等等。当然,用于触发执行人脸脱敏的遮挡触发操作并不仅限于上述给出的几种,下面结合附图,并以上述给出的几种遮挡触发操作为例,对基于遮挡触发操作实现人脸脱敏的具体实施过程进行阐述,其中:
(1)遮挡触发操作为针对图像编辑界面中的部位去除选项的触发操作。
如图6a所示,在图像编辑界面中包含部位去除选项601;响应于针对该部位去除选项601的点击操作,表示目标对象想要对图标编辑界面中显示的目标图像所包含的人脸进行目标人脸部位的去除,此时该目标人脸部位可以是人脸所包含的多个人脸部位中默认的人脸部位,如默认采用目标遮挡对象“口罩”遮挡人脸中默认的待遮挡的目标人脸部位“口鼻部位”。
除了图6a所示的采用一个部位去除选项来代表默认针对目标人脸部位进行去除外,本申请实施例还支持在图像编辑界面中包含不同人脸部位对应的部位去除选项,如口鼻去除选项602、眼睛去除选项603和发型去除选项604;如图6b所示,此实现方式下,目标对象可以按照自己的脱敏需求,自主从多个部位去除选项中选择至少一个部位去除选项,那么响应于针对至少一个部位去除选项的选择操作,在图像编辑界面中采用被选中的至少一个部位去除选项所对应的人脸部位匹配的遮挡对象,对人脸中相应人脸部位进行遮挡,得到脱敏后的人脸。这种支持目标对象从人脸中自定义选择想要去除的人脸部位的方式,增加了目标对象对人脸脱敏的选择权限,满足不同用户人脸脱敏的需求,提升用户体验和粘性。
需要说明的是,上述图6a和图6b只是本申请实施例提供的,示例性的部位去除选项在图像编辑界面中的显示位置和显示样式的示意图;根据图像编辑界面的界面样式和界面内容不同,部位去除选项在图像编辑界面中的显示位置和显示样式还可以发生适应性变化;本申请实施例对此不作限定。
(2)遮挡触发操作为在图像编辑界面中执行的手势操作。
其中,在图像编辑界面中的手势操作可以包括但是不限于:双击操作、长按操作或三指操作,或者,执行预设轨迹(如“S”形轨迹或“L”形轨迹等)的操作等。如图7所示,若用于触发人脸脱敏的手势操作为双指的长按操作,那么当图像编辑界面中的显示位置(如图像编辑界面中的手势区域701,或者整个图像编辑界面中的任意显示位置)被双指触发的时长超过时间阈值(如5秒)时,确定在图像编辑界面中存在双指的长按操作,表示目标对象想要针对图像编辑界面中的人脸执行人脸脱敏,此时计算机设备针对图像编辑界面中的人脸执行人脸脱敏,并在图像编辑界面中更新显示脱敏后的人脸。同理,若用于触发人脸脱敏的手势操作为执行预设轨迹“S”形轨迹的移动操作,那么当在图像编辑界面中检测到该“S”形轨迹的移动操作时,表示目标对象想要针对图像编辑界面中的人脸执行人脸脱敏,此时计算机设备针对图像编辑界面中的人脸执行人脸脱敏,即采用目标遮挡对象遮挡人脸中的目标人脸部位,并在图像编辑界面中更新显示脱敏后的人脸。
另外,本申请实施例还支持一个手势操作对应一个遮挡对象;这样,当目标对象在图像编辑界面中执行目标手势操作(如任一手势操作)时,计算机设备根据该目标手势操作的类型,采用该目标手势操作对应的遮挡对象,对该遮挡对象匹配的人脸部位进行遮挡,以实现人脸脱敏。例如,手势操作为执行预设轨迹“S”的操作时,相对应的遮挡对象为墨镜,那么当在图像编辑界面中检测到该手势操作时,默认采用遮挡对象“墨镜”对图像编辑界面中人脸的眼睛进行遮挡,以使得遮挡眼睛后的人脸不能被识别出用户身份。再如,手势操作为双击操作时,相对应的遮挡对象为口罩,那么当在图像编辑界面中检测到该手势操作时,默认采用遮挡对象“口罩”对图像编辑界面中人脸的口鼻部位进行遮挡,以使得遮挡口鼻部位后的人脸不能被识别出用户身份。
(3)遮挡触发操作为在图像编辑界面中的语音信号输入操作。
具体地,在计算机设备显示图像编辑界面的过程中,可以通过计算机设备中部署的麦克风获取目标对象所在物理环境中的音频,并对获取的音频进行语音信号的分析,若该语音信号指示需要触发人脸脱敏,则计算机设备对图像编辑界面中的人脸执行人脸脱敏,并将脱敏后人脸显示于图像编辑界面中。一种示例性的在图像编辑界面中输入语音信号的操作示意图可以参见图8;如图8所示,在图像编辑界面中包含语音输入选项801。当该语音输入选项801被触发时,开启计算机设备中部署的麦克风,并通过麦克风获取目标对象所在物理环境中的音频;当然,图像编辑界面中可以不包含语音输入选项,而是在图像编辑界面显示的过程中,计算机设备中部署的麦克风始终处于开启状态,以实时采集目标对象所在物理环境中的音频。
进一步的,在自动检测到物理环境中的音频采集完毕后,计算机设备可以执行语音信号分析等操作,以确定是否需要对图像编辑界面中的人脸进行人脸脱敏。当然,除了计算机设备自动检测是否结束语音信号的输入,本申请实施例还支持在检测到针对结束选项802的触发操作时,表示目标对象已完成语音信号输入,终端执行后续分析语音信号等操作。
(4)目标应用程序静默检测到,接收的目标图像中包含人脸的操作;也就是说,计算机设备(具体是计算机设备中部署的目标应用程序)在获取到目标图像后,可以直接对该目标图像进行人脸检测,并从目标图像中检测到人脸时,确定触发针对目标图像中人脸的脱敏条件。
具体地,在计算机设备中触发显示图像编辑界面时,计算机设备(具体是计算机设备中部署的目标应用程序)可以自动静默对图像编辑界面进行人脸检测,并在检测到人脸后自动进行人脸脱敏,而无需由目标对象执行任何操作来触发执行人脸脱敏。这种由目标应用程序自动进行静默人脸检测和脱敏的方式,无需用户操作,降低用户工作量,提高人脸脱敏的智能性和自动性。
值得注意的是,计算机设备是接收到目标图像后,才将目标图像渲染显示于计算机设备的显示屏幕中的;因此,计算机设备可以在接收到待渲染显示的目标图像后,就可以对该目标图像进行人脸检测和脱敏,并直接将脱敏后的目标图像显示于图像编辑界面中;而非上述提及的先在图像编辑界面中显示未脱敏的人脸,然后计算机设备才执行人脸检测和脱敏的相关操作。上述这种计算机设备在接收到待渲染显示的目标图像后,就直接对该目标图像进行人脸脱敏的方式,在一定程度上提高人脸脱敏的速度和效率。
由上述描述可知,遮挡触发操作为:目标应用程序针对图像编辑界面中人脸的静默检测操作时,对于目标对象而言是不能感知触发人脸脱敏的过程中;为提高目标对象针对触发人脸脱敏的感知性,本申请实施例还支持在目标应用程序在执行静默检测操作,并检测到图像编辑界面中的人脸后,提示目标对象检测出到人脸即将进行人脸脱敏;以便于目标对象直观感知针对人脸的脱敏处理。可选的,如图9a所示支持输出脱敏提示信息901,该脱敏提示信息901用于提示检测到人脸即将进行人脸脱敏;该脱敏提示信息901可以在图像编辑界面中显示目标时间段(如3秒),以便于目标对象有充足时间了解该脱敏提示信息901的内容。
可选的,如图9b所示还支持输出遮挡提示信息902,该遮挡提示信息902用于指示遮挡人脸中的目标人脸部位;此时响应于针对遮挡提示信息902的确认操作(如遮挡提示信息902所在提示窗口903中包含的确认组件9031被触发),触发执行采用目标遮挡对象遮挡人脸中的目标人脸部位的步骤。
进一步的,本申请实施例还支持目标对象通过窗口903,自主选择需要遮挡的人脸部位,以满足目标对象对不同人脸部位的脱敏需求。如图9c所示,上述提及的遮挡提示信息902显示于提示窗口903中,此时在该提示窗口903中还包括目标人脸部位的部位标识9032(如可以用于唯一标识该人脸部位的标志,如图标或文字等)和部位刷新组件9033。当部位刷新组件9033被触发时,表示目标对象想要更换待脱敏的人脸部位,此时在提示窗口903中输出人脸中除目标人脸部位的候选人脸部位的目标部位标识,具体是将提示窗口903中原显示目标人脸部位所在位置,更新显示为候选人脸部位的目标部位标识,如目标人脸部位为眼睛部位,候选人脸部位包括鼻子部位和嘴巴部位;计算机设备响应于针对目标部位标识的确认操作,采用被选中的目标部位标识所对应的候选人脸部位对应的遮挡对象,遮挡该参考人脸部位,以实现人脸脱敏。当然,在提示窗口903中还直接输出人脸除目标人脸部位以外的其他人脸部位的部位标识,以供目标对象选择,如可以选择多个人脸部位的部位标识,此时根据被选择的多个人脸部位的部位标识,可以确定出匹配的遮挡对象;本申请实施例对在提示窗口903中选择部位标识的具体实施过程,不作限定。
需要说明的是,上述实现方式(1)-(4)只是本申请实施例提供的几种示例性的遮挡触发操作;在实际应用中,在图像编辑界面中存在的遮挡触发操作还可以发生变化,如遮挡触发操作还可以包括通过实体输入设备(如实体键盘)或虚拟输入装置(如虚拟键盘)输入快捷键的操作;本申请实施例对用于触发人脸脱敏的遮挡触发操作的具体实施过程不作限定。
还需说明的是,上述提及的由目标对象自主选择待遮挡的人脸部位的实现方式,适用于任意一种遮挡触发操作;如图6b所示的由目标对象在图像编辑界面中选择待遮挡人脸部位的具体实施过程,其实还可以应用于遮挡触发操作为语音输入操作的过程中。
另外,本申请实施例除了支持由目标对象自主选择待遮挡的人脸部位外,本申请实施例还支持目标对象自主选择遮挡对象,以丰富目标对象的人脸脱敏选择权限。在一种实现方式中,支持直接通过选择遮挡对象从而根据被选择的遮挡对象确定待遮挡的人脸部位;与前述提及的图6a所示类似的,在图标编辑界面中可以包括多个候选遮挡对象的对象标识(如用于唯一标识该遮挡对象的标志),这样目标对象可以从多个候选遮挡对象的对象标识中进行标识选择,以确定将被选择的对象标识对应的人脸部位确定为待遮挡的人脸部位。
在其他实现方式中,支持在确定待遮挡的人脸部位的基础上,对该人脸部位匹配的遮挡对象的对象样式进行自主选择,以满足用户对目标遮挡对象的对象样式的自定义需求,提示用户体验。如图10所示,在图像编辑界面中执行遮挡触发操作和确定待遮挡的目标人脸部位(如默认的或由目标对象自主选择的)后,支持输出对象选择界面1001,在该对象选择界面1001中包含目标人脸部位对应的一个或多个候选遮挡对象,如候选遮挡对象1002,候选遮挡对象1003和候选遮挡对象1004;这些候选遮挡对象的对象样式有所不同。目标对象可以在该对象选择界面1001中进行对象选择操作,这样计算机设备可以响应于该对象选择操作,从一个或多个候选遮挡对象中选择目标遮挡样式的目标遮挡对象。从而采用该目标遮挡样式的目标遮挡对象遮挡人脸中的目标人脸部位,得到脱敏后的人脸。可以理解的是,一个或多个候选遮挡对象还可以直接显示于图像编辑界面中,而不是显示于独立的对象选择界面中;本申请实施例对一个或多个候选遮挡对象的具体显示位置不作限定,特在此说明。
本申请实施例中,在图像编辑界面中显示有人脸;在目标对象具有人脸脱敏需求时,支持采用目标遮挡对象自动遮挡该人脸中的目标人脸部位(如鼻子部位和嘴巴部位),以实现对人脸的脱敏。在上述方案中,采用目标遮挡对象对人脸中的目标人脸部位进行遮挡时,该目标遮挡对象能够适应人脸姿态,灵活地对人脸中的目标人脸部位进行遮挡;这使得遮挡后的人脸仍然能够保留原人脸的人脸外观属性,如原人脸的姿态是头部朝上,那么该目标遮挡对象的形状能够适应人脸姿态进行变化,使得变化形状后的目标遮挡对象能够与人脸的姿态进行很好地匹配,从而在去除人脸中的敏感信息(如五官等能够识别出人脸的信息)的同时,确保人脸基本不形成修改痕迹,保持遮挡后的人脸的和谐美观和自然性,提供给目标对象一种无感的人脸脱敏效果。
前述图3所示实施例主要对图像处理方法的界面实现过程进行介绍,下面对图像处理方法的后台技术流程进行介绍;具体结合图11给出图像处理方法的后台技术流程,该后台技术流程主要介绍了计算机设备调用网络或模型对待人脸脱敏的目标图像进行人脸脱敏的具体实施过程。图11是本申请一个示例性实施例提供的一种图像处理方法的流程示意图;该图像处理方法可以由计算机设备执行,该图像处理方法可以包括但不限于步骤S1101-S1105:
S1101:获取待人脸脱敏的目标图像,该目标图像中包含人脸。
具体实现中,计算机设备在接收遮挡触发操作时,确定需要执行人脸脱敏,此时可以获取待人脸脱敏的目标图像。正如前述所描述的,用于触发人脸脱敏的遮挡触发操作可以包括多种。例如:遮挡触发操作包括:在图像编辑界面中的手势操作、针对图像编辑界面中的部位去除选项的触发操作以及语音信号输入操作等,此时可以直接将图像编辑界面中显示的包含人脸的图像作为待人脸脱敏的目标图像。再如:遮挡触发操作包括:目标应用程序针对目标图像中人脸的静默检测操作;具体是计算机设备在接收到目标图像后,就直接对该目标图像进行人脸检测(而无需将未脱敏的目标图像显示于图像编辑界面中),并在检测到人脸时就确定获取到待人脸脱敏的目标图像。进一步的,获取的目标图像可以是目标对象自主上传的,还是可以车辆中部署的车载设备实时采集的图像(或称为车载图像)等,本申请实施例对目标图像的具体来源不作限定。
S1102:获取训练好的人脸检测网络,并调用人脸检测网络对目标图像进行人脸识别处理,得到目标图像中包含人脸的人脸区域。
S1103:对目标图像进行区域裁剪,得到目标图像对应的人脸图像,该人脸图像中包含目标图像中的人脸。
步骤S1102-S1103中,基于前述步骤获取到待人脸脱敏的目标图像后,本申请实施例采用模型或网络实现对目标图像中的人脸检测和脱敏(或称为转换),以实现对目标图像中人脸的脱敏处理;通过利用训练好的网络实现对目标图像中人脸的检测和转换,无需目标对象执行繁琐操作,对于目标对象而言,降低人脸检测和转换的难度,且训练好的网络是采用大量训练数据训练得到的,从而确保人脸检测和转换的准确性。
在本申请实施例中涉及的网络可以包括:人脸检测网络和人脸转换网络;其中,人脸检测网络用于从目标图像中检测到人脸所在区域,人脸转换网络对从目标图像中检测到的人脸进行转换,以实现采用目标遮挡对象遮挡人脸中的目标人脸部位,从而实现人脸脱敏;一种示例性的训练人脸检测网络和人脸转换网络,并利用训练好的人脸检测网络和人脸转换网络对目标图像实现人脸脱敏的流程可以参见图12。为便于阐述,在步骤S1102-S1103中只对人脸检测网络的网络训练和应用进行相关介绍,在后续步骤S1104-S1105中再对人脸转换网络的网络训练和应用进行相关介绍。
具体实现中,计算机设备在获取到待人脸脱敏的目标图像后,支持调用训练好的人脸检测网络对该目标图像进行多尺度特征提取,得到根据不同尺度(即特征图的高h和宽w)的特征图确定目标图像中所包含的人脸所在区域,以实现从目标图像中准确地定位出人脸所在区域。下面对人脸检测网络的网络训练过程进行介绍,人脸检测网络的训练过程可以大致包括建设人脸检测数据集合,以及,设计和训练人脸检测网络的两个步骤,该两个步骤又可以细分但不限于步骤s11-s14;其中:
s11:获取人脸检测数据集合。
其中,人脸检测数据集合中包含至少一个样本图像和各样本图像对应的人脸标注信息。其中:①在目标应用场景为车载场景下,样本图像可以是通过车辆中部署的车载设备(如行车记录仪)采集的;当然,样本图像的来源并不仅限于车载设备,对此不作限定。②任一样本图像对应的人脸标注信息用于标注相应样本图像中的人脸所在位置。为便于理解该人脸标注信息可以矩形框的形式表示,如图13所示,在样本图像中可以用矩形框将样本图像中包含的所有人脸进行标注,一个矩形框用于标注一个人脸;但在后台记录人脸标注信息时是采用数据结构形式记录的。
s12:从人脸检测数据集合中选取第i个样本图像,并利用人脸检测网络对第i个样本图像进行多尺度特征处理,得到不同尺度的特征图和各特征图对应的人脸预测信息。
基于步骤s11标注得到用于训练人脸检测网络的人脸检测数据集合后,支持基于该人脸检测数据集合对人脸检测网络进行网络训练;具体是采用人脸检测数据集合中的样本图像对人脸检测网络进行多轮迭代训练,直至得到训练好的人脸检测网络。以选取人脸检测数据集合中的第i个样本图像为例,对一轮网络训练的过程进行介绍,i为正整数;具体实现中,支持利用人脸检测网络对第i个样本图像进行多尺度特征处理,得到不同尺度的特征图和各特征图对应的人脸预测信息。其中,多尺度特征处理的具体实现过程可以包括:先对第i个样本图像进行多尺度的特征提取,得到不同尺度的特征图;然后,为了人脸检测网络更好地适应样本图像中人脸的尺度变化,支持将不同尺度的特征图进行特征融合;最后,在各个尺度上生成对应的输出特征,任一尺度上的输出特征包括该任一尺度对应的特征图和特征图对应的人脸预测信息,该特征图对应的人脸预测信息可以用于指示相应特征图中预测得到的人脸所在区域,即通过人脸检测网络来预测出样本图像中人脸所在区域,
下面结合图14所示的人脸检测网络的网络结构,对上述给出的利用人脸检测网络进行人脸检测的具体实施过程进行介绍;如图14所示,本申请实施例设计的人脸检测网络大致包括:骨干网络和多尺度特征模块。下面分别对骨干网络和多尺度特征模块的结构和功能进行介绍,其中:
1)骨干网络主要用于对输入人脸检测网络的第i个样本图像进行多尺度的特征提取,以提取到第i个样本图像的丰富图像信息,有利于对第i个样本图像所包含人脸的准确性预测。其中,骨干网络中包含一个主干stem和多个网络层B-layer。其中:①主干stem的结构仍然可以参见图14,该主干stem是由最大池化层(Maxpool),卷积层,归一化(BN)和激活函数(Relu)组成的;基于骨干网络所包含的主干stem对第i个样本图像进行多尺度的特征提取的具体实施过程可以包括:人脸检测网络获取到第i个样本图像后,首先利用主干stem所包含的最大池化层对第i个样本图像进行池化处理,并利用卷积层(如卷积核为3×3,步长stride等于2的卷积层)对池化后特征进行特征提取,然后将提取的特征进行归一化和激活处理,得到主干stem对第i个样本图像提取的特征信息。
进一步的,②骨干网络所包含的多个下采样尺度(或简称为尺度)的网络层B-layer,可以用于对主干stem提取到的特征信息继续进行不同学习尺度的特征提取,得到不同尺度的特征信息,以提取第i个样本图像的丰富信息。在本申请实施例中,骨干网络中包含的网络层B-layer分别为:B-layer1→B-layer2→B-layer3→B-layer4为例,每个网络层B-layer的下采样尺度是相连上一个网络层B-layer的下采样尺度的2倍;通过利用不同学习尺度的网络层B-layer对第i个样本图像进行特征提取,可以提取到第i个样本图像所包含的丰富的图像信息,从而提高对第i个样本图像中人脸所在区域的检测准确性。
其中,每个网络层B-layer中包含多个残差卷积模块Res Block;如图14所示,一个网络层B-layer由一个残差卷积模块Res Block和m个残差卷积模块Res Block串联,和该m个残差卷积模块Res Block并列组成,每个残差模块Re sblock用于对输入的特征信息进行卷积运算,实现对图像的多次卷积运算,以提取到第i个样本图像的丰富的特征信息(如每个像素点的灰度值);其中,m的具体取值与网络层B-layer的下采样尺度相关,具体数值不作限定。进一步的,单个残差卷积模块Resblock的结构可以参见图14;残差卷积模块Resblock可以包括多个不同或相同大小的学习特征尺度的卷积核(如图14中残差卷积模块Resblock由3×3的卷积核串联一个归一化模块,再串联一个3×3的卷积核,和1个1*1的卷积核组成),以及下采样模块组成。其中:每个卷积核用于对输入的特征信息进行相应学习特征尺度(如3*3)的特征提取。残差卷积模块Resbl ock所包含的下采样模块的具体下采样尺度,是与该残差卷积模块Resblock所属的网络B-layer的学习尺度相关的。具体地,输入至残差卷积模块Resblock的特征信息会分别经过卷积核的特征提取,和下采样模块的下采样处理,并将特征提取到的特征信息和下采样得到的特征信息进行融合,得到该残差卷积模块Re sblock提取的特征信息。
综上所述,通过上述描述的包含多个下采样尺度的骨干网络,对第i个样本图像进行多尺度的特征提取,可以提取到第i个样本图像对应的不同尺度的特征信息(或称为特征图),以获取第i个样本图像的丰富信息。
2)多尺度特征模块主要用于对骨干网络输出的多个不同尺度的特征信息进行特征融合(或称为特征增强),以在各尺度上生成对应的特征图;通过将不同尺度的特征信息进行融合,有利于人脸检测网络更好地学习和适应样本图像中人脸的尺寸变化,例如不同样本图像中用于标注人脸的矩形框的尺度可能不同,再如同一样本图像中标注不同人脸的矩形框的尺度也可能有所不同。如图14所示,多特征尺度模块中包含多个网络层F-layer,每个网络层F-layer的下采样尺度与上一阶段(即骨干网络)包含的一个网络层B-layer相同,并用于接收上一阶段所包含相同网络层B-layer输出的特征信息,以对该特征信息进行特征增强;具体的,为了人脸检测网络能够适应样本图像中人脸的尺寸变化,在本申请实施例中支持将上一阶段输出的不同尺度的特征信息进行融合后,才利用相应网络层F-layer生成对应的特征信息。
如图14所示,在本申请实施例中多尺度特征模块包含的网络层F-layer分别为:F-layer2→F-layer3→F-layer4;如图14所示,每个网络层F-layer是由多个残差卷积模块Resblock并列后,和一个转置卷积模块convTranspose串联组成的;关于残差卷积模块Resblock的相关内容可以参见前述相关描述,在此不作赘述,转置卷积模块convTranspose又称为反卷积,是一种上采用方式,同卷积的原理类似的,具有可学习的参数,可以通过网络学习来获取最优的上采样方式,以实现对特征信息的上采样处理。具体实现中,基于多尺度特征模块所包含多个网络层F-layer进行特征融合的具体实施过程可以包括:网络层F-layer4接收骨干网络中网络层B-layer4输出的特征信息,并对该特征信息进行特征增强,以生成相应尺度的特征信息,如生成的特征图的尺度为n*h/32*w/32。然后,网络层F-layer3接收骨干网络中网络层B-layer3输出的特征信息,和网络层F-layer4输出的特征信息;并且,融合两个特征信息后,基于融合后特征信息生成网络层F-layer3所指示的尺度上的特征信息,如生成的特征图的尺度为n*h/16*w/16。同理,网络层F-layer2接收骨干网络中网络层B-layer2输出的特征信息,和网络层F-layer3输出的特征信息;并且,融合两个特征信息后,基于融合后特征信息生成网络层F-layer2所指示的尺度上的特征信息,如生成的特征图的尺度为n*h/8*w/8。
其中,上述网络输出的各特征图的尺度中参数n表示特征图的通道数;特征图的每个通道对应着用于表征第i个样本图像的特定信息。特征图的通道数n可以表示为n=b*(4+1+c);其中:b为特征图上每个位置的锚框(即前述提及的矩形框)数;4代表对每个锚框的中心横坐标、中心纵坐标、长、宽的偏移回归量;1代表特征图上某个位置为人脸所在位置(或称为目标所在位置)的置信度(即可信程度,表现为概率形式);c为目标类别数,即设定的样本图像中待识别的对象类别的数量,在本申请实施例中待识别对象为人脸,因此c可以取值为1。由此可见,特征图的通道数可以表示为n=b*(5+c)。
进一步的,特征图上每个位置的锚框数b的确定方式如下:指定所有尺寸上的总锚框数量为B(如B=9);然后,以用于标注人脸的矩形框的高和宽作为特征,并利用k-means对所有矩形框聚类为B类;其中,k-means算法是基于欧式距离的聚类算法,其认为两个目标的距离越近,则相似度越大,将k-means运用于本申请实施例时,具体是以矩形框的高和宽作为特征以实现对所有矩形框的聚类,如认为高和宽相近的矩形框,其相似度较大,可以被划分至同一类。进一步的,取这B类的类心为对应锚框的高和宽,以确定B类锚框。最后,对锚框按照面积(有高和宽确定的)从小到大进行排序,并在特征图包含三种尺度的情况下,将排序序列中前三分之一的锚框使用在尺度最大的特征图上,将排序序列中位于中间三分之一的锚框使用在尺度属于中间位置的特征图上,以及,将排序序列中靠后的三分之一的锚框使用在尺度最小的特征图上。基于输出的每个特征图上的锚框从而确定特征图上每个位置的锚框数b,也得到不同尺度的特征图对应的人脸预测信息,该人脸预测信息可以上述提及的通道数确定过程中和特征图上锚框确定过程中所涉及的各参数来体现,如特征图上的锚框数、置信度和目标类别数等。
综上所述,基于上述描述的骨干网络和多尺度特征模块,可以实现对第i个样本图像的多尺度的特征提取和特征增强,以得到第i个样本图像中丰富的图像信息,从而帮助人脸检测网络更好地实现图像中的人脸检测,确保人脸检测网络的人脸检测性能。
s13:基于不同尺度的特征图,各特征图对应的人脸预测信息和第i个样本图像对应的人脸标注信息,对人脸检测网络进行训练,得到训练后的人脸检测网络。
基于上述步骤,采用人脸检测网络对第i个样本图像进行多尺度特征处理后,可以得到不同尺度的特征图和各特征图对应的人脸预测信息;然后,支持采用第i个样本图像对应的人脸标注信息,分别与每种尺度下的特征图和相应的人脸预测信息进行损失运算,得到每种尺度对应的损失信息;这样将每种尺度对应的损失信息相加,并采用相加结果对人脸检测网络进行训练。其中,用于确定任一尺度(每种尺度可以认为对应一条支路)对应的损失信息的损失函数为如下公式:
由公式(1)可知,该损失函数依次由四个子部分构成。其中,第一子部分和第二子部分为:采用人脸检测网络对第i个样本图像进行预测所得到的预测框,相对锚框中心点和宽高的偏移回归量损失。第三子部分为类别损失,即第i个样本图像中实际类别人脸,和人脸检测网络对第i个样本图像预测得到的预测类别之间的差异。第四子部分为是否存在目标的置信度损失,是在输出特征图上计算每种类别的损失之和所确定的。Sn表示输出的特征图的宽和高。bn是前面提到的特征图每个位置上的锚框数。代表询问输出特征图的(i,j)位置是否在目标(即人脸)上;如果(i,j)位置是在目标上,则取值为1,否则为0。α,β,γ表示各子部分损失的权值。
如图14所示,本申请实施例提供的示例性尺度为三种,那么人脸检测模型的总损失信息可以表示为三个尺度支路的损失信息之和;如下所示:
loss=loss1+loss2+loss3 (2)
基于该公式(2)计算得到本轮网络训练的损失信息后,支持采用该损失信息对人脸检测网络的模型参数进行优化,以得到训练后的人脸检测网络。
s14:重新从人脸检测数据集合中选取第i+1个样本图像,并采用第i+1个样本图像对训练后的人脸检测网络进行迭代训练,直至人脸检测模型趋于稳定为止。
可以理解的是,从人脸检测数据集合中选取第i个样本图像,对人脸检测网络进行网络训练,得到训练后的人脸检测网络后;还支持继续采用人脸检测数据集合中第i+1个样本图像,对训练后的人脸检测网络继续进行训练,直至人脸检测数据集合中的样本图像均被用于网络训练,或者,训练后的人脸检测网络达到较优的人脸预测性能。其中,采用第i+1个样本图像对人脸检测网络进行训练的具体实施过程,是与采用第i个样本图像对人脸检测网络进行训练的具体实施过程相同的;具体可参见前述步骤s11-s13所示的具体实施过程的相关描述,在此不作赘述。
S1104:获取训练好的人脸转换网络,并调用人脸转换网络对人脸图像进行人脸转换处理,得到转换后的人脸图像;转换后的人脸图像中的目标人脸部位被目标遮挡对象遮挡。
S1105:采用转换后的人脸图像替换目标图像中的人脸区域,得到新的目标图像。
步骤S1104-S1105中,基于前述步骤训练好的人脸检测网络,对目标图像进行人脸检测后,可以确定目标图像中人脸所在区域;并对人脸所在区域进行裁剪,得到包含人脸的人脸图像;然后,可以利用训练好的人脸转换网络对人脸图像进行人脸转换处理,实现为人脸图像中未采用目标遮挡对象(如口罩)遮挡的人脸,转换为采用目标遮挡对象遮挡目标人脸部位的人脸,从而实现人脸脱敏;最后,将脱敏后的人脸图像替换目标图像中检测到的人脸区域,以得到新的目标图像,该新的目标图像是人脸脱敏后的图像。
在本申请实施例中,人脸转换网络是使用生成对抗网络(Generative Adversarial Networks,GAN)实现的。GAN网络是人工智能(Artificial Intelligence,AI)技术中的一种深度学习模型;GAN网络可以包括至少两个网络(或称为模块):生成器网络(Generative Model)和判别器网络(Discriminative Model),并通过该至少两个模块之间的相互博弈学习产生较好的输出结果。以GAN网络的输入数据的类型为图像,GAN网络具有生成包含目标的图像的功能为例,对GAN网络所包含的生成器网络和判别器网络进行简单介绍;其中,所谓生成器网络是用于对输入的一帧或多帧包含目标的图像进行处理,以生成一帧新的包含目标的图像,该新的图像是不包含于输入的一帧或多帧图像中的;所谓判别器网络是用于对输入的一帧图像进行判断,以确定该图像中所包含的对象是否为目标。在对GAN网络进行训练的过程中,生成器网络生成的图像可以给到判别器模块来进行判断,并根据判别结果不断修正GAN网络的参数,直至训练好的GAN网络中生成器网络能够较为准确地生成新的图像,且判别器网络能够较为准确地对图像进行判别。
由此可见,本申请实施例提供的人脸转换网络可以包含生成器网络和判别器网络;进一步的,考虑到本申请实施例涉及两个图像域,分别是不包含目标遮挡对象的图像域,和包含目标遮挡对象的图像域。因此,人脸转换网络所包含的生成器网络可以包括:第一图像域对应的第一图像域生成器,和第二图像域对应的第二图像域生成器;同理,人脸转换网络所包含的判别器网络可以包括:第一图像域生成器对应的第一图像域判别器,和第二图像域生成器对应的第二图像域判别器。为便于阐述,以目标遮挡对象为口罩为例,本申请实施例将不戴口罩的图像域记为A,即第一图像域,将戴口罩的图像域记为B,即第二图像域;将GA作为B域到A域的第一图像域生成器,将GB作为A域到B域的第二图像域生成器,DA作为在A域上判断图像真假的第一图像域判别器,Db作为在B域上判断图像真假的第二图像域判别器。
具体实现中,计算机设备在调用训练好的人脸检测网络从目标图像中裁剪得到,包含人脸的人脸图像后,可以调用训练好的人脸转换网络(具体是调用训练好的第二图像域生成器)对人脸图像进行转换处理,以实现为该人脸图像佩戴上口罩,从而针对该人脸的脱敏。下面对人脸转换网络的网络训练过程进行介绍,人脸转换网络的训练过程可以大致包括建设人脸转换数据集合,以及,设计和训练人脸转换网络的两个步骤,该两个步骤又可以细分但不限于步骤s21-s24;其中:
s21:获取人脸转换数据集合。
其中,人脸转换数据集合中包含属于第一图像域的多个第一样本人脸图像,和属于第二图像域的多个第二样本人脸图像;第一样本人脸图像中的目标人脸部位未被遮挡,第二样本人脸图像中的目标人脸部位被遮挡。具体地,获取人脸转换数据集合的具体实施方式可以包括:将前述人脸检测数据集合中标注的人脸进行裁剪,以将裁剪得到的包含人脸的人脸图像添加至人脸图像集合中;进一步的,为丰富人脸转换数据集合,本申请实施例还支持采集更多图像(如车载图像),然后用前述训练好的人脸检测网络检测出图像中的人脸并裁剪,以及将裁剪的人脸图像一并添加至人脸图像集合中,得到新的人脸图像集合。然后,对上述操作得到的人脸图像集合进行处理,此处的处理可以包括但是不是限于:去除模糊或不完整的人脸,以及去除不是人脸的误检测结果。最后,对处理好剩下的人脸图像集合分为不戴口罩人脸的第一图像域和戴口罩人脸的第二图像域。
一种示例性的第一图像域所包含的不戴口罩的多个第一样本人脸图像,和第二图像域所包含的戴口罩的多个第二样本图像域的示意图可以参见图15;如图15所示的第一附图为不戴口罩的多个第一样本人脸图像,图15所示的第二附图为戴口罩的多个第二样本人脸图像。
s22:利用第一图像域生成器,对第二样本人脸图像进行图像生成处理,得到第一参考人脸图像;并利用第二图像域生成器,对第一样本人脸图像进行图像生成处理,得到第二参考人脸图像。
其中,生成器网络(如第一图像域生成器和第二图像域生成器)的网络结构的示例性示意图可以参见图16;如图16所示,生成器网络由编码器,残差卷积模块,上下文信息提取模块和解码器。其中,编码器起到下采样作用,可以称为下采样模块,而解码器起到上采样作用,可以称为上采样模块。为了避免细节信息,采用编码器对输入的样本人脸图像进行下采样时,特征图的高和宽都只下采样为原来的1/4;而考虑到下采样倍数较小,容易造成样本人脸图像中的上下午信息提取的不足,因此,生成器网络中间使用不同扩张率组成的扩张卷积金字塔,以增加生成器网络对样本人脸图像的感受野,从而提取到样本人脸图像更为丰富的图像信息。最后会使用较轻量的解码器将特征还原到输入的样本人脸图像的分辨率,以生成属于该生成器网络所属图像领域的新的参考图像。
基于上述对生成器网络的相关介绍可知,本申请实施例支持将RGB图像(即由红色(Red,R),绿色(Green,G)和蓝色(Blue,B)所构成的样本人脸图像,针对不同图像域生成器,该样本人脸图像不同)输入生成器网络,该生成器网络会对输入的样本人脸图像进行图像生成处理,以生成分辨率与输入分辨率相同的三通道特征图。具体地,若该生成器网络是第一图像域生成器,那么输入该生成器网络的样本人脸图像为戴口罩的第二样本人脸图像,此时该第一图像域生成器用于对该第二样本人脸图像进行图像生成处理,以生成该第二样本人脸图像对应的第一参考人脸图像,该第一参考人脸图像与该第二样本人脸图像之间的区别在于:第一参考人脸图像中的目标人脸部位未被遮挡。同理,若该生成器网络是第二图像域生成器,那么输入该生成器网络的样本人脸图像为不戴口罩的第一样本人脸图像,此时该第二图像域生成器用于对该第一样本人脸图像进行图像生成处理,以生成该第一样本人脸图像对应的第二参考人脸图像,该第二参考人脸图像与该第一样本人脸图像之间的区别在于:第二参考人脸图像中的目标人脸部位被遮挡。由此可见,不管是第一图像域生成器,还是第二图像域生成器都旨在将不属于本图像域的样本人脸图像,生成属于本图像域的参考人脸图像,以实现生成新的图像;这样应用于人脸脱敏领域时,可以基于戴口罩的第二图像域生成器,将不戴口罩的目标图像生成戴口罩的目标图像,从而实现对目标图像中人脸的脱敏,起到保护人脸隐私信息的目的。
s23:利用第一图像域判别器,对第一参考人脸图像进行图像判别处理,以及利用第二图像域判别器,对第二参考人脸图像进行图像判别处理,得到人脸转换网络的对抗生成损失信息。
其中,判别器网络(如第一图像域判别器和第二图像域判别器)的网络结构的示例性示意图可以参见图17;如图17所示,判别器网络由多个卷积模块串联构成,其中第一个卷积模块的卷积核可以为7×7,而后续的卷积模块的卷积核可以为3×3。具体实现中,判别器网络的输入包括:相应生成器网络输出的假图像(如第一图像域生成器基于第二样本人脸图像所生成的第一参考人脸图像,该第一参考人脸图像不是真实存在的,因此可以称为假图像),和该判别器网络所属图像域内的真图像(如判别器网络为第一图像域判别器,那么该真图像可以是指属于第一图像域的任一第一样本人脸图像。判别器网络对输入的假图像和真图像进行多次卷积运算,可以输出高和宽为下采样为输入图像(如真图像和假图像)的尺度的1/16的特征图,且特征图的通道数为1;从而根据该特征图判断输入判别器网络的假图像正确的可能程度(如用概率来表示)。
进一步的,基于上述给出的生成器网络和判别器网络的相关实施过程,可以确定从第一图像域(即A域)到第二图像域(即B域)的对抗生成损失信息LGAN(GB,DB,A,B),以及从第二图像域(即B域)到第一图像域(即A域)的对抗生成损失信息LGAN(GA,DA,A,B)。其中,对抗生成损失信息LGAN(GB,DB,A,B)可以表示为:
同理,对抗生成损失信息LGAN(GA,DA,A,B)可以表示为:
其中,Breal表示输入第一图像域生成器的属于第二图像域的第二样本人脸图像,Areal表示输入第二图像域生成器的属于第一图像域的第一样本人脸图像;Breal~Pdata(real)表示属于第二图像域的多个第二样本人脸图像分布;Areal~Pdata(real)表示属于第一图像域的多个第一样本人脸图像分布。
s24:基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练。
考虑到生成器网络只会生成风格一致的假图像,而本申请实施例希望转译后图像的语义是不变的;例如,转换后原来是耳朵的地方还是耳朵,原来是额头的地方还是额头。因此,在利用第二图像域生成器生成假图像,如表示为Bfa ke(即前述提及的第二参考人脸图像),即Bfake是由属于第一领域的真图像Areal生成的B域假图像,那么Bfake再经过第一图像域生成器重建在A域的图像Arec,以确保人脸脱敏后人脸与原人脸保持外观人脸属性,这使得人脸脱敏后的人脸看起来更为自然,从而实现无感的人脸脱敏。进一步的,希望重建后的图像和原图真实图像是相同的,因此可以计算原图与重建图之间的相似性,来衡量人脸转换网络的重建损失。
基于上述对图像重建原理的相关介绍,基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练的具体实施过程可以包括:①利用第二图像域生成器,对第一参考人脸图像进行图像重建处理,得到第二重建人脸图像,第二重建人脸图像中的目标人脸部位被遮挡对象遮挡;并利用第一图像域生成器,对第二参考人脸图像进行图像重建处理,得到第一重建人脸图像,第一重建人脸图像中的目标人脸部位未被遮挡。②基于第一重建人脸图像和相应第一样本人脸图像之间的相似性,第二重建人脸图像和相应第二样本人脸图像之间的相似性,得到人脸转换网络的重建损失信息。其中,两图(如第一重建人脸图像和相应第一样本人脸图像,或者,第二重建人脸图像和相应第二样本人脸图像)的相似性可以用L1(L1 regularization或lasso)范数计算,该L1范数实际是求最优解的过程,那么A域的重建损失可以表示为:
同理,B域的重建损失可以表示为:
③基于重建损失信息和对抗生成损失信息,对人脸转换网络进行训练。
综上所述,对人脸转换网络的重建损失信息和对抗生成损失信息设置权重,可以得到人脸转换网络的总损失信息为:
为便于理解,采用图18所示的流程图,来表示人脸转换网络的总损失信息所包含的各子损失信息的具体生成过程;图18所示流程与前述描述内容是类似的,在此不作赘述。
在得到人脸转换网络的总损失信息后,可以基于该总损失信息对人脸转换网络的模型参数进行优化,以得到优化后的人脸转换网络。值得注意的是,在基于总损失信息对人脸转换网络的模型参数进行优化的过程中,本申请实施例支持根据极大极小零和博弈来训练人脸转换网络(或称为生成对抗网络);具体是依据价值函数G*=argminGmaxDLoss来训练人脸转换网络的。其中,依据价值函数训练人脸转换网络的训练过程可以包括:先固定公式(7)中判别器网络的权值,然后沿着最小化总损失信息的方向更新生成器网络的权值。再固定公式(7)中生成器网络的权值,然后沿着最大化总损失信息的方向更新判别器网络的权值。最后,交替执行上述两个步骤,以实现对人脸转换网络的模型训练。
还值得注意的是,与前述描述的人脸检测网络的训练过程类似的,在本轮对人脸转换网络训练结束后,支持重新从人脸转换数据集合中选取新的样本人脸图像,来对上一轮训练后的人脸转换网络继续进行迭代训练,直至得到性能趋于稳定的人脸转换网络。其中,采用新的样本人脸图像对上一轮训练后的人脸转换网络继续进行训练的具体实施过程,可以参见前述采用样本人脸图像对人脸转换网络进行训练的具体实施过程的相关描述,在此不作赘述。
综上所述,本申请实施例支持采用目标遮挡对象对人脸中的目标人脸部位进行遮挡时,该目标遮挡对象能够适应人脸姿态,灵活地对人脸中的目标人脸部位进行遮挡;这使得遮挡后的人脸仍然能够保留原人脸的人脸外观属性,如原人脸的姿态是头部朝上,那么该目标遮挡对象的形状能够适应人脸姿态进行变化,使得变化形状后的目标遮挡对象能够与人脸的姿态进行很好地匹配,从而在去除人脸中的敏感信息(如五官等能够识别出人脸的信息)的同时,确保人脸基本不形成修改痕迹,保持遮挡后的人脸的和谐美观和自然性,提供给目标对象一种无感的人脸脱敏效果。
上述详细阐述了本申请实施例的方法,为了便于更好地实施本申请实施例的上述方法,相应地,下面提供了本申请实施例的装置。
图19示出了本申请一个示例性实施例提供的一种图像处理装置的结构示意图,该图像处理装置可以是运行于计算设备中的一个计算机程序(包括程序代码);该图像处理装置可以用于执行图3及图11所示的方法实施例中的部分或全部步骤;该装置包括如下单元:
显示单元1901,用于显示图像编辑界面,图像编辑界面中显示有人脸;
处理单元1902,用于采用目标遮挡对象遮挡人脸中的目标人脸部位;其中,被遮挡后的人脸保留原人脸的人脸外观属性。
在一种实现方式中,一个遮挡对象对应人脸的一个或多个人脸部位;不同遮挡对象对应的人脸部位相同或不同;
人脸外观属性包括:头部朝向,视线,表情,穿戴以及性别。
在一种实现方式中,处理单元1902,还用于:
接收针对人脸的遮挡触发操作;
其中,遮挡触发操作包括以下任一种:针对图像编辑界面中的部位去除选项的触发操作,在图像编辑界面中执行的手势操作,在图像编辑界面中的语音信号输入操作,或者,目标应用程序静默检测到目标图像中包含人脸的操作。
在一种实现方式中,遮挡触发操作为:目标应用程序静默检测到目标图像中包含人脸的操作;处理单元1902,还用于:
输出遮挡提示信息,遮挡提示信息用于指示遮挡人脸中的目标人脸部位;
响应于针对遮挡提示信息的确认操作,触发执行采用目标遮挡对象遮挡人脸中的目标人脸部位的步骤。
在一种实现方式中,遮挡提示信息显示于提示窗口中,提示窗口中还包括目标人脸部位的部位标识和部位刷新组件;处理单元1902,还用于:
当部位刷新组件被触发时,在提示窗口中输出人脸中除目标人脸部位的候选人脸部位的目标部位标识;
响应于针对目标部位标识的确认操作,采用候选人脸部位对应的遮挡对象,遮挡候选人脸部位。
在一种实现方式中,处理单元1902,还用于:
显示对象选择界面,对象选择界面中包含目标人脸部位对应的一个或多个候选遮挡对象;不同候选遮挡对象的对象样式不同;
响应于对象选择操作,从一个或多个候选遮挡对象中选择目标遮挡样式的目标遮挡对象。
在一种实现方式中,图像处理方法应用于目标应用场景,目标应用场景包括以下至少一个:训练图像回传场景和车载场景;
目标应用场景为所述车载场景时,处理单元1902,还用于:
显示人脸留存提示信息,人脸留存提示信息用于指示是否备份未遮挡目标人脸部位的人脸;
响应于针对人脸留存提示信息的确认操作,显示留存通知信息,留存通知信息中包含未遮挡目标人脸部位的人脸的留存地址信息。
在一种实现方式中,图像编辑界面中显示的人脸属于目标图像,目标图像显示于图像编辑界面中;
处理单元1902用于采用目标遮挡对象遮挡人脸中的目标人脸部位时,具体用于:
获取训练好的人脸检测网络,并调用人脸检测网络对目标图像进行人脸识别处理,得到目标图像中包含人脸的人脸区域;
对目标图像进行区域裁剪,得到目标图像对应的人脸图像,人脸图像中包含目标图像中的人脸;
获取训练好的人脸转换网络,并调用人脸转换网络对人脸图像进行人脸转换处理,得到转换后的人脸图像,转换后的人脸图像中的目标人脸部位被目标遮挡对象遮挡;
采用转换后的人脸图像替换目标图像中的人脸区域,得到新的目标图像。
在一种实现方式中,人脸检测网络的训练过程包括:
获取人脸检测数据集合,人脸检测数据集合中包含至少一个样本图像和各样本图像对应的人脸标注信息,人脸标注信息用于标注相应样本图像中的人脸所在区域;
从人脸检测数据集合中选取第i个样本图像,并利用人脸检测网络对第i个样本图像进行多尺度特征处理,得到不同尺度的特征图和各特征图对应的人脸预测信息,人脸预测信息用于指示相应特征图中预测得到的人脸所在区域;i为正整数;
基于不同尺度的特征图,各特征图对应的人脸预测信息和第i个样本图像对应的人脸标注信息,对人脸检测网络进行训练,得到训练后的人脸检测网络;
重新从人脸检测数据集合中选择第i+1个样本图像,并采用第i+1个样本图像对训练后的人脸检测网络进行迭代训练,直至人脸检测模型趋于稳定为止。
在一种实现方式中,人脸转换网络中包含第一图像域生成器,第一图像域判别器,第二图像域生成器和第二图像域判别器;人脸转换网络的训练过程包括:
获取人脸转换数据集合,人脸转换数据集合中包含属于第一图像域的多个第一样本人脸图像,和属于第二图像域的多个第二样本人脸图像;第一样本人脸图像中的目标人脸部位未被遮挡,第二样本人脸图像中的目标人脸部位被遮挡;
利用第一图像域生成器,对第二样本人脸图像进行图像生成处理,得到第一参考人脸图像,第一参考人脸图像中的目标人脸部位未被遮挡;并利用第二图像域生成器,对第一样本人脸图像进行图像生成处理,得到第二参考人脸图像,第二参考人脸图像中的目标人脸部位被遮挡对象遮挡;
利用第一图像域判别器,对第一参考人脸图像进行图像判别处理,以及利用第二图像域判别器,对第二参考人脸图像进行图像判别处理,得到人脸转换网络的对抗生成损失信息;
基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练。
在一种实现方式中,处理单元1902,用于基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练时,具体用于:
利用第二图像域生成器,对第一参考人脸图像进行图像重建处理,得到第二重建人脸图像,第二重建人脸图像中的目标人脸部位被遮挡对象遮挡;并利用第一图像域生成器,对第二参考人脸图像进行图像重建处理,得到第一重建人脸图像,第一重建人脸图像中的目标人脸部位未被遮挡;
基于第一重建人脸图像和相应第一样本人脸图像之间的相似性,第二重建人脸图像和相应第二样本人脸图像之间的相似性,得到人脸转换网络的重建损失信息;
基于重建损失信息和对抗生成损失信息,对人脸转换网络进行训练。
根据本申请的一个实施例,图19所示的图像处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该图像处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3及图11所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图19中所示的图像处理装置,以及来实现本申请实施例的图像处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例中,在图像编辑界面中显示有人脸;在目标对象(如任一用户)具有人脸脱敏需求时,支持采用目标遮挡对象自动遮挡该人脸中的目标人脸部位(如鼻子部位和嘴巴部位),以实现对人脸的脱敏。在上述方案中,采用目标遮挡对象对人脸中的目标人脸部位进行遮挡时,该目标遮挡对象能够适应人脸姿态,灵活地对人脸中的目标人脸部位进行遮挡;这使得遮挡后的人脸仍然能够保留原人脸的人脸外观属性,如原人脸的姿态是头部朝上,那么该目标遮挡对象的形状能够适应人脸姿态进行变化,使得变化形状后的目标遮挡对象能够与人脸的姿态进行很好地匹配,从而在去除人脸中的敏感信息(如五官等能够识别出人脸的信息)的同时,确保人脸基本不形成修改痕迹,保持遮挡后的人脸的和谐美观和自然性,提供给目标对象一种无感的人脸脱敏效果。
图20示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。请参见图20,该计算机设备包括处理器2001、通信接口2002以及计算机可读存储介质2003。其中,处理器2001、通信接口2002以及计算机可读存储介质2003可通过总线或者其它方式连接。其中,通信接口2002用于接收和发送数据。计算机可读存储介质2003可以存储在计算机设备的存储器中,计算机可读存储介质2003用于存储计算机程序,计算机程序包括程序指令,处理器2001用于执行计算机可读存储介质2003存储的程序指令。处理器2001(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了计算机设备的处理系统。并且,在该存储空间中还存放了适于被处理器2001加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一个实施例中,该计算机可读存储介质中存储有一条或多条指令;由处理器2001加载并执行计算机可读存储介质中存放的一条或多条指令,以实现上述图像处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器2001加载并执行如下步骤:
显示图像编辑界面,图像编辑界面中显示有人脸;
采用目标遮挡对象遮挡人脸中的目标人脸部位;其中,被遮挡后的人脸保留原人脸的人脸外观属性。
在一种实现方式中,一个遮挡对象对应人脸的一个或多个人脸部位;不同遮挡对象对应的人脸部位相同或不同;
人脸外观属性包括:头部朝向,视线,表情,穿戴以及性别。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器2001加载并还执行如下步骤:
接收针对人脸的遮挡触发操作;
其中,遮挡触发操作包括以下任一种:针对图像编辑界面中的部位去除选项的触发操作,在图像编辑界面中执行的手势操作,在图像编辑界面中的语音信号输入操作,或者,目标应用程序静默检测到目标图像中包含人脸的操作。
在一种实现方式中,遮挡触发操作为:目标应用程序静默检测到目标图像中包含人脸的操作;计算机可读存储介质中的一条或多条指令由处理器2001加载并还执行如下步骤:
输出遮挡提示信息,遮挡提示信息用于指示遮挡人脸中的目标人脸部位;
响应于针对遮挡提示信息的确认操作,触发执行采用目标遮挡对象遮挡人脸中的目标人脸部位的步骤。
在一种实现方式中,遮挡提示信息显示于提示窗口中,提示窗口中还包括目标人脸部位的部位标识和部位刷新组件;计算机可读存储介质中的一条或多条指令由处理器2001加载并还执行如下步骤:
当部位刷新组件被触发时,在提示窗口中输出人脸中除目标人脸部位的候选人脸部位的目标部位标识;
响应于针对目标部位标识的确认操作,采用候选人脸部位对应的遮挡对象,遮挡候选人脸部位。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器2001加载并还执行如下步骤:
显示对象选择界面,对象选择界面中包含目标人脸部位对应的一个或多个候选遮挡对象;不同候选遮挡对象的对象样式不同;
响应于对象选择操作,从一个或多个候选遮挡对象中选择目标遮挡样式的目标遮挡对象。
在一种实现方式中,图像处理方法应用于目标应用场景,目标应用场景包括以下至少一个:训练图像回传场景和车载场景;
目标应用场景为所述车载场景时,计算机可读存储介质中的一条或多条指令由处理器2001加载并还执行如下步骤:
显示人脸留存提示信息,人脸留存提示信息用于指示是否备份未遮挡目标人脸部位的人脸;
响应于针对人脸留存提示信息的确认操作,显示留存通知信息,留存通知信息中包含未遮挡目标人脸部位的人脸的留存地址信息。
在一种实现方式中,图像编辑界面中显示的人脸属于目标图像,目标图像显示于图像编辑界面中;
计算机可读存储介质中的一条或多条指令由处理器2001加载并在执行采用目标遮挡对象遮挡人脸中的目标人脸部位时,具体执行如下步骤:
获取训练好的人脸检测网络,并调用人脸检测网络对目标图像进行人脸识别处理,得到目标图像中包含人脸的人脸区域;
对目标图像进行区域裁剪,得到目标图像对应的人脸图像,人脸图像中包含目标图像中的人脸;
获取训练好的人脸转换网络,并调用人脸转换网络对人脸图像进行人脸转换处理,得到转换后的人脸图像,转换后的人脸图像中的目标人脸部位被目标遮挡对象遮挡;
采用转换后的人脸图像替换目标图像中的人脸区域,得到新的目标图像。
在一种实现方式中,人脸检测网络的训练过程包括:
获取人脸检测数据集合,人脸检测数据集合中包含至少一个样本图像和各样本图像对应的人脸标注信息,人脸标注信息用于标注相应样本图像中的人脸所在区域;
从人脸检测数据集合中选取第i个样本图像,并利用人脸检测网络对第i个样本图像进行多尺度特征处理,得到不同尺度的特征图和各特征图对应的人脸预测信息,人脸预测信息用于指示相应特征图中预测得到的人脸所在区域;i为正整数;
基于不同尺度的特征图,各特征图对应的人脸预测信息和第i个样本图像对应的人脸标注信息,对人脸检测网络进行训练,得到训练后的人脸检测网络;
重新从人脸检测数据集合中选择第i+1个样本图像,并采用第i+1个样本图像对训练后的人脸检测网络进行迭代训练,直至人脸检测模型趋于稳定为止。
在一种实现方式中,人脸转换网络中包含第一图像域生成器,第一图像域判别器,第二图像域生成器和第二图像域判别器;人脸转换网络的训练过程包括:
获取人脸转换数据集合,人脸转换数据集合中包含属于第一图像域的多个第一样本人脸图像,和属于第二图像域的多个第二样本人脸图像;第一样本人脸图像中的目标人脸部位未被遮挡,第二样本人脸图像中的目标人脸部位被遮挡;
利用第一图像域生成器,对第二样本人脸图像进行图像生成处理,得到第一参考人脸图像,第一参考人脸图像中的目标人脸部位未被遮挡;并利用第二图像域生成器,对第一样本人脸图像进行图像生成处理,得到第二参考人脸图像,第二参考人脸图像中的目标人脸部位被遮挡对象遮挡;
利用第一图像域判别器,对第一参考人脸图像进行图像判别处理,以及利用第二图像域判别器,对第二参考人脸图像进行图像判别处理,得到人脸转换网络的对抗生成损失信息;
基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器2001加载并在执行基于对抗生成损失信息,第一参考人脸图像和第二参考人脸图像,对人脸转换网络进行训练时,具体执行如下步骤:
利用第二图像域生成器,对第一参考人脸图像进行图像重建处理,得到第二重建人脸图像,第二重建人脸图像中的目标人脸部位被遮挡对象遮挡;并利用第一图像域生成器,对第二参考人脸图像进行图像重建处理,得到第一重建人脸图像,第一重建人脸图像中的目标人脸部位未被遮挡;
基于第一重建人脸图像和相应第一样本人脸图像之间的相似性,第二重建人脸图像和相应第二样本人脸图像之间的相似性,得到人脸转换网络的重建损失信息;
基于重建损失信息和对抗生成损失信息,对人脸转换网络进行训练。
基于同一发明构思,本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中图像处理方法解决问题的原理和有益效果相似,可以参见方法的实施的原理和有益效果,为简洁描述,在这里不再赘述。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该终端执行上述图像处理方法。
本领域普通技术对象可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术对象可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据处理设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术对象在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (15)
1.一种图像处理方法,其特征在于,包括:
显示图像编辑界面,所述图像编辑界面中显示有人脸;
采用目标遮挡对象遮挡所述人脸中的目标人脸部位;其中,被遮挡后的人脸保留原人脸的人脸外观属性。
2.如权利要求1所述的方法,其特征在于,一个遮挡对象对应人脸的一个或多个人脸部位;不同遮挡对象对应的人脸部位相同或不同;
所述人脸外观属性包括:头部朝向,视线,表情,穿戴以及性别。
3.如权利要求1所述的方法,其特征在于,所述采用目标遮挡对象遮挡所述人脸中的目标人脸部位之前,还包括:
接收针对所述人脸的遮挡触发操作;
其中,所述遮挡触发操作包括以下任一种:针对所述图像编辑界面中的部位去除选项的触发操作,在所述图像编辑界面中执行的手势操作,在所述图像编辑界面中的语音信号输入操作,或者,目标应用程序静默检测到目标图像中包含人脸的操作。
4.如权利要求3所述的方法,其特征在于,所述遮挡触发操作为:目标应用程序静默检测到目标图像中包含人脸的操作;所述方法还包括:
输出遮挡提示信息,所述遮挡提示信息用于指示遮挡所述人脸中的目标人脸部位;
响应于针对所述遮挡提示信息的确认操作,触发执行所述采用目标遮挡对象遮挡所述人脸中的目标人脸部位的步骤。
5.如权利要求4所述的方法,其特征在于,所述遮挡提示信息显示于提示窗口中,所述提示窗口中还包括所述目标人脸部位的部位标识和部位刷新组件;所述方法还包括:
当所述部位刷新组件被触发时,在所述提示窗口中输出所述人脸中除所述目标人脸部位的候选人脸部位的目标部位标识;
响应于针对所述目标部位标识的确认操作,采用所述候选人脸部位对应的遮挡对象,遮挡所述候选人脸部位。
6.如权利要求1或3所述的方法,其特征在于,所述方法还包括:
显示对象选择界面,所述对象选择界面中包含所述目标人脸部位对应的一个或多个候选遮挡对象;不同候选遮挡对象的对象样式不同;
响应于对象选择操作,从所述一个或多个候选遮挡对象中选择目标遮挡样式的目标遮挡对象。
7.如权利要求1所述的方法,其特征在于,所述方法应用于目标应用场景,所述目标应用场景包括以下至少一个:训练图像回传场景和车载场景;
所述目标应用场景为所述车载场景时,所述方法还包括:
显示人脸留存提示信息,所述人脸留存提示信息用于指示是否备份未遮挡目标人脸部位的人脸;
响应于针对所述人脸留存提示信息的确认操作,显示留存通知信息,所述留存通知信息中包含未遮挡目标人脸部位的人脸的留存地址信息。
8.如权利要求1所述的方法,其特征在于,所述图像编辑界面中显示的所述人脸属于目标图像,所述目标图像显示于所述图像编辑界面中;
所述采用目标遮挡对象遮挡所述人脸中的目标人脸部位,包括:
获取训练好的人脸检测网络,并调用所述人脸检测网络对所述目标图像进行人脸识别处理,得到所述目标图像中包含人脸的人脸区域;
对所述目标图像进行区域裁剪,得到所述目标图像对应的人脸图像,所述人脸图像中包含所述目标图像中的人脸;
获取训练好的人脸转换网络,并调用所述人脸转换网络对所述人脸图像进行人脸转换处理,得到转换后的人脸图像,转换后的所述人脸图像中的目标人脸部位被目标遮挡对象遮挡;
采用转换后的所述人脸图像替换所述目标图像中的人脸区域,得到新的目标图像。
9.如权利要求8所述的方法,其特征在于,所述人脸检测网络的训练过程包括:
获取人脸检测数据集合,所述人脸检测数据集合中包含至少一个样本图像和各样本图像对应的人脸标注信息,所述人脸标注信息用于标注相应样本图像中的人脸所在区域;
从所述人脸检测数据集合中选取第i个样本图像,并利用所述人脸检测网络对所述第i个样本图像进行多尺度特征处理,得到不同尺度的特征图和各特征图对应的人脸预测信息,所述人脸预测信息用于指示相应特征图中预测得到的人脸所在区域;i为正整数;
基于不同尺度的特征图,各特征图对应的人脸预测信息和所述第i个样本图像对应的人脸标注信息,对所述人脸检测网络进行训练,得到训练后的人脸检测网络;
重新从所述人脸检测数据集合中选择第i+1个样本图像,并采用所述第i+1个样本图像对所述训练后的人脸检测网络进行迭代训练,直至所述人脸检测模型趋于稳定为止。
10.如权利要求8所述的方法,其特征在于,所述人脸转换网络中包含第一图像域生成器,第一图像域判别器,第二图像域生成器和第二图像域判别器;所述人脸转换网络的训练过程包括:
获取人脸转换数据集合,所述人脸转换数据集合中包含属于第一图像域的多个第一样本人脸图像,和属于第二图像域的多个第二样本人脸图像;第一样本人脸图像中的目标人脸部位未被遮挡,第二样本人脸图像中的目标人脸部位被遮挡;
利用所述第一图像域生成器,对第二样本人脸图像进行图像生成处理,得到第一参考人脸图像,所述第一参考人脸图像中的目标人脸部位未被遮挡;并利用所述第二图像域生成器,对第一样本人脸图像进行图像生成处理,得到第二参考人脸图像,所述第二参考人脸图像中的目标人脸部位被遮挡对象遮挡;
利用所述第一图像域判别器,对所述第一参考人脸图像进行图像判别处理,以及利用所述第二图像域判别器,对所述第二参考人脸图像进行图像判别处理,得到所述人脸转换网络的对抗生成损失信息;
基于所述对抗生成损失信息,所述第一参考人脸图像和所述第二参考人脸图像,对所述人脸转换网络进行训练。
11.如权利要求10所述的方法,其特征在于,所述基于所述对抗生成损失信息,所述第一参考人脸图像和所述第二参考人脸图像,对所述人脸转换网络进行训练,包括:
利用所述第二图像域生成器,对所述第一参考人脸图像进行图像重建处理,得到第二重建人脸图像,所述第二重建人脸图像中的目标人脸部位被遮挡对象遮挡;并利用所述第一图像域生成器,对所述第二参考人脸图像进行图像重建处理,得到第一重建人脸图像,所述第一重建人脸图像中的目标人脸部位未被遮挡;
基于所述第一重建人脸图像和相应第一样本人脸图像之间的相似性,所述第二重建人脸图像和相应第二样本人脸图像之间的相似性,得到所述人脸转换网络的重建损失信息;
基于所述重建损失信息和所述对抗生成损失信息,对所述人脸转换网络进行训练。
12.一种图像处理装置,其特征在于,包括:
显示单元,用于显示图像编辑界面,所述图像编辑界面中显示有人脸;
处理单元,用于采用目标遮挡对象遮挡所述人脸中的目标人脸部位;其中,被遮挡后的人脸保留原人脸的人脸外观属性。
13.一种计算机设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-11任一项所述的图像处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机应用程序,所述计算机应用程序被执行时,实现如权利要求1-11任一项所述的图像处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1-11任一项所述的图像处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310106891.8A CN116977485A (zh) | 2023-01-16 | 2023-01-16 | 一种图像处理方法、装置、设备、介质及程序产品 |
PCT/CN2023/127613 WO2024152659A1 (zh) | 2023-01-16 | 2023-10-30 | 一种图像处理方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310106891.8A CN116977485A (zh) | 2023-01-16 | 2023-01-16 | 一种图像处理方法、装置、设备、介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116977485A true CN116977485A (zh) | 2023-10-31 |
Family
ID=88477284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310106891.8A Pending CN116977485A (zh) | 2023-01-16 | 2023-01-16 | 一种图像处理方法、装置、设备、介质及程序产品 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116977485A (zh) |
WO (1) | WO2024152659A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016088583A1 (ja) * | 2014-12-04 | 2016-06-09 | ソニー株式会社 | 情報処理装置および情報処理方法、並びにプログラム |
CN111523480B (zh) * | 2020-04-24 | 2021-06-18 | 北京嘀嘀无限科技发展有限公司 | 一种面部遮挡物的检测方法、装置、电子设备及存储介质 |
CN112257552B (zh) * | 2020-10-19 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112258388A (zh) * | 2020-11-02 | 2021-01-22 | 公安部第三研究所 | 一种公共安全视图脱敏测试数据生成方法、系统以及存储介质 |
CN115272534B (zh) * | 2022-07-29 | 2024-02-02 | 中国电信股份有限公司 | 人脸图像保护方法、保护装置、电子设备和可读存储介质 |
-
2023
- 2023-01-16 CN CN202310106891.8A patent/CN116977485A/zh active Pending
- 2023-10-30 WO PCT/CN2023/127613 patent/WO2024152659A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024152659A9 (zh) | 2024-08-22 |
WO2024152659A1 (zh) | 2024-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113179368B (zh) | 一种车辆定损的数据处理方法、装置、处理设备及客户端 | |
CN111178183B (zh) | 人脸检测方法及相关装置 | |
CN111310562B (zh) | 基于人工智能的车辆驾驶风险管控方法及其相关设备 | |
CN112581567B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US11798297B2 (en) | Control device, system and method for determining the perceptual load of a visual and dynamic driving scene | |
EP4042318A1 (en) | System and method of generating a video dataset with varying fatigue levels by transfer learning | |
CN110476141A (zh) | 视线跟踪方法及用于执行该方法的用户终端 | |
CN109766755A (zh) | 人脸识别方法及相关产品 | |
CN112200129A (zh) | 一种基于深度学习的三维目标检测方法、装置及终端设备 | |
CN102902965B (zh) | 实现多目标跟踪的视频图像数据结构化描述处理的方法 | |
JP2020127194A (ja) | コンピュータシステムおよびプログラム | |
CN112037142A (zh) | 一种图像去噪方法、装置、计算机及可读存储介质 | |
CN117252947A (zh) | 图像处理方法、装置、计算机、存储介质及程序产品 | |
KR102364822B1 (ko) | 가려진 영역 복원 방법 및 장치 | |
CN117237547B (zh) | 图像重建方法、重建模型的处理方法和装置 | |
US11823433B1 (en) | Shadow removal for local feature detector and descriptor learning using a camera sensor sensitivity model | |
CN116205726B (zh) | 一种贷款风险预测方法、装置、电子设备及存储介质 | |
CN117078942A (zh) | 上下文感知的指称图像分割方法、系统、设备及存储介质 | |
CN116977484A (zh) | 图像脱敏方法、装置、电子设备及存储介质 | |
CN110956097A (zh) | 遮挡人体提取方法及模块、场景转换方法及装置 | |
CN116977485A (zh) | 一种图像处理方法、装置、设备、介质及程序产品 | |
CN110458052A (zh) | 基于增强现实的目标对象识别方法、装置、设备、介质 | |
CN112183284B (zh) | 一种安全信息验证、代驾接单控制方法和装置 | |
CN116977157A (zh) | 一种图像处理方法、装置、设备、介质及程序产品 | |
CN117441195A (zh) | 纹理补全 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40098099 Country of ref document: HK |