CN112258388A - 一种公共安全视图脱敏测试数据生成方法、系统以及存储介质 - Google Patents
一种公共安全视图脱敏测试数据生成方法、系统以及存储介质 Download PDFInfo
- Publication number
- CN112258388A CN112258388A CN202011205208.9A CN202011205208A CN112258388A CN 112258388 A CN112258388 A CN 112258388A CN 202011205208 A CN202011205208 A CN 202011205208A CN 112258388 A CN112258388 A CN 112258388A
- Authority
- CN
- China
- Prior art keywords
- view
- face
- desensitization
- sensitive
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 157
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012360 testing method Methods 0.000 title claims abstract description 50
- 238000000605 extraction Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 47
- 238000013135 deep learning Methods 0.000 claims description 22
- 230000001815 facial effect Effects 0.000 claims description 11
- 238000013136 deep learning model Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 19
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000004088 simulation Methods 0.000 abstract description 2
- 238000011076 safety test Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 26
- 238000012545 processing Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 210000000887 face Anatomy 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 239000011521 glass Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 210000004709 eyebrow Anatomy 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 241000272814 Anser sp. Species 0.000 description 1
- 241000353135 Psenopsis anomala Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 231100000279 safety data Toxicity 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种公共安全视图脱敏测试数据生成方法、系统以及存储介质,本方案首采用非敏感人脸视图样本通过基于深度学习样本伪装方法对敏感对象人脸视图脱敏,并保留真实视图的识别特征,伪装为非敏感人脸视图。本方案与传统的加密、去内容等脱敏技术不同,其通过保留原始(人)脸部图像中部分关注的识别特征,利用深度神经网络,将非关注区域脸部数据替换为公开样本的人脸数据,从而实现高仿真的视图数据脱敏。利用本方案可以批量化快速生成脱敏测试数据,在不失去应用价值的前提下,批量共享和传输数据,并有效防止关键敏感数据的泄露。此方法可广泛用于公共安全测试数据生成和警务人工智能远程辅助系统。
Description
技术领域
本发明涉及属于人工智能和信息安全领域,具体涉及公共安全视图脱敏技术。
背景技术
在公共安全大数据应用中,通过采集、汇聚、共享所得到的数据信息,经常包含着需要在信息平台间做交换和分析的敏感信息。为了既可以不影响使用,又可以有效保护此类信息。脱敏技术成为业内研究的高热信息安全技术之一。脱敏技术是一种广泛应用于关键信息和重要资料保护的信息安全技术。它主要包括替换、置乱、均值化、反推断、偏移、加密、部分屏蔽等方法。在视频图像应用方面,敏感信息主要来自于特定的任务、场景等要素中,目前最常用的脱敏技术是数据加密。但是,由于加密对采集终端、中台数据处理、后台软硬件平台都有相当高的要求和复杂度,这会给分布式大数据信息系统带来太多额外的开销,尤其是在分布式系统采用人工智能算法进行机器学习和分析数据的阶段,采用加密方式的脱敏技术将会大大降低系统效率。因此,需要一种适合视频图像应用的脱敏技术来实现在高仿真还原信息的同时,确保敏感信息的安全。
视频图像中的人脸面部信息脱敏一直是计算机视觉研究中的一个主题。传统的人脸脱敏方法包括掩蔽、模糊化和像素化。掩蔽是指在图像的脸部区域覆盖一个纯色几何图形,从而消除脸部信息。模糊则是将图像的脸部位置进行多类型模糊化处理,使得只见其形,部件其貌。像素化是对面部区域进行各种平滑或下采样操作,使得在图像脸部形成“马赛克”效果。以上方法直接覆盖了人脸区域,几乎完全消除了面部数据和其他任何围绕人脸移动的物体(如:眼镜)。传统的方法会产生不自然的图像,并丢失所有的面部信息,这些都不是很好的视频图像脱敏方案。
近年来,随着计算技术的发展,人工智能技术已经在多个技术交叉领域崭露头角。其中,新兴的深度伪造技术为人脸面部信息的保存和脱敏提供了一个较为理想的解决方案。样本伪装是一种深度伪造技术,它可以将两个不同人的脸,通过深度神经网络训练提取特征信息,并进一步形成人脸样本的重构。使用样本伪装技术,一方面,可以消除原有的人物视图中的脸部信息,达到脱敏的效果;另一方面,由于完整地保留了包括表情、肤色、甚至神态等特征,在公共安全应用中,比传统方法更可以显现出面部信息的价值,从而可用于办案资料的共享学习和公开化的人工智能模型训练。
发明内容
针对现有公共安全大数据应用系统中视频图像中敏感信息脱敏技术所面临的问题,需要一种新的视频图像中敏感信息脱敏方案。
为此,本发明的目的在于提供一种公共安全视图脱敏测试数据生成方法,并据此进一步提供一种公共安全视图脱敏测试数据生成系统,以及存储介质。本方案能够实现高效生成视图脱敏测试数据,其既能实现敏感人脸视图的脱敏处理,又具备保有除敏感人脸部分以外的其他信息。
为了达到上述目的,本发明提供的公共安全视图脱敏测试数据生成方法,采用非敏感人脸视图样本通过基于深度学习样本伪装方法对敏感对象人脸视图脱敏,并保留真实视图的识别特征,伪装为非敏感人脸视图。
进一步地,所述的非敏感人脸视图样本的样本来源于开源数据集或征得同意并使用的真人视图;且样本总集至少具备:多脸型条件、多肤色条件、多年龄段条件。
进一步地,所述的样本伪装方法包含:
(1)采集脱敏对象A的视图文件和开源对象B的视图文件;
(2)采用相同的人脸特征提取方法,分别提取对象A视图和对象B视图中的脸部特征a和b;
(3)采用深度学习模型针对对象A和对象B进行特征提取和脸部重构训练;
(4)使用训练完成的学习模型进行样本伪装,生成融合对象A和B特征的脱敏视图文件。
进一步地,所述步骤(1)中的脱敏对象A和开源对象B的视图文件的采集方式,采用对象多角度人脸图片或从视频文件中提取人脸图像帧文件。
进一步地,所述步骤(2)中人脸特征提取方法,包括:
脸部多区域选取;
选取区域的初始化预测;
分段特征提取和优化;
组合优化;
特征图像重组。
进一步地,所述步骤(3)中的特征提取和脸部重构方法包括:
(31)针对脱敏对象A和非敏感对象B的视图文件使用相同的人脸特征提取编码器进行特征提取训练;
(32)将训练生成的人脸特征a采用第一人脸重构解码器重构对象A的人脸图片;
(33)将训练生成的人脸特征b采用第二人脸重构解码器重构对象B的人脸图片。
进一步地,所述步骤(4)中样本伪装,包括以下步骤:
(41)针对非敏感对象B的视图文件,利用训练完成的特征提取编码器生成特征b;
(42)基于特征b采用敏感对象A的训练完成的重构解码器重构脱敏对象A视图文件,生成融合对象A和B的脱敏图片。
进一步的,所述公共安全视图脱敏测试数据生成方法还包括批量生成测试数据步骤:
(51)收集脱敏对象视图库和非敏感视图库;
(52)从脱敏对象视图库中自动选取脱敏对象视图1个,使用1:N比对模型,从非敏感视图库中选取相似度较高的非敏感视图对象集;
(52)使用基于深度学习样本伪装方法,自动生成脱敏视图文件;
(53)反复操作直到针对所有的脱敏对象视图,完成脱敏视图文件的生成;
(54)收集生成的脱敏视图文件形成批量化测试样本库;
(55)将脱敏对象原始视图文件与其关联的批量化生成的脱敏视图文件进行信息安全保护。
进一步地,对于自动生成的脱敏视图文件,采用对象B的特征组件进行拟合比对,删选去除不匹配的视图文件。
为了达到上述目的,本发明提供的公共安全视图脱敏测试数据生成系统,包括视图数据库,基于深度学习的样本伪装模型以及脱敏视图库;
所述视图数据库提供非敏感对象人脸视图样本和敏感对象人脸视图样本;
所述样本伪装模型基于视图数据库提供非敏感对象人脸视图样本和敏感对象人脸视图样本进行特征提取与脸部重构的深度学习;并在深度学习后进行样本伪装,生成融合非敏感对象和敏感对象特征的脱敏视图文件;
所述脱敏视图库收集生成的脱敏视图文件。
进一步地,所述样本伪装模型包括基于深度学习的人脸特征提取编码器,针对敏感对象的第一人脸重构解码器和针对非敏感对象的第二人脸重构解码器;所述人脸特征提取编码器可同时对脱敏对象和非敏感对象进行特征提取训练,并在训练后可分别对脱敏对象和非敏感对象进行特征提取;所述第一人脸重构解码器可基于人脸特征提取编码器针对敏感对象视图提取的特征进行敏感对象人脸图片的重构训练;所述第二人脸重构解码器可基于人脸特征提取编码器针对非敏感对象视图提取的特征进行非敏感对象人脸图片的重构训练;
完成训练的脸特征提取编码器,第一人脸重构解码器和第二人脸重构解码器配合对敏感对象视图进行样本伪装,生成融合非敏感对象和敏感对象特征的脱敏视图文件。
进一步地,所述测试数据生成系统还包括批量待脱敏数据库,所述批量待脱敏数据库与视图数据库和样本伪装模型配合,采用1:N比对方式从视图数据库中选取待敏感对象人脸视图样本和非敏感对象人脸视图样本,以构成待脱敏人脸视图库和待伪装人脸视图库。
为了达到上述目的,本发明提供的存储介质,所述存储介质包括存储的程序,所述程序执行上述的公共安全视图脱敏测试数据生成方法。
本发明提供的方案采用非敏感人脸视图样本,通过基于深度学习的样本伪装技术,实现敏感对象人脸视图脱敏,并伪装为非敏感人脸的视图,其既能实现敏感人脸视图的脱敏处理,又具备保有除敏感人脸部分以外的其他信息(如:眼镜等附属物、表情、发型、轮廓等)的特点,比传统的遮挡、模糊化、像素化等同类脱敏方法有更好的逼真效果,较传统的脱敏方法具有更好的真实性表现,同时保障了脱敏数据的安全性。
再者,本发明提供的方案可以实现大批量敏感视图信息的脱敏处理,并产生批量化的数据生成,在不失去应用价值的前提下,批量共享和传输数据,并有效防止关键敏感数据的泄露;可广泛应用于公共安全数据共享、内容学习,以及机器学习模型的训练,实现脱敏后的视图数据共享、人脸识别相关应用系统开发;可用于公共安全行业中涉及敏感视图内容的人脸脱敏和测试样本数据生成,如可广泛用于公共安全测试数据生成和警务人工智能远程辅助系统。
附图说明
以下结合附图和具体实施方式来进一步说明本发明。
图1为本发明实施案例提供的一种公共安全视图脱敏测试数据的生成方案的原理示例图;
图2为本发明实施案例提供的特征提取与脸部重构深度学习过程示意图;
图3为本发明实施案例提供的人脸特征提取算法功能结构示意图;
图4为本发明实施案例提供的基于深度学习模型的人脸特征提取编码器结构示意图;
图5为本发明实施案例提供的基于深度学习模型的人脸重构解码器结构示意图;
图6为本发明实施案例提供的人脸脱敏重构样本生成过程示意图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
针对公共安全大数据应用系统,本实例给出一种公共安全视图脱敏测试数据的生成方案,该方案在充分利用机器学习算法开展模型训练,增加实战算法的有效性和准确性的同时确保敏感信息不泄露。同时,本方案还能够实现批量化生成脱敏人脸视图。
据此,本方案给出的公共安全视图脱敏测试数据生成方案,采用非敏感人脸视图样本通过基于深度学习样本伪装方法对敏感对象人脸视图脱敏,并保留真实视图的识别特征,伪装为非敏感人脸视图。其通过保留原始(人)脸部图像中部分关注的识别特征,利用深度神经网络,将非关注区域脸部数据替换为公开样本的人脸数据,从而实现高仿真的视图数据脱敏。这样既能实现敏感人脸视图的脱敏处理,又具备保有除敏感人脸部分以外的其他信息的特点,如:眼镜等附属物、表情、发型、轮廓等。
这里的非敏感人脸视图样本,其样本来源于开源数据集或征得同意并使用的真人视图(以下简称开源视图);作为举例,该样本总集具备:多脸型(如鹅蛋脸、瓜子脸、圆脸、正三角形脸、方脸、长形脸)、多肤色(如黄、白、黑、棕)、多年龄段等条件。
进一步地,本方案在具体现实时主要包括如下步骤:
①采集脱敏对象A的视图文件和开源对象B的视图文件;
②采用相同的人脸特征提取方法,分别提取对象A视图文件和对象B视图文件中的脸部特征a和b;
③采用深度学习模型针对对象A视图文件和对象B视图文件进行特征提取和脸部重构训练;
④使用训练完成的深度学习模型进行样本伪装,生成融合对象A和B特征的脱敏视图文件。
其中,本方案中脱敏对象A和开源对象B的视图文件的采集方式,采用对象多角度人脸图片或从视频文件中提取人脸图像帧文件,由此保证视图文件的有效性。
本方案中在对对象A视图文件和对象B视图文件进行特征提取时,可通过如下步骤来实现:①输入;②脸部多区域选取;③选取区域的初始化预测;④分段特征提取和优化;⑤组合优化;⑥结合步骤⑤和步骤③的结果进行特征图像重组。如此能够快速准确的提取对象A视图文件和对象B视图文件中的脸部特征a和b。
本方案中在进行特征提取和脸部重构训练时,通过如下步骤来实现:
①对脱敏对象A和非敏感对象B的视图文件使用相同的人脸特征提取编码器进行特征提取训练;
②将训练生成的人脸特征a采用第一人脸重构解码器重构对象A的人脸图片,完成重构训练;
③将训练生成的人脸特征b采用第二人脸重构解码器重构对象B的人脸图片,完成重构训练。
这里步骤②和③中采用的第一人脸重构解码器和第二人脸重构解码器不同,两者分别对特征a和特征b进行训练,通过不同的解码器可以极大的相似重构原A和B的图像,达到针对性的优化效果,为下一步图像伪装融合提供重构模型基础。
本方案在完成特征提取和脸部重构训练后,通过如下步骤完成样本伪装:
①采用非敏感对象B和训练完成的编码器生成特征b;即针对非敏感对象B的视图文件,利用训练完成的特征提取编码器生成特征b。
②将特征b输入敏感对象A的训练完成的解码器;
③基于特征b采用敏感对象A的训练完成的重构解码器重构脱敏对象A视图文件,生成融合对象A和B特征的脱敏图片。
由于特征b与特征a采用相同的编码器提取特征,故特征a和特征b的数据如同关系型数据库的表项对应值一样,具有极高的一致性,故而,本方案在将特别b输入敏感对象A的训练完成的解码器后,可以形成相似度很高的还原混合图像,由于主要特征皆为B的特征,脱敏也因此形成。
经过如此样本伪装步骤形成的脱敏图片具备掩蔽、模糊化、像素化等传统人脸视图脱敏技术所不具备的逼真感,如包括:脸部附属物、表情、肤色等的展现。本方案中针对对象A、对象B的图像采用相同的编码器提取特征值,其生成的特征a、b具有很好的一致性;在此基础上,本方案进一步在训练成熟A的重构模型中,采用输入特征b的方法,这样既可以极大保留A的图像的未经处理部分的像素,如获得原本的肤色、发型、外轮廓、表情等,又可以将重要特征部位如眼睛、鼻子、嘴巴、眉毛等特征进行替换,达到换脸的效果。该方法较上述传统方法,具有极好的本体还原性,对于公共安全视图资料的脱敏共享、第三方协助分析都极具实用价值。
在上述视图脱敏测试数据生成方案的基础上,本实例进一步给出批量化视图脱敏测试数据的生成方案。该批量生成方案的实施过程如下(可结合图1):
①收集脱敏对象人脸视图库和非敏感人脸视图库。
②从脱敏对象人脸视图库中自动选取脱敏对象1个,使用1:N人脸比对模型,选取相似度较高的非敏感人脸对象集。
这里与选取的脱敏对象人脸进行比对的非敏感对象人脸,采用1:N比对方式选取,其中N大于500,并选择比对算法阈值排名前10的对象进行批量训练。作为举例,其可采用相应人脸识别系统来实现,但并不限于此。
③使用本方案提供的样本伪装方法,自动生成脱敏视图文件。
本步骤中针对自动生成的脱敏视图文件,采用对象B的特征组件进行拟合比对,删选去除脸型及组件不匹配的视图文件。
这里的对象B的特征组件,主要由编码器生成,即为一组重要的人脸识别数据,其包含了主要识别点位的像素等信息。
针对需要考虑对象的脸部肤色、器官大小、老化程度等问题,本方案通过删选可行的重构对象组件,并进行颜色、大小和位置的优化匹配。如此可以优化图像中重要组件的重构解码匹配度,较粗放的重构具有明显的逼真感提升。
④反复操作直到针对所有的脱敏对象人脸,都完成了脱敏视图文件的生成。
⑤收集脱敏视图文件形成批量化测试样本库。
⑥对脱敏对象原始视图文件与其关联的批量化生成的脱敏视图文件进行信息安全保护。
这里的脱敏对象原始视图文件的信息安全保护方式,采用加密方式存储,并设置访问权限,并采用哈希算法生成哈希值,用于关联其生成的脱敏视图文件;
进一步地,本方案针对生成后的批量脱敏视图文件,采用测试专用人脸视图库保存,该专用人脸是图库中的文件采用包含源文件的哈希值方式关联脱敏对象人脸视图文件,并通过采用文件访问控制方式来限制对测试脱敏文件的访问,如此进一步保证数据文件的安全性。
本实例给出的公共安全视图脱敏测试数据生成方案,在具体应用时,可以以相应的软件系统形式来呈现,实现大批量敏感视图信息的脱敏处理,形成批量化生成公共安全视图脱敏测试数据。
具体的,本实例针对上述的公共安全视图脱敏测试数据生成方案,构成相应的软件程序,该软件程序被配置成执行本实例中的公共安全视图脱敏测试数据生成方法,同时存储于相应的存储介质中,以供处理器调取执行。
作为举例,本实例给出一种公共安全视图脱敏测试数据生成系统的构成示例。
结合图1所示,本公共安全视图脱敏测试数据生成系统在构成上主要包括视图数据库、批量待脱敏数据库、基于深度学习的样本伪装模型以及脱敏视图库这四个功能单元。
其中,本系统中的视图数据库提供敏感对象人脸视图样本和非敏感对象人脸视图样本。其具体包括敏感对象人脸视图库和非敏感样本人脸视图库。
本系统中的批量待脱敏数据库,其与视图数据库和样本伪装模型配合,采用1:N比对方式从视图数据库中选取待敏感对象人脸视图样本和非敏感对象人脸视图样本,以构成待脱敏人脸视图库和待伪装人脸视图库,用于与样本伪装模型的训练和处理。
本系统中的样本伪装模型基于视图数据库提供非敏感对象人脸视图样本和敏感对象人脸视图样本进行特征提取与脸部重构的深度学习;并在深度学习后进行样本伪装,生成融合非敏感对象和敏感对象特征的脱敏视图文件;
具体的,本系统中的样本伪装模型主要包括基于深度学习的人脸特征提取编码器,针对敏感对象的第一人脸重构解码器和针对非敏感对象的第二人脸重构解码器。
这里的人脸特征提取编码器可同时对脱敏对象和非敏感对象进行特征提取训练,并在训练后可分别对脱敏对象和非敏感对象进行特征提取。
而第一人脸重构解码器可基于人脸特征提取编码器针对敏感对象视图提取的特征进行敏感对象人脸图片的重构训练;第二人脸重构解码器可基于人脸特征提取编码器针对非敏感对象视图提取的特征进行非敏感对象人脸图片的重构训练;
再者,完成训练的脸特征提取编码器,第一人脸重构解码器和第二人脸重构解码器配合对敏感对象视图进行样本伪装,生成融合非敏感对象和敏感对象特征的脱敏视图文件。
本系统中的脱敏视图库收集生成的脱敏视图文件。如此,本脱敏视图库与视图数据库进行关联,使得批量脱敏视图文件关联脱敏对象人脸视图文件,可通过采用文件访问控制方式来限制对测试脱敏文件的访问。
针对上述方案,以下通过以具体应用实例来进一步说明其实施过程。
基于本公共安全视图脱敏测试数据生成系统,采用非敏感人脸视图样本,通过基于深度学习的样本伪装技术,实现敏感对象人脸视图脱敏,并伪装为非敏感人脸的视图。
如图1所示,整个的实施过程按以下步骤进行:
(一)收集脱敏对象人脸视图库和非敏感人脸视图库,其要求如上所述。
(二)从脱敏对象人脸视图库中自动选取脱敏对象1个,采用1:N人脸识别处理,选取相似度较高的非敏感人脸对象集(多个);这里的1:N人脸识别处理时,采用选取的脱敏对象人脸与非敏感样本人脸视图库进行比对,采用1:N比对方式选取(N大于500),并选择比对算法阈值排名前10的对象生成待伪装人脸视图库。
(三)使用样本伪装技术,自动生成脱敏视图文件;
该步骤的实施过程包括样本伪装模型的训练学习和样本伪装处理两部分,具体如下所述:
(a)采集脱敏对象A的视图文件和开源对象B的视图文件;
(b)采用相同的人脸特征提取算法,分别提取对象A和对象B的脸部特征a和b;
(c)采用深度学习模型针对对象A和对象B进行特征提取和脸部重构训练;
(d)使用训练完成的模型进行样本伪装,生成融合对象A和B的脱敏视图文件。
其中,本实例中采用到的人脸特征提取算法,其结构如图3所示,包括以下步骤:
①输入;
②脸部多区域选取;
③选取区域的初始化预测;该步骤采用脸部目标检测算法,多次提取脸部检测框,通过深学模型删选出既通过阈值又偏离值较大的框取图像;
④分段特征提取和优化;该步骤将重要的脸部识别组件(如:眼镜、鼻子、嘴巴、眉毛等)分别提取细节特征值;
⑤组合优化;该步骤利用模型和目标检测框,结合脸型、位置、像素值等,重构图像,形成位置对应和像素匹配方面的优化效果;
⑥最后,实现特征图像重组。
本实例中针对对象A和对象B进行特征提取和脸部重构训练的过程,包括以下实现步骤:
①对脱敏对象A和非敏感对象B的视图文件使用相同的人脸特征提取算法编码器进行特征提取训练。
如图4所示,其所示为本步骤中采用到的人脸特征提取算法编码器的一种示例,该人脸特征提取算法编码器需适用采用深度学习技术,其具体构成并不限于此图4所示方案。
②将训练生成的人脸特征a采用第一人脸还原算法解码器(即人脸重构解码器)重构对象A的人脸图片;
③将训练生成的人脸特征b采用第二人脸还原算法解码器(即人脸重构解码器)重构对象B的人脸图片。
这里的第一人脸还原算法解码器与第二人脸还原算法解码器不同,分别对特征a和特征b进行训练。
这里的人脸还原算法解码器经过单人多图像训练,为重构图像的基础,训练完成的解码器具有很高的原图还原能力。故针对不同对象,采用不同的完成训练的解码器,可以很好的结合新的特征值,可达到图像混合即脱敏的效果,生成与原图极为相似的图像。
如图5所示,为本步骤中采用到的人脸还原算法解码器的一种示例,该人脸还原算法解码器需要采用深度学习技术,其具体构成并不限于此图5所示方案。
进一步,本步骤中在完成相应人脸特征提取算法编码器和人脸还原算法解码器的训练后,基于完成训练的人脸特征提取算法编码器和人脸还原算法解码器进行样本伪装的过程包括以下步骤(如图6所示):
①采用非敏感对象B和训练完成的编码器生成特征b;
②将特征b输入敏感对象A的训练完成的解码器;
③生成融合对象A和B的脱敏图片。
(四)反复操作直到针对所有的脱敏对象人脸,都完成了脱敏视图文件的生成;
(五)汇聚生成的脱敏视图文件形成脱敏人脸视图库;
该步骤中,针对批量自动生成的脱敏视图文件,采用对象B的特征组件进行拟合比对,删选去除脸型及组件不匹配的视图文件。
(六)通过试图库关系数据链,对脱敏对象原始视图文件与其关联的批量化生成的脱敏视图文件进行信息安全保护。
该步骤中视图库关系数据链进行信息安全防护的过程包括以下步骤:
①采用哈希算法对脱敏对象人脸视图库的文件进行逐个计算,生成文件的定长摘要信息;
②对脱敏对象人脸视图库的文件进行加密存储,并设置访问控制保护;
③采用哈希算法对脱敏对象人脸视图库文件的摘要信息+生成后的脱敏人脸视图文件进行哈希计算,将此摘要信息存储在脱敏人脸视图文件中,并将视图文件用于数据测试或共享;
④系统通过哈希值链比对的方式,确定脱敏人脸视图文件与脱敏对象人脸视图文件的对应关系,并可防止脱敏视图文件的非本系统篡改
本实例给出的方案可实现大批量敏感视图信息的脱敏处理,并产生批量化的数据生成,较传统的脱敏方法具有更好的真实性表现,同时保障了脱敏数据的安全性,可用于公共安全行业中涉及敏感视图内容的人脸脱敏和测试样本数据生成,并进一步实现脱敏后的视图数据共享、人脸识别相关应用系统开发。
最后,需要说明的,上述本发明的方法,或特定系统单元、或其部份单元,为纯软件架构,可以透过程序代码布设于实体媒体,如硬盘、光盘片、或是任何电子装置(如智能型手机、计算机可读取的储存媒体),当机器加载程序代码且执行(如智能型手机加载且执行),机器成为用以实行本发明的装置。上述本发明的方法与装置亦可以程序代码型态透过一些传送媒体,如电缆、光纤、或是任何传输型态进行传送,当程序代码被机器(如智能型手机)接收、加载且执行,机器成为用以实行本发明的装置。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (13)
1.公共安全视图脱敏测试数据生成方法,其特征在于,采用非敏感人脸视图样本通过基于深度学习样本伪装方法对敏感对象人脸视图脱敏,并保留真实视图的识别特征,伪装为非敏感人脸视图。
2.根据权利要求1所述的公共安全视图脱敏测试数据生成方法,其特征在于,所述的非敏感人脸视图样本的样本来源于开源数据集或征得同意并使用的真人视图;且样本总集至少具备:多脸型条件、多肤色条件、多年龄段条件。
3.根据权利要求1所述的公共安全视图脱敏测试数据生成方法,其特征在于,所述的样本伪装方法包含:
(1)采集脱敏对象A的视图文件和开源对象B的视图文件;
(2)采用相同的人脸特征提取方法,分别提取对象A视图和对象B视图中的脸部特征a和b;
(3)采用深度学习模型针对对象A和对象B进行特征提取和脸部重构训练;
(4)使用训练完成的学习模型进行样本伪装,生成融合对象A和B特征的脱敏视图文件。
4.根据权利要求3所述的公共安全视图脱敏测试数据生成方法,其特征在于,所述步骤(1)中的脱敏对象A和开源对象B的视图文件的采集方式,采用对象多角度人脸图片或从视频文件中提取人脸图像帧文件。
5.根据权利要求3所述的公共安全视图脱敏测试数据生成方法,其特征在于,所述步骤(2)中人脸特征提取方法,包括:
脸部多区域选取;
选取区域的初始化预测;
分段特征提取和优化;
组合优化;
特征图像重组。
6.根据权利要求3所述的公共安全视图脱敏测试数据生成方法,其特征在于,所述步骤(3)中的特征提取和脸部重构方法包括:
(31)针对脱敏对象A和非敏感对象B的视图文件使用相同的人脸特征提取编码器进行特征提取训练;
(32)将训练生成的人脸特征a采用第一人脸重构解码器重构对象A的人脸图片;
(33)将训练生成的人脸特征b采用第二人脸重构解码器重构对象B的人脸图片。
7.根据权利要求3所述的公共安全视图脱敏测试数据生成方法,其特征在于,所述步骤(4)中样本伪装,包括以下步骤:
(41)针对非敏感对象B的视图文件,利用训练完成的特征提取编码器生成特征b;
(42)基于特征b采用敏感对象A的训练完成的重构解码器重构脱敏对象A视图文件,生成融合对象A和B的脱敏图片。
8.根据权利要求1所述的公共安全视图脱敏测试数据生成方法,其特征在于,所述公共安全视图脱敏测试数据生成方法还包括批量生成测试数据步骤:
(51)收集脱敏对象视图库和非敏感视图库;
(52)从脱敏对象视图库中自动选取脱敏对象视图1个,使用1:N比对模型,从非敏感视图库中选取相似度较高的非敏感视图对象集;
(52)使用基于深度学习样本伪装方法,自动生成脱敏视图文件;
(53)反复操作直到针对所有的脱敏对象视图,完成脱敏视图文件的生成;
(54)收集生成的脱敏视图文件形成批量化测试样本库;
(55)将脱敏对象原始视图文件与其关联的批量化生成的脱敏视图文件进行信息安全保护。
9.根据权利要求8所述的公共安全视图脱敏测试数据生成方法,其特征在于,对于自动生成的脱敏视图文件,采用对象B的特征组件进行拟合比对,删选去除不匹配的视图文件。
10.公共安全视图脱敏测试数据生成系统,其特征在于,包括视图数据库,基于深度学习的样本伪装模型以及脱敏视图库;
所述视图数据库提供非敏感对象人脸视图样本和敏感对象人脸视图样本;
所述样本伪装模型基于视图数据库提供非敏感对象人脸视图样本和敏感对象人脸视图样本进行特征提取与脸部重构的深度学习;并在深度学习后进行样本伪装,生成融合非敏感对象和敏感对象特征的脱敏视图文件;
所述脱敏视图库收集生成的脱敏视图文件。
11.根据权利要求10所述的公共安全视图脱敏测试数据生成系统,其特征在于,所述样本伪装模型包括基于深度学习的人脸特征提取编码器,针对敏感对象的第一人脸重构解码器和针对非敏感对象的第二人脸重构解码器;所述人脸特征提取编码器可同时对脱敏对象和非敏感对象进行特征提取训练,并在训练后可分别对脱敏对象和非敏感对象进行特征提取;所述第一人脸重构解码器可基于人脸特征提取编码器针对敏感对象视图提取的特征进行敏感对象人脸图片的重构训练;所述第二人脸重构解码器可基于人脸特征提取编码器针对非敏感对象视图提取的特征进行非敏感对象人脸图片的重构训练;
完成训练的脸特征提取编码器,第一人脸重构解码器和第二人脸重构解码器配合对敏感对象视图进行样本伪装,生成融合非敏感对象和敏感对象特征的脱敏视图文件。
12.根据权利要求10所述的公共安全视图脱敏测试数据生成系统,其特征在于,所述测试数据生成系统还包括批量待脱敏数据库,所述批量待脱敏数据库与视图数据库和样本伪装模型配合,采用1:N比对方式从视图数据库中选取待敏感对象人脸视图样本和非敏感对象人脸视图样本,以构成待脱敏人脸视图库和待伪装人脸视图库。
13.存储介质,所述存储介质包括存储的程序,其特征在于,所述程序执行上述的公共安全视图脱敏测试数据生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011205208.9A CN112258388A (zh) | 2020-11-02 | 2020-11-02 | 一种公共安全视图脱敏测试数据生成方法、系统以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011205208.9A CN112258388A (zh) | 2020-11-02 | 2020-11-02 | 一种公共安全视图脱敏测试数据生成方法、系统以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112258388A true CN112258388A (zh) | 2021-01-22 |
Family
ID=74268521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011205208.9A Pending CN112258388A (zh) | 2020-11-02 | 2020-11-02 | 一种公共安全视图脱敏测试数据生成方法、系统以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112258388A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112599212A (zh) * | 2021-02-26 | 2021-04-02 | 北京妙医佳健康科技集团有限公司 | 一种数据处理方法 |
CN112861671A (zh) * | 2021-01-27 | 2021-05-28 | 电子科技大学 | 一种对深度伪造人脸图像和视频的鉴别方法 |
CN115661908A (zh) * | 2022-12-09 | 2023-01-31 | 凝动万生医疗科技(武汉)有限公司 | 面部动态数据脱敏方法及装置 |
-
2020
- 2020-11-02 CN CN202011205208.9A patent/CN112258388A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112861671A (zh) * | 2021-01-27 | 2021-05-28 | 电子科技大学 | 一种对深度伪造人脸图像和视频的鉴别方法 |
CN112861671B (zh) * | 2021-01-27 | 2022-10-21 | 电子科技大学 | 一种对深度伪造人脸图像和视频的鉴别方法 |
CN112599212A (zh) * | 2021-02-26 | 2021-04-02 | 北京妙医佳健康科技集团有限公司 | 一种数据处理方法 |
CN115661908A (zh) * | 2022-12-09 | 2023-01-31 | 凝动万生医疗科技(武汉)有限公司 | 面部动态数据脱敏方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Anonymousnet: Natural face de-identification with measurable privacy | |
Cai et al. | PiiGAN: generative adversarial networks for pluralistic image inpainting | |
CN112258388A (zh) | 一种公共安全视图脱敏测试数据生成方法、系统以及存储介质 | |
Nguyen et al. | Lipstick ain't enough: beyond color matching for in-the-wild makeup transfer | |
Huang et al. | Initiative defense against facial manipulation | |
Sajid et al. | Data augmentation‐assisted makeup‐invariant face recognition | |
Han et al. | Asymmetric joint GANs for normalizing face illumination from a single image | |
Wang et al. | Deeply supervised face completion with multi-context generative adversarial network | |
CN113705290A (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
Ramachandran et al. | An experimental evaluation on deepfake detection using deep face recognition | |
CN113362422B (zh) | 一种阴影鲁棒的基于解耦表示的妆容迁移系统及方法 | |
Hao et al. | A utility-preserving GAN for face obscuration | |
Ma et al. | Cfa-net: Controllable face anonymization network with identity representation manipulation | |
Barni et al. | Iris deidentification with high visual realism for privacy protection on websites and social networks | |
Hao et al. | Robustness analysis of face obscuration | |
Kang et al. | Detection enhancement for various deepfake types based on residual noise and manipulation traces | |
Zhao et al. | Saan: Semantic attention adaptation network for face super-resolution | |
WO2022160773A1 (zh) | 基于虚拟样本的行人重识别方法 | |
CN114036553A (zh) | 一种结合k匿名的行人身份隐私保护方法 | |
CN113947520A (zh) | 一种基于生成对抗网络实现人脸妆容转换的方法 | |
Zhang et al. | Semantic prior guided face inpainting | |
Emeršič et al. | Towards accessories-aware ear recognition | |
Jin et al. | Facial makeup transfer combining illumination transfer | |
Xiao et al. | When face completion meets irregular holes: An attributes guided deep inpainting network | |
Jiang et al. | Haze relevant feature attention network for single image dehazing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |