CN114863481A - 一种生物识别处理方法、装置及设备 - Google Patents
一种生物识别处理方法、装置及设备 Download PDFInfo
- Publication number
- CN114863481A CN114863481A CN202210487943.6A CN202210487943A CN114863481A CN 114863481 A CN114863481 A CN 114863481A CN 202210487943 A CN202210487943 A CN 202210487943A CN 114863481 A CN114863481 A CN 114863481A
- Authority
- CN
- China
- Prior art keywords
- training sample
- sample data
- desensitization
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 810
- 238000000586 desensitisation Methods 0.000 claims abstract description 493
- 238000009826 distribution Methods 0.000 claims abstract description 165
- 238000012545 processing Methods 0.000 claims abstract description 114
- 238000000034 method Methods 0.000 claims abstract description 90
- 230000008569 process Effects 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 128
- 238000000605 extraction Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 19
- 238000012216 screening Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 13
- 238000004590 computer program Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229920002799 BoPET Polymers 0.000 description 1
- 239000005041 Mylar™ Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种生物识别处理方法、装置及设备,该方法包括:获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种生物识别处理方法、装置及设备。
背景技术
近年来,生物识别技术得到了飞速发展,生物识别的应用已经进入到了人们的工作和生活中,例如某小区的人脸门禁、某超市中的人脸收银机、手机的指纹解锁等。然而,在生物识别系统为用户提供便利的同时,由于生物识别系统需要对用户生物信息进行了采集、传输、处理和存储等处理,从而使得用户的隐私信息(即用户生物信息)处于高危的状态,一旦用户的隐私信息泄漏,其财产和信息安全将受到很大的威胁。
隐私保护能力成为生物识别系统的重要能力,通常,可以通过深度学习的方式进行隐私保护处理,具体地,一般通过常见的公开数据集(或者与业务数据具有相同数据分布的数据集等)进行模型训练,但是,上述数据集中往往会出现数量占比较低的中长尾数据,这样就会直接导致最终训练的模型的隐私保护效果在上述中长尾数据对应的数据类型的隐私信息上衰减严重,从而使得上述隐私数据更加容易泄露。基于此,需要提供一种安全性更高、隐私保护能力更强的用户生物识别的技术方案。
发明内容
本说明书实施例的目的是提供一种安全性更高、隐私保护能力更强的用户生物识别的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种生物识别处理方法,所述方法包括:获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息。将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布。基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息。基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
本说明书实施例提供的一种生物识别处理装置,所述装置包括:请求模块,获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息。脱敏模块,将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布。隐私保护模块,基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息。生物识别处理模块,基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
本说明书实施例提供的一种生物识别处理设备,所述生物识别处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息。将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布。基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息。基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
本说明书实施例还提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息。将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布。基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息。基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种生物识别处理方法实施例;
图2为本说明书另一种生物识别处理方法实施例;
图3为本说明书又一种生物识别处理方法实施例;
图4为本说明书一种生物识别处理系统的结构示意图;
图5为本说明书一种生物识别处理装置实施例;
图6为本说明书一种生物识别处理设备实施例。
具体实施方式
本说明书实施例提供一种生物识别处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种生物识别处理方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机、平板电脑等一定终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等。该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法具体可以包括以下步骤:
在步骤S102中,获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息。
其中,目标用户可以是任意用户,如上述终端设备的拥有者,目标用户可以通过该终端设备发起生物识别请求。用户生物信息可以包括多种,例如用户的指纹信息、掌纹信息、面部信息或虹膜信息等,在实际应用中,上述用户生物信息的承载体可以包括多种,例如可以通过图像的方式承载上述各种用户生物信息等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,近年来,生物识别技术得到了飞速发展,生物识别的应用已经进入到了人们的工作和生活中,例如某小区的人脸门禁、某超市中的人脸收银机、手机的指纹解锁等。然而,在生物识别系统为用户提供便利的同时,由于生物识别系统需要对用户生物信息进行了采集、传输、处理和存储等处理,从而使得用户的隐私信息(即用户生物信息)处于高危的状态,一旦用户的隐私信息泄漏,其财产和信息安全将受到很大的威胁。
隐私保护能力成为生物识别系统的重要能力,通常,可以通过深度学习的方式进行隐私保护处理,具体地,一般通过常见的公开数据集(或者与业务数据具有相同数据分布的数据集等)进行模型训练,但是,上述数据集中往往会出现数量占比较低的中长尾数据,这样就会直接导致最终训练的模型的隐私保护效果在上述中长尾数据对应的数据类型的隐私信息上衰减严重,从而使得上述隐私数据更加容易泄露。基于此,需要提供一种安全性更高、隐私保护能力更强的用户生物识别的技术方案。本说明书实施例提供一种可实现的技术方案,具体可以包括以下内容:
当用户需要执行某项指定业务(如支付业务、登录业务等)时,可以触发上述指定业务的执行机制,在执行上述指定业务之前往往需要对该用户的身份进行识别,此时,终端设备可以启动相应的信息采集组件,如指纹采集组件、摄像组件、掌纹采集组件等,并可以通过信息采集组件采集该用户的用户生物信息,具体如,可以采集该用户的指纹图像、面部图像、掌纹图像或虹膜图像等。终端设备可以基于采集的用户生物信息生成生物识别请求,终端设备可以获取该生物识别请求。
在步骤S104中,将用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布。
其中,脱敏模型可以是用于对指定数据进行脱敏处理的模型,脱敏模型可以通过多种不同的算法构建,例如,可以通过神经网络算法构建脱敏模型,或者,可以通过随机森林算法构建脱敏模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。模型架构相同的两个脱敏模型可以是两个脱敏模型包含的不同网络层的数量、不同网络层的相对位置等相同,但其中的模型参数等信息可以不同,基于此,同一个数据分别输入到两个脱敏模型中,得到的结果可能会有差异,具体可以根据实际情况设定,本说明书实施例对此不做限定。训练样本数据可以是用于训练脱敏模型的样本数据,训练样本数据的类型分布可以指训练样本数据所属的类型对应的训练样本数据的分布,训练样本数据所属的类型可以包括多种,不同类型的训练样本数据可以有不同的分布,长尾分布可以是一个或多个不同的类型的训练样本数据的数量相对较少,从而使得上述训练样本数据的类型分布在分布图上呈现很长的相对平缓的分布曲线。
在实施中,可以通过预设的算法构建脱敏模型的模型架构,然后,可以获取不同用户的用户生物信息,并以以此作为训练样本数据,然后,可以设定相应的损失函数,可以使用获取的用户生物信息和该损失函数对该脱敏模型进行模型训练,得到训练后的脱敏模型,通过上述方式可以训练两个脱敏模型,其中两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布,例如,可以从不存在中长尾分布的训练数据集中抽取90%的训练样本数据,并从存在中长尾分布的训练数据集中抽取10%的训练样本数据,将上述两部训练样本数据进行组合,得到一个训练样本数据组,然后,可以从不存在中长尾分布的训练数据集中抽取10%的训练样本数据,并从存在中长尾分布的训练数据集中抽取90%的训练样本数据,将上述两部训练样本数据进行组合,得到另一个训练样本数据组,可以使用上述任一个训练样本数据组训练其中一个脱敏模型,并使用另一个训练样本数据组训练另一个脱敏模型,这样可以使得两个脱敏模型在模型训练阶段的侧重点有所不同等。在实际应用中,上述脱敏模型的训练过程仅是一种可选的模型训练方式,还可以包括多种不同的脱敏模型的训练过程,例如,可以将脱敏模型和反脱敏模型进行联合训练,并结合相应的损失函数,得到训练后的脱敏模型等。
当获取到生物识别请求时,可以将上述用户生物信息分别输入到两个脱敏模型中,通过每个脱敏模型对该用户生物信息进行脱敏处理,从而使得用户生物信息中包含的敏感信息(如指纹纹路的信息、面部的清晰轮廓信息等)被去除或被隐藏,最终可以得到每个脱敏模型输出的脱敏后的用户生物信息。
在步骤S106中,基于两个脱敏模型输出的脱敏后的用户生物信息,确定上述生物识别请求对应的隐私保护后的用户生物信息。
在实施中,可以预先设定信息融合算法或数据融合规则,可以通过该信息融合算法或数据融合规则可以将两个脱敏模型输出的脱敏后的用户生物信息进行信息融合处理,得到融合后的用户生物信息,融合后的用户生物信息仍然不包含敏感信息的,即仍然是脱敏后的信息,可以将融合后的用户生物信息确定为上述生物识别请求对应的隐私保护后的用户生物信息。
在步骤S108中,基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理。
在实施中,可以将确定的隐私保护后的用户生物信息与本地(或服务器)中预先存储的基准用户生物信息(其中可以不包含敏感信息,即仍然是脱敏后的信息)进行相似度计算,如果得到的相似度数值大于预设相似度阈值,则对目标用户进行生物识别处理的结果为通过,此时,可以继续进行指定业务处理,如果得到的相似度数值小于预设相似度阈值,则对目标用户进行生物识别处理的结果为失败,则终止进行指定业务处理,在实际应用中,上述处理过程仅是一种可选的方式,还可以包括多种不同的处理方式,具体可以根据实际情况设定。
本说明书实施例提供一种生物识别处理方法,通过获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理,这样,通过采用两个模型架构相同的脱敏模型,输入不同分布的训练样本数据(其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布),最后结合两个脱敏模型的输出数据进行隐私保护处理,从而可以实现对各种不同类型的数据的全面覆盖,使得数据中不再存在中长尾问题,避免了算法歧视问题的出现。
实施例二
如图2所示,本说明书实施例提供一种生物识别处理方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机、平板电脑等一定终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等。该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法具体可以包括以下步骤:
在步骤S202中,基于第五训练样本数据和预设的基准损失函数,对基准脱敏模型进行模型训练,得到训练后的基准脱敏模型,该基准损失函数由脱敏后的第五训练样本数据与第五训练样本数据之间的相似度的最大值,以及脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定。
其中,第五训练样本数据可以包括多个,多个第五训练样本数据可以是由同一个用户的用户生物信息构成,也可以是由多个不同用户的用户生物信息构成,具体可以根据实际情况设定。基准损失函数可以由脱敏后的第五训练样本数据与第五训练样本数据之间的相似度的最大值,以及脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定,具体如Lt=L1(I,It)+L2(I,Ir),其中的I表示第五训练样本数据,It表示脱敏后的第五训练样本数据,Ir表示重建的第五训练样本数据,Lt表示第五训练样本数据对应的基准损失函数,L1(I,It)保证隐私保护的效果,使得脱敏后的第五训练样本数据在视觉上与第五训练样本数据尽量不一致,L2(I,Ir)则确保脱敏后的第五训练样本数据仍然包含着身份信息等特征,从而可以被较好地恢复出原始的第五训练样本数据。基准脱敏模型可以基于多种不同的方式构建,例如,可以基于U-Net构建,该U-Net由全连接网络构建,U-Net呈现出形似字母“U”的结构,它由左半边的压缩通道(Contracting Path)和右半边扩展通道(Expansive Path)组成,压缩通道可以通过卷积神经网络构建,可以重复采用2个卷积层和1个最大池化层的结构,每进行一次池化操作后,数据的维数会增加。在扩展通道,先进行1次反卷积操作,使数据的维数减半,然后,将其拼接对应压缩通道进行裁剪,可以得到相应的特征数据,基于上述特征数据重新组成新的特征数据,再采用2个卷积层进行特征提取,并重复上述结构,在最后的输出层,用2个卷积层将高维度的特征数据局映射成低维度的输出数据,U-Net具体可以分为上采样和下采样等两个部分,下采样部分主要利用连续的卷积池化层提取数据中的特征信息,并逐步将特征信息映射至高维,在整个网络的最高维度存在整个数据中丰富的特征信息,U-Net可以不需要直接将该数据进行池化处理并直接上采样至与原数据大小一致的输出数据,而是通过反卷积处理,将高维度特征再次向低维映射,映射的过程中为了增强分割的精度,会将同维度下收缩网络中与其维度相同的数据进行融合,由于在融合的过程中维度会变成原维度的2倍,因此需要再次进行卷积处理,保证处理过后的维度与融合操作之前的维度相同,以便于进行再一次的反卷积处理后能够和同维度下的数据进行二次融合,直到能够与原数据的维度相同时输出数据。本实施例中的脱敏模型的结构可以由一定数量的网络层的U-Net构成,具体如,可以由具有8或10个网络层的U-Net构成等,具体可以根据实际情况设定。再例如,可以通过多层感知机MLP构建,MLP中除了输入层和输出层之外,它中间可以有多个隐藏层,最简单的MLP只含一个隐藏层,即三层的结构,MLP的层与层之间是全连接的,MLP的最底层是输入层,中间是隐藏层,最后是输出层。该基准脱敏模型具体如,可以通过一个三层的MLP构建该基准脱敏模型,具体可以根据实际情况设定。
在实施中,可以获取第五训练样本数据,并可以将第五训练样本数据输入到基准脱敏模型中,得到脱敏后的第五训练样本数据,可以将脱敏后的第五训练样本数据输入到基准反脱敏模型中,得到重建的第五训练样本数据。其中,基准反脱敏模型也可以基于U-Net构建或基于MLP构建,基准反脱敏模型的输入数据为脱敏后的第五训练样本数据,输出数据为重建的原始第五训练样本数据。然后,可以基于第五训练样本数据、脱敏后的第五训练样本数据和重建的第五训练样本数据,通过预设的基准损失函数,确定基准脱敏模型和基准反脱敏模型是否收敛,如果否,则获取第五训练样本数据继续对基准脱敏模型和基准反脱敏模型进行模型训练,直到基准脱敏模型和基准反脱敏模型收敛,得到训练后的基准脱敏模型。
需要说明的是,在计算损失值时,需要针对计算的损失值的大小,对第五训练样本数据的权重进行调整,从而可以缓解存在中长尾分布的第五训练样本数据的欠拟合问题,具体地,基于基准损失函数对第五训练样本数据对应的权重进行调整,得到调整后的权重,可以通过下述公式对第五训练样本数据的权重进行调整。
Lr=Lt-0.5*Lt
其中,Lr表示调整后的权重,即可以通过每个第五训练样本数据对应的脱敏损失函数的损失值调整每个第五训练样本数据对应的权重。相应的,上述步骤S202的处理可以为基于第五训练样本数据、调整后的权重和预设的基准损失函数,对基准脱敏模型进行模型训练,得到训练后的基准脱敏模型。
在步骤S204中,在对第一脱敏模型和第二脱敏模型进行模型训练之前,基于训练后的基准脱敏模型构建第一脱敏模型和第二脱敏模型的初始模型。
在实施中,可以将训练后的基准脱敏模型作为第一脱敏模型的初始模型,同时,也可以将训练后的基准脱敏模型作为第二脱敏模型的初始模型,在实际应用中,除了可以通过上述方式确定第一脱敏模型和第二脱敏模型的初始模型外,还可以通过其它方式确定第一脱敏模型和第二脱敏模型的初始模型,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S206中,基于基准损失函数,计算每个第五训练样本数据对应的损失值。
在步骤S208中,基于每个第五训练样本数据对应的损失值,从多个第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据。
其中,预设阈值可以根据实际情况设定,具体如1000或1万,或者为总数量的10%等,具体可以根据实际情况设定。
在实施中,可以根据每个第五训练样本数据对应的损失值的大小,对上述计算的损失值进行排序,即将计算的损失值由大到小进行排序,可以从排序后的损失值中从大到小的顺序选取该损失值总数的10%的损失值对应的第五训练样本数据作为从多个第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据。
在步骤S210中,对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征。
在实施中,可以预先设定特征提取算法,可以基于该特征提取算法对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征,或者,也可以将选取的第五训练样本数据输入到上述训练后的基准脱敏模型中,通过训练后的基准脱敏模型中的特征提取部分对对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征。
在步骤S212中,对选取的第五训练样本数据对应的数据特征进行聚类,得到多个类别的数据特征。
在实施中,可以预先设定聚类算法,该聚类算法可以包括多种,例如,K-Means聚类算法、基于密度的聚类算法和均值漂移聚类算法等。可以基于预先设定的聚类算法对选取的第五训练样本数据对应的数据特征进行聚类,五训练样本数据对应的多个不同的类别,从而可以得到多个类别的数据特征。
需要说明的是,聚类得到的类别的个数可以根据实际情况设定,例如聚类得到10个类别或15个类别等。
在步骤S214中,获取多个第六训练样本数据,并分别对每个第六训练样本数据进行特征提取,得到每个第六训练样本数据对应的数据特征。
上述步骤S214的具体处理过程,可以参见上述相关内容,在此不再赘述。
在步骤S216中,计算第六训练样本数据对应的数据特征与多个类别的数据特征之间的距离之和,并基于计算的距离之和对多个第六训练样本数据进行筛选,分别得到第一训练样本池和第二训练样本池。
在实施中,可以预先设定距离算法或相似度算法,具体如余弦距离、欧氏距离等。然后,可以基于上述设定的距离算法或相似度算法计算第六训练样本数据对应的数据特征与多个类别的数据特征之间的距离之和,例如,多个类别的数据特征为10个类别的数据特征,则可以基于上述设定的距离算法或相似度算法,计算第六训练样本数据对应的数据特征与第一个类别的数据特征之间的距离,同样的,可以基于上述设定的距离算法或相似度算法,分别计算第六训练样本数据对应的数据特征与第二个类别、第三个类别…第十个类别的数据特征之间的距离,然后,可以将上述计算的10个距离相加,得到的结果即可以作为第六训练样本数据对应的数据特征与多个类别的数据特征之间的距离之和,或者,也可以通过下述公式计算第六训练样本数据对应的数据特征与多个类别的数据特征之间的距离之和。
其中,f表示第六训练样本数据对应的数据特征,fi表示第i个类别的数据特征。
可以将计算的距离之和与预设的筛选阈值进行比较,选取小于筛选阈值的距离之和,可以基于选取的小于筛选阈值的距离之和对应的第六训练样本数据构建第二训练样本池,基于剩余的第六训练样本数据构建第一训练样本池。
在步骤S218中,从不存在长尾分布的第一训练样本池中获取第一数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第二数量的第二训练样本数据,第一数量大于第二数量,基于第一数量的第一训练样本数据和第二数量的第二训练样本数据构建第三训练样本集。
其中,第一数量可以根据实际情况设定,具体如1000或1万,或者,第一训练样本池中的训练样本数据的总数量的90%或80%等。第二数量可以根据实际情况设定,具体如100或1000,或者,第二训练样本池中的训练样本数据的总数量的10%或20%等。
在步骤S220中,从不存在长尾分布的第一训练样本池中获取第二数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第一数量的第二训练样本数据,基于第二数量的第一训练样本数据和第一数量的第二训练样本数据构建第四训练样本集。
在步骤S222中,基于第三训练样本集中的训练样本数据和预设的第一损失函数对第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
在实际应用中,还可以通过第一损失函数对第三训练样本集中的训练样本数据对应的权重进行调整,具体可以包括下述处理:基于第一损失函数对第三训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重。
相应的,上述步骤S222的处理可以为:基于第三训练样本集中的训练样本数据、调整后的权重和预设的第一损失函数对第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
上述各个步骤的具体处理过程可以参见前述相关内容,在此不再赘述。
上述步骤S222的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤A2~步骤A6的处理。
在步骤A2中,分别将第三训练样本集中的训练样本数据输入到第一脱敏模型中,得到第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据。
在步骤A4中,分别将第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据输入到第一反脱敏模型中,以对脱敏后的第一样本数据进行样本还原,得到第三训练样本集中重建的训练样本数据。
在步骤A6中,基于第三训练样本集中的训练样本数据、脱敏后的第一样本数据和第三训练样本集中重建的训练样本数据,通过预设的第一损失函数,确定第一脱敏模型和第一反脱敏模型是否收敛,如果否,则基于第三训练样本集继续对第一脱敏模型和第一反脱敏模型进行模型训练,直到第一脱敏模型和第一反脱敏模型收敛,得到训练后的第一脱敏模型。
上述步骤A2~步骤A6的具体处理可以参见基准脱敏模型的相关内容,在此不再赘述。
其中,第一损失函数可以由脱敏后的第一样本数据与脱敏后的第一样本数据对应的原始训练样本数据之间的相似度的最大值,以及脱敏后的第一样本数据中是否包括用户的身份信息的特征确定,具体可以参见基准损失函数的相关内容,在此不再赘述。
在步骤S224中,基于第四训练样本集中的训练样本数据和预设的第二损失函数对第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
在实际应用中,还可以通过第二损失函数对第四训练样本集中的训练样本数据对应的权重进行调整,具体可以包括下述处理:基于第二损失函数对第四训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重。
相应的,上述步骤S224的处理可以为:基于第四训练样本集中的训练样本数据、调整后的权重和预设的第二损失函数对第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
上述步骤S224的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤B2~步骤B6的处理。
在步骤B2中,分别将第四训练样本集中的训练样本数据输入到第二脱敏模型中,得到第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据。
在步骤B4中,分别将第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据输入到第二反脱敏模型中,以对脱敏后的第二样本数据进行样本还原,得到第四训练样本集中重建的训练样本数据。
在步骤B6中,基于第四训练样本集中的训练样本数据、脱敏后的第二样本数据和第四训练样本集中重建的训练样本数据,通过预设的第二损失函数,确定第二脱敏模型和第二反脱敏模型是否收敛,如果否,则基于第四训练样本集继续对第二脱敏模型和第二反脱敏模型进行模型训练,直到第二脱敏模型和第二反脱敏模型收敛,得到训练后的第二脱敏模型。
上述步骤B2~步骤B6的具体处理可以参见基准脱敏模型的相关内容,在此不再赘述。
其中,第二损失函数可以由脱敏后的第二样本数据与脱敏后的第二样本数据对应的原始训练样本数据之间的相似度的最大值,以及脱敏后的第二样本数据中是否包括用户的身份信息的特征确定,具体可以参见基准损失函数的相关内容,在此不再赘述。
在步骤S226中,获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息。
在步骤S228中,将用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息。
在步骤S230中,计算两个脱敏模型输出的脱敏后的用户生物信息的平均值。
在步骤S232中,将计算得到的平均值对应的用户生物信息作为上述生物识别请求对应的隐私保护后的用户生物信息。
在步骤S234中,基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理。
本说明书实施例提供一种生物识别处理方法,通过获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理,这样,通过采用两个模型架构相同的脱敏模型,输入不同分布的训练样本数据(其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布),最后结合两个脱敏模型的输出数据进行隐私保护处理,从而可以实现对各种不同类型的数据的全面覆盖,使得数据中不再存在中长尾问题,避免了算法歧视问题的出现。
实施例三
如图3所示,本说明书实施例提供一种生物识别处理方法,该方法可以由服务器和终端设备共同实现,其中,该终端设备可以如手机、平板电脑等一定终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等。该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。其系统结构图如图4所示,该方法具体可以包括以下步骤:
在步骤S302中,服务器基于第五训练样本数据和预设的基准损失函数,对基准脱敏模型进行模型训练,得到训练后的基准脱敏模型,该基准损失函数由脱敏后的第五训练样本数据与第五训练样本数据之间的相似度的最大值,以及脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定。
在步骤S304中,在对第一脱敏模型和第二脱敏模型进行模型训练之前,服务器基于训练后的基准脱敏模型构建第一脱敏模型和第二脱敏模型的初始模型。
在步骤S306中,服务器基于基准损失函数,计算每个第五训练样本数据对应的损失值。
在步骤S308中,服务器基于每个第五训练样本数据对应的损失值,从多个第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据。
在步骤S310中,服务器对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征。
在步骤S312中,服务器对选取的第五训练样本数据对应的数据特征进行聚类,得到多个类别的数据特征。
在步骤S314中,服务器获取多个第六训练样本数据,并分别对每个第六训练样本数据进行特征提取,得到每个第六训练样本数据对应的数据特征。
在步骤S316中,服务器计算第六训练样本数据对应的数据特征与多个类别的数据特征之间的距离之和,并基于计算的距离之和对多个第六训练样本数据进行筛选,分别得到第一训练样本池和第二训练样本池。
在步骤S318中,服务器从不存在长尾分布的第一训练样本池中获取第一数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第二数量的第二训练样本数据,第一数量大于第二数量,基于第一数量的第一训练样本数据和第二数量的第二训练样本数据构建第三训练样本集。
在步骤S320中,服务器从不存在长尾分布的第一训练样本池中获取第二数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第一数量的第二训练样本数据,基于第二数量的第一训练样本数据和第一数量的第二训练样本数据构建第四训练样本集。
在步骤S322中,服务器基于第三训练样本集中的训练样本数据和预设的第一损失函数对第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
在实际应用中,还可以通过第一损失函数对第三训练样本集中的训练样本数据对应的权重进行调整,具体可以包括下述处理:服务器基于第一损失函数对第三训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重。
相应的,上述步骤S322的处理可以为:服务器基于第三训练样本集中的训练样本数据、调整后的权重和预设的第一损失函数对第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
上述步骤S322的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤C2~步骤C6的处理。
在步骤C2中,服务器分别将第三训练样本集中的训练样本数据输入到第一脱敏模型中,得到第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据。
在步骤C4中,服务器分别将第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据输入到第一反脱敏模型中,以对脱敏后的第一样本数据进行样本还原,得到第三训练样本集中重建的训练样本数据。
在步骤C6中,服务器基于第三训练样本集中的训练样本数据、脱敏后的第一样本数据和第三训练样本集中重建的训练样本数据,通过预设的第一损失函数,确定第一脱敏模型和第一反脱敏模型是否收敛,如果否,则基于第三训练样本集继续对第一脱敏模型和第一反脱敏模型进行模型训练,直到第一脱敏模型和第一反脱敏模型收敛,得到训练后的第一脱敏模型。
其中,第一损失函数可以由脱敏后的第一样本数据与脱敏后的第一样本数据对应的原始训练样本数据之间的相似度的最大值,以及脱敏后的第一样本数据中是否包括用户的身份信息的特征确定,具体可以参见基准损失函数的相关内容,在此不再赘述。
在步骤S324中,服务器基于第四训练样本集中的训练样本数据和预设的第二损失函数对第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
在实际应用中,还可以通过第二损失函数对第四训练样本集中的训练样本数据对应的权重进行调整,具体可以包括下述处理:服务器基于第二损失函数对第四训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重。
相应的,上述步骤S324的处理可以为:服务器基于第四训练样本集中的训练样本数据、调整后的权重和预设的第二损失函数对第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
上述步骤S324的处理可以多种多样,以下提供一种可选的处理方式,具体可以包括以下步骤D2~步骤D6的处理。
在步骤D2中,服务器分别将第四训练样本集中的训练样本数据输入到第二脱敏模型中,得到第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据。
在步骤D4中,服务器分别将第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据输入到第二反脱敏模型中,以对脱敏后的第二样本数据进行样本还原,得到第四训练样本集中重建的训练样本数据。
在步骤D6中,服务器基于第四训练样本集中的训练样本数据、脱敏后的第二样本数据和第四训练样本集中重建的训练样本数据,通过预设的第二损失函数,确定第二脱敏模型和第二反脱敏模型是否收敛,如果否,则基于第四训练样本集继续对第二脱敏模型和第二反脱敏模型进行模型训练,直到第二脱敏模型和第二反脱敏模型收敛,得到训练后的第二脱敏模型。
其中,第二损失函数可以由脱敏后的第二样本数据与脱敏后的第二样本数据对应的原始训练样本数据之间的相似度的最大值,以及脱敏后的第二样本数据中是否包括用户的身份信息的特征确定,具体可以参见基准损失函数的相关内容,在此不再赘述。
在步骤S326中,服务器将训练后的第一脱敏模型和训练后的第二脱敏模型发送给终端设备。
在步骤S328中,终端设备获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息。
在步骤S330中,终端设备将用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息。
在步骤S332中,终端设备计算两个脱敏模型输出的脱敏后的用户生物信息的平均值。
在步骤S334中,终端设备将计算得到的平均值对应的用户生物信息作为上述生物识别请求对应的隐私保护后的用户生物信息。
在步骤S336中,终端设备将确定的隐私保护后的用户生物信息发送给服务器,确定的隐私保护后的用户生物信息用于触发服务器基于预先存储的基准用户生物信息和隐私保护后的用户生物信息,对目标用户进行生物识别处理。
在步骤S338中,终端设备接收服务器发送的对目标用户进行生物识别处理的生物识别结果。
上述各个步骤的具体处理过程可以参见上述实施例中的相关内容,在此不再赘述。
本说明书实施例提供一种生物识别处理方法,通过获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理,这样,通过采用两个模型架构相同的脱敏模型,输入不同分布的训练样本数据(其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布),最后结合两个脱敏模型的输出数据进行隐私保护处理,从而可以实现对各种不同类型的数据的全面覆盖,使得数据中不再存在中长尾问题,避免了算法歧视问题的出现。
实施例四
以上为本说明书实施例提供的生物识别处理方法,基于同样的思路,本说明书实施例还提供一种生物识别处理系统,如图4所示。
该生物识别处理系统包括:终端设备和服务器,其中:
所述终端设备,被配置为获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;将所述确定的所述隐私保护后的用户生物信息发送给所述服务器;
所述服务器,被配置为基于预先存储的基准用户生物信息和所述隐私保护后的用户生物信息,对所述目标用户进行生物识别处理;
所述终端设备,被配置为接收所述服务器发送的对所述目标用户进行生物识别处理的生物识别结果。
本说明书实施例中,所述终端设备,被配置为计算两个脱敏模型输出的脱敏后的用户生物信息的平均值;将计算得到的平均值对应的用户生物信息作为所述生物识别请求对应的隐私保护后的用户生物信息。
本说明书实施例中,所述两个脱敏模型包括第一脱敏模型和第二脱敏模型,所述服务器,被配置为从不存在长尾分布的第一训练样本池中获取第一数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第二数量的第二训练样本数据,所述第一数量大于所述第二数量,基于所述第一数量的第一训练样本数据和所述第二数量的第二训练样本数据构建第三训练样本集;从不存在长尾分布的第一训练样本池中获取第二数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第一数量的第二训练样本数据,基于所述第二数量的第一训练样本数据和所述第一数量的第二训练样本数据构建第四训练样本集;基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型;基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型,将训练后的第一脱敏模型和训练后的第二脱敏模型发送给所述终端设备。
本说明书实施例中,所述服务器,被配置为基于所述第一损失函数对所述第三训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;基于所述第三训练样本集中的训练样本数据、所述调整后的权重和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
本说明书实施例中,所述服务器,被配置为分别将所述第三训练样本集中的训练样本数据输入到所述第一脱敏模型中,得到所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据;分别将所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据输入到第一反脱敏模型中,以对所述脱敏后的第一样本数据进行样本还原,得到所述第三训练样本集中重建的训练样本数据;基于所述第三训练样本集中的训练样本数据、所述脱敏后的第一样本数据和所述第三训练样本集中重建的训练样本数据,通过预设的第一损失函数,确定所述第一脱敏模型和所述第一反脱敏模型是否收敛,如果否,则基于所述第三训练样本集继续对所述第一脱敏模型和所述第一反脱敏模型进行模型训练,直到所述第一脱敏模型和所述第一反脱敏模型收敛,得到训练后的第一脱敏模型。
本说明书实施例中,所述第一损失函数由所述脱敏后的第一样本数据与所述脱敏后的第一样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第一样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述服务器,被配置为基于所述第二损失函数对所述第四训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;基于所述第四训练样本集中的训练样本数据、所述调整后的权重和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
本说明书实施例中,所述服务器,被配置为分别将所述第四训练样本集中的训练样本数据输入到所述第二脱敏模型中,得到所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据;分别将所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据输入到第二反脱敏模型中,以对所述脱敏后的第二样本数据进行样本还原,得到所述第四训练样本集中重建的训练样本数据;基于所述第四训练样本集中的训练样本数据、所述脱敏后的第二样本数据和所述第四训练样本集中重建的训练样本数据,通过预设的第二损失函数,确定所述第二脱敏模型和所述第二反脱敏模型是否收敛,如果否,则基于所述第四训练样本集继续对所述第二脱敏模型和所述第二反脱敏模型进行模型训练,直到所述第二脱敏模型和所述第二反脱敏模型收敛,得到训练后的第二脱敏模型。
本说明书实施例中,所述第二损失函数由所述脱敏后的第二样本数据与所述脱敏后的第二样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第二样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述第一脱敏模型和所述第二脱敏模型在模型训练之前的初始模型是基于预先训练的基准脱敏模型构建,所述基准脱敏模型是基于第五训练样本数据和预设的基准损失函数进行模型训练后得到,所述基准损失函数由脱敏后的第五训练样本数据与所述第五训练样本数据之间的相似度的最大值,以及所述脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述服务器,被配置为基于所述基准损失函数,计算每个所述第五训练样本数据对应的损失值;基于每个所述第五训练样本数据对应的损失值,从多个所述第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据;对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征;对选取的第五训练样本数据对应的数据特征进行聚类,得到多个类别的数据特征;获取多个第六训练样本数据,并分别对每个第六训练样本数据进行特征提取,得到每个第六训练样本数据对应的数据特征;计算第六训练样本数据对应的数据特征与所述多个类别的数据特征之间的距离之和,并基于计算的距离之和对所述多个第六训练样本数据进行筛选,分别得到所述第一训练样本池和所述第二训练样本池。
本说明书实施例提供一种生物识别处理系统,终端设备通过获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理,这样,通过采用两个模型架构相同的脱敏模型,输入不同分布的训练样本数据(其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布),最后结合两个脱敏模型的输出数据进行隐私保护处理,从而可以实现对各种不同类型的数据的全面覆盖,使得数据中不再存在中长尾问题,避免了算法歧视问题的出现。
实施例五
基于同样的思路,本说明书实施例还提供一种生物识别处理装置,如图5所示。
该生物识别处理装置包括:请求模块501、脱敏模块502、隐私保护模块503和生物识别处理模块504,其中:
请求模块501,获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;
脱敏模块502,将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;
隐私保护模块503,基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;
生物识别处理模块504,基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
本说明书实施例中,所述隐私保护模块503,包括
计算单元,计算两个脱敏模型输出的脱敏后的用户生物信息的平均值;
隐私保护单元,将计算得到的平均值对应的用户生物信息作为所述生物识别请求对应的隐私保护后的用户生物信息。
本说明书实施例中,所述生物识别处理模块504,包括:
信息发送单元,将所述确定的所述隐私保护后的用户生物信息发送给服务器,所述确定的所述隐私保护后的用户生物信息用于触发所述服务器基于预先存储的基准用户生物信息和所述隐私保护后的用户生物信息,对所述目标用户进行生物识别处理;
识别结果接收单元,接收所述服务器发送的对所述目标用户进行生物识别处理的生物识别结果。
本说明书实施例中,所述两个脱敏模型包括第一脱敏模型和第二脱敏模型,所述装置还包括:
第一样本构建模块,从不存在长尾分布的第一训练样本池中获取第一数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第二数量的第二训练样本数据,所述第一数量大于所述第二数量,基于所述第一数量的第一训练样本数据和所述第二数量的第二训练样本数据构建第三训练样本集;
第二样本构建模块,从不存在长尾分布的第一训练样本池中获取第二数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第一数量的第二训练样本数据,基于所述第二数量的第一训练样本数据和所述第一数量的第二训练样本数据构建第四训练样本集;
第一训练模块,基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型;
第二训练模块,基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
本说明书实施例中,所述装置还包括:
第一调整模块,基于所述第一损失函数对所述第三训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述第一训练模块,基于所述第三训练样本集中的训练样本数据、所述调整后的权重和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
本说明书实施例中,所述第一训练模块,包括:
第一脱敏单元,分别将所述第三训练样本集中的训练样本数据输入到所述第一脱敏模型中,得到所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据;
第一样本重建单元,分别将所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据输入到第一反脱敏模型中,以对所述脱敏后的第一样本数据进行样本还原,得到所述第三训练样本集中重建的训练样本数据;
第一训练单元,基于所述第三训练样本集中的训练样本数据、所述脱敏后的第一样本数据和所述第三训练样本集中重建的训练样本数据,通过预设的第一损失函数,确定所述第一脱敏模型和所述第一反脱敏模型是否收敛,如果否,则基于所述第三训练样本集继续对所述第一脱敏模型和所述第一反脱敏模型进行模型训练,直到所述第一脱敏模型和所述第一反脱敏模型收敛,得到训练后的第一脱敏模型。
本说明书实施例中,所述第一损失函数由所述脱敏后的第一样本数据与所述脱敏后的第一样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第一样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述装置还包括:
第二调整模块,基于所述第二损失函数对所述第四训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述第二训练模块,基于所述第四训练样本集中的训练样本数据、所述调整后的权重和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
本说明书实施例中,所述第二训练模块,包括:
第二脱敏单元,分别将所述第四训练样本集中的训练样本数据输入到所述第二脱敏模型中,得到所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据;
第二样本重建单元,分别将所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据输入到第二反脱敏模型中,以对所述脱敏后的第二样本数据进行样本还原,得到所述第四训练样本集中重建的训练样本数据;
第二训练单元,基于所述第四训练样本集中的训练样本数据、所述脱敏后的第二样本数据和所述第四训练样本集中重建的训练样本数据,通过预设的第二损失函数,确定所述第二脱敏模型和所述第二反脱敏模型是否收敛,如果否,则基于所述第四训练样本集继续对所述第二脱敏模型和所述第二反脱敏模型进行模型训练,直到所述第二脱敏模型和所述第二反脱敏模型收敛,得到训练后的第二脱敏模型。
本说明书实施例中,所述第二损失函数由所述脱敏后的第二样本数据与所述脱敏后的第二样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第二样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述第一脱敏模型和所述第二脱敏模型在模型训练之前的初始模型是基于预先训练的基准脱敏模型构建,所述基准脱敏模型是基于第五训练样本数据和预设的基准损失函数进行模型训练后得到,所述基准损失函数由脱敏后的第五训练样本数据与所述第五训练样本数据之间的相似度的最大值,以及所述脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述装置还包括:
损失计算模块,基于所述基准损失函数,计算每个所述第五训练样本数据对应的损失值;
第一选取模块,基于每个所述第五训练样本数据对应的损失值,从多个所述第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据;
第一特征提取模块,对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征;
聚类模块,对选取的第五训练样本数据对应的数据特征进行聚类,得到多个类别的数据特征;
第二特征提取模块,获取多个第六训练样本数据,并分别对每个第六训练样本数据进行特征提取,得到每个第六训练样本数据对应的数据特征;
样本池构建模块,计算第六训练样本数据对应的数据特征与所述多个类别的数据特征之间的距离之和,并基于计算的距离之和对所述多个第六训练样本数据进行筛选,分别得到所述第一训练样本池和所述第二训练样本池。
本说明书实施例提供一种生物识别处理装置,通过获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理,这样,通过采用两个模型架构相同的脱敏模型,输入不同分布的训练样本数据(其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布),最后结合两个脱敏模型的输出数据进行隐私保护处理,从而可以实现对各种不同类型的数据的全面覆盖,使得数据中不再存在中长尾问题,避免了算法歧视问题的出现。
实施例六
以上为本说明书实施例提供的生物识别处理装置,基于同样的思路,本说明书实施例还提供一种生物识别处理设备,如图6所示。
所述生物识别处理设备可以为上述实施例提供终端设备或服务器等。
生物识别处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对生物识别处理设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在生物识别处理设备上执行存储器602中的一系列计算机可执行指令。生物识别处理设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。
具体在本实施例中,生物识别处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对生物识别处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;
将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;
基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;
基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
本说明书实施例中,所述基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息,包括
计算两个脱敏模型输出的脱敏后的用户生物信息的平均值;
将计算得到的平均值对应的用户生物信息作为所述生物识别请求对应的隐私保护后的用户生物信息。
本说明书实施例中,所述基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理,包括:
将所述确定的所述隐私保护后的用户生物信息发送给服务器,所述确定的所述隐私保护后的用户生物信息用于触发所述服务器基于预先存储的基准用户生物信息和所述隐私保护后的用户生物信息,对所述目标用户进行生物识别处理;
接收所述服务器发送的对所述目标用户进行生物识别处理的生物识别结果。
本说明书实施例中,所述两个脱敏模型包括第一脱敏模型和第二脱敏模型,还包括:
从不存在长尾分布的第一训练样本池中获取第一数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第二数量的第二训练样本数据,所述第一数量大于所述第二数量,基于所述第一数量的第一训练样本数据和所述第二数量的第二训练样本数据构建第三训练样本集;
从不存在长尾分布的第一训练样本池中获取第二数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第一数量的第二训练样本数据,基于所述第二数量的第一训练样本数据和所述第一数量的第二训练样本数据构建第四训练样本集;
基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型;
基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
本说明书实施例中,还包括:
基于所述第一损失函数对所述第三训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型,包括:
基于所述第三训练样本集中的训练样本数据、所述调整后的权重和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
本说明书实施例中,所述基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型,包括:
分别将所述第三训练样本集中的训练样本数据输入到所述第一脱敏模型中,得到所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据;
分别将所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据输入到第一反脱敏模型中,以对所述脱敏后的第一样本数据进行样本还原,得到所述第三训练样本集中重建的训练样本数据;
基于所述第三训练样本集中的训练样本数据、所述脱敏后的第一样本数据和所述第三训练样本集中重建的训练样本数据,通过预设的第一损失函数,确定所述第一脱敏模型和所述第一反脱敏模型是否收敛,如果否,则基于所述第三训练样本集继续对所述第一脱敏模型和所述第一反脱敏模型进行模型训练,直到所述第一脱敏模型和所述第一反脱敏模型收敛,得到训练后的第一脱敏模型。
本说明书实施例中,所述第一损失函数由所述脱敏后的第一样本数据与所述脱敏后的第一样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第一样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,还包括:
基于所述第二损失函数对所述第四训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型,包括:
基于所述第四训练样本集中的训练样本数据、所述调整后的权重和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
本说明书实施例中,所述基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型,包括:
分别将所述第四训练样本集中的训练样本数据输入到所述第二脱敏模型中,得到所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据;
分别将所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据输入到第二反脱敏模型中,以对所述脱敏后的第二样本数据进行样本还原,得到所述第四训练样本集中重建的训练样本数据;
基于所述第四训练样本集中的训练样本数据、所述脱敏后的第二样本数据和所述第四训练样本集中重建的训练样本数据,通过预设的第二损失函数,确定所述第二脱敏模型和所述第二反脱敏模型是否收敛,如果否,则基于所述第四训练样本集继续对所述第二脱敏模型和所述第二反脱敏模型进行模型训练,直到所述第二脱敏模型和所述第二反脱敏模型收敛,得到训练后的第二脱敏模型。
本说明书实施例中,所述第二损失函数由所述脱敏后的第二样本数据与所述脱敏后的第二样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第二样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述第一脱敏模型和所述第二脱敏模型在模型训练之前的初始模型是基于预先训练的基准脱敏模型构建,所述基准脱敏模型是基于第五训练样本数据和预设的基准损失函数进行模型训练后得到,所述基准损失函数由脱敏后的第五训练样本数据与所述第五训练样本数据之间的相似度的最大值,以及所述脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,还包括:
基于所述基准损失函数,计算每个所述第五训练样本数据对应的损失值;
基于每个所述第五训练样本数据对应的损失值,从多个所述第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据;
对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征;
对选取的第五训练样本数据对应的数据特征进行聚类,得到多个类别的数据特征;
获取多个第六训练样本数据,并分别对每个第六训练样本数据进行特征提取,得到每个第六训练样本数据对应的数据特征;
计算第六训练样本数据对应的数据特征与所述多个类别的数据特征之间的距离之和,并基于计算的距离之和对所述多个第六训练样本数据进行筛选,分别得到所述第一训练样本池和所述第二训练样本池。
本说明书实施例提供一种生物识别处理设备,通过获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理,这样,通过采用两个模型架构相同的脱敏模型,输入不同分布的训练样本数据(其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布),最后结合两个脱敏模型的输出数据进行隐私保护处理,从而可以实现对各种不同类型的数据的全面覆盖,使得数据中不再存在中长尾问题,避免了算法歧视问题的出现。
实施例七
进一步地,基于上述图1到图4所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;
将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;
基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;
基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
本说明书实施例中,所述基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息,包括
计算两个脱敏模型输出的脱敏后的用户生物信息的平均值;
将计算得到的平均值对应的用户生物信息作为所述生物识别请求对应的隐私保护后的用户生物信息。
本说明书实施例中,所述基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理,包括:
将所述确定的所述隐私保护后的用户生物信息发送给服务器,所述确定的所述隐私保护后的用户生物信息用于触发所述服务器基于预先存储的基准用户生物信息和所述隐私保护后的用户生物信息,对所述目标用户进行生物识别处理;
接收所述服务器发送的对所述目标用户进行生物识别处理的生物识别结果。
本说明书实施例中,所述两个脱敏模型包括第一脱敏模型和第二脱敏模型,所述方法还包括:
从不存在长尾分布的第一训练样本池中获取第一数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第二数量的第二训练样本数据,所述第一数量大于所述第二数量,基于所述第一数量的第一训练样本数据和所述第二数量的第二训练样本数据构建第三训练样本集;
从不存在长尾分布的第一训练样本池中获取第二数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第一数量的第二训练样本数据,基于所述第二数量的第一训练样本数据和所述第一数量的第二训练样本数据构建第四训练样本集;
基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型;
基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
本说明书实施例中,还包括:
基于所述第一损失函数对所述第三训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型,包括:
基于所述第三训练样本集中的训练样本数据、所述调整后的权重和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
本说明书实施例中,所述基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型,包括:
分别将所述第三训练样本集中的训练样本数据输入到所述第一脱敏模型中,得到所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据;
分别将所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据输入到第一反脱敏模型中,以对所述脱敏后的第一样本数据进行样本还原,得到所述第三训练样本集中重建的训练样本数据;
基于所述第三训练样本集中的训练样本数据、所述脱敏后的第一样本数据和所述第三训练样本集中重建的训练样本数据,通过预设的第一损失函数,确定所述第一脱敏模型和所述第一反脱敏模型是否收敛,如果否,则基于所述第三训练样本集继续对所述第一脱敏模型和所述第一反脱敏模型进行模型训练,直到所述第一脱敏模型和所述第一反脱敏模型收敛,得到训练后的第一脱敏模型。
本说明书实施例中,所述第一损失函数由所述脱敏后的第一样本数据与所述脱敏后的第一样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第一样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,还包括:
基于所述第二损失函数对所述第四训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型,包括:
基于所述第四训练样本集中的训练样本数据、所述调整后的权重和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
本说明书实施例中,所述基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型,包括:
分别将所述第四训练样本集中的训练样本数据输入到所述第二脱敏模型中,得到所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据;
分别将所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据输入到第二反脱敏模型中,以对所述脱敏后的第二样本数据进行样本还原,得到所述第四训练样本集中重建的训练样本数据;
基于所述第四训练样本集中的训练样本数据、所述脱敏后的第二样本数据和所述第四训练样本集中重建的训练样本数据,通过预设的第二损失函数,确定所述第二脱敏模型和所述第二反脱敏模型是否收敛,如果否,则基于所述第四训练样本集继续对所述第二脱敏模型和所述第二反脱敏模型进行模型训练,直到所述第二脱敏模型和所述第二反脱敏模型收敛,得到训练后的第二脱敏模型。
本说明书实施例中,所述第二损失函数由所述脱敏后的第二样本数据与所述脱敏后的第二样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第二样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,所述第一脱敏模型和所述第二脱敏模型在模型训练之前的初始模型是基于预先训练的基准脱敏模型构建,所述基准脱敏模型是基于第五训练样本数据和预设的基准损失函数进行模型训练后得到,所述基准损失函数由脱敏后的第五训练样本数据与所述第五训练样本数据之间的相似度的最大值,以及所述脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定。
本说明书实施例中,还包括:
基于所述基准损失函数,计算每个所述第五训练样本数据对应的损失值;
基于每个所述第五训练样本数据对应的损失值,从多个所述第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据;
对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征;
对选取的第五训练样本数据对应的数据特征进行聚类,得到多个类别的数据特征;
获取多个第六训练样本数据,并分别对每个第六训练样本数据进行特征提取,得到每个第六训练样本数据对应的数据特征;
计算第六训练样本数据对应的数据特征与所述多个类别的数据特征之间的距离之和,并基于计算的距离之和对所述多个第六训练样本数据进行筛选,分别得到所述第一训练样本池和所述第二训练样本池。
本说明书实施例提供一种存储介质,通过获取目标用户的生物识别请求,该生物识别请求中包括目标用户的用户生物信息;将该用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;基于两个脱敏模型输出的脱敏后的用户生物信息,确定该生物识别请求对应的隐私保护后的用户生物信息;基于确定的隐私保护后的用户生物信息对目标用户进行生物识别处理,这样,通过采用两个模型架构相同的脱敏模型,输入不同分布的训练样本数据(其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布),最后结合两个脱敏模型的输出数据进行隐私保护处理,从而可以实现对各种不同类型的数据的全面覆盖,使得数据中不再存在中长尾问题,避免了算法歧视问题的出现。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (15)
1.一种生物识别处理方法,所述方法包括:
获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;
将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;
基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;
基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
2.根据权利要求1所述的方法,所述基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息,包括
计算两个脱敏模型输出的脱敏后的用户生物信息的平均值;
将计算得到的平均值对应的用户生物信息作为所述生物识别请求对应的隐私保护后的用户生物信息。
3.根据权利要求1所述的方法,所述基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理,包括:
将所述确定的所述隐私保护后的用户生物信息发送给服务器,所述确定的所述隐私保护后的用户生物信息用于触发所述服务器基于预先存储的基准用户生物信息和所述隐私保护后的用户生物信息,对所述目标用户进行生物识别处理;
接收所述服务器发送的对所述目标用户进行生物识别处理的生物识别结果。
4.根据权利要求1所述的方法,所述两个脱敏模型包括第一脱敏模型和第二脱敏模型,所述方法还包括:
从不存在长尾分布的第一训练样本池中获取第一数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第二数量的第二训练样本数据,所述第一数量大于所述第二数量,基于所述第一数量的第一训练样本数据和所述第二数量的第二训练样本数据构建第三训练样本集;
从不存在长尾分布的第一训练样本池中获取第二数量的第一训练样本数据,并从存在长尾分布的第二训练样本池中获取第一数量的第二训练样本数据,基于所述第二数量的第一训练样本数据和所述第一数量的第二训练样本数据构建第四训练样本集;
基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型;
基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
5.根据权利要求4所述的方法,所述方法还包括:
基于所述第一损失函数对所述第三训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型,包括:
基于所述第三训练样本集中的训练样本数据、所述调整后的权重和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型。
6.根据权利要求4或5所述的方法,所述基于所述第三训练样本集中的训练样本数据和预设的第一损失函数对所述第一脱敏模型进行模型训练,得到训练后的第一脱敏模型,包括:
分别将所述第三训练样本集中的训练样本数据输入到所述第一脱敏模型中,得到所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据;
分别将所述第三训练样本集中每个训练样本数据对应的脱敏后的第一样本数据输入到第一反脱敏模型中,以对所述脱敏后的第一样本数据进行样本还原,得到所述第三训练样本集中重建的训练样本数据;
基于所述第三训练样本集中的训练样本数据、所述脱敏后的第一样本数据和所述第三训练样本集中重建的训练样本数据,通过预设的第一损失函数,确定所述第一脱敏模型和所述第一反脱敏模型是否收敛,如果否,则基于所述第三训练样本集继续对所述第一脱敏模型和所述第一反脱敏模型进行模型训练,直到所述第一脱敏模型和所述第一反脱敏模型收敛,得到训练后的第一脱敏模型。
7.根据权利要求6所述的方法,所述第一损失函数由所述脱敏后的第一样本数据与所述脱敏后的第一样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第一样本数据中是否包括用户的身份信息的特征确定。
8.根据权利要求4所述的方法,所述方法还包括:
基于所述第二损失函数对所述第四训练样本集中的训练样本数据对应的权重进行调整,得到调整后的权重;
所述基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型,包括:
基于所述第四训练样本集中的训练样本数据、所述调整后的权重和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型。
9.根据权利要求4或8所述的方法,所述基于所述第四训练样本集中的训练样本数据和预设的第二损失函数对所述第二脱敏模型进行模型训练,得到训练后的第二脱敏模型,包括:
分别将所述第四训练样本集中的训练样本数据输入到所述第二脱敏模型中,得到所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据;
分别将所述第四训练样本集中每个训练样本数据对应的脱敏后的第二样本数据输入到第二反脱敏模型中,以对所述脱敏后的第二样本数据进行样本还原,得到所述第四训练样本集中重建的训练样本数据;
基于所述第四训练样本集中的训练样本数据、所述脱敏后的第二样本数据和所述第四训练样本集中重建的训练样本数据,通过预设的第二损失函数,确定所述第二脱敏模型和所述第二反脱敏模型是否收敛,如果否,则基于所述第四训练样本集继续对所述第二脱敏模型和所述第二反脱敏模型进行模型训练,直到所述第二脱敏模型和所述第二反脱敏模型收敛,得到训练后的第二脱敏模型。
10.根据权利要求9所述的方法,所述第二损失函数由所述脱敏后的第二样本数据与所述脱敏后的第二样本数据对应的原始训练样本数据之间的相似度的最大值,以及所述脱敏后的第二样本数据中是否包括用户的身份信息的特征确定。
11.根据权利要求4所述的方法,所述第一脱敏模型和所述第二脱敏模型在模型训练之前的初始模型是基于预先训练的基准脱敏模型构建,所述基准脱敏模型是基于第五训练样本数据和预设的基准损失函数进行模型训练后得到,所述基准损失函数由脱敏后的第五训练样本数据与所述第五训练样本数据之间的相似度的最大值,以及所述脱敏后的第五训练样本数据中是否包括用户的身份信息的特征确定。
12.根据权利要求11所述的方法,所述方法还包括:
基于所述基准损失函数,计算每个所述第五训练样本数据对应的损失值;
基于每个所述第五训练样本数据对应的损失值,从多个所述第五训练样本数据中选取损失值大于预设阈值的第五训练样本数据;
对选取的第五训练样本数据进行特征提取,得到选取的第五训练样本数据对应的数据特征;
对选取的第五训练样本数据对应的数据特征进行聚类,得到多个类别的数据特征;
获取多个第六训练样本数据,并分别对每个第六训练样本数据进行特征提取,得到每个第六训练样本数据对应的数据特征;
计算第六训练样本数据对应的数据特征与所述多个类别的数据特征之间的距离之和,并基于计算的距离之和对所述多个第六训练样本数据进行筛选,分别得到所述第一训练样本池和所述第二训练样本池。
13.一种生物识别处理装置,所述装置包括:
请求模块,获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;
脱敏模块,将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;
隐私保护模块,基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;
生物识别处理模块,基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
14.一种生物识别处理设备,所述生物识别处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;
将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;
基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;
基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
15.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取目标用户的生物识别请求,所述生物识别请求中包括所述目标用户的用户生物信息;
将所述用户生物信息分别输入到模型架构相同的两个脱敏模型中,得到每个脱敏模型输出的脱敏后的用户生物信息,所述两个脱敏模型在进行模型训练的过程中使用的训练样本数据不同,且其中的一个脱敏模型使用的训练样本数据的类型分布中存在长尾分布的数据类型在另一个脱敏模型使用的训练样本数据的类型分布中不属于长尾分布;
基于两个脱敏模型输出的脱敏后的用户生物信息,确定所述生物识别请求对应的隐私保护后的用户生物信息;
基于确定的所述隐私保护后的用户生物信息对所述目标用户进行生物识别处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210487943.6A CN114863481B (zh) | 2022-05-06 | 2022-05-06 | 一种生物识别处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210487943.6A CN114863481B (zh) | 2022-05-06 | 2022-05-06 | 一种生物识别处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114863481A true CN114863481A (zh) | 2022-08-05 |
CN114863481B CN114863481B (zh) | 2024-07-12 |
Family
ID=82635818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210487943.6A Active CN114863481B (zh) | 2022-05-06 | 2022-05-06 | 一种生物识别处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114863481B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311540A1 (en) * | 2019-03-28 | 2020-10-01 | International Business Machines Corporation | Layer-Wise Distillation for Protecting Pre-Trained Neural Network Models |
US20210064760A1 (en) * | 2019-09-03 | 2021-03-04 | Microsoft Technology Licensing, Llc | Protecting machine learning models from privacy attacks |
WO2021114931A1 (zh) * | 2019-12-09 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 防止隐私数据泄漏的编码模型训练方法及装置 |
CN113221747A (zh) * | 2021-05-13 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的隐私数据处理方法、装置及设备 |
-
2022
- 2022-05-06 CN CN202210487943.6A patent/CN114863481B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200311540A1 (en) * | 2019-03-28 | 2020-10-01 | International Business Machines Corporation | Layer-Wise Distillation for Protecting Pre-Trained Neural Network Models |
US20210064760A1 (en) * | 2019-09-03 | 2021-03-04 | Microsoft Technology Licensing, Llc | Protecting machine learning models from privacy attacks |
WO2021114931A1 (zh) * | 2019-12-09 | 2021-06-17 | 支付宝(杭州)信息技术有限公司 | 防止隐私数据泄漏的编码模型训练方法及装置 |
CN113221747A (zh) * | 2021-05-13 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的隐私数据处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
B. YANG 等: "Revealing Task-Relevant Model Memorization for Source-Protected Unsupervised Domain Adaptation", IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY, 7 February 2022 (2022-02-07), pages 716 - 731 * |
张煜;吕锡香;邹宇聪;李一戈;: "基于生成对抗网络的文本序列数据集脱敏", 网络与信息安全学报, no. 04, 15 August 2020 (2020-08-15), pages 109 - 119 * |
Also Published As
Publication number | Publication date |
---|---|
CN114863481B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105631466B (zh) | 图像分类的方法及装置 | |
CN111738244A (zh) | 图像检测方法、装置、计算机设备和存储介质 | |
CN111324874B (zh) | 一种证件真伪识别方法及装置 | |
CN110414550B (zh) | 人脸识别模型的训练方法、装置、系统和计算机可读介质 | |
US11094072B2 (en) | System and method for providing single image depth estimation based on deep neural network | |
WO2019191266A1 (en) | Object classification method, apparatus, server, and storage medium | |
CN112800468A (zh) | 一种基于隐私保护的数据处理方法、装置及设备 | |
CN111062431A (zh) | 图像聚类方法、图像聚类装置、电子设备及存储介质 | |
CN111709415A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN110909817B (zh) | 分布式聚类方法及系统、处理器、电子设备及存储介质 | |
CN116824339A (zh) | 图像处理方法及装置 | |
CN113221717B (zh) | 一种基于隐私保护的模型构建方法、装置及设备 | |
CN114880706A (zh) | 一种信息处理方法、装置及设备 | |
CN118428404A (zh) | 一种模型的知识蒸馏方法、装置及设备 | |
CN116503932B (zh) | 重点区域加权的眼周特征提取方法、系统及存储介质 | |
CN115374298B (zh) | 基于索引的虚拟形象数据处理方法及装置 | |
CN115577336A (zh) | 一种生物识别处理方法、装置及设备 | |
CN114863481A (zh) | 一种生物识别处理方法、装置及设备 | |
CN111428767B (zh) | 数据处理方法及装置、处理器、电子设备及存储介质 | |
CN113191364A (zh) | 车辆外观部件识别方法、装置、电子设备和介质 | |
Alford et al. | Genetic and evolutionary methods for biometric feature reduction | |
CN114840880A (zh) | 一种图像的处理方法、装置及设备 | |
CN114662706B (zh) | 一种模型训练方法、装置及设备 | |
CN117975045B (zh) | 基于模型的纹理识别处理方法及装置 | |
CN115982757B (zh) | 一种模型的隐私保护程度的确定方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |