CN113221717B - 一种基于隐私保护的模型构建方法、装置及设备 - Google Patents

一种基于隐私保护的模型构建方法、装置及设备 Download PDF

Info

Publication number
CN113221717B
CN113221717B CN202110491830.9A CN202110491830A CN113221717B CN 113221717 B CN113221717 B CN 113221717B CN 202110491830 A CN202110491830 A CN 202110491830A CN 113221717 B CN113221717 B CN 113221717B
Authority
CN
China
Prior art keywords
model
target model
target
sample
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110491830.9A
Other languages
English (en)
Other versions
CN113221717A (zh
Inventor
曹佳炯
丁菁汀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110491830.9A priority Critical patent/CN113221717B/zh
Publication of CN113221717A publication Critical patent/CN113221717A/zh
Application granted granted Critical
Publication of CN113221717B publication Critical patent/CN113221717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • G06V40/53Measures to keep reference information secret, e.g. cancellable biometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例公开了一种基于隐私保护的模型构建方法、装置及设备,该方法包括:获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型;基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。

Description

一种基于隐私保护的模型构建方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种基于隐私保护的模型构建方法、装置及设备。
背景技术
近年来,生物识别技术已经逐渐步入了人们的生产生活,例如,手机等移动终端设备的指纹识别系统、门禁的人脸识别系统以及高端防盗系统的虹膜识别系统等。另一方面,由于生物识别系统在识别的过程中,需要对用户的生物信息进行采集、处理、传输和存储,因此,用户的隐私信息(即如面部、指纹等生物信息)有可能会被泄漏。在此背景下,各类生物识别系统需要做好用户的隐私保护,以保护用户的隐私不受侵犯。
然而,目前大部分生物识别系统是基于深度学习框架构建的,而深度学习框架需要大量的样本数据进行训练,才能使得生物识别系统才能达到较高的性能,而以保护用户隐私为前提,大量采集和使用用户隐私数据来构建模型或优化模型是不可取的。为此,需要提供一种不需要任何隐私数据或尽可能少的隐私数据,即可训练得到一个新的性能较高甚至较当前模型更好的模型的技术方案。
发明内容
本说明书实施例的目的是提供一种不需要任何隐私数据或尽可能少的隐私数据,即可训练得到一个新的性能较高甚至较当前模型更好的模型的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于隐私保护的模型构建方法,所述方法包括:获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型。基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数。基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。
本说明书实施例提供的一种基于隐私保护的模型构建装置,所述装置包括:模型确定模块,获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型。损失函数确定模块,基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数。模型训练模块,基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。
本说明书实施例提供的一种基于隐私保护的模型构建设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型。基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数。基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型。基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数。基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本说明书一种基于隐私保护的模型构建方法实施例;
图1B为本说明书一种基于隐私保护的模型构建过程的示意图;
图2为本说明书一种获取基准模型的过程的示意图;
图3为本说明书另一种基于隐私保护的模型构建方法实施例;
图4为本说明书一种基于隐私保护的模型构建装置实施例;
图5为本说明书一种基于隐私保护的模型构建设备实施例。
具体实施方式
本说明书实施例提供一种基于隐私保护的模型构建方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1A和图1B所示,本说明书实施例提供一种基于隐私保护的模型构建方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或需要为指定的终端设备(如IoT设备等)生成高效的业务模型(如面部识别模型或虹膜识别模型等)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取经过训练的基准模型,并确定基于基准模型所需训练的目标模型。
其中,基准模型可以是预先已训练完成,且其性能超过预设性能阈值、功耗超过预设功耗阈值的模型,基准模型可以是满足上述条件的任意模型,例如,基准模型可以是面部识别模型,或者,基准模型可以是指纹识别模型,或者,基准模型可以是虹膜识别模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。目标模型可以是待训练的模型,目标模型可以与基准模型具有相同的作用或用途,例如,如果基准模型用于进行面部识别,则目标模型也可以用于面部识别,或者,如果基准模型用于进行虹膜识别,则目标模型也可以用于虹膜识别等,在实际应用中,相较于基准模型,目标模型可以是简化的、轻量化的模型,即基准模型通过模型蒸馏处理后,可以得到目标模型,其中的模型蒸馏处理为利用性能较强的母模型和样本数据,训练得到性能近似的子模型,子模型的模型尺寸和计算量相对较小,但其性能相较于未进行模型蒸馏处理的相同的模型会更好。
在实施中,近年来,生物识别技术已经逐渐步入了人们的生产生活,例如,手机等移动终端设备的指纹识别系统、门禁的人脸识别系统以及高端防盗系统的虹膜识别系统等。另一方面,由于生物识别系统在识别的过程中,需要对用户的生物信息进行采集、处理、传输和存储,因此,用户的隐私信息(即如面部、指纹等生物信息)有可能会被泄漏。同时,近年来随着生物信息泄漏引发的舆情和案件的增加,监管部门对该方面也愈加关注,在此背景下,各类生物识别系统需要做好用户的隐私保护,以保护用户的隐私不受侵犯。
然而,目前大部分生物识别系统是基于深度学习框架构建的,而深度学习框架需要大量的样本数据进行训练,才能使得生物识别系统才能达到较高的性能,而以保护用户隐私为前提,大量采集和使用用户隐私数据来构建模型或优化模型是不可取的。此外,当前也存在多种隐私保护的方案,例如,通过不可逆的操作对用户信息进行隐私保护处理(具体如可以将用户信息转换为特征的形式进行存储和传输等),这样用户信息将无法进行恢复。此方式对于用户隐私的安全性较高,黑产和不法份子难以使用隐私保护后的特征恢复得到用户信息。但是,由于模型训练的过程中只有特征数据,而无原始的用户信息,模型的训练和性能的提升将会停滞不前,如果数据分布发生明显变化,则模型的性能将会明显衰减,且无法通过模型训练提升其性能。再例如,可以使用可逆的数据变换操作(如进行简单的图像行列交换操作等),对用户信息进行加密,然后,模型训练的过程中,可以通过对应的逆变换进行解密,得到用户信息,但是此方式可以通过暴力破解的方式得到用户信息,安全性较低。为此,需要提供一种不需要任何隐私数据或尽可能少的隐私数据,即可训练得到一个新的性能较高甚至较当前模型更好的模型的技术方案。本说明书实施例提供一种可选的技术方案,具体可以包括以下内容:
当需要构建一个目标模型时,可以对该目标模型进行分析,确定目标模型的用途、使用的领域、内部架构等,然后,可以基于上述信息获取经过训练的模型(即基准模块),如可以基于目标模型的用途和使用的领域,从多个不同的经过训练的模型中选择与目标模型的用途和使用的领域相同的模型,并可以基于内部架构,从上述选择的模型中,选择其内部结构与目标模型的内容结构的相似度大于预定阈值的模型,从而可以从上述选择的模型中获取内部结构与目标模型的内容结构相似的模型,最终获取的模型即为基准模型。其中,上述多个不同的经过训练的模型可以是通过多种方式获取,例如,如图2所示,可以从指定的用于训练某模型的服务器中获取,或者,可以通过购买的方式从不同的提供方购买经过训练的基准模型。
通过上述方式得到基准模型后,可以确定需要构建和训练的目标模型,例如,可以基于基准模型的架构确定目标模型的架构,基于基准模型训练的损失函数确定目标模型的损失函数等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S104中,基于预设的样本生成规则生成用于训练目标模型的隐私样本数据,并基于基准模型,确定目标模型对应的损失函数。
其中,样本生成规则可以是用于生成隐私样本数据的规则,生成的隐私样本数据可以用户训练目标模型,生成的隐私样本数据中可以包括隐私数据,但该隐私数据并不属于任何实际用户,而是通过样本生成规则随机生成的一种隐私数据。损失函数(或可以称为代价函数)可以是将随机事件或其有关随机变量的取值映射为非负实数,以表示该随机事件的“风险”或“损失”的函数。
在实施中,可以根据实际情况,预先设定用于生成隐私样本数据的样本生成规则,该样本生成规则可以包括多种不同的构成形式,例如,该样本生成规则可以是由文本构成,该文本中可以记载有生成的隐私样本数据所需要满足的条件,以及用于产生隐私样本数据的算法等,或者,该样本生成规则可以是由一个或多个模型构成等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
通过上述方式构建样本生成规则后,可以由随机采样的高斯噪声等,通过该样本生成规则生成用于训练目标模型的隐私样本数据。然后,为了能够对目标模型进行训练,还需要构建目标模型训练过程中所使用的损失函数,由于生成的隐私样本数据不存在身份信息(即类别标签),因此,无法实现分类拟合,为了对目标模型进行训练,可以通过拟合基准模型的输出特征的方式确定目标模型的损失函数,为此,可以获取基准模型的输出特征,将基准模型的输出特征与目标模型的输出特征进行关联,构建目标模型的损失函数,例如,可以基于基准模型的输出特征与目标模型的输出特征相减的L2范数构建目标模型的损失函数。
在步骤S106中,基于生成的隐私样本数据、基准模型和目标模型对应的损失函数,对目标模型进行模型训练,得到训练后的目标模型。
在实施中,由于生成的隐私样本数据中不存在用户的身份信息(即不存在分类标签),因此,隐私样本数据无法对目标模型进行有监督的训练,为此,可以将基准模型输出的结果作为目标模型训练的指导,即可以将生成的某一隐私样本数据输入到基准模型中,通过基准模型的处理可以得到相应的输出结果,可以将该输出结果作为目标模型训练的指导(或作为分类标签),然后,可以将该隐私样本数据再次输入到目标模型中,并结合目标模型对应的损失函数和上述得到的分类标签,得到相应的结果,之后,选取下一个隐私样本数据输入到基准模型中得到相应的分类标签,再将该隐私样本数据输入到目标模型中,并结合目标模型对应的损失函数和上述得到的分类标签,得到相应的结果,以此类推,直到生成的隐私样本数据得到相应的结果,且最终目标模型收敛,则可以得到训练后的目标模型。
本说明书实施例提供一种基于隐私保护的模型构建方法,通过获取经过训练的基准模型,并确定基于基准模型所需训练的目标模型,然后,基于预设的样本生成规则生成用于训练目标模型的隐私样本数据,并基于基准模型,确定目标模型对应的损失函数,基于生成的隐私样本数据、基准模型和目标模型对应的损失函数,对目标模型进行模型训练,得到训练后的目标模型,这样,利用数据生成和模型蒸馏的方法,仅需要一个性能较好的基准模型,不需要任何隐私样本数据,即可训练得到一个新的性能与基准模型的性能类似,甚至更好的目标模型,而且,上述方式将不需要用户的隐私数据上传到服务器,从而在终端侧可以使用完成后销毁,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险,此外,通过上述方式可以使用云端高性能的模型进行蒸馏得到轻量级的目标模型。
实施例二
如图3所示,本说明书实施例提供一种基于隐私保护的模型构建方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或需要为指定的终端设备(如IoT设备等)生成高效的业务模型(如面部识别模型或虹膜识别模型等)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S302中,获取经过训练的基准模型。
其中,基准模型可以为部署于云端服务器中的预设业务的业务模型。其中的预设业务可以包括多种,例如,生物识别业务、支付业务、物流相关业务等,其中的生物识别业务可以包括多种,具体如面部识别业务、指纹识别业务等,具体可以根据实际情况设定,本说明书实施例对此不做限定。在实际应用中,上述基准模型可以为针对第一生物特征的生物特征识别模型,第一生物特征可以是任意生物特征,例如,面部特征或指纹特征等,基于此,基准模型可以是针对面部特征的生物特征识别模型,或者,基准模型可以是针对指纹特征或虹膜特征等的生物特征识别模型,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,可以通过多种不同的方式获取经过训练的基准模型,而且,该基准模型可以是高性能、高功耗的业务模型,在实际应用中,该基准模型也可以是开源的人脸比对模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
通过上述方式得到原始模型(即基准模型)后,可以获取需要构建的目标模型的相关信息,在实际应用中,在目标模型的选取上可以不存在任何限制,只需要满足使用该目标模型的终端设备(如IoT设备等)的运算时间、CPU占用要求和内存占用要求等属性条件即可。但是,在实际应用中,考虑到原始模型与目标模型的模型架构存在一定相似性会提升最终目标模型的性能,因此,为了提升目标模型的性能,可以在原始模型的基础上确定目标模型,具体可以参见下述步骤S304和步骤S306的处理。
在步骤S304中,获取基准模型的模型架构。
在实施中,不同的模型可以具备不同的模型架构,模型架构中可以包括一个或多个不同的网络层,也可以是包括一种或多种不同的组成结构,例如,对于卷积神经网络模型,其模型架构中可以包括卷积层、池化层和全连接层等,其中,卷积层可以包括一个或多个,相应的,池化层也可以包括一个或多个。因此,对于高性能、高功耗的基准模型来说,其模型架构可能会更加复杂,其中会包括一个或多个不同的网络层或组成结构,基于此,可以根据实际情况,对基准模型的模型架构进行简化和缩减,使得最终得到的目标模型能够满足终端设备的基本要求,为此,可以对基准模型进行分析,确定其中包含的模型架构,即可以获取基准模型中包含的网络层或组成结构的数量、每个网络层或组成结构中包含的参数的数量、每个网络层或组成结构的作用或用途等相关信息。
在步骤S306中,基于预设的模型修改规则对基准模型的模型架构进行修改,得到模型架构的复杂度小于基准模型的模型架构的复杂度的目标模型。
其中,基于上述内容,目标模型可以是基于基准模型构建的,因此,如果基准模型为针对第一生物特征的生物特征识别模型,则目标模型也可以为针对第一生物特征的生物特征识别模型,具体如,基准模型为面部识别模型,则目标模型也可以是面部识别模型。或者,需要构建的目标模型用于对用户的面部特征进行识别,则目标模型为面部识别模型,基于此,用于构建目标模型的基准模型也可以选择对用户的面部特征进行识别的面部识别模型。模型修改规则可以是对指定模型的模型结构进行修改,以使得修改后的模型能够适用于指定的设备或满足指定的条件对应的规则,模型修改规则可以通过多种不同的方式实现,例如可以通过文本的方式设置模型修改规则,或者,也可以是预先构建相应的模型或工具从而构建模型修改规则等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,为了提升目标模型的性能,可以对基准模型进行修改后得到目标模型的模型架构,具体地,可以针对待构建的目标模型的构建要求、应用要求等信息,预先设置基准模型的模型修改规则,然后,可以基于该模型修改规则对基准模型的模型架构进行修改,使得修改后的目标模型的模型架构满足上述构建要求、应用要求等要求,由于目标模型更适合于终端设备使用,而终端设备相比于服务器来说,性能相对较低,因此,最终得到目标模型的模型架构的复杂度相对于基准模型的模型架构的复杂度低,基于此,上述处理可以得到模型架构的复杂度小于基准模型的模型架构的复杂度的目标模型。
例如,基准模型为卷积神经网络模型(其中可以包括15个卷积层),为了最终的目标模型更适合于终端设备使用,可以设置相应的模型修改规则,具体如,模型修改规则可以为将基准模型中的卷积层更换为DepthWise卷积层,并将其中包含的卷积层的数量减少到预设数量范围内(如将其中包含的卷积层的数量减少到[3,5]范围内等),则可以基于模型修改规则将基准模型的模型架构中包含的卷积层更换为DepthWise卷积层,同时将其中包含的卷积层的数量由15减少到4,最终得到的模型架构可以作为目标模型的模型架构,通过上述处理,可以得到模型架构的复杂度小于基准模型的模型架构的复杂度的目标模型。这样,通过上述的模型修改的方式,可以使得原始模型(即基准模型)与目标模型保持高相似度,从而可以提升模型蒸馏的效率。
为了对目标模型进行训练,还需要样本数据,本实施例中使用的样本数据是用户的隐私数据,如果直接获取真实用户的隐私数据对目标模型进行训练,则会存在用户的隐私数据泄露等问题,为了保护用户隐私,可以不需要获取真实用户的隐私数据,而采用生成隐私样本数据的方式确定样本数据。生成隐私样本数据的方式可以包括多种,以下提供一种可选的方式,具体可以参见下述步骤S308和步骤S310的处理。
在步骤S308中,基于预设的样本生成规则构建样本生成模型,并生成用于约束样本生成模型的样本损失函数。
在实施中,为了简化后续生成隐私样本数据的过程,可以基于样本生成规则生成相应的样本生成模型的模型架构,该样本生成模型的模型架构可以基于预设的算法构建,例如,该样本生成模型的模型架构可以基于神经网络模型构建,或者,还可以基于其它模型构建,具体可以根据实际情况设定,本说明书实施例对此不做限定。在实际应用中,可以根据样本生成规则,并使用预设的算法构建样本生成模型的模型架构。样本生成模型的模型架构构建完成后,可以对样本生成模型进行训练,在训练样本生成模型的过程中,需要使用用于约束样本生成模型的样本损失函数,该样本损失函数可以通过样本生成规则构建,例如,为了生成的隐私样本数据的多样性,该样本生成规则中可以设置有能够实现生成的隐私样本数据的多样性的子规则,从而保证隐私样本数据丰富多样,具体可以通过预先设定的算法实现,即可以通过相应的算法对样本生成规则中包含的子规则进行分析计算,以将其转换为样本损失函数。此外,样本生成规则还需要保证能够生成符合条件的隐私样本数据,例如需要的隐私样本数据为包括指纹的数据,而不是需要只包括人脸的数据等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实际应用中,样本损失函数可以通过多种不同的方式构建,以下提供一种可选的处理方式,具体可以包括以下内容:样本损失函数由以下中的一项或多项构建:有效性约束条件、多样性约束条件和特征分布约束条件,其中,有效性约束条件用于约束样本生成模型生成的隐私样本数据的有效性,多样性约束条件用于约束样本生成模型生成的隐私样本数据对应的类别的数量大于预设数量阈值,特征分布约束条件用于约束样本生成模型生成的隐私样本数据分布和实际数据分布的差异度小于预设差异度阈值。
本说明书的另一个实施例中,样本损失函数可以由有效性约束条件、多样性约束条件和特征分布约束条件构建,这样,上述三个约束条件分别针对生成的隐私样本数据的一个方面特征进行加强,例如,多样性约束条件会使得生成的隐私样本数据的类别更加多样,而不是集中在一个类别或少数的类别中。
其中,有效性约束条件可以用于约束生成的隐私样本数据更加容易被人类所感知和理解,而相较于其它生成隐私样本数据的方法,其生成的隐私样本数据类似于随机噪声,与实际中的隐私样本数据之间的差异较大。在实际应用中,有效性约束条件可以包括方差约束子条件和/或范数约束子条件,方差约束子条件由隐私样本数据的方差构建,范数约束子条件由隐私样本数据的L2范数构建,有效性约束条件基于对隐私样本数据的方差进行最小化处理得到,或基于对隐私样本数据的L2范数进行最小化处理得到,或基于对隐私样本数据的方差与隐私样本数据的L2范数相加的和进行最小化处理得到。
例如,有效性约束条件可以包括两部分,即方差约束子条件和范数约束子条件,具体如下公式所示:
其中,LE为有效性约束条件,LTV为方差约束子条件,Lnorm为范数约束子条件,前半部分为求取隐私样本数据/>的方差,后半部分/>求取隐私样本数据/>的L2范数。通过最小化有效性约束条件,可以得到更加真实的隐私样本数据。具体如,以生成的隐私样本数据为用户的面部图像为例,/>可以为求取用户的面部图像/>的方差(由于正常图像有局部连续性,一般方差相比噪声都会明显较小),后半部分/>求取用户的面部/>的L2范数,通过最小化有效性约束条件,可以得到更加真实的用户面部图像。
其中,多样性约束条件由隐私样本数据基于基准模型进行分类而得到的类别的熵构建。基于前述内容,多样性约束条件会使得生成的隐私样本数据的类别更加丰富,避免产生类别偏差等问题。多样性约束条件可以通过下述表达式表征:
其中,LM表示多样性约束条件,H()表示熵,T()表示基准模型的分类结果,即基准模型在生成的隐私样本数据集合上,要保证熵在一个较高水平,即各个类别的分布较为均匀,没有偏差。
其中,特征分布约束条件由样本生成模型生成的隐私样本数据的方差和均值与基准模型对应的隐私样本数据的方差和均值构建。即特征分布约束条件是利用基准模型在BN(Batch Normalization)层记录的真实训练数据的均值和方差来设置相应的约束条件,该约束条件可以保障生成的隐私样本数据分布和数据真实分布在均值和方差上差异较小,其中的BN层可以是基准模型中的预处理层,该预处理层可以用于对数据进行归一化处理等,具体可以根据实际情况设定,本说明书实施例对此不做限定。具体的损失函数公式可以如下:
其中,LD表示特征分布约束条件,表示生成的隐私样本数据的均值,表示生成的隐私样本数据的方差,u表示基准模型对应的隐私样本数据的均值,表示基准模型对应的隐私样本数据的方差。
基于上述有效性约束条件、多样性约束条件和特征分布约束条件,可以对上述三个约束条件进行加权,即可以得到
LG=α*LE+β*LM+γ*LD
其中,LG表示样本损失函数,α、β和γ为其对应的权重,α、β和γ的取值在0-1之间。
在步骤S310中,基于样本损失函数对样本生成模型进行模型训练,得到训练后的样本生成模型,并基于训练后的样本生成模型生成用于训练目标模型的隐私样本数据。
在实施中,为了提高隐私样本数据的生成效率,以及增加隐私样本数据的多样性,可以在样本生成模型中加入高斯噪声发生模块,以产生高斯噪声加入生成的隐私样本数据中进而产生新的隐私样本数据,可以通过上述方式快速提高隐私样本数据的数据量。
在步骤S312中,基于基准模型,确定目标模型对应的损失函数。
在实施中,由于生成的隐私样本数据不存在用户的身份信息(即没有类别标签),因此无法进行分类拟合。为了训练目标模型,可以通过拟合原始模型(即基准模型)的输出特征的方式来达到相应的目的,即
其中,LT表示目标模型对应的损失函数,fl S为基准模型第l层特征,而fl T为目标模型第l层特征。
在步骤S314中,将生成的隐私样本数据输入到基准模型中,得到相应的输出结果。
在步骤S316中,将上述输出结果作为样本标签,并结合生成的隐私样本数据和目标模型对应的损失函数,对目标模型进行有监督的模型训练,得到训练后的目标模型。
对于上述步骤S310~步骤S316的处理中,具体的模型训练过程可以为:可以将目标模型保持不变,样本生成模型进行N轮迭代(如N可以为100等),然后,再将样本生成模型保持不变,目标模型进行M轮迭代(M一般远小于N,例如M可以为10等),循环执行上述两步操作,直至相应的损失函数收敛为止,最终可以得到训练后的目标模型,这样,通过样本生成模型和目标模型的交替训练,逐步提升目标模型的性能和样本生成模型生成隐私样本数据的质量。
通过上述方式训练得到目标模型后,可以将目标模型部署到相应的设备(如IoT设备等)中,具体可以参见下述步骤S318的处理。
在步骤S318中,将训练后的目标模型发送给预定的终端设备,以使终端设备基于训练后的目标模型对指定的用户隐私数据进行处理。
其中,用户隐私数据可以包括多种,具体可以根据目标模型的功能设定,例如,目标模型为人脸识别模型,则终端设备可以基于训练后的目标模型对用户的面部图像进行识别,再例如,目标模型为虹膜识别模型,则终端设备可以基于训练后的目标模型对用户的虹膜数据进行识别等。
本说明书实施例提供一种基于隐私保护的模型构建方法,通过获取经过训练的基准模型,并确定基于基准模型所需训练的目标模型,然后,基于预设的样本生成规则生成用于训练目标模型的隐私样本数据,并基于基准模型,确定目标模型对应的损失函数,基于生成的隐私样本数据、基准模型和目标模型对应的损失函数,对目标模型进行模型训练,得到训练后的目标模型,这样,利用数据生成和模型蒸馏的方法,仅需要一个性能较好的基准模型,不需要任何隐私样本数据,即可训练得到一个新的性能与基准模型的性能类似,甚至更好的目标模型,而且,上述方式将不需要用户的隐私数据上传到服务器,从而在终端侧可以使用完成后销毁,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险,此外,通过上述方式可以使用云端高性能的模型进行蒸馏得到轻量级的目标模型。
实施例三
以上为本说明书实施例提供的基于隐私保护的模型构建方法,基于同样的思路,本说明书实施例还提供一种基于隐私保护的模型构建装置,如图4所示。
该基于隐私保护的模型构建装置包括:模型确定模块401、损失函数确定模块402和模型训练模块403,其中:
模型确定模块401,获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型;
损失函数确定模块402,基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;
模型训练模块403,基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。
本说明书实施例中,所述模型确定模块401,包括:
模型架构确定单元,获取所述基准模型的模型架构;
模型确定单元,基于预设的模型修改规则对所述基准模型的模型架构进行修改,得到模型架构的复杂度小于所述基准模型的模型架构的复杂度的目标模型。
本说明书实施例中,所述装置还包括:
模型部署模块,将所述训练后的目标模型发送给预定的终端设备,以使所述终端设备基于所述训练后的目标模型对指定的用户隐私数据进行处理。
本说明书实施例中,所述损失函数确定模块402,包括:
样本生成模型构建单元,基于预设的样本生成规则构建样本生成模型的模型架构,并生成用于约束所述样本生成模型的样本损失函数;
样本生成单元,基于所述样本损失函数对所述样本生成模型进行模型训练,得到训练后的样本生成模型,并基于训练后的样本生成模型生成用于训练所述目标模型的隐私样本数据。
本说明书实施例中,所述样本损失函数由以下中的一项或多项构建:有效性约束条件、多样性约束条件和特征分布约束条件,其中,有效性约束条件用于约束所述样本生成模型生成的隐私样本数据的有效性,所述多样性约束条件用于约束所述样本生成模型生成的隐私样本数据对应的类别的数量大于预设数量阈值,所述特征分布约束条件用于约束所述样本生成模型生成的隐私样本数据分布和实际数据分布的差异度小于预设差异度阈值。
本说明书实施例中,所述有效性约束条件包括方差约束子条件和/或范数约束子条件,所述方差约束子条件由隐私样本数据的方差构建,所述范数约束子条件由隐私样本数据的L2范数构建,所述有效性约束条件基于对隐私样本数据的方差进行最小化处理得到,或基于对隐私样本数据的L2范数进行最小化处理得到,或基于对隐私样本数据的方差与隐私样本数据的L2范数相加的和进行最小化处理得到。
本说明书实施例中,所述多样性约束条件由隐私样本数据基于所述基准模型进行分类而得到的类别的熵构建。
本说明书实施例中,所述特征分布约束条件由所述样本生成模型生成的隐私样本数据的方差和均值与所述基准模型对应的隐私样本数据的方差和均值构建。
本说明书实施例中,所述模型训练模块403,包括:
标签确定单元,将生成的所述隐私样本数据输入到所述基准模型中,得到相应的输出结果;
模型训练单元,将所述输出结果作为样本标签,并结合生成的所述隐私样本数据和所述目标模型对应的损失函数,对所述目标模型进行有监督的模型训练,得到训练后的目标模型。
本说明书实施例中,所述基准模型为部署于云端服务器中的预设业务的业务模型。
本说明书实施例中,所述基准模型为针对第一生物特征的生物特征识别模型,所述目标模型为针对所述第一生物特征的生物特征识别模型。
本说明书实施例提供一种基于隐私保护的模型构建装置,通过获取经过训练的基准模型,并确定基于基准模型所需训练的目标模型,然后,基于预设的样本生成规则生成用于训练目标模型的隐私样本数据,并基于基准模型,确定目标模型对应的损失函数,基于生成的隐私样本数据、基准模型和目标模型对应的损失函数,对目标模型进行模型训练,得到训练后的目标模型,这样,利用数据生成和模型蒸馏的方法,仅需要一个性能较好的基准模型,不需要任何隐私样本数据,即可训练得到一个新的性能与基准模型的性能类似,甚至更好的目标模型,而且,上述方式将不需要用户的隐私数据上传到服务器,从而在终端侧可以使用完成后销毁,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险,此外,通过上述方式可以使用云端高性能的模型进行蒸馏得到轻量级的目标模型。
实施例四
以上为本说明书实施例提供的基于隐私保护的模型构建装置,基于同样的思路,本说明书实施例还提供一种基于隐私保护的模型构建设备,如图5所示。
所述基于隐私保护的模型构建设备可以为上述实施例提供的终端设备或服务器等。
基于隐私保护的模型构建设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器501和存储器502,存储器502中可以存储有一个或一个以上存储应用程序或数据。其中,存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对基于隐私保护的模型构建设备中的一系列计算机可执行指令。更进一步地,处理器501可以设置为与存储器502通信,在基于隐私保护的模型构建设备上执行存储器502中的一系列计算机可执行指令。基于隐私保护的模型构建设备还可以包括一个或一个以上电源503,一个或一个以上有线或无线网络接口504,一个或一个以上输入输出接口505,一个或一个以上键盘506。
具体在本实施例中,基于隐私保护的模型构建设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的模型构建设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型;
基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;
基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。
本说明书实施例中,所述确定基于所述基准模型所需训练的目标模型,包括:
获取所述基准模型的模型架构;
基于预设的模型修改规则对所述基准模型的模型架构进行修改,得到模型架构的复杂度小于所述基准模型的模型架构的复杂度的目标模型。
本说明书实施例中,还包括:
将所述训练后的目标模型发送给预定的终端设备,以使所述终端设备基于所述训练后的目标模型对指定的用户隐私数据进行处理。
本说明书实施例中,所述基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,包括:
基于预设的样本生成规则构建样本生成模型的模型架构,并生成用于约束所述样本生成模型的样本损失函数;
基于所述样本损失函数对所述样本生成模型进行模型训练,得到训练后的样本生成模型,并基于训练后的样本生成模型生成用于训练所述目标模型的隐私样本数据。
本说明书实施例中,所述样本损失函数由以下中的一项或多项构建:有效性约束条件、多样性约束条件和特征分布约束条件,其中,有效性约束条件用于约束所述样本生成模型生成的隐私样本数据的有效性,所述多样性约束条件用于约束所述样本生成模型生成的隐私样本数据对应的类别的数量大于预设数量阈值,所述特征分布约束条件用于约束所述样本生成模型生成的隐私样本数据分布和实际数据分布的差异度小于预设差异度阈值。
本说明书实施例中,所述有效性约束条件包括方差约束子条件和/或范数约束子条件,所述方差约束子条件由隐私样本数据的方差构建,所述范数约束子条件由隐私样本数据的L2范数构建,所述有效性约束条件基于对隐私样本数据的方差进行最小化处理得到,或基于对隐私样本数据的L2范数进行最小化处理得到,或基于对隐私样本数据的方差与隐私样本数据的L2范数相加的和进行最小化处理得到。
本说明书实施例中,所述多样性约束条件由隐私样本数据基于所述基准模型进行分类而得到的类别的熵构建。
本说明书实施例中,所述特征分布约束条件由所述样本生成模型生成的隐私样本数据的方差和均值与所述基准模型对应的隐私样本数据的方差和均值构建。
本说明书实施例中,所述基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,包括:
将生成的所述隐私样本数据输入到所述基准模型中,得到相应的输出结果;
将所述输出结果作为样本标签,并结合生成的所述隐私样本数据和所述目标模型对应的损失函数,对所述目标模型进行有监督的模型训练,得到训练后的目标模型。
本说明书实施例中,所述基准模型为部署于云端服务器中的预设业务的业务模型。
本说明书实施例中,所述基准模型为针对第一生物特征的生物特征识别模型,所述目标模型为针对所述第一生物特征的生物特征识别模型。
本说明书实施例提供一种基于隐私保护的模型构建设备,通过获取经过训练的基准模型,并确定基于基准模型所需训练的目标模型,然后,基于预设的样本生成规则生成用于训练目标模型的隐私样本数据,并基于基准模型,确定目标模型对应的损失函数,基于生成的隐私样本数据、基准模型和目标模型对应的损失函数,对目标模型进行模型训练,得到训练后的目标模型,这样,利用数据生成和模型蒸馏的方法,仅需要一个性能较好的基准模型,不需要任何隐私样本数据,即可训练得到一个新的性能与基准模型的性能类似,甚至更好的目标模型,而且,上述方式将不需要用户的隐私数据上传到服务器,从而在终端侧可以使用完成后销毁,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险,此外,通过上述方式可以使用云端高性能的模型进行蒸馏得到轻量级的目标模型。
实施例五
进一步地,基于上述图1A至图3所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型;
基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;
基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型。
本说明书实施例中,所述确定基于所述基准模型所需训练的目标模型,包括:
获取所述基准模型的模型架构;
基于预设的模型修改规则对所述基准模型的模型架构进行修改,得到模型架构的复杂度小于所述基准模型的模型架构的复杂度的目标模型。
本说明书实施例中,还包括:
将所述训练后的目标模型发送给预定的终端设备,以使所述终端设备基于所述训练后的目标模型对指定的用户隐私数据进行处理。
本说明书实施例中,所述基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,包括:
基于预设的样本生成规则构建样本生成模型的模型架构,并生成用于约束所述样本生成模型的样本损失函数;
基于所述样本损失函数对所述样本生成模型进行模型训练,得到训练后的样本生成模型,并基于训练后的样本生成模型生成用于训练所述目标模型的隐私样本数据。
本说明书实施例中,所述样本损失函数由以下中的一项或多项构建:有效性约束条件、多样性约束条件和特征分布约束条件,其中,有效性约束条件用于约束所述样本生成模型生成的隐私样本数据的有效性,所述多样性约束条件用于约束所述样本生成模型生成的隐私样本数据对应的类别的数量大于预设数量阈值,所述特征分布约束条件用于约束所述样本生成模型生成的隐私样本数据分布和实际数据分布的差异度小于预设差异度阈值。
本说明书实施例中,所述有效性约束条件包括方差约束子条件和/或范数约束子条件,所述方差约束子条件由隐私样本数据的方差构建,所述范数约束子条件由隐私样本数据的L2范数构建,所述有效性约束条件基于对隐私样本数据的方差进行最小化处理得到,或基于对隐私样本数据的L2范数进行最小化处理得到,或基于对隐私样本数据的方差与隐私样本数据的L2范数相加的和进行最小化处理得到。
本说明书实施例中,所述多样性约束条件由隐私样本数据基于所述基准模型进行分类而得到的类别的熵构建。
本说明书实施例中,所述特征分布约束条件由所述样本生成模型生成的隐私样本数据的方差和均值与所述基准模型对应的隐私样本数据的方差和均值构建。
本说明书实施例中,所述基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,包括:
将生成的所述隐私样本数据输入到所述基准模型中,得到相应的输出结果;
将所述输出结果作为样本标签,并结合生成的所述隐私样本数据和所述目标模型对应的损失函数,对所述目标模型进行有监督的模型训练,得到训练后的目标模型。
本说明书实施例中,所述基准模型为部署于云端服务器中的预设业务的业务模型。
本说明书实施例中,所述基准模型为针对第一生物特征的生物特征识别模型,所述目标模型为针对所述第一生物特征的生物特征识别模型。
本说明书实施例提供一种存储介质,通过获取经过训练的基准模型,并确定基于基准模型所需训练的目标模型,然后,基于预设的样本生成规则生成用于训练目标模型的隐私样本数据,并基于基准模型,确定目标模型对应的损失函数,基于生成的隐私样本数据、基准模型和目标模型对应的损失函数,对目标模型进行模型训练,得到训练后的目标模型,这样,利用数据生成和模型蒸馏的方法,仅需要一个性能较好的基准模型,不需要任何隐私样本数据,即可训练得到一个新的性能与基准模型的性能类似,甚至更好的目标模型,而且,上述方式将不需要用户的隐私数据上传到服务器,从而在终端侧可以使用完成后销毁,从而避免了隐私信息的传输/存储,进而降低隐私泄漏的风险,此外,通过上述方式可以使用云端高性能的模型进行蒸馏得到轻量级的目标模型。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (16)

1.一种基于隐私保护的模型构建方法,所述方法包括:
获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型,所述基准模型用于生物特征识别,所述目标模型与所述基准模型具有相同的作用或用途,且所述目标模型的模型架构的复杂度小于所述基准模型的模型架构的复杂度;
基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;
基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,所述隐私样本数据中不存在分类标签,所述基准模型用于生成所述分类标签,以通过所述分类标签对所述目标模型进行有监督的训练;
其中,所述基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,包括:
基于预设迭代次数,对样本生成模型和所述目标模型进行交替训练,得到所述训练后的目标模型,所述样本生成模型用于生成用于训练所述目标模型的隐私样本数据,所述基准模型用于确定所述目标模型对应的损失函数;
所述基于预设迭代次数,对样本生成模型和所述目标模型进行交替训练,得到所述训练后的目标模型,包括:
保持所述目标模型不变,基于第一预设迭代次数,对所述样本生成模型进行迭代,在保持迭代后的样本生成模型不变,基于第二预设迭代次数,对所述目标模型进行训练,直到所述目标模型对应的损失函数收敛,得到所述训练后的目标模型,所述第二预设迭代次数小于所述第一预设迭代次数;
其中,所述样本生成模型基于样本损失函数进行训练,所述样本损失函数由多样性约束条件构建,所述多样性约束条件由隐私样本数据基于所述基准模型进行分类而得到的类别的熵构建。
2.根据权利要求1所述的方法,所述确定基于所述基准模型所需训练的目标模型,包括:
获取所述基准模型的模型架构;
基于预设的模型修改规则对所述基准模型的模型架构进行修改,得到模型架构的复杂度小于所述基准模型的模型架构的复杂度的目标模型。
3.根据权利要求1所述的方法,所述方法还包括:
将所述训练后的目标模型发送给预定的终端设备,以使所述终端设备基于所述训练后的目标模型对指定的用户隐私数据进行处理。
4.根据权利要求1所述的方法,所述基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,包括:
基于预设的样本生成规则构建所述样本生成模型的模型架构,并生成用于约束所述样本生成模型的所述样本损失函数;
基于所述样本损失函数对所述样本生成模型进行模型训练,得到训练后的样本生成模型,并基于训练后的样本生成模型生成用于训练所述目标模型的隐私样本数据。
5.根据权利要求4所述的方法,所述样本损失函数由以下中的一项或多项构建:有效性约束条件、所述多样性约束条件和特征分布约束条件,其中,有效性约束条件用于约束所述样本生成模型生成的隐私样本数据的有效性,所述多样性约束条件用于约束所述样本生成模型生成的隐私样本数据对应的类别的数量大于预设数量阈值,所述特征分布约束条件用于约束所述样本生成模型生成的隐私样本数据分布和实际数据分布的差异度小于预设差异度阈值。
6.根据权利要求5所述的方法,所述有效性约束条件包括方差约束子条件和/或范数约束子条件,所述方差约束子条件由隐私样本数据的方差构建,所述范数约束子条件由隐私样本数据的L2范数构建,所述有效性约束条件基于对隐私样本数据的方差进行最小化处理得到,或基于对隐私样本数据的L2范数进行最小化处理得到,或基于对隐私样本数据的方差与隐私样本数据的L2范数相加的和进行最小化处理得到。
7.根据权利要求5所述的方法,所述特征分布约束条件由所述样本生成模型生成的隐私样本数据的方差和均值与所述基准模型对应的隐私样本数据的方差和均值构建。
8.根据权利要求4所述的方法,所述基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,包括:
将生成的所述隐私样本数据输入到所述基准模型中,得到相应的输出结果;
将所述输出结果作为样本标签,并结合生成的所述隐私样本数据和所述目标模型对应的损失函数,对所述目标模型进行有监督的模型训练,得到训练后的目标模型。
9.根据权利要求1-8中任一项所述的方法,所述基准模型为部署于云端服务器中的预设业务的业务模型。
10.根据权利要求9所述的方法,所述基准模型为针对第一生物特征的生物特征识别模型,所述目标模型为针对所述第一生物特征的生物特征识别模型。
11.一种基于隐私保护的模型构建装置,所述装置包括:
模型确定模块,获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型,所述基准模型用于生物特征识别,所述目标模型与所述基准模型具有相同的作用或用途,且所述目标模型的模型架构的复杂度小于所述基准模型的模型架构的复杂度;
损失函数确定模块,基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;
模型训练模块,基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,所述隐私样本数据中不存在分类标签,所述基准模型用于生成所述分类标签,以通过所述分类标签对所述目标模型进行有监督的训练;
其中,所述模型训练模块,用于:
基于预设迭代次数,对样本生成模型和所述目标模型进行交替训练,得到所述训练后的目标模型,所述样本生成模型用于生成用于训练所述目标模型的隐私样本数据,所述基准模型用于确定所述目标模型对应的损失函数;
所述模型训练模块,用于:
保持所述目标模型不变,基于第一预设迭代次数,对所述样本生成模型进行迭代,在保持迭代后的样本生成模型不变,基于第二预设迭代次数,对所述目标模型进行训练,直到所述目标模型对应的损失函数收敛,得到所述训练后的目标模型,所述第二预设迭代次数小于所述第一预设迭代次数;
其中,所述样本生成模型基于样本损失函数进行训练,所述样本损失函数由多样性约束条件构建,所述多样性约束条件由隐私样本数据基于所述基准模型进行分类而得到的类别的熵构建。
12.根据权利要求11所述的装置,所述模型确定模块,包括:
模型架构确定单元,获取所述基准模型的模型架构;
模型确定单元,基于预设的模型修改规则对所述基准模型的模型架构进行修改,得到模型架构的复杂度小于所述基准模型的模型架构的复杂度的目标模型。
13.根据权利要求11所述的装置,所述损失函数确定模块,包括:
样本生成模型构建单元,基于预设的样本生成规则构建所述样本生成模型的模型架构,并生成用于约束所述样本生成模型的所述样本损失函数;
样本生成单元,基于所述样本损失函数对所述样本生成模型进行模型训练,得到训练后的样本生成模型,并基于训练后的样本生成模型生成用于训练所述目标模型的隐私样本数据。
14.根据权利要求13所述的装置,所述样本损失函数由以下中的一项或多项构建:有效性约束条件、所述多样性约束条件和特征分布约束条件,其中,有效性约束条件用于约束所述样本生成模型生成的隐私样本数据的有效性,所述多样性约束条件用于约束所述样本生成模型生成的隐私样本数据对应的类别的数量大于预设数量阈值,所述特征分布约束条件用于约束所述样本生成模型生成的隐私样本数据分布和实际数据分布的差异度小于预设差异度阈值。
15.一种基于隐私保护的模型构建设备,所述基于隐私保护的模型构建设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型,所述基准模型用于生物特征识别,所述目标模型与所述基准模型具有相同的作用或用途,且所述目标模型的模型架构的复杂度小于所述基准模型的模型架构的复杂度;
基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;
基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,所述隐私样本数据中不存在分类标签,所述基准模型用于生成所述分类标签,以通过所述分类标签对所述目标模型进行有监督的训练;
其中,所述基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,包括:
基于预设迭代次数,对样本生成模型和所述目标模型进行交替训练,得到所述训练后的目标模型,所述样本生成模型用于生成用于训练所述目标模型的隐私样本数据,所述基准模型用于确定所述目标模型对应的损失函数;
所述基于预设迭代次数,对样本生成模型和所述目标模型进行交替训练,得到所述训练后的目标模型,包括:
保持所述目标模型不变,基于第一预设迭代次数,对所述样本生成模型进行迭代,在保持迭代后的样本生成模型不变,基于第二预设迭代次数,对所述目标模型进行训练,直到所述目标模型对应的损失函数收敛,得到所述训练后的目标模型,所述第二预设迭代次数小于所述第一预设迭代次数;
其中,所述样本生成模型基于样本损失函数进行训练,所述样本损失函数由多样性约束条件构建,所述多样性约束条件由隐私样本数据基于所述基准模型进行分类而得到的类别的熵构建。
16.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取经过训练的基准模型,并确定基于所述基准模型所需训练的目标模型,所述基准模型用于生物特征识别,所述目标模型与所述基准模型具有相同的作用或用途,且所述目标模型的模型架构的复杂度小于所述基准模型的模型架构的复杂度;
基于预设的样本生成规则生成用于训练所述目标模型的隐私样本数据,并基于所述基准模型,确定所述目标模型对应的损失函数;
基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,所述隐私样本数据中不存在分类标签,所述基准模型用于生成所述分类标签,以通过所述分类标签对所述目标模型进行有监督的训练;
其中,所述基于生成的所述隐私样本数据、所述基准模型和所述目标模型对应的损失函数,对所述目标模型进行模型训练,得到训练后的目标模型,包括:
基于预设迭代次数,对样本生成模型和所述目标模型进行交替训练,得到所述训练后的目标模型,所述样本生成模型用于生成用于训练所述目标模型的隐私样本数据,所述基准模型用于确定所述目标模型对应的损失函数;
所述基于预设迭代次数,对样本生成模型和所述目标模型进行交替训练,得到所述训练后的目标模型,包括:
保持所述目标模型不变,基于第一预设迭代次数,对所述样本生成模型进行迭代,在保持迭代后的样本生成模型不变,基于第二预设迭代次数,对所述目标模型进行训练,直到所述目标模型对应的损失函数收敛,得到所述训练后的目标模型,所述第二预设迭代次数小于所述第一预设迭代次数;
其中,所述样本生成模型基于样本损失函数进行训练,所述样本损失函数由多样性约束条件构建,所述多样性约束条件由隐私样本数据基于所述基准模型进行分类而得到的类别的熵构建。
CN202110491830.9A 2021-05-06 2021-05-06 一种基于隐私保护的模型构建方法、装置及设备 Active CN113221717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110491830.9A CN113221717B (zh) 2021-05-06 2021-05-06 一种基于隐私保护的模型构建方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110491830.9A CN113221717B (zh) 2021-05-06 2021-05-06 一种基于隐私保护的模型构建方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113221717A CN113221717A (zh) 2021-08-06
CN113221717B true CN113221717B (zh) 2023-07-18

Family

ID=77091108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110491830.9A Active CN113221717B (zh) 2021-05-06 2021-05-06 一种基于隐私保护的模型构建方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113221717B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114241268A (zh) * 2021-12-21 2022-03-25 支付宝(杭州)信息技术有限公司 一种模型的训练方法、装置及设备
CN115238826B (zh) * 2022-09-15 2022-12-27 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质及电子设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108923922B (zh) * 2018-07-26 2021-04-23 北京工商大学 一种基于生成对抗网络的文本隐写方法
CN110399553A (zh) * 2019-06-28 2019-11-01 南京工业大学 一种基于对抗学习的会话推荐列表生成方法
CN110516812A (zh) * 2019-07-19 2019-11-29 南京航空航天大学 基于对抗样本的抗成员推理攻击的ai模型隐私保护方法
CN110567720B (zh) * 2019-08-07 2020-12-18 东北电力大学 非平衡小样本场景下风机轴承故障深度对抗诊断方法
US11604984B2 (en) * 2019-11-18 2023-03-14 Shanghai United Imaging Intelligence Co., Ltd. Systems and methods for machine learning based modeling
CN111401407B (zh) * 2020-02-25 2021-05-14 浙江工业大学 一种基于特征重映射的对抗样本防御方法和应用
CN111177792B (zh) * 2020-04-10 2020-06-30 支付宝(杭州)信息技术有限公司 基于隐私保护确定目标业务模型的方法及装置
CN111626330B (zh) * 2020-04-23 2022-07-26 南京邮电大学 基于多尺度特征图重构和知识蒸馏的目标检测方法与系统

Also Published As

Publication number Publication date
CN113221717A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN112800468B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN112398838B (zh) 一种基于隐私保护的认证方法、装置、设备及存储介质
CN113221717B (zh) 一种基于隐私保护的模型构建方法、装置及设备
CN113221747B (zh) 一种基于隐私保护的隐私数据处理方法、装置及设备
CN112200132B (zh) 一种基于隐私保护的数据处理方法、装置及设备
CN113516480B (zh) 一种支付风险识别方法、装置及设备
CN111325444B (zh) 一种风险防控决策方法、装置、系统及设备
CN114880706A (zh) 一种信息处理方法、装置及设备
CN113239852B (zh) 一种基于隐私保护的隐私图像处理方法、装置及设备
CN115545943A (zh) 一种图谱的处理方法、装置及设备
CN115048661A (zh) 一种模型的处理方法、装置及设备
CN113961704A (zh) 一种基于文本的风险防控处理方法、装置及设备
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN113239851B (zh) 一种基于隐私保护的隐私图像处理方法、装置及设备
CN115982757B (zh) 一种模型的隐私保护程度的确定方法、装置及设备
CN111310167B (zh) 一种密码提醒方法、装置以及设备
CN117575610A (zh) 一种批量风险的识别方法及装置
CN116933131A (zh) 一种模型的处理方法、装置及设备
CN114741729A (zh) 一种信息的处理方法、装置及设备
CN116862676A (zh) 一种交易方的风险检测方法、装置及设备
CN118070922A (zh) 一种模型的处理方法、装置及设备
CN115905876A (zh) 一种模型的处理方法、装置及设备
CN114238910A (zh) 数据处理方法、装置及设备
CN116596645A (zh) 一种模型的处理方法、装置及设备
CN116186607A (zh) 一种模型的处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40056869

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant