CN112800468B - 一种基于隐私保护的数据处理方法、装置及设备 - Google Patents

一种基于隐私保护的数据处理方法、装置及设备 Download PDF

Info

Publication number
CN112800468B
CN112800468B CN202110187936.XA CN202110187936A CN112800468B CN 112800468 B CN112800468 B CN 112800468B CN 202110187936 A CN202110187936 A CN 202110187936A CN 112800468 B CN112800468 B CN 112800468B
Authority
CN
China
Prior art keywords
data
user privacy
gradient
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110187936.XA
Other languages
English (en)
Other versions
CN112800468A (zh
Inventor
曹佳炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110187936.XA priority Critical patent/CN112800468B/zh
Publication of CN112800468A publication Critical patent/CN112800468A/zh
Application granted granted Critical
Publication of CN112800468B publication Critical patent/CN112800468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本说明书实施例公开了一种基于隐私保护的数据处理方法、装置及设备,该方法包括:获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,目标模型包括一个或多个网络层;将用户隐私数据输入到目标模型中,确定目标模型中的网络层针对用户隐私数据的梯度,并将梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率;分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度;根据第一概率和差异度,确定用户隐私数据是否已被用于进行模型训练。

Description

一种基于隐私保护的数据处理方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种基于隐私保护的数据处理方法、装置及设备。
背景技术
近年来,人工智能技术得到了广泛的应用,例如人脸识别系统等已经在人们的工作生活中起到了巨大的作用。
随着“数据驱动”的人工智能技术的发展,未经授权情况下,对用户隐私数据的滥用现象也越来越严重。例如,许多人脸识别模型在训练的过程中,会通过网络爬虫爬取网络中的人脸图像,并通过爬取的人脸图像对上述人脸识别模型进行模型训练,而用来进行模型训练的人脸图像并没有得到人脸图像的用户授权,从而就形成了隐私侵犯。另外,由于模型训练的过程是在企业或机构的云端服务器中进行的,一般只会将训练完成的模型或者需要调用的模型提供给用户使用,从而就使得用户很难判断该用户的相关图像和/或数据是否被用于进行模型训练,从而需要提供一种能够判断该用户的相关图像和/或数据等用户隐私数据是否被用于进行模型训练的技术方案。
发明内容
本说明书实施例的目的是提供一种能够判断该用户的相关图像和/或数据等用户隐私数据是否被用于进行模型训练的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于隐私保护的数据处理方法,所述方法包括:获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层。将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到。分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度。根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
本说明书实施例提供的一种基于隐私保护的数据处理装置,所述装置包括:数据获取模块,获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层。梯度损失检测模块,将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到。处理差异检测模块,分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度。隐私滥用检测模块,根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
本说明书实施例提供的一种基于隐私保护的数据处理设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层。将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到。分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度。根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层。将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到。分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度。根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本说明书一种基于隐私保护的数据处理方法实施例;
图1B为本说明书一种基于隐私保护的数据处理过程的示意图;
图2为本说明书一种基于隐私保护的数据处理系统的结构示意图;
图3为本说明书另一种基于隐私保护的数据处理方法实施例;
图4为本说明书又一种基于隐私保护的数据处理方法实施例;
图5为本说明书一种基于隐私保护的数据处理装置实施例;
图6为本说明书一种基于隐私保护的数据处理设备实施例。
具体实施方式
本说明书实施例提供一种基于隐私保护的数据处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1A和图1B所示,本说明书实施例提供一种基于隐私保护的数据处理方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或需要进行风险防控(如基于人脸图像、指纹或虹膜等用户隐私数据的检测、识别或比对等风险防控)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法结合基于梯度损失的隐私判据和基于预处理差异的隐私判据,能够切实有效地检测出模型训练过程中是否使用了用户隐私数据。该方法具体可以包括以下步骤:
在步骤S102中,获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层。
其中,预设类型可以包括多种,例如文本信息类、图像类、音频类和视频类等,相应的,用户隐私数据也可以包括多种,其中,文本信息类用户隐私数据可以包括如记载有用户的手机号码、身份证号码、住址等用户的个人信息的文档的数据,图像类用户隐私数据可以包括如用户的面部图像、指纹图像、虹膜图像等的数据,音频类用户隐私数据可以包括如记录有用户的手机号码、身份证号码等用户的个人信息的音频文件的数据,视频类用户隐私数据可以包括如用户的面部、指纹、虹膜等的视频文件的数据。目标模型可以是需要进行测试的任意模型,具体如人脸识别模型、指纹识别模型等用于识别用户隐私数据的模型,在实际应用中,该目标模型可以是正在运行的某系统中的模型,此时,也可以仅提供该目标模型的API接口,通过该API接口可以对目标模型进行测试。网络层可以是构建目标模型过程中构建的具有层级结构的数据处理层,例如,目标模型为卷积神经网络模型,则网络层可以包括如输入层、输出层、一个或多个卷积层、池化层、全连接层等,在实际应用中,目标模型中的网络层可以是上述网络层中的一个或多个,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,近年来,人工智能技术得到了广泛的应用,例如人脸识别系统等已经在人们的工作生活中起到了巨大的作用。但是,随着“数据驱动”的人工智能技术的发展,未经授权情况下,对用户隐私数据的滥用现象也越来越严重。例如,许多人脸识别模型在训练的过程中,会通过网络爬虫爬取网络中的人脸图像,并通过爬取的人脸图像对上述人脸识别模型进行模型训练,而用来进行模型训练的人脸图像并没有得到人脸图像的用户授权,从而就形成了隐私侵犯。另外,由于模型训练的过程是在企业或机构的云端服务器中进行的,一般只会将训练完成的模型或者需要调用的模型提供给用户使用,从而就使得用户很难判断该用户的相关图像和/或数据是否被用于进行模型训练,从而需要提供一种能够判断该用户的相关图像和/或数据等用户隐私数据是否被用于进行模型训练的技术方案。本说明书实施例提供一种可实现的方案,具体可以包括以下内容:
当用户需要判断该用户的某项用户隐私数据是否已被用于进行模型训练时,可以获取该项用户隐私数据,可以将该项用户隐私数据作为待检测的预设类型的用户隐私数据,例如,以预设类型的用户隐私数据为图像类的用户隐私数据为例,具体如,如图2所示,如果用户需要判断该用户的某张面部图像是否已被用于进行模型训练,则该用户可以通过终端设备向服务器上传该面部图像,其中,可以该图像可以是该用户通过网络搜索引擎搜索到的该用户的面部图像,也可以是该用户提供给某人脸识别系统进行人脸识别的面部图像或提供给该人脸识别系统,并对该人脸识别系统中的人脸识别模型进行模型训练的面部图像等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
此外,还可以获取待测试的目标模型,其中,上述待检测的预设类型的用户隐私数据可以对目标模型进行模型训练,也可以是通过目标模型对用户隐私数据进行识别等,基于此,针对目标模型,可以获取预设类型的用户隐私样本数据,并可以通过预设类型的用户隐私样本数据对创建的目标模型的模型架构(可以通过预设算法预先构建目标模型的模型架构)进行模型训练,最终可以得到训练后的目标模型,然后,当用户需要测试该目标模型时,可以获取训练后的目标模型。例如,目标模型为人脸识别模型,则待检测的预设类型的用户隐私数据可以是用户的面部图像,可以通过用户的面部图像样本对人脸识别模型进行模型训练,得到训练后的人脸识别模型,然后,当用户需要测试该目标模型时,可以获取训练后的人脸识别模型。
在步骤S104中,将上述用户隐私数据输入到目标模型中,确定目标模型中的网络层针对该用户隐私数据的梯度,并将该梯度输入到预先训练的梯度判别模型中,得到该用户隐私数据已被用于训练目标模型的第一概率,该梯度判别模型是通过预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到。
其中,梯度判别模型可以是用于判断某用户隐私数据是否被用于进行模型训练的概率的模型,梯度判别模型可以通过多种不同的算法构建,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,为了能够切实有效地检测出某模型在进行模型训练的过程中是否使用了某用户的用户隐私数据,可以采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,基于此,可以根据实际情况构建梯度判别模型的模型架构,该模型架构中可以包括一个或多个待确定的参数的数值。
通过上述方式构建梯度判别模型的模型架构后,可以获取预设类型的用户隐私样本数据和该用户隐私样本数据对应的第一样本梯度,此外,还可以获取除了预设类型的用户隐私样本数据之外的数据作为隐私样本数据,且该隐私样本数据对应的类型也为预设类型(如图像类等),并可以获取该隐私样本数据对应的第二样本梯度,然后,可以使用上述两部分数据对上述构建的梯度判别模型进行训练,最终可以得到训练后的梯度判别模型。
通过上述步骤S102的处理得到待检测的预设类型的用户隐私数据和待测试的目标模型后,可以将该预设类型的用户隐私数据输入到目标模型中,通过上述目标模型中的网络层对输入的用户隐私数据的逐级处理,可以得到相应的输出结果,同时,可以获取用户隐私数据输入到目标模型后,目标模型中的网络层针对用户隐私数据的梯度。然后,可以将上述获取的梯度输入到上述训练后的梯度判别模型中,得到的输出结果即为用户隐私数据已被用于训练目标模型的第一概率。
在步骤S106中,分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度。
其中,数据处理规则可以是对用户隐私数据进行指定处理的规则,该指定处理可以包括如滤波处理、数据过滤、数据压缩等,具体可以根据实际情况设定,本说明书实施例对此不做限定。差异度可以是用于表征处理前的数据与处理后的数据之间存在的差异程度,差异度可以是与相似度相悖,差异度与相似度可以构成异同度总值,如异同度总值为1等。
在实施中,为了能够切实有效地检测出某模型在进行模型训练的过程中是否使用了某用户的用户隐私数据,除了可以采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,还可以采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,具体地,可以根据实际情况预先设定多种不同的数据处理规则,如滤波规则、数据过滤规则、数据压缩规则等,然后,可以分别通过上述设定的每一种数据处理规则对用户隐私数据进行处理,例如,通过滤波规则对用户隐私数据进行滤波处理,通过数据过滤规则对用户隐私数据进行数据过滤处理,以及通过数据压缩规则对用户隐私数据进行压缩处理等,通过上述处理,可以分别得到每一种数据处理规则对应的处理后的数据,从而得到不同的数据处理规则对应的处理后的数据。由于处理后的数据与原数据(即处理前的用户隐私数据)存在一定的差异,因此,可以预先设定相似度算法,并可以通过该相似度算法计算每一种数据处理规则对应的处理后的数据与用户隐私数据之间的相似度,从而得到不同的处理后的数据与用户隐私数据之间的相似度。可以基于不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度,具体如,可以从不同的处理后的数据与用户隐私数据之间的相似度中选取其中数值最大的相似度,可以使用最大相似度确定不同的处理后的数据与用户隐私数据之间的差异度,如差异度=1-最大相似度等。上述差异度的确定方式仅是一种可实现的处理方式,在实际应用中,还可以包括多种不同的实现方式,具体可以根据实际情况设定,本说明书实施例对此不做限定。
需要说明的是,上述预先设定的相似度算法可以包括多种,具体如欧氏距离算法、余弦相似度算法等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S108中,根据上述第一概率和上述差异度,确定用户隐私数据是否已被用于进行模型训练。
在实施中,通过上述处理,可以得到用户隐私数据已被用于训练目标模型的第一概率和不同的处理后的数据与用户隐私数据之间的差异度,可以综合第一概率和差异度对用户隐私数据的影响,分别设定第一概率和差异度对应的权重,可以基于第一概率和与其对应的权重,以及差异度和与其对应的权重,通过计算可以得到用户隐私数据是否已被用于进行模型训练,例如,第一概率为0.8和与其对应的权重0.6,差异度为0.3和与其对应的权重0.4,则0.8*0.6+0.3*0.4=0.6,如果预先设定的用户隐私数据已被用于进行模型训练对应的数值区间为[0.8,1],则上述计算得到的0.6未处于数值区间[0.8,1]内,因此,可以确定用户隐私数据未被用于进行模型训练。此外,如果上述计算得到的数值处于数值区间[0.8,1]内,则可以确定用户隐私数据已被用于进行模型训练,此时可以向该用户隐私数据对应的用户发送相应的通知消息,以便用户及时维护自身的隐私数据安全。
本说明书实施例提供一种基于隐私保护的数据处理方法,通过获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,该目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层,然后,将用户隐私数据输入到所述目标模型中,确定目标模型中的网络层针对用户隐私数据的梯度,并将该梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率,梯度判别模型是通过预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到,即采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,得到用户隐私数据已被用于训练目标模型的第一概率,之后,再采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,确定处理后的数据与原数据(即用户隐私数据)之间的差异度,即分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度,最后,可以结合第一概率和差异度,确定用户隐私数据是否已被用于进行模型训练,这样,除了采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,还采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,通过上述两个隐私判据能够切实有效地检测出模型训练过程中是否使用了用户隐私数据,从而及时提醒用户保护个人隐私,降低数据滥用的风险,提高个人隐私的安全。
实施例二
如图3所示,本说明书实施例提供一种基于隐私保护的数据处理方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或需要进行风险防控(如基于人脸图像、指纹或虹膜等用户隐私数据的检测、识别或比对等风险防控)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S302中,基于预设的分类算法构建梯度判别模型的模型架构。
其中,预设算法可以根据实际情况设定,具体如分类算法等,其中的分类算法可以包括二分类算法等。该梯度判别模型的模型架构可以包括多层感知机(MLP,MultilayerPerceptron),多层感知机可以是含有至少一个隐藏层的由全连接层组成的神经网络,且每个隐藏层的输出通过激活函数进行变换,多层感知机的网络层的层数和各隐藏层中隐藏单元个数都可以是超参数,多层感知机除了输入层和输出层,在输入层和输出层之间可以包括多个隐藏层,最简单的多层感知机可以只包含一个隐藏层,从而形成具有三层结构的三层感知机,为了降低数据的处理压力,本实施例中的梯度判别模型的模型架构可以包括三层感知机。
在实施中,可以根据实际情况选取分类算法(具体如二分类算法等),选取上述算法后,可以通过分类算法,并结合多层感知机的网络结构构建梯度判别模型的模型架构,该模型架构中可以包括待定的参数,其中,针对多层感知机MLP中的参数可以包括各个网络层之间的连接权重以及偏置等。
在步骤S304中,获取预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度。
其中,该预设类型可以包括图像类、音频数据类、文本数据类、视频数据类等,具体可以根据实际情况设定。上述用户隐私样本数据的数据数量与第二样本梯度对应的数据数量可以相同,其中除了预设类型的用户隐私样本数据之外的数据对应的类型也为预设类型,预设类型的用户隐私样本数据与除了预设类型的用户隐私样本数据之外的数据的数据数量的比例可以为1:1。
在步骤S306中,通过用户隐私样本数据、第一样本梯度和第二样本梯度,并使用交叉熵CrossEntropy损失函数对梯度判别模型进行训练,得到训练后的梯度判别模型。
在实施中,对梯度判别模型进行训练的过程即为求解梯度判别模型的模型架构中的最佳的参数(包括多层感知机MLP中的参数)的过程,解决最优化问题,可以采用梯度下降法,即首先随机初始化所有参数,然后迭代地训练,不断地计算梯度和更新参数,直到满足指定条件(比如误差小于预设误差阈值和/或迭代次数超过预设的迭代次数阈值时)为止,上述处理过程中可能会涉及到代价函数、规则化(Regularization)、学习速率(learningrate)、梯度计算等处理,模型的具体训练方式可以参见上述相关内容,在此不再赘述。
在步骤S308中,获取预设类型的预选用户隐私数据,该预设类型包括图像类、音频数据类、文本数据类。
在步骤S310中,对预选用户隐私数据进行预处理,以将预选用户隐私数据转换为待测试的目标模型能够处理的数据,并将预处理后的预选用户隐私数据作为待检测的预设类型的用户隐私数据。
在实施中,对预选用户隐私数据进行预处理的方式可以包括多种,例如,以人脸识别系统为例,在将用户的面部图像输入人脸识别系统中的人脸识别模型中之前或输入到人脸识别模型中时,往往需要对用户的面部图像进行人脸检测、人脸关键点检测和人脸校准等处理,因此,可以将预选用户隐私数据(即用户的面部图像)进行预处理,使得预处理后的面部图像的数据能够被待测试的目标模型识别并进行相应处理。
在步骤S312中,获取待测试的目标模型,目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层。
在步骤S314中,将用户隐私数据输入到目标模型中,得到目标模型中的网络层针对用户隐私数据的初始梯度,该初始梯度由多维向量构成。
在步骤S316中,对每个网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个网络层对应的压缩向量。
其中,向量压缩处理可以是对向量进行降维的一种处理方式,如可以将三维向量压缩为二维向量等,具体可以根据实际情况设定。
在实施中,向量压缩处理可以通过多种不同的方式实现,例如可以结合向量中各个维度的参数的权重和空间映射关系,将高维空间中的初始梯度的多维向量映射到指定的低维空间中,得到映射后的低维空间的向量,该低维空间的向量即可以作为压缩向量,通过上述方式,可以分别对每个网络层对应的初始梯度中的多维向量执行如上述的向量压缩处理,最终可以得到每个网络层对应的压缩向量。
在实际应用中,上述步骤S316的具体处理方式除了上述处理方式外,还可以包括多种处理方式,以下再提供一种可选的处理方式,具体可以包括以下内容:
目标模型中的每个网络层针对用户隐私数据的初始梯度由三维向量(Hi,Wi,Ci)构成,其中,i表示第i个网络层,Hi,Wi,Ci分别表示每个维度的数值,则上述S316的具体处理可以包括下述步骤A2和步骤A4的处理:
在步骤A2中,针对每个网络层对应的初始梯度的任意空间位置(n,m),得到相应的向量(n,n,Ci),其中,0≤n≤Hi-1,0≤m≤Wi-1。
在步骤A4中,获取向量(n,n,Ci)对应的最大值,并使用该最大值表示向量(n,n,Ci),得到每个网络层对应的压缩向量,该压缩向量为二维向量。
在步骤S318中,对目标模型中的网络层对应的压缩向量进行扁平化Flatten处理,得到目标模型中的网络层对应的一维梯度向量。
其中,扁平化Flatten处理可以是将二维向量或者多维向量转换成一维向量或者将二维数组或者多维数组转换成一维数组的处理,在实际应用中,扁平化Flatten处理可以是针对模型中的某一个网络层,或者,也可以是针对模型中的多个网络层等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S320中,基于目标模型中的网络层对应的一维梯度向量,确定目标模型中的网络层针对用户隐私数据的梯度。
在实施中,可以使用目标模型中的网络层对应的一维梯度向量表示目标模型中的网络层针对用户隐私数据的梯度,也可以是使用目标模型中的网络层对应的一维梯度向量,并通过预设的算法进行计算,得到相应的计算结果,可以将该结算结果作为目标模型中的网络层针对用户隐私数据的梯度,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S322中,将上述梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率。
在步骤S324中,分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据。
其中,多种不同的数据处理规则可以包括以下中的多个规则:高斯滤波处理规则、中值滤波处理规则、均值滤波处理规则、图像压缩处理规则、随机裁剪处理规则、gamma变换处理规则。高斯滤波处理规则可以是一种线性平滑滤波的规则,高斯滤波处理规则可以对用户隐私数据进行加权平均,以用户隐私数据为面部图像为例,通过高斯滤波处理规则可以使得该面部图像中的每一个像素点的值,都由其本身和邻域内的其他像素点的值经过加权平均后得到,再具体处理中可以使用一个模板(或称卷积、掩模)扫描面部图像中的每一个像素,用模板确定的邻域内像素的加权平均灰度值去替代模板中心像素点的值。中值滤波处理规则可以是基于排序统计理论的一种能有效抑制噪声的非线性信号处理的规则,通过中值滤波处理规则可以把数字图像或数字序列中一点的值用该点的一个邻域中各点值的中值代替,让周围点的值接近真实值,从而消除孤立的噪声点。均值滤波处理规则可以在数字图像或数字序列上对目标数据给定一个模板,该模板包括了其周围的临近点或像素(以目标数据的点或像素为中心的周围8个点或像素,构成一个滤波模板),再用模板中的点或像素的平均值来代替原来的点或像素的值。gamma变换处理规则可以用于对图像进行增强,提升图像中的暗部细节,具体可以通过非线性变换,使得图像从暴光强度的线性响应变得更接近人眼感受的响应,即将漂白(相机曝光)或过暗(曝光不足)的图像进行矫正。
在步骤S326中,基于预设的相似度算法确定不同的处理后的数据与用户隐私数据之间的相似度,该相似度算法可以包括以下中的一种:欧几里得距离算法、曼哈顿距离算法、明可夫斯基距离算法、余弦相似度算法、杰卡德相似系数Jaccard Similarity算法、皮尔森相关系数算法、马氏距离算法、汉明距离算法。
在步骤S328中,根据不同的处理后的数据与用户隐私数据之间的相似度,计算多个不同的处理后的数据与用户隐私数据之间的相似度对应的平均值。
在步骤S330中,将预设的异同度总值与计算的平均值之间的差值作为不同的处理后的数据与用户隐私数据之间的差异度。
其中,异同度总值可以是针对同一数据集合,对同一对比对象得到的相似度和差异度的总和,该总和往往可以为1,即异同度总值可以为1。
在步骤S332中,计算第一概率与上述差异度的和,得到用户隐私数据已被用于进行模型训练的综合判据。
在步骤S334中,如果综合判据的数值不小于预设阈值,则确定用户隐私数据已被用于进行模型训练。
其中,预设阈值可以根据实际情况设定,具体如0.8或0.9等,本说明书实施例对此不做限定。
此外,如果综合判据的数值小于预设阈值,则可以确定用户隐私数据未被用于进行模型训练。
本说明书实施例提供一种基于隐私保护的数据处理方法,通过获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,该目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层,然后,将用户隐私数据输入到所述目标模型中,确定目标模型中的网络层针对用户隐私数据的梯度,并将该梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率,梯度判别模型是通过预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到,即采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,得到用户隐私数据已被用于训练目标模型的第一概率,之后,再采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,确定处理后的数据与原数据(即用户隐私数据)之间的差异度,即分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度,最后,可以结合第一概率和差异度,确定用户隐私数据是否已被用于进行模型训练,这样,除了采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,还采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,通过上述两个隐私判据能够切实有效地检测出模型训练过程中是否使用了用户隐私数据,从而及时提醒用户保护个人隐私,降低数据滥用的风险,提高个人隐私的安全。
而且,不仅可以对用户在某人脸识别系统内采集得到的图像等用户隐私数据,而对于用户暴露在社交网络上的图像等用户隐私数据也可以起到很好的保护作用,从而全方位保护用户各种隐私数据。
实施例三
本实施例将结合具体的应用场景,对本发明实施例提供的一种基于隐私保护的数据处理方法进行详细的阐述,相应的应用场景为任意业务处理中的人脸识别的应用场景。
如图4所示,本说明书实施例提供一种基于隐私保护的数据处理方法,该方法的执行主体可以为服务器或终端设备,其中,该终端设备可以如笔记本电脑或台式电脑等计算机设备,还可以如手机或平板电脑等移动终端设备。该服务器可以是为某项业务(如进行交易的业务或金融业务等)或需要进行风险防控(如基于人脸图像、指纹或虹膜等用户隐私数据的检测、识别或比对等风险防控)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等。本实施例中的执行主体以服务器为例进行说明,对于执行主体为终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S402中,基于预设的分类算法构建梯度判别模型的模型架构。
其中,预设算法可以为二分类算法等。该梯度判别模型的模型架构可以包括三层感知机。
在步骤S404中,获取用户面部图像样本数据和用户面部图像样本数据对应的第一样本梯度,以及该用户面部图像样本数据之外的面部图像数据对应的第二样本梯度。
在步骤S406中,通过用户面部图像样本数据、第一样本梯度和第二样本梯度,并使用交叉熵CrossEntropy损失函数对梯度判别模型进行训练,得到训练后的梯度判别模型。
在步骤S408中,获取预选的用户面部图像数据。
在步骤S410中,对预选的用户面部图像数据进行预处理,以将预选的用户面部图像数据转换为待测试的人脸识别模型能够处理的面部图像数据,并将预处理后的用户面部图像数据作为待检测的用户面部图像数据。
在步骤S412中,获取待测试的人脸识别模型,该人脸识别模型可以包括一个或多个网络层。
在步骤S414中,将用户面部图像数据输入到人脸识别模型中,得到人脸识别模型中的网络层针对用户面部图像数据的初始梯度,该初始梯度由三维向量(Hi,Wi,Ci)构成,i表示第i个网络层。
在步骤S416中,针对每个网络层对应的初始梯度的任意空间位置(n,m),得到相应的向量(n,n,Ci),其中,0≤n≤Hi-1,0≤m≤Wi-1。
在步骤S418中,获取向量(n,n,Ci)对应的最大值,并使用该最大值表示向量(n,n,Ci),得到每个网络层对应的压缩向量,该压缩向量为二维向量。
在步骤S420中,对人脸识别模型中的网络层对应的压缩向量进行扁平化Flatten处理,得到人脸识别模型中的网络层对应的一维梯度向量,进而确定人脸识别模型中的网络层针对用户面部图像数据的梯度。
在步骤S422中,将上述梯度输入到预先训练的梯度判别模型中,得到用户面部图像数据已被用于训练人脸识别模型的第一概率。
在步骤S424中,分别通过多种不同的数据处理规则对用户面部图像数据进行处理,得到不同的数据处理规则对应的处理后的数据。
其中,多种不同的数据处理规则可以包括以下中的多个规则:高斯滤波处理规则、中值滤波处理规则、均值滤波处理规则、图像压缩处理规则、随机裁剪处理规则、gamma变换处理规则。
在步骤S426中,基于预设的余弦相似度算法确定不同的处理后的数据与用户面部图像数据之间的相似度。
在步骤S428中,根据不同的处理后的数据与用户面部图像数据之间的相似度,计算多个不同的处理后的数据与用户面部图像数据之间的相似度对应的平均值。
在步骤S430中,将计算的平均值与1的差值的绝对值作为不同的处理后的数据与用户面部图像数据之间的差异度。
在步骤S432中,计算第一概率与上述差异度的和,得到用户面部图像数据已被用于进行模型训练的综合判据。
在步骤S434中,如果综合判据的数值不小于预设阈值,则确定用户面部图像数据已被用于进行模型训练。
本说明书实施例提供一种基于隐私保护的数据处理方法,通过获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,该目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层,然后,将用户隐私数据输入到所述目标模型中,确定目标模型中的网络层针对用户隐私数据的梯度,并将该梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率,梯度判别模型是通过预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到,即采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,得到用户隐私数据已被用于训练目标模型的第一概率,之后,再采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,确定处理后的数据与原数据(即用户隐私数据)之间的差异度,即分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度,最后,可以结合第一概率和差异度,确定用户隐私数据是否已被用于进行模型训练,这样,除了采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,还采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,通过上述两个隐私判据能够切实有效地检测出模型训练过程中是否使用了用户隐私数据,从而及时提醒用户保护个人隐私,降低数据滥用的风险,提高个人隐私的安全。
而且,不仅可以对用户在某人脸识别系统内采集得到的图像等用户隐私数据,而对于用户暴露在社交网络上的图像等用户隐私数据也可以起到很好的保护作用,从而全方位保护用户各种隐私数据。
实施例四
以上为本说明书实施例提供的基于隐私保护的数据处理方法,基于同样的思路,本说明书实施例还提供一种基于隐私保护的数据处理装置,如图5所示。
该基于隐私保护的数据处理装置包括:数据获取模块501、梯度损失检测模块502、处理差异检测模块503和隐私滥用检测模块504,其中:
数据获取模块501,获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层;
梯度损失检测模块502,将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到;
处理差异检测模块503,分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度;
隐私滥用检测模块504,根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
本说明书实施例中,所述梯度损失检测模块502,包括:
初始梯度确定单元,将所述用户隐私数据输入到所述目标模型中,得到所述目标模型中的网络层针对所述用户隐私数据的初始梯度,所述初始梯度由多维向量构成;
向量压缩单元,对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量;
扁平化处理单元,对所述目标模型中的网络层对应的压缩向量进行扁平化Flatten处理,得到所述目标模型中的网络层对应的一维梯度向量;
梯度确定单元,基于所述目标模型中的网络层对应的一维梯度向量,确定所述目标模型中的网络层针对所述用户隐私数据的梯度。
本说明书实施例中,所述目标模型中的每个网络层针对所述用户隐私数据的初始梯度由三维向量(Hi,Wi,Ci)构成,i表示第i个网络层,所述向量压缩单元,针对每个所述网络层对应的初始梯度的任意空间位置(n,m),得到相应的向量(n,n,Ci),其中,0≤n≤Hi-1,0≤m≤Wi-1;获取所述向量(n,n,Ci)对应的最大值,并使用所述最大值表示所述向量(n,n,Ci),得到每个所述网络层对应的压缩向量,所述压缩向量为二维向量。
本说明书实施例中,所述装置还包括:
架构构建模块,基于预设的分类算法构建所述梯度判别模型的模型架构;
获取所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度;
训练模块,通过所述用户隐私样本数据、所述第一样本梯度和所述第二样本梯度,并使用交叉熵CrossEntropy损失函数对所述梯度判别模型进行训练,得到训练后的所述梯度判别模型。
本说明书实施例中,所述分类算法为二分类算法,所述梯度判别模型的模型架构包括多层感知机。
本说明书实施例中,所述用户隐私样本数据的数据数量与所述第二样本梯度对应的数据数量相同。
本说明书实施例中,所述多种不同的数据处理规则包括以下中的多个规则:高斯滤波处理规则、中值滤波处理规则、均值滤波处理规则、图像压缩处理规则、随机裁剪处理规则、gamma变换处理规则。
本说明书实施例中,所述处理差异检测模块503,包括:
均值确定单元,根据不同的处理后的数据与所述用户隐私数据之间的相似度,计算多个不同的处理后的数据与所述用户隐私数据之间的相似度对应的平均值;
差异度确定单元,将预设的异同度总值与计算的所述平均值之间的差值作为不同的处理后的数据与所述用户隐私数据之间的差异度。
本说明书实施例中,所述装置还包括:
相似度确定模块,基于预设的相似度算法确定不同的处理后的数据与所述用户隐私数据之间的相似度,所述相似度算法包括以下中的一种:欧几里得距离算法、曼哈顿距离算法、明可夫斯基距离算法、余弦相似度算法、杰卡德相似系数Jaccard Similarity算法、皮尔森相关系数算法、马氏距离算法、汉明距离算法。
本说明书实施例中,所述隐私滥用检测模块504,包括:
判据确定单元,计算所述第一概率与所述差异度的和,得到所述用户隐私数据已被用于进行模型训练的综合判据;
隐私滥用检测单元,如果所述综合判据的数值不小于预设阈值,则确定所述用户隐私数据已被用于进行模型训练。
本说明书实施例中,所述数据获取模块501,包括:
预选数据获取单元,获取预设类型的预选用户隐私数据,所述预设类型包括图像类、音频数据类、文本数据类;
检测数据获取单元,对所述预选用户隐私数据进行预处理,以将所述预选用户隐私数据转换为待测试的目标模型能够处理的数据,并将预处理后的预选用户隐私数据作为待检测的预设类型的用户隐私数据。
本说明书实施例提供一种基于隐私保护的数据处理装置,通过获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,该目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层,然后,将用户隐私数据输入到所述目标模型中,确定目标模型中的网络层针对用户隐私数据的梯度,并将该梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率,梯度判别模型是通过预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到,即采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,得到用户隐私数据已被用于训练目标模型的第一概率,之后,再采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,确定处理后的数据与原数据(即用户隐私数据)之间的差异度,即分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度,最后,可以结合第一概率和差异度,确定用户隐私数据是否已被用于进行模型训练,这样,除了采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,还采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,通过上述两个隐私判据能够切实有效地检测出模型训练过程中是否使用了用户隐私数据,从而及时提醒用户保护个人隐私,降低数据滥用的风险,提高个人隐私的安全。
而且,不仅可以对用户在某人脸识别系统内采集得到的图像等用户隐私数据,而对于用户暴露在社交网络上的图像等用户隐私数据也可以起到很好的保护作用,从而全方位保护用户各种隐私数据。
实施例五
以上为本说明书实施例提供的基于隐私保护的数据处理装置,基于同样的思路,本说明书实施例还提供一种基于隐私保护的数据处理设备,如图6所示。
所述基于隐私保护的数据处理设备可以为上述实施例提供的终端设备或服务器等。
基于隐私保护的数据处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对基于隐私保护的数据处理设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在基于隐私保护的数据处理设备上执行存储器602中的一系列计算机可执行指令。基于隐私保护的数据处理设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。
具体在本实施例中,基于隐私保护的数据处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的数据处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层;
将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到;
分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度;
根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
本说明书实施例中,所述将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,包括:
将所述用户隐私数据输入到所述目标模型中,得到所述目标模型中的网络层针对所述用户隐私数据的初始梯度,所述初始梯度由多维向量构成;
对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量;
对所述目标模型中的网络层对应的压缩向量进行扁平化Flatten处理,得到所述目标模型中的网络层对应的一维梯度向量;
基于所述目标模型中的网络层对应的一维梯度向量,确定所述目标模型中的网络层针对所述用户隐私数据的梯度。
本说明书实施例中,所述目标模型中的每个网络层针对所述用户隐私数据的初始梯度由三维向量(Hi,Wi,Ci)构成,i表示第i个网络层,所述对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量,包括:
针对每个所述网络层对应的初始梯度的任意空间位置(n,m),得到相应的向量(n,n,Ci),其中,0≤n≤Hi-1,0≤m≤Wi-1;
获取所述向量(n,n,Ci)对应的最大值,并使用所述最大值表示所述向量(n,n,Ci),得到每个所述网络层对应的压缩向量,所述压缩向量为二维向量。
本说明书实施例中,还包括:
基于预设的分类算法构建所述梯度判别模型的模型架构;
获取所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度;
通过所述用户隐私样本数据、所述第一样本梯度和所述第二样本梯度,并使用交叉熵CrossEntropy损失函数对所述梯度判别模型进行训练,得到训练后的所述梯度判别模型。
本说明书实施例中,所述分类算法为二分类算法,所述梯度判别模型的模型架构包括多层感知机。
本说明书实施例中,所述用户隐私样本数据的数据数量与所述第二样本梯度对应的数据数量相同。
本说明书实施例中,所述多种不同的数据处理规则包括以下中的多个规则:高斯滤波处理规则、中值滤波处理规则、均值滤波处理规则、图像压缩处理规则、随机裁剪处理规则、gamma变换处理规则。
本说明书实施例中,所述根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度,包括:
根据不同的处理后的数据与所述用户隐私数据之间的相似度,计算多个不同的处理后的数据与所述用户隐私数据之间的相似度对应的平均值;
将预设的异同度总值与计算的所述平均值之间的差值作为不同的处理后的数据与所述用户隐私数据之间的差异度。
本说明书实施例中,还包括:
基于预设的相似度算法确定不同的处理后的数据与所述用户隐私数据之间的相似度,所述相似度算法包括以下中的一种:欧几里得距离算法、曼哈顿距离算法、明可夫斯基距离算法、余弦相似度算法、杰卡德相似系数Jaccard Similarity算法、皮尔森相关系数算法、马氏距离算法、汉明距离算法。
本说明书实施例中,所述根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练,包括:
计算所述第一概率与所述差异度的和,得到所述用户隐私数据已被用于进行模型训练的综合判据;
如果所述综合判据的数值不小于预设阈值,则确定所述用户隐私数据已被用于进行模型训练。
本说明书实施例中,所述获取待检测的预设类型的用户隐私数据,包括:
获取预设类型的预选用户隐私数据,所述预设类型包括图像类、音频数据类、文本数据类;
对所述预选用户隐私数据进行预处理,以将所述预选用户隐私数据转换为待测试的目标模型能够处理的数据,并将预处理后的预选用户隐私数据作为待检测的预设类型的用户隐私数据。
本说明书实施例提供一种基于隐私保护的数据处理设备,通过获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,该目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层,然后,将用户隐私数据输入到所述目标模型中,确定目标模型中的网络层针对用户隐私数据的梯度,并将该梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率,梯度判别模型是通过预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到,即采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,得到用户隐私数据已被用于训练目标模型的第一概率,之后,再采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,确定处理后的数据与原数据(即用户隐私数据)之间的差异度,即分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度,最后,可以结合第一概率和差异度,确定用户隐私数据是否已被用于进行模型训练,这样,除了采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,还采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,通过上述两个隐私判据能够切实有效地检测出模型训练过程中是否使用了用户隐私数据,从而及时提醒用户保护个人隐私,降低数据滥用的风险,提高个人隐私的安全。
而且,不仅可以对用户在某人脸识别系统内采集得到的图像等用户隐私数据,而对于用户暴露在社交网络上的图像等用户隐私数据也可以起到很好的保护作用,从而全方位保护用户各种隐私数据。
实施例六
进一步地,基于上述图1A至图4所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以包括永久性存储介质和非永久性存储介质、可移动存储介质和非可移动存储介质,具体可以包括但不限于PRAM、静态随机存取存储器、动态随机存取存储器、其他类型的随机存取存储器、只读存储器、电可擦除可编程只读存储器、快闪记忆体或其他内存技术、只读光盘只读存储器、数字多功能光盘或其他光学存储、磁盒式磁带,磁带、磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层;
将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到;
分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度;
根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
本说明书实施例中,所述将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,包括:
将所述用户隐私数据输入到所述目标模型中,得到所述目标模型中的网络层针对所述用户隐私数据的初始梯度,所述初始梯度由多维向量构成;
对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量;
对所述目标模型中的网络层对应的压缩向量进行扁平化Flatten处理,得到所述目标模型中的网络层对应的一维梯度向量;
基于所述目标模型中的网络层对应的一维梯度向量,确定所述目标模型中的网络层针对所述用户隐私数据的梯度。
本说明书实施例中,所述目标模型中的每个网络层针对所述用户隐私数据的初始梯度由三维向量(Hi,Wi,Ci)构成,i表示第i个网络层,所述对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量,包括:
针对每个所述网络层对应的初始梯度的任意空间位置(n,m),得到相应的向量(n,n,Ci),其中,0≤n≤Hi-1,0≤m≤Wi-1;
获取所述向量(n,n,Ci)对应的最大值,并使用所述最大值表示所述向量(n,n,Ci),得到每个所述网络层对应的压缩向量,所述压缩向量为二维向量。
本说明书实施例中,还包括:
基于预设的分类算法构建所述梯度判别模型的模型架构;
获取所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度;
通过所述用户隐私样本数据、所述第一样本梯度和所述第二样本梯度,并使用交叉熵CrossEntropy损失函数对所述梯度判别模型进行训练,得到训练后的所述梯度判别模型。
本说明书实施例中,所述分类算法为二分类算法,所述梯度判别模型的模型架构包括多层感知机。
本说明书实施例中,所述用户隐私样本数据的数据数量与所述第二样本梯度对应的数据数量相同。
本说明书实施例中,所述多种不同的数据处理规则包括以下中的多个规则:高斯滤波处理规则、中值滤波处理规则、均值滤波处理规则、图像压缩处理规则、随机裁剪处理规则、gamma变换处理规则。
本说明书实施例中,所述根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度,包括:
根据不同的处理后的数据与所述用户隐私数据之间的相似度,计算多个不同的处理后的数据与所述用户隐私数据之间的相似度对应的平均值;
将预设的异同度总值与计算的所述平均值之间的差值作为不同的处理后的数据与所述用户隐私数据之间的差异度。
本说明书实施例中,还包括:
基于预设的相似度算法确定不同的处理后的数据与所述用户隐私数据之间的相似度,所述相似度算法包括以下中的一种:欧几里得距离算法、曼哈顿距离算法、明可夫斯基距离算法、余弦相似度算法、杰卡德相似系数Jaccard Similarity算法、皮尔森相关系数算法、马氏距离算法、汉明距离算法。
本说明书实施例中,所述根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练,包括:
计算所述第一概率与所述差异度的和,得到所述用户隐私数据已被用于进行模型训练的综合判据;
如果所述综合判据的数值不小于预设阈值,则确定所述用户隐私数据已被用于进行模型训练。
本说明书实施例中,所述获取待检测的预设类型的用户隐私数据,包括:
获取预设类型的预选用户隐私数据,所述预设类型包括图像类、音频数据类、文本数据类;
对所述预选用户隐私数据进行预处理,以将所述预选用户隐私数据转换为待测试的目标模型能够处理的数据,并将预处理后的预选用户隐私数据作为待检测的预设类型的用户隐私数据。
本说明书实施例提供一种存储介质,通过获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,该目标模型是通过预设类型的用户隐私样本数据进行模型训练得到,目标模型包括一个或多个网络层,然后,将用户隐私数据输入到所述目标模型中,确定目标模型中的网络层针对用户隐私数据的梯度,并将该梯度输入到预先训练的梯度判别模型中,得到用户隐私数据已被用于训练目标模型的第一概率,梯度判别模型是通过预设类型的用户隐私样本数据和用户隐私样本数据对应的第一样本梯度,以及预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到,即采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,得到用户隐私数据已被用于训练目标模型的第一概率,之后,再采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,确定处理后的数据与原数据(即用户隐私数据)之间的差异度,即分别通过多种不同的数据处理规则对用户隐私数据进行处理,得到不同的数据处理规则对应的处理后的数据,并根据不同的处理后的数据与用户隐私数据之间的相似度,确定不同的处理后的数据与用户隐私数据之间的差异度,最后,可以结合第一概率和差异度,确定用户隐私数据是否已被用于进行模型训练,这样,除了采用梯度损失的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,还采用预处理差异的方式作为用户隐私数据是否被用于进行模型训练的隐私判据,通过上述两个隐私判据能够切实有效地检测出模型训练过程中是否使用了用户隐私数据,从而及时提醒用户保护个人隐私,降低数据滥用的风险,提高个人隐私的安全。
而且,不仅可以对用户在某人脸识别系统内采集得到的图像等用户隐私数据,而对于用户暴露在社交网络上的图像等用户隐私数据也可以起到很好的保护作用,从而全方位保护用户各种隐私数据。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。
例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(AlteraHardware Description Language)、Confluence、CUPL(Cornell University ProgrammingLanguage)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等,目前最普遍使用的是VHDL(Very-High-Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。
可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。
计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (17)

1.一种基于隐私保护的数据处理方法,所述方法包括:
获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层;
将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到;
分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度;
根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
2.根据权利要求1所述的方法,所述将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,包括:
将所述用户隐私数据输入到所述目标模型中,得到所述目标模型中的网络层针对所述用户隐私数据的初始梯度,所述初始梯度由多维向量构成;
对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量;
对所述目标模型中的网络层对应的压缩向量进行扁平化Flatten处理,得到所述目标模型中的网络层对应的一维梯度向量;
基于所述目标模型中的网络层对应的一维梯度向量,确定所述目标模型中的网络层针对所述用户隐私数据的梯度。
3.根据权利要求2所述的方法,所述目标模型中的每个网络层针对所述用户隐私数据的初始梯度由三维向量(Hi,Wi,Ci)构成,i表示第i个网络层,Hi,Wi,Ci分别表示三个维度中每个维度的数值,
所述对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量,包括:
针对每个所述网络层对应的初始梯度的任意空间位置(n,m),得到相应的向量(n,n,Ci),其中,0≤n≤Hi-1,0≤m≤Wi-1;
获取所述向量(n,n,Ci)对应的最大值,并使用所述最大值表示所述向量(n,n,Ci),得到每个所述网络层对应的压缩向量,所述压缩向量为二维向量。
4.根据权利要求1所述的方法,所述方法还包括:
基于预设的分类算法构建所述梯度判别模型的模型架构;
获取所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度;
通过所述用户隐私样本数据、所述第一样本梯度和所述第二样本梯度,并使用交叉熵CrossEntropy损失函数对所述梯度判别模型进行训练,得到训练后的所述梯度判别模型。
5.根据权利要求4所述的方法,所述分类算法为二分类算法,所述梯度判别模型的模型架构包括多层感知机。
6.根据权利要求4所述的方法,所述用户隐私样本数据的数据数量与所述第二样本梯度对应的数据数量相同。
7.根据权利要求1所述的方法,所述多种不同的数据处理规则包括以下中的多个规则:高斯滤波处理规则、中值滤波处理规则、均值滤波处理规则、图像压缩处理规则、随机裁剪处理规则、gamma变换处理规则。
8.根据权利要求7所述的方法,所述根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度,包括:
根据不同的处理后的数据与所述用户隐私数据之间的相似度,计算多个不同的处理后的数据与所述用户隐私数据之间的相似度对应的平均值;
将预设的异同度总值与计算的所述平均值之间的差值作为不同的处理后的数据与所述用户隐私数据之间的差异度。
9.根据权利要求8所述的方法,所述方法还包括:
基于预设的相似度算法确定不同的处理后的数据与所述用户隐私数据之间的相似度,所述相似度算法包括以下中的一种:欧几里得距离算法、曼哈顿距离算法、明可夫斯基距离算法、余弦相似度算法、杰卡德相似系数Jaccard Similarity算法、皮尔森相关系数算法、马氏距离算法、汉明距离算法。
10.根据权利要求8所述的方法,所述根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练,包括:
计算所述第一概率与所述差异度的和,得到所述用户隐私数据已被用于进行模型训练的综合判据;
如果所述综合判据的数值不小于预设阈值,则确定所述用户隐私数据已被用于进行模型训练。
11.根据权利要求1所述的方法,所述获取待检测的预设类型的用户隐私数据,包括:
获取预设类型的预选用户隐私数据,所述预设类型包括图像类、音频数据类、文本数据类;
对所述预选用户隐私数据进行预处理,以将所述预选用户隐私数据转换为待测试的目标模型能够处理的数据,并将预处理后的预选用户隐私数据作为待检测的预设类型的用户隐私数据。
12.一种基于隐私保护的数据处理装置,所述装置包括:
数据获取模块,获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层;
梯度损失检测模块,将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到;
处理差异检测模块,分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度;
隐私滥用检测模块,根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
13.根据权利要求12所述的装置,所述梯度损失检测模块,包括:
初始梯度确定单元,将所述用户隐私数据输入到所述目标模型中,得到所述目标模型中的网络层针对所述用户隐私数据的初始梯度,所述初始梯度由多维向量构成;
向量压缩单元,对每个所述网络层对应的初始梯度中的多维向量进行向量压缩处理,得到每个所述网络层对应的压缩向量;
扁平化处理单元,对所述目标模型中的网络层对应的压缩向量进行扁平化Flatten处理,得到所述目标模型中的网络层对应的一维梯度向量;
梯度确定单元,基于所述目标模型中的网络层对应的一维梯度向量,确定所述目标模型中的网络层针对所述用户隐私数据的梯度。
14.根据权利要求12所述的装置,所述装置还包括:
架构构建模块,基于预设的分类算法构建所述梯度判别模型的模型架构;
获取所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度;
训练模块,通过所述用户隐私样本数据、所述第一样本梯度和所述第二样本梯度,并使用交叉熵CrossEntropy损失函数对所述梯度判别模型进行训练,得到训练后的所述梯度判别模型。
15.根据权利要求12所述的装置,所述多种不同的数据处理规则包括以下中的多个规则:高斯滤波处理规则、中值滤波处理规则、均值滤波处理规则、图像压缩处理规则、随机裁剪处理规则、gamma变换处理规则。
16.一种基于隐私保护的数据处理设备,所述基于隐私保护的数据处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层;
将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到;
分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度;
根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
17.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取待检测的预设类型的用户隐私数据,并获取待测试的目标模型,所述目标模型是通过所述预设类型的用户隐私样本数据进行模型训练得到,所述目标模型包括一个或多个网络层;
将所述用户隐私数据输入到所述目标模型中,确定所述目标模型中的网络层针对所述用户隐私数据的梯度,并将所述梯度输入到预先训练的梯度判别模型中,得到所述用户隐私数据已被用于训练所述目标模型的第一概率,所述梯度判别模型是通过所述预设类型的用户隐私样本数据和所述用户隐私样本数据对应的第一样本梯度,以及所述预设类型的用户隐私样本数据之外的数据对应的第二样本梯度进行模型训练得到;
分别通过多种不同的数据处理规则对所述用户隐私数据进行处理,得到不同的所述数据处理规则对应的处理后的数据,并根据不同的处理后的数据与所述用户隐私数据之间的相似度,确定不同的处理后的数据与所述用户隐私数据之间的差异度;
根据所述第一概率和所述差异度,确定所述用户隐私数据是否已被用于进行模型训练。
CN202110187936.XA 2021-02-18 2021-02-18 一种基于隐私保护的数据处理方法、装置及设备 Active CN112800468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110187936.XA CN112800468B (zh) 2021-02-18 2021-02-18 一种基于隐私保护的数据处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110187936.XA CN112800468B (zh) 2021-02-18 2021-02-18 一种基于隐私保护的数据处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112800468A CN112800468A (zh) 2021-05-14
CN112800468B true CN112800468B (zh) 2022-04-08

Family

ID=75815145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110187936.XA Active CN112800468B (zh) 2021-02-18 2021-02-18 一种基于隐私保护的数据处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112800468B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361658B (zh) * 2021-07-15 2022-06-14 支付宝(杭州)信息技术有限公司 一种基于隐私保护的图模型训练方法、装置及设备
CN113792343A (zh) * 2021-09-17 2021-12-14 国网山东省电力公司电力科学研究院 数据隐私的处理方法、装置、存储介质和电子设备
CN113987309B (zh) * 2021-12-29 2022-03-11 深圳红途科技有限公司 个人隐私数据识别方法、装置、计算机设备及存储介质
CN115314239A (zh) * 2022-06-21 2022-11-08 中化学交通建设集团有限公司 基于多模型融合的隐匿恶意行为的分析方法和相关设备
CN115238826B (zh) * 2022-09-15 2022-12-27 支付宝(杭州)信息技术有限公司 一种模型训练的方法、装置、存储介质及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10230866B1 (en) * 2015-09-30 2019-03-12 Amazon Technologies, Inc. Video ingestion and clip creation
CN110674528A (zh) * 2019-09-20 2020-01-10 深圳前海微众银行股份有限公司 联邦学习隐私数据处理方法、设备、系统及存储介质
CN111045829A (zh) * 2020-03-13 2020-04-21 支付宝(杭州)信息技术有限公司 业务预测模型的划分处理及预测方法和装置
CN111291416A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于隐私保护对业务模型进行数据预处理的方法及装置
CN111401552A (zh) * 2020-03-11 2020-07-10 浙江大学 一种基于调整批量大小与梯度压缩率的联邦学习方法和系统
CN111523668A (zh) * 2020-05-06 2020-08-11 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置
CN111539021A (zh) * 2020-04-26 2020-08-14 支付宝(杭州)信息技术有限公司 一种数据隐私类型识别方法、装置及设备
CN112036445A (zh) * 2020-08-06 2020-12-04 中国人民解放军战略支援部队信息工程大学 基于神经张量网络的跨社交网络用户身份识别方法
CN112052942A (zh) * 2020-09-18 2020-12-08 支付宝(杭州)信息技术有限公司 神经网络模型训练方法、装置及系统
CN112200132A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN112231742A (zh) * 2020-12-14 2021-01-15 支付宝(杭州)信息技术有限公司 基于隐私保护的模型联合训练方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10230866B1 (en) * 2015-09-30 2019-03-12 Amazon Technologies, Inc. Video ingestion and clip creation
CN110674528A (zh) * 2019-09-20 2020-01-10 深圳前海微众银行股份有限公司 联邦学习隐私数据处理方法、设备、系统及存储介质
CN111401552A (zh) * 2020-03-11 2020-07-10 浙江大学 一种基于调整批量大小与梯度压缩率的联邦学习方法和系统
CN111045829A (zh) * 2020-03-13 2020-04-21 支付宝(杭州)信息技术有限公司 业务预测模型的划分处理及预测方法和装置
CN111539021A (zh) * 2020-04-26 2020-08-14 支付宝(杭州)信息技术有限公司 一种数据隐私类型识别方法、装置及设备
CN111523668A (zh) * 2020-05-06 2020-08-11 支付宝(杭州)信息技术有限公司 基于差分隐私的数据生成系统的训练方法及装置
CN111291416A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于隐私保护对业务模型进行数据预处理的方法及装置
CN112036445A (zh) * 2020-08-06 2020-12-04 中国人民解放军战略支援部队信息工程大学 基于神经张量网络的跨社交网络用户身份识别方法
CN112052942A (zh) * 2020-09-18 2020-12-08 支付宝(杭州)信息技术有限公司 神经网络模型训练方法、装置及系统
CN112200132A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
CN112231742A (zh) * 2020-12-14 2021-01-15 支付宝(杭州)信息技术有限公司 基于隐私保护的模型联合训练方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
差分隐私GAN梯度裁剪阈值的自适应选取方法;郭鹏等;《网络与信息安全学报》;20180515(第05期);全文 *
差分隐私保护下的Adam优化算法研究;李敏等;《计算机应用与软件》;20200612(第06期);全文 *
面向深度神经网络训练的数据差分隐私保护随机梯度下降算法;李英等;《计算机应用与软件》;20200412(第04期);全文 *

Also Published As

Publication number Publication date
CN112800468A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112800468B (zh) 一种基于隐私保护的数据处理方法、装置及设备
Niu et al. Facial expression recognition with LBP and ORB features
Zerrouki et al. Combined curvelets and hidden Markov models for human fall detection
Singh et al. COVID 19: Identification of Masked Face using CNN Architecture
CN110414550B (zh) 人脸识别模型的训练方法、装置、系统和计算机可读介质
CN111340014B (zh) 活体检测方法、装置、设备和存储介质
CN111538869B (zh) 一种交易异常群组的检测方法、装置及设备
CN113392180A (zh) 文本处理方法、装置、设备及存储介质
Talab et al. A Novel Statistical Feature Analysis‐Based Global and Local Method for Face Recognition
Omara et al. Deep features for efficient multi-biometric recognition with face and ear images
CN113221717B (zh) 一种基于隐私保护的模型构建方法、装置及设备
CN112035881A (zh) 一种基于隐私保护的应用程序识别方法、装置及设备
Jalil et al. Infrared thermal image gender classifier based on the deep resnet model
Lee et al. Reinforced adaboost learning for object detection with local pattern representations
CN113642359B (zh) 人脸图像生成方法、装置、电子设备及存储介质
CN113569873B (zh) 一种图像的处理方法、装置及设备
CN112818400B (zh) 一种基于隐私保护的生物识别方法、装置及设备
Muchtar et al. Moving pedestrian localization and detection with guided filtering
Kushwaha et al. Human activity recognition algorithm in video sequences based on the fusion of multiple features for realistic and multi-view environment
CN111753583A (zh) 一种识别方法及装置
CN115424293A (zh) 活体检测方法、活体检测模型的训练方法及装置
Uddin A robust daily human activity recognition and prediction system
Quach Convolutional networks for vehicle track segmentation
WO2021214540A1 (en) Robust camera localization based on a single color component image and multi-modal learning
Gao et al. Local image descriptor developed from Fechner’s law

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant