CN112613231B - 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制 - Google Patents

一种机器学习中隐私可用均衡的轨迹训练数据扰动机制 Download PDF

Info

Publication number
CN112613231B
CN112613231B CN202011495017.0A CN202011495017A CN112613231B CN 112613231 B CN112613231 B CN 112613231B CN 202011495017 A CN202011495017 A CN 202011495017A CN 112613231 B CN112613231 B CN 112613231B
Authority
CN
China
Prior art keywords
privacy
attribute
disturbance
parameter
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011495017.0A
Other languages
English (en)
Other versions
CN112613231A (zh
Inventor
李欣姣
吴国伟
姚琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202011495017.0A priority Critical patent/CN112613231B/zh
Publication of CN112613231A publication Critical patent/CN112613231A/zh
Application granted granted Critical
Publication of CN112613231B publication Critical patent/CN112613231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种机器学习中隐私可用均衡的轨迹训练数据扰动机制,属于机器学习隐私与安全技术领域。首先,在获取轨迹训练数据集后,根据用户对记录联动攻击、属性联动攻击和成员推理攻击的防御要求,构建隐私扰动参数取值范围公式,隐私扰动参数的取值范围公式构成隐私模型。其次,基于轨迹训练数据集的相关参数构建隐私扰动参数取值公式形成数据可用性模型,结合隐私模型得出隐私扰动参数最优取值。最后,在获得隐私扰动参数集之后,使用符合本地化差分隐私的扰动机制对轨迹训练数据集进行扰动。本发明通过本地隐私扰动的方式,基于隐私模型和可用性约束,在保证用户数据隐私的同时,保障数据可用性,一定程度上解决训练数据和学习模型的隐私可用均衡的问题。

Description

一种机器学习中隐私可用均衡的轨迹训练数据扰动机制
技术领域
本发明涉及一种机器学习中基于隐私可用模型和本地化差分隐私的隐私可用均衡的轨迹训练数据扰动方法,属于机器学习安全与隐私技术领域。
背景技术
机器学习当前被应用在各个领域,如恶意检测、图像识别分类、语音指令识别、自动驾驶、推荐系统、医疗系统等等。但是机器学习的安全和隐私问题随着其应用的推广日渐突出,成为阻碍其发展的重要因素。机器学习面临的攻击会导致机器学习算法分类出错、计算出错(如将恶意软件识别为正常软件导致木马攻击,在自动驾驶中计算出错导致交通事故等)从而降低机器学习算法的可信度。同时,机器学习的训练数据往往包含用户隐私数据(如健康数据和位置信息、身份数据和图像内容等),用户希望在保证隐私的条件下进行训练,但面向隐私的攻击会导致用户数据的隐私泄露(如攻击者基于推理结果分析或计算出用户的隐私数据)从而降低机器学习算法的隐私性。因此,保证机器学习算法的安全性和隐私性是机器学习发展的重要课题。
用户在使用网络服务的过程中会产生海量数据,包括服务类型、个人信息、个人爱好、位置信息等。这些包含用户准标识符和隐私属性数据的用户数据广义上称为用户的轨迹数据。在机器学习的数据收集者通过众包机制收集用户轨迹数据并学习的过程中,用户隐私遭受来自不同能力攻击者的数据污染和隐私询问等多种隐私和安全攻击。其中隐私询问攻击发生在模型学习的预测阶段,是一种黑盒攻击,攻击者具有一定的背景知识和计算能力,按照攻击目标和类型询问攻击可以分为成员推理攻击、数据重构攻击和模型反演攻击。为了防御这些攻击,现有隐私保护方案主要针对模型输入、训练和输出三个方面,但在复杂分布式且动态的网络环境下,现有隐私保护方案仍存在计算、存储和数据安全等多种问题。同时,用户在提交训练数据后失去数据控制权,在模型训练和模型输出阶段对数据进行的隐私保护手段,并不能完全保证数据隐私,因此在用户端对数据进行隐私处理是最有隐私保障的数据处理方式。
发明内容
为了在保证数据隐私性和可用性的条件下对机器学习中的轨迹训练数据进行扰动,本发明提出了一种基于隐私和可用模型以及本地化差分隐私数据扰动的轨迹训练数据扰动机制。接收到轨迹训练数据集后,首先根据用户对防御记录联动攻击、属性联动攻击和成员推理攻击的防御要求,计算隐私扰动参数取值范围,形成隐私模型。为了提升数据可用性,基于属性修改权重、属性信息熵、模型分类数量和属性敏感度形成隐私扰动参数计算公式,形成可用性模型。基于隐私模型计算的隐私扰动参数取值范围和可用性模型的隐私扰动参数计算公式,确定扰动参数取值。扰动机制利用本地化差分隐私算法和隐私扰动参数集取值,分别将噪声添加到轨迹训练数据的连续属性和离散属性中,保证轨迹训练数据的隐私性和可用性。
为了达到上述目的,本发明采用的技术方案为:
一种机器学习中隐私可用均衡的轨迹训练数据扰动方法,具体是一种机器学习中基于隐私模型和可用模型确定隐私扰动参数集,和使用满足本地化差分隐私的数据扰动方法进行数据扰动的隐私可用均衡的轨迹训练数据扰动机制,首先定义如表1所示的变量:
表1常用的变量及说明
Figure BDA0002841880190000021
所述轨迹训练数据扰动方法的具体步骤如下:
(1)首先在获取轨迹训练数据集后,根据用户对记录联动攻击、属性联动攻击和成员推理攻击的防御要求,构建隐私扰动参数取值范围公式,隐私扰动参数的取值范围公式构成隐私模型,使扰动后的轨迹训练数据集面临记录联动攻击、属性联动攻击和成员推理攻击的安全性达到用户要求。
隐私扰动参数取值范围计算和隐私模型的构建,过程如下:
(1.1)首先,获取轨迹训练数据集和用户对记录联动攻击、属性联动攻击和成员推理攻击的防御参数α、β、γ;统计轨迹训练数据集的准标识符属性、隐私属性和属性个数信息。
(1.2)基于防御参数α建立隐私扰动参数取值范围公式,防御记录联动攻击。基于用户对记录联动攻击的防御要求,准标识符被识别的概率应小于防御参数α,即所有准标识符属性取值被扰动后与原准标识符属性取值相同的概率之积小于防御参数α:
Figure BDA0002841880190000031
其中,QAIi表示第i条记录的准标识符;QAIij表示第i条记录准标识符的第j个属性;nQAI表示准标识符属性的数量;
Figure BDA0002841880190000032
表示被隐私扰动后的准标识符;
Figure BDA0002841880190000033
为隐私扰动的过程,
Figure BDA0002841880190000034
表示扰动后的准标识符属性与原准标识符属性相同的概率;
带入隐私扰动参数,计算隐私扰动参数取值范围:
Figure BDA0002841880190000035
其中,∈j表示第j个属性上的隐私扰动参数取值。
(1.3)构建相关敏感属性对集CA。基于均方根系数计算所有敏感属性对的相关性;δCA为属性相关性阈值,将敏感属性对的相关性与δCA作比较,若大于δCA,则将敏感属性对加入到相关敏感属性对集CA中;若不大于δCA则不加入相关敏感属性对集CA中。
(1.4)针对相关敏感属性对集CA中的属性对,按照防御参数β,建立扰动参数取值范围公式,抵御属性联动攻击。基于用户对属性联动攻击的防御要求,相关敏感属性对被识别的概率应当小于防御参数β,即相关敏感属性对中的任一属性被扰动后与原属性取值相同的概率应小于防御参数β:
Figure BDA0002841880190000041
其中,CAi1和CAi2表示一组相关属性对;
Figure BDA0002841880190000042
Figure BDA0002841880190000043
表示扰动后的相关属性对;
Figure BDA0002841880190000044
表示扰动前后的属性相同的概率。
带入隐私扰动参数,计算隐私扰动参数取值范围:
Figure BDA0002841880190000045
(1.5)基于差分隐私定义和用户对成员推理攻击的防御参数γ,构建数据修改前后的概率公式,防御成员推理攻击。基于用户对成员推理攻击的防御要求,同一条记录在扰动后与原记录可识别的概率应小于防御参数γ,即某一条数据的存在与否对轨迹训练数据集的影响很小时,轨迹训练数据集满足γ差分隐私:
Figure BDA0002841880190000046
其中,
Figure BDA0002841880190000047
和ATTi表示来自相差一条数据的相邻数据集的第i条记录;
Figure BDA0002841880190000048
表示扰动后的
Figure BDA0002841880190000049
M(ATTij)表示扰动后的ATTi
带入隐私扰动参数,计算隐私扰动参数取值范围:
∑∈i≤γ
其中,∈i表示i个属性上的隐私扰动参数取值。
(2)为了提升数据可用性,基于轨迹训练数据集的属性修改权重、属性信息熵、模型分类个数、属性敏感度构建隐私扰动参数取值公式,形成数据可用性模型,并结合步骤(1)的隐私模型得出隐私扰动参数最优取值,使得在保证数据隐私性的同时保证数据的可用性,达到隐私可用均衡的目的;
构建隐私扰动参数取值公式和数据可用性模型的具体过程如下:
(2.1)首先对轨迹训练数据集进行训练并记录模型正确率。可用性模型以属性为单位,逐个单次为不同属性增加一个伯努利参数,进行模型训练和测试,记录单个属性增加参数前后模型的正确率,将正确率下降的差值由大到小排列,并将正确率映射到[0,1]区间,记为属性修改权重amw;
(2.2)计算并记录每个属性的信息熵ENT、模型输出分类个数C和属性敏感度Δ,属性敏感度为单个属性的单个取值对模型输出结果的最大影响,通过修改测试集数据得出;
(2.3)构建隐私扰动参数求值公式:
Figure BDA0002841880190000051
其中,k1、k2、k3、k4和b表示参数的权重,amwi表示第i个属性的属性修改权重;ENTi表示第i个属性的信息熵,结合(1)的隐私模型计算隐私扰动参数集∈={∈A,∈B,…∈N}并排序。
(3)在获得隐私扰动参数集之后,使用符合本地化差分隐私的扰动机制对轨迹训练数据集进行扰动;数据扰动的过程如下:
(3.1)扰动机制逐一对属性取值进行加噪,当属性为离散数据时,使用差分隐私指数机制对数据进行加噪;
(3.2)当属性为连续数据时,将连续数据属性的取值映射到[-1,1]区间上并使用随机响应机制对连续数据进行扰动,步骤如下:首先判断属性的隐私扰动参数∈是否小于0.61:若∈<0.61,使用Duchi随机响应机制扰动数据;若∈≥0.61,使用PM随机响应机制扰动机制。
本发明的有益效果:机器学习被广泛使用和搭建于各种复杂的网络架构中,而在复杂的网络环境中共享数据时用户隐私很难得到保障。针对复杂网络下的机器学习机制,本发明通过本地隐私扰动的方式,基于隐私模型和可用性约束,在保证用户数据隐私的同时,保障了数据的可用性,即模型的正确性,一定程度上解决了训练数据和学习模型的隐私可用均衡的问题。
附图说明
图1为本发明所述的隐私可用均衡数据扰动机制的组织结构图。
图2为本发明所述的构建隐私模型的流程图。
图3为本发明所述的构建可用性模型流程图。
图4为本发明所述的数据扰动的流程图。
具体实施方式
为了将本发明的目的,技术方案和优点表达的更清晰明了,接下来将通过实实例和附图,对本发明做进一步的详尽的说明。
一种机器学习中隐私可用均衡的轨迹训练数据扰动机制,本方法包括基于用户对隐私攻击的防御需求构建隐私扰动参数取值范围公式形成隐私模型、基于数据可用性参数构建隐私扰动参数取值公式形成可用性模型、使用满足本地化差分隐私的数据扰动方法对轨迹训练数据进行扰动。
参照图2,隐私扰动参数取值范围计算和隐私模型构建的具体运行过程如下:
步骤1.接收轨迹训练数据集。
步骤2.接收用户对记录联动攻击、属性联动攻击和成员推理攻击的防御参数α、β、γ的取值。
步骤3.统计轨迹训练数据及的准标识符信息、隐私属性信息和属性个数信息。
步骤4.基于α取值和准标识符信息,计算隐私扰动参数取值范围,计算公式为:防御记录联动攻击。基于用户对记录联动攻击的防御要求,准标识符被识别的概率应小于防御参数α,即每个准标识符属性取值被扰动后与原准标识符属性取值相同的概率之积小于防御参数α:
Figure BDA0002841880190000071
带入隐私扰动参数,计算隐私扰动参数取值范围:
Figure BDA0002841880190000072
步骤5.构建相关敏感属性对集CA。从轨迹训练数据集中选取一对敏感属性A1,A2
步骤6.基于均方根系数计算公式计算敏感属性对的相关性,公式如下:
Figure BDA0002841880190000073
其中,A1和A2表示两个敏感属性;n1和n2表示属性A1和A2中不同取值的个数;Aij表示一组敏感属性对Ai和Aj同时出现;p(Aij)表示属性对Aij出现的频率;p(Ai*)和p(A*j)表示属性Ai和Aj出现的频率,p(Ai*)和p(A*j)的计算公式分别为:
Figure BDA0002841880190000074
步骤7.将敏感属性对的相关性CA(A1,A2)与阈值δCA作比较。
步骤8.若敏感属性对的相关性大于阈值δCA,则将敏感属性对加入相关属性对集CA中;若敏感属性对的相关性小于等于阈值δCA,则不加入相关属性对集CA。
步骤9.判断是否取完所有敏感属性对,没有取完则继续从步骤5开始执行;取完则进行下一步。
步骤10.基于相关敏感属性对集CA中的属性对,按照防御参数β,建立扰动参数取值范围公式,抵御属性联动攻击。基于用户对属性联动攻击的防御要求,相关敏感属性对被识别的概率应当小于防御参数β,即相关敏感属性对中的任一属性被扰动后与原属性取值相同的概率应小于防御参数β:
Figure BDA0002841880190000081
带入隐私扰动参数,计算隐私扰动参数取值范围:
Figure BDA0002841880190000082
步骤11.基于差分隐私定义和用户对成员推理攻击的防御参数γ,构建数据修改前后的概率公式,防御成员推理攻击。基于用户对成员推理攻击的防御要求,同一条记录在扰动后与原记录可识别的概率应小于防御参数γ,即某一条数据的存在与否对轨迹训练数据集的影响很小时,轨迹训练数据集满足γ差分隐私:
Figure BDA0002841880190000083
带入隐私扰动参数,计算隐私扰动参数取值范围:
∑∈i≤γ
参照图3,构建隐私扰动参数取值公式和可用性模型的具体过程如下:
步骤12.使用轨迹训练数据集作为输入,对模型进行训练,并记录原始训练数据模型的正确率。
步骤13.从轨迹训练数据集选取一个属性,为其增加一个伯努利参数,以0.5的概率输入第一个属性的取值,将增加伯努利参数的属性与其它属性一起训练模型。
步骤14.测试训练后模型的正确率。
步骤15.判断是否对取完所有属性,没有则继续从步骤13开始执行,取完则进行下一步。
步骤16.计算所有属性依次增加伯努利参数前后模型正确率的差值,并从大到小排序。
步骤17.将排序后的正确率差值映射到[0,1]区间,记为属性修改权重amw。
步骤18.使用信息熵公式求解所有属性信息熵,公式如下:
Figure BDA0002841880190000091
其中,{a1,a2,…an}代表属性A所有的可能取值,p(ai)表示ai出现的频率。ENT(A)越小,则表示信息的不确定性越小,信息的纯度越高,ENT(A)越大,表示信息的不确定性越大,信息的纯度越低。
步骤19.统计模型输出分类个数C。
步骤20.计算属性敏感度Δ,属性敏感度为单个属性的单个取值对模型输出结果的最大影响,通过修改测试集数据得出。
步骤21.构建隐私扰动参数计算公式,
Figure BDA0002841880190000092
获得属性加噪参数集初始值∈={∈A,∈B,…∈N}。
参照图4,数据扰动的具体运行过程如下:
步骤22.选取一个属性和对应的隐私扰动参数∈i
步骤23.判断属性数据类型。
步骤24.当属性为离散属性时,使用指数机制和∈i对属性进行扰动。
步骤25.当属性为连续属性时,将连续数据属性的取值映射到[-1,1]区间上定义为ti,针对∈i的取值使用两种不同的随机响应机制对连续数据进行扰动,并扰动后的属性取值定义为
Figure BDA0002841880190000093
步骤26.将隐私扰动参数∈i与0.61做比较。
步骤27.当对应属性的隐私扰动参数∈取值小于0.61时,使用Duchi机制对属性进行随机响应。取一个服从伯努利分布的变量u,且:
Figure BDA0002841880190000101
若u=1,则扰动后的属性取值
Figure BDA0002841880190000102
Figure BDA0002841880190000103
否则,扰动后的属性取值
Figure BDA0002841880190000104
Figure BDA0002841880190000105
步骤28.当对应属性的隐私扰动参数∈取值大于等于0.61时,使用PM机制对属性进行随机响应。利用随机函数从[0,1]随机抽取一个x值,若
Figure BDA0002841880190000106
则扰动后的属性取值
Figure BDA0002841880190000107
随机从区间[l(ti),r(ti)]中抽取;否则,扰动后的属性取值
Figure BDA0002841880190000108
随机从区间[-C,l(ti)]∪[r(ti),C]中抽取。
其中,
Figure BDA0002841880190000109
Figure BDA00028418801900001010
的概率密度函数是分段的:
Figure BDA00028418801900001011
其中,
Figure BDA00028418801900001012
r(ti)=l(ti)+C-1。
以上所述实施例仅表达本发明的实施方式,但并不能因此而理解为对本发明专利的范围的限制,应当指出,对于本领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。

Claims (1)

1.一种机器学习中隐私可用均衡的轨迹训练数据扰动机制,其特征在于,步骤如下:
(1)首先在获取轨迹训练数据集后,根据用户对记录联动攻击、属性联动攻击和成员推理攻击的防御要求,构建隐私扰动参数取值范围公式,隐私扰动参数的取值范围公式构成隐私模型,使扰动后的轨迹训练数据集面临记录联动攻击、属性联动攻击和成员推理攻击的安全性达到用户要求;其中,计算隐私扰动参数取值范围和构建隐私模型的过程如下:
(1.1)首先,获取轨迹训练数据集和用户对记录联动攻击、属性联动攻击和成员推理攻击的防御参数α、β、γ;统计轨迹训练数据集的准标识符属性、隐私属性和属性个数信息;
(1.2)基于防御参数α建立隐私扰动参数取值范围公式,防御记录联动攻击;基于用户对记录联动攻击的防御要求,准标识符被识别的概率应小于防御参数α,即所有准标识符属性取值被扰动后与原准标识符属性取值相同的概率之积小于防御参数α:
Figure FDA0002841880180000011
其中,QAIi表示第i条记录的准标识符;QAIij表示第i条记录准标识符的第j个属性;nQAI表示准标识符属性的数量;
Figure FDA0002841880180000012
表示被隐私扰动后的准标识符;
Figure FDA0002841880180000013
为隐私扰动的过程,
Figure FDA0002841880180000014
表示扰动后的准标识符属性与原准标识符属性相同的概率;
带入隐私扰动参数,计算隐私扰动参数取值范围:
Figure FDA0002841880180000015
其中,∈j表示第j个属性上的隐私扰动参数取值;
(1.3)构建相关敏感属性对集CA;基于均方根系数计算所有敏感属性对的相关性;δCA为属性相关性阈值,将敏感属性对的相关性与δCA作比较,若大于δCA,则将敏感属性对加入到相关敏感属性对集CA中;若不大于δCA则不加入相关敏感属性对集CA中;
(1.4)针对相关敏感属性对集CA中的属性对,按照防御参数β,建立扰动参数取值范围公式,抵御属性联动攻击;基于用户对属性联动攻击的防御要求,相关敏感属性对被识别的概率应当小于防御参数β,即相关敏感属性对中的任一属性被扰动后与原属性取值相同的概率应小于防御参数β:
Figure FDA0002841880180000021
其中,CAi1和CAi2表示一组相关属性对;
Figure FDA0002841880180000022
Figure FDA0002841880180000023
表示扰动后的相关属性对;
Figure FDA0002841880180000024
表示扰动前后的属性相同的概率;
带入隐私扰动参数,计算隐私扰动参数取值范围:
Figure FDA0002841880180000025
(1.5)基于差分隐私定义和用户对成员推理攻击的防御参数γ,构建数据修改前后的概率公式,防御成员推理攻击;基于用户对成员推理攻击的防御要求,同一条记录在扰动后与原记录可识别的概率应小于防御参数γ,即某一条数据的存在与否对轨迹训练数据集的影响很小时,轨迹训练数据集满足γ差分隐私:
Figure FDA0002841880180000031
其中,
Figure FDA0002841880180000032
和ATTi表示来自相差一条数据的相邻数据集的第i条记录;
Figure FDA0002841880180000033
表示扰动后的
Figure FDA0002841880180000034
M(ATTij)表示扰动后的ATTi
带入隐私扰动参数,计算隐私扰动参数取值范围:
∑∈i≤γ
其中,∈i表示i个属性上的隐私扰动参数取值;
(2)基于轨迹训练数据集的属性修改权重、属性信息熵、模型分类个数、属性敏感度构建隐私扰动参数取值公式,形成数据可用性模型,并结合步骤(1)的隐私模型得出隐私扰动参数最优取值,使得在保证数据隐私性的同时保证数据的可用性,达到隐私可用均衡的目的;其中,构建隐私扰动参数取值公式和数据可用性模型的过程如下:
(2.1)首先对轨迹训练数据集进行训练并记录模型正确率;可用性模型以属性为单位,逐个单次为不同属性增加一个伯努利参数,进行模型训练和测试,记录单个属性增加参数前后模型的正确率,将正确率下降的差值由大到小排列,并将正确率映射到[0,1]区间,记为属性修改权重amw;
(2.2)计算并记录每个属性的信息熵ENT、模型输出分类个数C和属性敏感度Δ,属性敏感度为单个属性的单个取值对模型输出结果的最大影响,通过修改测试集数据得出;
(2.3)构建隐私扰动参数求值公式:
Figure FDA0002841880180000041
其中,k1、k2、k3、k4和b表示参数的权重,amwi表示第i个属性的属性修改权重;ENTi表示第i个属性的信息熵,结合(1)的隐私模型计算隐私扰动参数集∈={∈A,∈B,...∈N}并排序;
(3)在获得隐私扰动参数集之后,使用符合本地化差分隐私的扰动机制对轨迹训练数据集进行扰动;其中,数据扰动的过程如下:
(3.1)扰动机制逐一对属性取值进行加噪,当属性为离散数据时,使用差分隐私指数机制对数据进行加噪;
(3.2)当属性为连续数据时,将连续数据属性的取值映射到[-1,1]区间上并使用随机响应机制对连续数据进行扰动,步骤如下:判断属性的隐私扰动参数∈是否小于0.61:若∈<0.61,使用Duchi随机响应机制扰动数据;若∈≥0.61,使用PM随机响应机制扰动机制。
CN202011495017.0A 2020-12-17 2020-12-17 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制 Active CN112613231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011495017.0A CN112613231B (zh) 2020-12-17 2020-12-17 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011495017.0A CN112613231B (zh) 2020-12-17 2020-12-17 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制

Publications (2)

Publication Number Publication Date
CN112613231A CN112613231A (zh) 2021-04-06
CN112613231B true CN112613231B (zh) 2022-09-20

Family

ID=75240128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011495017.0A Active CN112613231B (zh) 2020-12-17 2020-12-17 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制

Country Status (1)

Country Link
CN (1) CN112613231B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626854B (zh) * 2021-07-08 2023-10-10 武汉大学 一种基于本地化差分隐私的图像数据隐私保护方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN111144500A (zh) * 2019-12-30 2020-05-12 西安电子科技大学 基于解析高斯机制的差分隐私深度学习分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN111144500A (zh) * 2019-12-30 2020-05-12 西安电子科技大学 基于解析高斯机制的差分隐私深度学习分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于DCGAN反馈的深度差分隐私保护方法;毛典辉等;《北京工业大学学报》;20180424(第06期);全文 *

Also Published As

Publication number Publication date
CN112613231A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
US20230013306A1 (en) Sensitive Data Classification
Wang et al. Heterogeneous network representation learning approach for ethereum identity identification
Bolón-Canedo et al. Feature selection for high-dimensional data
Bourigault et al. Representation learning for information diffusion through social networks: an embedded cascade model
Din et al. Exploiting evolving micro-clusters for data stream classification with emerging class detection
CN105224872B (zh) 一种基于神经网络聚类的用户异常行为检测方法
Jiang et al. A method to determine generalized basic probability assignment in the open world
CN112199717A (zh) 一种基于少量公共数据的隐私模型训练方法及装置
CN101841435A (zh) Dns查询流量异常的检测方法、装置和系统
Liu et al. Membership inference attacks against machine learning models via prediction sensitivity
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
Wei et al. Modeling the uncertainty of information propagation for rumor detection: A neuro-fuzzy approach
CN111581352B (zh) 基于可信度的互联网恶意域名检测方法
CN113553624A (zh) 基于改进pate的wgan-gp隐私保护系统和方法
Shi et al. Fault diagnosis of nonlinear and large-scale processes using novel modified kernel Fisher discriminant analysis approach
CN112613231B (zh) 一种机器学习中隐私可用均衡的轨迹训练数据扰动机制
WO2022028131A1 (zh) 一种基于隐私保护的数据处理模型获取方法、装置、终端设备及存储介质
Shamsabadi et al. Confidential-PROFITT: confidential PROof of fair training of trees
Chengkun et al. Evidence combination method in time domain based on reliability and importance
Petersen Data mining for network intrusion detection: A comparison of data mining algorithms and an analysis of relevant features for detecting cyber-attacks
CN110049034A (zh) 一种基于深度学习的复杂网络实时Sybil攻击检测方法
Zhang et al. DDoS attack security situation assessment model using fusion feature based on fuzzy C-means clustering algorithm
Kai et al. A CVSS-based vulnerability assessment method for reducing scoring error
Fan et al. A network intrusion detection method based on improved Bi-LSTM in Internet of Things environment
Lijun et al. An intuitionistic calculus to complex abnormal event recognition on data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant