CN112580701B - 一种基于分类变换扰动机制的均值估计方法及装置 - Google Patents
一种基于分类变换扰动机制的均值估计方法及装置 Download PDFInfo
- Publication number
- CN112580701B CN112580701B CN202011428994.9A CN202011428994A CN112580701B CN 112580701 B CN112580701 B CN 112580701B CN 202011428994 A CN202011428994 A CN 202011428994A CN 112580701 B CN112580701 B CN 112580701B
- Authority
- CN
- China
- Prior art keywords
- data
- disturbance
- privacy
- transformation
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于分类变换扰动机制的均值估计方法及装置,属于信息安全技术领域,该机制采用了数据变换扰动的方式,将数值型数据划分变换范围并进行分段,根据分段将其变换为一维二元分类数据;对转换后的数据使用随机响应机制进行扰动,再根据扰动后的数据标识的数值段从中随机均匀抽取数值作为扰动值;与其他方法相比,该方法在满足本地差分隐私机制的同时,在数据分析任务如均值估计中能获得较高的数据效用性,得到的模型的分类准确性要更高,性能要更好。
Description
技术领域
本发明属于信息安全技术领域,具体涉及一种基于分类变换扰动机制的均值估计方法及装置。
背景技术
本地差分隐私机制作为差分隐私的分支,提供了比差分隐私还要强大的隐私保障,其最典型的扰动机制是随机响应机制。在本地差分隐私中,假设服务器是不可信的,用户不直接将原始数据发给服务器,而是在本地对数据进行扰动使其满足本地差分隐私,然后再将扰动后的数据发送给服务器。服务器对收集的噪声数据进行相应的数据分析任务,得到所需的统计信息。使用本地差分隐私进行隐私保护不需要进行大量复杂的运算,并且可以在获得较为准确的统计信息的同时有效的保障用户数据的隐私性,从而避免了用户隐私泄露的问题。
由于有上述优势,本地差分隐私机制广泛地应用于各个领域,例如:统计数据库、图像处理、隐私保护数据发布以及隐私保护数据挖掘等。而近年来,针对不同类型数据,也提出了很多本地差分隐私方法,而且在实际的应用中也取得了很多的成果。但是,现有的本地差分隐私机制的准确性较差,仍具有较大的提升空间。并且这些方法大多直接对数据进行扰动,忽略了转换数据类型进行扰动的可能性,忽略了可以通过变换数据类型进行扰动以平衡数据的效用性和隐私性的可能性。
发明内容
为解决上述问题,本发明提供了一种基于分类变换扰动机制的均值估计方法,所述方法包括步骤:
对数据进行预处理,将数据映射到-1到1的范围;
将数值型数据以数据点为中心划分成四段;
将数据根据划分的数据段进行随机抽取,转换为一维二元分类数据;
采用随机响应机制对转换后得到的分类数据进行扰动;
根据扰动后数据对应的数据段,在该数据段随机均匀抽取一个值作为其扰动后的数值型数据;
将所有的数据使用该扰动机制进行扰动;
使用扰动后数据计算属性均值;
计算数据扰动后得出的均值与未扰动的均值的绝对误差。
优选地,所述数据映射的表达公式为:
其中,v表示用户的原始数据,U表示该属性的最大值,L表示该属性的最小值,v′表示该值经过映射之后得到的值。
优选地,所述数据转换的计算公式为:
其中,数据划分时将数据分成了四段,l1代表数据进行分段之后的最左边的端点,l2代表数据划分后第二段的左端点,R1代表数据划分后第三段的右端点,R2代表数据划分之后最右边的端点。
优选地,所述的数据划分的计算公式为:
m=d/2
l1=v′-d
l2=v′-m
R1=v′+m
R2=v′+d
其中,v′表示数据映射之后得到的数据,d表示数据变换的范围,即左右两端距离原始数据的距离,m为取d的一半,α为引入的距离参数,ε为扰动过程中使用的隐私预算。
优选地,所述数据扰动的计算公式为:
优选地,所述扰动公式的求解过程为:
优选地,所述分逆变换的计算公式为:
优选地,所述计算均值估计包括步骤:
计算扰动前属性均值;
计算扰动后属性均值;
计算扰动前后均值的绝对误差。
本发明还提供了一种基于分类变换扰动机制的均值估计装置,所述装置包括:
数据预处理,用于将数据映射到-1到1的范围;
数据划分计算,用于将数据进行分段,用于后续进行分类变换以及分类逆变换;
分类变换,用于将数据根据划分之后的数据段,转换为一维二元分类数据;
数据扰动,用于对转换后获得的分类数据,使用随机响应机制对其进行扰动,得到一个扰动后的分类数据;
分类逆变换,用于将扰动后的数据,根据所述的数据段,逆变换为数值型数据;
均值绝对误差估计,用于计算扰动后属性均值与扰动前属性均值均方误差。
本发明提供的一种基于分类变换扰动机制的均值估计方法及装置,具有以下优势:
(1)使用了变换数据类型的方法,使得扰动在满足差分隐私条件给用户提供良好的隐私性的同时,可以提供较高的数据效用性;
(2)使用随机响应机制对转换后的分类型数据进行扰动,在给用户数据提供隐私保障的同时,可以确保服务器获得较为准确有效的统计信息;
(3)在计算变换范围d时引入了隐私预算ε,可以有效的根据隐私强度的需求对数据变换范围进行动态调整,使得扰动操作能够更加贴切用户的隐私需求;
(4)所述装置的数据变换计算单元,将数值型数据通过数据变换变成一维二元分类数据,再进行扰动操作,而不是直接对原始数据进行扰动,并且在将扰动后的分类数据转换回数值型数据时,采用了随机均匀抽取的方式,在分类数据代表的数据段中随机均匀抽取一个数来代表扰动后的数值型数据,通过实验可知采用转换数据类型进行扰动的方式要比传统的直接对原数据类型进行扰动的方法更有效,可以更好的平衡数据的隐私性和效用性,解决了传统的本地差分隐私机制应用到数据分析任务准确性较低的问题;
所述装置的扰动机制单元,在对转换后的分类型数据进行扰动时,采用了经典的分类数据扰动机制即随机响应机制,该机制有概率f将数据转换为另一类数据,有1-f的概率数据保持不变,该机制使得数据的扰动满足差分隐私,给数据带来足够的隐私保障,同时保障在数据进行相关的统计任务时获得统计结果的准确性;
所述装置的变换范围计算单元,在计算扰动数据的最大变换范围时引入了隐私预算来对范围进行动态调节,若是单一的定义一个扰动范围,那将无法很好的确定一个合适的值,有很大可能会使得扰动后的数据效用性低,并且当隐私需求变换时无法很好的贴切数据的隐私性,例如在设置变换范围时,为了满足强隐私需求,可能会将变换范围设置的尽可能的大,但是当所需的隐私需求较弱时,这个变换范围值将不再适合,将使得数据效用性变差,引入隐私预算之后,变换范围可以根据用户的隐私需求的强弱进行变化,进一步提高了用户数据的效用性,同时也保障了数据的隐私性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于分类变换扰动机制的均值估计方法的流程图;
图2是使用本发明提供的一种基于分类变换扰动机制的均值估计装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
如图1,本发明提供了一种基于分类变换扰动机制的均值估计方法,所述方法步骤如下:
步骤S1:对数据进行预处理,通过公式(1)将数据映射到-1到1的范围,
其中,v表示用户的原始数据,U表示该属性的最大值,L表示该属性的最小值,v′表示该值经过映射之后得到的值;
步骤S2:通过公式(2-7)将数值型数据以数据点为中心划分为四段,
m=d/2 (3)
l1=v′-d (4)
l2=v′-m (5)
R1=v′+m (6)
R2=v′+d (7)
其中,v′表示数据映射之后得到的数据,d表示数据变换的范围,即左右两端距离原始数据的距离,m为取d的一半,α为引入的距离参数,ε为扰动过程中使用的隐私预算;
公式(2)中不同α值计算均值估计得出的均值误差的折线图如图2所示;
步骤S3:将数据根据划分的数据段进行随机抽取,通过公式(8)将数据转换为一维二元分类数据,
其中,上一步骤数据划分时将数据分成了四段,l1代表数据进行分段之后的最左边的端点,l2代表数据划分后第二段的左端点,R1代表数据划分后第三段的右端点,R2代表数据划分之后最右边的端点;
步骤S4:采用公式(9)所示的随机响应机制对转换后的分类数据继续扰动,
扰动机制应满足本地差分隐私,其定义为:
根据定义可得:
步骤S5:计算出扰动后的值后,根据扰动后数据对应的数据段,使用公式(10)将其逆转换为数值型数据,
步骤S6:对于均值估计任务,将所有的数据使用该扰动机制进行扰动;
步骤S7:使用扰动后数据计算属性均值;
步骤S8:计算数据扰动后得出的均值与未扰动的均值的绝对误差,具体如下:
步骤S801:计算扰动前属性均值;
步骤S802:计算扰动后属性均值;
步骤S803:计算扰动前后属性均值的绝对误差,
其中,mo代表属性的真实均值,m*代表扰动后得到的属性均值,T代表运行的次数,为消除扰动时随机性带来的误差,将实验重复运行T次取均值;
通过本实施方式先对每一个数值型数据进行数据变换范围划分,然后将其转换为分类数据,再使用随机响应机制对转换后的数据进行扰动,随后,将扰动后的数据逆变换为数值型数据,最后将该机制分别用到均值估计任务中,再计算均值估计中属性均值的绝对误差;
如图2,在本申请实施例中,本申请还提供了一种基于分类变换扰动机制的均值估计装置,所述装置包括:
数据预处理单元10,用于将数据映射到-1到1的范围;
数据划分计算单元20,用于将数据进行分段,用于后续进行分类变换以及分类逆变换;
分类变换单元30,用于将数据根据划分之后的数据段,转换为一维二元分类数据;
数据扰动单元40,用于对转换后获得的分类数据,使用随机响应机制对其进行扰动,得到一个扰动后的分类数据;
分类逆变换单元50,用于将扰动后的数据,根据所述的数据段,逆变换为数值型数据;
均值估计绝对误差计算单元60,用于计算扰动后属性均值与扰动前属性均值均方误差;
本申请提供的一种基于分类变换扰动机制的均值估计方法及装置,可以结合本申请提供的一种基于分类变换扰动机制的均值估计方法进行运行,此处不再赘述。
关于本实施方式参数的设置,对于变换范围中引入隐私预算是本实施方式所采用的重要方法,如果不引入隐私预算,则意味着只能划分一个固定距离的变换范围,数据的效用性和隐私性将受到影响,随着隐私预算值变大,划分的变换范围将变小。
本实施方式提出了一种基于分类变换扰动机制的均值估计方法及装置,在均值估计任务中,对用户原始数据使用该机制进行扰动之后计算属性均值,在不同数据集上的实验结果表明,本实施方式相对于其他方法有着更高的准确性,有着更好的优越性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (2)
1.一种基于分类变换扰动机制的均值估计方法,其特征在于,所述方法包括步骤:
步骤S1:对数据进行预处理,通过公式(1)将数据映射到-1到1的范围,
其中,v表示用户的原始数据,U表示属性的最大值,L表示属性的最小值,v'表示该值经过映射之后得到的值;
步骤S2:通过公式2到7将数值型数据以数据点为中心划分为四段,
m=d/2 (3)
l1=v'-d (4)
l2=v'-m (5)
R1=v'+m (6)
R2=v'+d (7)
其中,v'表示数据映射之后得到的数据,d表示数据变换的范围,即左右两端距离原始数据的距离,m为取d的一半,α为引入的距离参数,ε为扰动过程中使用的隐私预算;在计算变换范围d时引入了隐私预算ε,可以有效的根据隐私强度的需求对数据变换范围进行动态调整,使得扰动操作能够更加贴切用户的隐私需求;
步骤S3:将数据根据划分的数据段进行随机抽取,通过公式(8)将数据转换为一维二元分类数据,
其中,上一步骤数据划分时将数据分成了四段,l1代表数据进行分段之后的最左边的端点,l2代表数据划分后第二段的左端点,R1代表数据划分后第三段的右端点,R2代表数据划分之后最右边的端点;使用了变换数据类型的方法,使得扰动在满足差分隐私条件给用户提供良好的隐私性的同时,可以提供较高的数据效用性;
步骤S4:采用公式(9)所示的随机响应机制对转换后的分类数据继续扰动,
扰动机制应满足本地差分隐私,其定义为:
根据定义可得:
使用随机响应机制对转换后的分类型数据进行扰动,在给用户数据提供隐私保障的同时,可以确保服务器获得较为准确的统计信息;
步骤S5:计算出扰动后的值后,根据扰动后数据对应的数据段,使用公式(10)将其逆转换为数值型数据,
其中retra(·)代表的是进行逆变换的操作,代表的是一维二元分类数据扰动后得到的值;将数值型数据通过数据变换变成一维二元分类数据,再进行扰动操作,而不是直接对原始数据进行扰动,并且在将扰动后的分类数据转换回数值型数据时,采用了随机均匀抽取的方式,在分类数据代表的数据段中随机均匀抽取一个数来代表扰动后的数值型数据,通过实验可知采用转换数据类型进行扰动的方式要比传统的直接对原数据类型进行扰动的方法更有效,可以更好的平衡数据的隐私性和效用性,解决了传统的本地差分隐私机制应用到数据分析任务准确性较低的问题。
步骤S6:对于均值估计任务,将所有的数据使用该扰动机制进行扰动。
步骤S7:使用扰动后数据计算属性均值。
步骤S8:计算数据扰动后得出的均值与未扰动的均值的绝对误差。
2.根据权利要求1所述的分类变换扰动机制,其特征在于,所述计算均值估计包括步骤:
计算扰动前属性均值;
计算扰动后属性均值;
计算扰动前后均值的绝对误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011428994.9A CN112580701B (zh) | 2020-12-09 | 2020-12-09 | 一种基于分类变换扰动机制的均值估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011428994.9A CN112580701B (zh) | 2020-12-09 | 2020-12-09 | 一种基于分类变换扰动机制的均值估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112580701A CN112580701A (zh) | 2021-03-30 |
CN112580701B true CN112580701B (zh) | 2022-07-12 |
Family
ID=75130360
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011428994.9A Active CN112580701B (zh) | 2020-12-09 | 2020-12-09 | 一种基于分类变换扰动机制的均值估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112580701B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779633B (zh) * | 2021-09-16 | 2024-04-09 | 咪咕文化科技有限公司 | 一种数据处理方法、装置及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109104696A (zh) * | 2018-08-13 | 2018-12-28 | 安徽大学 | 一种基于差分隐私的移动用户的轨迹隐私保护方法及系统 |
CN110490002A (zh) * | 2019-08-27 | 2019-11-22 | 安徽大学 | 一种基于本地化差分隐私的多维众包数据真值发现方法 |
CN110866263A (zh) * | 2019-11-14 | 2020-03-06 | 中国科学院信息工程研究所 | 一种可对抗纵向攻击的用户隐私信息保护方法及系统 |
CN111669366A (zh) * | 2020-04-30 | 2020-09-15 | 南京大学 | 一种本地化差分隐私数据交换方法及存储介质 |
CN111737744A (zh) * | 2020-06-22 | 2020-10-02 | 安徽工业大学 | 一种基于差分隐私的数据发布方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8893292B2 (en) * | 2012-11-14 | 2014-11-18 | Mitsubishi Electric Research Laboratories, Inc. | Privacy preserving statistical analysis for distributed databases |
US10146958B2 (en) * | 2013-03-14 | 2018-12-04 | Mitsubishi Electric Research Laboratories, Inc. | Privacy preserving statistical analysis on distributed databases |
US10229282B2 (en) * | 2016-06-12 | 2019-03-12 | Apple Inc. | Efficient implementation for differential privacy using cryptographic functions |
US10423781B2 (en) * | 2017-05-02 | 2019-09-24 | Sap Se | Providing differentially private data with causality preservation |
-
2020
- 2020-12-09 CN CN202011428994.9A patent/CN112580701B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109104696A (zh) * | 2018-08-13 | 2018-12-28 | 安徽大学 | 一种基于差分隐私的移动用户的轨迹隐私保护方法及系统 |
CN110490002A (zh) * | 2019-08-27 | 2019-11-22 | 安徽大学 | 一种基于本地化差分隐私的多维众包数据真值发现方法 |
CN110866263A (zh) * | 2019-11-14 | 2020-03-06 | 中国科学院信息工程研究所 | 一种可对抗纵向攻击的用户隐私信息保护方法及系统 |
CN111669366A (zh) * | 2020-04-30 | 2020-09-15 | 南京大学 | 一种本地化差分隐私数据交换方法及存储介质 |
CN111737744A (zh) * | 2020-06-22 | 2020-10-02 | 安徽工业大学 | 一种基于差分隐私的数据发布方法 |
Non-Patent Citations (4)
Title |
---|
Active Learning Method for Chinese Spam Filtering;Guanglu Sun等;《International Journal of Performability Engineering》;20170731;第13卷(第4期);第511-518页 * |
Collecting and Analyzing Multidimensional Data with Local Differential Privacy;Ning Wang等;《2019 IEEE 35th International Conference on Data Engineering (ICDE)》;20190606;第638-649页 * |
Efficient Privacy-Preserving Algorithm Base on Sparse Coding for Information-Centric IoT;Hui Cao等;《 IEEE Access 》;20181018;第6卷;第63143 - 63154页 * |
面向频繁序列的局部差分隐私保护研究;杨高明等;《哈尔滨工程大学学报》;20190716;第40卷(第11期);第1903-1910页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112580701A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102223419B1 (ko) | 시계열의 고속 그룹화 기법 | |
CN111460153A (zh) | 热点话题提取方法、装置、终端设备及存储介质 | |
CN112580701B (zh) | 一种基于分类变换扰动机制的均值估计方法及装置 | |
CN114564971B (zh) | 深度学习模型的训练方法、文本数据处理方法和装置 | |
CN111191555B (zh) | 一种结合高低空间频率特征的目标跟踪方法、介质及系统 | |
Katkar et al. | A novel approach for medical image segmentation using PCA and K-means clustering | |
Wang et al. | A T-CNN time series classification method based on Gram matrix | |
Liu et al. | Color image segmentation using nonparametric mixture models with multivariate orthogonal polynomials | |
CN113642710A (zh) | 一种网络模型的量化方法、装置、设备和存储介质 | |
Zhang et al. | Mapping time series into complex networks based on equal probability division | |
Das et al. | Review of adaptive decomposition-based data preprocessing for renewable generation rich power system applications | |
WO2023155305A1 (zh) | 图像重建方法、装置、电子设备及存储介质 | |
Liu et al. | An optional gauss filter image denoising method based on difference image fast fuzzy clustering | |
CN114692987A (zh) | 一种时序数据分析方法、装置、设备及存储介质 | |
CN114842178A (zh) | 一种基于电子产品的在线可视化交互系统及方法 | |
Leung et al. | Adaptive complementary ensemble emd and energy-frequency spectra of cryptocurrency prices | |
Liu et al. | [Retracted] Electrochemical Intelligent Recognition of Mineral Materials Based on Superpixel Image Segmentation | |
CN111652305A (zh) | 一种面向大数据空间的数据局部密度聚类方法 | |
Chernikov et al. | FRANS: Automatic Feature Extraction for Time Series Forecasting | |
Qiao et al. | Guided filter-driven kernel fuzzy clustering with local information for noise image segmentation | |
Zhang et al. | Industrial Image Enhancement Method Based on Cloud Edge Fusion | |
CN115134816B (zh) | 基于时空卷积和多时间尺度的基站流量预测方法 | |
Wang et al. | Stacking strategy-assisted random forest algorithm and its application | |
Tian et al. | Research on preprocessing algorithm of two-camera face recognition attendance image based on artificial intelligence | |
Mallqui et al. | Recurrence plot representation for multivariate time-series analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |