CN111628974A - 差分隐私保护方法、装置、电子设备和存储介质 - Google Patents
差分隐私保护方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111628974A CN111628974A CN202010395566.4A CN202010395566A CN111628974A CN 111628974 A CN111628974 A CN 111628974A CN 202010395566 A CN202010395566 A CN 202010395566A CN 111628974 A CN111628974 A CN 111628974A
- Authority
- CN
- China
- Prior art keywords
- differential privacy
- distance
- group
- elements
- grouping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0643—Hash functions, e.g. MD5, SHA, HMAC or f9 MAC
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Power Engineering (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种差分隐私保护方法、装置、电子设备和存储介质。保护方法包括步骤:利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个映射结果为数据集的一个元素,数据集关联一个集合差分隐私参数,根据元素间距离将数据集划分为多个分组以将相邻的元素划入同一分组,根据分组内的元素间距离计算分组对应的分组差分隐私参数,分组差分隐私参数小于集合差分隐私参数。本申请的保护方法中,用户应答集合映射成数据集,及将数据集中相邻的映射结果划分入同一分组,并根据映射结果对集合差分隐私参数优化生成分组差分隐私参数以对映射结果扰动。如此,提高了隐私保护程度且兼顾了结果的可用性。
Description
技术领域
本申请涉及计算机网络安全领域,特别涉及一种用于计算机网络安全领域的差分隐私保护方法、差分隐私保护装置、电子设备和计算机可读存储介质。
背景技术
在计算机网络安全领域,差分隐私保护技术得到广泛的应用。差分隐私技术通过设置差分隐私参数对用户真实应答进行扰动,例如,通过差分隐私参数对用户真实应答进行扰动,使得用户真实应答的01字符串经过扰动输出后,01字符串中的1有一定概率变成0,0也有一定概率变成1,以达到对用户隐私保护的功能。隐私保护强弱与差分隐私参数的取值呈负相关。以用户真实应答的01字符串中1或0变化为例,差分隐私参数取值越大,则1变成0或0变成1的概率越小,则输出值与用户真实应答越接近,说明差分隐私参数对用户真实应答的保护能力越差。差分隐私参数取值越小,虽然隐私保护越好,但差分隐私参数的扰动会使得输出的数据与用户真实应答相差越大,数据可用性越就越差。
相关技术中,为了保障数据的可用性,差分隐私参数普遍设置较大,保护能力较差。因而,如何合理地优化差分隐私参数,平衡隐私保护效果和结果可用性,成了亟待解决的问题。
发明内容
本申请提供了一种差分隐私保护方法,所述保护方法包括:
利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个所述映射结果为所述数据集的一个元素,所述数据集关联一个集合差分隐私参数;
根据元素间距离将所述数据集划分为多个分组以将相邻的所述元素划入同一所述分组;和
根据所述分组内的元素间距离计算每个所述分组对应的分组差分隐私参数,所述分组差分隐私参数小于所述集合差分隐私参数。
本申请还提供了一种差分隐私保护装置,所述差分隐私保护装置包括:
映射模块,所述映射模块用于利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个所述映射结果为所述数据集的一个元素,所述数据集关联一个集合差分隐私参数;
划分模块,所述划分模块用于根据元素间距离将所述数据集划分为多个分组以将相邻的所述数据划入同一所述分组;和
计算模块,所述计算模块用于根据所述分组内的元素间距离计算每个所述分组对应的分组差分隐私参数,所述分组差分隐私参数小于所述集合差分隐私参数。
本申请提供了一种电子设备,所述电子设备包括处理器,所述处理器用于:
利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个所述映射结果为所述数据集的一个元素,所述数据集关联一个集合差分隐私参数;
根据元素间距离将所述数据集划分为多个分组以将相邻的所述元素划入同一所述分组;和
根据所述分组内的元素间距离计算每个所述分组对应的分组差分隐私参数,所述分组差分隐私参数小于所述集合差分隐私参数。
本申请提供了一种电子设备,包括一个或者多个处理器、存储器;和
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被所述一个或多个处理器执行,所述程序包括用于执行上述任意一项的所述差分隐私保护方法的指令。
本申请提供了一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行所述的差分隐私保护方法。
本申请的差分隐私保护方法、差分隐私保护装置、电子设备和计算机可读存储介质将用户应答集合映射成的数据集、将相邻的映射结果划分入同一分组以及对同一分组的映射结果的差分隐私参数进行优化得到小于集合差分隐私参数的分组差分隐私参数。由于分组差分隐私参数小于集合差分隐私参数,因此,相较于相关技术中通过集合差分隐私参数对映射结果扰动的差分隐私保护方法,本申请的差分隐私保护方法提高了隐私保护程度。另一方面,每个分组内的表征用户应答的映射结果由于相邻因此相似度高,因此即使在采用较小的分组差分隐私参数的情况下,映射结果经扰动后生成的结果的可用性仍然较高。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的差分隐私保护方法的一个流程示意图。
图2是本申请某些实施方式的差分隐私保护装置的模块示意图。
图3是本申请某些实施方式的电子设备的模块示意图。
图4是本申请某些实施方式的电子设备的又一个模块示意图。
图5是本申请某些实施方式的处理器和计算机可读存储介质的连接示意图。
图6本申请某些实施方式的差分隐私保护方法一个实现过程的示意图。
图7是本申请某些实施方式的差分隐私保护方法的一个分组示意图。
图8是本申请某些实施方式的差分隐私保护方法的一个流程示意图。
图9是本申请某些实施方式的差分隐私保护方法的又一个分组示意图。
图10本申请某些实施方式的差分隐私保护方法的一个示意图。
图11是本申请某些实施方式的差分隐私保护方法的又一个分组示意图。
图12是本申请某些实施方式的差分隐私保护方法的又一个流程示意图。
图13是本申请某些实施方式的差分隐私保护方法的又一个流程示意图。
图14是本申请某些实施方式的差分隐私保护方法的又一个流程示意图。
具体实施方式
下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体地限定。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接或可以相互通信;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
下文的公开提供了许多不同的实施方式或例子用来实现本申请的不同结构。为了简化本申请的公开,下文中对特定例子的部件和设置进行描述。当然,它们仅仅为示例,并且目的不在于限制本申请。此外,本申请可以在不同例子中重复参考数字和/或参考字母,这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施方式和/或设置之间的关系。
下面详细描述本申请的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
随着大数据时代的到来,数据挖掘技术广泛应用于分析用户行为轨迹,从而获得精确的用户画像,提供定制化服务来提升用户体验或更精准地投放广告。数据挖掘过程中需要读取大量用户数据,容易导致用户隐私泄露。而近年来,隐私成为了人们广泛关注的问题。为了在不侵犯用户隐私的前提下读取、挖掘数据的价值,因此提出了差分隐私技术。
差分隐私技术通过设置差分隐私参数对用户真实应答进行扰动。例如,通过差分隐私参数对用户真实应答进行扰动,使得表征用户真实应答的01字符串经过扰动后,01字符串中的1有一定概率变成0,0也有一定概率变成1,以达到对用户隐私保护的功能。隐私保护程度的强弱与差分隐私参数的取值呈负相关,即差分隐私参数取值越大,隐私保护程度越弱。
具体的,差分隐私参数取值越大,表征用户真实应答的01字符串中的1变成0或0变成1的概率越小,扰动后的结果与用户真实应答越接近,说明差分隐私技术对用户真实应答的隐私保护能力越差。另一方面,差分隐私参数取值越小,虽然隐私保护程度越高,但扰动后的结果与用户真实应答相差越大,则结果的可用性越差。
相关的差分隐私技术中,为了保障扰动后的结果的可用性,差分隐私参数普遍设置较大,隐私保护能力较差。因而,如何合理优化差分隐私参数,平衡隐私保护效果和结果可用性,成了亟待解决的问题。
请参阅图1,本申请提供一种差分隐私保护方法,差分隐私保护方法包括步骤:
S12:利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个映射结果为数据集的一个元素,数据集关联一个集合差分隐私参数;
S14:根据元素间距离将数据集划分为多个分组以将相邻的元素划入同一分组;和
S16:根据分组内的元素间距离计算每个分组对应的分组差分隐私参数,分组差分隐私参数小于集合差分隐私参数。
请进一步参图2,本申请实施方式提供了一种差分隐私保护装置10。差分隐私保护装置10包括映射模块12、划分模块14和计算模块16。
步骤S12可以由映射模块12实现,步骤S14可以由划分模块14实现,步骤S16可以由计算模块16实现。或者说,映射模块12可以用于利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个映射结果为数据集的一个元素,数据集关联一个集合差分隐私参数。
划分模块14可以用于根据元素间距离将数据集划分为多个分组以将相邻的元素划入同一分组。
计算模块16可以用于根据分组内的元素间距离计算每个分组对应的分组差分隐私参数,分组差分隐私参数小于集合差分隐私参数。
请结合图3,本申请实施方式提供了一种电子设备1,本申请的差分隐私保护方法可以由电子设备1完成。电子设备1包括处理器20。
处理器20可以用于利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个映射结果为数据集的一个元素,数据集关联一个集合差分隐私参数。处理器20还可以用于根据元素间距离将数据集划分为多个分组以将相邻的元素划入同一分组和根据分组内的元素间距离计算每个分组对应的分组差分隐私参数,分组差分隐私参数小于集合差分隐私参数。
请参阅图4,本申请提供了一种电子设备1包括一个或者多个处理器20、存储器30;和一个或多个程序32,其中一个或多个程序32被存储在存储器30中,并且被一个或多个处理器20执行,程序32被处理器20执行差分隐私保护方法的指令。
请结合图5,本申请提供了一个或多个包含计算机可执行指令的非易失性计算机可读存储介质40,当计算机可执行指令被一个或多个处理器20执行时,使得处理器20执行的差分隐私保护方法。
这些实施方式的差分隐私保护方法、差分隐私保护装置10、电子设备1和计算机可读存储介质40将用户应答集合映射成的数据集、将相邻的映射结果划分入同一分组以及对同一分组的映射结果的差分隐私参数进行优化得到小于集合差分隐私参数的分组差分隐私参数。由于分组差分隐私参数小于集合差分隐私参数,因此,相较于相关技术中通过集合差分隐私参数对映射结果扰动的差分隐私保护方法,本申请的差分隐私保护方法提高了隐私保护程度。另一方面,每个分组内的表征用户应答的映射结果由于相邻因此相似度高,因此即使在采用较小的分组差分隐私参数的情况下,映射结果经扰动后生成的结果的可用性仍然较高。
在一些实施方式中,电子设备1可以是手机、平板电脑、智能穿戴设备(智能手表、智能手环、智能头盔、智能眼镜等)、虚拟现实设备或头显设备。
本实施方式以电子设备1是手机为例进行说明,也即是说,差分隐私保护方法和差分隐私保护装置10应用于但不限于手机。差分隐私保护装置10可以是预安装于手机的硬件或软件,并在手机上启动运行时可以执行差分隐私保护方法。例如,差分隐私保护装置10可以是手机的底层软件代码段或者说是操作系统的一部分。如此,当手机安装有联网的应用程序(app)且应用程序企图读取用户应答时可以扰动用户应答,从而保护用户隐私。
在一些实施方式中,差分隐私保护装置10可以是电子设备1的一部分。或者说,电子设备1包括差分隐私保护装置10。
在一些实施方式中,差分隐私保护装置10可以是一定方式组装以具有前述功能的分立元件、或者是以集成电路形式存在具有前述功能的芯片、又或者是在计算机上运行时使得计算机具有前述功能的计算机软件代码段。
在一些实施方式中,作为硬件,差分隐私保护装置10可以是独立或者作为额外增加的外围元件加装到计算机或者计算机系统。差分隐私保护装置10也可以集成到计算机或者计算机系统,例如,差分隐私保护装置10是电子设备1的一部分时,差分隐私保护装置10可以集成到处理器20上。
在一些差分隐私保护装置10是电子设备1的一部分部分的实施方式中,作为软件,差分隐私保护装置10对应的代码段可以存储于存储器30上并在处理器20上执行实现前述功能。或者说差分隐私保护装置10包括前述的一个或多个程序,又或者说前述的一个或多个程序包括差分隐私保护装置10。
在一些实施方式中,计算机可读存储介质40可以是内置在电子设备1的存储介质,例如可以是存储器30,也可以是能够插拔地插接在电子设备1的存储介质,例如SD卡。
本领域的技术人员可以理解,映射函数是指用于将一个数据按照一定的映射关系映射成为另一个数据的一种函数,映射得到另一个数据即为映射结果。预先定义是指映射关系是预先确定的。例如,有函数y和数据A,数据A可通过函数y映射成数据B,则函数y为映射函数,数据B为映射结果。数据集为所有映射结果组成的一个集合。在数据集中的映射结果都称为数据集的元素。
用户应答集合是用户与电子设备1交互过程中生成的内容。例如,内容可包括但不限于点击、购买等具体动作或者配置信息以及浏览时长等具体的信息等。每一条信息或者点击动作则对应一条用户应答,例如,用户通过电子设备1浏览网页过程中,网页的浏览时长可生成一条用户应答,对网页的点击也可生成一条用户应答。
由于用户应答包括不同的内容,转换成数据时可能数据结构不同,例如以01二进制字符串存在时的字长不同,不利于后续处理(例如比较元素间距离)。因此,在一些实施方式中,映射函数用于将用户应答集合的用户应答转换为相同、类似的数据结构、或者可相互比较的数据结构,例如,字长相同的二进制字符串。在一些实施方式中,映射函数可以是哈希(Hash)函数或者包含哈希函数的布鲁姆过滤器(Bloom Filter)。
如此,可以理解,步骤S12或映射模块12一个可能的目的或作用在于统一用户应答的数据结构,以便后续步骤S14或划分模块14对由映射结果表征的用户应答进行划分。
请结合图6,在一些实施方式中,当用户使用例如手机、电脑等电子设备1产生用户应答并经处理器20保存而最终形成用户应答集合。处理器20可通过哈希(Hash)函数或者包含哈希函数的布鲁姆过滤器(Bloom Filter)对用户应答集合进行处理,将每个用户应答生成对应字长为k(k为自然数)的映射结果。
当然,字长k的数值可以根据具体需求设置,比如设置为4、8或16。
在其他实施方式中,映射结果也可以是其它合适数据结构,并不限于本实施方式的二进制字符串。
在一些示例中,处理器20将字长k设置为4,用户应答集合中包括有用户应答A和用户应答B。处理器20通过哈希函数处理用户应答A和用户应答B,用户应答A生成字长为4的二进制字符串0101,用户应答B生成为字长为4的二进制字符串1001。数据集中,元素0101表征用户应答A,元素1001表征用户应答B。
哈希函数用于将任意长度的输入通过散列算法变换成固定长度的输出的一种函数。
布鲁姆过滤器是一种位图数据结构,采用哈希映射存储一个数据集。例如,一个数据集包含n个数据,布鲁姆过滤器采用m个哈希函数映射n个数据到一个k比特的位图。数据的类型可以是整数,也可以是字符串,或者其他任何类型。用户应答之间越相似,则通过哈希函数变换成的对应的字符串之间的距离越近。
需要说明地是,处理器20还设置有预先定义的差分隐私算法,预先定义的差分隐私算法配置有对数据集中的元素进行扰动的集合差分隐私参数ε0。集合差分隐私参数ε0是指的对数据集中的元素进行扰动的差分隐私参数。可以理解,集合差分隐私参数ε0可以是处理器20已经设定好的,或者说,集合差分隐私参数ε0采用相关技术得到,隐私保护能力较差。
请结合图7,进一步地,处理器20对数据集中的所有元素间距离进行计算,并根据元素间距离将所有元素分为N组,从而把相邻的元素或者相同的元素划入同一分组,例如,数据集包括有元素a1、a2及a3,若a1与a2相邻,a3与a1、a2都不相邻,则把a1和a2分为同一组,a3划分为另一组,进而计算每个分组的元素间距离。
需要进行说明地是,距离可以是以元素间的编辑距离(Edit Distance)为距离,也可以是以元素间的余弦相似度为距离,或者其它自定义距离。其中,编辑距离是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个字符的相似度越大。余弦相似度是指通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。
进一步地,处理器20根据分组的元素间距离对预先定义差分隐私参数ε0进行计算,得到分组对应的分组差分隐私参数εi,分组差分隐私参数εi是指对分组内的元素进行扰动的差分隐私参数。其中,每个分组对于一个差分隐私参数εi,并且,每个分组的差分隐私参数εi会小于集合差分隐私参数ε0。处理器20通过差分隐私参数εi扰动分组内的映射结果进行扰动,而实现对映射结果的保护。
可以理解,由于处理器20先通过对用户应答生成的映射结果,再通过差分隐私参数εi对映射结果进行差分隐私保护,从而相关人员进行数据挖掘时采用的数据是映射结果进行差分隐私保护生成的数据,而并非是用户应答,因此,保护了用户隐私,并且,差分隐私参数εi小于集合差分隐私参数εo,提升了隐私保护程度。此外,由于每个分组内的表征用户应答的映射结果相似度高,在采用较小的分组差分隐私参数对对应分组内的映射结果扰动生成的差分隐私结果依然具有可用性。
综上,本申请实施方式的差分隐私保护方法、差分隐私保护装置10、电子设备1和执行存储其中的非失易性计算机可读存储介质40中,将用户应答结合映射成数据集,并将相邻的映射结果划分入同一分组,以及根据映射结果对预设的差分隐私参数进行优化,生成每组对于的小于集合差分隐私参数的分组隐私参数,从而通过差分隐私参数对映射结果扰动能够提高隐私保护效果。并且,由于每个分组对应的用户应答相似,因此,在分组差分隐私参数对组内映射结果扰动后生成的结果具有可用性。
请结合图8,在某些实施方式中,S14包括步骤:
S141:随机选取第一预定数量的元素以分别设置为第一预定数量分组中每个分组的中心点;
S142:计算元素与中心点的距离,若元素与中心点的距离最小,则将元素划入包含中心点的分组。
请进一步参阅图2,在某些实施方式中,划分模块14包括有设置单元141和划分单元142,步骤S141可以由设置单元141实现,步骤S142可以由划分单元142实现。
或者说,设置单元141用于随机选取第一预定数量的元素以分别设置为第一预定数量分组中每个分组的中心点。
划分单元142用于计算元素与中心点的距离,若元素与中心点的距离最小,则将元素划入包含中心点的分组。
在某些实施方式中,处理器20用于随机选取第一预定数量的元素以分别设置为第一预定数量分组中每个分组的中心点。处理器20还可用于计算元素与中心点的距离以及若元素与中心点的距离最小,则将元素划入包含中心点的分组。
处理器20可采用K均值聚类算法(K-means clustering algorithm)对数据集中相邻的元素划入同一组。K均值聚类算法是一种划分聚类算法,给定一个数据点集合和需要的聚类数目K,K由用户指定,K均值算法根据某个距离函数反复把数据分入K个聚类中。需要说明地是,聚类是一个将数据集中在某些方面相似多个数据成员进行分类组织的过程。处理器20采用K均值聚类算法能够快速有效的将元素聚类到同一组,并且分组效果好。
具体地,处理器20在数据集中随机选取获取k个元素,并将以k个元素中每个元素分别设置为k个分组中的每个分组的中心点。进一步地,计算每个元素到各个中心点的距离,并比较每个元素到各个中心点距离之间的大小,如果元素与某个分组中的中心点的距离最小,则将元素划分到包含该中心点的分组中。
请参阅图9,例如,在一些示例中,在数据集中随机选取三个元素b1、b2及b3,设置三个分组B1、B2、B3。分组A1则以元素b1为中心点,分组B2以b2为中心点,分组B3以b3为中心点。分别计算数据集中每个元素与b1、b2和b3的距离,例如以数据集中的一个元素X为例,处理器20计算得到元素X与b1距离为d1,元素X与b2距离为d2,元素X与b3距离为d3,比较d1、d2及d3的大小,若d2最小,则将元素X划分到以b2为中心的分组B2中。
在本实施方式中,元素到中心点的距离可以定义成余弦相似度。每个元素和中心点都生成对应的向量,并绘制到向量空间,比较每个元素的向量与中心点的向量的余弦相似度,从而对元素进行分组。
请参阅图10,在某些实施方式中,S14还包括步骤:
S143:计算每个元素与多个预先定义的分组内多个预设点的距离;
S144:统计元素与每个预先定义的分组的多个预设点的距离小于预设距离的数量,若元素与预先定义的分组中多个预设点的距离小于预设距离的数量最多,则将元素划入预先定义的分组。
请进一步参阅图2,在某些实施方式中,划分模块14还包括第一计算单元143和第一比较单元144。步骤S143可以由第一计算单元143实现,步骤S144可以由第一比较单元144实现。
或者说,第一计算单元143用于计算每个元素与多个预先定义的分组内多个预设点的距离。
第一比较单元144用于统计元素与每个预先定义的分组的多个预设点的距离小于预设距离的数量,若元素与预先定义的分组中多个预设点的距离小于预设距离的数量最多,则将元素划入预先定义的分组。
在某些实施方式中,处理器20可用于计算每个元素与多个预先定义的分组内多个预设点的距离。处理器20还可用于统计元素与每个预先定义的分组的多个预设点的距离小于预设距离的数量以及若元素与预先定义的分组中多个预设点的距离小于预设距离的数量最多,则将元素划入预先定义的分组。
处理器20还可采用邻近算法(K-NearestNeighbor,KNN)对数据集的元素划入同一组。邻近算法是一种数据挖掘的分类技术处理方法,其核心思想是如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。处理器20通过邻近算法对元素进行分组,具有准确度高的优点。
处理器20包括有多个预先定义的分组,每个预先定义的分组都设置有多个相邻的预设点。预先定义的分组是指在处理器20中已经设置好的分组,预设点是指在分组中已经设置好的点。
具体地,处理器20计算出每个元素和每个预先定义的分组中的所有相邻的预设点的距离,并比较每个分组的预设点与元素的距离和预设距离是否小于预设距离,若预设点与元素的距离小于预设距离,则统计每个分组的预设点与元素的距离小于预设距离的数量。进一步地,比较分组与分组之间预设点与元素的距离小于预设距离的数量,并将元素归类为预设点与元素的距离小于预设距离的数量最多的那个分组。可以理解,若是元素与预先定义的分组中的多个预设点相邻,则可说明元素与预先定义的分组中的元素相似,因此可将元素划分到该分组中。
请结合图11,例如,在一些示例中,预设距离设置为5,处理器20预设有两个分组,分别为C1和C2,分组C1中包括有预设点c1、c2、c3,分组C2中包括有预设点c4、c5、c6。数据集中包括有元素x,处理器20计算元素x与c1、c2、c3、c4、c5及c6的距离。若x分别与C1组中的c1、c2、c3的距离小于5的数量大于x分别与C2组中的c4、c5、c6的距离小于5的数量,则可将x归类为C1组。若是x分别与C1组中的c1、c2、c3的距离小于5的数量小于x分别与C2组中的c4、c5、c6的距离小于5的数量,则可将划分为C2组。
在本实施方式中,元素与预设点间的距离可以是元素与预设点间的编辑距离。
请参阅图12,在某些实施方式中,S16包括:
S161:比较分组中元素间距离以得到分组中元素间的最大距离;
S162:根据分组的元素间的最大距离计算每个分组对应的分组差分隐私参数。
在某些实施方式中,计算模块16包括第二比较单元161和第二计算单元162。步骤S161可以由第二比较单元161实现。步骤S162可以由第二计算单元162实现。
或者说,第二比较单元161可以用于比较分组中元素间距离以得到分组的元素间最大距离。
第二计算单元162可以用于根据分组的元素间最大距离计算每个分组对应的分组差分隐私参数。
在某些实施方式中,处理器20用于比较分组中元素间距离以得到分组的元素间最大距离和根据分组的元素间最大距离计算每个分组对应的分组差分隐私参数。
具体地,处理器20计算每个分组的元素间的距离,同样,可以以分组内元素间的余弦相似度、编辑距离或者其它定义的距离定义为元素间的距离。并比较每个分组内元素之间的距离以得到每个分组对应的最大距离di,进而根据每个分组对应的最大距离di计算出分组差分隐私参数。
请参阅图13,在某些实施方式中,S162还包括:
S1621:比较分组元素间最大距离以得到所有分组中元素间最大距离;
S1622:根据所有分组中元素间最大距离和每个分组中元素间最大距离计算每个分组对应的差分隐私参数。
在某些实施方式中,步骤S321可以由第二比较单元161实现,步骤S1622可以由第二计算单元162实现。
或者说,第二比较单元161可以用于比较分组元素间最大距离以得到所有分组中元素间最大距离。
第二计算单元162可以用于根据所有分组中元素间最大距离和每个分组中元素间最大距离计算每个分组对应的差分隐私参数。
在某些实施方式中,处理器20还可用于比较分组元素间最大距离以得到所有分组中元素间最大距离,以及,用于根据所有分组中元素间最大距离和每个分组中元素间最大距离计算每个分组对应的差分隐私参数。
具体地,处理器20计算出每个分组的元素间最大距离di后,并比较所有分组的元素间最大距离di以得到所有分组中元素间的最大距离max(di),进而根据每个分组的元素间最大距离di、所有分组中元素间的最大距离max(di)和集合差分隐私参数ε0计算出分组差分隐私参数εi,计算公式如下:
由上述公式可知,分组差分隐私参数εi小于集合差分隐私参数ε0,因此,通过分组差分隐私参数εi对分组的映射结果进行差分隐私保护,能够提高隐私保护程度。
请参阅图14,在某些实施方式中,差分隐私保护方法还包括:
S18:根据预先定义的差分隐私函数和分组差分隐私参数将分组的元素生成隐私保护结果。
在某些实施方式中,差分隐私保护装置10还包括生成模块18,步骤S18可以由生成模块18实现。或者说,生成模块18用于根据预先定义的差分隐私函数和分组差分隐私参数将分组的元素生成隐私保护结果。
在某些实施方式中,处理器20还用于根据预先定义的差分隐私函数和分组差分隐私参数将分组的元素生成隐私保护结果。
可以理解,通过将相邻元素划分到同一分组中,则同一分组中的元素表征的用户应答相似,也即是说,同类的用户应答映射成的映射结果可分成同一组,如此。相关人员可根据需要而选择对应的分组,并对组内元素生成的隐私保护结果进行统计,相关人员需要对哪一类用户应答进行分析,则找到该类用户应答映射成的映射结果所在的分组即可,减少了数据筛选的过程,提升了效率。
具体地,处理器20设置有差分隐私函数T,处理器20可根据差分隐私函数T和每个分组对于的分组差分隐私参数εi对分组内元素计算,生成分组内元素对应的隐私保护结果。如此,相关人员可对隐私保护结果进行数据挖掘、分析。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种差分隐私保护方法,其特征在于,包括:
利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个所述映射结果为所述数据集的一个元素,所述数据集关联一个集合差分隐私参数;
根据元素间距离将所述数据集划分为多个分组以将相邻的所述元素划入同一所述分组;和
根据所述分组中元素间距离计算每个所述分组对应的分组差分隐私参数,所述分组差分隐私参数小于所述集合差分隐私参数。
2.根据权利要求1所述的保护方法,其特征在于,所述根据元素间距离将所述数据集划分为多个分组以将相邻的所述数据划入同一所述分组的步骤还包括:
随机选取第一预定数量的元素以分别设置为第一预定数量分组中每个分组的中心点;
计算所述元素与所述中心点的距离,若所述元素与所述中心点的距离最小,则将所述元素划入包含所述中心点的所述分组。
3.根据权利要求1所述的保护方法,其特征在于,所述根据元素间距离将所述数据集划分为多个分组以将相邻的所述数据划入同一所述分组还包括:
计算每个所述元素与多个预先定义的分组内多个预设点的距离;
统计所述元素与每个所述预先定义的分组的所述多个预设点的距离小于预设距离的数量,若所述元素与所述预先定义的分组中所述多个预设点的距离小于预设距离的数量最多,则将所述元素划入所述预先定义的分组。
4.根据权利要求2或3所述的保护方法,其特征在于,所述根据所述分组的元素间距离计算每个所述分组对应的分组差分隐私参数,所述分组差分隐私参数小于所述集合差分隐私参数包括:
比较所述分组的元素间距离以得到所述分组的元素间最大距离;
根据所述分组的元素间最大距离计算每个所述分组对应的分组差分隐私参数。
5.根据权利要求4所述的保护方法,其特征在于,所述根据所述分组的元素间最大距离计算每个所述分组对应的分组差分隐私参数包括:
比较所述分组的元素间最大距离以得到所有所述分组的元素间最大距离;
根据所有所述分组的元素间最大距离和每个所述分组的元素间最大距离计算每个所述分组对应的差分隐私参数。
6.根据权利要求5所述的保护方法,其特征在于,所述保护方法还包括:
根据预先定义的差分隐私函数和所述分组差分隐私参数将所述分组的元素生成隐私保护结果。
7.一种差分隐私保护装置,其特征在于,所述差分隐私保护装置包括:
映射模块,所述映射模块用于利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个所述映射结果为所述数据集的一个元素,所述数据集关联一个集合差分隐私参数;
划分模块,所述划分模块用于根据元素间距离将所述数据集划分为多个分组以将相邻的所述数据划入同一所述分组;和
计算模块,所述计算模块用于根据所述分组中元素间距离计算每个所述分组对应的分组差分隐私参数,所述分组差分隐私参数小于所述集合差分隐私参数。
8.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于:
利用预先定义的映射函数将用户应答集合的每个用户应答映射为预定字长的映射结果从而形成数据集,每个所述映射结果为所述数据集的一个元素,所述数据集关联一个集合差分隐私参数;
根据元素间距离将所述数据集划分为多个分组以将相邻的所述元素划入同一所述分组;和
根据所述分组内的元素间距离计算每个所述分组对应的分组差分隐私参数,所述分组差分隐私参数小于所述集合差分隐私参数。
9.根据权利要求8所述的电子设备,其特征在于,所述处理器还用于:
随机选取第一预定数量的元素以分别设置为第一预定数量分组中每个分组的中心点;
计算所述元素与所述中心点的距离,若所述元素与所述中心点的距离最小,则将所述元素划入包含所述中心点的所述分组。
10.根据权利要求8所述的电子设备,其特征在于,所述处理器还用于:
计算每个所述元素与多个预先定义的分组内多个预设点的距离;
统计所述元素与每个所述预先定义的分组的所述多个预设点的距离小于预设距离的数量,若所述元素与所述预先定义的分组中所述多个预设点的距离小于预设距离的数量最多,则将所述元素划入所述预先定义的分组。
11.根据权利要求9或10所述的电子设备,其特征在于,所述处理器还用于:
比较所述分组中所述元素间距离以得到所述分组的元素间最大距离;
根据所述分组的元素间最大距离计算每个所述分组对应的分组差分隐私参数。
12.根据权利要求11所述的电子设备,其特征在于,所述处理器还用于:
比较所述分组元素间最大距离以得到所有所述分组中元素间最大距离;
根据所有所述分组中元素间最大距离和每个所述分组中元素间最大距离计算每个所述分组对应的差分隐私参数。
13.根据权利要求12所述的电子设备,其特征在于,所述处理器还用于:
根据预先定义的差分隐私函数和所述分组差分隐私参数将所述分组的元素生成隐私保护结果。
14.一种电子设备,其特征在于,包括一个或者多个处理器、存储器;和
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被所述一个或多个处理器执行,所述程序包括用于执行根据权利要求1-6任意一项所述的差分隐私保护方法的指令。
15.一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行权利要求1-6中任一项所述差分隐私保护方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010395566.4A CN111628974A (zh) | 2020-05-12 | 2020-05-12 | 差分隐私保护方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010395566.4A CN111628974A (zh) | 2020-05-12 | 2020-05-12 | 差分隐私保护方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111628974A true CN111628974A (zh) | 2020-09-04 |
Family
ID=72272777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010395566.4A Pending CN111628974A (zh) | 2020-05-12 | 2020-05-12 | 差分隐私保护方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111628974A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560984A (zh) * | 2020-12-25 | 2021-03-26 | 广西师范大学 | 自适应K-Nets聚类的差分隐私保护方法 |
CN113094763A (zh) * | 2021-04-12 | 2021-07-09 | 支付宝(杭州)信息技术有限公司 | 一种保护数据隐私的选择问题处理方法和系统 |
CN116992488A (zh) * | 2023-09-26 | 2023-11-03 | 济南三泽信息安全测评有限公司 | 一种差分隐私保护方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358113A (zh) * | 2017-06-01 | 2017-11-17 | 徐州医科大学 | 基于微聚集匿名的差分隐私保护方法 |
US20190087604A1 (en) * | 2017-09-21 | 2019-03-21 | International Business Machines Corporation | Applying a differential privacy operation on a cluster of data |
CN110555316A (zh) * | 2019-08-15 | 2019-12-10 | 石家庄铁道大学 | 基于聚类匿名的隐私保护表数据共享算法 |
CN110598447A (zh) * | 2019-09-17 | 2019-12-20 | 西北大学 | 一种满足ε-差分隐私的t-closeness隐私保护方法 |
CN110795758A (zh) * | 2019-10-11 | 2020-02-14 | 安徽工业大学 | 一种基于差分隐私的非等距直方图发布方法 |
CN110851868A (zh) * | 2019-11-14 | 2020-02-28 | 陕西师范大学 | 一种用于轨迹数据发布的位置代表元生成方法 |
-
2020
- 2020-05-12 CN CN202010395566.4A patent/CN111628974A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358113A (zh) * | 2017-06-01 | 2017-11-17 | 徐州医科大学 | 基于微聚集匿名的差分隐私保护方法 |
US20190087604A1 (en) * | 2017-09-21 | 2019-03-21 | International Business Machines Corporation | Applying a differential privacy operation on a cluster of data |
CN110555316A (zh) * | 2019-08-15 | 2019-12-10 | 石家庄铁道大学 | 基于聚类匿名的隐私保护表数据共享算法 |
CN110598447A (zh) * | 2019-09-17 | 2019-12-20 | 西北大学 | 一种满足ε-差分隐私的t-closeness隐私保护方法 |
CN110795758A (zh) * | 2019-10-11 | 2020-02-14 | 安徽工业大学 | 一种基于差分隐私的非等距直方图发布方法 |
CN110851868A (zh) * | 2019-11-14 | 2020-02-28 | 陕西师范大学 | 一种用于轨迹数据发布的位置代表元生成方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560984A (zh) * | 2020-12-25 | 2021-03-26 | 广西师范大学 | 自适应K-Nets聚类的差分隐私保护方法 |
CN112560984B (zh) * | 2020-12-25 | 2022-04-05 | 广西师范大学 | 自适应K-Nets聚类的差分隐私保护方法 |
CN113094763A (zh) * | 2021-04-12 | 2021-07-09 | 支付宝(杭州)信息技术有限公司 | 一种保护数据隐私的选择问题处理方法和系统 |
CN113094763B (zh) * | 2021-04-12 | 2022-03-29 | 支付宝(杭州)信息技术有限公司 | 一种保护数据隐私的选择问题处理方法和系统 |
CN116992488A (zh) * | 2023-09-26 | 2023-11-03 | 济南三泽信息安全测评有限公司 | 一种差分隐私保护方法及系统 |
CN116992488B (zh) * | 2023-09-26 | 2024-01-05 | 济南三泽信息安全测评有限公司 | 一种差分隐私保护方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI718643B (zh) | 異常群體識別方法及裝置 | |
CN111628974A (zh) | 差分隐私保护方法、装置、电子设备和存储介质 | |
CN107742079B (zh) | 恶意软件识别方法及系统 | |
CN110008343A (zh) | 文本分类方法、装置、设备及计算机可读存储介质 | |
CN113765873B (zh) | 用于检测异常访问流量的方法和装置 | |
JP2015530666A (ja) | データインデックス化方法及び装置 | |
WO2019061664A1 (zh) | 电子装置、基于用户上网数据的产品推荐方法及存储介质 | |
CN111460011A (zh) | 页面数据展示方法、装置、服务器及存储介质 | |
CN111431736A (zh) | 告警关联规则生成方法和装置 | |
WO2021169217A1 (zh) | 摘要提取方法、装置、设备及计算机可读存储介质 | |
CN112860808A (zh) | 基于数据标签的用户画像分析方法、装置、介质和设备 | |
Liu et al. | Using g features to improve the efficiency of function call graph based android malware detection | |
WO2017095439A1 (en) | Incremental clustering of a data stream via an orthogonal transform based indexing | |
CN111800292A (zh) | 基于历史流量的预警方法、装置、计算机设备及存储介质 | |
CN113282433B (zh) | 集群异常检测方法、装置和相关设备 | |
Ding et al. | Establishing smartphone user behavior model based on energy consumption data | |
CN110543426A (zh) | 一种软件性能风险检测方法及装置 | |
Modak | A new interpoint distance-based clustering algorithm using kernel density estimation | |
CN113746780B (zh) | 基于主机画像的异常主机检测方法、装置、介质和设备 | |
CN105989284B (zh) | 网页入侵脚本特征的识别方法及设备 | |
CN116662876A (zh) | 多模态认知决策方法、系统、装置、设备及存储介质 | |
JP2019175334A (ja) | 情報処理装置、制御方法、及びプログラム | |
CN114359811A (zh) | 数据鉴伪方法、装置、电子设备以及存储介质 | |
CN109784047B (zh) | 基于多特征的程序检测方法 | |
CN113254672A (zh) | 异常账号的识别方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200904 |
|
RJ01 | Rejection of invention patent application after publication |