CN116388987A - 隐私数据聚合方法 - Google Patents

隐私数据聚合方法 Download PDF

Info

Publication number
CN116388987A
CN116388987A CN202310660603.3A CN202310660603A CN116388987A CN 116388987 A CN116388987 A CN 116388987A CN 202310660603 A CN202310660603 A CN 202310660603A CN 116388987 A CN116388987 A CN 116388987A
Authority
CN
China
Prior art keywords
data
secondary data
preset
control module
central control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310660603.3A
Other languages
English (en)
Other versions
CN116388987B (zh
Inventor
李延凯
梁栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Primitive Technology Co ltd
Original Assignee
Beijing Primitive Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Primitive Technology Co ltd filed Critical Beijing Primitive Technology Co ltd
Priority to CN202310660603.3A priority Critical patent/CN116388987B/zh
Publication of CN116388987A publication Critical patent/CN116388987A/zh
Application granted granted Critical
Publication of CN116388987B publication Critical patent/CN116388987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/08Key distribution or management, e.g. generation, sharing or updating, of cryptographic keys or passwords
    • H04L9/0816Key establishment, i.e. cryptographic processes or cryptographic protocols whereby a shared secret becomes available to two or more parties, for subsequent use
    • H04L9/085Secret sharing or secret splitting, e.g. threshold schemes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0414Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden during transmission, i.e. party's identity is protected against eavesdropping, e.g. by using temporary identifiers, but is known to the other party or parties involved in the communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/105Multiple levels of security
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/08Randomization, e.g. dummy operations or using noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L2209/00Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
    • H04L2209/46Secure multiparty computation, e.g. millionaire problem
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉信息安全技术,尤其涉及一种隐私数据聚合方法,包括,步骤S1,将多个本地的用户数据上传至多个TEE服务器上;步骤S2,所述中控模块在判定针对单个所述用户数据的拆分;步骤S3,在各所述TEE服务器的飞地上去除各所述二级数据的元数据;步骤S4,将所述TEE服务器内的各二级数据的顺序打乱;步骤S5,将所述TEE服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声后合并输出以完成对各用户隐私数据的聚合,以克服现有技术中依赖可信第三方服务器,从而造成聚合结果存在泄漏风险,且数据可用性低的问题。

Description

隐私数据聚合方法
技术领域
本发明涉信息安全技术,尤其涉及一种隐私数据聚合方法。
背景技术
随着互联网技术及传感器的发展,大量的数据被传感器收集并用于后续的分析、计算。在这样的场景中,数据聚合也得到了越来越多的关注。数据聚合可以在执行确切的计算之前事先对收集的数据进行处理,提高通信和计算的效率。但是,在数据被收集的过程中,数据提供者的隐私可能会被同时收集,这会给数据提供者带来安全隐患,数据提供者也会因此放弃参与数据聚合过程。
现有的隐私数据聚合技术主要包含:秘密分享、安全聚合、多方安全计算、差分隐私等方法,大部分技术方案需要依赖可信第三方,用户数据全部暴露给可信服务器,其隐私泄漏风险较大,且攻击者可以从聚合结果中推断用户信息。本地化差分隐私技术不需要依赖可信第三方,可以保护聚合结果的隐私性,但是每个用户均需要对本地数据进行扰动,会造成数据可用性低。
发明内容
有鉴于此,本发明提供一种隐私数据聚合方法,用以克服现有技术需要依赖可信第三方服务器,从而造成聚合结果存在泄漏用户隐私信息风险,且数据可用性低的问题。
为实现上述目的,本发明提供一种隐私数据聚合方法,包括:
步骤S1,将多个本地的用户数据上传至多个TEE服务器上,针对其中单个用户数据,中控模块通过秘密分享的方式将其拆分成多个二级数据后并将各二级数据依次上传至对应的TEE服务器上;
步骤S2,在所述中控模块将各所述二级数据上传至对应的所述TEE服务器前,所述中控模块根据数据权重评价值C判定该用户数据的拆分是否符合预设标准,若中控模块判定针对单个所述用户数据的拆分不符合预设标准,中控模块对该用户数据进行重新拆分并在重新拆分前确定针对该用户数据进行重新拆分时的拆分标准的调节方式,其中,拆分标准包括各所述二级数据占比区间的边界值以及针对用户数据的二级数据拆分数量;
步骤S3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述TEE服务器的飞地上去除各TEE服务器接收的各所述二级数据的元数据,元数据包括ID、IP地址以及时间戳;
步骤S4,将各所述TEE服务器内的各所述二级数据的顺序打乱;
步骤S5,将各所述TEE服务器内完成顺序打乱的各所述二级数据添加满足高斯分布的噪声后合并输出以完成对各用户隐私数据的聚合;所述中控模块根据调节后的属于单个所述用户数据的所述二级数据的字节数的平均值判定针对各二级数据添加的所述噪声的幅值是否符合预设标准。
进一步地,在所述步骤S2中,所述中控模块根据所述用户数据的字节数和该用户数据的保密等级确定该用户数据的数据权重评价值C并在判定针对单个所述用户数据的拆分不符合预设标准时根据各所述二级数据的字节数或权重评价值C与第二预设数据权重评价值的差值确定该用户数据重新拆分时的拆分标准。
进一步地,所述中控模块在第一权重评价值比较条件下根据所述字节数确定所述拆分标准,以及,在第二权重评价值比较条件下根据所述差值确定所述拆分标准,其中,第一权重评价值比较条件为所述数据权重评价值大于等于第一预设数据权重评价值且小于第二预设数据权重评价值,第二权重评价值比较条件为所述数据权重评价值大于等于所述第二预设数据权重评价值。
进一步地,所述中控模块设有在所述第二权重评价值比较条件下增加针对单个所述用户数据进行重新拆分时该用户数据的拆分数量的若干数量调节方式,其中,使用每种调节方式拆分用户数据后得到的二级数据的数量均不相同。
进一步地,所述中控模块在第一权重评价值比较条件下设置有针对单个二级数据的判定结果的若干处理方式,包括在第一字节数比较条件下根据拆分后的二级数据的最大字节数与最小字节数之间的差值确定针对所述单个二级数据的调节方式,在第二字节数比较条件下根据单个二级数据的字节数与第一预设字节数之间的差值减小占比区间的右边界的边界值,以及,在第三字节数比较条件下根据测得的单个二级数据的字节数与第二预设字节数之间的差值将所述单个用户数据的拆分数量增加至对应值。
进一步地,所述第一字节数比较条件为单个二级数据的字节数小于第一预设字节数;所述第二字节数比较条件为单个二级数据的字节数大于等于所述第一预设字节数且小于第二预设字节数;所述第三字节数比较条件为所述单个二级数据的字节数大于等于所述第二预设字节数。
进一步地,所述中控模块设有在所述第二字节数比较条件下减小所述占比区间的右边界的边界值的若干边界值调节方式,其中,每种调节方式对减小边界值的调节大小不同。
进一步地,所述中控模块在所述第一字节数比较条件下针对单个二级数据的调节方式为在所述拆分后的二级数据的最大字节数与最小字节数之间的差值小于预设均匀性差值条件下将所述占比区间的左边界的边界值增大至对应值,或,在所述拆分后的二级数据的最大字节数与最小字节数之间的差值大于等于所述预设均匀性差值条件下将所述最大字节数的二级数据减小至对应值。
进一步地,所述中控模块在所述调节后的二级数据的数量大于所述TEE服务器数量时判定将超出服务器数量的二级数据全部上传至单个TEE服务器中,或,将超出服务器数量的二级数据按顺序上传至TEE服务器中。
进一步地,所述中控模块设有若干针对判定所述步骤S5中所述噪声幅值不符合预设标准时增大所述噪声幅值的幅值调节方式,其中,每种调节方式对增大噪声幅值的调节大小不同。
与现有技术相比,本发明的有益效果在于,本发明通过将用户的本地数据通过秘密分享的方式上传至TEE服务器上,因此不需要可信服务器,同时,在所述TEE服务器的飞地上去除所述二级数据的元数据并将所述TEE服务器内的二级数据的顺序打乱,数据打乱之后,无法将数据对齐,即使各服务器合谋也不能推断用户的隐私数据,再经过添加符合满足高斯分布的噪声后聚合输出,因此攻击者无法从聚合后的输出数据推断有用信息,同时保证了数据的可用性。中控模块根据拆分后的单个二级数据的字节数确定针对单个二级数据的判定方式,或,根据求得的数据权重评价值与第二预设数据权重评价值之间的差值确定所述单个用户数据的拆分数量的调节方式,以克服现有技术中依赖可信第三方服务器,从而造成聚合结果存在泄漏风险,且数据可用性低的问题。
进一步地,中控模块设定所述单个用户的数据的数据权重评价值,从而精准的确定针对单个用户数据的拆分的判定方式,当拆分方式不符合预设标准时通过控制检测模块检所述拆分后的单个二级数据的字节数,中控模块根据测得的字节数确定针对所述单个二级数据的判定方式,或,将所述单个用户数据的拆分数量增加至对应值,从而增强了数据的隐私性。
进一步地,当用户数据的保密等级和数据量越大时候,中控模块将单个用户数据的拆分数量增加,从而增加数据的离散程度,使数据在顺序打乱后,增加了数据对齐的难度。
进一步地,拆分数据后的单个二级数据的字节数在不满足预设标准时,通过单个二级数据的字节数与第一预设字节数之间的差值减小所述占比区间的右边界的边界值至对应值或增加单个用户数据的拆分数量,从而解决单个单个二级数据的字节数过大的问题。
进一步地,为了避免随机选取占比值过大导致用户数据拆分的单个二级数据的信息过多,通过约束占比区间的右边界,降低右边界的边界值,解决了随机选取划分比例导致的单个二级数据的信息过多的问题。
进一步地,当中控模块判定单个二级数据的字节数符合预设标准时,进一步计算拆分后的二级数据的最大字节数与最小字节数之间的差值,从而针对性增大占比区间的左边界的边界值或将所述最大字节数的二级数据减小至对应值,并将所述最小字节数的二级数据增大至对应值,以此解决数据的均匀性问题。
进一步地,当调节后的二级数据的数量大于服务器的数量时,中控模块通过根据差值确定了待分配二级数据上传至TEE服务器中的上传方式,从而解决了调节后数据上传的问题。
进一步地,当需要对用户添加噪声时,中控模块根据调节后的二级数据的字节数的平均值确定添加相应幅度的噪声信号,从而有效的提高了数据的隐私性。
进一步地,当二级数据字节数平均值过大时,通过增大添加的噪声的幅值,从而提高数据的隐私性。
进一步地,本发明还将用户的数据划定了保密等级并将其数字化,引入到数据权重评价值之中,对用户数据进行科学的划分,从而有效的进行数据划分、上传、添加噪声并聚合,最终克服了现有技术需要依赖可信第三方服务器,从而造成聚合结果存在泄漏用户隐私信息风险且数据可用性低的问题。
附图说明
图1为本发明实施例隐私数据聚合方法的流程图;
图2为本发明实施例单个用户数据的拆分的判定方式;
图3为本发明实施例单个用户数据的拆分数量的调节方式;
图4为本发明实施例单个二级数据的判定方式。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要指出的是在本实施例中的数据均为通过本发明所述隐私数据聚合方法在进行本次堆肥之前的前三个月的历史检测数据以及对应的历史检测结果中综合分析评定得出。本发明所述中控模块在本次隐私数据聚合前根据前半年中累计进行的1225689次数据聚合过程中根据用户数据的大小、保密等级、二级数据的拆分数量、大小、添加噪声幅值综合确定针对本次数据聚合预设参数标准的数值。本领域的技术人员可以理解的是,本发明所述系统针对单项上述参数的确定方式可以为根据数据分布选取占比最高的数值作为预设标准参数、使用加权求和以将求得的数值作为预设标准参数、将各历史数据代入至特定公式并将利用该公式求得的数值作为预设标准参数或其他选取方式,只要满足本发明所述系统能够通过获取的数值明确界定单项判定过程中的不同特定情况即可。
请参阅图1、图2、图3以及图4所示,其分别本发明实施例隐私数据聚合方法的流程图;本发明实施例单个用户数据的拆分的判定方式;本发明实施例单个用户数据的拆分数量的调节方式;本发明实施例单个二级数据的判定方式。
本发明实施例的方法包括:
步骤S1,将多个本地的用户数据上传至多个TEE服务器上,针对其中单个用户数据,中控模块通过秘密分享的方式将其拆分成多个二级数据后并将各二级数据依次上传至对应的TEE服务器上;设定用户
Figure SMS_2
的本地数据为/>
Figure SMS_5
,其中i=1,2,...,n,n为用户总数,设定占比区间[5%,30%],从该区间中随机选取k-1个数值,对于第j个数值,将其记为/>
Figure SMS_7
,并将其定义为基于拆分出来的第j个二级数据大小与总大小的占比,中控模块将/>
Figure SMS_3
占比拆分出来的二级数据记为/>
Figure SMS_4
,设定第k个占比/>
Figure SMS_6
,中控模块将第k个占比拆分出来的二级数据记为/>
Figure SMS_8
,则/>
Figure SMS_1
,以将用户的本地数据为拆分成k个二级数据;
步骤S2,在所述中控模块将各所述二级数据上传至对应的所述TEE服务器前,所述中控模块根据数据权重评价值C判定该用户数据的拆分是否符合预设标准,若中控模块判定针对单个所述用户数据的拆分不符合预设标准,中控模块对该用户数据进行重新拆分并在重新拆分前确定针对该用户数据进行重新拆分时的拆分标准的调节方式,其中,拆分标准包括各所述二级数据占比区间的边界值以及针对用户数据的二级数据拆分数量;
步骤S3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述TEE服务器的飞地上去除各TEE服务器接收的各所述二级数据的元数据,元数据包括ID、IP地址以及时间戳;
步骤S4,将各所述TEE服务器内的各所述二级数据的顺序打乱;
步骤S5,将所述TEE服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声后合并输出以完成对各用户隐私数据的聚合,设定所述TEE服务器f接收到的n个用户数据的二级数据为
Figure SMS_9
,...,/>
Figure SMS_10
,其中,f=1,2...,m,m为TEE服务器的总数,为将其添加所述噪声后形成/>
Figure SMS_11
,各TEE服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据
Figure SMS_12
,其证明过程为:
Figure SMS_13
;所述中控模块根据调节后的属于单个所述用户数据的所述二级数据的字节数的平均值判定针对各二级数据添加的所述噪声的幅值是否符合预设标准。
具体而言,在所述步骤S2中,中控模块设定所述单个用户数据的数据权重评价值
Figure SMS_14
,其中,α为权重评价系数,设定α=1.20,s为用户数据的字节数,q为用户数据的保密等级,β为保密等级系数,设定β=0.8,中控模块根据单个用户的数据的权重评价值确定针对所述步骤S1中单个用户数据的拆分的判定方式,其中,
第一判定方式为所述中控模块判定所述单个用户数据的拆分符合预设标准,并将拆分后的数据上传至对应所述TEE服务器上;所述第一判定方式满足所述数据权重评价值小于第一预设数据权重评价值,设定第一预设数据权重评价值为5500;
第二判定方式为所述中控模块判定所述单个用户数据的拆分不符合预设标准,并控制检测模块检所述拆分后的单个二级数据的字节数,中控模块根据测得的字节数确定针对所述单个二级数据的判定方式;所述第二判定方式满足所述数据权重评价值大于等于所述第一预设数据权重评价值且小于第二预设数据权重评价值,设定第二预设数据权重评价值为8350;
第三判定方式为所述中控模块判定所述单个用户数据的拆分不符合预设标准,并根据求得的数据权重评价值与所述第二预设数据权重评价值之间的差值将所述单个用户数据的拆分数量增加至对应值;所述第三判定方式满足所述数据权重评价值大于等于所述第二预设数据权重评价值。
具体而言,所述中控模块在所述第三判定方式下计算数据权重评价值与所述第二预设数据权重评价值之间的差值,并将该差值记为权重差值,中控模块根据权重差值确定针对所述单个用户数据的拆分数量的调节方式,其中,
第一数量调节方式所述中控模块使用第一预设数量调节系数1.1将所述单个用户数据的拆分数量增加至对应值,若不为整数,则向上取整;所述第一数量调节方式满足所述权重差值小于第一预设权重差值,设定第一预设权重差值为1150;
第二数量调节方式所述中控模块使用第二预设数量调节系数1.2将所述单个用户数据的拆分数量增加至对应值,若不为整数,则向上取整;所述第二数量调节方式满足所述权重差值大于等于所述第一预设权重差值且小于第二预设权重差值,设定第二预设权重差值为2880;
第三数量调节方式所述中控模块使用第三预设数量调节系数1.4将所述单个用户数据的拆分数量增加至对应值,若不为整数,则向上取整;所述第三数量调节方式满足所述权重差值大于等于所述第二预设权重差值。
具体而言,所述中控模块在所述第二判定方式下控制所述检测模块检测所述拆分后的单个二级数据的字节数,并根据测得的单个二级数据的字节数确定针对所述针对单个所述用户数据的拆分标准的调节方式,其中,
第一拆分标准的调节方式为所述中控模块判定所述单个二级数据的字节数符合预设标准,并计算所述拆分后的二级数据的最大字节数与最小字节数之间的差值,中控模块根据计算的差值确定针对所述单个二级数据调节的判定方式;所述拆分标准的调节方式满足所述单个二级数据的字节数小于第一预设字节数,设定第一预设字节数为55×106
第二拆分标准的调节方式为所述中控模块判定所述单个二级数据的字节数不符合预设标准,并根据测得的单个二级数据的字节数与第一预设字节数之间的差值减小所述占比区间的右边界的边界值至对应值;所述第二拆分标准的调节方式满足所述单个二级数据的字节数大于等于所述第一预设字节数且小于第二预设字节数,设定第二预设字节数为125×106
第三拆分标准的调节方式为所述中控模块判定所述单个二级数据的字节数不符合预设标准,并根据测得的单个二级数据的字节数与第二预设字节数之间的差值将所述单个用户数据的拆分数量增加至对应值;所述第三拆分标准的调节方式满足所述单个二级数据的字节数大于等于所述第二预设字节数。
具体而言,所述中控模块在所述第二拆分标准的调节方式下计算所述单个二级数据的字节数与第一预设字节数之间的差值,并将该差值记为字节数差值,中控模块根据字节数差值确定针对所述占比区间的右边界的边界值调节方式,其中,
第一边界调节方式为所述调节模使用第一预设边界调节系数将所述边界值减小至对应值;所述第一边界调节方式满足所述字节数差值小于第一预设字节数差值,设定第一预设字节数差值为23×106
第二边界调节方式为所述调节模使用第二预设边界调节系数将所述边界值减小至对应值;所述第二边界调节方式满足所述字节数差值大于等于所述第一预设字节数差值且小于第二预设字节数差值,设定第二预设字节数差值为45×106
第三边界调节方式为所述调节模使用第三预设边界调节系数将所述边界值减小至对应值;所述第三边界调节方式满足所述字节数差值大于等于所述第二预设字节数差值。
具体而言,所述中控模块在所述第一拆分标准的调节方式下计算所述拆分后的二级数据的最大字节数与最小字节数之间的差值,并将其记为均匀性差值,中控模块根据均匀性差值确定针对单个二级数据调节的判定方式,其中,
第一调节判定方式为所述中控模块判定根据预设均匀性差值与求得的均匀性差值之间的差值将所述占比区间的左边界的边界值增大至对应值;所述第一调节判定方式满足所述均匀性差值小于预设均匀性差值,设定预设均匀性差值为15×106
第二调节判定方式为所述中控模块判定根据求得的均匀性差值与预设均匀性差值将所述最大字节数的二级数据减小至对应值,并将所述最小字节数的二级数据增大至对应值;所述第二调节判定方式满足所述均匀性差值大于等于预设均匀性差值。
具体而言,所述中控模块在第一预设条件下计算所述调节后的二级数据的数量与所述服务器的差值,并将该差值记为路径差值,中控模块将二级数据中超过服务器数量的部分定义为待分配二级数据,并根据路径差值确定针对待分配二级数据上传至所述TEE服务器的判定方式,其中,
第一上传判定方式为所述中控模块判定所述待分配二级数据全部上传至单个所述TEE服务器f中;所述第一上传判定方式满足所述路径差值小于预设路径差值,设定预设路径差值为3;
第二上传判定方式为所述中控模块判定所述待分配二级数据按顺序上传至TEE服务器1-m中;所述第二上传判定方式满足所述路径差值大于等于预设路径差值;
所述第一预设条件满足所述调节后的所述单个用户拆分的二级数据的数量大于服务器数量。
具体而言,在步骤S5中,所述中控模块在第二预设条件下计算调节后的二级数据的字节数的平均值,中控模块根据二级数据字节数平均值确定针对所述噪声幅值的判定方式,其中,
第一幅值判定方式为所述中控模块判定所述噪声幅值符合预设标准,并将当前噪声添加到所述调节后的二级数据中;所述第一幅值判定方式满足所述二级数据字节数平均值小于预设字节数平均值,设定预设字节数平均值为38×106
第二幅值判定方式为所述中控模块判定所述噪声幅值不符合预设标准,并根据所述二级数据字节数平均值与预设字节数平均值之间的差值将所述噪声幅值增大至对应值;所述第二幅值判定方式满足所述二级数据字节数平均值大于等于预设字节数平均值;
所述第二预设条件满足所述中控模块完成二级数据的调节。
具体而言,所述中控模块在第二幅值判定方式下计算所述二级数据字节数平均值与预设字节数平均值之间的差值,并将该差值记为均值差值,中控模块根据均值差值确定针对所述噪声幅值的调节方式,其中,
第一幅值调节方式为所述中控模块使用第一预设幅值调节系数1.05将所述噪声幅值调节至对应值;所述第一幅值调节方式满足所述均值差值小于第一预设均值差值,设定第一预设均值差值为3×106
第二幅值调节方式为所述中控模块使用第二预设幅值调节系数1.11将所述噪声幅值调节至对应值;所述第二幅值调节方式满足所述均值差值大于等于所述第一预设均值差值且小于第二预设均值差值,设定第二预设均值差值为5×106
第三幅值调节方式为所述中控模块使用第三预设幅值调节系数1.22将所述噪声幅值调节至对应值;所述第三幅值调节方式满足所述均值差值大于等于所述第二预设均值差值。
具体而言,所述中控模块通过所述单个用户数据的分级确定针对所述用户数据的保密等级的判定方式,其中,
第一保密等级判定方式为所述中控模块判定所述用户数据的保密等级为1,所述第一保密等级判定方式满足所述用户数据的状态为公开数据;
第二保密等级判定方式为所述中控模块判定所述用户数据的保密等级为2,所述第二保密等级判定方式满足所述用户数据的状态为内部数据;
第三保密等级判定方式为所述中控模块判定所述用户数据的保密等级为3,所述第三保密等级判定方式满足所述用户数据的状态为重要数据;
第四保密等级判定方式为所述中控模块判定所述用户数据的保密等级为4,所述第四保密等级判定方式满足所述用户数据的状态为核心数据。
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
实施例1
步骤S1,将4个用户的本地数据通过秘密分享的方式上传至3个TEE服务器上,设定用户1的本地数据为
Figure SMS_15
,设定占比区间[5%,30%],从该区间中随机选取2个数值,对于第1个数值,将其记为/>
Figure SMS_16
,并将其定义为基于拆分出来的第1个二级数据大小与总大小的占比,选取为28%,第2个数值为22%,中控模块将拆分出来的二级数据记为/>
Figure SMS_17
,设定第3个占比
Figure SMS_18
,中控模块将第k个占比拆分出来的二级数据记为/>
Figure SMS_19
,则
Figure SMS_20
,以将用户的本地数据为拆分成3个二级数据,占比分别为28%,22%,50%,并将三个二级数据上传至3个TEE服务器上;
步骤S2,所述中控模块检测二级数据单个用户的数据,该单个用户的数据状态为公开数据,则保密等级为1,该单个用户数据的字节数为39.69×106 ,则求得数据权重评价值为4200,满足所述数据权重评价值小于第一预设数据权重评价值5500,则步骤S1划分合理。
步骤S3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述TEE服务器的飞地上去除各TEE服务器接收的各所述二级数据的元数据,元数据包括ID、IP地址以及时间戳;
步骤S4,将各所述TEE服务器内的各所述二级数据的顺序打乱;
步骤S5、将所述TEE服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声,设定所述TEE服务器f接收到的4个用户数据的二级数据为
Figure SMS_21
,...,/>
Figure SMS_22
,其中,为将其添加所述噪声后形成/>
Figure SMS_23
,各TEE服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据/>
Figure SMS_24
,且添加的所述噪声的幅值符合预设标准。
实施例2
步骤S1,将10个用户的本地数据通过秘密分享的方式上传至6个TEE服务器上,设定用户1的本地数据为
Figure SMS_25
,设定占比区间[5%,30%],从该区间中随机选取5个数值,对于第1个数值,将其记为/>
Figure SMS_26
,并将其定义为基于拆分出来的第1个二级数据大小与总大小的占比,选取为18%,第2-5个数值分别为22%、28%、15%、12%,则第6个占比比值为23%,将用户1的本地数据为拆分成6个二级数据,并上传至6个TEE服务器上;
步骤S2、所述中控模块检测二级数据单个用户,该单个用户的数据状态为公开数据,则保密等级为1,该单个用户数据的字节数为235.46×106 ,则求得数据权重评价值为10230,大于第二预设数据权重评价值8350,且差值为1880,中控模块判定所述单个用户数据的拆分不符合预设标准,并根据求得的数据权重评价值与所述第二预设数据权重评价值之间的差值将所述单个用户数据的拆分数量增加至对应值,重新拆分后为8个,重新将用户1的本地数据为拆分成8个二级数据,占比分别为:18%、10%、15%、12%、6%、12%、17%、10%,将前6个数据上传至6个TEE服务器上,剩余2个二级数据由于小于预设路径差值3,则上传至第一个EE服务器上,所述中控模块重新检测调节后的二级数据单个用户的数据的数据权重评价值3995,满足要求;
步骤S3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述TEE服务器的飞地上去除各TEE服务器接收的各所述二级数据的元数据,元数据包括ID、IP地址以及时间戳;
步骤S4,将各所述TEE服务器内的各所述二级数据的顺序打乱;
步骤S5、将所述TEE服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声,设定所述TEE服务器f接收到的10个用户数据的二级数据为
Figure SMS_27
,...,/>
Figure SMS_28
,其中,为将其添加所述噪声后形成/>
Figure SMS_29
,各TEE服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据/>
Figure SMS_30
,且添加的所述噪声的幅值符合预设标准。
实施例3
步骤S1,将5个用户的本地数据通过秘密分享的方式上传至3个TEE服务器上,设定用户1的本地数据为
Figure SMS_31
,设定占比区间[5%,30%],从该区间中随机选取2个数值,对于第1个数值,将其记为/>
Figure SMS_32
,并将其定义为基于拆分出来的第1个二级数据大小与总大小的占比,选取为29%,第2个数值为28%,中控模块将拆分出来的二级数据记为/>
Figure SMS_33
,设定第3个占比
Figure SMS_34
,中控模块将第k个占比拆分出来的二级数据记为/>
Figure SMS_35
,则
Figure SMS_36
,以将用户的本地数据为拆分成3个二级数据,占比分别为29%,28%,43%,并将三个二级数据上传至3个TEE服务器上;
步骤S2,所述中控模块检测二级数据单个用户,该单个用户的数据状态为公开数据,则保密等级为2,该单个用户数据的字节数为14.63×106 ,则求得数据权重评价值为5100,满足所述数据权重评价值小于第一预设数据权重评价值5500,则步骤S1划分合理。
步骤S3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述TEE服务器的飞地上去除各TEE服务器接收的各所述二级数据的元数据,元数据包括ID、IP地址以及时间戳;
步骤S4,将各所述TEE服务器内的各所述二级数据的顺序打乱;
步骤S5,将所述TEE服务器内完成顺序打乱的二级数据添加满足高斯分布的噪声,设定所述TEE服务器f接收到的5个用户数据的二级数据为
Figure SMS_37
,...,/>
Figure SMS_38
,其中,为将其添加所述噪声后形成/>
Figure SMS_39
,各TEE服务器将添加噪声后的数据聚合输出包含高斯噪声的总数据/>
Figure SMS_40
,当前噪声幅值添加符合要求。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种隐私数据聚合方法,其特征在于,包括:
步骤S1,将多个本地的用户数据上传至多个TEE服务器上,针对其中单个用户数据,中控模块通过秘密分享的方式将其拆分成多个二级数据后并将各二级数据依次上传至对应的TEE服务器上;
步骤S2,在所述中控模块将各所述二级数据上传至对应的所述TEE服务器前,所述中控模块根据数据权重评价值C判定该用户数据的拆分是否符合预设标准,若中控模块判定针对单个所述用户数据的拆分不符合预设标准,中控模块对该用户数据进行重新拆分并在重新拆分前确定针对该用户数据进行重新拆分时的拆分标准的调节方式,其中,拆分标准包括各所述二级数据占比区间的边界值以及针对用户数据的二级数据拆分数量;
步骤S3,所述中控模块在判定针对单个所述用户数据的拆分符合预设标准时在各所述TEE服务器的飞地上去除各TEE服务器接收的各所述二级数据的元数据,元数据包括ID、IP地址以及时间戳;
步骤S4,将各所述TEE服务器内的各所述二级数据的顺序打乱;
步骤S5,将各所述TEE服务器内完成顺序打乱的各所述二级数据添加满足高斯分布的噪声后合并输出以完成对各用户隐私数据的聚合;所述中控模块根据调节后的属于单个所述用户数据的所述二级数据的字节数的平均值判定针对各二级数据添加的所述噪声的幅值是否符合预设标准。
2.根据权利要求1所述的隐私数据聚合方法,其特征在于,在所述步骤S2中,所述中控模块根据所述用户数据的字节数和该用户数据的保密等级确定该用户数据的数据权重评价值C并在判定针对单个所述用户数据的拆分不符合预设标准时根据各所述二级数据的字节数或权重评价值C与第二预设数据权重评价值的差值确定该用户数据重新拆分时的拆分标准。
3.根据权利要求2所述的隐私数据聚合方法,其特征在于,所述中控模块在第一权重评价值比较条件下根据所述字节数确定所述拆分标准,以及,在第二权重评价值比较条件下根据所述差值确定所述拆分标准,其中,第一权重评价值比较条件为所述数据权重评价值大于等于第一预设数据权重评价值且小于第二预设数据权重评价值,第二权重评价值比较条件为所述数据权重评价值大于等于所述第二预设数据权重评价值。
4.根据权利要求3所述的隐私数据聚合方法,其特征在于,所述中控模块设有在所述第二权重评价值比较条件下增加针对单个所述用户数据进行重新拆分时该用户数据的拆分数量的若干数量调节方式,其中,使用每种调节方式拆分用户数据后得到的二级数据的数量均不相同。
5.根据权利要求2所述的隐私数据聚合方法,其特征在于,所述中控模块在第一权重评价值比较条件下设置有针对单个二级数据的判定结果的若干处理方式,包括在第一字节数比较条件下根据拆分后的二级数据的最大字节数与最小字节数之间的差值确定针对所述单个二级数据的调节方式,在第二字节数比较条件下根据单个二级数据的字节数与第一预设字节数之间的差值减小占比区间的右边界的边界值,以及,在第三字节数比较条件下根据测得的单个二级数据的字节数与第二预设字节数之间的差值将所述单个用户数据的拆分数量增加至对应值。
6.根据权利要求5所述的隐私数据聚合方法,其特征在于,所述第一字节数比较条件为单个二级数据的字节数小于第一预设字节数;所述第二字节数比较条件为单个二级数据的字节数大于等于所述第一预设字节数且小于第二预设字节数;所述第三字节数比较条件为所述单个二级数据的字节数大于等于所述第二预设字节数。
7.根据权利要求6所述的隐私数据聚合方法,其特征在于,所述中控模块设有在所述第二字节数比较条件下减小所述占比区间的右边界的边界值的若干边界值调节方式,其中,每种调节方式对减小边界值的调节大小不同。
8.根据权利要求7所述的隐私数据聚合方法,其特征在于,所述中控模块在所述第一字节数比较条件下针对单个二级数据的调节方式为在所述拆分后的二级数据的最大字节数与最小字节数之间的差值小于预设均匀性差值条件下将所述占比区间的左边界的边界值增大至对应值,或,在所述拆分后的二级数据的最大字节数与最小字节数之间的差值大于等于所述预设均匀性差值条件下将所述最大字节数的二级数据减小至对应值。
9.根据权利要求8所述的隐私数据聚合方法,其特征在于,所述中控模块在所述调节后的二级数据的数量大于所述TEE服务器数量时判定将超出服务器数量的二级数据全部上传至单个TEE服务器中,或,将超出服务器数量的二级数据按顺序上传至TEE服务器中。
10.根据权利要求9所述的隐私数据聚合方法,其特征在于,所述中控模块设有若干针对判定所述步骤S5中所述噪声幅值不符合预设标准时增大所述噪声幅值的幅值调节方式,其中,每种调节方式对增大噪声幅值的调节大小不同。
CN202310660603.3A 2023-06-06 2023-06-06 隐私数据聚合方法 Active CN116388987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310660603.3A CN116388987B (zh) 2023-06-06 2023-06-06 隐私数据聚合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310660603.3A CN116388987B (zh) 2023-06-06 2023-06-06 隐私数据聚合方法

Publications (2)

Publication Number Publication Date
CN116388987A true CN116388987A (zh) 2023-07-04
CN116388987B CN116388987B (zh) 2023-08-25

Family

ID=86967935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310660603.3A Active CN116388987B (zh) 2023-06-06 2023-06-06 隐私数据聚合方法

Country Status (1)

Country Link
CN (1) CN116388987B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710661A (zh) * 2012-06-25 2012-10-03 上海交通大学 云存储与聚合架构及其数据存储与聚合方法
US20170317984A1 (en) * 2014-10-10 2017-11-02 Pcms Holdings, Inc. Systems and methods for protecting user privacy in networked data collection
CN110087237A (zh) * 2019-04-30 2019-08-02 苏州大学 基于数据扰动的隐私保护方法、装置及相关组件
US20210288946A1 (en) * 2020-03-11 2021-09-16 Dmitry Borzov Methods and apparatuses for oblivious transfer using trusted environment
CN114297692A (zh) * 2021-12-30 2022-04-08 支付宝(杭州)信息技术有限公司 基于数据处理系统的隐私数据处理方法
CN114595831A (zh) * 2022-03-01 2022-06-07 北京交通大学 融合自适应权重分配和个性化差分隐私的联邦学习方法
US20220374763A1 (en) * 2021-05-18 2022-11-24 International Business Machines Corporation Federated learning with partitioned and dynamically-shuffled model updates

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710661A (zh) * 2012-06-25 2012-10-03 上海交通大学 云存储与聚合架构及其数据存储与聚合方法
US20170317984A1 (en) * 2014-10-10 2017-11-02 Pcms Holdings, Inc. Systems and methods for protecting user privacy in networked data collection
CN110087237A (zh) * 2019-04-30 2019-08-02 苏州大学 基于数据扰动的隐私保护方法、装置及相关组件
US20210288946A1 (en) * 2020-03-11 2021-09-16 Dmitry Borzov Methods and apparatuses for oblivious transfer using trusted environment
US20220374763A1 (en) * 2021-05-18 2022-11-24 International Business Machines Corporation Federated learning with partitioned and dynamically-shuffled model updates
CN114297692A (zh) * 2021-12-30 2022-04-08 支付宝(杭州)信息技术有限公司 基于数据处理系统的隐私数据处理方法
CN114595831A (zh) * 2022-03-01 2022-06-07 北京交通大学 融合自适应权重分配和个性化差分隐私的联邦学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CLAUDIO SORIENTE 等: "ReplicaTEE: Enabling Seamless Replication of SGX Enclaves in the Cloud", 2019 IEEE EUROPEAN SYMPOSIUM ON SECURITY AND PRIVACY (EUROS&P), pages 158 - 171 *

Also Published As

Publication number Publication date
CN116388987B (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
Gu et al. Semi-supervised K-means DDoS detection method using hybrid feature selection algorithm
CN106411934B (zh) DoS/DDoS攻击检测方法和装置
CN111817982B (zh) 一种面向类别不平衡下的加密流量识别方法
CN110798488B (zh) Web应用攻击检测方法
Čisar et al. Skewness and kurtosis in function of selection of network traffic distribution
CN105022761A (zh) 群组查找方法和装置
CN112329056B (zh) 一种面向政务数据共享的本地化差分隐私方法
CN110390585B (zh) 一种识别异常对象的方法及装置
Cheng et al. A DDoS detection method for socially aware networking based on forecasting fusion feature sequence
CN106330611A (zh) 一种基于统计特征分类的匿名协议分类方法
CN111782700B (zh) 基于双层结构的数据流频次估计方法、系统及介质
CN113609533A (zh) 一种面向智能电网数据的完整性审计方法
CN116232767B (zh) DDoS防御方法、装置、计算机设备及存储介质
CN106878314A (zh) 基于可信度的网络恶意行为检测方法
CN110519266B (zh) 一种基于统计学方法的cc攻击检测的方法
CN116388987B (zh) 隐私数据聚合方法
CN109818921B (zh) 一种网站接口非正常流量的分析方法及装置
CN115879152A (zh) 基于最小均方误差准则的自适应隐私保护方法、装置及系统
CN111885011B (zh) 一种业务数据网络安全分析挖掘的方法及系统
Asadian et al. Identification of Sybil attacks on social networks using a framework based on user interactions
CN110198476B (zh) 弹幕行为异常检测方法、存储介质、电子设备及系统
CN113938292B (zh) 一种基于概念漂移的漏洞攻击流量检测方法及检测系统
CN113794742B (zh) 一种电力系统fdia高精度检测方法
Jiang et al. Comprehensive behavior profiling model for malware classification
CN114218577A (zh) 一种api的风险确定方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant