CN110365620A - 一种流式数据隐私保护方法及装置 - Google Patents
一种流式数据隐私保护方法及装置 Download PDFInfo
- Publication number
- CN110365620A CN110365620A CN201810253282.4A CN201810253282A CN110365620A CN 110365620 A CN110365620 A CN 110365620A CN 201810253282 A CN201810253282 A CN 201810253282A CN 110365620 A CN110365620 A CN 110365620A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- data block
- triple
- privacy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0428—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及大数据隐私保护技术领域,特别涉及一种流式数据隐私保护方法及装置。该方法为:将实时采集到的流式数据切分为多个数据块;针对上述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征上述一个字段的移位信息,上述一个字段的索引用于表征上述一个字段的存储位置信息;采用数据拥有者的密钥对三元组进行加密处理,并将移位后的上述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
Description
技术领域
本发明涉及大数据隐私保护技术领域,特别涉及一种流式数据隐私保护方法及装置。
背景技术
目前随着大数据技术的快速发展,大规模流式数据的需求日益增大,数据随时都在发生变化,在对流式数据的处理时,大多要求较高的实时处理能力,例如,流式数据处理的三种框架:Spark Streaming,Storm和Samza,那么,流式数据的安全性逐渐引起业界关注。
实施数据隐私保护的目的是为了保证数据应用过程中不泄露隐私。现有的数据隐私保护技术包括:基于数据的加密技术,通过对用户隐私数据加密,隐藏用户隐私数据,然而,在对隐藏的用户隐私数据进行增删查改时,计算开销较大;数据失真技术,使用户隐私数据失真,保持统计特性,较适用于统计领域;限制发布技术,对数据有选择性的发布,少发/过滤用户隐私数据,从源头避免用户隐私数据泄露,但只适用于企业公告等信息的发布;匿名化技术,包括扰动和泛化技术,扰动是指对原数据中正确的数值做一些变换,泛化是指从一个合适的范围内选择新值将原值替换,会造成原数据一定程度的缺失,对数据进行增删查改时,计算开销也较大。
且目前上述数据隐私保护技术大都是针对静态数据,或者操作不太频繁的数据。
发明内容
本发明实施例的目的是提供一种流式数据隐私保护方法及装置,用以解决现有技术中存在的无法有效对流式数据进行隐私保护的问题。
本发明实施例中提供的具体技术方案如下:
第一方面,本发明提供一种流式数据隐私保护方法,上述方法包括:将实时采集到的流式数据切分为多个数据块;针对上述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征上述一个字段的移位信息,上述一个字段的索引用于表征上述一个字段的存储位置信息;采用数据拥有者的密钥对三元组进行加密处理,并将移位后的上述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
采用本发明提供的流式数据隐私保护方法,将实时采集到的流式数据基于预设的切分规则切分为多个数据块,再将每一隐私数据块分别切分为多个字段,并针对每一隐私数据块切分出的每一字段分别生成相应的,可用于表征各字段的移位信息,字段名称和查询索引的三元组,将重新排序后的隐私数据块存储至数据存储器,只针对隐私数据块进行隐私保护处理,降低了数据处理量,通过打乱一个隐私数据块中不同字段的排列顺序,实现了明文状态下的数据隐私保护,进一步的,采用数据拥有者的密钥对三元组进行加密处理,避免了一个用户的密钥泄漏而导致所有用户的数据泄露的发生。
可选的,上述流式数据隐私保护方法,进一步包括:基于上述多个数据块中每一数据块的数据特征,分别判断每一数据块是否为隐私数据块,其中,包含有隐私字段的数据块为隐私数据块。
上述可选的方式表征在将流式数据切分为多个数据块之后,根据各数据块的数据特征,分别判断各数据块是否为隐私数据块,这样,就能更准确的确定出需要进行隐私保护的各数据块,并针对需要进行隐私保护的各数据块进行隐私保护处理。
可选的,上述流式数据隐私保护方法中,确定一个隐私数据块中各字段的随机数,具体包括:采用乘同余算法计算每一字段分别对应的随机序列:Xi=(Xi-1×A+C)modM,其中,上述一个隐私数据块包括i个字段,i≥1,A,C,M为常数,X0为奇数,Xi为第i个字段的随机序列,X1,X2,……,Xi的取值不同;采用向下取整公式计算每一字段分别对应的随机整数:
上述可选的方式表征确定一个字段的随机整数的具体方式,采用随机整数的方式表征一个字段的移位信息,并将移位后的数据块进行存储,这样,即时外部攻击者获得了移位后的数据块的存储信息,也不能得到其相对应的原始数据。
可选的,上述流式数据隐私保护方法,进一步包括:基于预设的统计周期,确定当前统计周期内采集到的流式数据的隐私泄露风险值。
上述可选的方式表征,在对采集到的流式数据进行后续处理的过程中,基于预设的统计周期,判断当前统计周期内采集到的流式数据的隐私泄露风险值,评估隐私泄露风险等级,并根据隐私泄露风险等级生成相应的预警信息,及时告知用户。
可选的,上述流式数据隐私保护方法中,确定当前统计周期内采集到的流式数据的隐私泄露风险值,包括:采用以下公式计算当前统计周期内采集到的流式数据的隐私泄露风险值:其中,p为线性关系参数,R为当前统计周期内隐私数据块的个数,C为当前统计周期内隐私字段种类的个数,NQ为当前统计周期内总字段的个数。
上述可选的方式表征一种具体确定当前统计周期内采集到的流式数据的隐私泄露风险值的方式,根据具体应用场景相对应的线性关系参数,当前统计周期内隐私数据块的个数,当前统计周期内隐私字段种类的个数以及当前统计周期内总字段的个数,计算当前统计周期内采集到的流式数据的隐私泄露风险值。
可选的,上述流式数据隐私保护方法,进一步包括:在接收到用户触发的数据查询指令时,基于上述数据查询指令确定查询数据和相应加密后的三元组的存储位置;采用上述用户的密钥对上述相应三元组进行解密处理,并基于解密后的上述三元组对上述查询数据进行重构、拼接处理;将重构、拼接后的原始数据返回给上述用户。
上述可选的方式表征,一种具体对已采用隐私保护方法进行保护的数据进行数据还原的方式。首先,确定查询数据和相应的加密后的三元组所在的位置,并采用用户持有的密钥对已加密的三元组进行解密处理,其中,需确保该用户为数据拥有者,然后,再根据解密后的三元组分别对相应的字段进行重构和拼接处理,得到原始数据。
第二方面,本发明提供一种流式数据隐私保护装置,包括:切分单元,用于将实时采集到的流式数据切分为多个数据块;生成单元,用于针对上述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征上述一个字段的移位信息,上述一个字段的索引用于表征上述一个字段的存储位置信息;存储单元,用于采用数据拥有者的密钥对三元组进行加密处理,并将移位后的上述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
可选的,上述流式数据隐私保护装置进一步包括:判断单元,用于基于上述多个数据块中每一数据块的数据特征,分别判断每一数据块是否为隐私数据块,其中,包含有隐私字段的数据块为隐私数据块。
可选的,上述流式数据隐私保护装置中,在确定一个隐私数据块中各字段的随机数时,上述生成单元具体用于:采用乘同余算法计算每一字段分别对应的随机序列:Xi=(Xi-1×A+C)modM,其中,上述一个隐私数据块包括i个字段,i≥1,A,C,M为常数,X0为奇数,Xi为第i个字段的随机序列,X1,X2,……,Xi的取值不同;采用向下取整公式计算每一字段分别对应的随机整数:
可选的,上述流式数据隐私保护装置,进一步包括:
确定单元,用于基于预设的统计周期,确定当前统计周期内采集到的流式数据的隐私泄露风险值。
可选的,上述流式数据隐私保护装置中,在基于预设的统计周期,确定当前统计周期内采集到的流式数据的隐私泄露风险值时,上述确定单元用于:采用以下公式计算当前统计周期内采集到的流式数据的隐私泄露风险值:其中,p为线性关系参数,R为当前统计周期内隐私数据块的个数,C为当前统计周期内隐私字段种类的个数,NQ为当前统计周期内总字段的个数。
可选的,流式数据隐私保护装置,进一步包括:处理单元,用于在接收到用户触发的数据查询指令时,基于上述数据查询指令确定查询数据和相应加密后的三元组的存储位置;采用上述用户的密钥对上述相应三元组进行解密处理,并基于解密后的上述三元组对上述查询数据进行重构、拼接处理;将重构、拼接后的原始数据返回给上述用户。
第三方面,本发明提供一种计算设备,上述计算设备包括:存储器,用于存储程序指令;
处理器,用于调用上述存储器中存储的程序指令,按照获得的程序执行上述第二方面中任一项方法。
第四方面,本发明提供一种计算机可读存储介质,上述计算机可读存储介质存储有计算机可执行指令,上述计算机可执行指令用于使上述计算机执行上述第二方面中任一项方法。
本发明有益效果如下:
综上所述,本发明实施例中,在对流式数据进行隐私保护的过程中,将实时采集到的流式数据切分为多个数据块;针对上述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征上述一个字段的移位信息,上述一个字段的索引用于表征上述一个字段的存储位置信息;采用数据拥有者的密钥对三元组进行加密处理,并将移位后的上述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
采用上述方法,针对一次切分出的多个数据块中的各隐私数据块,对各隐私数据块再次进行二次切分处理,得到每一隐私数据块分别对应的多个字段,并将该多个字段进行随机移位处理,以及将字段随机移位后的数据块存储至指定位置,较少了隐私保护数据处理量的同时,实现了以明文的方式对流式数据进行隐私保护,进一步的,采用数据拥有者的密钥对各字段的移位信息进行加密处理,避免了因某个数据拥有者的密钥泄漏而导致其他用户的数据泄露。
附图说明
图1为本发明实施例中,一种流式数据隐私保护方法的详细流程图;
图2为本发明实施例中,一种对流式数据进行隐私存储的流程图;
图3为本发明实施例中,另一种流式数据隐私保护方法的详细流程图;
图4为本发明实施例中,一种流式数据隐私保护装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,已有的数据隐私保护技术主要针对静态数据,或者操作不频繁,对实时性要求不高的数据的隐私保护,针对实时性要求较高的流式数据,其安全性问题急需提高。
本发明实施例中提供一种针对流式数据的隐私保护方法,以实现对流式数据进行隐私保护和安全存储,具体的,基于预设的数据切分规则将实时采集到的流式数据切分为多个数据块,并针对该多个数据块中各隐私数据块进行二次切分处理,分别得到每一隐私数据块相对应的多个字段,以及针对每一隐私数据块而言,将其所包含的各字段进行随机移位,针对移位后组成的数据块进行存储操作,这样,在降低了数据处理量的同时,实现了以明文的方式对流式数据进行隐私保护,进一步的,针对每一隐私数据块而言,其包含的每一字段分别对应一个三元组参数,该三元组中包括一个用于表征字段移位信息的随机整数之外,还包括字段名和用于快速查询字段的二进制索引。进一步的,本发明实施例中,针对各字段相对应的三元组,采用数据拥有者的密钥对三元组进行加密处理,将加密后的三元组存储至指定位置,该三元组用于将相应移位后组成的数据块进行数据还原。
当然,本发明实施例中,在将采集到的流式数据进行一次切分之后,根据切分后的各数据块的数据特征,分别判断各数据块中是否包含有隐私数据,若包含有隐私数据,则称之为隐私数据块。
可选的,本发明实施例中,进一步包括,在对流式数据进行隐私保护的过程中,基于预设的时间窗口,通过当前时间窗口内采集到的流式数据的隐私泄露风险值,其中,所谓流式数据对应的隐私泄露风险值表征该流式数据泄露可能会造成的威胁/后果的严重性。较佳的,本发明实施例中,确定当前时间窗口内采集到的流式数据的隐私泄露风险值的方式,根据具体应用场景相对应的线性关系参数,当前时间窗口内隐私数据块的个数,当前时间窗口内隐私字段种类的个数以及当前时间窗口内总字段的个数,计算当前时间窗口内采集到的流式数据的隐私泄露风险值,并根据计算得到的隐私泄露风险值,评估隐私泄露风险等级,向用户预警。
下面将通过具体实施例对本发明的方案进行详细描述,当然,本发明并不限于以下实施例。
示例性的,参阅图1所示,本发明实施例中,一种流式数据隐私保护方法的详细流程如下:
步骤100:采集流式数据。
具体的,本发明实施例中,在执行步骤100时,实时监视数据源,直接通过采集系统从数据源采集流式数据。
步骤110:将实时采集到的流式数据切分为多个数据块。
具体的,本发明实施例中,基于预设的数据切分规则,对实时采集到的流式数据进行一次切分处理。
实际应用中,在对流式数据进行切分时,可基于预设的切分周期对流失数据进行切分处理,即将每一个切分周期内采集到的流失数据作为一个切分后的数据块。
例如,假设预设的切分周期为1秒,那么,即可将每1S采集到的流式数据分别作为一个切分后的数据块。
另外,本发明实施例中,也可以基于预设的数据量对实时采集到的流式数据进行切分处理,即切分后的每一数据块所包含的数据量大小相同。当然,具体的流式数据切分方式还可以为其他数据切分方式,本发明实施例中,在此不做具体限定。
步骤120:针对上述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组。
其中,一个字段的随机数用于表征上述一个字段的移位信息,上述一个字段的索引用于表征上述一个字段的存储位置信息。
实际应用中,一种较佳的实施方式为,在针对实时采集到的流式数据进行切分处理,得到多个数据块之后,在执行步骤120之前,进一步的,根据该多个数据块的数据特征,分别判断该多个数据块中每一数据块是否为包含有隐私字段的隐私数据块。
例如,假设将“姓名”,“性别”,“薪资”,“电话号码”,“身份证号码”或“住址信息”等等字段预设为隐私字段,那么,针对一个数据块而言,即可根据该一个数据块的特征信息,判断该一个数据块中是否包含有上述“姓名”,“性别”,“薪资”,“电话号码”,“身份证号码”或“住址信息”中的至少一个,若判定包含,则确定该一个数据块为隐私数据块。
也就是说,一个数据块中包含有至少一个预设的隐私字段,则该一个数据块为隐私数据块;而一个数据块中不包含任何预设的隐私字段,则该一个数据块为非隐私数据块。本发明实施例中,只需针对隐私数据块进行隐私保护处理,而针对非隐私数据块,无需进行隐私保护处理,大大减少了隐私保护处理数据量。
具体的,本发明实施例中,在执行步骤120时,分别针对每一隐私数据块进行二次切分处理,分别得到每一隐私数据块相对应的多个字段,进一步的,针对任意一个隐私数据块而言,需要确定每一隐私数据块中各字段的随机数,其中,该随机数用于表征一个字段的移位信息。
可选的,本发明实施例中,确定一个隐私数据块中各字段的随机数的具体步骤包括:首先,确定该一个隐私数据块中各字段的分别对应的随机序列;然后,根据各字段分别对应的随机序列,分别确定各字段对应的随机整数。
具体的,可采用乘同余算法计算每一字段分别对应的随机序列:
Xi=(Xi-1×A+C)modM,其中,上述一个隐私数据块包括i个字段,i≥1,A,C,M为常数,X0为奇数,Xi为第i个字段的随机序列,X1,X2,……,Xi的取值不同;
可采用向下取整公式计算每一字段分别对应的随机整数:
可选的,采用随机整数的方式表征一个字段的移位信息,并将移位后的数据块进行存储,这样,即时外部攻击者获得了移位后的数据块的存储信息,也不能得到其相对应的原始数据。一个字段相对应的三元组中除用于表征该一个字段的移位信息的随时整数之外,还包含有字段名和用于查询的二进制索引,通过创建B-树/B+树二进制索引的目的,是为了保证后续数据查询的速度。
步骤130:采用数据拥有者的密钥对三元组进行加密处理,并将移位后的上述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
实际应用中,三元组是用于实现相应的、打乱各字段存储顺序的隐私数据块的重构和还原。那么,为了保障存储的隐私数据块的安全性,即需对各隐私数据块相对应的三元组进行加密处理,进一步的,为了避免由于一个用户的密钥丢失而导致其他用户的数据泄露的情况发生,本发明实施例中,采用不同的密钥对不同归属的数据对应的三元组进行加密处理,可选的,采用数据拥有者的密钥对该数据相对应的三元组进行加密处理。
进一步的,本发明实施例中,在接收到用户触发的数据查询指令时,基于上述数据查询指令确定查询数据和相应加密后的三元组的存储位置;采用上述用户的密钥对上述相应三元组进行解密处理,并基于解密后的上述三元组对上述查询数据进行重构、拼接处理;将重构、拼接后的原始数据返回给上述用户。
实际应用中,首先,确定查询数据和相应的加密后的三元组所在的位置,并采用用户持有的密钥对已加密的三元组进行解密处理,其中,需确保该用户为数据拥有者,然后,再根据解密后的三元组分别对相应的字段进行重构和拼接处理,得到原始数据。
进一步的,本发明实施例中,在进行流式数据隐私保护的过程中,基于预设的统计周期,对各个统计周期内采集到的各流式数据分别进行隐私泄露风险值的计算,并根据计算出的流式数据的隐私泄露风险值,评估相应的隐私泄露风险等级。
可选的,本发明实施例中,采用以下公式计算当前统计周期内采集到的流式数据的隐私泄露风险值:
其中,p为线性关系参数,R为当前统计周期内隐私数据块的个数,C为当前统计周期内隐私字段种类的个数,NQ为当前统计周期内总字段的个数。根据具体应用场景相对应的线性关系参数p,当前统计周期内隐私数据块的个数R,当前统计周期内隐私字段种类的个数以及当前统计周期内总字段的个数C,计算当前统计周期内采集到的流式数据的隐私泄露风险值NQ。
然后,根据计算出的流式数据的隐私泄露风险值确定相应的隐私泄露风险等级,并生成相应的预警信息,告知用户。
示例性的,参阅表1所示,隐私泄露风险值与隐私泄露风险等级之间的对应关系表。
表1
示例性的,参阅图2所示,本发明实施例中,一种可选的实施方式为,图中左侧数据格式为采集到的原始流式数据的正确序列,一条完整的数据至少包含有编号,姓名,性别,住址和薪资等信息,而在经过数据隐私存储再调整模块进行移位调整之后,得到如图中右侧的扰乱各字段存储序列的数据,具体的,将各条数据包含的编号,姓名,性别,住址和薪资等信息的排列位置进行移位,并将移位后的各条数据进行存储。
下面采用具体的应用场景对上述实施例作进一步详细说明,示例性的,参阅图3所示,本发明实施例中,一种流式数据隐私保护方法的详细流程如下:
数据隐私保护系统的数据采集模块实时采集数据源的流式数据,数据隐私保护系统的数据缓存模块将采集到的流式数据进行数据缓存处理,数据隐私保护系统的数据隐私存储再调整模块生成与各字段分别对应的三元组,使用三元组分别对原始数据中各字段排序进行移位再调整处理,并将调整后的数据存储至指定的数据存储器中,使用指定密钥对三元组进行加密处理,将加密后的三元组存储至指定位置,进一步的,在接收到用户触发的数据查询指令时,根据该数据查询指令从指定位置获取相应的加密后的三元组和从数据存储器中获取相应的移位调整后的数据,并使用相应密钥对加密后的三元组进行解密处理,以及使用解密后的三元组对移位调整后的数据进行重构、拼接处理,得到原始数据,并返回给用户,进一步的,在数据采集模块实时采集到数据源的流式数据之后,和/或,数据缓存模块将采集到的流式数据进行数据缓存处理之后,数据隐私保护系统中的数据隐私风险检测模块评估当前检测数据的数据泄露风险值,确定相应的数据泄露风险等级,并生成相应的预警信息,及时告知用户。
基于上述实施例,示例性的,参阅图4所示,本发明实施例中,一种流式数据隐私保护装置,至少包括切分单元40,生成单元41和存储单元42,其中,
切分单元40,用于将实时采集到的流式数据切分为多个数据块;生成单元41,用于针对上述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征上述一个字段的移位信息,上述一个字段的索引用于表征上述一个字段的存储位置信息;存储单元42,用于采用数据拥有者的密钥对三元组进行加密处理,并将移位后的上述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
可选的,上述流式数据隐私保护装置进一步包括:判断单元,用于基于上述多个数据块中每一数据块的数据特征,分别判断每一数据块是否为隐私数据块,其中,包含有隐私字段的数据块为隐私数据块。
可选的,上述流式数据隐私保护装置中,在确定一个隐私数据块中各字段的随机数时,上述生成单元41具体用于:采用乘同余算法计算每一字段分别对应的随机序列:Xi=(Xi-1×A+C)modM,其中,上述一个隐私数据块包括i个字段,i≥1,A,C,M为常数,X0为奇数,Xi为第i个字段的随机序列,X1,X2,……,Xi的取值不同;采用向下取整公式计算每一字段分别对应的随机整数:
可选的,上述流式数据隐私保护装置,进一步包括:
确定单元,用于基于预设的统计周期,确定当前统计周期内采集到的流式数据的隐私泄露风险值。
可选的,上述流式数据隐私保护装置中,在基于预设的统计周期,确定当前统计周期内采集到的流式数据的隐私泄露风险值时,上述确定单元用于:采用以下公式计算当前统计周期内采集到的流式数据的隐私泄露风险值:其中,p为线性关系参数,R为当前统计周期内隐私数据块的个数,C为当前统计周期内隐私字段种类的个数,NQ为当前统计周期内总字段的个数。
可选的,流式数据隐私保护装置,进一步包括:处理单元,用于在接收到用户触发的数据查询指令时,基于上述数据查询指令确定查询数据和相应加密后的三元组的存储位置;采用上述用户的密钥对上述相应三元组进行解密处理,并基于解密后的上述三元组对上述查询数据进行重构、拼接处理;将重构、拼接后的原始数据返回给上述用户。
综上所述,本发明实施例中,在对流式数据进行隐私保护的过程中,将实时采集到的流式数据切分为多个数据块;针对上述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征上述一个字段的移位信息,上述一个字段的索引用于表征上述一个字段的存储位置信息;采用数据拥有者的密钥对三元组进行加密处理,并将移位后的上述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
采用上述方法,针对一次切分出的多个数据块中的各隐私数据块,对各隐私数据块再次进行二次切分处理,得到每一隐私数据块分别对应的多个字段,并将该多个字段进行随机移位处理,以及将字段随机移位后的数据块存储至指定位置,较少了隐私保护数据处理量的同时,实现了以明文的方式对流式数据进行隐私保护,进一步的,采用数据拥有者的密钥对各字段的移位信息进行加密处理,避免了因某个数据拥有者的密钥泄漏而导致其他用户的数据泄露。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种流式数据隐私保护方法,其特征在于,包括:
将实时采集到的流式数据切分为多个数据块;
针对所述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征所述一个字段的移位信息,所述一个字段的索引用于表征所述一个字段的存储位置信息;
采用数据拥有者的密钥对三元组进行加密处理,并将移位后的所述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
2.如权利要求1所述的方法,其特征在于,进一步包括:
基于所述多个数据块中每一数据块的数据特征,分别判断每一数据块是否为隐私数据块,其中,包含有隐私字段的数据块为隐私数据块。
3.如权利要求1或2所述的方法,其特征在于,确定一个隐私数据块中各字段的随机数,具体包括:
采用乘同余算法计算每一字段分别对应的随机序列:
Xi=(Xi-1×A+C)modM,其中,所述一个隐私数据块包括i个字段,i≥1,A,C,M为常数,X0为奇数,Xi为第i个字段的随机序列,X1,X2,……,Xi的取值不同;
采用向下取整公式计算每一字段分别对应的随机整数:
4.如权利要求2所述的方法,其特征在于,进一步包括:
基于预设的统计周期,确定当前统计周期内采集到的流式数据的隐私泄露风险值。
5.如权利要求4所述的方法,其特征在于,基于预设的统计周期,确定当前统计周期内采集到的流式数据的隐私泄露风险值,包括:
采用以下公式计算当前统计周期内采集到的流式数据的隐私泄露风险值:
其中,p为线性关系参数,R为当前统计周期内隐私数据块的个数,C为当前统计周期内隐私字段种类的个数,NQ为当前统计周期内总字段的个数。
6.如权利要求1所述的方法,其特征在于,进一步包括:
在接收到用户触发的数据查询指令时,基于所述数据查询指令确定查询数据和相应加密后的三元组的存储位置;
采用所述用户的密钥对所述相应三元组进行解密处理,并基于解密后的所述三元组对所述查询数据进行重构、拼接处理;
将重构、拼接后的原始数据返回给所述用户。
7.一种流式数据隐私保护装置,其特征在于,包括:
切分单元,用于将实时采集到的流式数据切分为多个数据块;
生成单元,用于针对所述多个数据块中每一隐私数据块分别执行以下操作:将一个隐私数据块切分为多个字段,并针对每一字段分别生成相应的包含有随机数,字段名和索引的三元组,其中,一个字段的随机数用于表征所述一个字段的移位信息,所述一个字段的索引用于表征所述一个字段的存储位置信息;
存储单元,用于采用数据拥有者的密钥对三元组进行加密处理,并将移位后的所述多个字段和每一字段分别对应的加密后的三元组存储至数据存储器,其中,不同的数据拥有者的密钥不同。
8.如权利要求7所述的装置,其特征在于,进一步包括:
判断单元,用于基于所述多个数据块中每一数据块的数据特征,分别判断每一数据块是否为隐私数据块,其中,包含有隐私字段的数据块为隐私数据块。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如权利要求1至6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括:
所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810253282.4A CN110365620B (zh) | 2018-03-26 | 2018-03-26 | 一种流式数据隐私保护方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810253282.4A CN110365620B (zh) | 2018-03-26 | 2018-03-26 | 一种流式数据隐私保护方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110365620A true CN110365620A (zh) | 2019-10-22 |
CN110365620B CN110365620B (zh) | 2021-08-13 |
Family
ID=68212136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810253282.4A Active CN110365620B (zh) | 2018-03-26 | 2018-03-26 | 一种流式数据隐私保护方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110365620B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111813769A (zh) * | 2020-07-16 | 2020-10-23 | 杭州数梦工场科技有限公司 | 数据加工方法与装置 |
CN111831979A (zh) * | 2020-07-06 | 2020-10-27 | 北京瑞莱智慧科技有限公司 | 一种数据隐私保护协议的分析方法及装置 |
CN116366373A (zh) * | 2023-06-01 | 2023-06-30 | 深圳市柏英特电子科技有限公司 | 用于机顶盒数据的智能管理方法、设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571873A (zh) * | 2009-06-16 | 2009-11-04 | 北京易恒信认证科技有限公司 | 一种数据库数据加密系统和方法 |
US20120203990A1 (en) * | 2011-02-08 | 2012-08-09 | Fujitsu Technology Solutions Intellectual Property Gmbh | Method for storing and recovering data, utilization of the method in a storage cloud, storage server and computer program product |
CN102880615A (zh) * | 2011-07-15 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种数据存储方法和装置 |
CN103067157A (zh) * | 2011-10-18 | 2013-04-24 | 美国博通公司 | 利用随机排序和随机块大小的安全数据传输 |
CN103729470A (zh) * | 2014-01-20 | 2014-04-16 | 刘强 | 一种基于不同云存储端的安全存储方法 |
CN105574424A (zh) * | 2014-10-16 | 2016-05-11 | 中国移动通信集团广东有限公司 | 一种大数据加解密处理方法及系统 |
CN105893871A (zh) * | 2016-03-29 | 2016-08-24 | 清华大学 | 一种基于数据分割的数据安全保护方法及装置 |
US9646172B1 (en) * | 2016-11-15 | 2017-05-09 | Envieta Systems LLC | Data storage system for securely storing data records |
CN106933549A (zh) * | 2015-12-29 | 2017-07-07 | 中移(苏州)软件技术有限公司 | 基于流计算引擎的可定制化模块开发系统及方法 |
CN107425962A (zh) * | 2017-04-21 | 2017-12-01 | 济南浪潮高新科技投资发展有限公司 | 一种数据分级加密与分割的云端数据保护方法 |
CN107666479A (zh) * | 2017-08-02 | 2018-02-06 | 上海壹账通金融科技有限公司 | 信息加密解密方法、装置、计算机设备和存储介质 |
-
2018
- 2018-03-26 CN CN201810253282.4A patent/CN110365620B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571873A (zh) * | 2009-06-16 | 2009-11-04 | 北京易恒信认证科技有限公司 | 一种数据库数据加密系统和方法 |
US20120203990A1 (en) * | 2011-02-08 | 2012-08-09 | Fujitsu Technology Solutions Intellectual Property Gmbh | Method for storing and recovering data, utilization of the method in a storage cloud, storage server and computer program product |
CN102880615A (zh) * | 2011-07-15 | 2013-01-16 | 腾讯科技(深圳)有限公司 | 一种数据存储方法和装置 |
CN103067157A (zh) * | 2011-10-18 | 2013-04-24 | 美国博通公司 | 利用随机排序和随机块大小的安全数据传输 |
CN103729470A (zh) * | 2014-01-20 | 2014-04-16 | 刘强 | 一种基于不同云存储端的安全存储方法 |
CN105574424A (zh) * | 2014-10-16 | 2016-05-11 | 中国移动通信集团广东有限公司 | 一种大数据加解密处理方法及系统 |
CN106933549A (zh) * | 2015-12-29 | 2017-07-07 | 中移(苏州)软件技术有限公司 | 基于流计算引擎的可定制化模块开发系统及方法 |
CN105893871A (zh) * | 2016-03-29 | 2016-08-24 | 清华大学 | 一种基于数据分割的数据安全保护方法及装置 |
US9646172B1 (en) * | 2016-11-15 | 2017-05-09 | Envieta Systems LLC | Data storage system for securely storing data records |
CN107425962A (zh) * | 2017-04-21 | 2017-12-01 | 济南浪潮高新科技投资发展有限公司 | 一种数据分级加密与分割的云端数据保护方法 |
CN107666479A (zh) * | 2017-08-02 | 2018-02-06 | 上海壹账通金融科技有限公司 | 信息加密解密方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
YAVUZ CANBAY: ""Big data anonymization with spark"", 《2017 INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND ENGINEERING (UBMK)》 * |
周中民: ""一种基于分块混淆的动态数据隐私保护机制"", 《计算机研究与发展》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111831979A (zh) * | 2020-07-06 | 2020-10-27 | 北京瑞莱智慧科技有限公司 | 一种数据隐私保护协议的分析方法及装置 |
CN111831979B (zh) * | 2020-07-06 | 2021-08-17 | 北京瑞莱智慧科技有限公司 | 一种数据隐私保护协议的分析方法及装置 |
CN111813769A (zh) * | 2020-07-16 | 2020-10-23 | 杭州数梦工场科技有限公司 | 数据加工方法与装置 |
CN111813769B (zh) * | 2020-07-16 | 2023-12-12 | 杭州数梦工场科技有限公司 | 数据加工方法与装置 |
CN116366373A (zh) * | 2023-06-01 | 2023-06-30 | 深圳市柏英特电子科技有限公司 | 用于机顶盒数据的智能管理方法、设备和存储介质 |
CN116366373B (zh) * | 2023-06-01 | 2023-08-22 | 深圳市柏英特电子科技有限公司 | 用于机顶盒数据的智能管理方法和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110365620B (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111130757B (zh) | 一种基于区块链的多云cp-abe访问控制方法 | |
CN105243252B (zh) | 一种账户风险评估的方法及装置 | |
CN111898148A (zh) | 一种基于区块链的信息监管方法及装置 | |
CN110365620A (zh) | 一种流式数据隐私保护方法及装置 | |
CN106230808A (zh) | 一种基于区块链技术的个人征信系统建设方法 | |
CN106571905A (zh) | 一种数值型数据同态保序加密方法 | |
CN112100679B (zh) | 基于隐私保护的数据处理方法、装置和服务器 | |
CN109711155A (zh) | 一种预警确定方法和装置 | |
CN104657254A (zh) | 一种操作信息的处理方法及装置 | |
CN106022143B (zh) | 一种数据库密级标志安全网关操作的方法、装置及系统 | |
CN107302521B (zh) | 一种用户隐私数据的发送方法和接收方法 | |
CN110489998A (zh) | 一种可搜索加密方法、装置、设备及可读存储介质 | |
CN117240604B (zh) | 基于云计算的数据安全存储和优化节能方法 | |
CN111641636A (zh) | 物联网数据安全通信的方法、系统、设备及存储介质 | |
Jamil et al. | Secure provenance using an authenticated data structure approach | |
CN106685893B (zh) | 一种基于社交网络群的权限控制方法 | |
CN114697142B (zh) | 一种通信数据加密方法及装置、电子设备、存储介质 | |
CN105825132B (zh) | 一种数据处理、查询方法及相关装置 | |
CN116842557A (zh) | 一种基于隐私求交和区块链的图像监管平台及方法 | |
Zhang et al. | Encrypted and compressed key-value store with pattern-analysis security in cloud systems | |
CN113660234A (zh) | 数据加密传输和解密方法、存储器和处理器 | |
CN112822201A (zh) | 保护隐私的差异数据确定方法、装置、设备及系统 | |
CN110535646A (zh) | 一种数据信息安全管理方法 | |
CN106534304B (zh) | 一种基于可取回概率的云存储方法和装置 | |
CN109495444A (zh) | 一种加密请求处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |