CN118018331A

CN118018331A - 一种大数据云服务的隐私保护方法及系统

Info

Publication number: CN118018331A
Application number: CN202410418210.6A
Authority: CN
Inventors: 张志敏
Original assignee: Jiangsu Qiyi Digital Technology Co ltd
Current assignee: Jiangsu Qiyi Digital Technology Co ltd
Priority date: 2024-04-09
Filing date: 2024-04-09
Publication date: 2024-05-10
Anticipated expiration: 2044-04-09
Also published as: CN118018331B

Abstract

本发明涉及大数据加密技术领域，提出了一种大数据云服务的隐私保护方法及系统，包括：采集大数据云服务的资源数据，编码得到明文数据；对明文数据通过窗口划分得到若干窗口区间；根据相邻窗口区间中字节的分布，获取每个窗口区间与相邻之前的区间的分布同一性，得到若干明文区间；根据每个明文区间中字节的分布，以及与相邻前一个明文区间的分布同一性，得到每个明文区间的分布必要性；根据分布必要性得到每个明文区间的最优加密分布参数，通过混沌序列进行加密得到密文数据；对密文数据进行熵编码压缩并存储。本发明旨在解决大数据通过加密实现隐私保护后过于紊乱不利于存储的问题。

Description

一种大数据云服务的隐私保护方法及系统

技术领域

本发明涉及大数据加密技术领域，具体涉及一种大数据云服务的隐私保护方法及系统。

背景技术

基于大数据云服务的大数据资源服务通过云计算、网络或软件提供数据存储、管理和分析等服务，这些服务旨在处理大规模的数据集，以便使用者能对市场实现更深入的洞察和决策，但随着用户个人信息的敏感性不断提高，以及社会对于数据安全的关切和避免个人信息被滥用的风险，提出了建立健全的大数据资源服务隐私保护的需求。

目前针对大数据资源服务的隐私保护多是通过对数据进行加密、脱敏等技术，消除共享资源中原有信息的隐私结构，以达到增加紊乱程度提高数据安全性，但由于大数据资源服务的数据量较大，经过加密后数据更加紊乱，不利于云服务的数据存储，对云服务存储的负载提出较高需求。

发明内容

本发明提供一种大数据云服务的隐私保护方法及系统，以解决现有的大数据通过加密实现隐私保护后过于紊乱不利于存储的问题，所采用的技术方案具体如下：

第一方面，本发明一个实施例提供了一种大数据云服务的隐私保护方法，该方法包括以下步骤：

采集大数据云服务的资源数据，编码得到明文数据；

对明文数据通过窗口划分得到若干窗口区间；根据相邻窗口区间中字节的分布，获取每个窗口区间与相邻之前的区间的分布同一性，得到若干明文区间；

根据每个明文区间中字节的分布，以及与相邻前一个明文区间的分布同一性，得到每个明文区间的分布必要性；根据分布必要性得到每个明文区间的最优加密分布参数，通过混沌序列进行加密得到密文数据；

对密文数据进行熵编码压缩并存储。

进一步的，所述编码得到明文数据，包括的具体方法为：

对于采集到的任意一个数据，通过编码后的该数据由若干字节组成，每个字节为一个8位二进制数，对所有数据都转换为若干字节，所有字节按照数据的顺序组成的编码记为明文数据；对每个字节进行十进制转换，得到的数据记为每个字节的十进制数。

进一步的，所述对明文数据通过窗口划分得到若干窗口区间，包括的具体方法为：

根据预设的窗口长度及步长，通过窗口在明文数据上进行滑动得到若干窗口区间。

进一步的，所述获取每个窗口区间与相邻之前的区间的分布同一性，得到若干明文区间，包括的具体方法为：

将第一个窗口区间作为一个明文区间，记为第一个明文区间，对第二个窗口区间与第一个明文区间计算分布同一性的计算方法为：

其中，表示第一个明文区间中所有字节的十进制数的均值，/>表示第二个窗口区间中所有字节的十进制数的均值，/>表示第一个明文区间中所有字节的十进制数的峰度，/>表示第二个窗口区间中所有字节的十进制数的峰度，/>表示求绝对值，/>表示以自然常数为底的指数函数，sigmoid为归一化函数；

预设合并阈值，若第二个窗口区间与第一个明文区间的分布同一性大于或等于合并阈值，对两个区间进行合并，将第二个窗口区间与第一个明文区间合并为一个新的区间，作为新的第一个明文区间；若分布同一性小于合并阈值，第一个明文区间不变，第二个窗口区间记为第二个明文区间；

根据窗口区间与相邻之前的区间的分布同一性，对窗口区间进行合并得到若干明文区间。

进一步的，所述对窗口区间进行合并得到若干明文区间，包括的具体方法为：

对于第三个窗口区间，其相邻之前的区间是一个明文区间，对第三个窗口区间与相邻之前的区间进行分布同一性的计算，分布同一性大于或等于合并阈值则进行合并，再次得到新的明文区间；小于合并阈值则将第三个窗口区间作为一个明文区间；

逐个窗口区间与相邻之前的区间进行分布同一性的计算，相邻之前的区间均为明文区间，对计算得到的分布同一性与合并阈值进行比较，根据比较结果进行明文区间的更新或再得到一个明文区间，最终对所有窗口区间根据分布同一性得到若干明文区间。

进一步的，所述得到每个明文区间的分布必要性，包括的具体方法为：

对除第一个明文区间之外其他每个明文区间分别获取与相邻前一个明文区间的分布同一性，第个明文区间的分布必要性的计算方法为：

其中，表示第/>个明文区间的分布系数，/>表示合并阈值，/>表示第/>个明文区间与相邻前一个明文区间的分布同一性，/>表示第/>个明文区间中字节的数量，/>表示第/>个明文区间中所有字节的十进制数的峰度，/>表示以自然常数为底的指数函数；

获取除第一个明文区间之外其他每个明文区间的分布系数，对所有分布系数进行线性归一化，得到的结果记为每个明文区间的分布必要性，第一个明文区间的分布必要性设置为1。

进一步的，所述根据分布必要性得到每个明文区间的最优加密分布参数，包括的具体方法为：

其中，表示第/>个明文区间的最优加密分布参数，/>表示第/>个明文区间的分布必要性。

进一步的，所述通过混沌序列进行加密得到密文数据，包括的具体方法为：

对于第个明文区间，其混沌序列的获取过程为：

其中，表示第/>个明文区间的最优加密分布参数，/>为混沌序列中第/>个元素的数值，/>为混沌序列中第/>个元素的数值，混沌序列的初值为/>，混沌序列的长度为第/>个明文区间中字节的数量，得到第/>个明文区间的混沌序列，记为初始混沌序列；

将初始混沌序列中每个元素都与255相乘并向下取整，得到的结果记为第一混沌序列，再对第一混沌序列中每个元素转换为8位二进制数，不足8位的在首位之前补0，得到的结果记为最终混沌序列；对第个明文区间中每个字节，都与最终混沌序列中相同次序值的元素进行异或运算，对第/>个明文区间完成混沌加密，加密结果记为第/>个明文区间的加密数据；

获取每个明文区间的最优加密分布参数，并获取最终混沌序列，得到每个明文区间的加密数据，将所有明文区间的加密数据，作为明文数据的密文数据。

进一步的，所述对密文数据进行熵编码压缩并存储，包括的具体方法为：

对每个加密数据通过构建熵编码字典进行压缩，得到每个加密数据的压缩后数据，将所有压缩后数据作为压缩后的密文数据并存储到大数据云服务的服务器中。

第二方面，本发明另一个实施例提供了一种大数据云服务的隐私保护系统，该系统包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序，以实现上述方法的步骤。

本发明的有益效果是：本发明通过对大数据云服务的相关数据进行自适应的混沌加密，并采用熵编码对密文数据进行压缩，实现对大数据云服务的隐私保护，同时降低云服务存储的负载需求。其中通过对大数据云服务的资源数据编码得到明文数据，根据明文数据中字节分布的相同或相似性进行明文区间的划分，保证相邻且分布范围相近或相同的窗口区间都划分到同一明文区间中；再对明文区间量化分布必要性，通过量化分布必要性来表征明文区间中字符的分布范围，同时避免连续的明文区间由于字符分布相近导致密文相似；通过分布必要性得到每个明文区间的最优加密分布参数及最终混沌序列，进行自适应的混沌加密，通过自适应的混沌加密来实现密文数据与明文数据差异较大的同时，保证密文数据不会对云服务存储造成较大负载需求，最终提高大数据云服务的安全存储能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例所提供的一种大数据云服务的隐私保护方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明一个实施例所提供的一种大数据云服务的隐私保护方法流程图，该方法包括以下步骤：

步骤S001、采集大数据云服务的资源数据，编码得到明文数据。

本实施例的目的是对大数据云服务的相关数据进行隐私保护，因此首先需要采集大数据云服务所产生的资源数据；资源数据包括云服务平台中用户的所有数据，包括企业资料、个人信息及金融数据，云服务平台中的数据包括文字、字母及字符多种类型，本实施例采用UTF-8编码对采集到的数据进行转制；对于采集到的任意一个数据，通过编码后的该数据由若干字节组成，每个字节为一个8位二进制数，对所有数据都转换为若干字节，所有字节按照数据的顺序组成的编码记为明文数据，同时对每个字节进行十进制转换，得到的数据记为每个字节的十进制数。

至此，采集大数据云服务的资源数据，并编码得到明文数据。

步骤S002、对明文数据通过窗口划分得到若干窗口区间；根据相邻窗口区间中字节的分布，获取每个窗口区间与相邻之前的区间的分布同一性，得到若干明文区间。

需要说明的是，logistics混沌加密算法是一种通过获取混沌加序列对明文数据进行异或运算达到加密目的的算法，为了提高混沌加密的密文的紊乱效果，通常选择分布最大的参数进行加密，使得加密后的数据的分布范围更大，相较于原数据的差异程度也提高；但明文数据的分布较大时，使用较大分布的混沌序列加密后，相较于原数据的差异程度提高并不明显，也不利于数据的压缩，因此为了满足明文数据经过加密后能更便于压缩，对于分布较大的明文数据使用较小分布的混沌序列加密，对于分布较小的明文数据使用较大分布的混沌序列加密，使得加密后的密文相较于明文数据的数值存在较大变化，即保证了加密效果，并且在保证加密效果的基础上使得密文的数值的重复率较高，以便于数据的压缩存储。

进一步需要说明的是，由于明文数据的整体分布不一定呈现相同的分布范围，因此通过滑动窗口得到若干窗口区间，将分布相同或相近的窗口区间作为一个明文区间，再根据明文区间中字节分布的相似性来量化每个明文区间的分布程度，进而为混沌加密提供基础；而明文区间的获取过程中，得到若干窗口区间后，则根据相邻窗口区间中字节的分布来量化分布同一性，根据分布同一性对窗口区间进行合并，进而得到明文数据中的若干明文区间。

具体的，预设窗口长度，本实施例窗口长度采用100个字节进行叙述，通过窗口在明文数据上进行滑动，步长设置为100个字节，滑动得到若干窗口区间，即窗口在明文数据上不重叠进行划分，每100个字节作为一个窗口区间，需要说明的是，若最后一个窗口区间中字节的数量小于100，则无需进行补全，直接作为最后一个窗口区间；首先将第一个窗口区间作为一个明文区间，记为第一个明文区间，对第二个窗口区间与第一个明文区间计算分布同一性的计算方法为：

其中，表示第一个明文区间中所有字节的十进制数的均值，/>表示第二个窗口区间中所有字节的十进制数的均值，/>表示第一个明文区间中所有字节的十进制数的峰度，/>表示第二个窗口区间中所有字节的十进制数的峰度，/>表示求绝对值，/>表示以自然常数为底的指数函数，sigmoid为归一化函数，本实施例采用/>模型来呈现反比例关系，/>为模型的输入，实施者可根据实际情况设置反比例函数及归一化函数；窗口区间与相邻之前的明文区间在其中字节的十进制数的均值差异越小，且明文区间及窗口区间中十进制数各自围绕均值分布，则主要分布特征越相近，分布同一性越大；同时峰度反映了区间内十进制数的聚集程度，峰度越大，聚集程度越大，主要分布范围越小，在均值差异较小的同时，分布范围越接近，分布同一性越大；预设合并阈值/>，本实施例合并阈值采用进行叙述，若第二个窗口区间与第一个明文区间的分布同一性大于或等于合并阈值，对两个区间进行合并，将第二个窗口区间与第一个明文区间合并为一个新的区间，作为新的第一个明文区间进行后续处理，即若分布同一性大于或等于合并阈值，则对该明文区间与相邻之后的窗口区间进行合并，更新得到新的明文区间；若分布同一性小于合并阈值，则第一个明文区间不变，第二个窗口区间记为第二个明文区间进行后续处理。

进一步的，对于第三个窗口区间，其相邻之前的区间此时都是一个明文区间（新的第一个明文区间或第二个明文区间），则对第三个窗口区间与相邻之前的区间按照上述方法进行分布同一性的计算，分布同一性大于或等于合并阈值则进行合并，再次得到新的明文区间；小于合并阈值则将第三个窗口区间作为一个明文区间进行后续处理；按照上述方法逐个窗口区间与相邻之前的区间进行分布同一性的计算，相邻之前的区间均为明文区间，对计算得到的分布同一性与合并阈值进行比较，根据比较结果进行明文区间的更新或再得到一个明文区间，最终对所有窗口区间根据分布同一性得到若干明文区间，此处得到的若干明文区间均为不再更新的明文区间，即最终得到的明文区间，不包括更新之前的明文区间。

至此，对明文数据通过滑动窗口划分得到若干窗口区间，根据窗口区间之间的分布同一性，合并得到若干明文区间，明文区间内多个窗口区间的字符分布相同或相近，为后续自适应的混沌加密提供基础。

步骤S003、根据每个明文区间中字节的分布，以及与相邻前一个明文区间的分布同一性，得到每个明文区间的分布必要性；根据分布必要性得到每个明文区间的最优加密分布参数，通过混沌序列进行加密得到密文数据。

需要说明的是，得到明文区间后，对于分布范围较大的明文区间，使用较小加密分布范围的加密分布参数，即可使得明文区间中的明文数据产生较大变化，提高了隐藏明文信息的效果，且由于所使用的加密分布范围较小，使得加密后的数据的重复率提高，有利于数据的压缩；对于分布范围较小的明文区间，使用较大加密分布范围的加密分布参数，以提高加密后明文数据的分布范围，提高加密效果能更好的隐藏敏感信息，并且自适应后的加密分布参数获得的所有明文数据的分布范围都类似，能更好的隐藏强特征，达到更好的加密效果。

进一步需要说明的是，对于明文区间的加密分布参数的获取，则需要根据分布必要性进行量化，对于分布必要性，除了考虑明文区间内字节的分布及字节的数量，还需要考虑相邻明文区间的分布同一性，避免连续的明文区间的加密分布参数相近，进而导致加密结果相似。

具体的，对每个明文区间，按照步骤S002中分布同一性的计算方法，获取每个明文区间与相邻前一个明文区间的分布同一性，需要说明的是，第一个明文区间由于不存在相邻前一个明文区间，不计算其与相邻前一个明文区间的分布同一性，则第个（/>）明文区间的分布必要性的计算方法为：

其中，表示第/>个明文区间的分布系数，/>表示合并阈值，/>表示第/>个明文区间与相邻前一个明文区间的分布同一性，/>表示第/>个明文区间中字节的数量，/>表示第/>个明文区间中所有字节的十进制数的峰度，/>表示以自然常数为底的指数函数，本实施例采用/>来呈现反比例关系，/>为模型的输入，实施者可根据实际情况设置反比例函数；明文区间中字节的十进制数的峰度越大，十进制数越聚集，分布范围越小，应选择越大分布范围的加密分布参数，则分布必要性越大；同时明文区间中字节的数量越多，使用较小分布范围的加密分布参数会导致密文中重复过多，因此需要增大加密分布参数，则分布必要性越大；同时根据分布同一性，通过分布同一性与合并阈值的比值，比值越大则越需要调整分布必要性，避免连续的明文区间得到的密文过于相似；按照上述方法获取除第一个明文区间之外其他每个明文区间的分布系数，对所有分布系数进行线性归一化，得到的结果记为每个明文区间的分布必要性，第一个明文区间的分布必要性设置为1。

进一步的，logistics混沌参数的取值在中，则需要根据分布必要性获取每个明文区间的最优加密分布参数，对于第/>个明文区间，该明文区间的最优加密分布参数的计算方法为：

其中，表示第/>个明文区间的分布必要性；则对于第/>个明文区间，其混沌序列的获取过程为：

其中，表示第/>个明文区间的最优加密分布参数，/>为混沌序列中第/>个元素的数值，/>为混沌序列中第/>个元素的数值，混沌序列的初值/>本实施例设置为0.58，混沌序列的长度为第/>个明文区间中字节的数量，则得到第/>个明文区间的混沌序列，记为初始混沌序列；由于明文区间中字节均为8位二进制数，其十进制数的范围为/>，因此将初始混沌序列中每个元素都与255相乘并向下取整，得到的结果记为第一混沌序列，第一混沌序列中每个元素均为十进制数，再对第一混沌序列中每个元素转换为8位二进制数，不足8位的在首位之前补0，得到的结果记为最终混沌序列，则对第/>个明文区间得到用于进行异或运算的最终混沌序列；对第/>个明文区间中每个字节，都与最终混沌序列中相同次序值的元素进行异或运算，则对第/>个明文区间完成混沌加密，加密结果记为第/>个明文区间的加密数据。

进一步的，按照上述方法获取每个明文区间的最优加密分布参数，并获取最终混沌序列，得到每个明文区间的加密数据，将所有明文区间的加密数据，作为明文数据的密文数据。

至此，通过明文区间自适应的混沌加密，对明文数据得到密文数据。

步骤S004、对密文数据进行熵编码压缩并存储。

需要说明的是，对明文数据通过自适应的混沌加密得到密文数据后，密文数据实现加密的同时，具有较高冗余程度，因此通过对密文数据再进行压缩，同时将密钥与压缩后的密文数据进行存储，则对大数据云服务的资源数据通过加密实现隐私保护的同时，通过压缩降低了云服务存储的负载需求。

具体的，密文数据包括每个明文区间的加密数据，则对每个加密数据通过构建熵编码字典进行压缩，本实施例采用霍夫曼编码进行压缩，得到每个加密数据的压缩后数据，将所有压缩后数据作为压缩后的密文数据并存储到大数据云服务的服务器中；同时对于密钥部分，将每个明文区间的最优加密分布参数及混沌加密的初值作为密钥进行存储。

至此，通过对大数据云服务的资源数据进行自适应的混沌加密，并对密文数据进行压缩存储，完成对大数据云服务相关数据的隐私保护，同时降低云服务存储的负载需求。

本发明另一个实施例提供了一种大数据云服务的隐私保护系统，该系统包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序时，执行以下操作：

采集大数据云服务的资源数据，编码得到明文数据；对明文数据通过窗口划分得到若干窗口区间；根据相邻窗口区间中字节的分布，获取每个窗口区间与相邻之前的区间的分布同一性，得到若干明文区间；根据每个明文区间中字节的分布，以及与相邻前一个明文区间的分布同一性，得到每个明文区间的分布必要性；根据分布必要性得到每个明文区间的最优加密分布参数，通过混沌序列进行加密得到密文数据；对密文数据进行熵编码压缩并存储。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据云服务的隐私保护方法，其特征在于，该方法包括以下步骤：

采集大数据云服务的资源数据，编码得到明文数据；

对密文数据进行熵编码压缩并存储。

2.根据权利要求1所述的一种大数据云服务的隐私保护方法，其特征在于，所述编码得到明文数据，包括的具体方法为：

3.根据权利要求1所述的一种大数据云服务的隐私保护方法，其特征在于，所述对明文数据通过窗口划分得到若干窗口区间，包括的具体方法为：

4.根据权利要求2所述的一种大数据云服务的隐私保护方法，其特征在于，所述获取每个窗口区间与相邻之前的区间的分布同一性，得到若干明文区间，包括的具体方法为：

5.根据权利要求4所述的一种大数据云服务的隐私保护方法，其特征在于，所述对窗口区间进行合并得到若干明文区间，包括的具体方法为：

6.根据权利要求4所述的一种大数据云服务的隐私保护方法，其特征在于，所述得到每个明文区间的分布必要性，包括的具体方法为：

7.根据权利要求1所述的一种大数据云服务的隐私保护方法，其特征在于，所述根据分布必要性得到每个明文区间的最优加密分布参数，包括的具体方法为：

8.根据权利要求2所述的一种大数据云服务的隐私保护方法，其特征在于，所述通过混沌序列进行加密得到密文数据，包括的具体方法为：

对于第个明文区间，其混沌序列的获取过程为：

其中，表示第/>个明文区间的最优加密分布参数，/>为混沌序列中第/>个元素的数值，/>为混沌序列中第/>个元素的数值，混沌序列的初值为/>，混沌序列的长度为第个明文区间中字节的数量，得到第/>个明文区间的混沌序列，记为初始混沌序列；

9.根据权利要求8所述的一种大数据云服务的隐私保护方法，其特征在于，所述对密文数据进行熵编码压缩并存储，包括的具体方法为：

10.一种大数据云服务的隐私保护系统，包括存储器和处理器，其特征在于，所述处理器执行所述存储器存储的计算机程序，以实现如权利要求1-9任一项所述一种大数据云服务的隐私保护方法的步骤。