CN117574436A

CN117574436A - 一种基于张量的大数据隐私安全防护方法

Info

Publication number: CN117574436A
Application number: CN202410053168.2A
Authority: CN
Inventors: 张宏俊; 李鹏; 王汝传; 徐鹤; 姜晓; 杨书鑫; 史德胜
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2024-01-15
Filing date: 2024-01-15
Publication date: 2024-02-20
Anticipated expiration: 2044-01-15
Also published as: CN117574436B

Abstract

本发明属于大数据技术领域，公开了一种基于张量的大数据隐私安全防护方法，包括S1、获取数据并建立个性化隐私和信息安全评价向量；S2、张量模型的构建与分解；S3、零填充与张量链格式优化；S4、特征组合与多聚类分析；S5、提取特定隐私项目的数据。本发明通过利用张量链分解避免了对原始张量的重复分解，从而提高了数据处理的效率，尤其处理大型数据集时，可以显著加快数据处理速度，减少计算资源的消耗。

Description

一种基于张量的大数据隐私安全防护方法

技术领域

本发明属于大数据技术领域，具体涉及一种基于张量的大数据隐私安全防护方法。

背景技术

在现代网络数字化的情况下，为避免个别黑客对生产数据库的恶意侵入，防止数据盗窃的发生，各企业对敏感的员工、客户和业务信息数据加以保护的需求正在不断上升；而在对这些隐私数据进行处理时，可能存在数据过于繁琐或者数据量过大等问题而导致的隐私数据处理不准确的问题，难以保障隐私数据处理的准确性和可靠性。现有技术文献“钱文君等.大数据计算环境下的隐私保护技术研究进展[J].计算机学报,2022,45(04):669-701.”提出了差分隐私、数据匿名等隐私保护技术；文献“肖雄等.联邦学习的隐私保护与安全防御研究综述[J].计算机学报,2023,46(05):1019-1044.”提出了联邦学习作为人工智能领域的新兴技术；这些在很大程度上给需要将数据融合处理的数据敏感型应用带来了希望，但其仍然存在一些潜在的隐私泄露隐患和数据安全问题。为进一步更好的解决的上述问题，文献“张荣皓. 高效的隐私保护的张量分解方法研究[D].华中科技大学,2019.”提出了隐私保护的高阶Bi-Lanczos算法和隐私保护的基于张量链的高效Tucker分解算法，但该方法的分解效率仍然较低且在处理高阶张量上有较大的局限性。

发明内容

为解决上述问题，本发明提供了一种基于张量的大数据隐私安全防护方法，该方法能够实现在张量链分解的形式下完整的张量多聚类过程，并可保持或改善聚类结果的精度、降低冗余和噪声能够有效的保护隐私数据不被泄露。

本发明所述的一种基于张量的大数据隐私安全防护方法，包括以下步骤：

S1、利用深度学习和模式识别技术从大规模用户交互数据中自动识别个人信息和行为模式的数据，并利用机器学习算法将提取的数据转换为个性化隐私向量和信息安全评价向量；

S2、利用所述个性化隐私向量和信息安全评价向量构建综合张量模型，采用张量链分解算法处理构建的综合张量模型，得到简化后的综合张量模型，使原始、复杂的多维数据更加简化、清晰、易于分析，同时提高数据处理的效率和质量；

S3、对分解后的张量模型进行零填充，基于零填充张量对张量链格式进行优化，调整张量链的维度和结构；

S4、将经过张量链分解的数据进行特征组合，采用多聚类分析技术将特征组合的结果数据分成多个子集；

S5、根据多聚类分析的结果，提取和归纳出所需的用户交互数据，对敏感数据进行加密处理。

进一步的，S2具体为：

S21、所述综合张量模型为，采用张量链分解算法将综合张量模型分解为N个低阶张量，其分解式为：

，

其中，，/>称为核心张量，称为张量的TT秩；/>表示张量的缩并操作，即张量的单模乘运算；

S22、对分解后的综合张量模型通过缩并操作识别需要合并的低阶张量维度，重新连接这些低阶张量进行重构，结合为新的张量。

进一步的，S3具体为：

S31、根据张量的原始维度和数据的重要性，通过自适应算法动态确定零填充的维度即k阶，在指定维度上添加零；

S32、采用基于深度学习的预测模型确定零填充张量的核，提取并计算每个k-1维度的张量核，以及k维度和k之后维度的核；

S33、对原始和新零填充张量的张量链分解结果,使用基于梯度的优化方法合并；

S34、在合成更新的张量链后对数据进行清洗和标准化，然后应用统计模型来识别数据的关键特征和模式，利用可视化工具展示数据的重要指标和趋势。

进一步的，S4具体为：

S41、建立与综合张量模型对应的权重张量及度量系数矩阵，对原始张量、权重张量和度量系数矩阵进行TT分解；

S42、在张量分解形势下，对若干个生成的对象张量进行张量多聚类，具体为：

S421、关联张量链的扩维，获取对象张量的关联张量，求出关联张量链所有TT核第二阶的最大维数，然后得到的最大维数进行补0操作，将每一阶都补位最大维数；

S422、将S41中分解的张量的元素与TT核一一对应，具体公式如下：

，

其中，代表TT核的张量，/>代表分解的张量，其中d为代表分解的张量数量且为常数；根据张量的纤的坐标中固定值选择对应TT核中的切片，将矩阵相乘即得到一个纤的和，通过非0纤的归一化和0纤归一化，得到辅助张量，将所有辅助张量相加，即为转移张量；

S423、通过基于深度学习的聚类方法实现张量多聚类的获取，分析每个聚类的特征。

进一步的，S5中，对数据提取具体为：设计自动化工具，使其具有高效的数据处理库和框架，支持多种数据格式和数据源；预定义标准的设定，根据隐私项目的特性，定义一系列可用于数据定位的标准和特征，在工具中实现参数配置调整；在自动化工具内设计数据查询和检索机制以及数据提取和处理；设计用户界面用于设定查询参数和查看进程；在完成张量多聚类后，使用数据分析来识别敏感信息，对识别出的敏感数据实施加密措施；采用动态多维k-匿名性方法，以去除或替换敏感数据中能够识别个人身份的信息；存储于加密的数据库系统中；定期监控数据处理和存储系统的安全状态，以及对数据访问和操作进行审计，确保符合相关的数据保护和隐私规定。

进一步的，所述动态多维k-匿名性方法具体为：

1）对数据集进行综合的多维度分析，考虑不同维度间的相关性和背景知识，提取数据集特征，评估个人识别风险；

2）根据所提取的数据集特征和业务隐私要求建立动态系统，使用机器学习算法预测潜在的隐私风险，根据实时数据流和持续的风险评估结果自动调整k值；

3）用基于机器学习的复杂泛化策略，自动微调范湖过程中的参数，使信息损失最小化；

4）使用自动化机器学习算法来识别数据的自然分段，根据数据分布的实时变化，自动调整数据分段的大小和边界，以保持最优的信息保留；

5）引入上下文感知机制，根据数据使用的场景和目的，采用上下文感知机制调整匿名化策略；

6）实施持续监控系统，评估匿名化数据的安全性和合规性。

本发明的有益效果为：本发明所述方法利用张量链分解避免了对原始张量的重复分解，特别是在处理大规模多维数据时，大大缩短了执行时间，减少计算资源的消耗，显著提高了数据处理的效率；利用多聚类技术和隐私数据的加密、匿名化处理为数据隐私提供了更强的保护，有效防止数据泄露和滥用，多维k-匿名性和增强型数据泛化策略提升了数据处理的精确度，确保在保护隐私的同时最大限度地保留数据的实用性；本发明通过整体的张量多聚类和高效的分布式计算，提供了一种优化的多聚类解决方案，根据数据的性质和分布的动态变化随时调整，可有效处理并表示高维数据的复杂性，使得数据分析更加精确和高效；本发明的方法在实际实现中更为简单直接，无需复杂的数据处理流程，易于在现有的大数据分析系统中部署和应用。

附图说明

图1为本发明所述方法的流程图；

图2为本发明张量分解示意图；

图3为本发明非0纤归一示意图；

图4为本发明0纤归一化过程示意图；

图5 为对象数60情况下节点数与加速比关系图；

图6为节点数16情况下不同对象数加速比图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

如图1所示，本发明所述的一种基于张量的大数据隐私安全防护方法，包括以下步骤：

S1、获取数据并建立个性化隐私和信息安全评价向量：

数据获取：通过合法途径获取用户隐私权限，采用深度学习和模式识别技术从大规模用户交互数据中自动识别个人信息和行为模式，能够更深入地理解用户数据的隐私层面；

向量化处理：利用机器学习算法将提取的数据转换为个性化隐私向量和信息安全评价向量，确保这些向量能够全面反映用户数据的细微差别和重要特征。

以某市共享自行车系统的数据集为例，其详细统计数据如表 1所示；

表1

；

其中，自行车数据包含 473620 条自行车共享记录，这些记录包括以下信息：开始时间、停止时间、起点站（站名、站名、站点纬度、经度）、终点站（站名、站名、站点纬度、经度）等；气象数据包含 449 条记录，每小时至少有一条记录，每条记录包含四个不同的特征：时间、天气、温度和风速；

首先对原始数据进行预处理，包括量化、提取和组合，为每个站生成混合记录，每项记录包括 4 个特征：交通模式，天气，温度和风速；一条记录对应于一个对象张量，每个对象张量的规模是 7×4×28×14。随机选择 No.72 站中的 40 条记录进行实验，通过任意组合 4 个特征空间，得到 15 个聚类结果并对其进行分析；

S2、张量模型的构建与分解：

构建综合张量模型：结合生成的个性化隐私向量和信息安全评价向量，创建一个综合张量模型，该模型不仅融合了多个数据维度，还保留了原始数据的关键特征，为更深入的数据分析奠定基础；

执行张量链分解：采用张量链分解算法处理构建的综合张量模型，通过分解，可有效地降低数据的复杂性，提取出核心特征，同时减少计算成本和提高处理效率；张量链分解的结果将用于后续的数据分析和隐私保护措施；

S3、零填充与张量链格式优化：

实施零填充策略：为了保持数据的一致性和完整性，对分解后的张量进行适当的零填充；

优化张量链格式：基于零填充张量，对张量链格式进行进一步优化，调整张量链的维度和结构，以便于更高效地进行数据分析和处理；

S4、特征组合与多聚类分析：

特征组合：将经过张量链分解的数据进行特征组合；

执行多聚类分析：利用特征组合的结果，采用多聚类分析技术将数据分成多个子集，可以更准确地识别和分析数据中的隐私和安全特征，为制定相应的保护措施提供依据；

S5、提取特定隐私项目的数据：

数据提取：根据多聚类分析的结果，精确地提取和归纳出与特定大数据隐私项目相关的用户交互数据，便于精确定位和提取与特定隐私问题相关的数据集；

隐私保护：对敏感数据的加密、匿名化处理和安全存储，以防止数据泄露和滥用。

S2具体为：

S21、将综合张量模型设定为，张量链分解将该张量分解为N个低阶张量，如图2所示；其分解式为：

，

其中，，/>，称为核心张量，称为张量的TT秩；

S22、分解后通过缩并操作识别哪些低阶张量维度将被合并，然后重新连接这些低阶张量进行重构，结合为新的张量；具体为：

利用相关性分析技术（如皮尔逊相关系数、斯皮尔曼秩相关系数）来确定不同张量变量之间的关联强度，对于相关性的维度，考虑将它们合并，因为它们可能在统计上传递了类似的信息；

利用特征选择算法（如基于信息增益、基尼不偏差）来评估每个维度的信息贡献度，分析维度的独立性，识别出贡献度较低或维度的维度，这些维度是合并的理想候选者；

应用主成分分析（PCA）或类似的降维技术来确定哪些维度可以最小化信息损失，计算在不同的桌面方案下的托盘，选择托盘最小的托盘；

评估合并不同维度组合对计算资源的需求，确保最终的张量结构可以在脆弱的计算时间内被有效处理；

利用贪婪算法或式启发算法（如遗传算法）自动寻找最佳的维度矩阵方案，同时考虑信息损失和计算效率；

在确定合并方案后，通过交叉验证或引入独立的测试集来评估合并后张量的性能，检查合并后的张量是否能够保留原始数据的关键统计特征和分布特征。

缩并操作包括一阶缩并、二阶缩并、张量与矩阵的缩并、多张量缩并和张量的自缩并中的一种或多种；

一阶缩并：当处理两个张量，比如一个三阶张量 A 和一个一阶张量（向量）B时，一阶缩并相当于在张量A的一个模式（维度）上应用向量B，这会减少张量A的一个维度，生成一个新的张量，其阶数比A少一；

二阶缩并：在两个三阶张量A和B的情况下，如果选择在两个模式上进行缩并，比如A的第一和第二模式与B的第一和第三模式相匹配，那么执行二阶缩并会生成一个新的二阶张量（矩阵）；

张量与矩阵的缩并：如果一个高阶张量需要与一个矩阵进行缩并操作，通常选择将矩阵视为二阶张量；在这种情况下，根据矩阵的行或列与张量的某个模式匹配，进行缩并操作；

多张量缩并：当涉及到多个张量时，缩并操作可以在多个张量之间的多个模式上执行；例如，三个张量A、B和C可以通过在不同模式上进行缩并操作来结合成一个新的张量；

张量的自缩并：在某些情况下，一个张量可以与自身进行缩并操作，这通常发生在需要将张量的不同模式进行内部结合的情况下。

S3具体为：

S31、零填充张量的生成：根据张量的原始维度和数据的重要性，通过自适应算法动态确定零填充的维度（k阶）；该算法评估每个维度的数据密度和关键性；所述自适应算法可以使用决策树或神经网络或其他统计方法来评估和识别关键维度，在确定要填充的维度后，采用自动化程序在指定维度上添加零；自动化程序可以用Python、R或其他数据处理语言编写，能够高效地处理大量数据，并且能够与数据分析的其他部分无缝集成；

S32、张量核计算：采用基于深度学习的预测模型来确定零填充张量的核；自动提取并计算每个k-1维度的张量核，以及k维度和k之后维度的核；

S33、张量链合成：在获得原始和新零填充张量的张量链分解结果后，使用基于梯度的优化方法来合并这两个张量；

S34张量链的分析：在合成更新的张量链后对数据进行清洗和标准化，然后应用统计模型来识别数据的关键特征和模式，利用可视化工具创建图表和仪表板，直观展示数据的重要指标和趋势；

应用统计模型可采用如线性/非线性回归模型、聚类分析或主成分分析（PCA）等任一种，以提取数据的关键特征和模式；可视化工具采用Tableau或Matplotlib。

S4具体为：

S41、建立与综合张量模型对应的权重张量及度量系数矩阵，对综合张量、权重张量和度量系数矩阵进行TT分解；

S421、关联张量链的扩维，对对象张量使用Rounding操作获取关联张量，求出关联张量链所有TT核第二阶的最大维数，然后得到的最大维数进行补0操作，将每一阶都补位最大维数；

S422、将S41中分解的张量的元素与TT核的一一对应关系，具体公式如下：

，

其中，代表TT核的张量，/>代表S41中分解的张量，其中d为代表分解的张量数量且为常数；

再根据张量的纤的坐标中固定值选择对应TT核中的切片，将矩阵相乘即得到一个纤的和，记作m；具体为：

S4221、非0纤的归一化，建立辅助张量，其中和非0的纤的元素均放置1/m，其余填0；然后对辅助张量作张量链分解，得到辅助张量链，最后将辅助张量链与扩维后关联张量作Hadamard积，如图3所示；

S4222、对纤中非扩维得到0填写为1/dim，其中dim表示扩维之前该阶的维度；建立0纤归一化辅助张量，对辅助张量作张量链分解，得到0纤归一化的张量链形式，转移张量链；其中，对S4221和S4222获取的辅助张量相加，即为转移张量；如图4所示；

S423、通过基于深度学习的聚类方法实现张量多聚类的获取，具体为：

聚类算法的选择，在考虑数据的特性，如数据的规模、分布和维度选择适用于处理高维数据的聚类算法，如K均值聚类、层次聚类或基于密度的聚类方法（如DBSCAN）；对数据进行预处理，根据数据的特性和需求调整算法的参数，如K均值聚类中的K值（聚类数量），或者DBSCAN中的邻域大小和最小点数，使用编程语言和相关的数据科学库来实现聚类算法，对数据进行分类；根据初步聚类结果进行调整和优化，聚类后，对结果进行后处理，分析每个聚类的特征，确保最终聚类结果的质量和实用性。

S5中，数据提取具体为：设计自动化工具，使其具有高效的数据处理库和框架，支持多种数据格式和数据源；预定义标准的设定，根据隐私项目的特性，定义一系列可用于数据定位的标准和特征，在工具中实现参数配置调整；在自动化工具内设计数据查询和检索机制以及数据提取和处理；设计用户界面用于设定查询参数和查看进程。

设计自动化工具的核心架构，使其能够处理大规模数据集并快速响应查询，这可能涉及使用高效的数据处理库和框架，如Apache Spark或Pandas。数据提取和处理具体为一旦相关数据被定位，工具将自动提取这些数据。

隐私保护具体为：在完成张量多聚类后，使用数据分析来识别敏感信息，对识别出的敏感数据实施加密措施；采用动态多维k-匿名性方法，以去除或替换敏感数据中能够识别个人身份的信息；存储于加密的数据库系统中；定期监控数据处理和存储系统的安全状态，以及对数据访问和操作进行审计，确保符合相关的数据保护和隐私法规。

所述动态多维k-匿名性方法具体为：

1）多维度评估：对数据集进行综合的多维度分析，考虑不同维度间的相关性和背景知识，以更准确地评估个人识别风险；

深度数据挖掘：运用高级数据挖掘技术，如关联规则学习和序列模式挖掘，来深入探索每个维度的内在关系和相互作用；

细化相关性分析：使用高级统计方法（例如条件概率、贝叶斯网络）和机器学习技术（例如特征重要性评估）来更精确地分析维度间的相关性；特别关注那些对个人隐私影响最大的维度；

2）动态k值设置：根据所提取数据集的特征和业务隐私要求建立动态系统，使用机器学习算法（如随机森林算法或深度神经网络算法）预测潜在的隐私风险，根据实时数据流和持续的风险评估结果自动调整k值；实时监控数据变化，根据新情况快速调整匿名化策略；

在动态多维k-匿名性方法中，"k值"指的是数据匿名化过程中的一个关键参数，它用于确定数据集中的每个记录至少应该在多少其他记录中不可区分，以保证个人隐私不被泄露；具体来说：

k值的基本含义：在k-匿名性模型中，k值表示每个准标识符（即可以间接识别个体的信息，如年龄、性别、邮编等）在数据集中至少出现的次数；例如，如果k=5，那么数据集中每个人的准标识符组合至少需要在其他四个记录中找到相同的组合；任何试图识别个体的尝试都无法准确判断个体的身份，因为至少还有四个其他人有着相同的特征组合；

k值的隐私保护作用：k值的设置是为了防止个人信息被重新识别，通过确保每个记录至少与其他k-1个记录在准标识符上不可区分，k-匿名性方法降低了通过这些信息单独或联合识别出个人身份的风险；高k值通常意味着更强的隐私保护，但同时可能导致数据的实用性降低，因为更高的k值要求更多的数据泛化或抑制；

k值的动态调整：在动态多维k-匿名性方法中，k值不是静态的，而是根据数据的特性和隐私要求动态调整；例如，对于包含更敏感信息的数据集，可能需要更高的k值来提供更强的隐私保护；

3）增强型数据泛化：使用基于机器学习的复杂泛化策略，自动微调范湖过程中的参数，以达到信息损失最小化的目标，提高数据泛化过程的精确度和数据的实用性；

复杂泛化策略设计：结合不同泛化技术（如数据蒸馏、模糊逻辑）来处理不同类型的数据；例如，对于连续数值使用模糊逻辑，对于分类数据使用数据蒸馏；

泛化过程的微调：利用机器学习算法（如遗传算法）自动微调泛化过程中的参数，以达到信息损失最小化的目标；

4）自适应数据分段：使用自动化机器学习算法（如聚类分析）来识别数据的自然分段，这些分段基于数据的内在结构和分布特性，实现自适应数据分段机制；实时监控数据分布的变化，自动调整数据分段的大小和边界，自动调整分段策略以保持最优的信息保留，减少信息损失；

5）上下文感知的隐私保护增强：引入上下文感知机制，根据数据使用的场景和目的调整匿名化策略；

场景分析的深化：利用自然语言处理技术进行深入的文本分析，以更好地理解数据的使用场景和背景；

智能策略调整：开发一个智能系统，它可以根据场景分析的结果自动调整匿名化策略，确保隐私保护与数据实用性的平衡；

6）实施持续监控系统，评估匿名化数据的安全性和合规性；

实时安全审计：部署高级安全审计系统，能够实时识别和响应数据处理中的潜在风险和威胁；

自动化合规性跟踪：引入自动化合规性管理工具，持续跟踪数据保护法规的更新，确保匿名化策略始终遵守最新的法律要求。

图 5为 60 个对象的加速比变化情况，随着节点数从1个增加到16个，自行车数据集的加速比从1到7，几乎呈线性增加；这样的结果表明，当在云端使用更多的节点时，基于张量链分解的张量多聚类分布式并行计算方法在大数据环境下具有较高的可扩展性。图6为使用 16 个节点的加速比变化情况，针对对象数 20、40、60、80 到 100，加速比保持在7左右，说明算法随数据量的增长加速比的值较稳定，设计的分布式并行策略很好的保持了节点的负载均衡。

由此可知，本发明所述方法在大数据隐私安全防护领域展示了显著的技术进步，不仅提高了数据处理的效率和精确度，也增强了隐私保护的能力。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于张量的大数据隐私安全防护方法，其特征在于，包括以下步骤：

S1、从大规模用户交互数据中自动识别个人信息和行为模式的数据，并将提取的数据转换为个性化隐私向量和信息安全评价向量；

S2、利用所述个性化隐私向量和信息安全评价向量构建综合张量模型，采用张量链分解算法处理构建的综合张量模型，得到简化后的张量模型；

S3、对分解后的张量模型进行零填充，基于零填充张量，对张量链格式进行优化，调整张量链的维度和结构；

S4、将经过张量链分解的数据进行特征组合，采用多聚类分析技术将特征组合的结果数据分成若干个子集；

2.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S2具体为：

，

其中，，/>称为核心张量，/>称为张量的TT秩；/>表示张量的缩并操作，即张量的单模乘运算；

3.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S3具体为：

S33、对综合张量模型和新零填充张量的张量链分解结果,使用基于梯度的优化方法合并；

4.根据权利要求1所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S4具体为：

S41、建立与综合张量模型对应的权重张量及度量系数矩阵，对综合张量模型、权重张量和度量系数矩阵进行TT分解；

S421、关联张量链的扩维，获取对象张量的关联张量，求出关联张量链所有TT核第二阶的最大维数，得到的最大维数进行补0操作，将每一阶都补位最大维数；

，

其中，代表TT核的张量，/>代表分解的张量，其中d为代表分解的张量数量且为常数；

根据张量的纤的坐标中固定值选择对应TT核中的切片，将矩阵相乘即得到一个纤的和，通过非0纤的归一化和0纤归一化，得到辅助张量，将所有辅助张量相加，即为转移张量；

5.根据权利要求4所述的一种基于张量的大数据隐私安全防护方法，其特征在于，S5中，在完成张量多聚类后，使用数据分析识别敏感信息，对识别出的敏感数据进行加密；采用动态多维k-匿名性方法，以去除或替换敏感数据中能够识别个人身份的信息，存储于加密的数据库系统中；定期监控数据处理和存储系统的安全状态，以及对数据访问和操作进行审计，确保符合相关的数据保护和隐私规定。

6.根据权利要求5所述的一种基于张量的大数据隐私安全防护方法，其特征在于，所述动态多维k-匿名性方法具体为：

6）实施持续监控系统，评估匿名化数据的安全性和合规性。