CN117951748A

CN117951748A - 隐私数据的数据存储架构构建方法、装置、设备及介质

Info

Publication number: CN117951748A
Application number: CN202410353517.2A
Authority: CN
Inventors: 冯晓庆
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117951748B

Abstract

本申请公开了一种隐私数据的数据存储架构构建方法、装置、设备及介质，涉及隐私计算技术领域，包括：分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度，并在相似度满足预设阈值条件时将目标数据确定为隐私数据；对隐私数据进行隐私级别判定，并利用与判定结果对应的脱敏方法对隐私数据进行脱敏处理得到处理后数据；按照树形目录结构将处理后数据存储至与判定结果对应的目标数据表，基于数据同步工具和预设数据导入引擎将目标数据表导入至目标数据存储架构。本申请根据隐私级别针对性的对数据进行脱敏并采用不同的数据表存储对应的脱敏数据，再进一步充入到目标数据存储架构，形成外部可直接使用的隐私数据存储架构。

Description

隐私数据的数据存储架构构建方法、装置、设备及介质

技术领域

本发明涉及隐私计算技术领域，特别涉及一种隐私数据的数据存储架构构建方法、装置、设备及介质。

背景技术

数据化时代代表着更多数据的产生，也代表着更多不同类型的数据的产生，数据间联通起来会为智能社会提供更多可供训练的大模型数据。而数据流通过程中可能会产生涉及个人、集体敏感信息的泄漏问题，因此而数据要想真正成为既可以自由流通，又能具备安全性的战略资源，就绕不开隐私数据这一环节。隐私计算可以让数据在流通过程实现“可用不可见”，在保护数据隐私的前提下，解决数据流通、应用等数据服务问题，成为解决数据利用和安全性这对矛盾的重要途径。

相关技术方案是将需要分析的数据都集中到数据仓库中，而大模型的兴起对数据的需求更加灵活，如果从数据仓库中提取会有一些问题。目前在数据仓库的方案中底层应用较多为HDFS（HadoopdistributedFileSystem，Hadoop下的分布式文件系统，Hadoop是一个开源软件框架）体系，但多个仓库之间是隔离不通的，数据不能共享互通且不注重隐私保护。而在数据化的社会应用中，信息之间不是独立的，需要能有共同转化的地方，也需要对数据隐私进行保护后再进一步对应到不同的应用。

综上，如何对隐私数据进行保护，并实现不同类型数据的共享互通，以构建能为不同应用提供脱敏数据的数据存储架构是目前有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种隐私数据的数据存储架构构建方法、装置、设备及介质，能够对隐私数据进行保护，并实现不同类型数据的共享互通，以构建能为不同应用提供脱敏数据的数据池。其具体方案如下：

第一方面，本申请公开了一种隐私数据的数据存储架构构建方法，包括：

分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，并在所述目标相似度值满足预设阈值条件时将所述目标数据确定为隐私数据；

对所述隐私数据进行隐私级别判定以得到判定结果，并确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据；

按照树形目录结构将所述处理后数据存储至与所述判定结果对应的目标数据表，并基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构。

可选的，所述分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，包括：

确定基于敏感类别属性值、敏感关键词权重和候选关键词得分构建的相似度计算表达式；其中，所述敏感类别属性值为根据所述目标数据的数据表属性将所述目标数据划分为目标类敏感数据或不能划分为目标类敏感数据的第一百分比；所述敏感关键词权重为所述目标数据与所述目标类敏感数据对应的关键字匹配成功或失败的第二百分比；所述候选关键词得分为利用预设关键字提取算法对所述目标数据进行处理得到的得分；

利用所述相似度计算表达式分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值。

可选的，所述相似度计算表达式为：

D_Similarity=T×W_term×K；

其中，D_Similarity为所述目标相似度值，T为所述敏感类别属性值，W_term为所述敏感关键词权重，K为所述候选关键词得分。

可选的，所述目标数据为结构化数据；

相应的，所述分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，包括：

对所述结构化数据的字段类型和字段名称进行文本分析得到第一分析数据，并计算所述第一分析数据与目标类敏感数据之间的相似度以得到目标相似度值。

可选的，所述目标数据为包括半结构化数据或非结构化数据；

将所述半结构化数据或所述非结构化数据转化为结构化数据；

对所述结构化数据的字段类型和字段名称进行文本分析得到第二分析数据，并计算所述第二分析数据与目标类敏感数据之间的相似度以得到目标相似度值。

可选的，所述目标类敏感数据为预设敏感数据范围内的至少一类敏感数据，所述预设敏感数据范围包括预先经过敏感数据类别划分后得到的多类敏感数据。

可选的，所述对所述隐私数据进行隐私级别判定以得到判定结果，包括：

根据所述隐私数据的敏感数据类别对所述隐私数据进行隐私级别判定以得到判定结果；其中，不同敏感数据类别对应不同的隐私级别。

可选的，所述确定与所述判定结果对应的脱敏方法，包括：

获取预先设置的脱敏方法集合；所述脱敏方法集合中记录有脱敏方法和隐私级别之间的对应关系，所述脱敏方法集合中包括字段替换方法、哈希算法和数据匿名化方法中的至少一种脱敏方法；

基于所述对应关系从所述脱敏方法集合中确定出与所述判定结果对应的脱敏方法。

可选的，所述隐私数据的数据存储架构构建方法，还包括：

若当前存在待写入的新的隐私数据，则记录当前时间戳，以便按照时间戳先后顺序依次对所述新的隐私数据进行隐私级别判定，得到新的判定结果；

选取与所述新的判定结果对应的脱敏方法对所述新的隐私数据进行脱敏处理，并将处理后的隐私数据存储至与所述新的判定结果对应的目标数据表。

可选的，所述目标数据表的每一行为所述处理后数据；所述目标数据表的每一列为所述处理后数据的属性信息，所述属性信息包括所述处理后数据的敏感信息类别、隐私级别、创建时间、存储信息、源文件信息。

可选的，所述基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构的过程中，还包括：

在所述目标数据存储架构中创建元数据；所述元数据的信息包括所述目标数据表的字段信息、文件组织形式、统计信息、索引信息和读写接口。

第二方面，本申请公开了一种隐私数据的数据存储架构构建装置，包括：

隐私数据确定模块，用于分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，并在所述目标相似度值满足预设阈值条件时将所述目标数据确定为隐私数据；

数据脱敏模块，用于对所述隐私数据进行隐私级别判定以得到判定结果，并确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据；

数据导入模块，用于按照树形目录结构将所述处理后数据存储至与所述判定结果对应的目标数据表，并基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的隐私数据的数据存储架构构建方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的隐私数据的数据存储架构构建方法的步骤。

可见，本申请通过分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，并在所述目标相似度值满足预设阈值条件时将所述目标数据确定为隐私数据；对所述隐私数据进行隐私级别判定以得到判定结果，并确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据；按照树形目录结构将所述处理后数据存储至与所述判定结果对应的目标数据表，并基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构。

本申请的有益效果：本申请首先需要从关系数据库的所有数据中确定出哪些为隐私数据，具体是分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，当目标相似度值满足预设阈值条件时则将目标数据确定为隐私数据。进一步的，对这些隐私数据进行隐私级别判定，从而得到对应的判定结果，然后再选取与判定结果对应的脱敏方法对隐私数据进行脱敏处理，得到处理后数据；也即，对于不同隐私级别的数据，本申请针对性的选取不同的脱敏方法进行处理，实现对隐私数据的保护。并且，本申请会按照树形目录结构的形式将处理后数据存储至与判定结果对应的目标数据表，实现不同隐私级别数据的分区存储，最后基于数据同步工具和预设数据导入引擎将所有的目标数据表导入至目标数据存储架构，以在目标数据存储架构中实现不同类型数据的共享互通，从而形成外部可直接使用的隐私数据存储架构。通过上述方法构建的隐私数据存储架构能直接提供给大模型中要应用的数据，提高数据的写入效率，读出效率，并保证了数据安全，也保证了数据的可重复使用。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种隐私数据的数据存储架构构建方法流程图；

图2为本申请公开的一种构建目标数据存储架构的流程图；

图3为本申请公开的一种数据导入的流程图；

图4为本申请公开的一种具体的隐私数据的数据存储架构构建方法流程图；

图5为本申请公开的一种隐私数据处理模块的处理流程图；

图6为本申请公开的一种隐私数据的数据存储架构构建装置结构示意图；

图7为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前在数据仓库的方案中底层应用较多为HDFS体系，但多个仓库之间是隔离不通的，数据不能共享互通且不注重隐私保护。而在数据化的社会应用中，信息之间不是独立的，需要能有共同转化的地方，也需要对数据隐私进行保护后再进一步对应到不同的应用。为此，本申请实施例公开了一种隐私数据的数据存储架构构建方法、装置、设备及介质，能够对隐私数据进行保护，并实现不同类型数据的共享互通，以构建能为不同应用提供脱敏数据的数据池。

参见图1和图2所示，本申请实施例公开了一种隐私数据的数据存储架构构建方法，该方法包括：

步骤S11：分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，并在所述目标相似度值满足预设阈值条件时将所述目标数据确定为隐私数据。

本实施例中，首先需要从关系数据库的所有数据中确定出哪些为隐私数据，也即主要是判断数据中是否包含敏感信息，将这些包含敏感信息的数据认为是隐私数据。本实施具体是分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，当目标相似度值满足预设阈值条件时则将目标数据确定为隐私数据。

在具体实施方式中，上述分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，包括：确定基于敏感类别属性值、敏感关键词权重和候选关键词得分构建的相似度计算表达式；其中，所述敏感类别属性值为根据所述目标数据的数据表属性将所述目标数据划分为目标类敏感数据或不能划分为目标类敏感数据的第一百分比；所述敏感关键词权重为所述目标数据与所述目标类敏感数据对应的关键字匹配成功或失败的第二百分比；所述候选关键词得分为利用预设关键字提取算法对所述目标数据进行处理得到的得分；利用所述相似度计算表达式分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值。

也即，本实施例中的预设相似度计算方法即为利用相似度计算表达式计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，相似度计算表达式具体基于敏感类别属性值、敏感关键词权重和候选关键词得分构建。相似度计算表达式为：

D_Similarity=T×W_term×K；

其中，D_Similarity为计算得到的目标相似度值，T为敏感类别属性值，W_term为敏感关键词权重，K为候选关键词得分。

通过本申请所公开的相似度计算表达式，能够准确从关系数据库中筛选出包含敏感信息的隐私数据，从而在大量数据下，实现对隐私数据的准确分辨。

敏感类别属性值为根据目标数据的数据表属性将目标数据划分为目标类敏感数据或不能划分为目标类敏感数据的第一百分比。可以理解的是，关系数据库中数据具体以表形式进行存储，且为了方便管理和查询，同一类型的数据通常会记录在同一张数据表上，数据表上有特定的属性值用于表示该表的数据类型。假设属性值以不同字母表示各个数据类型，且假设目标类敏感数据包括为A、B、C三类，那么若数据表上的属性值为A，则说明可以将该张表上的数据划分为A类敏感数据，若数据表上的属性值为F，则说明不可以将该张表上的不能划分为A类敏感数据。当根据目标数据的数据表属性可以将目标数据划分为目标类敏感数据时，对应的第一百分比赋予100%的值，即此时的敏感类别属性值为100%，当目标数据不能划分为目标类敏感数据时，对应的第一百分比则低于100%，即此时的敏感类别属性值低于100%。需要指出的是，由于关系数据库包括结构化数据、半结构化数据和非结构化数据，因此当结构化数据不能划分为目标类敏感数据时，具体可以赋予敏感类别属性值的数值为98%，当半结构化数据和非结构化数据，具体可以赋予敏感类别属性值的数值为95%。

敏感关键词权重为目标数据与目标类敏感数据对应的关键字匹配成功或失败的第二百分比。可以理解的是，本申请关于目标类敏感数据允许设置有对应的关键字，例如对于个人信息，姓名、电话号码、身份证号码均属于隐私数据，那么关键字则可以设置为“姓名”、“电话”和“身份证”等等。若目标数据中包括以上关键字中的至少一种，则说明目标数据与目标类敏感数据对应的关键字匹配成功，则敏感关键词权重可以赋值为100%，若匹配失败，则敏感关键词权重可以赋值为95%。

候选关键词得分为利用预设关键字提取算法对目标数据进行处理得到的得分，其中，预设关键字提取算法具体为YAKE(Yet Another Keyword Extractor，一种无监督的关键词提取算法)算法，YAKE算法具体可以采用大写词、词位置、全文词频、上下文关系、句间词频等5个指标，计算候选关键词得分。

在一种具体实施方式中，所述目标数据为结构化数据；相应的，所述分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，包括：对所述结构化数据的字段类型和字段名称进行文本分析得到第一分析数据，并计算所述第一分析数据与目标类敏感数据之间的相似度以得到目标相似度值。需要指出的是，结构化数据主要指的是关系数据库中的行和列，在计算结构化数据与与目标类敏感数据之间的相似度之前，需要对结构化数据的字段类型和字段名称进行文本分析得到第一分析数据，再计算第一分析数据与目标类敏感数据之间的相似度以得到目标相似度值。进一步的，对于结构化数据，若计算得到的目标相似度值大于95%，则认为是隐私数据。

在另一种具体实施方式中，所述目标数据为包括半结构化数据或非结构化数据；相应的，所述分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，包括：将所述半结构化数据或所述非结构化数据转化为结构化数据；对所述结构化数据的字段类型和字段名称进行文本分析得到第二分析数据，并计算所述第二分析数据与目标类敏感数据之间的相似度以得到目标相似度值。需要指出的是，半结构化数据主要指的是CSV（Comma-Separated Values，逗号分隔值）、日志、XML（Extensible MarkupLanguage，可扩展标记语言）、JSON（JavaScript Object Notation，一种轻量级的数据交换格式）等。在计算半结构化数据或非结构化数据与目标类敏感数据之间的相似度之前，需要将半结构化数据或非结构化数据转化为结构化数据，再利用结构化数据的处理方式计算相应的目标相似度值。进一步的，对于半结构化数据，若计算得到的目标相似度值大于80%，则认为是隐私数据；对于非结构化数据，若计算得到的目标相似度值大于70%，则认为是隐私数据。

可见，对于目标数据为结构化数据、半结构化数据或非结构化数据而言，其对应的预设阈值条件是不一样的，且阈值的大小按照结构化数据、半结构化数据、非结构化数据的顺序依次降低。需要指出的是，上述提及的具体数值只是本实施例中的一种示例，本申请对此不作限制。

步骤S12：对所述隐私数据进行隐私级别判定以得到判定结果，并确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据。

本实施例中，由图2中的隐私数据处理模块对隐私数据进行隐私级别判定，从而得到对应的判定结果，然后再选取与判定结果对应的脱敏方法对隐私数据进行脱敏处理，得到处理后数据。也即，针对不同隐私级别的数据，本申请针对性的选取不同的脱敏方法进行处理，实现对隐私数据的保护。需要指出的是，在大数据集群环境下，隐私数据处理模块兼容了各个大数据集群如hadoop（一种分布式系统架构），spark（一种计算引擎）等的API（Application Programming Interface，应用程序编程接口）接口。

步骤S13：按照树形目录结构将所述处理后数据存储至与所述判定结果对应的目标数据表，并基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构。

本实施例中，将处理后数据以树形目录结构的形式进行表存储，且处理后数据会存储至与判定结果对应的目标数据表，实现不同隐私级别数据的分区存储，最后基于数据同步工具和预设数据导入引擎将所有的目标数据表导入至目标数据存储架构，以在目标数据存储架构中实现不同类型数据的共享互通，从而形成外部可直接使用的隐私数据存储架构。通过本申请构建的目标数据存储架构中可存放多类型数据，可用于报告、可视化、高级分析和机器学习等任务。

具体的，上述目标数据存储架构可以为数据湖，数据湖是一种存储系统,底层包括不同的文件格式及湖表格式，数据湖可以存储海量的任意类型的数据，包括结构化、半结构化和非结构化数据。其中，如图3所示，数据同步工具可以采用DataX（一种开源的离线数据同步工具），以将处理后数据同步到数据湖，预设数据导入引擎具体采用Iceberg（一种用于大型数据分析场景的开放表格式），可以在数据湖中对处理后数据进行元数据创建和表的管理。本申请在数据湖中通过将隐私数据由元数据形式管理，维护，增强了与上层应用间的便利性，数据能够轻松调度和使用来实现对业务的指导。此外，数据湖中的隐私数据表与入湖前的隐私数据表，隔离开来，上层应用不直接调取入湖前的隐私数据，从而为最原始的数据多一层级的保护。

此外，如图2所示，对于关系数据库中的其他非隐私数据，可以直接将这些数据导入至目标数据存储架构，无需通过隐私数据处理模块进行处理。

具体的，上述基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构的过程中，还包括：在所述目标数据存储架构中创建元数据；所述元数据的信息包括所述目标数据表的字段信息、文件组织形式、统计信息、索引信息和读写接口。也即，数据导入操作会进行元数据的创建，元数据信息有目标数据表的字段信息、文件组织形式、统计信息、索引信息和读写接口。

此外，上述方法还包括：若当前存在待写入的新的隐私数据，则记录当前时间戳，以便按照时间戳先后顺序依次对所述新的隐私数据进行隐私级别判定，得到新的判定结果；选取与所述新的判定结果对应的脱敏方法对所述新的隐私数据进行脱敏处理，并将处理后的隐私数据存储至与所述新的判定结果对应的目标数据表。也即，当在数据化场景中有新的数据需要写入目标数据存储结构中时，就将每次的写入都作为一个事务，并且在事务日志中记录了写入的序列顺序，即记录了当前时间戳，以便按照时间戳先后顺序依次对新的隐私数据进行隐私级别判定以及相应的脱敏处理，再将新的隐私数据写入到对应的目标数据表中，从而实现数据入湖的有序操作。

进一步的，目标数据存储架构可通过标准协议的方式输出，将其中的数据映射为表，以便上层应用对表进行分析使用。如图2所示，上层应用具体可以包括推荐类应用、统计类应用、模型学习类应用以及其他类应用等等。

本申请的有益效果：本申请首先需要从关系数据库的所有数据中确定出哪些为隐私数据，具体是分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，当目标相似度值满足预设阈值条件时则将目标数据确定为隐私数据。进一步的，对这些隐私数据进行隐私级别判定，从而得到对应的判定结果，然后再选取与判定结果对应的脱敏方法对隐私数据进行脱敏处理，得到处理后数据；也即，针对不同隐私级别的数据，本申请针对性的选取不同的脱敏方法进行处理，实现对隐私数据的保护。并且，本申请会按照树形目录结构的形式将处理后数据存储至与判定结果对应的目标数据表，实现不同隐私级别数据的分区存储，最后基于数据同步工具和预设数据导入引擎将所有的目标数据表导入至目标数据存储架构，以在目标数据存储架构中实现不同类型数据的共享互通，从而形成外部可直接使用的隐私数据存储架构。通过上述方法构建的隐私数据存储架构能直接提供给大模型中要应用的数据，提高数据的写入效率，读出效率，并保证了数据安全，也保证了数据的可重复使用。

参见图4所示，本申请实施例公开了一种具体的隐私数据的数据存储架构构建方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体包括：

步骤S21：分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，并在所述目标相似度值满足预设阈值条件时将所述目标数据确定为隐私数据。

本实施例中，所述目标类敏感数据为预设敏感数据范围内的至少一类敏感数据，所述预设敏感数据范围包括预先经过敏感数据类别划分后得到的多类敏感数据。也即，本实施例中预先对数据进行了敏感数据类别划分以得到多类敏感数据，并以此形成预设敏感数据范围，目标类敏感数据则为预设敏感数据范围内的至少一类敏感数据。

具体的，预设敏感数据范围包括用于表征个人身份信息的第一类敏感数据，用于表征除个人身份信息以外的其他个人信息的第二类敏感数据，用于表征企业或组织的专有且保密的信息的第三类敏感数据。也即，本实施例中的隐私数据分为三个类型，一是用于表征个人身份信息（PII，Personally Identifiable Information）的第一类敏感数据，如姓名、电话号码、身份证号码、银行账号信息；二是用于表征除个人身份信息以外的其他个人信息的第二类敏感数据，这包括个人的兴趣爱好、性格、活动和信仰、个人的行程信息、健康信息等；三是用于表征企业或组织的专有且保密的信息的第三类敏感数据，主要指的是与商业性质有关或与合同有关的数据。

步骤S22：根据所述隐私数据的敏感数据类别对所述隐私数据进行隐私级别判定以得到判定结果；其中，不同敏感数据类别对应不同的隐私级别。

本实施例中，隐私级别的判定本质上与隐私数据的类别相关联，不同敏感数据类别对应不同的隐私级别，因此根据隐私数据的敏感数据类别即可完成对隐私数据的隐私级别判定并得到判定结果。

在具体实施方式中，若所述隐私数据为第一类敏感数据，则对隐私数据进行隐私级别判定后的判定结果为第一隐私级别；若隐私数据为第二类敏感数据，则对隐私数据进行隐私级别判定后的判定结果为第二隐私级别；若隐私数据为第三类敏感数据，则对隐私数据进行隐私级别判定后的判定结果为第三隐私级别。

步骤S23：确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据。

在具体实施方式中，上述确定与所述判定结果对应的脱敏方法，包括：获取预先设置的脱敏方法集合；所述脱敏方法集合中记录有脱敏方法和隐私级别之间的对应关系，所述脱敏方法集合中包括字段替换方法、哈希算法和数据匿名化方法中的至少一种脱敏方法；基于所述对应关系从所述脱敏方法集合中确定出与所述判定结果对应的脱敏方法。也即，本实施例预先设置了脱敏方法集合，脱敏方法集合中包括字段替换方法、哈希算法和数据匿名化方法中的至少一种脱敏方法，且集合里面记录了脱敏方法和隐私级别之间的对应关系，因此基于对应关系则可从脱敏方法集合中确定出与判定结果对应的脱敏方法。

具体如图5所示，不同隐私级别对应的脱敏方法是不一致的，因此选取与判定结果对应的脱敏方法对隐私数据进行脱敏处理，得到处理后数据。也即，对于不同隐私级别的数据，本申请针对性的选取不同的脱敏方法进行处理，实现对隐私数据的保护。

在第一种具体实施方式中，所述确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据，包括：若所述判定结果用于表征所述隐私数据为所述第一隐私级别，则利用字段替换方法对所述隐私数据进行脱敏处理，得到处理后数据。也即，若隐私数据为第一隐私级别，则利用字段替换方法对隐私数据进行脱敏处理，从而得到符合第一隐私级别的脱敏数据。

在第二种具体实施方式中，所述确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据，包括：若所述判定结果用于表征所述隐私数据为所述第二隐私级别，则利用哈希算法对所述隐私数据进行脱敏处理，得到处理后数据。也即，若隐私数据为第二隐私级别，则利用哈希算法对隐私数据进行脱敏处理，从而得到符合第二隐私级别的脱敏数据。

在第三种具体实施方式中，所述确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据，包括：若所述判定结果用于表征所述隐私数据为所述第三隐私级别，则利用数据匿名化方法对所述隐私数据进行脱敏处理，得到处理后数据。也即，若隐私数据为第三隐私级别，则利用数据匿名化方法或乱码对隐私数据进行脱敏处理，从而得到符合第三隐私级别的脱敏数据。

步骤S24：按照树形目录结构将所述处理后数据存储至与所述判定结果对应的目标数据表，并基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构。

本实施例中，目标数据表的每一行为处理后数据，具体可以是处理后数据的Schema信息，Schema是指数据库或者其他数据存储系统的结构定义，用于描述数据的组织方式，数据类型、关系、约束等信息，是数据的元数据；目标数据表的每一列为处理后数据的属性信息，属性信息包括所述处理后数据的敏感信息类别、隐私级别、创建时间、存储信息、源文件信息。

其中，关于上述步骤S21和S24更加具体的处理过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本申请中的目标类敏感数据具体可以包括三种类别的数据，且隐私级别的判定与隐私数据的类型相关联，若隐私数据为第一类敏感数据，则其隐私级别为第一隐私级别，若隐私数据为第二类敏感数据，则其隐私级别为第二隐私级别，若隐私数据为第三类敏感数据，则其隐私级别为第三隐私级别。此外，不同隐私级别对应的脱敏方法是不一致的，因此本申请通过选取与判定结果对应的脱敏方法对隐私数据进行脱敏处理，从而得到处理后数据，实现对隐私数据的保护。并且本申请在按照规定的表格式对处理后数据形成表格后统一导入，再在目标存储结构中形成新的表格的方式，能够对数据进行双层保护。通过上述方案能够快速构建隐私数据存储架构，从而为上层应用提供所需要的数据。

参见图6所示，本申请实施例公开了一种隐私数据的数据存储架构构建装置，该装置包括：

隐私数据确定模块11，用于分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，并在所述目标相似度值满足预设阈值条件时将所述目标数据确定为隐私数据；

数据脱敏模块12，用于对所述隐私数据进行隐私级别判定以得到判定结果，并确定与所述判定结果对应的脱敏方法，以利用所述脱敏方法对所述隐私数据进行脱敏处理，得到处理后数据；

数据导入模块13，用于按照树形目录结构将所述处理后数据存储至与所述判定结果对应的目标数据表，并基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构。

在一些具体实施例中，所述隐私数据确定模块11，具体包括：

表达式确定单元，用于确定基于敏感类别属性值、敏感关键词权重和候选关键词得分构建的相似度计算表达式；其中，所述敏感类别属性值为根据所述目标数据的数据表属性将所述目标数据划分为目标类敏感数据或不能划分为目标类敏感数据的第一百分比；所述敏感关键词权重为所述目标数据与所述目标类敏感数据对应的关键字匹配成功或失败的第二百分比；所述候选关键词得分为利用预设关键字提取算法对所述目标数据进行处理得到的候选关键词得分；

相似度计算单元，用于利用所述相似度计算表达式分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值。

在一些具体实施例中，所述相似度计算表达式为：

D_Similarity=T×W_term×K；

在一些具体实施例中，所述目标数据为结构化数据；相应的，所述隐私数据确定模块11，具体用于对所述结构化数据的字段类型和字段名称进行文本分析得到第一分析数据，并计算所述第一分析数据与目标类敏感数据之间的相似度以得到目标相似度值。

在一些具体实施例中，所述目标数据为包括半结构化数据或非结构化数据；相应的，所述隐私数据确定模块11，具体用于将所述半结构化数据或所述非结构化数据转化为结构化数据；对所述结构化数据的字段类型和字段名称进行文本分析得到第二分析数据，并计算所述第二分析数据与目标类敏感数据之间的相似度以得到目标相似度值。

在一些具体实施例中，所述目标类敏感数据为预设敏感数据范围内的至少一类敏感数据，所述预设敏感数据范围包括预先经过敏感数据类别划分后得到的多类敏感数据。

在一些具体实施例中，所述数据脱敏模块12，具体用于根据所述隐私数据的敏感数据类别对所述隐私数据进行隐私级别判定以得到判定结果；其中，不同敏感数据类别对应不同的隐私级别。

在一些具体实施例中，所述数据脱敏模块12，具体包括：

集合获取单元，用于获取预先设置的脱敏方法集合；所述脱敏方法集合中记录有脱敏方法和隐私级别之间的对应关系，所述脱敏方法集合中包括字段替换方法、哈希算法和数据匿名化方法中的至少一种脱敏方法；

脱敏方法确定单元，用于基于所述对应关系从所述脱敏方法集合中确定出与所述判定结果对应的脱敏方法。

在一些具体实施例中，所述装置还用于若当前存在待写入的新的隐私数据，则记录当前时间戳，以便按照时间戳先后顺序依次对所述新的隐私数据进行隐私级别判定，得到新的判定结果；选取与所述新的判定结果对应的脱敏方法对所述新的隐私数据进行脱敏处理，并将处理后的隐私数据存储至与所述新的判定结果对应的目标数据表。

在一些具体实施例中，所述目标数据表的每一行为所述处理后数据；所述目标数据表的每一列为所述处理后数据的属性信息，所述属性信息包括所述处理后数据的敏感信息类别、隐私级别、创建时间、存储信息、源文件信息。

在一些具体实施例中，所述数据导入模块13，具体用于在所述目标数据存储架构中创建元数据；所述元数据的信息包括所述目标数据表的字段信息、文件组织形式、统计信息、索引信息和读写接口。

图7为本申请实施例提供的一种电子设备的结构示意图。具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的由电子设备执行的隐私数据的数据存储架构构建方法中的相关步骤。

本实施例中，电源23用于为电子设备上的各硬件设备提供工作电压；通信接口24能够为电子设备创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备执行的隐私数据的数据存储架构构建方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请实施例还公开了一种计算机可读存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器加载并执行时，实现前述任一实施例公开的隐私数据的数据存储架构构建方法步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（Random AccessMemory，即RAM）、内存、只读存储器（Read-Only Memory，即ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、只读光盘（Compact Disc Read-Only Memory，即CD-ROM）、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种隐私数据的数据存储架构构建方法、装置、设备及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种隐私数据的数据存储架构构建方法，其特征在于，包括：

2.根据权利要求1所述的隐私数据的数据存储架构构建方法，其特征在于，所述分别计算关系数据库中各目标数据与目标类敏感数据之间的相似度以得到目标相似度值，包括：

3.根据权利要求2所述的隐私数据的数据存储架构构建方法，其特征在于，所述相似度计算表达式为：

D_Similarity=T×W_term×K；

4.根据权利要求1所述的隐私数据的数据存储架构构建方法，其特征在于，所述目标数据为结构化数据；

5.根据权利要求1所述的隐私数据的数据存储架构构建方法，其特征在于，所述目标数据为包括半结构化数据或非结构化数据；

6.根据权利要求1所述的隐私数据的数据存储架构构建方法，其特征在于，所述目标类敏感数据为预设敏感数据范围内的至少一类敏感数据，所述预设敏感数据范围包括预先经过敏感数据类别划分后得到的多类敏感数据。

7.根据权利要求6所述的隐私数据的数据存储架构构建方法，其特征在于，所述对所述隐私数据进行隐私级别判定以得到判定结果，包括：

8.根据权利要求7所述的隐私数据的数据存储架构构建方法，其特征在于，所述确定与所述判定结果对应的脱敏方法，包括：

9.根据权利要求1所述的隐私数据的数据存储架构构建方法，其特征在于，还包括：

10.根据权利要求1至9任一项所述的隐私数据的数据存储架构构建方法，其特征在于，所述目标数据表的每一行为所述处理后数据；所述目标数据表的每一列为所述处理后数据的属性信息，所述属性信息包括所述处理后数据的敏感信息类别、隐私级别、创建时间、存储信息、源文件信息。

11.根据权利要求10所述的隐私数据的数据存储架构构建方法，其特征在于，所述基于数据同步工具和预设数据导入引擎将所述目标数据表导入至目标数据存储架构的过程中，还包括：

12.一种隐私数据的数据存储架构构建装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至11任一项所述的隐私数据的数据存储架构构建方法的步骤。

14.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的隐私数据的数据存储架构构建方法的步骤。