CN117235246A

CN117235246A - 一种基于数据元的敏感数据自动分级方法及装置

Info

Publication number: CN117235246A
Application number: CN202311289651.2A
Authority: CN
Inventors: 王文文; 路国隋; 牛硕; 张峰; 王彦功; 李存冰; 张悦; 王飞
Original assignee: Inspur Software Technology Co Ltd
Current assignee: Inspur Software Technology Co Ltd
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2023-12-15

Abstract

本发明公开了一种基于数据元的敏感数据自动分级方法及装置，属于数据安全技术领域，该方法的实现包括以下步骤：1)、采集数据源的元数据；2)、利用机器学习算法，元数据自动标识数据元：利用机器学习算法构建标识模型，将未标记的元数据输入已训练好的模型，自动标识元数据匹配的数据元；3)、可视化配置基于数据元的敏感规则，定义敏感级别；4)、数据访问过程中敏感数据的自动分级：根据元数据标识的数据元，判断数据是否匹配对应的敏感规则，得到数据内容的多个敏感级别，取敏感级别最高的最小值作为整行数据的敏感级别。本发明能够有效地识别和分级敏感数据，以确保其得到适当的保护和处理。

Description

一种基于数据元的敏感数据自动分级方法及装置

技术领域

本发明涉及数据安全技术领域，具体地说是一种基于数据元的敏感数据自动分级方法及装置。

背景技术

近些年来，随着数字时代的发展，数据安全问题带来的危害越发多样化。从个人角度来看，是接不完的骚扰电话、精心设计的电信诈骗，冒名顶替、跟踪窥私等行为屡禁不止；从企业角度来看，数据泄露带来的安全威胁和恶意欺诈也愈演愈烈。对个人身份信息、财务数据和医疗记录等敏感数据内容进行敏感分级，进而根据用户权限控制数据访问范围，降低数据安全风险、提高数据管理能力成为数据治理过程中很重要的一部分。

发明内容

本发明的技术任务是针对以上不足之处，提供一种基于数据元的敏感数据自动分级方法及装置，能够有效地识别和分级敏感数据，以确保其得到适当的保护和处理。

本发明解决其技术问题所采用的技术方案是：

一种基于数据元的敏感数据自动分级方法，该方法的实现包括以下步骤：

1)、采集数据源的元数据；

2)、利用机器学习算法，元数据自动标识数据元：

利用机器学习算法构建标识模型，将未标记的元数据输入已训练好的模型，自动标识元数据匹配的数据元；

3)、可视化配置基于数据元的敏感规则，定义敏感级别；

4)、数据访问过程中敏感数据的自动分级：

根据元数据标识的数据元，判断数据是否匹配对应的敏感规则，得到数据内容的多个敏感级别，取敏感级别最高的最小值作为整行数据的敏感级别。

数据元也称数据元素，通过定义、标识、表示和允许值等一系列属性描述的数据单元。元数据定义和描述数据的管理控制类数据。本方法通过利用机器学习，能够自动化地标识元数据匹配的数据元，结合基于数据元配置的敏感规则，支持为敏感数据自动分配相应的安全级别；有助于在数据开放共享过程中，根据敏感数据分级和用户权限控制数据访问范围，提高数据的安全性。

优选的，所述采集数据源的元数据，配置数据源作为采集对象，提供包括关系型数据库、大数据、文件系统、消息队列的多种适配器完成采集对象的元数据采集，包括表、字段对应的元数据。

优选的，含有敏感数据的元数据包括证件号码、姓名、车牌号、银行卡号、手机号码、网络账号、IP地址字段。

优选的，所述机器学习算法构建数据元标识模型，采用监督学习、无监督学习或半监督学习方法，通过对已标识的元数据进行训练，使模型能够学习数据元基础识别、值域识别、正则识别的可信度权重；在模型训练完成后，对未标识的字段元数据进行自动标识；通过将元数据输入已训练好的标识模型，可以自动地将其标识数据元。

优选的，通过元数据识别数据元的算法如下：

2.1)、基础识别，根据字段中文、英文名称及类型等识别数据元：

2.1.1)、根据字段中文、英文名称查询数据元，获得结果DE1，DE2，DE3，DE4，如果结果为空执行步骤2.1.2)，否则执行步骤2.1.3)；

2.1.2)、根据字段中文名称查询同义词，获得结果DE1，DE2，DE3，DE4，如果结果为空执行步骤2.2)值域识别，否则执行步骤2.1.3)；

2.1.3)根据字段的类型与DE1，DE2，DE3，DE4的类型进行一致性校验，类型不一致的数据元去除，例如字段类型是varchar，DE4类型是int，过滤DE2后，基础识别得到的数据元结果为DE1，DE2，DE3；

2.2)、值域识别

取表中抽样数据，查看值域分布范围，根据值域判断对应字典，继而根据代码字典与数据元映射关系确定使用的数据元；例如一个字段的值域范围是{1、2、3}，代码字典可能是性别字典或者供暖状况字典，分别对应数据元DE3，DE4；

2.3)、正则识别

正则识别包括身份证号识别、手机号识别；取表中抽样数据，如果与身份证号正则规则匹配，获得数据元，否则识别下一个正则规则；

2.4)、标识数据元

通过模型训练得到数据元可信度权重；对获得的数据元进行权重加权，即标识数据元。

进一步的，设正则识别得到的数据元是DE1；

通过模型训练得到a、b、c中数据元可信度权重分别为Q1＝0.4、Q2＝0.7、Q3＝1；对获得的数据元进行权重加权，加权结果为：{(Q1+Q3)*DE1，Q1*DE2，(Q1+Q2)*DE3，Q2*DE4}，即标识数据元DE1。

优选的，所述可视化配置基于数据元的敏感规则，定义敏感级别；

可视化敏感规则配置包括绑定数据元，定义规则匹配条件及规则内容；规则匹配条件支持等于、不等于、包含于、不包含于、等于空、不等于空、模糊匹配、正则表达式；规则内容为字符串或正则表达式；

敏感规则类别包括敏感身份、敏感关键词、敏感图片、敏感值域及其它敏感信息；不同敏感规则根据且或的组合关系可以组合出新的敏感规则；

优选的，敏感规则按照涉及的敏感程度定义敏感级别，敏感级别细化为01～99级，数值越小，代表敏感级别越高。

优选的，所述数据访问过程中敏感数据的自动分级，

所述敏感数据的分级是针对整行数据内容的分级，一个表里的多行数据可以划分为不同的敏感级别；

用户访问敏感数据，获取字段元数据标识的数据元集合{DE1，DE2…DEn}，然后根据数据元循环判定数据内容的敏感级别，取最小值作为整行数据的敏感级别；查询集合内数据元DE1已配置的敏感规则，根据规则的匹配条件及规则内容判定数据内容是否符合敏感级别，如果不满足则继续根据DE2判断，如果满足得到敏感级别L1然后继续根据DE2判断，以此类推得到敏感级别集合{L1，L2…Lm}，其中m<＝n，取集合中的最小值作为该行数据的敏感级别；然后根据用户的访问权限控制是否能访问该行数据。

本发明还要求保护一种基于数据元的敏感数据自动分级装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，实现上述的基于数据元的敏感数据自动分级方法。

本发明的一种基于数据元的敏感数据自动分级方法及装置与现有技术相比，具有以下有益效果：

本发明能够自动化地标识元数据匹配的数据元，可视化配置基于数据元的敏感规则，数据访问过程中支持根据敏感数据内容自动分配相应的安全级别，控制用户访问权限。有助于在数据开放共享过程中，根据敏感数据分级和用户权限控制数据访问范围，提高数据的安全性。

附图说明

图1是本发明实施例提供的基于数据元的敏感数据自动分级方法实现流程示图；

图2是本发明实施例提供的敏感级别配置可视化界面示例图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明实施例提供一种基于数据元的敏感数据自动分级方法，通过采集数据源的元数据，自动标识元数据匹配的数据元，可视化配置基于数据元的敏感规则，最后实现数据访问过程中敏感数据的自动分级；具体实现过程如下：

1、采集数据源的元数据。

配置数据源作为采集对象，提供关系型数据库、大数据、文件系统、消息队列等多种适配器完成采集对象的元数据采集，包括表、字段对应的元数据。

2、利用机器学习算法，元数据自动标识数据元。

含有敏感数据的元数据包括但不限于证件号码、姓名、车牌号、银行卡号、手机号码、网络账号、IP地址等字段。

使用机器学习算法构建数据元标识模型，可采用监督学习、无监督学习或半监督学习等方法，通过对已标识的元数据进行训练，使模型能够学习数据元基础识别、值域识别、正则识别的可信度权重；在模型训练完成后，对未标识的字段元数据进行自动标识；通过将元数据输入已训练好的标识模型，可以自动地将其标识数据元。

元数据识别数据元的算法如下：

2.1、基础识别，根据字段中文、英文名称及类型等识别数据元：

2.1.1、根据字段中文、英文名称查询数据元，获得结果DE1，DE2，DE3，DE4，如果结果为空执行步骤2.1.2，否则执行步骤2.1.3；

2.1.2、根据字段中文名称查询同义词，获得结果DE1，DE2，DE3，DE4，如果结果为空执行步骤2.2值域识别，否则执行步骤2.1.3；

2.1.3根据字段的类型与DE1，DE2，DE3，DE4的类型进行一致性校验，类型不一致的数据元去除，例如字段类型是varchar，DE4类型是int，过滤DE2后，基础识别得到的数据元结果为DE1，DE2，DE3；

2.2、值域识别

2.3、正则识别

正则识别包括身份证号识别、手机号识别等；取表中抽样数据，如果与身份证号正则规则匹配，获得数据元，否则识别下一个正则规则，假设正则识别得到的数据元是DE1；

2.4、标识数据元

3、可视化配置基于数据元的敏感规则，定义敏感级别。

敏感规则类别包括敏感身份、敏感关键词、敏感图片、敏感值域及其它敏感信息；不同敏感规则根据且或的组合关系可以组合出新的敏感规则；规则配置如附图2所示。

敏感规则按照涉及的敏感程度定义敏感级别，敏感级别细化为01～99级，数值越小，代表敏感级别越高。

4、数据访问过程中敏感数据的自动分级：

本发明实施例还提供一种基于数据元的敏感数据自动分级装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，实现上述实施例所述的基于数据元的敏感数据自动分级方法。

通过上面具体实施方式，所述技术领域的技术人员可容易的实现本发明。但是应当理解，本发明并不限于上述的具体实施方式。在公开的实施方式的基础上，所述技术领域的技术人员可任意组合不同的技术特征，从而实现不同的技术方案。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种基于数据元的敏感数据自动分级方法，其特征在于，该方法的实现包括以下步骤：

1)、采集数据源的元数据；

2)、利用机器学习算法，元数据自动标识数据元：

3)、可视化配置基于数据元的敏感规则，定义敏感级别；

4)、数据访问过程中敏感数据的自动分级：

2.根据权利要求1所述的一种基于数据元的敏感数据自动分级方法，其特征在于，所述采集数据源的元数据，配置数据源作为采集对象，提供包括关系型数据库、大数据、文件系统、消息队列的多种适配器完成采集对象的元数据采集，包括表、字段对应的元数据。

3.根据权利要求1所述的一种基于数据元的敏感数据自动分级方法，其特征在于，含有敏感数据的元数据包括证件号码、姓名、车牌号、银行卡号、手机号码、网络账号、IP地址字段。

4.根据权利要求1或2或3所述的一种基于数据元的敏感数据自动分级方法，其特征在于，所述机器学习算法构建数据元标识模型，采用监督学习、无监督学习或半监督学习方法，通过对已标识的元数据进行训练，使模型能够学习数据元基础识别、值域识别、正则识别的可信度权重；在模型训练完成后，对未标识的字段元数据进行自动标识；通过将元数据输入已训练好的标识模型，可以自动地将其标识数据元。

5.根据权利要求4所述的一种基于数据元的敏感数据自动分级方法，其特征在于，通过元数据识别数据元的算法如下：

2.1.3)根据字段的类型与DE1，DE2，DE3，DE4的类型进行一致性校验，类型不一致的数据元去除；

2.2)、值域识别

取表中抽样数据，查看值域分布范围，根据值域判断对应字典，继而根据代码字典与数据元映射关系确定使用的数据元；

2.3)、正则识别

2.4)、标识数据元

6.根据权利要求5所述的一种基于数据元的敏感数据自动分级方法，其特征在于，设正则识别得到的数据元是DE1；

7.根据权利要求1所述的一种基于数据元的敏感数据自动分级方法，其特征在于，所述可视化配置基于数据元的敏感规则，定义敏感级别；

敏感规则类别包括敏感身份、敏感关键词、敏感图片、敏感值域及其它敏感信息；不同敏感规则根据且或的组合关系可以组合出新的敏感规则。

8.根据权利要求7所述的一种基于数据元的敏感数据自动分级方法，其特征在于，敏感规则按照涉及的敏感程度定义敏感级别，敏感级别细化为01～99级，数值越小，代表敏感级别越高。

9.根据权利要求1或7或8所述的一种基于数据元的敏感数据自动分级方法，其特征在于，所述数据访问过程中敏感数据的自动分级，

10.一种基于数据元的敏感数据自动分级装置，其特征在于，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，实现权利要求1至9任一所述的基于数据元的敏感数据自动分级方法。