CN117235246A - 一种基于数据元的敏感数据自动分级方法及装置 - Google Patents

一种基于数据元的敏感数据自动分级方法及装置 Download PDF

Info

Publication number
CN117235246A
CN117235246A CN202311289651.2A CN202311289651A CN117235246A CN 117235246 A CN117235246 A CN 117235246A CN 202311289651 A CN202311289651 A CN 202311289651A CN 117235246 A CN117235246 A CN 117235246A
Authority
CN
China
Prior art keywords
data
sensitive
metadata
data elements
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311289651.2A
Other languages
English (en)
Inventor
王文文
路国隋
牛硕
张峰
王彦功
李存冰
张悦
王飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Technology Co Ltd
Original Assignee
Inspur Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Technology Co Ltd filed Critical Inspur Software Technology Co Ltd
Priority to CN202311289651.2A priority Critical patent/CN117235246A/zh
Publication of CN117235246A publication Critical patent/CN117235246A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于数据元的敏感数据自动分级方法及装置,属于数据安全技术领域,该方法的实现包括以下步骤:1)、采集数据源的元数据;2)、利用机器学习算法,元数据自动标识数据元:利用机器学习算法构建标识模型,将未标记的元数据输入已训练好的模型,自动标识元数据匹配的数据元;3)、可视化配置基于数据元的敏感规则,定义敏感级别;4)、数据访问过程中敏感数据的自动分级:根据元数据标识的数据元,判断数据是否匹配对应的敏感规则,得到数据内容的多个敏感级别,取敏感级别最高的最小值作为整行数据的敏感级别。本发明能够有效地识别和分级敏感数据,以确保其得到适当的保护和处理。

Description

一种基于数据元的敏感数据自动分级方法及装置
技术领域
本发明涉及数据安全技术领域,具体地说是一种基于数据元的敏感数据自动分级方法及装置。
背景技术
近些年来,随着数字时代的发展,数据安全问题带来的危害越发多样化。从个人角度来看,是接不完的骚扰电话、精心设计的电信诈骗,冒名顶替、跟踪窥私等行为屡禁不止;从企业角度来看,数据泄露带来的安全威胁和恶意欺诈也愈演愈烈。对个人身份信息、财务数据和医疗记录等敏感数据内容进行敏感分级,进而根据用户权限控制数据访问范围,降低数据安全风险、提高数据管理能力成为数据治理过程中很重要的一部分。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于数据元的敏感数据自动分级方法及装置,能够有效地识别和分级敏感数据,以确保其得到适当的保护和处理。
本发明解决其技术问题所采用的技术方案是:
一种基于数据元的敏感数据自动分级方法,该方法的实现包括以下步骤:
1)、采集数据源的元数据;
2)、利用机器学习算法,元数据自动标识数据元:
利用机器学习算法构建标识模型,将未标记的元数据输入已训练好的模型,自动标识元数据匹配的数据元;
3)、可视化配置基于数据元的敏感规则,定义敏感级别;
4)、数据访问过程中敏感数据的自动分级:
根据元数据标识的数据元,判断数据是否匹配对应的敏感规则,得到数据内容的多个敏感级别,取敏感级别最高的最小值作为整行数据的敏感级别。
数据元也称数据元素,通过定义、标识、表示和允许值等一系列属性描述的数据单元。元数据定义和描述数据的管理控制类数据。本方法通过利用机器学习,能够自动化地标识元数据匹配的数据元,结合基于数据元配置的敏感规则,支持为敏感数据自动分配相应的安全级别;有助于在数据开放共享过程中,根据敏感数据分级和用户权限控制数据访问范围,提高数据的安全性。
优选的,所述采集数据源的元数据,配置数据源作为采集对象,提供包括关系型数据库、大数据、文件系统、消息队列的多种适配器完成采集对象的元数据采集,包括表、字段对应的元数据。
优选的,含有敏感数据的元数据包括证件号码、姓名、车牌号、银行卡号、手机号码、网络账号、IP地址字段。
优选的,所述机器学习算法构建数据元标识模型,采用监督学习、无监督学习或半监督学习方法,通过对已标识的元数据进行训练,使模型能够学习数据元基础识别、值域识别、正则识别的可信度权重;在模型训练完成后,对未标识的字段元数据进行自动标识;通过将元数据输入已训练好的标识模型,可以自动地将其标识数据元。
优选的,通过元数据识别数据元的算法如下:
2.1)、基础识别,根据字段中文、英文名称及类型等识别数据元:
2.1.1)、根据字段中文、英文名称查询数据元,获得结果DE1,DE2,DE3,DE4,如果结果为空执行步骤2.1.2),否则执行步骤2.1.3);
2.1.2)、根据字段中文名称查询同义词,获得结果DE1,DE2,DE3,DE4,如果结果为空执行步骤2.2)值域识别,否则执行步骤2.1.3);
2.1.3)根据字段的类型与DE1,DE2,DE3,DE4的类型进行一致性校验,类型不一致的数据元去除,例如字段类型是varchar,DE4类型是int,过滤DE2后,基础识别得到的数据元结果为DE1,DE2,DE3;
2.2)、值域识别
取表中抽样数据,查看值域分布范围,根据值域判断对应字典,继而根据代码字典与数据元映射关系确定使用的数据元;例如一个字段的值域范围是{1、2、3},代码字典可能是性别字典或者供暖状况字典,分别对应数据元DE3,DE4;
2.3)、正则识别
正则识别包括身份证号识别、手机号识别;取表中抽样数据,如果与身份证号正则规则匹配,获得数据元,否则识别下一个正则规则;
2.4)、标识数据元
通过模型训练得到数据元可信度权重;对获得的数据元进行权重加权,即标识数据元。
进一步的,设正则识别得到的数据元是DE1;
通过模型训练得到a、b、c中数据元可信度权重分别为Q1=0.4、Q2=0.7、Q3=1;对获得的数据元进行权重加权,加权结果为:{(Q1+Q3)*DE1,Q1*DE2,(Q1+Q2)*DE3,Q2*DE4},即标识数据元DE1。
优选的,所述可视化配置基于数据元的敏感规则,定义敏感级别;
可视化敏感规则配置包括绑定数据元,定义规则匹配条件及规则内容;规则匹配条件支持等于、不等于、包含于、不包含于、等于空、不等于空、模糊匹配、正则表达式;规则内容为字符串或正则表达式;
敏感规则类别包括敏感身份、敏感关键词、敏感图片、敏感值域及其它敏感信息;不同敏感规则根据且或的组合关系可以组合出新的敏感规则;
优选的,敏感规则按照涉及的敏感程度定义敏感级别,敏感级别细化为01~99级,数值越小,代表敏感级别越高。
优选的,所述数据访问过程中敏感数据的自动分级,
所述敏感数据的分级是针对整行数据内容的分级,一个表里的多行数据可以划分为不同的敏感级别;
用户访问敏感数据,获取字段元数据标识的数据元集合{DE1,DE2…DEn},然后根据数据元循环判定数据内容的敏感级别,取最小值作为整行数据的敏感级别;查询集合内数据元DE1已配置的敏感规则,根据规则的匹配条件及规则内容判定数据内容是否符合敏感级别,如果不满足则继续根据DE2判断,如果满足得到敏感级别L1然后继续根据DE2判断,以此类推得到敏感级别集合{L1,L2…Lm},其中m<=n,取集合中的最小值作为该行数据的敏感级别;然后根据用户的访问权限控制是否能访问该行数据。
本发明还要求保护一种基于数据元的敏感数据自动分级装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,实现上述的基于数据元的敏感数据自动分级方法。
本发明的一种基于数据元的敏感数据自动分级方法及装置与现有技术相比,具有以下有益效果:
本发明能够自动化地标识元数据匹配的数据元,可视化配置基于数据元的敏感规则,数据访问过程中支持根据敏感数据内容自动分配相应的安全级别,控制用户访问权限。有助于在数据开放共享过程中,根据敏感数据分级和用户权限控制数据访问范围,提高数据的安全性。
附图说明
图1是本发明实施例提供的基于数据元的敏感数据自动分级方法实现流程示图;
图2是本发明实施例提供的敏感级别配置可视化界面示例图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
本发明实施例提供一种基于数据元的敏感数据自动分级方法,通过采集数据源的元数据,自动标识元数据匹配的数据元,可视化配置基于数据元的敏感规则,最后实现数据访问过程中敏感数据的自动分级;具体实现过程如下:
1、采集数据源的元数据。
配置数据源作为采集对象,提供关系型数据库、大数据、文件系统、消息队列等多种适配器完成采集对象的元数据采集,包括表、字段对应的元数据。
2、利用机器学习算法,元数据自动标识数据元。
含有敏感数据的元数据包括但不限于证件号码、姓名、车牌号、银行卡号、手机号码、网络账号、IP地址等字段。
使用机器学习算法构建数据元标识模型,可采用监督学习、无监督学习或半监督学习等方法,通过对已标识的元数据进行训练,使模型能够学习数据元基础识别、值域识别、正则识别的可信度权重;在模型训练完成后,对未标识的字段元数据进行自动标识;通过将元数据输入已训练好的标识模型,可以自动地将其标识数据元。
元数据识别数据元的算法如下:
2.1、基础识别,根据字段中文、英文名称及类型等识别数据元:
2.1.1、根据字段中文、英文名称查询数据元,获得结果DE1,DE2,DE3,DE4,如果结果为空执行步骤2.1.2,否则执行步骤2.1.3;
2.1.2、根据字段中文名称查询同义词,获得结果DE1,DE2,DE3,DE4,如果结果为空执行步骤2.2值域识别,否则执行步骤2.1.3;
2.1.3根据字段的类型与DE1,DE2,DE3,DE4的类型进行一致性校验,类型不一致的数据元去除,例如字段类型是varchar,DE4类型是int,过滤DE2后,基础识别得到的数据元结果为DE1,DE2,DE3;
2.2、值域识别
取表中抽样数据,查看值域分布范围,根据值域判断对应字典,继而根据代码字典与数据元映射关系确定使用的数据元;例如一个字段的值域范围是{1、2、3},代码字典可能是性别字典或者供暖状况字典,分别对应数据元DE3,DE4;
2.3、正则识别
正则识别包括身份证号识别、手机号识别等;取表中抽样数据,如果与身份证号正则规则匹配,获得数据元,否则识别下一个正则规则,假设正则识别得到的数据元是DE1;
2.4、标识数据元
通过模型训练得到a、b、c中数据元可信度权重分别为Q1=0.4、Q2=0.7、Q3=1;对获得的数据元进行权重加权,加权结果为:{(Q1+Q3)*DE1,Q1*DE2,(Q1+Q2)*DE3,Q2*DE4},即标识数据元DE1。
3、可视化配置基于数据元的敏感规则,定义敏感级别。
可视化敏感规则配置包括绑定数据元,定义规则匹配条件及规则内容;规则匹配条件支持等于、不等于、包含于、不包含于、等于空、不等于空、模糊匹配、正则表达式;规则内容为字符串或正则表达式;
敏感规则类别包括敏感身份、敏感关键词、敏感图片、敏感值域及其它敏感信息;不同敏感规则根据且或的组合关系可以组合出新的敏感规则;规则配置如附图2所示。
敏感规则按照涉及的敏感程度定义敏感级别,敏感级别细化为01~99级,数值越小,代表敏感级别越高。
4、数据访问过程中敏感数据的自动分级:
根据元数据标识的数据元,判断数据是否匹配对应的敏感规则,得到数据内容的多个敏感级别,取敏感级别最高的最小值作为整行数据的敏感级别。
所述敏感数据的分级是针对整行数据内容的分级,一个表里的多行数据可以划分为不同的敏感级别;
用户访问敏感数据,获取字段元数据标识的数据元集合{DE1,DE2…DEn},然后根据数据元循环判定数据内容的敏感级别,取最小值作为整行数据的敏感级别;查询集合内数据元DE1已配置的敏感规则,根据规则的匹配条件及规则内容判定数据内容是否符合敏感级别,如果不满足则继续根据DE2判断,如果满足得到敏感级别L1然后继续根据DE2判断,以此类推得到敏感级别集合{L1,L2…Lm},其中m<=n,取集合中的最小值作为该行数据的敏感级别;然后根据用户的访问权限控制是否能访问该行数据。
本发明实施例还提供一种基于数据元的敏感数据自动分级装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,实现上述实施例所述的基于数据元的敏感数据自动分级方法。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (10)

1.一种基于数据元的敏感数据自动分级方法,其特征在于,该方法的实现包括以下步骤:
1)、采集数据源的元数据;
2)、利用机器学习算法,元数据自动标识数据元:
利用机器学习算法构建标识模型,将未标记的元数据输入已训练好的模型,自动标识元数据匹配的数据元;
3)、可视化配置基于数据元的敏感规则,定义敏感级别;
4)、数据访问过程中敏感数据的自动分级:
根据元数据标识的数据元,判断数据是否匹配对应的敏感规则,得到数据内容的多个敏感级别,取敏感级别最高的最小值作为整行数据的敏感级别。
2.根据权利要求1所述的一种基于数据元的敏感数据自动分级方法,其特征在于,所述采集数据源的元数据,配置数据源作为采集对象,提供包括关系型数据库、大数据、文件系统、消息队列的多种适配器完成采集对象的元数据采集,包括表、字段对应的元数据。
3.根据权利要求1所述的一种基于数据元的敏感数据自动分级方法,其特征在于,含有敏感数据的元数据包括证件号码、姓名、车牌号、银行卡号、手机号码、网络账号、IP地址字段。
4.根据权利要求1或2或3所述的一种基于数据元的敏感数据自动分级方法,其特征在于,所述机器学习算法构建数据元标识模型,采用监督学习、无监督学习或半监督学习方法,通过对已标识的元数据进行训练,使模型能够学习数据元基础识别、值域识别、正则识别的可信度权重;在模型训练完成后,对未标识的字段元数据进行自动标识;通过将元数据输入已训练好的标识模型,可以自动地将其标识数据元。
5.根据权利要求4所述的一种基于数据元的敏感数据自动分级方法,其特征在于,通过元数据识别数据元的算法如下:
2.1)、基础识别,根据字段中文、英文名称及类型等识别数据元:
2.1.1)、根据字段中文、英文名称查询数据元,获得结果DE1,DE2,DE3,DE4,如果结果为空执行步骤2.1.2),否则执行步骤2.1.3);
2.1.2)、根据字段中文名称查询同义词,获得结果DE1,DE2,DE3,DE4,如果结果为空执行步骤2.2)值域识别,否则执行步骤2.1.3);
2.1.3)根据字段的类型与DE1,DE2,DE3,DE4的类型进行一致性校验,类型不一致的数据元去除;
2.2)、值域识别
取表中抽样数据,查看值域分布范围,根据值域判断对应字典,继而根据代码字典与数据元映射关系确定使用的数据元;
2.3)、正则识别
正则识别包括身份证号识别、手机号识别;取表中抽样数据,如果与身份证号正则规则匹配,获得数据元,否则识别下一个正则规则;
2.4)、标识数据元
通过模型训练得到数据元可信度权重;对获得的数据元进行权重加权,即标识数据元。
6.根据权利要求5所述的一种基于数据元的敏感数据自动分级方法,其特征在于,设正则识别得到的数据元是DE1;
通过模型训练得到a、b、c中数据元可信度权重分别为Q1=0.4、Q2=0.7、Q3=1;对获得的数据元进行权重加权,加权结果为:{(Q1+Q3)*DE1,Q1*DE2,(Q1+Q2)*DE3,Q2*DE4},即标识数据元DE1。
7.根据权利要求1所述的一种基于数据元的敏感数据自动分级方法,其特征在于,所述可视化配置基于数据元的敏感规则,定义敏感级别;
可视化敏感规则配置包括绑定数据元,定义规则匹配条件及规则内容;规则匹配条件支持等于、不等于、包含于、不包含于、等于空、不等于空、模糊匹配、正则表达式;规则内容为字符串或正则表达式;
敏感规则类别包括敏感身份、敏感关键词、敏感图片、敏感值域及其它敏感信息;不同敏感规则根据且或的组合关系可以组合出新的敏感规则。
8.根据权利要求7所述的一种基于数据元的敏感数据自动分级方法,其特征在于,敏感规则按照涉及的敏感程度定义敏感级别,敏感级别细化为01~99级,数值越小,代表敏感级别越高。
9.根据权利要求1或7或8所述的一种基于数据元的敏感数据自动分级方法,其特征在于,所述数据访问过程中敏感数据的自动分级,
所述敏感数据的分级是针对整行数据内容的分级,一个表里的多行数据可以划分为不同的敏感级别;
用户访问敏感数据,获取字段元数据标识的数据元集合{DE1,DE2…DEn},然后根据数据元循环判定数据内容的敏感级别,取最小值作为整行数据的敏感级别;查询集合内数据元DE1已配置的敏感规则,根据规则的匹配条件及规则内容判定数据内容是否符合敏感级别,如果不满足则继续根据DE2判断,如果满足得到敏感级别L1然后继续根据DE2判断,以此类推得到敏感级别集合{L1,L2…Lm},其中m<=n,取集合中的最小值作为该行数据的敏感级别;然后根据用户的访问权限控制是否能访问该行数据。
10.一种基于数据元的敏感数据自动分级装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,实现权利要求1至9任一所述的基于数据元的敏感数据自动分级方法。
CN202311289651.2A 2023-10-07 2023-10-07 一种基于数据元的敏感数据自动分级方法及装置 Pending CN117235246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311289651.2A CN117235246A (zh) 2023-10-07 2023-10-07 一种基于数据元的敏感数据自动分级方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311289651.2A CN117235246A (zh) 2023-10-07 2023-10-07 一种基于数据元的敏感数据自动分级方法及装置

Publications (1)

Publication Number Publication Date
CN117235246A true CN117235246A (zh) 2023-12-15

Family

ID=89089314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311289651.2A Pending CN117235246A (zh) 2023-10-07 2023-10-07 一种基于数据元的敏感数据自动分级方法及装置

Country Status (1)

Country Link
CN (1) CN117235246A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473493A (zh) * 2023-12-28 2024-01-30 杭州数智政通科技有限公司 基于数据元的数据溯源、质量检测方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117473493A (zh) * 2023-12-28 2024-01-30 杭州数智政通科技有限公司 基于数据元的数据溯源、质量检测方法及系统

Similar Documents

Publication Publication Date Title
US11956272B2 (en) Identifying legitimate websites to remove false positives from domain discovery analysis
CN112613501A (zh) 信息审核分类模型的构建方法和信息审核方法
US20210357512A1 (en) Sensitive data detection and replacement
CN111309822A (zh) 用户身份识别方法及装置
CN111062444B (zh) 信用风险预测方法、系统、终端及存储介质
CN117235246A (zh) 一种基于数据元的敏感数据自动分级方法及装置
WO2020048056A1 (zh) 一种风险决策方法和装置
CN112150298A (zh) 数据处理方法、系统、设备及可读介质
CN111159763A (zh) 一种涉法人员群体画像分析系统及方法
CN111767192B (zh) 基于人工智能的业务数据检测方法、装置、设备和介质
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
CN114595689A (zh) 数据处理方法、装置、存储介质和计算机设备
CN114091042A (zh) 风险预警方法
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN112200684B (zh) 一种检测医保欺诈的方法、系统及存储介质
CN115115369A (zh) 数据处理方法、装置、设备及存储介质
CN113420018A (zh) 用户行为数据分析方法、装置、设备及存储介质
CN117312904A (zh) 一种数据分类分级方法和相关产品
CN109992960B (zh) 一种伪造参数检测方法、装置、电子设备及存储介质
CN113988226B (zh) 数据脱敏有效性验证方法、装置、计算机设备及存储介质
CN113239126A (zh) 一种基于bor方法的业务活动信息标准化方案
CN113515771A (zh) 数据敏感度判定方法、电子设备及计算机可读存储介质
CN112685389A (zh) 数据管理方法、数据管理装置、电子设备及存储介质
CN111666765A (zh) 一种基于k-means文本聚类的诈骗话题分析方法和系统
CN113987309B (zh) 个人隐私数据识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination