CN114168568A

CN114168568A - 敏感数据自动发现和管理方法、系统及计算机介质

Info

Publication number: CN114168568A
Application number: CN202111519980.2A
Authority: CN
Inventors: 黄林峰; 邓少宝; 陈友; 傅斌; 汪阳; 付星光
Original assignee: Shenzhen Tydic Information Technology Co ltd
Current assignee: Shenzhen Tydic Information Technology Co ltd
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-11

Abstract

本发明涉及一种敏感数据自动发现和管理方法、系统及计算机介质。该方法主要包括：步骤10、通过数据存储组件提供对原始数据的存储服务管理；步骤20、启动设定了扫描范围和执行策略的敏感数据发现任务后，由主组件负责任务的具体分配，由主组件所对应的分布式的从组件负责任务的具体执行；步骤30、分配到敏感数据发现任务的从组件通过对应的分布式的多个抽样组件对原始数据进行分段随机数据抽样；步骤40、数据识别组件对分配到的样本数据进行识别，然后将识别结果返回给从组件；步骤50、从组件根据样本数据的识别结果标注相应原始数据的类型。本发明可以基于内容抽样识别的敏感数据自动发现和管理。

Description

敏感数据自动发现和管理方法、系统及计算机介质

技术领域

本发明涉及数据识别技术领域，尤其涉及一种敏感数据自动发现和管理方法、系统及计算机介质。

背景技术

随着企业信息化程度越来越高，各种信息系统的维护产生了大量的数据，这些数据到达一定规模后企业会统一的建设一套大数据平台，用来维护海量的信息数据，同时可以从海量的信息数据中挖掘数据的潜在价值。然而在这些数据中包含了大量的不应当随意访问使用的敏感数据，如果不能清楚的掌握其中敏感数据的分布情况，则有可能在数据使用的过程中导致敏感数据的泄露。

由于数据量庞大，传统的维护方式效率低且开销大，如果能够使用程序自动发现这些敏感数据，并将敏感数据的数据类型自动标注，然后统一的维护管理起来，这样将大大的减少维护工作量，所以亟需建设一种用于敏感数据自动发现和管理的方法及系统。

发明内容

因此，本发明的目的在于提供一种敏感数据自动发现和管理方法、系统及计算机介质，以实现基于内容抽样识别的敏感数据自动发现和管理。

为实现上述目的，本发明提供了一种敏感数据自动发现和管理方法，包括：

步骤10、通过数据存储组件提供对原始数据的存储服务管理；

步骤20、启动设定了扫描范围和执行策略的敏感数据发现任务后，由主组件负责任务的具体分配，由主组件所对应的分布式的从组件负责任务的具体执行；

步骤30、分配到敏感数据发现任务的从组件通过对应的分布式的多个抽样组件对原始数据进行分段随机数据抽样，合并组件将所述多个抽样组件从同一个数据分区表中抽取的多个样本数据合并为一个数据集并返回给对应的从组件；

步骤40、从组件接收合并完成的数据集，将所述数据集均衡的拆为多个样本数据的子集并分别分配给分布式的数据识别组件，所述数据识别组件对分配到的样本数据进行识别，然后将识别结果返回给从组件；

步骤50、从组件根据样本数据的识别结果标注相应原始数据的类型。

其中，还包括：

步骤60、利用识别完成的原始数据生成数据资产。

其中，所述数据识别组件包括如下识别方式：规则识别、NLP自然语言识别、校验码算法识别和机器学习建模识别。

其中，所述数据识别组件对分配到的样本数据按照所述各个识别方式以串行方式进行识别。

其中，还包括步骤50中，所述从组件根据识别结果进行识别通过率的计算，并根据预先配置的识别通过率对原始数据进行类型的标注。

其中，所述执行策略包括：每个敏感数据识别方式、方式对应的识别能力、抽样的数量、识别通过率、执行时间、执行频次。

其中，所述步骤60还包括：利用识别完成的原始数据生成数据资产台账、数据视图、敏感数据分布视图。

其中，所述存储有原始数据的数据存储组件包括关系型数据库、数据仓库及非关系型数据库。

本发明还提供了一种敏感数据自动发现和管理系统，包括：

数据源管理程序模块，其管理存储有原始数据的数据存储组件；

发现任务管理调度程序模块，其包括主组件和与其对应的分布式的从组件，启动设定了扫描范围和执行策略的敏感数据发现任务后，由主组件负责任务的具体分配，由主组件所对应的分布式的从组件负责任务的具体执行；

数据抽样程序模块，其包括合并组件和分布式的抽样组件，分配到敏感数据发现任务的从组件通过对应的分布式的多个抽样组件对原始数据进行分段随机数据抽样，合并组件将所述多个抽样组件从同一个数据分区表中抽取的多个样本数据合并为一个数据集并返回给对应的从组件；

敏感数据识别程序模块，其包括分布式的数据识别组件，从组件接收合并完成的数据集，将所述数据集均衡的拆为多个样本数据的子集并分别分配给分布式的数据识别组件，所述数据识别组件对分配到的样本数据进行识别，然后将识别结果返回给从组件，从组件根据样本数据的识别结果标注相应原始数据的类型。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法的步骤。

综上，本发明提供了一种敏感数据自动发现和管理方法、系统及计算机介质，可以基于内容抽样识别的敏感数据自动发现和管理；抽取的数据更加真实，识别成功率更高，执行效率更高。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其他有益效果显而易见。

附图中，

图1为本发明敏感数据自动发现和管理方法一较佳实施例的流程图；

图2为本发明敏感数据自动发现和管理方法一较佳实施例的数据流图；

图3为本发明敏感数据自动发现和管理系统一较佳实施例的结构方框图。

具体实施方式

参见图1及图2，图1为本发明敏感数据自动发现和管理方法一较佳实施例的流程图，图2为相应的数据流图。该方法主要包括：

步骤10、通过数据存储组件提供对原始数据的存储服务管理；存储有原始数据的数据库可以包括关系型数据库，如mysql/oracle/db2/……，数据仓库，如Hive，以及非关系型数据库，如es/hbase/……。

步骤20、启动设定了扫描范围和执行策略的敏感数据发现任务后，由主组件(Master)负责任务的具体分配，由主组件所对应的分布式的从组件(Worker)负责任务的具体执行。在此较佳实施例中，敏感数据发现是以任务的方式进行调度运行的，每个敏感数据发现任务可以预先划定一个扫描范围，例如预先选定扫描的数据源，和相应的执行策略，敏感数据发现任务启动后会由调度程序根据执行策略调度执行；调度程序可以由主组件(Master)和相应的分布式的从组件(Worker)组成，主组件负责任务的分配，从组件负责任务的执行。主组件支持高可用(HA)故障转移，从组件采用分布式的多节点方式部署，提高可用性，同时确保能够高效的发现敏感数据。为进一步提升识别效率，可设置多个主组件以及与各主组件对应的从组件。执行策略可以包括：每个敏感数据识别方式、方式对应的识别能力、抽样的数量、识别通过率、执行时间、执行频次等，还可以包括规则算法、检验码、NLP和机器学习建模等。

步骤30、分配到敏感数据发现任务的从组件通过对应的分布式的多个抽样组件对原始数据进行分段随机数据抽样，合并组件将所述多个抽样组件从同一个数据分区表中抽取的多个样本数据合并为一个数据集并返回给对应的从组件。从组件与抽样组件可以为一对多关系以提升采样效率。

从组件在执行敏感数据发现任务时，需要进行样本数据的抽取操作，样本数据抽取由统一的数据抽样组件完成，数据抽样组件也是分布式的，每个抽样组件节点负责随机抽取数据，然后每个节点抽取的数据进行合并，合并完成之后返回给从组件，合并是指多个节点抽取的同一个分区表的样本数据进行合并，多节点抽取样本数据是为了提高抽取效率和随机性。本发明通过采用分段随机抽取的数据更加真实，识别成功率更高。

其中分段具体是指原始数据的分区表中的每个分区，针对分区表同时对多个分区进行随机抽取，形成随机数据集。合并是将多个抽取组件并发抽取的多个数据集合并为一个完整的数据集；拆分是将合并得到的数据集均衡的拆为多个子集(具体子集数量可以对应于当前活动的数据识别组件实例数)，然后随机分发给数据识别组件进行并行识别，提高执行效率，这里的拆分规则可以为随机。

步骤40、从组件接收合并完成的数据集，将所述数据集均衡的拆为多个样本数据的子集并分别分配给分布式的数据识别组件，所述数据识别组件对分配到的样本数据进行识别，然后将识别结果返回给从组件。从组件与数据识别组件可以为一对多关系以提升识别效率。其中，所述数据识别组件包括如下识别方式：规则识别、NLP自然语言识别、校验码算法识别和机器学习建模识别。数据识别组件对分配到的样本数据可以按照所述各个识别方式以串行方式进行识别。对于特征明显的数据使用规则识别，姓名、地址之类的数据则利用NLP自然语言识别，某些有特定校验码的数据使用校验码算法识别，如果以上三种都无法识别的，则需要使用语料数据进行建模，然后和模型计算相似度，根据相似度进行识别。由于识别技术的多样性，所以对大部分敏感数据具备很高的识别率。每个数据识别组件都具备多种识别方式，采用分布式的多个识别组件可以利用并行处理提高识别效率。

从组件拿到样本数据之后，会将样本数据进行拆分，然后分配给分布式数据识别组件，分布式数据识别组件会利用规则识别、NLP自然语言识别、校验码算法识别和机器学习建模识别等识别方式对数据进行识别，然后对识别通过的进行标注并返回给从组件，从组件拿到识别结果进行识别通过率的计算，并根据通过率对数据进行数据类型的标注。

步骤50中，所述从组件根据识别结果进行识别通过率的计算，并根据预先配置的识别通过率对原始数据进行类型的标注。关于识别通过率，例如：抽取10000条数据，如果其中9900条数据通过判断发现是敏感数据，而另外100条无法判断，则通过率是9900/10000＝99％，如果当时预先配置约定95％通过则认为整个识别通过，那么99％大于95％，则表示识别结果为，该数据属于敏感数据。

本发明还可以进一步包括:

步骤60、利用识别完成的原始数据生成数据资产；利用识别完成的原始数据可以进一步生成数据资产台账、数据视图、敏感数据分布视图。

本发明敏感数据自动发现和管理方法基于内容抽样识别的敏感数据自动发现，是通过对真实数据的抽样，然后利用各种识别技术对数据进行识别，然后计算样本数据的特征匹配度，匹配度达到一定程度就会标注为某种类型。抽样识别只是用于判断该类型的数据是否为敏感数据，如果判断出结果是属于敏感数据，那么未抽样的默认全部都是敏感数据，否则都不属于敏感数据，这是因为同一字段存储的数据大部分情况都是单一业务类型数据。

参见图3，其为本发明敏感数据自动发现和管理系统一较佳实施例的结构方框图，其可结合图1及图2进行理解。该敏感数据自动发现和管理系统主要包括：

数据源管理程序模块，其通过数据存储组件提供对原始数据的存储服务管理，可以支持各种关系型数据库和非关系型数据库，例如：MySQL、Oracle、DB2、PostgreSQL、SQLServer、Hive、SparkSQL、Impala、HBase、Elasticsearch、Gbase；数据源管理程序模块基本上涵盖了主流的数据存储组件。

数据抽样程序模块，其包括合并组件和分布式的抽样组件，分配到敏感数据发现任务的从组件通过对应的分布式的多个抽样组件对原始数据进行分段随机数据抽样，合并组件将所述多个抽样组件从同一个数据分区表中抽取的多个样本数据合并为一个数据集并返回给对应的从组件；各个抽样组件可以通过应用程序接口(API)、客户端(client)或Java数据库连接(JDBC)等方式从各数据存储组件读取元数据和样本数据等。

该敏感数据自动发现和管理系统进一步可以包括数据管理程序模块，识别完成的数据，可以发送给数据管理程序模块进行入库生成数据资产，数据资产可以存储于相应的管理数据库中，数据管理程序模块还可以进一步提供数据资产台账、数据视图、敏感数据分布视图等功能，便于从中挖掘数据的潜在价值。

该敏感数据自动发现和管理系统可以基于如下软件及硬件基础上实现，例如，软件基础：JAVA、MySQL5.7、Zookeeper集群、Redis集群和CentOS操作系统；硬件基础：8核CPU、32G内存和500G磁盘。

基于前述方法，本发明还相应提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法的步骤。

以上所述，对于本领域的普通技术人员来说，可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形，而所有这些改变和变形都应属于本发明后附的权利要求的保护范围。

Claims

1.一种敏感数据自动发现和管理方法，其特征在于，包括：

2.如权利要求1所述的敏感数据自动发现和管理方法，其特征在于，还包括：

步骤60、利用识别完成的原始数据生成数据资产。

3.如权利要求1所述的敏感数据自动发现和管理方法，其特征在于，所述数据识别组件包括如下识别方式：规则识别、NLP自然语言识别、校验码算法识别和机器学习建模识别。

4.如权利要求3所述的敏感数据自动发现和管理方法，其特征在于，所述数据识别组件对分配到的样本数据按照所述各个识别方式以串行方式进行识别。

5.如权利要求1所述的敏感数据自动发现和管理方法，其特征在于，还包括步骤50中，所述从组件根据识别结果进行识别通过率的计算，并根据预先配置的识别通过率对原始数据进行类型的标注。

6.如权利要求1所述的敏感数据自动发现和管理方法，其特征在于，所述执行策略包括：每个敏感数据识别方式、方式对应的识别能力、抽样的数量、识别通过率、执行时间、执行频次。

7.如权利要求2所述的敏感数据自动发现和管理方法，其特征在于，所述步骤60还包括：利用识别完成的原始数据生成数据资产台账、数据视图、敏感数据分布视图。

8.如权利要求1所述的敏感数据自动发现和管理方法，其特征在于，所述存储有原始数据的数据存储组件包括关系型数据库、数据仓库及非关系型数据库。

9.一种敏感数据自动发现和管理系统，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1～8所述方法的步骤。