CN110704873A - 一种防止敏感数据泄漏的方法及系统 - Google Patents
一种防止敏感数据泄漏的方法及系统 Download PDFInfo
- Publication number
- CN110704873A CN110704873A CN201910910399.XA CN201910910399A CN110704873A CN 110704873 A CN110704873 A CN 110704873A CN 201910910399 A CN201910910399 A CN 201910910399A CN 110704873 A CN110704873 A CN 110704873A
- Authority
- CN
- China
- Prior art keywords
- sensitive data
- data
- sensitive
- early warning
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000004458 analytical method Methods 0.000 claims abstract description 60
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 51
- 239000008280 blood Substances 0.000 claims abstract description 38
- 210000004369 blood Anatomy 0.000 claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 32
- 238000012550 audit Methods 0.000 claims abstract description 12
- 238000012545 processing Methods 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 27
- 238000013075 data extraction Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 12
- 238000013480 data collection Methods 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007726 management method Methods 0.000 abstract description 16
- 230000000007 visual effect Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004801 process automation Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6209—Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Economics (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种防止敏感数据泄漏的方法及系统,其中方法包括:利用预设敏感字段发现算法建立原始敏感字段库;获取敏感数据全生命周期过程中的元数据;根据原始敏感字段库和元数据,解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径;利用敏感数据的血缘关系和使用路径,获取敏感数据使用清单;利用预设数据特征分析算法解析敏感数据转换过程,获取敏感数据检查清单;预警并审计敏感数据。本发明将原始敏感字段库、元数据管理、模型及代码解析、敏感数据血缘关系、敏感数据内容特征解析与预警审计结合,使敏感数据的流转和使用过程更直观、清晰,有效降低了数据的全生命周期中各环节敏感数据泄露的风险。
Description
技术领域
本发明涉及数据安全治理技术领域,具体涉及一种防止敏感数据泄漏的方法及系统。
背景技术
电网领域拥有大量的营销数据、调度数据、个人用电信息数据等多种敏感数据,由于数据的来源分散、规模庞大、增长迅速、类型繁多、结构各异及描述不规范,敏感数据的粒度不一,时空跨度较大,故数据在传输、存储、处理及分析挖掘的各个环节中存在着敏感数据泄露的风险。
目前对敏感数据保护的方法多为敏感数据发现法,敏感数据分级分类,敏感数据的访问权限控制等,但对于敏感数据在传输、存储、处理、转换及分析挖掘的全生命周期过程中的路径追踪问题,处理转换或分析挖掘后的非敏感结果数据逆变换为敏感数据问题,还没有形成全面系统性的防泄漏方法及流程。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中对敏感数据在传输、存储、处理、转换及分析挖掘的全生命周期过程中的路径追踪问题,处理转换或分析挖掘后的非敏感结果数据逆变换为敏感数据问题,还没有形成全面系统性的防泄漏方法及流程的缺陷,从而提供一种防止敏感数据泄漏的方法及系统。
第一方面,本发明实施例提供一种防止敏感数据泄露的方法,包括如下步骤:利用预设敏感字段发现算法建立源业务系统的原始敏感字段库;获取敏感数据全生命周期过程中的元数据;根据所述原始敏感字段库和所述元数据,解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径;利用所述敏感数据的血缘关系和使用路径,获取敏感数据使用清单;利用预设数据特征分析算法解析敏感数据的复杂转换过程,获取敏感数据检查清单;根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果;根据审计结果调整敏感数据的预警级别、相应的预警处理内容、敏感字段库、敏感数据使用清单、敏感数据检查清单及数据特征分析算法。
在一实施例中,所述的防止敏感数据泄漏的方法,所述利用预设敏感字段发现算法建立源业务系统的原始敏感字段库的步骤,包括:获取源业务系统的原始敏感数据信息;利用预设敏感字段发现算法方法获取敏感数据;根据所述敏感数据建立原始敏感字段库。
在一实施例中,所述的防止敏感数据泄漏的方法,所述获取敏感数据全生命周期的过程中的元数据的步骤,包括:获取源业务数据库、数据中心的各数据层、数据抽取转换过程、报表系统及数据建模工具的数据信息中的元数据。
在一实施例中,所述的防止敏感数据泄漏的方法,所述根据所述原始敏感字段库和所述元数据,解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径的步骤,包括:获取数据抽取转换过程、报表系统及数据建模工具中的数据信息;解析所述数据抽取转换过程、报表系统及数据建模工具中的数据信息,获取敏感字段的处理过程;根据所述敏感字段的处理过程,获取全链路中敏感数据的血缘关系和使用路径。
在一实施例中,所述的防止敏感数据泄漏的方法,所述利用所述全链路中敏感数据的血缘关系和使用路径,获取敏感数据使用清单的步骤,包括:利用所述原始敏感字段库与敏感数据的关系分析全链路中敏感数据的血缘关系和使用路径,追溯敏感字段的来源和使用去向,获取敏感数据使用清单。
在一实施例中,所述的防止敏感数据泄漏的方法,所述利用预设数据特征分析算法解析敏感数据的复杂转换过程,获取敏感数据检查清单的步骤,包括:利用预设数据特征分析算法分析敏感数据被计算之前与计算之后的特征;分析敏感数据汇集计算之后的结果数据是否可逆变换为敏感数据;根据敏感数据的是否可逆变换的特征,获取敏感数据检查清单。
在一实施例中,所述的防止敏感数据泄漏的方法,所述根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果的步骤,包括:将用户权限、数量级的申请和使用、敏感字段重要级别、敏感字段使用频度、结果数据可逆变换为敏感数据的置信度作为预警规则,设置敏感数据的预警级别;根据敏感数据的预警级别设置不同的预警方式、预警接收人及预警处理方式;对高危预警的数据预警并进行人工审核,获取审计结果。
第二方面,本发明实施例提供一种防止敏感数据泄露的系统,包括:原始敏感字段库建立模块,用于利用预设敏感字段发现算法建立源业务系统的原始敏感字段库;元数据获取模块,用于获取敏感数据全生命周期的过程中的元数据;模型及代码解析模块,用于解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径;敏感数据路径分析模块,用于利用所述全链路中敏感数据的血缘关系和使用路径,获取敏感数据使用清单;数据内容解析模块,用于利用预设数据特征分析算法解析敏感数据复杂转换过程,获取敏感数据检查清单;预警审计模块,用于根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果;调整模块,用于根据审计结果调整敏感数据的预警级别、相应的预警处理内容、敏感字段库、敏感数据使用清单、敏感数据检查清单及数据特征分析算法。
第三方面,本发明实施例提供一种计算机设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的防止敏感数据泄漏的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面所述的防止敏感数据泄漏的方法。
本发明技术方案,具有如下优点:
1.本发明提供的防止敏感数据泄漏的方法及系统,将原始敏感字段库、元数据管理、模型及代码安全解析、敏感数据血缘关系、敏感数据内容特征解析及检测和敏感数据预警审计相结合,使得敏感数据的流转和使用过程更直观、清晰;利用元数据及血缘关系追踪了敏感数据从产生到使用的全生命周期中的各个环节,有效降低了全生命周期中敏感数据泄露的风险。
2.本发明提供的防止敏感数据泄漏的方法及系统,利用数据特征分析算法模型对汇集计算后的结果数据是否可逆变换为敏感数据进行检查,降低了以非敏感结果集数据的形式,以数据分析为名的敏感数据窃取事件的发生;自动预警并审计敏感数据,实现了管理敏感数据到敏感数据预警及人工审核的电力数据安全治理的全流程自动化,将人工审核的结果又返回给敏感数据内容特征解析算法,提高了算法的精准度。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的防止敏感数据泄漏的方法的一个具体示例的流程图;
图2为本发明实施例中提供的建立目标源业务系统的原始敏感字段库的一个具体示例的流程图;
图3为本发明实施例中提供的获取敏感数据全生命周期的过程中的元数据的一个具体示例的示意图;
图4为本发明实施例中提供的解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径的一个具体示例的流程图;
图5为本发明实施例中提供的获取敏感数据检查清单的一个具体示例的流程图;
图6为本发明实施例中提供的预警审计敏感数据的一个具体示例的流程图;
图7为本发明实施例中提供的防止敏感数据泄漏的方法的具体实现方法的流程图;
图8为本发明实施例中提供的防止敏感数据泄漏的系统的一个具体示例的组成图;
图9为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供一种防止敏感数据泄漏的方法,可以应用于大数据安全治理领域,如图1所示,该防止敏感数据泄漏的方法包括如下步骤:
步骤S1:利用预设敏感字段发现算法建立源业务系统的原始敏感字段库。
本发明实施例中,由于敏感字段都是从源业务系统中产生的,因此要梳理源业务中敏感数据,同时利用预设敏感字段发现算法,建立源业务系统的原始敏感字段库,便于统一管理所有敏感字段信息,本发明实施例中的预设敏感字段发现算法为现有技术中比较成熟的算法,根据实际源业务类型选择相应的算法,在此不做限制。
步骤S2:获取敏感数据全生命周期过程中的元数据。
本发明实施例中,为了帮助数据仓库管理员和数据仓库的开发人员方便地找到所需要的数据,需要根据敏感数据的传输、存储、处理及使用的全生命周期的过程中的源业务数据库、数据中心的各数据层、数据抽取转换过程、报表系统及数据建模工具中的数据信息获取元数据。
步骤S3:根据所述原始敏感字段库和所述元数据,解析敏感数据流转过程中的模型及代码,获取敏感数据的全链路血缘关系和使用路径。
本发明实施例中,利用代码分析技术对数据抽取转换过程、报表系统及数据建模工具中的模型及代码进行解析,从而获取全链路中敏感数据的血缘关系和使用路径。
步骤S4:利用所述敏感数据的血缘关系和使用路径,获取敏感数据使用清单。
本发明实施例中,查询利用全链路中敏感数据的血缘关系和使用路径,搜索敏感血缘关系(即包含敏感数据的元数据和包含敏感数据的数据之间的关系),获取敏感字段的使用路径,追溯敏感字段来源和使用去向,最终获取敏感数据使用清单,使得敏感数据的流转和使用过程更直观、清晰。
步骤S5:利用预设数据特征分析算法解析敏感数据的复杂转换过程,获取敏感数据检查清单。
本发明实施例中,为了防止以非敏感数据形式的敏感数据泄漏,利用数据特征分析算法模型对汇集计算后的结果数据是否可逆变换为敏感数据进行检查,获取敏感数据检查清单。
步骤S6:根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果。
本发明实施例中,根据综合敏感字段库、敏感数据使用清单、敏感数据检查清单、用户权限、数量级申请及使用等内容来设置预警级别,并对高危级别的数据进行预警并将高危预警发至人工审核,从而实现管理敏感数据到敏感数据预警及人工审核的数据安全治理的全流程自动化。
步骤S7:根据审计结果调整敏感数据的预警级别、相应的预警处理内容、敏感字段库、敏感数据使用清单及敏感数据检查清单。
本发明实施例中,根据审计结果,更新调整敏感数据级别、预警方式、预警接收人、预警处理方式、敏感字段库、敏感数据使用清单及敏感数据检查清单,从而加固对敏感数据特征的解析检查。
本发明提供的防止敏感数据泄漏的方法及系统,将原始敏感字段库、元数据管理、模型及代码安全解析、敏感数据血缘关系、敏感数据内容特征解析及检测和敏感数据预警审计相结合,使得敏感数据的流转和使用过程更直观、清晰;利用元数据及血缘关系追踪了敏感数据从产生到使用的全生命周期中的各个环节,有效降低了全生命周期中敏感数据泄露的风险。
在一具体实施例中,如图2所示,执行步骤S1的过程可以具体包括如下步骤:
步骤S11:获取源业务系统的原始敏感数据信息。
本发明实施例中,源业务系统的原始敏感数据信息主要是通过业务人员及数据管理人员录入原始敏感数据信息。
步骤S12:利用预设敏感字段发现算法方法获取敏感数据。
本发明实施例中,通过调用敏感字段发现算法库自动获取敏感数据,敏感字段发现算法库中集成多种敏感字段发现算法方法,可根据敏感数据的类型选择相应的算法识别敏感数据。
步骤S13:根据所述敏感数据建立原始敏感字段库。
本发明实施例中,根据利用预设敏感字段发现算法方法获取的敏感数据,根据各个源业务系统及敏感字段信息,建立原始敏感字段库,统一管理敏感字段信息。
在一具体实施例中,执行步骤S2的过程包括:获取源业务数据库、数据中心的各数据层、数据抽取转换过程、报表系统及数据建模工具的数据信息中的元数据。
为了帮助数据仓库管理员和数据仓库的开发人员非方便地找到所需要的数据,需要根据敏感数据的传输、存储、处理、使用的全生命周期的过程中的源业务数据库、数据中心、数据抽取转换过程(ETL过程)、报表系统及数据建模工具获取元数据。如图3所示,本发明实施例中,源业务数据库包括关系型数据库Oracle、mysql等主流数据库,非关系型数据库包括Hbase、hive等主流数据库;数据中心包括数据中心的贴源层、明细层、汇总层、集市层及数据中台的数据服务;数据抽取转换过程包括数据抽取转换模型、代码程序及脚本语言;报表系统报告报表工具与报表代码;数据建模工具包括建模工具、数据模型。
在一具体实施例中,如图4所示,执行步骤S3的过程可以具体包括如下步骤:
步骤S31:获取数据抽取转换过程、报表系统及数据建模工具中的数据信息。
本发明实施例中,为了得到敏感字段与敏感数据的关系,首先应该获得其关系中的数据信息,数据信息包括代码与模型,来源于数据抽取转换过程、报表系统及数据建模工具中的数据信息。
步骤S32:解析所述数据抽取转换过程、报表系统及数据建模工具中的数据信息,获取敏感字段的处理过程。
本发明实施例中,利用代码分析技术对数据抽取转换过程、报表系统及数据建模工具中的数据信息中的代码及模型进行解析,获取敏感字段的处理过程。
步骤S33:根据所述敏感字段的处理过程,获取全链路中敏感数据的血缘关系和使用路径。
本发明实施例中,由于需要追踪敏感数据的在传输、存储、处理、转换及分析挖掘的全生命周期过程中的路径,需要根据所述敏感字段的处理过程,获取全链路中敏感数据的血缘关系和使用路径。
在一具体实施例中,执行步骤S4的过程可以具体包括如下步骤:所述全链路中敏感数据的血缘关系和使用路径,追溯敏感字段的来源和使用去向,获取敏感数据使用清单。
本发明实施例中,根据全链路中敏感数据的血缘关系和使用路径,可向前追溯敏感字段来源,向后可追溯敏感字段使用去向,获取敏感数据使用清单,使得敏感数据的流转和使用过程更直观、清晰。
在一具体实施例中,如图5所示,执行步骤S5的过程可以具体包括如下步骤:
步骤S51:利用预设数据特征分析算法分析敏感数据被计算之前与计算之后的特征。
本发明实施例中,为了防止以非敏感数据形式的敏感数据泄漏,调用数据特征分析算法模型库,数据特征分析算法模型库包括数据特征分析算法及模型方法,分析敏感数据被计算之前与计算之后的内容及特征。例如:敏感字段A,通过加上一个常量C,计算得到字段B,即B=A+C,其中A为计算之前的敏感字段,B为计算后的非敏感字段。
步骤S52:分析敏感数据汇集计算之后的结果数据是否可逆变换为敏感数据。
本发明实施例中,通过对比分析计算前的数据和计算后的数据的内容及特征,检查敏感数据汇集计算后的结果数据是否可逆变换为敏感数据。
步骤S53:根据敏感数据的是否可逆变换的特征,获取敏感数据检查清单。
本发明实施例中,为了降低以非敏感结果集数据的形式,以数据分析为名的敏感数据泄露事件的发生,需要分析检查非敏感数据是否可逆变换为敏感数据,获取敏感数据检查清单。
在一具体实施例中,如图6所示,执行步骤S6的过程可以具体包括如下步骤:
步骤S61:将用户权限、数量级的申请和使用、敏感字段重要级别、敏感字段使用频度、结果数据可逆变换为敏感数据的置信度作为预警规则,设置敏感数据的预警级别。
本发明实施例中,根据用户权限、敏感字段重要级别、敏感字段使用频度、计算后的结果数据是否可逆变换为敏感数据的置信度等设置预警规则。
步骤S62:根据敏感数据的预警级别设置不同的预警方式、预警接收人及预警处理方式。
本发明实施例中,根据预警级别的高中低不同,设置不同的预警方式、预警接收人及预警处理方式,其中,预警方式包括邮件通知、短信通知、电话通知等;预警接收人包括敏感信息的拥有者,敏感信息的使用者,敏感信息的管理者及本发明所提出的一种防止敏感数据泄漏的系统运维者;预警处理方式包括数据泄漏提示,数据泄漏报警,敏感数据服务停用,敏感数据服务启用,敏感数据加密。
步骤S63:对高危预警的数据预警并进行人工审核,获取审计结果。
本发明实施例中,将高危预警的数据发送到人工审核,人工确认敏感数据级别、预警方式、预警接收人、预警处理方式、敏感字段库、敏感数据使用清单及敏感数据检查清单,获取审计结果。
本发明实施例中,将元数据管理、安全解析、敏感数据血缘关系及使用路径追溯与敏感数据内容特征解析及检测和敏感数据预警审计相结合,有效降低了数据从产生到使用的全生命周期的各个环节中敏感数据泄漏的风险,其具体实现的方法的流程如图7所示:
首先,获取目标源业务系统的原始敏感数据信息,利用预设敏感字段发现算法方法获取敏感数据,人工审核敏感数据信息,如果敏感数据信息全面且正确,则建立原始敏感字段库,如果敏感数据信息不全面且正确,则继续人工梳理敏感数据信息,直到敏感数据信息全面且正确后,方可建立原始敏感字段库;其次,配置源业务数据库、数据中心的各数据层、ETL过程、报表系统及数据建模工具,获取系统及库表的元数据,检查元数据中是否含有敏感数据信息,如果元数据中含有敏感数据信息,则对其代码及模型解析,分析敏感字段的处理过程,获取全链路中敏感数据血缘关系和使用路径,获取敏感数据使用清单;当复杂分析过程中使用过敏感信息时,利用预设数据特征分析算法分析敏感数据被计算之前与计算之后的特征,分析敏感数据汇集计算后的结果数据是否可逆变换为敏感数据,根据敏感数据的是否可逆变换的特征,获取敏感数据检查清单;当元数据中含有敏感信息时,设置敏感数据预警规则,根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果;最后根据审计结果调整敏感数据的预警级别、相应的预警处理内容、敏感字段库、敏感数据使用清单、敏感数据检查清单及数据特征分析算法。
本发明提供的防止敏感数据泄漏的方法及系统,将原始敏感字段库、元数据管理、模型及代码安全解析、敏感数据血缘关系、敏感数据内容特征解析及检测和敏感数据预警审计相结合,使得敏感数据的流转和使用过程更直观、清晰;利用元数据及血缘关系追踪了敏感数据从产生到使用的全生命周期中的各个环节,有效降低了全生命周期中敏感数据泄露的风险;利用数据特征分析算法模型对汇集计算后的结果数据是否可逆变换为敏感数据进行检查,降低了以非敏感结果集数据的形式,以数据分析为名的敏感数据窃取事件的发生;自动预警并审计敏感数据,实现了管理敏感数据到敏感数据预警及人工审核的电力数据安全治理的全流程自动化,将人工审核的结果又返回给敏感数据内容特征解析算法,提高了算法的精准度。
实施例2
本施例提供一种防止敏感数据泄漏的系统,如图8所示,包括:
原始敏感字段库建立模块1,用于利用预设敏感字段发现算法建立源业务系统的原始敏感字段库;此模块执行实施例1中的步骤S1所描述的方法,在此不再赘述。
元数据获取模块2,用于获取敏感数据全生命周期的过程中的元数据;此模块执行实施例1中的步骤S2所描述的方法,在此不再赘述。
模型及代码解析模块3,用于解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径;此模块执行实施例1中的步骤S3所描述的方法,在此不再赘述。
敏感数据路径分析模块4,用于利用所述全链路中敏感数据的血缘关系和使用路径,获取敏感数据使用清单;此模块执行实施例1中的步骤S4所描述的方法,在此不再赘述。
数据内容解析模块5,用于利用预设数据特征分析算法解析敏感数据复杂转换过程,获取敏感数据检查清单;此模块执行实施例1中的步骤S5所描述的方法,在此不再赘述。
预警审计模块6,用于根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果;此模块执行实施例1中的步骤S6所描述的方法,在此不再赘述。
调整模块7,用于根据审计结果调整敏感数据的预警级别、相应的预警处理内容、敏感字段库、敏感数据使用清单、敏感数据检查清单及数据特征分析算法;此模块执行实施例1中的步骤S7所描述的方法,在此不再赘述。
本发明提供的防止敏感数据泄漏的方法及系统,将原始敏感字段库、元数据管理、模型及代码安全解析、敏感数据血缘关系、敏感数据内容特征解析及检测和敏感数据预警审计相结合,使得敏感数据的流转和使用过程更直观、清晰;利用元数据及血缘关系追踪了敏感数据从产生到使用的全生命周期中的各个环节,有效降低了全生命周期中敏感数据泄露的风险;利用数据特征分析算法模型对汇集计算后的结果数据是否可逆变换为敏感数据进行检查,降低了以非敏感结果集数据的形式,以数据分析为名的敏感数据窃取事件的发生;自动预警并审计敏感数据,实现了管理敏感数据到敏感数据预警及人工审核的电力数据安全治理的全流程自动化,将人工审核的结果又返回给敏感数据内容特征解析算法,提高了算法的精准度。
实施例3
本发明实施例提供一种计算机设备,如图9所示,包括:至少一个处理器401,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(Display)、键盘(Keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速RAM存储器(Ramdom Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1的防止敏感数据泄漏的方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1的防止敏感数据泄漏的方法。
其中,通信总线402可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图9仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器404可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固降硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logicdevice,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmablegate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的防止敏感数据泄漏的方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1的防止敏感数据泄漏的方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固降硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种防止敏感数据泄漏的方法,其特征在于,包括如下步骤:
利用预设敏感字段发现算法建立源业务系统的原始敏感字段库;
获取敏感数据全生命周期过程中的元数据;
根据所述原始敏感字段库和所述元数据,解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径;
利用所述敏感数据的血缘关系和使用路径,获取敏感数据使用清单;
利用预设数据特征分析算法解析敏感数据的复杂转换过程,获取敏感数据检查清单;
根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果;
根据审计结果调整敏感数据的预警级别、相应的预警处理内容、敏感字段库、敏感数据使用清单、敏感数据检查清单及数据特征分析算法。
2.根据权利要求1所述的防止敏感数据泄漏的方法,其特征在于,所述利用预设敏感字段发现算法建立源业务系统的原始敏感字段库的步骤,包括:
获取源业务系统的原始敏感数据信息;
利用预设敏感字段发现算法方法获取敏感数据;
根据所述敏感数据建立原始敏感字段库。
3.根据权利要求1所述的防止敏感数据泄漏的方法,其特征在于,所述获取敏感数据全生命周期过程中的元数据的步骤,包括:
获取源业务数据库、数据中心的各数据层、数据抽取转换过程、报表系统及数据建模工具的数据信息中的元数据。
4.根据权利要求3所述的防止敏感数据泄漏的方法,其特征在于,所述根据所述原始敏感字段库和所述元数据,解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径的步骤,包括:
获取数据抽取转换过程、报表系统及数据建模工具中的数据信息;
解析所述数据抽取转换过程、报表系统及数据建模工具中的数据信息,获取敏感字段的处理过程;
根据所述敏感字段的处理过程,获取全链路中敏感数据的血缘关系和使用路径。
5.根据权利要求4所述的防止敏感数据泄漏的方法,其特征在于,所述利用所述全链路中敏感数据的血缘关系和使用路径,获取敏感数据使用清单的步骤,包括:
所述全链路中敏感数据的血缘关系和使用路径,追溯敏感字段的来源和使用去向,获取敏感数据使用清单。
6.根据权利要求5所述的防止敏感数据泄漏的方法,其特征在于,所述利用预设数据特征分析算法解析敏感数据的复杂转换过程,获取敏感数据检查清单的步骤,包括:
利用预设数据特征分析算法分析敏感数据被计算之前与计算之后的特征;
分析敏感数据汇集计算之后的结果数据是否可逆变换为敏感数据;
根据敏感数据的是否可逆变换的特征,获取敏感数据检查清单。
7.根据权利要求6所述的防止敏感数据泄漏的方法,其特征在于,所述根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果的步骤,包括:
将用户权限、数量级的申请和使用、敏感字段重要级别、敏感字段使用频度、结果数据可逆变换为敏感数据的置信度作为预警规则,设置敏感数据的预警级别;
根据敏感数据的预警级别设置不同的预警方式、预警接收人及预警处理方式;
对高危预警的数据预警并进行人工审核,获取审计结果。
8.一种防止敏感数据泄漏的系统,其特征在于,包括:
原始敏感字段库建立模块,用于利用预设敏感字段发现算法建立源业务系统的原始敏感字段库;
元数据获取模块,用于获取敏感数据全生命周期的过程中的元数据;
模型及代码解析模块,用于解析敏感数据流转过程中的模型及代码,获取全链路中敏感数据的血缘关系和使用路径;
敏感数据路径分析模块,用于利用所述全链路中敏感数据的血缘关系和使用路径,获取敏感数据使用清单;
数据内容解析模块,用于利用预设数据特征分析算法解析敏感数据复杂转换过程,获取敏感数据检查清单;
预警审计模块,用于根据预设预警规则对敏感数据设置预警级别及相应的预警处理内容,并对高危预警的敏感数据预警并进行人工审核,获取审计结果;
调整模块,用于根据审计结果调整敏感数据的预警级别、相应的预警处理内容、敏感字段库、敏感数据使用清单、敏感数据检查清单及数据特征分析算法。
9.一种计算机设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-7中任一所述的防止敏感数据泄漏的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-7中任一所述的防止敏感数据泄漏的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910910399.XA CN110704873B (zh) | 2019-09-25 | 2019-09-25 | 一种防止敏感数据泄漏的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910910399.XA CN110704873B (zh) | 2019-09-25 | 2019-09-25 | 一种防止敏感数据泄漏的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704873A true CN110704873A (zh) | 2020-01-17 |
CN110704873B CN110704873B (zh) | 2021-05-25 |
Family
ID=69196369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910910399.XA Active CN110704873B (zh) | 2019-09-25 | 2019-09-25 | 一种防止敏感数据泄漏的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704873B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339075A (zh) * | 2020-02-28 | 2020-06-26 | 三盟科技股份有限公司 | 面向教育领域的数据追溯方法、系统、设备及存储介质 |
CN111666186A (zh) * | 2020-04-26 | 2020-09-15 | 杭州数梦工场科技有限公司 | 数据访问异常的检测方法、装置、存储介质及计算机设备 |
CN112307510A (zh) * | 2020-11-02 | 2021-02-02 | 国网江苏省电力有限公司信息通信分公司 | 数据中台数据资产权限管理方法和管理系统 |
CN112839077A (zh) * | 2020-12-29 | 2021-05-25 | 北京安华金和科技有限公司 | 一种敏感数据确定方法及装置 |
CN113032834A (zh) * | 2021-04-20 | 2021-06-25 | 江苏保旺达软件技术有限公司 | 一种数据库表格处理方法、装置、设备及存储介质 |
CN113672653A (zh) * | 2021-08-09 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 识别数据库中的隐私数据的方法和装置 |
CN116541887B (zh) * | 2023-07-07 | 2023-09-15 | 云启智慧科技有限公司 | 一种大数据平台数据安全保护方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968600A (zh) * | 2012-10-30 | 2013-03-13 | 国网电力科学研究院 | 一种基于指纹信息植入的敏感数据文件的全生命周期管理方法 |
EP2816774A1 (en) * | 2013-06-17 | 2014-12-24 | Alcatel Lucent | System for enforcing privacy policies in a telecommunication network |
CN107633183A (zh) * | 2017-09-29 | 2018-01-26 | 东南大学 | 一种基于查询结果集敏感度的数据泄露检测方法 |
CN108200073A (zh) * | 2018-01-12 | 2018-06-22 | 阳光保险集团股份有限公司 | 一种敏感数据安全保护系统 |
CN108536739A (zh) * | 2018-03-07 | 2018-09-14 | 中国平安人寿保险股份有限公司 | 元数据敏感信息字段识别方法、装置、设备及存储介质 |
CN108833117A (zh) * | 2018-07-25 | 2018-11-16 | 海南新软软件有限公司 | 一种私钥存储和读取方法、装置及硬件设备 |
CN109388642A (zh) * | 2018-10-23 | 2019-02-26 | 北京计算机技术及应用研究所 | 基于标签的敏感数据追踪溯源方法 |
CN109597892A (zh) * | 2018-12-25 | 2019-04-09 | 杭州数梦工场科技有限公司 | 一种数据库中数据的分类方法、装置、设备及存储介质 |
CN110166551A (zh) * | 2019-05-22 | 2019-08-23 | 贵州理工学院 | 智慧社区综合服务平台 |
-
2019
- 2019-09-25 CN CN201910910399.XA patent/CN110704873B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968600A (zh) * | 2012-10-30 | 2013-03-13 | 国网电力科学研究院 | 一种基于指纹信息植入的敏感数据文件的全生命周期管理方法 |
EP2816774A1 (en) * | 2013-06-17 | 2014-12-24 | Alcatel Lucent | System for enforcing privacy policies in a telecommunication network |
CN107633183A (zh) * | 2017-09-29 | 2018-01-26 | 东南大学 | 一种基于查询结果集敏感度的数据泄露检测方法 |
CN108200073A (zh) * | 2018-01-12 | 2018-06-22 | 阳光保险集团股份有限公司 | 一种敏感数据安全保护系统 |
CN108536739A (zh) * | 2018-03-07 | 2018-09-14 | 中国平安人寿保险股份有限公司 | 元数据敏感信息字段识别方法、装置、设备及存储介质 |
CN108833117A (zh) * | 2018-07-25 | 2018-11-16 | 海南新软软件有限公司 | 一种私钥存储和读取方法、装置及硬件设备 |
CN109388642A (zh) * | 2018-10-23 | 2019-02-26 | 北京计算机技术及应用研究所 | 基于标签的敏感数据追踪溯源方法 |
CN109597892A (zh) * | 2018-12-25 | 2019-04-09 | 杭州数梦工场科技有限公司 | 一种数据库中数据的分类方法、装置、设备及存储介质 |
CN110166551A (zh) * | 2019-05-22 | 2019-08-23 | 贵州理工学院 | 智慧社区综合服务平台 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111339075A (zh) * | 2020-02-28 | 2020-06-26 | 三盟科技股份有限公司 | 面向教育领域的数据追溯方法、系统、设备及存储介质 |
CN111666186A (zh) * | 2020-04-26 | 2020-09-15 | 杭州数梦工场科技有限公司 | 数据访问异常的检测方法、装置、存储介质及计算机设备 |
CN111666186B (zh) * | 2020-04-26 | 2023-09-15 | 杭州数梦工场科技有限公司 | 数据访问异常的检测方法、装置、存储介质及计算机设备 |
CN112307510A (zh) * | 2020-11-02 | 2021-02-02 | 国网江苏省电力有限公司信息通信分公司 | 数据中台数据资产权限管理方法和管理系统 |
CN112839077A (zh) * | 2020-12-29 | 2021-05-25 | 北京安华金和科技有限公司 | 一种敏感数据确定方法及装置 |
CN113032834A (zh) * | 2021-04-20 | 2021-06-25 | 江苏保旺达软件技术有限公司 | 一种数据库表格处理方法、装置、设备及存储介质 |
CN113672653A (zh) * | 2021-08-09 | 2021-11-19 | 支付宝(杭州)信息技术有限公司 | 识别数据库中的隐私数据的方法和装置 |
CN116541887B (zh) * | 2023-07-07 | 2023-09-15 | 云启智慧科技有限公司 | 一种大数据平台数据安全保护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110704873B (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704873B (zh) | 一种防止敏感数据泄漏的方法及系统 | |
US11295034B2 (en) | System and methods for privacy management | |
US20120023586A1 (en) | Determining privacy risk for database queries | |
US11783349B2 (en) | Compliance management system | |
EP3468145B1 (en) | Automated vulnerability grouping | |
CN112527774A (zh) | 数据中台搭建方法、系统及存储介质 | |
US20190116178A1 (en) | Application error fingerprinting | |
US20120259865A1 (en) | Automated correlation discovery for semi-structured processes | |
US11743147B2 (en) | Post incident review | |
US20180143958A1 (en) | Automated form generation and analysis | |
US11144643B1 (en) | Functional language source code vulnerability scanner | |
CN109684863B (zh) | 数据防泄漏方法、装置、设备及存储介质 | |
US20220138032A1 (en) | Analysis of deep-level cause of fault of storage management | |
CN113051308A (zh) | 告警信息处理方法、设备、存储介质及装置 | |
CN114764508A (zh) | 一种基于人工智能的企业数据安全管理系统 | |
CN116541372A (zh) | 一种数据资产治理方法及系统 | |
CN116112194A (zh) | 用户行为分析方法、装置、电子设备及计算机存储介质 | |
CN116719799A (zh) | 环保数据治理方法、装置、计算机设备和存储介质 | |
CN115033574A (zh) | 信息生成方法、信息生成装置、电子设备及存储介质 | |
US9773081B2 (en) | Analytic model lifecycle maintenance and invalidation policies | |
CN114281586A (zh) | 故障确定方法及装置、电子设备和计算机可读存储介质 | |
CN112182080A (zh) | 数据集成系统和基于数据集成系统的数据处理方法 | |
CN111352795A (zh) | 一种移动业务的监控方法及装置 | |
CN114531247B (zh) | 数据共享方法、装置、设备、存储介质及程序产品 | |
US11741409B1 (en) | Compliance management system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |