CN114297283B - 一种基于元数据驱动的数据安全管理方法与系统 - Google Patents

一种基于元数据驱动的数据安全管理方法与系统 Download PDF

Info

Publication number
CN114297283B
CN114297283B CN202111638357.9A CN202111638357A CN114297283B CN 114297283 B CN114297283 B CN 114297283B CN 202111638357 A CN202111638357 A CN 202111638357A CN 114297283 B CN114297283 B CN 114297283B
Authority
CN
China
Prior art keywords
data
metadata
asset
matching
assets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111638357.9A
Other languages
English (en)
Other versions
CN114297283A (zh
Inventor
林炳生
许光锋
黄惠海
林山
黄键
牛军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Anscen Network Technology Co ltd
Original Assignee
Xiamen Anscen Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Anscen Network Technology Co ltd filed Critical Xiamen Anscen Network Technology Co ltd
Priority to CN202111638357.9A priority Critical patent/CN114297283B/zh
Publication of CN114297283A publication Critical patent/CN114297283A/zh
Application granted granted Critical
Publication of CN114297283B publication Critical patent/CN114297283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明给出了一种基于元数据驱动的数据安全管理方法与系统,包括基于公共仓库元模型设计标准的元数据以及元模型;将探查器和适配器作为独立的小程序与被用于管理元数据的主系统连接,再利用探查器对数据库服务进行探查和处理,利用适配器对各类数据源的元数据进行获取和入库;基于元模型和已获取的元数据进行元数据自动识别以及关联结合,从而对已获取的元数据构建用于逐级提取明细信息的目录;使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;基于目录以及数据资产的元数据的动态变化,评估资产的总体风险概况。能够很好的协助用户了解数据资产分布以及梳理数据使用情况。

Description

一种基于元数据驱动的数据安全管理方法与系统
技术领域
本发明涉及数据安全技术领域,尤其是一种基于元数据驱动的数据安全管理方法与系统。
背景技术
元数据是描述数据的数据,从元数据出发去进行数据安全的管理监控,能够比较准确的进行数据风险评估,从而驱动整体数据资产的合规利用。国内大部分企业组织已经认识到数据安全的重要性,逐渐在搭建数据安全管理系统,也认识到元数据管理的必要性,国内关于元数据的参考文献、实际案例有不少,大部分的文献、案例都是关于元数据定义、分类、标准等方面,少部分基于CWM(公共仓库元模型)进行驱动设计,因此很多现有的案例都多少存在架构不灵活、元数据滥用等情况。
传统的数据安全侧重于对设备本身的保护,给数据和网络划分边界。但是现在企业的传统的IT边界在逐渐的消失,企业自身的使用人员从原来坐在办公室里面,挪向了分支机构以及互联网,特别是移动应用如此蓬勃发展的今天,用户跑到互联网上,应用跑到云上,传统整套的安全理论和安全可视化就不再适用,传统面向边界的安全模型也不再成立。将来业务的趋势一定会是走云计算,云计算移动互联网的兴起导致传统边界模型失效。
新兴的数据安全并非取代传统的数据安全,而是在传统的数据体系的基础上实现对数据的安全管控和安全保障,传统数据安全强调的是以边界防护和数据自身的安全,而新兴的数据安全除了自身的数据安全以外,还强调整个数据生命周期上如何合规使用数据,从而保障数据流动的安全。
可以总结以下几点:
1.新兴的数据安全以数据使用的安全为目标,传统数据安全是保护数据自身安全不受攻击;
2.新兴的数据安全是监管内部和外部产生的安全问题,传统数据安全主要保障外部入侵为主;
3.新兴的数据安全在数据合规安全使用上保障在数据安全和数据使用上得到平衡,而传统数据安全主要是如何在数据上做防护;
4.新兴的数据安全使用过程中采用安全技术支撑,而传统数据安全主要针对边界安全防护的手段;
5.新兴的数据安全除了安全技术支撑还要融合制度管理和流程规范来保障数据流动的全生命周期安全,而传统数据安全管理和技术相对比较独立;
6.新兴的数据安全在密码学上提出了更高的要求,而传统数据安全以对称加密等为主。
发明内容
本发明提出了一种基于元数据驱动的数据安全管理方法与系统,以解决上文提到的现有技术的缺陷。
在一个方面,本发明提出了一种基于元数据驱动的数据安全管理方法,该方法包括以下步骤:
S1:基于公共仓库元模型设计标准的元数据以及元模型;
S2:将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;
S3:基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;
S4:使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;
S5:基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况。
以上方法基于公共仓库元模型设计标准的元数据以及元模型,解耦适配器灵活适配多种数据源,利用适配器根据标准元模型采集元数据并结合NLP算法推荐分类分级驱动数据安全管理。能够帮助用户全面梳理企业数据资产,通过扫描嗅探、流量日志分析技术,协助用户摸清数据资产分布、理顺数据使用情况,并辅助进行数据分类分级的数据安全产品。
在具体的实施例中,所述S1具体包括:
首先将数据抽象为元数据,再将元数据经抽象后借助预设的形式化语言进行描述;
在构建元模型时采用UML统一建模语言,对各类数据资产进行元模型的建模;
所述资产包括数据库、数据表、文件和接口;
所述元模型的建模包括定义模型属性,以及定义内部结构和模型之间的关系。本方法的元模型支持调整优化,以适应各种数据资产的元数据版本更新。
在具体的实施例中,所述S2具体包括:
所述探查器进行服务器资产探查,再将探查到的数据库服务收集汇总到主系统;
所述主系统通过调度策略控制适配器;
所述适配器从各类数据源扫描获取元数据,并将所述元数据根据所述元模型规范整理入库,在每次扫描的同时记录所述元数据的版本变更情况。在本方案中,为了方便扩展与灵活部署,将探查器、适配器作为独立的小程序与元数据管理主系统解耦,开发适配各类数据源的组件。探查器先进行服务器资产探查,将可能存在的数据库服务收集汇总到主系统,主系统通过调度策略控制适配器,适配器从各类数据源扫描获取元数据,并将元数据根据元模型规范整理入库,每次扫描都记录元数据版本变更情况。
在具体的实施例中,所述各类数据源具体包括:关系型数据库、列式数据库、文档型数据库和文件系统。
在具体的实施例中,所述从字段级对数据资产进行定义具体包括:
从元数据信息和数据分类分级信息对数据资产进行定义。本方法为用户提供用于构建并手动维护所述已获取的元数据的目录再根据所述目录实现数据地图服务;所述数据地图服务支持用户根据数据安全管理系统的建设情况对所述目录进行手动维护,从而获得数据地图;数据资产的安全管理,其中一个关键点就是要清晰掌握数据资产目录,基于标准元模型和已掌握的元数据自动识别元数据关联结合,该方案设计可实现字段级的数据资产定义与管理,支持逐级钻取元数据明细信息,数据资产存储内容包括元数据信息、数据分类分级信息等,即通过数据地图可掌握字段级数据资产的血缘关系。
在具体的实施例中,所述S4具体包括:
在标准的元数据中对标准的字段进行定义以及分类分级,同时定义对字段进行识别匹配的规则,所述规则被用于对字段进行精确匹配、模糊匹配、前缀匹配、后缀匹配、正则匹配以及智能算法匹配;
在扫描数据资产时,基于所述规则进行自动匹配对标,当对标成功则表示完成对数据资产的分类分级。
在具体的实施例中,所述规则具体包括:字段名匹配、字段注释匹配和数据内容匹配。
在具体的实施例中,所述S5具体包括:
根据分类分级后的数据资产的敏感等级推荐监控策略,通过调度引擎自动调度对数据资产的扫描,监控数据资产的元数据的变更动态;
再根据所述变更动态结合数据资产的基础信息综合评估数据资产的风险状况;
参考国家颁布的数据管理能力成熟度评估模型生成数据资产风险评估报告。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出一种基于元数据驱动的数据安全管理系统,该系统包括:
元模型构建模块:配置用于基于公共仓库元模型设计标准的元数据以及元模型;
元数据获取和入库模块:配置用于将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;
元数据目录构建模块:配置用于基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;
资产分类分级模块:配置用于使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;
资产评估模块:配置用于基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况。
本发明基于公共仓库元模型设计标准的元数据以及元模型;将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况。能够协助用户摸清数据资产分布、理顺数据使用情况,并辅助进行数据分类分级的数据安全产品。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是本发明的一个实施例的一种基于元数据驱动的数据安全管理方法的流程图;
图3是本发明的一个具体的实施例的探查器、适配器和主系统的解耦结构;
图4是本发明的一个实施例的一种基于元数据驱动的数据安全管理系统的框架图;
图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的一种基于元数据驱动的数据安全管理方法的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、数据可视化类应用、网页浏览器应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上展示的数据资产提供支持的后台信息处理服务器。后台信息处理服务器可以对获取的明细信息进行处理,并生成处理结果(例如数据目录)。
需要说明的是,本申请实施例所提供的方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应的装置一般设置于服务器105中,也可以设置于终端设备101、102、103中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的一个实施例的一种基于元数据驱动的数据安全管理方法,图2示出了根据本发明的实施例的一种基于元数据驱动的数据安全管理方法的流程图。如图2所示,该方法包括以下步骤:
S1:基于公共仓库元模型设计标准的元数据以及元模型。
在具体的实施例中,所述S1具体包括:
首先将数据抽象为元数据,再将元数据经抽象后借助预设的形式化语言进行描述;
在构建元模型时采用UML统一建模语言,对各类数据资产进行元模型的建模;
所述资产包括数据库、数据表、文件和接口;
所述元模型的建模包括定义模型属性,以及定义内部结构和模型之间的关系。
(一)元数据管理
元数据是一种结构化的信息,用于对某项信息资源进行描述、解释、定位,使其易于提取和使用。大数据时代,数据的滥用和数据的泄漏问题层出不穷。为此通过元数据管理高效支撑海量数据资产的快速识别定位、高效有序的安全管理和智能便捷的合规应用,使安全决策者知晓数据资产概况,安全管理者知晓数据资产的安全状况,使用者知晓数据资产的来龙去脉。
元数据包括业务元数据、技术元数据和管理元数据。元数据管理以业务模型为切入点,以数据模型基于业务原始数据且未进行逻辑加工处理的模型为中心,制定业务模型和数据模型标准,管理数据模型、数据应用、数据集成、数据处理、数据视图等对象元数据信息安全合规使用监控的情况。
元数据管理包含元数据采集、元数据维护、血缘分析、影响度分析、表关联度分析、元数据稽核等功能。通过数据资产探查、数据安全审计、数据安全评估等进行对数据安全的统一管理和评估分析,进而支撑数据安全合规使用。
(二)元模型管理
核心元模型是以CWM为基础扩展形成的,针对五大核心数据对象主要实体进行精确定义,在数据中台所有组件统一遵循的元模型。定义元模型标准规范的目的是建立统一元数据管理标准,为数据全生命周期构建数据安全合规使用的重要基础。
首先,我们把元模型分成2个层次:知识层和行为层。知识层是企业中的各种规章制度、标准、模板等。行为层是企业对制度的落实和执行。
其次,补充数据的分类和分级组件;把企业的数据资产从数据架构提升,作为数据安全架构的一部分。
第三,产品、服务、数据、组件和资源等抽象为对象;把流程和职能抽象为流程;
通过这样的设计,使得数据安全管理系统与企业的业务系统或者平台之间的关系更加清晰,做到了“高内聚、低耦合”。
根据以上所述的基于公共仓库元模型,本实施例中元模型和元数据的设计方法如下:
元模型用于说明元数据的组织方式,是元数据管理架构的核心部分,而元模型设计则是元数据管理的重要步骤。元模型是元数据的模型,是对元数据抽象而准确的描述。
元数据建模过程是抽象的过程。建模过程首先是将数据抽象为元数据,再将元数据经抽象后借助一定的形式化语言进行描述。在构建元模型时采用UML统一建模语言,对各类数据资产(数据库、数据表、文件、接口等)进行元模型建模,建模内容主要包括定义模型属性、内部结构和模型之间的关系。元模型支持调整不断的调整优化,以适应各种数据资产的元数据版本更新。
S2:将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库。
在具体的实施例中,所述S2具体包括:
所述探查器进行服务器资产探查,再将探查到的数据库服务收集汇总到主系统;
所述主系统通过调度策略控制适配器;
所述适配器从各类数据源扫描获取元数据,并将所述元数据根据所述元模型规范整理入库,在每次扫描的同时记录所述元数据的版本变更情况。
在具体的实施例中,所述各类数据源具体包括:关系型数据库、列式数据库、文档型数据库和文件系统。
图3是本发明的一个具体的实施例的探查器、适配器和主系统的解耦结构;在本实施例中,如图3所示,为了方便扩展与灵活部署,将探查器、适配器作为独立的小程序与元数据管理主系统解耦,开发适配各类数据源的组件。探查器先进行服务器资产探查,将可能存在的数据库服务收集汇总到主系统,主系统通过调度策略控制适配器,适配器从各类数据源扫描获取元数据,并将元数据根据元模型规范整理入库,每次扫描都记录元数据版本变更情况。实现了解耦适配器灵活适配多种数据源。
S3:基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录。
在具体的实施例中,所述从字段级对数据资产进行定义具体包括:
从元数据信息和数据分类分级信息对数据资产进行定义。
在具体的实施例中,本方案构建元数据目录,提供清晰的数据地图服务;数据资产的安全管理,其中一个关键点就是要清晰掌握数据资产目录,基于标准元模型和已掌握的元数据自动识别元数据关联结合,该方案设计可实现字段级的数据资产定义与管理,支持逐级钻取元数据明细信息,数据资产存储内容包括元数据信息、数据分类分级信息等,即通过数据地图可掌握字段级数据资产的血缘关系。
S4:使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点。
在具体的实施例中,所述S4具体包括:
在标准的元数据中对标准的字段进行定义以及分类分级,同时定义对字段进行识别匹配的规则,所述规则被用于对字段进行精确匹配、模糊匹配、前缀匹配、后缀匹配、正则匹配以及智能算法匹配;
在扫描数据资产时,基于所述规则进行自动匹配对标,当对标成功则表示完成对数据资产的分类分级。
在具体的实施例中,所述规则具体包括:字段名匹配、字段注释匹配和数据内容匹配。
S5:基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况。
在具体的实施例中,所述S5具体包括:
根据分类分级后的数据资产的敏感等级推荐监控策略,通过调度引擎自动调度对数据资产的扫描,监控数据资产的元数据的变更动态;
再根据所述变更动态结合数据资产的基础信息综合评估数据资产的风险状况;
参考国家颁布的数据管理能力成熟度评估模型生成数据资产风险评估报告。
本发明基于元数据驱动的数据安全管理平台是一个以数据资产为基础,以业务信息系统为核心,以数据使用为指引,从监控、审计、风险和运维四个维度建立起来的一套可度量的统一数据安全管理支撑平台,是对数据安全的全生命周期在安全合规上的可用性与性能的监控、配置与事件的分析审计预警、风险与态势的度量与评估、安全运维流程的标准化、例行化和常态化,实现对数据的持续安全运营。
以元数据驱动为支撑,以业务安全为导向,构建起以数据为核心的安全管理体系,强调更加主动、智能地对企业和组织的数据安全进行管理和运营。实现对海量数据的安全进行全面的收集、整理、分析、审计,并借助智能化的分析手段提取出关键的安全事件;对复杂的业务场景的角度进行全方位的数据安全监测、数据安全流动和数据安全告警;主动对数据安全进行事前安全管理,在数据安全问题暴露前就获取数据的安全态势;对客户重要数据进行量化的风险评估;借助量化的分析模型实现全网的数据安全态势感知。
对于敏感数据的防护,提供全生命周期的安全管理和审计。安全防护贯穿于数据产生、访问、传输、使用和销毁的过程中,进而对泄密的明文根据标签进行溯源,实现事前安全管理、事后行为审计。
本方案全面梳理企业数据资产,通过扫描嗅探、流量日志分析技术,协助用户摸清数据资产分布、理顺数据使用情况,并辅助进行数据分类分级的数据安全产品;帮助客户实现以下需求目标:
满足国家安全检测标准,符合网络安全法、个人信息保护条例、数据安全法及各行业数据安全法规中,规定了需要对敏感数据采取安全防护手段,采用静态梳理敏感数据权限及分布、动态梳理敏感数据使用、辅助建设数据分类分级体系等手段,为用户进行数据安全合规建设中做出基石性工作。
数据资产盘点分布,通过技术手段,协助用户理顺数据资产,基于网络嗅探技术,自动寻找发现网络环境中存在的数据资产;基于特征匹配的敏感数据探测技术,可自动梳理数据中敏感数据分布;基于数据库扫描技术,可自动发现数据中账户权限分布情况。
提供对敏感数据使用情况的持续监控能力,可以为用户动态梳理敏感数据被哪些人,哪些业务系统,通过何种途径,在什么时间所访问,并能够汇总动态梳理结果,形成敏感数据流向图。
辅助数据分类分级建设,结合元模型根据行业情况进行敏感数据分类和分级,便于用户根据不同需要对数据资产进行重点防护。
辅助权限管控,结合数据分类分级,根据用户的使用规范进行精细化颗粒度的分配权限。
辅助应用优化,结合数据分类分级,根据应用的使用最小化动态管控策略进行授权。
帮助企业组织建立面向合规的数据安全管理制度、规范、流程,建立数据共享规范,明确数据共享内容和共享范围。
帮助企业合规审计和监管,确保始终符合数据保护和合规要求。明确需要保护的数据在哪里,这些数据被哪种应用程序访问和使用?谁在维护和管理这些数据,数据保护措施是否合理,对于这些数据的风险情况是否制定了相关补救措施。
帮助企业内部违规管控,根据合规监管要求,对内部或第三方运维人员的数据访问与操作进行有效的监管,对于内部开发和测试使用数据进行脱敏,个人信息和敏感数据进行加密存储等。
图4示出了本发明的一个实施例的一种基于元数据驱动的数据安全管理系统的框架图。该系统包括元模型构建模块401、元数据获取和入库模块402、元数据目录构建模块403、资产分类分级模块404和资产评估模块405。
在具体的实施例中,元模型构建模块401被配置用于基于公共仓库元模型设计标准的元数据以及元模型;
元数据获取和入库模块402被配置用于将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;
元数据目录构建模块403被配置用于基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;
资产分类分级模块404被配置用于使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;
资产评估模块405被配置用于基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况。
本系统基于公共仓库元模型设计标准的元数据以及元模型;将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况。能够协助用户摸清数据资产分布、理顺数据使用情况,并辅助进行数据分类分级的数据安全产品。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,并且这些单元的名称在某种情况下并不构成对该单元本身的限定。
本发明的实施例还涉及一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时实施上文中的方法。该计算机程序包含用于执行流程图所示的方法的程序代码。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。
本发明基于公共仓库元模型设计标准的元数据以及元模型;将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况。能够协助用户摸清数据资产分布、理顺数据使用情况,并辅助进行数据分类分级的数据安全产品。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (9)

1.一种基于元数据驱动的数据安全管理方法,其特征在于,包括以下步骤:
S1:基于公共仓库元模型设计标准的元数据以及元模型;
S2:将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;
S3:基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;
所述从字段级对数据资产进行定义具体包括从元数据信息和数据分类分级信息对数据资产进行定义;
S4:使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;
S5:基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况;
具体地,根据所述目录实现数据地图服务,所述数据地图服务支持用户根据数据安全管理系统的建设情况对所述目录进行手动维护,从而获得数据地图,再通过所述数据地图获取字段级数据资产的血缘关系;
根据分类分级后的数据资产的敏感等级推荐监控策略,通过调度引擎自动调度对数据资产的扫描,监控数据资产的元数据的变更动态;
再根据所述数据资产的元数据的变更动态结合数据资产的基础信息综合评估数据资产的风险状况,所述数据资产的基础信息包括数据资产的血缘关系;
参考国家颁布的数据管理能力成熟度评估模型生成数据资产风险评估报告。
2.根据权利要求1所述的方法,其特征在于,所述S1具体包括:
首先将数据抽象为元数据,再将元数据经抽象后借助预设的形式化语言进行描述;
在构建元模型时采用UML统一建模语言,对各类数据资产进行元模型的建模;所述资产包括数据库、数据表、文件和接口;
所述元模型的建模包括定义模型属性,以及定义内部结构和模型之间的关系。
3.根据权利要求1所述的方法,其特征在于,所述S2具体包括:
所述探查器进行服务器资产探查,再将探查到的数据库服务收集汇总到主系统;
所述主系统通过调度策略控制适配器;
所述适配器从各类数据源扫描获取元数据,并将所述元数据根据所述元模型规范整理入库,在每次扫描的同时记录所述元数据的版本变更情况。
4.根据权利要求3所述的方法,其特征在于,所述数据库服务具体包括:关系型数据库和列式数据库。
5.根据权利要求3所述的方法,其特征在于,所述各类数据源具体包括:关系型数据库、列式数据库、文档型数据库和文件系统。
6.根据权利要求1所述的方法,其特征在于,所述S4具体包括:
在标准的元数据中对标准的字段进行定义以及分类分级,同时定义对字段进行识别匹配的规则,所述规则被用于对字段进行精确匹配、模糊匹配、前缀匹配、后缀匹配、正则匹配以及智能算法匹配;
在扫描数据资产时,基于所述规则进行自动匹配对标,当对标成功则表示完成对数据资产的分类分级。
7.根据权利要求6所述的方法,其特征在于,所述规则具体包括:字段名匹配、字段注释匹配和数据内容匹配。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被计算机处理器执行时实施权利要求1至7中任一项所述的方法。
9.一种基于元数据驱动的数据安全管理系统,其特征在于,包括:
元模型构建模块:配置用于基于公共仓库元模型设计标准的元数据以及元模型;
元数据获取和入库模块:配置用于将探查器和适配器作为独立的小程序与被用于管理所述元数据的主系统连接,再利用所述探查器对数据库服务进行探查和处理,利用所述适配器对各类数据源的元数据进行获取和入库;
元数据目录构建模块:配置用于基于所述元模型和已获取的元数据进行元数据自动识别以及关联结合,根据识别和关联的内容从字段级对数据资产进行定义,从而对所述已获取的元数据构建用于逐级提取明细信息的目录;
所述从字段级对数据资产进行定义具体包括从元数据信息和数据分类分级信息对数据资产进行定义;
资产分类分级模块:配置用于使用名称匹配和内容抽样匹配并结合NLP算法进行自动对标,从而对数据资产进行分类分级以及资产盘点;
资产评估模块:配置用于基于所述目录以及所述数据资产的元数据的动态变化,评估资产的总体风险概况;
具体地,根据所述目录实现数据地图服务,所述数据地图服务支持用户根据数据安全管理系统的建设情况对所述目录进行手动维护,从而获得数据地图,再通过所述数据地图获取字段级数据资产的血缘关系;
根据分类分级后的数据资产的敏感等级推荐监控策略,通过调度引擎自动调度对数据资产的扫描,监控数据资产的元数据的变更动态;
再根据所述数据资产的元数据的变更动态结合数据资产的基础信息综合评估数据资产的风险状况,所述数据资产的基础信息包括数据资产的血缘关系;
参考国家颁布的数据管理能力成熟度评估模型生成数据资产风险评估报告。
CN202111638357.9A 2021-12-29 2021-12-29 一种基于元数据驱动的数据安全管理方法与系统 Active CN114297283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111638357.9A CN114297283B (zh) 2021-12-29 2021-12-29 一种基于元数据驱动的数据安全管理方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111638357.9A CN114297283B (zh) 2021-12-29 2021-12-29 一种基于元数据驱动的数据安全管理方法与系统

Publications (2)

Publication Number Publication Date
CN114297283A CN114297283A (zh) 2022-04-08
CN114297283B true CN114297283B (zh) 2024-07-12

Family

ID=80971965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111638357.9A Active CN114297283B (zh) 2021-12-29 2021-12-29 一种基于元数据驱动的数据安全管理方法与系统

Country Status (1)

Country Link
CN (1) CN114297283B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114881802B (zh) * 2022-07-11 2022-10-04 湖南三湘银行股份有限公司 基于元数据的数据资产管理方法及系统
CN117527663A (zh) * 2023-11-22 2024-02-06 北京有略安全技术有限公司 网络安全等级保护自动化检测系统
CN117633605B (zh) * 2024-01-25 2024-04-12 浙江鹏信信息科技股份有限公司 数据安全分类分级能力成熟度评估方法、系统及可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330080A (zh) * 2017-07-03 2017-11-07 北京希嘉创智教育科技有限公司 一种数据处理方法、装置及应用其的计算机设备
CN111241363A (zh) * 2020-01-15 2020-06-05 深圳市华傲数据技术有限公司 信息资源目录体系创建方法、系统及电子设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110131247A1 (en) * 2009-11-30 2011-06-02 International Business Machines Corporation Semantic Management Of Enterprise Resourses
US9754225B2 (en) * 2010-03-22 2017-09-05 Micro Focus Software Inc. Automated risk assessment and management
US10552241B2 (en) * 2016-06-22 2020-02-04 International Business Machines Corporation Action recommendation to reduce server management errors
US10521442B1 (en) * 2016-09-16 2019-12-31 EMC IP Holding Company LLC Hierarchical value-based governance architecture for enterprise data assets
US10977278B2 (en) * 2019-02-22 2021-04-13 Snowflake Inc. Multi-level metadata in database systems
US20210264477A1 (en) * 2020-02-26 2021-08-26 International Business Machines Corporation Determining a nexus score of physical assets using data analysis
CN112396404A (zh) * 2020-11-27 2021-02-23 广州光点信息科技有限公司 一种数据中台系统
CN112632556A (zh) * 2020-12-18 2021-04-09 北京明朝万达科技股份有限公司 一种基于数据分类分级的端点安全响应的方法及装置
CN112699175B (zh) * 2021-01-15 2024-02-13 广州汇智通信技术有限公司 一种数据治理系统及其方法
CN113673889A (zh) * 2021-08-26 2021-11-19 上海罗盘信息科技有限公司 一种智能化数据资产识别的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330080A (zh) * 2017-07-03 2017-11-07 北京希嘉创智教育科技有限公司 一种数据处理方法、装置及应用其的计算机设备
CN111241363A (zh) * 2020-01-15 2020-06-05 深圳市华傲数据技术有限公司 信息资源目录体系创建方法、系统及电子设备

Also Published As

Publication number Publication date
CN114297283A (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN114297283B (zh) 一种基于元数据驱动的数据安全管理方法与系统
US11487539B2 (en) Systems and methods for automating and monitoring software development operations
Immonen et al. Evaluating the quality of social media data in big data architecture
Liu et al. CITIESData: a smart city data management framework
Becker et al. Decision criteria in digital preservation: What to measure and how
US10474457B1 (en) Systems and methods for automatic identification and recommendation of techniques and experts
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN113326247B (zh) 云端数据的迁移方法、装置及电子设备
US20230281249A1 (en) Computer-implemented methods, systems comprising computer-readable media, and electronic devices for enabled intervention into a network computing environment
Assar et al. Using text clustering to predict defect resolution time: a conceptual replication and an evaluation of prediction accuracy
US20230273959A1 (en) Computer-implemented methods, systems comprising computer-readable media, and electronic devices for narrative representation of a network computing environment
US12105756B2 (en) Computer-implemented methods, systems comprising computer-readable media, and electronic devices for narrative representation of a network computing environment
Weber et al. How FAIR can you get? Image retrieval as a use case to calculate FAIR metrics
US20200387802A1 (en) Dynamically adaptable rules and communication system for managing process controls
US10185747B2 (en) Presenting publisher data sets in context
Mohammed et al. Data Quality Assessment: Challenges and Opportunities
US11068376B2 (en) Analytics engine selection management
CN116029544A (zh) 使用企业数据源预测文档中的策略违规
Habibi et al. Generating test as a web service (TaaWS) through a method-based attribute grammar
CN112182080A (zh) 数据集成系统和基于数据集成系统的数据处理方法
US11537747B1 (en) Generating and continuously maintaining a record of data processing activity for a computer-implemented system
Grünewald et al. Towards Cross-Provider Analysis of Transparency Information for Data Protection
Mosharraf A semantic model to publish open source software on the web of data
Scoccia Enhancing trustability of android applications via flexible permissions
Marono Quantifying Privacy of Mobile Applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant