CN115794765A - 一种元数据服务方法、装置、设备及存储介质 - Google Patents
一种元数据服务方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN115794765A CN115794765A CN202211612219.8A CN202211612219A CN115794765A CN 115794765 A CN115794765 A CN 115794765A CN 202211612219 A CN202211612219 A CN 202211612219A CN 115794765 A CN115794765 A CN 115794765A
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- storage data
- original storage
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及大数据领域,公开了一种元数据服务方法、装置、设备及存储介质,用于提高元数据服务的准确率和安全性。所述方法包括:创建元数据查询方案,并根据元数据查询方案从预置的分布式数据库中获取原始存储数据;调用预置的属性分析模型,对原始存储数据进行字段属性提取,得到原始存储数据对应的目标属性;根据目标属性,对原始存储数据进行特征数据类提取,得到多个元数据特征类;对多个元数据特征类进行服务类型映射,得到元数据服务类型,并根据元数据服务类型匹配元数据敏感字段检测模型;根据元数据敏感字段检测模型对原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据敏感字段检测结果生成目标元数据。
Description
技术领域
本发明涉及大数据领域,尤其涉及一种元数据服务方法、装置、设备及存储介质。
背景技术
分布式文件系统是一种基于服务器模式的文件系统,元数据和元数据信息都存放在元数据服务器。客户端需要操作文件时,必须先从元数据服务器上查询该文件的元数据信息,根据元数据信息访问元数据服务器并进行操作,操作完后将操作后的元数据信息发送给元数据服务器。
目前,对某个元数据的并发修改操作是串行执行的,对于客户端来说,长时间处于等待状态,很大程度上影响了数据查询的准确率,并且降低了元数据查询的安全性。
发明内容
本发明提供了一种元数据服务方法、装置、设备及存储介质,用于提高元数据服务的准确率和安全性。
本发明第一方面提供了一种元数据服务方法,所述元数据服务方法包括:创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据;调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性;根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类;对所述多个元数据特征类进行服务类型映射,得到每个元数据特征类对应的元数据服务类型,并根据每个元数据特征类对应的元数据服务类型匹配元数据敏感字段检测模型;根据所述元数据敏感字段检测模型对所述原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据所述敏感字段检测结果生成所述原始存储数据对应的目标元数据。
结合第一方面,在本发明第一方面的第一实施方式中,所述创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据,包括:接收元数据查询请求,并根据所述元数据查询请求创建元数据查询方案;基于所述元数据查询方案匹配数据采集模型,并通过所述数据采集模型从预置的分布式数据库中获取元数据信息;对所述元数据信息和预置的数据表进行关联处理,生成原始存储数据。
结合第一方面,在本发明第一方面的第二实施方式中,所述调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性,包括:对所述原始存储数据进行字段类型分析,得到对应的字段类型;根据所述字段类型从预置的属性模型集合中查找所述原始存储数据对应的属性分析模型;根据所述属性分析模型对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性。
结合第一方面,在本发明第一方面的第三实施方式中,所述根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类,包括:解析所述原始存储数据对应的数据结构,并根据所述数据结构将所述原始存储数据生成数据结构树;对所述原始存储数据进行特征数据提取,得到所述原始存储数据对应的特征数据;根据所述特征数据和所述数据结构树对所述原始存储数据进行特征数据类转换,得到多个元数据特征类。
结合第一方面,在本发明第一方面的第四实施方式中,所述对所述原始存储数据进行特征数据提取,得到所述原始存储数据对应的特征数据,包括:将所述原始存储数据输入预置的特征数据识别模型进行特征数据识别,得到对应的特征识别度和特征识别类型;根据所述特征识别度和所述特征识别类型生成所述原始存储数据对应的特征数据。
结合第一方面,在本发明第一方面的第五实施方式中,所述元数据服务方法还包括:根据所述数据结构树对所述目标元数据进行配置和传输,并对配置后的目标元数据进行分段处理,得到多个子目标元数据;对所述多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
结合第一方面,在本发明第一方面的第六实施方式中,所述对所述多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果,包括:将所述子目标元数据输入预设安全风险计算模型进行特征数据占比计算,得到所述子目标元数据对应的目标比值;判断所述目标比值是否大于或等于预置的阈值;若是,则获取所述子目标元数据对应的目标元数据,并对所述目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
本发明第二方面提供了一种元数据服务装置,所述元数据服务装置包括:
创建模块,用于创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据;
提取模块,用于调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性;
处理模块,用于根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类;
映射模块,用于对所述多个元数据特征类进行服务类型映射,得到每个元数据特征类对应的元数据服务类型,并根据每个元数据特征类对应的元数据服务类型匹配元数据敏感字段检测模型;
检测模块,用于根据所述元数据敏感字段检测模型对所述原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据所述敏感字段检测结果生成所述原始存储数据对应的目标元数据。
结合第二方面,在本发明第二方面的第一实施方式中,所述创建模块具体用于:接收元数据查询请求,并根据所述元数据查询请求创建元数据查询方案;基于所述元数据查询方案匹配数据采集模型,并通过所述数据采集模型从预置的分布式数据库中获取元数据信息;对所述元数据信息和预置的数据表进行关联处理,生成原始存储数据。
结合第二方面,在本发明第二方面的第二实施方式中,所述提取模块具体用于:对所述原始存储数据进行字段类型分析,得到对应的字段类型;根据所述字段类型从预置的属性模型集合中查找所述原始存储数据对应的属性分析模型;根据所述属性分析模型对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性。
结合第二方面,在本发明第二方面的第三实施方式中,所述处理模块还包括:解析单元,用于解析所述原始存储数据对应的数据结构,并根据所述数据结构将所述原始存储数据生成数据结构树;提取单元,用于对所述原始存储数据进行特征数据提取,得到所述原始存储数据对应的特征数据;转换单元,用于根据所述特征数据和所述数据结构树对所述原始存储数据进行特征数据类转换,得到多个元数据特征类。
结合第二方面,在本发明第二方面的第四实施方式中,所述提取单元具体用于:将所述原始存储数据输入预置的特征数据识别模型进行特征数据识别,得到对应的特征识别度和特征识别类型;根据所述特征识别度和所述特征识别类型生成所述原始存储数据对应的特征数据。
结合第二方面,在本发明第二方面的第五实施方式中,所述元数据服务装置还包括:配置模块,用于根据所述数据结构树对所述目标元数据进行配置和传输,并对配置后的目标元数据进行分段处理,得到多个子目标元数据;输出模块,用于对所述多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
结合第二方面,在本发明第二方面的第六实施方式中,所述输出模块具体用于:将所述子目标元数据输入预设安全风险计算模型进行特征数据占比计算,得到所述子目标元数据对应的目标比值;判断所述目标比值是否大于或等于预置的阈值;若是,则获取所述子目标元数据对应的目标元数据,并对所述目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
本发明第三方面提供了一种元数据服务设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述元数据服务设备执行上述的元数据服务方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的元数据服务方法。
本发明提供的技术方案中,创建元数据查询方案,并根据元数据查询方案从预置的分布式数据库中获取原始存储数据;调用预置的属性分析模型,对原始存储数据进行字段属性提取,得到原始存储数据对应的目标属性;根据目标属性,对原始存储数据进行特征数据类提取,得到多个元数据特征类;对多个元数据特征类进行服务类型映射,得到元数据服务类型,并根据元数据服务类型匹配元数据敏感字段检测模型;根据元数据敏感字段检测模型对原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据敏感字段检测结果生成目标元数据,本发明能够更高效、更顺畅地处理传统大数据,并且可以对元数据查询任务进行安全检测,进而提高了元数据服务的准确率和安全性。
附图说明
图1为本发明实施例中元数据服务方法的一个实施例示意图;
图2为本发明实施例中字段属性提取的流程图;
图3为本发明实施例中特征数据类转换的流程图;
图4为本发明实施例中特征数据识别的流程图;
图5为本发明实施例中元数据服务装置的一个实施例示意图;
图6为本发明实施例中元数据服务装置的另一个实施例示意图;
图7为本发明实施例中元数据服务设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种元数据服务方法、装置、设备及存储介质,用于提高元数据服务的准确率和安全性。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中元数据服务方法的一个实施例包括:
S101、创建元数据查询方案,并根据元数据查询方案从预置的分布式数据库中获取原始存储数据;
可以理解的是,本发明的执行主体可以为元数据服务装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
需要说明的是,元数据服务是MatrixOne中必不可少的服务。它用来描述原始存储数据的许多属性,如大小、变化率、应用程序特定属性等。通过集中式元服务,用户可以了解如何发现和定义他们的数据以及管理访问控制、数据屏蔽和安全配置。这些信息可以在以后为不同的应用程序优化客户查询、事务处理和资源分配。与许多其他数据仓库使用第三方存储引擎不同,本实施例中的MetaService运行在自给自足的TAE上。MatrixOne中的MetaService还将提供:对其他第三方存储系统(如Hive、Databricks、Iceberg等)上的半结构化数据进行自动元数据管理,用户零干预。一套标准API,社区的开发者或高级用户可以用它定义自己的格式来集成自己的数据源。综上所述,全新设计的MetaService使MatrixOne能够更高效、更顺畅地处理传统大数据。
具体的,接收数据查询请求,数据查询请求中携带有指定数据查询规则,指定数据查询规则用于指示如何进行数据查询,判断采用指定数据查询规则进行数据查询所得到的数据查询结果是否具有唯一性,如果否,则采用预设数据查询规则进行数据查询,根据预设数据查询规则进行数据查询所得到的数据查询结果具有唯一性,发送采用预设数据查询规则进行数据查询所得到的数据查询结果,根据元数据查询方案从预置的分布式数据库中获取原始存储数据。
S102、调用预置的属性分析模型,对原始存储数据进行字段属性提取,得到原始存储数据对应的目标属性;
具体的,获取多个数据源中每个数据源的基础数据表,每个数据源的基础数据表存储有来自每个数据源的至少一个字段属性的原始存储数据;根据多个数据源的基础数据表,生成整合数据表,整合数据表中存储有:至少一个字段属性、至少一个字段属性与原始属性组的关联关系以及至少一个字段属性的优先级,每个字段属性关联的原始属性组中存储有:每个字段属性在多个数据源的基础数据表中对应的原始属性字段,至少一个字段属性的优先级为至少一个字段属性对应的每个数据源的优先级,得到原始存储数据对应的目标属性。
S103、根据目标属性,对原始存储数据进行特征数据类提取,得到原始存储数据对应的多个元数据特征类;
需要说明的是,服务器根据各原始存储数据对应的目标属性对原始存储数据进行特征数据类提取,得到多个元数据特征类,其中,服务器根据特征数据、字段长度及数据分析图分别对各原始存储数据进行特征数据类提取,获得多个元数据集的步骤包括根据数据分析图观察各个原始存储数据之间的数据连接关系,服务器根据数据连接关系获取各个元数据对应的目标属性,根据字段长度对各元数据进行特征数据类提取,进而确定各元数据集,最后通过特征数据对初始元数据集中的元数据进行核查,判断是否分类正确,在分类正确时,将初始元数据集作为元数据集。服务器获取各原始存储数据之间的数据结构,并将所有的原始存储数据按照数据结构构成数据结构树,提取各原始存储数据中包含的特征数据,根据特征数据、字段长度及数据结构树分别对各原始存储数据进行特征数据类提取,得到多个元数据特征类。
S104、对多个元数据特征类进行服务类型映射,得到每个元数据特征类对应的元数据服务类型,并根据每个元数据特征类对应的元数据服务类型匹配元数据敏感字段检测模型;
具体的,数据汇聚:包含数据指标梳理、业务主数据梳理、企业级数据库表建立和规范更新,并构建电力营销服务系统的数据基础;数据融合:将业务不同主题域进行数据组织,形成公共数据层模型,开展代码研发和部署运维;数据萃取为上层服务提供数据基础;分析结果沉淀;数据服务提炼及全过程数据运营。服务器获取各元数据特征类对应的元数据服务类型的步骤,可以为从元数据特征类中随机选取多个原始存储数据,并将原始存储数据输入至预设安全等级模型中,以得到多个原始存储数据对应的安全等级值,判断安全等级值处于预设低级等级阈值范围内,还是处于预设高级等级阈值范围内,根据判断结果确定原始存储数据对应的数据安全等级,并将原始存储数据对应的数据安全等级作为元数据特征类对应的数据安全等级。原始存储数据对应的数据安全等级为数据安全低级,并将原始存储数据对应的数据安全低级作为元数据特征类对应的数据安全等级,并获取数据安全低级对应的元数据敏感字段检测模型。
S105、根据元数据敏感字段检测模型对原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据敏感字段检测结果生成原始存储数据对应的目标元数据。
其中,目标元数据为脱敏后的原始存储数据。假设元数据特征类中对应的安全数据等级为安全数据低级,安全数据低级对应的元数据敏感字段检测模型为首字脱敏,之后将该元数据特征类中的所有原始存储数据全都进行数据脱敏,并将脱敏后的原始存储数据作为目标元数据,响应于用户配置的数据库信息,根据数据库信息读取数据库内的元数据;对元数据中的字段内容进行遍历,对遍历到的当前字段内容进行敏感信息判断;对判断为敏感信息的字段内容进行记录,并对记录的字段内容进行展示。
本发明实施例中,创建元数据查询方案,并根据元数据查询方案从预置的分布式数据库中获取原始存储数据;调用预置的属性分析模型,对原始存储数据进行字段属性提取,得到原始存储数据对应的目标属性;根据目标属性,对原始存储数据进行特征数据类提取,得到多个元数据特征类;对多个元数据特征类进行服务类型映射,得到元数据服务类型,并根据元数据服务类型匹配元数据敏感字段检测模型;根据元数据敏感字段检测模型对原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据敏感字段检测结果生成目标元数据,本发明能够更高效、更顺畅地处理传统大数据,并且可以对元数据查询任务进行安全检测,进而提高了元数据服务的准确率和安全性。
在一具体实施例中,执行步骤S101的过程可以具体包括如下步骤:
(1)接收元数据查询请求,并根据元数据查询请求创建元数据查询方案;
(2)基于元数据查询方案匹配数据采集模型,并通过数据采集模型从预置的分布式数据库中获取元数据信息;
(3)对元数据信息和预置的数据表进行关联处理,生成原始存储数据。
具体的,根据数据访问请求确定目标数据访问接口;对目标数据访问接口进行数据源匹配,得到目标数据访问接口对应的目标数据库;根据目标数据库,创建与目标数据库对应的目标元数据信息;调用预置代码生成器,并根据目标元数据信息和目标数据库,生成目标元数据信息对应的目标数据访问类;将目标数据访问类转换为数据查询语句,并根据数据查询语句获取目标数据,以及将目标数据传输至终端。服务器根据用户输入的数据类型创建元数据查询方案,元数据查询方案为根据元数据类型匹配数据模型,将用户输入的数据类型创建元数据查询方案通过匹配得到的数据采集模型获取元数据信息,将元数据信息和预置的数据表进行关联处理,得到原始存储数据。
在一具体实施例中,如图2所示,执行步骤S102的过程可以具体包括如下步骤:
S201、对原始存储数据进行字段类型分析,得到对应的字段类型;
S202、根据字段类型从预置的属性模型集合中查找原始存储数据对应的属性分析模型;
S203、根据属性分析模型对原始存储数据进行字段属性提取,得到原始存储数据对应的目标属性。
其中,原始存储数据对应的字段类型可以为文字类型,也可以为数字类型等,属性模型集合中存在多种类型及各类型对应的属性分析模型,属性分析模型可以为低级属性分析模型,也可以为高级属性分析模型等,假设类型为文字类型时,则文字类型对应的属性分析模型为低级属性分析模型,假设类型为数字类型时,则数字类型对应的属性分析模型为高级属性分析模型等。其中,原始存储数据对应的字段类型可以为文字类型,也可以为数字类型等,预置的属性分析模型可以从预置的属性模型集合中查找,预置的属性模型集合中包括多种字段类型及各字段类型对应的属性分析模型,属性分析模型可以为低级属性分析模型,也可以为高级属性分析模型等,对原始存储数据进行预处理,并汇总关键性能指标;对预处理的数据进行知识抽取,构建关联规则与知识图谱,进行内生关联推理,得到初始数据分类模型;根据内生关联推理生成的初始数据分类模型,对原始存储数据表、关键性能指标数据表进行拆分,构建初始分类的轻度汇聚数据表;根据需求字段对关联字段进行再推理,得出关联字段的关联权重并排序,输出择优关联模型;根据输出的择优关联模型及轻度汇聚数据表生成相应数据仓库。
在一具体实施例中,如图3所示,执行步骤S103的过程可以具体包括如下步骤:
S301、解析原始存储数据对应的数据结构,并根据数据结构将原始存储数据生成数据结构树;
S302、对原始存储数据进行特征数据提取,得到原始存储数据对应的特征数据;
S303、根据特征数据和数据结构树对原始存储数据进行特征数据类转换,得到多个元数据特征类。
具体的,依据原始数据分类标准对所述多个原始数据元素分类存储生成呈树状层级设置的原始数据库;提供包括多个更新数据元素的更新数据集合;生成更新节点;依据数据更新分类标准执行数据更新,使得更新数据元素按照所述更新数据分类标准更新原始数据库,生成更新后的数据库。
在一具体实施例中,如图4所示,执行步骤S302的过程可以具体包括如下步骤:
S401、将原始存储数据输入预置的特征数据识别模型进行特征数据识别,得到对应的特征识别度和特征识别类型;
S402、根据特征识别度和特征识别类型生成原始存储数据对应的特征数据。
具体的,服务器将原始存储数据输入预置的特征数据识别模型中进行特征数据的识别,其中,特征数据识别模型对原始存储数据进行卷积运算,得到原始存储数据对应的特征识别度和特征识别类型,根据特征识别度和特征识别类型,生成原始存储数据对应的特征数据。
在一具体实施例中,上述元数据服务方法还包括如下步骤:
(1)根据数据结构树对目标元数据进行配置和传输,并对配置后的目标元数据进行分段处理,得到多个子目标元数据;
(2)对多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
具体的,将原始存储数据输入至预设安全等级模型中,以得到多个原始存储数据对应的安全等级值,判断安全等级值处于预设低级等级阈值范围内,还是处于预设高级等级阈值范围内,根据判断结果确定原始存储数据对应的数据安全等级,并将原始存储数据对应的数据安全等级作为元数据特征类对应的数据安全等级。原始存储数据对应的数据安全等级为数据安全低级,并将原始存储数据对应的数据安全低级作为元数据特征类对应的数据安全等级,并获取数据安全低级对应的元数据敏感字段检测模型。
在一具体实施例中,执行步骤对多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果的过程可以具体包括如下步骤:
(1)将子目标元数据输入预设安全风险计算模型进行特征数据占比计算,得到子目标元数据对应的目标比值;
(2)判断目标比值是否大于或等于预置的阈值;
(3)若是,则获取子目标元数据对应的目标元数据,并对目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
其中,目标元数据为脱敏后的原始存储数据。假设元数据特征类中对应的安全数据等级为安全数据低级,安全数据低级对应的元数据敏感字段检测模型为首字脱敏,之后将该元数据特征类中的所有原始存储数据全都进行数据脱敏,并将脱敏后的原始存储数据作为目标元数据。
具体的,获取预设高危险警示颜色对应的子目标元数据,将子目标元数据输入至预设安全风险计算模型中,以得到子目标元数据对应的目标比值,判断目标比值大于或等于预设特征数据占比阈值,在目标比值大于或等于预设特征数据占比阈值时,获取子目标元数据包含的目标元数据,并对目标元数据进行数据安全风险评估。
需要说明的是,预设数据安全风险评估模型为多个样本安全数据及各样本安全数据对应的标准安全风险评估值对卷积神经网络进行训练,进而构建的数据安全风险评估模型,数据安全风险评估值大于预设风险评估阈值,则服务器将目标元数据进行删除处理等。
上面对本发明实施例中元数据服务方法进行了描述,下面对本发明实施例中元数据服务装置进行描述,请参阅图5,本发明实施例中元数据服务装置一个实施例包括:
创建模块501,用于创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据;
提取模块502,用于调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性;
处理模块503,用于根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类;
映射模块504,用于对所述多个元数据特征类进行服务类型映射,得到每个元数据特征类对应的元数据服务类型,并根据每个元数据特征类对应的元数据服务类型匹配元数据敏感字段检测模型;
检测模块505,用于根据所述元数据敏感字段检测模型对所述原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据所述敏感字段检测结果生成所述原始存储数据对应的目标元数据。
通过上述各个组成部分的协同合作,创建元数据查询方案,并根据元数据查询方案从预置的分布式数据库中获取原始存储数据;调用预置的属性分析模型,对原始存储数据进行字段属性提取,得到原始存储数据对应的目标属性;根据目标属性,对原始存储数据进行特征数据类提取,得到多个元数据特征类;对多个元数据特征类进行服务类型映射,得到元数据服务类型,并根据元数据服务类型匹配元数据敏感字段检测模型;根据元数据敏感字段检测模型对原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据敏感字段检测结果生成目标元数据,本发明能够更高效、更顺畅地处理传统大数据,并且可以对元数据查询任务进行安全检测,进而提高了元数据服务的准确率和安全性。
请参阅图6,本发明实施例中元数据服务装置另一个实施例包括:
创建模块501,用于创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据;
提取模块502,用于调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性;
处理模块503,用于根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类;
映射模块504,用于对所述多个元数据特征类进行服务类型映射,得到每个元数据特征类对应的元数据服务类型,并根据每个元数据特征类对应的元数据服务类型匹配元数据敏感字段检测模型;
检测模块505,用于根据所述元数据敏感字段检测模型对所述原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据所述敏感字段检测结果生成所述原始存储数据对应的目标元数据。
可选的,所述创建模块501具体用于:接收元数据查询请求,并根据所述元数据查询请求创建元数据查询方案;基于所述元数据查询方案匹配数据采集模型,并通过所述数据采集模型从预置的分布式数据库中获取元数据信息;对所述元数据信息和预置的数据表进行关联处理,生成原始存储数据。
可选的,所述提取模块502具体用于:对所述原始存储数据进行字段类型分析,得到对应的字段类型;根据所述字段类型从预置的属性模型集合中查找所述原始存储数据对应的属性分析模型;根据所述属性分析模型对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性。
可选的,所述处理模块503还包括:解析单元,用于解析所述原始存储数据对应的数据结构,并根据所述数据结构将所述原始存储数据生成数据结构树;提取单元,用于对所述原始存储数据进行特征数据提取,得到所述原始存储数据对应的特征数据;转换单元,用于根据所述特征数据和所述数据结构树对所述原始存储数据进行特征数据类转换,得到多个元数据特征类。
可选的,所述提取单元具体用于:将所述原始存储数据输入预置的特征数据识别模型进行特征数据识别,得到对应的特征识别度和特征识别类型;根据所述特征识别度和所述特征识别类型生成所述原始存储数据对应的特征数据。
可选的,所述元数据服务装置还包括:配置模块506,用于根据所述数据结构树对所述目标元数据进行配置和传输,并对配置后的目标元数据进行分段处理,得到多个子目标元数据;输出模块507,用于对所述多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
可选的,所述输出模块507具体用于:将所述子目标元数据输入预设安全风险计算模型进行特征数据占比计算,得到所述子目标元数据对应的目标比值;判断所述目标比值是否大于或等于预置的阈值;若是,则获取所述子目标元数据对应的目标元数据,并对所述目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
本发明实施例中,创建元数据查询方案,并根据元数据查询方案从预置的分布式数据库中获取原始存储数据;调用预置的属性分析模型,对原始存储数据进行字段属性提取,得到原始存储数据对应的目标属性;根据目标属性,对原始存储数据进行特征数据类提取,得到多个元数据特征类;对多个元数据特征类进行服务类型映射,得到元数据服务类型,并根据元数据服务类型匹配元数据敏感字段检测模型;根据元数据敏感字段检测模型对原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据敏感字段检测结果生成目标元数据,本发明能够更高效、更顺畅地处理传统大数据,并且可以对元数据查询任务进行安全检测,进而提高了元数据服务的准确率和安全性。
上面图5和图6从模块化功能实体的角度对本发明实施例中的元数据服务装置进行详细描述,下面从硬件处理的角度对本发明实施例中元数据服务设备进行详细描述。
图7是本发明实施例提供的一种元数据服务设备的结构示意图,该元数据服务设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对元数据服务设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在元数据服务设备600上执行存储介质630中的一系列指令操作。
元数据服务设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的元数据服务设备结构并不构成对元数据服务设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种元数据服务设备,所述元数据服务设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述元数据服务方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述元数据服务方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random acceS memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种元数据服务方法,其特征在于,所述元数据服务方法包括:
创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据;
调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性;
根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类;
对所述多个元数据特征类进行服务类型映射,得到每个元数据特征类对应的元数据服务类型,并根据每个元数据特征类对应的元数据服务类型匹配元数据敏感字段检测模型;
根据所述元数据敏感字段检测模型对所述原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据所述敏感字段检测结果生成所述原始存储数据对应的目标元数据。
2.根据权利要求1所述的元数据服务方法,其特征在于,所述创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据,包括:
接收元数据查询请求,并根据所述元数据查询请求创建元数据查询方案;
基于所述元数据查询方案匹配数据采集模型,并通过所述数据采集模型从预置的分布式数据库中获取元数据信息;
对所述元数据信息和预置的数据表进行关联处理,生成原始存储数据。
3.根据权利要求1所述的元数据服务方法,其特征在于,所述调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性,包括:
对所述原始存储数据进行字段类型分析,得到对应的字段类型;
根据所述字段类型从预置的属性模型集合中查找所述原始存储数据对应的属性分析模型;
根据所述属性分析模型对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性。
4.根据权利要求1所述的元数据服务方法,其特征在于,所述根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类,包括:
解析所述原始存储数据对应的数据结构,并根据所述数据结构将所述原始存储数据生成数据结构树;
对所述原始存储数据进行特征数据提取,得到所述原始存储数据对应的特征数据;
根据所述特征数据和所述数据结构树对所述原始存储数据进行特征数据类转换,得到多个元数据特征类。
5.根据权利要求4所述的元数据服务方法,其特征在于,所述对所述原始存储数据进行特征数据提取,得到所述原始存储数据对应的特征数据,包括:
将所述原始存储数据输入预置的特征数据识别模型进行特征数据识别,得到对应的特征识别度和特征识别类型;
根据所述特征识别度和所述特征识别类型生成所述原始存储数据对应的特征数据。
6.根据权利要求4所述的元数据服务方法,其特征在于,所述元数据服务方法还包括:
根据所述数据结构树对所述目标元数据进行配置和传输,并对配置后的目标元数据进行分段处理,得到多个子目标元数据;
对所述多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
7.根据权利要求6所述的元数据服务方法,其特征在于,所述对所述多个子目标元数据进行数据安全风险解析,得到数据安全风险解析结果,包括:
将所述子目标元数据输入预设安全风险计算模型进行特征数据占比计算,得到所述子目标元数据对应的目标比值;
判断所述目标比值是否大于或等于预置的阈值;
若是,则获取所述子目标元数据对应的目标元数据,并对所述目标元数据进行数据安全风险解析,得到数据安全风险解析结果。
8.一种元数据服务装置,其特征在于,所述元数据服务装置包括:
创建模块,用于创建元数据查询方案,并根据所述元数据查询方案从预置的分布式数据库中获取原始存储数据;
提取模块,用于调用预置的属性分析模型,对所述原始存储数据进行字段属性提取,得到所述原始存储数据对应的目标属性;
处理模块,用于根据所述目标属性,对所述原始存储数据进行特征数据类提取,得到所述原始存储数据对应的多个元数据特征类;
映射模块,用于对所述多个元数据特征类进行服务类型映射,得到每个元数据特征类对应的元数据服务类型,并根据每个元数据特征类对应的元数据服务类型匹配元数据敏感字段检测模型;
检测模块,用于根据所述元数据敏感字段检测模型对所述原始存储数据进行元数据敏感字段检测,生成敏感字段检测结果,并根据所述敏感字段检测结果生成所述原始存储数据对应的目标元数据。
9.一种元数据服务设备,其特征在于,所述元数据服务设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述元数据服务设备执行如权利要求1-7中任一项所述的元数据服务方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的元数据服务方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211612219.8A CN115794765A (zh) | 2022-12-15 | 2022-12-15 | 一种元数据服务方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211612219.8A CN115794765A (zh) | 2022-12-15 | 2022-12-15 | 一种元数据服务方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115794765A true CN115794765A (zh) | 2023-03-14 |
Family
ID=85419422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211612219.8A Pending CN115794765A (zh) | 2022-12-15 | 2022-12-15 | 一种元数据服务方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794765A (zh) |
-
2022
- 2022-12-15 CN CN202211612219.8A patent/CN115794765A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110837550B (zh) | 基于知识图谱的问答方法、装置、电子设备及存储介质 | |
WO2018200135A1 (en) | Intent-based organisation of apis | |
KR20200098378A (ko) | 설명 정보 확정 방법, 장치, 전자 기기 및 컴퓨터 저장 매체 | |
JP2019502979A (ja) | 構造化されたマルチフィールドファイルのレイアウトの自動解釈 | |
CN112564988A (zh) | 告警处理方法、装置及电子设备 | |
CN110135590B (zh) | 信息处理方法、装置、介质及电子设备 | |
CN111371858A (zh) | 群控设备识别方法、装置、介质及电子设备 | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN111899821A (zh) | 处理医疗机构数据的方法、构建数据库的方法和装置 | |
CN110780965A (zh) | 基于视觉的流程自动化方法、设备及可读存储介质 | |
CN111625559B (zh) | 一种数据信息多维度查询方法及系统 | |
CN111696656A (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN114175007A (zh) | 用于数据匹配的主动学习 | |
CN117171711B (zh) | 一种基于云平台的企业内外部数据融合共享方法及系统 | |
CN113268265A (zh) | 字典数据提取方法、装置、设备及存储介质 | |
CN111917848A (zh) | 基于边缘计算和云计算协同的数据处理方法及云服务器 | |
CN109992960B (zh) | 一种伪造参数检测方法、装置、电子设备及存储介质 | |
KR20240020166A (ko) | Esg 보조 툴을 이용하여 정형화된 esg 데이터로 기계학습 모델을 학습하는 방법 및 기계학습 모델로 자동완성된 esg 문서를 생성하는 서비스 서버 | |
CN116226850A (zh) | 应用程序的病毒检测方法、装置、设备、介质及程序产品 | |
CN115794765A (zh) | 一种元数据服务方法、装置、设备及存储介质 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 | |
CN112286916A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN113468604A (zh) | 基于人工智能的大数据隐私信息解析方法及系统 | |
CN111695031A (zh) | 基于标签的搜索方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |