CN117251254A - 基于容器分离的数据治理方法及系统 - Google Patents

基于容器分离的数据治理方法及系统 Download PDF

Info

Publication number
CN117251254A
CN117251254A CN202311507072.0A CN202311507072A CN117251254A CN 117251254 A CN117251254 A CN 117251254A CN 202311507072 A CN202311507072 A CN 202311507072A CN 117251254 A CN117251254 A CN 117251254A
Authority
CN
China
Prior art keywords
data
container
type
governance
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311507072.0A
Other languages
English (en)
Other versions
CN117251254B (zh
Inventor
钟奇
李超
郭富
李亚超
吴双笛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Zhongchangkangda Information Technology Co ltd
Original Assignee
Guangzhou Zhongchangkangda Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Zhongchangkangda Information Technology Co ltd filed Critical Guangzhou Zhongchangkangda Information Technology Co ltd
Priority to CN202311507072.0A priority Critical patent/CN117251254B/zh
Publication of CN117251254A publication Critical patent/CN117251254A/zh
Application granted granted Critical
Publication of CN117251254B publication Critical patent/CN117251254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于容器分离的数据治理方法及系统,该方法包括:获取数据治理数据;根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型;根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器;将所述数据治理数据储存至所述目标数据容器中。可见,本发明能够在数据治理的过程中根据数据的治理记录和数据信息来确定其对应的容器类型,并将数据储存至对应的数据容器中,从而能够在数据治理的过程中将不同类型的数据储存至不同的数据容器中以保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。

Description

基于容器分离的数据治理方法及系统
技术领域
本发明涉及数据治理技术领域,尤其涉及一种基于容器分离的数据治理方法及系统。
背景技术
随着大数据技术的发展,如何有效对大数据进行数据治理以得到大数据分析或计算的效果,成为了重要的技术问题。其中,数据治理技术中,如何提高数据治理的效果以及减少数据治理出错,也受到较多关注。
但现有技术在实现数据治理时,没有考虑到利用数据的治理记录和数据信息来区分数据类型,并进一步利用不同数据容器进行储存,因此现有技术的数据治理过程中难免出现数据储存出错或数据出现不必要的交互,其数据治理的效果不佳。可见,现有技术存在缺陷,亟需解决。
发明内容
本发明所要解决的技术问题在于,提供一种基于容器分离的数据治理方法及系统,能够在数据治理的过程中将不同类型的数据储存至不同的数据容器中以保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。
为了解决上述技术问题,本发明第一方面公开了一种基于容器分离的数据治理方法,所述方法包括:
获取数据治理数据;
根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型;
根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器;
将所述数据治理数据储存至所述目标数据容器中。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型,包括:
根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的数据治理层类型;
根据所述数据治理层类型,确定所述数据治理数据对应的容器类型。
作为一种可选的实施方式,在本发明第一方面中,所述数据信息包括数据类型、数据大小、数据标识中的至少一种;和/或,所述数据治理层类型包括ODS层类型、DW层类型和DM层类型中的一种或多种。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器,包括:
根据所述容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出所述容器类型对应的目标数据容器;每一所述候选数据容器或所述目标数据容器为一个通过切根技术建立的具有独立的资源、文件、设备、状态和配置的数据空间。
作为一种可选的实施方式,在本发明第一方面中,所述获取数据治理数据,包括:
基于名字空间技术、控制组技术和切根技术,建立多个所述数据治理层对应的多个候选数据容器;
建立包括有多个阶段的由SEDA架构的数据治理架构,并将每一所述阶段与每一所述数据治理层和所述候选数据容器进行关联;
获取由所述数据治理架构中的任一阶段的线程所处理得到的数据治理数据。
作为一种可选的实施方式,在本发明第一方面中,所述治理记录包括所述数据治理数据在历史时间段中储存和接触过的所有处理设备信息、处理算法规则和数据储存空间;所述根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的数据治理层类型,包括:
将所述数据治理数据对应的治理记录,输入至第一类型预测神经网络中,以得到所述数据治理数据对应的第一预测数据治理层类型和对应的预测概率;所述第一类型预测神经网络通过包括有多个训练治理记录和对应的数据治理层标注的训练数据集训练得到;
将所述数据治理数据对应的数据信息,输入至第二类型预测神经网络中,以得到所述数据治理数据对应的第二预测数据治理层类型和对应的预测概率;所述第二类型预测神经网络通过包括有多个训练数据信息和对应的数据治理层标注的训练数据集训练得到;
将所述第一预测数据治理层类型和所述第二预测数据治理层类型中对应的预测概率更高的,确定为所述数据治理数据对应的数据治理层类型。
作为一种可选的实施方式,在本发明第一方面中,所述根据所述容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出所述容器类型对应的目标数据容器,包括:
根据所述容器类型,以及预设的类型和容器的对应关系,确定出所述容器类型对应的多个候选数据容器;
从预设的历史数据治理数据库中的多个历史治理数据中确定出数据信息和所述数据治理数据的数据信息之间的相似度大于第一相似度阈值的所有历史治理数据,确定为多个目标历史治理数据;
获取每一所述候选数据容器对应的第一容器参数;
获取每一所述目标历史治理数据对应的所有储存过的数据容器的第二容器参数;所述第一容器参数或所述第二容器参数包括容器资源参数、容器历史文件参数、容器设备参数、容器状态参数和容器配置参数;
计算每一所述候选数据容器的第一容器参数和所有所述目标历史治理数据的第二容器参数之间的相似度的平均值,得到每一所述候选数据容器对应的容器相似度;
将所述容器相似度最高的所述候选数据容器确定为所述容器类型对应的目标数据容器。
本发明第二方面公开了一种基于容器分离的数据治理系统,所述系统包括:
获取模块,用于获取数据治理数据;
第一确定模块,用于根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型;
第二确定模块,用于根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器;
储存模块,用于将所述数据治理数据储存至所述目标数据容器中。
作为一种可选的实施方式,在本发明第二方面中,所述第一确定模块根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型的具体方式,包括:
根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的数据治理层类型;
根据所述数据治理层类型,确定所述数据治理数据对应的容器类型。
作为一种可选的实施方式,在本发明第二方面中,所述数据信息包括数据类型、数据大小、数据标识中的至少一种;和/或,所述数据治理层类型包括ODS层类型、DW层类型和DM层类型中的一种或多种。
作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器的具体方式,包括:
根据所述容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出所述容器类型对应的目标数据容器;每一所述候选数据容器或所述目标数据容器为一个通过切根技术建立的具有独立的资源、文件、设备、状态和配置的数据空间。
作为一种可选的实施方式,在本发明第二方面中,所述获取模块获取数据治理数据的具体方式,包括:
基于名字空间技术、控制组技术和切根技术,建立多个所述数据治理层对应的多个候选数据容器;
建立包括有多个阶段的由SEDA架构的数据治理架构,并将每一所述阶段与每一所述数据治理层和所述候选数据容器进行关联;
获取由所述数据治理架构中的任一阶段的线程所处理得到的数据治理数据。
作为一种可选的实施方式,在本发明第二方面中,所述治理记录包括所述数据治理数据在历史时间段中储存和接触过的所有处理设备信息、处理算法规则和数据储存空间;所述第一确定模块根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的数据治理层类型的具体方式,包括:
将所述数据治理数据对应的治理记录,输入至第一类型预测神经网络中,以得到所述数据治理数据对应的第一预测数据治理层类型和对应的预测概率;所述第一类型预测神经网络通过包括有多个训练治理记录和对应的数据治理层标注的训练数据集训练得到;
将所述数据治理数据对应的数据信息,输入至第二类型预测神经网络中,以得到所述数据治理数据对应的第二预测数据治理层类型和对应的预测概率;所述第二类型预测神经网络通过包括有多个训练数据信息和对应的数据治理层标注的训练数据集训练得到;
将所述第一预测数据治理层类型和所述第二预测数据治理层类型中对应的预测概率更高的,确定为所述数据治理数据对应的数据治理层类型。
作为一种可选的实施方式,在本发明第二方面中,所述第二确定模块根据所述容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出所述容器类型对应的目标数据容器的具体方式,包括:
根据所述容器类型,以及预设的类型和容器的对应关系,确定出所述容器类型对应的多个候选数据容器;
从预设的历史数据治理数据库中的多个历史治理数据中确定出数据信息和所述数据治理数据的数据信息之间的相似度大于第一相似度阈值的所有历史治理数据,确定为多个目标历史治理数据;
获取每一所述候选数据容器对应的第一容器参数;
获取每一所述目标历史治理数据对应的所有储存过的数据容器的第二容器参数;所述第一容器参数或所述第二容器参数包括容器资源参数、容器历史文件参数、容器设备参数、容器状态参数和容器配置参数;
计算每一所述候选数据容器的第一容器参数和所有所述目标历史治理数据的第二容器参数之间的相似度的平均值,得到每一所述候选数据容器对应的容器相似度;
将所述容器相似度最高的所述候选数据容器确定为所述容器类型对应的目标数据容器。
本发明第三方面公开了另一种基于容器分离的数据治理系统,所述系统包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的基于容器分离的数据治理方法中的部分或全部步骤。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的基于容器分离的数据治理方法中的部分或全部步骤。
与现有技术相比,本发明具有以下有益效果:
本发明能够在数据治理的过程中根据数据的治理记录和数据信息来确定其对应的容器类型,并将数据储存至对应的数据容器中,从而能够在数据治理的过程中将不同类型的数据储存至不同的数据容器中以保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种基于容器分离的数据治理方法的流程示意图;
图2是本发明实施例公开的一种基于容器分离的数据治理系统的结构示意图;
图3是本发明实施例公开的另一种基于容器分离的数据治理系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种基于容器分离的数据治理方法及系统,能够在数据治理的过程中根据数据的治理记录和数据信息来确定其对应的容器类型,并将数据储存至对应的数据容器中,从而能够在数据治理的过程中将不同类型的数据储存至不同的数据容器中以保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种基于容器分离的数据治理方法的流程示意图。其中,图1所描述的方法可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定如图1所示,该基于容器分离的数据治理方法可以包括以下操作:
101、获取数据治理数据。
可选的,数据治理数据可以为通过数据治理规则和数据治理线程处理完的数据,或是初始获得的待进行数据治理的数据。
102、根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的容器类型。
可选的,可以通过对治理记录或数据信息中的特定数据标识的识别,直接确定数据治理数据对应的数据治理层或阶段,以确定数据治理数据对应的容器类型。
103、根据容器类型,从预设的多个候选数据容器中确定出目标数据容器。
104、将数据治理数据储存至目标数据容器中。
可见,实施本发明实施例所描述的方法能够在数据治理的过程中根据数据的治理记录和数据信息来确定其对应的容器类型,并将数据储存至对应的数据容器中,从而能够在数据治理的过程中将不同类型的数据储存至不同的数据容器中以保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。
作为一种可选的实施例,上述步骤中的,根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的容器类型,包括:
根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的数据治理层类型;
根据数据治理层类型,确定数据治理数据对应的容器类型。
可选的,数据信息包括数据类型、数据大小、数据标识中的至少一种。
可选的,数据治理层类型包括ODS层类型、DW层类型和DM层类型中的一种或多种。
具体的,大数据的数据治理整个环节,即:从数据的采集到数据的清洗、转换、计算、建模等一系列的步骤,这其中数据一般经过3个层:ODS、DW、DM的管理。
具体的,ODS的全称是Operation Data Store,中文是数据准备区,也称为贴源层,可以由ETL从源数据中直接采集生成,其数据表通常会原封不动的存储一份,这称为ODS层,是后续数据仓库加工数据的来源。一般而言,ODS层数据的来源包括业务库、实时来源、埋点日志和消息队列,具体的,业务库方面经常会使用sqoop技术来抽取,例如每天定时抽取一次。而实时来源方面,可以考虑用canal技术监听mysql数据库的binlog,实时接入即可。埋点日志方面,日志一般以文件的形式保存,可以选择用flume技术定时同步,或可以用sparkstreaming技术、Flink 技术或kafka技术来实时接入,而消息队列方面的来源,也即来自ActiveMQ或Kafka的数据。
具体的,DW的全称是data warehouse,也即数据仓库层,一般由ODS数据通过ETL工具的清洗、转换、计算等组件处理后生成。
具体的,DM的全称是Data Mart,也即数据集市,一般由DW数据通过主题建模处理生成。具体的,DW数据或DM数据的生成是有先提条件的,即:由业务需求与主题分析来决定。
通过上述实施例,可以根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的数据治理层类型,以进一步确定容器类型,从而能够将不同数据治理层类型对应的数据在后续储存至不同的数据容器中,以实现在数据治理的过程中保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。
作为一种可选的实施例,上述步骤中的,根据容器类型,从预设的多个候选数据容器中确定出目标数据容器,包括:
根据容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出容器类型对应的目标数据容器;每一候选数据容器或目标数据容器为一个通过切根技术建立的具有独立的资源、文件、设备、状态和配置的数据空间。
具体的,本发明中的数据容器是一种可与外界隔离的进程,其通过名字空间(Namespace)、控制组(Control groups)、切根(chroot)技术把资源、文件、设备、状态和配置划分到一个独立的空间。
通过上述实施例,能够根据容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出容器类型对应的目标数据容器,从而能够将不同数据治理层类型的数据在后续储存至对应的目标数据容器中,以实现在数据治理的过程中保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。
作为一种可选的实施例,上述步骤中的,获取数据治理数据,包括:
基于名字空间技术、控制组技术和切根技术,建立多个数据治理层对应的多个候选数据容器;
建立包括有多个阶段的由SEDA架构的数据治理架构,并将每一阶段与每一数据治理层和候选数据容器进行关联;
获取由数据治理架构中的任一阶段的线程所处理得到的数据治理数据。
具体的,SEDA(Staged Event Driven Architecture)是一种阶段性事件驱动的服务器应用程序架构。SEDA架构能对有穷状态机(FSM)进行分析,并将相关状态聚集在同一阶段也即Stage中,Stage间采用队列的方式来进行通信。每一个Stage皆完全独立,均拥有自己的线程池,以及为了专门处理到达这一步骤所必须进行的工作。所有的Stage均通过自身事件队列连接在一起,构成完整的请求处理网络。其中每一个Stage由下述四部分组成:
(1)事件队列:用以维持Stage间之通信。
(2)事件处理器:用以执行请求到这一个Stage中所应执行的工作。
(3)线程池:用以提供事件处理器且可以并发执行事件处理之环境。
(4)性能控制器:用以对该Stage资源(线程数、队列长度等等)进行调整。
具体的,上述包括有多个阶段的由SEDA架构的数据治理架构中,可以基于ODS、DW、DM各层数据的逻辑关系特点,一方面可将各层(ODS、DW、DM)的数据作为一个容器(即将不同层的数据放在不同的容器中);另一方面,针对3层不同数据治理的管理模式,可将ODS、DW、DM不同层数据的治理作为SEDA多线程架构中不同的Stage,以充分实现对不同层的数据的隔离和分别处理。
通过上述实施例,能够通过采用容器技术、SEDA阶段性事件驱动的服务器应用程序架构,对大数据治理各个环节的数据通过不同阶段的设置和不同容器的设置,对需要更新治理的数据进行高效有序的处理,从而保证不同阶段(层级)数据的治理不会相互影响,实现大数据治理过程中的数据隔离和数据处理调度,提高数据治理的效率和效果。
作为一种可选的实施例,治理记录包括数据治理数据在历史时间段中储存和接触过的所有处理设备信息、处理算法规则和数据储存空间。
相应的,上述步骤中的,根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的数据治理层类型,包括:
将数据治理数据对应的治理记录,输入至第一类型预测神经网络中,以得到数据治理数据对应的第一预测数据治理层类型和对应的预测概率;第一类型预测神经网络通过包括有多个训练治理记录和对应的数据治理层标注的训练数据集训练得到;
将数据治理数据对应的数据信息,输入至第二类型预测神经网络中,以得到数据治理数据对应的第二预测数据治理层类型和对应的预测概率;第二类型预测神经网络通过包括有多个训练数据信息和对应的数据治理层标注的训练数据集训练得到;
将第一预测数据治理层类型和第二预测数据治理层类型中对应的预测概率更高的,确定为数据治理数据对应的数据治理层类型。
通过上述实施例,能够充分利用神经网络预测模型来根据数据治理数据对应的治理记录和数据信息,预测数据治理数据对应的数据治理层类型,从而能够精确高效地确定数据对应的数据治理层类型,以在后续实现将不同数据治理层类型的数据在后续储存至对应的目标数据容器中,以实现在数据治理的过程中保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。
作为一种可选的实施例,上述步骤中的,根据容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出容器类型对应的目标数据容器,包括:
根据容器类型,以及预设的类型和容器的对应关系,确定出容器类型对应的多个候选数据容器;
从预设的历史数据治理数据库中的多个历史治理数据中确定出数据信息和数据治理数据的数据信息之间的相似度大于第一相似度阈值的所有历史治理数据,确定为多个目标历史治理数据;
获取每一候选数据容器对应的第一容器参数;
获取每一目标历史治理数据对应的所有储存过的数据容器的第二容器参数;第一容器参数或第二容器参数包括容器资源参数、容器历史文件参数、容器设备参数、容器状态参数和容器配置参数;
计算每一候选数据容器的第一容器参数和所有目标历史治理数据的第二容器参数之间的相似度的平均值,得到每一候选数据容器对应的容器相似度;
将容器相似度最高的候选数据容器确定为容器类型对应的目标数据容器。
通过上述实施例,能够充分利用容器参数和历史治理数据的计算,来准确高效地从预设的多个候选数据容器中确定出容器类型对应的目标数据容器,从而在后续能够实现将不同数据治理层类型的数据在后续储存至对应的目标数据容器中,以实现在数据治理的过程中保证数据之间的相互隔离,提高数据治理的效果,减少数据治理的出错。
实施例二
请参阅图2,图2是本发明实施例公开的一种基于容器分离的数据治理系统的结构示意图。其中,图2所描述的系统可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中,且该服务器可以是本地服务器,也可以是云服务器,本发明实施例不做限定。如图2所示,该系统可以包括:
获取模块201,用于获取数据治理数据;
第一确定模块202,用于根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的容器类型;
第二确定模块203,用于根据容器类型,从预设的多个候选数据容器中确定出目标数据容器;
储存模块204,用于将数据治理数据储存至目标数据容器中。
作为一种可选的实施例,第一确定模块202根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的容器类型的具体方式,包括:
根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的数据治理层类型;
根据数据治理层类型,确定数据治理数据对应的容器类型。
作为一种可选的实施例,数据信息包括数据类型、数据大小、数据标识中的至少一种;和/或,数据治理层类型包括ODS层类型、DW层类型和DM层类型中的一种或多种。
作为一种可选的实施例,第二确定模块203根据容器类型,从预设的多个候选数据容器中确定出目标数据容器的具体方式,包括:
根据容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出容器类型对应的目标数据容器;每一候选数据容器或目标数据容器为一个通过切根技术建立的具有独立的资源、文件、设备、状态和配置的数据空间。
作为一种可选的实施例,获取模块201获取数据治理数据的具体方式,包括:
基于名字空间技术、控制组技术和切根技术,建立多个数据治理层对应的多个候选数据容器;
建立包括有多个阶段的由SEDA架构的数据治理架构,并将每一阶段与每一数据治理层和候选数据容器进行关联;
获取由数据治理架构中的任一阶段的线程所处理得到的数据治理数据。
作为一种可选的实施例,治理记录包括数据治理数据在历史时间段中储存和接触过的所有处理设备信息、处理算法规则和数据储存空间;第一确定模块202根据数据治理数据对应的治理记录和数据信息,确定数据治理数据对应的数据治理层类型的具体方式,包括:
将数据治理数据对应的治理记录,输入至第一类型预测神经网络中,以得到数据治理数据对应的第一预测数据治理层类型和对应的预测概率;第一类型预测神经网络通过包括有多个训练治理记录和对应的数据治理层标注的训练数据集训练得到;
将数据治理数据对应的数据信息,输入至第二类型预测神经网络中,以得到数据治理数据对应的第二预测数据治理层类型和对应的预测概率;第二类型预测神经网络通过包括有多个训练数据信息和对应的数据治理层标注的训练数据集训练得到;
将第一预测数据治理层类型和第二预测数据治理层类型中对应的预测概率更高的,确定为数据治理数据对应的数据治理层类型。
作为一种可选的实施例,第二确定模块203根据容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出容器类型对应的目标数据容器的具体方式,包括:
根据容器类型,以及预设的类型和容器的对应关系,确定出容器类型对应的多个候选数据容器;
从预设的历史数据治理数据库中的多个历史治理数据中确定出数据信息和数据治理数据的数据信息之间的相似度大于第一相似度阈值的所有历史治理数据,确定为多个目标历史治理数据;
获取每一候选数据容器对应的第一容器参数;
获取每一目标历史治理数据对应的所有储存过的数据容器的第二容器参数;第一容器参数或第二容器参数包括容器资源参数、容器历史文件参数、容器设备参数、容器状态参数和容器配置参数;
计算每一候选数据容器的第一容器参数和所有目标历史治理数据的第二容器参数之间的相似度的平均值,得到每一候选数据容器对应的容器相似度;
将容器相似度最高的候选数据容器确定为容器类型对应的目标数据容器。
本发明实施例中的模块细节和技术效果可以参照实施例一中的表述,在此不再赘述。
实施例三
请参阅图3,图3是本发明实施例公开的另一种基于容器分离的数据治理系统的结构示意图。如图3所示,该系统可以包括:
存储有可执行程序代码的存储器301;
与存储器301耦合的处理器302;
处理器302调用存储器301中存储的可执行程序代码,执行本发明实施例一公开的基于容器分离的数据治理方法中的部分或全部步骤。
实施例四
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一公开的基于容器分离的数据治理方法中的部分或全部步骤。
以上所描述的系统实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种基于容器分离的数据治理方法及系统所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种基于容器分离的数据治理方法,其特征在于,所述方法包括:
获取数据治理数据;
根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型;
根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器;
将所述数据治理数据储存至所述目标数据容器中。
2.根据权利要求1所述的基于容器分离的数据治理方法,其特征在于,所述根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型,包括:
根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的数据治理层类型;
根据所述数据治理层类型,确定所述数据治理数据对应的容器类型。
3.根据权利要求2所述的基于容器分离的数据治理方法,其特征在于,所述数据信息包括数据类型、数据大小、数据标识中的至少一种;和/或,所述数据治理层类型包括ODS层类型、DW层类型和DM层类型中的一种或多种。
4.根据权利要求3所述的基于容器分离的数据治理方法,其特征在于,所述根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器,包括:
根据所述容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出所述容器类型对应的目标数据容器;每一所述候选数据容器或所述目标数据容器为一个通过切根技术建立的具有独立的资源、文件、设备、状态和配置的数据空间。
5.根据权利要求4所述的基于容器分离的数据治理方法,其特征在于,所述获取数据治理数据,包括:
基于名字空间技术、控制组技术和切根技术,建立多个所述数据治理层对应的多个候选数据容器;
建立包括有多个阶段的由SEDA架构的数据治理架构,并将每一所述阶段与每一所述数据治理层和所述候选数据容器进行关联;
获取由所述数据治理架构中的任一阶段的线程所处理得到的数据治理数据。
6.根据权利要求2所述的基于容器分离的数据治理方法,其特征在于,所述治理记录包括所述数据治理数据在历史时间段中储存和接触过的所有处理设备信息、处理算法规则和数据储存空间;所述根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的数据治理层类型,包括:
将所述数据治理数据对应的治理记录,输入至第一类型预测神经网络中,以得到所述数据治理数据对应的第一预测数据治理层类型和对应的预测概率;所述第一类型预测神经网络通过包括有多个训练治理记录和对应的数据治理层标注的训练数据集训练得到;
将所述数据治理数据对应的数据信息,输入至第二类型预测神经网络中,以得到所述数据治理数据对应的第二预测数据治理层类型和对应的预测概率;所述第二类型预测神经网络通过包括有多个训练数据信息和对应的数据治理层标注的训练数据集训练得到;
将所述第一预测数据治理层类型和所述第二预测数据治理层类型中对应的预测概率更高的,确定为所述数据治理数据对应的数据治理层类型。
7.根据权利要求4所述的基于容器分离的数据治理方法,其特征在于,所述根据所述容器类型,以及预设的类型和容器的对应关系,从预设的多个候选数据容器中确定出所述容器类型对应的目标数据容器,包括:
根据所述容器类型,以及预设的类型和容器的对应关系,确定出所述容器类型对应的多个候选数据容器;
从预设的历史数据治理数据库中的多个历史治理数据中确定出数据信息和所述数据治理数据的数据信息之间的相似度大于第一相似度阈值的所有历史治理数据,确定为多个目标历史治理数据;
获取每一所述候选数据容器对应的第一容器参数;
获取每一所述目标历史治理数据对应的所有储存过的数据容器的第二容器参数;所述第一容器参数或所述第二容器参数包括容器资源参数、容器历史文件参数、容器设备参数、容器状态参数和容器配置参数;
计算每一所述候选数据容器的第一容器参数和所有所述目标历史治理数据的第二容器参数之间的相似度的平均值,得到每一所述候选数据容器对应的容器相似度;
将所述容器相似度最高的所述候选数据容器确定为所述容器类型对应的目标数据容器。
8.一种基于容器分离的数据治理系统,其特征在于,所述系统包括:
获取模块,用于获取数据治理数据;
第一确定模块,用于根据所述数据治理数据对应的治理记录和数据信息,确定所述数据治理数据对应的容器类型;
第二确定模块,用于根据所述容器类型,从预设的多个候选数据容器中确定出目标数据容器;
储存模块,用于将所述数据治理数据储存至所述目标数据容器中。
9.一种基于容器分离的数据治理系统,其特征在于,所述系统包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-7任一项所述的基于容器分离的数据治理方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的基于容器分离的数据治理方法。
CN202311507072.0A 2023-11-14 2023-11-14 基于容器分离的数据治理方法及系统 Active CN117251254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311507072.0A CN117251254B (zh) 2023-11-14 2023-11-14 基于容器分离的数据治理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311507072.0A CN117251254B (zh) 2023-11-14 2023-11-14 基于容器分离的数据治理方法及系统

Publications (2)

Publication Number Publication Date
CN117251254A true CN117251254A (zh) 2023-12-19
CN117251254B CN117251254B (zh) 2024-02-27

Family

ID=89137147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311507072.0A Active CN117251254B (zh) 2023-11-14 2023-11-14 基于容器分离的数据治理方法及系统

Country Status (1)

Country Link
CN (1) CN117251254B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140344625A1 (en) * 2013-05-17 2014-11-20 Oracle International Corporation Debugging framework for distributed etl process with multi-language support
CN104731791A (zh) * 2013-12-18 2015-06-24 东阳艾维德广告传媒有限公司 一种市场销售分析数据集市系统
CN106878393A (zh) * 2017-01-16 2017-06-20 深圳市商沃科技发展有限公司 一种基于融合微服务架构的系统
US20170329788A1 (en) * 2016-05-10 2017-11-16 International Business Machines Corporation Rule generation in a data governance framework
CN108881485A (zh) * 2018-07-30 2018-11-23 中国石油化工股份有限公司 保障大数据包下的高并发系统响应时间的方法
CN111241351A (zh) * 2020-01-08 2020-06-05 第四范式(北京)技术有限公司 数据处理方法、装置及系统
CN112181955A (zh) * 2020-09-01 2021-01-05 西南交通大学 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
US20220391848A1 (en) * 2021-06-07 2022-12-08 International Business Machines Corporation Condensing hierarchies in a governance system based on usage
CN116823464A (zh) * 2023-06-06 2023-09-29 海通期货股份有限公司 数据资产管理平台、电子设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140344625A1 (en) * 2013-05-17 2014-11-20 Oracle International Corporation Debugging framework for distributed etl process with multi-language support
CN104731791A (zh) * 2013-12-18 2015-06-24 东阳艾维德广告传媒有限公司 一种市场销售分析数据集市系统
US20170329788A1 (en) * 2016-05-10 2017-11-16 International Business Machines Corporation Rule generation in a data governance framework
CN106878393A (zh) * 2017-01-16 2017-06-20 深圳市商沃科技发展有限公司 一种基于融合微服务架构的系统
CN108881485A (zh) * 2018-07-30 2018-11-23 中国石油化工股份有限公司 保障大数据包下的高并发系统响应时间的方法
CN111241351A (zh) * 2020-01-08 2020-06-05 第四范式(北京)技术有限公司 数据处理方法、装置及系统
CN112181955A (zh) * 2020-09-01 2021-01-05 西南交通大学 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法
US20220391848A1 (en) * 2021-06-07 2022-12-08 International Business Machines Corporation Condensing hierarchies in a governance system based on usage
CN116823464A (zh) * 2023-06-06 2023-09-29 海通期货股份有限公司 数据资产管理平台、电子设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金波 等: "档案数据治理运行机制探究", 《档案学通讯》, no. 4, pages 22 - 29 *

Also Published As

Publication number Publication date
CN117251254B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
US11915104B2 (en) Normalizing text attributes for machine learning models
US10073683B2 (en) System and method for providing software build violation detection and self-healing
CN109062780A (zh) 自动化测试用例的开发方法及终端设备
CN106777101A (zh) 数据处理引擎
CN106354817B (zh) 一种日志的处理方法及装置
CN105868222A (zh) 一种任务调度方法及装置
CN113360722A (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN113949652B (zh) 基于人工智能的用户异常行为检测方法、装置及相关设备
CN107679133B (zh) 一种实用于海量实时pmu数据的挖掘方法
CN112559525B (zh) 数据检查系统、方法、装置和服务器
CN117251254B (zh) 基于容器分离的数据治理方法及系统
CN113868248A (zh) 指标数据预聚合方法
CN110336889B (zh) 一种数值天气预报模式运行智能监控平台和监控方法
US11899690B2 (en) Data analytical processing apparatus, data analytical processing method, and data analytical processing program
CN110502538B (zh) 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN115098238B (zh) 一种应用程序任务调度方法及装置
CN107562703A (zh) 字典树重构方法及系统
CN114598731B (zh) 集群日志采集方法、装置、设备及存储介质
CN117234694B (zh) 基于seda线程调度的数据治理方法及系统
CN107704362A (zh) 一种基于Ambari监控大数据组件的方法及装置
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN117632905B (zh) 基于云端使用记录的数据库管理方法及系统
CN111414567A (zh) 数据处理方法、装置
CN110196793A (zh) 针对插件数据库的日志分析方法及设备
CN113496256B (zh) 一种图像标注模型训练方法、标注方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant