CN114048108A - 多源异构数据的自动化治理方法及装置 - Google Patents

多源异构数据的自动化治理方法及装置 Download PDF

Info

Publication number
CN114048108A
CN114048108A CN202210029418.XA CN202210029418A CN114048108A CN 114048108 A CN114048108 A CN 114048108A CN 202210029418 A CN202210029418 A CN 202210029418A CN 114048108 A CN114048108 A CN 114048108A
Authority
CN
China
Prior art keywords
data
task
governance
message queue
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210029418.XA
Other languages
English (en)
Inventor
郭国龙
朱龙文
郭慧
程揭章
张海陆
田恩岳
牛纪涛
魏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Xingtu Intelligent Technology Co ltd
Original Assignee
Zhongke Xingtu Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Xingtu Intelligent Technology Co ltd filed Critical Zhongke Xingtu Intelligent Technology Co ltd
Priority to CN202210029418.XA priority Critical patent/CN114048108A/zh
Publication of CN114048108A publication Critical patent/CN114048108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3017Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及数据处理技术领域,具体地,本公开的实施例提供了一种多源异构数据的自动化治理方法及装置。所述方法:包括根据用户输入的引接指令,配置数据引接任务;根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中;根据用户输入的任务配置指令,配置数据治理任务;启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理;监控所述数据引接任务、所述数据治理任务以及数据治理结果。以此方式,可以实现集数据引接、任务配置、自动化治理以及监控于一体数据自动化治理方案,且能够提高数据自动化治理的效率与稳健性。

Description

多源异构数据的自动化治理方法及装置
技术领域
本公开涉及数据处理领域,尤其涉及数据治理技术领域。
背景技术
目前的数据治理技术因为使用技术难度、稳定性、多源异构数据的兼容性等问题基本需要大量人工干预,无法快速实现数据的自动化治理,且只能通过一些简单的治理规则进行治理,同时,并无法实现对数据治理的全程监控,因而,就不能进行自动化异常处理和容灾恢复。
发明内容
本公开提供了一种多源异构数据的自动化治理方法、装置以及设备。
根据本公开的第一方面,提供了一种多源异构数据的自动化治理方法。该方法包括:
根据用户输入的引接指令,配置数据引接任务;
根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中;
根据用户输入的任务配置指令,配置数据治理任务;
启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理;
监控所述数据引接任务、所述数据治理任务以及数据治理结果。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中,包括:
根据所述数据引接任务访问对应的数据源;
若访问成功,则通过数据连接认证,将所述数据引接任务所引入的多源异构数据传入Kafka消息队列中的一个或多个子队列。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述配置数据治理任务,包括:
配置需要进行治理的数据的输入源信息、输出库信息、数据治理算子、算子应用顺序以及治理逻辑文件;其中,所述数据治理平台部署在若干服务器虚拟化出的多个容器上;所述启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理,包括:
在容器中启动数据治理微服务;
在所述数据治理微服务中启动多个计算实例;所述容器具有可根据数据治理任务需求进行横向动态扩容的容器编排能力;
通过所述多个计算实例并行读取与所述数据治理任务对应的数据,然后利用所述多个计算实例并行进行数据治理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
当接收到配置修改指令时,阻塞对应的计算实例;将修改后的配置信息通过消息总线传入对应的计算实例,并使所述计算实例恢复执行数据治理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述监控所述数据引接任务、所述数据治理任务以及数据治理结果,包括:
监控所述数据引接任务对应的数据源或数据上传端的数据上传情况;
监控所述数据治理任务的静态配置信息、执行所述数据治理任务的计算实例的信息、所述数据治理任务针对所述消息队列的数据读取进度以及所述数据治理任务的实时运行状态;
监控所述数据治理结果的存储集群状况以及数据应用状况。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
若监控到任一执行所述数据治理任务的计算实例的运行状态异常,则启动待命计算实例或者开启新的计算实例,并使所述待命计算实例或者新的计算实例通过读取所述运行状态异常的计算实例所执行的数据治理任务的静态配置信息、针对所述消息队列的数据读取进度以及所述实时运行状态来接替运行状态异常的计算实例继续执行所述数据治理任务;
销毁所述运行状态异常的计算实例。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
根据接收到的数据标准化指令,进行数据标准化配置,以对所述多源异构数据进行标准化处理;
根据预设数据质量复检规则,对所述数据治理结果进行定期质量复检。
根据本公开的第二方面,提供了一种多源异构数据的自动化治理装置。该装置包括:
第一配置模块,用于根据用户输入的引接指令,配置数据引接任务;
处理模块,用于根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中;
第二配置模块,用于根据用户输入的任务配置指令,配置数据治理任务;
处理模块,用于启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理;
监控模块,用于监控所述数据引接任务、所述数据治理任务以及数据治理结果。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案,不构成对本公开的限定在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本公开的实施例的多源异构数据的自动化治理方法的流程图;
图2示出了根据本公开的实施例的多源异构数据的自动化治理原理图;
图3示出了根据本公开的实施例的多源异构数据的自动化治理装置的框图;
图4示出了能够实施本公开的实施例的示例性电子设备的方框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本公开中,可实现集数据引接、任务配置、自动化治理以及监控于一体数据自动化治理方案,且通过消息队列也能够解耦数据引接微服务与数据治理微服务,提高数据自动化治理的效率与稳健性。
图1示出了根据本公开实施例的多源异构数据的自动化治理方法100的流程图。如图1所示,方法100包括:
步骤110,根据用户输入的引接指令,配置数据引接任务;
引接指令用于指示配置何种引接任务,如TCP数据引接指令、本地数据库引接指令、第三方数据库引接指令等;
数据引接任务如:TCP协议数据引接、UDP协议数据引接、第三方数据库引接等;
配置数据引接任务即配置需要引接的源数据的存储地址、源数据所在设备的端口、支持的协议、用户名、密码、数据库名等信息。
步骤120,根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中;
连接认证即按照数据引接任务中的配置信息直接访问数据源看能否成功。
多源异构数据中的多源指的是数据来源多元化如第三方数据库、本地数据库、某网站、某服务器等;异构指的是数据格式可以是多种,如XML格式、Text格式、Json格式、.JPEG格式、.TIFF格式、rmvb格式、MP4格式等。
步骤130,根据用户输入的任务配置指令,配置数据治理任务;
步骤140,启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理;消息队列可以是Kafka消息队列集群中某topic子队列。
步骤150,监控所述数据引接任务、所述数据治理任务以及数据治理结果。这些监控操作可以由监控服务执行。
通过配置数据引接任务,可对各种数据如第三方数据或本地数据等进行引入,方便治理各种数据,而根据数据引接任务进行数据连接认证,可确认数据引接任务配置是否正确,然后在认证通过即确认数据引接任务配置成功后,将基于数据引接任务所引入的多源异构数据自动传入消息队列中,进而配置数据治理任务,从而在启动数据治理任务后,从消息队列中自动读取与所述数据治理任务对应的数据自动进行数据治理,同时同步监控数据引接任务、所述数据治理任务以及数据治理结果,从而实现集数据引接、任务配置、自动化治理以及监控于一体数据自动化治理方案,且通过消息队列也能够解耦数据引接微服务与数据治理微服务,提高数据自动化治理的效率与稳健性。
其中,数据治理的原理,如图2所示,本公开采用流式计算任务可视化配置和监控,流式计算引擎可配置丰富的数据治理算子:数据质检算子、数据去重算子、数据插值算子、数据聚合算子、数据重组算子、关联重组算子、坐标系转换算子、地理围栏算子、数据标准化算子、数据合理性校验算子、数据加工算子……等,可搭配深度自主学习框架基于数据和运算结果进行算法参数自动调整,动态改变和调度(卷积)神经网络计算策略,实现便捷、快速、高质量的数据治理能力。
在一个实施例中,所述根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中,包括:
根据所述数据引接任务访问对应的数据源;
若访问成功,则通过数据连接认证,将所述数据引接任务所引入的多源异构数据传入Kafka消息队列中的一个或多个子队列。
通过数据引接任务访问对应的数据源,可判断是否能访问成功,若能,则说明通过数据连接认证了,因而,可将数据引接任务所引入的多源异构数据自动传入Kafka消息队列中的一个或多个子队列,实现数据的自动引接与传入。
另外,传入Kafka消息队列中的一个或多个子队列可实现数据引接微服务和数据治理微服务的解耦,避免数据引接出现问题而影响数据治理,或者数据治理出现问题而影响数据引接。
在一个实施例中,所述配置数据治理任务,包括:
配置需要进行治理的数据的输入源信息、输出库信息、数据治理算子、算子应用顺序以及治理逻辑文件;其中,所述数据治理平台部署在若干服务器虚拟化出的多个容器上。由于资源的有限性,可支撑数据治理平台的服务器数目毕竟很有限,因而,通过将数据治理平台部署在若干服务器虚拟化出的多个容器,可利用虚拟化容器的强大功能有效增强数据治理平台的治理功能,如本公开的数据治理平台可部署在由14台物理存储和应用服务器虚拟化出的1400个容器上,相比于不适用容器只利用真实的服务器而言,可大大提高数据治理平台的治理能力。
输入源信息包括:输入数据源类型(用于描述需要配置的数据的来源类型,如第三方数据源、消息队列、文件等)、输入数据源配置(属于对数据源的二级配置,如名字等参数配置)、数据类型(具体的数据格式);
输出库信息包括:输出数据源类型(可用于描述将治理后的数据的输出到哪里,如存储的数据库类型等)、输出数据源配置(如数据库的名字)、输出数据源二级配置(治理后的数据的其他配置)。
数据治理算子可以有多个,根据需求而定,治理逻辑文件因业务而异,用于配合数据治理算子,可对数据进行深入治理,但并非所有的数据治理算子都需要治理逻辑文件。
通过为需要治理的数据配置输入源信息、输出库信息、数据治理算子、算子应用顺序以及治理逻辑文件这一系列信息,可便于之后数据自动治理时能够对数据进行准确而详细的治理。
在一个实施例中,所述启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理,包括:
在容器中启动数据治理微服务;当然,容器中还可启动数据引接服务、监控服务等各种需要的服务。
在所述数据治理微服务中启动多个计算实例;所述容器具有可根据数据治理任务需求进行横向动态扩容的容器编排能力;
通过所述多个计算实例并行读取与所述数据治理任务对应的数据,然后利用所述多个计算实例并行进行数据治理。
通过在容器中启动数据治理微服务,可在数据治理微服务中启动多个计算实例,然后利用多个计算实例并行执行数据治理,提高数据自动化治理效率。
当然,由于容器有横向动态扩容的容器编排能力,因而,能够根据数据治理任务的增加自动扩展容器,实现容器内实例扩展和容器外的物理扩展,以达到高通量并发计算需求,经过实测2G内存单实例计算任务可以实现5万条/s的实时数据计算能力,通过该手段在硬件可持续扩展条件下可实现上万并行计算任务的同时运行,峰值并行数据处理量可达到5亿条/s,实测在任务数超过一万时对硬件和数据库造成较大压力,性能会明显下降,该问题还在持续攻关中。
在一个实施例中,所述方法还包括:
当接收到配置修改指令时,阻塞对应的计算实例;将修改后的配置信息通过消息总线传入对应的计算实例,并使所述计算实例恢复执行数据治理。
当接收到配置修改指令时,可暂时阻塞对应的计算实例,然后将修改后的配置信息通过消息总线传入对应的计算实例,并使所述计算实例恢复执行数据治理,可在治理规则变化时实现动态实时切换,具体地,本公开的治理规则的变化以及恢复治理可在100ms内完成,实现实时性。
在一个实施例中,所述监控所述数据引接任务、所述数据治理任务以及数据治理结果,包括:
监控所述数据引接任务对应的数据源或数据上传端的数据上传情况;数据上传情况即数据是否正常、持续的上传还是中断等。
监控所述数据治理任务的静态配置信息、执行所述数据治理任务的计算实例的信息、所述数据治理任务针对所述消息队列的数据读取进度以及所述数据治理任务的实时运行状态;
静态配置信息即输入源信息、输出库信息、数据治理算子、算子应用顺序以及治理逻辑文件的配置;
数据治理任务的实时运行状态可以是数据治理任务是否开启、暂停、关闭、正在进行中等。
执行数据治理任务的计算实例的信息即执行数据治理任务的计算实例的个数、名字、正常与否、运行时间等。
数据治理任务针对所述消息队列的数据读取进度即消息队列中的数据的当前读取位置、已经被读取的百分比等、尚未被读取的百分比等。
监控所述数据治理结果的存储集群状况(如所存储的服务器的个数、名字、是否正常等)以及数据应用状况(用于描述数据治理结果应用到了哪里)。
在一个实施例中,所述方法还包括:
若监控到任一执行所述数据治理任务的计算实例的运行状态异常,则启动待命计算实例或者开启新的计算实例,并使所述待命计算实例或者新的计算实例通过读取所述运行状态异常的计算实例所执行的数据治理任务的静态配置信息、针对所述消息队列的数据读取进度以及所述实时运行状态来接替运行状态异常的计算实例继续执行所述数据治理任务;
销毁所述运行状态异常的计算实例。
在运维层面通过脚本、日志、监控中心等综合手段收集微服务计算实例和容器的运行状态,发现异常后会自动由其他待命实例或新启动计算实例接替治理任务并销毁原实例(消息总线告诉新实例接替哪个实例,然后新实例就从那个实例中查找治理任务),数据库中会每分钟记录各计算任务的状态、运行所在实例信息和数据处理的进度信息(即kafka中子队列偏移量),在发生异常由其他实例接管时会获取该信息并自动接续任务,以达到自动化的容灾恢复,完成自动化异常处理。
在一个实施例中,所述方法还包括:
根据接收到的数据标准化指令,进行数据标准化配置,以对所述多源异构数据进行标准化处理;
根据预设数据质量复检规则,对所述数据治理结果进行定期质量复检。
通过进行数据标准化配置可在引入数据前先对所述多源异构数据进行标准化处理,实现数据格式等标准化处理;同时对于已经存储至数据库的数据治理结果可利用预设数据质量复检规则,自动实现定期质量复检。
本公开对实时高通量多源异构数据的自动化治理方法的创新点主要体现在:
1. 针对高通量多源异构实时数据的自动化数据治理技术;
2. 过万并行数据计算任务的自动认领、转移、容灾恢复和告警监控;
3. 数据治理规则的可配置化和动态实时切换技术。
本公开具体计算步骤如下:
步骤1、进行数据标准设置,为所有数据治理的前置条件,数据治理的最高规则依据上传的标准设置开展,主要依据国家相关标准规范;
步骤2、进行对已入库数据的定期质量复检规则设置,程序按照设置的间隔期限进行全库数据扫面和质量复检;
步骤3、配置第三方外部数据源的数据引接任务和认证,配置地址、端口、协议、用户名、密码、数据库名等信息后进行连接认证,认证通过后进行配置,数据一次性接入或持续性实时增量接入,数据经过引接服务会被统一转入Kafka消息队列集群某topic子队列中,由数据治理任务进行实时治理;(通过消息队列对数据引接端、治理端微服务进行解耦);
步骤4、进行数据治理任务配置,约定数据治理输入源信息和输出库信息,数据治理算子和应用顺序,上传具体治理逻辑的JSON配置文件后启动治理,则和步骤3进入消息队列集群待治理的数据接续;
步骤5、进行数据逐条详细的治理规则配置,整理JSON配置文件上传到治理任务中后启动治理,治理规则可以是:将字段名字为空-湿的字段修改为空气湿度,将字段名字为土-湿的字段修改为土壤湿度,将空气湿度的字段的值修改为0-60,将土壤湿度的字段的值修改为0-80等;
步骤6、数据治理任务由系统进行统一监控,可在任务管理中查看计算任务的信息、运行服务器节点、实例数、状态等,并可手动启动或停止;
步骤7、数据源和终端可被监控,存储集群状况可被监控,实时数据处理量统计可被监控。同数据治理计算任务监控一起形成全链路的监控能力闭环;
步骤8、最终原始数据经过自动化数据治理形成资产库和专题库,并可通过数据共享服务实现共享;
步骤9、数据治理任务中的所有配置信息、数据标准和质量规则信息可以通过系统修改并即时生效,本公开采用RabbitMQ实现消息总线技术,使规则变化通过与数据计算服务解耦的消息总线传入计算任务,当内存计算中的监控参数监控到规则变化后会实时阻塞计算任务,待将数据库中变化的规则覆盖到内存中的计算规则参数后,再继续计算任务,上述变化可在100ms内完成,以实现实时性。
上述步骤1-9主要阐述了本公开如何实现创新点3和部分创新点1的内容。
对于创新点1和2的具体原理说明:本公开使用14台物理存储和应用服务器通过虚拟化全容器化的方式构建集群环境,程序采用SpringCloud分布式微服务架构设计,每个微服务/计算服务等采用Docker容器化部署,同一微服务在容器中启动若干计算实例,通过微服务注册管理中心NACOS和Kubernetes容器编排能力可通过任务需求进行横向动态扩容(容器内实例扩展和容器外的物理扩展)以达到高通量并发计算需求,经过实测2G内存单实例计算任务可以实现5万条/s的实时数据计算能力,通过该手段在硬件可持续扩展条件下可实现上万并行计算任务的同时运行,峰值并行数据处理量可达到5亿条/s,实测在任务数超过一万时对硬件和数据库造成较大压力,性能会明显下降,该问题还在持续攻关中。本发明在运维层面通过脚本、日志、监控中心等综合手段收集微服务计算实例、容器的运行状态,发现异常后会自动由其他待命实例或新启动实例接替任务并销毁原实例,数据库中会每分钟记录各计算任务的状态、运行所在实例信息和数据处理的进度信息(即kafka中子队列偏移量),在发生异常由其他实例接管时会获取该信息并自动接续任务,以达到自动化的容灾恢复。
上述描述阐述了本发明的创新点1-3是如何实现的和基于分布式流式计算和多源异构大数据存储管理集群的自动化数据治理技术具体原理与思路。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本公开所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本公开所述方案进行进一步说明。
图3示出了根据本公开的实施例的多源异构数据的自动化治理装置300的方框图。如图3所示,装置300包括:
第一配置模块310,用于根据用户输入的引接指令,配置数据引接任务;
处理模块320,用于根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中;
第二配置模块330,用于根据用户输入的任务配置指令,配置数据治理任务;
处理模块340,用于启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理;
监控模块350,用于监控所述数据引接任务、所述数据治理任务以及数据治理结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
根据本公开的实施例,本公开还提供了一种电子设备。
图4示出了可以用来实施本公开的实施例的电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
设备400包括计算单元401,其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序,来执行各种适当的动作和处理。在RAM 403中,还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
设备400中的多个部件连接至I/O接口405,包括:输入单元406,例如键盘、鼠标等;输出单元407,例如各种类型的显示器、扬声器等;存储单元408,例如磁盘、光盘等;以及通信单元409,例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理,例如方法100。例如,在一些实施例中,方法100可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元408。在一些实施例中,计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM403并由计算单元401执行时,可以执行上文描述的方法100的一个或多个步骤。备选地,在其他实施例中,计算单元401可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法100。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (9)

1.一种多源异构数据的自动化治理方法,适用于数据治理平台,其特征在于,包括:
根据用户输入的引接指令,配置数据引接任务;
根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中;
根据用户输入的任务配置指令,配置数据治理任务;
启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理;
监控所述数据引接任务、所述数据治理任务以及数据治理结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中,包括:
根据所述数据引接任务访问对应的数据源;
若访问成功,则通过数据连接认证,将所述数据引接任务所引入的多源异构数据传入Kafka消息队列中的一个或多个子队列。
3.根据权利要求1所述的方法,其特征在于,所述配置数据治理任务,包括:
配置需要进行治理的数据的输入源信息、输出库信息、数据治理算子、算子应用顺序以及治理逻辑文件;其中,所述数据治理平台部署在若干服务器虚拟化出的多个容器上;所述启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理,包括:
在容器中启动数据治理微服务;
在所述数据治理微服务中启动多个计算实例;所述容器具有可根据数据治理任务需求进行横向动态扩容的容器编排能力;
通过所述多个计算实例并行读取与所述数据治理任务对应的数据,然后利用所述多个计算实例并行进行数据治理。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
当接收到配置修改指令时,阻塞对应的计算实例;将修改后的配置信息通过消息总线传入对应的计算实例,并使所述计算实例恢复执行数据治理。
5.根据权利要求1所述的方法,其特征在于,所述监控所述数据引接任务、所述数据治理任务以及数据治理结果,包括:
监控所述数据引接任务对应的数据源或数据上传端的数据上传情况;
监控所述数据治理任务的静态配置信息、执行所述数据治理任务的计算实例的信息、所述数据治理任务针对所述消息队列的数据读取进度以及所述数据治理任务的实时运行状态;
监控所述数据治理结果的存储集群状况以及数据应用状况。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若监控到任一执行所述数据治理任务的计算实例的运行状态异常,则启动待命计算实例或者开启新的计算实例,并使所述待命计算实例或者新的计算实例通过读取所述运行状态异常的计算实例所执行的数据治理任务的静态配置信息、针对所述消息队列的数据读取进度以及所述实时运行状态来接替运行状态异常的计算实例继续执行所述数据治理任务;
销毁所述运行状态异常的计算实例。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:
根据接收到的数据标准化指令,进行数据标准化配置,以对所述多源异构数据进行标准化处理;
根据预设数据质量复检规则,对所述数据治理结果进行定期质量复检。
8.一种多源异构数据的自动化治理装置,适用于数据治理平台,其特征在于,包括:
第一配置模块,用于根据用户输入的引接指令,配置数据引接任务;
处理模块,用于根据所述数据引接任务进行数据连接认证,并在认证通过后将所述数据引接任务所引入的多源异构数据传入消息队列中;
第二配置模块,用于根据用户输入的任务配置指令,配置数据治理任务;
处理模块,用于启动所述数据治理任务,从所述消息队列中读取与所述数据治理任务对应的数据进行数据治理;
监控模块,用于监控所述数据引接任务、所述数据治理任务以及数据治理结果。
9.一种电子设备,包括:
至少一个处理器;与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
CN202210029418.XA 2022-01-12 2022-01-12 多源异构数据的自动化治理方法及装置 Pending CN114048108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210029418.XA CN114048108A (zh) 2022-01-12 2022-01-12 多源异构数据的自动化治理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210029418.XA CN114048108A (zh) 2022-01-12 2022-01-12 多源异构数据的自动化治理方法及装置

Publications (1)

Publication Number Publication Date
CN114048108A true CN114048108A (zh) 2022-02-15

Family

ID=80196248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210029418.XA Pending CN114048108A (zh) 2022-01-12 2022-01-12 多源异构数据的自动化治理方法及装置

Country Status (1)

Country Link
CN (1) CN114048108A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448777A (zh) * 2022-03-14 2022-05-06 平安普惠企业管理有限公司 基于数据治理的监控告警方法、装置、设备及存储介质
CN115145992A (zh) * 2022-09-05 2022-10-04 深圳市明源云科技有限公司 多源数据处理方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304267A (zh) * 2018-01-31 2018-07-20 中科边缘智慧信息科技(苏州)有限公司 高可靠低资源开销的多源数据引接方法
CN109889551A (zh) * 2019-04-16 2019-06-14 湖南树华环保科技有限公司 一种智能硬件接入的物联网云平台的方法
WO2020062793A1 (zh) * 2018-09-29 2020-04-02 平安科技(深圳)有限公司 基于消息队列的请求处理方法、装置、设备及存储介质
CN111431955A (zh) * 2019-01-10 2020-07-17 中科星图股份有限公司 流式数据处理系统及方法
CN111460019A (zh) * 2020-04-02 2020-07-28 中电工业互联网有限公司 一种异构数据源的数据转换方法及中间件
CN111858569A (zh) * 2020-07-01 2020-10-30 长江岩土工程总公司(武汉) 基于流式计算的海量数据清洗的方法
CN112732987A (zh) * 2020-12-31 2021-04-30 北京百分点科技集团股份有限公司 一种全生命周期数据地图生成系统、方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304267A (zh) * 2018-01-31 2018-07-20 中科边缘智慧信息科技(苏州)有限公司 高可靠低资源开销的多源数据引接方法
WO2020062793A1 (zh) * 2018-09-29 2020-04-02 平安科技(深圳)有限公司 基于消息队列的请求处理方法、装置、设备及存储介质
CN111431955A (zh) * 2019-01-10 2020-07-17 中科星图股份有限公司 流式数据处理系统及方法
CN109889551A (zh) * 2019-04-16 2019-06-14 湖南树华环保科技有限公司 一种智能硬件接入的物联网云平台的方法
CN111460019A (zh) * 2020-04-02 2020-07-28 中电工业互联网有限公司 一种异构数据源的数据转换方法及中间件
CN111858569A (zh) * 2020-07-01 2020-10-30 长江岩土工程总公司(武汉) 基于流式计算的海量数据清洗的方法
CN112732987A (zh) * 2020-12-31 2021-04-30 北京百分点科技集团股份有限公司 一种全生命周期数据地图生成系统、方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALEX HOMER: "《云计算架构设计模式》", 31 October 2017 *
刘丽兰: "《制造网络基础、原理与技术》", 29 February 2008 *
王莉丽: "云计算服务及虚拟化技术", 《计算机网络与云计算技术及应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448777A (zh) * 2022-03-14 2022-05-06 平安普惠企业管理有限公司 基于数据治理的监控告警方法、装置、设备及存储介质
CN114448777B (zh) * 2022-03-14 2023-12-01 年华数据科技有限公司 基于数据治理的监控告警方法、装置、设备及存储介质
CN115145992A (zh) * 2022-09-05 2022-10-04 深圳市明源云科技有限公司 多源数据处理方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108600029B (zh) 一种配置文件更新方法、装置、终端设备及存储介质
CN114048108A (zh) 多源异构数据的自动化治理方法及装置
CN108845910A (zh) 大规模微服务系统的监控方法、装置及存储介质
US8990372B2 (en) Operation managing device and operation management method
CN112911013B (zh) 云应用的处理方法、装置、计算机设备和存储介质
CN112835616A (zh) 一种版本升级方法、装置、电子设备及存储介质
US10542086B2 (en) Dynamic flow control for stream processing
CN111966465B (zh) 一种实时修改宿主机配置参数的方法、系统、设备及介质
CN112653758A (zh) 边缘节点的更新方法、装置、设备、介质和程序产品
CN112988485A (zh) 电力物联网设备模拟测试方法及装置
Gao et al. Cyber-physical systems testbed based on cloud computing and software defined network
CN113918383A (zh) 核心板复位方法、装置、设备、存储介质以及程序产品
CN113742174B (zh) 云手机应用监控方法、装置、电子设备和存储介质
CN111124801A (zh) 智能化系统资源监控方法、装置及计算机可读存储介质
CN114185641A (zh) 虚拟机冷迁移方法、装置、电子设备及存储介质
CN115396523A (zh) 物联网数据处理方法、装置、设备、介质及物联网软网关
CN114706893A (zh) 故障检测方法、装置、设备及存储介质
CN115599438A (zh) 应用程序的发布包的构建方法、装置、设备及介质
CN115357493A (zh) 测试方法、装置、电子设备和存储介质
CN115567431A (zh) 一种网络稳定性测试方法、装置、被测设备及存储介质
CN112925623B (zh) 任务处理方法、装置、电子设备和介质
CN111984523B (zh) 消息处理任务测试方法、装置、系统、设备及介质
CN113419921A (zh) 一种任务监控方法、装置、设备以及存储介质
US10901833B2 (en) Automated recovery of execution roles in a distributed online system
Vijayalakshmi et al. Automatic healing of services in cloud computing environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220215

RJ01 Rejection of invention patent application after publication