CN115952227A - 数据采集系统及方法、电子设备和存储介质 - Google Patents

数据采集系统及方法、电子设备和存储介质 Download PDF

Info

Publication number
CN115952227A
CN115952227A CN202310100737.XA CN202310100737A CN115952227A CN 115952227 A CN115952227 A CN 115952227A CN 202310100737 A CN202310100737 A CN 202310100737A CN 115952227 A CN115952227 A CN 115952227A
Authority
CN
China
Prior art keywords
data
data acquisition
metadata
task
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310100737.XA
Other languages
English (en)
Inventor
吴国成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongbing Digital Technology Group Co ltd
Original Assignee
Beijing Zhongbing Digital Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongbing Digital Technology Group Co ltd filed Critical Beijing Zhongbing Digital Technology Group Co ltd
Priority to CN202310100737.XA priority Critical patent/CN115952227A/zh
Publication of CN115952227A publication Critical patent/CN115952227A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据采集系统及方法、电子设备和存储介质。该数据采集系统包括:执行器,执行器配置为执行数据采集任务;调度中心,配置为调度多个执行器执行相应的数据采集任务;其中,调度中心提供对应不同类型的数据库的统一数据接口,执行器在执行数据采集任务时通过统一数据接口从相应类型的数据库采集元数据,其中,元数据在不同类型的数据库中都具有相同的数据规范。在该数据采集系统中,元数据在不同类型数据库中都具有相同的数据规范,从而大幅减少由于汇总元数据所带来的工作量,提升数据质量,减少数据表和模型数量,降低信息获取难度,提升元数据的价值,提高系统扩展性和任务调度稳定性,节约开发、调试成本,提高采集效率。

Description

数据采集系统及方法、电子设备和存储介质
技术领域
本公开的实施例涉及一种数据采集系统、数据采集方法、电子设备和存储介质。
背景技术
元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data aboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据“元”可以理解为事物或对象,“数据”指该对象的相关数据,关于该对象的一切信息都可以是元数据,通过元数据可以更全面的了解对象的相关信息。
发明内容
本公开至少一实施例提供一种数据采集系统,包括:执行器,所述执行器配置为执行数据采集任务;调度中心,配置为调度多个所述执行器执行相应的数据采集任务;其中,所述调度中心提供对应不同类型的数据库的统一数据接口,所述执行器在执行所述数据采集任务时通过所述统一数据接口从相应类型的数据库采集元数据,其中,所述元数据在所述不同类型的数据库中都具有相同的数据规范。
例如,在本公开至少一实施例提供一种数据采集系统中,所述元数据的数据规范由所述元数据的元模型指定,所述元模型包括预定义的属性信息,组合信息和基本信息,所述属性信息用于指示所述元数据的属性特征,所述属性特征包括数据类型、默认值、数据长度、注释中的至少一种,所述组合信息包括所述元模型与其它元模型的包含关系,所述基本信息包括所述元模型的名称。
例如,在本公开至少一实施例提供一种数据采集系统中,所述统一数据接口配置为使得所述执行器在执行所述数据采集任务时采集的元数据都具有所述元模型指定的属性特征、名称和包含关系,所述元数据在所述不同类型的数据库中均按照所述元模型指定的属性特征、名称和包含关系进行存储。
例如,在本公开至少一实施例提供一种数据采集系统中,所述调度中心提供数据源配置界面,所述数据源配置界面用于配置所述数据采集任务使用的数据源,所述数据源包括所述数据采集任务指定的数据库接口。
例如,在本公开至少一实施例提供一种数据采集系统中,所述数据源配置界面还用于配置所述数据采集任务的执行周期,所述执行器按照所述执行周期自动定期执行所述数据采集任务。
例如,在本公开至少一实施例提供一种数据采集系统中,所述调度中心配置为调度多个所述执行器分布式执行不同的数据采集任务,所述数据采集任务的触发策略包括固定间隔时间触发、固定延时触发、事件触发、人工触发、父子任务触发和指定时间触发。
例如,在本公开至少一实施例提供一种数据采集系统中,所述调度中心调度多个所述执行器分布式执行不同的数据采集任务时,响应于多个所述执行器中的任一台执行器故障,自动将所述任一台执行器执行的数据采集任务切换到正常运行的执行器执行,以及响应于所述任一台执行器中待执行的数据采集任务的数量超过阈值,将所述待执行的数据采集任务分布至空闲的执行器执行。
例如,在本公开至少一实施例提供一种数据采集系统中,所述调度中心配置为实时监控所述数据采集任务的执行进度,响应于监测到所述数据采集任务失败、采集数据出错或任务运行超时,执行相应的补偿处理策略并告警。
例如,在本公开至少一实施例提供一种数据采集系统中,所述补偿处理策略包括立即重新触发任务,任务超时主动中断任务,按照预设重试次数主动重新触发任务,对于分片任务执行分片粒度的失败重试。
本公开至少一实施例提供一种数据采集方法,包括:配置数据采集任务,其中,所述数据采集任务指定采集的数据源,所述数据源包括数据库接口;通过执行器执行所述数据采集任务,以通过调度中心提供的统一数据接口从所述数据采集任务指定的数据源采集元数据,其中,所述统一数据接口为不同类型的数据库提供统一的采集接口,所述元数据在所述不同类型的数据库中都具有相同的数据规范。
例如,在本公开至少一实施例提供一种数据采集方法中,在执行所述数据采集任务采集所述元数据前,所述数据采集方法还包括:定义所述元数据的元模型,以指定所述元数据的数据规范;其中,所述元模型包括属性信息,组合信息和基本信息,所述属性信息用于指示所述元数据的属性特征,所述属性特征包括数据类型、默认值、数据长度、注释中的至少一种,所述组合信息包括所述元模型与其它元模型的包含关系,所述基本信息包括所述元模型的名称。
例如,在本公开至少一实施例提供一种数据采集方法中,所述统一数据接口配置为使得采集的所述元数据都具有所述元模型指定的属性特征、名称和包含关系,所述元数据在所述不同类型的数据库中均按照所述元模型指定的属性特征、名称和包含关系进行存储。
例如,本公开至少一实施例提供一种数据采集方法还包括:通过所述调度中心分布式执行不同的数据采集任务;其中,所述不同的数据采集任务均通过所述统一数据接口从相应类型的数据库采集相应的元数据。
本公开至少一实施例提供一种数据采集装置,包括:配置单元,配置为配置数据采集任务,其中,所述数据采集任务指定采集的数据源,所述数据源包括数据库接口;执行单元,配置为通过执行器执行所述数据采集任务,以通过调度中心提供的统一数据接口从所述数据采集任务指定的数据源采集元数据,其中,所述统一数据接口为不同类型的数据库提供统一的采集接口,所述元数据在所述不同类型的数据库中都具有相同的数据规范。
本公开至少一实施例提供一种电子设备,包括:如本公开任一实施例所述的数据采集系统。
本公开至少一实施例提供一种电子设备,包括:处理器;存储器,包括一个或多个计算机程序模块;其中,所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行,所述一个或多个计算机程序模块用于实现本公开任一实施例所述的数据采集方法。
本公开至少一实施例提供一种存储介质,存储有非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时实现本公开任一实施例所述的数据采集方法。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本公开的一些实施例,而非对本公开的限制。
图1为本公开至少一个实施例提供的一种数据采集系统的示意性框图;
图2为本公开至少一实施例提供的数据采集方法的示意性流程图;
图3为本公开至少一个实施例提供的一种数据采集装置的示意性框图;
图4A为本公开至少一个实施例提供的一种电子设备的示意图;
图4B为本公开至少一个实施例提供的另一种电子设备的示意图;
图5为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。为了保持本公开实施例的以下说明清楚且简明,本公开省略了部分已知功能和已知部件的详细说明。
在元数据采集过程中,元数据可以由不同的业务系统采集后汇总处理。但是,各个业务系统采集元数据时之间缺少统一的数据标准,不同业务系统采集的元数据多样化且不统一。例如,不同业务系统采集元数据时,对表中字段的命名随意性强,定义混乱,可能存在同一个英文字段名称对应多个中文名称,或者同一个中文字段名称对应多个英文名称,同一个采集的元数据对象存在多种数据类型、数据长度等,导致数据处理时的工作量激增,采集的元数据质量较差,价值无法最大化释放。
由于元数据质量较差,若元数据发生错误也无法及时发现,而且数据质量低下也会导致统计不准确,许多预期需求无法实现,造成决策失误。并且,若采集的元数据中的错误发现得不及时,数据处理过程中的问题也无法及时纠正,导致更多的后续错误。
不同业务系统在存储采集的元数据时使用各自定义的数据表及模型,导致元数据的数据表和模型繁多,不同业务系统收集上来的元数据的表格式不统一且数量庞大,从而相似内容过多,相似表数量过多,导致无效的数据表过多,信息获取困难,数据表价值较低。
并且,随着业务的快速发展,数据运营、成本治理的需求越来越强烈。元数据需要覆盖到数据全链路,包括各个业务系统、业务平台、内部工具,任务元数据等。采集元数据的过程中,存在如下困难:业务系统的类型比较复杂,采集周期长,接入新的数据类型周期长(需要经过需求评审、开发、测试、联调、数据核对、上线);业务系统接入效率低,采集稳定性差,例如接入每种数据类型需要和业务方对接;采集过程缺乏监控,若出现异常中断,不能及时感知到。
为解决目前元数据采集过程中扩展性差、采集接入周期长、稳定性差、效率低等问题,本公开至少一实施例提供一种数据采集系统,包括:执行器,执行器配置为执行数据采集任务;调度中心,配置为调度多个执行器执行相应的数据采集任务;其中,调度中心提供对应不同类型的数据库的统一数据接口,执行器在执行数据采集任务时通过统一数据接口从相应类型的数据库采集元数据,其中,元数据在不同类型的数据库中都具有相同的数据规范。
在本公开至少一实施例提供的数据采集系统中,元数据在不同类型数据库中都具有相同的数据规范,不同业务系统采集同一元数据对象时,所得到的元数据都有统一的格式、位宽、含义、名称等等,从而大幅减少由于汇总元数据所带来的工作量,提升数据质量,减少数据表和模型数量,降低信息获取难度,提升元数据的价值,提高系统扩展性和任务调度稳定性,节约开发、调试成本,提高采集效率。
本公开至少一实施例还提供一种数据采集方法,该数据采集方法可应用于本公开实施例提供的电子设备,该电子设备可以是个人计算机、移动终端等,该移动终端可以是手机、平板电脑等硬件设备。
下面结合附图对本公开的实施例进行详细说明,但是本公开并不限于这些具体的实施例。
图1为本公开至少一个实施例提供的一种数据采集系统的示意性框图。
如图1所示,数据采集系统100包括调度中心101和执行器102。
例如,执行器102配置为执行数据采集任务。
例如,调度中心101配置为调度多个执行器102执行相应的数据采集任务。例如,如图1所示,数据采集系统100中提供有M个执行器102,M为正整数,M个执行器各自执行不同的数据采集任务,例如,采集不同元数据。例如,M个执行器也可以执行同一个大型采集任务的不同部分,以最大化利用集群资源。
需要说明的是,本公开对执行器、调度中心的具体结构、实现方式不作具体限制。
例如,数据采集任务可以包括数据源、采集周期、存放位置等,通过定义不同的数据源、采集周期或存放位置,可以设定不同的数据采集任务。例如,数据源可以包括数据库接口,例如,设定从mysql数据库、oracle数据库等采集元数据,例如,数据源还可以包括采集的元数据对象,即采集哪些元数据;例如,采集周期可以指定采集元数据的执行周期,例如,每间隔5秒、1分钟等采集一次元数据;例如,存放位置可以指定采集的元数据的存储位置。
例如,调度中心提供有对应不同类型数据库的统一数据接口。在数据采集过程中针对不同类型的数据库,通过定义统一的采集接口,适配不同类型的数据库,例如,不同类型的数据库可以包括mysql数据库、oracle数据库、Hive数据库、Kudu数据库等等,这些数据库都可以使用该统一数据接口来访问,例如,读取或写入。
例如,执行器在执行数据采集任务时通过统一数据接口从相应类型的数据库采集元数据,实现不同数据库通过统一接口采集的目的。例如,可以针对不同数据源设计开发相应的解析组件,支持多方式采集作业调度管理,实现一次配置,全程自动化运行,助力企业最小代价建立长效元数据管控体系。
通过使用统一数据接口,可以提升数据采集系统的可扩展性,后续如果有其他类型数据库需要接入数据采集系统,也可以通过该统一数据接口进行访问,提升接入效率,节约大量的开发、调试成本,提高采集效率。
例如,统一数据接口可以是文件形式、API(Application ProgrammingInterface,应用程序编程接口)形式等,本公开对统一数据接口的实现形式不作具体限制。例如,统一数据接口可以采用JDBC(Java Database connect,Java,数据库连接)技术实现,JDBC技术可以将不同数据库的驱动都转换为统一的API进行访问,当然,本公开不限于此,可以采用其它技术实现统一数据接口。
例如,元数据在不同类型的数据库中都具有相同的数据规范。
例如,元数据的数据规范由元数据的元模型指定。例如,元模型是预先定义的抽象模型,元模型是一种语法结构,用于定义模型的各个部件,包括信息层,模型层,元模型层和元元模型层。例如,可以通过元元数据来定义元模型的结构和语义,由此来指定元数据的数据规范。
例如,元模型包括预定义的属性信息,组合信息和基本信息。
例如,属性信息用于指示元数据的属性特征,属性特征包括数据类型、默认值、数据长度、注释中的至少一种,组合信息包括元模型与其它元模型的包含关系,基本信息包括元模型的名称。
例如,在一个示例中,元模型的基本信息可以包括元模型的名称(例如“数据库包”),实现元模型的代码(例如“dbpackage”,dbpackage为函数或指针形式,通过访问dbpackage可以获取元模型的代码),元模型的创建时间、修改时间,元模型的版本等基础信息。
例如,在一个示例中,元数据是数据表中的一个字段,其属性信息可以包括元模型的数据类型(例如整型)、默认值(例如0)、数据长度(例如8比特)、注释(例如元模型定义的元数据的实际含义)、小数位数等等。
例如,在另一个示例中,元数据为一个数据库,元模型的属性信息可以包括数据表、字段名称、字段类型、字段长度、注释、存储过程、函数、主键、外键等。
例如,包含关系包括元模型与其它元模型的包含或被包含关系。
在本公开至少一实施例中,属性信息,组合信息和基本信息从不同维度定义了元模型,为采集的元数据提供统一的数据规范,采集的元数据可以继承元模型的属性特征、包含关系、名称等相关信息,方便元数据的管理和后续扩展。
例如,元模型可以在开发过程根据需要采集的元数据需求定义,也可以在数据采集系统的使用过程中由用户指定,本公开对此不作具体限制。
在该实施例中,通过定义元模型提供一种简单的数据标准统一方案,提升采集系统的可扩展性,节约大量的开发、调试成本,提高采集效率。
例如,统一数据接口配置为使得执行器在执行数据采集任务时采集的元数据都具有元模型指定的属性特征、名称和包含关系,元数据在不同类型数据库中均按照元模型指定的属性特征、名称和包含关系进行存储,由此,使得采集的元数据都具有相同的数据规范。
例如,“相同的数据规范”表示采集的元数据不论存储在哪个数据库中,都具有统一的数据标准,即具有相同的数据格式、数据长度、默认值、名称、数据类型等。由此,同一业务元素在数据采集系统中具有相同的数据规范,各个业务系统之间,该元数据(业务元素)的名称、字段等均是统一的,大幅减少数据处理工作量,提升数据质量,减少数据表和数据模型数量,减少相似表、无效表的数量,降低信息获取难度,提升数据表及数据价值,简化复杂业务系统中的对于元数据的管理,降低接入新元数据的周期,提高接入效率。
当然,需要说明的是,根据要采集的元数据对象不同,其元模型也不同,也即不同的元数据采集对象可以具有不同的元模型,由元模型指定其数据规范。具体的元模型中定义的信息可以根据实际需要确定,本公开对此不作具体限制。
例如,调度中心提供数据源配置界面,数据源配置界面用于配置数据采集任务使用的数据源,数据源包括数据采集任务指定的数据库接口。
例如,数据源配置界面还用于配置数据采集任务的执行周期,执行器按照执行周期自动定期执行数据采集任务。
由此,可以通过数据源配置界面配置数据源及定时采集任务,实现一次配置,全程自动化运行,助力企业最小代价建立长效元数据管控体系。
例如,数据源配置界面还可以配置数据采集任务需要采集的元数据对象、任务名称、存放采集的元数据的地址等,数据源配置界面可以依据实际需要提供相应的接口供用户设置、选择,本公开对此不作具体限制。
例如,调度中心配置为调度多个执行器分布式执行不同的数据采集任务。例如,在实际运行中,可能同时需要采集大量的元数据,从而有很多执行器同时在执行不同的数据采集任务,各个数据采集任务采集的数据源可能不同,或者执行周期不同。因此,数据采集任务的调度采用中心式设计,提供可靠的分布式调度采集服务,保证调度中心的高可用性,数据采集任务能够分布式执行,调度中心自动发现待执行的任务并根据触发条件触发执行。
例如,调度中心提供丰富的任务触发策略,数据采集任务的触发策略包括固定间隔时间触发、固定延时触发、事件触发、人工触发、父子任务触发和指定时间触发。
例如,固定间隔时间触发可以在配置数据采集任务时,由“执行周期”指定,调度中心依据该参数周期性地自动触发数据采集任务的执行。
例如,固定延时触发可以根据设定的延时时间触发数据采集任务的执行。
例如,事件触发可以在发生预定的操作(例如API)时触发数据采集任务的执行。
例如,人工触发可以由用户在需要执行数据采集任务时手动触发数据采集任务的执行。
例如,父子任务触发可以在父任务执行完成后,定义的其子任务自动开始执行。
例如,指定时间触发可以根据设定的指定时间,在该时间触发数据采集任务的执行。
例如,调度中心调度多个执行器分布式执行不同的数据采集任务时,响应于多个执行器中的任一台执行器故障,自动将该台执行器执行的数据采集任务切换到正常运行的执行器执行,以及响应于任一台执行器中待执行的数据采集任务的数量超过阈值,将待执行的数据采集任务分布至空闲的执行器执行。
例如,若调度中心检测到执行器下线时,则自动将该执行器执行的数据采集任务切换到其它在线的执行器执行,保证数据采集任务能够实时运转,不受执行器的状态限制。
例如,若调度中心检测到某台执行器中需要执行的数据采集任务数量较多时,对这台执行器需要执行的数据采集任务进行重分配,将其分配至其它空闲的执行器执行,保证数据采集的实时性,提升数据采集效率。
例如,调度中心配置为实时监控数据采集任务的执行进度,响应于监测到数据采集任务失败、采集数据出错或任务运行超时,执行相应的补偿处理策略并告警。
例如,补偿处理策略包括立即重新触发任务,任务超时主动中断任务,按照预设重试次数主动重新触发任务,对于分片任务执行分片粒度的失败重试等。
例如,若调度中心检测到某执行器执行数据采集任务时错过调度时间,可以选择忽略该数据采集任务、立即重新触发一次该数据采集任务等。
例如,支持自定义任务超时时间,若检测到任务超时主动中断任务,并支持自定义任务失败重试次数,当任务失败时将会按照预设的失败重试次数主动进行重试。
例如,为更大效率利用集群资源,可以将一个大型采集任务进行分片,也即将一个大型采集任务分成几个部分,每个部分可以称作一个数据采集任务并由不同的执行器分别执行,该大型采集任务称为分片任务。对于分片任务,支持按照分片粒度的失败重试,也即检测到某个分片任务失败、采集数据出错或任务运行超时时,可以仅对该执行器进行相应的补偿处理策略,如重新触发该执行器执行的分片任务等。
例如,可以以短信、邮件、电话等多种方式进行告警,及时提示用户出现数据采集任务错误。
例如,在一些实施例中,还可以实时采集各个执行器的日志,以便于在发生故障或问题时,及时回溯采集过程,尽早定位问题原因。
在本公开至少一实施例中,调度中心采用分布式调度方法,设置包括故障转移、失败重试等多种手段来保证采集任务的稳定可靠运行,实现任务的全程监控,便于尽早感知到采集异常,及时纠正数据采集中的错误,提高数据采集准确性,减少数据采集错误,提升采集稳定性。
本公开至少一实施例还提供一种数据采集方法。图2为本公开至少一实施例提供的数据采集方法的示意性流程图。
如图2所示,本公开至少一个实施例提供的数据采集方法包括步骤S10至步骤S20。
在步骤S10,配置数据采集任务。
例如,数据采集任务指定采集的数据源,数据源包括数据库接口。
例如,数据采集任务可以通过数据源配置界面配置。例如,数据源配置界面还可以配置数据采集任务的执行周期,执行器按照执行周期自动定期执行所述数据采集任务。
在步骤S20,通过执行器执行数据采集任务,以通过调度中心提供的统一数据接口从数据采集任务指定的数据源采集元数据。
例如,统一数据接口为不同类型的数据库提供统一的采集接口,元数据在不同类型数据库中都具有相同的数据规范。
例如,在执行数据采集任务采集元数据前,该数据采集方法还包括:定义元数据的元模型,以指定元数据的数据规范;其中,元模型包括属性信息,组合信息和基本信息,属性信息用于指示元数据的属性特征,属性特征包括数据格式、默认值、数据类型、注释中的至少一种,组合信息包括元模型与其它元模型的包含与被包含关系,基本信息包括元模型的名称。
例如,可以使用元元数据定义元模型的结构和语义,由此定义元模型的属性信息、组合信息和基本信息。关于元模型及元模型包括的属性信息,组合信息和基本信息可以参考前述数据采集系统中的相关描述,重复之处不再赘述。
例如,统一数据接口配置为使得采集的元数据都具有元模型指定的属性特征、名称和包含关系,元数据在不同类型数据库中均按照元模型指定的属性特征、名称和包含关系进行存储。
由此,采集的元数据都具有相同的数据规范,即具有相同的数据格式、数据长度、默认值、名称、数据类型等。由此,同一业务元素在数据采集系统中具有相同的数据规范,各个业务系统之间,该元数据的名称、字段等均是统一的,大幅减少数据处理工作量,提升数据质量,减少数据表和数据模型数量,减少相似表、无效表的数量,降低信息获取难度,提升数据表及数据价值,简化复杂业务系统中的对于元数据的管理,降低接入新元数据的周期,提高接入效率。
例如,本公开至少一实施例提供的数据采集方法还包括:通过调度中心分布式执行不同的数据采集任务,不同的数据采集任务均通过统一数据接口从相应类型的数据库采集相应的元数据。
例如,调度中心提供分布式调度采集服务,保证调度中心的高可用性,数据采集任务能够分布式执行,调度中心自动发现待执行的任务并根据触发条件触发执行。
例如,通过调度中心可以调度多个执行器同时执行不同的数据采集任务,这些数据采集任务根据配置的数据源,通过统一数据接口从选择的数据库采集需要的元数据。
例如,通过调度中心可以调度多个执行器执行同一个数据采集任务,也即,该数据采集任务为分片任务,以最大化利用集群资源。
例如,在调度中心调度执行器执行相应的数据采集任务时,可以根据多种任务触发策略触发数据采集任务的执行。例如,数据采集任务的触发策略包括固定间隔时间触发、固定延时触发、事件触发、人工触发、父子任务触发和指定时间触发。
例如,调度中心调度多个执行器分布式执行不同的数据采集任务时,响应于多个执行器中的任一台执行器故障,自动将该台执行器执行的数据采集任务切换到正常运行的执行器执行,以及响应于任一台执行器中待执行的数据采集任务的数量超过阈值,将待执行的数据采集任务分布至空闲的执行器执行。
由此,可以保证数据采集任务能够实时运转,不受执行器的状态限制,提升数据采集效率。
例如,本公开至少一实施例提供的数据采集方法还包括:通过调度中心实时监控数据采集任务的执行进度,响应于监测到数据采集任务失败、采集数据出错或任务运行超时,执行相应的补偿处理策略并告警。
例如,补偿处理策略包括立即重新触发任务,任务超时主动中断任务,按照预设重试次数主动重新触发任务,对于分片任务执行分片粒度的失败重试等。
例如,告警方式可以包括短信、邮件、电话等多种方式,及时提示用户出现数据采集任务错误。
例如,本公开至少一实施例提供的数据采集方法还包括:实时采集各个执行器的日志。以便于在发生故障或问题时,及时回溯采集过程,尽早定位问题原因。
在本公开至少一实施例中,采用分布式调度方法,设置包括故障转移、失败重试等多种手段来保证采集任务的稳定可靠运行,实现任务的全程监控,便于尽早感知到采集异常,及时纠正数据采集中的错误,提高数据采集准确性,减少数据采集错误,提升采集稳定性。
本公开至少一个实施例还提供一种数据采集装置,图3为本公开至少一个实施例提供的一种数据采集装置的示意性框图。
如图3所示,数据采集装置200可以包括:配置单元201和执行单元202。
例如,配置单元201,配置为配置数据采集任务。
例如,数据采集任务指定采集的数据源,数据源包括数据库接口。
例如,执行单元202,配置为通过执行器执行数据采集任务,以通过调度中心提供的统一数据接口从数据采集任务指定的数据源采集元数据。
例如,统一数据接口为不同类型的数据库提供统一的采集接口,元数据在不同类型数据库中都具有相同的数据规范。
例如,这些模块可以通过硬件(例如电路)模块、软件模块或二者的任意组合等实现,以下实施例与此相同,不再赘述。例如,可以通过中央处理单元(CPU)、图像处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。
例如,配置单元201和执行单元202可以包括存储在存储器中的代码和程序;处理器可以执行该代码和程序以实现如上所述的配置单元201和执行单元202的一些功能或全部功能。例如,配置单元201和执行单元202可以是专用硬件器件,用来实现如上所述的配置单元201和执行单元202的一些或全部功能。例如,配置单元201和执行单元202可以是一个电路板或多个电路板的组合,用于实现如上所述的功能。在本公开的实施例中,该一个电路板或多个电路板的组合可以包括:(1)一个或多个处理器;(2)与处理器相连接的一个或多个非暂时的存储器;以及(3)处理器可执行的存储在存储器中的固件。
需要说明的是,配置单元201可以用于实现图2所示的步骤S10,执行单元202可以用于实现图2所示的步骤S20。从而关于配置单元201和执行单元202能够实现的功能的具体说明可以参考上述数据采集方法的实施例中的步骤S10至步骤S20的相关描述,重复之处不再赘述。
需要注意的是,在本公开的实施例中,该数据采集装置200可以包括更多或更少的电路或单元,并且各个电路或单元之间的连接关系不受限制,可以根据实际需求而定。各个电路或单元的具体构成方式不受限制,可以根据电路原理由模拟器件构成,也可以由数字芯片构成,或者以其他适用的方式构成。
该数据采集装置能够使得采集的同一业务元素具有相同的数据规范,各个业务系统之间,该元数据的名称、字段等均是统一的,大幅减少数据处理工作量,提升数据质量,减少数据表和数据模型数量,减少相似表、无效表的数量,降低信息获取难度,提升数据表及数据价值,简化复杂业务系统中的对于元数据的管理,降低接入新元数据的周期,提高接入效率。
本公开至少一个实施例还提供一种电子设备,图4A为本公开至少一个实施例提供的一种电子设备的示意图。
例如,如图4A所示,电子设备包括处理器301、通信接口302、存储器303和通信总线304。处理器301、通信接口302、存储器303通过通信总线304实现相互通信,处理器301、通信接口302、存储器303等组件之间也可以通过网络连接进行通信。本公开对网络的类型和功能在此不作限制。应当注意,图4A所示的电子设备的组件只是示例性的,而非限制性的,根据实际应用需要,该电子设备还可以具有其他组件。
例如,存储器303用于非瞬时性地存储计算机可读指令。处理器301用于执行计算机可读指令时,实现根据上述任一实施例所述的数据采集方法。关于该数据采集方法的各个步骤的具体实现以及相关解释内容可以参见上述数据采集方法的实施例,在此不作赘述。
例如,处理器301执行存储器303上所存放的计算机可读指令而实现的数据采集方法的其他实现方式,与前述方法实施例部分所提及的实现方式相同,这里也不再赘述。
例如,通信总线304可以是外设部件互连标准(PCI)总线或扩展工业标准结构(EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
例如,通信接口302用于实现电子设备与其他设备之间的通信。
例如,处理器301和存储器303可以设置在服务器端(或云端)。
例如,处理器301可以控制电子设备中的其它组件以执行期望的功能。处理器301可以是中央处理器(CPU)、网络处理器(NP)、张量处理器(TPU)或者图形处理器(GPU)等具有数据处理能力和/或程序执行能力的器件;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。例如,中央处理器(CPU)可以为基于X86、RISC-V或ARM架构等。
例如,存储器303可以包括一个或多个计算机程序产品的任意组合,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机可读指令,处理器301可以运行所述计算机可读指令,以实现电子设备的各种功能。在存储介质中还可以存储各种应用程序和各种数据等。
例如,关于电子设备执行数据采集方法的过程的详细说明可以参考数据采集方法的实施例中的相关描述,重复之处不再赘述。
本公开至少一个实施例还提供一种电子设备,图4B为本公开至少一个实施例提供的另一种电子设备的示意图。
如图4B所示,该电子设备400包括数据采集系统401。例如,该数据采集系统401可以为前述的数据采集系统100,重复之处不再赘述。
需要注意的是,在本公开的实施例中,该电子设备400可以包括更多或更少的电路或单元,例如还可以包括其他支撑数据采集系统401运行的电路或单元,本公开对此不作具体限制。
例如,电子设备400还可以包括存储装置,存储装置可以用于存储采集的元数据等,本公开对存储装置的其他形式不作具体限制。
例如,数据采集系统401包括执行器和调度中心,调度中心和执行器可以分别实现为独立的电子设备形式,或者,调度中心和执行器可以一体式设计,本公开对此不作限制。
各个电路或单元之间的连接关系不受限制,可以根据实际需求而定。各个电路或单元的具体构成方式不受限制,可以根据电路原理由模拟器件构成,也可以由数字芯片构成,或者以其他适用的方式构成。
图5为本公开至少一个实施例提供的一种非瞬时性计算机可读存储介质的示意图。例如,如图5所示,存储介质500可以为非瞬时性计算机可读存储介质,在存储介质500上可以非暂时性地存储一个或多个计算机可读指令501。例如,当非暂时性计算机可读指令501由处理器执行时可以执行根据上文所述的数据采集方法中的一个或多个步骤。
例如,该存储介质500可以应用于上述电子设备中,例如,该存储介质500可以为图4A所示的电子设备中的存储器303。
例如,存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合,也可以为其他适用的存储介质。
例如,关于存储介质500的说明可以参考电子设备的实施例中对于存储器的描述,重复之处不再赘述。
对于本公开,还有以下几点需要说明:
(1)本公开实施例附图只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计。
(2)为了清晰起见,在用于描述本发明的实施例的附图中,层或结构的厚度和尺寸被放大。可以理解,当诸如层、膜、区域或基板之类的元件被称作位于另一元件“上”或“下”时,该元件可以“直接”位于另一元件 “上”或“下”,或者可以存在中间元件。
(3)在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合以得到新的实施例。
以上所述仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,本公开的保护范围应以所述权利要求的保护范围为准。

Claims (17)

1.一种数据采集系统,包括:
执行器,所述执行器配置为执行数据采集任务;
调度中心,配置为调度多个所述执行器执行相应的数据采集任务;
其中,所述调度中心提供对应不同类型的数据库的统一数据接口,所述执行器在执行所述数据采集任务时通过所述统一数据接口从相应类型的数据库采集元数据,其中,所述元数据在所述不同类型的数据库中都具有相同的数据规范。
2.根据权利要求1所述的数据采集系统,其中,所述元数据的数据规范由所述元数据的元模型指定,所述元模型包括预定义的属性信息,组合信息和基本信息,
所述属性信息用于指示所述元数据的属性特征,所述属性特征包括数据类型、默认值、数据长度、注释中的至少一种,
所述组合信息包括所述元模型与其它元模型的包含关系,
所述基本信息包括所述元模型的名称。
3.根据权利要求2所述的数据采集系统,其中,所述统一数据接口配置为使得所述执行器在执行所述数据采集任务时采集的元数据都具有所述元模型指定的属性特征、名称和包含关系,
所述元数据在所述不同类型的数据库中均按照所述元模型指定的属性特征、名称和包含关系进行存储。
4.根据权利要求1所述的数据采集系统,其中,所述调度中心提供数据源配置界面,所述数据源配置界面用于配置所述数据采集任务使用的数据源,所述数据源包括所述数据采集任务指定的数据库接口。
5.根据权利要求4所述的数据采集系统,其中,所述数据源配置界面还用于配置所述数据采集任务的执行周期,所述执行器按照所述执行周期自动定期执行所述数据采集任务。
6.根据权利要求1所述的数据采集系统,其中,所述调度中心配置为调度多个所述执行器分布式执行不同的数据采集任务,
所述数据采集任务的触发策略包括固定间隔时间触发、固定延时触发、事件触发、人工触发、父子任务触发和指定时间触发。
7. 根据权利要求6所述的数据采集系统,其中,所述调度中心调度多个所述执行器分布式执行不同的数据采集任务时,
响应于多个所述执行器中的任一台执行器故障,自动将所述任一台执行器执行的数据采集任务切换到正常运行的执行器执行,以及
响应于所述任一台执行器中待执行的数据采集任务的数量超过阈值,将所述待执行的数据采集任务分布至空闲的执行器执行。
8.根据权利要求1所述的数据采集系统,其中,所述调度中心配置为实时监控所述数据采集任务的执行进度,
响应于监测到所述数据采集任务失败、采集数据出错或任务运行超时,执行相应的补偿处理策略并告警。
9.根据权利要求8所述的数据采集系统,其中,所述补偿处理策略包括立即重新触发任务,任务超时主动中断任务,按照预设重试次数主动重新触发任务,对于分片任务执行分片粒度的失败重试。
10.一种数据采集方法,包括:
配置数据采集任务,其中,所述数据采集任务指定采集的数据源,所述数据源包括数据库接口;
通过执行器执行所述数据采集任务,以通过调度中心提供的统一数据接口从所述数据采集任务指定的数据源采集元数据,其中,所述统一数据接口为不同类型的数据库提供统一的采集接口,所述元数据在所述不同类型的数据库中都具有相同的数据规范。
11.根据权利要求10所述的数据采集方法,其中,在执行所述数据采集任务采集所述元数据前,所述数据采集方法还包括:
定义所述元数据的元模型,以指定所述元数据的数据规范;
其中,所述元模型包括属性信息,组合信息和基本信息,
所述属性信息用于指示所述元数据的属性特征,所述属性特征包括数据类型、默认值、数据长度、注释中的至少一种,
所述组合信息包括所述元模型与其它元模型的包含关系,
所述基本信息包括所述元模型的名称。
12.根据权利要求11所述的数据采集方法,其中,所述统一数据接口配置为使得采集的所述元数据都具有所述元模型指定的属性特征、名称和包含关系,所述元数据在所述不同类型的数据库中均按照所述元模型指定的属性特征、名称和包含关系进行存储。
13.根据权利要求10所述的数据采集方法,还包括:
通过所述调度中心分布式执行不同的数据采集任务;
其中,所述不同的数据采集任务均通过所述统一数据接口从相应类型的数据库采集相应的元数据。
14.一种数据采集装置,包括:
配置单元,配置为配置数据采集任务,其中,所述数据采集任务指定采集的数据源,所述数据源包括数据库接口;
执行单元,配置为通过执行器执行所述数据采集任务,以通过调度中心提供的统一数据接口从所述数据采集任务指定的数据源采集元数据,其中,所述统一数据接口为不同类型的数据库提供统一的采集接口,所述元数据在所述不同类型的数据库中都具有相同的数据规范。
15.一种电子设备,包括:
如权利要求1-9任一项所述的数据采集系统。
16.一种电子设备,包括:
存储器,非瞬时性地存储有计算机可执行指令;
处理器,配置为运行所述计算机可执行指令,
其中,所述计算机可执行指令被所述处理器运行时实现根据权利要求10-13任一项所述的数据采集方法。
17.一种非瞬时性计算机可读存储介质,其中,所述非瞬时性计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现根据权利要求10-13任一项所述的数据采集方法。
CN202310100737.XA 2023-02-13 2023-02-13 数据采集系统及方法、电子设备和存储介质 Pending CN115952227A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310100737.XA CN115952227A (zh) 2023-02-13 2023-02-13 数据采集系统及方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310100737.XA CN115952227A (zh) 2023-02-13 2023-02-13 数据采集系统及方法、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN115952227A true CN115952227A (zh) 2023-04-11

Family

ID=87291319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310100737.XA Pending CN115952227A (zh) 2023-02-13 2023-02-13 数据采集系统及方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN115952227A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578605A (zh) * 2023-04-19 2023-08-11 广东畅视科技有限公司 数据采集方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578605A (zh) * 2023-04-19 2023-08-11 广东畅视科技有限公司 数据采集方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107239324B (zh) 业务流转处理方法、装置及系统
US8938421B2 (en) Method and a system for synchronizing data
CN107016480B (zh) 任务调度方法、装置及系统
US10331625B2 (en) Managing sequential data store
CN110895488B (zh) 任务调度方法及装置
CN110515795B (zh) 一种大数据组件的监控方法、装置、电子设备
CN110737594A (zh) 自动生成测试用例的数据库标准符合性测试方法及装置
WO2021248754A1 (zh) 一种系统测试方法、装置、存储介质及电子设备
CN113448938A (zh) 数据处理方法、装置、电子设备及存储介质
US20180032567A1 (en) Method and device for processing data blocks in a distributed database
CN115952227A (zh) 数据采集系统及方法、电子设备和存储介质
CN111061802A (zh) 一种电力数据管理处理方法、装置及存储介质
CN110717130B (zh) 打点方法、装置、终端及存储介质
CN110955723A (zh) 一种主从数据库同步状态监控方法、装置及电子设备
JP5642725B2 (ja) 性能分析装置、性能分析方法及び性能分析プログラム
US8819494B2 (en) Automatically changing parts in response to tests
CN110908824A (zh) 一种故障识别方法、装置及设备
CN115499493A (zh) 异步事务处理方法、装置、存储介质及计算机设备
CN114238324A (zh) 用于主机站点的检查方法及装置、电子设备及存储介质
US9240968B1 (en) Autogenerated email summarization process
CN111147554A (zh) 一种数据的存储方法、装置及计算机系统
CN117421337B (zh) 数据采集方法、装置、设备及计算机可读介质
KR101449202B1 (ko) 철강공정 미들웨어의 데이터 복사 및 복원 시스템 및 방법
CN111124787B (zh) 一种mcs多节点并发转储稳定性的验证方法、系统及设备
CN115499299A (zh) 一种集群设备监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination