CN114461644A - 一种数据采集方法、装置、电子设备及存储介质 - Google Patents

一种数据采集方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114461644A
CN114461644A CN202210113894.XA CN202210113894A CN114461644A CN 114461644 A CN114461644 A CN 114461644A CN 202210113894 A CN202210113894 A CN 202210113894A CN 114461644 A CN114461644 A CN 114461644A
Authority
CN
China
Prior art keywords
data
target
rule configuration
rule
configuration file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210113894.XA
Other languages
English (en)
Inventor
石花
刘煜东
牛向远
杨森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202210113894.XA priority Critical patent/CN114461644A/zh
Publication of CN114461644A publication Critical patent/CN114461644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据采集方法、装置、电子设备及存储介质。该方法应用于数据采集引擎,包括:监测业务数据的规则配置信息;在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表;基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果;将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。本发明通过数据采集引擎监测规则配置信息的变化,并更新规则配置文件和存储物理表,实现了规则配置文件和存储物理表的自动更新,减少了规则配置文件和存储物理表的配置时间,提高了数据采集的效率。

Description

一种数据采集方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据采集方法、装置、电子设备及存储介质。
背景技术
随着数据集市、数据仓库等技术的成熟,推动了各业务领域数据应用的迅速发展,业务数据的数据治理成为不可或缺的一部分。
目前,在数据治理过程中,通常采用硬编码的方式对数据进行治理,该方法在待治理数据采集过程中,只能通过人工编辑源代码和重新编译可执行文件来进行调整规则等信息,采集效率较低。
发明内容
本发明提供了一种数据采集方法、装置、电子设备及存储介质,以实现提高数据采集的效率。
根据本发明的一方面,提供了一种数据采集方法,应用于数据采集引擎,包括:
监测业务数据的规则配置信息;
在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表;
基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果;
将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
根据本发明的另一方面,提供了一种数据采集装置,应用于数据采集引擎,包括:
信息监测模块,用于监测业务数据的规则配置信息;
信息更新模块,用于在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表;
数据检测模块,用于基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果;
数据存储模块,用于将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据采集方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据采集方法。
本发明实施例的技术方案,通过数据采集引擎监测业务数据的规则配置信息,当监测到规则配置信息发生变更时,数据采集引擎根据变更后的规则配置信息更新规则配置文件和存储物理表,从而得到更新后的目标规则配置文件和目标存储物理表,实现了规则配置文件和存储物理表的自动更新;进一步的,更新后的目标规则配置文件可以用于对业务数据进行质量检测,可以将质量检测的检测结果存储至对应的目标存储物理表中,得到目标治理数据,解决了手动更改规则配置文件和存储物理表采集效率较低的问题,减少了规则配置文件和存储物理表的配置时间,提高了数据采集的效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种数据采集方法的流程图;
图2是根据本发明实施例二提供的一种数据采集方法的流程图;
图3是根据本发明实施例二提供的一种采集装配初始化流程图;
图4是根据本发明实施例二提供的一种采集调度流程图;
图5是根据本发明实施例三提供的一种数据采集方法的流程图;
图6是根据本发明实施例三提供的一种数据采集及溯源的流程图;
图7是根据本发明实施例四提供的一种数据采集装置的结构示意图;
图8是实现本发明实施例的数据采集方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“目标”、“原始”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种数据采集方法的流程图,本实施例可适用于数据采集引擎自动进行数据采集的情况,该方法可以由数据采集装置来执行,该数据采集装置可以采用硬件和/或软件的形式实现,该数据采集装置可配置于电子设备中,例如服务器。如图1所示,该方法包括:
S110、监测业务数据的规则配置信息。
S120、在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表。
S130、基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果。
S140、将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
在本发明实施例中,数据采集引擎可以是用于自动数据采集的引擎装置,数据采集引擎可以对业务数据的规则配置信息进行监测,以判断规则配置信息是否发生变化。其中,业务数据可以是用户进行业务处理过程中所产生的信息,例如,银行存储业务数据、信贷业务数据等,业务数据中可以包括客户编号、客户姓名和交易金额等信息。规则配置信息可以是对数据进行采集、检测等操作的规则,即通过规则配置信息可以采集到符合规则的信息。
具体的,规则配置信息可以通过多种方式进行监测,在一些实施例中,每隔预设时间间隔,数据采集引擎获取规则配置信息,判断规则配置信息是否发生变化;在一些实施例中,基于预设触发事件触发数据采集引擎获取规则配置信息,判断规则配置信息是否发生变化,例如,触发事件可以是检测到规则配置界面发生信息输入动作,触发数据采集引擎则获取规则配置界面输入的规则配置信息。
进一步的,在监测规则配置信息过程中,若规则配置信息发生变更,则表明业务数据的采集或检测规则发生变化,需要更新规则配置文件和存储物理表,以保证数据采集的准确性。其中,规则配置文件中可以包括数据采集规则、数据检测规则中的一项或多项,规则配置文件可以用于对业务数据进行处理,以得到需要治理的数据。数据检测规则和数据采集规则可以是通过页面配置的方式设置的一些规则,数据检测规则可以用于数据的质量检测,如客户信息中的证件号不能为空等。数据采集规则可以用于数据采集,即按照预设采集规则进行数据采集,可以包括但不限于数据检测规则要检测的字段、要采集记录的数据项和元数据索引信息等。数据采集规则和数据检测规则设置完成后可以存储在预设的关系型数据库中,关系型数据库可以包括Oracle、MySQl、Hive等数据库。存储物理表指的是数据库中用于存储数据的物理表,物理表中可以包括多个数据项,例如,物理表中可以包括姓名、交易时间和交易量等数据项。
具体的,将当前规则配置信息与上一规则配置信息进行比对,若发现当前规则配置信息与上一规则配置信息不同,则表明规则配置信息发生变更,需要更新规则配置文件和存储物理表,以满足当前数据采集的需求,保证数据采集的准确性。需要说明的是,规则配置文件与存储物理表一一对应,即每次更新时两者同时更新。
在上述实施例的基础上,所述基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表,包括:提取变更后的规则配置信息的关键标识,对所述关键标识进行属性划分,基于属性划分后的关键标识构建目标存储物理表;以所述目标存储物理表为单位,根据预设文件配置规则对所述变更后的规则配置信息进行编制,得到目标规则配置文件。
其中,关键标识指的是变更后的规则配置信息中的可提取的关键信息。典型的,关键标识可以包括但不限于键值、字段名和字段类型等信息。属性划分的目的是对关键标识进行分类,可以理解的是,关键标识中可以包括多种不同类型、不同层级的属性信息,可以根据类型和层级等属性信息,将关键标识进行排列或者层级划分,例如,将相同类型的关键标识排列在同一层级;将不同类型的关键标识分开排列;将不同层级的关键标识分层排列等。进一步的,可以基于关键标识的排列或者层级划分关系构建目标存储物理表。以目标存储物理表为单位编制目标规则配置文件,可以保证每一个存储物理表都有对应的目标规则配置文件,换而言之,生成目标存储物理表的同时生成目标规则配置文件,以便后续数据对应存储。
示例性的,对变更后的规则配置信息进行键值、字段名、字段类型等信息进行抽取,通过SQL等数据库语句将抽取的信息进行拼接,得到目标存储物理表;进一步的,可以以物理表为单位,将变更后的规则配置信息导入至后端的业务处理系统,业务处理系统根据预设文件配置规则对变更后的规则配置信息进行规范化、格式转换等操作,得到目标存储物理表相对应的目标规则配置文件。
进一步的,利用更新后的目标规则配置文件进行质量检测,得到检测结果。其中,检测结果是业务数据进行质量检测所得到的结果,即待治理数据。具体的,通过目标规则配置文件中的数据检测规则对业务数据进行检测后,可以得到需要治理的数据。
需要说明的是,数据质量是保证数据治理的基础,数据质量检测的数据检测规则主要包括四个方面:完整性、一致性、准确性和及时性。完整性指的是业务数据是否存在缺失的状况,数据缺失的情况可能是整个业务数据记录缺失,也可能是业务数据中某个字段信息的记录缺失。不完整数据的价值就会大大降低,也是数据质量最为基础的一项评估标准。一致性是指业务数据是否遵循了统一的规范,数据集合是否保持了统一的格式。准确性是指数据记录的信息是否存在异常或错误。及时性是指业务数据从产生到可以查看的时间间隔,也叫数据的延时时长。通过上述四个方面对业务数据进行质量检测,得到了符合数据检测规则的待治理数据。
在上述实施例的基础上,所述基于所述目标规则配置文件对所述业务数据进行质量检测,包括:基于所述目标规则配置文件中的数据检测规则对所述业务数据进行比对,将比对结果作为检测结果;其中,所述数据检测规则包括数据区间检测规则、字典范围检测规则、清单范围检测规则和函数检测规则中的至少一项。
具体的,将业务数据与数据检测规则进行对比,若业务数据符合数据检测规则,则将符合数据检测规则的业务数据作为检测结果,即将符合数据检测规则的业务数据作为待治理数据。其中,数据区间检测规则指的是数值范围的检测规则,可以用于判断业务数据是否属于预设数值范围内;字典范围检测规则可以用于判断业务数据中的数据对象或者项目是否属于预设字典范围内;清单范围检测规则可以用于判断业务数据中的项目清单是否属于预设清单范围内,函数检测规则可以用于判断业务数据的函数是否完整或格式正确。
进一步的,目标治理数据以物理表的形式进行存储,即将检测结果存储至对应的目标存储物理表中,以便后续调用,并且还可以通过物理表对数据进行区分。
本发明实施例提供了一种数据采集方法,通过数据采集引擎监测业务数据的规则配置信息,当监测到规则配置信息发生变更时,数据采集引擎根据变更后的规则配置信息更新规则配置文件和存储物理表,从而得到更新后的目标规则配置文件和目标存储物理表,实现了规则配置文件和存储物理表的自动更新;进一步的,更新后的目标规则配置文件可以用于对业务数据进行质量检测,可以将质量检测的检测结果存储至对应的目标存储物理表中,得到目标治理数据,解决了手动更改规则配置文件和存储物理表采集效率较低的问题,减少了规则配置文件和存储物理表的配置时间,提高了数据采集的效率。
实施例二
图2为本发明实施例二提供的一种数据采集方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选地,在基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表之后,所述方法还包括:将所述目标规则配置文件进行拆解,将拆解后的配置信息存储至关系型数据库,并生成所述拆解后的配置信息的索引信息。
如图2所示,该方法包括:
S210、监测业务数据的规则配置信息。
S220、在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表。
S230、将所述目标规则配置文件进行拆解,将拆解后的配置信息存储至关系型数据库,并生成所述拆解后的配置信息的索引信息。
S240、基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果。
S250、将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
其中,目标规则配置文件中可以包括多个对象的配置规则,若直接调用目标规则配置文件对业务数据进行质量检测,适配性较差。将目标规则配置文件按对象进行拆解,并将拆解后的配置信息存储至关系型数据库,后续可以根据实际需求调取拆解后的配置信息,并组装成目标规则配置文件,可以提高目标规则配置文件的适配性。关系型数据库是指采用了关系模型来组织数据的数据库,可以存储一个或多个目标规则配置文件。通过索引信息可以快速调取拆解后的配置信息。
示例性的,如图3所示,数据采集引擎可以包括采集装配初始化引擎,采集装配初始化引擎对数据配置信息的状态进行监测,在数据配置信息发生变化的情况下,将触发采集装配初始化作业,对采集配置信息重新进行初始化。初始化工作包括对已存信息和数据的版本管理更新,同时产生新的规则配置文件、存储物理表等静态数据。装配初始化作业完成之后,标记更新状态及索引信息。
在上述实施例的基础上,在基于所述目标规则配置文件对所述业务数据进行质量检测之前,所述方法还包括:在采集任务满足预设判断条件的情况下,获取所述拆解后的配置信息的索引信息;将所述索引信息在所述关系型数据库中进行匹配,得到所述索引信息对应的拆解后的配置信息;对所述索引信息对应的拆解后的配置信息进行组装,得到目标规则配置文件。
示例性的,如图4所示,预设判断条件可以用于判断所述采集任务是否满足调度要求,其中,预设判断条件包括预设时间、预设时间间隔或者预设任务执行次数中的任一项。可以理解的是,采集任务调度可以是定时任务,可以在满足预设时间、预设时间间隔或者预设任务执行次数的情况下自动执行采集任务。进一步的,在采集任务需要调度的情况下,获取拆解后的配置信息的索引信息,将索引信息在关系型数据库中进行匹配静态数据(即规则配置文件拆解后的配置信息等),若匹配到规则配置文件拆解后的配置信息,对拆解后的配置信息进行组装,得到目标规则配置文件。进一步的,调用规则引擎组件,例如drools,OpenL Tablets、Easy Rules等,使用相匹配的规则配置文件对数据质量进行检测,将待治理数据写入相匹配的目标存储物理表中,并记录相关调度日志信息,然后对下一采集任务进行判断。
需要说明的是,将索引信息在关系型数据库中进行匹配,并判断是否匹配成功,这样设置的目的是为了防止规则配置文件在传输途中,使用未更新的规则配置文件进行数据质量检测的情况发生,可以有效提升数据检测的质量。
本发明实施例提供了一种数据采集方法,通过将目标规则配置文件进行拆解,将拆解后的配置信息存储至关系型数据库,并生成拆解后的配置信息的索引信息,使得目标规则配置文件在组装时具有较高的适配性。
实施例三
图5为本发明实施例三提供的一种数据采集方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选地,在所述将所述检测结果存储至目标存储物理表中,得到目标治理数据之后,所述方法还包括:提取所述目标治理数据的目标数据项;以所述目标数据项为元数据的子节点信息,根据元数据的父子节点关系确定所述元数据的父节点信息;基于所述元数据的子节点信息和父节点信息生成溯源分析报告。
如图5所示,该方法包括:
S310、监测业务数据的规则配置信息。
S320、在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表。
S330、基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果。
S340、将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
S350、提取所述目标治理数据的目标数据项;
S360、以所述目标数据项为元数据的子节点信息,根据元数据的父子节点关系确定所述元数据的父节点信息;
S370、基于所述元数据的子节点信息和父节点信息生成溯源分析报告。
其中,目标数据项指的是目标治理数据中的待治理的数据项,可以通过关键字提取等方法对目标治理数据进行目标数据项提取。元数据是描述业务数据的数据,或者说是用于提供具有关联关系的结构数据,关联关系可以包括父子节点关系等。例如,对于业务数据的元数据可以包括客户编号、客户姓名、性别和年龄等信息。
具体的,目标治理数据可以包括多个数据项,从目标治理数据中可以提取出一个或多个目标数据项,并将目标数据项作为元数据的子节点信息,依据元数据的父子节点关系进行数据追溯,获取元数据的父节点信息,可以将元数据的子节点信息和父节点信息作为关键统计信息形成溯源分析报告,作为数据治理的参考依据。可选的,溯源分析报告还可以包括产生目标治理数据的系统信息,便于对目标治理数据的源系统进行跟踪,实现数据溯源分析。
示例性的,如图6所示,本实施例可以进行元数据配置、采集规则配置和检测规则配置,配置完成后可以将其存入至对应的关系型数据库,关系型数据库包括元数据库、检测规则库和采集规则库。数据采集引擎可以从关系型数据库中调取规则配置信息,形成规则配置文件和存储物理表。进一步的,数据采集引擎通过采集调度,实现数据质量检测,得到待治理数据(即目标治理数据)和业务整合数据,其中,待治理数据可以利用数据项,以及元数据的父子节点关系进行数据溯源分析。
本发明实施例提供了一种数据采集方法,通过提取目标治理数据的目标数据项,以目标数据项为元数据的子节点信息,根据元数据的父子节点关系确定元数据的父节点信息,从而将元数据的子节点信息和父节点信息生成溯源分析报告,实现了待治理数据的自动溯源分析。
实施例四
图7为本发明实施例四提供的一种数据采集装置的结构示意图。如图7所示,该装置包括:
信息监测模块410,用于监测业务数据的规则配置信息;
信息更新模块420,用于在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表;
数据检测模块430,用于基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果;
数据存储模块440,用于将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
本发明实施例提供了一种数据采集装置,通过数据采集引擎监测业务数据的规则配置信息,当监测到规则配置信息发生变更时,数据采集引擎根据变更后的规则配置信息更新规则配置文件和存储物理表,从而得到更新后的目标规则配置文件和目标存储物理表,实现了规则配置文件和存储物理表的自动更新;进一步的,更新后的目标规则配置文件可以用于对业务数据进行质量检测,可以将质量检测的检测结果存储至对应的目标存储物理表中,得到目标治理数据,解决了手动更改规则配置文件和存储物理表采集效率较低的问题,减少了规则配置文件和存储物理表的配置时间,提高了数据采集的效率。
在本发明实施例中任一可选技术方案的基础上,可选地,所述信息更新模块420,还可以用于:
提取变更后的规则配置信息的关键标识,对所述关键标识进行属性划分,基于属性划分后的关键标识构建目标存储物理表;
以所述目标存储物理表为单位,根据预设文件配置规则对所述变更后的规则配置信息进行编制,得到目标规则配置文件。
在本发明实施例中任一可选技术方案的基础上,可选地,所述装置还包括:
信息拆解模块,用于将所述目标规则配置文件进行拆解,将拆解后的配置信息存储至关系型数据库,并生成所述拆解后的配置信息的索引信息。
在本发明实施例中任一可选技术方案的基础上,可选地,所述装置还用于:
在采集任务满足预设判断条件的情况下,获取所述拆解后的配置信息的索引信息;
将所述索引信息在所述关系型数据库中进行匹配,得到所述索引信息对应的拆解后的配置信息;
对所述索引信息对应的拆解后的配置信息进行组装,得到目标规则配置文件。
在本发明实施例中任一可选技术方案的基础上,可选地,所述预设判断条件用于判断所述采集任务是否满足调度要求,其中,所述预设判断条件包括预设时间、预设时间间隔或者预设任务执行次数中的任一项。
在本发明实施例中任一可选技术方案的基础上,可选地,所述数据检测模块430,还可以用于:
基于所述目标规则配置文件中的数据检测规则对所述业务数据进行比对,将比对结果作为检测结果;
其中,所述数据检测规则包括数据区间检测规则、字典范围检测规则、清单范围检测规则和函数检测规则中的至少一项。
在本发明实施例中任一可选技术方案的基础上,可选地,所述装置还用于:
提取所述目标治理数据的目标数据项;
以所述目标数据项为元数据的子节点信息,根据元数据的父子节点关系确定所述元数据的父节点信息;
基于所述元数据的子节点信息和父节点信息生成溯源分析报告。
本发明实施例所提供的数据采集装置可执行本发明任意实施例所提供的数据采集方法,具备执行方法相应的功能模块和有益效果。
实施例五
图8示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图8所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据采集方法。
在一些实施例中,数据采集方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据采集方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据采集方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
实施例六
本发明实施例六还提供一种计算机可读存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种数据采集方法,该方法包括:
监测业务数据的规则配置信息;
在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表;
基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果;
将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据采集方法,其特征在于,应用于数据采集引擎,包括:
监测业务数据的规则配置信息;
在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表;
基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果;
将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
2.根据权利要求1所述的方法,其特征在于,所述基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表,包括:
提取变更后的规则配置信息的关键标识,对所述关键标识进行属性划分,基于属性划分后的关键标识构建目标存储物理表;
以所述目标存储物理表为单位,根据预设文件配置规则对所述变更后的规则配置信息进行编制,得到目标规则配置文件。
3.根据权利要求1所述的方法,其特征在于,在基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表之后,所述方法还包括:
将所述目标规则配置文件进行拆解,将拆解后的配置信息存储至关系型数据库,并生成所述拆解后的配置信息的索引信息。
4.根据权利要求3所述的方法,其特征在于,在基于所述目标规则配置文件对所述业务数据进行质量检测之前,所述方法还包括:
在采集任务满足预设判断条件的情况下,获取所述拆解后的配置信息的索引信息;
将所述索引信息在所述关系型数据库中进行匹配,得到所述索引信息对应的拆解后的配置信息;
对所述索引信息对应的拆解后的配置信息进行组装,得到目标规则配置文件。
5.根据权利要求4所述的方法,其特征在于,所述预设判断条件用于判断所述采集任务是否满足调度要求,其中,所述预设判断条件包括预设时间、预设时间间隔或者预设任务执行次数中的任一项。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标规则配置文件对所述业务数据进行质量检测,包括:
基于所述目标规则配置文件中的数据检测规则对所述业务数据进行比对,将比对结果作为检测结果;
其中,所述数据检测规则包括数据区间检测规则、字典范围检测规则、清单范围检测规则和函数检测规则中的至少一项。
7.根据权利要求1-6中任一项所述的方法,其特征在于,在所述将所述检测结果存储至目标存储物理表中,得到目标治理数据之后,所述方法还包括:
提取所述目标治理数据的目标数据项;
以所述目标数据项为元数据的子节点信息,根据元数据的父子节点关系确定所述元数据的父节点信息;
基于所述元数据的子节点信息和父节点信息生成溯源分析报告。
8.一种数据采集装置,其特征在于,应用于数据采集引擎,包括:
信息监测模块,用于监测业务数据的规则配置信息;
信息更新模块,用于在所述规则配置信息发生变更的情况下,基于变更后的规则配置信息更新规则配置文件和存储物理表,得到目标规则配置文件和目标存储物理表;
数据检测模块,用于基于所述目标规则配置文件对所述业务数据进行质量检测,得到检测结果;
数据存储模块,用于将所述检测结果存储至对应的目标存储物理表中,得到目标治理数据。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据采集方法。
CN202210113894.XA 2022-01-30 2022-01-30 一种数据采集方法、装置、电子设备及存储介质 Pending CN114461644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210113894.XA CN114461644A (zh) 2022-01-30 2022-01-30 一种数据采集方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210113894.XA CN114461644A (zh) 2022-01-30 2022-01-30 一种数据采集方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114461644A true CN114461644A (zh) 2022-05-10

Family

ID=81411087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210113894.XA Pending CN114461644A (zh) 2022-01-30 2022-01-30 一种数据采集方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114461644A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115202990A (zh) * 2022-09-09 2022-10-18 天津市天河计算机技术有限公司 Io性能数据的采集方法、装置、设备及存储介质
CN115277406A (zh) * 2022-07-22 2022-11-01 中国工商银行股份有限公司 工单溯源方法、装置、计算机设备、存储介质和程序产品
CN115292330A (zh) * 2022-09-28 2022-11-04 平安银行股份有限公司 一种数据收集方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277406A (zh) * 2022-07-22 2022-11-01 中国工商银行股份有限公司 工单溯源方法、装置、计算机设备、存储介质和程序产品
CN115202990A (zh) * 2022-09-09 2022-10-18 天津市天河计算机技术有限公司 Io性能数据的采集方法、装置、设备及存储介质
CN115202990B (zh) * 2022-09-09 2022-12-06 天津市天河计算机技术有限公司 Io性能数据的采集方法、装置、设备及存储介质
CN115292330A (zh) * 2022-09-28 2022-11-04 平安银行股份有限公司 一种数据收集方法及装置
CN115292330B (zh) * 2022-09-28 2022-12-20 平安银行股份有限公司 一种数据收集方法及装置

Similar Documents

Publication Publication Date Title
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
WO2021068547A1 (zh) 日志模板提取方法及装置
US8463811B2 (en) Automated correlation discovery for semi-structured processes
CN111177134B (zh) 适用于海量数据的数据质量分析方法、装置、终端及介质
CN112052138A (zh) 业务数据质量检测方法、装置、计算机设备及存储介质
CN111414376A (zh) 一种数据预警方法和装置
CN112445875B (zh) 数据关联及检验方法、装置、电子设备及存储介质
WO2019076001A1 (zh) 信息更新方法和装置
CN113326247A (zh) 云端数据的迁移方法、装置及电子设备
CN114021156A (zh) 漏洞自动化聚合的整理方法、装置、设备以及存储介质
CN112328805A (zh) 基于nlp的漏洞描述信息与数据库表的实体映射方法
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
CN115048352B (zh) 一种日志字段提取方法、装置、设备和存储介质
CN115563310A (zh) 一种关键业务节点的确定方法、装置、设备及介质
CN115794744A (zh) 一种日志展示方法、装置、设备和存储介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
CN115080607A (zh) 一种结构化查询语句的优化方法、装置、设备及存储介质
CN112256566B (zh) 一种测试案例的保鲜方法和装置
CN114896418A (zh) 知识图谱构建方法、装置、电子设备及存储介质
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN115511014B (zh) 信息匹配方法、装置、设备及存储介质
CN115858325B (zh) 一种项目日志的调整方法、装置、设备和存储介质
CN115422204A (zh) 数据处理方法、装置、电子设备及存储介质
CN117370213A (zh) 一种测试数据的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination