CN111930734B - 基于任务和字段的数据下线方法及系统 - Google Patents

基于任务和字段的数据下线方法及系统 Download PDF

Info

Publication number
CN111930734B
CN111930734B CN202010801217.8A CN202010801217A CN111930734B CN 111930734 B CN111930734 B CN 111930734B CN 202010801217 A CN202010801217 A CN 202010801217A CN 111930734 B CN111930734 B CN 111930734B
Authority
CN
China
Prior art keywords
task
offline
field
dependency
tasks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010801217.8A
Other languages
English (en)
Other versions
CN111930734A (zh
Inventor
梁婷
康永乐
祁成
徐李融
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010801217.8A priority Critical patent/CN111930734B/zh
Publication of CN111930734A publication Critical patent/CN111930734A/zh
Application granted granted Critical
Publication of CN111930734B publication Critical patent/CN111930734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于任务和字段的数据下线方法及系统,所述方法包括:根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务;根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线,本发明可解决现有数据下线确定的不完整问题。

Description

基于任务和字段的数据下线方法及系统
技术领域
本发明涉及大数据的数据治理技术领域,尤其涉及一种基于任务和字段的数据下线方法及系统。
背景技术
随着大数据技术的发展,数据量和加工复杂度都有很大提升。当大数据系统的数据仓库建设到一定程度后,会带来计算资源和存储资源的紧张。那么大数据系统的数据治理就显得尤为重要。
在数据治理时,会着重于对数据加工任务和任务中的数据表进行下线处理。现有方案通常是根据任务粒度元数据、表粒度元数据,确定该任务及其产出表是否可下线,此时会把可下线列表推送给任务和表的维护者执行下线处理。其中,下线是指将相关的任务和表数据从数据库中删除。
现有方案在数据治理方面能够有效的推荐出可下线的表和任务,但存在推荐的下线列表不完整问题,不能够全面的进行数据治理。
发明内容
本发明的一个目的在于提供一种基于任务和字段的数据下线方法,解决现有数据下线确定的不完整问题。本发明的另一个目的在于提供一种基于任务和字段的数据下线系统。本发明的再一个目的在于提供一种计算机设备。本发明的还一个目的在于提供一种可读介质。
为了达到以上目的,本发明一方面公开了一种基于任务和字段的数据下线方法,包括:
根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;
根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务;
根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线。
优选的,所述根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图具体包括:
获取元数据库中二元关系对的任务依赖关系信息;
通过图计算技术将所述二元关系对转换为任务依赖关系图,所述任务依赖关系图包括分层设置的多个节点,其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系。
优选的,所述根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务具体包括:
对叶子节点进行下线检测,所述下线检测过程包括通过预设任务下线规则检测每个叶子节点对应的任务是否符合下线条件,若是,确定符合下线条件的任务为下线任务;
删除所述任务依赖关系图中的所述下线任务得到更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测得到下线任务,重复形成更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测直至更新后的任务依赖关系图的所有叶子节点对应的任务均不符合下线条件;
确定所述下线任务为待下线任务,所有任务中除了待下线任务的其他任务为不可下线任务。
优选的,所述根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段具体包括:
根据不可下线任务和任务依赖关系信息形成不可下线任务的任务依赖关系图;
根据字段依赖关系信息确定不可下线任务的任务依赖关系图的任务中与待下线任务中的字段具有依赖关系的待检测字段;
根据预设字段下线规则确定所述待检测字段是否符合字段下线规则,若是,则确定所述符合字段下线规则的待检测字段为待下线字段。
优选的,所述预设任务下线规则包括任务没有下游依赖、任务产生的表无下游依赖和任务产生的表在预设时间内无访问;
预设字段下线规则包括字段没有下游依赖。
本发明还公开了一种基于任务和字段的数据下线系统,包括:
图转换模块,用于根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;
任务下线检测模块,用于根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务;
字段下线检测模块,用于根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线。
优选的,所述图转换模块具体包括:
信息获取单元,用于获取元数据库中二元关系对的任务依赖关系信息;
图转换单元,用于通过图计算技术将所述二元关系对转换为任务依赖关系图,所述任务依赖关系图包括分层设置的多个节点,其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系。
优选的,所述任务下线检测模块具体包括:
第一检测单元,用于对叶子节点进行下线检测,所述下线检测过程包括通过预设任务下线规则检测每个叶子节点对应的任务是否符合下线条件,若是,确定符合下线条件的任务为下线任务;
迭代计算单元,用于删除所述任务依赖关系图中的所述下线任务得到更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测得到下线任务,重复形成更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测直至更新后的任务依赖关系图的所有叶子节点对应的任务均不符合下线条件;
下线任务确定单元,用于确定所述下线任务为待下线任务,所有任务中除了待下线任务的其他任务为不可下线任务。
优选的,所述字段下线检测模块具体包括:
字段图转换单元,用于根据不可下线任务和任务依赖关系信息形成不可下线任务的任务依赖关系图;
字段检测确定单元,用于根据字段依赖关系信息确定不可下线任务的任务依赖关系图的任务中与待下线任务中的字段具有依赖关系的待检测字段;
字段下线检测单元,用于根据预设字段下线规则确定所述待检测字段是否符合字段下线规则,若是,则确定所述符合字段下线规则的待检测字段为待下线字段。
优选的,所述预设任务下线规则包括任务没有下游依赖、任务产生的表无下游依赖和任务产生的表在预设时间内无访问;
预设字段下线规则包括字段没有下游依赖。
本发明还公开了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,
所述处理器执行所述程序时实现如上所述方法。
本发明还公开了一种计算机可读介质,其上存储有计算机程序,
该程序被处理器执行时实现如上所述方法。
本发明通过将元数据库中二元关系对形式的任务依赖关系信息转换为任务依赖关系图。通过任务依赖关系图的形式可以直接对各叶子节点及其上层的节点任务进行检测以确定待下线任务,从而能够缩小任务下线检测的范围,更快速的确定待下线任务。此外,本发明进一步根据预设字段下线规则和字段依赖关系信息对不可下线任务中的字段进行检测以确定不可下线任务中是否存在可以下线的字段,从而将字段、表、任务的下线融合,实现数据下线检测的细化,更加有效的去除无用的数据,提高数据治理的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明基于任务和字段的数据下线方法一个具体实施例的流程图;
图2示出本发明基于任务和字段的数据下线方法一个具体实施例S100的流程图;
图3示出本发明基于任务和字段的数据下线方法一个具体实施例任务依赖关系图的结构示意图;
图4示出本发明基于任务和字段的数据下线方法一个具体实施例S200的流程图;
图5示出本发明基于任务和字段的数据下线方法一个具体实施例S300的流程图;
图6示出本发明基于任务和字段的数据下线方法一个具体例子的流程图;
图7示出本发明基于任务和字段的数据下线系统一个具体实施例的结构图;
图8示出本发明基于任务和字段的数据下线系统一个具体实施例图转换模块的结构图;
图9示出本发明基于任务和字段的数据下线系统一个具体实施例任务下线检测模块的结构图;
图10示出本发明基于任务和字段的数据下线系统一个具体实施例字段下线检测模块的结构图;
图11示出适于用来实现本发明实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有方案通常是根据任务粒度元数据、表粒度元数据,发现数据加工任务是否存在可以下线的情形,若是,则认为该任务及其产出表可下线,此时会把可下线列表推送给任务和表的维护者执行下线处理。现有方案在数据治理方面能够有效的推荐出可下线的表和任务,但存在推荐的下线列表不完整问题,不能够全面的进行数据治理。具体表现为:一是,一个任务下线后,它的上游任务可能就会变成没有下游依赖的任务,而这种新的没有下游依赖的任务理论上应该也可推荐出来执行下线,但目前方案无法实现该推荐;二是现有的数据下线推荐仅可针对任务粒度和表粒度进行下线推荐,数据下线的推荐粒度较粗,无法针对任务进行精细化数据下线管理。基于此,本发明公开了一种基于任务和字段的数据下线方案,通过图计算技术将任务依赖关系信息转换为任务依赖关系图,从而能够更快速的进行数据下线分析,并且可以对非叶子节点的任务进行下线处理,同时,还可对任务的字段进行数据下线分析,更彻底的释放数据仓库中无用的计算和存储资源。
根据本发明的一个方面,本实施例公开了一种基于任务和字段的数据下线方法。如图1所示,本实施例中,所述方法包括:
S100:根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图。其中,元数据库中通常存储有任务、任务产生表和字段的元数据以及任务依赖关系信息和字段依赖关系信息,其中,元数据包括任务、表和字段的基础信息,基础信息包括但不限于名称、描述、负责人信息、访问时间和访问次数等信息。
S200:根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务。
S300:根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线。可以理解的是,可将确定的待下线任务和待下线字段反馈给管理人员,管理人员可对待下线任务和待下线字段进行下线处理,即将待下线任务的数据和待下线字段的数据从数据仓库中删除。
本发明通过将元数据库中二元关系对形式的任务依赖关系信息转换为任务依赖关系图。通过任务依赖关系图的形式可以直接对各叶子节点及其上层的节点任务进行检测以确定待下线任务,从而能够缩小任务下线检测的范围,更快速的确定待下线任务。此外,本发明进一步根据预设字段下线规则和字段依赖关系信息对不可下线任务中的字段进行检测以确定不可下线任务中是否存在可以下线的字段,从而将字段、表、任务的下线融合,实现数据下线检测的细化,更加有效的去除无用的数据,提高数据治理的效果。
在优选的实施方式中,如图2所示,所述S100中根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图具体包括:
S110:获取元数据库中二元关系对的任务依赖关系信息。
S120:通过图计算技术将所述二元关系对转换为任务依赖关系图,所述任务依赖关系图包括分层设置的多个节点,其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系。
具体的,在元数据库中,任务依赖关系信息通常是以二元关系对的形式进行存储的,不利于数据分析处理。因此,在该优选的实施方式中,可通过图计算技术将二元关系对的任务依赖关系信息转换为任务依赖关系图。例如,在一个具体例子中,对于表1所示的二元关系对的任务依赖关系信息,通过图计算技术可将表1的二元关系对转换为如图3所示的任务依赖关系图。如图3所示,任务依赖关系图表示为一颗树,该树包括分层设置的多个节点。其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;根节点和中间节点均为非叶子节点。例如,在图3中,a为根节点层的节点,b、c和d存在对应的上层和下层节点,为中间层的节点,e和f没有对应的下层节点,为叶子节点层的叶子节点。其中,每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系。在对任务和字段下线分析时,可根据任务所在的层数及对应关系进行迭代分析任务依赖关系图中各节点任务是否符合预设任务下线规则。相比于通过二元关系对对每个节点进行迭代的方案,降低计算复杂度。
表1
父节点 子节点
a b
a c
a d
b f
b e
c f
在优选的实施方式中,如图4所示,所述S200根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务具体包括:
S210:对叶子节点进行下线检测,所述下线检测过程包括通过预设任务下线规则检测每个叶子节点对应的任务是否符合下线条件,若是,确定符合下线条件的任务为下线任务。
S220:删除所述任务依赖关系图中的所述下线任务得到更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测得到下线任务,重复形成更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测直至更新后的任务依赖关系图的所有叶子节点对应的任务均不符合下线条件。
S230:确定所述下线任务为待下线任务,所有任务中除了待下线任务的其他任务为不可下线任务。
其中,可以理解的是,各层节点间存在上下层的对应关系,对于一个节点,其上层的节点(即父节点)为上游节点,其下层的节点(即子节点)为下游节点,若一个节点存在对应的上游节点,则表示该节点对应的任务存在上游依赖任务,即上游节点对应的任务。同理的,若一个节点存在对应的下游节点,则表示该节点对应的任务存在下游依赖任务,即下游节点对应的任务;若一个节点不存在对应的下游节点,则表示该节点对应的任务不存在下游依赖任务,即下游节点对应的任务。
通常没有下游依赖的任务中存在可能需要下线的任务,因此,可首先对任务依赖关系图中的所有叶子节点对应的任务通过预设任务下线规则进行下线检测,若任务符合预设任务下线规则,则将其标记为下线任务。若下线任务下线后,与下线任务具有对应关系的上一层节点的任务也可能会变为没有下游依赖的叶子节点,从而在确定下线任务后,需要对所有下线任务依次存在对应关系的上层节点任务进行下线分析,从而可以确定非叶子节点的下线任务,提高下线数据推荐的准确性。例如,对于图3中的任务依赖关系图,f为叶子节点,若f节点的任务为下线任务,则f上一层的节点c变为没有下层节点的叶子节点,需对c节点的任务根据预设任务下线规则进行下线检测,确定c节点的任务是否为符合下线条件的下线任务。而对于b节点来说,需要e和f两个节点的任务均为下线任务,b节点才会变为叶子节点,才需要确定b节点的任务是否为符合下线条件的下线任务。由此,可将任务依赖关系图中的下线任务对应的节点删除形成更新的任务依赖关系图,对更新的任务依赖关系图中的叶子节点再次检测是否存在下线任务,重复删除下线任务形成更新的任务依赖关系图进行任务下线检测直至更新的任务依赖关系图中的所有叶子节点的任务均不符合下线条件。
需要说明的是,任务包括任务产出的至少一个表,表中包括至少一个字段。根据预设任务规则确定任务是否需要进行下线处理。其中,需要任务和表均满足下线条件,才可确定该任务需要进行下线处理,即将任务和任务产出表的相关数据均删除。
在优选的实施方式中,如图5所示,所述S300中根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段具体包括:
S310:根据不可下线任务和任务依赖关系信息形成不可下线任务的任务依赖关系图。
S320:根据字段依赖关系信息确定不可下线任务的任务依赖关系图的任务中与待下线任务中的字段具有依赖关系的待检测字段。
S330:根据预设字段下线规则确定所述待检测字段是否符合字段下线规则,若是,则确定所述符合字段下线规则的待检测字段为待下线字段。
其中,可以理解的是,任务包括多个任务所产生的多个表,任务与表间存在1对多的关系,确定的待下线任务中的所有表及表中的字段等数据均需要作下线处理。而对于不可下线任务,任务中表的某些字段可能为无效字段,需要进行下线处理。由此,在该优选的实施方式中,将不可下线任务形成任务依赖关系图。待下线任务中的字段下线,其具有直接依赖关系的上层节点的字段也可能存在无用或无效的情况,需要进行下线处理。由此,针对不可下线任务形成的任务依赖关系图确定不可下线任务的表中是否存在与待下线任务中的字段具有直接依赖关系的字段。其中,预先设置的字段依赖关系信息中记载了各字段的对应关系,通过字段依赖关系信息可确定不可下线任务的表中各字段与待下线任务中的字段是否存在直接依赖关系,即在字段依赖关系信息中是否存在直接的对应关系。若是,确定对该具有直接依赖关系的不可下线任务的字段为待检测字段,并进一步根据预设字段下线规则确定待检测字段是否符合下线要求。若是,确定待检测字段为待下线字段。
在优选的实施方式中,所述预设任务下线规则包括任务没有下游依赖、任务产生的表无下游依赖和任务产生的表在预设时间内无访问。预设字段下线规则包括字段没有下游依赖。
其中,可以理解的是,用户可提前将预设任务下线规则和预设字段下线规则配置在配置文件中,在对任务和字段进行下线分析时,调取配置文件中的任务下线规则和字段下线规则后分别与待分析的任务和字段进行匹配,若待分析的任务和字段符合预设任务下线规则和预设字段下线规则,则表示任务和字段符合下线要求,属于无用的数据,需要进行下线处理。在其他实施方式中,预设任务下线规则和预设字段下线规则也可采用其他可行的规则,本发明对此并不作限定。
下面通过一个具体例子来对本发明作进一步的说明。如图6所示,在该具体例子中,可预设四个数据集合:可下线任务集合(简称A)、不可下线任务集合(简称B)、可下线字段集合(简称C)、可下线表集合(简称D),基于任务和字段的数据下线方法包括以下步骤:
步骤1:用户配置可下线规则形成配置文件,分为任务下线规则和字段下线规则两种。
步骤2:根据步骤1配置的可下线规则,读取元数据库中维护的元数据,使用任务粒度和表粒度的元数据、以及任务和表的产出映射关系(1:n),将所有任务转换为任务依赖关系图,发现满足可下线条件的任务和表,此处发现的任务都是叶子节点。将可下线的任务添加到集合A中。
步骤3:对于除了集合A的任务,根据二元关系对运用图计算技术转化成依赖关系图,计算出图的深度i。
步骤4:从图的最底层开始,逐步向上层检查,检查第i层(最底层)的任务是否可下线(依赖检查时,需剔除集合A的任务)。将可下线任务添加到集合A中,将不可下线任务添加到集合B中。直到检查到根节点(即i=1)为止。
步骤5:对集合B,找到与集合A的直接字段依赖关系,检查集合B的字段是否满足可下线规则(依赖检查时需剔除集合A的任务),可下线的字段添加到集合C中。
步骤6:对集合C利用字段元数据和图转化技术,将集合C的字段依赖关系转化为依赖关系图,从图的最底层(即j层)进行逐步向上寻找,检查其上游存在依赖关系的字段是否可下线,将可下线字段添加到集合C中,直到检查到根节点(即j=1)为止。
步骤7:找到集合A中的任务所产出的表,存储到集合D中。返回集合A、集合C、集合D,即为推荐下线的列表,将该列表反馈给管理人员以便于管理人员根据该列表进行数据删除等数据下线操作。
基于相同原理,本实施例还公开了一种基于任务和字段的数据下线系统。如图7所示,本实施例中,所述系统包括图转换模块11、任务下线检测模块12和字段下线检测模块13。
其中,图转换模块11用于根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图。
任务下线检测模块12用于根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务。
字段下线检测模块13用于根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线。
在优选的实施方式中,如图8所示,所述图转换模块11具体包括信息获取单元111和图转换单元112。
其中,信息获取单元111用于获取元数据库中二元关系对的任务依赖关系信息。
图转换单元112用于通过图计算技术将所述二元关系对转换为任务依赖关系图,所述任务依赖关系图包括分层设置的多个节点,其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系。
在优选的实施方式中,如图9所示,所述任务下线检测模块12具体包括第一检测单元121、迭代计算单元122和下线任务确定单元123。
其中,第一检测单元121用于对叶子节点进行下线检测,所述下线检测过程包括通过预设任务下线规则检测每个叶子节点对应的任务是否符合下线条件,若是,确定符合下线条件的任务为下线任务。
迭代计算单元122用于删除所述任务依赖关系图中的所述下线任务得到更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测得到下线任务,重复形成更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测直至更新后的任务依赖关系图的所有叶子节点对应的任务均不符合下线条件。
下线任务确定单元123用于确定所述下线任务为待下线任务,所有任务中除了待下线任务的其他任务为不可下线任务。
在优选的实施方式中,如图10所示,所述字段下线检测模块13具体包括字段图转换单元131、字段检测确定单元132和字段下线检测单元133。
其中,字段图转换单元131用于根据不可下线任务和任务依赖关系信息形成不可下线任务的任务依赖关系图。
字段检测确定单元132用于根据字段依赖关系信息确定不可下线任务的任务依赖关系图的任务中与待下线任务中的字段具有依赖关系的待检测字段。
字段下线检测单元133用于根据预设字段下线规则确定所述待检测字段是否符合字段下线规则,若是,则确定所述符合字段下线规则的待检测字段为待下线字段。
在优选的实施方式中,所述预设任务下线规则包括任务没有下游依赖、任务产生的表无下游依赖和任务产生的表在预设时间内无访问。预设字段下线规则包括字段没有下游依赖。
由于该系统解决问题的原理与以上方法类似,因此本系统的实施可以参见方法的实施,在此不再赘述。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在一个典型的实例中计算机设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法。
下面参考图11,其示出了适于用来实现本申请实施例的计算机设备600的结构示意图。
如图11所示,计算机设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶反馈器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种基于任务和字段的数据下线方法,其特征在于,包括:
根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;
根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务;
根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线;
所述根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图具体包括:
获取元数据库中二元关系对的任务依赖关系信息;
通过图计算技术将所述二元关系对转换为任务依赖关系图,所述任务依赖关系图包括分层设置的多个节点,其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系;
所述根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务具体包括:
对叶子节点进行下线检测,所述下线检测过程包括通过预设任务下线规则检测每个叶子节点对应的任务是否符合下线条件,若是,确定符合下线条件的任务为下线任务;
删除所述任务依赖关系图中的所述下线任务得到更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测得到下线任务,重复形成更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测直至更新后的任务依赖关系图的所有叶子节点对应的任务均不符合下线条件;
确定所述下线任务为待下线任务,所有任务中除了待下线任务的其他任务为不可下线任务。
2.根据权利要求1所述的基于任务和字段的数据下线方法,其特征在于,所述根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段具体包括:
根据不可下线任务和任务依赖关系信息形成不可下线任务的任务依赖关系图;
根据字段依赖关系信息确定不可下线任务的任务依赖关系图的任务中与待下线任务中的字段具有依赖关系的待检测字段;
根据预设字段下线规则确定所述待检测字段是否符合字段下线规则,若是,则确定所述符合字段下线规则的待检测字段为待下线字段。
3.根据权利要求1所述的基于任务和字段的数据下线方法,其特征在于,所述预设任务下线规则包括任务没有下游依赖、任务产生的表无下游依赖和任务产生的表在预设时间内无访问;
预设字段下线规则包括字段没有下游依赖。
4.一种基于任务和字段的数据下线系统,其特征在于,包括:
图转换模块,用于根据元数据库中的任务依赖关系信息将所有任务转换为任务依赖关系图;
任务下线检测模块,用于根据任务依赖关系图和预设任务下线规则确定所有任务中的待下线任务和不可下线任务;
字段下线检测模块,用于根据预设字段下线规则和字段依赖关系信息确定所述不可下线任务中的待下线字段以根据所述待下线任务和待下线字段进行数据下线;
所述图转换模块具体包括:
信息获取单元,用于获取元数据库中二元关系对的任务依赖关系信息;
图转换单元,用于通过图计算技术将所述二元关系对转换为任务依赖关系图,所述任务依赖关系图包括分层设置的多个节点,其中,第一层为根节点层,包括至少一个根节点;最后一层为叶子节点层,包括至少一个叶子节点;其他层为中间层,包括至少一个中间节点;每个节点对应一个任务,相邻两层的节点根据所述二元关系对形成对应关系;
所述任务下线检测模块具体包括:
第一检测单元,用于对叶子节点进行下线检测,所述下线检测过程包括通过预设任务下线规则检测每个叶子节点对应的任务是否符合下线条件,若是,确定符合下线条件的任务为下线任务;
迭代计算单元,用于删除所述任务依赖关系图中的所述下线任务得到更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测得到下线任务,重复形成更新后的任务依赖关系图并对更新后的任务依赖关系图的叶子节点进行下线检测直至更新后的任务依赖关系图的所有叶子节点对应的任务均不符合下线条件;
下线任务确定单元,用于确定所述下线任务为待下线任务,所有任务中除了待下线任务的其他任务为不可下线任务。
5.根据权利要求4所述的基于任务和字段的数据下线系统,其特征在于,所述字段下线检测模块具体包括:
字段图转换单元,用于根据不可下线任务和任务依赖关系信息形成不可下线任务的任务依赖关系图;
字段检测确定单元,用于根据字段依赖关系信息确定不可下线任务的任务依赖关系图的任务中与待下线任务中的字段具有依赖关系的待检测字段;
字段下线检测单元,用于根据预设字段下线规则确定所述待检测字段是否符合字段下线规则,若是,则确定所述符合字段下线规则的待检测字段为待下线字段。
6.根据权利要求4所述的基于任务和字段的数据下线系统,其特征在于,所述预设任务下线规则包括任务没有下游依赖、任务产生的表无下游依赖和任务产生的表在预设时间内无访问;
预设字段下线规则包括字段没有下游依赖。
7.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述程序时实现如权利要求1-3任一项所述方法。
8.一种计算机可读介质,其上存储有计算机程序,其特征在于,
该程序被处理器执行时实现如权利要求1-3任一项所述方法。
CN202010801217.8A 2020-08-11 2020-08-11 基于任务和字段的数据下线方法及系统 Active CN111930734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010801217.8A CN111930734B (zh) 2020-08-11 2020-08-11 基于任务和字段的数据下线方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010801217.8A CN111930734B (zh) 2020-08-11 2020-08-11 基于任务和字段的数据下线方法及系统

Publications (2)

Publication Number Publication Date
CN111930734A CN111930734A (zh) 2020-11-13
CN111930734B true CN111930734B (zh) 2023-08-04

Family

ID=73310253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010801217.8A Active CN111930734B (zh) 2020-08-11 2020-08-11 基于任务和字段的数据下线方法及系统

Country Status (1)

Country Link
CN (1) CN111930734B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779026A (zh) * 2021-08-18 2021-12-10 北京健康之家科技有限公司 业务数据表的处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106293928A (zh) * 2015-06-05 2017-01-04 阿里巴巴集团控股有限公司 一种全局任务节点依赖关系可视化方法、装置和系统
CN106294478A (zh) * 2015-06-04 2017-01-04 阿里巴巴集团控股有限公司 数据仓库的数据处理方法及装置
CN109710613A (zh) * 2018-12-26 2019-05-03 深圳乐信软件技术有限公司 字段的管理方法、装置、服务器和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233925A1 (en) * 2006-03-31 2007-10-04 Sap Ag Centralized management of data nodes

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294478A (zh) * 2015-06-04 2017-01-04 阿里巴巴集团控股有限公司 数据仓库的数据处理方法及装置
CN106293928A (zh) * 2015-06-05 2017-01-04 阿里巴巴集团控股有限公司 一种全局任务节点依赖关系可视化方法、装置和系统
CN109710613A (zh) * 2018-12-26 2019-05-03 深圳乐信软件技术有限公司 字段的管理方法、装置、服务器和存储介质

Also Published As

Publication number Publication date
CN111930734A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN105488050B (zh) 一种数据库多索引方法、装置及系统
US11275768B2 (en) Differential support for frequent pattern analysis
CN110020427B (zh) 策略确定方法和装置
US11487707B2 (en) Efficient file path indexing for a content repository
CN113628005A (zh) 基于电商会话大数据的推送更新方法及大数据ai系统
CN112818226A (zh) 数据处理方法、推荐方法、装置、电子设备及存储介质
CN105824974A (zh) 数据分析处理的方法和系统
CN111930734B (zh) 基于任务和字段的数据下线方法及系统
US20160248724A1 (en) Social Message Monitoring Method and Apparatus
CN113761565B (zh) 数据脱敏方法和装置
CN105138527A (zh) 一种数据分类回归方法及装置
CN116303628B (zh) 基于Elasticsearch的告警数据查询方法、系统及设备
CN112068812A (zh) 一种微服务生成方法、装置、计算机设备和存储介质
CN116303286A (zh) 批量文件处理方法、装置及系统
CN115827280A (zh) 消息处理方法、装置、电子设备及存储介质
CN112417054B (zh) 分布式数据存储方法、数据查询方法、设备和存储介质
CN114995719A (zh) 列表渲染方法、装置、设备以及存储介质
WO2011016281A2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
CN113255933A (zh) 特征工程和图网络生成方法和装置、分布式系统
CN110555053B (zh) 用于输出信息的方法和装置
CN112685557A (zh) 可视化信息资源管理方法及装置
Retima et al. A quality-aware context information selection based fuzzy logic in IoT environment.
CN112035581A (zh) 基于模型的任务处理方法、装置、设备和介质
CN106682129B (zh) 个人大数据管理中层次概念向量化增量处理方法
CN114490095B (zh) 请求结果的确定方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant