CN106294478A - 数据仓库的数据处理方法及装置 - Google Patents

数据仓库的数据处理方法及装置 Download PDF

Info

Publication number
CN106294478A
CN106294478A CN201510303311.XA CN201510303311A CN106294478A CN 106294478 A CN106294478 A CN 106294478A CN 201510303311 A CN201510303311 A CN 201510303311A CN 106294478 A CN106294478 A CN 106294478A
Authority
CN
China
Prior art keywords
data
dependence
checked
metadata
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510303311.XA
Other languages
English (en)
Other versions
CN106294478B (zh
Inventor
吴勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510303311.XA priority Critical patent/CN106294478B/zh
Priority to PCT/CN2016/083591 priority patent/WO2016192583A1/zh
Publication of CN106294478A publication Critical patent/CN106294478A/zh
Application granted granted Critical
Publication of CN106294478B publication Critical patent/CN106294478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例中提供了一种数据仓库的数据处理方法及装置,该方法包括:接收用户输入的查询条件,查询条件包括待查询数据的关键词;根据关键词确定待查询数据与数据仓库中其他数据的依赖关系,依赖关系是下述的一种:无依赖、强依赖、弱依赖;向用户返回依赖关系;接收用户根据依赖关系下发的数据处理指令;触发数据仓库对待查询数据执行数据处理指令。采用本申请实施例中提供的方法,能够提升数据仓库的资源使用效率。

Description

数据仓库的数据处理方法及装置
技术领域
本申请涉及数据处理技术,特别涉及一种数据仓库的数据处理方法及装置。
背景技术
随着90年代后期因特网的兴起与飞速发展,大量的信息和数据迎面而来,用科学的方法去整理数据,从而从不同视角对企业经营各方面信息的精确分析、准确判断,比以往更为迫切,实施行为的有效性也比以往更受关注。使用这些技术建设的信息系统称为数据仓库。
数据仓库是一个环境,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让数据使用者能够更快更方便查询所需要的信息,为数据使用者提供决策支持。
在现有技术中,为避免下游数据工程师产出的指标出现错误或者数据业务逻辑出现缺陷;通常采用的手段是不对数据仓库中的数据进行处理。
采用现有技术中的数据处理方法,将使得已经没有用的数据一直占有计算资源和存储资源,导致资源浪费。
发明内容
本申请实施例中提供了一种数据仓库的数据处理方法和装置,用于解决现有技术中无用数据占有资源导致的资源浪费。
根据本申请实施例的一个方面,提供了一种数据仓库的数据处理方法,包括:接收用户输入的查询条件,查询条件包括待查询数据的关键词;根据关键词确定待查询数据与数据仓库中其他数据的依赖关系,依赖关系是下述的一种:无依赖、强依赖、弱依赖;向用户返回依赖关系;接收用户根据依赖关系下发的数据处理指令;触发数据仓库对待查询数据执行数据处理指令。
根据本申请实施例的另一个方面,提供了一种数据仓库的数据处理装置,包括:查询模块,用于接收用户输入的查询条件,查询条件包括待查询数据的关键词;依赖关系确定模块,用于根据关键词确定待查询数据与数据仓库中其他数据的依赖关系,依赖关系是下述的一种:无依赖、强依赖、弱依赖;反馈模块,用于向用户返回依赖关系;指令接收模块,用于接收用户根据依赖关系下发的数据处理指令;触发模块,用于触发数据仓库对待查询数据执行数据处理指令。
采用本申请实施例中的数据仓库的数据处理方法和装置,能够在接收到用户输入的查询条件后,确定并向用户返回待查询数据与其他数据的依赖关系;供用户根据依赖关系下发针对待查询数据的数据处理指令,然后再触发数据仓库执行数据处理指令;从而能够根据依赖关系对数据仓库中的数据进行处理,避免了现有技术中不对数据进行处理导致的资源浪费,提升了数据仓库的资源使用效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例一所示数据仓库的数据处理方法流程图;
图2是根据本申请实施例二的数据处理方法的依赖关系查询结果示意图;
图3是根据本申请实施例三的数据仓库的数据处理装置的结构框图。
具体实施方式
为了使本申请实施例中的技术方案及优点更加清楚明白,以下结合附图对本申请的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本申请的一部分实施例,而不是所有实施例的穷举。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例中的方案能够应用于如数据字典等工具的依赖关系(血缘)影响分析功能上,但本领域技术人员应当理解,上述应用只是为便于本技术技术人员理解本申请的目的示出,并不用于限制本申请。
图1为本申请实施例一所示数据仓库的数据处理方法流程图。
如图1所示,根据本申请实施例一所示的数据仓库的数据处理方法包括以下步骤:
S102,接收用户输入的查询条件,查询条件包括待查询数据的关键词;
S104,根据关键词确定待查询数据与数据仓库中其他数据的依赖关系,依赖关系是下述的一种:无依赖、强依赖、弱依赖;
S106,向用户返回依赖关系;
S108,接收用户根据依赖关系下发的数据处理指令;
S110,触发数据仓库对待查询数据执行数据处理指令。
本领域技术人员应当理解,数据仓库中存储的数据主要是数据开发产出的物理表或视图。表是数据仓库最重要的组成部分,表通常由关键词key,度量,属性数据组成,例如员工表由员工号(key),员工姓名,年龄等员工属性数据组成。视图同表一样,也包含一系列带有名称的列和行数据,但是,视图在数据库中并不以存储的数据值集的形式存在,而是由查询定义,可以视为虚拟的表。
依赖关系是指数据仓库数据研发过程中,表或视图被下游其他视图或任务使用、消费而形成的关系,或者表或视图在形成过程中对上游其他表或视图的使用、消费而形成的关系。
无依赖是指数据与其他数据之间没有任何的依赖关系;强依赖是指数据与其他数据之间存在调度关系,是最强也是最直观的一种依赖关系;弱依赖是指数据之间不是调度关系,但可以通过执行例如SQL((Structured Query Language,结构化查询语言)日志或视图DDL(Data Definition Language,数据库模式定义语言)语句解析出来的依赖关系;弱依赖在数据研发过程中比较隐蔽,很容易被忽略掉;例如,表被视图使用、表或视图被数据工厂、定时任务、数据回流生产任务等使用均是弱依赖关系。
各表或视图被下游任务所依赖使用,也被数据使用者在IDE(IntegratedDevelopment Environment,集成开发环境)、报表工具、定时任务等工具使用,目前数据仓库有上万张表,存在错综复杂的依赖关系。
在具体实施时,用户输入的该查询条件包括待查询数据的关键词,该关键词可以是表的名字,也可以是节点ID(IDentity的缩写,身份标识号码),例如,待查询数据是员工表时,该关键词可以是作为该表的关键词的员工号。
在具体实施时,采用oracle、mysql、teradata传统数据库或者Greenplum、hadoop、odps等分布式数据库都可以实施本申请实施例中的数据处理方法。
在具体实施时,本申请实施例中待查询数据与数据仓库中其他数据的依赖关系可以是预先生成的,也可以是在接受到用户输入的查询请求之后生成的,本申请对此并不做限制。
采用本申请实施例中的数据仓库的数据处理方法,能够在接收到用户输入的查询条件后,确定并向用户返回待查询数据与其他数据的依赖关系;供用户根据依赖关系下发针对待查询数据的数据处理指令,然后再触发数据仓库执行数据处理指令;从而能够根据依赖关系对数据仓库中的数据进行处理,避免了现有技术中不对数据进行处理导致的资源浪费。
优选地,根据关键词确定待查询数据与数据仓库中其他数据的依赖关系具体包括:根据关键词确定待查询数据;调用元数据生成待查询数据与数据仓库中其他数据的依赖关系。
元数据是指描述数据的数据,对数据及信息资源的描述性信息,包括业务表结构信息、数仓表结构信息等。
优选地,元数据包括调度元数据、SQL执行日志元数据、表结构元数据、同步中心元数据、定时任务元数据中的一个或多个。
优选地,在向用户返回依赖关系之后,在接收用户根据依赖关系下发的数据处理指令之前;还包括:根据依赖关系向用户提供针对待查询数据的数据处理指令。
为了便于用户对查询的数据进行数据处理,还可以在查询到相应待查询数据的依赖关系之后,向用户提供对应的处理指令,包括:如果查询数据的依赖关系是“无依赖”,则向用户提供对应于无依赖数据的数据处理指令;如果查询数据的依赖关系是“强依赖”,则向用户提供对应于强依赖数据的数据处理指令;如果查询数据的依赖关系是“弱依赖”,则向用户提供对应于弱依赖数据的数据处理指令。
优选地,数据处理指令是下线或变更。
本领域技术人员应当理解,下线是指对表进行物理删除或重命名备份;变更是指对表的内容或视图逻辑进行更新。
在具体实施时,对于无依赖关系的数据,则提供“下线”和“变更”处理指令,对于存在强依赖关系的数据,则提供“变更”功能及“变更通知”功能;对于存在弱依赖关系的数据,则提供“变更”等,本领域技术人员应当理解,上述依赖关系与处理指令之间的关系仅是为示例的目的而示出,并不用于限制本申请。
在现有技术中,由于数据仓库中的表与视图之间的错综复杂的依赖或使用关系,在数据工程师想要对数据进行下线或变更时,只能手动查询该数据与其他数据的依赖关系,然后再根据该依赖关系进行下线或是变更,但是手动的查询不能穷尽数据仓库,导致变更的影响范围不确定,会造成使用数据的工程师产出指标错误或数据业务逻辑出现缺陷,导致资损或客户投诉;同时手动的维护工作量也较繁重;如果想要穷尽,则手动查询的成本很高。
而采用本申请实施例中的方案,数据工程师可以查询想要下线或是变更的数据的依赖关系;然后根据该依赖关系选择下线或是变更;例如,如果无依赖,则进行下线,如果是强依赖,则进行变更并通知;如果是弱依赖,则进行变更等,从而使得数据工程师能够根据依赖关系对数据仓库中的数据进行处理,方便了数据处理,提升影响评估准确性,提高了数据处理的效率和准确度。
在具体实施时,查询条件还可以进一步包括查询数据的依赖关系的方向和层级,例如,向上游回溯N级,或者向下游查询N级。
向上游回溯是指向上游查询待查询数据所依赖的N级表或视图;向下游查询是指向下游查询待查询数据所被依赖的N级表或视图。
根据待查询数据与上游数据的依赖关系,用户可以用于待查询数据的出错检查、模型健康检查、数据路径长度检测、数据处理效率评估等。
对于待查询数据与下游数据的依赖关系,用户可以用于待查询数据的下线或变更处理等。
下面结合图2对根据本申请实施例二的数据处理方法进行介绍。
本申请实施例中的数据处理方法可以基于元数据整合的依赖关系结果进行功能展现,并提供向上游、下游设定N级依赖关系查询及展现,具体的依赖关系结果展现如图2所示。
图2中,查询血缘类型即是指用户想要查询的依赖关系的分类,包括:表血缘、视图血缘、任务血缘等。
在具体实施时,用户选择想要查询的血缘类型为“表血缘”,待查询的数据是表名为“dwb_fnd_dback_all_dd”的表;查询层次为1,查询方向为下游。
经本申请实施例的数据处理方法处理后,向用户反馈与“dwb_fnd_dback_all_dd”表存在依赖关系的有以下节点:“dwd1”、“dws1”、“dws2”、“dwb1”、“dws3”、“st1”、“dws4”、“st2”、“adm1”,并提供了与这些节点相应的节点名、表名、以相应的依赖关系和表类型。
用户在相应的节点处点击右键可以选择相应的处理方式,本申请实施例中查询得到的结果均为“强依赖”,因此向用户提供“变更”及“变更通知”功能。
采用本申请实施例中的方案,能够在接收到用户输入的查询条件后,确定并向用户返回待查询数据与其他数据的依赖关系;供用户根据依赖关系下发针对待查询数据的数据处理指令,然后再触发数据仓库执行数据处理指令;从而能够根据依赖关系对数据仓库中的数据进行处理,避免了现有技术中的资源浪费,提升了数据仓库的资源使用效率,降低了数据处理的出错概率,提高了数据处理的效率和准确度。
基于同一发明构思,本申请实施例中还提供了一种数据仓库的数据处理装置,由于该装置解决问题的原理与数据处理方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图3是根据本申请实施例三的数据仓库的数据处理装置的结构框图。
如图3所示,根据本申请实施例二的数据仓库的数据处理装置20包括:查询模块202,用于接收用户输入的查询条件,查询条件包括待查询数据的关键词;依赖关系确定模块204,用于根据关键词确定待查询数据与数据仓库中其他数据的依赖关系,依赖关系是下述的一种:无依赖、强依赖、弱依赖;反馈模块206,用于向用户返回依赖关系;指令接收模块208,用于接收用户根据依赖关系下发的数据处理指令;触发模块210,用于触发数据仓库对待查询数据执行数据处理指令。
优选地,依赖关系确定模块具体包括:确定子模块,用于根据关键词确定待查询数据;依赖关系生成子模块,用于根据元数据生成待查询数据的依赖关系。
优选地,元数据包括调度元数据、SQL执行日志元数据、表结构元数据、同步中心元数据、定时任务元数据中的一个或多个。
优选地,该数据处理装置还包括:指令提供模块,用于根据依赖关系向用户提供针对待查询数据的数据处理指令。
优选地,数据处理指令是下线或变更。
在具体实施时,可以使用java、jsp或者.net等语言实现本申请实施例中的数据处理装置。
数据仓库的表或视图的下游生产任务依赖、数据消费是错综复杂的,建立起全覆盖的数据影响分析,对于数据生产管理至关重要,可以降低工作复杂度、提升开发效率、保障工作质量。通过本申请实施例中的数据处理装置,数据开发工程师可以基于该装置很直观地判断将要处理的表或视图与其他数据的依赖关系,从而很直观的确定将要执行的数据处理指令的影响范围、以及能否进行下线处理和变更。
在具体实施时,本申请实施例中的数据处理装置可以通过查询模块向用户提供依赖关系查询服务、下线、变更通知查询服务等。
在具体实施时,本申请实施例中的数据处理装置可以通过依赖关系生成子模块,对调度元数据、SQL执行日志元数据、表结构元数据、同步中心元数据、定时任务元数据等进行整合,以精准、全面分析数据之间的依赖关系,并产出接口表。
在具体实施时,本申请实施例中的数据处理装置可以基于元数据整合的依赖关系结果进行功能展现,并提供向上游、下游设定N级影响查询及展现。
在具体实施时,本申请实施例中的数据处理装置可以对下游没有依赖、使用的表或视图提供一键下线功能,还可以提供对下游没有依赖的任务进行下线,对表进行物理删除或重命名备份等功能。
在具体实施时,本申请实施例中的数据处理装置还可以对变更后的表或视图提供变更通知功能,以便于数据开发工程师可以基于依赖关系对变更后的表或视图的下游任务所有者(owner)或使用者发送变更通知邮件。
采用本申请实施例中的方案,用户输入表或名字、设定层级、选择向上游或向下游进行依赖关系查询,数据处理装置调用元数据服务查询依赖关系结果并展示出来,用户可以基于结果判定是进行下线操作还是变更通知,如果有下游或使用信息,则不能进行下线操作;如果选择下线操作,则数据处理装置触发数据仓库对表或视图进行物理删除或重命名并将对应的任务进行下线处理;如果选择变更,则填写变更描述后,触发变更,并发送变更通知,系统自动对下游任务owner、使用数据工程师发送变更邮件,内容包括变更描述、变更影响清单等。
采用本申请实施例中的方案,能够在接收到用户输入的查询条件后,确定并向用户返回待查询数据与其他数据的依赖关系;供用户根据依赖关系下发针对待查询数据的数据处理指令,然后再触发数据仓库执行数据处理指令;从而能够根据依赖关系对数据仓库中的数据进行处理,避免了现有技术中不对数据进行处理导致的资源浪费,提升了数据仓库的资源使用效率,降低了数据处理的出错概率,提高了数据处理的准确度。
为了描述的方便,以上所述装置的各部分以功能分为各种部件或单元分别描述。当然,在实施本申请时可以把各部件或单元的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种数据仓库的数据处理方法,其特征在于,包括:
接收用户输入的查询条件,所述查询条件包括待查询数据的关键词;
根据所述关键词确定所述待查询数据与所述数据仓库中其他数据的依赖关系,所述依赖关系是下述的一种:无依赖、强依赖、弱依赖;
向用户返回所述依赖关系;
接收用户根据所述依赖关系下发的数据处理指令;
触发所述数据仓库对所述待查询数据执行所述数据处理指令。
2.根据权利要求1所述的方法,其特征在于,根据所述关键词确定所述待查询数据与所述数据仓库中其他数据的依赖关系具体包括:
根据所述关键词确定所述待查询数据;
调用元数据生成所述待查询数据与所述数据仓库中其他数据的依赖关系。
3.根据权利要求2所述的方法,其特征在于,所述元数据包括调度元数据、结构化查询语言SQL执行日志元数据、表结构元数据、同步中心元数据、定时任务元数据中的一个或多个。
4.根据权利要求1所述的方法,其特征在于,在向用户返回所述依赖关系之后,在接收用户根据所述依赖关系下发的数据处理指令之前;还包括:
根据所述依赖关系向用户提供针对所述待查询数据的数据处理指令。
5.根据权利要求1所述的方法,其特征在于,所述数据处理指令是下线或变更。
6.一种数据仓库的数据处理装置,其特征在于,包括:
查询模块,用于接收用户输入的查询条件,所述查询条件包括待查询数据的关键词;
依赖关系确定模块,用于根据所述关键词确定所述待查询数据与所述数据仓库中其他数据的依赖关系,所述依赖关系是下述的一种:无依赖、强依赖、弱依赖;
反馈模块,用于向用户返回所述依赖关系;
指令接收模块,用于接收用户根据所述依赖关系下发的数据处理指令;
触发模块,用于触发所述数据仓库对所述待查询数据执行所述数据处理指令。
7.根据权利要求6所述的装置,其特征在于,所述依赖关系确定模块具体包括:
确定子模块,用于根据所述关键词确定所述待查询数据;
依赖关系生成子模块,用于根据元数据生成所述待查询数据的依赖关系。
8.根据权利要求6所述的装置,其特征在于,所述元数据包括调度元数据、SQL执行日志元数据、表结构元数据、同步中心元数据、定时任务元数据中的一个或多个。
9.根据权利要求6所述的装置,其特征在于,还包括:
指令提供模块,用于根据所述依赖关系向用户提供针对所述待查询数据的数据处理指令。
10.根据权利要求6所述的装置,其特征在于,所述数据处理指令是下线或变更。
CN201510303311.XA 2015-06-04 2015-06-04 数据仓库的数据处理方法及装置 Active CN106294478B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510303311.XA CN106294478B (zh) 2015-06-04 2015-06-04 数据仓库的数据处理方法及装置
PCT/CN2016/083591 WO2016192583A1 (zh) 2015-06-04 2016-05-27 数据仓库的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510303311.XA CN106294478B (zh) 2015-06-04 2015-06-04 数据仓库的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN106294478A true CN106294478A (zh) 2017-01-04
CN106294478B CN106294478B (zh) 2019-11-08

Family

ID=57440172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510303311.XA Active CN106294478B (zh) 2015-06-04 2015-06-04 数据仓库的数据处理方法及装置

Country Status (2)

Country Link
CN (1) CN106294478B (zh)
WO (1) WO2016192583A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391101A (zh) * 2017-04-21 2017-11-24 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN108764674A (zh) * 2018-05-16 2018-11-06 普信恒业科技发展(北京)有限公司 一种基于规则引擎的风险控制方法和装置
CN109308301A (zh) * 2018-09-28 2019-02-05 中国银行股份有限公司 测试数据的获得方法及装置
CN110019384A (zh) * 2017-08-15 2019-07-16 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置
CN110297820A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 一种数据处理方法、装置、设备和存储介质
CN111639062A (zh) * 2020-05-29 2020-09-08 京东方科技集团股份有限公司 一种数据仓库一键搭建的方法、系统及存储介质
CN111930734A (zh) * 2020-08-11 2020-11-13 中国工商银行股份有限公司 基于任务和字段的数据下线方法及系统
CN112433888A (zh) * 2020-12-02 2021-03-02 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN113486108A (zh) * 2021-07-06 2021-10-08 建信金融科技有限责任公司 一种数据处理方法、装置、电子设备及计算机可读介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110471949B (zh) * 2019-07-11 2023-02-28 创新先进技术有限公司 数据血缘分析方法、装置、系统、服务器及存储介质
CN110727677B (zh) * 2019-09-19 2022-12-30 上海数禾信息科技有限公司 数据仓库内表格的血缘关系追溯的方法和装置
CN113138973B (zh) * 2021-04-20 2022-12-16 建信金融科技有限责任公司 数据管理系统及工作方法
CN113590610B (zh) * 2021-06-29 2023-06-20 四川新网银行股份有限公司 一种基于Elastic Search的血缘关系表示方法
CN113868253B (zh) * 2021-09-28 2024-04-23 中通服创立信息科技有限责任公司 一种数据关系捕获及大数据关系树构建方法
CN115470304B (zh) * 2022-08-31 2023-08-25 北京九章云极科技有限公司 一种特征因果仓库管理方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339298A (zh) * 2010-07-28 2012-02-01 中国移动通信集团公司 Sql脚本元数据的更新方法、装置及系统
US8200613B1 (en) * 2002-07-11 2012-06-12 Oracle International Corporation Approach for performing metadata reconciliation
CN102508689A (zh) * 2011-11-08 2012-06-20 上海交通大学 高级语言程序数据流图提取中依赖关系保持数据处理系统
CN102880500A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 一种任务树的优化方法和装置
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧
US20130226879A1 (en) * 2012-02-28 2013-08-29 Qatar Foundation Detecting Inconsistent Data Records
CN103677753A (zh) * 2012-09-20 2014-03-26 艾默生零售解决方案公司 多任务控制方法、设备以及工业控制系统
CN103778133A (zh) * 2012-10-18 2014-05-07 阿里巴巴集团控股有限公司 一种数据库对象的变更方法及装置
CN103870571A (zh) * 2014-03-14 2014-06-18 华为技术有限公司 多维联机分析处理系统中的立方体重构方法和装置
CN104036034A (zh) * 2014-06-30 2014-09-10 百度在线网络技术(北京)有限公司 用于数据仓库的日志分析方法和装置
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1588369A (zh) * 2004-09-06 2005-03-02 杭州恒生电子股份有限公司 一种关系型数据库系统及其查询和报表方法
CN101685452B (zh) * 2008-09-26 2012-06-27 阿里巴巴集团控股有限公司 数据仓库调度方法及调度系统
CN101515290B (zh) * 2009-03-25 2011-08-31 中国工商银行股份有限公司 具有双向互动特征的元数据管理系统及其实现方法
CN104199978A (zh) * 2014-09-24 2014-12-10 普元信息技术股份有限公司 基于NoSQL实现元数据缓存与分析的系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200613B1 (en) * 2002-07-11 2012-06-12 Oracle International Corporation Approach for performing metadata reconciliation
CN102339298A (zh) * 2010-07-28 2012-02-01 中国移动通信集团公司 Sql脚本元数据的更新方法、装置及系统
CN102880500A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 一种任务树的优化方法和装置
CN102508689A (zh) * 2011-11-08 2012-06-20 上海交通大学 高级语言程序数据流图提取中依赖关系保持数据处理系统
CN103177075A (zh) * 2011-12-30 2013-06-26 微软公司 基于知识的实体检测和消歧
US20130226879A1 (en) * 2012-02-28 2013-08-29 Qatar Foundation Detecting Inconsistent Data Records
CN103677753A (zh) * 2012-09-20 2014-03-26 艾默生零售解决方案公司 多任务控制方法、设备以及工业控制系统
CN103778133A (zh) * 2012-10-18 2014-05-07 阿里巴巴集团控股有限公司 一种数据库对象的变更方法及装置
CN103870571A (zh) * 2014-03-14 2014-06-18 华为技术有限公司 多维联机分析处理系统中的立方体重构方法和装置
CN104036034A (zh) * 2014-06-30 2014-09-10 百度在线网络技术(北京)有限公司 用于数据仓库的日志分析方法和装置
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391101A (zh) * 2017-04-21 2017-11-24 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN110019384A (zh) * 2017-08-15 2019-07-16 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置
CN110019384B (zh) * 2017-08-15 2023-06-27 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置
CN108764674B (zh) * 2018-05-16 2021-02-09 普信恒业科技发展(北京)有限公司 一种基于规则引擎的风险控制方法和装置
CN108764674A (zh) * 2018-05-16 2018-11-06 普信恒业科技发展(北京)有限公司 一种基于规则引擎的风险控制方法和装置
CN109308301A (zh) * 2018-09-28 2019-02-05 中国银行股份有限公司 测试数据的获得方法及装置
CN110297820A (zh) * 2019-06-28 2019-10-01 京东数字科技控股有限公司 一种数据处理方法、装置、设备和存储介质
CN110297820B (zh) * 2019-06-28 2020-09-01 京东数字科技控股有限公司 一种数据处理方法、装置、设备和存储介质
CN111639062A (zh) * 2020-05-29 2020-09-08 京东方科技集团股份有限公司 一种数据仓库一键搭建的方法、系统及存储介质
CN111639062B (zh) * 2020-05-29 2023-07-28 京东方科技集团股份有限公司 一种数据仓库一键搭建的方法、系统及存储介质
CN111930734A (zh) * 2020-08-11 2020-11-13 中国工商银行股份有限公司 基于任务和字段的数据下线方法及系统
CN111930734B (zh) * 2020-08-11 2023-08-04 中国工商银行股份有限公司 基于任务和字段的数据下线方法及系统
CN112433888A (zh) * 2020-12-02 2021-03-02 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN112433888B (zh) * 2020-12-02 2023-06-30 网易(杭州)网络有限公司 数据处理方法及装置、存储介质和电子设备
CN113486108A (zh) * 2021-07-06 2021-10-08 建信金融科技有限责任公司 一种数据处理方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
WO2016192583A1 (zh) 2016-12-08
CN106294478B (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN106294478A (zh) 数据仓库的数据处理方法及装置
US10452625B2 (en) Data lineage analysis
EP2608074A2 (en) Systems and methods for merging source records in accordance with survivorship rules
US8712972B2 (en) Query optimization with awareness of limited resource usage
US9477974B2 (en) Method and systems for flexible and scalable databases
US8935218B2 (en) Multi-client generic persistence for extension nodes
US8543535B2 (en) Generation of star schemas from snowflake schemas containing a large number of dimensions
CN110990447B (zh) 一种数据探查方法、装置、设备及存储介质
CN107391142A (zh) 一种应用拆分的方法及装置
US9110935B2 (en) Generate in-memory views from universe schema
CN103810224A (zh) 信息持久化和查询方法及装置
CN106156126B (zh) 处理数据任务中的数据冲突检测方法及服务器
CN109753596B (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN107168977A (zh) 一种数据查询的优化方法及装置
CN105868956A (zh) 一种数据处理方法及装置
CN110362591B (zh) 一种报表展现方法和装置
CN113553341A (zh) 多维数据分析方法、装置、设备及计算机可读存储介质
US20200089797A1 (en) Generating test data based on data value rules of linked data nodes
CN108140022B (zh) 数据查询方法和数据库系统
CN106156040A (zh) 多维度数据管理方法及装置
CN115455091A (zh) 数据生成方法、装置、电子设备和存储介质
CN104462461B (zh) 对表单进行排查空值处理的方法及装置
CN110704481A (zh) 展示数据的方法和装置
CN109492006B (zh) 一种基于Oracle的海量数据处理方法和装置
Dvoretskyi et al. Data Utility Assessment while Optimizing the Structure and Minimizing the Volume of a Distributed Database Node.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200922

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.