CN106537350A - 用于处理数据处理系统中的数据质量异常的方法 - Google Patents

用于处理数据处理系统中的数据质量异常的方法 Download PDF

Info

Publication number
CN106537350A
CN106537350A CN201580036703.2A CN201580036703A CN106537350A CN 106537350 A CN106537350 A CN 106537350A CN 201580036703 A CN201580036703 A CN 201580036703A CN 106537350 A CN106537350 A CN 106537350A
Authority
CN
China
Prior art keywords
data
abnormal
quality
exception
description
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580036703.2A
Other languages
English (en)
Inventor
M·格拉塞尔特
A·梅尔
S·许茨
T·施瓦茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN106537350A publication Critical patent/CN106537350A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection

Abstract

本文公开了用于处理数据处理系统中的数据质量异常的方法,数据处理系统能够访问一个或多个数据源(121),数据处理系统(100)还能够访问用于提供对数据质量异常的技术修复的多个技术支持系统(123A‑N),该多个技术支持系统(123A‑N)具有一个或多个预定义的技术任务。该方法包括提供预定义的分组规则(125),用于将数据质量异常分配给异常组,并且利用一个或多个预定义的技术任务中的至少一个技术任务将每个异常组与多个技术支持系统(123A‑N)中负责提供对该异常组中的异常的技术修复的技术支持系统相关联;由数据处理系统的异常引擎(101)从一个或多个数据源中的至少第一数据源(121)接收第一数据源(121)的数据集中的至少第一数据质量异常的第一描述;利用分组规则,用于利用第一描述将第一数据质量异常分配给至少第一异常组,并且用于利用一个或多个技术任务中的第一技术任务将第一异常组与多个技术支持系统(123A‑N)中的第一技术支持系统相关联;由异常引擎(101)将第一描述的至少一部分路由到第一技术支持系统,用于提供对第一异常组中的异常的技术修复。

Description

用于处理数据处理系统中的数据质量异常的方法
技术领域
本发明涉及计算系统,并且更具体而言涉及用于处理数据质量异常的方法。
背景技术
数据处理系统中的许多数据过程依赖于它们正在使用的数据的高质量。例如,存在只有数据值符合预期格式才能成功运行的数据过程。但是,建立足够的数据质量水平是数据集成项目中的重大挑战,并且许多数据处理项目都可能无法实现其目标,因为它们不能充分解决这一方面。
发明内容
本发明的实施例的目标是提供用于处理数据质量异常的改进方法、异常引擎以及计算机程序产品。所述目标由独立权利要求的主题解决。有利的实施例在从属权利要求中描述。
在一方面,本发明涉及用于处理数据处理系统中的数据质量异常的方法,该数据处理系统能够访问一个或多个数据源,该数据处理系统还能够访问用于提供对数据质量异常的技术修复的多个技术支持系统,这多个技术支持系统具有一个或多个预定义的技术任务。该方法包括提供预定义的分组规则,用于将数据质量异常分配给异常组,并且利用一个或多个预定义的技术任务中的至少一个技术任务将每个异常组与多个技术支持系统中负责提供对该异常组中的异常的技术修复的技术支持系统相关联;由数据处理系统的异常引擎从一个或多个数据源中的至少第一数据源接收第一数据源的数据集中的至少第一数据质量异常的第一描述;利用(或应用)分组规则,用于利用第一描述将第一数据质量异常分配给至少第一异常组,并用于利用一个或多个技术任务中的第一技术任务将第一异常组与多个技术支持系统中的第一技术支持系统相关联;由异常引擎将第一描述的至少一部分路由到第一技术支持系统,用于提供对第一异常组中的异常的技术修复。
在另一方面,本发明涉及一种计算机程序产品,其包括用于执行前述权利要求中任一项所述的方法的方法步骤的计算机可执行指令。
在另一方面,本发明涉及一种用于处理数据处理系统中的数据质量异常的异常引擎,该数据处理系统能够访问一个或多个数据源,该数据处理系统还能够访问用于提供对数据质量异常的技术修复的多个技术支持系统,这多个技术支持系统具有一个或多个预定义的技术任务,其中提供预定义的分组规则,用于将数据质量异常分配给异常组,并且利用一个或多个预定义的技术任务中的至少一个技术任务将每个异常组与多个技术支持系统中负责提供对该异常组中的异常的技术修复的技术支持系统相关联。异常引擎被配置为从一个或多个数据源中的至少第一数据源接收第一数据源的数据集中的至少第一数据质量异常的第一描述;利用分组规则,用于利用第一描述将第一数据质量异常分配给至少第一异常组,并用于利用一个或多个技术任务中的第一技术任务将第一异常组与多个技术支持系统中的第一技术支持系统相关联;将第一描述的至少一部分路由到第一技术支持系统,用于提供对第一异常组中的异常的技术修复。
附图说明
在下文中,将仅仅以例子的方式参考附图更详细地描述本发明的优选实施例,其中:
图1示出了用于处理数据质量异常的示例性数据处理系统;
图2是用于处理数据质量异常的方法的流程图;以及
图3示出了用于处理数据质量异常的另一示例性数据处理系统;
图4是用于处理数据质量异常的根源的方法的流程图。
具体实施方式
在下文中,附图中相同编号的元件或者指代类似的元件或者指代执行等效功能的元件。如果功能是等效的,则先前已讨论的元件不一定在后面的图中讨论。
如上所述的数据源可以包括用于存储、处理和/或发送数据的计算机或存储服务器。
数据集可以包括数据条目、文件、表、数据的元数据、软件应用文件等当中的至少一种。
如本文所使用的,术语“数据质量异常”涵盖可能与数据集的内容和/或格式相关的数据质量错误或问题(诸如非预期的值或未指定的值)。数据质量异常可以指示例如数据集中的重复数据、数据集中软件应用的不被支持的旧版本、数据集中不正确或无效的值、数据集中缺失的值等。
技术任务可以包括给定技术支持系统可以为其提供技术修复的数据质量异常的指示。例如,技术任务可以指示具有该技术任务的技术支持系统可以提供对在位于预定义的位置的数据集中出现的和/或以预定义的时间间隔出现的数据质量异常的技术修复。在另一个例子中,技术任务可以指示具有该技术任务的技术支持系统可以提供与软件相关的数据质量异常的技术修复。
第一描述可以包括描述第一数据质量异常的第一异常属性值。第一异常属性可以包括时间、版本号、值的出现次数等。分组规则可以包括关于第一异常属性值的至少一部分的预定义的条件。分组规则可以考虑可用的技术任务,因为它还可以包括关于第一技术任务的属性值的条件。例如,第一技术任务的属性值可以包括“要由技术支持系统处理的数据的位置”,而分组规则可以包括关于该属性值的条件,诸如“位置==欧洲”。
例如,如果只有单个技术任务可以被技术支持系统支持,则异常引擎可以相应地创建异常组,使得仅可以由该技术支持系统修理的数据质量异常被选择/分组在异常组中。
第一描述的路由可以利用路由信息来执行。路由信息包括第一技术支持系统的识别地址。该识别地址可以包括IP地址、光纤通道地址或URL。
技术修复可以包括用于修理数据集中的第一数据质量异常的指令。技术修复可以由数据源和/或技术支持系统的用户应用。
如本文所使用的,异常组是指包括分配给异常组的数据质量异常中的每个数据质量异常的描述的至少一部分的计算机文件和/或数据表。
在创建异常组之后,执行将数据质量异常分配给异常组。例如,一接收到数据质量异常,就通过例如将数据质量异常的描述的至少一部分插入异常组中来将数据质量异常分配给异常组中的一个异常组,其中异常组是例如文件和/或数据表。
例如,第一数据质量异常可以影响数据集的至少一部分。例如,数据集可以包括存储在不同位置上的多个数据条目并且数据集的至少一部分可以包括存储在给定位置中(例如,欧洲)的数据条目。
所公开的方法的特征可以具有以下优点:通过将正确的数据质量异常分配给正确的技术支持系统,提供用于以有效的方式修理数据质量异常的自动方法。这可以节省数据处理系统中的资源,否则该资源将需要执行技术支持系统与异常引擎之间的迭代以便找到可以解决数据质量异常的正确的技术支持系统。这在大型数据处理系统(例如,在云系统中)的情况下是特别有利的,在该系统中存在许多数据源并且检测到的数据异常的量相对较高。
另一个优点可以是,通过提供更有价值的数据,数据处理系统的容量可以增加,从而服务于更多的用户和/或提供附加的服务。这可以克服由于数据质量异常的非最佳修理而可能导致这些处理系统中的差服务质量(QoS)。这可以维持连续的且QoS有保证的服务。
另一个优点可以是,本方法可以无缝地集成在包括异常提供者和技术支持系统的现有系统中。其可以以低软件和/或硬件负担来实现。
另一个优点在于,本方法可以通过例如避免将数据质量异常分配给错误的技术支持来加速修理或校正数据质量异常的过程。
另一个优点可以是,数据集可以被保护,因为它不被传送到技术支持系统,而是只有异常描述被发送到技术支持系统。
根据一个实施例,将第一异常组与第一技术支持系统相关联包括向数据源发送请求,以获得数据集中受第一数据质量异常影响并且对应于第一技术支持系统任务的第一数据条目的指示;接收针对该请求的响应消息,该响应指示第一数据条目。例如,响应可以指示第一数据条目的数量例如大于零。
“第一数据条目对应于第一技术任务”意味着第一技术支持系统可以提供对影响第一数据条目的第一数据质量异常的技术修复。例如,如果第一技术任务指示第一技术支持系统可以提供对位于欧洲的数据集上出现的数据质量异常的技术修复,那么,如果第一数据条目位于欧洲的话,则第一数据条目对应于第一技术支持系统。
这个实施例可以具有在异常和技术支持系统之间提供准确关联的优点。
根据一个实施例,利用第一描述来执行将第一异常群组与第一技术支持系统相关联,其中第一描述包括数据集中受第一数据质量异常影响并且对应于第一技术任务的第一数据条目的指示(例如,第一数据条目的数量)。
根据一个实施例,将第一异常组与第一技术支持系统相关联包括提供描述异常组与一个或多个技术任务之间的对应关系的映射;利用该映射和第一描述选择与第一异常组匹配的第一技术任务,其中第一技术支持系统具有第一技术任务。
映射可以包括具有多个条目的数据库表,其中这些条目中的条目指示异常组和至少一个相关联或对应的技术任务。映射可以是预定义的映射。
第一技术支持系统可以包括具有相同第一技术任务的技术支持系统当中具有最低负载的技术支持系统。在替代例中,第一技术支持系统可以从具有第一技术任务的技术支持系统的列表中随机选择。
在替代例中,第一技术支持系统的选择可以利用指示技术支持系统的功能状况的历史数据来执行。例如,异常引擎可以确定具有给定技术任务的给定技术支持系统通常修理在预定义的位置中发生或出现并且类似于异常组中的异常的数据质量异常或者提供对其的技术修复。
这个实施例会是有利的,因为它还可以优化异常组到正确的技术支持系统的分配。
根据一个实施例,该方法还包括利用(或应用)分组规则,用于利用第一描述将第一数据质量异常分配给第二异常组,以及用于利用一个或多个技术任务中的第二技术任务将第二异常组与多个技术支持系统中的第二技术支持系统相关联;向数据源发送请求,以获得数据集中受第一数据质量异常影响并对应于第二技术任务的数据条目的指示;响应于该请求而接收指示零条目的响应;阻止由异常引擎为提供对所述第二异常组中的异常的技术修复而将第一描述的至少一部分路由到第二技术支持系统。例如,第一数据质量异常可以从第二异常组中被移除。这可以阻止数据质量异常的传送并且可以因此减少流量负载。
根据一个实施例,该方法还包括,在执行路由之前,从数据处理系统的第二数据源接收第二数据源的数据集中的第二数据质量异常的第二描述;利用分组规则,用于利用第二描述将第二数据质量异常分配给第一异常组,其中路由包括由异常引擎将第一描述和第二描述的至少一部分路由到第一技术支持系统。当接收到第一数据质量异常并将其分配给第一异常组时,第一异常组已经与第一技术支持系统相关联。第一异常组至少包括第一数据质量异常和第二数据质量异常。可以执行路由,使得第一技术支持系统可以为至少第一数据质量异常和第二数据质量异常提供技术修复。
这个实施例会是有利的,因为它可以节省否则将是数据质量异常的单独处理和/或传输所需的处理资源。它可以减少数据流量。例如,不是单独地将第一数据质量异常和第二数据质量异常传送到第一技术支持系统,而是仅仅传送它们一次。
根据一个实施例,分组规则包括关于第一描述和第一技术任务的至少一部分的条件。例如,第一描述可以指示描述第一数据质量异常的第一异常属性值(例如,数据集的位置),并且条件可以包括“如果第一属性值在给定范围内,则第一数据质量异常可以被分配给第一异常组”。关于第一技术任务的条件可以是例如“第一技术任务指示第一技术支持系统可以提供对受第一数据质量异常影响并位于欧洲的数据集的技术修复”。
根据一个实施例,该方法还包括,在执行路由之前,从处理系统的第二数据源接收第二数据源的数据集中的至少第二数据质量异常的第二描述,其中第一描述和第二描述分别指示描述第一数据质量异常和第二数据质量异常的第一异常属性值和第二异常属性值;利用分组规则,用于利用第二描述将第二数据质量异常分配给第一异常组;评估第一异常属性值和第二异常属性值并从其确定与第一异常属性和第二异常属性相关的依赖性异常属性;确定与依赖性异常属性相关联的根源数据质量异常;利用第一描述和第二描述来提供对根源数据质量异常的描述,其中路由包括由异常引擎将该描述的至少一部分路由到第一技术支持系统,用于提供对根源数据质量异常的技术修复,由此提供对第一数据质量异常和第二数据质量异常的技术修复。
通过对根源数据质量异常提供技术修复,在第一异常组中的异常可以通过为根源数据质量异常提供的技术修复来校正的意义上,技术修复被提供给第一异常组中的异常。
例如,在第一数据质量异常和第二数据质量异常分别关于第一应用和第二应用的旧的不被支持版本的情况下,根源数据质量异常可以是在第一应用和第二应用在其上运行的数据源中使用的操作系统OS的版本。在这种情况下,OS版本的版本校正或修理将修理第一数据质量异常和第二数据质量异常。
这个实施例可以具有通过限制被发送到技术支持系统的数据来进一步减少数据处理系统中的流量负载的优点。
另一个优点可以是减少数据处理系统中可能由具有相同原因的若干数据质量异常的处理引起的处理负载。这可以帮助避免使技术支持系统过载,例如,因为它可以避免为技术支持系统创建数百万的数据质量问题任务。
另一个优点可以是避免具有相同根源数据质量异常的未来数据质量异常。
根据一个实施例,该方法还包括确定第一异常组中的异常的数量高于数据质量异常的预定的最大数量。
根据一个实施例,该方法还包括配置数据源以预定义的格式提供第一描述,以便利用预定义的格式的第一描述来执行第一数据质量异常到第一异常组的分配。
例如,预定义的格式可以包括第一描述的内容和/或第一描述的内容以其被编码的格式,例如分类可以仅对编码为“x-y.z”的版本号工作或适用,或者对编码为具有4位小数的“x.yyyy”的浮点数工作或适用。而且,第一描述可以包含受第一数据质量异常影响的数据条目的数量以及一个或多个技术任务当中它们的相关联的技术任务。例如,第一描述可以指示数据集中受第一数据质量异常影响的N个数据条目及其对应的技术任务,该技术任务指示技术支持系统可以解决针对这N个数据条目的第一数据质量异常,例如,因为技术支持系统负责解决在存储这N个数据条目的给定位置中的异常。第一描述还可以指示数据集的M个数据条目及其对应的技术任务,该技术任务指示技术支持系统可以解决针对该M个数据条目的第一数据质量异常,例如,因为技术支持系统负责解决与数据格式相关的异常(在这里,第一数据质量异常可能涉及N个数据条目和M个数据条目的数据格式)。
根据一个实施例,第一描述包括以下中的至少一个:数据集的指示;第一数据源中第一数据质量异常出现的时间;数据集中受第一数据质量异常影响的数据的量;用来检测(或识别)第一数据质量异常的异常检测算法;数据集的数据类型;第一数据质量异常的技术描述;数据集中的最后修改时间的指示。
根据一个实施例,该方法还包括确定数据集中受第一数据质量异常影响的数据条目的数量;确定数据条目的该数量高于预定的最大条目数量;将第一异常组拆分成至少两个异常子组;以及利用第一技术任务将这至少两个异常子组与至少第一技术支持系统相关联;生成针对所述至少两个异常子组中的每一个的描述;将该描述路由到至少第一技术支持系统,用于提供对该至少两个异常子组的技术修复。
例如,该至少两个异常子组可以与第一技术支持系统和第二技术支持系统相关联,使得它们可以并行地被执行(即,提供技术修复)。
这个实施例可以具有控制技术支持系统上的负载的优点。
根据一个实施例,该方法还包括以预定义的时间间隔定期地重复路由。例如,在该时间间隔期间,异常引擎可以接收可被分配给多个异常组的多个数据质量异常。
根据一个实施例,第一数据源和第一技术支持系统当中的每一个包括数据处理系统的网络的端主机系统。数据源和技术支持系统可以属于数据处理系统,或者数据处理系统可以例如经由网络提供对源系统和技术支持系统的访问。
术语“端主机”是指通常不被认为是数据处理系统的网络中的中间节点的计算机。例如,端主机可以是客户机、服务器和/或存储设备。
图1绘出了用于数据质量异常处理的数据处理系统100的示例性体系架构。例如,数据处理系统100可以是包括IBM DB2数据库系统的的zEnterprise系统的一部分。
数据处理系统100提供异常引擎101。异常引擎101可以是计算机系统。异常引擎101的部件可以包括但不限于一个或多个处理器或处理单元103、存储系统111、存储器系统105,以及将包括存储器系统105在内的各种系统部件耦合到处理器103的总线107。存储器系统105可以包括形式为易失性存储器(诸如随机存取存储器(RAM)和/或高速缓存存储器)的计算机系统可读介质。
异常引擎101通常包括各种计算机系统可读介质。此类介质可以是可由计算机设备101访问的任何可用介质,并且它既包括易失性介质又包括非易失性介质、既包括可移除介质又包括不可移除介质。
异常引擎101还可以与一个或多个外部设备通信,诸如键盘、定点设备、显示器等;使得用户能够与异常引擎101交互的一个或多个设备;和/或使得异常引擎101能够与一个或多个其它计算设备通信的任何设备(例如,网卡、调制解调器等)。这种通信可以经由I/O接口119发生。还有,异常引擎101可以经由网络适配器109与一个或多个网络通信,诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)。如所绘出的,网络适配器109经由总线107与计算机设备101的其它部件通信。
存储器系统105被配置为存储可在处理器103上执行的多个应用。例如,存储器系统105可以包括操作系统以及应用程序。
异常引擎101可以连接到数据源121。到数据源121的连接可以经由有线连接或经由网络113,网络113可以是诸如互联网的公共网络、诸如广域网(WAN)的专用网络,或者其组合。
数据源121可以包括用于存储数据集和/或处理数据集的存储系统。数据源121可被配置用于识别或检测存储在数据源121中的数据集中的数据质量异常并且自动向异常引擎报告数据质量异常。
异常引擎101可以连接到技术支持系统123A-N。到技术支持系统123A-N的连接可以经由有线连接或经由网络115,网络115可以是诸如互联网的公共网络、诸如广域网(WAN)的专用网络,或者其组合。
技术支持系统123A-N可以包括处理设备,该处理设备被配置为从异常引擎101接收数据质量异常并且提供对接收到的数据质量异常的技术修复。技术支持系统123A-N具有一个或多个技术任务。例如,技术支持系统123A可以具有以下技术任务:为位于预定义的位置(例如,内华达州)的数据源121的数据集中发生或出现的数据质量异常提供技术修复。
存储器系统105可被配置为存储分组规则125,用于将数据质量异常分配给异常组并且利用至少一个技术任务将每个异常组与多个技术支持系统123A-N中负责提供对该异常组中的异常的技术修复的技术支持系统相关联。例如,分组规则125可以包括布尔表达式,该表达式包括一个或多个布尔条件。
存储器系统105可被配置为存储当在处理器103上执行时可以执行本文所述方法的至少一部分的指令。
将参考图2和图3详细描述数据处理系统100的操作。
图2是用于处理数据处理系统100中的数据质量异常的方法的流程图。
在步骤201中,异常引擎101可以从数据源121接收数据源的数据集中的至少第一数据质量异常的第一描述。例如,第一描述可以包括以下中的至少一个:数据集的指示,诸如指示数据源121中数据集的位置的ID;数据源121中第一数据质量异常出现的时间;以及数据集中受第一数据质量异常影响的数据的量。第一描述还可以包括异常检测算法,该算法由数据源121用来检测或识别第一数据质量异常。例如,在第一数据质量异常指示数据集中的重复异常的情况下,第一描述可以提供已被数据源121用来识别数据质量异常的阈值和条件。阈值可以是数据集中被允许的重复的最大数量,而条件可以是“>”运算符的使用。
第一描述可以指示描述第一数据质量异常的异常属性值。例如,诸如“重复(duplicate)”(“无效(invalid)”和/或“缺失(missing)”)的属性可以具有值1,以指示在数据集中存在重复(无效值或缺失值)异常。
第一描述可以作为计算机文件和/或数据表被接收。
在步骤203中,异常引擎101可以使用分组规则(或者对第一描述的至少一部分应用分组规则,例如,像'if“duplicate”==1'的条件),用于利用第一描述将第一数据质量异常分配给至少第一异常组,以及用于利用一个或多个技术任务中的第一技术任务将第一异常组与多个技术支持系统123A-N中的第一技术支持系统相关联。关联可以考虑技术支持系统123A-N中的一个或多个技术任务来执行,使得第一异常组的描述可以被路由到技术支持系统123A-N中的用于提供对第一异常组中的异常的技术修复的一个技术支持系统。
例如,技术支持系统123A可以具有为数据集中的与软件相关的异常提供技术修复的技术任务,而技术支持系统123B和123C可以具有为与数据集的内容相关的数据质量异常提供技术修复的技术任务,并且技术支持系统123D-G可以具有为在预定位置中出现的数据质量异常(例如,在欧洲发生的数据质量异常)提供技术修复的技术任务。在第一数据质量异常与在德国存储的数据集的尺寸有关的情况下(例如数据集尺寸太大),异常引擎101可以将第一数据质量异常分配给包括依赖于位置的数据质量异常类别的异常组,因为该异常与软件或数据集的内容无关。在这种情况下,技术支持系统123D-G中所选择的一个或多个技术支持系统可以提供对第一异常组(即,第一数据质量异常)的技术修复。技术支持系统123D-G中的技术支持系统123D可以是随机选择的,或者可以作为与其它技术支持系统123E-G相比具有最低负载的技术支持系统被选择。
在步骤205中,异常引擎101可以将第一描述的至少一部分路由到技术支持系统(例如所选的123D),以提供对第一异常组中的异常的技术修复,即,用于提供对至少第一数据质量异常的技术修复。
例如,为了确定所选的技术支持系统123D是否具有第一技术任务,异常引擎101可以向数据源121发送请求(例如,可以包括关于数据集的位置的SQL WHERE条件的SQL语句),用于获得数据集中受第一数据质量异常影响并且对应于第一技术任务的第一数据条目的指示。例如,受第一数据质量异常影响的数据集可以被拆分存储在多个位置(例如国家)上,并且第一数据条目可以位于或存储在对应于第一技术任务的给定位置(例如欧洲),例如因为第一技术任务给予第一技术支持系统对受第一数据质量异常影响并且存储在欧洲的数据条目提供技术修复的能力。换句话说,第一个技术任务指示第一技术支持系统可以为在欧洲存储的数据上出现的异常提供技术修复。
响应于该请求,异常引擎101可以接收指示第一数据条目的响应消息,其中第一技术支持系统可以访问第一数据条目。例如,如果消息指示第一数据条目的数量大于0,则第一技术支持系统可以提供对第一数据质量异常的技术修复,并且因此可以执行路由。
在替代例中,第一异常组与第一技术支持系统的关联是利用第一描述来执行的,其中第一描述可以包括数据集中受第一数据质量异常影响并对应于第一技术任务的第一数据条目的数量的指示。例如,第一描述可以指示数据集包括存储在欧洲的N个数据条目和存储在非洲的M个数据条目。根据关于条目数量的该信息,可以执行第一异常组与第一技术支持系统的关联,从而例如能够为存储在欧洲的数据提供技术修复。
本方法的实现可以基于如图4中所示的若干部件的交互。图4示出了具有图1的数据处理系统100的详细结构的数据处理系统400。
数据处理系统400包括数据源421(例如,如121),其包括异常提供者和数据库431。例如,有许多创建或识别异常的应用,在InfoSphere信息分析器(InfoSphere InformationAnalyzer)411中,不能根据数据质量规则验证的数据记录被认为是异常。在InfoSphereMDM服务器(InfoSphere MDM Server)413中,无效地址信息或重复条目是异常的例子。如果这些应用中每一个通过服务接口或通知机制提供汇总识别出的异常的异常描述符(ED),则这些应用中每一个都可以是异常提供者。ED(例如,第一描述)可以包含描述异常的上下文的属性(例如,数据源、时间等)并且可以或者包含适当的特有密钥的副本或者仅仅用标识符表示数据记录。除数据记录之外,异常也可以涉及其它工件,例如,数据映射、规则、ETL流等。
数据处理系统400包括异常管理器401(例如101)。异常管理器401可以例如负责将其从数据源421的异常提供者接收到的异常进行分组,使得它们适合由数据支持补救任务列表表示的技术支持系统423的组织,该列表可以指示技术支持系统423的技术任务。异常管理器401还可以负责将这些异常组(EG)路由到对应的目标环境或包含补救任务列表的技术支持系统423,以供进一步处理。所需的分组和路由可以用补救规则来定义。补救规则(RR)可以由三部分组成。
路由利用在处理引擎中执行的数据过程来执行。异常管理器401还可以观察异常组状态并发出指示完全解析的异常组和异常描述符的事件。这在需要对经校正的数据进一步处理(例如运行ETL作业以便将经校正的数据上传到目标系统中)的情况下是重要的。
异常管理器401可以可选地包括根源原因分析器403部件和看门人(Gate Keeper)部件405。根源原因分析器403是可以检测异常的根源原因以避免将大量异常分发给技术支持系统423进行进一步处理的可选部件。如果检测到根源原因,则仅根源原因而不是原始异常被发送到技术支持系统423。
看门人405是如下可选部件:它可以验证EG中的异常数量不超过关于各种异常特点的阈值,例如,EG中的异常数量、单个ED中的异常数量、单个数据源中的异常数量。如果其中一个阈值被超过,则看门人405可以阻止EG处理并创建适当的异常。
多个技术支持系统形成处理异常组所需的组织结构。例如,如果技术支持系统423按地理区域组织,则每个补救任务列表将提供表示要进行处理的特定区域的异常的EG。补救任务列表可以由系统部件访问并且在补救数据库409中维护EG补救状况。
如果补救任务列表的EG被处理,则技术支持系统423可以使用多个补救工具425来修理异常,依赖于异常类型,这种修理例如可以通过利用各种补救工具(例如,关系数据编辑器、InfoSphere Fast Track、参考数据管理中心、主数据补救工具……)对数据记录、规则、数据映射、模式映射、ETL作业……进行校正来实现。
数据处理系统400还包括补救监视器407,其可以允许创建和存储现有EG以及EG补救状态的报告。
数据处理系统400还包括补救DB 409,该补救DB 409可以提供持久性模型和接口以创建、更新和检索异常、ED、EG、补救规则和补救状况信息。
补救规则(即,上面定义的分组规则)可以利用补救规则编辑器编辑并被存储在补救数据库409中。补救规则编辑器可以包括允许定义至少以下补救规则部分的图形用户界面(GUI):
ED分组条件:指定定义EG的ED属性值(例如,第一描述的ED属性值)。EG可以例如仅包含表示特定数据源的异常的ED。例如,只有由指定的应用在指定的数据资源中发现的异常将是由这些规则创建的异常组实例的成员。
EG路由信息:这或者是要在处理引擎上执行的数据过程定义或者是到已经安装在处理引擎中的补救过程427的链接。如果该过程需要用于路由EG的附加属性(例如区域名称或异常种类),则这些属性也在路由信息中定义。
异常过滤器条件:这是数据记录级过滤器。例如,可以指定SQL WHERE条件以便仅选择特定地理区域的数据记录(即,关于第一技术任务的条件,其中第一技术任务与包含技术支持系统可以为其提供技术修复的数据的位置相关)。
此外,可以在补救规则中指定拆分阈值,以限制EG内的数据记录(或其它问题)的数量。拆分阈值仅适用于ED直接包含完整的问题信息(例如数据记录的唯一键(uniquekey))的情况。如果EG中的异常的数量将超过拆分阈值,则由相同的补救规则创建多个EG,其中每个EG仅具有由拆分阈值定义的有限数量的异常。
在步骤501中从异常提供者接收到ED之后,异常管理器401可以执行图5中列出的剩余步骤。首先,如果可用,则在步骤503中执行自动的根源原因分析,以确保异常不是由于将需要不同补救策略的更高级别问题而创建的。例如,一个不正确的字段映射可能导致许多不正确的数据值,但是应当校正映射问题,而不是校正每个数据值。基于接收到的ED,根源原因分析器403检测根源原因并在步骤505中返回适当的ED。它返回或者作为输入提供的完全相同的ED集合或者表示新检测到的根源原因的新的ED集合。异常管理器401继续处理由根源原因分析器403返回的ED。在下一步骤507中,异常管理器401对ED应用补救规则,以便创建异常组。在规则中定义的ED分组条件以及ED属性被用来选择哪个ED属于EG。通过利用所有没有唯一键的ED都表示非空的数据记录集的过滤器条件调用异常提供者,来确保这一点。除了ED引用之外,EG还包含在补救规则和异常过滤器中定义或链接的数据过程所需的路由信息。为每个补救规则创建EG。但是,如果ED直接包含数据记录唯一键,则分组条件中的拆分阈值可被用来基于相同补救规则来创建包含有限数量唯一键的多个EG。所创建的EG存储在补救数据库409中。如果看门人405部件被激活,则在下一步骤509中它被调用,以确保用每个EG表示的异常的数量可以由下游部件管理。看门人405在步骤511中返回被允许的EG并且为不能被处理的EG创建新的异常。存在用于补救此类异常的适当的补救规则和数据过程。在最后的步骤513中,异常管理器将EG发送到目标环境或技术支持系统423。它启动在补救规则和路由信息中定义或链接的数据过程,并将EG传递到过程实例。
如本文所使用的,“计算机可读存储介质”涵盖可以存储可由计算设备的处理器执行的指令的任何有形存储介质。计算机可读存储介质可以被称为计算机可读非临时性存储介质。计算机可读存储介质还可以被称为有形的计算机可读介质。在一些实施例中,计算机可读存储介质还可以能够存储能够由计算设备的处理器访问的数据。计算机可读存储介质的例子包括但不限于:软盘、磁性硬盘驱动器、固态硬盘、闪存存储器、USB拇指驱动器、随机存取存储器(RAM)、只读存储器(ROM)、光盘、磁光盘以及处理器的寄存器文件。光盘的例子包括压缩盘(CD)和数字通用盘(DVD),例如CD-ROM、CD-RW、CD-R、DVD-ROM、DVD-RW或DVD-R盘。术语“计算机可读存储介质”还指能够由计算机设备经由网络或通信链路访问的各种类型的记录介质。例如,数据可以经调制解调器、经互联网或者经局域网来检索。体现在计算机可读介质上的计算机可执行代码可以利用任何适当的介质被发送,这些介质包括但不限于无线、有线、光纤电缆、RF等,或者上述的任意合适组合。
计算机可读信号介质可以包括其中体现计算机可执行代码的例如在基带中或作为载波的一部分的传播数据信号。这种传播信号可以采取各种形式中的任何形式,包括但不限于电磁、光或者其任意合适的组合。计算机可读信号介质可以是非计算机可读存储介质并且可以传送、传播或传输由指令执行系统、装置或设备使用或与其结合使用的程序的任何计算机可读介质。
“计算机存储器”或“存储器”是计算机可读存储介质的例子。计算机存储器是处理器可直接访问的任何存储器。“计算机储存器”或“储存器”是计算机可读存储介质的另一个例子。计算机储存器是任何非易失性计算机可读存储介质。在一些实施例中,计算机储存器也可以是计算机存储器,反之亦然。
如本文所使用的,“处理器”涵盖能够执行程序或机器可执行指令或计算机可执行代码的电子部件。对包括“处理器”的计算设备的引用应当被解释为有可能包含多于一个处理器或处理核。处理器可以例如是多核处理器。处理器还可以指单个计算机系统内或分布在多个计算机系统中的处理器的集合。术语计算设备还应当被解释为有可能指各自包括一个或多个处理器的计算设备的集合或网络。计算机可执行代码可以由可在同一计算设备内或甚至可以跨多个计算设备分布的多个处理器执行。
计算机可执行代码可以包括使处理器执行本发明的一方面的机器可执行指令或程序。用于实施针对本发明的各方面的操作的计算机可执行代码可以以一种或多种程序设计语言的任意组合来编写并被编译成机器可执行指令,所述程序设计语言包括诸如Java、Smalltalk、C++等面向对象的程序设计语言以及诸如“C”程序设计语言或类似程序设计语言的常规过程程序设计语言。在一些情况下,计算机可执行代码可以是高级语言的形式或预编译形式,并且可以与解释器结合使用,该解释器在运行中生成机器可执行指令。
计算机可执行代码可以完全在用户的计算机上执行、部分地在用户的计算机上执行、作为独立的软件包执行、部分在用户计算机上且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以(例如,使用互联网服务提供商通过互联网)进行到外部计算机的连接。
参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图,描述了本发明的各方面。应当理解,流程图、图示和/或框图的每个方框或方框的一部分可以在适用时以计算机可执行代码的形式由计算机程序指令实现。处理资源的量可以指示包括在计算机系统中的诸如CPU、存储器和N/W带宽之类的每个物理部件的使用程度及其货币成本。还应当理解,当不相互排斥时,不同流程图、图示和/或框图中的方框的组合可以被组合。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个方框中指定的功能/动作的装置(means)。
这些计算机程序指令还可以存储在计算机可读介质中,其可以指导计算机、其它可编程数据处理装置或其它设备以特定方式工作,使得存储在计算机可读介质中的指令产生包括实现在流程图和/或框图的一个或多个方框中指定的功能/动作的指令的制造品。
计算机程序指令还可以被加载到计算机、其它可编程数据处理装置或其它设备上,以使得一系列操作步骤在计算机、其它可编程装置或其它设备上执行,以产生计算机实现的过程,使得在计算机或其它可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个方框中指定的功能/动作的过程。
如本领域技术人员将认识到的,本发明的各方面可以被体现为装置、方法或计算机程序产品。因而,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者组合软件和硬件方面的实施例的形式,这些实施例可以在本文中全部被统称为“电路”、“模块”或“系统”。此外,本发明的各方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质具有体现于其上的计算机可执行代码。
应当理解,前面提到的实施例中的一个或多个可以被组合,只要组合的实施例不相互排斥即可。
标号列表
100 数据处理系统
101 异常引擎
103 处理器
105 内存
107 总线
109 网络适配器
111 储存器
113 连接
115 连接
119 I/O接口
121 数据源
123A-N 技术支持系统
125 分组规则
400 数据处理系统
401 异常管理器
403 根源原因分析器
405 看门人
407 补救监视器
409 补救数据库
411 信息分析器
413 MDM服务器
421 数据源
423 技术支持系统
425 补救工具
427 补救过程
431 数据库

Claims (13)

1.一种用于处理数据处理系统(100)中的数据质量异常的方法,数据处理系统(100)能够访问一个或多个数据源(121),数据处理系统(100)还能够访问用于提供对数据质量异常的技术修复的多个技术支持系统(123A-N),多个技术支持系统(123A-N)具有一个或多个预定义的技术任务,该方法包括:
-提供预定义的分组规则(125),用于将数据质量异常分配给异常组,并且利用所述一个或多个预定义的技术任务中的至少一个技术任务将每个异常组与所述多个技术支持系统中提供对该异常组中的异常的技术修复的技术支持系统相关联;
-由数据处理系统(100)的异常引擎(101)从一个或多个数据源的至少第一数据源(121)接收第一数据源(121)的数据集中的至少第一数据质量异常的第一描述;
-利用分组规则,用于利用第一描述将第一数据质量异常分配给至少第一异常组,并且用于利用一个或多个技术任务中的第一技术任务将第一异常组与多个技术支持系统中的第一技术支持系统相关联;
-由异常引擎(101)将第一描述的至少一部分路由到第一技术支持系统,用于提供对第一异常组中的异常的技术修复。
2.如权利要求1所述的方法,其中将第一异常组与第一技术支持系统相关联包括:
-向数据源发送请求,用于获得数据集中受第一数据质量异常影响并且对应于第一技术任务的第一数据条目的指示;
-接收对该请求的响应消息,该响应指示第一数据条目。
3.如权利要求1或2所述的方法,其中将第一异常组与第一技术支持系统相关联是利用第一描述来执行的,其中第一描述包括数据集中受第一数据质量异常影响并且对应于第一技术任务的第一数据条目的指示。
4.如权利要求2所述的方法,还包括:
-利用分组规则,用于利用第一描述将第一数据质量异常分配给第二异常组,并且用于利用一个或多个技术任务中的第二技术任务将第二异常组与多个技术支持系统中的第二技术支持系统相关联;
-向数据源发送请求,用于获得数据集中受第一数据质量异常影响并且对应于第二技术任务的数据条目的指示;
-响应于该请求,接收指示零条目的响应;
-阻止由异常引擎为提供对第二异常组中的异常的技术修复而将第一描述的至少一部分路由到第二技术支持系统。
5.如前面任何一项权利要求所述的方法,还包括在路由之前:
-从数据处理系统的第二数据源接收第二数据源的数据集中的第二数据质量异常的第二描述,
-利用分组规则,用于利用第二描述将第二数据质量异常分配给第一异常组,其中路由包括由异常引擎将第一描述和第二描述的至少一部分路由到第一技术支持系统。
6.如前面任何一项权利要求所述的方法,其中分组规则包括关于第一描述和第一技术任务的至少一部分的条件。
7.如前面任何一项权利要求所述的方法,其中第一描述包括以下中的至少一个:
-数据集的指示;
-第一数据源中第一数据质量异常出现的时间;
-数据集中受第一数据质量异常影响的数据的量;
-被用来检测第一数据质量异常的异常检测算法;
-数据集的数据类型;
-第一数据质量异常的技术描述;
-数据集中的最后修改时间的指示。
8.如前面任何一项权利要求所述的方法,还包括在路由之前:
-从处理系统的第二数据源接收第二数据源的数据集中的至少第二数据质量异常的第二描述,其中第一描述和第二描述分别指示描述第一数据质量异常和第二数据质量异常的第一异常属性值和第二异常属性值,
-利用分组规则,用于利用第二描述将第二数据质量异常分配给第一异常组;
-评估第一异常属性值和第二异常属性值并从其确定与第一异常属性和第二异常属性相关的依赖性异常属性;
-确定与依赖性异常属性相关联的根源数据质量异常;
-利用第一描述和第二描述来提供对根源数据质量异常的描述,其中路由包括由异常引擎将该描述的至少一部分路由到第一技术支持系统,用于提供对根源数据质量异常的技术修复,由此提供对第一数据质量异常和第二数据质量异常的技术修复。
9.如前面任何一项权利要求所述的方法,还包括:
-确定数据集中受第一数据质量异常影响的第一数据条目的数量;
-确定第一数据条目的数量高于预定的最大条目数量;
-将第一异常组拆分成至少两个异常子组;以及利用第一技术任务将所述至少两个异常子组与至少第一技术支持系统相关联;
-生成用于所述至少两个异常子组中的每一个异常子组的描述;
-将该描述路由到至少第一技术支持系统,用于提供对所述至少两个异常子组的技术修复。
10.如前面任何一项权利要求所述的方法,其中路由以预定义的时间间隔重复。
11.如前面任何一项权利要求所述的方法,其中第一数据源和第一技术支持系统当中每一个包括数据处理系统的网络的端主机系统。
12.一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令用于执行如前面任何一项权利要求所述的方法的方法步骤。
13.一种用于处理数据处理系统中的数据质量异常的异常引擎,该数据处理系统能够访问一个或多个数据源,该数据处理系统还能够访问用于提供数据质量异常的技术修复的多个技术支持系统,所述多个技术支持系统具有一个或多个预定义的技术任务,其中提供预定义的分组规则,用于将数据质量异常分配给异常组以及利用所述一个或多个预定义的技术任务中的至少一个技术任务将每个异常组与多个技术支持系统中负责对该异常组中的异常提供技术修复的技术支持系统相关联,异常引擎被配置为:
-从所述一个或多个数据源中的至少第一数据源(121)接收第一数据源(121)的数据集中的至少第一数据质量异常的第一描述;
-利用分组规则,用于利用第一描述将第一数据质量异常分配给至少第一异常组,并且用于利用所述一个或多个技术任务中的第一技术任务将第一异常组与多个技术支持系统中的第一技术支持系统相关联;
-将第一描述的至少一部分路由到第一技术支持系统,用于提供对第一异常组中的异常的技术修复。
CN201580036703.2A 2014-07-08 2015-07-07 用于处理数据处理系统中的数据质量异常的方法 Pending CN106537350A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB1412121.4A GB2528066A (en) 2014-07-08 2014-07-08 A method for processing data quality exceptions in a data processing system
GB1412121.4 2014-07-08
PCT/IB2015/055128 WO2016005898A1 (en) 2014-07-08 2015-07-07 Method for processing data quality exceptions in data processing system

Publications (1)

Publication Number Publication Date
CN106537350A true CN106537350A (zh) 2017-03-22

Family

ID=51410790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580036703.2A Pending CN106537350A (zh) 2014-07-08 2015-07-07 用于处理数据处理系统中的数据质量异常的方法

Country Status (5)

Country Link
US (1) US9697066B2 (zh)
JP (1) JP6534402B2 (zh)
CN (1) CN106537350A (zh)
GB (1) GB2528066A (zh)
WO (1) WO2016005898A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828883A (zh) * 2017-11-23 2019-05-31 腾讯科技(北京)有限公司 任务数据处理方法和装置、存储介质及电子装置
CN110109768A (zh) * 2019-03-29 2019-08-09 阿里巴巴集团控股有限公司 一种数据质量巡检方法及装置
CN111459646A (zh) * 2020-05-09 2020-07-28 南京大学 基于管道模型与任务合并的大数据质量管理任务调度方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2528066A (en) 2014-07-08 2016-01-13 Ibm A method for processing data quality exceptions in a data processing system
US20160019534A1 (en) * 2014-07-16 2016-01-21 Mastercard International Incorporated Systems and Methods for Monitoring Performance of Payment Networks Through Distributed Computing
CN107688504A (zh) * 2016-08-05 2018-02-13 中兴通讯股份有限公司 数据管理异常的补救方法及系统
US11106643B1 (en) * 2017-08-02 2021-08-31 Synchrony Bank System and method for integrating systems to implement data quality processing
CN110597649B (zh) * 2019-09-06 2023-06-27 创新先进技术有限公司 一种数据处理方法、系统及装置
CN113760945A (zh) * 2020-08-11 2021-12-07 北京沃东天骏信息技术有限公司 一种审核sql语句的方法及装置
CN112486767B (zh) * 2020-11-25 2022-10-18 中移(杭州)信息技术有限公司 云资源的智能监控方法、系统、服务器以及存储介质
US11789967B2 (en) 2021-05-07 2023-10-17 Bank Of America Corporation Recovering from data processing errors by data error detection and correction
US11734238B2 (en) 2021-05-07 2023-08-22 Bank Of America Corporation Correcting data errors for data processing fault recovery
CN114190916B (zh) * 2021-12-07 2023-05-23 河南省儿童医院郑州儿童医院 一种基于织物传感器的儿童呼吸监控方法及系统
CN116401090B (zh) * 2023-04-23 2024-01-30 中航信移动科技有限公司 一种基于数据更新的异常数据源确定方法
CN116383083B (zh) * 2023-04-23 2024-01-12 中航信移动科技有限公司 基于多接口连接的异常数据源确定方法及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021822A1 (en) * 2006-07-18 2008-01-24 Jpmorgan Chase Bank, N.A. Method and system for receivables management
CN103632219A (zh) * 2012-08-21 2014-03-12 国际商业机器公司 用于重新分配用于检查数据质量的作业的方法和系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7116759B2 (en) 2003-06-30 2006-10-03 Bellsouth Intellectual Property Corporation Method, system and computer program product for facilitating the analysis of automatic line insulation testing data
US7844641B1 (en) 2005-03-18 2010-11-30 Beyondcore Inc. Quality management in a data-processing environment
US7849062B1 (en) 2005-03-18 2010-12-07 Beyondcore, Inc. Identifying and using critical fields in quality management
JP2006344012A (ja) * 2005-06-09 2006-12-21 Toshiba Corp データ入力システム、データ入力プログラム
US20070179833A1 (en) 2006-01-31 2007-08-02 Infosys Technologies Ltd. Assisted business process exception management
US7251578B1 (en) 2006-03-10 2007-07-31 Yahoo! Inc. Method and system of measuring data quality
US8458148B2 (en) 2009-09-22 2013-06-04 Oracle International Corporation Data governance manager for master data management hubs
US20120159133A1 (en) 2010-12-17 2012-06-21 Microsoft Corporation Business exception management pattern for business processes
US8688625B1 (en) 2010-12-31 2014-04-01 United Services Automobile Association (Usaa) Extract, transform, and load application complexity management framework
US10013439B2 (en) 2011-06-27 2018-07-03 International Business Machines Corporation Automatic generation of instantiation rules to determine quality of data migration
US8666919B2 (en) 2011-07-29 2014-03-04 Accenture Global Services Limited Data quality management for profiling, linking, cleansing and migrating data
US9354968B2 (en) * 2011-09-30 2016-05-31 Johnson Controls Technology Company Systems and methods for data quality control and cleansing
US8577833B2 (en) 2012-01-04 2013-11-05 International Business Machines Corporation Automated data analysis and transformation
CN102629223B (zh) 2012-02-28 2015-04-01 北京搜狐新媒体信息技术有限公司 一种数据修复方法及装置
GB2502768A (en) * 2012-04-12 2013-12-11 Qatar Foundation Correcting database errors
US8751438B2 (en) 2012-04-13 2014-06-10 Verizon Patent And Licensing Inc. Data extraction, transformation, and loading
US9092749B2 (en) 2012-04-13 2015-07-28 International Business Machines Corporation Information governance crowd sourcing
US9454561B2 (en) 2012-06-15 2016-09-27 Telefonaktiebolaget Lm Ericsson (Publ) Method and a consistency checker for finding data inconsistencies in a data repository
US9195725B2 (en) * 2012-07-23 2015-11-24 International Business Machines Corporation Resolving database integration conflicts using data provenance
US9576036B2 (en) 2013-03-15 2017-02-21 International Business Machines Corporation Self-analyzing data processing job to determine data quality issues
CN103226499B (zh) * 2013-04-22 2016-02-24 华为技术有限公司 一种恢复内部存储器中的异常数据的方法及装置
GB2528066A (en) 2014-07-08 2016-01-13 Ibm A method for processing data quality exceptions in a data processing system
GB201417129D0 (en) 2014-09-29 2014-11-12 Ibm A method of processing data errors for a data processing system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080021822A1 (en) * 2006-07-18 2008-01-24 Jpmorgan Chase Bank, N.A. Method and system for receivables management
CN103632219A (zh) * 2012-08-21 2014-03-12 国际商业机器公司 用于重新分配用于检查数据质量的作业的方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109828883A (zh) * 2017-11-23 2019-05-31 腾讯科技(北京)有限公司 任务数据处理方法和装置、存储介质及电子装置
CN109828883B (zh) * 2017-11-23 2023-03-17 腾讯科技(北京)有限公司 任务数据处理方法和装置、存储介质及电子装置
CN110109768A (zh) * 2019-03-29 2019-08-09 阿里巴巴集团控股有限公司 一种数据质量巡检方法及装置
CN110109768B (zh) * 2019-03-29 2023-02-17 创新先进技术有限公司 一种数据质量巡检方法及装置
CN111459646A (zh) * 2020-05-09 2020-07-28 南京大学 基于管道模型与任务合并的大数据质量管理任务调度方法
CN111459646B (zh) * 2020-05-09 2023-03-21 南京大学 基于管道模型与任务合并的大数据质量管理任务调度方法

Also Published As

Publication number Publication date
US9697066B2 (en) 2017-07-04
JP6534402B2 (ja) 2019-06-26
JP2017521778A (ja) 2017-08-03
GB201412121D0 (en) 2014-08-20
GB2528066A (en) 2016-01-13
WO2016005898A1 (en) 2016-01-14
US20160011926A1 (en) 2016-01-14

Similar Documents

Publication Publication Date Title
CN106537350A (zh) 用于处理数据处理系统中的数据质量异常的方法
CN107958057B (zh) 一种用于异构数据库中数据迁移的代码生成方法及装置
US9135071B2 (en) Selecting processing techniques for a data flow task
CN103034735B (zh) 一种大数据分布式文件导出方法
US9298732B2 (en) Searching cloud-based distributed storage resources using a set of expendable probes
CN107122368B (zh) 一种数据校验方法、装置及电子设备
US10977256B2 (en) System for aggregation and prioritization of IT asset field values from real-time event logs and method thereof
US8429645B2 (en) Method for optimizing migration of software applications to address needs
US10387236B2 (en) Processing data errors for a data processing system
WO2013140608A1 (ja) イベントの根本原因の解析を支援する方法及びシステム
CN103699693A (zh) 一种基于元数据的数据质量管理方法及系统
WO2022142013A1 (zh) 基于人工智能的ab测试方法、装置、计算机设备及介质
WO2022134471A1 (zh) 区块链节点的管理方法、装置、计算机设备和存储介质
CN105335310A (zh) 一种接口定义方法和数据传输方法及装置
US20210334292A1 (en) System and method for reconciliation of data in multiple systems using permutation matching
JP2006252158A (ja) 電文処理システムのテストデータの生成装置、方法、及びプログラム
US8074119B1 (en) Method and apparatus for providing a multi-scope bug tracking process
US8121882B2 (en) Standard process and resource reference and instance
CN106095511A (zh) 一种服务器升级方法和装置
CN104951855A (zh) 用于促进对资源的管理的装置和方法
US11567912B1 (en) Database segmentation
CN108334524A (zh) 一种storm日志错误分析方法及装置
CN113010208B (zh) 一种版本信息的生成方法、装置、设备及存储介质
CN112416306A (zh) 多应用依赖树生成方法、装置、电子设备及计算机介质
US8782364B2 (en) Determining availability of data elements in a storage system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170322