CN109117421A - 处理数据以提高数据的质量 - Google Patents

处理数据以提高数据的质量 Download PDF

Info

Publication number
CN109117421A
CN109117421A CN201810654689.8A CN201810654689A CN109117421A CN 109117421 A CN109117421 A CN 109117421A CN 201810654689 A CN201810654689 A CN 201810654689A CN 109117421 A CN109117421 A CN 109117421A
Authority
CN
China
Prior art keywords
data
equipment
quality
technology
mistake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810654689.8A
Other languages
English (en)
Inventor
V·S·拉索雷
S·库玛加格
M·苏里斯里拉曼
A·约里
M·克里什纳
V·卡纳德
A·查克拉博蒂
H·H·沙玛
S·萨尔达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Solutions Ltd
Original Assignee
Accenture Global Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Accenture Global Solutions Ltd filed Critical Accenture Global Solutions Ltd
Publication of CN109117421A publication Critical patent/CN109117421A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/006Identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • G06F11/3082Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting the data filtering being achieved by aggregating or compressing the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • H03M13/01Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开内容的各实施例涉及处理数据以提高数据的质量。一种第一设备可以从第二设备的集合接收数据以被处理以确定数据的质量。数据可以包括由第二设备的集合存储的第一数据、向第三设备被提供的第二数据或与第四数据相关的第三数据。第一设备可以使用技术的第一集合处理数据以准备数据以用于处理。第一设备可以使用技术的第二集合处理数据以提高数据的质量并且形成经处理数据。第一设备可以向第二设备的集合提供经处理数据以替换由第二设备的集合存储的数据以允许第二设备的集合使用经处理数据。第一设备可以在向第二设备的集合提供经处理数据之后执行动作。

Description

处理数据以提高数据的质量
技术领域
本公开内容的各实施例涉及处理数据以提高数据的质量。
背景技术
数据质量可以涉及数据在其对数据的预期使用(例如,操作、决策等)的适合性方面的状况、数据正确地表示数据涉及的真实世界构造的程度等。数据质量可以涉及数据的准确性、数据的一致性、数据的完整性等。数据质量可以影响数据的使用。例如,不良数据质量(例如,包含错误的数据)可能会负面地影响对数据的使用。
发明内容
根据一些可能的实现方式,一种第一设备可以包括一个或多个处理器,用于从第二设备的集合接收数据用于处理以确定数据的质量。数据可以包括由第二设备的集合存储的第一数据、向第三设备被提供的第二数据或与第四数据相关的第三数据。一个或多个处理器可以使用技术的第一集合处理数据以准备数据以用于与提高数据质量相关的处理。一个或多个处理器可以使用技术的第二集合处理数据以提高数据的质量并且形成经处理数据。经处理数据可以由第二设备的集合使用或存储。一个或多个处理器可以向第二设备的集合提供经处理数据以替换由第二设备的集合存储的数据,或者向另一目的地提供经处理数据以允许第二设备的集合或另一目的地使用经处理数据。经处理数据可以向第二设备的集合被提供以提高第二设备的集合存储的数据的质量。一个或多个处理器可以在向第二设备的集合或另一目的地提供经处理数据之后执行动作。
根据一些可能的实现方式,一种方法可以包括由第一设备从第二设备的集合接收数据以被处理以确定数据是否包括错误。数据可以包括由第二设备的集合存储的第一数据、向第三设备被提供的第二数据或与第四数据相关的第三数据。该方法可以包括由第一设备使用技术的第一集合处理数据以准备数据以用于与确定数据是否包括错误相关的处理。该方法可以包括由第一设备使用技术的第二集合处理数据以积极地影响错误并且形成经处理数据。经处理数据可以由第二设备的集合使用或存储。该方法可以包括由第一设备向第二设备的集合提供经处理数据以通过替换被存储在第二设备的集合中的数据来积极地影响错误,或者向另一目的地提供经处理数据以允许第二设备的集合或另一目的地使用经处理数据。该方法可以包括由第一设备在向第二设备的集合或另一目的地提供经处理数据之后执行动作。
根据一些可能的实现方式,一种非暂态计算机可读介质可以存储一个或多个指令,这些指令在由一个或多个处理器执行时使得一个或多个处理器从第一设备的集合接收数据。数据可以被处理以确定数据是否包括错误。一个或多个指令在由一个或多个处理器执行时可以使得一个或多个处理器使用技术的第一集合处理数据以允许第二设备确定数据是否包括错误。一个或多个指令在由一个或多个处理器执行时可以使得一个或多个处理器使用与确定数据是否包括错误相关的技术的第二集合来处理数据。技术的第二集合可以被用于形成经处理数据。一个或多个指令在由一个或多个处理器执行时可以使得一个或多个处理器基于使用技术的第二集合处理数据的结果来确定数据是否包括错误。一个或多个指令在由一个或多个处理器执行时可以使得一个或多个处理器向第一设备的集合提供经处理数据以替换由第一设备的集合存储的数据,或者向另一目的地提供经处理数据。经处理数据可以向第一设备的集合被提供以积极地影响被包括在数据中的错误。一个或多个指令在由一个或多个处理器执行时可以使得一个或多个处理器在向第一设备的集合或另一目的地提供经处理数据之后执行动作。
附图说明
图1A和图1B是本文中描述的示例实现方式的概述的示图;
图2是其中可以实现本文中描述的系统和/或方法的示例环境的示图;
图3是图2的一个或多个设备的示例组件的示图;
图4是用于处理数据以提高数据质量的示例过程的流程图;
图5是与图4中所示的示例过程相关的示例实现方式的示图;以及
图6是与图4中所示的示例过程相关的示例实现方式的示图。
具体实施方式
示例实现方式的以下详细描述参考附图。不同附图中的相同附图标记可以标识相同或相似的元素。
组织可能正在经历数据质量问题。例如,组织使用的数据可能被破坏,可能在不同的数据源之间不一致,可能包括重复的数据等。这在使用数据时可能导致错误,诸如当使用数据生成报告时,实现特定过程(例如,事务处理)时等。此外,尽管组织可以对从数据源(例如,系统)接收的数据修复数据质量问题,但组织可能缺乏用于更新数据的来源处的数据的基于计算机的技术。每当从来源接收到数据时,都会经由修复数据来消耗组织的硬件资源的处理资源。另外,这通过增加从数据的来源接收数据与可以使用数据之间的时间量而降低了使用数据的效率。
本文中描述的一些实现方式提供了一种能够从来源(例如,系统)接收数据、修复与数据相关联的数据质量问题并且用已修复数据替换来源中的数据的数据质量系统。以这种方式,数据质量系统可以更新数据的来源的数据,以便每次使用数据时不需要修复数据。这通过减少或消除每次使用数据时修复数据的需要来节省组织的硬件资源的处理资源。此外,这通过减少或消除数据使用期间的错误来节省使用数据的硬件资源的处理资源,否则这些错误将通过使用包括错误的数据而消耗处理资源,否则将由于处理从使用包括错误的数据而导致的错误而被消耗再处理资源,等等。此外,这通过减少从来源接收数据与可以使用数据(例如,生成报告,实现特定过程等)之间的时间量来增加使用来自来源的数据的效率。
图1A和图1B是本文中描述的示例实现方式100的概述的示图。如图1A和图1B所示,示例实现方式100可以包括与各种系统(例如,被示出为操作支持系统(OSS)、商业支持系统(BSS)和决策支持系统(DSS))相关联的服务器设备1至3、数据质量系统和客户端设备。尽管示例实现方式100示出了三个不同的服务器设备和单个客户端设备,但实际上,可以存在数百、数千、数百万个等的服务器设备和/或客户端设备。
如图1A中所示,并且如由附图标记110所示,数据质量系统可以从与组织相关联的服务器设备(例如,系统)的集合接收数据。例如,数据质量系统可以从与OSS、BSS和DSS相关联的服务器设备1至3接收数据。当接收到数据时,数据质量系统可以接收数千、数百万、数十亿个等数据元素,从而接收不能由人类动作者手动或客观地处理的数据集。在一些实现方式中,数据可以包括存储在服务器设备1至3中的空闲数据、从来源提供到目的地(例如,从服务器设备1至3到经由客户端设备访问的应用)的数据、与其他数据相关联的元数据等。在一些实现方式中,数据质量系统可以周期性地、根据日程安排、基于请求数据等来接收数据。
如在图1A中和由附图标记120进一步所示,数据质量系统可以使用技术的第一集合预处理数据以准备数据用于与提高数据质量相关的处理。例如,数据质量系统可以聚合来自不同服务器设备的数据,对数据进行去重复,将标准格式化应用于数据,获取存储在其他来源中的相同数据(例如,以允许检查多个服务器设备之间的一致性),等等。预处理数据可以将数据修改为允许数据质量系统进行以下操作的形式:处理来自不同来源和/或具有不同格式的相同数据,标识与数据相关联的错误,等等。当预处理数据时,数据质量系统可以预处理来自数百、数千个等服务器设备的数百、数百万、数十亿个等数据元素,由此处理不能由人类动作者手动或客观地处理的数据集。
如在图1A中并且由附图标记130进一步所示,数据质量系统可以使用技术的第二集合处理数据以提高数据的质量并且形成经处理数据。例如,数据质量系统可以使用规则的集合(例如,与将使用数据的硬件资源相关的规则的集合、行业标准、数据管理规则等)来处理数据。规则的集合可以基于数据的预期使用、数据的来源、数据的目的地等。
数据质量系统可以使用机器学习来处理数据。例如,数据质量系统可以使用机器学习来标识与数据相关的错误。在这种情况下,数据质量系统可以已经关于以下各项被训练:意图用于与被处理的数据用于相同使用的数据、来自与被处理的数据相同的来源的数据、与被处理的数据具有相同目的地的数据等。以这种方式,数据质量系统可以基于关于其他数据被训练而自动标识与数据相关的错误。
数据质量系统可以基于数据来标识用于度量的集合的值。例如,度量的集合可以涉及接收的数据集的数量、具有完整数据或正确格式化数据的数据集的数量、包括空值的数据集的数量等。数据质量系统可以从标识规则的集合(例如,行业标准、数据管理规则等)的上述信息确定要使用的度量的集合。
当使用技术的第二集合处理数据时,数据质量系统可以修复在数据中标识的错误(例如,积极地影响错误,提高数据的质量等)。例如,数据质量系统可以对数据进行格式化,完成数据(例如,通过将数值输入到数据中,向另一来源请求数据元素,等等)等。数据质量系统可以按照特定方式为数据的预期使用修复错误,以满足规则的集合,使其他数据与相同的预期使用相匹配,等等。在一些情况下,数据质量系统可以输出指示对数据提出的修改的报告用于经由客户端设备显示,并且可以在修复与数据相关的错误之前向客户端设备的用户请求批准。
如在图1B中所示,并且如由附图标记140-1和140-2所示,数据质量系统可以将经处理数据提供给服务器设备(例如,服务器设备1至3)以替换服务器设备中的数据,和/或可以将经处理数据提供给另一目的地。例如,数据质量系统可以将数据提供给与各种系统相关联的服务器设备1至3(例如,替换由服务器设备1至3存储的数据),诸如当数据质量系统处理的数据是空闲数据。作为另一示例,数据质量系统可以将数据提供给客户端设备(例如,以用于显示给安装在客户端设备上的应用、在客户端设备上执行的应用或者经由客户端设备访问的应用等),诸如当数据质量系统处理向目的地提供的数据时。这样,数据质量系统可以用修复数据自动地替换存储在服务器设备的集合中的含有错误的数据。
如在图1B中进一步所示,并且如由附图标记150所示,数据质量系统可以提供与经处理数据相关的信息以用于显示。例如,数据质量系统可以提供指示数据被修改的方式、存储的数据被替换的来源、数据被提供到的目的地的报告等用于显示。
以这种方式,数据质量系统可以更新数据的来源处的数据,使得每次使用数据时不需要修复数据。这通过减少或消除每次使用数据时修复数据的需要来节省组织的硬件资源的处理资源。此外,这通过减少或消除数据使用期间的错误来节省使用数据的硬件资源的处理资源,否则这些错误将通过使用包括错误的数据而消耗处理资源,将由于处理从使用包括错误的数据而导致的错误而被消耗再处理资源,等等。此外,这通过减少从来源接收数据与可以使用数据(例如,生成报告,实现特定过程等)之间的时间量来增加使用来自来源的数据的效率。
如上所述,图1A和图1B仅作为示例而被提供。其他示例是可能的并且可以不同于关于图1A和图1B所描述的示例。
图2是其中可以实现本文中描述的系统和/或方法的示例环境200的示图。如在图2中所示,环境200可以包括客户端设备210、服务器设备220、数据质量系统230、云计算环境232和计算资源的集合234。环境200的设备可以经由有线连接、无线连接、或有线和无线连接的组合互连。
客户端设备210包括能够接收、生成、存储、处理和/或提供与被处理以确定数据质量的数据相关联的信息的一个或多个设备。例如,客户端设备210可以包括台式计算机、移动电话(例如,智能电话或无线电话)、膝上型计算机、平板计算机、游戏设备、可穿戴通信设备(例如,智能手表或智能眼镜)、导航设备(例如,全球定位系统(GPS)导航设备)或类似类型的设备。在一些实现方式中,客户端设备210可以接收标识处理数据的结果以确定数据质量的信息,如本文中其他地方所述。附加地或备选地,客户端设备210可以提供结果以用于显示,如本文中其他地方所述。尽管图2示出了单个客户端设备210,但实际上,可能有数千、数百万、数十亿个等客户端设备210与数据质量系统230通信,如本文中其他地方所述。
服务器设备220包括能够接收、生成、存储、处理和/或提供与被处理以确定数据质量的数据相关联的信息的一个或多个设备。例如,服务器设备220可以包括服务器(例如,在数据中心或云计算环境中)、数据中心(例如,多服务器微数据中心)、工作站计算机、在云计算环境中提供的虚拟机(VM)、或类似类型的设备。在一些实现方式中,服务器设备220可以向数据质量系统230提供数据用于处理以确定数据的质量,如本文中其他地方所述。附加地或备选地,服务器设备220可以从数据质量系统230接收经处理数据,如本文中其他地方所述。尽管在图2中示出了单个服务器设备220,但实际上,可以有数千、数百万、数十亿个等服务器设备220与数据质量系统230进行通信。
数据质量系统230包括能够处理数据以提高数据质量的一个或多个设备。例如,数据质量系统230可以包括云服务器或一组云服务器。在一些实现方式中,数据质量系统230可以被设计为模块化的,以使得某些软件组件可以根据特定需要被换入或换出。这样,数据质量系统230可以容易地和/或快速地被重新配置用于不同的使用。
在一些实现方式中,如所示,数据质量系统230可以托管在云计算环境232中。值得注意的是,虽然本文中描述的实现方式将数据质量系统230描述为托管在云计算环境232中,但是在一些实现方式中,数据质量系统230可以不是基于云的(即,可以在云计算环境之外被实现),或者可以是部分基于云的。
云计算环境232包括托管数据质量系统230的环境。云计算环境232可以提供不需要最终用户对托管数据质量系统230的系统和/或设备的物理位置和/或配置的知识的计算、软件、数据访问、存储和/或其他服务。如所示,云计算环境232可以包括一组计算资源234(被统称为“计算资源234”并且被单独称为“计算资源234”)。
计算资源234包括一个或多个个人计算机、工作站计算机、服务器设备或另一类型的计算和/或通信设备。在一些实现方式中,计算资源234可以托管数据质量系统230。云资源可以包括在计算资源234中执行的计算实例、在计算资源234中被提供的存储设备、由计算资源234提供的数据传输设备等。在一些实现方式中,计算资源234可以经由有线连接、无线连接或有线和无线连接的组合与其他计算资源234通信。
如在图2中进一步所示,计算资源234可以包括一组云资源,诸如一个或多个应用(“APP”)234-1、一个或多个虚拟机(“VM”)234-2、一个或多个虚拟化存储装置(“VS”)234-3或者一个或多个管理程序(“HYP”)234-4。
应用234-1包括可以被提供给环境200的一个或多个设备或者由其访问的一个或多个软件应用。应用234-1可以消除在环境200的设备上安装和执行软件应用的需要。例如,应用234-1可以包括与数据质量系统230相关联的软件和/或能够经由云计算环境232提供的任何其他软件。在一些实现方式中,一个应用234-1可以经由虚拟机234-2向/从一个或多个其他应用234-1发送/接收信息。
虚拟机234-2包括像物理机器一样执行程序的机器(例如,计算机)的软件实现方式。虚拟机234-2可以是系统虚拟机或进程虚拟机,这取决于虚拟机234-2与任何真实机器的使用和对应程度。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。进程虚拟机可以执行单个程序,并且可以支持单个进程。在一些实现方式中,虚拟机234-2可以代表用户(例如,客户端设备210的用户)执行,并且可以管理云计算环境232的基础设施,诸如数据管理、同步或长时间数据传输。
虚拟化存储装置234-3包括在计算资源234的存储系统或设备内使用虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实现方式中,在存储系统的上下文中,虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以是指逻辑存储与物理存储的抽象(或分离),以便可以访问存储系统而不考虑物理存储或异构结构。分离可以允许存储系统的管理员灵活地管理管理员如何管理最终用户的存储。文件虚拟化可以消除在文件级别访问的数据与物理地存储文件的位置之间的依赖关系。这可以实现存储使用的优化、服务器整合和/或无中断文件迁移的性能。
管理程序234-4可以提供允许多个操作系统(例如,“客户操作系统”)在诸如计算资源234等主计算机上并行执行的硬件虚拟化技术。管理程序234-4可以向客户操作系统呈现虚拟操作平台,并且可以管理客户操作系统的执行。多种操作系统的多个实例可以共享虚拟化硬件资源。
网络240包括一个或多个有线和/或无线网络。例如,网络240可以包括蜂窝网络(例如,长期演进(LTE)网络、码分多址(CDMA)网络、3G网络、4G网络、5G网络或另一类型的蜂窝网络)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如,公共交换电话网络(PSTN))、专用网络、自组织网络、内联网、因特网、基于光纤的网络、云计算网络等、和/或这些或其他类型的网络的组合。
图2中所示的设备和网络的数目和布置作为示例而被提供。实际上,可以存在与图2中所示的那些相比更多的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络、或者不同布置的设备和/或网络。此外,图2中所示的两个或更多个设备可以在单个设备内被实现,或者图2中所示的单个设备可以被实现为多个分布式设备。附加地或备选地,环境200的设备的集合(例如,一个或多个设备)可以执行被描述为由环境200的设备的另一集合执行的一个或多个功能。
图3是设备300的示例组件的示图。设备300可以对应于客户端设备210、服务器设备220和/或数据质量系统230。在一些实现方式中,客户端设备210、服务器设备220,和/或数据质量系统230可以包括一个或多个设备300和/或设备300的一个或多个组件。如在图3中所示,设备300可以包括总线310、处理器320、存储器330、存储器组件340、输入组件350、输出组件360和通信接口370。
总线310包括允许设备300的组件之间的通信的组件。处理器320以硬件、固件或硬件和软件的组合而被实现。处理器320包括中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或另一类型的处理组件。在一些实现方式中,处理器320包括能够被编程为执行功能的一个或多个处理器。存储器330包括存储随机存取存储器(RAM)、只读存储器(ROM)和/或另一类型的动态或静态存储设备(例如,闪存、磁存储器和/或光存储器),其存储用于由处理器320使用的信息和/或指令。
存储组件340存储与设备300的操作和使用相关的信息和/或软件。例如,存储组件340可以包括硬盘(例如,磁盘、光盘、磁光盘、和/或固态盘)、光盘(CD)、数字多功能盘(DVD)、软盘、盒式磁带、磁带和/或另一类型的非暂态计算机可读介质以及相应的驱动器。
输入组件350包括允许设备300接收信息的组件,诸如经由用户输入(例如,触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。附加地或备选地,输入组件350可以包括用于感测信息的传感器(例如,全球定位系统(GPS)组件、加速度计、陀螺仪和/或致动器)。输出组件360包括提供来自设备300的输出信息的组件(例如,显示器、扬声器和/或一个或多个发光二极管(LED))。
通信接口370包括使得设备300能够诸如经由有线连接、无线连接或有线和无线连接的组合与其他设备通信的类似收发器的组件(例如,收发器和/或单独的接收器和发射器)。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如,通信接口370可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。
设备300可以执行本文中描述的一个或多个过程。设备300可以基于处理器320执行由诸如存储器330和/或存储组件340等非暂态计算机可读介质存储的软件指令来执行这些处理。计算机可读介质在本文中被定义为非暂态存储器设备。存储器设备包括在单个物理存储设备内的存储器空间或分布在多个物理存储设备上的存储器空间。
软件指令可以经由通信接口370从另一计算机可读介质或从另一设备读取到存储器330和/或存储组件340中。当被执行时,存储在存储器330和/或存储组件340中的软件指令可以使得处理器320执行本文中描述的一个或多个过程。附加地或备选地,可以使用硬连线电路来代替软件指令或与软件指令相结合来执行本文中描述的一个或多个过程。因此,本文中描述的实现方式不限于硬件电路和软件的任何特定组合。
图3中所示的组件的数目和布置作为示例而被提供。实际上,设备300可以包括与图3中所示的那些相比不同的组件、更少的组件、不同的组件或不同的布置的组件。附加地或备选地,设备300的组件的集合(例如,一个或多个组件)可以执行被描述为由设备300的组件的另一集合执行的一个或多个功能。
图4是用于处理数据以提高数据质量的示例过程400的流程图。在一些实现方式中,图4的一个或多个过程框可以由数据质量系统230执行。在一些实现方式中,图4的一个或多个过程框可以由与数据质量系统230分离或包括其的另一设备或一组设备执行,诸如客户端设备210和/或服务器设备220。
如在图4中所示,过程400可以包括从与组织相关联的服务器设备的集合接收数据(框410)。例如,数据质量系统230可以从与组织相关联的服务器设备的集合220(例如,托管各种系统)接收数据。在一些实现方式中,数据质量系统230可以周期性地、根据日程安排、基于请求数据、在数据从数据的来源向目的地提供时(例如,从服务器设备220朝着应用提供和/或客户端设备210)等接收数据。在一些实现方式中,当从服务器设备220接收数据时,数据质量系统230可以接收数千、数百万、数十亿个等数据元素。以这种方式,数据质量系统230可以接收不能由人类动作者手动或客观地处理的数据集。
在一些实现方式中,数据可以包括存储在数据的来源中(例如,在与系统相关联的服务器设备220中)的数据。附加地或备选地,数据可以包括存储在数据的目的地中的数据(例如,与向应用的用户提供对数据的访问的应用相关联的服务器设备220、客户端设备210等)。附加地或备选地,数据可以包括从数据的来源向数据的目的地提供的数据。
在一些实现方式中,提供数据的服务器设备220和/或客户端设备210可以与系统相关联。例如,系统可以用于执行功能和/或为组织提供服务。在一些实现方式中,例如,系统可以包括提供与组织的功能(诸如库存管理、交易处理、报告生成、决策制定等)相关的服务的操作支持系统(OSS)、业务支持系统(BSS)和/或决策支持系统(DSS)。在一些实现方式中,系统可以由服务器设备的集合220和/或客户端设备的集合210托管。
在一些实现方式中,数据质量系统230可以监测系统的集合的性能以检测与系统的集合对数据的使用相关的错误。例如,当用户使用系统的集合在阈值时间量内多次生成相同报告时(例如,指示用户标识出报告的错误)时,当用户花费阈值时间量生成报告或修复数据(例如,基于时间输入日志)时,当系统的组合在系统的集合的操作期间基于从用户接收的指示来自系统的集合的输出的准确性的阈值得分生成错误报告时,等等,数据质量系统230可以检测到错误。在一些实现方式中,基于当数据质量系统230检测到错误时向系统的集合请求数据,基于系统的集合在发生错误时自动提供数据,等等,数据质量系统230可以接收数据。
在一些实现方式中,数据质量系统230可以在文件中接收数据。例如,数据质量系统230可以按照逗号分隔值(CSV)文件、电子表格文件、文本文件等接收数据。以这种方式,数据质量系统230可以接收各种类型的文件,从而提高数据质量系统230处理来自不同来源的数据的能力。
以这种方式,数据质量系统230可以从与组织相关联的服务器设备的集合220接收数据,以允许数据质量系统230使用技术的第一集合预处理数据以准备数据用于其他处理。
如在图4中进一步所示,过程400可以包括使用技术的第一集合预处理数据以准备数据用于与提高数据质量相关的处理(框420)。例如,数据质量系统230可以使用技术的第一集合预处理数据以准备数据用于与提高数据质量相关的处理。在一些实现方式中,预处理数据可以将数据修改为数据质量系统230可以用来执行数据质量分析的形式。这通过减少或消除可能由不同格式化的数据导致的错误、数据质量系统230无法处理的格式的数据等来提高分析数据质量的准确性。
在一些实现方式中,预处理数据可以包括预处理数千、数百万、数十亿个等数据元素。以这种方式,数据质量系统230可以预处理不能由人类动作者手动或客观地处理的数据集。
在一些实现方式中,技术的第一集合可以包括聚合来自多个来源的数据(例如,聚合来自多个服务器设备220、与多个服务器设备220相关联的多个系统等的数据)。附加地或备选地,技术的第一集合可以包括对数据进行去重复。附加地或备选地,技术的第一集合可以包括对数据应用特定或标准格式化。附加地或备选地,技术的第一集合可以包括从数据中去除损坏的数据元素并且获取损坏的数据元素的替换数据(例如,修复被包括在数据中的损坏的数据元素)。
在一些实现方式中,并且作为具体示例,数据质量系统230可以基于数据的预期使用来预处理数据。例如,数据质量系统230可以基于数据用于预期使用的粒度来聚合数据。继续前面的示例,当数据的预期使用涉及分析平均值或每个顾客数据时(例如,当不需要阈值粒度时),数据质量系统230可以聚合与组织的多个顾客相关的数据。相反,当数据的预期使用是标识特定数据的值满足阈值的特定顾客时(例如,当需要阈值粒度时),数据质量系统230可以不聚合顾客数据。
附加地或备选地,作为另一示例,数据的不同预期使用可以允许不同的格式、损坏的数据的使用等。继续前面的示例,数据质量系统230可以基于数据的预期使用确定是否需要执行技术的第一集合中的特定技术,并且可以基于数据的预期使用确定不执行特定技术。这通过减少数据质量系统230必须执行的操作的数量来节省数据质量系统230的处理资源。
以这种方式,数据质量系统230可以使用技术的第一集合预处理数据以准备数据用于与提高数据质量相关的处理。
如在图4中进一步所示,过程400可以包括使用技术的第二集合处理数据以提高数据的质量并且形成经处理数据(框430)。例如,数据质量系统230可以使用技术的第二集合处理数据以提高数据的质量并且形成经处理数据。在一些实现方式中,数据质量系统230可以在使用技术的第一集合(例如,关于框420描述的)处理数据之后使用技术的第二集合处理数据。在一些实现方式中,数据质量系统230可以使用技术的第二集合处理数据以修改数据,使得数据可以用于特定使用或以特定方式使用。附加地或备选地,数据质量系统230可以使用技术的第二集合处理数据以确定数据是否包括错误(例如,基于使用技术的第二集合处理数据的结果),如本文中其他地方更详细描述的。
在一些实现方式中,当使用技术的第二集合处理数据时,数据质量系统230可以处理数千、数百万、数十亿个等数据元素。以这种方式,数据质量系统230可以处理不能由人类动作者手动或客观地处理的数据集。
在一些实现方式中,技术的第二集合可以包括使用规则的集合来处理数据以确定数据是否满足规则的集合。例如,规则的集合可以涉及要使用数据的硬件资源、与数据相关的行业标准、与数据和/或组织相关的数据管理规则、可以使用数据的特定方式等。附加地或备选地,并且作为另一示例,规则的集合可以基于数据的预期使用、数据的来源、数据的目的地等。例如,数据质量系统230可以基于标识数据的来源、数据的目的地、数据的预期使用等信息来标识规则的集合。在一些实现方式中,数据质量系统230可以在数据不满足规则的集合时(例如,当数据中的数据元素的阈值数量不满足规则的集合时)标识与数据相关的错误。
在一些实现方式中,数据质量系统230可以通过处理其他数据来确定一组规则。例如,数据质量系统230可以使用自然语言处理、计算语言学、文本分析等来处理文本(例如,文档、网页、文本文件等)以标识包括在文本中的标识规则的集合的术语和/或短语。
在一些实现方式中,数据质量系统230可以使用机器学习来标识规则的集合。例如,数据质量系统230可以通过使用机器学习来处理数据、标识数据的来源、目的地、使用等的信息等等来标识要使用的规则的集合,其中数据质量系统230已经关于标识不同数据集、来源、目的地、使用等的信息和规则的对应的集合而被训练。
在一些实现方式中,数据质量系统230可以在确定用于处理数据的规则的集合之前确定数据的简档。例如,数据质量系统230可以处理由从其接收数据的服务器设备220存储的其他数据、数据所指向的服务器设备220存储的其他数据等,以确定数据的简档和/或确定可以应用于数据的规则的集合。继续前面的示例,数据质量系统230可以处理标识与数据的用户交互的信息(例如,用户与数据交互的方式)、与数据相关联的主题或领域等以确定数据的简档和/或可以应用于数据的规则的集合。在一些实现方式中,当确定数据的简档时,数据质量系统230可以确定具有特定值的数据元素的百分比、数据的数据元素的唯一值的数量、数据的数据元素的值的分布、数据的数据元素的值的范围、数据的值或格式的模式等。
在一些实现方式中,技术的第二集合可以包括使用机器学习来处理数据以确定数据是否包括错误和/或确定数据的质量。例如,数据质量系统230可以处理数据以标识数据元素之中的模式,诸如与数据的值相关的模式、被包括在数据中的数据元素的类型(例如,用户账户数据元素、数据元素所涉及的度量等)等。继续前面的示例,数据质量系统230可以基于使用机器学习为数据标识的模式来标识与数据相关的错误。在一些实现方式中,数据质量系统230可以已经关于预期使用的数据被训练。例如,数据质量系统230可以使用机器学习来处理数据以预测数据的预期使用,并且然后可以基于预测的预期使用来标识数据中的错误。在一些实现方式中,数据质量系统230可以确定数据的多个预测使用的得分,并且可以基于具有阈值得分的预期使用等来选择相对于其他得分以最高得分被使用的预期。
在一些实现方式中,当使用机器学习时,数据质量系统230可以使用各种类型的机器学习。例如,数据质量系统230可以使用有监督机器学习、无监督机器学习、数据质量的人工审查(例如,由客户端设备210的用户)等。
在一些实现方式中,技术的第二集合可以包括处理数据以确定度量的集合的值。例如,度量的集合可以包括接收的数据集的数量、具有完整数据的数据集的数量或用于特定使用的正确地格式化的数据的数量、包括空值的数据集的数量、数据类型违反的数量(例如,数据为字符串类型而不是数字类型)、格式违反的数量(例如,以两位数格式而不是四位格式标识年的数据)、数据是否包括缺失数据、数据是否包括最小和/或最大值违反、数据是否包括重复值、数据是否违反规则的集合等。在一些实现方式中,度量可以基于用于处理数据的规则的集合。例如,度量的第一集合可以与规则的第一集合相关联,并且度量的第二集合可以与规则的第二集合相关联。附加地或备选地,度量的集合可以与数据的预期使用相关联。
在一些实现方式中,数据质量系统230可以使用度量的集合来确定数据是否包括错误、数据是否违反规则的集合等(例如,在特定度量的值满足阈值时,当阈值数量的度量具有阈值时等)。在一些实现方式中,基于与数据相关的度量的集合的值,数据质量系统230是否基于处理数据来确定用于度量的特定组合的值,等等,数据质量系统230可以来确定数据的质量。例如,数据质量系统230可以基于与满足各种阈值的数据相关的度量的集合来确定数据具有高、中或低质量。
在一些实现方式中,在使用技术的第二集合执行其他处理之前,数据质量系统230可以确定与数据相关的度量的集合的值。在一些实现方式中,数据质量系统230可以使用这些值来标识使用技术的第二集合处理数据的方式。例如,度量的特定组合的阈值可以指示与数据相关的特定错误。继续前面的示例,数据质量系统230可以确定使用技术的第二集合以特定方式处理数据,以确定由值指示的错误是否被包括在数据中。以这种方式,数据质量系统230可以使用度量的集合的值来集中关于潜在错误、与包括在数据中的阈值可能性相关联的潜在错误等对数据的处理,由此相对于处理数据而节省处理资源(例如,相对于处理数据而不关注潜在错误的处理)。
在一些实现方式中,数据质量系统230可以确定修复与数据相关的错误的方式。例如,数据质量系统230可以确定积极地影响错误、减少或消除错误、提高数据质量等的方式。例如,数据质量系统230可以确定修改数据。继续前面的示例,数据质量系统230可以修改数据的值,修改数据的格式,修改被包括在数据中的数据元素(例如,获取被包括在数据中附加数据元素,去除被包括在数据中数据元素,组合被包括在数据中数据元素等)。附加地或备选地,并且作为另一示例,数据质量系统230可以确定替换数据或其一部分(例如,数据质量系统230可以确定用来自第二服务器设备220的数据集替换存储在第一服务器设备220上的第一数据集)。
附加地或备选地,并且作为另一示例,数据质量系统230可以确定修改存储数据的文件和/或文件类型(例如,将数据从第一类型的文件转换为第二类型的文件,重新排列包括数据的文件的列和/或行等)。在一些实现方式中,数据质量系统230可以按照确定的方式修复数据。在一些实现方式中,数据质量系统230可以通过修复数据来形成经处理数据。
附加地或备选地,并且作为另一示例,数据的不同预期使用可以与涉及数据中包括的错误的不同容差相关联。例如,不同的预期使用可以与用于阈值量的错误、不同类型的错误(例如,格式化错误、空值错误等)等的不同容差相关联。在一些实现方式中,数据质量系统230可以基于数据的预期使用来确定标识的错误是否被修复。例如,数据质量系统230可以基于数据的预期使用来确定在错误是可容忍时不修复错误。这通过减少或消除数据质量系统230修复错误的需要来节省数据质量系统230的处理资源。
在一些实现方式中,数据质量系统230可以输出信息用于经由客户端设备210显示。例如,数据质量系统230可以生成报告,该报告包括标识数据质量系统230已经确定修复数据的方式的信息并且可以提供报告用于经由客户端设备210显示。在一些实现方式中,数据质量系统230可以向客户端设备210的用户请求以确定的方式修复数据的确认,并且可以直到客户端设备210的用户已经确认了修改数据的方式才修复数据。附加地或备选地,数据质量系统230可以从客户端设备210的用户接收输入以用不同的方式修改数据。在这种情况下,数据质量系统230可以按照来自客户端设备210的用户的输入所指示的方式修改数据。
以这种方式,数据质量系统230可以使用技术的第二集合处理数据以提高数据的质量并且形成经处理数据,允许数据质量系统230将经处理数据提供给服务器设备的集合220以替换存储在服务器设备的集合220中的数据。
如在图4中进一步所示,过程400可以包括向服务器设备的集合提供经处理数据以替换存储在服务器设备的集合中的数据,和/或向另一目的地提供经处理数据以允许服务器设备的集合和/或另一目的地使用经处理数据(框440)。例如,数据质量系统230可以向服务器设备的集合220提供经处理数据以替换存储在服务器设备的集合220中的数据,和/或向另一目的地提供经处理数据以允许服务器设备的集合220和/或另一目的地使用经处理数据。
在一些实现方式中,数据质量系统230可以向服务器设备220提供数据以替换数据。附加地或备选地,数据质量系统230可以删除由服务器设备220存储的数据,或者覆写由服务器设备220存储的数据。附加地或备选地,数据质量系统230可以将经处理数据提供给目的地,提供给应用(例如,由服务器设备220托管,由客户端设备210的用户访问,在客户端设备210上执行等),提供给客户端设备210,等等。附加地或备选地,数据质量系统230可以向服务器设备220提供修改由服务器设备220存储的数据使得由服务器设备220存储的数据匹配经处理数据的指令的集合。
以这种方式,数据质量系统230可以向服务器设备的集合220提供经处理数据以替换服务器设备的集合220中的数据,和/或向另一目的地提供经处理数据以允许服务器设备的集合220和/或另一目的地在执行与经处理数据相关的另一动作之前使用经处理数据。
如在图4中进一步所示,过程400可以包括在向服务器设备的集合和/或另一目的地提供经处理数据之后执行动作(框450)。例如,数据质量系统230可以在向服务器设备的集合220和/或另一目的地提供经处理数据之后执行动作。
在一些实现方式中,数据质量系统230可以生成包括标识数据被修复的方式的信息的报告。附加地或备选地,数据质量系统230可以提供报告以用于显示。附加地或备选地,数据质量系统230可以存储与数据被修复的方式相关的信息,以改善其他数据的未来处理(例如,作为结构化数据、非结构化数据、机器数据等)。
附加地或备选地,数据质量系统230可以向服务器设备220和/或客户端设备210提供使用经处理数据执行特定操作(例如,生成报告,处理交易等)的指令的集合。附加地或备选地,数据质量系统230可以向客户端设备210发送指示数据质量系统230已经处理了数据以形成经处理数据的消息(例如,以用于显示)。附加地或备选地,数据质量系统230可以安排组织的员工之间的会议来讨论数据质量系统230标识的数据中的错误、数据质量系统230修改数据的方式等。例如,数据质量系统230可以访问与员工相关联的电子日历以标识会议的可用时间,并且可以生成会议的日历项目,生成会议的会议邀请,使用标识会议的信息填充日历,等等。
以这种方式,数据质量系统230可以在将经处理数据提供给服务器设备的集合220和/或另一目的地之后执行动作。
尽管图4示出了过程400的示例框,但是在一些实现方式中,过程400可以包括与图4所描绘的那些相比较的附加的框、较少的框、不同的框或不同布置的框。附加地或备选地,过程400的两个或更多个框可以并行执行。
图5是与图4中所示的示例过程400相关的示例实现方式500的示图。图5示出了数据质量系统230可以用来处理数据的代理的示例架构。
如在图5中和由附图标记510所示,数据质量系统230可以使用的代理可以包括与授权用户、授权动作等相关的管理模块。例如,管理模块可以执行各种功能,诸如管理相关功能、许可、用户管理、授权、调度、通知、审计相关功能和/或机器学习的重新基准化(例如,被示出为“重新基准化ML”),其中例如基于新的训练数据来更新数据质量系统230实现的机器学习。
如由附图标记520所示,数据质量系统230可以使用的代理可以包括与接收和处理数据以标识与数据相关的错误、修复数据等相关的数据质量模块。例如,数据质量模块可以执行与数据获取相关的功能。继续前面的示例,数据质量系统230可以配置馈送文件(被示出为“馈送文件配置”)(例如,数据质量系统230从服务器设备220接收的文件,其包括待处理数据),以与数据源建立各种连接(被示出为“数据源连接”)(例如,使用Java数据库连接(JDBC)、开放数据库连接(ODBC)等),配置数据模型(被示出为“数据模型配置”)(例如,配置数据模型以处理来自特定来源和/或目的地的特定使用的数据等)等。
附加地或备选地,并且作为另一示例,数据质量模块可以执行与接收与数据质量相关的元数据(被示出为“数据质量元数据”)相关的功能。继续前面的示例,数据质量模块可以接收来自规则数据库的标识要用于处理数据的规则的集合(被示出为“规则数据库”)的数据、与数据质量系统230要用于确定其他数据是否包括错误的学习数据集(被示出为“学习数据集”)相关的数据等。
附加地或备选地,并且作为另一示例,数据质量模块可以执行与数据补救和/或修复数据(被示出为“数据补救”)相关的功能。继续前面的示例,数据质量系统230可以修复被包括在馈送文件中的数据(被示出为“馈送文件数据净化”),修复被包括在数据结构中的数据(被示出为“数据结构数据净化”),和/或使用大数据技术处理数据(被示出为“大数据处理”)(例如,以标识数据中的趋势或模式,处理数百万、数十亿、数万亿个等数据元素)等。
如由附图标记530所示,数据质量系统230可以包括在处理数据时执行人工智能和/或机器学习功能的人工智能和/或机器学习模块(被示出为“AI/ML模块”)。例如,AI/ML模块可以获取数据以允许数据质量系统230被训练用于人工智能和/或机器学习目的(被被示出为“获取”)(例如,获取和/或配置机器学习库(MLib)(被示出为“MLib配置”)),执行机器学习(例如,训练数据质量系统230,基于新的训练数据和/或数据质量系统230要标识的特征的变化(被示出为“MLib执行重新基准化”)等对MLib执行进行重新基准化),经由MLib执行来执行预测(被示出为“MLib执行”)(例如,标识可能包括错误的数据集),等等。
如由附图标记540所示,数据质量系统230可以使用的代理可以包括界面(例如,操作监测界面,被示出为“操作监测(界面)”)。在一些实现方式中,例如,接口可以允许代理监测被提供经处理数据的系统的操作,以允许数据质量系统230确定经处理数据是否修复了系统操作中的错误,确定与系统的操作相关的度量,等等。
如上所述,图5仅作为示例而被提供。其他示例是可能的并且可以不同于关于图5描述的示例。
图6是与图4中所示的示例过程400相关的示例实现方式600的示图。图6示出了数据质量系统230的示例性架构以及数据质量系统230可以用来处理数据以确定数据是否包括错误的示例过程。
如由附图标记610所示,数据质量系统230可以接收与要由数据质量系统230处理的数据相关的数据和/或元数据。例如,数据质量系统230可以从服务器设备220、客户端装置210、应用、系统等接收数据和/或元数据。数据质量系统230可以使用第一系统(例如,数据集成和准备系统)来接收数据。第一系统可以包括模块的集合(例如,被示出为“业务规则引擎”、“单位数据质量检查”和“数据获取和校对”)以执行与上面关于图4中的框420所描述的功能类似的功能。例如,第一系统可以预处理数据和/或元数据以允许数据质量系统230处理数据和/或元数据以提高数据和/或元数据的质量。
如由附图标记620所示,第一系统可以将数据和/或元数据提供给第二系统(例如,数据质量处理系统)。第二系统可以包括模块的集合(例如,被示出为“审查和授权”和“数据质量引擎”)以执行与以上关于图4中的框430所描述的功能类似的功能(例如,以形成经处理数据)。例如,第二系统可以处理数据和/或元数据以确定数据和/或元数据是否包括错误。如由附图标记630所示,当处理数据和/或元数据时,第二系统可以与第三系统(例如,数据规则系统)通信以接收标识将用于确定数据和/或元数据是否包括错误的规则的集合的信息。如在图6中进一步所示,数据质量系统230可以包括数据质量系统230可以用来提供指示以下各项的信息以用于显示的用户接口(例如,仪表板):在数据和/或元数据中标识的错误、数据质量系统230确定修复数据和/或元数据的方式等。
如由附图标记640所示,第二系统可以将经处理数据提供给第四系统(例如,经处理数据消耗和分发系统)。在一些实现方式中,第四系统可以包括模块的集合(例如,被示出为“数据分发引擎”)和接口的集合(例如,被示出为“通信接口”),以执行与以上关于图4中的框400所描述的类似的功能。例如,如由附图标记650所示,第四系统可以将经处理数据提供给第五系统(例如,数据存储系统)以存储数据(例如,用于追踪目的,以改善机器学习的未来使用等)。第五系统可以将经处理数据存储为结构化数据、非结构化数据、机器数据等。
附加地或备选地,如由附图标记660所示,第四系统可以将经处理数据提供给第六系统,第六系统将使用经处理数据来实现组织的过程。第四系统可以将经处理数据提供给第六系统以替换存储在第六系统中的包括错误的数据。如由附图标记670所示,数据质量系统230可以与第六系统通信以确定与第六系统对经处理数据的使用相关的度量(例如,以确定经处理数据的使用是否修复与第六系统的操作相关的错误)。
如上所述,图6仅作为示例而被提供。其他示例是可能的并且可以不同于关于图6所描述的示例。
本文中描述的一些实现方式提供了一种数据质量系统,其能够从来源(例如,系统)接收数据,修复与数据相关联的数据质量问题,以及用已修复数据替换来源中的数据。以这种方式,数据质量系统可以更新数据的来源处的数据,使得每次使用数据时不需要修复数据。这通过减少或消除每次使用数据时修复数据的需要来节省组织的硬件资源的处理资源。此外,这通过减少或消除数据使用期间的错误来节省使用数据的硬件资源的处理资源,否则这些错误将通过使用包括错误的数据而消耗处理资源,将由于处理使用包括错误的数据而导致的错误而被消耗再处理资源,等等。此外,这通过减少从源接收数据与可以使用数据(例如,生成报告,实现特定过程等)之间的时间量来增加使用来自源的数据的效率。
根据本公开内容的一个实施例,提供了一种第一设备,包括:一个或多个处理器,用来:从第二设备的集合接收数据以被处理以确定所述数据的质量,所述数据包括:由第二设备的所述集合存储的第一数据,向第三设备被提供的第二数据,或者与第四数据相关的第三数据;使用技术的第一集合处理所述数据以准备所述数据以用于与提高所述数据的所述质量相关的处理;使用技术的第二集合处理所述数据以提高所述数据的所述质量并且形成经处理数据,所述经处理数据将由第二设备的所述集合使用或存储;向第二设备的所述集合提供所述经处理数据以替换由第二设备的所述集合存储的所述数据,或者向另一目的地提供所述经处理数据以允许第二设备的所述集合或所述另一目的地使用所述经处理数据,所述经处理数据向第二设备的所述集合被提供以提高由第二设备的所述集合存储的所述数据的所述质量;以及在向第二设备的所述集合或所述另一目的地提供所述经处理数据之后执行动作。
在所述第一设备中,其中所述一个或多个处理器还用来:监测第二设备的所述集合的操作;标识与第二设备的所述集合的所述操作相关的另一错误;并且其中所述一个或多个处理器在接收所述数据时用来:基于标识与第二设备的所述集合的所述操作相关的所述另一错误来从第二设备的所述集合接收所述数据。
在所述第一设备中,其中技术的所述第一集合包括:聚合所述数据,对所述数据进行去重复,格式化所述数据,或者修复被包括在所述数据中的损坏的数据元素。
在所述第一设备中,其中所述一个或多个处理器在使用技术的所述第一集合处理所述数据时用来:基于对所述数据的预期使用来处理所述数据,所述预期使用根据所述数据或根据从所述第三设备接收的、标识所述数据的所述预期使用的信息被确定。
在所述第一设备中,其中所述一个或多个处理器还用来:标识将被用于确定所述数据的所述质量的规则的集合;并且其中所述一个或多个处理器在使用技术的所述第二集合处理所述数据时用来:基于标识规则的所述集合、使用规则的所述集合来处理所述数据。
在所述第一设备中,其中所述一个或多个处理器在使用技术的所述第二集合处理所述数据时用来:确定所述数据是否满足规则的集合以确定所述数据的所述质量。
在所述第一设备中,其中所述一个或多个处理器还用来:确定修复所述数据以提高所述数据的所述质量的方式;基于确定修复所述数据的所述方式来执行一个或多个动作以修复所述数据,所述一个或多个动作形成所述经处理数据;并且其中所述一个或多个处理器在提供所述经处理数据时用来:在执行所述一个或多个动作之后向第二设备的所述集合提供所述经处理数据。
根据本公开内容的另一实施例,提供了一种方法,包括:由第一设备从第二设备的集合接收数据以被处理以确定所述数据是否包括错误,所述数据包括:由第二设备的所述集合存储的第一数据,向第三设备被提供的第二数据,或者与第四数据相关的第三数据;由所述第一设备使用技术的第一集合处理所述数据以准备所述数据以用于与确定所述数据是否包括所述错误相关的处理;由所述第一设备使用技术的第二集合处理所述数据以积极地影响所述错误并且形成经处理数据,所述经处理数据将由第二设备的所述集合使用或存储;由所述第一设备向第二设备的所述集合提供所述经处理数据以通过替换被存储在第二设备的所述集合中的数据来积极地影响所述错误,或者向另一目的地提供所述经处理数据以允许第二设备的所述集合或所述另一目的地使用所述经处理数据;以及由所述第一设备在向第二设备的所述集合或所述另一目的地提供所述经处理数据之后执行动作。
在所述方法中,其中使用技术的所述第一集合处理所述数据包括:基于所述数据的预期使用来处理所述数据。
在所述方法中,还包括:确定所述数据的简档;并且其中使用技术的所述第二集合处理所述数据包括:基于所述数据的所述简档、使用技术的所述第二集合处理所述数据。
在所述方法中,其中使用技术的所述第二集合处理所述数据包括:使用机器学习处理所述数据以确定所述数据是否包括所述错误。
在所述方法中,还包括:基于使用技术的所述第二集合处理所述数据的结果来确定用于度量的集合的值;以及基于用于度量的所述集合的所述值来确定修复所述错误的方式。
在所述方法中,还包括:确定规则的集合以使用以使用机器学习来处理所述数据;并且其中使用技术的所述第二集合处理所述数据包括:使用规则的所述集合处理所述数据。
在所述方法中,还包括:基于所述数据的预期使用来确定修复所述数据以积极地影响所述错误的方式;基于确定修复所述错误的所述方式来执行一个或多个动作以修复所述错误;并且其中向第二设备的所述集合提供所述经处理数据包括:在执行所述一个或多个动作之后向第二设备的所述集合提供所述经处理数据。
根据本公开内容的又一实施例,提供了一种存储指令的非暂态计算机可读介质,所述指令包括:在由一个或多个处理器执行时使得所述一个或多个处理器进行以下操作的一个或多个指令:从第一设备的集合接收数据,所述数据将被处理以确定所述数据是否包括错误;使用技术的第一集合处理所述数据以允许第二设备确定所述数据是否包括所述错误;使用与确定所述数据是否包括所述错误相关的技术的第二集合来处理所述数据,技术的所述第二集合将被用于形成经处理数据;基于使用技术的所述第二集合处理所述数据的结果来确定所述数据是否包括所述错误;向第一设备的所述集合提供所述经处理数据以替换由第一设备的所述集合存储的数据,或者向另一目的地提供所述经处理数据,所述经处理数据向第一设备的所述集合被提供以积极地影响被包括在所述数据中的错误;以及在向第一设备的所述集合或所述另一目的地提供所述经处理数据之后执行动作。
在所述非暂态计算机可读介质中,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:确定所述数据的预期使用;并且其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:基于所述数据的预期使用、使用技术的所述第二集合来处理所述数据。
在所述非暂态计算机可读介质中,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:通过处理以下中的至少一项来确定用于所述数据的简档:由第一设备的所述集合存储的其他数据,标识第三设备的用户与所述数据交互的方式的信息,或者标识与所述数据相关联的主题或领域的信息;并且其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:在确定所述数据的所述简档之后使用技术的所述第二集合处理所述数据。
在所述非暂态计算机可读介质中,其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:使用机器学习处理所述数据以确定所述数据是否包括所述错误。
在所述非暂态计算机可读介质中,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:确定用于与所述数据相关的度量的集合的值;并且其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:基于用于度量的所述集合的所述值、使用技术的所述第二集合来处理所述数据。
在所述非暂态计算机可读介质中,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:基于用于度量的所述集合的所述值来标识所述错误;确定使用技术的所述第二集合处理所述数据的方式;并且其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:在确定处理所述数据以修复所述错误的所述方式之后,使用技术的所述第二集合处理所述数据。
前面的公开内容提供了说明和描述,但是并非旨在穷尽或将实现方式限于所公开的精确形式。鉴于上述公开内容,修改和变化是可能的,或者可以从实现方式的实践而被获取。
如本文中使用的,术语组件旨在被广义地解释为硬件、固件和/或硬件和软件的组合。
本文中结合阈值描述了一些实现方式。如本文中使用的,满足阈值可以是指值大于阈值,多于阈值,高于阈值,大于或等于阈值,小于阈值,少于阈值,低于阈值的值,小于或等于阈值,等于阈值,等等。
显而易见的是,本文中描述的系统和/或方法可以按照不同形式的硬件、固件或硬件和软件的组合而被实现。用于实现这些系统和/或方法的实际的专用控制硬件或软件代码不是对实现方式的限制。因此,本文中描述了系统和/或方法的操作和行为,而没有参考具体的软件代码,应当理解,软件和硬件可以被设计为基于本文中的描述来实现这些系统和/或方法。
尽管特征的特定组合在权利要求中列举和/或在说明书中公开,但是这些组合不意图限制可能实现方式的公开内容。实际上,这些特征中的很多特征可以按照未在权利要求中被具体记载和/或在说明书中被公开的方式而被组合。尽管下面列出的每个从属权利要求可以仅直接依赖于一项权利要求,但是可能的实现方式的公开内容包括每个从属权利要求与权利要求集合中的每个其他权利要求的组合。
除非被明确地如此描述,否则本文中使用的任何元素、动作或指令都不应当被解释为是关键或必要的。而且,如本文中使用的,冠词“一个(a)”和“一个(an)”旨在包括一个或多个项目,并且可以与“一个或多个”可互换地被使用。此外,如本文中使用的,术语“集合”旨在包括一个或多个项目(例如,相关项目、不相关项目、相关项目和不相关项目的组合等),并且可以与“一个或多个”可互换地被使用。在意图只有一个项目的情况下,使用术语“一个(one)”或类似的语言。而且,如本文中使用的,术语“具有(has)”、“具有(have)”、“具有(having)”等意图是开放式术语。此外,除非另有明确说明,否则短语“基于”旨在表示“至少部分基于”。

Claims (20)

1.一种第一设备,包括:
用于从第二设备的集合接收数据以被处理以确定所述数据的质量的装置,
所述数据包括:
由第二设备的所述集合存储的第一数据,
向第三设备被提供的第二数据,或者
与第四数据相关的第三数据;
用于使用技术的第一集合处理所述数据以准备所述数据以用于与提高所述数据的所述质量相关的处理的装置;
用于使用技术的第二集合处理所述数据以提高所述数据的所述质量并且形成经处理数据的装置,
所述经处理数据将由第二设备的所述集合使用或存储;
用于向第二设备的所述集合提供所述经处理数据以替换由第二设备的所述集合存储的所述数据、或者向另一目的地提供所述经处理数据以允许第二设备的所述集合或所述另一目的地使用所述经处理数据的装置,
所述经处理数据向第二设备的所述集合被提供以提高由第二设备的所述集合存储的所述数据的所述质量;以及
用于在向第二设备的所述集合或所述另一目的地提供所述经处理数据之后执行动作的装置。
2.根据权利要求1所述的第一设备,还包括:
用于监测第二设备的所述集合的操作的装置;
用于标识与第二设备的所述集合的所述操作相关的另一错误的装置;并且
其中用于接收所述数据的所述装置包括:
用于基于标识与第二设备的所述集合的所述操作相关的所述另一错误来从第二设备的所述集合接收所述数据的装置。
3.根据权利要求1所述的第一设备,其中技术的所述第一集合包括:
聚合所述数据,
对所述数据进行去重复,
格式化所述数据,或者
修复被包括在所述数据中的损坏的数据元素。
4.根据权利要求1所述的第一设备,其中用于使用技术的所述第一集合处理所述数据的所述装置包括:
用于基于对所述数据的预期使用来处理所述数据的装置,
所述预期使用根据所述数据或根据从所述第三设备接收的、标识所述数据的所述预期使用的信息被确定。
5.根据权利要求1所述的第一设备,还包括:
用于标识将被用于确定所述数据的所述质量的规则的集合的装置;并且
其中用于使用技术的所述第二集合处理所述数据的所述装置包括:
用于基于标识规则的所述集合、使用规则的所述集合来处理所述数据的装置。
6.根据权利要求1所述的第一设备,其中用于使用技术的所述第二集合处理所述数据的所述装置包括:
用于确定所述数据是否满足规则的集合以确定所述数据的所述质量的装置。
7.根据权利要求1所述的第一设备,还包括:
用于确定修复所述数据以提高所述数据的所述质量的方式的装置;
用于基于确定修复所述数据的所述方式来执行一个或多个动作以修复所述数据的装置,
所述一个或多个动作形成所述经处理数据;并且
其中用于提供所述经处理数据的所述装置包括:
用于在执行所述一个或多个动作之后向第二设备的所述集合提供所述经处理数据的装置。
8.一种方法,包括:
由第一设备从第二设备的集合接收数据以被处理以确定所述数据是否包括错误,
所述数据包括:
由第二设备的所述集合存储的第一数据,
向第三设备被提供的第二数据,或者
与第四数据相关的第三数据;
由所述第一设备使用技术的第一集合处理所述数据以准备所述数据以用于与确定所述数据是否包括所述错误相关的处理;
由所述第一设备使用技术的第二集合处理所述数据以积极地影响所述错误并且形成经处理数据,
所述经处理数据将由第二设备的所述集合使用或存储;
由所述第一设备向第二设备的所述集合提供所述经处理数据以通过替换被存储在第二设备的所述集合中的数据来积极地影响所述错误,或者向另一目的地提供所述经处理数据以允许第二设备的所述集合或所述另一目的地使用所述经处理数据;以及
由所述第一设备在向第二设备的所述集合或所述另一目的地提供所述经处理数据之后执行动作。
9.根据权利要求8所述的方法,其中使用技术的所述第一集合处理所述数据包括:
基于所述数据的预期使用来处理所述数据。
10.根据权利要求8所述的方法,还包括:
确定所述数据的简档;并且
其中使用技术的所述第二集合处理所述数据包括:
基于所述数据的所述简档、使用技术的所述第二集合处理所述数据。
11.根据权利要求8所述的方法,其中使用技术的所述第二集合处理所述数据包括:
使用机器学习处理所述数据以确定所述数据是否包括所述错误。
12.根据权利要求8所述的方法,还包括:
基于使用技术的所述第二集合处理所述数据的结果来确定用于度量的集合的值;以及
基于用于度量的所述集合的所述值来确定修复所述错误的方式。
13.根据权利要求8所述的方法,还包括:
确定规则的集合以使用以使用机器学习来处理所述数据;并且
其中使用技术的所述第二集合处理所述数据包括:
使用规则的所述集合处理所述数据。
14.根据权利要求8所述的方法,还包括:
基于所述数据的预期使用来确定修复所述数据以积极地影响所述错误的方式;
基于确定修复所述错误的所述方式来执行一个或多个动作以修复所述错误;并且
其中向第二设备的所述集合提供所述经处理数据包括:
在执行所述一个或多个动作之后向第二设备的所述集合提供所述经处理数据。
15.一种存储指令的非暂态计算机可读介质,所述指令包括:
在由一个或多个处理器执行时使得所述一个或多个处理器进行以下操作的一个或多个指令:
从第一设备的集合接收数据,
所述数据将被处理以确定所述数据是否包括错误;
使用技术的第一集合处理所述数据以允许第二设备确定所述数据是否包括所述错误;
使用与确定所述数据是否包括所述错误相关的技术的第二集合来处理所述数据,
技术的所述第二集合将被用于形成经处理数据;
基于使用技术的所述第二集合处理所述数据的结果来确定所述数据是否包括所述错误;
向第一设备的所述集合提供所述经处理数据以替换由第一设备的所述集合存储的数据,或者向另一目的地提供所述经处理数据,
所述经处理数据向第一设备的所述集合被提供以积极地影响被包括在所述数据中的错误;以及
在向第一设备的所述集合或所述另一目的地提供所述经处理数据之后执行动作。
16.根据权利要求15所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:
确定所述数据的预期使用;并且
其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:
基于所述数据的预期使用、使用技术的所述第二集合来处理所述数据。
17.根据权利要求15所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:
通过处理以下中的至少一项来确定用于所述数据的简档:
由第一设备的所述集合存储的其他数据,
标识第三设备的用户与所述数据交互的方式的信息,或者
标识与所述数据相关联的主题或领域的信息;并且
其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:
在确定所述数据的所述简档之后使用技术的所述第二集合处理所述数据。
18.根据权利要求15所述的非暂态计算机可读介质,其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:
使用机器学习处理所述数据以确定所述数据是否包括所述错误。
19.根据权利要求15所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:
确定用于与所述数据相关的度量的集合的值;并且
其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:
基于用于度量的所述集合的所述值、使用技术的所述第二集合来处理所述数据。
20.根据权利要求19所述的非暂态计算机可读介质,其中所述一个或多个指令在由所述一个或多个处理器执行时还使得所述一个或多个处理器:
基于用于度量的所述集合的所述值来标识所述错误;
确定使用技术的所述第二集合处理所述数据的方式;并且
其中使得所述一个或多个处理器使用技术的所述第二集合处理所述数据的所述一个或多个指令使得所述一个或多个处理器:
在确定处理所述数据以修复所述错误的所述方式之后,使用技术的所述第二集合处理所述数据。
CN201810654689.8A 2017-06-23 2018-06-22 处理数据以提高数据的质量 Pending CN109117421A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
IN201741022092 2017-06-23
IN201741022092 2017-06-23
US15/674,235 2017-08-10
US15/674,235 US10379920B2 (en) 2017-06-23 2017-08-10 Processing data to improve a quality of the data

Publications (1)

Publication Number Publication Date
CN109117421A true CN109117421A (zh) 2019-01-01

Family

ID=64692563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810654689.8A Pending CN109117421A (zh) 2017-06-23 2018-06-22 处理数据以提高数据的质量

Country Status (2)

Country Link
US (1) US10379920B2 (zh)
CN (1) CN109117421A (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2989617A1 (en) * 2016-12-19 2018-06-19 Capital One Services, Llc Systems and methods for providing data quality management
EP3575980A3 (en) * 2018-05-29 2020-03-04 Accenture Global Solutions Limited Intelligent data quality
US11526784B2 (en) 2020-03-12 2022-12-13 Bank Of America Corporation Real-time server capacity optimization tool using maximum predicted value of resource utilization determined based on historica data and confidence interval
US11816077B2 (en) 2021-03-02 2023-11-14 Saudi Arabian Oil Company Measuring data quality in a structured database through SQL
US11874810B2 (en) 2021-03-02 2024-01-16 Saudi Arabian Oil Company Measuring data quality in a structured database through SQL
US20230109718A1 (en) * 2021-10-04 2023-04-13 Allstate Insurance Company Central Repository System with Customizable Subset Schema Design and Simplification Layer

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645402A (zh) * 2005-01-19 2005-07-27 北京交通大学 一种道路交通流数据质量控制方法与装置
WO2013152810A1 (en) * 2012-04-12 2013-10-17 Qatar Foundation Data cleaning
WO2015154678A1 (zh) * 2014-04-08 2015-10-15 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN105101277A (zh) * 2015-09-01 2015-11-25 中国联合网络通信集团有限公司 一种判断监测区域及传感节点异常的方法、装置和系统
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2788356C (en) 2011-08-31 2016-05-03 Accenture Global Services Limited Data quality analysis and management system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1645402A (zh) * 2005-01-19 2005-07-27 北京交通大学 一种道路交通流数据质量控制方法与装置
WO2013152810A1 (en) * 2012-04-12 2013-10-17 Qatar Foundation Data cleaning
WO2015154678A1 (zh) * 2014-04-08 2015-10-15 北京奇虎科技有限公司 一种文件处理方法、设备和网络系统
CN105101277A (zh) * 2015-09-01 2015-11-25 中国联合网络通信集团有限公司 一种判断监测区域及传感节点异常的方法、装置和系统
CN106651188A (zh) * 2016-12-27 2017-05-10 贵州电网有限责任公司贵阳供电局 一种输变电设备多源状态评估数据处理方法及其应用

Also Published As

Publication number Publication date
US10379920B2 (en) 2019-08-13
US20180373579A1 (en) 2018-12-27

Similar Documents

Publication Publication Date Title
CN109117421A (zh) 处理数据以提高数据的质量
US20210303381A1 (en) System and method for automating fault detection in multi-tenant environments
CN103377281B (zh) 用于修复过度承诺的计算环境中的过载的方法和系统
US10922163B2 (en) Determining server error types
CN104424354B (zh) 使用用户操作生成模型检测异常用户行为的方法和系统
US9122602B1 (en) Root cause detection service
CN112685170B (zh) 备份策略的动态优化
CN109670690A (zh) 数据信息中心监控预警方法、系统及设备
AU2017258970A1 (en) Testing and improving performance of mobile application portfolios
CN107967485A (zh) 用电计量设备故障分析方法及装置
US11283863B1 (en) Data center management using digital twins
US11847502B2 (en) Remotely managing execution of jobs in a cluster computing framework
CN110244994A (zh) 用于数据处理系统的数据模块管理
US11392821B2 (en) Detecting behavior patterns utilizing machine learning model trained with multi-modal time series analysis of diagnostic data
US11386331B2 (en) Detecting correlation among sets of time series data
JP6419667B2 (ja) テストdbデータ生成方法及び装置
CN105069029B (zh) 一种实时etl系统及方法
Wladdimiro et al. Disaster management platform to support real-time analytics
Bommala et al. Machine learning job failure analysis and prediction model for the cloud environment
US9929921B2 (en) Techniques for workload toxic mapping
US11416801B2 (en) Analyzing value-related data to identify an error in the value-related data and/or a source of the error
US10339037B1 (en) Recommendation engine for recommending prioritized performance test workloads based on release risk profiles
CN110493217A (zh) 一种分布式的态势感知方法和系统
CN109947615A (zh) 分布式系统的监控方法和装置
Savitha et al. Auto scaling infrastructure with monitoring tools using linux server on cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190101