CN113468155B - 问题数据处理方法和装置 - Google Patents

问题数据处理方法和装置 Download PDF

Info

Publication number
CN113468155B
CN113468155B CN202110758608.0A CN202110758608A CN113468155B CN 113468155 B CN113468155 B CN 113468155B CN 202110758608 A CN202110758608 A CN 202110758608A CN 113468155 B CN113468155 B CN 113468155B
Authority
CN
China
Prior art keywords
data
line
record
task
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110758608.0A
Other languages
English (en)
Other versions
CN113468155A (zh
Inventor
荀志
胡艳敏
单军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202110758608.0A priority Critical patent/CN113468155B/zh
Publication of CN113468155A publication Critical patent/CN113468155A/zh
Application granted granted Critical
Publication of CN113468155B publication Critical patent/CN113468155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种问题数据处理方法及装置、电子设备、可读存储介质。本发明实施例通过对于从源数据库的源数据表抽取到数据仓库中的行数据,根据行数据中指定字段的数据,生成行数据对应的第一数据行标识,对行数据进行清洗,在确定行数据存在问题数据后,将行数据确定为问题行数据,若问题数据表中不存在第一数据行标识,将问题行数据、问题数据以及对应的第一数据行标识,写入问题数据表的记录中,形成第一数据行标识对应的记录数据,基于问题数据表,对问题行数据对应的问题数据进行整改,使数据整改后能够依据数据行标识在问题数据表中快速定位相应的记录,完成整改任务的自动关闭,为整改流程在线自动闭环提供基础,提高数交换效率。

Description

问题数据处理方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种问题数据处理方法及装置、电子设备、可读存储介质。
背景技术
在大数据时代,数据仓库一般建立在大数据平台上。数据处理过程为:原始数据调研、抽取加载数据到大数据平台、数据清洗、数据问题整改、数据建模、数据输出。
在数据量暴增的情况下,数据质量情况较差。此时,问题数据的及时发现以及快速平滑的反馈整改显得尤为重要。其中,问题数据可以通过数据清洗操作来发现。
对于问题数据,相关技术中,由人工手动在线上发起整改,然后线下整改数据,整改完成后需要人工确认整改流程是否结束。这样,导致相关技术的数交换效率较低。
发明内容
为克服相关技术中存在的问题,本发明提供了一种问题数据处理方法及装置、电子设备、可读存储介质,提高数据交换的效率。
根据本发明实施例的第一方面,提供一种问题数据处理方法,包括:
对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段;
对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据;
若问题数据表中不存在所述第一数据行标识,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
基于所述问题数据表,对所述问题行数据对应的问题数据进行整改。
根据本发明实施例的第二方面,提供一种问题数据处理装置,包括:
第一标识生成模块,用于对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段;
确定模块,用于对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据;
写入模块,用于若问题数据表中不存在所述第一数据行标识,将所述行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
整改模块,用于基于所述问题数据表,对所述问题行数据对应的问题数据进行整改。
根据本发明实施例的第三方面,提供一种电子设备,包括:
用于存储处理器的可执行指令的存储器;
所述处理器,用于执行所述指令,以实现第一方面任一项所述的方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有若干计算机指令,所述计算机指令被执行时实现第一方面任一项所述的方法。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明实施例,通过对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识,对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据,若问题数据表中不存在所述第一数据行标识,将所述问题行数据、所述问题数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,基于所述问题数据表,对所述问题行数据对应的问题数据进行整改,使得数据整改后能够依据数据行标识在问题数据表中快速定位相应的记录,完成整改任务的自动关闭,为整改流程在线自动闭环提供基础,提高数交换效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
图1是本发明实施例提供的问题数据处理方法的流程示例图。
图2是本发明实施例提供的问题数据处理装置的功能方块图。
图3是本发明实施例提供的电子设备的一个硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明实施例的一些方面相一致的装置和方法的例子。
在本发明实施例使用的术语是仅仅出于描述特定本发明实施例的目的,而非旨在限制本发明实施例。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
这里对数据处理过程的各个环节进行说明。
原始数据调研
向业务部门(数据的来源部门)调研原始数据表的信息,摸清数据表的业务关系、所在的业务系统,明确各个字段所代表的业务数据具体是什么含义、是否允许为空、是什么数据类型等。原始数据存储在源业务系统数据库中。
EL(Extract- Load,抽取-加载)工具抽取
依赖EL工具,根据源业务系统(对应存储数据的数据库为源数据库)中业务生产数据的实际情况,采用全量或增量,定时或实时的方式将源数据抽取到数据数仓中,该过程对数据不做任何加工处理。
数据清洗
在数据仓库中,将梳理出的数据标准与抽取过来的原始数据表的字段相关联,并进行标准化清洗形成标准化数据。
问题整改
对于清洗出的问题数据,发起整改任务(整改任务的形式可以为整改工单),以对问题数据进行整改。
相关技术中,对于问题数据的整改,由人工手动在数据仓库发起整改工单,然后线下整改数据,整改完成后需要人工确认整改流程是否结束。这种技术中,数据仓库与源数据库之间存在割裂,在数据仓库发起的整改工单没有有效闭环,需要线下人工处理。这样,导致相关技术的数交换效率较低。
并且,相关技术中,手动在线上发起质量整改工单,线下通过人工比对规范数据,查找问题原因,进而根据查找到的问题原因整改数据,将整改数据上传至系统,层层审批,直至确认。
并且,相关技术中,通过线下人工手动方式对问题数据进行整改。工作人员需要人工比对规范数据,查找问题原因,进而依据查找到的问题原因对问题数据进行人工修改,得到整改数据,再将整改数据上传至系统。可见,这种技术增加了问题数据的整改难度,并且对于工作人员提出了较高的要求。
针对上述问题,本发明实施例提供了一种能够提高数交换效率的问题数据处理方法。
下面通过实施例对本发明的问题数据处理方法进行详细说明。
图1是本发明实施例提供的问题数据处理方法的流程示例图。如图1所示,本实施例中,问题数据处理方法可以包括:
S101,对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段。
S102,对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据。
S103,若问题数据表中不存在所述第一数据行标识,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据。
S104,基于所述问题数据表,对所述问题行数据对应的问题数据进行整改。
本实施例中,源数据库中的源数据表可以用于存储业务系统生产出的原始数据。
在执行步骤S101之前,需要将源数据表中的行数据抽取到数据仓库中中。
其中,抽取主要依赖EL工具。在抽取时,可以根据源数据库对应的源业务系统中业务生产数据的实际情况,采用全量抽取或增量抽取、定时抽取或实时抽取的方式将行数据从源数据库抽取并加载到数据数仓中,抽取加载过程中对数据不做任何加工处理。
其中,在一个示例中,指定字段可以为主键字段。在另一个示例中,指定字段可以包括至少两个能够唯一标识问题数据所在行的字段。
在实际应用中,可以在配置清洗任务时确定指定字段。例如,在配置清洗任务时,接收用户输入的字段选择信息,字段选择信息指示哪些字段为指定字段。
本实施例中,在将问题数据写入问题数据表之前,需要对数据行标识进行匹配,即查看当前问题数据表中是否存在与第一数据行标识相同的数据行标识。如果存在,则更新问题数据表中第一数据行标识对应的记录数据,如果不存在,则执行步骤S103的写入操作。
假设表1为源数据表中的一条存在问题数据的行数据,则该条行数据在问题数据表中对应的记录可以如表2所示。
表1
表2
从表2可以看出,问题数据表中除包括源数据表的数据外,还会增加问题数据的问题字段、问题类型、问题数据、问题记录时间、规则编码、问题描述、推荐值和唯一标识(即数据行标识)等字段。
表2中增加字段的解释如下:
其中,问题类型用于记录问题的有效性、完整性等;对应质量评估的6个度量维度(完整性、准确性、唯一性、一致性、时效性、规范性)。
其中,问题类型用于记录问题的有效性、完整性等;对应质量评估的6个度量维度(完整性、准确性、唯一性、一致性、时效性、规范性)。
其中,问题数据表示问题数据对应问题字段的数据。
其中,问题记录时间用于记录实时清洗任务开始运行的时间。
其中,规则名称用于描述问题产生的清洗规则名称。
其中,规则编码用于标识问题数据产生的编码规则类型,如:字典表标准化:R001001000001。
其中,推荐值是问题数据的推荐值,从数据元中获取,如无,则不填写。
其中,唯一标识为md5值,确保该行数据的唯一性。
通过为问题数据所在行生成能够唯一标识该行的数据行标识并将数据行标识写入问题数据表,在问题数据整改后,相应的整改后的行数据再次进入数据仓库后,可以依据数据行标识在问题数据表中快速定位相应的记录,进而完成整改任务(也可称为整改工单)的关闭,实现整改流程在线自动闭环,以提高数交换效率。
表1和表2示出了行数据中只有一个问题数据的情况。在一条行数据中存在多个问题数据时,可以将所有的问题数据都写在同一条记录中,也可以将不同的问题数据分别写在一条记录中。
例如,假设行数据1经过清洗后,发现3个问题数据:问题数据a、问题数据b、问题数据c,行数据1的数据行标识为N。
在一个示例中,可以将行数据1、问题数据a、问题数据b、问题数据c以及数据行标识为N写入同一条记录(比如记录1)中。此时,数据行标识N对应的记录为记录1。
在另一个示例中,可以将行数据1、问题数据a、数据行标识为N写入记录1中;将行数据1、问题数据b、数据行标识为N写入记录2中;将行数据1、问题数据c、数据行标识为N写入记录3中。此时,数据行标识N对应的记录为记录1、记录2和记录3。
在一个示例中,所述方法还可以包括:
将所述问题行数据对应的整改后数据抽取至所述数据仓库,并根据所述整改后数据中所述指定字段的数据,生成所述整改后数据对应的第二数据行标识;
在所述数据仓库中对所述整改后数据进行清洗,得到清洗结果后,在所述问题数据表中查找与所述第二数据行标识匹配的所述第一数据行标识;
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据无问题数据时,从所述问题数据表中删除所述第一数据行标识对应的记录数据,结束所述问题行数据对应的整改任务,其中,所述整改任务是基于所述问题数据表中的所述问题行数据生成、并由所述数据仓库发送给所述源数据库中的所述源数据表的。
本实施例在整改完成且无问题数据后,依据数据行标识在问题数据表中快速定位相应的记录,完成了整改任务的自动关闭,实现了整改流程在线自动闭环,提高了数交换效率。
在一个示例中,所述方法还可以包括:
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据存在问题数据时,根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,得到所述问题行数据对应的更新后整改任务;
将所述更新后整改任务发送给所述源数据库中的所述源数据表,以对所述问题行数据对应的新问题数据进行整改。
其中,问题行数据对应的新问题数据即整改后数据存在的新问题数据。
本实施例在整改后数据仍然存在问题数据时,能够自动更新问题数据表中的记录和整改任务,并自动发起再次整改的流程,避免了人工重新发起整改任务的繁琐操作,提高了数交换效率。
在前述实施例的基础上,在一个示例中,所述问题行数据的全部问题数据记录在所述问题数据表的同一条记录中;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,可以包括:
在所述问题数据表中所述第一数据行标识对应的记录数据中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
将所述问题行数据对应的整改任务中的记录数据替换为所述更新后记录数据。
例如,在前述的行数据1、问题数据a、问题数据b、问题数据c以及数据行标识为N写入同一条记录(比如记录1)中时,如果经过整改后,对整改后数据再次进行清洗时,发现整改后数据只存在问题数据c,不存在问题数据a和问题数据b,则可以将记录1中的问题数据a和问题数据b删除,保留问题数据c。如果整改后数据还存在问题数据d,则需要在记录1中增加问题数据d。
本实施例提供了一种基于整改后数据存在的新问题数据更新问题数据表中的记录和整改任务的方式,能够自动实现第一数据行标识对应的问题数据表记录和整改任务的更新,提高了数交换效率。
需要说明的是,如果整改后数据存在的新问题数据与原行数据的问题数据相同,比如前面的示例中整改后数据存在问题数据a、问题数据b、问题数据c的情况,此时问题数据表中第一数据行标识对应的记录和整改任务保持不变。
在一个示例中,所述问题行数据的不同问题数据记录在所述问题数据表的不同记录中,一个问题数据对应所述问题数据表的一条记录;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,包括:
在所述问题数据表中所述第一数据行标识对应的所有记录中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据对应的记录,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据对应的记录;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
关闭所述第一问题数据对应的整改任务;和/或,
生成所述第二问题数据对应的整改任务。
例如,前述的问题数据a、问题数据b、问题数据c分别写在问题数据表的记录1、记录2和记录3的情况下,如果经过整改后,对整改后数据再次进行清洗时,发现整改后数据只存在问题数据c,不存在问题数据a和问题数据b,则可以将问题数据表中的记录1和记录2删除,保留问题数据表中的记录3。假设问题数据a、问题数据b、问题数据c对应的整改任务分别为任务1、任务2、任务3,在更新整改任务时,将任务1、任务2删除,保留任务3。
如果整改后数据还存在问题数据d,则需要在问题数据表中增加记录问题数据d的记录4,并相应生成问题数据d对应的整改任务(假设为任务4)。然后将任务3和任务4发送给源数据库中的源数据表。
在一个示例中,基于所述问题数据表,对所述问题行数据对应的问题数据进行整改,包括:
生成所述问题行数据对应的整改任务,所述整改任务包括所述第一数据行标识对应的记录数据;
将所述整改任务发送给所述源数据库中的所述源数据表;
根据所述整改任务中的所述记录数据,在所述源数据表中定位目标行数据;
根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,获得所述问题行数据对应的整改后数据。
本实施例中,一个整改任务可以对应问题数据表中的一条记录。这样,第一数据行标识对应的记录有几条,就生成几个整改任务。
其中,根据所述整改任务中的所述记录数据,在所述源数据表中定位目标行数据的过程可以是:将记录数据中问题行数据的指定字段的数据,与源数据表中各个行数据中指定字段的数据进行比对,如果一致,则确定为目标行数据。
例如,假设指定字段为字段1和字段2,记录数据中问题行数据的字段1数据为A1,字段2的数据为B1。源数据表中某行数据中字段1数据为A2,字段2的数据为B2。则如果A1和A2一致,且B1和B2一致,则该行数据为目标行数据。
本实施例能够自动生成整改任务,避免了人工生成整改任务的繁琐操作,既节约了人力,又提高了效率。
在前述示例的基础上,在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
从所述问题数据对应的数据元中获取所述问题数据对应的推荐值;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述推荐值,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述推荐值;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
将所述目标行数据中的所述问题数据,修改为所述推荐值。
本实施例中,整改任务中包含推荐值,使得在对问题数据整改时可以根据推荐值直接修改问题数据,避免了人工比对规范数据和查找问题原因的繁琐过程,提高了整改效率。并且,由于不需要人工获取问题数据的正确值,因此本实施例还大大降低了整改难度,降低了对业务人员的要求。
在前述示例的基础上,在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述问题描述信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述问题描述信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第一目标值,所述第一目标值是基于所述整改任务中的所述问题描述信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第一目标值。
本实施例中,整改任务中包含问题描述信息,使得在对问题数据整改时,业务人员可以根据问题描述信息直接确定问题数据的修改值,避免了人工比对规范数据和查找问题原因的繁琐过程,提高了整改效率。并且,通过提供问题描述信息,本实施例还大大降低了整改难度,降低了对业务人员的要求。
在前述示例的基础上,在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第二目标值,所述第二目标值是基于所述整改任务中的所述目标清洗规则确定的;
将所述目标行数据中的所述问题数据,修改为所述第二目标值。
问题数据是基于清洗规则筛选出来的,问题数据是不符合相应清洗规则的数据。根据相应的清洗规则,可以确定问题数据所对应的正确数据。
本实施例中,通过在整改任务中包含问题描述信息对应的清洗规则,使得在对问题数据整改时,业务人员可以根据清洗规则直接确定问题数据的修改值,避免了人工比对规范数据和查找问题原因的繁琐过程,提高了整改效率。并且,通过提供问题数据对应的清洗规则,本实施例还大大降低了整改难度,降低了对业务人员的要求。
在前述示例的基础上,在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
从所述目标清洗规则中提取所述目标清洗规则的定义信息;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则的定义信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则的定义信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第三目标值,所述第三目标值是基于所述整改任务中的所述目标清洗规则的定义信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第三目标值。
清洗规则中包括清洗规则的定义信息以及其他信息。其中,利用清洗规则的定义信息可以确定问题数据所对应的正确数据。
本实施例中,通过在整改任务中包含问题描述信息对应的清洗规则中的清洗规则定义信息,使得在对问题数据整改时,业务人员可以根据清洗规则定义信息直接确定问题数据的修改值,避免了人工比对规范数据和查找问题原因的繁琐过程,提高了整改效率。并且,通过提供问题数据对应的清洗规则定义信息,本实施例还大大降低了整改难度,降低了对业务人员的要求。
在前述示例的基础上,在一个示例中,从所述问题数据对应的数据元中获取所述问题数据对应的推荐值,包括:
确定所述问题数据对应的问题字段;
在预先存储的字段与数据元的对应关系中,查找所述问题字段对应的目标数据元;
从所述目标数据元中提取推荐值,作为所述问题数据对应的推荐值。
数据元是通过定义、标识、表示以及允许值等一系列属性描述的数据单元,在特定的语义环境中被认为是不可再分的最小数据单元。
本发明实施例中,在建立数据元时,在数据元中增加“推荐值”这一内容。推荐值用于提供该数据元对应的字段的正确数据值。
在应用中,可以以调研结果为依据,将各字段生成数据元,根据字段特性,设置数据元的规则,包括数据类型、数据范围、推荐值等。
表3为数据元的一个示例。
表3
这样,在清洗出问题数据后,可以根据问题字段对应的数据元,获得问题数据对应的推荐值,从而不需要人工比对规范数据和查找问题原因,就能够提供问题数据的正确数据值,降低整改难度。
本实施例通过字段与数据元的对应关系,能够自动确定问题字段对应的目标数据元,并自动从目标数据元中提取问题数据对应的推荐值,进而使源业务系统的业务人员可以依据推荐值对问题数据进行修改。这样,就避免了人工比对规范数据和人工确定如何修改问题数据,降低了问题数据的整改难度,同时也降低了对业务人员的要求,节约了时间,有助于提高问题数据的整改效率。
在上述示例基础上,在一个示例中,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识包括:
对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识。
例如,对于表1来说,假如字段“身份证号”为主键,则表2中对应于“张三”的问题数据的记录的数据行标识(也即表2中的唯一标识)可以通过对身份证号“33078520000101****”进行哈希运算得到。
在上述示例基础上,在一个示例中,对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识,包括:
对所述行数据中指定字段的数据进行MD5运算,以MD5运算的结果值作为所述行数据对应的第一数据行标识。
当然,在其他实施例中,也可以采用其他的哈希算法,本实施例对此不作限制。
在一个示例中,在根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识之前,所述方法还包括:
对所述指定字段的数据进行预清洗,以保证所述指定字段的数据的正确性。
本实施例中,预清洗是在生成第一数据行标识之前进行的,其目的是确保指定字段数据的正确,从而保证源数据表的中的每一行数据都具有唯一的行标识,避免后续整改过程中由于指定字段错误被修改,而无法对问题数据表中的记录与源数据进行关联,使问题数据表的中记录在问题数据整改完毕后仍然不能被删除,导致无法形成整改闭环,影响数据治理能力。
若经过预清洗,发现指定字段中不存在问题数据,则继续执行图1所示实施例的数据处理流程。
若经过预清洗,发现指定字段中存在问题数据,则对源数据表中的相应行数据中指定字段的数据进行修改,修改后,再将修改后的行数据抽取到数据仓库中,再次对指定字段的数据进行预清洗,如指定字段无问题数据,则执行图1所示实施例的数据处理流程。
本实施例通过预清洗,保证源数据表的中的每一行数据都具有唯一的行标识,确保问题数据表的中记录在问题数据整改完毕后能够被删除,有效形成整改闭环,提高了数据治理能力。
本发明实施例提供的问题数据处理方法,通过对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识,对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据,若问题数据表中不存在所述第一数据行标识,将所述问题行数据、所述问题数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,基于所述问题数据表,对所述问题行数据对应的问题数据进行整改,使得数据整改后能够依据数据行标识在问题数据表中快速定位相应的记录,完成整改任务的自动关闭,为整改流程在线自动闭环提供基础,提高数交换效率。
基于上述的方法实施例,本发明实施例还提供了相应的装置、设备及存储介质实施例。
图2是本发明实施例提供的问题数据处理装置的功能方块图。如图2所示,本实施例中,问题数据处理装置可以包括:
第一标识生成模块210,用于对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段;
确定模块220,用于对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据;
写入模块230,用于若问题数据表中不存在所述第一数据行标识,将所述行数据、所述问题数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
整改模块240,用于基于所述问题数据表,对所述问题行数据对应的问题数据进行整改。
在一个示例中,还包括:
第二标识生成模块,用于将所述问题行数据对应的整改后数据抽取至所述数据仓库,并根据所述整改后数据中所述指定字段的数据,生成所述整改后数据对应的第二数据行标识;
查找模块,用于在所述数据仓库中对所述整改后数据进行清洗,得到清洗结果后,在所述问题数据表中查找与所述第二数据行标识匹配的所述第一数据行标识;
删除模块,用于在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据无问题数据时,从所述问题数据表中删除所述第一数据行标识对应的记录数据,结束所述问题行数据对应的整改任务,其中,所述整改任务是基于所述问题数据表中的所述问题行数据生成、并由所述数据仓库发送给所述源数据库中的所述源数据表的。
在一个示例中,还包括:
记录更新模块,用于在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据存在问题数据时,根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据;
任务更新模块,用于根据所述更新后记录数据,更新所述问题行数据对应的整改任务,得到所述问题行数据对应的更新后整改任务;
发送模块,用于将所述更新后整改任务发送给所述源数据库中的所述源数据表,以对所述问题行数据对应的新问题数据进行整改。
在一个示例中,所述问题行数据的全部问题数据记录在所述问题数据表的同一条记录中;
所述记录更新模块具体用于:
在所述问题数据表中所述第一数据行标识对应的记录数据中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据;
所述任务更新模块具体用于:
将所述问题行数据对应的整改任务中的记录数据替换为所述更新后记录数据。
在一个示例中,所述问题行数据的不同问题数据记录在所述问题数据表的不同记录中,一个问题数据对应所述问题数据表的一条记录;
所述记录更新模块具体用于:
在所述问题数据表中所述第一数据行标识对应的所有记录中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据对应的记录,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据对应的记录;
所述任务更新模块具体用于:
关闭所述第一问题数据对应的整改任务;和/或,
生成所述第二问题数据对应的整改任务。
在一个示例中,整改模块240具体用于:
生成所述问题行数据对应的整改任务,所述整改任务包括所述第一数据行标识对应的记录数据;
将所述整改任务发送给所述源数据库中的所述源数据表;
根据所述整改任务中的所述记录数据,在所述源数据表中定位目标行数据;
根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,获得所述问题行数据对应的整改后数据。
在一个示例中,还包括:
推荐值获取模块,用于从所述问题数据对应的数据元中获取所述问题数据对应的推荐值;
写入模块230具体用于:
将所述问题行数据以及对应的第一数据行标识和所述推荐值,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述推荐值;整改模块240具体用于:
将所述目标行数据中的所述问题数据,修改为所述推荐值。
在一个示例中,还包括:
描述信息获取模块,用于获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
写入模块230具体用于:
将所述问题行数据以及对应的第一数据行标识和所述问题描述信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述问题描述信息;整改模块240具体用于:
接收用户输入的第一目标值,所述第一目标值是基于所述整改任务中的所述问题描述信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第一目标值。
在一个示例中,还包括:
描述信息获取模块,用于获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
规则查找模块,用于根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
写入模块230具体用于:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则;整改模块240具体用于:
接收用户输入的第二目标值,所述第二目标值是基于所述整改任务中的所述目标清洗规则确定的;
将所述目标行数据中的所述问题数据,修改为所述第二目标值。
在一个示例中,还包括:
描述信息获取模块,用于获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
规则查找模块,用于根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
规则查找模块,用于从所述目标清洗规则中提取所述目标清洗规则的定义信息;
写入模块230具体用于:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则的定义信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则的定义信息;整改模块240具体用于:
接收用户输入的第三目标值,所述第三目标值是基于所述整改任务中的所述目标清洗规则的定义信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第三目标值。
在一个示例中,推荐值获取模块具体用于:
确定所述问题数据对应的问题字段;
在预先存储的字段与数据元的对应关系中,查找所述问题字段对应的目标数据元;
从所述目标数据元中提取推荐值,作为所述问题数据对应的推荐值。
在一个示例中,第一标识生成模块210具体用于:
对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识。
在一个示例中,对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识,包括:
对所述行数据中指定字段的数据进行MD5运算,以MD5运算的结果值作为所述行数据对应的第一数据行标识。
在一个示例中,还包括:
预清洗模块,用于对所述指定字段的数据进行预清洗,以保证所述指定字段的数据的正确性。
本发明实施例还提供了一种电子设备。图3是本发明实施例提供的电子设备的一个硬件结构图。如图3所示,电子设备包括:内部总线301,以及通过内部总线连接的存储器302,处理器303和外部接口304,其中:
所述存储器302,用于存储数据处理逻辑对应的机器可读指令;
所述处理器303,用于读取存储器302上的机器可读指令,并执行所述指令以实现如下操作:
对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段;
对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据;
若问题数据表中不存在所述第一数据行标识,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
基于所述问题数据表,对所述问题行数据对应的问题数据进行整改。
在一个示例中,还包括:
将所述问题行数据对应的整改后数据抽取至所述数据仓库,并根据所述整改后数据中所述指定字段的数据,生成所述整改后数据对应的第二数据行标识;
在所述数据仓库中对所述整改后数据进行清洗,得到清洗结果后,在所述问题数据表中查找与所述第二数据行标识匹配的所述第一数据行标识;
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据无问题数据时,从所述问题数据表中删除所述第一数据行标识对应的记录数据,结束所述问题行数据对应的整改任务,其中,所述整改任务是基于所述问题数据表中的所述问题行数据生成、并由所述数据仓库发送给所述源数据库中的所述源数据表的。
在一个示例中,还包括:
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据存在问题数据时,根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,得到所述问题行数据对应的更新后整改任务;
将所述更新后整改任务发送给所述源数据库中的所述源数据表,以对所述问题行数据对应的新问题数据进行整改。
在一个示例中,所述问题行数据的全部问题数据记录在所述问题数据表的同一条记录中;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,包括:
在所述问题数据表中所述第一数据行标识对应的记录数据中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
将所述问题行数据对应的整改任务中的记录数据替换为所述更新后记录数据。
在一个示例中,所述问题行数据的不同问题数据记录在所述问题数据表的不同记录中,一个问题数据对应所述问题数据表的一条记录;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,包括:
在所述问题数据表中所述第一数据行标识对应的所有记录中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据对应的记录,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据对应的记录;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
关闭所述第一问题数据对应的整改任务;和/或,
生成所述第二问题数据对应的整改任务。
在一个示例中,基于所述问题数据表,对所述问题行数据对应的问题数据进行整改,包括:
生成所述问题行数据对应的整改任务,所述整改任务包括所述第一数据行标识对应的记录数据;
将所述整改任务发送给所述源数据库中的所述源数据表;
根据所述整改任务中的所述记录数据,在所述源数据表中定位目标行数据;
根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,获得所述问题行数据对应的整改后数据。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
从所述问题数据对应的数据元中获取所述问题数据对应的推荐值;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述推荐值,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述推荐值;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
将所述目标行数据中的所述问题数据,修改为所述推荐值。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述问题描述信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述问题描述信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第一目标值,所述第一目标值是基于所述整改任务中的所述问题描述信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第一目标值。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第二目标值,所述第二目标值是基于所述整改任务中的所述目标清洗规则确定的;
将所述目标行数据中的所述问题数据,修改为所述第二目标值。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
从所述目标清洗规则中提取所述目标清洗规则的定义信息;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则的定义信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则的定义信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第三目标值,所述第三目标值是基于所述整改任务中的所述目标清洗规则的定义信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第三目标值。
在一个示例中,从所述问题数据对应的数据元中获取所述问题数据对应的推荐值,包括:
确定所述问题数据对应的问题字段;
在预先存储的字段与数据元的对应关系中,查找所述问题字段对应的目标数据元;
从所述目标数据元中提取推荐值,作为所述问题数据对应的推荐值。
在一个示例中,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识包括:
对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识。
在一个示例中,对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识,包括:
对所述行数据中指定字段的数据进行MD5运算,以MD5运算的结果值作为所述行数据对应的第一数据行标识。
在一个示例中,在根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识之前,所述方法还包括:
对所述指定字段的数据进行预清洗,以保证所述指定字段的数据的正确性。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有若干计算机指令,所述计算机指令被执行时进行如下处理:
对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段;
对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据;
若问题数据表中不存在所述第一数据行标识,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
基于所述问题数据表,对所述问题行数据对应的问题数据进行整改。
在一个示例中,还包括:
将所述问题行数据对应的整改后数据抽取至所述数据仓库,并根据所述整改后数据中所述指定字段的数据,生成所述整改后数据对应的第二数据行标识;
在所述数据仓库中对所述整改后数据进行清洗,得到清洗结果后,在所述问题数据表中查找与所述第二数据行标识匹配的所述第一数据行标识;
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据无问题数据时,从所述问题数据表中删除所述第一数据行标识对应的记录数据,结束所述问题行数据对应的整改任务,其中,所述整改任务是基于所述问题数据表中的所述问题行数据生成、并由所述数据仓库发送给所述源数据库中的所述源数据表的。
在一个示例中,还包括:
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据存在问题数据时,根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,得到所述问题行数据对应的更新后整改任务;
将所述更新后整改任务发送给所述源数据库中的所述源数据表,以对所述问题行数据对应的新问题数据进行整改。
在一个示例中,所述问题行数据的全部问题数据记录在所述问题数据表的同一条记录中;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,包括:
在所述问题数据表中所述第一数据行标识对应的记录数据中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
将所述问题行数据对应的整改任务中的记录数据替换为所述更新后记录数据。
在一个示例中,所述问题行数据的不同问题数据记录在所述问题数据表的不同记录中,一个问题数据对应所述问题数据表的一条记录;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,包括:
在所述问题数据表中所述第一数据行标识对应的所有记录中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据对应的记录,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据对应的记录;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
关闭所述第一问题数据对应的整改任务;和/或,
生成所述第二问题数据对应的整改任务。
在一个示例中,基于所述问题数据表,对所述问题行数据对应的问题数据进行整改,包括:
生成所述问题行数据对应的整改任务,所述整改任务包括所述第一数据行标识对应的记录数据;
将所述整改任务发送给所述源数据库中的所述源数据表;
根据所述整改任务中的所述记录数据,在所述源数据表中定位目标行数据;
根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,获得所述问题行数据对应的整改后数据。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
从所述问题数据对应的数据元中获取所述问题数据对应的推荐值;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述推荐值,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述推荐值;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
将所述目标行数据中的所述问题数据,修改为所述推荐值。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述问题描述信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述问题描述信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第一目标值,所述第一目标值是基于所述整改任务中的所述问题描述信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第一目标值。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第二目标值,所述第二目标值是基于所述整改任务中的所述目标清洗规则确定的;
将所述目标行数据中的所述问题数据,修改为所述第二目标值。
在一个示例中,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
从所述目标清洗规则中提取所述目标清洗规则的定义信息;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则的定义信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则的定义信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第三目标值,所述第三目标值是基于所述整改任务中的所述目标清洗规则的定义信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第三目标值。
在一个示例中,从所述问题数据对应的数据元中获取所述问题数据对应的推荐值,包括:
确定所述问题数据对应的问题字段;
在预先存储的字段与数据元的对应关系中,查找所述问题字段对应的目标数据元;
从所述目标数据元中提取推荐值,作为所述问题数据对应的推荐值。
在一个示例中,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识包括:
对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识。
在一个示例中,对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识,包括:
对所述行数据中指定字段的数据进行MD5运算,以MD5运算的结果值作为所述行数据对应的第一数据行标识。
在一个示例中,在根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识之前,所述方法还包括:
对所述指定字段的数据进行预清洗,以保证所述指定字段的数据的正确性。
对于装置和设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。
应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

Claims (15)

1.一种问题数据处理方法,其特征在于,包括:
对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段;
对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据;
若问题数据表中不存在所述第一数据行标识,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
生成所述问题行数据对应的整改任务,所述整改任务包括所述第一数据行标识对应的记录数据;其中,所述整改任务是基于所述问题数据表中的所述问题行数据生成、并由所述数据仓库发送给所述源数据库中的所述源数据表的;
将所述整改任务发送给所述源数据库中的所述源数据表;
根据所述整改任务中的所述记录数据,在所述源数据表中定位目标行数据;
根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,获得所述问题行数据对应的整改后数据;
将所述问题行数据对应的整改后数据抽取至所述数据仓库,并根据所述整改后数据中所述指定字段的数据,生成所述整改后数据对应的第二数据行标识;
在所述数据仓库中对所述整改后数据进行清洗,得到清洗结果后,在所述问题数据表中查找与所述第二数据行标识匹配的所述第一数据行标识;
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据无问题数据时,从所述问题数据表中删除所述第一数据行标识对应的记录数据,结束所述问题行数据对应的整改任务。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据存在问题数据时,根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,得到所述问题行数据对应的更新后整改任务;
将所述更新后整改任务发送给所述源数据库中的所述源数据表,以对所述问题行数据对应的新问题数据进行整改。
3.根据权利要求2所述的方法,其特征在于,所述问题行数据的全部问题数据记录在所述问题数据表的同一条记录中;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,包括:
在所述问题数据表中所述第一数据行标识对应的记录数据中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
将所述问题行数据对应的整改任务中的记录数据替换为所述更新后记录数据。
4.根据权利要求2所述的方法,其特征在于,所述问题行数据的不同问题数据记录在所述问题数据表的不同记录中,一个问题数据对应所述问题数据表的一条记录;
根据所述整改后数据存在的新问题数据更新所述问题数据表中所述第一数据行标识对应的记录数据,得到所述第一数据行标识对应的更新后记录数据,包括:
在所述问题数据表中所述第一数据行标识对应的所有记录中,删除原记录数据中存在、所述新问题数据中不存在的第一问题数据对应的记录,和/或,添加原记录数据中不存在、所述新问题数据中存在的第二问题数据对应的记录;
根据所述更新后记录数据,更新所述问题行数据对应的整改任务,包括:
关闭所述第一问题数据对应的整改任务;和/或,
生成所述第二问题数据对应的整改任务。
5.根据权利要求1所述的方法,其特征在于,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
从所述问题数据对应的数据元中获取所述问题数据对应的推荐值;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述推荐值,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述推荐值;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
将所述目标行数据中的所述问题数据,修改为所述推荐值。
6.根据权利要求1所述的方法,其特征在于,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述问题描述信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述问题描述信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第一目标值,所述第一目标值是基于所述整改任务中的所述问题描述信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第一目标值。
7.根据权利要求1所述的方法,其特征在于,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第二目标值,所述第二目标值是基于所述整改任务中的所述目标清洗规则确定的;
将所述目标行数据中的所述问题数据,修改为所述第二目标值。
8.根据权利要求1所述的方法,其特征在于,将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中之前,还包括:
获取所述问题数据对应的问题描述信息;所述问题描述信息用于指示所述问题数据的错误原因;
根据预设的问题描述信息与清洗规则的对应关系,查找所述问题描述信息对应的目标清洗规则;
从所述目标清洗规则中提取所述目标清洗规则的定义信息;
将所述问题行数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据,包括:
将所述问题行数据以及对应的第一数据行标识和所述目标清洗规则的定义信息,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
所述整改任务包括所述目标清洗规则的定义信息;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,包括:
接收用户输入的第三目标值,所述第三目标值是基于所述整改任务中的所述目标清洗规则的定义信息确定的;
将所述目标行数据中的所述问题数据,修改为所述第三目标值。
9.根据权利要求5所述的方法,其特征在于,从所述问题数据对应的数据元中获取所述问题数据对应的推荐值,包括:
确定所述问题数据对应的问题字段;
在预先存储的字段与数据元的对应关系中,查找所述问题字段对应的目标数据元;
从所述目标数据元中提取推荐值,作为所述问题数据对应的推荐值。
10.根据权利要求1所述的方法,其特征在于,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识包括:
对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识。
11.根据权利要求10所述的方法,其特征在于,对所述行数据中指定字段的数据进行哈希运算,以哈希运算的结果值作为所述行数据对应的第一数据行标识,包括:
对所述行数据中指定字段的数据进行MD5运算,以MD5运算的结果值作为所述行数据对应的第一数据行标识。
12.根据权利要求1所述的方法,其特征在于,在根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识之前,所述方法还包括:
对所述指定字段的数据进行预清洗,以保证所述指定字段的数据的正确性。
13.一种问题数据处理装置,其特征在于,包括:
第一标识生成模块,用于对于从源数据库的源数据表抽取到数据仓库中的行数据,根据所述行数据中指定字段的数据,生成所述行数据对应的第一数据行标识;所述指定字段为所述第一数据表中唯一标识所述行数据所在行的字段;
确定模块,用于对所述行数据进行清洗,在确定所述行数据存在问题数据后,将所述行数据确定为问题行数据;
写入模块,用于若问题数据表中不存在所述第一数据行标识,将所述行数据、所述问题数据以及对应的第一数据行标识,写入问题数据表的记录中,形成所述第一数据行标识对应的记录数据;
整改模块,用于生成所述问题行数据对应的整改任务,所述整改任务包括所述第一数据行标识对应的记录数据;其中,所述整改任务是基于所述问题数据表中的所述问题行数据生成、并由所述数据仓库发送给所述源数据库中的所述源数据表的;将所述整改任务发送给所述源数据库中的所述源数据表;根据所述整改任务中的所述记录数据,在所述源数据表中定位目标行数据;根据所述整改任务,在所述源数据表中对所述目标行数据中的问题数据进行整改,获得所述问题行数据对应的整改后数据;将所述问题行数据对应的整改后数据抽取至所述数据仓库,并根据所述整改后数据中所述指定字段的数据,生成所述整改后数据对应的第二数据行标识;在所述数据仓库中对所述整改后数据进行清洗,得到清洗结果后,在所述问题数据表中查找与所述第二数据行标识匹配的所述第一数据行标识;在所述第二数据行标识与所述第一数据行标识相同,且所述第二数据行标识对应的整改后数据无问题数据时,从所述问题数据表中删除所述第一数据行标识对应的记录数据,结束所述问题行数据对应的整改任务。
14.一种电子设备,其特征在于,包括:
用于存储处理器的可执行指令的存储器;
所述处理器,用于执行所述指令,以实现权利要求1~12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有若干计算机指令,所述计算机指令被执行时实现权利要求1~12任一项所述的方法。
CN202110758608.0A 2021-07-05 2021-07-05 问题数据处理方法和装置 Active CN113468155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758608.0A CN113468155B (zh) 2021-07-05 2021-07-05 问题数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758608.0A CN113468155B (zh) 2021-07-05 2021-07-05 问题数据处理方法和装置

Publications (2)

Publication Number Publication Date
CN113468155A CN113468155A (zh) 2021-10-01
CN113468155B true CN113468155B (zh) 2024-03-29

Family

ID=77878203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110758608.0A Active CN113468155B (zh) 2021-07-05 2021-07-05 问题数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN113468155B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN106528575A (zh) * 2015-09-14 2017-03-22 北京国双科技有限公司 数据对接方法和装置
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
US10468060B1 (en) * 2018-09-27 2019-11-05 Seagate Technology Llc Cancelling adjacent track interference
US10546056B1 (en) * 2018-06-01 2020-01-28 Palantir Technologies Inc. Transformation in tabular data cleaning tool

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386533B2 (en) * 2010-11-30 2013-02-26 Oracle International Corporation Records management of database tables
CN108287835B (zh) * 2017-01-09 2022-06-21 腾讯科技(深圳)有限公司 一种数据清理方法及装置
US20200125660A1 (en) * 2018-10-19 2020-04-23 Ca, Inc. Quick identification and retrieval of changed data rows in a data table of a database

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346377A (zh) * 2013-07-31 2015-02-11 克拉玛依红有软件有限责任公司 一种基于唯一标识的数据集成和交换方法
CN106528575A (zh) * 2015-09-14 2017-03-22 北京国双科技有限公司 数据对接方法和装置
US10546056B1 (en) * 2018-06-01 2020-01-28 Palantir Technologies Inc. Transformation in tabular data cleaning tool
US10468060B1 (en) * 2018-09-27 2019-11-05 Seagate Technology Llc Cancelling adjacent track interference
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于ETL的数据仓库ODS数据查询;李宝林;;江西科学(06);第844-848页 *

Also Published As

Publication number Publication date
CN113468155A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN109977110B (zh) 数据清洗方法、装置及设备
CN109087054B (zh) 协同办公数据流处理方法、装置、计算机设备及存储介质
CN111459985B (zh) 标识信息处理方法及装置
US7945543B2 (en) Method and system for deferred maintenance of database indexes
CN110781231A (zh) 基于数据库的批量导入方法、装置、设备及存储介质
CN113064885B (zh) 一种数据清洗方法和装置
US11221986B2 (en) Data management method and data analysis system
CN110659282A (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN112328631A (zh) 一种生产故障分析方法、装置、电子设备及存储介质
CN111061733B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质
CN116452123A (zh) 清单项目特征值的生成方法、装置和计算机设备
CN114238474A (zh) 基于排水系统的数据处理方法、装置、设备及存储介质
CN113468155B (zh) 问题数据处理方法和装置
CN112420172A (zh) 一种医学影像信息管理系统
CN111143483A (zh) 确定数据表关系的方法、设备和计算机可读存储介质
CN117236304A (zh) 一种基于模板配置的Excel通用导入的实现方法
CN116126846A (zh) 一种数据质量检测方法、设备及介质
CN112559641B (zh) 拉链表的处理方法及装置、可读存储介质、电子设备
CN110471902B (zh) 基于元数据模型进行合标的数据处理方法及装置
CN110517010A (zh) 一种数据处理方法、系统及存储介质
CN111782657B (zh) 数据处理方法及装置
CN113360491B (zh) 数据质量检验方法、装置、电子设备及存储介质
CN114153830B (zh) 数据验证方法及其装置、计算机存储介质、电子设备
CN111190898B (zh) 一种数据处理的方法及装置、电子设备、存储介质
CN109597812B (zh) 会议室批量上线方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant