CN107239581A - 数据清洗方法及装置 - Google Patents

数据清洗方法及装置 Download PDF

Info

Publication number
CN107239581A
CN107239581A CN201710552485.9A CN201710552485A CN107239581A CN 107239581 A CN107239581 A CN 107239581A CN 201710552485 A CN201710552485 A CN 201710552485A CN 107239581 A CN107239581 A CN 107239581A
Authority
CN
China
Prior art keywords
data
cleaning
cleansing
cleaned
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710552485.9A
Other languages
English (en)
Inventor
唐锐
秦锋剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Green Bay Network Technology Co Ltd
Original Assignee
Grass Count Language (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Grass Count Language (beijing) Technology Co Ltd filed Critical Grass Count Language (beijing) Technology Co Ltd
Priority to CN201710552485.9A priority Critical patent/CN107239581A/zh
Publication of CN107239581A publication Critical patent/CN107239581A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种数据清洗方法及装置,其中,方法包括:对待清洗的第一数据进行结构化处理,得到结构化的目标数据;所述目标数据中包括需要清洗的数据字段;确定各数据字段对应的属性以及从属于各属性的清洗规则;利用从属于各属性的清洗规则形成清洗规则集;基于所述清洗规则集对所述目标数据进行清洗。通过本方法,能够实现数据的自动清洗,降低数据清洗的工作量和人工参与度,提高方法的复用性,解决现有技术中工作量大、人工参与度和主观性高、不规范的问题。

Description

数据清洗方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种数据清洗方法及装置。
背景技术
信息技术的飞速发展使得众多信息系统积累了海量的业务数据,数据分析、数据挖掘和人工智能等技术的逐步成熟使得这些数据转化为更好服务于业务的知识成为可能。数据分析、数据挖掘需要以数据整合为前提,而数据整合的首要工作是数据清洗,即识别并处理脏数据、保留干净的数据,以保证数据质量,进而学习出高质量的知识。
现有的数据清洗方法多依赖于人工的领域知识、经验和技能,根据各自对数据的学习、理解,主观地判别数据情况,再利用Excel、文本处理工具、简易的数据处理工具,或者编写相应的计算机程序脚本、代码,对数据进行清洗,以获得符合要求的数据。
然而,现有的数据清洗方法工作量较大,特别是多源异构、非结构化的数据,工作任务尤其繁重;通过人工的方式识别数据情况具有较强的主观性,清洗方法不够规范,清洗结果不统一。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种数据清洗方法,以实现数据的自动清洗,降低数据清洗的工作量和人工参与度,提高方法的复用性,解决现有技术中工作量大、人工参与度和主观性高、不规范的问题。
本发明的第二个目的在于提出一种数据清洗装置。
本发明的第三个目的在于提出另一种数据清洗装置。
本发明的第四个目的在于提出一种计算机程序产品。
本发明的第五个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种数据清洗方法,包括:
对待清洗的第一数据进行结构化处理,得到结构化的目标数据;所述目标数据中包括需要清洗的数据字段;
确定各数据字段对应的属性以及从属于各属性的清洗规则;
利用从属于各属性的清洗规则形成清洗规则集;
基于所述清洗规则集对所述目标数据进行清洗。
本发明实施例的数据清洗方法,通过对待清洗的第一数据进行结构化处理得到结构化的目标数据,确定各数据字段对应的属性以及从属于各属性的清洗规则,利用从属于各属性的清洗规则形成清洗规则集,基于清洗规则集对目标数据进行清洗。由此,能够实现数据的自动清洗,降低数据清洗的工作量和人工参与度,提高方法的复用性。
为达上述目的,本发明第二方面实施例提出了一种数据清洗装置,包括:
处理模块,用于对待清洗的第一数据进行结构化处理,得到结构化的目标数据;所述目标数据中包括需要清洗的数据字段;
确定模块,用于确定各数据字段对应的属性以及从属于各属性的清洗规则;
第一生成模块,用于利用从属于各属性的清洗规则形成清洗规则集;
清洗模块,用于基于所述清洗规则集对所述目标数据进行清洗。
本发明实施例的数据清洗装置,通过对待清洗的第一数据进行结构化处理得到结构化的目标数据,确定各数据字段对应的属性以及从属于各属性的清洗规则,利用从属于各属性的清洗规则形成清洗规则集,基于清洗规则集对目标数据进行清洗。由此,能够实现数据的自动清洗,降低数据清洗的工作量和人工参与度,提高方法的复用性。
为达上述目的,本发明第三方面实施例提出了另一种数据清洗装置,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现第一方面实施例所述的数据清洗方法。
为达上述目的,本发明第四方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行如第一方面实施例所述的数据清洗方法。
为达上述目的,本发明第五方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,当计算机程序被处理器执行时实现如第一方面实施例所述的数据清洗方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一实施例提出的数据清洗方法的流程示意图;
图2为本发明另一实施例提出的数据清洗方法的流程示意图;
图3为本发明又一实施例提出的数据清洗方法的流程示意图;
图4为本发明一实施例提出的数据清洗装置的结构示意图;
图5为本发明另一实施例提出的数据清洗装置的结构示意图;
图6为本发明一具体实施例的数据清洗装置的结构示意图;
图7为本发明一实施例提出的另一种数据清洗装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的数据清洗方法及装置。
现有的数据清洗方法基本上依赖于人工已掌握的知识、经验和技能,根据自身对数据的理解主观地判断数据情况,再利用Excel、文本处理工具或者简易的数据处理工具等,甚至编写相应的计算机程序脚本、代码,对数据进行清洗,以期获得符合要求的数据。
可见,现有的数据清洗方法存在如下弊端:1)对参与数据清洗的人员素质要求较高,需其理解数据业务含义、理解清洗的目标方向。由于不同目标、不同场景对“脏数据”的定义不同,导致该方法具有很强的主观性,不同的人对同一份数据产出的清洗结果不尽相同。2)对于多源异构的数据,需要逐份数据逐一清洗,甚至逐行逐列地清洗,生产效率低。3)数据清洗的规则、经验得不到有效沉淀和积累,每一次清洗数据都是一个独立任务,无有效的机制来累积和复用数据清洗的规则、经验和知识。
针对上述问题,本发明实施例提出一种数据清洗方法,能够实现数据的自动清洗,降低人工参与度,提高适用性。
图1为本发明一实施例提出的数据清洗方法的流程示意图。
如图1所示,该数据清洗方法包括以下步骤:
S11,对待清洗的第一数据进行结构化处理,得到结构化的目标数据。
其中,目标数据中包括需要清洗的数据字段,比如重复数据、不完整数据、错误数据等。
在待清洗的第一数据中,可能同时存在结构化数据和非结构化数据。其中,结构化数据表现为行列数据、可扩展标记语言(eXtensible Markup Language,XML)、JSON等,可以展开用二维表结构来逻辑表达实现;非结构化数据与结构化数据对应,即为不方便用二维逻辑表进行表现的数据,包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等。
对于结构化数据,在对其进行结构化处理时,可以对其进行严格的整理,获得大小为M*N的数据表(M、N均为正整数),并通过自动识别或手动整理的方式整理出数据表的模式即表头,得到结构化的目标数据。
对于非结构化数据,在对其进行结构化处理时,可以预先定义好需要抽取的目标字段,比如姓名、手机号码、公司名称、公司组织机构代码等,再采用相关方法(比如正则表达式、实体识别、光学字符识别(Optical Character Recognition,OCR)等)从非结构化数据中提取出对应的数据,得到结构化的目标数据。
举例而言,表1为对第一数据进行结构化处理后得到的结构化的目标数据的示例表。
从表1中可以看出,相对于其他姓名而言,编号为110102的姓名字段的属性多一个字符s,编号为110104的性别字段的属性为未知,各个编号的生日字段的属性的表示方式不统一,因此,在如表1所示的目标数据中,需要清洗的数据字段为姓名字段、性别字段和生日字段。
表1
编号 姓名 性别 生日
110102 李某某s 19800505
110103 王某某 1985-09-20
110104 张某某 未知 1990年01日31
本步骤中,通过对待清洗的第一数据进行结构化处理,能够保证非结构化数据、结构化数据清洗的一致性。
S12,确定各数据字段对应的属性以及从属于各属性的清洗规则。
本实施例中,在确定各数据字段对应的属性以及从属于各属性的清洗规则之前,可以预先定义和编写基础的数据清洗规则或方法代码、脚本,以建立清洗规则池,清洗规则池中包含有针对不同属性的清洗规则,比如去除空白格、删除错误数值、格式转换等。同时,对于定义和编写好的基础的数据清洗规则或方法代码、脚本,用全局唯一的编码或者伪代码来表述,比如清洗规则S1-TRIM,表示清除数据字段前后的空白字符。
表2为部分清洗规则定义示例表。
表2
建立好清洗规则池之后,即可确定各数据字段对应的属性以及从属于各属性的清洗规则。其中,字段对应的属性指的是该字段下的数据所表达的业务能够抽象并映射到的对象属性,如人的性别、车辆的识别代码。
本实施例中,可以先确定目标数据中各个字段对应的属性,进而根据属性之间的差异以及希望获得的属性的目标形式,从清洗规则池中确定从属于各属性的清洗规则。
以表1为例,在如表1所示的目标数据中,包含姓名、性别和生日三个字段,可以分别映射到三个属性,根据每个字段对应的具体属性从清洗规则池中选择合适的清洗规则。
S13,利用从属于各属性的清洗规则形成清洗规则集。
本实施例中,确定了目标数据中各字段对应的属性及各属性的清洗规则之后,可以进一步利用从属于各属性的清洗规则形成清洗规则集,以形成一组有效的、清洗对应属性的规则集合。比如,对于中文姓名属性,清洗规则集的组成可能包含剔除非中文字符(S1)、删除长度超过20个字符的字段(S3)等。
仍以表1为例,对于表1中的姓名、性别和生日三个字段,确定了各字段中从属于各属性的清洗规则之后,可以形成如表3所示的清洗规则集。
表3
属性标识 名称 有效性 清洗规则集
domain.p1 中文姓名 [S1,S3,…,Sm]
domain.p2 性别 [S1,…,Sn]
domain.p3 出生日期 [S1,S2,…,Si]
在如表3所示的示例表中,属性标识为预先设置的,用于唯一标识各个字段到属性的映射。从属于各个属性的清洗规则不止一个,且对于不同字段对应的属性,从属于各属性的清洗规则可以相同,也就是说,清洗规则与属性存在多对多的关系。
本步骤中,通过确定从属于各属性的清洗规则并形成清洗规则集,使得数据清洗可以字段属性为单元进行,且清洗规则可以从属于不同的属性,因此可以方便地复用到其他数据,具有较强的复用性。
S14,基于清洗规则集对目标数据进行清洗。
本实施例中,利用从属于各属性的清洗规则形成清洗规则集之后,即可基于清洗规则集对目标数据进行清洗。
具体地,可以将清洗规则集提交至任务执行单元,由任务执行单元根据每个由唯一编码标识的清洗规则获取相应的脚本或伪代码,自动生成实际可执行的清洗代码或脚本,进而执行对应的清洗操作对目标数据进行清洗,输出清洗后的、符合要求的数据。
举例而言,对于如表1所示的目标数据,基于如表3所示的清洗规则集进行清洗之后,可以获得如表4所示的结果数据。
表4
编号 姓名 性别 生日
110102 李某某 1980-05-05
110103 王某某 1985-09-20
110104 张某某 1990-01-31
从表4中可以看出,相较于表1的数据而言,表4中的数据更加规范,表示形式一致。
随着时间的推移,待清洗的数据也随之增多,若同时清洗大量数据,耗时较长,且容易导致清洗程序故障。为了避免这一问题,在本发明实施例一种可能的实现方式中,基于清洗规则集对目标数据进行清洗可以包括:获取目标数据的数据量;当数据量超出预设阈值时,按照数据量生成多个数据清洗任务,其中,数据清洗任务中包括需要清洗的数据字段列子集和/或数据字段行子集;从清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;分布式地执行所有的数据清洗任务。
其中,在按照数据量生成多个数据清洗任务时,可以在不超过清洗程序的最大处理能力的条件下为每个数据清洗任务随机分配工作量,也可以为每个数据清洗任务平均分配工作量,本发明对此不作限制。
此外,在本发明实施例一种可能的实现方式中,目标数据可能为结构化的数据表,即目标数据为规范的m行*n列的数据表时(m、n为正整数),此时,基于清洗规则集对目标数据进行清洗可以包括:获取目标数据的数据量;当数据量超出预设阈值时,获取目标数据的行数和列数;按照行列拆分组合的方式生成多个数据清洗任务,其中,数据清洗任务中包括需要清洗的数据字段列子集和/或数据字段行子集;从清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;分布式地执行所有的数据清洗任务。
其中,在按照行列拆分组合的方式生成多个数据清洗任务时,可以在不超过清洗程序最大处理能力的条件下,随机或平均地为每个数据清洗任务分配所需处理的数量的行数和列数,本发明对此不作限制。
需要说明的是,预设阈值可以根据实际情况比如程序的处理能力进行设置,本发明不作具体限定。
通过在数据量超过预设阈值时将数据量分割成多个数据清洗任务,并从清洗规则集中为每个数据清洗任务配置对应的清洗规则子集,进而分布式执行所有的数据清洗任务,能够降低每个清洗程序的工作量,缩短数据清洗时长。
本实施例的数据清洗方法,通过对待清洗的第一数据进行结构化处理得到结构化的目标数据,确定各数据字段对应的属性以及从属于各属性的清洗规则,利用从属于各属性的清洗规则形成清洗规则集,基于清洗规则集对目标数据进行清洗。由此,能够实现数据的自动清洗,降低数据清洗的工作量和人工参与度,提高方法的复用性。
为了更加清楚地说明确定各字段对应属性及从属于各属性的清洗规则的实现过程,本发明实施例提出了另一种数据清洗方法,图2为本发明另一实施例提出的数据清洗方法的流程示意图。
如图2所示,在如图1所示实施例的基础上,步骤S12可以包括以下步骤:
S21,查询或者配置字段与属性之间的第一映射关系,得到各数据字段对应的属性。
具体地,对于曾经清洗过的数据,可以将数据的字段和属性之间的关系记录于第一映射关系中,当需要清洗的数据与曾经清洗过的数据的结构类似时,通过直接查询第一映射关系的方式即可得到各数据字段对应的属性。当未曾清洗过类似结构的数据时,可以由用户手动配置字段与属性之间的第一映射关系。作为一种示例,可以从结构化的目标数据中抽象出每一行数据表述的字段以及每一列数据表征的字段的属性,利用目标数据的每个字段与属性建立第一映射关系。第一映射关系可以用数组表示,数组的每一个元素表示一对字段名称到属性的映射。比如,对于表1中的数据,第一映射关系可以表示为:[(姓名,domain.p1),(性别,domain.p2),(生日,domain.p3)]。
根据预先建立的第一映射关系,可以获得各字段对应的属性。
S22,根据属性与清洗规则标识之间的第二映射关系,从清洗规则池中得到从属于属性的清洗规则。
其中,第二映射关系也是预先设置的,不同的属性清洗时所需的清洗规基本不同,因而,可以根据不同的属性设置不同的清洗规则。为便于表述和后续清洗代码的生成,可以为不同的清洗规则设置唯一的清洗规则标识,进而建立属性与清洗规则标识之间的第二映射关系。
从而,本实施例中,在确定了各字段对应的属性之后,即可根据第二映射关系,从清洗规则池中确定从属于各属性的清洗规则。
本实施例的数据清洗方法,通过查询字段与属性之间的第一映射关系得到各数据字段对应的属性,根据属性与清洗规则标识之间的第二映射关系,从清洗规则池中得到从属于属性的清洗规则,能够提高获取清洗规则的准确性,进而提高数据清洗精确度。另外,通过建立第一映射关系和第二映射关系,能够将清洗规则应用于不同的数据中,减少不同数据之间清洗时的重复劳动,并且,相同或相近模式的数据可通过计算相似度决定是否直接复用之前的清洗规则,能够提高清洗效率。
为了能够将本次数据清洗时使用的清洗规则用于后续的数据清洗中,尤其是便于后续对相同或相近模式的数据进行清洗,进一步提高方法的复用性,可以将本次清洗时的字段和对应的清洗规则进行保存。从而,本发明实施例还提出了一种数据清洗方法,图3为本发明又一实施例提出的数据清洗方法的流程示意图。
如图3所示,在如图1所示实施例的基础上,步骤S14之后,还可以包括以下步骤:
S31,利用目标数据发生清洗的第一数据字段以及第一数据字段清洗时所采用的清洗规则,形成历史记录。
本实施例中,基于清洗规则集对目标数据进行清洗之后,可以利用目标数据中发生清洗的第一数据字段以及第一数据字段清洗时采用的清洗规则形成历史记录。
S32,对历史记录进行机器学习形成反馈,基于反馈对清洗规则池进行更新。
本实施例中,对形成的历史记录进行机器学习并形成反馈,基于反馈对清洗规则池进行更新,以在后续数据清洗时可以使用相应的清洗规则,进一步提高后续数据清洗的精确度。
本实施例的数据清洗方法,通过利用目标数据发生清洗的第一数据字段以及第一数据字段清洗时所采用的清洗规则形成历史记录,对历史记录进行机器学习形成反馈,基于反馈对清洗规则池进行更新,能够为后续的数据清洗提供便利,进一步提高方法的复用性。
为了实现上述实施例,本发明还提出一种数据清洗装置。
图4为本发明一实施例提出的数据清洗装置的结构示意图。
如图4所示,该数据清洗装置40可以包括:处理模块410、确定模块420、第一生成模块430,以及清洗模块440。其中,
处理模块410,用于对待清洗的第一数据进行结构化处理,得到结构化的目标数据。
其中,目标数据中包括需要清洗的数据字段。
确定模块420,用于确定各数据字段对应的属性以及从属于各属性的清洗规则。
第一生成模块430,用于利用从属于各属性的清洗规则形成清洗规则集。
清洗模块440,用于基于清洗规则集对目标数据进行清洗。
可选地,在本发明实施例一种可能的实现方式中,清洗模块440具体用于获取目标数据的数据量;当数据量超出预设阈值时,按照数据量生成多个数据清洗任务,其中,数据清洗任务中包括需要清洗的数据字段列子集和/或数据字段行子集;从清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;分布式执行所有的数据清洗任务。
可选地,在本发明实施例一种可能的实现方式中,当目标数据为结构化的数据表,即目标数据为规范的m行*n列的数据表时(m、n为正整数)时,清洗模块440还用于获取目标数据的数据量;当数据量超出预设阈值时,获取目标数据的行数和列数;按照行列拆分组合的方式生成多个数据清洗任务,其中,数据清洗任务中包括需要清洗的数据字段(列)子集和数据行子集;从清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;分布式执行所有的数据清洗任务。
通过在数据量超过预设阈值时将数据量分割成多个数据清洗任务,并从清洗规则集中为每个数据清洗任务配置对应的清洗规则子集,进而分布式执行所有的数据清洗任务,能够降低每个清洗程序的工作量,缩短数据清洗时长。
可选地,在本发明实施例一种可能的实现方式中,如图5所示,在如图4所示实施例的基础上,该数据清洗装置40还可以包括:
第二生成模块450,用于利用目标数据发生清洗的第一数据字段以及第一数据字段清洗时所采用的清洗规则,形成历史记录。
更新模块460,用于对历史记录进行机器学习形成反馈,基于反馈对清洗规则池进行更新。
确定模块420可以包括:
查询单元421,用于查询或者配置字段与属性之间的第一映射关系,得到各数据字段的属性。
获取单元422,用于根据属性与清洗规则标识之间的第二映射关系,从清洗规则池中得到从属于属性的清洗规则。
需要说明的是,前述对数据清洗方法实施例的解释说明也适用于本实施例的数据清洗装置,其实现原理类似,此处不再赘述。
本实施例的数据清洗装置,通过对待清洗的第一数据进行结构化处理得到结构化的目标数据,确定各数据字段对应的属性以及从属于各属性的清洗规则,利用从属于各属性的清洗规则形成清洗规则集,基于清洗规则集对目标数据进行清洗。由此,能够实现数据的自动清洗,降低数据清洗的工作量和人工参与度,提高方法的复用性。
图6为本发明一具体实施例的数据清洗装置的结构示意图。
如图6所示,该数据清洗装置包括数据读取、解析和抽取模块205,用于从文件201、数据库202以及云端/网络数据203中读取数据,并识别数据模式和抽取目标模式的数据得到结构化的目标数据;属性清洗规则管理模块207,用于注册、管理清洗规则,定义和维护清洗规则与属性的从属关系,确定清洗属性所需的清洗规则;数据模式到属性的映射配置模块204,用于配置并存储待清洗数据中数据字段到属性的映射,对后续相同、相近模式的数据自动化复用已存储的映射配置;清洗规则脚本、代码生成模块209,用于根据清洗规则集自动生成整体数据的清洗规则脚本、代码;数据清洗执行模块212,用于执行具体的清洗操作,获取到待清洗的一类或多类模式的数据,以数据模式和数据量为考量因子,将原始数据拆分为多个任务,连同对应的清洗脚本、代码分发到清洗任务单元213,分布式的进行数据清洗,并最终在清洗结果汇总模块214汇总清洗结果数据,以同时兼容各种量级的数据;复审模块215,用于收集被清洗的脏数据,复核审查数据清洗结果,并通过人工学习或机器学习的方式从中学习、提炼出清洗经验形成知识,反馈至属性清洗规则管理模块207,以完善属性清洗装置。
如图6所示的数据清洗装置的具体实施过程可以描述为:数据读取、解析和抽取模块205从文件201、数据库202和云端/网络数据203中获取待清洗的原始数据,比如企业的员工信息数据,通过数据抽取的方式将原始数据结构化,并使原本结构化的数据保证列宽一致,得到结构化数据210,识别并提取出结构化数据210的数据模式206,比如前述表1所示的数据。数据模式到属性的映射配置模块204根据数据模式206及属性清洗规则管理模块207中预先建立的清洗规则,生成映射配置208。清洗规则脚本、代码生成模块209根据映射配置208自动获取全部字段对应属性的清洗规则集,并查询获取相应的清洗规则实现代码或脚本,组装成整个数据的清洗脚本211。清洗执行模块212基于清洗脚本211对结构化数据210进行数据清洗。当数据量较小时,清洗执行模块212可自行完成数据清洗;当数据量较大时,则将数据拆分成多个清洗任务单元213,交由分布式计算平台执行具体的清洗任务,并最终由清洗结果汇总模块214汇总每个清洗任务单元的清洗结果,输出规范的、符合要求的数据,比如前述表4所示的数据。数据清洗完成后,复审模块215收集发生过变更操作的数据行、列,按需或者定期复审数据,以通过人工和/或机器学习的方式从中学习出更好的经验、知识216,并反馈至属性清洗规则管理模块207。
通过配置字段和属性的映射关系,以及对清洗的数据进行学习获得经验、知识并反馈至属性清洗规则管理模块,能够在待清洗的数据模式与历史出现过的数据模型相同或相近时,自动生成或者推荐相应的映射配置和清洗规则,减少人工的参与度。
为了实现上述实施例,本发明还提出另一种数据清洗装置,图7为本发明一实施例提出的另一种数据清洗装置的结构示意图。
如图7所示,该数据清洗装置70包括:处理器701和存储器702。其中,处理器701通过读取存储器702中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的数据清洗方法。
本实施例的数据清洗装置,通过对待清洗的第一数据进行结构化处理得到结构化的目标数据,确定各数据字段对应的属性以及从属于各属性的清洗规则,利用从属于各属性的清洗规则形成清洗规则集,基于清洗规则集对目标数据进行清洗。由此,能够实现数据的自动清洗,降低数据清洗的工作量和人工参与度,提高方法的复用性。
为了实现上述实施例,本发明还提出一种计算机程序产品,当计算机程序产品中的指令由处理器执行时,执行如前述实施例所述的数据清洗方法。
为了实现上述实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,当该计算机程序被处理器执行时能够实现如前述实施例所述的数据清洗方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种数据清洗方法,其特征在于,包括:
对待清洗的第一数据进行结构化处理,得到结构化的目标数据;所述目标数据中包括需要清洗的数据字段;
确定各数据字段对应的属性以及从属于各属性的清洗规则;
利用从属于各属性的清洗规则形成清洗规则集;
基于所述清洗规则集对所述目标数据进行清洗。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述基于所述清洗规则集对所述目标数据进行清洗,包括:
获取所述目标数据的数据量;
当所述数据量超出预设阈值时,按照所述数据量生成多个数据清洗任务;所述数据清洗任务中包括需要清洗的数据字段列子集和/或数据字段行子集;
从所述清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;
分布式执行所有的数据清洗任务。
3.根据权利要求1所述的数据清洗方法,其特征在于,所述目标数据为结构化的数据表,则所述基于所述清洗规则集对所述目标数据进行清洗,包括:
获取所述目标数据的数据量;
当所述数据量超出预设阈值时,获取所述目标数据的行数;按照所述行数生成多个数据清洗任务;所述数据清洗任务中包括需要清洗的数据字段列子集和/或数据字段行子集;
从所述清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;
分布式执行所有的数据清洗任务。
4.根据权利要求1-3任一项所述的数据清洗方法,其特征在于,所述确定各数据字段对应的属性以及从属于各属性的清洗规则,包括:
查询或者配置字段与属性之间的第一映射关系,得到各数据字段对应的属性;
根据属性与清洗规则标识之间的第二映射关系,从清洗规则池中得到从属于所述属性的清洗规则。
5.根据权利要求4所述的数据清洗方法,其特征在于,所述基于所述清洗规则集对所述目标数据进行清洗之后,还包括:
利用所述目标数据发生清洗的第一数据字段以及所述第一数据字段清洗时所采用的清洗规则,形成历史记录;
对所述历史记录进行机器学习形成反馈,基于所述反馈对所述清洗规则池进行更新。
6.一种数据清洗装置,其特征在于,包括:
处理模块,用于对待清洗的第一数据进行结构化处理,得到结构化的目标数据;所述目标数据中包括需要清洗的数据字段;
确定模块,用于确定各数据字段的属性以及从属于各属性的清洗规则;
第一生成模块,用于利用从属于各属性的清洗规则形成清洗规则集;
清洗模块,用于基于所述清洗规则集对所述目标数据进行清洗。
7.根据权利要求6所述的数据清洗装置,其特征在于,所述清洗模块,具体用于:
获取所述目标数据的数据量;
当所述数据量超出预设阈值时,按照所述数据量生成多个数据清洗任务;所述数据清洗任务中包括需要清洗的数据字段列子集和/或数据字段行子集;
从所述清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;
分布式执行所有的数据清洗任务。
8.根据权利要求6所述的数据清洗装置,其特征在于,所述目标数据为结构化的数据表,则清洗模块还用于:
获取所述目标数据的数据量;
当所述数据量超出预设阈值时,获取所述目标数据的行数;按照所述行数生成多个数据清洗任务;所述数据清洗任务中包括需要清洗的数据字段列子集和/或数据字段行子集;
从所述清洗规则集中为每个数据清洗任务配置对应的清洗规则子集;
分布式执行所有的数据清洗任务。
9.根据权利要求6-8任一项所述的数据清洗装置,其特征在于,所述确定模块,包括:
查询单元,用于查询或者配置字段与属性之间的第一映射关系,得到各数据字段的属性;
获取单元,用于根据属性与清洗规则标识之间的第二映射关系,从清洗规则池中得到从属于所述属性的清洗规则。
10.根据权利要求9所述的数据清洗装置,其特征在于,还包括:
第二生成模块,用于利用所述目标数据发生清洗的第一数据字段以及所述第一数据字段清洗时所采用的清洗规则,形成历史记录;
更新模块,用于对所述历史记录进行机器学习形成反馈,基于所述反馈对所述清洗规则池进行更新。
11.一种数据清洗装置,其特征在于,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-5中任一项所述的数据清洗方法。
12.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-5中任一项所述的数据清洗方法。
13.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的数据清洗方法。
CN201710552485.9A 2017-07-07 2017-07-07 数据清洗方法及装置 Withdrawn CN107239581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710552485.9A CN107239581A (zh) 2017-07-07 2017-07-07 数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710552485.9A CN107239581A (zh) 2017-07-07 2017-07-07 数据清洗方法及装置

Publications (1)

Publication Number Publication Date
CN107239581A true CN107239581A (zh) 2017-10-10

Family

ID=59990378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710552485.9A Withdrawn CN107239581A (zh) 2017-07-07 2017-07-07 数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN107239581A (zh)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN108304464A (zh) * 2017-12-26 2018-07-20 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN108572834A (zh) * 2018-04-16 2018-09-25 腾讯科技(深圳)有限公司 一种浏览器的升级方法和装置
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN108984652A (zh) * 2018-06-27 2018-12-11 北京圣康汇金科技有限公司 一种可配置数据清洗系统和方法
CN109299081A (zh) * 2018-08-21 2019-02-01 中国平安人寿保险股份有限公司 清洗房价数据的方法、装置、计算机设备和存储介质
CN109344145A (zh) * 2018-09-07 2019-02-15 北明软件有限公司 一种基于数据标准规范的数据清洗方法、装置和系统
CN109522350A (zh) * 2018-10-19 2019-03-26 海闻科技有限公司 一种台账控件解析的方法
CN109684313A (zh) * 2018-12-14 2019-04-26 浪潮软件集团有限公司 一种数据清洗加工方法及系统
CN109710604A (zh) * 2019-01-09 2019-05-03 北京京东金融科技控股有限公司 数据处理方法、装置、系统、计算机可读存储介质
CN110096498A (zh) * 2019-03-28 2019-08-06 阿里巴巴集团控股有限公司 一种数据清洗方法及装置
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
WO2019232952A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 名单清洗方法、系统、计算机设备和存储介质
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质
CN110990388A (zh) * 2019-11-29 2020-04-10 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN111431930A (zh) * 2020-04-10 2020-07-17 武汉光迅信息技术有限公司 流量清洗方法及相关设备
CN111639066A (zh) * 2020-05-14 2020-09-08 杭州数梦工场科技有限公司 一种数据清洗的方法和装置
CN111831629A (zh) * 2019-04-15 2020-10-27 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN111949641A (zh) * 2020-08-06 2020-11-17 武汉理工光科股份有限公司 一种多级平台间数据清洗与同步方法及系统
CN112199366A (zh) * 2019-04-28 2021-01-08 杭州数梦工场科技有限公司 数据表处理方法、装置及设备
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256689A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112328934A (zh) * 2020-10-16 2021-02-05 上海涛飞网络科技有限公司 访问行为路径分析方法、装置、设备及存储介质
CN112417456A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112597145A (zh) * 2020-12-29 2021-04-02 恩亿科(北京)数据科技有限公司 实时数据清洗方法、系统、电子设备和存储介质
CN112612761A (zh) * 2020-12-16 2021-04-06 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112633512A (zh) * 2019-09-24 2021-04-09 富泰华工业(深圳)有限公司 基于神经网络的数据处理装置、方法及可读存储介质
CN112948369A (zh) * 2021-04-19 2021-06-11 北京明略昭辉科技有限公司 基于配置规则的数据清洗方法、系统及存储介质
CN113065913A (zh) * 2021-03-12 2021-07-02 云汉芯城(上海)互联网科技股份有限公司 报价处理方法、装置及计算机存储介质
CN113609110A (zh) * 2021-07-05 2021-11-05 云从科技集团股份有限公司 数据清洗方法、装置及计算机存储介质
CN114510525A (zh) * 2022-04-18 2022-05-17 深圳丰尚智慧农牧科技有限公司 数据格式转换方法、装置、计算机设备和存储介质
CN114780527A (zh) * 2022-04-21 2022-07-22 中国农业银行股份有限公司 一种数据清洗方法及装置
CN114780529A (zh) * 2022-04-26 2022-07-22 湖南快乐阳光互动娱乐传媒有限公司 数据处理方法及装置
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法
CN118520229A (zh) * 2024-07-23 2024-08-20 北京海天瑞声科技股份有限公司 一种基于大语言模型的数据清洗方法、装置、产品及介质
CN114780529B (zh) * 2022-04-26 2024-10-22 湖南快乐阳光互动娱乐传媒有限公司 数据处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181512A1 (en) * 2003-03-11 2004-09-16 Lockheed Martin Corporation System for dynamically building extended dictionaries for a data cleansing application
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架
CN106776984A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种分布式系统挖掘数据的清洗方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040181512A1 (en) * 2003-03-11 2004-09-16 Lockheed Martin Corporation System for dynamically building extended dictionaries for a data cleansing application
CN105930523A (zh) * 2016-05-25 2016-09-07 中国科学院新疆理化技术研究所 大数据背景下基于动态可配置规则的数据清洗框架
CN106776984A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种分布式系统挖掘数据的清洗方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石少敏: "基于规则和数据学习的清洗模型研究", 《陕西教育学院学报》 *

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943973A (zh) * 2017-11-28 2018-04-20 上海云信留客信息科技有限公司 一种大数据智能清洗系统及云机器人智能清洗服务平台
CN108304464A (zh) * 2017-12-26 2018-07-20 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN108304464B (zh) * 2017-12-26 2021-01-29 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN108572834A (zh) * 2018-04-16 2018-09-25 腾讯科技(深圳)有限公司 一种浏览器的升级方法和装置
CN108572834B (zh) * 2018-04-16 2023-12-12 深圳市雅阅科技有限公司 一种浏览器的升级方法和装置
WO2019232952A1 (zh) * 2018-06-04 2019-12-12 平安科技(深圳)有限公司 名单清洗方法、系统、计算机设备和存储介质
CN108984652A (zh) * 2018-06-27 2018-12-11 北京圣康汇金科技有限公司 一种可配置数据清洗系统和方法
CN108984652B (zh) * 2018-06-27 2020-10-27 北京圣康汇金科技有限公司 一种可配置数据清洗系统和方法
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109299081B (zh) * 2018-08-21 2024-04-05 中国平安人寿保险股份有限公司 清洗房价数据的方法、装置、计算机设备和存储介质
CN109299081A (zh) * 2018-08-21 2019-02-01 中国平安人寿保险股份有限公司 清洗房价数据的方法、装置、计算机设备和存储介质
CN109344145B (zh) * 2018-09-07 2022-12-27 北明软件有限公司 一种基于数据标准规范的数据清洗方法、装置和系统
CN109344145A (zh) * 2018-09-07 2019-02-15 北明软件有限公司 一种基于数据标准规范的数据清洗方法、装置和系统
CN109522350B (zh) * 2018-10-19 2023-07-11 海闻科技有限公司 一种台账控件解析的方法
CN109522350A (zh) * 2018-10-19 2019-03-26 海闻科技有限公司 一种台账控件解析的方法
CN109684313A (zh) * 2018-12-14 2019-04-26 浪潮软件集团有限公司 一种数据清洗加工方法及系统
CN109710604A (zh) * 2019-01-09 2019-05-03 北京京东金融科技控股有限公司 数据处理方法、装置、系统、计算机可读存储介质
CN110096498A (zh) * 2019-03-28 2019-08-06 阿里巴巴集团控股有限公司 一种数据清洗方法及装置
CN111831629A (zh) * 2019-04-15 2020-10-27 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN111831629B (zh) * 2019-04-15 2024-05-03 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN112199366A (zh) * 2019-04-28 2021-01-08 杭州数梦工场科技有限公司 数据表处理方法、装置及设备
CN112199366B (zh) * 2019-04-28 2024-08-23 杭州数梦工场科技有限公司 数据表处理方法、装置及设备
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
CN112633512A (zh) * 2019-09-24 2021-04-09 富泰华工业(深圳)有限公司 基于神经网络的数据处理装置、方法及可读存储介质
CN110990388A (zh) * 2019-11-29 2020-04-10 东软睿驰汽车技术(沈阳)有限公司 一种数据处理方法及装置
CN111431930A (zh) * 2020-04-10 2020-07-17 武汉光迅信息技术有限公司 流量清洗方法及相关设备
CN111639066A (zh) * 2020-05-14 2020-09-08 杭州数梦工场科技有限公司 一种数据清洗的方法和装置
CN111949641A (zh) * 2020-08-06 2020-11-17 武汉理工光科股份有限公司 一种多级平台间数据清洗与同步方法及系统
CN111949641B (zh) * 2020-08-06 2023-07-14 武汉理工光科股份有限公司 一种多级平台间数据清洗与同步方法及系统
CN112328934A (zh) * 2020-10-16 2021-02-05 上海涛飞网络科技有限公司 访问行为路径分析方法、装置、设备及存储介质
CN112417456B (zh) * 2020-11-16 2022-02-08 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112417456A (zh) * 2020-11-16 2021-02-26 中国电子科技集团公司第三十研究所 一种基于大数据的结构化敏感数据还原检测的方法
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256688B (zh) * 2020-11-26 2024-07-26 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256689A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112612761A (zh) * 2020-12-16 2021-04-06 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112612761B (zh) * 2020-12-16 2024-01-30 北京锐安科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN112597145A (zh) * 2020-12-29 2021-04-02 恩亿科(北京)数据科技有限公司 实时数据清洗方法、系统、电子设备和存储介质
CN113065913A (zh) * 2021-03-12 2021-07-02 云汉芯城(上海)互联网科技股份有限公司 报价处理方法、装置及计算机存储介质
CN112948369A (zh) * 2021-04-19 2021-06-11 北京明略昭辉科技有限公司 基于配置规则的数据清洗方法、系统及存储介质
CN113609110A (zh) * 2021-07-05 2021-11-05 云从科技集团股份有限公司 数据清洗方法、装置及计算机存储介质
CN114510525B (zh) * 2022-04-18 2022-08-30 深圳丰尚智慧农牧科技有限公司 数据格式转换方法、装置、计算机设备和存储介质
CN114510525A (zh) * 2022-04-18 2022-05-17 深圳丰尚智慧农牧科技有限公司 数据格式转换方法、装置、计算机设备和存储介质
CN114780527A (zh) * 2022-04-21 2022-07-22 中国农业银行股份有限公司 一种数据清洗方法及装置
CN114780529A (zh) * 2022-04-26 2022-07-22 湖南快乐阳光互动娱乐传媒有限公司 数据处理方法及装置
CN114780529B (zh) * 2022-04-26 2024-10-22 湖南快乐阳光互动娱乐传媒有限公司 数据处理方法及装置
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法
CN118520229A (zh) * 2024-07-23 2024-08-20 北京海天瑞声科技股份有限公司 一种基于大语言模型的数据清洗方法、装置、产品及介质

Similar Documents

Publication Publication Date Title
CN107239581A (zh) 数据清洗方法及装置
Azeroual et al. Data quality measures and data cleansing for research information systems
DE202015009874U1 (de) Implementierung semistrukturierter Daten als ein Datenbankelement erster Klasse
CN106339274A (zh) 一种数据快照获取的方法及系统
DE112017006106T5 (de) Erzeugen von, Zugreifen auf und Anzeigen von Abstammungsmetadaten
JPWO2013051101A1 (ja) 時系列データ管理システム,および方法
CN105468648A (zh) 一种专业知识问答系统的生成方法及装置
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
CN113378011B (zh) 一种复杂产品总装数字孪生体的构建方法及系统
CN110134663B (zh) 组织结构数据处理方法、装置、电子设备
WO2021047021A1 (zh) 信息挖掘方法、装置、设备和存储介质
CN108717661A (zh) 一种金融业风险预警的集群存储与分析方法
CN111639068A (zh) 一种基于多系统的公共数据池生成方法、装置、设备、和可读存储介质
CN114356940A (zh) 电网数据治理平台及方法
CN110704407B (zh) 一种数据去重的方法和系统
DE102020211679A1 (de) Computer-implementiertes system und verfahren mit einem digitalen zwilling und einer graphen-basierten struktur
CN115408381A (zh) 数据处理方法及相关设备
CN110826845B (zh) 一种多维组合成本分摊装置及方法
CN111125045B (zh) 一种轻量级etl处理平台
CN116910032A (zh) 一种数据集市迁移的方法、装置、设备及存储介质
CN115481105A (zh) 数据管理方法、装置、电子设备及存储介质
CN113190587A (zh) 实现业务数据处理的数据处理方法和装置
CN113742313A (zh) 数据仓库构建方法、装置、计算机设备和存储介质
CN117078447B9 (zh) 业务财务联动方法、系统、电子设备及存储介质
CN112732841B (zh) 一种数据处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190904

Address after: 100192 Dongsheng Science Park, Zhongguancun, 66 Xixiaokou Road, Haidian District, Beijing

Applicant after: Green Bay Network Technology Co., Ltd.

Address before: 100089 Beijing Haidian District Xixiaokou Road 66 Zhongguancun Dongsheng Science Park B-6 Building B 5 floors

Applicant before: Grass count language (Beijing) Technology Co., Ltd.

WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171010