CN111639066A - 一种数据清洗的方法和装置 - Google Patents

一种数据清洗的方法和装置 Download PDF

Info

Publication number
CN111639066A
CN111639066A CN202010406737.9A CN202010406737A CN111639066A CN 111639066 A CN111639066 A CN 111639066A CN 202010406737 A CN202010406737 A CN 202010406737A CN 111639066 A CN111639066 A CN 111639066A
Authority
CN
China
Prior art keywords
cleaning
standard data
data
rule
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010406737.9A
Other languages
English (en)
Inventor
方薇
荀志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN202010406737.9A priority Critical patent/CN111639066A/zh
Publication of CN111639066A publication Critical patent/CN111639066A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种数据清洗的方法和装置。一种数据清洗的方法,预先设有标准数据元与清洗规则之间的对应关系,包括:接收清洗任务,所述清洗任务中包括待清洗数据;获取所述待清洗数据中各字段的属性;判断所述字段的属性是否匹配所述对应关系中的标准数据元;若匹配,则获取所述标准数据元对应的清洗规则;采用所述清洗规则对匹配标准数据元的字段进行清洗。本申请提供的数据清洗的方法,相比于现有技术可提高数据清洗的效率。

Description

一种数据清洗的方法和装置
技术领域
本申请涉及数据处理领域,特别涉及一种数据清洗的方法和装置。
背景技术
随着大数据逐渐渗透各个行业,数据的种类和数量都在不断地增加。高质量的数据对企业的决策、业务支撑起着关键作用,而低质量的数据则可能会影响业务或导致项目失败,基于此,越来越多的企业开始对海量数据进行清洗,以从中挖掘有价值的数据。
数据清洗可以检测数据的一致性、处理无效值和缺失值、删除重复信息、纠正错误等等。现有技术中可以由操作人员手动建立数据清洗规则,比如针对不同的数据表分别建立对应的清洗规则,但由于实际情况下需要清洗的数据表的数量可能达到数万张、数十万张,为每个数据表都建立清洗规则显然会导致消耗大量的人力,导致数据清洗效率低下。
发明内容
有鉴于此,本申请提供一种数据清洗的方法和装置。
具体地,本申请是通过如下技术方案实现的:
一种数据清洗的方法,预先设有标准数据元与清洗规则之间的对应关系,所述方法包括:
接收清洗任务,所述清洗任务中包括待清洗数据;
获取所述待清洗数据中各字段的属性;
判断所述字段的属性是否匹配所述对应关系中的标准数据元;
若匹配,则获取所述标准数据元对应的清洗规则;
采用所述清洗规则对匹配标准数据元的字段进行清洗。
一种数据清洗的装置,预先设有标准数据元与清洗规则之间的对应关系,所述装置包括:
接收单元,用于接收清洗任务,所述清洗任务中包括待清洗数据;
属性获取单元,用于获取所述待清洗数据中各字段的属性;
判断单元,用于判断所述字段的属性是否匹配所述对应关系中的标准数据元;
规则获取单元,用于若匹配,则获取所述标准数据元对应的清洗规则;
清洗单元,用于采用所述清洗规则对匹配标准数据元的字段进行清洗。
一种数据清洗的装置,预先设有标准数据元与清洗规则之间的对应关系,所述装置包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
接收清洗任务,所述清洗任务中包括待清洗数据;
获取所述待清洗数据中各字段的属性;
判断所述字段的属性是否匹配所述对应关系中的标准数据元;
若匹配,则获取所述标准数据元对应的清洗规则;
采用所述清洗规则对匹配标准数据元的字段进行清洗。
附图说明
图1是本申请一示例性实施例示出的一种数据清洗的方法的流程示意图;
图2是本申请一示例性实施例示出的另一种数据清洗的方法的流程示意图;
图3是本申请一示例性实施例示出的一种数据清洗的装置的一结构示意图;
图4是本申请一示例性实施例示出的一种数据清洗的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着大数据逐渐渗透各个行业,数据的种类和数量都在不断地增加。当下,即便是规模较小的企业在运营时也需要用到大量的数据,而在使用这些数据的过程中往往需要对数据进行清洗。数据清洗指的是对数据进行重新审核和校验,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
由于不同的数据内容不同、格式不同,因此针对不同数据的数据清洗方法也不相同。现有技术中,操作人员可以针对不同的数据手动建立对应的数据清洗方法。但由于实际情况下需要清洗的数据量十分大,采用这种方法显然会消耗大量的人力,且数据清洗的效率低下。
基于此,本申请提供了一种数据清洗的方法,可以自动地为待清洗的数据生成清洗规则,提高清洗效率。
图1是本申请一示例性实施例示出的一种数据清洗的方法的流程示意图。
所述数据清洗的方法可以应用于具有处理器、存储器的电子设备中,例如服务器或服务器集群、PC(Personal Computer,个人计算机)等等,本申请对此不作特殊限制。
请参考图1,所述数据清洗的方法可以包括以下步骤:
步骤102,接收清洗任务,所述清洗任务中包括待清洗数据。
步骤104,获取所述待清洗数据中各字段的属性。
步骤106,判断所述字段的属性是否匹配所述对应关系中的标准数据元。
步骤108,若匹配,则获取所述标准数据元对应的清洗规则。
步骤110,采用所述清洗规则对匹配标准数据元的字段进行清洗。
下面对上述步骤进行详细说明:
本实施例中,若用户需要对一些数据进行清洗,那么用户可以基于这些数据下发清洗任务。
在一个例子中,用户在下发清洗任务时,可以在清洗任务中添加待清洗的数据。比如用户需要对某个数据表进行清洗,那么用户可以直接在清洗任务中添加该数据表。
当然,在实际情况下,用户可能需要对大量的数据进行清洗,比如对某个数据库中的所有数据表进行清洗。在这种情况下,用户可以在清洗任务中指定待清洗数据表的标识,或者存储位置等等,那么可以基于所述标识、存储位置获取待清洗数据。
本实施例中,假设待清洗的数据量较少,那么用户可以只下发一个清洗任务,并在清洗任务中指定所有待清洗数据。
假设待清洗的数据量较大,用户还可以下发多个清洗任务,在各个清洗任务中分别指定不同的待清洗数据。
具体地,可以按照业务类型下发清洗任务,比如将手机短信业务相关的数据归为一个清洗任务,将手机上网业务相关的数据归为一个清洗任务,将手机电话业务相关的数据归为一个清洗任务。
当然,也可以按照清洗数据的来源、清洗数据占据的存储空间大小等其他方式来下发清洗任务,本申请对此不作特殊限制。
本实施例中对待清洗数据进行清洗,实际上就是对待清洗数据中的各个字段进行清洗,而不同的字段存在不同的属性,针对不同属性的字段,可以采用不同的清洗规则对其进行清洗。
基于此,可以预先设置标准数据元与清洗规则的对应关系,其中,每个标准数据元可以代表定义字段内容的一个属性,可以按照不同的维度来区分定义字段内容的属性,比如以业务维度来区分,属性可以包括姓名、身份证号码、交易金额;再比如,以数据类型维度来区分,属性可以包括数值型、字符型、布尔型、二进制型等等。可以针对每个维度,将所述维度下的每种属性作为一个标准数据元,然后为所述标准数据元确定对应的清洗规则。
本实施例中,确定了标准数据元和对应的清洗规则的对应关系后,可以表的形式进行存储。比如,若只以数据类型维度来分析属性,可以得到下表1所示标准数据元和对应的清洗规则,表1示例性地示出了一些数据类型维度的标准数据元和清洗规则之间的对应关系:
标准数据元 清洗规则
数值型 长度过滤规则
字符型 全角半角转换规则、去空白规则
布尔型 空值过滤规则
二进制型 数值转换规则
表1
当然,除了上述仅以数据类型维度来分析属性外,还可以从多个维度分析属性,并建立其它维度的属性和对应的清洗规则。可参见下表2,下表2示例性地示出了多个维度下标准数据元和清洗规则之间的对应关系:
Figure BDA0002491582170000051
Figure BDA0002491582170000061
表2
除了上述定义字段内容的属性外,本申请中还可以从其它角度来定义字段的属性。比如,字段是否为空、字段是否为主键等。可参考表3,表3示例性地示出了另一些标准数据元和清洗规则的对应关系。
Figure BDA0002491582170000062
表3
本实施例中,上述对应关系可以是操作人员预先定义的,即操作人员可以指定以哪种维度来分析字段的属性,并且指定所述维度中包括哪些属性(即标准数据元),然后为每个属性指定对应的清洗规则。
其中,清洗规则中的“日期标准转换规则”可以指的是:将时间戳形式的时间数据转换为年、月、日格式的数据;“全角半角转换规则”可以指的是:把数据由全角形式转换为半角形式,或把数据由半角形式转换为全角形式;“身份证合法性过滤规则”可以指的是:过滤掉不符合规则的身份证号码,比如身份证号码的位数不为18位的、身份证号码中存在乱码的;“去重规则”可以指的是:过滤掉重复的数据。其它的清洗规则的含义可参考相关技术,在此不再赘述。
本实施例中,接收到清洗任务后,可以获取待清洗数据,待清洗数据包括字段和字段值。然后分析出待清洗数据中各个字段的属性,将分析出的属性与上述对应关系中的标准数据元进行匹配。
优选地,接收到清洗任务后,也可以只获取待清洗数据中各个字段的属性,在步骤108中对待清洗数据进行清洗时,再获取待清洗数据中各个字段的字段值。这是由于,实际情况下待清洗的数据量较大,如果在匹配清洗规则时就获取待清洗数据的各个字段值,会导致这些待数据占据太大的存储空间,因此只需要获取待清洗数据中各个字段的属性即可,然后将字段属性与标准数据元进行匹配。
本实施例中,将待清洗数据中各个字段的属性与标准数据元进行匹配后,可以得到对应的清洗规则,然后利用匹配到的清洗规则对属性匹配标准数据元的字段进行数据清洗。
下面举一个具体的例子进行详细说明。
例如,待清洗数据为2张数据表,其中数据表A只记载了一个字段,该字段为交易日期相关信息,数据表B记载了三个字段,分别为序号、身份证和姓名。那么可以对这两张数据表中的字段的属性进行分析:
(1)数据表A中的字段为交易日期相关信息,比如为时间戳,针对这一字段,可以匹配到多个维度下的多个数据清洗规则。比如,与业务含义维度下的标准数据元匹配,可以匹配上表2中的标准数据元“交易日期”,那么其对应的清洗规则为“日期标准转换规则”。再比如,与数据类型维度下的标准数据元匹配,那么还可以匹配上表2中的“数值型”,那么对应的清洗规则为“长度过滤规则”。本例中,可以利用匹配到的多个维度下的多个清洗规则,对该字段进行清洗。
针对数据表A中的字段,可以匹配得到两条规则:日期标准转换规则、长度过滤规则。可以利用匹配到的清洗规则对该字段下的所有数据进行清洗。具体地,可以按照先后顺序分别执行上述2条清洗规则,也可以随机地执行上述2条清洗规则。
本例中,针对同一字段可能会匹配到多个清洗规则的情况,可以按照预设的顺序执行清洗规则,比如可以为各个清洗规则预设优先级,按照优先级从高到低的顺序来执行清洗规则。当然,也可以随机地选择各个清洗规则的执行顺序。
若同一字段匹配到多个清洗规则,这些多个清洗规则中可能会存在重复的,那么还可以过滤掉重复的清洗规则。
若这些多个清洗规则之间产生冲突,则还可以发起告警。
比如对于“1577808000”这一时间戳,匹配到的清洗规则可以为:“转换为年、月、日格式”,和“过滤掉字符个数大于10的”,那么在执行清洗规则时,若按照随机选择清洗规则的执行顺序,先执行“转换为年、月、日格式”这一清洗规则,可以将“1577808000”转换为“2020年1月1日”,然后再执行“过滤掉字符个数大于10的”这一清洗规则。
然而,由于转换为年、月、日格式后的“2020年1月1日”这一数据已经不是字符串类型的,那么也就无法按照“过滤掉字符个数大于10的”的清洗规则对其进行过滤。
在这种情况下,可以向用户发起告警,以提示用户匹配到的清洗规则可能存在冲突。用户可以接收到告警后可以调整清洗规则,比如可以将上述两个清洗规则调换执行顺序,先执行“过滤掉字符个数大于10的”这一清洗规则,然后再“转换为年、月、日格式”这一清洗规则,就能避免上述冲突。
当然,在实际情况下,清洗规则发生冲突后也可以采取其它方式,比如暂停清洗任务,本申请对此不作特殊限制。
值得注意的是,上述匹配过程中描述的“业务维度”、“数据类型维度”的属性仅为示例性的说明,用于帮助理解标准数据元的所代表的含义。在字段属性与标准数据元的匹配过程中,可能并不涉及到“业务维度”、“数据类型维度”等属性维度的判断,仅将字段属性和各标准数据元进行匹配即可,本说明书对此不作特殊限制。
(2)数据表B记载了三个字段,分别为序号、身份证和姓名,比如数据表B可以为下表4的形式:
序号 姓名 身份证号码
1 张三 330123********1234
2 李四 330124********12355
3 王五 330125**a*****1236
4 张#@ 330126********1237
5 330127********1238
表4,注:*代表数字
可以分析数据表B中的各个字段的属性。对于序号这一字段,由于其不具备实际的业务含义,清洗价值较小,所以可以不对其进行数据清洗的分析。对于姓名这一字段,可以从业务含义维度分析其属性,发现匹配上述表2中的标准数据元“姓名”,对应的清洗规则为“姓名合法性过滤规则”。对于身份证号码这一字段,同样可以从业务维度分析其属性,发现匹配上述表2中的标准数据元“身份证号码”,对应的清洗规则为“身份证合法性过滤规则”。
在按照匹配到的清洗规则进行数据清洗时,首先针对姓名这一字段,“姓名合法性过滤规则”可以是过滤掉不合法的姓名,比如姓名中存在乱码的,字段为空的。那么可以清洗掉数据表B中的第4行的“张#@”和第5行的空值。而由于数据表B中的姓名和身份证两个信息构成了一条数据,那么把不合法的姓名过滤,即把整条数据过滤,得到下表5:
序号 姓名 身份证号码
1 张三 330123********1234
2 李四 330124********12355
3 王五 330125**a*****1236
表5
然后针对身份证号码这一字段,“身份证合法性过滤规则”可以是过滤掉不合法的身份证号码,比如身份证号码中除最后一位外存在字母的、位数超过18位的。那么可以清洗掉数据表B中的第2行的“330124********12355”和第3行的“330125**a*****1236”。同样的,由于数据表B中的姓名和身份证两个信息构成了一条数据,那么把不合法的身份证号码过滤,即便是对应的姓名是无误的,也会把整条数据过滤掉,得到下表6:
序号 姓名 身份证号码
1 张三 330123********1234
表6
表6即为最终的数据清洗结果。
在一个例子中,过滤掉的序号为2、3对应的数据可以存储在区别于表5的另一张表中(比如表7),并且还可以为这张表命名为“已过滤数据”,最终将表7和表6展示给用户。
在另一个例子中,也可以不将上述序号2、3对应的数据过滤掉,而是可以为其添加异常数据的标识,或者将该条数据中的异常数据转换为默认的标准值、置空等等。本实施例中,若待清洗数据中,一些字段的属性不匹配所述对应关系中的标准数据元,那么可以不对这些待清洗数据进行清洗,保持其原始状态不变。
本实施例实现了,可以预先设置标准数据元和清洗规则之间的对应关系,当接收到清洗任务后,可以获取清洗任务中包括的各个字段的属性,然后将所述属性与所述对应关系中的标准数据元进行匹配,若匹配,则获取对应的清洗规则,利用所述清洗规则自动地对匹配标准数据元的待清洗数据进行清洗。
本实施例所述方法,相比于现有技术,不需要人工地为待清洗数据制定清洗规则,而是可以将待清洗数据与预先设置的对应关系进行匹配,自动地匹配出一些清洗规则,利用匹配得到的清洗规则自动地进行清洗,可以大大提高数据清洗的效率。
图2是本申请一示例性实施例示出的另一种数据清洗的方法的流程示意图。所述数据清洗方法可以应用于服务器。
请参见图2,所述数据清洗的方法可以包括以下几个步骤:
步骤202,接收清洗任务,所述清洗任务中包括待清洗数据。
步骤204,获取所述待清洗数据中各字段的属性;
步骤206,判断所述字段的属性是否匹配所述对应关系中的标准数据元。
步骤208,若匹配,则获取所述标准数据元对应的清洗规则。
对于步骤202-208的说明,请参考前述实施例中的步骤102-108,本申请在此不再赘述。
步骤210,通过可视化界面展示清洗模板。
本步骤中,可以将匹配得到的标准数据元和对应的清洗规则通过可视化界面展示给用户,以在对清洗数据之间向用户告知本次数据清洗使用的规则,便于后续用户基于展示的内容进行清洗规则的自主配置。较优地,还可以在每个清洗规则后展示对应的清洗示例,清洗示例中可以展示数据清洗前、清洗后的样例。
本步骤中,对待清洗数据进行上述分析后,还可以生成适用这些待清洗数据的清洗模板,清洗模板中可以包括这些待清洗数据匹配的所有标准数据元和对应的清洗规则,当然也可以包括对应的清洗示例。生成清洗模板后,若用户后续需要再对类似的待清洗数据进行清洗,并下发了新的清洗任务,那么这些新下发的清洗任务可以直接使用该清洗模板中的清洗规则进行清洗,这样可以提高清洗效率。
在实际情况下,由于清洗模板中可能包括大量的清洗规则,若将每个清洗模板中的清洗规则都在可视化页面向用户展示,可能会导致页面内容过于冗长。基于此,还可以为不同的清洗模板命名,或者为清洗模板设置标识,这样可以在可视化页面上仅展示清洗模板的名称或标识,用户基于名称和标识就可以选择所需的清洗模板。
比如,针对手机短信业务相关数据进行清洗的任务,可以将对应的清洗模板命名为“手机短信模板”;针对手机上网业务相关数据进行清洗的任务,可以将清洗模板命名为“手机上网模板”。
本步骤中,清洗模板生成后,还可以将其存储在一临时的存储空间中,并且可以为清洗模板配置存储时长,并在模板生成后开始计时。当计时时长达到存储时长,且未使用该清洗模板进行数据清洗,那么可以将清洗模板删除;当计时时长未达到存储时长,且使用该清洗模板进行清洗,那么可以将计时时长清零,重新开始计时。所述存储时长可由操作人员人为设置。
步骤212,接收用户基于所述可视化界面上传的自定义清洗规则。
本步骤中,用户可以在所述可视化界面上传自定义清洗规则,自定义规则是针对步骤206中匹配上对应关系的标准数据元的。
例如,将待清洗数据中某个字段的属性与标准数据元匹配后,得到匹配的标准数据元为“数值型”,对应的清洗规则为“长度过滤规则”。
假设用户希望对该清洗规则进行更改,那么用户可以将“长度过滤规则”更改为“全角半角转换规则”。
再假设,用户希望针对“数值型”这一属性的字段,增加新的清洗规则,那么用户可以为“数值型”增加新的清洗规则“全角半角转换规则”。
当然,用户还可以对清洗规则进行删除等操作,本申请对此不作特殊限制。
步骤214,采用所述匹配到的清洗规则和用户自定义的清洗规则,对匹配标准数据元的字段进行清洗。
步骤216,根据匹配到的清洗规则和用户自定义的清洗规则,生成清洗模板。
本步骤中,完成数据清洗后,还可以将匹配到的清洗规则和用户自定义的清洗规则生成清洗模板,比如可以将该清洗模板命名为个性化模板,同样可以为将其存储并设置存储时长,并将该个性化模板通过可视化界面向用户展示。那么用户后续需要对类似的待清洗数据进行清洗时,可以直接选择所述个性化清洗模板进行清洗,而不需要再次手动上传自定义的清洗规则。
当然,考虑到用户并不是针对每个数据清洗任务都需要使用上述包含自定义规则的个性化模板,那么除了在可视化界面展示个性化模板外,也可以在可视化界面展示不包括用户自定义规则,仅包括自动为待清洗数据生成的清洗规则的清洗模板,用户可根据实际需求选择所需的清洗模板。
本实施例中,步骤216可以在步骤214之后,也可以在步骤214之前,即可以在接收到用户上传的自定义清洗规则后,就生成清洗模板。本申请对此不作特殊限制。
步骤218,根据清洗结果重新设置所述标准数据元和清洗规则的对应关系。
本步骤中,对待清洗的数据进行清洗后,可以对清洗结果进行分析。
在一个例子中,可能存在一些运行失败的清洗任务,那么可以对这些清洗失败的任务进行分析,以找到失败原因。
例如,可能是待清洗数据中的某个字段匹配到多个清洗规则,这些清洗规则可能产生冲突,从而导致清洗任务失败。在这种情况下,可以对所述预设的对应关系中的标准数据元或清洗规则进行更改,使得各个标准数据元及对应的清洗规则之间不易产生冲突,比如更改清洗规则的优先级。更改后的标准数据元和清洗规则的对应关系,可以用于后续其它清洗任务的清洗。
本例中,解决清洗失败的问题后,可再次执行这些失败的清洗任务,以完成数据清洗。当然,再执行这些失败的清洗任务时,可以使用上述重新设置的标准数据元和清洗规则的对应关系。
本实施例实现了,可以将匹配到的标准数据元和对应的清洗规则通过可视化界面展示给用户,并且能够接收用户上传的自定义清洗规则,然后按照匹配到的清洗规则和用户自定义的清洗规则进行数据清洗,可以更好地符合用户需求。此外,还可以根据用户自定义的清洗规则和匹配到的清洗规则生成清洗模板,可以利用该清洗模板对用户下发的其它清洗任务进行清洗,不需要用户再次手动上传自定义清洗规则,能够提升用户体验。
与前述数据清洗的方法的实施例相对应,本申请还提供了数据清洗的装置的实施例。
本申请数据清洗的装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在数据清洗的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本申请数据清洗的装置所在服务器的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图4,图4为本申请提供的一示例性实施例示出的一种数据清洗的装置的框图。
所述数据清洗的装置包括:
接收单元410,用于接收清洗任务,所述清洗任务中包括待清洗数据;
属性获取单元420,用于获取所述待清洗数据中各字段的属性;
判断单元430,用于判断所述字段的属性是否匹配所述对应关系中的标准数据元;
规则获取单元440,用于若匹配,则获取所述标准数据元对应的清洗规则;
清洗单元450,用于采用所述清洗规则对匹配标准数据元的字段进行清洗。
可选的,所述装置还包括:
通过可视化界面展示匹配到的标准数据元和对应的清洗规则;
接收用户基于所述可视化界面设置的针对所述标准数据元的自定义清洗规则;
基于所述匹配得到的清洗规则和用户设置的自定义清洗规则,对匹配标准数据元的字段进行清洗。
可选的,所述通过可视化界面展示匹配到的标准数据元和对应的清洗规则,包括:
将匹配得到的标准数据元、清洗规则和对应的清洗示例展示给用户。
可选的,所述清洗任务为多个,所述装置还包括:
根据匹配得到的清洗规则和用户自定义清洗规则,生成清洗模板;
利用所述清洗模板对多个清洗任务中的剩余清洗任务进行清洗。
可选的,所述装置还包括:
记录清洗任务对应的清洗结果;
基于所述清洗结果重新设置所述标准数据元和清洗规则的对应关系。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与前述数据清洗的方法的实施例相对应,本申请还提供一种数据清洗的装置,预先设有标准数据元与清洗规则之间的映射关系,该数据清洗的装置包括:处理器及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其它可能的实现方式中,所述设备还可能包括外部接口,以能够与其它设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
接收清洗任务,所述清洗任务中包括待清洗数据;
获取所述待清洗数据中各字段的属性;
判断所述字段的属性是否匹配所述对应关系中的标准数据元;
若匹配,则获取所述标准数据元对应的清洗规则;
采用所述清洗规则对匹配标准数据元的字段进行清洗。
可选的,所述装置还包括:
通过可视化界面展示匹配到的标准数据元和对应的清洗规则;
接收用户基于所述可视化界面设置的针对所述标准数据元的自定义清洗规则;
基于所述匹配得到的清洗规则和用户设置的自定义清洗规则,对匹配标准数据元的字段进行清洗。
可选的,所述通过可视化界面展示匹配到的标准数据元和对应的清洗规则,包括:
将匹配得到的标准数据元、清洗规则和对应的清洗示例展示给用户。
可选的,所述清洗任务为多个,所述装置还包括:
根据匹配得到的清洗规则和用户自定义清洗规则,生成清洗模板;
利用所述清洗模板对多个清洗任务中的剩余清洗任务进行清洗。
可选的,所述装置还包括:
记录清洗任务对应的清洗结果;
基于所述清洗结果重新设置所述标准数据元和清洗规则的对应关系。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (11)

1.一种数据清洗的方法,其特征在于,预先设有标准数据元与清洗规则之间的对应关系,所述方法包括:
接收清洗任务,所述清洗任务中包括待清洗数据;
获取所述待清洗数据中各字段的属性;
判断所述字段的属性是否匹配所述对应关系中的标准数据元;
若匹配,则获取所述标准数据元对应的清洗规则;
采用所述清洗规则对匹配标准数据元的字段进行清洗。
2.根据权利要求1所述方法,其特征在于,所述方法还包括:
通过可视化界面展示匹配到的标准数据元和对应的清洗规则;
接收用户基于所述可视化界面设置的针对所述标准数据元的自定义清洗规则;
基于所述匹配得到的清洗规则和用户设置的自定义清洗规则,对匹配标准数据元的字段进行清洗。
3.根据权利要求2所述方法,其特征在于,所述通过可视化界面展示匹配到的标准数据元和对应的清洗规则,包括:
将匹配得到的标准数据元、清洗规则和对应的清洗示例展示给用户。
4.根据权利要求2所述方法,其特征在于,所述清洗任务为多个,所述方法还包括:
根据匹配得到的清洗规则和用户自定义清洗规则,生成清洗模板;
利用所述清洗模板对多个清洗任务中的剩余清洗任务进行清洗。
5.根据权利要求1所述方法,其特征在于,所述方法还包括:
记录清洗任务对应的清洗结果;
基于所述清洗结果重新设置所述标准数据元和清洗规则的对应关系。
6.一种数据清洗的装置,其特征在于,预先设有标准数据元与清洗规则之间的对应关系,所述装置包括:
接收单元,用于接收清洗任务,所述清洗任务中包括待清洗数据;
属性获取单元,用于获取所述待清洗数据中各字段的属性;
判断单元,用于判断所述字段的属性是否匹配所述对应关系中的标准数据元;
规则获取单元,用于若匹配,则获取所述标准数据元对应的清洗规则;
清洗单元,用于采用所述清洗规则对匹配标准数据元的字段进行清洗。
7.根据权利要求6所述装置,其特征在于,所述装置还包括:
通过可视化界面展示匹配到的标准数据元和对应的清洗规则;
接收用户基于所述可视化界面设置的针对所述标准数据元的自定义清洗规则;
基于所述匹配得到的清洗规则和用户设置的自定义清洗规则,对匹配标准数据元的字段进行清洗。
8.根据权利要求7所述装置,其特征在于,所述通过可视化界面展示匹配到的标准数据元和对应的清洗规则,包括:
将匹配得到的标准数据元、清洗规则和对应的清洗示例展示给用户。
9.根据权利要求7所述装置,其特征在于,所述清洗任务为多个,所述装置还包括:
根据匹配得到的清洗规则和用户自定义清洗规则,生成清洗模板;
利用所述清洗模板对多个清洗任务中的剩余清洗任务进行清洗。
10.根据权利要求6所述装置,其特征在于,所述装置还包括:
记录清洗任务对应的清洗结果;
基于所述清洗结果重新设置所述标准数据元和清洗规则的对应关系。
11.一种数据清洗的装置,其特征在于,预先设有标准数据元与清洗规则之间的对应关系,所述装置包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与模型的训练逻辑对应的机器可执行指令,所述处理器被促使:
接收清洗任务,所述清洗任务中包括待清洗数据;
获取所述待清洗数据中各字段的属性;
判断所述字段的属性是否匹配所述对应关系中的标准数据元;
若匹配,则获取所述标准数据元对应的清洗规则;
采用所述清洗规则对匹配标准数据元的字段进行清洗。
CN202010406737.9A 2020-05-14 2020-05-14 一种数据清洗的方法和装置 Pending CN111639066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010406737.9A CN111639066A (zh) 2020-05-14 2020-05-14 一种数据清洗的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010406737.9A CN111639066A (zh) 2020-05-14 2020-05-14 一种数据清洗的方法和装置

Publications (1)

Publication Number Publication Date
CN111639066A true CN111639066A (zh) 2020-09-08

Family

ID=72330230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010406737.9A Pending CN111639066A (zh) 2020-05-14 2020-05-14 一种数据清洗的方法和装置

Country Status (1)

Country Link
CN (1) CN111639066A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181949A (zh) * 2020-10-10 2021-01-05 浪潮云信息技术股份公司 一种在线数据建模的方法及装置
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256689A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112800049A (zh) * 2021-04-06 2021-05-14 航天神舟智慧系统技术有限公司 基于大数据的excel数据源清洗方法、系统、电子设备和存储介质
CN112905625A (zh) * 2021-03-09 2021-06-04 山东兆物网络技术股份有限公司 基于推荐机制的数据处理规则的快速配置方法
CN113190543A (zh) * 2021-05-24 2021-07-30 全球能源互联网研究院有限公司 一种数据清洗方法、装置、电子设备及存储介质
CN113672602A (zh) * 2021-08-02 2021-11-19 申瓯通信设备有限公司 一种基于数字调度的通信设备
CN113704811A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 数据价值管理方法
CN113836126A (zh) * 2021-09-22 2021-12-24 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN114328762A (zh) * 2021-12-29 2022-04-12 北京连屏科技有限公司 大数据处理方法
CN114780527A (zh) * 2022-04-21 2022-07-22 中国农业银行股份有限公司 一种数据清洗方法及装置
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法
CN115840742A (zh) * 2023-02-13 2023-03-24 每日互动股份有限公司 一种数据清洗方法、装置、设备及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107203A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Architecture for a data cleansing application
US20120150825A1 (en) * 2010-12-13 2012-06-14 International Business Machines Corporation Cleansing a Database System to Improve Data Quality
US20120324387A1 (en) * 2011-06-15 2012-12-20 Nancy Anne Rausch Computer-Implemented Systems And Methods For Extract, Transform, And Load User Interface Processing
US20140279972A1 (en) * 2013-03-15 2014-09-18 Teradata Us, Inc. Cleansing and standardizing data
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
US20180096004A1 (en) * 2016-09-30 2018-04-05 Microsoft Technology Licensing, Llc Construction and application of data cleaning templates
CN108363782A (zh) * 2018-02-11 2018-08-03 中国联合网络通信集团有限公司 一种数据清洗方法和数据清洗系统
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110347667A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 一种数据清洗方法及装置
US20190370233A1 (en) * 2018-05-29 2019-12-05 Accenture Global Solutions Limited Intelligent data quality
CN110555019A (zh) * 2019-09-12 2019-12-10 成都中科大旗软件股份有限公司 一种基于业务端的数据清洗方法
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质
CN111026739A (zh) * 2019-11-26 2020-04-17 智器云南京信息科技有限公司 批量数据清洗的方法及装置、计算机设备和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040107203A1 (en) * 2002-12-03 2004-06-03 Lockheed Martin Corporation Architecture for a data cleansing application
US20120150825A1 (en) * 2010-12-13 2012-06-14 International Business Machines Corporation Cleansing a Database System to Improve Data Quality
US20120324387A1 (en) * 2011-06-15 2012-12-20 Nancy Anne Rausch Computer-Implemented Systems And Methods For Extract, Transform, And Load User Interface Processing
US20140279972A1 (en) * 2013-03-15 2014-09-18 Teradata Us, Inc. Cleansing and standardizing data
US20180096004A1 (en) * 2016-09-30 2018-04-05 Microsoft Technology Licensing, Llc Construction and application of data cleaning templates
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
CN108363782A (zh) * 2018-02-11 2018-08-03 中国联合网络通信集团有限公司 一种数据清洗方法和数据清洗系统
US20190370233A1 (en) * 2018-05-29 2019-12-05 Accenture Global Solutions Limited Intelligent data quality
CN109977110A (zh) * 2019-04-28 2019-07-05 杭州数梦工场科技有限公司 数据清洗方法、装置及设备
CN110347667A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 一种数据清洗方法及装置
CN110597793A (zh) * 2019-07-30 2019-12-20 深圳市华傲数据技术有限公司 数据管理方法及装置、电子设备和计算机可读存储介质
CN110555019A (zh) * 2019-09-12 2019-12-10 成都中科大旗软件股份有限公司 一种基于业务端的数据清洗方法
CN111026739A (zh) * 2019-11-26 2020-04-17 智器云南京信息科技有限公司 批量数据清洗的方法及装置、计算机设备和存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181949A (zh) * 2020-10-10 2021-01-05 浪潮云信息技术股份公司 一种在线数据建模的方法及装置
CN112256688A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112256689A (zh) * 2020-11-26 2021-01-22 杭州数梦工场科技有限公司 业务数据清洗方法、装置、电子设备
CN112905625A (zh) * 2021-03-09 2021-06-04 山东兆物网络技术股份有限公司 基于推荐机制的数据处理规则的快速配置方法
CN112800049A (zh) * 2021-04-06 2021-05-14 航天神舟智慧系统技术有限公司 基于大数据的excel数据源清洗方法、系统、电子设备和存储介质
CN113190543A (zh) * 2021-05-24 2021-07-30 全球能源互联网研究院有限公司 一种数据清洗方法、装置、电子设备及存储介质
CN113704811A (zh) * 2021-07-16 2021-11-26 杭州医康慧联科技股份有限公司 数据价值管理方法
CN113672602A (zh) * 2021-08-02 2021-11-19 申瓯通信设备有限公司 一种基于数字调度的通信设备
CN113836126A (zh) * 2021-09-22 2021-12-24 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN113836126B (zh) * 2021-09-22 2024-01-30 上海妙一生物科技有限公司 一种数据清洗方法、装置、设备及存储介质
CN114328762A (zh) * 2021-12-29 2022-04-12 北京连屏科技有限公司 大数据处理方法
CN114780527A (zh) * 2022-04-21 2022-07-22 中国农业银行股份有限公司 一种数据清洗方法及装置
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法
CN115840742A (zh) * 2023-02-13 2023-03-24 每日互动股份有限公司 一种数据清洗方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111639066A (zh) 一种数据清洗的方法和装置
CN109977110B (zh) 数据清洗方法、装置及设备
CN111414740A (zh) 一种电子实验记录本报告生成系统
CN107729330B (zh) 获取数据集的方法和装置
CN110716739A (zh) 一种代码变更信息统计方法、系统和可读存储介质
CN110362540B (zh) 一种数据存储、访客数获取方法及装置
JP6019187B1 (ja) 企業情報整合装置および企業情報整合用プログラム
CN110851803B (zh) 一种批量注册用户信息的系统及方法
CN115829925A (zh) 外观缺陷检测方法、装置、计算机设备及存储介质
CN111597452B (zh) 一种添加标签的方法、装置、电子设备及可读存储介质
CN111309370B (zh) 多项目多系统环境的版本号有向图排序稽核方法和系统
CN112256689A (zh) 业务数据清洗方法、装置、电子设备
CN112181995B (zh) 数据表的数据处理方法、装置、设备及存储介质
CN113468155B (zh) 问题数据处理方法和装置
CN110598072B (zh) 一种特征数据聚合方法及装置
CN112487039B (zh) 一种数据处理方法、装置、设备及可读存储介质
CN109584087B (zh) 信息处理方法、装置和存储介质
CN117312283A (zh) 分库分表的数据校验方法、装置、计算机设备和存储介质
CN115827478A (zh) 代码检视方法、装置、计算机设备和存储介质
CN114780527A (zh) 一种数据清洗方法及装置
CN115033751A (zh) 数据的获取方法及装置
CN116069861A (zh) 一种数据处理方法、系统及电子设备
CN112527785A (zh) 数据补录方法、装置、电子设备及存储介质
CN115225407A (zh) 防火墙信息处理方法、系统、电子装置及存储介质
CN111582799A (zh) 一种物品画像的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination