CN103593352A - 一种海量数据清洗方法及装置 - Google Patents

一种海量数据清洗方法及装置 Download PDF

Info

Publication number
CN103593352A
CN103593352A CN201210289550.0A CN201210289550A CN103593352A CN 103593352 A CN103593352 A CN 103593352A CN 201210289550 A CN201210289550 A CN 201210289550A CN 103593352 A CN103593352 A CN 103593352A
Authority
CN
China
Prior art keywords
data
rule
cleaned
cleaning
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210289550.0A
Other languages
English (en)
Other versions
CN103593352B (zh
Inventor
刘欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210289550.0A priority Critical patent/CN103593352B/zh
Publication of CN103593352A publication Critical patent/CN103593352A/zh
Application granted granted Critical
Publication of CN103593352B publication Critical patent/CN103593352B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种海量数据的清洗方法及装置,该方法首先配置数据清洗规则文件,并能够根据数据清洗规则的表名,获取待清洗数据表对应的数据清洗规则,并自动生成清洗代码执行清洗,在清洗过程中为待清洗的每条数据打上标签,通过标签解析,分析出数据触发了哪条数据清洗规则,从而进行相应的清洗处理。本申请的海量数据清洗装置包括数据规则配置模块,数据清洗代码生成模块,执行模块和解析模块,根据本申请公开的海量数据清洗方法对海量数据进行清洗。本申请能够对海量数据进行有效的清洗,效率高,清洗出的脏数据被分类保留,可以精确定位每一条脏数据的来源去向。

Description

一种海量数据清洗方法及装置
技术领域
本申请属于数据通信技术领域,尤其涉及一种海量数据清洗的方法及装置。
背景技术
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对数字化信息进行组织和整理。例如在业务系统中,往往会因为代码缺陷、业务定义变更、网络延时等因素产生一些脏数据,例如一笔订单的付款时间早于订单的创建时间,这就是一条不符合业务逻辑的数据。在对数据做统计分析之前,需要将这些脏数据先过滤掉,以确保统计的准确性。数据清洗是一个减少数据错误和不一致性的过程,主要任务是检测并删除或改正将转入数据库的脏数据。另外,对这些脏数据进行分析归类,并反馈给业务系统,也能帮助业务系统更好的定位代码的缺陷,改进业务流程,从而提高数据的质量。
目前常采用的方法基本上依赖于工程师本身的技能,工程师通过学习数据的业务含义,根据自己对数据的理解,写出清洗脏数据的代码,然后将代码提交给分布式计算平台去执行,从而丢弃脏数据,返回符合要求的结果。然而显而易见的是手工输写代码,产出效率较低;代码运行效率依赖工程师的个人能力,优化经验难以大规模推广;脏数据被直接丢弃了,属于不可逆的操作,对于数据追踪、查错都不利;同时不容易保证代码的规范性、一致性。
特别是目前数据量越来越大,常用的数据库扩展到万亿字节TB,一个数据清洗过程需要花费的时间也越来越惊人,因此寻找一种即能规范的对数据进行清洗,又能保障数据清洗在合理的时间范围内完成的数据清洗方法成为了数据库工程师研究的方向之一。
发明内容
本申请的目的是解决现有技术中数据清洗代码由人工生成,缺少统一规范,产出效率低,运行效率低的问题,同时可以精确定位每一条脏数据的来源去向,为改进业务代码,提高数据质量提供支持。
一种海量数据清洗方法,所述数据清洗方法包括步骤:
(1)配置数据清洗规则文件;
(2)根据数据清洗规则文件,生成数据清洗代码;
(3)执行数据清洗代码,为待清洗的数据打上标签;
(4)解析标签,对脏数据进行清洗。
所述数据清洗规则文件包括至少一条数据清洗规则,所述数据清洗规则包括数据表名,数据清洗规则伪代码和规则序号。每一条数据清洗规则,都设置了数据表名字段,表示该数据清洗规则应用于该表名的数据表,同时每一条数据清洗规则还设置了规则序号字段,对于每一个数据表名,其对应的数据清洗规则的规则序号按顺序排列,相互之间不重复。
所述步骤(2)进一步包括步骤:
(2.1)从所述数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则,生成临时文件;
(2.2)读取所述临时文件的第一条数据清洗规则,将该数据清洗规则中的数据清洗规则伪代码作为条件判断的条件部分,生成针对该数据清洗规则的清洗代码;
(2.3)遍历所述临时文件中所有的数据清洗规则,为每一条数据清洗规则生成对应的清洗代码,组合成完整的待清洗数据表的清洗代码。
所述步骤(3)进一步包括步骤:
(3.1)读取待清洗数据表中的一条数据,为所述数据设置初始标签值;
(3.2)所述数据每触发一条数据清洗规则,则将其标签值增加2n,其中n为该数据清洗规则的规则序号;
(3.3)遍历待清洗数据表的表名对应的每一个数据清洗规则;
(3.4)读取待清洗数据表中下一条数据,重复步骤(3.1)至步骤(3,3),遍历待清洗数据表中的每一条数据,为每一条待清洗数据打上标签。
进一步地,所述步骤(4)中解析标签包括:
将标签值与2n次方分别做与运算,如果得到的结果为2n本身,则说明该标签值对应的数据触发了n对应的数据清洗规则,否则未触发n对应的数据清洗规则,n为该数据清洗规则的规则序号,并对该数据进行脏数据清洗。通过标签解析,能够得出触发的数据清洗规则的规则序号,从而能够分析出每一条数据触发了哪些数据清洗规则,将触发了数据清洗规则的数据统统归类为脏数据,并对脏数据分类进行清洗,具体的清洗方法可以是删除,修改,或转移存储,根据实际的需要做具体的安排。
本申请还公开了一种海量数据清洗装置,所述海量数据清洗装置包括:
数据规则配置模块,用于配置数据清洗规则文件;
数据清洗代码生成模块,用于根据数据清洗规则,生成数据清洗代码;
执行模块,用于执行数据清洗代码,为待清洗的数据打上标签;
和解析模块,用于解析标签,对脏数据进行清洗。
所述数据清洗代码生成模块还包括数据清洗规则抽取单元,用于从所述数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则。
所述执行模块还包括:
待清洗数据读取单元,用于逐条读入待清洗数据;
初始标签设置单元,用于为读入的待清洗数据设置初始标签;
数据清洗规则匹配单元,用于逐条匹配数据清洗规则;
标签重置单元,用于根据匹配结果,重置待清洗数据的标签,待清洗数据每触发一条数据清洗规则,则将其标签值增加2n,其中n为该数据清洗规则的规则序号。
而解析模块在解析时,标签值与2n分别做与运算,如果得到的结果为2n其本身,则说明该标签值对应的数据触发了n对应的数据清洗规则,否则未触发n对应的数据清洗规则,n为该数据清洗规则的规则序号。
本申请的海量数据清洗方法及装置,能够根据数据清洗规则的表名,获取待清洗数据表对应的清洗规则,并自动生成清洗代码执行清洗,在清洗过程中为待清洗的每条数据打上标签,通过标签解析,分析出数据触发了哪条数据清洗规则,从而进行处理。本申请产出效率高,生成的代码根据平台特性做过优化,代码具有一致性,规范,并且运行效率高;脏数据被分类保留,可以精确定位每一条脏数据的来源去向。
附图说明
图1为本申请海量数据清洗方法流程示意图;
图2为本申请海量数据清洗装置结构示意图。
具体实施方式
下面结合附图和实施例对本申请技术方案做进一步详细说明,以下实施例不构成对本申请的限定。
本申请一种海量数据清洗方法如图1所示,包括步骤:
步骤101、配置数据清洗规则文件。
具体地,表1提供了一个数据清洗规则文件的具体实施例:
Figure BDA00002012973900051
表1
以表1为例,数据清洗规则文件包括:
rule_id:规则流水号;
table_name:数据表名,即该规则所属的数据表名;
bit_offset:规则序号,为二进位偏移量,bit_offset的作用,用于给数据打标签;
rule_code:数据清洗规则伪代码;
description:数据清洗规则的中文描述;
op_level:对脏数据的处理级别;
is_active:规则是否生效。
需要说明的是,每一条数据清洗规则,都设置了table_name字段,例如table_name为r_gmv_alipay时,表示该数据清洗规则应用于表名为r_gmv_alipay的数据表;同时每一条数据清洗规则还设置了规则序号bit_offset字段,对于每一个table_name,例如r_gmv_alipay,其对应的数据清洗规则的规则序号按顺序排列,相互之间不重复。但是不同的数据表名的数据清洗规则,其规则序号则不做要求。数据清洗规则文件只需要填写一次,之后可以方便的进行更新。
步骤102、根据数据清洗规则文件,生成数据清洗代码。
针对每一份数据表,根据其数据表名,都可以在数据清洗规则文件中找到数据表名相同的数据清洗规则,具体地,每条数据清洗规则都包含该规则所属的数据表名table_name的字段,针对每一份数据表,根据本数据表的表名table_name到数据清洗规则文件中查找包含该table_name的数据清洗规则,找到数据清洗规则文件中所有适用本数据表的数据清洗规则。
然后根据这些数据清洗规则,以及本数据表的字段信息生成分离脏数据的数据清洗代码。本申请数据清洗代码的生成是采用由shell编程语言开发的清洗代码自动生成工具来自动生成的,对数据清洗规则文件中的内容进行一系列的转换、组合,生成符合分布式计算平台语法的代码。
具体地,本发明自动生成清洗代码的方法如下:
1)从数据清洗规则文件中读取本数据表表名对应的数据清洗规则,生成临时文件。
首先将数据清洗规则文件读入内存,使用grep(linux操作系统自带的)工具从打开的数据清洗规则文件中,查找与本次清洗数据表的表名匹配,且当前有效(判断规则是否有效,是通过表1中的最后一列,is_valid=’Y’表示有效,is_valid=’N’表示无效)的数据清洗规则,将找到的数据清洗规则保存到一个临时文件,供后续使用。
2)读取该临时文件的第一条数据清洗规则,将该数据清洗规则中的数据清洗规则伪代码作为条件判断的条件部分,生成针对该数据清洗规则的清洗代码。
将临时文件读入内存,从打开的临时文件中读出第一条数据清洗规则,赋值给一个变量,将该变量放入一个条件判断语句中,该条件判断语句的条件部分是数据清洗规则伪代码rule_code,判断后执行部分是为待清洗数据打上标签。
3)遍历该临时文件中所有的数据清洗规则,为每一条数据清洗规则生成对应的清洗代码,组合成完整的本数据表的清洗代码。
遍历剩余的规则,对每一条规则执行步骤2)的操作,将所有的代码合并,组合成完整的清洗代码。
一段典型的清洗代码如表2所示:
Figure BDA00002012973900071
表2
需要说明的是,本申请使用的是分布式计算平台,针对分布式计算平台的特性,为了让每一步计算都能充分的并行执行,通常在代码生成过程中会尽量避免全局排序的操作、避免数据倾斜、避免多对多的关联,同时使用分区剪枝的特性等方法来降低参与计算的数据量,提高代码运行的效率。关于清洗代码的生成,无论是采用生成工具还是编程,都需要重点考虑如何针对分布式计算平台的特性,做到降低参与计算的数据量,提高代码运行的效率,这里不再赘述。
步骤103、执行数据清洗代码,为待清洗的数据打上标签。
将步骤102生成的数据清洗代码,提交到分布式计算平台运行,得到清洗后的数据,其中每条数据都被打上了标签,具体包括步骤:
(1)读取待清洗数据,为待清洗数据设置初始标签,逐条匹配本数据表适用的数据清洗规则;
(2)待清洗数据每触发一条数据清洗规则,则其标签值增加2^bit_offset;
(3)遍历所有本数据表适用的数据清洗规则;
(4)读取下一条数据,重复步骤(1)-(3),遍历每一待清洗数据,为每一待清洗数据打上标签。
需要说明的是,待清洗数据的初始标签的默认值是0,逐条匹配本数据表适用的数据清洗规则时,每触发一条数据清洗规则,则其标签值增加2^bit_offset,否则其标签值不变,即如果未触发任何一条数据清洗规则,其标签值始终为0。
给数据打标签的原理如表2所示,运行清洗代码,将本数据表适用的数据清洗规则一一做匹配,数据每触发一条规则,则其标签值增加2^bit_offset。这里的“^”符合是一个数学运算符,表示乘方;bit_offset在前文的“表1”中出现过,表示规则的序号,其值为1,2,3这样的自然数;结合起来,就表示2的几次方。对每一条数据,遍历所有的规则,一旦触发了某条规则,则标签的值增加2^bit_offset,例如,某条数据触发了“表1”中的第二条规则“交易金额为空”,则该条数据的标签值增加2^2,即2的2次方,等于4。
步骤104、解析标签,对脏数据进行清洗。
具体地,看下面的这个算式,用两种进制分别表示为:
十进制表示法:21+23+24=26
二进制表示法:
21=00000010
23=00001000
24=00010000
26=00011010
从算式中,我们可以看出26是21、23、24这三个数的和,同时当26与21进行与运算的时候,结果为21;当26与23进行与运算的时候,结果为23;当26与24进行与运算的时候,结果为24。不难发现这样的规律:26与这三个数中的任何一个进行与运算的结果均为该数字本身,而与其它任何数进行与运算,结果肯定不为其本身。
而数据的标签值=2bit_offset_1+2bit_offset_2+...+2bit_offset_n,其中n为bit_offset的序号。本申请解标签的办法包括步骤:
将标签值和2bit_offset_1,2bit_offset_2,...,2bit_offset_n分别做与运算,如果得到的结果为其本身,则说明该标签值对应的数据触发了该条数据清洗规则,该数据是脏数据。通过标签解析,能够分析出每一条数据触发了哪些数据清洗规则,将触发了数据清洗规则的数据统统归类为脏数据,并对脏数据进行清洗。
本实施方式对脏数据进行清洗,是将脏数据从原数据表中剪切出来转移存储到专门的脏数据表中,该专门的脏数据表每条脏数据都标明其触发的数据清洗规则的规则序号。由于已经知道每一条脏数据所触发的数据清洗规则序号,因此,可以使用SQL语言,按数据清洗规则汇总,得出每条规则清洗的脏数据的数量。
一个具体的SQL语言统计实施例如表3所示:
Figure BDA00002012973900091
表3
通过统计,就能得出每条规则清洗出来的脏数据,对触犯比例高的规则,重点追查原因,在源头解决问题,提升数据质量。
本申请同时还公开了一种海量数据清洗装置,如图2所示,包括:
数据规则配置模块201,用于配置数据清洗规则文件;
数据清洗代码生成模块202,用于根据数据清洗规则,生成数据清洗代码;
执行模块203,用于执行数据清洗代码,为待清洗的数据打上标签;
和解析模块204,用于解析标签,对脏数据进行清洗。
其中,数据清洗代码生成模块202还包括数据清洗规则抽取单元,用于从数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则。
进一步地,执行模块203还包括:
待清洗数据读取单元,用于逐条读入待清洗数据;
初始标签设置单元,用于为读入的待清洗数据设置初始标签;
数据清洗规则匹配单元,用于逐条匹配数据清洗规则;
标签重置单元,用于根据匹配结果,重置待清洗数据的标签,待清洗数据每触发一条数据清洗规则,则将其标签值增加2n,其中n为该数据清洗规则的规则序号。
本申请的海量数据清洗装置根据待清洗数据表的表名,数据清洗代码生成模块202抽取数据清洗规则,生成数据清洗代码,通过执行模块203对待清洗数据逐条进行过滤匹配,为每条待清洗数据打上标签,最后通过解析模块204对标签进行解析,将标签值与2n分别做与运算,如果得到的结果为2n其本身,则说明该标签值对应的数据触发了n对应的数据清洗规则,否则未触发n对应的数据清洗规则,n为该数据清洗规则的规则序号。如果标签为0则是正常的数据,否则根据解析出的数据,找出对应的触发的数据清洗规则,并按照该规则的处置办法对该数据进行处置。
以上实施例仅用以说明本申请的技术方案而非对其进行限制,在不背离本申请精神及其实质的情况下,熟悉本领域的技术人员当可根据本申请作出各种相应的改变和变形,但这些相应的改变和变形都应属于本申请所附的权利要求的保护范围。

Claims (9)

1.一种海量数据清洗方法,其特征在于,所述数据清洗方法包括步骤:
(1)配置数据清洗规则文件;
(2)根据数据清洗规则文件,生成数据清洗代码;
(3)执行数据清洗代码,为待清洗的数据打上标签;
(4)解析标签,对脏数据进行清洗。
2.如权利要求1所述的数据清洗方法,其特征在于,所述数据清洗规则文件包括至少一条数据清洗规则,所述数据清洗规则包括数据表名,数据清洗规则伪代码和规则序号。
3.如权利要求2所述的数据清洗方法,其特征在于,所述步骤(2)进一步包括步骤:
(2.1)从所述数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则,生成临时文件;
(2.2)读取所述临时文件的第一条数据清洗规则,将该数据清洗规则中的数据清洗规则伪代码作为条件判断的条件部分,生成针对该数据清洗规则的清洗代码;
(2.3)遍历所述临时文件中所有的数据清洗规则,为每一条数据清洗规则生成对应的清洗代码,组合成完整的待清洗数据表的清洗代码。
4.如权利要求2所述的数据清洗方法,其特征在于,步骤(3)进一步包括步骤:
(3.1)读取待清洗数据表中的一条数据,为所述数据设置初始标签值;
(3.2)所述数据每触发一条数据清洗规则,则将其标签值增加2n,其中n为该数据清洗规则的规则序号;
(3.3)遍历待清洗数据表的表名对应的每一个数据清洗规则;
(3.4)读取待清洗数据表中下一条数据,重复步骤(3.1)至步骤(3,3),遍历待清洗数据表中的每一条数据,为每一条待清洗数据打上标签。
5.如权利要求4所述的数据清洗方法,其特征在于,所述步骤(4)中解析标签包括:
将标签值与2n分别做与运算,如果得到的结果为2n其本身,则说明该标签值对应的数据触发了n对应的数据清洗规则,否则未触发n对应的数据清洗规则,n为该数据清洗规则的规则序号。
6.一种海量数据清洗装置,其特征在于,所述海量数据清洗装置包括:
数据规则模块,用于配置数据清洗规则文件;
数据清洗代码生成模块,用于根据待清洗数据表和其对应的数据清洗规则,生成数据清洗代码;
执行模块,用于执行数据清洗代码,为待清洗的数据打上标签;
和解析模块,用于解析标签,对脏数据进行清洗。
7.如权利要求6所述的海量数据清洗装置,其特征在于,所述数据清洗代码生成模块还包括数据清洗规则抽取单元,用于从所述数据清洗规则文件中获取待清洗数据表的表名对应的数据清洗规则。
8.如权利要求6所述的海量数据清洗装置,其特征在于,所述执行模块还包括:
待清洗数据读取单元,用于从待清洗数据表中逐条读入待清洗数据;
初始标签设置单元,用于为读入的待清洗数据设置初始标签;
数据清洗规则匹配单元,用于逐条匹配数据清洗规则;
标签重置单元,用于根据匹配结果,重置待清洗数据的标签,待清洗数据每触发一条数据清洗规则,则将其标签值增加2n,其中n为该数据清洗规则的规则序号。
9.如权利要求8所述的海量数据清洗装置,其特征在于,所述解析模块用于将标签值与2n分别做与运算,如果得到的结果为2n其本身,则说明该标签值对应的数据触发了n对应的数据清洗规则,否则未触发n对应的数据清洗规则,n为该数据清洗规则的规则序号。
CN201210289550.0A 2012-08-15 2012-08-15 一种海量数据清洗方法及装置 Expired - Fee Related CN103593352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210289550.0A CN103593352B (zh) 2012-08-15 2012-08-15 一种海量数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210289550.0A CN103593352B (zh) 2012-08-15 2012-08-15 一种海量数据清洗方法及装置

Publications (2)

Publication Number Publication Date
CN103593352A true CN103593352A (zh) 2014-02-19
CN103593352B CN103593352B (zh) 2016-10-12

Family

ID=50083501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210289550.0A Expired - Fee Related CN103593352B (zh) 2012-08-15 2012-08-15 一种海量数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN103593352B (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104331452A (zh) * 2014-10-30 2015-02-04 北京思特奇信息技术股份有限公司 一种处理脏数据的方法及系统
CN104836756A (zh) * 2015-04-09 2015-08-12 成都卡莱博尔信息技术有限公司 一种被动式主数据交换方法
CN105094843A (zh) * 2015-08-20 2015-11-25 网易(杭州)网络有限公司 一种数据表的检查方法及装置
CN105095240A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 数据库的数据样本采集
CN105488222A (zh) * 2015-12-24 2016-04-13 广州精点计算机科技有限公司 一种数据源回溯追踪方法及装置
CN105718499A (zh) * 2015-12-11 2016-06-29 中国地质调查局发展研究中心 地质资料数据清洗方法及系统
CN105763351A (zh) * 2014-12-17 2016-07-13 华为技术有限公司 部署增值业务的方法、转发设备、检测设备和管理设备
CN105930328A (zh) * 2015-12-08 2016-09-07 平安科技(深圳)有限公司 异常数据的解析方法及系统
WO2016210205A1 (en) * 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Just in time classifier training
CN106294745A (zh) * 2016-08-10 2017-01-04 东方网力科技股份有限公司 大数据清洗方法及装置
CN106484915A (zh) * 2016-11-03 2017-03-08 国家电网公司信息通信分公司 一种海量数据的清洗方法和系统
CN106599267A (zh) * 2016-12-22 2017-04-26 北京锐安科技有限公司 一种删除数据的方法及装置
CN106649305A (zh) * 2015-10-28 2017-05-10 北京国双科技有限公司 一种数据处理方法及装置
CN106844058A (zh) * 2017-02-20 2017-06-13 郑州云海信息技术有限公司 一种虚拟化资源的管理方法和装置
CN106933990A (zh) * 2017-02-21 2017-07-07 南京朴厚生态科技有限公司 一种传感器数据清洗方法
CN106997289A (zh) * 2016-01-22 2017-08-01 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN107169073A (zh) * 2017-05-09 2017-09-15 北京智行创远信息科技有限公司 一种数据管理方法与管理平台
WO2017162083A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 数据清洗方法和装置
CN107688592A (zh) * 2017-04-06 2018-02-13 平安科技(深圳)有限公司 数据清洗的方法及终端
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN107992628A (zh) * 2017-12-25 2018-05-04 成都优易数据有限公司 一种基于配置策略处理excel录入数据的方法及系统
CN108052574A (zh) * 2017-12-08 2018-05-18 南京中新赛克科技有限责任公司 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN108304464A (zh) * 2017-12-26 2018-07-20 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN108319609A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 Etl数据处理方法及系统、数据清洗方法及装置
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN108733691A (zh) * 2017-04-18 2018-11-02 北京京东尚科信息技术有限公司 数据预处理方法和装置
CN109299740A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 一种逻辑回归模型的构建方法及系统
CN109684319A (zh) * 2018-12-25 2019-04-26 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN109710596A (zh) * 2018-11-30 2019-05-03 平安科技(深圳)有限公司 数据清理方法、装置、设备及计算机可读存储介质
CN109800219A (zh) * 2019-01-18 2019-05-24 广东小天才科技有限公司 一种语料清洗的方法和装置
CN110147364A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 数据清洗方法、装置、设备和存储介质
CN110209656A (zh) * 2019-04-26 2019-09-06 北京互金新融科技有限公司 数据处理方法及装置
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113392096A (zh) * 2021-06-03 2021-09-14 重庆锐云科技有限公司 一种房地产数据质量分析方法、装置、设备及存储介质
WO2024060893A1 (zh) * 2022-09-23 2024-03-28 华为云计算技术有限公司 根源定位的方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290622A (zh) * 2007-04-20 2008-10-22 鸿富锦精密工业(深圳)有限公司 数据库清洗系统及方法
CN102117318A (zh) * 2011-01-04 2011-07-06 江苏科技大学 一种企业信息化系统的数据处理方法
CN102135995A (zh) * 2011-03-17 2011-07-27 新太科技股份有限公司 一种etl数据清洗设计方法
WO2012083754A1 (zh) * 2011-10-20 2012-06-28 华为技术有限公司 处理脏数据的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101290622A (zh) * 2007-04-20 2008-10-22 鸿富锦精密工业(深圳)有限公司 数据库清洗系统及方法
CN102117318A (zh) * 2011-01-04 2011-07-06 江苏科技大学 一种企业信息化系统的数据处理方法
CN102135995A (zh) * 2011-03-17 2011-07-27 新太科技股份有限公司 一种etl数据清洗设计方法
WO2012083754A1 (zh) * 2011-10-20 2012-06-28 华为技术有限公司 处理脏数据的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AI-HUA WU ETC: "Annotation Based Query Answer over Inconsistent Database", 《JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY》 *
叶舟等: "基于规则引擎的数据清洗", 《计算机工程》 *
曹永亮: "基于Java规则引擎的动态数据清洗研究与设计", 《万方数据库武汉理工大学硕士学位论文》 *

Cited By (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095240A (zh) * 2014-05-04 2015-11-25 中国银联股份有限公司 数据库的数据样本采集
CN105095240B (zh) * 2014-05-04 2018-11-27 中国银联股份有限公司 数据库的数据样本采集
CN104331452A (zh) * 2014-10-30 2015-02-04 北京思特奇信息技术股份有限公司 一种处理脏数据的方法及系统
CN104331452B (zh) * 2014-10-30 2017-07-28 北京思特奇信息技术股份有限公司 一种处理脏数据的方法及系统
CN105763351B (zh) * 2014-12-17 2019-09-03 华为技术有限公司 部署增值业务的方法、转发设备、检测设备和管理设备
CN105763351A (zh) * 2014-12-17 2016-07-13 华为技术有限公司 部署增值业务的方法、转发设备、检测设备和管理设备
CN104836756A (zh) * 2015-04-09 2015-08-12 成都卡莱博尔信息技术有限公司 一种被动式主数据交换方法
WO2016210205A1 (en) * 2015-06-26 2016-12-29 Microsoft Technology Licensing, Llc Just in time classifier training
US10943181B2 (en) 2015-06-26 2021-03-09 Microsoft Technology Licensing, Llc Just in time classifier training
CN105094843A (zh) * 2015-08-20 2015-11-25 网易(杭州)网络有限公司 一种数据表的检查方法及装置
CN105094843B (zh) * 2015-08-20 2018-10-09 网易(杭州)网络有限公司 一种数据表的检查方法及装置
CN106649305A (zh) * 2015-10-28 2017-05-10 北京国双科技有限公司 一种数据处理方法及装置
CN105930328A (zh) * 2015-12-08 2016-09-07 平安科技(深圳)有限公司 异常数据的解析方法及系统
CN105718499B (zh) * 2015-12-11 2019-07-19 中国地质调查局发展研究中心 地质资料数据清洗方法及系统
CN105718499A (zh) * 2015-12-11 2016-06-29 中国地质调查局发展研究中心 地质资料数据清洗方法及系统
CN105488222A (zh) * 2015-12-24 2016-04-13 广州精点计算机科技有限公司 一种数据源回溯追踪方法及装置
CN106997289A (zh) * 2016-01-22 2017-08-01 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN107229662B (zh) * 2016-03-25 2022-02-25 阿里巴巴集团控股有限公司 数据清洗方法和装置
WO2017162083A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 数据清洗方法和装置
CN107229662A (zh) * 2016-03-25 2017-10-03 阿里巴巴集团控股有限公司 数据清洗方法和装置
TWI735537B (zh) * 2016-03-25 2021-08-11 香港商阿里巴巴集團服務有限公司 計算機可讀取儲存介質及資料清理裝置
CN106294745A (zh) * 2016-08-10 2017-01-04 东方网力科技股份有限公司 大数据清洗方法及装置
CN106484915A (zh) * 2016-11-03 2017-03-08 国家电网公司信息通信分公司 一种海量数据的清洗方法和系统
CN106484915B (zh) * 2016-11-03 2019-10-11 国家电网公司信息通信分公司 一种海量数据的清洗方法和系统
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN106599267B (zh) * 2016-12-22 2020-12-08 北京锐安科技有限公司 一种删除数据的方法及装置
CN106599267A (zh) * 2016-12-22 2017-04-26 北京锐安科技有限公司 一种删除数据的方法及装置
CN108319609A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 Etl数据处理方法及系统、数据清洗方法及装置
CN106844058A (zh) * 2017-02-20 2017-06-13 郑州云海信息技术有限公司 一种虚拟化资源的管理方法和装置
CN106933990A (zh) * 2017-02-21 2017-07-07 南京朴厚生态科技有限公司 一种传感器数据清洗方法
CN107688592B (zh) * 2017-04-06 2020-03-17 平安科技(深圳)有限公司 数据清洗的方法及终端
CN107688592A (zh) * 2017-04-06 2018-02-13 平安科技(深圳)有限公司 数据清洗的方法及终端
CN108733691A (zh) * 2017-04-18 2018-11-02 北京京东尚科信息技术有限公司 数据预处理方法和装置
CN107169073A (zh) * 2017-05-09 2017-09-15 北京智行创远信息科技有限公司 一种数据管理方法与管理平台
CN108052574A (zh) * 2017-12-08 2018-05-18 南京中新赛克科技有限责任公司 基于Kafka技术的从FTP服务器导入海量数据的ETL系统及实现方法
CN107977454A (zh) * 2017-12-15 2018-05-01 传神语联网网络科技股份有限公司 双语语料清洗的方法、装置及计算机可读存储介质
CN107992628A (zh) * 2017-12-25 2018-05-04 成都优易数据有限公司 一种基于配置策略处理excel录入数据的方法及系统
CN108304464A (zh) * 2017-12-26 2018-07-20 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN108304464B (zh) * 2017-12-26 2021-01-29 北京明略软件系统有限公司 一种数据清洗的方法及装置
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN109299740A (zh) * 2018-09-28 2019-02-01 北京赛博贝斯数据科技有限责任公司 一种逻辑回归模型的构建方法及系统
CN109710596A (zh) * 2018-11-30 2019-05-03 平安科技(深圳)有限公司 数据清理方法、装置、设备及计算机可读存储介质
CN109710596B (zh) * 2018-11-30 2023-12-19 平安科技(深圳)有限公司 数据清理方法、装置、设备及计算机可读存储介质
CN109684319A (zh) * 2018-12-25 2019-04-26 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN109684319B (zh) * 2018-12-25 2021-06-04 北京小米移动软件有限公司 数据清洗系统、方法、装置及存储介质
CN109800219A (zh) * 2019-01-18 2019-05-24 广东小天才科技有限公司 一种语料清洗的方法和装置
CN110147364A (zh) * 2019-04-15 2019-08-20 平安普惠企业管理有限公司 数据清洗方法、装置、设备和存储介质
CN110209656A (zh) * 2019-04-26 2019-09-06 北京互金新融科技有限公司 数据处理方法及装置
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113064885B (zh) * 2020-12-29 2023-10-27 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113392096A (zh) * 2021-06-03 2021-09-14 重庆锐云科技有限公司 一种房地产数据质量分析方法、装置、设备及存储介质
WO2024060893A1 (zh) * 2022-09-23 2024-03-28 华为云计算技术有限公司 根源定位的方法、装置及存储介质

Also Published As

Publication number Publication date
CN103593352B (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN103593352A (zh) 一种海量数据清洗方法及装置
CN109684352B (zh) 数据分析系统、方法、存储介质及电子设备
Xin et al. Production machine learning pipelines: Empirical analysis and optimization opportunities
CN110292775B (zh) 获取差异数据的方法及装置
CN110147364B (zh) 数据清洗方法、装置、设备和存储介质
CN104866580A (zh) 一种数据库变更对现有业务影响的快速侦测方法
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN108664635B (zh) 数据库统计信息的获取方法、装置、设备和存储介质
CN111127068B (zh) 一种工程量清单自动组价方法和装置
CN111125116B (zh) 定位业务表中代码字段及对应代码表的方法及系统
CN112000656A (zh) 基于元数据的智能化数据清洗方法及装置
CN111881105B (zh) 业务数据的标注模型及其模型训练方法
JP2022042495A (ja) 新しい械学習プロジェクトにおける使用のために適応可能なコーパスへの既存機械学習プロジェクトの自動キュレーション
CN105095091A (zh) 一种基于倒排索引技术的软件缺陷代码文件定位方法
CN102043720A (zh) 利用sql语句自动生成测试数据的方法和装置
Jiang et al. A Large-scale Benchmark for Log Parsing
CN116484084B (zh) 基于应用信息挖掘的元数据血缘分析方法、介质及系统
CN103970732A (zh) 新词译文的挖掘方法和装置
Zhu et al. A data cleaning method for heterogeneous attribute fusion and record linkage
CN116260866A (zh) 基于机器学习的政务信息推送方法、装置和计算机设备
CN106873956B (zh) 基于连续关键字的代码补全方法及装置
US20220067576A1 (en) Automatically labeling functional blocks in pipelines of existing machine learning projects in a corpus adaptable for use in new machine learning projects
CN104239475A (zh) 一种时间序列数据分析方法及装置
Kaleem et al. Address standardization using supervised machine learning
CN110895529B (zh) 结构化查询语言的处理方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191211

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: 847, 4 / F, capital tower 1, Grand Cayman, British Cayman Islands

Patentee before: ALIBABA GROUP HOLDING Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161012