CN110471913A - 一种数据清洗方法及装置 - Google Patents

一种数据清洗方法及装置 Download PDF

Info

Publication number
CN110471913A
CN110471913A CN201910699427.8A CN201910699427A CN110471913A CN 110471913 A CN110471913 A CN 110471913A CN 201910699427 A CN201910699427 A CN 201910699427A CN 110471913 A CN110471913 A CN 110471913A
Authority
CN
China
Prior art keywords
data
cleaned
cleaning
cleansing
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910699427.8A
Other languages
English (en)
Inventor
刘会永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hui Meng Xinan Software Technology Co Ltd
Original Assignee
Beijing Hui Meng Xinan Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Hui Meng Xinan Software Technology Co Ltd filed Critical Beijing Hui Meng Xinan Software Technology Co Ltd
Priority to CN201910699427.8A priority Critical patent/CN110471913A/zh
Publication of CN110471913A publication Critical patent/CN110471913A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据清洗方法及装置,包括:将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。本发明实施例通过在每一次数据清洗之后对模型数据库进行更新,使得数据清洗规则动态调整,从而提高了数据清洗的效果和质量,保证了数据清洗的准确性和完整性。

Description

一种数据清洗方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据清洗方法及装置。
背景技术
随着信息技术的发展,数据量级和价值密度日益增强,大数据成为蕴含高经济价值密度的资产。如何对大数据进行处理,挖掘出其经济价值成为当前的主要研究方向之一。数据清洗是对大数据进行挖掘的第一步,也是数据处理的基础。由于数据来源可能是不同的硬件和操作系统等,数据格式以及数据内容,存在标准不统一,冗余数据多等情况,导致数据源中难免出现“脏数据”,因此,需要对数据进行数据清洗,从而将这些“脏数据”清除。
数据清洗的目的是要找出并消除不符合规范以及数据挖掘过程中所不需要的数据,保证数据清洗后的数据以高质量、标准规范进行存储和管理,便于后续进行数据挖掘和决策分析等。目前传统的分布式数据清洗方法,主要包括几个步骤:对数据源的处理,主要是对一个或一组数据库进行简单处理,例如格式规范等简单操作;数据源服务器根据用户请求,将所需数据从数据仓库中取出;将取出的数据进行预处理,变成结构良好的数据;建立模型库,设立数据清洗规则;建立数据清洗引擎,用于分析原始数据和识别噪音等。
然而,现在的数据清洗技术,由于模型库是固定不变的,导致模型库中的数据清洗规则也是固定的,数据清洗引擎只是简单的基于模块库设立好的固定规则进行数据清洗,当面对复杂的海量数据时,数据清洗的效果和质量较差,具有局限性。
发明内容
针对现有技术存在的问题,本发明实施例提供一种数据清洗方法及装置。
第一方面,本发明实施例提供了一种数据清洗方法,包括:
将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;
根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
进一步地,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果的步骤之后,所述方法还包括:
根据所述清洗结果对所述模型数据库进行更新,得到更新后的模型数据库,以用于下一次数据清洗。
进一步地,所述将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则的步骤之前,所述方法还包括:
根据任务队列的任务类型,对数据源中数据进行分类,得到分类后的数据;
对分类后的数据进行预处理,得到待清洗数据。
进一步地,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果的步骤之后,所述方法还包括:
根据所述清洗结果,对所述待清洗数据进行处理,若所述待清洗数据的清洗结果为清洗失败,则根据清洗失败信息,将所述待清洗数据发送到错误队列,以对所述待清洗数据进行清洗持久化处理。
进一步地,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果,包括:
根据所述清洗规则,对所述待清洗数据进行数据转换,并对数据转换后的待清洗数据进行数据清洗,其中,所述数据转换包括字段类型自动转换、字段映射转换、字典映射转换、字符串字段截取转换、合并转换和数值字段求和转换。
进一步地,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果,还包括:
根据所述清洗规则,对所述待清洗数据进行groovy脚本映射处理,并对groovy脚本映射处理后的待清洗数据进行数据清洗。
第二方面,本发明实施例提供了一种数据清洗装置,包括:
清洗规则生成模块,用于将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;
数据清洗模块,用于根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
进一步地,所述装置还包括:
多任务清洗配置模块,用于根据多个待清洗数据之间的依赖关系,获取多任务清洗规则,以根据所述多任务清洗规则对多个待清洗数据进行数据清洗。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的一种数据清洗方法及装置,通过在每一次数据清洗之后对模型数据库进行更新,使得数据清洗规则动态调整,从而提高了数据清洗的效果和质量,保证了数据清洗的准确性和完整性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据清洗方法的流程示意图;
图2为本发明实施例提供的数据清洗装置的结构示意图;
图3为本发明实施例提供的电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着信息化程度的提高,数据质量的问题越来越明显,针对数据输入、数据维护、数据接收以及数据存储时产生的数据质量问题,通过数据清洗技术可以得到较好的解决。数据清洗分为有监督清洗和无监督清洗,由于前者需要的人力成本较高,在目前的数据清洗技术中,大多采用无监督清洗,通过预先定义好的数据清洗规则和算法,由程序自动对数据进行清洗,然而这些数据清洗规则不能进行智能演化和成长,面对复杂的海量数据时,数据清洗具有局限性。
图1为本发明实施例提供的数据清洗方法的流程示意图,如图1所示,本发明实施例提供了一种数据清洗方法,包括:
步骤101,将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新。
在本发明实施例中,模型数据库通过专家数据库建立而成,由于数据源中包含各类数据类型,在进行数据清洗时,每一个数据可能为不同类型或者格式的数据,导致由数据组成的数据流时刻发生着变化,因此,根据任务队列,响应式加载队列变化数据,并根据数据的变化信息,从模型数据库中匹配相应的元数据模型,并根据匹配得到的元数据模型,生成相应的清洗规则,其中,模型数据库中的元数据模型可根据每一次的数据清洗结果进行模型更新,并且记录清洗规则的模型数据表也同步进行更新。
步骤102,根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
在本发明实施例中,根据获取到的清洗规对数据进行数据清洗,并将本次的清洗结果和清洗规则发送到模型数据库。优选地,在本发明实施例中,模型数据库可根据清洗结果,动态的调整清洗规则,从而使得数据清洗过程中的清洗规则可以更好地适应数据清洗的要求。在本发明实施例中,清洗规则包括检查拼写错误、去掉重复记录、补全不完整记录、解决不一致记录等验证数据等,优选地,在本发明实施例中,还对完成数据清洗的数据进行验证,若满足预设清洗阈值,则判断数据清洗完成,并生成相应的数据清洗报告。
本发明实施例提供的一种数据清洗方法,通过在每一次数据清洗之后对模型数据库进行更新,使得数据清洗规则动态调整,从而提高了数据清洗的效果和质量,保证了数据清洗的准确性和完整性。
在上述实施例的基础上,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果的步骤之后,所述方法还包括:
根据所述清洗结果对所述模型数据库进行更新,得到更新后的模型数据库,以用于下一次数据清洗。
在本发明实施例中,在初次进行数据清洗时,可根据现有数据清洗规则和数据类型制定初始清洗规则,在接收到数据清洗任务之后,根据待清洗数据在模型数据库中对应的模型数据,从模型数据库的模型数据表中获取相应的初始清洗规则,然后将本次数据清洗结果发送到模型数据库中,并将本次清洗规则记录在模型数据库的模型数据表中,以用于对模型数据库进行优化和更新。通过对模型数据库进行动态更新,使得每一次的数据清洗结果和数据清洗规则对模型数据库进行优化以及更新,以使得更新后的模型数据为下一次的数据清洗任务生成相应的清洗规则。
在上述实施例的基础上,所述将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则的步骤之前,所述方法还包括:
根据任务队列的任务类型,对数据源中数据进行分类,得到分类后的数据;
对分类后的数据进行预处理,得到待清洗数据。
在本发明实施例中,首先根据数据源中数据的变化信息,对待清洗数据进行分类,再将分类后的数据进行预处理,预处理包括去除明显的噪声数据和重复记录等。
在上述实施例的基础上,根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果的步骤之后,所述方法还包括:
根据所述清洗结果,对所述待清洗数据进行处理,若所述待清洗数据的清洗结果为清洗失败,则根据清洗失败信息,将所述待清洗数据发送到错误队列,以对所述待清洗数据进行清洗持久化处理。
在本发明实施例中,若清洗结果为清洗失败,将清洗失败的数据发送到错误队列,并通过清洗失败信息,对本次的清洗规则的正确性和效率进行评估,从而对本次清洗规则进行调整和改进,由此根据调整后的清洗规则,对清洗失败的数据进行持久化处理,经过多次清洗迭代进行分析、调整和验证,直到完成数据清洗。
在上述实施例的基础上,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果,包括:
根据所述清洗规则,对所述待清洗数据进行数据转换,并对数据转换后的待清洗数据进行数据清洗,其中,所述数据转换包括字段类型自动转换、字段映射转换、字典映射转换、字符串字段截取转换、合并转换和数值字段求和转换。
在本发明实施例中,对于一些格式不一致或不标准的数据,根据数据定义标准格式,可以对数据进行字段类型自动转换、字段映射转换和字典映射转换;对于数据源中的重复记录,根据业务规则可进行字符串字段截取转换和合并转换。
在上述实施例的基础上,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果,还包括:
根据所述清洗规则,对所述待清洗数据进行groovy脚本映射处理,并对groovy脚本映射处理后的待清洗数据进行数据清洗。
图2为本发明实施例提供的数据清洗装置的结构示意图,如图2所示,本发明实施例提供了一种数据清洗装置,包括清洗规则生成模块201和数据清洗模块202,其中,清洗规则生成模块201用于将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;数据清洗模块202用于根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
在本发明实施例中,清洗规则生成模块201根据任务队列,响应式加载队列变化数据,并根据数据的变化信息,从模型数据库中匹配相应的元数据模型,并根据匹配得到的元数据模型,生成相应的清洗规则,其中,模型数据库中的元数据模型可根据每一次的数据清洗结果进行模型更新,并且记录清洗规则的模型数据表也同步进行更新。然后,数据清洗模块202根据获取到的清洗规对数据进行数据清洗,并将本次的清洗结果和清洗规则发送到模型数据库。优选地,在本发明实施例中,数据清洗装置还设置有可视化清洗模块,用于记录数据清洗过程的清洗情况,并提供可视化数据清洗报告。
本发明实施例提供的一种数据清洗装置,通过在每一次数据清洗之后对模型数据库进行更新,使得数据清洗规则动态调整,从而提高了数据清洗的效果和质量,保证了数据清洗的准确性和完整性。
在上述实施例的基础上,所述装置还包括更新模块,用于根据所述清洗结果对所述数据模型库进行更新,得到更新后的模型数据库,以用于下一次数据清洗。
在本发明实施例中,更新模块通过对模型数据库进行动态更新,使得每一次的数据清洗结果和数据清洗规则对模型数据库进行优化以及更新,以使得更新后的模型数据为下一次的数据清洗任务生成相应的清洗规则。
在上述实施例的基础上,所述装置还包括:数据分类模块和预处理模块,其中,数据分类模块用于根据任务队列的任务类型,对数据源中数据进行分类,得到分类后的数据;预处理模块用于对分类后的数据进行预处理,得到待清洗数据。
在上述实施例的基础上,所述装置还包括多任务清洗配置模块,用于根据多个待清洗数据之间的依赖关系,获取多任务清洗规则,以根据所述多任务清洗规则对多个待清洗数据进行数据清洗。
在本发明实施例中,当同时接收到多个数据清洗任务队列时,多任务清洗配置模块对多个任务队列进行数据分析,根据每个任务队列之间的依赖关系,例如,任务队列中数据之间的相似度、标准、属性等信息,制定相应的多任务清洗规则,以使得多个任务队列同时进行数据清洗。
本发明实施例提供的装置是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图3为本发明实施例提供的电子设备结构示意图,参照图3,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行如下方法:将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的数据清洗方法,例如包括:将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据清洗方法,其特征在于,包括:
将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;
根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果的步骤之后,所述方法还包括:
根据所述清洗结果对所述数据模型库进行更新,得到更新后的模型数据库,以用于下一次数据清洗。
3.根据权利要求1所述的数据清洗方法,其特征在于,所述将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则的步骤之前,所述方法还包括:
根据任务队列的任务类型,对数据源中数据进行分类,得到分类后的数据;
对分类后的数据进行预处理,得到待清洗数据。
4.根据权利要求1所述的数据清洗方法,其特征在于,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果的步骤之后,所述方法还包括:
根据所述清洗结果,对所述待清洗数据进行处理,若所述待清洗数据的清洗结果为清洗失败,则根据清洗失败信息,将所述待清洗数据发送到错误队列,以对所述待清洗数据进行清洗持久化处理。
5.根据权利要求1所述的数据清洗方法,其特征在于,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果,包括:
根据所述清洗规则,对所述待清洗数据进行数据转换,并对数据转换后的待清洗数据进行数据清洗,其中,所述数据转换包括字段类型自动转换、字段映射转换、字典映射转换、字符串字段截取转换、合并转换和数值字段求和转换。
6.根据权利要求5所述的数据清洗方法,其特征在于,所述根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果,还包括:
根据所述清洗规则,对所述待清洗数据进行groovy脚本映射处理,并对groovy脚本映射处理后的待清洗数据进行数据清洗。
7.一种数据清洗装置,其特征在于,包括:
清洗规则生成模块,用于将待清洗数据和模型数据库中元数据模型进行比对,根据比对结果,获取所述待清洗数据的清洗规则,其中,所述模型数据库在每次数据清洗结束后进行更新;
数据清洗模块,用于根据所述清洗规则,对所述待清洗数据进行数据清洗,以得到所述待清洗数据的清洗结果。
8.根据权利要求7所述的数据清洗装置,其特征在于,所述装置还包括:
多任务清洗配置模块,用于根据多个待清洗数据之间的依赖关系,获取多任务清洗规则,以根据所述多任务清洗规则对多个待清洗数据进行数据清洗。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述数据清洗方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述数据清洗方法的步骤。
CN201910699427.8A 2019-07-31 2019-07-31 一种数据清洗方法及装置 Pending CN110471913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910699427.8A CN110471913A (zh) 2019-07-31 2019-07-31 一种数据清洗方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910699427.8A CN110471913A (zh) 2019-07-31 2019-07-31 一种数据清洗方法及装置

Publications (1)

Publication Number Publication Date
CN110471913A true CN110471913A (zh) 2019-11-19

Family

ID=68509361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910699427.8A Pending CN110471913A (zh) 2019-07-31 2019-07-31 一种数据清洗方法及装置

Country Status (1)

Country Link
CN (1) CN110471913A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111212390A (zh) * 2019-12-23 2020-05-29 北京健康之家科技有限公司 消息队列的处理方法、装置及设备
CN111427873A (zh) * 2020-03-12 2020-07-17 无码科技(杭州)有限公司 数据清洗方法及系统
CN111431930A (zh) * 2020-04-10 2020-07-17 武汉光迅信息技术有限公司 流量清洗方法及相关设备
CN111639077A (zh) * 2020-05-15 2020-09-08 杭州数梦工场科技有限公司 数据治理方法、装置、电子设备、存储介质
CN111831637A (zh) * 2020-07-30 2020-10-27 海南中金德航科技股份有限公司 数据自动清洗系统
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端
CN112000656A (zh) * 2020-09-01 2020-11-27 北京天源迪科信息技术有限公司 基于元数据的智能化数据清洗方法及装置
CN112181961A (zh) * 2020-09-25 2021-01-05 杭州安恒信息技术股份有限公司 一种网络数据的清洗方法、系统及相关装置
CN112307106A (zh) * 2020-11-11 2021-02-02 天津汇商共达科技有限责任公司 一种数据预处理方法及装置
CN112597145A (zh) * 2020-12-29 2021-04-02 恩亿科(北京)数据科技有限公司 实时数据清洗方法、系统、电子设备和存储介质
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113760877A (zh) * 2021-03-10 2021-12-07 中科天玑数据科技股份有限公司 一种基于标准sql的流式数据清洗转换方法和系统
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294492A (zh) * 2015-06-08 2017-01-04 深圳中兴网信科技有限公司 数据清洗方法及清洗引擎
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
US20170323015A1 (en) * 2016-05-04 2017-11-09 Dart Music, Inc. Automated metadata cleanup and distribution platform
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备
CN109033274A (zh) * 2018-07-10 2018-12-18 中国银行股份有限公司 一种数据清洗方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294492A (zh) * 2015-06-08 2017-01-04 深圳中兴网信科技有限公司 数据清洗方法及清洗引擎
US20170323015A1 (en) * 2016-05-04 2017-11-09 Dart Music, Inc. Automated metadata cleanup and distribution platform
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN109033274A (zh) * 2018-07-10 2018-12-18 中国银行股份有限公司 一种数据清洗方法及装置
CN108959620A (zh) * 2018-07-18 2018-12-07 上海汉得信息技术股份有限公司 一种数据清洗方法及设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111212390A (zh) * 2019-12-23 2020-05-29 北京健康之家科技有限公司 消息队列的处理方法、装置及设备
CN111427873B (zh) * 2020-03-12 2023-03-14 无码科技(杭州)有限公司 数据清洗方法及系统
CN111427873A (zh) * 2020-03-12 2020-07-17 无码科技(杭州)有限公司 数据清洗方法及系统
CN111431930A (zh) * 2020-04-10 2020-07-17 武汉光迅信息技术有限公司 流量清洗方法及相关设备
CN111639077A (zh) * 2020-05-15 2020-09-08 杭州数梦工场科技有限公司 数据治理方法、装置、电子设备、存储介质
CN111639077B (zh) * 2020-05-15 2024-03-22 杭州数梦工场科技有限公司 数据治理方法、装置、电子设备、存储介质
CN111831637A (zh) * 2020-07-30 2020-10-27 海南中金德航科技股份有限公司 数据自动清洗系统
CN111966675A (zh) * 2020-08-28 2020-11-20 恒瑞通(福建)信息技术有限公司 一种固定资产投资项目数据清洗方法及终端
CN112000656A (zh) * 2020-09-01 2020-11-27 北京天源迪科信息技术有限公司 基于元数据的智能化数据清洗方法及装置
CN112181961A (zh) * 2020-09-25 2021-01-05 杭州安恒信息技术股份有限公司 一种网络数据的清洗方法、系统及相关装置
CN112307106A (zh) * 2020-11-11 2021-02-02 天津汇商共达科技有限责任公司 一种数据预处理方法及装置
CN112597145A (zh) * 2020-12-29 2021-04-02 恩亿科(北京)数据科技有限公司 实时数据清洗方法、系统、电子设备和存储介质
CN113064885A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 一种数据清洗方法和装置
CN113760877A (zh) * 2021-03-10 2021-12-07 中科天玑数据科技股份有限公司 一种基于标准sql的流式数据清洗转换方法和系统
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法

Similar Documents

Publication Publication Date Title
CN110471913A (zh) 一种数据清洗方法及装置
US11741361B2 (en) Machine learning-based network model building method and apparatus
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
US10867244B2 (en) Method and apparatus for machine learning
CN106302522B (zh) 一种基于神经网络和大数据的网络安全态势分析方法和系统
US10452992B2 (en) Interactive interfaces for machine learning model evaluations
US11847130B2 (en) Extract, transform, load monitoring platform
GB2604552A (en) Fusing multimodal data using recurrent neural networks
CN111726248A (zh) 一种告警根因定位方法及装置
CN110991658A (zh) 模型训练方法、装置、电子设备和计算机可读存储介质
CN114580263A (zh) 基于知识图谱的信息系统故障预测方法及相关设备
CN106156170B (zh) 舆情分析方法及装置
CN110389840B (zh) 负载消耗预警方法、装置、计算机设备和存储介质
CN115102836A (zh) 网络设备故障分析方法、装置及存储介质
CN115309575A (zh) 基于图卷积神经网络的微服务故障诊断方法、装置及设备
CN111190973A (zh) 一种申报表的分类方法、装置、设备及存储介质
CN114647558A (zh) 一种日志异常检测的方法和装置
CN112154415A (zh) 大型计算机系统中的高效事件管理
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN110855474B (zh) Kqi数据的网络特征提取方法、装置、设备及存储介质
CN112416800A (zh) 智能合约的测试方法、装置、设备及存储介质
CN114465875B (zh) 故障处理方法及装置
US11953979B2 (en) Using workload data to train error classification model
US20220179862A1 (en) Optimizing breakeven points for enhancing system performance
CN115080745A (zh) 基于人工智能的多场景文本分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119

RJ01 Rejection of invention patent application after publication