CN114281817A - 一种数据清洗方法、装置、计算机设备及存储介质 - Google Patents

一种数据清洗方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN114281817A
CN114281817A CN202210027653.3A CN202210027653A CN114281817A CN 114281817 A CN114281817 A CN 114281817A CN 202210027653 A CN202210027653 A CN 202210027653A CN 114281817 A CN114281817 A CN 114281817A
Authority
CN
China
Prior art keywords
data
cleaning
cleaned
storing
task queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210027653.3A
Other languages
English (en)
Inventor
武超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202210027653.3A priority Critical patent/CN114281817A/zh
Publication of CN114281817A publication Critical patent/CN114281817A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例属于大数据领域,涉及一种数据清洗方法,包括将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中。本申请还提供一种数据清洗装置、计算机设备及存储介质。本申请实现公共清洗流程,避免了资源的浪费。

Description

一种数据清洗方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据清洗方法、装置、计算机设备及存储介质。
背景技术
对于大多数的系统应用而言,清洗外部接入的数据,让数据变成符合系统内部应用的标准数据,使系统内部微服务群使用该标准数据,可以让系统变得稳定可靠,是非常有必要的。
然而,现有技术对数据进行清洗,会有比较复杂的处理逻辑和规则,存在代码侵入性高、复用性低等缺点,久而久之,会严重影响系统的性能和可读性,导致程序出错率增加、程序变得臃肿、后期的维护难度大、维护成本高等问题。而一般数据清洗逻辑都是高度定制化的,很难抽象出公共流程提供给项目共用,数据清洗流程设计比较少,一旦需要数据清洗,都需要固化在程序里,造成了资源的浪费。为此,针对系统应用急需设计出一套公共的清洗流程,以解决上述问题。
发明内容
本申请实施例的目的在于提出一种数据清洗方法、装置、计算机设备及存储介质,以解决数据清洗需要定制化和流程复杂的问题。
为了解决上述技术问题,本申请实施例提供一种数据清洗方法,采用了如下所述的技术方案:
一种数据清洗方法,包括下述步骤:
将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;
查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;
获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;
识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;
将所述清洗后数据存入所述目标表中。
进一步的,所述查找出与所述数据分类编码对应的用于存放待清洗数据的源表及用于存放清洗后数据的目标表的步骤包括:
识别所述清洗任务队列表中的数据分类编码;
根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表;
通过唯一识别码建立所述源表与所述目标表之间的映射关系。
进一步的,所述获取所述源表中的待清洗数据以及根据所述数据分类编码获取清洗规则的步骤后还包括:
根据所述源表、所述目标表和所述清洗规则配置脚本文件;
所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗具体为:在清洗状态为待清洗时在配置的所述脚本文件中读取清洗规则,并通过清洗规则对所述待清洗字段进行数据清洗。
进一步的,所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗的步骤具体包括:
识别是否为首次数据清洗,若是则将所述清洗规则抓取至本地服务器;
根据所述清洗任务队列表中的批次号顺序识别所述清洗任务队列表中的清洗状态;
统计所述清洗状态为待清洗的批次号,调用所述批次号所对应的所述待清洗数据根据所述清洗规则进行清洗。
进一步的,在所述统计清洗状态为待清洗的批次号,调用每个批次号所对应的待清洗数据进行循环清洗的步骤之后还包括:
每清洗一条所述待清洗数据,将所述清洗任务队列表中所述待清洗数据的参数更新至预设的清洗任务队列历史表,并删除所述清洗任务队列表中所述待清洗数据的参数。
进一步的,所述将所述清洗后数据存入所述目标表中具体为:根据所述清洗任务队列表中的批次号顺序将所述清洗后数据存入所述目标表中。
为了解决上述技术问题,本申请实施例还提供一种数据清洗装置,采用了如下所述的技术方案:
一种数据清洗装置,包括:
第一存入模块,用于将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;
查找模块,用于查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;
获取模块,用于获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;
清洗模块,用于识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;
第二存入模块,用于将所述清洗后数据存入所述目标表中。
进一步的,所述查找模块包括:
识别子模块,用于识别所述清洗任务队列表中的数据分类编码;
调取子模块,用于根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表;
映射子模块,用于通过唯一识别码建立所述源表与所述目标表之间的映射关系。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述的数据清洗方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述的数据清洗方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本发明通过将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中,本申请可以保证数据清洗逻辑独立,实现业务逻辑分离,让程序松耦合,并且把数据清洗流程用异步实现,既不影响程序的性能,数据清洗产生的异常也不影响业务,实现公共清洗流程,避免了资源的浪费。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2根据本申请的数据清洗方法的一个实施例的流程图;
图3是本申请一个实施例中数据分类编码的结构图;
图4是图2中步骤S202的一种具体实施方式的流程图;
图5是本申请一个实施例中源表与目标表的映射图;
图6是图2中步骤S204的一种具体实施方式的流程图;
图7是根据本申请的数据清洗装置的一个实施例的结构示意图;
图8是图7所示查找模块一种具体实施方式的结构示意图;
图9是图7所示清洗模块一种具体实施方式的结构示意图;
图10是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请实施例所提供的数据清洗方法一般由服务器执行,相应地,数据清洗装置一般设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的数据清洗的方法的一个实施例的流程图。所述的数据清洗方法,包括以下步骤:
步骤S201,将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态。
在本实施例中,数据清洗方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收终端设备发来的数据清洗请求。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
具体地,所述待清洗数据包括一些参数,例如数据分类编码和清洗状态,其中,所述数据分类编码提示待清洗的数据的类型,不同的类型适用不同的清洗规则,所述清洗状态可以待清洗或已清洗,只有为待清洗时,会对其进行清洗。
通过将所述待清洗数据的参数存入清洗任务队列表中,在进行数据清洗任务时,只需要对清洗任务队列表进行识别,然后用数据分类编码调用对应的待清洗数据和清洗规则即可方便的对数据进行清洗,而无需预先将大量数据存入缓存内再进行清洗。
清洗任务队列表可以如下表1所示。
表1
批次号 数据分类编码 清洗状态
在本实施例中,具体是在业务层将所述待清洗数据的参数存入清洗任务队列表,可以实现业务逻辑与数据清洗逻辑隔离、解耦。
步骤S202,查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表。
具体的,如图3所示,数据分类编码由类型码、规则码和目标码组成,查找出与类型码对应的用于放待清洗数据的源表,根据目标码查找出用于存放清洗后数据的目标表,查找出与规则码对应的清洗规则。如图4所示,步骤S202具体包括以下步骤:
步骤S2021,识别所述清洗任务队列表中的数据分类编码。
具体的,可按照顺序识别数据分类编码中的类型码、规则码和目标码。
步骤S2022,根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表。
具体的,通过数据分类编码中的类型码可以判断出待清洗数据属于那种类型,例如待清洗数据为【1,920.76元】时,其类型码可以为“码1”,类型码唯一对应一组待清洗数据,其存放在源表中,所以在数据分类编码中的“类型码”都是不一样的,其清洗规则为【去除“,”和“元”】,其规则码可以为“规1”,在后续清洗时,通过类型码“码1”调取对应的源表中待清洗数据,通过规则码“规1”调取对应的清洗规则,通过目标码调取对应的目标表。
步骤S2023,通过唯一识别码建立所述源表与所述目标表之间的映射关系。
具体的,源表是用于存放待清洗的数据,目标表是用于存放清洗后的数据,因此源表与目标表之间具有一定的关系,该关系是通过清洗规则进行链接的,即源表通过一定的清洗规则关联目标表。由于清洗规则的数据量较大,在源表和目标表之间仅需要标注两者之间具有联系即可,以方便后期调用时源表和对应的目标表,所以本申请在源表和目标表之间通过唯一识别码映射,唯一识别码可以为数字、字母、特殊符号中的一项或多项组合,如图5所示。
步骤S203,获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则。
具体的,根据数据分类编码中的类型码来获取存放在源表中的待清洗数据,同时根据分类编码中的规则码获取清洗规则。
所述获取所述源表中的待清洗数据以及根据所述数据分类编码获取清洗规则的步骤后还包括:
根据所述源表、所述目标表和所述清洗规则配置脚本文件。
在实际运行时时,根据源表、目标表和清洗规则可以配置一个脚本文件,在后续的清洗时,只需要运行该脚本文件即可得到源表、目标表和清洗规则,而无需单独加载源表、目标表和清洗规则,也能避免出现混乱。
一般的,每执行同一个类别的数据清洗,只需要配置一个脚本文件,如果需要连续执行多个类别的数据清洗,则需要配置多个脚本文件。
步骤S204,识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据。
具体的,清洗状态可以为待清洗或已清洗,针对待清洗数据需要按照清洗规则进行清洗,而针对已清洗的数据则无需执行数据清洗操作。
所述清洗任务队列表中是按照批次号(也就是先后顺序)进行排序的,即按照批次号对数据分类编码和清洗状态进行排序,所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗具体为:在清洗状态为待清洗时在配置的所述脚本文件中读取清洗规则,并通过清洗规则对所述待清洗字段进行数据清洗。
结合图6所示,所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗的步骤具体包括:
步骤S2041,识别是否为首次数据清洗,若是则将所述清洗规则抓取至本地服务器。
具体的,识别是否为首次数据清洗可以通过判断清洗任务队列历史表是否为空表,若是则此前从未清洗过,且清洗规则没有被调用过,由于清洗规则都是在云端或后台所保存的,可以将清洗规则抓取至本地服务器,即执行清洗操作的终端本地服务器,具体可以是可以将配置有清洗规则的配置文件整体抓取到本地服务中,有利于提高处理速度和效率。
步骤S2042,根据所述清洗任务队列表中的批次号顺序识别所述清洗任务队列表中的清洗状态。
具体的,由于清洗任务队列表中是按照批次号进行排序的,所以是按照先后顺序识别清洗任务队列表的清洗状态的。
步骤S2043,统计所述清洗状态为待清洗的批次号,调用所述批次号所对应的所述待清洗数据根据所述清洗规则进行清洗。
具体的,按照先后顺序统计待清洗状态的所有批次号,可以按照顺序执行数据清洗操作,在清洗完成一个之后再清洗下一个。
在本实施例中,在步骤S2043之后还包括:
步骤S2044,每清洗一条所述待清洗数据,将所述清洗任务队列表中所述待清洗数据的参数更新至预设的清洗任务队列历史表,并删除所述清洗任务队列表中所述待清洗数据的参数。
具体的,在每完成一条清洗任务后,将清洗任务队列表中的相应参数删除,即批次号、数据分类编码和清洗状态。并且,虽然在清洗任务队列表中删除了该参数,但是将这些参数更新至预设的清洗任务队列历史表中,并且将清洗状态更新至已清洗,其优点在于,可以降低清洗任务队列表的循环次数,避免无效查找。
步骤S205,将所述清洗后数据存入所述目标表中。
该步骤S205具体为:根据所述清洗任务队列表中的批次号顺序将所述清洗后数据存入所述目标表中。
具体地,按照批次号没执行依次数据清洗任务,将该任务的清洗结果存入目表表中,然后执行下一次数据清洗任务。
本发明通过将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中,本申请可以保证数据清洗逻辑独立,实现业务逻辑分离,让程序松耦合,并且把数据清洗流程用异步实现,既不影响程序的性能,数据清洗产生的异常也不影响业务,实现公共清洗流程,避免了资源的浪费。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图7,作为对上述图2所示方法的实现,本申请提供了一种数据清洗装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例所述的数据清洗装置700包括:第一存入模块701、查找模块702、获取模块703、清洗模块704以及第二存入模块705。其中:
第一存入模块701,用于将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态。
查找模块702,用于查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表。
获取模块703,用于获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则。
清洗模块704,用于识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据。
第二存入模块705,用于将所述清洗后数据存入所述目标表中。
本发明通过将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中,本申请可以保证数据清洗逻辑独立,实现业务逻辑分离,让程序松耦合,并且把数据清洗流程用异步实现,既不影响程序的性能,数据清洗产生的异常也不影响业务,实现公共清洗流程,避免了资源的浪费。
参阅图8所示,为查找模块702一种具体实施方式的结构示意图,查找模块702包括识别子模块7021、调取子模块7022以及映射子模块7023。其中:
识别子模块7021,用于识别所述清洗任务队列表中的数据分类编码。
调取子模块7022,用于根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表。
映射子模块7023,用于通过唯一识别码建立所述源表与所述目标表之间的映射关系。
再本实施例中,获取模块703中还包括配置子模块,所述配置子模块用于根据所述源表、所述目标表和所述清洗规则配置脚本文件。
参阅图9,为清洗模块704一种具体实施方式的结构示意图,清洗模块704包括抓取子模块7041、顺序识别子模块7042、统计调用子模块7043以及更新子模块7044。其中:抓取子模块7041,用于识别是否为首次数据清洗,若是则将所述清洗规则抓取至本地服务器;顺序识别子模块7042,用于根据所述清洗任务队列表中的批次号顺序识别所述清洗任务队列表中的清洗状态;统计调用子模块7043,用于统计所述清洗状态为待清洗的批次号,调用所述批次号所对应的所述待清洗数据根据清洗规则进行清洗;更新子模块7044,用于每清洗一条所述待清洗数据,将所述清洗任务队列表中所述待清洗数据的参数更新至预设的清洗任务队列历史表,并删除所述清洗任务队列表中所述待清洗数据的参数。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图10,图10为本实施例计算机设备基本结构框图。
所述计算机设备10包括通过系统总线相互通信连接存储器101、处理器102、网络接口103。需要指出的是,图中仅示出了具有组件101-103的计算机设备10,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器101至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器101可以是所述计算机设备10的内部存储单元,例如该计算机设备10的硬盘或内存。在另一些实施例中,所述存储器101也可以是所述计算机设备6的外部存储设备,例如该计算机设备10上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器101还可以既包括所述计算机设备10的内部存储单元也包括其外部存储设备。本实施例中,所述存储器101通常用于存储安装于所述计算机设备10的操作系统和各类应用软件,例如数据清洗方法的计算机可读指令等。此外,所述存储器101还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器102在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器102通常用于控制所述计算机设备10的总体操作。本实施例中,所述处理器102用于运行所述存储器101中存储的计算机可读指令或者处理数据,例如运行所述数据清洗方法的计算机可读指令。
所述网络接口103可包括无线网络接口或有线网络接口,该网络接口103通常用于在所述计算机设备10与其他电子设备之间建立通信连接。
本发明通过将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中,本申请可以保证数据清洗逻辑独立,实现业务逻辑分离,让程序松耦合,并且把数据清洗流程用异步实现,既不影响程序的性能,数据清洗产生的异常也不影响业务,实现公共清洗流程,避免了资源的浪费。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的数据清洗方法的步骤。
本发明通过将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;将所述清洗后数据存入所述目标表中,本申请可以保证数据清洗逻辑独立,实现业务逻辑分离,让程序松耦合,并且把数据清洗流程用异步实现,既不影响程序的性能,数据清洗产生的异常也不影响业务,实现公共清洗流程,避免了资源的浪费。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

Claims (10)

1.一种数据清洗方法,其特征在于,包括下述步骤:
将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;
查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;
获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;
识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;
将所述清洗后数据存入所述目标表中。
2.根据权利要求1所述的数据清洗方法,其特征在于,所述查找出与所述数据分类编码对应的用于存放待清洗数据的源表及用于存放清洗后数据的目标表的步骤包括:
识别所述清洗任务队列表中的数据分类编码;
根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表;
通过唯一识别码建立所述源表与所述目标表之间的映射关系。
3.根据权利要求1所述的数据清洗方法,其特征在于,所述获取所述源表中的待清洗数据以及根据所述数据分类编码获取清洗规则的步骤后还包括:
根据所述源表、所述目标表和所述清洗规则配置脚本文件;
所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗具体为:
在清洗状态为待清洗时在配置的所述脚本文件中读取清洗规则,并通过清洗规则对所述待清洗字段进行数据清洗。
4.根据权利要求1所述的数据清洗方法,其特征在于,所述在清洗状态为待清洗时根据所述清洗规则对所述待清洗字段进行数据清洗的步骤具体包括:
识别是否为首次数据清洗,若是则将所述清洗规则抓取至本地服务器;
根据所述清洗任务队列表中的批次号顺序识别所述清洗任务队列表中的清洗状态;
统计所述清洗状态为待清洗的批次号,调用所述批次号所对应的所述待清洗数据根据所述清洗规则进行清洗。
5.根据权利要求4所述的数据清洗方法,其特征在于,在所述统计清洗状态为待清洗的批次号,调用每个批次号所对应的待清洗数据进行循环清洗的步骤之后还包括:
每清洗一条所述待清洗数据,将所述清洗任务队列表中所述待清洗数据的参数更新至预设的清洗任务队列历史表,并删除所述清洗任务队列表中所述待清洗数据的参数。
6.根据权利要求5所述的数据清洗方法,其特征在于,所述将所述清洗后数据存入所述目标表中具体为:
根据所述清洗任务队列表中的批次号顺序将所述清洗后数据存入所述目标表中。
7.一种数据清洗装置,其特征在于,包括:
第一存入模块,用于将待清洗数据的参数存入清洗任务队列表,所述参数至少包括数据分类编码和清洗状态;
查找模块,用于查找与所述数据分类编码对应的用于存放所述待清洗数据的源表及用于存放清洗后数据的目标表;
获取模块,用于获取所述源表中的所述待清洗数据及根据所述数据分类编码获取清洗规则;
清洗模块,用于识别所述清洗任务队列表中的清洗状态,在所述清洗状态为待清洗时根据所述清洗规则对所述待清洗数据进行数据清洗以形成清洗后数据;
第二存入模块,用于将所述清洗后数据存入所述目标表中。
8.根据权利要求7所述的数据清洗装置,其特征在于,所述查找模块包括:
识别子模块,用于识别所述清洗任务队列表中的数据分类编码;
调取子模块,用于根据所述数据分类编码中的类型码调取用于存放所述待清洗数据的所述源表,并根据所述数据分类编码中的目标码调取存放清洗后数据的所述目标表;
映射子模块,用于通过唯一识别码建立所述源表与所述目标表之间的映射关系。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至6中任一项所述的数据清洗方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至6中任一项所述的数据清洗方法的步骤。
CN202210027653.3A 2022-01-11 2022-01-11 一种数据清洗方法、装置、计算机设备及存储介质 Pending CN114281817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210027653.3A CN114281817A (zh) 2022-01-11 2022-01-11 一种数据清洗方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210027653.3A CN114281817A (zh) 2022-01-11 2022-01-11 一种数据清洗方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114281817A true CN114281817A (zh) 2022-04-05

Family

ID=80880744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210027653.3A Pending CN114281817A (zh) 2022-01-11 2022-01-11 一种数据清洗方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114281817A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112550A (zh) * 2023-10-24 2023-11-24 广东中思拓大数据研究院有限公司 数据清洗方法、数据清洗装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984652A (zh) * 2018-06-27 2018-12-11 北京圣康汇金科技有限公司 一种可配置数据清洗系统和方法
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
CN113326253A (zh) * 2020-02-28 2021-08-31 拓尔思天行网安信息技术有限责任公司 基于全文数据库的数据清洗方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984652A (zh) * 2018-06-27 2018-12-11 北京圣康汇金科技有限公司 一种可配置数据清洗系统和方法
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
CN113326253A (zh) * 2020-02-28 2021-08-31 拓尔思天行网安信息技术有限责任公司 基于全文数据库的数据清洗方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112550A (zh) * 2023-10-24 2023-11-24 广东中思拓大数据研究院有限公司 数据清洗方法、数据清洗装置、计算机设备和存储介质
CN117112550B (zh) * 2023-10-24 2024-02-27 广东中思拓大数据研究院有限公司 数据清洗方法、数据清洗装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN112052111B (zh) 服务器异常预警的处理方法、装置、设备及存储介质
CN109816321A (zh) 一种服务管理方法、装置、设备和计算机可读存储介质
CN112394908A (zh) 埋点页面自动生成的方法、装置、计算机设备及存储介质
CN113254445B (zh) 实时数据存储方法、装置、计算机设备及存储介质
CN112184169A (zh) 用户待办事项的动态规划方法、装置、设备及存储介质
CN112631924A (zh) 自动化测试方法、装置、计算机设备及存储介质
CN112860662A (zh) 数据血缘关系建立方法、装置、计算机设备及存储介质
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN115455058A (zh) 缓存数据的处理方法、装置、计算机设备及存储介质
CN114281817A (zh) 一种数据清洗方法、装置、计算机设备及存储介质
CN114281552A (zh) 一种基于有向无环图的任务调度方法、装置、设备及介质
CN116450622B (zh) 数据入库的方法、装置、设备和计算机可读介质
CN110851346A (zh) 查询语句边界问题的检测方法、装置、设备及存储介质
CN116450723A (zh) 数据提取方法、装置、计算机设备及存储介质
CN115328764A (zh) 基于自动化测试的测试代码优化方法及其相关设备
CN114372071A (zh) 一种表数据删除方法、装置、计算机设备及存储介质
CN113362097B (zh) 一种用户确定方法和装置
CN114374737A (zh) 消息推送方法、装置、计算机设备及存储介质
CN114626352A (zh) 报表自动化生成方法、装置、计算机设备及存储介质
CN114186976A (zh) 工作流程流转方法、装置、计算机设备及存储介质
CN114138401A (zh) 基于人工智能的容器配置方法、装置、设备及介质
CN113326253A (zh) 基于全文数据库的数据清洗方法、装置、设备和存储介质
CN117156398B (zh) 消息处理方法、装置、电子设备及存储介质
CN118299064B (zh) 基于罕见病的图模型训练方法、应用方法及相关设备
CN111327513B (zh) 消息数据的推送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination