CN108446362A - 数据清洗处理方法、装置、计算机设备和存储介质 - Google Patents

数据清洗处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108446362A
CN108446362A CN201810204927.5A CN201810204927A CN108446362A CN 108446362 A CN108446362 A CN 108446362A CN 201810204927 A CN201810204927 A CN 201810204927A CN 108446362 A CN108446362 A CN 108446362A
Authority
CN
China
Prior art keywords
data
rule
cleaning
pending
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810204927.5A
Other languages
English (en)
Inventor
王志斌
李刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN201810204927.5A priority Critical patent/CN108446362A/zh
Publication of CN108446362A publication Critical patent/CN108446362A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种数据清洗处理方法、装置、计算机设备和存储介质。所述方法包括:获取待处理数据,并检测待处理数据的第一数据类型;获取第一数据类型对应的第一清洗规则,并根据第一清洗规则清洗待处理数据;接收终端发送的数据获取请求,数据获取请求携带有第二数据类型;获取第二数据类型对应的第一处理规则,并从清洗后的待处理数据中获取与数据获取请求对应的第一数据;根据第一处理规则处理第一数据;将经过第一处理规则处理后的第一数据发送至终端。采用本数据清洗处理方法能够提高数据处理效率。

Description

数据清洗处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据清洗处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,人们逐渐进入大数据时代,对数据的处理要求日益提高,而在对数据进行处理时需要配置对应的处理规则,从而实现规范化的数据处理。
目前有较成熟规则引擎,如Drools(一个易于访问企业策略、易于调整以及易于管理的开源业务规则引擎)等,其主要解决处理规则的可配置性问题,即可以实现对处理规则的添加、删除和修改等,但当需要对大规模数据进行处理时,需要手动选择相对应的处理规则来进行数据处理,导致处理效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够通过提高数据处理效率的数据清洗处理方法、装置、计算机设备和存储介质。
一种数据清洗处理方法,所述方法包括:
获取待处理数据,并检测所述待处理数据的第一数据类型;
获取所述第一数据类型对应的第一清洗规则,并根据所述第一清洗规则清洗所述待处理数据;
接收终端发送的数据获取请求,所述数据获取请求携带有第二数据类型;
获取所述第二数据类型对应的第一处理规则,并从清洗后的所述待处理数据中获取与所述数据获取请求对应的第一数据;
根据所述第一处理规则处理所述第一数据;
将经过所述第一处理规则处理后的所述第一数据发送至所述终端。
在其中一个实施例中,所述根据所述第一处理规则处理所述第一数据之后,还包括:
获取与所述数据获取请求对应的分割规则,根据所述分割规则对经过处理规则处理后的所述第一数据进行分割得到第二数据;
将所述第二数据按照预设封装协议进行封装得到目标数据;
所述将经过所述第一处理规则处理后的所述第一数据发送至所述终端,包括:
将所述目标数据发送至所述终端。
在其中一个实施例中,所述获取待处理数据之后,还包括:
判断服务器集群中是否存在空闲服务器;
当服务器集群中存在空闲服务器时,则通过所述空闲服务器继续检测所述待处理数据的第一数据类型。
在其中一个实施例中,所述获取待处理数据之后,还包括:
检测所述待处理数据中是否存在预设标记;
当所述待处理数据中存在预设标记时,则输出与所述预设标记对应的错误数据;
接收与所述错误数据对应的纠错指令;
根据所述纠错指令重新获取与所述预设标记对应的数据。
在其中一个实施例中,所述方法还包括:
接收测试指令,根据所述测试指令获取预设目录下的测试数据;
检测所述测试数据的测试数据类型,根据所述测试数据类型获取对应的第二清洗规则,并根据所述第二清洗规则清洗所述测试数据得到清洗数据;
获取与所述测试数据对应的第一标准数据,计算所述清洗数据与所述第一标准数据的第一差值,根据所述第一差值纠正所述第二清洗规则。
在其中一个实施例中,所述计算所述清洗数据与所述第一标准数据的第一差值之后,还包括:
当所述第一差值小于预设差值,则接收测试数据获取请求,所述测试数据获取请求携带有第三数据类型;获取与所述第三数据类型对应的第二处理规则,并根据所述第二处理规则处理所述清洗数据得到目标测试数据;
获取与所述测试数据对应的第二标准数据,计算所述目标测试数据与所述第二标准数据的第二差值,根据所述第二差值纠正所述第二处理规则。
一种数据清洗处理装置,所述装置包括:
第一获取模块,用于获取待处理数据,并检测所述待处理数据的第一数据类型;
清洗模块,用于获取所述第一数据类型对应的第一清洗规则,并根据所述第一清洗规则清洗所述待处理数据;
接收模块,用于接收终端发送的数据获取请求,所述数据获取请求携带有第二数据类型;
第二获取模块,用于获取所述第二数据类型对应的第一处理规则,并从清洗后的所述待处理数据中获取与所述数据获取请求对应的第一数据;
处理模块,用于根据所述第一处理规则处理所述第一数据;
发送模块,用于将经过所述第一处理规则处理后的所述第一数据发送至所述终端。
在其中一个实施例中,所述装置还包括:
分割模块,用于获取与所述数据获取请求对应的分割规则,根据所述分割规则对经过处理规则处理后的所述第一数据进行分割得到第二数据;
封装模块,用于将所述第二数据按照预设封装协议进行封装得到目标数据;
则所述发送模块还用于将所述目标数据发送至所述终端。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述数据清洗处理方法、装置、计算机设备和存储介质,通过待接入数据的数据类型选择清洗规则对待接入数据进行清洗,然后根据其他终端的数据获取请求选择处理规则对清洗完的待接入数据处理以及标准化等操作,将待处理数据转化为符合其他终端数据获取请求的目标数据,再发送目标数据;通过上述数据清洗处理方法、装置、计算机设备和存储介质,通过已配置的规则对数据进行对应的清洗和处理,使得其他终端可以直接根据数据获取请求获取对应的数据,能够通过已配置的规则高效地处理数据,提高了数据处理效率。
附图说明
图1为一个实施例中数据清洗处理方法的应用场景图;
图2为一个实施例中数据清洗处理方法的流程示意图;
图3为图2实施例中的纠错步骤的流程示意图;
图4为图2实施例中的规则测试步骤的流程示意图;
图5为一个实施例中数据清洗处理装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据清洗处理方法,可以应用于如图1所示的应用环境中。其中,数据库、服务器和终端之间通过网络进行通信。服务器从数据库获取待处理数据,并根据待处理数据的类型选择对应的第一清洗规则对待处理数据进行清洗,再根据从终端获取的数据获取请求,选择对应的第一处理规则对清洗完的待处理数据进行处理,最后将处理后的清洗完的待处理数据发送至终端,完成整个数据清洗处理的操作。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现,数据库可以是线下数据服务器或者网站等。
在一个实施例中,如图2所示,提供了一种数据清洗处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取待处理数据,并检测待处理数据的第一数据类型。
其中,待处理数据是服务器根据终端的数据获取请求,所获取的需要进行清洗处理的数据;待处理数据可以是服务器从线下数据库中获取的,也可以是服务器从网站中读取的。
第一数据类型是服务器选择对待处理数据进行清洗的清洗规则的标准,第一数据类型可以根据对待处理数据进行清洗时的不同要求而自行设定,可以是各种计算机语言的数据类型,如C语言的长整型和整型等;也可以是待处理数据的存储格式,如JSON(JavaScript Object Notation基于Javascript(一种高级计算机编程语言)的对象表示法,是一种轻量级的数据交换格式)等。
具体地,服务器从线下或网络数据库中获取待处理数据,检测出待处理数据的第一数据类型。其中,待处理数据可以是从一个数据库中获取的,也可以是从不同数据库中获取的。
S204,获取第一数据类型对应的第一清洗规则,并根据第一清洗规则清洗待处理数据。
其中,第一清洗规则是用于对待处理数据进行清洗操作的处理规则;第一清洗规则可以是对数据进行数据筛选或一对一的格式转化,如将待处理数据中的内容为空的数据进行删除,或将待处理数据都统一转化为长整型的数据等。
具体地,服务器在步骤S202检测到待处理数据对应的第一数据类型后,根据第一数据类型选择对应的第一清洗规则,然后根据第一清洗规则对待处理数据进行清洗操作,将待处理数据进行第一步的数据筛选或一对一的格式转化。
可选地,在此数据清洗处理方法中,可以将所有清洗规则存储于服务器的规则库中,服务器根据第一数据类型从规则库中选择对应的清洗规则作为第一清洗规则。
S206,接收终端发送的数据获取请求,数据获取请求携带有第二数据类型。
其中,数据获取请求是终端需要从待处理数据中获取的目标数据的请求;该数据获取请求可以是终端发送的请求指令。
第二数据类型是终端需要服务器将对清洗后的待处理数据进行处理的业务类型;如将清洗后的待处理数据进行求和、多个单独的数据集整合等计算方法。
具体地,终端通过向服务器发送携带有第二数据类型的数据获取请求,服务器接收此数据获取请求后,先识别出其中携带的第二数据类型,再进行下一步的操作。
S208,获取第二数据类型对应的第一处理规则,并从清洗后的待处理数据中获取与数据获取请求对应的第一数据。
其中,第一处理规则是服务器用于根据第二数据类型对第一数据进行处理的规则;该第一处理规则可以是对第一数据进行求和、多个单独的数据集整合等计算;具体地,服务器事先可以根据终端发送的数据获取请求中携带的第二数据类型编写适应的算子得到第一处理规则。如,若需要对多个表格中的某些数据求和,则定义一个求和算子,或称为求和处理规则,此求和算子可以分别从多个第一数据的表格中选择数据,再对选择的数据进行求和计算;也可以根据业务需要定义其他的算子,编写不同的处理规则。
第一数据是服务器根据数据获取请求从清洗后的待处理数据中选取的符合终端需要的数据;如终端的数据获取请求为需要获取2017年度的数据,而清洗后的待处理数据包含2017至2018两个年度的数据,则服务器需要从中选取2017年度的数据作为第一数据。
具体地,服务器在步骤S206中接收终端发送的数据获取请求后,先根据数据获取请求中携带的第二数据类型获取对应的第一处理规则,然后根据终端发送的数据获取请求从经过步骤S204中清洗后的待处理数据中选取终端需要的第一数据,继续下一步地操作。
可选地,可以将所有处理规则存储于服务器的规则库中,服务器根据第二数据类型从规则库中选择对应的处理规则作为第一处理规则。
S210,根据第一处理规则处理第一数据。
具体地,当服务器获取到终端发送的数据获取请求,并识别出第二数据类型,即可直接调用与第二数据类型对应的第一处理规则对第一数据进行处理。
S212,将经过第一处理规则处理后的第一数据发送至终端。
具体地,服务器对待处理数据进行了上述的清洗和处理的操作后,将与数据请求对应的处理后的第一数据发送至对应的终端,完成此次数据清洗处理的操作。
上述数据清洗处理方法中,通过待接入数据的数据类型选择清洗规则对待接入数据进行清洗,然后根据其他终端的数据获取请求选择处理规则对清洗完的待接入数据处理以及标准化等操作,将待处理数据转化为符合其他终端数据获取请求的目标数据,再发送目标数据;通过上述数据清洗处理方法、装置、计算机设备和存储介质,通过已配置的规则对数据进行对应的清洗和处理,使得其他终端可以直接根据数据获取请求获取对应的数据,能够通过已配置的规则高效地处理数据,提高了数据处理效率。
另外,如多个终端都需要向同一个服务器发送数据获取请求,且每个终端对应的第二数据类型和第一处理规则固定,则可以根据不同的时间设定第二数据类型,则在每天对应的时间服务器从数据库获取的待处理数据后,直接将此终端固定的数据类型将清洗后的待处理数据按照第一处理规则进行处理,而不需等待终端发送的数据获取请求;待接收到终端的数据获取请求后,服务器直接将处理后的数据返回至终端。此步骤可以通过时间设定管理针对不同终端的数据清洗处理的操作,防止不同终端同时向同一终端发送数据获取请求时,导致的服务器的设备拥堵、数据处理效率低的问题。
在一个实施例中,上述数据清洗处理方法中的步骤S210根据第一处理规则处理第一数据之后,还可以包括:获取与数据获取请求对应的分割规则,根据分割规则对经过处理规则处理后的第一数据进行分割得到第二数据;将第二数据按照预设封装协议进行封装得到目标数据;则步骤S212将经过第一处理规则处理后的第一数据发送至终端,可以包括:将目标数据发送至终端。
其中,分割规则是服务器将第一数据进行分割的标准;如第一数据为汇总在同一表格中的数据,包含用户个人信息、交易数据、和理财数据等内容,可以根据不同的内容将这一表格分割为多个表格。
第二数据是通过分割规则将第一数据进行分割后得到的数据;如单独的用户个人信息、交易数据、和理财数据等。
预设封装规则是服务器将第二数据进行封装的规则,如将第二数据根据JSON的封装协议进行封装。
具体地,服务器将清洗后的数据按照第一处理规则进行处理得到第一数据后,可以通过设定的分割规则将第一数据进行分割,然后封装成便于存储和查看的数据格式,即目标数据,再将目标数据发送至发起数据获取请求的终端。
可选地,服务器在将目标数据封装好之后,可以将其存储在预定的磁盘或者网络数据库中,便于以后工作中的调用。
例如,将第二数据按照预设封装协议进行封装得到目标数据的步骤可以包括:将第二数据按照相应JSON封装协议,封装成JSON数据包,以供后续的查阅和调用。JSON是JS对象的字符串表示法,使用文本表示一个JS对象的信息,本质是一个字符串,JSON独立于编程语言的文本格式来存储和表示数据,占用空间小,同时更好的支持非关系型数据库。FastJson(一种JSON的处理工具包,可支持序列化和非序列化管理,支持的JSON解析也更加迅速)。
上述实施例中,将第一数据进行分割、封装等操作,便于服务器与终端之间的数据交互,也使得终端能够直接调用封装后的目标数据,而不需在终端在对第一数据进行处理。
在一个实施例中,上述数据清洗处理方法中的步骤S202中获取待处理数据之后,还可以包括:判断服务器集群中是否存在空闲服务器;当服务器集群中存在空闲服务器时,则通过空闲服务器继续检测待处理数据的第一数据类型。
其中,空闲服务器是处于空闲状态的服务器;可以通过检测服务器的资源占用率,资源占用率较低的服务器则被判断为空闲服务器。
具体地,当上述数据清洗处理方法中的服务器为多个通过网络连接的服务器集群时,其中一个服务器在获取到待处理数据之后,先检查与此服务器所在的服务器集群中是否存在空闲服务器,若存在,则通过此空闲服务器进行上述的数据清洗处理的操作。
例如,通过Redis(一种分布式存储系统)分析待处理数据的数据信息,检测与Redis连接的服务器使用情况;根据数据信息选取空闲服务器执行后面的数据处理。当数据处理的业务量小于预设值时,并不将所有与数据接入管理模块连接的服务器开启,而是根据接入的数据量的大小,选择一个或多个空闲的服务器或待处理数据所在的服务器进行数据处理。由于获取的数据量较大,在数据导入过程中是通过Redis的多线程进行线程队列的管理,降低高并发时的负载获取待处理数据后,Redis向对应的服务器发送处理消息,提醒对应的服务器对已经导入的待处理数据进行清洗、处理等操作。而在空闲时也会保留一个Redis线程,当此时有数据接入数据库时,可通过此线程寻找当前空闲的服务器或待处理数据所在的服务器作为处理服务器,执行对此时导入的待处理数据的清洗、处理等操作。
上述实施例中,通过服务器集群中的空闲服务器执行数据清洗处理的操作,在处理大批量数据时,避免造成数据拥堵,合理利用服务器的计算资源,提高了数据处理的效率。
在一个实施例中,请参见图3,上述数据清洗处理方法中的步骤S202中获取待处理数据之后,还可以包括纠错步骤,该纠错步骤可以包括:
S302,检测待处理数据中是否存在预设标记。
其中,预设标记是服务器用于标注获取的待处理数据中存在错误数据时的标记;该预设标记可以是在服务器识别到获取的待处理数据格式异常时,如出现数据乱码,则服务器将识别到的存在格式异常的待处理数据进行标记。
具体地,服务器对获取的待处理数据进行检测,当待处理数据中存在预设标记时,则服务器获取的待处理数据中存在错误数据。
S304,当待处理数据中存在预设标记时,则输出与预设标记对应的错误数据。
具体地,当服务器监测到待处理数据中存在预设标记时,则此预设标记对应的待处理数据为错误数据,需要将其重新导入后再进行之后的清晰或处理等操作,服务器先输出这部分错误数据。
可选地,服务器可以将此错误信息以邮件或微信通知的形式发送给对应处理的部门或者系统,此部门或者系统接收到错误信息后,判断错误类型和错误来源,根据这些信息查找对应的解决方法,生成纠错指令。
S306,接收与错误数据对应的纠错指令。
其中,纠错指令是纠正待处理数据的指令,可以是对应处理的部门或者系统发送给服务器的,也可以是针对输出的错误数据人工下达的指令。
具体地,服务器接收测试人员或对应处理的部门或者系统针对输出的错误数据发送的纠错指令。
S308,根据纠错指令重新获取与预设标记对应的数据。
具体地,服务器查询错误信息对应的待处理数据的对应部分,再重新获取这一部分数据,获取到正确的数据。
上述实施例中,服务器能够监测获取到待处理数据的正确性,并及时通知相应的人员或系统处理错误,保证了获取的数据的准确性。
在一个实施例中,请参见图4,上述数据清洗处理方法还可以包括规则测试步骤,该规则测试步骤包括:
S402,接收测试指令,根据测试指令获取预设目录下的测试数据。
其中,预设目录是存储测试数据的地址,可以是磁盘中的文件夹地址或数据库中的数据存储地址等。
具体地,为保证上述数据清洗处理方法中清洗规则的准确性,可以先对其进行自动化测试,服务器接收到人工或其他系统发送的测试指令,开始对清晰指令进行测试,首先服务器到存储测试数据的地址获取测试数据。
S404,检测测试数据的测试数据类型,根据测试数据类型获取对应的第二清洗规则,并根据第二清洗规则清洗测试数据得到清洗数据。
其中,测试数据类型是服务器选择对测试数据进行清洗的清洗规则的标准,测试数据类型可以根据对测试数据进行清洗时的不同要求而自行设定,可以是各种计算机语言的数据类型,如C语言的长整型和整型等;也可以是待处理数据的存储格式,如JSON等。
第二清洗规则是服务器根据测试数据类型获取的用于清洗测试数据的处理规则;第二清洗规则可以是对数据进行数据筛选或一对一的格式转化,如将待处理数据中的内容为空的数据进行删除,或将测试数据都统一转化为长整型的数据等。
具体地,服务器利用测试数据对数据清洗处理的方法进行验证时,按照与实际的数据清洗处理的步骤相同,服务器获取到测试数据后,检测测试数据对应的测试数据类型后,根据测试数据类型选择对应的第二清洗规则,然后根据第二清洗规则对待处理数据进行清洗操作,将测试数据进行数据筛选或一对一的格式转化。
S406,获取与测试数据对应的第一标准数据,计算清洗数据与第一标准数据的第一差值,根据第一差值纠正第二清洗规则。
其中,第一标准数据是用于测试服务器对测试数据的清洗操作是否准确的对比数据;当服务器能够正确根据测试数据的测试数据类型选取第二清洗规则,则清洗数据应该与第一标准数据的差值(即第一差值)较小。
具体地,将其通过上述的清洗步骤,检查得到的清洗数据与第一标准数据的差值是否符合预期,若不符合,则需要根据检测结果中出现的问题纠正清洗规则,以保证实际应用的准确,实现对通用配置的持久化管理。另外,此测试过程也可以在对数据的处理要求发生变化时,用于测试新增或更改的规则。
上述实施例中的规则测试模块,能够对数据清洗处理的方法进行测试验证,保证此方法的准确性。
在一个实施例中,上述数据清洗处理方法中步骤S406中计算清洗数据与第一标准数据的第一差值之后,还可以包括:当第一差值小于预设差值,则接收测试数据获取请求,测试数据获取请求携带有第三数据类型;获取与第三数据类型对应的第二处理规则,并根据第二处理规则处理清洗数据得到目标测试数据;获取与测试数据对应的第二标准数据,计算目标测试数据与第二标准数据的第二差值,根据第二差值纠正第二处理规则。
其中,预设差值是用于比较测试数据与第一标准数据的差值是否符合要求的参照标准;当测试数据与第一标准数据的差值小于预设差值时,则上一实施例中对于清洗步骤的测试结果正确。
第三数据类型是第二数据类型是终端需要服务器将对清洗后的待处理数据进行处理的业务类型;如将清洗数据进行求和、多个单独的数据集整合等计算方法。
第二处理规则是服务器用于根据第三数据类型对数据进行处理的规则;该第二处理规则是对清洗数据进行求和、多个单独的数据集整合等计算,服务器可以根据第三数据类型编写适应的算子对清洗数据进行得到的。如,若需要对多个表格中的某些数据求和,则定义一个求和算子,或称为求和处理规则,此求和算子可以分别从多个表格中选择数据,再对选择的数据进行求和计算;其算子的定义可以根据业务需要进行定义。
第二差值是用于判断服务器对清洗数据按照第二处理规则进行处理后得到的目标测试数据是否正确的标准;当服务器能够正确根据第三数据类型选取第二处理规则,则第二差值较小。
具体地,当测试数据与第一标准数据的差值小于预设差值时,则上一实施例中对于清洗步骤的测试结果正确。不需要对第二清洗规则进行纠正,可以继续对处理规则的测试过程,即服务器根据测试数据中携带的第三数据类型获取对应的第二处理规则,再通过第二处理规则将清洗数据定义的格式转化方式进行处理,得到目标测试数据,再将目标测试数据与第二标准数据相比较,计算得到第二差值,若第二差值小于等于预设值,为误差可接受的范围内,则不需对第二处理规则进行纠正;若第二差值大于预设值,则需要根据第二差值对第二处理规则进行纠正。
可选地,当第二差值小于预设值时,可以认为本申请中的数据清洗处理方法的清洗规则和处理规则都正确,不需要对其进行纠正,测试过程结束。
上述实施例中,服务器继续对处理规则进行测试,提高了此数据清洗处理方法的准确性。
例如,在一次对银行的风控数据清洗处理的过程中,服务器为风控平台先通过风控平台内置的数据接入模块从数据库获取,当终端的数据获取请求为希望找出2017年度年收入大于10万的所有客户;年收入是用户全年工资收入和投资收益的总和,而用户全年工资收入和客户的投资收益这两部分数据来自不同的客户管理系统,数据存储格式不同。服务器从这两个客户管理系统分别获取到需要先根据待处理数据的数据存储格式,即第一数据类型,调用第一清洗规则,将数据进行清洗,删除内容为空的数据,将两部分数据都统一为同一种数据格式,如JSON数据,并统一数据的长度、数值的范围等;再根据终端的数据获取请求,从清洗后的数据中选取2017年度的用户全年工资和2017年度用户的投资收益,对其进行求和处理,最终得到用户2017年度的年收入,然后再从中删选出年收入大于10万的用户,并将年收入大于10万的用户资料和年收入数据发送至终端。可选地,服务器在计算出用户2017年度的年收入后,可以根据数值大小,将用户2017年度的年收入分为大于10万,5万到十万,5万以下的部分,封装为3个JSON的数据包,当终端的数据获取请求为用户2017年度的年收入大于10万时,只需将用户2017年度的年收入大于10万的JSON数据包发送至终端即可。
应该理解的是,虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种数据清洗处理装置,包括:第一获取模块100、清洗模块200、接收模块300、第二获取模块400、处理模块500和发送模块600,其中:
第一获取模块100,用于获取待处理数据,并检测待处理数据的第一数据类型。
清洗模块200,用于获取第一数据类型对应的第一清洗规则,并根据第一清洗规则清洗待处理数据。
接收模块300,用于接收终端发送的数据获取请求,数据获取请求携带有第二数据类型。
第二获取模块400,用于获取第二数据类型对应的第一处理规则,并从清洗后的待处理数据中获取与数据获取请求对应的第一数据。
处理模块500,用于根据第一处理规则处理第一数据。
发送模块600,用于将经过第一处理规则处理后的第一数据发送至终端。
在一个实施例中,上述数据清洗处理装置还可以包括:
分割模块,用于获取与数据获取请求对应的分割规则,根据分割规则对经过处理规则处理后的第一数据进行分割得到第二数据。
封装模块,用于将第二数据按照预设封装协议进行封装得到目标数据。
则发送模块412,还可以用于将目标数据发送至终端。
在一个实施例中,上述数据清洗处理装置,还可以包括:判断服务器集群中是否存在空闲服务器;当服务器集群中存在空闲服务器时,则通过空闲服务器继续检测待处理数据的第一数据类型。
在一个实施例中,上述数据清洗处理装置,还可以包括纠错模块,该纠错模块可以包括:
检测单元,用于检测待处理数据中是否存在预设标记。
输出单元,用于当待处理数据中存在预设标记时,则输出与预设标记对应的错误数据。
接收单元,用于接收与错误数据对应的纠错指令。
纠错单元,用于根据纠错指令重新获取与预设标记对应的数据。
在一个实施例中,上述数据清洗处理装置还可以包括:
测试启动模块,用于接收测试指令,根据测试指令获取预设目录下的测试数据。
清洗测试模块,用于检测测试数据的测试数据类型,根据测试数据类型获取对应的第二清洗规则,并根据第二清洗规则清洗测试数据得到清洗数据。
清洗纠正模块,用于获取与测试数据对应的第一标准数据,计算清洗数据与第一标准数据的第一差值,根据第一差值纠正第二清洗规则。
在一个实施例中,上述数据清洗处理装置还可以包括:
处理测试模块,用于当第一差值小于预设差值,则接收测试数据获取请求,测试数据获取请求携带有第三数据类型;获取与第三数据类型对应的第二处理规则,并根据第二处理规则处理清洗数据得到目标测试数据。
处理纠正模块,用于获取与测试数据对应的第二标准数据,计算目标测试数据与第二标准数据的第二差值,根据第二差值纠正第二处理规则。
关于数据清洗处理装置的具体限定可以参见上文中对于数据清洗处理方法的限定,在此不再赘述。上述数据清洗处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据清洗处理方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待处理数据,并检测待处理数据的第一数据类型;获取第一数据类型对应的第一清洗规则,并根据第一清洗规则清洗待处理数据;接收终端发送的数据获取请求,数据获取请求携带有第二数据类型;获取第二数据类型对应的第一处理规则,并从清洗后的待处理数据中获取与数据获取请求对应的第一数据;根据第一处理规则处理第一数据;将经过第一处理规则处理后的第一数据发送至终端。
在一个实施例中,处理器执行计算机程序时实现的根据第一处理规则处理第一数据之后,还可以包括:获取与数据获取请求对应的分割规则,根据分割规则对经过处理规则处理后的第一数据进行分割得到第二数据;将第二数据按照预设封装协议进行封装得到目标数据;则将经过第一处理规则处理后的第一数据发送至终端,可以包括:将目标数据发送至终端。
在一个实施例中,处理器执行计算机程序时实现的获取待处理数据之后,还可以包括:判断服务器集群中是否存在空闲服务器;当服务器集群中存在空闲服务器时,则通过空闲服务器继续检测待处理数据的第一数据类型。
在一个实施例中,处理器执行计算机程序时实现的获取待处理数据之后,还可以包括:检测待处理数据中是否存在预设标记;当待处理数据中存在预设标记时,则输出与预设标记对应的错误数据;接收与错误数据对应的纠错指令;根据纠错指令重新获取与预设标记对应的数据。
在一个实施例中,处理器执行计算机程序执行时还可以实现:接收测试指令,根据测试指令获取预设目录下的测试数据;检测测试数据的测试数据类型,根据测试数据类型获取对应的第二清洗规则,并根据第二清洗规则清洗测试数据得到清洗数据;获取与测试数据对应的第一标准数据,计算清洗数据与第一标准数据的第一差值,根据第一差值纠正第二清洗规则。
在一个实施例中,处理器执行计算机程序执行时实现的计算清洗数据与第一标准数据的第一差值之后,还可以包括:当第一差值小于预设差值,则接收测试数据获取请求,测试数据获取请求携带有第三数据类型;获取与第三数据类型对应的第二处理规则,并根据第二处理规则处理清洗数据得到目标测试数据;获取与测试数据对应的第二标准数据,计算目标测试数据与第二标准数据的第二差值,根据第二差值纠正第二处理规则。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待处理数据,并检测待处理数据的第一数据类型;获取第一数据类型对应的第一清洗规则,并根据第一清洗规则清洗待处理数据;接收终端发送的数据获取请求,数据获取请求携带有第二数据类型;获取第二数据类型对应的第一处理规则,并从清洗后的待处理数据中获取与数据获取请求对应的第一数据;根据第一处理规则处理第一数据;将经过第一处理规则处理后的第一数据发送至终端。
在一个实施例中,计算机程序被处理器执行时实现的根据第一处理规则处理第一数据之后,还可以包括:获取与数据获取请求对应的分割规则,根据分割规则对经过处理规则处理后的第一数据进行分割得到第二数据;将第二数据按照预设封装协议进行封装得到目标数据;
在一个实施例中,计算机程序被处理器执行时获取待处理数据之后,还可以包括:判断服务器集群中是否存在空闲服务器;当服务器集群中存在空闲服务器时,则通过空闲服务器继续检测待处理数据的第一数据类型。
在一个实施例中,计算机程序被处理器执行时实现的获取待处理数据之后,还可以包括:检测待处理数据中是否存在预设标记;当待处理数据中存在预设标记时,则输出与预设标记对应的错误数据;接收与错误数据对应的纠错指令;根据纠错指令重新获取与预设标记对应的数据。
在一个实施例中,计算机程序被处理器执行时还可以实现:接收测试指令,根据测试指令获取预设目录下的测试数据;检测测试数据的测试数据类型,根据测试数据类型获取对应的第二清洗规则,并根据第二清洗规则清洗测试数据得到清洗数据;获取与测试数据对应的第一标准数据,计算清洗数据与第一标准数据的第一差值,根据第一差值纠正第二清洗规则。
在一个实施例中,计算机程序被处理器执行时实现的计算清洗数据与第一标准数据的第一差值之后,还可以包括:当第一差值小于预设差值,则接收测试数据获取请求,测试数据获取请求携带有第三数据类型;获取与第三数据类型对应的第二处理规则,并根据第二处理规则处理清洗数据得到目标测试数据;获取与测试数据对应的第二标准数据,计算目标测试数据与第二标准数据的第二差值,根据第二差值纠正第二处理规则。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种数据清洗处理方法,所述方法包括:
获取待处理数据,并检测所述待处理数据的第一数据类型;
获取所述第一数据类型对应的第一清洗规则,并根据所述第一清洗规则清洗所述待处理数据;
接收终端发送的数据获取请求,所述数据获取请求携带有第二数据类型;
获取所述第二数据类型对应的第一处理规则,并从清洗后的所述待处理数据中获取与所述数据获取请求对应的第一数据;
根据所述第一处理规则处理所述第一数据;
将经过所述第一处理规则处理后的所述第一数据发送至所述终端。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一处理规则处理所述第一数据之后,还包括:
获取与所述数据获取请求对应的分割规则,根据所述分割规则对经过处理规则处理后的所述第一数据进行分割得到第二数据;
将所述第二数据按照预设封装协议进行封装得到目标数据;
所述将经过所述第一处理规则处理后的所述第一数据发送至所述终端,包括:
将所述目标数据发送至所述终端。
3.根据权利要求1所述的方法,其特征在于,所述获取待处理数据之后,还包括:
判断服务器集群中是否存在空闲服务器;
当服务器集群中存在空闲服务器时,则通过所述空闲服务器继续检测所述待处理数据的第一数据类型。
4.根据权利要求1至3任一所述的方法,其特征在于,所述获取待处理数据之后,还包括:
检测所述待处理数据中是否存在预设标记;
当所述待处理数据中存在预设标记时,则输出与所述预设标记对应的错误数据;
接收与所述错误数据对应的纠错指令;
根据所述纠错指令重新获取与所述预设标记对应的数据。
5.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
接收测试指令,根据所述测试指令获取预设目录下的测试数据;
检测所述测试数据的测试数据类型,根据所述测试数据类型获取对应的第二清洗规则,并根据所述第二清洗规则清洗所述测试数据得到清洗数据;
获取与所述测试数据对应的第一标准数据,计算所述清洗数据与所述第一标准数据的第一差值,根据所述第一差值纠正所述第二清洗规则。
6.根据权利要求5所述的方法,其特征在于,所述计算所述清洗数据与所述第一标准数据的第一差值之后,还包括:
当所述第一差值小于预设差值,则接收测试数据获取请求,所述测试数据获取请求携带有第三数据类型;获取与所述第三数据类型对应的第二处理规则,并根据所述第二处理规则处理所述清洗数据得到目标测试数据;
获取与所述测试数据对应的第二标准数据,计算所述目标测试数据与所述第二标准数据的第二差值,根据所述第二差值纠正所述第二处理规则。
7.一种数据清洗处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理数据,并检测所述待处理数据的第一数据类型;
清洗模块,用于获取所述第一数据类型对应的第一清洗规则,并根据所述第一清洗规则清洗所述待处理数据;
接收模块,用于接收终端发送的数据获取请求,所述数据获取请求携带有第二数据类型;
第二获取模块,用于获取所述第二数据类型对应的第一处理规则,并从清洗后的所述待处理数据中获取与所述数据获取请求对应的第一数据;
处理模块,用于根据所述第一处理规则处理所述第一数据;
发送模块,用于将经过所述第一处理规则处理后的所述第一数据发送至所述终端。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
分割模块,用于获取与所述数据获取请求对应的分割规则,根据所述分割规则对经过处理规则处理后的所述第一数据进行分割得到第二数据;
封装模块,用于将所述第二数据按照预设封装协议进行封装得到目标数据;
则所述发送模块还用于将所述目标数据发送至所述终端。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201810204927.5A 2018-03-13 2018-03-13 数据清洗处理方法、装置、计算机设备和存储介质 Pending CN108446362A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810204927.5A CN108446362A (zh) 2018-03-13 2018-03-13 数据清洗处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810204927.5A CN108446362A (zh) 2018-03-13 2018-03-13 数据清洗处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN108446362A true CN108446362A (zh) 2018-08-24

Family

ID=63194892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810204927.5A Pending CN108446362A (zh) 2018-03-13 2018-03-13 数据清洗处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108446362A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144989A (zh) * 2018-08-27 2019-01-04 武汉达梦数据库有限公司 一种数据清洗的方法及用于数据清洗的装置
CN109189807A (zh) * 2018-09-13 2019-01-11 北京奇虎科技有限公司 一种报警数据的过滤方法和装置
CN109189928A (zh) * 2018-08-30 2019-01-11 天津做票君机器人科技有限公司 一种汇票交易机器人的授信信息识别方法
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN109542885A (zh) * 2018-11-19 2019-03-29 北京锐安科技有限公司 数据清洗方法、装置、设备及存储介质
CN110263024A (zh) * 2019-05-20 2019-09-20 平安普惠企业管理有限公司 数据处理方法、终端设备及计算机存储介质
CN110362468A (zh) * 2019-05-27 2019-10-22 深圳壹账通智能科技有限公司 软件测试方法、装置、电子设备及存储介质
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
CN110704410A (zh) * 2019-09-27 2020-01-17 中冶赛迪重庆信息技术有限公司 一种数据清洗方法、系统及设备
CN110727668A (zh) * 2019-09-30 2020-01-24 北京百度网讯科技有限公司 数据清洗方法及装置
CN111061795A (zh) * 2019-12-19 2020-04-24 新奥数能科技有限公司 一种数据处理方法、装置、智能终端及存储介质
CN111752936A (zh) * 2020-06-30 2020-10-09 中国科学院西北生态环境资源研究院 数据检测管理方法、装置、服务器及可读存储介质
CN112445937A (zh) * 2020-11-30 2021-03-05 成都新潮传媒集团有限公司 一种Json日志的生成方法、装置及计算机可读存储介质
CN112732696A (zh) * 2021-01-21 2021-04-30 中科三清科技有限公司 应用于大气环境监测的数据清洗方法、装置、存储介质
CN112948246A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 数据平台的ab测试控制方法、装置、设备及存储介质
CN113535696A (zh) * 2021-06-25 2021-10-22 中国民生银行股份有限公司 一种数据清洗方法、装置、电子设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523246A (zh) * 2011-11-23 2012-06-27 陈刚 一种云计算处理系统及方法
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
US20160070724A1 (en) * 2014-09-08 2016-03-10 International Business Machines Corporation Data quality analysis and cleansing of source data with respect to a target system
CN105426502A (zh) * 2015-11-26 2016-03-23 福州大学 基于社交网络的人物信息搜索与关系网绘制的方法
CN105989163A (zh) * 2015-03-04 2016-10-05 中国移动通信集团福建有限公司 数据实时处理方法及系统
CN106294492A (zh) * 2015-06-08 2017-01-04 深圳中兴网信科技有限公司 数据清洗方法及清洗引擎
CN106933992A (zh) * 2017-02-24 2017-07-07 北京华安普惠高新技术有限公司 基于数据分析的分布式数据清洗系统及方法
CN107169073A (zh) * 2017-05-09 2017-09-15 北京智行创远信息科技有限公司 一种数据管理方法与管理平台
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置
US9852197B2 (en) * 2014-06-23 2017-12-26 International Business Machines Corporation ETL tool interface for remote mainframes

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102523246A (zh) * 2011-11-23 2012-06-27 陈刚 一种云计算处理系统及方法
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
US9852197B2 (en) * 2014-06-23 2017-12-26 International Business Machines Corporation ETL tool interface for remote mainframes
US20160070724A1 (en) * 2014-09-08 2016-03-10 International Business Machines Corporation Data quality analysis and cleansing of source data with respect to a target system
CN105989163A (zh) * 2015-03-04 2016-10-05 中国移动通信集团福建有限公司 数据实时处理方法及系统
CN106294492A (zh) * 2015-06-08 2017-01-04 深圳中兴网信科技有限公司 数据清洗方法及清洗引擎
CN105426502A (zh) * 2015-11-26 2016-03-23 福州大学 基于社交网络的人物信息搜索与关系网绘制的方法
CN106933992A (zh) * 2017-02-24 2017-07-07 北京华安普惠高新技术有限公司 基于数据分析的分布式数据清洗系统及方法
CN107169073A (zh) * 2017-05-09 2017-09-15 北京智行创远信息科技有限公司 一种数据管理方法与管理平台
CN107239581A (zh) * 2017-07-07 2017-10-10 小草数语(北京)科技有限公司 数据清洗方法及装置

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144989A (zh) * 2018-08-27 2019-01-04 武汉达梦数据库有限公司 一种数据清洗的方法及用于数据清洗的装置
CN109189928A (zh) * 2018-08-30 2019-01-11 天津做票君机器人科技有限公司 一种汇票交易机器人的授信信息识别方法
CN109189807A (zh) * 2018-09-13 2019-01-11 北京奇虎科技有限公司 一种报警数据的过滤方法和装置
CN109299233A (zh) * 2018-09-19 2019-02-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN109299233B (zh) * 2018-09-19 2024-03-01 平安科技(深圳)有限公司 文本数据处理方法、装置、计算机设备及存储介质
CN109542885A (zh) * 2018-11-19 2019-03-29 北京锐安科技有限公司 数据清洗方法、装置、设备及存储介质
CN110263024B (zh) * 2019-05-20 2023-08-22 重庆盛本亚信息技术有限公司 数据处理方法、终端设备及计算机存储介质
CN110263024A (zh) * 2019-05-20 2019-09-20 平安普惠企业管理有限公司 数据处理方法、终端设备及计算机存储介质
CN110362468A (zh) * 2019-05-27 2019-10-22 深圳壹账通智能科技有限公司 软件测试方法、装置、电子设备及存储介质
CN110471913A (zh) * 2019-07-31 2019-11-19 北京慧萌信安软件技术有限公司 一种数据清洗方法及装置
CN110704410A (zh) * 2019-09-27 2020-01-17 中冶赛迪重庆信息技术有限公司 一种数据清洗方法、系统及设备
CN110727668A (zh) * 2019-09-30 2020-01-24 北京百度网讯科技有限公司 数据清洗方法及装置
CN110727668B (zh) * 2019-09-30 2022-03-01 北京百度网讯科技有限公司 数据清洗方法及装置
CN111061795A (zh) * 2019-12-19 2020-04-24 新奥数能科技有限公司 一种数据处理方法、装置、智能终端及存储介质
CN111061795B (zh) * 2019-12-19 2024-03-08 新奥数能科技有限公司 一种数据处理方法、装置、智能终端及存储介质
CN111752936A (zh) * 2020-06-30 2020-10-09 中国科学院西北生态环境资源研究院 数据检测管理方法、装置、服务器及可读存储介质
CN111752936B (zh) * 2020-06-30 2024-04-26 中国科学院西北生态环境资源研究院 数据检测管理方法、装置、服务器及可读存储介质
CN112445937A (zh) * 2020-11-30 2021-03-05 成都新潮传媒集团有限公司 一种Json日志的生成方法、装置及计算机可读存储介质
CN112445937B (zh) * 2020-11-30 2023-11-14 成都新潮传媒集团有限公司 一种Json日志的生成方法、装置及计算机可读存储介质
CN112732696A (zh) * 2021-01-21 2021-04-30 中科三清科技有限公司 应用于大气环境监测的数据清洗方法、装置、存储介质
CN112948246B (zh) * 2021-02-26 2023-08-04 北京百度网讯科技有限公司 数据平台的ab测试控制方法、装置、设备及存储介质
CN112948246A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 数据平台的ab测试控制方法、装置、设备及存储介质
CN113535696A (zh) * 2021-06-25 2021-10-22 中国民生银行股份有限公司 一种数据清洗方法、装置、电子设备和介质
CN113535696B (zh) * 2021-06-25 2024-03-15 中国民生银行股份有限公司 一种数据清洗方法、装置、电子设备和介质

Similar Documents

Publication Publication Date Title
CN108446362A (zh) 数据清洗处理方法、装置、计算机设备和存储介质
CN110399293B (zh) 系统测试方法、装置、计算机设备和存储介质
CN108509485B (zh) 数据的预处理方法、装置、计算机设备和存储介质
CN106294134B (zh) 代码的崩溃定位方法及装置
CN110209652A (zh) 数据表迁移方法、装置、计算机设备和存储介质
CN109710677A (zh) 实验数据处理方法、装置、计算机设备和存储介质
CN106095673A (zh) 基于web接口的自动化测试方法及系统
CN109766263A (zh) 自动化测试分析处理方法、装置、计算机设备及存储介质
CN110990390B (zh) 数据协同处理方法、装置、计算机设备和存储介质
CN108960058B (zh) 发票校验方法、装置、计算机设备及存储介质
CN108492005A (zh) 项目数据处理方法、装置、计算机设备和存储介质
CN109325010A (zh) 日志查看方法、装置、计算机设备和存储介质
CN110399241A (zh) 任务异常处理方法、装置、计算机设备和可读存储介质
CN110503544A (zh) 征信数据报送方法、装置、系统、计算机设备和存储介质
CN109992506A (zh) 调度测试方法、装置、计算机设备和存储介质
CN111970236A (zh) 跨网数据传输方法和装置
CN109325058B (zh) 规则批量比对方法、装置、计算机设备和存储介质
CN109492856A (zh) 业务请求处理方法、装置、计算机设备以及存储介质
CN109542763A (zh) 页面监测方法、装置、计算机设备和存储介质
CN108920357A (zh) 业务系统检测方法、装置、计算机设备和存储介质
CN109559232A (zh) 交易数据处理方法、装置、计算机设备和存储介质
CN109409948A (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN114090462B (zh) 软件重复缺陷识别方法、装置、计算机设备及存储介质
CN109271431A (zh) 数据抽取方法、装置、计算机设备及存储介质
CN115291762A (zh) 业务项目的触发方法及装置、存储介质、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180824