CN106649305A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN106649305A
CN106649305A CN201510714033.7A CN201510714033A CN106649305A CN 106649305 A CN106649305 A CN 106649305A CN 201510714033 A CN201510714033 A CN 201510714033A CN 106649305 A CN106649305 A CN 106649305A
Authority
CN
China
Prior art keywords
cleaning
data
cleaned
parameterses
data file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510714033.7A
Other languages
English (en)
Inventor
李亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510714033.7A priority Critical patent/CN106649305A/zh
Publication of CN106649305A publication Critical patent/CN106649305A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法及装置,涉及数据处理技术领域,解决了现有的数据清洗效率低的问题。本发明的主要技术方案为:接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数;根据所述清洗参数生成数据清洗程序;根据所述数据清洗程序对所述待清洗的数据文件进行清洗。本发明主要用于清洗数据。

Description

一种数据处理方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着计算机技术和通讯技术的飞速发展,人们可以获得越来越多的数字化信息,但同时也需要投入更多的时间对数字化信息进行组织和整理。例如在业务系统中,往往会因为代码缺陷、业务定义变更、网络延时等因素产生一些脏数据,例如一笔订单的付款时间早于订单的创建时间,这就是一条不符合业务逻辑的数据。在对数据做统计分析之前,需要将这些脏数据先过滤掉,以确保统计的准确性。数据清洗是一个减少数据错误和不一致性的过程,主要任务是检测并删除或改正将转入数据库的脏数据。另外,对这些脏数据进行分析归类,并反馈给业务系统,也能帮助业务系统更好的定位代码的缺陷,改进业务流程,从而提高数据的质量。
目前,数据清洗一般需要制定清洗数据的规则,并且通过编写一个数据清洗的程序读取并解析这些规则,然后对数据进行清洗,这种规则一般比较固定,主要用来检查并清洗数据的正确性、数据的一致性等等,如果对于动态的清洗,那么这种规则会有些不够用了,从而现有的数据清洗的效率低。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法及装置。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种数据处理方法,该方法包括:
接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数;
根据所述清洗参数生成数据清洗程序;
根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
另一方面,本发明实施例还提供一种数据处理装置,该装置包括:
接收单元,用于接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数;
生成单元,用于根据所述清洗参数生成数据清洗程序;
清洗单元,用于根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供了一种数据处理方法及装置,首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。与目前通过人工方式编写特定的清洗程序对待清洗的数据文件进行清洗相比,本发明实施例首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。从而通过本发明可以自动生成与所述待清洗数据文件对应的清洗程序,而无需再人工进行编写特定的清洗程序代码,进而提高了数据清洗的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种数据处理方法流程图;
图2为本发明实施例提供的另一种数据处理方法流程图;
图3为本发明实施例提供的一种数据处理装置的组成框图;
图4为本发明实施例提供的另一种数据处理装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供了一种数据处理方法,如图1所示,所述方法包括:
S101、接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数。
其中,所述待清洗的数据文件可以为表格数据文件、数据库文件等,所述清洗参数是用于指定清洗数据文件的一些条件、参数等。对于本发明实施例,所述清洗参数具体可以为表格中的字段和与字段对应设定的匹配条件,另外所述清洗参数中还可以包括清洗数据文件的顺序号等,本发明实施例不做具体限定。
例如,接收到待清洗的学生数据表,和与学生数据表对应的清洗参数为:对学生年龄字段中年龄小于15岁的数据进行清洗,并将年龄小于15岁的学生的年龄设置为16岁,则通过上述对学生数据表的清洗参数的设置,系统可以自动的将学生数据表中年龄小于15岁的学生年龄设置成16岁,从而实现了学生数据表的数据清洗。
需要说明的是,所述待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数可以通过客户端界面进行上传和输入。例如,用户上传所述待清洗的数据文件到系统后,可以通过在客户端界面中勾选数据字段的方式选择相应的需要清洗的字段名称,然后在与该名称对应的位置上输入匹配条件数据等,从而实现了待清洗的数据文件和与之对应的清洗参数的输入。
S102、根据所述清洗参数生成数据清洗程序;
其中,生成的数据清洗程序可以是SQL(Structured Query Language,数据库查询和程序设计语言)清洗程序。在本发明实施例中,根据步骤S101中的输入的数据文件和与数据文件对应的清洗参数,可以相应的生成SQL数据清洗程序,从而可以通过该数据清洗程序对应数据文件进行清洗。例如,步骤S101中接收到待清洗的学生数据表,和与学生数据表对应的清洗参数为:对学生年龄字段中年龄小于15岁的数据进行清洗,并将年龄小于15岁的学生的年龄设置为16岁,则生成相应的数据清洗程序可以为:UPDATE学生数据表SET年龄=16WHERE年龄<15。
需要说明的是,对于特殊或是复杂的数据清理过程,用户还可以直接将编写好的数据清洗程序上传到系统中,然后根据上传的数据清洗程序直接对待清洗的数据文件进行清洗,从而提高了用户体验。
S103、根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
对于本发明实施例,首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。从而通过本发明可以自动生成与所述待清洗数据文件对应的清洗程序,而无需再人工进行编写特定的清洗程序代码,进而提高了数据清洗的效率。
本发明实施例提供了一种数据处理方法,首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。与目前通过人工方式编写特定的清洗程序对待清洗的数据文件进行清洗相比,本发明实施例首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。从而通过本发明可以自动生成与所述待清洗数据文件对应的清洗程序,而无需再人工进行编写特定的清洗程序代码,进而提高了数据清洗的效率。
本发明实施例提供了另一种数据处理方法,如图2所示,所述方法包括:
S201、接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数。
其中,所述待清洗的数据文件可以为表格数据文件、数据库文件等,所述清洗参数是用于指定清洗数据文件的一些条件、参数等。对于本发明实施例,所述清洗参数具体可以为表格中的字段和与字段对应设定的匹配条件,另外所述清洗参数中还可以包括清洗数据文件的顺序号等,本发明实施例不做具体限定。
需要说明的是,所述待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数可以通过客户端界面进行上传和输入。例如,用户上传所述待清洗的数据文件到系统后,可以通过在客户端界面中勾选数据字段的方式选择相应的需要清洗的字段名称,然后在与该名称对应的位置上输入匹配条件数据等,从而实现了待清洗的数据文件和与之对应的清洗参数的输入。
S202、根据所述待清洗的数据文件中字段的内容,对所述清洗参数进行验证。
其中,对所述清洗参数进行验证,可以验证所述清洗参数中的字段是否在待清洗的数据文件中存在,以及验证清洗参数中与字段对应的匹配条件类型是否符合待清洗的数据文件中字段的类型等,本发明实施例不做具体限定。
例如,待清洗的数据文件中存在姓名字段、性别字段、年龄字段和班级字段,若接收到的清洗参数为将身高字段小于等于160厘米的学生的年龄设置成为15岁,则根据所述待清洗的数据文件中字段的内容对所述清洗参数进行验证发现,待清洗的数据文件中不存在身高字段,因此所述清洗参数不能通过验证;若接收到的清洗参数为将待清洗的数据文件中将姓名字段为王姓的人的姓名设置成15,则根据所述待清洗的数据文件中字段的内容对所述清洗参数进行验证发现,待清洗的数据文件中姓名字段对应的类型为字符型,而将姓名字段为王姓的人的姓名设置成15为数值型,因此所述清洗参数也不能通过验证。
S203a、若验证通过,则根据所述清洗参数生成数据清洗程序。
其中,生成的数据清洗程序可以是SQL(Structured Query Language,数据库查询和程序设计语言)清洗程序。在本发明实施例中,对于验证通过的清洗参数,可以相应的生成SQL数据清洗程序,从而可以通过该数据清洗程序对应数据文件进行清洗。例如,接收到待清洗的学生数据表,和与学生数据表对应的清洗参数为:对学生年龄字段中年龄小于15岁的数据进行清洗,并将年龄小于15岁的学生的年龄设置为16岁,则生成相应的数据清洗程序可以为:UPDATE学生数据表SET年龄=16WHERE年龄<15。
需要说明的是,对于特殊或是复杂的数据清理过程,用户还可以直接将编写好的数据清洗程序上传到系统中,然后根据上传的数据清洗程序直接对待清洗的数据文件进行清洗,从而提高了用户体验。
进一步地,根据所述清洗参数生成数据清洗程序之后,还可以根据待清洗数据文件中的数据内容对生成的数据清洗程序进行验证。需要说明的是,具体的验证内容可以根据实际的清洗参数进行配置,若清洗参数为对学生表中序列号为1至3的学生姓名设置为张翔、柳柳,则对数据清洗程序进行验证发现,对学生表中序列号为1至3的学生姓名设置为张翔、柳柳中缺少对应的一个学生姓名,因此对清洗程序验证不通过。
对于本发明实施例,所述清洗参数中包括清洗顺序信息,所述根据所述数据清洗程序对所述待清洗的数据文件进行清洗包括:按照所述清洗顺序信息,对所述待清洗的数据文件进行顺序清洗。例如,接收到待清洗的学生数据表,所述学生数据表中包括姓名字段、性别字段、年龄字段、体重字段;和与学生数据表对应的清洗参数为:清洗顺序2对应将学生数据表中年龄字段小于15岁的学生对应的数据删除;清洗顺序1对应将学生数据表中性别字段为女的学生对应的数据删除,则根据所述清洗顺序,首先将学生数据表中性别字段为女的学生对应的数据删除,然后根据上述清洗数据文件之后,将学生数据表中年龄字段小于15岁的学生对应的数据删除。
S203b、若验证未通过,则将验证未通过的清洗参数存储到系统日志当中。
其中,所述步骤S203b是步骤S203a的并列步骤,在本发明实施例中,若所述清洗参数未通过,则将验证未通过的清洗参数存储到系统日志当中,可以使后台程序人员通过系统日志查看不能通过验证的原因,从而根据查看的内容对清洗参数做出及时的修改,进而提高了用户体验。
S204a、根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
对于本发明实施例,首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。从而通过本发明可以自动生成与所述待清洗数据文件对应的清洗程序,而无需再人工进行编写特定的清洗程序代码,进而提高了数据清洗的效率。
S205a、接收清洗数据的查询指令。
其中,所述查询指令用于输出所述待清洗的数据文件的详细清洗信息。所述查询指令可用于查询清洗成功的数据条数和未能清洗成功的数据条数,以及查询清洗成功的数据的详细信息、未能清洗成功的数据的详细信息等,本发明实施例不做具体限定。对于本发明实施例,系统根据清洗参数生成的清洗SQL语句,执行数据的清洗,清洗完成以后,程序根据查询未能清洗数据的SQL语句,将未能清洗的数据查询出来,并且显示给用户,用户如果修改了相应的配置文件中的配置,或者修改了某些数据,点击保存,那么程序会再次进行执行,如此反复直到所有的清洗都执行完毕,或者用户主动中断执行。
本发明实施例提供了另一种数据处理方法,首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。与目前通过人工方式编写特定的清洗程序对待清洗的数据文件进行清洗相比,本发明实施例首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。从而通过本发明可以自动生成与所述待清洗数据文件对应的清洗程序,而无需再人工进行编写特定的清洗程序代码,进而提高了数据清洗的效率。
进一步地,本发明实施例提供一种数据处理装置,如图3所示,所述装置包括:接收单元31、生成单元32、清洗单元33。
接收单元31,用于接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数。
生成单元32,用于根据所述清洗参数生成数据清洗程序。
清洗单元33,用于根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
需要说明的是,本发明实施例提供的一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供了一种数据处理装置,首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。与目前通过人工方式编写特定的清洗程序对待清洗的数据文件进行清洗相比,本发明实施例首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。从而通过本发明可以自动生成与所述待清洗数据文件对应的清洗程序,而无需再人工进行编写特定的清洗程序代码,进而提高了数据清洗的效率。
进一步地,本发明实施例提供另一种数据处理装置,如图4所示,所述装置包括:接收单元41、生成单元42、清洗单元43。
接收单元41,用于接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数。
生成单元42,用于根据所述清洗参数生成数据清洗程序。
清洗单元43,用于根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
进一步地,所述装置还包括:验证单元44。
所述验证单元44,用于根据所述待清洗的数据文件中字段的内容,对所述清洗参数进行验证。
所述生成单元42,具体用于若所述清洗参数验证通过,则根据所述清洗参数生成数据清洗程序。
所述清洗单元43,具体用于按照所述清洗顺序信息,对所述待清洗的数据文件进行顺序清洗。
进一步地,所述装置还包括:
存储单元45,用于若所述清洗参数验证未通过,则将验证未通过的清洗参数存储到系统日志当中。
所述接收单元41,还用于接收清洗数据的查询指令,所述查询指令用于输出所述待清洗的数据文件的详细清洗信息。
需要说明的是,本发明实施例提供的另一种数据处理装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。
本发明实施例提供了另一种数据处理装置,首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。与目前通过人工方式编写特定的清洗程序对待清洗的数据文件进行清洗相比,本发明实施例首先接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数,然后根据所述清洗参数生成数据清洗程序,最后根据所述数据清洗程序对所述待清洗的数据文件进行清洗。从而通过本发明可以自动生成与所述待清洗数据文件对应的清洗程序,而无需再人工进行编写特定的清洗程序代码,进而提高了数据清洗的效率。
所述数据清洗装置包括处理器和存储器,上述接收单元、生成单元、清洗单元、验证单元和存储单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高数据清洗的效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数;根据所述清洗参数生成数据清洗程序;根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数;
根据所述清洗参数生成数据清洗程序;
根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
2.根据权利要求1所述的数据处理方法,其特征在于,根据所述清洗参数生成数据清洗程序之前,所述方法还包括:
根据所述待清洗的数据文件中字段的内容,对所述清洗参数进行验证;
所述根据所述清洗参数生成数据清洗程序包括:
若验证通过,则根据所述清洗参数生成数据清洗程序。
3.根据权利要求2所述的数据处理方法,其特征在于,所述清洗参数中包括清洗顺序信息,所述根据所述数据清洗程序对所述待清洗的数据文件进行清洗包括:
按照所述清洗顺序信息,对所述待清洗的数据文件进行顺序清洗。
4.根据权利要求2所述的数据处理方法,其特征在于,所述根据所述待清洗的数据文件中字段的内容,对所述清洗参数进行验证之后,所述方法还包括:
若验证未通过,则将验证未通过的清洗参数存储到系统日志当中。
5.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述数据清洗程序对所述待清洗的数据文件进行清洗之后,所述方法还包括:
接收清洗数据的查询指令,所述查询指令用于输出所述待清洗的数据文件的详细清洗信息。
6.一种数据处理装置,其特征在于,包括:
接收单元,用于接收待清洗的数据文件,和与所述待清洗的数据文件对应的清洗参数;
生成单元,用于根据所述清洗参数生成数据清洗程序;
清洗单元,用于根据所述数据清洗程序对所述待清洗的数据文件进行清洗。
7.根据权利要求6所述的数据处理装置,其特征在于,所述装置还包括:验证单元,
所述验证单元,用于根据所述待清洗的数据文件中字段的内容,对所述清洗参数进行验证;
所述生成单元,具体用于若所述清洗参数验证通过,则根据所述清洗参数生成数据清洗程序。
8.根据权利要求7所述的数据处理装置,其特征在于,所述清洗参数中包括清洗顺序信息,
所述清洗单元,具体用于按照所述清洗顺序信息,对所述待清洗的数据文件进行顺序清洗。
9.根据权利要求7所述的数据处理装置,其特征在于,所述装置还包括:
存储单元,用于若所述清洗参数验证未通过,则将验证未通过的清洗参数存储到系统日志当中。
10.根据权利要求6所述的数据处理装置,其特征在于,
所述接收单元,还用于接收清洗数据的查询指令,所述查询指令用于输出所述待清洗的数据文件的详细清洗信息。
CN201510714033.7A 2015-10-28 2015-10-28 一种数据处理方法及装置 Pending CN106649305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510714033.7A CN106649305A (zh) 2015-10-28 2015-10-28 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510714033.7A CN106649305A (zh) 2015-10-28 2015-10-28 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN106649305A true CN106649305A (zh) 2017-05-10

Family

ID=58829414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510714033.7A Pending CN106649305A (zh) 2015-10-28 2015-10-28 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN106649305A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144989A (zh) * 2018-08-27 2019-01-04 武汉达梦数据库有限公司 一种数据清洗的方法及用于数据清洗的装置
CN111026739A (zh) * 2019-11-26 2020-04-17 智器云南京信息科技有限公司 批量数据清洗的方法及装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355461A (zh) * 2011-09-29 2012-02-15 广州中浩控制技术有限公司 一种xbrl可信数据存储方法和可信数据存储系统
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN103902707A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于专家系统url清洗知识库的“垃圾”内容过滤方法
CN104361064A (zh) * 2014-11-04 2015-02-18 中国银行股份有限公司 对数据文件的数据清洗方法和数据文件处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355461A (zh) * 2011-09-29 2012-02-15 广州中浩控制技术有限公司 一种xbrl可信数据存储方法和可信数据存储系统
CN103593352A (zh) * 2012-08-15 2014-02-19 阿里巴巴集团控股有限公司 一种海量数据清洗方法及装置
CN103902707A (zh) * 2014-03-31 2014-07-02 辽宁四维科技发展有限公司 基于专家系统url清洗知识库的“垃圾”内容过滤方法
CN104361064A (zh) * 2014-11-04 2015-02-18 中国银行股份有限公司 对数据文件的数据清洗方法和数据文件处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周宏广: "异构数据源集成中清洗策略的研究及应用", 《中国优秀博硕士学位论文全文数据库(硕士)》 *
韩忠明,段大高著: "《数据分析与R》", 31 August 2014, 北京邮电大学出版社 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144989A (zh) * 2018-08-27 2019-01-04 武汉达梦数据库有限公司 一种数据清洗的方法及用于数据清洗的装置
CN111026739A (zh) * 2019-11-26 2020-04-17 智器云南京信息科技有限公司 批量数据清洗的方法及装置、计算机设备和存储介质
CN111026739B (zh) * 2019-11-26 2023-08-29 智器云南京信息科技有限公司 批量数据清洗的方法及装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN107705183B (zh) 一种商品的推荐方法、装置、存储介质及服务器
Gousios et al. Measuring developer contribution from software repository data
CN109325640B (zh) 用户价值预测方法、装置、存储介质及设备
DE102018202497A1 (de) Technologien für optimiertes Maschinenlerntraining
US20170091041A1 (en) Method and apparatus for transferring data between databases
US9449283B1 (en) Selecting a training strategy for training a machine learning model
JP6414363B2 (ja) 予測システム、方法およびプログラム
CN107273117A (zh) 一种编程友好型的敏捷代码自动生成系统
US9741015B2 (en) Map based routing from bill of materials
CN104112084B (zh) 用于基于执行的许可发现和优化的方法和系统
WO2019223145A1 (zh) 电子装置、推销名单推荐方法、系统和计算机可读存储介质
CN104992348A (zh) 一种信息展示的方法和装置
US20230351426A1 (en) Techniques to predict and implement an amortized bill payment system
Lugaresi et al. Generation and tuning of discrete event simulation models for manufacturing applications
CN103729171A (zh) 业务工作流代码的生成方法及装置
WO2020253038A1 (zh) 一种模型构建方法及装置
CN106681854A (zh) 一种信息校验方法、装置及系统
CN110471833A (zh) 一种测试数据的获取方法、电子设备及存储介质
CN110287750A (zh) 一种自动化检测设备二维码重码检测装置及系统
Drago et al. Towards quality driven exploration of model transformation spaces
CN106649305A (zh) 一种数据处理方法及装置
CN108255852B (zh) Sql执行方法及装置
CN109542785A (zh) 一种无效bug确定方法和装置
Nathan Enterprise Data Workflows with Cascading: Streamlined Enterprise Data Management and Analysis
CN108062709B (zh) 基于半监督学习的用户行为预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510