CN111026739A - 批量数据清洗的方法及装置、计算机设备和存储介质 - Google Patents

批量数据清洗的方法及装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111026739A
CN111026739A CN201911171340.XA CN201911171340A CN111026739A CN 111026739 A CN111026739 A CN 111026739A CN 201911171340 A CN201911171340 A CN 201911171340A CN 111026739 A CN111026739 A CN 111026739A
Authority
CN
China
Prior art keywords
data
cleaning
mode
file
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911171340.XA
Other languages
English (en)
Other versions
CN111026739B (zh
Inventor
王海波
张扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cognitive Computing Nanjing Information Technology Co ltd
Original Assignee
Cognitive Computing Nanjing Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cognitive Computing Nanjing Information Technology Co ltd filed Critical Cognitive Computing Nanjing Information Technology Co ltd
Priority to CN201911171340.XA priority Critical patent/CN111026739B/zh
Publication of CN111026739A publication Critical patent/CN111026739A/zh
Application granted granted Critical
Publication of CN111026739B publication Critical patent/CN111026739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种批量数据清洗方法,包括:从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。从而对海量数据进行灵活的清洗方式配置,提高用户的体验。

Description

批量数据清洗的方法及装置、计算机设备和存储介质
技术领域
本发明涉及人工智能技术领域,尤指一种批量数据清洗的方法及装置、计算机设备和存储介质。
背景技术
现今计算机技术发展迅速,尤其随着互联网应用场景的不断壮大以及存储技术的不断突破,使得这些应用场景积累了海量的数据。在数据量较少的时候,人工进行分析可以达到数据分析的目的,但是数据量的情况下,能够提供的信息、信息发现对后续应用能做的贡献也有限。然而,现如今资讯爆炸的背景下,数据量已经不是数据挖掘分析的主要问题,面对如此海量的数据,分析人员如何才能有效的对数据进行分析,尽可能多的发觉数据中的价值,是我们亟待解决的问题。
如何对海量数据进行分析和挖掘,第一步要做的就是要对来自不同应用系统、不同应用平台、不同结构的数据进行清洗。让这些来自不同数据源的数据能够在业务上、格式上统一起来,从而为后续的分析垫底坚实基础。
现有技术中,数据清洗的方式有很多,例如可以使用类似python,c++,java等编程语言,对需要清洗的数据文件进行清洗。但是这些清洗方式需要分析人员熟练地掌握一门变成语言,并且前期的编码调试过程较长,这就大大提高了数据清洗的技术门槛。当然也有分析人员使用excel进行数据清洗,但excel的界面功能比较有限,高级的功能还是要通过编写VB来实现。同时,也有使用市面上的一些数据清洗工具,然而,虽然如今市面上的清洗工具有不少,但是它们大多数功能复杂而且清洗方式不够灵活,学习成本较高还没有很好的效果。
发明内容
本发明实施例的目的是提供一种批量数据清洗的方法及装置、计算机设备和存储介质,用以解决现有技术中海量数据清洗门槛高不易实现,或者清洗方式不够灵活的问题。
为解决上述问题,第一方面,本发明实施例提供了一种批量数据清洗的方法,所述方法包括:
从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;
根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;
若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。
优选地,所述方法还包括:
对分组后的分组数据修改文件标题头或数据分隔符,修改的数据文件根据标题或数据分隔符进行重新分组。
优选地,所述方法还包括:
为属于同一个分组的所述分组数据配置相同的数据模板或数据清洗方式。
优选地,所述配置清洗方式具体包括:
选择需要清洗的数据列,并为所述数据列选择一个清洗方式,将所述数据列和所述清洗方式发送至同一方式编辑区域。
优选地,所述配置清洗方式还包括:
在将所述数据列和所述清洗方式发送至同一方式编辑区域后,还在所述方式编辑区域添加数据列或者清洗方式,或者删除数据列或者调换数据列的顺序,或者设置数据清洗方式的使用条件生成复合清洗方式。
优选地,所述方法还包括:
通过可视化接口,将所述分组列表、数据预览、数据清洗方式编辑在同一个界面分区域的显示。
优选地,所述方法还包括:
当分组数据的单列或者复合清洗的清洗方式不足以满足数据清洗的需求时,选择进行全局清洗方式。
第二方面,本发明实施例还提供了一种批量数据清洗的装置,所述装置包括:
数据导入模块,用于从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;
数据分组模块,用于根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;
数据清洗模块,用于当若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式进行数据清洗,得到数据清洗的结果。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或更多个处理器;
一个或更多个存储器;
一个或更多个模块,其被存在存储器中且能够由所述一个或更多个处理器中的至少一个处理器以执行如第一方面所述批量数据清洗方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时如第一方面所述批量数据清洗方法的步骤。
本发明实施例提供的批量数据清洗方法,具有以下技术效果:
针对海量数据,本发明实施例提供了某个领域的数据模板,对于同类问题或者同个领域使用相同的数据结构,本发明实施例允许用户建立某个领域的数据模板时,将清洗的数据导入到数据模板中进行统一管理,对同类型的数据进行分组,即针对批量导入时但相同类型的文件分为一组,进行批量操作,减少手动配置;提供了多种清洗方式,并且可以界面来显示方式及数据,通过拖拽的方式,灵活地调节多个清洗方式的清洗顺序;通过可视化接口,使得用户在设置清洗方式后,可以根据设置好的清洗方式进行数据清洗,在数据清洗的结果预览表中实时预览展示数据清洗的结果,便于用户根据清洗的结果再次调整清洗方式,提高用户的使用体验。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对异步系统的实现方法、计算机设备和存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明实施例中一种批量数据清洗方法的流程图;
图2是本发明实施例中一种批量数据清洗方法的实例图;
图3是本发明实施例中一种批量数据清洗装置的结构图;
图4是本发明实施例一种批量数据清洗方法的计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
如图1所示,本发明实施例提供了一种批量数据清洗方法,所述方法包括:
S100.从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;
S200.根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;
优选地,所述分组数据配置有相同的数据模板或清洗方式;
本发明实施例提供了某个领域的数据模板,对于同类问题或者同个领域使用相同的数据结构,本发明实施例允许用户建立某个领域的数据模板时,将清洗的数据导入到数据模板中进行统一管理,对同类型的数据进行分组,即针对批量导入时但相同类型的文件分为一组,进行批量操作,减少手动配置;
数据导入后,可以将数据资源树上的数据或者资源管理器的数据文件拖拽到拖放区域中,根据数据的内容进行分类,相同类别的数据分为同一组数据,为同一组数据统一配置模板,或者为同一个分组的分组数据配置相同的清洗方式,从而减少清洗过程中对各个数据源的清洗配置操作。
优选地,所述方法还包括:
对分组后的分组数据修改文件标题头或数据分隔符,修改的数据文件根据标题或数据分隔符进行重新分组。
S300.若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗得到数据清洗的结果。
即分组后的数据文件,或者若干个数据文件组成的文件组第一次出现时,会根据预设的人工智能AI算法进行数据模板的匹配,非第一次出现,即多次出现的单个文件或者文件组会启用上一次被导入时的数据模板和清洗方式。本发明实施例提供智能推荐及数据清洗的历史记录:对于第一次清洗的数据,运用AI算法对数据模板和列对应关系进行推荐。对于第二次或多次出现过的数据格式,会记录上一次清洗时的配置进行智能推荐,从而提高清洗速度,以及用户的使用体验。
其中,所述配置清洗方式具体包括:
选择需要清洗的数据列,并为所述数据列选择一个清洗方式,将所述数据列和所述清洗方式发送至同一方式编辑区域。
例如,在一个分组数据中,可以选择单列清洗或者多列合并清洗,选择列“提取数据”、“日期时间”、“条件替换”、“添加后缀”、“添加后缀”、“移出前缀”、“移除后缀”“移除字符”中的等清洗方式中的一个或者多个,或者设置清洗方式的使用条件等。
优选地,所述配置清洗方式还包括:
在将所述数据列和所述清洗方式发送至同一方式编辑区域后,还在所述方式编辑区域添加数据列或者清洗方式。
其中,数据列或者清洗方式可以删除、添加或者调换顺序,以及可以编辑对清洗方式的使用条件,生成复合清洗方式。
通过符合清洗方式的编辑和生成,可以大大提高数据清洗的准确性和可针对性,便于后续数据分析时得到更贴近实际需求的有价值数据。
优选地,所述方法还包括:
通过可视化接口将所述分组列表、数据预览、数据清洗方式编辑区域在同一个界面分区域的显示。
即将数据清洗过程分为三大区域:分组列表区域、数据预览区域(显示源数据或者清洗结果数据)、清洗方式编辑区域进行显示,举一个具体实施的实例:
在界面的左侧作为分组列表的显示,所述分组列表用以对不同的分组进行切换,用户可以在左侧分组列表中切换数据分组,以对数据清洗对象进行选择。
将数据清洗方式编辑区域置于界面的下侧,用于对数据清洗方式进行配置;界面的上侧作为数据预览区域,比如数据清洗结果的预览区域,会根据配置好的数据清洗方式清洗后,进行数据预览,数据清洗结果的预览区域还可以配置数据模板的标题头和文件标题头的对应关系,不同的数据模板可以配置不同的清洗格式检查项,比如用红色底色标识单元格,表示该单元格没有检查通过,为不符合要求的数据,通过清洗方式的配置进行数据清洗使这些数据符合要求。
通过可视化接口,使得用户在设置清洗方式后,可以根据设置好的清洗方式进行数据清洗,在数据清洗的结果预览表中实时预览展示数据清洗的结果,便于用户根据清洗的结果再次调整清洗方式,提高用户的使用体验。
所述方法还包括:
当分组数据的单列或者多列合并清洗的清洗方式不足以满足数据清洗的需求时,选择进行全局清洗方式。
如图2所示,选择全局清洗的方式配置,下侧清洗方式编辑区域会显示脚本列表和编辑框:所述全局清洗方式即可以通过脚本的编写,进行数据清洗。
本发明实施例提供了脚本清洗的基本框架,用户只需填写按照自己需求的清洗函数即可,例如如下为一个脚本编写和脚本导出的实例:
脚本显示的代码为全局清洗的框架python代码。其中custom_exec这个函数需要填写清洗代码以达到清洗需求。
custom_exec的参数只有两个分别是:org_data和data_interface。
其中:
org_data就是清洗数据预览界面中看到的数据。这里已经被封装成了的dataframe,即需要处理的数据;
data_interface封装了高级访问接口;
custom_exec的返回值,被要求是一个dataframe,并且要有完整的列头名称,函数返回dataframe之后,会根据返回的dataframe的列头与文件标题进行对比,相同则认为返回的数据为对应文件的同名列,如果返回的数据中有的列名在文件标题中没有出现过,则将这些列视为新增列,在文件标题中新增。并且会展现到上方数据预览区域中方便用户将它跟数据模板标题进行对应。
用户可以根据自己的设置,配置调试方式,即提供了将整个预览数据和清洗脚本代码导出的功能,方便用户对清洗脚本进行调试。
数据清洗结果导出,用户可以选择将数据导入到哪里,例如用户可以选择已接入的数据库中。
本发明实施例提供的批量数据清洗方法,具有以下技术效果:
本发明实施例提供了某个领域的数据模板,对于同类问题或者同个领域使用相同的数据结构,本发明实施例允许用户建立某个领域的数据模板时,将清洗的数据导入到数据模板中进行统一管理,对同类型的数据进行分组,即针对批量导入时但相同类型的文件分为一组,进行批量操作,减少手动配置;同时,本发明实施例还提供智能推荐及数据清洗的历史记录:对于第一次清洗的数据,运用AI算法对数据模板和列对应关系进行推荐。对于第二次或多次出现过的数据格式,会记录上一次清洗时的配置进行智能推荐,从而提高清洗速度,以及用户的使用体验。
提供了多种清洗方式,并且可以通过拖拽的方式,灵活地调节多个清洗方式的清洗顺序;通过可视化接口,使得用户在设置清洗方式后,可以根据设置好的清洗方式进行数据清洗,在数据清洗的结果预览表中实时预览展示数据清洗的结果,便于用户根据清洗的结果再次调整清洗方式,提高用户的使用体验。
本发明实施例还提供完善的接口,方便清洗方式种类的增加,同时拥有python模块,使得高级用户可以通过调用框架提供的python接口对数据进行个性化清洗;完成一次清洗后,一次清洗的结果可以作为数据源和其他数据一起进行二次清洗。
如图3所示,本发明实施例还提供了一种批量数据清洗的装置,所述装置包括:
数据导入模块100,用于从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;
数据分组模块101,用于根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;
数据清洗模块102,用于当若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式进行数据清洗,得到数据清洗的结果。
本发明实施例的批量数据清洗装置的实施方法,正如本发明实施例的批量数据清洗方法,数据导入模块100、数据分组模块101、数据清洗模块103的实施方式分别在批量数据清洗方法中进行一一的实施,这里不再一一赘述。
图4为本发明实施例提供的计算机设备的实体结构示意图,所述计算机设备架设于第三方设备中,例如移动终端、便携式计算机、IPAD等,如图4所示,该服务器可以包括:一个或多个处理器(processor)610、通信接口(Communications Interface)620、一个或多个存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行如下方法:从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。
通信总线640是连接所描述的元素的电路并且在这些元素之间实现传输。例如,处理器610通过通信总线640从其它元素接收到命令,解密接收到的命令,根据解密的命令执行计算或数据处理。存储器630可以包括程序模块,例如内核(kernel),中间件(middleware),应用程序程序编程接口(Application Programming Interface,API)和应用程序。该程序模块可以是有软件、固件或硬件、或其中的至少两种组成。通信接口620将该计算机设备与其它网络设备、客户端、移动设备、网络进行连接。例如,通信接口620可以通过有线或无线连接到网络以连接到外部其它的网络设备或用户设备。无线通信可以包括以下至少一种:无线保真(WiFi),蓝牙(BT),近距离无线通信技术(NFC),全球卫星定位系统(GPS)和蜂窝通信等等。有线通信可以包括以下至少一种:通用串行总线(USB),高清晰度多媒体接口(HDMI),异步传输标准接口(RS-232)等等。网络可以是电信网络和通信网络。通信网络可以为计算机网络、因特网、物联网、电话网络。计算机设备可以通过通信接口620连接网络,计算机设备和其它网络设备通信所用的协议可以被应用程序、应用程序程序编程接口(API)、中间件、内核和通信接口620至少一个支持。
进一步地,本发明实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。
本领域普通技术人员可以理解:此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制,上述实施例均可根据需要自由组合;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种批量数据清洗方法,其特征在于,所述方法包括:
从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;
根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;
若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式,进行数据清洗,得到数据清洗的结果。
2.如权利要求1所述的批量数据清洗方法,其特征在于,所述方法还包括:
对分组后的分组数据修改文件标题头或数据分隔符,修改的数据文件根据标题或数据分隔符进行重新分组。
3.如权利要求1所述的批量数据清洗方法,其特征在于,所述方法还包括:
为属于同一个分组的所述分组数据配置相同的数据模板或数据清洗方式。
4.如权利要求1-3任意一项所述的批量数据清洗方法,其特征在于,所述配置清洗方式具体包括:
选择需要清洗的数据列,并为所述数据列选择一个清洗方式,将所述数据列和所述清洗方式发送至同一方式编辑区域。
5.如权利要求4所述的批量数据清洗方法,其特征在于,所述配置清洗方式还包括:
在将所述数据列和所述清洗方式发送至同一方式编辑区域后,还在所述方式编辑区域添加数据列或者清洗方式,或者删除数据列或者调换数据列的顺序,或者设置数据清洗方式的使用条件生成复合清洗方式。
6.如权利要求5所述的批量数据清洗方法,其特征在于,所述方法还包括:
通过可视化接口,将所述分组列表、数据预览、数据清洗方式编辑在同一个界面分区域的显示。
7.如权利要求6所述的批量数据清洗方法,其特征在于,所述方法还包括:
当分组数据的单列或者复合清洗的清洗方式不足以满足数据清洗的需求时,选择进全局清洗的方式。
8.一种批量数据清洗的装置,其特征在于,所述装置包括:
数据导入模块,用于从数据源文件中导入数据,所述数据源文件包括关系型数据库文件,将导入的数据通过数据资源树或资源管理器进行展示;
数据分组模块,用于根据导入的数据的内容,将所述数据资源树或资源管理器中的数据进行分组,得到分组列表,相同类别的数据作为同一个分组的分组数据;
数据清洗模块,用于当若所述分组数据的单个数据文件或者文件组第一次出现,则根据预设的算法进行数据模板匹配,并根据数据清洗的需求,为所述分组数据配置清洗方式进行数据清洗,否则启用上一次导入时的数据模板和清洗方式进行数据清洗,得到数据清洗的结果。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或更多个处理器;
一个或更多个存储器;
一个或更多个模块,其被存在存储器中且能够由所述一个或更多个处理器中的至少一个处理器以执行如权利要求1至7任一所述批量数据清洗方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一所述批量数据清洗方法的步骤。
CN201911171340.XA 2019-11-26 2019-11-26 批量数据清洗的方法及装置、计算机设备和存储介质 Active CN111026739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911171340.XA CN111026739B (zh) 2019-11-26 2019-11-26 批量数据清洗的方法及装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911171340.XA CN111026739B (zh) 2019-11-26 2019-11-26 批量数据清洗的方法及装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111026739A true CN111026739A (zh) 2020-04-17
CN111026739B CN111026739B (zh) 2023-08-29

Family

ID=70202141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911171340.XA Active CN111026739B (zh) 2019-11-26 2019-11-26 批量数据清洗的方法及装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111026739B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639066A (zh) * 2020-05-14 2020-09-08 杭州数梦工场科技有限公司 一种数据清洗的方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649305A (zh) * 2015-10-28 2017-05-10 北京国双科技有限公司 一种数据处理方法及装置
CN107145576A (zh) * 2017-05-08 2017-09-08 科技谷(厦门)信息技术有限公司 一种支持可视化和流程化的大数据etl调度系统
CN107463661A (zh) * 2017-07-31 2017-12-12 小草数语(北京)科技有限公司 数据的导入方法及装置
CN107526600A (zh) * 2017-09-05 2017-12-29 成都优易数据有限公司 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法
CN108121773A (zh) * 2017-12-05 2018-06-05 广东京信软件科技有限公司 一种基于可视化拖拽式的大数据分析任务构建方法
CN108399226A (zh) * 2018-02-12 2018-08-14 安徽千云度信息技术有限公司 一种用于数字图书馆的大数据清洗方法
CN110134776A (zh) * 2019-05-14 2019-08-16 武汉镝次元数据科技有限公司 一种针对非结构化数据的Web服务发布与可视化的联合系统
CN110457302A (zh) * 2019-07-31 2019-11-15 河南开合软件技术有限公司 一种结构化数据智能清洗方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649305A (zh) * 2015-10-28 2017-05-10 北京国双科技有限公司 一种数据处理方法及装置
CN107145576A (zh) * 2017-05-08 2017-09-08 科技谷(厦门)信息技术有限公司 一种支持可视化和流程化的大数据etl调度系统
CN107463661A (zh) * 2017-07-31 2017-12-12 小草数语(北京)科技有限公司 数据的导入方法及装置
CN107526600A (zh) * 2017-09-05 2017-12-29 成都优易数据有限公司 一种基于hadoop和spark的可视化数据挖掘分析平台及其数据清洗方法
CN108121773A (zh) * 2017-12-05 2018-06-05 广东京信软件科技有限公司 一种基于可视化拖拽式的大数据分析任务构建方法
CN108399226A (zh) * 2018-02-12 2018-08-14 安徽千云度信息技术有限公司 一种用于数字图书馆的大数据清洗方法
CN110134776A (zh) * 2019-05-14 2019-08-16 武汉镝次元数据科技有限公司 一种针对非结构化数据的Web服务发布与可视化的联合系统
CN110457302A (zh) * 2019-07-31 2019-11-15 河南开合软件技术有限公司 一种结构化数据智能清洗方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639066A (zh) * 2020-05-14 2020-09-08 杭州数梦工场科技有限公司 一种数据清洗的方法和装置

Also Published As

Publication number Publication date
CN111026739B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN109548045B (zh) 设备调试方法、装置、系统及存储介质
CN105678596A (zh) 移动终端的更换预测方法及其更换预测系统
CN102905233A (zh) 一种终端功能推荐的方法及装置
US12072916B2 (en) Methods and systems for querying data within a geographical boundary using a query tool
CN111068314B (zh) 一种基于Unity的NGUI资源渲染处理方法及装置
CN105025254A (zh) 一种多平台监控终端系统开发方法
CN104699795A (zh) 一种推送视频的方法及装置
CN113190152A (zh) 切换应用程序主题的方法和装置
CN106952298B (zh) 基于自学习的图像集背景模板匹配方法及系统
CN113535749A (zh) 查询语句生成方法及装置
CN111026739B (zh) 批量数据清洗的方法及装置、计算机设备和存储介质
CN106713637A (zh) 通话事项的建立方法及装置
CN112511321B (zh) 一种配置5g核心网的方法及装置
CN111626922A (zh) 图片生成方法、装置、电子设备及计算机可读存储介质
CN105227597A (zh) 一种获取终端设备屏幕画面的方法、装置及系统
CN111338811A (zh) 用户书写行为分析方法、服务器、终端、系统及电子设备
CN105323391A (zh) 一种自动语音菜单播报方法和装置
CN106330517B (zh) 隧道的调整方法及装置
CN108153845A (zh) 一种实现后台图像数据导出的方法及装置
CN113158115A (zh) 配置页面显示方法、装置、电子设备和存储介质
CN109344372B (zh) 基于大数据的单证生成方法及系统
CN112150431A (zh) Ui视觉的走查方法和装置、存储介质、电子装置
CN110795468A (zh) 数据抽取方法及装置
Shah et al. Recommendation System for BSNL Network in SSA Srinagar
CN110993033A (zh) 一种基因组数据的处理方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant