CN110019153A - 一种多类型批量数据处理系统及其处理方法 - Google Patents
一种多类型批量数据处理系统及其处理方法 Download PDFInfo
- Publication number
- CN110019153A CN110019153A CN201710822561.3A CN201710822561A CN110019153A CN 110019153 A CN110019153 A CN 110019153A CN 201710822561 A CN201710822561 A CN 201710822561A CN 110019153 A CN110019153 A CN 110019153A
- Authority
- CN
- China
- Prior art keywords
- data
- data file
- file
- processing
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种多类型批量数据处理系统与处理方法,其中,所述系统包括原始数据文件部、数据文件格式转换部、数据文件分类转换部、数据文件结构化处理部、数据清洗处理部和数据主题存储部。所述方法如下:1、利用数据文件格式转换部对原始数据文件部中的数据文件进行格式转换;2、利用数据文件分类转换部对数据文件格式转换部处理的数据文件进行分类处理,并储存;3、利用数据文件结构化处理部对步骤2的可处理文件类型进行结构化处理;4、利用数据清洗处理部对结构化后的数据文件进行清洗处理;5、利用数据主题存储部根据数据文件的主题进行分类并存储。本发明所述系统或方法简单,可以在短时间内实现对多类型、批量数据文件进行处理。
Description
技术领域
本发明涉及数据处理领域,尤其涉及多类型批量数据的处理,特别地,涉及一种多类型批量数据处理系统及其处理方法。
背景技术
互联网信息时代的来临和大数据技术出现造成了前所未有的数据洪流。众多利益相关者期盼数据可以共享数据互换获取,但不同的数据存储方式,不同的数据结构和众多的数据来源极大的阻碍了数据交流的进程。
数据存储入库前必须要进行清洗工作,但是目前数据清洗工作仍以人工清洗为主,存在着耗时耗力,效率低下,差异巨大等突出问题,而且人为操作很难形成标准,有可能造成数据二次污染。尤其是多类型(复杂)批量数据,如果进行人工处理,则会严重耗时耗力,并且会导致数据无法实现快速、高效应用,数据应用价值密度过低,且极大的阻碍了数据交换共享、快速应用的进程。
发明内容
为了克服上述问题,本发明人进行了锐意研究,得到一种多类型批量数据处理系统及其处理方法,从而完成本发明。
本发明一方面提供了一种多类型批量数据处理系统,具体体现在以下方面:
(1)一种多类型批量数据处理系统,其特征在于,所述系统包括
原始数据文件部001,用于存放需要处理的多类型批量数 据文件;
数据文件格式转换部002,用于对原始数据文件部001中的批量数据文件进行格式路径转换;
数据文件分类转换部003,用于对数据文件格式转换部002转换后的批量数据文件进行分类,分为可处理文件类型文件集和不可处理文件类型文件集;和
数据文件结构化处理部004,用于对得到的可处理文件类型进行结构化处理,得到可结构化存储的数据文件。
(2)根据上述(1)所述的数据处理系统,其特征在于,所述系统还包括数据清洗处理部005和数据主题存储部006,其中,所述数据清洗处理部005用于对得到的可结构化存储的数据文件进行清洗处理;所述数据主题存储部006用于对清洗处理后的数据进行分类并存储。
本发明另一方面提供了一种多类型批量数据的处理方法,具体体现在以下方面:
(3)一种多类型批量数据的处理方法,优选采用权利要求1至5之一所述系统进行,其中,所述方法包括以下步骤:
步骤1、利用数据文件格式转换部002对原始数据文件部001中的数据文件进行格式转换;
步骤2、利用数据文件分类转换部003对数据文件格式转换部002处理的数据文件进行分类处理,并储存;
步骤3、利用数据文件结构化处理部004对步骤2的可处理文件类型进行结构化处理,得到可结构化存储的数据文件;
步骤4、利用数据清洗处理部005对得到的可结构化存储的数据文件进行清洗处理;
步骤5、利用数据主题存储部006根据数据文件的主题进行分类并存储。
附图说明
图1示出本发明所述系统的框架示意图;
图2示出本发明所述方法的流程图;
图3示出实施例所处理的多类型批量数据的示意图;
图4示出实施例1中步骤1的处理过程及处理结果;
图5示出实施例1中步骤2的处理结果;
图6示出实施例1中步骤3和步骤4的处理结果。
具体实施方式
下面通过附图对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
本发明一方面提供了一种多类型批量数据处理系统,如图1所示,所述系统包括原始数据文件部001、数据文件格式转换部002、数据文件分类转换部003、数据文件结构化处理部004、数据清洗处理部005和数据主题存储部006。
其中,所述原始数据文件部001用于存放需要处理的多类型批量数据文件;所述数据文件格式转换部002用于将原始数据文件部001中的批量数据文件进行格式和路径转换;所述数据文件分类转换部003用于对数据文件格式转换部002转换后的批量数据文件进行分类,分为可处理数据文件和不可处理数据文件;所述数据文件结构化处理部004用于对得到的可处理数据文件进行结构化处理,得到可结构化存储的数据文件;所述数据清洗处理部005用于对得到的可结构化存储的数据文件进行清洗处理;所述数据主题存储部006用于对清洗处理后的数据文件进行分类并存储。
在本发明中,所述系统处理的对象为多类型批量数据文 件,即所述数据文件中包含多种类型的文件,例如包括EXCEL文件、SQL脚本文件以及含有CSV、TXT的文本文件等;并且所述数据文件非常大,至少为T级以上。这在现有技术中是完全没有涉及的,现有技术中的数据处理一般为同种类型的数据或者数量较少的少量数据。
根据本发明一种优选的实施方式,如图1所示,所述数据文件格式转换部002包括数据文件格式转换模块021、数据文件路径转换模块022和数据文件去重转换模块023。
其中:
所述数据文件格式转换模块021用于对原始数据文件部001中的数据文件进行格式转换,具体地,(1)将原始压缩的数据文件进行解压缩处理,并将无法解压缩处理的数据文件标记为不合规数据文件或直接删除,(2)判断统一子文件目录中的数据文件是否为拆分文件,若是,则将拆分的文本格式数据文件合并还原为原始的数据文件,(3)判断是否存在错误的文件后缀,并将判断为错误文件后缀的数据文件标记为不合规数据文件或删除;
所述文件路径转换模块022用于对数据文件格式转换模块021转换格式后的数据文件进行路径转换,具体地,(1)将多种子文件夹中的数据文件提取到主目录下,(2)并在提取后删除冗余的多重子文件夹,(3)将无法移动或无法操作的数据文件标记为不合规数据文件或删除;
所述数据文件去重转换模块023用于对路径转换后的数据文件进行去重处理,判断存储的数据文件是否为重复的数据文件,并对重复的数据文件进行处理和过滤,具体地,(1)根据数据文件名称和大小判断,数据文件名称内容相同和/或相似,并且存储大小相同和/或相似的数据文件或数据文件集判断为 重复数据文件,标记为不合规数据文件或删除;(2)根据数据文件内容判断,如果数据文件内容前10行数据完全相同,并且存储大小相同和/或相似的数据文件或数据文件集判断,则为重复数据文件,标记为不合规数据文件或删除。
根据本发明一种优选的实施方式,所述数据文件分类转换部003包括数据文件分类模块033、可处理文件模块031和不可处理文件模块032。
其中:
所述数据文件分类模块033用于对数据文件格式转换部002处理后的数据文件进行分类处理,分为可处理数据文件和不可处理数据文件,其中,所述可处理数据文件包括excl文件、数据库导出文件、文本文件和SQL脚本文件等,所述不可处理数据文件包括word文件、PDF文件、音频文件和视频文件等;
所述可处理文件模块031用于存储文件数据分类模块033得到的可处理数据文件,即可结构化处理的数据文件;
所述不可处理文件模块032用于存储文件数据分类模块033得到的不可处理数据文件,即不可结构化处理的数据文件。
根据本发明一种优选的实施方式,所述数据清洗处理部005包括数据内容规则模块051和数据存储规则模块052。
其中:
所述数据内容规则模块051用于检验数据内容是否合规,并对不合规数据进行数据清洗,即标记为不合规数据或删除,所述不合规数据包括:(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符,(2)乱码字符,(3)数据中非空字段存在的空值,(4)数据存在所有列内容都重复,(5)数据存在关键列内容重复;
所述数据存储规则模块052用于检验单行和/或多行数据的 内容与其所在列是否对应,检验数据是否存在空白行数据,并将这些数据标记为不合规数据或删除。
其中,单行数据的内容与其所在列是否对应包括是否存在列错位的情况(即一行中的不同列位置错乱的情况);多行数据的内容与其所在列是否对应包括是否出现不应该存在的换行符使一行变多行的情况以及是否存在列错位的情况。
根据本发明一种优选的实施方式,所述数据主题存储部006包括数据主题库061和数据分类记录组件062。
其中,所述数据主题库061用于对数据清洗处理部005清洗后的数据文件按不同主题划分入不同的主题库中,其中,所述主题包括个人信息主题、企业信息主题、属性主题(包括车辆、飞机、日用品等)等;所述数据分类记录组件062用于对数据主题库061生成的主题分类进行记录。
这样,根据不同的主题对数据进行分类存储,在后期如果需要采用例如“车辆”类别的数据,则直接采用数据分类记录组件062中记录有“车辆”的数据即可。
本发明另一方面提供了一种多类型批量数据的处理方法,如图2所示,所述方法包括以下步骤:
步骤1、利用数据文件格式转换部002对原始数据文件部001中的数据文件进行格式转换。
其中,原始数据文件部001内的数据文件为多类型批量数据文件,例如包括EXCEL文件、SQL脚本文件以及含有CSV、TXT的文本文件等。
根据本发明一种优选的实施方式,步骤1包括以下子步骤:
步骤1.1、利用数据文件格式转换模块021对原始数据文件部001中的数据文件进行格式转换;
步骤1.2、利用文件路径转换模块022对转换格式后的数据 文件进行数据文件路径的转换,优选将多种子文件夹中的数据文件提取到主目录下;
步骤1.3、利用数据文件去重转换模块023对路径转换后的数据文件进行去重处理,判断存储的数据文件是否为重复的数据文件,并对其进行处理和过滤。
根据本发明一种优选的实施方式,在步骤1.1中,所述格式转换如下进行:将原始压缩的数据文件进行解压缩处理,并将无法解压缩处理的数据文件标记为不合规数据文件或删除。
在进一步优选的实施方式中,在步骤1.1中,所述格式转换还如下进行:判断统一子文件目录中的数据文件是否为拆分文件,并将拆分的文本格式数据文件合并还原为原始的数据文件。
在更进一步优选的实施方式中,在步骤1.1中,所述格式转换还如下进行:判断是否存在错误的文件后缀,并将判断为错误文件后缀的数据文件标记为不合规数据文件或删除。
其中,通过格式转换,将数据文件转换为可以运行的文件。
根据本发明一种优选的实施方式,在步骤1.2中,步骤1.2包括以下子步骤:
步骤1.2.1、将多种子文件夹中的数据文件提取到主目录下;
步骤1.2.2、在提取后删除冗余的多重子文件夹;
步骤1.2.3、将无法移动或无法操作的数据文件标记为不合规数据文件或删除。
其中,在需要处理的数据文件中,存在文件格式以及文件夹格式,而在文件夹内又可能存在文件夹,因此,彼此之间可能不在一个目录层次下,而步骤1.2就是将所有数据文件提到一个层次的目录下,以便于后续处理。
根据本发明一种优选的实施方式,在步骤1.3中,根据数据 文件名称和大小进行去重处理,或根据数据文件内容进行去重处理。
在进一步优选的实施方式中,根据数据文件名称和大小判断,数据文件名称内容相同和/或相似,并且存储大小相同和/或相似的数据文件或数据文件集判断为重复数据文件,标记为不合规数据文件或删除。
在更进一步优选的实施方式中,根据数据文件内容判断,如果数据文件内容前10行数据完全相同,并且存储大小相同和/或相似的数据文件或数据文件集判断,则为重复数据文件,标记为不合规数据文件或删除。
其中,步骤1.3的目的是将重复的数据文件去除。
步骤2、利用数据文件分类转换部003对数据文件格式转换部002处理的数据文件进行分类处理,并储存。
根据本发明一种优选的实施方式,步骤2包括以下子步骤:
步骤2.1、利用数据文件分类模块033对数据文件格式转换部002处理后的数据文件进行分类处理,分为可处理数据文件和不可处理数据文件;
步骤2.2、采用可处理文件类型模块031对得到的可处理数据文件进行存储;
步骤2.3、采用不可处理文件类型模块032对得到的不可处理数据文件进行存储。
其中,所述可处理数据文件即可结构化处理的数据文件,包括excl文件、数据库导出文件、文本文件和SQL脚本文件等,所述不可处理数据文件包括word文件、PDF文件、音频文件和视频文件等。
步骤3、利用数据文件结构化处理部004对步骤2的可处理文件类型进行结构化处理,得到可结构化存储的数据文件。
其中,结构化处理即格式化处理,将数据文件转化成以行和列的形式排布和存储的数据。具体地,结构化处理即格式化处理,是将数据文件转换成二维表结构逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
步骤4、利用数据清洗处理部005对得到的可结构化存储的数据文件进行清洗处理。
根据本发明一种优选的实施方式,步骤4包括以下子步骤:
步骤4.1、利用数据内容规则模块051检验数据内容是否合规,并对不合规数据进行数据清洗,即标记为不合规数据或删除;
步骤4.2、利用数据存储规则模块052检验单行和/或多行数据的内容与其所在列是否对应;
步骤4.3、检验数据是否存在空白行数据,并将这些数据标记为不合规数据或删除。
其中,在步骤4.1中,所述不合规数据包括:(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符,(2)乱码字符,(3)数据中非空字段存在的空值,(4)数据存在所有列内容都重复,(5)数据存在关键列内容重复;在步骤4.2中,单行数据的内容与其所在列是否对应包括是否存在列错位的情况(即一行中的不同列位置错乱的情况);多行数据的内容与其所在列是否对应包括是否出现不应该存在的换行符使一行变多行的情况以及是否存在列错位的情况;在步骤4.3中,所述空白行数据是指整行或整列为空白,没有实际内容。
步骤5、利用数据主题存储部006根据数据文件的主题进行分类并存储。
根据本发明一种优选的实施方式,步骤5包括以下子步骤:
步骤5.1、利用数据主题库061对数据清洗处理部005清洗后的数据文件按不同主题划分入不同的主题库中;
步骤5.2、利用数据分类记录组件062对数据主题库061生成的主题分类进行记录。
其中,在步骤5中可以根据不同主题对处理后的数据文件进行分类储存,所述主题包括个人信息主题、企业信息主题、属性主题(包括车辆、飞机、日用品等)等,而具体的分类方式根据业务或研究的需要决定。
在现有技术中,并没有涉及对于多类型、批量数据处理的相关报道,而在实际应用中,也是采用手动人工操作,这样不仅需要很长时间,一般6个月以上,而且浪费人力成本。
但是,采用本发明所述系统或方法对多类型、批量数据进行处理可以实现自动化处理,一般需要一个月时间、甚至两周左右,关键是不需要人工操作,这样,不仅大大缩短了处理时间,而且节约了人力成本。
本发明所具有的有益效果包括:
(1)本发明所述系统或方法简单,可以实现对多类型、批量数据文件进行处理,得到高可用的、高纯度的、规范的结构化数据;
(2)本发明所述系统是一个数据处理的模块化构件,处理可用性强、可移植性强,可以方便快捷的应用到其它数据系统提供优质数据服务;
(3)本发明所述系统或方法大大缩短了对多类型、批量数据文件的处理时间;
(4)本发明所述系统或方法节约了人力成本。
实施例
对如图3所示多类型批量数据进行处理,其大小为100 T。其中,如图3中(a)所示,所述数据中含有文件夹、压缩包等多类型数据,而每个文件夹下会有多个子文件夹,而子文件下又会有文件和/或文件夹(其中,由于数据量很多,图3中(a)并没有显示出所有文件,而仅显示出一部分)。例如,如图3中(b)所示,文件夹“CoCo”内含有127个子文件夹,如图3中(c)所示,子文件夹下第一个文件夹“121376”中又含有数据与文件夹。因此,本申请所述系统或方法是对多类型批量数据文件进行处理。
步骤1、利用数据文件格式转换模块021对图3(a)中的压缩包解压缩,然后利用文件路径转换模块022将多种子文件夹下的数据文件提取到主目录下,最后利用数据文件去重转换模块023对路径转换后的数据文件进行去重处理,结果如图4所示;
步骤2、利用数据文件分类模块033对数据文件格式转换部002处理后的数据文件进行分类处理,分为可处理数据文件和不可处理数据文件,并进行存储,结果如图5所示;
步骤3、利用数据文件结构化处理部004对步骤2的可处理文件类型进行结构化处理,得到可结构化存储的数据文件,结果如图6中步骤3所示所示;但是,其存在明显的列错位的现象;
步骤4、利用数据内容规则模块051检验数据内容是否合规,并对不合规数据进行数据清洗,即标记为不合规数据或删除,所述不合规数据包括:(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符,(2)乱码字符,(3)数据中非空字段存在的空值,(4)数据存在所有列内容都重复,(5)数据存在关键列内容重复;
并利用数据存储规则模块052检验单行和/或多行数据的内 容与其所在列是否对应,将列错位的情况进行更正;
然后检验数据是否存在空白行数据,并将这些数据标记为不合规数据或删除,结果如图6中步骤4所示;
步骤5、利用数据主题库061对数据清洗处理部005清洗后的数据文件按不同人、地、事、物、组织单位划分入不同的主题库中,并利用数据分类记录组件062对数据主题库061生成的主题分类进行记录,以便后续对数据直接使用。
其中,整个过程需要12天,在处理不同数据文件时,具体天数随着数据文件不同的情况而变化。
作为对比,对上述实施例中所述多类型批量数据进行手动处理与人工检查,整个过程需要180天。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。
Claims (10)
1.一种多类型批量数据处理系统,其特征在于,所述系统包括:
原始数据文件部(001),用于存放待处理的多类型批量数据文件;
数据文件格式转换部(002),用于对原始数据文件部(001)中的批量数据文件进行格式转换和路径转换;
数据文件分类转换部(003),用于对经数据文件格式转换部(002)转换后的批量数据文件进行分类,将文件分为可处理数据文件和不可处理数据文件;和
数据文件结构化处理部(004),用于对得到的可处理数据文件进行结构化处理,得到可结构化存储的数据文件。
2.根据权利要求1所述的数据处理系统,其特征在于,所述数据文件格式转换部(002)包括:
数据文件格式转换模块(021),用于对原始数据文件部(001)中的数据文件进行格式转换;
数据文件路径转换模块(022),用于对数据文件格式转换模块(021)转换格式后的数据文件进行路径转换;和
数据文件去重转换模块(023),用于对路径转换后的数据文件进行去重处理,判断存储的数据文件是否为重复的数据文件,并对重复的数据文件进行处理和过滤。
3.根据权利要求1或2所述的数据处理系统,其特征在于,所述数据文件分类转换部(003)包括:
数据文件分类模块(033),用于对经数据文件格式转换部(002)处理后的数据文件进行分类处理,分为可处理数据文件和不可处理数据文件;
可处理文件模块(031),用于存储文件数据分类模块(033)得到的可处理数据文件,即可结构化处理的数据文件;和
不可处理文件模块(032),用于存储文件数据分类模块(033)得到的不可处理数据文件,即不可结构化处理的数据文件。
4.根据权利要求1至3之一所述的数据处理系统,其特征在于,所述系统还包括数据清洗处理部(005)和数据主题存储部(006),其中,所述数据清洗处理部(005)用于对得到的可结构化存储的数据文件进行清洗处理;所述数据主题存储部(006)用于对清洗处理后的数据文件进行分类并存储。
5.根据权利要求1至4之一所述的数据处理系统,其特征在于,
所述数据清洗处理部(005)包括数据内容规则模块(051)和数据存储规则模块(052),其中:所述数据内容规则模块(051)用于检验数据内容是否合规,并对不合规数据进行数据清洗,即标记为不合规数据或删除;所述数据存储规则模块(052)用于检验单行和/或多行数据的内容与所在列是否对应,检验数据是否存在空白行数据,并将这些数据标记为不合规数据或删除;和/或
所述数据主题存储部(006)包括数据主题库(061)和数据分类记录组件(062),其中:所述数据主题库(061)用于对数据清洗处理部(005)清洗后的数据文件按不同主题划分入不同的主题库中;所述数据分类记录组件(062)用于对数据主题库(061)生成的主题分类进行记录。
6.一种多类型批量数据的处理方法,优选采用权利要求1至5之一所述系统进行,其中,所述方法包括以下步骤:
步骤1、利用数据文件格式转换部(002)对原始数据文件部(001)中的数据文件进行格式转换;
步骤2、利用数据文件分类转换部(003)对数据文件格式转换部(002)处理的数据文件进行分类处理,并储存;
步骤3、利用数据文件结构化处理部(004)对步骤2的可处理文件类型进行结构化处理,得到可结构化存储的数据文件;
步骤4、利用数据清洗处理部(005)对得到的可结构化存储的数据文件进行清洗处理;
步骤5、利用数据主题存储部(006)根据数据文件的主题进行分类并存储。
7.根据权利要求6所述的方法,其中,步骤1包括以下子步骤:
步骤1.1、利用数据文件格式转换模块(021)对原始数据文件部(001)中的数据文件进行格式转换;
步骤1.2、利用文件路径转换模块(022)对转换格式后的数据文件进行数据文件路径的转换,优选将多种子文件夹中的数据文件提取到主目录下;
步骤1.3、利用数据文件去重转换模块(023)对路径转换后的数据文件进行去重处理,判断存储的数据文件是否为重复的数据文件,并对其进行处理和过滤。
8.根据权利要求6或7所述的方法,其中,
在步骤1.1中,所述格式转换如下进行:将原始压缩的数据文件进行解压缩处理,并将无法解压缩处理的数据文件标记为不合规数据文件或删除;优选地,还如下进行:判断统一子文件目录中的数据文件是否为拆分文件,并将拆分的文本格式数据文件合并还原为原始的数据文件;更优选地,还如下进行:判断是否存在错误的文件后缀,并将判断为错误文件后缀的数据文件标记为不合规数据文件或删除;
和/或
在步骤1.2中,步骤1.2包括以下子步骤:
步骤1.2.1、将多种子文件夹中的数据文件提取到主目录下;
步骤1.2.2、在提取后删除冗余的多重子文件夹;
步骤1.2.3、将无法移动或无法操作的数据文件标记为不合规数据文件或删除;
和/或
在步骤1.3中,根据数据文件名称和大小进行去重处理,或根据数据文件内容进行去重处理;优选地,根据数据文件名称和大小判断,数据文件名称内容相同和/或相似,并且存储大小相同和/或相似的数据文件或数据文件集判断为重复数据文件,标记为不合规数据文件或删除;更优选地,根据数据文件内容判断,如果数据文件内容前10行数据完全相同,并且存储大小相同和/或相似的数据文件或数据文件集判断,则为重复数据文件,标记为不合规数据文件或删除。
9.根据权利要求6至8之一所述的方法,其中,步骤2包括以下子步骤:
步骤2.1、利用数据文件分类模块(033)对数据文件格式转换部(002)处理后的数据文件进行分类处理,分为可处理数据文件和不可处理数据文件;
步骤2.2、采用可处理文件类型模块(031)对得到的可处理数据文件进行存储;
步骤2.3、采用不可处理文件类型模块(032)对得到的不可处理数据文件进行存储;
其中,所述可处理数据文件即可结构化处理的数据文件,包括excl文件、数据库导出文件、文本文件和SQL脚本文件,所述不可处理数据文件包括word文件、PDF文件、音频文件和视频文件。
10.根据权利要求6至9之一所述的方法,其中,
步骤4包括以下子步骤:
步骤4.1、利用数据内容规则模块(051)检验数据内容是否合规,并对不合规数据进行数据清洗,即标记为不合规数据或删除;
步骤4.2、利用数据存储规则模块(052)检验单行和/或多行数据的内容与其所在列是否对应;
步骤4.3、检验数据是否存在空白行数据,并将这些数据标记为不合规数据或删除;
优选地,在步骤4.1中,所述不合规数据包括:(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符,(2)乱码字符,(3)数据中非空字段存在的空值,(4)数据存在所有列内容都重复,(5)数据存在关键列内容重复;在步骤4.3中,所述空白行数据是指整行或整列为空白,没有实际内容;
和/或
步骤5包括以下子步骤:
步骤5.1、利用数据主题库(061)对数据清洗处理部(005)清洗后的数据文件按不同主题划分入不同的主题库中;
步骤5.2、利用数据分类记录组件(062)对数据主题库(061)生成的主题分类进行记录;
其中,在步骤5.1中,所述主题包括个人信息主题、企业信息主题、属性主题(包括车辆、飞机、日用品等)等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710822561.3A CN110019153B (zh) | 2017-09-13 | 2017-09-13 | 一种多类型批量数据处理系统及其处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710822561.3A CN110019153B (zh) | 2017-09-13 | 2017-09-13 | 一种多类型批量数据处理系统及其处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019153A true CN110019153A (zh) | 2019-07-16 |
CN110019153B CN110019153B (zh) | 2022-03-04 |
Family
ID=67186271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710822561.3A Active CN110019153B (zh) | 2017-09-13 | 2017-09-13 | 一种多类型批量数据处理系统及其处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019153B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597136A (zh) * | 2020-05-28 | 2021-04-02 | 河北新天科创新能源技术有限公司 | 一种用于风力发电机的数据清洗方法 |
CN112612505A (zh) * | 2020-12-04 | 2021-04-06 | 北京思特奇信息技术股份有限公司 | 一种基于jdk流程处理的通用文件处理方法及系统 |
CN112612938A (zh) * | 2020-12-17 | 2021-04-06 | 北京中电普华信息技术有限公司 | 一种数据处理方法、装置、存储介质和设备 |
CN112749137A (zh) * | 2019-10-31 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及存储介质 |
CN115114374A (zh) * | 2022-06-27 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 事务执行方法、装置、计算设备及存储介质 |
CN116561120A (zh) * | 2023-04-21 | 2023-08-08 | 清华大学 | 一种用于时序数据库的数据文件快速合并方法及系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0807275D0 (en) * | 2008-04-22 | 2008-05-28 | Materials Solutions | A method of forming an article |
CN101197876A (zh) * | 2006-12-06 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对消息类业务数据进行多维分析的方法和系统 |
CN101452450A (zh) * | 2007-11-30 | 2009-06-10 | 上海市电力公司 | 一种多源数据转换服务方法及其装置 |
CN101604319A (zh) * | 2009-05-31 | 2009-12-16 | 上海文广新闻传媒集团 | 财经媒体业务数据中心系统 |
CN102789477A (zh) * | 2011-05-19 | 2012-11-21 | 巴比禄股份有限公司 | 文件管理装置以及文件管理方法 |
US8738388B1 (en) * | 2005-01-12 | 2014-05-27 | Fannie Mae | Market based data cleaning |
CN104361064A (zh) * | 2014-11-04 | 2015-02-18 | 中国银行股份有限公司 | 对数据文件的数据清洗方法和数据文件处理方法 |
CN104715359A (zh) * | 2015-04-03 | 2015-06-17 | 广东中建普联科技有限公司 | 一种结构化建设行业材料文件及材料数据识别管理方法 |
CN105574667A (zh) * | 2015-12-15 | 2016-05-11 | 中广核工程有限公司 | 核电设计数据集成方法及系统 |
CN105718499A (zh) * | 2015-12-11 | 2016-06-29 | 中国地质调查局发展研究中心 | 地质资料数据清洗方法及系统 |
CN106354772A (zh) * | 2016-08-23 | 2017-01-25 | 成都卡莱博尔信息技术股份有限公司 | 具有数据清洗的海量数据系统 |
-
2017
- 2017-09-13 CN CN201710822561.3A patent/CN110019153B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8738388B1 (en) * | 2005-01-12 | 2014-05-27 | Fannie Mae | Market based data cleaning |
CN101197876A (zh) * | 2006-12-06 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对消息类业务数据进行多维分析的方法和系统 |
CN101452450A (zh) * | 2007-11-30 | 2009-06-10 | 上海市电力公司 | 一种多源数据转换服务方法及其装置 |
GB0807275D0 (en) * | 2008-04-22 | 2008-05-28 | Materials Solutions | A method of forming an article |
CN101604319A (zh) * | 2009-05-31 | 2009-12-16 | 上海文广新闻传媒集团 | 财经媒体业务数据中心系统 |
CN102789477A (zh) * | 2011-05-19 | 2012-11-21 | 巴比禄股份有限公司 | 文件管理装置以及文件管理方法 |
CN104361064A (zh) * | 2014-11-04 | 2015-02-18 | 中国银行股份有限公司 | 对数据文件的数据清洗方法和数据文件处理方法 |
CN104715359A (zh) * | 2015-04-03 | 2015-06-17 | 广东中建普联科技有限公司 | 一种结构化建设行业材料文件及材料数据识别管理方法 |
CN105718499A (zh) * | 2015-12-11 | 2016-06-29 | 中国地质调查局发展研究中心 | 地质资料数据清洗方法及系统 |
CN105574667A (zh) * | 2015-12-15 | 2016-05-11 | 中广核工程有限公司 | 核电设计数据集成方法及系统 |
CN106354772A (zh) * | 2016-08-23 | 2017-01-25 | 成都卡莱博尔信息技术股份有限公司 | 具有数据清洗的海量数据系统 |
Non-Patent Citations (4)
Title |
---|
RASHIDAH F. OLANREWAJU等: "RFDA: Reliable framework for data administration based on split-merge policy", 《2016 SAI COMPUTING CONFERENCE (SAI)》 * |
李爽: "基于Spark的数据处理分析系统的设计与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
樊重俊等: "《大数据分析与应用》", 31 January 2016, 立信会计出版社 * |
王曰芬等: "数据清洗研究综述", 《现代图书情报技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112749137A (zh) * | 2019-10-31 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及存储介质 |
CN112749137B (zh) * | 2019-10-31 | 2024-05-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、设备及存储介质 |
CN112597136A (zh) * | 2020-05-28 | 2021-04-02 | 河北新天科创新能源技术有限公司 | 一种用于风力发电机的数据清洗方法 |
CN112612505A (zh) * | 2020-12-04 | 2021-04-06 | 北京思特奇信息技术股份有限公司 | 一种基于jdk流程处理的通用文件处理方法及系统 |
CN112612505B (zh) * | 2020-12-04 | 2024-01-30 | 北京思特奇信息技术股份有限公司 | 一种基于jdk流程处理的通用文件处理方法及系统 |
CN112612938A (zh) * | 2020-12-17 | 2021-04-06 | 北京中电普华信息技术有限公司 | 一种数据处理方法、装置、存储介质和设备 |
CN115114374A (zh) * | 2022-06-27 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 事务执行方法、装置、计算设备及存储介质 |
CN115114374B (zh) * | 2022-06-27 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 事务执行方法、装置、计算设备及存储介质 |
CN116561120A (zh) * | 2023-04-21 | 2023-08-08 | 清华大学 | 一种用于时序数据库的数据文件快速合并方法及系统 |
CN116561120B (zh) * | 2023-04-21 | 2023-12-26 | 清华大学 | 一种用于时序数据库的数据文件快速合并方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110019153B (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019153A (zh) | 一种多类型批量数据处理系统及其处理方法 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN109189901B (zh) | 一种智能客服系统中自动发现新分类以及对应语料的方法 | |
Wiltshier | Researching with NVivo | |
Quick et al. | Data reduction and data mining framework for digital forensic evidence: storage, intelligence, review and archive | |
CN111581376B (zh) | 一种知识图谱自动构建系统及方法 | |
WO2008120030A1 (en) | Latent metonymical analysis and indexing [lmai] | |
CN104021217B (zh) | 一种提取手机碎片文件和被删除文件的系统和方法 | |
CN110891030B (zh) | 一种基于机器学习的http流量特征识别与提取方法 | |
CN109740159B (zh) | 用于命名实体识别的处理方法及装置 | |
CN111460162B (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN106897437B (zh) | 一种知识系统的高阶规则多分类方法及其系统 | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
CN111563372B (zh) | 一种基于教辅书籍出版的排版文档内容自查重方法 | |
CN106528566A (zh) | 日志文件的输出方法、服务器及客户端 | |
CN110990587A (zh) | 基于主题模型的企业关系发现方法及系统 | |
CN107315799A (zh) | 一种互联网重复信息筛选方法及系统 | |
EP2013776A1 (fr) | Procede de de-doublonnage rapide d'un ensemble de documents ou d'un ensemble de donnees contenues dans un fichier | |
CN111221967A (zh) | 一种基于区块链架构的语言数据分类存储系统 | |
CN115794997A (zh) | 基于企业标签的企业匹配度处理方法及装置 | |
Goh | Using named entity recognition for automatic indexing | |
CN115688788A (zh) | 用于审计领域的命名实体识别模型的训练方法及相关设备 | |
CN112115236B (zh) | 烟草科技文献数据去重模型的构建方法及装置 | |
PREXAWANPRASUT et al. | Email classification model for workflow management systems | |
CN108090084A (zh) | 一种知识管理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |