CN110019153A

CN110019153A - 一种多类型批量数据处理系统及其处理方法

Info

Publication number: CN110019153A
Application number: CN201710822561.3A
Authority: CN
Inventors: 聂妍
Original assignee: Beijing Chen Xin Credit Investigation Co Ltd
Current assignee: Beijing Chen Xin Credit Investigation Co Ltd
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2019-07-16
Anticipated expiration: 2037-09-13
Also published as: CN110019153B

Abstract

本发明公开了一种多类型批量数据处理系统与处理方法，其中，所述系统包括原始数据文件部、数据文件格式转换部、数据文件分类转换部、数据文件结构化处理部、数据清洗处理部和数据主题存储部。所述方法如下：1、利用数据文件格式转换部对原始数据文件部中的数据文件进行格式转换；2、利用数据文件分类转换部对数据文件格式转换部处理的数据文件进行分类处理，并储存；3、利用数据文件结构化处理部对步骤2的可处理文件类型进行结构化处理；4、利用数据清洗处理部对结构化后的数据文件进行清洗处理；5、利用数据主题存储部根据数据文件的主题进行分类并存储。本发明所述系统或方法简单，可以在短时间内实现对多类型、批量数据文件进行处理。

Description

一种多类型批量数据处理系统及其处理方法

技术领域

本发明涉及数据处理领域，尤其涉及多类型批量数据的处理，特别地，涉及一种多类型批量数据处理系统及其处理方法。

背景技术

互联网信息时代的来临和大数据技术出现造成了前所未有的数据洪流。众多利益相关者期盼数据可以共享数据互换获取，但不同的数据存储方式，不同的数据结构和众多的数据来源极大的阻碍了数据交流的进程。

数据存储入库前必须要进行清洗工作，但是目前数据清洗工作仍以人工清洗为主，存在着耗时耗力，效率低下，差异巨大等突出问题，而且人为操作很难形成标准，有可能造成数据二次污染。尤其是多类型(复杂)批量数据，如果进行人工处理，则会严重耗时耗力，并且会导致数据无法实现快速、高效应用，数据应用价值密度过低，且极大的阻碍了数据交换共享、快速应用的进程。

发明内容

为了克服上述问题，本发明人进行了锐意研究，得到一种多类型批量数据处理系统及其处理方法，从而完成本发明。

本发明一方面提供了一种多类型批量数据处理系统，具体体现在以下方面：

(1)一种多类型批量数据处理系统，其特征在于，所述系统包括

原始数据文件部001，用于存放需要处理的多类型批量数据文件；

数据文件格式转换部002，用于对原始数据文件部001中的批量数据文件进行格式路径转换；

数据文件分类转换部003，用于对数据文件格式转换部002转换后的批量数据文件进行分类，分为可处理文件类型文件集和不可处理文件类型文件集；和

数据文件结构化处理部004，用于对得到的可处理文件类型进行结构化处理，得到可结构化存储的数据文件。

(2)根据上述(1)所述的数据处理系统，其特征在于，所述系统还包括数据清洗处理部005和数据主题存储部006，其中，所述数据清洗处理部005用于对得到的可结构化存储的数据文件进行清洗处理；所述数据主题存储部006用于对清洗处理后的数据进行分类并存储。

本发明另一方面提供了一种多类型批量数据的处理方法，具体体现在以下方面：

(3)一种多类型批量数据的处理方法，优选采用权利要求1至5之一所述系统进行，其中，所述方法包括以下步骤：

步骤1、利用数据文件格式转换部002对原始数据文件部001中的数据文件进行格式转换；

步骤2、利用数据文件分类转换部003对数据文件格式转换部002处理的数据文件进行分类处理，并储存；

步骤3、利用数据文件结构化处理部004对步骤2的可处理文件类型进行结构化处理，得到可结构化存储的数据文件；

步骤4、利用数据清洗处理部005对得到的可结构化存储的数据文件进行清洗处理；

步骤5、利用数据主题存储部006根据数据文件的主题进行分类并存储。

附图说明

图1示出本发明所述系统的框架示意图；

图2示出本发明所述方法的流程图；

图3示出实施例所处理的多类型批量数据的示意图；

图4示出实施例1中步骤1的处理过程及处理结果；

图5示出实施例1中步骤2的处理结果；

图6示出实施例1中步骤3和步骤4的处理结果。

具体实施方式

下面通过附图对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

本发明一方面提供了一种多类型批量数据处理系统，如图1所示，所述系统包括原始数据文件部001、数据文件格式转换部002、数据文件分类转换部003、数据文件结构化处理部004、数据清洗处理部005和数据主题存储部006。

其中，所述原始数据文件部001用于存放需要处理的多类型批量数据文件；所述数据文件格式转换部002用于将原始数据文件部001中的批量数据文件进行格式和路径转换；所述数据文件分类转换部003用于对数据文件格式转换部002转换后的批量数据文件进行分类，分为可处理数据文件和不可处理数据文件；所述数据文件结构化处理部004用于对得到的可处理数据文件进行结构化处理，得到可结构化存储的数据文件；所述数据清洗处理部005用于对得到的可结构化存储的数据文件进行清洗处理；所述数据主题存储部006用于对清洗处理后的数据文件进行分类并存储。

在本发明中，所述系统处理的对象为多类型批量数据文件，即所述数据文件中包含多种类型的文件，例如包括EXCEL文件、SQL脚本文件以及含有CSV、TXT的文本文件等；并且所述数据文件非常大，至少为T级以上。这在现有技术中是完全没有涉及的，现有技术中的数据处理一般为同种类型的数据或者数量较少的少量数据。

根据本发明一种优选的实施方式，如图1所示，所述数据文件格式转换部002包括数据文件格式转换模块021、数据文件路径转换模块022和数据文件去重转换模块023。

其中：

所述数据文件格式转换模块021用于对原始数据文件部001中的数据文件进行格式转换，具体地，(1)将原始压缩的数据文件进行解压缩处理，并将无法解压缩处理的数据文件标记为不合规数据文件或直接删除，(2)判断统一子文件目录中的数据文件是否为拆分文件，若是，则将拆分的文本格式数据文件合并还原为原始的数据文件，(3)判断是否存在错误的文件后缀，并将判断为错误文件后缀的数据文件标记为不合规数据文件或删除；

所述文件路径转换模块022用于对数据文件格式转换模块021转换格式后的数据文件进行路径转换，具体地，(1)将多种子文件夹中的数据文件提取到主目录下，(2)并在提取后删除冗余的多重子文件夹，(3)将无法移动或无法操作的数据文件标记为不合规数据文件或删除；

所述数据文件去重转换模块023用于对路径转换后的数据文件进行去重处理，判断存储的数据文件是否为重复的数据文件，并对重复的数据文件进行处理和过滤，具体地，(1)根据数据文件名称和大小判断，数据文件名称内容相同和/或相似，并且存储大小相同和/或相似的数据文件或数据文件集判断为重复数据文件，标记为不合规数据文件或删除；(2)根据数据文件内容判断，如果数据文件内容前10行数据完全相同，并且存储大小相同和/或相似的数据文件或数据文件集判断，则为重复数据文件，标记为不合规数据文件或删除。

根据本发明一种优选的实施方式，所述数据文件分类转换部003包括数据文件分类模块033、可处理文件模块031和不可处理文件模块032。

其中：

所述数据文件分类模块033用于对数据文件格式转换部002处理后的数据文件进行分类处理，分为可处理数据文件和不可处理数据文件，其中，所述可处理数据文件包括excl文件、数据库导出文件、文本文件和SQL脚本文件等，所述不可处理数据文件包括word文件、PDF文件、音频文件和视频文件等；

所述可处理文件模块031用于存储文件数据分类模块033得到的可处理数据文件，即可结构化处理的数据文件；

所述不可处理文件模块032用于存储文件数据分类模块033得到的不可处理数据文件，即不可结构化处理的数据文件。

根据本发明一种优选的实施方式，所述数据清洗处理部005包括数据内容规则模块051和数据存储规则模块052。

其中：

所述数据内容规则模块051用于检验数据内容是否合规，并对不合规数据进行数据清洗，即标记为不合规数据或删除，所述不合规数据包括：(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符，(2)乱码字符，(3)数据中非空字段存在的空值，(4)数据存在所有列内容都重复，(5)数据存在关键列内容重复；

所述数据存储规则模块052用于检验单行和/或多行数据的内容与其所在列是否对应，检验数据是否存在空白行数据，并将这些数据标记为不合规数据或删除。

其中，单行数据的内容与其所在列是否对应包括是否存在列错位的情况(即一行中的不同列位置错乱的情况)；多行数据的内容与其所在列是否对应包括是否出现不应该存在的换行符使一行变多行的情况以及是否存在列错位的情况。

根据本发明一种优选的实施方式，所述数据主题存储部006包括数据主题库061和数据分类记录组件062。

其中，所述数据主题库061用于对数据清洗处理部005清洗后的数据文件按不同主题划分入不同的主题库中，其中，所述主题包括个人信息主题、企业信息主题、属性主题(包括车辆、飞机、日用品等)等；所述数据分类记录组件062用于对数据主题库061生成的主题分类进行记录。

这样，根据不同的主题对数据进行分类存储，在后期如果需要采用例如“车辆”类别的数据，则直接采用数据分类记录组件062中记录有“车辆”的数据即可。

本发明另一方面提供了一种多类型批量数据的处理方法，如图2所示，所述方法包括以下步骤：

步骤1、利用数据文件格式转换部002对原始数据文件部001中的数据文件进行格式转换。

其中，原始数据文件部001内的数据文件为多类型批量数据文件，例如包括EXCEL文件、SQL脚本文件以及含有CSV、TXT的文本文件等。

根据本发明一种优选的实施方式，步骤1包括以下子步骤：

步骤1.1、利用数据文件格式转换模块021对原始数据文件部001中的数据文件进行格式转换；

步骤1.2、利用文件路径转换模块022对转换格式后的数据文件进行数据文件路径的转换，优选将多种子文件夹中的数据文件提取到主目录下；

步骤1.3、利用数据文件去重转换模块023对路径转换后的数据文件进行去重处理，判断存储的数据文件是否为重复的数据文件，并对其进行处理和过滤。

根据本发明一种优选的实施方式，在步骤1.1中，所述格式转换如下进行：将原始压缩的数据文件进行解压缩处理，并将无法解压缩处理的数据文件标记为不合规数据文件或删除。

在进一步优选的实施方式中，在步骤1.1中，所述格式转换还如下进行：判断统一子文件目录中的数据文件是否为拆分文件，并将拆分的文本格式数据文件合并还原为原始的数据文件。

在更进一步优选的实施方式中，在步骤1.1中，所述格式转换还如下进行：判断是否存在错误的文件后缀，并将判断为错误文件后缀的数据文件标记为不合规数据文件或删除。

其中，通过格式转换，将数据文件转换为可以运行的文件。

根据本发明一种优选的实施方式，在步骤1.2中，步骤1.2包括以下子步骤：

步骤1.2.1、将多种子文件夹中的数据文件提取到主目录下；

步骤1.2.2、在提取后删除冗余的多重子文件夹；

步骤1.2.3、将无法移动或无法操作的数据文件标记为不合规数据文件或删除。

其中，在需要处理的数据文件中，存在文件格式以及文件夹格式，而在文件夹内又可能存在文件夹，因此，彼此之间可能不在一个目录层次下，而步骤1.2就是将所有数据文件提到一个层次的目录下，以便于后续处理。

根据本发明一种优选的实施方式，在步骤1.3中，根据数据文件名称和大小进行去重处理，或根据数据文件内容进行去重处理。

在进一步优选的实施方式中，根据数据文件名称和大小判断，数据文件名称内容相同和/或相似，并且存储大小相同和/或相似的数据文件或数据文件集判断为重复数据文件，标记为不合规数据文件或删除。

在更进一步优选的实施方式中，根据数据文件内容判断，如果数据文件内容前10行数据完全相同，并且存储大小相同和/或相似的数据文件或数据文件集判断，则为重复数据文件，标记为不合规数据文件或删除。

其中，步骤1.3的目的是将重复的数据文件去除。

步骤2、利用数据文件分类转换部003对数据文件格式转换部002处理的数据文件进行分类处理，并储存。

根据本发明一种优选的实施方式，步骤2包括以下子步骤：

步骤2.1、利用数据文件分类模块033对数据文件格式转换部002处理后的数据文件进行分类处理，分为可处理数据文件和不可处理数据文件；

步骤2.2、采用可处理文件类型模块031对得到的可处理数据文件进行存储；

步骤2.3、采用不可处理文件类型模块032对得到的不可处理数据文件进行存储。

其中，所述可处理数据文件即可结构化处理的数据文件，包括excl文件、数据库导出文件、文本文件和SQL脚本文件等，所述不可处理数据文件包括word文件、PDF文件、音频文件和视频文件等。

步骤3、利用数据文件结构化处理部004对步骤2的可处理文件类型进行结构化处理，得到可结构化存储的数据文件。

其中，结构化处理即格式化处理，将数据文件转化成以行和列的形式排布和存储的数据。具体地，结构化处理即格式化处理，是将数据文件转换成二维表结构逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。

步骤4、利用数据清洗处理部005对得到的可结构化存储的数据文件进行清洗处理。

根据本发明一种优选的实施方式，步骤4包括以下子步骤：

步骤4.1、利用数据内容规则模块051检验数据内容是否合规，并对不合规数据进行数据清洗，即标记为不合规数据或删除；

步骤4.2、利用数据存储规则模块052检验单行和/或多行数据的内容与其所在列是否对应；

步骤4.3、检验数据是否存在空白行数据，并将这些数据标记为不合规数据或删除。

其中，在步骤4.1中，所述不合规数据包括：(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符，(2)乱码字符，(3)数据中非空字段存在的空值，(4)数据存在所有列内容都重复，(5)数据存在关键列内容重复；在步骤4.2中，单行数据的内容与其所在列是否对应包括是否存在列错位的情况(即一行中的不同列位置错乱的情况)；多行数据的内容与其所在列是否对应包括是否出现不应该存在的换行符使一行变多行的情况以及是否存在列错位的情况；在步骤4.3中，所述空白行数据是指整行或整列为空白，没有实际内容。

根据本发明一种优选的实施方式，步骤5包括以下子步骤：

步骤5.1、利用数据主题库061对数据清洗处理部005清洗后的数据文件按不同主题划分入不同的主题库中；

步骤5.2、利用数据分类记录组件062对数据主题库061生成的主题分类进行记录。

其中，在步骤5中可以根据不同主题对处理后的数据文件进行分类储存，所述主题包括个人信息主题、企业信息主题、属性主题(包括车辆、飞机、日用品等)等，而具体的分类方式根据业务或研究的需要决定。

在现有技术中，并没有涉及对于多类型、批量数据处理的相关报道，而在实际应用中，也是采用手动人工操作，这样不仅需要很长时间，一般6个月以上，而且浪费人力成本。

但是，采用本发明所述系统或方法对多类型、批量数据进行处理可以实现自动化处理，一般需要一个月时间、甚至两周左右，关键是不需要人工操作，这样，不仅大大缩短了处理时间，而且节约了人力成本。

本发明所具有的有益效果包括：

(1)本发明所述系统或方法简单，可以实现对多类型、批量数据文件进行处理，得到高可用的、高纯度的、规范的结构化数据；

(2)本发明所述系统是一个数据处理的模块化构件，处理可用性强、可移植性强，可以方便快捷的应用到其它数据系统提供优质数据服务；

(3)本发明所述系统或方法大大缩短了对多类型、批量数据文件的处理时间；

(4)本发明所述系统或方法节约了人力成本。

实施例

对如图3所示多类型批量数据进行处理，其大小为100 T。其中，如图3中(a)所示，所述数据中含有文件夹、压缩包等多类型数据，而每个文件夹下会有多个子文件夹，而子文件下又会有文件和/或文件夹(其中，由于数据量很多，图3中(a)并没有显示出所有文件，而仅显示出一部分)。例如，如图3中(b)所示，文件夹“CoCo”内含有127个子文件夹，如图3中(c)所示，子文件夹下第一个文件夹“121376”中又含有数据与文件夹。因此，本申请所述系统或方法是对多类型批量数据文件进行处理。

步骤1、利用数据文件格式转换模块021对图3(a)中的压缩包解压缩，然后利用文件路径转换模块022将多种子文件夹下的数据文件提取到主目录下，最后利用数据文件去重转换模块023对路径转换后的数据文件进行去重处理，结果如图4所示；

步骤2、利用数据文件分类模块033对数据文件格式转换部002处理后的数据文件进行分类处理，分为可处理数据文件和不可处理数据文件，并进行存储，结果如图5所示；

步骤3、利用数据文件结构化处理部004对步骤2的可处理文件类型进行结构化处理，得到可结构化存储的数据文件，结果如图6中步骤3所示所示；但是，其存在明显的列错位的现象；

步骤4、利用数据内容规则模块051检验数据内容是否合规，并对不合规数据进行数据清洗，即标记为不合规数据或删除，所述不合规数据包括：(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符，(2)乱码字符，(3)数据中非空字段存在的空值，(4)数据存在所有列内容都重复，(5)数据存在关键列内容重复；

并利用数据存储规则模块052检验单行和/或多行数据的内容与其所在列是否对应，将列错位的情况进行更正；

然后检验数据是否存在空白行数据，并将这些数据标记为不合规数据或删除，结果如图6中步骤4所示；

步骤5、利用数据主题库061对数据清洗处理部005清洗后的数据文件按不同人、地、事、物、组织单位划分入不同的主题库中，并利用数据分类记录组件062对数据主题库061生成的主题分类进行记录，以便后续对数据直接使用。

其中，整个过程需要12天，在处理不同数据文件时，具体天数随着数据文件不同的情况而变化。

作为对比，对上述实施例中所述多类型批量数据进行手动处理与人工检查，整个过程需要180天。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种多类型批量数据处理系统，其特征在于，所述系统包括：

原始数据文件部(001)，用于存放待处理的多类型批量数据文件；

数据文件格式转换部(002)，用于对原始数据文件部(001)中的批量数据文件进行格式转换和路径转换；

数据文件分类转换部(003)，用于对经数据文件格式转换部(002)转换后的批量数据文件进行分类，将文件分为可处理数据文件和不可处理数据文件；和

数据文件结构化处理部(004)，用于对得到的可处理数据文件进行结构化处理，得到可结构化存储的数据文件。

2.根据权利要求1所述的数据处理系统，其特征在于，所述数据文件格式转换部(002)包括：

数据文件格式转换模块(021)，用于对原始数据文件部(001)中的数据文件进行格式转换；

数据文件路径转换模块(022)，用于对数据文件格式转换模块(021)转换格式后的数据文件进行路径转换；和

数据文件去重转换模块(023)，用于对路径转换后的数据文件进行去重处理，判断存储的数据文件是否为重复的数据文件，并对重复的数据文件进行处理和过滤。

3.根据权利要求1或2所述的数据处理系统，其特征在于，所述数据文件分类转换部(003)包括：

数据文件分类模块(033)，用于对经数据文件格式转换部(002)处理后的数据文件进行分类处理，分为可处理数据文件和不可处理数据文件；

可处理文件模块(031)，用于存储文件数据分类模块(033)得到的可处理数据文件，即可结构化处理的数据文件；和

不可处理文件模块(032)，用于存储文件数据分类模块(033)得到的不可处理数据文件，即不可结构化处理的数据文件。

4.根据权利要求1至3之一所述的数据处理系统，其特征在于，所述系统还包括数据清洗处理部(005)和数据主题存储部(006)，其中，所述数据清洗处理部(005)用于对得到的可结构化存储的数据文件进行清洗处理；所述数据主题存储部(006)用于对清洗处理后的数据文件进行分类并存储。

5.根据权利要求1至4之一所述的数据处理系统，其特征在于，

所述数据清洗处理部(005)包括数据内容规则模块(051)和数据存储规则模块(052)，其中：所述数据内容规则模块(051)用于检验数据内容是否合规，并对不合规数据进行数据清洗，即标记为不合规数据或删除；所述数据存储规则模块(052)用于检验单行和/或多行数据的内容与所在列是否对应，检验数据是否存在空白行数据，并将这些数据标记为不合规数据或删除；和/或

所述数据主题存储部(006)包括数据主题库(061)和数据分类记录组件(062)，其中：所述数据主题库(061)用于对数据清洗处理部(005)清洗后的数据文件按不同主题划分入不同的主题库中；所述数据分类记录组件(062)用于对数据主题库(061)生成的主题分类进行记录。

6.一种多类型批量数据的处理方法，优选采用权利要求1至5之一所述系统进行，其中，所述方法包括以下步骤：

步骤1、利用数据文件格式转换部(002)对原始数据文件部(001)中的数据文件进行格式转换；

步骤2、利用数据文件分类转换部(003)对数据文件格式转换部(002)处理的数据文件进行分类处理，并储存；

步骤3、利用数据文件结构化处理部(004)对步骤2的可处理文件类型进行结构化处理，得到可结构化存储的数据文件；

步骤4、利用数据清洗处理部(005)对得到的可结构化存储的数据文件进行清洗处理；

步骤5、利用数据主题存储部(006)根据数据文件的主题进行分类并存储。

7.根据权利要求6所述的方法，其中，步骤1包括以下子步骤：

步骤1.1、利用数据文件格式转换模块(021)对原始数据文件部(001)中的数据文件进行格式转换；

步骤1.2、利用文件路径转换模块(022)对转换格式后的数据文件进行数据文件路径的转换，优选将多种子文件夹中的数据文件提取到主目录下；

步骤1.3、利用数据文件去重转换模块(023)对路径转换后的数据文件进行去重处理，判断存储的数据文件是否为重复的数据文件，并对其进行处理和过滤。

8.根据权利要求6或7所述的方法，其中，

在步骤1.1中，所述格式转换如下进行：将原始压缩的数据文件进行解压缩处理，并将无法解压缩处理的数据文件标记为不合规数据文件或删除；优选地，还如下进行：判断统一子文件目录中的数据文件是否为拆分文件，并将拆分的文本格式数据文件合并还原为原始的数据文件；更优选地，还如下进行：判断是否存在错误的文件后缀，并将判断为错误文件后缀的数据文件标记为不合规数据文件或删除；

和/或

在步骤1.2中，步骤1.2包括以下子步骤：

步骤1.2.1、将多种子文件夹中的数据文件提取到主目录下；

步骤1.2.2、在提取后删除冗余的多重子文件夹；

步骤1.2.3、将无法移动或无法操作的数据文件标记为不合规数据文件或删除；

和/或

在步骤1.3中，根据数据文件名称和大小进行去重处理，或根据数据文件内容进行去重处理；优选地，根据数据文件名称和大小判断，数据文件名称内容相同和/或相似，并且存储大小相同和/或相似的数据文件或数据文件集判断为重复数据文件，标记为不合规数据文件或删除；更优选地，根据数据文件内容判断，如果数据文件内容前10行数据完全相同，并且存储大小相同和/或相似的数据文件或数据文件集判断，则为重复数据文件，标记为不合规数据文件或删除。

9.根据权利要求6至8之一所述的方法，其中，步骤2包括以下子步骤：

步骤2.1、利用数据文件分类模块(033)对数据文件格式转换部(002)处理后的数据文件进行分类处理，分为可处理数据文件和不可处理数据文件；

步骤2.2、采用可处理文件类型模块(031)对得到的可处理数据文件进行存储；

步骤2.3、采用不可处理文件类型模块(032)对得到的不可处理数据文件进行存储；

其中，所述可处理数据文件即可结构化处理的数据文件，包括excl文件、数据库导出文件、文本文件和SQL脚本文件，所述不可处理数据文件包括word文件、PDF文件、音频文件和视频文件。

10.根据权利要求6至9之一所述的方法，其中，

步骤4包括以下子步骤：

步骤4.1、利用数据内容规则模块(051)检验数据内容是否合规，并对不合规数据进行数据清洗，即标记为不合规数据或删除；

步骤4.2、利用数据存储规则模块(052)检验单行和/或多行数据的内容与其所在列是否对应；

步骤4.3、检验数据是否存在空白行数据，并将这些数据标记为不合规数据或删除；

优选地，在步骤4.1中，所述不合规数据包括：(1)除汉字、英文字母、阿拉伯数字、常用标点符号以外的字符，(2)乱码字符，(3)数据中非空字段存在的空值，(4)数据存在所有列内容都重复，(5)数据存在关键列内容重复；在步骤4.3中，所述空白行数据是指整行或整列为空白，没有实际内容；

和/或

步骤5包括以下子步骤：

步骤5.1、利用数据主题库(061)对数据清洗处理部(005)清洗后的数据文件按不同主题划分入不同的主题库中；

步骤5.2、利用数据分类记录组件(062)对数据主题库(061)生成的主题分类进行记录；

其中，在步骤5.1中，所述主题包括个人信息主题、企业信息主题、属性主题(包括车辆、飞机、日用品等)等。