CN107463705A

CN107463705A - 一种数据清洗方法

Info

Publication number: CN107463705A
Application number: CN201710704678.1A
Authority: CN
Inventors: 童雷; 杨浩东; 张复生
Original assignee: Shaanxi Top 100 Information Technology Co Ltd
Current assignee: Shaanxi Top 100 Information Technology Co Ltd
Priority date: 2017-08-17
Filing date: 2017-08-17
Publication date: 2017-12-12

Abstract

本发明公开了一种数据清洗方法，通过数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；数据清洗，将待清洗数据进行聚类；数据缓存，根据用户的操作命令将数据结果缓存起来；所述命令包括待定、确认、移除；确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。解决了数据清洗只清洗重复数据而不清洗相似数据的问题，具有提高数据清洗的广度和深度以及不仅清洗重复数据，也同样清洗相似数据的技术效果。

Description

一种数据清洗方法

技术领域

本发明涉及企业数据清洗技术领域，特别涉及一种数据清洗方法。

背景技术

现代社会进入了大数据时代，各类信息记录采用电子介质记录，时间一久各类数据体量庞大，想找出自己相关的数据非常费力；传统的数据清洗方式只清洗重复数据而不清洗相似数据的问题，同时数据清洗的广度和深度也非常有限。

发明内容

本申请实施例的目的在于提供一种数据清洗方法，解决了现有技术中数据清洗不能清晰相思数据问题，具有提高数据清洗的广度和深度以及不仅清洗重复数据，也同样清洗相似数据的技术效果。

为解决上述技术问题，本发明提供了一种数据清洗方法，包括：

数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；

数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；

数据清洗，将待清洗数据根据计算相似度公式：

映射为多维空间中的向量和并且用这两个向量间的夹角大小来表示向量的相近程度，以此来计算两条文本数据的相似程度；以及：

根据上一步得出的向量，运用文本相似度计算公式：

得出这两个向量的夹角的COSINE值；以及：

将高于用户设定的某一相似度阈值的相关数据进行聚类；

数据缓存，根据用户的操作命令将数据结果缓存起来；所述命令包括待定、确认、移除；

确认数据，对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。

进一步地，所述待处理数据格式包括Excel。

进一步地，所述处理规则包括拼音相同汉字匹配或学名与俗称匹配或大小写匹配或全角半角匹配或连接符号相似匹配或字符串相似匹配。

进一步地，

所述数据清洗包括：将待清洗数据导入到搜索应用服务中，然后通过相似度服务模块计算相似度并进行后续的操作。

进一步地，所述数据缓存通过构造数据存储结构，并结合数据压缩算法，将磁盘里的数据放入内存。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

本申请实施例中通过数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；数据清洗，将待清洗数据进行聚类；数据缓存，根据用户的操作命令将数据结果缓存起来；所述命令包括待定、确认、移除；确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件；解决了数据清洗只清洗重复数据而不清洗相似数据的问题，具有提高数据清洗的广度和深度以及不仅清洗重复数据，也同样清洗相似数据的技术效果。

附图说明

图1是本申请实施例提供的清洗流程框图；

图2是本申请实施例提供的存储结构数据索引树示例结构图。

具体实施方式

为解决上述技术问题，本申请实施例提供技术方案的总体思路如下：

数据清洗，将待清洗数据进行聚类；

确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体实施方式对上述技术方案进行进行详细说明。

实施例1，结合附图1、2描述。

一种数据清洗方法，包括：

S01.数据导入，将待处理数据经过解析后生成具体的数据存入数据清洗方法；

S02.数据预处理，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；

S03.数据清洗，将待清洗数据根据计算相似度公式：

根据上一步得出的向量，运用文本相似度计算公式：

得出这两个向量的夹角的COSINE值；以及：

将高于用户设定的某一相似度阈值的相关数据进行聚类；

S04.数据缓存，根据用户的操作命令将数据结果缓存起来；所述命令包括待定、确认、移除；

S05.确认数据，对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。

本申请实施例中通过对数据的解析、预设规则提取数据、数据聚类、数据缓存、再次清洗的技术手段，解决了数据清洗只清洗重复数据而不清洗相似数据的问题，具有提高数据清洗的广度和深度以及不仅清洗重复数据，也同样清洗相似数据的技术效果。

进一步地，所述待处理数据格式包括Excel。

进一步地，

进一步地，数据导入为数据导入模块，将待处理数据经过解析后生成具体的数据存入数据清洗方法；

数据预处理为数据处理模块，将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据；

数据清洗为数据清洗模块，将待清洗数据进行聚类；

数据缓存数据缓存模块，根据用户的操作命令将数据结果缓存起来；所述命令包括待定、确认、移除；

确认数据为数据确认模块，对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。

本申请实施例中的数据清洗方法还将相关的相似数据进行聚合展示，同时在数据预处理阶段，数据清洗方法内置了多种变换规则如拼音相同汉字匹配、学名与俗称匹配、大小写匹配、全角半角匹配、连接符号相似匹配，字符串相似匹配，通过这些规则可以将源数据根据需要进行多种变换，用于提高数据清洗的广度和深度，最后基于词典的分词也将相同的但是词序不同的数据进行了清洗。

与其他数据清洗工具相比，本数据清洗方法提高了数据清洗的广度：不仅清洗重复数据，也同样清洗相似数据；本数据清洗方法提高了数据清洗的深度：数据清洗方法内置的多种数据变换规则扩大了数据清洗的适用性范围，同时对于清洗数据的相似度对比是基于词典分词的，并加以相似度计算的检测，能够有效提高数据准确率；本数据清洗方法还提高了数据清洗的效率：对待清洗的数据先进行搜索服务的检索能有效的缩小相似度比对的范围，减小计算规模，缩短清洗时间。

实施例2，结合附图1、2描述。

在实施例1的基础上，本申请实施例中数据清洗方法可导入Excel等格式的数据文件，经过解析生成具体数据存入数据清洗方法；在数据预处理阶段，2.数据清洗方法根据用户所选规则(拼音相同汉字匹配，学名与俗称匹配，大小写匹配，全角半角匹配，连接符号相似匹配，字符串相似匹配等)进行数据的预处理生成待清洗的数据；清洗功能是本数据清洗方法最核心的模块，它将待清洗数据根据特定算法进行相似度检测，并将高于用户设定的某一相似度阈值的相关数据进行聚类；数据清洗方法根据用户的一系列操作(待定，确认，移除等)将结果缓存起来，之后可以进行同一批源数据的重复清洗；直到确认数据后，才会生成最终所需的数据关系文件并导出如Excel等格式的文件。

本数据清洗方法最核心的功能就是清洗数据阶段。主要目的就是将杂乱无章的数据进行整理聚合，清除出相似或者相同的垃圾数据，提高数据质量。

清洗的流程实现如上图所示，首先将待清洗数据导入到搜索应用服务中，然后通过相似度服务模块计算相似度并进行后续的操作。具体的一次实现是，当将数据导入搜索应用服务时，搜索应用服务会对数据进行基于词典的分词并添加数据索引；然后通过搜索应用的搜索服务，找到某一数据相关的全部数据，再将相关的全部数据循环与这一数据进行基于词典分词的相似度计算，将相似度达到阈值的相关数据进行缓存，同时将搜索应用服务中的这些数据去除，防止重复数据的出现。如此往复循环整个待清洗的全部数据，直到所有数据都经过了这样的清洗流程表明本轮清洗结束，可以开始下轮清洗或者确认数据并导出。通过构造数据存储结构，并结合数据压缩算法，将磁盘里的数据放入内存，减少磁盘随机读取次数，提高数据清洗效率。

传统关系型数据库的索引储存方式采用B-Tree数据结构，能够有效减少磁盘的寻道读取次数和数据查找效率。与传统关系型数据库不同，本数据清洗方法的搜索应用服务采用的是基于″倒排索引″的非关系型搜索服务。倒排索引为每个数据字段都建立基于字段的数据索引(形如key-values)，如下例。

例如为以下数据建立索引：

ID	NAME	AGE	SEX
				1	Kate	24	Female
2	John	24	Male
				3	Bill	29	Male

以NAME字段建立索引：

Kate	1
		John	2
Bill	3

以AGE字段建立索引：

24	[1，2]
		29	3

以SEX字段建立索引：

Female	1
		Male	[2，3]

为每个字段都建立一个这样的索引，用来储存针对某一字段的具有相同索引条件(term)的所有文档ID。

但当数据量提升的时候，一个最重要的问题是如何提高查询速度。这里我们采用了一种基于内存的树形结构来加快搜索速度和一种基于bitmap的索引值存储方式来压缩数据所占用的内存空间。

如图2所示，根据索引条件(term)形成一种基于内存的树形结构(如上图)，这棵树不会包含所有的完整数据词组，它包含的是数据的一些公共前缀。例如针对某一字段的索引条件Terms为(to，tea，ted，ten，A，inn，in)，根据每个term来依次的构造整个树。首先存入单词to的路径，发现根节点下没有为t的前缀路径，则在根节点下构造转移条件为t的路径和存储内容为t的节点，然后在t节点下同样没有发现有转移条件为o的路径，则在节点t下构造转移条件为o的路径和节点to，形成单词to路径的存储；当存入单词tea时，发现根节点下已存在转移条件为t的路径，然后根据路径找到节点t并移动到节点t下，在节点t下未发现转移条件为e的路径，则在节点t下构造路径转移条件为e的路径和相应的节点并继续往下执行，数据tea接下来的流程以及之后数据的构造都以此类推，直到所有term都加入到这棵树中方为结束。当进行数据查询时，我们就可以根据待查询数据和这棵树形结构来高效的进行查询，对于待查询数据，我们可以把其前缀依次作为转移条件来进行节点间的搜索，例如查询条件term为单词inn时，我们就可以按照i-＞n-＞n这样的转移条件来作为数据的搜索的转移路径(如上图中的黑色连接线所示)，首先从根节点出发，根据条件i转移到相应的节点，然后从该节点出发，根据条件n转移到相应的节点，最后从此节点出发，再根据条件n进行转移，如果有该转移条件的路径就可以快速找到该数据对应的节点，反之如果不存在该转移条件的路径就表面该查询term没有对应的文档数据。通过Terms的公共前缀，并根据Terms的状态转移(例如从t-＞te就是根据状态e来进行转移的)来构造树形结构存储整个Terms，这样使得全部的索引数据都能够加载到内存中，再把数据按转移条件进行查询，比直接存储并逐条查询Terms能够极大的减少数据的查询量和查询时间，仅在最后获取具体的数据Document时才会去读取磁盘文件信息，从整体上提高数据的搜索速度。

同时，当数据量极大的情况下就会发生一个key对应非常多的values(例如以性别进行索引时，如果有上千万条数据，而世界上只有男/女这样两个性别，则每个term对应的全部数据文档ID都会有至少百万个文档ID)。为了有效的将这些数据都存入内存中，数据清洗方法会将这些文档ID进行压缩处理，并采用了一种基于bitmap的索引值存储方式，但与一般的bitmap不同，一般Bitmap的存储空间随着文档个数成线性增长。本数据清洗方法将索引值按65535将索引ID进行划分，将索引ID除以65535得到商和余数，通过构造多个能存储65535的bitmap结构来存储索引ID。这样按照65535为界限分块，比如第一块所包含的文档id范围在O～65535之间，第二块的id范围是65536～131071，以此类推。再用<商，余数>的组合表示每一组id，这样每组里的id范围都在0～65535内了，在某一区间中如果不存在要存储的数据，那就不用创建该范围区域的bitmap结构，可以有效的将传统bitmap的存储空间随着文档个数成指数增长进行缩减，能够极大地减少存储空间，并将全部索引ID加载到内存中。例如下表格所示是某个指定term的文档ID集合：

如果采用传统Bitmap的存储方式，即每一位上存储0/1表示该位是否存在，则以上需要在第100，62101，131385，132052，191173，196600等位上存储1，因为目前可知最大ID为196658，以此采用这种方式最少需要196600bits空间。但是采用本数据清洗方法的存储方式后，只需要建立有数据存储区间的bitmap结构，例如以上表数据需要建立如下数据区间：

可以看到只需要建立两个包含65535bits的bitmap空间，即131072bits。远远小于传统的bitmap结构需要占用的内存空间。

本数据清洗方法的计算相似度模块是基于词典分词的文本相似度计算。在比较相似度的时候，第一步先做基于词典的分词，以实际数据为例(压盖IN50-32-250离心泵IN50-32-250)将分为(压盖，IN50，32，250，离心泵，IN50，32，250)，其中″-″为停用词符号不计算在分词中，同样的(砂轮250×32×32)也被分词为(砂轮，250，32，32)，其中″×″为停用词符号不计算在分词中；第二步，去除重复单词并列出识别出的所有单词，例如本例中的所有单词为(压盖，IN50，32，250，离心泵，砂轮)；第三步，计算词频，即计算第二步得到的所有单词在每条数据中出现的次数，在本例中结果如下：压盖IN50-32-250；离心泵IN50-32-250；

砂轮250×32×32

第四步，构造词频向量，本例是和这里可以将原始的文本数据映射为多维空间中的向量，并且用这两个向量间的夹角大小来表示向量的相近程度，以此来计算两条文本数据的相似程度.

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种数据清洗方法，其特征在于，包括：

数据清洗，将待清洗数据根据计算相似度公式：

<mrow> <mi>cos</mi> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>&times;</mo> <mover> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>&times;</mo> <mo>|</mo> <mover> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <msub> <mi>&theta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>&times;</mo> <msub> <mi>&theta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>&theta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>&theta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>

根据上一步得出的向量，运用文本相似度计算公式：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>cos</mi> <mi>&theta;</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>&times;</mo> <mn>0</mn> <mo>+</mo> <mn>2</mn> <mo>&times;</mo> <mn>0</mn> <mo>+</mo> <mn>2</mn> <mo>&times;</mo> <mn>2</mn> <mo>+</mo> <mn>2</mn> <mo>&times;</mo> <mn>1</mn> <mo>+</mo> <mn>1</mn> <mo>&times;</mo> <mn>0</mn> <mo>+</mo> <mn>0</mn> <mo>&times;</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mrow> <msqrt> <mrow> <msup> <mn>1</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>1</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0</mn> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&times;</mo> <msqrt> <mrow> <msup> <mn>0</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>1</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>1</mn> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>6</mn> <mrow> <msqrt> <mn>14</mn> </msqrt> <mo>&times;</mo> <msqrt> <mn>16</mn> </msqrt> </mrow> </mfrac> <mo>=</mo> <mn>65.4653667</mn> <mi>%</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

得出这两个向量的夹角的COSINE值；以及：

将高于用户设定的某一相似度阈值的相关数据进行聚类；

2.如权利要求1所述的一种数据清洗方法，其特征在于，所述待处理数据格式包括Excel。

3.如权利要求1所述的一种数据清洗方法，其特征在于，所述处理规则包括拼音相同汉字匹配或学名与俗称匹配或大小写匹配或全角半角匹配或连接符号相似匹配或字符串相似匹配。

4.如权利要求1所述的一种数据清洗方法，其特征在于，

5.如权利要求4所述的一种数据清洗方法，其特征在于，所述数据缓存通过构造数据存储结构，并结合数据压缩算法，将磁盘里的数据放入内存。