CN107463705A - 一种数据清洗方法 - Google Patents

一种数据清洗方法 Download PDF

Info

Publication number
CN107463705A
CN107463705A CN201710704678.1A CN201710704678A CN107463705A CN 107463705 A CN107463705 A CN 107463705A CN 201710704678 A CN201710704678 A CN 201710704678A CN 107463705 A CN107463705 A CN 107463705A
Authority
CN
China
Prior art keywords
data
mrow
msup
msqrt
msub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710704678.1A
Other languages
English (en)
Inventor
童雷
杨浩东
张复生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Top 100 Information Technology Co Ltd
Original Assignee
Shaanxi Top 100 Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi Top 100 Information Technology Co Ltd filed Critical Shaanxi Top 100 Information Technology Co Ltd
Priority to CN201710704678.1A priority Critical patent/CN107463705A/zh
Publication of CN107463705A publication Critical patent/CN107463705A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据清洗方法,通过数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据进行聚类;数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。解决了数据清洗只清洗重复数据而不清洗相似数据的问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。

Description

一种数据清洗方法
技术领域
本发明涉及企业数据清洗技术领域,特别涉及一种数据清洗方法。
背景技术
现代社会进入了大数据时代,各类信息记录采用电子介质记录,时间一久各类数据体量庞大,想找出自己相关的数据非常费力;传统的数据清洗方式只清洗重复数据而不清洗相似数据的问题,同时数据清洗的广度和深度也非常有限。
发明内容
本申请实施例的目的在于提供一种数据清洗方法,解决了现有技术中数据清洗不能清晰相思数据问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。
为解决上述技术问题,本发明提供了一种数据清洗方法,包括:
数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;
数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;
数据清洗,将待清洗数据根据计算相似度公式:
映射为多维空间中的向量并且用这两个向量间的夹角大小来表示向量的相近程度,以此来计算两条文本数据的相似程度;以及:
根据上一步得出的向量,运用文本相似度计算公式:
得出这两个向量的夹角的COSINE值;以及:
将高于用户设定的某一相似度阈值的相关数据进行聚类;
数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;
确认数据,对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。
进一步地,所述待处理数据格式包括Excel。
进一步地,所述处理规则包括拼音相同汉字匹配或学名与俗称匹配或大小写匹配或全角半角匹配或连接符号相似匹配或字符串相似匹配。
进一步地,
所述数据清洗包括:将待清洗数据导入到搜索应用服务中,然后通过相似度服务模块计算相似度并进行后续的操作。
进一步地,所述数据缓存通过构造数据存储结构,并结合数据压缩算法,将磁盘里的数据放入内存。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例中通过数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;数据清洗,将待清洗数据进行聚类;数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件;解决了数据清洗只清洗重复数据而不清洗相似数据的问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。
附图说明
图1是本申请实施例提供的清洗流程框图;
图2是本申请实施例提供的存储结构数据索引树示例结构图。
具体实施方式
本申请实施例的目的在于提供一种数据清洗方法,解决了现有技术中数据清洗不能清晰相思数据问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。
为解决上述技术问题,本申请实施例提供技术方案的总体思路如下:
数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;
数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;
数据清洗,将待清洗数据进行聚类;
数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;
确认数据对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体实施方式对上述技术方案进行进行详细说明。
实施例1,结合附图1、2描述。
一种数据清洗方法,包括:
S01.数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;
S02.数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;
S03.数据清洗,将待清洗数据根据计算相似度公式:
映射为多维空间中的向量并且用这两个向量间的夹角大小来表示向量的相近程度,以此来计算两条文本数据的相似程度;以及:
根据上一步得出的向量,运用文本相似度计算公式:
得出这两个向量的夹角的COSINE值;以及:
将高于用户设定的某一相似度阈值的相关数据进行聚类;
S04.数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;
S05.确认数据,对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。
本申请实施例中通过对数据的解析、预设规则提取数据、数据聚类、数据缓存、再次清洗的技术手段,解决了数据清洗只清洗重复数据而不清洗相似数据的问题,具有提高数据清洗的广度和深度以及不仅清洗重复数据,也同样清洗相似数据的技术效果。
进一步地,所述待处理数据格式包括Excel。
进一步地,所述处理规则包括拼音相同汉字匹配或学名与俗称匹配或大小写匹配或全角半角匹配或连接符号相似匹配或字符串相似匹配。
进一步地,
所述数据清洗包括:将待清洗数据导入到搜索应用服务中,然后通过相似度服务模块计算相似度并进行后续的操作。
进一步地,所述数据缓存通过构造数据存储结构,并结合数据压缩算法,将磁盘里的数据放入内存。
进一步地,数据导入为数据导入模块,将待处理数据经过解析后生成具体的数据存入数据清洗方法;
数据预处理为数据处理模块,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;
数据清洗为数据清洗模块,将待清洗数据进行聚类;
数据缓存数据缓存模块,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;
确认数据为数据确认模块,对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。
本申请实施例中的数据清洗方法还将相关的相似数据进行聚合展示,同时在数据预处理阶段,数据清洗方法内置了多种变换规则如拼音相同汉字匹配、学名与俗称匹配、大小写匹配、全角半角匹配、连接符号相似匹配,字符串相似匹配,通过这些规则可以将源数据根据需要进行多种变换,用于提高数据清洗的广度和深度,最后基于词典的分词也将相同的但是词序不同的数据进行了清洗。
与其他数据清洗工具相比,本数据清洗方法提高了数据清洗的广度:不仅清洗重复数据,也同样清洗相似数据;本数据清洗方法提高了数据清洗的深度:数据清洗方法内置的多种数据变换规则扩大了数据清洗的适用性范围,同时对于清洗数据的相似度对比是基于词典分词的,并加以相似度计算的检测,能够有效提高数据准确率;本数据清洗方法还提高了数据清洗的效率:对待清洗的数据先进行搜索服务的检索能有效的缩小相似度比对的范围,减小计算规模,缩短清洗时间。
实施例2,结合附图1、2描述。
在实施例1的基础上,本申请实施例中数据清洗方法可导入Excel等格式的数据文件,经过解析生成具体数据存入数据清洗方法;在数据预处理阶段,2.数据清洗方法根据用户所选规则(拼音相同汉字匹配,学名与俗称匹配,大小写匹配,全角半角匹配,连接符号相似匹配,字符串相似匹配等)进行数据的预处理生成待清洗的数据;清洗功能是本数据清洗方法最核心的模块,它将待清洗数据根据特定算法进行相似度检测,并将高于用户设定的某一相似度阈值的相关数据进行聚类;数据清洗方法根据用户的一系列操作(待定,确认,移除等)将结果缓存起来,之后可以进行同一批源数据的重复清洗;直到确认数据后,才会生成最终所需的数据关系文件并导出如Excel等格式的文件。
本数据清洗方法最核心的功能就是清洗数据阶段。主要目的就是将杂乱无章的数据进行整理聚合,清除出相似或者相同的垃圾数据,提高数据质量。
清洗的流程实现如上图所示,首先将待清洗数据导入到搜索应用服务中,然后通过相似度服务模块计算相似度并进行后续的操作。具体的一次实现是,当将数据导入搜索应用服务时,搜索应用服务会对数据进行基于词典的分词并添加数据索引;然后通过搜索应用的搜索服务,找到某一数据相关的全部数据,再将相关的全部数据循环与这一数据进行基于词典分词的相似度计算,将相似度达到阈值的相关数据进行缓存,同时将搜索应用服务中的这些数据去除,防止重复数据的出现。如此往复循环整个待清洗的全部数据,直到所有数据都经过了这样的清洗流程表明本轮清洗结束,可以开始下轮清洗或者确认数据并导出。通过构造数据存储结构,并结合数据压缩算法,将磁盘里的数据放入内存,减少磁盘随机读取次数,提高数据清洗效率。
传统关系型数据库的索引储存方式采用B-Tree数据结构,能够有效减少磁盘的寻道读取次数和数据查找效率。与传统关系型数据库不同,本数据清洗方法的搜索应用服务采用的是基于″倒排索引″的非关系型搜索服务。倒排索引为每个数据字段都建立基于字段的数据索引(形如key-values),如下例。
例如为以下数据建立索引:
ID NAME AGE SEX
1 Kate 24 Female
2 John 24 Male
3 Bill 29 Male
以NAME字段建立索引:
Kate 1
John 2
Bill 3
以AGE字段建立索引:
24 [1,2]
29 3
以SEX字段建立索引:
Female 1
Male [2,3]
为每个字段都建立一个这样的索引,用来储存针对某一字段的具有相同索引条件(term)的所有文档ID。
但当数据量提升的时候,一个最重要的问题是如何提高查询速度。这里我们采用了一种基于内存的树形结构来加快搜索速度和一种基于bitmap的索引值存储方式来压缩数据所占用的内存空间。
如图2所示,根据索引条件(term)形成一种基于内存的树形结构(如上图),这棵树不会包含所有的完整数据词组,它包含的是数据的一些公共前缀。例如针对某一字段的索引条件Terms为(to,tea,ted,ten,A,inn,in),根据每个term来依次的构造整个树。首先存入单词to的路径,发现根节点下没有为t的前缀路径,则在根节点下构造转移条件为t的路径和存储内容为t的节点,然后在t节点下同样没有发现有转移条件为o的路径,则在节点t下构造转移条件为o的路径和节点to,形成单词to路径的存储;当存入单词tea时,发现根节点下已存在转移条件为t的路径,然后根据路径找到节点t并移动到节点t下,在节点t下未发现转移条件为e的路径,则在节点t下构造路径转移条件为e的路径和相应的节点并继续往下执行,数据tea接下来的流程以及之后数据的构造都以此类推,直到所有term都加入到这棵树中方为结束。当进行数据查询时,我们就可以根据待查询数据和这棵树形结构来高效的进行查询,对于待查询数据,我们可以把其前缀依次作为转移条件来进行节点间的搜索,例如查询条件term为单词inn时,我们就可以按照i->n->n这样的转移条件来作为数据的搜索的转移路径(如上图中的黑色连接线所示),首先从根节点出发,根据条件i转移到相应的节点,然后从该节点出发,根据条件n转移到相应的节点,最后从此节点出发,再根据条件n进行转移,如果有该转移条件的路径就可以快速找到该数据对应的节点,反之如果不存在该转移条件的路径就表面该查询term没有对应的文档数据。通过Terms的公共前缀,并根据Terms的状态转移(例如从t->te就是根据状态e来进行转移的)来构造树形结构存储整个Terms,这样使得全部的索引数据都能够加载到内存中,再把数据按转移条件进行查询,比直接存储并逐条查询Terms能够极大的减少数据的查询量和查询时间,仅在最后获取具体的数据Document时才会去读取磁盘文件信息,从整体上提高数据的搜索速度。
同时,当数据量极大的情况下就会发生一个key对应非常多的values(例如以性别进行索引时,如果有上千万条数据,而世界上只有男/女这样两个性别,则每个term对应的全部数据文档ID都会有至少百万个文档ID)。为了有效的将这些数据都存入内存中,数据清洗方法会将这些文档ID进行压缩处理,并采用了一种基于bitmap的索引值存储方式,但与一般的bitmap不同,一般Bitmap的存储空间随着文档个数成线性增长。本数据清洗方法将索引值按65535将索引ID进行划分,将索引ID除以65535得到商和余数,通过构造多个能存储65535的bitmap结构来存储索引ID。这样按照65535为界限分块,比如第一块所包含的文档id范围在O~65535之间,第二块的id范围是65536~131071,以此类推。再用<商,余数>的组合表示每一组id,这样每组里的id范围都在0~65535内了,在某一区间中如果不存在要存储的数据,那就不用创建该范围区域的bitmap结构,可以有效的将传统bitmap的存储空间随着文档个数成指数增长进行缩减,能够极大地减少存储空间,并将全部索引ID加载到内存中。例如下表格所示是某个指定term的文档ID集合:
如果采用传统Bitmap的存储方式,即每一位上存储0/1表示该位是否存在,则以上需要在第100,62101,131385,132052,191173,196600等位上存储1,因为目前可知最大ID为196658,以此采用这种方式最少需要196600bits空间。但是采用本数据清洗方法的存储方式后,只需要建立有数据存储区间的bitmap结构,例如以上表数据需要建立如下数据区间:
可以看到只需要建立两个包含65535bits的bitmap空间,即131072bits。远远小于传统的bitmap结构需要占用的内存空间。
本数据清洗方法的计算相似度模块是基于词典分词的文本相似度计算。在比较相似度的时候,第一步先做基于词典的分词,以实际数据为例(压盖IN50-32-250离心泵IN50-32-250)将分为(压盖,IN50,32,250,离心泵,IN50,32,250),其中″-″为停用词符号不计算在分词中,同样的(砂轮250×32×32)也被分词为(砂轮,250,32,32),其中″×″为停用词符号不计算在分词中;第二步,去除重复单词并列出识别出的所有单词,例如本例中的所有单词为(压盖,IN50,32,250,离心泵,砂轮);第三步,计算词频,即计算第二步得到的所有单词在每条数据中出现的次数,在本例中结果如下:压盖IN50-32-250;离心泵IN50-32-250;
砂轮250×32×32
第四步,构造词频向量,本例是这里可以将原始的文本数据映射为多维空间中的向量,并且用这两个向量间的夹角大小来表示向量的相近程度,以此来计算两条文本数据的相似程度.
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (5)

1.一种数据清洗方法,其特征在于,包括:
数据导入,将待处理数据经过解析后生成具体的数据存入数据清洗方法;
数据预处理,将解析后的数据按照所选处理规则进行数据的提取后生成待清洗的数据;
数据清洗,将待清洗数据根据计算相似度公式:
<mrow> <mi>cos</mi> <mi>&amp;theta;</mi> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>&amp;theta;</mi> <mn>1</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>&amp;times;</mo> <mover> <msub> <mi>&amp;theta;</mi> <mn>2</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>&amp;theta;</mi> <mn>1</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> <mo>&amp;times;</mo> <mo>|</mo> <mover> <msub> <mi>&amp;theta;</mi> <mn>2</mn> </msub> <mo>&amp;RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <mrow> <mo>(</mo> <mrow> <msub> <mi>&amp;theta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> </msub> <mo>&amp;times;</mo> <msub> <mi>&amp;theta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>&amp;theta;</mi> <mrow> <mn>1</mn> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <mo>&amp;times;</mo> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>&amp;theta;</mi> <mrow> <mn>2</mn> <mi>i</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>
映射为多维空间中的向量并且用这两个向量间的夹角大小来表示向量的相近程度,以此来计算两条文本数据的相似程度;以及:
根据上一步得出的向量,运用文本相似度计算公式:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>cos</mi> <mi>&amp;theta;</mi> <mo>=</mo> <mfrac> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>&amp;times;</mo> <mn>0</mn> <mo>+</mo> <mn>2</mn> <mo>&amp;times;</mo> <mn>0</mn> <mo>+</mo> <mn>2</mn> <mo>&amp;times;</mo> <mn>2</mn> <mo>+</mo> <mn>2</mn> <mo>&amp;times;</mo> <mn>1</mn> <mo>+</mo> <mn>1</mn> <mo>&amp;times;</mo> <mn>0</mn> <mo>+</mo> <mn>0</mn> <mo>&amp;times;</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mrow> <msqrt> <mrow> <msup> <mn>1</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>1</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0</mn> <mn>2</mn> </msup> </mrow> </msqrt> <mo>&amp;times;</mo> <msqrt> <mrow> <msup> <mn>0</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>2</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>1</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>0</mn> <mn>2</mn> </msup> <mo>+</mo> <msup> <mn>1</mn> <mn>2</mn> </msup> </mrow> </msqrt> </mrow> </mfrac> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mfrac> <mn>6</mn> <mrow> <msqrt> <mn>14</mn> </msqrt> <mo>&amp;times;</mo> <msqrt> <mn>16</mn> </msqrt> </mrow> </mfrac> <mo>=</mo> <mn>65.4653667</mn> <mi>%</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
得出这两个向量的夹角的COSINE值;以及:
将高于用户设定的某一相似度阈值的相关数据进行聚类;
数据缓存,根据用户的操作命令将数据结果缓存起来;所述命令包括待定、确认、移除;
确认数据,对缓存的数据结果进行再次清洗直到确认数据后生成最终所需的数据关系文件并导出文件。
2.如权利要求1所述的一种数据清洗方法,其特征在于,所述待处理数据格式包括Excel。
3.如权利要求1所述的一种数据清洗方法,其特征在于,所述处理规则包括拼音相同汉字匹配或学名与俗称匹配或大小写匹配或全角半角匹配或连接符号相似匹配或字符串相似匹配。
4.如权利要求1所述的一种数据清洗方法,其特征在于,
所述数据清洗包括:将待清洗数据导入到搜索应用服务中,然后通过相似度服务模块计算相似度并进行后续的操作。
5.如权利要求4所述的一种数据清洗方法,其特征在于,所述数据缓存通过构造数据存储结构,并结合数据压缩算法,将磁盘里的数据放入内存。
CN201710704678.1A 2017-08-17 2017-08-17 一种数据清洗方法 Pending CN107463705A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710704678.1A CN107463705A (zh) 2017-08-17 2017-08-17 一种数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710704678.1A CN107463705A (zh) 2017-08-17 2017-08-17 一种数据清洗方法

Publications (1)

Publication Number Publication Date
CN107463705A true CN107463705A (zh) 2017-12-12

Family

ID=60548995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710704678.1A Pending CN107463705A (zh) 2017-08-17 2017-08-17 一种数据清洗方法

Country Status (1)

Country Link
CN (1) CN107463705A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110389950A (zh) * 2019-07-31 2019-10-29 南京安夏电子科技有限公司 一种快速运行的大数据清洗方法
CN110942081A (zh) * 2018-09-25 2020-03-31 北京嘀嘀无限科技发展有限公司 图像处理方法、装置、电子设备及可读存储介质
CN112579581A (zh) * 2020-11-30 2021-03-30 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN112711586A (zh) * 2021-01-14 2021-04-27 北京致远宣大科技有限公司 一种基于云服务的智能数据分析管理方法及系统
CN113849654A (zh) * 2021-12-01 2021-12-28 杭州费尔斯通科技有限公司 一种基于对比学习聚类的文本清洗方法及系统
CN114328495A (zh) * 2021-12-31 2022-04-12 陕西优百信息技术有限公司 企业物料清洗服务系统及其数据清洗方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN103970061A (zh) * 2013-01-24 2014-08-06 阿自倍尔株式会社 数据生成装置以及方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
US20160085849A1 (en) * 2001-08-31 2016-03-24 Fti Technology Llc Computer-Implemented System And Method For Generating Clusters For Placement Into A Display
CN106294823A (zh) * 2016-08-17 2017-01-04 上海云信留客信息科技有限公司 用于大数据清洗的异常检测和消除的方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160085849A1 (en) * 2001-08-31 2016-03-24 Fti Technology Llc Computer-Implemented System And Method For Generating Clusters For Placement Into A Display
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN103970061A (zh) * 2013-01-24 2014-08-06 阿自倍尔株式会社 数据生成装置以及方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN105335496A (zh) * 2015-10-22 2016-02-17 国网山东省电力公司电力科学研究院 基于余弦相似度文本挖掘算法的客服重复来电处理方法
CN105426426A (zh) * 2015-11-04 2016-03-23 北京工业大学 一种基于改进的K-Medoids的KNN文本分类方法
CN106294823A (zh) * 2016-08-17 2017-01-04 上海云信留客信息科技有限公司 用于大数据清洗的异常检测和消除的方法
CN106372061A (zh) * 2016-09-12 2017-02-01 电子科技大学 基于语义的短文本相似度计算方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942081A (zh) * 2018-09-25 2020-03-31 北京嘀嘀无限科技发展有限公司 图像处理方法、装置、电子设备及可读存储介质
CN110942081B (zh) * 2018-09-25 2023-08-18 北京嘀嘀无限科技发展有限公司 图像处理方法、装置、电子设备及可读存储介质
CN110389950A (zh) * 2019-07-31 2019-10-29 南京安夏电子科技有限公司 一种快速运行的大数据清洗方法
CN110389950B (zh) * 2019-07-31 2023-07-18 南京安夏电子科技有限公司 一种快速运行的大数据清洗方法
CN112579581A (zh) * 2020-11-30 2021-03-30 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN112579581B (zh) * 2020-11-30 2023-04-14 贵州力创科技发展有限公司 一种数据分析引擎的数据接入方法及系统
CN112711586A (zh) * 2021-01-14 2021-04-27 北京致远宣大科技有限公司 一种基于云服务的智能数据分析管理方法及系统
CN113849654A (zh) * 2021-12-01 2021-12-28 杭州费尔斯通科技有限公司 一种基于对比学习聚类的文本清洗方法及系统
CN114328495A (zh) * 2021-12-31 2022-04-12 陕西优百信息技术有限公司 企业物料清洗服务系统及其数据清洗方法

Similar Documents

Publication Publication Date Title
CN107463705A (zh) 一种数据清洗方法
Arora et al. Hd-index: Pushing the scalability-accuracy boundary for approximate knn search in high-dimensional spaces
CN103440313B (zh) 基于音频指纹特征的音乐检索系统
Jin et al. SCARAB: scaling reachability computation on large graphs
Rafiei et al. Querying time series data based on similarity
Navlakha et al. Graph summarization with bounded error
Park et al. Graph transplant: Node saliency-guided graph mixup with local structure preservation
CN107291895B (zh) 一种快速的层次化文档查询方法
CN109166615B (zh) 一种随机森林哈希的医学ct图像存储与检索方法
CN107180079B (zh) 基于卷积神经网络以及树与哈希结合索引的图像检索方法
CN112256727A (zh) 基于人工智能技术的数据库查询处理及优化方法
Hakak et al. Partition-based pattern matching approach for efficient retrieval of Arabic text
Grossi et al. Encodings for range selection and top-k queries
Liu et al. Incremental clustering using information bottleneck theory
Shayegan et al. An approach to improve apriori algorithm for extraction of frequent itemsets
CN108664548B (zh) 一种退化条件下的网络访问行为特征群体动态挖掘方法及系统
Zheng et al. INSPIRE: A framework for incremental spatial prefix query relaxation
Li et al. Answering why-not questions on top-k augmented spatial keyword queries
Lin et al. Mining online book reviews for sentimental clustering
Gunel et al. Data-Efficient Information Extraction from Form-Like Documents
Hwang et al. Improved association rule mining by modified trimming
Kolbe et al. On k-nearest neighbor searching in non-ordered discrete data spaces
Yingfan et al. Revisiting $ k $-Nearest Neighbor Graph Construction on High-Dimensional Data: Experiments and Analyses
Ji et al. Mining frequent and rare itemsets with weighted supports using additive neural itemset embedding
Zaki et al. Frequent Itemset Mining in High Dimensional Data: A Review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171212

RJ01 Rejection of invention patent application after publication