CN110196974B

CN110196974B - 一种用于大数据清洗的快速数据聚合方法

Info

Publication number: CN110196974B
Application number: CN201910501539.8A
Authority: CN
Inventors: 周柚; 王康平; 时小虎; 吴春国; 耿昭阳; 王依章
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2023-07-07
Anticipated expiration: 2039-06-11
Also published as: CN110196974A

Abstract

本发明公开了一种用于大数据清洗的快速数据聚合方法，包括以下步骤：数据读取：原有的数据是在Excel中存储的，利用文件流的形式读取出Excel中的数据信息，根据数据的格式，将读取出来的数据信息存储在记录列表中，最后返回一个记录列表；对大数据文本进行切分；进行文本相似度比较；聚合结果的显示和修改：将要显示的表单打印出来并且提供给用户修改和删除，修改完成后，进行表单的下载。

Description

一种用于大数据清洗的快速数据聚合方法

技术领域

本发明涉及大数据清洗技术领域，特别是一种用于大数据清洗的快速数据聚合方法。

背景技术

大数据时代，数据是企业最具价值的资产之一，企业的数据质量与业务绩效之间存在着直接联系，企业的每一个商业决策、客户管理和商业投资都是建立在数据分析的基础之上。进行数据清洗，可大幅提升企业数据质量，帮助企业进行更合理的决策，进一步降低成本和提高收入和竞争力。数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。然而，以大数据开展的数据挖掘面临着数据可用性等诸多问题，大数据清洗技术研究是保证大数据质量和可用性的关键技术，是提高企业数据商业价值的基础。快速的数据聚合方法是实现大数据清洗的核心技术。而现有数据聚合方法在处理大数据时，在算法时间复杂度和准确率上无法在有效时间内得到结果，不能满足大数据清洗的需求。

总结为两个问题：：一是如何能够提高聚合的准确度，如果按照传统的索引标识进行划分，虽然可以很方便规整，但是这样会使得文本内的聚合效果并不理想，没有关联性。二是如何在大数据量的时候提高算法的计算性能。

发明内容

本发明的目的在于，根据现有技术的不足，提供一种用于大数据清洗的快速数据聚合方法。

为实现以上目的，提供以下技术方案：

一种用于大数据清洗的快速数据聚合方法，包括以下步骤：

S1：数据读取：原有的数据是在Excel中存储的，利用文件流的形式读取出 Excel中的数据信息，根据数据的格式，将读取出来的数据信息存储在记录列表中，最后返回一个记录列表，所述记录列表为自定义类，主要包含字符型的物料编号，字符型的物料名称，字符型的分类词；

S2：对大数据文本进行切分：对字符型的物料名称进行切分并统计词频，统计文本频率，并通过公式A*Math.log(total/B)/Math.log(2.0)计算出词语的tfidf 值，选择tfidf值最大的词语作为该记录的分类词；将全部带有分类词标识的记录存储在一个表单当中；

S3：进行文本相似度比较：根据分类词标识将其分组进行并行计算，在计算单元内，将同组的记录两两进行字符串的文本相似度比较，如果文本相似度在设定的阈值之上，则将其存储在要显示的表单当中；

S4：聚合结果的显示和修改：将要显示的表单打印出来并且提供给用户修改和删除，修改完成后，进行表单的下载。

优选地，所述步骤S2中对字符型的物料名称进行切分并统计词频包括：

S21：创建词频键值对数组和切分词语键值对数组；

S22：遍历记录列表：对于正在遍历的记录列表，首先用正则表达式将记录列表中字符型的物料名称的中英文符号去掉，将其中的非汉字部分用空格代替；

S23：对去掉符号后的字符型的物料名称按照空格进行切分，并存储在数组中；

S24：遍历数组：判断切分后的字符型的词语是否在记录中重复出现，如果是重复出现，则将该词语的频率加1；如果第一次出现，则将该词语的词语频率设置为1；遍历完成后，将切分后的字符型的词语的词语频率存储在词频键值对数组中；

S25：将切分后全部字符型的词语存储在切分词语键值对数组中。

优选地，所述步骤S2中统计文本频率包括：

S26：通过切分词语键值对数组创建词语集，创建被去掉的词语集合；

S27：对词语集进行遍历，并创建一个用来存储该词语在全部记录中出现次数的变量，将变量的初始值设置为0；

S28：对记录列表进行遍历：并判断记录列表中每个被切分词语，并将每个词语出现的次数在变量上叠加得到每个词语的变量值，遍历完成后，如果没有含有这个词语的记录，则将这个词语存储到被去掉的词语集合中；

S29：将每个词语的变量值存储到词频键值对数组中，并将存储该词语在全部记录列表中出现次数的变量设置为0；

S30：将存储到被去掉的词语集合中的词语从切分词语键值对数组中删除。

优选地，所述步骤S2中计算出词语的tfidf值包括：

S31：创建tfidf值的键值对数组；

S32：遍历词语集：从词频键值对数组获取存储词语在全部切分词语中出现词频A，从变量中获取存储词语在全部记录中出现文本频率B；

S33：通过公式A*Math.log(total/B)/Math.log(2.0)计算得到存储词语的tfidf值，其中total表示全部记录数，将存储词语存和其tfidf值存入tfidf值的键值对数组中；

S34：遍历tfidf值的键值对数组：依次比较记录列表中每一个记录物料信息的切分词语的tfidf值，计算得到切分词语中的最大值，将这个值对应的词语作为该条记录的分类词存储在一个表单。

有益效果为：

1、本发明主要是利用了在生物信息学领域中广泛使用的相似度比较算法来对于任意两个字符串进行相似度比较，然后再设定一个经过实验比较后得到的阈值，与计算的相似度比较。如果相似度在阈值以上，则认为两个记录是相似重复的，将其聚合到一起显示，如果在阈值以下，则认为两个记录不是相似重复的。并且在提取分类词以后将词语进行拼音化，能够避免在分类词出现谐音字错误的情况下没有办法被聚合到一起这种现象。从而提高了聚合的准确性。本发明利用了在信息检索领域中得到广泛使用的基于词频和逆文本频率方法，提取出每条记录的关键字，然后根据关键字来对整个文本进行划分。这样既完成了对于大文本的切分，也完成了文本内的相似记录聚合。

2、将数据进行切分，将大文本打散成为小文本，然后再将小文本分别放置在不同的计算单元，再在小的计算单元内进行计算，这样可以很大程度地缩减计算时间，从而使得大数据量级的操作可以在短时间周期内完成。利用并行计算，使得切分的数据可以在不同的计算单元内同时计算，然后将结果进行聚合。从而使得整个算法达到了一个很理想的性能。

附图说明

图1是一种用于大数据清洗的快速数据聚合方法整体流程图；

图2是步骤S2中对字符型的物料名称进行切分并统计词频方法流程图；

图3是步骤S2中统计文本频率方法流程图；

图4是步骤S2中计算出词语的tfidf值方法流程图；

图5是传统融合方法结果集示意图；

图6是本发明的融合方法结果集示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，在本发明的描述中，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

另外，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示一种用于大数据清洗的快速数据聚合方法，包括以下步骤：

S2：对大数据文本进行切分：对字符型的物料名称进行切分并统计词频，统计文本频率，并通过公式A*Math.log(total/B)/Math.log(2.0)计算出词语的tfidf 值，选择tf-idf值最大的词语作为该记录的分类词；将全部带有分类词标识的记录存储在一个表单当中；

如图2所示步骤S2中对字符型的物料名称进行切分并统计词频包括：

S21：创建词频键值对数组和切分词语键值对数组；

如图3所示步骤S2中统计文本频率包括：

如图4所示步骤S2中计算出词语的tfidf值包括：

S31：创建tfidf值的键值对数组；

本发明经过真实的工业数据进行测试，对比了性能和准确性两个方面。首先是性能方面，对比于传统的两两记录相似度比较的方法和截取部分文本的相似度比较方法，算法性能明显占优，尤其是在数据量级增大的情况下，算法性能的优势越明显。在200行记录的情况下，传统方法的算法时长为359毫秒，截取部分文本的算法时长为37毫秒，该算法的算法时长为82毫秒；在1000行记录的情况下，传统方法的算法时长为7579毫秒，截取部分文本的算法时长为 1419毫秒，该算法的算法时长为219毫秒；在10000行记录的情况下，传统方法的算法时长为1622700毫秒，截取部分文本的算法时长为658292毫秒，该算法的算法时长为7051毫秒。可以看到在算法性能上该算法的优势所在。在算法准确性上，如图5所示是阈值设定在0.8时，经过传统的两两记录相似度比较的方法聚合在一起以后的结果集。通过集合中的结果，可以发现算法虽然将相似重复的记录聚合到一起，并且对于图中标示出的例如“网式滤油器XRXTA乳化液箱WU-250×630J-W2”和“网式滤油漆XRXTA乳化液箱WU-250×630J-W2”这一对看似相同，但其中存在录入错误的数据进行了聚合。但是，对于字符长度较短，可能因为录入错误而导致的相似重复记录并没有很好地进行聚合。如图中标示出的例如“滤油漆-01”和“滤油器-02”这一对记录；对于由于录入错误，而记录空缺过长这种现象，也并没有很好的聚合。如图中标示出的例如“网式滤油器XRXTA乳化液箱”和“网式滤油器XRXTA乳化液箱WU-250×630J-W2”这一对记录，对于这种应属于相同类别，只是由于录入错误而缺少过多字符，但在传统相似聚合算法中并没有将这种结果聚合到一起。如图6所示，是经过本发明计算后所得到的结果集。通过集合中的结果，可以发现相对于传统方法，本发明所提出的方法，可以更有效地解决上面所提到的问题。提高了相似聚合的准确性。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种用于大数据清洗的快速数据聚合方法，其特征在于，包括以下步骤：

S1：数据读取：原有的数据是在Excel中存储的，利用文件流的形式读取出Excel中的数据信息，根据数据的格式，将读取出来的数据信息存储在记录列表中，最后返回一个记录列表，所述记录列表为自定义类，主要包含字符型的物料编号，字符型的物料名称，字符型的分类词；

S2：对大数据文本进行切分：对字符型的物料名称进行切分并统计词频，统计文本频率；S31：创建tfidf值的键值对数组；S32：遍历词语集：从词频键值对数组获取存储词语在全部切分词语中出现词频A，从变量中获取存储词语在全部记录中出现文本频率B；S33：通过公式A*Math.log(total/B)/Math.log(2.0)计算得到存储词语的tfidf值，其中total表示全部记录数，将存储词语存和其tfidf值存入tfidf值的键值对数组中；S34：遍历tfidf值的键值对数组：依次比较记录列表中每一个记录物料信息的切分词语的tfidf值，计算得到切分词语中的最大值，将这个值对应的词语作为该条记录的分类词存储在一个表单；

2.根据权利要求1所述的一种用于大数据清洗的快速数据聚合方法，其特征在于，所述步骤S2中对字符型的物料名称进行切分并统计词频包括：

S21：创建词频键值对数组和切分词语键值对数组；

S23：对去掉符号后的字符型的词语按照空格进行切分，并存储在数组中；

S24：遍历数组：对数组进行遍历，然后判断切分后的每一个字符型的词语是否在记录中重复出现，如果是重复出现，则将该词语的频率加1；如果第一次出现，则将该词语的词语频率设置为1；遍历完成后，将切分后的字符型的词语的词语频率存储在词频键值对数组中；

3.根据权利要求2所述的一种用于大数据清洗的快速数据聚合方法，其特征在于，所述步骤S2中统计文本频率包括：