CN116432064B

CN116432064B - 一种数据预处理系统及方法

Info

Publication number: CN116432064B
Application number: CN202310204647.5A
Authority: CN
Inventors: 綦琳
Original assignee: Beijing Chexun Internet Co ltd
Current assignee: Beijing Chexun Internet Co ltd
Priority date: 2023-03-06
Filing date: 2023-03-06
Publication date: 2023-10-27
Anticipated expiration: 2043-03-06
Also published as: CN116432064A

Abstract

一种数据预处理系统及方法，包括原始数据输入端、数据预处理端和已处理数据保存端，原始数据输入端用于获取未处理数据，包括数据保存备份模块以及数据分类模块，再将获取的未处理数据输入到数据预处理端，数据预处理端根据不同数据采取不同深度的数据预处理方法，将处理前和处理后的数据输入到已处理数据保存端进行对比分析。本发明采用平滑滤波处理对多个数据进行均匀化处理，并将处理结果代替真实值，再对数据进行K‑特征值聚类迭代处理，在关联度最高的分类中再选取用于数据聚类分析的相似数据，能为各类实验提供数据预处理方法，以及在大数据时代提供一定数据预处理算法理论模型。

Description

一种数据预处理系统及方法

技术领域

本发明创造涉及大数据处理领域，具体涉及一种数据预处理系统及方法。

背景技术

随着社会信息化建设的加快，社会中的各个行业有大量应用层面的数据，数据信息量的增大使得数据挖掘的难度也随之增大，如何在数据中提取到有价值的知识和信息并应用到实际中去，已经成为整个数据挖掘和分析领域的研究热点之一，为确保数据分析更好的实现，首先要确保数据本身的质量，高质量的数据可保证数据挖掘的价值最大化，要获得高质量的数据不仅在采集数据的时候要准确，同时在进行数据预处理时也必须进行精确处理，可为我们在数据对比分析工作展开上打下良好的基础。

数据预处理工作是数据挖掘、数据分析和对比中相当重要的一环，若要获取到有效信息，就需要干净、准确、高质量的数据作为支撑，因此在数据挖掘中数据预处理工作对数据质量问题的解决主要分两个方面，一方面是因为测量误差导致数据出现问题；另一方面是数据收集错误而导致的问题，提出一种基于机器学习的K-特征值聚类算法与均值平滑滤波相结合的数据预处理方法和系统，通过数据预处理框架处理过的数据能够达到机器学习算法的数据要求，再通过K-特征值聚类算法使用对数据进行进一步整合与优化，使之得到可实际分析及应用的数据，再通过平滑滤波处理剔除异常值，其本质是滤除因补零带来的镜像分量，并对低频幅度进行补偿，该功能可以通过低通滤波器进行实现，选择合适的设计指标，可灵活的实现高平坦度且高衰减的滤波功能，从而达到快速高效选取相似值，精准有效去除噪声数据，形成高质量的训练集代入预测模型的目的。

发明内容

针对上述问题，本发明旨在提供一种数据预处理系统及方法。

本发明创造的目的通过以下技术方案实现：

一种数据预处理系统及方法，包括原始数据输入端、数据预处理端和已处理数据保存端，原始数据输入端用于获取未处理数据，包括数据保存备份模块以及数据分类模块，分别将原始数据进行保存后再根据处理数据类型进行标记和分类，以便后续根据标签进行数据处理，之后原始数据输入端再将获取的未处理数据输入到数据预处理端，我们初步获得的测量数据通常包括噪声、测量准确性的问题，一般的数据收集出现问题就是遗漏了数据对象该有的属性值，或者是把其它错误的数据对象包含在内，主要包含了重复值、离群值、缺失值和不一致的值，因此我们必须进行数据处理，该说明中数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块，数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理，从而降低原始数据的敏感度，再将脱敏后的数据输入平滑滤波处理模块，平滑滤波处理模块用于对多个数据进行均匀化处理，并将其结果作为拟合值替代真实数据，最后将数据输入到特征值迭代处理模块，特征值迭代处理模块对接收到的数据进行特征值迭代，找到关联度最高的特征值，从而对不同关联度的数据分别进行处理，针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值，因此根据不同的关联程度，从而采取不同深度的数据预处理方法，并将处理前和预处理后数据的输入到已处理数据保存端，已处理数据保存端主要对已处理后的数据进行保存，并用数据对比分析模块将已处理数据和原始数据进行对比分析，从而获得理想的处理后的数据。

进一步的，数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理，从而降低原始数据的敏感度。

进一步的，平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波，并采用相似度特征值迭代算法确定关联度中心，选取数据聚类中心进行数据处理。

进一步的，采用下列方法在滤波时确定衰减域以及误差范围，并选取一个特征值并对所有数据进行反复迭代，找到关联度最高的特征值。

进一步的，采用K-特征值聚类算法选取初始聚类中心：

设表示聚类中心/>在/>时刻的标准相邻集合，且，其中，/>和/>分别表示聚类中心/>和聚类中心在/>时刻的聚类素值，设/>和/>分别表示聚类中心/>和聚类中心/>在/>时刻的位置，表示位置/>和/>之间的欧式距离，且/>，/>表示聚类中心/>在/>时刻的决策域半径；

定义表示聚类中心/>在/>时刻的相邻检测系数，且/>的值为：，其中，/>表示聚类中心/>在/>时刻的位置，且/>，/>表示标准相邻集合/>中的聚类中心数。

进一步的，定义表示标准相邻集合/>中聚类中心的寻优等级统计系数，在/>时刻对种群中聚类中心进行寻优等级划分，设/>表示位置/>的适应度函数值，当聚类中心/>在/>时刻满足：/>时，则将聚类中心/>在/>时刻的寻优等级记为/>，当聚类中心/>在/>时刻满足：/>时，则将聚类中心/>在/>时刻的寻优等级记为/>，其中，/>表示种群中聚类中心在/>时刻的适应度函数均值，则/>的值为：，其中，/>表示聚类中心/>在/>时刻的寻优等级取值系数，当聚类中心在/>时刻的寻优等级为/>时，则/>的值取/>，当聚类中心/>在/>时刻的寻优等级为/>时，则/>的值取/>；

进一步的，设表示聚类中心/>在/>时刻的最终相邻集合，当标准相邻集合中聚类中心满足：/>或/>时，则令/>，其中，/>为给定的寻优等级统计阈值，且/>，/>表示聚类中心/>在/>时刻的相邻检测阈值，且；当标准相邻集合/>中聚类中心满足：/>且/>时，首先将标准相邻集合/>中的聚类中心都加入到集合/>中，并继续采用下列步骤在种群中选取聚类中心加入到集合/>中，具体包括：定义/>表示聚类中心/>加入集合的收益值，且/>的表达式为：

式中，表示聚类中心/>在/>时刻的位置，且/>，表示判断函数，且，/>表示聚类中心/>在/>时刻的方向引导系数，且/>，其中，/>表示聚类中心/>在/>时刻的标准相邻集合，/>表示标准相邻集合/>中聚类中心的寻优等级统计系数，设表示聚类中心/>在/>时刻的标准相邻集合，则/>表示标准相邻集合/>中聚类中心的寻优等级统计系数，/>表示标准相邻集合/>中的聚类中心数，根据种群中不属于标准相邻集合/>的聚类中心加入集合/>的收益值选取聚类中心加入集合/>中，具体包括：当种群中不属于标准相邻集合/>的聚类中心加入集合/>的收益值都小于/>时，则令/>；当种群中不属于标准相邻集合/>的聚类中心加入集合的收益值都等于/>时，则采用下列方式在种群中选取聚类中心加入集合/>中：当聚类中心/>满足：/>时，则将聚类中心/>加入集合/>中，当种群中存在不属于标准相邻集合/>的聚类中心加入集合/>的收益值大于/>时，则采用下列步骤在种群中选取聚类中心加入集合/>中：当聚类中心/>满足：时，则将聚类中心/>加入到集合/>中，其中，/>表示收益值/>的判断系数，当/>时，则/>，当/>时，则/>。

本发明创造的有益效果：数据预处理是大数据时代进行数据分析和应用等最有研究价值的研究内容之一，针对创新资源进行数据预处理可以给从业人员提出新决策、新思路、新可能、新挑战，从而为预测未来创新发展趋势提供更多的可能性，同时，能够准确判断创新所需的基本条件以及创新资源的及时性，在大数据时代，进行数据预处理工作，可以帮助获取高品质数据，数据预处理工作可以根据实际继续改进和优化，充分的展现其实用性能，同时可以根据不同的场景进行智能识别并匹配应用，数据应用和分析过程中的第一部分内容就是数据预处理工作，这也是整个过程中的最重要的环节，通过报告表明，数据预处理环节能达到完整的数据挖掘的六七成，因此，保证数据的真实性和可靠性是数据预处理的基本任务，这样才能更加高效的进行下一步工作，达到改良数据品质的效果，将数据中的噪声消除，归还数据的完整性，无论对于个人的实验数据处理还是实际生活中的应用，数据预处理工作对于大数据时代都具有重要意义和实际的使用价值。

附图说明

利用附图对发明创造作进一步说明，但附图中的实施例不构成对本发明创造的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本发明结构示意图。

具体实施方式

结合以下实施例对本发明作进一步描述。

参见图1，本实施例的一种数据预处理系统及方法，包括原始数据输入端、数据预处理端和已处理数据保存端，原始数据输入端用于获取未处理数据，包括数据保存备份模块以及数据分类模块，分别将原始数据进行保存后再根据处理数据类型进行标记和分类，以便后续根据标签进行数据处理，之后原始数据输入端再将获取的未处理数据输入到数据预处理端，我们初步获得的测量数据通常包括噪声、测量准确性的问题，一般的数据收集出现问题就是遗漏了数据对象该有的属性值，或者是把其它错误的数据对象包含在内，主要包含了重复值、离群值、缺失值和不一致的值，因此我们必须进行数据处理，该说明中数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块，数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理，从而降低原始数据的敏感度，再将脱敏后的数据输入平滑滤波处理模块，平滑滤波处理模块用于对多个数据进行均匀化处理，并将其结果作为拟合值替代真实数据，最后将数据输入到特征值迭代处理模块，特征值迭代处理模块对接收到的数据进行特征值迭代，找到关联度最高的特征值，从而对不同关联度的数据分别进行处理，针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值，因此根据不同的关联程度，从而采取不同深度的数据预处理方法，并将处理前和预处理后数据的输入到已处理数据保存端，已处理数据保存端主要对已处理后的数据进行保存，并用数据对比分析模块将已处理数据和原始数据进行对比分析，从而获得理想的处理后的数据。

优选的，数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理，从而降低原始数据的敏感度。

具体的，平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波，并采用相似度特征值迭代算法确定关联度中心，选取数据聚类中心进行数据处理。

优选的，采用下列方法在滤波时确定衰减域以及误差范围，并选取一个特征值并对所有数据进行反复迭代，找到关联度最高的特征值。

优选的，采用K-特征值聚类算法选取初始聚类中心：

定义表示聚类中心/>在/>时刻的相邻检测系数，且/>的值为：，其中，/>表示聚类中心/>在/>时刻的位置，且/>，/>表示标准相邻集合/>中的聚类中心数；

优选的，定义表示标准相邻集合/>中聚类中心的寻优等级统计系数，在/>时刻对种群中聚类中心进行寻优等级划分，设/>表示位置/>的适应度函数值，当聚类中心/>在/>时刻满足：/>时，则将聚类中心/>在/>时刻的寻优等级记为/>，当聚类中心/>在/>时刻满足：/>时，则将聚类中心/>在/>时刻的寻优等级记为/>，其中，/>表示种群中聚类中心在/>时刻的适应度函数均值，则/>的值为：，其中，/>表示聚类中心/>在/>时刻的寻优等级取值系数，当聚类中心在/>时刻的寻优等级为/>时，则/>的值取/>，当聚类中心/>在/>时刻的寻优等级为/>时，则/>的值取/>。

优选的，设表示聚类中心/>在/>时刻的最终相邻集合，当标准相邻集合/>中聚类中心满足：/>或/>时，则令/>，其中，/>为给定的寻优等级统计阈值，且/>，/>表示聚类中心/>在/>时刻的相邻检测阈值，且；当标准相邻集合/>中聚类中心满足：/>且/>时，首先将标准相邻集合/>中的聚类中心都加入到集合/>中，并继续采用下列步骤在种群中选取聚类中心加入到集合/>中，具体包括：定义/>表示聚类中心/>加入集合的收益值，且/>的表达式为：

具体的，数据会存在重复值、缺失值、异常值等不符合数据挖掘研究的问题，当前商业应用、科学、工业和学术界中的数据量不断增长，这就需要更复杂的技术手段对其进行分析，通过数据预处理，可以将不符合要求的问题数据处理为高质量数据，由于数据预处理过程中必要步骤多且处理过程繁杂，因此需要耗费巨大的管理空间，同时，我们会通过特征选择、实例选择或离散化过程来降低数据的复杂性，从数据中检测或删除不相关且有噪声的属性，在准确的执行数据预处理过程之后，预期得到的数据是比较理想，可以应用到实际的工作或决策中，对于不同的数据分析和应用技术也应达到同样的效果，针对医学机构，医学数据的分析对医生来说是给病人治疗的重要手段，通过这些数据的研究可以开发应对变异病种的新型药品，所以通过数据分析发现的隐藏信息，会给医生带来特定的指导建议，达到早发现早治疗的目的，减轻病人的痛苦，针对教育教学，利用学校信息中心积累的数据，例如通过对学生学习成绩数据的展开，可以发现学生的成绩数据能够体现其学业状态，这样对老师来说，可以及时对学习成绩差的学生进行辅导，来提升学业状态，针对私有企业和国有企业来说，工作中会有各种的数据，利用数据挖掘工作可以很好的帮助企业管理这些资源，面对用户提出的针对问题，可以提供最合适的解决方案，也可以为特定客户设计出最合适的销售策略和推广方式，企业也可以通过数据挖掘找到更适合企业的应聘者，并分析出其适合的岗位，在大数据时代，随着工程发展、研发及运用日渐普遍的时候，其研究对象变得以实时数据居多，例如餐饮、购物、影音等产生的实时数据，然而，这些数据大多数都是“问题数据”，且大多数具有重复的记录、丢失的信息、甚至是噪声数据等问题，但是这些数据依旧是分析工作珍贵的资源，再进行数据预处理工作，可以帮助获取高品质数据，从而帮助我们个人或者单位等完成数据分析和应用。

最后应当说明的是，以上实施例仅用以说明本发明的技术方案，而非对本发明保护范围的限制，尽管参照较佳实施例对本发明作了详细地说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的实质和范围。

Claims

1.一种数据预处理系统，其特征在于，包括原始数据输入端、数据预处理端和已处理数据保存端，原始数据输入端用于获取未处理数据，包括数据保存备份模块以及数据分类模块，分别将原始数据进行保存后再根据处理数据类型进行标记和分类，以便后续根据标签进行数据处理，之后原始数据输入端再将获取的未处理数据输入到数据预处理端，数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块，数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理，从而降低原始数据的敏感度，再将脱敏后的数据输入平滑滤波处理模块，平滑滤波处理模块用于对多个数据进行均匀化处理，并将其结果作为拟合值替代真实数据，最后将数据输入到特征值迭代处理模块，特征值迭代处理模块对接收到的数据进行特征值迭代，找到关联度最高的特征值，从而对不同关联度的数据分别进行处理，针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值，因此根据不同的关联程度，从而采取不同深度的数据预处理方法，并将处理前和预处理后数据的输入到已处理数据保存端，已处理数据保存端主要对已处理后的数据进行保存，并用数据对比分析模块将已处理数据和原始数据进行对比分析，从而获得理想的处理后的数据；所述数据预处理系统针对医学数据预处理；

平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波，并采用相似度特征值迭代算法确定关联度中心，选取数据聚类中心进行数据处理；

采用下列方法在滤波时确定衰减域以及误差范围，并选取一个特征值并对所有数据进行反复迭代，找到关联度最高的特征值：

采用K-特征值聚类算法选取初始聚类中心；

所述采用K-特征值聚类算法选取初始聚类中心包括：

设N_i(t)表示聚类中心i在t时刻的标准相邻集合，且其中，l_i(t)和l_j(t)分别表示聚类中心i和聚类中心j在t时刻的聚类素值，设x_i(t)和x_j(t)分别表示聚类中心i和聚类中心j在t时刻的位置，d_i,j(t)表示位置x_i(t)和x_j(t)之间的欧式距离，且d_i,j(t)＝||x_i(t)-x_j(t)||，/>表示聚类中心i在t时刻的决策域半径；

定义C_i(t)表示聚类中心i在t时刻的相邻检测系数，且C_i(t)的值为：其中，x_a(t)表示聚类中心a在t时刻的位置，且a≠j，M_i(t)表示标准相邻集合N_i(t)中的聚类中心数；

定义H_i(t)表示标准相邻集合N_i(t)中聚类中心的寻优等级统计系数，在t时刻对种群中聚类中心进行寻优等级划分，设J(x_i(t))表示位置x_i(t)的适应度函数值，当聚类中心i在t时刻满足：时，则将聚类中心i在t时刻的寻优等级记为1，当聚类中心i在t时刻满足：/>时，则将聚类中心i在t时刻的寻优等级记为2，其中，/>表示种群中聚类中心在t时刻的适应度函数均值，则H_i(t)的值为：/>其中，ρ_j(t)表示聚类中心j在t时刻的寻优等级取值系数，当聚类中心j在t时刻的寻优等级为1时，则ρ_j(t)的值取1，当聚类中心j在t时刻的寻优等级为2时，则ρ_j(t)的值取0；

设N'_i(t)表示聚类中心i在t时刻的最终相邻集合，当标准相邻集合N_i(t)中聚类中心满足：H_i(t)>H或C_i(t)>T_i(t)时，则令N'_i(t)＝N_i(t)，其中，H为给定的寻优等级统计阈值，且0<H<1，T_i(t)表示聚类中心i在t时刻的相邻检测阈值，且当标准相邻集合N_i(t)中聚类中心满足：H_i(t)≤H且C_i(t)≤T_i(t)时，首先将标准相邻集合N_i(t)中的聚类中心都加入到集合N'_i(t)中，并继续采用下列步骤在种群中选取聚类中心加入到集合N'_i(t)中，具体包括：定义Y_i,k(t)表示聚类中心k加入集合N'_i(t)的收益值，且Y_i,k(t)的表达式为：

式中，x_k(t)表示聚类中心k在t时刻的位置，且表示判断函数，且/> F_k(t)表示聚类中心k在t时刻的方向引导系数，且/>其中，N_k(t)表示聚类中心k在t时刻的标准相邻集合，H_k(t)表示标准相邻集合N_k(t)中聚类中心的寻优等级统计系数，设N_b(t)表示聚类中心b在t时刻的标准相邻集合，则H_b(t)表示标准相邻集合N_b(t)中聚类中心的寻优等级统计系数，M_k(t)表示标准相邻集合N_k(t)中的聚类中心数，根据种群中不属于标准相邻集合N_i(t)的聚类中心加入集合N'_i(t)的收益值选取聚类中心加入集合N'_i(t)中，具体包括：当种群中不属于标准相邻集合N_i(t)的聚类中心加入集合N'_i(t)的收益值都小于0时，则令N'_i(t)＝N_i(t)；当种群中不属于标准相邻集合N_i(t)的聚类中心加入集合N'_i(t)的收益值都等于0时，则采用下列方式在种群中选取聚类中心加入集合N'_i(t)中：当聚类中心k满足：/> 时，则将聚类中心k加入集合N'_i(t)中，当种群中存在不属于标准相邻集合N_i(t)的聚类中心加入集合N'_i(t)的收益值大于0时，则采用下列步骤在种群中选取聚类中心加入集合N'_i(t)中：当聚类中心k满足：时，则将聚类中心k加入到集合N'_i(t)中，其中，η_i,k(t)表示收益值Y_i,k(t)的判断系数，当Y_i,k(t)>0时，则η_i,k(t)＝1，当Y_i,k(t)≤0时，则η_i,k(t)＝0。

2.根据权利要求1所述的一种数据预处理系统，其特征在于，数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理，从而降低原始数据的敏感度。

3.使用权利要求1或2所述的数据预处理系统进行数据处理的方法。