CN116432064A - 一种数据预处理系统及方法 - Google Patents

一种数据预处理系统及方法 Download PDF

Info

Publication number
CN116432064A
CN116432064A CN202310204647.5A CN202310204647A CN116432064A CN 116432064 A CN116432064 A CN 116432064A CN 202310204647 A CN202310204647 A CN 202310204647A CN 116432064 A CN116432064 A CN 116432064A
Authority
CN
China
Prior art keywords
data
cluster center
center
representing
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310204647.5A
Other languages
English (en)
Other versions
CN116432064B (zh
Inventor
綦琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chexun Internet Co ltd
Original Assignee
Beijing Chexun Internet Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chexun Internet Co ltd filed Critical Beijing Chexun Internet Co ltd
Priority to CN202310204647.5A priority Critical patent/CN116432064B/zh
Publication of CN116432064A publication Critical patent/CN116432064A/zh
Application granted granted Critical
Publication of CN116432064B publication Critical patent/CN116432064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据预处理系统及方法,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,再将获取的未处理数据输入到数据预处理端,数据预处理端根据不同数据采取不同深度的数据预处理方法,将处理前和处理后的数据输入到已处理数据保存端进行对比分析。本发明采用平滑滤波处理对多个数据进行均匀化处理,并将处理结果代替真实值,再对数据进行K‑特征值聚类迭代处理,在关联度最高的分类中再选取用于数据聚类分析的相似数据,能为各类实验提供数据预处理方法,以及在大数据时代提供一定数据预处理算法理论模型。

Description

一种数据预处理系统及方法
技术领域
本发明创造涉及大数据处理领域,具体涉及一种数据预处理系统及方法。
背景技术
随着社会信息化建设的加快,社会中的各个行业有大量应用层面的数据,数据信息量的增大使得数据挖掘的难度也随之增大,如何在数据中提取到有价值的知识和信息并应用到实际中去,已经成为整个数据挖掘和分析领域的研究热点之一,为确保数据分析更好的实现,首先要确保数据本身的质量,高质量的数据可保证数据挖掘的价值最大化,要获得高质量的数据不仅在采集数据的时候要准确,同时在进行数据预处理时也必须进行精确处理,可为我们在数据对比分析工作展开上打下良好的基础。
数据预处理工作是数据挖掘、数据分析和对比中相当重要的一环,若要获取到有效信息,就需要干净、准确、高质量的数据作为支撑,因此在数据挖掘中数据预处理工作对数据质量问题的解决主要分两个方面,一方面是因为测量误差导致数据出现问题;另一方面是数据收集错误而导致的问题,提出一种基于机器学习的K-特征值聚类算法与均值平滑滤波相结合的数据预处理方法和系统,通过数据预处理框架处理过的数据能够达到机器学习算法的数据要求,再通过K-特征值聚类算法使用对数据进行进一步整合与优化,使之得到可实际分析及应用的数据,再通过平滑滤波处理剔除异常值,其本质是滤除因补零带来的镜像分量,并对低频幅度进行补偿,该功能可以通过低通滤波器进行实现,选择合适的设计指标,可灵活的实现高平坦度且高衰减的滤波功能,从而达到快速高效选取相似值,精准有效去除噪声数据,形成高质量的训练集代入预测模型的目的。
发明内容
针对上述问题,本发明旨在提供一种数据预处理系统及方法。
本发明创造的目的通过以下技术方案实现:
一种数据预处理系统及方法,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,分别将原始数据进行保存后再根据处理数据类型进行标记和分类,以便后续根据标签进行数据处理,之后原始数据输入端再将获取的未处理数据输入到数据预处理端,我们初步获得的测量数据通常包括噪声、测量准确性的问题,一般的数据收集出现问题就是遗漏了数据对象该有的属性值,或者是把其它错误的数据对象包含在内,主要包含了重复值、离群值、缺失值和不一致的值,因此我们必须进行数据处理,该说明中数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块,数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度,再将脱敏后的数据输入平滑滤波处理模块,平滑滤波处理模块用于对多个数据进行均匀化处理,并将其结果作为拟合值替代真实数据,最后将数据输入到特征值迭代处理模块,特征值迭代处理模块对接收到的数据进行特征值迭代,找到关联度最高的特征值,从而对不同关联度的数据分别进行处理,针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值,因此根据不同的关联程度,从而采取不同深度的数据预处理方法,并将处理前和预处理后数据的输入到已处理数据保存端,已处理数据保存端主要对已处理后的数据进行保存,并用数据对比分析模块将已处理数据和原始数据进行对比分析,从而获得理想的处理后的数据。
进一步的,数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度。
进一步的,平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波,并采用相似度特征值迭代算法确定关联度中心,选取数据聚类中心进行数据处理。
进一步的,采用下列方法在滤波时确定衰减域以及误差范围,并选取一个特征值并对所有数据进行反复迭代,找到关联度最高的特征值。
进一步的,采用K-特征值聚类算法选取初始聚类中心:
Figure SMS_8
表示聚类中心/>
Figure SMS_5
在/>
Figure SMS_16
时刻的标准相邻集合,且
Figure SMS_1
,其中,/>
Figure SMS_13
和/>
Figure SMS_3
分别表示聚类中心/>
Figure SMS_10
和聚类中心
Figure SMS_17
在/>
Figure SMS_21
时刻的聚类素值,设/>
Figure SMS_7
和/>
Figure SMS_11
分别表示聚类中心/>
Figure SMS_2
和聚类中心/>
Figure SMS_12
在/>
Figure SMS_14
时刻的位置,
Figure SMS_19
表示位置/>
Figure SMS_6
和/>
Figure SMS_9
之间的欧式距离,且/>
Figure SMS_18
,/>
Figure SMS_20
表示聚类中心/>
Figure SMS_4
在/>
Figure SMS_15
时刻的决策域半径;
定义
Figure SMS_23
表示聚类中心/>
Figure SMS_26
在/>
Figure SMS_30
时刻的相邻检测系数,且/>
Figure SMS_24
的值为:
Figure SMS_27
,其中,/>
Figure SMS_28
表示聚类中心/>
Figure SMS_31
在/>
Figure SMS_22
时刻的位置,且/>
Figure SMS_25
,/>
Figure SMS_29
表示标准相邻集合/>
Figure SMS_32
中的聚类中心数。
进一步的,定义
Figure SMS_36
表示标准相邻集合/>
Figure SMS_43
中聚类中心的寻优等级统计系数,在/>
Figure SMS_53
时刻对种群中聚类中心进行寻优等级划分,设/>
Figure SMS_35
表示位置/>
Figure SMS_47
的适应度函数值,当聚类中心/>
Figure SMS_55
在/>
Figure SMS_63
时刻满足:/>
Figure SMS_49
时,则将聚类中心/>
Figure SMS_56
在/>
Figure SMS_37
时刻的寻优等级记为/>
Figure SMS_41
,当聚类中心/>
Figure SMS_40
在/>
Figure SMS_45
时刻满足:/>
Figure SMS_54
时,则将聚类中心/>
Figure SMS_61
在/>
Figure SMS_34
时刻的寻优等级记为/>
Figure SMS_44
,其中,/>
Figure SMS_51
表示种群中聚类中心在/>
Figure SMS_58
时刻的适应度函数均值,则/>
Figure SMS_33
的值为:
Figure SMS_42
,其中,/>
Figure SMS_50
表示聚类中心/>
Figure SMS_62
在/>
Figure SMS_57
时刻的寻优等级取值系数,当聚类中心
Figure SMS_64
在/>
Figure SMS_38
时刻的寻优等级为/>
Figure SMS_48
时,则/>
Figure SMS_59
的值取/>
Figure SMS_65
,当聚类中心/>
Figure SMS_60
在/>
Figure SMS_66
时刻的寻优等级为/>
Figure SMS_46
时,则/>
Figure SMS_52
的值取/>
Figure SMS_39
进一步的,设
Figure SMS_70
表示聚类中心/>
Figure SMS_68
在/>
Figure SMS_77
时刻的最终相邻集合,当标准相邻集合
Figure SMS_72
中聚类中心满足:/>
Figure SMS_78
或/>
Figure SMS_83
时,则令/>
Figure SMS_87
,其中,/>
Figure SMS_85
为给定的寻优等级统计阈值,且/>
Figure SMS_88
,/>
Figure SMS_67
表示聚类中心/>
Figure SMS_80
在/>
Figure SMS_73
时刻的相邻检测阈值,且
Figure SMS_76
;当标准相邻集合/>
Figure SMS_82
中聚类中心满足:/>
Figure SMS_86
且/>
Figure SMS_69
时,首先将标准相邻集合/>
Figure SMS_75
中的聚类中心都加入到集合/>
Figure SMS_84
中,并继续采用下列步骤在种群中选取聚类中心加入到集合/>
Figure SMS_89
中,具体包括:定义/>
Figure SMS_71
表示聚类中心/>
Figure SMS_81
加入集合
Figure SMS_74
的收益值,且/>
Figure SMS_79
的表达式为:
Figure SMS_90
式中,
Figure SMS_124
表示聚类中心/>
Figure SMS_129
在/>
Figure SMS_134
时刻的位置,且/>
Figure SMS_126
Figure SMS_132
表示判断函数,且
Figure SMS_137
,/>
Figure SMS_141
表示聚类中心/>
Figure SMS_96
在/>
Figure SMS_101
时刻的方向引导系数,且/>
Figure SMS_112
,其中,/>
Figure SMS_118
表示聚类中心/>
Figure SMS_125
在/>
Figure SMS_130
时刻的标准相邻集合,/>
Figure SMS_135
表示标准相邻集合/>
Figure SMS_139
中聚类中心的寻优等级统计系数,设
Figure SMS_98
表示聚类中心/>
Figure SMS_100
在/>
Figure SMS_109
时刻的标准相邻集合,则/>
Figure SMS_119
表示标准相邻集合/>
Figure SMS_93
中聚类中心的寻优等级统计系数,/>
Figure SMS_102
表示标准相邻集合/>
Figure SMS_107
中的聚类中心数,根据种群中不属于标准相邻集合/>
Figure SMS_116
的聚类中心加入集合/>
Figure SMS_97
的收益值选取聚类中心加入集合/>
Figure SMS_105
中,具体包括:当种群中不属于标准相邻集合/>
Figure SMS_110
的聚类中心加入集合/>
Figure SMS_120
的收益值都小于/>
Figure SMS_95
时,则令/>
Figure SMS_104
;当种群中不属于标准相邻集合/>
Figure SMS_111
的聚类中心加入集合
Figure SMS_117
的收益值都等于/>
Figure SMS_92
时,则采用下列方式在种群中选取聚类中心加入集合/>
Figure SMS_99
中:当聚类中心/>
Figure SMS_113
满足:/>
Figure SMS_121
时,则将聚类中心/>
Figure SMS_123
加入集合/>
Figure SMS_128
中,当种群中存在不属于标准相邻集合/>
Figure SMS_133
的聚类中心加入集合/>
Figure SMS_138
的收益值大于/>
Figure SMS_91
时,则采用下列步骤在种群中选取聚类中心加入集合/>
Figure SMS_106
中:当聚类中心/>
Figure SMS_114
满足:
Figure SMS_122
时,则将聚类中心/>
Figure SMS_127
加入到集合/>
Figure SMS_131
中,其中,/>
Figure SMS_136
表示收益值/>
Figure SMS_140
的判断系数,当/>
Figure SMS_94
时,则/>
Figure SMS_103
,当/>
Figure SMS_108
时,则/>
Figure SMS_115
本发明创造的有益效果:数据预处理是大数据时代进行数据分析和应用等最有研究价值的研究内容之一,针对创新资源进行数据预处理可以给从业人员提出新决策、新思路、新可能、新挑战,从而为预测未来创新发展趋势提供更多的可能性,同时,能够准确判断创新所需的基本条件以及创新资源的及时性,在大数据时代,进行数据预处理工作,可以帮助获取高品质数据,数据预处理工作可以根据实际继续改进和优化,充分的展现其实用性能,同时可以根据不同的场景进行智能识别并匹配应用,数据应用和分析过程中的第一部分内容就是数据预处理工作,这也是整个过程中的最重要的环节,通过报告表明,数据预处理环节能达到完整的数据挖掘的六七成,因此,保证数据的真实性和可靠性是数据预处理的基本任务,这样才能更加高效的进行下一步工作,达到改良数据品质的效果,将数据中的噪声消除,归还数据的完整性,无论对于个人的实验数据处理还是实际生活中的应用,数据预处理工作对于大数据时代都具有重要意义和实际的使用价值。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种数据预处理系统及方法,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,分别将原始数据进行保存后再根据处理数据类型进行标记和分类,以便后续根据标签进行数据处理,之后原始数据输入端再将获取的未处理数据输入到数据预处理端,我们初步获得的测量数据通常包括噪声、测量准确性的问题,一般的数据收集出现问题就是遗漏了数据对象该有的属性值,或者是把其它错误的数据对象包含在内,主要包含了重复值、离群值、缺失值和不一致的值,因此我们必须进行数据处理,该说明中数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块,数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度,再将脱敏后的数据输入平滑滤波处理模块,平滑滤波处理模块用于对多个数据进行均匀化处理,并将其结果作为拟合值替代真实数据,最后将数据输入到特征值迭代处理模块,特征值迭代处理模块对接收到的数据进行特征值迭代,找到关联度最高的特征值,从而对不同关联度的数据分别进行处理,针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值,因此根据不同的关联程度,从而采取不同深度的数据预处理方法,并将处理前和预处理后数据的输入到已处理数据保存端,已处理数据保存端主要对已处理后的数据进行保存,并用数据对比分析模块将已处理数据和原始数据进行对比分析,从而获得理想的处理后的数据。
优选的,数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度。
具体的,平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波,并采用相似度特征值迭代算法确定关联度中心,选取数据聚类中心进行数据处理。
优选的,采用下列方法在滤波时确定衰减域以及误差范围,并选取一个特征值并对所有数据进行反复迭代,找到关联度最高的特征值。
优选的,采用K-特征值聚类算法选取初始聚类中心:
Figure SMS_149
表示聚类中心/>
Figure SMS_146
在/>
Figure SMS_151
时刻的标准相邻集合,且
Figure SMS_144
,其中,/>
Figure SMS_157
和/>
Figure SMS_159
分别表示聚类中心/>
Figure SMS_162
和聚类中心
Figure SMS_148
在/>
Figure SMS_150
时刻的聚类素值,设/>
Figure SMS_142
和/>
Figure SMS_156
分别表示聚类中心/>
Figure SMS_147
和聚类中心/>
Figure SMS_154
在/>
Figure SMS_155
时刻的位置,
Figure SMS_160
表示位置/>
Figure SMS_143
和/>
Figure SMS_152
之间的欧式距离,且/>
Figure SMS_158
,/>
Figure SMS_161
表示聚类中心/>
Figure SMS_145
在/>
Figure SMS_153
时刻的决策域半径;
定义
Figure SMS_164
表示聚类中心/>
Figure SMS_168
在/>
Figure SMS_170
时刻的相邻检测系数,且/>
Figure SMS_165
的值为:
Figure SMS_166
,其中,/>
Figure SMS_169
表示聚类中心/>在/>
Figure SMS_163
时刻的位置,且/>
Figure SMS_167
,/>
Figure SMS_171
表示标准相邻集合/>
Figure SMS_172
中的聚类中心数;
优选的,定义
Figure SMS_179
表示标准相邻集合/>
Figure SMS_174
中聚类中心的寻优等级统计系数,在/>
Figure SMS_189
时刻对种群中聚类中心进行寻优等级划分,设/>
Figure SMS_178
表示位置/>
Figure SMS_184
的适应度函数值,当聚类中心/>
Figure SMS_176
在/>
Figure SMS_187
时刻满足:/>
Figure SMS_190
时,则将聚类中心/>
Figure SMS_200
在/>
Figure SMS_177
时刻的寻优等级记为/>
Figure SMS_183
,当聚类中心/>
Figure SMS_181
在/>
Figure SMS_186
时刻满足:/>
Figure SMS_193
时,则将聚类中心/>
Figure SMS_201
在/>
Figure SMS_198
时刻的寻优等级记为/>
Figure SMS_207
,其中,/>
Figure SMS_199
表示种群中聚类中心在/>
Figure SMS_206
时刻的适应度函数均值,则/>
Figure SMS_180
的值为:
Figure SMS_188
,其中,/>
Figure SMS_197
表示聚类中心/>
Figure SMS_205
在/>
Figure SMS_196
时刻的寻优等级取值系数,当聚类中心
Figure SMS_204
在/>
Figure SMS_182
时刻的寻优等级为/>
Figure SMS_191
时,则/>
Figure SMS_194
的值取/>
Figure SMS_202
,当聚类中心/>
Figure SMS_195
在/>
Figure SMS_203
时刻的寻优等级为/>
Figure SMS_185
时,则/>
Figure SMS_192
的值取/>
Figure SMS_175
优选的,设
Figure SMS_226
表示聚类中心/>
Figure SMS_215
在/>
Figure SMS_222
时刻的最终相邻集合,当标准相邻集合/>
Figure SMS_225
中聚类中心满足:/>
Figure SMS_229
或/>
Figure SMS_227
时,则令/>
Figure SMS_230
,其中,/>
Figure SMS_214
为给定的寻优等级统计阈值,且/>
Figure SMS_216
,/>
Figure SMS_208
表示聚类中心/>
Figure SMS_219
在/>
Figure SMS_209
时刻的相邻检测阈值,且
Figure SMS_220
;当标准相邻集合/>
Figure SMS_212
中聚类中心满足:/>
Figure SMS_218
且/>
Figure SMS_211
时,首先将标准相邻集合/>
Figure SMS_221
中的聚类中心都加入到集合/>
Figure SMS_224
中,并继续采用下列步骤在种群中选取聚类中心加入到集合/>
Figure SMS_228
中,具体包括:定义/>
Figure SMS_210
表示聚类中心/>
Figure SMS_223
加入集合
Figure SMS_213
的收益值,且/>
Figure SMS_217
的表达式为:
Figure SMS_231
式中,
Figure SMS_238
表示聚类中心/>
Figure SMS_245
在/>
Figure SMS_252
时刻的位置,且/>
Figure SMS_260
Figure SMS_268
表示判断函数,且
Figure SMS_273
,/>
Figure SMS_278
表示聚类中心/>
Figure SMS_233
在/>
Figure SMS_243
时刻的方向引导系数,且/>
Figure SMS_251
,其中,/>
Figure SMS_259
表示聚类中心/>
Figure SMS_234
在/>
Figure SMS_240
时刻的标准相邻集合,/>
Figure SMS_250
表示标准相邻集合/>
Figure SMS_257
中聚类中心的寻优等级统计系数,设
Figure SMS_237
表示聚类中心/>
Figure SMS_244
在/>
Figure SMS_253
时刻的标准相邻集合,则/>
Figure SMS_261
表示标准相邻集合/>
Figure SMS_235
中聚类中心的寻优等级统计系数,/>
Figure SMS_241
表示标准相邻集合/>
Figure SMS_249
中的聚类中心数,根据种群中不属于标准相邻集合/>
Figure SMS_256
的聚类中心加入集合/>
Figure SMS_239
的收益值选取聚类中心加入集合/>
Figure SMS_242
中,具体包括:当种群中不属于标准相邻集合/>
Figure SMS_248
的聚类中心加入集合/>
Figure SMS_258
的收益值都小于/>
Figure SMS_264
时,则令/>
Figure SMS_269
;当种群中不属于标准相邻集合/>
Figure SMS_274
的聚类中心加入集合
Figure SMS_279
的收益值都等于/>
Figure SMS_265
时,则采用下列方式在种群中选取聚类中心加入集合/>
Figure SMS_271
中:当聚类中心/>
Figure SMS_276
满足:/>
Figure SMS_281
时,则将聚类中心/>
Figure SMS_266
加入集合/>
Figure SMS_270
中,当种群中存在不属于标准相邻集合/>
Figure SMS_275
的聚类中心加入集合/>的收益值大于/>
Figure SMS_232
时,则采用下列步骤在种群中选取聚类中心加入集合/>
Figure SMS_247
中:当聚类中心/>
Figure SMS_255
满足:
Figure SMS_263
时,则将聚类中心/>
Figure SMS_267
加入到集合/>
Figure SMS_272
中,其中,/>
Figure SMS_277
表示收益值/>
Figure SMS_282
的判断系数,当/>
Figure SMS_236
时,则/>
Figure SMS_246
,当/>
Figure SMS_254
时,则/>
Figure SMS_262
具体的,数据会存在重复值、缺失值、异常值等不符合数据挖掘研究的问题,当前商业应用、科学、工业和学术界中的数据量不断增长,这就需要更复杂的技术手段对其进行分析,通过数据预处理,可以将不符合要求的问题数据处理为高质量数据,由于数据预处理过程中必要步骤多且处理过程繁杂,因此需要耗费巨大的管理空间,同时,我们会通过特征选择、实例选择或离散化过程来降低数据的复杂性,从数据中检测或删除不相关且有噪声的属性,在准确的执行数据预处理过程之后,预期得到的数据是比较理想,可以应用到实际的工作或决策中,对于不同的数据分析和应用技术也应达到同样的效果,针对医学机构,医学数据的分析对医生来说是给病人治疗的重要手段,通过这些数据的研究可以开发应对变异病种的新型药品,所以通过数据分析发现的隐藏信息,会给医生带来特定的指导建议,达到早发现早治疗的目的,减轻病人的痛苦,针对教育教学,利用学校信息中心积累的数据,例如通过对学生学习成绩数据的展开,可以发现学生的成绩数据能够体现其学业状态,这样对老师来说,可以及时对学习成绩差的学生进行辅导,来提升学业状态,针对私有企业和国有企业来说,工作中会有各种的数据,利用数据挖掘工作可以很好的帮助企业管理这些资源,面对用户提出的针对问题,可以提供最合适的解决方案,也可以为特定客户设计出最合适的销售策略和推广方式,企业也可以通过数据挖掘找到更适合企业的应聘者,并分析出其适合的岗位,在大数据时代,随着工程发展、研发及运用日渐普遍的时候,其研究对象变得以实时数据居多,例如餐饮、购物、影音等产生的实时数据,然而,这些数据大多数都是“问题数据”,且大多数具有重复的记录、丢失的信息、甚至是噪声数据等问题,但是这些数据依旧是分析工作珍贵的资源,再进行数据预处理工作,可以帮助获取高品质数据,从而帮助我们个人或者单位等完成数据分析和应用。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (7)

1.一种数据预处理系统及方法,其特征在于,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,分别将原始数据进行保存后再根据处理数据类型进行标记和分类,以便后续根据标签进行数据处理,之后原始数据输入端再将获取的未处理数据输入到数据预处理端,数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块,数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度,再将脱敏后的数据输入平滑滤波处理模块,平滑滤波处理模块用于对多个数据进行均匀化处理,并将其结果作为拟合值替代真实数据,最后将数据输入到特征值迭代处理模块,特征值迭代处理模块对接收到的数据进行特征值迭代,找到关联度最高的特征值,从而对不同关联度的数据分别进行处理,针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值,因此根据不同的关联程度,从而采取不同深度的数据预处理方法,并将处理前和预处理后数据的输入到已处理数据保存端,已处理数据保存端主要对已处理后的数据进行保存,并用数据对比分析模块将已处理数据和原始数据进行对比分析,从而获得理想的处理后的数据。
2.根据权利要求1所述的一种数据预处理系统及方法,其特征在于,数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度。
3.根据权利要求1所述的一种数据预处理系统及方法,其特征在于,平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波,并采用相似度特征值迭代算法确定关联度中心,选取数据聚类中心进行数据处理。
4.根据权利要求3所述的一种数据预处理系统及方法,其特征在于,采用下列方法在滤波时确定衰减域以及误差范围,并选取一个特征值并对所有数据进行反复迭代,找到关联度最高的特征值:
(1)采用下列方式对数据求均值确定特征向量;
(2)采用K-特征值聚类算法选取初始聚类中心。
5.根据权利要求4所述的一种数据预处理系统及方法,其特征在于,采用K-特征值聚类算法选取初始聚类中心:
Figure QLYQS_18
表示聚类中心/>
Figure QLYQS_4
在/>
Figure QLYQS_14
时刻的标准相邻集合,且
Figure QLYQS_3
,其中,/>
Figure QLYQS_16
和/>
Figure QLYQS_1
分别表示聚类中心/>
Figure QLYQS_15
和聚类中心
Figure QLYQS_19
在/>
Figure QLYQS_21
时刻的聚类素值,设/>
Figure QLYQS_5
和/>
Figure QLYQS_10
分别表示聚类中心/>
Figure QLYQS_8
和聚类中心/>
Figure QLYQS_9
在/>
Figure QLYQS_17
时刻的位置,
Figure QLYQS_20
表示位置/>
Figure QLYQS_7
和/>
Figure QLYQS_12
之间的欧式距离,且/>
Figure QLYQS_6
,/>
Figure QLYQS_13
表示聚类中心/>
Figure QLYQS_2
在/>
Figure QLYQS_11
时刻的决策域半径;
定义
Figure QLYQS_24
表示聚类中心/>
Figure QLYQS_27
在/>
Figure QLYQS_29
时刻的相邻检测系数,且/>
Figure QLYQS_22
的值为:
Figure QLYQS_25
,其中,/>
Figure QLYQS_30
表示聚类中心/>
Figure QLYQS_31
在/>
Figure QLYQS_23
时刻的位置,且/>
Figure QLYQS_26
,/>
Figure QLYQS_28
表示标准相邻集合/>
Figure QLYQS_32
中的聚类中心数。
6.根据权利要求5所述的一种数据预处理系统及方法,其特征在于,定义
Figure QLYQS_54
表示标准相邻集合/>
Figure QLYQS_56
中聚类中心的寻优等级统计系数,在/>
Figure QLYQS_64
时刻对种群中聚类中心进行寻优等级划分,设/>
Figure QLYQS_39
表示位置/>
Figure QLYQS_44
的适应度函数值,当聚类中心/>
Figure QLYQS_52
在/>
Figure QLYQS_59
时刻满足:
Figure QLYQS_55
时,则将聚类中心/>
Figure QLYQS_63
在/>
Figure QLYQS_51
时刻的寻优等级记为/>
Figure QLYQS_58
,当聚类中心/>
Figure QLYQS_53
在/>
Figure QLYQS_61
时刻满足:
Figure QLYQS_62
时,则将聚类中心/>
Figure QLYQS_65
在/>
Figure QLYQS_38
时刻的寻优等级记为/>
Figure QLYQS_41
,其中,/>
Figure QLYQS_50
表示种群中聚类中心在/>
Figure QLYQS_57
时刻的适应度函数均值,则/>
Figure QLYQS_34
的值为:/>
Figure QLYQS_48
,其中,/>
Figure QLYQS_33
表示聚类中心/>
Figure QLYQS_43
在/>
Figure QLYQS_35
时刻的寻优等级取值系数,当聚类中心/>
Figure QLYQS_46
在/>
Figure QLYQS_36
时刻的寻优等级为/>
Figure QLYQS_47
时,则/>
Figure QLYQS_37
的值取/>
Figure QLYQS_45
,当聚类中心/>
Figure QLYQS_49
在/>
Figure QLYQS_60
时刻的寻优等级为/>
Figure QLYQS_40
时,则/>
Figure QLYQS_42
的值取0。
7.根据权利要求6所述的一种数据预处理系统及方法,设
Figure QLYQS_69
表示聚类中心/>
Figure QLYQS_70
在/>
Figure QLYQS_79
时刻的最终相邻集合,当标准相邻集合/>
Figure QLYQS_68
中聚类中心满足:/>
Figure QLYQS_76
或/>
Figure QLYQS_83
时,则令/>
Figure QLYQS_88
,其中,/>
Figure QLYQS_84
为给定的寻优等级统计阈值,且/>
Figure QLYQS_86
,/>
Figure QLYQS_67
表示聚类中心/>
Figure QLYQS_81
在/>
Figure QLYQS_73
时刻的相邻检测阈值,且/>
Figure QLYQS_74
;当标准相邻集合/>
Figure QLYQS_80
中聚类中心满足:
Figure QLYQS_85
且/>
Figure QLYQS_72
时,首先将标准相邻集合/>
Figure QLYQS_78
中的聚类中心都加入到集合/>
Figure QLYQS_66
中,并继续采用下列步骤在种群中选取聚类中心加入到集合/>
Figure QLYQS_75
中,具体包括:定义
Figure QLYQS_71
表示聚类中心/>
Figure QLYQS_77
加入集合/>
Figure QLYQS_82
的收益值,且/>
Figure QLYQS_87
的表达式为:
Figure QLYQS_89
式中,
Figure QLYQS_95
表示聚类中心/>
Figure QLYQS_101
在/>
Figure QLYQS_107
时刻的位置,且/>
Figure QLYQS_97
Figure QLYQS_100
表示判断函数,且
Figure QLYQS_109
,/>
Figure QLYQS_118
表示聚类中心/>
Figure QLYQS_92
在/>
Figure QLYQS_102
时刻的方向引导系数,且/>
Figure QLYQS_108
,其中,/>
Figure QLYQS_115
表示聚类中心/>
Figure QLYQS_122
在/>
Figure QLYQS_128
时刻的标准相邻集合,/>
Figure QLYQS_132
表示标准相邻集合/>
Figure QLYQS_137
中聚类中心的寻优等级统计系数,设
Figure QLYQS_125
表示聚类中心/>
Figure QLYQS_130
在/>
Figure QLYQS_134
时刻的标准相邻集合,则/>
Figure QLYQS_139
表示标准相邻集合/>
Figure QLYQS_96
中聚类中心的寻优等级统计系数,/>
Figure QLYQS_105
表示标准相邻集合/>
Figure QLYQS_112
中的聚类中心数,根据种群中不属于标准相邻集合/>
Figure QLYQS_119
的聚类中心加入集合/>
Figure QLYQS_93
的收益值选取聚类中心加入集合/>
Figure QLYQS_99
中,具体包括:当种群中不属于标准相邻集合/>
Figure QLYQS_116
的聚类中心加入集合/>
Figure QLYQS_123
的收益值都小于/>
Figure QLYQS_114
时,则令/>
Figure QLYQS_121
;当种群中不属于标准相邻集合/>
Figure QLYQS_127
的聚类中心加入集合
Figure QLYQS_133
的收益值都等于/>
Figure QLYQS_91
时,则采用下列方式在种群中选取聚类中心加入集合/>
Figure QLYQS_104
中:当聚类中心/>
Figure QLYQS_111
满足:/>
Figure QLYQS_120
时,则将聚类中心/>
Figure QLYQS_126
加入集合/>
Figure QLYQS_131
中,当种群中存在不属于标准相邻集合/>
Figure QLYQS_136
的聚类中心加入集合/>
Figure QLYQS_140
的收益值大于/>
Figure QLYQS_90
时,则采用下列步骤在种群中选取聚类中心加入集合/>
Figure QLYQS_98
中:当聚类中心/>
Figure QLYQS_106
满足:
Figure QLYQS_113
时,则将聚类中心/>
Figure QLYQS_124
加入到集合/>
Figure QLYQS_129
中,其中,/>
Figure QLYQS_135
表示收益值/>
Figure QLYQS_138
的判断系数,当/>
Figure QLYQS_94
时,则/>
Figure QLYQS_103
,当/>
Figure QLYQS_110
时,则/>
Figure QLYQS_117
CN202310204647.5A 2023-03-06 2023-03-06 一种数据预处理系统及方法 Active CN116432064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310204647.5A CN116432064B (zh) 2023-03-06 2023-03-06 一种数据预处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310204647.5A CN116432064B (zh) 2023-03-06 2023-03-06 一种数据预处理系统及方法

Publications (2)

Publication Number Publication Date
CN116432064A true CN116432064A (zh) 2023-07-14
CN116432064B CN116432064B (zh) 2023-10-27

Family

ID=87093316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310204647.5A Active CN116432064B (zh) 2023-03-06 2023-03-06 一种数据预处理系统及方法

Country Status (1)

Country Link
CN (1) CN116432064B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070088550A1 (en) * 2005-10-13 2007-04-19 Dimitar Filev Method for predictive maintenance of a machine
US9442905B1 (en) * 2013-06-28 2016-09-13 Google Inc. Detecting neighborhoods from geocoded web documents
CN111368891A (zh) * 2020-02-27 2020-07-03 大连大学 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN111986811A (zh) * 2020-02-24 2020-11-24 梅里医疗科技(洋浦)有限责任公司 一种基于大数据的疾病预测系统
CN112330067A (zh) * 2020-05-28 2021-02-05 洋浦美诺安电子科技有限责任公司 基于区块链的金融大数据分析系统
CN114723583A (zh) * 2022-03-24 2022-07-08 天津三源电力信息技术股份有限公司 基于深度学习的非结构化电力大数据分析方法
CN115508112A (zh) * 2022-11-23 2022-12-23 北京车讯互联网股份有限公司 一种用于车辆刹车性能的测试方法、系统及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070088550A1 (en) * 2005-10-13 2007-04-19 Dimitar Filev Method for predictive maintenance of a machine
US9442905B1 (en) * 2013-06-28 2016-09-13 Google Inc. Detecting neighborhoods from geocoded web documents
CN111986811A (zh) * 2020-02-24 2020-11-24 梅里医疗科技(洋浦)有限责任公司 一种基于大数据的疾病预测系统
CN111368891A (zh) * 2020-02-27 2020-07-03 大连大学 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN112330067A (zh) * 2020-05-28 2021-02-05 洋浦美诺安电子科技有限责任公司 基于区块链的金融大数据分析系统
CN114723583A (zh) * 2022-03-24 2022-07-08 天津三源电力信息技术股份有限公司 基于深度学习的非结构化电力大数据分析方法
CN115508112A (zh) * 2022-11-23 2022-12-23 北京车讯互联网股份有限公司 一种用于车辆刹车性能的测试方法、系统及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NAGARAJU S ET AL.: "A variant of DBSCAN algorithm to find embedded and nested adjacent clusters", 《2016 3RD INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING AND INTEGRATED NETWORKS (SPIN)》, pages 486 - 491 *
肖庆追等: "基于组合模型的电力用户用电行为分层分类方法", 《电力系统及其自动化学报》, pages 82 - 88 *

Also Published As

Publication number Publication date
CN116432064B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
WO2015148304A1 (en) Method and system for large scale data curation
CN111563103B (zh) 一种用于数据血缘检测方法和系统
CN112927776A (zh) 一种面向医学检验报告的人工智能自动解读系统
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
CN115391670B (zh) 一种基于知识图谱的互联网行为分析方法与系统
CN104038792A (zh) 用于iptv监管的视频内容分析方法及设备
CN110633711A (zh) 训练特征点检测器的计算机装置、方法及特征点检测方法
CN110097603B (zh) 一种时尚图像主色调解析方法
Lonij et al. Open-world visual recognition using knowledge graphs
CN117457192A (zh) 智能远程诊断方法及系统
CN111863135B (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN116432064B (zh) 一种数据预处理系统及方法
CN117371511A (zh) 图像分类模型的训练方法、装置、设备及存储介质
CN116071609B (zh) 基于目标特征动态自适应提取的小样本图像分类方法
US20230297886A1 (en) Cluster targeting for use in machine learning
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN113837554B (zh) 基于多模态关键信息匹配的食品安全风险识别方法及系统
CN111339386B (zh) 一种智慧课堂教学活动推荐方法及系统
Song et al. A Hybrid CNN-LSTM Model for Video-Based Teaching Style Evaluation
Chen Research on teaching methods of teachers’ ideological education based on large data
KRISHNA et al. optimization segmentation and classification from MRI of brain tumor and its location calculation using machine learning and deep learning approach
CN116958652A (zh) 一种基于扩散模型的场景图生成方法
CN117993500A (zh) 基于人工智能的医学教学数据管理方法及系统
CN117827964A (zh) 一种区块链数据采集分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant