CN116432064B - 一种数据预处理系统及方法 - Google Patents
一种数据预处理系统及方法 Download PDFInfo
- Publication number
- CN116432064B CN116432064B CN202310204647.5A CN202310204647A CN116432064B CN 116432064 B CN116432064 B CN 116432064B CN 202310204647 A CN202310204647 A CN 202310204647A CN 116432064 B CN116432064 B CN 116432064B
- Authority
- CN
- China
- Prior art keywords
- data
- preprocessing
- center
- cluster
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007781 pre-processing Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 57
- 238000013500 data storage Methods 0.000 claims abstract description 13
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000000265 homogenisation Methods 0.000 claims abstract description 3
- 238000007405 data analysis Methods 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 10
- 238000000586 desensitisation Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 10
- 238000002474 experimental method Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 9
- 238000007418 data mining Methods 0.000 description 7
- 238000005259 measurement Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 102000003780 Clusterin Human genes 0.000 description 2
- 108090000197 Clusterin Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种数据预处理系统及方法,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,再将获取的未处理数据输入到数据预处理端,数据预处理端根据不同数据采取不同深度的数据预处理方法,将处理前和处理后的数据输入到已处理数据保存端进行对比分析。本发明采用平滑滤波处理对多个数据进行均匀化处理,并将处理结果代替真实值,再对数据进行K‑特征值聚类迭代处理,在关联度最高的分类中再选取用于数据聚类分析的相似数据,能为各类实验提供数据预处理方法,以及在大数据时代提供一定数据预处理算法理论模型。
Description
技术领域
本发明创造涉及大数据处理领域,具体涉及一种数据预处理系统及方法。
背景技术
随着社会信息化建设的加快,社会中的各个行业有大量应用层面的数据,数据信息量的增大使得数据挖掘的难度也随之增大,如何在数据中提取到有价值的知识和信息并应用到实际中去,已经成为整个数据挖掘和分析领域的研究热点之一,为确保数据分析更好的实现,首先要确保数据本身的质量,高质量的数据可保证数据挖掘的价值最大化,要获得高质量的数据不仅在采集数据的时候要准确,同时在进行数据预处理时也必须进行精确处理,可为我们在数据对比分析工作展开上打下良好的基础。
数据预处理工作是数据挖掘、数据分析和对比中相当重要的一环,若要获取到有效信息,就需要干净、准确、高质量的数据作为支撑,因此在数据挖掘中数据预处理工作对数据质量问题的解决主要分两个方面,一方面是因为测量误差导致数据出现问题;另一方面是数据收集错误而导致的问题,提出一种基于机器学习的K-特征值聚类算法与均值平滑滤波相结合的数据预处理方法和系统,通过数据预处理框架处理过的数据能够达到机器学习算法的数据要求,再通过K-特征值聚类算法使用对数据进行进一步整合与优化,使之得到可实际分析及应用的数据,再通过平滑滤波处理剔除异常值,其本质是滤除因补零带来的镜像分量,并对低频幅度进行补偿,该功能可以通过低通滤波器进行实现,选择合适的设计指标,可灵活的实现高平坦度且高衰减的滤波功能,从而达到快速高效选取相似值,精准有效去除噪声数据,形成高质量的训练集代入预测模型的目的。
发明内容
针对上述问题,本发明旨在提供一种数据预处理系统及方法。
本发明创造的目的通过以下技术方案实现:
一种数据预处理系统及方法,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,分别将原始数据进行保存后再根据处理数据类型进行标记和分类,以便后续根据标签进行数据处理,之后原始数据输入端再将获取的未处理数据输入到数据预处理端,我们初步获得的测量数据通常包括噪声、测量准确性的问题,一般的数据收集出现问题就是遗漏了数据对象该有的属性值,或者是把其它错误的数据对象包含在内,主要包含了重复值、离群值、缺失值和不一致的值,因此我们必须进行数据处理,该说明中数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块,数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度,再将脱敏后的数据输入平滑滤波处理模块,平滑滤波处理模块用于对多个数据进行均匀化处理,并将其结果作为拟合值替代真实数据,最后将数据输入到特征值迭代处理模块,特征值迭代处理模块对接收到的数据进行特征值迭代,找到关联度最高的特征值,从而对不同关联度的数据分别进行处理,针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值,因此根据不同的关联程度,从而采取不同深度的数据预处理方法,并将处理前和预处理后数据的输入到已处理数据保存端,已处理数据保存端主要对已处理后的数据进行保存,并用数据对比分析模块将已处理数据和原始数据进行对比分析,从而获得理想的处理后的数据。
进一步的,数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度。
进一步的,平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波,并采用相似度特征值迭代算法确定关联度中心,选取数据聚类中心进行数据处理。
进一步的,采用下列方法在滤波时确定衰减域以及误差范围,并选取一个特征值并对所有数据进行反复迭代,找到关联度最高的特征值。
进一步的,采用K-特征值聚类算法选取初始聚类中心:
设表示聚类中心/>在/>时刻的标准相邻集合,且,其中,/>和/>分别表示聚类中心/>和聚类中心在/>时刻的聚类素值,设/>和/>分别表示聚类中心/>和聚类中心/>在/>时刻的位置,表示位置/>和/>之间的欧式距离,且/>,/>表示聚类中心/>在/>时刻的决策域半径;
定义表示聚类中心/>在/>时刻的相邻检测系数,且/>的值为:,其中,/>表示聚类中心/>在/>时刻的位置,且/>,/>表示标准相邻集合/>中的聚类中心数。
进一步的,定义表示标准相邻集合/>中聚类中心的寻优等级统计系数,在/>时刻对种群中聚类中心进行寻优等级划分,设/>表示位置/>的适应度函数值,当聚类中心/>在/>时刻满足:/>时,则将聚类中心/>在/>时刻的寻优等级记为/>,当聚类中心/>在/>时刻满足:/>时,则将聚类中心/>在/>时刻的寻优等级记为/>,其中,/>表示种群中聚类中心在/>时刻的适应度函数均值,则/>的值为:,其中,/>表示聚类中心/>在/>时刻的寻优等级取值系数,当聚类中心在/>时刻的寻优等级为/>时,则/>的值取/>,当聚类中心/>在/>时刻的寻优等级为/>时,则/>的值取/>;
进一步的,设表示聚类中心/>在/>时刻的最终相邻集合,当标准相邻集合中聚类中心满足:/>或/>时,则令/>,其中,/>为给定的寻优等级统计阈值,且/>,/>表示聚类中心/>在/>时刻的相邻检测阈值,且;当标准相邻集合/>中聚类中心满足:/>且/>时,首先将标准相邻集合/>中的聚类中心都加入到集合/>中,并继续采用下列步骤在种群中选取聚类中心加入到集合/>中,具体包括:定义/>表示聚类中心/>加入集合的收益值,且/>的表达式为:
式中,表示聚类中心/>在/>时刻的位置,且/>,表示判断函数,且,/>表示聚类中心/>在/>时刻的方向引导系数,且/>,其中,/>表示聚类中心/>在/>时刻的标准相邻集合,/>表示标准相邻集合/>中聚类中心的寻优等级统计系数,设表示聚类中心/>在/>时刻的标准相邻集合,则/>表示标准相邻集合/>中聚类中心的寻优等级统计系数,/>表示标准相邻集合/>中的聚类中心数,根据种群中不属于标准相邻集合/>的聚类中心加入集合/>的收益值选取聚类中心加入集合/>中,具体包括:当种群中不属于标准相邻集合/>的聚类中心加入集合/>的收益值都小于/>时,则令/>;当种群中不属于标准相邻集合/>的聚类中心加入集合的收益值都等于/>时,则采用下列方式在种群中选取聚类中心加入集合/>中:当聚类中心/>满足:/>时,则将聚类中心/>加入集合/>中,当种群中存在不属于标准相邻集合/>的聚类中心加入集合/>的收益值大于/>时,则采用下列步骤在种群中选取聚类中心加入集合/>中:当聚类中心/>满足:时,则将聚类中心/>加入到集合/>中,其中,/>表示收益值/>的判断系数,当/>时,则/>,当/>时,则/>。
本发明创造的有益效果:数据预处理是大数据时代进行数据分析和应用等最有研究价值的研究内容之一,针对创新资源进行数据预处理可以给从业人员提出新决策、新思路、新可能、新挑战,从而为预测未来创新发展趋势提供更多的可能性,同时,能够准确判断创新所需的基本条件以及创新资源的及时性,在大数据时代,进行数据预处理工作,可以帮助获取高品质数据,数据预处理工作可以根据实际继续改进和优化,充分的展现其实用性能,同时可以根据不同的场景进行智能识别并匹配应用,数据应用和分析过程中的第一部分内容就是数据预处理工作,这也是整个过程中的最重要的环节,通过报告表明,数据预处理环节能达到完整的数据挖掘的六七成,因此,保证数据的真实性和可靠性是数据预处理的基本任务,这样才能更加高效的进行下一步工作,达到改良数据品质的效果,将数据中的噪声消除,归还数据的完整性,无论对于个人的实验数据处理还是实际生活中的应用,数据预处理工作对于大数据时代都具有重要意义和实际的使用价值。
附图说明
利用附图对发明创造作进一步说明,但附图中的实施例不构成对本发明创造的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是本发明结构示意图。
具体实施方式
结合以下实施例对本发明作进一步描述。
参见图1,本实施例的一种数据预处理系统及方法,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,分别将原始数据进行保存后再根据处理数据类型进行标记和分类,以便后续根据标签进行数据处理,之后原始数据输入端再将获取的未处理数据输入到数据预处理端,我们初步获得的测量数据通常包括噪声、测量准确性的问题,一般的数据收集出现问题就是遗漏了数据对象该有的属性值,或者是把其它错误的数据对象包含在内,主要包含了重复值、离群值、缺失值和不一致的值,因此我们必须进行数据处理,该说明中数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块,数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度,再将脱敏后的数据输入平滑滤波处理模块,平滑滤波处理模块用于对多个数据进行均匀化处理,并将其结果作为拟合值替代真实数据,最后将数据输入到特征值迭代处理模块,特征值迭代处理模块对接收到的数据进行特征值迭代,找到关联度最高的特征值,从而对不同关联度的数据分别进行处理,针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值,因此根据不同的关联程度,从而采取不同深度的数据预处理方法,并将处理前和预处理后数据的输入到已处理数据保存端,已处理数据保存端主要对已处理后的数据进行保存,并用数据对比分析模块将已处理数据和原始数据进行对比分析,从而获得理想的处理后的数据。
优选的,数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度。
具体的,平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波,并采用相似度特征值迭代算法确定关联度中心,选取数据聚类中心进行数据处理。
优选的,采用下列方法在滤波时确定衰减域以及误差范围,并选取一个特征值并对所有数据进行反复迭代,找到关联度最高的特征值。
优选的,采用K-特征值聚类算法选取初始聚类中心:
设表示聚类中心/>在/>时刻的标准相邻集合,且,其中,/>和/>分别表示聚类中心/>和聚类中心在/>时刻的聚类素值,设/>和/>分别表示聚类中心/>和聚类中心/>在/>时刻的位置,表示位置/>和/>之间的欧式距离,且/>,/>表示聚类中心/>在/>时刻的决策域半径;
定义表示聚类中心/>在/>时刻的相邻检测系数,且/>的值为:,其中,/>表示聚类中心/>在/>时刻的位置,且/>,/>表示标准相邻集合/>中的聚类中心数;
优选的,定义表示标准相邻集合/>中聚类中心的寻优等级统计系数,在/>时刻对种群中聚类中心进行寻优等级划分,设/>表示位置/>的适应度函数值,当聚类中心/>在/>时刻满足:/>时,则将聚类中心/>在/>时刻的寻优等级记为/>,当聚类中心/>在/>时刻满足:/>时,则将聚类中心/>在/>时刻的寻优等级记为/>,其中,/>表示种群中聚类中心在/>时刻的适应度函数均值,则/>的值为:,其中,/>表示聚类中心/>在/>时刻的寻优等级取值系数,当聚类中心在/>时刻的寻优等级为/>时,则/>的值取/>,当聚类中心/>在/>时刻的寻优等级为/>时,则/>的值取/>。
优选的,设表示聚类中心/>在/>时刻的最终相邻集合,当标准相邻集合/>中聚类中心满足:/>或/>时,则令/>,其中,/>为给定的寻优等级统计阈值,且/>,/>表示聚类中心/>在/>时刻的相邻检测阈值,且;当标准相邻集合/>中聚类中心满足:/>且/>时,首先将标准相邻集合/>中的聚类中心都加入到集合/>中,并继续采用下列步骤在种群中选取聚类中心加入到集合/>中,具体包括:定义/>表示聚类中心/>加入集合的收益值,且/>的表达式为:
式中,表示聚类中心/>在/>时刻的位置,且/>,表示判断函数,且,/>表示聚类中心/>在/>时刻的方向引导系数,且/>,其中,/>表示聚类中心/>在/>时刻的标准相邻集合,/>表示标准相邻集合/>中聚类中心的寻优等级统计系数,设表示聚类中心/>在/>时刻的标准相邻集合,则/>表示标准相邻集合/>中聚类中心的寻优等级统计系数,/>表示标准相邻集合/>中的聚类中心数,根据种群中不属于标准相邻集合/>的聚类中心加入集合/>的收益值选取聚类中心加入集合/>中,具体包括:当种群中不属于标准相邻集合/>的聚类中心加入集合/>的收益值都小于/>时,则令/>;当种群中不属于标准相邻集合/>的聚类中心加入集合的收益值都等于/>时,则采用下列方式在种群中选取聚类中心加入集合/>中:当聚类中心/>满足:/>时,则将聚类中心/>加入集合/>中,当种群中存在不属于标准相邻集合/>的聚类中心加入集合/>的收益值大于/>时,则采用下列步骤在种群中选取聚类中心加入集合/>中:当聚类中心/>满足:时,则将聚类中心/>加入到集合/>中,其中,/>表示收益值/>的判断系数,当/>时,则/>,当/>时,则/>。
具体的,数据会存在重复值、缺失值、异常值等不符合数据挖掘研究的问题,当前商业应用、科学、工业和学术界中的数据量不断增长,这就需要更复杂的技术手段对其进行分析,通过数据预处理,可以将不符合要求的问题数据处理为高质量数据,由于数据预处理过程中必要步骤多且处理过程繁杂,因此需要耗费巨大的管理空间,同时,我们会通过特征选择、实例选择或离散化过程来降低数据的复杂性,从数据中检测或删除不相关且有噪声的属性,在准确的执行数据预处理过程之后,预期得到的数据是比较理想,可以应用到实际的工作或决策中,对于不同的数据分析和应用技术也应达到同样的效果,针对医学机构,医学数据的分析对医生来说是给病人治疗的重要手段,通过这些数据的研究可以开发应对变异病种的新型药品,所以通过数据分析发现的隐藏信息,会给医生带来特定的指导建议,达到早发现早治疗的目的,减轻病人的痛苦,针对教育教学,利用学校信息中心积累的数据,例如通过对学生学习成绩数据的展开,可以发现学生的成绩数据能够体现其学业状态,这样对老师来说,可以及时对学习成绩差的学生进行辅导,来提升学业状态,针对私有企业和国有企业来说,工作中会有各种的数据,利用数据挖掘工作可以很好的帮助企业管理这些资源,面对用户提出的针对问题,可以提供最合适的解决方案,也可以为特定客户设计出最合适的销售策略和推广方式,企业也可以通过数据挖掘找到更适合企业的应聘者,并分析出其适合的岗位,在大数据时代,随着工程发展、研发及运用日渐普遍的时候,其研究对象变得以实时数据居多,例如餐饮、购物、影音等产生的实时数据,然而,这些数据大多数都是“问题数据”,且大多数具有重复的记录、丢失的信息、甚至是噪声数据等问题,但是这些数据依旧是分析工作珍贵的资源,再进行数据预处理工作,可以帮助获取高品质数据,从而帮助我们个人或者单位等完成数据分析和应用。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (3)
1.一种数据预处理系统,其特征在于,包括原始数据输入端、数据预处理端和已处理数据保存端,原始数据输入端用于获取未处理数据,包括数据保存备份模块以及数据分类模块,分别将原始数据进行保存后再根据处理数据类型进行标记和分类,以便后续根据标签进行数据处理,之后原始数据输入端再将获取的未处理数据输入到数据预处理端,数据预处理端包括数据脱敏处理模块、平滑滤波处理模块和特征值迭代处理模块,数据脱敏处理模块用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度,再将脱敏后的数据输入平滑滤波处理模块,平滑滤波处理模块用于对多个数据进行均匀化处理,并将其结果作为拟合值替代真实数据,最后将数据输入到特征值迭代处理模块,特征值迭代处理模块对接收到的数据进行特征值迭代,找到关联度最高的特征值,从而对不同关联度的数据分别进行处理,针对此前已经分类后的不同类型数据和不同处理需求的数据分别会得出不同的特征值,因此根据不同的关联程度,从而采取不同深度的数据预处理方法,并将处理前和预处理后数据的输入到已处理数据保存端,已处理数据保存端主要对已处理后的数据进行保存,并用数据对比分析模块将已处理数据和原始数据进行对比分析,从而获得理想的处理后的数据;所述数据预处理系统针对医学数据预处理;
平滑滤波处理模块和特征值迭代处理模块采用均值滤波算法对未处理数据进行滤波,并采用相似度特征值迭代算法确定关联度中心,选取数据聚类中心进行数据处理;
采用下列方法在滤波时确定衰减域以及误差范围,并选取一个特征值并对所有数据进行反复迭代,找到关联度最高的特征值:
采用K-特征值聚类算法选取初始聚类中心;
所述采用K-特征值聚类算法选取初始聚类中心包括:
设Ni(t)表示聚类中心i在t时刻的标准相邻集合,且 其中,li(t)和lj(t)分别表示聚类中心i和聚类中心j在t时刻的聚类素值,设xi(t)和xj(t)分别表示聚类中心i和聚类中心j在t时刻的位置,di,j(t)表示位置xi(t)和xj(t)之间的欧式距离,且di,j(t)=||xi(t)-xj(t)||,/>表示聚类中心i在t时刻的决策域半径;
定义Ci(t)表示聚类中心i在t时刻的相邻检测系数,且Ci(t)的值为: 其中,xa(t)表示聚类中心a在t时刻的位置,且a≠j,Mi(t)表示标准相邻集合Ni(t)中的聚类中心数;
定义Hi(t)表示标准相邻集合Ni(t)中聚类中心的寻优等级统计系数,在t时刻对种群中聚类中心进行寻优等级划分,设J(xi(t))表示位置xi(t)的适应度函数值,当聚类中心i在t时刻满足:时,则将聚类中心i在t时刻的寻优等级记为1,当聚类中心i在t时刻满足:/>时,则将聚类中心i在t时刻的寻优等级记为2,其中,/>表示种群中聚类中心在t时刻的适应度函数均值,则Hi(t)的值为:/>其中,ρj(t)表示聚类中心j在t时刻的寻优等级取值系数,当聚类中心j在t时刻的寻优等级为1时,则ρj(t)的值取1,当聚类中心j在t时刻的寻优等级为2时,则ρj(t)的值取0;
设N'i(t)表示聚类中心i在t时刻的最终相邻集合,当标准相邻集合Ni(t)中聚类中心满足:Hi(t)>H或Ci(t)>Ti(t)时,则令N'i(t)=Ni(t),其中,H为给定的寻优等级统计阈值,且0<H<1,Ti(t)表示聚类中心i在t时刻的相邻检测阈值,且当标准相邻集合Ni(t)中聚类中心满足:Hi(t)≤H且Ci(t)≤Ti(t)时,首先将标准相邻集合Ni(t)中的聚类中心都加入到集合N'i(t)中,并继续采用下列步骤在种群中选取聚类中心加入到集合N'i(t)中,具体包括:定义Yi,k(t)表示聚类中心k加入集合N'i(t)的收益值,且Yi,k(t)的表达式为:
式中,xk(t)表示聚类中心k在t时刻的位置,且 表示判断函数,且/> Fk(t)表示聚类中心k在t时刻的方向引导系数,且/>其中,Nk(t)表示聚类中心k在t时刻的标准相邻集合,Hk(t)表示标准相邻集合Nk(t)中聚类中心的寻优等级统计系数,设Nb(t)表示聚类中心b在t时刻的标准相邻集合,则Hb(t)表示标准相邻集合Nb(t)中聚类中心的寻优等级统计系数,Mk(t)表示标准相邻集合Nk(t)中的聚类中心数,根据种群中不属于标准相邻集合Ni(t)的聚类中心加入集合N'i(t)的收益值选取聚类中心加入集合N'i(t)中,具体包括:当种群中不属于标准相邻集合Ni(t)的聚类中心加入集合N'i(t)的收益值都小于0时,则令N'i(t)=Ni(t);当种群中不属于标准相邻集合Ni(t)的聚类中心加入集合N'i(t)的收益值都等于0时,则采用下列方式在种群中选取聚类中心加入集合N'i(t)中:当聚类中心k满足:/> 时,则将聚类中心k加入集合N'i(t)中,当种群中存在不属于标准相邻集合Ni(t)的聚类中心加入集合N'i(t)的收益值大于0时,则采用下列步骤在种群中选取聚类中心加入集合N'i(t)中:当聚类中心k满足: 时,则将聚类中心k加入到集合N'i(t)中,其中,ηi,k(t)表示收益值Yi,k(t)的判断系数,当Yi,k(t)>0时,则ηi,k(t)=1,当Yi,k(t)≤0时,则ηi,k(t)=0。
2.根据权利要求1所述的一种数据预处理系统,其特征在于,数据脱敏处理模块主要用于在不影响数据分析结果准确性的前提下对原始敏感数据进行处理,从而降低原始数据的敏感度。
3.使用权利要求1或2所述的数据预处理系统进行数据处理的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204647.5A CN116432064B (zh) | 2023-03-06 | 2023-03-06 | 一种数据预处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310204647.5A CN116432064B (zh) | 2023-03-06 | 2023-03-06 | 一种数据预处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432064A CN116432064A (zh) | 2023-07-14 |
CN116432064B true CN116432064B (zh) | 2023-10-27 |
Family
ID=87093316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310204647.5A Active CN116432064B (zh) | 2023-03-06 | 2023-03-06 | 一种数据预处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432064B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9442905B1 (en) * | 2013-06-28 | 2016-09-13 | Google Inc. | Detecting neighborhoods from geocoded web documents |
CN111368891A (zh) * | 2020-02-27 | 2020-07-03 | 大连大学 | 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 |
CN111986811A (zh) * | 2020-02-24 | 2020-11-24 | 梅里医疗科技(洋浦)有限责任公司 | 一种基于大数据的疾病预测系统 |
CN112330067A (zh) * | 2020-05-28 | 2021-02-05 | 洋浦美诺安电子科技有限责任公司 | 基于区块链的金融大数据分析系统 |
CN114723583A (zh) * | 2022-03-24 | 2022-07-08 | 天津三源电力信息技术股份有限公司 | 基于深度学习的非结构化电力大数据分析方法 |
CN115508112A (zh) * | 2022-11-23 | 2022-12-23 | 北京车讯互联网股份有限公司 | 一种用于车辆刹车性能的测试方法、系统及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070088550A1 (en) * | 2005-10-13 | 2007-04-19 | Dimitar Filev | Method for predictive maintenance of a machine |
-
2023
- 2023-03-06 CN CN202310204647.5A patent/CN116432064B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9442905B1 (en) * | 2013-06-28 | 2016-09-13 | Google Inc. | Detecting neighborhoods from geocoded web documents |
CN111986811A (zh) * | 2020-02-24 | 2020-11-24 | 梅里医疗科技(洋浦)有限责任公司 | 一种基于大数据的疾病预测系统 |
CN111368891A (zh) * | 2020-02-27 | 2020-07-03 | 大连大学 | 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法 |
CN112330067A (zh) * | 2020-05-28 | 2021-02-05 | 洋浦美诺安电子科技有限责任公司 | 基于区块链的金融大数据分析系统 |
CN114723583A (zh) * | 2022-03-24 | 2022-07-08 | 天津三源电力信息技术股份有限公司 | 基于深度学习的非结构化电力大数据分析方法 |
CN115508112A (zh) * | 2022-11-23 | 2022-12-23 | 北京车讯互联网股份有限公司 | 一种用于车辆刹车性能的测试方法、系统及介质 |
Non-Patent Citations (2)
Title |
---|
A variant of DBSCAN algorithm to find embedded and nested adjacent clusters;Nagaraju S et al.;《2016 3rd International Conference on Signal Processing and Integrated Networks (SPIN)》;第486-491页 * |
基于组合模型的电力用户用电行为分层分类方法;肖庆追等;《电力系统及其自动化学报》;第82-88、94页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116432064A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112819093B (zh) | 基于小数据集与卷积神经网络的人机不同步识别方法 | |
CN110880019A (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
CN112927776A (zh) | 一种面向医学检验报告的人工智能自动解读系统 | |
CN114333064A (zh) | 基于多维原型重构增强学习的小样本行为识别方法及系统 | |
CN116525075A (zh) | 基于少样本学习的甲状腺结节计算机辅助诊断方法及系统 | |
CN115269870A (zh) | 一种基于知识图谱实现数据中台数据链路故障分类预警的方法 | |
CN116206327A (zh) | 一种基于在线知识蒸馏的图像分类方法 | |
CN110097603B (zh) | 一种时尚图像主色调解析方法 | |
CN115165366A (zh) | 一种旋转机械变工况故障诊断方法及系统 | |
CN115063664A (zh) | 用于工业视觉检测的模型学习方法、训练方法及系统 | |
CN117457192A (zh) | 智能远程诊断方法及系统 | |
CN116432064B (zh) | 一种数据预处理系统及方法 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN111339258A (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN116596836A (zh) | 基于多视图邻域证据熵的肺炎ct影像属性约简方法 | |
CN111339386B (zh) | 一种智慧课堂教学活动推荐方法及系统 | |
Song et al. | A hybrid cnn-lstm model for video-based teaching style evaluation | |
CN117993500B (zh) | 基于人工智能的医学教学数据管理方法及系统 | |
CN116701962B (zh) | 边缘数据处理方法、装置、计算设备及存储介质 | |
CN117690178B (zh) | 一种基于计算机视觉的人脸图像识别方法与系统 | |
CN117789207B (zh) | 基于图神经网络的细胞组织病理图像智能分析方法及系统 | |
Zhao et al. | How can dense results be differentiated in comprehensive evaluations? A hybrid information filtering model | |
US12020786B2 (en) | Model for health record classification | |
CN118248329A (zh) | 可部署抑郁症数据检测方法、系统、介质、设备及终端 | |
CN117993500A (zh) | 基于人工智能的医学教学数据管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |