CN101149760A - 一种天体光谱离群数据挖掘系统和方法 - Google Patents

一种天体光谱离群数据挖掘系统和方法 Download PDF

Info

Publication number
CN101149760A
CN101149760A CNA2007101663628A CN200710166362A CN101149760A CN 101149760 A CN101149760 A CN 101149760A CN A2007101663628 A CNA2007101663628 A CN A2007101663628A CN 200710166362 A CN200710166362 A CN 200710166362A CN 101149760 A CN101149760 A CN 101149760A
Authority
CN
China
Prior art keywords
data
astronmical
celestial body
spectral
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101663628A
Other languages
English (en)
Inventor
蔡江辉
张继福
赵旭俊
荀亚玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CNA2007101663628A priority Critical patent/CN101149760A/zh
Publication of CN101149760A publication Critical patent/CN101149760A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

本发明公开了一种天体光谱离群数据挖掘系统和方法,以计算机(1)为中心,连接中星仪式反射施密特望远镜(2),并在计算机(1)上建立数据采集存储模块(3),天体光谱数据硬划分模块(4),天体光谱数据软化分模块(5),离群数据挖掘模块(6)。计算机(1)通过上述模块,首先依据基于距离的方法,对采集回的天体光谱数据进行硬划分,其次采用基于微粒群算法的模糊聚类方法,将上述硬划分结果作为初始值进行软化分聚类,最后设定距离支持度参数,用该参数作为判断数据是否满是一般天体光谱模式的阈值,通过对该参数的调整,得到不同要求的天体光谱离群数据。通过使用本发明,不仅可以提高天体光谱离群数据的挖掘效率和挖掘准确性;而且还可根据不同要求,发现不同的天体光谱离群数据。

Description

一种天体光谱离群数据挖掘系统和方法
技术领域:
本发明涉及一种数据挖掘系统和方法,具体来说是涉及一种天体光谱离群数据挖掘系统和方法。
背景技术:
随着数据库和计算机网络的广泛应用,人们所拥有的数据量急剧增大,海量数据层出不穷。先进的现代科学观测仪器的使用造成每天都要产生巨量的数据,信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辨,从而给信息的正确运用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一处理等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求。如何在海量数据中获取有价值的信息和知识成了信息系统的核心问题之一。数据挖掘技术已被广泛应用于大规模数据的分析处理和知识发现。
离群数据(孤立点)的挖掘(outliers mining),是数据挖掘研究的一个崭新的领域,也成为数据挖掘研究的一个重要分支。它通过发现小的模式(相对于聚类),即数据集中显著不同于其它数据的对象,分析标准类以外的特例,数据聚类外的离群值,实际观测值和系统预测值间的显著差别,来对差异和极端特例进行描述。
自离群数据的概念提出以来,在数据挖掘领域一直聚集了大量的研究人员从事离群数据挖掘技术的理论和实际应用的研究。随着人工智能和数据挖掘技术的不断深入,离群数据挖掘得到了不断的发展,已经成为数据挖掘领域中一个非常活跃的研究课题。同时,离群数据挖掘在伸缩性、高维性尤其是效率方面提出了更高的要求。
从20世纪80年代,离群数据挖掘问题就在统计学领域里得到了广泛研究。通常用户用某个统计分布对数据点进行建模,再以假定的模型根据点的分布来确定是否为离群数据。许许多多针对不同分布的离群数据挖掘系统和方法发展起来,他们分别适用于不同的情形:数据分布情况;数据分布参数是否已知;异常数据数量;异常数据类型。但是这些离群数据挖掘系统和方法的最大缺陷是:在许多情况下,用户并不知道这个数据分布,而且现实数据也往往不符合任何一种理想状态的数学分布。
Ruts和Roussccuw提出了一种基于深度的离群数据挖掘方法。根据该方法,每一个数据被映射到一个k维数据空间上的点,并且每个点被赋予一个特定定义的“深度”,并根据不同深度将数据划分成不同层次。基于统计学的结论,异常往往存在于较“浅”的层次中。由于基于深度的方法要求计算k维数据空间的凸闭包,复杂度较高,实际上,仅仅当k=2或k=3时,该方法性能才可以忍受。
Argrawal和Ragaran在1996年提出过“序列离群数据”的概念。他们采用这样一个机制:扫描数据集并观测到一系列相似数据,当发现一个数据点明显不同于前面的序列,这样的点就被认为离群数据。这种离群数据挖掘方法的复杂度与数据集大小成线性关系,有优异的计算性能。但是该方法的缺点是:序列异常对异常存在的假设太理想化,对现实复杂数据效果不太好。
Knorr和Ng在1998年提出了基于距离的异常来挖掘离群数据的方法。Rastogi和Ramaswamy改进了他们的异常定义。在聚类算法研究中许多算法都具有一定的噪音处理能力,这些算法把异常检测作为聚类算法的副产品。
Breunig和Kriegel将基于密度的聚类算法OPTICS与异常检测合并到一起研究,这个算法的主要计算消耗在聚类的查找上,只需要很小的额外代价就可以检测到异常,这些研究也奠定了基于密度的异常概念的产生,在此基础上Breunig和Kriegel提出了局部异常因子的概念,但是缺点是无法处理高维数据。
到目前为止提出的异常检测方法对高维数据异常检测效果都不理想。Aggarwal等提出了一个针对高维数据集进行降维的异常检测新思路,它把高维数据集映射到低维子空间,根据子空间的映射数据稀疏度,来确定异常数据是否存在。该离群数据挖掘方法取得了良好的效果。但时空复杂度问题成为待解决的主要问题,且离群数据发现结果的准确性得不到保障。
发明内容:
本发明就是针对上述离群数据挖掘中存在的问题,提出了一种天体光谱离群数据挖掘系统和方法,以解决现有离群数据挖掘技术中存在的无法处理海量高维数据、挖掘效率较低、挖掘结果不准确等问题。
本发明提供以下技术方案:
一种基于微粒群算法的天体光谱数据离群知识发现系统,以计算机为中心,连接中星仪式反射施密特望远镜,并在计算机上建立依次以数据流连接的数据采集存储模块,天体光谱数据硬划分模块,天体光谱数据软化分模块,离群数据挖掘模块,数据采集存储模块上设有一I/O接口,其与数据硬划分模块成双向连接;中星仪式反射施密特望远镜,口径长4m,在1.5h曝光时间内,可以以10埃的光谱分辨率观测到20.5mag的暗弱天体光谱,相对于在5度视场的1.75m焦面上放置4000根光纤,然后连接到多台光谱仪上,同时获得4000个天体的光谱,每个观测夜晚将收集2到4万条光谱的数据,所观测到的光谱数据容量达到4TB,天体光谱数据硬划分模块是对天体光谱数据,按照基于距离的方法生成距离矩阵,再重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,以便确定下一步软化分的初始值;天体光谱数据软化分模块是以微粒群算法作为搜索方法,以模糊C均值聚类方法对天体光谱数据进行聚类;离群数据挖掘模块是在对天体光谱数据软划分的基础上输入天体光谱离群数据的距离支持度参数,该参数是判断数据是否满足一般天体光谱模式的阈值,通过对该参数的调整,可以得到不同的天体光谱离群数据结果。
一种基于微粒群算法的天体光谱数据离群知识发现方法,包含以下步骤:
A通过中星仪式反射施密特望远镜采集回天体光谱数据,将数据输入计算机内,并存入数据采集存储模块中。
B将数据采集存储模块中的天体光谱数据依据距离的方法生成距离矩阵,再重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,确定下一步软化分的初始值;
C根据以上述初始值对天体光谱数据进行软化分,软化分是以微粒群算法作为搜索方法,以模糊C均值聚类方法对天体光谱数据进行聚类。
D在对天体光谱数据软划分的基础上输入天体光谱离群数据的距离支持度参数,该参数是判断数据是否满足一般天体光谱模式的阈值,通过对该参数的调整,可以得到不同的天体光谱离群数据结果。
所要处理的天体光谱数据为中星仪式反射施密特望远镜采集的高维、海量、稀疏数据,其中高维是指中星仪式反射施密特望远镜采集的天体光谱数据的属性达到了1000维以上;海量是指中星仪式反射施密特望远镜每天要获取将近4T的数据量;稀疏是指中星仪式反射施密特望远镜采集的任何一条天体光谱数据的重要信息可用某些特征线体现出来。
本发明与现有技术相比具有以下有益效果:通过使用一种海量天体光谱数据的离群知识发现系统和方法,在提高天体光谱离群数据挖掘效率的同时也保证了天体光谱离群数据挖掘结果的准确性。具体来讲本发明具有以下优点:
1、本发明通过运用天体光谱数据硬划分模块,移动矩阵元素对原有矩阵数据进行了保存,避免了计算机过多的重复计算并有效地减少了I/O访问次数,有效地提高了效率。如果待处理的天体光谱数据集非常庞大,可以采用采样的方法减小该阶段的运算量,这样做可能会影响硬划分完备性,但由于该阶段得到的光谱数据聚类中心点不需要非常精确,所以是完全可行的。
2、通过运用天体光谱数据软划分模块,从根本上克服了基于距离的硬划分的缺点。天体光谱数据软划分模块保证了搜索过程中梯度信息的完整,同时基于微粒群算法的天体光谱数据软划分模块自身具有的并行特性,使得每一个节点都可以同步地确定性地更新,有效地提高了搜索的运行效率。而第一阶段得到的较准确的初始条件,避免了模糊聚类中中心点选择的随机性,为微粒群算法的快速收敛提供了条件,保证了整个天体光谱离群数据挖掘算法的快速收敛。
3、特定环境下对天体光谱离群数据的定义标准是不同的,即使同一环境下根据不同的要求对离群数据的定义也有差异,要求发现的离群数据范围不同,为了能够根据不同要求发现天体光谱离群数据,可通过距离支持度参数的改变来实现离群数据挖掘范围的改变,满足不同用户的要求。
附图说明:
图1是本发明系统示意图
具体实现方式:
一种天体光谱离群数据挖掘系统,以计算机1为中心,连接中星仪式反射施密特望远镜2,并在计算机1上建立依次以数据流连接的数据采集存储模块3,天体光谱数据硬划分模块4,天体光谱数据软化分模块5,离群数据挖掘模块6,数据采集存储模块3上设有一I/O接口,其与数据硬划分模块4成双向连接;中星仪式反射施密特望远镜2,口径长4m,在1.5h曝光时间内,可以以10埃的光谱分辨率观测到20.5mag的暗弱天体光潜,相对于在5度视场的1.75m焦面上放置4000根光纤,然后连接到多台光谱仪上,同时获得4000个天体的光谱,每个观测夜晚将收集2到4万条光谱的数据,所观测到的光谱数据容量达到4TB,天体光谱数据硬划分模块4是对天体光谱数据,按照基于距离的方法生成距离矩阵,再重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,以便确定下一步软化分的初始值;天体光谱数据软化分模块5是以微粒群算法作为搜索方法,以模糊C均值聚类方法对天体光谱数据进行聚类;离群数据挖掘模块6是在对天体光谱数据软划分的基础上输入天体光谱离群数据的距离支持度参数,该参数是判断数据是否满足一般天体光谱模式的阈值,通过对该参数的调整,可以得到不同的天体光谱离群数据结果。
一种天体光谱离群数据挖掘方法,包含以下步骤:
A通过中星仪式反射施密特望远镜2采集回天体光谱数据,将数据输入计算机1内,并存入数据采集存储模块3中。
B将数据采集存储模块3中的天体光谱数据依据距离的方法生成距离矩阵,再重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,确定下一步软化分的初始值;
C根据以上述初始值对天体光谱数据进行软化分,软化分是以微粒群算法作为搜索方法,以模糊C均值聚类方法对天体光谱数据进行聚类。
D在对天体光谱数据软划分的基础上输入天体光谱离群数据的距离支持度参数,该参数是判断数据是否满足一般天体光谱模式的阈值,通过对该参数的调整,可以得到不同的天体光谱离群数据结果。
所要处理的天体光谱数据为中星仪式反射施密特望远镜采集的高维、海量、稀疏数据,其中高维是指中星仪式反射施密特望远镜采集的天体光谱数据的属性达到了1000维以上;海量是指中星仪式反射施密特望远镜每天要获取将近4T的数据量;稀疏是指中星仪式反射施密特望远镜采集的任何一条天体光谱数据的重要信息可用某些特征线体现出来。

Claims (7)

1.一种天体光谱离群数据挖掘系统,其特征是:以计算机为中心,连接中星仪式反射施密特望远镜,并在计算机上建立依次以数据流连接的数据采集存储模块,天体光谱数据硬划分模块,天体光谱数据软化分模块,离群数据挖掘模块,数据采集存储模块上设有一I/O接口,其与数据硬划分模块成双向连接。
2.根据权利要求1所述的一种天体光谱离群数据挖掘系统,其特征是:中星仪式反射施密特望远镜,口径长4m,在1.5h曝光时间内,可以以10埃的光谱分辨率观测到20.5mag的暗弱天体光谱,相对于在5度视场的1.75m焦面上放置4000根光纤,然后连接到多台光谱仪上,同时获得4000个天体的光谱,每个观测夜晚将收集2到4万条光谱的数据,所观测到的光谱数据容量达到4TB。
3.根据权利要求1所述的一种天体光谱离群数据挖掘系统,其特征是:天体光谱数据硬划分模块是对天体光谱数据,按照基于距离的方法生成距离矩阵,再重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,以便确定下一步软化分的初始值。
4.根据权利要求1所述的一种天体光谱离群数据挖掘系统,其特征是:天体光谱数据软化分模块是以微粒群算法作为搜索方法,以模糊C均值聚类方法对天体光谱数据进行聚类。
5.根据权利要求1所述的一种天体光谱离群数据挖掘系统,其特征是:离群数据挖掘模块是在对天体光谱数据软划分聚类的基础上,设定天体光谱离群数据的距离支持度参数,该参数是判断数据是否满足一般天体光谱模式的阈值,通过对该参数的调整,可以得到不同要求的天体光谱离群数据。
6.一种天体光谱离群数据挖掘方法,其特征是:包含以下步骤:
A、通过中星仪式反射施密特望远镜采集回天体光谱数据,将数据输入计算机内,并存入数据采集存储模块中;
B、将数据采集存储模块中的天体光谱数据,依据距离的方法生成距离矩阵,再重复合并矩阵中距离最近的两条天体光谱数据,直到生成要求的中心点数据个数,并作为下一步软化分的初始值;
C、根据以上述初始值对天体光谱数据进行软化分,软化分是以微粒群算法作为搜索方法,以模糊C均值聚类方法对天体光谱数据进行聚类。
D、在对天体光谱数据软划分的基础上,设定天体光谱离群数据的距离支持度参数,该参数是判断数据是否满足一般天体光谱模式的阈值,通过对该参数的调整,可以得到不同要求的天体光谱离群数据。
7.根据权利要求6所述的一种天体光谱离群数据挖掘方法,其特征是:所要处理的天体光谱数据为中星仪式反射施密特望远镜采集的高维、海量、稀疏数据,其中高维是指中星仪式反射施密特望远镜采集的天体光谱数据的属性达到了1000维以上;海量是指中星仪式反射施密特望远镜要获取将近4T的数据量;稀疏是指中星仪式反射施密特望远镜采集的任何一条天体光谱数据的重要信息可用某些特征线体现出来。
CNA2007101663628A 2007-11-08 2007-11-08 一种天体光谱离群数据挖掘系统和方法 Pending CN101149760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101663628A CN101149760A (zh) 2007-11-08 2007-11-08 一种天体光谱离群数据挖掘系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101663628A CN101149760A (zh) 2007-11-08 2007-11-08 一种天体光谱离群数据挖掘系统和方法

Publications (1)

Publication Number Publication Date
CN101149760A true CN101149760A (zh) 2008-03-26

Family

ID=39250286

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101663628A Pending CN101149760A (zh) 2007-11-08 2007-11-08 一种天体光谱离群数据挖掘系统和方法

Country Status (1)

Country Link
CN (1) CN101149760A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574669A (zh) * 2015-12-16 2016-05-11 国网山东省电力公司电力科学研究院 时空联合数据聚类分析的输变电设备状态异常检测方法
CN114510971A (zh) * 2022-01-26 2022-05-17 太原科技大学 基于关联离群知识的类星体光谱并行化交叉证认方法
CN117591971A (zh) * 2023-07-10 2024-02-23 国网四川省电力公司营销服务中心 一种基于多粒度模糊相对差的无监督窃电检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105574669A (zh) * 2015-12-16 2016-05-11 国网山东省电力公司电力科学研究院 时空联合数据聚类分析的输变电设备状态异常检测方法
CN105574669B (zh) * 2015-12-16 2020-02-14 国网山东省电力公司电力科学研究院 时空联合数据聚类分析的输变电设备状态异常检测方法
CN114510971A (zh) * 2022-01-26 2022-05-17 太原科技大学 基于关联离群知识的类星体光谱并行化交叉证认方法
CN114510971B (zh) * 2022-01-26 2024-03-26 太原科技大学 基于关联离群知识的类星体光谱并行化交叉证认方法
CN117591971A (zh) * 2023-07-10 2024-02-23 国网四川省电力公司营销服务中心 一种基于多粒度模糊相对差的无监督窃电检测方法

Similar Documents

Publication Publication Date Title
Jiang et al. Pdformer: Propagation delay-aware dynamic long-range transformer for traffic flow prediction
Qian et al. Multi-view maximum entropy clustering by jointly leveraging inter-view collaborations and intra-view-weighted attributes
CN104346481B (zh) 一种基于动态同步模型的社区检测方法
CN104462184B (zh) 一种基于双向抽样组合的大规模数据异常识别方法
CN105912666B (zh) 一种面向云平台的混合结构数据高性能存储、查询方法
CN106503148B (zh) 一种基于多知识库的表格实体链接方法
Jiang et al. Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network
Zhu et al. Hybrid-order representation learning for electricity theft detection
Longo et al. Foreword to the focus issue on machine intelligence in astronomy and astrophysics
Shi et al. An improved mean imputation clustering algorithm for incomplete data
CN106250705A (zh) 一种基于云服务的大数据收集分析系统及方法
He et al. A Method of Identifying Thunderstorm Clouds in Satellite Cloud Image Based on Clustering.
CN110163289A (zh) 一种基于最大近邻比的任意形状数据的聚类方法及系统
Xu et al. Remotely sensed image classification by complex network eigenvalue and connected degree
CN110287237B (zh) 一种基于社会网络结构分析社团数据挖掘方法
CN106022359A (zh) 基于有序信息熵的模糊熵空间聚类分析方法
CN101149760A (zh) 一种天体光谱离群数据挖掘系统和方法
CN103065321B (zh) 一种图像特征点匹配模块的面向对象系统框架建立方法
Zhang et al. A density-center-based automatic clustering algorithm for IoT data analysis
CN106126523A (zh) 一种假币犯罪信息分析系统及分析方法
CN115393378B (zh) 一种低成本高效的细胞核图像分割方法
Miao et al. Ultra-short-term prediction of wind power based on sample similarity analysis
Hu et al. Image recognition of Chinese herbal pieces based on multi-task learning model
Zhou et al. Identifying technology evolution pathways by integrating citation network and text mining
CN106550387B (zh) 一种无线传感器网络路由层服务质量评价方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080326