CN105718941B

CN105718941B - 基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法

Info

Publication number: CN105718941B
Application number: CN201610031687.4A
Authority: CN
Inventors: 刘忠宝; 赵文娟; 杨秋翔
Original assignee: North University of China
Current assignee: North University of China
Priority date: 2016-01-18
Filing date: 2016-01-18
Publication date: 2017-06-27
Anticipated expiration: 2036-01-18
Also published as: CN105718941A

Abstract

本发明提供了一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，首先选取训练样本集，然后构建基于模糊大间隔最小球分类模型，接着定义决策函数，最后利用决策函数对测试样本集进行类别判定。在该模型中，模糊技术的引入保证将样本区别对待，这样便减少噪声点和奇异点对分类结果的影响。本发明基于模糊最大间隔最小球模型对离群点较为敏感，在一定程度上克服了已有分类方法在特殊天体发现方面的不足，为特殊天体发现研究提供了新的思路。

Description

基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法

技术领域

本发明涉及一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，属于天体光谱分类领域。

背景技术

大型天文望远镜采集到的海量天体数据使天文学家摆脱了“数据贫乏”的窘境，但随之而来的问题是如何对这些数据进行有效分析和处理。由于人类对宇宙的认识还较为有限，因此，大型天文望远镜巡天的任务之一就是发现一些新的、特殊的天体。特殊天体的发现对于人类了解宇宙演变规律具有重要意义。目前，常见特殊天体发现方法的基本思想是利用智能分类算法对离群数据进行处理和分析。离群数据是指不满足其他数据的一般规律或分布性状，与已有数据不一致的数据。与一般数据相比，离群数据包含更重要的信息，深入挖掘这部分数据对于特征天体发现至关重要。

近年来天体光谱数据分类方法不断涌现，主要包括：Autoclass基于贝叶斯理论并采用非监督学习算法；Starck将小波变换引入光谱分析；Gulati等采用两层BP网络实现恒星光谱分类；Bailer-Jones利用多层感知神经网络和主元分析进行恒星光谱自动分类；覃冬梅等利用主元分析和最近邻分类器实现恒星光谱自动分类；刘蓉等利用小波特征对光谱星系进行分类；杨金福等提出基于核技巧与覆盖算法的光谱自动分类方法；许馨等利用核技巧将非线性问题转化为高维线性问题并利用线性判别分析算法进行光谱分类；赵梅芳等提出基于自适应增强的光谱分类方法；孙士卫等提出基于数据仓库的星系光谱分类方法；张怀福等利用小波包和支持向量机技术对活动天体和非天体光谱分类问题展开研究；张继福等提出基于约束概念格的恒星光谱数据自动分类方法；刘蓉等提出基于贝叶斯和主元分析的光谱分类方法；李乡儒等提出基于最近邻算法的光谱分类方法；Mahdi利用自组织映射算法进行光谱分类；Navarro等利用人工神经网络进行光谱分类；刘忠宝等提出基于流形判别分析和支持向量机的恒星光谱分类方法。

上述分类方法均能较好地完成天体光谱分类任务，但它们均对离群数据不敏感，分类性能甚至受离群点影响较大，因而无法完成特殊天体发现任务。

发明内容

为了解决现有技术的不足，本发明提供了一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，该方法基于模糊最大间隔最小球模型(Fuzzy Large Margin andMinimum Ball Classification Model，FLM-MBC)，该模型对离群点较为敏感，在一定程度上克服了已有分类方法在特殊天体发现方面的不足，为特殊天体发现研究提供了新的思路。在该模型中，模糊技术的引入保证将样本区别对待，这样便减少噪声点和奇异点对分类结果的影响。

本发明为解决其技术问题所采用的技术方案是：提供了一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，包括以下步骤：

(1)对于斯隆望远镜采集回的天体光谱数据，根据每一个光谱数据的流量、峰宽和形状将其离散化，得到待处理的数据集；假设所述样本集由m₁′个一般类样本和m₂′个离群类样本构成，样本总数n′＝m₁′+m₂′，m₂′＜＜m₁′；由m₁′个一般类样本组成的集合中x_i表示一般类样本，1≤i≤m₁′，y_i表示类别标签，y_i＝1表示该样本属于一般类；m₂′个离群类样本组成的集合中x_j表示离群类样本，m₁′+1≤j≤n′，y_j表示类别标签，y_j＝-1，表示该样本属于离群类；从样本集中随机选取n个样本构成训练样本集，使训练样本集中的一般类样本和离群类样本的数量分别为m₁和m₂，比例保持为m₁/m₂＝m₁′/m₂′，样本集中除其训练样本集以外的样本组成测试样本集；

(2)利用训练样本集构建基于模糊大间隔最小球分类模型，所述基于模糊大间隔最小球分类模型的最优化问题为：

其约束条件为：

其中，c和R分别为待求的最小球的中心和半径；ρ²为待求的最小球边界与离群类样本之间的间隔；ξ＝[ξ₁,ξ₂,...,ξ_n]^T为待求的松弛因子；s＝[s₁,s₂,...,s_n]^T为模糊因子，通过模糊隶属度函数s(x)计算得到，s_k＝s(x_k)，1≤k≤n；v、v₁和v₂为正常数，通过网格搜索策略获得；φ(x_i)为样本x的核化形式；

(3)利用Lagrangian乘子法将最优化问题转化为QP对偶形式，求得最小球的球心c，根据球心c定义决策函数；

(4)利用决策函数对测试样本集中的样本进行类别判定，以判别测试样本集中的样本属于一般类或离群类。

步骤(2)中，所述模糊隶属度函数采用基于距离的隶属度函数：

其中，为训练样本集的类中心，即训练样本集中所有样本的均值，r为训练样本集的类半径且δ为正数，其取值范围为(10^-3，10^-2)，它保证s(x_i)＞0。

将基于模糊大间隔最小球分类模型的最优化问题表示为Lagrangian函数为：

其中，α_i和β_j为拉格朗日乘子且α_i＞0，β_j＞0；

对L(R,c,ρ,ξ,α,β)分别对R、c、ρ、ξ、α和β进行求导并令导数为0，得到：

将上述求导后得到的式子代入Lagrangian函数得到最优化问题的QP对偶形式为：

其中核函数K(x,y)＝φ(x)^Tφ(y)。

步骤(3)所述的决策函数为：

其中，若f(x)＞0，则样本x是一般类，否则样本x是离群类。

本发明基于其技术方案所具有的有益效果在于：

(1)本发明的一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，基于模糊最大间隔最小球模型(Fuzzy Large Margin and Minimum Ball ClassificationModel，FLM-MBC)，该模型对离群点较为敏感，在一定程度上克服了已有分类方法在特殊天体发现方面的不足，为特殊天体发现研究提供了新的思路；

(2)本发明的一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，在FLM-MBC模型中引入了模糊技术，保证将样本区别对待，这样便减少噪声点和奇异点对分类结果的影响；

(3)本发明的一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，其模型容易利用Lagrangian乘子法将最优化问题转化为QP对偶形式，计算效率高；

(4)实验对比证实本发明的一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，具有更优的分类能力，能够较好地完成离群数据发现任务，并且如果两类天体光谱数据差异较大，本发明所提供的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法的识别率结果更优，说明本发明所提供的方法在特殊天体方面的优越性。

具体实施方式

下面结合实施例对本发明作进一步说明。

本发明的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法原理为：

本发明采用了支持向量数据描述(Support Vector Data Description，SVDD)，SVDD是一种常见的新颖检测方法，其目标是找到一个以c为球心，R为半径的球状模型。建立该球状模型的关键是确定其球心和半径，它们可由如下最优化问题求得：

线性形式：

minR² (1)

s.t. ||c-x_i||²≤R² i＝1,...,N (2)

其中c和R分别为最小包含球的球心和半径。

非线性形式：

minR²

其中N和分别表示样本数和原始空间到高维空间的映射函数。

上述优化问题的对偶形式如下：

s.t. α^T1＝1，α≥0 (5)

其中α＝[α₁,...,α_N]^T，1＝[1,...,1]^T，核函数0＝[0,...,0]^T。

本发明采用了模糊技术，模糊技术用于处理不精确或不确定性信息，模糊技术将某特征属于某集合的程度由0和1之间的隶属度来表示，常用的隶属度函数有：

(1)基于距离的隶属度函数：

其中，为类中心，r为类半径且δ为很小的正数，其取值范围为(10^-3，10^-2)，它保证s(x_i)＞0。

(2)基于紧密度的隶属度函数：

其中，和分别表示两类半径，和分别表示两类中心，表示两类中心间距，和分别表示各样本到其类中心的距离，ε为半径控制因子，ε＞0，δ为很小的正数，其取值范围为(10^-3，10^-2)，它保证且

为了解决传统分类方法无法解决的离群样本发现问题，本发明提出了模糊大间隔最小球分类模型FLM-MBC，该模型的基本思想是首先利用部分一般类样本和离群类样本构建最小球模型；然后，为了减小错分离群类样本的可能性，特将最小球边界与离群类样本之间的间隔最大化；最后，通过引入模糊技术，使得FLM-MBC将样本区别对待，从而少噪声对分类结果的影响。

基于上述原理，本发明提供的一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，包括以下步骤：

(1)对于斯隆望远镜采集回的天体光谱数据，根据每一个光谱数据的流量、峰宽和形状将其离散化，得到待处理的数据集；假设所述样本集由m₁′个一般类样本和m₂′个离群类样本构成，样本总数n′＝m₁′+m₂′，一般情况下，离群类样本数远小于一般类样本数，则m₂′＜＜m₁′，由m₁′个一般类样本组成的集合中x_i表示一般类样本，1≤i≤m₁′，y_i表示类别标签，y_i＝1表示该样本属于一般类；m₂′个离群类样本组成的集合中x_j表示离群类样本，m₁′+1≤j≤n′，y_j表示类别标签，y_j＝-1，表示该样本属于离群类；从样本集中随机选取n个样本构成训练样本集，使训练样本集中的一般类样本和离群类样本的数量分别为m₁和m₂，比例保持为m₁/m₂＝m₁′/m₂′，样本集中除其训练样本集以外的样本组成测试样本集；

其约束条件为：

一般的模糊隶属度函数都可以有效地表征不同样本的重要程度。鉴于天体数据结构复杂的特性，本发明选取模糊隶属度函数的主要依据是其计算效率。

所述模糊隶属度函数采用基于距离的隶属度函数：

所述模糊隶属度函数也可以采用基于紧密度的隶属度函数：

其中，和分别表示一般样本和离群样本的类半径，和分别表示一般样本和离群样本的类中心，表示一般样本和离群样本这两类的中心间距，和分别表示样本到其类中心的距离，ε为半径控制因子，ε＞0，δ为正数，其取值范围为(10^-3，10^-2)，它保证且

(3)利用Lagrangian乘子法将最优化问题转化为QP对偶形式，求得最小球的球心c，根据球心c定义决策函数；具体包括以下过程：

其中，α_i和β_j为拉格朗日乘子且α_i＞0，β_j＞0；

利用式(15)可求得FLM-MBC的球心c；利用式(11)可求得FLM-MBC的最小球半径R；利用式(12)可以求得FLM-MBC的最小球边界与离群类样本之间的间隔ρ²。

将上述求导后得到的式子(11)至(15)代入Lagrangian函数式(10)得到最优化问题的QP对偶形式为：

其中核函数K(x,y)＝φ(x)^Tφ(y)；

将球心c代入下式即得到决策函数为：

其中，

(4)利用式(21)给出的决策函数对测试样本集中的样本进行类别判定，以判别测试样本集中的样本属于一般类或离群类；若f(x)＞0，则样本x是一般类，否则样本x是离群类。

FLM-MBC决策函数的基本思想是对于一个类属未知的样本x，考察其与最小球球心之间的距离，若该距离小于半径，则该样本为一般类样本；若该距离大于半径，则该样本为离群类样本。

下面将本发明的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法进行实验分析。

实验采用美国斯隆望远镜巡天发布的第8批恒星光谱数据SDSS DR8。将K型中的5500条K1次型光谱数据作为一般类样本集，将500条K7次型光谱数据作为离群类样本集。实验数据经过如下预处理：(1)选择间隔为20的200个波长作为条件属性；(2)根据每一个波长处的流量、峰宽和形状，将其离散化为十三中数值之一；(3)恒星类别为决策属性。实验分别选取一般样本集和离群样本集的30％、40％、50％、60％、70％作为训练样本集，剩余的光谱数据作为测试样本集。实验选用基于距离的模糊隶属度函数。

FLM-MBC的有效性通过与C-SVM、SVDD、KNN等当前主流分类方法的比较实验验证。本实验参数的获取方式采用10倍交叉验证法。利用网格搜索策略可对最佳实验参数进行选择。C-SVM中的参数C在网格{0.1，0.5，1，5，10}中搜索；KNN中参数K在网格{1，3，5，7，9}中搜索；FLM-MBC中的参数v、v₁、v₂在网格{0.1，0.2，0.3，0.4，0.5，0.6，0.7，0.8，0.9}中搜索。实验重点考察上述算法对离群样本的识别率，实验结果存放于表1，其中Training Size、TestSize、Average分别表示训练样本集大小、测试样本集大小以及平均分类性能。在TrainingSize和Test Size中，括号前的值表示训练样本和测试样本的规模，括号中的值依次表示一般样本和离群样本的规模。

表1 各方法的分类结果

由表1可以看出，随着训练样本规模的增大，各类算法的分类效率均有不同程度的提升。当选取不同的训练样本规模时，FLM-MBC较之C-SVM、SVDD、KNN等传统方法均具有更优的分类能力。从平均分类性能看，FLM-MBC亦具有较大优势。究其原因，一方面FLM-MBC在建立最优化问题时就将离群数据考虑在内；另一方面，模糊技术的引入，使得FLM-MBC在分类决策时减小了噪声对分类结果的影响。

上述实验选取的是SDSSDR8中的K型恒星数据K1次型和K7次型，两种次型具有较大的相似性，但从分类效果看，本文所提算法FLM-MBC能较好地完成离群类数据发现任务。在实际应用中，如果两类天体光谱数据差异较大，FLM-MBC的识别率较之本实验所得结果则更优，这说明FLM-MBC在特殊天体方面的优越性。

Claims

1.一种基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，其特征在于包括以下步骤：

(1)对于斯隆望远镜采集回的天体光谱数据，根据每一个光谱数据的流量、峰宽和形状将其离散化，得到待处理的数据集；假设样本集由m₁′个一般类样本和m₂′个离群类样本构成，样本总数n′＝m₁′+m₂′，m₂′<<m₁′；由m₁′个一般类样本组成的集合中x_i表示一般类样本，1≤i≤m₁′，y_i表示类别标签，y_i＝1表示该样本属于一般类；m₂′个离群类样本组成的集合中x_j表示离群类样本，m₁′+1≤j≤n′，y_j表示类别标签，y_j＝-1，表示该样本属于离群类；从样本集中随机选取n个样本构成训练样本集，使训练样本集中的一般类样本和离群类样本的数量分别为m₁和m₂，比例保持为m₁/m₂＝m₁′/m₂′，样本集中除其训练样本集以外的样本组成测试样本集；

\underset{R, c, ρ, ξ}{m i n} R^{2} - {vρ}^{2} + \frac{1}{v_{1} m_{1}} Σ_{i = 1}^{m_{1}} s_{i} ξ_{i} + \frac{1}{v_{2} m_{2}} Σ_{j = m_{1} + 1}^{m_{2}} s_{j} ξ_{j}

其约束条件为：

s.t. ||φ(x_i)-c||²≤R²+ξ_i 1≤i≤m₁

||φ(x_j)-c||²≥R²+ρ²-ξ_j m₁+1≤j≤n

ξ_k≥0 1≤k≤n

其中，c和R分别为待求的最小球的中心和半径；ρ²为待求的最小球边界与离群类样本之间的间隔；ξ＝[ξ₁,ξ₂,...,ξ_n]^T为待求的松弛因子；s＝[s₁,s₂,...,s_n]^T为模糊因子，通过模糊隶属度函数s(x)计算得到，s_k＝s(x_k)，1≤k≤n；v、v₁和v₂为正常数，通过网格搜索策略获得；φ(x_i)为样本x的核化形式；所述模糊隶属度函数采用基于距离的隶属度函数：

s (x_{i}) = 1 - \frac{| | x_{i} - \overset{&OverBar;}{x} | |}{r} + δ

其中，为训练样本集的类中心，即训练样本集中所有样本的均值，r为训练样本集的类半径且δ为正数，其取值范围为(10^-3，10^-2)，它保证s(x_i)>0；

2.根据权利要求1所述的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，其特征在于：步骤(3)所述利用Lagrangian乘子法将最优化问题转化为QP对偶形式，具体包括以下过程：

\begin{matrix} L (R, c, ρ, ξ, α, β) = R^{2} - {vρ}^{2} + \frac{1}{v_{1} m_{1}} Σ_{i = 1}^{m_{1}} s_{i} ξ_{i} + \frac{1}{v_{2} m_{2}} Σ_{j = m_{1} + 1}^{n} s_{j} ξ_{j} \\ + Σ_{i = 1}^{m_{1}} α_{i} (| | φ (x_{i}) - c | |^{2} - R^{2} - ξ_{i}) - Σ_{j = m_{1} + 1}^{n} β_{j} (| | φ (x_{j}) - c | |^{2} - R^{2} - ρ^{2} + ξ_{j}) - Σ_{k = 1}^{n} β_{k} β_{k} \end{matrix}

其中，α_i和β_j为拉格朗日乘子且α_i>0，β_j>0；

\frac{\partial L}{\partial R} = 2 R (1 - Σ_{i = 1}^{n} α_{i} y_{i}) = 0

\frac{\partial L}{\partial ρ} = 2 ρ (Σ_{j = m_{1} + 1}^{n} α_{j} - v) = 0

\begin{matrix} \frac{\partial L}{\partial ξ_{i}} = \frac{s_{i}}{v_{1} m_{1}} - α_{i} - β_{i} = 0 & 1 \leq i \leq m_{1} \end{matrix}

\begin{matrix} \frac{\partial L}{\partial ξ_{j}} = \frac{s_{j}}{v_{2} m_{2}} - α_{j} - β_{j} = 0 & m_{1} + 1 \leq j \leq n \end{matrix}

\frac{\partial L}{\partial c} = 2 c Σ_{i = 1}^{n} α_{i} y_{i} - 2 c Σ_{i = 1}^{n} α_{i} y_{i} φ (x_{i}) = 0 &DoubleRightArrow; c = \frac{Σ_{i = 1}^{n} α_{i} y_{i} φ (x_{i})}{Σ_{i = 1}^{n} α_{i} y_{i}} = Σ_{i = 1}^{n} α_{i} y_{i} φ (x_{i})

\underset{R, c, ρ, ξ}{m i n} Σ_{i = 1}^{n} Σ_{j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j}) - Σ_{i = 1}^{n} α_{i} y_{i} K (x_{i}, x_{i})

\begin{matrix} s . t . & 0 \leq α_{i} \leq \frac{s_{i}}{v_{1} m_{1}} & 1 \leq i \leq m_{1} \end{matrix}

\begin{matrix} 0 \leq α_{j} \leq \frac{s_{j}}{v_{2} m_{2}} & m_{1} + 1 \leq j \leq n \end{matrix}

Σ_{i = 1}^{n} α_{i} y_{i} = 1

Σ_{i = 1}^{n} α_{i} = 2 v + 1

其中核函数K(x,y)＝φ(x)^Tφ(y)。

3.根据权利要求2所述的基于模糊大间隔最小球分类的恒星光谱离群数据挖掘方法，其特征在于：步骤(3)所述的决策函数为：

\begin{matrix} f (x) = s g n (R^{2} - | | φ (x) - c | |^{2}) \\ = s g n (R^{2} - < c, c > - K (x, x) + 2 Σ_{k = 1}^{n} α_{k} y_{k} K (x, x_{k})) \end{matrix}

其中，若f(x)>0，则样本x是一般类，否则样本x是离群类。