CN114510971B

CN114510971B - 基于关联离群知识的类星体光谱并行化交叉证认方法

Info

Publication number: CN114510971B
Application number: CN202210095013.6A
Authority: CN
Inventors: 马洋; 赵旭俊; 蔡江辉; 杨海峰; 郑爱宇
Original assignee: Taiyuan University of Science and Technology
Current assignee: Taiyuan University of Science and Technology
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2024-03-26
Anticipated expiration: 2042-01-26
Also published as: CN114510971A

Abstract

本发明公开了一种基于关联离群知识的类星体光谱并行化交叉证认方法；属于天体光谱数据分析与处理技术领域；本方法为先采用一阶谓词逻辑对先验信息进行表示，为类星体光谱的交叉证认提供指导；然后对天体光谱数据预处理：最后在Hadoop集群系统中，并行执行三个MapReduce作业完成类星体光谱并行化交叉证认；本发明检测偏离大多数天体光谱的多源离群数据，从而实现特殊、未知类星体的识别与交叉证认，同时所涉及的多源离群数据挖掘方法有效的提高了离群挖掘的准确性。

Description

基于关联离群知识的类星体光谱并行化交叉证认方法

技术领域

本发明属于天体光谱数据分析与处理技术领域，具体涉及一种基于关联离群知识的类星体光谱并行化交叉证认方法。

背景技术

LAMOST(Large Sky Area Multi-Object Fiber Spectroscopic Telescope)，郭守敬望远镜是由中国科学院国家天文台承担研制的大天区面积多目标光纤光谱天文望远镜，是我国自主创新的、世界上口径最大的大视场兼大口径及光谱获取率最高的望远镜，采用并行可控的光纤定位技术，在5度视场，直径为1.75米的焦面上放置4000根光纤，同时获得4000个天体的光谱，使其成为世界上光谱获取率最高的望远镜。到目前，LAMOST已完成了九年的巡天任务，发布的光谱总数超过千万量级。SDSS(Sloan Digital Sky Survey),斯隆数字巡天是使用位于新墨西哥州阿帕奇山顶天文台的2.5米口径望远镜进行的红移巡天项目，经过二十年的运作，已获得海量的天体图像和光谱，SDSS数据支持了一系列天文学科的基础工作，包括星系的性质、类星体的演化、银河系的结构和恒星数量、银河系和M31的矮星系伴星、太阳系中的小行星和其他小天体，宇宙的大尺度结构和物质能量含量等。从海量的光谱中，提取有价值的知识，是天文望远镜的重要任务之一。

类星体是人类所观测到的最遥远的天体，对于了解早期宇宙的演化具有重要科学意义。由于特殊、未知类星体离地球太远且被观测到的数量很少，其光谱包含在各类海量类星体光谱数据源中，其红移一般较大，导致在光学观测窗口中只有很少的特征(发射线)，且难以检测，进而导致类星体的模板难以建立，从不同的巡天项目中的类星体交叉证认已成为识别未知类星体的重要途径。因此由各类巡天项目观测到的多源光谱数据集中，识别和交叉证认特殊、稀有类星体是大规模光谱巡天中亟待解决的难题之一。

随着天文大数据的蓬勃发展，传统的数据处理技术已经不能适应大数据的要求，遭遇了许多技术难题，急需寻找一种有效、可扩展和灵活的数据分析技术来实现天文大数据的处理与分析。数据挖掘是专门针对海量数据提出的一种知识发现技术，它可以被看作是信息技术的自然进化产物，实现了相关学科同应用领域的融合，能较好地适应大数据的发展。离群检测作为数据挖掘领域的一个主要研究内容，旨在发现那些显著区别于大部分数据特征且蕴含着重要信息的稀有、特殊数据对象，因而可作为从海量类星体光谱数据源中，依据其红移、金属丰度、特征线等稀有特征，发现特殊、未知类星体的一种有效新途径和手段。Hadoop作为大数据分布式处理框架，在处理机器学习、数据挖掘等迭代问题时，具有良好的性能优势，从而为海量天体光谱的有效分析和处理，提供了一个高效的、易于实现且可靠的并行编程平台。

发明内容

本发明克服了现有技术的不足，提出一种基于关联离群知识的类星体光谱并行化交叉证认方法，实现特殊、未知类星体的识别与交叉证认。

为了达到上述目的，本发明是通过如下技术方案实现的：

基于关联离群知识的类星体光谱并行化交叉证认方法，包括以下步骤：

a)多源类星体光谱中关联离群的知识表示：采用一阶谓词逻辑对先验信息进行表示，为类星体光谱的交叉证认提供指导；

b)天体光谱数据预处理：结合类星体先验信息的知识表示，采用谱聚类方法对天体光谱数据进行特征选择，生成适用于多源离群挖掘的天体光谱数据集，并将其上传到Hadoop集群系统的HDFS；

c)类星体光谱并行化交叉证认：在Hadoop集群系统中，并行执行三个MapReduce作业完成类星体光谱并行化交叉证认，第一个作业以天体光谱样本数据集作为输入数据，通过度量每条天体光谱的k近邻距离，并采用基于k近邻的离群检测算法，计算样本数据集的对象偏离度；第二个作业以天体光谱数据约减集作为输入数据，采用基于k近邻的多源离群检测算法，实现多源离群知识的并行检测；第三个作业结合谓词公式，对多源离群知识进行分析，实现类星体光谱的交叉证认。

进一步的；所述步骤a中，

a1、多源天体光谱数据被定义为：D＝{D₁，D₂}表示带有两个数据源的天体光谱数据集，其中，是来源于LAMOST(Large Sky Area Multi-Object Fiber SpectroscopicTelescope)天文望远镜采集的光谱数据，N₁和d分别是D₁的对象数及属性数，/>是来源于SDSS(Sloan Digital Sky Survey)天文望远镜采集的相同天区的光谱数据，N₂是D₂的对象数，且和D₁拥有相同的属性数d；

a2、针对类星体光谱先验信息，设计7个谓词，分别为：

1)Important(fs，D)，该谓词表示领域专家提供的类星体特征集fs是数据集中的重要特征；

2)Select(fs，fs'，D)，该谓词表示结合fs，通过特征选择之后获得特征集为fs'，且fs'是fs的超集；

3)AssociatedFeature(fs'，D)，该谓词表示fs'是离群关联特征集；

4)Outlier(value^(fs'⁾，D₁)，其中value^(fs'⁾表示fs'中各个特征的取值，该谓词表示具有value^(fs'⁾取值的对象在D₁中被检测为离群；

5)Outlier(value^(fs’)，D₂)，该谓词表示具有value^(fs'⁾取值的对象在D₂中被检测为离群；

6)StrongAssociatedOutlier(fs'，D)，该谓词表示具有value^(fs'⁾取值的对象在数据集D中是强关联离群；

7)WeakAssociatedOutlier(fs'，D)，该谓词表示具有value^(fs'⁾取值的对象在D中是弱关联离群。

更进一步的，所述步骤a2中，7个谓词通过逻辑运算符组成如下的谓词公式：

1)Important(fs，D)ΛSelect(fs，fs'，D)→AssociatedFeature(fs'，D)；该谓词公式表示特征集fs经过特征选择之后获得的特征集fs'属于离群关联特征；

2)Outlier(value^(fs'⁾，D₁)ΛOutlier(value^(fs'⁾，D₂)→StrongAssociatedOutlier(fs'，D)；该谓词公式表示如果具有value^(fs'⁾取值的对象在数据集D₁和D₂中都被检测为离群，那么这些对象属于强关联离群，特征集fs'上的这组取值属于强关联离群知识；

3)

4)这两个谓词公式表示，具有value^(fs'⁾取值的对象仅在数据集D₁或D₂上被检测为离群，在另一个数据集D₂或D₁是正常对象，那么这些对象属于弱关联离群，特征集fs'上的这组取值属于弱关联离群知识。

进一步的，所述步骤b中，

b1、Hadoop集群是安装Hadoop1.1.2的并行计算环境，根据处理的天体光谱数据大小确定数据节点的数量，所述数据节点的数量≥8个；

b2、采用谱聚类方法进行特征选择，是针对样本数据集D'进行处理，先验信息fs融合在聚类过程中，具体过程如下：

1)样本数据集D'＝{D₁'，D₂'}，是采用随机抽样的方法从天体光谱数据集D＝{D₁，D₂}中各提取10％的数据对象而组成，D₁'和D₂'具有相同的特征集F＝{f₁,…f_i,…f_d}，f_i(1≤i≤d)是第i个特征属性；以特征属性为顶点，特征属性之间的相似性度量值为连接顶点的边，所有特征属性及其两两之间的相似性值构成一个无向加权图G；

2)采用经典的谱聚类方法SC_CD对数据集D'进行谱聚类，即采用SC_CD方法对无向加权图G进行最优分割，可得到一组优化的特征簇集F'＝{F₁,...F_j,...F_m}，其中，m为聚类数，F_j(1≤j≤m)为聚类后的第j个特征簇；

3)特征簇F_j中的每一个特征f_i包含(N₁+N₂)÷10个值，这些值组成了f_i的特征向量；每一个特征向量，根据公式计算特征重要度；

4)特征候选集中存在重复的特征，将其删除，生成最终的特征集；结合第一个谓词公式Important(fs，D)ΛSelect(fs，fs'，D)→AssociatedFeature(fs'，D)，最终的特征集为fs'，它是天体光谱数据集的离群关联特征集；利用特征集fs'对天体光谱原始数据集D进行降维，生成适用于多源关联离群挖掘的天体光谱约减数据集D″＝{D₁″，D₂″}，将其上传到Hadoop集群系统的HDFS。

进一步的，所述步骤c包括：

c1、所述第一个作业，包含一个第一mapper函数和一个第一reducer函数，第一mapper函数从HDFS中获取数据，即D″；采用随机抽样方法提取20％的数据对象，生成天体光谱样本数据集D″′＝{D₁″′，D₂″′}；D″′中数据在各个数据节点被并行处理，实现数据的划分，通过哈希函数hash(o)，将相似度高的对象以较大的概率哈希到同一个桶中，相似度较低的对象哈希到不同的桶中，相同桶中的对象被发送到相同的节点，为第一reducer函数提供相似度较高的数据。第一reducer函数，接收第一mapper传递的哈希桶号及其对象，通过计算每个对象与其第k个最近邻的距离，实现数据集对象偏离度的计算；

c2、所述第二个作业，包含一个第二mapper函数和一个第二reducer函数，第二mapper函数实现天体光谱约减数据集D″＝{D₁″，D₂″}的划分，同样采用哈希函数hash(o)，将HDFS中天体光谱约减数据集D″中每个对象哈希到不同的桶中，然后生成数据集D″的哈希表；第二reducer函数，针对数据集D₁″和D₂″，采用基于k近邻的多源离群检测算法，结合第一个作业输出的数据集的对象偏离度，实现多源离群的并行检测；

c3、所述第三个作业，包含一个第三mapper函数和一个第三reducer函数，第三mapper函数中，对每个数据节点，验证OutlierD1或OutlierD2中离群对象是否出现在OutlierD2或OutlierD1中，将同时出现在OutlierD1和OutlierD2中的离群对象，保存到列表StrongOutlier；将仅出现在OutlierD1或OutlierD2任一个列表中的离群对象，保存到列表WeakOutlier；第三reducer函数中，汇总各结点收集的StrongOutlier和WeakOutlier，删除重复的离群对象，生成最终的多源离群知识。

更进一步的，所述步骤c1中包括：

c11、哈希函数hash(o)设定为其中，a是一个随机向量，r是桶的数量，b是0至r之间的随机数；

c12、基于k近邻的离群检测思想：给定数据集R，参数n和k，数据集R包含N个对象，对于如果在R集中存在不超过n-1个其它对象r'，满足D^k(r')>D^k(r)，那么对象r是一个基于k最近邻查询的离群数据，其中D^k(r)被定义为一个距离，即对象r到它的第k个最近邻之间的距离；令δ(R)＝D^k(r)，当基于k近邻的离群检测用于一个样本数据集的时候，δ(R)作为原始数据集中检测离群数据的依据，δ(R)被称为数据集R的对象偏离度；

c13、天体光谱样本数据集D″′包含两个子集D₁″′、D₂″′，在计算数据集的对象偏离度的时候，D₁″′、D₂″′需分别计算，即令R＝D₁″′或R＝D₂″′，分别计算出数据集D₁″′和D₂″′的的对象偏离度，分别用δ(D₁″′)和δ(D₂″′)表示。

更进一步的，所述步骤c2中包括：

c21、多源离群：给定原始数据集R和它的一个样本集R'，对于如果D^k(r)≥δ(R')，δ(R')是数据集R'的对象偏离度，那么对象r是数据集R中基于k最近邻查询的一个离群数据，记作Outlier(r,R)；数据集R中所有离群数据，即离群数据集用如下公式表示：

Outlier(R)＝{(r,Outlier(r,R))|for all r∈R}

当给定两个数据集R和S的时候，对于/>如果D^k(o)≥δ(R′)，且D^k(o)≥δ(S′)，那么o是数据集R和S中的多源离群，其中，δ(R′)和δ(S′)分别是数据集R和S的样本集的对象偏离度；采用R∝S返回数据集R和S中的所有多源离群数据，即多源离群集，R∝S形式化定义如下：

R∝S＝{Outlier(R)∩Outlier(S)}

＝{(Outlier(o，R)&&Outlier(o，S))|for all o∈R∩S}

c22、基于k近邻的多源离群检测过程分为以下三步：

第一、给定天体光谱约减数据集D″＝{D₁″,D₂″}，假设对于/>通过对哈希表的检索，找出每个对象o的第k个最近邻，然后计算o与其第k个最近邻的欧式距离；

第二、当o为D₁″中对象时，如果距离值大于数据集D₁″′的对象偏离度δ(D₁″′)，那么该对象被认为在数据集D₁″中为离群，将o保存到OutlierD1列表并输出；

第三、当o为D2″中对象时，如果距离值大于数据集D₁″′的对象偏离度δ(D₂″′)，那么该对象被认为在数据集D₂″中为离群，将o保存到OutlierD2列表并输出；其中δ(D₁″′)和δ(D₂″′)的值在第一个作业中计算；列表OutlierD1和OutlierD2组成了多源离群。

本发明相对于现有技术所产生的有益效果为：

1、本发明提供了一种基于关联离群知识的类星体光谱并行化交叉证认方法，从LAMOST和SDSS观测的海量天体光谱数据中，结合领域专家提供的先验信息，检测偏离大多数天体光谱的多源离群数据，从而实现特殊、未知类星体的识别与交叉证认，同时所涉及的多源离群数据挖掘方法有效提高了离群挖掘的准确性。

2、本发明为适应天体光谱数据高维、海量、稀疏的特征，提出了基于谱聚类的天体光谱特征选择方法，采用一阶谓词逻辑将领域专家提供的先验信息转化为领域知识，融合在谱聚类过程中，然后通过特征重要度的计算，对光谱特征进行选择，实现了光谱数据的降维，提高了离群挖掘的效率。

3、本发明针对LAMOST和SDSS两个天体光谱数据源，设计了一种基于局部敏哈希的多源离群数据检测方法，可实现离群数据在其它数据源的验证，有效提高离群挖掘的准确性。

4、本发明充分利用了MapReduce编程模型的强大数据处理能力，设计了一种基于MapReduce的多源离群并行检测方法，用于类星体光谱的并行化交叉证认。

附图说明

图1为本发明的流程图。

图2为本发明中的MapReduce框架图。

图3为通过本发明识别并交叉证认的类星体光谱一。

图4为通过本发明识别并交叉证认的类星体光谱二。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，结合实施例和附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。下面结合实施例及附图详细说明本发明的技术方案，但保护范围不被此限制。

如图1、图2所示，本实施例是一种基于关联离群知识的类星体光谱并行化交叉证认方法，包括以下步骤：

a、多源类星体光谱中关联离群的知识表示：采用一阶谓词逻辑对领域专家提供的先验信息进行表示，为类星体光谱的交叉证认提供指导。

多源天体光谱数据被定义为：D＝{D₁,D₂}表示带有两个数据源的数据集，其中，是来源于LAMOST(Large Sky Area Multi-Object Fiber SpectroscopicTelescope)天文望远镜采集的光谱数据，N₁和d分别是D₁的对象数及属性数，/>是来源于美国SDSS(Sloan Digital Sky Survey)天文望远镜采集的相同天区的光谱数据，N₂是D₂的对象数，且和D₁拥有相同的属性数d。

针对领域专家提供的类星体光谱先验信息，设计7个谓词，分别为：1)Important(fs，D)，该谓词表示领域专家提供的类星体特征集fs是数据集中的重要特征；2)Select(fs,fs',D)，该谓词表示结合fs，通过特征选择之后获得特征集fs'，且fs'是fs的超集；3)AssociatedFeature(fs',D)，该谓词表示fs'是离群关联特征集；4)Outlier(value^(fs'⁾,D₁)，其中value^(fs'⁾表示fs'中各个特征的取值，该谓词表示具有value^(fs'⁾取值的对象在D₁中被检测为离群；5)Outlier(value^(fs'⁾,D₂)，该谓词表示具有value^(fs'⁾取值的对象在D₂中被检测为离群；6)StrongAssociatedOutlier(fs',D)，该谓词表示具有value^(fs'⁾取值的对象在数据集D中是强关联离群；7)WeakAssociatedOutlier(fs',D)，该谓词表示具有value^(fs'⁾取值的对象在D中是弱关联离群。

上述的7个谓词通过逻辑运算符组成如下的谓词公式。1)Important(fs，D)ΛSelect(fs,fs',D)→AssociatedFeature(fs',D)；该谓词公式表示领域专家提供的类星体特征集fs经过特征选择之后获得的特征集fs'属于离群关联特征；2)Outlier(value^(fs'⁾，D₁)ΛOutlier(value^(fs'⁾，D₂)→StrongAssociatedOutlier(fs'，D)；该谓词公式表示如果具有value^(fs'⁾取值的对象在数据集D₁和D₂中都被检测为离群，那么这些对象属于强关联离群，特征集fs'上的这组取值属于强关联离群知识；3) 4)/> 这两个谓词公式表示，具有value^(fs'⁾取值的对象仅在数据集D₁(或D₂)上被检测为离群，在另一个数据集D₂(或D₁)是正常对象，那么这些对象属于弱关联离群，特征集fs'上的这组取值属于弱关联离群知识。

b、天体光谱数据预处理：结合领域专家提供的类星体先验信息，采用谱聚类方法对天体光谱数据进行特征选择，生成适用于多源离群挖掘的天体光谱数据集，并将其上传到Hadoop集群系统的HDFS。

Hadoop集群是指安装Hadoop1.1.2的并行计算环境，根据处理的天体光谱数据大小确定数据节点的数量，至少是8个。

采用谱聚类方法进行特征选择，是针对样本数据集D'进行处理，领域专家提供的先验信息fs融合在聚类过程中，具体过程如下：

1)样本数据集D'＝{D₁',D₂'}，是采用随机抽样的方法从天体光谱数据集D＝{D₁，D₂}中各提取10％的数据对象而组成，因此，D'中包含(N₁+N₂)÷10个数据对象，D₁'和D₂'具有相同的特征集F＝{f₁,…f_i…f_d}，f_i(1≤i≤d)是第i个特征属性。现以特征属性为顶点，特征属性之间的相似性度量值为连接顶点的边，所有特征属性及其两两之间的相似性值构成一个无向加权图G。特征属性之间的相似性采用欧式距离进行度量。

2)采用经典的谱聚类方法SC_CD(谢娟英,丁丽娟.完全自适应的谱聚类算法[J].电子学报,2019,47(05):1000-1008.)对数据集D'进行谱聚类，即采用SC_CD方法对无向加权图G进行最优分割，可得到一组优化的特征簇集F'＝{F₁,...F_j,...F_m}，其中，m为聚类数，F_j(1≤j≤m)为聚类后的第j个特征簇。

3)特征簇F_j中的每一个特征f_i具有(N₁+N₂)÷10个值，这些值组成了f_i的特征向量。每一个特征向量，根据公式计算特征重要度，其中|RkNN(f_i，F_j)|是f_i的特征向量在特征簇F_j中的反向近邻个数，即F_j中其它特征向量的k近邻集中包含f_i特征向量的个数。|RkNN(f_i，fs)|是f_i特征向量在fs构建特征向量集中的反向近邻个数，|fs|是fs中特征个数，特征重要度体现了簇内特征同先验信息fs的相关强度。每一个特征重要度同特征重要度阈值ε进行比较，将大于阈值的特征加入候选特征集。特征重要度阈值ε，在本发明中由各特征向量的反向近邻平均数量来决定。即对于任一特征簇F_j，

4)特征候选集中存在重复的特征，将其删除，生成最终的特征集。结合第一个谓词公式Important(fs，D)ΛSelect(fs,fs',D)→AssociatedFeature(fs',D)，最终的特征集为fs'，它是天体光谱数据集的离群关联特征集。利用特征集fs'对天体光谱原始数据集D进行降维，生成适用于多源关联离群挖掘的天体光谱约减数据集D″＝{D₁″,D₂″}，将其上传到Hadoop集群系统的HDFS，其中

c、类星体光谱并行化交叉证认：在Hadoop集群系统中，设计三个MapReduce作业完成类星体光谱并行化交叉证认，第一个作业以天体光谱样本数据集作为输入数据，通过度量每条天体光谱的k近邻距离，并采用基于k近邻的离群检测算法，计算样本数据集的对象偏离度；第二个作业以天体光谱数据约减集作为输入数据，采用基于k近邻的多源离群检测算法，实现多源离群知识的并行检测；第三个作业结合谓词公式，对多源离群知识进行分析，实现类星体光谱的交叉证认。

c1、所述第一个作业，具体包含一个第一mapper函数和一个第一reducer函数，第一mapper函数从HDFS中获取数据(即D″)，采用随机抽样方法提取20％的数据对象，生成天体光谱样本数据集D″′＝{D₁″′,D₂″′}。D″′中数据在各个数据节点被并行处理，实现数据的划分，具体是通过哈希函数hash(o)，将相似度高的对象以较大的概率哈希到同一个桶中，相似度较低的对象哈希到不同的桶中，相同桶中的对象被发送到相同的节点，为第一reducer函数提供相似度较高的数据。第一reducer函数，接收第一mapper传递的桶号及其对象，通过计算每个对象的k近邻距离，实现数据集对象偏离度的计算。

哈希函数hash(o)在本发明设定为其中，a是一个随机向量，r是桶的数量，b是0至r之间的随机数。

基于k近邻的离群检测思想：给定数据集R，参数n和k，数据集R包含N个对象，对于如果在R集中存在不超过n-1个其它对象r'，满足D^k(r')>D^k(r)，那么对象r是一个基于k最近邻查询的离群数据，其中D^k(r)被定义为一个距离，即对象r到它的第k个最近邻之间的距离。也就是说，根据所有对象的D^k(r)距离值大小，选择n个最大值作为离群数据。令δ(R)＝D^k(r)，当基于k近邻的离群检测用于一个样本数据集的时候，δ(R)可作为原始数据集中检测离群数据的依据，δ(R)被称为数据集R的对象偏离度。

现结合天体光谱数据集进行分析，样本数据集D″′包含两个子集D₁″′、D₂″′，在计算数据集的对象偏离度的时候，D₁″′、D₂″′需分别计算，即令R＝D₁″′(或R＝D₂″′)，计算过程分为四步，第一，对于D₁″′(或D₂″′)中任一光谱对象o，计算它与其它光谱对象之间的欧式距离，第二，根据计算得到的所有距离值，找出距离最小的k个对象，这些对象是o的k近邻，并记录第k个最近邻据与光谱对象o之间的距离，将其存储在数组array[]数组中，第三，所有光谱对象与其对应的第k个最近邻居计算完毕之后，对数组array[]中数据按照降序排序，排序后第n个值就是数据集D₁″′(或D₂″′)中的对象偏离度，分别用δ(D₁″′)和δ(D₂″′)表示。当光谱对象o同其第k个邻居的距离大于数据集对象偏离度的时候，说明光谱对象o离其它对象较远，处于一个稀疏的区域，是离群数据。

c2、所述第二个作业，具体包含一个第二mapper函数和一个第二reducer函数，第二mapper函数实现天体光谱约减数据集D″＝{D₁″,D₂″}的划分，同样采用哈希函数hash(o)，将HDFS中天体光谱约减数据集D″中每个对象哈希到不同的桶中，然后生成数据集D″的哈希表。第二reducer函数，针对数据集D₁″和D₂″，采用基于k近邻的多源离群检测算法，结合第一个作业输出的数据集的对象偏离度δ(D₁″′)和δ(D₂″′)，实现多源离群知识的并行检测。

多源离群：给定原始数据集R和它的一个样本集R'，对于如果D^k(r)≥δ(R')，δ(R')是数据集R'的对象偏离度，那么对象r是R数据集中基于k最近邻查询的一个离群数据，记作Outlier(r,R)。数据集R中所有离群数据，即离群数据集可用如下公式表示：

Outlier(R)＝{(r,Outlier(r,R))|for all r∈R}

当给定两个数据集R和S的时候，对于/>如果D^k(o)≥δ(R′)，且D^k(o)≥δ(S′)，(即(Outlier(o，R)&&Outlier(o，S)))，那么o是数据集R和S中的多源离群，其中，δ(R′)和δ(S′)分别是数据集R和S样本集中的对象偏离度。本发明采用R∝S返回数据集R和S中的所有多源离群数据(即多源离群集)，R∝S形式化定义如下：

R∝S＝{Outlier(R)∩Outlier(S)}

＝{(Outlier(o，R)&&Outlier(o，S))|forallo∈R∩S}

基于k近邻的多源离群检测过程分为以下三步：第一、给定天体光谱约减数据集D″＝{D₁″,D₂″}，假设对于/>通过对哈希表的检索，找出每个对象o的第k个最近邻，然后计算o与其第k个最近邻的欧式距离。第二、当o为D₁″中对象时，如果距离值大于数据集D₁″′的对象偏离度δ(D₁″′)，那么该对象被认为在数据集D₁″中为离群，将o保存到OutlierD1列表并输出。第三、当o为D2″中对象时，如果距离值大于数据集D₁″′的对象偏离度δ(D₂″′)，那么该对象被认为在数据集D₂″中为离群，将o保存到OutlierD2列表并输出。其中δ(D₁″′)和δ(D₂″′)的值在第一个作业中计算。列表OutlierD1和OutlierD2组成了多源离群。

c3、所述第三个作业，具体包含一个第三mapper函数和一个第三reducer函数，第三mapper函数中，对每个数据节点，验证OutlierD1(或OutlierD2)中离群对象是否出现在OutlierD2(或OutlierD1)中，将同时出现在OutlierD1和OutlierD2中的离群对象，保存到列表StrongOutlier。将仅出现在OutlierD1或OutlierD2一个列表中的离群对象，保存到WeakOutlier。第三reducer函数中，汇总各结点收集的StrongOutlier和WeakOutlier，删除重复的离群对象，生成最终的多源离群知识。结合第二个谓词公式Outlier(value^(fs’)，D₁)ΛOutlier(value^(fs’)，D₂)→StrongAssociatedOutlier(fs'，D)，列表StrongOutlier中保存的对象属于强关联离群，其对应的特征值是强关联离群知识，这些离群数据是本发明识别的类星体光谱，它通过了LAMOST和SDSS获取光谱的交叉证认，所获取的强关联离群知识是类星体光谱识别的依据，在经过领域专家确认、分析之后，可作为其它类星体光谱识别的先验信息。结合第三个谓词公式和第四个谓词公式/> 列表WeakOutlier中保存的对象属于弱关联离群，其对应的特征值是弱关联离群知识。这些弱关联离群，未能通过LAMOST和SDSS获取光谱的交叉证认，它们有可能是类星体光谱，但需天文学专家进一步证认。

图3是通过本发明识别并交叉证认的一条特殊类星体光谱，该光谱在特征线LyA、NV、SIV+OIV处，坏点较多，严重影响光谱的模板匹配，本来只有发射线的区域，出现了较多疑似吸收线的特征，通过本发明可对该类光谱有效识别并交叉证认。

图4是通过本发明识别并交叉证认的另外一条特殊类星体光谱，该光谱的特征线在光学波段呈现的数量较少，只有LyA特征明显，且容易被lamda6564处的Halpha干扰，再加上光谱质量较差，难以辨认该光谱是大红移类星体，通过本发明同样可以有效识别该类光谱，并对其进行交叉证认。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定专利保护范围。

Claims

1.基于关联离群知识的类星体光谱并行化交叉证认方法，其特征在于，包括以下步骤：

c)类星体光谱并行化交叉证认：在Hadoop集群系统中，并行执行三个MapReduce作业完成类星体光谱并行化交叉证认，第一个作业以天体光谱样本数据集作为输入数据，通过度量每条天体光谱的k近邻距离，并采用基于k近邻的离群检测算法，计算样本数据集的对象偏离度；第二个作业以天体光谱数据约减集作为输入数据，采用基于k近邻的多源离群检测算法，实现多源离群知识的并行检测；第三个作业结合谓词公式，对多源离群知识进行分析，实现类星体光谱的交叉证认；所述第三个作业，包含一个第三mapper函数和一个第三reducer函数，第三mapper函数中，对每个数据节点，验证OutlierD1或OutlierD2中离群对象是否出现在OutlierD2或OutlierD1中，将同时出现在OutlierD1和OutlierD2中的离群对象，保存到列表StrongOutlier；将仅出现在OutlierD1或OutlierD2任一个列表中的离群对象，保存到列表WeakOutlier；第三reducer函数中，汇总各结点收集的StrongOutlier和WeakOutlier，删除重复的离群对象，生成最终的多源离群知识。

2.根据权利要求1所述的基于关联离群知识的类星体光谱并行化交叉证认方法，其特征在于：所述步骤a中，

a1、多源天体光谱数据被定义为：D＝{D₁，D₂}表示带有两个数据源的天体光谱数据集，其中，是来源于LAMOST天文望远镜采集的光谱数据，N₁和d分别是D₁的对象数及属性数，/>是来源于SDSS天文望远镜采集的相同天区的光谱数据，N₂是D₂的对象数，且和D₁拥有相同的属性数d；

a2、针对类星体光谱先验信息，设计7个谓词，分别为：

3)AssociatedFeature(fs'，D)，该谓词表示fs'是离群关联特征集；

4)Outlier(value^(fs')，D₁)，其中value^(fs')表示fs'中各个特征的取值，该谓词表示具有value^(fs')取值的对象在D₁中被检测为离群；

5)Outlier(value^(fs’)，D₂)，该谓词表示具有value^(fs')取值的对象在D₂中被检测为离群；

6)StrongAssociatedOutlier(fs'，D)，该谓词表示具有value^(fs')取值的对象在数据集D中是强关联离群；

7)WeakAssociatedOutlier(fs'，D)，该谓词表示具有value^(fs')取值的对象在D中是弱关联离群。

3.根据权利要求2所述的基于关联离群知识的类星体光谱并行化交叉证认方法，其特征在于：所述步骤a2中，7个谓词通过逻辑运算符组成如下的谓词公式：

2)Outlier(value^(fs')，D₁)ΛOutlier(value^(fs')，D₂)→StrongAssociatedOutlier(fs'，D)；该谓词公式表示如果具有value^(fs')取值的对象在数据集D₁和D₂中都被检测为离群，那么这些对象属于强关联离群，特征集fs'上的这组取值属于强关联离群知识；

3)

4)这两个谓词公式表示，具有value^(fs')取值的对象仅在数据集D₁或D₂上被检测为离群，在另一个数据集D₂或D₁是正常对象，那么这些对象属于弱关联离群，特征集fs'上的这组取值属于弱关联离群知识。

4.根据权利要求1所述的基于关联离群知识的类星体光谱并行化交叉证认方法，其特征在于：所述步骤b中包括：

4)特征候选集中存在重复的特征，将其删除，生成最终的特征集；结合第一个谓词公式Important(fs，D)ΛSelect(fs，fs'，D)→AssociatedFeature(fs'，D)，最终的特征集为fs'，它是天体光谱数据集的离群关联特征集；利用特征集fs'对天体光谱原始数据集D进行降维，生成适用于多源关联离群挖掘的天体光谱约减数据集D”＝{D₁”，D₂”}，将其上传到Hadoop集群系统的HDFS。

5.根据权利要求1所述的基于关联离群知识的类星体光谱并行化交叉证认方法，其特征在于：所述步骤c包括：

c1、所述第一个作业，包含一个第一mapper函数和一个第一reducer函数，第一mapper函数从HDFS中获取数据，即D”；采用随机抽样方法提取20％的数据对象，生成天体光谱样本数据集D”'＝{D₁”'，D₂”'}；D”'中数据在各个数据节点被并行处理，实现数据的划分，通过哈希函数hash(o)，将相似度高的对象以较大的概率哈希到同一个桶中，相似度较低的对象哈希到不同的桶中，相同桶中的对象被发送到相同的节点，为第一reducer函数提供相似度较高的数据；第一reducer函数，接收第一mapper传递的哈希桶号及其对象，通过计算每个对象与其第k个最近邻的距离，实现数据集对象偏离度的计算；

c2、所述第二个作业，包含一个第二mapper函数和一个第二reducer函数，第二mapper函数实现天体光谱约减数据集D”＝{D₁”，D₂”}的划分，同样采用哈希函数hash(o)，将HDFS中天体光谱约减数据集D”中每个对象哈希到不同的桶中，然后生成数据集D”的哈希表；第二reducer函数，针对数据集D₁”和D₂”，采用基于k近邻的多源离群检测算法，结合第一个作业输出的数据集的对象偏离度，实现多源离群的并行检测。

6.根据权利要求5所述的基于关联离群知识的类星体光谱并行化交叉证认方法，其特征在于：所述步骤c1中包括：

c13、天体光谱样本数据集D”'包含两个子集D₁”'、D₂”'，在计算数据集的对象偏离度的时候，D₁”'、D₂”'需分别计算，即令R＝D₁”'或R＝D₂”'，分别计算出数据集D₁”'和D₂”'的的对象偏离度，分别用δ(D₁”')和δ(D₂”')表示。

7.根据权利要求5所述的基于关联离群知识的类星体光谱并行化交叉证认方法，其特征在于：所述步骤c2中包括：

Outlier(R)＝{(r,Outlier(r,R))|for all r∈R}

当给定两个数据集R和S的时候，对于/>如果D^k(o)≥δ(R′)，且D^k(o)≥δ(R′)，那么o是数据集R和S中的多源离群，其中，δ(R′)和δ(S′)分别是数据集R和S的样本集的对象偏离度；采用R∝S返回数据集R和S中的所有多源离群数据，即多源离群集，R∝S形式化定义如下：

R∝S＝{Outlier(R)∩Outlier(S)}

＝{(Outlier(o，R)&&Outlier(o，S))|for all o∈R∩S}

c22、基于k近邻的多源离群检测过程分为以下三步：

第一、给定天体光谱约减数据集D”＝{D₁”,D₂”}，假设对于/>通过对哈希表的检索，找出每个对象o的第k个最近邻，然后计算o与其第k个最近邻的欧式距离；

第二、当o为D₁”中对象时，如果距离值大于数据集D₁”'的对象偏离度δ(D₁”')，那么该对象被认为在数据集D₁”中为离群，将o保存到OutlierD1列表并输出；

第三、当o为D2”中对象时，如果距离值大于数据集D₁”'的对象偏离度δ(D₂”')，那么该对象被认为在数据集D₂”中为离群，将o保存到OutlierD2列表并输出；其中δ(D₁”')和δ(D₂”')的值在第一个作业中计算；列表OutlierD1和OutlierD2组成了多源离群。