CN110175313B - 天文巡天数据处理方法、系统和存储介质 - Google Patents
天文巡天数据处理方法、系统和存储介质 Download PDFInfo
- Publication number
- CN110175313B CN110175313B CN201910437719.4A CN201910437719A CN110175313B CN 110175313 B CN110175313 B CN 110175313B CN 201910437719 A CN201910437719 A CN 201910437719A CN 110175313 B CN110175313 B CN 110175313B
- Authority
- CN
- China
- Prior art keywords
- spectrum
- template
- polynomial
- data
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 12
- 238000001228 spectrum Methods 0.000 claims abstract description 184
- 239000011159 matrix material Substances 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000003595 spectral effect Effects 0.000 claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000015654 memory Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000007726 management method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 9
- 230000004907 flux Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000019892 Stellar Nutrition 0.000 description 1
- 241001425726 Vindula arsinoe Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/542—Event management; Broadcasting; Multicasting; Notifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Algebra (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供了一种天文巡天数据处理方法、系统和存储介质,该方法包括:数据分配步骤,将待处理光谱数据文件投递到分布式文件系统,并分割为多个数据块,分配给计算节点;数据计算步骤,进行匹配模板匹配方法对数据块中的待测光谱进行光谱分类并存储光谱分类结果;数据计算步骤包括:读取模板光谱提取模板通用算子,模板通用算子包括:矩阵X=[fmW4fmW3fmW2fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值,fm为模板光谱流量值,W是多项式中波长方向上的变量;读取待测光谱;进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;针对每个模板光谱,找到对应最小卡方误差和对应红移,确定待测光谱的分类。
Description
技术领域
本发明涉及天文数据处理技术领域,尤其涉及一种天文巡天数据处理方法、系统和存储介质。
背景技术
随着大数据时代的全面到来,天文数据处理也迎来了新的时期。对TB甚至PB数量级的天文数据处理用传统的数据处理方法和传统的计算框架越来越吃力。郭守敬望远镜(LAMOST,大天区面积多目标光纤光谱天文望远镜)一次观测能够同时获得4000个天体的光谱,是世界上光谱获取率最高的巡天望远镜,该望远镜肩负着星体的普查工作,已经运行了多个年头,发布的光谱数据累计高达1000多万条。传统的处理方法是用高性能工作站来处理这些数据,如图1所示。图1中,管理工作站2用于进行巡天数据管理,将来自3U存储服务器3的巡天数据通过内部网络传送给一台或多台运算工作站4进行运算,用户终端1用于向管理工作站2发送操作指令。郭守敬望远镜巡天数据的一维光谱处理通过模板匹配进行光谱分类,在传统技术下利用奇异值分解(SVD:Singular Value Decomposition)来求多项式的系数进行模板匹配产生的计算量直接与模板的个数有关,增加模板个数就增加成倍的工作量,在处理大数据时是非常可怕的后果。就目前1000万条郭守敬望远镜巡天光谱来说,单个服务器处理一遍需要5000小时。若把光谱分开来给32台服务器同时处理,也需要160小时,处理成本(时间成本,硬件成本)非常大。如果再增加100个模板,处理时间就要延长100倍,而且处理过程中如果出现问题需要重新处理,后果更是不堪设想。随着巡天光谱数据更加完备,模板数量也会不断的增多,传统的处理方法就只能不断的扩大运行成本,并使得计算越来越困难。
随着海量巡天数据的产生,对巡天数据的这种传统计算方法在数据读取和数据计算过程中都会出现不同程度的短板,如果仅仅利用单台工作站计算通常不能在可接受的时间内完成工作,而依托多台独立工作站采用多线程的处理方式往往会出现分配不均,结果难处理等问题,处理时间仍旧太长。并且这种工作方式没有数据共享和实时容灾恢复机制,为数据的后期处理带来一定的风险。
也即,随着天文巡天数据量的增大,传统的处理方法显得捉襟见肘,如何快速有效的处理这些巡天数据是本发明亟待解决的一个问题。
发明内容
有鉴于此,本发明提供了一种天文望远镜巡天数据处理方法、系统和存储介质,以能够快速有效的处理巡天数据。
为了实现上述目的,本发明采用以下方案:
本发明的一方面提供一种天文巡天数据处理方法,该方法包括:
数据分配步骤:将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;
数据计算步骤:利用分布式计算框架,在各计算节点,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;所述模板匹配方法满足如下公式:
X×B=fo;
其中,fo是待测光谱流量值,fm为模板光谱流量值,表示所述多项式,βi表多项式的系数,Wi表示多项式中波长方向上的变量,n为多项式的阶数,X为多项式中波长方向上的变量Wi与fm的乘积的矩阵表达,B为多项式中系数βi的矩阵表达;
其中,所述数据计算步骤包括:
读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmWn fmWn-1 fmW2 fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。
在一实施例中,所述方法还包括:数据预处理步骤:提取巡天文件数据信息,对提取的信息进行格式化处理,得到待处理光谱数据文件。
在一实施例中,所述数据预处理步骤包括:读取FITS格式巡天文件数据,提取FITS头信息和光谱数据,将提取的信息进行格式化并合并。
在一实施例中,所述方法还包括:将提取模板通用算子存储为广播变量,并发送给各个计算节点。
在一实施例中,所述针对每个模板光谱,找到对应最小卡方误差和对应红移的步骤包括:针对每一模板光谱,找到最小卡方误差及其周围的预定个数的卡方误差点,进行高斯拟合;根据高斯拟合曲线的最低点作为当前模板得到最小卡方误差及其对应的红外值。
在一实施例中,所述分布式计算框架为Spark计算框架。
本发明的另一方面提供一种天文巡天数据处理装置,该装置包括处理器和存储器,所述处理器被配置为执行所述存储器上存储的计算机程序代码时实现如下步骤:
通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;所述模板匹配方法满足如下公式:
X×B=fo;
其中,fo是待测光谱流量值,fm为模板光谱流量值,表示所述多项式,βi表多项式的系数,Wi表示多项式中波长方向上的变量,n为多项式的阶数,X为多项式中波长方向上的变量Wi与fm的乘积的矩阵表达,B为多项式中系数βi的矩阵表达;
所述对数据块中的待测光谱进行光谱分类的步骤包括:
读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmWn fmWn-1 … fmW2 fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。
本发明的另一方面提供一种天文巡天数据处理系统,该系统包括集群管理工作站和多个计算节点;
所述集群管理工作站将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;
各计算节点通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果,所述模板匹配方法满足如下公式:
X×B=fo;
其中,fo是待测光谱流量值,fm为模板光谱流量值,表示所述多项式,βi表多项式的系数,Wi表示多项式中波长方向上的变量,n为多项式的阶数,X为多项式中波长方向上的变量Wi与fm的乘积的矩阵表达,B为多项式中系数βi的矩阵表达;
各计算节点通过计算机程序执行如下步骤:
读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmWn fmWn-1 … fmW2 fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。
本发明的另一方面提供一种计算机存储介质,其上存储有计算机程序该程序被处理器执行时实现如前所述方法的步骤。
本发明利用分布式并行计算框架并且结合直接矩阵求解多项式系数的方法完成了光谱分类问题,具有成本低,维护简单,可扩展性强的特点,使得天文巡天数据的处理速度大大提高。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。并且,附图中的部件不是成比例绘制的,而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分,附图中对应部分可能被放大,即,相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中:
图1是传统天文望远镜巡天数据处理架构的示意图;
图2是本发明一实施例中天文望远镜巡天数据处理方法的流程示意图;
图3为分布式系统示意性框图;
图4本发明一实施例中分布式计算框架Spark下的计算流程示意图;
图5为本发明实施例中得到的卡方误差的高斯拟合曲线的示例。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
针对传统的天文望远镜巡天数据的处理方法存在的问题,本发明提出了一种使用分布式计算框架来实现巡天数据的高速稳定处理的解决方案。该方案也给以后的天文数据处理提供新的计算方法。
分布式计算框架(如,Hadoop,Spark,Storm等)是近年来快速发展起来的计算架构,其采用分布式系统实现。分布式系统能够将大规模的数据计算任务进行分解,由集群资源管理器进行统一管理,分配给多台计算机节点进行处理,最后把计算结果合并输出。该计算架构能够高效的使用计算资源,大大减少工作时间,提高了工作效率。并且这种分布式的计算框架提供了良好的数据共享和备份容灾机制,保证海量数据处理过程中的准确性。
在本发明实施例中,将并行计算框架应用于天文巡天数据的计算,并研究了郭守敬望远镜巡天数据处理1D Pipeline中的模板匹配实现过程,针对运行过程中出现的问题提出了解决方案。下面将在并行计算框架Spark上实现的天文巡天数据处理过程为例对本发明进行说明。
图2为本发明一实施例中天文巡天数据的处理方法的流程示意图,如图2所示,该方法包括以下步骤:
步骤S210,对大型望远镜巡天数据进行预处理,得到格式一致且大小一致的待处理数据并进行存储。
该预处理步骤可以在普通计算机上进行,当然也可以在分布式计算系统的计算机上进行。更具体地,该预处理步骤可包括:提取巡天文件数据信息,对提取的信息进行格式化处理,得到待处理文件。
望远镜观测后产生的数据通常是以FITS(Flexible Image Transport System,普适图像传输系统)文件格式存储的。FITS是天文学界常用的数据格式,它专门为在不同平台之间交换数据而设计。在本发明中,以要处理的FITS文件数据为大型望远镜(如郭守敬望远镜)巡天数据为例进行描述。
FITS文件由文件头和光谱数据组成。在文件头中存储有对该文件的描述,如观测时间、观测对象、拍照温度、曝光时间等信息,同时也可以在文件头中注明观测时的视场、精度等,便于后期数据分析之用。
本发明实施例中,提取巡天文件数据信息包括:读取FITS格式巡天文件数据,并提取FITS头信息和光谱数据。提取巡天文件数据信息后,可将提取的信息进行格式化,例如将FITS头信息和光谱数据合并为一条光谱信息,并将多条(如每10万条)光谱信息存储成一个文件(待处理文件)。这样的操作可以减少文件的读取次数,一次读取10万光谱信息,可大大提高运行速度。
步骤S220:读取存储的数据(待处理文件)并进行分配,分配到多台计算机器上以进行计算处理。
本步骤可由分布式计算系统来实现,更具体的,可由,分布式计算系统中的集群管理工作站来实现。如图3所示,分布式计算系统可包括集群管理工作站10和多个计算节点20,集群管理工作站10用于对分布式系统进行统一管理,将待处理的数据分配给多台计算机节点并行进行处理,并将计算结果合并输出。集群管理工作站10也可以用作计算节点进行数据的计算处理。本发明实施例中,无论是集群管理工作站10还是计算节点20,均安装有用于实现分布式计算的计算机程序,集群管理工作站10除了具有计算节点的功能外,还具有额外的管理权限。
用户可通过有线传输或无线传输等方式将预处理之后的待处理文件投递到集群管理工作站10的分布式文件系统(如Hadoop分布式文件系统HDFS)中,并设置文件备份级别。在此,HDFS仅为示例,分布式文件系统还可以是其他系统,如Alluxio、ApacheCassandra等,本发明并不限于此。
将待处理文件投递到分布式文件系统(如HDFS)之后,可通过设置该文件系统将每个待处理的大文件分割成多个数据块,以便由集群管理工作站均衡地分配给多台计算设备(如高性能计算节点)。在本发明实施例中,对待处理的大文件的分割可以按照预定的粒度,按照预定的粒度分割后得到的数据块还可以按照更小的粒度分成更小的数据块,以便于根据各个计算节点计算速度的差异在计算节点之间进行数据块的重新分配。
在本发明实施例中,通过设置分布式文件系统对待处理的大文件的分割可以基于预定的数据块数量参数或预定的数据块大小参数而进行,基于预定的数量参数将待处理的文件均匀分割成预定数量的数据块,或者基于预定的大小参数将待处理的文件均匀分割成预定大小的数据块。
分布式文件系统具有可恢复性和抗灾性,其可恢复性和抗灾性可通过存放多个副本来保证,可根据需要可以设置不同的副本数,副本(备份)数可通过分布式系统的配置文件来实现。例如,设置配置文件hdfs-site.xml中dfs.replication属性为1时,表示该文件系统中文件的备份数为1,就是在该文件系统中每个文件都存在两份分别分布在不同的机器上,如果其中一份文件出现丢失不会造成读取故障,则能够通过另一份实现实时容灾恢复。实验数据备份1份一般足以使得系统正常运行,但实际使用中可以根据机器数量和数据需求备份2份或2份以上。在设置配置文件hdfs-site.xml中dfs.replication属性为2时,表示该文件系统中文件的备份数为2。
在本发明实施例中,设置该分布式文件系统中文件的备份数为1,该系统中的文件通过内部网络被所有机器共享使用,大大提高了计算的便捷性。
步骤S230:在每台计算设备(计算节点)上,用模板匹配方法对数据块中的数据进行光谱分类,并存储光谱分类结果。
该步骤是将待匹配光谱在一定范围内红移,然后将每一模板光谱乘以多项式后与数据块中的待匹配光谱进行比较(即进行模板匹配),计算它们的卡方误差值,取卡方值最小的模板类型定为待测光谱的光谱类型,对应的红移值为待测光谱的红移。上述过程中取每条光谱的红移范围为在这个范围内平均取37个点(红移的lg值),移动步长约
本发明实施例中,提取多条模板信息,按照预定格式进行模板存储。例如,可采用与1D Pipeline相同的183条恒星光谱用于模板匹配,即,同时提取183条模板,并按照name,flux格式进行模板存储,其中name记录光谱类型,flux是光谱的流量。在此,183条模板仅为示例,本发明并不限于此,还可以是其他的模板数。
本发明实施例中,优选利用4阶多项式拟合光谱进行模板匹配。传统的方法是用最小二乘法来求多项式系数,这种方法耗时较长,而且不利于分布式框架下的并行计算。在本发明实施例中,为了提高运算速度,用扩展矩阵求解多项式的系数值。模板匹配的理想状态是用模板光谱叠加上一个多项式的形状得到待测目标的光谱。本发明实施例中多项式计算进行模板匹配的原理如下面的公式(1-1)。
简化表示为:X×B=fo;
并且,其中,X为多项式中波长方向上的变量Wi与fm的乘积的矩阵表达,B为多项式中系数βi的矩阵表达。
该方法中,优选取n=4,当然n也可以采用更大或更小的值,在n=4(即采用4阶多项式)时,多项式展开后为β0+β1W+β2W2+β3W3+β4W4。把n=4时对应的式(1-1)写成矩阵的形式,则得到式(1-2):
则有:
X×B=y (1-3)
对公式(1-3),根据直接矩阵求解方法求解直线回归方程的基本公式,可以得到:
B=(XTX)-1XTy (1-4)
为了提高效率,令(其中183为模板数,X1,X2,…,X183满足公式(1-4)),表示183个矩阵X1,X2,…,X183在一起形成的三维矩阵,将代替X带入式(1-4)中,一次求183个模板的多项式系数,以矩阵的形式进行存储。然后计算乘以多项式后的模板与待匹配光谱的卡方误差。取卡方误差最小的模板以及对应的红移作为待匹配光谱的类型和红移值。该在分布式计算框架Spark下,对巡天数据的计算流程见图4。如图4所示,该流程包括:
输入:待匹配光谱以及模板光谱。对于每一计算设备,待匹配的光谱信息可以是分配到该数据块中的光谱信息。
输出:匹配结果(包括:光谱类型,红移和最小卡方值)。
为了得到该匹配结果进行的操作包括:
S231,提取183条模板光谱,基于模板光谱计算通用算子并存入到广播变量中。
模板光谱的信息可用于计算通用算子。模板光谱的波长范围均在到之间,由于光谱两端的信噪比较差,本发明实施例中取的波长范围在到之间,做为模板匹配的波长范围。所有模板的光谱流量和对应波长值的1到4次方乘积为:(fmW4,fmW3,fmW2,fmW,fm),由此得到矩阵:X=[fmW4fmW3fmW2fmW fm]值、该矩阵的转置XT值、转置和本身的乘积XTX值。以上这些值在各计算节点的每次计算中都会反复用到,所以作为通用算子被提前计算并把它存成一个广播变量sc.broadcast()发送给各个计算节点,广播变量会一直保持在各计算节点的执行器的缓存中直到计算结束,可以在多次计算中重复使用。
步骤S232,读取待测光谱。
步骤S233.进行模板匹配,计算卡方误差矩阵。
具体地,在到的红移范围内,待匹配光谱按照预定移动步长(如约的移动步长)进行平移(共移动38次,但本发明并不限于此),并将波长差值到与模板相同的波长,本实例采用的是线性差值,因为实例中的模板和待测光谱来源一致,除了引入一些计算误差,波长基本一致,如果两者相同差值之后不会变化。如果模板和待测光谱的波长点相差比较大可以用样条差值。
然后,将模板光谱流量值乘以4阶多项式,同时计算出183个模板光谱流量值乘以多项式后和待匹配光谱一次红移后流量值的卡方误差值,每次计算的到183个卡方误差作为一个向量存入到矩阵中,由于待匹配光谱按照预定移动步长一共平移38次,一共计算38次,得到一个183行38列的卡方误差矩阵,矩阵的每一列都表示183个模板在对应红移下的卡方误差。
步骤S234,针对每个模板光谱,找到对应最小卡方误差和对应红移。
更具体地,由于光谱在实际红移点附近的卡方误差呈高斯形态,针对每一模板光谱,选取38个红移点中卡方误差最小点及其周围的预定个数(如10个)卡方误差点,进行高斯拟合,如图5所示。
根据高斯拟合曲线的最低点作为此模板得到最小卡方误差及其对应的红移值。
步骤S236,汇总(合并)计算结果,保持到HDFS文件系统中。
更具体地,用分布式文件系统的拷贝命令,把文件系统中的结果拷到本地。可以对这些文件进行汇总分析,并把结果存入到系统数据库中。
基于如上所述的方法,本发明对于实验用郭守敬望远镜巡天数据DR3发布数据中的A、F、G、K共计3177232条光谱,采用了与1D Pipeline相同的183条恒星光谱进行模板匹配,利用分布式计算的特点,改进了模板匹配算法,用矩阵计算替代奇异值分解来求多项式的系数,这样能够更好利用Spark的计算架构。结果表明该分布式系统下数据处理速度是不使用该系统状态下的速度的78倍,提升了近2个数量级,并且结果的准确率都在误差允许范围内。测试结果与郭守敬望远镜1D Pipeline结果进行比较,光谱型上平均差了1.43个子型(每个光谱都可进一步分为数字亚型,范围从0到9),红移的平均误差在下表是误差结果的详细比较。该发明为郭守敬望远镜巡天数据处理提供了一个新的方向。
表1.实验结果示例
综上所述,本发明利用普通计算机和分布式并行计算Spark框架并且结合直接矩阵求解多项式系数的方法完成了光谱分类问题,具有成本低,维护简单,可扩展性强的特点,使得天文巡天数据的处理速度大大提高。
相应地,本发明还提供了一种天文巡天数据处理装置,该装置对应于计算节点,用于在分布式管理系统中实现如前所述的天文巡天数据处理方法。该装置可包括处理器和存储器,处理器被配置为执行存储器上存储的计算机程序代码时实现如下步骤:
通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;该步骤包括:
读取模板光谱,并提取模板通用算子,该模板通用算子包括以下算子中的至少一个:矩阵X=[fmW4fmW3fmW2fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值,其中,fm为模板光谱流量值,W是多项式中波长方向上的变量;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。
更具体地实现示例可参照前面的描述,在此不再赘述。
相应地,本发明还提供了一种天文巡天数据处理系统,如图3所示,该系统包括:集群管理工作10站和多个计算节点20;
集群管理工作站将待处理光谱数据文件投递到分布式文件系统,并将待处理光谱数据文件分割为多个数据块,分配给多个计算节点;
各计算节点通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果,各计算节点通过计算机程序执行如下步骤:
读取模板光谱,并提取模板通用算子,该模板通用算子包括以下算子中的至少一个:矩阵X=[fmW4fmW3fmW2fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值,其中,fm为模板光谱流量值,W是多项式中波长方向上的变量;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。本发明实施例利用分布式并行计算框架并且结合直接矩阵求解多项式系数的方法完成了光谱分类问题,具有成本低,维护简单,可扩展性强的特点,使得天文巡天数据的处理速度大大提高。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
本公开还涉及非暂态计算机存储介质,该计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的方法。其中,存储介质可为磁碟、光盘、只读存储器(ROM)、内存、随机存储器(RAM)、快闪存储器(Flash Memory)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘(HDD)或固态硬盘(Solid-State Drive,SSD)、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质等;随存储介质还可以包括上述种类的存储器的组合。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种天文巡天数据处理方法,其特征在于,该方法包括:
数据分配步骤:将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;
数据计算步骤:利用分布式计算框架,在各计算节点,通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;
所述模板匹配方法满足如下公式:
X×B=fo;
其中,fo是待测光谱流量值,fm为模板光谱流量值,表示所述多项式,βi表多项式的系数,Wi表示多项式中波长方向上的变量,n为多项式的阶数,X为多项式中波长方向上的变量Wi与fm的乘积的矩阵表达,B为多项式中系数βi的矩阵表达;
其中,所述数据计算步骤包括:
读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmWn fmWn-1…fmW2 fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
数据预处理步骤:提取巡天文件数据信息,对提取的信息进行格式化处理,得到待处理光谱数据文件。
3.如权利要求2所述的方法,其特征在于,所述数据预处理步骤包括:读取FITS格式巡天文件数据,并提取FITS头信息和光谱数据,可将提取的信息进行格式化并合并。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
将提取模板通用算子存储为广播变量,并发送给各个计算节点。
5.如权利要求1所述的方法,其特征在于,所述针对每个模板光谱,找到对应最小卡方误差和对应红移的步骤包括:
针对每一模板光谱,找到最小卡方误差及其周围的预定个数的卡方误差点,进行高斯拟合;
根据高斯拟合曲线的最低点作为当前模板得到最小卡方误差及其对应的红外值。
6.如权利要求1所述的方法,其特征在于,所述分布式计算框架为Spark计算框架。
7.一种天文巡天数据处理装置,该装置包括处理器和存储器,其特征在于,所述处理器被配置为执行所述存储器上存储的计算机程序代码时实现如下步骤:
通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果;所述模板匹配方法满足如下公式:
X×B=fo;
其中,fo是待测光谱流量值,fm为模板光谱流量值,表示所述多项式,βi表多项式的系数,Wi表示多项式中波长方向上的变量,n为多项式的阶数,X为多项式中波长方向上的变量Wi与fm的乘积的矩阵表达,B为多项式中系数βi的矩阵表达;
所述对数据块中的待测光谱进行光谱分类的步骤包括:
读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmWn fmWn-1…fmW2 fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。
8.一种天文巡天数据处理系统,其特征在于,该系统包括集群管理工作站和多个计算节点;
所述集群管理工作站将待处理光谱数据文件投递到分布式文件系统,并将所述待处理光谱数据文件分割为多个数据块,分配给多个计算节点;
各计算节点通过模板光谱与多项式叠加后与待测光谱进行匹配的模板匹配方法对数据块中的待测光谱进行光谱分类,并存储光谱分类结果,所述模板匹配方法满足如下公式:
X×B=fo;
其中,fo是待测光谱流量值,fm为模板光谱流量值,表示所述多项式,βi表多项式的系数,Wi表示多项式中波长方向上的变量,n为多项式的阶数,X为多项式中波长方向上的变量Wi与fm的乘积的矩阵表达,B为多项式中系数βi的矩阵表达;
各计算节点通过计算机程序执行如下步骤:
读取模板光谱,并提取模板通用算子,所述模板通用算子包括以下算子中的至少一个:矩阵X=[fmWn fmWn-1…fmW2 fmW fm]值、矩阵X的转置XT值、矩阵X的转置XT和矩阵X的乘积XTX值;
读取待测光谱;
按照预定移动步长将红移进行平移来进行光谱匹配,计算出模板光谱流量值乘以多项式后和待测光谱流量值的卡方误差值;
针对每个模板光谱,找到对应最小卡方误差和对应红移,从而确定待测光谱的分类。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6中任意一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437719.4A CN110175313B (zh) | 2019-05-24 | 2019-05-24 | 天文巡天数据处理方法、系统和存储介质 |
US16/937,844 US11829448B2 (en) | 2019-05-24 | 2020-07-24 | Method and apparatus for processing astronomical survey data, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910437719.4A CN110175313B (zh) | 2019-05-24 | 2019-05-24 | 天文巡天数据处理方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110175313A CN110175313A (zh) | 2019-08-27 |
CN110175313B true CN110175313B (zh) | 2020-07-14 |
Family
ID=67692014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910437719.4A Active CN110175313B (zh) | 2019-05-24 | 2019-05-24 | 天文巡天数据处理方法、系统和存储介质 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11829448B2 (zh) |
CN (1) | CN110175313B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113267455B (zh) * | 2021-05-18 | 2022-07-19 | 中国科学院国家天文台 | 基于自观测光谱库的大型巡天望远镜的恒星参数测量方法 |
CN117556212A (zh) * | 2023-11-29 | 2024-02-13 | 金网络(北京)数字科技有限公司 | 一种流式大数据的分析方法、装置、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024152B2 (en) * | 2008-09-23 | 2011-09-20 | Microsoft Corporation | Tensor linear laplacian discrimination for feature extraction |
CN103810140A (zh) * | 2014-02-18 | 2014-05-21 | 中国科学院国家天文台 | 一种基于通用pc机的射电天文数据处理方法 |
CN107291751A (zh) * | 2016-04-01 | 2017-10-24 | 中兴通讯股份有限公司 | 一种天文数据信息处理方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170168992A9 (en) * | 2013-05-06 | 2017-06-15 | Sas Institute Inc. | Techniques to provide significance for statistical tests |
-
2019
- 2019-05-24 CN CN201910437719.4A patent/CN110175313B/zh active Active
-
2020
- 2020-07-24 US US16/937,844 patent/US11829448B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8024152B2 (en) * | 2008-09-23 | 2011-09-20 | Microsoft Corporation | Tensor linear laplacian discrimination for feature extraction |
CN103810140A (zh) * | 2014-02-18 | 2014-05-21 | 中国科学院国家天文台 | 一种基于通用pc机的射电天文数据处理方法 |
CN107291751A (zh) * | 2016-04-01 | 2017-10-24 | 中兴通讯股份有限公司 | 一种天文数据信息处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于Hadoop的数据挖掘技术在测光红移上的应用;钱维扬 等;《计算机技术与应用》;20160915;第111-114页 * |
Also Published As
Publication number | Publication date |
---|---|
US11829448B2 (en) | 2023-11-28 |
US20210011886A1 (en) | 2021-01-14 |
CN110175313A (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
So et al. | Fedspace: An efficient federated learning framework at satellites and ground stations | |
US8819038B1 (en) | System and method for performing set operations with defined sketch accuracy distribution | |
CN110175313B (zh) | 天文巡天数据处理方法、系统和存储介质 | |
US10163257B2 (en) | Constructing a 3D structure | |
Khlamov et al. | Big astronomical datasets and discovery of new celestial bodies in the Solar System in automated mode by the CoLiTec software | |
Hunter et al. | Large-scale estimation in cyberphysical systems using streaming data: A case study with arterial traffic estimation | |
CN111898424B (zh) | 文字识别模型训练方法、装置、电子设备及存储介质 | |
US20220261623A1 (en) | System and method for channel-separable operations in deep neural networks | |
Jiang et al. | Application Research of Key Frames Extraction Technology Combined with Optimized Faster R‐CNN Algorithm in Traffic Video Analysis | |
CN114780644B (zh) | 一种船舶航行数据处理方法、装置、设备及存储介质 | |
CN106354587A (zh) | 镜像服务器以及导出虚拟机镜像文件的方法 | |
Zou | Research on cloud computing for disaster monitoring using massive remote sensing data | |
Li et al. | Research on segmentation of steel surface defect images based on improved res-UNet network | |
CN112836804B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113420004A (zh) | 隧道点云数据的存储方法、装置、计算机设备及存储介质 | |
CN111581443B (zh) | 分布式图计算方法、终端、系统及存储介质 | |
Lu et al. | Block partitioning and merging for processing large-scale structure from motion problems in distributed manner | |
Healey et al. | An FFT for the 2-sphere and applications | |
CN104897176B (zh) | 一种多核并行摄影测量区域网平差方法 | |
Cang et al. | Research on hyperspectral image reconstruction based on GISMT compressed sensing and interspectral prediction | |
Fiore et al. | Big data analytics on large-scale scientific datasets in the indigo-datacloud project | |
CN110084455B (zh) | 一种数据处理方法、装置及系统 | |
CN113989267B (zh) | 基于轻量级神经网络的电池缺陷检测方法 | |
CN114743150A (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
EP3690670A1 (en) | Data processing system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |