CN111027608A - 一种基于深度学习的星系分类与识别的方法及装置 - Google Patents

一种基于深度学习的星系分类与识别的方法及装置 Download PDF

Info

Publication number
CN111027608A
CN111027608A CN201911211732.4A CN201911211732A CN111027608A CN 111027608 A CN111027608 A CN 111027608A CN 201911211732 A CN201911211732 A CN 201911211732A CN 111027608 A CN111027608 A CN 111027608A
Authority
CN
China
Prior art keywords
galaxy
image
neural network
classification
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911211732.4A
Other languages
English (en)
Inventor
蔡尔谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201911211732.4A priority Critical patent/CN111027608A/zh
Publication of CN111027608A publication Critical patent/CN111027608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的星系分类与识别的方法和装置,其可以实现对星系形态的自动快速精准预测,从而能够对含有大量星系的图像进行快速处理。这种基于深度学习的星系分类与识别的方法,包括:(1)获取带有训练结果标签的天文数据;(2)对数据进行预处理;(3)利用卷积神经网络搭建星系图像分类神经网络;(4)对星系图像分类神经网络进行训练及测试;(5)利用计算机视觉算法检测单张图像中的多个星系。

Description

一种基于深度学习的星系分类与识别的方法及装置
技术领域
本发明涉及天文数据处理的技术领域,尤其涉及一种基于深度学习的星系分类与识别的方法,以及基于深度学习的星系分类与识别的装置。
背景技术
了解人类、地球、太阳系、银河系,直至这个宇宙为什么会形成以及如何形成的,是人类面临的基本问题。此问题的部分答案在于星系(例如银河系)的起源。星系的形成与演化、恒星物理、宇宙的起源是现代天体物理学的基本研究方向。然而,关于银河系(或宇宙中其他约1000亿个星系中的任何一个)是如何形成并演化的问题仍然存在。可以通过研究星系的结构随红移的演化了解宇宙早期的原初物质是怎样在引力的作用下逐渐塌缩形成原初星系的。通过了解高红移星系是经过怎样的过程演变为现在能够观测到的各类星系,可以了解星系的形成和演化过程。在对自然现象(包括社会现象)的本质做出深入了解之前,先对大量观测调查数据进行统计分类,从中发现某些具有启示意义的规律性,这是许多研究工作者常采用的办法。元素周期表的发现就是这样一个成功的例子。恒星光谱的分类也是如此,尽管在开始这项工作时人们并不了解恒星的真实结构和演化,但后来的研究表明,恒星的光谱分类是揭示恒星奥秘的先驱性工作,它也是发现赫罗图的基础,而赫罗图在恒星物理的研究中起着举足轻重的作用。同样地,星系形态与星系的形成和演化有着密切的联系,因此星系形态分类(galaxy morphology classification)成为研究不同星系物理特征的重要过程之一。星系形态分类首先能为数据分析或观测项目制作大型数据库目录,其次可以发现背后的基础物理原理。
目前了解星系最直接的手段之一就是其形态,星系有各种形状,大小和颜色:从美丽的螺旋形到巨大的椭圆形。了解星系的分布,位置和类型与形状,大小和颜色之间的联系,是解决这个难题的关键因素。图像是天文学的核心要素之一。天文望远镜捕获来自遥远外太空的光源发出的光子,形成图像或光谱,以供天文学家们进行分析研究,天文学家希望解码这些图像中可用的信息,以揭示宇宙的根本奥秘。近几十年来,随着现代工程技术的发展进步,人们建造了大量的地基、天基以及不同波段范围的天文望远镜。天文图像数据急剧增多,现代一般的积分视场单元(integral field units,IFU)每晚会生成60GB的数据,一般的成像仪器每晚会生成300GB的数据,将要建成的LSST每晚将会产生20TB的数据,将会探测超过2千万个星系。
星系图像的分类工作中,哈勃于1926年提出的分类方式被广泛采纳,当时利用目视方法,哈勃根据星系的形态将星系简单分为椭圆、漩涡和不规则星系。人们通过视觉检查确定物体的形态,部分原因是没有算法比人眼更好地完成这一任务。
随着时间的推移和观测技术的进步,地面和空间上的望远镜捕获了越来越多的遥远星系图像。随着越来越大的望远镜继续收集这些图像,开展了一些大天区星系图像巡天计划如SDSS(Sloan Digital SkV Survey)。数据集的大小开始爆炸式增长,仅凭视觉检查就不可能完成这项耗时的工作。必须开展新的星系分类方法,利用计算机和算法来完成这一任务。比如,Staiano,A.等在2005年提出了一种非线性隐参数数学模型并用于多维度星系数据挖掘,如对多维度的可视化,聚类和分类;严太生等在2010年研究了聚类算法在天文学中的应用;2011年研究人员将机器学习算法应用于处理多光谱,宽视场图像解决不同的天文目标分类问题;Franco-Arcega,A.等在2013年探索了决策树算法在天文目标分类问题中的应用;近5年,得益于计算机算力的增强、数据的积累和深度学习算法的应用,人们在图像分类方面达到了前所未有的准确率。这有助于天文学家处理大量星系数据。
但是,这些研究都注重于如何识别,而并未向其他相关研究人员提供可用且易用的分类程序。目前的星系分类神经网络可以进行分类,但使用这些程序都是很复杂的,而且这些程序也只能对单个星系进行识别,而星系数据集大多数是如哈勃深场一样多个星系的光学数据。
发明内容
为克服现有技术的缺陷,本发明要解决的技术问题是提供了一种基于深度学习的星系分类与识别的方法,其可以实现对星系形态的自动快速精准预测,从而能够对含有大量星系的图像进行快速处理。
本发明的技术方案是:这种基于深度学习的星系分类与识别的方法,其包括以下步骤:
(1)获取带有训练结果标签的天文数据;
(2)对数据进行预处理;
(3)利用卷积神经网络搭建星系图像分类神经网络;
(4)对星系图像分类神经网络进行训练及测试;
(5)利用计算机视觉算法检测单张图像中的多个星系。
本发明整合星系识别、分类、批处理、模型更换等功能采用计算机科学领域最新研究成果,通过搭建和训练进行图像分类的卷积神经网络,实现对星系形态的自动快速精准预测;传统星系图像分类方法不能对单张图像中的多个星系进行识别统计,本发明结合计算机视觉算法,能够对含有大量星系的图像进行快速处理。
还提供了一种基于深度学习的星系分类与识别的装置,其包括:
数据采集模块,其配置来获取带有训练结果标签的天文数据;
数据预处理模块,其配置来对数据进行预处理;
神经网络搭建模块,其配置来利用卷积神经网络搭建星系图像分类神经网络;
神经网络训练及测试模块,其配置来对星系图像分类神经网络进行训练及测试;
星系检测模块,其配置来利用计算机视觉算法检测单张图像中的多个星系。
附图说明
图1是根据本发明的基于深度学习的星系分类与识别的方法的流程图。
图2示出了根据本发明的基于深度学习的星系分类与识别的方法的神经网络搭建。
图3示出了训练过程中损失的变化趋势。
图4示出了训练过程中准确率的变化趋势。
具体实施方式
如图1所示,这种基于深度学习的星系分类与识别的方法,其包括以下步骤:
(1)获取带有训练结果标签的天文数据;
(2)对数据进行预处理;
(3)利用卷积神经网络搭建星系图像分类神经网络;
(4)对星系图像分类神经网络进行训练及测试;
(5)利用计算机视觉算法检测单张图像中的多个星系。
本发明整合星系识别、分类、批处理、模型更换等功能采用计算机科学领域最新研究成果,通过搭建和训练进行图像分类的卷积神经网络,实现对星系形态的自动快速精准预测;传统星系图像分类方法不能对单张图像中的多个星系进行识别统计,本发明结合计算机视觉算法,能够对含有大量星系的图像进行快速处理,如哈勃深场巡天(Hubble UltraDeep Field)。
优选地,该方法还包括步骤(6),功能整理:单星系图像识别、多星系图像识别、批处理星系图像、更换模型。
优选地,该方法还包括步骤(7),对通过步骤(1)-(6)获得的星系图像分类系统进行图形用户界面GUI设计。
优选地,所述步骤(1)采用的天文数据来自星际动物园2在Kaggle平台上发起的比赛Galaxy Zoo-The Galaxy Challenge,该数据集是专门为机器学习设计好的,其中有清晰且大小合适的数据与相应训练结果标签;Kaggle数据集包含来自SDSS DR7的61579张图像,且每张图像都拥有可信的判断标签,该标签标示了志愿者们对11个问题的37中可能的回答,标签的产生方法是通过计算每个答案回答为真所占总回答人数的比例而产生的大于0小于1的浮点数,标签被以csv格式存储而图像被以jpg格式存储。
优选地,所述步骤(2),决策树将星系分为:圆形星系,中间星系,雪茄状星系,侧向星系,漩涡星系;按照下表的标准来筛选这5类图片,
表1
Figure BDA0002296776000000051
Figure BDA0002296776000000061
其中,T01-T011分别对应Galaxy Zoo决策树中的十一个问题,fsmooth代表一张图片被评定为平滑星系的概率,以此类推in between为中间星系,cigar-shaped为雪茄星系,features/disk为碟状星系,edge on为侧向星系,spiral为漩涡星系。
优选地,所述步骤(3)中,设计一个共6个卷积层的深层卷积神经网络,然后经过1个Flatten层将Feature Maps向量化,再经过两个全连接层将输出转至一个5维的向量,最后经过softmax激活函数得到对输入图像类别的预测结果,
神经网络的结构为:
第1层conv1:接收3通道RGB彩色图像的输入,与16个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为64x64x16
第2层conv2:接收来自conv1的输出,与32个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为32x32x32
第3层conv3:接收来自conv2的输出,与64个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为16x16x64
第4层conv4:接收来自conv3的输出,与128个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为8x8x128
第5层conv5:接收来自conv4的输出,与256个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为4x4x256
第6层conv6:接收来自conv5的输出,与512个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为2x2x512
之后经过两个全连接层,并用经过softmax激活函数得到一个大小为1x5的输出,分别代表神经网络认为输入图像属于:Circle galaxy,Middle galaxy,Edge-on galaxy,Disk galaxy with bulge,Spiral galaxy with tight arm的概率。
优选地,所述步骤(4)中,训练采用Keras神经网络学习包的Adam优化算法,训练共分为60个Epoch,初始学习率learning rate设为0.001,Batch_size设为128,将训练集分为两部分,90%用于训练神经网络,10%用于测试,验证神经网络的泛化能力,查看是否过拟合。
优选地,在所述步骤(5)中,用python中的OpenCV库对图像进行处理,先将输入图像与一个高斯核进行卷积,以便得到图像的轮廓而忽略图像中大量的噪点;高斯模糊后,将图像转化为灰度图并进行二值化处理,然后用cv2.Canny()函数对图像进行边缘提取,再用cv2.findContours()函数查找轮廓;对于找到的所有轮廓,用cv2.approxPolyDP()函数进行轮廓逼近多边形拟合,筛选出边数大于4的多边形,用cv2.fitEllipse()函数进行椭圆拟合;找出所有椭圆后,其大小和位置就已知了,从原始输入图像中截取椭圆区域输入到神经网络进行预测,最后统计原图中各类星系的数目。
优选地,在所述步骤(6)中,采用Python3和PyQt5模块进行GUI开发,采用qtdesigner设计GUI界面。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,与本发明的方法相对应的,本发明还同时包括一种基于深度学习的星系分类与识别的装置,该装置通常以与方法各步骤相对应的功能模块的形式表示。该装置包括:
数据采集模块,其配置来获取带有训练结果标签的天文数据;
数据预处理模块,其配置来对数据进行预处理;
神经网络搭建模块,其配置来利用卷积神经网络搭建星系图像分类神经网络;
神经网络训练及测试模块,其配置来对星系图像分类神经网络进行训练及测试;
星系检测模块,其配置来利用计算机视觉算法检测单张图像中的多个星系。
以下更详细地说明本发明。
本发明所采用的数据集来自星际动物园2在Kaggle平台上发起的比赛GalaxyZoo-The Galaxy Challenge。在选择此数据集之前,申请人查找了大量的可能数据集,包括星系动物园1与2的原始数据。但这些数据十分庞大,且没有训练标签,会为数据预处理工作带来极大的麻烦。与其相反的,Kaggle平台上的比赛中的数据是专门为机器学习设计好的,其中有清晰且大小合适的数据与相应训练结果标签。由于其极高的样本质量,有大量研究人员选择使用该数据集,因此平行的结果比较成为可能。Kaggle数据集包含来自SDSS DR7的61579张图像,且每张图像都至少通过了星系动物园2项目的20名志愿者们的鉴别,拥有可信的判断标签。该标签标示了志愿者们对11个问题的37中可能的回答。标签的产生方法是通过计算每个答案回答为真所占总回答人数的比例而产生的大于0小于1的浮点数。标签被以csv格式存储而图像被以jpg格式存储。在一项2018年的研究中,研究者使用了星系动物园2官方给出的分类标准。这样的分类是很好的,因为这种分类方式结合了传统的与基于观测的两种不同的分类标准的优势,充分利用了星系动物园所提供的较小的数据集。
决策树主要将星系分为以下几类:圆形星系,中间星系,雪茄状星系,侧向星系,漩涡星系。本发明筛选这5类图片的标准如表1。该标准来自于一项2018年对同样数据集进行的机器学习分类时采用的标准,并符合GalaxyZoo官方的干净样本要求。
星系图像分类神经网络搭建,训练及测试
卷积神经网络被广泛用于计算机视觉,自然语言处理等领域并取得了令人满意的效果。本发明设计了一个共6个卷积层的深层卷积神经网络,然后经过1个Flatten层将Feature Maps向量化,再经过两个全连接层将输出转至一个5维的向量,最后经过softmax激活函数得到对输入图像类别的预测结果。
神经网络的具体结构为:
第1层conv1:接收3通道RGB彩色图像的输入,与16个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为64x64x16
第2层conv2:接收来自conv1的输出,与32个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为32x32x32
第3层conv3:接收来自conv2的输出,与64个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为16x16x64
第4层conv4:接收来自conv3的输出,与128个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为8x8x128
第5层conv5:接收来自conv4的输出,与256个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为4x4x256
第6层conv6:接收来自conv5的输出,与512个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为2x2x512
之后经过两个全连接层,并用经过softmax激活函数得到一个大小为1x5的输出,分别代表神经网络认为输入图像属于:Circle galaxy,Middle galaxy,Edge-on galaxy,Disk galaxy with bulge,Spiral galaxy with tight arm的概率。神经网络整体结构如图2所示。
本发明的星系图像分类系统采用的卷积神经网络结构。该结构接收一个三颜色通道(RGB)的输入图像,输出对于该图像所属类别的概率。该模型共9层,其中6层卷积层,1层Flatten层和2层全连接层。训练采用Keras神经网络学习包的Adam优化算法,通过自适应学习率和较少的运算步骤将运算量尽可能降低。Adam算法可以看做是修正后的Momentum+RMSProp算法。训练共分为60个Epoch,初始学习率learning rate设为0.001,Batch_size设为128。之后,将训练集分为两部分,90%用于训练神经网络,10%用于测试,验证神经网络的泛化能力,查看是否过拟合。最终经过约18.5小时的训练,测试准确率达91.5%,测试准确率达91.0%。训练过程中损失和准确率的变化趋势如图3、4所示。
利用计算机视觉算法检测单张图像中的多个星系
真实的天文观测采集到的数据往往是一个视野里含有多个星系,因此对于一张图像中含有多个星系的情况,有必要开发一套批量自动识别星系的方法。因为星系在图像上主要形态可以归为椭圆形状,所以问题转化为如何识别图像中的椭圆结构,本发明用python中的OpenCV库对图像进行处理,先将输入图像与一个高斯核进行卷积,以便得到图像的轮廓而忽略图像中大量的噪点,高斯核的大小最后在GUI中可以通过Sensitivity参数调节,该参数越大,表示希望尽量识别出比较大的椭圆,越小表示希望对小的结构也进行识别。高斯模糊后,将图像转化为灰度图并进行二值化处理,然后用cv2.Canny()函数对图像进行边缘提取,再用cv2.findContours()函数查找轮廓,最后,对于找到的所有轮廓,用cv2.approxPolyDP()函数进行轮廓逼近多边形拟合,筛选出边数大于4的多边形,最后用cv2.fitEllipse()函数进行椭圆拟合。找出所有椭圆后,其大小和位置就已知了,从原始输入图像中截取椭圆区域输入到神经网络进行预测,最后统计原图中各类星系的数目。
星系图像分类系统GUI设计,GUI用户使用说明
为方便广大天文研究人员和天文爱好者使用,本发明采用Python3和PyQt5模块进行用户图形界面开发,搭建了一个星系图像分类软件。该软件经过不断改进更新,目前已支持多种处理方式,并广泛支持Unix为基础的系统(例如Linux与Macintosh)以及Windows系统。采用qt designer设计GUI界面。
下面将介绍GUI设计思路:
本发明在设计程序时主要关注程序的星系图像识别功能,并注重实现单张图片单个星系的识别与归类,单张图片多个星系的识别与归类,而且提供了批量处理功能。下面本发明将通过对软件使用的描述对GUI设计进行阐述。首先,为增强程序的用户友善程度,本发明特别设计了欢迎界面。在将程序压缩包解锁,完成程序所依赖包的下载(可以通过提供的脚本发明件完成)后,在系统终端运行main.py,软件会展示欢迎界面。
在点击欢迎界面的Start按键之后,用户会进入程序。
再打开程序后,程序会默认选择Model与Image文件。其中,Model文件被默认存储在train_pred_code目录下。此时点击SingleClassify按键,即可对默认图像使用默认模型进行识别。
此时,程序将显示所识别的图像,并在图像上按照分类结果降序排列星系为五个不同类别星系的可能性。
如果用户(Linux与Mac或任何Unix基础的计算机)希望使用其他的机器学习模型进行分类,则可以将模型拷贝到任何程序所在电脑可调用,有权限的位置,然后点击SelectModel按键导航到模型位置,并载入模型以供使用。Select Image按键则可以通过相似的操作方式选择用户希望识别的图像文件。为保证程序稳定,尤其在Windows环境下,建议把单星系图像文件放在train_imgs_single目录下,把多星系图像放在train_imgs_multi目录下。另外,在Windows环境下请不要使用英文以外的语言为文件命名。Linux与Mac环境经过测试目前可以放在任何目录下。这个现象主要由于Unix系统与Windows系统的文件位置格式不同导致的。图像文件最好为光学与红外波段的彩色照片。程序可以支持单一星系与多星系的处理。如果图像包含单个星系,则点击Single Classify进行识别。如果图像包含多个星系,则点击Multi Classify进行识别。在进行Multi Classify识别时,用户可以通过在sensitivity一栏中输入数字调节识别强度。其中,数字越小,强度越强,程序所选择的椭圆越小越精细,反之数字与大,强度越弱,所选择的椭圆越大。强度值系统默认为5。当前的星系选取方法由于算法原因还有一定局限性,无法选中一部分星系,但大多数星系图像都可以通过该算法识别。在进行多星系识别时,程序将不会返回每一个星系的具体参数,而是将每一个星系在进行识别时可能性最高的识别组别选取出来,并且加和,返回图像中每一类星系的总量。当然,如果用户希望查看图片中每一个星系的具体识别信息,也可以通过更改main.py文件更改。
识别统计结果如表2所示:
表2
Figure BDA0002296776000000121
Figure BDA0002296776000000131
用户还可以通过程序对图像进行批量处理。在批量处理时,用户将需要处理的文件放在同一个文件夹中,然后点击Select Folder导航到文件夹位置,并选择文件夹。之后,选择SingleClassify或者MultiClassify进行识别。注意,程序并不能识别图像中是否只包含一个星系。如果对一个星系进行多星系识别可能会出现误选。
图像下方一个不明两点就被选中为星系。当然,这种情况也可以通过调节Sensitivity缓解。在正确使用批量处理是,处理图像在程序运行之后会并列展示在窗口中,且右下角窗口会显示图像名以及每个图像单独的识别数据。
如果用户想要将文件保存下来,则可以在开始识别前将Save选项打勾,则可以将处理的文本结果保存为.txt格式,图像保存为.jpg格式于res目录下。
以上所述,仅是本发明的较佳实施例,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属本发明技术方案的保护范围。

Claims (10)

1.基于深度学习的星系分类与识别的方法,其特征在于:其包括以下步骤:
(1)获取带有训练结果标签的天文数据;
(2)对数据进行预处理;
(3)利用卷积神经网络搭建星系图像分类神经网络;
(4)对星系图像分类神经网络进行训练及测试;
(5)利用计算机视觉算法检测单张图像中的多个星系。
2.根据权利要求1所述的基于深度学习的星系分类与识别的方法,其特征在于:该方法还包括步骤(6),功能整理:单星系图像识别、多星系图像识别、批处理星系图像、更换模型。
3.根据权利要求2所述的基于深度学习的星系分类与识别的方法,其特征在于:该方法还包括步骤(7),对通过步骤(1)-(6)获得的星系图像分类系统进行图形用户界面GUI设计。
4.根据权利要求3所述的基于深度学习的星系分类与识别的方法,其特征在于:所述步骤(1)采用的天文数据来自星际动物园2在Kaggle平台上发起的比赛Galaxy Zoo-TheGalaxy Challenge,该数据集是专门为机器学习设计好的,其中有清晰且大小合适的数据与相应训练结果标签;Kaggle数据集包含来自SDSSDR7的61579张图像,且每张图像都拥有可信的判断标签,该标签标示了志愿者们对11个问题的37中可能的回答,标签的产生方法是通过计算每个答案回答为真所占总回答人数的比例而产生的大于0小于1的浮点数,标签被以csV格式存储而图像被以jpg格式存储。
5.根据权利要求4所述的基于深度学习的星系分类与识别的方法,其特征在于:所述步骤(2),决策树将星系分为:圆形星系,中间星系,雪茄状星系,侧向星系,漩涡星系;按照下表的标准来筛选这5类图片,
Figure FDA0002296775990000021
其中,T01-T011分别对应Galaxy Zoo决策树中的十一个问题,fsmooth代表一张图片被评定为平滑星系的概率,以此类推in between为中间星系,cigar-shaped为雪茄星系,features/disk为碟状星系,edge on为侧向星系,spiral为漩涡星系。
6.根据权利要求5所述的基于深度学习的星系分类与识别的方法,其特征在于:所述步骤(3)中,设计一个共6个卷积层的深层卷积神经网络,然后经过1个Flatten层将FeatureMaps向量化,再经过两个全连接层将输出转至一个5维的向量,最后经过softmax激活函数得到对输入图像类别的预测结果,
神经网络的结构为:
第1层conv1:接收3通道RGB彩色图像的输入,与16个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为64x64x 16
第2层conv2:接收来自conv1的输出,与32个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为32x32x32
第3层conv3:接收来自conv2的输出,与64个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为16x16x64
第4层conv4:接收来自conv3的输出,与128个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为8x8x128
第5层conv5:接收来自conv4的输出,与256个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为4x4x256
第6层conv6:接收来自conv5的输出,与512个卷积核卷积并经过relu激活函数和2x2最大池化操作后,输出大小为2x2x512
之后经过两个全连接层,并用经过softmax激活函数得到一个大小为1x5的输出,分别代表神经网络认为输入图像属于:Circle galaxy,Middle galaxy,Edge-on galaxy,Diskgalaxy with bulge,Spiral galaxy with tight arm的概率。
7.根据权利要求6所述的基于深度学习的星系分类与识别的方法,其特征在于:所述步骤(4)中,训练采用Keras神经网络学习包的Adam优化算法,训练共分为60个Epoch,初始学习率learning rate设为0.001,Batch_size设为128,将训练集分为两部分,90%用于训练神经网络,10%用于测试,验证神经网络的泛化能力,查看是否过拟合。
8.根据权利要求7所述的基于深度学习的星系分类与识别的方法,其特征在于:在所述步骤(5)中,用python中的OpenCV库对图像进行处理,先将输入图像与一个高斯核进行卷积,以便得到图像的轮廓而忽略图像中大量的噪点;高斯模糊后,将图像转化为灰度图并进行二值化处理,然后用cv2.Canny()函数对图像进行边缘提取,再用cv2.findContours()函数查找轮廓;对于找到的所有轮廓,用cv2.approxPolyDP()函数进行轮廓逼近多边形拟合,筛选出边数大于4的多边形,用cv2.fitEllipse()函数进行椭圆拟合;找出所有椭圆后,其大小和位置就已知了,从原始输入图像中截取椭圆区域输入到神经网络进行预测,最后统计原图中各类星系的数目。
9.根据权利要求8所述的基于深度学习的星系分类与识别的方法,其特征在于:在所述步骤(6)中,采用Python3和PyQt5模块进行GUI开发,采用qt designer设计GUI界面。
10.一种基于深度学习的星系分类与识别的装置,其特征在于:其包括:
数据采集模块,其配置来获取带有训练结果标签的天文数据;
数据预处理模块,其配置来对数据进行预处理;
神经网络搭建模块,其配置来利用卷积神经网络搭建星系图像分类神经网络;
神经网络训练及测试模块,其配置来对星系图像分类神经网络进行训练及测试;
星系检测模块,其配置来利用计算机视觉算法检测单张图像中的多个星系。
CN201911211732.4A 2019-11-29 2019-11-29 一种基于深度学习的星系分类与识别的方法及装置 Pending CN111027608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911211732.4A CN111027608A (zh) 2019-11-29 2019-11-29 一种基于深度学习的星系分类与识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911211732.4A CN111027608A (zh) 2019-11-29 2019-11-29 一种基于深度学习的星系分类与识别的方法及装置

Publications (1)

Publication Number Publication Date
CN111027608A true CN111027608A (zh) 2020-04-17

Family

ID=70207720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911211732.4A Pending CN111027608A (zh) 2019-11-29 2019-11-29 一种基于深度学习的星系分类与识别的方法及装置

Country Status (1)

Country Link
CN (1) CN111027608A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963249A (zh) * 2021-10-29 2022-01-21 山东大学 一种星系图像的检测方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213482A (zh) * 2018-06-28 2019-01-15 清华大学天津高端装备研究院 基于卷积神经网络的人工智能图形化应用平台及应用方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213482A (zh) * 2018-06-28 2019-01-15 清华大学天津高端装备研究院 基于卷积神经网络的人工智能图形化应用平台及应用方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张介 等: "机器视觉高斯拟合法自动导星定心系统设计", 《天文研究与技术》 *
戴加明: "《基于深度卷积神经网络的星系形态分类研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
林天亮等: "基于Qt技术的导航软件系统的设计与实现", 《控制工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963249A (zh) * 2021-10-29 2022-01-21 山东大学 一种星系图像的检测方法和系统
CN113963249B (zh) * 2021-10-29 2024-04-09 山东大学 一种星系图像的检测方法和系统

Similar Documents

Publication Publication Date Title
Metcalf et al. The strong gravitational lens finding challenge
Li et al. New high-quality strong lens candidates with deep learning in the kilo-degree survey
Pourrahmani et al. LensFlow: A convolutional neural network in search of strong gravitational lenses
Hausen et al. Morpheus: A deep learning framework for the pixel-level analysis of astronomical image data
Pasquet-Itam et al. Deep learning approach for classifying, detecting and predicting photometric redshifts of quasars in the Sloan Digital Sky Survey stripe 82
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN112651978B (zh) 舌下微循环图像分割方法和装置、电子设备、存储介质
Hossain et al. Leaf shape identification based plant biometrics
Bandeira et al. Detection of sub-kilometer craters in high resolution planetary images using shape and texture features
Rojas et al. Search of strong lens systems in the Dark Energy Survey using convolutional neural networks
CN110059586B (zh) 一种基于空洞残差注意力结构的虹膜定位分割系统
CN109325395A (zh) 图像的识别方法、卷积神经网络模型的训练方法及装置
Ibrahim et al. Galaxy images classification using hybrid brain storm optimization with moth flame optimization
Li et al. High-quality Strong Lens Candidates in the Final Kilo-Degree Survey Footprint
CN112348036A (zh) 基于轻量化残差学习和反卷积级联的自适应目标检测方法
Stein et al. Mining for strong gravitational lenses with self-supervised learning
Tohill et al. Quantifying non-parametric structure of high-redshift galaxies with deep learning
CN109740681A (zh) 一种水果分拣方法、装置、系统、终端及存储介质
CN113538347B (zh) 基于高效双向路径聚合注意力网络的图像检测方法及系统
CN113435254A (zh) 一种基于哨兵二号影像的耕地深度学习提取方法
Hou et al. Text-aware single image specular highlight removal
Buchanan et al. Gaussian process classification for galaxy blend identification in lsst
Patel et al. Convolutional neural network with transfer learning for rice type classification
Teimoorinia et al. Assessment of astronomical images using combined machine-learning models
CN111027608A (zh) 一种基于深度学习的星系分类与识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200417