CN111985615A

CN111985615A - 一种基于迁移学习轻量级神经网络的脉冲星搜索方法

Info

Publication number: CN111985615A
Application number: CN202010811403.XA
Authority: CN
Inventors: 刘超; 池明旻; 陆恒
Original assignee: Beijing Beidou Tianxun Technology Co Ltd
Current assignee: Beijing Beidou Tianxun Technology Co Ltd
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-11-24

Abstract

本发明涉及深度学习领域，具体涉及一种基于迁移学习轻量级神经网络的脉冲星搜索方法，包括如下步骤：步骤一、生成候选体样本并读取数据特征，统一候选体样本的数据特征；步骤二、基础分类网络构建，加入脉冲信号注意力机制；步骤三、数据域间迁移，迁移完成后对分类模型进行训练；步骤四、抽取人工特征并统计特征；步骤五、对组合高阶特征与深度特征进行融合；解决了脉冲星数据集中正负样本不平衡问题，不同脉冲星数据集由于观测条件，观测设备等的不一造成数据集间迁移较为困难问题、脉冲星特征图像存在自身的特点，使用现有在imagenet上pretrain的较深网络会容易造成过拟合问题以及脉冲信号较为特殊，缺乏有效的注意力机制的问题。

Description

一种基于迁移学习轻量级神经网络的脉冲星搜索方法

技术领域

本发明涉及深度学习领域，具体是指一种基于迁移学习轻量级神经网络的脉冲星搜索方法。

背景技术

在实际的脉冲星搜索任务中通常会产生海量的候选体文件，例如FAST会将会有PB量级的年增量，预计将产生千万量级的候选体，故而在脉冲星候选体搜寻中，搜索模型的准确度和搜索模型的推理速度都将至关重要。

现有技术一般采用如下三种脉冲星候选体筛选方法：

1)基于人工的脉冲星候选体筛选方法：

最初的脉冲星搜索更多的是基于天文学家们的经验，通过观测是否存在明显的脉冲轮廓，时间相位图和频率相位图是否存在明显的黑色竖形条纹以及色散量曲线的峰值是否为零等来人工判断是否为脉冲星。这些法则存在一些缺陷，首先这些规则并不是绝对的不同类型的脉冲星可能会存在不同的表征例如平均脉冲轮廓会存在单峰，双峰多峰等，时间相位图较淡较短有时发生倾斜，DM曲线只有小部分存在峰值等会造成误判，其次通过人工看图工作量巨大工作人员完成不了海量任务且长时间观测会产生疲劳影响观测准确性。当然后续也有人员开发一个允许多用户浏览和排序的web系统，但其还是存在人工判断存在主观性问题，会遗漏较微弱和干扰较强的信号。

2)基于手工特征的脉冲星候选体筛选方法：

Lee等人提出PEACE排序算法抽取了6个特征，Eatough等人抽取了8/12个特征，Bates等人抽取了22个特征，Morello等人抽取了6个特征等等放入经验公式或者机器学习算法如高斯黑格林决策树、全连接人工神经网络等来进行进行判断。该类算法依赖手工特征设计的好坏，针对不同种类脉冲星搜寻任务不同特征的表征能力不同且手工特征设计存在一定的局限性，未能全面表征该信号究竟是否为脉冲星，以此在准确率上还有很大的提升空间。

3)基于深度学习特征自动抽取方式的脉冲星候选体筛选方法：

随着计算机算力的提升和深度学习的不断发展，深度卷积神经网络越来越发挥其强大的威力，在计算机视觉(computer vision),自然语言处理(natural languageprocessing)等领域越来越展现出其革命性的进步，而脉冲星搜索任务中频率相位图像和时间相位图像也可以被抽象为一个计算机视觉中的分类任务的输入特征。如2014年提出的PICS(Pulsar Image-based Classification System)模型即采用了深度学习的方式来实现了脉冲星分类任务，不采用候选体噪声，DM，周期等特征而是利用深度卷积网络的自动特征抽取能力让其在时间相位图和频率相位图上自动抽取其所需特征，其大大减少了工作量并在效果上超过了之前的手工特征方法。但是该筛选方法也存在一些缺陷，如:卷积网络构造较为老式(LeNet)，集成过多浅层模型推理较慢，模型融合方式较为简易未考虑高阶特征(Regression)等等。

发明内容

基于以上问题，本发明提供了一种基于迁移学习轻量级神经网络的脉冲星搜索方法，解决了脉冲星数据集中正负样本不平衡、外测设备不同造成数据集间迁移困难、因脉冲星特征图像存在自身特点造成过拟合、缺乏有效的注意力机制的问题。

为解决以上技术问题，本发明采用的技术方案如下：

一种基于迁移学习轻量级神经网络的脉冲星搜索方法，包括如下步骤：

步骤一、生成候选体样本并读取数据特征，统一候选体样本的数据特征；

步骤二、基础分类网络构建，加入脉冲信号注意力机制；

步骤三、数据域间迁移，迁移完成后对分类模型进行训练；

步骤四、抽取人工特征并统计特征；

步骤五、用步骤一～步骤五的分类网络训练好的分类器进行特征提取，提取的结果放入FM模型结果进行融合训练，得出一个新的结果再和分类器结果进行融合得到最终的预测结果。

进一步，所述步骤一中，候选体样本包括fid格式文件和phcx格式文件，读取的候选体文本特征包括图形特征、手工特征和统计特征，将候选体文本统一使用同样大小尺寸的图像翻转待定数据特征，并去掉NaN值，具体包括如下步骤：

步骤S1.1、替换所有NaN值，采用线性插值法补全替换掉的NaN值，若出现数据缺失情况，采用设置collater过滤条件的方式将该缺失数据过滤；

步骤S1.2、将不同的像素值区间采用同比例缩小的方式缩小到相同区间，对脉冲特征和背景相反的数据使用1-data，在python广播机制下自动翻转所有像素值；

步骤S1.3、放缩图像至统一大小64x64分辨率。

进一步，所述步骤二中，网络主体采用ResNet结构，ResNet网络层数采用block结构，一共分为5层，分别为conv1、conv2_x、conv3_x、conv4_x和conv5_x，其中，conv1为7×7大卷积，输出通道为64，接着有一个3×3的maxpool层，stride＝2；conv2_x为两个3×3卷积通过一次highway连接的basic结构；conv3_x为两个1×1卷积中间夹了一个3×3卷积并通过highway连接的bottleneck结构；conv4_x为两个3×3卷积但增加通道数量的basic-wide结构；conv5_x为中间增加dropout层的wide-dropout结构。

进一步，所述脉冲信号注意力机制分为相位空间方向上的注意力机制、全局特征注意力机制和通道注意力机制。

进一步，所述步骤三中，数据域间迁移前，将fid格式文件和phcx格式文件制作成jpg格式图像，转换图像的方式为：去掉NaN值，采用线性插值法生成64×64大小的图像，以100％图像质量保存为jpg格式图像。

进一步，使用CycleGAN思想引入数据域间迁移，实现HTRU数据域和FAST数据于之间的迁移，数据域间迁移后使用图像数据和pfd文件数据混合训练方式对分类模型进行训练，学习率使用warmup策略与lineardecay策略。

进一步，在数据域迁移中，将Discriminator更换为18层残差attention分类网络，并在训练接近收敛时替换为Pre-trained分类模型。

进一步，所述步骤四中，抽取的人工特征包括正弦拟合原始轮廓的卡平方值、正弦拟合修正轮廓的卡平方值、最大差值、和残差总和，统计特征是以均值、方差、峰度和偏度四个特征为一组分别对脉冲轮廓特征profile和DM曲线抽取。

进一步，所述步骤五中，采用DeepFM模型，对组合高阶特征和深度特征进行融合，其中DeepFM模型可以拆解为DNN模型和FM模型，并且共用底层的嵌入层。

与现有技术相比，本发明的有益效果是：通过本发明，在HTRU数据集上f1值达到了0.9958，在P309数据集上f1值达到了0.9820，在FAST数据集上f1值达到了0.9800,在FAST数据集上召回率达到98.46％，并且，本发明在训练数据中只用了更少的HTRU和FAST训练样本，得到了更高的召回率；此外，测试速度下，在FAST数据集1w3多个测试样本上在5min以内测试完毕，高于集成模型的每分钟83个，同时兼顾了准确度和推理速度。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。

如图1所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其中数据集包括：

(1)HTRU：高时间分别率的宇宙脉冲星巡天(High Time Resolution UniverseSurvey),数据集中含有1196个已知脉冲星和89996个非脉冲星，其中的正样本大多是比较强的脉冲星信号，负样本数远多于正样本属于类别极度不平衡分类任务。

(2)PMPS、PMPS-26k、P309：Parkes多波束脉冲巡天(Parkes Multi-beam PulsarSurvey)其中PMPS总共4.25T其中大多为初筛样本，PMPS-26k含有脉冲星样本2000个，射电干扰20000个，其他信号2000个，未标记样本2000个合计26k个。P309含有脉冲星2698个，射电干扰1656个。数据集总体来说含有样本种类较多，正样本中既有信号强样本也有信号较弱样本。

FAST：新一代500m口径球面射电望远镜(Five Hundred Meter ApertureSpherical Telescope)含有脉冲星1163颗(训练集837)非脉冲信号14319(训练集998个)个，其中脉冲信号大多较弱，与其他数据集相比脉冲信号特征差异较大。

基于上述数据集，一种基于迁移学习轻量级神经网络的脉冲星搜索方法包括如下步骤：

步骤一、对数据进行预处理，经过presto等软件生成候选体样本，候选体样本包括fid格式文件(PMPS、P309、FAST)和phcx格式文件(HTRU)，使用pfdfile组件读取fid格式文件的图像特征、手工特征和统计特征，使用phcx组件读取phcx格式文件的图像特征、手工特征和统计特征，其中，fid格式文件经过特征读取后时间-相位图像分辨率是256x64，频率-相位图像分辨率是96x64.而phcx格式文件经过特征抽取后时间-相位图像分辨率一般为(16～24)x64，频率-相位图像分辨率为16x64，对于上述图像的大小并不相等，此外图像的特征背景区分也有不同，例如phcx格式文件图像中脉冲特征为黑色，背景为白色，而fid格式文件图像中脉冲特征为白色，背景为黑色，因此，需要候选体样本统一使用同样大小尺寸的图像翻转待定数据特征，其具体方法包括：

步骤S1.1、替换所有NaN值，由于在某些文件中读取时间-相位图像和频率-相位图像时会出现NaN值，因此，替换所有的NaN值，采用线性插值法补全替换掉的NaN值，若出现数据缺失情况，使用data_loader分批加载数据时，对训练集设置collater过滤条件的方式将该缺失数据过滤，需特别说明的是，测试数据集加载时不用使用collater过滤条件；

步骤S1.2、翻转部分数据集，因为fid格式文件和phcx格式文件的脉冲特征和背景正好相反，像素值区间也不同，因此对0～1区间不做变动，0～255区间则除以255同比例缩小到相同区间，然后对于脉冲特征和背景正好相反的数据统一使用1-data，在python广播机制下自动翻转所有像素值；

步骤S1.3、放缩图像至统一大小，对于时间-相位图像分辨率256x64和(16～24)x64统一放缩到64x64大小，对于频率-相位图像分辨率96x64、16x64或其它分辨率也统一放缩到64x64大小。放缩方法是使用python的opencv库中的resize函数，插值方式选用双线性插值法

步骤二、基础分类网络构建，加入脉冲信号注意力机制；

其中，网络主体采用ResNet结构，ResNet网络层数采用block结构，一共分为5个层，分别为conv1、conv2_x、conv3_x、conv4_x和conv5_x，其中，conv1为7×7大卷积，输出通道为64，接着有一个3×3的maxpool层，stride＝2；conv2_x为两个3×3卷积通过一次highway连接的basic结构；conv3_x为两个1×1卷积中间夹了一个3×3卷积并通过highway连接的bottleneck结构；conv4_x为两个3×3卷积但增加通道数量的basic-wide结构，增加通道数量是为了使网络变宽；conv5_x为中间增加dropout层的wide-dropout结构，此处增加了宽度后参数的数量会显著增加，为了防止过拟合使用了卷积层中的dropout层，相比不适用dropout层具有更好的效果，在参数量一定的情况下使用较宽的网络可获得更优的效果。

通过以上分类网络的构件，采用basic-wide和wide-dropout相间的结构填充完conv2_x～conv5_x，每一个block卷积层数为2x2共计四个，加上conv1和之后的maxpool层，合计2x2x4+2＝18层。

另外，脉冲信号注意力机制的加入，主要分为相位空间方向上的注意力机制、全局特征注意力机制和通道注意力机制，其中，相位空间注意力机制是实现对横轴方向上每个值在数值方向上求均值，最后形成一个横轴上的数值，再通过两次全连接网络来做横轴间的信息交互，再通过sigmoid函数求得权重加乘到每一个相位空间方向上；全局特征注意力机制将输入CxHxW通过1x1卷集核生成数据1xHxW，再reshape成HWx1x1通过softmax函数和原始特征CxHW进行矩阵相乘，生成Cx1x1数据，这时转入到SENet后半部分，使用一次1x1卷积全连接生成C/rx1x1经过非线性变换relu再使用一次1x1卷积全连接生成Cx1x1最后通过sigmoid函数生成权重乘到通道上。

通过上述注意力机制的加入，以此来使卷积神经网络在提取特征时关注于信号出现的空间位置，针对时间-相位图像与频率-相位图像进行了多方位的注意力机制设计，首先从相位方向上观察，它的脉冲信号特征总是在某些相位值上出现一条竖向的黑色或浅色线段，所在相位方向上可以设置attention值，即给信号出现的相位值处增加权重，此外由于特殊脉冲星如脉冲双星的存在使得脉冲信号会发生相位漂移，所以不仅要考虑相位值处延伸出来的线段还应考虑漂移曲线即全局特征，在这里借鉴Non-local的简化版本采用如下三个步骤建模：

①全局attentionpooling:使用1x1卷积核Wk和softmax函数来获取attention权重，然后再用attention pooling来抓取全局特征注意力机制特征；

②特征变换:使用1x1卷积核Wv；

③特征聚合:使用加和法将全局特征注意力机制特征聚集到每一个位置的特征上面。

步骤三、使用CycleGAN改进变体引入数据域间迁移，实现HTRU数据集和FAST数据集之间数据域的迁移，数据域间迁移后使用图像数据和pfd文件数据混合训练方式对分类模型进行训练，学习率使用warmup策略与lineardecay策略；

其中，HTRU数据集和FAST数据集之间数据域的迁移前，需要将fid格式文件和phcx格式文件制作成jpg格式图像，使用具体包括如下步骤：去掉NaN值，采用线性插值法生成64×64大小的图像，通过imwrite函数以100％图像质量保存为jpg格式图像，以上操作对脉冲星样本和非脉冲星样本分别实行，此步骤的作用在于CycleGAN训练速度较慢，使用图形读取生成方式会极大提升收敛速度，在正式数据域迁移时，通过加入CycleGAN改进变体引入数据间迁移之后使用图像数据和pfd格式文件数据混合训练的方式对分类模型进行训练，这种混合精度的训练方式即可以保持较高模型性能，还可以通过特征量训练化来提升模型鲁棒性，在学习率方面使用warmup策略与lineardecay策略，warmup有助于减缓模型在初始阶段由于随机权重导致损失较大对mini-batch的提前过拟合现象，保持分布的平稳也有助于保持模型深层的稳定性；LinearDecay的存在使得学习率在收尾阶段能够逐渐线性变小，小学习率使得模型能够得到精细化的调整，此外，HyperParameter设置为lambdaconsistency＝10,lambdacls＝1.0～5.0，优化器Optimzer设置为：torch中的.optim.Adam(params,lr＝0.0002,betas＝(0.5,0.999)),epoch设置为100，batch_size为50。

另外，通过CycleGAN将phcx格式文件数据迁移到fid格式文件数据域上，为了让迁移任务更好的适应于最终分类任务，将Discriminator更换为18层残差attention分类网络，并在训练接近收敛时替换为Pre-trained分类模型。

步骤四、使用抽取FeatureExtractor中的getSinusoidFittings函数抽取人工特征正弦拟合原始轮廓的卡平方值、正弦拟合修正轮廓的卡平方值、最大差值和残差总和，并以均值、方差、峰度和偏度四个特征为一组进行统计特征，对脉冲轮廓特征profile和DM曲线抽取，其中，mean函数抽取均值、variance函数抽取方差、excess_kurtosis函数抽取峰度、skewness函数抽取偏度；

其中，采用DeepFM模型，对组合高阶特征即融合训练后得到的结果与深度特征即分类器得到的结果特征进行融合，其中DeepFM模型可以拆解为DNN模型和FM模型，并且共用底层的嵌入层，具体方法为：使用分类器去掉全连接部分，保留剩下固定参数的卷积层然后和统计特征与手工特征FM模型融合，最后和未去掉全连接分类器做进一步融合，因为训练好的分类器本身的卷积层部分可以作为一种能力较强的特征提取器，相当于DeepFM的嵌入层共用，可称之为卷积层共用，对于时间-相位图像与频率-相位图像，使用分类网络进行训练学习，训练学习完毕后既可以拿来预测分类也可以暂时去掉(不使用)它的全连接层，把卷积层部分固定作为公用特征提取器，放入后面的FM结果融合训练，这样得出一个新的结果再和分类器结果进行融合，以达到模型效率优化和准确率提升的双重效果，实际操作中：对手工特征和统计特征做离散化变为one-hot编码，充当one-hot输入层，通过各特征独立的全连接操作生成Dense层，共Feature field 1～12，之后的特征使用pretrained分类网络去掉全连接层由输入的时间-相位图像和频率-相位图像得到，最后通过FM模型融合得到预测结果，再把此结果和分类网络产生结果做加权平均得到最终结果。

通过实验，在HTRU数据集上f1值达到了0.9958，在P309数据集上f1值达到了0.9820，在FAST数据集上f1值达到了0.9800，其中由于HTRU数据集较为干净特征较为明显故可以做到较高的f1值；P309数据集结果远超GH-VFDT算法的0.765也超越了Deep&Cross结果0.971；FAST数据集结果也远超过Deep&Cross结果0.920，国家天文台的一篇最新研究结果PICS-ResNet在FAST数据集上召回率(recall)达到了98％，本发明召回率结果是98.46％，其中较为关键的一点是PICS-ResNet使用了PALFA10623个,HTRU1174个,FAST1835个和GBNCC90008个合计10w+个训练样本，而本发明训练数据中只用了HTRU和FAST合计2000+训练样本，召回率却要高于PICS-ResNet模型，也高于PICS95％的结果，此外，对于测试速度，在FAST数据集1w3多个测试样本上在5min以内测试完毕，高于集成模型的每分钟83个。

如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书及附图内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于，包括如下步骤：

步骤二、基础分类网络构建，加入脉冲信号注意力机制；

步骤三、数据域间迁移，迁移完成后对分类模型进行训练；

步骤四、抽取人工特征并统计特征；

2.根据权利要求1所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：所述步骤一中，候选体样本包括fid格式文件和phcx格式文件，读取的候选体文本特征包括图形特征、手工特征和统计特征，将候选体文本统一使用同样大小尺寸的图像翻转待定数据特征，并去掉NaN值，具体包括如下步骤：

步骤S1.3、放缩图像至统一大小64x64分辨率。

3.根据权利要求1所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：所述步骤二中，网络主体采用ResNet结构，ResNet网络层数采用block结构，一共分为5层，分别为conv1、conv2_x、conv3_x、conv4_x和conv5_x，其中，conv1为7×7大卷积，输出通道为64，接着有一个3×3的max pool层，stride＝2；conv2_x为两个3×3卷积通过一次highway连接的basic结构；conv3_x为两个1×1卷积中间夹了一个3×3卷积并通过highway连接的bottleneck结构；conv4_x为两个3×3卷积但增加通道数量的basic-wide结构；conv5_x为中间增加dropout层的wide-dropout结构。

4.根据权利要求3所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：所述脉冲信号注意力机制分为相位空间方向上的注意力机制、全局特征注意力机制和通道注意力机制。

5.根据权利要求1所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：所述步骤三中，数据域间迁移前，将fid格式文件和phcx格式文件制作成jpg格式图像，转换图像的方式为：去掉NaN值，采用线性插值法生成64×64大小的图像，以100％图像质量保存为jpg格式图像。

6.根据权利要求5所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：使用CycleGAN思想引入数据域间迁移，实现HTRU数据域和FAST数据于之间的迁移，数据域间迁移后使用图像数据和pfd文件数据混合训练方式对分类模型进行训练，学习率使用warmup策略与lineardecay策略。

7.根据权利要求6所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：在数据域迁移中，将Discriminator更换为18层残差attention分类网络，并在训练接近收敛时替换为Pre-trained分类模型。

8.根据权利要求1所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：所述步骤四中，抽取的人工特征包括正弦拟合原始轮廓的卡平方值、正弦拟合修正轮廓的卡平方值、最大差值、和残差总和，统计特征是以均值、方差、峰度和偏度四个特征为一组分别对脉冲轮廓特征profile和DM曲线抽取。

9.根据权利要求1所述的一种基于迁移学习轻量级神经网络的脉冲星搜索方法，其特征在于：所述步骤五中，采用DeepFM模型，对组合高阶特征和深度特征进行融合，其中DeepFM模型可以拆解为DNN模型和FM模型，并且共用底层的嵌入层。