CN109948703A - 基于深度学习的基因图像处理估计方法、系统、介质及设备 - Google Patents

基于深度学习的基因图像处理估计方法、系统、介质及设备 Download PDF

Info

Publication number
CN109948703A
CN109948703A CN201910211685.7A CN201910211685A CN109948703A CN 109948703 A CN109948703 A CN 109948703A CN 201910211685 A CN201910211685 A CN 201910211685A CN 109948703 A CN109948703 A CN 109948703A
Authority
CN
China
Prior art keywords
module
model
data
sample
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910211685.7A
Other languages
English (en)
Inventor
李天格
杨旸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201910211685.7A priority Critical patent/CN109948703A/zh
Publication of CN109948703A publication Critical patent/CN109948703A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

一种基于深度学习的基因图像处理方法、系统、介质及设备,获取原始图像,据以组建标注为样本集;划分样本集为训练样本和测试样本,获取并提取预选模型,据以迁移学习训练样本得图像预测模型;根据图像模型计算测试样本得预测计算结果;获取实际监测结果,比较实际监测结果与预测计算结果得指标计算信息,据以计算性能指标数据。本发明解决了现有技术存在的噪音图片过多、模型性能较差和图片标注效果较差的技术问题。

Description

基于深度学习的基因图像处理估计方法、系统、介质及设备
技术领域
本发明涉及一种图像处理方法,特别是涉及一种基于深度学习的基因图像处理估计分类方法、系统、介质及设备。
背景技术
随着在基因表达分析过程中,不同的发展过程中基因的时空表达形式对理解基因的功能以及胚胎的发育机制异常重要,而果蝇由于其易于饲养、繁殖力强、染色体数目少、突变性状多等特性成为遗传学研究的经典材料。类似于目标检测,每个标签对应于某张图片或图片的局部位置,但这种局部性对应关系并未在数据库中显式得标明。这增加了果蝇生物图像自动标注算法实现的难度。果蝇生物图像的自动标注不是在图片级别,这是该问题难以解决的主要原因。随着果蝇基因数据库规模的快速增长,再加上人工标注所耗费的时间、精力等成本过高,并且人工标注需要较强的综合专业知识。自动标注果蝇生物图像成为一个被广泛研究的课题。近几年来,深度学习神经网络由于其良好的性能被广泛用在图像标注领域。也出现一些基于深度学习网络的方法来解决果蝇图像标注问题,但是深度网络仅用来做特征提取,并且没有在基因级别解决标注图像的问题。所以,到目前为止,大多数现有的果蝇生物图像自动标注工具都是基于传统的分类器,而且大多都是在图像级别处理该问题(具体的处理方式是:假设基因对应的所有图片都具有该基因对应的标签。这种假设会影响模型的预测性能并且引入许多噪音图片),并没有在基因级别处理果蝇图像自动标注问题的深度模型出现。
综上所述,现有技术的存在噪音图片过多、模型性能较差和图片标注效果较差的技术问题。
发明内容
鉴于以上现有技术存在交易安全性低和身份认证准确度不高的技术问题,本发明的目的在于提供一种基于深度学习的基因图像处理估计方法、系统、介质及设备,包括:一种基于深度学习的基因图像处理估计方法分类方法,包括:获取原始图像,据以组建标注为样本集;划分样本集为训练样本和测试样本,获取并提取预选模型,据以迁移学习训练样本得图像预测模型;根据图像模型计算测试样本得预测计算结果;获取实际监测结果,比较实际监测结果与预测计算结果得指标计算信息,据以计算性能指标数据。
于本发明的一实施方式中,获取原始图像,据以组建标注为样本集,包括:获取原始图像、标注信息;获取阶段分类数据,据以分类原始图像为阶段图像;排序标注信息得标注标签;根据阶段图像和标注标签生成标签向量;以阶段图像拼接获取样本数据,根据标签向量筛选样本数据得样本集。
于本发明的一实施方式中,划分样本集为训练样本和测试样本,获取并提取预训练模型,据以迁移学习训练样本得图像.预测模型,包括:按照预设比例划分样本集为训练样本和测试样本;获取一预训练模型;将训练样本按照阶段分类数据输入预训练模型计算得损失关系数据;以预设逻辑更新预训练模型的模型参数;根据模型参数输出待筛模型数据;以预设筛选逻辑筛选待筛模型数据得图像预测模型。
于本发明的一实施方式中,获取一预训练模型,包括:预训练得特征提取层;初始处理得一卷积神经网络层;预设一预测向量层,据以与特征提取层和卷积神经网络层构成预训练模型。
于本发明的一实施方式中,以预设筛选逻辑筛选待筛模型数据得图像预测模型,包括:获取损失关系数据;迭代计算损失关系数据,以得到收敛数据;根据收敛数据判断待筛模型数据是否稳定;若是,则判定当前待筛模型数据对应的模型为图像预测模型;若否,则判定当前待筛模型数据对应的模型非图像预测模型。
于本发明的一实施方式中,一种基于深度学习的基因图像处理系统,包括:图像采集模块、预测模型模块、预测结果模块和性能指标模块:图像采集模块,用于获取原始图像,据以组建标注为样本集;预测模型模块,用于划分样本集为训练样本和测试样本,获取并提取预选模型,据以迁移学习训练样本得图像预测模型,预测模型模块与图像采集模块连接;预测结果模块,用于根据图像模型计算测试样本得预测计算结果,预测结果模块与预测模型模块连接;性能指标模块,用于获取实际监测结果,比较实际监测结果与预测计算结果得指标计算信息,据以计算性能指标数据,性能指标模块与预测结果模块连接。
于本发明的一实施方式中,图像采集模块,包括:标注获取模块、阶段分类模块、标签获取模块、标签向量模块和样本筛选模块;标注获取模块,用于获取原始图像、标注信息;阶段分类模块,用于获取阶段分类数据,据以分类原始图像为阶段图像,阶段分类模块与标准获取模块连接;标签获取模块,用于排序标注信息得标注标签,标签获取模块与标注获取模块连接;标签向量模块,用于根据阶段图像和标注标签生成标签向量,标签向量模块与标签获取模块连接;样本筛选模块,用于以阶段图像拼接获取样本数据,根据标签向量筛选样本数据得样本集,样本筛选模块与阶段分类模块连接,样本筛选模块与标签向量模块连接。
于本发明的一实施方式中,预测模型模块,包括:样本划分模块、预模型模块、损失数据计算模块、模型参数模块、模型输出模块和模型筛选模块;样本划分模块,用于按照预设比例划分样本集为训练样本和测试样本;预模型模块,用于选取一预训练模型;损失数据计算模块,用于将训练样本按照阶段分类数据输入预训练模型计算得损失关系数据,损失数据计算模块与样本划分模块连接,损失数据计算模块与预模型模块连接;模型参数模块,用于以预设逻辑更新预训练模型的模型参数,模型参数模块与预模型模块连接;模型输出模块,用于根据模型参数输出待筛模型数据,模型输出模块与模型参数模块连接;模型筛选模块,用于以预设筛选逻辑筛选待筛模型数据得图像预测模型,模型筛选模块与模型输出模块连接。
于本发明的一实施方式中,预模型模块,包括:特征层模块、卷积层模块和预向量模块;特征层模块,用于预训练得特征提取层;卷积层模块,用于初始处理得一卷积神经网络层,卷积层模块与特征层模块连接;预向量模块,用于预设一预测向量层,据以与特征提取层和卷积神经网络层构成预训练模型,预向量模块与卷积层模块连接。
于本发明的一实施方式中,模型筛选模块,包括:损失关系模块、收敛数据模块、稳定判断模块、模型判定模块和模型筛除模块;损失关系模块,用于获取损失关系数据;收敛数据模块,用于迭代计算损失关系数据,以得到收敛数据,收敛数据模块与损失关系模块连接;稳定判断模块,用于根据收敛数据判断待筛模型数据是否稳定,稳定判断模块与收敛数据模块连接;模型判定模块,用于在待筛模型数据稳定时,判定当前待筛模型数据对应的模型为图像预测模型,模型判定模块与稳定判断模块连接;模型筛除模块,用于用于在待筛模型数据不稳定时,则判定当前待筛模型数据对应的模型非图像预测模型,模型筛除模块与稳定判断模块连接。
于本发明的一实施方式中,一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于深度学习的基因图像处理估计方法。
于本发明的一实施方式中,一种基于深度学习的基因图像处理估计设备,包括:处理器及存储器;存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使基于深度学习的基因图像处理估计设备执行基于深度学习的基因图像处理估计方法。
如上所述,本发明利用预训练模型进行迁移学习可以有效的克服现有技术的缺点。
综上,本发明提供一种基于深度学习的基因图像处理估计方法、系统、介质及设备专门组建了用于果蝇生物图像自动标注的标准拼接数据集,预测过程完全基于基因级别的图片,不依赖于其他信息,具有较好的可推广性,本发明在组建的数据集上实现了较好的预测整体查准率和查全率,相对于现有的其它方法,取得了有竞争力的自动标注性能。本发明提出了一种新的深度神经网络模型来对果蝇生物图像进行自动标注,使得深度卷积神经网络的优势和潜能得以在果蝇生物图像自动标注领域充分发挥,本发明通过迁移学习来对输入的拼接图片进行特征提取,而不是将输入图片直接输入给待训练网络,这有助于分类性能的提升并且相对减少了待优化参数的数量,解决了现有技术存在的噪音图片过多、模型性能较差和图片标注效果较差的技术问题。
附图说明
图1显示为本发明的基于深度学习的基因图像处理估计方法步骤示意图。
图2显示为图1中步骤S1在一实施例中的具体流程图。
图3显示为图1中步骤S2在一实施例中的具体流程图。
图4显示为图3中步骤S22在一实施例中的具体流程图。
图5显示为本发明的模型分层示意图。
图6显示为图3中步骤S26在一实施例中的具体流程图。
图7显示为本发明的基于深度学习的基因图像处理估计系统模块示意图。
图8显示为图7中图像采集模块11在一实施例中的具体模块示意图。
图9显示为7中预测模型模块12在一实施例中的具体模块示意图。
图10显示为图9中预模型模块122在一实施例中的具体模块示意图。
图11显示为图9中模型筛选模块126在一实施例中的具体模块示意图。
元件标号说明
1 基于深度学习的基因图像处理系统
11 图像采集模块
12 预测模型模块
13 预测结果模块
14 性能指标模块
111 标注获取模块
112 阶段分类模块
113 标签获取模块
114 标签向量模块
115 样本筛选模块
121 样本划分模块
122 预模型模块
123 损失数据计算模块
124 模型参数模块
125 模型输出模块
126 模型筛选模块
1221 特征层模块
1222 卷积层模块
1223 预向量模块
1261 损失关系模块
1262 收敛数据模块
1263 稳定判断模块
1264 模型判定模块
1265 模型筛除模块
步骤标号说明
S1~S4 方法步骤
S11~S15 方法步骤
S21~S26 方法步骤
S221~S223 方法步骤
S261~S265 方法步骤
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效。
请参阅图1至图10,须知,本说明书所附图式所绘示的结构,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如”上”、”下”、”左”、”右”、”中间”及”一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
请参阅图1,显示为本发明的基于深度学习的基因图像处理估计方法步骤示意图,如图1 所示,一种基于深度学习的基因图像处理估计方法,包括:
S1、获取原始图像,据以组建标注为样本集,可选的,组建果蝇生物拼接图像(基因级别)到相应标签的数据集,在对果蝇胚胎基因的研究中,如Berkeley Drosophila GenomeProject(BGDP)通过原位杂交技术(insituhybridization,ISH)用高分辨率显微镜拍摄了大量的各个阶段关于基因表达的二维数字图像。这些图像存储了基因表达有关的时空信息,是研究基因功能和基因之间交互机制的另一途径;
S2、划分样本集为训练样本和测试样本,获取并提取预选模型,据以迁移学习训练样本得图像预测模型,如果把某个阶段某基因对应的图片看成实例(instances),标注项(CV terms)看成标签,那么该问题就属于机器学习问题的一个特殊范畴:多实例多标签学习 (multi-instancemulti-label learning,MIML)问题。显然多实例多标签(MIML)学习问题不同于传统机器学习问题:监督学习、非监督学习、强化学习,有时,它被近似看为弱监督学习或者半监督学习的一种特殊情况。另外,值得说明的是,不同基因所对应的图片数目可能是不同的。甚至,相同基因在不同阶段的图片数量也不同。而且,标注项(CV terms) 是针对该基因的,也就是说,图片的标注是在基因级别进行的。可选的,本发明专门组建了用于果蝇生物图像自动标注的标准拼接数据集,预测过程完全基于基因级别的图片;
S3、根据图像模型计算测试样本得预测计算结果;
S4、获取实际监测结果,比较实际监测结果与预测计算结果得指标计算信息,据以计算性能指标数据,可选的,指标数据即评价指标如下:
其中,Precision为准确率、TP表示将正类预测为正类数,FP表示将负类预测为正类,FN表示将正类预测为负类数,TN表示将正类数预测为负类数,F1是精确率和召回率的调和平均, Sensitivity为模型覆盖率,Specificity为负例的覆盖率,macro-F1为宏平均参数,micro-F1 为微平均参数。
请参阅图2,显示为图1中步骤S1在一实施例中的具体流程图,如图2所示,步骤S1、获取原始图像,据以组建标注为样本集,包括:
S11、获取原始图像、标注信息,从FlyExpress数据库(ht中://www.flyexpress.net) 中提取全部基因图像和对应的标注信息,并将图片按照阶段范围进行分类(分别是 4-6,7-8,9-10,11-12,13-16)。
S12、获取阶段分类数据,据以分类原始图像为阶段图像,可选的,对于每个胚胎发育阶段范围,根据数据库的标注信息,排序生成最频繁出现的10个标签作为本算法要标注的标签;
S13、排序标注信息得标注标签,可选的,对于每个胚胎发育阶段范围的每个基因,若其对应的图片数量为0或者对应的图片在数据库中找不到,则简单将该基因剔除,以深度神经网络模型来对果蝇生物图像进行自动标注,果蝇图像是根据基因和发展阶段来组织的,任意一个发展阶段的某个基因对应着一组图片和若干个标签(controlledvocabularyterms,CVterms),这些标签描述了胚胎基因的解剖学和发展特性,果蝇生物图像的自动标注问题属于一个多对多(multiple-to-multiplemapping)映射,即多个标签对应一个基因的一组图片;
S14、根据阶段图像和标注标签生成标签向量,对于每个胚胎发育阶段范围的每个基因,生成一个10维的列表(标签向量),每个元素取值为1或0,对应相应标签的有或无(即是否存在),这个10维列表即为该基因的实际标注值;
S15、以阶段图像拼接获取样本数据,根据标签向量筛选样本数据得样本集,可选的,对于每个胚胎发育阶段范围的每个基因,将其对应的图片拼接为一个2×2的大图片(即由4张图片按照2行2列排列的拼接图片,大小为单个图片的4倍),若对应图片数量小于4,则简单得重复使用对应图片。操作完毕得到多个数据集(每个数据集对应一个胚胎发育阶段范围)清洗数据集信息,剔除掉标签向量元素全为0的基因样本,得到最终用于模型训练/预测的数据集。
请参阅图3,显示为图1中步骤S2在一实施例中的具体流程图,如图3所示,S2、划分样本集为训练样本和测试样本,获取并提取预训练模型,据以迁移学习训练样本得图像.预测模型,包括:
S21、按照预设比例划分样本集为训练样本和测试样本,可选的,将每一阶段范围的数据集按比例划分为训练集、验证集和测试集,划分比例为4∶1∶5,考虑到数据集样本排列的顺序有一定的关系,所以在数据集划分之前先对数据集进行了随机化处理(随机样本之间的排列),然后按照4∶1∶5划分为训练集、验证集、测试集;
S22、获取一预训练模型,可选的,用训练集训练模型,将训练集分批,每批样本数据分别输入到网络中;
S23、将训练样本按照阶段分类数据输入预训练模型计算得损失关系数据,可选的,损失关系数据为损失函数,损失函数可选用的均方误差;
S24、以预设逻辑更新预训练模型的模型参数,计算均方损失函数,利用反向传播算法(backpropagation)调节模型的待训练部分的参数;
S25、根据模型参数输出待筛模型数据,可选的,待筛模型数据可为未经收敛判断的输出模型;
S26、以预设筛选逻辑筛选待筛模型数据得图像预测模型。
请参阅图4和图5,显示为图3中步骤S22在一实施例中的具体流程图和本发明的模型分层示意图,如图4和图5所示,S22、获取一预训练模型,包括:
S221、预训练得特征提取层,第一部分是一个预先训练好的针对ImageNet的VGG16模型的前若干层,用来对输入图片进行特征提取:提取特征用的是VGG16模型的前21层,明通过迁移学习来对输入的拼接图片进行特征提取;
S222、初始处理得一卷积神经网络层,第二部分是一个深度卷积神经网络(要卷积池化层堆积而成),该层参数是随机初始化的,于训练阶段对其进行优化;中间部分卷积层的卷积核为2*2;池化层采用MaxPooling,大小为2*2;
S223、预设一预测向量层,据以与特征提取层和卷积神经网络层构成预训练模型,第三部分是若干个全连接层和一个激活函数层,该部分输出一个10维的预测向量/列表,激活函数采用sigmoid函数:本发明中采用的激活函数为sigmoid函数,优化器选用的SGD优化器;
请参阅图6,显示为图3中步骤S26在一实施例中的具体流程图,如图6所示,S26、以预设筛选逻辑筛选待筛模型数据得图像预测模型,包括:
S261、获取损失关系数据;
S262、迭代计算损失关系数据,以得到收敛数据,Batch_size设置为16和nb_epoch为130,输入图片的通道数为3,待训练神经网络中最大通道数为256;学习率(learningrate,lr)设置为0.001;
S263、根据收敛数据判断待筛模型数据是否稳定,可选的,每训练两个回合用验证数据集验证模型的性能;
S264、若是,则判定当前待筛模型数据对应的模型为图像预测模型,可选的,若连续多个回合模型对验证集的标注性能不再提高(即模型收敛),则终止训练,以当前模
型为训练好的模型并保存输出;
S265、若否,则判定当前待筛模型数据对应的模型非图像预测模型。
请参阅图7,显示为本发明的基于深度学习的基因图像处理估计系统模块示意图,如图7 所示,一种基于深度学习的基因图像处理系统1,包括:图像采集模块11、预测模型模块12、预测结果模块13和性能指标模块14:图像采集模块11,用于获取原始图像,据以组建标注为样本集,可选的,组建果蝇生物拼接图像(基因级别)到相应标签的数据集;预测模型模块12,用于划分样本集为训练样本和测试样本,获取并提取预选模型,据以迁移学习训练样本得图像预测模型,专门组建了用于果蝇生物图像自动标注的标准拼接数据集,预测过程完全基于基因级别的图片,预测模型模块12与图像采集模块11连接;预测结果模块13,用于根据图像模型计算测试样本得预测计算结果,预测结果模块13与预测模型模块12连接;性能指标模块14,用于获取实际监测结果,比较实际监测结果与预测计算结果得指标计算信息,据以计算性能指标数据,据以计算性能指标数据,可选的,指标数据即评价指标如下:
其中,Precision为准确率、TP表示将正类预测为正类数,FP表示将负类预测为正类,FN表示将正类预测为负类数,TN表示将正类数预测为负类数,F1是精确率和召回率的调和平均, Sensitivity为模型覆盖率,Specificity为负例的覆盖率,macro-F1为宏平均参数,micro-F1 为微平均参数性能指标模块14与预测结果模块13连接。
请参阅图8,显示为图7中图像采集模块11在一实施例中的具体模块示意图,如图8所示,图像采集模块11,包括:标注获取模块111、阶段分类模块112、标签获取模块113、标签向量模块114和样本筛选模块115;标注获取模块111,用于获取原始图像、标注信息,从FlyExpress数据库(http://www.flyexpress.net)中提取全部基因图像和对应的标注信息,并将图片按照阶段范围进行分类(分别是4-6,7-8,9-10,11-12,13-16);阶段分类模块112,用于获取阶段分类数据,据以分类原始图像为阶段图像,可选的,对于每个胚胎发育阶段范围,根据数据库的标注信息,排序生成最频繁出现的10个标签作为本算法要标注的标签,阶段分类模块112与标准获取模块111连接;标签获取模块113,用于排序标注信息得标注标签,可选的,对于每个胚胎发育阶段范围的每个基因,若其对应的图片数量为0或者对应的图片在数据库中找不到,则简单将该基因剔除,以深度神经网络模型来对果蝇生物图像进行自动标注,标签获取模块113与标注获取模块111连接;标签向量模块114,用于根据阶段图像和标注标签生成标签向量,对于每个胚胎发育阶段范围的每个基因,生成一个10维的列表 (标签向量),每个元素取值为1或0,对应相应标签的有或无(即是否存在),这个10 维列表即为该基因的实际标注值,标签向量模块114与标签获取模块113连接;样本筛选模块115,用于以阶段图像拼接获取样本数据,根据标签向量筛选样本数据得样本集,可选的,对于每个胚胎发育阶段范围的每个基因,将其对应的图片拼接为一个2×2的大图片(即由 4张图片按照2行2列排列的拼接图片,大小为单个图片的4倍),若对应图片数量小于4,则简单得重复使用对应图片。操作完毕得到多个数据集(每个数据集对应一个胚胎发育阶段范围)清洗数据集信息,剔除掉标签向量元素全为0的基因样本,得到最终用于模型训练/预测的数据集,样本筛选模块115与阶段分类模块112连接,样本筛选模块115与标签向量模块114连接。
请参阅图9,显示为7中预测模型模块12在一实施例中的具体模块示意图,如图9所示,预测模型模块12,包括:样本划分模块121、预模型模块122、损失数据计算模块123、模型参数模块124、模型输出模块125和模型筛选模块126;样本划分模块121,用于按照预设比例划分样本集为训练样本和测试样本,可选的,将每一阶段范围的数据集按比例划分为训练集、验证集和测试集,划分比例为4∶1∶5,到数据集样本排列的顺序有一定的关系,所以在数据集划分之前先对数据集进行了随机化处理(随机样本之间的排列),然后按照4∶1∶5划分为训练集、验证集、测试集;预模型模块122,用于选取一预训练模型,可选的,用训练集训练模型,将训练集分批,每批样本数据分别输入到网络中;损失数据计算模块123,用于将训练样本按照阶段分类数据输入预训练模型计算得损失关系数据,可选的,损失关系数据为损失函数,损失函数可选用的均方误差,损失数据计算模块123与样本划分模块121连接,损失数据计算模块123与预模型模块122连接;模型参数模块124,用于以预设逻辑更新预训练模型的模型参数,计算均方损失函数,利用反向传播算法(Back Propagation)调节模型的待训练部分的参数,模型参数模块124与预模型模块122连接;模型输出模块125,用于根据模型参数输出待筛模型数据,可选的,待筛模型数据可为未经收敛判断的输出模型,模型输出模块125与模型参数模块124连接;模型筛选模块126,用于以预设筛选逻辑筛选待筛模型数据得图像预测模型,模型筛选模块126与模型输出模块125连接。
请参阅图10,显示为图9中预模型模块122在一实施例中的具体模块示意图,如图10 所示,预模型模块122,包括:特征层模块1221、卷积层模块1222和预向量模块1223;特征层模块1221,用于预训练得特征提取层,第一部分是一个预先训练好的针对ImageNet的VGG16模型的前若干层,用来对输入图片进行特征提取:提取特征用的是VGG16模型的前21层,明通过迁移学习来对输入的拼接图片进行特征提取;卷积层模块1222,用于初始处理得一卷积神经网络层,第二部分是一个深度卷积神经网络(要卷积池化层堆积而成),该层参数是随机初始化的,于训练阶段对其进行优化;中间部分卷积层的卷积核为2*2;池化层采用MaxPooling,大小为2*2,卷积层模块1222与特征层模块1221连接;预向量模块 1223,用于预设一预测向量层,据以与特征提取层和卷积神经网络层构成预训练模型,第三部分是若干个全连接层和一个激活函数层,该部分输出一个10维的预测向量/列表,激活函数采用sigmoid函数:本发明中采用的激活函数为sigmoid函数,优化器选用的SGD优化器,预向量模块1223与卷积层模块1222连接。
请参阅图11,显示为图9中模型筛选模块126在一实施例中的具体模块示意图,如图11 所示,模型筛选模块126,包括:损失关系模块1261、收敛数据模块1262、稳定判断模块1263、模型判定模块1264和模型筛除模块1265;损失关系模块1261,用于获取损失关系数据;收敛数据模块1262,用于迭代计算损失关系数据,以得到收敛数据,Batch_size设置为16和 nb_epoch为130,输入图片的通道数为3,待训练神经网络中最大通道数为256;学习率(learningrate,lr)设置为0.001,收敛数据模块1262与损失关系模块1261连接;稳定判断模块1263,用于根据收敛数据判断待筛模型数据是否稳定,可选的,每训练两个回合用验证数据集验证模型的性能,稳定判断模块1263与收敛数据模块1262连接;模型判定模块1264,用于在待筛模型数据稳定时,判定当前待筛模型数据对应的模型为图像预测模型,可选的,若连续多个回合模型对验证集的标注性能不再提高(即模型收敛),则终止训练,以当前模型为训练好的模型并保存输出,模型判定模块1264与稳定判断模块1263连接;模型筛除模块1265,用于用于在待筛模型数据不稳定时,则判定当前待筛模型数据对应的模型非图像预测模型,模型筛除模块1265与稳定判断模块1263连接。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现基于深度学习的基因图像处理估计方法,本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
一种基于深度学习的基因图像处理估计设备,包括:处理器及存储器;存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以使基于深度学习的基因图像处理估计设备执行基于深度学习的基因图像处理估计方法,存储器可能包含随机存取存储器 (RandomAccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。上述的处理器可以是通用处理器,包括中央处理器 (CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路 (ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明提供的一种基于深度学习的基因图像处理估计方法、系统、介质及设备,具有以下有益效果:本发明提供的基于深度学习的基因图像处理估计方法、系统、介质及设备采用基于图像拼接的深度卷积神经网络,使得图像的自动标注可以在基因级别进行,而不是图像级别。对于训练一个比较复杂的深度学习模型来说,数据量没有远小于模型参数数量,非常容易产生过拟合。本发明通过固定一个已经训练好的模型的前若干层的参数来提取输入图片的高级特征解决了该问题,采用基于迁移学习和图像拼接的深度学习算法,不仅减少了噪音图片输入,还提升了模型的性能,改善了标注效果,解决了现有技术存在的噪音图片过多、模型性能较差和图片标注效果较差的技术问题,具有很高的商业价值和实用性。

Claims (12)

1.一种基于深度学习的基因图像处理方法,其特征在于,所述方法包括:
获取原始图像,据以组建标注为样本集;
划分所述样本集为训练样本和测试样本,获取并提取预选模型,据以迁移学习所述训练样本得图像预测模型;
根据所述图像模型计算所述测试样本得预测计算结果;
获取实际监测结果,比较所述实际监测结果与所述预测计算结果得指标计算信息,据以计算性能指标数据。
2.根据权利要求1所述的方法,其特征在于,所述获取原始图像,据以组建标注为样本集,包括:
获取所述原始图像、标注信息;
获取阶段分类数据,据以分类所述原始图像为阶段图像;
排序所述标注信息得标注标签;
根据所述阶段图像和所述标注标签生成标签向量;
以所述阶段图像拼接获取样本数据,根据所述标签向量筛选所述样本数据得所述样本集。
3.根据权利要求1所述的方法,其特征在于,所述划分所述样本集为训练样本和测试样本,获取并提取预训练模型,据以迁移学习所述训练样本得图像预测模型,包括:
按照预设比例划分所述样本集为所述训练样本和所述测试样本;
获取一所述预训练模型;
将所述训练样本按照阶段分类数据输入所述预训练模型计算得损失关系数据;
以预设逻辑更新所述预训练模型的模型参数;
根据所述模型参数输出待筛模型数据;
以预设筛选逻辑筛选所述待筛模型数据得所述图像预测模型。
4.根据权利要求3所述的方法,其特征在于,所述获取一所述预训练模型,包括:
预训练得特征提取层;
初始处理得一卷积神经网络层;
预设一预测向量层,据以与所述特征提取层和所述卷积神经网络层构成所述预训练模型。
5.根据权利要求3所述的方法,其特征在于,所述以预设筛选逻辑筛选所述待筛模型数据得所述图像预测模型,包括:
获取损失关系数据;
迭代计算所述损失关系数据,以得到收敛数据;
根据所述所述收敛数据判断所述待筛模型数据是否稳定;
若是,则判定当前所述待筛模型数据对应的模型为图像预测模型;
若否,则判定当前所述待筛模型数据对应的模型非图像预测模型。
6.一种基于深度学习的基因图像处理系统,其特征在于,包括:图像采集模块、预测模型模块、预测结果模块和性能指标模块:
所述图像采集模块,用于获取原始图像,据以组建标注为样本集;
所述预测模型模块,用于划分所述样本集为训练样本和测试样本,获取并提取预选模型,据以迁移学习所述训练样本得图像预测模型;
所述预测结果模块,用于根据所述图像模型计算所述测试样本得预测计算结果;
所述性能指标模块,用于获取实际监测结果,比较所述实际监测结果与所述预测计算结果得指标计算信息,据以计算性能指标数据。
7.根据权利要求6所述的系统,其特征在于,所述图像采集模块,包括:标注获取模块、阶段分类模块、标签获取模块、标签向量模块和样本筛选模块;
所述标注获取模块,用于获取所述原始图像、标注信息;
所述阶段分类模块,用于获取阶段分类数据,据以分类所述原始图像为阶段图像;
所述标签获取模块,用于排序所述标注信息得标注标签;
所述标签向量模块,用于根据所述阶段图像和所述标注标签生成标签向量;
所述样本筛选模块,用于以所述阶段图像拼接获取样本数据,根据所述标签向量筛选所述样本数据得所述样本集。
8.根据权利要求6所述的系统,其特征在于,所述预测模型模块,包括:样本划分模块、预模型模块、损失数据计算模块、模型参数模块、模型输出模块和模型筛选模块;
所述样本划分模块,用于按照预设比例划分所述样本集为所述训练样本和所述测试样本;
所述预模型模块,用于选取一所述预训练模型;
所述损失数据计算模块,用于将所述训练样本按照阶段分类数据输入所述预训练模型计算得损失关系数据;
所述模型参数模块,用于以预设逻辑更新所述预训练模型的模型参数;
所述模型输出模块,用于根据所述模型参数输出待筛模型数据;
所述模型筛选模块,用于以预设筛选逻辑筛选所述待筛模型数据得所述图像预测模型。
9.根据权利要求8所述的系统,其特征在于,所述预模型模块,包括:特征层模块、卷积层模块和预向量模块;
所述特征层模块,用于预训练得特征提取层;
所述卷积层模块,用于初始处理得一卷积神经网络层;
所述预向量模块,用于预设一预测向量层,据以与所述特征提取层和所述卷积神经网络层构成所述预训练模型。
10.根据权利要求8所述的方法,其特征在于,所述模型筛选模块,包括:损失关系模块、收敛数据模块、稳定判断模块、模型判定模块和模型筛除模块;
所述损失关系模块,用于获取损失关系数据;
所述收敛数据模块,用于迭代计算所述损失关系数据,以得到收敛数据;
所述稳定判断模块,用于根据所述收敛数据判断所述待筛模型数据是否稳定;
所述模型判定模块,用于在所述待筛模型数据稳定时,判定当前所述待筛模型数据对应的模型为图像预测模型;
所述模型筛除模块,用于用于在所述待筛模型数据不稳定时,则判定当前所述待筛模型数据对应的模型非图像预测模型。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述基于深度学习的基因图像处理方法。
12.一种基于深度学习的基因图像处理设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述基于深度学习的基因图像处理设备执行如权利要求1至5中任一项所述基于深度学习的基因图像处理方法。
CN201910211685.7A 2019-03-20 2019-03-20 基于深度学习的基因图像处理估计方法、系统、介质及设备 Pending CN109948703A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910211685.7A CN109948703A (zh) 2019-03-20 2019-03-20 基于深度学习的基因图像处理估计方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910211685.7A CN109948703A (zh) 2019-03-20 2019-03-20 基于深度学习的基因图像处理估计方法、系统、介质及设备

Publications (1)

Publication Number Publication Date
CN109948703A true CN109948703A (zh) 2019-06-28

Family

ID=67011125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910211685.7A Pending CN109948703A (zh) 2019-03-20 2019-03-20 基于深度学习的基因图像处理估计方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN109948703A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126574A (zh) * 2019-12-30 2020-05-08 腾讯科技(深圳)有限公司 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
CN111582277A (zh) * 2020-06-15 2020-08-25 深圳天海宸光科技有限公司 一种基于迁移学习的车牌识别系统及方法
CN112306808A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN116363403A (zh) * 2023-05-26 2023-06-30 深圳赛陆医疗科技有限公司 用于基因样本的图像识别方法、图像识别系统和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096327A (zh) * 2016-06-07 2016-11-09 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
CN107133942A (zh) * 2017-04-24 2017-09-05 南京天数信息科技有限公司 一种基于深度学习的医疗图像处理方法
US20180046919A1 (en) * 2016-08-12 2018-02-15 Beijing Deephi Intelligence Technology Co., Ltd. Multi-iteration compression for deep neural networks
CN108717528A (zh) * 2018-05-15 2018-10-30 苏州平江历史街区保护整治有限责任公司 一种基于深度网络的多策略全局人群分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096327A (zh) * 2016-06-07 2016-11-09 广州麦仑信息科技有限公司 基于Torch监督式深度学习的基因性状识别方法
US20180046919A1 (en) * 2016-08-12 2018-02-15 Beijing Deephi Intelligence Technology Co., Ltd. Multi-iteration compression for deep neural networks
CN107133942A (zh) * 2017-04-24 2017-09-05 南京天数信息科技有限公司 一种基于深度学习的医疗图像处理方法
CN108717528A (zh) * 2018-05-15 2018-10-30 苏州平江历史街区保护整治有限责任公司 一种基于深度网络的多策略全局人群分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIANGE LI 等: "HMIML: Hierarchical Multi-Instance Multi-Label Learning of Drosophila Embryogenesis Images Using Convolutional Neural Networks", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126574A (zh) * 2019-12-30 2020-05-08 腾讯科技(深圳)有限公司 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
CN111126574B (zh) * 2019-12-30 2023-07-28 腾讯科技(深圳)有限公司 基于内镜图像对机器学习模型进行训练的方法、装置和存储介质
CN111582277A (zh) * 2020-06-15 2020-08-25 深圳天海宸光科技有限公司 一种基于迁移学习的车牌识别系统及方法
CN112306808A (zh) * 2020-11-03 2021-02-02 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN112306808B (zh) * 2020-11-03 2022-08-16 平安科技(深圳)有限公司 性能监测评价方法、装置、计算机设备及可读存储介质
CN116363403A (zh) * 2023-05-26 2023-06-30 深圳赛陆医疗科技有限公司 用于基因样本的图像识别方法、图像识别系统和存储介质
CN116363403B (zh) * 2023-05-26 2023-08-11 深圳赛陆医疗科技有限公司 用于基因样本的图像识别方法、图像识别系统和存储介质

Similar Documents

Publication Publication Date Title
Wang et al. Deep learning approach to peripheral leukocyte recognition
CN110163234B (zh) 一种模型训练方法、装置和存储介质
CN109948703A (zh) 基于深度学习的基因图像处理估计方法、系统、介质及设备
CN114730463A (zh) 用于组织图像分类的多实例学习器
Scheidegger et al. Efficient image dataset classification difficulty estimation for predicting deep-learning accuracy
CN113454733A (zh) 用于预后组织模式识别的多实例学习器
CN106530010B (zh) 融合时间因素的协同过滤方法和装置
CA2948499A1 (en) System and method for classifying and segmenting microscopy images with deep multiple instance learning
CN108009643A (zh) 一种机器学习算法自动选择方法和系统
Marques et al. Ant genera identification using an ensemble of convolutional neural networks
CN110210625A (zh) 基于迁移学习的建模方法、装置、计算机设备和存储介质
McCormack et al. Deep learning of individual aesthetics
EP4128272A1 (en) Method for artificial intelligence (ai) model selection
CN108197636A (zh) 一种基于深度多视点特征的稻谷检测和分类方法
Anand et al. Black magic in deep learning: How human skill impacts network training
Walther et al. Automatic clustering of flow cytometry data with density‐based merging
CN113609337A (zh) 图神经网络的预训练方法、训练方法、装置、设备及介质
Dürr et al. Know when you don't know: a robust deep learning approach in the presence of unknown phenotypes
CN114219049B (zh) 一种基于层级约束的细粒度笔石图像分类方法和装置
Choi et al. Semi-supervised target classification in multi-frequency echosounder data
Sajja et al. Image classification using regularized convolutional neural network design with dimensionality reduction modules: RCNN–DRM
CN115439919B (zh) 模型更新方法、装置、设备、存储介质及程序产品
Ridhovan et al. Disease detection in banana leaf plants using densenet and inception method
Zhao et al. Segmentation and classification of two-channel C. elegans nucleus-labeled fluorescence images
Shang et al. Real-time Accurate Object Counting for Smart Farms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628

RJ01 Rejection of invention patent application after publication