CN112201300B - 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 - Google Patents
基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 Download PDFInfo
- Publication number
- CN112201300B CN112201300B CN202011148528.5A CN202011148528A CN112201300B CN 112201300 B CN112201300 B CN 112201300B CN 202011148528 A CN202011148528 A CN 202011148528A CN 112201300 B CN112201300 B CN 112201300B
- Authority
- CN
- China
- Prior art keywords
- protein
- label
- image
- subcellular localization
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,包括以下步骤:步骤1,数据收集和数据预处理;步骤2,数据增强训练集测试集划分;步骤3,构建基于卷积神经网络的特征提取器;步骤4,利用最小冗余最大相关算法结合后向特征消除进行特征提取;步骤5,构建亚细胞定位分类器;步骤6,性能评价,步骤7,利用单标签亚细胞定位预测器蛋白质免疫组化单标签图像进行预测,利用多标签亚细胞定位预测器对蛋白质免疫组化多标签图像进行预测。本发明引入了阈值学习策略,可以更好的挖掘标签与样本以及标签与标签之间的相关性使得多标签蛋白质亚结构的定位预测性能更好。
Description
技术领域
本发明涉及生物信息技术领域,特别是涉及一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法。
背景技术
蛋白质亚细胞定位是蛋白质组学研究中最重要的任务之一。细胞中的亚细胞是用于执行特定功能的不同区室,因此蛋白质的亚细胞定位通常与其功能密切相关。我们需要让蛋白质在正确的时间出现在细胞区室中的正确位置然后在正常细胞中发挥其功能,而蛋白质出现在错误的位置可能会导致包括癌症在内的一些病理性疾病。
目前,已经开发了用于蛋白质的亚细胞自动定位的计算方法。从数据方面来看,Leyi Wei,Hang Zhou等人利用一些计算方法使用一维蛋白质氨基酸序列预测亚细胞定位。与序列数据相比,Ying-Ying Xu等人以不同模式呈现蛋白质或亚细胞定位的2D图像更加直观。特别是,随着成像技术的发展,基于图像的方法的发展已经取得了相当大的进展,该方法采用手工图像特征来预测蛋白质的亚细胞定位,可以自动确定蛋白质的亚细胞定位,但是准确率较低。
并且当前的大多数研究都集中在单标签蛋白质的定位上,实际上,至少20%的人类蛋白质存在于两个以上的亚细胞定位。一些研究提出了用多个亚细胞结构标记蛋白质的算法。在Xu等人的研究中,使用了二进制相关性(BR)来构建多标签预测变量,该变量将多定位问题视为多个独立的二进制分类问题。但是,此方法未考虑类之间的关系。Wang和Li扩展了二进制相关性(BR)方法,并通过特征空间转换来学习标签相关性。对于每个标签,通过随机选择几个标签作为其附加输入特征来学习多个二进制分类器,然后通过多数投票策略汇总这些分类器。杨等人运用频率特征和链式预测模型来处理多标签问题。。但是,预测性能仍在等待改善,因为所有这些方法中的最佳方法仍低于70%。
发明内容
针对现有技术中存在的白质亚细胞的定位准确率低的问题,本发明的目的在于提出一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,使用深度学习进行蛋白质亚细胞的定位有助于准确率的提升。
本发明的目的是通过下述技术方案予以实现的。
一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,包括以下步骤:
步骤1,数据收集和数据预处理:
1-1,准备数据集:所述数据集包括蛋白质免疫组化单标签图像I1;蛋白质免疫组化多标签图像I2。
1-2,将步骤1-1中所述的蛋白质免疫组化单标签图像I1进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道单标签图像P1;将步骤1-1中所述的蛋白质免疫组化多标签图像I2进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道多标签图像P2;
步骤2,数据增强和训练集、测试集划分:
2-1对步骤1-2中所得的蛋白质免疫组化蛋白质通道单标签图像P1进行上下翻转、左右翻转和旋转得到扩充后的数据集P_Aug1;
2-2对步骤1-2中所得的蛋白质免疫组化蛋白质通道多标签图像P2进行上下翻转、左右翻转和旋转得到扩充后的数据集P_Aug2;
2-3对步骤2-1中所得的数据集P_Aug1进行划分得到训练集Train1和测试集Test1;
2-4对步骤2-2中所得的数据集P_Aug2进行划分得到训练集Train2和测试集Test2;
步骤3,构建基于卷积神经网络的特征提取器:
3-1构建基于卷积神经网络的单标签数据集特征提取器:构建五个卷积神经网络作为蛋白质免疫组化蛋白质通道单标签图像的特征提取器,即AlexNet,VggNet,ResNet、DenseNet和XceptionNet,将训练集Train1和测试集Test1放入五个不同的神经网络中进行训练和测试,图像的尺寸和放入的神经网络的输入尺寸相符,当训练和测试结束,将蛋白质免疫组化蛋白质通道单标签图像P1的尺寸分别调整成符合五个卷积神经网络输入的大小然后进行图像特征的提取,最终由五种卷积神经网络提取器得到了五组不同的特征;
3-2构建基于卷积神经网络的多标签数据集特征提取器:构建五个卷积神经网络作为蛋白质免疫组化蛋白质通道多标签图像的特征提取器,即AlexNet,VggNet,ResNet、DenseNet和XceptionNet。将训练集Train2和测试集Test2放入五个不同的神经网络中进行训练和测试,图像的尺寸和放入的神经网络的输入尺寸相符,当训练结束,将蛋白质免疫组化蛋白质通道多标签图像P2的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取,最终由五种卷积神经网络提取器得到了五组不同的特征;
步骤4,利用最小冗余最大相关算法结合后向特征消除进行特征提取:
使用最小冗余最大相关算法结合后向特征消除来减少特征冗余,分别对蛋白质免疫组化蛋白质通道单标签图像P1的五组特征和蛋白质免疫组化蛋白质通道多标签图像P2的五组特征进行特征选择。分别生成P1的最佳特征子集和P2的最佳特征子集。
步骤5,构建亚细胞定位预测器:
5-1构建单标签亚细胞定位预测器:利用步骤4中确定的P1的最佳特征子集,使用支持向量机进行分类。
5-2构建多标签亚细胞定位预测器:将图像的标签集表示为L={l1,l2,...l9},如果li属于此图像,则将值设为1,否则为0,将步骤4中确定的P2的最佳特征子集放入支持向量机进行训练,对于每个图像支持向量机都输出九个分数S={s1,s2,...,s9},分别代表每个类别的概率;首先将具有最大概率smax的标签分配给样本,即将L中与smax位置相对应的位置设置1,然后寻找与smax相近的概率值,首先设置一个阈值θ,将与smax差值小于θ的第i个标签分配给图像,li值的确定过程如下:
其中,在所述公式(1)中,所述li为图像第i个位置的标签值,值为1表示该标签属于图像,值为0表示该标签不属于图像,i=1、2、3......9;所述si为图像第i个位置的概率值,i=1、2、3......9;所述smax为9个概率中最大的概率,所述Sdif={sdif1,sdif2,...,sdif9}为概率差向量,sdifi表示第i个位置的概率与smax的差值,i=1、2、3......9。
步骤6,亚细胞定位预测器的性能评价:
6-1选定单标签性能评价指标,对单标签亚细胞定位预测器的性能进行评价;
6-2选定多标签性能评价指标,对多标签亚细胞定位预测器的性能进行评价;
步骤7,利用单标签亚细胞定位预测器蛋白质免疫组化单标签图像进行预测,利用多标签亚细胞定位预测器对蛋白质免疫组化多标签图像进行预测。
在上述技术方案中,所述单标签包括7个亚细胞位置,分别为内质网,细胞骨架,高尔基体,线粒体,核仁,核仁和囊泡;
所述多标签包括9个亚细胞位置,分别为内质网,细胞骨架,高尔基体,线粒体,核仁,核仁,囊泡,溶酶体和细胞质。
在上述技术方案中,所述步骤1-2中,所述线性光谱分离方法,首先将每个图像的背景从白色转换为黑色,将图像表示为(m*n)*c的矩阵Iorig,然后将每个图像从RGB空间转换为HSV空间,并构建直方图,直方图中bin高于或等于阈值0.3的是蛋白质通道,直方图中bin小于阈值0.3的是DNA通道。
在上述技术方案中,所述步骤2-1和2-2中,对图像进行旋转时,旋转角度分别为π/6、π/3、π/2、2π/3、5π/6、π。
在上述技术方案中,所述步骤2-3和2-4中,训练集Train1和测试集Test1的比例为(7-8):(3-2);训练集Train2和测试集Test2的比例为(7-8):(3-2)。
在上述技术方案中,所述步骤3-1中,单标签数据集特征提取器中五个卷积神经网络的参数为:
CNNs | LR | BS | BN | Dropout | Optimizer |
AlexNet | 0.01 | 128 | yes | - | Adam |
VggNet | 0.01 | 128 | yes | - | Adadelta |
ResNet | 0.01 | 64 | yes | - | Adadelta |
DenseNet | 0.01 | 32 | yes | 0.1 | Momentum |
XceptionNet | 0.01 | 128 | yes | - | Adam |
在上述技术方案中,所述步骤3-2中,多标签数据集特征提取器中五个卷积神经网络的参数为:
CNNs | LR | BS | BN | Dropout | Optimizer |
AlexNet | 0.01 | 32 | yes | - | Adam |
VggNet | 0.01 | 32 | yes | - | Adadelta |
ResNet | 0.01 | 32 | yes | - | Adadelta |
DenseNet | 0.01 | 32 | yes | 0.1 | Momentum |
XceptionNet | 0.01 | 32 | yes | - | Adam |
在上述技术方案中,所述步骤4中,最小冗余最大相关算法基于特征的互信息对特征进行排序(最小冗余最大相关算法使用互信息来选择特征),后向特征消除通过消除排名最后的特征生成特征子集,最后选择性能最优的特征子集作为最佳特征子集。
在上述技术方案中,所述步骤6-1中,单标签性能评价指标包括准确率、灵敏度、特效度和F1-Score(F1分数或者是平衡F分数)。
在上述技术方案中,所述步骤6-2中,多标签性能评价指标包括准确率、灵敏度、特效度、F1-Score、子集准确度、标签准确度和平均标签准确率。
与现有技术相比,本发明的有益效果是:
1.本发明基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,包括:数据收集和数据预处理、数据增强训练集测试集划分,构建基于卷积神经网络的特征提取器,利用最小冗余最大相关算法结合后向特征消除进行特征提取和构建亚细胞定位分类器,方法流程简单。
2.本发明将深度学习应用于亚细胞定位预测问题上,取得了更好的分类效果。同时本发明引入了阈值学习策略,可以更好的挖掘标签与样本以及标签与标签之间的相关性使得多标签蛋白质亚结构的定位预测性能更好。
附图说明
图1为本发明的流程图;
图2为单标签样本亚细胞定位预测示意图;
图3为多标签样本亚细胞定位预测示意图;
图4多标签阈值策略示意图;
图5为实施例3中对选定图像进行单标签样本亚细胞定位预测的示意图;
图6为实施例3中对选定图像进行多标签样本亚细胞定位预测的示意图;
具体实施方式
以下结合具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,包括:步骤1,数据收集和数据预处理;步骤2,数据增强训练集测试集划分;步骤3,构建基于卷积神经网络的特征提取器;步骤4,利用最小冗余最大相关算法结合后向特征消除进行特征提取;步骤5,构建亚细胞定位分类器;步骤6,性能评价,步骤7,利用单标签亚细胞定位预测器蛋白质免疫组化单标签图像进行预测,利用多标签亚细胞定位预测器对蛋白质免疫组化多标签图像进行预测。
实施例2
一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,包括以下步骤:
步骤1,数据收集和数据预处理
1-1准备数据集,所述数据集包括:蛋白质免疫组化单标签图像I1;蛋白质免疫组化多标签图像I2。
在步骤1-1中,所述蛋白质免疫组化单标签图像I1和蛋白质免疫组化多标签图像I2是从http://www.proteinatlas.org/得到的;
在本发明的实施例中,所述蛋白质免疫组化单标签图像I1包含14个抗体蛋白,共有1386个免疫组化图像,属于7个亚细胞位置,包括内质网(ER),细胞骨架,高尔基体,线粒体,核仁,核仁和囊泡。所述蛋白质免疫组化多标签图像I2包含38种抗体蛋白,共3129个免疫组化图像,属于9个亚细胞位置,包括内质网(ER),细胞骨架,高尔基体,线粒体,核仁,核仁,囊泡,溶酶体和细胞质。
1-2将步骤1-1中所述的蛋白质免疫组化单标签图像I1进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道单标签图像P1;将步骤1-1中所述的蛋白质免疫组化多标签图像I2进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道多标签图像P2;
在步骤1-2中,所述线性光谱分离方法,首先将每个图像的背景从白色转换为黑色,将图像表示为(m*n)*c的矩阵Iorig,然后将每个图像从RGB空间转换为HSV空间,并构建直方图,直方图中bin高于或等于阈值0.3的是蛋白质通道,直方图中bin小于阈值0.3的是DNA通道。
步骤2,数据增强和训练集、测试集划分
2-1对步骤1-2中所得的蛋白质免疫组化蛋白质通道单标签图像P1进行上下翻转、左右翻转和旋转(π/6,π/3,π/2,2π/3,5π/6,π),每翻转或者旋转一次增加数据集,得到扩充后的数据集P_Aug1
在本发明实施例中,数据集P_Aug1包含30910个样本。
2-2对步骤1-2中所得的蛋白质免疫组化蛋白质通道多标签图像P2进行上下翻转、左右翻转和旋转(π/6,π/3,π/2,2π/3,5π/6,π),每翻转或者旋转一次增加数据集,得到扩充后的数据集P_Aug2
在本发明实施例中,数据集P_Aug2包含27492个样本。
2-3对步骤2-1中所得的数据集P_Aug1按照8:2的比例划分得到训练集Train1和测试集Test1
在本发明实施例中,训练集Train1包含24750个样本,测试集Test1包含6160个样本。
2-4对步骤2-2中所得的数据集P_Aug2按照8:2的比例划分得到训练集Train2和测试集Test2
在本发明实施例中,训练集Train1包含21984个样本,测试集Test1包含5508个样本。
步骤3,构建基于卷积神经网络的特征提取器
3-1构建基于卷积神经网络的单标签数据集特征提取器
构建了五个卷积神经网络作为蛋白质免疫组化蛋白质通道单标签图像的特征提取器,即AlexNet,VggNet,ResNet,DenseNet和XceptionNet。将训练集Train1和测试集Test1放入五种不同的神经网络中进行训练,图像的尺寸和放入的神经网络的输入尺寸相符,当训练结束,将蛋白质免疫组化蛋白质通道单标签图像P1的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取。最终由五种卷积神经网络提取器得到了五组不同的特征。
在本发明的实施例中,五个网络的激活函数均设置为ReLU;对于AlexNex,VggNet和ResNet有三层全连接层,节点数分别是1024,128和7;对于DenseNet和XceptionNet有两层全连接层,节点数分别是128和7,训练到loss值收敛至0.01时停止,最后提取的是倒数第二层全连接层的特征;其他参数设置在表1中展示:
表1:单标签卷积神经网络参数设置
CNNs | LR | BS | BN | Dropout | Optimizer |
AlexNet | 0.01 | 128 | yes | - | Adam |
VggNet | 0.01 | 128 | yes | - | Adadelta |
ResNet | 0.01 | 64 | yes | - | Adadelta |
DenseNet | 0.01 | 32 | yes | 0.1 | Momentum |
XceptionNet | 0.01 | 128 | yes | - | Adam |
3-2构建基于卷积神经网络的多标签数据集特征提取器
构建了五个卷积神经网络作为蛋白质免疫组化蛋白质通道多标签图像的特征提取器,即AlexNet,VggNet,ResNet,DenseNet和XceptionNet。将训练集Train2和测试集Test2放入五种不同的神经网络中进行训练,图像的尺寸和放入的神经网络的输入尺寸相符,当训练结束,将蛋白质免疫组化蛋白质通道多标签图像P2的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取。最终由五种卷积神经网络提取器得到了五组不同的特征。
在本发明的实施例中,五个网络的激活函数均设置为Sigmoid;对于AlexNex,VggNet和ResNet有三层全连接层,节点数分别是1024,128和9;对于DenseNet和XceptionNet有两层全连接层,节点数分别是128和9,训练到loss值收敛至0.01时停止,最后提取的是倒数第二层全连接层的特征;其他参数设置在表2中展示:
表2:多标签卷积神经网络参数设置
步骤4,利用最小冗余最大相关算法结合后向特征消除进行特征提取
使用最大冗余最大相关算法结合后向特征消除来减少特征冗余。最大冗余最大相关算法基于特征的互信息对特征进行排序。后向特征消除通过消除排名最后的特征生成特征子集。最后选择性能最优的特征子集作为最佳特征子集。分别对蛋白质免疫组化蛋白质通道单标签图像P1的五组特征和蛋白质免疫组化蛋白质通道多标签图像P2的五组特征进行特征选择。分别生成P1的最佳特征子集和P2的最佳特征子集。
本发明实施例中最大冗余最大相关算法对步骤3-1和步骤3-2中提取的共10组128维特征进行排序,然后将步长设为1依次进行后向特征消除,获得最佳特征子集。
步骤5,构建亚细胞定位预测器
5-1构建单标签亚细胞定位预测器
利用步骤4中确定的P1的最佳特征子集,使用支持向量机进行分类。
本发明实施例中,将步骤4中确定的最佳特征子集,放入支持向量机进行分类,支持向量机参数c的范围为[0.0001,0.001,0.01,0.1,1,10,100,500,600],gamma的范围为[0.001,0.01,0.1,1,10,100,500]。
5-2构建多标签亚细胞定位预测器
将图像的标签集表示为L={l1,l2,...l9},如果li属于此图像,则将值设为1,否则为0。将步骤四中确定的P2的最佳特征子集放入支持向量机进行训练,对于每个图像支持向量机都输出九个分数S={s1,s2,...,s9},分别代表每个类别的概率。首先将具有最大概率smax的标签分配给样本,即将L中与smax位置相对应的位置设置1。然后寻找与smax相近的概率值,首先设置一个阈值θ,将与smax差值小于θ的第i个标签分配给图像。li值的确定过程如下:
其中,在所述公式(1)中,所述li为图像第i个位置的标签值,值为1表示该标签属于图像,值为0表示该标签不属于图像,i=1、2、3……9;所述si为图像第i个位置的概率值,i=1、2、3……9;所述smax为9个概率中最大的概率。所述Sdif={sdif1,sdif2,...,sdif9}为概率差向量,sdifi表示第i个位置的概率与smax的差值,i=1、2、3……9。
本发明实施例中,支持向量机参数c的范围为[0.0001,0.001,0.01,0.1,1,10,100,500,600],gamma的范围为[0.001,0.01,0.1,1,10,100,500]。参数θ取值为从0.1到0.95,步长为0.05。
步骤6,性能评价指标
6-1单标签性能评价指标
准确率(Accuracy,ACC),灵敏度(Sensitivity,SEN),特效度(Specificity,SPE)、F1-Score。
本发明实施例中,AlexNet,VggNet,ResNet,DenseNet和XceptionNet五个神经网络的单标签最佳特征子集按照步骤5-1预测得到的各项指标的性能如表3所示:
表3单标签五个神经网络特征表现
Net | ACC(%) | SEN(%) | SPE(%) | F1(%) |
AlexNet | 91.4 | 91.2 | 98.5 | 91.7 |
VggNet | 89.9 | 89.3 | 98.3 | 89.7 |
Xception | 92.1 | 91.9 | 98.7 | 91.9 |
ResNet | 75.7 | 75.3 | 95.9 | 75.1 |
DenseNet | 89.2 | 89.6 | 98.2 | 89.8 |
6-2多标签性能评价指标
准确率(Accuracy,ACC),灵敏度(Sensitivity,SEN),特效度(Specificity,SPE),F1-Score,子集准确度(SubsetAccuracy),标签准确度(LabelAccuracy)和平均标签准确率(Average Label Accuracy)。
本发明实施例中,AlexNet,VggNet,ResNet,DenseNet和XceptionNet五个神经网络的多标签最佳特征子集按照步骤5-2预测得到的各项指标的性能如表4所示:
表4多标签五个神经网络特征表现
Net | ACCsub(%) | ACCavelab(%) | ACC(%) | SEN(%) | SPE(%) | F1(%) |
AlexNet | 83.0 | 80.3 | 95.3 | 85.7 | 96.8 | 83.1 |
VggNet | 85.9 | 84.1 | 95.2 | 88.6 | 96.2 | 82.7 |
Xception | 39.5 | 29.8 | 80.6 | 45.9 | 84.4 | 40.6 |
ResNet | 74.1 | 67.3 | 92.6 | 78.1 | 94.8 | 73.5 |
DenseNet | 65.5 | 57.1 | 89.8 | 74.0 | 92.0 | 69.1 |
实施例3
利用实施例2获得的单标签亚细胞定位预测器对选定图像进行预测,得到如图5所示结果。
利用实施例2获得的多标签亚细胞定位预测器对选定图像进行预测,得到如图6所示结果。
以上对本发明做了示例性的描述,应该说明的是,在不脱离本发明的核心的情况下,以上所述仅是本发明的优选实施方式,应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,包括以下步骤:
步骤1,数据收集和数据预处理:
1-1,准备数据集:所述数据集包括蛋白质免疫组化单标签图像I1;蛋白质免疫组化多标签图像I2;
1-2,将步骤1-1中所述的蛋白质免疫组化单标签图像I1进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道单标签图像P1;将步骤1-1中所述的蛋白质免疫组化多标签图像I2进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道多标签图像P2;
步骤2,数据增强和训练集、测试集划分:
2-1对步骤1-2中所得的蛋白质免疫组化蛋白质通道单标签图像P1进行上下翻转、左右翻转和旋转得到扩充后的数据集P_Aug1;
2-2对步骤1-2中所得的蛋白质免疫组化蛋白质通道多标签图像P2进行上下翻转、左右翻转和旋转得到扩充后的数据集P_Aug2;
2-3对步骤2-1中所得的数据集P_Aug1进行划分得到训练集Train1和测试集Test1;
2-4对步骤2-2中所得的数据集P_Aug2进行划分得到训练集Train2和测试集Test2;
步骤3,构建基于卷积神经网络的特征提取器:
3-1构建基于卷积神经网络的单标签数据集特征提取器:构建五个卷积神经网络作为蛋白质免疫组化蛋白质通道单标签图像的特征提取器,即AlexNet,VggNet,ResNet、DenseNet和XceptionNet,将训练集Train1和测试集Test1放入五个不同的神经网络中进行训练和测试,图像的尺寸和放入的神经网络的输入尺寸相符,当训练和测试结束,将蛋白质免疫组化蛋白质通道单标签图像P1的尺寸分别调整成符合五个卷积神经网络输入的大小然后进行图像特征的提取,最终由五种卷积神经网络提取器得到了五组不同的特征;
3-2构建基于卷积神经网络的多标签数据集特征提取器:构建五个卷积神经网络作为蛋白质免疫组化蛋白质通道多标签图像的特征提取器,即AlexNet,VggNet,ResNet、DenseNet和XceptionNet,将训练集Train2和测试集Test2放入五个不同的神经网络中进行训练和测试,图像的尺寸和放入的神经网络的输入尺寸相符,当训练结束,将蛋白质免疫组化蛋白质通道多标签图像P2的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取,最终由五种卷积神经网络提取器得到了五组不同的特征;
步骤4,利用最小冗余最大相关算法结合后向特征消除进行特征提取:
使用最小冗余最大相关算法结合后向特征消除来减少特征冗余,分别对蛋白质免疫组化蛋白质通道单标签图像P1的五组特征和蛋白质免疫组化蛋白质通道多标签图像P2的五组特征进行特征选择,分别生成P1的最佳特征子集和P2的最佳特征子集;
步骤5,构建亚细胞定位预测器:
5-1构建单标签亚细胞定位预测器:利用步骤4中确定的P1的最佳特征子集,使用支持向量机进行分类;
5-2构建多标签亚细胞定位预测器:将图像的标签集表示为L={l1,l2,...l9},如果li属于此图像,则将值设为1,否则为0,将步骤4中确定的P2的最佳特征子集放入支持向量机进行训练,对于每个图像支持向量机都输出九个分数S={s1,s2,...,s9},分别代表每个类别的概率;首先将具有最大概率smax的标签分配给样本,即将L中与smax位置相对应的位置设置1,然后寻找与smax相近的概率值,首先设置一个阈值θ,将与smax差值小于θ的第i个标签分配给图像,li值的确定过程如下:
其中,li为图像第i个位置的标签值,值为1表示该标签属于图像,值为0表示该标签不属于图像,i=1、2、3......9;si为图像第i个位置的概率值,i=1、2、3......9;smax为9个概率中最大的概率,Sdif={sdif1,sdif2,...,sdif9}为概率差向量,sdifi表示第i个位置的概率与smax的差值,i=1、2、3......9;
步骤6,亚细胞定位预测器的性能评价:
6-1选定单标签性能评价指标,对单标签亚细胞定位预测器的性能进行评价;
6-2选定多标签性能评价指标,对多标签亚细胞定位预测器的性能进行评价;
步骤7,利用单标签亚细胞定位预测器蛋白质免疫组化单标签图像进行预测,利用多标签亚细胞定位预测器对蛋白质免疫组化多标签图像进行预测。
2.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,所述单标签包括7个亚细胞位置,分别为内质网,细胞骨架,高尔基体,线粒体,核仁Nucleus,核仁Nucleolus和囊泡;
所述多标签包括9个亚细胞位置,分别为内质网,细胞骨架,高尔基体,线粒体,核仁Nucleus,核仁Nucleolus,囊泡,溶酶体和细胞质。
3.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,步骤1-2中,所述线性光谱分离方法,首先将每个图像的背景从白色转换为黑色,将图像表示为(m*n)*c的矩阵Iorig,然后将每个图像从RGB空间转换为HSV空间,并构建直方图,直方图中bin高于或等于阈值0.3的是蛋白质通道,直方图中bin小于阈值0.3的是DNA通道。
4.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,步骤2-1和2-2中,对图像进行旋转时,旋转角度分别为π/6、π/3、π/2、2π/3、5π/6、π。
5.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,步骤2-3和2-4中,训练集Train1和测试集Test1的比例为(7~8)∶(3~2);训练集Train2和测试集Test2的比例为(7~8)∶(3~2)。
6.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,步骤3-1中,单标签数据集特征提取器中五个卷积神经网络的参数为:
。
7.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,步骤3-2中,多标签数据集特征提取器中五个卷积神经网络的参数为:
。
8.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,所述步骤4中,最小冗余最大相关算法基于特征的互信息对特征进行排序(最小冗余最大相关算法使用互信息来选择特征),后向特征消除通过消除排名最后的特征生成特征子集,最后选择性能最优的特征子集作为最佳特征子集。
9.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,步骤6-1中,单标签性能评价指标包括准确率、灵敏度、特效度和F1-Score。
10.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法,其特征在于,步骤6-2中,多标签性能评价指标包括准确率、灵敏度、特效度、F1-Score、子集准确度、标签准确度和平均标签准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148528.5A CN112201300B (zh) | 2020-10-23 | 2020-10-23 | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011148528.5A CN112201300B (zh) | 2020-10-23 | 2020-10-23 | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112201300A CN112201300A (zh) | 2021-01-08 |
CN112201300B true CN112201300B (zh) | 2022-05-13 |
Family
ID=74011201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011148528.5A Active CN112201300B (zh) | 2020-10-23 | 2020-10-23 | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112201300B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508951B (zh) * | 2021-02-03 | 2021-06-22 | 中国科学院自动化研究所 | 用于确定内质网表型的方法及产品和用于药物筛选的方法 |
CN113724195B (zh) * | 2021-07-15 | 2023-06-02 | 南方医科大学 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
CN113888636B (zh) * | 2021-09-29 | 2024-06-14 | 山东大学 | 基于多尺度深度特征的蛋白质亚细胞定位方法 |
CN115064207B (zh) * | 2022-06-30 | 2023-06-30 | 南京医科大学 | 蛋白质亚细胞定位的空间蛋白质组学深度学习预测方法 |
CN117672353A (zh) * | 2023-12-18 | 2024-03-08 | 南京医科大学 | 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020177149A1 (en) * | 2001-04-20 | 2002-11-28 | Rimm David L. | Systems and methods for automated analysis of cells and tissues |
US20150213302A1 (en) * | 2014-01-30 | 2015-07-30 | Case Western Reserve University | Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features |
CN106845149A (zh) * | 2017-02-09 | 2017-06-13 | 景德镇陶瓷大学 | 一种新的基于基因本体信息的蛋白质序列表示方法 |
CN107577924A (zh) * | 2017-10-13 | 2018-01-12 | 上海交通大学 | 一种基于深度学习的长链非编码rna亚细胞位置预测算法 |
CN108595909A (zh) * | 2018-03-29 | 2018-09-28 | 山东师范大学 | 基于集成分类器的ta蛋白靶向预测方法 |
CN109034045A (zh) * | 2018-07-20 | 2018-12-18 | 中南大学 | 一种基于卷积神经网络的白细胞自动识别方法 |
US20190340753A1 (en) * | 2018-05-07 | 2019-11-07 | Zebra Medical Vision Ltd. | Systems and methods for detecting an indication of a visual finding type in an anatomical image |
CN111079620A (zh) * | 2019-12-10 | 2020-04-28 | 北京小蝇科技有限责任公司 | 基于迁移学习的白细胞图像检测识别模型构建方法及应用 |
CN111445944A (zh) * | 2020-03-27 | 2020-07-24 | 江南大学 | 基于多视角深度特征与多标签学习的rna结合蛋白识别 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819693A (zh) * | 2012-08-17 | 2012-12-12 | 中国人民解放军第三军医大学第二附属医院 | 一种基于改良周的伪氨基酸组成的蛋白质亚细胞位点预测方法 |
US10303979B2 (en) * | 2016-11-16 | 2019-05-28 | Phenomic Ai Inc. | System and method for classifying and segmenting microscopy images with deep multiple instance learning |
CN109740560B (zh) * | 2019-01-11 | 2023-04-18 | 山东浪潮科学研究院有限公司 | 基于卷积神经网络的人体细胞蛋白质自动识别方法及系统 |
CN111325264A (zh) * | 2020-02-17 | 2020-06-23 | 武汉大学 | 一种基于熵的多标签数据分类方法 |
CN111260677B (zh) * | 2020-02-20 | 2023-03-03 | 腾讯医疗健康(深圳)有限公司 | 基于显微图像的细胞分析方法、装置、设备及存储介质 |
-
2020
- 2020-10-23 CN CN202011148528.5A patent/CN112201300B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020177149A1 (en) * | 2001-04-20 | 2002-11-28 | Rimm David L. | Systems and methods for automated analysis of cells and tissues |
US20150213302A1 (en) * | 2014-01-30 | 2015-07-30 | Case Western Reserve University | Automatic Detection Of Mitosis Using Handcrafted And Convolutional Neural Network Features |
CN106845149A (zh) * | 2017-02-09 | 2017-06-13 | 景德镇陶瓷大学 | 一种新的基于基因本体信息的蛋白质序列表示方法 |
CN107577924A (zh) * | 2017-10-13 | 2018-01-12 | 上海交通大学 | 一种基于深度学习的长链非编码rna亚细胞位置预测算法 |
CN108595909A (zh) * | 2018-03-29 | 2018-09-28 | 山东师范大学 | 基于集成分类器的ta蛋白靶向预测方法 |
US20190340753A1 (en) * | 2018-05-07 | 2019-11-07 | Zebra Medical Vision Ltd. | Systems and methods for detecting an indication of a visual finding type in an anatomical image |
CN109034045A (zh) * | 2018-07-20 | 2018-12-18 | 中南大学 | 一种基于卷积神经网络的白细胞自动识别方法 |
CN111079620A (zh) * | 2019-12-10 | 2020-04-28 | 北京小蝇科技有限责任公司 | 基于迁移学习的白细胞图像检测识别模型构建方法及应用 |
CN111445944A (zh) * | 2020-03-27 | 2020-07-24 | 江南大学 | 基于多视角深度特征与多标签学习的rna结合蛋白识别 |
Non-Patent Citations (4)
Title |
---|
"A Classification Scheme for Predicting the Subcellular Localization of the Apoptosis Proteins Using Composition Features and Multiscale Entropy";Md. Mosheyur Rahman et al.;《10th International Conference on Electrical and Computer Engineering》;20181222;第345-348页 * |
"Multi-Label Learning for Protein Subcellular Location Prediction";Xiao Wang et al.;《2011 IEEE International Conference on Bioinformatics and Biomedicine》;20111231;第282-285页 * |
"基于多标记学习的人类蛋白质亚细胞多位置预测";翟云清 等;《湖北民族学院学报( 自然科学版)》;20180331;第36卷(第1期);第55-59、80页 * |
"基于序列和结构特征的蛋白质自由能预测";鲁帮力 等;《广西科学》;20170601;第24卷(第3期);第286-291页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112201300A (zh) | 2021-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112201300B (zh) | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 | |
Zhang et al. | Integrated multi-omics analysis using variational autoencoders: application to pan-cancer classification | |
US20160350336A1 (en) | Automated image searching, exploration and discovery | |
CN113454733A (zh) | 用于预后组织模式识别的多实例学习器 | |
CN109492706B (zh) | 一种基于循环神经网络的染色体分类预测装置 | |
CN110647907B (zh) | 利用多层分类和字典学习的多标签图像分类算法 | |
CN111126401B (zh) | 一种基于上下文信息的车牌字符识别方法 | |
CN111027636B (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN112784921A (zh) | 任务注意力引导的小样本图像互补学习分类算法 | |
CN117153268A (zh) | 一种细胞类别确定方法及系统 | |
Jiang et al. | Efficient scale space auto-context for image segmentation and labeling | |
Jiang et al. | Dynamic proposal sampling for weakly supervised object detection | |
CN116665210B (zh) | 基于多通道信息融合的细胞分类方法和装置 | |
Salman et al. | Gene expression analysis via spatial clustering and evaluation indexing | |
Pereira et al. | Assessing active learning strategies to improve the quality control of the soybean seed vigor | |
CN115511798A (zh) | 一种基于人工智能技术的肺炎分类方法及装置 | |
JP5633424B2 (ja) | プログラム及び情報処理システム | |
Choi et al. | Maximum-likelihood decomposition of overlapping and touching M-FISH chromosomes using geometry, size and color information | |
Schüffler et al. | Computational TMA analysis and cell nucleus classification of renal cell carcinoma | |
Salesi et al. | A hybrid model for classification of biomedical data using feature filtering and a convolutional neural network | |
Larese et al. | Spot defects detection in cDNA microarray images | |
Nikolaou et al. | Exploiting deep learning for overlapping chromosome segmentation | |
CN116578981B (zh) | 基于关键片段提取的恶意软件检测模型训练、方法和系统 | |
Ulaş et al. | Hybrid generative-discriminative nucleus classification of renal cell carcinoma |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |