CN112201300B

CN112201300B - 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法

Info

Publication number: CN112201300B
Application number: CN202011148528.5A
Authority: CN
Inventors: 苏苒; 何琳琳
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-05-13
Anticipated expiration: 2040-10-23
Also published as: CN112201300A

Abstract

本发明公开了一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，包括以下步骤：步骤1，数据收集和数据预处理；步骤2，数据增强训练集测试集划分；步骤3，构建基于卷积神经网络的特征提取器；步骤4，利用最小冗余最大相关算法结合后向特征消除进行特征提取；步骤5，构建亚细胞定位分类器；步骤6，性能评价，步骤7，利用单标签亚细胞定位预测器蛋白质免疫组化单标签图像进行预测，利用多标签亚细胞定位预测器对蛋白质免疫组化多标签图像进行预测。本发明引入了阈值学习策略，可以更好的挖掘标签与样本以及标签与标签之间的相关性使得多标签蛋白质亚结构的定位预测性能更好。

Description

基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法

技术领域

本发明涉及生物信息技术领域，特别是涉及一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法。

背景技术

蛋白质亚细胞定位是蛋白质组学研究中最重要的任务之一。细胞中的亚细胞是用于执行特定功能的不同区室，因此蛋白质的亚细胞定位通常与其功能密切相关。我们需要让蛋白质在正确的时间出现在细胞区室中的正确位置然后在正常细胞中发挥其功能，而蛋白质出现在错误的位置可能会导致包括癌症在内的一些病理性疾病。

目前，已经开发了用于蛋白质的亚细胞自动定位的计算方法。从数据方面来看，Leyi Wei,Hang Zhou等人利用一些计算方法使用一维蛋白质氨基酸序列预测亚细胞定位。与序列数据相比，Ying-Ying Xu等人以不同模式呈现蛋白质或亚细胞定位的2D图像更加直观。特别是，随着成像技术的发展，基于图像的方法的发展已经取得了相当大的进展，该方法采用手工图像特征来预测蛋白质的亚细胞定位,可以自动确定蛋白质的亚细胞定位，但是准确率较低。

并且当前的大多数研究都集中在单标签蛋白质的定位上，实际上，至少20％的人类蛋白质存在于两个以上的亚细胞定位。一些研究提出了用多个亚细胞结构标记蛋白质的算法。在Xu等人的研究中，使用了二进制相关性(BR)来构建多标签预测变量，该变量将多定位问题视为多个独立的二进制分类问题。但是，此方法未考虑类之间的关系。Wang和Li扩展了二进制相关性(BR)方法，并通过特征空间转换来学习标签相关性。对于每个标签，通过随机选择几个标签作为其附加输入特征来学习多个二进制分类器，然后通过多数投票策略汇总这些分类器。杨等人运用频率特征和链式预测模型来处理多标签问题。。但是，预测性能仍在等待改善，因为所有这些方法中的最佳方法仍低于70％。

发明内容

针对现有技术中存在的白质亚细胞的定位准确率低的问题，本发明的目的在于提出一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，使用深度学习进行蛋白质亚细胞的定位有助于准确率的提升。

本发明的目的是通过下述技术方案予以实现的。

一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，包括以下步骤：

步骤1，数据收集和数据预处理：

1-1，准备数据集：所述数据集包括蛋白质免疫组化单标签图像I1；蛋白质免疫组化多标签图像I2。

1-2，将步骤1-1中所述的蛋白质免疫组化单标签图像I1进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道单标签图像P1；将步骤1-1中所述的蛋白质免疫组化多标签图像I2进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道多标签图像P2；

步骤2，数据增强和训练集、测试集划分：

2-1对步骤1-2中所得的蛋白质免疫组化蛋白质通道单标签图像P1进行上下翻转、左右翻转和旋转得到扩充后的数据集P_Aug1；

2-2对步骤1-2中所得的蛋白质免疫组化蛋白质通道多标签图像P2进行上下翻转、左右翻转和旋转得到扩充后的数据集P_Aug2；

2-3对步骤2-1中所得的数据集P_Aug1进行划分得到训练集Train1和测试集Test1；

2-4对步骤2-2中所得的数据集P_Aug2进行划分得到训练集Train2和测试集Test2；

步骤3，构建基于卷积神经网络的特征提取器：

3-1构建基于卷积神经网络的单标签数据集特征提取器：构建五个卷积神经网络作为蛋白质免疫组化蛋白质通道单标签图像的特征提取器，即AlexNet，VggNet，ResNet、DenseNet和XceptionNet，将训练集Train1和测试集Test1放入五个不同的神经网络中进行训练和测试，图像的尺寸和放入的神经网络的输入尺寸相符，当训练和测试结束，将蛋白质免疫组化蛋白质通道单标签图像P1的尺寸分别调整成符合五个卷积神经网络输入的大小然后进行图像特征的提取，最终由五种卷积神经网络提取器得到了五组不同的特征；

3-2构建基于卷积神经网络的多标签数据集特征提取器：构建五个卷积神经网络作为蛋白质免疫组化蛋白质通道多标签图像的特征提取器，即AlexNet，VggNet，ResNet、DenseNet和XceptionNet。将训练集Train2和测试集Test2放入五个不同的神经网络中进行训练和测试，图像的尺寸和放入的神经网络的输入尺寸相符，当训练结束，将蛋白质免疫组化蛋白质通道多标签图像P2的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取，最终由五种卷积神经网络提取器得到了五组不同的特征；

步骤4，利用最小冗余最大相关算法结合后向特征消除进行特征提取：

使用最小冗余最大相关算法结合后向特征消除来减少特征冗余，分别对蛋白质免疫组化蛋白质通道单标签图像P1的五组特征和蛋白质免疫组化蛋白质通道多标签图像P2的五组特征进行特征选择。分别生成P1的最佳特征子集和P2的最佳特征子集。

步骤5，构建亚细胞定位预测器：

5-1构建单标签亚细胞定位预测器：利用步骤4中确定的P1的最佳特征子集，使用支持向量机进行分类。

5-2构建多标签亚细胞定位预测器：将图像的标签集表示为L＝{l₁，l₂，...l₉}，如果l_i属于此图像，则将值设为1，否则为0，将步骤4中确定的P2的最佳特征子集放入支持向量机进行训练，对于每个图像支持向量机都输出九个分数S＝{s₁，s₂，...，s₉}，分别代表每个类别的概率；首先将具有最大概率s_max的标签分配给样本，即将L中与s_max位置相对应的位置设置1，然后寻找与s_max相近的概率值，首先设置一个阈值θ，将与s_max差值小于θ的第i个标签分配给图像，l_i值的确定过程如下：

其中，在所述公式(1)中，所述l_i为图像第i个位置的标签值，值为1表示该标签属于图像，值为0表示该标签不属于图像，i＝1、2、3......9；所述s_i为图像第i个位置的概率值，i＝1、2、3......9；所述s_max为9个概率中最大的概率，所述S_dif＝{s_dif1，s_dif2，...，s_dif9}为概率差向量，s_difi表示第i个位置的概率与s_max的差值，i＝1、2、3......9。

步骤6，亚细胞定位预测器的性能评价：

6-1选定单标签性能评价指标，对单标签亚细胞定位预测器的性能进行评价；

6-2选定多标签性能评价指标，对多标签亚细胞定位预测器的性能进行评价；

步骤7，利用单标签亚细胞定位预测器蛋白质免疫组化单标签图像进行预测，利用多标签亚细胞定位预测器对蛋白质免疫组化多标签图像进行预测。

在上述技术方案中，所述单标签包括7个亚细胞位置，分别为内质网，细胞骨架，高尔基体，线粒体，核仁，核仁和囊泡；

所述多标签包括9个亚细胞位置，分别为内质网，细胞骨架，高尔基体，线粒体，核仁，核仁，囊泡，溶酶体和细胞质。

在上述技术方案中，所述步骤1-2中，所述线性光谱分离方法，首先将每个图像的背景从白色转换为黑色，将图像表示为(m*n)*c的矩阵I_orig，然后将每个图像从RGB空间转换为HSV空间，并构建直方图，直方图中bin高于或等于阈值0.3的是蛋白质通道，直方图中bin小于阈值0.3的是DNA通道。

在上述技术方案中，所述步骤2-1和2-2中，对图像进行旋转时，旋转角度分别为π/6、π/3、π/2、2π/3、5π/6、π。

在上述技术方案中，所述步骤2-3和2-4中，训练集Train1和测试集Test1的比例为(7-8)：(3-2)；训练集Train2和测试集Test2的比例为(7-8)：(3-2)。

在上述技术方案中，所述步骤3-1中，单标签数据集特征提取器中五个卷积神经网络的参数为：

CNNs	LR	BS	BN	Dropout	Optimizer
						AlexNet	0.01	128	yes	-	Adam
VggNet	0.01	128	yes	-	Adadelta
						ResNet	0.01	64	yes	-	Adadelta
DenseNet	0.01	32	yes	0.1	Momentum
						XceptionNet	0.01	128	yes	-	Adam

在上述技术方案中，所述步骤3-2中，多标签数据集特征提取器中五个卷积神经网络的参数为：

CNNs	LR	BS	BN	Dropout	Optimizer
						AlexNet	0.01	32	yes	-	Adam
VggNet	0.01	32	yes	-	Adadelta
						ResNet	0.01	32	yes	-	Adadelta
DenseNet	0.01	32	yes	0.1	Momentum
						XceptionNet	0.01	32	yes	-	Adam

在上述技术方案中，所述步骤4中，最小冗余最大相关算法基于特征的互信息对特征进行排序(最小冗余最大相关算法使用互信息来选择特征)，后向特征消除通过消除排名最后的特征生成特征子集，最后选择性能最优的特征子集作为最佳特征子集。

在上述技术方案中，所述步骤6-1中，单标签性能评价指标包括准确率、灵敏度、特效度和F1-Score(F1分数或者是平衡F分数)。

在上述技术方案中，所述步骤6-2中，多标签性能评价指标包括准确率、灵敏度、特效度、F1-Score、子集准确度、标签准确度和平均标签准确率。

与现有技术相比，本发明的有益效果是：

1.本发明基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，包括：数据收集和数据预处理、数据增强训练集测试集划分，构建基于卷积神经网络的特征提取器，利用最小冗余最大相关算法结合后向特征消除进行特征提取和构建亚细胞定位分类器，方法流程简单。

2.本发明将深度学习应用于亚细胞定位预测问题上，取得了更好的分类效果。同时本发明引入了阈值学习策略，可以更好的挖掘标签与样本以及标签与标签之间的相关性使得多标签蛋白质亚结构的定位预测性能更好。

附图说明

图1为本发明的流程图；

图2为单标签样本亚细胞定位预测示意图；

图3为多标签样本亚细胞定位预测示意图；

图4多标签阈值策略示意图；

图5为实施例3中对选定图像进行单标签样本亚细胞定位预测的示意图；

图6为实施例3中对选定图像进行多标签样本亚细胞定位预测的示意图；

具体实施方式

以下结合具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，包括：步骤1，数据收集和数据预处理；步骤2，数据增强训练集测试集划分；步骤3，构建基于卷积神经网络的特征提取器；步骤4，利用最小冗余最大相关算法结合后向特征消除进行特征提取；步骤5，构建亚细胞定位分类器；步骤6，性能评价，步骤7，利用单标签亚细胞定位预测器蛋白质免疫组化单标签图像进行预测，利用多标签亚细胞定位预测器对蛋白质免疫组化多标签图像进行预测。

实施例2

步骤1，数据收集和数据预处理

1-1准备数据集，所述数据集包括：蛋白质免疫组化单标签图像I1；蛋白质免疫组化多标签图像I2。

在步骤1-1中，所述蛋白质免疫组化单标签图像I1和蛋白质免疫组化多标签图像I2是从http://www.proteinatlas.org/得到的；

在本发明的实施例中，所述蛋白质免疫组化单标签图像I1包含14个抗体蛋白，共有1386个免疫组化图像，属于7个亚细胞位置，包括内质网(ER)，细胞骨架，高尔基体，线粒体，核仁，核仁和囊泡。所述蛋白质免疫组化多标签图像I2包含38种抗体蛋白，共3129个免疫组化图像，属于9个亚细胞位置，包括内质网(ER)，细胞骨架，高尔基体，线粒体，核仁，核仁，囊泡，溶酶体和细胞质。

1-2将步骤1-1中所述的蛋白质免疫组化单标签图像I1进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道单标签图像P1；将步骤1-1中所述的蛋白质免疫组化多标签图像I2进行线性光谱分离得到所述的蛋白质免疫组化蛋白质通道多标签图像P2；

在步骤1-2中，所述线性光谱分离方法，首先将每个图像的背景从白色转换为黑色，将图像表示为(m*n)*c的矩阵I_orig，然后将每个图像从RGB空间转换为HSV空间，并构建直方图，直方图中bin高于或等于阈值0.3的是蛋白质通道，直方图中bin小于阈值0.3的是DNA通道。

步骤2，数据增强和训练集、测试集划分

2-1对步骤1-2中所得的蛋白质免疫组化蛋白质通道单标签图像P1进行上下翻转、左右翻转和旋转(π/6，π/3，π/2,2π/3,5π/6,π)，每翻转或者旋转一次增加数据集，得到扩充后的数据集P_Aug1

在本发明实施例中，数据集P_Aug1包含30910个样本。

2-2对步骤1-2中所得的蛋白质免疫组化蛋白质通道多标签图像P2进行上下翻转、左右翻转和旋转(π/6，π/3，π/2,2π/3,5π/6,π)，每翻转或者旋转一次增加数据集，得到扩充后的数据集P_Aug2

在本发明实施例中，数据集P_Aug2包含27492个样本。

2-3对步骤2-1中所得的数据集P_Aug1按照8:2的比例划分得到训练集Train1和测试集Test1

在本发明实施例中，训练集Train1包含24750个样本，测试集Test1包含6160个样本。

2-4对步骤2-2中所得的数据集P_Aug2按照8:2的比例划分得到训练集Train2和测试集Test2

在本发明实施例中，训练集Train1包含21984个样本，测试集Test1包含5508个样本。

步骤3，构建基于卷积神经网络的特征提取器

3-1构建基于卷积神经网络的单标签数据集特征提取器

构建了五个卷积神经网络作为蛋白质免疫组化蛋白质通道单标签图像的特征提取器，即AlexNet，VggNet，ResNet，DenseNet和XceptionNet。将训练集Train1和测试集Test1放入五种不同的神经网络中进行训练，图像的尺寸和放入的神经网络的输入尺寸相符，当训练结束，将蛋白质免疫组化蛋白质通道单标签图像P1的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取。最终由五种卷积神经网络提取器得到了五组不同的特征。

在本发明的实施例中，五个网络的激活函数均设置为ReLU；对于AlexNex,VggNet和ResNet有三层全连接层，节点数分别是1024,128和7；对于DenseNet和XceptionNet有两层全连接层，节点数分别是128和7，训练到loss值收敛至0.01时停止，最后提取的是倒数第二层全连接层的特征；其他参数设置在表1中展示：

表1：单标签卷积神经网络参数设置

3-2构建基于卷积神经网络的多标签数据集特征提取器

构建了五个卷积神经网络作为蛋白质免疫组化蛋白质通道多标签图像的特征提取器，即AlexNet，VggNet，ResNet，DenseNet和XceptionNet。将训练集Train2和测试集Test2放入五种不同的神经网络中进行训练，图像的尺寸和放入的神经网络的输入尺寸相符，当训练结束，将蛋白质免疫组化蛋白质通道多标签图像P2的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取。最终由五种卷积神经网络提取器得到了五组不同的特征。

在本发明的实施例中，五个网络的激活函数均设置为Sigmoid；对于AlexNex,VggNet和ResNet有三层全连接层，节点数分别是1024,128和9；对于DenseNet和XceptionNet有两层全连接层，节点数分别是128和9，训练到loss值收敛至0.01时停止，最后提取的是倒数第二层全连接层的特征；其他参数设置在表2中展示：

表2：多标签卷积神经网络参数设置

步骤4，利用最小冗余最大相关算法结合后向特征消除进行特征提取

使用最大冗余最大相关算法结合后向特征消除来减少特征冗余。最大冗余最大相关算法基于特征的互信息对特征进行排序。后向特征消除通过消除排名最后的特征生成特征子集。最后选择性能最优的特征子集作为最佳特征子集。分别对蛋白质免疫组化蛋白质通道单标签图像P1的五组特征和蛋白质免疫组化蛋白质通道多标签图像P2的五组特征进行特征选择。分别生成P1的最佳特征子集和P2的最佳特征子集。

本发明实施例中最大冗余最大相关算法对步骤3-1和步骤3-2中提取的共10组128维特征进行排序，然后将步长设为1依次进行后向特征消除，获得最佳特征子集。

步骤5，构建亚细胞定位预测器

5-1构建单标签亚细胞定位预测器

利用步骤4中确定的P1的最佳特征子集，使用支持向量机进行分类。

本发明实施例中，将步骤4中确定的最佳特征子集，放入支持向量机进行分类，支持向量机参数c的范围为[0.0001，0.001，0.01，0.1，1，10，100，500，600]，gamma的范围为[0.001，0.01，0.1，1，10，100，500]。

5-2构建多标签亚细胞定位预测器

将图像的标签集表示为L＝{l₁，l₂，...l₉}，如果l_i属于此图像，则将值设为1，否则为0。将步骤四中确定的P2的最佳特征子集放入支持向量机进行训练，对于每个图像支持向量机都输出九个分数S＝{s₁，s₂，...，s₉}，分别代表每个类别的概率。首先将具有最大概率s_max的标签分配给样本，即将L中与s_max位置相对应的位置设置1。然后寻找与s_max相近的概率值，首先设置一个阈值θ，将与s_max差值小于θ的第i个标签分配给图像。l_i值的确定过程如下：

其中，在所述公式(1)中，所述l_i为图像第i个位置的标签值，值为1表示该标签属于图像，值为0表示该标签不属于图像，i＝1、2、3……9；所述s_i为图像第i个位置的概率值，i＝1、2、3……9；所述s_max为9个概率中最大的概率。所述S_dif＝{s_dif1，s_dif2，...，s_dif9}为概率差向量，s_difi表示第i个位置的概率与s_max的差值，i＝1、2、3……9。

本发明实施例中，支持向量机参数c的范围为[0.0001，0.001，0.01，0.1，1，10，100，500，600]，gamma的范围为[0.001，0.01，0.1，1，10，100，500]。参数θ取值为从0.1到0.95，步长为0.05。

步骤6，性能评价指标

6-1单标签性能评价指标

准确率(Accuracy，ACC)，灵敏度(Sensitivity，SEN)，特效度(Specificity，SPE)、F1-Score。

本发明实施例中，AlexNet，VggNet，ResNet，DenseNet和XceptionNet五个神经网络的单标签最佳特征子集按照步骤5-1预测得到的各项指标的性能如表3所示：

表3单标签五个神经网络特征表现

Net	ACC(％)	SEN(％)	SPE(％)	F1(％)
					AlexNet	91.4	91.2	98.5	91.7
VggNet	89.9	89.3	98.3	89.7
					Xception	92.1	91.9	98.7	91.9
ResNet	75.7	75.3	95.9	75.1
					DenseNet	89.2	89.6	98.2	89.8

6-2多标签性能评价指标

准确率(Accuracy，ACC)，灵敏度(Sensitivity，SEN)，特效度(Specificity，SPE)，F1-Score，子集准确度(SubsetAccuracy)，标签准确度(LabelAccuracy)和平均标签准确率(Average Label Accuracy)。

本发明实施例中，AlexNet，VggNet，ResNet，DenseNet和XceptionNet五个神经网络的多标签最佳特征子集按照步骤5-2预测得到的各项指标的性能如表4所示：

表4多标签五个神经网络特征表现

Net	ACCsub(％)	ACCavelab(％)	ACC(％)	SEN(％)	SPE(％)	F1(％)
							AlexNet	83.0	80.3	95.3	85.7	96.8	83.1
VggNet	85.9	84.1	95.2	88.6	96.2	82.7
							Xception	39.5	29.8	80.6	45.9	84.4	40.6
ResNet	74.1	67.3	92.6	78.1	94.8	73.5
							DenseNet	65.5	57.1	89.8	74.0	92.0	69.1

实施例3

利用实施例2获得的单标签亚细胞定位预测器对选定图像进行预测，得到如图5所示结果。

利用实施例2获得的多标签亚细胞定位预测器对选定图像进行预测，得到如图6所示结果。

以上对本发明做了示例性的描述，应该说明的是，在不脱离本发明的核心的情况下，以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，包括以下步骤：

步骤1，数据收集和数据预处理：

1-1，准备数据集：所述数据集包括蛋白质免疫组化单标签图像I1；蛋白质免疫组化多标签图像I2；

步骤2，数据增强和训练集、测试集划分：

步骤3，构建基于卷积神经网络的特征提取器：

3-2构建基于卷积神经网络的多标签数据集特征提取器：构建五个卷积神经网络作为蛋白质免疫组化蛋白质通道多标签图像的特征提取器，即AlexNet，VggNet，ResNet、DenseNet和XceptionNet，将训练集Train2和测试集Test2放入五个不同的神经网络中进行训练和测试，图像的尺寸和放入的神经网络的输入尺寸相符，当训练结束，将蛋白质免疫组化蛋白质通道多标签图像P2的尺寸分别调整成符合五个网络输入的大小然后进行图像特征的提取，最终由五种卷积神经网络提取器得到了五组不同的特征；

使用最小冗余最大相关算法结合后向特征消除来减少特征冗余，分别对蛋白质免疫组化蛋白质通道单标签图像P1的五组特征和蛋白质免疫组化蛋白质通道多标签图像P2的五组特征进行特征选择，分别生成P1的最佳特征子集和P2的最佳特征子集；

步骤5，构建亚细胞定位预测器：

5-1构建单标签亚细胞定位预测器：利用步骤4中确定的P1的最佳特征子集，使用支持向量机进行分类；

其中，l_i为图像第i个位置的标签值，值为1表示该标签属于图像，值为0表示该标签不属于图像，i＝1、2、3......9；s_i为图像第i个位置的概率值，i＝1、2、3......9；s_max为9个概率中最大的概率，S_dif＝{s_dif1，s_dif2，...，s_dif9}为概率差向量，s_difi表示第i个位置的概率与s_max的差值，i＝1、2、3......9；

步骤6，亚细胞定位预测器的性能评价：

2.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，所述单标签包括7个亚细胞位置，分别为内质网，细胞骨架，高尔基体，线粒体，核仁Nucleus，核仁Nucleolus和囊泡；

所述多标签包括9个亚细胞位置，分别为内质网，细胞骨架，高尔基体，线粒体，核仁Nucleus，核仁Nucleolus，囊泡，溶酶体和细胞质。

3.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，步骤1-2中，所述线性光谱分离方法，首先将每个图像的背景从白色转换为黑色，将图像表示为(m*n)*c的矩阵I_orig，然后将每个图像从RGB空间转换为HSV空间，并构建直方图，直方图中bin高于或等于阈值0.3的是蛋白质通道，直方图中bin小于阈值0.3的是DNA通道。

4.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，步骤2-1和2-2中，对图像进行旋转时，旋转角度分别为π/6、π/3、π/2、2π/3、5π/6、π。

5.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，步骤2-3和2-4中，训练集Train1和测试集Test1的比例为(7～8)∶(3～2)；训练集Train2和测试集Test2的比例为(7～8)∶(3～2)。

6.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，步骤3-1中，单标签数据集特征提取器中五个卷积神经网络的参数为：

。

7.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，步骤3-2中，多标签数据集特征提取器中五个卷积神经网络的参数为：

。

8.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，所述步骤4中，最小冗余最大相关算法基于特征的互信息对特征进行排序(最小冗余最大相关算法使用互信息来选择特征)，后向特征消除通过消除排名最后的特征生成特征子集，最后选择性能最优的特征子集作为最佳特征子集。

9.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，步骤6-1中，单标签性能评价指标包括准确率、灵敏度、特效度和F1-Score。

10.如权利要求1所述的基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法，其特征在于，步骤6-2中，多标签性能评价指标包括准确率、灵敏度、特效度、F1-Score、子集准确度、标签准确度和平均标签准确率。