CN113888636A

CN113888636A - 基于多尺度深度特征的蛋白质亚细胞定位方法

Info

Publication number: CN113888636A
Application number: CN202111153587.6A
Authority: CN
Inventors: 魏乐义; 汪逢生
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-04
Anticipated expiration: 2041-09-29
Also published as: CN113888636B

Abstract

本发明提供基于多尺度深度特征的蛋白质亚细胞定位方法，属于生物信息处理技术领域，利用训练好的预测模型对获取的蛋白质免疫组织化学图像进行处理，获得最终的蛋白质亚细胞定位结果；其中，提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征，基于多尺度特征得到不同亚细胞位置的预测概率得分向量，结合多标签分类学习策略对预测概率进行判别，得到最终的蛋白质亚细胞定位结果；其中，训练好的预测模型为使用类别不平衡损失优化训练得到。本发明使用空间分布特征和语义特征进行融合，自动提取了更加全面的多尺度特征，提高了效率；基于类别不平衡损失和多标签学习策略，为不同类别施加权重以及考虑不同亚细胞位置的相关性，提高了预测的精度。

Description

基于多尺度深度特征的蛋白质亚细胞定位方法

技术领域

本发明涉及生物信息处理技术领域，具体涉及一种基于多尺度深度特征的蛋白质亚细胞定位方法。

背景技术

细胞作为一个独立单元包含了数个蛋白质分子，每个蛋白质位于不同的亚细胞位置内进行着多种多样的活动。比如具有真核细胞“大脑”功能的细胞核存储着具有遗传信息的脱氧核糖核酸DNA，叶绿体是光合作用反应的位置等。细胞中的蛋白质在细胞中起着不可替代的作用，与亚细胞位置相关的知识有助于理解生物过程中蛋白质的所发挥的具体功能。

通常蛋白质在特定的时间必须出现在细胞正确的细胞器内传递信号和物质，催化代谢反应或为细胞提供结构支持。蛋白质的异常定位可能会使其出现在错误的细胞器中影响其功能，甚至导致疾病，如癌症。一些潜在的原因可能导致出现异常的蛋白位置，比如靶向序列的氨基酸突变，翻译后修饰和表达水平的改变，以及运输机制的解除管制。为了充分理解蛋白质错误定位的潜在机制，识别错误定位的蛋白靶点十分重要。此外，在药物发现、抗癌治疗过程中，确定蛋白的亚细胞位置可以大大提高靶点的识别。

由于蛋白质数据量大且快速增长，使用生物实验和视觉观测等传统方法判断蛋白质的亚细胞位置虽然可靠，但其需耗费较多的人力、物力及时间，定位效率低且不够准确。蛋白质亚细胞位置的自动定位需采用计算的方法，自动预测亚细胞位置对于大规模数据中注释新蛋白和检测蛋白易位具有重要意义。

近年来，出现的蛋白质亚细胞定位的新方法，如，基于一维氨基酸序列的方法和基于二维图像的方法。与测序数据相比，二维图像够呈现出更加有用的不同模式信息，以不同的模式呈现蛋白质和亚细胞位置，更加直观和具有可解释性。近年来，得益于显微成像技术的发展从显微图像中获得复杂的蛋白质定位模式和分布信息，使蛋白质亚细胞定位预测更加准确。

以往的绝大多数方法从图像中提取大量手工图像特征作为亚细胞位置特征(SLF)来预测亚细胞位置。SLF集作为全局特征广泛使用，主要包括Haralick特征、Zernike特征、DNA特征、局部二值模式(LBP)和LBP变体。基于传统手工特征的方法有iLocator、SC-PSorter和MIC_Locator等。随着深度学习在图像处理方面取得了突破性的成果，已经有不少方法利用深度神经网络预测亚细胞位置。CNN-Lasso和CNN-SVM选择从卷积神经网络(CNNs)的最后一层全连接层提取的特征进行最终分类。ImPLoc采用深度卷积神经网络提取图像特征，并引入了自注意力机制来聚合多个特征向量进行蛋白质亚细胞定位预测。虽然上述很多高效的计算方法可以解决蛋白质的亚细胞定位问题，但在实际的预测过程中仍存在以下几个方面的问题：

首先，大多数蛋白质亚细胞定位方法预测的是单标签蛋白质亚细胞位置。这种情况下，每种蛋白质只对应一个亚细胞位置。考虑到人类近20％的蛋白质存在于两个或两个以上的亚细胞位置，由于一张图像中可能存在多个亚细胞，不同亚细胞通常位于图像中不同的位置，并且具有不同尺寸和姿态，甚至存在相互遮挡等干扰的情况，仅有的多标签蛋白的分类问题采用简单的比较方法，并没有考虑不同亚细胞位置之间以及特征之间的相关性。

其次，亚细胞在细胞中的分布情况导致了其所对应数据集中分布存在偏差的情况，而这将导致生物信息学模型的分类性能比较差，目前绝大多数方法并没有强调这个问题，而是直接筛选有效的数据对数据进行重新采样的方法，而对于有限的数据往往不能随意的抛弃这些数据，必须从损失和模型的角度才能改善问题。

最后，基于深度神经网络的绝大多数蛋白质亚细胞定位提取全局特征进行考虑，然而有些亚细胞位置可能仅仅与一个图像中的小区域相关联，也可能与整个图像关联，考虑仅仅考虑图像的全局语义信息而忽视局部空间信息的方法极大的影响了定位结果。此外，亚细胞定位特征复杂且异变，简单的使用全局特征或局部特征在一定程度上丢失蛋白质亚细胞图像的信息从而影响定位的精度。

发明内容

本发明的目的在于提供一种考虑不同亚细胞位置以及特征之间的相关性，并关联亚细胞局部空间特征信息，提高了定位精度的蛋白质亚细胞定位方法，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

一方面，本发明提供一种蛋白质亚细胞定位方法，包括：

获取待预测的蛋白质免疫组织化学图像；

利用训练好的预测模型对获取的蛋白质免疫组织化学图像进行处理，获得最终的蛋白质亚细胞定位结果；其中，提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征，基于多尺度特征得到不同亚细胞位置的预测概率得分向量，结合多标签分类学习策略对预测概率进行判别，得到最终的蛋白质亚细胞定位结果；其中，

所述训练好的预测模型为使用类别不平衡损失优化训练得到。

优选的，对不同的亚细胞位置施加不同的权重，得到类别不平衡损失；其中，计算数据集中每个类别的数量，并选择最大的一个作为基数，基数与每个类别的数量的比值即为该类别的权重。

优选的，多标签分类学习策略包括：对于每张蛋白质免疫组织化学图像，其中，预测概率得分向量中每个得分对应于一个亚细胞位置类别，选择其中最大的得分并将对应的位置分配给样本；确定一个判别阈值，通过比较判别阈值和最大得分与预测概率得分的差的大小，得到所述样本的标签集。

优选的，在所述样本的标签集中，若最大得分与某一预测概率得分的差值小于所述判别阈值，则该某一预测概率得分对应的元素属于所述样本，否则，该某一预测概率得分对应的元素不属于所述样本。

优选的，提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征包括：将原始蛋白质序列编码多通道矩阵数据；基于多通道矩阵数据提取蛋白质免疫组织化学图像的低层语义特征；基于低层语义特征提取高层语义特征；对提取的高层语义特征进行增强，对增强后的高层语义特征与低层语义特征进行拼接融合，学习上下文表示，得到多尺度特征。

优选的，将原始蛋白质序列编码多通道矩阵数据包括：对原始蛋白质免疫组化图像进行均衡化处理得到图像数据向量。

优选的，基于多头注意力机制学习蛋白质序列的多尺度特征上下文表示。

第二方面，本发明提供一种蛋白质亚细胞定位系统，包括：

获取模块，用于获取待预测的蛋白质免疫组织化学图像；

判定模块，用于利用训练好的预测模型对获取的蛋白质免疫组织化学图像进行处理，获得最终的蛋白质亚细胞定位结果；其中，提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征，基于多尺度特征得到不同亚细胞位置的预测概率得分向量，结合多标签分类学习策略对预测概率进行判别，得到最终的蛋白质亚细胞定位结果；其中，

第三方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如上所述的蛋白质亚细胞定位方法。

第四方面，本发明提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如上所述的蛋白质亚细胞定位方法的指令。

本发明有益效果：使用空间分布特征和语义特征进行融合，自动提取了多尺度特征，提取的特征更加全面，提高了效率；基于类别不平衡损失和多标签学习策略，为不同类别施加权重以及考虑不同亚细胞位置的相关性提高了预测的精度。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于多尺度特征的端到端的深度神经网络结构示意图。

图2为本发明实施例所述的RFB模块的详细架构图。

图3为本发明实施例所述的ViT模块的详细架构图。

图4为本发明实施例所述的不同判别阈值下模型性能的结果图。

图5为本发明实施例所述的蛋白质亚细胞定位方法的定位结果示意图。

图6为本发明实施例所述的多尺度特征和传统特征的t-SNE的示意图。

图7为本发明实施例所述的生物标志物识别的流程图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1提供一种蛋白质亚细胞定位系统，该系统包括：

获取模块，用于获取待预测的蛋白质免疫组织化学图像；

本实施例1中，利用上述的蛋白质亚细胞定位系统，实现了一种蛋白质亚细胞定位方法，该方法包括：

首先利用获取模块获取待预测的蛋白质免疫组织化学图像；

然后将获取的蛋白质免疫组织化图像(IHC图像)输入到判定模块中，利用训练好的预测模型对获取的蛋白质免疫组织化学图像进行处理，获得最终的蛋白质亚细胞定位结果；其中，基于多尺度特征得到不同亚细胞位置的预测概率得分向量，结合多标签分类学习策略对预测概率进行判别，得到最终的蛋白质亚细胞定位结果。

具体的，本实施例1中，判定模块包括多尺度特征提取单元和分类单元，多尺度特征提取单元用于提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征，分类单元用于基于预测概率得分向量，结合多标签分类学习策略对预测概率进行判别，得到最终的蛋白质亚细胞定位结果。

本实施例1中，类别不平衡损失为：对不同的亚细胞位置施加不同的权重，得到类别不平衡损失；其中，计算数据集中每个类别的数量，并选择最大的一个作为基数，基数与每个类别的数量的比值即为该类别的权重。

本实施例1中，多标签分类学习策略包括：对于每张蛋白质免疫组织化学图像，其中，预测概率得分向量中每个得分对应于一个亚细胞位置类别，选择其中最大的得分并将对应的位置分配给样本；确定一个判别阈值，通过比较判别阈值和最大得分与预测概率得分的差的大小，得到所述样本的标签集。其中，判别阈值的设定是通过学习得到的。

其中，在所述样本的标签集中，若最大得分与某一预测概率得分的差值小于所述判别阈值，则该某一预测概率得分对应的元素属于所述样本，否则，该某一预测概率得分对应的元素不属于所述样本。

本实施例1中，提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征包括：将原始蛋白质序列编码多通道矩阵数据；基于多通道矩阵数据提取蛋白质免疫组织化学图像的低层语义特征；基于低层语义特征提取高层语义特征；对提取的高层语义特征进行增强，对增强后的高层语义特征与低层语义特征进行拼接融合，学习上下文表示，得到多尺度特征。

具体的，本实施例1中，在判定模块的多尺度特征提取单元中，使用VGGNet架构的特征提取网络提取低层空间特征和高层语义特征，其中高层语义特征按照多路径分别提取，使用RFB子模块对高层语义特征在大区域上下文捕捉更详细的信息，通过特征融合子模块(FFM子模块)分别融合低层语义特征和高层语义特征，通过ViT子模块学习融合特征的多角度上下文表示，以多路进行提取得到多尺度特征。

其中，将原始蛋白质序列编码多通道矩阵数据包括：对原始蛋白质免疫组化图像进行均衡化处理得到图像数据向量。基于多头注意力机制学习蛋白质序列的多尺度特征上下文表示。

本实施例1中，RFB子模块在每个分支中采用瓶颈结构，由1×1卷积层组成，以减少特征图中的通道数量。其次，使用1×n加n×1卷积层来减少参数和加深非线性层。然后，利用空洞卷积层生成更高分辨率的特征图，在保持参数数量不变的情况下，获取更大范围、更多上下文的信息。最后，特征图被连接起来，合并到1×1转换层，生成增强的高级特征表示。

本实施例1中，ViT子模块是由图像块嵌入、多头注意力机制、前馈网络和残差连接技术组成的编码器块。

其中，图像块嵌入是将FFM子模块输出的图像特征向量，通过和位置编码进行拼接得到，经过投影映射得到对应的序列特征。

多头注意力机制由许多独立的自注意力模块组成，用于学习蛋白质序列的多尺度特征上下文表示。利用线性转换层，将多头注意力的输出维度映射到特征维度。之后，应用残差连接技术和层归一化(LN)，并加入前馈网络(FFN)以通过激活函数提取更好的表示，前馈网络的输出也运用了残差连接技术并经过层归一化。

实施例2

如图1所示，本实施例2中，基于多尺度特征的端到端的深度神经网络结构提供了一种蛋白质亚细胞定位系统，该系统包括：

获取模块，用于获取待预测的蛋白质免疫组织化学图像；

本实施例2中，利用上述的蛋白质亚细胞定位系统，实现了一种预测多标签蛋白质亚细胞位置的方法，该方法包括：

首先利用获取模块获取待预测的蛋白质免疫组织化学图像；

本实施例2中，提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征包括：将原始蛋白质序列编码多通道矩阵数据；基于多通道矩阵数据提取蛋白质免疫组织化学图像的低层语义特征；基于低层语义特征提取高层语义特征；对提取的高层语义特征进行增强，对增强后的高层语义特征与低层语义特征进行拼接融合，学习上下文表示，得到多尺度特征。

本实施例2中，对原始蛋白质免疫组化图像进行均衡化处理得到图像数据向量，具体方法为：原始蛋白质免疫组化图像首先使用均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]均衡化处理的数据向量。此外，在模型训练时对图像进行数据增广操作包括翻转和旋转操作等。

具体的，本实施例2中，判定模块包括多尺度特征提取单元和分类单元，多尺度特征提取单元用于提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征，分类单元用于基于预测概率得分向量，结合多标签分类学习策略对预测概率进行判别，得到最终的蛋白质亚细胞定位结果。分类单元由全连接网络构建。

本实施例2中，在判定模块的多尺度特征提取单元中，使用VGGNet架构的特征提取网络提取低层空间特征和高层语义特征，其中高层语义特征按照多路径分别提取，使用RFB子模块对高层语义特征在大区域上下文捕捉更详细的信息，通过特征融合子模块(FFM子模块)分别融合低层语义特征和高层语义特征，通过ViT子模块学习融合特征的多角度上下文表示，以多路进行提取得到多尺度特征。

本实施例2中，RFB子模块的基本单元可以结合图2所示，首先，RFB在每个分支中采用瓶颈结构，由1×1卷积层组成，以减少特征图中的通道数量。其次，使用1×n加n×1卷积层来减少参数和加深非线性层。然后，利用空洞卷积层生成更高分辨率的特征图，在保持参数数量不变的情况下，获取更大范围、更多上下文的信息。最后，特征图被连接起来，合并到1×1转换层，生成增强的高级特征表示。

本实施例2中，ViT子模块的基本单元可以结合图3，其是由图像块嵌入、多头注意力机制、前馈网络和残差连接技术组成的编码器块。

本实施例2中，类别不平衡损失为：对不同的亚细胞位置施加不同的权重，得到类别不平衡损失；其中，计算数据集中每个类别的数量，并选择最大的一个作为基数，基数与每个类别的数量的比值即为该类别的权重。

具体的，本实施例2中，基于数据集样本构建类别不平衡损失函数的优化单元，使得不同权重占比的样本类别在尽量能在优化过程中尽可能保持平衡。具体来说，蛋白质免疫组化图像数据中存在这严重的数据不平衡问题，对于每张图像

在共计有C类位置计算的全部损失可以定义如下：

为了避免在优化过程中某些类别主导损失梯度，考虑对不同的亚细胞位置施加不同的权重G＝[g₁,g₂,...,g_C]。首先假设所有的样品都是高质和必要的，计算数据集中每个类别j的数量为n_j，并选择其中最大的一个作为基数n_l，对应权重g_l。然后定义权重g_j为：

则损失计算如下所示：

则总的损失定义如下：

本实施例2中，多标签分类学习策略包括：对于每张蛋白质免疫组织化学图像，其中，预测概率得分向量中每个得分对应于一个亚细胞位置类别，选择其中最大的得分并将对应的位置分配给样本；确定一个判别阈值，通过比较判别阈值和最大得分与预测概率得分的差的大小，得到所述样本的标签集。其中，判别阈值的设定是通过学习得到的。

具体的，本实施例2中使用一种阈值学习策略进行最终的预测。首先在得到全连接网络输出的亚细胞位置的预测结果后，得到一个6D的得分概率向量P＝{p₁,p₂,...,p₆}，对于每张IHC图像，其中每个得分对应于一个亚细胞位置，考虑选择其中最大的得分并将对应的位置分配给样本。

然后，假设在最大得分和其它得分的差值作为dif，概率p_i对应的亚细胞位置的dif_i值可以定义如下：

dif_i＝max{p₁,p₂,p₃,p₄,p₅,p₆}-p_i i∈[1,2,...,6]；

然后，学习了一个判别准则θ(即判别阈值)，它决定了最终标签集。通过比较θ的值与差值的大小，得到样本的标签集L＝{l₁,l₂,...,l₆}。

其中，l_i的定义如下：

如果l_i的值为1，则其对应的位置属于这个样本。否则，它就不是。如图4所示，θ的设定是通过学习得到的。本实施例2中，θ的起始值是0.1，然后θ以0.01步长递增至1。最后，选取最优θ值进行标签预测。

实施例3

本实施例3中，提供了一种预测多标签蛋白质亚细胞位置的方法(MSTLoc)，该方法具体包括以下过程：

获取待预测的蛋白质免疫组化图像数据(即蛋白质组织化学IHC图像)，将所述数据输入到使用类别不平衡损失训练好的基于多尺度特征的神经网络模型(即训练好的预测模型)，输出不同亚细胞位置的概率，并用多标签学习策略实现最终的预测；

其中，所述类别平衡损失优化的基于多尺度特征的神经网络模型首先将原始蛋白质序列编码多通道矩阵数据；具体方法为：原始蛋白质免疫组化图像首先使用均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]均衡化处理的数据向量。此外，在模型训练时对图像进行数据增广操作包括翻转和旋转操作等。

所述图像数据向量首先输入到多尺度特征提取单元中提取低级空间特征和高级语义特征，所述的多尺度特征提取单元由VGGNet架构的特征提取网络构成，其中高级语义特征按照多路径分别提取，然后使用RFB子模块对高级特征在大区域上下文捕捉更详细的信息，通过特征融合子模块分别融合低级和高级特征，通过ViT子模块学习融合特征的多角度上下文表示，以多路进行提取得到多尺度特征。

具体地，结合图1所示，本实施例3中，基于类别平衡损失优化的多尺度特征的神经网络模型具体包括：输入模块(即获取模块)、特征提取模块(即多尺度特征提取单元)、分类模块(即分类单元)和优化模块。

本实施例3中，构建输入模块的具体方法如下：

在输入模块中，原始的的免疫组化图像通过均值为[0.485,0.456,0.406]和方差为[0.229,0.224,0.225]均衡化处理后得到数据向量，不同于以往的方法将蛋白质免疫图像数据经过线性波普分离操作得到蛋白质通道和DNA通道的预处理操作，本实施例3中，直接考虑在原始的免疫组化图像上进行处理构建端到端模型。

本实施例3中，构建特征提取模块的具体方法包括：

该模块以经典的神经网络VGGNet为基本架构，IHC图像首先被输入到该架构的前两个卷积层，以提取高分辨率、语义较弱(即低水平)的特征。首先，引入边缘特征提取器包括大小为1和3的卷积核获取高分辨率区域边界信息作为额外的判别特征。然后，将低层次特征输入到该架构的后三个卷积层提取高层次特征，并将高层次特征输入到RFB子模块生成增强的高级特征表示。特征融合模块(FFM子模块)通过拼接通道对特征进行进一步卷积对这些特征进行聚合，生成综合特征。当这些特征图被经分割子模块(S)被分割成固定大小的小块后，将它们输入ViT子模块，整合整个图像特征的信息。最后，提取三种不同的路径拼接后的特征得到多尺度特征。

本实施例3中，构建RFB模块的具体方法包括：

RFB模块的基本单元可以结合图2所示，首先，RFB在每个分支中采用瓶颈结构，由1×1卷积层组成，以减少特征图中的通道数量。其次，与原始的n×n卷积层相比，使用1×n加n×1卷积层来减少参数和加深非线性层。然后，利用空洞卷积层生成更高分辨率的特征图，在保持参数数量不变的情况下，获取更大范围、更多上下文的信息。最后，特征图被连接起来，合并到1×1转换层，生成增强的高级特征表示。

本实施例3中，构建基于ViT的编码器模块的具体方法包括：

ViT子模块的基本单元可以结合图3，其是由图像块嵌入、多头注意力机制、前馈网络和残差连接技术组成的编码器块。

其中，图像块嵌入是将FFM模块输出的图像特征向量，通过和位置编码进行拼接得到，经过投影映射得到对应的序列特征

多头注意力机制由许多独立的自注意力模块组成，用于学习蛋白质序列的多尺度特征上下文表示。

其中，自注意力机制描述如下：

其中

分别通过线性层W^Q、W^K、W^V转化为查询矩阵

键矩阵

和值矩阵

L是输入蛋白质序列的长度，d_m是多尺度特征维度，d_k是矩阵Q、K和V的维度。

多头注意力机制基于上述的自注意力机制，可表述为如下：

其中，W_i ^Q、W_i ^K、W_i ^V分别是第i个head的查询矩阵、键矩阵和值矩阵对应的线性变换层，h表示head的数目。

是一个线性转换层，可以将多头注意力的输出维度映射到特征维度。之后，应用残差连接技术和层归一化(LN)，X_MultiHead是多头注意力模块的最终输出。

加入前馈网络(FFN)以通过激活函数提取更好的表示，其数学描述如下：

其中，X_MultiHead是多头注意力机制的输出，

和

是两个线性层并且在所有位置共享。d_m是初始嵌入维度，d_f是前向网络隐藏层的维度。gelu(GaussianError Linear Units)是一个非线性激活函数，前馈网络的输出也运用了残差连接技术并经过层归一化。

由于ViT子模块有许多编码器块，因此ViT子模块的最终编码过程可以表示为如下：

X⁽ⁱ⁾＝FFN(MultiHead(X^(i-1))),i＝1,2,...,n

其中，X⁽ⁱ⁾是第i个编码器块的输出，n表示编码器块的总数。X⁽⁰⁾是初始输入嵌入矩阵，这里为了方便起见，认为多头注意力和FFN都包括残差连接技术和LN。

本实施例3中，构建分类模块的具体方法如下：

提取的多尺度特征维数仍然很高。因此，为了避免维度的冗余，如下使用FNN(全连接神经网络)来更好地提取输入蛋白质图像的特征的表示，同时降低维度并输出最后的亚细胞位置的预测结果。最后，使用多标签学习策略进行最终的预测。

本实施例中，构建基于多标签学习策略的具体方法包括：

为了探索标签和标签之间相关性的作用，使用一种阈值学习策略进行最终的预测。首先在得到全连接网络输出的亚细胞位置的预测结果后得到一个6D的得分概率向量P＝{p₁,p₂,...,p₆}，对于每张IHC图像，其中每个得分对应于一个亚细胞位置，考虑选择其中最大的得分并将对应的位置分配给样本。

dif_i＝max{p₁,p₂,p₃,p₄,p₅,p₆}-p_i i∈[1,2,...,6]；

其中，l_i的定义如下：

本实施例3中，构建优化模块的具体方法如下：

本实施例3提出了一种基于数据集样本构建损失函数的优化模块，使得不同权重占比的样本类别在尽量能在优化过程中尽可能保持平衡。具体来说，蛋白质免疫组化图像数据中存在这严重的数据不平衡问题，对于每张图像

在C类计算的全部损失可以定义如下：

则损失计算如下所示：

则总的损失定义如下：

本实施例3中，为了更好地评估本实施例提出的方法的整体性能，选择使用分类任务中常用的四个基于标签经典指标，包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1得分(F1)。它们的计算公式如下：

其中，TP(真阳性)和TN(真阴性)表示正确预测的正样本和负样本数量，FP(假阳性)和FN(假阴性)表示错误预测的正样本和负样本的数量。

由于是多分类问题需要求在个标签上的平均指标，计算公式如下：

其中，q是标签的数目。

此外还有五个基于样本的评估准则。

其中，p是数据集中所有样本的数目，I是指示函数，返回0或1。

为了评估本实施例3所述的方法MSTLoc的性能，首先构建了以前的方法中从人类蛋白质图谱中广泛使用的数据集，并运用构建的基于多尺度特征的端到端神经网络模型进行实验。

具体的数据集如下：

免疫组化(IHC)显微镜图像基于人类蛋白质图谱(HPA)(http://www。proteinatlas.org/)版本20.1和Ensembl版本92.38，这是一个公共在线数据集，存储了数以百万计的IHC图像约13000个蛋白质用于蛋白质亚细胞定位。为了保证在数据质量方面，只使用标签可靠性水平“增强”的蛋白质。HPA中的每一张IHC图像都用化学染料染色，其中的区域特异性蛋白质用单特异性抗体标记为棕色二氨基联苯胺和DNA被苏木精染成紫色。使用蛋白质来自四个器官:肝脏，膀胱，乳房和前列腺。只选择图像染色强度水平强，数量大于75％。

HPA共有28个亚细胞位置，样本数量在很多地方都很小。因此，根据细胞器的层次结构，改变了主要的亚细胞位置，将其合并为核、线粒体、囊泡、高尔基体、内质网和细胞质六类。数据集在蛋白水平上划分为训练集和测试集，即属于同一蛋白的IHC图像要么在训练集(包括验证集)，要么在测试集。为了公平，样本数据分布尽量相同，训练集和测试集之间没有交集。注意，有一些多标签蛋白，即具有多个亚细胞位置的蛋白。整个数据集中标签数量与蛋白质数量之比约为1.16。图像归一化的均值为[0.485,0.456,0.406]，标准差为[0.229,0.224,0.225]。此外，为了提高泛化能力，避免过拟合，通过翻转(上/下和左/右)和旋转操作进行数据增强。

在上述获取的数据集的基础上，我们进行了全面的实验来测试所提出的方法对预测多标签蛋白亚细胞位置的有效性。图5给出了MSTLoc、class-balanced loss(CBLoss)MSTLoc和criteria learning strategy(CLStrategy)MSTLoc的预测结果。值得注意的是，所有模型都是在初始参数固定的情况下进行优化的。

1)类平衡损失的有效性：该方法的一个优点是在优化过程中可以避免某些类主导梯度，这对于平衡不同类别的重要性至关重要。从图5中可以明显看出，有了类均衡损耗，MSTLoc在所有指标上都能取得更好的性能，这说明了利用类别平衡损失训练模型的重要性。

2)多标签学习策略的有效性：MSTLoc使用概率向量学习θ，θ决定最终的标签集。学习θ的性能曲线如图4所示。选择曲线达到峰值时θ的值。从图5可以看出，采用阈值学习策略的MSTLoc取得了更好的性能，凸显了多标签学习策略的有效性和效率。这是因为该策略利用了标签-标签相关性，而这一点在许多多分类方法中被忽略了。

为了进一步直观的观察本实施例神经网络模型的优势，本实施例方法MSTLoc与包括传统机器学习方法和最新方法在内的现有方法进行了比较。如表1所示，得到了最后的测试集上预测评价结果。表1为MSTLoc和其他现有方法在测数据集上多个指标的数据表格，在多个指标上均取得了不错的结果。

表1

图6为提取多尺度特征的MSTLoc的特征空间分布的t-SNE可视化图。其中，(a)和(b)表示iLocator提取的经典的传统特征和MSTLoc提取的多尺度特征。图6所示结果表明，本实施例3提出的提取多尺度特征框架学习了高质量的表示并提高了预测性能。

此外，MSTLoc被应用于生物学实验来识别数据集中错误定位的蛋白，以测试其识别蛋白生物标志物的能力。数据集总共包含1461个蛋白质。在蛋白数据集中有两组图像，包括来自三个器官的正常和癌症样本，即肝脏、乳腺和前列腺。然后按照以下步骤筛选生物标志物，如图7所示。

步骤1：对于每个蛋白，使用MSTLoc来预测正常和癌症图像得到两个标签向量。如果位置中至少有一种成分不同，则该蛋白将被保留以进行后续筛选。

步骤2：使用MSTLoc逐一预测每个蛋白的所有图像的标签概率(6-D矢量)。这样，对于每个蛋白质，我们得到两组概率向量。

步骤3：利用这些得分向量，我们对每个亚细胞位置进行独立样本t检验，如果所有位置的P值小于0.05，则认为该蛋白是可靠的潜在生物标志物。

本实施例3中，使用类别平衡损失优化的多尺度特征构建模型应用到预测蛋白质亚细胞位置的问题上，在测试集上取得了不错的结果。同时，巧妙的设计了多个对比实验，有效的验证了方法的综合性能。

实施例4

本发明实施例4提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如上所述的蛋白质亚细胞定位方法，该方法包括：

获取待预测的蛋白质免疫组织化学图像；

实施例5

本发明实施例5提供一种计算机程序(产品)，包括计算机程序，所述计算机程序当在一个或多个处理器上运行时，用于实现如上所述的蛋白质亚细胞定位方法，该方法包括：

获取待预测的蛋白质免疫组织化学图像；

实施例6

本发明实施例6提供一种电子设备，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如上所述的蛋白质亚细胞定位方法的指令，该方法包括：

获取待预测的蛋白质免疫组织化学图像；

综上所述，本发明实施例所述的蛋白质亚细胞定位方法，实现了基于多尺度特征的多标签蛋白质亚细胞定位方法，该方法在许多评价指标方面优于最新的蛋白质亚细胞定位方法。使用空间分布特征和语义特征进行融合提取多尺度特征，可以自动提取特征，而不是基于已有经验，可以很好地避免由预测工具所带来的问题。提出新颖的类别不平衡损失和多标签学习策略，通过在模型优化过程中为不同类别施加权重以及考虑不同亚细胞位置的相关性，提高了预测的精度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种蛋白质亚细胞定位方法，其特征在于，包括：

获取待预测的蛋白质免疫组织化学图像；

2.根据权利要求1所述的蛋白质亚细胞定位方法，其特征在于，对不同的亚细胞位置施加不同的权重，得到类别不平衡损失；其中，计算数据集中每个类别的数量，并选择最大的一个作为基数，基数与每个类别的数量的比值即为该类别的权重。

3.根据权利要求1所述的蛋白质亚细胞定位方法，其特征在于，多标签分类学习策略包括：对于每张蛋白质免疫组织化学图像，其中，预测概率得分向量中每个得分对应于一个亚细胞位置类别，选择其中最大的得分并将对应的位置分配给样本；确定一个判别阈值，通过比较判别阈值和最大得分与预测概率得分的差的大小，得到所述样本的标签集。

4.根据权利要求3所述的蛋白质亚细胞定位方法，其特征在于，在所述样本的标签集中，若最大得分与某一预测概率得分的差值小于所述判别阈值，则该某一预测概率得分对应的元素属于所述样本，否则，该某一预测概率得分对应的元素不属于所述样本。

5.根据权利要求1所述的蛋白质亚细胞定位方法，其特征在于，提取蛋白质免疫组织化学图像中蛋白质序列的多尺度特征包括：将原始蛋白质序列编码多通道矩阵数据；基于多通道矩阵数据提取蛋白质免疫组织化学图像的低层语义特征；基于低层语义特征提取高层语义特征；对提取的高层语义特征进行增强，对增强后的高层语义特征与低层语义特征进行拼接融合，学习上下文表示，得到多尺度特征。

6.根据权利要求5所述的蛋白质亚细胞定位方法，其特征在于，将原始蛋白质序列编码多通道矩阵数据包括：对原始蛋白质免疫组化图像进行均衡化处理得到图像数据向量。

7.根据权利要求5所述的蛋白质亚细胞定位方法，其特征在于，基于多头注意力机制学习蛋白质序列的多尺度特征上下文表示。

8.一种蛋白质亚细胞定位系统，其特征在于，包括：

获取模块，用于获取待预测的蛋白质免疫组织化学图像；

9.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质用于存储计算机指令，所述计算机指令被处理器执行时，实现如权利要求1-7任一项所述的蛋白质亚细胞定位方法。

10.一种电子设备，其特征在于，包括：处理器、存储器以及计算机程序；其中，处理器与存储器连接，计算机程序被存储在存储器中，当电子设备运行时，所述处理器执行所述存储器存储的计算机程序，以使电子设备执行实现如权利要求1-7任一项所述的蛋白质亚细胞定位方法的指令。