CN113724195A

CN113724195A - 基于免疫荧光图像的蛋白质的定量分析模型和建立方法

Info

Publication number: CN113724195A
Application number: CN202110798727.9A
Authority: CN
Inventors: 徐莹莹; 薛敏琪
Original assignee: Southern Medical University
Current assignee: Southern Medical University
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-30
Anticipated expiration: 2041-07-15
Also published as: CN113724195B

Abstract

本发明涉及基于免疫荧光图像的蛋白质的定量分析模型和建立方法，涉及生物信息技术领域。建立方法：收集蛋白质的免疫荧光图像数据，构造具有亚细胞位置定量标注的数据集；采用深度学习模型进行特征编码，将分布在单个亚细胞位置中的图像的深度特征所代表的模式为基模式，分布在多个亚细胞位置中的图像的深度特征所代表的模式为混合模式；采用Linear、R‑NNMF、MLM、K‑nonlinear中的至少一种方法，结合基模式，对混合模式进行模式分解，得到的混合系数作为预测分布比例；选取和实际情况符合程度高的分解方法，构建定量分析模型。适用于不含定量标注的蛋白质免疫荧光图像数据集以及大规模基于免疫荧光图像的蛋白质定量预测，应用条件灵活且预测精度较高。

Description

基于免疫荧光图像的蛋白质的定量分析模型和建立方法

技术领域

本发明涉及生物信息技术领域，特别是涉及基于免疫荧光图像的蛋白质的定量分析模型和建立方法。

背景技术

蛋白质是一种重要的生物大分子，分布在不同的细胞和细胞器中执行着各种各样的功能，以确保生物体正常的生命活动。此外，在人体细胞中，大约有一半的蛋白质分布在两个或以上的亚细胞位置。因此，快速准确地分析这些蛋白质的亚细胞位置的分布量，对探究蛋白质功能、研究细胞的代谢情况都有重要意义。

蛋白质的免疫荧光图像对比蛋白质序列和免疫组化图像，直观地反映出特定蛋白质在细胞中的分布情况，包含了丰富的蛋白质位置模式信息，已广泛应用于蛋白质亚细胞位置的定性分析。然而，蛋白质的定量分析仍需要实验室仪器量化检测的方法，这种方法成本较高且效率低。因此，应用生物图像信息学的相关知识，使用计算机技术定量地评估荧光图像中蛋白质的分布比例，有利于提高定量分析效率，对蛋白质生理功能的研究具有重要意义。

目前，由于带有定量标注的蛋白质免疫荧光图像数据集的稀缺，针对免疫荧光图像的蛋白质定量分析的方法研究不多，目前只有三种专门设计用来评估对免疫荧光图像的蛋白质分布比例的模型：(1)有监督的线性模式分解模型(Peng,T.,et al.(2010)Determining the distribution of probes between different subcellularlocations through automated unmixing of subcellular patterns,Proceedings ofthe National Academy of Sciences,107,2944-2949.)。该模型利用一组描述蛋白质荧光点的形状和尺寸的形态学特征和描述荧光对象位置关系的特征 ——SOF1特征，并通过聚类和统计频率的方式得到一组代表蛋白质图像的模式数据，其中单标签数据的模式称为基模式、多标签模式则称为混合模式。最后，利用有监督的线性分解方法分解混合模式，定量地预测多标签蛋白质的亚细胞分布比例。(2)无监督的模式分解模型 (Coelho,L.P.,Peng,T.and Murphy,R.F.(2010)Quantifying the distribution of probes betweensubcellular locations using unsupervised pattern unmixing,Bioinformatics,26,7-12.)。同样利用 SOF1特征得到的蛋白质图像模式，分别使用基追踪和LDA模型无监督地分解混合模式，评估单个细胞荧光图像的蛋白质分布比例。(3)可变权重的支持向量机(VW-SVM)的非线性回归模型(Yang,Q.,et al.(2016)Multiplex protein patternunmixing using a non-linear variable-weighted support vector machine asoptimized by a particle swarm optimization algorithm, Talanta,147,609-614.)。利用SOF1特征和由此得到的一组频率数据构成图像的模式，然后使用可变权重的支持向量机(VW-SVM)方法，对带有定量标注的混合模式数据进行非线性回归拟合，并用粒子群算法优化模型参数。以上三种模型都是基于蛋白质荧光点特征进行定量分析的，从他们的预测结果可以看出，前两种模式分解模型的预测精度与实际应用还有一定差距，而VW-SVM模型需要使用大量定量标注数据训练，算法普适性很低。

发明内容

针对上述问题，本发明提供一种基于免疫荧光图像的蛋白质的定量分析模型，适用于多种不含定量标注的蛋白质免疫荧光图像数据集，应用条件灵活且预测精度较高，适用于大规模的基于蛋白质免疫荧光图像的蛋白质定量预测。

为了达到上述目的，本发明提供了一种基于免疫荧光图像的蛋白质的定量分析模型，通过以下方法建立：

构造数据集：收集蛋白质的免疫荧光图像数据，构造具有亚细胞位置定量标注的数据集；

特征编码：以深度学习模型为模式特征编码器，对所述数据集进行特征编码，生成的深度特征作为所述免疫荧光图像中蛋白质的位置分布模式，其中，分布在单个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为基模式，分布在多个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为混合模式；

模式分解：采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少一种方法，结合所述数据集的基模式，对所述混合模式进行模式分解，以得到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例；

模型构建：对比上述各分解方法的预测结果与实际情况的符合程度，选取符合程度高的分解方法，构建得到定量分解模型，即得。

采用上述定量分析模型，可以无需使用含定量标注的蛋白质免疫荧光图像数据进行训练，因此可扩展应用于大部分只含有定性标注的蛋白质免疫荧光图像数据集的定量分析上，具有较强的普适性和灵活性。

在其中一个实施例中，所述构造数据集步骤中，所述数据集包括真实数据集和合成数据集；

所述真实数据集由含有真实浓度标注的蛋白质免疫荧光图像数据构成；

所述合成数据集由人类蛋白质图谱数据库中的免疫荧光数据集，基于像素的图像融合方法，生成的含有多亚细胞位置混合模式且带有各位置上定量比例标注的蛋白质免疫荧光图像数据构成。

上述合成数据集表现更多样、标签种类更多，且带有定量标注，和所述真实数据集一起，其定量标注能作为评估模型预测性能的金标准。

在其中一个实施例中，所述特征编码步骤中，所述基模式的得到方式为使用所述深度学习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码，所述混合模式的得到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征编码。

在其中一个实施例中，所述特征编码步骤中，所述特征编码步骤中，所述深度学习模型为基于DenseNet再训练得到的卷积神经网络模型。

采用上述模型，能代替荧光特征作为蛋白质的分布模式，因为卷积神经网络模型是目前对蛋白质荧光图像分类表现最佳的模型，所以能更好地提取图像中蛋白质的分布细节特征，有助于提高定量分析的评估精度。

在其中一个实施例中，所述线性分解方法的表达式为：

其中，x为样本的模式向量，f为对应的基模式向量，α＝[α₁,α₂,...,α_U]为预测的混合系数对应蛋白质的分布比例，U为模式的数量，e为误差项，通过最小化误差项

来求解混合分数α；

所述稳定非负矩阵分解方法的表达式为：

其中，矩阵A＝[α₁,α₂,...,α_N]表示混合系数矩阵，F＝[f₁,f₂,...,f_U]表示基模式矩阵，R＝[r₁,r₂,...,r_N]表示非线性稀疏矩阵，X＝[x₁,x₂,...,x_N]为待分解的混合模式矩阵；

所述多线性分解方法的表达式为：

其中

表示哈达玛积，λ是调节线性和非线性项的参数，F是基模式矩阵，α是混合系数向量，x是混合模式向量，e是误差项；

所述核非线性分解方法的表达式为：

其中，ψ＝ψ_lin+ψ_nlin为非线性函数，μ是平衡范数项和误差项的参数，e是混合模式与所构造的非线性函数值之间的误差，K是特征模式的维数。

采用上述分解方法，能对所述混合模式进行模式分解，得到所述混合系数，且当混合模式和基模式之间的关系存在非线性因素时，采用上述非线性的分解方式，有利于提高定量评估的精度。

在其中一个实施例中，所述模式分解步骤中，非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少两种采用如下公式进行集成：

α_E＝w₁α₁+w₂α₂+…+w_nα_n

其中，n为独立算法的个数，每个独立算法的权重为w＝{w₁,w₂,...,w_n}，α为集成算法所得到的混合系数向量。

采用上述非线性分解方法的集成模型，能够结合各个算法的优点，降低不同算法的潜在局限性，增强模型在不同数据集上的鲁棒性，得到的分解效果最好。

在其中一个实施例中，所述模式分解步骤中，采用多线性分解方法和核非线性分解方法的集成方法进行模式分解。

采用上述多线性分解方法和核非线性分解方法的集成方法进行模式分解，耗时最短。

在其中一个实施例中，所述特征编码步骤中，取卷积神经网络最后一层输出特征，作为该图像蛋白质的位置分布模式。采用所述卷积神经网络最后一层输出特征，耗费时间最短。

本发明还提供了所述定量分析模型的建立方法，包括以下步骤：

本发明还提供了一种基于免疫荧光图像的蛋白质的定量分析方法，将待分析蛋白质的免疫荧光图像数据输入权利要求1-9任一项所述的定量分析模型，分析输出蛋白质在不同亚细胞位置中分布比例的预测值。

与现有技术相比，本发明具有以下有益效果：

本发明提供了一种基于免疫荧光图像的蛋白质的定量分析模型，所述方法采用深度学习模型为模式特征编码器，以深度学习特征代替荧光特征作为蛋白质的分布模式，与传统的基于荧光特征的模式分解方法相比，能够更好地提取蛋白质的分布细节特征，提高了定量分析的评估精度。其次，所述方法采用非线性分解方法的集成模型，能够结合各个算法的优点，降低不同算法的潜在局限性，增强模型在不同数据集上的鲁棒性。所述方法与回归模型相比，不需要使用含定量标注的数据进行训练，可以扩展应用于大部分只含有定性标注数据集的定量分析上，比如HPA数据集，体现出本发明的普适性和灵活性。

具体实施方式

为了便于理解本发明，下面将参照相关实施例对本发明进行更全面的描述。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

定义：

本发明所述的深度学习模块：是一类模式分析方法的统称，主要涉及三类方法：(1)基于卷积运算的神经网络系统，即卷积神经网络(CNN)。(2)基于多层神经元的自编码神经网络，包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(SparseCoding)。 (3)以多层自编码神经网络的方式进行预训练，进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

卷积神经网络模型：是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为平移不变人工神经网络(SIANN)。

鲁棒性：指系统的健壮性，它是在异常和危险情况下系统生存的关键，是指系统在一定 (结构、大小)的参数摄动下，维持某些性能的特性。

来源：

本实施例所用的试剂、材料、设备如无特殊说明，均为市售来源；实验方法如无特殊说明，均为本领域的常规实验方法。

实施例1

1、构建数据集。

采用来自Murphy组实验室定量制作的蛋白质免疫荧光图像，作为第一数据集。采用只含有定性标注的人类蛋白质图谱数据库中的蛋白免疫荧光图像，和基于像素的图像融合算法生成的合成数据集，作为第二数据集。所述第一数据集、第二数据集的详细信息如下表所示。

表1 本发明使用的两个免疫荧光数据集的详细信息

2、特征编码。

使用卷积神经网络模型分别对大小为1024×1024的第一数据集和第二数据集进行特征编码，提取深度特征，然后分别取模型的倒数二层输出和最后一层输出特征，作为蛋白质亚细胞位置模式。其中，单标签图像的模式称为基模式，多标签图像的模式称为混合模式。

所述卷积神经网络模型的主要网络框架是DenseNet121，使用了分布在28个类上大约 110000个样本进行训练，使用了Focal loss+Lovász loss损失函数，优化训练时数据不平衡问题。

3、模式分解。

(1)线性分解(Linear)。

基于多标签图像的混合模式是由相应单标签图像的基模式线性组合而成的假设，得到下式评估基模式在混合模式中的混合比例关系：

其中，x为样本的模式向量，f为对应的基模式向量，α＝[α₁,α₂,...,α_U]为预测的混合系数对应蛋白质的分布比例，U为模式的数量。该方法通过最小化误差项

来求解混合分数α。

(2)稳定非负矩阵分解(R-NNMF)。

设向量r为混合模式中的非线性项因素呈稀疏分布，则该模型的公式如下：

上述公式用非负矩阵的形式表示则如下：

其中，矩阵A＝[α₁,α₂,...,α_N]表示混合系数矩阵，F＝[f₁,f₂,...,f_U]表示基模式矩阵，R＝[r₁,r₂,...,r_N]表示非线性因素矩阵。然后，构建下列式子，并使用块坐标下降算法，求解混合系数矩阵：

其中，参数θ＝0.08是一个调节非线性项的超参数，||·||为矩阵的范数，残差项D(X|FA+R)的计算，使用了β-divergence，具体表达式如下：

(3)多线性分解(MLM)。

假设模型的非线性因素呈现多线性分布，因此该方法的表达式如下：

其中

表示哈达玛积，λ是调节线性和非线性项的参数。然后通过结合梯度投影算法和 BCD算法求解下面的优化函数：

其中l＝[λ₁,λ₂,...,λ_N]在迭代过程中展现出相邻迭代步骤中变量间的关系。

(4)核非线性分解(K-nonlinear)。

利用了非线性核函数将非线性特征映射到高维空间，使其便于分解。模型的优化目标为：

其中，ψ＝ψ_lin+ψ_nlin为非线性函数与混合模式x、混合系数α和基模式F有关。他们四者的关系如下：

其中K为模式特征的维数，μ表示调节优化过程中规范化和函数拟合的参数。该非线性核κ为多项式核，表达式如下：

(5)对非线性分解进行集成。

在由n个独立算法构成的集成中，希望获得每个独立算法的权重w＝{w₁,w₂,...,w_n}，该权重由多次二折交叉验证网格搜索得到。最后集成算法的输出由下公式得到：

根据公式

构建多线性分解和核非线性分解(M+K)、稳定非负矩阵分解和多线性分解和核非线性分解(R+M+K)的非线性集成模型。分别得到2个集成算法如下：

(6)模式分解。

使用上述4种模式分解算法和2种非线性集成算法，结合所述第一数据集和所述第二数据集的基模式，分别对上述两个数据集中的混合模式进行模式分解，分解得到的混合系数作为蛋白质在该位置上的预测分布比例。

4、评估分析性能。

采用皮尔森相关系数(CC)和均方误差(MSE)作为评估模型定量分析性能好坏的指标。公式如下：

同时，采用均方误差为另一评价准则，计算公式如下：

CC越大，估算方法越准确，MSE越小，估算方法越准确。其中，N为样本数量，x_i和 y_i分别为真实和估算值，

和

为相应的均值。

根据公式

和公式

计算预测值和真实值的相关性和差异性，评价整个模型定量分析的性能。

上述6种分解方法分别对来自不同数据集和不同层数的特征的十次实验的平均结果，结果如下表所示。

表2 不同的分解方法分别在不同数据集和不同深度特征模式的结果

5、评估错分率。

因本发明的目的是应用于大规模的定量预测，所以需要考虑模型在使用过程中的实际问题和时间花费情况。在实际的预测过程中，模型可能会将模式占较大的类的比例预测值为1，其他较小的类预测为0，这会造成数据的标签缺失，将这种情况称为错分。上述6种分解模型在第一数据集上的错分率如下表所示。

表3 六种分解方法对真实数据集的1816张多标签图像的错分情况

上述4种非集成分解方法分析一张图像所用的平均计算时间如下表所示。

表4四种非集成分解方法分析一张图像所用的平均计算时间

特征	特征数量	Linear	K-nonlinear	MLM	R-NNM1F0
						倒二层特征	1024	0.0010s	0.0771s	0.0589s	3.2305s
最后一层特征	28	0.0011s	0.000064s	0.0195s	0.0307s

6、分析比较。

通过上述结果可以看出：(1)2种非线性集成模型比4种非集成模型的错分率低。(2) 网络倒数二层特征和最后一层特征的分解结果相差不大，但分解倒数二层所耗费的时间远大于分解最后一层所耗费的时间。(3)对于分解方法而言，R-NNMF分解效果最不稳定，且耗时最长，这使带有它的集成模型(R+M+K)性能上没有明显提升，却增加了时间的损耗。

7、构建模型。

(1)根据6的分析结果进行建模。

使用深度学习模型的最后一层特征作为蛋白质模式，然后使用M+K的非线性集成模型对多标签数据的混合模式进行分解。

(2)模式分解。

将上述模型应用到HPA数据上。所述HPA数据只有“main location”和“additionallocation” 的定性标签。

(3)评估标准。

评估的标准是模型对某一样本所有“main location”的预测分数比所有“additional location” 的大，则认为模型对该样本的定量预测是正确的。

(4)定量分析结果。

模型应用于HPA数据的定量分析结果表现如下表所示。

表5 M+K的非线性集成模型在HPA数据上的定量分析预测情况

通过上述结果，可看出对比与线性分解模型，非线性集成模型M+K更具有应用价值。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，通过以下方法建立：

2.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，所述构造数据集步骤中，所述数据集包括真实数据集和合成数据集；

3.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，所述特征编码步骤中，所述基模式的得到方式为使用所述深度学习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码，所述混合模式的得到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征编码。

4.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，所述特征编码步骤中，所述深度学习模型为基于DenseNet再训练得到的卷积神经网络模型。

5.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，所述线性分解方法的表达式为：

来求解混合分数α；

所述稳定非负矩阵分解方法的表达式为：

所述多线性分解方法的表达式为：

其中

所述核非线性分解方法的表达式为：

6.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，所述模式分解步骤中，非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少两种采用如下公式进行集成：

α_E＝w₁α₁+w₂α₂+…+w_nα_n

7.根据权利要求6所述的基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，所述模式分解步骤中，采用多线性分解方法和核非线性分解方法的集成方法进行模式分解。

8.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型，其特征在于，所述特征编码步骤中，取卷积神经网络最后一层输出特征，作为该图像蛋白质的位置分布模式。

9.权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型的建立方法，其特征在于，包括以下步骤：

10.一种基于免疫荧光图像的蛋白质的定量分析方法，其特征在于，将待分析蛋白质的免疫荧光图像数据输入权利要求1-9任一项所述的定量分析模型，分析输出蛋白质在不同亚细胞位置中分布比例的预测值。