CN113724195A - 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 - Google Patents
基于免疫荧光图像的蛋白质的定量分析模型和建立方法 Download PDFInfo
- Publication number
- CN113724195A CN113724195A CN202110798727.9A CN202110798727A CN113724195A CN 113724195 A CN113724195 A CN 113724195A CN 202110798727 A CN202110798727 A CN 202110798727A CN 113724195 A CN113724195 A CN 113724195A
- Authority
- CN
- China
- Prior art keywords
- protein
- mode
- decomposition
- immunofluorescence
- linear
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10064—Fluorescence image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Investigating Or Analysing Biological Materials (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于免疫荧光图像的蛋白质的定量分析模型和建立方法,涉及生物信息技术领域。建立方法:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;采用深度学习模型进行特征编码,将分布在单个亚细胞位置中的图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的图像的深度特征所代表的模式为混合模式;采用Linear、R‑NNMF、MLM、K‑nonlinear中的至少一种方法,结合基模式,对混合模式进行模式分解,得到的混合系数作为预测分布比例;选取和实际情况符合程度高的分解方法,构建定量分析模型。适用于不含定量标注的蛋白质免疫荧光图像数据集以及大规模基于免疫荧光图像的蛋白质定量预测,应用条件灵活且预测精度较高。
Description
技术领域
本发明涉及生物信息技术领域,特别是涉及基于免疫荧光图像的蛋白质的定量分析模型 和建立方法。
背景技术
蛋白质是一种重要的生物大分子,分布在不同的细胞和细胞器中执行着各种各样的功能, 以确保生物体正常的生命活动。此外,在人体细胞中,大约有一半的蛋白质分布在两个或以 上的亚细胞位置。因此,快速准确地分析这些蛋白质的亚细胞位置的分布量,对探究蛋白质 功能、研究细胞的代谢情况都有重要意义。
蛋白质的免疫荧光图像对比蛋白质序列和免疫组化图像,直观地反映出特定蛋白质在细 胞中的分布情况,包含了丰富的蛋白质位置模式信息,已广泛应用于蛋白质亚细胞位置的定 性分析。然而,蛋白质的定量分析仍需要实验室仪器量化检测的方法,这种方法成本较高且 效率低。因此,应用生物图像信息学的相关知识,使用计算机技术定量地评估荧光图像中蛋 白质的分布比例,有利于提高定量分析效率,对蛋白质生理功能的研究具有重要意义。
目前,由于带有定量标注的蛋白质免疫荧光图像数据集的稀缺,针对免疫荧光图像的蛋 白质定量分析的方法研究不多,目前只有三种专门设计用来评估对免疫荧光图像的蛋白质分 布比例的模型:(1)有监督的线性模式分解模型(Peng,T.,et al.(2010)Determining the distribution of probes between different subcellularlocations through automated unmixing of subcellular patterns,Proceedings ofthe National Academy of Sciences,107,2944-2949.)。该模型 利用一组描述蛋白质荧光点的形状和尺寸的形态学特征和描述荧光对象位置关系的特征 ——SOF1特征,并通过聚类和统计频率的方式得到一组代表蛋白质图像的模式数据,其中单 标签数据的模式称为基模式、多标签模式则称为混合模式。最后,利用有监督的线性分解方 法分解混合模式,定量地预测多标签蛋白质的亚细胞分布比例。(2)无监督的模式分解模型 (Coelho,L.P.,Peng,T.and Murphy,R.F.(2010)Quantifying the distribution of probes betweensubcellular locations using unsupervised pattern unmixing,Bioinformatics,26,7-12.)。同样利用 SOF1特征得到的蛋白质图像模式,分别使用基追踪和LDA模型无监督地分解混合模式,评 估单个细胞荧光图像的蛋白质分布比例。(3)可变权重的支持向量机(VW-SVM)的非线性 回归模型(Yang,Q.,et al.(2016)Multiplex protein patternunmixing using a non-linear variable-weighted support vector machine asoptimized by a particle swarm optimization algorithm, Talanta,147,609-614.)。利用SOF1特征和由此得到的一组频率数据构成图像的模式,然后使 用可变权重的支持向量机(VW-SVM)方法,对带有定量标注的混合模式数据进行非线性回 归拟合,并用粒子群算法优化模型参数。以上三种模型都是基于蛋白质荧光点特征进行定量 分析的,从他们的预测结果可以看出,前两种模式分解模型的预测精度与实际应用还有一定 差距,而VW-SVM模型需要使用大量定量标注数据训练,算法普适性很低。
发明内容
针对上述问题,本发明提供一种基于免疫荧光图像的蛋白质的定量分析模型,适用于多 种不含定量标注的蛋白质免疫荧光图像数据集,应用条件灵活且预测精度较高,适用于大规 模的基于蛋白质免疫荧光图像的蛋白质定量预测。
为了达到上述目的,本发明提供了一种基于免疫荧光图像的蛋白质的定量分析模型,通 过以下方法建立:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深 度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的 蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质 免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分 解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得 到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的 分解方法,构建得到定量分解模型,即得。
采用上述定量分析模型,可以无需使用含定量标注的蛋白质免疫荧光图像数据进行训练, 因此可扩展应用于大部分只含有定性标注的蛋白质免疫荧光图像数据集的定量分析上,具有 较强的普适性和灵活性。
在其中一个实施例中,所述构造数据集步骤中,所述数据集包括真实数据集和合成数据 集;
所述真实数据集由含有真实浓度标注的蛋白质免疫荧光图像数据构成;
所述合成数据集由人类蛋白质图谱数据库中的免疫荧光数据集,基于像素的图像融合方 法,生成的含有多亚细胞位置混合模式且带有各位置上定量比例标注的蛋白质免疫荧光图像 数据构成。
上述合成数据集表现更多样、标签种类更多,且带有定量标注,和所述真实数据集一起, 其定量标注能作为评估模型预测性能的金标准。
在其中一个实施例中,所述特征编码步骤中,所述基模式的得到方式为使用所述深度学 习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码,所述混合模式的得 到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征 编码。
在其中一个实施例中,所述特征编码步骤中,所述特征编码步骤中,所述深度学习模型 为基于DenseNet再训练得到的卷积神经网络模型。
采用上述模型,能代替荧光特征作为蛋白质的分布模式,因为卷积神经网络模型是目前 对蛋白质荧光图像分类表现最佳的模型,所以能更好地提取图像中蛋白质的分布细节特征, 有助于提高定量分析的评估精度。
其中,矩阵A=[α1,α2,...,αN]表示混合系数矩阵,F=[f1,f2,...,fU]表示 基模式矩阵,R=[r1,r2,...,rN]表示非线性稀疏矩阵,X=[x1,x2,...,xN]为 待分解的混合模式矩阵;
其中,ψ=ψlin+ψnlin为非线性函数,μ是平衡范数项和误差项的参数,e是混 合模式与所构造的非线性函数值之间的误差,K是特征模式的维数。
采用上述分解方法,能对所述混合模式进行模式分解,得到所述混合系数,且当混合模 式和基模式之间的关系存在非线性因素时,采用上述非线性的分解方式,有利于提高定量评 估的精度。
在其中一个实施例中,所述模式分解步骤中,非负矩阵分解方法、多线性分解方法、核 非线性分解方法中的至少两种采用如下公式进行集成:
αE=w1α1+w2α2+…+wnαn
其中,n为独立算法的个数,每个独立算法的权重为w={w1,w2,...,wn},α为集成算法所得到的混合系数向量。
采用上述非线性分解方法的集成模型,能够结合各个算法的优点,降低不同算法的潜在 局限性,增强模型在不同数据集上的鲁棒性,得到的分解效果最好。
在其中一个实施例中,所述模式分解步骤中,采用多线性分解方法和核非线性分解方法 的集成方法进行模式分解。
采用上述多线性分解方法和核非线性分解方法的集成方法进行模式分解,耗时最短。
在其中一个实施例中,所述特征编码步骤中,取卷积神经网络最后一层输出特征,作为 该图像蛋白质的位置分布模式。采用所述卷积神经网络最后一层输出特征,耗费时间最短。
本发明还提供了所述定量分析模型的建立方法,包括以下步骤:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深 度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的 蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质 免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分 解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得 到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的 分解方法,构建得到定量分解模型,即得。
本发明还提供了一种基于免疫荧光图像的蛋白质的定量分析方法,将待分析蛋白质的免 疫荧光图像数据输入权利要求1-9任一项所述的定量分析模型,分析输出蛋白质在不同亚细 胞位置中分布比例的预测值。
与现有技术相比,本发明具有以下有益效果:
本发明提供了一种基于免疫荧光图像的蛋白质的定量分析模型,所述方法采用深度学习 模型为模式特征编码器,以深度学习特征代替荧光特征作为蛋白质的分布模式,与传统的基 于荧光特征的模式分解方法相比,能够更好地提取蛋白质的分布细节特征,提高了定量分析 的评估精度。其次,所述方法采用非线性分解方法的集成模型,能够结合各个算法的优点, 降低不同算法的潜在局限性,增强模型在不同数据集上的鲁棒性。所述方法与回归模型相比, 不需要使用含定量标注的数据进行训练,可以扩展应用于大部分只含有定性标注数据集的定 量分析上,比如HPA数据集,体现出本发明的普适性和灵活性。
具体实施方式
为了便于理解本发明,下面将参照相关实施例对本发明进行更全面的描述。但是,本发 明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例 的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人 员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施 例的目的,不是旨在于限制本发明。
定义:
本发明所述的深度学习模块:是一类模式分析方法的统称,主要涉及三类方法:(1)基 于卷积运算的神经网络系统,即卷积神经网络(CNN)。(2)基于多层神经元的自编码神经网 络,包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(SparseCoding)。 (3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值 的深度置信网络(DBN)。
卷积神经网络模型:是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学 习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为平移不变人工神经 网络(SIANN)。
鲁棒性:指系统的健壮性,它是在异常和危险情况下系统生存的关键,是指系统在一定 (结构、大小)的参数摄动下,维持某些性能的特性。
来源:
本实施例所用的试剂、材料、设备如无特殊说明,均为市售来源;实验方法如无特殊说 明,均为本领域的常规实验方法。
实施例1
1、构建数据集。
采用来自Murphy组实验室定量制作的蛋白质免疫荧光图像,作为第一数据集。采用只 含有定性标注的人类蛋白质图谱数据库中的蛋白免疫荧光图像,和基于像素的图像融合算法 生成的合成数据集,作为第二数据集。所述第一数据集、第二数据集的详细信息如下表所示。
表1 本发明使用的两个免疫荧光数据集的详细信息
2、特征编码。
使用卷积神经网络模型分别对大小为1024×1024的第一数据集和第二数据集进行特征 编码,提取深度特征,然后分别取模型的倒数二层输出和最后一层输出特征,作为蛋白质亚 细胞位置模式。其中,单标签图像的模式称为基模式,多标签图像的模式称为混合模式。
所述卷积神经网络模型的主要网络框架是DenseNet121,使用了分布在28个类上大约 110000个样本进行训练,使用了Focal loss+Lovász loss损失函数,优化训练时数据不平衡问 题。
3、模式分解。
(1)线性分解(Linear)。
基于多标签图像的混合模式是由相应单标签图像的基模式线性组合而成的假设,得到下 式评估基模式在混合模式中的混合比例关系:
(2)稳定非负矩阵分解(R-NNMF)。
设向量r为混合模式中的非线性项因素呈稀疏分布,则该模型的公式如下:
上述公式用非负矩阵的形式表示则如下:
其中,矩阵A=[α1,α2,...,αN]表示混合系数矩阵,F=[f1,f2,...,fU]表示 基模式矩阵,R=[r1,r2,...,rN]表示非线性因素矩阵。然后,构建下列式子,并使用块 坐标下降算法,求解混合系数矩阵:
其中,参数θ=0.08是一个调节非线性项的超参数,||·||为矩阵的范数,残差项D(X|FA+R)的计算,使用了β-divergence,具体表达式如下:
(3)多线性分解(MLM)。
假设模型的非线性因素呈现多线性分布,因此该方法的表达式如下:
其中l=[λ1,λ2,...,λN]在迭代过程中展现出相邻迭代步骤中变量间的关系。
(4)核非线性分解(K-nonlinear)。
利用了非线性核函数将非线性特征映射到高维空间,使其便于分解。模型的优化目标为:
其中,ψ=ψlin+ψnlin为非线性函数与混合模式x、混合系数α和基模式F有 关。他们四者的关系如下:
其中K为模式特征的维数,μ表示调节优化过程中规范化和函数拟合的参数。该非线 性核κ为多项式核,表达式如下:
(5)对非线性分解进行集成。
在由n个独立算法构成的集成中,希望获得每个独立算法的权重w={w1,w2,...,wn}, 该权重由多次二折交叉验证网格搜索得到。最后集成算法的输出由下公式得到:
(6)模式分解。
使用上述4种模式分解算法和2种非线性集成算法,结合所述第一数据集和所述第二数 据集的基模式,分别对上述两个数据集中的混合模式进行模式分解,分解得到的混合系数作 为蛋白质在该位置上的预测分布比例。
4、评估分析性能。
采用皮尔森相关系数(CC)和均方误差(MSE)作为评估模型定量分析性能好坏的指标。 公式如下:
同时,采用均方误差为另一评价准则,计算公式如下:
上述6种分解方法分别对来自不同数据集和不同层数的特征的十次实验的平均结果,结 果如下表所示。
表2 不同的分解方法分别在不同数据集和不同深度特征模式的结果
5、评估错分率。
因本发明的目的是应用于大规模的定量预测,所以需要考虑模型在使用过程中的实际问 题和时间花费情况。在实际的预测过程中,模型可能会将模式占较大的类的比例预测值为1, 其他较小的类预测为0,这会造成数据的标签缺失,将这种情况称为错分。上述6种分解模 型在第一数据集上的错分率如下表所示。
表3 六种分解方法对真实数据集的1816张多标签图像的错分情况
上述4种非集成分解方法分析一张图像所用的平均计算时间如下表所示。
表4四种非集成分解方法分析一张图像所用的平均计算时间
特征 | 特征数量 | Linear | K-nonlinear | MLM | R-NNM1F0 |
倒二层特征 | 1024 | 0.0010s | 0.0771s | 0.0589s | 3.2305s |
最后一层特征 | 28 | 0.0011s | 0.000064s | 0.0195s | 0.0307s |
6、分析比较。
通过上述结果可以看出:(1)2种非线性集成模型比4种非集成模型的错分率低。(2) 网络倒数二层特征和最后一层特征的分解结果相差不大,但分解倒数二层所耗费的时间远大 于分解最后一层所耗费的时间。(3)对于分解方法而言,R-NNMF分解效果最不稳定,且耗 时最长,这使带有它的集成模型(R+M+K)性能上没有明显提升,却增加了时间的损耗。
7、构建模型。
(1)根据6的分析结果进行建模。
使用深度学习模型的最后一层特征作为蛋白质模式,然后使用M+K的非线性集成模型 对多标签数据的混合模式进行分解。
(2)模式分解。
将上述模型应用到HPA数据上。所述HPA数据只有“main location”和“additionallocation” 的定性标签。
(3)评估标准。
评估的标准是模型对某一样本所有“main location”的预测分数比所有“additional location” 的大,则认为模型对该样本的定量预测是正确的。
(4)定量分析结果。
模型应用于HPA数据的定量分析结果表现如下表所示。
表5 M+K的非线性集成模型在HPA数据上的定量分析预测情况
通过上述结果,可看出对比与线性分解模型,非线性集成模型M+K更具有应用价值。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中 的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾, 都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因 此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不 脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因 此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,通过以下方法建立:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的分解方法,构建得到定量分解模型,即得。
2.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述构造数据集步骤中,所述数据集包括真实数据集和合成数据集;
所述真实数据集由含有真实浓度标注的蛋白质免疫荧光图像数据构成;
所述合成数据集由人类蛋白质图谱数据库中的免疫荧光数据集,基于像素的图像融合方法,生成的含有多亚细胞位置混合模式且带有各位置上定量比例标注的蛋白质免疫荧光图像数据构成。
3.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,所述基模式的得到方式为使用所述深度学习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码,所述混合模式的得到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征编码。
4.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,所述深度学习模型为基于DenseNet再训练得到的卷积神经网络模型。
其中,矩阵A=[α1,α2,...,αN]表示混合系数矩阵,F=[f1,f2,...,fU]表示基模式矩阵,R=[r1,r2,...,rN]表示非线性稀疏矩阵,X=[x1,x2,...,xN]为待分解的混合模式矩阵;
其中,ψ=ψlin+ψnlin为非线性函数,μ是平衡范数项和误差项的参数,e是混合模式与所构造的非线性函数值之间的误差,K是特征模式的维数。
6.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述模式分解步骤中,非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少两种采用如下公式进行集成:
αE=w1α1+w2α2+…+wnαn
其中,n为独立算法的个数,每个独立算法的权重为w={w1,w2,...,wn},α为集成算法所得到的混合系数向量。
7.根据权利要求6所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述模式分解步骤中,采用多线性分解方法和核非线性分解方法的集成方法进行模式分解。
8.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,取卷积神经网络最后一层输出特征,作为该图像蛋白质的位置分布模式。
9.权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型的建立方法,其特征在于,包括以下步骤:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的分解方法,构建得到定量分解模型,即得。
10.一种基于免疫荧光图像的蛋白质的定量分析方法,其特征在于,将待分析蛋白质的免疫荧光图像数据输入权利要求1-9任一项所述的定量分析模型,分析输出蛋白质在不同亚细胞位置中分布比例的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798727.9A CN113724195B (zh) | 2021-07-15 | 2021-07-15 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110798727.9A CN113724195B (zh) | 2021-07-15 | 2021-07-15 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113724195A true CN113724195A (zh) | 2021-11-30 |
CN113724195B CN113724195B (zh) | 2023-06-02 |
Family
ID=78673299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110798727.9A Active CN113724195B (zh) | 2021-07-15 | 2021-07-15 | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113724195B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035957A (zh) * | 2022-05-31 | 2022-09-09 | 陕西师范大学 | 基于粒子群算法的改进最小残差法分析混合str图谱 |
CN117671072A (zh) * | 2024-01-31 | 2024-03-08 | 南方医科大学 | 基于条件扩散模型的细胞荧光图像生成方法、模型及应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060738A (zh) * | 2019-04-03 | 2019-07-26 | 中国人民解放军军事科学院军事医学研究院 | 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统 |
CN112201300A (zh) * | 2020-10-23 | 2021-01-08 | 天津大学 | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 |
CN112365931A (zh) * | 2020-09-18 | 2021-02-12 | 昆明理工大学 | 一种用于预测蛋白质功能的数据多标签分类方法 |
CN112927753A (zh) * | 2021-02-22 | 2021-06-08 | 中南大学 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
-
2021
- 2021-07-15 CN CN202110798727.9A patent/CN113724195B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060738A (zh) * | 2019-04-03 | 2019-07-26 | 中国人民解放军军事科学院军事医学研究院 | 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统 |
CN112365931A (zh) * | 2020-09-18 | 2021-02-12 | 昆明理工大学 | 一种用于预测蛋白质功能的数据多标签分类方法 |
CN112201300A (zh) * | 2020-10-23 | 2021-01-08 | 天津大学 | 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法 |
CN112927753A (zh) * | 2021-02-22 | 2021-06-08 | 中南大学 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115035957A (zh) * | 2022-05-31 | 2022-09-09 | 陕西师范大学 | 基于粒子群算法的改进最小残差法分析混合str图谱 |
CN117671072A (zh) * | 2024-01-31 | 2024-03-08 | 南方医科大学 | 基于条件扩散模型的细胞荧光图像生成方法、模型及应用 |
CN117671072B (zh) * | 2024-01-31 | 2024-05-10 | 南方医科大学 | 基于条件扩散模型的细胞荧光图像生成方法、模型及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113724195B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Manifold: A model-agnostic framework for interpretation and diagnosis of machine learning models | |
CN111667884B (zh) | 基于注意力机制使用蛋白质一级序列预测蛋白质相互作用的卷积神经网络模型 | |
Hu et al. | Band selection of hyperspectral images using multiobjective optimization-based sparse self-representation | |
CN108108657A (zh) | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 | |
CN113724195A (zh) | 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 | |
CN113743353B (zh) | 空间、通道和尺度注意力融合学习的宫颈细胞分类方法 | |
Yoon et al. | Discovering coherent biclusters from gene expression data using zero-suppressed binary decision diagrams | |
CN108335756B (zh) | 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
CN113378938B (zh) | 一种基于边Transformer图神经网络的小样本图像分类方法及系统 | |
CN105046323B (zh) | 一种正则化rbf网络多标签分类方法 | |
CN111222847A (zh) | 基于深度学习与非监督聚类的开源社区开发者推荐方法 | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
CN111582506A (zh) | 基于全局和局部标记关系的偏多标记学习方法 | |
Li et al. | Multi-view clustering via adversarial view embedding and adaptive view fusion | |
CN115526246A (zh) | 一种基于深度学习模型的自监督分子分类方法 | |
Li et al. | A novel unsupervised feature selection method for bioinformatics data sets through feature clustering | |
Xie et al. | Object Re-identification Using Teacher-Like and Light Students. | |
Böhle et al. | B-cos Alignment for Inherently Interpretable CNNs and Vision Transformers | |
Hunkler et al. | Fast conformational clustering of extensive molecular dynamics simulation data | |
CN111177492A (zh) | 一种基于多视角对称非负矩阵分解的跨模态信息检索方法 | |
Caicedo et al. | Online matrix factorization for multimodal image retrieval | |
CN114299342B (zh) | 一种基于深度学习的多标记图片分类中未知标记分类方法 | |
Wu et al. | Deep feature embedding for tabular data | |
Zhai et al. | Automatic white blood cell classification based on whole-slide images with a deeply aggregated neural network | |
CN114970684A (zh) | 一种结合vae的提取网络核心结构的社区检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |