CN113724195B - 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 - Google Patents

基于免疫荧光图像的蛋白质的定量分析模型和建立方法 Download PDF

Info

Publication number
CN113724195B
CN113724195B CN202110798727.9A CN202110798727A CN113724195B CN 113724195 B CN113724195 B CN 113724195B CN 202110798727 A CN202110798727 A CN 202110798727A CN 113724195 B CN113724195 B CN 113724195B
Authority
CN
China
Prior art keywords
protein
mode
decomposition
immunofluorescence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110798727.9A
Other languages
English (en)
Other versions
CN113724195A (zh
Inventor
徐莹莹
薛敏琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Medical University
Original Assignee
Southern Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Medical University filed Critical Southern Medical University
Priority to CN202110798727.9A priority Critical patent/CN113724195B/zh
Publication of CN113724195A publication Critical patent/CN113724195A/zh
Application granted granted Critical
Publication of CN113724195B publication Critical patent/CN113724195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10064Fluorescence image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于免疫荧光图像的蛋白质的定量分析模型和建立方法,涉及生物信息技术领域。建立方法:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;采用深度学习模型进行特征编码,将分布在单个亚细胞位置中的图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的图像的深度特征所代表的模式为混合模式;采用Linear、R‑NNMF、MLM、K‑nonlinear中的至少一种方法,结合基模式,对混合模式进行模式分解,得到的混合系数作为预测分布比例;选取和实际情况符合程度高的分解方法,构建定量分析模型。适用于不含定量标注的蛋白质免疫荧光图像数据集以及大规模基于免疫荧光图像的蛋白质定量预测,应用条件灵活且预测精度较高。

Description

基于免疫荧光图像的蛋白质的定量分析模型和建立方法
技术领域
本发明涉及生物信息技术领域,特别是涉及基于免疫荧光图像的蛋白质的定量分析模型 和建立方法。
背景技术
蛋白质是一种重要的生物大分子,分布在不同的细胞和细胞器中执行着各种各样的功能, 以确保生物体正常的生命活动。此外,在人体细胞中,大约有一半的蛋白质分布在两个或以 上的亚细胞位置。因此,快速准确地分析这些蛋白质的亚细胞位置的分布量,对探究蛋白质 功能、研究细胞的代谢情况都有重要意义。
蛋白质的免疫荧光图像对比蛋白质序列和免疫组化图像,直观地反映出特定蛋白质在细 胞中的分布情况,包含了丰富的蛋白质位置模式信息,已广泛应用于蛋白质亚细胞位置的定 性分析。然而,蛋白质的定量分析仍需要实验室仪器量化检测的方法,这种方法成本较高且 效率低。因此,应用生物图像信息学的相关知识,使用计算机技术定量地评估荧光图像中蛋 白质的分布比例,有利于提高定量分析效率,对蛋白质生理功能的研究具有重要意义。
目前,由于带有定量标注的蛋白质免疫荧光图像数据集的稀缺,针对免疫荧光图像的蛋 白质定量分析的方法研究不多,目前只有三种专门设计用来评估对免疫荧光图像的蛋白质分 布比例的模型:(1)有监督的线性模式分解模型(Peng,T.,et al.(2010)Determining the distribution of probes between different subcellularlocations through automated unmixing of subcellular patterns,Proceedings ofthe National Academy of Sciences,107,2944-2949.)。该模型 利用一组描述蛋白质荧光点的形状和尺寸的形态学特征和描述荧光对象位置关系的特征 ——SOF1特征,并通过聚类和统计频率的方式得到一组代表蛋白质图像的模式数据,其中单 标签数据的模式称为基模式、多标签模式则称为混合模式。最后,利用有监督的线性分解方 法分解混合模式,定量地预测多标签蛋白质的亚细胞分布比例。(2)无监督的模式分解模型 (Coelho,L.P.,Peng,T.and Murphy,R.F.(2010)Quantifying the distribution of probes betweensubcellular locations using unsupervised pattern unmixing,Bioinformatics,26,7-12.)。同样利用 SOF1特征得到的蛋白质图像模式,分别使用基追踪和LDA模型无监督地分解混合模式,评 估单个细胞荧光图像的蛋白质分布比例。(3)可变权重的支持向量机(VW-SVM)的非线性 回归模型(Yang,Q.,et al.(2016)Multiplex protein patternunmixing using a non-linear variable-weighted support vector machine asoptimized by a particle swarm optimization algorithm, Talanta,147,609-614.)。利用SOF1特征和由此得到的一组频率数据构成图像的模式,然后使 用可变权重的支持向量机(VW-SVM)方法,对带有定量标注的混合模式数据进行非线性回 归拟合,并用粒子群算法优化模型参数。以上三种模型都是基于蛋白质荧光点特征进行定量 分析的,从他们的预测结果可以看出,前两种模式分解模型的预测精度与实际应用还有一定 差距,而VW-SVM模型需要使用大量定量标注数据训练,算法普适性很低。
发明内容
针对上述问题,本发明提供一种基于免疫荧光图像的蛋白质的定量分析模型,适用于多 种不含定量标注的蛋白质免疫荧光图像数据集,应用条件灵活且预测精度较高,适用于大规 模的基于蛋白质免疫荧光图像的蛋白质定量预测。
为了达到上述目的,本发明提供了一种基于免疫荧光图像的蛋白质的定量分析模型,通 过以下方法建立:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深 度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的 蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质 免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分 解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得 到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的 分解方法,构建得到定量分解模型,即得。
采用上述定量分析模型,可以无需使用含定量标注的蛋白质免疫荧光图像数据进行训练, 因此可扩展应用于大部分只含有定性标注的蛋白质免疫荧光图像数据集的定量分析上,具有 较强的普适性和灵活性。
在其中一个实施例中,所述构造数据集步骤中,所述数据集包括真实数据集和合成数据 集;
所述真实数据集由含有真实浓度标注的蛋白质免疫荧光图像数据构成;
所述合成数据集由人类蛋白质图谱数据库中的免疫荧光数据集,基于像素的图像融合方 法,生成的含有多亚细胞位置混合模式且带有各位置上定量比例标注的蛋白质免疫荧光图像 数据构成。
上述合成数据集表现更多样、标签种类更多,且带有定量标注,和所述真实数据集一起, 其定量标注能作为评估模型预测性能的金标准。
在其中一个实施例中,所述特征编码步骤中,所述基模式的得到方式为使用所述深度学 习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码,所述混合模式的得 到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征 编码。
在其中一个实施例中,所述特征编码步骤中,所述特征编码步骤中,所述深度学习模型 为基于DenseNet再训练得到的卷积神经网络模型。
采用上述模型,能代替荧光特征作为蛋白质的分布模式,因为卷积神经网络模型是目前 对蛋白质荧光图像分类表现最佳的模型,所以能更好地提取图像中蛋白质的分布细节特征, 有助于提高定量分析的评估精度。
在其中一个实施例中,所述线性分解方法的表达式为:
Figure BDA0003163796170000031
其中,x为样本的模式向量,f为对应的基模式向量,α=[α12,...,αU]为预测 的混合系数对应蛋白质的分布比例,U为模式的数量,e为误差项,通过最小化误差项
Figure BDA0003163796170000032
来求解混合分数α;
所述稳定非负矩阵分解方法的表达式为:
Figure BDA0003163796170000033
其中,矩阵A=[α12,...,αN]表示混合系数矩阵,F=[f1,f2,...,fU]表示 基模式矩阵,R=[r1,r2,...,rN]表示非线性稀疏矩阵,X=[x1,x2,...,xN]为 待分解的混合模式矩阵;
所述多线性分解方法的表达式为:
Figure BDA0003163796170000034
其中
Figure BDA0003163796170000035
表示哈达玛积,λ是调节线性和非线性项的参数,F是基模式矩阵,α是混合系数向量,x是混合模式向量,e是误差项;
所述核非线性分解方法的表达式为:
Figure BDA0003163796170000036
其中,ψ=ψlinnlin为非线性函数,μ是平衡范数项和误差项的参数,e是混 合模式与所构造的非线性函数值之间的误差,K是特征模式的维数。
采用上述分解方法,能对所述混合模式进行模式分解,得到所述混合系数,且当混合模 式和基模式之间的关系存在非线性因素时,采用上述非线性的分解方式,有利于提高定量评 估的精度。
在其中一个实施例中,所述模式分解步骤中,非负矩阵分解方法、多线性分解方法、核 非线性分解方法中的至少两种采用如下公式进行集成:
αE=w1α1+w2α2+…+wnαn
其中,n为独立算法的个数,每个独立算法的权重为w={w1,w2,...,wn},α为集成算法所得到的混合系数向量。
采用上述非线性分解方法的集成模型,能够结合各个算法的优点,降低不同算法的潜在 局限性,增强模型在不同数据集上的鲁棒性,得到的分解效果最好。
在其中一个实施例中,所述模式分解步骤中,采用多线性分解方法和核非线性分解方法 的集成方法进行模式分解。
采用上述多线性分解方法和核非线性分解方法的集成方法进行模式分解,耗时最短。
在其中一个实施例中,所述特征编码步骤中,取卷积神经网络最后一层输出特征,作为 该图像蛋白质的位置分布模式。采用所述卷积神经网络最后一层输出特征,耗费时间最短。
本发明还提供了所述定量分析模型的建立方法,包括以下步骤:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深 度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的 蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质 免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分 解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得 到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的 分解方法,构建得到定量分解模型,即得。
本发明还提供了一种基于免疫荧光图像的蛋白质的定量分析方法,将待分析蛋白质的免 疫荧光图像数据输入权利要求1-9任一项所述的定量分析模型,分析输出蛋白质在不同亚细 胞位置中分布比例的预测值。
与现有技术相比,本发明具有以下有益效果:
本发明提供了一种基于免疫荧光图像的蛋白质的定量分析模型,所述方法采用深度学习 模型为模式特征编码器,以深度学习特征代替荧光特征作为蛋白质的分布模式,与传统的基 于荧光特征的模式分解方法相比,能够更好地提取蛋白质的分布细节特征,提高了定量分析 的评估精度。其次,所述方法采用非线性分解方法的集成模型,能够结合各个算法的优点, 降低不同算法的潜在局限性,增强模型在不同数据集上的鲁棒性。所述方法与回归模型相比, 不需要使用含定量标注的数据进行训练,可以扩展应用于大部分只含有定性标注数据集的定 量分析上,比如HPA数据集,体现出本发明的普适性和灵活性。
具体实施方式
为了便于理解本发明,下面将参照相关实施例对本发明进行更全面的描述。但是,本发 明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例 的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人 员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施 例的目的,不是旨在于限制本发明。
定义:
本发明所述的深度学习模块:是一类模式分析方法的统称,主要涉及三类方法:(1)基 于卷积运算的神经网络系统,即卷积神经网络(CNN)。(2)基于多层神经元的自编码神经网 络,包括自编码(Auto encoder)以及近年来受到广泛关注的稀疏编码两类(SparseCoding)。 (3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值 的深度置信网络(DBN)。
卷积神经网络模型:是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学 习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为平移不变人工神经 网络(SIANN)。
鲁棒性:指系统的健壮性,它是在异常和危险情况下系统生存的关键,是指系统在一定 (结构、大小)的参数摄动下,维持某些性能的特性。
来源:
本实施例所用的试剂、材料、设备如无特殊说明,均为市售来源;实验方法如无特殊说 明,均为本领域的常规实验方法。
实施例1
1、构建数据集。
采用来自Murphy组实验室定量制作的蛋白质免疫荧光图像,作为第一数据集。采用只 含有定性标注的人类蛋白质图谱数据库中的蛋白免疫荧光图像,和基于像素的图像融合算法 生成的合成数据集,作为第二数据集。所述第一数据集、第二数据集的详细信息如下表所示。
表1 本发明使用的两个免疫荧光数据集的详细信息
Figure BDA0003163796170000051
2、特征编码。
使用卷积神经网络模型分别对大小为1024×1024的第一数据集和第二数据集进行特征 编码,提取深度特征,然后分别取模型的倒数二层输出和最后一层输出特征,作为蛋白质亚 细胞位置模式。其中,单标签图像的模式称为基模式,多标签图像的模式称为混合模式。
所述卷积神经网络模型的主要网络框架是DenseNet121,使用了分布在28个类上大约 110000个样本进行训练,使用了Focal loss+Lovász loss损失函数,优化训练时数据不平衡问 题。
3、模式分解。
(1)线性分解(Linear)。
基于多标签图像的混合模式是由相应单标签图像的基模式线性组合而成的假设,得到下 式评估基模式在混合模式中的混合比例关系:
Figure BDA0003163796170000061
其中,x为样本的模式向量,f为对应的基模式向量,α=[α12,...,αU]为预测 的混合系数对应蛋白质的分布比例,U为模式的数量。该方法通过最小化误差项
Figure BDA0003163796170000062
来求 解混合分数α。
(2)稳定非负矩阵分解(R-NNMF)。
设向量r为混合模式中的非线性项因素呈稀疏分布,则该模型的公式如下:
Figure BDA0003163796170000063
上述公式用非负矩阵的形式表示则如下:
Figure BDA0003163796170000064
其中,矩阵A=[α12,...,αN]表示混合系数矩阵,F=[f1,f2,...,fU]表示 基模式矩阵,R=[r1,r2,...,rN]表示非线性因素矩阵。然后,构建下列式子,并使用块 坐标下降算法,求解混合系数矩阵:
Figure BDA0003163796170000065
其中,参数θ=0.08是一个调节非线性项的超参数,||·||为矩阵的范数,残差项D(X|FA+R)的计算,使用了β-divergence,具体表达式如下:
Figure BDA0003163796170000071
(3)多线性分解(MLM)。
假设模型的非线性因素呈现多线性分布,因此该方法的表达式如下:
Figure BDA0003163796170000072
其中
Figure BDA0003163796170000073
表示哈达玛积,λ是调节线性和非线性项的参数。然后通过结合梯度投影算法和 BCD算法求解下面的优化函数:
Figure BDA0003163796170000074
其中l=[λ12,...,λN]在迭代过程中展现出相邻迭代步骤中变量间的关系。
(4)核非线性分解(K-nonlinear)。
利用了非线性核函数将非线性特征映射到高维空间,使其便于分解。模型的优化目标为:
Figure BDA0003163796170000075
其中,ψ=ψlinnlin为非线性函数与混合模式x、混合系数α和基模式F有 关。他们四者的关系如下:
Figure BDA0003163796170000076
其中K为模式特征的维数,μ表示调节优化过程中规范化和函数拟合的参数。该非线 性核κ为多项式核,表达式如下:
Figure BDA0003163796170000081
(5)对非线性分解进行集成。
在由n个独立算法构成的集成中,希望获得每个独立算法的权重w={w1,w2,...,wn}, 该权重由多次二折交叉验证网格搜索得到。最后集成算法的输出由下公式得到:
Figure BDA0003163796170000082
根据公式
Figure BDA0003163796170000089
构建多线性分解和核非线性分解(M+K)、稳定非负矩阵分解和多线性分解 和核非线性分解(R+M+K)的非线性集成模型。分别得到2个集成算法如下:
Figure BDA0003163796170000083
Figure BDA0003163796170000084
(6)模式分解。
使用上述4种模式分解算法和2种非线性集成算法,结合所述第一数据集和所述第二数 据集的基模式,分别对上述两个数据集中的混合模式进行模式分解,分解得到的混合系数作 为蛋白质在该位置上的预测分布比例。
4、评估分析性能。
采用皮尔森相关系数(CC)和均方误差(MSE)作为评估模型定量分析性能好坏的指标。 公式如下:
Figure BDA0003163796170000085
同时,采用均方误差为另一评价准则,计算公式如下:
Figure BDA0003163796170000086
CC越大,估算方法越准确,MSE越小,估算方法越准确。其中,N为样本数量,xi和 yi分别为真实和估算值,
Figure BDA0003163796170000087
和/>
Figure BDA0003163796170000088
为相应的均值。
根据公式
Figure BDA00031637961700000810
和公式/>
Figure BDA00031637961700000811
计算预测值和真实值的相关性和差异性,评价整个模型定量分析的 性能。
上述6种分解方法分别对来自不同数据集和不同层数的特征的十次实验的平均结果,结 果如下表所示。
表2 不同的分解方法分别在不同数据集和不同深度特征模式的结果
Figure BDA0003163796170000091
5、评估错分率。
因本发明的目的是应用于大规模的定量预测,所以需要考虑模型在使用过程中的实际问 题和时间花费情况。在实际的预测过程中,模型可能会将模式占较大的类的比例预测值为1, 其他较小的类预测为0,这会造成数据的标签缺失,将这种情况称为错分。上述6种分解模 型在第一数据集上的错分率如下表所示。
表3 六种分解方法对真实数据集的1816张多标签图像的错分情况
Figure BDA0003163796170000092
上述4种非集成分解方法分析一张图像所用的平均计算时间如下表所示。
表4四种非集成分解方法分析一张图像所用的平均计算时间
特征 特征数量 Linear K-nonlinear MLM R-NNM1F0
倒二层特征 1024 0.0010s 0.0771s 0.0589s 3.2305s
最后一层特征 28 0.0011s 0.000064s 0.0195s 0.0307s
6、分析比较。
通过上述结果可以看出:(1)2种非线性集成模型比4种非集成模型的错分率低。(2) 网络倒数二层特征和最后一层特征的分解结果相差不大,但分解倒数二层所耗费的时间远大 于分解最后一层所耗费的时间。(3)对于分解方法而言,R-NNMF分解效果最不稳定,且耗 时最长,这使带有它的集成模型(R+M+K)性能上没有明显提升,却增加了时间的损耗。
7、构建模型。
(1)根据6的分析结果进行建模。
使用深度学习模型的最后一层特征作为蛋白质模式,然后使用M+K的非线性集成模型 对多标签数据的混合模式进行分解。
(2)模式分解。
将上述模型应用到HPA数据上。所述HPA数据只有“main location”和“additionallocation” 的定性标签。
(3)评估标准。
评估的标准是模型对某一样本所有“main location”的预测分数比所有“additional location” 的大,则认为模型对该样本的定量预测是正确的。
(4)定量分析结果。
模型应用于HPA数据的定量分析结果表现如下表所示。
表5 M+K的非线性集成模型在HPA数据上的定量分析预测情况
Figure BDA0003163796170000101
通过上述结果,可看出对比与线性分解模型,非线性集成模型M+K更具有应用价值。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中 的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾, 都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因 此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不 脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因 此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,通过以下方法建立:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;所述线性分解方法的表达式为:
Figure FDA0004190009610000011
其中,x为样本的模式向量,f为对应的基模式向量,α=[α12,...,αU]为预测的混合系数对应蛋白质的分布比例,U为模式的数量,e为误差项,通过最小化误差项
Figure FDA0004190009610000012
来求解混合分数α;
所述稳定非负矩阵分解方法的表达式为:
Figure FDA0004190009610000013
其中,矩阵A=[α12,...,αN]表示混合系数矩阵,F=[f1,f2,...,fU]表示基模式矩阵,R=[r1,r2,...,rN]表示非线性稀疏矩阵,X=[x1,x2,...,xN]为待分解的混合模式矩阵;
所述多线性分解方法的表达式为:
Figure FDA0004190009610000014
其中
Figure FDA0004190009610000015
表示哈达玛积,λ是调节线性和非线性项的参数,F是基模式矩阵,α是混合系数向量,x是混合模式向量,e是误差项;
所述核非线性分解方法的表达式为:
Figure FDA0004190009610000016
其中,ψ=ψlinnlin为非线性函数,μ是平衡范数项和误差项的参数,e是混合模式与所构造的非线性函数值之间的误差,K是特征模式的维数;
所述稳定非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少两种采用如下公式进行集成:
αE=w1α1+w2α2+L+wnαn
其中,n为独立算法的个数,每个独立算法的权重为w={w1,w2,...,wn},α为集成算法所得到的混合系数向量。
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的分解方法,构建得到定量分解模型;
2.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述构造数据集步骤中,所述数据集包括真实数据集和合成数据集;
所述真实数据集由含有真实浓度标注的蛋白质免疫荧光图像数据构成;
所述合成数据集由人类蛋白质图谱数据库中的免疫荧光数据集,基于像素的图像融合方法,生成的含有多亚细胞位置混合模式且带有各位置上定量比例标注的蛋白质免疫荧光图像数据构成。
3.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,所述基模式的得到方式为使用所述深度学习模型对分布在单个亚细胞位置中的蛋白质免疫荧光图像进行特征编码,所述混合模式的得到方式为使用所述深度学习模型对分布在多个亚细胞位置中的蛋白质免疫荧光图像进行特征编码。
4.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,所述深度学习模型为基于DenseNet再训练得到的卷积神经网络模型。
5.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述模式分解步骤中,采用多线性分解方法和核非线性分解方法的集成方法进行模式分解。
6.根据权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型,其特征在于,所述特征编码步骤中,取卷积神经网络最后一层输出特征,作为该图像蛋白质的位置分布模式。
7.权利要求1所述的基于免疫荧光图像的蛋白质的定量分析模型的建立方法,其特征在于,包括以下步骤:
构造数据集:收集蛋白质的免疫荧光图像数据,构造具有亚细胞位置定量标注的数据集;
特征编码:以深度学习模型为模式特征编码器,对所述数据集进行特征编码,生成的深度特征作为所述免疫荧光图像中蛋白质的位置分布模式,其中,分布在单个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为基模式,分布在多个亚细胞位置中的蛋白质免疫荧光图像的深度特征所代表的模式为混合模式;
模式分解:采用线性分解方法、稳定非负矩阵分解方法、多线性分解方法、核非线性分解方法中的至少一种方法,结合所述数据集的基模式,对所述混合模式进行模式分解,以得到的混合系数作为蛋白质在该亚细胞位置上的预测分布比例;
模型构建:对比上述各分解方法的预测结果与实际情况的符合程度,选取符合程度高的分解方法,构建得到定量分解模型。
8.一种基于免疫荧光图像的蛋白质的定量分析方法,其特征在于,将待分析蛋白质的免疫荧光图像数据输入权利要求1-6任一项所述的定量分析模型,分析输出蛋白质在不同亚细胞位置中分布比例的预测值。
CN202110798727.9A 2021-07-15 2021-07-15 基于免疫荧光图像的蛋白质的定量分析模型和建立方法 Active CN113724195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110798727.9A CN113724195B (zh) 2021-07-15 2021-07-15 基于免疫荧光图像的蛋白质的定量分析模型和建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110798727.9A CN113724195B (zh) 2021-07-15 2021-07-15 基于免疫荧光图像的蛋白质的定量分析模型和建立方法

Publications (2)

Publication Number Publication Date
CN113724195A CN113724195A (zh) 2021-11-30
CN113724195B true CN113724195B (zh) 2023-06-02

Family

ID=78673299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110798727.9A Active CN113724195B (zh) 2021-07-15 2021-07-15 基于免疫荧光图像的蛋白质的定量分析模型和建立方法

Country Status (1)

Country Link
CN (1) CN113724195B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115035957B (zh) * 2022-05-31 2023-04-18 陕西师范大学 基于粒子群算法的改进最小残差法分析混合str图谱
CN117671072B (zh) * 2024-01-31 2024-05-10 南方医科大学 基于条件扩散模型的细胞荧光图像生成方法、模型及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060738A (zh) * 2019-04-03 2019-07-26 中国人民解放军军事科学院军事医学研究院 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112365931A (zh) * 2020-09-18 2021-02-12 昆明理工大学 一种用于预测蛋白质功能的数据多标签分类方法
CN112927753A (zh) * 2021-02-22 2021-06-08 中南大学 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060738A (zh) * 2019-04-03 2019-07-26 中国人民解放军军事科学院军事医学研究院 基于机器学习技术预测细菌保护性抗原蛋白的方法及系统
CN112365931A (zh) * 2020-09-18 2021-02-12 昆明理工大学 一种用于预测蛋白质功能的数据多标签分类方法
CN112201300A (zh) * 2020-10-23 2021-01-08 天津大学 基于深度图像特征和阈值学习策略的蛋白质亚细胞定位的方法
CN112927753A (zh) * 2021-02-22 2021-06-08 中南大学 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法

Also Published As

Publication number Publication date
CN113724195A (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
Shu et al. An incremental approach to attribute reduction from dynamic incomplete decision systems in rough set theory
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
CN112668579A (zh) 基于自适应亲和力和类别分配的弱监督语义分割方法
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
CN113257357B (zh) 蛋白质残基接触图预测方法
CN111325264A (zh) 一种基于熵的多标签数据分类方法
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN116401555A (zh) 双胞识别模型的构建方法、系统及存储介质
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN114580501A (zh) 骨髓细胞分类方法、系统、计算机设备及存储介质
CN116704241A (zh) 一种全通道3d卷积神经网络高光谱遥感图像分类方法
CN114299342B (zh) 一种基于深度学习的多标记图片分类中未知标记分类方法
US11165646B1 (en) Network node clustering
Zhang et al. Fast generic interaction detection for model interpretability and compression
US11617122B2 (en) Network node clustering
CN117912591B (zh) 一种基于深度对比学习的激酶药物相互作用预测方法
CN113470739B (zh) 一种基于混合隶属度随机块模型的蛋白质相互作用预测方法和系统
Gholap et al. Content-based tissue image mining
CN114281994B (zh) 一种基于三层加权模型的文本聚类集成方法及系统
CN111626332B (zh) 一种基于图卷积极限学习机的快速半监督分类方法
Dettling et al. Package ‘supclust’
Zhang et al. Tokensome: Towards a Genetic Vision-Language GPT for Explainable and Cognitive Karyotyping
Han et al. LEOPARD: missing view completion for multi-timepoint omics data via representation disentanglement and temporal knowledge transfer
CN118196490A (zh) 一种基于图注意自动编码器的单细胞类型注释方法
Tangherloni High-Performance Computing to tackle complex problems in life sciences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant