CN116504314B - 基于细胞动态分化的基因调控网络构建方法 - Google Patents
基于细胞动态分化的基因调控网络构建方法 Download PDFInfo
- Publication number
- CN116504314B CN116504314B CN202310765180.1A CN202310765180A CN116504314B CN 116504314 B CN116504314 B CN 116504314B CN 202310765180 A CN202310765180 A CN 202310765180A CN 116504314 B CN116504314 B CN 116504314B
- Authority
- CN
- China
- Prior art keywords
- cell
- genes
- network
- gene
- gene regulation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 115
- 230000004069 differentiation Effects 0.000 title claims abstract description 10
- 238000010276 construction Methods 0.000 title abstract description 7
- 230000014509 gene expression Effects 0.000 claims abstract description 35
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000012163 sequencing technique Methods 0.000 claims abstract description 28
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 42
- 230000001105 regulatory effect Effects 0.000 claims description 15
- 238000013518 transcription Methods 0.000 claims description 14
- 230000035897 transcription Effects 0.000 claims description 14
- 108091023040 Transcription factor Proteins 0.000 claims description 13
- 102000040945 Transcription factor Human genes 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 7
- 230000024245 cell differentiation Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 102000004169 proteins and genes Human genes 0.000 claims description 4
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000004422 calculation algorithm Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 claims description 2
- 230000018109 developmental process Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000001276 controlling effect Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 6
- 210000004027 cell Anatomy 0.000 description 117
- 230000004064 dysfunction Effects 0.000 description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000017188 evasion or tolerance of host immune response Effects 0.000 description 3
- 102100038395 Granzyme K Human genes 0.000 description 2
- 101001033007 Homo sapiens Granzyme K Proteins 0.000 description 2
- 210000001744 T-lymphocyte Anatomy 0.000 description 2
- 210000002865 immune cell Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 108020005198 Long Noncoding RNA Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000001024 immunotherapeutic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002547 new drug Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出一种基于细胞动态分化的基因调控网络构建方法,该方法包括,获取单细胞转录组测序数据并进行预处理,再利用Slingshot进行推断,得到包含细胞注释信息和拟时间信息的表达矩阵;根据表达矩阵中拟时间信息的密度计算两种细胞状态之间的交点,以交点为基准,将所有细胞划分成多个窗口;在每个窗口中构建细胞类型特异性基因调控网络;构建参考网络,将参考网络作为参考信息来校准细胞类型特异性基因调控网络。本发明将拟时间信息和细胞类型结合,并且考虑了细胞密度沿拟时间的分布状况,有助于从细胞动态分化的角度构建细胞类型特异性的基因调控网络,使得所构建的基因调控网络更准确。
Description
技术领域
本发明涉及生物信息技术领域,特别涉及一种基于细胞动态分化的基因调控网络构建方法。
背景技术
单细胞转录组测序技术生成的数据集以前所未有的分辨率描述单个细胞的状态。自引入该技术以来,已报道的单细胞组学数据的数量呈爆炸式增长,这对于理解细胞过程至关重要,单细胞转录组测序在揭示细胞类型的异质性和分化轨迹方面发挥了重要作用。因此,在单细胞水平上推断基因调控网络对于解释细胞分化、细胞命运决定和表达失调等生物学现象至关重要。特别是了解肿瘤微环境中促进免疫逃逸机制的复杂调控,这为理解基因之间的相互作用以及细胞状态转变的新见解提供了机会,也可以指导研究人员识别新的药物靶点并开发有效的免疫治疗药物。然而,与bulk 转录组测序数据不同,单细胞转录组测序数据带来了许多独特的挑战,如较低的信噪比、dropouts和异质性等等,由于这些特性,从单细胞转录组测序数据中推断基因调控网络仍然具有挑战性。
目前为止,已经提出了许多基于单细胞转录组测序数据构建调控网络的方法。然而,以往的方法忽略了调控网络是高度动态的,基因之间的调控关系随时间而变化。因此,在推断调控网络时,应考虑随细胞状态变化的时间信息。由于目前提供具有时间序列信息的单细胞转录组测序数据集比较稀少,并且这种时间序列可能无法提供足够的信息来推断基因调控网络。因此,根据细胞的表达水平和细胞状态,采用对细胞分化过程进行分类的方法来计算细胞的时间信息,这种时间信息一般称为拟时间信息。与时间序列信息相似,拟时间排序也显示了基因在细胞过程中的表达趋势,这可能有助于准确构建基因调控网络。因此,一些方法试图从具有时间信息的基因表达数据中重建基因调控网络。然而,这些方法仍有很大的改进空间,特别是在某些情况下,它们并没有明显优于随机网络。比如没有考虑细胞密度沿拟时间的分布状况,并且这些方法简单的将所有细胞的基因表达谱看作为一个表达矩阵,没有考虑细胞类型。
最近,开发推断细胞类型特异性基因调控网络的计算方法方面取得了重大进展。大多数早期的方法只依赖于单细胞转录组测序数据,并专注于设计不同的数学公式,如基于随机森林树方法、信息论方法和深度神经网络模型。多项研究表明,在构建细胞类型特异性基因调控网络加入额外信息有助于细胞类型特异性基因调控网络的预测。由于与单细胞转录组测序数据配对的其他组学的单细胞数据(如scATAC-seq、snmC-seq和lncRNAs数据)不易获取,并且不同组学的单细胞数据之间可能存在大量技术、生物噪音,而通用网络信息在现有数据库及文献中更容易收集。
通过上述可知的是,目前现有技术存在如下问题:
1、无法有效利用拟时间信息,没有考虑细胞密度沿拟时间的分布状况,并且这些方法简单的将所有细胞的基因表达谱看作为一个表达矩阵,没有考虑细胞类型。
2、不同组学的单细胞数据获取难度高,且所获取的不同组学的单细胞数据之间可能存在大量技术、生物噪音等问题。
3、单细胞转录组数据本身具有高维高稀疏特性,目前现有技术并没有克服该问题,在进行构建基因调控网络时,网络中存在假阳性和假阴性等不足。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于细胞动态分化的基因调控网络构建方法,以解决上述技术问题。
本发明提供了一种基于细胞动态分化的基因调控网络构建方法,所述方法包括如下步骤:
步骤1、获取单细胞转录组测序数据,对单细胞转录组测序数据进行预处理,得到不同类型不同状态的细胞,利用Slingshot推断不同细胞状态的拟时间信息,得到包含细胞注释信息和拟时间信息的表达矩阵;
步骤2、根据表达矩阵中拟时间信息的密度计算两种细胞状态之间的交点,以交点为基准,将所有细胞划分成多个不同大小的窗口,每个窗口由具有连续状态的细胞组成;
步骤3、选取窗口中在拟时间上具有显著变化的基因,采用基于L0正则化的L0L2稀疏回归模型推断具有显著变化的基因,根据推断结果,在每个窗口中构建表示转录因子-基因之间调控关系的细胞类型特异性基因调控网络;
步骤4、利用单细胞转录组测序数据构建参考网络,将参考网络作为参考信息来校准细胞类型特异性基因调控网络,得到最终的细胞类型特异性基因调控网络。
本发明将拟时间信息和细胞类型结合,并且考虑了细胞密度沿拟时间的分布状况,有助于从细胞动态分化的角度构建细胞类型特异性的基因调控网络,不仅使得所构建的基因调控网络更准确,并且有利于后续分别基于免疫细胞和肿瘤细胞的基因调控网络挖掘肿瘤进展过程中重要的免疫逃逸通路。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的一种基于细胞动态分化的基因调控网络构建方法的流程图;
图2为本发明与五种现有方法在4种类型共200个不同的数据集上进行基准测试的比较图;
图3为本发明与五种现有方法在4种类型共200个不同的数据集上进行基准测试的平均AUROC(受试者工作特征曲线下面积)图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。
请参阅图1,本发明实施例提供了一种基于细胞动态分化的基因调控网络构建方法,所述方法包括如下步骤:
步骤1、获取单细胞转录组测序数据,对单细胞转录组测序数据进行预处理,得到不同类型不同状态的细胞,利用Slingshot推断不同细胞状态的拟时间信息,得到包含细胞注释信息和拟时间信息的表达矩阵;
进一步的,在步骤1中,对单细胞转录组测序数据进行预处理的具体方法包括如下步骤:
步骤1.1、从GEO数据库中下载编号为GSE99254的单细胞转录组测序数据,去除平均计数小于1的基因;
步骤1.2、将去除平均计数小于1的基因的计数除以每个细胞的总计数,再与整个细胞的总计数的中位数相乘,得到计数表达谱矩阵,对计数表达谱矩阵进行对数转换,得到12306个蛋白质编码基因;
步骤1.3、利用Seurat包识别蛋白质编码基因主要的细胞簇:该过程中Seurat选择前2000个表达水平变化大的基因,并开展主成分分析并提取前5个主成分执行基于图的聚类方法以识别不同细胞簇(参数res=0.3)。
步骤1.4、利用SingleR包将细胞簇映射到已知的细胞状态,得到2508个CD8+ T细胞,其中包括303个幼稚细胞(naive cells)、206个中间细胞(intermediate cells)、674个GZMK标记的功能障碍前细胞(GZMK marked pre-dysfunction cells)、832个ZNF683的标记功能障碍前细胞(ZNF683 marked pre-dysfunction cells)和439个功能障碍细胞(dysfunction cells)等6种不同状态的CD8+ T细胞。
步骤2、根据表达矩阵中拟时间信息的密度计算两种细胞状态之间的交点,以交点为基准,将所有细胞划分成多个不同大小的窗口,每个窗口由具有连续状态的细胞组成;
进一步的,步骤2中,以交点为基准,将所有细胞划分成多个不同大小的窗口的具体方法包括:以两个交点作为一个滑动窗口,若两种细胞状态之间存在多个交点,则以密度最大处的交点作为基准重新划分边界,重新调整滑动窗口宽度,实现滑动窗口宽度可变;
检查细胞注释信息中是否包含细胞类型以及细胞状态信息,如果只存在细胞类型信息,则将所有只存在细胞类型信息的细胞作为一个独立的窗口。
步骤3、选取窗口中在拟时间上具有显著变化的基因,采用基于L0正则化的L0L2稀疏回归模型推断具有显著变化的基因,根据推断结果,在每个窗口中构建表示转录因子-基因之间调控关系的细胞类型特异性基因调控网络;
进一步的,选取窗口中在拟时间上具有显著变化的基因的方法具体包括:设定基因过滤标准,三个基因过滤标准分别为:(1)平均表达量大于0.5,(2)表达细胞的比例大于0.05,(3)在超过100个细胞中检测到;
再将过滤后的每个基因拟合一个参数K为6的广义线性模型,利用广义线性模型来建模窗口中细胞的基因表达和拟时间之间的关系,并使用关联检验函数检验基因表达和拟时间之间的关联的显著性,得到基因沿拟时间上的方差和方差的P-value;
利用Bonferroni方法校正检验基因沿拟时间上的方差和方差的P-value,得到窗口内细胞基因的统计数据,根据统计数据,选择P-value小于0.01的基因作为具有显著变化的基因。
进一步的,L0L2稀疏回归模型的表达式为:
;
其中,表示矩阵/>中第/>个目标基因的表达水平向量,/>表示为/>个样本和/>个目标基因的矩阵,/>表示第/>个目标基因,/>为/>个样本和/>个转录因子的矩阵,/>为回归系数向量,/>控制系数非零的转录因子的数量,/>控制L2正则化引起的收缩量。
进一步的,窗口中的转录因子-基因之间的相互作用强度存在如下关系式:
;
其中,表示窗口/>中的转录因子-基因之间的相互作用强度,/>表示转录因子的数量,/>表示每个窗口中第/>个转录因子-基因对之间回归系数,/>表示每个窗口中转录因子-基因对之间回归系数的绝对值。
步骤4、利用单细胞转录组测序数据构建参考网络,将参考网络作为参考信息来校准细胞类型特异性基因调控网络,得到最终的细胞类型特异性基因调控网络。
进一步的,最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度存在如下关系式:
;
其中,表示最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度,/>表示将细胞划分为/>个窗口,/>表示窗口/>中的转录因子-基因之间的相互作用强度的绝对值。
进一步的,构建参考网络的具体方法包括如下步骤:
步骤4.1、利用单细胞转录组测序数据生成计数矩阵,采用SAVER包计算计数矩阵中的缺失值,对缺失值进行插补零值来改善所有基因的表达,再排除插补后的计数矩阵中在每个细胞中零值表达大于99%的基因,得到处理后的计数矩阵;
步骤4.2、对处理后的计数矩阵分别采用Seurat包、MetaCell包和bigSCale2包得出不同的皮尔逊相关系数网络;
其中,使用Seurat包得出皮尔逊相关系数网络的方法为:利用Seurat包的NormalizeData()函数对处理后的计数矩阵中进行对数归一化,计算基因对之间的皮尔逊相关系数网络,保留皮尔逊相关系数网络中皮尔逊相关系数 > 0.8的链接;
其中,使用MetaCell包得出皮尔逊相关系数网络的方法为:使用MetaCell包对处理后的计数矩阵进行去噪处理,再使用MetaCell包函数mcell_mc_from_coclust_balanced(),设定MetaCell包函数参数K = 30和alpha = 2生成元细胞矩阵,去除元细胞矩阵中UMIs小于500的细胞,使用metacell矩阵计算元细胞矩阵中基因对之间的皮尔逊相关系数网络;
其中,使用bigSCale2包得出皮尔逊相关系数网络的方法为:使用bigSCale2包对处理后的计数矩阵进行Z-score转换,利用转换后的Z-score矩阵计算皮尔逊相关系数网络;
步骤4.3、将不同的皮尔逊相关系数网络的进行合并得到参考网络。
为了保证参考网络的准确性,可以利用贝叶斯统计框架的对数似然评分评估参考网络的准确性。
其中,在评估参考网络的准确性过程中,将参考网络按相互作用强度进行排序,再计算排序后的参考网络中每条边的对数似然评分,对数似然评分/>的表达式为:
;
其中,表示给定数据集中金标准基因对的阳性概率,/>表示给定数据集中金标准基因对的阴性概率,/>表示金标准阳性基因对的概率,/>表示金标准阴性基因对的概率。
进一步的,步骤4中,将参考网络作为参考信息来校准细胞类型特异性基因调控网络的具体方法为:将细胞类型特异性基因调控网络与参考网络的邻接矩阵进行合并,并进行归一化,得到最终的细胞类型特异性基因调控网络。
进一步的,还包括有步骤5,利用PageRank算法来评估每个窗口中最终的细胞类型特异性基因调控网络中节点的中心性,得到关键转录因子,通过利用关键转录因子绘制同一细胞类型中不同状态下的基因调控网络,进而确定某一细胞在不同状态的动态发育过程。
请参阅图2,最后,将本发明在4种不同类型的细胞,共200个基准数据集上进行测试,得到最终的细胞类型特异性基因调控网络后,将本发明所得最终的细胞类型特异性基因调控网络与四种现有方法在上述数据集的测试基准情况下进行比较,并计算平均接收者操作特征曲线下面积(area under receiver operating characteristic curve, AUROC)指标,性能比较结果如图3所示。
与现有技术相比,本发明的有益效果为:
1)本发明将拟时间信息和细胞类型结合,并且考虑了细胞密度沿拟时间的分布状况,有助于从细胞动态分化的角度构建细胞类型特异性的基因调控网络,不仅使得所构建的基因调控网络更准确,并且有利于后续分别基于免疫细胞和肿瘤细胞的基因调控网络挖掘肿瘤进展过程中重要的免疫逃逸通路。
2)结合细胞状态,动态地将细胞划分为不同大小的窗口,以消除细胞密度造成的拟时间信息差异,进而解决细胞在拟时间信息上的分布并不均匀,导致调控关系会偏向于细胞的高密度区域的问题。
3) 以单细胞转录组测序数据构建参考网络,无需获取其他组学的单细胞数据,数据获取容易,且与构建细胞类型特异性基因调控网络的数据为同种数据,不存在大量技术、生物噪音等问题; 将参考网络作为参考信息来校准细胞类型特异性基因调控网络,可以过滤指定的细胞类型中的相互作用关系,从而去除可能存在的假阳性边来提高细胞类型特异性基因调控网络的整体准确性。
4) 采用L0L2稀疏回归模型为每个窗口推断细胞类型特异性基因调控网络,可以克服单细胞转录组测序数据高维高稀疏和低信噪比等特性,从而使得本发明在AUROC等指标上均有所提升。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (2)
1.一种基于细胞动态分化的基因调控网络构建方法,其特征是,所述方法包括如下步骤:
步骤1、获取单细胞转录组测序数据,对单细胞转录组测序数据进行预处理,得到不同类型不同状态的细胞,利用Slingshot推断不同细胞状态的拟时间信息,得到包含细胞注释信息和拟时间信息的表达矩阵;
步骤2、根据表达矩阵中拟时间信息的密度计算两种细胞状态之间的交点,以交点为基准,将所有细胞划分成多个不同大小的窗口,每个窗口由具有连续状态的细胞组成;
步骤3、选取窗口中在拟时间上具有显著变化的基因,采用基于L0正则化的L0L2稀疏回归模型推断具有显著变化的基因,根据推断结果,在每个窗口中构建表示转录因子-基因之间调控关系的细胞类型特异性基因调控网络;
步骤4、利用单细胞转录组测序数据构建参考网络,将参考网络作为参考信息来校准细胞类型特异性基因调控网络,得到最终的细胞类型特异性基因调控网络;
在步骤1中,对单细胞转录组测序数据进行预处理的具体方法包括如下步骤:
步骤1.1、从GEO数据库中下载单细胞转录组测序数据,去除平均计数小于1的基因;
步骤1.2、将除平均计数小于1的基因的计数除以每个细胞的总计数,再与整个细胞的总计数的中位数相乘,得到计数表达谱矩阵,对计数表达谱矩阵进行对数转换,得到蛋白质编码基因;
步骤1.3、利用Seurat包识别蛋白质编码基因主要的细胞簇;
步骤1.4、利用SingleR包将细胞簇映射到已知的细胞状态,得到不同类型不同状态的细胞;
步骤2中,以交点为基准,将所有细胞划分成多个不同大小的窗口的具体方法包括:以两个交点作为一个滑动窗口,若两种细胞状态之间存在多个交点,则以密度最大处的交点作为基准重新划分边界,重新调整滑动窗口宽度;
步骤3中,选取窗口中在拟时间上具有显著变化的基因的方法具体包括:设定基因过滤标准,再将过滤后的每个基因拟合一个广义线性模型,利用广义线性模型来建模窗口中细胞的基因表达和拟时间之间的关系,并使用关联检验函数检验基因表达和拟时间之间的关联的显著性,得到基因沿拟时间上的方差和方差的P-value;
利用Bonferroni方法校正检验基因沿拟时间上的方差和方差的P-value,得到窗口内细胞基因的统计数据,根据统计数据,选择P-value小于设定值的基因作为具有显著变化的基因;
步骤3中,L0L2稀疏回归模型的表达式为:
;
其中,表示矩阵/>中第/>个目标基因的表达水平向量,/>表示为/>个样本和/>个目标基因的矩阵,/>表示第/>个目标基因,/>为/>个样本和/>个转录因子的矩阵,/>为回归系数向量,/>控制系数非零的转录因子的数量,/>控制L2正则化引起的收缩量;
步骤3中,窗口中的转录因子-基因之间的相互作用强度存在如下关系式:
;
其中,表示窗口/>中的转录因子-基因之间的相互作用强度,/>表示转录因子的数量,表示每个窗口中第/>个转录因子-基因对之间回归系数,/>表示每个窗口中转录因子-基因对之间回归系数的绝对值;
步骤4中,最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度存在如下关系式:
;
其中,表示最终的细胞类型特异性基因调控网络中的转录因子-基因的相互作用强度,/>表示将细胞划分为/>个窗口,/>表示窗口/>中的转录因子-基因之间的相互作用强度的绝对值;
步骤4中,构建参考网络的具体方法包括如下步骤:
步骤4.1、利用单细胞转录组测序数据生成计数矩阵,采用SAVER包计算计数矩阵中的缺失值,对缺失值进行插补零值来改善所有基因的表达,再排除插补后的计数矩阵中在每个细胞中零值表达大于99%的基因,得到处理后的计数矩阵;
步骤4.2、对处理后的计数矩阵分别采用Seurat包、MetaCell包和bigSCale2包得出不同的皮尔逊相关系数网络;
步骤4.3、将不同的皮尔逊相关系数网络的进行合并得到参考网络;
步骤4中,将参考网络作为参考信息来校准细胞类型特异性基因调控网络的具体方法为:将细胞类型特异性基因调控网络与参考网络的邻接矩阵进行合并,并进行归一化,得到最终的细胞类型特异性基因调控网络。
2.根据权利要求1所述的基于细胞动态分化的基因调控网络构建方法,其特征是,所述方法还包括步骤5:
利用PageRank算法来评估每个窗口中最终的细胞类型特异性基因调控网络中节点的中心性,得到关键转录因子;
通过利用关键转录因子绘制同一细胞类型中不同状态下的基因调控网络,进而确定某一细胞在不同状态的动态发育过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310765180.1A CN116504314B (zh) | 2023-06-27 | 2023-06-27 | 基于细胞动态分化的基因调控网络构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310765180.1A CN116504314B (zh) | 2023-06-27 | 2023-06-27 | 基于细胞动态分化的基因调控网络构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116504314A CN116504314A (zh) | 2023-07-28 |
CN116504314B true CN116504314B (zh) | 2023-08-29 |
Family
ID=87325192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310765180.1A Active CN116504314B (zh) | 2023-06-27 | 2023-06-27 | 基于细胞动态分化的基因调控网络构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116504314B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517724A (zh) * | 2019-07-15 | 2019-11-29 | 太原理工大学 | 利用单细胞转录和基因敲除数据推断基因调控网络的方法 |
CN111951892A (zh) * | 2020-08-04 | 2020-11-17 | 荣联科技集团股份有限公司 | 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 |
CN113160887A (zh) * | 2021-04-23 | 2021-07-23 | 哈尔滨工业大学 | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 |
CN114722988A (zh) * | 2022-03-07 | 2022-07-08 | 大理大学 | 细胞通讯网络识别方法、装置、设备及存储介质 |
CN115240772A (zh) * | 2022-08-22 | 2022-10-25 | 南京医科大学 | 一种基于图神经网络的解析单细胞多组学中活性通路的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110191087A1 (en) * | 2008-09-03 | 2011-08-04 | Max-Planck-Gesellschaft Zur Forderung Der Wissenschaften E.V. | Computer implemented model of biological networks |
-
2023
- 2023-06-27 CN CN202310765180.1A patent/CN116504314B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517724A (zh) * | 2019-07-15 | 2019-11-29 | 太原理工大学 | 利用单细胞转录和基因敲除数据推断基因调控网络的方法 |
CN111951892A (zh) * | 2020-08-04 | 2020-11-17 | 荣联科技集团股份有限公司 | 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备 |
CN113160887A (zh) * | 2021-04-23 | 2021-07-23 | 哈尔滨工业大学 | 一种融合了单细胞tcr测序数据的肿瘤新生抗原筛选方法 |
CN114722988A (zh) * | 2022-03-07 | 2022-07-08 | 大理大学 | 细胞通讯网络识别方法、装置、设备及存储介质 |
CN115240772A (zh) * | 2022-08-22 | 2022-10-25 | 南京医科大学 | 一种基于图神经网络的解析单细胞多组学中活性通路的方法 |
Non-Patent Citations (1)
Title |
---|
面向药物发现和精准医疗的基因表达谱分析;刘阳;白卉;陶欢;何松;黄昕;伯晓晨;王升启;;生物化学与生物物理进展(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116504314A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112435714B (zh) | 一种肿瘤免疫亚型分类方法及系统 | |
US7899625B2 (en) | Method and system for robust classification strategy for cancer detection from mass spectrometry data | |
CN112750502B (zh) | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
CN105760889A (zh) | 一种高效的不均衡数据集分类方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
CN111243662A (zh) | 基于改进XGBoost的泛癌症基因通路预测方法、系统和存储介质 | |
CN112437053A (zh) | 入侵检测方法及装置 | |
Bruzzese et al. | DESPOTA: DEndrogram slicing through a pemutation test approach | |
CN114242178A (zh) | 基于梯度提升决策树的ERα拮抗剂的生物活性定量预测方法 | |
CN116504314B (zh) | 基于细胞动态分化的基因调控网络构建方法 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN116127398A (zh) | 一种基于机理模型与多源数据融合的液压泵故障诊断方法 | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
Guidi et al. | A new procedure to optimize the selection of groups in a classification tree: Applications for ecological data | |
CN110955811B (zh) | 基于朴素贝叶斯算法的电力数据分类方法及系统 | |
EP4172852A1 (en) | Method and system for generating a visual representation | |
Budiman et al. | Optimization Of Classification Results By Minimizing Class Imbalance On Decision Tree Algorithm | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN115985388B (zh) | 基于预处理降噪和生物中心法则的多组学集成方法和系统 | |
Wang et al. | A comparison of fuzzy clustering approaches for quantification of microarray gene expression | |
CN116631641B (zh) | 一种集成自适应相似患者图的疾病预测装置 | |
CN115423148B (zh) | 一种基于克里金法和决策树的农机作业性能预测方法与装置 | |
CN107609348A (zh) | 高通量转录组数据样本分类数目估计方法 | |
CN115017125B (zh) | 改进knn方法的数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |