CN115273966B - 谱系树中可变剪接模式和染色质状态动态变化的分析方法 - Google Patents

谱系树中可变剪接模式和染色质状态动态变化的分析方法 Download PDF

Info

Publication number
CN115273966B
CN115273966B CN202211040493.2A CN202211040493A CN115273966B CN 115273966 B CN115273966 B CN 115273966B CN 202211040493 A CN202211040493 A CN 202211040493A CN 115273966 B CN115273966 B CN 115273966B
Authority
CN
China
Prior art keywords
alternative splicing
cell
lineage tree
lineage
tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211040493.2A
Other languages
English (en)
Other versions
CN115273966A (zh
Inventor
徐云刚
张保军
杨娟
邹权
刘薇
郭琛
姚宇飞
李康
李月森
张栩瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202211040493.2A priority Critical patent/CN115273966B/zh
Publication of CN115273966A publication Critical patent/CN115273966A/zh
Application granted granted Critical
Publication of CN115273966B publication Critical patent/CN115273966B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明属于生物技术领域,具体涉及一种谱系树中可变剪接模式和染色质状态动态变化的分析方法,包括:获取谱系树中所有细胞类型的高通量测序数据;建立基于混合高斯模型的概率生成模型,将高通量测序数据数据输入概率生成模型,分析可变剪接模式和染色质状态在谱系树上的动态变化。本发明整合高通量多组学数据,研究可变剪接模式及染色质状态的动态变化,进而揭示细胞分化过程中与命运决定密切相关的调控因子。

Description

谱系树中可变剪接模式和染色质状态动态变化的分析方法
技术领域
本发明属于生物技术领域,具体涉及一种谱系树中可变剪接模式和染色质状态动态变化的分析方法。
背景技术
谱系树(cell lineage tree)是由细胞分化过程及其形成的各子代细胞之间的关系组成的一个树形结构。谱系树作为多细胞生物最重要的表型之一,为追踪细胞分裂分化及细胞状态的时序变化提供了高效的数据表示和分析框架;它不仅是解决生命科学中许多发育有关重大问题的关键,也为发展计算技术和信息学方法来研究生物发育提供了重要手段。其中,干细胞(stem cell)谱系树是研究发育和细胞命运决定的最为重要的工具。
干细胞是一类多能(pluripotent)细胞,可以分化为形态结构、功能特征各不相同的细胞类群,并进而形成人体组织、器官和系统。干细胞持续的自我更新和多谱系分化是组织器官形成和个体发育的基础。干细胞不但是发育生物学的重要研究对象,更在临床应用领域有着广阔的前景。干细胞如何决定其在分化过程中的命运及其背后的调控机制是干细胞发育与器官再生领域最为关键科的学问题之一。因此,全面、系统、科学地研究干细胞的命运决定机制,将有助于深入理解器官发生和个体发育的生物学过程,并为细胞工程、再生医学及其临床应用提供理论基础。
伴随着细胞谱系树测定技术日新月异的发展,特别是近年基因编辑技术与单细胞测序技术的联合应用,细胞谱系树的数据呈现出快速积累的态势,基于谱系树的细胞状态建模与动态转移分析尤为重要,因为它是研究细胞命运决定机制的关键,且与发育生物学研究及临床应用直接关联。多组学的高通量测序技术,尤其是近年来不断发展的单细胞测序技术,为利用信息技术来研究细胞分化和命运决定提供了宝贵的资源,威斯康星大学研究人员率先基于他们之前提出的系统发生树(phylogenetic tree)模型(Roy S,WapinskiI,Pfiffner J,French C,Socha A,Konieczka J,Habib N,Kellis M,Thompson D,RegevA:Arboretum:Reconstruction and analysis of the evolutionary history ofcondition-specific transcriptional modules.Genome Research 2013,23(6):1039-1050.)来研究谱系树中细胞的染色质状态(表示为多种组蛋白修饰)的动态转换(Roy S,Sridharan R:Chromatin module inference on cellular trajectories identifieskey transition points and poised epigenetic states in diverse developmentalprocesses.Genome research 2017,27(7):1250-1262)。虽然基于高通量测序的转录组和表观组学数据已在以上研究中被用于建模和分析谱系树中细胞状态,但是以上研究仅仅揭示了成对细胞间的不同状态,而未定量分析在谱系树中不同细胞状态之间的定向转移(分化)概率,不清楚染色质状态动态变化。
另外,可变剪接是最重要的mRNA前体加工过程,它以组织和发育特异性的方式增加转录组和蛋白质组的多样性。可变剪接普遍存在于真核生物细胞中,基于RNA测序(RNA-seq)数据估算,人体约超过90%的基因会经历不同的可变剪接过程,研究表明,可变剪接对于干细胞分化和命运决定也起到了至关重要的作用,然而,以往研究都仅仅关注某一孤立的可变剪接事件及其调控机制。
综上,针对复杂的海量的多组学的高通量测序数据,缺乏一种有效的方法来分析干细胞分化过程中的可变剪接模式以及染色质状态动态变化。
发明内容
为了解决上述技术问题,本发明提供了一种谱系树中可变剪接模式和染色质状态动态变化的分析方法。
本发明的目的是提供一种谱系树中可变剪接模式和染色质状态动态变化的分析方法,包括:
获取谱系树中所有细胞类型的高通量测序数据;
建立基于混合高斯模型(gaussian mixture model,GMM)的概率生成模型,将高通量测序数据数据输入概率生成模型,分析可变剪接模式和染色质状态在谱系树上的动态变化。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,所述概率生成模型由两部分组成:一是描述每种细胞状态的表观剪接模块;二是描述表观剪接模块在细胞代际间的状态转移的转移概率矩阵。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,所述概率生成模型用于检测剪接特异性和可供实验验证的表观遗传调控机制。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,所述谱系树为人类胚胎干细胞分化谱系树、造血干细胞分化谱系树或者诱导多能干细胞分化谱系树。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,所述高通量测序数据包括基因组、转录组和表观遗传组的高通量测序数据。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,将所述高通量测序数据先进行预处理,然后再建立所述概率生成模型。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,所述高通量测序数据预处理方式如下:获取谱系树中每种细胞类型的已比对到转录组的RNA-seq数据,使用rMATs软件检测谱系树中每个细胞类型的可变剪接事件,记录每个可变剪接区域的剪入百分比(percent spliced in,PSI),合并所有细胞类型鉴定的可变剪接事件,使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,所述高通量测序数据预处理方式如下:获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的ChIP-seq数据,使用MACS2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰,针对每种组蛋白修饰,合并所有细胞类型中检测的信号峰,从而得到统一的一组组蛋白修饰信号峰列表;
基于信号峰与5’端剪接位点的距离d及峰的高度h,定义组蛋白修饰在可变剪接区间的强度为HM=h/d,对每一细胞类型的ChIP-seq数据进行相同处理后,将各自获得一个数据表,其中“行”表示可变剪接事件,“列”表示组蛋白修饰种类,“值”表示某一可变组蛋白修饰在某一可变剪接区域的信号峰强度。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,高通量测序数据预处理方式如下:选取可变剪接位点及其上下游各150bp区间,然后从基因组FASTA文件中提取该区间的碱基序列,并使用独热(One-Hot)编码方法将碱基序列转换成二进制的4×n的二维向量,其中n表示序列的长度。
优选的,上述谱系树中可变剪接模式和染色质状态动态变化的分析方法,建立基于混合高斯模型的概率生成模型后,采用EM算法进行模型训练。
与现有技术相比,本发明具有以下有益效果:
为了对干细胞多代分化过程进行完整刻画,考虑蕴藏于谱系树中的结构信息,本发明围绕人类胚胎干细胞谱系树、造血干细胞谱系树和iPSC分化成神经细胞的谱系树,充分考虑“树”的结构信息,开发系统的生物信息学计算方法,研究干细胞多代分化的谱系树中可变剪接模式及其染色质状态的动态变化,以期揭示参与细胞命运决定的潜在的表观调控机制。
我们提出以下假设:参与细胞分化调控的可变剪接及与之紧密关联的表观遗传修饰(如组蛋白修饰),共同构成了一个可以用计算模型来表示的剪接模块(splicingmodule),则剪接模块表征了谱系树中不同细胞的分化状态,并可在分化过程中沿谱系树动态变化。
本发明重点考虑谱系树的拓扑结构及细胞间的代际关系,整合高通量多组学数据,研究可变剪接模式及染色质状态的动态变化,进而揭示参与细胞命运决定的潜在的表观调控机制。
本发明针对谱系树中细胞分化的状态转移,创新性地提出了表观剪接模块的概念,并使用高斯混合模型来表示。这样便将谱系树上细胞状态转移的生物学问题转变成了概率生成模型中状态转移的计算问题。并借此来研究可变剪接和其表观修饰在细胞分化过程中的动态变化。
附图说明
图1为谱系树示意图;
图2为造血干细胞(A)分化谱系树和诱导多能干细胞(B)的分化谱系树;
图2中,C表示造血干细胞的可变剪接类型,D表示诱导多能干细胞的可变剪接类型;
图3为原始数据及其预处理方法;
A,细胞分化谱系树,B,RNA-seq数据,C,ChIP-seq数据,D,RNA序列数据;
图4为常见可变剪接类型(A)与细胞命运决定(B);
图5为epiSMINT模型定义及谱系树上表观剪接模块识别与转移示意图;
图6为本发明的技术路线图;
图7为多组学数据整合分析揭示人胚胎干细胞命运决定的新机制;
A,人胚胎干细胞分化谱系,B,可变剪接的表观遗传调控参与细胞命运决定;
图8为epiSMINT在人胚胎干细胞分化上的预实验结果;
A,表观剪接模块,B,不同表观剪接模块的染色质状态,C,不同表观剪接模块的动态变化,D,转移矩阵的Fisher检验结果。
具体实施方式
为了使本领域技术人员更好地理解本发明的技术方案能予以实施,下面结合具体实施例和附图对本发明作进一步说明。
在本发明的描述中,如未特殊说明,所用试剂均为市售,所用方法均为本领域常规技术。
现有技术用于建模和分析谱系树中细胞状态的模型仅仅揭示了成对细胞间的不同状态,而未定量分析在谱系树中不同细胞状态之间的定向转移(分化)概率,未能揭示染色质状态在谱系树上的动态变化。针对更复杂的多层细胞分化谱系,需要解决基于谱系树的多层分化及细胞状态建模,从而更系统的研究干细胞分化成不同组织细胞的可变剪接和表观遗传机制。因此,本发明拟解决的关键科学问题是提出新的计算方法来推断复杂谱系树上的可变剪接模式及染色质状态的动态变化。具体方法如下:
1、实验数据及预处理
(1)细胞分化谱系树
细胞分化过程中各细胞类型及其相互关系表示为一棵树(tree),称为谱系树(cell lineage tree)。和传统树的定义一样,谱系树是一个有向无环图(DirectedAcyclic Graph,GAD)。参见图1,谱系树记录了发育过程中每一特定时间分化产生的细胞,以及产生这些细胞的前体细胞;其中,树的每个节点(node)表示一种细胞类型,树的每一次分叉(fork)代表一次细胞分裂事件,树的每一分支(branch)则表示一次分化事件,而树的终端叶子节点(leaf node)代表的是成体生物的每一种终末分化细胞;对于某种生物一个完整的细胞谱系树,其根节点(root node)即表示受精卵(zygote);然而对于复杂的生物体(如人和小鼠等),我们还无法获得其整个发育过程及其谱系树的全貌;因此,通常所指的谱系树可能仅仅描述了生物完整发育过程的一小部分或阶段,即表示局部发育过程或阶段的一棵子树(如图1左侧虚线框中的分支);其根节点往往指某种具有分化潜能的细胞,比如干细胞或前体细胞(progenitor)。此外,谱系树的另一特点是,其并非一定是典型的二叉树(binary tree),即某些前体细胞可以分裂分化成两种以上的细胞类型(如图1右下分支)。
谱系树是本发明的输入数据之一,其定义为T(V,E);其中V表示树的节点(node),即细胞类型;E表示树的边(edge),即分化路径。除叶子节点(leaf,即终末分化细胞)以外,其它节点(即中间分化状态细胞)的出度≥1,出度表示某个节点其子节点(即下一级节点)的个数;除根节点的入度为0以外,其它节点的入度≥1,入度则为其父亲节点(即上一层节点)的个数。因此,某些前体细胞可以分裂分化成两种以上的子代细胞类型,某些分化细胞也可来自不同的亲代细胞类型(如图1或图2所示)。
本发明的实施例将使用人类胚胎干细胞(hESC)分化谱系树、造血干细胞(HSC)分化谱系树和诱导多能干细胞(iPSC)分化谱系树来进行后续计算方法的研究和验证(图2)。
(2)多组学数据及预处理
本发明使用谱系树中所有细胞类型的转录组、表观遗传组和基因组数据作为初始的数据源,经过适当的预处理后,用于后续的计算机模型构建和分析。
各数据的预处理方法概括如图3所示,具体如下:
1)RNA-seq数据和可变剪接分析
获取谱系树中每种细胞类型的已比对到转录组的RNA-seq数据,即BAM/SAM文件(包括生物学重复)。使用rMATs软件检测谱系树中每个细胞类型的可变剪接事件,记录每个可变剪接区域(外显子或保留内含子)的剪入百分比(percent spliced in,PSI)。合并所有细胞类型鉴定的可变剪接事件,使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表(图3A、图3B)。如图4A所示,可变剪接事件可以按其产生的原因分为7种类型。但为了简化描述,下文将以跳跃外显子(skipping exon,SE)的可变剪接类型为例介绍研究方案。
2)组蛋白修饰(ChIP-seq)数据处理(表观遗传组数据)
获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的ChIP-seq数据,即BAM/SAM文件(包括生物学重复)。使用MACS2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰(narrow peak)。针对每种组蛋白修饰,合并所有细胞类型中检测的信号峰,从而得到统一的一组组蛋白修饰信号峰列表。基于信号峰与5’端剪接位点(splice site,SS)的距离(d)及峰的高度(h),我们定义组蛋白修饰在可变剪接区间的强度为HM=h/d(图3C)。对每一细胞类型的ChIP-seq数据进行相同处理后,将各自获得一个数据表,其中“行”表示可变剪接事件,“列”表示组蛋白修饰种类,“值”表示某一可变组蛋白修饰在某一可变剪接区域的信号峰强度。
3)RNA序列数据
为利用基因组序列信息,我们选取可变剪接位点及其上下游各150bp区间,然后从基因组FASTA文件中提取该区间的碱基序列,并使用独热(One-Hot)编码方法将碱基序列转换成二进制的4×n的二维向量,其中n表示序列的长度(图3D)。
2、基于谱系树的表观剪接模块识别与动态分析
谱系树记录了细胞分化过程中亲子细胞的代际关系,现有研究已经表明可变剪接和组蛋白修饰在细胞分化过程及其命运决定中起到了至关重要的作用。本发明将首先基于谱系树来研究可变剪接模式和组蛋白修饰所表示的染色质状态在谱系树上的动态变化。在此,我们提出了表观剪接模块(epigenetic splicing module,epiSM)的概念来描述以可变剪接和组蛋白修饰表示的细胞状态。表观剪接模块定义为一组可变剪接事件,它们共享了相似的、以不同组蛋白修饰组合表示的染色质状态。
(1)表观遗传模块及epiSMINT模型
在给定具有谱系树树形结构关系的不同细胞类型及其多种染色质标记的情况下,本发明内容将基于表观剪接模块的概念提出计算模型来回答以下四个问题:1)可变剪接区间位于什么染色质状态中;2)在染色质标记的不同组合下,细胞类型之间的染色质模块在多大程度上是共享的;3)可变剪接在细胞代际间切换模块的可能性有多大;4)哪些可变剪接事件在细胞类型之间切换了染色质状态,因为这些基因可能对细胞状态的改变很重要。
为了回答以上问题,我们提出了一个生成概率模型,称为epiSMINT(epigeneticsplicing module inference on tree)。epiSMINT由两部分组成:一是描述每种细胞状态的表观剪接模块(epigenetic splicing module,epiSM);二是描述表观剪接模块(epiSM)在细胞代际间的状态转移的转移概率矩阵。
每个细胞状态被表示成由k个多元混合高斯模型(gaussian mixture model,GMM)组成的概率生成模型;其中,k为epiSM模块个数,每个模块表示为m元高斯混合模型,m等于该模块的组蛋白修饰种类数。
具体如图5所示,给定一个具有L个细胞类型的谱系树和一个具有k个epiSM模块和m个组蛋白修饰的epiSMINT模型,对于表示可变剪接区域组蛋白修饰信号的随机变量X,其混合高斯模型可表示为式(1):
Figure BDA0003820758250000091
其中,N(x|μk,∑k)称为混合模型中的第k个高斯分量(component),其可以表示为θ={μ,∑,π,T},其中μ={μ1,…,μl,…,μL}和∑={∑1,…,∑l,…,∑L}分别表示m-维的均值向量和m×m-维的协方差矩阵。πk是混合系数(mixture coefficient),且满足
Figure BDA0003820758250000092
及0≤πk≤1。实际上,可以认为πk就是每个高斯分量N(x|μk,∑k)的权重。如图5中的例子有两个模块,则可以用两个多元高斯分布来表示,那么分量数k=2。
细胞代际间的关系则表示为转移概率矩阵T={T1,…,Tl,…,TL-1},除根节点外,每一个细胞与其父亲节点之间均有一个k×k-维的转移矩阵。转移矩阵中每个元素
Figure BDA0003820758250000093
表示可变剪接事件在父亲节点属于模块i而在子代节点属于模块j的概率,即分化后可变剪接的染色质状态由模块i转移(transit)到模块j的概率。
(2)模型训练
在一个谱系树中,我们用l来表示第l个非根节点,p(l)表示其父亲节点,r表示根节点。epiSMINT实质上是一个基于GMM的概率生成模型,它将以如下方式来为每个可变剪接事件e在谱系树上的每个细胞类型l分配染色质状态(epiSM模块):
·Set current node l to root,r.
·For each node l on tree τ
·if l is the root node,draw a cluster assignment for genomic regiong by sampling from π,
Figure BDA0003820758250000101
·else
-j be the g’s cluster assignment in l’s parent
-
Figure BDA0003820758250000102
-Draw chromatin profile
Figure BDA0003820758250000103
for g in l using μlk,∑lk,where/>
Figure BDA0003820758250000104
EpiSMINT将使用EM(Expectation Maximization)算法来训练模型的参数。在E-步,首先推断所有可变剪接事件在所有叶子点上的epiSM模块划分,
Figure BDA0003820758250000105
然后递归地推断他们的父亲节点上可变剪接事件的epiSM模块划分,直至根节点为止。在M-步,根据/>
Figure BDA0003820758250000106
来估计每一个模块中的m个组蛋白修饰的均值和协方差矩阵,以及亲子代间模块间转移的概率矩阵。训练的目标函数为最大化以下对数似然函数,式(2):/>
Figure BDA0003820758250000107
我们将可变剪接事件分到k个不同部分,表示初始化的模块分配。这里k个模块的划分可以是随机的,也可以是通过对原始数据进行聚类得到。接着,我们使用EM算法来迭代模块划分和GMM参数训练,直到收敛或者达到某个预设的迭代次数。
(3)模型应用与研究
作为预实验,我们先将该模型用于hESC分化成4中不同的细胞类型的、仅具有两层的简单谱系树上,取得了预想的效果。本项目将推广应用该模型到更复杂的谱系树上,以研究多层分化谱系树中的表观剪接模块及其动态变化。为此我们将使用人类造血干细胞(HSC)谱系(图2)和诱导的多能干细胞(iPSC)分化成神经细胞的谱系(图2)。因为:1)从生物学意义来讲,它们分别代表了典型的干细胞分化谱系树和体细胞重编程及再分化的谱系树;2)从计算模型上来讲,它们代表了较为复杂的非传统的典型二叉树结构。基于这两个谱系树的研究可以更广泛的测试计算模型的效果和普适性。
图6为本发明的技术路线图,epiSMINT能系统地描述和分析可变剪接模式及染色质状态在谱系树上的动态变化,并检测剪接特异性和可供实验验证的表观遗传调控机制。参见图7,多组学数据整合分析揭示人胚胎干细胞命运决定的新机制。图8是epiSMINT在人胚胎干细胞分化上的预实验结果。
我们针对人胚胎干系分化的二层谱系树,实现了epiSMINT方法。EpiSMINT将每种细胞的可变剪接和组蛋白修饰划分6个表观剪接模块(图8A),分别表示了不同的染色质状态。模块1不像其它模块那样表现出一致的组蛋白富集和染色质状态;模块2富集了H3K4me2/3和H3K27ac;模块3和4与H3K36me3和H3K79me1紧密关联;而模块5和6与H3K4me2/3和H3K9ac联系紧密。模块2-6均与活性标记有关,代表了活性启动子状态或者转录活性区域。尽管模块3-4和模块5-6表示了相同的染色质状态,但它们却具有不同的动态变化(图8B、图8C)。其中模块4-5中的可变剪接在干细胞分化过程中更倾向于改变其所属模块,即具有更大的转移概率。例如,干细胞分化后,模块3主要转移到模块1,表明其中的可变剪接在分化后失去了其原有的染色质状态(图8C)。
为了鉴定那些在分化过程中显著转移其模块的剪接事件,我们对转移矩阵进行Fisher检验(图8D)。结果表明,约超过一半的可变剪接事件在细胞分化后转移到了其它模块中,即改变了其染色质状态,这与此前项目申请人发表于Genome Biology的工作的结论一致。尤其是,该工作发现的PBX1基因也突显于其它剪接基因。因此,基于epiSMINT结果可以发现在分化过程中动态变化显著的可变剪接基因,而这些基因可能通过可变剪接参与细胞分化和命运决定。
以上预实验结果表明,基于表观剪接模块概念构建的epiSMINT模型,可以很好的描述细胞分化过程中的状态转移,并有利于揭示与分化紧密相关的剪接基因。因此我们可以预期,将该方法推广到更复杂的多层谱系树中,同样能够得到多层细胞代际间的可变剪接和表观遗传修饰的动态变化。
需要说明的是,本发明中涉及数值范围时,应理解为每个数值范围的两个端点以及两个端点之间任何一个数值均可选用,由于采用的步骤方法与实施例相同,为了防止赘述,本发明描述了优选的实施例。尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,包括:
获取谱系树中所有细胞类型的高通量测序数据;
建立基于混合高斯模型的概率生成模型,将高通量测序数据输入概率生成模型,分析可变剪接模式和染色质状态在谱系树上的动态变化;
所述概率生成模型由两部分组成:一是描述每种细胞状态的表观剪接模块;二是描述表观剪接模块在细胞代际间的状态转移的转移概率矩阵;
每个细胞状态被表示成由k个多元混合高斯模型组成的概率生成模型;其中,k为表观剪接模块个数,每个表观剪接模块表示为m元高斯混合模型,m等于该表观剪接模块的组蛋白修饰种类数;
给定一个具有L个细胞类型的谱系树和一个具有k个表观剪接模块和m个组蛋白修饰的生成概率模型,对于表示可变剪接区域组蛋白修饰信号的随机变量X,其混合高斯模型可表示为式(1):
Figure QLYQS_1
其中,N(x|μk,∑k)称为混合模型中的第k个高斯分量,表示为θ={μ,∑,π,T},其中μ={μ1,…,μl,…,μL}和∑={∑1,…,∑l,…,∑L}分别表示m-维的均值向量和m×m-维的协方差矩阵;πk是混合系数,且满足
Figure QLYQS_2
及0≤πk≤1;
细胞代际间的关系则表示为转移概率矩阵T={T1,…,Tl,…,TL-1},除根节点外,每一个细胞与其父亲节点之间均有一个k×k-维的转移矩阵,转移矩阵中每个元素
Figure QLYQS_3
表示可变剪接事件在父亲节点属于模块i而在子代节点属于模块j的概率,即分化后可变剪接的染色质状态由模块i转移到模块j的概率。
2.根据权利要求1所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,所述概率生成模型用于检测剪接特异性和可供实验验证的表观遗传调控机制。
3.根据权利要求1所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,所述谱系树为人类胚胎干细胞分化谱系树、造血干细胞分化谱系树或者诱导多能干细胞分化谱系树。
4.根据权利要求1所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,所述高通量测序数据包括基因组、转录组和表观遗传组的高通量测序数据。
5.根据权利要求4所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,将所述高通量测序数据先进行预处理,然后再建立所述概率生成模型。
6.根据权利要求5所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,所述高通量测序数据预处理方式如下:获取谱系树中每种细胞类型的已比对到转录组的RNA-seq数据,使用rMATs软件检测谱系树中每个细胞类型的可变剪接事件,记录每个可变剪接区域的剪入百分比,合并所有细胞类型鉴定的可变剪接事件,使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表。
7.根据权利要求5所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,所述高通量测序数据预处理方式如下:获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的ChIP-seq数据,使用MACS2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰,针对每种组蛋白修饰,合并所有细胞类型中检测的信号峰,从而得到统一的一组组蛋白修饰信号峰列表;
基于信号峰与5’端剪接位点的距离d及峰的高度h,定义组蛋白修饰在可变剪接区间的强度为HM=h/d,对每一细胞类型的ChIP-seq数据进行相同处理后,将各自获得一个数据表,其中“行”表示可变剪接事件,“列”表示组蛋白修饰种类,“值”表示某一组蛋白修饰在某一可变剪接区域的信号峰强度。
8.根据权利要求5所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,所述高通量测序数据预处理方式如下:选取可变剪接位点及其上下游各150bp区间,然后从基因组FASTA文件中提取该区间的碱基序列,并使用独热编码方法将碱基序列转换成二进制的4×n的二维向量,其中n表示序列的长度。
9.根据权利要求1所述的谱系树中可变剪接模式和染色质状态动态变化的分析方法,其特征在于,建立基于混合高斯模型的概率生成模型后,采用EM算法进行模型训练。
CN202211040493.2A 2022-08-29 2022-08-29 谱系树中可变剪接模式和染色质状态动态变化的分析方法 Active CN115273966B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211040493.2A CN115273966B (zh) 2022-08-29 2022-08-29 谱系树中可变剪接模式和染色质状态动态变化的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211040493.2A CN115273966B (zh) 2022-08-29 2022-08-29 谱系树中可变剪接模式和染色质状态动态变化的分析方法

Publications (2)

Publication Number Publication Date
CN115273966A CN115273966A (zh) 2022-11-01
CN115273966B true CN115273966B (zh) 2023-03-31

Family

ID=83755334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211040493.2A Active CN115273966B (zh) 2022-08-29 2022-08-29 谱系树中可变剪接模式和染色质状态动态变化的分析方法

Country Status (1)

Country Link
CN (1) CN115273966B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116153404B (zh) * 2023-02-28 2023-08-15 成都信息工程大学 一种单细胞ATAC-seq数据分析方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11238956B2 (en) * 2016-06-07 2022-02-01 Florida State University Research Foundation, Inc. Methods of identifying cellular replication timing signatures and methods of use thereof
EP3810804A4 (en) * 2018-05-23 2022-05-11 Envisagenics, Inc. SYSTEMS AND METHODS FOR ALTERNATIVE SPLICING ANALYSIS
US20210233640A1 (en) * 2018-06-29 2021-07-29 The Jackson Laboratory Methods and apparatus for identifying alternative splicing events
KR20210132139A (ko) * 2019-02-27 2021-11-03 가던트 헬쓰, 인크. 대립유전자 빈도에 기초한 기능 손실의 컴퓨터 모델링
AU2020334901A1 (en) * 2019-08-16 2022-03-24 Tempus Ai, Inc. Systems and methods for detecting cellular pathway dysregulation in cancer specimens
CN114913923A (zh) * 2022-05-09 2022-08-16 清华大学 针对单细胞染色质开放性测序数据的细胞类型识别方法

Also Published As

Publication number Publication date
CN115273966A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
Vrba et al. Individuals, hierarchies and processes: towards a more complete evolutionary theory
Braun The unforeseen challenge: from genotype-to-phenotype in cell populations
CN105814573A (zh) 基于结构的预测性建模
Shekhar et al. Diversification of multipotential postmitotic mouse retinal ganglion cell precursors into discrete types
Yaeger et al. Passive and driven trends in the evolution of complexity
CN115273966B (zh) 谱系树中可变剪接模式和染色质状态动态变化的分析方法
Hu et al. Algorithm for discovering low-variance 3-clusters from real-valued datasets
Coate et al. Expression partitioning of duplicate genes at single cell resolution in Arabidopsis roots
Baldwin et al. Computational, integrative, and comparative methods for the elucidation of genetic coexpression networks
Qiu et al. Spateo: multidimensional spatiotemporal modeling of single-cell spatial transcriptomics
Rhodes et al. Human embryoid bodies as a novel system for genomic studies of functionally diverse cell types
Zheng et al. Identifying individual-specific microbial DNA fingerprints from skin microbiomes
CN115273978B (zh) 适用于多层谱系树的剪接表观遗传密码的获得方法
CN106980775B (zh) 基于全部连续列一致演化型的时序基因芯片数据挖掘方法
CN115359840B (zh) 鉴定谱系树中分支点细胞命运决定的关键调控因子的方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
Sun et al. Deep generative autoencoder for low-dimensional embeding extraction from single-cell RNAseq data
Hampton et al. Probabilistic models of biological enzymatic polymerization
Nayak et al. Coalescence: An anti-clockwise travel
Shukla et al. Genetic diversity in chimpanzee transcriptomics does not represent wild populations
Krämer Uncovering the mechanisms and information content of CpG-resolved DNA methylation programming during hematopoietic differentiation
Shisode Improving the Accuracy of 3D Chromosome Structure Inference and Analyzing the Organization of Genome in Early Embryogenesis Using Single Cell Hi-C Data
McCorrison Exploitation of Metadata in Molecular Genomics Studies
Salas et al. De novo spatiotemporal modelling of cell-type signatures identifies novel cell populations in the developmental human heart
Kumar et al. Advancement of in silico tools for stem cell research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant