CN115273978B

CN115273978B - 适用于多层谱系树的剪接表观遗传密码的获得方法

Info

Publication number: CN115273978B
Application number: CN202211042467.3A
Authority: CN
Inventors: 徐云刚; 邹权; 杨娟; 刘薇; 李如风; 李康; 郭中昊; 张栩瑞; 强敏; 张恩永
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2023-04-07
Anticipated expiration: 2042-08-29
Also published as: CN115273978A

Abstract

本发明属于生物技术领域，具体涉及一种适用于多层谱系树的剪接表观遗传密码的获得方法，包括：获取谱系树中所有细胞类型的高通量测序数据；在epiSMINT基础上，将深度学习框架与树形结构相结合，建立树形结构神经网络模型deepiSMINT，将高通量测序数据数据输入树形结构神经网络模型，得到剪接表观遗传密码；其中，所述epiSMINT是基于混合高斯模型的概率生成模型；所述deepiSMINT由多层基于高斯混模型的神经网络依次堆叠而成，并基于谱系树中的细胞间亲子关系被组织成树形结构。本发明所获得的可变剪接表观遗传密码能够系统分析干细胞在分化成不同细胞系之间的命运决定机理。

Description

适用于多层谱系树的剪接表观遗传密码的获得方法

技术领域

本发明属于生物技术领域，具体涉及一种适用于多层谱系树的剪接表观遗传密码的获得方法。

背景技术

谱系树(cell lineage tree)是由细胞分化过程及其形成的各子代细胞之间的关系组成的一个树形结构。谱系树作为多细胞生物最重要的表型之一，为追踪细胞分裂分化及细胞状态的时序变化提供了高效的数据表示和分析框架；它不仅是解决生命科学中许多发育有关重大问题的关键，也为发展计算技术和信息学方法来研究生物发育提供了重要手段。其中，干细胞(stem cell)谱系树是研究发育和细胞命运决定的最为重要的工具。

干细胞是一类多能(pluripotent)细胞，可以分化为形态结构、功能特征各不相同的细胞类群，并进而形成人体组织、器官和系统。干细胞持续的自我更新和多谱系分化是组织器官形成和个体发育的基础。干细胞不但是发育生物学的重要研究对象，更在临床应用领域有着广阔的前景。干细胞如何决定其在分化过程中的命运及其背后的调控机制是干细胞发育与器官再生领域最为关键科的学问题之一。因此，全面、系统、科学地研究干细胞的命运决定机制，将有助于深入理解器官发生和个体发育的生物学过程，并为细胞工程、再生医学及其临床应用提供理论基础。

伴随着细胞谱系树测定技术日新月异的发展，特别是近年基因编辑技术与单细胞测序技术的联合应用，细胞谱系树的数据呈现出快速积累的态势，基于谱系树的细胞状态建模与动态转移分析尤为重要，因为它是研究细胞命运决定机制的关键，且与发育生物学研究及临床应用直接关联。多组学的高通量测序技术，尤其是近年来不断发展的单细胞测序技术，为利用信息技术来研究细胞分化和命运决定提供了宝贵的资源。

鉴于可变剪接在干细胞自我更新、定向分化中的重要作用，阐释其精准调控机制将有助于进一步揭示干细胞的命运决定，并为细胞和组织工程以及再生医学提供理论基础。多年来，可变剪接调控一直被认为主要通过RNA结合蛋白(包括剪接因子和辅助蛋白)在可变剪接位点(splice site,SS)附近选择性结合pre-mRNAs，并通过基础剪接机器—剪接体(spliceosome)来调节其识别和剪接效率(Fiszbein A,Kornblihtt AR:Alternativesplicing switches:Important players in cell differentiation.Bioessays 2017,39(6))。这些遗传水平的机制(genetic control)远不足以解释RNA剪接的精准调控。特别是同一个体的不同组织细胞在拥有完全相同的基因组和剪接因子表达的情况下，仍存在组织和发育阶段特异性的可变剪接模式。这表明存在额外的调控机制来更加精准的控制可变剪接的时空特异性。已有研究表明，除遗传机制外，由于可变剪接在转录开始不久便开始(即共转录过程)，因此也会受到广泛存在于DNA和染色质上的表观遗传修饰的控制。表观遗传机制，如组蛋白修饰、DNA甲基化和核小体定位等，可以通过特定剪接因子招募和剪接位点识别来调控可变剪接过程。

表观遗传修饰为剪接模式提供了表观遗传记忆，使剪接模式在干细胞自我更新过程中能够得以传递；同时，当干细胞定向分化而需要新的剪接模式时，该记忆又可被修改而无需建立新的剪接规则，便可得到特异性的剪接结果。现有技术已就人类胚胎干细胞(hESC)分化成不同组织细胞的过程，构建了包括RNA序列、剪接因子以及数十种组蛋白修饰在内的剪接表观遗传密码，称为DeepCode(Xu Yungang,Wang Y,Luo J,Zhao W,Zhou X:Deep learning of the splicing(epi)genetic code reveals a novel candidatemechanism linking histone modifications to ESC fate decision.Nucleic acidsresearch 2017,45(21):12100-12112)。但是该文献仅仅考虑了成对细胞之间的比较，而未考虑更为复杂的谱系树结构；因此，其所获得的可变剪接表观遗传密码无法系统分析干细胞在分化成不同细胞系之间的命运决定机理。

发明内容

为了解决上述技术问题，本发明提供了一种适用于多层谱系树的剪接表观遗传密码的获得方法。

本发明的目的是提供一种适用于多层谱系树的剪接表观遗传密码的获得方法，包括：

获取谱系树中所有细胞类型的高通量测序数据；

在epiSMINT(epigenetic splicing module inference on tree)基础上，将深度学习框架与树形结构相结合，建立树形结构神经网络模型deepiSMINT，将高通量测序数据数据输入树形结构神经网络模型，得到剪接表观遗传密码；

其中，所述epiSMINT是基于混合高斯模型的概率生成模型；

所述deepiSMINT由多层基于高斯混模型的神经网络依次堆叠而成，并基于谱系树中的细胞间亲子关系被组织成树形结构。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，所述epiSMINT由两部分组成：一是描述每种细胞状态的表观剪接模块；二是描述表观剪接模块在细胞代际间的状态转移的转移概率矩阵。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，对于给定谱系树中的任意两个细胞，所述树形结构神经网络模型能从神经网络中寻找一条具有最大权重的路径，而路径上的神经元则表示对该路径起决定性作用的剪接表观遗传密码。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，所述剪接表观遗传密码能解码谱系树中任意两细胞间分化路径上的关键剪接事件及其关联的表观遗传修饰。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，所述谱系树为人类胚胎干细胞分化谱系树、造血干细胞分化谱系树或者诱导多能干细胞分化谱系树。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，所述高通量测序数据包括基因组、转录组和表观遗传组的高通量测序数据。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，将所述高通量测序数据先进行预处理，然后再建立概率生成模型。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，所述高通量测序数据预处理方式如下：获取谱系树中每种细胞类型的已比对到转录组的RNA-seq数据，使用rMATs软件检测谱系树中每个细胞类型的可变剪接事件，记录每个可变剪接区域的剪入百分比(percent spliced in,PSI)，合并所有细胞类型鉴定的可变剪接事件，使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，所述高通量测序数据预处理方式如下：获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的ChIP-seq数据，使用MACS2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰，针对每种组蛋白修饰，合并所有细胞类型中检测的信号峰，从而得到统一的一组组蛋白修饰信号峰列表；

基于信号峰与5’端剪接位点的距离d及峰的高度h，定义组蛋白修饰在可变剪接区间的强度为HM＝h/d，对每一细胞类型的ChIP-seq数据进行相同处理后，将各自获得一个数据表，其中“行”表示可变剪接事件，“列”表示组蛋白修饰种类，“值”表示某一可变组蛋白修饰在某一可变剪接区域的信号峰强度。

优选的，上述适用于多层谱系树的剪接表观遗传密码的获得方法，高通量测序数据预处理方式如下：选取可变剪接位点及其上下游各150bp区间，然后从基因组FASTA文件中提取该区间的碱基序列，并使用独热编码方法将碱基序列转换成二进制的4×n的二维向量，其中n表示序列的长度。

与现有技术相比，本发明具有以下有益效果：

为了对干细胞多代分化过程进行完整刻画，考虑蕴藏于谱系树中的结构信息，本发明围绕人类胚胎干细胞谱系树、造血干细胞谱系树和iPSC分化成神经细胞的谱系树，充分考虑“树”的结构信息，开发系统的生物信息学计算方法，研究干细胞多代分化过程中可变剪接模式及染色质状态的动态变化，并基于此构建整合谱系树结构信息的可变剪接表观遗传密码，进而揭示参与细胞命运决定的可变剪接调控密码。

我们提出以下假设：1)参与细胞分化调控的可变剪接及与之紧密关联的表观遗传修饰(如组蛋白修饰)，共同构成了一个可以用计算模型来表示的剪接模块(splicingmodule)。则剪接模块表征了谱系树中不同细胞的分化状态，并可在分化过程中延谱系树动态变化。2)谱系树可以与深度神经网络结合来构建树形结构的多层神经网络构架，再借助于深度学习框架来提取与分化过程密切关联的剪接和表观特征，进而构成整合谱系树结构信息的可变剪接表观遗传密码。

本发明重点考虑谱系树的拓扑结构及细胞间的代际关系，整合高通量多组学数据，研究适用于多层谱系树的可变剪接表观遗传密码，进而揭示细胞分化过程中与命运决定密切相关的可变剪接调控密码。

本发明紧扣谱系树的拓扑结构，创新性地将神经网络与树状结构融合，提出了基于深度学习的剪接表观遗传密码。该遗传密码较申请人之前提出的DeepCode相比，能够用于更加复杂分化谱系树，比如人类造血干细胞分化过程。

附图说明

图1为谱系树示意图；

图2为造血干细胞(A)分化谱系树和诱导多能干细胞(B)的分化谱系树；

图2中，C表示造血干细胞的可变剪接类型，D表示诱导多能干细胞的可变剪接类型；

图3为原始数据及其预处理方法；

A，细胞分化谱系树，B，RNA-seq数据，C，ChIP-seq数据，D，RNA序列数据；

图4为常见可变剪接类型(A)与细胞命运决定(B)；

图5为epiSMINT模型定义及谱系树上表观剪接模块识别与转移示意图；

图6为本发明的技术路线图；

图7为多组学数据整合分析揭示人胚胎干细胞命运决定的新机制；

A，人胚胎干细胞分化谱系，B，可变剪接的表观遗传调控参与细胞命运决定；

图8为epiSMINT在人胚胎干细胞分化上的预实验结果；

A，表观剪接模块，B，不同表观剪接模块的染色质状态，C，不同表观剪接模块的动态变化，D，转移矩阵的Fisher检验结果；

图9为虚构谱系树示例(A)及基于此树的deepiSMINT模型示意图(B)。

具体实施方式

为了使本领域技术人员更好地理解本发明的技术方案能予以实施，下面结合具体实施例和附图对本发明作进一步说明。

在本发明的描述中，如未特殊说明，所用试剂均为市售，所用方法均为本领域常规技术。

现有技术基于深度学习提出的表观遗传密码模型仅适用于单层分化的(或成对的)细胞命运决定预测。针对更复杂的多层细胞分化谱系，需要解决基于谱系树的多层分化及细胞命运决定的预测，从而更系统的研究干细胞分化成不同组织细胞的可变剪接和表观遗传机制。因此，本发明拟解决的关键科学问题是提出新的计算方法来推断复杂谱系树上的可变剪接模式及染色质状态的动态变化，进而构建整合谱系树结构信息的可变剪接表观遗传密码。具体方法如下：

1、实验数据及预处理

(1)细胞分化谱系树

细胞分化过程中各细胞类型及其相互关系表示为一棵树(tree)，称为谱系树(cell lineage tree)。和传统树的定义一样，谱系树是一个有向无环图(DirectedAcyclic Graph,GAD)。参见图1，谱系树记录了发育过程中每一特定时间分化产生的细胞，以及产生这些细胞的前体细胞；其中，树的每个节点(node)表示一种细胞类型，树的每一次分叉(fork)代表一次细胞分裂事件，树的每一分支(branch)则表示一次分化事件，而树的终端叶子节点(leaf node)代表的是成体生物的每一种终末分化细胞；对于某种生物一个完整的细胞谱系树，其根节点(root node)即表示受精卵(zygote)；然而对于复杂的生物体(如人和小鼠等)，我们还无法获得其整个发育过程及其谱系树的全貌；因此，通常所指的谱系树可能仅仅描述了生物完整发育过程的一小部分或阶段，即表示局部发育过程或阶段的一棵子树(如图1左侧虚线框中的分支)；其根节点往往指某种具有分化潜能的细胞，比如干细胞或前体细胞(progenitor)。此外，谱系树的另一特点是，其并非一定是典型的二叉树(binary tree)，即某些前体细胞可以分裂分化成两种以上的细胞类型(如图1右下分支)。

谱系树是本发明的输入数据之一，其定义为T(V,E)；其中V表示树的节点(node)，即细胞类型；E表示树的边(edge)，即分化路径。除叶子节点(leaf，即终末分化细胞)以外，其它节点(即中间分化状态细胞)的出度≥1，出度表示某个节点其子节点(即下一级节点)的个数；除根节点的入度为0以外，其它节点的入度≥1，入度则为其父亲节点(即上一层节点)的个数。因此，某些前体细胞可以分裂分化成两种以上的子代细胞类型，某些分化细胞也可来自不同的亲代细胞类型(如图1或图2所示)。

本发明的实施例将使用人类胚胎干细胞(hESC)分化谱系树、造血干细胞(HSC)分化谱系树和诱导多能干细胞(iPSC)分化谱系树来进行后续计算方法的研究和验证(图2)。

(2)多组学数据及预处理

本发明使用谱系树中所有细胞类型的转录组、表观遗传组和基因组数据作为初始的数据源，经过适当的预处理后，用于后续的计算机模型构建和分析。各数据的预处理方法概括如图3所示，具体如下：

1)RNA-seq数据和可变剪接分析

获取谱系树中每种细胞类型的已比对到转录组的RNA-seq数据，即BAM/SAM文件(包括生物学重复)。使用rMATs软件检测谱系树中每个细胞类型的可变剪接事件，记录每个可变剪接区域(外显子或保留内含子)的剪入百分比(percent spliced in,PSI)。合并所有细胞类型鉴定的可变剪接事件，使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表(图3A、图3B)。如图4A所示，可变剪接事件可以按其产生的原因分为7种类型。但为了简化描述，下文将以跳跃外显子(skipping exon,SE)的可变剪接类型为例介绍研究方案。

2)组蛋白修饰(ChIP-seq)数据处理(表观遗传组数据)

获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的ChIP-seq数据，即BAM/SAM文件(包括生物学重复)。使用MACS2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰(narrow peak)。针对每种组蛋白修饰，合并所有细胞类型中检测的信号峰，从而得到统一的一组组蛋白修饰信号峰列表。基于信号峰与5’端剪接位点(splice site,SS)的距离(d)及峰的高度(h)，我们定义组蛋白修饰在可变剪接区间的强度为HM＝h/d(图3C)。对每一细胞类型的ChIP-seq数据进行相同处理后，将各自获得一个数据表，其中“行”表示可变剪接事件，“列”表示组蛋白修饰种类，“值”表示某一可变组蛋白修饰在某一可变剪接区域的信号峰强度。

3)RNA序列数据

为利用基因组序列信息，我们选取可变剪接位点及其上下游各150bp区间，然后从基因组FASTA文件中提取该区间的碱基序列，并使用独热(One-Hot)编码方法将碱基序列转换成二进制的4×n的二维向量，其中n表示序列的长度(图3D)。

2、基于谱系树的表观剪接模块识别与动态分析

谱系树记录了细胞分化过程中亲子细胞的代际关系，现有研究已经表明可变剪接和组蛋白修饰在细胞分化过程及其命运决定中起到了至关重要的作用。本发明将首先基于谱系树来研究可变剪接模式和组蛋白修饰所表示的染色质状态在谱系树上的动态变化。在此，我们提出了表观剪接模块(epigenetic splicing module，epiSM)的概念来描述以可变剪接和组蛋白修饰表示的细胞状态。表观剪接模块定义为一组可变剪接事件，它们共享了相似的、以不同组蛋白修饰组合表示的染色质状态。

(1)表观遗传模块及epiSMINT模型

在给定具有谱系树树形结构关系的不同细胞类型及其多种染色质标记的情况下，本发明内容将基于表观剪接模块的概念提出计算模型来回答以下四个问题：1)可变剪接区间位于什么染色质状态中；2)在染色质标记的不同组合下，细胞类型之间的染色质模块在多大程度上是共享的；3)可变剪接在细胞代际间切换模块的可能性有多大；4)哪些可变剪接事件在细胞类型之间切换了染色质状态，因为这些基因可能对细胞状态的改变很重要。

为了回答以上问题，我们提出了一个生成概率模型，称为epiSMINT(epigeneticsplicing module inference on tree)。epiSMINT由两部分组成：一是描述每种细胞状态的表观剪接模块(epigenetic splicing module，epiSM)；二是描述表观剪接模块(epiSM)在细胞代际间的状态转移的转移概率矩阵。

每个细胞状态被表示成由k个多元混合高斯模型(gaussian mixture model，GMM)组成的概率生成模型；其中，k为epiSM模块个数，每个模块表示为m元高斯混合模型，m等于该模块的组蛋白修饰种类数。

具体如图5所示，给定一个具有L个细胞类型的谱系树和一个具有k个epiSM模块和m个组蛋白修饰的epiSMINT模型，对于表示可变剪接区域组蛋白修饰信号的随机变量X，其混合高斯模型可表示为式(1)：

其中，N(x|μ_k，∑_k)称为混合模型中的第k个高斯分量(component)，其可以表示为θ＝{μ，∑，π，T}，其中μ＝{μ¹，…，μ^l，…，μ^L}和∑＝{∑¹，…，∑^l，…，∑^L}分别表示m-维的均值向量和m×m-维的协方差矩阵。π_k是混合系数(mixture coefficient)，且满足

及0≤π_k≤1。实际上，可以认为π_k就是每个高斯分量N(x|μ_k，∑_k)的权重。如图5中的例子有两个模块，则可以用两个多元高斯分布来表示，那么分量数k＝2。

细胞代际间的关系则表示为转移概率矩阵T＝{T¹，…，T^l，…，T^L-1}，除根节点外，每一个细胞与其父亲节点之间均有一个k×k-维的转移矩阵。转移矩阵中每个元素

表示可变剪接事件在父亲节点属于模块i而在子代节点属于模块j的概率，即分化后可变剪接的染色质状态由模块i转移(transit)到模块j的概率。

(2)模型训练

在一个谱系树中，我们用l来表示第l个非根节点，p(l)表示其父亲节点，r表示根节点。epiSMINT实质上是一个基于GMM的概率生成模型，它将以如下方式来为每个可变剪接事件e在谱系树上的每个细胞类型l分配染色质状态(epiSM模块)：

·Set current node l to root，r.

·For each node l on tree τ

·if l is the root node，draw a cluster assignment for genomic regiong by sampling fromπ，

·else

-j be the g’s cluster assignment in l’s parent

-

-Draw chromatin profile

for g in l using μ_lk，∑_lk，where

EpiSMINT将使用EM(Expectation Maximization)算法来训练模型的参数。在E-步，首先推断所有可变剪接事件在所有叶子点上的epiSM模块划分，

然后递归地推断他们的父亲节点上可变剪接事件的epiSM模块划分，直至根节点为止。在M-步，根据

来估计每一个模块中的m个组蛋白修饰的均值和协方差矩阵，以及亲子代间模块间转移的概率矩阵。训练的目标函数为最大化以下对数似然函数，式(2)：

我们将可变剪接事件分到k个不同部分，表示初始化的模块分配。这里k个模块的划分可以是随机的，也可以是通过对原始数据进行聚类得到。接着，我们使用EM算法来迭代模块划分和GMM训练，直到收敛或者达到某个预设的迭代次数。

(3)模型应用与研究

作为预实验，我们先将该模型用于hESC分化成4中不同的细胞类型的、仅具有两层的简单谱系树上，取得了预想的效果。本项目将推广应用该模型到更复杂的谱系树上，以研究多层分化谱系树中的表观剪接模块及其动态变化。为此我们将使用人类造血干细胞(HSC)谱系(图2)和诱导的多能干细胞(iPSC)分化成神经细胞的谱系(图2)。因为：1)从生物学意义来讲，它们分别代表了典型的干细胞分化谱系树和体细胞重编程及再分化的谱系树；2)从计算模型上来讲，它们代表了较为复杂的非传统的典型二叉树结构。基于这两个谱系树的研究可以更广泛的测试计算模型的效果和普适性。

参见图7，多组学数据整合分析揭示人胚胎干细胞命运决定的新机制。图8是epiSMINT在人胚胎干细胞分化上的预实验结果。

我们针对人胚胎干系分化的二层谱系树，实现了epiSMINT方法。EpiSMINT将每种细胞的可变剪接和组蛋白修饰划分6个表观剪接模块(图8A)，分别表示了不同的染色质状态。模块1不像其它模块那样表现出一致的组蛋白富集和染色质状态；模块2富集了H3K4me2/3和H3K27ac；模块3和4与H3K36me3和H3K79me1紧密关联；而模块5和6与H3K4me2/3和H3K9ac联系紧密。模块2-6均与活性标记有关，代表了活性启动子状态或者转录活性区域。尽管模块3-4和模块5-6表示了相同的染色质状态，但它们却具有不同的动态变化(图8B、图8C)。其中模块4-5中的可变剪接在干细胞分化过程中更倾向于改变其所属模块，即具有更大的转移概率。例如，干细胞分化后，模块3主要转移到模块1，表明其中的可变剪接在分化后失去了其原有的染色质状态(图8C)。

为了鉴定那些在分化过程中显著转移其模块的剪接事件，我们对转移矩阵进行Fisher检验(图8D)。结果表明，约超过一半的可变剪接事件在细胞分化后转移到了其它模块中，即改变了其染色质状态，这与此前项目申请人发表于Genome Biology的工作的结论一致。尤其是，该工作发现的PBX1基因也突显于其它剪接基因。因此，基于epiSMINT结果可以发现在分化过程中动态变化显著的可变剪接基因，而这些基因可能通过可变剪接参与细胞分化和命运决定。

以上预实验结果表明，基于表观剪接模块概念构建的epiSMINT模型，可以很好的描述细胞分化过程中的状态转移，并有利于揭示与分化紧密相关的剪接基因。因此我们可以预期，将该方法推广到更复杂的多层谱系树中，同样能够得到多层细胞代际间的可变剪接和表观遗传修饰的动态变化。

3、基于神经网络构建谱系树的剪接表观遗传密码

基于上文提出的epiSMINT，我们能够得到一些高度可靠的靶基因，它们的可变剪接与组蛋白修饰紧密关联且参与细胞命运决。由于每种细胞类型的表观剪接模块(epiSM)都是由GMMs和细胞谱系的树状结构来建模的，我们将深度学习框架引入树形结构来增强epiSM的动态分析，进而构建一个适用于由多种细胞类型组成的树形结构的剪接表观遗传密码。

为此，在epiSMINT基础上，将深度学习框架与树形结构相结合，提出树形结构神经网络模型(deepiSMINT模型；deep-learning enhanced for epiSMINT)。与传统的神经网络不同，deepiSMINT模型的层对应谱系树中的一个分化层次；每一层的维度则等于epiSMINT模型识别的表观剪接模块数目(即高斯分量数)；层之间的连接则表示不同模块在细胞代际间转移的权重(概率)。经过训练的deepiSMINT(剪接表观遗传密码)可以根据细胞的剪接和表观遗传特征来预测该细胞的定向分化潜能(图6B→图6C)。

因此，deepiSMINT模型是由多层高斯混合模型按谱系树结构堆叠而成(图9)。每一层神经网络对应一种细胞类型，由k个(k等于该细胞的epiSM模块数)神经元(即GMM或epiSM模块)构成；除根节点外，每层神经网络既作为下一层神经网络的输入，又作为相应细胞类型的前置隐藏层。并且，deepiSMINT模型基于谱系树中的细胞间亲子关系被组织成树形结构。

(1)DeepiSMINT模型定义

类似epiSMINT定义，给定一个由L个细胞组成谱系树，由m个组蛋白修饰组成的deepiSMINT模型被定义为θ＝{μ，∑，π，W}，其中μ，∑分别表示多元GMM模型的参数且允许不同的细胞具有不同的维度；π表示每种epiSM模块的概率；W表示神经网络节点间连接的权重，等同于epiSMINT中的模块间转移概率。令

表示一组从细胞l到祖细胞r的所有可能路径。每一条可能的路径

的概率为

且

随机变量x^l的概率密度函数为

其高斯参数由它的父节点的高斯模型转换而来，即

其中b^l表示第l层的偏置项。在epiSMINT的基础上提出deepiSMINT的基本假设是，随着密度函数复杂度的增加，其过拟合程度将小于epiSMINT，因为deep GMM的参数绑定会迫使它集中注意力学习更有用的函数。这是也正是深度神经网络如此成功的原因之一。

(2)DeepiSMINT模型训练

和epiSMINT类似，EM算法将被用于模型训练。其中E-步将计算后验概率

来表示路径x^l由路径

生成的可能性；M-步将利用

来估计每个神经元的GMM参数。DeepiSMINT的优势是，在训练完成后，给定谱系树中的任意两个细胞，可以很容易地从神经网络中寻找一条具有最大权重的路径，而路径上的神经元则表示对该路径起决定性作用的表观剪接模块，也就是剪接表观遗传密码。这便是剪接表观遗传密码应该具备的基本属性。

因此，基于deepiSMINT模型，我们便得到了适用于谱系树的剪接表观遗传密码。基于该密码，便很容易解码谱系树中任意两细胞间分化路径上的关键剪接事件及其关联的表观遗传修饰。从而有助于理解细胞分化过程中与命运决定紧密相关的调控因子。同样，我们重点在图2所示的两个谱系树上测试和应用模型，分析到了相应的遗传密码(图2C、图2D)。

需要说明的是，本发明中涉及数值范围时，应理解为每个数值范围的两个端点以及两个端点之间任何一个数值均可选用，由于采用的步骤方法与实施例相同，为了防止赘述，本发明描述了优选的实施例。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，包括：

获取谱系树中所有细胞类型的高通量测序数据；

在epiSMINT基础上，将深度学习框架与树形结构相结合，建立树形结构神经网络模型deepiSMINT，将高通量测序数据数据输入树形结构神经网络模型，得到剪接表观遗传密码；

其中，所述epiSMINT是基于混合高斯模型的概率生成模型；

所述deepiSMINT由多层基于高斯混模型的神经网络依次堆叠而成，并基于谱系树中的细胞间亲子关系被组织成树形结构；

所述epiSMINT由两部分组成：一是描述每种细胞状态的表观剪接模块；二是描述表观剪接模块在细胞代际间的状态转移的转移概率矩阵；

每个细胞状态被表示成由k个多元混合高斯模型组成的概率生成模型；其中，k为表观剪接模块个数，每个表观剪接模块表示为m元高斯混合模型，m等于该表观剪接模块的组蛋白修饰种类数；

给定一个具有L个细胞类型的谱系树和一个具有k个表观剪接模块和m个组蛋白修饰的生成概率模型，对于表示可变剪接区域组蛋白修饰信号的随机变量X，其混合高斯模型可表示为式(1)：

其中，N(x|μ_k，∑_k)称为混合模型中的第k个高斯分量，表示为θ＝{μ，∑，π，T}，其中μ＝{μ¹，…，μ^l，…，μ^L}和∑＝{∑¹，…，∑^l，…，∑^L}分别表示m-维的均值向量和m×m-维的协方差矩阵；π_k是混合系数，且满足

及0≤π_k≤1；

细胞代际间的关系则表示为转移概率矩阵T＝{T¹，…，T^l，…，T^L-1}，除根节点外，每一个细胞与其父亲节点之间均有一个k×k-维的转移矩阵，转移矩阵中每个元素

表示可变剪接事件在父亲节点属于模块i而在子代节点属于模块j的概率，即分化后可变剪接的染色质状态由模块i转移到模块j的概率；

deepiSMINT模型的层对应谱系树中的一个分化层次；每一层的维度则等于epiSMINT模型识别的表观剪接模块数目，即高斯分量数；层之间的连接则表示不同模块在细胞代际间转移的权重，即概率；经过训练的deepiSMINT可以根据细胞的剪接和表观遗传特征来预测该细胞的定向分化潜能；

deepiSMINT模型是由多层高斯混合模型按谱系树结构堆叠而成，每一层神经网络对应一种细胞类型，由k个GMM或epiSM模块构成；除根节点外，每层神经网络既作为下一层神经网络的输入，又作为相应细胞类型的前置隐藏层；

deepiSMINT模型定义如下：

给定一个由L个细胞组成谱系树，由m个组蛋白修饰组成的deepiSMINT模型被定义为θ＝{μ，∑，π，W}，其中μ，∑分别表示多元GMM模型的参数且允许不同的细胞具有不同的维度；π表示每种epiSM模块的概率；W表示神经网络节点间连接的权重，等同于epiSMINT中的模块间转移概率；令

表示一组从细胞l到祖细胞r的所有可能路径；每一条可能的路径

的概率为

且

随机变量x^l的概率密度函数为

其高斯参数由它的父节点的高斯模型转换而来，即

其中b^l表示第l层的偏置项；

EM算法被用于deepiSMINT模型训练，其中E-步将计算后验概率

来表示路径x^l由路径

生成的可能性；M-步将利用

来估计每个神经元的GMM参数；训练完成后，对于给定谱系树中的任意两个细胞，所述树形结构神经网络模型能从神经网络中寻找一条具有最大权重的路径，而路径上的神经元则表示对该路径起决定性作用的剪接表观遗传密码。

2.根据权利要求1所述的适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，所述剪接表观遗传密码能解码谱系树中任意两细胞间分化路径上的关键剪接事件及其关联的表观遗传修饰。

3.根据权利要求1所述的适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，所述谱系树为人类胚胎干细胞分化谱系树、造血干细胞分化谱系树或者诱导多能干细胞分化谱系树。

4.根据权利要求1所述的适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，所述高通量测序数据包括基因组、转录组和表观遗传组的高通量测序数据。

5.根据权利要求4所述的适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，将所述高通量测序数据先进行预处理，然后再建立概率生成模型。

6.根据权利要求5所述的适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，所述高通量测序数据预处理方式如下：获取谱系树中每种细胞类型的已比对到转录组的RNA-seq数据，使用rMATs软件检测谱系树中每个细胞类型的可变剪接事件，记录每个可变剪接区域的剪入百分比，合并所有细胞类型鉴定的可变剪接事件，使得谱系树中每种细胞类型都共用一组完全一样的可变剪接事件列表。

7.根据权利要求5所述的适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，所述高通量测序数据预处理方式如下：获取谱系树中每种细胞类型的已比对到基因组的组蛋白修饰的ChIP-seq数据，使用MACS2软件检测谱系树中每个细胞类型的组蛋白修饰信号峰，针对每种组蛋白修饰，合并所有细胞类型中检测的信号峰，从而得到统一的一组组蛋白修饰信号峰列表；

8.根据权利要求5所述的适用于多层谱系树的剪接表观遗传密码的获得方法，其特征在于，所述高通量测序数据预处理方式如下：选取可变剪接位点及其上下游各150bp区间，然后从基因组FASTA文件中提取该区间的碱基序列，并使用独热编码方法将碱基序列转换成二进制的4×n的二维向量，其中n表示序列的长度。