CN110808083B

CN110808083B - 基于scRNA-seq及动态时间规整的基因调控网络构建方法

Info

Publication number: CN110808083B
Application number: CN201911012024.8A
Authority: CN
Inventors: 解刚才; 桑蒙蒙
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2023-08-29
Anticipated expiration: 2039-10-23
Also published as: CN110808083A

Abstract

本发明具体涉及基于scRNA‑seq及动态时间规整的基因调控网络构建方法，属于基因调控网络技术领域。该方法包括以下步骤：步骤1、基于单细胞数据的单细胞伪时间分析；步骤2、基于正负调控方式的双重DTW距离分析；步骤3、基于DTW距离的聚类分析以及GRN模块筛选；步骤4、基于DTW距离的基因间相似性矩阵构建；步骤5、通过随机置换检验，计算出基因与基因间网络连接度阈值C；步骤6、对GRN模块进行基因功能性分析；步骤7、pGRN网络的可视化得出GRN网络图。本发明方法的pGRN能够发现时间调控滞后的调控关系，同时处理时间滞后和时间伸缩的调控关系，为新的调控关系的发掘提供了途径。

Description

基于scRNA-seq及动态时间规整的基因调控网络构建方法

技术领域

本发明具体涉及基于scRNA-seq及动态时间规整的基因调控网络构建方法，属于基因调控网络技术领域。

背景技术

基因调控网络(Gene Regulatory Network,GRN)对基因与基因之间调控关系进行系统性描述的重要方法,已被广泛应用于人类疾病、干细胞多能性及其改造、农作物育种等众多研究领域。在微观方面，GRN几乎参与了所有细胞的活动，包括细胞分裂、细胞信号传导、细胞代谢等活动。目前GRN的构建方法主要包括相关性模型、布尔模型、贝叶斯模型、常微分方程、信息论模型、神经网络模型等。上述方法主要针对基因表达芯片数据或者混合细胞转录组测序数据，尚未针对单细胞转录组测序数据(scRNA-seq)特征。随着单细胞转录组测序技术的发展及其相关数据的大量出现，开发针对单细胞转录组测序数据(scRNA-seq)的基因调控网络构建方法具有重要的应用价值。在过去几年，陆续有针对单细胞转录组测序数据(scRNA-seq)特征的基因调控网络方法出现，包括SingCellNet、SCNS、BTR、SCENIC、LEAP等。这些方法中，有的没有考虑单细胞转录组测序数据(scRNA-seq)伪时间信息，如SingCellNet、SCENIC、BTR，有的方法未能考虑时间滞后的调控关系，如LEAP之外的方法。考虑了时间滞后调控关系的LEAP方法，不能很好的处理有时间伸缩的调控关系，例如调控因子与其靶基因对应表达变化区段时间长度不同的调控关系。因此需要一种同时处理时间滞后和时间伸缩的调控关系的GRN新方法。

发明内容

本发明的目的是提供在一定程度上解决基因调控网络中时间滞后和时间伸缩问题的基于scRNA-seq及动态时间规整的基因调控网络构建方法。

为实现上述目的，本发明所用技术方案如下：

基于scRNA-seq及动态时间规整的基因调控网络构建方法，包括以下步骤：步骤1、基于单细胞数据的单细胞伪时间分析；步骤2、基于正负调控方式的双重DTW距离分析；步骤3、基于DTW距离的聚类分析以及GRN模块筛选；步骤4、基于DTW距离的基因间相似性矩阵构建；步骤5、通过随机置换检验，计算出基因与基因间网络连接度阈值C；步骤6、对GRN模块进行基因功能性分析；步骤7、pGRN网络的可视化得出GRN网络图。

进一步作为本发明的优选技术方案，步骤1的具体步骤如下：步骤1.1、分析单细胞转录组测序数据；步骤1.2、对于不同阶段的细胞赋予不同的伪时间值。

进一步作为本发明的优选技术方案，步骤2的具体步骤如下：步骤2.1、设有两组数组如下：

X_m＝(x₁，x2，x₃，…，x_m)

Y_m＝(y₁，y₂，y₃，…，y_m)

其中，数组X_m与Y_m均为时间序列数组；

步骤2.2、定义DTW(m,n)为X_m与Y_n之间最小的规整距离，通过如下动态规划算法：

DTW(i，j)＝Dist(i，j)+min[DTW(i-1，j)，DTW(i，j-1)，DTW(i-1，j-1)]

DTW(1，1)＝Dist(1，1)

DTW(i，1)＝Dist(i，1)+DTW(i-1，1)if(i>1)

DTW(1，j)＝Dist(1，j)+DTW(1，j-1)if(j>1)

其中，Dist(i，j)是X_i与Y_j的DTW规整路径中所有对应于这两个数组中的点的欧几里德距离之和；

步骤2.3、设有基因A与基因B，随着伪时间表达量变化的数组为X_A0与X_B0，对原始数组做时间窗口平均取值得出X_A与X_B，X_A与X_B分别代表基因A与基因B叠加平移窗口内基因表达量的均值数组，其长度为窗口数量N；

步骤2.4、对表达数组X_A与X_B进行Z-score标准化，即为：

X′_A＝(X_A-Mean(X_A))/(sd(X_A))

X′_B＝(X_B-Mean(X_B))/(sd(X_B))

其中，X′_A与X′_B分别为X_A与X_B的Z-score标准化数组；

步骤2.5、对于基因A与基因B，计算双重DTW距离，即为：

D(A，B)＝dtw(X′_A，X′_B)/L

D(A，-B)＝dtw(X′_A，-X′_B)/L

其中，dtw()函数计算DTW距离，L为DTW匹配路径长度；

步骤2.6、将D(A，B)与D(A,-B)进行距离数值大小对比；当D(A，B)＞D(A,-B)，则调控关系为负值-1；当D(A，B)<D(A,-B)，则调控关系为正值+1；当D(A,B)＝D(A,-B)，则调控关系为零值0；步骤2.7、定义DTW(A，B)＝min(D(A,B)，D(A,-B))。

进一步作为本发明的优选技术方案，步骤3的具体步骤如下：步骤3.1、基于基因间DTW距离信息，对细胞的基因进行层次聚类分析；步骤3.2、设定聚类模块内最小基因数目阈值，使用dynamicTreeCut方法找出层次聚类树中的模块。

进一步作为本发明的优选技术方案，步骤4的具体步骤如下：步骤4.1、对于基因A和基因B；当DTW(A,B)距离数值高，则表示基因A和基因B随伪时间表达的变化趋势相关性弱；当DTW(A,B)距离数值低，则表示基因A和基因B随伪时间表达的变化趋势相关性强；步骤4.2、设定基因A和基因B之间的相似性数值为:

S(A，B)＝(1-DTW(A，B))^k

其中，k取值为2到5之间的整数,S(A,B)代表了pGRN网络中基因A与基因B间的连接程度；

步骤4.3、将所有表达基因间的相似性数值构成基因表达相似性矩阵。

进一步作为本发明的优选技术方案，步骤5的具体步骤如下：步骤5.1、通过随机置换基因表达在伪时间中的顺序，采用同样的双重DTW分析方法，得到随机序列的DTW距离矩阵；

步骤5.2、基于随机序列的DTW距离矩阵，得到基因表达相似性矩阵即基因与基因间连接度矩阵；步骤5.3、设定一个基因与基因间连接度的阈值C，通过公式计算出基因调控网络的假阳性率FDR值，该公式为：

其中，M为随机置换的次数，N为基因相似表达矩阵中基因的个数，为基于真实数据在阈值C下的网络有效连接数，而/>为基于随机置换数据得到的在阈值C下的网络有效连接数；I为指示函数；当S(x,y)>C为真时，其数值为1；当S(x,y)>C为假时，其数值为0；步骤5.4、在一定范围内选取C值计算FDR随着C值变化的情况，进而确定在给定FDR阈值下基因与基因间连接度阈值C的取值。

进一步作为本发明的优选技术方案，步骤5.3与步骤5.4中基因调控网络的假阳性率FDR值为0.05。

进一步作为本发明的优选技术方案，步骤6的具体步骤如下：步骤6.1、筛选出GRN模块；步骤6.2、对于筛选出的GRN模块内部的基因进行GO富集性分析；步骤6.3、pGRN模块将整合topGO进行GO富集性分析。

进一步作为本发明的优选技术方案，步骤7的具体步骤如下：步骤7.1、基于基因相似表达性矩阵和模块信息以及RCy3，pGRN模块将通过R语句调用网络可视化工具Cytoscape；步骤7.2、得到各个模块的GRN网络图。

本发明的技术方案相对于现有技术的有益效果为：

本发明的pGRN能够发现时间调控滞后的调控关系，同时处理时间滞后和时间伸缩的调控关系，为新的调控关系的发掘提供了途径。pGRN通过应用DTW算法，能够处理时间伸缩的相似表达图谱查找，扩大了随时间的调控关系的查找范围，为进一步发现新的调控关系提供了可能。

附图说明

图1为本发明的流程示意图；

图2为本发明的单细胞测序数据聚类分析图；

图3为本发明的单细胞伪时间分析图；

图4为本发明的基因A与基因B基于DTW的矩阵比对图；

图5为本发明的基因A与基因B表达量随时间变化及其对于DTW比对点配对情况图；

图6为本发明的伪时间轴叠及平移窗口示意图；

图7为本发明的基于双重DTW距离的基因聚类分析图；

图8为本发明的pGRN基因调控网络模块图。

具体实施方式

下面结合附图对本发明做进一步的详细说明。

如图1所示，基于scRNA-seq及动态时间规整的基因调控网络构建方法，包括以下步骤：

步骤1、基于单细胞数据的单细胞伪时间分析；步骤2、基于正负调控方式的双重DTW距离分析；步骤3、基于DTW距离的聚类分析以及GRN模块筛选；步骤4、基于DTW距离的基因间相似性矩阵构建；步骤5、通过随机置换检验，计算出基因与基因间网络连接度阈值C；步骤6、对GRN模块进行基因功能性分析；步骤7、pGRN网络的可视化得出GRN网络图。

步骤1的具体步骤如下：步骤1.1、分析单细胞转录组测序数据；步骤1.2、对于不同阶段的细胞赋予不同的伪时间值。其中，单细胞测序数据来源于处在生物学动态过程的一群细胞，这些细胞处在了生物学动态过程中的不同阶段。通过单细胞测序数据的分析，如图2所示；能够对不同阶段的细胞赋以不同的伪时间值，如图3所示。伪时间值越小代表该细胞类型处在生物学过程的初始阶段，越大代表该细胞类型处在生物学过程的终端阶段。具体的，整合Monocle2、Monocle3、SLICER、DPT、Wishbone以及URD等伪时间分析方法，比较不同伪时间算法得到的伪时间构建的pGRN网络的差异性，并选用不同的伪时间方法构建pGRN基因调控网络。

步骤2的具体步骤如下：步骤2.1、设有两组数组如下：

X_m＝(x₁，x₂，x₃，…，x_m)

Y_m＝(y₁，y₂，y₃，…，y_m)

其中，数组X_m与Y_m均为时间序列数组；

DTW(i，j)＝Dist(i，j)+min[DTW(i-1，j)，DTW(i，j-1)，DTW(i-1，j-1)]

DTW(1，1)＝Dist(1，1)

DTW(i，1)＝Dist(i，1)+DTW(i-1，1)if(i>1)

DTW(1，j)＝Dist(1，j)+DTW(1，j-1)if(j>1)

步骤2.4、对表达数组X_A与X_B进行z-score标准化，即为：

X′_A＝(X_A-Mean(X_A))/(sd(X_A))

X′_B＝(X_B-Mean(X_B))/(sd(X_B))

其中，X′_A与X′_B分别为X_A与X_B的z-score标准化数组；

步骤2.5、对于基因A与基因B，计算双重DTW距离，即为：

D(A，B)＝dtw(X_A，X_B)/L

D(A，-B)＝dtw(X′_A，-X′_B)/L

其中，dtw()函数计算DTW距离，L为DTW匹配路径长度；

步骤2.6、将D(A,B)与D(A,-B)进行距离数值大小对比；当D(A,B)>D(A,-B)，则调控关系为负值-1；当D(A,B)<D(A,-B)，则调控关系为正值+1；当D(A,B)＝D(A,-B)，则调控关系为零值0；步骤2.7、定义DTW(A,B)＝min(D(A,B),D(A,-B))。

其中，双重DTW距离分析是分别考虑了基因间正调控和负调控的DTW距离分析。DTW算法作为距离计算方法被广泛应用于时间序列数据的处理。步骤2.2中，两数组对应的DTW规整路径示例，如图4所示；通过规则路径，可以对两个时间序列数组对应的随时间变化的曲线做一一匹配，即使在两个相似时间变化曲线有时间滞后位移或者有伸缩的情况下，仍然能够找到两者之间的匹配关系，如图5所示。步骤2.3中，沿着伪时间轴从头到尾依次有叠加的设置时间窗口，然后再对窗口内的细胞表达量取均值，如图6所示。

步骤3的具体步骤如下：步骤3.1、基于基因间DTW距离信息，对细胞的基因进行层次聚类分析；步骤3.2、设定聚类模块内最小基因数目阈值，使用dynamicTreeCut方法找出层次聚类树中的模块。如图7所示，为基于双重DTW距离的基因聚类分析图。

步骤4的具体步骤如下：步骤4.1、对于基因A和基因B；当DTW(A,B)距离数值高，则表示基因A和基因B随伪时间表达的变化趋势相关性弱；当DTW(A,B)距离数值低，则表示基因A和基因B随伪时间表达的变化趋势相关性强；步骤4.2、设定基因A和基因B之间的相似性数值为:

S(A，B)＝(1-DTW(A，B))^k

步骤5的具体步骤如下：步骤5.1、通过随机置换基因表达在伪时间中的顺序，采用同样的双重DTW分析方法，得到随机序列的DTW距离矩阵；

其中，M为随机置换的次数，N为基因相似表达矩阵中基因的个数，为基于真实数据在阈值C下的网络有效连接数，而/>为基于随机置换数据得到的在阈值C下的网络有效连接数；I为指示函数；当S(x,y)>C为真时，其数值为1；当S(x,y)>C为假时，其数值为0；步骤5.4、在一定范围内选取C值计算FDR随着C值变化的情况，进而确定在给定FDR阈值下基因与基因间连接度阈值C的取值。步骤5.3与步骤5.4中基因调控网络的假阳性率FDR值为0.05。

步骤6的具体步骤如下：步骤6.1、筛选出GRN模块；步骤6.2、对于筛选出的GRN模块内部的基因进行GO富集性分析；步骤6.3、pGRN模块将整合topGO进行GO富集性分析。同时也可以根据实际需要，使用其它功能富集分析软件对pGRN模块基因进行分析，比如DAVID在线基因功能富集性分析网站以及Broad Institute的GSEA软件。

步骤7的具体步骤如下：步骤7.1、基于基因相似表达性矩阵和模块信息以及RCy3，pGRN模块将通过R语句调用网络可视化工具Cytoscape；步骤7.2、得到各个模块的GRN网络图。其中，RCy3即为R包，各个模块的GRN网络图，如图8所示。

具有生物学动态过程细胞的器官，如人类睾丸，在对人类睾丸组织的单细胞测序当中，能够获取处在精子发生过程不同阶段的细胞类型，有在精子发生过程时间上游的精原细胞、初级精母细胞，以及在精子发生下游的成熟精子细胞。pGRN能够对不同阶段的细胞赋以不同的伪时间值。结合单细胞转录组测序数据特征以及动态时间规整算法，更好的处理有时间滞后以及有调控区域时间伸缩的调控方式。将pGRN应用到异常精子发生小鼠模型中，期望发现与之相关的基因调控网络改变情况，并期望鉴别出关键的调控因子。将pGRN应用到正常人精子发生过程调控机理研究中，期望发现与之相关的新的基因调控模块。有望为男性不育提供基因调控网络层面的理论基础。

上述是为便于该技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于这里的实施例，本领域技术人员根据本发明的揭示，不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，包括以下步骤：

步骤1、基于单细胞数据的单细胞伪时间分析；

步骤2、基于正负调控方式的双重DTW距离分析；

步骤3、基于DTW距离的聚类分析以及GRN模块筛选；

步骤4、基于DTW距离的基因间相似性矩阵构建；

步骤5、通过随机置换检验，计算出基因与基因间网络连接度阈值C；

步骤6、对GRN模块进行基因功能性分析；

步骤7、pGRN网络的可视化得出GRN网络图；

步骤2的具体步骤如下：

步骤2.1、设有两组数组如下：

X_m＝(x₁，x₂，x₃，…，x_m)

Y_m＝(y₁，y₂，y₃，…，y_m)

其中，数组X_m与Y_m均为时间序列数组；

步骤2.2、定义DTW(m,n)为X_m与Y_n之间最小的规整距离，通过如下动态规划算法:

DTW(i，j)＝Dist(i，j)+min[DTW(i-1，j)，DTW(i,j-1)，DTW(i-1,j-1)]

DTW(1，1)＝Dist(1，1)

DTW(i，1)＝Dist(i，1)+DTW(i-1，1)if(i＞1)

DTW(1，j)＝Dist(1，j)+DTW(1，j-1)if(j＞1)

其中，Dist(i,j)是X_i与Y_j的DTW规整路径中所有对应于这两个数组中的点的欧几里德距离之和；

步骤2.3、设有基因A与基因B,随着伪时间表达量变化的数组为X_A0与X_B0，对原始数组做时间窗口平均取值得出X_A与X_B，X_A与X_B分别代表基因A与基因B叠加平移窗口内基因表达量的均值数组，其长度为窗口数量N；

步骤2.4、对表达数组X_A与X_B进行z-score标准化，即为：

X′_A＝(X_A-Mean(X_A))/(sd(X_A))

X′_B＝(X_B-Mean(X_B))/(sd(X_B))

其中，X'_A与X'_B分别为X_A与X_B的z-score标准化数组；

步骤2.5、对于基因A与基因B,计算双重DTW距离，即为：

D(A，B)＝dtw(X′_A，X′_B)/L

D(A，-B)＝dtw(X′_A，-X′_B)/L

其中，dtw()函数计算DTW距离，L为DTW匹配路径长度；

步骤2.6、将D(A,B)与D(A,-B)进行距离数值大小对比；当D(A,B)>D(A,-B)，则调控关系为负值-1；当D(A,B)<D(A,-B)，则调控关系为正值+1；当D(A,B)＝D(A,-B)，则调控关系为零值0；

步骤2.7、定义DTW(A,B)＝min(D(A,B),D(A,-B))。

2.根据权利要求1所述的基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，步骤1的具体步骤如下：

步骤1.1、分析单细胞转录组测序数据；步骤1.2、对于不同阶段的细胞赋予不同的伪时间值。

3.根据权利要求1所述的基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，步骤3的具体步骤如下：

步骤3.1、基于基因间DTW距离信息，对细胞的基因进行层次聚类分析；

步骤3.2、设定聚类模块内最小基因数目阈值，使用dynamicTreeCut方法找出层次聚类树中的模块。

4.根据权利要求1所述的基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，步骤4的具体步骤如下：

步骤4.1、对于基因A和基因B，当DTW(A,B)距离数值高，则表示基因A和基因B随伪时间表达的变化趋势相关性弱；当DTW(A,B)距离数值低，则表示基因A和基因B随伪时间表达的变化趋势相关性强；

步骤4.2、设定基因A和基因B之间的相似性数值为:

S(A，B)＝(1-DTW(A，B))^k

5.根据权利要求1所述的基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，步骤5的具体步骤如下：

步骤5.1、通过随机置换基因表达在伪时间中的顺序，采用同样的双重DTW分析方法，得到随机序列的DTW距离矩阵；

步骤5.2、基于随机序列的DTW距离矩阵，得到基因表达相似性矩阵即基因与基因间连接度矩阵；

步骤5.3、设定一个基因与基因间连接度的阈值C，通过公式计算出基因调控网络的假阳性率FDR值，该公式为：

其中，M为随机置换的次数，N为基因相似表达矩阵中基因的个数，为基于真实数据在阈值C下的网络有效连接数，而/>为基于随机置换数据得到的在阈值C下的网络有效连接数；I为指示函数；当S(x,y)>C为真时，其数值为1；当S(x,y)>C为假时，其数值为0；

步骤5.4、在一定范围内选取C值计算FDR随着C值变化的情况，进而确定在给定FDR阈值下基因与基因间连接度阈值C的取值。

6.根据权利要求5所述的基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，步骤5.3与步骤5.4中基因调控网络的假阳性率FDR值为0.05。

7.根据权利要求1所述的基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，步骤6的具体步骤如下：

步骤6.1、筛选出GRN模块；

步骤6.2、对于筛选出的GRN模块内部的基因进行GO富集性分析；

步骤6.3、pGRN模块将整合topGO进行GO富集性分析。

8.根据权利要求1所述的基于scRNA-seq及动态时间规整的基因调控网络构建方法，其特征在于，步骤7的具体步骤如下：

步骤7.1、基于基因相似表达性矩阵和模块信息以及RCy3，pGRN模块将通过R语句调用网络可视化工具Cytoscape；

步骤7.2、得到各个模块的GRN网络图。