CN115424668A

CN115424668A - 一种单细胞转录组数据可用性分析方法、介质及设备

Info

Publication number: CN115424668A
Application number: CN202211363139.3A
Authority: CN
Inventors: 陈哲名; 郎秋蕾; 陈志锋
Original assignee: Hangzhou Lianchuan Gene Diagnosis Technology Co ltd
Current assignee: Hangzhou Lianchuan Gene Diagnosis Technology Co ltd
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2022-12-02
Anticipated expiration: 2042-11-02
Also published as: CN116072217A; CN116072217B; CN115424668B

Abstract

本发明公开了一种单细胞转录组数据可用性分析方法，涉及生物数据分析方法。包括以下步骤：根据基因表达量从大到小对barcode进行排序；求得基因表达量变化幅度的拐点；遍历所有拐点，将barcode分类为细胞区、空液滴区和磁珠区并统计相应的barcode数量；提取细胞区所有barcode的表达谱；统计比对上参考基因组的read数，计算细胞的平均read数；当有至少一个拐点对应的基因表达量大于G1，有至少1个拐点对应的基因表达量大于G2小于G1，且细胞区的barcode数量大于K3，空液滴区的barcode数量大于K4，细胞的平均read数大于K6时，判定样本数据可用；否则，判定样本数据不可用。本发明能系统性地分析单细胞转录组数据的可用性，在下游分析前提供数据可用性预警，节省分析人员的分析时间与精力。

Description

一种单细胞转录组数据可用性分析方法、介质及设备

技术领域

本发明涉及生物数据分析方法，尤其涉及一种单细胞转录组数据可用性分析方法、介质及设备。

背景技术

单细胞转录组测序技术能够获得单个细胞内近万个基因表达信息，并且能够辨别生物组织中各种细胞类型的转录特征，并全面揭示细胞之间基因表达异质性。高通量单细胞测序平台主要是基于序列标签来识别单细胞，其核心技术是给每个细胞添加一个独特的序列标签，在测序时把携带相同标签的核酸序列视为来自同一个细胞。10X Genomics 单细胞转录组测序平台为目前应用广泛的一类技术，该平台利用微流控、油滴包裹和barcode标签等技术来实现高通量的细胞分选与捕获，能够一次性分离、并标记500至数万个单细胞，测序后可获得每个细胞的转录组信息，具有细胞通量高、建库成本低、捕获周期短等优势。该技术主要用于细胞分型和标记因子的鉴定，可实现对细胞群体的划分与细胞群体间基因表达差异的检测，还能预测细胞分化与发育轨迹，在当下疾病、免疫、肿瘤领域以及组织、器官、发育研究中发挥越来越重要的作用。

典型的单细胞转录组测序技术由6 个步骤组成：单细胞分析、RNA分离、逆转录、扩增、文库生成和测序。前两个步骤尤为重要。10X Genomics单细胞转录组测序技术利用微流控芯片将带有barcode标签的微珠和单个细胞包裹在一个微滴之中。每个微珠带有独特的核苷酸序列，即barcode标签，可以对单个细胞进行标记。而每条barcode标签还连有一段同样由核苷酸序列组成的分子标识符（unique molecular identifier，UMI），每个UMI可以标记一个mRNA转录本。经过逆转录、PCR扩增、生成文库和测序，在测序数据中，根据barcode标签和UMI标记，即可确定结果中每条序列是否来自于同一个细胞、同一个mRNA，由此获得单个细胞的转录组表达谱。

10X Genomics单细胞转录组测序技术虽能同时检测成千上万个细胞，但前提是能正常生成包裹了细胞和微珠的微滴（GEMs），以及对每个细胞都有足够的测序数据量。当实验过程中出现GEMs生成失败或者细胞数量过多时，测序数据将难以正确反应细胞的真实状态。GEMs生成失败的原因可能是细胞或磁珠在微通道中堵塞（统称堵孔），或者油滴未正确包含细胞悬液（统称wetting failure），前者会导致捕获的细胞数量极低，后者则会导致捕获细胞的边界不清晰，使得表达谱混乱。而细胞数量过多则会使每个细胞的测序量不足，导致结果严重不稳定。现有技术条件下，这些原因导致的数据问题均无法在实验过程中和数据量上无法直接体现，往往在数据分析到一定程度时才发现测序数据不可用，浪费了许多人力、算力和时间。

发明内容

为了解决背景技术中提到的至少一个技术问题，本发明的目的在于提供一种单细胞转录组数据可用性分析方法、介质及设备，可以判定是否因实验问题导致单细胞转录组数据不可用，在下游分析前提供数据可用性预警，节省分析人员的分析时间与精力，相应的处理方案也为后续处理提供依据。

为实现上述目的，本发明提供如下技术方案：

一种单细胞转录组数据可用性分析方法，包括以下步骤：

S1，根据基因表达量从大到小对barcode进行排序；

S2，求得基因表达量变化幅度的拐点；

S3，遍历所有拐点，结合基因表达量的大小将barcode分类为细胞区、空液滴区和磁珠区；

S4，统计细胞区、空液滴区、磁珠区的barcode数量；

S5，提取细胞区所有barcode的表达谱；

S6，统计比对上参考基因组的read数，计算细胞的平均read数；

S7，当有至少一个拐点对应的基因表达量大于G1，有至少1个拐点对应的基因表达量大于G2小于G1，且细胞区的barcode数量大于K3，空液滴区的barcode数量大于K4，细胞的平均read数大于K6时，判定样本数据可用；否则，判定样本数据不可用。

进一步的，所述基因表达量变化幅度的拐点的求解方法如下：

S21，以barcode的排名为X轴，基因表达量为Y轴绘制散点图；

S22，在所述散点图上，间隔规定距离取最近的一个点，求相邻两个点之间的斜率；

S23，当斜率的变化趋势为由大变小，且在该趋势持续过程中，斜率首次小于设定的斜率阈值时，将对应的点设为拐点。

进一步的，在S21绘制散点图之前，对barcode的排名和基因表达量先进行对数处理。

进一步的，所述细胞区、空液滴区和磁珠区的分类方法如下：

将对应基因表达量大于G1的该拐点之前的barcode分类至细胞区；将对应基因表达量位于G1和G2之间的拐点之前且不在细胞区的barcode分类至空液滴区；将对应基因表达量小于G2的拐点之后的barcode分类至磁珠区。

进一步的，当样本数据不可用时，进一步判断样本数据不可用的原因：

计算不同基因在barcode中的表达比例，并统计表达比例大于P1的第一基因数量和表达比例大于P2的第二基因数量；

当仅有一个拐点对应的基因表达量大于G2，且第一基因数量大于K1或第二基因数量大于K2，判定样本数据不可用，原因是实验存在wetting failure；

当细胞区的barcode数量小于K3，且空液滴区的barcode数量小于K4时，判定样本数据不可用，原因是实验存在堵孔；

当细胞区的barcode数量小于K3，且空液滴区的barcode数量大于K4时，判定样本数据可用性待确认，原因是实验细胞数量过少；

当细胞区的barcode数量大于K5，且细胞的平均read数少于K6，判定样本数据不可用，原因是实验细胞数量过多；

进一步的，所述S7后还包括S8，针对数据可用性情况作出相应处理方法：

若样本数据可用，则正常进行后续数据分析；

若样本数据因实验存在wetting failure或堵孔不可用，则重新用细胞悬液进行实验；

若样本数据因实验细胞数量过多不可用，则增加测序数据量。

进一步的，增加测序数据量时，补测的数据量如下：

Gb=（5×104-Readcell）×Barccell

其中，Gb为补测的数据量；Readcell为细胞的平均read数，Barccell为细胞区的barcode数量。

一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的单细胞转录组数据可用性分析方法。

一种终端设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上所述的单细胞转录组数据可用性分析方法。

与现有技术相比，本发明的有益效果是：

1、本发明通过计算基因表达量的变化幅度，以此区分细胞区、空液滴区和磁珠区三类barcode，并根据各类barcode的数量、基因的表达比例，及细胞液滴的测序数据量，可以判定单细胞转录组数据的可用性。与现有技术相比，本发明提供的技术方案能系统性地分析单细胞转录组数据的可用性，在下游分析前提供数据可用性预警，节省分析人员的分析时间与精力。

2、本发明还对样本数据不可用的情形进行了进一步分析，判定是否因实验问题导致单细胞转录组数据不可用，并提出相应的处理方法。

附图说明

图1为本发明一实施例的整体方法流程图。

图2为本发明一实施例的散点图。

图3为本发明一实施例的拐点示意图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参照图1，本实施例提供一种单细胞转录组数据可用性分析方法，包括以下步骤：

S1，根据基因表达量（UMI counts数，简称C_UMI）从大到小对barcode进行排序，并赋予排名R_n；

S2，求得基因表达量变化幅度的拐点，即剧烈变化点；具体求解方法如下：

S21，以barcode的排名R_n为X轴，基因表达量C_UMI为Y轴绘制散点图；为了放大基因表达量C_UMI的变化幅度，本实施例还对barcode的排名R_n和基因表达量C_UMI进行log₁₀处理，即以log₁₀R_n为X轴，以log₁₀C_UMI为Y轴，如图2所示，绘制散点图。

S22，在所述散点图上，沿X轴，间隔0.1取最近的一个点，间隔长度可以自定义设置，还可以是0.2或0.3。

求相邻两个点之间的斜率k_n，求解公式为：k_n=（y_n-y_n-1）/（x_n-x_n-1）；公式中，（x_n，y_n）为第n个点的坐标，（x_n-1，y_n-1）为第n-1个点的坐标；下表1展示了一实施例的基因表达量排名及斜率。

表1：基因表达量排名及斜率

barcode 排名Rn	基因表达量CUMI	x轴坐标 log10(Rn)	y轴坐标 log10(CUMI)	斜率kn	备注
						1	61733	0.000	4.791
2	61643	0.301	4.790	-0.002
						3	55081	0.477	4.741	-0.278
1259	8838	3.100	3.946	-0.303
						1585	7376	3.200	3.868	-0.785
1996	5630	3.300	3.751	-1.172	拐点
						2512	2958	3.400	3.471	-2.799
3163	293	3.500	2.467	-10.033

S23，当斜率k_n的变化趋势为由大变小，即k_n<k_n-1，且在该趋势持续过程中，斜率k_n首次小于设定的斜率阈值时，将对应的点设为拐点；于本实施例中，所述斜率阈值为-1。

由上表1可得知，排名1996的barcode对应的斜率在连续降低的情况下首次小于-1，因此认定为拐点。

如图3所示，通过步骤S2，可以在散点图上求得若干拐点K_m，对拐点的数量进行统计以便后续步骤使用。

S3，遍历所有拐点，结合基因表达量的大小将barcode分类为细胞区、空液滴区和磁珠区。其中，各个区所代表的含义如下：

细胞区：barcode代表包含细胞的液滴；

空液滴区：barcode代表不包含细胞但包含细胞悬液的液滴；

磁珠区：barcode代表不包含细胞且不包含细胞悬液的液滴；

所述细胞区、空液滴区和磁珠区的分类方法如下：

设定两个阈值G1和G2，（G1＞G2）；遍历所有拐点

对应的基因表达量C_UMI大于G1时，将排名在该拐点之前的barcode都分类至细胞区；

对应的基因表达量位于G1和G2之间时，将排名在该拐点之前且不在细胞区的barcode分类至空液滴区；

对应的基因表达量小于G2时，将该拐点之后的barcode分类至磁珠区。

G1和G2可根据实际情况进行调整，通常设置为500和80。

S4，分别统计细胞区、空液滴区、磁珠区的barcode数量Barc_cell、Barc_empty和Barc_bead。

S5，提取细胞区所有barcode的表达谱；计算不同基因在barcode中的表达比例P；表达了某基因（假设为基因A）的barcode数量用C_A表示，表达比例P的计算公式为P=C_A/Barc_cell*100%；

统计表达比例大于P1（50%）的第一基因数量和表达比例大于P2（70%）的第二基因数量。

S6，使用10X Genomics官方软件cellranger统计比对上参考基因组的read数Read_total，计算细胞的平均read数Read_cell；公式为：Read_cell=Read_total/Barc_cell，以此判断测序量是否足够。

S7，判断样本数据是否可用，当有至少一个拐点对应的基因表达量C_UMI大于G1，有至少1个拐点对应的基因表达量C_UMI大于G2小于G1，且细胞区的barcode数量Barc_cell大于K3（本实施例中，取K3取2000），空液滴区的barcode数量Barc_empty大于K4（本实施例中，取K4取30000），细胞的平均read数Read_cell大于K6（本实施例中，取K6取20000）时，判定样本数据可用；否则，判定样本数据不可用。

于本实施例中，当样本数据不可用时，进一步判断样本数据不可用的原因：

当仅有一个拐点对应的基因表达量C_UMI大于G2，且第一基因数量大于K1（本实施例中，取K1取900）或第二基因数量大于K2（本实施例中，取K2取300），判定样本数据不可用，原因是实验存在wetting failure；

当细胞区的barcode数量Barc_cell小于K3，且空液滴区的barcode数量Barc_empty小于K4时，判定样本数据不可用，原因是实验存在堵孔；

当细胞区的barcode数量Barc_cell小于K3，且空液滴区的barcode数量Barc_empty大于K4时，判定样本数据可用性待确认，原因是实验细胞数量过少；

当细胞区的barcode数量Barc_cell大于K5（本实施例中，取K5取20000），且细胞的平均read数Read_cell少于K6，判定样本数据不可用，原因是实验细胞数量过多，测序深度不足；

S8，针对数据可用性情况作出相应处理方法：

若样本数据可用，则正常进行后续数据分析；

若样本数据因实验细胞数量过多不可用，则增加测序数据量，增加测序数据量时，补测的数据量如下：

Gb=（5×104-Readcell）×Barccell

若实验细胞数量过少，则重新用细胞悬液进行实验。

实施例二：

一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如实施例一所述的单细胞转录组数据可用性分析方法。

实施例三：

一种终端设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如实施例一所述的单细胞转录组数据可用性分析方法。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种单细胞转录组数据可用性分析方法，其特征在于，包括以下步骤：

S1，根据基因表达量从大到小对barcode进行排序；

S2，求得基因表达量变化幅度的拐点；

S4，统计细胞区、空液滴区、磁珠区的barcode数量；

S5，提取细胞区所有barcode的表达谱；

S6，统计比对上参考基因组的read数，计算细胞的平均read数；

2.根据权利要求1所述的一种单细胞转录组数据可用性分析方法，其特征在于，所述基因表达量变化幅度的拐点的求解方法如下：

S21，以barcode的排名为X轴，基因表达量为Y轴绘制散点图；

3.根据权利要求2所述的一种单细胞转录组数据可用性分析方法，其特征在于，在S21绘制散点图之前，对barcode的排名和基因表达量先进行对数处理。

4.根据权利要求1所述的一种单细胞转录组数据可用性分析方法，其特征在于，所述细胞区、空液滴区和磁珠区的分类方法如下：

5.根据权利要求1所述的一种单细胞转录组数据可用性分析方法，其特征在于，当样本数据不可用时，进一步判断样本数据不可用的原因：

当细胞区的barcode数量大于K5，且细胞的平均read数少于K6，判定样本数据不可用，原因是实验细胞数量过多。

6.根据权利要求5所述的一种单细胞转录组数据可用性分析方法，其特征在于，所述S7后还包括S8，针对数据可用性情况作出相应处理方法：

若样本数据可用，则正常进行后续数据分析；

7.根据权利要求6所述的一种单细胞转录组数据可用性分析方法，其特征在于，增加测序数据量时，补测的数据量如下：

Gb=（5×10⁴-Read_cell）×Barc_cell

其中，Gb为补测的数据量；Read_cell为细胞的平均read数，Barc_cell为细胞区的barcode数量。

8.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7任意一项所述的单细胞转录组数据可用性分析方法。

9.一种终端设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任意一项所述的单细胞转录组数据可用性分析方法。