CN114067910A

CN114067910A - 一种基于UMI-tools和Spark的单细胞上游大数据处理方法

Info

Publication number: CN114067910A
Application number: CN202111346883.8A
Authority: CN
Inventors: 俞容山; 刘钰; 高铭暄; 刘洪金
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-18

Abstract

本发明公开了一种基于UMI‑tools和Spark的单细胞上游大数据处理方法，包括如下步骤：S1、通过HadoopBAM的接口读取FASTQ R1和FASTQ R2文件，并分别抽象为FASTQ R1数据集和FASTQ R2数据集；S2、从FASTQ R2数据集筛选出待处理的FASTQ数据集；S3、利用软件STAR将待处理的FASTQ数据集转化为SAM数据集；S4、读取GTF数据集和SAM数据集，分别根据各自记录中的染色体名进行聚合分组，得到GTF数据集组和SAM数据集组；S5、将GTF数据集组和SAM数据集组中具有相同染色体名的SAM记录和GTF记录进行拼接，并计数；S6、将计数的结果保存为结果文件。本发明大大减少了不必要的中间读写过程，提高数据处理的效率。

Description

一种基于UMI-tools和Spark的单细胞上游大数据处理方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于UMI-tools和Spark的单细胞上游大数据处理方法。

背景技术

目前使用最广泛的三种基于液滴的协议(Drop-seq、inDrop和10XChromium)均是利用对细胞条形码和独特分子标识符这两个生物信息进行特定的处理以完成定量估计，其仅通过一次实验就能对大量的细胞进行测序，并产生大量的原始FASTQ数据，而FASTQ数据文件是整个数据处理流程的起点。

对于高通量单细胞RNA测序(scRNA-seq)数据来说，在分析scRNA-seq数据前，需要先将原始的FASTQ类型的测序文件转化成可读的数据，也就是将原始FASTQ数据整理成基因表达矩阵以供下游分析，该过程包括条形码处理、序列质量控制、基因组比对和转录本量化。当前，研究者们已经开发了一些可以在单机环境下运行的软件工具包来完成从原始FASTQ数据到基因表达矩阵的处理，例如，UMI-tools、CellRanger以及STARsolo是目前最常使用的三个单细胞上游数据分析处理工具，但这三个工具都存在以下问题：1、仅能运行在单机环境上、并行度低、可拓展性差；2、子步骤存在大量冗余的中间文件读写，耗费了大量的计算资源，拖慢数据处理效率。

发明内容

为解决上述问题，本发明提供了一种基于UMI-tools和Spark的单细胞上游大数据处理方法。

本发明采用以下技术方案：

一种基于UMI-tools和Spark的单细胞上游大数据处理方法，包括如下步骤：

S1、通过HadoopBAM的接口读取FASTQ R1和FASTQ R2文件，并分别抽象为FASTQ R1数据集和FASTQ R2数据集；

S2、从所述FASTQ R2数据集筛选出待处理的FASTQ数据集；

S3、利用软件STAR将所述待处理的FASTQ数据集转化为SAM数据集；

S4、读取GTF数据集和所述SAM数据集，分别根据各自记录中的染色体名进行聚合分组，得到GTF数据集组和SAM数据集组；

S5、将所述GTF数据集组和SAM数据集组中具有相同染色体名的SAM记录和GTF记录进行拼接，并计数；

S6、将计数的结果保存为结果文件。

进一步地，所述步骤S2中的从所述FASTQ R2数据集筛选出待处理的FASTQ数据集，具体为：

S21、根据所述FASTQ R1数据集中出现频率最高的UMI构造出白名单数据集(WHITELIST RDD)；

S22、分别压缩所述FASTQ R1数据集和FASTQ R2数据集得到索引好的R1数据集和索引好的R2数据集；

S23、对照所述白名单数据集，将所述FASTQ R1数据集的UMI未出现在所述白名单数据集的对应的所述索引好的R1数据集删除，得到过滤后的R1数据集；

S24、通过所述过滤后的R1数据集从所述索引好的R2数据集筛选出过滤后的R2数据集作为待处理的FASTQ数据集。

进一步地，步骤S3中所述软件STAR是利用map函数和Java本地接口直接获取并转化所述待处理的FASTQ数据集。

进一步地，所述数据集均为弹性分布式数据集。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、传统的流程是先将FASTQ文件写入磁盘，软件STAR再从磁盘上读取FASTQ文件并进行处理，得到的是SAM文件；而本发明是先把FASTQ文件抽象为FASTQ数据集，然后利用Spark自带的map函数和Java的本地接口将FASTQ数据集直接传输给软件STAR处理以得到SAM数据集；即本发明将原本STAR的中间结果SAM文件直接抽象为SAM数据集，大大减少了不必要的中间读写过程，提高数据处理的效率；

2、Spark是大规模数据处理的分析引擎，具有高效性、易用性、通用性和兼容性的优点，本发明利用Spark固有的可扩展性，通过自带的函数将原本仅能在单机单线程运行的计数处理流程转变成可以在集群的多台机器上并行处理的流程，实现多个计算机节点的同时进行数据处理，显著提高了数据处理速度，在相同的CPU内核消耗下实现了5-20倍左右的速度提升；

3、本发明的发明可以处理在分布式文件系统上的FASTQ文件。

附图说明

图1为本发明的方法步骤S2的流程示意图；

图2为传统流程与本发明方法的对比图；

图3为本发明的步骤S4、S5、S6的流程示意图；

图4为UMI-tools和本发明的scSpark的相关性图；

图5为不同工具在不同数据集上的运行时间对比结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

S2、从所述FASTQ R2数据集筛选出待处理的FASTQ数据集；

如图1所示，所述步骤S2中的从所述FASTQ R2数据集筛选出待处理的FASTQ数据集，具体为：

如图2所示，传统的流程是先将FASTQ文件写入磁盘，软件STAR再从磁盘上读取FASTQ文件并进行处理，得到的是SAM文件；而本发明的方法(简称scSpark)是先把FASTQ文件抽象为FASTQ数据集，然后利用Spark自带的map函数和Java的本地接口将FASTQ数据集直接传输给软件STAR处理以得到SAM数据集；即本发明将原本STAR的中间结果SAM文件直接抽象为SAM数据集，大大减少了不必要的中间读写过程，提高数据处理的效率。

步骤S3中所述软件STAR是利用map函数和Java本地接口(Java NativeInterface)直接获取并转化所述待处理的FASTQ数据集。

S4、读取GTF数据集和所述SAM数据集，分别根据各自记录中的染色体名进行聚合分组，得到GTF数据集组和SAM数据集组；所述SAM数据也可以是BAM数据集，其最终得到的是BAM数据集组；

S6、将计数的结果保存为结果文件。

所述数据集均为弹性分布式数据集。

Spark是大规模数据处理的分析引擎，具有高效性、易用性、通用性和兼容性的优点，本发明利用Spark固有的可扩展性，通过自带的函数将原本仅能在单机单线程运行的计数处理流程转变成可以在集群的多台机器上并行处理的流程，实现多个计算机节点的同时进行数据处理，显著提高了数据处理速度，在相同的CPU内核消耗下实现了5-20倍左右的速度提升。

本实施例在性能和可拓展性方面都有极大的提升。通过比较scSpark(即本实施例的流程)和传统流程(UMI_tools、CellRanger、STARsolo)表现，如图3所示，我们发现在运行速度方面，在scSpark集群总CPU和传统流程占用的CPU数目相同的情况下，本实施例的scSpark所需要的处理事件远远小于传统流程，scSpark的运行速度能达到传统流程的5-20倍，并且scSpark继承了Spark自带的可拓展性。

如图4所示，我们还发现UMI-tools和scSpark的结果相关性高；CPU数目的提升对传统流程的性能的提升会迅速收敛，但是对于scSpark，它的性能可以取得接近线性的提升，同时我们发现，由于修改了文件读写的接口，在没有修改处理逻辑的align这一步，scSpark也能取得更高的性能和更好的可拓展性。

如图5所示，通过与UMI-tools的结果进行比较，我们可以发现scSpark生成的结果是正确的。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于UMI-tools和Spark的单细胞上游大数据处理方法，其特征在于：包括如下步骤：

S2、从所述FASTQ R2数据集筛选出待处理的FASTQ数据集；

S6、将计数的结果保存为结果文件。

2.如权利要求1所述的一种基于UMI-tools和Spark的单细胞上游大数据处理方法，其特征在于：所述步骤S2中的从所述FASTQ R2数据集筛选出待处理的FASTQ数据集，具体为：

S21、根据所述FASTQ R1数据集中出现频率最高的UMI构造出白名单数据集(WHITELISTRDD)；

3.如权利要求2所述的一种基于UMI-tools和Spark的单细胞上游大数据处理方法，其特征在于：步骤S3中所述软件STAR是利用map函数和Java本地接口直接获取并转化所述待处理的FASTQ数据集。

4.如权利要求1-3任一项所述的一种基于UMI-tools和Spark的单细胞上游大数据处理方法，其特征在于：所述数据集均为弹性分布式数据集。