CN112309500A

CN112309500A - 一种基于单细胞测序数据唯一片段序列捕获方法

Info

Publication number: CN112309500A
Application number: CN202011200039.XA
Authority: CN
Inventors: 潘星华; 林贯川; 黄仲曦; 章建平
Original assignee: Guangzhou Sequmed Biotechnology Inc; Southern Medical University
Current assignee: Guangzhou Sequmed Biotechnology Inc; Southern Medical University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-02-02
Anticipated expiration: 2040-10-30
Also published as: CN112309500B

Abstract

本发明提供了一种基于单细胞测序数据捕获唯一片段序列的方法，其特征在于，包括以下步骤：基于单细胞测序文库中的DNA片段，以DNA片段上前10bp‑20bp碱基作为识别序列，对含有相同所述识别序列的DNA片段进行归类，通过计算机软件将同类型的DNA片段生成一个数据集，从该数据集获得用于分析单细胞全基因组唯一序列。本发明使用生物信息学手段进行数据识别，使得在基因组建库过程中无需设计和通过实验插入含有UMI的固有接头序列，简化了单细胞测序过程，并缩短了时间和降低因接头序列过长所导致的引物二聚体形成的发生概率。本方法在测序数据分析之前即可去除重复的序列，对于拷贝数变异分析而言，无其它相同的序列混杂，只剩下唯一的序列片段，即可更忠实的反应基因组的情况。

Description

一种基于单细胞测序数据唯一片段序列捕获方法

技术领域

本技术方法涉及二代测序中单细胞测序领域，具体涉及一种基于单细胞测序数据唯一片段序列捕获方法。

背景技术

二代测序正快速发展，测序价格越来越经济实惠，但群体细胞中无法解释的细胞间异质性问题突出。为解决这一问题，单细胞测序技术应运而生。必须在研究肿瘤等多种疾病的机制，单细胞全转录组测序技术中独辟蹊径，建库技术采用了单一分子识别标签序列(UMI)，使得分析后保证在转录组建库后的每一条mRNA分子都是可识别的唯一序列。但一般的单细胞全基因组测序建库技术要经历预扩增、片段化、末端补平、加接头、扩增成库等一系列步骤，总体耗时长，效率低，费用高。虽然现今有转座酶的介入后，建库效率虽然提高，但是扩增成库需要经过聚合酶链式反应(PCR)是不变的，而过程中并没有增加单一分子识别标签序列，兼之在建库过程中由于片段化后长短不一和不同的GC含量会导致PCR偏好性。重要的是，因为单细胞全基因组建库目的是为了分析拷贝数变异和单核苷酸变异，所以在扩增后存在PCR偏好性会导致单一分子无法忠实的反映原基因组的拷贝数变异，致使测序结果在拷贝数分析中偏差值高而最终使得测序分析结果可信度大大降低。

发明内容

为了解决上述技术问题，本发明提出一种单细胞测序数据处理方法，包括：使用两种编程语言-R语言和python，以PCR建库方法扩增出来的片段的前10-20bp作为特异性分子识别标签序列(UMI)，在二代测序全基因组建库过程中，捕获唯一片段。让随后的CNV和SNP分析中能忠实的反应基因组的信息。

为实现上述目的，本发明采取的技术方案为：

一种基于单细胞测序数据捕获唯一片段序列的方法，包括以下步骤：基于单细胞测序文库中的DNA片段，以DNA片段上前10bp-20bp碱基作为识别序列，对含有相同所述识别序列的DNA片段进行归类，通过计算机软件将同类型的DNA片段生成一个数据集，从该数据集获得用于分析单细胞全基因组唯一序列。

进一步地，所述识别序列通过使用计算机程序获得，将编写的代码输入即可获得识别序列。

进一步地，所述计算机程序包括python程序或R语言程序，其中python程序的代码具体如下：

python程序的代码具体如下：

R语言程序的代码具体如下：

本发明的有益效果：本发明的一种基于单细胞测序数据捕获唯一片段序列的方法，能准确、高效、简便地处理单细胞测序数据。通过R和python编程语言设计的代码获得长度为10-20bp的识别序列，对于单细胞基因组建库后100-150bp的短片段序列具有足够的特异性。

本方法在测序数据分析之前即可去除重复的序列，对于拷贝数变异分析而言，无其它相同的序列混杂，只剩下唯一的序列片段，即可更忠实的反应基因组的情况。区别于转录组学的UMI序列，本发明使用生物信息学手段进行数据识别，使得在基因组建库过程中无需设计和通过实验插入含有UMI的固有接头序列，按照转录组学所设计的UMI第一需要在测序文库制备时的接头引物上做文章，使得增加了合成的费用及增加文库构建的步骤。用本方法简化了单细胞测序过程，并缩短了时间和降低因接头序列过长所导致的引物二聚体形成的发生概率，而且不需要在测序文库制备上浪费更多的时间，只需要按照本程序代码在计算机上运行即可获得唯一的序列，视乎数据的大小和计算机的运算能力，只需要2min-30min即可，因此高效；且能匹配现有平台和编程语言，直接进行对单细胞基因组测序数据的唯一片段捕获，无需再编写特定算法和程序，方便快捷。最终能够解决现有的经过聚合酶链式反应后导致的偏差问题，无需在建库过程中插入含有特定分子标签序列的接头。最终测序结果可以忠实的反映单细胞拷贝数变异。

附图说明

图1为本发明基于单细胞测序数据捕获唯一片段序列的方法实施流程图

图2为K562单细胞拷贝数变异图。

图3为K562单细胞基因组GC含量均一度示意图。

图4为K562单细胞基因组覆盖度示意图。

图5为K562单细胞测序数据偏差值优化示意图。

图6是本发明基于单细胞测序数据捕获唯一片段序列的方法的发明构思示意图。

具体实施方式

为了更加简洁明了的展示本发明的技术方案、目的和优点，下面结合具体实施例及其附图对本发明做进一步的详细描述。

实施例1

本实施例提供一种基于单细胞测序数据捕获唯一片段序列的方法，具体采用以下方法：

以K562细胞系的单细胞构建的文库DNA片段为例，将文库DNA片段置于测序仪器中，在计算机中使用python程序编写的代码识别建库DNA片段的前10-20bp作为特异识别序列，将其运用到单细胞基因组测序数据中。本实例适用于windows和linux等操作系统，在python编程界面下可对单细胞测序数据进行检索统计，根据具体的需求还能进行特异分子序列碱基数的调节。当发现有重复的片段序列，可以抽提出单一序列，并重新生成满足后期分析需求的矩阵文件，提高分析的可靠性。

本实施例中python程序编写的代码，如下：

实施例2

以K562细胞系的单细胞构建的文库DNA片段为例，将文库DNA片段置于测序仪器中，在计算机中使用R语言程序编写的代码识别建库DNA片段的前10bp作为特异识别序列，将其运用到单细胞基因组测序数据中。本实例适用于windows和linux等操作系统，在R语言编程界面下可对单细胞测序数据进行检索统计，根据具体的插入片段的长短还可以进行特异分子序列碱基数的调节。出现符合条件的重复的片段序列，可以抽提出单一序列，并重新生成满足后期分析需求的矩阵文件，提高分析的可靠性。

本实施例中R语言程序编写的代码，如下：

上述实施例1、2的方法实施后进行K562细胞系的单细胞基因组数据分析，通过使用单细胞拷贝数变异线上分析软件Ginkgo(http://qb.cshl.edu/ginkgo/)进行可视化分析，并对比这一批数据在唯一序列捕获前和捕获后的效果。

结果图2～5所示：由图2可以看出，以一个单细胞拷贝数变异图为例，在捕获前得出得点在图上零散分布，并不能形成真正的片段图，因此无法反映细胞的拷贝数变异情况，而捕获后可见数据形成可视化图形中的散点比之前较集中，而且已经能形成反映真实细胞拷贝数变异情况的分析图。

图3可以看出，在唯一序列捕获前，这批数据的样本(n＝11)，在每一条线的距离更小而且更水平，在建库质控上更符合分析标准，过滤重复序列后文库的质量有所上升。

图4可以看出，在去除重复序列的影响下，可见每个样品的曲线均接近对角线，证明覆盖度匹配上有所提升。

图5可以看出，获得唯一序列后再进行分析，盒图的上限和下限距离变小，面积也变小，证明其偏差值明显变小，说明样品之间的差异性缩小，该方法可适用于排除由于文库构建过程中所产生的偏差值。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于单细胞测序数据捕获唯一片段序列的方法，其特征在于，包括以下步骤：基于单细胞测序文库中的DNA片段，以DNA片段上前10bp-20bp碱基作为识别序列，对含有相同所述识别序列的DNA片段进行归类，通过计算机软件将同类型的DNA片段生成一个数据集，从该数据集获得用于分析单细胞全基因组唯一序列。

2.如权利要求1所述的基于单细胞测序数据捕获唯一片段序列的方法，其特征在于，所述识别序列通过使用计算机程序获得，将编写的代码输入即可获得识别序列。

3.如权利要求1所述的基于单细胞测序数据捕获唯一片段序列的方法，其特征在于，所述计算机程序包括python程序或R语言程序。

4.如权利要求3所述的基于单细胞测序数据捕获唯一片段序列的方法，其特征在于，所述python程序的代码具体如下：

5.如权利要求3所述的基于单细胞测序数据捕获唯一片段序列的方法，其特征在于，所述R语言程序的代码具体如下：

6.如权利要求1～5所述的基于单细胞测序数据捕获唯一片段序列的方法在单细胞测序数据处理中的应用。