CN112309500A - 一种基于单细胞测序数据唯一片段序列捕获方法 - Google Patents

一种基于单细胞测序数据唯一片段序列捕获方法 Download PDF

Info

Publication number
CN112309500A
CN112309500A CN202011200039.XA CN202011200039A CN112309500A CN 112309500 A CN112309500 A CN 112309500A CN 202011200039 A CN202011200039 A CN 202011200039A CN 112309500 A CN112309500 A CN 112309500A
Authority
CN
China
Prior art keywords
single cell
sequence
cell sequencing
sequencing data
unique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011200039.XA
Other languages
English (en)
Other versions
CN112309500B (zh
Inventor
潘星华
林贯川
黄仲曦
章建平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Sequmed Biotechnology Inc
Southern Medical University
Original Assignee
Guangzhou Sequmed Biotechnology Inc
Southern Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Sequmed Biotechnology Inc, Southern Medical University filed Critical Guangzhou Sequmed Biotechnology Inc
Priority to CN202011200039.XA priority Critical patent/CN112309500B/zh
Publication of CN112309500A publication Critical patent/CN112309500A/zh
Application granted granted Critical
Publication of CN112309500B publication Critical patent/CN112309500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • G06F8/315Object-oriented languages
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,包括以下步骤:基于单细胞测序文库中的DNA片段,以DNA片段上前10bp‑20bp碱基作为识别序列,对含有相同所述识别序列的DNA片段进行归类,通过计算机软件将同类型的DNA片段生成一个数据集,从该数据集获得用于分析单细胞全基因组唯一序列。本发明使用生物信息学手段进行数据识别,使得在基因组建库过程中无需设计和通过实验插入含有UMI的固有接头序列,简化了单细胞测序过程,并缩短了时间和降低因接头序列过长所导致的引物二聚体形成的发生概率。本方法在测序数据分析之前即可去除重复的序列,对于拷贝数变异分析而言,无其它相同的序列混杂,只剩下唯一的序列片段,即可更忠实的反应基因组的情况。

Description

一种基于单细胞测序数据唯一片段序列捕获方法
技术领域
本技术方法涉及二代测序中单细胞测序领域,具体涉及一种基于单细胞测序数据唯一片段序列捕获方法。
背景技术
二代测序正快速发展,测序价格越来越经济实惠,但群体细胞中无法解释的细胞间异质性问题突出。为解决这一问题,单细胞测序技术应运而生。必须在研究肿瘤等多种疾病的机制,单细胞全转录组测序技术中独辟蹊径,建库技术采用了单一分子识别标签序列(UMI),使得分析后保证在转录组建库后的每一条mRNA分子都是可识别的唯一序列。但一般的单细胞全基因组测序建库技术要经历预扩增、片段化、末端补平、加接头、扩增成库等一系列步骤,总体耗时长,效率低,费用高。虽然现今有转座酶的介入后,建库效率虽然提高,但是扩增成库需要经过聚合酶链式反应(PCR)是不变的,而过程中并没有增加单一分子识别标签序列,兼之在建库过程中由于片段化后长短不一和不同的GC含量会导致PCR偏好性。重要的是,因为单细胞全基因组建库目的是为了分析拷贝数变异和单核苷酸变异,所以在扩增后存在PCR偏好性会导致单一分子无法忠实的反映原基因组的拷贝数变异,致使测序结果在拷贝数分析中偏差值高而最终使得测序分析结果可信度大大降低。
发明内容
为了解决上述技术问题,本发明提出一种单细胞测序数据处理方法,包括:使用两种编程语言-R语言和python,以PCR建库方法扩增出来的片段的前10-20bp作为特异性分子识别标签序列(UMI),在二代测序全基因组建库过程中,捕获唯一片段。让随后的CNV和SNP分析中能忠实的反应基因组的信息。
为实现上述目的,本发明采取的技术方案为:
一种基于单细胞测序数据捕获唯一片段序列的方法,包括以下步骤:基于单细胞测序文库中的DNA片段,以DNA片段上前10bp-20bp碱基作为识别序列,对含有相同所述识别序列的DNA片段进行归类,通过计算机软件将同类型的DNA片段生成一个数据集,从该数据集获得用于分析单细胞全基因组唯一序列。
进一步地,所述识别序列通过使用计算机程序获得,将编写的代码输入即可获得识别序列。
进一步地,所述计算机程序包括python程序或R语言程序,其中python程序的代码具体如下:
python程序的代码具体如下:
Figure BDA0002755146760000021
R语言程序的代码具体如下:
Figure BDA0002755146760000031
Figure BDA0002755146760000041
本发明的有益效果:本发明的一种基于单细胞测序数据捕获唯一片段序列的方法,能准确、高效、简便地处理单细胞测序数据。通过R和python编程语言设计的代码获得长度为10-20bp的识别序列,对于单细胞基因组建库后100-150bp的短片段序列具有足够的特异性。
本方法在测序数据分析之前即可去除重复的序列,对于拷贝数变异分析而言,无其它相同的序列混杂,只剩下唯一的序列片段,即可更忠实的反应基因组的情况。区别于转录组学的UMI序列,本发明使用生物信息学手段进行数据识别,使得在基因组建库过程中无需设计和通过实验插入含有UMI的固有接头序列,按照转录组学所设计的UMI第一需要在测序文库制备时的接头引物上做文章,使得增加了合成的费用及增加文库构建的步骤。用本方法简化了单细胞测序过程,并缩短了时间和降低因接头序列过长所导致的引物二聚体形成的发生概率,而且不需要在测序文库制备上浪费更多的时间,只需要按照本程序代码在计算机上运行即可获得唯一的序列,视乎数据的大小和计算机的运算能力,只需要2min-30min即可,因此高效;且能匹配现有平台和编程语言,直接进行对单细胞基因组测序数据的唯一片段捕获,无需再编写特定算法和程序,方便快捷。最终能够解决现有的经过聚合酶链式反应后导致的偏差问题,无需在建库过程中插入含有特定分子标签序列的接头。最终测序结果可以忠实的反映单细胞拷贝数变异。
附图说明
图1为本发明基于单细胞测序数据捕获唯一片段序列的方法实施流程图
图2为K562单细胞拷贝数变异图。
图3为K562单细胞基因组GC含量均一度示意图。
图4为K562单细胞基因组覆盖度示意图。
图5为K562单细胞测序数据偏差值优化示意图。
图6是本发明基于单细胞测序数据捕获唯一片段序列的方法的发明构思示意图。
具体实施方式
为了更加简洁明了的展示本发明的技术方案、目的和优点,下面结合具体实施例及其附图对本发明做进一步的详细描述。
实施例1
本实施例提供一种基于单细胞测序数据捕获唯一片段序列的方法,具体采用以下方法:
以K562细胞系的单细胞构建的文库DNA片段为例,将文库DNA片段置于测序仪器中,在计算机中使用python程序编写的代码识别建库DNA片段的前10-20bp作为特异识别序列,将其运用到单细胞基因组测序数据中。本实例适用于windows和linux等操作系统,在python编程界面下可对单细胞测序数据进行检索统计,根据具体的需求还能进行特异分子序列碱基数的调节。当发现有重复的片段序列,可以抽提出单一序列,并重新生成满足后期分析需求的矩阵文件,提高分析的可靠性。
本实施例中python程序编写的代码,如下:
Figure BDA0002755146760000061
实施例2
本实施例提供一种基于单细胞测序数据捕获唯一片段序列的方法,具体采用以下方法:
以K562细胞系的单细胞构建的文库DNA片段为例,将文库DNA片段置于测序仪器中,在计算机中使用R语言程序编写的代码识别建库DNA片段的前10bp作为特异识别序列,将其运用到单细胞基因组测序数据中。本实例适用于windows和linux等操作系统,在R语言编程界面下可对单细胞测序数据进行检索统计,根据具体的插入片段的长短还可以进行特异分子序列碱基数的调节。出现符合条件的重复的片段序列,可以抽提出单一序列,并重新生成满足后期分析需求的矩阵文件,提高分析的可靠性。
本实施例中R语言程序编写的代码,如下:
Figure BDA0002755146760000081
Figure BDA0002755146760000091
上述实施例1、2的方法实施后进行K562细胞系的单细胞基因组数据分析,通过使用单细胞拷贝数变异线上分析软件Ginkgo(http://qb.cshl.edu/ginkgo/)进行可视化分析,并对比这一批数据在唯一序列捕获前和捕获后的效果。
结果图2~5所示:由图2可以看出,以一个单细胞拷贝数变异图为例,在捕获前得出得点在图上零散分布,并不能形成真正的片段图,因此无法反映细胞的拷贝数变异情况,而捕获后可见数据形成可视化图形中的散点比之前较集中,而且已经能形成反映真实细胞拷贝数变异情况的分析图。
图3可以看出,在唯一序列捕获前,这批数据的样本(n=11),在每一条线的距离更小而且更水平,在建库质控上更符合分析标准,过滤重复序列后文库的质量有所上升。
图4可以看出,在去除重复序列的影响下,可见每个样品的曲线均接近对角线,证明覆盖度匹配上有所提升。
图5可以看出,获得唯一序列后再进行分析,盒图的上限和下限距离变小,面积也变小,证明其偏差值明显变小,说明样品之间的差异性缩小,该方法可适用于排除由于文库构建过程中所产生的偏差值。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,包括以下步骤:基于单细胞测序文库中的DNA片段,以DNA片段上前10bp-20bp碱基作为识别序列,对含有相同所述识别序列的DNA片段进行归类,通过计算机软件将同类型的DNA片段生成一个数据集,从该数据集获得用于分析单细胞全基因组唯一序列。
2.如权利要求1所述的基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,所述识别序列通过使用计算机程序获得,将编写的代码输入即可获得识别序列。
3.如权利要求1所述的基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,所述计算机程序包括python程序或R语言程序。
4.如权利要求3所述的基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,所述python程序的代码具体如下:
Figure FDA0002755146750000011
5.如权利要求3所述的基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,所述R语言程序的代码具体如下:
Figure FDA0002755146750000021
Figure FDA0002755146750000031
6.如权利要求1~5所述的基于单细胞测序数据捕获唯一片段序列的方法在单细胞测序数据处理中的应用。
CN202011200039.XA 2020-10-30 2020-10-30 一种基于单细胞测序数据唯一片段序列捕获方法 Active CN112309500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011200039.XA CN112309500B (zh) 2020-10-30 2020-10-30 一种基于单细胞测序数据唯一片段序列捕获方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011200039.XA CN112309500B (zh) 2020-10-30 2020-10-30 一种基于单细胞测序数据唯一片段序列捕获方法

Publications (2)

Publication Number Publication Date
CN112309500A true CN112309500A (zh) 2021-02-02
CN112309500B CN112309500B (zh) 2024-08-30

Family

ID=74332481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011200039.XA Active CN112309500B (zh) 2020-10-30 2020-10-30 一种基于单细胞测序数据唯一片段序列捕获方法

Country Status (1)

Country Link
CN (1) CN112309500B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105296466A (zh) * 2015-03-27 2016-02-03 苏州贝康医疗器械有限公司 一种单细胞全基因组扩增方法
CN105602939A (zh) * 2015-09-02 2016-05-25 序康医疗科技(苏州)有限公司 扩增dna的方法
US20170152548A1 (en) * 2015-09-08 2017-06-01 Cold Spring Harbor Laboratory Genetic Copy Number Determination Using High Throughput Multiplex Sequencing Of Smashed Nucleotides
CN108350497A (zh) * 2015-08-28 2018-07-31 Illumina公司 单细胞核酸序列分析
CN109658981A (zh) * 2018-12-10 2019-04-19 海南大学 一种单细胞测序的数据分类方法
CN109983126A (zh) * 2016-10-19 2019-07-05 10X基因组学有限公司 用于条形码化单个细胞或细胞群的核酸分子的方法和系统
CN110268059A (zh) * 2016-07-22 2019-09-20 俄勒冈健康与科学大学 单细胞全基因组文库及制备其的组合索引方法
CN110684829A (zh) * 2018-07-05 2020-01-14 深圳华大智造科技有限公司 一种高通量的单细胞转录组测序方法和试剂盒
CN111201329A (zh) * 2018-05-17 2020-05-26 伊鲁米纳公司 具有减少的扩增偏倚的高通量单细胞测序

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105296466A (zh) * 2015-03-27 2016-02-03 苏州贝康医疗器械有限公司 一种单细胞全基因组扩增方法
CN108350497A (zh) * 2015-08-28 2018-07-31 Illumina公司 单细胞核酸序列分析
CN105602939A (zh) * 2015-09-02 2016-05-25 序康医疗科技(苏州)有限公司 扩增dna的方法
US20170152548A1 (en) * 2015-09-08 2017-06-01 Cold Spring Harbor Laboratory Genetic Copy Number Determination Using High Throughput Multiplex Sequencing Of Smashed Nucleotides
CN110268059A (zh) * 2016-07-22 2019-09-20 俄勒冈健康与科学大学 单细胞全基因组文库及制备其的组合索引方法
CN109983126A (zh) * 2016-10-19 2019-07-05 10X基因组学有限公司 用于条形码化单个细胞或细胞群的核酸分子的方法和系统
CN111201329A (zh) * 2018-05-17 2020-05-26 伊鲁米纳公司 具有减少的扩增偏倚的高通量单细胞测序
CN110684829A (zh) * 2018-07-05 2020-01-14 深圳华大智造科技有限公司 一种高通量的单细胞转录组测序方法和试剂盒
CN109658981A (zh) * 2018-12-10 2019-04-19 海南大学 一种单细胞测序的数据分类方法

Also Published As

Publication number Publication date
CN112309500B (zh) 2024-08-30

Similar Documents

Publication Publication Date Title
US20220093207A1 (en) Genetic Copy Number Alteration Classifications
CN117012283A (zh) 无细胞dna分析中基因融合检测的方法和应用
US20190233883A1 (en) Methods and compositions for analyzing nucleic acid
Coleman et al. Structural annotation of equine protein‐coding genes determined by mRNA sequencing
WO2009085473A4 (en) Genome identification system
CN113571131B (zh) 一种泛基因组的构建方法及其相应的结构变异挖掘方法
Malhis et al. Slider—maximum use of probability information for alignment of short sequence reads and SNP detection
CN114708910B (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN107506614B (zh) 一种细菌ncRNA预测方法
CN110556162A (zh) 一种基于翻译组的环状rna翻译多肽的检测分析方法
CN107563148B (zh) 一种基于离子索引的整体蛋白质鉴定方法与系统
CN112309500A (zh) 一种基于单细胞测序数据唯一片段序列捕获方法
CN112750501A (zh) 一种宏病毒组流程的优化分析方法
CN116230083A (zh) 5′utr序列可变剪切分析方法、装置、设备及介质
CN114334006B (zh) 过滤酶切建库方式引入噪音的方法和装置
KR20210040714A (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
Fleming et al. Advantages and challenges associated with bisulfite-assisted nanopore direct RNA sequencing for modifications
CN114783518A (zh) 基因编辑结果的预测方法、装置、电子设备、程序及介质
Mulroney et al. Using Nanocompore to Identify RNA Modifications from Direct RNA Nanopore Sequencing Data
Poinsignon et al. Working with Omics Data: An Interdisciplinary Challenge at the Crossroads of Biology and Computer Science
CN115019893A (zh) 一种基于双向长短时记忆和注意机制的增强子识别方法
Nakazato Current situation of DNA Barcoding data in biodiversity and genomics databases and data integration for museomics
CN111599410B (zh) 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用
CN113793641B (zh) 一种从fastq文件中快速判断样本性别的方法
US20240150825A1 (en) Methods and compositions for analyzing nucleic acid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant