CN112309500A - 一种基于单细胞测序数据唯一片段序列捕获方法 - Google Patents
一种基于单细胞测序数据唯一片段序列捕获方法 Download PDFInfo
- Publication number
- CN112309500A CN112309500A CN202011200039.XA CN202011200039A CN112309500A CN 112309500 A CN112309500 A CN 112309500A CN 202011200039 A CN202011200039 A CN 202011200039A CN 112309500 A CN112309500 A CN 112309500A
- Authority
- CN
- China
- Prior art keywords
- single cell
- sequence
- cell sequencing
- sequencing data
- unique
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000012634 fragment Substances 0.000 title claims abstract description 43
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 4
- 108020004414 DNA Proteins 0.000 abstract description 14
- 238000004458 analytical method Methods 0.000 abstract description 14
- 108091081062 Repeated sequence (DNA) Proteins 0.000 abstract description 3
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 108090000623 proteins and genes Proteins 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 239000000539 dimer Substances 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 abstract description 2
- 239000000203 mixture Substances 0.000 abstract description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 7
- 230000003321 amplification Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 238000012268 genome sequencing Methods 0.000 description 3
- 235000011201 Ginkgo Nutrition 0.000 description 2
- 235000008100 Ginkgo biloba Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 241000218628 Ginkgo Species 0.000 description 1
- 102000008579 Transposases Human genes 0.000 description 1
- 108010020764 Transposases Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/31—Programming languages or programming paradigms
- G06F8/315—Object-oriented languages
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,包括以下步骤:基于单细胞测序文库中的DNA片段,以DNA片段上前10bp‑20bp碱基作为识别序列,对含有相同所述识别序列的DNA片段进行归类,通过计算机软件将同类型的DNA片段生成一个数据集,从该数据集获得用于分析单细胞全基因组唯一序列。本发明使用生物信息学手段进行数据识别,使得在基因组建库过程中无需设计和通过实验插入含有UMI的固有接头序列,简化了单细胞测序过程,并缩短了时间和降低因接头序列过长所导致的引物二聚体形成的发生概率。本方法在测序数据分析之前即可去除重复的序列,对于拷贝数变异分析而言,无其它相同的序列混杂,只剩下唯一的序列片段,即可更忠实的反应基因组的情况。
Description
技术领域
本技术方法涉及二代测序中单细胞测序领域,具体涉及一种基于单细胞测序数据唯一片段序列捕获方法。
背景技术
二代测序正快速发展,测序价格越来越经济实惠,但群体细胞中无法解释的细胞间异质性问题突出。为解决这一问题,单细胞测序技术应运而生。必须在研究肿瘤等多种疾病的机制,单细胞全转录组测序技术中独辟蹊径,建库技术采用了单一分子识别标签序列(UMI),使得分析后保证在转录组建库后的每一条mRNA分子都是可识别的唯一序列。但一般的单细胞全基因组测序建库技术要经历预扩增、片段化、末端补平、加接头、扩增成库等一系列步骤,总体耗时长,效率低,费用高。虽然现今有转座酶的介入后,建库效率虽然提高,但是扩增成库需要经过聚合酶链式反应(PCR)是不变的,而过程中并没有增加单一分子识别标签序列,兼之在建库过程中由于片段化后长短不一和不同的GC含量会导致PCR偏好性。重要的是,因为单细胞全基因组建库目的是为了分析拷贝数变异和单核苷酸变异,所以在扩增后存在PCR偏好性会导致单一分子无法忠实的反映原基因组的拷贝数变异,致使测序结果在拷贝数分析中偏差值高而最终使得测序分析结果可信度大大降低。
发明内容
为了解决上述技术问题,本发明提出一种单细胞测序数据处理方法,包括:使用两种编程语言-R语言和python,以PCR建库方法扩增出来的片段的前10-20bp作为特异性分子识别标签序列(UMI),在二代测序全基因组建库过程中,捕获唯一片段。让随后的CNV和SNP分析中能忠实的反应基因组的信息。
为实现上述目的,本发明采取的技术方案为:
一种基于单细胞测序数据捕获唯一片段序列的方法,包括以下步骤:基于单细胞测序文库中的DNA片段,以DNA片段上前10bp-20bp碱基作为识别序列,对含有相同所述识别序列的DNA片段进行归类,通过计算机软件将同类型的DNA片段生成一个数据集,从该数据集获得用于分析单细胞全基因组唯一序列。
进一步地,所述识别序列通过使用计算机程序获得,将编写的代码输入即可获得识别序列。
进一步地,所述计算机程序包括python程序或R语言程序,其中python程序的代码具体如下:
python程序的代码具体如下:
R语言程序的代码具体如下:
本发明的有益效果:本发明的一种基于单细胞测序数据捕获唯一片段序列的方法,能准确、高效、简便地处理单细胞测序数据。通过R和python编程语言设计的代码获得长度为10-20bp的识别序列,对于单细胞基因组建库后100-150bp的短片段序列具有足够的特异性。
本方法在测序数据分析之前即可去除重复的序列,对于拷贝数变异分析而言,无其它相同的序列混杂,只剩下唯一的序列片段,即可更忠实的反应基因组的情况。区别于转录组学的UMI序列,本发明使用生物信息学手段进行数据识别,使得在基因组建库过程中无需设计和通过实验插入含有UMI的固有接头序列,按照转录组学所设计的UMI第一需要在测序文库制备时的接头引物上做文章,使得增加了合成的费用及增加文库构建的步骤。用本方法简化了单细胞测序过程,并缩短了时间和降低因接头序列过长所导致的引物二聚体形成的发生概率,而且不需要在测序文库制备上浪费更多的时间,只需要按照本程序代码在计算机上运行即可获得唯一的序列,视乎数据的大小和计算机的运算能力,只需要2min-30min即可,因此高效;且能匹配现有平台和编程语言,直接进行对单细胞基因组测序数据的唯一片段捕获,无需再编写特定算法和程序,方便快捷。最终能够解决现有的经过聚合酶链式反应后导致的偏差问题,无需在建库过程中插入含有特定分子标签序列的接头。最终测序结果可以忠实的反映单细胞拷贝数变异。
附图说明
图1为本发明基于单细胞测序数据捕获唯一片段序列的方法实施流程图
图2为K562单细胞拷贝数变异图。
图3为K562单细胞基因组GC含量均一度示意图。
图4为K562单细胞基因组覆盖度示意图。
图5为K562单细胞测序数据偏差值优化示意图。
图6是本发明基于单细胞测序数据捕获唯一片段序列的方法的发明构思示意图。
具体实施方式
为了更加简洁明了的展示本发明的技术方案、目的和优点,下面结合具体实施例及其附图对本发明做进一步的详细描述。
实施例1
本实施例提供一种基于单细胞测序数据捕获唯一片段序列的方法,具体采用以下方法:
以K562细胞系的单细胞构建的文库DNA片段为例,将文库DNA片段置于测序仪器中,在计算机中使用python程序编写的代码识别建库DNA片段的前10-20bp作为特异识别序列,将其运用到单细胞基因组测序数据中。本实例适用于windows和linux等操作系统,在python编程界面下可对单细胞测序数据进行检索统计,根据具体的需求还能进行特异分子序列碱基数的调节。当发现有重复的片段序列,可以抽提出单一序列,并重新生成满足后期分析需求的矩阵文件,提高分析的可靠性。
本实施例中python程序编写的代码,如下:
实施例2
本实施例提供一种基于单细胞测序数据捕获唯一片段序列的方法,具体采用以下方法:
以K562细胞系的单细胞构建的文库DNA片段为例,将文库DNA片段置于测序仪器中,在计算机中使用R语言程序编写的代码识别建库DNA片段的前10bp作为特异识别序列,将其运用到单细胞基因组测序数据中。本实例适用于windows和linux等操作系统,在R语言编程界面下可对单细胞测序数据进行检索统计,根据具体的插入片段的长短还可以进行特异分子序列碱基数的调节。出现符合条件的重复的片段序列,可以抽提出单一序列,并重新生成满足后期分析需求的矩阵文件,提高分析的可靠性。
本实施例中R语言程序编写的代码,如下:
上述实施例1、2的方法实施后进行K562细胞系的单细胞基因组数据分析,通过使用单细胞拷贝数变异线上分析软件Ginkgo(http://qb.cshl.edu/ginkgo/)进行可视化分析,并对比这一批数据在唯一序列捕获前和捕获后的效果。
结果图2~5所示:由图2可以看出,以一个单细胞拷贝数变异图为例,在捕获前得出得点在图上零散分布,并不能形成真正的片段图,因此无法反映细胞的拷贝数变异情况,而捕获后可见数据形成可视化图形中的散点比之前较集中,而且已经能形成反映真实细胞拷贝数变异情况的分析图。
图3可以看出,在唯一序列捕获前,这批数据的样本(n=11),在每一条线的距离更小而且更水平,在建库质控上更符合分析标准,过滤重复序列后文库的质量有所上升。
图4可以看出,在去除重复序列的影响下,可见每个样品的曲线均接近对角线,证明覆盖度匹配上有所提升。
图5可以看出,获得唯一序列后再进行分析,盒图的上限和下限距离变小,面积也变小,证明其偏差值明显变小,说明样品之间的差异性缩小,该方法可适用于排除由于文库构建过程中所产生的偏差值。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,包括以下步骤:基于单细胞测序文库中的DNA片段,以DNA片段上前10bp-20bp碱基作为识别序列,对含有相同所述识别序列的DNA片段进行归类,通过计算机软件将同类型的DNA片段生成一个数据集,从该数据集获得用于分析单细胞全基因组唯一序列。
2.如权利要求1所述的基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,所述识别序列通过使用计算机程序获得,将编写的代码输入即可获得识别序列。
3.如权利要求1所述的基于单细胞测序数据捕获唯一片段序列的方法,其特征在于,所述计算机程序包括python程序或R语言程序。
6.如权利要求1~5所述的基于单细胞测序数据捕获唯一片段序列的方法在单细胞测序数据处理中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200039.XA CN112309500B (zh) | 2020-10-30 | 2020-10-30 | 一种基于单细胞测序数据唯一片段序列捕获方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011200039.XA CN112309500B (zh) | 2020-10-30 | 2020-10-30 | 一种基于单细胞测序数据唯一片段序列捕获方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112309500A true CN112309500A (zh) | 2021-02-02 |
CN112309500B CN112309500B (zh) | 2024-08-30 |
Family
ID=74332481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011200039.XA Active CN112309500B (zh) | 2020-10-30 | 2020-10-30 | 一种基于单细胞测序数据唯一片段序列捕获方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112309500B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105296466A (zh) * | 2015-03-27 | 2016-02-03 | 苏州贝康医疗器械有限公司 | 一种单细胞全基因组扩增方法 |
CN105602939A (zh) * | 2015-09-02 | 2016-05-25 | 序康医疗科技(苏州)有限公司 | 扩增dna的方法 |
US20170152548A1 (en) * | 2015-09-08 | 2017-06-01 | Cold Spring Harbor Laboratory | Genetic Copy Number Determination Using High Throughput Multiplex Sequencing Of Smashed Nucleotides |
CN108350497A (zh) * | 2015-08-28 | 2018-07-31 | Illumina公司 | 单细胞核酸序列分析 |
CN109658981A (zh) * | 2018-12-10 | 2019-04-19 | 海南大学 | 一种单细胞测序的数据分类方法 |
CN109983126A (zh) * | 2016-10-19 | 2019-07-05 | 10X基因组学有限公司 | 用于条形码化单个细胞或细胞群的核酸分子的方法和系统 |
CN110268059A (zh) * | 2016-07-22 | 2019-09-20 | 俄勒冈健康与科学大学 | 单细胞全基因组文库及制备其的组合索引方法 |
CN110684829A (zh) * | 2018-07-05 | 2020-01-14 | 深圳华大智造科技有限公司 | 一种高通量的单细胞转录组测序方法和试剂盒 |
CN111201329A (zh) * | 2018-05-17 | 2020-05-26 | 伊鲁米纳公司 | 具有减少的扩增偏倚的高通量单细胞测序 |
-
2020
- 2020-10-30 CN CN202011200039.XA patent/CN112309500B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105296466A (zh) * | 2015-03-27 | 2016-02-03 | 苏州贝康医疗器械有限公司 | 一种单细胞全基因组扩增方法 |
CN108350497A (zh) * | 2015-08-28 | 2018-07-31 | Illumina公司 | 单细胞核酸序列分析 |
CN105602939A (zh) * | 2015-09-02 | 2016-05-25 | 序康医疗科技(苏州)有限公司 | 扩增dna的方法 |
US20170152548A1 (en) * | 2015-09-08 | 2017-06-01 | Cold Spring Harbor Laboratory | Genetic Copy Number Determination Using High Throughput Multiplex Sequencing Of Smashed Nucleotides |
CN110268059A (zh) * | 2016-07-22 | 2019-09-20 | 俄勒冈健康与科学大学 | 单细胞全基因组文库及制备其的组合索引方法 |
CN109983126A (zh) * | 2016-10-19 | 2019-07-05 | 10X基因组学有限公司 | 用于条形码化单个细胞或细胞群的核酸分子的方法和系统 |
CN111201329A (zh) * | 2018-05-17 | 2020-05-26 | 伊鲁米纳公司 | 具有减少的扩增偏倚的高通量单细胞测序 |
CN110684829A (zh) * | 2018-07-05 | 2020-01-14 | 深圳华大智造科技有限公司 | 一种高通量的单细胞转录组测序方法和试剂盒 |
CN109658981A (zh) * | 2018-12-10 | 2019-04-19 | 海南大学 | 一种单细胞测序的数据分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112309500B (zh) | 2024-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220093207A1 (en) | Genetic Copy Number Alteration Classifications | |
CN117012283A (zh) | 无细胞dna分析中基因融合检测的方法和应用 | |
US20190233883A1 (en) | Methods and compositions for analyzing nucleic acid | |
Coleman et al. | Structural annotation of equine protein‐coding genes determined by mRNA sequencing | |
WO2009085473A4 (en) | Genome identification system | |
CN113571131B (zh) | 一种泛基因组的构建方法及其相应的结构变异挖掘方法 | |
Malhis et al. | Slider—maximum use of probability information for alignment of short sequence reads and SNP detection | |
CN114708910B (zh) | 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法 | |
CN107506614B (zh) | 一种细菌ncRNA预测方法 | |
CN110556162A (zh) | 一种基于翻译组的环状rna翻译多肽的检测分析方法 | |
CN107563148B (zh) | 一种基于离子索引的整体蛋白质鉴定方法与系统 | |
CN112309500A (zh) | 一种基于单细胞测序数据唯一片段序列捕获方法 | |
CN112750501A (zh) | 一种宏病毒组流程的优化分析方法 | |
CN116230083A (zh) | 5′utr序列可变剪切分析方法、装置、设备及介质 | |
CN114334006B (zh) | 过滤酶切建库方式引入噪音的方法和装置 | |
KR20210040714A (ko) | 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치 | |
Fleming et al. | Advantages and challenges associated with bisulfite-assisted nanopore direct RNA sequencing for modifications | |
CN114783518A (zh) | 基因编辑结果的预测方法、装置、电子设备、程序及介质 | |
Mulroney et al. | Using Nanocompore to Identify RNA Modifications from Direct RNA Nanopore Sequencing Data | |
Poinsignon et al. | Working with Omics Data: An Interdisciplinary Challenge at the Crossroads of Biology and Computer Science | |
CN115019893A (zh) | 一种基于双向长短时记忆和注意机制的增强子识别方法 | |
Nakazato | Current situation of DNA Barcoding data in biodiversity and genomics databases and data integration for museomics | |
CN111599410B (zh) | 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用 | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 | |
US20240150825A1 (en) | Methods and compositions for analyzing nucleic acid |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |