CN108595915A - 一种基于dna变异检测的三代数据校正方法 - Google Patents
一种基于dna变异检测的三代数据校正方法 Download PDFInfo
- Publication number
- CN108595915A CN108595915A CN201810336881.2A CN201810336881A CN108595915A CN 108595915 A CN108595915 A CN 108595915A CN 201810336881 A CN201810336881 A CN 201810336881A CN 108595915 A CN108595915 A CN 108595915A
- Authority
- CN
- China
- Prior art keywords
- generations
- data
- sequence
- datas
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000012163 sequencing technique Methods 0.000 claims abstract description 66
- 241001269238 Data Species 0.000 claims abstract description 50
- 238000012937 correction Methods 0.000 claims abstract description 31
- 238000013507 mapping Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 238000012408 PCR amplification Methods 0.000 claims description 3
- 238000003908 quality control method Methods 0.000 claims description 2
- 108020004414 DNA Proteins 0.000 abstract description 13
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000012545 processing Methods 0.000 abstract description 5
- 230000009946 DNA mutation Effects 0.000 abstract description 2
- 238000000540 analysis of variance Methods 0.000 abstract description 2
- 239000002585 base Substances 0.000 description 25
- 241000588724 Escherichia coli Species 0.000 description 6
- 238000011161 development Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000004543 DNA replication Effects 0.000 description 1
- 101150068639 Hnf4a gene Proteins 0.000 description 1
- 241000699660 Mus musculus Species 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000002440 hepatic effect Effects 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了属于生物信息技术领域的一种基于DNA变异检测的三代数据校正方法,首先将三代测序数据处理后作为参考序列数据,然后将二代测序数据处理后与其进行比对,得到比对文件。对比对文件进行变异分析检测,可以得到二代测序数据相对于三代测序数据的变异信息,利用变异信息完成对三代测序数据的校正。将DNA变异检测方法应用到三代测序数据纠错中,联合使用二代测序数据与三代测序数据,降低三代数据校正的成本,程序采用多线程的思想,加快三代数据的校正速度。本发明通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题,为后续的三代测序数据变异检测方面奠定基础。
Description
技术领域
本发明属于生物信息技术领域,具体来说,涉及一种基于DNA变异检测的三代数据校正方法。
背景技术
随着三代测序技术的发展,测序数据的片段长度不断提高,同时随着精准医疗的提出与发展,测序数据的规模呈现爆炸性的增长。现阶段正是二代测序技术向三代测序技术的过渡阶段,由于三代测序技术中存在的一些缺陷,制约着三代测序技术的发展与应用。现在采用的是三代测序数据校正软件主要有FALCON和PBcR两种,它们使用三代数据自纠错的方法对测序数据进行校正,主要分为两步:
①将参考模板序列与候选序列进行两两比对获得参考模板序列的多重比对结果;
②通过多重序列比对结果推断正确结果。
三代数据自纠错方法对测序深度有较高要求,增大了测序的成本,而且这两款软件进行自纠错时所需要的时间较长,这主要是由于自比对算法Daligner和MHAP导致的。
发明内容
为解决上述技术问题,本发明提供了一种基于DNA变异检测的三代数据校正方法,首先将三代测序数据处理后作为参考序列数据,然后将二代测序数据处理后与其进行比对,得到比对文件。对比对文件进行变异分析检测,可以得到二代测序数据相对于三代测序数据的变异信息,利用变异信息完成对三代测序数据的校正。本发明通过联合校正技术解决三代测序技术中存在的高错误率和高成本问题,为后续的三代测序数据变异检测方面奠定基础。
一种基于DNA变异检测的三代数据校正方法,其特征在于,包括以下步骤:
(a)数据格式转换,包括并行的线程1和线程2:
线程1:将原始三代fastq数据进行处理转换为fasta格式数据并保存,并对其建立索引得到三代fasta参考序列集合;
线程2:得到作为数据比对的二代fastq初始序列集合;
(b)DNA变异检测:
将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对,得到比对结果所生产的bam文件;对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重;对去重后的文件进行Indel Realigner,对到indel附近的reads进行局部重新比对;对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合;使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置;
(c)mapping区域碱基校正。
优选的,所述线程1中,将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。
优选的,所述线程2中,具体过程为:去除二代Illumina测序数据中的primer和adapter,并且根据read的质量信息,将低质量的read去除。
优选的,所述步骤(b)DNA变异检测中,对bam文件进行序列去重是去除PCR扩增中被过量扩增,非基因组中存在且不能作为校正的依据的序列。
优选的,所述步骤(c)mapping区域碱基校正具体过程为:提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存,对三代数据每条序列根据每个变异位点的三代和二代碱基序列,进行替换,将三代碱基序列替换为二代碱基序列,完成三代数据的校正。
本发明的技术优势:
1、本发明将DNA变异检测方法应用到三代测序数据纠错中,联合使用二代测序数据与三代测序数据,降低三代数据校正的成本,程序采用多线程的思想,加快三代数据的校正速度。
2、由于三代测序技术的准确度较低,测序数据的可信度偏小,同时,三代测序的成本较高,制约着三代测序技术的应用前景。使用二代测序数据对三代测序数据进行校正,有利于提高三代测序的准确度,降低三代测序的成本,方便进行后续的数据分析。
3、通过本发明可实现快速高效的三代数据校正,解决了现有技术中三代测序数据错误率高和后续研究需求大之间的矛盾,提高三代测序数据在拼接和变异检测方面的可用性。
附图说明
图1是实施例1中基于DNA变异检测的三代数据校正方法的逻辑流程图。
具体实施方式
下面结合具体的实施例对本发明所述的一种基于DNA变异检测的三代数据校正方法做进一步说明,但是本发明的保护范围并不限于此。
针对三代测序技术中存在的高成本高错误率方面的问题,利用二代测序数据成本低准确度高方面的优势,提出了如图1所示的一种三代测序数据的校正方法,包括如下三个模块:
(a)数据格式转换模块:将原始三代fastq数据进行处理,去除低质量序列和接头序列,然后转换为fasta格式数据并保存,并对其建立索引,作为二代Illumina测序数据的参考基因组,去除二代Illumina测序数据中的primer和adapter,并且根据read的质量信息,将低质量的read去除,作为数据比对的序列集合。
(b)DNA变异检测模块:将二代Illumina测序数据与三代测序数据数据生成的fasta数据使用bwa-mem算法进行比对,得到比对结果所生产的bam文件。对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重。由于PCR扩增会使一些序列被过量扩增,这些扩增的序列会比对到相同的位置上,二这些过量扩增的序列并非基因组中存在的序列,不能作为校正的依据,所以需要去除此类序列。由于在indel附近的比对会存在大量的碱基错配,容易在校正过程被认为是测序错误所产生的错误碱基,需要对去重后的文件进行Indel Realigner,即对比对到indel附近的reads进行局部重新比对,将错误率降到最低。为了进一步精确查找到三代测序数据中错误测序所在的位置,需要对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合。使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置。
(c)mapping区域碱基校正模块:提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存,对三代数据每条序列根据每个变异位点的三代和二代碱基序列,进行替换,将三代碱基序列替换为二代碱基序列,即可完成三代数据的校正。
实施例1
测试所用的三代数据是由PacBio公司提供的85X大肠杆菌(Escherichia coliK12MG1655Methylome)测序数据(下载地址:https://github.com/PacificBiosciences/DevNet/wiki/Datasets),所用二代数据是从NCBI的sra数据库下载的编号为ERR022075的290X的大肠杆菌Illumina(Escherichia coli K12MG1655Methylome)测序数据,所选的参考基因组是从NCBI的Genome数据库下载的Escherichia coli K12MG1655的标准参考基因,(下载地址:https://www.ncbi.nlm.nih.gov/genome/167?genome_assembly_id=161521)。
设置PacBio数据的覆盖度梯度分别为10X,20X,30X三组,设置Illumina数据的覆盖度为30X。首先将PacBio数据比对到参考基因组,统计sam文件中第6列的mapping信息中插入和缺失的碱基数量,计算其测序错误率。然后对二代测序数据和三代测序数据运用上述方法进行数据校正,计算校正后的三代数据错误率。具体实施过程如下:
1.提取85X的三代测序数据中的约八分之一,八分之二,八分之三组成10X、20X和30X的不同三代数据覆盖度梯度;提取290X的约十分之一组成30X的二代数据测试集。
2.将所有的测试所用的二代和三代fastq数据使用NGSQCToolkit去除引物、连接头和低质量的数据;将不同深度的三代测序PacBio数据转为fasta数据,作为二代数据的参考序列,同时是待纠错的数据集。
3.将处理后的二代数据使用bwa-mem比对到fasta格式的三代数据上,得到bam文件,去除bam文件中低质量序列后进行序列去重;然后对Indel附近的reads重新进行局部比对,将错误率降到最低;最后对bam文件中reads进行碱基质量的重新校正,使bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的序列集合。使用DNAseq对此数据进行变异检测,得到二代数据相对于三代数据的变异信息,保存在vcf文件中,即三代数据中存在的测序错误位置。
4.提取上一步产生的vcf文件中第一列三代数据序列名称,第二列变异所在的位点,第四列三代数据在此位点的碱基序列,第五列二代数据在此位点的碱基序列,按照序列名称分别保存;然后对每条序列根据变异位点将三代碱基序列替换为二代碱基序列,即可完成三代数据的校正。
汇总校正前后三代数据的错误率结果如下表1:
表1
根据上述步骤使用大肠杆菌数据进行测试,对校正前后的数据精确度进行比较,可以看出本方法稳定地可以提高三代数据的准确度。
使用85X的三代测序数据和30X的二代测序数据在相同的集群(2.5G Hz CPU,64GB内存)中进行数据校正,本方法在处理速度上优于其他方法,结果如下表2:
表2
名词解释:
FALCON:Falcon是PacBio开发的一款用于三代基因组devono拼接软件,其中的校正程序是FC_consensus,使用Daligner比对算法进行比对后校正。
PBcR:一款三代测序数据的组装软件,在其中使用了一种自纠错算法,纠错算法核心是MHAP比对算法。
MHAP:一种三代数据的序列自比对算法。
Daligner:一种三代数据的序列自比对算法。
Fastq:一种测序数据的存储格式,每个序列通常有四行:第一行,序列标识以及相关的描述信息,以‘@’开头;第二行是序列;第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;第四行,是质量信息,和第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>CCCCCCC65
Fasta:Fasta格式首先以大于号“>”开头,接着是序列的标识符;换行后是序列的描述信息;换行后是序列信息。
>gi|46575915refNM_008261.2|Mus musculus hepatic nuclear factor 4,alpha(Hnf4a),mRNA
GGGACCTGGGAGGAGGCAGGAGGAGGGCGGGGACGGGGGGGGCTGGGGCTCAGCCCAGGGGCTTGGGTGG
CATCCTGGGCCGGGCAGGACAGGGGGCTAAGGCGTGGGTAGGGGAGAATGCGACTCTCTAAAACCCTTGC
CGGCATGGATATGGCCGACTACAGCGCTGCCCTGGACCCAGCCTACACCACCCTGGAGTTTGAAAATGTG
CAGGTGTTGACCATGGGCAATGACACGTCCCCATCTGAAGGTGCCAACCTCAATTCATCCAACAGCCTGG
GCGTCAGTGCCCTGTGCGCCATCTGTGGCGACCGGGCCACCGGCAAACACTACGGAGCCTCGAGCTGTGA
CGGCTGCAAGGGGTTCTTCAGGAGGAGCGTGAGGAAGAACCACATGT
Primer、adapter:引物、连接头。在进行测序过程中人为增加到待测序片段上的物质,在分析数据阶段需要去除。
Read:测序片段。
Illumina:一家生物科技公司,旗下有Illumina系列测序仪,这些测序仪产生的数据称为Illumina测序数据。此为二代数据,读长较短,200bp左右,准确率高
PacBio:加州太平洋生物科学公司Pacific Biosciences of California的缩写,旗下有PacBio系列的测序仪,这些测序仪产生的测序数据成为PacBio数据。此为三代数据,读长长,几kb~几十kb之间,错误率高。
Bwa-mem:一种健壮的序列比对算法。
PCR:聚合酶链式反应,一种用于放大扩增特定的DNA片段的分子生物学技术,它可看作是生物体外的特殊DNA复制,PCR的最大特点,是能将微量的DNA大幅增加。
Indel:insertion-deletion的缩写,小片段的插入和缺失。
Indel Realigner:对比对到indel附近的reads进行局部重新比对。
DNAseq:Sentieon公司开发的一款用于检测单碱基变异和Indel的软件。
Base Recalibration:碱基重新校正,DNAseq软件中的一个步骤,提高变异检测的准确度。
Call vcf:进行变异检测。
Vcf:Variant Call Format,用于记录variants(SNP/InDel)的文件格式。
85/290X:测序深度的表示方式,85X代表测序深度为85。
NCBI:NCBI(National Center for Biotechnology Information)是指美国国立生物技术信息中心。提供多种数据库的查询与下载。
Sra:NCBI中提供的一种数据库,其中的数据都为sra格式,可以转换为fastq格式或者bam格式的数据。
ERR022075:sra库中的一个索引号。
NGSQCToolkit:用于进行质量检查和高质量数据的过滤的一款软件。
以上例子结合附图本发明的实施方式做了说明。尽管只对本发明的一些具体实施方式和技术要点做出了描述,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明的宗旨前提下做出各种变化。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。
Claims (5)
1.一种基于DNA变异检测的三代数据校正方法,其特征在于,包括以下步骤:
(a)数据格式转换,包括并行的线程1和线程2:
线程1:将原始三代fastq数据进行处理转换为fasta格式数据并保存,并对其建立索引得到三代fasta参考序列集合;
线程2:得到作为数据比对的二代fastq初始序列集合;
(b)DNA变异检测:
将二代fastq初始序列集合与三代fasta参考序列集合使用bwa-mem算法进行比对,得到比对结果所生产的bam文件;对bam文件进行质量控制,根据bam文件中的序列质量信息,去除低质量的序列,然后进行序列去重;对去重后的文件进行Indel Realigner,对到indel附近的reads进行局部重新比对;对bam文件中的reads进行碱基质量值的重新校正,使最后输出的bam文件中reads的质量值接近真实值,以此作为三代数据校正所使用的数据集合;使用DNAseq对此数据进行变异检测,得到二代Illumina数据与三代数据之间的变异信息,即三代数据中存在的测序错误的位置;
(c)mapping区域碱基校正。
2.根据权利要求1所述的基于DNA变异检测的三代数据校正方法,其特征在于,所述线程1中,将原始三代fastq数据转换为fasta格式数据之前除低质量序列和接头序列。
3.根据权利要求1或2所述的基于DNA变异检测的三代数据校正方法,其特征在于,所述线程2中,具体过程为:去除二代Illumina测序数据中的primer和adapter,并且根据read的质量信息,将低质量的read去除。
4.根据权利要求3所述的基于DNA变异检测的三代数据校正方法,其特征在于,所述步骤(b)DNA变异检测中,对bam文件进行序列去重是去除PCR扩增中被过量扩增,非基因组中存在且不能作为校正的依据的序列。
5.根据权利要求1、2或4中任意一条所述的基于DNA变异检测的三代数据校正方法,其特征在于,所述步骤(c)mapping区域碱基校正具体过程为:提取三代序列的名称、变异位点、三代数据此位点碱基序列、二代数据此位点碱基序列四列数据按照序列名称分别保存,对三代数据每条序列根据每个变异位点的三代和二代碱基序列,进行替换,将三代碱基序列替换为二代碱基序列,完成三代数据的校正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810336881.2A CN108595915B (zh) | 2018-04-16 | 2018-04-16 | 一种基于dna变异检测的三代数据校正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810336881.2A CN108595915B (zh) | 2018-04-16 | 2018-04-16 | 一种基于dna变异检测的三代数据校正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595915A true CN108595915A (zh) | 2018-09-28 |
CN108595915B CN108595915B (zh) | 2021-06-22 |
Family
ID=63622575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810336881.2A Expired - Fee Related CN108595915B (zh) | 2018-04-16 | 2018-04-16 | 一种基于dna变异检测的三代数据校正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595915B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109698011A (zh) * | 2018-12-25 | 2019-04-30 | 人和未来生物科技(长沙)有限公司 | 基于短序列比对的Indel区域校正方法及系统 |
CN109935275A (zh) * | 2018-12-29 | 2019-06-25 | 北京安诺优达医学检验实验室有限公司 | 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备 |
CN110246545A (zh) * | 2019-06-06 | 2019-09-17 | 武汉未来组生物科技有限公司 | 一种序列的校正方法及其校正装置 |
CN110349625A (zh) * | 2019-07-23 | 2019-10-18 | 中国科学院心理研究所 | 一种人类大脑基因表达时空常模的建立方法 |
CN112397149A (zh) * | 2020-11-11 | 2021-02-23 | 天津现代创新中药科技有限公司 | 无参考基因组序列的转录组分析方法及系统 |
CN114708911A (zh) * | 2022-03-15 | 2022-07-05 | 北京基石生命科技有限公司 | 一种三代测序数据的比对方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104965999A (zh) * | 2015-06-05 | 2015-10-07 | 西安交通大学 | 一种中短基因片段测序的分析拼接方法及设备 |
CN105154323A (zh) * | 2015-08-14 | 2015-12-16 | 深圳市瀚海基因生物科技有限公司 | 一种单分子测序芯片 |
US20160222378A1 (en) * | 2009-12-15 | 2016-08-04 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
CN107180166A (zh) * | 2017-04-21 | 2017-09-19 | 北京希望组生物科技有限公司 | 一种基于三代测序的全基因组结构变异分析方法和系统 |
CN107784201A (zh) * | 2016-08-26 | 2018-03-09 | 深圳华大基因科技服务有限公司 | 一种二代序列和三代单分子实时测序序列联合补洞方法和系统 |
CN107895104A (zh) * | 2017-11-13 | 2018-04-10 | 深圳华大基因科技服务有限公司 | 评估和校验三代测序的序列组装结果的方法与装置 |
-
2018
- 2018-04-16 CN CN201810336881.2A patent/CN108595915B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160222378A1 (en) * | 2009-12-15 | 2016-08-04 | Cellular Research, Inc. | Digital counting of individual molecules by stochastic attachment of diverse labels |
CN104965999A (zh) * | 2015-06-05 | 2015-10-07 | 西安交通大学 | 一种中短基因片段测序的分析拼接方法及设备 |
CN105154323A (zh) * | 2015-08-14 | 2015-12-16 | 深圳市瀚海基因生物科技有限公司 | 一种单分子测序芯片 |
CN107784201A (zh) * | 2016-08-26 | 2018-03-09 | 深圳华大基因科技服务有限公司 | 一种二代序列和三代单分子实时测序序列联合补洞方法和系统 |
CN107180166A (zh) * | 2017-04-21 | 2017-09-19 | 北京希望组生物科技有限公司 | 一种基于三代测序的全基因组结构变异分析方法和系统 |
CN107895104A (zh) * | 2017-11-13 | 2018-04-10 | 深圳华大基因科技服务有限公司 | 评估和校验三代测序的序列组装结果的方法与装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109698011A (zh) * | 2018-12-25 | 2019-04-30 | 人和未来生物科技(长沙)有限公司 | 基于短序列比对的Indel区域校正方法及系统 |
CN109698011B (zh) * | 2018-12-25 | 2020-10-23 | 人和未来生物科技(长沙)有限公司 | 基于短序列比对的Indel区域校正方法及系统 |
CN109935275A (zh) * | 2018-12-29 | 2019-06-25 | 北京安诺优达医学检验实验室有限公司 | 序列变异校验方法和装置、生产变异序列的方法和装置及电子设备 |
CN110246545A (zh) * | 2019-06-06 | 2019-09-17 | 武汉未来组生物科技有限公司 | 一种序列的校正方法及其校正装置 |
CN110246545B (zh) * | 2019-06-06 | 2021-04-13 | 武汉希望组生物科技有限公司 | 一种序列的校正方法及其校正装置 |
CN110349625A (zh) * | 2019-07-23 | 2019-10-18 | 中国科学院心理研究所 | 一种人类大脑基因表达时空常模的建立方法 |
CN110349625B (zh) * | 2019-07-23 | 2022-02-08 | 中国科学院心理研究所 | 一种人类大脑基因表达时空常模的建立方法 |
CN112397149A (zh) * | 2020-11-11 | 2021-02-23 | 天津现代创新中药科技有限公司 | 无参考基因组序列的转录组分析方法及系统 |
CN114708911A (zh) * | 2022-03-15 | 2022-07-05 | 北京基石生命科技有限公司 | 一种三代测序数据的比对方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108595915B (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ciuffreda et al. | Nanopore sequencing and its application to the study of microbial communities | |
CN108595915A (zh) | 一种基于dna变异检测的三代数据校正方法 | |
US10364468B2 (en) | Systems and methods for analyzing circulating tumor DNA | |
Brocchieri | Phylogenetic inferences from molecular sequences: review and critique | |
CN103946396B (zh) | 用于下一代测序的序列重组方法及装置 | |
US6625545B1 (en) | Method and apparatus for mRNA assembly | |
Hoffmann et al. | Accurate mapping of tRNA reads | |
WO2014019164A1 (zh) | 一种分析微生物群落组成的方法和装置 | |
CN107133493B (zh) | 基因组序列的组装方法、结构变异探测方法和相应的系统 | |
CN110993023B (zh) | 复杂突变的检测方法及检测装置 | |
CN115083521B (zh) | 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统 | |
CN113035273A (zh) | 一种快速、超高灵敏度的dna融合基因检测方法 | |
Kearse et al. | The Geneious 6.0. 3 read mapper | |
CN111321209A (zh) | 一种用于循环肿瘤dna测序数据双端矫正的方法 | |
CN114420212A (zh) | 一种大肠杆菌菌株鉴定方法和系统 | |
Hiergeist et al. | Reliability of species detection in 16S microbiome analysis: Comparison of five widely used pipelines and recommendations for a more standardized approach | |
Zhao et al. | Multitrans: an algorithm for path extraction through mixed integer linear programming for transcriptome assembly | |
Zeng et al. | Large-scale 16S gene assembly using metagenomics shotgun sequences | |
CN111292806B (zh) | 一种利用纳米孔测序的转录组分析方法 | |
Freedman et al. | Building better genome annotations across the tree of life | |
CN110600083B (zh) | 基于无拼接组装wgs数据的醋酸钙—鲍曼不动杆菌复合群鉴定方法 | |
Copeland | Computational Analysis of High-replicate RNA-seq Data in Saccharomyces Cerevisiae: Searching for New Genomic Features | |
US20230282312A1 (en) | Construction method of ribosomal rna database | |
CN118230820A (zh) | 基于宏基因测序数据的耐药基因物种来源鉴定方法 | |
Su et al. | Comprehensive Assessment of Isoform Detection Methods for Third-Generation Sequencing Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210622 |
|
CF01 | Termination of patent right due to non-payment of annual fee |