CN117612605A - 一种基于高通量测序的病毒全基因组序列组装分析方法 - Google Patents
一种基于高通量测序的病毒全基因组序列组装分析方法 Download PDFInfo
- Publication number
- CN117612605A CN117612605A CN202311674059.4A CN202311674059A CN117612605A CN 117612605 A CN117612605 A CN 117612605A CN 202311674059 A CN202311674059 A CN 202311674059A CN 117612605 A CN117612605 A CN 117612605A
- Authority
- CN
- China
- Prior art keywords
- sequence
- genome
- sequencing
- variation
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000700605 Viruses Species 0.000 title claims abstract description 39
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 13
- 238000004458 analytical method Methods 0.000 title claims description 23
- 238000000034 method Methods 0.000 claims abstract description 22
- 230000003612 virological effect Effects 0.000 claims abstract description 13
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 10
- 238000012937 correction Methods 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims abstract description 6
- 238000012163 sequencing technique Methods 0.000 claims description 30
- 230000035772 mutation Effects 0.000 claims description 29
- 239000012634 fragment Substances 0.000 claims description 15
- 108090000623 proteins and genes Proteins 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 239000002773 nucleotide Substances 0.000 claims description 4
- 125000003729 nucleotide group Chemical group 0.000 claims description 4
- 238000007671 third-generation sequencing Methods 0.000 claims description 3
- 238000004321 preservation Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 5
- 238000012268 genome sequencing Methods 0.000 description 5
- 238000003766 bioinformatics method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 108091035707 Consensus sequence Proteins 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 208000005871 monkeypox Diseases 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 208000025721 COVID-19 Diseases 0.000 description 1
- 241001678559 COVID-19 virus Species 0.000 description 1
- 241000700627 Monkeypox virus Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005541 medical transmission Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 244000052769 pathogen Species 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007923 virulence factor Effects 0.000 description 1
- 239000000304 virulence factor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B45/00—ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种基于高通量测序的病毒全基因组序列组装分析方法,属于基因组序列组装分析方法技术领域。所述的方法是基于UNIX平台的开源软件对病毒基因组高通量测序下机序列数据进行组装分析,包括步骤:S1:准备参考基因组序列和待分析病毒全基因组测序原始的下机序列数据,S2:将原始的下机序列数据与参考基因组序列进行比对;S3:根据比对信息得到初步变异信息;S4:经过核实和校正得到准确的变异信息;S5:生成被测病毒全基因组一致性序列。本发明解决了从头组装无法实现的获得全部基因组序列问题,从而提高了高通量测序后病毒基因组序列组装准确性和速度。
Description
技术领域
本发明属于基因组序列组装分析方法技术领域,具体涉及一种基于高通量测序的病毒全基因组序列组装分析方法。
背景技术
基因测序技术自21世纪初第一代测序技术问世以来,随着生物技术和设备制造的发展,现已进入高通量基因组测序时代,第二代和三代高通量基因测序技术已广泛应用到肿瘤检测、病原体检测、基因工程等领域。
全基因组测序是指一个生物体携带的所有基因信息测序,对获得的基因信息数据进行收集、筛选、处理、利用的过程被称为生物信息分析,它是以计算机为工具,将分子生物学与信息技术相结合。病毒的全基因组测序以及对应的生物信息学分析方法是研究病毒进化、毒力因子变异、疫病爆发之间的关系、疫病传播途径、不同遗传变异的分布模式、疫病发生地理区域的基础,为调整防控政策等提供科学的依据。
目前,病毒的基因组测序技术无法一次性直接获得整条基因组序列,只能测较短的序列,高通量基因组测序是对病毒的基因组打断后,复制出多条片段,一次性对几百万到十亿条基因片段进行并行测序,利用生物信息学分析手段,根据其首尾重叠信息对序列进行拼接、组装,从而获得该病毒的基因组图谱。
基因组组装是生物信息学分析的核心问题,对于基因组分析是十分关键,它是把测序读取获得的短片段经过序列拼接组装,生成较长的完整全基因组序列。对组装效果的评价主要依据组装序列长度尽可能长,总长度占基因组序列长度的比例尽可能大,与真实序列尽可能符合。基因组组装软件可根据得到的所有读长组装成基因组,但受到病毒基因组测序数据特征的影响,现有组装软件都有局限性。
病毒基因组打断后基因片段序列读长较短,难以跨越高重复序列区域,同时碱基偏好性也影响了复杂区域组装;病毒基因组打断时存在冗余片段、污染或者缺失时,不能够完全准确地将基因序列拼接出来;增加打断后序列读长的话,错误率增加需要大量数据纠正。对以上病毒基因组组装问题,生物信息分析人员对病毒基因组结构特征掌握和分析经验可能不足以准确判断出某些碎片化片段的组装模式,难以进一步的完善和校正。基因组装对于病毒全基因组测序更具有挑战性,通常会出现组装碎片化和病毒基因组恢复不完全。因此,需要优化病毒基因组测序数据组装方法,来提高病毒基因组组装质量和效率。
发明内容
鉴于此,本发明的目的是提供了一种基于高通量测序的病毒全基因组序列组装分析方法。本发明以病毒参考基因组为基础,根据准确特定位点变异信息组装生成一致性序列,从而解决从头组装无法实现的获得全部基因组序列问题,从而提高了高通量测序后病毒基因组序列组装准确性和速度。
本发明目的是通过以下方式实现:
本发明提供一种基于高通量测序的病毒全基因组序列组装分析方法,所述的方法是基于UNIX平台的开源软件对病毒基因组高通量测序下机序列数据进行组装分析,包括步骤:S1:准备参考基因组序列和待分析病毒全基因组测序原始的下机序列数据,S2:将原始的下机序列数据与参考基因组序列进行比对;S3:根据比对信息得到初步变异信息;S4:经过核实和校正得到准确的变异信息;S5:生成被测病毒全基因组一致性序列。
基于上述技术方案,进一步地,S1包括如下步骤:
1.1、在NCBI数据库中下载被测病毒的参考基因组序列;
1.2、获得待分析病毒全基因组测序原始的下机序列数据,测序生成多个下机序列数据文件时需要合并成一个数据文件后再用于后续分析。
基于上述技术方案,进一步地,所述的测序为二代测序或三代测序。
基于上述技术方案,进一步地,S2包括如下步骤:
2.1、建立参考基因组索引;
2.2、用BWA-MEM比对算法将所得的下机序列数据比对至参考基因组,得到所有序列片段与参考基因组间原始比对信息。
基于上述技术方案,进一步地,比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O根据所用计算机的配置、病毒基因组大小、测序深度、序列长度的错误率进行调整。
基于上述技术方案,进一步地,比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O分别设分别设置为10~35、1~5、5~10、(20~50,20~50)。
基于上述技术方案,进一步地,S3包括如下步骤:
3.1、将原始的下机序列数据与参考基因组序列的比对信息进行排序和建立索引;
3.2、去除多余重复基因片段序列比对信息;
3.3、使用bcftools软件对比对信息进行基因序列变异分析,生成记录所有序列片段单核苷酸变异/插入或缺失(SNP/INDELS)的初步变异信息表,包括比对错误和测序错误产生的变异。
基于上述技术方案,进一步地,INDELS检测时偏差(bias)参数的设置采用0.12-0.25之间进行调整。
基于上述技术方案,进一步地,S4包括如下步骤:
4.1、使用IGV可视化软件观察低变异质量(QUAL)值位点四个碱基及INDELS的比例,并与参考基因组的碱基进行比较,确定该位点的变异的真实性以及是否是杂合突变;
4.2、通过以下两种方式校正变异信息:使用记事本编辑变异信息表,人工去掉初步变异表中假阳性变异位点,保存后上传,或者,调整步骤2.2和步骤3.3的参数去掉假阳性变异位点。
基于上述技术方案,进一步地,由于不同病毒的基因组结构有差异,实际测序深度、样本质量变化,需要根据实际情况采取以上两种方式进行调整,但当针对特定病毒、特定测序平台、较为稳定的样本和捕获试剂时,只需微调即可获得无限接近真实的变异位点信息。
基于上述技术方案,进一步地,S5包括如下步骤:
5.1、使用bcftools软件过滤变异质量值小于15~25的变异;
5.2、将过滤后变异信息压缩和索引;
5.3、将位点变异应用于到参考基因组上替换基因组序列碱基,得到所测病毒全基因组一致性序列。
本发明相对于现有技术具有的有益效果如下:
1、本发明基于病毒基因组相对与其它生物的基因组要小很多,相较于参考基因组被测病毒的变异位点较少,通常在100个位点左右,便于通过从获取无限接近真实的变异位点信息而得到一致性序列的方式来获取病毒全基因组的序列,在忽略全基因组头尾极少部分序列的前提下,得到的序列信息具有很高的准确性。
2、现有的基因组组装软件(如spades、canu、flye等)可根据得到的所有读取(reads)组装成基因组,尽管组装后的基因组序列不断接近完成图,但依然存在较多的空白,需要生物信息分析人员通过经验判断、实验过程数据来对组装结果进行进一步的完善和校正,病毒基因组的组装通常采用利用二代测序的短读长的准确性和三代测序长读长的特点进行校正后组装,或用spades等从头组装软件进行混合组装的方法,需要同时进行二代和三代两次测序,无疑会增加测序的成本,上述几种测序数据从头组装方法与本发明的分析方法相比,本发明的分析方法具有高准确性、低测序成本、短耗时的特点。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例涉及的附图进行简单地介绍。
图1为本发明基于高通量测序的病毒全基因组序列组装分析方法流程图。
图2为核对变异信息表中变异位点。
图3为在IGV中可视化人工核对变异位点。
具体实施方式
下面结合实施例对本发明进行详细的说明,但本发明的实施方式不限于此,显而易见地,下面描述中的实施例仅是本发明的部分实施例,对于本领域技术人员来讲,在不付出创造性劳动性的前提下,获得其他的类似的实施例均落入本发明的保护范围。
实施例1
本实施例对CovID-19病毒的二代测序(Illumina)全基因组测序获得的下机数据进行组装分析,具体的实施方案如下:
分析流程如下:
1、数据准备
1.1、在NCBI数据库中下载NC_045512.2参考基因组序列;
1.2、获取Illumina测序标本测序下机序列数据;
2、序列比对
2.1、建立参考基因组索引;
2.2、用BWA-MEM比对算法将下机序列数据比对至参考基因组,得到所有序列片段与参考基因组间原始比对信息;比对参数T、A、B、O分别设置为16、5、6、(30,26)。
3、根据比对信息得到初步变异信息
3.1、将原始比对信息进行排序和建立索引;
3.2、去除多余重复基因片段序列比对信息;
3.3、使用bcftools软件对比对信息进行基因序列变异分析,生成记录所有序列片段单核苷酸变异/插入或缺失(SNP/INDELS)的初步变异信息表。
4、经过核实和校正得到准确的变异信息
4.1、用IGV可视化软件观察低变异质量(QUAL)值位点四个碱基及INDELS的比例,并与参考基因组的碱基进行比较,确定该位点的变异的真实性以及是否是杂合突变;
4.2人工去掉初步变异信息表中假阳性变异位点。
5、生成被测病毒的全基因组一致性序列
5.1、使用bcftools软件过滤变异质量值小于20的变异;
5.2、将过滤后变异信息压缩和索引;
5.3、将位点变异应用于到参考基因组上替换基因组序列碱基,得到所测病毒全基因组一致性序列。
应用效果:得到100%覆盖率的CovID-19全基因组完整序列(fasta);文件大小30k;耗时7min;无gap。
本实施例对下机数据进行分析,可以直观看到样本的实际情况,对特定的位点进行分析,经测试,标本分析结果与其它设备分析的结果一致,如果有个别不一致的位点通过IGV核实,调整分析过程中的相应参数得到完全一致的结果。
实施例2
本实施例对猴痘病毒(monkeypox)二代测序(Illumina)全基因组测序获得的下机数据进行组装分析,具体的实施方案如下:
1、数据准备
1.1、在NCBI数据库中下载NC_063383.1参考基因组序列;
1.2、获取Illumina测序标本测序下机序列数据,将2个两端测序文件合并。
2、序列比对
2.1、建立参考基因组索引;
2.2、用BWA-MEM比对算法将下机序列数据比对至参考基因组,得到所有序列片段与参考基因组间原始比对信息;比对参数T、A、B、O分别设置为32、1、10、(40,40)。
3、根据比对信息得到初步变异信息
3.1、将原始比对信息进行排序和建立索引;
3.2、去除多余重复基因片段序列比对信息;
3.3、使用bcftools软件对比对信息进行基因序列变异分析,生成记录所有序列片段单核苷酸变异/插入或缺失(SNP/INDELS的初步变异信息表。
4、经过核实和校正得到准确的变异信息
4.1、用IGV可视化软件观察低变异质量(QUAL)值位点四个碱基及INDELS的比例,并与参考基因组的碱基进行比较,确定该位点的变异的真实性以及是否是杂合突变;
4.2人工去掉初步变异表中假阳性变异位点。
5、生成被测病毒的全基因组一致性序列
5.1、使用bcftools软件过滤变异质量值小于20的变异;
5.2、将过滤后变异信息压缩和索引;
5.3、将位点变异应用于到参考基因组上替换基因组序列碱基,得到所测病毒全基因组一致性序列。
应用效果:得到100%覆盖率的monkeypox全基因组完整序列(fasta);文件大小197k;耗时15min;无gap。
表1.本实例组装分析方法与spades、canu、flye组装分析方法的比较
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于高通量测序的病毒全基因组序列组装分析方法,其特征在于,所述的方法是基于UNIX平台的开源软件对病毒基因组高通量测序下机序列数据进行组装分析,包括步骤:S1:准备参考基因组序列和待分析病毒全基因组测序原始的下机序列数据,S2:将原始的下机序列数据与参考基因组序列进行比对;S3:根据比对信息得到初步变异信息;S4:经过核实和校正得到准确的变异信息;S5:生成被测病毒全基因组一致性序列。
2.根据权利要求1所述的方法,其特征在于,S1包括如下步骤:
1.1、在NCBI数据库中下载被测病毒的参考基因组序列;
1.2、获得待分析病毒全基因组测序原始的下机序列数据,测序生成多个下机序列数据文件时需要合并成一个数据文件后再用于后续分析。
3.根据权利要求2所述的方法,其特征在于,所述的测序为二代测序或三代测序。
4.根据权利要求2所述的方法,其特征在于,S2包括如下步骤:
2.1、建立参考基因组索引;
2.2、用BWA-MEM比对算法将所得的下机序列数据比对至参考基因组,得到所有序列片段与参考基因组间原始比对信息。
5.根据权利要求4所述的方法,其特征在于,比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O根据所用计算机的配置、病毒基因组大小、测序深度、序列长度的错误率进行调整。
6.根据权利要求5所述的方法,其特征在于,比对的最小分值阈值参数T、匹配参数A、未匹配参数B、空缺参数O分别设分别设置为10~35、1~5、5~10、(20~50,20~50)。
7.根据权利要求4所述的方法,其特征在于,S3包括如下步骤:
3.1、将原始的下机序列数据与参考基因组序列的比对信息进行排序和建立索引;
3.2、去除多余重复基因片段序列比对信息;
3.3、使用bcftools软件对比对信息进行基因序列变异分析,生成记录所有序列片段单核苷酸变异/插入或缺失(SNP/INDELS)的初步变异信息表,包括比对错误和测序错误产生的变异。
8.根据权利要求7所述的方法,其特征在于,INDELS检测时偏差(bias)参数的设置采用0.12-0.25之间进行调整。
9.根据权利要求7所述的方法,其特征在于,S4包括如下步骤:
4.1、使用IGV可视化软件观察低变异质量(QUAL)值位点四个碱基及INDELS的比例,并与参考基因组的碱基进行比较,确定该位点的变异的真实性以及是否是杂合突变;
4.2、通过以下两种方式校正变异信息:使用记事本编辑变异信息表,人工去掉初步变异表中假阳性变异位点,保存后上传,或者,调整步骤2.2和步骤3.3的参数去掉假阳性变异位点。
10.根据权利要求9所述的方法,其特征在于,S5包括如下步骤:
5.1、使用bcftools软件过滤变异质量值小于15~25的变异;
5.2、将过滤后变异信息压缩和索引;
5.3、将位点变异应用于到参考基因组上替换基因组序列碱基,得到所测病毒全基因组一致性序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311674059.4A CN117612605A (zh) | 2023-12-07 | 2023-12-07 | 一种基于高通量测序的病毒全基因组序列组装分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311674059.4A CN117612605A (zh) | 2023-12-07 | 2023-12-07 | 一种基于高通量测序的病毒全基因组序列组装分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117612605A true CN117612605A (zh) | 2024-02-27 |
Family
ID=89954550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311674059.4A Pending CN117612605A (zh) | 2023-12-07 | 2023-12-07 | 一种基于高通量测序的病毒全基因组序列组装分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612605A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118335195A (zh) * | 2024-06-13 | 2024-07-12 | 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) | 一种基于高通量测序数据的str分型方法 |
-
2023
- 2023-12-07 CN CN202311674059.4A patent/CN117612605A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118335195A (zh) * | 2024-06-13 | 2024-07-12 | 浙江省标准化研究院(金砖国家标准化(浙江)研究中心、浙江省物品编码中心) | 一种基于高通量测序数据的str分型方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117612605A (zh) | 一种基于高通量测序的病毒全基因组序列组装分析方法 | |
CN111081315A (zh) | 一种同源假基因变异检测的方法 | |
US20130166221A1 (en) | Method and system for sequence correlation | |
CN112086131B (zh) | 一种重测序数据库中假阳性变异位点的筛选方法 | |
KR20140006846A (ko) | Dna 서열의 데이터 분석 | |
CN113066532B (zh) | 基于高通量测序技术的宿主中病毒来源sRNA数据分析方法 | |
CN108304694B (zh) | 基于二代测序数据分析基因突变的方法 | |
CN115691672B (zh) | 针对测序平台特征的碱基质量值矫正方法、装置、电子设备和存储介质 | |
WO2023124779A1 (zh) | 基于三代测序数据检测点突变的分析方法和装置 | |
CN115101124A (zh) | 全基因组等位基因鉴定方法及装置 | |
CN117831627A (zh) | 一种用于复杂结构变异的可视化检测方法及系统 | |
Scheetz et al. | ESTprep: preprocessing cDNA sequence reads | |
CN116864007B (zh) | 基因检测高通量测序数据的分析方法及系统 | |
Alachiotis et al. | ChromatoGate: a tool for detecting base mis-calls in multiple sequence alignments by semi-automatic chromatogram inspection | |
WO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN116312779A (zh) | 检测样本污染和识别样本错配的方法和装置 | |
CN114067907B (zh) | 一种准确鉴定rna病毒基因组变异的方法 | |
CN112908413A (zh) | 一种基于abo基因的血型分型方法 | |
CN113782099B (zh) | 修补基因组序列组装缺口的方法和装置 | |
CN111261225B (zh) | 一种基于二代测序数据的反转相关复杂变异检测方法 | |
Zheng et al. | A sequence-aware merger of genomic structural variations at population scale | |
CN117116348B (zh) | 针对靶向测序数据的mTag序列进行修正的方法、设备和介质 | |
CN110400604B (zh) | 芸香科多物种密码子使用模式分析方法和系统 | |
CN113178231B (zh) | 一种基于二代测序技术的consensus序列统计分析、可视化方法 | |
CN116469468B (zh) | 一种基于贝叶斯模型的编辑基因载体残留检测方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |