CN106650308A - 一种线粒体高通量测序数据处理方法及系统 - Google Patents

一种线粒体高通量测序数据处理方法及系统 Download PDF

Info

Publication number
CN106650308A
CN106650308A CN201610977426.1A CN201610977426A CN106650308A CN 106650308 A CN106650308 A CN 106650308A CN 201610977426 A CN201610977426 A CN 201610977426A CN 106650308 A CN106650308 A CN 106650308A
Authority
CN
China
Prior art keywords
data
sequencing
quality
sequencing data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610977426.1A
Other languages
English (en)
Inventor
任永永
全雪萍
郝占平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shuo Medical Data Technology (beijing) Co Ltd
Original Assignee
Shuo Medical Data Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shuo Medical Data Technology (beijing) Co Ltd filed Critical Shuo Medical Data Technology (beijing) Co Ltd
Priority to CN201610977426.1A priority Critical patent/CN106650308A/zh
Publication of CN106650308A publication Critical patent/CN106650308A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种线粒体高通量测序数据处理方法及系统,涉及生物信息技术领域。对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则将对比成功后的测序数据进行基因组学注释。本发明可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理,并对基因变异按照临床检测和实验科学研究进行分类展示,方便临床应用和科学研究。

Description

一种线粒体高通量测序数据处理方法及系统
技术领域
本发明涉及生物信息技术领域。
背景技术
目前,已有的针对线粒体的二代测序数据分析流程主要是由对测序数据质量控制、将测序得到的大量短序列片段比对到已知人类参考序列、寻找变异、对变异进行基因组学注释和疾病关联注释5步组成。但是,流程中上一步的输出文件和下一步所需输入文件格式不同,造成无法实现数据的高自动化分析,且已有的基因组学注释软件如适用度和知名度很高的ANNOVAR和SnpEff对核DNA中的变异注释较为精确,但对线粒体DNA上的变异无法正确注释变异所位于的基因、氨基酸改变以及变异发生的位置,极易造成错误的科研指导和错误的临床解读;在致病关联注释步骤中,已有的软件只能连接Internet使用,这又极大的限制了使用范围。
发明内容
本发明为了解决目前线粒体基因组学注释不准确的问题,提出了一种线粒体高通量测序数据处理方法及系统。
本发明解决上述技术问题的技术方案如下:一种线粒体高通量测序数据处理方法,所述方法包括:
S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;
S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;
S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;
S4、将对比成功后的测序数据进行基因组学注释。
本发明的有益效果是:本发明可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理,并对基因变异按照临床检测和实验科学研究进行分类展示,方便临床应用和科学研究。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1的具体实现过程为:
对线粒体高通量测序数据来源进行测序鉴定,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为Ion Torrent数据。
采用上述进一步方案的有益效果是:本发明能够同时兼容Illnumina和IonTorrent两种平台测序后数据分析的需求,自动化且不需连接Internet便可使用。
进一步,所述S2中若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为Ion Torrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。
进一步,所述S3中序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。
为了解决上述技术问题,本发明提出了一种线粒体高通量测序数据处理系统,所述系统包括:
数据来源判断模块,用于对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;
原始数据质量检测模块,用于对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则启动序列对比模块;
序列对比模块,用于根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则启动基因组学注释模块;
基因组学注释模块,用于将对比成功后的测序数据进行基因组学注释。
本发明的有益效果是:本发明可以在不连接Internet的情况下对线粒体基因检测数据进行高自动化批量分析处理,并对基因变异按照临床检测和实验科学研究进行分类展示,方便临床应用和科学研究。
进一步,所述数据来源判断模块中所述的数据格式为Illnumina数据或IonTorrent数据,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据。
采用上述进一步方案的有益效果是:本发明能够同时兼容Illnumina和IonTorrent两种平台测序后数据分析的需求,自动化且不需连接Internet便可使用。
进一步,所述原始数据质量检测模块中,若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为Ion Torrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。
进一步,所述序列对比模块中,根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。
附图说明
图1为本发明实施例所述的线粒体高通量测序数据处理方法的流程图;
图2为本发明实施例所述的线粒体上存在的变异位点的示意图;
图3为本发明实施例所述的采用SnpEff软件的变异的注释结果;
图4为本发明实施例所述的采用ANNOVAR软件的变异的注释结果;
图5为本发明实施例所述的采用本发明所述方法的变异的注释结果;
图6为本发明实施例所述的线粒体高通量测序数据处理系统的原理示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1
如图1所示,本实施例提出了一种线粒体高通量测序数据处理方法,所述方法包括:
S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为Ion Torrent数据;
S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;
对数据进行质控分析可采用FastQC软件实现,该软件所需输入文件为fastq格式的问题,因此,如果测序后数据来源为Illnumina,则直接进行质控分析,如果来源为IonTorrent,则需先将bam格式的文件转为Illnumina然后再使用FastqQC进行质控分析;
S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;
序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上;Illnumina可使用bwa序列对比软件,IonTorrent可使用TMAP序列对比软件;
S4、将对比成功后的测序数据进行基因组学注释。
如图2所示为线粒体上存在的变异位点,图3、图4和图5分别为SnpEff、ANNOVAR和本实施例对图2中的变异的注释结果,从结果可以看出对相同变异,ANNOVAR无法注释出变异所在的基因及氨基酸变异;SnpEff无法正确注释出第一个变异所在的基因,对第二个变异的注释虽包含正确基因,但同时给出大量无关基因;本实施例准确注释出2个变异所在的基因及氨基酸变化。
实施例2
如图6所示,本实施例提出了一种线粒体高通量测序数据处理系统,所述系统包括:
数据来源判断模块,用于对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为IonTorrent数据;
原始数据质量检测模块,用于对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则启动序列对比模块;
对数据进行质控分析可采用FastQC软件实现,该软件所需输入文件为fastq格式的问题,因此,如果测序后数据来源为Illnumina,则直接进行质控分析,如果来源为IonTorrent,则需先将bam格式的文件转为Illnumina然后再使用FastqQC进行质控分析;
序列对比模块,用于根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则启动基因组学注释模块;
序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上;Illnumina可使用bwa序列对比软件,IonTorrent可使用TMAP序列对比软件;
基因组学注释模块,用于将对比成功后的测序数据进行基因组学注释。
目前用于基因组学注释的2大主流软件为ANNOVAR和SnpEff。但是,ANNOVAR的弊端是对同时存在插入和缺失的变异、非编码区和基因共享区的变异无法准确注释,且对插入或缺失变异的注释没有严格采用HGVS的标准,造成氨基酸改变注释错误。SnpEff的优点是注释采用了HGVS的标准,但缺点是对线粒体上变异注释不准确,变异定位到的基因不准确。本实施例所述的基因组学注释模块对单核苷酸变异、插入、缺失、插入缺失共存类型的变异依据HGVS标准对氨基酸改变和变异隶属基因进行精确准确注释。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种线粒体高通量测序数据处理方法,其特征在于,所述方法包括:
S1、对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;
S2、对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则执行S3;
S3、根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则执行S4;
S4、将对比成功后的测序数据进行基因组学注释。
2.根据权利要求1所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S1的具体实现过程为:
对线粒体高通量测序数据来源进行测序鉴定,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为Ion Torrent数据。
3.根据权利要求2所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S2中若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为Ion Torrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。
4.根据权利要求3所述的一种线粒体高通量测序数据处理方法,其特征在于,所述S3中序列比对过程为:根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。
5.一种线粒体高通量测序数据处理系统,其特征在于,所述系统包括:
数据来源判断模块,用于对线粒体高通量测序数据来源进行测序鉴定获取数据格式并记录;
原始数据质量检测模块,用于对鉴定后的数据进行质控分析判断测序数据质量是否达标,若测序数据质量不达标,则退出处理流程并报告质控未达标;若测序数据质量达标,则启动序列对比模块;
序列对比模块,用于根据测序数据的来源对质量达标的测序数据进行序列比对,若序列对比未成功,则退出处理流程并报告序列对比未成功,若序列对比成功,则启动基因组学注释模块;
基因组学注释模块,用于将对比成功后的测序数据进行基因组学注释。
6.根据权利要求5所述的一种线粒体高通量测序数据处理系统,其特征在于,所述数据来源判断模块中所述的数据格式为Illnumina数据或Ion Torrent数据,若测序数据为fastq格式,则为Illnumina数据,如果为bam格式,则为Ion Torrent数据。
7.根据权利要求6所述的一种线粒体高通量测序数据处理系统,其特征在于,所述原始数据质量检测模块中,若测序数据来源为Illnumina数据,则直接进行质控分析,若测序数据来源为Ion Torrent数据,则将bam格式的文件转换为fastq格式再进行质控分析。
8.根据权利要求7所述的一种线粒体高通量测序数据处理系统,其特征在于,所述序列对比模块中,根据测序数据的来源采用不同序列比对软件将测序后100bp至300bp的测序短片段映射到线粒体基因组上。
CN201610977426.1A 2016-11-07 2016-11-07 一种线粒体高通量测序数据处理方法及系统 Pending CN106650308A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610977426.1A CN106650308A (zh) 2016-11-07 2016-11-07 一种线粒体高通量测序数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610977426.1A CN106650308A (zh) 2016-11-07 2016-11-07 一种线粒体高通量测序数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN106650308A true CN106650308A (zh) 2017-05-10

Family

ID=58806739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610977426.1A Pending CN106650308A (zh) 2016-11-07 2016-11-07 一种线粒体高通量测序数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN106650308A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109628568A (zh) * 2019-01-10 2019-04-16 上海境象生物科技有限公司 一种用于判别和校准高通量测序污染的内标及其应用
CN115691665A (zh) * 2022-12-30 2023-02-03 北京求臻医学检验实验室有限公司 基于转录因子的癌症早期筛查诊断方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102943111A (zh) * 2012-11-16 2013-02-27 北京爱普益生物科技有限公司 高通量dna测序法用于测定人类基因组中短片段串联重复基因座的用途及方法
CN103853936A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 染色质免疫共沉淀高通量测序数据处理方法
CN105320850A (zh) * 2014-08-03 2016-02-10 晶能生物技术(上海)有限公司 一种高通量测序数据匹配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102943111A (zh) * 2012-11-16 2013-02-27 北京爱普益生物科技有限公司 高通量dna测序法用于测定人类基因组中短片段串联重复基因座的用途及方法
CN103853936A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 染色质免疫共沉淀高通量测序数据处理方法
CN105320850A (zh) * 2014-08-03 2016-02-10 晶能生物技术(上海)有限公司 一种高通量测序数据匹配方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
EA LYONS ET AL: "A high-throughput Sanger strategy for human mitochondrial genome sequencing", 《BMC GENOMICS》 *
JONATHAN L.KING ET AL: "High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq", 《FORENSIC SCIENCE INTERNATIONAL GENETICS》 *
SEUNG BUM SEO ET AL: "High throughput whole mitochondrial genome sequencing by two platforms of massively parallel sequencing", 《BMC GENOMICS》 *
林彦: "基于新一代测序的数字基因表达谱生物信息学分析平台的建立及应用", 《中国优秀硕士学位论文全文数据库(电子期刊)基础科学辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109628568A (zh) * 2019-01-10 2019-04-16 上海境象生物科技有限公司 一种用于判别和校准高通量测序污染的内标及其应用
CN115691665A (zh) * 2022-12-30 2023-02-03 北京求臻医学检验实验室有限公司 基于转录因子的癌症早期筛查诊断方法
CN115691665B (zh) * 2022-12-30 2023-04-07 北京求臻医学检验实验室有限公司 基于转录因子的癌症早期筛查诊断方法

Similar Documents

Publication Publication Date Title
CN103993069B (zh) 病毒整合位点捕获测序分析方法
JP6314091B2 (ja) Dna配列のデータ分析
CN107423578B (zh) 检测体细胞突变的装置
Duncan et al. Next-Generation Sequencing in the Clinical Laboratory
CN110993023B (zh) 复杂突变的检测方法及检测装置
CN111009286A (zh) 对宿主样本进行微生物分析的方法和装置
CN102770558A (zh) 由母本生物样品进行胎儿基因组的分析
CN103114150B (zh) 基于酶切建库测序与贝叶斯统计的单核苷酸多态性位点鉴定的方法
CN110656157B (zh) 用于高通量测序样本溯源的质控品及其设计和使用方法
CA2906725C (en) Characterization of biological material using unassembled sequence information, probabilistic methods and trait-specific database catalogs
CN108229103A (zh) 循环肿瘤dna重复序列的处理方法及装置
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
CN113621716A (zh) 结核分枝杆菌多线耐药基因鉴定的方法和装置
CN115029451A (zh) 一种绵羊液相芯片及其应用
CN108595918A (zh) 循环肿瘤dna重复序列的处理方法及装置
CN108710782B (zh) 基因型转换方法、装置及电子设备
CN106650308A (zh) 一种线粒体高通量测序数据处理方法及系统
Aunin et al. The complete genome sequence of Eimeria tenella (Tyzzer 1929), a common gut parasite of chickens
CN115083521A (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
WO2017129110A1 (zh) 一种人体微生物定性与定量的检测方法
CN115458052A (zh) 基于一代测序的基因突变分析方法、设备和存储介质
CN101467032A (zh) 个体识别方法及设备
CN107967411B (zh) 一种脱靶位点的检测方法、装置及终端设备
Jabbari et al. Whole genome sequence and comparative analysis of Borrelia burgdorferi MM1
CN108359723A (zh) 一种降低深度测序错误的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510