CN105893788B - 利用参考基因组信息的半导体测序平台的测序数据校正方法 - Google Patents

利用参考基因组信息的半导体测序平台的测序数据校正方法 Download PDF

Info

Publication number
CN105893788B
CN105893788B CN201610265225.9A CN201610265225A CN105893788B CN 105893788 B CN105893788 B CN 105893788B CN 201610265225 A CN201610265225 A CN 201610265225A CN 105893788 B CN105893788 B CN 105893788B
Authority
CN
China
Prior art keywords
base
voltage
magnitude
gene group
reference gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610265225.9A
Other languages
English (en)
Other versions
CN105893788A (zh
Inventor
冯伟兴
薛丁恺
赵森
陈多娇
贺波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201610265225.9A priority Critical patent/CN105893788B/zh
Publication of CN105893788A publication Critical patent/CN105893788A/zh
Application granted granted Critical
Publication of CN105893788B publication Critical patent/CN105893788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明提供的是一种利用参考基因组信息的半导体测序平台的测序数据校正方法。1)利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布;2)当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正,利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl;取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,完成测序数据校正。本发明创新性地提出测得电压值解算碱基长度的过程中,在测得电压值基础上,引入参考基因组信息,以实现对测序数据的校正。

Description

利用参考基因组信息的半导体测序平台的测序数据校正方法
技术领域
本发明涉及的是一种分子生物信息检测方法。具体是针对新一代半导体测序平台的测序数据校正方法。
背景技术
随着生物检测技术的迅猛发展,Illumina的Solexa、Life Sciences的454和ABI的SOLiD等第二代测序平台逐渐被新一代测序平台所取代。这包括Illumina的MiSeq、NextSeq、HiSeq系列,ABI的Ion Torrent、Ion Proton、Ion PGM系列,以及Oxford NanoporeTechnologies的MinION等。尽管新一代测序平台的推出使得生物信息检测的深度更深、成本更低、效率更高,但由于检测原理不同,原有高通量测序数据的解读方法将不得不作出相应改变。
在新推出的新一代测序平台中,ABI的Ion Torrent、Ion Proton、Ion PGM系列采用了独特的半导体测序技术。该技术利用半导体芯片进行测序,摆脱了传统技术中光学成像装置的限制,极大的提高了测序速度,缩减了测序成本,并使测序技术应用于临床成为可能。
半导体测序技术的测序原理是:在半导体芯片布满油滴的微孔中放入富含待测序碱基序列的微球,待测序碱基序列呈单链形态。一个检测周期,向微孔中加入A、C、G、T等四种脱氧核糖核苷酸中的一种。当加入的脱氧核糖核苷酸与待测序的碱基序列相匹配并发生结合反应时,释放出氢离子,导致溶液PH值发生变化。半导体芯片后端的传感器将PH值转变为电压信号输出。依据所加的脱氧核糖核苷酸类型和输出电压信号的幅值,解读出此次检测周期测得的碱基类型和碱基长度。重复上述过程,即可完成整个测序。理论上,一个检测周期,被测碱基的碱基长度为n时,测序平台应输出n伏电压。但实际上,输出电压的幅值不会正好是n伏,因此,如何依据输出的电压值准确判定被测碱基的碱基长度是半导体测序平台的一个关键技术问题。
在实际应用中,半导体测序平台测序完成后,会自动生成SFF和BAM两个文件。SFF文件存储的是原始测序数据,包括若干条测序读数,一个测序读数对应一个被测碱基序列。每个测序读数包含每次检测周期检测的碱基类型、测得电压值、根据测得电压值解算得到的碱基长度,以及据此推算得到的测序序列。BAM文件是每个测序读数的碱基序列在参考基因组中的匹配映射结果。由于SFF文件中,测得电压值解算碱基长度仅考虑了电压值本身,因此,存在一定的错误率。
发明内容
本发明的目的在于提供一种能有效提高半导体测序平台测序数据的准确性的利用参考基因组信息的半导体测序平台的测序数据校正方法。
本发明的目的是这样实现的:
(1)由半导体测序平台产生的SFF原始测序文件,获得每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,以及该检测周期的序号;
(2)由半导体测序平台产生的BAM匹配映射文件,根据描述每一个测序读数的碱基序列在参考基因组上匹配映射结果的CIGAR字符串和MD标记信息,提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度;
(3)测序数据校正
1)利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布;
2)当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正,利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl
式中,Sijl表示测得电压值已知时、基于先验概率分布、利用贝叶斯公式计算得到的碱基类型为i、检测周期序号为j、碱基长度为l的后验概率,0≤Sijl≤1;Spen表示碱基长度为l时、与参考基因组对应碱基长度不一致的惩罚值,不一致程度越大,惩罚值越大,0≤Spen≤1;
3)取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,完成测序数据校正。
按不同的碱基长度、不同的检测周期序号、不同的碱基类型分别计算测得电压值的先验概率分布。
由于相同物种不同个体的基因组之间的差异非常小,本发明创新性地提出测得电压值解算碱基长度的过程中,在测得电压值基础上,引入参考基因组信息,以实现对测序数据的校正。
本发明的效果在于:利用参考基因组信息对半导体测序平台的测序数据进行校正,从而有效提高该类测序平台测序数据的准确性。
附图说明
图1为已知碱基长度的被测电压值的先验概率分布(碱基类型=A,检测周期序号=1-50)。
图2为测序数据校正前后的错误率表。
图3为本发明的流程图。
具体实施方式
下面举例对本发明作进一步描述:
结合图3本发明的主要步骤包括:
1、由半导体测序平台产生的SFF原始测序文件,获得每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,以及该检测周期的序号。
每个测序过程中,每个检测周期加入的脱氧核糖核苷酸的种类是固定不变的,因此,根据检测周期的序号可以得到该检测周期的检测碱基种类,同时从文件中读出该检测周期的测得电压值。
理论上,被测碱基的碱基长度为n时,测序平台应输出n伏电压。但实际上,输出电压的幅值不会正好是n伏。
2、由半导体测序平台产生的BAM匹配映射文件,根据描述每一个测序读数的碱基序列在参考基因组上匹配映射结果的CIGAR字符串和MD标记信息,提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度。
具体来讲,就是根据BAM文件中的CIGAR字符串和MD标记信息,对参考基因组碱基序列进行还原。从该还原序列中提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度。
3、测序数据校正
首先,利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布。为了保证分析精度,按不同的碱基长度、不同的检测周期序号、不同的碱基类型分别计算测得电压值的先验概率分布。
然后,当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正。利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl
式中,Sijl表示测得电压值已知时,基于先验概率分布,利用贝叶斯公式计算得到的碱基类型为i,检测周期序号为j,碱基长度为l的后验概率,0≤Sijl≤1;Spen表示碱基长度为l时,与参考基因组对应碱基长度不一致的惩罚值,不一致程度越大,惩罚值越大,0≤Spen≤1。取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,从而完成测序数据校正。
4、实验验证
针对一个生物样本用Ion Proton测序平台进行了测序。从平台生成的SFF和BAM文件中,提取了每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,检测周期的序号,检测碱基的解读长度,以及参考基因组中对应碱基的长度。
随后,利用检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率。为了保证分析精度,按不同的碱基长度(2,3,4,5,6)、不同的检测周期序号(1-50,51-100,101-150,151-200,200-249)、不同的碱基类型(A,C,G,T)分别计算测得电压值的100个先验概率分布。图1为碱基类型为A,检测周期序号为1-50,碱基长度分别为2,3,4,5,6时的先验概率分布曲线。
然后,当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,利用所提方法对测序数据的碱基长度进行校正。这里,Spen定义为:错配0.1,插入/删除0.2*n,n为插入或删除的碱基个数,最大不超过5。
最后,对同一个生物样本用Illumina测序平台进行了测序,由于Illumina测序平台一个检测周期只检测一个碱基,因此,可精确测定碱基长度。
以Illumina测序平台的测序结果为依据,利用本发明所提方法校正的测序数据的错误率远小于校正前测序数据的错误率。具体见图2的测序数据校正前后的错误率表。

Claims (2)

1.一种利用参考基因组信息的半导体测序平台的测序数据校正方法,其特征是:
(1)由半导体测序平台产生的SFF原始测序文件,获得每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,以及该检测周期的序号;
(2)由半导体测序平台产生的BAM匹配映射文件,根据描述每一个测序读数的碱基序列在参考基因组上匹配映射结果的CIGAR字符串和MD标记信息,提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度;
(3)测序数据校正
1)利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布;
2)当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正,利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl
<mrow> <msub> <mi>S</mi> <mi>l</mi> </msub> <mo>=</mo> <mfrac> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mi>j</mi> <mi>l</mi> </mrow> </msub> <msub> <mi>S</mi> <mrow> <mi>p</mi> <mi>e</mi> <mi>n</mi> </mrow> </msub> </mfrac> </mrow>
式中,Sijl表示测得电压值已知时、基于先验概率分布、利用贝叶斯公式计算得到的碱基类型为i、检测周期序号为j、碱基长度为l的后验概率,0≤Sijl≤1;Spen表示碱基长度为l时、与参考基因组对应碱基长度不一致的惩罚值,不一致程度越大,惩罚值越大,0≤Spen≤1;
3)取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,完成测序数据校正。
2.根据权利要求1所述的利用参考基因组信息的半导体测序平台的测序数据校正方法,其特征是:按不同的碱基长度、不同的检测周期序号、不同的碱基类型分别计算测得电压值的先验概率分布。
CN201610265225.9A 2016-04-26 2016-04-26 利用参考基因组信息的半导体测序平台的测序数据校正方法 Active CN105893788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610265225.9A CN105893788B (zh) 2016-04-26 2016-04-26 利用参考基因组信息的半导体测序平台的测序数据校正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610265225.9A CN105893788B (zh) 2016-04-26 2016-04-26 利用参考基因组信息的半导体测序平台的测序数据校正方法

Publications (2)

Publication Number Publication Date
CN105893788A CN105893788A (zh) 2016-08-24
CN105893788B true CN105893788B (zh) 2018-04-17

Family

ID=56704649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610265225.9A Active CN105893788B (zh) 2016-04-26 2016-04-26 利用参考基因组信息的半导体测序平台的测序数据校正方法

Country Status (1)

Country Link
CN (1) CN105893788B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106199970A (zh) * 2016-08-30 2016-12-07 北京乐动卓越科技有限公司 一种头戴设备的防疲劳方法和系统
CN109785899B (zh) * 2019-02-18 2020-01-07 东莞博奥木华基因科技有限公司 一种基因型校正的装置和方法
CN113249455A (zh) * 2020-02-12 2021-08-13 赛纳生物科技(北京)有限公司 一种基因测序中获得背景信号的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622534A (zh) * 2012-04-11 2012-08-01 哈尔滨工程大学 一种用于基因表达检测的dna高通测序数据校正方法
JP5344670B2 (ja) * 2008-02-13 2013-11-20 独立行政法人放射線医学総合研究所 遺伝子発現解析方法、遺伝子発現解析装置、および遺伝子発現解析プログラム
CN105205350A (zh) * 2015-08-28 2015-12-30 哈尔滨工程大学 一种Ion Torrent测序数据中多聚碱基的长度判定方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10119166B2 (en) * 2013-02-12 2018-11-06 Mdxhealth, Sa Methods and kits for identifying and adjusting for bias in sequencing of polynucleotide samples

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5344670B2 (ja) * 2008-02-13 2013-11-20 独立行政法人放射線医学総合研究所 遺伝子発現解析方法、遺伝子発現解析装置、および遺伝子発現解析プログラム
CN102622534A (zh) * 2012-04-11 2012-08-01 哈尔滨工程大学 一种用于基因表达检测的dna高通测序数据校正方法
CN105205350A (zh) * 2015-08-28 2015-12-30 哈尔滨工程大学 一种Ion Torrent测序数据中多聚碱基的长度判定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A method for Homopolymer Length Discrimination In Ion Torrent Sequencing;Weixing Feng等;《Proceedings of the 34th Chinese Control Conference》;20150914;第8550-8553页 *
基于Ion Torrent平台测序数据的微生物全基因组序列组装及分析方法;徐晓蒙;《中国优秀硕士学位论文全文数据库》;20160215(第2期);全文 *

Also Published As

Publication number Publication date
CN105893788A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
Lanzén et al. CREST–classification resources for environmental sequence tags
Calderón‐Sanou et al. From environmental DNA sequences to ecological conclusions: How strong is the influence of methodological choices?
Woodcroft et al. Genome-centric view of carbon processing in thawing permafrost
Alves et al. Unifying the global phylogeny and environmental distribution of ammonia-oxidising archaea based on amoA genes
Will et al. LocARNA-P: accurate boundary prediction and improved detection of structural RNAs
Nersisyan et al. Computel: computation of mean telomere length from whole-genome next-generation sequencing data
CN105893788B (zh) 利用参考基因组信息的半导体测序平台的测序数据校正方法
Chaisson et al. Mapping single molecule sequencing reads using basic local alignment with successive refinement (BLASR): application and theory
CN106033502A (zh) 鉴定病毒的方法和装置
CN103984879B (zh) 一种测定待测基因组区域表达水平的方法及系统
CN102686740A (zh) 序列校正方法与序列校正装置
Brozynska et al. Direct chloroplast sequencing: comparison of sequencing platforms and analysis tools for whole chloroplast barcoding
CN105849555A (zh) 用于错误校正的序列读数迭代聚类
CN107944225A (zh) 基因高通量测序数据突变检测方法
WO2017189677A1 (en) Machine learning techniques for analysis of structural variants
CN105637126A (zh) 使用电方法的分子分析物的数字分析
Chan et al. Evaluation of dynamic time warp barycenter averaging (DBA) for its potential in generating a consensus nanopore signal for genetic and epigenetic sequences
CN107202661B (zh) 一种基于伪最大公约数的拉索振动频阶识别方法
CN105205350B (zh) 一种Ion Torrent测序数据中多聚碱基的长度判定方法
Kim et al. A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes
JP5344670B2 (ja) 遺伝子発現解析方法、遺伝子発現解析装置、および遺伝子発現解析プログラム
Gutierrez-Diaz et al. Systematic computational hunting for small RNAs derived from ncRNAs during dengue virus infection in endothelial HMEC-1 cells
JP2006170670A (ja) 遺伝子発現量規格化方法、プログラム、並びにシステム
Sangster et al. Integrative taxonomy of eared nightjars (Aves: Lyncornis) underscores the complementarity of morphology, vocalizations and DNA evidence
Murray et al. Dictionary coded profiles and their use with nanopore sequencers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant