CN105893788A - 利用参考基因组信息的半导体测序平台的测序数据校正方法 - Google Patents
利用参考基因组信息的半导体测序平台的测序数据校正方法 Download PDFInfo
- Publication number
- CN105893788A CN105893788A CN201610265225.9A CN201610265225A CN105893788A CN 105893788 A CN105893788 A CN 105893788A CN 201610265225 A CN201610265225 A CN 201610265225A CN 105893788 A CN105893788 A CN 105893788A
- Authority
- CN
- China
- Prior art keywords
- base
- length
- order
- sequencing
- voltage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明提供的是一种利用参考基因组信息的半导体测序平台的测序数据校正方法。1)利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布;2)当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正,利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl;取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,完成测序数据校正。本发明创新性地提出测得电压值解算碱基长度的过程中,在测得电压值基础上,引入参考基因组信息,以实现对测序数据的校正。
Description
技术领域
本发明涉及的是一种分子生物信息检测方法。具体是针对新一代半导体测序平台的测序数据校正方法。
背景技术
随着生物检测技术的迅猛发展,Illumina的Solexa、Life Sciences的454和ABI的SOLiD等第二代测序平台逐渐被新一代测序平台所取代。这包括Illumina的MiSeq、NextSeq、HiSeq系列,ABI的Ion Torrent、Ion Proton、Ion PGM系列,以及Oxford Nanopore Technologies的MinION等。尽管新一代测序平台的推出使得生物信息检测的深度更深、成本更低、效率更高,但由于检测原理不同,原有高通量测序数据的解读方法将不得不作出相应改变。
在新推出的新一代测序平台中,ABI的Ion Torrent、Ion Proton、Ion PGM系列采用了独特的半导体测序技术。该技术利用半导体芯片进行测序,摆脱了传统技术中光学成像装置的限制,极大的提高了测序速度,缩减了测序成本,并使测序技术应用于临床成为可能。
半导体测序技术的测序原理是:在半导体芯片布满油滴的微孔中放入富含待测序碱基序列的微球,待测序碱基序列呈单链形态。一个检测周期,向微孔中加入A、C、G、T等四种脱氧核糖核苷酸中的一种。当加入的脱氧核糖核苷酸与待测序的碱基序列相匹配并发生结合反应时,释放出氢离子,导致溶液PH值发生变化。半导体芯片后端的传感器将PH值转变为电压信号输出。依据所加的脱氧核糖核苷酸类型和输出电压信号的幅值,解读出此次检测周期测得的碱基类型和碱基长度。重复上述过程,即可完成整个测序。理论上,一个检测周期,被测碱基的碱基长度为n时,测序平台应输出n伏电压。但实际上,输出电压的幅值不会正好是n伏,因此,如何依据输出的电压值准确判定被测碱基的碱基长度是半导体测序平台的一个关键技术问题。
在实际应用中,半导体测序平台测序完成后,会自动生成SFF和BAM两个文件。SFF文件存储的是原始测序数据,包括若干条测序读数,一个测序读数对应一个被测碱基序列。每个测序读数包含每次检测周期检测的碱基类型、测得电压值、根据测得电压值解算得到的碱基长度,以及据此推算得到的测序序列。BAM文件是每个测序读数的碱基序列在参考基因组中的匹配映射结果。由于SFF文件中,测得电压值解算碱基长度仅考虑了电压值本身,因此,存在一定的错误率。
发明内容
本发明的目的在于提供一种能有效提高半导体测序平台测序数据的准确性的利用参考基因组信息的半导体测序平台的测序数据校正方法。
本发明的目的是这样实现的:
(1)由半导体测序平台产生的SFF原始测序文件,获得每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,以及该检测周期的序号;
(2)由半导体测序平台产生的BAM匹配映射文件,根据描述每一个测序读数的碱基序列在参考基因组上匹配映射结果的CIGAR字符串和MD标记信息,提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度;
(3)测序数据校正
1)利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布;
2)当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正,利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl,
式中,Sijl表示测得电压值已知时、基于先验概率分布、利用贝叶斯公式计算得到的碱基类型为i、检测周期序号为j、碱基长度为l的后验概率,0≤Sijl≤1;Spen表示碱基长度为l时、与参考基因组对应碱基长度不一致的惩罚值,不一致程度越大,惩罚值越大,0≤Spen≤1;
3)取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,完成测序数据校正。
按不同的碱基长度、不同的检测周期序号、不同的碱基类型分别计算测得电压值的先验概率分布。
由于相同物种不同个体的基因组之间的差异非常小,本发明创新性地提出测得电压值解算碱基长度的过程中,在测得电压值基础上,引入参考基因组信息,以实现对测序数据的校正。
本发明的效果在于:利用参考基因组信息对半导体测序平台的测序数据进行校正,从而有效提高该类测序平台测序数据的准确性。
附图说明
图1为已知碱基长度的被测电压值的先验概率分布(碱基类型=A,检测周期序号=1-50)。
图2为测序数据校正前后的错误率表。
图3为本发明的流程图。
具体实施方式
下面举例对本发明作进一步描述:
结合图3本发明的主要步骤包括:
1、由半导体测序平台产生的SFF原始测序文件,获得每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,以及该检测周期的序号。
每个测序过程中,每个检测周期加入的脱氧核糖核苷酸的种类是固定不变的,因此,根据检测周期的序号可以得到该检测周期的检测碱基种类,同时从文件中读出该检测周期的测得电压值。
理论上,被测碱基的碱基长度为n时,测序平台应输出n伏电压。但实际上,输出电压的幅值不会正好是n伏。
2、由半导体测序平台产生的BAM匹配映射文件,根据描述每一个测序读数的碱基序列在参考基因组上匹配映射结果的CIGAR字符串和MD标记信息,提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度。
具体来讲,就是根据BAM文件中的CIGAR字符串和MD标记信息,对参考基因组碱基序列进行还原。从该还原序列中提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度。
3、测序数据校正
首先,利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布。为了保证分析精度,按不同的碱基长度、不同的检测周期序号、不同的碱基类型分别计算测得电压值的先验概率分布。
然后,当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正。利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl。
式中,Sijl表示测得电压值已知时,基于先验概率分布,利用贝叶斯公式计算得到的碱基类型为i,检测周期序号为j,碱基长度为l的后验概率,0≤Sijl≤1;Spen表示碱基长度为l时,与参考基因组对应碱基长度不一致的惩罚值,不一致程度越大,惩罚值越大,0≤Spen≤1。取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,从而完成测序数据校正。
4、实验验证
针对一个生物样本用Ion Proton测序平台进行了测序。从平台生成的SFF和BAM文件中,提取了每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,检测周期的序号,检测碱基的解读长度,以及参考基因组中对应碱基的长度。
随后,利用检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率。为了保证分析精度,按不同的碱基长度(2,3,4,5,6)、不同的检测周期序号(1-50,51-100,101-150,151-200,200-249)、不同的碱基类型(A,C,G,T)分别计算测得电压值的100个先验概率分布。图1为碱基类型为A,检测周期序号为1-50,碱基长度分别为2,3,4,5,6时的先验概率分布曲线。
然后,当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,利用所提方法对测序数据的碱基长度进行校正。这里,Spen定义为:错配0.1,插入/删除0.2*n,n为插入或删除的碱基个数,最大不超过5。
最后,对同一个生物样本用Illumina测序平台进行了测序,由于Illumina测序平台一个检测周期只检测一个碱基,因此,可精确测定碱基长度。
以Illumina测序平台的测序结果为依据,利用本发明所提方法校正的测序数据的错误率远小于校正前测序数据的错误率。具体见图2的测序数据校正前后的错误率表。
Claims (2)
1.一种利用参考基因组信息的半导体测序平台的测序数据校正方法,其特征是:
(1)由半导体测序平台产生的SFF原始测序文件,获得每一个测序读数在每一个检测周期中检测碱基的种类和测得电压值,以及该检测周期的序号;
(2)由半导体测序平台产生的BAM匹配映射文件,根据描述每一个测序读数的碱基序列在参考基因组上匹配映射结果的CIGAR字符串和MD标记信息,提取每一个测序读数在每一个检测周期中检测碱基的解读长度,以及参考基因组中对应碱基的长度;
(3)测序数据校正
1)利用半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度一致时的测得电压值,计算碱基长度已知时测得电压值的先验概率分布;
2)当半导体测序平台测序数据中检测碱基的解读长度与参考基因组中对应碱基的长度不一致时,对测序数据的碱基长度进行校正,利用下式计算测得电压值已知时,假定碱基长度为l时的值Sl,
式中,Sijl表示测得电压值已知时、基于先验概率分布、利用贝叶斯公式计算得到的碱基类型为i、检测周期序号为j、碱基长度为l的后验概率,0≤Sijl≤1;Spen表示碱基长度为l时、与参考基因组对应碱基长度不一致的惩罚值,不一致程度越大,惩罚值越大,0≤Spen≤1;
3)取Sl最大时对应的碱基长度l,即为测得电压值已知时被测碱基的碱基长度,完成测序数据校正。
2.根据权利要求1所述的利用参考基因组信息的半导体测序平台的测序数据校正方法,其特征是:按不同的碱基长度、不同的检测周期序号、不同的碱基类型分别计算测得电压值的先验概率分布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610265225.9A CN105893788B (zh) | 2016-04-26 | 2016-04-26 | 利用参考基因组信息的半导体测序平台的测序数据校正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610265225.9A CN105893788B (zh) | 2016-04-26 | 2016-04-26 | 利用参考基因组信息的半导体测序平台的测序数据校正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105893788A true CN105893788A (zh) | 2016-08-24 |
CN105893788B CN105893788B (zh) | 2018-04-17 |
Family
ID=56704649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610265225.9A Active CN105893788B (zh) | 2016-04-26 | 2016-04-26 | 利用参考基因组信息的半导体测序平台的测序数据校正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893788B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106199970A (zh) * | 2016-08-30 | 2016-12-07 | 北京乐动卓越科技有限公司 | 一种头戴设备的防疲劳方法和系统 |
CN109785899A (zh) * | 2019-02-18 | 2019-05-21 | 东莞博奥木华基因科技有限公司 | 一种基因型校正的装置和方法 |
CN113249455A (zh) * | 2020-02-12 | 2021-08-13 | 赛纳生物科技(北京)有限公司 | 一种基因测序中获得背景信号的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622534A (zh) * | 2012-04-11 | 2012-08-01 | 哈尔滨工程大学 | 一种用于基因表达检测的dna高通测序数据校正方法 |
JP5344670B2 (ja) * | 2008-02-13 | 2013-11-20 | 独立行政法人放射線医学総合研究所 | 遺伝子発現解析方法、遺伝子発現解析装置、および遺伝子発現解析プログラム |
WO2014125421A1 (en) * | 2013-02-12 | 2014-08-21 | Mdxhealth, Inc. | Methods and kits for identifying and adjusting for bias in sequencing of polynucleotide samples |
CN105205350A (zh) * | 2015-08-28 | 2015-12-30 | 哈尔滨工程大学 | 一种Ion Torrent测序数据中多聚碱基的长度判定方法 |
-
2016
- 2016-04-26 CN CN201610265225.9A patent/CN105893788B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5344670B2 (ja) * | 2008-02-13 | 2013-11-20 | 独立行政法人放射線医学総合研究所 | 遺伝子発現解析方法、遺伝子発現解析装置、および遺伝子発現解析プログラム |
CN102622534A (zh) * | 2012-04-11 | 2012-08-01 | 哈尔滨工程大学 | 一种用于基因表达检测的dna高通测序数据校正方法 |
WO2014125421A1 (en) * | 2013-02-12 | 2014-08-21 | Mdxhealth, Inc. | Methods and kits for identifying and adjusting for bias in sequencing of polynucleotide samples |
CN105205350A (zh) * | 2015-08-28 | 2015-12-30 | 哈尔滨工程大学 | 一种Ion Torrent测序数据中多聚碱基的长度判定方法 |
Non-Patent Citations (2)
Title |
---|
WEIXING FENG等: "A method for Homopolymer Length Discrimination In Ion Torrent Sequencing", 《PROCEEDINGS OF THE 34TH CHINESE CONTROL CONFERENCE》 * |
徐晓蒙: "基于Ion Torrent平台测序数据的微生物全基因组序列组装及分析方法", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106199970A (zh) * | 2016-08-30 | 2016-12-07 | 北京乐动卓越科技有限公司 | 一种头戴设备的防疲劳方法和系统 |
CN109785899A (zh) * | 2019-02-18 | 2019-05-21 | 东莞博奥木华基因科技有限公司 | 一种基因型校正的装置和方法 |
CN113249455A (zh) * | 2020-02-12 | 2021-08-13 | 赛纳生物科技(北京)有限公司 | 一种基因测序中获得背景信号的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105893788B (zh) | 2018-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nersisyan et al. | Computel: computation of mean telomere length from whole-genome next-generation sequencing data | |
CN1252714C (zh) | 信息记录和再现装置、评估方法以及信息记录和再现介质 | |
CN105893788A (zh) | 利用参考基因组信息的半导体测序平台的测序数据校正方法 | |
CN107180166A (zh) | 一种基于三代测序的全基因组结构变异分析方法和系统 | |
DE60319816D1 (de) | Verfahren zum automatischen erkennen von zellen mit krankheitsbezogener molekularmarkierungs-kompartimentierung | |
CN102686740B (zh) | 序列校正方法与序列校正装置 | |
CN102831055B (zh) | 基于加权属性的测试用例选择方法 | |
CN102622534B (zh) | 一种用于基因表达检测的dna高通测序数据校正方法 | |
CN107784201B (zh) | 一种二代序列和三代单分子实时测序序列联合补洞方法和系统 | |
CN105989246A (zh) | 一种基于基因组组装的变异检测方法和装置 | |
CN106021983A (zh) | 一种dna及蛋白质水平突变分析方法 | |
CN109979528A (zh) | 一种单细胞免疫组库测序数据的分析方法 | |
US20040142347A1 (en) | Mitochondrial DNA autoscoring system | |
CN115470750A (zh) | 基于追踪文件的芯片性能验证系统 | |
CN110910954A (zh) | 一种低深度全基因组基因拷贝数变异的检测方法及系统 | |
US20150142328A1 (en) | Calculation method for interchromosomal translocation position | |
CN115826070B (zh) | 利用岩心编录仪确定待探测的白岗岩型铀矿中具有开采价值位置的方法 | |
CN111767546A (zh) | 一种基于深度学习的输入结构推断方法和装置 | |
Marić | Long read RNA-seq mapper | |
JP5730345B2 (ja) | 占有検出方法および装置 | |
Kim et al. | A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes | |
CN105205350B (zh) | 一种Ion Torrent测序数据中多聚碱基的长度判定方法 | |
CN110489604A (zh) | 一种用于燃气轮机试验测量数据的解析方法及系统 | |
JP5344670B2 (ja) | 遺伝子発現解析方法、遺伝子発現解析装置、および遺伝子発現解析プログラム | |
CN103810404A (zh) | 基于贝叶斯的高通量dna测序数据匹配增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |