CN114664379A - 一种基于深度学习的第三代测序数据的自校正纠错方法 - Google Patents
一种基于深度学习的第三代测序数据的自校正纠错方法 Download PDFInfo
- Publication number
- CN114664379A CN114664379A CN202210380222.5A CN202210380222A CN114664379A CN 114664379 A CN114664379 A CN 114664379A CN 202210380222 A CN202210380222 A CN 202210380222A CN 114664379 A CN114664379 A CN 114664379A
- Authority
- CN
- China
- Prior art keywords
- sequence
- quality
- image
- uncorrected
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012937 correction Methods 0.000 title claims abstract description 23
- 238000007671 third-generation sequencing Methods 0.000 title claims abstract description 20
- 238000013135 deep learning Methods 0.000 title claims abstract description 10
- 238000012163 sequencing technique Methods 0.000 claims abstract description 50
- 238000013136 deep learning model Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000001712 DNA sequencing Methods 0.000 claims abstract description 6
- 238000003908 quality control method Methods 0.000 claims abstract description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Abstract
本发明公开了一种基于深度学习的第三代测序数据的自校正纠错方法,该方法是通过对第三代DNA测序数据进行质量控制,得到高质量的测序序列;将高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将图像视为训练集,训练深度学习模型;对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrected MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;将uncorrected reads编码成的图像,输入训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;对纠正后的图像进行反编码,生成纠错后的corrected reads。
Description
技术领域
本发明涉及生物信息技术领域,具体是一种基于深度学习的第三代测序数据的自校正纠错方法。
背景技术
近年来,第三代测序技术突飞猛进,其最主要的优势是能够提供平均长度超过10kbp的长读段。这种长读段可以解决第二代测序技术由于自身的读长限制(通常小于200bp)造成的瓶颈。例如,小于200bp的读段很难组装出跨越大结构变异的基因区域,也很难检测出RNA水平上的基因融合和可变剪接事件。而第三代测序技术产生的长读段通常足以完整地覆盖这些变异区域,这使得它在组装的质量和连续性上都超过二代测序数据。除此之外,与第一代和第二代测序平台不同,第三代测序平台不再需要PCR扩增,这可以减少GC偏差,并加快测序时间。
但第三代测序技术存在一个明显的缺点。由于信噪比较低,导致其测序结果的错误率相对较高。由于测序工作流程中使用了不同的技术,不同公司推出的测序平台拥有特定的错误模式。Oxford公司推出的Nanopore链测序平台的错误率为6-15%,PacBio公司推出的单分子实时测序(SMRT)平台的错误率通常为13-15%。较高的错误率不利于组装和SNP分析等下游应用,因此降低测序数据的错误率通常是不可或缺的步骤。
目前针对第三代DNA测序数据的计算性纠错方法主要有两种,分别为混合校正策略和自校正策略。混合校正策略使用低错误率的二代测序数据来提高三代测序数据的准确率,但由于其需要同时拥有一个样本的二代和三代测序数据,在测序实验步骤往往会花费更多的时间和成本。
自校正策略避免使用二代测序数据,仅使用三代测序数据自身序列中包含的信息来校正自身。目前存在两种不同的自校正策略:(1)多序列比对:使用三代测序的长读段自身进行比对,比对成功后通过计算读段的一致性序列来执行校正;(2)使用长读段的k-mers构建de Bruijn图。这种方法先使用部分高质量的长读段构建图,之后将其余长读段逐步锚定在图中,通过遍历寻找允许将长读段锚定区域链接在一起的路径,来校正未锚定区域。
以上现有技术存在如下缺陷:通常导致读长缩短,削弱三代测序的长读长带来的优势;纠错时通常会舍弃难以矫正的片段,导致部分测序结果丢失;在大规模基因组上的纠错效果不好,不能大幅降低错误率;序列比对和一致性计算的步骤耗时长,导致整个纠错过程速度慢;自校正策略需要测序数据满足一定深度的限制才能生效。
发明内容
本发明的目的在于克服背景技术中所述的问题,减少输出读段的错误率,而提供一种基于深度学习的第三代测序数据的自校正纠错方法。
实现本发明目的的技术方案是:
一种基于深度学习的第三代测序数据的自校正纠错方法,包括如下步骤:
1)对第三代DNA测序数据进行质量控制,得到高质量的测序序列,具体是:
1-1)获取原始测序数据的碱基质量分数和序列质量分数,并利用统计分析手段计算其GC含量、序列重复级别;
1-2)对各项条件设定最低阈值,筛选出高于阈值部分的序列,视为高质量的测序序列;
2)将步骤1)得到的高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;
3)对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;具体是:
3-1)对高质量测序序列生成的MSA进行定长切片,且仅保留范围内比对序列数量大于规定阈值的切片;
3-2)对于每个切片片段,提取其中的碱基频率、测序质量、比对质量三个特征,每种特征作为图片的一个通道;
4)将步骤3)得到的图像视为训练集,训练深度学习模型;具体是:
4-1)将每张高质量测序序列生成的图像,取其中心位置处参考基因组的碱基种类作为其标签;
4-2)使用卷积神经网络对图像进行特征提取和分类,分类结果含义为每张图像中心位置处参考基因组的碱基种类;
5)对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrectedMSA;
6)对步骤5)中序列uncorrected reads生成的uncorrected MSA,采用步骤3)的方法进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;
7)对uncorrected reads编码成的图像,输入步骤4)训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;具体是:
7-1)对uncorrected reads编码成的图像,使用训练完成的卷积神经网络模型对其中心位置的碱基种类进行预测;
7-2)若预测出的碱基种类与真实图像中心位置碱基种类不匹配,则将真实图像的中心位置修正为预测的种类;
8)对纠正后的图像进行反编码,生成纠错后的corrected reads。
本发明提供的一种基于深度学习的第三代测序数据的自校正纠错方法,该方法实现了第三代DNA测序序列的纠错,有效降低了三代测序技术在大规模基因组上的错误率;提升了三代测序技术在大规模基因组上的纠错效率,减少了所需速度和计算资源需求;测序序列较低的错误率,有助于保障下游分析得出结论的正确性,也有助于提升后续组装的质量。
附图说明
图1为一种基于深度学习的第三代测序数据的自校正纠错方法的流程图。
具体实施方式
下面结合附图和实施例对本发明内容做进一步阐述,但不是对本发明的限定。
实施例:
如图1所示:
一种基于深度学习的第三代测序数据的自校正纠错方法,包括如下步骤:
1)对第三代DNA测序数据进行质量控制,得到高质量的测序序列,具体是:
1-1)获取原始测序数据的碱基质量分数和序列质量分数,并利用统计分析手段计算其GC含量、序列重复级别;
1-2)对各项条件设定最低阈值,筛选出高于阈值部分的序列,视为高质量的测序序列;
具体地可以使用FastQC软件对下机数据进行统计分析和过滤筛选。
2)将步骤1)得到的高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;具体可以使用比对软件Minimap2将高质量测序序列比对到其对应的参考基因组上,得到它的比对文件。
3)对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;具体是:
3-1)对高质量测序序列生成的MSA进行长度为15个碱基的定长切片,且仅保留范围内比对序列数量大于10条的切片;
3-2)对于每个切片片段,提取其中的碱基频率、测序质量、比对质量等特征,每种特征作为图片的一个通道。最终,每个切片片段生成一张3×15×4的图片,并将图片等比拉伸至3×255×255的大小;
4)将步骤3)得到的图像视为训练集,训练深度学习模型;具体是:
4-1)将每张高质量测序序列生成的图像,取其中心位置处参考基因组的碱基种类作为其标签,共A、T、C、G四种标签;
4-2)使用卷积神经网络inception_v4对图像进行特征提取和分类,分类结果含义为每张图像中心位置处参考基因组的碱基种类,该任务为四分类任务,将中心位置处碱基分类为A、T、C、G四种中的一种;
5)对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrectedMSA;
使用比对软件Minimap2将uncorrected reads比对到自身,得到它的比对文件。
6)对步骤5)中序列uncorrected reads生成的uncorrected MSA,采用步骤3)的方法进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;具体是:
6-1)对uncorrected reads生成的MSA进行长度为15个碱基的定长切片,且仅保留范围内比对序列数量大于10条的切片,记录切片中心位置碱基在原MSA上的坐标;
6-2)对于每个切片片段,提取其中的碱基频率、测序质量、比对质量等特征,每种特征作为图片的一个通道,最终,每个切片片段生成一张3×15×4的图片,并将图片等比拉伸至3×255×255的大小;
7)对uncorrected reads编码成的图像,输入步骤4)训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;具体是:
7-1)对uncorrected reads编码成的图像,使用训练完成的卷积神经网络模型对其中心位置的碱基种类进行预测,该任务为四分类任务,将中心位置处碱基分类为A、T、C、G四种中的一种;
7-2)若预测出的碱基种类与真实图像中心位置碱基种类不匹配,则将真实图像的中心位置修正为预测的种类;
8)对纠正后的图像进行反编码,生成纠错后的corrected reads;具体是:
8-1)对每张图片,若经过步骤7)后图片被修正,则根据切片中心位置碱基在原MSA上的坐标,对原MSA上的对应碱基进行修正;
8-2)输出一致性序列,作为纠错后的corrected reads。
Claims (1)
1.一种基于深度学习的第三代测序数据的自校正纠错方法,其特征在于,包括如下步骤:
1)对第三代DNA测序数据进行质量控制,得到高质量的测序序列,具体是:
1-1)获取原始测序数据的碱基质量分数和序列质量分数,并利用统计分析手段计算其GC含量、序列重复级别;
1-2)对各项条件设定最低阈值,筛选出高于阈值部分的序列,视为高质量的测序序列;
2)将步骤1)得到的高质量测序序列与其对应的参考基因组进行比对,得到比对序列MSA;
3)对高质量测序序列生成的MSA进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;具体是:
3-1)对高质量测序序列生成的MSA进行定长切片,且仅保留范围内比对序列数量大于规定阈值的切片;
3-2)对于每个切片片段,提取其中的碱基频率、测序质量、比对质量三个特征,每种特征作为图片的一个通道;
4)将步骤3)得到的图像视为训练集,训练深度学习模型;具体是:
4-1)将每张高质量测序序列生成的图像,取其中心位置处参考基因组的碱基种类作为其标签;
4-2)使用卷积神经网络对图像进行特征提取和分类,分类结果含义为每张图像中心位置处参考基因组的碱基种类;
5)对未纠错的序列uncorrected reads执行自我比对,得到比对序列uncorrectedMSA;
6)对步骤5)中序列uncorrected reads生成的uncorrected MSA,采用步骤3)的方法进行定长的切片,对于每个片段,提取其中的有用特征,并将其编码成图像;
7)对uncorrected reads编码成的图像,输入步骤4)训练完成的深度学习模型中进行分类,若分类结果与真实图像中心位置碱基种类不匹配,则纠正真实图像;具体是:
7-1)对uncorrected reads编码成的图像,使用训练完成的卷积神经网络模型对其中心位置的碱基种类进行预测;
7-2)若预测出的碱基种类与真实图像中心位置碱基种类不匹配,则将真实图像的中心位置修正为预测的种类;
8)对纠正后的图像进行反编码,生成纠错后的corrected reads。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210380222.5A CN114664379A (zh) | 2022-04-12 | 2022-04-12 | 一种基于深度学习的第三代测序数据的自校正纠错方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210380222.5A CN114664379A (zh) | 2022-04-12 | 2022-04-12 | 一种基于深度学习的第三代测序数据的自校正纠错方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114664379A true CN114664379A (zh) | 2022-06-24 |
Family
ID=82035472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210380222.5A Pending CN114664379A (zh) | 2022-04-12 | 2022-04-12 | 一种基于深度学习的第三代测序数据的自校正纠错方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114664379A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024007190A1 (en) * | 2022-07-06 | 2024-01-11 | GeneSense Technology Inc. | Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108629156A (zh) * | 2017-03-21 | 2018-10-09 | 深圳华大基因科技服务有限公司 | 三代测序数据纠错的方法、装置和计算机可读存储介质 |
US10354747B1 (en) * | 2016-05-06 | 2019-07-16 | Verily Life Sciences Llc | Deep learning analysis pipeline for next generation sequencing |
CN112349350A (zh) * | 2020-11-09 | 2021-02-09 | 山西大学 | 基于一种杜氏藻核心基因组序列进行品系鉴定的方法 |
CN113168886A (zh) * | 2018-08-13 | 2021-07-23 | 豪夫迈·罗氏有限公司 | 用于使用神经网络进行种系和体细胞变体调用的系统和方法 |
-
2022
- 2022-04-12 CN CN202210380222.5A patent/CN114664379A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354747B1 (en) * | 2016-05-06 | 2019-07-16 | Verily Life Sciences Llc | Deep learning analysis pipeline for next generation sequencing |
CN108629156A (zh) * | 2017-03-21 | 2018-10-09 | 深圳华大基因科技服务有限公司 | 三代测序数据纠错的方法、装置和计算机可读存储介质 |
CN113168886A (zh) * | 2018-08-13 | 2021-07-23 | 豪夫迈·罗氏有限公司 | 用于使用神经网络进行种系和体细胞变体调用的系统和方法 |
CN112349350A (zh) * | 2020-11-09 | 2021-02-09 | 山西大学 | 基于一种杜氏藻核心基因组序列进行品系鉴定的方法 |
Non-Patent Citations (2)
Title |
---|
王靖会;孙启明;: "基于POA有向无环图及隐马尔科夫模型的优化PHMM算法", 农业与技术, no. 09, 15 May 2016 (2016-05-15) * |
马东娜;张兴坦;魏柳锋;李仪莹;钟伟民;赵茜;尤民生;: "基因组二代测序数据与三代测序数据的混合校正和组装", 基因组学与应用生物学, no. 04, 25 April 2018 (2018-04-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024007190A1 (en) * | 2022-07-06 | 2024-01-11 | GeneSense Technology Inc. | Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wenger et al. | Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome | |
Cai et al. | The perfect storm: gene tree estimation error, incomplete lineage sorting, and ancient gene flow explain the most recalcitrant ancient angiosperm clade, Malpighiales | |
US10777301B2 (en) | Hierarchical genome assembly method using single long insert library | |
Parchman et al. | RADseq approaches and applications for forest tree genetics | |
CN107615283B (zh) | 用于二倍体基因组组装和单倍型序列重建的方法、软件和系统 | |
CN106650739B (zh) | 一种车牌字符切割新方法 | |
CN104531848A (zh) | 一种组装基因组序列的方法和系统 | |
CN114664379A (zh) | 一种基于深度学习的第三代测序数据的自校正纠错方法 | |
WO2022267867A1 (zh) | 基因测序分析方法、装置、存储介质和计算机设备 | |
US20150169823A1 (en) | String graph assembly for polyploid genomes | |
Wu et al. | MEC: Misassembly error correction in contigs based on distribution of paired-end reads and statistics of GC-contents | |
Rivera-Colón et al. | Population genomics analysis with RAD, reprised: Stacks 2 | |
CN112086131A (zh) | 一种高通量测序中假阳性变异位点的筛选方法 | |
CN111292806B (zh) | 一种利用纳米孔测序的转录组分析方法 | |
CN114005489B (zh) | 基于三代测序数据检测点突变的分析方法和装置 | |
US20200043571A1 (en) | Methods and systems for modeling phasing effects in sequencing using termination chemistry | |
WO2016109981A1 (zh) | 一种dna合成产物的高通量检测方法 | |
CN114717294A (zh) | 一种近海沉积物自养微生物菌群及固碳途径解析方法 | |
EP2943906A1 (en) | Transcript determination method | |
CN112164424A (zh) | 一种基于无参考基因组的群体进化分析方法 | |
Li et al. | Inference of Ancient Polyploidy Using Transcriptome Data | |
Lee et al. | DUDE-Seq: Fast, flexible, and robust denoising of nucleotide sequences | |
US20230343415A1 (en) | Generating cluster-specific-signal corrections for determining nucleotide-base calls | |
CN113449533B (zh) | 一种基于条形码序列的读长比对方法和装置 | |
Shafin | Accurate Genome Analysis with Nanopore Sequencing Using Deep Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |