CN116486910B - 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 - Google Patents

纳米孔测序碱基识别的深度学习训练集建立方法及其应用 Download PDF

Info

Publication number
CN116486910B
CN116486910B CN202211268928.9A CN202211268928A CN116486910B CN 116486910 B CN116486910 B CN 116486910B CN 202211268928 A CN202211268928 A CN 202211268928A CN 116486910 B CN116486910 B CN 116486910B
Authority
CN
China
Prior art keywords
neural network
dna
sequence
template
current signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211268928.9A
Other languages
English (en)
Other versions
CN116486910A (zh
Inventor
谭泽顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Puyi Biotechnology Co ltd
Original Assignee
Beijing Puyi Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Puyi Biotechnology Co ltd filed Critical Beijing Puyi Biotechnology Co ltd
Priority to CN202211268928.9A priority Critical patent/CN116486910B/zh
Publication of CN116486910A publication Critical patent/CN116486910A/zh
Application granted granted Critical
Publication of CN116486910B publication Critical patent/CN116486910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Chemical & Material Sciences (AREA)
  • Epidemiology (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了纳米孔测序碱基识别的深度学习训练集建立方法及其应用。本发明通过进行两次测序,第一次测序测量完整的模板DNA序列的一条电流信号;第二次将全部的片段DNA同时测序,获得尽量多的电流信号后,将每条片段DNA的电流信号与模板电流信号依次进行电流波形匹配,使用信号匹配算法获得片段DNA电流信号在模板电流信号上的起始和终止位置,推算片段DNA的碱基序列,将每条片段DNA的电流信号和碱基序列一一配对,形成初始训练数据集。使用本发明所述方法成功建立了初始神经网络模型,并完成神经网络模型迭代,准确度可达92.03%。本发明实验难度较低,且操作简便,经济成本、时间成本和人力成本均较低。

Description

纳米孔测序碱基识别的深度学习训练集建立方法及其应用
技术领域
本发明涉及生物学基因测序领域,特别涉及一种纳米孔测序碱基识别的深度学习训练集建立方法及其应用。
背景技术
纳米孔测序技术是用于取代基于聚合酶链式反应的新型核酸检测技术,纳米孔测序的原理如图1(a)所示,将纳米孔(蛋白孔或者固态孔)嵌在绝缘的人工膜上形成离子通道,人工膜两侧充满电解质溶液,人工膜的两侧设置有电极1和电极2,电极1和电极2两端的电势差在纳米孔的孔道内形成过孔电流。当聚合物链(如单链DNA、RNA、蛋白质等)通过纳米孔时,由于聚合物链上不同单体(如DNA链上的碱基A、T、G、C)的阻抗不同,在聚合物链通过纳米孔时过孔电流被调制,得到如图1(b)所示的过孔电流信号,通过检测过孔电流的变化可以推导出聚合物的序列构成。由于纳米孔测序的序列读长长、使用简便、可进行RNA直接测序等优势,近年来广受重视。
以DNA测序和生物纳米孔为例,由于孔蛋白电流限制区存在一定厚度,一般为4~6个碱基,因此过孔电流的大小取决于相邻的4~6个碱基的共同作用,以共同作用的碱基数量表征纳米孔电流的模型被称为k-mer模型(k=4~6)。以4-mer模型为例,如图2所示,过孔序列ATCGGATCGTCA中相邻的每4个碱基决定了过孔电流曲线上的一个特征电平。
图2所示的4-mer模型是理想化模型,但是,在实际的纳米孔测序技术中,某一时刻的测序信号不仅取决于纳米孔限制区内容纳的4~6个碱基,而且与前后的碱基序列都有关系。纳米孔的直径约1~2nm,因此过孔电流很小(不同的碱基组合过孔电流在40~140pA范围内,即过孔电流的信号范围约100pA),采集得到的实际电流信号如图1(b)所示,信噪比较低。当k=5~6时,5~6个碱基组合的可能性有1024~4096种,在典型的纳米孔测序信号的噪声水平(约2pA)下,100pA的信号范围中通过电流的幅值来识别过孔DNA序列的准确度较低。
纳米孔测序的碱基识别方法经过近十年的发展,其演进过程大致可以分成三个阶段:第一阶段:由于DNA序列在通过纳米孔时产生的特征信号是台阶形式的,因此首先通过T检验等统计学方法识别出原始信号中的台阶,一个台阶被称为一个事件,再通过隐马尔可夫模型对可能的事件序列以发射矩阵和过渡矩阵进行建模和预测,实现碱基序列识别,典型的做法如申请号为201280057564的专利文献记载;第二阶段:首先通过T检验等统计学方法识别出原始信号中的事件,再将事件作为基于深度学习的神经网络的输入,通过神经网络进行碱基识别;第三阶段:通过端到端的神经网络来进行碱基识别,如图3所示,为一种端到端的神经网络,由一维卷积(Conv1d)、整流线性单元激活函数(ReLU)、长短期记忆网络(LSTM)、全连接层(Full Connection)、LogSoftmax函数和联结时间分类器(CTC)构成。将原始电流信号输入训练后的端到端神经网络模型后,端到端神经网络模型可以一步到位直接输出识别后的碱基序列,无需对电流信号进行事件识别。
端到端的神经网络拥有最高的碱基解码准确率,是当前纳米孔测序碱基识别的主流方法。神经网络需要经过事先的训练才能最大化碱基解码的准确率,而训练神经网络需要大量正确的电流信号和碱基序列一一配对的训练数据集。建立纳米孔测序训练数据集是一个鸡生蛋、蛋生鸡的过程,因为:第一,不同纳米孔的k-mer模型不一样,即不同的纳米孔测量同一个碱基序列的电流变化模式不同,为纳米孔A建立的训练数据集和训练好的神经网络是无法用于纳米孔B的,因此,必须为每种纳米孔针对性地建立训练数据集并训练神经网络;第二,纳米孔电流信号的信噪比低且非常复杂,无法对电流信号进行人工识别或标注,因此针对一种新的纳米孔,在还没有可用于碱基识别手段时,如何从零建立训练数据集是一个难点。
申请号为201280057564的专利文献公开了两种适用于隐马尔可夫模型的训练数据集建立方法,一是静态方法,通过设计并合成特殊序列使得特定的k-mer序列悬停在纳米孔的限制区处,用于测量特定k-mer的过孔电流;二是动态方法,通过测量特定DNA序列来迭代隐马尔可夫模型的发射矩阵和过渡矩阵。但是,上述方法存在以下不足:1、隐马尔可夫模型的碱基解码精度较低;2、需要合成特殊的DNA序列,而且为了确定当下测量的是哪条序列,必须每条序列单独测量,不能混合检测,经济成本、时间成本和人力成本都较高。
发明内容
为了改善现有技术的不足,本发明的目的是提供一种便捷的、低成本的用于纳米孔测序碱基识别的深度学习训练集建立方法及其应用。
本发明采用下述技术方案实现上述目的:
第一方面,本发明提供一种用于纳米孔测序碱基识别的深度学习训练数据集建立方法,包括如下步骤:
A.选取序列已知的模板DNA,测量模板DNA的纳米孔测序电流信号,从测量结果中选取一条作为模板电流信号;
B.测量若干条序列包含在模板DNA序列中的片段DNA的纳米孔测序电流信号,依次比对每条片段DNA、模板DNA的电流信号,获取片段DNA的碱基序列,得到初始训练数据集;
C.将初始训练集导入神经网络进行训练,得到初始神经网络模型。
根据本发明的实施方案,步骤B中所述依次比对每条片段DNA、模板DNA的电流信号,获取片段DNA的碱基序列,得到初始训练数据集,包括如下步骤:将每条片段DNA的电流信号与模板电流信号通过信号匹配算法进行电流波形匹配,获得片段DNA电流信号在模板电流信号上的起始和终止位置,推算片段DNA的碱基序列,将每条片段DNA的电流信号和碱基序列一一配对,形成初始训练数据集。
根据本发明的实施方案,步骤C中将初始训练数据集导入神经网络进行训练,得到初始神经网络模型包括如下步骤:基于初始训练数据集,对神经网络进行N次模型训练,得到满足预设条件的目标模型,其中,所述N为大于等于1的整数。
根据本发明的实施方案,所述目标模型为N次训练中预测准确度最高的神经网络模型。
根据本发明的实施方案,所述模板DNA包括碱基序列长度为200-2000000nt,优选所述模板DNA包括碱基序列长度大于10000nt的DNA序列,进一步优选所述模板DNA包括碱基序列长度大于40000nt的DNA序列,例如所述模板DNA选自序列长度为48502nt的lambdaDNA。
根据本发明的实施方案,步骤B中片段DNA是通过将模板DNA随机打断或人工选定位点打断获得。
根据本发明的实施方案,将所述模板DNA随机打断包括如下步骤:将模板DNA样品随机打断成若干片段DNA,例如通过超声随机打断。
根据本发明的实施方案,将所述模板DNA按照选定位点打断包括如下步骤:在模板DNA序列中选定若干起始位置和结束位置,通过酶切或PCR方式打断。
根据本发明的实施方案,将若干片段DNA进行PCR扩增包括以下步骤:设计所述片段DNA对应的PCR引物,按DNA的起始位置和结束位置进行PCR扩增。
根据本发明的实施方案,所述信号匹配算法选用动态时间规整算法、衍生动态时间规整算法、复杂度不变距离算法、时间规整编辑算法中的至少一种。
根据本发明的实施方案,所述测量模板DNA的纳米孔测序电流信号之后,从测量结果中选取一段作为模板电流信号之前,还包括如下步骤:将电流信号进行归一化处理得归一化电流信号。
由于神经网络使用了联结时间分类器,因此训练集只需给出每条片段的电流信号和对应的碱基序列,无需标注出每个碱基的具体位置。因此初始训练数据集可以直接用于神经网络的训练获得初始神经网络模型。
第二方面,本发明提供一种采用第一方面的方法获得的初始神经网络模型完成一次神经网络模型迭代的方法,包括如下步骤:
S1.使用纳米孔测序仪对至少一种序列已知的物种基因组进行纳米孔测序,得到电流信号;
S2.使用初始神经网络模型对S1中获得的全部电流信号进行碱基识别,得到对应的碱基序列,将所测得的每个碱基序列与模板的已知序列进行比对;
S3.分析序列比对的准确率,如果准确率满足设置的准确率阈值则结束迭代流程,否则转入步骤S4,继续迭代;
S4.将比对成功的碱基序列作为“真值”,与对应的测序电流信号配对,形成新一代训练数据集;
S5.使用新一代训练数据集对神经网络进行训练,生成新一代神经网络模型。
根据本发明的实施方案,所述阈值根据实际需要设置,例如所阈值≥90%,优选所述阈值≥92%。
根据本发明的实施方案,步骤S5之后还包括如下步骤:重复S2的过程,使用新一代神经网络模型替代初始神经网络模型,转入步骤S2。
第三方面,本发明提供一种采用第一方面的方法获得的初始神经网络模型或第二方面的方法获得的神经网络模型在纳米孔测序碱基识别中的应用。
有益效果
本发明的优点在于:第一,一步到位生成用于碱基识别神经网络的训练数据集,模板DNA序列可以直接使用长度合适的细菌或病毒基因组,模板DNA序列的长度较长,训练数据集的信息量丰富。使用本发明所述方法成功建立了初始神经网络模型,并完成神经网络模型迭代,准确度可达92.03%。第二,本发明仅需要进行两次测序,第一次测序测量完整的模板DNA序列的一条电信号;第二次将全部的片段DNA同时测序,获得尽量多的电信号;本发明无需合成特殊的DNA序列样品,同时,还能够对获得的片段DNA进行混合检测。实验难度较低,且操作简便,经济成本、时间成本和人力成本均较低。
附图说明
图1为纳米孔测序的原理示意图;
图2为4-mer模型过孔序列与过孔电流之间的关系示意图;
图3为用于碱基识别的端到端的深度学习神经网络的结构示意图;
图4为通过模板与片段DNA电流信号匹配的方法形成初始训练集并训练初始神经网络的步骤示意图;
图5为循环迭代神经网络模型提高解码准确率的步骤示意图;
图6(a)为模板DNA的纳米孔测序电流信号;(b)为随机打断的片段DNA的纳米孔测序电流信号;(c)为片段DNA的电流信号在模板上的匹配位置;
图7为实施例1中纳入训练集的序列长度分布图;
图8为实施例2中片段DNA在模板上的起始位置和长度分布图;
图9为实施例3中一条测序信号碱基识别结果与参考基因组的匹配图。
具体实施方式
下文将结合具体实施例对本发明的方法和应用做更进一步的详细说明。应当理解,下列实施例仅为示例性地说明和解释本发明,而不应被解释为对本发明保护范围的限制。凡基于本发明上述内容所实现的技术均涵盖在本发明旨在保护的范围内。
实施例1
使用500μg/ml lambda DNA(分离自噬菌体lambda cI857ind 1 Sam 7)作为模板DNA样品进行建库,序列全长48502nt,模板碱基序列精确已知(参见https://international.neb.com/-/media/nebus/page-images/tools-and-resources/interactive-tools/dna-sequences-and-maps/text-documents/lambdafsa.txt)。
S11、通过MinION纳米孔测序仪和Flongle测序芯片测量整条模板DNA的电流信号,将电流信号模板进行归一化处理,得到如图6(a)所示的归一化电流信号。
S12、将模板DNA样品使用超声破碎仪随机打断成为若干长度为200~2000nt的片段DNA,并将打断后的片段DNA建库,,通过纳米孔测序仪测量获得一定数量片段DNA的电流信号,本实施例中共获取了5184条片段DNA的电信号。如图6(b)所示,为其中1条片段DNA的电流信号。
S13、使用动态时间规整算法(Dynamic Time Warping,简称DTW)将当前片段DNA的电流信号与模板DNA的电流信号进行匹配,参见图6(c)所示,为将图6(b)中的片段DNA信号与模板DNA电流信号匹配的位置图,经比对可知,片段DNA在模板上的起始位置为50.5917秒,结束位置为52.1078秒。
S14、由于纳米孔测序DNA的过孔速度大体是匀速的,模板DNA序列全长48502nt,电信号长度102.4357秒,平均过孔速度为473.4870nt/s,因此,推算片段DNA对应的碱基序列为模板DNA第23955nt到第24672nt区间内的序列,取出对应序列与片段DNA的电流信号配对作为训练数据并纳入训练数据集。
S15、选择另1条片段DNA,重复步骤S13-S14,得到训练数据并纳入训练数据集。
S16、重复步骤S13-S15至完成所有共5184条片段DNA的电流信号和碱基序列配对,将所有训练数据纳入训练数据集,形成初始训练数据集,初始训练集中碱基序列的长度分布如图7所示。
使用步骤S16建立好的初始训练数据集训练图3所示的神经网络,训练结果如表1所示,选择第3次迭代的结果作为初始神经网络模型。
表1实施例1的神经网络训练结果
训练轮数 训练损失值 验证损失值 验证准确率
1 0.4246 0.8295 81.24%
2 0.3036 0.8569 80.05%
3 0.1768 0.8229 82.84%
4 0.1204 0.9322 81.65%
5 0.0892 1.0664 79.44%
实施例2
使用500μg/ml lambda DNA(分离自噬菌体lambda cI857ind 1 Sam 7)作为模板DNA进行建库,序列全长48502nt,模板序列精确已知。
S21、通过MinION纳米孔测序仪和Flongle测序芯片测量整条模板DNA的电流信号,并选择一条电流信号作为模板。
S22、如表2所示,在模板DNA序列中选取12组片段DNA的起始和结束位置,每个片段DNA的长度约为4000个碱基。设计对应的PCR引物,对片段DNA序列按照表2中的起始与结束位置进行PCR扩增,将12组PCR产物混合形成待测样品。
S23、通过纳米孔测序仪对待测样品进行纳米孔测序,记录待测样品中片段DNA的电流信号,12种片段DNA的序列已知,但每条电流信号是12种序列当中的哪一种未知,使用DTW算法将每条片段DNA的电流信号与模板DNA的电流信号进行匹配。
S24、获得每个片段DNA在模板上的起始位置和结束位置,如图8所示为匹配得到569条片段DNA电流信号在模板信号上的起始位置和信号长度分布,片段DNA的分布集中在图中的12个位置,从图中可以很清楚判断某条片段DNA所对应表2中的模板序列区间。
S25、将每条片段DNA的电流信号与对应碱基序列配对,纳入初始训练数据集。
表2模板序列中PCR的起始与结束位置
编号 起始位置 结束位置
1 1 4011
2 3996 8062
3 8046 12084
4 12067 16156
5 16143 20363
6 20345 24199
7 24170 28393
8 28370 32387
9 32368 36406
10 36379 40533
11 40512 44652
12 44627 48502
S26、使用建立好的初始训练数据集训练图3所示的神经网络,训练结果如表3所示,选择第5次迭代的结果作为初始神经网络模型。
表3实施例2的神经网络训练结果
迭代次数 训练损失值 验证损失值 验证准确率
1 0.5292 0.6360 76.64%
2 0.4858 0.5055 82.42%
3 0.3330 0.4811 83.30%
4 0.4365 0.4712 83.65%
5 0.5062 0.4726 83.74%
实施例3
在实施例1、实施例2中,通过使用本发明所述方法成功建立了初始神经网络模型,实施例3是利用本发明的第二方面所提供的方法完成神经网络模型迭代,过程如下:
S31、对基因组序列已知的E.Coli样品(https://www.ncbi.nlm.nih.gov/nuccore/CP017100)的基因组序列作为参考基因组,建立测序文库,并使用MinION纳米孔测序仪和Flongle测序芯片对E.Coli样品进行测序,获得测序信号56048条,信号的采样率为4000点/秒。
S32、使用实施例2中获得的初始神经网络模型,对S31中获得的全部测序信号进行碱基识别,识别得到的碱基序列和序列中的每个碱基所对应的电信号位置,其中一条序列和序列上碱基对应电信号的位置如表4所示。
使用blast软件对全部序列识别结果与参考基因组序列进行比对,比对结果中位数准确率为76.39%。
表4一条碱基序列和序列上每个碱基对应电信号的位置
S33、将测序信号的碱基识别结果中与参考基因组比对成功的部分的电信号取出,和参考基因组序列配对,生成新的训练数据集。表4所示的碱基序列与参考基因组的匹配情况如图9所示,这条测序信号的碱基识别结果中从第33个到第360个碱基与参考基因组中第3489395个到第3489742个碱基比对成功,因此将测序信号中第33个到第360个碱基所对应的电信号(原始电信号中第1685到第16465点)取出,与参考基因组第3489395个到第3489742个碱基的序列配对,作为新训练数据集中的一条。
S34、利用S33中生成的新训练集训练神经网络模型。
S35、重复S32的过程,利用新的神经网络模型对S31中获得的全部测序信号进行碱基识别,得到的碱基序列和序列中的每个碱基所对应的电信号位置。使用blast软件对全部序列识别结果与参考基因组序列进行比对,比对的中位数准确率为87.82%。
S36、重复S33的过程,生成更新的训练数据集。
S37、重复S34的过程,训练神经网络,得到更新的神经网络模型。
S38、重复S32的过程,利用更新的神经网络模型对S31中获得的全部测序信号进行碱基识别,识别得到的碱基序列和序列中的每个碱基所对应的电信号位置。使用blast软件对全部序列识别结果与参考基因组序列进行比对,比对的中位数准确率为92.03%。准确率达到了纳米孔测序领域较高的水平,完成神经网络的循环迭代。
以上通过实施例对本发明的具体实施方式进行了示例性的说明。但是,本发明的保护范围不拘囿于上述示例性的实施方式。凡在本发明的精神和原则之内,本领域技术人员所作出的任何修改、等同替换、改进等,均应包含在本发明权利要求的保护范围之内。

Claims (11)

1.一种用于纳米孔测序碱基识别的深度学习训练数据集建立方法,其特征在于,包括如下步骤:
A. 选取序列已知的模板DNA,测量模板DNA的纳米孔测序电流信号,从测量结果中选取一条作为模板电流信号;
B. 测量若干条序列包含在模板DNA序列中的片段DNA的纳米孔测序电流信号,片段DNA是通过将模板DNA随机打断或人工选定位点打断获得,所述人工选定位点打断包括在模板DNA序列中选定若干起始位置和结束位置,通过酶切或PCR方式打断,将每条片段DNA的电流信号与模板电流信号通过信号匹配算法进行电流波形匹配,获得片段DNA电流信号在模板电流信号上的起始和终止位置,推算片段DNA的碱基序列,将每条片段DNA的电流信号和碱基序列一一配对,得到初始训练数据集;
信号匹配算法选用动态时间规整算法、衍生动态时间规整算法、复杂度不变距离算法、时间规整编辑算法中的至少一种;
C. 将初始训练集导入神经网络进行训练,得到初始神经网络模型。
2.根据权利要求1所述的方法,其特征在于,步骤A中从测量结果中选取一段作为模板电流信号之前,还包括如下步骤:将电流信号进行归一化处理得归一化电流信号。
3.根据权利要求1所述的方法,其特征在于,步骤C中将初始训练集导入神经网络进行训练,得到初始神经网络模型包括如下步骤:基于初始训练数据集,对神经网络进行N次模型训练,得到满足预设条件的目标模型,其中,所述N为大于等于1的整数。
4.根据权利要求3所述的方法,其特征在于,所述目标模型为N次训练中预测准确度最高的神经网络模型。
5. 根据权利要求1-4任一项所述的方法,其特征在于,所述模板DNA包括碱基序列长度为200-2000000 nt的DNA序列。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述模板DNA包括碱基序列长度大于10000nt的DNA序列。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述模板DNA包括碱基序列长度大于40000nt的DNA序列。
8.根据权利要求1-4任一项所述的方法,其特征在于,将所述模板DNA随机打断包括如下步骤:将模板DNA随机打断成若干片段DNA为通过超声随机打断。
9.一种采用权利要求1-8任一项所述的方法获得的初始神经网络模型完成一次神经网络模型迭代的方法,包括如下步骤:
S1. 使用纳米孔测序仪对至少一种序列已知的物种基因组进行纳米孔测序,得到电流信号;
S2. 使用初始神经网络模型对S1中的电流信号进行碱基识别,得到对应的碱基序列,将所测得的每个碱基序列与已知的序列进行比对;
S3. 分析序列比对的准确率,如果准确率满足设置的准确率阈值则结束迭代流程,否则转入步骤S4,继续迭代;
S4. 将比对成功的碱基序列作为“真值”,与对应的测序电流信号配对,形成新一代训练集;
S5. 使用新一代训练集对神经网络进行训练,生成新一代神经网络模型;
步骤S5之后还包括如下步骤:重复S2的过程,使用新一代神经网络模型替代初始神经网络模型,转入步骤S2。
10.根据权利要求9所述的方法,其特征在于,所述阈值≥90%。
11.根据权利要求9所述的方法,其特征在于,所述阈值≥92%。
CN202211268928.9A 2022-10-17 2022-10-17 纳米孔测序碱基识别的深度学习训练集建立方法及其应用 Active CN116486910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211268928.9A CN116486910B (zh) 2022-10-17 2022-10-17 纳米孔测序碱基识别的深度学习训练集建立方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211268928.9A CN116486910B (zh) 2022-10-17 2022-10-17 纳米孔测序碱基识别的深度学习训练集建立方法及其应用

Publications (2)

Publication Number Publication Date
CN116486910A CN116486910A (zh) 2023-07-25
CN116486910B true CN116486910B (zh) 2023-12-22

Family

ID=87210684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211268928.9A Active CN116486910B (zh) 2022-10-17 2022-10-17 纳米孔测序碱基识别的深度学习训练集建立方法及其应用

Country Status (1)

Country Link
CN (1) CN116486910B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117497055B (zh) * 2024-01-02 2024-03-12 北京普译生物科技有限公司 神经网络模型训练、碱基测序电信号的片段化方法及装置
CN117744748B (zh) * 2024-02-20 2024-04-30 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备
CN117831630B (zh) * 2024-03-05 2024-05-17 北京普译生物科技有限公司 为碱基识别模型构建训练数据集的方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103509852A (zh) * 2012-06-18 2014-01-15 北京大学 一种基于纳米孔器件对生物分子探针标定dna的特异位点进行检测的方法
CN104630358A (zh) * 2015-01-30 2015-05-20 中国科学院重庆绿色智能技术研究院 Dna测序方法及其系统
CN108048528A (zh) * 2017-12-20 2018-05-18 栾图 简单高效实时的遗传信息获取方法及其应用
CN109117796A (zh) * 2018-08-17 2019-01-01 广州市锐博生物科技有限公司 碱基识别方法及装置、生成彩色图像的方法及系统
CN111243674A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种碱基序列的识别方法、装置和存储介质
CN112183486A (zh) * 2020-11-02 2021-01-05 中山大学 基于深度网络快速识别单分子纳米孔测序碱基方法
CN112309503A (zh) * 2020-10-19 2021-02-02 深圳市儒翰基因科技有限公司 基于纳米孔电信号的碱基判读方法、判读设备及存储介质
CN113012757A (zh) * 2019-12-21 2021-06-22 深圳市真迈生物科技有限公司 识别核酸中的碱基的方法和系统
CN113178227A (zh) * 2021-04-30 2021-07-27 西安交通大学 多组学融合剪接位点的识别方法及系统、设备和存储介质
CN113870949A (zh) * 2021-10-08 2021-12-31 东北林业大学 基于深度学习的nanopore测序数据碱基识别方法
CN113930406A (zh) * 2021-12-17 2022-01-14 北京齐碳科技有限公司 一种Pif1-like解旋酶及其应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050233354A1 (en) * 2004-01-22 2005-10-20 Affymetrix, Inc. Genotyping degraded or mitochandrial DNA samples
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
WO2017223560A1 (en) * 2016-06-24 2017-12-28 Rensselaer Polytechnic Institute Tomographic image reconstruction via machine learning
US20220098577A1 (en) * 2018-10-19 2022-03-31 New England Biolabs, Inc. Ordered Assembly of Multiple DNA Fragments

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103509852A (zh) * 2012-06-18 2014-01-15 北京大学 一种基于纳米孔器件对生物分子探针标定dna的特异位点进行检测的方法
CN104630358A (zh) * 2015-01-30 2015-05-20 中国科学院重庆绿色智能技术研究院 Dna测序方法及其系统
CN108048528A (zh) * 2017-12-20 2018-05-18 栾图 简单高效实时的遗传信息获取方法及其应用
CN109117796A (zh) * 2018-08-17 2019-01-01 广州市锐博生物科技有限公司 碱基识别方法及装置、生成彩色图像的方法及系统
CN113012757A (zh) * 2019-12-21 2021-06-22 深圳市真迈生物科技有限公司 识别核酸中的碱基的方法和系统
CN111243674A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种碱基序列的识别方法、装置和存储介质
CN112309503A (zh) * 2020-10-19 2021-02-02 深圳市儒翰基因科技有限公司 基于纳米孔电信号的碱基判读方法、判读设备及存储介质
CN112183486A (zh) * 2020-11-02 2021-01-05 中山大学 基于深度网络快速识别单分子纳米孔测序碱基方法
CN113178227A (zh) * 2021-04-30 2021-07-27 西安交通大学 多组学融合剪接位点的识别方法及系统、设备和存储介质
CN113870949A (zh) * 2021-10-08 2021-12-31 东北林业大学 基于深度学习的nanopore测序数据碱基识别方法
CN113930406A (zh) * 2021-12-17 2022-01-14 北京齐碳科技有限公司 一种Pif1-like解旋酶及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
金针菇和杏鲍菇尿嘧啶营养缺陷型菌株的筛选与分子鉴定;卢绪志;《中国优秀硕士学位论文全文数据库工程科技Ⅰ辑》;全文 *

Also Published As

Publication number Publication date
CN116486910A (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN116486910B (zh) 纳米孔测序碱基识别的深度学习训练集建立方法及其应用
CN113186287B (zh) 用于非小细胞肺癌分型的生物标志物及其应用
US10930370B2 (en) Polynucleotide sequencer tuned to artificial polynucleotides
CN107451419B (zh) 通过计算机程序模拟产生简化dna甲基化测序数据的方法
CN110299185A (zh) 一种基于新一代测序数据的插入变异检测方法及系统
CN107944225A (zh) 基因高通量测序数据突变检测方法
CN112309503A (zh) 基于纳米孔电信号的碱基判读方法、判读设备及存储介质
CN113674803A (zh) 一种拷贝数变异的检测方法及其应用
CN108154010A (zh) 一种ctDNA低频突变测序数据分析方法和装置
CN117083680A (zh) 基于人工智能的癌症诊断和癌症类型预测方法
CN105528532B (zh) 一种rna编辑位点的特征分析方法
CN109593832A (zh) 一种ARMS-ddPCR基因点突变的检测方法
CN111292806B (zh) 一种利用纳米孔测序的转录组分析方法
Chan et al. Evaluation of dynamic time warp barycenter averaging (DBA) for its potential in generating a consensus nanopore signal for genetic and epigenetic sequences
WO2023124779A1 (zh) 基于三代测序数据检测点突变的分析方法和装置
US20130345095A1 (en) Method and device for assembling genome sequence
CN108707663B (zh) 用于癌症样本miRNA测序定量结果评价的试剂、制备方法和应用
CN113025697A (zh) 一种基于纳米孔的快速测序方法
KR20220064959A (ko) 낮은 빈도 변이의 검출 및 리포팅을 용이하게 하기 위한 dna 라이브러리 생성 방법
JP4317398B2 (ja) 核酸塩基配列情報の記録方法及び核酸塩基配列決定方法
CN116434830B (zh) 基于ctDNA多位点甲基化的肿瘤病灶位置识别方法
CN115762641B (zh) 一种指纹图谱构建方法及系统
CN117831630B (zh) 为碱基识别模型构建训练数据集的方法、装置及电子设备
CN117672343B (zh) 测序饱和度评估方法及装置、设备及存储介质
Shen et al. A Bayesian change-point approach to nanopore basecalling

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant