CN112309503A - 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 - Google Patents

基于纳米孔电信号的碱基判读方法、判读设备及存储介质 Download PDF

Info

Publication number
CN112309503A
CN112309503A CN202011118063.9A CN202011118063A CN112309503A CN 112309503 A CN112309503 A CN 112309503A CN 202011118063 A CN202011118063 A CN 202011118063A CN 112309503 A CN112309503 A CN 112309503A
Authority
CN
China
Prior art keywords
base
nanopore
interpretation
electric signal
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011118063.9A
Other languages
English (en)
Inventor
莫晖
姜宁
吴蒙
范建林
周文益
张新联
尹良超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ruhan Gene Technology Co ltd
Original Assignee
Shenzhen Ruhan Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ruhan Gene Technology Co ltd filed Critical Shenzhen Ruhan Gene Technology Co ltd
Priority to CN202011118063.9A priority Critical patent/CN112309503A/zh
Publication of CN112309503A publication Critical patent/CN112309503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Genetics & Genomics (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • Epidemiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于固态纳米孔电信号的碱基判读方法、判读设备及存储介质,所述方法包括:通过大数据的训练,构建碱基判读模型;根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列;将所述碱基序列生成标准格式的测序数据结果文件。通过本发明实施例,可以实现了对每一条DNA分子的单独测序,不需要进行PCR扩增,同时有着更快的数据读取速度,更长的测序序列读长,有着高通量、低成本、长读取长度的优点。

Description

基于纳米孔电信号的碱基判读方法、判读设备及存储介质
技术领域
本发明涉及基因检测领域,特别涉及一种基于固态纳米孔电信号的碱基判读方法、判读设备及存储介质。
背景技术
高效、便捷的解读蕴藏在生物体内的遗传信息对于生命科学、精准医学等领域有着十分重要意义。自1952年,赫尔希和蔡斯证明传递遗传信息的是DNA序列以来,围绕DNA测序技术研究一直是生命科学领域热点和核心。
目前,第二代测序的技术原理是将待测的序列打断成长度为200-500bps的小片段,并在这些小片段的两端添加上不同的接头,依赖于大量PCR扩增后的DNA小片段模板与固体表面相结合,然后采用边合成边测序的方法,向反应体系中同时添加DNA聚合酶、接头引物和带有碱基特异荧光标记的4中dNTP。这些dNTP的3’-OH被化学方法所保护,因而每次只能添加一个dNTP。在dNTP被添加到合成链上后,所有未使用的游离dNTP和DNA聚合酶会被洗脱掉。接着,再加入激发荧光所需的缓冲液,用激光激发荧光信号,并有光学设备完成荧光信号的记录,最后利用计算机分析将光学信号转化为测序碱基。在上述荧光信号记录完成后,再加入化学试剂淬灭荧光信号并去除dNTP 3’-OH保护基团,以便能进行下一轮的测序反应。
由于二代测序技术的发展成熟,大幅降低了测序成本,提高了测序通量,大幅降低测序时间,使得测序可以推广到生命科学和医学的各个研究领域。但是二代测序的序列读长较短,只有150-300bps的测序长度,这也极大地限制了其在拷贝数变异、结构变异、单倍性分析、基因组组装等分析研究的应用。同时,由于二代测序的信号时荧光信号,为了达到荧光信号检测的下限阈值,必须要进行PCR扩增,无法实现单分子测序。
发明内容
有鉴于此,本发明实施例提供的一种基于固态纳米孔电信号的碱基判读方法、判读设备及存储介质,可以实现了对每一条DNA分子的单独测序,不需要进行PCR扩增,同时有着更快的数据读取速度,更长的测序序列读长,有着高通量、低成本、长读取长度的优点。
本发明解决上述技术问题所采用的技术方案如下:
根据本发明实施例的一个方面,提供的一种基于固态纳米孔电信号的碱基判读方法,所述方法包括:
通过大数据的训练,构建碱基判读模型;
根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列;
将所述碱基序列生成标准格式的测序数据结果文件。
在一个可能的设计中,所述通过大数据的训练,构建碱基判读模型,包括:
获取每个纳米孔内信号采集点的第一影响特征;
基于马达蛋白或者降速酶,获取DNA序列通过纳米孔的第二影响特征;
基于人工合成序列,获取不同碱基的电信号模式的基本特征及其之间的差别特征;
根据所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建电信号识别模型。
在一个可能的设计中,所述获取每个纳米孔内信号采集点的第一影响特征,包括:
使用高灵敏度的电流强度检测芯片检测每个纳米孔电流强度,获取每个纳米孔内信号采集点的第一影响特征,所述第一影响特征至少包括之一:采集频率,采集间隔的均一度、电信号的稳定性、背景信号。
在一个可能的设计中,所述基于人工合成序列,获取不同碱基的电信号模式的基本特征及其之间的差别特征;包括:
通过脱氧核苷酸逐个进行人工连接的方法合成100条特定的长度为1000-2000bp的序列;
将这100条已知序列在纳米孔测序仪上反复测序,获取不同碱基排列组合通过纳米孔时的电信号数据信息,以确定不同碱基的电信号模式的基本特征及其之间的差别特征。
在一个可能的设计中,所述根据所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建碱基判读模型;包括:
采用循环神经网络算法,结合所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建碱基判读模型。
在一个可能的设计中,对所述碱基判读模型进行训练,包括:
在E.coli和Yeast参考基因组上分别选取100个区域,通过引物和高保真酶扩增出长度在4-5Kbps的序列片段;
将上述扩增后100条DNA序列片段在纳米孔测序仪上反复测序,获取不同碱基排列组合通过纳米孔时的电信号数据信息。
在一个可能的设计中,对所述碱基判读模型进行基于双向循环神经网络RNN训练,包括:
将E.coli和Yeast细胞核基因组提取、打断成长度在10Kbps左右的片段,在纳米孔测序仪上进行测序,生成全基因组水平的训练集合,训练基于双向循环神经网络RNN的碱基判读模型。
在一个可能的设计中,所述将所述碱基序列生成标准格式的测序数据结果文件,包括:
将DNA序列解读结果及其准确度概率值信息转化为高通量测序数据的标准格式,所述高通量测序数据的标准格式包括FASTQ格式和/或PHRED SCORE质量评价格式。
根据本发明实施例的另一个方面,提供一种判读设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明实施例提供的所述的一种基于纳米孔电信号的碱基判读方法的步骤。
根据本发明实施例的另一个方面,提供一种存储介质,其特征在于,所述存储介质上存储有基于纳米孔电信号的碱基判读方法,所述基于纳米孔电信号的碱基判读方法的程序被处理器执行时实现本发明实施例提供的所述的一种基于纳米孔电信号的碱基判读方法的步骤。
与相关技术相比,本发明实施例提供的一种基于纳米孔电信号的碱基判读方法、判读设备及存储介质,所述方法包括:通过大数据的训练,构建碱基判读模型;根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列;将所述碱基序列生成标准格式的测序数据结果文件。通过本发明实施例,通过构建碱基判读模型,将电信号数据解读为DNA或cDNA的碱基序列,可以解析碱基序列通过纳米孔时所产生的电信号的各类不同方面的干扰特征,实现了对每一条DNA分子的单独测序,不需要进行PCR扩增,同时有着更快的数据读取速度,更长的测序序列读长,有着高通量、低成本、长读取长度的优点。当DNA分子或者它的组成碱基从一个纳米孔经过时,可以有效地降低碱基序列穿过纳米孔的速度,从而有效地检测每个碱基穿过纳米孔时的电流强度的变化水平,检测并区分开被影响的电流信号,进而识别为碱基序列。
附图说明
图1为本发明实施例提供的一种基于纳米孔电信号的碱基判读方法的流程示意图;
图2为本发明实施例提供的一种通过大数据的训练构建碱基判读模型的流程示意图;
图3为本发明实施例提供的一种判读设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
纳米孔测序是不同类型的碱基从一个纳米孔经过时,影响了流过纳米孔原本的电流强度,而且每个不同类型的碱基所产生的电流干扰是特异的,可以通过解析不同模式的电信号信息,进而识别为碱基序列。碱基通过纳米孔时,其对电流的干扰除了不同的碱基类型外,还有存在有其他多个不同方面的因素同时作用影响。
本发明的一种基于纳米孔电信号的碱基判读方法可以解析碱基序列通过纳米孔时所产生的电信号的各类不同方面的干扰特征。
在一个实施例中,如图1所示,本发明提供一种基于固态纳米孔电信号的碱基判读方法,所述方法包括:
S1、通过大数据的训练,构建碱基判读模型;
S2、根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列;
S3、将所述碱基序列生成标准格式的测序数据结果文件。
在本实施例中,通过构建碱基判读模型,将电信号数据解读为DNA或cDNA的碱基序列,可以解析碱基序列通过纳米孔时所产生的电信号的各类不同方面的干扰特征,实现了对每一条DNA分子的单独测序,不需要进行PCR扩增,同时有着更快的数据读取速度,更长的测序序列读长,有着高通量、低成本、长读取长度的优点。当DNA分子或者它的组成碱基从一个纳米孔经过时,可以有效地降低碱基序列穿过纳米孔的速度,从而有效地检测每个碱基穿过纳米孔时的电流强度的变化水平,检测并区分开被影响的电流信号,进而识别为碱基序列。
在一个实施例中,如图2所示,所述步骤S1中,所述通过大数据的训练,构建碱基判读模型,包括:
S11、获取每个纳米孔内信号采集点的第一影响特征,所述第一影响特征至少包括之一:采集频率,采集间隔的均一度、电信号的稳定性、背景信号。
单链DNA序列穿过纳米孔时,纳米孔周边的溶液电离子数量会发生变化,进而会瞬时影响通过纳米孔的电流强度。因为不同的碱基所带的电荷是不同的,所以每种碱基所导致的电流变化的程度也是有区别的。
使用高灵敏度的电流强度检测芯片检测每个纳米孔电流强度,进而可以推断识别通过的碱基类型。
在实际过程中,由于DNA序列穿过纳米孔的速度时非常快的,每秒钟可以有高达200-600个碱基穿过,同时又不是匀速通过的,因此需要高频率的检测电信号强度,保证每个碱基通过时,至少有1个以上的电信号值。而且电信号强度又受到溶液的温度,溶液的生化试剂的浓度等影响,因此需要确定电信号采集芯片在每个纳米孔的采集频率,采集时间间隔,电信号的基准强度,以及随着温度升高和溶液中生化试剂的消耗,导致的电信号持续性变化的规律等影响特征,用以在碱基判读模型中推断碱基分隔点,碱基之间电流强度变化差异幅度等信息。
S12、基于马达蛋白或者降速酶,获取DNA序列通过纳米孔的第二影响特征,所述第二影响特征包括速度、均一性。
一般情况下,由于碱基序列穿过纳米孔的速度是极其快速的,可以达到每秒钟几千个甚至上万个碱基,无法有效地检测每个碱基穿过纳米孔时的电流强度的变化水平。
使用马达蛋白或降速酶将碱基序列穿过纳米孔的速度降到预设速度(例如每秒钟200-600个碱基),进而使电流强度检测芯片可以准确的检测每个碱基穿过纳米孔时的电流强度。由于降速酶是一种有活性的生化试剂,其工作效率是持续性衰减的,通过大量的训练集合数据可以有效地获取降速酶的平均初始效率、衰减速度等特征信息,进而在碱基判读模型中校正碱基分隔点的推断,提高碱基分隔点推断的准确度。
S13、基于人工合成序列,获取不同碱基的电信号模式的基本特征及其之间的差别特征。
通过脱氧核苷酸逐个进行人工连接的方法合成100条特定的长度为1000-2000bp的序列。
将上述100条序列在纳米孔测序仪上反复测序,获取不同碱基排列组合通过纳米孔时的电信号数据信息,以此确定电信号参数(例如电信号电压、频率等)、初步评估电压是否稳定(序列内/序列间)、初步评估序列通过速度是否稳定、通过速率、信号残留的影响等,以确定不同碱基的电信号模式的基本特征及其之间的差别特征。
S14、根据所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建碱基判读模型。
采用循环神经网络算法,结合所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建碱基判读模型。
对所述碱基判读模型进行训练,包括:
在E.coli和Yeast参考基因组上分别选取100个区域,通过引物和高保真酶扩增出长度在4-5Kbps的序列片段,上述扩增后100条DNA序列片段涵盖基因组的基因编码区/非编码区、高GC含量区域/中GC含量区域/低GC含量区域、重复区段/非重复区段等各种不同功能区域的DNA序列。
再将上述扩增后100条DNA序列片段在纳米孔测序仪上反复测序,获取不同碱基排列组合通过纳米孔时的电信号数据信息。
基于上述电信号数据信息确认在长片段序列中电流强度的衰减规律、降速蛋白的工作效率和衰减特征、电压值受核苷酸影响,进一步训练碱基判读模型。
对所述碱基判读模型进行基于双向循环神经网络RNN训练,包括:
将E.coli和Yeast细胞核基因组提取、打断成长度在10Kbps左右的片段,在纳米孔测序仪上进行测序,生成全基因组水平的训练集合,训练基于双向循环神经网络RNN的碱基判读模型。
在本实施例中,利用深度学习中的循环神经网络算法,并且考虑长序列之间的信号关联性,进而训练构建碱基判读模型。由于纳米孔测序仪瞬时电信号的强弱不仅取决于当下穿过纳米孔的DNA序列,同时受到上下游邻近DNA序列的组成,性质和结构的影响。因此,深度学习中处理时序数据的循环神经网络(RNN)算法是十分适合用于训练构建DNA序列穿过纳米孔的电信号碱基判读模型,进而用该碱基判读模型解析电信号所对应的DNA序列。此外,鉴于已经过孔和将要过孔的DNA序列都会对电信号产生影响,采用循环神经网络(RNN)算法构建双向RNN碱基判读模型,可以大大提升算法解析的准确度。进一步地,相较于传统的RNN模型对于长序列会存在由于训练长度过长导致的记忆单元的限制的问题,同时由于激活函数的性质和隐藏层的深度产生的梯度爆炸或消失问题,双向RNN碱基判读模型引入了长短期记忆网络(LSTM)模型。由于LSTM使用门来控制记忆过程,LSTM的循环结构之间可以保持一个持久的单元状态不断传递下去,一直到训练结束,从而可以有效的解决上述记忆单元限制和梯度错误的问题。此外,为了防止双向RNN碱基判读模型过度学习造成过拟合的问题,LSTM算法采用单元推出策略来改善过拟合的问题,从而提高双向RNN碱基判读模型的泛化能力。
在本实施例中,基于大量的人工合成DNA序列和不同物种的真实样本DNA序列所产生的电信号数据,进行碱基判读模型训练和校正,将电信号转化为DNA的4个标准碱基,可以解析碱基序列通过纳米孔时所产生的电信号的各类不同方面的干扰特征,实现了对每一条DNA分子的单独测序,不需要进行PCR扩增,同时有着更快的数据读取速度,更长的测序序列读长,有着高通量、低成本、长读取长度的优点。当DNA分子或者它的组成碱基从一个纳米孔经过时,可以有效地降低碱基序列穿过纳米孔的速度,从而有效地检测每个碱基穿过纳米孔时的电流强度的变化水平,检测并区分开被影响的电流信号,进而识别为碱基序列。
在一个实施例中,所述步骤S2中,所述根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列,包括:
构建所述碱基判读模型解析结果的准确度和可信度评判标准,对碱基解读结果的准确度进行量化。
例如:基于PHRED SCORE质量评价格式,通过所述碱基判读模型在对电信号解读碱基时,每测一个碱基会给出一个相应的质量值Q,这个质量值Q是衡量测序准确度的。质量值Q越高代表碱基被测错的错误率P越小,每个碱基测序错误率是通过测序碱基质量值通过Q=-10lgP公式转化得到。例如:碱基的质量值Q为13时,错误率P为5%,碱基的质量值Q为20时,错误率P为1%,碱基的质量值Q为30时,错误率P为0.1%。
在一个实施例中,所述步骤S3中,所述将所述碱基序列生成标准格式的测序数据结果文件,包括:
将DNA序列解读结果及其准确度概率值信息转化为高通量测序数据的标准格式(即FASTQ格式和/或PHRED SCORE格式),方便后续分析研究的进行。其中,所述高通量测序数据的标准格式包括FASTQ格式和/或PHRED SCORE格式。
FASTQ格式:测序行业将测序序列(Sequenced Reads)结果以FASTQ(简称为fq)文件格式存储。FASTQ文件包含每条测序序列(Read)的名称、碱基序列以及其对应的测序质量信息。在FASTQ格式文件中,每个碱基对应一个碱基质量字符,每个碱基质量字符对应的ASCII码值减去33,即为该碱基的测序质量得分(Phred Quality Score)。不同PhredQuality Score代表不同的碱基测序错误率,如Phred Quality Score值为20和30分别表示碱基测序错误率为1.0%和0.1%。其中FASTQ文件格式示例如下:
@HWI-ST1268:544:H8Y022ADXX:1L1101:1480:2221 1:N:0
TATGGTTGGCTGTTCACGGCCTGGAATTCTCGGGTGCCAAGGAACTCCA
+
1:BDFFDFFHHHHJJJJIJJJJJJIJJJIHIJJJHIDIJJJJJJJIIJJ
在以上FASTQ文件格式中:
(1)第一行以“@”开头,随后为测序序列标识别符(Sequence Identifiers)和描述文字(选择性部分);
(2)第二行是碱基序列;
(3)第三行以“+”开头,随后为测序序列标识别符(选择性部分);
(4)第四行是对应碱基的测序质量,该行中每个字符对应的ASCII值减去33,即为对应第二行对应碱基的测序质量值。
PHRED SCORE格式:测序领域中,碱基质量值是衡量测序质量的重要指标。每测一个碱基会给出一个相应的质量值Q,这个质量值Q是衡量测序准确度的。质量值Q越高代表碱基被测错的错误率P越小,每个碱基测序错误率是通过测序碱基质量值通过Q=-10lgP公式转化得到。例如:碱基的质量值Q为13时,错误率P为5%,碱基的质量值Q为20时,错误率P为1%,碱基的质量值Q为30时,错误率P为0.1%。
此外,本发明实施例还提供一种判读设备,如图3所示,包括:存储器、处理器及存储在所述存储器中并可在所述处理器上运行的一个或者多个计算机程序,所述一个或者多个计算机程序被所述处理器执行时以实现本发明实施例提供的一种基于固态纳米孔电信号的碱基判读方法的以下步骤:
S1、通过大数据的训练,构建碱基判读模型;
S2、根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列;
S3、将所述碱基序列生成标准格式的测序数据结果文件。
上述本发明实施例揭示的方法可以应用于所述处理器901中,或者由所述处理器901实现。所述处理器901可能是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法的各步骤可以通过所述处理器901中的硬件的集成逻辑电路或软件形式的指令完成。所述处理器901可以是通用处理器、DSP、或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器901可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器902,所述处理器901读取存储器902中的信息,结合其硬件完成前述方法的步骤。
可以理解,本发明实施例的存储器902可以是易失性存储器或者非易失性存储器,也可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read-Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Read-Only Memory)、电可擦除只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,Ferromagnetic Random Access Memory)、闪存(Flash Memory)或其他存储器技术、光盘只读存储器(CD-ROM,Compact Disk Read-Only Memory)、数字多功能盘(DVD,Digital VideoDisk)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置;易失性存储器可以是随机存取存储器(RAM,Random Access Memory),通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
需要说明的是,上述检测设备实施例与方法实施例属于同一构思,其具体实现过程详见方法实施例,且方法实施例中的技术特征在检测设备实施例中均对应适用,这里不再赘述。
另外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于纳米孔电信号的碱基判读方法程序,所述基于纳米孔电信号的碱基判读方法被处理器执行时以实现本发明实施例提供的一种基于固态纳米孔电信号的碱基判读方法的以下步骤:
S1、通过大数据的训练,构建碱基判读模型;
S2、根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列;
S3、将所述碱基序列生成标准格式的测序数据结果文件。
需要说明的是,上述计算机可读存储介质上的一种基于固态纳米孔电信号的碱基判读方法实施例与方法实施例属于同一构思,其具体实现过程详见方法实施例,且方法实施例中的技术特征在上述计算机可读存储介质的实施例中均对应适用,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种基于纳米孔电信号的碱基判读方法,其特征在于,所述方法包括:
通过大数据的训练,构建碱基判读模型;
根据所述碱基判读模型将电信号数据解读为DNA或cDNA的碱基序列;
将所述碱基序列生成标准格式的测序数据结果文件。
2.根据权利要求1所述的方法,其特征在于,所述通过大数据的训练,构建碱基判读模型,包括:
获取每个纳米孔内信号采集点的第一影响特征;
基于马达蛋白或者降速酶,获取DNA序列通过纳米孔的第二影响特征;
基于人工合成序列,获取不同碱基的电信号模式的基本特征及其之间的差别特征;
根据所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建电信号识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取每个纳米孔内信号采集点的第一影响特征,包括:
使用高灵敏度的电流强度检测芯片检测每个纳米孔电流强度,获取每个纳米孔内信号采集点的第一影响特征,所述第一影响特征至少包括之一:采集频率,采集间隔的均一度、电信号的稳定性、背景信号。
4.根据权利要求2所述的方法,其特征在于,所述基于人工合成序列,获取不同碱基的电信号模式的基本特征及其之间的差别特征;包括:
通过脱氧核苷酸逐个进行人工连接的方法合成100条特定的长度为1000-2000bp的序列;
将这100条已知序列在纳米孔测序仪上反复测序,获取不同碱基排列组合通过纳米孔时的电信号数据信息,以确定不同碱基的电信号模式的基本特征及其之间的差别特征。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建碱基判读模型;包括:
采用循环神经网络算法,结合所述第一影响特征、所述第二影响特征和不同碱基的电信号模式的基本特征及其之间的差别特征,构建碱基判读模型。
6.根据权利要求5所述的方法,其特征在于,对所述碱基判读模型进行训练,包括:
在E.coli和Yeast参考基因组上分别选取100个区域,通过引物和高保真酶扩增出长度在4-5Kbps的序列片段;
将上述扩增后100条DNA序列片段在纳米孔测序仪上反复测序,获取不同碱基排列组合通过纳米孔时的电信号数据信息。
7.根据权利要求6所述的方法,其特征在于,对所述碱基判读模型进行基于双向循环神经网络RNN训练,包括:
将E.coli和Yeast细胞核基因组提取、打断成长度在10Kbps左右的片段,在纳米孔测序仪上进行测序,生成全基因组水平的训练集合,训练基于双向循环神经网络RNN的碱基判读模型。
8.根据权利要求1所述的方法,其特征在于,所述将所述碱基序列生成标准格式的测序数据结果文件,包括:
将DNA序列解读结果及其准确度概率值信息转化为高通量测序数据的标准格式,所述高通量测序数据的标准格式包括FASTQ格式和/或PHRED SCORE质量评价格式。
9.一种判读设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的一种基于纳米孔电信号的碱基判读方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有基于纳米孔电信号的碱基判读方法,所述基于纳米孔电信号的碱基判读方法的程序被处理器执行时实现如权利要求1至8中任一项所述的一种基于纳米孔电信号的碱基判读方法的步骤。
CN202011118063.9A 2020-10-19 2020-10-19 基于纳米孔电信号的碱基判读方法、判读设备及存储介质 Pending CN112309503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011118063.9A CN112309503A (zh) 2020-10-19 2020-10-19 基于纳米孔电信号的碱基判读方法、判读设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011118063.9A CN112309503A (zh) 2020-10-19 2020-10-19 基于纳米孔电信号的碱基判读方法、判读设备及存储介质

Publications (1)

Publication Number Publication Date
CN112309503A true CN112309503A (zh) 2021-02-02

Family

ID=74327888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011118063.9A Pending CN112309503A (zh) 2020-10-19 2020-10-19 基于纳米孔电信号的碱基判读方法、判读设备及存储介质

Country Status (1)

Country Link
CN (1) CN112309503A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113462544A (zh) * 2021-07-01 2021-10-01 南方科技大学 核酸序列的检测方法、装置、系统、控制设备
CN115620809A (zh) * 2022-12-16 2023-01-17 北京齐碳科技有限公司 纳米孔测序数据分析方法、装置以及存储介质和应用
CN116486910A (zh) * 2022-10-17 2023-07-25 北京普译生物科技有限公司 纳米孔测序碱基识别的深度学习训练集建立方法及其应用
CN117744748A (zh) * 2024-02-20 2024-03-22 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备
CN117831630A (zh) * 2024-03-05 2024-04-05 北京普译生物科技有限公司 为碱基识别模型构建训练数据集的方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101080500A (zh) * 2003-02-28 2007-11-28 布朗大学 纳米孔,使用纳米孔的方法,制备纳米孔的方法和用纳米孔表征生物分子的方法
CN108885649A (zh) * 2015-11-12 2018-11-23 塞缪尔·威廉姆斯 使用纳米孔技术对短dna片段进行快速测序
CN110168104A (zh) * 2016-12-01 2019-08-23 牛津纳米孔技术公司 使用纳米孔表征分析物的方法和系统
CN111243674A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种碱基序列的识别方法、装置和存储介质
CN111634882A (zh) * 2020-06-10 2020-09-08 深圳市儒翰基因科技有限公司 一种硅基固态纳米孔及制备方法、硅基固态纳米孔测序仪
US20200309761A1 (en) * 2017-05-04 2020-10-01 Oxford Nanopore Technologies Limited Machine learning analysis of nanopore measurements

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101080500A (zh) * 2003-02-28 2007-11-28 布朗大学 纳米孔,使用纳米孔的方法,制备纳米孔的方法和用纳米孔表征生物分子的方法
CN108885649A (zh) * 2015-11-12 2018-11-23 塞缪尔·威廉姆斯 使用纳米孔技术对短dna片段进行快速测序
CN110168104A (zh) * 2016-12-01 2019-08-23 牛津纳米孔技术公司 使用纳米孔表征分析物的方法和系统
US20200309761A1 (en) * 2017-05-04 2020-10-01 Oxford Nanopore Technologies Limited Machine learning analysis of nanopore measurements
CN111243674A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种碱基序列的识别方法、装置和存储介质
CN111634882A (zh) * 2020-06-10 2020-09-08 深圳市儒翰基因科技有限公司 一种硅基固态纳米孔及制备方法、硅基固态纳米孔测序仪

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113462544A (zh) * 2021-07-01 2021-10-01 南方科技大学 核酸序列的检测方法、装置、系统、控制设备
CN116486910A (zh) * 2022-10-17 2023-07-25 北京普译生物科技有限公司 纳米孔测序碱基识别的深度学习训练集建立方法及其应用
CN116486910B (zh) * 2022-10-17 2023-12-22 北京普译生物科技有限公司 纳米孔测序碱基识别的深度学习训练集建立方法及其应用
CN115620809A (zh) * 2022-12-16 2023-01-17 北京齐碳科技有限公司 纳米孔测序数据分析方法、装置以及存储介质和应用
CN115620809B (zh) * 2022-12-16 2023-04-07 北京齐碳科技有限公司 纳米孔测序数据分析方法、装置以及存储介质和应用
CN117744748A (zh) * 2024-02-20 2024-03-22 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备
CN117744748B (zh) * 2024-02-20 2024-04-30 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备
CN117831630A (zh) * 2024-03-05 2024-04-05 北京普译生物科技有限公司 为碱基识别模型构建训练数据集的方法、装置及电子设备
CN117831630B (zh) * 2024-03-05 2024-05-17 北京普译生物科技有限公司 为碱基识别模型构建训练数据集的方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112309503A (zh) 基于纳米孔电信号的碱基判读方法、判读设备及存储介质
CN102329876B (zh) 一种测定待检测样本中疾病相关核酸分子的核苷酸序列的方法
CN107368706A (zh) 测序数据结果分析方法和装置、测序文库构建和测序方法
CN101278058A (zh) 使用高通量测序技术对复杂基因组测序的改良策略
JP7373047B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
JP2023516167A (ja) 生体高分子の配列を決定する方法
CN115101128B (zh) 一种杂交捕获探针脱靶危险性评估的方法
JP5051126B2 (ja) 個体識別方法および装置
CN110600079B (zh) 转基因鉴定方法及鉴定装置
BR112022006939B1 (pt) Detecção de sequências unicamente associadas a uma região alvo de dna
KR102347463B1 (ko) 핵산 서열 분석에서 위양성 변이를 검출하는 방법 및 장치
US20130345095A1 (en) Method and device for assembling genome sequence
US7887690B2 (en) DNA separation device, DNA separation method, and ligand DNA
KR20070086080A (ko) 유전자 발현량 규격화 방법, 프로그램 및 시스템
CN110305945A (zh) 一种基于二代测序技术的游离线粒体dna突变检测技术
CN109207571B (zh) 一种检测核酸内切酶酶切位点的方法
CN111433374A (zh) 用于检测串联重复区的方法、系统和计算机可读介质
CN114171121B (zh) 一种mRNA 5’3’末端差异的快速检测方法
CN114420204B (zh) 用于预测待测基因的拷贝数的方法、计算设备和存储介质
CN113652476B (zh) 羟甲基化分析中dna整体转化效率的评估方法
US20050176007A1 (en) Discriminative analysis of clone signature
CN117385016A (zh) 过表达重构基因质粒在表达、吞噬细胞中检测系统及方法
CN116230083A (zh) 5′utr序列可变剪切分析方法、装置、设备及介质
David et al. DNA Sequencing Technologies and DNA Barcoding
CN118016159A (zh) 基于drs的生物遗传样本转录组测序分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Mo Hui

Inventor after: Wu Meng

Inventor after: Zhang Xinlian

Inventor after: Yin Liangchao

Inventor before: Mo Hui

Inventor before: Jiang Ning

Inventor before: Wu Meng

Inventor before: Fan Jianlin

Inventor before: Zhou Wenyi

Inventor before: Zhang Xinlian

Inventor before: Yin Liangchao

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202