CN105980578A - 用于使用机器学习进行dna测序的碱基判定器 - Google Patents

用于使用机器学习进行dna测序的碱基判定器 Download PDF

Info

Publication number
CN105980578A
CN105980578A CN201480068511.5A CN201480068511A CN105980578A CN 105980578 A CN105980578 A CN 105980578A CN 201480068511 A CN201480068511 A CN 201480068511A CN 105980578 A CN105980578 A CN 105980578A
Authority
CN
China
Prior art keywords
base
sequence
nucleic acid
training
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201480068511.5A
Other languages
English (en)
Other versions
CN105980578B (zh
Inventor
B.G.克马尼
R.德尔马纳克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MGI Tech Co Ltd
Original Assignee
Callida Genomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Callida Genomics Inc filed Critical Callida Genomics Inc
Publication of CN105980578A publication Critical patent/CN105980578A/zh
Application granted granted Critical
Publication of CN105980578B publication Critical patent/CN105980578B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

提供了用于创建和使用机器学习模型以基于生产测序运行期间测量的强度数值判定核酸位置处的碱基的方法、系统和装置。可以使用来自较早实施的训练测序运行的训练数据训练模型。使用强度数值和测定为正确输出的假设序列训练模型。可以过滤训练数据以改善准确性。可以以特定方式选择训练数据以代表要测序的生物体的类型。可以训练模型以使用来自多个循环和来自相邻核酸的强度信号改善碱基判定的准确性。

Description

用于使用机器学习进行DNA测序的碱基判定器
对相关申请的交叉引用
本申请要求2013年12月16日提交的题目为“Basecaller For DNASequencing Using Machine Learning”的美国临时申请No.61/916,682的权益,通过提及将其收入本文。
发明背景
在遗传学中,术语测序可以指用于测定生物聚合物,包括核酸(例如DNA,RNA等)的一级结构或序列的方法。更具体地,DNA测序是测定给定DNA片段中的核苷酸碱基(腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶)的次序的过程。此类测序方法通常包括判定(call)核酸中的某个位置处的碱基,其中使用判定的碱基测定核酸的序列。
当对靶核酸测序时,例如,该过程通常包括自样品提取靶核酸并且使靶核酸片段化。使用片段化的核酸生成靶核酸模板,该靶核酸模板一般会包含一个或多个衔接头(adapter)。靶核酸模板可以进行扩增方法,诸如提供簇的桥式扩增或提供核酸“纳米球”的滚环复制。然后对单链核酸实施测序应用,例如通过合成测序或连接测序技术,包括组合探针锚定连接(combinatorial probe anchor ligation,cPAL)进行。
与在特定位置处掺入核酸中的碱基对应的强度数值(例如荧光信号)可以指示所述位置处的碱基。例如,可以使用4种不同类型的荧光,其对应于要鉴定的4类碱基。核酸适合于相对便宜且有效的成像技术,其中以4种颜色图像俘获核酸,1种代表使用的每类荧光。然后,可以经由软件处理4种图像以提取强度信息。掺入的例子是合成、连接和杂交。
如上文提及,可以使用强度数值(信号)判定核酸的某个位置处的碱基,即实施碱基判定。靶核酸模板的强度数值可以对应于图像的一个像素或多个像素,或者对于像素可以有多个模板(即每个像素有超过一个模板)。不管怎么,4种碱基之每种的强度数值可以分配给模板。自然地,可以判定与最大强度数值对应的碱基,但是这具有高误差率。例如,强度数值的测定可以由于光学效应(例如在各个强度信号的光谱上重叠)和空间效应(例如当多个模板对应于单一像素时)而是不正确的。另外,测序过程的生物化学可以引起人为假象(artifact),并且强度信号可以从一个位置和模板至另一个(例如由于一个模板与另一个的扩增的差异)以及从样品至样品显著变化。
因而,会期望提供用于做出碱基判定的改善的方法和系统。
发明概述
实施方案提供了用于创建和使用碱基判定模型的方法、装置和系统。作为一个例子,可以使用来自一个或多个较早测序运行的训练数据(例如强度数值的输入和假设为正确的序列的输出)创建碱基判定模型,然后可以在后来的测序运行中,例如在较早的测序运行后的几周或几个月使用碱基判定模型。可以在延长的时间段里组装训练数据以获得训练数据中的高准确性(例如通过使用通常不会在生成运行(production run)中使用的严格设置进行)并且以提供训练数据组,其代表要在生成运行中测序的样品。可以用用于确定在延长的时间段(例如几天或几周)里发生的模型的优化方法获得大量的训练数据。
根据一个实施方案,为了获得准确的训练数据,可以做出初始碱基判定(例如使用初始碱基判定器)。可以使用初始碱基判定来创建核酸的初始序列。可以过滤这些初始序列,例如以除去不准确的数据,可能不准确的序列,不准确或可能不准确的碱基判定,和/或对碱基判定或整个序列应用权重以降低对用于优化碱基判定模型的代价函数(cost function)的相应贡献。可以在对生成运行期间获得的数据训练碱基判定模型的实施方案中实施此类过滤。
其它实施方案涉及与本文中描述的方法有关的系统和计算机可读介质。
可以通过参考以下详细描述和附图获得本发明的实施方案的性质和优点的更好理解。
附图简述
图1是框图,其显示了根据一个实施方案的示例系统10,用于使用核酸的强度数值(例如如从数字图像测定)进行碱基判定。
图2是根据本发明的实施方案的用于形成和使用碱基判定模型的方法200的流程图。
图3显示了根据本发明的实施方案的用于训练和使用碱基判定模型的系统300的框图。
图4是根据本发明的实施方案的创建碱基判定模型的方法400的流程图。
图5显示了图500,其显示了得分和概率之间的关系。
图6是根据本发明的实施方案的对生物体的核酸判定一个或多个碱基的方法600的流程图。
图7显示了根据本发明的实施方案的示例神经网络。
图8显示了比较神经网络碱基判定器(Neurocall)和另一种碱基判定器(Turbocall)的性能的结果的图。
图9A显示了理想的混淆矩阵(confusion matrix)。图9B显示了根据本发明的实施方案的混淆矩阵。
图10显示的图显示了本发明的实施方案的准确性。
图11显示了对Neurocall和Turbocall比较不同位置的不一致碱基(discordant base)计数的图。
图12显示了可与根据本发明的实施方案的系统和方法一起使用的示例计算机系统1200的框图。
定义
以下定义可以有助于为理解本发明的实施方案提供背景。
“序列读出”或“读出”指代表构成核酸分子(例如DNA、cDNA、RNA,包括mRNA、rRNA、siRNA、miRNA等)的单体单位(例如碱基)的序列的数据。可以经由多种技术从给定的分子中测量序列读出。
如本文中使用的,“片段”指在生物学样品中的核酸分子。片段可以称为长或短,例如长于10Kb(例如50Kb-100Kb)的片段可以称为长,并且短于1,000个碱基的片段可以称为短。可以将长片段分裂成短片段,对所述短片段实施测序。
“配偶对”或“配对读出”或“成对端”可以指不完全重叠(即覆盖分子的不同部分)的来自同一分子的任何两个读出(又称为相同读出的两个臂:臂读出)。两个读出中的每个会来自同一分子的不同部分,例如来自分子的两端。作为另一个例子,一个读出可以针对分子的一端,另一个读出针对分子的中间部分。由于遗传序列可以从开始至结束排序,当第一读出在第二读出开始和/或结束前开始和/或结束时,可以鉴定分子的第一读出为比分子的第二读出更早存在于基因组中。可以对每个分子获得超过两个读出,其中每个读出可以针对分子的不同部分。通常,两个读出之间有未读序列的约100-10,000个碱基的缺口(配对缺口)。配对缺口的例子包括500+/-200个碱基和1000+/-300个碱基。
“定位(mapping)”或“比对(aligning)”指例如通过匹配例示的臂读出与同参照内的位置对应的索引(index)内的一个或多个键码(key)将读出(或读出对,例如配偶对的)与同读出相似的参照序列中的0、1、或更多个位置联系起来的过程。
如本文中使用的,“等位基因”对应于一个或多个核苷酸(其可以作为取代或插入发生)或一个或多个核苷酸的缺失。“基因座”对应于基因组中的位置。例如,基因座可以是单个碱基或碱基的连续系列。术语“基因组位置”可以指基因组中的特定核苷酸位置或核苷酸位置的连续区块。“杂合基因座”(又称作“het”)是参照基因组或被定位的生物体的特定基因组中的位置,其中染色体的拷贝没有相同等位基因(例如单核苷酸或核苷酸的集合)。当基因座是具有不同等位基因的一个核苷酸时,“het”可以是单核苷酸多态性(SNP)。“het”也可以是下述位置,其中有一个或多个核苷酸或一个或多个串联重复的插入或缺失(统称为“插入/缺失(indel)”)。单核苷酸变异(SNV)对应于具有与特定人(person)的参照基因组不同的核苷酸的基因组位置。若在该位置处仅有一个核苷酸,则SNV对于某个人可以是纯合的,并且若在该位置处有两个等位基因,则为杂合的。杂合SNV是het。SNP和SNV在本文中可互换使用。
测序指测定与一个或多个核酸的位置对应的强度数值。“强度数值”可以是任何信号,例如电或电磁放射,诸如可见光。可以有每个碱基的1个强度数值,每个碱基的多个强度数值,或比有碱基更少的强度数值。还有,强度数值可以针对特定位置,或者强度数值可以针对核酸的多个位置。可以将强度数值限制到预先确定的数值(例如二进制或十进制数字系统中的整数),或者具有连续数值。
“测序过程”或“测序运行”指以批次测定与一个或多个核酸的位置对应的强度数值。例如,当测序牵涉对基底上的核酸的生物化学反应成像时,在相同的测序运行期间获得所得的强度数值。不同基底的核酸的强度数值会在不同测序运行中出现。第一测序运行的核酸不会参与第二测序运行(例如不包括在同一图像中)。
“假设序列”对应于认为准确的序列。测定可以是不准确的,但是训练假设它是准确的。可以以多种方式测定假设序列,例如如本文中描述的。假设序列可以不包含判定,并且如此,假设序列可以具有判定的位置之间的开放位置。
“机器学习模型”(又称为模型)指基于已知的结果(训练数据)预测输出碱基判定的技术。已知的结果可以是假设序列,假设该假设序列是正确的。由于模型尝试预测训练数据的结果,可以对机器学习监督学习,其中监督来自训练数据。
“碱基判定”是核酸中的位置处的碱基的测定。碱基判定可以是无判定或规定(specified)的碱基。碱基判定可以独立或者作为规定碱基(例如A/T)的组合的一部分做出,其可以针对相同基因组位置(例如若相应的得分彼此接近)或针对不同位置。可以使用来自机器学习模型的“得分”输出测定位置处的碱基判定。例如,可以对碱基中的每个提供得分。可以认为基于得分测定碱基判定是模型的一部分。一些模型可以提供得分,其中得分由后来的过程使用。得分的例子可以是概率或可能性。碱基中每个的概率得分会总计到固定的数目,即1。可能性得分不需要总计到固定的数目。可以将每个可能性得分限于0-1之间。可能性得分可以总计到1,特别若模型是充分训练的。
发明详述
实施方案可以提供用于从来自测序过程的强度数值输出测定碱基判定的机器学习模型。可以以各种形式,例如以单循环或多循环,仅使用感兴趣的核酸分子或还使用相邻核酸分子(其限于基因组的特定位置或者适用于整个基因组等)创建模型。
可以对输出来自两个或更多个碱基的强度数值的任何测序技术应用实施方案。可以同时(例如多循环)或序贯(例如当添加每种碱基并且在添加下一碱基前从样品除去时)获得给定测序循环的强度数值。可以对扩增核酸模板的测序技术或不扩增的单分子技术应用实施方案。也可以使用各种扩增技术。可以使用合成测序(SBS)或者使用连接的测序以及其它技术提供强度数值。在本文中,将DNB(DNA纳米球)称为感兴趣的核酸分子的任何讨论与其它技术同等相关。如此,可以对各种测序技术应用实施方案。
I.进行碱基判定
可以使用各种测序技术获得强度数值。例如,可以在基底(载玻片)上沉积许多核酸分子。分子可以以有序阵列(点阵),例如矩形(包括正方形)、棋盘(与角而非边相邻的点阵位置,诸如棋盘上的黑色框)、或六角形点阵,或者以无序方式沉积。基底上的独特位置可以对应于不同起始分子。在其它实施方案中,分子可以流过通道,在所述通道内实施测序。
在测序过程期间,可以对给定循环同时获得来自给定基底上的分子的强度数值,其中每个循环对应于分子上的不同位置。例如,基底的图像可以包括发射光的不同位置,其中每个位置可以发射针对每种碱基的不同波长的信号。图像可以对应于特定的循环。如上文提及的,可以使用从测序获得强度数值判定核酸分子中每个的位置处的碱基。
图1是框图,其显示了根据一个实施方案的示例系统10,用于使用核酸的强度数值(例如如从数字图像测定)进行碱基判定。在此实施方案中,系统10可以包含测序仪器12和一个或多个计算机30的簇。计算机30可以经由直接有线或无线连接或者经由高速度局域网络(未显示)与测序仪器12连接。测序仪器12可以包含一级子系统,诸如用于容纳核酸13的基底14、液体处理机器人(liquid handling robot)16、和高速成像仪18。计算机30的至少一部分可以平行执行软件组件的实例(instance),包括碱基判定组件22(其可以利用机器学习模型)和定位、装配(Assembly)和/或分析组件24。
计算机30可以包含典型的硬件组件(未显示),其包含一个或多个处理器、输入装置(例如键盘、点击设备等)、和输出装置(例如显示器装置等)。计算机30可以包含计算机可读/可写介质,例如存储器和存储装置(例如闪速存储器、硬盘驱动器、光盘驱动器、磁盘驱动器等),其含有当由处理器执行时执行公开的功能的计算机指令。计算机30可以进一步包含用于控制测序仪器12的软件和/或硬件和用于存储碱基判定26的计算机可写介质。
测序可以对输入核酸13运行,所述输入核酸13可以通过从样品或靶生物体提取较大的分子并且使它们片段化获得。在多个实施方案中,核酸13可以源自基因,调节元件,基因组DNA,cDNA,RNA,包括mRNA,rRNA,siRNA,miRNA等及其片段。可以使用任何合适的测序技术提供强度数值,例如如记载于美国专利No.8,518,640;Drmanac et al.的2012年4月16日提交的题目为“Sequencing Small Amounts of Complex Nucleic Acids”的美国专利公开文本2014/0051588,通过提及完整收录其公开内容;Drmanac et al.,Science327:78-81,2010;及Peters et al.,Nature 487:190–195,2012。在一个实施方案中,将核酸13放置到一个或多个基底14上,然后将基底14插入测序仪器12中。基底14可以是无图案的或有图案的。在无图案的实施方案中,可以在基底14上的离散位置中各自沉积核酸的样品,但是位置不需要是固定的。
在使用荧光检测的一个实施方案中,高速成像仪18可以形成4色荧光显微镜。在一个实施方案中,对于每个循环,可以对核酸之一上的每个位置成像。可以将基底14分割成场,其可以形成道。可以一次对一个场采集图像,对于循环对所有场成像一次。高速成像仪18可以在数据储存库(datarepository)21中存储图像20。
来自数据存储库21的图像20可以由碱基判定组件22处理以产生碱基判定26。碱基判定组件22包含程序指令,所述程序指令处理图像20以鉴定核酸13中的每个位置处的碱基(例如核苷酸A、T、G或C)。不同位置可以对应于不同序贯测序/反应循环(在下文中为“循环”)。在每个循环期间,询问核酸13的不同位置,并且俘获核酸13的至少一幅图像。可以校对核酸13中的每个位置的碱基判定26以形成序列读出。如下文描述的,碱基判定组件22可以包含碱基判定的多个阶段,以及定位和装配,特别是在训练模式中使用系统10时。
在实施最终碱基判定后,定位、装配和/或分析组件24可以对序列读出运行,并且可以产生多种输出,包括与参照基因组比对的读出(未显示)和重叠读出的共有序列装配,其显示为序列28。可以输出序列28,并且由软件或个人分析以鉴定生物体的特征,例如生物体是否具有特定的疾病,是否有特定疾病的素因,是否具有特定遗传性状等。
A.单循环
在单循环碱基判定器中,使用核酸的目前位置(循环)的强度数值判定目前位置处的碱基,并且不使用其它循环的强度数值。可以以各种方式实施循环。在一个实施方案中,同时对系统添加多种探针,并且理想地,探针仅当与核酸杂交时引起信号。探针会引发不同信号,例如电磁谱的不同部分。不同电信号也是可能的。在另一个实施方案中,一次添加每种探针。例如,添加仅针对A的探针,并且获得与A在位置处杂交与否对应的信号(例如电或光信号)。然后,可以除去探针,并且可以添加下一碱基,等等。以此方式,来自针对不同碱基的探针的信号不必是不同的,因为不同信号在时间上区分。
通常,最简单的碱基判定规程是判定具有最高强度的碱基,例如最高强度高于阈值的添加标准,若所有强度低于阈值,则不做出判定。若通过强度的加权总和标准化强度(例如相对于1的标准化强度),则可以认为标准化的强度是概率。可以在此标准化前扣除背景信号。可以使用造成强度信号变化的别的因素(例如用高斯函数以噪音建模)。
然而,简单挑出最大强度不是非常准确的。例如,当同时获得4种强度数值时,可以存在荧光团(fluor)发射的信号之间的串扰(crosstalk),所述荧光团附着于相应的碱基。与特定碱基的信号对应的波长可以称为通道。可以使用串扰矩阵(matrix)降低串扰,并且获得更准确的强度数值。例如,针对第一核酸的第一位置的给定通道(例如针对G的信号)的强度可以以针对第一核酸的第一位置的4种通道的强度的加权总和计算。但是,此类校正不说明一些光学问题,并且不解决生物化学过程的变化。
别的光学问题源自从相邻核酸的信号中的掺混(bleed),所述来自相邻核酸的信号影响对正在判定核酸碱基的核酸测量的信号。可以使用线性或非线性回归解决这种从相邻信号中的掺混。例如,针对第一核酸的第一位置的给定通道(例如针对G的信号)的强度可以以针对作为第一核酸的近邻(neighbor)的核酸的同一循环的给定通道的强度的加权总和计算。可以从针对第一核酸的信号中扣除来自近邻的强度的分数。可以使用系统的光学特性的测量测定加权总和的系数。即使在考虑此类因素时,使用光学测量的此类回归仍具有准确性的限制,例如因为不考虑从一个实验到另一个的生物化学变化。
B.多循环
在多循环碱基判定器中,在判定特定位置处的碱基中使用来自超过一个循环的强度数值。例如,可以在对当前循环测定碱基中使用先前循环的强度数值。来自先前循环的强度数值的使用可以造成生物化学的变化。例如,来自一个循环的探针在开始下一循环前可以不完全除去;因此,这些保留的探针仍可以发射与先前位置的碱基对应的信号。作为另一个例子,可以在阅读步骤前发生衔接头序列的不正确延伸(例如超过一个)。然后,当询问目前的位置时,来自其它位置的信号可以做出贡献。
在多个实施方案中,可以使用任何数目的先前循环。另外,可以同时使用多个循环的强度数值测定相应位置处的碱基。例如,可以使用5个循环的强度数值测定与那些循环对应的5个位置处的碱基。
作为一个例子,3至5个先前循环可以提供关于特定的酶在如何影响特定实验的强度的足够信息。在极端情况中,可以使用所有先前的循环,但是在额外的计算外,这导致需要存储的更多数据。在另一个例子中,也可以使用随后的循环。例如,在循环X时添加的碱基可以保留,并且如此对后来循环时的信号提供贡献。此种贡献可以帮助为循环X检测该位置处的碱基。在连接是掺入类型时,随后的循环也可以影响目前的循环,因为后来的碱基可以在正在用于探查目前碱基位置的连接分子中。
即使对目前强度的平均贡献可以归因于先前循环的强度,变化的量和类型可以是非常复杂的。因此,实施方案可以使用来自测序运行的实际数据来确定可以处理复杂性的碱基判定器的模型。例如,可以使用实际核酸的测量强度训练模型,对于所述实际核酸,假设特定序列(例如碱基是已知的,从初始碱基判定测定,或者使用模型的先前迭代测定)。凭借足够的数据,可以使用具有假设序列的训练核酸将测量强度的变化准确定位到正确碱基判定。在一个实施方案中,可以通过从错误中学习改善模型,例如通过在新的训练数据上反复改善模型。
C.强度数值
强度数值可以是原始数据或从原始数据得出的数值。一个例子是与特定时间时的特定碱基对应的电信号(例如已知在对系统引入针对A的探针的时间期间信号对应于A)。给定碱基的信号可以在特定探针附着于靶核酸的情况中提供多个原始数据,例如一系列时间时的强度。可以将给定碱基的这些原始数值全部输入碱基判定模型中,或者可以仅输入数值的一部分(例如最大值、平均值、中值、或其它统计学数值)。作为另一个例子,可以处理原始数值以提供参数化数值。例如,可以将原始数值拟合到函数(例如多项式),并且可以使用拟合函数的参数作为强度数值。
此外,每个碱基可以有小于1个强度数值。例如,特定颜色信号的存在和缺乏可以分别指示两种不同碱基。如此,可以使用两种不同颜色(1和2)判定4种碱基。例如,G可以对应于无信号,A可以对应于仅颜色1的信号,T可以对应于仅颜色2的信号,并且C可以对应于具有颜色1和颜色2的信号。可以将两种颜色的强度数值输入到模型以判定碱基。并且,强度数值可以是无信号或信号的组合,例如通过将两种颜色的强度数值转化成代表4种可能性的4种信号。
强度数值可以对应于超过1个碱基位置。例如,循环可以牵涉检测两个位置处的碱基。可以对每两碱基组合分配不同强度数值,两碱基组合的每个强度数值可以对应于光谱中的不同颜色。
II.机器学习
如上文提及的,可以使用核酸序列形成模型,该模型使用测量的强度来测定核酸序列。可以使用已知序列的核酸的测量强度形成模型。以此方式,可以确定测量的强度和正确碱基判定之间的功能关系。可以使用各种机器学习方法,诸如神经网络和支持向量机。在本文中,主要使用神经网络作为一个例子。神经网络可以实现快速判定(例如经由前馈算法),可以提供逼近概率的输出,可以容许在大量训练数据的情况中工作的训练算法,并且可以由于使用简单函数而容许碱基判定器的GPU实现。
图2是根据本发明的实施方案的用于形成和使用碱基判定模型的方法200的流程图。可以在不同时间时实施方法200(和其它方法)的各个块,较晚的块潜在在较早的块之前实施。可以通过计算机系统实施方法200的全部或一些块。
在块210,获得一个或多个训练样品。训练样品包含要测序的核酸。训练样品可以是来自生物体的核酸或人工创建的核酸,或这两者的混合物。训练样品可以来自一个生物体,相同类型的多个生物体(例如全部是人),或来自不同类型的生物体(例如来自细菌和人)。训练样品可以选择为使得数据代表要最终分析的样品,或者以对要分析的样品提供应激情况(stress case)。
在块220,测序来自训练样品的多个核酸以提供每个核酸上的多个位置处的候选碱基的强度数值。可以使用任何合适的测序技术。在一些实施方案中,仅测序任何给定样品中的核酸的一部分。
在块230,对测序的核酸确定假设序列。可以以各种方式确定假设序列。核酸的假设序列可以是核酸的实际序列,但是也可以含有相对于实际序列的一些误差。可以使用技术以高度准确性测定序列。序列的测定可以使用初始碱基判定器以及其它技术(例如定位和装配),以确定假设序列。也可以使用初始碱基判定作为假设序列。在此类情况中,不能改善准确性,但是模型可以比初始碱基判定器提供更大的速度。
在块240,使用对相应的假设序列测量的强度数值训练碱基判定模型。由于输出(假设序列)是已知的,可以选择碱基判定模型的参数以提供假设序列的正确输出,作为对模型训练的一部分。输出可以是每种碱基的得分,其中可以使用得分判定给定位置处的碱基。作为另一个例子,输出可以是位置的单一碱基判定,潜在具有与该单一碱基判定有关的置信度得分,如在下文更为详细描述。可以使用全部或部分的来自给定样品的假设序列。可以使用来自各个样品的假设序列获得各个测序条件间的训练。
在块250,获得测试样品。测试样品一般会来自生物体,该生物体的基因组要通过测序测定。然后,可以测序来自测试样品的核酸以获得强度数值,如本文中描述的。
在块260,碱基判定模型使用强度数值判定核酸的碱基,从而测定核酸的序列。作为一个例子,碱基判定模型可以包含神经网络,其接受强度数值,并且输出碱基中每个的得分,其中可以使用得分做出碱基判定。可以直接(例如通过采取原始得分的最大值)或者通过处理得分(例如经由标准化、加权、或softmax激活函数)使用得分。然后,可以分析经处理的得分以做出碱基判定。
因而,模型可以学习不同序列(例如CGCG对TATA)的行为模式和依赖性。作为其它例子,模型也可以学习给定实验(其可以具有与其它实验截然不同的任何数目的特定特征)或实验亚组(诸如阵列的部分)中的不同质量DNA及其近邻的点。模型的训练(学习)可以提供相对于人提取启发法(heuristics)的编码的益处。
III.训练模型
如上文描述,使用一个或多个训练样品的核酸的强度数值和假设序列训练机器学习模型。一般地,对较小但代表性的一组输入(强度数值)和输出(假设序列)完成训练。其它输入可以是关于仪器的实验参数,如激光的平均光强度。在一些实施方案中,可以使用来自训练样品的各个测序运行的数据在一段时间(例如几天或几周)里完成训练。在较晚时间时并且对于不同测序运行,可以对新样品使用模型。在其它实施方案中,可以使用来自期望碱基判定的相同测序运行的数据完成训练。此训练可以使用测序数据的特定亚组,例如特定的道。
在较早时间时训练模型的实施方案中,训练不受需要以及时的方式获得测序结果约束。取而代之,可以耗费更多的努力以获得准确的模型。一旦已经制备好模型,模型的使用可以是快速的。例如,可以在相对长时间段里并且使用许多计算机资源训练碱基判定神经网络,但是神经网络可以在普通计算机(例如PC)上快速运行以进行生成运行,从而获得碱基判定。
可以在训练前决定用于机器学习模型的设置。例如,可以确定模型要是单循环还是多循环,因为这会影响如何实施运行。对于多循环,可以确定要包括哪些循环,例如5个先前的循环(或者其它数目的先前和/或随后的循环)或特定循环(若不是序贯的话)。对模型的其它输入可以包含来自基底上的相邻核酸的强度数值。设置可以包括确定对模型的输入的任何数值。训练设置可以是固定数值或是选择的,诸如用于确定假设序列的标准。
在使用计算机系统的优化过程期间,可以训练模型以自动学习底层数据(underlying data)的错综复杂。此训练可以加速在生成中引入实验和试剂改善,例如可以更容易鉴定测定法中的误差,因为一般可以排除碱基判定中的误差。鉴于模型提供灵活的框架,模型的适应性可以使测定法形成过程免于对各个变量的“细粒度(fine-grained)”优化,包括但不限于酶浓度、染料浓度、染料平衡等。例如,模型可以学习处理此类实验参数的变化,从而排除这些参数的非常严格的准则(例如通过具有这些实验参数作为模型的输入)。A.系统
图3显示了根据本发明的实施方案的用于训练和使用碱基判定模型的系统300的框图。可以使用组件310-340训练模型,并且可以使用第一计算机系统执行。可以用测序仪器12和计算机30执行组件312和350,如图1中描绘的。系统300的某些组件可以是任选的。
前处理器305可以处理包括前处理的实施方案中的原始强度数值。例如,此类前处理可以从信号除去串扰。在本文中,强度数值可以是原始的或处理的。前处理器可以存在在系统300中获得原始强度数值的任何位置。可以通过测序训练样品的核酸获得强度数值。
初始碱基判定器310可以接受用于训练组的原始或处理的强度数值(例如光或电信号),并且输出初始碱基判定作为初始序列。可以选择训练样品的某些核酸以输入测量的强度数值至初始碱基判定器310。例如,核酸可以选自各个训练样品和测序运行。初始碱基判定器310输出核酸的初始序列。序列可以包括无判定。
初始碱基判定器310可以使用任何碱基判定算法。例如,可以使用判定与最大强度数值对应的碱基的简单算法。在一个实施方案中,可以对初始碱基判定器310使用来自先前迭代的碱基判定模型。用于获得初始序列的目的可以是确定假设序列以训练模型。用于初始碱基判定器310的参数可以设置为有利于高准确性,其可以导致更多的无判定,但是可以对做出的判定提供更高的准确性。由于判定率对于初始碱基判定器不是如此重要的,无判定可以更能容忍。
滤器320可以选择特定的初始序列,用于在流水线(pipeline)中的未来运算。在一个实施方案中,过滤可以鉴定初始序列,其可以难以确定相应的假设序列。例如,若初始序列包含短串联重复,则可能难以测定核酸的真实序列,因为可能难以正确定位初始序列。如此,可能难以鉴定初始碱基判定中的误差。
滤器320还可以鉴定包含具有低质量得分的位置的初始序列。例如,位置的强度数值可以都是相对较低的,其可以导致或不导致无判定。还有,前两个强度数值可以是相对接近的。滤器320可以由于太多无判定(即高于规定的量)或初始序列具有太多的可疑准确性的碱基判定而拒绝初始序列。规定量可以依赖于具有低于阈值的质量得分的初始碱基判定的位置,例如太多的连续的、总共的、或每规定数目的碱基。也可以滤出反映读出(mirrored read)(由于近邻效应)。反映读出可以在有序阵列中的位置是空的或者具有相对较少的靶核酸模板(如此较弱信号)时发生,并且如此反映来自近邻的信号。当有相当大量(例如使用临界确定)的碱基判定时可以除去这些反映读出,所述碱基判定反映近邻的碱基判定。
定位器(mapper)/装配器(assembler)330可以接受来自滤器320的过滤序列。模块330可以实施定位和/或装配。定位功能可以将过滤序列定位到参照序列,容许一些错配和/或无判定的定位。在一个实施方案中,可以在无判定位置处插入碱基以创建kmer,其可以用于鉴定参照索引中的匹配k-mer。在一些情况中,可以鉴定参照序列中接受过滤序列定位的部分为相应核酸的假设序列。如此,若过滤序列对参照的定位中有错配,则会鉴定初始碱基判定中的误差。校正的假设序列可以由训练算法使用,这可以导致避免误差的所得的碱基判定模型。
装配功能可以分析过滤序列以鉴定重叠的序列。可以使用这些重叠序列确定与特定的过滤序列对应的区域中的共有序列。可以采取共有序列作为相应核酸的假设序列。可以使用任何适合于装配的技术。可以使用定位后装配或从头装配。
滤器335可以鉴定要除去的整个假设序列或假设序列中不要在训练算法中使用的部分。例如,初始序列可以包含无判定,但是假设序列可以包含无判定的位置处的碱基。这可以在将初始序列定位到参照时产生,并且假设序列包含初始序列的无判定位置处的碱基。可以期望不在训练中使用无判定位置处的强度数值(例如由于可能的不准确性),并且如此可以修改假设序列以再应用所述无判定位置处的无判定。其它实施方案可以保持无判定位置,使得在生成运行期间遇到相似强度数值时,模型可以能够判定碱基。
滤器335可以除去不是非常可靠的假设序列。例如,初始序列可以定位到参照序列,但是具有太多的错配。定位器/装配器330也可以鉴定此类情况,并且如此对相应的核酸不会产生假设序列。此外,若定位显示嵌合序列的特征,则可以除去序列。例如,定位错配大于40%或50%(例如5个连续位置中的3个误差)可以指示序列是测序过程期间生物化学问题的结果。鉴于目的是实施准确训练,不需要获得每个核酸的测序信息。如此,可以对滤器320和335做出明智决定以鉴定准确的假设序列。可以监测扔掉的坏序列的量或不在训练中使用的序列位置,从而不产生偏差。当过滤使训练组不再代表要测试的样品时,可以产生此类偏差。
训练模块340可以使用来自滤器335的假设序列和训练组的相应强度数值(原始或加工的)以确定碱基判定模型的参数。训练模块340可以包括优化技术,其最小化输出碱基判定模型与假设序列的差异。如此,训练模型340尝试确定用于模型的参数,其会在对模型输入测量的强度数值时导致与假设序列相同或几乎相同的模型的输出。可以使用各种优化技术,诸如梯度下降(gradient descent)、Gauss-Newton、Levenberg-Marquadt、共轭梯度(conjugategradient)等。一旦已经确定碱基判定模型,它可以在生成运行中执行。碱基判定参数可以限定碱基判定模型350。碱基判定参数的例子是权重和神经网络的结构,或用于支持向量机的超平面的定义。
在生成运行中,对测序仪器312提供核酸,所述测序仪器312可以输出针对来自新样品的核酸的位置的新强度数值。可以对碱基判定模型350输入这些强度数值(原始或加工的),所述碱基判定模型350可以提供使用与训练一致的碱基判定参数确定的碱基判定。可以迭代改善碱基判定模型350,例如通过使用输出碱基判定作为新的训练组进行。这以虚线360描绘,其对滤器320提供了新的初始序列组。作为迭代精修(iterative refinement)的一部分,虚线360有效使用先前的碱基判定模型作为初始碱基判定器。
B.方法
图4是根据本发明的实施方案的创建碱基判定模型的方法400的流程图。可以在不同时间并且通过不同实体实施方法400的各个块。方法400的各部分可以是任选的。方法400可以完全或部分通过系统300实施。
在块410,对一个或多个包含训练核酸的训练样品实施一个或多个测序过程。可以在相应测序过程的每个期间测序多个训练核酸。一个测序过程中的训练核酸可以是相同生物体或来自不同生物体,并且不同测序过程的训练核酸可以牵涉不同生物体。训练核酸的测序可以对整个或仅部分的训练核酸测序。训练核酸的测序提供针对训练核酸的位置处的碱基的强度数值。作为例子,测序数据可以是:针对每个碱基的一个强度,每个碱基的多个强度数值,或比碱基少的强度数值。理想地,用于训练的测序过程与用于生成运行是相同过程。
在块420,计算机系统接受一个或多个训练样品的一个或多个测序过程的训练核酸的测序数据。测序数据包括针对训练核酸的位置处的碱基的强度数值。测序数据可以对应于测序的全部训练核酸或仅仅训练核酸的一部分。如此,可以过滤测序数据以鉴定训练核酸组以用于产生模型。例如,可以使用规定量的来自每个测序过程的测序数据。作为例子,规定量可以对应于至少最小数目的用于每个测序过程的核酸,并且可以小于最大数目。规定量可以以百分比表示。
可以对训练核酸组中的每个实施块430-450。
在块430,在训练核酸的位置处实施初始碱基判定以获得初始序列。初始碱基判定至少基于训练核酸位置处的强度数值。如上文描述的,初始碱基判定可以以任何合适的方式实施,并且可以是单循环或多循环,使用来自相邻核酸的强度或不然,等等。初始碱基判定可以包含无判定。训练核酸组可以包含接受测序数据的全部训练核酸,或仅一部分。
在块440,可以过滤初始序列以除去初始序列或修改初始序列中的特定碱基判定。关于是否弃去或修改初始序列的决定可以基于各种标准。如图3提及,若初始序列具有低复杂性,例如包含重复碱基或短串联重复,则可以弃去初始序列。作为另一个例子,可以选择过滤组以实现用于该组的规定GC含量。用于选择初始序列以使用的其它标准可以包括:欠采样(undersampling)低复杂性区域,欠采样基因组中的普遍序列,以及过采样(oversampling)罕见的序列。可以以硬或软方式实现弃去,例如通过使用权重的软弃去以降低来自不太想要的位置或初始序列的贡献,其中特定位置处的0权重会完全弃去所述位置。
除了弃去外,可以修改初始序列。例子包括取代存在有无判定的位置的碱基,这可以容许更好的定位,特别是在使用索引实现定位时。美国专利公开文本2010/0286925,2010/0287165,和2011/0015864提供了关于使用索引定位的进一步详细。美国申请14/467,797提供了关于索引的进一步详情。通过提及收录这些公开文本和申请。块440是任选的。
在块450,确定与过滤序列对应的假设序列。过滤序列可以仅是初始序列。若弃去初始序列,则不会确定假设序列。假设序列假设对于训练核酸的位置是正确的序列。可以以各种方式确定假设序列,包括使用定位和/或装配,或者通过不同类型的初始碱基判定器间的表决。
在块460,过滤假设序列以获得过滤序列的组。过滤可以除去假设序列中的至少一个的全部或部分。如上文描述的,可以使用各种标准进行此过滤。例如,可以掩蔽假设序列中的某些碱基,从而在模型的训练中不使用它们。若不能以足够的准确性确定假设序列,例如若初始序列定位到参照序列中的几个位置或者仅在过多错配的情况下定位,则也可以弃去它。作为另一个例子,若已知多态性(例如SNP)在特定位置处发生,则可以放弃所述位置以免在对模型进行训练中使用。可以使用权重实现弃去以降低来自不太想要的位置或假设序列的贡献,其中特定位置处的0权重会弃去所述位置。块460是任选的块的例子。
在块470,使用过滤序列和与过滤序列对应的强度数值产生碱基判定模型。可以以各种方式产生碱基判定模型。例如,可以通过经由优化过程确定的参数限定碱基判定模型。在优化过程中,可以对参数做出初始评估。可以使用超过一个初始评估,并且可以使用最佳拟合数据的所得模型。例如,可以使用基于强度数值的输入提供预测的碱基判定中的最少误差的模型。多个初始评估的使用可以避免陷于局部最小值,其会提供劣等的模型。由于可以使用来自与生成运行中使用的测序过程不同的测序过程的数据产生模型达相对较长的时间段,可以容许延长的优化过程以实现最佳模型。
C.训练样品
如上文提及的,可以使用多个训练样品。训练样品可以从多种生物体中采集,并且选择为提供代表性的核酸组。代表性组应当类似于模型最终会用于碱基判定的核酸。可以针对不同特性选择各种训练样品。例如,可以选择一种训练样品,因为序列是人工生成的,并且因此是提早已知的。也可以选择另一种训练样品,因为核酸具有特定特性,例如具有特定的GC含量。
用于提供代表性组的核酸的假设序列的数目可以取决于使用的训练样品和先前是否已经训练模型。例如,可以使用新的训练核酸组更新模型,其中使用旧模型的参数作为新模型的参数的初始评估。与在首先创建模型时相比,在更新模型时,假设序列的数目可以更小。还有,可以通过比较初始碱基判定器中观察到的不一致性(discordance)或误差的水平确定训练组的大小,所述初始碱基判定器可以是较旧的模型版本。新的训练核酸组可以来自新的生成运行。
1.人工序列
在一个实施方案中,训练核酸可以包含已知序列的人工序列。由于序列是已知的,可以以高度准确性确定假设序列。人工序列的组可以选择为使得任一种序列与另一种人工序列相差最少的M个碱基。以此方式,初始碱基判定中的误差会使不正确序列被鉴定为假设序列的可能性较小。只要误差的数目小于M/2,可以鉴定正确的序列,因为它会是与初始序列最相似的人工序列。人工序列的组可以包括Reed-Solomon代码。
在一个实施方案中,人工核酸可以是条形码,其可以附着于来自生物体的核酸。例如,可以将条形码添加到核酸的末端。可以使用条形码鉴定核酸来自哪个等分试样。在测序组合的核酸(即人工部分和来自生物体的部分)时,可以对人工序列和生物体的天然序列做出初始确定。以此方式,可以需要较少的测序运行。
可以使用查找表(look-up table)实施确定用于人工核酸的假设序列。由于人工序列的长度和内容是已知的,可以对人工序列创建表。可以使用初始序列搜索此表以鉴定与初始序列对应的正确序列。例如,初始序列可以包含一处误差,并且可以鉴定假设序列为与初始序列最相似的表序列。
使用人工序列的缺点可以是人工序列的数目可以不是大得足以提供良好的代表性样品。例如,人工序列的结构可以不是变化得足以提供良好的代表性样品。当使用误差校正代码作为人工序列时情况可以如此,因为代码规定人工序列的结构。如此,可能难以生成不同序列的准确统计学分布,使得训练组反映生物体中的序列的比例。潜在地,若有几百万个不同人工序列,则代表性样品可以是足够的。例如,人工序列的组可以包含与生物体的实际序列相似的序列。但是,制备那么多人工序列可以是困难的。
为了提供更多序列,当使用误差校正代码时,随机人工序列(或至少非校正序列)可以在物理上附着于代码。虽然可以有有限数目的误差校正代码,但是每个代码可以具有不同的每道添加的非校正序列。作为用于组合不同类型的序列的另一种技术,可以对一个训练组使用人工序列,然后可以在随后的训练组中使用基因组序列,所述随后的训练组用于精修模型。或者,可以在相同训练组中使用人工序列和基因组序列两者。
2.来自生物体
如本文中描述的,可以使用来自生物体的核酸作为训练样品。例如,可以使用基因组DNA。可以对基因组DNA测序,并且可以测定初始序列。可以使用定位和/或装配测定与DNA片段对应的假设序列。使用来自相同类型的生物体(例如人或更宽到为任何动物)的基因组DNA可以帮助提供代表性训练组。
此类训练样品可以选自先前已经准确测定基因组的人。使用已知的基因组可以有助于提高假设序列的准确性。但是,使用已知基因组不是必需的,因为仍可以对其它样品测定假设序列,如本文中描述的。也可以针对不同群体选择不同训练样品。以此方式,可以对不同群体产生不同模型。
3.不同生物体
也有可能在一类生物体上训练模型,并且在不同生物体上执行模型。例如,可以使用细菌(例如大肠杆菌(E.coli))训练模型,并且然后可以使用模型确定来自人的核酸的碱基判定。细菌适合于此目的,因为它们是单倍体,并且仅具有一条染色体。如此,可以准确测定细菌的参照基因组。此准确性可以有助于更准确确定假设序列,例如由于更易于定位到仅具有一条染色体的单倍体生物体。但,用于人的定位更易有误差。
然而,单一细菌可能没有可以在更复杂的生物体(诸如人)中发生的不同序列的种类。如此,可以使用多种细菌(或其它小生物体,诸如噬菌体)作为训练样品。以此方式,多种细菌的基因组可以共同代表人的复杂性。例如,细菌可以选择为覆盖人的染色体区间看到的宽GC含量范围。例如,大肠杆菌上的GC含量是约50%,并且在人上,它是约41%。就GC含量而言,细菌的组合可以提供更具代表性的训练样品,例如通过组合大肠杆菌与具有小于41%的其它细菌,从而提供41%的平均值。
细菌也可以例如以重复区的类型和数目以及重复区的位置为差异。与其它生物体的组合可以通过利用具有特定重复行为的序列来填补缺口。如此,可以选择另一种生物体的基因组的特定部分以包含在训练样品中,因为该特定部分具有与其模型会被使用的生物体相似的期望特性。
4.使用多种样品
如上文提及的,可以在产生模型中一起使用来自各种来源的训练样品。例如,可以组合人工序列与实际的基因组序列以获得更好的代表性组。每种样品可以经历独立的定位和/或装配以确定假设序列。
在一个实施方案中,可以如下有效组合多种样品,即通过在第一样品上训练以获得模型的第一评估,然后通过使用第二样品精修第一评估。如此,可以使用样品分别训练模型。第一样品可以是小生物体的基因组的人工序列,其可以提供许多常见序列的良好初始准确性,尽管不提供期望的宽度。然后,第二样品可以包含人样品,其可以提供额外的复杂性以对人实现良好的代表性样品。
5.多个载玻片
除了使用来自不同生物体的训练样品外,可以在多个测序运行中使用训练样品。每个测序运行可以包含来自相同类型的不同生物体、不同类型的生物体的样品及甚至来自完全同一生物体(例如来自同一人)的样品。每个测序运行可以使用不同载玻片(基底),例如不同的但由相同材料制成的物体。出于各种原因,不同测序运行可以产生光学和生物化学的不同变化。如此,不同测序运行的组合可以提供造成可在生成运行中发生的变化的代表性组。
在一些实施方案中,并非所有来自单一载玻片的测序数据可以被使用。由于有用于训练的时间的预算,可能禁止使用来自所有载玻片的所有数据。如此,可以从每个载玻片选择亚组,例如来自每个测序运行的几百万个序列。选定的序列也可以取自不同载玻片的不同部分(例如不同道),潜在地以选自载玻片的每个部分的核酸的亚组进行。可以随机或以预先确定的方式选择选定的序列。
选定的序列也可以选择为使得对基因组的每个部分提供良好的呈现(representation)。更常出现的序列也是更频繁选择的。例如,在自然界中经常出现的k-mer可以比很少出现的k-mer更多地选择。然而,选择可以确保选择足够的罕见k-mer以提供足够的准确性。
如此,对于常见的k-mer的优选选择可以对最常见的序列提供更多准确性。但是,在某个点后,更多数据在使用足够量的数据后不能很大地改善模型。因此,鉴于训练核酸数目的有限预算,罕见的k-mer可以比可天然存在的k-mer以更大的百分比,但是仍在比更常见的k-mer更低的绝对比率使用。
D.初始碱基判定
为了提供准确的碱基判定,用于初始碱基判定的算法可以是保守的,以提供。没有必要测定整个基因组作为训练的一部分,因为训练核酸仅出于训练目的而不是为了调查获得训练核酸的特定生物体。因而,可以选择用于初始碱基判定器的参数以在更多无判定为代价的情况下获得准确碱基判定。例如,最小强度或得分可以是要判定的碱基需要的。最小值数值可以设置为相对较高,例如在确保不引入偏差的情况下。
选定的参数也可以使初始碱基判定器变为较慢,这由于对训练特异性测序运行完成训练而不是有害的。也就是说,在此类情况中可以将它限定为较慢但较准确的。
在一个实施方案中,可以使用多个初始碱基判定器。可以使用各个初始碱基判定器间的共有物作为碱基判定。各个碱基判定器可以随算法技术或者通过使相同算法技术具有不同参数而变化。
初始碱基判定器的例子包括使用不同碱基的不同信号之间的波长谱中的重叠。可以使用串扰矩阵来校正强度数值。另一个例子包括使用统计学函数来解决模板扩增的变化,例如簇或纳米球中的不同大小。
E.确定假设序列
理想地,模型基于强度数值确定正确的碱基判定。为此,用于训练的假设序列应当是准确的。可以实施假设序列的确定,(但不限于)任何下述方法:(1)使用人工序列和使用解码序列作为预期输出;(2)使用实际核酸和使用定位序列的参照序列作为预期输出;(3)使用实际核酸和使用来自初始序列的装配的共有序列作为预期输出。
1.解码
可以以各种方式实施将初始序列解码为对应于未知的人工序列。在一个实施方案中,表可以包含人工序列。可以构造表以实现更有效的搜索。例如,可以按字母顺序或者以某种其它成规构造表,所述其它成规提供4种碱基间的次序。当接受初始序列时,可以搜索表,使得使用每个碱基位置鉴定潜在的匹配。可以使用表的构造鉴定潜在的匹配。例如,可以立即鉴定所有以A开始的人工序列为表中列出的人工序列的第一个25%。每个额外的碱基可以将潜在匹配人工序列降低25%。如此,不需要将初始序列在其整体上与每个人工序列表比较。
可以发生没有找到精确匹配。例如,每种可能的碱基组合可以不存在于表中。可以构建人工序列,使得它们彼此不是太相似的,例如可以需要它们相差三个或更多个碱基,从而可以校正误差。若没有精确匹配,则可以鉴定最相似的人工序列(例如具有最少数目的不同碱基的人工序列)为对应于初始序列。以此方式,已经将初始序列解码为最接近的人工序列。然后,可以采取最接近的人工序列作为假设序列。
2.定位
也可以通过将初始序列定位到参照序列确定假设序列。这一般会适用于在训练核酸是来自生物体的核酸时。参照序列可以对应于特定个体的已知序列。若初始序列精确定位到参照序列中的独特位置,则可以鉴定初始序列为对应于假设序列,因为没有误差。然而,在比对初始序列与参照序列中可以有一个或多个错配,即用于提供初始序列与参照序列的最佳比对的位置的错配。初始序列可以具有无判定,并且比对可以用比对位置处的来自参照序列的碱基填充那些缺口。
当最佳比对位置处的初始序列和参照序列之间的特定碱基位置中有错配时,可以鉴定错配碱基位置为初始碱基判定中的误差。例如,初始序列可以长24个碱基,并且在具有错配的一个位置的情况下与参照序列比对。一个位置可以具有初始序列中的A和参照序列中的G。鉴于初始序列在其它情况下与参照序列中的一个位置独特比对,可以采取具有G的参照序列作为假设序列。以相似的方式,可以将一个位置处的无判定转化为假设序列的G。在一些实施方案中,转化为G可以限于已知不是SNP的位置。
若定位是不正确的,则可以引起问题。为了避免不正确定位,可以使用来自如上文描述的具有较简单基因组的一个生物体的训练核酸。使用作为单倍体并且具有相对较少染色体(例如一条)以及具有较小的总长度的较简单基因组可以促进定位规程。例如,此类较简单的基因组可以导致较少的多重定位。
另外,可以选择用于定位规程的参数以提供高质量定位。例如,关于比对容许的错配数目的阈值可以是相对较低的,诸如仅2-4个错配。还有,若参照序列中的两个位置与相同数目的错配(但在初始序列的不同位置中)比对,则可以弃去(过滤)所述初始序列。可以通过图3的滤器335实施此类过滤。其它例子包括滤出具有低熵,在基因组上重复(其可以降低定位中的信任),在基因组上非独特定位,对于规定数目的位置(例如位置的超过50%)具有低碱基判定得分(例如与阈值相比)的序列,和那些作为克隆读出或在其它情况中重复读出的序列。过滤可以消除(例如经由加权的硬或软消除)序列的任何位置(或整个序列),所述位置可以使人怀疑定位的质量,并且因此产生用于训练的不正确碱基判定。
作为另一个例子,可以修饰初始序列以鉴定最佳匹配位置,及因此鉴定最佳假设序列。此修饰可以鉴定具有低质量,并且如此可能不准确的碱基位置。可以从定位规程中有效掩蔽这些碱基位置,从而不计算错配。可以以各种方式实施掩蔽,例如可以将4种碱基之每种插入碱基位置中,并且试图将每种与参照序列比对,其中比对可以利用参照索引。可以用图3中的滤器320实施这些修饰。
定位规程也可以解决错配发生的地方。例如,若错配在连续位置中发生,则对于是否使用定位确定假设序列,可以使用不同阈值(潜在较低)。还有,若连续位置在初始序列的末端,则可以与在连续位置在初始序列内(例如接近初始序列的中间)的情况下使用不同阈值。对于每N个碱基的最小数目的错配,也可以使用阈值。例如,可以要求10个碱基的任何区段中的错配数目小于2或3。
连续错配可以源自测序过程中的误差,其可以在扩增反应和测序反应中发生。例如,可以组合来自基因组的一个部分的一个核酸的部分与来自基因组的不同部分的另一个核酸,从而创建不对应于生物体的实际基因组的核酸。还有,连续错配可以指示插入/缺失,其也可以源自文库制备。插入/缺失也可以反映生物体的实际基因组,但是由于难以确定正确序列,可以弃去具有插入/缺失的初始序列以保持训练数据的准确性。定位规程也可以鉴定具有相似误差的多个初始序列,这指示测序过程中的生物化学误差。可以将此类相似误差限于连续误差,使得没有弃去实际多态性。然而,其它实现方式可以寻求弃去反映生物体中的实际多态性的初始序列。
定位可以包括单一核酸的配偶对的两个臂读出。例如,可以对DNA片段的两端(例如20-500个碱基)测序,其中DNA片段长几百个碱基。鉴于两个臂读出来自同一DNA片段,臂读出应当定位到参照中彼此相对接近(例如在规定的阈值,诸如1,000个碱基内)的位置。可以使用每条臂的错配数目作为关于是否接受与特定位置的比对的标准。
若发现特定的碱基位置具有低质量或是无判定,则可以对位置参照处的碱基发生比对,如上文提及的。然而,可以从训练中排除此类碱基位置。如此,仍可以使用与初始序列对应的假设序列;因此避免排除此类序列的偏差,并且可以通过不包括此类低质量碱基位置保留准确性。另外,若特定位置处的两个碱基(或其它数目的碱基)具有相似的得分,则可以在确定对参照的定位中使用这两个碱基。
3.装配
替代定位或与定位组合,可以使用装配来确定假设序列。装配规程可以包括彼此比较初始序列以确定共有序列,若初始序列提供足够支持,则所述共有序列可以包含多态性。可以通过鉴定不用初始序列的重叠部分确定共有序列。可以使用与特定初始序列对应的共有序列的部分作为相应的假设序列。装配可以包括从头装配和/或局部从头装配。
可以在定位后确定初始序列的共有序列。例如,可以将初始序列定位到参照,并且可以装配与基因组的相同区域比对的初始序列以确定共有序列。此类技术可以称为定位后装配。例子包括www.broadinstitute.org/gatk/guide/best-practices和soap.genomics.org.cn/。
当区域包含相对于参照的插入/缺失或其它变异时,组合装配与定位可以是特别有利的。不同过程可以有助于区分插入/缺失和SNP,从而提供更准确的假设序列。在此方式中,仍可以通过实施装配以确定与初始序列(其可以与参照具有相当大的变异)对应的假设序列使用在其它情况中可能已经弃去的初始序列。用于装配的区域可以小到1个碱基,并且如此装配可以鉴定SNP。如此,可以出于训练目的保留与SNP对应的碱基位置,这可以为训练提供更好的代表性样品。
若在没有定位的情况下使用装配,则可以难以知道哪些初始序列与对应于训练样品的基因组中的其它初始序列重叠。可以使用长片段读出(LFR)技术降低初始序列的亚组,所述初始序列彼此比较以确定特定区域的共有序列。LFR和装配的详情可以参见美国专利No.8,592,150,美国公开文本2013/0096841,和美国申请14/467,797。若训练样品对应于小生物体(即小基因组),则装配在不使用LFR技术的情况下可以是更可行的。从头装配的另一个例子可以参见res.illumina.com/documents/products/technotes/technote_denovo_assembly_ecoli.pdf。
F.过滤
如上文描述的,可以过滤(例如弃去或修改)假设序列中的初始序列以实现更准确的训练数据。例如,可以弃去显示过多变异(例如结构变异)的核酸,因为有较高的误差可能性。另外,若初始序列定位到基因组的特定部分,则可以排除初始序列。然而,从基因组的特定部分中排除序列可以引起来自此类区域的核酸的碱基判定的不准确性。还有,如上文提及的,可以要求初始判定上的碱基的质量得分对于要使用的碱基有足够的水平。这可以确保训练模型的较大准确性。但是,这在处理具有低质量得分的碱基判定中可以限制模型。可以统一分析初始序列的所有碱基的质量,使得一些但不是太多低质量碱基可以是可接受的。
1.多态性
可以在确定相对于参照序列具有多态性(SNP或其它变异)的训练样品的假设序列中引起困难。当在定位后采取参照序列作为假设序列时,此类变异可以使正确的碱基判定变成不正确的碱基判定。过滤可以鉴定此类碱基位置,并且从训练数据中除去此类碱基位置,容许初始序列中的其它位置用于训练。虽然定位通常会提供正确的碱基判定,但是定位中的小的但并非不显著的百分比(例如0.1%)的错配可以归因于与训练样品对应的基因组中的变异。局部装配可以有助于通过鉴定初始序列间的一致性避免此类误差,所述初始序列定位到变异的位置,如上文提及的。
如上文提及的,若有实际变异的证据,则可以从训练数据排除所述位置。可以使用已知包含变异的基因组位置排除与那些位置对应的碱基判定,从而避免可能的误差。此类变异文库包括单核苷酸多态性数据库(dbSNP)。也可以在定位过程中使用文库变异以修饰初始序列以在某个位置处具有两个普遍等位基因之任一。可以确定是否使用训练数据中的此类经修饰的位置。若使用特定个体的基因组(或个体组)进行训练,则可以滤出与变异位点(例如SNV、插入/缺失、结构变异(SV))对应的基因座。如此,可以从训练组排除定位到那些区域的任何读出或读出的部分。除了除去外,可以以其它方式使用变异的位置。例如,标记可以鉴定变异,其中后来的处理可以对特定步骤使用标记以不用位置。或者,可以使用权重限制来自所有或一些读出的位置的所有或一些贡献。
2.熵
初始序列和假设序列的过滤可以使用序列的内容确定是否应当弃去序列。例如,具有低复杂性的序列可能难以定位,并且如此可以弃去,因为可以难以确定正确的假设序列。具有低复杂性的序列包含具有特定碱基的许多重复,或串联重复和均聚物的序列。此类序列可以难以定位。
定位规程可以掩蔽重复,不过在尝试定位到参照中仍然花费计算成本。并且,具有低复杂性的初始序列仍可以定位到不正确的位置。取而代之,过滤(例如通过滤器320)可以鉴定具有低复杂性(熵)的初始序列,并且在甚至尝试定位前弃去那些初始序列。
将初始序列发送到定位规程需要的复杂性水平可以基于由于复杂性水平所致的定位中的预期误差。若预期误差高于阈值,则可以认为复杂性是不足的,并且可以弃去初始序列。以此方式,可以控制用于弃去初始序列的偏差,使得仅在预期误差高于可接受阈值时引入最小偏差。
复杂性的水平可以以在随机产生序列时遇到它的概率测量。可以组合复杂性的水平与其它因素(例如初始碱基判定的质量得分)以确定是否弃去初始序列。
此类过滤和定位过程作为用于实际测定样品基因组的商业定位器会具有独特的缺点。然而,此类过滤和定位过程适合于对模型进行训练。
IV.模型的使用
一旦训练模型,可以在生成运行中使用模型。在生成运行期间,不会有初始碱基判定器或假设序列的确定。取而代之,使用模型确定碱基判定。一旦确定碱基判定,仍可以实施定位和装配规程,例如以鉴定与参照的变异或测定整个基因组,或基因组的至少大部分。
A.输入
在一个实施方案中,输入是MxN强度的矩阵,其中M是获得的颜色平面的数目(例如对于大多数DNA测序技术,M=4,其中一个颜色平面用于4种碱基之每种),并且N是同时考虑的碱基位置的数目(例如多循环方案中10)。N可以等于促成给定位置的核酸中的位置(循环)数目。例如,N可以是3,使得使用来自目前循环和两个先前循环的强度作为输入。在另一个实施方案中,若考虑P个近邻,则矩阵可以是MxNx(P+1)。近邻的强度可以选择为也仅用于目前的循环,并且如此总输入会是MxN+Mx(P+1)。由于来自目前循环的近邻强度一般会对给定循环的碱基判定具有大部分影响,可以在模型的单次运算的输出仅提供目前循环的碱基判定时使用此类输入。
可以总计近邻的效应,因此在任何先前的方程中,P+1可以简化为1+1=2。组合的其它方法也是可用的。近邻可以包括立即(最近)近邻和潜在地次于最接近的近邻(next closest neighbor)。也可以动态选择近邻,例如那些在随机阵列中的给定半径内的。
输入强度可以为多种形式。示例强度包括:(1)原始强度;(2)局部背景扣除数值;(3)串扰校正数值;(4)串扰校正并标准化的数值;(5)针对感兴趣的核酸和相邻核酸的任何上述项;和(6)上述项的任何可容许组合。可以扩充输入以包含相对于核酸的位置近邻信息(例如特定近邻强度的X-Y位置),所述核酸的碱基在对给定位置判定。近邻强度可以包括个别的强度或其聚集体强度。
由于此训练的一般性质,模型适用于其它碱基判定方案,例如其中仅使用两种颜色(如本文中描述的)或在同一反应中测定两个碱基位置(例如对每个位置使用两种颜色)。总体方法可以保持不变,其中与4xN形成对比,输入会是2xN。若2种强度中包括所有4种碱基的信息(例如对两种颜色使用0和正强度以覆盖4种碱基),它们会被神经网络利用,以使适合于每个位置的4个得分得到判定。
B.输出
如上文描述的,模型可以输出碱基判定。在一个实施方案中,模型也可以输出(提供)给定位置的每个碱基的得分。可以使用不同启发式运算(例如采取最大值)从得分确定碱基判定。在一个实施方案中,可以认为启发式运算是模型的一部分,其中用训练数据训练提供得分的模型的一部分。
在一个实施方案中,模型的输出是得分(例如0-1)的MxN矩阵,其中M值之每种可以代表要存在的相应碱基的概率或可能性;并且N的每个成员代表多碱基判定方案中感兴趣的碱基位置。用于输出的N的数值可以与用于输入不同。例如,对于输入,N可以是5,使得使用5个强度循环判定给定核酸的碱基(例如目前循环的强度和4个先前循环的强度),但是输出可以是仅用于目前循环的碱基的得分。然后,对于下一循环,输入会再次针对5个强度循环,并且得分仅针对下一循环。在另一个实施方案中,N值可以是相同的,使得得分是同时的多个循环的输出。N也可以在1和使用的输入循环的数目之间。会在训练模型前选择用于输入和输出的N的数值。
与“概率模型”形成对比,模型可以是“可能性模型”。在可能性模型中,可能的解决办法的得分不必合计1,尽管它们可以合计1。换言之,不迫使碱基为A、C、G或T。取而代之,容许它是无一。这容许用于捕捉损伤的核酸或非存在的核酸的天然框架。同时,此模型容许判定多个碱基(其与概率模型相似),并且因此不强制单碱基判定。
在一个实施方案中,当使用可能性得分时,不需要经由启发法捕捉“得分”中的行为。作为推论,可以相当容易地做出多个碱基判定。例如,若某个碱基的4种可能性是(A=0.5,C=0.5,G=0和T=0),则可以推断碱基判定是A/C(A或C,各具有50%置信度)。然而,在所有可能性都是较低的情况中,例如A=0.1,C=0,G=0.1,和T=0,可以做出无判定。具有上述特征的碱基判定器对于一般目的的定位器是有利的,所述一般目的定位器可以容忍大量的无判定(Ns),潜在在随机位置处。若将可疑的碱基改变为N,则准确性可以增加,因为若碱基判定是错误的,则可能已经阻止对正确序列的定位,而N不会阻止正确的定位。如此,优点是可能性模型不迫使通过使得分总计为1做出碱基判定。
在一个实施方案中,输入/输出针对每5个碱基(或其它数目的碱基),具有5个循环数据价值,和5束判定的输出。用于循环的每束判定可以包括4种碱基或其它数目的碱基(在适当时)中的每个的得分。在另一个实施方案中,模型可以具有来自N个循环的输入(例如所有先前的或对于以目前循环为中心的窗口,诸如目前循环的+/-2)和对于仅一个位置的输出,其可以提供更大的准确性,但是对于碱基判定具有更慢的总体速度。
也可以训练模型以输出单个循环的核酸的超过一个位置的得分。如此,可以对两个碱基判定单一循环。通过训练模型以提供两个碱基的此类输出得分,可以避免用于形成高度复杂高斯混合模型(Gaussian Mixture Model)或其它类似的方法的需要。即使在每个循环测定两个碱基时,可以使用传统的4色测定。即使用这些更复杂的输入,模型可以学习如本文中描述的模式。
C.做出判定
如上文提及的,可以使用通过模型(或通过模型内部产生)的得分输出做出碱基判定。例如,可以判定与最高得分对应的碱基。若所有得分较低(即低于阈值),则可以做出无判定。在其它实施方案中,在不使用系于特定碱基的得分(例如使用支持向量机)的情况下,模型可以输出碱基判定。
可以使用给定循环的输出得分判定核酸的给定位置的碱基。碱基判定可以包括单碱基判定、无判定、或多个碱基的判定,例如当测序数据是来自多个循环的输入时或者在循环包含多个位置的数据时。作为一个例子,C可以具有0.9的得分,其它碱基具有0.3、0.1和0.1的得分。在此情况中,最高得分是0.9,并且可以对给定位置判定C。若得分无一高于某个阈值或者若两个顶部得分足够接近,则也可以做出无判定。如此,模型可以包含使用得分确定碱基判定的另一层逻辑。可以认为此种另一层逻辑与模型或模型的部分分开。
除了如何做出碱基判定外,得分可以提供额外的信息。例如,得分可以高于阈值以做出碱基判定,但是可以通过得分输出更多了解碱基判定的置信度。例如,可以鉴定碱基判定为具有高置信度。还有,可以鉴定碱基判定为具有低置信度,这可以用于定位和装配规程。如此,可以实现高判定率,同时仍提供额外的信息,使得误差或不准确数据不传播到未来的步骤,诸如定相和装配。
D.校正
在一个实施方案中,由于可以训练模型以对相同输入提供相同输出,可以训练输出得分以从一个生成运行到另一个没有显著不同。换言之,一个生成运行中的得分会发信号表示与另一个生成运行中的相同得分的碱基判定的相同置信度水平。如此,可以给得分提供从一个测序运行到另一个的一致性。例如,若得分对于某个碱基是0.5,则碱基正确的概率对于任何仪器会是50%。因而,可以使用相同阈值。
例如,阈值可以排除判定碱基,其中有低于95%的概率。可以对其它测序运行普遍应用此95%概率。由于训练模型以提供一致结果,可以获得一致性。
比较而言,其它技术可以提供不同碱基间的排序(rank)或相对数值,但是不能普遍应用用于此类排序的阈值。对于其它技术,若得分较高,则经常,概率较高,但是仅平均而言,因为有置信度边界。如此,已知给定得分的概率范围,但是没有已知的关系。
图5显示了图500,其显示了得分和概率之间的关系。水平轴是概率,并且垂直轴是得分。实施方案可以在生成运行间一致地提供线510。线510提供得分和概率之间的限定关系,例如与45度角线的身份关系。比较而言,提供排序的技术可以实际上具有对应于曲线520或530的关系。在曲线520或530中,得分增加的确增加概率,但是关系是不同的。如此,用于为一个生成运行判定碱基的阈值可以不以用于另一个生成运行以判定碱基的阈值起作用。
为了解决此问题,其他技术可以实施校正步骤,其鉴定得分和概率之间的关系。但是,会对每个测序运行实施此校正,这增加额外的工作。此外,可能需要对相同载玻片的不同道和不同场实施校正。一旦知道关系,可以将曲线520和530转化成线,例如具有45°斜率的。
在运行期间(或以每次运行为基础)不必进行任何校正有优点。可以使用相同阈值,并且过程是更有效的。例如,可以使用较小的存储。在校正中,需要收集大量数据以提供校正,并且此数据需要全部存储。但,本发明的实施方案可以用目前的数据做出碱基判定,然后着手弃去所述数据。此外,此种低存储器约束容许在高速缓冲存储器(cache)或其它比硬盘驱动器更有效的存储器中存储数据,这可以显著增加速度。
E.方法
图6是根据本发明的实施方案的对生物体的核酸判定一个或多个碱基的方法600的流程图。块641和642显示了当模型为某个位置处的相应潜在碱基产生得分时可以如何执行块640的例子,而其它实施方案可以直接输出碱基判定。碱基判定模型可以包含一个或多个前处理功能(例如强度数值的修饰)和一个或多个后处理功能(例如标准化得分或使用softmax函数)。
在块610,计算机系统接受碱基判定模型。可以训练碱基判定模型,如本文中描述的。例如,碱基判定模型可以接受核酸上的一个或多个位置处的碱基的强度数值的输入,并且可以输出一个或多个位置中每个的碱基判定。在一个实施方案中,模型可以测定一个或多个位置中每个的得分。可以使用训练核酸的统计学显著数目(例如至少100、或至少1,000、或至少10,000)的假设序列,以及假设序列位置处的碱基的相应强度数值训练碱基判定模型。可以从训练核酸的一个或多个第一测序过程获得相应的强度数值。可以使用多个载玻片上的训练样品实施第一测序过程。
在块620,计算机系统接受来自第二测序过程的测试核酸的测序数据,所述测序过程不同于第一测序过程中的任一个。例如,可以在第二测序过程前几周或几个月实施第一测序过程。可以使用来自第一测序过程的数据训练碱基判定模型。测序数据包含第一测试核酸的多个位置处的碱基的强度数值。
在块630,对第一测试核酸的N个(例如1或更高)位置鉴定强度数值。作为例子,每个强度数值可以对应于一个碱基和一个位置。强度数值也可以对应于多个碱基,例如当使用两种颜色跨越4种碱基时,有效使用针对两种颜色的0和正强度两者以覆盖4种可能性。强度数值可以对应于超过一个位置,例如当强度对应于双联体(两个位置)时。也就是说,特定颜色通道的强度可以指示特定的两碱基组合。会对双联体(或潜在更高数目的位置)分析不同颜色通道。碱基的数目可以是2-4,或更多,例如若碱基的甲基化计为不同碱基。如本文中提及的,强度数值可以是原始数值或经修饰的数值,例如通过进行背景或其它标准化进行。
在块640,计算机系统基于碱基判定模型和强度数值确定碱基判定。可以使用所有N个位置的强度数值。碱基判定可以针对N个位置中的一个或多个。可以在相同函数调用中获得用于所有N个位置的碱基判定。在一个实施方案中,模型输出碱基判定。例如,支持向量机(SVM)可以输出用于碱基判定的碱基。在一些实施方案中,用碱基判定不会获得明确得分。在其它实施方案中,可以测定得分,其中得分对应于碱基判定中的置信度。可以以模型的一部分测定置信度得分。
置信度得分可以指示判定的碱基相对于另一个碱基是正确的碱基是多么地更可能。例如,可以使用用于支持向量机的超平面与数据点的分离量确定置信度得分。数据点可以是多维度点,每个维度中的数值是不同碱基判定的强度数值。作为另一个例子,数据点可以是强度数值对多维度空间上的投影。其它维度可以对应于系统的其它设置,例如激光的平均光强度。其它实施方案可以提供得分,其可以用于确定碱基判定。
在一个实施方案中,可以如块641和642中所述实施块640。在块641,计算机系统为N个位置中的第一处的多个碱基中的每个计算得分。计算使用碱基判定模型,其基于N个位置处的强度数值的输入。N是等于或大于1的整数。对于单循环碱基判定器,N等于1,并且对于多循环碱基判定器,大于1。
得分可以对应于一个位置或多个位置。例如,若对双联体获得强度数值,则可以对两个碱基的特定组合分配得分。在此情况中,双联体得分仍然对应于第一碱基在第一位置处,但是双联体得分也对应于第二个碱基在第二位置处。在对双联体获得强度数值时的另一个实施方案中,可以对两个位置的特定位置上的双联体的每个碱基获得个别得分。
得分可以是原始得分或经处理的得分。在一个实施方案中,神经网络可以输出原始得分,其可以通过修饰原始得分的后处理功能处理。例如,可以将得分标准化或者经受softmax激活函数。此处理可以是模型的一部分,并且如此输出得分可以是经处理的得分。
在块650,在最高得分满足一个或多个标准时,计算机系统判定与第一位置的最高得分对应的碱基。可以使用各种标准。例如,可以要求最高得分充分大于下一个最高得分。作为另一个例子,可以要求最高得分高于阈值。在牵涉双联体的得分时,可以选择具有最高数值的双联体得分,并且可以判定双联体的第一位置中的碱基。可以对超过一个位置做出碱基判定。例如,可以对所有N个位置,或对N个位置的亚组做出碱基判定。例如,可以使用N个位置处的得分判定M(M<N)个位置处的碱基,其是M个位置的亚组。
V.模型类型
在一个实施方案中,碱基判定模型包含经网络。神经网络可以提供处理不同测序运行间的变化的灵活性,例如当训练数据代表此类变化时。神经网络可以有效执行,因为个别运算通常是乘法和加法,以及其它简单函数,诸如线性或S型函数(sigmoid function)。示例S型函数包括双曲正切S形转移函数(a hyperbolic tangent sigmoid transfer function)(2/(1+e-2x)-1)或对数S形转移函数(1/(1+e-x)。碱基判定执行加速(例如由于经由前馈神经网络的简单传播)可以提供用于成本降低的基础。神经网络可以是各种类型的。一类是多层感知机(MLP)神经网络,并且另一类是径向基神经网络。具体地,神经网络可以是多层的、非线性前馈模型。
图7显示了根据本发明的实施方案的示例神经网络。神经网络的每层由节点构成。每个节点可以接受输入值(例如来自神经网络的前一层的强度数值或输出),并且将输入数值的每个乘以不同权重。然后,节点可以对加权数值求和。总和可以包括对于每个节点不同的偏差数值。偏差可以起对总和的添加作用,其中可以将偏差直接添加或乘以权重,然后添加。可以直接使用结果或者输入函数,诸如S型函数中。神经网络的其它层可以以相似的方式运行。在多个实施方案中,可以执行S型函数以达到-1和1之间,0和2之间,或0和1之间。也可以使用转换的和换算的形式。S型函数的例子是1/(1+e-x)或(1-ex)/(1+ex)。
神经网络可以为每个碱基判定提供可预测数目的运算。神经网络可以在适用于特定运算的系统中执行,或者至少利用可预测数目的运算。例如,可以使用图形处理器(GPU)实施可预测数目的乘法和加法或其它基本函数。还有,鉴于运算数目可以是可预测的,可以开发流水线,其中后来的阶段可以可靠知道提供数据的速度。这可以进一步降低计算成本。由于运算数目可以是可预测的,可以降低用于提供生物体的最终序列的时间方差(variance)。神经网络通常可以比支持向量机提供更多的可预测性,所述支持向量机可以作为模型使用,并且其判定时间是支持向量的可变数目(其从一个循环到另一个通常可变)的函数。相对于支持向量机,神经网络一般对训练数据中的误差较不敏感。
A.训练(学习)算法
可以通过优化代价函数确定模型(例如神经网络)的参数。代价可以是与使碱基判定错误有关的某个数值。如此,代价函数可以包含与假设序列相比来自输出序列中的误差(以参数的目前数值的输出和相应强度数值的输入确定)的贡献。每个不正确碱基判定可以计为相同,或者不正确碱基判定可以不同地贡献给代价函数。例如,正确的碱基判定可以具有高数值,其仅少量低于不正确碱基判定的最高得分。此类不正确碱基判定可以较小地贡献给代价函数,作为一个例子,其中与不正确的碱基判定的高得分相比正确碱基判定是相对较低得分。优化过程可以鉴定最小化代价函数内的误差的参数。
优化过程可以使用具有算法的网格以搜索用于鉴定最小化代价函数的参数的参数空间。在离线过程中,所有训练数据(即输入和输出)在相同类型的介质中(例如主要在存储器中)存储,并且在每个优化步骤期间使用。然而,在训练数据组较大时,离线过程可以是禁止的。在此类情况中,可以使用在线学习过程,其中部分最小化成本,因为接受每个新的训练数据点(或训练数据点的组)。如此,训练可以是递增的,例如基于N种模式训练的模型可以用M种新模式增强(而不忘记初始的N种模式的初始学习)。
在一个实施方案中,可以通过初始化模型参数(例如基于较早的训练模型)加速训练。此种初始化可以提供更可靠且有效的收敛。在一些实施方案中,输出可以收敛到碱基的实际概率得分。
B.组合多个神经网络
在一些实施方案中,可以组合多个模型(中间模型)以产生单一模型。可以从每个模型中获得不同得分,然后可以对每个碱基确定共有得分。不同模型可以是相同类型的,但是以不同方式训练(例如用于优化过程的参数的不同训练数据和不同初始数值,用于确定假设序列的不同技术,不同过滤设置,或本文中提及的其它不同设置)。因而,一个模型可以是更准确的,但是由于严格设置(例如用于初始碱基判定质量的阈值以包括在训练数据中)而具有偏差,而另一种模型可以具有较小的偏差,从而以改善的准确性克服偏差。
例如,可以从5种不同模型获得特定碱基位置处的A的5种不同得分。由于5种模型中的每种由于不同训练而会具有不同误差,组合得分可以近似将源自更密集密集训练的模型,其从成本前景看可能是禁止的。可以将组合(复合)得分以平均值计算,诸如加权平均值,其中不同模型具有不同权重,例如由于具有较高准确性的模型。此外,较大的单一神经网络在训练过程期间可以被阻塞。如此,不同模型可以具有不同构造,例如层的数目和节点的数目,或者是不同类型的,诸如神经网络和支持向量机(SVM)。
作为另一个例子,可以使用每种模型确定相应的碱基判定。可以使用这些相应的碱基判定确定共有碱基判定。例如,可以确定看起来最多的碱基判定为共有碱基判定。例如,若判定A三次,判定G一次,并且判定T一次,则可以确定A为共有碱基判定。如此,可以使用相应碱基判定的表决。可以加权每个模型的投票,例如由于对不同模型的不同分配准确性。此种表决模型可以更适合于整合非常不同类型的模型。
如上文提及的,可以迭代改善模型。一旦完成第一轮训练,可以使用所得的模型作为下一轮训练的初始碱基判定器,其可以使用新的训练数据。优化也可以使用先前神经网络的参数作为用于优化过程的开始位置。与仅使用定位形成对比,随后的训练可以通过使用用于确定假设序列的装配序列而包括新的训练数据。新的训练数据也可以用于目前的生成运行,其中仅使用一些数据更新现有的模型。以此模式,模型可以解决可以对目前的生成运行特异性的变化。也可以为目前生成运行的每个场或道训练不同模型。
也可以准备各种模型,并且可以比较各种模型的准确性。例如,可以改变循环数目和使用的近邻的数目,并且可以选择具有低或最低准确性的模型。
C.改编模型
也可以为不同生物体群体(例如基于地理区域)或不同性别准备不同模型。相同群体的个体经常具有相似的遗传构成,并且如此明确设计用于一个群体的模型对于所述群体的另一种生物体可以更准确发挥功能。在此类情况中,会从与所述群体对应的个体收集用于第一模型的训练数据。
也可以针对特定的测序仪器和/或针对样品的特定部分,例如载玻片的特定道定制模型。以此方式,模型不必捕捉所有机器或所有道的复杂性,并且如此可以潜在更易于训练或提供更大准确性。
D.用于基因组的不同部分的神经网络
另外,可以对基因组的不同部分使用不同模型。以此方式,可以特异性训练模型以处理特定区域的遗传构成。由于每个区域可以具有不同特征,诸如GC含量,此类区域特异性模型可以是更准确的,因为输入的变化量是较小的。如此,具有用于不同区域的不同模型可以使模型更准确,因为模型必须拟合的复杂性是较小的,因为仅需要对基因组的相对小部分建模。
为了使用此种区域特异性碱基判定器,会需要确定核酸序列的位置。为此,初始碱基判定器可以确定初始判定。然后,可以将初始序列定位到参照以确定序列来自哪个区域。然后,可以使用相应的区域特异性模型。初始碱基判定器可以是已经建模以覆盖整个或大部分基因组的模型(例如神经网络)。
VI.近邻
如上文提及的,核酸可以以阵列在基底上,所述阵列可以是有序的或无序的。在此类阵列上,核酸会具有近邻。来自近邻的信号可以贡献(例如泄漏)给对核酸检测的信号,对于所述核酸正在确定碱基判定。一个存在有序阵列(点阵)和矩形模式(例如正方形)的例子,核酸会具有4个接近的近邻(上、下、左、右)和4个次最接近的近邻。与近邻的距离可以通过分开两个核酸的点阵点的数目测量,例如对于最接近的近邻为1,对于次最接近的近邻为2,等等。在其它实施方案中,可以以实际距离(例如以微米或纳米计)测量用于将两个核酸认为是近邻的欧几里得(Euclidean)或曼哈顿(Manhattan)距离(或其它距离),所述实际距离可以在使用无序阵列时完成。来自最接近的近邻的信号会可能比更远的近邻贡献更多给对分析的核酸测量的强度数值。如此,可以比次最接近的近邻更多加权最接近的近邻。
由于邻近信号可以影响对核酸测量的强度数值,可以使用邻近的强度数值作为输入以确定核酸的碱基判定。在一个实施方案中,使用用于目前循环的邻近强度数值,或近邻的组合。在另一个实施方案中,也可以使用用于先前循环的邻近强度数值。这可以在为多个循环提供输出得分时完成。
VII.多循环
如上文提及的,可以使用用于多个循环的强度数值确定给定循环的碱基判定。在生成运行中,多循环碱基判定器和单循环碱基判定器之前的差异是输入的数目。当模型是GPU上的神经网络时,为多循环碱基判定器或单循环碱基判定器确定碱基判定的计算时间的量可以是相对相似的,因为过程大多是I/O限制的。
多循环碱基判定器容许模型解决来自先前循环的生物化学残余物,或者其它循环的其它效应。例如,可以扩增在阵列的特定位置处的核酸,从而容许来自核酸的信号更可见。如此,有检测的相同核酸的多个拷贝。在每个循环期间,添加用于与核酸杂交的探针。不同拷贝可以经历不同杂交(例如通过合成或连接),并且如此每个拷贝可以发射不同信号。
在每个循环后,要除去探针。然而,可以发生并非所有探针从核酸的所有拷贝除去。如此,来自先前碱基的残留信号可以在目前循环的强度数值中保留。此外,可以仅有探针对核酸的错误掺入,达几个拷贝。
可以以各种方式使用数据的多个循环。在一个例子中,使用先前循环和目前循环确定目前循环的碱基。如此,输入可以是N个循环的,其中使用N-1先前循环。在此例子中,输出会仅具有目前循环的得分。此类实施方案可以对应于移动窗,其具有对应于目前循环的窗的引导边缘。也可以使用目前循环后的循环,因为目前循环的剩余物可以流出到未来的循环。当在此实施方案中使用多个循环时,可以对第一循环,或第一对循环使用不同模型,直至循环的数目等于要使用的先前循环的数目。用于第一对循环的模型可以是单循环模型。
在另一个例子中,输入仍然有N个循环,但是输出可以为N个循环中每个提供得分。例如,可以使用前5个循环的强度数值提供前5个循环的碱基的得分。在此实施方案中,不需要不同碱基判定器。若N是5,并且核酸的长度是17,则最后一组碱基判定可以针对位置13-17。如此,可以将位置13-15判定两次,并且可以组合两个得分。在另一种实施方案中,以N的倍数实施测序。
多个循环可以对应于非序贯位置。例如,一个循环可以测试位置3,并且下一个循环可以测试位置6或8。或者,可以对输入强度数值使用位置1、6和12,并且可以获得相应的输出强度数值。此种非序贯测试可以在使用组合探针连接时发生。如此,N-1先前循环可以对应于核酸的各个位置。另外,先前的循环可以不是序贯的。例如,可以使用前第五和第三个循环。可以在各种多循环方案中使用任何模式的位置和循环。不同模型可以具有不同模式。
VIII.信号处理
如本文中提及,用作模型的输入的强度数值可以是原始强度数值或经处理的强度数值。作为例子,处理可以扣除背景,除去由其它碱基的信号引起的每个碱基的信号中的串扰效应(例如通过去卷积),并且标准化强度数值。此类处理可以基于系统的固定光学,其可以不较大或经常改变。但是,仍可以使用原始强度数值,其中模型可以在没有明确处理的情况下含蓄解决此类问题。
对于标准化,可以换算强度数值,使得可以从一个测序运行到另一个获得强度数值的一致范围。作为一个例子,标准化可以使用对给定循环或整个生成运行获得的最大值、平均值或中值强度数值。以此方式,用于生成运行的平均值或最大值强度可以匹配对模型训练的平均强度。可以要求强度介于0和1之间以具有从一个样品到另一个的标准化数值。为了除去串扰,可以转化原始强度,以纯化每个碱基的通道。串扰的除去可以使用去卷积矩阵。
IX.结果
实施方案可以提供各种改进。例如,可以减少误差。可以增加产率(yield),例如较少的无判定。判定的组成可以更准确代表研究的基因组。例如,所得的混淆矩阵可以对人基因组更具代表性。并且,可以降低计算成本。
A.误差的减少和产率的增加
图8显示比较神经网络碱基判定器(Neurocall)和另一种碱基判定器(Turbocall)性能的结果的图。Turbocall仅处理原始信号以降低串扰,例如使用串扰矩阵。对于40个场(基底的各部分),比较Neurocall的平均性能与Turbocall的平均性能。如可以看到的,总体质量(对于给定判定率的准确性)是好两倍的,即准确性的100%改善。还有,产率(对于给定准确性的判定率)是至少10%改善的(从约70%产率到约80%产率)。
在此例子中,对来自某个场的数据训练多层非线性前馈神经网络。然后,加载结果以用于每个场,并且用来自其它场的数据进一步训练。训练数据包含总数据的约4%。然后,使用训练的神经网络在100%的数据上判定碱基。
基于初步模拟,对于相同数据,与Turbocall相比,此碱基判定方法能够提供更高的判定率(产率的额外10%)和准确性(100%改善)。由于实施方案可以保证接近最佳碱基判定和给定数据(包括有噪声的且变化的)的最准确的碱基概率测定,这可以容许最大化用固有噪声的每循环两色编码方案的碱基判定准确性,所述方案提供每个仪器高两倍的测序通量。
B.混淆矩阵
准确性的另一种测量是碱基判定的总体组成。混淆矩阵提供关于对不同碱基判定碱基的概率的信息。例如,若正确的答案是A,但碱基判定是C。此类误差会在非对角线元素(off-diagonal element)中显现。混淆矩阵也可以显示每种碱基的内容,并且如此,在混淆矩阵中提供GC含量。每种碱基的内容会对应于对角线元素。
图9A显示了理想的混淆矩阵。混淆矩阵显示了预期的碱基判定对观察到的碱基判定。理想地,混淆矩阵会具有30%A、30%T、20%C、20%G,这对应于人基因组。非对角线元素会是0。基于来自NCBI的人基因装配(HumanGenome Assembly)的Build37,针对人的特定GC百分比是40.91%左右。实施方案可以提供41%左右的GC含量,与提供44%左右的其它碱基判定器形成对比。非对角线元素对应于误差。理想地,非对角线元素都大致是相同的数值,从而展现出一致的噪音,而不是一种特定误差(例如A为G的误差)的偏差。
图9B显示了根据本发明的实施方案的混淆矩阵。如可以看出的,非对角线元素是相对较小的,最高误差是0.18,并且如此对于任何特定的误差,小于0.2%。另外,从一个矩阵元素至另一个的误差的百分比的方差不大,因为它小于0.1%。对角线元素也反映图9A中的百分比。
C.其它观察的数值
图10显示的图显示了本发明的一个实施方案的准确性。使用具有已知序列的人工核酸。核酸是长度5的。不同核酸在组中出现不同次数。特定五聚体在组中出现的次数记录为预期数值。如此,每个五聚体在组中具有预期的频率。每个数据点对应于预期特定五聚体的次数和判定序列(观察到的五聚体)的观察者数目。理想地,数据点应当沿着具有45度斜率的线存在。
图比较使用Turbocall(左)和Neurocall(右)的观察到的对预期的五聚体。较好的碱基判定器应当给出较接近45度细线(即较低分散)的散点图,并且清楚的是相对于Turbocall,这在Neurocall中观察到。Neurocall执行根据本发明的一个实施方案的神经网络。
图11显示了比较不同位置的不一致碱基的计数的图。经由定位确定不一致碱基。如此,不一致碱基是参照序列和定位的初始序列之间不同的碱基。在五聚体中的每个位置分解不一致性。在此情况中,基于5个位置的强度数值的输入,模型输出5个位置的得分。已经使用五聚体或十聚体进行训练,因为组是10碱基Reed-Solomon码(而不是基因组的)。对于5个位置中的任一个,Neurocall的不一致性是显著(2x或更好)低于(即好于)Turbocall的。
对于Turbocall,产率是76.62%,不一致性是4.85%,并且阈值是0.04。对于Neurocall,产率是77.96%,不一致性是2.29%,并且阈值是0.75。
D.计算成本
计算成本可以根据速度和存储测量。计算速度可以涉及速度的平均数值和变化以确定每个碱基判定。理想地,平均速度较低,并且使确定碱基判定的时间变化最小化。变化可以具有影响,因为当你具有生成流水线时,需要设计用于最差的情况。当机器设计用于特殊目的时,或者甚至当使用更专门的硬件,诸如GPU时,这是特别真实的。对于用于确定碱基判定的最慢预期运算,会需要设计流水线实现。较大的偏差会提供甚至更慢的预期运算。如此,大偏差会引起显著的减速。
支持向量机可以具有大变化,因为支持向量的数目对于每个训练模型可以是动态的。当使用更多支持向量时,会使用更多计算时间。如此,流水线会设计为使得每次运算耗费与具有最多支持向量的运算一样长,即使每次运算不使用最大数目的支持向量。
如上文提及的,神经网络可以利用GPU。由于神经网络实施修改、加法、和其它基础函数的重复运算,神经网络可以有效利用GPU。迭代方法一般对于GPU不是良好的。通常会用通用CPU完成神经网络的训练,然后生成运行可以使用GPU,其可以是单一精确度或双重精确度。
还有,实施方案可以提供短的平均时间。例如,当使用神经网络时,模型可以仅需要传播到神经元的几层,它们都实施简单的数学运算,并且自身导致CPU的嵌入平行处理模式(built-in parallel processing mode),例如Intel的Performance Primitives Library(IPPL)。速度的增加通过要求较少的CPU(并且因此较少的生成空间和电源使用)直接转化为系统成本的降低。
X.计算机系统
本文中提及的任何计算机系统可以利用任何合适数目的亚系统。此类亚系统的例子在图12中在计算机装置1200中显示。在一些实施方案中,计算机系统包括单个计算机装置,其中所述亚系统可以是计算机装置的组件。在其它实施方案中,计算机系统可以包括具有内部组件的多个计算机装置,每一个为亚系统。
图12中显示的亚系统经由系统总线1275互联。显示了另外的亚系统,如打印机1274,键盘1278,存储设备1279,显示器1276(它与显示器适配器1282偶联)等。外围设备和输入/输出(I/O)设备(其偶联到I/O控制器1271)可以通过本领域中已知的任意数目的手段,如串行端口1277连接到计算机系统。例如,串行端口1277或外部接口1281(例如,Ethernet,Wi-Fi等)可以用于将计算机系统1200连接到广域网,如因特网,鼠标输入设备,或扫描仪。通过系统总线1275的互联允许中心处理器1273与每个亚系统通信并控制从系统存储器1272和存储设备1279(例如,固定盘,如硬盘驱动器或光盘)的指令执行,以及亚系统之间的信息交换。系统存储器1272和/或存储设备1279可以包括计算机可读介质。本文中提到的任何数据可以从一个组件输出到另一个组件,并可以输出给用户。
计算机系统可以包括多个相同的组件或亚系统,例如,通过外部接口1281或通过内部接口连接在一起。在一些实施方案中,计算机系统,亚系统,或装置可以通过网络通信。在此类情况下,可以认为一个计算机是客户机,而另一个计算机为服务器,其中每个可以是相同的计算机系统的一部分。客户机和服务器可以各自包括多个系统,亚系统,或组件。
应当理解本发明的任何实施方案可以以控制逻辑的形式使用硬件(例如,应用特定的集成电路或现场可编程门阵列)和/或使用计算机软件使用以模块或集成方式的一般可编程处理器执行。如本文中使用的,处理器包括在同一个集成芯片上的单核处理器、或在单个电路板或网络化的多个处理单元。基于本文提供的公开和教导,本领域的普通技术人员将知道并领会使用硬件以及硬件和软件的组合执行本发明的实施方案的其它方式和/或方法。
在本申请中所述的任何软件组件或功能可以以要被处理器执行的软件代码执行,所述软件代码使用任何合适的计算机语言,诸如例如Java、C、C++、C#、或脚本语言,诸如Perl或Python,使用例如常规或面向对象的技术。软件代码可以作为一系列指令或命令存储在用于存储和/或传输的计算机可读介质上,合适的介质包括随机存取存储器(RAM)、只读存储器(ROM)、磁介质(诸如硬盘驱动器或软盘)、或光介质(诸如致密盘(DC)或DVD(数字通用盘))、闪存等。计算机可读介质可以是此类存储器或传输设备的任何组合。
还可以使用适配用于经由符合包括因特网在内的各种协议的有线、光学和/或无线网络传输的载波信号,编码和传输此类程序。因此,可以使用用此类程序编码的数据信号,创建根据本发明的实施方案的计算机可读介质。用程序代码编码的计算机可读介质可以与兼容设备包装在一起、或者与其它设备分开提供(例如,经由因特网下载)。任何此类计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)之上或之内,并且可以存在于系统或网络内的不同计算机产品之上或之内。计算机系统可以包括监视器、打印机或其它合适的显示器,用于提供本文中提及的任何结果给用户。
可以用包括一个或多个处理器(其可以被配置为实施步骤)的计算机系统完全或部分实施本文中描述的任何方法。如此,实施方案可以涉及配置为实施本文中所述的任何方法的步骤的计算机系统,其潜在地具有执行相应步骤或相应步骤组的不同组件。虽然呈现为编号的步骤,但是本文的方法的步骤可以在相同时间、或以不同顺序实施。另外,这些步骤的部分可以与来自其它方法的其它步骤的部分一起使用。还有,步骤的全部或部分可以是可选的。另外,任何方法的任何步骤可以用用于执行这些步骤的模块、电路或其它手段实施。
可以在不违背本发明的实施方案的精神和范围的情况下以任何合适的方式组合特定实施方案的具体细节。然而,本发明的其它实施方案可以涉及与每个单独方面、或这些单独方面的具体组合相关的具体实施方案。
已经为了例示和描述的目的呈现了本发明的示例性实施方案的上述描述。它并非意图是穷举的或者将本发明限于所述的精确形式,并且鉴于以上教导,许多修改和变化是可能的。选择和描述实施方案,以便最好地解释本发明的原理及其实际应用,由此使得本领域其它技术人员能够最好地利用各个实施方案中且具有各种修改的发明,其适于预期的特定使用。
“一”、“一个/一种”、“该”的叙述意在意指“一个/种或多个/种”,除非明确相反指示。
为了所有目的,通过全文引用纳入本文中提及的所有专利、专利申请、出版物和描述。无一承认是现有技术。

Claims (73)

1.一种对生物体的核酸判定一个或多个碱基的方法,所述方法包括:
在计算机系统上接收碱基判定模型,所述碱基判定模型配置为:
接收核酸上的一个或多个位置处的碱基的强度数值的输入,并
输出所述一个或多个位置中每个的碱基判定,其中使用训练核酸的统计学显著数目的假设序列和所述假设序列的位置处的碱基的相应强度数值训练所述碱基判定模型,所述相应强度数值从训练核酸的一个或多个第一测序过程获得;
在所述计算机系统上接收来自第二测序过程的测试核酸的测序数据,所述第二测序过程不同于任何所述第一测序过程,所述测序数据包含第一测试核酸的多个位置处的碱基的强度数值;
对于所述第一测试核酸的N个位置中的每个:
鉴定与所述位置对应的强度数值;
使用所述碱基判定模型,基于所述N个位置的强度数值的输出,通过所述计算机系统测定所述N个位置的第一处的第一碱基判定,其中N是等于或大于1的整数。
2.权利要求1的方法,其中所述碱基判定模型对所述多个碱基中的每个提供得分,其中测定所述第一碱基判定包括:
使用所述碱基判定模型,基于所述N个位置的强度数值的输入,通过所述计算机系统对所述N个位置的第一处的所述多个碱基中的每个计算得分;并
在所述第一位置的最高得分满足一个或多个标准时,通过所述计算机系统判定与所述最高得分对应的碱基。
3.权利要求2的方法,其中所述得分是概率得分。
4.权利要求2的方法,其中所述得分是可能性得分。
5.权利要求2的方法,其中N大于1。
6.权利要求5的方法,其进一步包括:
基于所述N个位置处的得分,判定所有N个位置处的碱基。
7.权利要求5的方法,其进一步包括:
基于所述N个位置处的得分,判定M个位置处的碱基,其中M小于或等于N并且大于1。
8.权利要求5的方法,其中强度数值对应于多个位置,并且每个得分对应于所述多个位置。
9.权利要求5的方法,其中强度数值对应于N个位置,并且每个得分对应于所述多个位置之一处的特定碱基。
10.权利要求2的方法,其中所述一个或多个标准包括下列至少一项:
所述最高得分大于第一阈值,和
所述最高得分和下一个最高得分之间的差大于第二阈值。
11.权利要求2的方法,其中所述碱基判定模型包括神经网络。
12.权利要求11的方法,其中所述神经网络输出原始得分,并且其中所述碱基判定模型包括修改所述原始得分的后处理功能。
13.权利要求11的方法,其中所述神经网络是多层感知机或径向基(Radial Basis)神经网络。
14.权利要求11的方法,其中所述碱基判定模型包括多个神经网络,所述方法进一步包括:
对所述多个碱基的每个:
使用所述多个神经网络的每个测定相应的得分;
从所述相应的得分计算组合得分;并
使用所述组合得分作为所述第一位置处的碱基的得分。
15.权利要求14的方法,其中所述组合得分是所述相应得分的平均值。
16.权利要求1的方法,其进一步包括:
计算与所述第一位置处的第一碱基判定对应的置信度得分。
17.权利要求16的方法,其中所述碱基判定模型包括支持向量机(supportvector machine),并且其中基于超平面和数据点之间的分离测定所述置信度得分,所述数据点的多维数值包含:
所述强度数值,或
所述强度数值对多维空间的投影。
18.权利要求1的方法,其中每个强度数值对应于1个碱基。
19.权利要求18的方法,其中多个强度数值对应于1个碱基。
20.权利要求1的方法,其中强度数值对应于超过1个位置。
21.权利要求1的方法,其进一步包括:
对所述测试核酸实施所述第二测序过程。
22.权利要求1的方法,其中所述N个位置不是序贯的。
23.权利要求1的方法,其中所述碱基判定模型包括多个中间模型。
24.权利要求23的方法,其进一步包括:
对于所述中间模型中的每个:
产生相应的碱基判定;
从所述相应的碱基判定确定共有碱基判定;并
对于所述第一位置,使用所述共有碱基判定。
25.权利要求24的方法,其中经由加权表决确定所述共有碱基判定。
26.权利要求23的方法,其进一步包括:
对于所述中间模型中的每个:
测定所述碱基的得分;
计算每个碱基的得分的加权平均以获得所述N个位置的每处的每个碱基的复合得分(composite score);并
选择具有最高复合得分的碱基。
27.权利要求1的方法,其中所述多个碱基是4个碱基。
28.权利要求1的方法,其中所述碱基判定模型进一步配置为接收一个或多个相邻核酸的强度数值的输入,所述相邻核酸邻接所述第一测试核酸。
29.权利要求28的方法,其中一个或多个相邻核酸的所述强度数值与所述第一测试核酸的第一位置为同一循环。
30.权利要求28的方法,其中所述相邻核酸分子在规定的距离内。
31.权利要求30的方法,其中所述核酸分子在有序点阵(ordered lattice)上,并且其中所述规定的距离是分开所述第一核酸分子和所述相邻核酸分子的点阵点的数目。
32.权利要求31的方法,其中所述有序点阵是矩形、棋盘(checkerboard)或六角形。
33.权利要求30的方法,其中所述核酸分子不是有序的,并且其中所述规定的距离是长度。
34.权利要求1的方法,其中所述计算机系统包含GPU。
35.权利要求1的方法,其进一步包括通过如下创建所述碱基判定模型:
接受来自所述一个或多个第一测序过程的训练核酸的测序数据,所述测序数据包含所述训练核酸位置处的碱基的强度数值,所述训练核酸来自一个或多个训练样品;
对于所述训练核酸的组中的每个:
至少基于所述训练核酸位置处的强度数值,实施所述训练核酸的位置处的初始碱基判定以获得初始序列;并
测定与所述初始序列对应的假设序列,其中假设所述假设序列是所述训练核酸的位置的正确序列;并且
使用所述假设序列和与所述假设序列对应的强度数值产生所述碱基判定模型。
36.一种创建碱基判定模型的方法,所述方法包括:
接受来自一个或多个测序过程的训练核酸的测序数据,所述测序数据包含所述训练核酸的位置处的碱基的强度数值,所述训练核酸来自一个或多个训练样品;
对于所述训练核酸的组中的每个:
至少基于所述训练核酸位置处的强度数值在所述训练核酸的位置处实施初始碱基判定以获得初始序列;并
测定与所述初始序列对应的假设序列,其中假设所述假设序列是所述训练核酸的位置的正确序列;
过滤所述假设序列以获得过滤假设序列的组,所述过滤除去所述假设序列中的至少一个的全部或部分;并
使用所述过滤假设序列和与所述过滤序列对应的强度数值产生所述碱基判定模型,其中使用计算机系统执行所述方法。
37.权利要求36的方法,其进一步包括:
实施一个或多个测序过程。
38.权利要求36的方法,其中产生所述碱基判定模型包括:
通过优化代价函数(cost function)确定所述碱基判定模型的参数,其中所述代价函数包括与所述假设序列相比来自从所述碱基判定模型的当前迭代(current iteration)中测定的序列中的误差的贡献(contribution)。
39.权利要求38的方法,其中所述从碱基判定模型的当前迭代中测定的序列依赖于相邻核酸的强度数值。
40.权利要求36的方法,其进一步包括:
过滤多个训练核酸以鉴定所述训练核酸的组。
41.权利要求40的方法,其中所述过滤鉴定来自所述一个或多个测序过程中每个的一些训练核酸。
42.权利要求36的方法,其进一步包括:
过滤所述初始序列以确定过滤序列,对于所述过滤序列,要确定假设序列。
43.权利要求42的方法,其中过滤所述初始序列包括:
弃去具有至少规定量的初始碱基判定的初始序列,所述初始碱基判定具有低于阈值的质量得分。
44.权利要求43的方法,其中所述规定量依赖于所述具有低于阈值的质量得分的初始碱基判定的位置。
45.权利要求42的方法,其中所述过滤初始序列包括:
弃去具有规定量的重复碱基的初始序列。
46.权利要求42的方法,其中所述过滤初始序列包括:
弃去具有低于规定水平的复杂性的初始序列,初始序列的复杂性水平是所述初始序列会随机发生的概率。
47.权利要求42的方法,其中所述过滤初始序列包括:
用第二碱基取代第一初始序列中的第一碱基或无判定以形成新序列,所述第一碱基具有低质量得分。
48.权利要求36的方法,其中过滤所述假设序列包括:
排除第一假设序列的第一位置,所述第一位置对应于相应初始序列中的低质量碱基判定或无判定。
49.权利要求36的方法,其中过滤所述假设序列包括:
排除第一假设序列的第一位置,所述第一位置对应于从参照序列变异的已知位置。
50.权利要求49的方法,其中所述变异是单核苷酸变异、插入/缺失(indel)或结构变异。
51.权利要求36的方法,其中过滤所述假设序列包括:
排除第一假设序列的第一位置,基于具有不同碱基的不同初始序列比对到所述第一位置。
52.权利要求36的方法,其中所述训练核酸的至少一部分来自与所述生物体不同类型的另一种生物体。
53.权利要求52的方法,其中所述另一种生物体是细菌,并且所述生物体是人。
54.权利要求52的方法,其中所述训练核酸来自多种不同生物体,并且其中所述不同生物体具有不同GC含量。
55.权利要求36的方法,其中使用多个初始碱基判定模型实施所述初始碱基判定。
56.权利要求55的方法,其中使用所述多个初始碱基判定模型的共有物(consensus)测定所述初始碱基判定。
57.权利要求36的方法,其中使用所述碱基判定模型的先前迭代实施所述初始碱基判定。
58.权利要求36的方法,其中测定与第一初始序列对应的第一假设序列包括:
装配(assembling)多个初始序列以对所述第一初始序列确定共有序列。
59.权利要求36的方法,其中测定与初始序列对应的假设序列包括:
将所述初始序列定位(mapping)到参照序列。
60.权利要求59的方法,其中所述定位要求不超过规定数目的错配。
61.权利要求60的方法,其中每N个碱基确定所述错配的数目。
62.权利要求60的方法,其中错配的所述数目是连续错配的数目。
63.权利要求60的方法,其中错配的所述规定数目是1。
64.权利要求60的方法,其进一步包括:
鉴定与变异对应的所述参照序列中的第一位置;并
不将所述第一位置计为错配。
65.权利要求59的方法,其中所述参照基因组来自单倍体(uniploid)生物体。
66.权利要求36的方法,其中所述训练核酸包含人工序列和来自生物体的基因组序列。
67.权利要求66的方法,其中将人工序列和基因组序列组合成单一分子。
68.一种创建碱基判定模型的方法,所述方法包括:
接受来自一个或多个测序过程的训练核酸的测序数据,所述测序数据包含所述训练核酸的位置处的碱基的强度数值,所述训练核酸来自一个或多个训练样品;
对于所述训练核酸的组中的每个:
至少基于所述训练核酸的位置处的强度数值在所述训练核酸的位置处实施初始碱基判定以获得初始序列;
过滤所述初始序列以获得过滤序列的组,所述过滤除去所述初始序列中的至少一个的全部或部分;
测定与所述初始序列对应的假设序列,其中假设假设序列是相应的训练核酸的位置的正确序列;并
使用所述过滤序列和与所述过滤序列对应的强度数值产生所述碱基判定模型,其中使用计算机系统执行所述方法。
69.一种计算机产品,其包含计算机可读介质,该计算机可读介质存储多个指令以控制处理器实施上述任何方法的运算。
70.一种系统,其包含:
权利要求69的计算机产品;和
一个或多个处理器,用于执行所述计算机可读介质上存储的指令。
71.一种系统,其包含用于实施上述任何方法的手段。
72.一种系统,其配置为实施任一种上述方法。
73.一种系统,其包含分别实施任一种上述方法的步骤的模块。
CN201480068511.5A 2013-12-16 2014-12-15 用于使用机器学习进行dna测序的碱基判定器 Active CN105980578B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361916682P 2013-12-16 2013-12-16
US61/916,682 2013-12-16
PCT/US2014/070375 WO2015095066A1 (en) 2013-12-16 2014-12-15 Basecaller for dna sequencing using machine learning

Publications (2)

Publication Number Publication Date
CN105980578A true CN105980578A (zh) 2016-09-28
CN105980578B CN105980578B (zh) 2020-02-14

Family

ID=53368796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480068511.5A Active CN105980578B (zh) 2013-12-16 2014-12-15 用于使用机器学习进行dna测序的碱基判定器

Country Status (4)

Country Link
US (1) US10068053B2 (zh)
EP (1) EP3084002A4 (zh)
CN (1) CN105980578B (zh)
WO (1) WO2015095066A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451428A (zh) * 2017-08-02 2017-12-08 广东国盛医学科技有限公司 下一代测序中末端短串联序列的优化处理方法
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN109411016A (zh) * 2018-11-14 2019-03-01 钟祥博谦信息科技有限公司 基因变异位点检测方法、装置、设备及存储介质
CN109741731A (zh) * 2019-01-08 2019-05-10 国家计算机网络与信息安全管理中心 一种语种训练数据获得方法及装置
CN110245685A (zh) * 2019-05-15 2019-09-17 清华大学 基因组单位点变异致病性的预测方法、系统及存储介质
CN110832597A (zh) * 2018-04-12 2020-02-21 因美纳有限公司 基于深度神经网络的变体分类器
CN110892484A (zh) * 2018-07-11 2020-03-17 因美纳有限公司 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
CN111527044A (zh) * 2017-10-26 2020-08-11 阿尔缇玛基因组学公司 用于序列判定的方法和系统
CN111699531A (zh) * 2018-01-12 2020-09-22 生命科技股份有限公司 通过神经网络进行流空间质量得分预测的方法
CN111971748A (zh) * 2018-01-26 2020-11-20 宽腾矽公司 用于测序装置的机器学习使能脉冲及碱基判定
CN112368567A (zh) * 2019-05-16 2021-02-12 因美纳有限公司 用于基于像素测序的表征和性能分析的系统和设备
CN112585689A (zh) * 2019-03-21 2021-03-30 因美纳有限公司 基于人工智能的碱基检出
CN113168890A (zh) * 2018-12-10 2021-07-23 生命科技股份有限公司 用于Sanger测序的深度碱基识别器
CN113474841A (zh) * 2019-02-22 2021-10-01 3M创新有限公司 使用核酸扩增测定的靶生物体的机器学习量化
US11462300B2 (en) 2019-03-10 2022-10-04 Ultima Genomics, Inc. Methods and systems for sequence calling
CN115376613A (zh) * 2022-09-13 2022-11-22 郑州思昆生物工程有限公司 一种碱基类别检测方法、装置、电子设备及存储介质
WO2023097685A1 (zh) * 2021-12-03 2023-06-08 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置
US11817182B2 (en) 2019-05-16 2023-11-14 Illumina, Inc. Base calling using three-dimentional (3D) convolution
TWI823203B (zh) * 2021-12-03 2023-11-21 臺中榮民總醫院 自動化多基因輔助診斷自體免疫疾病之方法

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10522243B2 (en) * 2015-11-20 2019-12-31 Bio-Rad Laboratories, Inc. Sparse identity spaces in droplet sequencing
US11393559B2 (en) * 2016-03-09 2022-07-19 Sophia Genetics S.A. Methods to compress, encrypt and retrieve genomic alignment data
JP6701979B2 (ja) * 2016-06-01 2020-05-27 富士通株式会社 学習モデル差分提供プログラム、学習モデル差分提供方法、および学習モデル差分提供システム
JP6931665B2 (ja) 2016-06-01 2021-09-08 クアンタム−エスアイ インコーポレイテッドQuantum−Si Incorporated パルス決定器及び塩基決定器
US10317392B2 (en) 2016-06-23 2019-06-11 Roche Sequencing Solutions, Inc. Formation and calibration of nanopore sequencing cells
US11124827B2 (en) 2016-06-23 2021-09-21 Roche Sequencing Solutions, Inc. Period-to-period analysis of AC signals from nanopore sequencing
EP3497233B1 (en) 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
AU2017313718B2 (en) 2016-08-15 2023-09-14 Pacific Biosciences Of California, Inc. Method and system for sequencing nucleic acids
US10216899B2 (en) 2016-10-20 2019-02-26 Hewlett Packard Enterprise Development Lp Sentence construction for DNA classification
US10161003B2 (en) 2017-04-25 2018-12-25 Omniome, Inc. Methods and apparatus that increase sequencing-by-binding efficiency
US9951385B1 (en) * 2017-04-25 2018-04-24 Omniome, Inc. Methods and apparatus that increase sequencing-by-binding efficiency
JP6626057B2 (ja) * 2017-09-27 2019-12-25 ファナック株式会社 検査装置及び検査システム
JP7038215B2 (ja) 2017-12-28 2022-03-17 エフ.ホフマン-ラ ロシュ アーゲー 交流信号によって駆動されるナノポアdna配列決定システム由来の不規則信号におけるノイズの測定および除去
JP6959364B2 (ja) 2018-01-05 2021-11-02 イルミナ インコーポレイテッド シーケンシングシステムにおける試薬冷却器の不安定性およびフローセル加熱器の障害の予測
US11288576B2 (en) * 2018-01-05 2022-03-29 Illumina, Inc. Predicting quality of sequencing results using deep neural networks
CA3098876A1 (en) * 2018-05-14 2019-11-21 Quantum-Si Incorporated Machine learning enabled biological polymer assembly
US10896744B2 (en) * 2018-08-13 2021-01-19 American Chemical Society Systems and methods for validating and predicting polymer functions using polymer properties
US11676685B2 (en) 2019-03-21 2023-06-13 Illumina, Inc. Artificial intelligence-based quality scoring
US11423306B2 (en) * 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
US11657391B1 (en) 2019-05-24 2023-05-23 Hiro Systems Pbc System and method for invoking smart contracts
US11513815B1 (en) 2019-05-24 2022-11-29 Hiro Systems Pbc Defining data storage within smart contracts
US10699269B1 (en) * 2019-05-24 2020-06-30 Blockstack Pbc System and method for smart contract publishing
CN110322931B (zh) * 2019-05-29 2024-05-14 南昌大学 一种碱基识别方法、装置、设备及存储介质
US11515011B2 (en) * 2019-08-09 2022-11-29 International Business Machines Corporation K-mer based genomic reference data compression
US20210265015A1 (en) * 2020-02-20 2021-08-26 Illumina, Inc. Hardware Execution and Acceleration of Artificial Intelligence-Based Base Caller
EP4107735A2 (en) 2020-02-20 2022-12-28 Illumina, Inc. Artificial intelligence-based many-to-many base calling
US11188778B1 (en) 2020-05-05 2021-11-30 Illumina, Inc. Equalization-based image processing and spatial crosstalk attenuator
US20230178180A1 (en) * 2020-05-12 2023-06-08 Hitachi High-Tech Corporation Nucleic acid analyzer, nucleic acid analysis method, and machine learning method
WO2022056296A1 (en) * 2020-09-10 2022-03-17 Ultima Genomics, Inc. Methods and systems for sequence and variant calling
US11361194B2 (en) 2020-10-27 2022-06-14 Illumina, Inc. Systems and methods for per-cluster intensity correction and base calling
CN112652356B (zh) * 2021-01-19 2024-01-26 深圳市儒瀚科技有限公司 一种dna甲基化表观修饰的识别方法、识别设备及存储介质
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
EP4364150A1 (en) * 2021-06-29 2024-05-08 Illumina, Inc. Self-learned base caller, trained using organism sequences
US11455487B1 (en) 2021-10-26 2022-09-27 Illumina Software, Inc. Intensity extraction and crosstalk attenuation using interpolation and adaptation for base calling
WO2023014741A1 (en) * 2021-08-03 2023-02-09 Illumina Software, Inc. Base calling using multiple base caller models
US11846564B2 (en) 2022-05-03 2023-12-19 Western Digital Technologies, Inc. Optical systems and methods for locating query symbols in a reference sequence
WO2024007190A1 (en) * 2022-07-06 2024-01-11 GeneSense Technology Inc. Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning
CN115620802B (zh) * 2022-09-02 2023-12-05 蔓之研(上海)生物科技有限公司 一种基因数据的处理方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5502773A (en) * 1991-09-20 1996-03-26 Vanderbilt University Method and apparatus for automated processing of DNA sequence data
US5972602A (en) * 1993-08-27 1999-10-26 Australian Red Cross Society Quantitative PCR-based method of gene detection
US6260034B1 (en) * 1997-05-28 2001-07-10 Amersham Pharmacia Biotech Ab Method and a system for nucleic acid sequence analysis
US20030225526A1 (en) * 2001-11-14 2003-12-04 Golub Todd R. Molecular cancer diagnosis using tumor gene expression signature
US20110256631A1 (en) * 2007-06-06 2011-10-20 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US20120046177A1 (en) * 2009-03-30 2012-02-23 The Regents Of The University Of California Mostly Natural DNA Sequencing by Synthesis
US20130059740A1 (en) * 2009-06-15 2013-03-07 Complete Genomics, Inc. Sequencing Small Amounts of Complex Nucleic Acids
US20130157264A1 (en) * 2010-09-10 2013-06-20 Takayuki Obara Nucleic acid analysis device, nucleic acid analysis apparatus, and nucleic acid analysis method
US20130236895A1 (en) * 2008-11-07 2013-09-12 Sequenta, Inc. Method of sequence determination using sequence tags

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8518640B2 (en) 2007-10-29 2013-08-27 Complete Genomics, Inc. Nucleic acid sequencing and process

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5502773A (en) * 1991-09-20 1996-03-26 Vanderbilt University Method and apparatus for automated processing of DNA sequence data
US5972602A (en) * 1993-08-27 1999-10-26 Australian Red Cross Society Quantitative PCR-based method of gene detection
US6260034B1 (en) * 1997-05-28 2001-07-10 Amersham Pharmacia Biotech Ab Method and a system for nucleic acid sequence analysis
US20030225526A1 (en) * 2001-11-14 2003-12-04 Golub Todd R. Molecular cancer diagnosis using tumor gene expression signature
US20110256631A1 (en) * 2007-06-06 2011-10-20 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US20130236895A1 (en) * 2008-11-07 2013-09-12 Sequenta, Inc. Method of sequence determination using sequence tags
US20120046177A1 (en) * 2009-03-30 2012-02-23 The Regents Of The University Of California Mostly Natural DNA Sequencing by Synthesis
US20130059740A1 (en) * 2009-06-15 2013-03-07 Complete Genomics, Inc. Sequencing Small Amounts of Complex Nucleic Acids
US20130157264A1 (en) * 2010-09-10 2013-06-20 Takayuki Obara Nucleic acid analysis device, nucleic acid analysis apparatus, and nucleic acid analysis method

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451428A (zh) * 2017-08-02 2017-12-08 广东国盛医学科技有限公司 下一代测序中末端短串联序列的优化处理方法
CN107451428B (zh) * 2017-08-02 2020-05-22 广东国盛医学科技有限公司 下一代测序中末端短串联序列的优化处理方法
CN111527044A (zh) * 2017-10-26 2020-08-11 阿尔缇玛基因组学公司 用于序列判定的方法和系统
CN111699531A (zh) * 2018-01-12 2020-09-22 生命科技股份有限公司 通过神经网络进行流空间质量得分预测的方法
CN111971748A (zh) * 2018-01-26 2020-11-20 宽腾矽公司 用于测序装置的机器学习使能脉冲及碱基判定
CN110832597A (zh) * 2018-04-12 2020-02-21 因美纳有限公司 基于深度神经网络的变体分类器
CN108763865A (zh) * 2018-05-21 2018-11-06 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN108763865B (zh) * 2018-05-21 2023-10-20 成都信息工程大学 一种预测dna蛋白质结合位点的集成学习方法
CN110892484A (zh) * 2018-07-11 2020-03-17 因美纳有限公司 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
CN110892484B (zh) * 2018-07-11 2024-05-28 因美纳有限公司 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
CN109411016A (zh) * 2018-11-14 2019-03-01 钟祥博谦信息科技有限公司 基因变异位点检测方法、装置、设备及存储介质
CN113168890A (zh) * 2018-12-10 2021-07-23 生命科技股份有限公司 用于Sanger测序的深度碱基识别器
CN113168890B (zh) * 2018-12-10 2024-05-24 生命科技股份有限公司 用于Sanger测序的深度碱基识别器
CN109741731A (zh) * 2019-01-08 2019-05-10 国家计算机网络与信息安全管理中心 一种语种训练数据获得方法及装置
CN113474841A (zh) * 2019-02-22 2021-10-01 3M创新有限公司 使用核酸扩增测定的靶生物体的机器学习量化
US11462300B2 (en) 2019-03-10 2022-10-04 Ultima Genomics, Inc. Methods and systems for sequence calling
CN112789680A (zh) * 2019-03-21 2021-05-11 因美纳有限公司 基于人工智能的质量评分
CN112689875A (zh) * 2019-03-21 2021-04-20 因美纳有限公司 基于人工智能的测序
CN112585689A (zh) * 2019-03-21 2021-03-30 因美纳有限公司 基于人工智能的碱基检出
CN110245685B (zh) * 2019-05-15 2022-03-25 清华大学 基因组单位点变异致病性的预测方法、系统及存储介质
CN110245685A (zh) * 2019-05-15 2019-09-17 清华大学 基因组单位点变异致病性的预测方法、系统及存储介质
US11817182B2 (en) 2019-05-16 2023-11-14 Illumina, Inc. Base calling using three-dimentional (3D) convolution
CN112368567B (zh) * 2019-05-16 2024-04-16 因美纳有限公司 用于基于像素测序的表征和性能分析的系统和设备
CN112368567A (zh) * 2019-05-16 2021-02-12 因美纳有限公司 用于基于像素测序的表征和性能分析的系统和设备
WO2023097685A1 (zh) * 2021-12-03 2023-06-08 深圳华大生命科学研究院 核酸样本的碱基识别方法及装置
TWI823203B (zh) * 2021-12-03 2023-11-21 臺中榮民總醫院 自動化多基因輔助診斷自體免疫疾病之方法
CN115376613A (zh) * 2022-09-13 2022-11-22 郑州思昆生物工程有限公司 一种碱基类别检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US10068053B2 (en) 2018-09-04
EP3084002A4 (en) 2017-08-23
WO2015095066A1 (en) 2015-06-25
EP3084002A1 (en) 2016-10-26
CN105980578B (zh) 2020-02-14
US20150169824A1 (en) 2015-06-18

Similar Documents

Publication Publication Date Title
CN105980578A (zh) 用于使用机器学习进行dna测序的碱基判定器
JP7350818B2 (ja) 深層畳み込みニューラルネットワークのアンサンブルを訓練するための半教師あり学習
US20240071573A1 (en) Artificial intelligence-based quality scoring
AU2018350909B2 (en) Aberrant splicing detection using convolutional neural networks (CNNS)
US20200302297A1 (en) Artificial Intelligence-Based Base Calling
AU2021269351B2 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
Mateos-Langerak et al. Spatially confined folding of chromatin in the interphase nucleus
Fang et al. Getting started in gene orthology and functional analysis
Speed Discussions on “A Bayesian Approach to DNA Sequence Segmentation”
Andersson et al. A landmark-based common coordinate framework for spatial transcriptomics data
Mallick et al. Bayesian analysis of gene expression data
Zhou et al. Treeclone: Reconstruction of tumor subclone phylogeny based on mutation pairs using next generation sequencing data
Qian et al. A spatial atlas of inhibitory cell types in mouse hippocampus
Tibély et al. Distinguishing excess mutations and increased cell death based on variant allele frequencies
Ren Modeling and Deep Learning of Cellular Transcriptome and Epigenetic Regulations
Mezias et al. Matrix Inversion and Subset Selection (MISS): A novel pipeline for quantitative mapping of diverse cell types across the murine brain
Tokutomi et al. Extreme value theory as a general framework for understanding mutation frequency distribution in cancer genomes
Monaghan et al. Population-level genetic variation shapes generative brain mechanisms
Carrillo Pérez Development of advanced machine learning models for the fusion of heterogeneous biological sources in clinical decision support systems for cancer
Samorodnitsky AI Widens Search Spaces and Promises More Hits in Drug Discovery: AI platforms are enhancing discovery efforts across modalities—small-molecule drugs, RNA-based therapeutics, and protein-based therapeutics
Tibély et al. Simultaneous estimation of per cell division mutation rate and turnover rate from bulk tumour sequence data
Liu et al. An Artificial Fish Swarm Algorithm for Identifying Associations between Multiple Variants and Multiple Phenotypes
Bull et al. Statistical challenges in high‐dimensional molecular and genetic epidemiology
Jiang Analysis of Large-Scale Genetic Perturbation with Linear Regression of Microarray and Bayesian Networks
Grewal et al. Diagnostics for personalized medicine: what will change in the era of large-scale genomics studies?

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1229391

Country of ref document: HK

TA01 Transfer of patent application right

Effective date of registration: 20190926

Address after: 518083 comprehensive building of Beishan industrial zone and 11 Building 2, Yantian District, Guangdong, Shenzhen

Applicant after: MGI TECH Co.,Ltd.

Address before: 518083 2 building, Beishan Industrial Zone, 146 Beishan Road, Yantian District, Shenzhen, Guangdong, China, 11

Applicant before: BGI SHENZHEN Co.,Ltd.

Effective date of registration: 20190926

Address after: 2 Floor, 11 Building, Beishan Industrial Zone, 146 Beishan Road, Yantian District, Shenzhen City, Guangdong Province

Applicant after: BGI SHENZHEN Co.,Ltd.

Address before: California, USA

Applicant before: COMPLETE GENOMICS, Inc.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518083 comprehensive building of Beishan industrial zone and 11 Building 2, Yantian District, Guangdong, Shenzhen

Patentee after: Shenzhen Huada Zhizao Technology Co.,Ltd.

Address before: 518083 comprehensive building of Beishan industrial zone and 11 Building 2, Yantian District, Guangdong, Shenzhen

Patentee before: MGI TECH Co.,Ltd.

CP01 Change in the name or title of a patent holder