CN117877025A - 三维碱基识别方法及装置、基因测序仪及存储介质 - Google Patents

三维碱基识别方法及装置、基因测序仪及存储介质 Download PDF

Info

Publication number
CN117877025A
CN117877025A CN202311832132.6A CN202311832132A CN117877025A CN 117877025 A CN117877025 A CN 117877025A CN 202311832132 A CN202311832132 A CN 202311832132A CN 117877025 A CN117877025 A CN 117877025A
Authority
CN
China
Prior art keywords
dimensional
image
base
sub
fluorescent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311832132.6A
Other languages
English (en)
Inventor
彭宽宽
陈伟
周祎楠
王谷丰
赵陆洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailu Medical Technology Co ltd
Original Assignee
Shenzhen Sailu Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailu Medical Technology Co ltd filed Critical Shenzhen Sailu Medical Technology Co ltd
Priority to CN202311832132.6A priority Critical patent/CN117877025A/zh
Publication of CN117877025A publication Critical patent/CN117877025A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本发明公开一种三维碱基识别方法及装置、基因测序仪及存储介质,所述方法包括:获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。

Description

三维碱基识别方法及装置、基因测序仪及存储介质
技术领域
本发明涉及基因技术领域,特别涉及一种基于三维模型的碱基识别方法及装置、基因测序仪及计算机可读存储介质。
背景技术
测序仪是一种广泛用于基因组测序的测序仪器,它可以快速、准确地测定DNA序列。目前测序仪的测序算法已经从不依赖数据集的传统测序算法发展到了依赖数据集进行训练得到基于深度学习的测序算法。深度学习是一种基于包括训练样本及标签的数据集对深度学习网络进行训练,在训练过程中以标签为训练目标训练深度学习网络,并获得训练样本对应的经过深度学习网络拟合的相似标签。因此,深度学习的效果取决于数据集与网络模型两个方面,其中数据集是基础,获得一个完备且具有表征能力的数据集更有利于提高基于深度学习的测序算法的碱基识别精度。
基因测序是指分析待测数据的DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式,基因测序的输入图像为包含多种碱基类型的碱基簇的图像。在基因样本染色后,在特定激光下激发荧光,被镜头捕捉。通过不同激光功率激发基因样本散发不同亮度的荧光,可以得到不同激光功率下捕获的四张荧光图像,即A碱基荧光图像、T碱基荧光图像、C碱基荧光图像及G碱基荧光图像。对捕获的荧光图像中的亮度进行分析以实现对待测数据中的每个碱基簇的碱基类别的识别。但由于不同激光功率下捕获的四张图像中,每张荧光图像只包含一种碱基类型的碱基的信息,信息量有限。而且由于激光功率不同,四张图像背景亮度也不同,会有高功率捕获图像整体比低功率捕获图像更亮的情况,这样就会造成不同碱基类型的荧光图像间的背景差距较大。在训练深度学习网络模型时由于训练样本间的较大的背景差异,会让深度学习网络模型更关注背景差异带来的分类结果,而不是基因簇本身亮度差异带来的分类结果,使深度学习网络模型不易收敛,从而增加了训练难度。
目前,基因测序技术主要可分为三代,第一代测序技术Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法,由Sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以Illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是Nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssDNA或RNA模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。
第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像的荧光信号来获得碱基序列。为了实现对不同碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征。同一场景下需要拍摄多张图像,通过对这些图像进行定位和配准,提取点信号并进行亮度信息分析处理,得到碱基序列。随着二代测序技术的发展,测序仪产品现在都配有实时处理测序数据的软件。不同的测序平台会采用不同的光学系统和荧光染料,因此荧光分子发光的频谱特征会有差异。如果算法无法得到适当的特征或者找到合适的参数以处理这些不同的特征,就可能导致碱基分类出现较大误差,从而影响测序质量。
此外,二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,如图1。通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,如图2。在DNA测序中,常用的荧光标记为四种,将这四种荧光标记同时加入一个循环(Cycle)中,并利用相机拍摄荧光信号的图像。由于每个荧光标记都对应一种特定的波长,因此我们能够在图像中分离出不同荧光标记对应的荧光信号,进而得到对应的荧光图像,如图3。在此过程中,可以对相机进行对焦调整以及采样参数设置,以确保所得到的TIF灰度图像质量达到最优。然而,在实际应用过程中,荧光图像中碱基簇的亮度总是受到多种因素的干扰,主要包括图像内碱基簇的之间的串扰(Spatial Crosstalk),通道内的串扰(Crosstalk)和循环之间的串扰(Phasing、Prephasing)。已知的碱基识别技术主要是对串扰和强度进行归一化,但矫正方法不尽相同。通过每个周期内的crosstalk矩阵和phasing与prephasing比率来矫正荧光光强度值,去除串扰噪声,然后通过4个通道的光强值来识别碱基,如图4。然而,现有的碱基识别技术只能对已知的亮度干扰因素,如通道间的亮度串扰,cycle间提前反应或延迟反应导致的phasing和prephasing现象进行矫正,无法校正其它未知的生化或者环境的影响造成的亮度干扰,导致识别精度不高,当样本密度越高时,碱基簇越密集,碱基簇之间的亮度串扰越严重,导致测序准确度大大降低。现有的这些机器学习的方法多采用二维卷积网络对包括多种碱基类型的荧光图像的输入图像进行处理,这种做法无法充分挖掘不同循环间图像之间的关联信息(如Phasing、Prephasing),及不同循环不同碱基类型间的图像信息,影响最后的碱基识别精度。
发明内容
为了解决现有存在的技术问题,本发明实施例提供一种基于三维模型的碱基识别方法、装置、设备及计算机可读存储介质,能够使碱基识别模型更好地理解荧光图像在循环时序信息上的潜在信息,可以减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭干扰,从而提高碱基识别精度。
第一方面,提供一种基于三维模型的碱基识别方法,包括:
获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;
将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;
基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。
第二方面,提供一种基于三维模型的碱基识别装置,包括:
获取模块,用于获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;
拼接模块,用于将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;
识别模块,用于基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。
第三方面,提供一种基因测序仪,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请实施例所提供的基于三维模型的碱基识别方法的步骤。
第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请实施例所提供的基于三维模型的碱基识别方法的步骤。
在上述实施例中,对多个循环时序信息下的待测荧光图像进行拼接,基于拼接后的三维图像形成的三维输入数据也是包括多个循环时序信息下的子荧光图像。训练好的碱基识别模型中的三维特征提取网络可以从三维输入数据中提取得到三维特征图,利用三维特征提取网络可以在三维输入数据的宽度、高度,以及循环时序信息方向上捕获不同循环和不同碱基通道上荧光图像的关联性,如反应提前效应的亮度关系及反应滞后反应间的亮度关系,从而使三维特征图也包括多个循环时序信息下不同碱基间的亮度特征信息,以使碱基识别模型更好地理解荧光图像在循环时序信息上的潜在信息,从而可以减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰以提高碱基识别精度。
附图说明
图1为一实施例中不同荧光分子的荧光信号波长的分布示意图;
图2为一实施例中拍摄装置采集荧光图像,其中,拍摄装置利用滤光片选择性地过滤掉非特定波长的光线,以获得特定波长荧光信号的图像的原理示意图;
图3为一实施例中与ATCG四种碱基类型的测序信号响应对应的四张荧光图像的示意图、以及其中一张荧光图像的局部放大示意图;
图4为一实施例中已知的碱基识别流程图;
图5为一实施例中芯片及芯片上碱基信号采集单元的示意图;
图6为一实施例中基于三维模型的碱基识别方法的流程图;
图7为一实施例中三维特征提取网络的示意图;
图8为一实施例中预测网络的示意图;
图9为另一实施例中基于三维模型的碱基识别方法的流程图;
图10为一实施例中将多张荧光图像进行堆叠并剪裁的示意图;
图11为一实施例中碱基识别模型的示意图;
图12为一实施例中基于三维模型的碱基识别方法中训练碱基识别模型的流程图;
图13为一实施例中训练碱基识别模型的示意图;
图14为一实施例中基于三维模型的碱基识别装置的示意图;
图15为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明的保护范围。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,但是应当理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
基因测序是指分析待测数据的DNA片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。目前普遍使用荧光标记的方法进行基因测序,基因测序光学系统用激光激发测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段,以此识别碱基。
二代测序技术,以Illumina测序仪为例,利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,因此通过获取荧光信号,对荧光信号进行分析可以识别出碱基类型。主要包括样品制备、簇生成、测序及数据分析。
样品制备:将需要测序的DNA样品进行提取和纯化处理,然后进行DNA片段化及适配体连接。在可选示例中,通常采用超声波或限制性内切酶将DNA样品进行切割,将DNA样品切割成较小的大量的DNA片段。然后在DNA片段两端连接适配体,适配体包含特定序列用于后续连接和测序反应。
簇生成:该过程是对DNA片段进行扩增形成固定的DNA片段以便于后续将一个DNA片段形成一个碱基簇。在可选示例中,具体地,通过聚合酶链式反应(Polymerase ChainReaction,PCR)或桥式扩增等方法将DNA片段进行扩增,使得每个DNA片段形成数以百万计的复制品,将扩增的DNA片段固定在固定板上。每个DNA片段在固定板上形成一个独立的簇。
测序,是指针对Flowcell上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮基团,可以在测序的链延伸时候阻止聚合,确保一个循环(cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。一个循环中,针对每一碱基簇通过荧光标记dNTP识别一个碱基,通过特定颜色的荧光信号分别对应不同碱基类型的测序信号响应,通过激光扫描可根据发出的荧光颜色来判断当前循环内针对每一碱基簇对应的是哪个碱基。一个循环中,数以千万的碱基簇在Flowcell被同时测序,一个荧光点代表一个碱基簇发出的荧光,一个碱基簇则对应fastq当中的一条read。在测序阶段,通过红外相机拍摄Flowcell表面的荧光图像,对荧光图像进行图像处理和荧光点位置定位进行碱基簇检测,根据与不同碱基类型的测序信号响应对应的多张荧光图像的碱基簇检测结果进行模板构建,构建出Flowcell上所有碱基簇模板点(cluster)的位置。根据模板,对滤波后图像进行荧光强度的提取,然后对荧光强度进行矫正,最终根据各碱基簇模板点位置的最大强度识别碱基计算得分,输出fastq碱基序列文件。请参阅图5,分别为Flowcell示意图(如图5中Y1)、一个循环中针对Flowcell上相应部位拍摄的荧光图像(如图5中(b))、及fastq文件中测序结果显示的示意图(如图5中(c))。
基因测序仪还可包括光学平台,光学平台可包括操作台和相机,其中,测序芯片可置于操作台上,基因测序仪用激光激发测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段。也即四种碱基类型的荧光图像。通过相机对测序芯片进行拍照,捕获测试芯片上的电荷耦合器件(CCD)上产生的荧光信号的荧光图像,在一张荧光图像中有很多荧光点,荧光图像中的一个荧光点代表一个碱基簇发出的荧光。
基因测序仪的成像方式可以是四通道成像系统或者双通道成像系统。对于双通道成像系统,每个相机需要在测试芯片的同一位置曝光两次。对于四通道成像系统,每个通道的相机在样品同一位置拍摄一次,分别得到四种碱基类型的荧光图像。例如分别得到A碱基类型的荧光图像、分别代表着A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。由于通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,则每种碱基类型对应不同的荧光信号,在同一个循环(Cycle)反应中,同一类型碱基簇在其对应的类别碱基类型发光的亮度远远大于其它类别的碱基,每个通道发光的碱基簇理论上不会有重复。
基因测序仪获取到荧光图像后,会对采集的图像进行基因图像重构,基因图像配准、基因碱基识别(基因basecall),从而获取基因序列。
其中基因图像重构用于提高荧光图像的分辨率,以提高图像的清晰度,以减小样本间的串扰影响。基因图像重构包括但不限于去卷积等常规操作。
基因图像配准是对四个碱基类型的荧光图像进行校正,使四个碱基类型的荧光图像能够重合,才能提取到同一个位置的4个通道的荧光亮度,便于后续的碱基识别。基因图像配准包括但不限于同一通道的图像配准、全局或局部的仿射配准。
基因识别过程是根据配准后的图像,判断图像中的碱基簇属于A、C、G、T四种碱基的某一种。待测数据经过基因识别后,待测数据息从数字图像转化为A、C、G、T四种碱基的序列信息,即为样本的DNA序列结果,以供后续分析与评估。
数据分析:根据图像数据和序列信息进行测序数据的分析和解读。将序列信息与参考基因组进行比对用于突变识别。
对一个待测数据的测序的过程称为一次运行Run,一个待测数据的测序过程是由多个循环(Cycle)组成,一个循环对应一个反应周期,也即对应测序芯片中的一次碱基类型的识别。测序时,是边合成边测序。在一个循环中,数以千万的碱基簇被同时测序,一个循环也可以称作一轮循环。
一个待测数据包括很多个DNA片段,在上述测序过程中,每个DNA片段会添加一个碱基,因此待测数据的DNA的碱基序列的长度决定了循环的次数。每一循环中,基因测序仪可得到ACGT四个碱基类型各一张荧光图像,在对待测数据进行测序时,基因测序仪能够获取到多个循环的ACGT通道的荧光图像。
需要说明的是,上述是以Illumina测序技术作为大规模平行测序技术(MPS)的一种示例对测序流程进行说明,通过将待测DNA分子通过特定的扩增技术进行扩增,针对每一DNA片段(单链文库分子)扩增形成碱基簇,以碱基簇检测结果构建测序芯片上碱基簇的模板点,以便于后续能够根据碱基簇的模板点进行碱基识别等操作,提升碱基识别效率和准确性。可以理解的是,本申请实施例所提供的基于荧光标记dNTP基因测序的碱基识别方法,是基于测序芯片上单链文库分子扩增后的碱基簇进行定位检测和碱基类型识别,这里,每个碱基簇即指一个碱基信号采集单元,从而其并不受限于针对单链文库分子所采用的哪一种扩增技术,也即,本申请实施例所提供的基于三维模型的碱基识别方法,同样可以适用于其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的定位检测和碱基类型识别,比如,碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇,也包括通过滚环扩增技术(RCA,Rolling Circle Amplification)得到的纳米球,比如碱基信号模板点位置可以指测序芯片上碱基簇的模板点,也包括其他用于纳米球的模版点等等,本申请对此不作限制。在以下描述的实施例中,为了便于理解,以碱基信号采集单元为碱基簇为例进行说明。
请参阅图6,为本申请一实施例提供的基于三维模型的碱基识别方法的流程图。基于三维模型的碱基识别方法应用于基因测序仪中,该基于三维模型的碱基识别方法包括如下步骤:
S11、获取多个循环下的待测荧光图像。
在本实施例中,每一循环内待测荧光图像包括多个碱基类型对应的荧光图像。测序芯片上的碱基信号采集单元以碱基簇的形式呈现,在一些其他基因测序方法中,由于扩增方式不同,碱基信号采集单元可以以纳米球的形式呈现。
对一个待测基因样本的测序的过程称为一次运行Run,一个待测基因样本会被打断成M条待测碱基序列,也可以称为短链,每条待测碱基序列包括N个碱基簇,在一个循环中,同时对这M条短链的顶端的碱基簇,在测序芯片上进行测序反应,在测序芯片上,正在测序的每个碱基簇对应一个位置,在一个循环中,数以千万的碱基簇被同时测序。N决定了测试的循环轮总数,N越大,循环轮总越多。在不同的循环下,分别对这M条待测碱基序列中的碱基簇进行测序。例如一个待测基因样本被打断成三十万条短链,每条短链的长度是100个碱基,那么就需要100个循环的测序反应进行碱基类型的识别。在每次循环下,这三十万条短链的顶端的碱基簇在测序芯片上进行测序反应。
在测序反应时测序芯片上不同类型的碱基簇会分别被接上不同的荧光标记物之一,在一个循环中,基因测序仪利用激光激发测序芯片上的荧光发出荧光信号,利用基因测序仪的相机,捕获该次循环下的拍摄视野范围内所对应的测序芯片上目标位置区域的荧光图像。在每个循环中,基因测序仪的相机拍摄一次,可以得到多种碱基类型对应的荧光图像,例如基因测序仪的成像系统是四通道的成像模式,则在一个循环中,在该次循环的视野拍摄范围内拍摄一次,可以得到四种碱基类型的荧光图像,即为A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。例如,一个待测基因样本被打断成一万条短链,在一个循环下,基因测序仪的相机调整相机视野,捕获该次循环下的拍摄视野范围内所对应的测序芯片上这一万条短链的顶端的碱基簇的荧光图像,其中一个碱基簇对应一个read,那么此时就有一万条read。
S12、将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像。
在本实施例中,循环时序信息指示循环的轮数,例如一个待测基因样本被打断成三十万条短链,每条短链的长度是100个碱基,那么就需要100个循环的测序反应进行碱基类型的识别,即需要100轮循环才能测序完这三十万条短链的碱基序列,这100轮循环的顺序为循环时序信息,例如依次为第1轮循环、2轮循环,一直到第100轮循环。
在一个循环中,能够获取多张不同碱基类型的荧光图像。堆叠方向指示一张荧光图像叠加在另一张荧光图像上所形成的方向,将多个循环下的待测荧光图像在堆叠方向上进行堆叠拼接即将一个循环中的多张荧光图像叠加在另外一个循环中的多张荧光图像上,形成三维荧光图像(C,W,H),其中C表示堆叠方向上的图像数量,W表示图像宽度,H表示图像高度,其中基于循环时序信息确定的堆叠方向可以是与循环顺序相同的叠加方向,也可以是与循环顺序相反的叠加方向。
S13、基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。
在基因测序的过程中,由于通道串扰(crosstalk)、荧光团的反应滞后效应(phasing)、荧光团的反应提前效应(prephasing)、G碱基淬灭(quenching)干扰、相机在采集荧光图像时的精度误差、操作台的移动精度等等都会荧光图像中荧光点的亮度有影响。在荧光图像的亮度不均匀或者噪声比较多时,就会对碱基识别的精度。
其中通道串扰是不同的碱基类型的荧光图像间的亮度干扰。由于不同的荧光标记的荧光分子的波长分布存在重叠区,这样在不同碱基类型对应的荧光图像间会存在光强干扰的问题,例如测序芯片中的位置B处是A碱基簇,位置B处的邻近位置是位置D,位置D是C碱基簇,在用激光照射测序芯片时,位置B处的A碱基簇产生的荧光光强可能会对位置D是C碱基簇的产生的荧光光强产生干扰,这样在一轮循环中,相机得到四张荧光图像、A碱基类型对应的荧光图像、C碱基类型对应的荧光图像、G碱基类型对应的荧光图像、T碱基类型对应的荧光图像。那么A碱基类型对应的荧光图像中位置B处对应的荧光点的影子可能会出现C碱基类型的荧光图像中位置D处对应的荧光点处。
对于荧光团的反应滞后效应,由于荧光切除不完全,洗脱不干净等情况在当前轮循环中有未切除干净的荧光,未切除干净的荧光在下一个循环的测序反应中会有反应,这样就会对下一循环中采集的荧光图像的荧光强度产生干扰。
对于荧光团的反应提前效应,荧光团可能出现本来应该在下一个循环中反应,但部分荧光提前在当前循环中反应了,即荧光团的反应提前效应(prephasing)。这些反应的滞后和提前体现了荧光团中拷贝反应的异步性和不一致性,从而影响了碱基识别错误率的主要原因。
对于G碱基淬灭(quenching)干扰,当前循环下的G碱基的亮度对当前循环的下一个循环下的A碱基的亮度造成的干扰。
在一些实施例中,基于所述三维荧光图像形成三维输入数据,其中三维输入数据可以是三维荧光图像或对三维荧光图像进行预处理后的图像,预处理包括但不限于去噪处理、亮度处理,背景处理等等。在一些实施例中,三维输入数据也可以是对三维荧光图像进行剪裁后得到的多个三维子图像,基于三维子图像得到的每个三维子图像对应的三维输入数据。
碱基识别模型包括三维特征提取网络及预测网络,其中三维特征提取网络用于从碱基识别模型的三维输入数据中提取每个三维子图像对应的三维特征图。预测网络用于基于每个三维子图像对应的三维特征图输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果。按照上述方法多次连续输入剪裁的三维子图像,就能得到多次循环下的荧光图像的碱基识别结果。
三维特征提取网络包括三维卷积层。三维输入数据为三维数据,采用三维卷积层来进行计算,卷积层的卷积核也是三维的,使用三维卷积层来处理基于循环时序信息叠加的三维子荧光图像数据,那么三维卷积核在三个维度上滑动,即在三维输入数据的宽度、高度,以及循环时序方向上滑动。这允许三维特征提取网络捕获不同循环和不同通道上荧光图像的关联性,如反应提前效应的特征及反应滞后反应的特征,以更好地理解荧光图像在循环时序上的潜在信息。预测网络包括全连接层,通过一个或者多个全连接层,预测网络进一步处理三维特征提取网络的输出,以执行更高级的特征学习和最终的分类任务。在全连接层中,每个神经元与前一层的所有神经元相连接,这使得预测网络能够学习三维输入数据的更复杂的特征组合。通常,最后一层全连接层采用损失函数以生成各个类别的概率分布,从而实现分类识别碱基类型的任务,例如损失函数为交叉熵损失函数。
在其他实施例中,如图7为一实施例中三维特征提取网络的示意图,三维特征提取网络还包括ReLU激活函数和池化层。ReLU激活函数的作用是将提取的三维特征图中所有负值变成零,而保留非负值不变。这增加了网络的非线性特性,有助于网络更好地捕获数据中的非线性关系。池化层的目的是对图像在三个维度上进行下采样,这不仅有助于减小数据的规模,加快训练速度,还有助于保留重要的特征信息。如图8所示为一实施例中预测网络的示意图,预测网络包括全连接层及ReLU激活函数。
在上述实施例中,对多个循环时序信息下的待测荧光图像进行拼接,基于拼接后的三维图像形成的三维输入数据也是包括多个循环时序信息下的子荧光图像。训练好的碱基识别模型中的三维特征提取网络可以从三维输入数据中提取得到三维特征图,利用三维特征提取网络可以在三维输入数据的宽度、高度,以及循环时序信息方向上捕获不同循环和不同碱基通道上荧光图像的关联性,如反应提前效应的亮度关系及反应滞后反应间的亮度关系,从而使三维特征图也包括多个循环时序信息下不同碱基间的亮度特征信息,以使碱基识别模型更好地理解荧光图像在循环时序信息上的潜在信息,从而可以减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰以提高碱基识别精度。
在一些实施例中,所述基于所述三维荧光图像形成三维输入数据包括:
基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像,基于每个三维子图像形成每个三维子图像对应的三维输入数据,其中每个三维子图像包括多个循环下的子荧光图像,其中每一所述子荧光图像为对应所述循环下的待测荧光图像中的部分图像;
所述通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果包括:
依次将基于每个三维子图像形成的三维输入数据作为训练后的碱基识别模型的输入,通过所述三维特征提取网络提取每个三维子图像对应的三维特征图,通过所述预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果。
具体地,如图9所示,图9为另一实施例中基于三维模型的碱基识别方法的流程图;
S21、获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像。
S22、将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像。
S23、基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像,基于每个三维子图像形成每个三维子图像对应的三维输入数据。
在本实施例中,基于碱基信号采集单元将三维荧光图像分成多个小的数据块,每个数据块中包括多个循环下的荧光图像中的一部分。即一个数据块为一个三维子图像,每个三维子图像包括多个循环下的子荧光图像,多个循环下的子荧光图像即为多个循环下的荧光图像中的一部分,这样每个三维子图像就能包括多次循环下的图像信息。
如图10所示,图10为一实施例中将多张荧光图像进行堆叠并剪裁的示意图;多个循环下的待测荧光图像为3个循环下采集的荧光图像,一个循环下获取四种不同碱基类型的荧光图像,将这12张荧光图像,依次按照循环顺序进行叠加,第二次循环下拍摄的四张荧光图像叠加在第一个循环下拍摄的四张荧光图像上,第三次循环下拍摄的四张荧光图像叠加在第二次循环下拍摄的四张荧光图像上,形成在循环时序方向上叠加的12张荧光图像,即形成大小为(12,2160,4096)的三维荧光图像,其中12表示由循环顺序所指示的堆叠方向上的图像数量,2160表示图像高度,4096表示图像宽度,在大小为(12,2160,4096)的三维荧光图像中有很多个圆圈符号,这些圆圈符号表示碱基簇所在的位置。将一个大小为(12,2160,4096)的三维荧光图像,剪裁成多个大小为(12,11,11)的三维子图像,即每个大小为(12,11,11)的三维子图像包括了三次循环下的荧光图像中的部分数据。
在一些实施例中可以将每个三维子图像作为三维输入数据,也可以对每个三维子图像进行预处理,将预处理后的三维子图像作为每个三维子图像对应的三维输入数据,例如预处理包括但不限于去噪处理、归一化处理、亮度处理等等。
S24、依次将基于每个三维子图像形成的三维输入数据作为训练后的碱基识别模型的输入,通过所述三维特征提取网络提取每个三维子图像对应的三维特征图,通过所述预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果。
在上述步骤S21与S11相同,S22与S12相同,在此不再赘述。
其中三维特征提取网络用于从碱基识别模型的三维输入数据中提取每个三维子图像对应的三维特征图。预测网络用于基于每个三维子图像对应的三维特征图输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果。按照上述方法多次连续输入剪裁的三维子图像,就能得到多次循环下的荧光图像的碱基识别结果。
如图11为一实施例中碱基识别模型的示意图;碱基识别模型由两层三维卷积层,和三层全连接层组成,其中三维卷积层包含三维卷积,ReLU激活函数和池化层。输入一个大小为(12,11,11)三维子图像,该三维子图像包括三个循环下的子荧光图像,经过第一卷积层输出大小为(64,6,6,6)的数据,经过第二卷积层输出大小为(128,3,3,3)的数据,然后对大小为(128,3,3,3)的数据进行展平处理,输出大小为(1,3456)的数据,经过第一全连接层输出大小为(1,512)的数据,经过第二全连接层输出大小为(1,64)的数据,经过第三全连接层输出大小为(1,4)的数据,基于大小为(1,4)的数据得到分类结果。
在上述实施例中,对多个循环时序下的待测荧光图像进行拼接,然后对拼接后的三维图像进行剪裁成包括多个循环时序下的子荧光图像的三维子图像,基于三维子图像形成的输入数据也是包括多个循环时序下的子荧光图像。训练好的碱基识别模型中的三维特征提取网络可以从三维子图像中提取得到三维特征图,利用三维特征提取网络可以在三维子图像对应的三维输入数据的宽度、高度,以及循环时序方向上捕获不同循环和不同碱基通道上荧光图像的关联性,如反应提前效应的亮度关系及反应滞后反应间的亮度关系,从而使三维特征图也包括多个循环时序下不同碱基间的亮度特征信息,以使碱基识别模型更好地理解荧光图像在循环时序上的潜在信息,从而可以减少前后循环时序之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰以提高碱基识别精度。
在一些实施例中,一个三维子图像对应测序芯片上一个指示碱基信号采集单元中心位置的碱基信号模板点位置;所述基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像包括:
将所述三维荧光图像中对应一个相同的碱基信号模板点位置的图像块剪裁成一个三维子图像,一个三维子图像包括同一个碱基信号模板点位置处分别在多个循环下对应的子荧光图像。
对于一次测序阶段,通过相机拍摄测序表面的荧光图像,对荧光图像进行图像处理和荧光点位置定位进行碱基簇检测,根据与不同碱基类型的测序信号响应对应的多张荧光图像的碱基簇检测结果进行模板构建,构建出测序芯片上所有碱基簇模板点(cluster)位置,对于同时在测序芯片上正在测序的多条短链而言,一条短链对应一个测序芯片上一个碱基测模板点的位置,每次循环下对多条短链测序时,是对每条短链的顶端的碱基簇进行碱基识别。对于这多条短链而言,采集多个循环下的荧光图像进行拼接得到三维荧光图像。以循环时序信息方向为剪裁方向,将三维荧光图像中对应一个相同的碱基簇模板点位置的图像块剪裁成一个三维子图像,这样一个三维子图像对应一个碱基簇模板点位置,即一个三维子图像对应一个短链上的多个循环下的荧光图像。若有30万个短链正在测序芯片上测序,获取到这30万个短链的3次循环下的荧光图像,则将30万个短链的3次循环下的荧光图像堆叠成三维荧光图像,再对三维荧光图像按照上述方法裁剪后,可以得到30万个三维子图像,每个短链对应一个三维子图像,一个三维子图像包括一个短链的三个循环下的荧光图像。这样在识别过程中可以使碱基识别模型更加关注一个碱基簇模板点位置处对应的不同循环下的荧光图像。
在上述实施例中,将三维荧光图像中对应一个相同的碱基簇模板点位置的图像块剪裁成一个三维子图像,这样一个三维子图像对应一个碱基簇模板点位置,碱基识别模型集中关注单个碱基簇模板点位置处对应的不同循环下的荧光图像的信息。通过将荧光图像按照碱基簇的中心位置来剪裁,能够使模型更加专注分析单个碱基簇模板点位置处对应的不同循环下的荧光图像的特征,从而减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰以提高碱基识别精度。
在一些实施例中,所述通过所述碱基识别模型中用于碱基识别的预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果包括:
从每个三维子图像对应的三维特征图中,获取每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像对应的三维特征图;基于每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像对应的三维特征图,通过所述预测网络输出每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像的碱基识别结果。
一个三维子图像包括多个循环时序信息下的子荧光图像,位置位于中间循环轮数下采集的子荧光图像会与前后循环时序信息中的子荧光图像有一定的关联,通过输入三维子图像,利用三维卷积核能在三维子图像对应的输入数据的宽度、高度,以及循环时序信息方向上捕获不同循环和不同通道上荧光图像的关联性,这样三维子图像对应的三维特征图也是包括不同循环和不同通道上荧光图像的关联性,因此提取出的三维特征图对识别在堆叠方向上位置位于中间的循环轮数对应的子荧光图像中的碱基更有利。例如一个三维子图像A包括一个碱基簇模板点位置B处对应的第一个循环下的子荧光图像,B处对应的第二个循环下的子荧光图像及B处对应的第三个循环下的子荧光图像。将该三维子图像A形成三维输入数据作为碱基识别模型的输入后,输出第二个循环下的子荧光图像对应的碱基识别结果。因此按照上述方法,对于循环位置不是属于两端的一个循环下的子荧光图像而言,在对该循环下的子荧光图像进行碱基识别时,每次输入的三维子图像包括该循环下的子荧光图像,及在循环时序信息上该循环的前后循环下的子荧光图像。对于循环位置属于两端的循环下的子荧光图像而言,可以输入的三维子图像包括该循环下的子荧光图像、及与该循环位置相邻的多个循环下的子荧光图。按照上述方法多次连续输入剪裁的三维子图像,就能得到多次循环下的荧光图像的碱基识别结果。
在上述实施例中,一个三维子图像包括多个循环时序信息下的子荧光图像,位置位于中间循环下的子荧光图像会与前后循环时序信息中的子荧光图像有一定的关联,通过输入三维子图像,利用三维卷积核能在三维子图像的宽度、高度,以及循环时序信息方向上捕获不同循环和不同通道上荧光图像的关联性,对于在堆叠方向上位置位于中间的循环轮数对应的子荧光图像的碱基识别结果,能够减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰,从而提高碱基识别精度。
在一些实施例中,所述方法还包括:
获取所述训练数据集,其中所述训练数据集包括多个三维子样本图像及每个三维子样本图像对应的三维子碱基类型标签图像,所述多个三维子样本图像是对三维样本荧光图像剪裁得到的子图像,所述三维样本荧光图像是对多个循环下的样本荧光图像基于循环时序信息确定的堆叠方向上堆叠后得到的图像,每一循环内所述样本荧光图像包括多个碱基类型对应的样本荧光图像,一个三维子样本图像包括多个循环下的子样本荧光图像;
构建初始的碱基识别模型,碱基识别模型包括三维特征提取网络及预测网络;
从所述训练数据集中获取三维子样本图像作为三维输入样本,将基于所述三维输入样本形成的三维输入数据作为训练中的碱基识别模型的输入,通过三维特征提取网络提取每个三维输入样本对应的三维特征图,通过预测网络基于三维输入样本对应的三维特征图输出三维输入样本中至少一个循环下的子荧光图像的碱基识别结果,以所述三维输入样本对应的三维子碱基类型标签图像为训练目标进行迭代训练,直至所述损失函数收敛,得到训练后的碱基识别模型。
在上述实施例中,通过对多个循环下的样本荧光图像在基于循环时序信息确定的方向上进行堆叠,得到堆叠后的三维样本荧光图像,对三维样本荧光图像进行剪裁,得到多个三维子样本图像,一个三维子样本图像包括多个循环下的子样本荧光图像,这样一个三维子样本图像就包括多个循环时序信息下的亮度特征信息,在迭代过程中将三维子样本图像作为三维输入样本时,三维特征提取网络通过在三维子样本图像的宽度、高度,以及循环时序信息方向上捕获不同循环和不同碱基通道上荧光图像的关联性,如反应提前效应及反应滞后反应间的亮度关系,从而使碱基识别模型在训练过程中能够学习到不同循环和不同碱基通道上荧光图像的关联性,在碱基识别模型优化后,从而减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰,从而提高碱基识别精度。
如图12,图12为一实施例中基于三维模型的碱基识别方法中训练碱基识别模型的流程图;
S111、获取训练数据集。
其中训练数据集包括多个三维子样本图像及每个三维子样本图像对应的三维子碱基类型标签图像。采集多个循环下的样本荧光图像,样本荧光图像包括多个碱基类型对应的荧光图像,对多个循环下的样本荧光图像在循环时序信息所指示的堆叠方向上堆叠,得到三维样本荧光图像,然后对三维样本荧光图像进行剪裁,得到多个三维子样本图像,每个三维子样本图像包括多个循环下的子样本荧光图像。多个循环下的子样本荧光图像为多个循环下的样本荧光图像的一部分。
在一些实施例中,利用传统碱基簇位置定位算法定位各循环下采集的多种碱基类型的样本荧光图像中表示碱基簇中心的碱基簇位置,利用传统碱基识别算法,对各循环下采集的多种碱基类型的样本荧光图像中碱基簇位置处的碱基类型进行碱基识别,得到各循环下样本荧光图像对应的碱基识别结果,根据在测序芯片连续采集的多次循环下的样本荧光图像的碱基识别结果获得碱基序列,将碱基序列与已知基因库中的标准碱基序列进行比对,确定与标准碱基序列对比成功的碱基序列及与标准碱基序列对比失败的碱基序列,根据碱基簇位置、对比成功的碱基序列生成样本荧光图像对应的碱基类型标签图像。然后根据多个循环下的样本荧光图像对应的堆叠顺序,将多个循环下的样本荧光图像对应的碱基类型标签图像进行堆叠,得到三维碱基类型标签图像,根据每个三维子样本图像在三维样本荧光图像中的剪裁位置,就能得到每个三维子样本图像对应的三维子碱基类型标签图像。
可选的,将正确识别的碱基的占比大于或者等于预设比例的碱基序列确定为与标准碱基序列对比成功的碱基序列,将正确识别的碱基的占比小于预设比例的碱基序列确定为与标准碱基序列对比失败的碱基序列。其中一条碱基序列中正确识别的碱基的占比等于一条碱基序列中正确识别的碱基数/一条碱基序列中的碱基总数。
S112、构建初始的碱基识别模型。
碱基识别模型包括三维特征提取网络及预测网络,其中三维特征提取网络用于从碱基识别模型的三维输入数据中提取每个三维输入样本对应的三维特征图。预测网络用于基于每个三维输入样本对应的三维特征图输出每个三维输入样本中至少一个循环下的子荧光图像的碱基识别结果。
S113、从所述训练数据集中获取三维子样本图像作为三维输入样本,将基于所述三维输入样本形成的三维输入数据作为训练中的碱基识别模型的输入,通过三维特征提取网络提取每个三维输入样本对应的三维特征图,通过预测网络基于三维输入样本对应的三维特征图输出三维输入样本中至少一个循环下的子荧光图像的碱基识别结果,以所述三维输入样本对应的三维子碱基类型标签图像为训练目标进行迭代训练。
在每次迭代过程中,基于损失函数,计算每次迭代过程中的三维输入样本中至少一个循环下的子样本荧光图像的碱基识别结果与所述三维输入样本对应的三维子碱基类型标签图像中所述至少一个循环下的子样本荧光图像对应的碱基类型标签间的损失值,在每次迭代过程中通过计算损失值判断模型是否收敛,在模型没有收敛时,继续选取三维子样本图像形成模型的三维输入数据,对碱基识别模型进行训练,优化碱基识别模型的参数。
所述损失函数采用交叉熵损失函数,所述损失函数的公式为:
其中CE(p,y)是交叉熵损失函数,C是类别的数量,yi是第i类真实标签的one-hot编码,pi是碱基识别模型预测碱基信号采集单元的碱基类型为第i类碱基概率分布。
如图13为一实施例中训练碱基识别模型的示意图;碱基识别模型由两层三维卷积层,和三层全连接层组成,其中三维卷积层包含三维卷积,ReLU激活函数和池化层。输入一个大小为(12,11,11)三维子样本图像为三维输入样本,该三维输入样本包括三个循环下的子荧光图像,经过第一卷积层输出大小为(64,6,6,6)的数据,经过第二卷积层输出大小为(128,3,3,3)的数据,然后对大小为(128,3,3,3)的数据进行展平处理,输出大小为(1,3456)的数据,经过第一全连接层输出大小为(1,512)的数据,经过第二全连接层输出大小为(1,64)的数据,经过第三全连接层输出大小为(1,4)的数据,输出的分类结果与输出数据对应的子荧光图像对应的碱基类型标签图像计算损失值。
S114、判断当前迭代是否达到迭代终止条件。
迭代终止条件包括但不限于迭代次数,损失值小于预设值等等。在当前迭代没有达到迭代终止条件时,返回继续执行S113,继续选取三维子样本图像形成模型的三维输入数据,对碱基识别模型进行训练,优化碱基识别模型的参数
在当前迭代达到迭代终止条件时,执行S115。
S115、将终止迭代后的碱基识别模型作为训练后的碱基识别模型。
在一些实施例中,一个三维子样本图像对应测序芯片上一个指示碱基簇中心位置的碱基簇模板点位置,一个三维子样本图像包括一个碱基簇模板点位置处对应的多个循环下的子样本荧光图像。
在基因的一次测序过程中,对同一测序芯片上的多条样本短链进行测序,即采集多条样本短链的多个循环下的样本荧光图像,然后对多个循环下的样本荧光图像进行拼接得到三维样本荧光图像,以循环时序信息方向为剪裁方向,将三维样本荧光图像中对应一个相同的碱基簇模板点位置的图像块剪裁成一个三维子样本图像,这样一个三维子样本图像对应一个碱基簇模板点位置,即一个三维子样本图像对应一个样本短链上的多个循环下的荧光图像。
在上述实施例中,将三维样本荧光图像中对应一个相同的碱基簇模板点位置的图像块剪裁成一个三维子样本图像,这样一个三维子样本图像对应一个碱基簇模板点位置,在训练碱基识别模型时,使模型集中关注单个碱基簇模板点位置处对应的不同循环下的荧光图像的信息。通过将样本荧光图像按照碱基簇的中心位置来剪裁,能够使模型更加专注分析单个碱基簇模板点位置处对应的不同循环下的荧光图像的特征,从而使模型在训练时能够学习到单个碱基簇模板点位置处不同循环下的不同碱基通道下的亮度特征,从而在模型优化后,能够使碱基识别模型在识别时减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰以提高碱基识别精度。
在一些实施例中,所述三维输入样本中至少一个循环下的子样本荧光图像的碱基识别结果为所述三维输入样本中在堆叠方向上位置位于中间的循环轮数对应的子样本荧光图像的碱基识别结果。
一个三维子样本图像包括多个循环时序信息下的子样本荧光图像,位置位于中间循环下的子样本荧光图像会与前后循环时序信息中的子样本荧光图像有一定的关联,通过输入三维子样本图像作为三维输入样本,利用三维卷积核能在三维输入样本的宽度、高度,以及循环时序信息方向上捕获不同循环和不同通道上荧光图像的亮度间的关联性,这样三维子样本图像对应的三维特征图也是包括不同循环和不同通道上荧光图像的亮度间的关联性。因此,利用三维卷积层,在堆叠方向上位置位于中间的循环轮数对应的子样本荧光图像对应的特征图能够与其对应的前后循环时序下的子样本荧光图像的亮度特征相关联,在训练过程中,通过对三维输入样本中在堆叠方向上位置位于中间的循环轮数对应的子样本荧光图像进行识别,可以使模型能够学习到不同循环和不同通道上荧光图像的关联性。
在上述实施例中,位置位于中间循环下的子样本荧光图像会与前后循环时序信息中的子样本荧光图像的亮度有一定的关联,在训练过程中,通过对三维输入样本中在堆叠方向上位置位于中间的循环轮数对应的子样本荧光图像进行识别,可以使模型能够学习到不同循环和不同通道上荧光图像的亮度的关联性,这样在模型优化完成后,使模型更能适应不同循环和不同通道上的亮度的干扰,在预测碱基时使模型能够减少前后循环时序信息之间的反应提前效应干扰、反应滞后反应干扰以及G碱基淬灭(quenching)干扰,从而提高碱基识别精度。
请参阅图14,本申请一实施例提供一种基于三维模型的碱基识别装置,包括:获取模块21,用于获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;拼接模块22,用于将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;识别模块23,用于基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。
可选的,识别模块23还用于:
所述基于所述三维荧光图像形成三维输入数据包括:
基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像,基于每个三维子图像形成每个三维子图像对应的三维输入数据,其中每个三维子图像包括多个循环下的子荧光图像,其中每一所述子荧光图像为对应所述循环下的待测荧光图像中的部分图像;
所述通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果包括:
依次将基于每个三维子图像形成的三维输入数据作为训练后的碱基识别模型的输入,通过所述三维特征提取网络提取每个三维子图像对应的三维特征图,通过所述预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果。
可选的,识别模块23还用于:
将所述三维荧光图像中对应一个相同的碱基信号模板点位置的图像块剪裁成一个三维子图像,一个三维子图像包括同一个碱基信号模板点位置处分别在多个循环下对应的子荧光图像。
可选的,识别模块23还用于:
从每个三维子图像对应的三维特征图中,获取每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像对应的三维特征图;基于每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像对应的三维特征图,通过所述预测网络输出每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像的碱基识别结果。
可选的,识别模块23还用于:
获取所述训练数据集,其中所述训练数据集包括多个三维子样本图像及每个三维子样本图像对应的三维子碱基类型标签图像,所述多个三维子样本图像是对三维样本荧光图像剪裁得到的子图像,所述三维样本荧光图像是对多个循环下的样本荧光图像基于循环时序信息确定的堆叠方向上堆叠后得到的图像,每一循环内所述样本荧光图像包括多个碱基类型对应的样本荧光图像,一个三维子样本图像包括多个循环下的子样本荧光图像;
构建初始的碱基识别模型,碱基识别模型包括三维特征提取网络及预测网络;
从所述训练数据集中获取三维子样本图像作为三维输入样本,将基于所述三维输入样本形成的三维输入数据作为训练中的碱基识别模型的输入,通过三维特征提取网络提取每个三维输入样本对应的三维特征图,通过预测网络基于三维输入样本对应的三维特征图输出三维输入样本中至少一个循环下的子荧光图像的碱基识别结果,以所述三维输入样本对应的三维子碱基类型标签图像为训练目标进行迭代训练,直至所述损失函数收敛,得到训练后的碱基识别模型。
可选的,一个三维子样本图像对应测序芯片上一个指示碱基信号采集单元中心位置的碱基信号模板点位置,一个三维子样本图像包括一个碱基信号模板点位置处对应的多个循环下的子样本荧光图像。
可选的,所述损失函数采用交叉熵损失函数,所述损失函数的公式为:
其中CE(p,y)是交叉熵损失函数,C是类别的数量,yi是第i类真实标签的one-hot编码,pi是碱基识别模型预测碱基信号采集单元的碱基类型为第i类碱基概率分布。
本领域技术人员可以理解的是,图14中基于三维模型的碱基识别装置的结构并不构成对基于三维模型的碱基识别装置的限定,所述各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于基因测序仪中的控制器中,也可以以软件形式存储于基因测序仪中的存储器中,以便于控制器调用执行以上各个模块对应的操作。在其他实施例中,基于三维模型的碱基识别装置中可以包括比图示更多或更少的模块。
请参阅图15,本申请实施例的另一方面,还提供了一种基因测序仪200,包括存储器3011和处理器3012,存储器3011存储有计算机程序,计算机程序被处理器执行时,使得处理器3012执行本申请上述任一实施例所提供的基于三维模型的碱基识别方法的步骤。
其中处理器3012是控制中心,利用各种接口和线路连接整个基因测序仪200的各个部分,通过运行或执行存储在存储器3011内的软件程序和/或模块,以及调用存储在存储器3011内的数据,执行基因测序仪200的各种功能和处理数据。可选的,处理器3012可包括一个或多个处理核心;优选的,处理器3012可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器3012中。
存储器3011可用于存储软件程序以及模块,处理器3012通过运行存储在存储器3011的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器3011可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据基因测序仪的使用所创建的数据等。此外,存储器3011可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器3011还可以包括存储器控制器,以提供处理器3012对存储器3011的访问。
本申请实施例另一方面,还提供一种存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请上述任一实施例所提供的基于三维模型的碱基识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例所提供的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。

Claims (10)

1.一种基于三维模型的碱基识别方法,其特征在于,包括:
获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;
将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;
基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。
2.如权利要求1所述的基于三维模型的碱基识别方法,其特征在于,所述基于所述三维荧光图像形成三维输入数据包括:
基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像,基于每个三维子图像形成每个三维子图像对应的三维输入数据,其中每个三维子图像包括多个循环下的子荧光图像,其中每一所述子荧光图像为对应所述循环下的待测荧光图像中的部分图像;
所述通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果包括:
依次将基于每个三维子图像形成的三维输入数据作为训练后的碱基识别模型的输入,通过所述三维特征提取网络提取每个三维子图像对应的三维特征图,通过所述预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果。
3.如权利要求2所述的基于三维模型的碱基识别方法,其特征在于,一个三维子图像对应测序芯片上一个指示碱基信号采集单元中心位置的碱基信号模板点位置;所述基于碱基信号采集单元将所述三维荧光图像剪裁成多个三维子图像包括:
将所述三维荧光图像中对应一个相同的碱基信号模板点位置的图像块剪裁成一个三维子图像,一个三维子图像包括同一个碱基信号模板点位置处分别在多个循环下对应的子荧光图像。
4.如权利要求2所述的基于三维模型的碱基识别方法,其特征在于,所述通过所述碱基识别模型中用于碱基识别的预测网络基于每个三维子图像对应的三维特征图进行碱基识别,输出每个三维子图像中至少一个循环下的子荧光图像的碱基识别结果包括:
从每个三维子图像对应的三维特征图中,获取每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像对应的三维特征图;基于每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像对应的三维特征图,通过所述预测网络输出每个三维子图像中在堆叠方向上位置位于中间的循环轮数下采集的子荧光图像的碱基识别结果。
5.如权利要求1所述的基于三维模型的碱基识别方法,其特征在于,所述方法还包括:
获取所述训练数据集,其中所述训练数据集包括多个三维子样本图像及每个三维子样本图像对应的三维子碱基类型标签图像,所述多个三维子样本图像是对三维样本荧光图像剪裁得到的子图像,所述三维样本荧光图像是对多个循环下的样本荧光图像基于循环时序信息确定的堆叠方向上堆叠后得到的图像,每一循环内所述样本荧光图像包括多个碱基类型对应的样本荧光图像,一个三维子样本图像包括多个循环下的子样本荧光图像;
构建初始的碱基识别模型,碱基识别模型包括三维特征提取网络及预测网络;
从所述训练数据集中获取三维子样本图像作为三维输入样本,将基于所述三维输入样本形成的三维输入数据作为训练中的碱基识别模型的输入,通过三维特征提取网络提取每个三维输入样本对应的三维特征图,通过预测网络基于三维输入样本对应的三维特征图输出三维输入样本中至少一个循环下的子荧光图像的碱基识别结果,以所述三维输入样本对应的三维子碱基类型标签图像为训练目标进行迭代训练,直至损失函数收敛,得到训练后的碱基识别模型。
6.如权利要求5所述的基于三维模型的碱基识别方法,其特征在于,一个三维子样本图像对应测序芯片上一个指示碱基信号采集单元中心位置的碱基信号模板点位置,一个三维子样本图像包括一个碱基信号模板点位置处对应的多个循环下的子样本荧光图像。
7.如权利要求5所述的基于三维模型的碱基识别方法,其特征在于,所述损失函数采用交叉熵损失函数,所述损失函数的公式为:
其中CE(p,y)是交叉熵损失函数,C是类别的数量,yi是第i类真实标签的one-hot编码,pi是碱基识别模型预测碱基信号采集单元的碱基类型为第i类碱基概率分布。
8.一种基于三维模型的碱基识别装置,其特征在于,包括:
获取模块,用于获取多个循环下的待测荧光图像,每一循环内所述待测荧光图像包括多个碱基类型对应的荧光图像;
拼接模块,用于将所述多个循环下的待测荧光图像基于循环时序信息确定的堆叠方向进行堆叠拼接,得到三维荧光图像;
识别模块,用于基于所述三维荧光图像形成三维输入数据,并将所述三维输入数据作为训练后的碱基识别模型的输入,通过所述碱基识别模型中三维特征提取网络提取所述三维输入数据对应的三维特征图,通过所述碱基识别模型中用于碱基识别的预测网络基于所述三维输入数据对应的三维特征图进行碱基识别,输出所述三维输入数据中至少一个循环下的荧光图像的碱基识别结果。
9.一种基因测序仪,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。
CN202311832132.6A 2023-12-26 2023-12-26 三维碱基识别方法及装置、基因测序仪及存储介质 Pending CN117877025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311832132.6A CN117877025A (zh) 2023-12-26 2023-12-26 三维碱基识别方法及装置、基因测序仪及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311832132.6A CN117877025A (zh) 2023-12-26 2023-12-26 三维碱基识别方法及装置、基因测序仪及存储介质

Publications (1)

Publication Number Publication Date
CN117877025A true CN117877025A (zh) 2024-04-12

Family

ID=90580346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311832132.6A Pending CN117877025A (zh) 2023-12-26 2023-12-26 三维碱基识别方法及装置、基因测序仪及存储介质

Country Status (1)

Country Link
CN (1) CN117877025A (zh)

Similar Documents

Publication Publication Date Title
US11676275B2 (en) Identifying nucleotides by determining phasing
US8182993B2 (en) Methods and processes for calling bases in sequence by incorporation methods
US10023911B2 (en) Methods and processes for calling bases in sequence by incorporation methods
CN116994246B (zh) 基于多任务联合的碱基识别方法及装置、基因测序仪及介质
US11580641B1 (en) Deep learning based methods and systems for nucleic acid sequencing
US8300971B2 (en) Method and apparatus for image processing for massive parallel DNA sequencing
CN117274614A (zh) 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质
CN113012757B (zh) 识别核酸中的碱基的方法和系统
CN117315654B (zh) 端到端的基因测序方法及装置、基因测序仪及存储介质
CN117351485B (zh) 基因测序训练数据集的增强方法及装置、设备及存储介质
CN117237198B (zh) 基于深度学习的超分辨测序方法及装置、测序仪及介质
CN117392673A (zh) 碱基识别方法及装置、基因测序仪及介质
CN111180013B (zh) 检测血液病融合基因的装置
CN116596933A (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
CN117877025A (zh) 三维碱基识别方法及装置、基因测序仪及存储介质
CN117523559B (zh) 碱基识别方法及装置、基因测序仪及存储介质
WO2024007190A1 (en) Methods and systems for enhancing nucleic acid sequencing quality in high-throughput sequencing processes with machine learning
CN117672343B (zh) 测序饱和度评估方法及装置、设备及存储介质
CN117274739A (zh) 碱基识别方法及其训练集构建方法、基因测序仪及介质
Manoilov et al. Algorithms for Image Processing in a Nanofor SPS DNA Sequencer
WO2024124453A1 (zh) 碱基分类模型的训练方法、识别方法、系统、设备及介质
He et al. Deep Learning for MS2 Feature Detection in Liquid Chromatography Mass Spectrometry
WO2023097685A1 (zh) 核酸样本的碱基识别方法及装置
CN118116469A (zh) 一种序列质量参数的生成方法及装置
CN117976042A (zh) 确定读段质量分数的方法、测序方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination