CN117274739A - 碱基识别方法及其训练集构建方法、基因测序仪及介质 - Google Patents

碱基识别方法及其训练集构建方法、基因测序仪及介质 Download PDF

Info

Publication number
CN117274739A
CN117274739A CN202311222846.5A CN202311222846A CN117274739A CN 117274739 A CN117274739 A CN 117274739A CN 202311222846 A CN202311222846 A CN 202311222846A CN 117274739 A CN117274739 A CN 117274739A
Authority
CN
China
Prior art keywords
base
recognition
sequencing
signal acquisition
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311222846.5A
Other languages
English (en)
Inventor
彭宽宽
陈伟
周祎楠
王谷丰
赵陆洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailu Medical Technology Co ltd
Original Assignee
Shenzhen Sailu Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailu Medical Technology Co ltd filed Critical Shenzhen Sailu Medical Technology Co ltd
Priority to CN202311222846.5A priority Critical patent/CN117274739A/zh
Publication of CN117274739A publication Critical patent/CN117274739A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本申请提供一种碱基识别方法及其训练集构建方法、基因测序仪及介质,碱基识别的训练集构建方法包括:将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像;对原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图;根据在基因测序中针对所述测序芯片连续采集的原始荧光图像的碱基识别结果获得碱基序列,将碱基序列与已知基因库中的标准碱基序列进行比对,对比对成功的碱基序列根据各自匹配的标准碱基序列对其进行校正,经修正后得到作为训练样本的多通道样本图像的碱基类型标签;根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到掩膜标签图像。

Description

碱基识别方法及其训练集构建方法、基因测序仪及介质
技术领域
本申请涉及基因测序技术领域,尤其是涉及一种碱基识别的训练集构建方法、碱基识别方法、基因测序仪及计算机可读存储介质。
背景技术
目前,基因测序技术主要可分为四代,第一代测序技术Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法,由Sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以Illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是Nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssDNA或RNA模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。
第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像信号来获得碱基序列。为了实现对不同碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征。同一场景下需要拍摄多张图像,通过对这些图像进行定位和配准,提取点信号并进行亮度信息分析处理,得到碱基序列。随着二代测序技术的发展,测序仪产品现在都配有实时处理测序数据的软件。不同的测序平台会采用不同的光学系统和荧光染料,因此荧光分子发光的频谱特征会有差异。如果算法无法得到适当的特征或者找到合适的参数以处理这些不同的特征,就可能导致碱基分类出现较大误差,从而影响测序质量。
此外,二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,如图1。通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,如图2。在DNA测序中,常用的荧光标记为四种,将这四种荧光标记同时加入一个循环(Cycle)中,并利用相机拍摄荧光信号的图像。由于每个荧光标记都对应一种特定的波长,因此我们能够在图像中分离出不同荧光标记对应的荧光信号,进而得到对应的荧光图像,如图3。在此过程中,可以对相机进行对焦调整以及采样参数设置,以确保所得到的TIF灰度图像质量达到最优。然而,在实际应用过程中,荧光图像中碱基簇的亮度总是受到多种因素的干扰,主要包括图像内碱基簇的之间的串扰(Spatial Crosstalk),通道间的串扰(Crosstalk)和周期间的串扰(Phasing、Prephasing)。已知的碱基识别技术主要是对串扰和强度进行归一化,但矫正方法不尽相同。通过每个周期内的crosstalk矩阵和phasing与prephasing比率来矫正荧光光强度值,去除串扰噪声,然后通过4个通道的光强值来识别碱基,如图4。然而,现有的碱基识别技术只能对已知的亮度干扰因素,如通道间的亮度串扰,cycle间提前反应或延迟反应导致的phasing和prephasing现象进行矫正,无法校正其它未知的生化或者环境的影响造成的亮度干扰,导致识别精度不高,当样本密度越高时,碱基簇越密集,碱基簇之间的亮度串扰越严重,导致测序准确度大大降低。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种能够克服碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况从而有效提升碱基识别精度的碱基识别方法、碱基识别的训练集构建方法、基因测序仪及计算机可读存储介质。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种碱基识别的训练集构建方法,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像;
对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图;
根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对所述比对成功的碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别确定的对应碱基识别结果进行修正,经修正后得到作为所述训练样本的所述多通道样本图像的碱基类型标签;
根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到掩膜标签图像。
第二方面,本申请实施例提供一种碱基识别方法,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别模型为采用如本申请任一实施例所述的碱基识别的训练集构建方法得到的训练样本对初始的神经网络模型进行训练后得到。
第三方面,本申请实施例提供一种基因测序仪,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如本申请任一实施例所述的碱基识别的训练集构建方法、或实现如本申请任一实施例所述的碱基识别方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本申请任一实施例所述的碱基识别的训练集构建方法、或实现如本申请任一实施例所述的碱基识别方法。
上述实施例中,碱基识别的训练集中,训练样本包括分别与不同碱基类型的测序信号响应对应的多张原始荧光图像形成的多通道样本图像、多通道样本图像的碱基类型标签及掩膜标签图像,其中,训练样本是以不同碱基类别对应的多张荧光图像形成的一个多通道输入,从而碱基识别结果的预测能够保持碱基信号采集单元在多个通道上的亮度值的相对大小关系,对克服各种不确定因素导致的碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况均有较强的适应性,可以学习到更丰富的特征表示,进而可有效地提升碱基识别结果的准确性;多通道样本图像的碱基类型标签和掩膜标签图像,利用已知基因库中的标准碱基序列进行修正后得到,不仅有效地减小了训练样本的标注难度,而且能够提升训练样本的标注精度,更高精度的训练集有利于提升训练后的碱基识别模型的识别精度;掩膜标签图像的引入,利用掩膜策略可使得碱基识别模型的输出仅保留碱基信号采集单元位置的预测结果,有效消除背景噪声和干扰,进一步有利于提升碱基识别的准确性。
上述实施例中,碱基识别方法、基因测序仪及计算机可读存储介质与对应的碱基识别的训练集构建方法实施例属于同一构思,从而与对应的碱基识别的训练集构建方法实施例具有相同的技术效果,在此不再赘述。
附图说明
图1为一实施例中不同荧光分子的荧光信号波长的分布示意图;
图2为一实施例中拍摄装置采集荧光图像,其中,拍摄装置利用滤光片选择性地过滤掉非特定波长的光线,以获得特定波长荧光信号的图像的原理示意图;
图3为一实施例中与A、C、G、T四种碱基类型的测序信号响应对应的四张荧光图像的示意图、以及其中一张荧光图像的局部放大示意图;
图4为一实施例中已知的碱基识别流程图;
图5为一实施例中芯片及芯片上碱基信号采集单元的示意图;
图6为一实施例中碱基识别的训练集构建方法的流程图;
图7为一实施例中碱基识别方法的流程图;
图8为一实施例中碱基识别模型的模型架构图;
图9为一实施例中碱基识别模型的工作原理示意图;
图10为图9中分类预测网络得到碱基识别结果的工作原理示意图;
图11为一实施例中一个Dense Block的结构示意图;
图12为一可选的具体示例中碱基识别方法及其训练集构建方法的整体流程图;
图13为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本申请技术方案做进一步的详细阐述。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,需要说明的是,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一、第二、第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一、第二、第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
第二代基因测序技术,又称下一代测序技术(Next-generation Sequencing,NGS),可以一次对几十万到几百万条DNA分子进行序列测定。已知的二代测序仪普遍是以光学信号记录碱基信息,通过光信号转化为碱基序列,而其中图像处理和荧光定位技术产生的碱基簇位置是后续芯片模板点位置的参考,因此图像处理和荧光定位技术,同碱基序列数据的准确性有直接关系。本申请实施例提供的碱基识别方法,是针对基于荧光标记dNTP基因测序中针对测序芯片采集的荧光图像作为输入数据,主要应用于第二代基因测序技术。其中,荧光标记,是一种采用光信号的测量技术,在工业上常用于DNA测序,细胞标记,药物研究等领域。二代测序仪所采用的基因测序光信号法,是利用不同波段荧光标记不同的碱基,通过滤光片过滤,特定碱基连接成功会激发特定波长的光,最后识别为待测DNA碱基序列。这种通过采集光信号生成图像,再转变成碱基序列的技术则为第二代基因测序技术的主要原理。
二代测序仪,以Illumina测序仪为例,其测序流程主要包括样本准备、簇生成、测序及数据分析四个阶段。
样本准备,也就是文库构建,是指将待测基本组DNA打断形成大量DNA片段、将各DNA片段两端加接头(adapter),接头内分别包含测序结合位点、indices(标识DNA段来源的信息)、与测序芯片(Flowcell)上的寡聚核苷酸互补的特定序列。
簇生成,也就是通过把文库种到Flowcell上,利用桥式DNA扩增,一个DNA片段形成一个碱基簇。
测序,是指针对Flowcell上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮集团,可以在测序的链延伸时候阻止聚合,确保一个循环(cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。一次循环中,针对每一碱基簇通过荧光标记dNTP识别一个碱基,通过特定颜色的荧光信号分别对应不同碱基类型的测序信号响应,通过激光扫描可根据发出的荧光颜色来判断当前循环内针对每一碱基簇对应的是哪个碱基。一次循环中,数以千万的碱基簇在Flowcell被同时测序,一个荧光点代表一个碱基簇发出的荧光,一个碱基簇则对应fastq当中的一条read。在测序阶段,通过红外相机拍摄Flowcell表面的荧光图像,对荧光图像进行图像处理和荧光点位置定位进行碱基簇检测(传统的碱基簇检测定位算法),根据与不同碱基类型的测序信号响应对应的多张荧光图像的碱基簇检测结果进行模板构建,构建出Flowcell上所有碱基簇模板点(cluster)的位置。根据模板中碱基簇位置,(传统的碱基识别算法)对滤波后图像进行荧光强度的提取,然后对荧光强度进行矫正,最终根据各碱基簇模板点位置的最大强度识别碱基计算得分,输出fastq碱基序列文件。请参阅图5,分别为Flowcell示意图(图5中的(a))、一次循环中针对Flowcell上相应部位拍摄的荧光图像(图5中的(b))、及fastq文件中测序结果显示的示意图(图5中的(c))。
数据分析,通过对代表所有DNA片段的数百万个read进行分析,对应每个样本,来自同一文库的碱基序列,可通过在文库构建过程中引入的接头中独特的index进行聚类,reads被配对生成连续序列,连续序列与参考基因组进行比对用于突变识别。
需要说明的是,上述是以Illumina测序技术作为大规模平行测序技术(MPS)的一种示例对测序流程进行说明,通过将待测DNA分子通过特定的扩增技术进行扩增,针对每一DNA片段(单链文库分子)扩增形成碱基簇,以碱基簇检测结果构建测序芯片上碱基簇的模板点,以便于后续能够根据碱基簇的模板点进行碱基识别等操作,提升碱基识别效率和准确性。可以理解的是,本申请实施例所提供的碱基识别方法,是利用机器学习对神经网络模型进行训练的策略来提升碱基识别精度,训练样本是基于测序芯片上单链文库分子扩增后的碱基簇得到的荧光图像进行碱基簇定位检测和碱基类型识别,这里,每个碱基簇即指一个碱基信号采集单元,从而其并不受限于针对单链文库分子所采用的哪一种扩增技术,也即,本申请实施例所提供的碱基识别方法,同样可以适用于其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的碱基类型识别,比如,碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇,也包括通过滚环扩增技术(RCA,Rolling Circle Amplification)得到的纳米球,等等,本申请对此不作限制。
请参阅图6,为本申请一实施例提供的碱基识别的训练集构建方法,包括如下步骤:
S201,获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像。
其中,每一原始荧光图像中各荧光点与对应类型的碱基的各碱基信号采集单元一一对应。碱基类型,通常是指A、C、G、T四种碱基类型。由于不同碱基类型是对应不同荧光标记dNTP的荧光信号,不同荧光标记dNTP的碱基信号采集单元之间没有交集,针对每一碱基类型的测序信号响应对应的原始荧光图像,是指测序芯片中相应部位处包含的同一种碱基类型的碱基信号采集单元受对应荧光标记激发点亮后的成像图像。获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,每张原始荧光图像包括一种碱基类型的碱基信号采集单元的位置信息,根据多张原始荧光图像中各自分别包含的碱基信号采集单元的位置信息,以能够得到测序芯片的目标部位处包含的完整的多个类型的碱基信号采集单元的位置信息。目标部位可以是测序芯片表面的某一局部位置,也可以是测序芯片的表面整体,通常与一张荧光图像能够包含的成像区域范围相关。
原始荧光图像,是指基因测序流程中在测序阶段针对测序芯片表面拍摄的原始的荧光图像。本实施例中,A、C、G、T碱基分别对应4个不同荧光标记dNTP的荧光信号,4个不同荧光标记dNTP的碱基信号采集单元之间理论上没有交集。获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始图像,是指针对同一测序芯片的目标部位分别拍摄4个不同荧光标记dNTP的荧光信号对应的荧光图像,利用A、C、G、T 4种碱基在不同波段的光照射下亮度不同,相应对同一个视场(测序芯片的同一目标部位)采集A、C、G、T 4种碱基被4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光图像(4张原始的荧光图像),作为与不同碱基类型的测序信号响应对应的多张原始荧光图像。
以基因测序流程中,同一循环内采集到的与不同碱基类型的测序信号响应对应的多张原始荧光图像为一组,沿通道维度堆叠形成一个训练样本的多通道样本图像。如,与A、C、G、T 4种碱基类型的测序信号响应对应的四张待测荧光图像沿通道维度堆叠,形成一个4通道样本图像,其维度可表示为(4,H,W),其中,H,W为待测荧光图像的高和宽。其中,训练集是由大量的训练样本组成。
S203,对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图。
对所述原始荧光图像经初级碱基识别,得到碱基识别结果,主要是指采用各种已知算法得到的、准确性可能未达目标的对原始荧光图像中碱基信号采集单元的位置信息和碱基类型的识别结果。已知算法如可以是传统算法,或目前已知的图像识别神经网络模型,如支持向量机(SVM)、卷积神经网络(CNN)、循环神经网络(RNN)等对荧光图像进行检测的算法。在一个可选示例中,初始碱基识别是指针对原始荧光图像采用任意已知的传统碱基信号采集单元检测定位算法进行处理获得碱基信号采集单元位置、及根据碱基信号采集单元位置采用传统的碱基识别算法确定各cycle中采集的原始荧光图像中碱基信号采集单元的碱基类型。其中,掩膜(mask)图,是指选定用于对处理的图像进行遮挡以用于控制图像处理的区域或处理过程的模板。针对同一测序芯片的一次基因测序中,测序芯片中碱基信号采集单元位置是相同的,也即不同cycle中采集的荧光图像中全部碱基类型的碱基信号采集单元的碱基信号采集单元位置应是相同的,因此,在一次基因测序中,根据碱基信号采集单元位置形成掩膜图,可以是指通过传统碱基信号采集单元检测定位算法对与不同碱基类型的测序信号响应对应的一组原始荧光图像进行处理,根据这一组原始荧光图像中的碱基信号采集单元位置的并集形成的位置数据矩阵或图像。
S205,根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对所述比对成功的碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别确定的对应碱基识别结果进行修正,经修正后得到作为所述训练样本的所述多通道样本图像的碱基类型标签。
根据在基因测序中针对测序芯片连续采集的原始荧光图像的碱基识别结果获得碱基序列,是指在一次基因测序中,根据不同cycle中采集到的荧光图像中对应碱基信号采集单元位置处的荧光强度识别其对应的碱基类型,根据各cycle中碱基信号采集单元的碱基类型形成的分别与各碱基信号采集单元位置对应的碱基序列,即碱基序列。基因测序中,针对碱基信号采集单元位置的检测定位、以及不同cycle中采集的荧光图像中基于碱基信号采集单元位置处的荧光强度识别其对应的碱基类型的准确性均不可避免会受到各种因素干扰,经初级碱基识别确定碱基类型的基础上,通过将获得碱基序列与已知基因库中标准碱基序列进行比对,在一条碱基序列中,只有与标准碱基序列相比超过比例的碱基识别正确时才能够比对成功,藉此可以找到样本中所有匹配上的链,针对匹配上的链,再根据基因库中的标准碱基序列对这些匹配的链中识别错误的碱基(低于比例的不匹配的碱基)进行校正,根据校正后的碱基序列再反向对经初级碱基识别得到的碱基类别结果进行修正,以修正并提升作为训练样本的多通道样本图像的碱基类型标签的质量。
在一个可选示例中,经初步碱基识别,得到碱基信号采集单元位置点A(2,2)、位置点B(3,3),此时,掩膜图为位置点A(2,2)、位置点B(3,3)为1,其余位置均为0的掩膜图像。根据基因测序中连续10个cycle采集的原始荧光图像的碱基识别结果,获得位置点A的碱基序列为ACGTGTCAGT、位置点B的碱基序列为ACAGTTCAGT;经与已知基因库中的标准碱基序列进行比对,筛选到与位置点A的碱基序列比对成功的标准碱基序列为ACCTGTCAGT,根据标准碱基序列将位置点A的碱基序列校正为ACCTGTCAGT,如此,根据校正后的碱基序列对基因测序中连续10个cycle采集的原始荧光图像的碱基识别结果进行修正,对其中第3个cycle中采集到的原始荧光图像的碱基识别结果中位置点A的碱基类型由原识别的碱基类型G修正为碱基类型C,也即,由第3个cycle中采集到的原始荧光图像形成的训练样本的碱基类型标签相应得到修正。
S207,根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到掩膜标签图像。
经初级碱基识别确定碱基类型的基础上,通过将获得碱基序列与已知基因库中标准碱基序列进行比对,在一条碱基序列中,只有与标准碱基序列相比超过比例的碱基识别正确时才能够比对成功,若经比对,筛选不到与其匹配的标准碱基序列,则视为在经初级碱基识别中,该条碱基序列对应的碱基信号采集单元位置的碱基类型的整体识别率不达要求,相应在掩膜图中删除未比对成功的碱基序列的碱基信号采集单元位置。对掩膜图进行修正,是指根据对未比对成功的碱基序列,将这条链的信息从训练样本的掩膜图中去除,如对经初级碱基识别得到的碱基信号采集单元位置所形成的掩膜图中将未比对成功的链的位置用0代替,避免错误数据对训练数据造成污染,提升训练样本质量。如前述示例中,经与已知基因库中的标准碱基序列进行比对,筛选不到与位置点B的碱基序列比对成功的标准碱基序列,如此,在掩膜图中将位置点B删除(位置点B从1变为0)以进行修正,得到修正后的掩膜标签图像为位置点A(2,2)值为1,其余位置均为0的掩膜图像。
上述实施例中,碱基识别的训练集中,训练样本包括分别与不同碱基类型的测序信号响应对应的多张原始荧光图像形成的多通道样本图像、多通道样本图像的碱基类型标签及掩膜标签图像,其中,训练样本是以不同碱基类别对应的多张荧光图像形成的一个多通道输入,从而碱基识别结果的预测能够保持碱基信号采集单元在多个通道上的亮度值的相对大小关系,对克服各种不确定因素导致的碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况均有较强的适应性,可以学习到更丰富的特征表示,进而可有效地提升碱基识别结果的准确性;多通道样本图像的碱基类型标签和掩膜标签图像,利用已知基因库中的标准碱基序列进行修正后得到,不仅有效地减小了训练样本的标注难度,而且能够提升训练样本的标注精度,更高精度的训练集有利于提升训练后的碱基识别模型的识别精度;掩膜标签图像的引入,利用掩膜策略可使得碱基识别模型的输出仅保留碱基信号采集单元位置的预测结果,有效消除背景噪声和干扰,进一步有利于提升碱基识别的准确性。
在一些实施例中,步骤S203中,对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图,包括:
针对至少一训练样本,对所述原始荧光图像经碱基信号采集单元检测定位算法处理确定碱基信号采集单元位置,根据碱基信号采集单元位置形成掩膜图;
根据所述碱基信号采集单元位置,对所述原始荧光图像中的碱基信号采集单元经碱基识别算法进行识别,得到碱基识别结果。
本申请实施例中,一个训练样本中包含的样本图像为与不同碱基类型的测序信号响应对应的多张原始荧光图像叠加形成的多通道样本图像。碱基信号采集单元位置是根据与不同碱基类型对应的一组原始荧光图像中碱基信号采集单元位置的并集得到,如此,可以是利用任一训练样本中的多张原始荧光图像的碱基信号采集单元位置的并集得到掩膜图。在一个基因测序流程中,不同循环内采集到的荧光图像所形成的所有训练样本,可共用同一掩膜图。对每一个训练样本中同组的多张原始荧光图像中的碱基识别结果,可以是对原始荧光图像中根据已检测定位的碱基信号采集单元位置处的荧光强度来识别其对应碱基类型,每一训练样本的碱基类型标签根据该对应的训练样本内包含的原始荧光图像的碱基类型的识别结果得到。如此,初级碱基识别,包括仅对一个cycle或几个cycle中采集的原始荧光图像中碱基信号采集单元的位置信息进行检测定位、以及对每一cycle中采集到的原始荧光图像中各碱基信号采集单元的碱基类型进行识别确定。
在一些实施例中,在步骤S205中,根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,包括:
针对在基因测序中对所述测序芯片连续采集的所述原始荧光图像,根据对应的所述掩膜图中所述碱基信号采集单元位置,分别对所述原始荧光图像中的碱基信号采集单元经碱基识别算法进行识别得到碱基识别结果,根据连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列;或,
针对在基因测序中对所述测序芯片连续采集的所述原始荧光图像,通过初步训练的碱基识别模型进行识别得到碱基识别结果,根据连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列。
本申请实施例中,训练样本的制作流程中,首先利用初级碱基识别得到的碱基识别结果形成碱基序列,再通过与已知基因库中的标准碱基序列进行比对以对训练样本中多通道样本图像的碱基类型标签、修正掩膜标签图像进行修正的校准方案中,初级碱基识别可以包括经传统碱基识别算法来对每一cycle中采集到的原始荧光图像中各碱基信号采集单元的碱基类型进行识别确定,也可以是采用通过初步训练后的碱基识别模型进行识别得到。其中,通过校准方案的设计,可以降低对作为训练样本的原始荧光图像中碱基类型的识别准确性要求,如此,可以先采用传统碱基识别算法获得的训练样本对初始构建的碱基识别模型进行训练,利用在未达到训练完成条件之前的初步训练的碱基识别模型来获得碱基识别结果,相对于作为所有训练样本的原始荧光图像的碱基识别结果均采用传统碱基识别算法得到的方式而言,可以大大地提升训练样本的制作效率。
在一些实施例中,步骤S201中,获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像,包括:
在基因测序中对多个碱基识别的对应多个循环内,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;
以每一所述循环中,分别与A、C、G、T四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组,每一训练样本中包括由一组所述原始荧光图像形成的多通道样本图像。
在碱基信号采集单元测序读段中,一个cycle对应各碱基信号采集单元的一个碱基识别,由于不同碱基类型对应不同荧光标记dNTP的荧光信号,与A、C、G、T四种类型碱基的测序信号响应分别对应的四张待测荧光图像,可以是在一个碱基识别的循环内分别采集4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光图像。一个碱基识别的循环中,分别与A、C、G、T四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组,针对每一循环,利用A、C、G、T 4种碱基类型在不同波段的光照射下亮度不同,相应对同一个视场(相同的芯片目标部位)采集A、C、G、T 4种碱基被4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光图像(4张灰度图像),每4张与A、C、G、T 4种碱基类型对应的荧光图像为一组,作为与一个cycle对应的一个训练样本,每一训练样本中包括对应组的四张荧光图像堆叠形成的多通道样本图像。
请参阅图7,本申请实施例另一方面,还提供一种碱基识别方法,包括:
S301,获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
S303,通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别模型为采用本申请实施例所述的碱基识别的训练集构建方法得到的训练样本对初始的神经网络模型进行训练后得到。
其中,待测荧光图像,是指测序流程中在测序阶段针对测序芯片表面拍摄的原始的荧光图像。多通道输入图像数据,相应与对碱基识别模型进行训练的训练样本中多通道样本图像的形式方式相同。采用本申请实施例所述的碱基识别的训练集构建方法得到的训练样本对初始的神经网络模型进行训练,训练完成后得到碱基识别模型。每一训练样本包括与不同碱基类型对应的多张荧光图像形成的多通道样本图像、多通道样本图像对应的碱基类型标签和掩膜标签图像。碱基识别模型以碱基类型标签为训练目标进行监督学习。在训练阶段,碱基识别模型从训练集中抽取训练样本进行迭代训练,每一次迭代训练中,以训练样本中与不同碱基类型的测序信号响应分别对应的多张原始荧光图像为一个多通道输入,分类预测网络基于当前权重参数计算和预测输入样本的碱基识别结果基于对应的碱基类型标签确定识别误差,通过掩膜标签图像快速从碱基识别结果中提取到对应碱基信号采集单元中心的位置处的碱基类型预测结果,以与对应样本的碱基类型标签对比判断是否符合,判断误差是否小于等于设定值,若误差大于设定值,则根据误差进行反向传播,优化特征提取网络和分类预测网络的权重参数;并再重复从训练数据集中抽取训练样本作为模型的输入进行下一次迭代训练,迭代往复循环,不断优化碱基识别模型的权重参数,直至分类预测网络基于当前权重参数计算检测得到的碱基识别结果基于对应的掩膜标签图像快速提取各碱基信号采集单元中心的位置处的碱基类型的识别误差小于设定值,即分类预测网络以碱基类型标签和掩膜标签图像为训练目标进行监督学习,直至损失函数收敛以得到训练后的碱基识别模型。
再利用训练后得到的碱基识别模型,对基因测序中各cycle中采集得到的待测荧光图像形成的多通道输入图像数据进行识别,可充分利用神经网络模型的自动学习优势,充分挖掘更多传统算法不能提取到的图像信息来提升识别精度,尤其是将同一cycle中与不同碱基类型的测序信号响应对应的多张待测荧光图像形成碱基识别模型的一个多通道输入,可充分保留多张待测荧光图像之间的微弱的亮度差信息,对于校正各种未知的生化或环境的影响造成的碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况均有较强的适应性,有效提升碱基识别精度。
在一些实施例中,请参阅图8,所述碱基识别模型包括特征提取网络和分类预测网络;所述通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据对应的碱基识别结果,包括:
通过所述碱基识别模型的所述特征提取网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;
通过所述分类预测网络以所述特征提取网络输出的所述特征图为输入,基于所述特征图对各通道输入图像数据中各像素点是否为相应碱基类型的碱基信号采集单元中心进行分类预测,根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别结果包括各碱基信号采集单元中心的位置处分别所属碱基类型的识别结果。
请结合参阅图9和图10,特征提取网络以多通道输入图像数据为一个多通道输入,对图像进行特征提取得到特征图。分类预测网络以特征图为输入,基于所述特征图对各通道输入图像数据中各像素点是否为碱基信号采集单元中心进行分类预测,根据分类预测结果通过输出通道分别输出与各通道输入图像数据对应的碱基识别结果。
其中,碱基识别模型输出的与各通道输入图像数据对应的碱基识别结果可以有不同呈现形式,如可以采用多路或单路输出。多路输出是指,输出与多个输入通道的图像数据分别一一对应的多通道识别结果,如,通道1的识别结果是当前循环内A碱基类型的碱基信号采集单元的识别结果,通道2的识别结果是当前循环内C碱基类型的碱基信号采集单元的识别结果,通道3的识别结果是当前循环内G碱基类型的碱基信号采集单元的识别结果,通道4的识别结果是当前循环内T碱基类型的碱基信号采集单元的识别结果。单路输出是指,输出基于多个输入通道的图像数据分别对应的多通道识别结果所形成的包括全部碱基类型的碱基信号采集单元位置及其碱基类型的单通道识别结果,如,根据对各通道输入图像数据处理得到的分别对应的A碱基类型的识别结果、C碱基类型的识别结果、G碱基类型的识别结果、T碱基类型的识别结果的并集,形成当前循环内一个同时包含A、C、G、T碱基信号采集单元的识别结果。
进一步的,碱基识别结果可以有不同呈现形式,还体现在表征碱基信号采集单元的识别结果的形式可以是标识有当前循环内各碱基信号采集单元的碱基类型的数据矩阵、或标识有各碱基信号采集单元的碱基类型的图像。以多路输出为例,每一路输出对应一个碱基类型的碱基信号采集单元的识别结果,通道1可以是A碱基类型的碱基信号采集单元中心的位置信息的坐标数据矩阵,从而通道1输出的坐标数据矩阵表示的当前循环内对A碱基类型的碱基信号采集单元的识别结果;与此同理,通道2的坐标数据矩阵则对应C碱基类型的碱基信号采集单元的识别结果,通道3的坐标数据矩阵则对应G碱基类型的碱基信号采集单元的识别结果,通道4的坐标数据矩阵则对应T碱基类型的碱基信号采集单元的识别结果。再以单路输出为例,根据通道1、2、3、4得到的A、C、G、T的识别结果,形成当前循环的一个包含全部碱基类型的碱基信号采集单元中心的相应位置处标识有碱基类型标签的坐标数据矩阵。需要说明的是,虽然碱基识别模型的输出包含了碱基信号采集单元中心的坐标数据矩阵,但是表达的是识别到了当前循环内不同碱基信号采集单元中心处所属的碱基类型,实现的是碱基类型识别。
上述坐标数据矩阵,可采用其它能够表征各碱基信号采集单元中心处所属碱基类型的形式,如表示像素点是否为某一碱基类型的碱基信号采集单元中心所在位置的概率数据矩阵,碱基信号采集单元中心所在位置处的概率值表示的是该碱基信号采集单元属于A、C、G或T碱基类型的概率。
而表征各碱基信号采集单元中心处所属碱基类型的其它形式也可以是图像形式,如根据坐标数据矩阵、概率数据矩阵所获得的A、C、G、T碱基类型的碱基信号采集单元中心的位置,直接输出当前循环的各碱基信号采集单元中心的位置处标注有碱基类型标签的荧光图像。
根据上述提供的碱基识别结果的多种可能呈现形式,可知碱基识别模型输出与各通道输入图像数据对应的碱基识别结果,是针对当前循环内采集的多张待测荧光图像经碱基识别模型的处理后,得到的能够知晓当前循环内各碱基信号采集单元中心的位置处分别所属的碱基类型的碱基识别结果,其可以不限于某一种具体形式,在此不做限制。
以表征各碱基信号采集单元中心处所属碱基类型的形式为概率数据矩阵为例,如图10所示,每个通道代表一个碱基类型,分类预测网络通过多个输出通道分别输出的与各通道对应的碱基识别结果,包括与相应通道输入图像数据中各像素点属于相应类型碱基的碱基信号采集单元中心的概率,这里,各输出通道分别输出的概率矩阵可以直接作为碱基识别结果,每一通道输出的概率矩阵用以表征相应类型碱基的碱基信号采集单元中心的位置,如图10中仅示出的通道A的概率数据矩阵,在本示例中,输出通道1、2、3、4分别与A、C、G、T4种碱基类型对应,输出通道1的碱基识别结果相应为A碱基类型的位置参数(2,2)处概率值为0.95、(4,4)处概率值为0.9的概率参数矩阵。在另一些实施例中,根据多个通道分别得到的概率矩阵可进一步确定全部碱基信号采集单元中心的位置处分别所属的碱基类型,得到相应通道输入图像数据中各碱基信号采集单元中心的位置处标注有碱基类型标签其它表现形式的碱基识别结果,如,输出通道1、2、3、4分别与A、C、G、T 4种碱基类型对应,碱基识别结果为碱基信号采集单元中心位置点(2,2)处的碱基类型标签为1、碱基信号采集单元中心位置点(4,4)处的碱基类型标签为1、碱基信号采集单元中心位置点(3,2)处的碱基类型标签为3、碱基信号采集单元中心位置点(1,4)处的碱基类型标签为4的坐标数据矩阵。
在一些实施例中,所述分类预测结果包括各通道输入图像数据中各像素点为相应类型碱基的碱基信号采集单元中心的概率,所述多通道输入图像数据中同一位置处的所述像素点的概率之和为1;所述根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果,包括:
根据所述分类预测结果分别确定各通道输入图像数据分别对应的碱基类型的碱基信号采集单元中心的位置处的所述像素点的概率最大值确定其所属碱基类型;
所述输出通道分别输出各通道输入图像数据分别对应的碱基类型的碱基信号采集单元的碱基信号采集单元中心的坐标数据矩阵、概率数据矩阵或荧光图像;或,所述输出通道根据各通道输入图像数据输出包含各碱基信号采集单元中心的位置处分别所属碱基类型的碱基类型标签的坐标数据矩阵、概率数据矩阵或荧光图像。
多个输出通道分别与多个碱基类型一一对应,对于同一组多通道输入图像数据而言,多张图像中同一位置的像素点分别表示是否为相应碱基类型的碱基信号采集单元中心的概率,且同组的多张图像中同一碱基信号采集单元中心的位置处的像素点的概率之和为1。如图10所示,分类预测网络通过输出通道分别输出的与每一通道对应的碱基识别结果,包括相应通道输入图像数据中各像素点属于相应类型碱基的碱基信号采集单元中心的概率,根据概率可确定碱基信号采集单元中心的位置处是否为相应类型碱基,得到相应通道输入图像数据中包含的相应类型碱基的碱基信号采集单元中心的坐标数据矩阵,与此同时,可根据碱基信号采集单元中心处对应的概率的最大值确定其碱基类型。在一个示例中,输出通道1、2、3、4分别与A、C、G、T 4种碱基类型对应,输出通道1的碱基识别结果中坐标参数(2,2)处的像素点对应概率为0.95,输出通道2的碱基识别结果中坐标参数(2,2)处的像素点对应概率为0,输出通道3的碱基识别结果中坐标参数(2,2)处的像素点对应概率为0.25,输出通道4的碱基识别结果中坐标参数(2,2)处的像素点对应概率为0.25,由此,输出通道1的碱基识别结果为坐标参数(2,2)处的碱基类型为类别标签1,表示碱基类型A的坐标数据矩阵。
在一些实施例中,所述特征提取网络包括初级卷积层和Dense block网络层;所述通过所述碱基识别模型的所述特征提取网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图,包括:
通过所述特征提取网络的所述初级卷积层对所述多通道输入图像数据进行特征提取;通过所述Dense block网络层对所述初级卷积层提取到的初级特征进行处理,其中,所述Dense block网络层包括依序连接的多个Dense block,所述Dense block内的每一卷积层均以在先的卷积层的输出的并集为输入,通过最后一个Dense block输出与所述多通道输入图像数据对应的特征图。
初级卷积层通过卷积核的数量、步长和padding的设置,以保持特征图的空间尺寸,用于提取初级特征。在一个示例中,初级卷积层中,每一卷积核为3x3,步长为1,padding为1,输出通道数设置为64。Dense block网络层对初级卷积层提取到的初级特征图进行处理,与初级卷积层共同形成特征提取网络对多通道输入图像的两级特征提取。Dense block网络层包括依序连接的过6个Dense block。请参阅图11,在一个示例中,在每个Denseblock中,可以包含6个卷积层,每个卷积层使用3x3大小的卷积核,步长为1,padding为1,以保持特征图的空间尺寸,每个卷积层的输出通道数都设为16,因此每个Dense block的输出通道数为96。其中,Dense block网络层中,Dense block中每一卷积层均以在先的卷积层的输出并集为输入的特点,将与不同碱基类型对应的同组荧光图像之间的亮度对比信息充分挖掘出来以提取得到图像特征,将提取到的高级特征输送到分类预测网络,如此,能够充分考虑到所有通道的图像信息,能够保持同组内多张荧光图像之间原有亮度比例来获得更准确的碱基识别结果。
本申请实施例中,通过以与不同类型碱基对应的多张荧光图像形成一个多通道的输入,不同通道的亮度值代表了不同的生物信息,而特征提取网络的特征提取保留了不同通道之间的亮度值的相对大小关系,从而可保持原有的生物信息得到更准确的结果。
在一些实施例中,所述碱基识别模型的损失函数为交叉熵损失函数,所述交叉熵损失函数表示如下:
其中,C是类别的数量,y是真实标签的one-hot编码,p是模型预测的概率分布。
交叉熵损失函数(CE Loss),用于度量碱基识别模型预测的碱基类别概率分布和真实的碱基类别概率分布之间的差异,交叉熵损失函数的目标是最小化预测概率分布和真实概率分布之间的交叉熵,让分类预测网络预测的碱基类别尽可能接近真实的碱基类别。
为了能够对本申请实施例所提供的碱基识别方法及其训练集构建方法具有更加整体的理解,请参阅图12,下面通过一具体示例进行说明,其中,碱基识别的训练集构建方法包括:
S11,制作训练样本。其中,训练样本中标签数据的制作包括:
1、首先采用传统的碱基识别算法对训练所用的样本图像进行碱基识别(Basecall),得到样本图像中每个cluster的碱基类别。A、C、G、T类别分别用1,2,3,4。
2、采用初步训练的碱基识别模型,对训练所用的样本图像进行碱基识别得到样本图像中每个cluster的碱基类别;初步训练的碱基识别模型的训练样本可通过方式1制得,但还未训练完成。
3、对经方式1传统算法或经方式2模型识别得到的碱基类别结果和已知基因库的标准序列进行比对,在一条链中,只有当大部分的碱基识别正确时才能够比对成功,通过这种方法,能够找到样本图中所有匹配上的链。
4、即使是匹配上的链中,也有少部分碱基识别错误,根据基因库中的标准序列对这些链中识别错误的碱基进行校正,得到校正后的链,使得校正后的链中,所有的碱基类别都是正确的,可以作为训练时的碱基类型标签数据使用。
5、通过业内成熟的cluster检测算法检测和定位图像中的cluster的位置并得到一个与原图尺寸相同的掩膜图,即有cluster的中心位置为1,无cluster的背景区域为0,在掩膜图中,将上一步得到的碱基类别填写到对应位置(掩膜中为1的位置),得到训练用的掩膜标签图像。
6、对未比对成功的链,则将这条链的信息从训练数据集和标签数据中去除,即在掩膜中将其位置用0代替,避免错误的数据对整体数据造成污染。
7、方式1或方式2中的样本图像,可以是针对每一cycle分别拍摄四张碱基类型的多张荧光图像所对应形成的多通道输入。
S12,通过训练样本形成训练集。其中,一个训练集,可以包括一次基因测序流程中针对多个连续cycle中采集的原始荧光图像按照S11制作形成的训练样本。
所述碱基识别方法,包括:
S13,构建初始的神经网络模型,通过训练集对神经网络模型进行训练,得到碱基识别模型。其中,初始的神经网络模型的架构如图7所示。对初始的神经网络模型的训练过程主要包括如下部分:
1、输入
将与4种碱基类型对应的4张荧光图像在通道维度堆叠起来形成一个4通道的输入数据,其维度为(4,H,W)其中H,W为训练用的图像的高和宽。
2、特征提取
初级卷积层:输入的荧光图像首先经过一个卷积层,此处可以使用3x3大小的卷积核,步长为1,padding为1,以保持特征图的空间尺寸,此层的输出通道数设置为64,用于提取初级特征。Dense blocks:初级特征图通过6个Dense blocks进行处理。在每个Denseblock中,可以包含6个卷积层,每个卷积层使用3x3大小的卷积核,步长为1,padding为1,以保持特征图的空间尺寸。每个卷积层的输出通道数都设为16,每个Dense block的输出通道数为96。将Dense blocks提取到的高级特征输送到Basecall网络。
4、Basecall网络
Basecall卷积层:包含两个卷积层,用于将高级特征图转换为Basecall结果。卷积核大小为3x3,步长为1,padding为1。最后一个卷积层的输出通道数等于预测的类别数。
以上所有卷积、反卷积层均采用Relu作为激活函数。
5、损失函数
使用CE Loss作为损失函数。
S14,采集针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像,形成一个多通道输入图像数据输入碱基识别模型,通过特征提取网络进行特征提取,由分类预测网络输出对应的碱基识别结果。
上述实施例中,训练集的构建引入先经初级碱基识别,再利用标准碱基序列对训练样本的碱基类型标签进行修正的技术思路,可以减小模型训练所使用的数据标注的难度,提升训练样本的精度,可以提高模型对未成功比对的数据的学习能力,从而提高模型对所有碱基信号采集单元的识别能力。碱基识别模型采用与不同碱基类型的测序信号响应对应的多张荧光图像堆叠形成一个多通道输入进行图像特征提取的技术思路,可以有效保留同组荧光图像之间的原有亮度对比信息来提升碱基类型的识别精度,提升对未知的生化或者环境的影响造成的碱基信号采集单元之间的亮度干扰的矫正能力。对碱基识别结果的输出引入掩膜标签图像的策略,可仅保留碱基信号采集单元中心位置的预测结果,有效地将模型的注意力集中到了重要的区域,消除了可能的背景噪声和干扰,对于提升碱基结果的准确性、模型训练阶段损失函数的更快速收敛、以及模型识别应用阶段提升碱基识别的效率均起到了积极的效果。
本申请另一方面提供一种基因测序仪。请参阅图13,为本申请实施例提供的基因测序仪的一个可选的硬件结构示意图,所述基因测序仪包括处理器111及与所述处理器111连接的存储器112,存储器112内存储有用于实现本申请任一实施例提供的碱基识别的训练集构建方法的计算机程序,以使得相应所述计算机程序被所述处理器执行时,实现本申请任一实施例提供的碱基识别的训练集构建方法的步骤、或存储器112内存储有用于实现本申请任一实施例提供的碱基识别方法的计算机程序,以使得相应所述计算机程序被所述处理器执行时,实现本申请任一实施例提供的碱基识别方法的步骤,加载有相应计算机程序的基因测序仪中与对应的方法实施例具有相同的技术效果,为避免重复,这里不再赘述。
本申请实施例另一方面,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述碱基识别的训练集构建方法实施例、或碱基识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机、计算机,服务器,或网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围之内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (11)

1.一种碱基识别的训练集构建方法,其特征在于,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像;
对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图;
根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对所述比对成功的碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别确定的对应碱基识别结果进行修正,经修正后得到作为所述训练样本的所述多通道样本图像的碱基类型标签;
根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到掩膜标签图像。
2.如权利要求1所述的碱基识别的训练集构建方法,其特征在于,所述对所述原始荧光图像经初级碱基识别,得到碱基识别结果,并根据碱基信号采集单元位置形成掩膜图,包括:
针对至少一训练样本,对所述原始荧光图像经碱基信号采集单元检测定位算法处理确定碱基信号采集单元位置,根据碱基信号采集单元位置形成掩膜图;
根据所述碱基信号采集单元位置,对所述原始荧光图像中的碱基信号采集单元经碱基识别算法进行识别,得到碱基识别结果。
3.如权利要求1所述的碱基识别的训练集构建方法,其特征在于,所述根据在基因测序中针对所述测序芯片连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列,包括:
针对在基因测序中对所述测序芯片连续采集的所述原始荧光图像,根据对应的所述掩膜图中所述碱基信号采集单元位置,分别对所述原始荧光图像中的碱基信号采集单元经碱基识别算法进行识别得到碱基识别结果,根据连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列;或,
针对在基因测序中对所述测序芯片连续采集的所述原始荧光图像,通过初步训练的碱基识别模型进行识别得到碱基识别结果,根据连续采集的所述原始荧光图像的所述碱基识别结果获得碱基序列。
4.如权利要求1所述的碱基识别的训练集构建方法,其特征在于,所述获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,将分别与不同碱基类型的测序信号响应对应的多张原始荧光图像为一个训练样本的多通道样本图像,包括:
在基因测序中对多个碱基识别的对应多个循环内,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;
以每一所述循环中,分别与A、C、G、T四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组,每一训练样本中包括由一组所述原始荧光图像形成的多通道样本图像。
5.一种碱基识别方法,其特征在于,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别模型为采用如权利要求1至4任一项所述的碱基识别的训练集构建方法得到的训练样本对初始的神经网络模型进行训练后得到。
6.如权利要求5所述的碱基识别方法,其特征在于,所述碱基识别模型包括特征提取网络和分类预测网络;所述通过碱基识别模型以所述多通道输入图像数据为输入,对所述原始荧光图像进行识别,输出与各通道输入图像数据对应的碱基识别结果,包括:
通过所述碱基识别模型对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;
通过所述分类预测网络以所述特征提取网络输出的所述特征图为输入,基于所述特征图对各通道输入图像数据中各像素点是否为相应碱基类型的碱基信号采集单元中心进行分类预测,根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别结果包括各碱基信号采集单元中心的位置处分别所属碱基类型的识别结果。
7.如权利要求6所述的碱基识别方法,其特征在于,所述分类预测结果包括各通道输入图像数据中各像素点为相应类型碱基的碱基信号采集单元中心的概率,所述多通道输入图像数据中同一位置处的所述像素点的概率之和为1;所述根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果,包括:
根据所述分类预测结果分别确定各通道输入图像数据分别对应的碱基类型的碱基信号采集单元中心的位置处的所述像素点的概率最大值确定其所属碱基类型;
所述输出通道输出各通道输入图像数据分别对应的碱基类型的碱基信号采集单元的碱基信号采集单元中心的坐标数据矩阵、概率数据矩阵或荧光图像;或,所述输出通道根据各通道输入图像数据输出包含各碱基信号采集单元中心的位置处分别所属碱基类型的碱基类型标签的坐标数据矩阵、概率数据矩阵或荧光图像。
8.如权利要求6所述的碱基识别方法,其特征在于,所述特征提取网络包括初级卷积层和Dense block网络层;所述通过所述碱基识别模型的所述特征提取网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图,包括:
通过所述特征提取网络的所述初级卷积层对所述多通道输入图像数据进行特征提取;通过所述Dense block网络层对所述初级卷积层提取到的初级特征进行处理,其中,所述Dense block网络层包括依序连接的多个Dense block,所述Dense block内的每一卷积层均以在先的卷积层的输出的并集为输入,通过最后一个Dense block输出与所述多通道输入图像数据对应的特征图。
9.如权利要求5所述的碱基识别方法,其特征在于,所述碱基识别模型的损失函数为交叉熵损失函数,所述交叉熵损失函数表示如下:
其中,C是类别的数量,y是真实标签的one-hot编码,p是模型预测的概率分布。
10.一种基因测序仪,其特征在于,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的碱基识别的训练集构建方法、或实现如权利要求5至9中任一项所述的碱基识别方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的碱基识别的训练集构建方法、或实现如权利要求5至9中任一项所述的碱基识别方法。
CN202311222846.5A 2023-09-20 2023-09-20 碱基识别方法及其训练集构建方法、基因测序仪及介质 Pending CN117274739A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311222846.5A CN117274739A (zh) 2023-09-20 2023-09-20 碱基识别方法及其训练集构建方法、基因测序仪及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311222846.5A CN117274739A (zh) 2023-09-20 2023-09-20 碱基识别方法及其训练集构建方法、基因测序仪及介质

Publications (1)

Publication Number Publication Date
CN117274739A true CN117274739A (zh) 2023-12-22

Family

ID=89200242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311222846.5A Pending CN117274739A (zh) 2023-09-20 2023-09-20 碱基识别方法及其训练集构建方法、基因测序仪及介质

Country Status (1)

Country Link
CN (1) CN117274739A (zh)

Similar Documents

Publication Publication Date Title
US8182993B2 (en) Methods and processes for calling bases in sequence by incorporation methods
US10023911B2 (en) Methods and processes for calling bases in sequence by incorporation methods
CN116994246B (zh) 基于多任务联合的碱基识别方法及装置、基因测序仪及介质
US20150125053A1 (en) Image analysis useful for patterned objects
CN117274614A (zh) 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质
WO2023115550A1 (en) Deep learning based methods and systems for nucleic acid sequencing
US10740883B2 (en) Background compensation
CN109117796A (zh) 碱基识别方法及装置、生成彩色图像的方法及系统
CN113012757B (zh) 识别核酸中的碱基的方法和系统
CN109564189A (zh) 电泳图谱分析
CN116596933B (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
CN108369734B (zh) 数字图像中的对象分类方法、系统及计算机可读介质
CN117274739A (zh) 碱基识别方法及其训练集构建方法、基因测序仪及介质
CN117392673B (zh) 碱基识别方法及装置、基因测序仪及介质
CN117523559B (zh) 碱基识别方法及装置、基因测序仪及存储介质
CN117237198B (zh) 基于深度学习的超分辨测序方法及装置、测序仪及介质
US7085404B2 (en) Image analysis system and method of biochip
CN117877025A (zh) 三维碱基识别方法及装置、基因测序仪及存储介质
WO2023097685A1 (zh) 核酸样本的碱基识别方法及装置
US20230087698A1 (en) Compressed state-based base calling
CN117976042A (zh) 确定读段质量分数的方法、测序方法及装置
WO2024059852A1 (en) Cluster segmentation and conditional base calling
KR100437253B1 (ko) 마이크로어레이 모사 이미지 생성 시스템 및 그 방법
WO2023049215A1 (en) Compressed state-based base calling
CN117672343A (zh) 测序饱和度评估方法及装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination