CN116994246A - 基于多任务联合的碱基识别方法及装置、基因测序仪及介质 - Google Patents

基于多任务联合的碱基识别方法及装置、基因测序仪及介质 Download PDF

Info

Publication number
CN116994246A
CN116994246A CN202311212582.5A CN202311212582A CN116994246A CN 116994246 A CN116994246 A CN 116994246A CN 202311212582 A CN202311212582 A CN 202311212582A CN 116994246 A CN116994246 A CN 116994246A
Authority
CN
China
Prior art keywords
base
recognition
image
channel
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311212582.5A
Other languages
English (en)
Other versions
CN116994246B (zh
Inventor
彭宽宽
陈伟
周祎楠
王谷丰
赵陆洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailu Medical Technology Co ltd
Original Assignee
Shenzhen Sailu Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailu Medical Technology Co ltd filed Critical Shenzhen Sailu Medical Technology Co ltd
Priority to CN202311212582.5A priority Critical patent/CN116994246B/zh
Publication of CN116994246A publication Critical patent/CN116994246A/zh
Application granted granted Critical
Publication of CN116994246B publication Critical patent/CN116994246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/693Acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)

Abstract

本申请提供一种基于多任务联合的碱基识别方法及装置、基因测序仪及介质,所述方法包括:获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。

Description

基于多任务联合的碱基识别方法及装置、基因测序仪及介质
技术领域
本申请涉及基因测序技术领域,尤其涉及一种基于多任务联合的碱基识别方法及装置、基因测序仪及计算机可读存储介质。
背景技术
目前,基因测序技术主要可分为四代,第一代测序技术Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法,由Sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以Illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是Nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssDNA或RNA模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。
第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像信号来获得碱基序列。为了实现对不同碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征。同一场景下需要拍摄多张图像,通过对这些图像进行定位和配准,提取点信号并进行亮度信息分析处理,得到碱基序列。随着二代测序技术的发展,测序仪产品现在都配有实时处理测序数据的软件。不同的测序平台会采用不同的光学系统和荧光染料,因此荧光分子发光的频谱特征会有差异。如果算法无法得到适当的特征或者找到合适的参数以处理这些不同的特征,就可能导致碱基分类出现较大误差,从而影响测序质量。
此外,二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,如图1。通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,如图2。在DNA测序中,常用的荧光标记为四种,将这四种荧光标记同时加入一个循环(Cycle)中,并利用相机拍摄荧光信号的图像。由于每个荧光标记都对应一种特定的波长,因此我们能够在图像中分离出不同荧光标记对应的荧光信号,进而得到对应的荧光图像,如图3。在此过程中,可以对相机进行对焦调整以及采样参数设置,以确保所得到的TIF灰度图像质量达到最优。然而,在实际应用过程中,荧光图像中碱基簇的亮度总是受到多种因素的干扰,主要包括图像内碱基簇的之间的串扰(Spatial Crosstalk),通道内的串扰(Crosstalk)和周期间的串扰(Phasing、Prephasing)。已知的碱基识别技术主要是对串扰和强度进行归一化,但矫正方法不尽相同。通过每个周期内的crosstalk矩阵和phasing与prephasing比率来矫正荧光光强度值,去除串扰噪声,然后通过4个通道的光强值来识别碱基,如图4。然而,现有的碱基识别技术只能对已知的亮度干扰因素,如通道间的亮度串扰,cycle间提前反应或延迟反应导致的phasing和prephasing现象进行矫正,无法校正其它未知的生化或者环境的影响造成的亮度干扰,导致识别精度不高,当样本密度越高时,碱基簇越密集,碱基簇之间的亮度串扰越严重,导致测序准确度大大降低。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种能够克服碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况从而有效提升碱基识别精度的基于多任务联合的碱基识别方法及装置、基因测序仪及计算机可读存储介质。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种基于多任务联合的碱基识别方法,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;
通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;
通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。
第二方面,本申请实施例提供一种基于多任务联合的碱基识别装置,包括:
获取模块,用于获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
多任务联合识别模型,通过主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;通过图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。
第三方面,本申请实施例提供一种基因测序仪,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如本申请任一实施例所述的基于多任务联合的碱基识别方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任一实施例所述的基于多任务联合的碱基识别方法。
上述实施例中,通过多任务联合识别模型的设计,将分别与不同碱基类型的测序信号响应对应的多张待测荧光图像作为多任务联合识别模型的多通道输入图像数据,多任务联合识别模型包括以主干网络提取到的特征图作为输入的图像重建分支网络和碱基识别分支网络,通过将图像重建任务和碱基识别任务作为联合任务,主干网络在模型训练阶段同时依赖于图像重建分支网络和碱基识别网络的反向传播而改进特征提取精度,如此,在多任务联合识别模型可通过图像重建分支网络基于主干网络提取到的特征图以输出图像质量指标参数提升的重建图像的输出结果的基础上,碱基识别分支网络输出碱基识别结果,使得碱基识别结果的输出可相当于图像质量指标参数提升的图像的特征图得到的碱基类别结果,重建图像的输出也相当于依赖可获得准确的碱基类别结果的特征图而得到的重建图像,多任务联合识别模型的主干网络可以学习到更丰富的特征表示,对克服碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况均有较强的适应性,进而可有效地提升碱基识别结果的准确性。
上述实施例中,基于多任务联合的碱基识别装置、基因测序仪及计算机可读存储介质与对应的基于多任务联合的碱基识别方法实施例属于同一构思,从而与对应的基于多任务联合的碱基识别方法实施例具有相同的技术效果,在此不再赘述。
附图说明
图1为一实施例中不同荧光分子的荧光信号波长的分布示意图;
图2为一实施例中拍摄装置采集荧光图像,其中,拍摄装置利用滤光片选择性地过滤掉非特定波长的光线,以获得特定波长荧光信号的图像的原理示意图;
图3为一实施例中与A、C、G、T四种碱基类型的测序信号响应对应的四张荧光图像的示意图、以及其中一张荧光图像的局部放大示意图;
图4为一实施例中已知的碱基识别流程图;
图5为一实施例中芯片及芯片上碱基信号采集单元的示意图;
图6为一实施例中基于多任务联合的碱基识别方法的流程图;
图7为一实施例中多任务联合识别模型的模型架构图;
图8为一实施例中多任务联合识别模型的工作原理示意图;
图9为图8中碱基识别分支网络的工作原理示意图;
图10为一实施例中主干网络的结构示意图;
图11为一可选的具体示例中基于多任务联合的碱基识别方法的流程图;
图12为一实施例中基于多任务联合的碱基识别装置的结构示意图;
图13为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本申请技术方案做进一步的详细阐述。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,需要说明的是,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一、第二、第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一、第二、第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
第二代基因测序技术,又称下一代测序技术(Next-generation Sequencing,NGS),可以一次对几十万到几百万条DNA分子进行序列测定。已知的二代测序仪普遍是以光学信号记录碱基信息,通过光信号转化为碱基序列,而其中图像处理和荧光定位技术产生的碱基簇位置是后续芯片模板点位置的参考,因此图像处理和荧光定位技术,同碱基序列数据的准确性有直接关系。本申请实施例提供的基于多任务联合的碱基识别方法,是针对基于荧光标记dNTP基因测序中针对测序芯片采集的荧光图像作为输入数据,主要应用于第二代基因测序技术。其中,荧光标记,是一种采用光信号的测量技术,在工业上常用于DNA测序,细胞标记,药物研究等领域。二代测序仪所采用的基因测序光信号法,是利用不同波段荧光标记不同的碱基,通过滤光片过滤,特定碱基连接成功会激发特定波长的光,最后识别为待测DNA碱基序列。这种通过采集光信号生成图像,再转变成碱基序列的技术则为第二代基因测序技术的主要原理。
二代测序仪,以Illumina测序仪为例,其测序流程主要包括样本准备、簇生成、测序及数据分析四个阶段。
样本准备,也就是文库构建,是指将待测基本组DNA打断形成大量DNA片段、将各DNA片段两端加接头(adapter),接头内分别包含测序结合位点、indices(标识DNA段来源的信息)、与测序芯片(Flowcell)上的寡聚核苷酸互补的特定序列。
簇生成,也就是通过把文库种到Flowcell上,利用桥式DNA扩增,一个DNA片段形成一个碱基簇。
测序,是指针对Flowcell上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮集团,可以在测序的链延伸时候阻止聚合,确保一个循环(cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。一次循环中,针对每一碱基簇通过荧光标记dNTP识别一个碱基,通过特定颜色的荧光信号分别对应不同碱基类型的测序信号响应,通过激光扫描可根据发出的荧光颜色来判断当前循环内针对每一碱基簇对应的是哪个碱基。一次循环中,数以千万的碱基簇在Flowcell被同时测序,一个荧光点代表一个碱基簇发出的荧光,一个碱基簇则对应fastq当中的一条read。在测序阶段,通过红外相机拍摄Flowcell表面的荧光图像,对荧光图像进行图像处理和荧光点位置定位进行碱基簇检测,根据与不同碱基类型的测序信号响应对应的多张荧光图像的碱基簇检测结果进行模板构建,构建出Flowcell上所有碱基簇模板点(cluster)的位置。根据模板,对滤波后图像进行荧光强度的提取,然后对荧光强度进行矫正,最终根据各碱基簇模板点位置的最大强度识别碱基计算得分,输出fastq碱基序列文件。请参阅图5,分别为Flowcell示意图(图5中的(a))、一次循环中针对Flowcell上相应部位拍摄的荧光图像(图5中的(b))、及fastq文件中测序结果显示的示意图(图5中的(c))。
数据分析,通过对代表所有DNA片段的数百万个read进行分析,对应每个样本,来自同一文库的碱基序列,可通过在文库构建过程中引入的接头中独特的index进行聚类,reads被配对生成连续序列,连续序列与参考基因组进行比对用于突变识别。
需要说明的是,上述是以Illumina测序技术作为大规模平行测序技术(MPS)的一种示例对测序流程进行说明,通过将待测DNA分子通过特定的扩增技术进行扩增,针对每一DNA片段(单链文库分子)扩增形成碱基簇,以碱基簇检测结果构建测序芯片上碱基簇的模板点,以便于后续能够根据碱基簇的模板点进行碱基识别等操作,提升碱基识别效率和准确性。可以理解的是,本申请实施例所提供的基于多任务联合的碱基识别方法,是基于测序芯片上单链文库分子扩增后的碱基簇进行定位检测和碱基类型识别,这里,每个碱基簇即指一个碱基信号采集单元,从而其并不受限于针对单链文库分子所采用的哪一种扩增技术,也即,本申请实施例所提供的基于多任务联合的碱基识别方法,同样可以适用于其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的碱基类型识别,比如,碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇,也包括通过滚环扩增技术(RCA, Rolling Circle Amplification)得到的纳米球,等等,本申请对此不作限制。
请参阅图6,为本申请一实施例提供的基于多任务联合的碱基识别方法,包括如下步骤:
S101,获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据。
其中,每一待测荧光图像中各荧光点与对应类型的碱基的各碱基信号采集单元一一对应。碱基类型,通常是指A、C、G、T四种碱基类型。由于不同碱基类型是对应不同荧光标记dNTP的荧光信号,不同荧光标记dNTP的碱基信号采集单元之间没有交集,针对每一碱基类型的测序信号响应对应的待测荧光图像,相应包含测序芯片中相应部位处包含的同一种碱基类型的碱基信号采集单元。获取针对测序芯片的目标部位分别与不同碱基类型的测序信号响应对应的多张原始荧光图像,每张荧光图像包括一种碱基类型的碱基信号采集单元的位置信息,根据多张荧光图像中各自分别包含的碱基信号采集单元的位置信息,能够得到测序芯片的目标部位处包含的完整的多个类型碱基信号采集单元的位置信息。目标部位可以是测序芯片表面的某一局部位置,也可以是测序芯片的表面整体,通常与一张荧光图像能够包含的成像区域范围相关。
待测荧光图像,是指测序流程中在测序阶段针对测序芯片表面拍摄的原始的荧光图像。本实施例中,A、C、G、T碱基分别对应4个不同荧光标记dNTP的荧光信号,4个不同荧光标记dNTP的碱基信号采集单元之间理论上没有交集。获取针对测序芯片的目标部位分别与不同碱基类型的测序信号响应对应的多张原始图像,是指针对同一测序芯片目的标部位分别拍摄4个不同荧光标记dNTP的荧光信号对应的荧光图像,利用A、C、G、T 4种碱基在不同波段的光照射下亮度不同,相应对同一个视场(测序芯片的同一目标部位)采集A、C、G、T 4种碱基被4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光图像(4张原始的荧光图像),作为与不同碱基类型的测序信号响应对应的多张待测荧光图像。
以与不同碱基类型的测序信号响应对应的多张待测荧光图像为一组,沿通道维度堆叠形成一个多通道输入图像数据。如,与A、C、G、T 4种碱基类型的测序信号响应对应的四张待测荧光图像沿通道维度堆叠,形成一个4通道输入图像数据,其维度可表示为(4,H,W),其中,H,W为待测荧光图像的高和宽。
S103,通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图。
多任务联合识别模型,是指将图像重建和碱基识别作为联合任务,通过对多任务神经网络进行训练后得到的深度学习模型。请参阅图7,多任务联合识别模型包括主干网络、与主干网络连接的图像重建分支网络和碱基识别分支网络。其中,主干网络以多通道输入图像数据为输入对图像特征进行提取,得到对应的特征图以分别作为图像重建分支网络和碱基识别分支网络的输入。
S105,通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像。
图像质量指标,主要是指反映图像的逼真度和可读懂性的相关指标,如分辨率、色彩深度、图像失真等方面。通常,图像质量可取决于拍摄装置的光学性能、图像对比度、仪器噪声等多种因素的影响。预设图像质量指标参数,可以是表征图像质量的参数中的一个或多个,如分辨率、对比度等。在一个可选示例中,预设图像质量指标参数是指分辨率,图像重建分支网络以主干网络提取到的特征图为输入,输出与各通道输入图像数据分别对应的多张超分辨率重建图像。
S107,通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。
碱基识别分支网络基于主干网络提取到的图像特征确定各碱基信号采集单元中心的位置处所属碱基类型,以获得碱基识别结果是基因测序中碱基识别任务(Basecall)的关键一环。其中,碱基识别分支网络输出与各通道输入图像数据对应的碱基识别结果可以有不同呈现形式,如可以采用多路输出或单路输出。多路输出是指,输出与多个输入通道的图像数据分别一一对应的多通道识别结果,如,通道1的识别结果是当前循环内A碱基类型的碱基信号采集单元的识别结果,通道2的识别结果是当前循环内C碱基类型的碱基信号采集单元的识别结果,通道3的识别结果是当前循环内G碱基类型的碱基信号采集单元的识别结果,通道4的识别结果是当前循环内T碱基类型的碱基信号采集单元的识别结果。单路输出是指,输出基于多个输入通道的图像数据分别对应的多通道识别结果所形成的包括全部碱基类型的碱基信号采集单元位置及其碱基类型的单通道识别结果,如,根据对各通道输入图像数据处理得到的分别对应的A碱基类型的识别结果、C碱基类型的识别结果、G碱基类型的识别结果、T碱基类型的识别结果的并集,形成当前循环内一个同时包含A、C、G、T碱基信号采集单元的识别结果。
进一步的,碱基识别结果可以有不同呈现形式,还体现在表征碱基信号采集单元的识别结果的形式可以是标识有当前循环内各碱基信号采集单元的碱基类型的数据矩阵、或标识有各碱基信号采集单元的碱基类型的图像。以多路输出为例,每一路输出对应一个碱基类型的碱基信号采集单元的识别结果,通道1可以是A碱基类型的碱基信号采集单元中心的位置信息的坐标数据矩阵,从而通道1输出的坐标数据矩阵表示的当前循环内对A碱基类型的碱基信号采集单元的识别结果;与此同理,通道2的坐标数据矩阵则对应C碱基类型的碱基信号采集单元的识别结果,通道3的坐标数据矩阵则对应G碱基类型的碱基信号采集单元的识别结果,通道4的坐标数据矩阵则对应T碱基类型的碱基信号采集单元的识别结果。再以单路输出为例,根据通道1、2、3、4得到的A、C、G、T的识别结果,形成当前循环的一个包含全部碱基类型的碱基信号采集单元中心的相应位置处标识有碱基类型标签的坐标数据矩阵。需要说明的是,虽然碱基识别模型的输出包含了碱基信号采集单元中心的坐标数据矩阵,但是表达的是识别到了当前循环内不同碱基信号采集单元中心处所属的碱基类型,实现的是碱基类型识别。
上述坐标数据矩阵,可采用其它能够表征各碱基信号采集单元中心处所属碱基类型的形式,如表示像素点是否为某一碱基类型的碱基信号采集单元中心所在位置的概率数据矩阵,碱基信号采集单元中心所在位置处的概率值表示的是该碱基信号采集单元属于A、C、G或T碱基类型的概率。
而表征各碱基信号采集单元中心处所属碱基类型的其它形式也可以是图像形式,如根据坐标数据矩阵、概率数据矩阵所获得的A、C、G、T碱基类型的碱基信号采集单元中心的位置,直接输出当前循环的各碱基信号采集单元中心的位置处标注有碱基类型标签的荧光图像。
根据上述提供的碱基识别结果的多种可能呈现形式,可知碱基识别模型输出与各通道输入图像数据对应的碱基识别结果,是针对当前循环内采集的多张待测荧光图像经碱基识别模型的处理后,得到的能够知晓当前循环内各碱基信号采集单元中心的位置处分别所属的碱基类型的碱基识别结果,其可以不限于某一种具体形式,在此不做限制。
上述实施例中,通过多任务联合识别模型的设计,将分别与不同碱基类型的测序信号响应对应的多张待测荧光图像作为多任务联合识别模型的多通道输入图像数据,多任务联合识别模型包括以主干网络提取到的特征图作为输入的图像重建分支网络和碱基识别分支网络,通过将图像重建任务和碱基识别任务作为联合任务,可使得主干网络在模型训练阶段同时依赖于图像重建分支网络和碱基识别网络的反向传播而学习到更有用的特征,如此,在多任务联合识别模型可通过图像重建分支网络基于主干网络提取到的特征图以输出图像质量指标参数提升的重建图像的输出结果的基础上,碱基识别分支网络输出碱基识别结果,使得碱基识别结果的输出可相当于图像质量指标参数提升的图像的特征图得到的碱基类别结果,重建图像的输出也相当于依赖可获得准确的碱基类别结果的特征图而得到的重建图像,多任务联合识别模型的主干网络可以学习到更丰富的特征表示,对克服碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况均有较强的适应性,进而可有效地提升碱基识别结果的准确性。
在一些实施例中,所述图像重建分支网络为超分辨率重建分支网络;所述通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像,包括:
通过所述超分辨率重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的多张超分辨率重建图像。
在基因测序技术中,对荧光图像进行超分辨率处理,在实现低成本、高通量测序平台和降低全基因组测序费用等方面,均具有重要意义。通过对荧光图像进行超分辨率处理,第一,可以提高样本密度,当前主流的二代测序技术受到光学衍射极限的限制,样本间距一般需要控制在500纳米以上,通过超分辨处理,可以显著提高图像的空间分辨率,允许更密集地放置样本,这意味着在同样的芯片面积上可以容纳更多的样本,从而提高测序平台的样本密度,通过增加样本密度,可以同时处理更多的样本,提高测序的通量和效率。第二,降低测序费用,目前,基因测序费用仍然是制约其广泛应用的一个关键因素,超分辨处理可以在不增加实验成本的情况下,提高测序图像的分辨率和质量,从而提高测序的准确性和可靠性,这有助于降低测序错误率,减少重复测序的需求,进而降低测序费用,通过降低测序费用,可以促进基因测序技术的普及和广泛应用,加速基因组学研究的进展。第三,提高数据质量,超分辨处理可以消除图像中的噪声和模糊,提高图像的清晰度和质量,在基因测序中,高质量的荧光图像有助于更准确地识别和解析碱基序列,提高测序数据的准确性和可靠性,通过提高数据质量,可以减少测序错误和假阳性的发生,从而提高基因组装、变异检测和生物信息学分析的准确性和可信度。第四,推动技术发展和创新:超分辨处理是图像处理和计算机视觉领域的研究热点,借助深度学习和图像重建算法,通过将图像重建任务和碱基识别任务作为联合任务,可以提高图像分辨率和质量,在基因测序领域,对荧光图像进行超分辨处理不仅可以改善测序数据,还促进了相关技术的发展和创新,这有助于不断推动测序设备和分析方法的改进,进一步降低测序成本,提高测序平台的性能和竞争力。
其中,本申请发明人在提出本申请技术方案的研究过程中,对超分辨率图像的技术情况进行了分析,传统的超分辨率图像的获得主要是采用结构化照明显微镜技术(Structured Illumination Microscopy,SIM),通过使用结构化的照明光源模式和图像处理算法,实现超分辨率成像。SIM技术的光学硬件系统实现方式主要基于所采用的器件进行划分,包括光栅-SIM、空间光调制器-SIM和数字微镜器件-SIM等。其中,数字微镜器件(DMD)是一种由微反射镜阵列组成的微光机系统,每个微反射镜称为一个像素单元,可以通过控制镜面的旋转角度来实现ON和OFF两种状态,分别对应高反射和无反射状态。DMD-SIM利用电控方式在X和Y两个方向上投射条纹,通过高速切换和条纹相移来实现超分辨成像。而在深度学习领域,超分辨率图像的获得可主要包括如下三种方法,1、卷积神经网络(CNN):CNN是深度学习中最常用的模型之一,在图像超分辨处理中,可以设计和训练基于CNN的网络模型,用于将低分辨率图像映射到超分辨率图像,通过多层卷积和池化操作,CNN可以从图像中提取特征并学习图像的高频信息,从而提高图像的分辨率。2、生成对抗网络(GAN):GAN是一种由生成器和判别器组成的对抗性模型,在图像超分辨处理中,生成器网络负责将低分辨率图像转换为超分辨率图像,而判别器网络则尝试区分生成的图像与真实超分辨率图像,通过不断优化生成器和判别器之间的对抗过程,GAN可以生成更加真实和细致的超分辨图像。3、基于残差学习的网络(如SRResNet):这种方法利用残差学习的思想来提高超分辨效果,通过构建深层网络结构,使网络能够学习低频和高频信息之间的残差,从而减少信息丢失。然而,这些对于基因测序领域中表征碱基信号采集单元位置的荧光图像的超分辨率图像的重建,均表现不佳。
本申请上述实施例中,通过将超分辨率图像重建任务和碱基识别任务作为联合任务,充分利用两个任务之间的相互关联性,通过多任务联合识别模型平衡超分辨率重建图像质量和碱基识别结果准确性,通过两个任务相互约束和共同优化,实现更高效学习和更准确地预测。
在一些实施例中,所述超分辨率重建分支网络包括反卷积层和重建卷积层;
所述反卷积层用于将所述特征图进行上采样,将所述特征图进行放大,所述重建卷积层用于将放大后的所述特征图转换为超分辨率图像。
其中,特征图为主干网络对多通道输入图像数据进行特征提取得到,超分辨率重建分支网络中,反卷积层中可设置反卷积核的大小、步长和扩充(padding),以将特征图放大指定倍数,并通过设置反卷积核的数量,确定输出通道数量。在一个示例中,反卷积核的大小为4x4,步长为2,padding为1,以将特征图的宽高放大2倍,输出通道数设为64。重建卷积层中,可以设置卷积核的大小、步长和padding,将主干网络进行特征提取得到的特征图进行转换得到所需的超分辨率图像,并通过设置卷积核的数量,确定输出通道数量。在一个示例中,卷积核的大小为4x4,步长为1,padding为1,以输出与4通道输入图像数据对应的4张超分辨率重建图像。
在一些实施例中,所述图像重建分支网络的损失函数为均方误差损失函数或者结构相似性损失函数,所述均方误差损失函数表示如下:
;(公式1)
y_pred 是模型的预测值,y_true 是真实值,n 是像素总数;
所述结构相似性损失函数表示如下:
;(公式2)
μx和μy分别是x和y的均值,σx^2和σy^2是x和y的方差,σxy是x和y的协方差,c1和c2防止除零错误的参数;
所述碱基识别分支网络为交叉熵损失函数,所述交叉熵损失函数表示如下:
;(公式3)
其中,C 是类别的数量,y 是真实标签的 one-hot 编码,p 是模型预测的概率分布。
其中,均方误差损失函数(MSE Loss),是通过度量预测的超分辨率图像和真实的超分辨率图像在像素级别上的差距,均方误差损失函数的目标是最小化预测图像和真实图像之间的平方差异,让预测图像在像素级别上尽可能接近真实图像。结构相似性损失函数(SSIM Loss),是通过考虑图像的像素值、图像的结构、亮度和对比度等因素,其目标是可最大化预测图像和真实图像的结构相似性。SSIM Loss 往往能更好地保持图像的视觉质量,可类比于人类视觉系统,可更关注图像的结构信息而非像素值。在实践中,会对图像的每一个小窗口(例如7*7的图像块)分别计算SSIM,然后求平均值得到整个图像的SSIM值。交叉熵损失函数(CE Loss),用于度量碱基模型预测的碱基类别概率分布和真实的碱基类别概率分布之间的差异,交叉熵损失函数的目标是最小化预测概率分布和真实概率分布之间的交叉熵,让碱基识别分支网络预测的碱基类别尽可能接近真实的碱基类别。
在一些实施例中,多任务联合识别模型可使用MSE Loss、SSIM Loss 和 CE Loss的加权和作为总的损失函数,表示如下:
;(公式4)
通过调整三者的权重,可以在超分辨率图像重建任务和碱基识别任务之间找到一个最优的平衡。多任务联合识别模型采用多任务学习的策略,通过共享特征提取部分的参数,同时进行超分辨率图像重建和碱基识别任务,这既提升了计算效率,又可以通过两个任务的相互约束,提升多任务联合识别模型在两个任务上的性能。
在一些实施例中,所述碱基识别分支网络包括与各通道输入图像数据分别对应的多个输出通道;所述通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果,包括:
通过所述碱基识别分支网络以所述主干网络输出的所述特征图为输入,基于所述特征图对各通道输入图像数据中各像素点是否为碱基信号采集单元中心进行分类预测,根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别结果包括各碱基信号采集单元中心的位置处分别所属碱基类型的识别结果。
碱基识别结果可以是与不同碱基类型一一对应的多路输出且每一路采用概率数据矩阵的形式,请参阅图10,每个通道代表一个碱基类型,碱基识别分支网络通过输出通道分别输出的与每一通道对应的碱基识别结果,包括相应通道输入图像数据中各像素点属于相应类型碱基的碱基信号采集单元中心的概率,根据概率可确定相应类型碱基的碱基信号采集单元中心的位置,如图10中仅示出的通道A的概率数据矩阵,在本示例中,输出通道1、2、3、4分别与A、C、G、T 4种碱基类型对应,输出通道1的碱基识别结果相应为A碱基类型的位置参数(2,2)处概率值为0.95、(4,4)处概率值为0.9的概率参数矩阵。
碱基识别结果可以包含有全部碱基类型的单路输出、且采用各碱基信号采集单元中心的位置处标注有碱基类型标签的坐标数据矩阵的形式,以图10为例,碱基识别分支网络在识别应用阶段,碱基识别分支网络输出的碱基识别结果可以是与标签图(lable)相同的形式,输出通道1、2、3、4分别与A、C、G、T 4种碱基类型对应,碱基识别结果为碱基信号采集单元中心位置点(2,2)处的碱基类型标签为1、碱基信号采集单元中心位置点(4,4)处的碱基类型标签为1、碱基信号采集单元中心位置点(3,2)处的碱基类型标签为3、碱基信号采集单元中心位置点(1,4)处的碱基类型标签为4的坐标数据矩阵。
在一些实施例中,所述分类预测结果包括各通道输入图像数据中各像素点为相应类型碱基的碱基信号采集单元中心的概率,所述多通道输入图像数据中同一碱基信号采集单元中心的位置处的所述像素点的概率之和为1;所述根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果,包括:
根据所述分类预测结果分别确定各通道输入图像数据中分别对应的碱基类型的各所述碱基信号采集单元中心的位置处的所述像素点的概率最大值确定其所属碱基类型;
所述输出通道分别输出各通道输入图像数据分别对应的碱基类型的碱基信号采集单元的碱基信号采集单元中心的坐标数据矩阵、概率数据矩阵或荧光图像;或,所述输出通道根据各通道输入图像数据输出包含各碱基信号采集单元中心的位置处分别所属碱基类型的碱基类型标签的坐标数据矩阵、概率数据矩阵或荧光图像。
多个输出通道分别与多个碱基类型一一对应,对于同一组多通道输入图像数据而言,多张图像中同一位置的像素点表示是否为相应碱基类型的碱基信号采集单元中心的概率,且同组的多张图像中同一碱基信号采集单元中心的位置处的像素点的概率之和为1。如图10所示,碱基识别分支网络通过输出通道分别输出的与每一通道对应的碱基识别结果,包括相应通道输入图像数据中各像素点属于相应类型碱基的碱基信号采集单元中心的概率,根据概率可确定碱基信号采集单元中心的位置处是否为相应类型碱基,得到相应通道输入图像数据中包含的相应类型碱基的碱基信号采集单元中心的坐标数据矩阵,与此同时,可根据碱基信号采集单元中心处对应的概率的最大值确定其碱基类型。在一个示例中,输出通道1、2、3、4分别与A、C、G、T 4种碱基类型对应,输出通道1的碱基识别结果中位置参数(2,2)处的像素点对应概率为0.95,输出通道2的碱基识别结果中位置参数(2,2)处的像素点对应概率为0,输出通道3的碱基识别结果中位置参数(2,2)处的像素点对应概率为0.25,输出通道4的碱基识别结果中位置参数(2,2)处的像素点对应概率为0.25,由此,输出通道1的碱基识别结果为包括位置参数(2,2)的位置参数矩阵,且位置参数(2,2)处对应的碱基类型为可以为类别标签1,表示碱基类型A。
在一些实施例中,所述获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据之前,还包括对多任务联合模型进行训练,以得到多任务联合识别模型,其中,模型训练包括:
获取训练数据集;其中,每一训练样本包括针对测序芯片的与不同碱基类型的测序信号响应分别对应的多张原始荧光图像、所述原始荧光图像经超分辨处理后对应得到的超分辨率图像作为第一标签图像、所述原始荧光图像经碱基信号采集单元检测定位算法处理后对应得到的掩膜图作为第二标签图像及对应的碱基类型标签;
构建初始的多任务联合模型,所述多任务联合模型包括主干网络、分别以所述主干网络的输出作为输入的图像重建分支网络和碱基识别分支网络,基于所述训练数据集对所述多任务联合模型进行训练,直至损失函数收敛以得到训练后的所述多任务联合识别模型;其中,在训练过程中,所述图像重建分支网络以所述第一标签图像为训练目标进行监督学习,所述碱基识别分支网络以所述第二标签图像和碱基类型标签为训练目标进行监督学习。
请参阅图8,为多任务联合模型训练的逻辑示意图。获取训练数据集,包括通过数据标注获得样本图像。针对图像重建分支网络的训练样本图像的数据标注,主要包括针对是指以测序阶段采集到的原始荧光图像为初始的样本,针对每一初始的样本,经超分辨处理后对应得到的超分辨率图像作为对应样本的标签,为了便于描述和区分,将其称为第一标签图像。针对碱基识别分支网络的训练样本图像的数据标注,是指针对每一初始的样本,经碱基识别算法确定其碱基类型标签,如采用传统的碱基信号采集单元检测定位算法确定一组荧光图像中碱基信号采集单元中心的位置,将一组荧光图像包含的碱基信号采集单元的位置的并集将有碱基信号采集单元的位置设为1,无碱基信号采集单元的背景区域设为0,形成与样本尺寸相同的掩膜图,为了便于描述和区分,将其称为第二标签图像。在一个基因测序流程中,不同循环内采集到的荧光图像所形成的所有训练样本,可共用同一掩膜图,也即采用同一张第二标签图像。每一训练样本,是以与不同碱基类型的测序信号响应分别对应的多张原始荧光图像为一组,对每一个训练样本中同组的多张原始荧光图像中的碱基识别结果,可以是对原始荧光图像中根据已检测定位的碱基信号采集单元位置处的荧光强度来识别其对应碱基类型,每一训练样本的碱基类型标签根据该对应的训练样本内包含的原始荧光图像的碱基类型的识别结果得到,每一训练样本根据多张原始荧光图像获得各自对应的第一标签图像及碱基类型标签。
在训练阶段,多任务联合模型随机从训练数据集中抽取训练样本进行迭代训练,每一次迭代训练中,以训练样本中与不同碱基类型的测序信号响应分别对应的多张原始荧光图像为一个多通道输入,图像重建分支网络基于当前权重参数计算和预测输入样本的重建图像与对应的第一标签图像之间的误差,判断误差是否小于等于设定值,若误差大于设定值,则根据误差进行反向传播,优化主干网络和图像重建分支网络的权重参数,与此同时,请参阅图9,碱基识别分支网络基于当前权重参数计算和预测输入样本的碱基识别结果基于对应的碱基类型标签确定识别误差,通过掩膜图快速从碱基识别结果中提取到对应碱基信号采集单元中心的位置处的碱基类型预测结果,以与对应样本的碱基类型标签对比判断是否符合,判断误差是否小于等于设定值,若误差大于设定值,则根据误差进行反向传播,优化主干网络和碱基识别分支网络的权重参数;并再重复从训练数据集中随机抽取训练样本作为模型的输入进行下一次迭代训练,迭代往复循环,不断优化多任务联合模型的权重参数,直至图像重建分支网络基于当前权重参数计算预测的输入样本的重建图像与对应的第一标签图像的之间的差异小于设定值,即图像重建分支网络以所述第一标签图像为训练目标进行监督学习,且碱基识别分支网络基于当前权重参数计算检测得到的碱基识别结果基于对应的第二标签图像,快速提取各碱基信号采集单元中心的位置处的碱基类型的识别误差小于设定值,即碱基识别分支网络以所述第二标签图像和碱基类型标签为训练目标进行监督学习,直至损失函数收敛以得到训练后的所述多任务联合识别模型。
上述实施例中,图像重建分支网络和碱基识别分支网络将图像重建质量和碱基识别准确性作为联合任务进行优化,以实现更高效学习和更准确预测,而多任务联合模型的每一训练样本是以不同碱基类别对应的多张荧光图像形成的一个多通道输入,碱基识别结果的预测能够保持碱基信号采集单元在多个通道上的亮度值的相对大小关系,也即保持同一个循环下与不同碱基类型的测序信号响应分别对应的多张荧光图像的亮度值的相对大小关系而可获得更准确的识别结果,对克服各种不确定因素导致的碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况均有较强的适应性,可以学习到更丰富的特征表示,进而可有效地提升碱基识别结果的准确性。
可选的,所述第二标签图像及对应的碱基类型标签的获得,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像;
对所述原始荧光图像经碱基信号采集单元检测定位算法处理确定碱基信号采集单元位置,根据碱基信号采集单元位置形成掩膜图;
根据碱基信号采集单元位置对所述测序芯片采集到的原始荧光图像经碱基识别算法进行碱基识别,确定分别对应的碱基类型标签,基于所述原始荧光图像得到的碱基识别结果在基因测序中获得碱基序列;
将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对比对成功的所述碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别算法确定的对应碱基类型进行修正,经修正后得到作为训练样本的多个碱基类型分别对应的原始荧光图像的碱基类型标签;
根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到所述第二标签图像。
针对碱基识别任务的训练过程中,需要用输入数据的真实碱基类别进行监督,对碱基识别分支网络的训练数据进行监督的第二标签图像的制作包括:针对样本经已知的碱基信号采集单元定位算法确定碱基信号采集单元位置,经已知的碱基识别算法确定碱基类型的基础上,通过已知算法得到的碱基类别结果与已知基因库中标准碱基序列进行比对,以修正并提升作为训练样本的样本的质量及其对应的第二标签图像的质量。对已知算法得到的碱基类别结果与已知基因库中标准碱基序列进行比对,在一条碱基序列中,只有当超过比例的碱基识别正确时才能够比对成功,藉此可以找到样本中所有匹配上的链,针对匹配上的链,再根据基因库中的标准序列对这些匹配的链中识别错误的碱基进行校正,根据校正后的碱基序列再反向对经已知算法得到的碱基类别结果进行修正,筛选得到作为训练样本的更准确的各碱基类型的样本图像的碱基类型标签。
在一个可选示例中,经初步碱基识别,得到碱基信号采集单元位置点A(2,2)、位置点B(3,3),此时,掩膜图为位置点A(2,2)、位置点B(3,3)为1,其余位置均为0的掩膜图像。根据基因测序中连续10个cycle采集的原始荧光图像的碱基识别结果,获得位置点A的碱基序列为ACGTGTCAGT、位置点B的碱基序列为ACAGTTCAGT;经与已知基因库中的标准碱基序列进行比对,筛选到与位置点A的碱基序列比对成功的标准碱基序列为ACCTGTCAGT,根据标准碱基序列将位置点A的碱基序列校正为ACCTGTCAGT,如此,根据校正后的碱基序列对基因测序中连续10个cycle采集的原始荧光图像的碱基识别结果进行修正,对其中第3个cycle中采集到的原始荧光图像的碱基识别结果中位置点A的碱基类型由原识别的碱基类型G修正为碱基类型C,也即,由第3个cycle中采集到的原始荧光图像形成的训练样本的碱基类型标签相应得到修正。
对掩膜图进行修正,是指对未比对成功的碱基序列,将这条链的信息从训练数据和标签数据中去除,如对经已知算法得到的碱基信号采集单元位置所形成的掩膜图中将未比对成功的链的位置用0代替,避免错误数据对训练数据造成污染,提升训练样本质量,更好地利用训练数据提高多任务联合识别模型的性能。
如前述示例中,经与已知基因库中的标准碱基序列进行比对,筛选不到与位置点B的碱基序列比对成功的标准碱基序列,如此,在掩膜图中将位置点B删除(位置点B从1变为0)以进行修正,得到修正后的掩膜标签图像为位置点A(2,2),其余位置均为0的掩膜图像。
在一些实施例中,所述获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,包括;
在碱基信号采集单元测序读段中对多个碱基识别的对应多个循环内,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;
以每一所述循环中,分别与A、C、G、T四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组,每一训练样本中包括的多张原始荧光图像是指一组原始荧光图像。
在碱基信号采集单元测序读段中,一个循环对应各碱基信号采集单元的一个碱基识别,由于不同碱基类型对应不同荧光标记dNTP的荧光信号,与A、C、G、T四种类型碱基的测序信号响应分别对应的四张待测荧光图像,可以是在一个碱基识别的循环内分别采集4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光图像。一个碱基识别的循环中,分别与A、C、G、T四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组。
针对每一循环,利用A、C、G、T 4种碱基类型在不同波段的光照射下亮度不同,相应对同一个视场(相同的芯片目标部位)采集A、C、G、T 4种碱基被4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光图像(4张灰度图像),每4张与A、C、G、T 4种碱基类型对应的荧光图像为一组,作为与一个cycle对应的一个训练样本,每一训练样本中包括对应组的四张荧光图像堆叠形成的多通道样本图像。
在一些实施例中,所述第一标签图像的获得,包括:
在碱基信号采集单元测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,在不同的结构光照明条件下,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;不同的结构光照明条件包括不同相位偏移和/或不同光栅方向;
针对所述循环中,将多种所述结构光照明条件下采集到的分别与A、C、G、T四种类型碱基的测序信号响应对应的原始荧光图像,经超分辨率算法处理得到第一标签图像。
针对每一循环,可设置在不同的结构光照明条件下分别采集多组荧光图像分别作为样本。通过采集不同的结构光照明条件下的荧光图像,分别形成多个组合,根据对应循环内在多个结构光照明条件下分别采集到的荧光图像,经超分辨率处理得到超分辨率图像作为第一标签图像,便于图像重建分支网络进行图像重构过程中可以确定光信号的相位和振幅,减少光照条件对荧光点成像产生的噪音。通常,每个空间频率需要3个相位偏移的图像,每个平面需要3个不同的光栅方向,利用不同结构光照明条件下,分别采集的A、C、G、T 4种碱基类型在不同波段的光照射下亮度不同,相应对同一个视场(相同的芯片目标部位)采集A、C、G、T 4种碱基被4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光图像(4张灰度图像),如此,在一个可选示例中,不同的结构光照明条件下包括3(相位偏移)x 3(光栅方向)种不同的结构光照明条件下,采集共9组及每组内与A、C、G、T 4种碱基类型对应的4张荧光图像来形成第一标签图像。
可选的,请参阅图10,所述主干网络包括初级卷积层和Dense block网络层;所述通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图,包括:
通过所述主干网络的所述初级卷积层对所述多通道输入图像数据进行特征提取;通过所述Dense block网络层对所述初级卷积层提取到的初级特征进行处理,其中,所述Dense block网络层包括依序连接的多个Dense block,所述Dense block内的每一卷积层均以在先的卷积层的输出的并集为输入,通过最后一个Dense block输出与所述多通道输入图像数据对应的特征图。
初级卷积层通过卷积核的数量、步长和padding的设置,以保持特征图的空间尺寸,用于提取初级特征。在一个示例中,初级卷积层中,每一卷积核为3x3,步长为1,padding为1,输出通道数设置为64。Dense block网络层对初级卷积层提取到的初级特征图进行处理,与初级卷积层共同形成主干网络对多通道输入图像的两级特征提取。在一个示例中,Dense block网络层包括依序连接的过6个Dense block。在每个Dense block中,可以包含6个卷积层,每个卷积层使用3x3大小的卷积核,步长为1,padding为1,以保持特征图的空间尺寸,每个卷积层的输出通道数都设为16,因此每个Dense block的输出通道数为96。其中,Dense block网络层中, Dense block中每一卷积层均以在先的卷积层的输出并集为输入的特点,将与不同碱基类型对应的同组荧光图像之间的亮度对比信息充分挖掘出来以提取得到图像特征,将提取到的高级特征输送到多任务分支,如此,能够充分考虑到所有通道的图像信息,能够保持同组内多张荧光图像之间原有亮度比例来获得更准确的碱基识别结果。
本申请实施例中,通过以与不同类型碱基对应的多张荧光图像形成一个多通道的输入,不同通道的亮度值代表了不同的生物信息,而主干网络的特征提取保留了不同通道之间的亮度值的相对大小关系,保持原有的生物信息,进而可得到更准确的结果。
为了能够对本申请实施例所提供的基于多任务联合的碱基识别方法具有更加整体的理解,请结合参阅图11,下面以一具体示例对基于多任务联合的碱基识别方法进行说明,所述基于多任务联合的碱基识别方法包括:
S11,获取训练样本。其中,训练样本中标签数据的制作包括:
1、首先采用传统的碱基识别算法对训练所用的样本图像进行碱基识别(Basecall),得到样本图像中每个cluster的碱基类别。A、C、G、T类别分别用1,2,3,4。
2、对传统算法得到的碱基类别结果和已知基因库的标准序列进行比对,在一条链中,只有当大部分的碱基识别正确时才能够比对成功,通过这种方法,能够找到样本图中所有匹配上的链。
3、即使是匹配上的链中,也有少部分碱基识别错误,根据基因库中的标准序列对这些链中识别错误的碱基进行校正,得到校正后的链,使得校正后的链中,所有的碱基类别都是正确的,可以作为训练时的标签数据使用。
4、通过业内成熟的cluster检测算法检测和定位图像中的cluster的位置并得到一个与原图尺寸相同的掩膜图,即有cluster的中心位置为1,无cluster的背景区域为0,在掩膜图中,将上一步得到的碱基类别填写到对应位置(掩膜中为1的位置),得到训练用的标签数据。
5、对未比对成功的链,则将这条链的信息从训练数据集和标签数据中去除,即在掩膜中将其位置用0代替,避免错误的数据对整体数据造成污染。
6、在不同的结构光照明条件下,分别拍摄多张荧光图像。通常,每个空间频率需要3个相位偏移的图像,每个平面需要3个不同的光栅方向,因此,对于每个循环内,至少采集3(相位偏移)x 3(光栅方向)= 9 种结构光照明条件下分别采集A、C、G、T对应的荧光图像,以便在后续的图像重构过程中准确确定信号的相位和振幅。采用传统的超分算法,例如采用Matlab里的SIMToolBox、开源的FairS'I'M或OpenSIM算法对样本图像进行超分辨处理,得到长和宽都放大两倍的超分图像,将它作为标签图像。
S12,构建初始的多任务联合模型,通过训练样本进行迭代训练得到训练后的多任务联合识别模型。其中,初始的多任务联合模型的架构如图7所示。对多任务联合模型进行迭代训练的原理如图9所示,训练过程主要包括如下部分:
1、输入
将与4种碱基类型对应的4张荧光图像在通道维度堆叠起来形成一个4通道的输入数据,其维度为(4,H,W)其中H,W为训练用的图像的高和宽。
2、特征提取
初级卷积层:输入的荧光图像首先经过一个卷积层,此处可以使用3x3大小的卷积核,步长为1,padding为1,以保持特征图的空间尺寸,此层的输出通道数设置为64,用于提取初级特征。Dense blocks:初级特征图通过6个Dense blocks进行处理。在每个Denseblock中,可以包含6个卷积层,每个卷积层使用3x3大小的卷积核,步长为1,padding为1,以保持特征图的空间尺寸。每个卷积层的输出通道数都设为16,每个Dense block的输出通道数为96。将Dense blocks提取到的高级特征输送到多任务分支。
3、超分辨率(Super-Resolution)重建分支
反卷积层:用于将高级特征图进行上采样。可以设置反卷积核的大小为4x4,步长为2,padding为1,以将特征图的宽高放大2倍,输出通道数设为64。重建卷积层:用于将放大后的特征图转换为超分辨率图像。卷积核大小为3x3,步长为1,padding为1。由于输出是4张荧光图像,因此输出通道数应该等于图像的通道数4。
4、Basecall分支
Basecall卷积层:包含两个卷积层,用于将高级特征图转换为Basecall结果。卷积核大小为3x3,步长为1,padding为1。最后一个卷积层的输出通道数等于预测的类别数。
以上所有卷积、反卷积层均采用Relu作为激活函数。
5、损失函数
使用MSE Loss、SSIM Loss 和 CE Loss 的加权和作为总的损失函数,通过调整三者的权重,可以在超分辨率任务和Basecall任务之间找到一个最优的平衡,如前述公式4所示。模型采用了多任务学习的策略,通过共享特征提取部分的参数,同时进行超分辨率重建和Basecall两个任务,平衡超分辨率任务的图像重建质量和Basecall任务的分类准确性,这既提升了计算效率,又可以通过两个任务的相互约束,提升模型在两个任务上的性能,实现两个任务的共同优化。
S13,采集针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像,形成一个多通道输入图像数据输入多任务联合识别模型,通过主干网络进行特征提取,由图像重建分支网络输出对应的超分辨率重建图像、以及由碱基识别分支网络输出对应的碱基识别结果。
上述实施例中,多任务联合识别模型采用超分辨率与Basecall的联合优化框架,通过提出一个多任务学习模型,将荧光图像的超分辨率任务和Basecall任务联合起来进行优化,充分考虑了两个任务之间的互相关联性,来实现更高效的学习和更准确的预测,至少具备如下优点:
高效的信息利用:传统的方法是分别进行超分辨率和Basecall任务,会忽视两个任务之间的潜在关联性,而本申请实施例的联合优化框架通过同时处理这两个任务,可以更好地利用数据中的信息,从而提高模型的性能。
性能提升:通过采用深度学习,并通过联合优化的方式进行学习,多任务联合识别模型的框架能够获得比传统方法更好的性能。具体来说,超分辨率任务可以获得更清晰的图像,更为关键的是,在提升图像分辨率的同时,也能够保持碱基信号采集单元亮度在4个通道上的亮度值的相对大小关系。本申请实施例的基于多任务联合的碱基识别模型在学习过程中,加入了Basecall分支的约束,同时考虑到所有通道的信息,从而能够保持原有的亮度比例。这种特性对于荧光图像的处理非常重要,因为不同通道的亮度值代表了不同的生物信息,改变亮度值的相对大小关系可能会导致信息的丢失或者误解。通过本申请实施例的基于多任务联合的碱基识别方法,可以在提高荧光图像的分辨率的同时,保持其原有的生物信息,从而得到更准确的结果,而对于Basecall任务,也可以获得更准确的碱基信号采集单元分类结果。
灵活性和扩展性:本申请实施例中基于多任务联合的碱基识别模型的框架设计灵活,可以根据具体任务的需要调整模型结构、损失函数等,具有很好的扩展性,可以很容易地应用于更大规模的数据或者更复杂的任务。
自动化和节省时间:本申请实施例中基于多任务联合的碱基识别模型的框架可以同时完成超分辨率和Basecall任务,同时在这两个领域实现突破,大大节省了人力和时间成本。
请参阅图12,本申请另一方面,提供一种基于多任务联合的碱基识别装置,包括:获取模块21,用于获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;多任务联合识别模型22,通过主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;通过图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。
可选的,所述图像重建分支网络为超分辨率重建分支网络,所述多任务联合识别模型22,具体用于通过所述超分辨率重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的多张超分辨率重建图像。
可选的,所述超分辨率重建分支网络包括反卷积层和重建卷积层;所述反卷积层用于将所述特征图进行上采样,将所述特征图进行放大,所述重建卷积层用于将放大后的所述特征图转换为超分辨率图像。
可选的,所述图像重建分支网络的损失函数为均方误差损失函数或者结构相似性损失函数;所述碱基识别分支网络为交叉熵损失函数。
可选的,所述碱基识别分支网络包括与各通道输入图像数据分别对应的多个输出通道;所述多任务联合识别模型22,具体用于通过所述碱基识别分支网络以所述主干网络输出的所述特征图为输入,基于所述特征图对各通道输入图像数据中各像素点是否为碱基信号采集单元中心进行分类预测,根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别结果包括各碱基信号采集单元中心的位置处分别所属碱基类型的识别结果。
可选的,所述分类预测结果包括各通道输入图像数据中各像素点为相应类型碱基的碱基信号采集单元中心的概率,所述多通道输入图像数据中同一碱基信号采集单元中心的位置处的所述像素点的概率之和为1;所述碱基识别分支网络,具体用于根据所述分类预测结果分别确定各通道输入图像数据中分别对应的碱基类型的各所述碱基信号采集单元中心的位置处的所述像素点的概率最大值确定其所属碱基类型,所述输出通道分别输出各通道输入图像数据分别对应的碱基类型的碱基信号采集单元的中心的坐标数据矩阵、概率数据矩阵或荧光图像;或,所述输出通道根据各通道输入图像数据输出包含各碱基信号采集单元中心的位置处分别所属碱基类型的碱基类型标签的坐标数据矩阵、概率数据矩阵或荧光图像。
可选的,基于多任务联合的碱基识别装置还包括训练模块,用于获取训练数据集;构建初始的多任务联合模型,所述多任务联合模型包括主干网络、分别以所述主干网络的输出作为输入的图像重建分支网络和碱基识别分支网络,基于所述训练数据集对所述多任务联合模型进行训练,直至损失函数收敛以得到训练后的所述多任务联合识别模型;其中,在训练过程中,所述图像重建分支网络以所述第一标签图像为训练目标进行监督学习,所述碱基识别分支网络以所述第二标签图像和碱基类型标签为训练目标进行监督学习。
可选的,所述训练模块,还用于获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像;对所述原始荧光图像经碱基信号采集单元检测定位算法处理确定碱基信号采集单元位置,根据碱基信号采集单元位置形成掩膜图;根据碱基信号采集单元位置对所述测序芯片采集到的原始荧光图像经碱基识别算法进行碱基识别,确定分别对应的碱基类型标签,基于所述原始荧光图像得到的碱基识别结果在基因测序中获得碱基序列;将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对比对成功的所述碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别算法确定的对应碱基类型进行修正,经修正后得到作为训练样本的多个碱基类型分别对应的原始荧光图像的碱基类型标签;根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到所述第二标签图像。
可选的,所述训练模块,还用于在碱基信号采集单元测序读段中对多个碱基识别的对应多个循环内,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;以每一所述循环中,分别与A、C、G、T四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组,每一训练样本中包括的多张原始荧光图像是指一组原始荧光图像。
可选的,所述训练模块,还用于在碱基信号采集单元测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,在不同的结构光照明条件下,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;不同的结构光照明条件包括不同相位偏移和/或不同光栅方向;针对所述循环中,将多种所述结构光照明条件下采集到的分别与A、C、G、T四种类型碱基的测序信号响应对应的原始荧光图像,经超分辨率算法处理得到第一标签图像。
可选的,所述主干网络包括初级卷积层和Dense block网络层;所述主干网络,具体用于通过所述主干网络的所述初级卷积层对所述多通道输入图像数据进行特征提取;通过所述Dense block网络层对所述初级卷积层提取到的初级特征进行处理,其中,所述Dense block网络层包括多个依序连接的多个Dense block,所述Dense block内的每一卷积层均以在先的卷积层的输出的并集为输入,通过最后一个Dense block输出与所述多通道输入图像数据对应的特征图。
需要说明的是:上述实施例提供的基于多任务联合的碱基识别装置在实现碱基类型识别的处理过程中,仅以上述各程序模块的划分进行举例说明,在实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即可将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分方法步骤。另外,上述实施例提供的基于多任务联合的碱基识别装置与基于多任务联合的碱基识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请另一方面,提供一种基因测序仪。请参阅图13,为本申请实施例提供的基因测序仪的一个可选的硬件结构示意图,所述基因测序仪包括处理器111及与所述处理器111连接的存储器112,存储器112内存储有用于实现本申请任一实施例提供的基于多任务联合的碱基识别方法的计算机程序,所述计算机程序被所述处理器执行时,实现本申请任一实施例提供的基于多任务联合的碱基识别方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例另一方面,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于多任务联合的碱基识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机、计算机,服务器,或网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围之内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种基于多任务联合的碱基识别方法,其特征在于,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;
通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;
通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。
2.如权利要求1所述的基于多任务联合的碱基识别方法,其特征在于,所述图像重建分支网络为超分辨率重建分支网络;所述通过所述多任务联合识别模型的图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像,包括:
通过所述超分辨率重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的多张超分辨率重建图像。
3.如权利要求2所述的基于多任务联合的碱基识别方法,其特征在于,所述超分辨率重建分支网络包括反卷积层和重建卷积层;
所述反卷积层用于将所述特征图进行上采样,将所述特征图进行放大,所述重建卷积层用于将放大后的所述特征图转换为超分辨率图像。
4.如权利要求2所述的基于多任务联合的碱基识别方法,其特征在于,所述图像重建分支网络的损失函数为均方误差损失函数或者结构相似性损失函数,所述均方误差损失函数表示如下:
y_pred 是模型的预测值,y_true 是真实值,n 是像素总数;
所述结构相似性损失函数表示如下:
μx和μy分别是x和y的均值,σx^2和σy^2是x和y的方差,σxy是x和y的协方差,c1和c2防止除零错误的参数;
所述碱基识别分支网络为交叉熵损失函数,所述交叉熵损失函数表示如下:
其中,C 是类别的数量,y 是真实标签的 one-hot 编码,p 是模型预测的概率分布。
5.如权利要求1所述的基于多任务联合的碱基识别方法,其特征在于,所述碱基识别分支网络包括与各通道输入图像数据分别对应的多个输出通道;所述通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果,包括:
通过所述碱基识别分支网络以所述主干网络输出的所述特征图为输入,基于所述特征图对各通道输入图像数据中各像素点是否为碱基信号采集单元中心进行分类预测,根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果;其中,所述碱基识别结果包括各碱基信号采集单元中心的位置处分别所属碱基类型的识别结果。
6.如权利要求5所述的基于多任务联合的碱基识别方法,其特征在于,所述分类预测结果包括各通道输入图像数据中各像素点为相应类型碱基的碱基信号采集单元中心的概率,所述多通道输入图像数据中同一碱基信号采集单元中心的位置处的所述像素点的概率之和为1;所述根据分类预测结果通过所述输出通道分别输出与各通道输入图像数据对应的碱基识别结果,包括:
根据所述分类预测结果分别确定各通道输入图像数据分别对应的碱基类型的各所述碱基信号采集单元中心的位置处的所述像素点的概率最大值确定其所属碱基类型;
所述输出通道分别输出各通道输入图像数据分别对应的碱基类型的碱基信号采集单元的碱基信号采集单元中心的坐标数据矩阵、概率数据矩阵或荧光图像;或,所述输出通道根据各通道输入图像数据输出包含各碱基信号采集单元中心的位置处分别所属碱基类型的碱基类型标签的坐标数据矩阵、概率数据矩阵或荧光图像。
7.如权利要求1所述的基于多任务联合的碱基识别方法,其特征在于,还包括:
获取训练数据集;其中,每一训练样本包括针对测序芯片的与不同碱基类型的测序信号响应分别对应的多张原始荧光图像、所述原始荧光图像经超分辨处理后对应得到的超分辨率图像作为第一标签图像、所述原始荧光图像经碱基信号采集单元检测定位算法处理后对应得到的掩膜图作为第二标签图像及对应的碱基类型标签;
构建初始的多任务联合模型,所述多任务联合模型包括主干网络、分别以所述主干网络的输出作为输入的图像重建分支网络和碱基识别分支网络,基于所述训练数据集对所述多任务联合模型进行训练,直至损失函数收敛以得到训练后的所述多任务联合识别模型;其中,在训练过程中,所述图像重建分支网络以所述第一标签图像为训练目标进行监督学习,所述碱基识别分支网络以所述第二标签图像和碱基类型标签为训练目标进行监督学习。
8.如权利要求7所述的基于多任务联合的碱基识别方法,其特征在于,所述第二标签图像及对应的碱基类型标签的获得,包括:
获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像;
对所述原始荧光图像经碱基信号采集单元检测定位算法处理确定碱基信号采集单元位置,根据碱基信号采集单元位置形成掩膜图;
根据碱基信号采集单元位置对所述测序芯片采集到的原始荧光图像经碱基识别算法进行碱基识别,确定分别对应的碱基类型标签,基于所述原始荧光图像得到的碱基识别结果在基因测序中获得碱基序列;
将所述碱基序列与已知基因库中的标准碱基序列进行比对,筛选比对成功的碱基序列,并对比对成功的所述碱基序列根据各自匹配的标准碱基序列对其进行校正,根据校正后的碱基序列对所述原始荧光图像经碱基识别算法确定的对应碱基类型进行修正,经修正后得到作为训练样本的多个碱基类型分别对应的原始荧光图像的碱基类型标签;
根据未比对成功的碱基序列对所述掩膜图进行修正,经修正后得到所述第二标签图像。
9.如权利要求8所述的基于多任务联合的碱基识别方法,其特征在于,所述获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始荧光图像,包括;
在碱基信号采集单元测序读段中对多个碱基识别的对应多个循环内,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;
以每一所述循环中,分别与A、C、G、T四种类型碱基的测序信号响应对应的每四张原始荧光图像作为一组,每一训练样本中包括的多张原始荧光图像是指一组原始荧光图像。
10.如权利要求7所述的基于多任务联合的碱基识别方法,其特征在于,所述第一标签图像的获得,包括:
在碱基信号采集单元测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,在不同的结构光照明条件下,分别对测序芯片的目标部位采集与不同碱基类型的测序信号响应对应的多张荧光图像;不同的结构光照明条件包括不同相位偏移和/或不同光栅方向;
针对所述循环中,将多种所述结构光照明条件下采集到的分别与A、C、G、T四种类型碱基的测序信号响应对应的原始荧光图像,经超分辨率算法处理得到第一标签图像。
11.如权利要求1所述的基于多任务联合的碱基识别方法,其特征在于,所述主干网络包括初级卷积层和Dense block网络层;所述通过多任务联合识别模型的主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图,包括:
通过所述主干网络的所述初级卷积层对所述多通道输入图像数据进行特征提取;通过所述Dense block网络层对所述初级卷积层提取到的初级特征进行处理,其中,所述Denseblock网络层包括依序连接的多个Dense block,所述Dense block内的每一卷积层均以在先的卷积层的输出的并集为输入,通过最后一个Dense block输出与所述多通道输入图像数据对应的特征图。
12.一种基于多任务联合的碱基识别装置,其特征在于,包括:
获取模块,用于获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张待测荧光图像形成的多通道输入图像数据;
多任务联合识别模型,通过主干网络对所述多通道输入图像数据分别进行特征提取,得到对应的特征图;通过图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过图像重建分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据分别对应的预设图像质量指标参数提升的多张重建图像;通过所述多任务联合识别模型的碱基识别分支网络以所述主干网络输出的所述特征图为输入,输出与各通道输入图像数据对应的碱基识别结果。
13.一种基因测序仪,其特征在于,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至11中任一项所述的基于多任务联合的碱基识别方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的基于多任务联合的碱基识别方法。
CN202311212582.5A 2023-09-20 2023-09-20 基于多任务联合的碱基识别方法及装置、基因测序仪及介质 Active CN116994246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311212582.5A CN116994246B (zh) 2023-09-20 2023-09-20 基于多任务联合的碱基识别方法及装置、基因测序仪及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311212582.5A CN116994246B (zh) 2023-09-20 2023-09-20 基于多任务联合的碱基识别方法及装置、基因测序仪及介质

Publications (2)

Publication Number Publication Date
CN116994246A true CN116994246A (zh) 2023-11-03
CN116994246B CN116994246B (zh) 2024-02-13

Family

ID=88525030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311212582.5A Active CN116994246B (zh) 2023-09-20 2023-09-20 基于多任务联合的碱基识别方法及装置、基因测序仪及介质

Country Status (1)

Country Link
CN (1) CN116994246B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237198A (zh) * 2023-11-10 2023-12-15 深圳赛陆医疗科技有限公司 基于深度学习的超分辨测序方法及装置、测序仪及介质
CN117392673A (zh) * 2023-12-12 2024-01-12 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及介质
CN117744748A (zh) * 2024-02-20 2024-03-22 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250720A (zh) * 2016-08-23 2016-12-21 吕忠华 一种根据相似度预先分组的dna测序图像处理系统
US20200286582A1 (en) * 2017-11-13 2020-09-10 Industry-University Cooperation Foundation Hanyang University Sample data analysis method based on genomic module network with filtered data
CN113313115A (zh) * 2021-06-11 2021-08-27 浙江商汤科技开发有限公司 车牌属性识别方法及装置、电子设备和存储介质
CN115019293A (zh) * 2022-05-31 2022-09-06 浙江大华技术股份有限公司 一种图像识别的方法及设备
CN115170819A (zh) * 2022-07-21 2022-10-11 北京百度网讯科技有限公司 目标识别方法及装置、电子设备和介质
CN115240189A (zh) * 2021-04-16 2022-10-25 深圳市华大智造软件技术有限公司 碱基分类方法、基因测序仪、计算机可读存储介质
CN116703867A (zh) * 2023-06-09 2023-09-05 太原理工大学 残差网络与通道注意力协同驱动下的基因突变预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250720A (zh) * 2016-08-23 2016-12-21 吕忠华 一种根据相似度预先分组的dna测序图像处理系统
US20200286582A1 (en) * 2017-11-13 2020-09-10 Industry-University Cooperation Foundation Hanyang University Sample data analysis method based on genomic module network with filtered data
CN115240189A (zh) * 2021-04-16 2022-10-25 深圳市华大智造软件技术有限公司 碱基分类方法、基因测序仪、计算机可读存储介质
CN113313115A (zh) * 2021-06-11 2021-08-27 浙江商汤科技开发有限公司 车牌属性识别方法及装置、电子设备和存储介质
CN115019293A (zh) * 2022-05-31 2022-09-06 浙江大华技术股份有限公司 一种图像识别的方法及设备
CN115170819A (zh) * 2022-07-21 2022-10-11 北京百度网讯科技有限公司 目标识别方法及装置、电子设备和介质
CN116703867A (zh) * 2023-06-09 2023-09-05 太原理工大学 残差网络与通道注意力协同驱动下的基因突变预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WANG,XL 等: "A Survey of Disease Progression Modeling Techniques for Alzheimer\'s Diseases", 《2019 IEEE 17TH INTERNATIONAL CONFERENCE ON INDUSTRIAL INFORMATICS (INDIN)》, pages 1237 - 1242 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117237198A (zh) * 2023-11-10 2023-12-15 深圳赛陆医疗科技有限公司 基于深度学习的超分辨测序方法及装置、测序仪及介质
CN117237198B (zh) * 2023-11-10 2024-03-12 深圳赛陆医疗科技有限公司 基于深度学习的超分辨测序方法及装置、测序仪及介质
CN117392673A (zh) * 2023-12-12 2024-01-12 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及介质
CN117392673B (zh) * 2023-12-12 2024-02-13 深圳赛陆医疗科技有限公司 碱基识别方法及装置、基因测序仪及介质
CN117744748A (zh) * 2024-02-20 2024-03-22 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备
CN117744748B (zh) * 2024-02-20 2024-04-30 北京普译生物科技有限公司 一种神经网络模型训练、碱基识别方法及装置、电子设备

Also Published As

Publication number Publication date
CN116994246B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN116994246B (zh) 基于多任务联合的碱基识别方法及装置、基因测序仪及介质
AU2008261935B2 (en) Methods and processes for calling bases in sequence by incorporation methods
US11817182B2 (en) Base calling using three-dimentional (3D) convolution
AU2020241905A1 (en) Artificial intelligence-based base calling
WO2020191387A1 (en) Artificial intelligence-based base calling
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
WO2023115550A1 (en) Deep learning based methods and systems for nucleic acid sequencing
CA3104851A1 (en) Base calling using convolutions
CN117274614A (zh) 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质
CN117392673B (zh) 碱基识别方法及装置、基因测序仪及介质
WO2021120715A1 (zh) 识别核酸中的碱基的方法和系统
CN116596933B (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
CN116363403B (zh) 用于基因样本的图像识别方法、图像识别系统和存储介质
Blekas et al. An unsupervised artifact correction approach for the analysis of DNA microarray images
CN117523559B (zh) 碱基识别方法及装置、基因测序仪及存储介质
CN117237198B (zh) 基于深度学习的超分辨测序方法及装置、测序仪及介质
CN117274739A (zh) 碱基识别方法及其训练集构建方法、基因测序仪及介质
CN117877025A (zh) 三维碱基识别方法及装置、基因测序仪及存储介质
US20240177505A1 (en) Method and apparatus for determining a signal composition of signal series from an image series
WO2023097685A1 (zh) 核酸样本的碱基识别方法及装置
Milli Improving recall of In situ sequencing by self-learned features and classical image analysis techniques
CN118116469A (zh) 一种序列质量参数的生成方法及装置
CN117233100A (zh) 基于色度sCMOS的多色荧光数字PCR定量检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant