CN117523559B - 碱基识别方法及装置、基因测序仪及存储介质 - Google Patents

碱基识别方法及装置、基因测序仪及存储介质 Download PDF

Info

Publication number
CN117523559B
CN117523559B CN202410021676.2A CN202410021676A CN117523559B CN 117523559 B CN117523559 B CN 117523559B CN 202410021676 A CN202410021676 A CN 202410021676A CN 117523559 B CN117523559 B CN 117523559B
Authority
CN
China
Prior art keywords
base
training
input
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410021676.2A
Other languages
English (en)
Other versions
CN117523559A (zh
Inventor
彭宽宽
陈伟
周祎楠
王谷丰
赵陆洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailu Medical Technology Co ltd
Original Assignee
Shenzhen Sailu Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailu Medical Technology Co ltd filed Critical Shenzhen Sailu Medical Technology Co ltd
Priority to CN202410021676.2A priority Critical patent/CN117523559B/zh
Publication of CN117523559A publication Critical patent/CN117523559A/zh
Application granted granted Critical
Publication of CN117523559B publication Critical patent/CN117523559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)

Abstract

本发明公开一种基于半监督学习的碱基识别方法及装置、基因测序仪及存储介质,所述方法包括:获取多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于待测荧光图像形成待测输入图像数据;将待测输入图像数据作为训练后的碱基识别模型的输入,并通过训练后的碱基识别模型输出待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;其中训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像,所述样本荧光图像对应的碱基类型标签图、对应的第一掩膜图及第二掩膜图。

Description

碱基识别方法及装置、基因测序仪及存储介质
技术领域
本发明涉及基因技术领域,特别涉及一种基于半监督学习的碱基识别方法及装置、基因测序仪及计算机可读存储介质。
背景技术
测序仪是一种广泛用于基因组测序的测序仪器,它可以快速、准确地测定DNA序列。目前测序仪的测序算法已经从不依赖数据集的传统测序算法发展到了依赖数据集进行训练得到基于深度学习的测序算法。深度学习是一种基于包括训练样本及标签的数据集对深度学习网络进行训练,在训练过程中以标签为训练目标训练深度学习网络,并获得训练样本对应的经过深度学习网络拟合的相似标签。因此,深度学习的效果取决于数据集与网络模型两个方面,其中数据集是基础,获得一个完备且具有表征能力的数据集更有利于提高基于深度学习的测序算法的碱基识别精度。
基因测序是指分析待测数据的DNA 片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式,基因测序的输入图像为包含多种碱基类型的碱基簇的图像。在基因样本染色后,在特定激光下激发荧光,被镜头捕捉。通过不同激光功率激发基因样本散发不同亮度的荧光,可以得到不同激光功率下捕获的四张荧光图像,即A碱基荧光图像、T碱基荧光图像、C碱基荧光图像及G碱基荧光图像。对捕获的荧光图像中的亮度进行分析以实现对待测数据中的每个碱基簇的碱基类别的识别。但由于不同激光功率下捕获的四张图像中,每张荧光图像只包含一种碱基类型的碱基的信息,信息量有限。而且由于激光功率不同,四张图像背景亮度也不同,会有高功率捕获图像整体比低功率捕获图像更亮的情况,这样就会造成不同碱基类型的荧光图像间的背景差距较大。在训练深度学习网络模型时由于训练样本间的较大的背景差异,会让深度学习网络模型更关注背景差异带来的分类结果,而不是基因簇本身亮度差异带来的分类结果,使深度学习网络模型不易收敛,从而增加了训练难度。
目前,基因测序技术主要可分为三代,第一代测序技术Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法,由Sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以Illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是Nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssDNA或RNA模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。
第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像的荧光信号来获得碱基序列。为了实现对不同碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征。同一场景下需要拍摄多张图像,通过对这些图像进行定位和配准,提取点信号并进行亮度信息分析处理,得到碱基序列。随着二代测序技术的发展,测序仪产品现在都配有实时处理测序数据的软件。不同的测序平台会采用不同的光学系统和荧光染料,因此荧光分子发光的频谱特征会有差异。如果算法无法得到适当的特征或者找到合适的参数以处理这些不同的特征,就可能导致碱基分类出现较大误差,从而影响测序质量。
此外,二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,如图1。通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,如图2。在DNA测序中,常用的荧光标记为四种,将这四种荧光标记同时加入一个循环(Cycle)中,并利用相机拍摄荧光信号的图像。由于每个荧光标记都对应一种特定的波长,因此我们能够在图像中分离出不同荧光标记对应的荧光信号,进而得到对应的荧光图像,如图3。在此过程中,可以对相机进行对焦调整以及采样参数设置,以确保所得到的TIF灰度图像质量达到最优。然而,在实际应用过程中,荧光图像中碱基簇的亮度总是受到多种因素的干扰,主要包括图像内碱基簇的之间的串扰(Spatial Crosstalk),通道内的串扰(Crosstalk)和循环之间的串扰(Phasing、Prephasing)。已知的碱基识别技术主要是对串扰和强度进行归一化,但矫正方法不尽相同。通过每个周期内的crosstalk矩阵和phasing与prephasing比率来矫正荧光光强度值,去除串扰噪声,然后通过4个通道的光强值来识别碱基,如图4。然而,现有的碱基识别技术只能对已知的亮度干扰因素,如通道间的亮度串扰,cycle间提前反应或延迟反应导致的phasing和prephasing现象进行矫正,无法校正其它未知的生化或者环境的影响造成的亮度干扰,导致识别精度不高,当样本密度越高时,碱基簇越密集,碱基簇之间的亮度串扰越严重,导致测序准确度大大降低。现有的这些机器学习的方法通常只能在提取亮度之后进行,只利用提取到的碱基簇的中心亮度信息作为输入,未能充分挖掘图像数据的信息发挥出机器学习的优势,未能充分利用多个cycle之间的信息,因此识别精度有待提高。而且现有机器学习模型的训练需要精确的标签,由于传统测序算法的局限性,始终存在约10%左右的碱基链无法被获得精确标签,因此会影响模型训练的精度。
发明内容
为了解决现有存在的技术问题,本发明实施例提供一种基于半监督学习的碱基识别方法、装置、设备及计算机可读存储介质,能够实现基于半监督学习的训练方法得到碱基识别模型,从而使模型能更好地理解和泛化到不同的情况,从而提高碱基识别精度。
第一方面,提供一种基于半监督学习的碱基识别方法,包括:
获取测序芯片上多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于所述待测荧光图像形成待测输入图像数据;其中所述待测荧光图像包括多种碱基类型对应的待测荧光图像;
将所述待测输入图像数据作为训练后的碱基识别模型的输入,并通过所述训练后的碱基识别模型输出所述待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;
其中所述训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像、以及所述样本荧光图像对应的碱基类型标签图,每一所述训练样本对应的训练标签还包括所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图, 其中所述第一掩膜图用于标记所述样本荧光图像中有碱基类型标签的碱基信号采集单元的位置;所述第二掩膜图用于标记所述样本荧光图像中没有碱基类型标签的碱基信号采集单元的位置。
第二方面,提供一种基于半监督学习的碱基识别装置,包括:
获取模块,用于获取测序芯片上多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于所述待测荧光图像形成待测输入图像数据;其中所述待测荧光图像包括多种碱基类型对应的待测荧光图像;
识别模块,用于将所述待测输入图像数据作为训练后的碱基识别模型的输入,并通过所述训练后的碱基识别模型输出所述待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;
其中所述训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像、以及所述样本荧光图像对应的碱基类型标签图,每一所述训练样本对应的训练标签还包括所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图, 其中所述第一掩膜图用于标记所述样本荧光图像中有碱基类型标签的碱基信号采集单元的位置;所述第二掩膜图用于标记所述样本荧光图像中没有碱基类型标签的碱基信号采集单元的位置。
第三方面,提供一种基因测序仪,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请实施例所提供的基于半监督学习的碱基识别方法的步骤。
第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请实施例所提供的基于半监督学习的碱基识别方法的步骤。
上述实施例所提供的基于半监督学习的碱基识别方法及装置、基因测试仪、计算机可读存储介质,在训练碱基识别模型时,采用多次循环下采集的训练样本进行训练学习,使碱基识别模型在预测碱基识别结果时,学习不同循环下的样本图像的亮度关系特征,可以提高模型对不同循环下的提前反应或者延迟反应的适应性。而且每一训练样本包括多种碱基通道对应的荧光图像,使碱基识别模型学习不同碱基通道间的亮度关系特征,可以提高模型对不同碱基通道间的亮度串扰上的适应性。通过第一掩膜图标记样本荧光图像中已经有真实碱基类型标签的碱基簇,通过第二掩膜图标记样本荧光图像中没有真实碱基类型标签的碱基簇,从而能在训练碱基识别模型时,实现一种半监督学习,训练样本中有真实碱基类型标签的数据以真实碱基类型标签为训练目标进行监督学习,可以使模型关注有真实碱基类型标签的数据的特征,从而可以加快模型收敛。同时没有真实碱基类型标签的碱基簇可以让模型在训练时,关注没有实碱基类型标签的数据的特征,学习到更到的多样化的没有碱基类型标签数据的特征,帮助模型更好地理解和泛化到不同的情况,这样模型可以更好地平衡训练数据和泛化需求,降低过拟合的风险。而且通过第二掩膜图能够将没有真实碱基类型标签的碱基簇整合到训练样本中,从而可以增加训练样本的规模。
附图说明
图1为一实施例中不同荧光分子的荧光信号波长的分布示意图;
图2为一实施例中拍摄装置采集荧光图像,其中,拍摄装置利用滤光片选择性地过滤掉非特定波长的光线,以获得特定波长荧光信号的图像的原理示意图;
图3为一实施例中与ATCG四种碱基类型的测序信号响应对应的四张荧光图像的示意图、以及其中一张荧光图像的局部放大示意图;
图4为一实施例中已知的碱基识别流程图;
图5为一实施例中芯片及芯片上碱基信号采集单元的示意图;
图6为一实施例中基于半监督学习的碱基识别方法的流程图;
图7为一实施例中第一掩膜图及第二掩膜图的示意图;
图8为一实施例中基于半监督学习的碱基识别方法中训练碱基识别模型的流程图;
图9为一实施例中基于碱基簇位置生成掩膜图的示意图;
图10为一实施例中碱基识别模型的构成示意图;
图11为一实施例中基于半监督学习的碱基识别方法的架构图;
图12为一实施例中基于半监督学习的碱基识别方法中训练碱基识别模型时计算第一损失值的示意图;
图13为一实施例中基于半监督学习的碱基识别方法中训练碱基识别模型时计算第二损失值的示意图;
图14为一实施例中基于半监督学习的碱基识别装置的示意图;
图15为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明的保护范围。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,但是应当理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
基因测序是指分析待测数据的DNA 片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。目前普遍使用荧光标记的方法进行基因测序,基因测序光学系统用激光激发测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段,以此识别碱基。
二代测序技术,以Illumina测序仪为例,利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,因此通过获取荧光信号,对荧光信号进行分析可以识别出碱基类型。主要包括样品制备、簇生成、测序及数据分析。
样品制备:将需要测序的DNA样品进行提取和纯化处理,然后进行DNA片段化及适配体连接。在可选示例中,通常采用超声波或限制性内切酶将DNA样品进行切割,将DNA样品切割成较小的大量的DNA片段。然后在DNA片段两端连接适配体,适配体包含特定序列用于后续连接和测序反应。
簇生成:该过程是对DNA片段进行扩增形成固定的DNA片段以便于后续将一个DNA片段形成一个碱基簇。在可选示例中,具体地,通过聚合酶链式反应(Polymerase ChainReaction,PCR)或桥式扩增等方法将DNA片段进行扩增,使得每个DNA片段形成数以百万计的复制品,将扩增的DNA片段固定在固定板上。每个DNA片段在固定板上形成一个独立的簇。
测序, 是指针对Flowcell上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮基团,可以在测序的链延伸时候阻止聚合,确保一个循环(cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。一次循环中,针对每一碱基簇通过荧光标记dNTP识别一个碱基,通过特定颜色的荧光信号分别对应不同碱基类型的测序信号响应,通过激光扫描可根据发出的荧光颜色来判断当前循环内针对每一碱基簇对应的是哪个碱基。一次循环中,数以千万的碱基簇在Flowcell被同时测序,一个荧光点代表一个碱基簇发出的荧光,一个碱基簇则对应fastq当中的一条read。在测序阶段,通过红外相机拍摄Flowcell表面的荧光图像,对荧光图像进行图像处理和荧光点位置定位进行碱基簇检测,根据与不同碱基类型的测序信号响应对应的多张荧光图像的碱基簇检测结果进行模板构建,构建出Flowcell上所有碱基簇模板点(cluster)的位置。根据模板,对滤波后图像进行荧光强度的提取,然后对荧光强度进行矫正,最终根据各碱基簇模板点位置的最大强度识别碱基计算得分,输出fastq碱基序列文件。请参阅图5,分别为Flowcell示意图(如图5中(a))、一次循环中针对Flowcell上相应部位拍摄的荧光图像(如图5中(b))、及fastq文件中测序结果显示的示意图(如图5中(c))。
基因测序仪还可包括光学平台,光学平台可包括操作台和相机,其中,测序芯片可置于操作台上,基因测序仪用激光激发测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段。也即四种碱基类型的荧光图像。通过相机对测序芯片进行拍照,捕获测试芯片上的电荷耦合器件(CCD)上产生的荧光信号的荧光图像,在一张荧光图像中有很多荧光点,荧光图像中的一个荧光点代表一个碱基簇发出的荧光。
基因测序仪的成像方式可以是四通道成像系统或者双通道成像系统。对于双通道成像系统,每个相机需要在测试芯片的同一位置曝光两次。对于四通道成像系统,每个通道的相机在样品同一位置拍摄一次,分别得到四种碱基类型的荧光图像。例如分别得到A碱基类型的荧光图像、分别代表着A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。由于通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,则每种碱基类型对应不同的荧光信号,在同一个循环(Cycle)反应中,同一类型碱基簇在其对应的类别碱基类型发光的亮度远远大于其它类别的碱基,每个通道发光的碱基簇理论上不会有重复。
基因测序仪获取到荧光图像后,会对采集的图像进行基因图像重构,基因图像配准、基因碱基识别(基因basecall),从而获取基因序列。
其中基因图像重构用于提高荧光图像的分辨率,以提高图像的清晰度,以减小样本间的串扰影响。基因图像重构包括但不限于去卷积等常规操作。
基因图像配准是对四个碱基类型的荧光图像进行校正,使四个碱基类型的荧光图像能够重合,才能提取到同一个位置的4个通道的荧光亮度,便于后续的碱基识别。基因图像配准包括但不限于同一通道的图像配准、全局或局部的仿射配准。
基因识别过程是根据配准后的图像,判断图像中的碱基簇属于A、C、G、T四种碱基的某一种。待测数据经过基因识别后,待测数据息从数字图像转化为A、C、G、T四种碱基的序列信息,即为样本的DNA序列结果,以供后续分析与评估。
数据分析:根据图像数据和序列信息进行测序数据的分析和解读。将序列信息与参考基因组进行比对用于突变识别。
对一个待测数据的测序的过程称为一次运行Run,一个待测数据的测序过程是由多个循环(Cycle)组成,一个循环对应一个反应周期,也即对应测序芯片中的一次碱基类型的识别。测序时,是边合成边测序。在一次循环中,数以千万的碱基簇被同时测序。
一个待测数据包括很多个DNA片段,在上述测序过程中,每个DNA片段会添加一个碱基,因此待测数据的DNA的碱基序列的长度决定了循环的次数。每一循环中,基因测序仪可得到ACGT四个碱基类型各一张荧光图像,在对待测数据进行测序时,基因测序仪能够获取到多个循环的ACGT通道的荧光图像。
需要说明的是,上述是以Illumina测序技术作为大规模平行测序技术(MPS)的一种示例对测序流程进行说明,通过将待测DNA分子通过特定的扩增技术进行扩增,针对每一DNA片段(单链文库分子)扩增形成碱基簇,以碱基簇检测结果构建测序芯片上碱基簇的模板点,以便于后续能够根据碱基簇的模板点进行碱基识别等操作,提升碱基识别效率和准确性。可以理解的是,本申请实施例所提供的基于荧光标记dNTP基因测序的碱基识别方法,是基于测序芯片上单链文库分子扩增后的碱基簇进行定位检测和碱基类型识别,这里,每个碱基簇即指一个碱基信号采集单元,从而其并不受限于针对单链文库分子所采用的哪一种扩增技术,也即,本申请实施例所提供的基于半监督学习的碱基识别方法,同样可以适用于其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的定位检测和碱基类型识别,比如,碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇,也包括通过滚环扩增技术(RCA, Rolling Circle Amplification)得到的纳米球,等等,本申请对此不作限制。在以下实施例中,为了便于理解,以碱基信号采集单元为碱基簇为例进行说明。
请参阅图6,为本申请一实施例提供的基于半监督学习的碱基识别方法的流程图。基于半监督学习的碱基识别方法应用于基因测序仪中,该基于半监督学习的碱基识别方法包括如下步骤:
S11、获取测序芯片上多种碱基类型的碱基信号采集单元对应的待测荧光图像。
在本实施例中,待测荧光图像包括多种碱基类型对应的荧光图像。待测荧光图像可以是一次循环中采集的荧光图像,也可以是多次循环下采集的荧光图像。
对一个待测基因样本的测序的过程称为一次运行Run,一个待测基因样本会被打断成M条待测碱基序列,也可以称为短链,每条待测碱基序列包括N个碱基簇,在一次循环中,同时对这M条短链的顶端的碱基簇,在测序芯片上进行测序反应,在测序芯片上,正在测序的每个碱基簇对应一个位置,在一次循环中,数以千万的碱基簇被同时测序。N决定了测试的循环数,N越大,循环数越多。在不同的循环下,分别对这M条待测碱基序列中的碱基簇进行测序。例如一个待测基因样本被打断成一万条短链,每条短链的长度是100个碱基,那么就需要100个循环的测序反应进行碱基类型的识别。在每次循环下,这一万条短链的顶端的碱基簇在测序芯片上进行测序反应。
在测序反应时测序芯片上不同类型的碱基簇会分别被接上不同的荧光标记物之一,在一次循环中,基因测序仪利用激光激发测序芯片上的荧光发出荧光信号,利用基因测序仪的相机,捕获该次循环下的拍摄视野范围内所对应的测序芯片上目标位置区域的荧光图像。在每个循环中,基因测序仪的相机拍摄一次,可以得到多种碱基类型对应的荧光图像,例如A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。例如基因测序仪的成像系统是四通道的成像模式,则在一个循环中,在该次循环的视野拍摄范围内拍摄一次,可以得到四种碱基类型的荧光图像。例如,一个待测基因样本被打断成一万条短链,在一次循环下,基因测序仪的相机调整相机视野,捕获该次循环下的拍摄视野范围内所对应的测序芯片上这一万条短链的顶端的碱基簇的荧光图像,其中一个碱基簇对应一个read,那么此时就有一万条read。
S12、将待测输入图像数据作为训练后的碱基识别模型的输入,并通过训练后的碱基识别模型输出所述待测输入图像数据的碱基识别结果,训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型。
在本实施例中,训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型。其中所述训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像、以及所述样本荧光图像对应的碱基类型标签图,每一所述训练样本对应的训练标签还包括所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图, 其中第一掩膜图用于标记所述样本荧光图像中有碱基类型标签的碱基信号采集单元的位置;第二掩膜图用于标记所述样本荧光图像中没有碱基类型标签的碱基信号采集单元的位置。
其中一次循环下的多种碱基类型对应的样本荧光图像包括A碱基类型的样本荧光图像、C碱基类型的样本荧光图像、G碱基类型的样本荧光图像及T碱基类型的样本荧光图像。碱基类型标签图用于标识样本荧光图像中与第一掩膜图对应的位置处的碱基簇的碱基类型标签。第一掩膜图、第二掩膜图的图像尺寸与样本荧光图像的尺寸相同。对于同一测序芯片上的一次基因测序而言,多次循环下的样本荧光图像对应的第一掩膜图相同,多次循环下的样本荧光图像对应的第二掩膜图相同。例如若在一次基因测序过程中同时对30万条短链测序,其中每条短链的碱基长度为100个碱基,那么在这100次循环下采集的样本荧光图像对应的第一掩膜图相同,这100次循环下采集的样本荧光图像对应的第二掩膜图相同。
其中第一掩膜图用于标记样本荧光图像中已经有真实碱基类型标签的碱基簇位置,例如在第一掩膜图中,有真实碱基类型标签的碱基簇位置处标记为“1”,其他位置为0。第二掩膜图用于标记样本荧光图像中没有真实碱基类型标签的碱基簇位置,例如在第二掩膜图中,没有真实碱基类型标签的碱基簇位置处标记为“1”,其他位置为0。在训练碱基识别模型时,通过第一掩膜图及第二掩膜图能够标注出训练样本中有真实碱基类型标签的数据及没有真实碱基类型标签的数据,对于有真实碱基类型标签的数据,在训练时,可以以有真实碱基类型标签为训练目标进行训练学习,对于没有真实碱基类型标签的数据,可以进行无标签的训练学习,这样结合了有真实碱基类型标签的数据和没有真实碱基类型标签的数据来结合训练碱基识别模型,从而实现一种半监督学习。有真实碱基类型标签的数据通常包含各种不同情况下的特征,但是在有些采集的数据中可能存在信息缺失,有些位置处的碱基簇就没有真实碱基类型标签,通过将没有真实碱基类型标签的数据引入训练集,可以让模型可以学习到更多的信息,从而更好地适应各种不同的情况,提高泛化性能。
例如,如图7所示,在4×4的样本荧光图像中,碱基簇位置示意图中在(1,3)、(2,1)、(2,3)、(3,2)、(3,4)、(4,2)处有碱基簇,其他位置处为背景图,第一掩膜图、样本荧光图像及第二掩膜图都是矩阵的图像,其中第一掩膜图在位置(1,3)、(2,1)、(2,3)及(4,2)处标识为“1”,表示输入的样本荧光图像在位置(1,3)、(2,1)、(2,3)及(4,2)处有真实碱基类型标签。对输入的样本荧光图像进行碱基识别,得到表示碱基类型的输出图像,输出图像经第一掩膜图处理后,在位置(1,3)、(2,1)、(2,3)及(4,2)这四个位置处有碱基识别结果,在经第一掩膜图处理的输出图像中 1表示A碱基类型,2表示C碱基类型,3表示G碱基类型,4表示T碱基类型。在第二掩膜图中在位置(3,2)、(3,4)处标识为“1”,其他位置标识为“0”,标识为“1”的位置处的碱基簇没有真实碱基类型标签。在第一掩膜图及第二掩膜图中非碱基簇位置处都为“0”,非碱基簇位置处的背景值不参与计算。
在训练碱基识别模型时,采用多次循环下采集的训练样本进行训练学习,使碱基识别模型在预测碱基识别结果时,学习不同循环下的样本图像的亮度关系特征,可以提高模型对不同循环下的提前反应或者延迟反应的适应性。而且每一训练样本包括多种碱基通道对应的荧光图像,使碱基识别模型学习不同碱基通道间的亮度关系特征,可以提高模型对不同碱基通道间的亮度串扰上的适应性。通过第一掩膜图标记样本荧光图像中已经有真实碱基类型标签的碱基簇,通过第二掩膜图标记样本荧光图像中没有真实碱基类型标签的碱基簇,从而能在训练碱基识别模型时,实现一种半监督学习,训练样本中有真实碱基类型标签的数据以真实碱基类型标签为训练目标进行训练学习,可以使模型关注有真实碱基类型标签的数据的特征,从而可以加快模型收敛。同时没有真实碱基类型标签的碱基簇可以让模型在训练时,关注没有实碱基类型标签的数据的特征,学习到更到的多样化的没有碱基类型标签数据的特征,帮助模型更好地理解和泛化到不同的情况,这样模型可以更好地平衡训练数据和泛化需求,降低过拟合的风险。而且通过第二掩膜图能够将没有真实碱基类型标签的碱基簇整合到训练样本中,从而可以增加训练样本的规模。
在一些实施例中,所述方法还包括:
获取训练数据集;
从所述训练数据集中获取训练样本作为输入训练样本,基于不同的数据增强方式对所述输入训练样本处理,得到所述输入训练样本对应的多组处理后的训练样本,基于所述输入训练样本对应的多组处理后的训练样本,形成所述输入训练样本对应的多组输入数据;
构建初始的碱基识别模型,将所述输入训练样本对应的多组输入数据分别作为所述碱基识别模型的输入,得到每组输入数据对应的碱基识别数据,通过所述训练数据集对所述初始的碱基识别模型进行迭代训练,直至损失函数收敛,得到训练后的所述碱基识别模型;
其中损失函数包括:
计算调整后的每组输入数据对应的碱基识别数据与所述输入训练样本对应的碱基类型标签图之间的第一损失值的第一损失函数,其中所述调整后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第一掩膜图对每组输入数据对应的碱基识别数据进行调整得到的;
及计算处理后的每两组输入数据对应的碱基识别数据间的第二损失值的第二损失函数,其中所述处理后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第二掩膜图对每组输入数据对应的碱基识别数据进行处理得到的。
在上述实施例中,基于不同的数据增强方式对输入训练样本进行处理得到多组处理后的训练样本,从而增加了训练样本,基于多组处理后的训练样本形成的输入训练样本对应的多组输入数据作为训练中的碱基模型的输入数据,在迭代训练过程中,利用第一掩膜图对每组输入数据对应的碱基识别数据中没有真实碱基类型标签的碱基簇进行遮挡,在利用第一损失函数时计算损失时更关注有真实碱基类型标签的碱基簇的碱基识别结果,从而减少没有真实碱基类型标签的碱基簇的识别结果的影响,从而加快模型的训练速度。同时引入第二掩膜图对每组输入数据对应的碱基识别数据中有真实碱基类型标签的碱基簇进行遮挡,在利用第二损失函数计算损失时更关注每两组中没有真实碱基类型标签的碱基簇的识别结果的一致性损失,从而使模型在训练时学习更多没有真实碱基类型标签的碱基簇的特征,学习到更到的多样化的特征,帮助模型更好地理解和泛化到不同的情况,这样模型可以更好地平衡训练数据和泛化需求,降低过拟合的风险。
如图8所示,图8为一实施例中基于半监督学习的碱基识别方法中训练碱基识别模型的流程图;该流程图包括:
S81、获取训练数据集。
其中训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像,样本荧光图像对应的碱基类型标签图、所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图。例如,在一次循环下采集四种A、C、G、T碱基类型的样本荧光图像。
在一些实施例中,利用传统碱基簇位置定位算法定位各循环下采集的多种碱基类型的样本荧光图像中表示碱基簇中心的碱基簇位置,利用传统碱基识别算法,对各循环下采集的多种碱基类型的样本荧光图像中碱基簇位置处的碱基类型进行碱基识别,得到各循环下样本荧光图像对应的碱基识别结果,根据在测序芯片连续采集的多次循环下的样本荧光图像的碱基识别结果获得碱基序列,将碱基序列与已知基因库中的标准碱基序列进行比对,确定与标准碱基序列对比成功的碱基序列及与标准碱基序列对比失败的碱基序列,根据碱基簇位置、对比成功的碱基序列及对比失败的碱基序列生成第一掩膜图及第二掩膜图。其中掩膜(mask)图是指选定用于对处理的图像进行遮挡以用于控制图像处理的区域或处理过程的模板。第一掩膜图用于标记有真实碱基类型标签的碱基簇位置,用于对处理的图像遮挡没有真实碱基类型标签的碱基簇位置。第二掩膜图用于标记没有真实碱基类型标签的碱基簇位置,用于对处理的图像遮挡有真实碱基类型标签的碱基簇位置。
可选的,将正确识别的碱基的占比大于或者等于预设比例的碱基序列确定为与标准碱基序列对比成功的碱基序列,将正确识别的碱基的占比小于预设比例的碱基序列确定为与标准碱基序列对比失败的碱基序列。其中一条碱基序列中正确识别的碱基的占比等于一条碱基序列中正确识别的碱基数/一条碱基序列中的碱基总数。
在测序芯片上的一次基因测序时,一次输入多条样本基因序列,即输入多条样本短链,在每次循环下,是对多条样本短链的顶端的碱基簇进行测序反应,并拍照获取每次循环下的多种碱基类型的样本荧光图像。在每次循环下,每条样本短链对应的碱基簇在测序芯片上的位置是固定的。因此,在一次基因测序时,根据测序芯片上碱基簇位置,及多条样本短链对应的碱基序列的比对结果能够得到该次基因测序下的第一掩膜图及第二掩膜图,即多条样本短链对应的第一掩膜图及第二掩膜图。生成后的第一掩膜图作为该次基因测序的多次循环下采集的样本荧光图像对应的第一掩膜图,生成后的第二掩膜图作为该次基因测序的多次循环下采集的样本荧光图像对应的第二掩膜图。
在对同一测序芯片的一次基因测序过程中,是对相同输入的多条样本短链进行测序,因此各循环下采集的多种碱基类型的样本荧光图像对应的第一掩膜图相同,对应的第二掩膜图也相同。
如图9所示,图9为一实施例中基于碱基簇位置生成掩膜图的示意图;碱基簇位置分布图为一次循环下对四条短链的顶端的碱基簇进行测序反应时的碱基簇位置分布图,碱基簇位置分布图中背景位置处为“0”。其中碱基簇A1表示样本短链A1的碱基簇,碱基簇A2表示样本短链A2的碱基簇,碱基簇A3表示样本短链A3的碱基簇,这三条样本短链的碱基长度为10,利用传统碱基识别算法分别对采集的样本短链A1、A2及A3的10次循环下的多种碱基类型的样本荧光图像进行碱基识别,分别得到样本短链A1、A2、A3的碱基序列,经与标准碱基序列比对后,样本短链A1对应的碱基序列为对比成功的碱基序列,样本短链A2、A3对应的碱基序列为对比失败的碱基序列,因此根据碱基簇位置生成的在第一掩膜图中样本短链A1的碱基簇所在的位置标记为“1”,其余位置为0,表示标记为“1”的位置处的碱基簇有真实碱基类型标签。根据碱基簇位置生成的在第一掩膜图中样本短链A1的碱基簇所在的位置标记为“0”,其余位置为1,表示标记为“1”的位置处的碱基簇没有真实碱基类型标签。
可选的,在对比成功的碱基序列中,可能有一些碱基基于传统的碱基识别算法是识别错误的碱基,根据标准碱基序列对对比成功的碱基序列中识别错误的碱基进行修正,得到修正后的碱基序列,基于修正后的碱基序列及定位出的测序芯片上的碱基簇位置,确定每次循环下的多种碱基类型对应的样本荧光图像对应的碱基类型标签图。
S82、从所述训练数据集中获取训练样本作为输入训练样本,基于不同的数据增强方式对所述输入训练样本处理,得到所述输入训练样本对应的多组处理后的训练样本,基于所述输入训练样本对应的多组处理后的训练样本,形成所述输入训练样本对应的多组输入数据。
在一些实施例中,不同的数据增强方式包括以下至少一种组合:在输入训练样本上添加不同的噪声、对输入训练样本执行不同的亮度处理。
其中每组处理后的训练样本的图像尺寸与输入训练样本的图像尺寸相同。例如在输入训练样本A上两种不同的随机高斯噪声,得到两种处理后的训练样本A1及A2。
通过不同的数据增强方式对训练样本进行处理,可以得到多组处理后的训练样本,从而对训练样本的规模进行扩充,而且在训练样本中添加噪声等数据增强方式以提高训练样本数据的多样性和鲁棒性,可以让模型在训练时,能够学习到训练样本中的更多特征,使训练后的碱基识别模型更能适应不同数据类型下的数据,从而提高碱基识别的精度。
S83、构建初始的碱基识别模型,将所述输入训练样本对应的多组输入数据分别作为所述碱基识别模型的输入,得到每组输入数据对应的碱基识别数据,通过所述训练数据集对所述初始的碱基识别模型进行迭代训练,基于损失函数计算每次迭代过程中的损失值。
在一些实施例中,碱基识别模型为基于Unet(U-shaped Convolutional NeuralNetwork)网络的深度学习模型,主要包括编码器(Encoder)、中间连接(SkipConnections)、解码器(Decoder)组成。
编码器(Encoder)包括四个卷积层及池化层(MaxPooling)。它负责从输入图像中提取特征信息,逐渐减小输入图像的分辨率,并捕获不同尺度的特征信息。中间连接(SkipConnections): 将编码器的特征图与解码器的对应层特征图相连接。这些跳跃连接允许信息在编码器和解码器之间自由传递,帮助网络更好地恢复细节信息。解码器部分用于将编码器提取的特征信息还原为与输入图像相同分辨率的预测结果。解码器通常由反卷积层和上采样层。其中卷积层是用于对输入的图像数据执行卷积操作,从输入的图像数据中提取特征。池化层用于对卷积层的输出进行下采样处理,降低数据维度,减少模型复杂度和计算量。反卷积层用于使用反卷积对编码器输入的图像进行上采样,得到解码后的图像。此外,为了保留原始图像的细节信息并降低由于卷积操作而造成的信息损失,编码器和解码器之间采用跳跃连接(skip connections)。这种方法允许编码过程中的中间特征图直接与解码过程中对应尺度的特征图基于通道维度进行拼接而融合。Unet(U-shaped ConvolutionalNeural Network)是一种常见的深度学习神经网络架构,主要由编码器、中间连接和解码器组成。
如图10为一实施例中碱基识别模型的构成示意图;输入图像为(12,H,W),其中H和W分别表示训练图像的长度和宽度。首先将每个循环下的四张荧光图像按照通道维度进行堆叠,创建一个四通道的输入数据作为一个循环的数据。这个输入数据的维度为(4,H,W),其中H和W分别表示训练图像的高度和宽度。一次输入多个循环下的样本荧光图像,以3个循环为例,那么输入数据为(12,H,W),其中H为2160,W为4096。对输入的图像(12,H,W),经过编码器在编码阶段连续进行了四次卷积和四次下采样,每次通道数加一倍,长宽减半。然后通过解码器在解码阶段采用上采样操作,编码器和解码器之间采用跳跃连接相连。
在一些实施例中,在每次迭代过程中,将输入训练样本对应的多组输入数据分别作为所述碱基识别模型的输入,得到每组输入数据对应的碱基识别数据。对于每组输入数据对应的碱基识别数据,分别利用输入训练样本对应的第一掩膜图对每组输入数据对应的碱基识别数据进行遮挡处理,保留有真实碱基类型标签的碱基簇位置的碱基识别数据,这样可以减少真实碱基类型标签的碱基簇位置的碱基识别的错误结果对训练模型的第一损失值的影响,再基于第一损失函数计算将该次迭代过程中有真实碱基类型标签的碱基簇位置的碱基识别数据与该次迭代的输入训练样本对应对的碱基类型标签图计算该次迭代的第一损失值,这样就能计算出该次迭代过程中每组输入数据对应的第一损失值。
对于将每组输入数据对应的碱基识别数据,分别利用输入训练样本对应的第二掩膜图对每组输入数据对应的碱基识别数据进行遮挡处理,保留没有真实碱基类型标签的碱基簇位置的碱基识别数据,这样可以减少有真实碱基类型标签的碱基簇位置的碱基识别的错误结果对训练模型的第二损失值的影响,再基于第二损失函数计算将该次迭代过程中处理后的每两组输入数据对应的碱基识别数据间的第二损失值,从而得到该次迭代过程中多个第二损失值。例如若是两组输入数据,直接计算处理后的这两组输入数据对应的碱基识别数据间的第二损失值。若是三组输入数据,则是每两组处理后的每两组输入数据对应的碱基识别数据间分别计算第二损失值。
基于该次迭代过程中每组输入数据对应的第一损失值及多个第二损失值计算该次迭代过程中损失值。
可选的,基于所述损失函数计算迭代训练中的损失值为:
其中表示基于所述第一损失函数计算得到的第/>组输入数据对应的第一损失值,/>表示有/>组输入数据,/>表示第/>迭代轮数对应的权重,/>表示基于所述第二损失函数计算得到的第/>个第二损失值,/>表示计算得到的第二损失值的总数。
可选的,所述第一损失函数为:
其中是交叉熵损失函数,/>是类别的数量,/>是第/>类真实标签的one-hot编码,/>是碱基识别模型预测碱基簇类型为第/>类概率分布值。
可选的,所述第二损失函数为:
其中N表示每组输入数据对应的碱基识别数据中的像素个数,和/>是分别是处理后的每两组输入数据对应的碱基识别数据分布,其中/>表示每两组中一组输入数据对应的碱基识别数据中第/>个像素的碱基类别的概率分布,/>表示每两组中另一组输入数据对应的碱基识别数据中第/>个像素的碱基类别的概率分布。
可选的,基于所述训练数据集训练得到训练后的所述碱基识别模型的过程包括多轮迭代,其中在一轮迭代中基于多次迭代次数利用所述训练数据集训练碱基识别模型,所述随着迭代轮数的增加而增加。
一般在训练过程中,需要多轮迭代才能完成模型的训练,在一轮迭代中有m次迭代次数,m的大小取决于训练数据集的大小,一般训练数据集越大,m的取值越大。在一轮迭代中,有多次迭代次数,每次迭代分别从训练数据集中抽取部分训练样本作为输入训练样本,直至训练数据集中所有训练样本都被抽取过,则完成了一轮迭代。 例如,m取4000,需要三轮迭代完成训练,则在第一轮迭代、第二轮迭代及第三轮迭代中分别迭代4000次,在第二轮迭代中的大于第一轮迭代中的/>,在第三轮迭代中的/>大于第二轮迭代中的
在该实施例中,在半监督学习的训练前期,碱基识别模型更多的需要从碱基类型标签图为训练目标进行学习以加快模型的学习能力,因此迭代前期的的值很小,在训练后期碱基识别模型趋于稳定,可以从没有真实碱基类型标签数据的一致性正则化中学习到更有用的信息,因此需要调大/>的值,即调大MSE权重,从而使模型在训练时学习更多没有真实碱基类型标签的碱基簇的特征,学习到更到的多样化的特征,帮助模型更好地理解和泛化到不同的情况,这样模型可以更好地平衡训练数据和泛化需求,降低过拟合的风险。
如图11所示,图11为一实施例中基于半监督学习的碱基识别方法的架构图;在每次迭代中,输入训练样本经第一数据增强方式处理后得到X1图像数据,经第二数据增强方式处理后,得到X2图像数据。基于X1、X2图像数据分别得到各自对应的碱基识别模型的输入数据,经碱基识别模型识别后得到X1图像数据对应碱基识别结果Y1,X2图像数据对应碱基识别结果Y2。将碱基识别结果Y1及Y2分别经第一掩膜图处理后,得到Y1对应的图像数据Z1及Y2对应的图像数据Z2。基于第一损失函数,图像数据Z1与碱基类型标签图像计算损失得到损失值CE_1。 基于第一损失函数,图像数据Z2与碱基类型标签图像计算损失得到损失值CE_2。 Y1及Y2分别经第二掩膜图处理后,得到Y1对应的图像数据U1及Y2对应的图像数据U2,U1与U2间基于第二损失函数计算损失值MSE。则该次迭代的输入训练样本对应的总损失值为:
如图12为一实施例中基于半监督学习的碱基识别方法中训练碱基识别模型时计算第一损失值的示意图。图12中以输入训练样本包括四种碱基类型的样本荧光图像为例,A碱基类型的样本荧光图像的碱基簇的中心位置位于(1,3)处,输入训练样本经一种数据增强方式处理的数据形成碱基识别模型的一组输入数据,经碱基识别模型识别后得到如图12中所示的A碱基识别结果Y1,碱基识别结果Y1经第一掩膜图B1处理后,得到图像数据Z1,图像数据Z1与碱基类型标签图像D计算损失。
如图13所示,图13为一实施例中基于半监督学习的碱基识别方法中训练碱基识别模型时计算第二损失值的示意图;以输入训练样本包括四种碱基类型的样本荧光图像为例,样本荧光图像中的碱基簇位置分布图中黑点位置为碱基簇位置,其他位置为背景位置,第一掩膜图及第二掩膜图是基于碱基簇位置分布图得到的,A碱基类型的样本荧光图像的碱基簇的中心位置位于(1,3)处,输入训练样本经一种数据增强方式处理的数据形成碱基识别模型的一组输入数据为例,经碱基识别模型识别后得到如图13中所示的A碱基的碱基识别结果Y1,输入训练样本经另一种数据增强方式处理的数据形成碱基识别模型的一组输入数据为例,经碱基识别模型识别后得到如图13中所示的A碱基的碱基识别结果Y2。碱基识别结果Y1及碱基识别结果Y2经第二掩膜图B2处理后分别得到碱基识别结果Y1对应的U1图像数据及碱基识别结果Y2对应的U2图像数据。基于第二损失函数,U1图像数据与U2图像数据间计算损失。
S84、判断是否满足迭代终止条件。
在一些实施例中,迭代终止条件包括但不限于迭代次数,迭代中的损失值是否小于预设损失值。在迭代过程中不满足迭代终止条件时,返回继续执行S82,继续从训练数据集中获取训练样本,对碱基识别模型进行训练,直至满足迭代终止条件。在满足迭代条件时,执行S85。
S85、将终止迭代后碱基识别模型作为训练后的碱基识别模型。
请参阅图14,本申请一实施例提供一种基于半监督学习的碱基识别装置,包括:获取模块21用于获取测序芯片上多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于所述待测荧光图像形成待测输入图像数据;其中所述待测荧光图像包括多种碱基类型对应的待测荧光图像;识别模块22用于将所述待测输入图像数据作为训练后的碱基识别模型的输入,并通过所述训练后的碱基识别模型输出所述待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;
其中所述训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像、以及所述样本荧光图像对应的碱基类型标签图,每一所述训练样本对应的训练标签还包括所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图, 其中第一掩膜图用于标记所述样本荧光图像中有碱基类型标签的碱基信号采集单元的位置;第二掩膜图用于标记所述样本荧光图像中没有碱基类型标签的碱基信号采集单元的位置。
可选的,识别模块22用于:
获取训练数据集;
从所述训练数据集中获取训练样本作为输入训练样本,基于不同的数据增强方式对所述输入训练样本处理,得到所述输入训练样本对应的多组处理后的训练样本,基于所述输入训练样本对应的多组处理后的训练样本,形成所述输入训练样本对应的多组输入数据;
构建初始的碱基识别模型,将所述输入训练样本对应的多组输入数据分别作为所述碱基识别模型的输入,得到每组输入数据对应的碱基识别数据,通过所述训练数据集对所述初始的碱基识别模型进行迭代训练,直至损失函数收敛,得到训练后的所述碱基识别模型;
其中损失函数包括:
计算调整后的每组输入数据对应的碱基识别数据与所述输入训练样本对应的碱基类型标签图之间的第一损失值的第一损失函数,其中所述调整后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第一掩膜图对每组输入数据对应的碱基识别数据进行调整得到的;
及计算处理后的每两组输入数据对应的碱基识别数据间的第二损失值的第二损失函数,其中所述处理后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第二掩膜图对每组输入数据对应的碱基识别数据进行处理得到的。
可选的,所述不同的数据增强方式包括以下至少一种组合:在输入训练样本上添加不同的噪声、对输入训练样本执行不同的亮度处理。
可选的, 基于所述损失函数计算迭代训练中的损失值为:
其中表示基于所述第一损失函数计算得到的第/>组输入数据对应的第一损失值,/>表示有/>组输入数据,/>表示第/>迭代轮数对应的权重,/>表示基于所述第二损失函数计算得到的第/>个第二损失值,/>表示计算得到的第二损失值的总数。
可选的, 基于所述训练数据集训练得到训练后的所述碱基识别模型的过程包括多轮迭代,其中在一轮迭代中基于多次迭代次数利用所述训练数据集训练碱基识别模型,所述随着迭代轮数的增加而增加。
可选的,所述第一损失函数为:
其中是交叉熵损失函数,/>是类别的数量,/>是第/>类真实标签的one-hot编码,/>是碱基识别模型预测碱基信号采集单元类型为第/>类概率值。
可选的,所述第二损失函数为:
其中N表示每组输入数据对应的碱基识别数据中的像素个数,和/>是分别是处理后的每两组输入数据对应的碱基识别数据分布,其中/>表示每两组中一组输入数据对应的碱基识别数据中第/>个像素的碱基类别的概率分布,/>表示每两组中另一组输入数据对应的碱基识别数据中第/>个像素的碱基类别的概率分布。
本领域技术人员可以理解的是,图14中基于半监督学习的碱基识别装置的结构并不构成对基于半监督学习的碱基识别装置的限定,所述各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的控制器中,也可以以软件形式存储于计算机设备中的存储器中,以便于控制器调用执行以上各个模块对应的操作。在其他实施例中,基于半监督学习的碱基识别装置中可以包括比图示更多或更少的模块。
请参阅图15,本申请实施例的另一方面,还提供了一种基因测序仪200,包括存储器3011和处理器3012,存储器3011存储有计算机程序,计算机程序被处理器执行时,使得处理器3012执行本申请上述任一实施例所提供的基于半监督学习的碱基识别方法的步骤。基因测序仪200可包括基因测序仪(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,一对智能眼镜或智能手表)或类似设备。
其中处理器3012是控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器3011内的软件程序和/或模块,以及调用存储在存储器3011内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器3012可包括一个或多个处理核心;优选的,处理器3012可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器3012中。
存储器3011可用于存储软件程序以及模块,处理器3012通过运行存储在存储器3011的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器3011可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器3011可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器3011还可以包括存储器控制器,以提供处理器3012对存储器3011的访问。
本申请实施例另一方面,还提供一种存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请上述任一实施例所提供的基于半监督学习的碱基识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例所提供的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。

Claims (9)

1.一种基于半监督学习的碱基识别方法,其特征在于,包括:
获取测序芯片上多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于所述待测荧光图像形成待测输入图像数据;其中所述待测荧光图像包括多种碱基类型对应的荧光图像;
将所述待测输入图像数据作为训练后的碱基识别模型的输入,并通过所述训练后的碱基识别模型输出所述待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;
其中所述训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像、以及所述样本荧光图像对应的碱基类型标签图,每一所述训练样本对应的训练标签还包括所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图, 其中所述第一掩膜图用于标记所述样本荧光图像中有碱基类型标签的碱基信号采集单元的位置;所述第二掩膜图用于标记所述样本荧光图像中没有碱基类型标签的碱基信号采集单元的位置;
其中所述方法还包括:
获取训练数据集;
从所述训练数据集中获取训练样本作为输入训练样本,基于不同的数据增强方式对所述输入训练样本处理,得到所述输入训练样本对应的多组处理后的训练样本,基于所述输入训练样本对应的多组处理后的训练样本,形成所述输入训练样本对应的多组输入数据;
构建初始的碱基识别模型,将所述输入训练样本对应的多组输入数据分别作为所述碱基识别模型的输入,得到每组输入数据对应的碱基识别数据,通过所述训练数据集对所述初始的碱基识别模型进行迭代训练,直至损失函数收敛,得到训练后的所述碱基识别模型;
其中损失函数包括:
计算调整后的每组输入数据对应的碱基识别数据与所述输入训练样本对应的碱基类型标签图之间的第一损失值的第一损失函数,其中所述调整后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第一掩膜图对每组输入数据对应的碱基识别数据进行调整得到的;
及计算处理后的每两组输入数据对应的碱基识别数据间的第二损失值的第二损失函数,其中所述处理后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第二掩膜图对每组输入数据对应的碱基识别数据进行处理得到的。
2.如权利要求1所述的基于半监督学习的碱基识别方法,其特征在于,所述不同的数据增强方式包括以下至少一种组合:在输入训练样本上添加不同的噪声、对输入训练样本执行不同的亮度处理。
3.如权利要求1所述的基于半监督学习的碱基识别方法,其特征在于,基于所述损失函数计算迭代训练中的损失值为:
其中表示基于所述第一损失函数计算得到的第/>组输入数据对应的第一损失值,/>表示有/>组输入数据,/>表示第/>迭代轮数对应的权重,/>表示基于所述第二损失函数计算得到的第/>个第二损失值,/>表示计算得到的第二损失值的总数。
4.如权利要求3所述的基于半监督学习的碱基识别方法,其特征在于,基于所述训练数据集训练得到训练后的所述碱基识别模型的过程包括多轮迭代,其中在一轮迭代中基于多次迭代次数利用所述训练数据集训练碱基识别模型,所述随着迭代轮数的增加而增加。
5.如权利要求1所述的基于半监督学习的碱基识别方法,其特征在于,所述第一损失函数为:
其中是交叉熵损失函数,/>是类别的数量,/>是第/>类真实标签的one-hot 编码,/>是碱基识别模型预测碱基信号采集单元类型为第/>类概率分布值。
6.如权利要求1或3所述的基于半监督学习的碱基识别方法,其特征在于,所述第二损失函数为:
其中N表示每组输入数据对应的碱基识别数据中的像素个数,和/>是分别是处理后的每两组输入数据对应的碱基识别数据分布,其中/>表示每两组中一组输入数据对应的碱基识别数据中第/>个像素的碱基类别的概率分布,/>表示每两组中另一组输入数据对应的碱基识别数据中第/>个像素的碱基类别的概率分布。
7.一种基于半监督学习的碱基识别装置,其特征在于,包括:
获取模块,用于获取测序芯片上多种碱基类型的碱基信号采集单元对应的待测荧光图像,并基于所述待测荧光图像形成待测输入图像数据;其中所述待测荧光图像包括多种碱基类型对应的待测荧光图像;
识别模块,用于将所述待测输入图像数据作为训练后的碱基识别模型的输入,并通过所述训练后的碱基识别模型输出所述待测输入图像数据的碱基识别结果,所述训练后的碱基识别模型是基于训练数据集进行半监督学习训练得到的模型;
其中所述训练数据集包括多次循环下采集的训练样本,每一训练样本包括多种碱基类型对应的样本荧光图像、以及所述样本荧光图像对应的碱基类型标签图,每一所述训练样本对应的训练标签还包括所述样本荧光图像对应的第一掩膜图及所述样本荧光图像对应的第二掩膜图, 其中所述第一掩膜图用于标记所述样本荧光图像中有碱基类型标签的碱基信号采集单元的位置;所述第二掩膜图用于标记所述样本荧光图像中没有碱基类型标签的碱基信号采集单元的位置;
其中所述识别模块还用于:
获取训练数据集;
从所述训练数据集中获取训练样本作为输入训练样本,基于不同的数据增强方式对所述输入训练样本处理,得到所述输入训练样本对应的多组处理后的训练样本,基于所述输入训练样本对应的多组处理后的训练样本,形成所述输入训练样本对应的多组输入数据;
构建初始的碱基识别模型,将所述输入训练样本对应的多组输入数据分别作为所述碱基识别模型的输入,得到每组输入数据对应的碱基识别数据,通过所述训练数据集对所述初始的碱基识别模型进行迭代训练,直至损失函数收敛,得到训练后的所述碱基识别模型;
其中损失函数包括:
计算调整后的每组输入数据对应的碱基识别数据与所述输入训练样本对应的碱基类型标签图之间的第一损失值的第一损失函数,其中所述调整后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第一掩膜图对每组输入数据对应的碱基识别数据进行调整得到的;
及计算处理后的每两组输入数据对应的碱基识别数据间的第二损失值的第二损失函数,其中所述处理后的每组输入数据对应的碱基识别数据是基于所述输入训练样本对应的第二掩膜图对每组输入数据对应的碱基识别数据进行处理得到的。
8.一种基因测序仪,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至6任一项所述方法的步骤。
CN202410021676.2A 2024-01-08 2024-01-08 碱基识别方法及装置、基因测序仪及存储介质 Active CN117523559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410021676.2A CN117523559B (zh) 2024-01-08 2024-01-08 碱基识别方法及装置、基因测序仪及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410021676.2A CN117523559B (zh) 2024-01-08 2024-01-08 碱基识别方法及装置、基因测序仪及存储介质

Publications (2)

Publication Number Publication Date
CN117523559A CN117523559A (zh) 2024-02-06
CN117523559B true CN117523559B (zh) 2024-03-29

Family

ID=89755451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410021676.2A Active CN117523559B (zh) 2024-01-08 2024-01-08 碱基识别方法及装置、基因测序仪及存储介质

Country Status (1)

Country Link
CN (1) CN117523559B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200446B1 (en) * 2020-08-31 2021-12-14 Element Biosciences, Inc. Single-pass primary analysis
CN114766056A (zh) * 2019-10-02 2022-07-19 使命生物公司 使用单细胞分析的改良的变体调用程序
CN115769301A (zh) * 2020-08-28 2023-03-07 因美纳有限公司 基于人工智能预测的碱基判读来检测和过滤簇
CN116497095A (zh) * 2023-01-09 2023-07-28 深圳大学 基于沉淀明场图像处理的多重核酸定量方法、装置及介质
CN117274614A (zh) * 2023-09-20 2023-12-22 深圳赛陆医疗科技有限公司 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8644580B2 (en) * 2008-08-07 2014-02-04 Cambridge Research & Instrumentation, Inc. Detection of RNA in tissue samples
US11664090B2 (en) * 2020-06-11 2023-05-30 Life Technologies Corporation Basecaller with dilated convolutional neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114766056A (zh) * 2019-10-02 2022-07-19 使命生物公司 使用单细胞分析的改良的变体调用程序
CN115769301A (zh) * 2020-08-28 2023-03-07 因美纳有限公司 基于人工智能预测的碱基判读来检测和过滤簇
US11200446B1 (en) * 2020-08-31 2021-12-14 Element Biosciences, Inc. Single-pass primary analysis
CN116497095A (zh) * 2023-01-09 2023-07-28 深圳大学 基于沉淀明场图像处理的多重核酸定量方法、装置及介质
CN117274614A (zh) * 2023-09-20 2023-12-22 深圳赛陆医疗科技有限公司 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多核融合的疾病关联miRNA预测方法研究;潘振霞;《中国优秀硕士学位论文全文数据库 (基础科学辑)》;20200815(第8期);第A002-71页 *

Also Published As

Publication number Publication date
CN117523559A (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
US8182993B2 (en) Methods and processes for calling bases in sequence by incorporation methods
US10023911B2 (en) Methods and processes for calling bases in sequence by incorporation methods
CN116994246B (zh) 基于多任务联合的碱基识别方法及装置、基因测序仪及介质
US8300971B2 (en) Method and apparatus for image processing for massive parallel DNA sequencing
CN117274614A (zh) 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质
Mostavi et al. Deep-2'-O-me: predicting 2'-O-methylation sites by convolutional neural networks
WO2023115550A1 (en) Deep learning based methods and systems for nucleic acid sequencing
CN109117796A (zh) 碱基识别方法及装置、生成彩色图像的方法及系统
CN111926065A (zh) 一种高效的核酸检测和基因测序方法及其装置
CN115210816A (zh) 基于人工智能的索引序列的碱基检出
CN117351485B (zh) 基因测序训练数据集的增强方法及装置、设备及存储介质
CN116287138B (zh) 基于fish的细胞检测系统及其方法
CN113012757B (zh) 识别核酸中的碱基的方法和系统
CN116596933B (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
CN116612472A (zh) 基于图像的单分子免疫阵列分析仪及其方法
Chen et al. Mapping gene expression in the spatial dimension
EP4174554A1 (en) Information processing device, information processing method, program, microscope system, and analysis system
JP2019505884A (ja) デジタル画像内の少なくとも1つのオブジェクトの全体的明るさを判定するための方法
CN117523559B (zh) 碱基识别方法及装置、基因测序仪及存储介质
CN117392673B (zh) 碱基识别方法及装置、基因测序仪及介质
CN117315654B (zh) 端到端的基因测序方法及装置、基因测序仪及存储介质
CN117877025A (zh) 三维碱基识别方法及装置、基因测序仪及存储介质
CN115359845A (zh) 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法
CN117237198B (zh) 基于深度学习的超分辨测序方法及装置、测序仪及介质
CN117274739A (zh) 碱基识别方法及其训练集构建方法、基因测序仪及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant