CN117392673B - 碱基识别方法及装置、基因测序仪及介质 - Google Patents

碱基识别方法及装置、基因测序仪及介质 Download PDF

Info

Publication number
CN117392673B
CN117392673B CN202311697890.1A CN202311697890A CN117392673B CN 117392673 B CN117392673 B CN 117392673B CN 202311697890 A CN202311697890 A CN 202311697890A CN 117392673 B CN117392673 B CN 117392673B
Authority
CN
China
Prior art keywords
base
neural network
cycle
input
loop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311697890.1A
Other languages
English (en)
Other versions
CN117392673A (zh
Inventor
彭宽宽
陈伟
周祎楠
王谷丰
赵陆洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sailu Medical Technology Co ltd
Original Assignee
Shenzhen Sailu Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sailu Medical Technology Co ltd filed Critical Shenzhen Sailu Medical Technology Co ltd
Priority to CN202311697890.1A priority Critical patent/CN117392673B/zh
Publication of CN117392673A publication Critical patent/CN117392673A/zh
Application granted granted Critical
Publication of CN117392673B publication Critical patent/CN117392673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/693Acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Biochemistry (AREA)
  • Genetics & Genomics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Bioethics (AREA)
  • Epidemiology (AREA)

Abstract

本申请提供一种碱基识别方法及装置、基因测序仪及介质,方法包括:获取多个循环分别对应的多通道待测图像组;其中,同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像为一个多通道待测图像组;通过基于双向循环神经网络构建的碱基识别模型以多通道待测图像组为输入,将连续三个循环对应的多通道待测图像组作为中间循环的输入序列,通过正向循环神经网络以输入序列为输入进行前向递归、通过反向循环神经网络以输入序列为输入进行逆向递归,基于正向循环神经网络和反向循环神经网络的输出进行融合,得到输入序列中各循环对应的碱基分类预测结果;根据每组输入序列的中间循环的碱基分类预测结果,形成最终的碱基识别结果。

Description

碱基识别方法及装置、基因测序仪及介质
技术领域
本申请涉及基因测序技术领域,尤其是涉及一种基于双向循环神经网络的碱基识别方法及装置、基因测序仪及计算机可读存储介质。
背景技术
目前,基因测序技术主要可分为三代,第一代测序技术Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法,由Sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以Illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是Nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssDNA或RNA模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。
第二代基因测序技术中,利用荧光显微镜成像技术,将荧光分子的信号保存到图像中,通过解码图像信号来获得碱基序列。为了实现对不同类型碱基的区分,需要使用滤光片获取测序芯片在不同频率下荧光强度的图像,以获得荧光分子发光的频谱特征。同一场景下需要拍摄多张图像,通过对这些图像进行定位和配准,提取点信号并进行亮度信息分析处理,得到碱基序列。随着二代测序技术的发展,测序仪产品现在都配有实时处理测序数据的软件。不同的测序平台会采用不同的光学系统和荧光染料,因此荧光分子发光的频谱特征会有差异。如果算法无法得到适当的特征或者找到合适的参数以处理这些不同的特征,就可能导致碱基分类出现较大误差,从而影响测序质量。
此外,二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,如图1。通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,如图2。在DNA测序中,常用的荧光标记为四种,将这四种荧光标记同时加入一个循环(Cycle)中,并利用相机拍摄荧光信号的图像。由于每个荧光标记都对应一种特定的波长,因此我们能够在图像中分离出不同荧光标记对应的荧光信号,进而得到对应的荧光图像,如图3。在此过程中,可以对相机进行对焦调整以及采样参数设置,以确保所得到的TIF灰度图像质量达到最优。然而,在实际应用过程中,荧光图像中碱基簇的亮度总是受到多种因素的干扰,主要包括图像内碱基簇的之间的串扰(Spatial Crosstalk),通道间的串扰(Crosstalk)和周期间的串扰(Phasing、Prephasing)。已知的碱基识别技术主要是对串扰和强度进行归一化,但矫正方法不尽相同。通过每个周期内的Crosstalk矩阵和Phasing与Prephasing比率来矫正荧光光强度值,去除串扰噪声,然后通过四个通道的光强值来识别碱基,如图4。然而,现有的碱基识别技术只能对已知的亮度干扰因素,如通道间的亮度串扰,Cycle间提前反应或延迟反应导致的Phasing和Prephasing现象进行矫正,无法校正其它未知的生化或者环境的影响造成的亮度干扰,导致识别精度不高,尤其是当样本密度越高时,碱基簇越密集,碱基簇之间的亮度串扰越严重,导致测序准确度大大降低。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种能够克服碱基信号采集单元之间的空间串扰,以有效提升碱基识别精度的基于双向循环神经网络模型的碱基识别方法及装置、基因测序仪及计算机可读存储介质。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种基于双向循环神经网络模型的碱基识别方法,包括:
获取多个循环分别对应的多通道待测图像组;其中,同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像为一个多通道待测图像组;
通过基于双向循环神经网络构建的碱基识别模型以所述多通道待测图像组为输入,将连续三个循环对应的所述多通道待测图像组作为中间循环的输入序列,通过正向循环神经网络以所述输入序列为输入进行前向递归、通过反向循环神经网络以所述输入序列为输入进行逆向递归,基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果;
根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果。
第二方面,本申请实施例提供一种基于双向循环神经网络模型的碱基识别装置,包括:
获取模块,用于获取多个循环分别对应的多通道待测图像组;其中,同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像为一个多通道待测图像组;
碱基识别模型,通过基于双向循环神经网络构建的所述碱基识别模型以所述多通道待测图像组为输入,将连续三个循环对应的所述多通道待测图像组作为中间循环的输入序列,通过正向循环神经网络以所述输入序列为输入进行前向递归、通过反向循环神经网络以所述输入序列为输入进行逆向递归,基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果;
预测模块,用于根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果。
第三方面,本申请实施例提供一种基因测序仪,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如本申请任一实施例所述的基于双向循环神经网络模型的碱基识别方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本申请任一实施例所述的基于双向循环神经网络模型的碱基识别方法。
上述实施例中,以基因测序中每一循环内采集的分别与不同碱基类型的测序信号响应对应的多张荧光图像形成多通道待测图像组,并以连续三个循环对应的多通道待测图像组形成一个输入序列,碱基识别模型采用双向循环神经网络的架构,并以三个连续循环对应的多通道待测图像组为一个输入序列,通过正向循环神经网络以输入序列为输入进行前向递归,则输入序列的中间循环对应的碱基分类预测结果的得出兼容了前一循环的影响,通过反向循环神经网络以输入序列为输入进行逆向递归,则输入序列的中间循环对应的碱基分类预测结果的得出兼容了后一循环的影响,如此,使得得到的中间循环的碱基分类预测结果,能够有效克服由于各种未知的生化或者环境的影响造成的不同循环之间的串扰导致的碱基识别不准的问题,有利于提升碱基识别的准确性。
上述实施例中,基于双向循环神经网络的碱基识别装置、基因测序仪及计算机可读存储介质与对应的基于双向循环神经网络的碱基识别方法实施例属于同一构思,从而与对应的基于双向循环神经网络的碱基识别方法实施例具有相同的技术效果,在此不再赘述。
附图说明
图1为一实施例中不同荧光分子的荧光信号波长的分布示意图;
图2为一实施例中拍摄装置采集荧光图像,其中,拍摄装置利用滤光片选择性地过滤掉非特定波长的光线,以获得特定波长荧光信号的图像的原理示意图;
图3为一实施例中与A、C、G、T四种碱基类型的测序信号响应对应的四张荧光图像的示意图、以及其中一张荧光图像的局部放大示意图;
图4为一实施例中已知的碱基识别流程图;
图5为一实施例中芯片及芯片上碱基信号采集单元的示意图;
图6为一实施例中基于双向循环神经网络的碱基识别方法的流程示意图;
图7为一实施例中循环神经网络的原理示意图;
图8为一实施例中Unet网络的架构示意图;
图9为一实施例中基于双向循环神经网络的碱基识别模型的工作原理示意图;
图10为一实施例中基于双向循环神经网络的碱基识别模型的训练原理示意图;
图11为一可选的具体示例中一实施例中基于双向循环神经网络的碱基识别方法的流程图;
图12为一实施例中基于双向循环神经网络的碱基识别装置的结构示意图;
图13为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本申请技术方案做进一步的详细阐述。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,需要说明的是,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一、第二、第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一、第二、第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
第二代基因测序技术,又称下一代测序技术(Next-generation Sequencing,NGS),可以一次对几十万到几百万条DNA分子进行序列测定。已知的二代测序仪普遍是以光学信号记录碱基信息,通过光信号转化为碱基序列,而其中图像处理和荧光定位技术产生的碱基簇位置是后续芯片模板点位置的参考,因此图像处理和荧光定位技术,同碱基序列数据的准确性有直接关系。本申请实施例提供的碱基识别方法,是针对基于荧光标记dNTP基因测序中针对测序芯片采集的荧光图像作为输入数据,主要应用于第二代基因测序技术。其中,荧光标记,是一种采用光信号的测量技术,在工业上常用于DNA测序,细胞标记,药物研究等领域。二代测序仪所采用的基因测序光信号法,是利用不同波段荧光标记不同的碱基,通过滤光片过滤,特定碱基连接成功会激发特定波长的光,最后识别为待测DNA碱基序列。这种通过采集光信号生成图像,再转变成碱基序列的技术则为第二代基因测序技术的主要原理。
二代测序仪,以Illumina测序仪为例,其测序流程主要包括样本准备、簇生成、测序及数据分析四个阶段。
样本准备,也就是文库构建,是指将待测基本组DNA打断形成大量DNA片段、将各DNA片段两端加接头(adapter),接头内分别包含测序结合位点、indices(标识DNA段来源的信息)、与测序芯片(Flowcell)上的寡聚核苷酸互补的特定序列。
簇生成,也就是通过把文库种到Flowcell上,利用桥式DNA扩增,一个DNA片段形成一个碱基簇。
测序,是指针对Flowcell上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮集团,可以在测序的链延伸时候阻止聚合,确保一个循环(Cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。一次循环中,针对每一碱基簇通过荧光标记dNTP识别一个碱基,通过特定颜色的荧光信号分别对应不同碱基类型的测序信号响应,通过激光扫描可根据发出的荧光颜色来判断当前循环内针对每一碱基簇对应的是哪个碱基。一次循环中,数以千万的碱基簇在Flowcell被同时测序,一个荧光点代表一个碱基簇发出的荧光,一个碱基簇则对应fastq当中的一条read。在测序阶段,通过红外相机拍摄Flowcell表面的荧光图像,对荧光图像进行图像处理和荧光点位置定位进行碱基簇检测(传统的碱基簇检测定位算法),根据与不同碱基类型的测序信号响应对应的多张荧光图像的碱基簇检测结果进行模板构建,构建出Flowcell上所有碱基簇模板点(cluster)的位置。根据模板中碱基簇位置,(传统的碱基识别算法)对滤波后图像进行荧光强度的提取,然后对荧光强度进行矫正,最终根据各碱基簇模板点位置的最大强度识别碱基计算得分,输出fastq碱基序列文件。请参阅图5,分别为Flowcell示意图(图5中的(a))、一次循环中针对Flowcell上相应部位拍摄的荧光图像(图5中的(b))、及fastq文件中测序结果显示的示意图(图5中的(c))。
数据分析,通过对代表所有DNA片段的数百万个read进行分析,对应每个样本,来自同一文库的碱基序列,可通过在文库构建过程中引入的接头中独特的index进行聚类,reads被配对生成连续序列,连续序列与参考基因组进行比对用于突变识别。
需要说明的是,上述是以Illumina测序技术作为大规模平行测序技术(MPS)的一种示例对测序流程进行说明,通过将待测DNA分子通过特定的扩增技术进行扩增,针对每一DNA片段(单链文库分子)扩增形成碱基簇,以碱基簇检测结果构建测序芯片上碱基簇的模板点,以便于后续能够根据碱基簇的模板点进行碱基识别等操作,提升碱基识别效率和准确性。可以理解的是,本申请实施例所提供的碱基识别方法,是利用机器学习对神经网络模型进行训练的策略来提升碱基识别精度,训练样本是基于测序芯片上单链文库分子扩增后的碱基簇得到的荧光图像进行碱基簇定位检测和碱基类型识别,这里,每个碱基簇即指一个碱基信号采集单元,从而其并不受限于针对单链文库分子所采用的哪一种扩增技术,也即,本申请实施例所提供的碱基识别方法,同样可以适用于其它大规模平行测序技术中针对测序芯片的碱基信号采集单元的碱基类型识别,比如,碱基信号采集单元可以指Illumina测序技术中利用桥式扩增技术得到的碱基簇,也包括通过滚环扩增技术(RCA,Rolling Circle Amplification)得到的纳米球,等等,本申请对此不作限制。
本申请发明人在针对基因(DNA)测序中如何能够有效提升碱基识别精度的问题研究中发现,在实际应用过程中,荧光图像中碱基簇的亮度受到多种因素的干扰,主要包括通图像内碱基簇的之间的串扰(Spatial Crosstalk),通道内的串扰(Crosstalk)和循环(Cycle)间的串扰(Phasing、Prephasing)以及G quencing问题。如图4所示的现有的荧光矫正和碱基识别技术,主要是通过每个周期内的Crosstalk矩阵和Phasing 与 Prephasing比率来矫正荧光光强度值,去除串扰噪声,然后通过四个通道的光强值来识别碱基,这只能对已知的亮度干扰因素有效,而且算法实现十分复杂,从而实际应用中测序准确度难以提升,尤其在样本密度高的情况下,会严重影响测序准确度。为了能够更有针对性地解决这些问题,发明人进一步进行了如下几个方面的分析:
关于Crosstalk问题:基因测序中,由于四种荧光分子的波长分布存在Overlap(重叠区),不同通道的图像会存在光强串扰的问题,即当在一个A通道图像中出现荧光亮点时,这个荧光亮点的影子也会在T通道图像中出现,从而导致T通道图像中的该荧光位置会出现一定的光强亮度,称之为Crosstalk(通道串扰)现象。同时,由于不同通道的图像的采样效率和滤光片过滤效率存在差异,导致A通道和T通道的荧光光强分布并不处于同一个水平上。例如,A通道的图像荧光的平均亮度可能是100,而T通道的图像荧光的平均亮度可能是150,这些图像差异是由相机系统所导致的,而这些差异会进一步影响后续的碱基识别精度。
关于Phasing 与 Prephasing 问题:每个测序周期(每一循环)中,均会进行碱基添加和测序反应。每个荧光团含有许多荧光分子和拷贝,这些荧光分子是同步进行反应的,即当前DNA碱基链反应到A,那么荧光团上所有拷贝链都会在A位置进行反应并发出A通道的荧光信号,最终表现为A碱基类型荧光团的光强度。但由于荧光切除效率不完全,荧光团存在着切除不完全、洗脱不干净等情况,导致未完全切除的荧光在下一个周期的同一通道图像中仍然具有一定的光强度,这就是荧光团的反应滞后效应(Phasing)。同时,荧光团中也会出现提前反应,荧光团本来应在下一个周期进行反应,但部分荧光提前在当前周期显示光强度,这就是荧光团的反应提前效应(Prephasing)。这些反应的滞后和提前体现了荧光团中拷贝反应的异步性和不一致性,也是影响测序长度和错误率的主要原因。
G quenching问题:由于测序化学或物理性质而导致的一种现象,即在测序反应中,腺嘌呤(Adenine,A) 碱基类型的荧光信号可能受到上一Cycle的鸟嘌呤(Guanine,G)碱基类型的影响而减弱。如果 "G quenching" 问题未能得到妥善处理,那么在测序过程中可能会积累大量的误差,从而影响测序结果的准确性。
基于以上分析,本申请发明人提出了基于双向循环神经网络构建的碱基识别模型,利用多循环内分别针对测序芯片采集的荧光图像形成输入序列作为碱基识别模型的输入,通过双向循环神经网络以输入序列分别进行前向递归和逆向递归,以使得基于一个循环的荧光图像可以捕捉到前、后相邻循环的图像信息来输出碱基分类预测结果,这对于克服各种已知或未知的生化或者环境的影响造成的不同循环之间的串扰而导致的碱基识别不准的问题,具有较好的针对性。
请参阅图6,为本申请一实施例提供的基于双向循环神经网络的碱基识别方法,包括如下步骤:
S101,获取多个循环分别对应的多通道待测图像组;其中,同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像为一个多通道待测图像组。
其中,每一荧光图像中各荧光点与对应类型的碱基的各碱基信号采集单元一一对应。碱基类型,通常是指A、C、G、T四种碱基类型。由于不同碱基类型是对应不同荧光标记dNTP的荧光信号,不同荧光标记dNTP的碱基信号采集单元之间没有交集,针对每一碱基类型的测序信号响应对应的荧光图像,是指测序芯片中相应部位处包含的同一种碱基类型的碱基信号采集单元受对应荧光标记激发点亮后的成像图像。获取针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像,每张荧光图像包括一种碱基类型的碱基信号采集单元的位置信息,根据多张荧光图像中各自分别包含的碱基信号采集单元的位置信息,以能够得到测序芯片的目标部位处包含的完整的多个类型的碱基信号采集单元的位置信息。目标部位可以是测序芯片表面的某一局部位置,也可以是测序芯片的表面整体,通常与一张荧光图像能够包含的成像区域范围相关。
荧光图像,是指基因测序流程中在测序阶段针对测序芯片表面拍摄的原始的荧光图像。本实施例中,A、C、G、T碱基分别对应四个不同荧光标记dNTP的荧光信号,四个不同荧光标记dNTP的碱基信号采集单元之间理论上没有交集。同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张原始图像,是指每一循环内针对同一测序芯片的目标部位分别拍摄四个不同荧光标记dNTP的荧光信号对应的荧光图像,利用A、C、G、T 这四种碱基在不同波段的光照射下亮度不同,相应对同一个视场(测序芯片的同一目标部位)采集A、C、G、T 这四种碱基被四个不同荧光标记dNTP的荧光信号(这四种环境)激发点亮对应的荧光图像(四张原始的荧光图像),作为与不同碱基类型的测序信号响应对应的多张荧光图像。
以基因测序流程中,同一循环内采集到的与不同碱基类型的测序信号响应对应的多张荧光图像为一组,沿通道维度堆叠形成一个多通道待测图像组。例如,一个循环内与A、C、G、T 这四种碱基类型的测序信号响应对应的四张待测荧光图像沿通道维度堆叠,形成一个四通道待测图像组,其维度可表示为(4,H,W),其中,H,W为待测荧光图像的高和宽。
S103,通过基于双向循环神经网络构建的碱基识别模型以所述多通道待测图像组为输入,将连续三个循环对应的所述多通道待测图像组作为中间循环的输入序列,通过正向循环神经网络以所述输入序列为输入进行前向递归、通过反向循环神经网络以所述输入序列为输入进行逆向递归,基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果。
循环神经网络由输入层、隐藏层和输出层组成,如图7中(a)所示,x是一个向量,表示输入层的值;s是一个向量,表示隐藏层的值,s不仅仅取决于当前这次的输入x,还取决于上一次隐藏层的值;o是一个向量,表示输出层的值;u是输入层到隐藏层的权重矩阵;v是隐藏层到输出层的权重矩阵;w是隐藏层上一次的值作为这一次输入的权重矩阵,如图7中(b)所示;循环神经网络在t时刻接收到输入xt之后,隐藏层的值是st,输出值是ot,st的值不仅仅取决于xt,还取决于st-1。双向循环神经网络,由正向循环神经网络和反向循环神经网络组成,双向循环神经网络通过正向循环神经网络的隐藏层保存前向递归权重矩阵w参与正向计算、通过反向循环神经网络的隐藏层保存逆向递归权重矩阵w’参与反向计算,将输入序列分别按正序和反序分别进行前向递归和逆向递归,基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到输入序列中各循环对应的碱基分类预测结果,因此,每一循环的输出值将由w和w’的共同影响,基于自身循环的荧光图像并可以捕捉到前、后相邻循环的图像信息来输出碱基分类预测结果。
S105,根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果。
基于双向循环神经网络构建的碱基识别模型,以连续三个循环对应的多通道待测图像组作为一个输入序列,通过正向循环神经网络将输入序列进行前向递归,针对输入序列中每一循环,均将上一循环的隐藏层的值作为本循环的输入;通过反向循环神经网络将输入序列进行逆向递归,针对输入序列中每一循环,均将后一循环的隐藏层的值作为本循环的输入;如此,针对同一个输入序列,则中间循环对应的输出即带入了上一循环的隐藏信息、又带入了后一循环的隐藏信息,使得每组输入序列的中间循环的碱基分类预测结果的得到,是基于中间循环自身包含的图像的特征信息,同时也考虑了前、后相邻循环的图像的特征信息(也即考虑了前、后相邻循环对中间循环的影响)来得到,从而对由于各种未知的生化或者环境的影响造成的不同循环之间的串扰问题具有较好的针对性,对于每一输入序列的中间循环而言,可以克服前、后相邻循环的串扰而影响其碱基分类预测结果的准确性。
上述实施例中,以基因测序中每一循环内采集的分别与不同碱基类型的测序信号响应对应的多张荧光图像形成多通道待测图像组,并以连续三个循环对应的多通道待测图像组形成一个输入序列,碱基识别模型采用双向循环神经网络的架构,并以三个连续循环对应的多通道待测图像组为一个输入序列,通过正向循环神经网络以输入序列为输入进行前向递归,则输入序列的中间循环对应的碱基分类预测结果的得出兼容了前一循环的影响,通过反向循环神经网络以输入序列为输入进行逆向递归,则输入序列的中间循环对应的碱基分类预测结果的得出兼容了后一循环的影响,如此,使得得到的中间循环的碱基分类预测结果,能够有效克服由于各种未知的生化或者环境的影响造成的不同循环之间的串扰导致的碱基识别不准的问题,有利于提升碱基识别的准确性。
在一些实施例中,所述正向循环神经网络包括第一Unet网络,所述通过正向循环神经网络以所述输入序列为输入进行前向递归,包括:
所述第一Unet网络以所述输入序列中三个循环按序作为输入进行前向递归,以每一循环作为当前循环,将前一循环的隐藏层输出叠加至当前循环的输入,根据前一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出;
所述反向循环神经网络包括第二Unet网络,所述通过反向循环神经网络以所述输入序列为输入进行逆向递归,包括:
所述第二Unet网络以所述输入序列中三个循环按序作为输入进行逆向递归,以每一循环作为当前循环,将后一循环的隐藏层输出叠加至当前循环的输入,根据后一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出。
请参阅图8,为Unet(U-shaped Convolutional Neural Network)网络的结构示意图,Unet网络主要由编码器(Encoder)、中间连接(Concate)和解码器(Decoder)组成。编码器主要负责从输入的图像中提取特征信息。编码器通常由卷积层和池化层组成,逐渐减小图像的分辨率,并捕获不同尺度的特征信息。中间连接将编码器的特征图与解码器的对应层特征图相连接。这些跳跃连接允许信息在编码器和解码器之间自由传递,帮助网络更好地恢复细节信息。解码器用于将编码器提取的特征信息还原为与输入的图像相同分辨率的预测结果。解码器通常由反卷积层和上采样层组成,逐渐恢复图像的分辨率。基于双向循环神经网络构建的碱基识别模型中,正向循环神经网络和反向循环神经网络分别采用Unet网络,使得前向递归和逆向递归均可以利用Unet网络完成对每一循环中图像的像素级特征与语义级特征的融合。
前向递归,在每个循环迭代中,正向循环神经网络负责处理前向递归,它接受当前循环的输入数据,同时考虑了来自上一个循环的输出信息(上一个Cycle的隐藏层输出)。正向循环神经网络通过处理这些数据,预测当前循环的结果,这有助于提高对当前循环的荧光图像中碱基类别的分类精度。这种前向递归允许碱基识别模型捕获到上一个Cycle和当前Cycle之间的相关性,例如生化反应中的Phasing现象和G quenching现象。
反向递归,与正向循环神经网络不同,反向循环神经网络负责对输入序列逆向递归,它接收当前循环的输入,同时考虑了后一个循环的输出信息(后一个Cycle的隐藏层输出),这有助于提高对当前循环的荧光图像中碱基类别的分类精度。这种反向递归允许碱基识别模型捕获到后一个Cycle和当前Cycle之间的相关性,如生化反应中的Prephasing现象。
请参阅图9,为碱基识别模型中,第一Unet网络以输入序列中三个循环按序作为输入进行前向递归、以及第二Unet网络以输入序列中三个循环按序作为输入进行逆向递归的原理示意图。第一Unet网络用Unet1表示,第二Unet网络用Unet2表示,一个输入序列中三个循环对应的多通道待测图像组依次用Cyclet-1、Cyclet和Cyclet+1表示,图9中(1)、(2)、(3)分别表示碱基识别模型在t-1、t、t+1时刻的工作原理。
首先,以循环Cyclet-1为当前循环,Unet1将前一循环Cyclet-2(需要说明的是,若Cyclet-1为基因测序流程中第一个循环,此刻并不存在Cyclet-2,则Cyclet-2用全0特征图代替)隐藏层输出叠加至当前循环Cyclet-1的输入,Unet2将后一循环Cyclet的隐藏层输出叠加至当前循环Cyclet-1的输入,也即,双向循环神经网络针对当前循环Cyclet-1的碱基分类预测结果的输出,是基于当前循环Cyclet-1自身的当前输入与前一循环Cyclet-2的隐藏层输出得到图像特征信息(Ht-1)、及基于Cyclet-1自身的当前输入与后一循环Cyclet的隐藏层输出得到图像特征信息(H’t-1)。
其次,再以Cyclet为当前循环,Unet1将前一循环Cyclet-1隐藏层输出叠加至当前循环Cyclet的输入,Unet2将后一循环Cyclet+1的隐藏层输出叠加至当前循环Cyclet的输入,也即,双向循环神经网络针对当前循环Cyclet的碱基分类预测结果的输出,是基于当前循环Cyclet自身的当前输入与前一循环Cyclet-1的隐藏层输出得到图像特征信息(Ht)、以及基于Cyclet自身的当前输入后一循环Cyclet+1的隐藏层输出得到图像特征信息(H’t)。
再次,再以Cyclet+1为当前循环,Unet1将前一循环Cyclet隐藏层输出叠加至当前循环Cyclet+1的输入,Unet2将后一循环Cyclet+2(需要说明的是,若输入序列为基因测序过程中最初获得的第一个输入序列,此刻还不存在Cyclet+2,则Cyclet+2用全0特征图代替)的隐藏层输出叠加至当前循环Cyclet+1的输入,也即,双向循环神经网络针对当前循环Cyclet+1的碱基分类预测结果的输出,是基于当前循环Cyclet+1自身的当前输入与前一循环Cyclet的隐藏层输出得到图像特征信息(Ht+1)、以及基于Cyclet+1自身的当前输入与后一循环Cyclet+2的隐藏层输出得到图像特征信息(H’t+1)。
上述实施例中,双向循环神经网络采用Unet网络为基础骨架,碱基识别模型采用双向循环Unet网络模型来处理图像中的碱基分类问题,根据上述前向递归和逆向递归的原理可知,Unet1和Unet2分别针对由三个循环对应的多通道待测图像组形成的输入序列进行了前向循环和反向循环,通过充分利用前向和反向信息,对不同循环的生化反应之间的相互影响进行了考虑,这些生化反应之间的影响包括但不限于Phasing、Prephasing以及Gquenching等,提高了荧光图像中碱基类别的分类性能。
在一些实施例中,每一循环对应的多通道待测图像组为分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光图像形成的四通道输入;所述基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果,包括:
通过与所述第一Unet网络和第二Unet网络连接的卷积层,依序以所述输入序列中每一循环为当前循环,将所述第一Unet网络的输出和所述第二Unet网络的输出进行融合,得到当前循环对应的特征图;
根据所述特征图进行分类预测,得到对应的碱基分类预测结果。
对于正向循环神经网络的正向预测结果和反向循环神经网络的反向预测结果,通过卷积层进行融合。如,采用卷积核尺寸为1*1的卷积层进行通道上的特征融合,在一可选的示例中,对第一Unet网络的输出和所述第二Unet网络的输出进行融合也可理解为对第一Unet网络和第二Unet网络的输出特征在通道上进行线性组合。本实施例中,卷积层为一个对多通道特征进行线性组合的卷积层,碱基识别模型的输入是每一循环对应的与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光图像形成的四通道输入,可用[4,H,W]表示,由于正向卷积神经网络的输入是将上一Cycle的隐藏信息与当前Cycle的图像特征信息堆叠,因此正向卷积神经网络的输入是八通道,可用[8,H,W]表示,卷积层的输入包括正向循环神经网络和反向循环神经网络的正向和反向预测输出结果,卷积层的输入通道数为8,卷积核的尺寸为1x1,对8个通道上的特征进行融合而有效地结合正向和反向的预测输出结果,最终输出四个通道的结果,四个输出通道与每一循环中四通道输入一一对应,分别表征四张荧光图像中相应碱基类型的分类预测结果。
仍以图9所示为例,卷积层ConvLayer基于八通道输入[Ht-1, H’t-1]在通道内进行线性叠加,输出与Cyclet-1对应的四通道输出Outputt-1;同理,基于八通道输入[Ht, H’t]在通道内进行线性叠加,输出与Cyclet对应的四通道输出Outputt;基于八通道输入[Ht+1,H’t+1]在通道内进行线性叠加,输出与Cyclet+1对应的四通道输出Outputt+1
上述实施例中,通过卷积层对不同循环之间的图像特征信息在通道范围内进行组合,实现了每一循环的碱基分类预测结果有效地结合了正向和反向的预测结果来得到最终的预测结果的目的。
在一些实施例中,所述根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果,包括:
在基因测序中对多个碱基识别的对应多个循环内,依序针对每一待测循环形成以其为中间循环的输入序列,将所述输入序列的中间循环的碱基分类预测结果进行存储,作为对应所述待测循环的碱基分类预测结果;
根据基因测序中所述多个循环分别对应的所述碱基分类预测结果,得到碱基序列。
针对由连续三个循环组成的一个输入序列而言,碱基识别模型针对中间循环的碱基分类预测结果,是基于自身图像特征信息并有效结合了前、后循环的隐藏信息得出的,从而一个输入序列中三个循环对应的碱基分类预测结果是选定中间循环的碱基分类预测结果进行存储,此时每一个输入序列的中间循环才是当前的待测循环。需要说明的是,随着基因测序流程的持续推进,在获得第一个由三个循环对应的荧光图像形成的输入序列之后,后续再每增加一个循环则相应随之形成一个新的输入序列,如此,整个基因测序流程中,仅第一个输入序列中的第一个循环对应的碱基分类预测结果的得出仅结合了后循环的隐藏信息、及最后一个输入序列中的第三个循环对应的碱基分类预测结果的得出仅结合了前循环的隐藏信息之外,其它循环对应的碱基分类预测结果的得出均是有效结合了前、后循环的隐藏信息得出的。
以基因测序流程包括{Cycle1、Cycle2、Cycle3、Cycle4、Cycle5……Cycle100}共100个循环为例,在获得{Cycle1、Cycle2、Cycle3}对应的荧光图像之后,即形成{输入序列1:Cycle1、Cycle2、Cycle3},碱基识别模型依序以输入序列1中各循环对应的荧光图像形成的多通道待测图像组为输入,基于输入序列1得到的各循环对应的碱基分类预测结果中,将Cycle2对应的碱基分类预测结果进行保存,此时得到Cycle2的碱基分类预测结果;随着基因测序流程的持续,在获得Cycle4对应的荧光图像之后,即形成新的输入序列{输入序列2:Cycle2、Cycle3、Cycle4},碱基识别模型依序将循环Cycle4对应的荧光图像形成的多通道待测图像组为输入,基于输入序列2得到的各循环对应的碱基分类预测结果中,将Cycle3对应的碱基分类预测结果进行保存,此时得到Cycle3的碱基分类预测结果;依此类推,依次得到Cycle4、Cycle5……对应的碱基分类预测结果进行保存,直至100个循环的基因测序完成。其中,针对第一个输入序列{输入序列1:Cycle1、Cycle2、Cycle3},Cycle1对应的碱基分类预测结果中结合的前循环的隐藏信息采用全0特征图代替,针对最后一个输入序列{输入序列99:Cycle98、Cycle99、Cycle100},Cycle100对应的碱基分类预测结果中结合的后循环的隐藏信息采用全0特征图代替。
上述实施例中,碱基识别模型以基于双向循环神经网络为架构的设计,通过针对每一待测循环形成以其为中间循环的输入序列,能够从正、反两个方向来有效整合不同循环之间的图像特征信息,从而可以更精确地预测当前循环内各碱基信号采集单元的碱基类别,有效地确保了待测循环对应的碱基分类预测结果的准确性。
在一些实施例中,所述碱基识别方法,还包括:
获取训练样本集;每一训练样本包括连续三个循环对应的多通道样本图像组,每一多通道样本图像组包括对应循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像及各荧光图像对应的碱基类别标签;
构建初始的双向循环神经网络模型,基于所述训练样本集对所述双向循环神经网络模型进行迭代训练直至损失函数收敛,得到所述碱基识别模型;所述初始的双向循环神经网络模型包括第一Unet网络形成的正向循环神经网络、第二Unet网络形成的反向循环神经网络、与所述正向循环神经网络和所述反向循环神经网络的输出连接的卷积层。
碱基识别的训练集中,训练样本包括分别与不同碱基类型的测序信号响应对应的多张荧光图像形成的多通道样本图像组及各荧光图像对应的碱基类别标签,通过训练样本对初始的双向循环神经网络模型进行迭代训练,利用损失值反向传播不断优化模型参数,训练完成以得到碱基识别模型。其中,训练样本是以不同碱基类别对应的多张荧光图像形成的一个多通道输入,使得每个循环对应的碱基识别结果的预测能够保持碱基信号采集单元在多个通道上的亮度值的相对大小关系,对克服各种不确定因素导致的碱基信号采集单元之间的空间串扰、适应不同碱基信号采集单元密度的情况均有较强的适应性,可以学习到更丰富的特征表示,有利于有效地提升碱基识别结果的准确性。
可选的,请参阅图10,为碱基识别模型的模型架构及模型训练的原理示意图,训练样本还包括多通道样本图像的掩膜标签图像。其中,多通道样本图像的碱基类型标签,可以是采用各种已知算法得到的对荧光图像中碱基信号采集单元的位置信息和碱基类型的识别结果。这里,已知算法如可以是传统算法,或目前已知的图像识别神经网络模型,如支持向量机(SVM)、卷积神经网络(CNN)、循环神经网络(RNN)等对荧光图像进行检测的算法。训练样本中标签图像的制备,可以针对荧光图像采用任意已知的传统碱基信号采集单元检测定位算法进行处理获得碱基信号采集单元位置、及根据碱基信号采集单元位置采用传统的碱基识别算法确定各Cycle中采集的荧光图像中碱基信号采集单元的碱基类型。其中,掩膜(mask)标签图,是指选定用于对处理的图像进行遮挡以用于控制图像处理的区域或处理过程的模板。针对同一测序芯片的一次基因测序中,测序芯片中碱基信号采集单元位置是相同的,也即不同Cycle中采集的荧光图像中全部碱基类型的碱基信号采集单元的碱基信号采集单元位置应是相同的,因此,在一次基因测序中,根据碱基信号采集单元位置形成掩膜标签图,可以是指通过传统碱基信号采集单元检测定位算法对与不同碱基类型的测序信号响应对应的一组荧光图像进行处理,根据这一组荧光图像中的碱基信号采集单元位置的并集形成的位置数据矩阵或图像。而根据在基因测序中针对测序芯片连续采集的荧光图像的碱基分类预测结果得到最终的碱基识别结果,这里,最终的碱基识别结果即指碱基序列,是指在一次基因测序中,根据不同Cycle中采集到的荧光图像中对应碱基信号采集单元位置处的荧光强度识别其对应的碱基类型,根据各Cycle中碱基信号采集单元的碱基类型形成的分别与各碱基信号采集单元位置对应的碱基序列,即碱基序列。掩膜标签图的引入,可以根据掩膜图快速定位荧光图像中碱基信号采集单元的位置,以便于更快速精准地确定碱基类型。
可选的,为了进一步提升碱基类别标签的精度,可利用已知基因库中的标准碱基序列对前述经过已知算法得到的碱基类别进行修正后得到,在经已知算法确定碱基类型的基础上,通过将获得碱基序列与已知基因库中标准碱基序列进行比对,在一条碱基序列中,只有与标准碱基序列相比超过比例的碱基识别正确时才能够比对成功,藉此可以找到样本中所有匹配上的链,针对匹配上的链,再根据基因库中的标准碱基序列对这些匹配的链中识别错误的碱基(低于比例的不匹配的碱基)进行校正,根据校正后的碱基序列再反向对经已知算法得到的碱基类别结果进行修正,以修正并提升作为训练样本的多通道样本图像的碱基类型标签的质量。
上述实施例中,训练样本的碱基类型标签和掩膜标签图像,利用已知基因库中的标准碱基序列进行修正后得到,不仅有效地减小了训练样本的标注难度,而且能够提升训练样本的标注精度,更高精度的训练集有利于提升训练后的碱基识别模型的识别精度;掩膜标签图像的引入,利用掩膜策略可使得碱基识别模型的输出仅保留碱基信号采集单元位置的预测结果,有效消除背景噪声和干扰,进一步有利于提升碱基识别的准确性。
在一些实施例中,所述获取训练样本集,包括:
对训练样本采用数据增强方式进行处理,得到增强后训练样本,将所述增强后训练样本加入所述训练样本集以进行扩增;其中,所述数据增强方式包括如下至少之一:
针对任一训练样本,将前一循环的图像的像素值以第一预设范围内的随机比例叠加到中间循环的图像中;
针对任一训练样本,将后一循环的图像的像素值以第二预设范围内的随机比例叠加到中间循环的图像中;
针对任一训练样本,将其中至少一个循环的多通道样本图像组包含的多张荧光图像中,第一碱基类型的图像的像素值按预设比例叠加至第二碱基类型的图像中;
针对任一训练样本,对所述荧光图像添加高斯噪声。
在基因测序的应用中,超过90%的碱基是容易分类的,只有很少部分碱基由于受到生化等干扰难以正确分类,导致采集到的训练数据中难分样本的数量往往不够。通过对训练样本数据进行数据增强,提高训练数据中难分样本的比例,数据增强方式可分为如下几种类型:1、模拟Phasing进行数据增强,将上一个Cycle图像的像素值以一定范围内的随机比例加到当前Cycle上,来模拟上一个Cycle的生化反应对当前Cycle的影响。一定比例可以是0%-3%,以2%为例,将上一Cycle的四个通道的图乘上2%加到当前Cycle的对应的四个通道上,即A_i= A_i-1* 2% +A_i, C_i= C_i-1* 2% +C_i等,总体上为Cycle_i= Cycle_i-1* 2% +Cycle_i;2、模拟Prephasing进行数据增强,将下一个Cycle图像的像素值以一定范围内的随机比例加到当前Cycle上,来模拟下一个Cycle的生化反应对当前Cycle的影响;3、模拟Crosstalk进行数据增强,将当前Cycle不同通道之间按一定范围内的随机比例进行相加,例如模拟A通道对T通道的Crosstalk影响,可以将A通道图像的像素值的百分之2加到T通道上;4、模拟测序后期反应质量不佳的现象,对荧光图像添加一定程度的高斯噪声,并降低图像亮度。
上述实施例中,以上数据增强方式均以一定概率执行,模拟生化反应中的Phasing、Prephasing、Crosstalk以及后期图像质量差的现象进行数据增强,以提升训练数据中难分样本的比例,通过模拟生化反应干扰来扩充训练数据,提高了训练样本数据的多样性,从而可有效适应各种样本和条件。其次,数据增强还可以包括对训练样本进行变换,如旋转、翻转、平移、缩放、裁剪等常规方式,以增加训练样本的多样性,使得模型可以更好地理解和应对各种不同的输入情况,包括噪声、变形和不同的视角等,增加数据多样性有助于提高模型的泛化性能,使其在测试集上更加准确;训练样本的数量得以提升,有效减少模型的过拟合风险,当训练数据有限时,深度学习模型容易在训练集上过度拟合,导致在测试集上性能下降,通过扩充训练样本数据,减少模型对训练集中特定样本的过度依赖,从而降低过拟合的可能性;节省数据收集成本, 数据收集和标注是深度学习项目中的昂贵和耗时过程,通过最大程度地利用已有的有限数据,而不必花费额外的资源来收集更多的样本,这对于具有有限预算或资源的项目尤其有价值。总体而言,通过数据增强,可以提高训练模型的泛化性能、鲁棒性,减少过拟合,模型可以更充分地学习复杂的特征和模式,这有助于训练更大、更深的神经网络,提高了模型的表现能力。
可选的,所述损失函数为聚焦损失函数FL,可如下公式1-2所示:
; (公式1)
; (公式2)
其中,CE是指交叉熵损失函数,y是指真实标签的 one-hot 编码,p是指模型预测的概率分布,C是指碱基类别的数量,λ是指超参数。
超参数λ通常根据经验确定,通常取值2。超参数λ与难分样本的数量相关,难分样本极少时λ可以取相对较大值。聚焦损失函数FL(Focal Loss),是对交叉熵损失函数CE(Cross Entropy Loss)改进得到,用于度量模型预测的碱基类别概率分布和真实的碱基类别概率分布之间的差异。在一组荧光图像中大约含有数十万碱基簇,其中90%的样本都容易区分,聚焦损失函数的设计,是通过降低对易分类样本(即占多数的类别)的权重,使训练后的碱基识别模型可以更关注难分类样本(即占少数的类别),这有助于改善在碱基类别不平衡情况下的模型性能。
为了能够对本申请实施例所提供的基于双向循环神经网络的碱基识别方法具有更加整体的理解,请参阅图11,下面通过一具体示例进行说明,其中,基于双向循环神经网络的碱基识别方法包括:
S11,制作训练样本。其中,训练样本中标签数据的制作包括:
1、首先采用传统的碱基识别算法对训练所用的样本图像进行碱基识别(Basecall),得到样本图像中每个碱基(cluster)的碱基类别。A、C、G、T类别分别用1,2,3,4。同时,确定了每个碱基的中心位置,并生成了对应的掩膜数据,即碱基簇的中心位置被标记为1,其余区域标记为0。
2、接下来,将传统算法识别出的碱基类别结果与已知基因库中的标准序列进行比对,在每条链中,只有当大部分碱基被正确识别时,才能认为该链比对成功。通过这种方法,确定图像中所有比对成功的链。
3、即使在比对成功的链中,也可能存在少数碱基被错误识别。这些错误可以通过参照基因库中的标准序列进行纠正,得到校正后的链。此时,链中所有的碱基类别都已被正确确定,因此可以作为训练时的标签数据使用。
4、在获得了碱基的类别信息和位置信息后,开始制作标签数据集。首先生成一张与原图大小相同的矩阵,根据步骤一中获得的位置和类别信息,将碱基的类别(A为1,C为2,G为3,T为4)填入矩阵的指定位置,而其余位置则填充为0。
5、使用自训练的方式来更新标签。更新标签可以是,首先使用初步训练的网络模型对数据进行碱基识别,获取识别结果。然后,重复步骤2至4,更新标签。这种方法可以提高模型对以前未成功比对的数据的学习能力,从而提高模型对所有碱基簇的识别能力。
S12,通过数据增强方式对训练样本进行扩增。其中,数据增强方式包括:
模拟Phasing进行数据增强:将上一个Cycle图像的像素值以一定范围内的随机比例加到当前Cycle上,来模拟上一个Cycle的生化反应对当前Cycle的影响。
模拟Prephasing进行数据增强:将下一个Cycle图像的像素值以一定范围内的随机比例加到当前Cycle上,来模拟下一个Cycle的生化反应对当前Cycle的影响。
模拟Crosstalk进行数据增强:将当前Cycle不同通道之间按一定范围内的随机比例进行相加。例如模拟A通道对T通道的Crosstalk影响,可以将A通道图像的像素值的百分之2加到T通道上。
模拟测序后期反应质量不佳的现象:对荧光图像添加一定程度的高斯噪声,并降低图像亮度。
以上数据增强方式均以一定概率执行。
S13,构建基于双向循环神经网络构建初始的碱基识别模型,通过训练样本集进行训练,得到碱基识别模型。
其中,初始的碱基识别模型的架构如图7所示,采用Unet为基础骨架设计双向循环结构。对初始的碱基识别模型的训练过程主要包括如下部分:
1、输入
将每个Cycle的四张荧光图像按照通道维度进行堆叠,创建一个四通道的输入数据,此为一个Cycle的数据。这个输入数据的维度为(4,H,W),其中H和W分别表示训练图像的高度和宽度。碱基识别模型一次输入多个Cycle的数据,本实施例中,碱基识别模型是以3个Cycle为一个输入序列。
2、输出
3个Cycle的荧光图像数据经过网络模型以后输出对应的预测类别。其中,可以引入一种掩膜策略以进一步优化碱基预测,仅保留碱基簇中心位置的预测结果,而其余位置可以全部置0,通过掩膜策略可以有效地聚焦预测过程的关注点,并排除不必要的背景干扰。
3、损失计算
损失函数可如前公式1-2所示。碱基识别模型的每一次迭代中,计算3个Cycle预测结果的损失值,然后求其均值用于反向传播。
S14,基因测序过程中,将每一循环内针对测序芯片的与A、C、G、T碱基类型的测序信号响应对应的四张待测荧光图像形成四通道待测图像组,以每相邻的三个循环的四通道待测图像组作为一个输入序列,利用训练完成的碱基识别模型依次以输入序列为输入,进行前向递归和反向递归,得到最终的碱基识别结果。
碱基识别模型包括Unet1和Unet2,分别进行前向递归和反向递归,Unet1和Unet2的结构相同,但它们的参数不共享,Unet1负责处理前向递归,接受当前循环的输入数据,同时考虑了来自上一个循环的输出信息(上一个Cycle的预测结果),预测当前循环的结果,这对于克服不同周期(Cycle)的生化反应影响中Phasing和G quenching导致的碱基识别不准的问题具有较好的针对性。Unet2用于反向递归,接收当前循环的输入,同时考虑了后一个循环的输出信息(后一个Cycle的预测结果),预测当前循环的结果,这对于克服不同周期(Cycle)的生化反应影响中Prephasing导致的碱基识别不准的问题具有较好的针对性。如此,基于双向循环Unet网络模型为架构的碱基识别模型,有助于充分利用前向和反向信息,提高荧光图像中碱基类别的分类性能,这一方法考虑了图像中不同方向的相关信息,并通过递归整合实现信息传递和提高预测精度。
上述实施例提供的双向循环神经网络的碱基识别方法,一方面采用双向循环的Unet结构,能够从两个方向来有效整合不同Cycle之间的信息,从而更精确地预测当前Cycle的碱基类别;另一方面通过模拟生化反应中的干扰因素来对图像进行数据增强,增加数据多样性,扩充难分样本的数量,提高模型的泛化性。总结来说,本申请实施例提供的双向循环神经网络的碱基识别方法,至少具备如下优点:
优越的信息利用及准确性:与传统算法相比,本申请实施例提供的基于双向循环神经网络Basecall方式具备更高的准确性,双向循环神经网络模型是以多个Cycle的荧光图像作为输入,不同于常规的深度学习模型直接采用图像的亮度矩阵作为输入,能够更为充分地利用图像中的信息,进一步提升预测的准确性。
上下文信息整合:碱基识别模型的输入通常包含多个Cycle的相关性,即某个Cycle的碱基的识别可能受到其前后Cycle的影响。双向Unet模型通过同时处理正向和反向的碱基序列,能够更好地捕获这种上下文信息,这有助于提高碱基识别的准确性,尤其是当前后Cycle影响较大时。
减少错误率:双向Unet可以同时生成两个方向的预测结果,这有助于检测潜在的错误或不确定性,并提高了碱基识别的可信度。此外,通过适当的整合策略,可以将两个方向的结果结合起来,以获得更准确的综合预测。
更好的适应性:本申请实施例提供的基于双向循环神经网络Basecall方式能够通过模拟生化反应干扰来扩充训练数据,提高了数据多样性,从而有效适应各种样本和条件。
本申请另一方面,请参阅图12,提供一种基于双向循环神经网络模型的碱基识别装置,包括:获取模块21,用于获取多个循环分别对应的多通道待测图像组;其中,同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像为一个多通道待测图像组;碱基识别模型22,通过基于双向循环神经网络构建的所述碱基识别模型以所述多通道待测图像组为输入,将连续三个循环对应的所述多通道待测图像组作为中间循环的输入序列,通过正向循环神经网络以所述输入序列为输入进行前向递归、通过反向循环神经网络以所述输入序列为输入进行逆向递归,基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果;预测模块23,用于根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果。
可选的,所述正向循环神经网络包括第一Unet网络,所述第一Unet网络以所述输入序列中三个循环按序作为输入进行前向递归,以每一循环作为当前循环,将前一循环的隐藏层输出叠加至当前循环的输入,根据前一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出;所述第二Unet网络以所述输入序列中三个循环按序作为输入进行逆向递归,以每一循环作为当前循环,将后一循环的隐藏层输出叠加至当前循环的输入,根据后一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出。
可选的,每一循环对应的多通道待测图像组为分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光图像形成的四通道输入;所述碱基识别模型22,具体用于通过与所述第一Unet网络和第二Unet网络连接的卷积层,依序以所述输入序列中每一循环为当前循环,将所述第一Unet网络的输出和所述第二Unet网络的输出进行融合,得到当前循环对应的特征图; 根据所述特征图进行分类预测,得到对应的碱基分类预测结果。
可选的,所述预测模块23,具体用于在基因测序中对多个碱基识别的对应多个循环内,依序针对每一待测循环形成以其为中间循环的输入序列,将所述输入序列的中间循环的碱基分类预测结果进行存储,作为对应所述待测循环的碱基分类预测结果;根据基因测序中所述多个循环分别对应的所述碱基分类预测结果,得到碱基序列。
可选的,还包括训练模块,用于获取训练样本集;每一训练样本包括连续三个循环对应的多通道样本图像组,每一多通道样本图像组包括对应循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像及各荧光图像对应的碱基类别标签;构建初始的双向循环神经网络模型,基于所述训练样本集对所述双向循环神经网络模型进行迭代训练直至损失函数收敛,得到所述碱基识别模型;所述初始的双向循环神经网络模型包括第一Unet网络形成的正向循环神经网络、第二Unet网络形成的反向循环神经网络、与所述正向循环神经网络和所述反向循环神经网络的输出连接的卷积层。
需要说明的是:上述实施例提供的基于双向循环神经网络模型的碱基识别装置在执行碱基识别过程中,仅以上述各程序模块的划分进行举例说明,在实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即可将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分方法步骤。另外,上述实施例提供的基于双向循环神经网络模型的碱基识别装置与基于双向循环神经网络模型的碱基识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请另一方面,还提供一种基因测序仪。请参阅图13,为基因测序仪的一个可选的硬件结构示意图,所述基因测序仪包括处理器111及与所述处理器111连接的存储器112,存储器112内存储有用于实现本申请任一实施例提供的基于双向循环神经网络的碱基识别方法的计算机程序,以使得相应所述计算机程序被所述处理器执行时,实现本申请任一实施例提供的基于双向循环神经网络的碱基识别方法的步骤。加载有相应计算机程序的基因测序仪与对应的方法实施例具有相同的技术效果,为避免重复,这里不再赘述。
本申请实施例另一方面,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述基于双向循环神经网络的碱基识别方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemor,简称ROM)、 随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机、计算机,服务器,基因测序仪、或网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围之内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于双向循环神经网络模型的碱基识别方法,其特征在于,包括:
获取多个循环分别对应的多通道待测图像组;其中,同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像为一个多通道待测图像组;
通过基于双向循环神经网络构建的碱基识别模型以所述多通道待测图像组为输入,将连续三个循环对应的所述多通道待测图像组作为输入序列,通过正向循环神经网络以所述输入序列为输入进行前向递归、通过反向循环神经网络以所述输入序列为输入进行逆向递归,基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果;
根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果;
其中,所述正向循环神经网络包括第一Unet网络,所述通过正向循环神经网络以所述输入序列为输入进行前向递归,包括:
所述第一Unet网络以所述输入序列中三个循环按序作为输入进行前向递归,以每一循环作为当前循环,将前一循环的隐藏层输出叠加至当前循环的输入,根据前一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出;
所述反向循环神经网络包括第二Unet网络,所述通过反向循环神经网络以所述输入序列为输入进行逆向递归,包括:
所述第二Unet网络以所述输入序列中三个循环按序作为输入进行逆向递归,以每一循环作为当前循环,将后一循环的隐藏层输出叠加至当前循环的输入,根据后一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出。
2.如权利要求1所述的碱基识别方法,其特征在于,每一循环对应的多通道待测图像组为分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光图像形成的四通道输入;所述基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果,包括:
通过与所述第一Unet网络和第二Unet网络连接的卷积层,依序以所述输入序列中每一循环为当前循环,将所述第一Unet网络的输出和所述第二Unet网络的输出进行融合,得到当前循环对应的特征图;
根据所述特征图进行分类预测,得到对应的碱基分类预测结果。
3.如权利要求1所述的碱基识别方法,其特征在于,所述根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果,包括:
在基因测序中对多个碱基识别对应的多个循环内,依序针对每一待测循环形成以其为中间循环的输入序列,将所述输入序列的中间循环的碱基分类预测结果进行存储,作为对应所述待测循环的碱基分类预测结果;
根据基因测序中所述多个循环分别对应的所述碱基分类预测结果,得到碱基序列。
4.如权利要求1所述的碱基识别方法,其特征在于,还包括:
获取训练样本集;每一训练样本包括连续三个循环对应的多通道样本图像组,每一多通道样本图像组包括对应循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像及各荧光图像对应的碱基类别标签;
构建初始的双向循环神经网络模型,基于所述训练样本集对所述双向循环神经网络模型进行迭代训练直至损失函数收敛,得到所述碱基识别模型;所述初始的双向循环神经网络模型包括第一Unet网络形成的正向循环神经网络、第二Unet网络形成的反向循环神经网络、与所述正向循环神经网络和所述反向循环神经网络的输出连接的卷积层。
5.如权利要求4所述的碱基识别方法,其特征在于,所述获取训练样本集,包括:
对训练样本采用数据增强方式进行处理,得到增强后训练样本,将所述增强后训练样本加入所述训练样本集以进行扩增;其中,所述数据增强方式包括如下至少之一:
针对任一训练样本,将前一循环的图像的像素值以第一预设范围内的随机比例叠加到中间循环的图像中;
针对任一训练样本,将后一循环的图像的像素值以第二预设范围内的随机比例叠加到中间循环的图像中;
针对任一训练样本,将其中至少一个循环的多通道样本图像组包含的多张荧光图像中,第一碱基类型的图像的像素值按预设比例叠加至第二碱基类型的图像中;
针对任一训练样本,对所述荧光图像添加高斯噪声。
6.如权利要求4所述的碱基识别方法,其特征在于,所述损失函数为聚焦损失函数FL如下:
其中,CE是指交叉熵损失函数, y 是指真实标签的 one-hot 编码,p是指模型预测的概率分布, C是指碱基类别的数量,yi是指碱基类别i对应的真实标签的 one-hot 编码,pi是指碱基类别i对应的模型预测的概率分布,λ是指超参数。
7.一种基于双向循环神经网络模型的碱基识别装置,其特征在于,包括:
获取模块,用于获取多个循环分别对应的多通道待测图像组;其中,同一循环内针对测序芯片的与不同碱基类型的测序信号响应对应的多张荧光图像为一个多通道待测图像组;
碱基识别模型,通过基于双向循环神经网络构建的所述碱基识别模型以所述多通道待测图像组为输入,将连续三个循环对应的所述多通道待测图像组作为输入序列,通过正向循环神经网络以所述输入序列为输入进行前向递归、通过反向循环神经网络以所述输入序列为输入进行逆向递归,基于所述正向循环神经网络和所述反向循环神经网络的输出进行融合,得到所述输入序列中各循环对应的碱基分类预测结果;其中,所述正向循环神经网络包括第一Unet网络,所述通过正向循环神经网络以所述输入序列为输入进行前向递归,包括:所述第一Unet网络以所述输入序列中三个循环按序作为输入进行前向递归,以每一循环作为当前循环,将前一循环的隐藏层输出叠加至当前循环的输入,根据前一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出;所述反向循环神经网络包括第二Unet网络,所述通过反向循环神经网络以所述输入序列为输入进行逆向递归,包括:所述第二Unet网络以所述输入序列中三个循环按序作为输入进行逆向递归,以每一循环作为当前循环,将后一循环的隐藏层输出叠加至当前循环的输入,根据后一循环的隐藏信息和当前循环的特征提取信息得到当前循环对应的输出;
预测模块,用于根据每组输入序列的中间循环的所述碱基分类预测结果,形成最终的碱基识别结果。
8.一种基因测序仪,其特征在于,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的基于双向循环神经网络模型的碱基识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于双向循环神经网络模型的碱基识别方法。
CN202311697890.1A 2023-12-12 2023-12-12 碱基识别方法及装置、基因测序仪及介质 Active CN117392673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311697890.1A CN117392673B (zh) 2023-12-12 2023-12-12 碱基识别方法及装置、基因测序仪及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311697890.1A CN117392673B (zh) 2023-12-12 2023-12-12 碱基识别方法及装置、基因测序仪及介质

Publications (2)

Publication Number Publication Date
CN117392673A CN117392673A (zh) 2024-01-12
CN117392673B true CN117392673B (zh) 2024-02-13

Family

ID=89468773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311697890.1A Active CN117392673B (zh) 2023-12-12 2023-12-12 碱基识别方法及装置、基因测序仪及介质

Country Status (1)

Country Link
CN (1) CN117392673B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117995284A (zh) * 2024-03-29 2024-05-07 深圳赛陆医疗科技有限公司 基于深度学习的基因测序的结果可视化方法、产品、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104053789A (zh) * 2012-05-14 2014-09-17 深圳华大基因医学有限公司 确定胎儿基因组中预定区域碱基信息的方法、系统和计算机可读介质
CN115232867A (zh) * 2022-07-21 2022-10-25 深圳赛陆医疗科技有限公司 一种快速的二代基因测序方法
CN115240189A (zh) * 2021-04-16 2022-10-25 深圳市华大智造软件技术有限公司 碱基分类方法、基因测序仪、计算机可读存储介质
CN116994246A (zh) * 2023-09-20 2023-11-03 深圳赛陆医疗科技有限公司 基于多任务联合的碱基识别方法及装置、基因测序仪及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11901044B2 (en) * 2019-01-16 2024-02-13 Koninklijke Philips N.V. System and method for determining sufficiency of genomic sequencing
US20230326065A1 (en) * 2020-08-31 2023-10-12 Element Biosciences, Inc. Primary analysis in next generation sequencing
US20230041989A1 (en) * 2021-08-03 2023-02-09 Illumina Software, Inc. Base calling using multiple base caller models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104053789A (zh) * 2012-05-14 2014-09-17 深圳华大基因医学有限公司 确定胎儿基因组中预定区域碱基信息的方法、系统和计算机可读介质
CN115240189A (zh) * 2021-04-16 2022-10-25 深圳市华大智造软件技术有限公司 碱基分类方法、基因测序仪、计算机可读存储介质
CN115232867A (zh) * 2022-07-21 2022-10-25 深圳赛陆医疗科技有限公司 一种快速的二代基因测序方法
CN116994246A (zh) * 2023-09-20 2023-11-03 深圳赛陆医疗科技有限公司 基于多任务联合的碱基识别方法及装置、基因测序仪及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
单细胞测序的技术概述;王权 等;《中国医药导刊》;20200731;第22卷(第7期);第433-438页 *
深度学习在碱基识别中的应用研究;柴合丹 等;《周口师范学院学报》;20210930;第38卷(第5期);第55-61页 *

Also Published As

Publication number Publication date
CN117392673A (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
US11817182B2 (en) Base calling using three-dimentional (3D) convolution
US20200056232A1 (en) Dna sequencing and epigenome analysis
AU2008261935B2 (en) Methods and processes for calling bases in sequence by incorporation methods
CN117392673B (zh) 碱基识别方法及装置、基因测序仪及介质
CN116994246B (zh) 基于多任务联合的碱基识别方法及装置、基因测序仪及介质
CN112313750B (zh) 使用卷积的碱基识别
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
NL2023311B9 (en) Artificial intelligence-based generation of sequencing metadata
WO2020232409A1 (en) Systems and devices for characterization and performance analysis of pixel-based sequencing
CN117274614A (zh) 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质
JP2023515111A (ja) インデックス配列の人工知能ベースのベースコール
CN113012757B (zh) 识别核酸中的碱基的方法和系统
CN116596933B (zh) 碱基簇检测方法及装置、基因测序仪及存储介质
CN117523559B (zh) 碱基识别方法及装置、基因测序仪及存储介质
CN117274739A (zh) 碱基识别方法及其训练集构建方法、基因测序仪及介质
CN117237198B (zh) 基于深度学习的超分辨测序方法及装置、测序仪及介质
CN117877025A (zh) 三维碱基识别方法及装置、基因测序仪及存储介质
CN117672343B (zh) 测序饱和度评估方法及装置、设备及存储介质
US20230087698A1 (en) Compressed state-based base calling
US20230298339A1 (en) State-based base calling
US20230343414A1 (en) Sequence-to-sequence base calling
WO2023049215A1 (en) Compressed state-based base calling
CN117672343A (zh) 测序饱和度评估方法及装置、设备及存储介质
CN118116469A (zh) 一种序列质量参数的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant