CN117315654A - 端到端的基因测序方法及装置、基因测序仪及存储介质 - Google Patents
端到端的基因测序方法及装置、基因测序仪及存储介质 Download PDFInfo
- Publication number
- CN117315654A CN117315654A CN202311597518.3A CN202311597518A CN117315654A CN 117315654 A CN117315654 A CN 117315654A CN 202311597518 A CN202311597518 A CN 202311597518A CN 117315654 A CN117315654 A CN 117315654A
- Authority
- CN
- China
- Prior art keywords
- super
- base
- resolution
- fluorescent
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 167
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 115
- 238000012549 training Methods 0.000 claims abstract description 153
- 238000013135 deep learning Methods 0.000 claims abstract description 118
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims description 44
- 238000002073 fluorescence micrograph Methods 0.000 claims description 40
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000002068 genetic effect Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 4
- 108020004414 DNA Proteins 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 18
- 239000012634 fragment Substances 0.000 description 14
- 230000004913 activation Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000003384 imaging method Methods 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 238000010606 normalization Methods 0.000 description 4
- 239000012128 staining reagent Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 108091023037 Aptamer Proteins 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 230000001678 irradiating effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000003752 polymerase chain reaction Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 229930024421 Adenine Natural products 0.000 description 1
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 1
- 229960000643 adenine Drugs 0.000 description 1
- IVRMZWNICZWHMI-UHFFFAOYSA-N azide group Chemical group [N-]=[N+]=[N-] IVRMZWNICZWHMI-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003503 early effect Effects 0.000 description 1
- 238000010828 elution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000003234 fluorescent labeling method Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000007775 late Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 239000002077 nanosphere Substances 0.000 description 1
- 230000002165 photosensitisation Effects 0.000 description 1
- 239000003504 photosensitizing agent Substances 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Organic Chemistry (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Zoology (AREA)
- General Engineering & Computer Science (AREA)
- Wood Science & Technology (AREA)
- Biomedical Technology (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Immunology (AREA)
- Microbiology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biochemistry (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明公开一种端到端的基因测序方法及装置、基因测序仪及存储介质,所述方法包括:获取测序芯片上多个碱基类型的碱基信号采集单元对应的待测荧光图像,其中所述待测荧光图像包括多个碱基类型对应的荧光图像;基于所述待测荧光图像,确定待测输入图像数据;将所述待测输入图像数据作为已训练的深度学习基因预测模型的输入,所述深度学习基因预测模型通过特征提取网络输出超分辨特征图、及通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,输出碱基识别结果;其中,所述特征提取网络为以训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到。
Description
技术领域
本发明涉及基因技术领域,特别涉及一种基于端到端的深度学习超分辨率基因测序方法及装置、基因测序仪及计算机可读存储介质。
背景技术
测序仪是一种广泛用于基因组测序的测序仪器,它可以快速、准确地测定DNA序列。测序整个流程包含通过光学系统获取样本图像,重构样本图像,基因图像配准,基因碱基识别(基因basecall)过程,获取测序结果与评估。重构样本图像是指在测序仪通过光学系统采集到样本图像后,通过重构算法对样本图像进行加工与处理,以恢复其在光学系统中丢失的部分信息以保证测序结果的准确性。重构图像常包含对于图像的超分辨率结果图像输出,以提高图像的清晰度,基于超分辨率图像的basecall过程可以减小不同碱基类型之间的串扰,提升测序准确性。然而,重构高质量的图像的过程比较耗时。
基因basecall过程中得到的重构后的图像,虽然图像质量变高,但图像重构的实时性不能满足要求,而且图像重构的质量非常依赖光学系统的稳定性。而且,已知的基于超分辨率重构图像进行basecall的过程,需要基于原始图像的图像特征完成图像重构,再基于重构图像的图像特征完成碱基类型识别,这个过程有信息冗余,冗余的信息会影响基因测序的准确性。
发明内容
为了解决现有存在的技术问题,本发明实施例提供一种基于端到端的深度学习超分辨率基因测序方法、装置、设备及计算机可读存储介质,能够避免图像重构而实现直接从输入端到输出端的基于超分辨率图像的测序过程,从而提高碱基识别的精度及测序时间。
第一方面,提供一种基于端到端的深度学习超分辨率基因测序方法,包括:
获取测序芯片上多个碱基类型的碱基信号采集单元对应的待测荧光图像,其中所述待测荧光图像包括多个碱基类型对应的荧光图像;
基于所述待测荧光图像,确定待测输入图像数据;
将所述待测输入图像数据作为已训练的深度学习基因预测模型的输入,所述深度学习基因预测模型通过特征提取网络输出超分辨特征图、及通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,输出碱基识别结果;其中,所述特征提取网络为以训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到。
第二方面,提供一种基于端到端的深度学习超分辨率基因测序装置,包括:
获取模块,获取测序芯片上多个碱基类型的碱基信号采集单元对应的待测荧光图像,其中所述待测荧光图像包括多个碱基类型对应的荧光图像;
确定模块,用于基于所述待测荧光图像,确定待测输入图像数据;
识别模块,用于将所述待测输入图像数据作为已训练的深度学习基因预测模型的输入,所述深度学习基因预测模型通过特征提取网络输出超分辨特征图、及通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,输出碱基识别结果;其中,所述特征提取网络为以训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到。
第三方面,提供一种基因测序仪,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行本申请实施例所提供的基于端到端的深度学习超分辨率基因测序方法的步骤。
第四方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行本申请实施例所提供的基于端到端的深度学习超分辨率基因测序方法的步骤。
上述实施例所提供的基于端到端的深度学习超分辨率基因测序方法及装置、基因测试仪、计算机可读存储介质,已训练的深度学习基因预测模型中,特征提取网络是基于训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到的,特征提取网络能够以待测输入图像数据为输入直接得到待测输入图像数据对应的超分辨率特征图,碱基类型预测网络再以特征提取网络得到的待测输入图像数据对应的超分辨率特征图进行碱基识别,如此,基因测序过程中,待测输入图像数据可以直接输入到深度学习基因预测模型中,通过深度学习基因预测模型无需对待测输入图像数据进行超分辨率图像重构的基础上,获得以超分辨图像的特征提取结果来进行碱基类型预测等效的碱基识别结果,实现了从输入端到输出端的测序过程,减少基因测序运行时间,而且可以提高碱基识别的精度。
附图说明
图1为一实施例中基于端到端的深度学习超分辨率基因测序方法的应用环境图;
图2为一实施例中基于端到端的深度学习超分辨率基因测序方法的流程图;
图3为一实施例中基于端到端的深度学习超分辨率基因测序系统的示意图;
图4为另一实施例中基于端到端的深度学习超分辨率基因测序系统的示意图;
图5为一实施例中基于端到端的深度学习超分辨率基因测序方法中训练深度学习基因预测模型的流程图;
图6为一实施例中基于端到端的深度学习超分辨率基因测序装置的示意图;
图7为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明的保护范围。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,但是应当理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
基因测序是指分析待测数据的DNA 片段的碱基序列,也就是腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)与鸟嘌呤(G)的排列方式。目前普遍使用荧光标记的方法进行基因测序,基因测序光学系统用激光激发测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段,以此识别碱基。
二代测序技术利用不同的荧光分子具有不同的荧光发射波长,当这些荧光分子受到激光照射时,它们会发出相应波长的荧光信号,通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,因此通过获取荧光信号,对荧光信号进行分析可以识别出碱基类型。主要包括样品制备、簇生成、测序及数据分析。
样品制备:将需要测序的DNA样品进行提取和纯化处理,然后进行DNA片段化及适配体连接。在可选示例中,通常采用超声波或限制性内切酶将DNA样品进行切割,将DNA样品切割成较小的大量的DNA片段。然后在DNA片段两端连接适配体,适配体包含特定序列用于后续连接和测序反应。
簇生成:该过程是对DNA片段进行扩增形成固定的DNA片段以便于后续将一个DNA片段形成一个碱基簇。在可选示例中,具体地,通过聚合酶链式反应(Polymerase ChainReaction,PCR)或桥式扩增等方法将DNA片段进行扩增,使得每个DNA片段形成数以百万计的复制品,将扩增的DNA片段固定在固定板上。每个DNA片段在固定板上形成一个独立的簇。
测序,是指针对测序芯片上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮集团,可以在测序的链延伸时候阻止聚合,确保一个循环(cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。
在对测序芯片Flowcell上的每个碱基簇进行测序读段时,测序时加进带有荧光标记的测序引物,通过引物识别和链延伸等技术对固定的DNA片段进行测序反应,每个DNA片段会在测序反应中逐个添加碱基,并利用荧光信号记录每个碱基的顺序。一个基因分子含有多个碱基,测序时,其中一个碱基会被接上一个荧光标记物,荧光标记物受激光激发会产生荧光。其中不同的碱基有不同的感光信号(例如荧光信号)。
然后使用相机捕获测试芯片上的电荷耦合器件(CCD)上产生的荧光信号的荧光图像。基因测序仪用激光激发基因测序芯片上荧光标记物产生荧光,并收集荧光信号,四种碱基结合不同的荧光标记物而产生四种不同的荧光波段。也即四种碱基类型的荧光图像。
基因测序仪还可包括照相平台,照相平台可包括操作台和相机,其中,测序芯片可置于操作台上,通过相机对测序芯片进行拍照可以得到荧光图像,在一张荧光图像中有很多荧光点,荧光图像中的一个荧光点代表一个碱基簇发出的荧光。
基因测序仪的成像方式可以是四通道成像系统或者双通道成像系统。对于双通道成像系统,每个相机需要在测试芯片的同一位置曝光两次。对于四通道成像系统,每个通道的相机在样品同一位置拍摄一次,分别得到四种碱基类型的荧光图像。例如分别得到A碱基类型的荧光图像、分别代表着A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。由于通过在激光照射后使用滤光片来选择性地过滤掉非特定波长的光线,以获取到特定波长的荧光信号,则每种碱基类型对应不同的荧光信号,在同一个循环(Cycle)反应中,同一类型碱基簇在其对应的类别碱基类型发光的亮度远远大于其它类别的碱基,每个通道发光的碱基簇理论上不会有重复。
基因测序仪获取到荧光图像后,会对采集的图像进行基因图像重构,基因图像配准、基因碱基识别(基因basecal),从而获取基因序列。
其中基因图像重构用于提高荧光图像的分辨率,以提高图像的清晰度,以减小样本间的串扰影响。基因图像重构包括但不限于去卷积等常规操作。
基因图像配准是对四个碱基类型的荧光图像进行校正,使四个碱基类型的荧光图像能够重合,才能提取到同一个位置的4个通道的荧光亮度,便于后续的碱基识别。基因图像配准包括但不限于同一通道的图像配准、全局或局部的仿射配准。
基因识别过程是根据配准后的图像,判断图像中的碱基簇属于A、C、G、T四种碱基的某一种。待测数据经过基因识别后,待测数据息从数字图像转化为A、C、G、T四种碱基的序列信息,即为样本的DNA序列结果,以供后续分析与评估。
数据分析:根据图像数据和序列信息进行测序数据的分析和解读。将序列信息与参考基因组进行比对用于突变识别。
对一个待测数据的测序的过程称为一次运行Run,一个待测数据的测序过程是由多个循环(Cycle)组成,一个循环对应一个反应周期,也即对应测序芯片中的一次碱基类型的识别。测序时,是边合成边测序。在一次循环中,数以千万的碱基簇被同时测序。
一个待测数据包括很多个DNA片段,在上述测序过程中,每个DNA片段会添加一个碱基,因此待测数据的DNA的碱基序列的长度决定了循环的次数。每一循环中,基因测序仪可得到ACGT四个碱基类型各一张荧光图像,在对待测数据进行测序时,基因测序仪能够获取到多个循环的ACGT通道的荧光图像。
参阅图1,为一实施例中基于端到端的深度学习超分辨率基因测序方法的应用环境图。基于端到端的深度学习超分辨率基因测序方法应用于基因测序仪,基因测序仪还可包括操作台和相机,其中测序芯片可置于操作台上,基因测序芯片上有按照阵列排列或随机分布的若干碱基簇。通过染色试剂,在测序反应时对不同类型的碱基簇会分别被接上不同的荧光标记物之一,这些荧光标记物通过激光照射后会发出荧光信号,通过滤光片选择性地过滤掉非特定地波长地荧光信号,以获取特定波长的荧光信号。不同的荧光标记物中的荧光分子具有不同的荧光发射波长,这样不同的碱基簇对应不同的荧光信号。通过相机获取荧光图像,对荧光图像进行分析以对每个碱基簇的碱基类别进行识别。其中相机可以是光学显微镜。
请参阅图2,为本申请一实施例提供的基于端到端的深度学习超分辨率基因测序方法的流程图。基于端到端的深度学习超分辨率基因测序方法应用于基因测序仪中,该基于端到端的深度学习超分辨率基因测序方法包括如下步骤:
S11、获取测序芯片上多个碱基类型的碱基信号采集单元对应的待测荧光图像。
在本实施例中,测序芯片上的碱基信号采集单元以碱基簇的形式呈现,在一些其他基因测序方法中,由于扩增方式不同,碱基信号采集单元可以以纳米球的形式呈现。
如图3所示,基于端到端的深度学习超分辨率基因测序系统包括图像采集单元,图像采集单元包括染色试剂、激光、显微镜。其中显微镜可以是光学显微镜。染色剂用于对测序芯片中的每个碱基簇添加荧光标记。初始化显微镜的物镜与激光功率参数,将激光功率调整至多种碱基类型的碱基簇能够均匀发光但不过曝,然后用激光照射测序芯片,测序芯片中的碱基簇上的荧光标记就能产生荧光信号,利用显微镜就能拍摄测序芯片,就能获取到待测荧光图像。
在本实施例中,待测荧光图像包括多个碱基类型对应的荧光图像,例如包括A碱基类型的荧光图像、C碱基类型的荧光图像、G碱基类型的荧光图像及T碱基类型的荧光图像。荧光图像中的一个荧光点表示一个碱基簇,例如A碱基类型的荧光图像中有很多个A碱基簇的荧光点。一个荧光点可以由多个像素点构成。
在每个循环中,基因测序仪的相机拍摄一次,可以得到多种碱基类型对应的荧光图像。例如基因测序仪的成像系统是四通道的成像模式,则在一个循环中,拍摄一次,可以得到四种碱基类型的荧光图像。在测序时,一个循环对应一个反应周期,也即对应测序芯片中的一次碱基类型的识别。可以将一循环中获取的荧光图像或者多次循环中获取的荧光图像作为待测荧光图像。
在拍摄荧光图像时,初始化基因测序仪的物镜与激光功率参数,将激光功率调整至多种碱基类型的碱基簇能够均匀发光但不过曝,调整物镜位置直到视野中碱基簇均清晰可见,边缘不模糊,以便得到质量较高的待测荧光图像。
S12、基于所述待测荧光图像,确定待测输入图像数据。
在基因测序的过程中,由于通道串扰(crosstalk)、荧光团的反应滞后效应(phasing)、荧光团的反应提前效应(prephasing)、相机在采集荧光图像时的精度误差、操作台的移动精度等等都会荧光图像中荧光点的亮度有影响。在荧光图像的亮度不均匀或者噪声比较多时,就会对碱基识别的精度。
其中通道串扰是不同的碱基类型的荧光图像间的亮度干扰。由于不同的荧光标记的荧光分子的波长分布存在重叠区,这样在不同碱基类型对应的荧光图像间会存在光强干扰的问题,例如测序芯片中的位置B处是A碱基簇,位置B处的邻近位置是位置D,位置D是C碱基簇,在用激光照射测序芯片时,位置B处的A碱基簇产生的荧光光强可能会对位置D是C碱基簇的产生的荧光光强产生干扰,这样在一轮循环中,相机得到四张荧光图像、A碱基类型对应的荧光图像、C碱基类型对应的荧光图像、G碱基类型对应的荧光图像、T碱基类型对应的荧光图像。那么A碱基类型对应的荧光图像中位置B处对应的荧光点的影子可能会出现C碱基类型的荧光图像中位置D处对应的荧光点处。
对于荧光团的反应滞后效应,由于荧光切除不完全,洗脱不干净等情况在当前轮循环中有未切除干净的荧光,未切除干净的荧光在下一次循环的测序反应中会有反应,这样就会对下一循环中采集的荧光图像的荧光强度产生干扰。
对于荧光团的反应提前效应,荧光团可能出现本来应该在下一个循环中反应,但部分荧光提前在当前循环中反应了,这样就会对,即荧光团的反应提前效应(prephasing)。这些反应的滞后和提前体现了荧光团中拷贝反应的异步性和不一致性,从而影响了碱基识别错误率的主要原因。
因此,对采集的荧光图像预处理,可以降低荧光图像中的噪声干扰。预处理包括但不限于:去噪处理、亮度调节、图像背景处理及碱基通道标准化等等。
在一些实施例中,基于所述待测荧光图像,确定待测输入图像数据包括:
基于多个碱基类型对应的荧光图像,计算所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值;
根据所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值,预处理所述待测荧光图像中的每个像素点的亮度,得到待测输入图像数据。
所述基于多个碱基类型对应的荧光图像,计算所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值包括:
,/>,
其中表示第/>个碱基类型对应的荧光图像中的第/>个像素点的像素值,/>表示像素点的总数,/>表示所述待测荧光图像的平均亮度值,/>表示所述待测荧光图像的亮度方差值;
所述根据待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值,预处理所述待测荧光图像中的每个像素点的亮度,得到预处理后的待测荧光图像包括:
其中表示第k个碱基类型对应的荧光图像中一个像素点的像素值,/>表示预处理后的第k个碱基类型对应的荧光图像中一个像素点的像素值。
在上述实施例中,待测荧光图像包括多个碱基类型的荧光图像,将这多种碱基类型对应的像素点的光强进行累加就能到待测荧光图像的平均亮度,基于多种碱基类型对应的荧光图像中的像素点的光强能够计算出待测荧光图像的亮度方差,基于待测荧光图像的平均亮度及待测荧光图像的亮度方差对多种碱基类型对应的每张荧光图像中的每个像素点进行处理。在碱基通道标准化处理中对于测序芯片上的多种碱基类型的碱基簇进行测序时,是基于多个碱基类型的荧光图像中的荧光光强对每个像素点的光强进行预处理,从而可以减少碱基通道间的亮度干扰,减少出现某些位置处的碱基簇对应的亮度值太亮或者后续处理的过程中衰减太快。在多种碱基类型对应的荧光图像是多个循环中采集的荧光图像时,还可以减少荧光团的反应提前效应及滞后反应带来的亮度影响,从而提高后续的碱基识别精度。
例如在基因测序过程中,在一个循环中分别获取到一张ACGT四种碱基类型的荧光图像,荧光图像的大小是4*4。将这四张荧光图像中的像素点的光强进行累加就能到平均亮度,基于四张荧光图像中的像素点的光强能够计算出亮度方差,然后利用平均亮度及亮度方差依次对这四张荧光图像中的16个像素点进行预处理。
S13、将待测输入图像数据作为已训练的深度学习基因预测模型的输入,所述深度学习基因预测模型通过特征提取网络输出超分辨特征图、及通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,输出碱基识别结果。
在本实施例中,特征提取网络为以训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到,因此,待测输入图像数据输入到特征提取网络中,特征提取网络能够输出待测输入图像数据的超分辨率特征图。
可选的,碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,可以通过增设配准模型对待测输入图像数据的超分辨率特征图进行图像配准,得到待测输入图像数据对应的配准后的特征图,将待测输入图像数据对应的配准后的特征图作为碱基类型预测网络的输入,通过碱基类型预测网络对待测输入图像数据中的碱基簇进行碱基类型识别。在另一些可选的实施例中,将待测输入图像数据输入到深度学习基因预测模型之前,可以采用传统的图像配准算法对同一循环内采集的多个碱基类型分别对应的荧光图像进行配准,或者,以经配准图像为标签对深度学习模型进行训练后得到的配准模型,对同一循环内采集的多个碱基类型分别对应的荧光图像进行配准。
本实施例中,针对每一循环,待测荧光图像为每一循环中采集的多个碱基类型的荧光图像,将多个碱基类型的荧光图像输入到深度学习基因预测模型中进行碱基识别,从而得到多个碱基类型的荧光图像对应的碱基识别结果。深度学习基因预测模型输出碱基识别结果的方式可以是多种方式,如可以采用多路或单路输出。多路输出即一个通道输出一种碱基类型的识别结果。例如通道1的识别结果是当前循环内A碱基类型的碱基簇的识别结果,通道2的识别结果是当前循环内C碱基类型的碱基簇的识别结果。单路输出是根据对多碱基类型的荧光图像处理得到的分别对应的A碱基类型的识别结果、C碱基类型的识别结果、G碱基类型的识别结果、T碱基类型的识别结果的并集,形成当前循环内一个同时包含A、C、G、T碱基信号采集单元的识别结果。
一个循环中,多个碱基类型的荧光图像经过深度学习基因预测模型处理后,深度学习基因预测模型输出数据也可以是多种方式,输出数据的方式包括输出每个碱基类型的荧光图像对应的碱基类别的概率、输出每个碱基类型的荧光图像中每个碱基簇的中心位置处的亮度值等等。
上述实施例中,将待测输入图像数据直接输入到已训练的深度学习基因预测模型中就能碱基识别结果,从而实现了从输入端到输出端的测序过程,并减少基因测序运行时间;而且已训练的深度学习基因预测模型中的特征提取网络是基于训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到的,特征提取网络能够输出待测输入图像数据对应的超分辨率特征图,碱基类型预测网络基于待测输入图像数据对应的超分辨率特征图进行碱基识别,从而可以提高碱基识别的精度。
在一些实施例中,待测输入图像数据包括同一循环内采集的与多个碱基类型对应的多张待测荧光图像,所述通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别之前,还包括:
通过已训练的配准模型对同组的所述多张待测荧光图像对应的超分辨特征图进行配准;其中,配准模型的每一训练样本包括多个碱基类型对应的样本荧光图像的特征图及所述样本荧光图像对应的配准后的特征图标签。
将待测输入图像数据对应的超分辨率特征图作为所述已训练的配准模型的输入,通过已训练的配准模型输出待测输入图像数据对应的配准后的特征图,使同一循环下的多个碱基类型的荧光图像对应的超分辨率特征图能够重合。从而得到待测荧光图对应的配准后的特征图,保证后续能够进行碱基识别。
具体地,在训练配准模型时,可以先获取样本荧光图像,然后利用传统的图像配准算法计算样本荧光图像的特征图,将样本荧光图像的特征图加入到用于配准模型的训练数据集中。从训练数据集中获取训练样本,将训练样本输入到配准模型中,以训练样本对应的配准后的特征图标签为训练目标进行监督学习,直至用于配准模型的损失函数收敛,得到已训练的配准模型。在每次迭代计算中,当前迭代下的配准模型基于当前迭代下的训练样本的特征图,输出当前迭代下的训练样本对应的配准特征图,基于损失函数,计算当前迭代下的训练样本对应的配准特征图与训练样本对应的配准后的特征图标签间的特征图损失值,在当前迭代下的特征图损失值满足迭代终止条件时,停止迭代,将当前迭代下的配准模型作为已训练的配准模型。
在上述实施例中,将待测输入图像数据对应的超分辨率特征图作为所述已训练的配准模型的输入到已训练的配准模型中,能够直接输出待测输入图像数据对应的配准后的特征图,无需基于待测输入图像数据对应的超分辨率特征图利用传统的图像配准方法计算配准后的特征图,从而可以减少测序时间。
如图3所示,基于端到端的深度学习超分辨率基因测序系统包括图像采集单元,图像采集单元包括染色试剂、激光、显微镜。其中显微镜可以是光学显微镜。染色剂用于对测序芯片中的每个碱基簇添加荧光标记。初始化显微镜的物镜与激光功率参数,将激光功率调整至多种碱基类型的碱基簇能够均匀发光但不过曝,然后用激光照射测序芯片,测序芯片中的碱基簇上的荧光标记就能产生荧光信号,利用显微镜就能拍摄测序芯片,就能获取到待测荧光图像。基于待测荧光图像,得到待测输入图像数据。
已训练的深度学习基因预测模型包括特征提取网络、已训练的配准模型及碱基类型预测网络。待测输入图像数据输入到特征提取网络中,通过特征提取网络输出待测输入图像数据对应的超分辨率特征图,待测输入图像数据对应的超分辨率特征图作为已训练的配准模型的输入,通过已训练的配准模型输出待测输入图像数据对应的配准后的特征图,待测输入图像数据对应的配准后的特征图作为碱基类型预测网络的输入,通过碱基类型预测网络输出待测输入图像数据中碱基簇的碱基类型。
其中特征提取网络包括上采样层,第一卷积层,激活层。通过上采样层,利用插值方法将待测输入图像数据的长度增加至第一预设倍数,宽度增加至第二预设倍数,得到插值后的待测输入图像数据;将插值后的待测输入图像数据输入第一卷积层中执行卷积操作,提取待测输入图像数据的特征图;将所述待测荧光图像的特征图输入至激活层中,利用激活函数进行非线性映射,基于激活层的处理,得到待测输入图像数据对应的超分辨率特征图。在其他实施例中,特征提取网络还可以包括归一化处理、池化层、全连接层等等。其中归一化操作避免处理过程中数值骤升或者骤降,池化层用于对第一卷积层的输出进行下采样处理,降低数据维度,减少模型复杂度和计算量。全连接层能够将经过第一卷积层、激活层和池化层处理后得到的输出进行展开,并通过全连接的方式将展开的内容与输出层进行连接,得到待测输入图像数据对应的超分辨率特征图。
具体地,对于一张荧光图像的处理,上采样层首先将荧光图像的长宽通过插值方法都增加至原来两倍,然后再将插值后的荧光图像输入到已训练的第一卷积层由深度学习网络进行微调。其中插值方法包括但不限于内插法、双三插值法等等。通过插值增加图像的像素数,增加图像的文件大小,可以消除因图像放大输出而产生的锯齿,从而提高荧光图像的分辨率,便于后续的能得到超分辨率的特征图,从而提高碱基识别精度。
第一卷积层的主要作用是提取待测输入图像数据中的特征,在通过卷积层对插值后的待测输入图像数据进行处理时,会通过在插值后的待测输入图像数据中滑动卷积核以获取插值后的待测输入图像数据位于卷积核内的部分数据,并对位于卷积核内的部分数据进行卷积运算,从而得到卷积层的输出。或者说,卷积核可以作为特征检测器,通过对插值后的待测输入图像数据进行滤波,以提取出插值后的待测输入图像数据中的碱基特征。
激活层采用非线性激活函数以引入非线性因素进行非线性映射,提高超分辨率模型的特征表达能力。非线性激活函数可以包括Relu函数。
其中碱基类型预测网络包括第二卷积层,分类网络层。配准后的特征图作为第二卷积层的输入,第二卷积层输出的数据作为分类网络层的输入数据,分类网络输出碱基识别结果。其中分类网络层可以Unet-like结构形式的分类网络。
在一些实施例中,需要获取样本,基于样本,对深度学习基因预测模型进行训练,得到已训练的深度学习基因预测模型。其中训练的深度学习基因预测模型包括:
获取训练样本集;其中,每一训练样本包括多个碱基类型对应的样本荧光图像、所述样本荧光图像对应的碱基类型标签及所述样本荧光图像经训练后的超分辨率图像模型得到的超分辨特征图标签;
构建初始的深度学习基因预测模型,其中,所述初始的深度学习基因预测模型包括特征提取网络及碱基类型预测网络;
通过所述训练样本集对所述初始的深度学习基因预测模型进行迭代训练,直至损失函数收敛,得到训练后的所述深度学习基因预测模型;其中,损失函数包括计算所述特征提取网络输出的超分辨特征图与所述超分辨特征图标签之间损失值的第一损失函数、以及计算所述碱基类型预测网络输出的碱基识别结果与所述碱基类型标签之间损失值的第二损失函数。
如图5所示,图5为一实施例中基于端到端的深度学习超分辨率基因测序方法中训练深度学习基因预测模型的流程图,具体包括:
S21、获取训练样本集。
在本实施例中,其中每一训练样本包括多个碱基类型对应的样本荧光图像、样本荧光图像对应的碱基类型标签图像及样本荧光图像经训练后的超分辨率图像模型得到的超分辨特征图标签。其中碱基类型标签图像是样本荧光图像对应的真实碱基类别的图像。碱基类型标签图像及超分辨特征图标签用于指导深度学习基因预测模型基于训练样本不断学习,直至达到训练终止条件。对应样本荧光图像的采集可以类型于步骤S11。利用如图4所示的图像采集单元采集大量的荧光图像。图像采集单元包括染色试剂、激光、显微镜。其中显微镜可以是光学显微镜。染色剂用于对测序芯片中的每个碱基簇添加荧光标记。初始化显微镜的物镜与激光功率参数,将激光功率调整至多种碱基类型的碱基簇能够均匀发光但不过曝,然后用激光照射测序芯片,测序芯片中的碱基簇上的荧光标记就能产生荧光信号,利用显微镜就能拍摄测序芯片,就能获取到样本荧光图像。
例如可以是多个循环中采集的多个碱基类型的荧光图像。也可以通过将输入到测序芯片上的基因样本数据的多样化,从而采集输入的不同的基因样本的多个循环下的多种碱基类型的荧光图像。训练样本集越丰富,就能提高后续模型的学习能力。
对于每一训练样本中的样本荧光图像,基于每个样本荧光图像得到超分辨率图像模型的输入数据,将每个样本荧光图像的输入数据输入经训练后的超分辨率图像模型得到的每个样本荧光图像对应的超分辨特征图标签。
在一些实施例中,通过所述训练样本集对所述初始的深度学习基因预测模型进行迭代训练之前,所述方法还包括:获取第一训练样本集;其中第一训练样本集中每一第一训练样本包括多个碱基类型对应的样本荧光图像及各所述样本荧光图像对应的超分辨图像标签;
构建初始的神经网络模型,基于所述第一训练样本集对初始的神经网络模型进行训练,得到训练后的超分辨率图像模型。
S22、构建初始的深度学习基因预测模型。
在本实施例中,初始的深度学习基因预测模型包括特征提取网络及碱基类型预测网络。
特征提取网络包括上采样层,第一卷积层,激活层。通过上采样层。在其他实施例中,特征提取网络还可以包括归一化处理、池化层、全连接层等等。其中归一化操作避免处理过程中数值骤升或者骤降,池化层用于对第一卷积层的输出进行下采样处理,降低数据维度,减少模型复杂度和计算量。全连接层能够将经过第一卷积层、激活层和池化层处理后得到的输出进行展开,并通过全连接的方式将展开的内容与输出层进行连接,得到特征网络的输出数据。
其中碱基类型预测网络包括第二卷积层,分类网络层。
在一些实施例中,初始的深度学习基因预测模型包括特征提取网络、已训练的配准模型及碱基类型预测网络。基于样本荧光图像得到样本输入数据,样本输入数据输入到特征提取网络中得到样本输入数据对应超分辨率特征图,样本输入数据对应的超分辨率特征图作为已训练的配准模型的输入,通过已训练的配准模型输出样本输入数据对应的配准后的特征图,样本输入数据对应的配准后的特征图作为碱基类型预测网络的输入,通过碱基类型预测网络输出样本输入数据中碱基簇的碱基类型。
S23、通过所述训练样本集对深度学习基因预测模型进行训练,计算训练过程中的损失函数的损失值。
在一些实施例中,由于通道串扰(crosstalk)、荧光团的反应滞后效应(phasing)、荧光团的反应提前效应(prephasing)、相机在采集荧光图像时的精度误差、操作台的移动精度等等都会荧光图像中荧光点的亮度有影响。在荧光图像的亮度不均匀或者噪声比较多时,就会影响深度学习基因预测模型。因此,需要对训练样本中的样本荧光图像进行处理,得到样本输入数据,然后基于样本输入数据对深度学习基因预测模型进行训练。
其中对训练样本中的样本荧光图像进行处理,得到样本输入数据包括:
基于每个训练样本对应的多个碱基类型对应的样本荧光图像,计算每个训练样本的平均亮度值及每个训练样本的亮度方差值;
根据每个训练样本的平均亮度值及每个训练样本的亮度方差值,计算每个训练样本中多个碱基类型对应的样本荧光图像中的每个像素点的亮度,得到每个训练样本的样本输入数据。
在上述实施例中,每个训练样本包括多个碱基类型的荧光图像,将每个训练样本中多种碱基类型对应的像素点的光强进行累加就能到每个训练样本的平均亮度,基于多种碱基类型对应的荧光图像中的像素点的光强能够计算出每个训练样本的亮度方差,基于每个训练样本的平均亮度及每个训练样本的亮度方差对每个训练样本中多种碱基类型对应的每张荧光图像中的每个像素点进行处理,从而可以减少碱基通道间的亮度干扰,减少出现某些位置处的碱基簇对应的亮度值太亮或者后续处理的过程中衰减太快。
在一些实施例中,损失函数包括计算所述特征提取网络输出的超分辨特征图与所述超分辨特征图标签之间损失值的第一损失函数、以及计算所述碱基类型预测网络输出的碱基识别结果与所述碱基类型标签之间损失值的第二损失函数。
损失函数为:
,
,
其中为损失函数,交叉熵损失(Minimum Classification Error Loss,MCE)为第二损失函数,均方误差(Mean Square Error, MSE)/>为第一损失函数,/>与/>是经验值,/>为第k种碱基类型,/>为判断为第k种碱基类型的概率,值在0-1之间,
其中是训练中的特征提取网络输出的训练样本的特征图的数量,/>是一张特征图中像素点的个数,/>为训练中的特征提取网络的输出训练样本的特征图中第i行第j列的像素点的像素值,/>为训练样本对应的超分辨率特征图标签中第i行第j列的像素点的像素值。
将样本输入数据输入到深度学习基因预测模型进行训练时,基于训练样本集迭代训练深度学习基因预测模型。在每次迭代中,将当前迭代下的样本输入数据输入到当前迭代下深度学习基因预测模型中的特征提取网络中,得到当前迭代下的样本输入数据的超分辨率特征图,基于第一损失函数计算当前迭代下的样本输入数据的超分辨率特征图与样本输入数据对应的超分辨特征图标签之间第一损失值;当前迭代下的深度学习基因预测模型中的碱基类型预测网络基于当前迭代下的样本输入数据的超分辨率特征图,得到当前迭代下的样本输入数据对应的碱基分类结果,基于第二损失函数计算当前迭代下的样本输入数据对应的碱基分类结果与当前迭代下的样本输入数据对应的碱基类型标签间的第二损失值,基于损失函数、当前迭代下的第一损失值及第二损失值计算当前迭代下的样本输入数据对应的损失值,基于当前迭代下的样本输入数据对应的损失值判断是否当前迭代满足迭代终止条件。若当前迭代满足迭代终止条件,则将当前迭代下的深度学习基因预测模型作为已训练的深度学习基因预测模型。若当前迭代不满足迭代终止条件,则根据当前迭代下的样本输入数据对应的损失值进行反向传播,优化深度学习基因预测模型中的参数;并再重复从训练样本集中抽取训练样本得到深度学习基因预测模型的输入,进行下一次迭代训练,迭代往复循环,不断优化深度学习基因预测模型的参数,直至满足迭代终止条件停止迭代训练。
S24、判断训练是否达到训练终止条件。
在本实施例中,训练终止条件包括但不限于在损失值小于预设误差时,或者迭代次数大于预设次数。当训练达到训练终止条件时,终止训练。当训练没有达到训练终止条件时,继续返回获取训练样本,继续训练深度学习基因预测模型。
在上述实施例中,基于训练样本集中每一训练样本,及每一训练样本对应的碱基类型标签及每一训练样本对应的超分辨特征图标签,对深度学习基因预测模型进行训练学习,能够使深度学习基因预测模型以每一训练样本对应的超分辨特征图标签为训练目标,从而输出超分辨率特征图,便于深度学习基因预测模型后续能精确进行碱基识别,在训练过程中并能使深度学习基因预测模型以每一训练样本对应的碱基类型标签为训练目标,从而输出精确的碱基识别结果。
在一些实施例中,在训练深度学习基因预测模型时,深度学习基因预测模型中的特征提取网络可以是预训练后的特征提取网络。在通过所述训练样本集对所述初始的深度学习基因预测模型进行迭代训练之前,所述方法还包括:
获取第二训练样本集;其中,每一第二训练样本包括多个碱基类型对应的样本荧光图像、及由训练后的所述超分辨图像模型以所述第二训练样本中样本荧光图像为输入得到的超分辨率特征图标签;
所述初始的深度学习基因预测模型的所述特征提取网络以所述第二训练样本集为输入进行迭代训练,直至所述第一损失函数收敛,得到预训练后的特征提取网络。
在上述实施例中,通过预先训练特征提取网络,得到预训练后的特征提取网络,在训练深度学习基因预测模型时,采用预训练后的特征提取网络,可以加快深度学习基因预测模型的收敛,从而提高训练速度。
在一些实施例中, 如图4所示,训练深度学习基因预测模型的示意图。该示意图包括图像采集单元、训练初始的深度学习基因预测模型。图像采集单元用于采集训练样本集中每个训练样本中多种碱基类型的样本荧光图像。在每次迭代中,基于样本荧光图像得到样本输入数据,将样本输入数据输入到特征提取网络中得到样本输入数据对应的超分辨率特征图,及将样本输入数据输入到训练后的超分辨率图像模型得到样本输入数据对应的超分辨率特征图标签,基于第一损失函数,计算样本输入数据对应的超分辨率特征图及样本输入数据对应的超分辨率特征图标签间的第一损失值。将样本输入数据对应的超分辨率特征图输入到已训练的配准模型中,得到样本输入数据对应的配准后的特征图,将样本输入数据对应的配准后的特征图输入到碱基类型预测网络中,得到样本输入数据对应的碱基识别结果,基于第二损失函数,计算样本输入数据对应的碱基识别结果与样本输入数据对应的碱基类型标签间的第二损失值,基于损失函数、第一损失值及第二损失值计算总损失值,基于总损失值判断当前迭代是否满足迭代终止条件,若当前迭代满足迭代终止条件,则将当前迭代下的深度学习基因预测模型作为已训练的深度学习基因预测模型。若当前迭代不满足迭代终止条件,则根据当前迭代下的样本输入数据对应的总损失值进行反向传播,优化深度学习基因预测模型中的参数;并再重复从训练样本集中抽取训练样本得到深度学习基因预测模型的输入,进行下一次迭代训练,迭代往复循环,不断优化深度学习基因预测模型的参数,直至满足迭代终止条件停止迭代训练。
请参阅图6,本申请一实施例提供一种基于端到端的深度学习超分辨率基因测序装置,包括:获取模块21,用于获取测序芯片上多个碱基类型的碱基信号采集单元对应的待测荧光图像,其中所述待测荧光图像包括多个碱基类型对应的荧光图像;确定模块22,用于基于所述待测荧光图像,确定待测输入图像数据;识别模块23,用于将所述待测输入图像数据作为已训练的深度学习基因预测模型的输入,所述深度学习基因预测模型通过特征提取网络输出超分辨特征图、及通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,输出碱基识别结果;其中,所述特征提取网络为以训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到。
可选的,确定模块22还用于基于多个碱基类型对应的荧光图像,计算所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值;
根据所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值,预处理所述待测荧光图像中的每个像素点的亮度,得到预处理后的待测荧光图像。
可选的,确定模块22还用于:
,/>,
其中表示第/>个碱基类型对应的荧光图像中的第/>个像素点的像素值,/>表示像素点的总数,/>表示所述待测荧光图像的平均亮度值,/>表示所述待测荧光图像的亮度方差值;
所述根据所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值,预处理所述待测荧光图像中的每个像素点的亮度,得到预处理后的待测荧光图像包括:
其中表示第k个碱基类型对应的荧光图像中一个像素点的像素值,/>表示预处理后的第k个碱基类型对应的荧光图像中一个像素点的像素值。
可选的,所述待测输入图像数据包括同一循环内采集的与多个碱基类型对应的多张待测荧光图像,所述通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别之前,识别模块23用于通过已训练的配准模型对同组的所述多张待测荧光图像对应的超分辨特征图进行配准;
其中,所述配准模型的每一训练样本包括多个碱基类型对应的样本荧光图像的特征图及所述样本荧光图像对应的配准后的特征图标签。
可选的,识别模块23用于获取训练样本集;其中,每一训练样本包括多个碱基类型对应的样本荧光图像、所述样本荧光图像对应的碱基类型标签及所述样本荧光图像经训练后的超分辨率图像模型得到的超分辨特征图标签;
构建初始的深度学习基因预测模型,其中,所述初始的深度学习基因预测模型包括特征提取网络及碱基类型预测网络;
通过所述训练样本集对所述初始的深度学习基因预测模型进行迭代训练,直至损失函数收敛,得到训练后的所述深度学习基因预测模型;其中,损失函数包括计算所述特征提取网络输出的超分辨特征图与所述超分辨特征图标签之间损失值的第一损失函数、以及计算所述碱基类型预测网络输出的碱基识别结果与所述碱基类型标签之间损失值的第二损失函数。
可选的,所述通过所述训练样本集对所述初始的深度学习基因预测模型进行迭代训练之前,识别模块23还用于:
获取第一训练样本集;其中,每一第一训练样本包括多个碱基类型对应的样本荧光图像及各所述样本荧光图像对应的超分辨图像标签;
构建初始的神经网络模型,基于所述第一训练样本集对初始的神经网络模型进行训练,得到训练后的超分辨率图像模型;
获取第二训练样本集;其中,每一第二训练样本包括多个碱基类型对应的样本荧光图像、及由训练后的超分辨图像模型以所述第二训练样本中样本荧光图像为输入得到的超分辨率特征图标签;
所述初始的深度学习基因预测模型的所述特征提取网络以所述第二训练样本集为输入进行迭代训练,直至所述第一损失函数收敛,得到预训练后的特征提取网络。
可选的,所述损失函数为:
,
,
其中为损失函数,/>为第二损失函数,/>为第一损失函数,/>与/>是经验值,/>为第k种碱基类型,/>为判断为第k种碱基类型的概率,值在0-1之间,
其中是所述初始的超分辨率模型的输出的特征图的数量,/>是一张特征图中像素点的个数,/>为所述初始的超分辨率模型的输出的特征图中第i行第j列的像素点的像素值,/>为所述教师网络模型中特征图中第i行第j列的像素点的像素值。
本领域技术人员可以理解的是,图6中基于端到端的深度学习超分辨率基因测序装置的结构并不构成对基于端到端的深度学习超分辨率基因测序装置的限定,所述各个模块可以全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的控制器中,也可以以软件形式存储于计算机设备中的存储器中,以便于控制器调用执行以上各个模块对应的操作。在其他实施例中,基于端到端的深度学习超分辨率基因测序装置中可以包括比图示更多或更少的模块。
请参阅图7,本申请实施例的另一方面,还提供了一种基因测序仪,包括存储器3011和处理器3012,存储器3011存储有计算机程序,计算机程序被处理器执行时,使得处理器3012执行本申请上述任一实施例所提供的基于端到端的深度学习超分辨率基因测序方法的步骤。基因测序仪可包括计算设备(例如,台式计算机、膝上型计算机、平板计算机、手持式计算机、智能扬声器、服务器等)、移动电话(例如,智能电话、无线电话等)、可穿戴设备(例如,一对智能眼镜或智能手表)或类似设备。
其中处理器3012是控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器3011内的软件程序和/或模块,以及调用存储在存储器3011内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器3012可包括一个或多个处理核心;优选的,处理器3012可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器3012中。
存储器3011可用于存储软件程序以及模块,处理器3012通过运行存储在存储器3011的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器3011可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器3011可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器3011还可以包括存储器控制器,以提供处理器3012对存储器3011的访问。
本申请实施例另一方面,还提供一种存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请上述任一实施例所提供的基于端到端的深度学习超分辨率基因测序方法的步骤。
本领域普通技术人员可以理解实现上述实施例所提供的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。
Claims (10)
1.一种基于端到端的深度学习超分辨率基因测序方法,其特征在于,包括:
获取测序芯片上多个碱基类型的碱基信号采集单元对应的待测荧光图像,其中所述待测荧光图像包括多个碱基类型对应的荧光图像;
基于所述待测荧光图像,确定待测输入图像数据;
将所述待测输入图像数据作为已训练的深度学习基因预测模型的输入,所述深度学习基因预测模型通过特征提取网络输出超分辨特征图、及通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,输出碱基识别结果;其中,所述特征提取网络为通过训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到。
2.如权利要求1所述的基于端到端的深度学习超分辨率基因测序方法,其特征在于,所述基于所述待测荧光图像,确定待测输入图像数据包括:
基于多个碱基类型对应的荧光图像,计算所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值;
根据所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值,预处理所述待测荧光图像中的每个像素点的亮度,得到待测输入图像数据。
3.如权利要求2所述的基于端到端的深度学习超分辨率基因测序方法,其特征在于,所述基于多个碱基类型对应的荧光图像,计算所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值包括:
,/>,
其中表示第/>个碱基类型对应的荧光图像中的第/>个像素点的像素值,/>表示像素点的总数,/>表示所述待测荧光图像的平均亮度值,/>表示所述待测荧光图像的亮度方差值;
所述根据所述待测荧光图像的平均亮度值及所述待测荧光图像的亮度方差值,预处理所述待测荧光图像中的每个像素点的亮度,得到预处理后的待测荧光图像包括:
其中表示第k个碱基类型对应的荧光图像中一个像素点的像素值,/>表示预处理后的第k个碱基类型对应的荧光图像中一个像素点的像素值。
4.如权利要求1所述的基于端到端的深度学习超分辨率基因测序方法,其特征在于,所述待测输入图像数据包括同一循环内采集的与多个碱基类型对应的多张待测荧光图像,所述通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别之前,所述方法还包括:
通过已训练的配准模型对同组的所述多张待测荧光图像对应的超分辨特征图进行配准;
其中,所述配准模型的每一训练样本包括多个碱基类型对应的样本荧光图像的特征图及所述样本荧光图像对应的配准后的特征图标签。
5.如权利要求1所述的基于端到端的深度学习超分辨率基因测序方法,其特征在于,所述方法还包括:
获取训练样本集;其中,每一训练样本包括多个碱基类型对应的样本荧光图像、所述样本荧光图像对应的碱基类型标签及所述样本荧光图像经训练后的超分辨率图像模型得到的超分辨特征图标签;
构建初始的深度学习基因预测模型,其中,所述初始的深度学习基因预测模型包括特征提取网络及碱基类型预测网络;
通过所述训练样本集对所述初始的深度学习基因预测模型进行迭代训练,直至损失函数收敛,得到训练后的所述深度学习基因预测模型;其中,损失函数包括计算所述特征提取网络输出的超分辨特征图与所述超分辨特征图标签之间损失值的第一损失函数、以及计算所述碱基类型预测网络输出的碱基识别结果与所述碱基类型标签之间损失值的第二损失函数。
6.如权利要求5所述的基于端到端的深度学习超分辨率基因测序方法,其特征在于,所述通过所述训练样本集对所述初始的深度学习基因预测模型进行迭代训练之前,所述方法还包括:
获取第一训练样本集;其中,每一第一训练样本包括多个碱基类型对应的样本荧光图像及各所述样本荧光图像对应的超分辨图像标签;
构建初始的神经网络模型,基于所述第一训练样本集对初始的神经网络模型进行训练,得到训练后的超分辨率图像模型;
获取第二训练样本集;其中,每一第二训练样本包括多个碱基类型对应的样本荧光图像、及由训练后的超分辨图像模型以所述第二训练样本中样本荧光图像为输入得到的超分辨率特征图标签;
所述初始的深度学习基因预测模型的所述特征提取网络以所述第二训练样本集为输入进行迭代训练,直至所述第一损失函数收敛,得到预训练后的特征提取网络。
7.如权利要求5所述的基于端到端的深度学习超分辨率基因测序方法,其特征在于,所述损失函数为:
,
,
其中为损失函数,/>为第二损失函数,/>为第一损失函数,/>与/>是经验值,/>为第k种碱基类型,/>为判断为第k种碱基类型的概率,值在0-1之间,
其中是训练中的特征提取网络输出的训练样本的特征图的数量,/>是一张特征图中像素点的个数,/>为训练中的特征提取网络的输出训练样本的特征图中第i行第j列的像素点的像素值,/>为训练样本对应的超分辨率特征图标签中第i行第j列的像素点的像素值。
8.一种基于端到端的深度学习超分辨率基因测序装置,其特征在于,包括:
获取模块,获取测序芯片上多个碱基类型的碱基信号采集单元对应的待测荧光图像,其中所述待测荧光图像包括多个碱基类型对应的荧光图像;
确定模块,用于基于所述待测荧光图像,确定待测输入图像数据;
识别模块,用于将所述待测输入图像数据作为已训练的深度学习基因预测模型的输入,所述深度学习基因预测模型通过特征提取网络输出超分辨特征图、及通过碱基类型预测网络基于所述超分辨特征图进行碱基类型识别,输出碱基识别结果;其中,所述特征提取网络为以训练后的超分辨率图像模型获得的超分辨特征图为标签进行训练后得到。
9.一种基因测序仪,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311597518.3A CN117315654B (zh) | 2023-11-28 | 2023-11-28 | 端到端的基因测序方法及装置、基因测序仪及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311597518.3A CN117315654B (zh) | 2023-11-28 | 2023-11-28 | 端到端的基因测序方法及装置、基因测序仪及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117315654A true CN117315654A (zh) | 2023-12-29 |
CN117315654B CN117315654B (zh) | 2024-03-15 |
Family
ID=89250250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311597518.3A Active CN117315654B (zh) | 2023-11-28 | 2023-11-28 | 端到端的基因测序方法及装置、基因测序仪及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117315654B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117995284A (zh) * | 2024-03-29 | 2024-05-07 | 深圳赛陆医疗科技有限公司 | 基于深度学习的基因测序的结果可视化方法、产品、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833335A (zh) * | 2020-07-17 | 2020-10-27 | 燕山大学 | 一种基于超分辨率重建的点阵结构缺陷检测方法及系统 |
CN112016507A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于超分辨率的车辆检测方法、装置、设备及存储介质 |
CN115240189A (zh) * | 2021-04-16 | 2022-10-25 | 深圳市华大智造软件技术有限公司 | 碱基分类方法、基因测序仪、计算机可读存储介质 |
US20230134592A1 (en) * | 2020-04-02 | 2023-05-04 | Altius Institute For Biomedical Sciences | Methods, Compositions, and Kits for Identifying Regions of Genomic DNA Bound to a Protein |
-
2023
- 2023-11-28 CN CN202311597518.3A patent/CN117315654B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230134592A1 (en) * | 2020-04-02 | 2023-05-04 | Altius Institute For Biomedical Sciences | Methods, Compositions, and Kits for Identifying Regions of Genomic DNA Bound to a Protein |
CN111833335A (zh) * | 2020-07-17 | 2020-10-27 | 燕山大学 | 一种基于超分辨率重建的点阵结构缺陷检测方法及系统 |
CN112016507A (zh) * | 2020-09-07 | 2020-12-01 | 平安科技(深圳)有限公司 | 基于超分辨率的车辆检测方法、装置、设备及存储介质 |
CN115240189A (zh) * | 2021-04-16 | 2022-10-25 | 深圳市华大智造软件技术有限公司 | 碱基分类方法、基因测序仪、计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
MAKINDE, OS: "Gene expression data classification: some distance-based methods", 《KUWAIT JOURNAL OF SCIENCE》, vol. 46, no. 3, 31 July 2019 (2019-07-31), pages 31 - 39 * |
高志锋 等: "DNA序列的分类", 《河南教育学院学报(自然科学版)》, no. 4, 30 December 2005 (2005-12-30), pages 53 - 59 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117995284A (zh) * | 2024-03-29 | 2024-05-07 | 深圳赛陆医疗科技有限公司 | 基于深度学习的基因测序的结果可视化方法、产品、设备及介质 |
CN117995284B (zh) * | 2024-03-29 | 2024-07-02 | 深圳赛陆医疗科技有限公司 | 基于深度学习的基因测序的结果可视化方法、产品、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117315654B (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621412B2 (en) | Dot detection, color classification of dots and counting of color classified dots | |
CN117315654B (zh) | 端到端的基因测序方法及装置、基因测序仪及存储介质 | |
Minden et al. | Difference gel electrophoresis | |
US8182993B2 (en) | Methods and processes for calling bases in sequence by incorporation methods | |
CN110326051B (zh) | 用于识别生物样本中的表达区别要素的方法和分析系统 | |
EP4258283A1 (en) | Method for training artificial neural network providing determination result of pathological specimen, and computing system for performing same | |
US8300971B2 (en) | Method and apparatus for image processing for massive parallel DNA sequencing | |
US20230243839A1 (en) | Information processing device, information processing method, program, microscope system, and analysis system | |
CN117351485B (zh) | 基因测序训练数据集的增强方法及装置、设备及存储介质 | |
CN116434226B (zh) | 循环肿瘤细胞分析仪 | |
Woloshuk et al. | In situ classification of cell types in human kidney tissue using 3D nuclear staining | |
CN117392673B (zh) | 碱基识别方法及装置、基因测序仪及介质 | |
CN117237198B (zh) | 基于深度学习的超分辨测序方法及装置、测序仪及介质 | |
EP3803686A1 (en) | Predicting cancer recurrence from spatial multi-parameter cellular and subcellular imaging data | |
WO2023107844A1 (en) | Label-free virtual immunohistochemical staining of tissue using deep learning | |
CN117523559B (zh) | 碱基识别方法及装置、基因测序仪及存储介质 | |
JP6999118B2 (ja) | 画像処理装置 | |
CN117877025A (zh) | 三维碱基识别方法及装置、基因测序仪及存储介质 | |
CN117672343A (zh) | 测序饱和度评估方法及装置、设备及存储介质 | |
He et al. | Deep Learning for MS2 Feature Detection in Liquid Chromatography Mass Spectrometry | |
WO2024160074A1 (zh) | 一种碱基识别方法及系统 | |
US20240321393A1 (en) | Cell-type optimization method and scanner | |
CN117831789B (zh) | 癌症治疗反应预测系统及其控制方法 | |
WO2023097685A1 (zh) | 核酸样本的碱基识别方法及装置 | |
CN115063403A (zh) | 三级淋巴结构的识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |