CN116596933A - 碱基簇检测方法及装置、基因测序仪及存储介质 - Google Patents
碱基簇检测方法及装置、基因测序仪及存储介质 Download PDFInfo
- Publication number
- CN116596933A CN116596933A CN202310878676.XA CN202310878676A CN116596933A CN 116596933 A CN116596933 A CN 116596933A CN 202310878676 A CN202310878676 A CN 202310878676A CN 116596933 A CN116596933 A CN 116596933A
- Authority
- CN
- China
- Prior art keywords
- fluorescent
- gray
- sequencing
- detected
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 43
- 238000001514 detection method Methods 0.000 title claims abstract description 35
- 238000012163 sequencing technique Methods 0.000 claims abstract description 191
- 230000009466 transformation Effects 0.000 claims abstract description 108
- 238000012549 training Methods 0.000 claims abstract description 52
- 230000004044 response Effects 0.000 claims abstract description 40
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 39
- 238000013136 deep learning model Methods 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 70
- 238000010586 diagram Methods 0.000 claims description 37
- 239000007850 fluorescent dye Substances 0.000 claims description 29
- 238000001215 fluorescent labelling Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 6
- 230000002068 genetic effect Effects 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 27
- 238000002372 labelling Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 108020004414 DNA Proteins 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000004907 flux Effects 0.000 description 6
- 239000012634 fragment Substances 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002073 fluorescence micrograph Methods 0.000 description 3
- 238000007672 fourth generation sequencing Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 102000053602 DNA Human genes 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000004544 DNA amplification Effects 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- IVRMZWNICZWHMI-UHFFFAOYSA-N azide group Chemical group [N-]=[N+]=[N-] IVRMZWNICZWHMI-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003331 infrared imaging Methods 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10056—Microscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
- G06T2207/10121—Fluoroscopy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本申请提供一种碱基簇检测方法及装置,基因测序仪及存储介质,所述碱基簇检测方法包括:获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像;通过反距离变换图预测模型对待测荧光灰度图像进行预测,得到各待测荧光灰度图像分别对应的预测反距离变换图;其中,所述反距离变换图预测模型为通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到的深度学习模型;基于预测反距离变换图,分别确定对应待测荧光灰度图像中的碱基簇位置,根据多张待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种基于荧光标记dNTP基因测序中碱基簇检测方法及装置,基因测序仪及计算机可读存储介质。
背景技术
目前,基因测序技术主要可分为四代,第一代测序技术Sanger法是基于DNA合成反应的测序技术,又称为SBS法、末端终止法,由Sanger1975年提出,并于1977发表第一个完整的生物体基因组序列。第二代测序技术是以Illumina平台为代表的测序,实现了高通量测序,有了革命性进展,使得大规模并行测序成为现实,极大推动了生命科学领域基因组学的发展。第三代测序技术是以Pacbio平台为代表的SMRT(Single-Molecule Real TimeSequencing,单分子荧光信号实时测序),测序技术具有高通量、长读长的特点。第四代测序技术是Nanopore纳米孔测序技术,是单分子实时测序的新一代技术,主要是通过ssDNA或RNA模板分子通过纳米孔而带来的电信号变化推测碱基组成进行实时测序。Sanger法测序读长长、准确度高,但是通量不高;Illumina测序读长短、通量高、准确度高,但在进行基因组组装或者结构变异分析的时候没有优势,可用作三、四代测序read的纠错;Pacbio测序读长长、通量高、准确度不高,但可通过测序深度弥补,GC偏差低,可进行甲基化的直接测序。Nanopore测序读长长、通量高、准确度低,不可通过测序深度弥补。
第二代基因测序技术中,以光学信号记录碱基,通过光信号转化为碱基序列的二代荧光簇测序相对于一代电泳法,测序通量更高,测序速度更快,且相对于三代单分子荧光测序和四代电信号测序,精度更高。其中,通过图像处理和碱基簇定位技术产生的碱基簇位置是后续芯片准确定位到所有碱基簇位置的参考,因此,通过图像处理和碱基簇定位技术为二代基因测序技术的核心算法之一,将与后续得到碱基序列数据的准确性有直接关系。
然而,目前传统的图像处理和碱基簇定位技术,首先在背景去除方面,图像处理算法常常采用全局阈值的方式进行背景估计,但存在背景估计不准确的问题。另外,常用的局部均值滤波和直方统计分位数取值方法受到芯片碱基簇密度大小的影响,导致在碱基簇密度高时,背景估计过高,从而使得去背景后信号点的亮度过低。除了背景去除问题,传统方法在荧光分割二值化和碱基簇检测查找方面也存在一些局限性。在荧光分割二值化中,传统方法通常采用全局阈值进行分割,但这种方法对于光照不均匀的图像存在问题,因为图像中心和边缘的亮度差异较大,使用同一个阈值会导致边缘碱基簇的遗漏。而在对碱基簇进行检测查找方面,传统方法通常基于强度大小,采用区域生长或分水岭算法,但这些方法容易导致部分碱基簇的丢失,并且速度相对较慢,无法满足实时处理测序数据的需求。此外,传统方法所利用的特征较为单一,碱基簇的形态大小亮度都受到当时环境和实验的影响,导致算法无法精确查找荧光亮点,还可能引入一些噪声点,导致所测荧光碱基序列的错误。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种能够适应不同碱基簇密度的情况、避免背景估计过高,对碱基簇的形态、大小以及亮度有较强的适应性,提高荧光碱基序列的测量准确性的基于荧光标记dNTP基因测序中碱基簇检测方法及装置、基因测序仪及计算机可读存储介质。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种基于荧光标记dNTP基因测序中碱基簇检测方法,包括:
获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,其中,每一所述待测荧光灰度图像中各荧光点与对应类型碱基的各碱基簇一一对应;
通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到各所述待测荧光灰度图像分别对应的预测反距离变换图;其中,所述反距离变换图预测模型为通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到的深度学习模型;
基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置。
第二方面,本申请实施例提供一种基于荧光标记dNTP基因测序中碱基簇检测装置,包括:
获取模块,用于获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,其中,每一所述待测荧光灰度图像中各荧光点与对应类型碱基的各碱基簇一一对应;
预测模块,用于通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到各所述待测荧光灰度图像分别对应的预测反距离变换图;其中,所述反距离变换图预测模型为通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到的深度学习模型;
定位模块,用于基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置。
第三方面,本申请实施例提供一种基因测序仪,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如本申请任一实施例所述的基于荧光标记dNTP基因测序中碱基簇检测方法。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请任一实施例所述的基于荧光标记dNTP基因测序中碱基簇检测方法。
上述实施例中,通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到反距离变换图预测模型,针对在测序阶段采集的针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到对应的预测反距离变换图,再基于所述预测反距离变换图,确定所述待测荧光灰度图像中碱基簇位置,根据多张所述待测荧光灰度图像中的碱基簇位置的并集,构建所述测序芯片的目标部位的碱基簇的模板点位置;如此,通过利用深度学习模型的训练获得反距离变换图预测模型,首先,深度学习模型能够自动学习图像中的特征和背景,并且不需要依赖手动设置全局阈值或特定的统计方法,这使得碱基簇的定位更加准确和稳定。其次,深度学习模型具有较强的自适应能力,通过学习对待测荧光灰度图像对应的反距离变换图的预测,能够适应不同碱基簇密度的情况,避免背景估计过高的问题,从而保持信号点的亮度和细节。此外,反距离变换图预测模型可以学习更丰富的特征表示,对碱基簇的形态,大小以及亮度也有较强的适应性,能够精确查找荧光亮点并减少噪声点的引入,提高荧光碱基序列的测量准确性。
上述实施例中,基于荧光标记dNTP基因测序中碱基簇检测装置、基因测序仪及计算机可读存储介质与对应的基于荧光标记dNTP基因测序中碱基簇检测方法实施例属于同一构思,从而分别与对应的基于荧光标记dNTP基因测序中碱基簇检测方法实施例具有相同的技术效果,在此不再赘述。
附图说明
图1为一实施例中芯片及芯片上碱基簇的示意图,其中,(a)为Flowcell示意图,(b)为一次循环中针对Flowcell上相应部位拍摄的荧光灰度图像,(c)为fastq文件中测序结果显示的示意图;
图2为一实施例中基于荧光标记dNTP基因测序中碱基簇检测方法的流程图;
图3为一实施例中通过反距离变换图预测模型输出的预测反距离变换图的示意图;
图4为一实施例中待测碱基簇灰度图像的示意图;
图5为一实施例中测序阶段的逻辑示意图;
图6为一实施例中训练反距离变换图预测模型的逻辑示意图;
图7为一实施例中碱基簇检测的示意图;
图8为原始的荧光灰度图像及该荧光灰度图像中的碱基簇位置的检测结果的对比示意图;
图9为一可选的具体示例中基于荧光标记dNTP基因测序中碱基簇检测方法的流程图;
图10为一实施例中作为样本图像的标签的反距离变换图的示意图;
图11为一实施例中基于荧光标记dNTP基因测序中碱基簇检测装置的结构示意图;
图12为一实施例中基因测序仪的结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本申请技术方案做进一步的详细阐述。
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”的表述,其描述了所有可能实施例的子集,需要说明的是,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一、第二、第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一、第二、第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
第二代基因测序技术又称下一代测序技术(Next-generation Sequencing,NGS),可以一次对几十万到几百万条DNA分子进行序列测定。已知的二代测序仪普遍是以光学信号记录碱基信息,通过光信号转化为碱基序列,而其中图像处理和荧光定位技术产生的碱基簇位置是后续芯片模板点位置的参考,因此图像处理和荧光定位技术,同碱基序列数据的准确性有直接关系。本申请实施例提供的基于荧光标记dNTP基因测序中碱基簇检测方法,主要应用于第二代基因测序技术。其中,荧光标记,是一种采用光信号的测量技术,在工业上常用于DNA测序,细胞标记,药物研究等领域。二代测序仪所采用的基因测序光信号法,是利用不同波段荧光标记不同的碱基,通过滤光片过滤,特定碱基连接成功会激发特定波长的光,最后识别为待测DNA碱基序列。这种通过采集光信号生成图像,再转变成碱基序列的技术则为第二代基因测序技术的主要原理。
二代测序仪,以Illumina测序仪为例,其测序流程主要包括样本准备、簇生成、测序及数据分析四个阶段。
样本准备,也就是文库构建,是指将待测基本组DNA打断形成大量DNA片段、将各DNA片段两端加接头(adapter),接头内分别包含测序结合位点、indices(标识DNA段来源的信息)、与测序芯片(Flowcell)上的寡聚核苷酸互补的特定序列。
簇生成,也就是通过把文库种到Flowcell上,利用桥式DNA扩增,一个DNA片段形成一个碱基簇。
测序,是指针对Flowcell上的每个碱基簇进行测序读段,测序加进带有荧光标记dNTP测序引物,dNTP化学式的一个端连接了叠氮集团,可以在测序的链延伸时候阻止聚合,确保一个循环(cycle)只能延长一个碱基,对应生成一个测序读段,也即边合成边测序。一次循环中,针对每一碱基簇通过荧光标记dNTP识别一个碱基,通过特定颜色的荧光信号分别对应不同类型碱基的测序信号响应,通过激光扫描可根据发出的荧光颜色来判断当前循环内针对每一碱基簇对应的是哪个碱基。一次循环中,数以千万的碱基簇在Flowcell都被测序,一个荧光点代表一个碱基簇发出的荧光,一个碱基簇则对应fastq当中的一条read。在测序阶段,通过红外相机拍摄Flowcell表面的荧光灰度图像,对荧光灰度图像进行图像处理和荧光点位置定位进行碱基簇检测,根据与不同类型碱基的测序信号响应对应的多张荧光灰度图像的碱基簇检测结果进行模板构建,构建出Flowcell上所有碱基簇模板点(cluster)的位置。根据模板,对滤波后图像进行荧光强度的提取,然后对荧光强度进行矫正,最终根据各碱基簇模板点位置的最大强度识别碱基计算得分,输出fastq碱基序列文件。请参阅图1,分别为Flowcell示意图(图1a)、一次循环中针对Flowcell上相应部位拍摄的荧光灰度图像(图1b)、及fastq文件中测序结果显示的示意图(图1c)。
数据分析,通过对代表所有DNA片段的数百万个read进行分析,对应每个样本,来自同一文库的碱基序列,可通过在文库构建过程中引入的接头中独特的index进行聚类,reads被配对生成连续序列,连续序列与参考基因组进行比对用于突变识别。
需要说明的是,上述是以Illumina测序技术作为大规模平行测序技术(MPS)的一种示例对测序流程进行说明,通过将待测DNA分子通过特定的扩增技术进行扩增,针对每一DNA片段(单链文库分子)扩增形成碱基簇,以碱基簇检测结果构建测序芯片上碱基簇的模板点,以便于后续能够根据碱基簇的模板点进行碱基识别等操作,提升碱基识别效率和准确性。可以理解的是,本申请实施例所提供的基于荧光标记dNTP基因测序中碱基簇检测方法,是基于测序芯片上单链文库分子扩增后的碱基簇进行定位检测和模板构建,从而其并不受限于针对单链文库分子所采用的哪一种扩增技术,也即,本申请实施例所提供的基于荧光标记dNTP基因测序中碱基簇检测方法,同样可以适用于其它大规模平行测序技术中针对测序芯片的碱基簇的定位检测和模板构建,本申请对此不作限制。
请参阅图2,为本申请一实施例提供的基于荧光标记dNTP基因测序中碱基簇检测方法,包括如下步骤:
S101,获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,其中,每一所述待测荧光灰度图像中各荧光点与对应类型碱基的各碱基簇一一对应。
碱基类型,通常是指A、C、G、T四种碱基类型。由于不同碱基类型是对应不同荧光标记dNTP的荧光信号,不同荧光标记dNTP的碱基簇之间没有交集,针对每一碱基类型的测序信号响应对应的荧光灰度图像,相应包含测序芯片中相应部位处包含的同一种碱基类型的碱基簇。获取针对测序芯片的目标部位分别与不同类型碱基的测序信号响应对应的多张原始图像,每张荧光灰度图像包括一种碱基类型的碱基簇的位置信息,根据多张荧光灰度图像中各自分别包含的碱基簇的位置信息,以能够得到测序芯片的目标部位处包含的完整的多个类型碱基簇的位置信息。
待测荧光灰度图像,是指测序流程中在测序阶段针对测序芯片表面拍摄的原始的荧光灰度图像。本实施例中,A、C、G、T碱基分别对应4个不同荧光标记dNTP的荧光信号,4个不同荧光标记dNTP的碱基簇之间没有交集。获取针对测序芯片的目标部位分别与不同类型碱基的测序信号响应对应的多张原始图像,是指针对同一测序芯片目标部位分别拍摄4个不同荧光标记dNTP的荧光信号对应的荧光灰度图像,利用A、C、G、T 4种碱基在不同波段的光照射下亮度不同,相应对同一个视场(测序芯片的同一目标部位)采集A、C、G、T 4种碱基被4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光灰度图像(4张原始的荧光灰度图像),作为与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像。
S103,通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到各所述待测荧光灰度图像分别对应的预测反距离变换图;其中,所述反距离变换图预测模型为通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到的深度学习模型。
反距离变换图预测模型,是指通过对卷积神经网络进行训练后得到的、能够基于荧光灰度图像输出准确的表征各碱基簇位置的反距离变换图(Inverse DistanceTransform Map,IDT)的深度学习模型。卷积神经网络可以采用多种形式如常见的Unet,Vgg,HRNet 等。反距离变换图预测模型,将测序阶段中拍摄的原始的荧光灰度图像作为待测荧光灰度图像输入,输出为对各待测荧光灰度图像进行预测得到的对应预测反距离变换图。请参阅图3,为反距离变换图预测模型输出的预测反距离变换图的示意图。需要说明的是,预测反距离变换图,可以理解为待测荧光灰度图像中各像素点对应的反距离变换值的数据矩阵,通过各像素点对应的反距离变换值的数据矩阵可精准地确定荧光点中心的位置,以相应表征碱基簇的位置。然而,待测荧光灰度图像中各像素点对应的反距离变换值的数据矩阵的呈现形式并不限于图3所示的图像形式。
S103,基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置。
通过得到的预测反距离变换图,可检测图像中像素点的灰度值以定位亮点中心,也即碱基簇位置。通过与不同类型碱基的测序信号响应对应的待测荧光灰度图像的采集,每张待测荧光灰度图像包括一种碱基类型的碱基簇的位置信息,因此,根据多张待测荧光灰度图像中各自分别包含的碱基簇位置的定位结果的并集,能够得到测序芯片的相应部位包含的全部类型碱基对应的碱基簇位置,形成所述测序信号的相应部位的碱基簇的模板点位置。其中,目标部位可以是测序芯片表面的某一局部位置,也可以是测序芯片的表面整体,通常与一张荧光灰度图像能够包含的成像区域范围相关。
请结合参阅图4和图5,通过获得各张待测荧光灰度图像分别对应的预测反距离变换图,基于所述预测反距离变换图分别获得各张待测荧光灰度图像中碱基簇位置;对多张预测反距离变换图进行图像配准和色差校正;根据校正后的碱基簇位置的并集进行模板构建,构建出测序芯片上所有碱基簇的模板点位置;根据碱基簇的模板点位置,可对后续拍摄的荧光灰度图像进行强度矫正和碱基类型识别,通过对滤波后的荧光灰度图像的各碱基簇的模板点位置进行荧光强度的提取,并对荧光强度进行矫正,最终根据最大强度识别碱基类型,过滤输出Fastq.gz碱基序列等文件。通过基于测序芯片上同一部位拍摄4个不同荧光标记dNTP的荧光信号对应的荧光灰度图像检测得到的碱基簇位置的并集构建测序芯片该相应部位的碱基簇的模板全集,后续对测序芯片该相应部位拍摄的荧光灰度图像均可以碱基簇的模板点位置来确定碱基类型,可以提升基因测序的效率和准确性。
上述实施例中,通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到反距离变换图预测模型,针对在测序阶段采集的针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到对应的预测反距离变换图,再基于所述预测反距离变换图,确定所述待测荧光灰度图像中碱基簇位置,根据多张所述待测荧光灰度图像中的碱基簇位置的并集,构建所述测序芯片的目标部位的碱基簇的模板点位置;如此,通过利用深度学习模型的训练获得反距离变换图预测模型,首先,深度学习模型能够自动学习图像中的特征和背景,并且不需要依赖手动设置全局阈值或特定的统计方法,这使得碱基簇的定位更加准确和稳定。其次,深度学习模型具有较强的自适应能力,通过学习对待测荧光灰度图像对应的反距离变换图的预测,能够适应不同碱基簇密度的情况,避免背景估计过高的问题,从而保持信号点的亮度和细节。此外,反距离变换图预测模型可以学习更丰富的特征表示,对碱基簇的形态,大小以及亮度也有较强的适应性,能够精确查找荧光亮点并减少噪声点的引入,提高荧光碱基序列的测量准确性。
在一些实施例中,所述获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像之前,还包括:
获取训练样本集;所述训练样本集包括以对应反距离变换图作为标签的样本图像;
初始化卷积神经网络的权重参数;
基于所述训练样本集对卷积神经网络进行训练,以卷积神经网络输出的预测图像与对应样本图像的标签之间的结构相似性误差构建损失函数,训练直至所述损失函数收敛,得到训练后的反距离变换图预测模型。
请参阅图6,为反距离变换图预测模型训练的逻辑示意图。获取训练样本集,包括通过数据标注获得样本图像。数据标注,是指以测序阶段采集到的原始的荧光灰度图像为初始的样本,针对每一初始的样本,通过传统的碱基簇检测算法计算得到碱基簇的中心位置信息作为标注点,根据标注点的集合,通过计算各像素点与其最近标注点之间的距离来生成反距离变换图作为对应样本的标签。样本图像的制备,也可以是利用位置信息生成模拟荧光图像的方式来制作样本和对应标签。在训练阶段,卷积神经网络从训练样本集中随机抽取样本图像作为模型输入进行迭代训练,每一次迭代训练中,卷积神经网络的输入是指训练样本集中的任一样本及对该样本通过标注获得的反距离变换图标签,卷积神经网络基于当前权重参数计算预测的输入样本的反距离变换图与对应的反距离变换图标签之间的结构相似性误差,判断误差是否小于设定值,若误差大于设定值,则根据误差进行反向传播,优化卷积神经网络的权重参数,并再重复从训练样本集中随机抽取样本作为模型输入进行下一次迭代训练,迭代往复循环,不断优化卷积神经网络的权重参数,直至卷积神经网络基于当前权重参数计算预测的输入样本的反距离变换图与对应的反距离变换图标签的之间的差异小于设定值,表明训练完成。
上述实施例中,利用卷积神经网络的训练得到反距离变换图预测模型,卷积神经网络可以智能学习荧光灰度图像中的特征和背景,将荧光灰度图像拟合成能够精准地表征碱基簇的形态、大小和亮度等碱基簇位置信息的反距离变换图,以便于后续能够根据反距离变换图精确查找图像中的荧光亮点,提升碱基簇位置的定位的准确性。
可选的,所述损失函数表示如下:
Loss = 1 – SSIM; (公式一)
; (公式二)
其中,E和G分别代表预测图像和标签,μ和σ 代表均值和标准差,λ为防止除零错误的参数。
λ参数为预设值,一般设置为大于0且远远小于1的固定值。在一个可选的示例中,λ为0.0001。SSIM表示卷积神经网络预测的反距离变换图和对应的标签反距离变换图之间的结构相似性误差,SSIM越大代表卷积神经网络预测的反距离变换图和对应的标签反距离变换图越相似,相应的,卷积神经网络的损失函数应该越小。在卷积神经网络训练过程中,损失函数越小,则表示卷积神经网络输出的预测图像与对应样本图像的标签之间的结构相似性误差越小,当误差在允许范围内时,表明卷积神经网络输出的预测图像的准确性符合预设要求,网络训练完成。
在一些实施例中,所述获取训练样本集,包括:
获取荧光灰度图像,对所述荧光灰度图像的碱基簇进行标注形成标注点;
根据所述标注点的位置信息,计算对应所述荧光灰度图像中各像素与其最近标注点之间的距离,生成反距离变换图为作为标签,根据各所述荧光灰度图像及其标签分别得到样本图像。
训练样本集中,样本图像可采用测序阶段采集到的原始的荧光灰度图像作为初始的样本,可以通过传统的碱基簇检测算法对样本进行检测,计算得到样本中碱基簇的中心位置信息(x’,y’)作为标注点。
可选的,所述反距离变换图表示如下:
; (公式三)
; (公式四)
其中,I’为反距离变换图,C为防止除零错误的参数,P(x, y)为任意像素(x, y)其最近标注点之间的距离。
用集合B表示所有标注点的集合,对于任意像素(x, y),通过欧几里得距离公式P(x, y)来计算其与最近标注点之间的距离。由于距离的变化范围较大,难以直接预测出点的中心位置,通过距离的倒数生成反距离变换图I’,以消除距离变化范围大导致影响荧光点的中心位置(即碱基簇位置)的定位准确性的问题,通过将原始的荧光灰度图像拟合成能够精准地表征碱基簇的形态、大小和亮度等碱基簇位置信息的反距离变换图,以便于后续能够根据反距离变换图精确查找图像中的荧光亮点中心,提升碱基簇位置的定位的准确性。
在一些实施例中,所述获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,包括:
在碱基簇测序读段中对一个碱基识别的循环内,针对测序芯片的目标部位采集分别与A、C、G、T四种类型碱基的测序信号响应对应的四张待测荧光灰度图像;或,
在碱基簇测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,对测序芯片的目标部位采集与不同类型碱基的测序信号响应对应的多张荧光灰度图像,从多个所述循环内选择分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光灰度图像作为待测荧光灰度图像。
在碱基簇测序读段中,一个循环对应各碱基簇的一个碱基识别,由于不同类型碱基对应不同荧光标记dNTP的荧光信号,与A、C、G、T四种类型碱基的测序信号响应分别对应的四张待测荧光灰度图像,可以是在一个碱基识别的循环内分别采集4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光灰度图像。可选的,分别与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像可以包括多组,每组待测荧光灰度图像可以由一个碱基识别的循环内不同荧光标记dNTP的荧光信号分别激光点亮采集得到;也可以是从多个循环内采集得到的荧光灰度图像中选择,每4个不同荧光标记dNTP的荧光信号激发点亮的四张荧光灰度图像可形成一个组合。本实施例中,待测荧光灰度图像可以来自于多个循环,也可以是多组,有利于减少碱基簇位置的定位检测结果的误差。
可选的,步骤S101中,所述获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,包括:
在碱基簇测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,对测序芯片的目标部位采集与不同类型碱基的测序信号响应对应的多张荧光灰度图像;
从多个所述循环内选择分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光灰度图像作为一组待测荧光灰度图像,形成多组待测荧光灰度图像;
步骤S105,所述基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置,包括:
基于每组待测荧光灰度图像对应的所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置;
对同组内待测荧光灰度图像的所述预测反距离变换图进行配准,根据配准后的所述预测反距离变换图确定碱基簇位置的并集,得到所述测序芯片的目标部位包含的碱基簇的一组模板点位置;
基于多组待测荧光灰度图像分别对应的多组模板点位置,根据模板点的分离状态和数量选取其中一组模板点位置作为最终的模板点位置。
利用A、C、G、T 4种碱基类型在不同波段的光照射下亮度不同,相应对同一个视场(相同的芯片目标部位)采集A、C、G、T 4种碱基被4个不同荧光标记dNTP的荧光信号(4种环境)激发点亮对应的荧光灰度图像(4张灰度图像),每4张与A、C、G、T 4种碱基类型对应的荧光灰度图像为一组。每一组待测荧光灰度图像,可以相应得到测序芯片的相应部位包含的碱基簇的一组模板点位置。通过多组待测荧光灰度图像的多组模板点位置,根据各组模板点位置中模板点的分离状态和数量,选择模板点位置清晰且数量最多的一组模板点位置作为最终的模板点位置,依此构建测序芯片的碱基簇的模板点全集,可以提升碱基簇定位的准确性。
可选的,步骤S105中,所述基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,包括:
针对每一所述待测荧光灰度图像对应的所述预测反距离变换图,根据各像素点与相邻像素点之间灰度值的大小进行亮点检测,确定候选荧光亮点,基于自适应阈值对所述候选荧光亮点进行筛选,确定对应所述待测荧光灰度图像中的碱基簇位置。
反距离变换图预测模型得到的预测反距离变换图中,中心像素的灰度值大于非中心像素的灰度值,请参阅图7,通过基于像素邻接关系构成连通的方法对预测反距离变换图进行亮点检测,以识别碱基簇中心位置。像素邻接关系构成连通的方法包括4连通方法和8连通方式。以8连通方法为例,查找亮点中心邻接的8个像素点,判断中心亮度是否为最大,如下所示:
将这些中心亮度最大的点作为候选荧光亮点,再通过设置阈值T来进行筛选。碱基簇的中心像素值通常远大于背景像素值,根据整图像素值的亮度最大值的一定比例设置自适应阈值T,如T = 0.4 * max,其中max为当前图像中亮度最大的点。基于自适应阈值对候选荧光亮点进行筛选,确定对应所述待测荧光灰度图像中的最终的碱基簇位置。如图8所示,为采用本申请实施例所提供的基于荧光标记dNTP基因测序中碱基簇检测方法,针对原始的荧光灰度图像中碱基簇进行定位检测后获得该荧光灰度图像中的碱基簇位置的检测结果的对比示意图。
为了能够对本申请实施例所提供的基于荧光标记dNTP基因测序中碱基簇检测方法具有更加整体的理解,请结合参阅图9,下面以一具体示例对基于荧光标记dNTP基因测序中碱基簇检测方法进行说明,所述基于荧光标记dNTP基因测序中碱基簇检测方法包括:
S11,数据标注。
通过传统的碱基簇检测算法计算得到碱基簇的中心位置信息(x’,y’)作为标注点,据得到的位置信息生成反距离变换图标签,其中欧几里得距离的公式如前述公式四所示。
其中B表示所有标注点的集合。对于任意像素(x, y),上述方程表示像素值P(x,y)与其最近标注点之间的距离。直接预测出点的中心位置是比较困难的,主要是由于距离的变化范围较大。因此采用倒数来消除距离的变化。具体来说,生成反距离变换图,如前述公式三所示。其中,I’即为IDT图,C是一个附加的常数为了防止发生除0错误,取1。IDT图,作为神经网络训练的标签的示意图可如图10所示。
S12,训练反距离变换图预测模型。
将数据标注获得的IDT图作为卷积神经网络的标签,设计卷积神经网络根据输入的荧光图像信息来预测IDT图。卷积神经网络可以采用多种形式,例如常见的Unet,Vgg,HRNet 等。训练过程为:
1、初始化卷积神经网络,初始化网络权重。
2、随机抽取样本训练集中的样本及其标签作为模型输入。
3、模型输出计算结果,结果为预测的IDT图。
根据卷积神经网络的损失函数,计算反距离变换图预测模型输出IDT图与训练样本集中的对应标签IDT图的差异。差异的衡量方式为计算两者之间的结构相似性误差(SSIM),如前述公式二所示。损失函数Loss的计算如前述公式一所示。Loss计算出一个数值结果,判断此误差是否小于设定值。如果计算结果小于设定值,则表明网络已经训练完成,其误差在允许范围内,结束训练。如果计算结果大于设定值,则表明网络尚未完全具有拟合标签的能力,其预测的IDT图与标签IDT图的误差较大,根据误差进行反向传播,优化并改变模型参数,然后重复随机选取输入图像进行再次训练。
S13,反距离变换图预测模型对待测荧光灰度图像进行预测,得到IDT图。
通过训练后得到的反距离变换图预测模型,将测序流程中拍摄得到的原始荧光灰度图像为待测荧光灰度图像进行预测,得到对应的预测IDT图。
S14,碱基簇检测。
通过预测IDT图,通过基于像素邻接关系构成连通的方式,筛选检测荧光中心点位置,如图8所示。查找亮点中心邻接8连通,判断中心亮度是否为最大点,这些最大点作为候选荧光亮点,然后需要进一步进行刷选。经过观察,碱基簇的中心像素值远大于背景像素值,设置一个自适应阈值T来进行筛选。
上述实施例中,荧光图像标签数据制作的方法,通过标注位置信息,生成碱基簇IDT图;通过深度学习的方法预测荧光图像的IDT图,然后再检测碱基簇中心位置;在IDT图中检测碱基簇的策略,首先筛选出候选点,再通过对最大值的比例设置自适应阈值来剔除噪声位置。其中,深度学习方法能够自动学习图像中的特征和背景,将荧光灰度图像拟合成IDT图像,并且不需要依赖手动设置全局阈值或特定的统计方法,IDT图像噪声少,碱基簇清晰,这使得碱基簇的定位更加准确和稳定。其次,深度学习模型具有较强的自适应能力,能够适应不同碱基簇密度的情况,避免背景估计过高的问题,从而保持信号点的亮度和细节。此外,深度学习方法可以学习更丰富的特征表示,对碱基簇的形态,大小以及亮度也有较强的适应性,能够精确查找荧光亮点并减少噪声点的引入,提高荧光碱基序列的测量准确性。
请参阅图11,本申请另一方面提供一种基于荧光标记dNTP基因测序中碱基簇检测装置,包括:获取模块21,用于获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,其中,每一所述待测荧光灰度图像中各荧光点与对应类型碱基的各碱基簇一一对应;预测模块22,用于通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到各所述待测荧光灰度图像分别对应的预测反距离变换图;其中,所述反距离变换图预测模型为通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到的深度学习模型;定位模块23,用于基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置。
可选的,还包括训练模块,用于获取训练样本集;所述训练样本集包括以对应反距离变换图作为标签的样本图像;初始化卷积神经网络的权重参数;基于所述训练样本集对卷积神经网络进行训练,以卷积神经网络输出的预测图像与对应样本图像的标签之间的结构相似性误差构建损失函数,训练直至所述损失函数收敛,得到训练后的反距离变换图预测模型。
可选的,所述训练模块还用于获取荧光灰度图像,对所述荧光灰度图像的碱基簇进行标注形成标注点;根据所述标注点的位置信息,计算对应所述荧光灰度图像中各像素与其最近标注点之间的距离,生成反距离变换图为作为标签,根据各所述荧光灰度图像及其标签分别得到样本图像。
可选的,所述预测模块21,还用于获取针对芯片目标部位与不同荧光碱基信号响应对应的多张原始图像分别作为待测荧光灰度图像;所述定位模块22,还用于基于多张所述待测荧光灰度图像对应的所述预测反距离变换图,分别确定各所述待测荧光灰度图像中的碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述芯片目标部位的荧光灰度图像中碱基簇的模板点位置。
可选的,所述获取模块21,还用于在碱基簇测序读段中对一个碱基识别的循环内,针对测序芯片的目标部位采集分别与A、C、G、T四种类型碱基的测序信号响应对应的四张待测荧光灰度图像;或,在碱基簇测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,对测序芯片的目标部位采集与不同类型碱基的测序信号响应对应的多张荧光灰度图像,从多个所述循环内选择分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光灰度图像作为待测荧光灰度图像。
可选的,所述获取模块21,还用于在碱基簇测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,对测序芯片的目标部位采集与不同类型碱基的测序信号响应对应的多张荧光灰度图像;从多个所述循环内选择分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光灰度图像作为一组待测荧光灰度图像,形成多组待测荧光灰度图像;所述定位模块,还用于基于每组待测荧光灰度图像对应的所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置;对同组内待测荧光灰度图像的所述预测反距离变换图进行配准,根据配准后的所述预测反距离变换图确定碱基簇位置的并集,得到所述测序芯片的目标部位包含的碱基簇的一组模板点位置;基于多组待测荧光灰度图像分别对应的多组模板点位置,根据模板点的分离状态和数量选取其中一组模板点位置作为最终的模板点位置。
可选的,所述定位模块23,还用于针对每一所述待测荧光灰度图像对应的所述预测反距离变换图,根据各像素点与相邻像素点之间灰度值的大小进行亮点检测,确定候选荧光亮点,基于自适应阈值对所述候选荧光亮点进行筛选,确定对应所述待测荧光灰度图像中的碱基簇位置。
需要说明的是:上述实施例提供的基于荧光标记dNTP基因测序中碱基簇检测装置在实现碱基簇检测的处理过程中,仅以上述各程序模块的划分进行举例说明,在实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即可将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分方法步骤。另外,上述实施例提供的基于荧光标记dNTP基因测序中碱基簇检测装置与基于荧光标记dNTP基因测序中碱基簇检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请另一方面提供一种基本测序仪。请参阅图12,为本申请实施例提供的红外成像设备的一个可选的硬件结构示意图,所述图像数据处理设备包括处理器111及与所述处理器111连接的存储器112,存储器112内存储有用于实现本申请任一实施例提供的基于荧光标记dNTP基因测序中碱基簇检测方法的计算机程序,所述计算机程序被所述处理器执行时,实现本申请任一实施例提供的基于荧光标记dNTP基因测序中碱基簇检测方法的步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例另一方面,还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述图像数据处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-OnlyMemory,简称ROM)、随机存取存储器(RandomAccessMemory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机、计算机,服务器,或网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围之内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种基于荧光标记dNTP基因测序中碱基簇检测方法,其特征在于,包括:
获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,其中,每一所述待测荧光灰度图像中各荧光点与对应类型碱基的各碱基簇一一对应;
通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到各所述待测荧光灰度图像分别对应的预测反距离变换图;其中,所述反距离变换图预测模型为通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到的深度学习模型;
基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置。
2.如权利要求1所述的碱基簇检测方法,其特征在于,所述获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像之前,还包括:
获取训练样本集;所述训练样本集包括以对应反距离变换图作为标签的样本图像;
初始化卷积神经网络的权重参数;
基于所述训练样本集对卷积神经网络进行训练,以卷积神经网络输出的预测图像与对应样本图像的标签之间的结构相似性误差构建损失函数,训练直至所述损失函数收敛,得到训练后的反距离变换图预测模型。
3.如权利要求2所述的碱基簇检测方法,其特征在于,所述损失函数表示如下:
Loss = 1 – SSIM;
;
其中,E和G分别代表预测图像和标签,μ和σ 代表均值和标准差,λ为防止除零错误的参数。
4.如权利要求2所述的碱基簇检测方法,其特征在于,所述获取训练样本集,包括:
获取荧光灰度图像,对所述荧光灰度图像的荧光点进行标注形成标注点;
根据所述标注点的位置信息,计算对应所述荧光灰度图像中各像素与其最近标注点之间的距离,生成反距离变换图作为标签,根据各所述荧光灰度图像及其标签分别得到样本图像。
5.如权利要求4所述的碱基簇检测方法,其特征在于,所述反距离变换图表示如下:
;
;
其中,I’为反距离变换图,C为防止除零错误的参数,P(x, y)为任意像素(x, y) 其最近标注点之间的距离,B为标注点集。
6.如权利要求1至5中任一项所述的碱基簇检测方法,其特征在于,所述获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,包括:
在碱基簇测序读段中对一个碱基识别的循环内,针对测序芯片的目标部位采集分别与A、C、G、T四种类型碱基的测序信号响应对应的四张待测荧光灰度图像;或,
在碱基簇测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,对测序芯片的目标部位采集与不同类型碱基的测序信号响应对应的多张荧光灰度图像,从多个所述循环内选择分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光灰度图像作为待测荧光灰度图像。
7.如权利要求1至5中任一项所述的碱基簇检测方法,其特征在于,所述获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,包括;
在碱基簇测序读段中对多个碱基识别的对应多个循环内,针对每一所述循环,对测序芯片的目标部位采集与不同类型碱基的测序信号响应对应的多张荧光灰度图像;
从多个所述循环内选择分别与A、C、G、T四种类型碱基的测序信号响应对应的四张荧光灰度图像作为一组待测荧光灰度图像,形成多组待测荧光灰度图像;
所述基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置,包括:
基于每组待测荧光灰度图像对应的所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置;
对同组内待测荧光灰度图像的所述预测反距离变换图进行配准,根据配准后的所述预测反距离变换图确定碱基簇位置的并集,得到所述测序芯片的目标部位包含的碱基簇的一组模板点位置;
基于多组待测荧光灰度图像分别对应的多组模板点位置,根据模板点的分离状态和数量选取其中一组模板点位置作为最终的模板点位置。
8.如权利要求1所述的碱基簇检测方法,其特征在于,所述基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,包括:
针对每一所述待测荧光灰度图像对应的所述预测反距离变换图,根据各像素点与相邻像素点之间灰度值的大小进行亮点检测,确定候选荧光亮点,基于自适应阈值对所述候选荧光亮点进行筛选,确定对应所述待测荧光灰度图像中的碱基簇位置。
9.一种基于荧光标记dNTP基因测序中碱基簇检测装置,其特征在于,包括:
获取模块,用于获取针对测序芯片的与不同类型碱基的测序信号响应对应的多张待测荧光灰度图像,其中,每一所述待测荧光灰度图像中各荧光点与对应类型碱基的各碱基簇一一对应;
预测模块,用于通过反距离变换图预测模型对所述待测荧光灰度图像进行预测,得到各所述待测荧光灰度图像分别对应的预测反距离变换图;其中,所述反距离变换图预测模型为通过以对应反距离变换图作为标签的样本图像对卷积神经网络进行训练得到的深度学习模型;
定位模块,用于基于所述预测反距离变换图,分别确定对应所述待测荧光灰度图像中的碱基簇位置,根据多张所述待测荧光灰度图像中碱基簇位置的并集,确定所述测序芯片的目标部位包含的碱基簇的模板点位置。
10.一种基因测序仪,其特征在于,包括处理器及与所述处理器连接的存储器,所述存储器上存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于荧光标记dNTP基因测序中碱基簇检测方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如1至8中任一项所述的基于荧光标记dNTP基因测序中碱基簇检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878676.XA CN116596933B (zh) | 2023-07-18 | 2023-07-18 | 碱基簇检测方法及装置、基因测序仪及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878676.XA CN116596933B (zh) | 2023-07-18 | 2023-07-18 | 碱基簇检测方法及装置、基因测序仪及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116596933A true CN116596933A (zh) | 2023-08-15 |
CN116596933B CN116596933B (zh) | 2023-09-29 |
Family
ID=87590340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310878676.XA Active CN116596933B (zh) | 2023-07-18 | 2023-07-18 | 碱基簇检测方法及装置、基因测序仪及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596933B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237198A (zh) * | 2023-11-10 | 2023-12-15 | 深圳赛陆医疗科技有限公司 | 基于深度学习的超分辨测序方法及装置、测序仪及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190018019A1 (en) * | 2017-07-17 | 2019-01-17 | Bioinformatics Solutions Inc. | Methods and systems for de novo peptide sequencing using deep learning |
CN112309498A (zh) * | 2020-12-31 | 2021-02-02 | 武汉纽福斯生物科技有限公司 | 一种基于深度学习和荧光光谱的基因检测方法及装置 |
CN112823213A (zh) * | 2019-05-31 | 2021-05-18 | 福瑞诺姆控股公司 | 用于甲基化核酸的高深度测序的方法和系统 |
CN113887458A (zh) * | 2021-10-11 | 2022-01-04 | 北京市商汤科技开发有限公司 | 一种训练方法、装置、计算机设备和存储介质 |
CN114207149A (zh) * | 2019-05-29 | 2022-03-18 | X基因组股份有限公司 | 根据突现的测序 |
CN115691672A (zh) * | 2022-12-20 | 2023-02-03 | 臻和(北京)生物科技有限公司 | 针对测序平台特征的碱基质量值矫正方法、装置、电子设备和存储介质 |
CN116137036A (zh) * | 2023-04-19 | 2023-05-19 | 吉林省英华恒瑞生物科技有限公司 | 基于机器学习的基因检测数据智能处理系统 |
US20230178182A1 (en) * | 2019-08-19 | 2023-06-08 | Green Cross Genome Corporation | Method for detecting chromosomal abnormality by using information about distance between nucleic acid fragments |
-
2023
- 2023-07-18 CN CN202310878676.XA patent/CN116596933B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190018019A1 (en) * | 2017-07-17 | 2019-01-17 | Bioinformatics Solutions Inc. | Methods and systems for de novo peptide sequencing using deep learning |
CN114207149A (zh) * | 2019-05-29 | 2022-03-18 | X基因组股份有限公司 | 根据突现的测序 |
CN112823213A (zh) * | 2019-05-31 | 2021-05-18 | 福瑞诺姆控股公司 | 用于甲基化核酸的高深度测序的方法和系统 |
US20230178182A1 (en) * | 2019-08-19 | 2023-06-08 | Green Cross Genome Corporation | Method for detecting chromosomal abnormality by using information about distance between nucleic acid fragments |
CN112309498A (zh) * | 2020-12-31 | 2021-02-02 | 武汉纽福斯生物科技有限公司 | 一种基于深度学习和荧光光谱的基因检测方法及装置 |
CN113887458A (zh) * | 2021-10-11 | 2022-01-04 | 北京市商汤科技开发有限公司 | 一种训练方法、装置、计算机设备和存储介质 |
CN115691672A (zh) * | 2022-12-20 | 2023-02-03 | 臻和(北京)生物科技有限公司 | 针对测序平台特征的碱基质量值矫正方法、装置、电子设备和存储介质 |
CN116137036A (zh) * | 2023-04-19 | 2023-05-19 | 吉林省英华恒瑞生物科技有限公司 | 基于机器学习的基因检测数据智能处理系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117237198A (zh) * | 2023-11-10 | 2023-12-15 | 深圳赛陆医疗科技有限公司 | 基于深度学习的超分辨测序方法及装置、测序仪及介质 |
CN117237198B (zh) * | 2023-11-10 | 2024-03-12 | 深圳赛陆医疗科技有限公司 | 基于深度学习的超分辨测序方法及装置、测序仪及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116596933B (zh) | 2023-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11756286B2 (en) | Systems and methods for identifying morphological patterns in tissue samplers | |
Moses et al. | Museum of spatial transcriptomics | |
CN116596933B (zh) | 碱基簇检测方法及装置、基因测序仪及存储介质 | |
EP3306566A1 (en) | Method and system for processing image | |
CN116994246B (zh) | 基于多任务联合的碱基识别方法及装置、基因测序仪及介质 | |
NL2023311B9 (en) | Artificial intelligence-based generation of sequencing metadata | |
CN117274614A (zh) | 基于荧光标记dNTP基因测序的碱基识别方法、测序仪及介质 | |
CN108710784A (zh) | 一种基因转录变异几率及变异方向的算法 | |
CN113470743A (zh) | 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法 | |
CN117392673B (zh) | 碱基识别方法及装置、基因测序仪及介质 | |
CN116434226A (zh) | 循环肿瘤细胞分析仪 | |
Long et al. | SpaceTx: a roadmap for benchmarking spatial transcriptomics exploration of the brain | |
CN117726621A (zh) | 基于深度学习的基因测序碱基质量评估方法、产品、设备及介质 | |
CN117523559B (zh) | 碱基识别方法及装置、基因测序仪及存储介质 | |
CN117672343B (zh) | 测序饱和度评估方法及装置、设备及存储介质 | |
CN117274739A (zh) | 碱基识别方法及其训练集构建方法、基因测序仪及介质 | |
CN117237198B (zh) | 基于深度学习的超分辨测序方法及装置、测序仪及介质 | |
CN117672343A (zh) | 测序饱和度评估方法及装置、设备及存储介质 | |
US20230316054A1 (en) | Machine learning modeling of probe intensity | |
CN116343923B (zh) | 一种基因组结构变异同源性识别方法 | |
CN116994652B (zh) | 基于神经网络的信息预测方法、装置及电子设备 | |
CN114283882B (zh) | 一种非破坏性禽蛋品质性状预测方法及系统 | |
CN117877025A (zh) | 三维碱基识别方法及装置、基因测序仪及存储介质 | |
WO2023097685A1 (zh) | 核酸样本的碱基识别方法及装置 | |
Marczyk et al. | Single-cell transcriptomics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |