CN117252786A - 一种基因检测数据增强处理方法 - Google Patents
一种基因检测数据增强处理方法 Download PDFInfo
- Publication number
- CN117252786A CN117252786A CN202311532487.3A CN202311532487A CN117252786A CN 117252786 A CN117252786 A CN 117252786A CN 202311532487 A CN202311532487 A CN 202311532487A CN 117252786 A CN117252786 A CN 117252786A
- Authority
- CN
- China
- Prior art keywords
- bright spot
- fluorescence
- gray level
- base
- chromaticity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 title claims abstract description 18
- 238000003672 processing method Methods 0.000 title abstract description 5
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000013507 mapping Methods 0.000 claims abstract description 38
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 67
- 230000002708 enhancing effect Effects 0.000 claims description 16
- 238000009825 accumulation Methods 0.000 claims description 12
- 230000001174 ascending effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 8
- 238000003491 array Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012864 cross contamination Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 21
- 238000012163 sequencing technique Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 9
- 108020004414 DNA Proteins 0.000 description 6
- 239000003086 colorant Substances 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 239000007850 fluorescent dye Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000002073 fluorescence micrograph Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000004020 luminiscence type Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000009928 pasteurization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/40—Image enhancement or restoration using histogram techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像数据处理技术领域,提出了一种基因检测数据增强处理方法,包括:获取碱基荧光灰度图以及碱基荧光颜色图;根据像素点色度值的分布概率确定荧光色度分布向量;基于亮斑区域的荧光色度分布向量获取碱基荧光颜色分布系数;根据边缘点梯度方向角度的统计直方图获取边界数据序列;基于亮斑区域的边界数据序列获取碱基边界相似度;基于亮斑区域的碱基荧光颜色分布系数以及碱基边界相似度确定碱基亮斑疑似度;根据碱基亮斑疑似度获取每个灰度级的亮斑映射权重;基于亮斑映射权重以及各灰度级的分布概率确定映射灰度值;基于映射灰度值得到碱基荧光增强图。本发明避免染料交叉污染对亮斑区域增强的干扰,提高区域间的对比效果。
Description
技术领域
本发明涉及图像增强技术领域,具体涉及一种基因检测数据增强处理方法。
背景技术
基因检测数据是指通过对个体的基因组进行检测和分析所获得的数据,涵盖了个体的遗传信息、基因序列和相关的变异信息,对于理解基因与健康、疾病之间的关系,以及个体化医疗等领域的研究具有重要意义。高通量基因测序技术,也被称为第二代测序技术,是一种快速、高效的基因组测序方法,能够在较短的时间内以较低的成本获得承载大量基因信息的高通量基因测序图像。而高通量基因测序图像往往包含大量的碱基亮斑,这些亮斑的细节和分布对于准确的图像解读非常重要,因此需要对高通量基因测序图像进行图像增强,以提高图像的对比度、清晰度和细节程度,有助于更加准确地定位和识别亮斑,提高对基因序列的分析和解读的准确性。
直方图均衡化是一种常用的图像增强算法,通过对图像的灰度分布进行调整,来增强图像的对比度和视觉效果。但是传统的直方图均衡化主要用于增强动态范围偏小的图像的对比度,而高通量基因测序图像中的灰度分布往往是非均匀的,在处理过程中,可能会导致非碱基亮斑区域的过度增强,同时忽略一些亮度较低的碱基亮斑区域的细节,使得图像最终的增强效果较差。
发明内容
本发明提供一种基因检测数据增强处理方法,以解决直方图均衡化算法处理动态范围较大的高通量基因测序图像时,造成非碱基亮斑区域被过度增强的问题,所采用的技术方案具体如下:
本发明一个实施例提供一种基因检测数据增强处理方法,该方法包括以下步骤:
获取碱基荧光灰度图以及碱基荧光颜色图;
根据每个亮斑区域内像素点色度值的分布概率确定每个亮斑区域的荧光色度分布向量;基于不同亮斑区域的荧光色度分布向量获取每个亮斑区域的碱基荧光颜色分布系数;
根据每个亮斑区域边缘点梯度方向角度的统计直方图获取每个亮斑区域的边界数据序列;基于每个亮斑区域的边界数据序列获取每个亮斑区域的碱基边界相似度;将每个亮斑区域的碱基荧光颜色分布系数与每个亮斑区域的碱基边界相似度乘积的归一化结果作为每个亮斑区域的碱基亮斑疑似度;
根据每个亮斑区域的碱基亮斑疑似度获取每个灰度级的亮斑映射权重;基于每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的映射灰度值;基于所有灰度级的映射灰度值得到碱基荧光增强图。
优选的,所述根据每个亮斑区域内像素点色度值的分布概率确定每个亮斑区域的荧光色度分布向量的方法为:
将每个亮斑区域内每个像素点的色度值组成的向量作为每个像素点的荧光色度数组;获取每个亮斑区域内任意一个像素点的荧光色度数组出现的概率;
将每个像素点的荧光色度数组、每个像素点的荧光色度数组出现的概率组成的向量作为每个像素点的荧光色度频率向量;
将每个亮斑区域内所有像素点的荧光色度频率向量按照色度值升序顺序组成的向量作为每个亮斑区域的荧光色度分布向量。
优选的,所述基于不同亮斑区域的荧光色度分布向量获取每个亮斑区域的碱基荧光颜色分布系数的方法为:
基于不同亮斑区域的荧光色度分布向量之间的差异性确定每个亮斑区域的区域相似度;
根据每个亮斑区域内像素点色度值的分布差异获取每个亮斑区域的荧光颜色集中度;
每个亮斑区域的碱基荧光颜色分布系数由区域相似度、荧光颜色集中度两部分组成,其中,所述碱基荧光颜色分布系数与区域相似度、荧光颜色集中度成正比。
优选的,所述基于不同亮斑区域的荧光色度分布向量之间的差异性确定每个亮斑区域的区域相似度的方法为:
将每个亮斑区域作为一个目标区域,将每个目标区域与任意一个亮斑区域的荧光色度分布向量之间的度量距离与预设参数的和作为每个目标区域的第一距离值;
将每个目标区域的第一距离值的倒数在碱基荧光灰度图上累加结果的均值作为每个亮斑区域的区域相似度。
优选的,所述根据每个亮斑区域内像素点色度值的分布差异获取每个亮斑区域的荧光颜色集中度的方法为:
将每个亮斑区域内像素点在所有色度值上极差的累加和与第一预设参数之和的倒数作为第一乘积因子;
将每个亮斑区域内所有像素点的荧光色度数组的信息熵与第二预设参数之和的倒数作为第二乘积因子;
每个亮斑区域的荧光颜色集中度由第一乘积因子、第二乘积因子两部分组成,其中,所述荧光颜色集中度与第一乘积因子、第二乘积因子成正比关系。
优选的,所述根据每个亮斑区域边缘点梯度方向角度的统计直方图获取每个亮斑区域的边界数据序列的方法为:
基于每个亮斑区域内所有边缘点梯度方向角度的分布情况获取所述梯度方向角度的统计直方图;
将所述梯度方向角度的统计直方图内所有组对应的数值按照梯度方向角度升序的顺序组成的序列作为每个亮斑区域的边界数据序列。
优选的,所述基于每个亮斑区域的边界数据序列获取每个亮斑区域的碱基边界相似度的方法为:
将每个亮斑区域与其余亮斑区域的边界数据序列之间度量距离的累加和与其余亮斑区域数量的比值作为每个亮斑区域的轮廓相似度;
将每个亮斑区域的边界数据序列内所有元素的标准差与预设参数的和作为分母;将每个亮斑区域的轮廓相似度的相反数与分母的比值作为每个亮斑区域的碱基边界相似度。
优选的,所述根据每个亮斑区域的碱基亮斑疑似度获取每个灰度级的亮斑映射权重的方法为:
将每个亮斑区域内每个灰度级的像素点数量与每个亮斑区域的碱基亮斑疑似度的乘积作为第一累加因子;将第一累加因子在碱基荧光灰度图中所有亮斑区域上的累加作为分子;
将第一累加因子在碱基荧光灰度图中所有亮斑区域内所有灰度级上的累加作为分母;将分子与分母的比值作为每个灰度级的亮斑映射权重。
优选的,所述基于每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的映射灰度值的方法为:
根据每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的调整概率;
将每个灰度级作为一个目标灰度级,将低于每个目标灰度级的所有灰度级的调整概率归一化结果的和作为每个目标灰度级的累计分布概率;
获取每个目标灰度级的累计分布概率与碱基荧光灰度图中灰度值之间极差乘积的取整结果,将所述取整结果与所有亮斑区域内灰度值最小值的和作为每个灰度级的映射灰度值。
优选的,所述根据每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的调整概率的方法为:
将所有亮斑区域内每个灰度级的像素点数量与所有亮斑区域内像素点数量的比值作为所述每个灰度级的原始概率;
将所述每个灰度级的原始概率与每个灰度级的亮斑映射权重的乘积作为每个灰度级的调整概率。
本发明的有益效果是:通过分析碱基荧光图像中碱基亮斑区域的分布特点,基于亮斑区域在碱基荧光颜色图像中的分布情况,构建碱基荧光颜色分布相似度,能够排除其中发生荧光染料交叉污染的碱基亮斑区域以及其余因素产生的非碱基亮斑区域的干扰;其次根据亮斑区域中边缘点的梯度方向角度的分布情况构建碱基边界相似度,有益效果在于能够提高与碱基亮斑区域荧光颜色分布较相似的非碱基亮斑区域的区分度;并基于碱基荧光颜色分布相似度和碱基边界相似度得到各个亮斑区域的碱基亮斑疑似度,并结合亮斑区域中各个灰度级的像素点的分布情况得到亮斑区域中各个灰度级的亮斑映射权重,提高碱基亮斑区域在碱基荧光灰度图像中的对比度,并基于每个灰度级的调整概率采用直方图均衡化算法完成对碱基荧光灰度图的增强,本发明针对性地加强了疑似碱基亮斑区域的对比度,提高了碱基亮斑区域与非碱基亮斑区域的对比效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基因检测数据增强处理方法的流程示意图;
图2为本发明一个实施例所提供的获取亮斑区域的边界数据序列的流程示意图;
图3为本发明一个实施例所提供的一种基因检测数据增强处理方法的实施流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的一种基因检测数据增强处理方法的流程图,该方法包括以下步骤:
步骤S001,获取碱基荧光灰度图以及碱基荧光颜色图。
本发明首先对DNA样本进行DNA文库的建立,其流程包括:DNA片段化处理、末端修饰、添加接头、磁珠纯化、PCR扩增、第二次磁珠纯化,DNA文库的建立为公知技术,具体过程不再赘述。其次将制备好的DNA文库输入第二代高通量基因测序仪中,测序仪中的光学系统会对文库进行测序反应,其中包含荧光标记的碱基,当每个碱基被加入到新生链上时,荧光信号会被激发出来,测序仪内部的CCD摄像头会捕捉这些发光信号,并将其转换为数字图像,得到DNA样本的碱基荧光图像。
在相机拍摄和图像的传输过程中,噪声干扰会使得采集到的碱基荧光图像质量下降,为避免这些噪声对后续的处理造成影响,本发明中采用中值滤波技术对碱基荧光图像进行去噪,中值滤波为公知技术,具体去噪过程不再赘述。其次对中值滤波后得到的图像进行灰度化,将所得灰度图像记为碱基荧光灰度图。并将中值滤波后得到的图像转换到Lab颜色空间中,将所得图像记为碱基荧光颜色图。
至此,得到碱基荧光灰度图以及碱基荧光颜色图,用于后续对亮斑区域的增强。
步骤S002,根据每个亮斑区域内像素点色度值的分布概率确定每个亮斑区域的荧光色度分布向量,基于不同亮斑区域的荧光色度分布向量获取每个亮斑区域的碱基荧光颜色分布系数。
碱基荧光灰度图像是由多个明暗不同的亮斑组成,这是因为在高通量基因测序中,通常使用四种不同颜色的荧光染料来分别标记DNA序列中的四种碱基,被荧光染料标记的碱基会在光学系统下发出荧光信号,这些荧光信号会在图像中形成对应颜色的亮斑。因此,首先使用Canny边缘检测算法对碱基荧光灰度图进行处理,得到二值化图像,记为碱基边缘图像,其中Canny边缘检测算法为公知技术,不再赘述。将碱基边缘图像作为输入,采用连通域提取算法得到碱基边缘图像上的连通域提取结果,每个连通域表示一个碱基荧光灰度图中的亮斑区域,连通域算法为公知技术,具体过程不再赘述。
其次,在高通量基因测序的过程中,荧光染料可能会发生交叉污染的情况,导致混合的荧光信号出现在图像上,引起非标准颜色的亮斑,同时高通量基因测序设备中的光学元件、芯片表面的杂质等因素引起的光学偏移或干扰也会导致碱基荧光灰度图中出现非标准颜色的亮斑,并且设备中使用的激光器和荧光灯可能会出现一定程度的光谱重叠和漏光现象,造成碱基荧光灰度图中出现额外的亮斑。
基于上述分析,对于碱基荧光灰度图中任意一个亮斑区域,以第A个亮斑区域为例,首先基于碱基荧光颜色图提取第A个亮斑区域中每个像素点的a色度值、b色度值,将每个像素点的a色度值、b色度值组成的数组作为每个像素点的荧光色度数组。其次,统计第A个亮斑区域内每个荧光色度数组出现的概率,举例而言,在第A个亮斑区域内有5个像素点的荧光色度数组都为,第A个亮斑区域内共有100个像素点,则荧光色度数组/>在第A个亮斑区域内出现的概率为0.05。将每个像素点的荧光色度数组及其荧光色度数组出现的概率组成的向量作为每个像素点的荧光色度频率向量,将像素点i的荧光色度频率向量记为/>。
其次,将第A个亮斑区域中每个像素点的a色度值、b色度值,将第A个亮斑区域中所有像素点按照a色度值升序的顺序,对于a色度值相同的像素点再按照b色度值升序的顺序进行排列,得到第A个亮斑区域中所有像素点的排列顺序。除上述方法外,在另一个实施例中,还可以先将第A个亮斑区域中所有像素点按照b色度值升序的顺序,对于b色度值相同的像素点再按照a色度值升序的顺序进行排列,得到第A个亮斑区域中所有像素点的排列顺序。进一步地,将第A个亮斑区域内所有像素点的荧光色度频率向量按照上述像素点排列顺序组成的向量作为第A个亮斑区域的荧光色度分布向量:
其中,是像素点i的荧光色度频率向量,/>、/>分别是像素点i在Lab颜色空间内的a色度值、b色度值,/>是荧光色度数组/>在第A个荧光区域内出现的概率;
是第A个亮斑区域的荧光色度分布向量,/>、/>、/>分别是所述像素点排序结果中第1个、第2个、第n个元素对应的荧光色度频率向量,n是第A个亮斑区域内像素点的数量。
根据上述步骤,获取每个亮斑区域的荧光色度分布向量。其次基于每个亮斑区域与其余亮斑区域的荧光色度分布向量之间的相似程度获取每个亮斑区域的碱基荧光颜色分布系数,计算第A个亮斑区域的碱基荧光颜色分布系数:
式中,是第A个亮斑区域的区域相似度,N是碱基荧光灰度图中亮斑区域的数量,B是除第A个亮斑区域外的第B个亮斑区域,/>、/>分别是第A个、第B个亮斑区域的荧光色度分布向量,/>为DTW距离函数,用于度量荧光色度分布向量/>、/>之间的DTW距离,DTW距离为公知技术,具体过程不再赘述;/>是调参因子,用于防止分母为0,/>的大小取经验值0.001;
是第A个亮斑区域的荧光颜色集中度,/>是第A个亮斑区域内所有像素点在a色度值上的极差,/>是第A个亮斑区域内所有像素点在b色度值上的极差,/>是第A个亮斑区域内所有像素点的荧光色度数组的信息熵,信息熵的计算为公知技术,具体过程不再赘述,/>、/>分别为调参因子,都用于防止分母为0,/>、/>的大小分别取经验值0.001;
是第A个亮斑区域的碱基荧光颜色分布系数。
其中,在碱基荧光灰度图的亮斑区域中,碱基亮斑区域的占比较大,两个亮斑区域之间的荧光色度分布越相似,第A个、第B个亮斑区域在碱基荧光颜色图中的荧光颜色的分布情况越接近,荧光色度分布向量、/>之间的差异越小,/>的值越小,第一距离值/>的值越小,/>的值越大;第A个亮斑区域在碱基荧光颜色图中荧光颜色的变化范围越小,第A个亮斑区域在碱基荧光颜色图中荧光颜色的分布越集中,亮斑区域内像素点对应的/>、/>色度值的变化范围越小,/>、/>的值越小,第一乘积因子/>的值越大,在碱基荧光颜色图中,碱基亮斑区域内像素点的荧光颜色通常是单一的,通常只有一种颜色或颜色范围较窄,因此如果第A个亮斑区域属于碱基亮斑区域,则第A个亮斑区域内荧光色度数组的取值范围较小,/>的值较小,第二乘积因子/>的值偏大;即/>的值越大,第A个亮斑区域越有可能是碱基亮斑区域。
至此,得到每个亮斑区域的碱基荧光颜色分布系数,用于后续确定每个亮斑区域的碱基亮斑疑似度。
步骤S003,根据每个亮斑区域边缘点梯度方向角度的统计直方图获取每个亮斑区域的边界数据序列;基于每个亮斑区域的边界数据序列获取每个亮斑区域的碱基边界相似度。
进一步地,由于在高通量基因测序的过程中,一些未被完全洗脱的底物残留会与荧光信号发生交叉反应,也会形成对应荧光标记颜色的亮斑,使得这些亮斑与碱基亮斑具有相似的荧光颜色分布。其中碱基形成的亮斑通常呈现出相对均匀的圆形或类圆形形状,并且其大小也比较一致,这是因为荧光标记碱基的加入和扩散过程比较规则,而由其他因素引起的亮斑形状和大小会更加不规则和不一致。
具体的,使用Sobel算子计算各个亮斑区域对应的所有边界像素点的梯度方向角度,其中使用Sobel算子计算梯度方向角度的计算过程为公知技术,具体过程不再赘述。对每个亮斑区域的边界像素点的梯度方向角度进行统计,获取每个亮斑区域的统计直方图。以第A个亮斑区域为例,统计第A个亮斑区域内梯度方向角度的所有取值情况,将梯度方向角度的每种取值作为每个直方图内的一个组,将每种梯度方向角度在第A个亮斑区域上包含的边界点的个数作为对应组的值,对得到的直方图进行归一化处理,将得到的统计直方图记为直方图。其次获取直方图/>中各个组对应的值,将直方图/>内所有组对应的值按照梯度方向角度从小到大的顺序排列得到的序列作为第A个亮斑区域的边界数据序列/>,边界数据序列/>的获取流程,如图2所示。
基于上述分析,此处构建碱基边界相似度,用于表征每个亮斑区域的边界轮廓与碱基亮斑区域边界轮廓的相似程度,计算第A个亮斑区域的碱基边界相似度:
式中,是第A个亮斑区域的轮廓相似度,B是除第A个亮斑区域外的第B个亮斑区域,N是碱基荧光灰度图中亮斑区域的数量/>、/>分别是第A个、第B个亮斑区域的统计直方图,/>是直方图/>、/>之间的巴氏距离,直方图之间巴氏距离的计算为公知技术,具体过程不再赘述;
是第A个亮斑区域的碱基边界相似度,/>是第A个亮斑区域的边界数据序列,是边界数据序列/>内元素的分布方差,/>是调参因子,用于防止分母为0,/>的大小取经验值0.001。
其中,由于碱基形成的亮斑在碱基灰度图中的大小形状通常是较为相似的,不同位置的碱基亮斑区域的边界轮廓也是较为近似的,因此第A个、第B个亮斑区域内梯度方向角度的统计直方图越相似,第A个、第B个亮斑区域的边界信息越相似,的值越小;第A个亮斑区域与碱基亮斑区域的形状越接近,第A个亮斑区域上边界点在各个梯度方向角度上的分布越均匀,直方图/>中各个组的值越接近,边界数据序列/>内元素的分布方差越小;即/>的值越大,第A个亮斑区域与碱基亮斑区域的图像特征越相似,第A个亮斑区域越有可能是碱基亮斑区域。
根据上述步骤,分别获取每个亮斑区域的碱基边界相似度。基于每个亮斑区域的碱基荧光颜色分布系数以及每个亮斑区域的碱基边界相似度确定每个亮斑区域的碱基亮斑疑似度。计算第A个亮斑区域的碱基亮斑疑似度:
式中,、/>分别是第A个亮斑区域的碱基荧光颜色分布系数、碱基边界相似度,是归一化函数,需要说明的是,本发明中的归一化是指计算出每一个亮斑区域的碱基荧光颜色分布系数及其碱基边界相似度的乘积后,再利用所述归一化函数基于所述所有乘积得到每个亮斑区域的碱基亮斑疑似度。
至此,得到每个亮斑区域的碱基亮斑疑似度,用于后续得到碱基荧光增强图。
步骤S004,根据每个亮斑区域的碱基亮斑疑似度获取每个灰度级的亮斑映射权重;基于每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的映射灰度值;基于所有灰度级的映射灰度值得到碱基荧光增强图。
由于碱基荧光灰度图中的亮斑区域与非亮斑区域的灰度值差异较大,且非亮斑区域内不包含任何碱基信息,因此本发明只对碱基荧光灰度图中的亮斑区域进行直方图均衡化。具体的,根据碱基荧光灰度图中各个亮斑区域内像素点的灰度值分布,得到亮斑灰度分布直方图,即所有的亮斑区域中像素点的灰度值分布对应一个亮斑灰度分布直方图,其中直方图的每一个组对应所有亮斑区域内像素点的一个灰度级,每个组的值为各个灰度级在所有的亮斑区域内像素点的个数。由此得到亮斑区域中的各个灰度级的原始概率,计算第t个灰度级的原始概率:
式中,是第t个灰度级在所有亮斑区域内的像素点数量,M是所有亮斑区域内像素点的总数量。
进一步地,根据上述步骤,得到每个亮斑区域的碱基亮斑疑似度,基于每个亮斑区域内灰度值的分布情况确定每个灰度级的亮斑映射权重。计算第t个灰度级的亮斑映射权重:
式中,是第t个灰度级的亮斑映射权重,N是碱基荧光灰度图中亮斑区域的数量,是第A个亮斑区域内第t个灰度级对应的像素点数量,/>是第A个亮斑区域的碱基亮斑疑似度;/>是亮斑灰度分布直方图中灰度级的数量。
其中,第t个灰度级在亮斑区域内包含的像素点数量越多,第t个灰度级的像素点所在亮斑区域是碱基亮斑区域的概率越大,的值越大,/>的值越大,第t个灰度级的亮斑映射权重越大,则越应该提高第t个灰度级的原始概率/>,使得第t个灰度级对应的像素点映射到更高级别的灰度级,以增加这些疑似为碱基亮斑区域内像素点的灰度值,来提高碱基亮斑区域在碱基荧光灰度图中的对比度。
进一步地,基于每个灰度级的亮斑映射权重以及原始概率计算每个灰度级的调整概率。第t个灰度级的调整概率的计算公式如下:
式中,、/>分别是第t个灰度级的原始概率、亮斑映射权重。
根据上述步骤,分别计算每个灰度级的调整概率。基于所得亮斑区域中各个灰度级的调整概率,使用直方图均衡化算法对碱基荧光灰度图中的亮斑区域进行增强处理,增强流程如图3所示。具体地,对亮斑灰度分布直方图中个灰度级的调整概率进行归一化处理,使得/>个灰度级的调整概率归一化处理后的累加和为1,将第t个灰度级的调整概率的归一化结果记为/>,数据归一化为公知技术,具体过程不再赘述。根据每个灰度级调整概率的归一化结果确定直方图均衡化算法中各个灰度级映射后的映射灰度值,计算第t个灰度级的映射灰度值/>:
式中,是第t个灰度级的累计分布概率,x是/>个灰度级中所有调整概率小于/>的灰度级中的第x个灰度级,/>是所述第x个灰度级的调整概率的归一化结果;
是第t个灰度级的映射灰度值,/>是四舍五入取整函数,/>是所有亮斑区域内像素点灰度值的极差,/>是所有亮斑区域内灰度值的最小值。
根据上述步骤,分别获取亮斑区域内每个灰度级的映射灰度值。其次基于每个灰度级的映射灰度值,将碱基荧光灰度图中的各个亮斑区域内像素点的灰度值映射成对应的映射灰度值,遍历所有灰度级完成直方图均衡化的处理,将直方图均衡化后的图像记为碱基荧光增强图,完成对碱基荧光灰度图的增强。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基因检测数据增强处理方法,其特征在于,该方法包括以下步骤:
获取碱基荧光灰度图以及碱基荧光颜色图;
根据每个亮斑区域内像素点色度值的分布概率确定每个亮斑区域的荧光色度分布向量;基于不同亮斑区域的荧光色度分布向量获取每个亮斑区域的碱基荧光颜色分布系数;
根据每个亮斑区域边缘点梯度方向角度的统计直方图获取每个亮斑区域的边界数据序列;基于每个亮斑区域的边界数据序列获取每个亮斑区域的碱基边界相似度;将每个亮斑区域的碱基荧光颜色分布系数与每个亮斑区域的碱基边界相似度乘积的归一化结果作为每个亮斑区域的碱基亮斑疑似度;
根据每个亮斑区域的碱基亮斑疑似度获取每个灰度级的亮斑映射权重;基于每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的映射灰度值;基于所有灰度级的映射灰度值得到碱基荧光增强图。
2.根据权利要求1所述的一种基因检测数据增强处理方法,其特征在于,所述根据每个亮斑区域内像素点色度值的分布概率确定每个亮斑区域的荧光色度分布向量的方法为:
将每个亮斑区域内每个像素点的色度值组成的向量作为每个像素点的荧光色度数组;获取每个亮斑区域内任意一个像素点的荧光色度数组出现的概率;
将每个像素点的荧光色度数组、每个像素点的荧光色度数组出现的概率组成的向量作为每个像素点的荧光色度频率向量;
将每个亮斑区域内所有像素点的荧光色度频率向量按照色度值升序顺序组成的向量作为每个亮斑区域的荧光色度分布向量。
3.根据权利要求1所述的一种基因检测数据增强处理方法,其特征在于,所述基于不同亮斑区域的荧光色度分布向量获取每个亮斑区域的碱基荧光颜色分布系数的方法为:
基于不同亮斑区域的荧光色度分布向量之间的差异性确定每个亮斑区域的区域相似度;
根据每个亮斑区域内像素点色度值的分布差异获取每个亮斑区域的荧光颜色集中度;
每个亮斑区域的碱基荧光颜色分布系数由区域相似度、荧光颜色集中度两部分组成,其中,所述碱基荧光颜色分布系数与区域相似度、荧光颜色集中度成正比。
4.根据权利要求3所述的一种基因检测数据增强处理方法,其特征在于,所述基于不同亮斑区域的荧光色度分布向量之间的差异性确定每个亮斑区域的区域相似度的方法为:
将每个亮斑区域作为一个目标区域,将每个目标区域与任意一个亮斑区域的荧光色度分布向量之间的度量距离与预设参数的和作为每个目标区域的第一距离值;
将每个目标区域的第一距离值的倒数在碱基荧光灰度图上累加结果的均值作为每个亮斑区域的区域相似度。
5.根据权利要求3所述的一种基因检测数据增强处理方法,其特征在于,所述根据每个亮斑区域内像素点色度值的分布差异获取每个亮斑区域的荧光颜色集中度的方法为:
将每个亮斑区域内像素点在所有色度值上极差的累加和与第一预设参数之和的倒数作为第一乘积因子;
将每个亮斑区域内所有像素点的荧光色度数组的信息熵与第二预设参数之和的倒数作为第二乘积因子;
每个亮斑区域的荧光颜色集中度由第一乘积因子、第二乘积因子两部分组成,其中,所述荧光颜色集中度与第一乘积因子、第二乘积因子成正比关系。
6.根据权利要求1所述的一种基因检测数据增强处理方法,其特征在于,所述根据每个亮斑区域边缘点梯度方向角度的统计直方图获取每个亮斑区域的边界数据序列的方法为:
基于每个亮斑区域内所有边缘点梯度方向角度的分布情况获取所述梯度方向角度的统计直方图;
将所述梯度方向角度的统计直方图内所有组对应的数值按照梯度方向角度升序的顺序组成的序列作为每个亮斑区域的边界数据序列。
7.根据权利要求1所述的一种基因检测数据增强处理方法,其特征在于,所述基于每个亮斑区域的边界数据序列获取每个亮斑区域的碱基边界相似度的方法为:
将每个亮斑区域与其余亮斑区域的边界数据序列之间度量距离的累加和与其余亮斑区域数量的比值作为每个亮斑区域的轮廓相似度;
将每个亮斑区域的边界数据序列内所有元素的标准差与预设参数的和作为分母;将每个亮斑区域的轮廓相似度的相反数与分母的比值作为每个亮斑区域的碱基边界相似度。
8.根据权利要求1所述的一种基因检测数据增强处理方法,其特征在于,所述根据每个亮斑区域的碱基亮斑疑似度获取每个灰度级的亮斑映射权重的方法为:
将每个亮斑区域内每个灰度级的像素点数量与每个亮斑区域的碱基亮斑疑似度的乘积作为第一累加因子;将第一累加因子在碱基荧光灰度图中所有亮斑区域上的累加作为分子;
将第一累加因子在碱基荧光灰度图中所有亮斑区域内所有灰度级上的累加作为分母;将分子与分母的比值作为每个灰度级的亮斑映射权重。
9.根据权利要求1所述的一种基因检测数据增强处理方法,其特征在于,所述基于每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的映射灰度值的方法为:
根据每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的调整概率;
将每个灰度级作为一个目标灰度级,将低于每个目标灰度级的所有灰度级的调整概率归一化结果的和作为每个目标灰度级的累计分布概率;
获取每个目标灰度级的累计分布概率与碱基荧光灰度图中灰度值之间极差乘积的取整结果,将所述取整结果与所有亮斑区域内灰度值最小值的和作为每个灰度级的映射灰度值。
10.根据权利要求9所述的一种基因检测数据增强处理方法,其特征在于,所述根据每个灰度级的亮斑映射权重以及碱基荧光灰度图中各灰度级的分布概率确定每个灰度级的调整概率的方法为:
将所有亮斑区域内每个灰度级的像素点数量与所有亮斑区域内像素点数量的比值作为所述每个灰度级的原始概率;
将所述每个灰度级的原始概率与每个灰度级的亮斑映射权重的乘积作为每个灰度级的调整概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311532487.3A CN117252786A (zh) | 2023-11-17 | 2023-11-17 | 一种基因检测数据增强处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311532487.3A CN117252786A (zh) | 2023-11-17 | 2023-11-17 | 一种基因检测数据增强处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117252786A true CN117252786A (zh) | 2023-12-19 |
Family
ID=89137242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311532487.3A Pending CN117252786A (zh) | 2023-11-17 | 2023-11-17 | 一种基因检测数据增强处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117252786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497055A (zh) * | 2024-01-02 | 2024-02-02 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
-
2023
- 2023-11-17 CN CN202311532487.3A patent/CN117252786A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117497055A (zh) * | 2024-01-02 | 2024-02-02 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
CN117497055B (zh) * | 2024-01-02 | 2024-03-12 | 北京普译生物科技有限公司 | 神经网络模型训练、碱基测序电信号的片段化方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7979212B2 (en) | Method and system for morphology based mitosis identification and classification of digital images | |
US7133547B2 (en) | Method for quantitative video-microscopy and associated system and computer software program product | |
CN110490836B (zh) | dPCR微阵列图像信息处理方法 | |
CN113554629A (zh) | 基于人工智能的带钢红锈缺陷检测方法 | |
CN117252786A (zh) | 一种基因检测数据增强处理方法 | |
JP2016533475A (ja) | 適応的病理組織画像分解のためのシステム及び方法 | |
WO2005076197A2 (en) | Method and system for morphology based mitosis identification and classification of digital images | |
JP7467205B2 (ja) | バイオマーカを光学的に検出するための方法 | |
CN112813152B (zh) | 一种基于图像识别的数字pcr液滴荧光检测方法 | |
CN115170570A (zh) | 基于灰度游程矩阵的织物起毛起球检测方法 | |
CN113012757B (zh) | 识别核酸中的碱基的方法和系统 | |
CN112184696B (zh) | 一种细胞核和细胞器计数及其面积计算方法与系统 | |
US10614571B2 (en) | Object classification in digital images | |
CN113838081A (zh) | 一种基于机器视觉判别烤烟烟叶颜色均匀度的方法和装置 | |
CN114820597B (zh) | 一种基于人工智能的冶炼品缺陷检测方法、装置及系统 | |
Choi et al. | Color compensation of multicolor FISH images | |
JP5210571B2 (ja) | 画像処理装置、画像処理プログラムおよび画像処理方法 | |
CN115082379A (zh) | 一种活性污泥相差显微图像絮体和丝状菌分割方法 | |
CN108369735B (zh) | 用于确定数字图像中多个对象的位置的方法 | |
KR100463336B1 (ko) | 바이오칩 이미지 분석 시스템 및 그 방법 | |
Deepa et al. | Automatic segmentation of DNA microarray images using an improved seeded region growing method | |
CN114300047A (zh) | 一种基因测序信号强度获取的方法 | |
CN113028993B (zh) | 一种用于描述微滴式数字pcr液滴相对位置的方法 | |
KR100435833B1 (ko) | 바이오칩 이미지 분석 시스템 및 그 방법 | |
Margaritis et al. | Improved Microarray Spot Segmentation by Combining two Information Channels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |