CN116137036A - 基于机器学习的基因检测数据智能处理系统 - Google Patents
基于机器学习的基因检测数据智能处理系统 Download PDFInfo
- Publication number
- CN116137036A CN116137036A CN202310420593.6A CN202310420593A CN116137036A CN 116137036 A CN116137036 A CN 116137036A CN 202310420593 A CN202310420593 A CN 202310420593A CN 116137036 A CN116137036 A CN 116137036A
- Authority
- CN
- China
- Prior art keywords
- base
- detected
- image
- coefficient
- segmentation threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 title claims abstract description 34
- 238000010801 machine learning Methods 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 184
- 230000000694 effects Effects 0.000 claims abstract description 30
- 238000003062 neural network model Methods 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims description 53
- 238000012163 sequencing technique Methods 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 17
- 238000010606 normalization Methods 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002068 genetic effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 102000034287 fluorescent proteins Human genes 0.000 description 1
- 108091006047 fluorescent proteins Proteins 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G06T5/70—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/187—Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明涉及图像处理技术领域,具体涉及一种基于机器学习的基因检测数据智能处理系统。该系统包括获取模块,用于获取碱基灰度图像,得到待测图像,确定初始碱基区域和碱基连通域;第一确定模块,用于连接待测像素点和相距最近的初始碱基区域的中心点,得到待测线段,将待测线段的长度作为中心距离,将待测线段途经的像素点的灰度值均值作为路径灰度均值;第二确定模块,用于确定待测连通域的碱基轮廓系数,确定最优分割阈值;智能处理模块,用于根据预训练的神经网络模型对目标图像进行智能检测,得到检测结果。本发明能够自适应选取最优的分割阈值,保证去噪效果的同时提升去噪效率。
Description
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于机器学习的基因检测数据智能处理系统。
背景技术
高通量基因测序为基因检测工程的重要实验步骤,高通量基因测序图像承载着多种基因信息,因此,对高通量基因测序图像的清晰度要求较高。由于高通量基因测序图像在获取或者传输的过程中,会生成多种类型的噪声,这些噪声影响基因测序结果的可靠性,因此,对高通量基因测序图像进行去噪具有重大意义。
相关技术中,通常使用小波去噪的方式对高通量基因测序图像进行去噪处理,这种方式下,由于需要对小波去噪的尺度进行准确获取,且小波去噪处理速度较慢,因此,基于小波去噪的方式无法有效对复杂的高通量基因测序图像进行自适应去噪处理,且去噪效率较差。
发明内容
为了解决无法有效对高通量基因测序图像自适应去噪处理的技术问题,本发明提供一种基于机器学习的基因检测数据智能处理系统,所采用的技术方案具体如下:
本发明提出了一种基于机器学习的基因检测数据智能处理系统,系统包括:
获取模块,用于获取高通量基因测序的碱基灰度图像,根据至少两个不同的预设分割阈值对所述碱基灰度图像进行二值分割,得到待测图像,根据不同待测图像中有值像素点的分布确定所述碱基灰度图像上的初始碱基区域和碱基连通域;
第一确定模块,用于任选一个碱基连通域作为待测连通域,从所述待测连通域中任选一个待测像素点,连接所述待测像素点和相距最近的初始碱基区域的中心点,得到待测线段,将待测线段的长度作为中心距离,将待测线段途经的像素点的灰度值均值作为路径灰度均值;
第二确定模块,用于根据所述待测连通域中所有像素点的所述中心距离和路径灰度均值,确定所述待测连通域的碱基轮廓系数,根据不同预设分割阈值的所述待测图像中所有所述碱基连通域的碱基轮廓系数,确定最优分割阈值;
智能处理模块,用于根据所述最优分割阈值对所述碱基灰度图像进行阈值分割,得到目标图像,基于预训练的神经网络模型对所述目标图像进行智能检测,得到检测结果。
进一步地,所述根据不同待测图像中有值像素点的分布确定所述碱基灰度图像上的初始碱基区域和碱基连通域,包括:
以所述预设分割阈值为横坐标,所述待测图像中有值像素点的数量为纵坐标构建二维坐标系,确定不同预设分割阈值对应的坐标点,连接相邻的坐标点得到阈值分割曲线;
确定所述阈值分割曲线中斜率变化最大的两个转折点所对应的预设阈值分割阈值作为第一分割阈值和第二分割阈值,其中,所述第一分割阈值小于所述第二分割阈值;
将所述第二分割阈值对应待测图像中有值像素点所组成的区域作为第二待测碱基区域;在所述碱基灰度图像中,将所述第二待测碱基区域所对应的区域作为初始碱基区域;
将所述第一分割阈值对应待测图像中有值像素点所组成的区域作为第一待测碱基区域,将所述第一待测碱基区域中除所述第二待测碱基区域的其他区域作为其他纹理区域;在所述碱基灰度图像中,将所述其他纹理区域所对应的区域作为待测区域,对所述待测区域进行连通域分析得到碱基连通域。
进一步地,所述根据所述待测连通域中所有像素点的所述中心距离和路径灰度均值,确定所述待测连通域的碱基轮廓系数,包括:
计算所述中心距离的反比例归一化值和所述路径灰度均值的乘积作为待测像素点的概率因子;
计算所述待测连通域中所有像素点的概率因子的均值作为所述待测连通域的碱基轮廓系数。
进一步地,所述根据不同预设分割阈值的所述待测图像中所有所述碱基连通域的碱基轮廓系数,确定最优分割阈值,包括:
根据所述待测图像中所有所述碱基连通域的碱基轮廓系数确定所述预设分割阈值的分割效果评优参数;
将所述分割效果评优参数最大时所对应的预设分割阈值作为最优分割阈值。
进一步地,所述根据所述待测图像中所有所述碱基连通域的碱基轮廓系数确定所述预设分割阈值的分割效果评优参数,包括:
将所述碱基轮廓系数大于预设系数阈值的碱基连通域作为第一碱基连通域,将所述碱基轮廓系数小于等于所述预设系数阈值的碱基连通域作为第二碱基连通域;
根据每个所述第一碱基连通域中像素点的数量和所述第一碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第一评优系数;
根据每个所述第二碱基连通域中像素点的数量和所述第二碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第二评优系数;
计算第一评优系数和第二评优系数的乘积作为所述预设分割阈值的分割效果评优参数。
进一步地,所述根据每个所述第一碱基连通域中像素点的数量和所述第一碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第一评优系数,包括:
计算任一第一碱基连通域中像素点的数量和所述第一碱基连通域的碱基轮廓系数的乘积作为所述第一碱基连通域的碱基系数,计算所有所述第一碱基连通域的碱基系数的和值归一化值作为第一评优系数。
进一步地,所述根据每个所述第二碱基连通域中像素点的数量和所述第二碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第二评优系数,包括:
以任一第二碱基连通域中像素点的数量作为分子,所述第二碱基连通域的碱基轮廓系数和预设常数值的和值作为分母,得到所述第二碱基连通域的噪点系数,计算所有所述第二碱基连通域的噪点系数的和值的反比例归一化值作为第二评优系数。
进一步地,所述基于预训练的神经网络模型对所述目标图像进行智能检测,得到检测结果,包括:
将所述目标图像输入至预训练的神经网络模型中,经由所述神经网络模型处理,输出高通量基因测序结果,并将所述高通量基因测序结果作为检测结果。
进一步地,所述根据所述最优分割阈值对所述碱基灰度图像进行阈值分割,得到目标图像,包括:
保留所述碱基灰度图像中灰度值大于所述最优分割阈值的像素点的灰度值,将所述碱基灰度图像中灰度值小于等于所述最优分割阈值的像素点的灰度值设置为0。
本发明具有如下有益效果:
本发明通过不同待测图像中有值像素点的分布确定初始碱基区域和碱基连通域,其中,有值像素点的分布可以有效表征待测图像中的碱基分布信息,因此,可以基于不同待测图像中有值像素点的分布准确获取碱基所处的区域,也即初始碱基区域,为保留碱基边缘所对应的区域,因此,通过确定碱基连通域,有效提取碱基边缘所对应的区域和噪点所对应的区域,便于后续对碱基边缘区域进行筛选;通过确定待测像素点的中心距离和路径灰度均值,能够准确对不同的待测像素点进行分析,从而使得后续得到的碱基轮廓系数具有更高的准确性,通过碱基轮廓系数自适应确定最优分割阈值,提升最优分割阈值获取的可靠性;根据最优分割阈值确定目标图像,能够保证分割效果的优选性,通过将目标图像输入至预训练的神经网络模型中,输出检测结果,能够基于神经网络技术对目标图像进行处理,在提升检测效率的同时增强去噪效果。综上,本发明能够自适应选取最优的分割阈值,有效对高通量基因测序图像自适应去噪处理,保证去噪效果的同时提升去噪效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于机器学习的基因检测数据智能处理系统结构图;
图2为本发明一个实施例所提供的碱基灰度图像示意图;
图3为本发明一个实施例所提供的预设分割阈值为30时的待测图像示意图;
图4为本发明一个实施例所提供的预设分割阈值为240时的待测图像示意图;
图5为本发明一个实施例所提供的有值像素点数量分布示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于机器学习的基因检测数据智能处理系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于机器学习的基因检测数据智能处理系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于机器学习的基因检测数据智能处理系统结构图,该基于机器学习的基因检测数据智能处理系统10包括:获取模块101,第一确定模块102,第二确定模块103和智能处理模块104。
获取模块101,用于获取高通量基因测序的碱基灰度图像,根据至少两个不同的预设分割阈值对碱基灰度图像进行二值分割,得到待测图像,根据不同待测图像中有值像素点的分布确定碱基灰度图像上的初始碱基区域和碱基连通域。
在本发明的一些实施例中,可以使用高精度工业相机获取高通量基因测序的原始图像,可以理解的是,由于高通量基因测序中每个碱基均预先经过荧光蛋白标记,在图像中显示为白色像素点组成的区域,因此,可以对原始图像进行图像预处理,得到碱基灰度图像,其中,图像预处理可以具体包括图像灰度化处理和图像去噪处理等,图像预处理为本领域所熟知的技术,对此不做限制。
如图2所示,图2为本发明一个实施例所提供的碱基灰度图像示意图。由图2可知,在碱基灰度图像中,不仅包含碱基的区域,还包括产生的部分噪声区域,噪声区域在图像中显示为灰色区域,则本发明需要对噪声区域进行有效筛选并去除。
其中,预设分割阈值,为预先设置的二值分割时所对应的灰度值门限值,本发明实施例中,可以设置多个预设分割阈值,举例而言,可以从灰度值在0-255区间内平均获取80个预设分割阈值,对此不做限制。
本发明实施例中,根据至少两个不同的预设分割阈值对碱基灰度图像进行二值分割,得到待测图像,二值分割具体为,将碱基灰度图像中像素点的灰度值大于预设分割阈值的像素点的灰度值标记为255,将碱基灰度图像中像素点的灰度值小于等于预设分割阈值的像素点的灰度值标记为0,其中,待测图像为经二值分割后的到的二值图像,每个分割阈值均可以获取阈值对应的待测图像。
举例而言,如图3和图4所示,图3为本发明一个实施例所提供的预设分割阈值为30时的待测图像示意图,而图4为本发明一个实施例所提供的预设分割阈值为240时的待测图像示意图。由图3和图4可知,随着预设分割阈值的增加,图像中白色像素点所组成的区域在逐渐降低,则选择合适的预设分割阈值,可以有效提取碱基显示效果较优的待测图像。
进一步地,在本发明的一些实施例中,根据不同待测图像中有值像素点的分布确定碱基灰度图像上的初始碱基区域和碱基连通域,包括:以预设分割阈值为横坐标,待测图像中有值像素点的数量为纵坐标构建二维坐标系,确定不同预设分割阈值对应的坐标点,连接相邻的坐标点得到阈值分割曲线;确定阈值分割曲线中斜率变化最大的两个转折点所对应的预设阈值分割阈值作为第一分割阈值和第二分割阈值,其中,第一分割阈值小于第二分割阈值;将第二分割阈值对应待测图像中有值像素点所组成的区域作为第二待测碱基区域;在碱基灰度图像中,将第二待测碱基区域所对应的区域作为初始碱基区域;将第一分割阈值对应待测图像中有值像素点所组成的区域作为第一待测碱基区域,将第一待测碱基区域中除第二待测碱基区域的其他区域作为其他纹理区域,在碱基灰度图像中,将其他纹理区域所对应的区域作为待测区域,对待测区域进行连通域分析得到碱基连通域。
以图5为具体示例,图5为本发明一个实施例所提供的有值像素点数量分布示意图,在图5中,以预设分割阈值为横坐标,待测图像中有值像素点的数量为纵坐标构建二维坐标系,则得到在不同预设分割阈值所对应待测图像中有值像素点的数量的曲线,其中,斜率变化最大的两个点为点“N1”和点“N2”,也即是说,点“N1”所对应的预设分割阈值为第一分割阈值,点“N2”所对应的预设分割阈值为第二分割阈值。
可以理解的是,由于在碱基灰度图像中背景区域为黑色像素点所对应区域,而碱基为白色像素点所对应区域,则第一分割阈值所对应的待测图像可以将灰色噪声区域、碱基区域所对应的灰色边缘轮廓区域与黑色背景区域像素点区分开,而第二分割阈值所对应的待测图像可以将灰色噪声区域、灰色边缘轮廓区域与初始碱基区域像素点区分开,也即是说,将第二分割阈值所对应的待测图像中白色像素点所组成的区域作为第二待测碱基区域;在碱基灰度图像中,将第二待测碱基区域所对应的区域初始碱基区域,将第一分割阈值所对应的待测图像中的白色像素点作为第一阈值像素点,则可以将待测图像中第一阈值像素点中除去第二待测碱基区域中的白色像素点之外的其他白色像素点所组成的区域作为其他纹理区域,在碱基灰度图像中,将其他纹理区域所对应的区域作为待测区域,则待测区域中可以包含灰色噪声区域和灰色边缘轮廓区域,对待测区域进行连通域分析,得到碱基连通域,其中,连通域分析为本领域所熟知的技术,对此不再赘述。
则本发明实施例中的碱基连通域具体包括灰色噪声所对应的连通域和碱基区域周围的灰色边缘轮廓区域所对应的连通域,本发明实施例的后续步骤需将灰色噪声所对应的连通域进行筛选并去除。
第一确定模块102,用于任选一个碱基连通域作为待测连通域,从待测连通域中任选一个待测像素点,连接待测像素点和相距最近的初始碱基区域的中心点,得到待测线段,将待测线段的长度作为中心距离,将待测线段途经的像素点的灰度值均值作为路径灰度均值。
其中,初始碱基区域的中心点,为初始碱基区域的中心位置所对应的像素点,不同的初始碱基区域可以具有与之对应的中心点,本发明实施例可以使用形态学腐蚀的方式获取初始碱基区域的中心点,或者,也可以使用几何方式获取初始碱基区域的中心点,形态学腐蚀法和几何中心确定法均为本领域所熟知的技术,对此不再赘述。
本发明实施例中,可以任意选取一个碱基连通域作为待测连通域,并从待测连通域中任意选取一个像素点作为待测像素点。则将待测像素点与相距最近的中心点间的直线距离作为待测像素点的中心距离,并将待测像素点和距离最近的初始碱基区域的中心点间的线段所经过的所有像素点作为路径像素点,计算所有路径像素点的灰度值均值作为待测像素点的路径灰度均值。
进一步地,本发明实施例中,根据待测连通域中所有像素点的中心距离和路径灰度均值,确定待测连通域的碱基轮廓系数,包括:计算中心距离的反比例归一化值和路径灰度均值的乘积作为待测像素点的概率因子;计算待测连通域中所有像素点的概率因子的均值作为待测连通域的碱基轮廓系数。对应的计算公式为:
式中,表示第个待测连通域的碱基轮廓系数,表示待测连通域的索引,表示
第个待测连通域中像素点的总数量,表示待测连通域中像素点的索引,表示第个待测
连通域中第个像素点的中心距离,表示第个待测连通域中第个像素点的路径灰度均
值,表示归一化处理,在本发明的一个实施例中,归一化处理可以具体例如为最大最小
值归一化处理,并且,后续步骤中的归一化均可以采用最大最小值归一化处理,在本发明的
其他实施例中可以根据数值具体范围选择其他归一化方法,对此不再赘述,表
示第个待测连通域中第个像素点的概率因子。
本发明实施例中,结合图2可以得知,在待测像素点为初始碱基区域的灰色边缘轮廓的像素点时,待测像素点的中心距离较小,且路径上白色像素点较多,也即路径灰度均值较大,在待测像素点为灰色噪声区域所对应的像素点时,待测像素点的中心距离会相对较大,且由于需穿过灰色噪声区域和黑色背景区域,则对应的路径灰度均值会较小,由此,基于中心距离和路径灰度均值确定待测像素点的概率因子,并计算待测连通域中所有像素点的概率因子的均值作为待测连通域的碱基轮廓系数。
第二确定模块103,用于根据待测连通域中所有像素点的中心距离和路径灰度均值,确定待测连通域的碱基轮廓系数,根据不同预设分割阈值的待测图像中所有碱基连通域的碱基轮廓系数,确定最优分割阈值。
本发明实施例中,可以分别对不同预设分割阈值所对应的待测图像中的碱基连通域进行分析,以确定每个预设分割阈值的分割效果,从而得到最优分割阈值。
可选地,本发明实施例中,根据不同预设分割阈值的待测图像中所有碱基连通域的碱基轮廓系数,确定最优分割阈值,包括:根据待测图像中所有碱基连通域的碱基轮廓系数确定预设分割阈值的分割效果评优参数;将分割效果评优参数最大时所对应的预设分割阈值作为最优分割阈值。
可以理解的是,在碱基灰度图像中包含的初始碱基区域的灰色边缘轮廓的像素点越多,噪声像素点越少时,可以表示所对应的预设分割阈值的分割效果越优,因此,可以根据待测图像中所有碱基连通域的碱基轮廓系数确定预设分割阈值的分割效果评优参数。
可选地,在本发明实施例中,将碱基轮廓系数大于预设系数阈值的碱基连通域作为第一碱基连通域,将碱基轮廓系数小于等于预设系数阈值的碱基连通域作为第二碱基连通域;根据每个第一碱基连通域中像素点的数量和第一碱基连通域的碱基轮廓系数,确定预设分割阈值的第一评优系数;根据每个第二碱基连通域中像素点的数量和第二碱基连通域的碱基轮廓系数,确定预设分割阈值的第二评优系数;计算第一评优系数和第二评优系数的乘积作为预设分割阈值的分割效果评优参数。
其中,预设系数阈值,为碱基轮廓系数的门限值,本发明实施例中,可以根据先验经验确定预设系数阈值,可选地,预设系数阈值为100,也即是说,将碱基轮廓系数大于100的碱基连通域作为第一碱基连通域,将碱基轮廓系数小于等于100的碱基连通域作为第二碱基连通域。
可以理解的是,第一碱基连通域可以为碱基轮廓边缘所对应的连通域,第二碱基连通域可以为噪声所对应的连通域,因此,本发明可以根据每个第一碱基连通域中像素点的数量和第一碱基连通域的碱基轮廓系数,计算得到第一评优系数,根据每个第二碱基连通域中像素点的数量和第二碱基连通域的碱基轮廓系数,计算得到第二评优系数,并根据第一评优系数和第二评优系数确定预设分割阈值的分割效果评优参数。对应的计算公式为:
可选地,根据每个第一碱基连通域中像素点的数量和第一碱基连通域的碱基轮廓系数,确定预设分割阈值的第一评优系数,包括:计算任一第一碱基连通域中像素点的数量和第一碱基连通域的碱基轮廓系数的乘积作为第一碱基连通域的碱基系数,计算所有第一碱基连通域的碱基系数的和值归一化值作为第一评优系数。对应的计算公式为:
式中,表示分割阈值为的预设分割阈值的第一评优系数,表示预设分割阈
值,表示预设分割阈值为的待测图像中第一碱基连通域的总数量,表示第一碱基连通
域的索引,表示预设分割阈值为的待测图像中第个第一碱基连通域的碱基轮廓系
数,表示预设分割阈值为的待测图像中第个第一碱基连通域的像素点数量,表示
取归一化,表示预设分割阈值为的待测图像中第个第一碱基连通域的碱基系
数。
可选地,根据每个第二碱基连通域中像素点的数量和第二碱基连通域的碱基轮廓系数,确定预设分割阈值的第二评优系数,包括:以任一第二碱基连通域中像素点的数量作为分子,第二碱基连通域的碱基轮廓系数和预设常数值的和值作为分母,得到第二碱基连通域的噪点系数,计算所有第二碱基连通域的噪点系数的和值的反比例归一化值作为第二评优系数。对应的计算公式为:
式中,表示分割阈值为的第二评优系数,表示预设分割阈值,表示预设分
割阈值为的待测图像中第二碱基连通域的总数量,表示第二碱基连通域的索引,表
示预设分割阈值为的待测图像中第个第二碱基连通域的碱基轮廓系数,表示预设常数
值,为防止分母为0设置的安全系数,可选地,预设常数值为0.01,表示预设分割阈值为的待测图像中第个第二碱基连通域的像素点数量,表示归一化处理,表示预设
分割阈值为的待测图像中第个第二碱基连通域的噪点系数。
可以理解的是,噪点系数表示待测图像中第二碱基连通域的噪点的严重程度,为
了使得分割效果更优,则第二评优系数应越大,对应的噪点系数越小,也即是说,预设分割
阈值为的待测图像中第个第二碱基连通域的像素点数量越多时,噪点系数越大,和噪点系数成正比,预设分割阈值为的待测图像中第个第二碱基连通域的碱基轮廓
系数越小时,噪点系数越大,和噪点系数成反比,由此,计算得到噪点系数,并对其进行
反比例的归一化处理,得到第二评优系数。
在计算得到第一评优系数和第二评优系数之后,可以计算第一评优系数和第二评优系数的乘积作为预设分割阈值的分割效果评优参数,由于不同预设分割阈值下待测图像中待测连通域的数量和相同待测连通域中的像素点数量均可能不相同,则可以结合像素点数量和待测连通域的碱基轮廓系数,有效确定不同预设分割阈值所对应的预设分割阈值的分割效果评优参数。
本发明实施例中,将分割效果评优参数最大时所对应的预设分割阈值作为最优分割阈值。
智能处理模块104,用于根据最优分割阈值对碱基灰度图像进行阈值分割,得到目标图像,基于预训练的神经网络模型对目标图像进行智能检测,得到检测结果。
进一步地,根据最优分割阈值对碱基灰度图像进行阈值分割,得到目标图像,包括:保留碱基灰度图像中灰度值大于最优分割阈值的像素点的灰度值,将碱基灰度图像中灰度值小于等于最优分割阈值的像素点的灰度值设置为0。
本发明实施例中,可以根据最优分割阈值对碱基灰度图像进行阈值分割,得到目标图像,则目标图像中包含的碱基信息较多,且噪点信息较少,便于对目标图像进行检测。
可选地,本发明实施例中,基于预训练的神经网络模型对目标图像进行智能检测,得到检测结果,包括:将目标图像输入至预训练的神经网络模型中,经由神经网络模型处理,输出高通量基因测序结果,并将高通量基因测序结果作为检测结果。需要说明的是,神经网络模型预训练为本领域所述熟知的网络,对神经网络的预训练过程也为本领域技术人员所熟知,对此不再赘述。
本发明实施例中,可以使用神经网络模型与基因测序设备相结合,如高通量基因测序仪等,以基于预训练的神经网络模型对目标图像中的碱基图像进行高通量基因测序,得到高通量基因测序结果,其中,高通量基因测序结果可以作为检测结果。
本发明通过不同待测图像中有值像素点的分布确定初始碱基区域和碱基连通域,其中,有值像素点的分布可以有效表征待测图像中的碱基分布信息,因此,可以基于不同待测图像中有值像素点的分布准确获取碱基所处的区域,也即初始碱基区域,为保留碱基边缘所对应的区域,因此,通过确定碱基连通域,有效提取碱基边缘所对应的区域和噪点所对应的区域,便于后续对碱基边缘区域进行筛选;通过确定待测像素点的中心距离和路径灰度均值,能够准确对不同的待测像素点进行分析,从而使得后续得到的碱基轮廓系数具有更高的准确性,通过碱基轮廓系数自适应确定最优分割阈值,提升最优分割阈值获取的可靠性;根据最优分割阈值确定目标图像,能够保证分割效果的优选性,通过将目标图像输入至预训练的神经网络模型中,输出检测结果,能够基于神经网络技术对目标图像进行处理,在提升检测效率的同时增强去噪效果。综上,本发明能够自适应选取最优的分割阈值,有效对高通量基因测序图像自适应去噪处理,保证去噪效果的同时提升去噪效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (9)
1.一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述系统包括:
获取模块,用于获取高通量基因测序的碱基灰度图像,根据至少两个不同的预设分割阈值对所述碱基灰度图像进行二值分割,得到待测图像,根据不同待测图像中有值像素点的分布确定所述碱基灰度图像上的初始碱基区域和碱基连通域;
第一确定模块,用于任选一个碱基连通域作为待测连通域,从所述待测连通域中任选一个待测像素点,连接所述待测像素点和相距最近的初始碱基区域的中心点,得到待测线段,将待测线段的长度作为中心距离,将待测线段途经的像素点的灰度值均值作为路径灰度均值;
第二确定模块,用于根据所述待测连通域中所有像素点的所述中心距离和路径灰度均值,确定所述待测连通域的碱基轮廓系数,根据不同预设分割阈值的所述待测图像中所有所述碱基连通域的碱基轮廓系数,确定最优分割阈值;
智能处理模块,用于根据所述最优分割阈值对所述碱基灰度图像进行阈值分割,得到目标图像,基于预训练的神经网络模型对所述目标图像进行智能检测,得到检测结果。
2.如权利要求1所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述根据不同待测图像中有值像素点的分布确定所述碱基灰度图像上的初始碱基区域和碱基连通域,包括:
以所述预设分割阈值为横坐标,所述待测图像中有值像素点的数量为纵坐标构建二维坐标系,确定不同预设分割阈值对应的坐标点,连接相邻的坐标点得到阈值分割曲线;
确定所述阈值分割曲线中斜率变化最大的两个转折点所对应的预设阈值分割阈值作为第一分割阈值和第二分割阈值,其中,所述第一分割阈值小于所述第二分割阈值;
将所述第二分割阈值对应待测图像中有值像素点所组成的区域作为第二待测碱基区域;在所述碱基灰度图像中,将所述第二待测碱基区域所对应的区域作为初始碱基区域;
将所述第一分割阈值对应待测图像中有值像素点所组成的区域作为第一待测碱基区域,将所述第一待测碱基区域中除所述第二待测碱基区域的其他区域作为其他纹理区域;在所述碱基灰度图像中,将所述其他纹理区域所对应的区域作为待测区域,对所述待测区域进行连通域分析得到碱基连通域。
3.如权利要求1所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述根据所述待测连通域中所有像素点的所述中心距离和路径灰度均值,确定所述待测连通域的碱基轮廓系数,包括:
计算所述中心距离的反比例归一化值和所述路径灰度均值的乘积作为待测像素点的概率因子;
计算所述待测连通域中所有像素点的概率因子的均值作为所述待测连通域的碱基轮廓系数。
4.如权利要求1所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述根据不同预设分割阈值的所述待测图像中所有所述碱基连通域的碱基轮廓系数,确定最优分割阈值,包括:
根据所述待测图像中所有所述碱基连通域的碱基轮廓系数确定所述预设分割阈值的分割效果评优参数;
将所述分割效果评优参数最大时所对应的预设分割阈值作为最优分割阈值。
5.如权利要求4所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述根据所述待测图像中所有所述碱基连通域的碱基轮廓系数确定所述预设分割阈值的分割效果评优参数,包括:
将所述碱基轮廓系数大于预设系数阈值的碱基连通域作为第一碱基连通域,将所述碱基轮廓系数小于等于所述预设系数阈值的碱基连通域作为第二碱基连通域;
根据每个所述第一碱基连通域中像素点的数量和所述第一碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第一评优系数;
根据每个所述第二碱基连通域中像素点的数量和所述第二碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第二评优系数;
计算第一评优系数和第二评优系数的乘积作为所述预设分割阈值的分割效果评优参数。
6.如权利要求5所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述根据每个所述第一碱基连通域中像素点的数量和所述第一碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第一评优系数,包括:
计算任一第一碱基连通域中像素点的数量和所述第一碱基连通域的碱基轮廓系数的乘积作为所述第一碱基连通域的碱基系数,计算所有所述第一碱基连通域的碱基系数的和值归一化值作为第一评优系数。
7.如权利要求5所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述根据每个所述第二碱基连通域中像素点的数量和所述第二碱基连通域的碱基轮廓系数,确定所述预设分割阈值的第二评优系数,包括:
以任一第二碱基连通域中像素点的数量作为分子,所述第二碱基连通域的碱基轮廓系数和预设常数值的和值作为分母,得到所述第二碱基连通域的噪点系数,计算所有所述第二碱基连通域的噪点系数的和值的反比例归一化值作为第二评优系数。
8.如权利要求1所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述基于预训练的神经网络模型对所述目标图像进行智能检测,得到检测结果,包括:
将所述目标图像输入至预训练的神经网络模型中,经由所述神经网络模型处理,输出高通量基因测序结果,并将所述高通量基因测序结果作为检测结果。
9.如权利要求1所述的一种基于机器学习的基因检测数据智能处理系统,其特征在于,所述根据所述最优分割阈值对所述碱基灰度图像进行阈值分割,得到目标图像,包括:
保留所述碱基灰度图像中灰度值大于所述最优分割阈值的像素点的灰度值,将所述碱基灰度图像中灰度值小于等于所述最优分割阈值的像素点的灰度值设置为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310420593.6A CN116137036B (zh) | 2023-04-19 | 2023-04-19 | 基于机器学习的基因检测数据智能处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310420593.6A CN116137036B (zh) | 2023-04-19 | 2023-04-19 | 基于机器学习的基因检测数据智能处理系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116137036A true CN116137036A (zh) | 2023-05-19 |
CN116137036B CN116137036B (zh) | 2023-06-27 |
Family
ID=86333706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310420593.6A Active CN116137036B (zh) | 2023-04-19 | 2023-04-19 | 基于机器学习的基因检测数据智能处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116137036B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596933A (zh) * | 2023-07-18 | 2023-08-15 | 深圳赛陆医疗科技有限公司 | 碱基簇检测方法及装置、基因测序仪及存储介质 |
CN117115161A (zh) * | 2023-10-24 | 2023-11-24 | 四川新康意众申新材料有限公司 | 一种塑料缺陷检查方法 |
CN117314949A (zh) * | 2023-11-28 | 2023-12-29 | 山东远硕上池健康科技有限公司 | 基于人工智能的人员伤情检测鉴定方法 |
CN117392155A (zh) * | 2023-12-11 | 2024-01-12 | 吉林大学 | 基于图像处理的高通量基因测序数据处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105551034A (zh) * | 2015-12-10 | 2016-05-04 | 北京中科紫鑫科技有限责任公司 | 一种dna测序的图像识别的预处理方法及装置 |
CN105550990A (zh) * | 2015-12-10 | 2016-05-04 | 北京中科紫鑫科技有限责任公司 | 一种dna测序的傅里叶配准方法及装置 |
WO2019147904A1 (en) * | 2018-01-26 | 2019-08-01 | Quantum-Si Incorporated | Machine learning enabled pulse and base calling for sequencing devices |
CN111440854A (zh) * | 2020-03-18 | 2020-07-24 | 重庆信络威科技有限公司 | 一种基于荧光图像测序的核酸智能检测方法 |
-
2023
- 2023-04-19 CN CN202310420593.6A patent/CN116137036B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105551034A (zh) * | 2015-12-10 | 2016-05-04 | 北京中科紫鑫科技有限责任公司 | 一种dna测序的图像识别的预处理方法及装置 |
CN105550990A (zh) * | 2015-12-10 | 2016-05-04 | 北京中科紫鑫科技有限责任公司 | 一种dna测序的傅里叶配准方法及装置 |
WO2019147904A1 (en) * | 2018-01-26 | 2019-08-01 | Quantum-Si Incorporated | Machine learning enabled pulse and base calling for sequencing devices |
CN111440854A (zh) * | 2020-03-18 | 2020-07-24 | 重庆信络威科技有限公司 | 一种基于荧光图像测序的核酸智能检测方法 |
Non-Patent Citations (2)
Title |
---|
ANDREAS WILM ETC.: ""LoFreq: a sequence-quality aware, ultra-sensitive variant caller for uncovering cell-population heterogeneity from high-throughput sequencing datasets"", 《NUCLEIC ACIDS RESEARCH》, vol. 40, no. 22, pages 11189 - 11201 * |
杨冉: ""细胞FISH图像分割、计数和检索研究"", 《中国优秀硕士学位论文全文数据库》, no. 05 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116596933A (zh) * | 2023-07-18 | 2023-08-15 | 深圳赛陆医疗科技有限公司 | 碱基簇检测方法及装置、基因测序仪及存储介质 |
CN116596933B (zh) * | 2023-07-18 | 2023-09-29 | 深圳赛陆医疗科技有限公司 | 碱基簇检测方法及装置、基因测序仪及存储介质 |
CN117115161A (zh) * | 2023-10-24 | 2023-11-24 | 四川新康意众申新材料有限公司 | 一种塑料缺陷检查方法 |
CN117115161B (zh) * | 2023-10-24 | 2024-01-02 | 四川新康意众申新材料有限公司 | 一种塑料缺陷检查方法 |
CN117314949A (zh) * | 2023-11-28 | 2023-12-29 | 山东远硕上池健康科技有限公司 | 基于人工智能的人员伤情检测鉴定方法 |
CN117314949B (zh) * | 2023-11-28 | 2024-02-20 | 山东远硕上池健康科技有限公司 | 基于人工智能的人员伤情检测鉴定方法 |
CN117392155A (zh) * | 2023-12-11 | 2024-01-12 | 吉林大学 | 基于图像处理的高通量基因测序数据处理方法 |
CN117392155B (zh) * | 2023-12-11 | 2024-02-09 | 吉林大学 | 基于图像处理的高通量基因测序数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116137036B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116137036B (zh) | 基于机器学习的基因检测数据智能处理系统 | |
CN115829883B (zh) | 一种异性金属结构件表面图像去噪方法 | |
CN116168026B (zh) | 基于计算机视觉的水质检测方法及系统 | |
CN114219805B (zh) | 一种玻璃缺陷智能检测方法 | |
CN111161222B (zh) | 一种基于视觉显著性的印刷辊筒缺陷检测方法 | |
CN116385450B (zh) | 基于图像处理的ps片材抗耐磨性检测方法 | |
CN114820625B (zh) | 一种汽车顶块缺陷检测方法 | |
CN115311629B (zh) | 一种折弯机的异常折弯精度监测系统 | |
CN116309599B (zh) | 基于污水前置处理的水质视觉监测方法 | |
CN115049651B (zh) | 一种钣金冲压异常检测方法 | |
CN110930425B (zh) | 基于邻域向量内积局部对比度图像增强的损伤目标检测方法 | |
CN110348459B (zh) | 基于多尺度快速地毯覆盖法声呐图像分形特征提取方法 | |
CN117314901B (zh) | 一种尺度自适应的芯片检测神经网络系统 | |
CN116740053B (zh) | 一种锻造加工智能生产线的管理系统 | |
CN116110006B (zh) | 一种用于智慧旅游系统的景区游客异常行为识别方法 | |
CN110443790B (zh) | 一种医学影像中软骨识别方法和识别系统 | |
CN116883408A (zh) | 基于人工智能的积算仪壳体缺陷检测方法 | |
CN115564705B (zh) | 用于精密标准件的毛刺检测精度增强方法及系统 | |
CN114742849B (zh) | 一种基于图像增强的水准仪距离测量方法 | |
CN115100510B (zh) | 一种轮胎磨损度识别方法 | |
CN111199228A (zh) | 一种车牌定位的方法及装置 | |
CN114677530A (zh) | 一种基于小波形状描述子的聚类算法有效性评价方法、设备及介质 | |
CN114119569A (zh) | 基于机器学习的成像测井图像裂缝分割与识别方法和系统 | |
EP2380110B1 (en) | A method for evaluating quality of image representing a fingerprint pattern | |
CN116625317B (zh) | 一种基于图像处理的陡坡表面坡度检测方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |