CN112215800B - 基于机器学习的重叠染色体识别和分割方法 - Google Patents
基于机器学习的重叠染色体识别和分割方法 Download PDFInfo
- Publication number
- CN112215800B CN112215800B CN202010962405.9A CN202010962405A CN112215800B CN 112215800 B CN112215800 B CN 112215800B CN 202010962405 A CN202010962405 A CN 202010962405A CN 112215800 B CN112215800 B CN 112215800B
- Authority
- CN
- China
- Prior art keywords
- chromosome
- image
- contour
- chromosomes
- overlapped
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000000349 chromosome Anatomy 0.000 title claims abstract description 364
- 238000000034 method Methods 0.000 title claims abstract description 77
- 230000011218 segmentation Effects 0.000 title claims abstract description 40
- 238000010801 machine learning Methods 0.000 title claims abstract description 29
- 238000012706 support-vector machine Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 239000000853 adhesive Substances 0.000 claims abstract description 11
- 230000001070 adhesive effect Effects 0.000 claims abstract description 11
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000011049 filling Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 9
- 238000003709 image segmentation Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001464 adherent effect Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 15
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000003672 processing method Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 21
- 238000004590 computer program Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000004043 dyeing Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 210000003917 human chromosome Anatomy 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 206010008805 Chromosomal abnormalities Diseases 0.000 description 2
- 208000031404 Chromosome Aberrations Diseases 0.000 description 2
- 208000011359 Chromosome disease Diseases 0.000 description 2
- 208000024971 chromosomal disease Diseases 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003628 erosive effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- 208000032170 Congenital Abnormalities Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 210000002230 centromere Anatomy 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/181—Segmentation; Edge detection involving edge growing; involving edge linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10056—Microscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于机器学习的重叠染色体识别和分割方法,主要包括如下部分:首先通过图像预处理方法自动获取染色体轮廓,提取染色体轮廓的关键特征;基于重叠黏连和单个染色体的标注,训练支持向量机分类器,判别重叠黏连染色体和单个染色体;使用图像处理方法进行重叠黏连染色体分割,获得单个染色体。本发明结合现代图像处理技术和机器学习算法,采用区分重叠和单个染色体的标注方法,不仅提高了重叠染色体识别和分割的准确率,而且节省了大量人工标注成本。
Description
技术领域
本发明涉及图像处理、机器学习算法技术领域,具体而言,涉及一种基于机器学习的重叠染色体识别和分割方法。
背景技术
正常人类的体细胞有24种共46条染色体,其中包含22对常染色体和2条性染色体,女性为XX,男性为XY。常染色体和性染色体中都携带有遗传因子,控制着遗传性状和人体的生理机能水平。染色体发生异常时会导致多种致命疾病和先天缺陷症状,这些由染色体异常引起的疾病统称为染色体病。染色体核型分析是染色体病诊断的重要手段。其方法是医生将染色体固于载玻片,以相应方法染色(最常用的染色法为G显带染色)后,通过高倍显微镜观察染色体,然后将显微镜下观察到的人类染色体按照其固有的形态结构,包括染色体的数目、长度、着丝点位置、臂比、随体大小等特征,进行逐一分析和比对,最后对染色体的数目异常、插入、倒位、重复、缺失、移位等进行诊断。然而,包括前期的细胞培养等步骤的染色体核型分析是全手工项目,对医生或工作人员的经验以及专业性要求较高,工作量大,工作效率低,因此迫切需要优化染色体核型分析的流程。
本发明公开提供了一种基于机器学习的重叠染色体识别和分割方法。通过有效结合现代图像处理技术和机器学习算法,实现重叠黏连染色体的准确识别和精准分割,对开发自动化和智能化的计算机辅助染色体核型分析系统具有重要的临床意义。
发明内容
为了解决现有技术中的问题,本公开实施例提供了一种基于机器学习的重叠染色体识别和分割方法,过结合现代图像处理技术和机器学习算法,建立区分重叠黏连和单个染色体的分类模型,实现重叠黏连染色体的准确识别和精准分割,对开发自动化和智能化的计算机辅助染色体核型分析系统具有重要的临床意义。
第一方面,本公开实施例提供了一种基于机器学习的重叠染色体识别和分割方法,包括以下步骤:针对染色体核型图像进行数据采集,对采集后的所述染色体核型图像进行预处理操作,对预处理后的所述染色体核型图像自动获取染色体轮廓;对所述自动获取的染色体轮廓提取基于轮廓的关键特征;采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体;针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像;针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像。
在其中一个实施例中,所述针对染色体核型图像进行数据采集,对采集后的所述染色体核型图像进行预处理操作,对预处理后的所述染色体核型图像自动获取染色体轮廓,包括:从医院信息系统中筛选出符合要求的染色体核型图像,对采集后的所述染色体核型图像依次执行去噪操作和增强操作,对预处理后的所述染色体核型图像自动提取重叠黏连染色体和个体染色体轮廓。
在其中一个实施例中,所述对采集后的所述染色体核型图像执行去噪操作,包括:利用中值滤波去除所述染色体核型图像中的随机噪点,采用预设结构的二维滑动模板,将模板内所包含的像素按照像素值的大小进行排序,生成单调上升或下降的为二维数据序列,将模板中心像素的像素值用数据序列的中位数替代,获得去噪图像。
在其中一个实施例中,所述对采集后的所述染色体核型图像执行增强操作,包括:使用直方图均衡化以及伽马变换的方法对去噪后的图像进行对比度增强,接着计算染色体图像前景灰度,将该灰度下修正后的单一灰度图像与所述对比度增强后的图像,利用OpenCV图像处理工具库中的add函数,进行图像加和运算,使获灰度补正后的增强图像。
在其中一个实施例中,所述对预处理后的所述染色体核型图像自动提取重叠黏连染色体和个体染色体轮廓,包括:通过OpenCV图像处理工具库中的threshold函数,使用最大类间方差算子将灰度图像转换为二值图像,并采用OpenCV图像处理工具库中的Canny函数获取染色体图像的边缘。所获取的边缘存在不连续问题,采用逐点检验方法,遍历所有边缘点,找到边缘曲线存在的间断点,并通过line函数将间断点连接,形成闭合曲线,最后采用findContours函数,填充闭合曲线所覆盖的区域,获得染色体轮廓。
在其中一个实施例中,所述对预处理后的所述染色体核型图像提取染色体轮廓的关键特征,包括:将所获得染色体轮廓形状拟合成椭圆,计算椭圆短轴长度和长轴长度的比值;将所获得染色体轮廓形状拟合成凸包,计算闭合轮廓的面积和凸包面积的比值;将所获得染色体轮廓形状拟合成多边形,记录多边形的边数。通过上述方法获得染色体轮廓的三种关键特征。
在其中一个实施例中,所述采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体,包括:对所述染色体轮廓图像进行人工标注,将染色体轮廓图像标记为重叠黏连染色体(标签设置为1)和单个染色体(标签设置为0),区分重叠黏连染色体和单个染色体;使用上述标注染色体轮廓的三种关键特征训练支持向量机(support vector machines,SVM)分类器,判定测试数据集中染色体轮廓的三个特征值是否满足重叠条件,最终识别重叠黏连染色体和单个染色体。
在其中一个实施例中,所述针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像,包括:使用OpenCV图像处理工具库中的convexHull函数,获取染色体轮廓的近似凸包,计算凸包的每边到染色体轮廓的距离,将距离最大的两点作为切割的凹点;通过OpenCV图像处理工具库中的line函数,在两个凹点间绘制消锯齿的直线,达到分割轮廓的目的,对分割后的轮廓重复上述操作,从重叠黏连染色体中获得多个单个染色体图像。
在其中一个实施例中,所述针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像,包括:通过OpenCV图像处理工具库中的cv2.bitwise_and函数将所述识别为单个染色体与纯黑背景图片做“与”运算,获得染色体掩膜;使用OpenCV中的convexHull函数,获取染色体轮廓的近似矩形包,根据矩形的长宽比确定旋转的近似角度,将染色体掩膜旋转特定角度,产生的空白部分用黑色填充,获得单个染色体图像。
本发明提供的一种基于机器学习的重叠染色体识别和分割方法,针对染色体核型图像进行数据采集,对采集后的所述染色体核型图像进行预处理操作,对预处理后的所述染色体核型图像自动获取染色体轮廓;对所述自动获取的染色体轮廓提取基于轮廓的关键特征;采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体;针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像;针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像。该方法有效结合了现代图像处理技术和机器学习算法,通过提取染色体轮廓的关键特征,利用人工标注图片重叠信息的方法,建立区分重叠黏连和单个染色体的分类模型,从而实现重叠黏连染色体的准确识别和精准分割的目的。
第二方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的重叠染色体识别和分割方法。
第三方面,本发明实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面所述的方法。
附图说明
为了更清楚地说明本发明公开实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍:
图1为本发明一个实施例中的一种基于机器学习的重叠染色体识别和分割方法的步骤流程示意图;
图2为本发明另一个实施例中的一种基于机器学习的重叠染色体识别和分割方法的步骤流程示意图;
图3为针对图1与图2所示的分类器的工作流程示意图;
具体实施方式
下面结合附图和实施例对本申请进行进一步的详细介绍。
在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本公开的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。
为了使本发明的目的、技术方案及优点更加清楚明白,以下通过实施例,并结合附图,对本发明一种基于机器学习的重叠染色体识别和分割方法的具体实施方式进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,为一个实施例中的一种基于机器学习的重叠染色体识别和分割方法的步骤流程示意图,具体包括以下步骤:
步骤101,针对待分割的染色体核型图像进行预处理。可理解的是,从医院采集的原始染色体核型图像,由于受不同染色方式以及图像噪声的影响,需要对染色体核型图像进行图像去噪和图像增强操作。
具体的,针对待分割的染色体核型图像进行预处理,包括:对待分割的染色体核型图像执行去噪操作。其中,去噪操作包括:利用中值滤波去除所述染色体核型图像中的随机噪点,采用预设结构的二维滑动模板,将模板内所包含的像素按照像素值的大小进行排序,生成单调上升或下降的为二维数据序列,将模板中心像素的像素值用数据序列的中位数替代,获得去噪图像。
可以理解为,图像去噪操作,包括:利用中值滤波去除图像中的随机噪点。中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术。中值滤波的基本原理是把数字图像或数字序列中一点的值用该点某邻域窗口内的所有像素点灰度值的中值代替,使得该点接近于周围像素值的真实值,从而消除孤立的噪声点。其具体方法是使用某种结构的二维滑动模板,例如正方形模板,将模板内像素按照像素值的大小进行排序,生成单调上升或下降的为二维数据序列,将中心像素的像素值用数据序列的中位数替代,达到去除噪声的目的。
此外,针对待分割的染色体核型图像进行预处理,包括:对经过去噪操作后的染色体核型图像执行增强操作。其中,增强操作包括:使用直方图均衡化以及伽马变换方法对去噪后的图像进行对比度增强,接着计算染色体图像前景灰度,将该灰度下修正后的单一灰度图像与所述对比度增强后的图像进行图像加和运算,获得灰度补正后的增强图像。
可以理解为,图像增强操作,包括:为了改善图像质量,便于分类模型识别不同类型的染色体,利用直方图均衡化和伽马变换方法对图像进行增强。直方图均衡化方法的主要思想是将一幅图像的直方图分布变成近似均匀分布,从而增强图像的对比度,采用该方法可以扩大染色体核型图像的前景与背景的差异,更凸显细节信息;伽马变换方法的主要思想是利用伽马变换将每个像素值做乘积运算,增强高灰度细节,同时增强轮廓边缘特征。最后,利用图像灰度填充获取染色体前景的平均灰度,以一定的比值修正后,将该灰度下的单一灰度图像与染色体核型图像进行加和运算,达到分离边界模糊且黏连的染色体的目的。
综上,通过图像预处理操作,利用中值滤波、直方图均衡化、伽马变换和背景灰度填充方法,实现了去除图像中噪声的干扰,有效增强图像的对比度,实现将边界模糊的黏连染色体分离为单个的独立染色体。
步骤102,对预处理后的所述染色体核型图像提取染色体轮廓。
具体的,对预处理后的所述染色体核型图像提取染色体轮廓操作,包括:采用最大类间方差法从所述对预处理后的所述染色体核型图像获得二值图像,通过图像形态学方法连接间断点,通过计算图像连通域自动提取染色体轮廓。
更进一步地,对预处理后的所述染色体核型图像提取染色体轮廓操作,还包括:通过OpenCV图像处理工具库中的threshold函数,使用最大类间方差算子将灰度图像转换为二值图像,并且将图像的背景部分填充为黑色,图像的目标染色体部分填充为白色。接着采用OpenCV中的Canny函数和findContours函数获取二值图像中的染色体边缘,最后采用图像形态学方法,检测出染色体边缘曲线中的间断点,使用OpenCV中的line函数连接间断点,形成连续闭合的边缘曲线,以获取染色体的轮廓。
需要说明的是,在步骤102中,定义了染色体轮廓的平均半径r为:
其中,S表示染色体轮廓覆盖区域的面积,染色体轮廓的平均半径r为所有染色体轮廓覆盖区域的面积的总和平均值的算术平方根。染色体轮廓的平均半径用于对染色体轮廓进行删除、腐蚀、开运算等形态学操作。
步骤103,对所述染色体轮廓图像提取关键的染色体轮廓特征。
具体的,对所述染色体轮廓图像提取关键的染色体轮廓特征,包括:将所获得染色体轮廓形状拟合成椭圆,计算椭圆短轴长度和长轴长度的比值;将所获得染色体轮廓形状拟合成凸包,计算闭合轮廓的面积和凸包面积的比值;将所获得染色体轮廓形状拟合成多边形,记录多边形的边数。通过上述方法获得染色体轮廓的三种关键特征。可以理解为:根据观察所收集的染色体核型图像,一般重叠染色体的长短轴比例接近于1,而长条的单个染色体长短轴比例远大于1;一般重叠染色体轮廓面积远小于凸包面积,而单个染色体的轮廓面积和凸包面积相差不大;一般重叠染色体的形状更为复杂,所拟合的多边形边数远大于4,而单个染色形状近似矩形,拟合而成的多边形边数接近4左右。因此,选取上述三种轮廓特征能够较有效地判定染色体是否重叠。
进一步地,对所述染色体轮廓图像提取关键的染色体轮廓特征,还包括:通过OpenCV中的fitEllipse函数获取染色体轮廓的近似椭圆,计算椭圆的短轴长度和长轴长度的比值;通过OpenCV中的convexHull函数获取染色体轮廓的近似凸包,并且通过OpenCV中的contourArea函数获取染色体轮廓的面积,从而计算凸包的面积和轮廓面积的比值;通过OpenCV中的approxPolyDP函数获取染色体轮廓的近似多边形,得到多边形的边数。
步骤104,采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体。
具体的,采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体,包括:对所述染色体轮廓图像进行人工标注,区分重叠黏连和单个染色体;使用上述标注染色体轮廓的三种关键特征训练SVM分类器,判定染色体轮廓特征是否满足重叠条件,用以识别重叠黏连染色体和单个染色体。
进一步地,采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体,还包括:对所述染色体轮廓图像进行人工标注,将重叠黏连染色体的标签设置为1,将单个染色体的标签设置为0。该人工标注方法实施简单,不需要对染色体轮廓进行标注,节省了大量人工标注成本。
步骤105-1,针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像。
具体的,针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像,包括:通过OpenCV中的convexHull函数获取染色体轮廓的近似凸包,计算凸包的每边到染色体轮廓的距离,将距离最大的两点作为切割的凹点,使用OpenCV中的line函数在两点间绘制消锯齿的直线,达到分割轮廓的目的,对分割后的轮廓重复步骤104所述的操作,从重叠黏连染色体中获得多个单个染色体图像。
步骤105-2,针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像。
具体的,针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像,包括:通过OpenCV图像处理工具库中的cv2.bitwise_and函数将所述识别为单个染色体与纯黑背景图片做“与”运算,获得染色体掩膜;使用OpenCV中的convexHull函数,染色体轮廓的近似矩形包,根据矩形的长宽比确定旋转的近似角度,将染色体掩膜旋转特定角度,产生的空白部分用黑色填充,获得单个染色体图像
需要说明的是,使用纯黑背景图像进行掩膜操作,可以达到去除目标染色体外所有其他的染色体的目的,保证输出图片中仅包含一个染色体轮廓,有利于构建染色体数据集,方便进行染色体的分类和分析工作。
此外,在输出染色体图像的同时,将会在轮廓二值图像中去除对应染色体的轮廓,保证一条染色体只被输出一次,有利于构建染色体数据集。去除时要对轮廓进行填充和边缘腐蚀操作,该操作由OpenCV中的drawContours函数完成,操作范围由所计算的轮廓半径的平均值决定。
为了更清晰地理解并应用基于机器学习的重叠染色体识别和分割方法,进行以下公开示例。需要说明的是,本发明公开所保护的范围不限于以下示例。
本公开实施例提供了一种基于机器学习的重叠染色体识别和分割方法,包括:图像预处理、染色体轮廓提取、轮廓特征计算、染色体分割、分割图像输出五个部分。图像预处理用于实现去除图像噪声和增强图像对比度的目的,从而获得清晰的染色体核型图像;染色体轮廓提取用于从经过预处理后的染色体核型图像中提取染色体轮廓;轮廓特征计算用于从所提取的染色体轮廓中获得关键的轮廓特征;染色体分割采用机器学习算法,基于区分重叠和单个染色体的人工标注,训练SVM分类器,识别重叠黏连和单个染色体,从而分别对不同染色体实施不同的分割方法;分割图像输出对所获得的单个染色体图像进行输出,最终获得多张染色体图像。
如图2所示,本实施例的基于机器学习的重叠染色体识别和分割方法,包括:图像预处理、染色体轮廓提取、轮廓特征计算、染色体分割、分割图像输出。
其中,图像预处理中的中值滤波、直方图均衡化和伽马变换的操作,用于去除染色体图像中的噪声干扰和增强图像对比度,同时达到增强染色体轮廓边缘的目的。背景灰度补正的操作,用于分离开黏连染色体的模糊边界,将边界形状特殊的黏连染色体在预处理中去黏连,从而降低该种染色体对后续分割的不利影响。
在本发明的一个实施例中,图像预处理包括:中值滤波用于去除染色体核型图像中的随机噪点;直方图均衡化用于增强染色体核型图像的对比度。伽马变换用于增强染色体的灰度值以及染色体轮廓边缘;背景灰度补正用于分离开黏连染色体的模糊边界。
此外,染色体轮廓提取包括:将预处理过后的染色体核型图像通过最大类间方差算子和分水岭算法,获取染色体核型图像的二值图像,基于二值图得到染色体连通区域的边界,使用图像形态学方法,对每个目标染色体边界进行间断点检测和重新连接操作,确保染色体边界是闭合连续的曲线,最后对每个染色体边界进行填充,从而获取染色体的轮廓。
在本发明的一个实施例中,轮廓特征计算包括:对染色体的轮廓进行拟合操作,提取三种关键的轮廓特征。
在本发明的一个实施例中,染色体分割与分割图像输出包括:对所述染色体轮廓图像进行人工标注,区分重叠黏连和单个染色体;使用上述标注染色体轮廓的三种关键特征训练SVM分类器,判定染色体轮廓特征是否满足重叠条件,用以识别重叠黏连染色体和单个染色体。针对重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,输出多个新的单个染色体图像;针对单个染色体,经过旋转和填充背景后,输出单个染色体图像。
图3为针对图1与图2所示的分类器的工作流程示意图。
步骤301,获取测试染色体核型图像中染色体轮廓的特征参数。首先获取染色体核型图像用作训练样本。其中,包含24种人类染色体的图像数量要大致相同,图像中染色体的大小偏差控制在一定范围内,防止类间分布不均衡,保证分类模型具有较好的泛化能力。对染色体核型图像中所有染色体轮廓通过形状拟合操作,计算椭圆短轴长度和长轴长度的比值,闭合轮廓的面积和凸包面积的比值和多边形边数的三项轮廓特征。
步骤302,人工标注染色体核型图像中染色体的重叠情况。将染色体轮廓的三项轮廓特征录入到表格中,对染色体的重叠情况进行人工标注,重叠染色体的样本标记为“1”,否则标记为“0”。
步骤303,采用SVM分类器构建模型。将获得染色体轮廓的三项关键特征和人工标注,输入分类器模型进行训练。需要说明的是,本次训练的参数设置:C=0.8,kernel='poly',gamma='auto',degree=4。
步骤304,验证SVM分类器的性能。通过十折交叉验证法对分类器进行训练,训练好的模型在测试集进行性能验证。通过交叉验证方法,在测试集上的分类准确率平均达到0.97。
本发明提供的一种基于机器学习的重叠染色体识别和分割方法,针对染色体核型图像进行数据采集,对采集后的所述染色体核型图像进行预处理操作,对预处理后的所述染色体核型图像自动获取染色体轮廓;对所述自动获取的染色体轮廓提取基于轮廓的关键特征;采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体;针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像;针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像。该方法有效结合了现代图像处理技术和机器学习算法,通过提取染色体轮廓的关键特征,利用人工标注图片重叠信息的方法,建立区分重叠黏连和单个染色体的分类模型,从而实现重叠黏连染色体的准确识别和精准分割的目的,对开发自动化和智能化的计算机辅助染色体核型分析系统具有重要的临床意义。
本发明实施例还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,该程序被图1或图2中处理器执行。
本发明实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行上述图1或图2的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为示例性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
为了示例和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (6)
1.基于机器学习的重叠染色体识别和分割方法,其特征在于,包括以下步骤:
针对染色体核型图像进行数据采集,对采集后的所述染色体核型图像进行预处理操作,对预处理后的所述染色体核型图像自动获取染色体轮廓;
对所述自动获取的染色体轮廓提取基于轮廓的关键特征;
所述对预处理后的所述染色体核型图像提取染色体轮廓的关键特征,包括:将所获得染色体轮廓形状拟合成椭圆,计算椭圆短轴长度和长轴长度的比值;将所获得染色体轮廓形状拟合成凸包,计算闭合轮廓的面积和凸包面积的比值;将所获得染色体轮廓形状拟合成多边形,记录多边形的边数;通过上述方法获得染色体轮廓的三种关键特征;
采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体;
针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像;
所述针对所述识别为重叠黏连染色体,通过寻找凹点和图像分割方法,经过重复分割操作,获得多个新的单个染色体图像,包括:获取染色体轮廓的近似凸包,计算凸包的每边到染色体轮廓的距离,将距离最大的两点作为切割的凹点,通过绘制消锯齿的直线,达到分割轮廓的目的,对分割后的轮廓重复上述操作,从重叠黏连染色体中获得多个单个染色体图像;
针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像;
所述针对所述识别为单个染色体,经过旋转和填充背景后,获得单个染色体图像,包括:计算染色体轮廓的近似矩形包,根据矩形的长宽比确定旋转的近似角度,将单个染色体旋转特定角度,产生的空白部分用黑色填充,获得单个染色体图像。
2.根据权利要求1所述的基于机器学习的重叠染色体识别和分割方法,其特征在于,所述针对染色体核型图像进行数据采集,对采集后的所述染色体核型图像进行预处理操作,对预处理后的所述染色体核型图像自动获取染色体轮廓,包括:从医院信息系统中筛选出符合要求的染色体核型图像,对采集后的所述染色体核型图像依次执行去噪操作和增强操作,对预处理后的所述染色体核型图像自动提取重叠黏连染色体和个体染色体轮廓。
3.根据权利要求2所述的基于机器学习的重叠染色体识别和分割方法,其特征在于,所述对采集后的所述染色体核型图像执行去噪操作,包括:利用中值滤波去除所述染色体核型图像中的随机噪点,采用预设结构的二维滑动模板,将模板内所包含的像素按照像素值的大小进行排序,生成单调上升或下降的为二维数据序列,将模板中心像素的像素值用数据序列的中位数替代,获得去噪图像。
4.根据权利要求2所述的基于机器学习的重叠染色体识别和分割方法,其特征在于,所述对采集后的所述染色体核型图像执行增强操作,包括:使用直方图均衡化以及伽马变换方法对去噪后的图像进行对比度增强,接着计算染色体图像前景灰度,将该灰度下修正后的单一灰度图像与所述对比度增强后的图像进行图像加和运算,获得灰度补正后的增强图像。
5.根据权利要求2所述的基于机器学习的重叠染色体识别和分割方法,其特征在于,所述对预处理后的所述染色体核型图像自动提取重叠黏连染色体和个体染色体轮廓,包括:采用最大类间方差法从所述对预处理后的所述染色体核型图像获得二值图像,通过图像形态学方法连接间断点,通过计算图像连通域自动提取染色体轮廓。
6.根据权利要求1所述的基于机器学习的重叠染色体识别和分割方法,其特征在于,所述采用所述染色体轮廓图像提取的关键特征训练支持向量机分类器,将染色体识别为重叠黏连染色体和单个染色体,包括:对所述染色体轮廓图像进行人工标注,区分重叠黏连和单个染色体;使用上述标注染色体轮廓的三种关键特征训练支持向量机分类器,判定染色体轮廓特征是否满足重叠条件,用以识别重叠黏连染色体和单个染色体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010962405.9A CN112215800B (zh) | 2020-09-14 | 2020-09-14 | 基于机器学习的重叠染色体识别和分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010962405.9A CN112215800B (zh) | 2020-09-14 | 2020-09-14 | 基于机器学习的重叠染色体识别和分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112215800A CN112215800A (zh) | 2021-01-12 |
CN112215800B true CN112215800B (zh) | 2023-01-06 |
Family
ID=74049498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010962405.9A Active CN112215800B (zh) | 2020-09-14 | 2020-09-14 | 基于机器学习的重叠染色体识别和分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112215800B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344842A (zh) * | 2021-03-24 | 2021-09-03 | 同济大学 | 一种超声图像的血管标注方法 |
CN113158950B (zh) * | 2021-04-30 | 2022-04-05 | 天津深析智能科技发展有限公司 | 一种重叠染色体自动分割方法 |
CN113158951B (zh) * | 2021-04-30 | 2022-07-29 | 天津深析智能科技发展有限公司 | 一种从低倍镜图像中寻找染色体分裂相的方法 |
CN113096143B (zh) * | 2021-04-30 | 2022-03-15 | 天津深析智能科技发展有限公司 | 一种染色体核型分析中染色体分割方法 |
CN113658150B (zh) * | 2021-08-23 | 2022-12-09 | 西安交通大学 | 一种基于深度学习的染色体自动分割和分类方法 |
CN115222644B (zh) * | 2021-12-17 | 2023-07-11 | 深圳市瑞图生物技术有限公司 | 染色体图像处理方法、分析设备及存储介质 |
CN115220622B (zh) * | 2021-12-17 | 2023-09-05 | 深圳市瑞图生物技术有限公司 | 染色体图像编辑方法、分析设备及存储介质 |
CN116434071B (zh) * | 2023-06-07 | 2023-09-12 | 浙江国遥地理信息技术有限公司 | 一种规整化建筑掩膜的确定方法、确定装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101403743B (zh) * | 2008-10-31 | 2012-07-18 | 广东威创视讯科技股份有限公司 | 一种x型交叠、粘连染色体自动分割方法 |
CN109344874B (zh) * | 2018-08-31 | 2020-09-15 | 华侨大学 | 一种基于深度学习的染色体自动分析方法及系统 |
CN109934828B (zh) * | 2019-02-28 | 2023-03-24 | 西交利物浦大学 | 基于Compact SegUnet自学习模型的双染色体图像切割方法 |
CN115601374B (zh) * | 2019-08-22 | 2023-12-08 | 杭州德适生物科技有限公司 | 一种染色体图像分割方法 |
CN111223084A (zh) * | 2020-01-07 | 2020-06-02 | 华南师范大学 | 一种染色体切割数据的处理方法、系统和存储介质 |
-
2020
- 2020-09-14 CN CN202010962405.9A patent/CN112215800B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112215800A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112215800B (zh) | 基于机器学习的重叠染色体识别和分割方法 | |
US10817741B2 (en) | Word segmentation system, method and device | |
WO2022012110A1 (zh) | 胚胎光镜图像中细胞的识别方法及系统、设备及存储介质 | |
CN113658150B (zh) | 一种基于深度学习的染色体自动分割和分类方法 | |
TW201915832A (zh) | 骨髓細胞標記方法和系統 | |
CN108564114B (zh) | 一种基于机器学习的人体粪便白细胞自动识别方法 | |
CN110648322A (zh) | 一种子宫颈异常细胞检测方法及系统 | |
CN108961301B (zh) | 一种基于无监督逐像素分类的角毛藻图像分割方法 | |
Fatichah et al. | Overlapping white blood cell segmentation and counting on microscopic blood cell images | |
CN114998332B (zh) | 核型异常细胞的确定方法和装置 | |
CN114240978B (zh) | 基于自适应形态学的细胞边缘分割方法和装置 | |
CN108830874A (zh) | 一种数字病理全切片图像空白区域自动分割方法 | |
WO2024016812A1 (zh) | 显微图像的处理方法、装置、计算机设备及存储介质 | |
CN111126162A (zh) | 一种识别图像中炎症细胞的方法、装置及存储介质 | |
CN113160185A (zh) | 一种利用生成边界位置指导宫颈细胞分割的方法 | |
CN115170518A (zh) | 基于深度学习和机器视觉的细胞检测方法及系统 | |
CN115393375A (zh) | 荧光显微成像中明场细胞图像分割方法和装置 | |
CN112419335B (zh) | 一种细胞核分割网络的形状损失计算方法 | |
Poletti et al. | Automatic classification of chromosomes in Q-band images | |
CN111429461B (zh) | 一种新型的重叠脱落上皮细胞分割方法 | |
CN112393880A (zh) | 屏幕更换检测方法及装置 | |
Syahputra et al. | Identification Male Fertility Through Abnormalities Sperm Based Morphology (Teratospermia) using Invariant Moment Method | |
CN113780040A (zh) | 唇部关键点的定位方法及装置、存储介质、电子设备 | |
CN111707672A (zh) | 风电回转支撑件表面缺陷检测方法 | |
Khan et al. | Segmentation of single and overlapping leaves by extracting appropriate contours |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |