CN115601374A - 一种染色体图像分割方法 - Google Patents

一种染色体图像分割方法 Download PDF

Info

Publication number
CN115601374A
CN115601374A CN202211278870.6A CN202211278870A CN115601374A CN 115601374 A CN115601374 A CN 115601374A CN 202211278870 A CN202211278870 A CN 202211278870A CN 115601374 A CN115601374 A CN 115601374A
Authority
CN
China
Prior art keywords
chromosome
image
stage
candidate
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211278870.6A
Other languages
English (en)
Other versions
CN115601374B (zh
Inventor
晏青
吴朝玉
宋宁
马伟旗
沈晓明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Daigens Biotech Ltd
Original Assignee
Hangzhou Daigens Biotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Daigens Biotech Ltd filed Critical Hangzhou Daigens Biotech Ltd
Priority to CN202211278870.6A priority Critical patent/CN115601374B/zh
Publication of CN115601374A publication Critical patent/CN115601374A/zh
Application granted granted Critical
Publication of CN115601374B publication Critical patent/CN115601374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • G06T2207/20032Median filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种染色体图像分割方法,属于染色体图像处理技术领域。现有的图像分割方法对染色体图像直接进行分割,由于染色体图像本身具有很多噪声,会出现误分割的现象,引起的误差为后面的分析带来了干扰。本发明提出的一种染色体图像分割方法,通过形态学操作预处理输入图像,能够有效减少现有的图像由于本身噪声和染色体带纹“明暗相间”(灰度分布不均匀)的特性引起的目标内部灰度差异;并通过直方图归一处理,改善图像的灰度分布。同时通过交替训练阶段一和阶段二的方式,解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛。进而本发明改变了以往直接对现有的图像进行分割的处理方法,分割效果清晰,最大程度上减少了分割带来的误差,工序简洁、合理,可向外大规模推广应用,部署简单。

Description

一种染色体图像分割方法
技术领域
本发明涉及一种染色体图像分割方法,属于染色体图像处理技术领域。
背景技术
目前,染色体分析系统一般依赖于人机交互来分割染色体,由于染色体图像的质量与样本的染色质量有关,同时受光照影响严重,图像中存在较多杂质,对比度较差,且染色体内明暗相间的带纹使得目标内部灰度分布不均匀。直接利用现有的图像分割方法对染色体图像进行分割,由于染色体图像本身具有很多噪声,会出现误分割的现象,引起的误差为后面的分析带来了干扰。
发明内容
针对现有技术的缺陷,本发明的目的一在于提供一种能减少图像由于染色体带纹引起的目标内部灰度差异;并通过直方图归一处理,改善图像的灰度分布的染色体图像分割方法。
本发明的目的二在于提供一种通过交替训练阶段一和阶段二的方式,解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛;并通过二阶段的模型设计能够使得网络以端到端(end-to-end)的方式,从而快速确定图像的目标区域,得到输入图像中所有染色体的分割结果,提高了模型的分割效率的染色体图像分割方法。
本发明的目的三在于提供一种分割效果清晰,最大程度上减少了分割带来的误差,工序简洁、合理,可向外大规模推广应用,部署简单的染色体图像分割方法。
为实现上述目的之一,本发明的第一种技术方案为:
一种染色体图像分割方法,
包括以下步骤:
第一步,采集染色体图像;所述染色体图像为经过染色的图像;
第二步,对染色体图像中包含染色体感兴趣区域(ROI)进行定位,确保图片中至少含有所需分割的全部染色体对象(ROI);
第三步,对染色体进行基本的图像处理;
a)将非染色体的对象,用基本的形态学操作图像处理算法进行去除,获得尽可能只包括染色体的图像;
b)图像的灰度、对比度采用直方图归一化图像处理手段进行增强,使得染色体内部的条带清晰可辨;
背景色能够采用白色,其背景区域的灰度值在255;本领域技术人员可根据实际需要,选择其他背景色;
c)训练深度网络前,对图像进行旋转、翻转,进行数据增强操作以扩充样本;
对所有输入图像进行归一化处理,使得图像输入尽可能标准一致,网络训练更容易收敛;
第四步,建立两阶段深度学习模型;
第一阶段,完成染色体对象的定位检测(Object Detection)以及染色体对象的外轮廓分割(MaskSegmentation)任务,将图像中的每个疑似染色体的候选区域比较“粗”地提取出来;
第二阶段,对所提取的候选区域进行染色体坐标定位、外轮廓分割、以及染色体类别预测。
由于染色体图像的质量与样本的染色质量有关,同时受光照影响严重,图像中存在较多杂质,对比度较差,且染色体内明暗相间的带纹使得目标内部灰度分布不均匀。因此必须对染色体图像进行预处理,为后期分析处理做准备。
本发明的形态学操作,主要目的是减少图像由于染色体带纹引起的目标内部灰度差异;直方图归一处理,用于改善图像的灰度分布。
本发明通过交替训练阶段一和阶段二的方式,解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛;除外,二阶段的模型设计能够使得网络以端到端(end-to-end)的方式,从而快速确定图像的目标区域,得到输入图像中所有染色体的分割结果,提高了模型的分割效率。
本发明改变了以往直接对预处理过的图像进行分割,分割效果清晰,最大程度上减少了分割带来的误差,工序简洁、合理,可向外大规模推广应用,部署简单。
作为优选技术措施:
所述第二步,包括以下步骤:
该步骤是为了保证输入进深度学习模型的图片中确实是包括了1个细胞完整的46条(健康情况)中期染色体;即图片中至少含有所需分割的全部染色体对象(ROI);
图像预处理算法如下:
a)直方图统计,找到最大值,找到下降梯度大于0.99的值,两者相减即可使用阈值去除背景;定义k表示图像的灰度级数,直方图各个灰度级出现的次数为nk,则直方图相邻灰度级间的梯度可定义为:
Figure BDA0003897802540000021
求出Gi>0.99时i的最大值T0
则分割图像的目标阈值:
T=k-1-2×T0
b)对染色体进行边缘处理,外围轮廓区域均值小于染色体均值的2/3即为可删除边缘;
c)直方图匹配,对染色体同时做直方图匹配,使染色体的明暗程度统一到一个固定的区间,同时增强条带信息;
人工对预处理后的中期分裂相图像进行人工标记,标记图像中感兴趣的染色体区域。
本发明工序简洁、合理,可向外大规模推广应用,部署简单,方案切实可行。
作为优选技术措施:
所述第四步,具体包括以下步骤:
S1,建立模型结构:主干网络模型框架基于MaskR-CNN网络结构,能够解决实例分割(Instance Segmentation)的问题,即同时完成染色体对象的定位检测(ObjectDetection)以及染色体对象的外轮廓分割(MaskSegmentation)任务;
S2,通过类似FasterR-CNN框架的两阶段(two-stage)策略,网络模型主要由两个阶段组成:第一个阶段是候选区域提名模块(RegionProposal),目的是将图像中的每个疑似染色体的候选区域比较“粗”地提取出来;
第二个阶段是对候选区域分别进行定位(Detection)、分割(Segmentation)、以及分类(Classification)任务;该阶段采用了三个独立且并行的子网络,目的是同时对阶段一所提取的候选区域进行染色体坐标定位、外轮廓分割、以及染色体类别预测;
本发明通过交替训练阶段一和阶段二的方式,能够解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛;除外,二阶段的模型设计能够使得网络以端到端(end-to-end)的方式,只通过卷积层和全连接层等网络层即可得到输入图像中所有染色体的分割结果,提高了模型的预测效率;本模型的第一阶段的预测深度为:hs层,本模型的第二阶段的预测深度为:hs2层。
S3,模型第一阶段候选区域提名网络(RegionProposalNetwork)采用的是基于ResNet的骨架结构,利用ResNet优秀的特征抽取能力,为预测候选区域的坐标和类别提供支撑,其包括以下内容:
ResNet通过使用残差学习ResidualLearning的方式,极大地提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;在最后卷积得到的特征图上,采用两路卷积分别输出候选区域的坐标位置信息与二分类类别信息;其中,坐标位置信息是采用基于“锚点”(Anchor)的预测方法,即在染色体图像上选定若干个锚点,预测的位置坐标指的是相对于这些锚点的位置偏移量;若需要得到每个候选区域矩形框在整幅图像内的全局坐标,则能够根据预先确定的锚点的全局坐标加上预测的偏移量即可;
S4,模型第二阶段检测、分类、分割并行模块采用的是3个独立的子网络头(Head)来分别处理来自第一阶段的各个候选区域,并针对每个候选区域给出其中包含的染色体的精确坐标信息、类别信息、以及外轮廓分割信息;
S5,训练该模型的损失函数(LossFunction)按照第一阶段和第二阶段的任务分别能够总结为分类损失函数(交叉熵Cross-Entropy函数)、位置回归损失函数(缓和的L1范数Smooth-L1函数)、以及分割损失函数(交叉熵Cross-Entropy函数)。
作为优选技术措施:
深度学习模型的训练,使用随机梯度下降(SGD)优化器进行模型训练,学习率设置为0.02,每经过10000次迭代就减少为十分之一,SGD的权重衰减系数设置为0.0001,动量Momentum设置为0.9;总迭代次数为100000次,批量训练的样本大小(Batchsize)设置为4。
作为优选技术措施:
所述S3,第一阶段模型的输入为:经过处理的染色体图像;
该第一阶段模型的输出有3个:
1)经过ResNet多层卷积操作得到的特征图;
2)基于特征图上每个像素点卷积得到的染色体候选区域的坐标位置(矩形框的4个位置信息,即矩形框左上顶点的位置x,y和矩形框的宽w和高h);
3)基于特征图上每个像素点卷积得到的候选区域的二分类类别信息(判断候选矩形框内部是否为染色体,即给出该候选区域包含染色体的概率p);
本模型的深度为:hs层。
所述S4,该阶段处理S3的输出时,主要经过如下几个部分:
1)基于S3的输出,需要先按照候选区域矩形框进行非极大值抑制(Non-MaximumSuppresion),去除预测的矩形框重复、重叠情况;去除重叠情况时所使用的阈值(IoU)设置为th_IoU,即若有两个矩形框之间重叠区域占2个总矩形框面积的比例(IoU)高于th_IoU时,则认为这两个矩形框对应于同一个预测区域,将只保留其中第一个候选矩形框,去除剩下的一个矩形框;该NMS步骤将对S3输出的所有候选区域进行遍历,去除其中重叠的矩形框;
2)针对剩下来的非重叠的候选矩形框,按照其对应的预测包含染色体的概率p由高到低进行排序,挑选前m个置信度较高的候选区域作为实际有效的候选区域;这里设置的有效候选区域数量为m,m一般取1000;
3)根据有效的候选区域的坐标信息,在S3步骤输出的特征图上对应位置抽取固定大小的局部特征图,即为专门对应于该候选区域的局部特征;由于第二阶段各个子网络头模型需要固定尺寸的输入特征(例如7x7大小),然而每个预测得到的候选区域矩形框大小不一,使得截取出来的局部特征的大小也不一致,因此需要对每个局部特征做尺度归一化处理。
本发明工序简洁、合理,可向外大规模推广应用,部署简单,方案切实可行。
作为优选技术措施:
还包括:4)构建3个独立的子网络头模型:
a.检测、分类、分割子网络共用相同的特征;为了获取该公用特征,在获得步骤3的输出特征图(k*k大小,特征通道数为C)后,将其输入至一个ResNet-50模型,并将该ResNet网络的第九层(名为“res5”)特征取出作为共用的特征向量;
b.对于检测和分类子网络,对特征图“res5”接着做全局平均池化池化(GlobalAverage Pooling),得到2048维度的向量,然后经过1个全连接(FC)层(全连接层神经元参数数量为m),再分别经过1个全连接层得到分类任务的输出和位置检测任务的输出;其中,分类任务的输出经过SoftMax层得到的是染色体24+1个类别(含背景)的概率;位置检测任务的输出是用于回归的相对于锚点的矩形框坐标及大小信息;其中全连接层的神经元数m一般设置为2048;
c.对于外轮廓分割子网络,对特征图“res5”首先用转置卷积操作(卷积核尺寸为2x2,步长为2)将kxk大小的特征图卷积成2kx2k大小,特征通道数为C2;再利用一个普通卷积操作(卷积核为1x1)得到特征通道数为24的卷积结果,针对每个特征通道应用Sigmoid激活函数即可得到24个类别的外轮廓分割结果;其中,k一般设置为7,特征通道数C2一般设置为256。
本发明工序简洁、合理,可向外大规模推广应用,部署简单,方案切实可行。
作为优选技术措施:
对每个局部特征做尺度归一化处理:
采用RoIAlign(感兴趣区域对齐)操作将不同大小的特征图通过不量化(Quantization)直接池化(Pooling)成固定尺寸kxk大小的特征图(k一般取7);其具体的做法是,
首先,将预测的候选区域矩形框(坐标(x,y),大小(h,w))在映射到特征图大小时(以(x/16,y/16)为例)时候不采用取整操作,而是保留小数并且采用双线性插值(bilinearinterpolation)方法求出特征图上该实数坐标(x/16,y/16)的特征值;
得到该局部特征图(大小为(h/16,w/16))后,需要进一步池化成kxk大小的特征图;
这一步需要划分k*k个子区域(bin),每个子区域对应的大小为((h/16)/k,(w/16)/k);
对每个子区域进行池化操作(最大池化或者平均池化)即可抽取出1个对应的特征值;最终获得的k*k个特征值即为RoIAlign的结果。
本发明工序简洁、合理,可向外大规模推广应用,部署简单,方案切实可行。
作为优选技术措施:
所述S5,1)其中,第一阶段候选区域提名网络RPN以及第二阶段的检测、分类子网络头都是采用分类损失函数与位置回归损失函数所组成的联合损失函数;其定义的表达式如下:
Figure BDA0003897802540000061
其中,i是某个锚点的编号,pi是该锚点对应的候选矩形区域的预测概率,
Figure BDA0003897802540000062
是第i个锚点的真值,
Figure BDA0003897802540000063
则该锚点确实对应一个染色体,
Figure BDA0003897802540000064
则该锚点对应背景;ti是一个代表了4个参数化的候选矩形框的位置和大小,
Figure BDA0003897802540000065
代表的是该锚点确实对应染色体时矩形框的真实位置和大小;该损失函数中Ncls和Nreg分别对应参与分类损失和回归损失的锚点的数目,分别用于归一化分类损失函数和回归损失函数;λ是平衡这两个损失函数的权重;这里一般设置参数的大小如下:Ncls=256,Nreg=2400,λ=10;
用于分类的Lcls损失函数是基于二分类的交叉熵的函数,其定义的表达式如下:
Figure BDA0003897802540000066
用于回归矩形框坐标和大小的Lreg损失函数是基于Smooth-L1的函数,该函数仅仅在当前
Figure BDA0003897802540000067
时有效,即只针对包含染色体对象的锚点进行坐标和大小的回归;其损失函数定义的表达式如下:
Figure BDA0003897802540000068
其对应的Smooth-L1函数的数学表达式如下:
Figure BDA0003897802540000069
对于参数化编码的候选矩形框的位置,其数学表达式如下:
Figure BDA00038978025400000610
Figure BDA00038978025400000611
Figure BDA00038978025400000612
Figure BDA0003897802540000071
其中,x,y,w,和h是预测的候选矩形框的坐标及大小(宽、高),而下标a,上标*分别对应锚点和真值的矩形框坐标和大小;整个染色体候选矩形框的预测过程能够看作是将锚点的矩形框向真实包含染色体的矩形框回归的过程;
2)第二阶段中预测候选框ROI中具体包含的是哪一类别的染色体所用到的损失函数是24类别的交叉熵损失函数,其定义的数学表达式如下:
Figure BDA0003897802540000072
其中,exp(x)为exponential的缩写,即为指数函数ex;
x为分类头网络输出的结果向量,Ncls为需要预测的分类总类别数;对于染色体的类型分类,x维度为24维,Ncls=24;j为计数下标,用于累加x向量中每个元素x[j];
t为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果x[j],j=1,2,...,24中,金标准标签t对应的类别的概率;
3)第二阶段中预测外轮廓Mask中所用到的损失函数是逐像素的二分类交叉熵函数;其数学表达式为与1)中介绍的二分类交叉熵函数一致;在计算该损失函数时,针对每个候选矩形框,对输出的24个预测Mask图中只选取对应类别的Mask图进行计算,忽略其他无关类别的Mask,这样能够有效避免不同类别间重叠区域的归属问题。
本发明工序简洁、合理,可向外大规模推广应用,部署简单,方案切实可行。
作为优选技术措施:
还包括第五步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数;
针对每个被检测出来的染色体(包括最小包围矩形框的坐标、大小;该染色体的外轮廓),求取矩形框中被分割为染色体的部分与真实染色体标记的重叠情况;对于每个像素而言,这个计算就是判断该矩形框中每个像素的归属情况,要么属于前景(染色体),要么属于背景;若都能正确划分,则染色体就能被正确地分割出来;因此针对矩形框中每个像素点,统计如上所述的4个指标TP,FP,FN和TN,并计算如下的5个指标:
Figure BDA0003897802540000081
Figure BDA0003897802540000082
Figure BDA0003897802540000083
Figure BDA0003897802540000084
Figure BDA0003897802540000085
Figure BDA0003897802540000086
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
建立合理的指标评价系统,能够及时了解本发明的识别效果,进而能够及时对发明进行改进。
为实现上述目的之一,本发明的第二种技术方案为:
一种染色体图像分割方法,包括以下内容:
采集染色体图像;
对染色体图像中包含染色体感兴趣区域ROI进行定位,确保图片中至少含有所需分割的全部染色体对象ROI;
对染色体进行基本的图像处理;
对输入图像进行归一化处理,使得图像输入尽可能标准一致,网络训练更容易收敛;
建立两阶段的深度学习模型;
第一阶段,完成染色体对象的定位检测以及染色体对象的外轮廓分割任务,将图像中的每个疑似染色体的候选区域提取出来;
第二阶段,对所提取的候选区域进行染色体坐标定位、外轮廓分割,进而实现染色体的准确分割。
本发明能够减少图像由于染色体带纹引起的目标内部灰度差异,并通过交替训练阶段一和阶段二的方式,解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛;除外,二阶段的模型设计能够使得网络以端到端(end-to-end)的方式,从而快速确定图像的目标区域,得到输入图像中所有染色体的分割结果,提高了模型的分割效率。
本发明改变了以往直接对预处理过的图像进行分割,分割效果清晰,最大程度上减少了分割带来的误差,工序简洁、合理,可向外大规模推广应用,部署简单。
与现有技术相比,本发明具有以下有益效果:
本发明提出的一种染色体图像分割方法,通过形态学操作预处理输入图像,能够有效减少现有的图像由于本身噪声和染色体带纹“明暗相间”(灰度分布不均匀)的特性引起的目标内部灰度差异;并通过直方图归一处理,改善图像的灰度分布。
本发明通过交替训练阶段一和阶段二的方式,解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛;除外,二阶段的模型设计能够使得网络以端到端(end-to-end)的方式,从而快速确定图像的目标区域,得到输入图像中所有染色体的分割结果,提高了模型的分割效率。
本发明改变了以往直接对预处理过的图像进行分割,分割效果清晰,最大程度上减少了分割带来的误差,工序简洁、合理,可向外大规模推广应用,部署简单。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也能够完全理解本发明。
一种染色体图像切割方法,主要基于连通域分割和骨架提取的方式进行分割,通过连通域分析提取独立的单条染色体后,剩下的交叉染色体进行骨架提取和骨架分析寻找可能的分割点,通过分割点实现交叉染色体的分割;
其包括以下情形:
(1)单条染色体与交叉染色体的分离;计算出平均染色体面积与单条染色体最大面积,然后通过对染色体前景部分进行连通域分析,提取出各个连通域的图像,进行闭操作与中值滤波后分析骨架,根据骨架的不同将该连通域分别归类为单条染色体与交叉染色体;
(2)粘连交叉染色体的分割;对于交叉染色体再进行连通域分析,通过骨架分析操作寻找切割点进行切割,切割出的染色体放入单条染色体类别中,其他染色体等待进一步自动切割;
(3)交叉染色体的进一步切割;对于剩余的交叉染色体,利用分离重叠染色体的方法进行进一步切割,然后对结果进行保存。
本发明染色体图像切割主要基于连通域分割和骨架提取的方式进行分割,通过连通域分析提取独立的单条染色体后,剩下的交叉染色体进行骨架提取和骨架分析寻找可能的分割点,通过分割点实现交叉染色体的分割;改变了以往直接对预处理过的图像进行分割,分割效果清晰,最大程度上减少了分割带来的误差,工序简洁、合理,可向外大规模推广应用,部署简单。
连通域分割主要是连通区域标记,通过对二值图像中白色像素的标记,让每个单独的连通区域形成一个被标识的块,进一步的能够获取这些块几何参数;所述几何参数为块的轮廓或外接矩形或质心或不变矩;
骨架提取,即二值图像细化,将一个连通区域细化成一个像素的宽度,用于特征提取和目标拓扑表示。
本发明分割方法具体实施例:
分割方法包括以下步骤:
第一步,采集已经染色的染色体图像;
第二步,对染色体图像中包含染色体感兴趣区域(ROI)进行定位;确保图片中至少含有所需分割的全部染色体对象(ROI);
第三步,对染色体进行基本的图像处理;
a)将非染色体的对象,用基本的形态学操作图像处理算法进行去除,获得尽可能只包括染色体的图像;
b)图像的灰度、对比度采用直方图归一化图像处理手段进行增强,使得染色体内部的条带清晰可辨;
背景色能够采用白色,其背景区域的灰度值在255;本领域技术人员可根据实际需要,选择其他背景色;
c)训练深度网络前,对图像进行旋转、翻转,进行数据增强操作以扩充样本;
对所有输入图像进行归一化处理,使得图像输入尽可能标准一致,网络训练更容易收敛;
第四步,建立两阶段深度学习模型;
第一阶段,完成染色体对象的定位检测(Object Detection)以及染色体对象的外轮廓分割(Mask Segmentation)任务,将图像中的每个疑似染色体的候选区域比较“粗”地提取出来;
第二阶段,对所提取的候选区域进行染色体坐标定位、外轮廓分割、以及染色体类别预测。
由于染色体图像的质量与样本的染色质量有关,同时受光照影响严重,图像中存在较多杂质,对比度较差,且染色体内明暗相间的带纹使得目标内部灰度分布不均匀。因此必须对染色体图像进行预处理,为后期分析处理做准备。
本发明的形态学操作,主要目的是减少图像由于染色体带纹引起的目标内部灰度差异;直方图归一处理,用于改善图像的灰度分布。
本发明通过交替训练阶段一和阶段二的方式,解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛;除外,二阶段的模型设计能够使得网络以端到端(end-to-end)的方式,从而快速确定图像的目标区域,得到输入图像中所有染色体的分割结果,提高了模型的分割效率。
本发明改变了以往直接对预处理过的图像进行分割,分割效果清晰,最大程度上减少了分割带来的误差,工序简洁、合理,可向外大规模推广应用,部署简单。
本发明第二步一种具体实施例:
所述第二步,包括以下步骤:
该步骤是为了保证输入进深度学习模型的图片中确实是包括了1个细胞完整的46条(健康情况)中期染色体;即图片中至少含有所需分割的全部染色体对象(ROI);
图像预处理算法如下:
a)直方图统计,找到最大值,找到下降梯度大于0.99的值,两者相减即可使用阈值去除背景;定义k表示图像的灰度级数,直方图各个灰度级出现的次数为nk,则直方图相邻灰度级间的梯度可定义为:
Figure BDA0003897802540000111
求出Gi>0.99时i的最大值T0
则分割图像的目标阈值:
T=k-1-2×T0
b)对染色体进行边缘处理,外围轮廓区域均值小于染色体均值的2/3即为可删除边缘;
c)直方图匹配,对染色体同时做直方图匹配,使染色体的明暗程度统一到一个固定的区间,同时增强条带信息;
人工对预处理后的中期分裂相图像进行人工标记,标记图像中感兴趣的染色体区域。
本发明第四步一种具体实施例:
所述第四步,具体包括以下步骤:
S1,建立模型结构:主干网络模型框架基于MaskR-CNN网络结构,能够解决实例分割(Instance Segmentation)的问题,即同时完成染色体对象的定位检测(ObjectDetection)以及染色体对象的外轮廓分割(MaskSegmentation)任务;
S2,通过类似FasterR-CNN框架的两阶段(two-stage)策略,网络模型主要由两个阶段组成:第一个阶段是候选区域提名模块(RegionProposal),目的是将图像中的每个疑似染色体的候选区域比较“粗”地提取出来;
第二个阶段是对候选区域分别进行定位(Detection)、分割(Segmentation)、以及分类(Classification)任务;该阶段采用了三个独立且并行的子网络,目的是同时对阶段一所提取的候选区域进行染色体坐标定位、外轮廓分割、以及染色体类别预测;
本发明通过交替训练阶段一和阶段二的方式,能够解决网络训练过程中正负样本不平衡的问题,使得模型能够快速收敛;除外,二阶段的模型设计能够使得网络以端到端(end-to-end)的方式,只通过卷积层和全连接层等网络层即可得到输入图像中所有染色体的分割结果,提高了模型的预测效率;本模型的第一阶段的预测深度为:hs层,本模型的第二阶段的预测深度为:hs2层。
S3,模型第一阶段候选区域提名网络(RegionProposalNetwork)采用的是基于ResNet的骨架结构,利用ResNet优秀的特征抽取能力,为预测候选区域的坐标和类别提供支撑,其包括以下内容:
ResNet通过使用残差学习ResidualLearning的方式,极大地提高模型抽取特征的有效性,而且能够在避免过拟合训练样本集的情况下,构建深层次的网络,提高模型的准确率;在最后卷积得到的特征图上,采用两路卷积分别输出候选区域的坐标位置信息与二分类类别信息;其中,坐标位置信息是采用基于“锚点”(Anchor)的预测方法,即在染色体图像上选定若干个锚点,预测的位置坐标指的是相对于这些锚点的位置偏移量;若需要得到每个候选区域矩形框在整幅图像内的全局坐标,则能够根据预先确定的锚点的全局坐标加上预测的偏移量即可;
S4,模型第二阶段检测、分类、分割并行模块采用的是3个独立的子网络头(Head)来分别处理来自第一阶段的各个候选区域,并针对每个候选区域给出其中包含的染色体的精确坐标信息、类别信息、以及外轮廓分割信息;
S5,训练该模型的损失函数(LossFunction)按照第一阶段和第二阶段的任务分别能够总结为分类损失函数(交叉熵Cross-Entropy函数)、位置回归损失函数(缓和的L1范数Smooth-L1函数)、以及分割损失函数(交叉熵Cross-Entropy函数);
深度学习模型的训练,使用随机梯度下降(SGD)优化器进行模型训练,学习率设置为0.02,每经过10000次迭代就减少为十分之一,SGD的权重衰减系数设置为0.0001,动量Momentum设置为0.9;总迭代次数为100000次,批量训练的样本大小(Batchsize)设置为4。
本发明S3一种具体实施例:
所述S3,第一阶段模型的输入为:经过前三步骤处理好的染色体图像;
该第一阶段模型的输出有3个:
1)经过ResNet多层卷积操作得到的特征图;
2)基于特征图上每个像素点卷积得到的染色体候选区域的坐标位置(矩形框的4个位置信息,即矩形框左上顶点的位置x,y和矩形框的宽w和高h);
3)基于特征图上每个像素点卷积得到的候选区域的二分类类别信息(判断候选矩形框内部是否为染色体,即给出该候选区域包含染色体的概率p);
本模型的深度为:hs层。
本发明S4一种具体实施例:
所述S4,该阶段处理S3的输出时,主要经过如下几个部分:
1)基于S3的输出,需要先按照候选区域矩形框进行非极大值抑制(Non-MaximumSuppresion),去除预测的矩形框重复、重叠情况;去除重叠情况时所使用的阈值(IoU)设置为th_IoU,即若有两个矩形框之间重叠区域占2个总矩形框面积的比例(IoU)高于th_IoU时,则认为这两个矩形框对应于同一个预测区域,将只保留其中第一个候选矩形框,去除剩下的一个矩形框;该NMS步骤将对S3输出的所有候选区域进行遍历,去除其中重叠的矩形框;
2)针对剩下来的非重叠的候选矩形框,按照其对应的预测包含染色体的概率p由高到低进行排序,挑选前m个置信度较高的候选区域作为实际有效的候选区域;这里设置的有效候选区域数量为m,m一般取1000;
3)根据有效的候选区域的坐标信息,在S3步骤输出的特征图上对应位置抽取固定大小的局部特征图,即为专门对应于该候选区域的局部特征;由于第二阶段各个子网络头模型需要固定尺寸的输入特征(例如7x7大小),然而每个预测得到的候选区域矩形框大小不一,使得截取出来的局部特征的大小也不一致,因此需要对每个局部特征做尺度归一化处理。
4)构建3个独立的子网络头模型:
a.检测、分类、分割子网络共用相同的特征;为了获取该公用特征,在获得步骤3的输出特征图(k*k大小,特征通道数为C)后,将其输入至一个ResNet-50模型,并将该ResNet网络的第九层(名为“res5”)特征取出作为共用的特征向量;
b.对于检测和分类子网络,对特征图“res5”接着做全局平均池化池化(GlobalAverage Pooling),得到2048维度的向量,然后经过1个全连接(FC)层(全连接层神经元参数数量为m),再分别经过1个全连接层得到分类任务的输出和位置检测任务的输出;其中,分类任务的输出经过SoftMax层得到的是染色体24+1个类别(含背景)的概率;位置检测任务的输出是用于回归的相对于锚点的矩形框坐标及大小信息;其中全连接层的神经元数m一般设置为2048;
c.对于外轮廓分割子网络,对特征图“res5”首先用转置卷积操作(卷积核尺寸为2x2,步长为2)将kxk大小的特征图卷积成2kx2k大小,特征通道数为C2;再利用一个普通卷积操作(卷积核为1x1)得到特征通道数为24的卷积结果,针对每个特征通道应用Sigmoid激活函数即可得到24个类别的外轮廓分割结果;其中,k一般设置为7,特征通道数C2一般设置为256。
本发明归一化处理一种具体实施例:
对每个局部特征做尺度归一化处理:
采用RoIAlign(感兴趣区域对齐)操作将不同大小的特征图通过不量化(Quantization)直接池化(Pooling)成固定尺寸kxk大小的特征图(k一般取7);其具体的做法是,
首先,将预测的候选区域矩形框(坐标(x,y),大小(h,w))在映射到特征图大小时(以(x/16,y/16)为例)时候不采用取整操作,而是保留小数并且采用双线性插值(bilinearinterpolation)方法求出特征图上该实数坐标(x/16,y/16)的特征值;
得到该局部特征图(大小为(h/16,w/16))后,需要进一步池化成kxk大小的特征图;
这一步需要划分k*k个子区域(bin),每个子区域对应的大小为((h/16)/k,(w/16)/k);
对每个子区域进行池化操作(最大池化或者平均池化)即可抽取出1个对应的特征值;最终获得的k*k个特征值即为RoIAlign的结果。
本发明S5一种具体实施例:
所述S5,1)其中,第一阶段候选区域提名网络RPN以及第二阶段的检测、分类子网络头都是采用分类损失函数与位置回归损失函数所组成的联合损失函数;其定义的表达式如下:
Figure BDA0003897802540000151
其中,i是某个锚点的编号,pi是该锚点对应的候选矩形区域的预测概率,
Figure BDA0003897802540000152
是第i个锚点的真值,
Figure BDA0003897802540000153
则该锚点确实对应一个染色体,
Figure BDA0003897802540000154
则该锚点对应背景;ti是一个代表了4个参数化的候选矩形框的位置和大小,
Figure BDA0003897802540000155
代表的是该锚点确实对应染色体时矩形框的真实位置和大小;该损失函数中Ncls和Nreg分别对应参与分类损失和回归损失的锚点的数目,分别用于归一化分类损失函数和回归损失函数;λ是平衡这两个损失函数的权重;这里一般设置参数的大小如下:Ncls=256,Nreg=2400,λ=10;
用于分类的Lcls损失函数是基于二分类的交叉熵的函数,其定义的表达式如下:
Figure BDA0003897802540000156
用于回归矩形框坐标和大小的Lreg损失函数是基于Smooth-L1的函数,该函数仅仅在当前
Figure BDA0003897802540000157
时有效,即只针对包含染色体对象的锚点进行坐标和大小的回归;其损失函数定义的表达式如下:
Figure BDA0003897802540000158
其对应的Smooth-L1函数的数学表达式如下:
Figure BDA0003897802540000159
对于参数化编码的候选矩形框的位置,其数学表达式如下:
Figure BDA00038978025400001510
Figure BDA00038978025400001511
Figure BDA00038978025400001512
Figure BDA00038978025400001513
其中,x,y,w,和h是预测的候选矩形框的坐标及大小(宽、高),而下标a,上标*分别对应锚点和真值的矩形框坐标和大小;整个染色体候选矩形框的预测过程能够看作是将锚点的矩形框向真实包含染色体的矩形框回归的过程;
2)第二阶段中预测候选框ROI中具体包含的是哪一类别的染色体所用到的损失函数是24类别的交叉熵损失函数,其定义的数学表达式如下:
Figure BDA0003897802540000161
其中,exp(x)为exponential的缩写,即为指数函数ex;
x为分类头网络输出的结果向量,Ncls为需要预测的分类总类别数;对于染色体的类型分类,x维度为24维,Ncls=24;j为计数下标,用于累加x向量中每个元素x[j];
t为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果x[j],j=1,2,...,24中,金标准标签t对应的类别的概率;
3)第二阶段中预测外轮廓Mask中所用到的损失函数是逐像素的二分类交叉熵函数;其数学表达式为与1)中介绍的二分类交叉熵函数一致;在计算该损失函数时,针对每个候选矩形框,对输出的24个预测Mask图中只选取对应类别的Mask图进行计算,忽略其他无关类别的Mask,这样能够有效避免不同类别间重叠区域的归属问题。
本发明增加评价系统一种具体实施例:
还包括第五步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数;
针对每个被检测出来的染色体(包括最小包围矩形框的坐标、大小;该染色体的外轮廓),求取矩形框中被分割为染色体的部分与真实染色体标记的重叠情况;对于每个像素而言,这个计算就是判断该矩形框中每个像素的归属情况,要么属于前景(染色体),要么属于背景;若都能正确划分,则染色体就能被正确地分割出来;因此针对矩形框中每个像素点,统计如上所述的4个指标TP,FP,FN和TN,并计算如下的5个指标:
Figure BDA0003897802540000162
Figure BDA0003897802540000171
Figure BDA0003897802540000172
Figure BDA0003897802540000173
Figure BDA0003897802540000174
Figure BDA0003897802540000175
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
应用本发明方法的一种设备实施例:
一种计算机设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的一种染色体图像切割方法。
应用本发明方法的一种计算机介质实施例:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的一种染色体图像切割方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种染色体图像分割方法,其特征在于,
包括以下步骤:
第一步,采集染色体图像;
第二步,对染色体图像中包含染色体感兴趣区域ROI进行定位,确保图片中至少含有所需分割的全部染色体对象ROI;
第三步,对染色体进行基本的图像处理;
a)将非染色体的对象,用基本的形态学操作图像处理算法进行去除,获得尽可能只包括染色体的图像;
b)图像的灰度、对比度采用直方图归一化图像处理手段进行增强,使得染色体内部的条带清晰可辨;
c)训练深度网络前,对图像进行旋转、翻转,进行数据增强操作以扩充样本;
对输入图像进行归一化处理,使得图像输入尽可能标准一致,网络训练更容易收敛;
第四步,建立两阶段的深度学习模型;
第一阶段,完成染色体对象的定位检测以及染色体对象的外轮廓分割任务,将图像中的每个疑似染色体的候选区域提取出来;
第二阶段,对所提取的候选区域进行染色体坐标定位、外轮廓分割,进而实现染色体的准确分割。
2.如权利要求1所述的一种染色体图像分割方法,其特征在于,
所述第二步,包括以下步骤:
该步骤是为了保证输入进深度学习模型的图片中确实是包括了1个细胞完整的46条中期染色体;即图片中至少含有所需分割的全部染色体对象ROI;
图像预处理算法如下:
a)直方图统计,找到最大值,找到下降梯度大于0.99的值,两者相减即可使用阈值去除背景;定义k表示图像的灰度级数,直方图各个灰度级出现的次数为nk,则直方图相邻灰度级间的梯度可定义为:
Figure FDA0003897802530000011
求出Gi>0.99时i的最大值T0
则分割图像的目标阈值:
T=k-1-2×T0
b)对染色体进行边缘处理,外围轮廓区域均值小于染色体均值的2/3即为可删除边缘;
c)直方图匹配,对染色体同时做直方图匹配,使染色体的明暗程度统一到一个固定的区间,同时增强条带信息;
人工对预处理后的中期分裂相图像进行人工标记,标记图像中感兴趣的染色体区域。
3.如权利要求1所述的一种染色体图像分割方法,其特征在于,
所述第四步,具体包括以下步骤:
S1,建立模型结构:主干网络模型框架基于MaskR-CNN网络结构,能够解决实例分割的问题,即同时完成染色体对象的定位检测以及染色体对象的外轮廓分割任务;
S2,通过两阶段策略,网络模型主要由两个阶段组成:第一个阶段是候选区域提名模块,目的是将图像中的每个疑似染色体的候选区域比较“粗”地提取出来;
第二个阶段是对候选区域分别进行定位、分割、以及分类任务;该阶段采用了三个独立且并行的子网络,目的是同时对阶段一所提取的候选区域进行染色体坐标定位、外轮廓分割、以及染色体类别预测;
本模型的第一阶段的预测深度为:hs层,本模型的第二阶段的预测深度为:hs2层;
S3,模型第一阶段候选区域提名网络采用的是基于ResNet的骨架结构,利用ResNet优秀的特征抽取能力,为预测候选区域的坐标和类别提供支撑,其包括以下内容:
通过使用残差学习ResidualLearning的方式,构建深层次的网络;在最后卷积得到的特征图上,采用两路卷积分别输出候选区域的坐标位置信息与二分类类别信息;其中,坐标位置信息是采用基于“锚点”Anchor的预测方法,即在染色体图像上选定若干个锚点,预测的位置坐标指的是相对于这些锚点的位置偏移量;若需要得到每个候选区域矩形框在整幅图像内的全局坐标,则能够根据预先确定的锚点的全局坐标加上预测的偏移量即可;
S4,模型第二阶段检测、分类、分割并行模块采用的是3个独立的子网络头来分别处理来自第一阶段的各个候选区域,并针对每个候选区域给出其中包含的染色体的精确坐标信息、类别信息、以及外轮廓分割信息;
S5,训练该模型的损失函数按照第一阶段和第二阶段的任务分别能够总结为分类损失函数、位置回归损失函数、以及分割损失函数。
4.如权利要求3所述的一种染色体图像分割方法,其特征在于,
深度学习模型的训练,使用随机梯度下降SGD优化器进行模型训练,学习率设置为0.02,每经过10000次迭代就减少为十分之一,SGD的权重衰减系数设置为0.0001,动量Momentum设置为0.9;总迭代次数为100000次,批量训练的样本大小Batchsize设置为4。
5.如权利要求3所述的一种染色体图像分割方法,其特征在于,
所述S3,第一阶段模型的输入为:经过处理的染色体图像;
该第一阶段模型的输出有3个:
1)经过ResNet多层卷积操作得到的特征图;
2)基于特征图上每个像素点卷积得到的染色体候选区域的坐标位置;
3)基于特征图上每个像素点卷积得到的候选区域的二分类类别信息,判断候选矩形框内部是否为染色体,即给出该候选区域包含染色体的概率p;
本模型的深度为:hs层;
所述S4,该阶段处理S3的输出时,经过如下几个部分:
1)基于S3的输出,需要先按照候选区域矩形框进行非极大值抑制Non-MaximumSuppresion,去除预测的矩形框重复、重叠情况;去除重叠情况时所使用的阈值IoU设置为th_IoU,即若有两个矩形框之间重叠区域占2个总矩形框面积的比例IoU高于th_IoU时,则认为这两个矩形框对应于同一个预测区域,将只保留其中第一个候选矩形框,去除剩下的一个矩形框;并将对S3输出的所有候选区域进行遍历,去除其中重叠的矩形框;
2)针对剩下来的非重叠的候选矩形框,按照其对应的预测包含染色体的概率p由高到低进行排序,挑选前m个置信度较高的候选区域作为实际有效的候选区域;这里设置的有效候选区域数量为m;
3)根据有效的候选区域的坐标信息,在S3步骤输出的特征图上对应位置抽取固定大小的局部特征图,即为专门对应于该候选区域的局部特征,并对每个局部特征做尺度归一化处理。
6.如权利要求4所述的一种染色体图像分割方法,其特征在于,
还包括:4)构建3个独立的子网络头模型:
a.检测、分类、分割子网络共用相同的特征;为了获取公用特征,在获得步骤3的输出特征图后,将其输入至一个ResNet-50模型,并将该ResNet网络的第九层,名为“res5”特征取出作为共用的特征向量;
b.对于检测和分类子网络,对特征图“res5”接着做全局平均池化池化,得到2048维度的向量,然后经过1个全连接FC层,全连接层神经元参数数量为m,再分别经过1个全连接层得到分类任务的输出和位置检测任务的输出;其中,分类任务的输出经过SoftMax层得到的是染色体24+1个类别的概率;位置检测任务的输出是用于回归的相对于锚点的矩形框坐标及大小信息;其中全连接层的神经元数m;
c.对于外轮廓分割子网络,对特征图“res5”首先用转置卷积操作,将kxk大小的特征图卷积成2kx2k大小,特征通道数为C2;再利用一个普通卷积操作,得到特征通道数为24的卷积结果,针对每个特征通道应用Sigmoid激活函数即可得到24个类别的外轮廓分割结果。
7.如权利要求5所述的一种染色体图像分割方法,其特征在于,
对每个局部特征做尺度归一化处理:
采用RoIAlign即感兴趣区域对齐操作将不同大小的特征图通过不量化Quantization直接池化Pooling成固定尺寸kxk大小的特征图;
其具体的做法是,
首先,将预测的候选区域矩形框在映射到特征图大小时,不采用取整操作,而是保留小数并且采用双线性插值方法求出特征图上实数坐标的特征值;
得到该局部特征图后,需要进一步池化成kxk大小的特征图;
这一步需要划分k*k个子区域,每个子区域对应的大小为;
对每个子区域进行池化操作即可抽取出1个对应的特征值;最终获得的k*k个特征值即为RoIAlign的结果。
8.如权利要求3所述的一种染色体图像分割方法,其特征在于,
所述S5,1)其中,第一阶段候选区域提名网络RPN以及第二阶段的检测、分类子网络头都是采用分类损失函数与位置回归损失函数所组成的联合损失函数;其定义的表达式如下:
Figure FDA0003897802530000041
其中,i是某个锚点的编号,pi是该锚点对应的候选矩形区域的预测概率,
Figure FDA0003897802530000042
是第i个锚点的真值,
Figure FDA0003897802530000043
则该锚点确实对应一个染色体,
Figure FDA0003897802530000044
则该锚点对应背景;ti是一个代表了4个参数化的候选矩形框的位置和大小,
Figure FDA0003897802530000045
代表的是该锚点确实对应染色体时矩形框的真实位置和大小;该损失函数中Ncls和Nreg分别对应参与分类损失和回归损失的锚点的数目,分别用于归一化分类损失函数和回归损失函数;λ是平衡这两个损失函数的权重;用于分类的Lcls损失函数是基于二分类的交叉熵的函数,其定义的表达式如下:
Figure FDA0003897802530000046
用于回归矩形框坐标和大小的Lreg损失函数是基于Smooth-L1的函数,该函数仅仅在当前
Figure FDA0003897802530000047
时有效,即只针对包含染色体对象的锚点进行坐标和大小的回归;其损失函数定义的表达式如下:
Figure FDA0003897802530000051
其对应的Smooth-L1函数的数学表达式如下:
Figure FDA0003897802530000052
对于参数化编码的候选矩形框的位置,其数学表达式如下:
Figure FDA0003897802530000053
Figure FDA0003897802530000054
Figure FDA0003897802530000055
Figure FDA0003897802530000056
其中,ti是代表了4个参数化的候选矩形框的位置和大小,x,y,w,和h是预测的候选矩形框的坐标及大小,而下标a,上标*分别对应锚点和真值的矩形框坐标和大小;整个染色体候选矩形框的预测过程能够看作是将锚点的矩形框向真实包含染色体的矩形框回归的过程;
2)第二阶段中预测候选框ROI中具体包含的是哪一类别的染色体所用到的损失函数是24类别的交叉熵损失函数,其定义的数学表达式如下:
Figure FDA0003897802530000057
其中,exp(x)为exponential的缩写,即为指数函数ex;
x为分类头网络输出的结果向量,Ncls为需要预测的分类总类别数;对于染色体的类型分类,x维度为24维,Ncls=24;j为计数下标,用于累加x向量中每个元素x[j];
t为真实的金标准标签,对于类别分类,其值在0-23之间,代表1号染色体至Y染色体;整个函数是对概率值取了负对数,便于求解其最小值;对数中的分式解释意义,以类别预测为例:预测的所有类别结果x[j],j=1,2,...,24中,金标准标签t对应的类别的概率;
3)第二阶段中预测外轮廓Mask中所用到的损失函数是逐像素的二分类交叉熵函数;其数学表达式为与1)中介绍的二分类交叉熵函数一致;在计算该损失函数时,针对每个候选矩形框,对输出的24个预测Mask图中只选取对应类别的Mask图进行计算,忽略其他无关类别的Mask。
9.如权利要求1-8任一所述的一种染色体图像分割方法,其特征在于,
还包括第五步,对染色体识别结果建立评价系统,
评价指标选取为:准确率accuracy,敏感度sensitivity与特异度specificity,精确度precision与召回率recall,以及F1指数;假设分类目标只有两类,计为正例positive和负例negtive分别是:
1)TP:被正确地划分为正例的个数,即实际为正例且被深度学习模型划分为正例的实例数;
2)FP:被错误地划分为正例的个数,即实际为负例但被深度学习模型划分为正例的实例数;
3)FN:被错误地划分为负例的个数,即实际为正例但被深度学习模型划分为负例的实例数
4)TN:被正确地划分为负例的个数,即实际为负例且被深度学习模型划分为负例的实例数;
针对每个被检测出来的染色体包括最小包围矩形框的坐标、大小;该染色体的外轮廓,求取矩形框中被分割为染色体的部分与真实染色体标记的重叠情况;对于每个像素而言,这个计算就是判断该矩形框中每个像素的归属情况,要么属于前景染色体,要么属于背景;若都能正确划分,则染色体就能被正确地分割出来;
针对矩形框中每个像素点,统计4个指标TP,FP,FN和TN,并计算如下的5个指标:
Figure FDA0003897802530000061
Figure FDA0003897802530000062
Figure FDA0003897802530000063
Figure FDA0003897802530000064
Figure FDA0003897802530000065
Figure FDA0003897802530000066
这5个评价指标的范围是0-1之间;分数越高,代表分类效果越好。
10.一种染色体图像分割方法,其特征在于,
包括以下内容:
采集染色体图像;
对染色体图像中包含染色体感兴趣区域ROI进行定位;
对染色体进行基本的图像处理;
对输入图像进行归一化处理,使得图像输入尽可能标准一致,网络训练更容易收敛;
建立两阶段的深度学习模型;
第一阶段,完成染色体对象的定位检测以及染色体对象的外轮廓分割任务,将图像中的每个疑似染色体的候选区域提取出来;
第二阶段,对所提取的候选区域进行染色体坐标定位、外轮廓分割,进而实现染色体的准确分割。
CN202211278870.6A 2019-08-22 2019-08-22 一种染色体图像分割方法 Active CN115601374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211278870.6A CN115601374B (zh) 2019-08-22 2019-08-22 一种染色体图像分割方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211278870.6A CN115601374B (zh) 2019-08-22 2019-08-22 一种染色体图像分割方法
CN201910780943.3A CN110533684B (zh) 2019-08-22 2019-08-22 一种染色体核型图像切割方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201910780943.3A Division CN110533684B (zh) 2019-08-22 2019-08-22 一种染色体核型图像切割方法

Publications (2)

Publication Number Publication Date
CN115601374A true CN115601374A (zh) 2023-01-13
CN115601374B CN115601374B (zh) 2023-12-08

Family

ID=68662594

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201910780943.3A Active CN110533684B (zh) 2019-08-22 2019-08-22 一种染色体核型图像切割方法
CN202211278870.6A Active CN115601374B (zh) 2019-08-22 2019-08-22 一种染色体图像分割方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201910780943.3A Active CN110533684B (zh) 2019-08-22 2019-08-22 一种染色体核型图像切割方法

Country Status (1)

Country Link
CN (2) CN110533684B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129123A (zh) * 2023-02-27 2023-05-16 中国矿业大学 基于不确定度校准和区域分解的端到端染色体分割方法
CN117078668A (zh) * 2023-10-13 2023-11-17 笑纳科技(苏州)有限公司 一种基于大尺寸图像的染色体分割方法
CN117237382A (zh) * 2023-11-08 2023-12-15 湖南自兴智慧医疗科技有限公司 基于交互式引导的染色体图像复杂区域分割方法和装置
CN117274294A (zh) * 2023-09-18 2023-12-22 笑纳科技(苏州)有限公司 一种同源染色体分割方法
CN117274294B (zh) * 2023-09-18 2024-06-04 笑纳科技(苏州)有限公司 一种同源染色体分割方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111179247A (zh) * 2019-12-27 2020-05-19 上海商汤智能科技有限公司 三维目标检测方法及其模型的训练方法及相关装置、设备
CN110807786B (zh) * 2020-01-07 2020-05-12 湖南自兴智慧医疗科技有限公司 从特征常变图像中提取显著特征并归一化的图像处理方法
CN113096134A (zh) * 2020-01-09 2021-07-09 舜宇光学(浙江)研究院有限公司 基于单阶段网络的实时实例分割方法及其系统和电子设备
CN111612745A (zh) * 2020-04-30 2020-09-01 西交利物浦大学 基于BagPix2Pix自学习模型的弯曲染色体图像拉直方法、系统、存储介质及装置
CN111767875B (zh) * 2020-07-06 2024-05-10 中兴飞流信息科技有限公司 一种基于实例分割的隧道烟雾检测方法
CN112037173B (zh) * 2020-08-04 2024-04-05 湖南自兴智慧医疗科技有限公司 染色体检测方法、装置及电子设备
CN112037180B (zh) * 2020-08-12 2023-08-08 湖南自兴智慧医疗科技有限公司 染色体分割方法及装置
CN111986183B (zh) * 2020-08-25 2023-07-04 中国科学院长春光学精密机械与物理研究所 一种染色体散型图像自动分割识别系统及装置
CN112215800B (zh) * 2020-09-14 2023-01-06 北京航空航天大学 基于机器学习的重叠染色体识别和分割方法
CN112200809B (zh) * 2020-09-22 2022-08-12 浙江大学山东工业技术研究院 基于骨架分割与关键点检测的粘连染色体分离方法及装置
CN112183450B (zh) * 2020-10-15 2024-05-28 成都思晗科技股份有限公司 一种多目标跟踪方法
CN112288706B (zh) * 2020-10-27 2022-06-24 武汉大学 一种自动化的染色体核型分析以及异常检测方法
CN112365482B (zh) * 2020-11-16 2022-05-03 上海北昂医药科技股份有限公司 一种基于染色体三等分特征点定位的交叉染色体图像实例分割方法
CN112487942A (zh) * 2020-11-26 2021-03-12 华南师范大学 染色体实例分割方法、系统和存储介质
CN112487930A (zh) * 2020-11-26 2021-03-12 华南师范大学 自动染色体核型分析方法、系统和存储介质
CN113096143B (zh) * 2021-04-30 2022-03-15 天津深析智能科技发展有限公司 一种染色体核型分析中染色体分割方法
CN113658199B (zh) * 2021-09-02 2023-11-03 中国矿业大学 基于回归修正的染色体实例分割网络
CN113781505B (zh) * 2021-11-08 2022-11-18 深圳市瑞图生物技术有限公司 染色体分割方法、染色体分析仪及存储介质
CN114170218B (zh) * 2021-12-16 2022-12-06 易构智能科技(广州)有限公司 一种染色体图像实例标签生成方法及系统
CN115079393B (zh) * 2022-08-19 2022-12-27 杭州德适生物科技有限公司 一种基于10倍物镜的染色体核型分析显微拍摄装置及方法
CN115330603B (zh) * 2022-10-17 2023-01-20 湖南自兴智慧医疗科技有限公司 基于深度学习卷积神经网络的人类染色体图像摆正方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020979A (zh) * 2013-01-09 2013-04-03 西安电子科技大学 基于稀疏遗传聚类的图像分割方法
CA2997579A1 (en) * 2017-07-19 2019-01-19 Tata Consultancy Services Limited Crowdsourcing and deep learning based segmenting and karyotyping of chromosomes
CN109300111A (zh) * 2018-08-27 2019-02-01 杭州德适生物科技有限公司 一种基于深度学习的染色体识别方法
CN109344874A (zh) * 2018-08-31 2019-02-15 华侨大学 一种基于深度学习的染色体自动分析方法及系统
CN109492706A (zh) * 2018-11-27 2019-03-19 微医云(杭州)控股有限公司 一种基于循环神经网络的染色体分类预测装置
CN109523520A (zh) * 2018-10-25 2019-03-26 北京大学第三医院 一种基于深度学习的染色体自动计数方法
CN109934828A (zh) * 2019-02-28 2019-06-25 西交利物浦大学 基于Compact SegUnet自学习模型的双染色体图像切割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101403743B (zh) * 2008-10-31 2012-07-18 广东威创视讯科技股份有限公司 一种x型交叠、粘连染色体自动分割方法
CN101520890B (zh) * 2008-12-31 2011-04-20 广东威创视讯科技股份有限公司 一种基于灰度特征图像的粘连染色体自动分割方法
US8605981B2 (en) * 2010-11-05 2013-12-10 Cytognomix Inc. Centromere detector and method for determining radiation exposure from chromosome abnormalities
WO2013192355A1 (en) * 2012-06-19 2013-12-27 Health Discovery Corporation Computer-assisted karyotyping
CN109146838A (zh) * 2018-06-20 2019-01-04 湖南自兴智慧医疗科技有限公司 一种基于几何特征与区域融合的g显带粘连染色体分割方法
CN109754394B (zh) * 2018-12-28 2021-02-23 上海联影智能医疗科技有限公司 三维医学图像处理装置及方法
CN110097568B (zh) * 2019-05-13 2023-06-09 中国石油大学(华东) 一种基于时空双分支网络的视频对象检测与分割方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020979A (zh) * 2013-01-09 2013-04-03 西安电子科技大学 基于稀疏遗传聚类的图像分割方法
CA2997579A1 (en) * 2017-07-19 2019-01-19 Tata Consultancy Services Limited Crowdsourcing and deep learning based segmenting and karyotyping of chromosomes
CN109285174A (zh) * 2017-07-19 2019-01-29 塔塔咨询服务公司 基于众包和深度学习的染色体分割和核型分析
CN109300111A (zh) * 2018-08-27 2019-02-01 杭州德适生物科技有限公司 一种基于深度学习的染色体识别方法
CN109344874A (zh) * 2018-08-31 2019-02-15 华侨大学 一种基于深度学习的染色体自动分析方法及系统
CN109523520A (zh) * 2018-10-25 2019-03-26 北京大学第三医院 一种基于深度学习的染色体自动计数方法
CN109492706A (zh) * 2018-11-27 2019-03-19 微医云(杭州)控股有限公司 一种基于循环神经网络的染色体分类预测装置
CN109934828A (zh) * 2019-02-28 2019-06-25 西交利物浦大学 基于Compact SegUnet自学习模型的双染色体图像切割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ENEA POLETTI ET AL.: ""review of thresholding strategies applied to human chromosome segmentation"", 《COMPUTER METHOED AND PROGRAMS IN BIOMEDICINE》 *
闫文忠: ""染色体自动分析系统的研究现状及未来目标"", 《中国组织工程研究与临床康复》, vol. 13, no. 13 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129123A (zh) * 2023-02-27 2023-05-16 中国矿业大学 基于不确定度校准和区域分解的端到端染色体分割方法
CN116129123B (zh) * 2023-02-27 2024-01-05 中国矿业大学 基于不确定度校准和区域分解的端到端染色体分割方法
CN117274294A (zh) * 2023-09-18 2023-12-22 笑纳科技(苏州)有限公司 一种同源染色体分割方法
CN117274294B (zh) * 2023-09-18 2024-06-04 笑纳科技(苏州)有限公司 一种同源染色体分割方法
CN117078668A (zh) * 2023-10-13 2023-11-17 笑纳科技(苏州)有限公司 一种基于大尺寸图像的染色体分割方法
CN117078668B (zh) * 2023-10-13 2024-02-20 笑纳科技(苏州)有限公司 一种基于大尺寸图像的染色体分割方法
CN117237382A (zh) * 2023-11-08 2023-12-15 湖南自兴智慧医疗科技有限公司 基于交互式引导的染色体图像复杂区域分割方法和装置
CN117237382B (zh) * 2023-11-08 2024-02-23 湖南自兴智慧医疗科技有限公司 基于交互式引导的染色体图像复杂区域分割方法和装置

Also Published As

Publication number Publication date
CN110533684A (zh) 2019-12-03
CN115601374B (zh) 2023-12-08
CN110533684B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110533684B (zh) 一种染色体核型图像切割方法
CN110533672B (zh) 一种基于条带识别的染色体排序方法
CN109800824B (zh) 一种基于计算机视觉与机器学习的管道缺陷识别方法
CN110796046B (zh) 基于卷积神经网络的智能钢渣检测方法和系统
US10565479B1 (en) Identifying and excluding blurred areas of images of stained tissue to improve cancer scoring
CN108830188B (zh) 基于深度学习的车辆检测方法
CN107273832B (zh) 基于积分通道特征与卷积神经网络的车牌识别方法及系统
CN104794502A (zh) 一种基于图像处理和模式识别技术的稻瘟病孢子显微图像识别方法
CN114663346A (zh) 一种基于改进YOLOv5网络的带钢表面缺陷检测方法
CN111027475A (zh) 一种基于视觉的实时交通信号灯识别方法
EP3140778B1 (en) Method and apparatus for image scoring and analysis
CN114118144A (zh) 抗干扰的航空遥感图像阴影精准检测方法
CN107944403A (zh) 一种图像中的行人属性检测方法及装置
Zheng et al. A novel algorithm based on visual saliency attention for localization and segmentation in rapidly-stained leukocyte images
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN116844143B (zh) 基于边缘增强的胚胎发育阶段预测与质量评估系统
CN113705579A (zh) 一种视觉显著性驱动的图像自动标注方法
CN113537037A (zh) 路面病害识别方法、系统、电子设备及存储介质
Komati et al. Kss: Using region and edge maps to detect image boundaries
CN110188693B (zh) 改进的复杂环境车辆特征提取和停车判别方法
CN110889418A (zh) 一种气体轮廓识别方法
CN111815613B (zh) 一种基于包膜线形态特征分析的肝硬化疾病分期识别方法
CN114332144A (zh) 样本粒度检测方法、系统、电子设备及存储介质
CN113936133A (zh) 一种面向目标检测的自适应数据增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant