CN112508889B - 一种染色体核型分析系统 - Google Patents

一种染色体核型分析系统 Download PDF

Info

Publication number
CN112508889B
CN112508889B CN202011352831.7A CN202011352831A CN112508889B CN 112508889 B CN112508889 B CN 112508889B CN 202011352831 A CN202011352831 A CN 202011352831A CN 112508889 B CN112508889 B CN 112508889B
Authority
CN
China
Prior art keywords
chromosome
algorithm
chromosomes
pixels
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011352831.7A
Other languages
English (en)
Other versions
CN112508889A (zh
Inventor
梁静
岳彩通
于坤杰
瞿博阳
杨昊天
胡毅
李鹏帅
李功平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202011352831.7A priority Critical patent/CN112508889B/zh
Publication of CN112508889A publication Critical patent/CN112508889A/zh
Application granted granted Critical
Publication of CN112508889B publication Critical patent/CN112508889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30072Microarray; Biochip, DNA array; Well plate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种染色体核型分析系统,包括(1)设计过滤算法、分割算法对人类中期细胞图像进行过滤除杂、提取染色单体;(2)设计识别算法、纠正算法对提取到的染色体进行识别、配对,从而生成核型图谱。本发明将核型分析方法与图像处理、机器学习等技术相结合,开发一套可靠的染色体核型自动分析系统,实现染色体核型分析的自动化、智能化,整体提高染色体核型分类的效率和准确率。

Description

一种染色体核型分析系统
技术领域
本发明属于人工智能技术领域,具体涉及一种染色体核型分析系统,应用于在探讨人类遗传病机制、物种亲缘关系与进化和肿瘤病理学研究等。
背景技术
人类体细胞在有丝分裂中期会生成染色体,正常情况下有46条染色体(22对常染色体和一对性染色体)。染色体作为遗传物质的载体,其数目或结构异常会导致遗传病。染色体核型分析在探讨人类遗传病机制,物种亲缘关系与进化,肿瘤病理学研究等方面有重要意义。如图1所示,染色体核型分析是指对人类中期细胞图像中的染色体进行分组、排列和配对,并生成核型图。
早期的染色体核型分析是纯手工操作的,操作人员需要手工从中期细胞图像中分离染色体,然后根据形态和带型进行配对、排序,从而生成核型图谱。这是一项极其繁琐和复杂的工作,同时由于这项工作对处理人员的专业能力要求较高,相关技能培养周期比较长,导致该方面的研究和处理人员非常短缺。除此之外,仅凭人眼对染色体进行配对排序存在较大的误差,效率较低。
近年来,随着自动化和智能化在各个不同领域的大力推广和高效应用,医学界对于染色体核型分析的自动化处理也变得更加渴望。当前,行业内已经存在一些商用的染色体核型分析系统,如德国莱卡公司研发的Cytovision系统、上海卡尔蔡司管理有限公司研制的Ikaros系统等。这些产品将核型分析从纯手工操作过渡到了半自动处理。之所以说半自动处理,是因为这些系统在使用时仍需要大量的人工辅助。目前的分类方法耗时长、效率低、准确率不足无法满足临床工作的需求。
发明内容
本发明的目的是设计出一套染色体核型分析系统,该系统可以快速地从人类有丝分裂中期细胞图像中提取染色单体并进行配对,生成核型图谱。
为解决上述技术问题,本发明采用的技术方案为:
一种染色体核型分析系统,包括
(1)设计过滤算法、分割算法对人类中期细胞图像进行过滤除杂、提取染色单体;
(2)设计识别算法、纠正算法对提取到的染色体进行识别、配对,从而生成核型图谱。
优选地:所述的过滤算法流程如下所示:
(1)对细胞中期图像(I)进行二值化,生成过滤图(B);
(2)检测图像(B)所有物体的轮廓,依次记作C1-Cn
(3)初始化i=1,空集合Contours;
(4)计算轮廓Ci的面积Ai
(5)根据以下流程去除杂质(α,β,η为阈值参数):
Figure GDA0003762534580000021
(6)判断i是否大于等于n,若是:执行下一步,若否:i=i+1,并转到步骤4;
(7)对二值图像(B)中的每个像素点进行处理:
若像素点(x,y)位于集合Contours中的某个轮廓范围内,则将该像素点赋值为255,否则赋值为0。
(8)对细胞中期图像(I)按下式进行处理,生成过滤图(G):
Figure GDA0003762534580000031
在染色体核型分析系统中加入人工辅助除杂的功能,当过滤算法不能完全除掉杂质时,由人工辅助除杂。
优选地:所述的分割算法流程如下所示:
(1)初始化空集合Contours;
(2)检测过滤图所有物体的轮廓并添加到集合Contours;
(3)初始化i=1;
(4)计算集合Contours中第i个轮廓的最小外接矩形,得到其四个顶点在过滤图中的坐标;
(5)根据步骤四所得到的坐标从过滤图中分割并旋转,得到竖直放置的染色体i;
(6)判断i是否大于等于集合Contours中的元素个数n,若是则结束,否则:i=i+1,并返回步骤4。
优选地:所述的分割算法中针对十字交叉重叠的染色体,采用分割算法来自动分离出染色体;针对其他类型的重叠染色体,采用人机交互方式解决,即由人工通过鼠标用不同的颜色来描绘出各个染色体,然后再由算法根据颜色提取染色体。
优选地:所述的对染色体特征的提取包括:中轴的提取,面积,带纹特征;
所述的中轴的提取:主要分为预处理、逐层删除边界和后处理,对背景像素、图案像素、轮廓像素和骨架像素赋予特定的值和图形表示方法,预处理阶段的主要任务是图像轮廓像素的确定以及消除边缘噪声的影响,用Sobel边缘检测算子来检测图像的轮廓;根据约束条件删除像素阶段是针对预处理阶段标记的轮廓点像素根据判断条件删除以及将轮廓点像素标记为骨架像素;后处理阶段处理的对象为多次迭代预处理和删除阶段得到的骨架线,所解决的问题是骨架线部分地方为两个像素宽度,通过相应的判断条件删除其中一个像素来得到单像素宽的骨架线,其中算法的预处理和后处理采用的是串行方法;
染色体长度的提取:首先确定染色体中轴线的一个端点像素记为Q0,记此时染色体的长度L为0,从点Q0开始沿中轴线遍历,找到第二个中轴线上的像素点为Q1,若Q1位于Q0的四邻域,则L=L+1;若Q1位于Q0的对角方向,则
Figure GDA0003762534580000041
每遍历一个像素更新L的值,不断循环直到遍历至中轴线的另一个端点处时,此时的L即为染色体的长度;
染色体面积的提取:染色体的面积可以通过二值化后的染色体图像计算得出,对二值化后背景为黑色像素0染色体为白色像素1的二值图像,染色体的面积就是白色像素的个数;
染色体带纹特征的提取:带纹特征的提取是针对染色体灰度图像,当提取到中轴线之后,以中轴线上的点为自变量,求垂直于每一个中轴线上的点的线与染色体共同部分的像素的灰度信息;采用WDD变换计算染色体带纹特征;
特征的归一化:
长度和面积的归一化:对于一张图片中的所有染色体,求出其长度的最大值为m和最小值n,则对于长度值为x的染色体归一化后的长度为(m-x)/(m-n),经过归一化后的染色体长度值在[0,1]范围内,对于染色体的面积特征采取同样的方法来进行归一化;
带纹特征归一化:由于WDD函数是统一的,因此只需要在求带纹的WDD特征之前对表示带纹的投影曲线作归整化,由于带纹表达的是染色体的纹理信息,改变曲线的数值不影响曲线的趋势,因此对于每一条染色体,求出其投影曲线的最大和最小值,根据长度归一化的方法将投影值归一化;
特征的进一步处理:对每个人的染色体组即46条染色体,将特征值相加后求得平均值,然后对每条染色体的特征都减去平均值,该处理的目的是缩减不同人之间染色体组的异常差异,像显微镜提取时的明暗度差异等;
最后将归一化后的长度、面积和投影特征组合在一起即为染色体的852维特征数据来进行染色体的分类。
优选地:所述的识别与配对具体为采用集成学习+基于先验知识的纠正算法进行识别与配对,首先通过集成学习器对测试样本进行预测,根据预测的概率,应用纠正算法,最后得到预测标签;
集成学习采用的组件学习器有:kNN,SVM和ELM,针对染色体分类任务所做的选择设计:
对于kNN的适应性设计:将其分类的依据从欧式距离更改为平均距离,即是从待测样本点与最近的训练样本的欧式距离更改为待测样本点与最近同一种类的训练样本的平均距离。另外将k设置为3;
对于SVM的适应性设计:c设置为1,g设置为0.07,并更改为概率输出;
对于ELM的适应性设计:神经单元设置为1500,更改为概率输出;
所述的预测的概率采用集成算法,具体如下:
Step 1:从k个训练样本中可重复地随机抽取k个样本,依此抽取5次,形成5个新的训练集tr1,tr2,tr3,tr4,tr5
Step 2:利用基于平均距离的kNN,SVM,ELM,以tr1为训练样本,对待测样本进行训练测试。然后将三者的预测标签进行投票处理,结果记为L1;将三者的概率输出平均处理,结果记为P1
Step 3:依照不同的训练集,重复步骤2得到L1,L2,L3,L4,L5,将这5种预测标签再进行投票处理,结果记为Label;将P1,P2,P3,P4,P5再进行平均处理,结果记为P;
Step 4:利用Label和P,使用纠正算法,得到最终预测标签,并测试其精度。
优选地:所述的纠正算法具体为纠正算法:已知正常人的染色体组是22对常染色体+1对性染色体(XX或是XY),在满足该分布的情况下,依据分类概率,求得最可能的分布,就是该作品提出的纠正算法;
定义变量:
Pij:46条染色体中第i个染色体,第j种标签的概率(1≤i≤46,1≤i≤24)
Xij:样本对标签的指示变量,取值为0或1
求最大概率即是求解:
Figure GDA0003762534580000061
若被测对象为女性,则满足的约束条件如下:
Xij∈{0,1}
Figure GDA0003762534580000062
Figure GDA0003762534580000063
j=24∑Xij=0若被测对象为男性,则满足的约束条件如下:
Xij∈{0,1}
Figure GDA0003762534580000071
Figure GDA0003762534580000072
j=23,24∑Xij≤1
纠正算法的步骤如下:
输入:46条染色体的24种分类概率
输出:预测标签
Step 1:计算满足男性约束条件下的最大概率P1
Step 2:计算满足女性约束条件下的最大概率P2
Figure GDA0003762534580000073
本发明的有益效果:
将核型分析方法与图像处理、机器学习等技术相结合,开发一套可靠的染色体核型自动分析系统,实现染色体核型分析的自动化、智能化,整体提高染色体核型分类的效率和准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为核型分析示意图;
图2为染色核型分析技术路线图;
图3为染色体核型图;
图4为过滤算法效果图;
图5为分割算法效果图;
图6为粘连染色体图;
图7为重叠染色体图;
图8为粘连染色体处理图;
图9为重叠染色体处理图;
图10为中轴提取图;
图11为集成算法结构图;
图12为精度对比柱形图;
图13为十折精度对比图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图2所示,一种染色体核型分析系统,包括
1)设计过滤算法、分割算法对人类中期细胞图像进行过滤除杂、提取染色单体;
(2)设计识别算法、纠正算法对提取到的染色体进行识别、配对,从而生成核型图谱。
本实施例以图3的染色体核型图为例,具体说明一下本发明的染色体核型分析系统。
具体实施主要分为过滤除杂、分割提取和识别配对三部分。以下分别对这三部分的相关技术细节展开叙述。
过滤除杂
该部分的工作主要是为了除去人类中期细胞图像中的杂质,为实现这个目的,我们设计了相应的过滤算法,算法流程如下所示:
图像I是说明书附图,图2左上角‘中期细胞图像’
过滤图B是说明书附图,图2右上角‘过滤图’
1.对细胞中期图像I进行二值化,生成过滤图B;
2.检测图像B所有物体的轮廓,依次记作C1-Cn
3.初始化i=1,空集合Contours;
4.计算轮廓Ci的面积Ai
5.根据以下流程去除杂质(α,β,η为阈值参数):
Figure GDA0003762534580000091
6.判断i是否大于等于n,若是:执行下一步,若否:i=i+1,并转到步骤4;
7.对二值图像B中的每个像素点进行处理:
若像素点(x,y)位于集合Contours中的某个轮廓范围内,则将该像素点赋值为255,否则赋值为0。
8.对细胞中期图像I按下式进行处理,生成过滤图G:
Figure GDA0003762534580000101
需要说明的是,为了保证不将中期细胞图像中的染色体当成杂质过滤掉,过滤算法中的阈值参数α,β,η设置的比较保守,这样就会导致过滤算法不能保证将中期细胞图像中的杂质滤除干净。为解决这个问题,我们在染色体核型智能分析软件中加入了人工辅助除杂的功能,当过滤算法不能完全除掉杂质时,由人工辅助除杂。过滤效果如图4所示。
分割提取
该部分的工作主要是为了从过滤图中提取各个染色单体,为实现这个目的,我们设计了相应的分割算法,算法流程如下所示:
1.初始化空集合Contours;
2.检测过滤图G所有物体的轮廓并添加到集合Contours;
3.初始化i=1;
4.计算集合Contours中第i个轮廓的最小外接矩形,得到其四个顶点在过滤图中的坐标(x1,y1),(x2,y2),(x3,y3),(x4,y4);
5.根据步骤四所得到的坐标从过滤图G中分割并旋转,得到竖直放置的染色体i;
6.判断i是否大于等于集合Contours中的元素个数n,若是则结束,否则:i=i+1,并返回步骤4。
分割算法效果如图5所示。
由于染色体是非刚性物体,所以中期细胞图像中的染色体会存在粘连、交叉的情况。因此,经过分割算法提取到的染色体不全是单体,会存在粘连染色体、重叠染色体,如图6、7所示。
针对粘连染色体,我们采用人机交互的方式来解决,即由人工通过鼠标将粘连区域擦除,效果如图8所示。
针对十字交叉重叠的染色体(最常见),我们设计了相应的算法来自动分离出染色体;针对其他类型的重叠染色体(不常见),我们采用人机交互方式解决,即由人工通过鼠标用不同的颜色来描绘出各个染色体,然后再由算法根据颜色提取染色体。效果如图9所示。
特征的提取与处理
对染色体特征的提取包括:中轴的提取(方便计算面积和长度),面积,带纹特征。
染色体中轴的提取:主要分为预处理、逐层删除边界和后处理,我们对背景像素、图案像素、轮廓像素和骨架像素赋予特定的值和图形表示方法,预处理阶段的主要任务是图像轮廓像素的确定以及消除边缘噪声的影响,我们用Sobel边缘检测算子来检测图像的轮廓;根据约束条件删除像素阶段是针对预处理阶段标记的轮廓点像素根据判断条件删除以及将轮廓点像素标记为骨架像素;后处理阶段处理的对象为多次迭代预处理和删除阶段得到的骨架线,所解决的问题是骨架线部分地方为两个像素宽度,通过相应的判断条件删除其中一个像素来得到单像素宽的骨架线。其中算法的预处理和后处理采用的是串行方法,算法如图10所示:
染色体长度的提取:首先确定染色体中轴线的一个端点像素记为Q0,记此时染色体的长度L为0,从点Q0开始沿中轴线遍历,找到第二个中轴线上的像素点为Q1。若Q1位于Q0的四邻域,则L=L+1;若Q1位于Q0的对角方向,则
Figure GDA0003762534580000111
每遍历一个像素更新L的值,不断循环直到遍历至中轴线的另一个端点处时,此时的L即为染色体的长度。
染色体面积的提取:染色体的面积可以通过二值化后的染色体图像计算得出,对二值化后背景为黑色像素0染色体为白色像素1的二值图像,染色体的面积就是白色像素的个数。
染色体带纹特征的提取:带纹特征的提取是针对染色体灰度图像,当提取到中轴线之后,以中轴线上的点为自变量,求垂直于每一个中轴线上的点的线与染色体共同部分的像素的灰度信息。本作品使用全局描述法,得到的带纹特征能够表征带纹曲线的总体特征。根据相关文献可以确定用WDD变换得到的染色体带纹特征分类时效果更好,因此本文采用WDD变换计算染色体带纹特征。WDD变换指分别用一系列的WDD函数与染色体的带纹曲线作内积,得到的数值称为WDD系数,它将作为染色体的带纹特征值。
特征的归一化:
1.长度和面积的归一化:对于一张图片中的所有染色体,求出其长度的最大值为m和最小值n,则对于长度值为x的染色体归一化后的长度为(m-x)/(m-n),经过归一化后的染色体长度值在[0,1]范围内。对于染色体的面积特征采取同样的方法来进行归一化。
2.带纹特征归一化:由于WDD函数是统一的,因此只需要在求带纹的WDD特征之前对表示带纹的投影曲线作归整化,由于带纹表达的是染色体的纹理信息,改变曲线的数值不影响曲线的趋势,因此对于每一条染色体,求出其投影曲线的最大和最小值,根据长度归一化的方法将投影值归一化。
特征的进一步处理:对每个人的染色体组即46条染色体,将特征值相加后求得平均值,然后对每条染色体的特征都减去平均值。该处理的目的是缩减不同人之间染色体组的异常差异,像显微镜提取时的明暗度差异等。
最后将归一化后的长度、面积和投影特征组合在一起即为染色体的852维特征数据来进行染色体的分类。
识别与配对
本作品采用集成学习+基于先验知识的纠正算法进行识别与配对。首先通过集成学习器对测试样本进行预测,根据预测的概率,应用纠正算法,最后得到预测标签。
集成学习采用的组件学习器有:kNN,SVM和ELM。选择的依据是在对多种学习器进行测试后,以上三种学习器具备较高的分类精度。针对染色体分类任务所做的选择设计:
1.对于kNN的适应性设计:将其分类的依据从欧式距离更改为平均距离,即是从待测样本点与最近的训练样本的欧式距离更改为待测样本点与最近同一种类的训练样本的平均距离。另外将k设置为3;
2.对于SVM的适应性设计:c设置为1,g设置为0.07,并更改为概率输出;
3.对于ELM的适应性设计:神经单元设置为1500,更改为概率输出。
图11展示了集成算法的结构,接下来介绍了具体算法:
Step 1:从k个训练样本中可重复地随机抽取k个样本,依此抽取5次,形成5个新的训练集tr1,tr2,tr3,tr4,tr5
Step 2:利用基于平均距离的kNN,SVM,ELM,以tr1为训练样本,对待测样本进行训练测试。然后将三者的预测标签进行投票处理,结果记为L1;将三者的概率输出平均处理,结果记为P1
Step 3:依照不同的训练集,重复步骤2得到L1,L2,L3,L4,L5,将这5种预测标签再进行投票处理,结果记为Label;将P1,P2,P3,P4,P5再进行平均处理,结果记为P;
Step 4:利用Label和P,使用纠正算法,得到最终预测标签,并测试其精度
集成算法说明:改进的kNN,SVM,ELM在染色体分类的测试中,具有相近并且较高的精度。因为相近的精度,所以没有选择加权投票,而是选择了直接投票。集成算法利用bagging的集成思想,通过对训练样本的扰动,以及三种不同学习器的选择,使得分类标签具有差异性,满足集成所要求的“好而不同”。最后通过纠正算法,进一步提升了分类的精度。
我们通过对550张染色体中期图,做十折交叉验证,其中训练数据:测试数据=9:1,验证集成的精度提升,图12是十次测试的平均精度对比:集成学习器的精度达到93.89%,在对比算法中精度最高,SVM和KNN+的精度相似,ELM的精度最低。
纠正算法:已知正常人的染色体组是22对常染色体+1对性染色体(XX或是XY)。在满足该分布的情况下,依据分类概率,求得最可能的分布,就是该作品提出的纠正算法。
定义变量:
Pij:46条染色体中第i个染色体,第j种标签的概率(1≤i≤46,1≤i≤24)
Xij:样本对标签的指示变量,取值为0或1
求最大概率即是求解:
Figure GDA0003762534580000141
若被测对象为女性,则满足的约束条件如下:
Xij∈{0,1}
Figure GDA0003762534580000151
Figure GDA0003762534580000152
j=24ΣXij=0若被测对象为男性,则满足的约束条件如下:
Xij∈{0,1}
Figure GDA0003762534580000153
Figure GDA0003762534580000154
j=23,24ΣXij≤1
纠正算法的步骤如下:
输入:46条染色体的24种分类概率
输出:预测标签
Step 1:计算满足男性约束条件下的最大概率P1
Step 2:计算满足女性约束条件下的最大概率P2
Figure GDA0003762534580000155
同样的,十折交叉验证的精度如图13。‘集成+纠正’算法的精度在十折中都是最高的,平均精度也高于其他算法,此结果验证了集成和纠正算法在染色体核型分析中的有效性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种染色体核型分析系统,其特征在于,包括
(1)设计过滤算法、分割算法对人类中期细胞图像进行过滤除杂、提取染色单体;
(2)设计识别算法、纠正算法对提取到的染色体进行识别、配对,从而生成核型图谱;
识别与配对具体为采用集成学习+基于先验知识的纠正算法进行识别与配对,首先通过集成学习器对测试样本进行预测,根据预测的概率,应用纠正算法,最后得到预测标签;
集成学习采用的组件学习器有:kNN,SVM和ELM,针对染色体分类任务所做的选择设计:
对于kNN的适应性设计:将其分类的依据从欧式距离更改为平均距离,即是从待测样本点与最近的训练样本的欧式距离更改为待测样本点与最近同一种类的训练样本的平均距离,另外将k设置为3;
对于SVM的适应性设计:c设置为1,g设置为0.07,并更改为概率输出;
对于ELM的适应性设计:神经单元设置为1500,更改为概率输出;
所述的预测的概率采用集成算法,具体如下:
Step1:从k个训练样本中重复地随机抽取k个样本,依此抽取5次,形成5个新的训练集tr1,tr2,tr3,tr4,tr5
Step2:利用基于平均距离的kNN,SVM,ELM,以tr1为训练样本,对待测样本进行训练测试,然后将三者的预测标签进行投票处理,结果记为L1;将三者的概率输出平均处理,结果记为P1
Step3:依照不同的训练集,重复步骤2得到L1,L2,L3,L4,L5,将这5种预测标签再进行投票处理,结果记为Label;将P1,P2,P3,P4,P5再进行平均处理,结果记为P;
Step4:利用Label和P,使用纠正算法,得到最终预测标签,并测试其精度;
所述的纠正算法具体为:已知正常人的染色体组分布是22对常染色体+1对性染色体,XX或是XY,在满足该分布的情况下,依据分类概率,求得最可能的分布;
定义变量:
Pij:46条染色体中第i个染色体,第j种标签的概率,1≤i≤46,1≤j≤24
Xij:样本对标签的指示变量,取值为0或1
求最大概率即是求解:
Figure FDA0003740473010000021
若被测对象为女性,则满足的约束条件如下:
Xij∈{0,1}
Figure FDA0003740473010000022
Figure FDA0003740473010000023
当j取24时∑Xij=0;
若被测对象为男性,则满足的约束条件如下:
Xij∈{0,1}
Figure FDA0003740473010000024
Figure FDA0003740473010000025
当j取23及24时∑Xij≤1;
纠正算法的步骤如下:
输入:46条染色体的24种分类概率;
输出:预测标签
Step1:计算满足男性约束条件下的最大概率P1
Step2:计算满足女性约束条件下的最大概率P2
Step3:如果P1≥P2,取P1对应的标签为输出标签
否则,取P2对应的标签为输出标签。
2.根据权利要求1所述的一种染色体核型分析系统,其特征在于:所述的过滤算法流程如下所示:
(1)对细胞中期图像I进行二值化,生成过滤图B;
(2)检测过滤图B所有物体的轮廓,依次记作C1-Cq
(3)初始化p=1,空集合Contours;
(4)计算轮廓Cp的面积Ap
(5)根据以下流程去除杂质α,β,η为阈值参数:
如果α<Ap<β:将Cp添加到集合Contours中;
如果Ap>β:计算轮廓Cp外接多边形的面积Bp
如果(Ap/Bp)<η:将Cp添加到集合Contours中;
(6)判断p是否大于等于q,若是:执行下一步,若否:p=p+1,并转到步骤(4);
(7)对二值图像B中的每个像素点进行处理:
若像素点(x,y)位于集合Contours中的某个轮廓范围内,则将该像素点赋值为255,否则赋值为0,
(8)对细胞中期图像I按下式进行处理,生成过滤图G:
Figure FDA0003740473010000041
在染色体核型分析系统中加入人工辅助除杂的功能,当过滤算法不能完全除掉杂质时,由人工辅助除杂。
3.根据权利要求1所述的一种染色体核型分析系统,其特征在于:所述的分割算法流程如下所示:
(1)初始化空集合Contours;
(2)检测过滤图所有物体的轮廓并添加到集合Contours;
(3)初始化d=1;
(4)计算集合Contours中第d个轮廓的最小外接矩形,得到其四个顶点在过滤图中的坐标;
(5)根据步骤(4)所得到的坐标从过滤图中分割并旋转,得到竖直放置的染色体V;
(6)判断V是否大于等于集合Contours中的元素个数e,若是则结束,否则:d=d+1,并返回步骤(4)。
4.根据权利要求3所述的一种染色体核型分析系统,其特征在于:采用分割算法来自动分离出染色体;针对其他类型的重叠染色体,采用人机交互方式解决,即由人工通过鼠标用不同的颜色来描绘出各个染色体,然后再由算法根据颜色提取染色体。
5.根据权利要求1所述的一种染色体核型分析系统,其特征在于:对染色体特征的提取包括:中轴的提取,面积,带纹特征;
所述的中轴的提取:主要分为预处理、逐层删除边界和后处理,对背景像素、图案像素、轮廓像素和骨架像素赋予特定的值和图形表示方法,预处理阶段的主要任务是图像轮廓像素的确定以及消除边缘噪声的影响,用Sobel边缘检测算子来检测图像的轮廓;根据约束条件删除像素阶段是针对预处理阶段标记的轮廓点像素根据判断条件删除以及将轮廓点像素标记为骨架像素;后处理阶段处理的对象为多次迭代预处理和删除阶段得到的骨架线,所解决的问题是骨架线部分地方为两个像素宽度,通过相应的判断条件删除其中一个像素来得到单像素宽的骨架线,其中算法的预处理和后处理采用的是串行方法;
染色体长度的提取:首先确定染色体中轴线的一个端点像素记为Q0,记此时染色体的长度L为0,从点Q0开始沿中轴线遍历,找到第二个中轴线上的像素点为Q1,若Q1位于Q0的四邻域,则L=L+1;若Q1位于Q0的对角方向,则
Figure FDA0003740473010000051
每遍历一个像素更新L的值,不断循环直到遍历至中轴线的另一个端点处时,此时的L即为染色体的长度;
染色体面积的提取:染色体的面积通过二值化后的染色体图像计算得出,对二值化后背景为黑色像素0染色体为白色像素1的二值图像,染色体的面积就是白色像素的个数;
染色体带纹特征的提取:带纹特征的提取是针对染色体灰度图像,当提取到中轴线之后,以中轴线上的点为自变量,求垂直于每一个中轴线上的点的线与染色体共同部分的像素的灰度信息;采用WDD变换计算染色体带纹特征;
特征的归一化:
长度和面积的归一化:对于一张图片中的所有染色体,求出其长度的最大值为m和最小值n,则对于长度值为x的染色体归一化后的长度为(m-x)/(m-n),经过归一化后的染色体长度值在[0,1]范围内,对于染色体的面积特征采取同样的方法来进行归一化;
带纹特征归一化:由于WDD函数是统一的,因此只需要在求带纹的WDD特征之前对表示带纹的投影曲线作归整化,由于带纹表达的是染色体的纹理信息,改变曲线的数值不影响曲线的趋势,因此对于每一条染色体,求出其投影曲线的最大和最小值,根据长度归一化的方法将投影值归一化;
特征的进一步处理:对每个人的染色体组即46条染色体,将特征值相加后求得平均值,然后对每条染色体的特征都减去平均值,该处理的目的是缩减不同人之间染色体组的异常差异,像显微镜提取时的明暗度差异;
最后将归一化后的长度、面积和投影特征组合在一起即为染色体的852维特征数据来进行染色体的分类。
CN202011352831.7A 2020-11-26 2020-11-26 一种染色体核型分析系统 Active CN112508889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011352831.7A CN112508889B (zh) 2020-11-26 2020-11-26 一种染色体核型分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011352831.7A CN112508889B (zh) 2020-11-26 2020-11-26 一种染色体核型分析系统

Publications (2)

Publication Number Publication Date
CN112508889A CN112508889A (zh) 2021-03-16
CN112508889B true CN112508889B (zh) 2022-09-13

Family

ID=74966566

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011352831.7A Active CN112508889B (zh) 2020-11-26 2020-11-26 一种染色体核型分析系统

Country Status (1)

Country Link
CN (1) CN112508889B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781505B (zh) * 2021-11-08 2022-11-18 深圳市瑞图生物技术有限公司 染色体分割方法、染色体分析仪及存储介质
CN114170218B (zh) * 2021-12-16 2022-12-06 易构智能科技(广州)有限公司 一种染色体图像实例标签生成方法及系统
CN115049686B (zh) * 2022-08-15 2022-11-29 湖南自兴智慧医疗科技有限公司 一种基于辅助信息的复杂染色体区域分割方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法
CN109242842A (zh) * 2018-08-31 2019-01-18 郑州金域临床检验中心有限公司 基于图像识别的人类染色体分析装置、设备及存储介质
CN111986183A (zh) * 2020-08-25 2020-11-24 中国科学院长春光学精密机械与物理研究所 一种染色体散型图像自动分割识别系统及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10935779B2 (en) * 2016-10-27 2021-03-02 Scopio Labs Ltd. Digital microscope which operates as a server
CN109150104A (zh) * 2018-08-10 2019-01-04 江南大学 一种基于随机森林算法的光伏阵列故障诊断方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632168A (zh) * 2013-12-09 2014-03-12 天津工业大学 一种机器学习中的分类器集成方法
CN109242842A (zh) * 2018-08-31 2019-01-18 郑州金域临床检验中心有限公司 基于图像识别的人类染色体分析装置、设备及存储介质
CN111986183A (zh) * 2020-08-25 2020-11-24 中国科学院长春光学精密机械与物理研究所 一种染色体散型图像自动分割识别系统及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Chromosome Medical Axis Extraction Method Based on Graphic Geometry and Competitive Extreme Learning Machines Teams(GELMT) Classifier for Chromosome Classification;Jie Wang等;《Bio-inspired Computing:Theories and Applications》;20200402;第1160卷;第550-564页 *
On fully automatic feature measurement for banded chromosome classification;Jim Piper等;《Journal of Quantitative Cell Science》;19890531;第10卷(第3期);第242-255页 *
基于决策级融合的无线传感器网络感知目标分类研究;张阳;《信息科技辑》;20191115(第11期);第9-97页 *
基于深度卷积神经网络对中期染色体分类的应用研究;张成成等;《中国临床新医学》;20200229;第13卷(第2期);第123-126页 *

Also Published As

Publication number Publication date
CN112508889A (zh) 2021-03-16

Similar Documents

Publication Publication Date Title
CN112508889B (zh) 一种染色体核型分析系统
Wei et al. Deep learning model based breast cancer histopathological image classification
US8605981B2 (en) Centromere detector and method for determining radiation exposure from chromosome abnormalities
CN109300111B (zh) 一种基于深度学习的染色体识别方法
Gamarra et al. Split and merge watershed: A two-step method for cell segmentation in fluorescence microscopy images
Ko et al. Automatic white blood cell segmentation using stepwise merging rules and gradient vector flow snake
CN107437243B (zh) 基于x光图像的轮胎杂质检测方法及装置
Poletti et al. A review of thresholding strategies applied to human chromosome segmentation
US9971929B2 (en) Fingerprint classification system and method using regular expression machines
JP4921858B2 (ja) 画像処理装置および画像処理プログラム
CN109492706B (zh) 一种基于循环神经网络的染色体分类预测装置
Theodorakopoulos et al. Hep-2 cells classification via fusion of morphological and textural features
CN110021028B (zh) 一种基于服装款式图的自动制衣方法
CN110705403A (zh) 细胞分类方法、装置、介质及电子设备
CN106529532A (zh) 一种基于积分特征通道与灰度投影的车牌识别系统
CN107194393B (zh) 一种检测临时车牌的方法及装置
Sajeena et al. Automated cervical cancer detection through RGVF segmentation and SVM classification
CN106340016A (zh) 一种基于细胞显微镜图像的dna定量分析方法
CN107730499A (zh) 一种基于nu‑支持向量机的白细胞分类方法
CN103679184A (zh) 一种基于相关向量机的白细胞自动识别方法
CN113160185A (zh) 一种利用生成边界位置指导宫颈细胞分割的方法
CN115294377A (zh) 一种道路裂缝的识别系统及方法
Zafari et al. Resolving overlapping convex objects in silhouette images by concavity analysis and Gaussian process
Pijackova et al. Deep learning pipeline for chromosome segmentation
Pan et al. Learning to detect different types of cells under phase contrast microscopy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant