CN113393461B - 基于深度学习的分裂中期染色体图像质量筛选方法和系统 - Google Patents

基于深度学习的分裂中期染色体图像质量筛选方法和系统 Download PDF

Info

Publication number
CN113393461B
CN113393461B CN202110939852.7A CN202110939852A CN113393461B CN 113393461 B CN113393461 B CN 113393461B CN 202110939852 A CN202110939852 A CN 202110939852A CN 113393461 B CN113393461 B CN 113393461B
Authority
CN
China
Prior art keywords
image
chromosome
quality
images
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110939852.7A
Other languages
English (en)
Other versions
CN113393461A (zh
Inventor
乔杰
赵屹
田婵
罗纯龙
卢永杰
靳辉
于天琦
于富海
王曼卿
肖立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yihe Intelligent Medical Technology (Foshan) Co.,Ltd.
Original Assignee
Institute of Computing Technology of CAS
Peking University Third Hospital Peking University Third Clinical Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS, Peking University Third Hospital Peking University Third Clinical Medical College filed Critical Institute of Computing Technology of CAS
Priority to CN202110939852.7A priority Critical patent/CN113393461B/zh
Publication of CN113393461A publication Critical patent/CN113393461A/zh
Application granted granted Critical
Publication of CN113393461B publication Critical patent/CN113393461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30072Microarray; Biochip, DNA array; Well plate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的分裂中期染色体图像质量筛选方法和系统,所述方法和系统使用附带标注的分裂中期细胞染色体图像构建训练集和测试集,并进行模型的构建和训练。模型完成训练后,可以对输入的一个病例的每一张染色体图像进行质量评估,输出每一张染色体图像的质量评估结果,然后将所有的染色体图像按照质量评估结果的高低进行降序排序,即模型认为排序靠前的染色体图像质量更高,然后在排序后的染色体图像中靠前选取足够进行诊断的染色体图像即可完成染色体图像质量筛选过程。所述方法和系统数据来源简单,能够准确评价染色体图像质量的高低,AUC值为0.927,模型检测速度快,检测速度大大快于人工速度。

Description

基于深度学习的分裂中期染色体图像质量筛选方法和系统
技术领域
本发明涉及计算机视觉,图像处理,染色体质量评估,染色体质量筛选等技术领域。
背景技术
在现阶段,染色体核型分析是临床遗传疾病检查的主要方法,是产前诊断金标准。该方法通过观察处于分裂中期细胞的G显带染色体,根据染色体固有的结构特征,例如染色体数目、长度、显带特点、着丝粒位置、臂比、随体大小等,对染色体进行分割、分组、配对、计数,最后得到核型分析报告。
目前临床上核型分析主要分为以下步骤,即染色体图像质量筛选、染色体计数、染色体分类配对(包含染色体分割、分类、极性判断等)及出具分析报告,目前市面上在用的核型自动分析系统(如徕卡 CytoVision系统)完成以上步骤主要依赖人工操作,常规情况下,诊断一个病例需要做5-10个核型图,至少计数20个图。
当前,分裂中期细胞的染色体质量筛选多为人工挑选并标记。临床分析中,一个患者一般会拍摄得到约200张分裂中期细胞的染色体图像,实验室医生会挑选其中能够达到诊断要求数量的小部分高质量图像进行接下来的计数及分类配对。常见的做法为:查看所有图像,将质量最好的标记为一种颜色,供做图使用,再将质量其次的标记为另一种颜色,供计数使用。如果遇到有染色体嵌合,需要计数50或100张图片,而标记的图片数量不够,则再浏览剩余图像,直到选择到足够的图像为止。由于每个病例得到的染色体图像数量众多,而诊断所需图片数量较少,临床医生进行质量评估时需要将所有的图片进行浏览并标记,耗费大量时间和眼力。
发明人在进行AI辅助进行染色体核型诊断研究以提高诊断效率时,发现现有技术中该项缺陷由于全部依赖人工导致的,发明人发现使用计算机技术自动进行染色体图片质量筛选可以有效解决该缺陷,并可以通过基于深度学习的分裂中期细胞染色体质量筛选方法来实现。
在调研深度学习算法时,发明人了解到深度学习算法可以有效地实现染色体质量筛选,其实现相较于传统的计算机视觉技术,效果更好,鲁棒性更强。首先通过模型得到每一张染色体图像的质量评估结果,然后将所有的染色体图像按照质量评估结果的高低进行降序排列,即模型认为排序靠前的染色体图像质量更高,然后在排序后的染色体图像中靠前选取多张染色体图像即可完成染色体图像质量筛选过程。
发明内容
本发明的目的是解决临床医生使用现有技术人工进行显微镜视野下分裂中期细胞G显带染色体图像质量筛选效率较低的问题,基于上述目的,本发明首先提出一种基于深度学习的分裂中期细胞染色体图像质量筛选方法,所述方法包括以下步骤:
(1)收集显微镜下分裂中期细胞的染色体图像,所述染色体图像根据其图像质量已被标注为高质或低质,并将图像随机划分训练集和测试集,其中训练集占比90%,测试集占比10%;
上述染色体质量标注是对一张显微镜下扫描的染色体图像进行质量评估后进行的标注,如果一张核型图包含一套完整染色体,分散度好、交叉重叠少、条带清晰,长短适中,G显带方法可达320-400条带,则被标注为高质。如果一张核型图拍摄包含明显少于或多于一个细胞的染色体数目,染色体条带模糊不清、或条带数量<320,染色体过短或弯曲,交叉重叠导致条带遮挡较多,则被标注为低质。在实际应用中可根据技术领域中对图像质量的具体要求而选择不同的质量标准进行标注,以满足不同的技术应用需求,本发明提供的方法均能根据所设置的图像质量标准开展学习训练和检测,从而提供满足所标注高质标准的图像筛选。
(2)对步骤(1)获得的训练集中的染色体图像进行数据扩增,所述数据扩增包括随机水平翻转、随机竖直翻转、随机裁剪至统一大小,并对测试集中的染色体图像的大小进行统一调整,以及对训练集和测试集图像像素值标准化的预处理,最后在训练时对训练集处理后的染色体图像进行平衡抽样;
(3)将经过步骤(2)获得的训练集中的染色体图像输入到含有卷积神经网络结构和全连接层结构的深度学习模型中,并对深度学习模型进行训练,其中,卷积神经网络结构用于从图像中计算得到图像的特征向量,全连接层结构用于从图像的特征向量中计算得到质量评估结果,在学习过程中使用反向传播算法对模型参数进行更新;
(4)将经过步骤(2)获得的测试集中的染色体图像输入到经过步骤(3)训练后获得的深度学习模型中,对染色体图像进行质量评估;
(5)根据步骤(4)获得的染色体图像质量评估结果的高低进行降序排列,染色体图像质量高者居前,然后在排序后的染色体图像中居前选取15-30张染色体图像完成染色体图像质量筛选过程。
在一个优选的实施方案中,步骤(2)中图像大小统一调整到
Figure 595257DEST_PATH_IMAGE001
,图像的像素值进行标准化处理如式(I)所示:
Figure 300039DEST_PATH_IMAGE002
(I)
其中,
Figure 952738DEST_PATH_IMAGE003
是预处理之前的图像,
Figure 853698DEST_PATH_IMAGE004
是预处理之后的图像,
Figure 539368DEST_PATH_IMAGE005
是预处理前的所有图像像素计算的均值,
Figure 867581DEST_PATH_IMAGE006
是预处理前所有图像像素计算的标准差,式(I)中所有运算都是矩阵运算。
在另一个优选的实施方案中,步骤(3)中的卷积神经网络结构为ResNet或EfficientNet。
在一个更为优选的实施方案中,步骤(3)中的卷积神经网络结构为ResNet18,所述结构为:核大小为7×7,通道数为64,步长为2的卷积层,后接ReLU层和核大小为3×3,步长为2的最大池化层,然后连接核大小都为3×3,连接通道数分别是64、128、256、512的BasicBlock结构,最后连接平均池化层,其中,ReLU如式(II)所示:
Figure 804313DEST_PATH_IMAGE007
(II)
其中,
Figure 994117DEST_PATH_IMAGE008
为ReLU层输入向量,
Figure 535957DEST_PATH_IMAGE009
执行的运算是向量
Figure 35071DEST_PATH_IMAGE010
大于0的元素置为0。
在另一个优选的实施方案中,步骤(3)中的卷积神经网络结构为EfficientNet-B3,所述结构为:核大小为3×3,通道数为40,步长为2的卷积层后接ReLU层,然后连接核大小分别为3×3、3×3、5×5、3×3、5×5、5×5、3×3,通道数分别是24、32、48、96、136、232、384的MBConv结构,最后连接核大小为1×1,通道数为1536,步长为2的卷积层和平均池化层。
在一个优选的实施方案中,步骤(3)中的反向传播算法采用交叉熵损失函数计算在模型输出的质量评估结果和标注的质量结果的比对结果,再利用Adam优化器反向传播算法进行模型的训练,所述交叉熵损失函数形式如公式(IV)所示:
Figure 662361DEST_PATH_IMAGE011
(IV)
其中, LCLS是指交叉熵损失,i是指第
Figure 888812DEST_PATH_IMAGE012
张染色体图像,
Figure 285159DEST_PATH_IMAGE013
是一个批数据的数量,
Figure 955174DEST_PATH_IMAGE014
是标注的此批数据中第
Figure 69761DEST_PATH_IMAGE012
张图像的质量结果,数值为0或者1,分别代表质量低和质量高,
Figure 866947DEST_PATH_IMAGE015
是由模型计算得到的此批数据中第
Figure 117799DEST_PATH_IMAGE012
张图像的质量评估结果,数值范围0到1,取值越大代表质量越高。
其次,本发明还提出了一种基于深度学习的分裂中期细胞染色体图像质量筛选的系统,所述系统包括以下模块:
(1)收集模块,所述收集模块用于收集显微镜下分裂中期细胞的染色体图像,所述染色体图像根据其图像质量已被标注为高质或低质,并将图像随机划分训练集和测试集,其中训练集占比90%,测试集占比10%;
上述染色体质量标注是对一张显微镜下扫描的染色体图像进行质量评估后进行的标注,如果一张核型图包含一套完整染色体,分散度好、交叉重叠少、条带清晰,长短适中,G显带方法可达320-400条带,则被标注为高质。如果一张核型图拍摄包含明显少于或多于一个细胞的染色体数目,染色体条带模糊不清、或条带数量<320,染色体过短或弯曲,交叉重叠导致条带遮挡较多,则被标注为低质。在实际应用中可根据技术领域中对图像质量的具体要求而选择不同的质量标准进行标注,以满足不同的技术应用需求,本发明提供的系统均能根据所设置的图像质量标准开展学习训练和检测,从而提供满足所标注高质标准的图像筛选。
(2)数据扩增和预处理模块:所述数据扩增和预处理模块对收集模块(1)获得的训练集中的染色体图像进行数据扩增,所述数据扩增包括随机水平翻转、随机竖直翻转、随机裁剪至统一大小,并对测试集中的染色体图像的大小进行统一调整,以及对训练集和测试集图像像素值标准化的预处理,最后在训练时对训练集处理后的染色体图像进行平衡抽样;
(3)深度学习模块,所述深度学习模块将经过数据扩增和预处理模块(2)获得的训练集中的染色体图像输入到含有卷积神经网络结构和全连接层结构的深度学习模型中,并对深度学习模型进行训练,其中,卷积神经网络结构用于从图像中计算得到图像的特征向量,全连接层结构用于从图像的特征向量中计算得到质量评估结果,在学习过程中使用反向传播算法对模型参数进行更新;
(4)评估模块,所述评估模块将经过数据扩增和预处理模块(2)获得的测试集中的全部染色体图像输入到经过深度学习模块(3)训练后获得的深度学习模型中,对染色体图像进行质量评估;
(5)筛选输出模块:所述筛选输出模块根据评估模块(4)获得的染色体图像质量评估结果的高低进行降序排列,染色体图像质量高者居前,然后在排序后的染色体图像中居前选取15-30张染色体图像完成染色体图像质量筛选过程。
在一个优选的实施方案中,数据扩增和预处理模块(2)中图像大小统一调整到
Figure 755454DEST_PATH_IMAGE001
,图像的像素值进行标准化处理如式(I)所示:
Figure 609534DEST_PATH_IMAGE002
(I)
其中,
Figure 194099DEST_PATH_IMAGE003
是预处理之前的图像,
Figure 565038DEST_PATH_IMAGE004
是预处理之后的图像,
Figure 576856DEST_PATH_IMAGE005
是预处理前的所有图像像素计算的均值,
Figure 151188DEST_PATH_IMAGE006
是预处理前所有图像像素计算的标准差,式(I)中所有运算都是矩阵运算。
在另一个优选的实施方案中,深度学习模块(3)中的卷积神经网络结构为ResNet或EfficientNet。
在一个更为优选的实施方案中,深度学习模块(3)中的卷积神经网络结构为ResNet18,所述结构为:核大小为7×7,通道数为64,步长为2的卷积层,后接ReLU层和核大小为3×3,步长为2的最大池化层,然后连接核大小都为3×3,连接通道数分别是64、128、256、512的BasicBlock结构,最后连接平均池化层,其中,ReLU如式(II)所示:
Figure 70602DEST_PATH_IMAGE007
(II)
其中,
Figure 296047DEST_PATH_IMAGE008
为ReLU层输入向量,
Figure 993614DEST_PATH_IMAGE009
执行的运算是向量
Figure 304509DEST_PATH_IMAGE010
大于0的元素置为0。
在另一个优选的实施方案中,深度学习模块(3)中的卷积神经网络结构为EfficientNet-B3,所述结构为:核大小为3×3,通道数为40,步长为2的卷积层后接ReLU层,然后连接核大小分别为3×3、3×3、5×5、3×3、5×5、5×5、3×3,通道数分别是24、32、48、96、136、232、384的MBConv结构,最后连接核大小为1×1,通道数为1536,步长为2的卷积层和平均池化层。
在一个优选的实施方案中,深度学习模块(3)中的反向传播算法采用交叉熵损失函数计算在模型输出的质量评估结果和标注的质量结果的比对结果,再利用Adam优化器反向传播算法进行模型的训练, 所述交叉熵损失函数形式如公式(IV)所示:
Figure 230877DEST_PATH_IMAGE011
(IV)
其中, LCLS是指交叉熵损失,i是指第
Figure 310829DEST_PATH_IMAGE012
张染色体图像,
Figure 415182DEST_PATH_IMAGE013
是一个批数据的数量,
Figure 213374DEST_PATH_IMAGE014
是标注的此批数据中第
Figure 740170DEST_PATH_IMAGE012
张图像的质量结果,数值为0或者1,分别代表质量低和质量高,
Figure 192404DEST_PATH_IMAGE015
是由模型计算得到的此批数据中第
Figure 716927DEST_PATH_IMAGE012
张图像的质量评估结果,数值范围0到1,取值越大代表质量越高。
本发明技术效果如下:
1. 数据来源简单,本发明所需的数据来源于真实显微镜视野下拍摄的分裂中期细胞染色体图像,而且标注过程简单,耗时少,成本低廉。
2. 模型基于深度学习方法,能够准确评价染色体图像质量的高低。发明人用约63000张附带质量标注的染色体图像进行训练,随后用约7000张质量标注的染色体图像做测试。测试中,通过上述深度学习方法训练得到的模型,评价染色体质量的高低, AUC值为0.927,显示了本发明的模型具有极高的学习和测试效果。
3. 模型检测速度快。深度学习方法模型完成154张图片的质量筛选过程只需要6.814秒,平均每张耗时44.2毫秒,本方法的检测速度大大快于人工速度的90秒。
附图说明
图1. 基于深度学习的人工智能筛选染色体图像方法步骤示意图;
图2. 染色体图像质量标注范例图;
图3. ResNet18结构示意图;
图4.ResNet18中使用的BasicBlock结构示意图;
图5. EfficientNet-B3结构示意图;
图6. 正负例样本数量及抽样数量;
图7. 深度模型计算流程示意图;
图8. AUC值计算示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的权利要求所限定的保护范围构成任何限制。
本发明是一种基于深度学习的分裂中期细胞染色体质量筛选方法,目的是解决临床医生使用现有技术进行显微镜视野下分裂中期细胞G显带染色体图像质量筛选效率较低的问题。本发明基于深度学习模型,可以对染色体图像进行质量评估并筛选。发明人使用附带标注的分裂中期细胞染色体图像构建训练集和测试集,并进行模型的构建和训练。模型完成训练后,可以对输入的一个病例的每一张染色体图像进行质量评估,输出每一张染色体图像的质量评估结果,然后将所有的染色体图像按照质量评估结果的高低进行降序排序,即模型认为排序靠前的染色体图像质量更高,然后在排序后的染色体图像中靠前选取足够进行诊断的染色体图像即可完成染色体图像质量筛选过程。
下面将结合附图和实施例对本发明作进一步的详细说明。
构建实施例
本发明步骤流程如图1所示,主要包含以下五个步骤:
1.收集已被标注的显微镜下分裂中期细胞真实图像,并随机划分训练集和测试集。
本实施例采集徕卡CytoVision 自动细胞遗传学平台记录的高分辨率显微镜视野下的处于有丝分裂中期细胞真实图像样本共计70643张,分辨率为
Figure 2415DEST_PATH_IMAGE016
。临床医生对收集的图像进行手动标注,由于人类很难精确地得到一个连续的质量评价,所以仅仅将每一张染色体图像进行二分类标注,分为质量高或者质量低。上述染色体质量标注是对一张显微镜下扫描的染色体图像进行质量评估后的进行的标注,如果一张核型图包含一套完整染色体,分散度好、交叉重叠少、条带清晰,长短适中,G显带方法可达320-400条带,则被标注为高质。如果一张核型图拍摄包含明显少于或多于一个细胞的染色体数目,染色体条带模糊不清、或条带数量<320,染色体过短或弯曲,交叉重叠导致条带遮挡较多,则被标注为低质。在实际应用中可根据技术领域中对图像质量的具体要求而选择不同的质量标准进行标注,以满足不同的技术应用需求,本发明提供的方法和/或系统均能根据所设置的图像质量标准开展学习训练和检测,从而提供满足所标注高质标准的图像筛选。经过收集步骤或者收集模块最后得到质量高的染色体图像5279张,质量低(包含部分质量高的图像)的染色体图像65364张,图像样例如图2所示,下图是标注的质量高的图像,上图是标注的质量低的图像。染色体质量评估是对一张核型图进行质量的评估,由于核型图质量的好坏不存在一个公认的定义,本申请认为质量较好的核型图是仅包含一个完整细胞、染色体清晰且有利于医生进行分析的。如果一张核型图拍摄到的染色体属于一个细胞、大部分染色体条带清晰、染色体长度正常,可以认为这张核型图质量较好;如果一张核型图拍摄效果模糊、染色体条带模糊不清、染色体过长过短或弯曲,则认为这张核型图质量较差。随机选择50%以上的样本作为训练集,本实施例选取90%作为训练集(58828张),剩余的部分组成测试集(6536张)。
2. 对数据进行数据扩增和预处理。
2.1数据扩增
数据扩增只在训练集样本中进行。数据扩增包括随机水平翻转、随机竖直翻转、随机裁剪至统一大小步骤。随机水平翻转有一半的概率执行水平翻转,一半的概率不执行任何操作,执行水平反转即对二维图像水平方向的像素进行反置;随机竖直翻转有一半的概率执行竖直翻转,一半的概率不执行任何操作,执行竖直反转即对二维图像竖直方向的像素进行反置;随机裁剪一定执行,输入图像大小是
Figure 270585DEST_PATH_IMAGE016
,先生成一个矩形框,只截取矩形框中的图像,然后将矩形框截取的图像缩放到
Figure 810282DEST_PATH_IMAGE001
大小,完成随机裁剪操作。矩形框的面积占输入图像面积的比例符合
Figure 568022DEST_PATH_IMAGE017
的均匀分布,宽高比符合
Figure 340806DEST_PATH_IMAGE018
的均匀分布,然后可以根据矩形框的面积和宽高比唯一确定矩形框的宽高,矩形框在输入图像中的位置是随机的,需要保证矩形框不会超出输入图像的范围。以上三个操作是依次独立进行的。数据扩增实际上是原地扩增,变换后的图像代替原始图像进入模型,因此实际不增加数据集的大小。但每次迭代时由于数据会发生变换,因此模型输入的样本空间扩大,扩增倍数前两个步骤都是2倍,两步叠加,数据至少扩增4倍(随机裁剪至统一大小扩增倍数随机,无确定倍数值)。
2.2预处理
对测试集中的染色体图像的大小进行统一调整至
Figure 396356DEST_PATH_IMAGE001
(此处的目的是为了将训练集和测试集处理后的图像大小都统一到
Figure 570985DEST_PATH_IMAGE001
,模型才能有效的训练和质量评估)。
2.3训练集和测试集都对图像的像素值进行标准化处理,标准化处理公式如式(I)所示:
Figure 437310DEST_PATH_IMAGE002
(I)
其中,
Figure 697390DEST_PATH_IMAGE003
是预处理之前的图像,
Figure 58095DEST_PATH_IMAGE004
是预处理之后的图像,
Figure 821652DEST_PATH_IMAGE005
是预处理前的所有图像像素计算的均值,
Figure 124457DEST_PATH_IMAGE006
是预处理前所有图像像素计算的标准差,式(I)中所有运算都是矩阵运算。
假设
Figure 606254DEST_PATH_IMAGE019
Figure 272115DEST_PATH_IMAGE020
Figure 155758DEST_PATH_IMAGE021
那么
Figure 629464DEST_PATH_IMAGE022
那么
Figure 598557DEST_PATH_IMAGE023
2.4 平衡抽样
由于收集到的数据集质量高和质量低的数量差别较大,不利于使用模型判断染色体图像的质量,因为一般情况下模型解决二分类问题,使用损失函数是交叉熵损失函数,此损失函数会在正负样例数量不均衡的时候使模型更加偏向于预测数量更多的样例,最后导致模型难以训练、性能变差。为了解决上述的正负例样本不均衡导致的问题,我们采用平衡抽样的方法。在没有使用平衡抽样的时候,我们输入到模型的批数据是由所有的样本进行等概率抽样组成的,因为正例比较少,所以批数据中正例也较少,从而导致上述问题。平衡抽样就是在组成批数据时,所有样本的抽取概率不是等概率,而是对于数量较少的正例增加样本的抽样概率,对于数量较多的反例减少样本的抽样概率,增加和减少样本的抽样概率的效果使得抽中样本是正例的概率和得抽中样本是负例的概率相等,因此组成的批数据中正负例数量的期望是相等的。正负例样本数量及抽样数量的例子如图6所示。假设正例样本总数是
Figure 97803DEST_PATH_IMAGE024
,负例样本总数是
Figure 101531DEST_PATH_IMAGE025
(因为该应用中,正例样本总数小于负例样本总数,所以
Figure 746139DEST_PATH_IMAGE026
),一批次样本量是
Figure 186216DEST_PATH_IMAGE027
个,等概率抽样中,每一个样本抽中的概率是相等的,每一个样本抽中的概率是
Figure 941683DEST_PATH_IMAGE028
,因此,一批次样本中,正例样本数的期望是
Figure 534338DEST_PATH_IMAGE029
,负例样本数的期望是
Figure 349847DEST_PATH_IMAGE030
;平衡抽样中,增加正例样本抽样概率和减少负例样本抽样概率使得抽中样本是正例的概率和得抽中样本是负例的概率相等,每一个正样本抽中的概率是
Figure 841003DEST_PATH_IMAGE031
,每一个负样本抽中的概率是
Figure 400160DEST_PATH_IMAGE032
,因此,一批次样本中,正例样本数的期望是
Figure 112901DEST_PATH_IMAGE033
,负例样本数的期望是
Figure 808632DEST_PATH_IMAGE033
。例子中一批次样本量是128个,所以图6中的正反例的数量都是64。
3. 构建具有卷积神经网络结构的模型,并利用训练集进行训练学习。
3.1 模型构建
质量筛选问题的子问题是质量评估问题,我们将质量评估的任务等效于机器学习的二分类任务,利用具有卷积神经网络结构的模型进行学习,模型的输入是一张图像,输出是一个0到1之间的数值,该数值代表该图像质量的高低,数值越大代表质量越高。我们使用的模型包含两部分:卷积神经网络结构和全连接层结构,卷积神经网络结构可以从图像中计算得到图像的特征向量,全连接层结构可以从图像的特征向量中计算得到质量评估结果。
3.1.1卷积神经网络结构包括但不限于ResNet、EfficientNet。
3.1.1.1 ResNet结构以ResNet18为例,结构分布如图3所示:核大小为7×7,通道数为64,步长为2的卷积层(k×k 64 conv stride 2)后接ReLU层和核大小为3×3,步长为2的最大池化层(k×k 64 max pool stride 2),然后连接核大小都为3×3,连接通道数分别是64、128、256、512的BasicBlock结构,最后连接平均池化层(average pool)。图3中,“
Figure 239613DEST_PATH_IMAGE034
b conv, stride s”代表卷积核大小为
Figure 149931DEST_PATH_IMAGE034
、输出通道为b、步长为s的二维卷积层,“ReLU”代表ReLU激活函数,该激活函数公式如式(II)所示:
Figure 779496DEST_PATH_IMAGE007
(II)
Figure 671229DEST_PATH_IMAGE010
为ReLU层输入向量,ReLU(x)代表该激活函数,
Figure 838774DEST_PATH_IMAGE009
执行的运算是向量
Figure 739733DEST_PATH_IMAGE010
大于0的元素置为0,其余元素保持不变。
Figure 161488DEST_PATH_IMAGE034
max pool, stride s”代表核大小
Figure 224121DEST_PATH_IMAGE034
、步长为s的二维最大池化层,“
Figure 114848DEST_PATH_IMAGE034
, b BasicBlock”代表小
Figure 819499DEST_PATH_IMAGE034
、输出通道为b的BasicBlock结构,“averagepool”代表全局平均池化层。
在ResNet18中使用到了一个更基本的结构,如图4所示:BasicBlock结构,BasicBlock结构的结构分布为:首先一个卷积层、ReLU层和卷积层,然后将上面三层的输出和输入相加,最后连接一个ReLU层。图4中,所有层的核大小都是由外部输入的,例如“
Figure 361339DEST_PATH_IMAGE034
, b BasicBlock”会设置其中所有层的核大小都是
Figure 860453DEST_PATH_IMAGE034
,“conv”代表二维卷积层,“ReLU”代表ReLU激活函数。
卷积层(conv)是一种前馈神经网络,它可以响应一部分范围内的输入数据,在图像处理上表现出色。卷积层执行卷积数学运算,将输入数据和卷积核参数(卷积层保存的参数)进行卷积运算,得到输出数据,具体公式如式(V)所示:
Figure 536679DEST_PATH_IMAGE035
(V)
其中,
Figure 513862DEST_PATH_IMAGE036
是指输入数据,
Figure 457678DEST_PATH_IMAGE037
是指卷积核参数,
Figure 862115DEST_PATH_IMAGE038
是指输出数据,
Figure 976701DEST_PATH_IMAGE039
是指卷积运算。
3.1.1.2 EfficientNet结构以EfficientNet-B为例,结构分布如图5所示:核大小为3×3通道数为40步长为2的卷积层后接ReLU层,然后连接核大小分别为3×3、3×3、5×5、3×3、5×5、5×5、3×3,通道数分别是24、32、48、96、136、232、384的MBConv结构,最后连接核大小为1×1,通道数为1536,步长为2的卷积层和平均池化层。图5中,“
Figure 803581DEST_PATH_IMAGE034
b conv,stride s”、“ReLU”、“average pool”、“1280-d fc”、“softmax”层的含义和ResNet中保持一致,特别地,“MBConv n b,
Figure 54434DEST_PATH_IMAGE034
”代表重复n次的核大小为
Figure 895351DEST_PATH_IMAGE034
、输出通道为b的MBConv结构。
3.1.2全连接层结构
“1000-d fc”和“softmax”是ResNet18卷积神经网络结构之后连接的全连接层结构,其中“1000-d fc”代表输出是1000维度的全连接层,“softmax”代表softmax激活函数。
softmax激活函数的输入是一个向量,将输入的向量归一化,使得输出的向量之和为1,公式如式(III)所示:
Figure 44703DEST_PATH_IMAGE040
(III)
其中
Figure 363689DEST_PATH_IMAGE041
是一个索引,
Figure 734628DEST_PATH_IMAGE042
Figure 795381DEST_PATH_IMAGE043
是一个索引,
Figure 353401DEST_PATH_IMAGE044
代表输入向量的第
Figure 741657DEST_PATH_IMAGE043
个值,
Figure 967102DEST_PATH_IMAGE045
代表输出向量的第
Figure 900554DEST_PATH_IMAGE041
个值。
3. 2模型训练
使用模型计算质量评估结果高效的方法是将进行过预处理和数据扩增的染色体图像以一批一批的方式送入模型中计算,这有利于发挥GPU等并行硬件的计算能力,进而提高训练和测试的速度。综合考虑GPU显存和模型的大小,批大小设置为32,即将32张不同的染色体图像作为一批次送入模型中并行计算。
将进行过预处理和数据增强的染色体图像经过模型的卷积神经网络结构,得到图像的特征向量,然后经过模型的全连接层结构获得的质量评估结果,此数值代表对应的染色体图像质量的高低。此过程在训练阶段使用反向传播算法进行模型权重的更新学习,在测试阶段直接输出质量评估结果。深度模型计算流程如图7。
在训练时期,将模型输出的质量评估结果和临床医生标注的质量结果进行比对,计算交叉熵损失函数,评估标准是AUC值越高,说明验证的效果越好,最大为1。AUC代表ROC曲线下方的和X=1直线、X轴所围面积,ROC曲线通过将伪阳性率(False positive rate,FPR)定义为X轴,真阳性率(True positive rate,TPR)定义为Y轴绘制而成。AUC值计算如图8所示,其中X轴是伪阳性率(FP Rate),Y轴是真阳性率(TP Rate),ROC曲线如图8虚线所示,AUC就是ROC曲线下和X=1直线、X轴所围面积即ROC曲线下的灰色区域。
TPR代表在所有实际为阳性的样本中,被正确地判断为阳性之比率,公式如式(VI)所示:
Figure 273767DEST_PATH_IMAGE046
(VI)
FPR代表在所有实际为阴性的样本中,被错误地判断为阳性之比率,公式如式(VII)所示:
Figure 200135DEST_PATH_IMAGE047
(VII)
其中:TP为真阳性,代表诊断为阳性,实际上是阳性的数量, FP为伪阳性,代表诊断为阳性,实际却是阴性的数量,TN为真阴性,代表诊断为阴性,实际上是阴性的数量,FN为伪阴性,代表诊断为阴性,实际却是阳性的数量。
最后利用Adam优化器反向传播算法进行模型的训练。交叉熵损失函数可以输入模型预测的质量评估结果和标注的质量,计算得到损失,优化器可以将损失进行反向传播,通过反向传播算法进行模型参数的更新,两个相当于是一个顺序使用的过程,结合使用的效果就是输入模型预测的质量评估结果和标注的质量进行模型参数的更新。
交叉熵损失函数形式如公式(IV)所示:
Figure 529354DEST_PATH_IMAGE011
(IV)
其中,LCLS是指交叉熵损失,i是指此批数据中第
Figure 148554DEST_PATH_IMAGE012
张,
Figure 681166DEST_PATH_IMAGE013
是一个批数据的数量,
Figure 411225DEST_PATH_IMAGE014
是由临床医生标注的此批数据中第
Figure 96415DEST_PATH_IMAGE012
张图像的质量结果,数值为0或者1,分别代表质量低和质量高,
Figure 886517DEST_PATH_IMAGE015
是由模型计算得到的此批数据中第
Figure 172005DEST_PATH_IMAGE012
张图像的质量评估结果,数值范围0到1,取值越大代表质量越高。
优化器采用Adam优化器,用于通过交叉熵损失函数反向传播对模型参数进行更新以训练模型。Adam优化器全称Adaptive Moment Estimation,是一种计算每个参数的自适应学习率的方法,Adam优化器作为一种优化器,可以通过损失函数计算的损失值反向传播更新模型参数。(Kingma D P, Ba J. Adam: A method for stochastic optimization[J]. arXiv preprint arXiv:1412.6980, 2014.)。Adam优化器的学习率为0.02,分别在第20、30、40、50周期将学习率减半,共训练70周期。
4.将经过步骤(2)获得的测试集中的全部染色体图像输入到经过步骤(3)训练后获得的深度学习模型中,对染色体图像进行质量评估。
在测试阶段, 将所有的染色体图像按照质量评估结果的高低进行降序排序,即模型认为排序靠前的染色体图像质量更高,然后在排序后的染色体图像中靠前选取多张染色体图像即可完成染色体图像质量筛选过程。
5. 根据步骤(4)获得的染色体图像质量评估结果的高低进行降序排列,染色体图像质量高者居前,然后在排序后的染色体图像中居前选取合适数量张数,实际应用中可以选择15-30张中的任一数量,本实施例中选取为20张染色体图像即可完成染色体图像质量筛选过程。
应用实施例1.
在上述构建实施例的基础上,本应用实施例显示了一个具体的技术实施方案。
1. 收集并标注显微镜下分裂中期细胞真实图像,并随机划分训练集和测试集
采集徕卡CytoVision 自动细胞遗传学平台记录的高分辨率显微镜视野下的处于有丝分裂中期细胞染色体真实图像样本共计70643张(或者其它数量),分辨率为1600×1200。对图像进行二分类标注,分为质量高或者质量低,最后得到质量高的染色体图像。将上述图像进行随机分组,其中90%的样本作为训练集(58828张),10%组成测试集(6536张)。
2. 对数据进行预处理和数据扩增。
(1)对训练集样本进行数据扩增,包括随机水平翻转、随机竖直翻转、随机裁剪至统一大小至
Figure 489110DEST_PATH_IMAGE001
的步骤(使用Python编程语言和Pytorch、OpenCV库完成图像的处理)。
对训练集中58828张图像进行数据扩增,处理后使得训练中可能输入的图像数量大于
Figure 543653DEST_PATH_IMAGE048
,有助于提高模型训练的效果。
(2)对测试集中的染色体图像的大小进行统一调整为
Figure 504656DEST_PATH_IMAGE001
(3)对训练集和测试集全部图像的像素值进行标准化处理(使用Python编程语言和OpenCV库完成图像的处理),标准化处理公式如式(I)所示:
Figure 11861DEST_PATH_IMAGE002
(I)
其中,
Figure 834455DEST_PATH_IMAGE003
是预处理之前的图像,
Figure 743505DEST_PATH_IMAGE004
是预处理之后的图像,
Figure 609830DEST_PATH_IMAGE005
是预处理前的所有图像像素计算的均值,
Figure 915915DEST_PATH_IMAGE006
是预处理前所有图像像素计算的标准差,式(I)中所有运算都是矩阵运算。训练集和测试集全部进行预处理后,所有图像的均值接近0,标准差接近1。
(4)平衡抽样,为了解决正负例样本不均衡导致的问题,采用平衡抽样的方法,在本实施例中的抽样样本量是32个,正反例的数量都是16。
3. 构建具有卷积神经网络结构的模型并利用训练集进行训练学习
(1)构建包含卷积神经网络结构和全连接层结构的卷积神经网络结构的模型,其中:
1)卷积神经网络结构选用ResNet18,核大小为7×7,通道数为64的卷积层后接ReLU层和核大小为3×3,步长为2的最大池化层,然后连接核大小都为3×3连接通道数分别是64、128、256、512的BasicBlock结构,最后连接平均池化层。
如图3所示,“
Figure 525888DEST_PATH_IMAGE034
b conv, stride s”代表卷积核大小为
Figure 289444DEST_PATH_IMAGE034
、输出通道为b、步长为s的二维卷积层,“ReLU”代表ReLU激活函数,该激活函数公式如式(II)所示:
Figure 326671DEST_PATH_IMAGE007
(II)
Figure 824779DEST_PATH_IMAGE034
max pool, stride s”代表核大小
Figure 238443DEST_PATH_IMAGE034
、步长为s的二维最大池化层,“
Figure 918823DEST_PATH_IMAGE034
, b BasicBlock”代表小
Figure 656446DEST_PATH_IMAGE034
、输出通道为b的BasicBlock结构,“averagepool”代表全局平均池化层。
BasicBlock结构,BasicBlock结构的结构分布为:首先一个卷积层、ReLU层和卷积层,然后将上面三层的输出和输入相加,最后连接一个ReLU层(如图4所示)。所有层的核大小都是由外部输入的,例如“
Figure 625539DEST_PATH_IMAGE034
, b BasicBlock”会设置其中所有层的核大小都是
Figure 577314DEST_PATH_IMAGE034
,“conv”代表二维卷积层,“ReLU”代表ReLU激活函数。
2)全连接层结构
全连接层结构包括:“1000-d fc”和“softmax”,其中“1000-d fc”代表输出是1000维度的全连接层,“softmax”代表softmax激活函数。
softmax激活函数将输入的向量归一化,使得向量之和为1,公式如式(III)所示:
Figure 581042DEST_PATH_IMAGE040
(III)
其中,
Figure 710803DEST_PATH_IMAGE041
是一个索引,
Figure 963930DEST_PATH_IMAGE042
Figure 968664DEST_PATH_IMAGE043
是一个索引,
Figure 623636DEST_PATH_IMAGE044
代表输入向量的第
Figure 439146DEST_PATH_IMAGE043
个值,
Figure 133563DEST_PATH_IMAGE045
代表输出向量的第
Figure 630404DEST_PATH_IMAGE041
个值。
(2)将经过步骤(2)获得的训练集中的染色体图像输入到含有卷积神经网络结构和全连接层结构的深度学习模型中,并对深度学习模型进行训练,其中,卷积神经网络结构用于从图像中计算得到图像的特征向量,全连接层结构用于从图像的特征向量中计算得到质量评估结果,在学习过程中使用反向传播算法对模型参数进行更新;所述的反向传播算法采用如式(IV)所示的交叉熵损失函数计算在模型输出的质量评估结果和临床医生标注的质量结果的比对结果,再利用Adam优化器反向传播算法进行模型的训练。
Figure 343145DEST_PATH_IMAGE011
(IV)
式(IV)中,
Figure 329555DEST_PATH_IMAGE013
是一个批数据的数量,设为32,
Figure 760537DEST_PATH_IMAGE014
是由临床医生标注的此批数据中第
Figure 110003DEST_PATH_IMAGE012
张图像的质量结果,数值为0或者1,分别代表质量低和质量高,
Figure 677251DEST_PATH_IMAGE015
是由模型计算得到的此批数据中第
Figure 834562DEST_PATH_IMAGE012
张图像的质量评估结果,数值范围0到1,取值越大代表质量越高。
采用Adam优化器,通过交叉熵损失函数反向传播对模型参数进行更新以训练模型,Adam优化器的学习率为0.02,分别在第20、30、40、50周期将学习率减半,共训练70周期。训练结束时,损失函数的下降减缓,损失函数基本收敛,模型完成对染色体图像质量评估的学习。
4. 将经过步骤(2)获得的训练集中的染色体图像输入到经过步骤(3)训练后获得的深度学习模型中,对染色体图像进行质量评估。
在测试阶段, 将所有的染色体图像按照质量评估结果的高低进行降序排序,即模型认为排序靠前的染色体图像质量更高,然后在排序后的染色体图像中靠前选取多张染色体图像即可完成染色体图像质量筛选过程。
5. 根据步骤(4)获得的染色体图像质量评估结果的高低进行降序排列,染色体图像质量高者居前,然后在排序后的染色体图像中居前选取20张染色体图像即可完成染色体图像质量筛选过程。
通过上述深度学习方法训练得到的模型,评价染色体质量的高低,AUC值可以达到0.918(以高质标注为标准)。在获得的该模型的基础上对医院实际诊断中的一名患者的一次诊断生成的154张染色体图片进行质量筛选,实验中实验硬件是GTX 1080Ti,根据标注的图像高质标准,深度学习方法模型完成154张图片的质量筛选过程只需要6.814秒,平均每张耗时44.2毫秒,远远快于人类查看图像的速度,深度学习方法效率更高。
应用实施例2.
鉴于卷积神经网络结构还可以选用EfficientNet-B3,因此本实施例可以围绕EfficientNet-B3的设置展开。在本实施例中,EfficientNet-B3的结构设置为:核大小为3×3,通道数为40,步长为2的卷积层后接ReLU层,然后连接核大小分别为3×3、3×3、5×5、3×3、5×5、5×5、3×3,通道数分别是24、32、48、96、136、232、384的MBConv结构,最后连接核大小为1×1,通道数为1536,步长为2的卷积层和平均池化层(结构设置参见图5)。其它步骤及参数设置同应用实施例1。
相对于应用实施例1的卷积神经网络结构ResNet18的应用,本实施例在效率依然很高的前提下,质量评估的效果有较大提升,AUC值可以达到0.927。

Claims (6)

1.一种基于深度学习的分裂中期染色体图像质量筛选方法,其特征在于,所述方法包括以下步骤:
(1)收集显微镜下分裂中期细胞的染色体图像,所述染色体图像根据其图像质量已被标注为高质或低质,并将图像随机划分训练集和测试集,其中训练集占比90%,测试集占比10%;
(2)对步骤(1)获得的训练集中的染色体图像进行数据扩增,所述数据扩增包括随机水平翻转、随机竖直翻转、随机裁剪至统一大小,并对测试集中的染色体图像的大小进行统一调整,以及对训练集和测试集图像像素值标准化的预处理,最后在训练时对训练集处理后的染色体图像进行平衡抽样,其中,对所述图像大小统一调整到
Figure 16907DEST_PATH_IMAGE001
,图像的像素值进行标准化处理如式(I)所示:
Figure 991816DEST_PATH_IMAGE002
(I),
其中,
Figure 4772DEST_PATH_IMAGE003
是预处理之前的图像,
Figure 746332DEST_PATH_IMAGE004
是预处理之后的图像,
Figure 567657DEST_PATH_IMAGE005
是预处理前的所有图像像素计算的均值,
Figure 306943DEST_PATH_IMAGE006
是预处理前所有图像像素计算的标准差,式(I)中所有运算都是矩阵运算;
(3)将经过步骤(2)获得的训练集中的染色体图像输入到含有卷积神经网络结构和全连接层结构的深度学习模型中,并对深度学习模型进行训练,其中,卷积神经网络结构用于从图像中计算得到图像的特征向量,全连接层结构用于从图像的特征向量中计算得到质量评估结果,在学习过程中使用反向传播算法对模型参数进行更新,其中,所述卷积神经网络结构为ResNet18,所述结构为:核大小为7×7,通道数为64,步长为2的卷积层,后接ReLU层和核大小为3×3,步长为2的最大池化层,然后连接核大小都为3×3,连接通道数分别是64、128、256、512的BasicBlock结构,最后连接平均池化层,其中,ReLU如式(II)所示:
Figure 341283DEST_PATH_IMAGE007
(II),
其中,
Figure 230741DEST_PATH_IMAGE008
为ReLU层输入向量,
Figure 296786DEST_PATH_IMAGE009
执行的运算是向量
Figure 613498DEST_PATH_IMAGE010
大于0的元素置为0;
(4)将经过步骤(2)获得的测试集中的全部染色体图像输入到经过步骤(3)训练后获得的深度学习模型中,对染色体图像进行质量评估;
(5)根据步骤(4)获得的染色体图像质量评估结果的高低进行降序排列,染色体图像质量高者居前,然后在排序后的染色体图像中居前选取15-30张染色体图像完成染色体图像质量筛选过程。
2.根据权利要求1所述的方法,其特征在于,步骤(3)中的卷积神经网络结构为EfficientNet-B3,所述结构为:核大小为3×3,通道数为40,步长为2的卷积层后接ReLU层,然后连接核大小分别为3×3、3×3、5×5、3×3、5×5、5×5、3×3,通道数分别是24、32、48、96、136、232、384的MBConv结构,最后连接核大小为1×1,通道数为1536,步长为2的卷积层和平均池化层。
3.根据权利要求1所述的方法,其特征在于,步骤(3)中的反向传播算法采用交叉熵损失函数计算在模型输出的质量评估结果和标注的质量结果的比对结果,再利用Adam优化器反向传播算法进行模型的训练,所述交叉熵损失函数形式如式(IV)所示:
Figure 132204DEST_PATH_IMAGE011
(IV),
其中,LCl S是指交叉熵损失,i是指第
Figure 90933DEST_PATH_IMAGE012
张染色体图像,
Figure 214747DEST_PATH_IMAGE013
是一个批数据的数量,
Figure 92573DEST_PATH_IMAGE014
是标注的此批数据中第
Figure 973941DEST_PATH_IMAGE012
张图像的质量结果,数值为0或者1,分别代表质量低和质量高,
Figure 329836DEST_PATH_IMAGE015
是由模型计算得到的此批数据中第
Figure 245840DEST_PATH_IMAGE012
张图像的质量评估结果,数值范围0到1,取值越大代表质量越高。
4.一种基于深度学习的分裂中期染色体图像质量筛选的系统,其特征在于,所述系统包括以下模块:
(1)收集模块,所述收集模块用于收集显微镜下分裂中期细胞的染色体图像,所述染色体图像根据其图像质量已被标注为高质或低质,并将图像随机划分训练集和测试集,其中训练集占比90%,测试集占比10%;
(2)数据扩增和预处理模块:所述数据扩增和预处理模块对收集模块(1)获得的训练集中的染色体图像进行数据扩增,所述数据扩增包括随机水平翻转、随机竖直翻转、随机裁剪至统一大小,并对测试集中的染色体图像的大小进行统一调整,以及对训练集和测试集图像像素值标准化的预处理,最后在训练时对训练集处理后的染色体图像进行平衡抽样,其中,所述图像大小统一调整到
Figure 294567DEST_PATH_IMAGE001
,图像的像素值进行标准化处理如式(I)所示:
Figure 663231DEST_PATH_IMAGE016
(I),
其中,
Figure 822817DEST_PATH_IMAGE003
是预处理之前的图像,
Figure 327748DEST_PATH_IMAGE004
是预处理之后的图像,
Figure 544447DEST_PATH_IMAGE005
是预处理前的所有图像像素计算的均值,
Figure 728304DEST_PATH_IMAGE006
是预处理前所有图像像素计算的标准差,式(I)中所有运算都是矩阵运算;
(3)深度学习模块,所述深度学习模块将经过数据扩增和预处理模块(2)获得的训练集中的染色体图像输入到含有卷积神经网络结构和全连接层结构的深度学习模型中,并对深度学习模型进行训练,其中,卷积神经网络结构用于从图像中计算得到图像的特征向量,全连接层结构用于从图像的特征向量中计算得到质量评估结果,在学习过程中使用反向传播算法对模型参数进行更新,其中,所述卷积神经网络结构为ResNet18,所述结构为:核大小为7×7,通道数为64,步长为2的卷积层,后接ReLU层和核大小为3×3,步长为2的最大池化层,然后连接核大小都为3×3,连接通道数分别是64、128、256、512的BasicBlock结构,最后连接平均池化层,其中,ReLU如式(II)所示:
Figure 301368DEST_PATH_IMAGE007
(II),
其中,
Figure 51018DEST_PATH_IMAGE008
为ReLU层输入向量,
Figure 582493DEST_PATH_IMAGE017
执行的运算是向量
Figure 784804DEST_PATH_IMAGE010
大于0的元素置为0;
(4)评估模块,所述评估模块将经过数据扩增和预处理模块(2)获得的测试集中的全部染色体图像输入到经过深度学习模块(3)训练后获得的深度学习模型中,对染色体图像进行质量评估;
(5)筛选输出模块:所述筛选输出模块根据评估模块(4)获得的染色体图像质量评估结果的高低进行降序排列,染色体图像质量高者居前,然后在排序后的染色体图像中居前选取15-30张染色体图像完成染色体图像质量筛选过程。
5.根据权利要求4所述的系统,其特征在于,深度学习模块(3)中的卷积神经网络结构为EfficientNet-B3,所述结构为:核大小为3×3,通道数为40,步长为2的卷积层后接ReLU层,然后连接核大小分别为3×3、3×3、5×5、3×3、5×5、5×5、3×3,通道数分别是24、32、48、96、136、232、384的MBConv结构,最后连接核大小为1×1,通道数为1536,步长为2的卷积层和平均池化层。
6.根据权利要求4所述的系统,其特征在于,深度学习模块(3)中的反向传播算法采用交叉熵损失函数计算在模型输出的质量评估结果和标注的质量结果的比对结果,再利用Adam优化器反向传播算法进行模型的训练,所述交叉熵损失函数形式如公式(IV)所示:
Figure 427138DEST_PATH_IMAGE018
(IV),
其中, LCl S是指交叉熵损失,i是指第
Figure 31295DEST_PATH_IMAGE012
张染色体图像,
Figure 468093DEST_PATH_IMAGE013
是一个批数据的数量,
Figure 157700DEST_PATH_IMAGE014
是标注的此批数据中第
Figure 72566DEST_PATH_IMAGE012
张图像的质量结果,数值为0或者1,分别代表质量低和质量高,
Figure 796809DEST_PATH_IMAGE015
是由模型计算得到的此批数据中第
Figure 732404DEST_PATH_IMAGE012
张图像的质量评估结果,数值范围0到1,取值越大代表质量越高。
CN202110939852.7A 2021-08-16 2021-08-16 基于深度学习的分裂中期染色体图像质量筛选方法和系统 Active CN113393461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110939852.7A CN113393461B (zh) 2021-08-16 2021-08-16 基于深度学习的分裂中期染色体图像质量筛选方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110939852.7A CN113393461B (zh) 2021-08-16 2021-08-16 基于深度学习的分裂中期染色体图像质量筛选方法和系统

Publications (2)

Publication Number Publication Date
CN113393461A CN113393461A (zh) 2021-09-14
CN113393461B true CN113393461B (zh) 2021-12-07

Family

ID=77622776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110939852.7A Active CN113393461B (zh) 2021-08-16 2021-08-16 基于深度学习的分裂中期染色体图像质量筛选方法和系统

Country Status (1)

Country Link
CN (1) CN113393461B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807259B (zh) * 2021-09-18 2022-11-18 上海北昂医药科技股份有限公司 一种基于多尺度特征融合的染色体分裂相定位与排序的方法
CN113821985B (zh) * 2021-11-22 2022-02-22 中移(上海)信息通信科技有限公司 一种交通状态预测方法、装置及电子设备
CN116777904B (zh) * 2023-08-16 2023-10-24 笑纳科技(苏州)有限公司 基于条带特征的不同分辨率异常染色体生成网络及方法
CN117152147B (zh) * 2023-10-31 2024-02-09 杭州德适生物科技有限公司 一种在线染色体协同分析方法、系统及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008115405A2 (en) * 2007-03-16 2008-09-25 Sti Medicals Systems, Llc A method of image quality assessment to procuce standardized imaging data
CN101930607B (zh) * 2010-08-04 2012-09-19 深圳中兴力维技术有限公司 一种图像质量判别方法
CN108391121B (zh) * 2018-04-24 2020-10-27 中国科学技术大学 一种基于深度神经网络的无参考立体图像质量评价方法
CN110163855B (zh) * 2019-05-17 2021-01-01 武汉大学 一种基于多路深度卷积神经网络的彩色图像质量评价方法
CN111325711A (zh) * 2020-01-16 2020-06-23 杭州德适生物科技有限公司 一种基于深度学习的染色体分裂相图像质量评价方法

Also Published As

Publication number Publication date
CN113393461A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113393461B (zh) 基于深度学习的分裂中期染色体图像质量筛选方法和系统
CN113192633B (zh) 基于注意力机制的胃癌细粒度分类方法
CN112102229A (zh) 一种基于深度学习的工业ct检测缺陷的智能识别方法
CN116363123B (zh) 对循环肿瘤细胞检测的荧光显微成像系统及其方法
CN110728312B (zh) 一种基于区域自适应注意力网络的干眼症分级系统
CN109902715A (zh) 一种基于上下文聚合网络的红外弱小目标检测方法
CN112884712A (zh) 一种显示面板缺陷分类的方法及相关装置
CN110287777A (zh) 一种自然场景下的金丝猴躯体分割算法
CN109191434A (zh) 一种细胞分化中的图像检测系统及检测方法
CN114463759A (zh) 一种基于无锚框算法的轻量化文字检测方法及装置
CN116312782B (zh) 一种融合影像基因数据的空间转录组spot区域聚类方法
CN111860587A (zh) 一种用于图片小目标的检测方法
CN113724842A (zh) 一种基于注意力机制的宫颈组织病理辅助诊断方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN115170475A (zh) 一种基于深度学习方法的无纺布缺陷检测方法
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
CN116402769A (zh) 一种兼顾大小目标的高精度纺织品瑕疵智能检测方法
CN114399763B (zh) 一种单样本与小样本微体古生物化石图像识别方法及系统
CN111680575A (zh) 一种人类上皮细胞染色分类装置、设备及存储介质
CN112084913A (zh) 一种端到端的人体检测与属性识别方法
CN116958662A (zh) 一种基于卷积神经网络的钢带缺陷分类方法
CN116189160A (zh) 一种基于局部对比度机制的红外弱小目标检测方法
CN115035339A (zh) 一种基于人工智能的膀胱镜图像分类方法
CN114782403A (zh) 基于混合空间和通道间注意力的肺炎图像检测方法及装置
CN112816408B (zh) 一种光学镜片的瑕疵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220520

Address after: Room 606, unit 3, floor 6, building 4, yard 42, Qibei Road, Changping District, Beijing 102208

Patentee after: Zhongke Yihe intelligent medical technology (Beijing) Co.,Ltd.

Address before: 100191 No. 49 Garden North Road, Beijing, Haidian District

Patentee before: PEKING University THIRD HOSPITAL (PEKING UNIVERSITY THIRD CLINICAL MEDICAL College)

Patentee before: Institute of computing technology, Chinese Academy of Sciences

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 528251, 12th and 13th floors, Building 2, Zone 1, International Innovation Park, No. 6 Ganggang Road, Guicheng Street, Nanhai District, Foshan City, Guangdong Province (Residence application)

Patentee after: Zhongke Yihe Intelligent Medical Technology (Foshan) Co.,Ltd.

Address before: Room 606, unit 3, floor 6, building 4, yard 42, Qibei Road, Changping District, Beijing 102208

Patentee before: Zhongke Yihe intelligent medical technology (Beijing) Co.,Ltd.

CP03 Change of name, title or address