CN113408505A - 一种基于深度学习的染色体极性识别方法和系统 - Google Patents

一种基于深度学习的染色体极性识别方法和系统 Download PDF

Info

Publication number
CN113408505A
CN113408505A CN202110957126.8A CN202110957126A CN113408505A CN 113408505 A CN113408505 A CN 113408505A CN 202110957126 A CN202110957126 A CN 202110957126A CN 113408505 A CN113408505 A CN 113408505A
Authority
CN
China
Prior art keywords
chromosome
polarity
training
data
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110957126.8A
Other languages
English (en)
Other versions
CN113408505B (zh
Inventor
田婵
赵屹
乔杰
肖立
于天琦
罗纯龙
于富海
罗宇凡
王曼卿
赵相然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Yihe Intelligent Medical Technology (Foshan) Co.,Ltd.
Original Assignee
Institute of Computing Technology of CAS
Peking University Third Hospital Peking University Third Clinical Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS, Peking University Third Hospital Peking University Third Clinical Medical College filed Critical Institute of Computing Technology of CAS
Priority to CN202110957126.8A priority Critical patent/CN113408505B/zh
Publication of CN113408505A publication Critical patent/CN113408505A/zh
Application granted granted Critical
Publication of CN113408505B publication Critical patent/CN113408505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供了一种基于深度学习的染色体极性识别方法,所述方法包括(1)收集数据集,(2)构建训练集和测试集,(3)基于训练集对染色体极性识别模型进行学习训练,(4)将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。本发明还提供了一种基于深度学习的染色体极性识别系统。本发明提供的方法和系统基于深度学习分类算法,能够准确地判断当前染色体极性类别,并据此完成染色体极性调整,使得染色体均保持短臂朝上的状态。所述方法和系统染色体极性识别准确率达96.36%,而且数据来源简单,染色体分析自动化程度高,流程更加简洁,具有广泛的工业实用性。

Description

一种基于深度学习的染色体极性识别方法和系统
技术领域
本发明涉及计算机视觉图像处理,染色体计数等技术领域,具体涉及一种染色体极性识别方法和系统。
背景技术
染色体核型分析是发现染色体病的重要手段,染色体数目或者结构异常都能通过染色体核型分析的技术手段发现。为了便于临床医生根据染色体的形态结构给出相应诊断结果,分割出来的所有染色体会按照顺序排列,同时保证呈竖直状态且染色体短臂朝上,长臂朝下,即调整染色体极性,最终形成准确清晰的染色体核型图。
目前,染色体分析系统一般严重依赖人工调整染色体极性,医生需要通过点击或拖拽的方式调整,耗时耗力。目前已存在的技术方法往往会同时完成染色体类型识别和染色体极性识别。这些方法同时利用计算机图形学方法和深度卷积神经网络模型提取与染色体类型识别和极性识别相关的特征,然后利用两个简单的分类器来分别判断染色体的类别和极性。这些方法的优点在于可以同时完成染色体类型识别和极性识别,节省了运算时间和运算所需资源;而缺点在于,染色体类型识别应与染色体极性无关,即判断染色体类别不应受染色体极性的影响。此外,目前的方法都没有阐明如何得到处于竖直状态的染色体,这是后续染色体进行极性翻转的前提步骤。
目前人工调整染色体极性是广泛使用的方法,当前的染色体分析系统提供点击拖拽功能,方便临床医生对观察发现的染色体极性异常进行调整,即上下翻转极性异常的染色体,保证短臂朝上,长臂朝下的状态,需要耗费人力,效率较低,尤其有的染色体长短臂不易识别,给诊断造成困难。
基于深度学习的染色体识别方法充分利用深度学习技术强大的特征提取能力,同时也补充计算机图形学提取的特征,最后利用两个独立的分类器分别完成染色体类型识别和染色极性识别,但主要目的还是为了完成染色体类型识别,因此首先需要保证染色体类型识别与染色体极性无关,即无论染色体短臂是否朝上都需要模型准确的判断染色体类别,因此两个任务之前存在一定的冲突,所学到的特征也无法使两个任务同时达到最优效果。此外,该方法默认输入的染色体处于竖直状态,没有考虑从细胞分裂中期图像中分割出来的单条染色体并不必然处于竖直状态,是一个比较重大的技术缺失。
人工调整染色体极性效率较低,而基于深度学习的染色体识别方法的缺陷则是由于染色体类型识别和染色体极性识别所需的特征存在冲突而且难以阐明如何从分割出的、处于任意角度状态下的染色体得到处于竖直状态的染色体,以便染色体极性识别模型判断和调整染色体极性。本发明的目的旨在解决染色体极性识别过程中人工效率低下以及基于深度学习的染色体识别算法任务冲突和缺少染色体旋转关键步骤技术方案的问题,提出了一种染色体极性识别方法及系统。
发明内容
基于上述目的,本发明拟通过计算染色体在水平面的投影距离和专注于染色体极性识别任务的深度卷积神经网络来解决现有技术存在的问题。本发明首先提供了一种基于深度学习的染色体极性识别方法,所述方法包括以下步骤:
(1)收集数据集:收集从细胞分裂中期图像中通过染色体分割方法分割出来的单条染色体,旋转收集到的染色体呈竖直状态并提取染色体的极性特征,以短臂朝上或短臂朝下进行极性标注;
(2)构建训练集和测试集:将步骤(1)获得的数据集划分为训练集和测试集,构建以分类网络结构为主干网络的染色体极性识别模型;
(3)基于训练集对染色体极性识别模型进行学习训练,其中,Softmax函数对输出的2维向量归一化,然后使用交叉熵损失函数度量预测结果与真实结果之间的距离,然后通过随机梯度下降算法对网络参数进行学习;
(4)将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。
本发明需要收集单条染色体,这些染色体是从细胞分裂中期图像中通过染色体分割方法分割出来的单条染色体,其中轴仍会保持其在分裂中期图像中的角度。因此,为了使每条染色体呈竖直状态,本发明将沿逆时针旋转染色体并实时计算染色体在水平方向的投影距离,直至投影距离最短为止。
在一个优选的实施方案中,步骤(1)所述的旋转收集到的染色体呈竖直状态所需的角度计算为式(I)所示:
Figure 403357DEST_PATH_IMAGE001
(I)
其中,投影距离
Figure 135690DEST_PATH_IMAGE002
指两个投影点之间的水平距离,当前旋转角度下染色体区域最左端点在水平面上的投影点为
Figure 719118DEST_PATH_IMAGE003
,染色体区域最右端点在水平面上的投影点为
Figure 437675DEST_PATH_IMAGE004
,将所述染色体图像根据旋转角度θ进行逆时针旋转至竖直状态。
对经旋转后的呈竖直状态的染色体,进行极性标注,其中,若短臂朝下标注为“down”,短臂朝上标注为“up”。本发明充分利用卷积神经网络优异的特征提取能力,利用包括但不限于VGGnet、ResNet、DenseNet等分类模型提取与染色体极性相关特征,并最终进行极性二分类,得到染色体极性识别模型。
在一个优选的实施方案中,步骤(2)所述分类网络结构为ResNet101。
更为优选地,以7:3划分训练集和测试集,并使用式(II)对训练集和测试集进行图像归一化:
Figure 422949DEST_PATH_IMAGE005
(II)
其中Io代表原始图片且已规范至0.0到1.0范围,m代表训练集数据在各个通道上的均值,δ代表训练集数据在各个通道上的方差,In代表图像归一化后的图像数据。
在一个优选的实施方案中,步骤(3)所述交叉熵损失函数为式(IV)所示:
Figure 329112DEST_PATH_IMAGE006
(IV)
其中,L(z,y)是指样本的预测类别与其真实类别的交叉熵损失,z表示最后一个全连接层输出的2维向量, y代表该样本的真实类别,为了简单起见,记“down”类为0,“up”类为1,则
Figure 399836DEST_PATH_IMAGE007
,Ncls代表类别数目,i代表类别索引,Zy代表输出向量在真实类别位置处的值,zi代表第i类位置处的值,e为自然底数。
其次,本发明还提供了一种基于深度学习的染色体极性识别系统,所述系统包括以下模块:
(1)数据收集模块,所述模块用于收集从细胞分裂中期图像中通过染色体分割方法分割出来的单条染色体,旋转收集到的染色体呈竖直状态并提取染色体的极性特征,以短臂朝上或短臂朝下进行极性标注;
(2)训练集和测试集构建模块,所述模块用于将数据收集模块提供的数据集划分为训练集和测试集,并对数据集进行预处理和数据扩增;
(3)训练模块,所述模块用于将经过训练集和测试集构建模块提供的训练集中的染色体图像输入到以分类网络结构为主干网络的染色体极性识别模型,并对染色体极性识别模型进行学习训练,其中,Softmax函数对输出的2维向量归一化,然后使用交叉熵损失函数度量预测结果与真实结果之间的距离,然后通过随机梯度下降算法对网络参数进行学习;
(4)测试模块:所述测试模块将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。
在一个优选的实施方案中,数据收集模块所述的旋转收集到的染色体呈竖直状态所需的角度计算为式(I)所示:
Figure 922085DEST_PATH_IMAGE008
(I)
其中,投影距离
Figure 761865DEST_PATH_IMAGE009
是指两个投影点之间的水平距离,当前旋转角度下染色体区域最左端点在水平面上的投影点为
Figure 836000DEST_PATH_IMAGE010
,染色体区域最右端点在水平面上的投影点为
Figure 128441DEST_PATH_IMAGE011
,将所述染色体图像根据旋转角度θ进行逆时针旋转至竖直状态。
在另一个优选的实施方案中,训练集和测试集构建模块所述分类网络结构为ResNet101。
更为优选地,以7:3划分训练集和测试集,并使用式(II)对训练集和测试集进行图像归一化:
Figure 454380DEST_PATH_IMAGE012
(II)
其中,Io代表原始图片且已规范至0.0到1.0范围,m代表训练集数据在各个通道上的均值,δ代表训练集数据在各个通道上的方差,In代表图像归一化后的图像数据。
在一个优选的实施方案中,训练模块所述交叉熵损失函数为式(IV)所示:
Figure 148667DEST_PATH_IMAGE013
(IV)
其中,L(z,y)是指样本的预测类别与其真实类别的交叉熵损失, z表示最后一个全连接层输出的2维向量, y代表该样本的真实类别,为了简单起见,记“down”类为0,“up”类为1,则
Figure 393703DEST_PATH_IMAGE014
,Ncls代表类别数目,i代表类别索引。Zy代表输出向量在真实类别位置处的值,zi代表第i类位置处的值,e为自然底数。
本发明首次提出了旋转分割后的染色体识别方法,染色体极性识别模型判断染色体极性,最终通过极性结果完成染色体极性翻转,得到竖直的、短臂朝上长臂朝下的染色体。本发明技术效果如下:
1. 数据来源简单,因为本发明包含了基于投影距离的染色体旋转方法,因此采集的数据是从细胞分裂中期的图像分割得到的单条染色体,且无需人工调整其中轴线方位即可得到处于竖直状态的染色体,使得染色体分析自动化程度更高,流程更加简洁,可广泛推广应用。
2. 模型设计基于深度学习分类算法,能够准确地判断当前染色体极性类别,并据此完成染色体极性调整,使得染色体均保持短臂朝上的状态。发明人用4490例标注的独立染色体图训练模型,其中训练集与测试集比例为7:3。统计显示,“up”类染色体图有2289例,“down”类染色体图有2201例,分为训练集3143例和测试集1347例,最终测试结果:真阳性(TP,True Positive)=686;假阳性(FP ,False Positive)=17;真阴性(TN,True Negative)=612;假阴性(FN,False Negative)=32;准确率(Accuracy)=96.36%。
附图说明
图1基于深度学习的染色体极性识别方法流程示意图;
图2 分割后单条染色体示意图;
图3 基于投影距离的染色体旋转方法原理示意图;
图4 ResNet101网络结构示意图。
具体实施方式
下面结合具体实施例来进一步描述本发明,本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的,并不对本发明的权利要求所限定的保护范围构成任何限制。
本发明是一种基于深度学习的染色体极性识别方法,主要目的是为了解决分割后的染色体旋转和极性识别问题。本发明基于深度学习ResNet模型,发明人对收集到的分割后的染色体进行基于投影距离的染色体旋转,得到处于竖直状态的染色体。在对这些竖直状态的染色体进行标注后,构建训练集和测试集。模型训练完成后可以直接预测给出染色体的极性结果,据此完成染色体极性翻转。
下面将结合附图和实施例对本发明作进一步的详细说明。
实施例
本发明步骤流程如图1所示,主要包含以下四个步骤:
1. 收集数据集:收集从细胞分裂中期图像中通过染色体分割方法分割出来的单条染色体,旋转收集到的染色体呈竖直状态并提取染色体的极性特征,以短臂朝上或短臂朝下进行极性标注;
1.1收集染色体
采集徕卡CytoVision 自动细胞遗传学平台记录的高分辨率显微镜视野下的处于有丝分裂中期细胞染色体真实图像样本共计4490例。收集分割得到的一例单条染色体图像如图2所示,A为分割前图像,B为分割后图像。分割后的染色体图像为一矩形图像,该矩形边缘紧密包围该染色体,且其中轴线所处角度与原图所处的角度一致。
1.2旋转染色体(本操作可使用Python语言开发并受到OpenCV开源计算机视觉库和Numpy开源科学计算库支持),构建基于投影距离的染色体旋转方法,根据最小投影距离旋转染色体。
本发明发现,从细胞分裂中期图像中分割出来的单条染色体,其中轴线仍会保持其在分裂中期图像中的角度,因此第一步需要找到合适的旋转角度使得旋转后的染色体处于竖直状态。然后使用大量经过人工标注的染色体极性数据训练染色体极性识别模型,该模型为图像二分类模型,仅用来判断染色体短臂朝上或朝下。最后,根据染色体极性识别模型的判断结果,决定是否需要上下翻转染色体。
本步骤中所述旋转染色体呈竖直状态所需的角度计算为式(I)所示:
Figure 439020DEST_PATH_IMAGE015
(I)
其中,投影距离
Figure 303070DEST_PATH_IMAGE016
是指两个投影点之间的水平距离,当前旋转角度下染色体区域最左端点在水平面上的投影点为
Figure 851863DEST_PATH_IMAGE017
,染色体区域最右端点在水平面上的投影点为
Figure 533380DEST_PATH_IMAGE018
,将所述染色体图像根据旋转角度θ进行逆时针旋转至竖直状态。
本方法通过度量染色体区域最左端点到最右端点在水平上的投影距离来度量染色体是否处于竖直状态。对于任意分割得到的染色体,以图像几何中心为原点,以角度1度为步长,以角度180度为上限,逆时针旋转图像并同步计算染色体区域最左端点和最右端点在水平方向上的投影距离,当该投影距离达到最小时,记录旋转的角度,并将染色体按照该角度旋转,得到处于竖直状态的染色体。具体地,如图3所示为基于投影距离的染色体旋转方法示意图,将染色体旋转的角度记作
Figure 800414DEST_PATH_IMAGE019
,当前旋转角度下染色体区域最左端点记作
Figure 468155DEST_PATH_IMAGE020
,其在水平面上的投影为
Figure 464930DEST_PATH_IMAGE021
,染色体区域最右端点记作
Figure 723873DEST_PATH_IMAGE022
,其在水平面上的投影为
Figure 947044DEST_PATH_IMAGE023
,因此,投影距离
Figure 684056DEST_PATH_IMAGE024
是两个投影点之间的水平距离。通过最小化投影距离
Figure 800917DEST_PATH_IMAGE025
找到旋转角度
Figure 230761DEST_PATH_IMAGE026
,作为该染色体旋转至竖直状态所需角度。最后将该染色体图像根据旋转角度θ进行逆时针旋转,并在空白区域填充(255,255,255),最终得到白色背景的呈竖直状态的染色体。
1.3标注染色体
将旋转后的染色体进行数据标注,其中短臂朝下标记为“down”类型,共有2201例,短臂朝上标记为“up”类型,共有2289例。
2.划分训练集和测试集
2.1划分数据集
本发明按照比例7:3划分训练集和测试集,得到训练集3143例和测试集1347例。
2.2进行数据预处理和数据扩增(本操作可使用使用Python语言编写,使用PyTorch开源机器学习库)。训练集和测试集图像均缩放至224×224,然后使用式(II)对训练集和测试集进行图像归一化:
Figure 675649DEST_PATH_IMAGE027
(II)
其中,Io代表原始图片且已规范至0.0到1.0范围,m代表训练集数据在各个通道上的均值,本实施例中各通道均值分别为[0.772, 0.772, 0.772],δ代表训练集数据在各个通道上的方差,本实施例中各通道方差分别为[0.245, 0.245, 0.245], In代表归一化后的图像数据。归一化后的数据集使得输入像素分布一致,归一化后,数据集像素值符合均值为0,标准差为1的高斯分布,模型训练更容易收敛。训练模型前,还对训练集数据进行数据扩增操作,本实施例中选择以0.5的概率对图像进行原地水平翻转,因此不会影响图像真实类别(每轮迭代时以0.5的概率原地水平翻转,不会影响最终数据量)。
3. 将经过步骤(2)获得的训练集中的染色体图像输入到以分类网络结构为主干网络的染色体极性识别模型,并对染色体极性识别模型进行学习训练,其中,使用Softmax函数对输出的2维向量归一化,然后使用交叉熵损失函数度量预测结果与真实结果之间的距离,然后通过随机梯度下降算法对网络参数进行学习
3.1构建基于分类网络的染色体极性识别模型(本操作可使用Python语言编写,并受PyTorch开源机器学习库支持)。
染色体极性识别模型可以采用经典的分类网络结构如VGGNet、ResNet和DenseNet等作为主要结构,本实施例以ResNet101(ResNet系列网络中深度为101层的神经网络)作为主干网络(本实施例中ResNet101结构示意图见图4)。其中,ResNet作为残差网络的重要代表用于本发明的分类任务,有效地解决了由于神经网络不断加深而带来的网络退化问题,可以训练更深的网络,增强网络的表达能力。残差网络是指网络的每层的输出h由原始输入x与卷积和非线性激活函数映射输出F(x)的和组成,即,h=F(x)+x;除ResNet以外还有诸如ResNext、DenseNet等残差网络,都可以应用于本发明技术方案。
本实施例中,选择101层的ResNet网络作为基本网络,该101层结构中包含100层卷积层和一层全连接层,并对最后一层全连接层的输出维度进行修改(原始的ResNet101最后一层全连接层权重维度为2048×1000,为了适应本任务,将其修改为2048×2)。该残差网络基于bottleneck模块构造,每个bottleneck模块由三个卷积层构成,分别是两个“1×1”的卷积层和一个“3×3”的卷积层,其中两个“1×1”的卷积核负责减少和增加通道维度,通过bottleneck模块可以减少计算量,因而减少训练时间,降低计算和存储消耗。为了形成残差结构,与三个卷积层并行的还有一个旁路连接(shortcut),若前后两个bottleneck模块通道维度一致,则采用恒等映射将输入逐元素与三个卷积层输出相加,若前后两个bottleneck模块通道维度不一致,则额外采用一个“1×1”的卷积层增加输入通道维度再与三个卷积层的输出逐元素相加。本实施例主干网络采用的ResNet101网络按照输出特征图尺度可以分为5个不同阶段,分别为“Conv1”、“Conv2”、“Conv3”、“Conv4”和“Conv5”。“Conv1”阶段由一个7×7的卷积核组成,移动步长为2,该阶段输出特征图
Figure 216352DEST_PATH_IMAGE028
,其中C代表特征图通道维度,H和W分别代表特征图高和宽,并且H和W共同组成空间尺度。“Conv2”阶段首先由一个3×3大小的最大池化层进行步长为2的池化操作,进一步缩小空间尺度,然后由若干个bottleneck模块组成。剩余的“Conv3”、“Conv4”和“Conv5”同样由若干个bottleneck模块组成,其中仅每个阶段第一个bottleneck的第一个1×1的卷积核步长为2,以此不断缩小特征空间尺度。具体的,每个阶段bottleneck模块配置各不相同。“Conv2”阶段由3个bottleneck模块组成,三个卷积层通道维度为(64,64,256)。“Conv3”阶段由4个bottleneck模块组成,三个卷积层通道维度为(128,128,512)。“Conv4”阶段由23个bottleneck模块组成,三个卷积层通道维度为(256,256,1024)。“Conv5”阶段由3个bottleneck模块组成,三个卷积层通道维度为(512,512,2048)。“Conv5”阶段后为全局平均池化层(Global Average Pooling),该层沿着H和W维度计算均值,得到1×1×2048的特征向量。染色体极性识别模型的最后一层(见图4)是一个2048×2的全连接层(FullyConnected Layer),该全连接层作为极性分类器,能够与主干网络形成一个端到端(end-to-end)的网络,可以进行联合训练,使得主干网络提取的特征更加适合染色体极性识别所需。
3.2设置归一化参数、损失函数和超参数(超参数包括学习率和批次大小等在内的参数均为超参数),训练模型。
3.2.12维向量归一化(本操作可使用Python语言并受到PyTorch开源机器学习库支持)
染色体极性识别任务可以视为二分类任务( “up”和“down”),因此首先使用Softmax函数对输出的2维向量归一化,Softmax又称归一化指数函数,在本实施例中,其能将一个含任意实数的2维向量z压缩到另一个2维向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。Softmax函数如式(III)所示:
Figure 453298DEST_PATH_IMAGE029
(III)
其中, z表示最后一个全连接层输出的2维向量, y代表该样本的真实类别,为了简单起见,记“down”类为0,“up”类为1,则
Figure 788464DEST_PATH_IMAGE030
。 ,Ncls代表类别数目,本实施例中为2,输出2维向量,i代表类别索引。 Zy 代表输出向量在真实类别位置处的值,zi代表第 i类位置处的值。对输出的2维向量归一化。2维向量是指的有两个分量的向量,是网络预测的输出,分别代表“up”类和“down”类,e是指自然底数。归一化指的是指Softmax函数将输出进行缩放使得向量的两个分量的和为1,归一化的结果符合概率定义,这样两个分量就可以作为网络预测的类别的概率。
3.2.2交叉熵损失函数度量预测结果与真实结果之间的距离(本操作可使用Python语言实现并受到PyTorch开源机器学习库支持)
使用分类任务常用的交叉熵损失函数(Cross Entropy Loss)来度量预测结果与真实结果之间的距离,具体地,交叉熵损失函数形式如公式(IV)所示:
Figure 986227DEST_PATH_IMAGE031
(IV)
其中, z表示最后一个全连接层输出的2维向量,y代表该样本的真实类别,为了简单起见,记“down”类为0,“up”类为1,则
Figure 65042DEST_PATH_IMAGE032
。Ncls代表类别数目,本实施例中为2, i代表类别索引。Zy 代表输出向量在真实类别位置处的的值, zi代表第i类位置处的值。该函数首先对输出的2维向量使用Softmax归一化,使得所有类别的输出之和等于1,随后通过交叉熵损失函数度量差距。例如,当某个样本的真实类别为“down”,网络的预测结果为
Figure 563019DEST_PATH_IMAGE033
,则差距即:
交叉熵损失为:
Figure 662562DEST_PATH_IMAGE034
本实施例中通过交叉熵损失函数度量预测结果和真实结果之间的差距:结果显示训练集开始的损失为0.448,损失是一个动态下降过程,当训练结束时可降低至0.001。
3.3随机梯度下降系列算法对网络参数进行学习
通过随机梯度下降(Stochastic Gradient Descent)系列算法对网络参数进行学习。网络参数是指ResNet101的含参的神经元,主要是卷积层参数:包括卷积核权重参数和偏置参数,全连接层权重参数和偏置参数等,前述参数不需要具体设置,将在ImageNet数据集上(Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deepconvolutional neural networks[J]. Advances in neural information processingsystems, 2012, 25: 1097-1105.)训练得到的ResNet101参数作为本实施例中的ResNet101的初始化参数,然后通过基于动量的随机梯度下降算法根据损失函数相对参数的梯度更新参数。本操作可使用Python语言编写并受到PyTorch开源机器学习库支持。
本实施例中选择基于动量的随机梯度下降算法 (Sutskever, Ilya, et al. "Onthe importance of initialization and momentum in deep learning."International conference on machine learning. 2013.)如(V)所示:
Figure 878780DEST_PATH_IMAGE035
(V)
其中, ε表示学习率, f(θ)表示损失函数,
Figure 230127DEST_PATH_IMAGE036
表示损失函数相对θt的梯度,v表示更新速率,t表示迭代次数,动量因子momentum(μ)设置为0.9,权重衰减因子设置为 5×10-4,学习率初始化为0.01,批次大小为32,总共训练100个epoch,其中第60个epoch和第90个epoch学习率下降至原来的1/10。通过随机梯度下降系列算法对网络参数进行学习,最终使得模型在训练集上的平均损失从0.448降低至0.001。
以上包括图像归一化函数、ResNet101这样的网络结构、Softmax函数、交叉熵损失函数、基于动量的随机梯度下降算法在内的算法均可由PyTorch开源机器学习库提供支持。
4.将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。
模型训练完毕后,将测试集经过相同的数据预处理,输入到模型中将获得每个样本的输出向量,选择值最大的索引所对应的类别作为对该染色体预测的极性结果。若预测为第0类,即“down”类,则代表染色体极性识别模型预测该染色体短臂朝下,因此通过上下翻转使该染色体短臂朝上。若预测为第1类,即“up”类,则代表染色体极性识别模型预测该染色体短臂朝上,因此无需进行上下翻转操作。
本发明的模型设计基于深度学习分类算法,能够自动准确的识别染色体极性。发明人用4490例标注的独立染色体图训练模型,其中训练集与测试集比例为7:3。
统计显示,“up”类染色体图有2289例,“down”类染色体图有2201例,分为训练集3143例和测试集1347例,最终测试结果真阳性(TP,True Positive)=686;假阳性(FP ,False Positive)=17;真阴性(TN,True Negative)=612;假阴性(FN,False Negative)=32;准确率(Accuracy)=96.36%。

Claims (10)

1.一种基于深度学习的染色体极性识别方法,其特征在于,所述方法包括以下步骤:
(1)收集数据集:收集从细胞分裂中期图像中通过染色体分割方法分割出来的单条染色体,旋转收集到的染色体呈竖直状态并提取染色体的极性特征,以短臂朝上或短臂朝下进行极性标注;
(2)构建训练集和测试集:将步骤(1)获得的数据集划分为训练集和测试集,并对数据集进行预处理和数据扩增;
(3)将经过步骤(2)获得的训练集中的染色体图像输入到以分类网络结构为主干网络的染色体极性识别模型,并对染色体极性识别模型进行学习训练,其中,使用Softmax函数对输出的2维向量归一化,然后使用交叉熵损失函数度量预测结果与真实结果之间的距离,然后通过随机梯度下降算法对网络参数进行学习;
(4)将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。
2.根据权利要求1所述的方法,其特征在于,步骤(1)所述的旋转收集到的染色体呈竖直状态所需的角度计算为式(I)所示:
Figure 352105DEST_PATH_IMAGE001
(I)
其中,投影距离
Figure 81026DEST_PATH_IMAGE002
是指两个投影点之间的水平距离,当前旋转角度下染色体区域最左端点在水平面上的投影点为
Figure 753316DEST_PATH_IMAGE003
,染色体区域最右端点在水平面上的投影点为
Figure 251294DEST_PATH_IMAGE004
,将所述染色体图像根据旋转角度
Figure 491782DEST_PATH_IMAGE005
进行逆时针旋转至竖直状态。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中以7:3划分训练集和测试集,所述的预处理包括使用式(II)对训练集和测试集进行图像归一化:
Figure 35896DEST_PATH_IMAGE006
(II)
其中,
Figure 918401DEST_PATH_IMAGE007
代表原始图片且已规范至0.0到1.0范围,
Figure 739727DEST_PATH_IMAGE008
代表训练集数据在各个通道上的均值,δ代表训练集数据在各个通道上的方差,In代表图像归一化后的图像数据。
4.根据权利要求1所述的方法,其特征在于,步骤(3)所述分类网络结构为ResNet101。
5.根据权利要求4所述的方法,其特征在于,步骤(3)所述交叉熵损失函数为式(IV)所示:
Figure 682275DEST_PATH_IMAGE009
(IV)
其中,
Figure 713685DEST_PATH_IMAGE010
表示样本的预测类别与其真实类别的交叉熵损失,
Figure 134302DEST_PATH_IMAGE011
表示最后一个全连接层输出的2维向量,
Figure 75713DEST_PATH_IMAGE012
代表该样本的真实类别,记“down”类为0,“up”类为1,则
Figure 189163DEST_PATH_IMAGE013
,
Figure 707869DEST_PATH_IMAGE014
代表类别数目,
Figure 932177DEST_PATH_IMAGE015
代表类别索引,
Figure 462515DEST_PATH_IMAGE016
代表输出向量在真实类别位置处的值,
Figure 746866DEST_PATH_IMAGE017
代表第
Figure 755798DEST_PATH_IMAGE015
类位置处的值,e为自然底数。
6.一种基于深度学习的染色体极性识别系统,其特征在于,所述系统包括以下模块:
(1)数据收集模块,所述模块用于收集从细胞分裂中期图像中通过染色体分割方法分割出来的单条染色体,旋转收集到的染色体呈竖直状态并提取染色体的极性特征,以短臂朝上或短臂朝下进行极性标注;
(2)训练集和测试集构建模块,所述模块用于将数据收集模块提供的数据集划分为训练集和测试集,并对数据集进行预处理和数据扩增;
(3)训练模块,所述模块用于将经过训练集和测试集构建模块提供的训练集中的染色体图像输入到以分类网络结构为主干网络的染色体极性识别模型,并对染色体极性识别模型进行学习训练,其中,Softmax函数对输出的2维向量归一化,然后使用交叉熵损失函数度量预测结果与真实结果之间的距离,然后通过随机梯度下降算法对网络参数进行学习;
(4)测试模块:所述测试模块将测试集输入到染色体极性识别模型进行测试,输出待预测染色体的极性结果。
7.根据权利要求6所述的系统,其特征在于,数据收集模块所述的旋转收集到的染色体呈竖直状态所需的角度计算为式(I)所示:
Figure 783797DEST_PATH_IMAGE001
(I)
其中,投影距离
Figure 434221DEST_PATH_IMAGE002
是指两个投影点之间的水平距离,当前旋转角度下染色体区域最左端点在水平面上的投影点为
Figure 217369DEST_PATH_IMAGE003
,染色体区域最右端点在水平面上的投影点为
Figure 117192DEST_PATH_IMAGE004
,将所述染色体图像根据旋转角度
Figure 683302DEST_PATH_IMAGE005
进行逆时针旋转至竖直状态。
8.根据权利要求6所述的系统,其特征在于,训练集和测试集构建模块以7:3划分训练集和测试集,并使用式(II)对训练集和测试集进行图像归一化:
Figure 453812DEST_PATH_IMAGE006
(II)
其中,
Figure 814386DEST_PATH_IMAGE007
代表原始图片且已规范至0.0到1.0范围,
Figure 794981DEST_PATH_IMAGE008
代表训练集数据在各个通道上的均值,δ代表训练集数据在各个通道上的方差,In代表图像归一化后的图像数据。
9.根据权利要求6所述的系统,其特征在于,训练集和测试集构建模块所述分类网络结构为ResNet101。
10.根据权利要求9所述的系统,其特征在于,训练模块所述交叉熵损失函数为式(IV)所示:
Figure 164782DEST_PATH_IMAGE009
(IV)
其中,
Figure 524219DEST_PATH_IMAGE010
表示样本的预测类别与其真实类别的交叉熵损失,
Figure 321274DEST_PATH_IMAGE011
表示最后一个全连接层输出的2维向量,
Figure 523585DEST_PATH_IMAGE012
代表该样本的真实类别,记“down”类为0,“up”类为1,则
Figure 697078DEST_PATH_IMAGE018
代表类别数目,
Figure 176601DEST_PATH_IMAGE015
代表类别索引,
Figure 144557DEST_PATH_IMAGE016
代表输出向量在真实类别位置处的值,
Figure 834164DEST_PATH_IMAGE017
代表第
Figure 545768DEST_PATH_IMAGE015
类位置处的值,e为自然底数。
CN202110957126.8A 2021-08-19 2021-08-19 一种基于深度学习的染色体极性识别方法和系统 Active CN113408505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110957126.8A CN113408505B (zh) 2021-08-19 2021-08-19 一种基于深度学习的染色体极性识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110957126.8A CN113408505B (zh) 2021-08-19 2021-08-19 一种基于深度学习的染色体极性识别方法和系统

Publications (2)

Publication Number Publication Date
CN113408505A true CN113408505A (zh) 2021-09-17
CN113408505B CN113408505B (zh) 2022-06-14

Family

ID=77689039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110957126.8A Active CN113408505B (zh) 2021-08-19 2021-08-19 一种基于深度学习的染色体极性识别方法和系统

Country Status (1)

Country Link
CN (1) CN113408505B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821985A (zh) * 2021-11-22 2021-12-21 中移(上海)信息通信科技有限公司 一种交通状态预测方法、装置及电子设备
CN115330603A (zh) * 2022-10-17 2022-11-11 湖南自兴智慧医疗科技有限公司 基于深度学习卷积神经网络的人类染色体图像摆正方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710417A (zh) * 2009-11-06 2010-05-19 广东威创视讯科技股份有限公司 一种染色体图像处理方法及其系统
CN109300111A (zh) * 2018-08-27 2019-02-01 杭州德适生物科技有限公司 一种基于深度学习的染色体识别方法
CN111461068A (zh) * 2020-04-27 2020-07-28 湖南自兴智慧医疗科技有限公司 一种染色体中期图识别和分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710417A (zh) * 2009-11-06 2010-05-19 广东威创视讯科技股份有限公司 一种染色体图像处理方法及其系统
CN109300111A (zh) * 2018-08-27 2019-02-01 杭州德适生物科技有限公司 一种基于深度学习的染色体识别方法
WO2020042704A1 (zh) * 2018-08-27 2020-03-05 杭州德适生物科技有限公司 一种基于深度学习的染色体识别方法
CN111461068A (zh) * 2020-04-27 2020-07-28 湖南自兴智慧医疗科技有限公司 一种染色体中期图识别和分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周彬彬: "复杂环境下车牌识别系统中关键技术的研究与实现", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》 *
周彬彬: "复杂环境下车牌识别系统中关键技术的研究与实现", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》, 15 August 2016 (2016-08-15), pages 3 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113821985A (zh) * 2021-11-22 2021-12-21 中移(上海)信息通信科技有限公司 一种交通状态预测方法、装置及电子设备
CN115330603A (zh) * 2022-10-17 2022-11-11 湖南自兴智慧医疗科技有限公司 基于深度学习卷积神经网络的人类染色体图像摆正方法

Also Published As

Publication number Publication date
CN113408505B (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN108830188B (zh) 基于深度学习的车辆检测方法
CN106875381B (zh) 一种基于深度学习的手机外壳缺陷检测方法
CN109300111B (zh) 一种基于深度学习的染色体识别方法
CN109815859B (zh) 一种低等级道路自动提取及变化分析方法
CN112862811B (zh) 基于深度学习的材料显微图像缺陷识别方法、设备及装置
CN113408505B (zh) 一种基于深度学习的染色体极性识别方法和系统
CN110852316A (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN105069774B (zh) 基于多示例学习与图割优化的目标分割方法
CN110097091B (zh) 训练与推理数据分布不一致条件下的图像细粒度识别方法
CN112633382A (zh) 一种基于互近邻的少样本图像分类方法及系统
CN111860106B (zh) 一种无监督的桥梁裂缝识别方法
CN110659601B (zh) 基于中心点的深度全卷积网络遥感图像密集车辆检测方法
CN112529005B (zh) 基于语义特征一致性监督金字塔网络的目标检测方法
CN111310756A (zh) 一种基于深度学习的损伤玉米颗粒检测和分类方法
CN112365497A (zh) 基于TridentNet和Cascade-RCNN结构的高速目标检测方法和系统
CN111242026A (zh) 一种基于空间层次感知模块和度量学习的遥感图像目标检测方法
CN114898327A (zh) 一种基于轻量化深度学习网络的车辆检测方法
CN111709430A (zh) 基于高斯过程回归的室外场景三维点云的地面提取方法
CN115131561A (zh) 基于多尺度特征提取与融合的钾盐浮选泡沫图像分割方法
CN109815973A (zh) 一种适用于鱼类细粒度识别的深度学习方法
CN113256618A (zh) 一种基于ihc染色的肿瘤识别系统及方法
CN116152498A (zh) 基于数据驱动的金属表面缺陷语义分割网络与训练方法
CN114283326A (zh) 一种结合局部感知和高阶特征重构的水下目标重识别方法
CN117576079A (zh) 一种工业产品表面异常检测方法、装置及系统
CN117152484A (zh) 改进YOLOv5s的小目标布匹瑕疵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220711

Address after: Room 606, unit 3, floor 6, building 4, yard 42, Qibei Road, Changping District, Beijing 102208

Patentee after: Zhongke Yihe intelligent medical technology (Beijing) Co.,Ltd.

Address before: 100191 No. 49 Garden North Road, Beijing, Haidian District

Patentee before: PEKING University THIRD HOSPITAL (PEKING UNIVERSITY THIRD CLINICAL MEDICAL College)

Patentee before: Institute of computing technology, Chinese Academy of Sciences

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 528251, 12th and 13th floors, Building 2, Zone 1, International Innovation Park, No. 6 Ganggang Road, Guicheng Street, Nanhai District, Foshan City, Guangdong Province (Residence application)

Patentee after: Zhongke Yihe Intelligent Medical Technology (Foshan) Co.,Ltd.

Address before: Room 606, unit 3, floor 6, building 4, yard 42, Qibei Road, Changping District, Beijing 102208

Patentee before: Zhongke Yihe intelligent medical technology (Beijing) Co.,Ltd.

CP03 Change of name, title or address