CN113537371B - 融入边缘特征两阶段的上皮细胞分类方法及系统 - Google Patents

融入边缘特征两阶段的上皮细胞分类方法及系统 Download PDF

Info

Publication number
CN113537371B
CN113537371B CN202110831372.9A CN202110831372A CN113537371B CN 113537371 B CN113537371 B CN 113537371B CN 202110831372 A CN202110831372 A CN 202110831372A CN 113537371 B CN113537371 B CN 113537371B
Authority
CN
China
Prior art keywords
training set
coarse
training
original
clustered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110831372.9A
Other languages
English (en)
Other versions
CN113537371A (zh
Inventor
张莉
张梦倩
王邦军
赵雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202110831372.9A priority Critical patent/CN113537371B/zh
Publication of CN113537371A publication Critical patent/CN113537371A/zh
Application granted granted Critical
Publication of CN113537371B publication Critical patent/CN113537371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种融入边缘特征两阶段的上皮细胞分类方法,包括将细胞染色图像数据划分为原始训练集和原始验证集,通过聚类、Sobel运算和子集划分,得到聚类后的训练集、粗类训练集和细类训练集;利用聚类后的训练集和粗类训练集对粗粒度分类器进行训练,利用细类训练集对细粒度分类器进行训练,得到训练好的粗粒度分类器和细粒度分类器;利用粗粒度分类器和细粒度分类器对待分类的细胞染色图像数据进行类别分类。本发明在训练过程中,将训练集中图像的重要特征保留下来,使得前后的特征信息能够进一步的融合,从而最大限度地识别和保留判别信息,提高机器学习模型的效率。

Description

融入边缘特征两阶段的上皮细胞分类方法及系统
技术领域
本发明涉及细胞识别与数据处理技术领域,尤其是指一种融入边缘特征两阶段的上皮细胞分类方法及系统。
背景技术
当健康的细胞和组织被免疫系统错误地攻击和破坏时,就会出现自身免疫疾病。上皮细胞(HEp-2)拍摄的间接免疫荧光图像中的染色模式的视觉分析是一种可用于识别自身免疫疾病的程序,其可以检测许多不同的核和细胞质模式。在该程序中,设计载玻片以固定HEp-2细胞底物,并添加受试者的血清,之后执行以下四个步骤:(1)图像采集;(2)有丝分裂细胞识别;(3)荧光强度的分类;(4)识别染色模式。其中最后一个步骤的重要性在于根据患者的临床病史,每种染色模式都可能指示特定的自身免疫性疾病。
但是在对间接免疫荧光图像进行人工分析时具有较多不可控的缺陷,例如:结果的主观性、实验室之间结果的不一致以及细胞图像处理效率低等问题。因此,自动有效地对人类上皮细胞的染色特征进行分类已成为一个极具吸引力的研究课题。
近年已有诸多学者将机器学习相关算法应用至此。这类方法通常先提取图像的特征,再对这些特征进行筛选、分类。但是在这个过程中,特征提取和分类被视为两个独立的阶段,难以最大限度地识别和保留判别信息,从而无法很好地利用网络训练中产生的有效信息,导致机器学习相关模型效率较低。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中无法很好地利用网络训练中产生的有效信息而导致机器学习模型效率较低的缺陷。
为解决上述技术问题,本发明提供一种融入边缘特征两阶段的上皮细胞分类方法,包括:
将细胞染色图像数据划分为原始训练集和原始验证集,对所述原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于所述原始训练集,得到聚类后的训练集,并对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集,同时根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集;
构建融入边缘特征的两阶段分类网络模型,所述融入边缘特征的两阶段分类网络模型包括粗粒度分类器和细粒度分类器,利用聚类后的训练集和粗类训练集对所述粗粒度分类器进行训练,得到训练好的粗粒度分类器;同时利用所述细类训练集对所述细粒度分类器进行训练,得到训练好的细粒度分类器;
利用训练好的粗粒度分类器对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据所述类别预测结果调用对应的细粒度分类器进行类别分类,得到类别分类结果。
在本发明的一个实施例中,将细胞染色图像数据划分为原始训练集和原始验证集,对所述原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于所述原始训练集,得到聚类后的训练集的方法包括:
将细胞染色图像数据划分为原始训练集{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}和原始验证集{(XV,YV)}={(x1,y1),(x2,y2),...,(xv,yv)},其中,t表示训练集样本数,v表示验证集样本数;
确定聚类簇常量k'(k'<k),对原始验证集{XV,YV}进行k-means聚类,将原始验证集{XV,YV}划分为k'个簇,并按照数据的标签信息整合簇,使得每个蔟中包含一个或多个标签并且各类蔟间不包含相同的标签,根据聚类结果用蔟序号作为新的标签,得到聚类后的训练集和验证集如下:
{(XTC,YTC)}={(x1,y′1),(x2,y′2),...,(xt,y′t)}
{(XVC,YVC)}={(x1,y′1),(x2,y′2),...,(xv,y′v)}
其中,ψ(y′i)∈{1,...,k'},ψ()表示取向量中最大元素的下标。
在本发明的一个实施例中,对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集的方法包括:
对聚类后的训练集{(XTC,YTC)}={(x1,y′1),(x2,y′2),...,(xt,y′t)}和验证集{(XVC,YVC)}={(x1,y′1),(x2,y′2),...,(xv,y′v)}中的图像进行Sobel运算,得到粗类训练集和粗类验证集如下:
{(XTS,YTS)}={(xs1,y′1),(xs2,y′2),...,(xst,y′t)}
{(XVS,YVS)}={(xs1,y′1),(xs2,y′2),...,(xsv,y′v)}
其中,xsi=Sobel(xi)。
在本发明的一个实施例中,根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集的方法包括:
将所述原始训练集{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}中的图像转换为RGB彩色图像,并根据原始验证集{(XV,YV)}={(x1,y1),(x2,y2),...,(xv,yv)}的聚类结果对原始训练集{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}进行子集划分,得到细类训练集如下;
Figure BDA0003175562430000041
其中,训练子集
Figure BDA0003175562430000042
ψ(yi)∈Cu,tfu表示训练子集
Figure BDA0003175562430000043
含有的样本个数,且
Figure BDA0003175562430000044
在本发明的一个实施例中,所述粗粒度分类器包括第一卷积神经网络和第二卷积神经网络,所述第一卷积神经网络和第二卷积神经网络的结构相同,均包括2个Block结构、4个卷积层、2个最大池化层、全连接层和线性变换层。
在本发明的一个实施例中,利用聚类后的训练集和粗类训练集对所述粗粒度分类器进行训练,得到训练好的粗粒度分类器的方法包括:
在所述粗粒度分类器中将聚类后的训练集和粗类训练集中的图像分别输入到第一卷积神经网络和第二卷积神经网络,图像经过2个Block结构,得到特征图;
使用其中2个卷积层对所述特征图进行复制得到两个特征图,将两个特征图分别经过2个通路,其中主通路上的特征图依次经过1个最大池化层和第3个卷积层,分通路上的特征图经过1个最大池化层后与主通路上的特征图进行通道上的拼接,得到拼接后的特征图;
将拼接后的特征图经过第4个卷积层进行卷积操作,并经过全连接层得到全连接后的特征图;
将全连接后的特征图经过线性变换层进行线性变换,得到线性变换后的特征图;
将线性变换后的特征图经过SoftMax函数,得到其输出值。
在本发明的一个实施例中,在利用聚类后的训练集和粗类训练集分别对第一卷积神经网络和第二卷积神经网络进行训练时,通过聚类后的验证集和粗类验证集分别对所述第一卷积神经网络和第二卷积神经网络的网络损失进行验证。
在本发明的一个实施例中,所述2个Block结构如下:
B(xi)=fconv+p2(fbn(fconv(xi)))
B(xsi)=fconv+p2(fbn(fconv(xsi)))
其中,fconv+p2()表示一个卷积层和一个最大池化层的组合操作,fbn()表示经过一个归一化层,fconv()表示一个卷积操作。
在本发明的一个实施例中,利用训练好的粗粒度分类器对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据所述类别预测结果调用对应的细粒度分类器进行类别分类,得到类别分类结果的方法包括:
对待分类的细胞染色图像数据x∈Rl×d进行Sobel运算,得到x的轮廓图像xs,在所述粗粒度分类器中输入待分类的细胞染色图像数据x及其轮廓图像xs,得到初步类别预测值,并判断所述初步类别预测值属于哪个簇,根据判断结果调用对应的细粒度分类器进行类别分类,得到类别分类结果。
此外,本发明还提供一种融入边缘特征两阶段的上皮细胞分类系统,包括:
数据预处理模块,所述数据预处理模块用于将细胞染色图像数据划分为原始训练集和原始验证集,对所述原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于所述原始训练集,得到聚类后的训练集,并对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集,同时根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集;
模型训练模块,所述模型训练模块用于构建融入边缘特征的两阶段分类网络模型,所述融入边缘特征的两阶段分类网络模型包括粗粒度分类器和细粒度分类器,利用聚类后的训练集和粗类训练集对所述粗粒度分类器进行训练,得到训练好的粗粒度分类器;同时利用所述细类训练集对所述细粒度分类器进行训练,得到训练好的细粒度分类器;
细胞分类预测模块,所述细胞分类预测模块用于利用训练好的粗粒度分类器对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据所述类别预测结果调用对应的细粒度分类器进行类别分类,得到类别分类结果。
本发明的上述技术方案相比现有技术具有以下优点:
本发明利用融入了边缘特征的粗类训练集和细类训练集分别对粗粒度分类器和细粒度分类器进行训练,并使用训练好的粗类分类器和细类分类器对细胞进行分类预测,在训练过程中,将训练集中图像的重要特征保留下来,使得前后的特征信息能够进一步的融合,从而最大限度地识别和保留判别信息,很好地利用网络训练中产生的有效信息来提高机器学习模型的效率。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
图1是本发明融入边缘特征的两阶段分类网络模型结构图。
图2是本发明粗粒度分类器Module的结构示意图。
图3是本发明粗粒度分类器分类的混淆矩阵的示意图。
图4是本发明两阶段分类后的混淆矩阵的示意图。
图5是本发明分类结果对比示意图。
图6是本发明融入边缘特征两阶段的上皮细胞分类系统的结构框图。
附图标记说明如下:10、数据预处理模块;20、模型训练模块;30、细胞分类预测模块;40、粗粒度分类器;50、细粒度分类器。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
实施例一
本实施例提供一种融入边缘特征两阶段的上皮细胞分类方法,具体包括如下步骤。
S100:将细胞染色图像数据划分为原始训练集和原始验证集,对原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于原始训练集,得到聚类后的训练集,并对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集,同时根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集。
示例地,将细胞染色图像数据Δ={(X,Y)}={(x1,y1),(x2,y2),...,(xn,yn)}划分为原始训练集{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}和原始验证集{(XV,YV)}={(x1,y1),(x2,y2),...,(xv,yv)},其中,xil×d表示灰度图像,l表示图像横向排列的像素个数,d表示图像纵向排列的像素个数,n表示数据集的样本总数,yi∈{1,0}k是xi的标签,||yi||1=1,|| ||1表示l1范数,t表示训练集样本数,v表示验证集样本数。
S200:构建融入边缘特征的两阶段分类网络模型,融入边缘特征的两阶段分类网络模型包括粗粒度分类器40和细粒度分类器50,利用聚类后的训练集和粗类训练集对粗粒度分类器40进行训练,得到训练好的粗粒度分类器40;同时利用细类训练集对细粒度分类器50进行训练,得到训练好的细粒度分类器50。
示例地,粗粒度分类器40包括第一卷积神经网络和第二卷积神经网络,第一卷积神经网络和第二卷积神经网络的结构相同,均包括2个Block结构、4个卷积层、2个最大池化层、全连接层、线性变换层和全连接层。其中2个Block结构如下:
B(xi)=fconv+p2(fbn(fconv(xi)))
B(xsi)=fconv+p2(fbn(fconv(xsi)))
其中,fconv+p2()表示一个卷积层和一个最大池化层的组合操作,fbn()表示经过一个归一化层,fconv()表示一个卷积操作。
示例地,细粒度分类器50包括多个VGG16网络。作为优选的,细粒度分类器50包含最多k'个网络构架相同、网络权重不同的VGG16网络。
S300:利用训练好的粗粒度分类器40对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据类别预测结果调用对应的细粒度分类器50进行类别分类,得到类别分类结果。
示例地,对待分类的细胞染色图像数据x∈Rl×d进行Sobel运算,得到x的轮廓图像xs,在粗粒度分类器40中输入待分类的细胞染色图像数据x及其轮廓图像xs,得到初步类别预测值,并判断初步类别预测值属于哪个簇,根据判断结果调用对应的细粒度分类器50进行类别分类,得到类别分类结果。
本发明利用融入了边缘特征的粗类训练集和细类训练集分别对粗粒度分类器40和细粒度分类器50进行训练,并使用训练好的粗类分类器40和细类分类器50对细胞进行分类预测,在训练过程中,将训练集中图像的重要特征保留下来,使得前后的特征信息能够进一步的融合,从而最大限度地识别和保留判别信息,很好地利用网络训练中产生的有效信息来提高机器学习模型的效率。
下面对本发明实施例一公开的一种融入边缘特征两阶段的上皮细胞分类方法进行详细的阐述。
本发明在ICPR 2014 I3A Task-2增强的数据集上进行了测试,该数据集一共包含从948个细胞样本中得到的63445张有标签图像。这个数据集包含6种由间接免疫荧光法检测的抗核抗体核型:均质型(14366)、斑点型(14634)、核仁型(13297)、着丝点型(13736)、高尔基型(5070)和核膜型(2342)。
该数据集的获得,首先需要培养上皮细胞,将血清放置到上皮细胞的培养皿种,通过稀释和培养,其中特异性抗原有选择性的和血清中的自身抗体进行结合,而后可以用荧光剂进行显现和标记,获得免疫荧光图像。再使用间接荧光免疫检测技术,使用两种不同作用的抗体:先用未标记抗体与目标抗原结合,接着用已标记抗体结合先前的抗体抗原,形成抗原-抗体-抗体复合物。由于荧光的第二抗体,与没有荧光的第一抗体的多级融合,增强了测试的荧光相应。在此基础上,利用荧光显微镜(40倍放大)和50W汞蒸汽灯以及数码相机对染色的上皮细胞图像进行采集并标注,得到ICPR 2014 I3A Task-2数据集。其中,该数码相机具有CCD,平方像素的边长为6.45μm,图像的分辨率为1388×1038像素。
因为荧光显微镜不能一次观察一个细胞,一张图像通常包含多个细胞,需要在工作站监视器上手动分割和注释每个细胞。最后对细胞进行分割后进行审查和注释,得到本实验中的ICPR 2014I3A Task-2增强数据集。
在步骤S100中,输入已经整理好的上皮细胞染色图像数据,即k类带有标签的数据集合Δ={(X,Y)}={(x1,y1),(x2,y2),...,(xn,yn)},其中xil×d为灰度图像,l为图像横向排列的像素个数,d为图像纵向排列的像素个数,n是数据集的样本总数。yi∈{1,0}k是xi的标签,||yi||1=1,|| ||1表示l1范数。在本实例中,n=50756,l=78,d=78,k=6。
首先将原始数据集合按照一定比例随机划分为原始训练集和原始验证集:{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}和{(XV,YV)}={(x1,y1),(x2,y2),...,(xv,yv)},t为训练集样本数,v为验证集样本数,且n=t+v。在本实例中,t=40604,v=10151。
然后,在原始训练集和原始验证集的基础上为粗粒度分类器40生成用于训练的数据集。确定一个聚类簇常量k'(k'<k),在原始验证集{XV,YV}上进行k-means聚类,把{XV,YV}划分为k'个簇,并按照数据的标签信息整合簇,使得每个蔟中包含一个或多个标签并且各类蔟间不包含相同的标签。令C1,...,Ck'为k'个蔟的标签集合,且
Figure BDA0003175562430000101
根据聚类结果用蔟序号作为新的标签,则聚类后的训练集和验证集可以分别表示:
{(XTC,YTC)}={(x1,y′1),(x2,y′2),...,(xt,y′t)}
{(XVC,YVC)}={(x1,y′1),(x2,y′2),...,(xv,y′v)}
其中,ψ(y′i)∈{1,...,k'},ψ()表示取该向量中最大元素的下标。新标签和原有标签之间的关系如下:如果ψ(y′i)=u,则ψ(yi)∈Cu。在本实例中,k'=3,C1={1,2,4},C2={3},C3={5,6}。
接下来,对聚类后的训练集和验证集中的图像做Sobel运算得到粗类训练集和粗类验证集:
{(XTS,YTS)}={(xs1,y′1),(xs2,y′2),...,(xst,y′t)}
{(XVS,YVS)}={(xs1,y′1),(xs2,y′2),...,(xsv,y′v)}
其中xsi=Sobel(xi)。
在为粗粒度分类器40生成用于训练的数据集的同时,在原始训练集和原始验证集的基础上为细粒度分类器50生成用于训练的数据集。由于细粒度分类器50采用了VGG16模型,需要将原始训练集XT中的原始图像从l×d转化为224×224×3的RGB彩色图像,即xi∈Rl ×d→x′i∈R224×224×3。再根据上述的聚类结果对XT进行子集划分得到细类训练集如下:
Figure BDA0003175562430000111
其中,训练子集
Figure BDA0003175562430000112
ψ(yi)∈Cu,tfu是训练子集
Figure BDA0003175562430000113
含有的样本个数,且
Figure BDA0003175562430000114
在步骤S200中,构建的融入边缘特征的两阶段分类网络模型如图1所示,其结构包括粗粒度分类器40和细粒度分类器50,粗粒度分类器40包含两个结构相同的卷积神经网络,细粒度分类器50包含多个独立的卷积神经网络。
其中粗粒度分类器40包含了两个Module,每一个Module的结构如图2所示。在粗粒度分类器40中将聚类后的训练集{(XTC,YTC)}和经过Sobel运算后的粗类训练集{(XTS,YTS)}分别输入到Module1和Module2中,最后将两个通路中得到的特征图分别计算交叉熵损失取其平均值作为网络损失。
2个Module的结构相同,其均为多尺度卷积神经网络。该网络中包含2个Block结构,除此之外还有4个卷积层、2个最大池化层、1个全连接层、1个线性变换层和1个多尺度连接,具体模型如图2所示。每层卷积之后都会经过ReLU激活函数激活,引入非线性因素,提高网络对模型的表达能力。每个Block结构由2个卷积层、1个归一化层和1个最大池化层组成,其具体结构如下:
B(xi)=fconv+p2(fbn(fconv(xi)))
B(xsi)=fconv+p2(fbn(fconv(xsi)))
其中,fconv+p2()表示一个卷积层和一个步长为2的最大池化层的组合操作;fbn()表示经过一个归一化层;fconv()表示一个卷积操作。此外,输入Block结构中的通道数由c控制,Block1中c=10;Block2中c=30。
在粗粒度分类器40中将聚类后的训练集和粗类训练集中的图像分别输入到第一卷积神经网络和第二卷积神经网络,图像经过2个Block结构,得到特征图,将经过2个Block结构后的特征图经过conv3和conv4的卷积层后,将特征图复制为2个,分别经过2个通路,主通路经过一个2×2步长为2的最大池化层后继续经过conv5卷积层;分通路直接将该特征图经过一个4×4步长为4的最大池化层后与主通路的特征图进行通道上的拼接,以将特征图中因conv5卷积层的过滤而损失的重要特征保留下来,使特征图能对前后文的特征都有所保留,同时增加了特征的层次,而且拼接后的特征图在经过conv6卷积层进行卷积操作的同时会将特征图进行通道上的混合和压缩,使得前后文特征信息能后进一步的融合。最后,经过全连接层的特诊图为:
Figure BDA0003175562430000121
Figure BDA0003175562430000122
其中,ffc()表示经过一个全连接运算,B2()表示经过2个Block结构,fconv+p4()表示一个卷积层和一个步长为4的最大池化层的组合操作。
将特征图φ(xi)和φ(xsi)分别经过线性变换,得到经过线性变换层的特征图为:
Ftl(xi)=φ(xi)As T+bs
Ftl(xsi)=φ(xsi)As T+bs
其中,Ask'×120和bsk'是线性变换中需要学习的参数,k'表示粗类的类别数。
最后,将经过线性变换后得到的特征图分别经过SoftMax函数,得到其估计输出为:
Figure BDA0003175562430000131
Figure BDA0003175562430000132
Figure BDA0003175562430000133
代表xi的估计输出;令
Figure BDA0003175562430000134
代表xsi的估计输出。
同时在细粒度分类器50中需要微调已预训练的VGG16模型,如果训练子集
Figure BDA0003175562430000135
中包含了2个及2个以上的标签,则利用训练子集
Figure BDA0003175562430000136
微调训练一个VGG16模型,对于任意的
Figure BDA0003175562430000137
令其输出为
Figure BDA0003175562430000138
最后利用SoftMax函数进行分类估计,u=1,...,k'。因此,细粒度分类器50包含最多k'个网络构架相同、网络权重不同的VGG16网络。
在本实例中,k'=3,其中C2={3}只包含有一个类别,因此不需要对其建立VGG16模型。因此只需要针对C1={1,2,4}和C3={5,6}架构个2已预训练的VGG16模型使用
Figure BDA0003175562430000139
分别进行微调训练,利用SoftMax函数进行分类,其中u=1,3。
在步骤S300中,输入没有标签且已经整理好的上皮细胞染色图像数据x∈Rl×d,首先用Sobel算子得到x的轮廓图像xs,然后通过粗粒度分类器40对其进行初步类别预测:
Figure BDA00031755624300001310
然后需要判断
Figure BDA00031755624300001311
属于哪个蔟,如果
Figure BDA00031755624300001312
则令
Figure BDA00031755624300001313
结束预测为其分配标签
Figure BDA0003175562430000141
否则,如果
Figure BDA0003175562430000142
或者
Figure BDA0003175562430000143
改变x的尺寸将其变为x′∈224×224×3。接着调用对应的细粒度分类器50,得到特征图
Figure BDA0003175562430000144
最后用SoftMax函数对其进行分类,获得分类估计
Figure BDA0003175562430000145
Figure BDA0003175562430000146
最后即x被分到
Figure BDA0003175562430000147
类中。
本发明使用两个指标衡量模型分类效果:类别正确率均值(MCA)和平均分类正确率(ACA)。在测试集上反复上述测试过程,粗粒度分类器分类的混淆矩阵如图3所示,MCA结果为85.41%,ACA结果为86.18%。测试集经过两个阶段分类的结果混淆矩阵如图4所示,MCA结果为89.22%,ACA结果为90.27%。如图5所示,本发明与Gao等人提出的5层卷积神经网络(DCNN-5)相比,在相同数据集上,性能有明显的提高。
实施例二
下面对本发明实施例二公开的一种融入边缘特征两阶段的上皮细胞分类系统进行介绍,下文描述的一种融入边缘特征两阶段的上皮细胞分类系统与上文描述的一种融入边缘特征两阶段的上皮细胞分类方法可相互对应参照。
本发明实施例二公开了一种融入边缘特征两阶段的上皮细胞分类系统,其特征在于,包括:
数据预处理模块10,数据预处理模块10用于将细胞染色图像数据划分为原始训练集和原始验证集,对原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于原始训练集,得到聚类后的训练集,并对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集,同时根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集;
模型训练模块20,模型训练模块20用于构建融入边缘特征的两阶段分类网络模型,融入边缘特征的两阶段分类网络模型包括粗粒度分类器40和细粒度分类器50,利用聚类后的训练集和粗类训练集对粗粒度分类器40进行训练,得到训练好的粗粒度分类器40;同时利用细类训练集对细粒度分类器50进行训练,得到训练好的细粒度分类器50;
细胞分类预测模块,细胞分类预测模块用于利用训练好的粗粒度分类器40对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据类别预测结果调用对应的细粒度分类器50进行类别分类,得到类别分类结果。
本实施例的融入边缘特征两阶段的上皮细胞分类系统用于实现前述的融入边缘特征两阶段的上皮细胞分类方法,因此该系统的具体实施方式可见前文中的融入边缘特征两阶段的上皮细胞分类方法的实施例部分,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再展开介绍。
另外,由于本实施例的融入边缘特征两阶段的上皮细胞分类系统用于实现前述的融入边缘特征两阶段的上皮细胞分类方法,因此其作用与上述方法的作用相对应,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (7)

1.一种融入边缘特征两阶段的上皮细胞分类方法,其特征在于,包括:
将细胞染色图像数据划分为原始训练集和原始验证集,对所述原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于所述原始训练集,得到聚类后的训练集,并对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集,同时根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集;
构建融入边缘特征的两阶段分类网络模型,所述融入边缘特征的两阶段分类网络模型包括粗粒度分类器和细粒度分类器,利用聚类后的训练集和粗类训练集对所述粗粒度分类器进行训练,得到训练好的粗粒度分类器;同时利用所述细类训练集对所述细粒度分类器进行训练,得到训练好的细粒度分类器;
利用训练好的粗粒度分类器对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据所述类别预测结果调用对应的细粒度分类器进行类别分类,得到类别分类结果;
其中,所述粗粒度分类器包括第一卷积神经网络和第二卷积神经网络,第一卷积神经网络和第二卷积神经网络的结构相同,均包括2个Block结构、4个卷积层、2个最大池化层、全连接层、线性变换层和全连接层,其中2个Block结构如下:
B(xi)=fconv+p2(fbn(fconv(xi)))
B(xsi)=fconv+p2(fbn(fconv(xsi)))
其中,fconv+p2(·)表示一个卷积层和一个最大池化层的组合操作,fbn(·)表示经过一个归一化层,fconv(·)表示一个卷积操作,xsi=Sobel(xi);利用聚类后的训练集和粗类训练集对所述粗粒度分类器进行训练,得到训练好的粗粒度分类器的方法包括:
在所述粗粒度分类器中将聚类后的训练集和粗类训练集中的图像分别输入到第一卷积神经网络和第二卷积神经网络,图像经过2个Block结构,得到特征图;
使用其中2个卷积层对所述特征图进行复制得到两个特征图,将两个特征图分别经过2个通路,其中主通路上的特征图依次经过1个最大池化层和第3个卷积层,分通路上的特征图经过1个最大池化层后与主通路上的特征图进行通道上的拼接,得到拼接后的特征图;
将拼接后的特征图经过第4个卷积层进行卷积操作,并经过全连接层得到全连接后的特征图;
将全连接后的特征图经过线性变换层进行线性变换,得到线性变换后的特征图;
将线性变换后的特征图经过SoftMax函数,得到其输出值。
2.根据权利要求1所述的融入边缘特征两阶段的上皮细胞分类方法,其特征在于:将细胞染色图像数据划分为原始训练集和原始验证集,对所述原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于所述原始训练集,得到聚类后的训练集的方法包括:
将细胞染色图像数据划分为原始训练集{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}和原始验证集{(XV,YV)}={(x1,y1),(x2,y2),...,(xv,yv)},其中,t表示训练集样本数,v表示验证集样本数;
确定聚类簇常量k',k'<k,对原始验证集{(XV,YV)}进行k-means聚类,将原始验证集{(XV,YV)}划分为k'个簇,并按照数据的标签信息整合簇,使得每个簇中包含一个或多个标签并且各类簇间不包含相同的标签,根据聚类结果用簇序号作为新的标签,得到聚类后的训练集和验证集如下:
{(XTC,YTC)}={(x1,y′1),(x2,y′2),...,(xt,y′t)}
{(XVC,YVC)}={(x1,y′1),(x2,y′2),...,(xv,y′v)}
其中,ψ(y′i)∈{1,...,k'},ψ(·)表示取向量中的最大元素的下标,即取向量中的最大值,将该值的下标作为结果。
3.根据权利要求2所述的融入边缘特征两阶段的上皮细胞分类方法,其特征在于:对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集的方法包括:
对聚类后的训练集{(XTC,YTC)}={(x1,y′1),(x2,y′2),...,(xt,y′t)}和验证集{(XVC,YVC)}={(x1,y′1),(x2,y′2),...,(xv,y′v)}中的图像进行Sobel运算,得到粗类训练集和粗类验证集如下:
{(XTS,YTS)}={(xs1,y′1),(xs2,y′2),...,(xst,y′t)}
{(XVS,YVS)}={(xs1,y′1),(xs2,y′2),...,(xsv,y′v)}
其中,xsi=Sobel(xi)。
4.根据权利要求2所述的融入边缘特征两阶段的上皮细胞分类方法,其特征在于:根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集的方法包括:
将所述原始训练集{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}中的图像转换为RGB彩色图像,并根据原始验证集{(XV,YV)}={(x1,y1),(x2,y2),...,(xv,yv)}的聚类结果对原始训练集{(XT,YT)}={(x1,y1),(x2,y2),...,(xt,yt)}进行子集划分,得到细类训练集如下;
Figure FDA0004036556670000042
其中,训练子集
Figure FDA0004036556670000043
ψ(yi)∈Cu,tfu表示训练子集
Figure FDA0004036556670000044
含有的样本个数,且
Figure FDA0004036556670000041
5.根据权利要求2所述的融入边缘特征两阶段的上皮细胞分类方法,其特征在于:在利用聚类后的训练集和粗类训练集分别对第一卷积神经网络和第二卷积神经网络进行训练时,通过聚类后的验证集和粗类验证集分别对所述第一卷积神经网络和第二卷积神经网络的网络损失进行验证。
6.根据权利要求1所述的融入边缘特征两阶段的上皮细胞分类方法,其特征在于:利用训练好的粗粒度分类器对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据所述类别预测结果调用对应的细粒度分类器进行类别分类,得到类别分类结果的方法包括:
对待分类的细胞染色图像数据x∈Rl×d进行Sobel运算,得到x的轮廓图像xs,在所述粗粒度分类器中输入待分类的细胞染色图像数据x及其轮廓图像xs,得到初步类别预测值,并判断所述初步类别预测值属于哪个簇,根据判断结果调用对应的细粒度分类器进行类别分类,得到类别分类结果。
7.一种融入边缘特征两阶段的上皮细胞分类系统,其特征在于,包括:
数据预处理模块,所述数据预处理模块用于将细胞染色图像数据划分为原始训练集和原始验证集,对所述原始验证集进行k-means聚类,得到聚类后的验证集,将聚类结果应用于所述原始训练集,得到聚类后的训练集,并对聚类后的训练集和验证集中的图像进行Sobel运算,得到粗类训练集和粗类验证集,同时根据原始验证集的聚类结果对原始训练集进行子集划分,得到细类训练集;
模型训练模块,所述模型训练模块用于构建融入边缘特征的两阶段分类网络模型,所述融入边缘特征的两阶段分类网络模型包括粗粒度分类器和细粒度分类器,利用聚类后的训练集和粗类训练集对所述粗粒度分类器进行训练,得到训练好的粗粒度分类器;同时利用所述细类训练集对所述细粒度分类器进行训练,得到训练好的细粒度分类器;
细胞分类预测模块,所述细胞分类预测模块用于利用训练好的粗粒度分类器对待分类的细胞染色图像数据进行初步类别预测,得到类别预测结果,根据所述类别预测结果调用对应的细粒度分类器进行类别分类,得到类别分类结果;
其中,所述粗粒度分类器包括第一卷积神经网络和第二卷积神经网络,第一卷积神经网络和第二卷积神经网络的结构相同,均包括2个Block结构、4个卷积层、2个最大池化层、全连接层、线性变换层和全连接层,其中2个Block结构如下:
B(xi)=fconv+p2(fbn(fconv(xi)))
B(xsi)=fconv+p2(fbn(fconv(xsi)))
其中,fconv+p2(·)表示一个卷积层和一个最大池化层的组合操作,fbn(·)表示经过一个归一化层,fconv(·)表示一个卷积操作,xsi=Sobel(xi);利用聚类后的训练集和粗类训练集对所述粗粒度分类器进行训练,得到训练好的粗粒度分类器的方法包括:
在所述粗粒度分类器中将聚类后的训练集和粗类训练集中的图像分别输入到第一卷积神经网络和第二卷积神经网络,图像经过2个Block结构,得到特征图;
使用其中2个卷积层对所述特征图进行复制得到两个特征图,将两个特征图分别经过2个通路,其中主通路上的特征图依次经过1个最大池化层和第3个卷积层,分通路上的特征图经过1个最大池化层后与主通路上的特征图进行通道上的拼接,得到拼接后的特征图;
将拼接后的特征图经过第4个卷积层进行卷积操作,并经过全连接层得到全连接后的特征图;
将全连接后的特征图经过线性变换层进行线性变换,得到线性变换后的特征图;
将线性变换后的特征图经过SoftMax函数,得到其输出值。
CN202110831372.9A 2021-07-22 2021-07-22 融入边缘特征两阶段的上皮细胞分类方法及系统 Active CN113537371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110831372.9A CN113537371B (zh) 2021-07-22 2021-07-22 融入边缘特征两阶段的上皮细胞分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110831372.9A CN113537371B (zh) 2021-07-22 2021-07-22 融入边缘特征两阶段的上皮细胞分类方法及系统

Publications (2)

Publication Number Publication Date
CN113537371A CN113537371A (zh) 2021-10-22
CN113537371B true CN113537371B (zh) 2023-03-17

Family

ID=78088641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110831372.9A Active CN113537371B (zh) 2021-07-22 2021-07-22 融入边缘特征两阶段的上皮细胞分类方法及系统

Country Status (1)

Country Link
CN (1) CN113537371B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114414495B (zh) * 2021-12-13 2023-08-15 西安理工大学 基于双向长短时记忆网络的混合染液浓度检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401979B2 (en) * 2009-11-16 2013-03-19 Microsoft Corporation Multiple category learning for training classifiers
CN109409388B (zh) * 2018-11-07 2021-08-27 安徽师范大学 一种基于图形基元的双模深度学习描述子构造方法
CN110084150B (zh) * 2019-04-09 2021-05-11 山东师范大学 一种基于深度学习的白细胞自动分类方法及系统
CN111680575A (zh) * 2020-05-19 2020-09-18 苏州大学 一种人类上皮细胞染色分类装置、设备及存储介质

Also Published As

Publication number Publication date
CN113537371A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
JP7201681B2 (ja) 単一チャネル全細胞セグメンテーションのためのシステム及び方法
US20230127698A1 (en) Automated stereology for determining tissue characteristics
US20230335260A1 (en) Image diagnostic system, and methods of operating thereof
CN113454733A (zh) 用于预后组织模式识别的多实例学习器
US8041090B2 (en) Method of, and apparatus and computer software for, performing image processing
CN102687007B (zh) 利用分层标准化切割的高处理量生物标志物分割
CN113574534A (zh) 使用基于距离的相似性标签的机器学习
CN113393443B (zh) 一种he病理图像细胞核分割方法及系统
JPH11515097A (ja) ニューラル・ネットワーク支援型のマルチスペクトル・セグメンテーション・システム
US10423820B2 (en) Systems and methods for automatic generation of training sets for machine interpretation of images
CN111680575A (zh) 一种人类上皮细胞染色分类装置、设备及存储介质
CN111652095A (zh) 一种基于人工智能的ctc图像识别方法和系统
CN113537371B (zh) 融入边缘特征两阶段的上皮细胞分类方法及系统
CN115359264A (zh) 一种密集型分布的粘连细胞深度学习识别方法
Fishman et al. Practical segmentation of nuclei in brightfield cell images with neural networks trained on fluorescently labelled samples
CN114580501A (zh) 骨髓细胞分类方法、系统、计算机设备及存储介质
CN114387596A (zh) 细胞病理涂片自动判读系统
Tymchenko et al. Classifying mixed patterns of proteins in microscopic images with deep neural networks
Foran et al. Automated image interpretation and computer-assisted diagnostics
CN113888636A (zh) 基于多尺度深度特征的蛋白质亚细胞定位方法
Ahmad et al. Multi-configuration analysis of densenet architecture for whole slide image scoring of er-ihc
CN112466389A (zh) 一种基于机器学习算法获取肿瘤标记物的方法和系统
CN114283113A (zh) 检测患者样本自身抗体与双链脱氧核糖核酸的结合的方法
WO2020120039A1 (en) Classification of cell nuclei
CN113344868B (zh) 一种基于混合转移学习的无标记细胞分类筛查系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant