CN116664932A - 一种基于主动学习的结直肠癌病理组织图像分类方法 - Google Patents
一种基于主动学习的结直肠癌病理组织图像分类方法 Download PDFInfo
- Publication number
- CN116664932A CN116664932A CN202310623858.2A CN202310623858A CN116664932A CN 116664932 A CN116664932 A CN 116664932A CN 202310623858 A CN202310623858 A CN 202310623858A CN 116664932 A CN116664932 A CN 116664932A
- Authority
- CN
- China
- Prior art keywords
- images
- pool
- neural network
- deep neural
- marked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 55
- 230000001575 pathological effect Effects 0.000 title claims abstract description 51
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012216 screening Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000002372 labelling Methods 0.000 claims abstract description 29
- 230000006870 function Effects 0.000 claims abstract description 16
- 238000012795 verification Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000003062 neural network model Methods 0.000 claims description 65
- 238000013507 mapping Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000005520 cutting process Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 206010028980 Neoplasm Diseases 0.000 abstract description 21
- 238000012360 testing method Methods 0.000 abstract description 6
- 238000010827 pathological analysis Methods 0.000 abstract description 5
- 238000013136 deep learning model Methods 0.000 abstract description 3
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 238000004138 cluster model Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007170 pathology Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000004195 computer-aided diagnosis Methods 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012333 histopathological diagnosis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/091—Active learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/778—Active pattern-learning, e.g. online learning of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明在结直肠癌肿瘤病理组织图像分类领域公开了一种基于主动学习的结直肠癌肿瘤病理组织分类方法,该方法包括以下步骤:收集结直肠癌组织图像,筛除不合格的图像;将所有图像划分为训练集、验证集以及测试集;对训练集中极小部分结直肠癌病理图像做图像级标注;并将所有图像划分为训练集、验证集以及测试集;建立一种深度学习模型;初始已化标注池及未标注池,利用已标注池中的样本训练网络;利用本轮训练好的模型对未标注池的样本进行预测;筛选出满足查询函数条件的样本进行标注;本发明利用一种基于主动学习的深度神经网络实现结直肠癌肿瘤病理组织图像分类,在一定程度上解决了计算机辅助结直肠癌病理诊断的问题。
Description
技术领域
本发明涉及结直肠癌病理诊断的一种病理图像在计算机辅助医疗领域的应用,更具体地,涉及一种基于主动学习的结直肠癌病理组织图像分类方法。
背景技术
结直肠癌(Colorectal Cancer,简称CRC)是一种常见的消化道恶性肿瘤,其发病率排在全部癌症第三位,死亡率排在第二位;结直肠癌已成为危害人类健康的重大公共卫生问题;如果不及早诊断和治疗,结直肠癌的恶性程度会不断加重,给患者带来极大的身心痛苦,最终对患者的生命造成威胁;而组织病理学诊断是最具信服力的诊断方法,被誉为癌症疾病确诊的“金标准”;
传统病理诊断主要依赖医生对组织切片的视觉分析和经验判断,因此存在一定的主观性和不确定性,不同医生的诊断结果也可能存在较大差异;
对CRC病理图像中的各个组织进行智能分类够量化肿瘤微环境,辅助病理诊断,帮助病理医生更客观、准确地诊断疾病;
1.肿瘤病理图像组织分类,近年来,随着深度学习技术的发展,深度学习在病理诊断中的研究受到了广泛的应用,结直肠癌组织图像块级(patch-based)分类任务与像素级(pixels-based)分割的目的相近,都是为了量化肿瘤免疫微环境中的各个成分,从而辅助病理医生对结直肠癌进行诊断,然而,这些训练数据背后的标注工作量是巨大的,大多数肿瘤病理图像分类、分割的研究中未考虑标注成本问题。
2.卷积神经网络,卷积神经网络(Convolutional Neural Network,CNN)是深度神经网络的一种广泛应用于图像、语音、自然语言处理等领域的深度神经网络模型,它的核心是卷积层(Convolutional Layer),可以有效地提取图像等数据的特征,具有平移不变性和部分不变性等特点,使用卷积神经网络提取肿瘤组织图像特征并对组织图像智能分类,可以快速、准确地检测出图像中的各个组织类型,包括正常组织和肿瘤组织等,这有助于病理医生更好地了解病情,提高诊断的准确性和可靠性,肿瘤病理图像由于自身的异质性导致其图像特征复杂多样,因此加大了网络对病理特征提取的难度,致使模型的泛化能力难以保证。
3.主动学习算法,主动学习方法(Active-Learning,简称AL)是一种机器学习方法,它在每次训练中选择最具有代表性的样本进行标注,以提高模型的学习效率和性能,其目的是用尽可能低的标注成本训练深度神经网络模型,获得准确率高的分类模型,在主动学习中,模型通常一种查询函数从未标记的数据中选择一部分样本,将其提交给标注者进行标注,主动学习可以降低标注成本和训练时间,为兼顾模型泛化能力以及减少数据需求提供了合理的支撑,然而目前针对肿瘤病理组织的主动学习算法因存在以下不足导致性能不佳:未根据病理图像的特殊性质设计查询函数且目前方法中忽视了对未标注数据信息的利用;
综上所述,现有的基于深度神经网络的病理组织智能分类算法依赖大量标注数据,病理标注成本过高;其次,目前的主动学习算法不适用于结直肠癌病理图像,无法在标签数量较低的情况下实现高效且高准确率的组织自动分类。
发明内容
本发明的目的在于克服传统病理诊断以及现有的计算机辅助诊断技术的缺点与不足,提供一种基于深度神经网络的计算机辅助诊断技术,在标签数量受限制的条件下,对结直肠癌病理组织的精准自动分类,从而实现量化肿瘤微环境,辅助病理医生对结直肠癌进行诊断。为解决结直肠癌病理组织图像分类任务中模型性能受限于标签数量这一问题,设计了一种主动学习算法;该算法基于特征表征筛选样本,让医生有针对性地对样本进行标注:对训练价值高的样本采用人工标注,对模型易于识别的样本,根据模型对其的预测结果自动对其进行伪标注;同时通过多样性查询函数,丰富训练数据分布的多样性,并通过信息量查询函数,保证训练数据对模型的训练价值,从而减少模型对标注样本数量的需求,最终在标签数量受限的前提下实现对结直肠癌病理组织图像精准自动分类。
为实现上述目的,本发明提供如下技术方案:
一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,包括如下步骤:
S1:收集结直肠癌病理组织图像,所述结直肠癌病理组织图像包括已标注的图像和未标注的图像,初始化未标注池和已标注池,将所述已标注的图像放入所述已标注池,所述未标注的组织图像放入所述未标注池,建立深度神经网络模型;
S2:用所述已标注池里的图像训练所述深度神经网络模型;
S3:将训练好后的深度神经网络模型保存,分别根据样本多样性和样本平均熵对未标注的图像进行筛选,对筛选出的图像进行人工标注,再将人工标注后的图像移出所述未标注池,加入所述已标注池,筛选模型预测概率置信度高于设定阈值的样本,使用模型预测的类别作为该样本的伪标签,将伪标注后的图像移出所述未标注池,加入所述已标注池;
S4:利用所述已标注池中的图像更新所述深度神经网络模型;
S5:当所述已标注池中人工标注的图像数量达到预设阈值时,得到更新好的所述深度神经网络模型;当所述已标注池中人工标注的图像数量未达到预设阈值时,返回步骤S3;
S6:利用更新好的所述深度神经网络模型对结直肠癌病理图像进行分类。
进一步,步骤S2中,用所述已标注池里的图像训练所述深度神经网络模型,包括如下步骤:
S2.1:先随机缩放所述已标注池里的图像,然后再对所述已标注池里的图像进行归一化处理;
S2.2:随机裁剪固定大小的所述已标注池里的组织图像,将裁剪后已标注池里的组织图像作为所述深度神经网络模型的输入,得到预测结果;
S2.3:使用优化器更新和计算影响所述深度神经网络模型训练和输出的网络参数,使其逼近或达到网络参数的最优值,从而最小化所述深度神经网络模型的损失函数,进而得到训练好的深度神经网络;
S2.4:将步骤S1收集的所述组织图像逐张放入训练好的所述深度神经网络模型得到分割结果、预测结果和真实标签的评价指标,据此计算当前所述深度神经网络模型在验证集上的准确度,当准确度最高时,则保存当前深度神经网络模型,作为验证通过的深度神经网络模型。
进一步,步骤S3中,根据样本多样性对未标注的图像进行筛选,对筛选出的图像进行人工标注,再将人工标注后的图像移出所述未标注池,加入所述已标注池,包括如下步骤:
S3.01:将未标注池中的图像输入步骤S2中获得的所述深度神经网络模型,根据预测结果筛选出候选集,并得到所述候选集的图像特征;
S3.02:利用所述步骤S2中获得的深度神经网络模型提取所述已标注池的图像特征,据此建立聚类模型,通过聚类映射计算出所述聚类空间中各簇的中心;
S3.03:通过所述聚类模型,将所得的所述候选集图像特征映射到所述聚类空间,计算各候选集图像特征映射到其最近的簇中心的距离;
S3.04:从所述候选集图像中筛选图像特征映射到其最近的簇中心的距离最大的多个图像进行人工标注,将所述人工标注的图像移出所述未标注池,并加入所述已标注池。
进一步,步骤S3.01中,将所述未标注池的图像输入步骤S2中获得的所述深度神经网络模型,根据预测结果筛选出所述候选集,具体为:
Pθ(y|x)表示参数为θ的所述深度神经网络模型将x预测为y的概率,为置信度最大类别,/>为置信度次大的类别,当样本满足/>小于固定阈值τ时,将该样本xi加入所述候选集C。
进一步,步骤S3.02中,所述通过聚类映射计算出聚类空间各簇的中心,具体为:
组织图像在聚类空间的坐标为f(lj)=(xlj,ylj),设类别为g(g∈{0,1,2,…,8},gtj为已标注图像lj的标签值,类别g中已标注数据的数量为ng,计算g类聚类簇中心的坐标;
进一步,步骤S3.03中,计算样本到各个簇的所述最小距离作为组织图像多样程度的大小,具体为:
表示ck在所述聚类映射下的坐标,ck表示候选集C里的样本。
进一步,步骤S3中,根据组织图像平均熵对未标注的组织图像进行筛选,对筛选出的组织图像进行人工标注,再将人工标注后的组织图像移出所述未标注池,加入所述已标注池,包括如下步骤:
S3.11:对所述未标注池的组织图像进行数据增强,所述数据增强包括旋转、随机翻转、随机缩放并随机裁剪成固定大小及对比度调整;
S3.12:将所述未标注池中进行所述数据增强后的组织图像输入所述深度神经网络模型,计算各个组织图像的平均熵;
S3.13:筛选出所述平均熵最大的多个组织图像,将所述平均熵最大的多个组织图像进行人工标注,并移出所述未标注池,加入所述已标注池;
进一步,步骤S3.12中,熵的计算公式,具体为:
p(xi)为每个组织图像的预测概率,n为类别数。
进一步,步骤S3中,还包括使用阈值对未标注的图像进行筛选。
进一步,所述使用阈值对未标注的图像进行筛选,具体为:
用训练好的所述深度网络模型对所述未标注池的图像进行预测,筛选多个预测概率分布最大值大于τ的组织图像,将组织图像移出所述未标注池,加入所述已标注池,用深度神经网络模型的预测作为该组织图像的伪标签。
与现有技术相比,本发明技术方案的有益效果是:
为克服基于深度学习的结直肠癌病理组织图像分类方法中“深度学习模型训练所需的标签获取困难”这一问题,本发明提出了一种融合信息量及多样性的样本筛选策略的主动学习方法,旨在筛选出对模型训练最关键的部分样本标注并训练模型,从而减少模型对标签的需求;针对“主动学习算法受病理图像的特殊性影响导致算法筛选的样本质量差”的问题,根据CRC肿瘤病理图像特点设计了两种主动学习查询函数筛选样本,通过查询函数筛选出代表性强、信息量大的部分样本标注,并训练深度模型,从而提升主动学习筛选的样本质量,在降低训练标注数据数量的同时更准确地对结直肠癌肿瘤病理组织图像进行分类;为了克服“主动学习算法训练所得模型性能受限于标注数据量”的问题,在主动学习中加入一个半监督模块,通过伪标注提高模型对未标注数据的利用,从而进一步优化模型,提升模型分类准确率。
附图说明
图1是本发明提供的一种基于主动学习的结直肠癌病理组织图像分类方法流程图;
图2是本发明实施例提供的深度神经网络模型的训练流程图;
图3是本发明实施例提供的九种结直肠癌病理组织图像示例图;
图4是本发明实施例提供的一种基于主动学习的结直肠癌病理组织图像分类框架图;
图5是本发明实施例提供的根据多样性对样本进行筛选流程图;
图6是本发明实施例提供的根据信息量对样本进行筛选流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的;
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种基于主动学习的结直肠癌病理组织图像分类方法,如图1所示,包括如下步骤:
S1:收集结直肠癌病理组织图像,所述结直肠癌病理组织图像包括已标注的图像和未标注的图像,初始化未标注池和已标注池,将所述已标注的图像放入所述已标注池,所述未标注的组织图像放入所述未标注池,建立深度神经网络模型;
S2:用所述已标注池里的图像训练所述深度神经网络模型;
S3:将训练好后的深度神经网络模型保存,分别根据样本多样性和样本平均熵对未标注的组织图像进行筛选,对筛选出的组织图像进行人工标注,再将人工标注后的图像移出所述未标注池,加入所述已标注池,此外,筛选模型预测概率置信度高于设定阈值的样本,使用模型预测的类别作为该样本的伪标签,将未标注后的图像移出所述未标注池,加入所述已标注池;
S4:利用所述已标注池中的图像更新所述深度神经网络模型;
S5:当所述已标注池中人工标注的图像数量达到预设阈值时,得到更新好的所述深度神经网络模型;当所述已标注池中人工标注的图像数量未达到预设阈值时,返回步骤S3;
S6:利用更新好的所述深度神经网络模型对结直肠癌病理组织图像进行分类。
整体迭代过程的伪代码如下:
While mi<B do
Model=Train(Model,Li);//使用标注池的数据训练预测模型
//1.多样性筛选
Di=SelectByDiversity(Model,Ui,n);//基于多样性的样本筛选
对集合Di中的样本进行人工标注;
Ui=Ui-1-Di,Li=Li-1+Di;//更新未标注池和已标注池
//2.信息量筛选
Ii=SelectByUncertainty(Model,Ui,n);//基于信息量的样本筛选
对集合Ii中的样本进行人工标注;
Ui=Ui-1-Ii,Li=Li-1+Ii;//更新未标注池和已标注池
//3.伪标签筛选
Ti=SelectByThreshold(Model,Ui,n);//基于阈值的简单样本筛选
PseudoLabeling(Model,Ti)//将模型预测作为伪标签标注Ti中的样本
Ui=Ui-1-Ti,Li=Li-1+Ti;//更新未标注池和已标注池
End While
符号说明:i表示当前轮次,Li表示第i轮时的已标注池,mi表示Li中的样本数量,Ui表示第i轮时的未标注池,Model表示预测模型,B为预期的总标注数量,p为初始标签数量,n表示筛选样本的数量。
在本实施例中,开始时,有一个很小的初始的带标签样本集:其数量为M,以及一个大的未标注样本池/>数量为N;如图4所示,且M<<N,yi为样本xi的分类标签,在每次算法迭代的过程中,从Du中筛选一批数据Dq;其中b表示最符合筛选函数准则的前b个样本。Model为利用标记集训练的深度模型,是主动学习设计的和一个样本查询函数;此后Dl和Du将被更新,使用Dl中的样本重新训练模型Model;这个流程将迭代直到标注集Dl的大小达到标注预算B时终止;
在这个迭代过程中,本发明根据CRC病理图像的特点设计了两种查询函数来筛选样本进行标注、训练模型;分别对应图5和图6多样性筛选及信息量筛选;主动学习迭代每个轮次中,目的是将一批大小为n的未标注样本根据筛选策略将被选择出来,并人工标注这些样本,在第i轮中,这些筛选出来的样本将会从本轮未标记池U拿出,并加入标记池L中。
实施例2
本实施例在实施例1的基础上,继续公开以下内容:
用所述已标注池里的组织图像训练所述深度神经网络模型,包括如下步骤:
S2.1:先随机缩放所述已标注池里的图像,然后再对所述已标注池里的图像进行归一化处理;
S2.2:随机裁剪固定大小的所述已标注池里的图像,将裁剪后已标注池里的图像作为所述深度神经网络模型的输入,得到预测结果;
S2.3:使用优化器更新和计算影响所述深度神经网络模型训练和输出的网络参数,使其逼近或达到网络参数的最优值,从而最小化所述深度神经网络模型的损失函数,进而得到训练好的深度神经网络;
S2.4:将步骤S1收集的所述组织图像逐张放入训练好的所述深度神经网络模型得到分割结果、预测结果和真实标签的评价指标,据此计算当前所述深度神经网络模型在验证集上的准确度,当准确度最高时,则保存当前深度神经网络模型,作为验证通过的深度神经网络模型。
下面具体以含有至少10000张的CRC肿瘤病理组织图像作为数据集为例进行具体阐述:
图2为本实施例收集的至少10000张的CRC肿瘤病理组织图像作为数据集所示:
步骤(1),首先收集至少10000张的CRC肿瘤病理组织图像作为数据集;
步骤(2),筛除不合格的组织图像,筛除由于客观条件导致组织类型无法辨别的图像;
步骤(3),进行图像级标注,图像级的标签是指给出一张CRC肿瘤病理图像,判断该图像中包含的组织属于哪种类型,标注方法为将同一类别的图像放在同一个文件夹下,并以图像的类别作为文件夹的名称。制作训练集、验证集、测试集,训练集中图像约有8/10,验证集中的图像约有总图像数量的1/10,测试集中的图像约有总图像数量的1/10,其中验证集和测试集的图像是有标签的,训练集的图像是无标签的。随机筛选训练集中的100张图像进行人工标注;
步骤(4),初始化标注池和未标注池,将已标注的图像加入已标注池,未标注的图像加入未标注池,标注池和已标注池分别用于记录已经标注的样本以及未标注的样本;
步骤(5),建立深度神经网络模型,采用任意一种流行的深度学习模型,使用Desnet121网络模型;
步骤(6),训练和验证阶段,如图3所示,该图是整个训练和验证的过程,在一轮训练过程中优化网络的步骤如下:
步骤(a),在一轮训练中,用已标注池的数据训练模型;
步骤(b),对这一批图像进行线上数据增强,首先先随机缩放图像,然后再对图像进行归一化处理,之后再随机裁剪固定大小的图像,然后再按照和最后采样到的图像一样的位置大小进行裁剪;
步骤(c),将这批图像作为模型的输入,得到预测结果;
步骤(d),使用优化器SGD更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值,从而最小化损失函数,进而找到最优模型;
步骤(e),验证集验证,验证集中所有图片逐张放入训好模型得到分割结果,计算预测结果和真实标签的评价指标,计算当前模型在验证集上的ACC,如果当前的ACC最高则保存当前模型;
步骤(f),不断迭代优化深度神经网络模型,不断最小化交叉熵损失,提高网络的分类性能。
实施例3
本实施例在实施例1的基础上,继续公开以下内容:
如图5所示,根据样本多样性对未标注的组织图像进行筛选,对筛选出的组织图像进行人工标注,再将人工标注后的组织图像移出所述未标注池,加入所述已标注池,包括如下步骤:
S3.01:将未标注池中的图像输入步骤S2中获得的所述深度神经网络模型,根据预测结果筛选出候选集,并得到所述候选集的图像特征;
S3.02:利用所述步骤S2中获得的深度神经网络模型提取所述已标注池的组织特征,据此建立聚类模型,通过聚类映射计算出所述聚类空间中各簇的中心;
S3.03:通过所述聚类模型,将所得的所述候选集图像特征映射到所述聚类空间,计算候选集中各图像特征映射到其最近簇中心的距离;
S3.04:从所述候选集组织图像中筛选出图像特征映射到其最近簇中心的距离最大的200个图像进行人工标注,将所述人工标注的图像移出所述未标注池,并加入所述已标注池;
下面具体以含有至少10000张的CRC肿瘤病理组织图像作为数据集为例进行具体阐述;
(i)将未标注池中样本输入进步骤(6)所得的模型,根据预测结果筛选出候选集,并得到候选集样本的特征;
(ii)利用模型提取已标注池的样本特征,据此建立UMAP聚类模型。通过聚类映射计算出聚类空间各簇的中心;
(iii)利用步骤(ii)中建立的UMAP模型,将步骤(i)所得的候选集样本的特征映射到聚类空间,计算候选集中各图像特征映射到其最近簇中心的距离;
(iv)根据步骤(iii)中计算所得,从候选集样本中图像特征映射到其最近簇中心的距离最大的200个样本人工标注,移出未标注池,并加入已标注池。
实施例4
本实施例在实施例1的基础上,继续公开以下内容:
将所述未标注池的组织图像输入步骤S2中获得的所述深度神经网络模型,根据预测结果筛选出所述候选集,具体为:
表示参数为θ的所述深度神经网络模型将x预测为y的概率,/>为置信度最大类别,/>为置信度次大的类别,当样本满足/>小于固定阈值0.25时,将该样本xi加入所述候选集C;
所述通过聚类映射计算出聚类空间各簇的中心,具体为:
组织图像在聚类空间的坐标为f(lj)=(xlj,ylj),如图3所示,设类别为g(g∈{0,1,2,…,8},gtj为已标注图像lj的标签值,类别g中已标注数据的数量为ng,计算g类聚类簇中心的坐标;
计算样本到各个簇的所述最小距离作为组织图像多样程度的大小,具体为:
表示ck在所述聚类映射下的坐标,ck表示候选集C里的样本。
如图6所示,根据组织图像平均熵对未标注的组织图像进行筛选,对筛选出的组织图像进行人工标注,再将人工标注后的组织图像移出所述未标注池,加入所述已标注池,包括如下步骤:
S3.11:对所述未标注池的图像进行数据增强,所述数据增强包括旋转及随机翻转、随机缩放并随机裁剪成固定大小、对比度调整;
S3.12:将所述未标注池中的样本及其进行所述数据增强后的图像输入所述深度神经网络模型,计算各个组织图像的平均熵;
S3.13:筛选出所述平均熵最大的多个图像,将所述平均熵最大的200个图像进行人工标注,并移出所述未标注池,加入所述已标注池。
实施例5
本实施例在实施例1的基础上,继续公开以下内容:
图6所示,对原始图像采用了两种数据增强方法并通过计算它们的平均熵来更全面可靠地衡量样本信息量:(1)翻转及随机翻转(2)随机缩放并随机裁剪成固定大小(3)对比度调整;
从未标注池U中输入每个样本xi及其两种数据增强后的样本,得到相应的预测概率分布分别计算熵值并取平均值,作为信息量的衡量指标假设总类别数量为n,熵的计算公式是:
则可以得到所有未标注池中各样本的信息量大小,从这些样本中挑选平均熵最高的前200个样本作为本轮筛选出的信息量最高的关键样本,从未标记池中移除这些样本并给这些样本人工标注,并将其加入已标记池;
所述步骤S3.12中,熵的计算公式,具体为:
p(xi)为每个组织图像的预测概率,n为类别数。
所述步骤S3中,还包括使用阈值对未标注的组织图像进行筛选。
所述使用阈值对未标注的组织图像进行筛选,具体为:
用训练好的所述深度网络模型对所述未标注池的组织图像进行预测,筛选不超过400个预测概率分布最大值大于0.95的组织图像,将组织图像移出所述未标注池,加入所述已标注池,用深度神经网络模型的预测类别作为该组织图像的伪标签;
根据样本多样性对未标注的图像进行筛选,原理如图5所示。用未标注池的图像训练模型,得到预测结果,将满足条件的样本放入候选池作为候选集,将已标注池的样本输入特征提取器得到特征图,用flatten函数压平得到对应的特征向量,用这些特征向量训练UMAP聚类模型,建立聚类映射。将候选集输入特征提取器得到特征图,用flatten函数压平得到对应的特征向量,使用训练所得的UMAP聚类模型找出离与其最近的聚类簇中心最远的多个样本,将这些样本进行标注并从未标注池移入已标注池;
根据样本平均熵对未标注的图像进行筛选,原理如图6所示。将未标注图像旋转及随机翻转、随机缩放并随机裁剪成固定大小、对比度调整三种操作,然后输入特征提取器得到特征图,用flatten函数压平得到对应的特征向量经过卷积层得出概率分布,通过概率分布计算出平均熵,选出平均熵最大的多个图像进行标注,并从未标注池移入已标注池。
本发明在公开的结直肠癌病理图像数据集NCT-CRC-HE-100K上,使用Densenet121深度网络模型进行实验,使用图像分类的指标ACC来评价实验结果,本发明与其他主动学习方法对比实验结果如表1所示,消融实验如表2所示。
表1实验结果表
表2消融实验结果表
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,包括如下步骤:
S1:收集结直肠癌病理组织图像,所述结直肠癌病理组织图像包括已标注的图像和未标注的图像,初始化未标注池和已标注池,将所述已标注的图像放入所述已标注池,所述未标注的图像放入所述未标注池,建立深度神经网络模型;
S2:用所述已标注池里的图像训练所述深度神经网络模型;
S3:将训练好后的深度神经网络模型保存,分别根据样本多样性和样本平均熵对未标注的图像进行筛选,对筛选出的图像进行人工标注,再将人工标注后的图像移出所述未标注池,加入所述已标注池;
S4:利用所述已标注池中的图像更新所述深度神经网络模型;
S5:当所述已标注池中人工标注的图像数量达到预设阈值时,得到更新好的所述深度神经网络模型;当所述已标注池中人工标注的图像数量未达到预设阈值时,返回步骤S3;
S6:利用更新好的所述深度神经网络模型对结直肠癌病理图像进行分类。
2.根据权利要求1所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S2中,用所述已标注池里的图像训练所述深度神经网络模型,包括如下步骤:
S2.1:先随机缩放所述已标注池里的图像,然后再对所述已标注池里的图像进行归一化处理;
S2.2:随机裁剪固定大小的所述已标注池里的图像,将裁剪后已标注池里的图像作为所述深度神经网络模型的输入,得到预测结果;
S2.3:使用优化器更新和计算影响所述深度神经网络模型训练和输出的网络参数,使其逼近或达到网络参数的最优值,从而最小化所述深度神经网络模型的损失函数,进而得到训练好的深度神经网络;
S2.4:将步骤S1收集的所述图像逐张放入训练好的所述深度神经网络模型得到分割结果、预测结果和真实标签的评价指标,据此计算当前所述深度神经网络模型在验证集上的准确度,当准确度最高时,则保存当前深度神经网络模型,作为验证通过的深度神经网络模型。
3.根据权利要求1所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S3中,根据样本多样性对未标注的图像进行筛选,对筛选出的图像进行人工标注,再将人工标注后的图像移出所述未标注池,加入所述已标注池,包括如下步骤:
S3.01:将未标注池中的图像输入步骤S2中获得的所述深度神经网络模型,根据预测结果筛选出候选集,并得到所述候选集的图像特征;
S3.02:利用所述步骤S2中获得的深度神经网络模型提取所述已标注池的组织特征,据此建立聚类模型,通过聚类映射计算出所述聚类空间中各簇的中心;
S3.03:通过所述聚类模型,将所得的所述候选集图像特征映射到所述聚类空间,计算各候选集图像特征映射到其最近的簇中心的最小距离;
S3.04:从所述候选集图像特征中筛选出图像特征映射到最近的簇中心的距离最大的多个图像进行人工标注,将所述人工标注的图像移出所述未标注池,并加入所述已标注池。
4.根据权利要求3所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S3.01中,将所述未标注池的图像输入步骤S2中获得的所述深度神经网络模型,根据预测结果筛选出所述候选集,具体为:
Pθ(y|x)表示参数为θ的所述深度神经网络模型将x预测为y的概率,为置信度最大类别,/>为置信度次大的类别,当样本满足/>小于固定阈值τ时,将该样本xi加入所述候选集C。
5.根据权利要求3所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S3.02中,所述通过聚类映射计算出聚类空间各簇的中心,具体为:
式子中图像在聚类空间的坐标为f(lj)=(xlj,ylj),gtj为已标注图像lj的标签值,ng为类别g中已标注图像的数量,centerg为g类聚类簇中心的坐标。
6.根据权利要求6所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S3.04中,计算候选集中各图像的特征映射到其最近的簇中心的距离,作为衡量图像多样性指标,具体为:
表示ck在所述聚类映射下的坐标,ck表示候选集C里的样本。
7.根据权利要求1所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S3中,根据图像平均熵对未标注的图像进行筛选,对筛选出的图像进行人工标注,再将人工标注后的图像移出所述未标注池,加入所述已标注池,包括如下步骤:
S3.11:对所述未标注池的图像进行数据增强,所述数据增强包括旋转、随机翻转、随机缩放并随机裁剪成固定大小及对比度调整;
S3.12:将所述未标注池中进行所述数据增强后的图像输入所述深度神经网络模型,计算各个图像的平均熵;
S3.13:筛选出所述平均熵最大的多个图像,将所述平均熵最大的多个图像进行人工标注,并移出所述未标注池,加入所述已标注池。
8.根据权利要求4所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S3.12中,熵的计算公式,具体为:
p(xi)为每个图像的预测概率,n为类别数。
9.根据权利要求1至8任一项所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,步骤S3中,还包括使用阈值对未标注的图像进行筛选。
10.根据权利要求9所述的一种基于主动学习的结直肠癌病理组织图像分类方法,其特征在于,所述使用阈值对未标注的组织图像进行筛选,具体为:
用训练好的所述深度网络模型对所述未标注池的图像进行预测,筛选不超过2n个预测概率分布最大值大于τ的图像,将图像移出所述未标注池,加入所述已标注池,用深度神经网络模型的预测作为该图像的伪标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310623858.2A CN116664932A (zh) | 2023-05-29 | 2023-05-29 | 一种基于主动学习的结直肠癌病理组织图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310623858.2A CN116664932A (zh) | 2023-05-29 | 2023-05-29 | 一种基于主动学习的结直肠癌病理组织图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116664932A true CN116664932A (zh) | 2023-08-29 |
Family
ID=87721901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310623858.2A Pending CN116664932A (zh) | 2023-05-29 | 2023-05-29 | 一种基于主动学习的结直肠癌病理组织图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664932A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935388A (zh) * | 2023-09-18 | 2023-10-24 | 四川大学 | 一种皮肤痤疮图像辅助标注方法与系统、分级方法与系统 |
-
2023
- 2023-05-29 CN CN202310623858.2A patent/CN116664932A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116935388A (zh) * | 2023-09-18 | 2023-10-24 | 四川大学 | 一种皮肤痤疮图像辅助标注方法与系统、分级方法与系统 |
CN116935388B (zh) * | 2023-09-18 | 2023-11-21 | 四川大学 | 一种皮肤痤疮图像辅助标注方法与系统、分级方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Silva-Rodríguez et al. | Going deeper through the Gleason scoring scale: An automatic end-to-end system for histology prostate grading and cribriform pattern detection | |
CN110021425B (zh) | 一种比较检测器及其构建方法与宫颈癌细胞检测方法 | |
CN107247971B (zh) | 一种超声甲状腺结节风险指标的智能分析方法及系统 | |
CN110245657B (zh) | 病理图像相似性检测方法及检测装置 | |
CN111028206A (zh) | 一种基于深度学习前列腺癌自动检测和分类系统 | |
CN111985536A (zh) | 一种基于弱监督学习的胃镜病理图像分类方法 | |
CN110097974A (zh) | 一种基于深度学习算法的鼻咽癌远端转移预测系统 | |
CN110111895A (zh) | 一种鼻咽癌远端转移预测模型的建立方法 | |
US20220351379A1 (en) | Non-tumor segmentation to support tumor detection and analysis | |
CN113706434B (zh) | 基于深度学习对胸部增强ct图像的后处理方法 | |
Xu et al. | Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients | |
CN111582111A (zh) | 一种基于语义分割的细胞各成分分割方法 | |
CN109117703A (zh) | 一种基于细粒度识别的混杂细胞种类鉴定方法 | |
CN111062928A (zh) | 一种医学ct图像中病变的识别方法 | |
CN113269799A (zh) | 一种基于深度学习的宫颈细胞分割方法 | |
CN116664932A (zh) | 一种基于主动学习的结直肠癌病理组织图像分类方法 | |
CN112990214A (zh) | 一种医学图像特征识别预测模型 | |
CN115546605A (zh) | 一种基于图像标注和分割模型的训练方法及装置 | |
CN113657449A (zh) | 一种含噪标注数据的中医舌象腐腻分类方法 | |
CN114140437A (zh) | 一种基于深度学习的眼底硬渗出物分割方法 | |
CN114511759A (zh) | 一种皮肤状态图像的类别识别和特征确定方法及系统 | |
CN116468690B (zh) | 基于深度学习的浸润性非粘液性肺腺癌的亚型分析系统 | |
CN116228759B (zh) | 肾细胞癌类型的计算机辅助诊断系统及设备 | |
CN112819765A (zh) | 一种肝脏图像处理方法 | |
CN116862836A (zh) | 一种泛器官淋巴结转移癌检测系统及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |