CN112906804B - 一种针对组织病理学图像的哈希样本平衡癌症标注方法 - Google Patents
一种针对组织病理学图像的哈希样本平衡癌症标注方法 Download PDFInfo
- Publication number
- CN112906804B CN112906804B CN202110228166.9A CN202110228166A CN112906804B CN 112906804 B CN112906804 B CN 112906804B CN 202110228166 A CN202110228166 A CN 202110228166A CN 112906804 B CN112906804 B CN 112906804B
- Authority
- CN
- China
- Prior art keywords
- samples
- hash
- image
- data
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 29
- 201000011510 cancer Diseases 0.000 title claims abstract description 28
- 238000002372 labelling Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 98
- 238000013507 mapping Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 41
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 13
- 238000000513 principal component analysis Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 10
- 230000001575 pathological effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 230000003211 malignant effect Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012952 Resampling Methods 0.000 abstract description 8
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 206010006187 Breast cancer Diseases 0.000 description 5
- 208000026310 Breast neoplasm Diseases 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 101100054965 Mus musculus Adipoq gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法,利用卷积自编码器提取多类图像的特征,采用无监督的卷积自编码器CAE来提取图像块特征,采用有监督卷积神经网络(CNN)用于最终的分类任务;利用哈希方法将高维特征空间的图像映射到低维二进制空间,对所有多类图像样本产生哈希编码,每个哈希编码对应原始特征空间中的一个子空间,也称为哈希桶;计算在每个哈希桶中的抽取样本的选择比例,并挑选出具有代表性的样本。针对大规模病理组织学图像分类任务中的类不平衡问题,提出了一种高效的重采样方法HBU。不需要计算样本之间的成对距离,具有高效性和高可拓展性。
Description
技术领域
本发明涉及图像分析技术领域,尤其涉及一种针对组织病理学图像的哈希样本平衡癌症标注方法。
背景技术
基于患者的超高分辨率病理图像的癌症早期诊断在医学中其中重要的作用。现有方法主要是通过把原始的组织病理学图像划分为大量的图像块,然后判断图像块是否为癌症组织图像,以此实现对癌症病灶的精确判断和定位。然而,现实中的正常组织图像块数量往往远超过癌症组织块图像,造成数据集的不平衡问题,使得难以有效地训练癌症组织图像分类器。因此,本文提出一种针对组织病理学图像的哈希样本平衡癌症标注方法,基于哈希方法提取平衡的训练集以训练分类器,实现较好的癌症组织识别效果,对癌症区域实现准确的定位标注。
目前,解决类不平衡问题的方法主要有:数据级方法、算法级方法和集成分类器方法。数据级方法通过对输入的训练数据进行预处理来降低不平衡率。数据级方法主要包括欠采样和过采样两类。欠采样方法从多类中选择具有代表性的样本,以达到预定的训练集平衡比率。Kubat等人提出了一种利用1-NN分类器和Tomek-links技术消除冗余和噪声样本的单侧选择算法(OSS)。Rezk等人运用形式化概念分析理论从数据中选取部分样本进行乳腺癌组织病理学图像分类。此外,Lin等人还采用了K-means技术获取数据的分布情况,选取有代表性的样本。与欠采样方法不同,过采样增加了少数类样本的数量。ROS随机复制少数类样本以增加该类样本数量,但这可能会导致过度拟合问题。为了减少过拟合的可能性,SMOTE算法通过在少数类的两样本之间插值以生成人工样本。CURE-SMOTE将聚类技术与SMOTE算法相结合,以提高随机森林的性能。WK-SMOTE算法通过在SVM的核空间过采样来解决核空间的非线性过采样问题。随着数据规模的不断增加,欠采样由于其较低的复杂度开销被认为是比过采样更好的方法。然而,现有的采样方法一般是利用基于距离的邻域关系来提取数据分布信息。对于数据量非常大的情况,如医学检查中分析的超高分辨率组织病理学图像,现有的采样方法不仅计算效率低,而且易受噪声干扰。
算法级方法根据具体任务不同设计特定的算法来解决类不平衡问题。单类学习方法只从一类实例中学习。阈值方法在训练阶段为每个类别设置不同的阈值。对于传统的分类算法,不同类别的样本对应相同的分类代价。而代价敏感的分类方法则为少数类分配了比多数类更高的分类损失。Khan等人结合代价敏感网络和神经网络来获得不平衡数据中不同类别的决策边界。Li等人提出了一种代价敏感的方法来平衡乳腺癌检测任务中的误诊率和漏诊率。然而,对于代价敏感的方法,由于缺乏领域专业知识,准确的误分类代价很难确定。在处理类的不平衡问题时,分类器的集成学习也被广泛采用。Bagging和boosting是两种主要的分类器集成方法。Bagging使用多个基分类器,这些分类器在不同的数据子集上进行训练。Boosting对基分类器进行迭代训练,对前一次迭代中错误分类的样本赋予更高的权重。EasyEnsemble在bagging和随机欠采样的基础上学习不平衡数据集,而BalanceCascade则是同时执行随机欠采样和数据增强。SMOTEBoost结合SMOTE和boosting过程来提高分类器在不平衡数据集上的性能。Krawczyk等人结合boosting方案和进化欠采样,为乳腺癌的不平衡分类生成平衡训练集。刘等提出了一种特征选择和集成的混合方法,解决了癌症微阵列数据中存在的多类不平衡问题。然而,当不平衡率较高时,集成方法需要训练足够多的基分类器才能达到较好的效果,同时多个模型在部署的时候也带来了更大的时间开销和机器成本。集成方法运行缓慢的另一个原因是在每次迭代中都使用基于距离的重采样方法来获得平衡的数据。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法,所述方法包括如下步骤:
步骤1,利用卷积自编码器提取多类图像的特征,采用无监督的卷积自编码器CAE来提取图像块特征;
步骤2,利用哈希方法将高维特征空间的图像映射到低维二进制空间,对所有多类图像样本产生哈希编码,其中,每个哈希编码对应原始特征空间中的一个子空间,也称为哈希桶;
步骤3,计算在每个哈希桶中的抽取样本的选择比例,并挑选出具有代表性的样本;
步骤4,采用有监督卷积神经网络(CNN)用于最终的分类任务。
更进一步地,所述步骤1进一步包括:采用深度学习的方法获取图像的高层语义特征,采用卷积卷积自编码器(CAE)提取多类组织病理斑块的特征,编码器将输入数据转换为低维特征,可以定义为
s=g(z) (1)
其中z和s分别代表编码器的输入数据和输出;解码器接收编码器的输出,并尝试将编码器的输入重建为其输出,解码器定义为
其中s和分别对应于低维特征和解码器的输出,因此,卷积自编码器的目标函数可以定义为
f,g=arg minf,gL(z,f(g(z))) (3)
再利用随机梯度下降法对目标函数进行最小化,得到输入图像的特征。
更进一步地,所述步骤2进一步包括:通过一组哈希函数将图像从原始高维特征空间投影到低维汉明空间,每个哈希函数充当一个超平面,将特征空间分为两部分,超平面的两侧被指定为“-1”或“1”,通过学习θ个哈希函数,可以在汉明空间中生成2θ个哈希桶,同一个哈希桶中的样本共享相同的哈希编码,并被视为彼此相似。
更进一步地,采用迭代量化哈希(ITQ),一个包含n个样本的特征数据集可以定义为X∈Rn×d,其中d表示原始特征数据的维数,哈希的目的是根据所有样本的相似性来学习一个二进制码矩阵B∈{-1,1}n×c,其中c代表哈希编码长度,数据点x通过哈希表H(x)=[h1(x)...hc(x)]映射到二进制编码空间,将哈希函数表示为
h(x)=sgn(xwc+b) (4)
其中,wc和b分别代表哈希超平面参数和偏差,符号函数sgn(·)可以表示为
目标函数表示为
其中,W为哈希超平面系数矩阵,B为数据的哈希编码矩阵。为了便于优化,忽略不可导的符号函数sgn(·),公式(6)可以转化为
公式(7)与主成分分析(PCA)的目标函数相同,所述目标函数可以采用PCA的方式对特征数据进行降维,得到数据的前c主成分,把数据映射到低维空间,得到降维后的特征数据集V;然后,通过对数据在低维空间进行旋转,使得数据和其对应的低维空间超立方体顶点尽可能相近,每个超立方体顶点对应一个哈希编码,因此,最终的量化损失函数为
其中,B、V、R、F分别表示图像的哈希编码、PCA降维后的特征数据、旋转矩阵和Frobenius范数。其中,V为已知,未知变量为B和R;具体的迭代优化计算方法为:
先固定R以更新B:展开公式(8)得到
因为经过PCA降维后的特征数据V已经被固定了,最小化公式(9)等价于最大化
此时,B等于特征数据V经过R旋转后,最近的超立方体顶点对应哈希编码;
然后固定B以更新R:
公式(8)的最小量化过程如下,对BTV进行SVD分解,BTV=SΩST,然后得到R=SST,将迭代优化过程交替进行预设次数,即可得到较好的局部最优解,即B和R。
更进一步地,所述步骤3进一步包括数理统计中的分层比例抽样方法引入到HBU方法中,确定每个哈希桶的样本数,对于第i个(i>0)哈希桶,要挑选的多类样本数计算公式如下:
其中,表示第i个哈希桶中的样本数,/>表示第i个哈希桶中选择的样本数,T的取值范围为0<T<1,欠采样强度随T的减小而增大,T值可手动选择,在我们的实验中,T被设为少数类样本数量除以多数类样本数量的商,在确定每个哈希桶中选择的样本数后,从每一个哈希桶中的多数类样本中随机挑选相应数量的样本;最后,挑选出的多数类样本和所有少数类样本组成平衡的数据集用来训练分类器。
本发明进一步公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法,其包括以下步骤:
步骤1,对超大分辨率病理图像分割为大量大小为256*256像素的图像块,并采用卷积自编码器提取每个图像块特征,整理得到特征数据集,其中,训练阶段所有图像块标签已知,测试阶段标签均未知。此时,数据集非常不平衡,包含大量多数类(良性组织)样本和少量少数类(恶性组织)样本;
假设不平衡图像数据集为D,包括良性样本Sma(多数类)和恶性样本Smi(少数类),在欠采样开始时,首先使用ITQ将特征空间划分为2c个桶,其中c是哈希码的长度,每个哈希桶对应一个唯一的哈希编码,位于同一哈希桶中的多类样本具有相同的哈希码;
步骤2,将数理统计中的分层比例抽样方法引入到HBU方法中,确定每个哈希桶需要挑选的多数类样本数,对于第i个哈希桶,要选择的多类样本数计算如下:
其中,表示第i个哈希桶中的样本数,/>表示第i个哈希桶中选择的样本数,T的取值范围为0<T<1,欠采样强度随T的减小而增大,T值可手动选择,T被设为少数类样本数量除以多数类样本数量的商,在确定每个哈希桶中选择的样本数后,从每一个哈希桶中的多数类样本中随机挑选相应数量的样本;
步骤3,挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器,其中,训练好的CNN分类器可以实现对良性和恶性组织的良好区分,此时,对测试的超高分辨率病理图像分割为大量大小为256*256像素的图像块,基于CNN分类器对所有图像块进行分类,根据分类结果对原始整个超高分辨率病理图像进行癌症标注。
本发明提供一种针对组织病理学图像的哈希样本平衡癌症标注方法。通过迭代量化哈希的方法将多数类样本进行二值编码,然后采用分层抽样的方法对每一个哈希桶里面的样本进行挑选,得到多数类的代表性样本。这些样本和少数类合并在一起组成平衡的数据集,并用于训练卷积神经网络,从而实现在大规模不平衡数据集下的较精确地分类效果,实现对癌症组织区域的精确标注。随着可视化设备的升级和普遍使用,大数据时代已经到来,数据级方法凭借其计算简便的优势成为解决大规模数据类不平衡问题的较常用方法。然而,现有的重采样方法通常使用基于距离的邻域(如k近邻)来获取数据的分布信息。当遇到大规模不平衡数据时,成对距离的计算效率极低,而且基于距离的邻域重采样方法易受噪声干扰,导致重采样的效果不理想。此外,现有的集成分类器方法也采用基于距离的重采样方法来获得平衡的数据集,这同样会遇到上述重采样方法的缺点。因此,本专利针对大规模病理组织学图像分类任务中的类不平衡问题,提出了一种高效的重采样方法HBU。该方法不需要计算样本之间的成对距离,具有高效性和高可拓展性。在本发明中,所提出的针对组织病理学图像的哈希样本平衡癌症标注方法属于一种数据级方法。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1为本发明逻辑流程示意图。
图2为本发明所使用的卷积自编码器结构示意图。
图3为本发明所使用的哈希编码算法效果示意图。
图4为本实例所提出的HBU方法和现有相关采样算法在乳腺癌数据集CAMELYON16上的标注效果。
具体实施方式
实施例一
本发明提出的基于哈希的抽样方法(HBU)是一种欠采样方法,它选择属于多类的代表性样本来构建平衡训练集。在欠采样过程中,首先利用卷积自编码器提取多类图像的特征,然后利用哈希方法将高维特征空间的图像映射到低维二进制空间,对所有多类图像样本产生哈希编码。每个哈希编码对应原始特征空间中的一个子空间,也称为哈希桶。最后,计算在每个哈希桶中的抽取样本的选择比例,并挑选出具有代表性的样本。图1显示了HBU的算法流程图。
在本发明方法中,我们需要首先对多类图像进行特征提取。假如采用传统的手工方法,包括局部二值模式或根滤波器组来提取图像的特征,这种方法可能导致不稳定或不可重复的结果。此外,手工特征的提取方法是基于人类经验的,这些方法只能提取浅层特征,如纹理特征等,而不能提取图像的高层语义特征。本发明采用深度学习的方法来克服上述局限性,获取图像的高层语义特征。近年来,卷积自编码器在医学图像数据的特征提取中得到了广泛的应用,并被证明是一种有效的方法。为了获得图像的特征,采用卷积卷积自编码器(CAE)提取多类组织病理斑块的特征。CAE的体系结构如图2所示。在表1中,BRM表示三种操作的组合,即批处理规范化、Relu和max pooling。编码器将输入数据转换为低维特征,可以定义为
s=g(z) (1)
其中z和s分别代表编码器的输入数据和输出。解码器接收编码器的输出,并尝试将编码器的输入重建为其输出。解码器可以定义为
其中s和分别对应于低维特征和解码器的输出。因此,卷积自编码器的目标函数可以定义为
f,g=arg minf,gL(z,f(g(z))) (3)
表1
利用随机梯度下降法对目标函数进行最小化,得到输入图像的特征。在我们的工作中,CAE被用于多类图像样本的特征提取,然后使用HBU方法构建平衡训练集。对于最终的分类任务,采用有监督卷积神经网络(CNN)作为端到端模型进行分类,而不是用于提取HBU方法的特征。这样做的原因是CNN在类不平衡问题下无法提取图像的可判别性特征。无监督卷积自编码器CAE通过重构输入图像来提取特征,不受类不平衡问题的影响。因此,本文采用无监督的卷积自编码器CAE来提取图像块特征,而CNN则用于最终的分类任务。
哈希方法在基于内容的图像检索中得到了广泛的应用。通过一组哈希函数将图像从原始高维特征空间投影到低维汉明空间。每个哈希函数充当一个超平面,将特征空间分为两部分。超平面的两侧被指定为“-1”或“1”。通过学习θ个哈希函数,可以在汉明空间中生成2θ个哈希桶。同一个哈希桶中的样本共享相同的哈希编码,并被视为彼此相似。
作为一种著名的无监督哈希方法,迭代量化哈希(ITQ)被用于HBU方法。一个包含n个样本的特征数据集可以定义为X∈Rn×d,其中d表示原始特征数据的维数。哈希的目的是根据所有样本的相似性来学习一个二进制码矩阵B∈{-1,1}n×c,其中c代表哈希编码长度。数据点x通过哈希表H(x)=[h1(x)...hc(x)]映射到二进制编码空间。哈希函数可以表示为
h(x)=sgn(xwc+b) (4)
其中wc和b分别代表哈希超平面参数和偏差。符号函数sgn(·)可以表示为
为了学习紧凑的二进制哈希编码,期望最终二进制码中每一位编码具有最大方差,以及每位哈希编码之间线性无关。目标函数可以表示为
其中,W为哈希超平面系数矩阵,B为数据的哈希编码矩阵。为了便于优化,忽略不可导的符号函数sgn(·),公式(6)可以转化为
公式(7)与主成分分析(PCA)的目标函数相同,上述目标函数可以采用PCA的方式对特征数据进行降维,得到数据的前c主成分,把数据映射到低维空间,得到降维后的特征数据集V。然后,通过对数据在低维空间进行旋转,使得数据和其对应的低维空间超立方体顶点尽可能相近,每个超立方体顶点对应一个哈希编码。因此,最终的量化损失函数为
其中,B、V、R、F分别表示图像的哈希编码、PCA降维后的特征数据、旋转矩阵和Frobenius范数。其中,V为已知,未知变量为B和R。该目标函数的优化过程思想为:首先将R初始化为一个随机正交矩阵,然后进行迭代优化以寻找重建误差的局部最小值。在每次迭代中,通过固定旋转矩阵来优化每个样本的哈希码B。然后在固定样本哈希码B下,通过最小化量化误差来求解旋转矩阵R。具体的迭代优化计算方法为:
先固定R以更新B:展开公式(8)我们可以得到
因为经过PCA降维后的特征数据V已经被固定了,最小化公式(9)等价于最大化
此时,B等于特征数据V经过R旋转后,最近的超立方体顶点对应哈希编码。
然后固定B以更新R:
公式(8)的最小量化过程如下,对BTV进行SVD分解,BTV=SΩST,然后得到R=SST。
将上述迭代优化过程交替进行50次左右,即可得到较好的局部最优解,即B和R。
图3显示了哈希编码效果示例。如图3所示,每条红线可视为一个超平面。两个哈希超平面将低维特征空间划分为四个哈希桶。因此,“A”、“B”、“C”和“D”哈希桶中的样本分别映射到二进制编码“11”、“1-1”、“1-1”和“-11”。
为了选择具有代表性的样本,减少抽样误差,将数理统计中的分层比例抽样方法引入到HBU方法中,确定每个哈希桶的样本数。对于第i个(i>0)哈希桶,要挑选的多类样本数计算公式如下:
其中,表示第i个哈希桶中的样本数,/>表示第i个哈希桶中选择的样本数。T的取值范围为0<T<1,欠采样强度随T的减小而增大,T值可手动选择。在我们的实验中,T被设为少数类样本数量除以多数类样本数量的商,在确定每个哈希桶中选择的样本数后,从每一个哈希桶中的多数类样本中随机挑选相应数量的样本。最后,挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器。
实施例二
如图1所示,本发明所阐述的一种针对组织病理学图像的哈希样本平衡癌症标注方法,其包括以下步骤:
对超大分辨率病理图像分割为大量大小为256*256像素的图像块,并采用卷积自编码器提取每个图像块特征,整理得到特征数据集。其中,训练阶段所有图像块标签已知,测试阶段标签均未知。此时,数据集非常不平衡,包含大量多数类(良性组织)样本和少量少数类(恶性组织)样本。卷积自编码器的结构如表1所示。本实例采用ACDC@LUNGHP和CAMELYON16数据集进行实验。
假设不平衡图像数据集为D,包括良性样本Sma(多数类)和恶性样本Smi(少数类)。在欠采样开始时,首先使用ITQ将特征空间划分为2c个桶,其中c是哈希码的长度。每个哈希桶对应一个唯一的哈希编码。位于同一哈希桶中的多类样本具有相同的哈希码。
然后,为了选择具有代表性的样本,减少抽样误差,将数理统计中的分层比例抽样方法引入到HBU方法中,确定每个哈希桶需要挑选的多数类样本数。对于第i个哈希桶,要选择的多类样本数计算如下:
其中,表示第i个哈希桶中的样本数,/>表示第i个哈希桶中选择的样本数。T的取值范围为0<T<1,欠采样强度随T的减小而增大,T值可手动选择。在我们的实验中,T被设为少数类样本数量除以多数类样本数量的商,在确定每个哈希桶中选择的样本数后,从每一个哈希桶中的多数类样本中随机挑选相应数量的样本。最后,挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器。
训练好的CNN分类器可以实现对良性和恶性组织的良好区分。此时,对测试的超高分辨率病理图像分割为大量大小为256*256像素的图像块,基于CNN分类器对所有图像块进行分类,根据分类结果对原始整个超高分辨率病理图像进行癌症标注。本实例所提出的HBU方法和现有相关采样算法在乳腺癌数据集CAMELYON16上的标注效果如图4所示,可见本实例所发明方法的有效性。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (5)
1.一种针对组织病理学图像的哈希样本平衡癌症标注方法,其特征在于,所述方法包括如下步骤:
步骤1,利用卷积自编码器提取多类图像的特征,采用无监督的卷积自编码器来提取图像块特征;对超大分辨率病理图像分割为大量大小为256*256像素的图像块,并采用卷积自编码器提取每个图像块特征,整理得到特征数据集,其中,训练阶段所有图像块标签已知,测试阶段标签均未知;此时,数据集非常不平衡,包含大量多数类样本和少量少数类样本;假设不平衡图像数据集为D,包括多数类样本Sma和少数类样本Smi,在欠采样开始时,首先使用ITQ将特征空间划分为2c个桶,其中c是哈希码的长度,每个哈希桶对应一个唯一的哈希编码,位于同一哈希桶中的多类样本具有相同的哈希编码;
步骤2,利用哈希方法将高维特征空间的图像映射到低维二进制空间,对所有多类图像样本产生哈希编码,其中,每个哈希编码对应原始特征空间中的一个子空间,也称为哈希桶;
步骤3,计算在每个哈希桶中的抽取样本的选择比例,并挑选出具有代表性的样本;将数理统计中的分层比例抽样方法引入到HBU方法中,确定每个哈希桶需要挑选的多数类样本数,对于第i个哈希桶,要选择的多类样本数计算如下:
其中,表示第i个哈希桶中的样本数,/>表示第i个哈希桶中选择的样本数,T的取值范围为0<T<1,欠采样强度随T的减小而增大,T值可手动选择,T被设为少数类样本数量除以多数类样本数量的商,在确定每个哈希桶中选择的样本数后,从每一个哈希桶中的多数类样本中随机挑选相应数量的样本;
挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器,其中,训练好的CNN分类器实现对良性和恶性组织的良好区分,此时,将待测试的超高分辨率病理图像分割为大量大小为256*256像素的图像块,基于CNN分类器对所有图像块进行分类,根据分类结果对原始整个超高分辨率病理图像进行癌症标注;
步骤4,采用有监督卷积神经网络用于最终的分类任务。
2.如权利要求1所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法,其特征在于,所述步骤1进一步包括:采用深度学习的方法获取图像的高层语义特征,采用卷积自编码器提取多类组织病理斑块的特征,编码器将输入数据转换为低维特征,定义为
s=g(z) (1)
其中z和s分别代表编码器的输入数据和输出;g(z)为编码器映射函数;解码器接收编码器的输出,并尝试将编码器的输入重建为其输出,解码器定义为
其中s和分别对应于低维特征和解码器的输出,f(s)为解码器映射函数;因此,卷积自编码器的目标函数可以定义为
f,g=arg minf,gL(z,f(g(z))) (3)
其中:g(z)表示编码器映射函数,f(g(z))表示在自编码器中,对编码器输出结果再进行解码运算;
再利用随机梯度下降法对目标函数进行最小化,得到输入图像的特征。
3.如权利要求1所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法,其特征在于,所述步骤2进一步包括:通过一组哈希函数将图像从原始高维特征空间投影到低维汉明空间,每个哈希函数充当一个超平面,将特征空间分为两部分,超平面的两侧被指定为“-1”或“1”,通过学习θ个哈希函数,在汉明空间中生成2θ个哈希桶,同一个哈希桶中的样本共享相同的哈希编码,并被视为彼此相似。
4.如权利要求3所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法,其特征在于,采用迭代量化哈ITQ,一个包含n个样本的特征数据集定义为X∈Rn×d,其中d表示原始特征数据的维数,哈希的目的是根据所有样本的相似性来学习一个二进制码矩阵B∈{-1,1}n×c,其中c代表哈希编码长度,数据点x通过哈希表H(x)=[h1(x) … hc(x)]映射到二进制编码空间,将哈希函数表示为
h(x)=sgn(x*wc+b) (4)
其中,wc和b分别代表哈希超平面参数和偏差,符号函数sgn(·)表示为
目标函数表示为
其中,W为哈希超平面系数矩阵,hc(x)表示数据第c位哈希编码,var表示计算哈希编码方差,B为数据的哈希编码矩阵,忽略不可导的符号函数sgn(·),公式(6)转化为
其中:表示放松后的目标函数,IE(·)表示数学期望函数,W表示为-哈希超平面系数矩阵,tr表示矩阵的迹;
公式(7)与主成分分析的目标函数相同,所述目标函数采用主成分分析的方式对特征数据进行降维,得到数据的前c主成分,把数据映射到低维空间,得到降维后的特征数据集V;然后,通过对数据在低维空间进行旋转,使得数据和其对应的低维空间超立方体顶点相近,每个超立方体顶点对应一个哈希编码,因此,最终的量化损失函数为
其中,B、V、R、F分别表示图像的哈希编码、PCA降维后的特征数据、旋转矩阵和Frobenius范数,其中,V为已知,未知变量为B和R;具体的迭代优化计算方法为:
先固定R以更新B:展开公式(8)得到
其中:tr表示矩阵的迹;
因为经过PCA降维后的特征数据V已经被固定了,最小化公式(9)等价于最大化
其中:Bij表示第i个数据的第j位编码,Vij表示第i个数据的第j维特征;
此时,B等于特征数据V经过R旋转后,最近的超立方体顶点对应哈希编码;
然后固定B以更新R:
公式(8)的最小量化过程如下,对BTV进行SVD分解,BTV=SΩST,然后得到R=SST,将迭代优化过程交替进行预设次数,即得到局部最优解,即B和R。
5.如权利要求3所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法,其特征在于,所述步骤3进一步包括数理统计中的分层比例抽样方法引入到HBU方法中,确定每个哈希桶的样本数,对于第i个哈希桶,要挑选的多类样本数计算公式如下:
其中,i>0,表示第i个哈希桶中的样本数,/>表示第i个哈希桶中需要挑选的样本数,T的取值范围为0<T<1,欠采样强度随T的减小而增大,T值可手动选择,在我们的实验中,T被设为少数类样本数量除以多数类样本数量的商,在确定每个哈希桶中选择的样本数后,从每一个哈希桶中的多数类样本中随机挑选相应数量的样本;最后,挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110228166.9A CN112906804B (zh) | 2021-03-02 | 2021-03-02 | 一种针对组织病理学图像的哈希样本平衡癌症标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110228166.9A CN112906804B (zh) | 2021-03-02 | 2021-03-02 | 一种针对组织病理学图像的哈希样本平衡癌症标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112906804A CN112906804A (zh) | 2021-06-04 |
CN112906804B true CN112906804B (zh) | 2023-12-19 |
Family
ID=76107342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110228166.9A Active CN112906804B (zh) | 2021-03-02 | 2021-03-02 | 一种针对组织病理学图像的哈希样本平衡癌症标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112906804B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313203B (zh) * | 2021-06-22 | 2022-11-01 | 哈尔滨工程大学 | 一种基于可拓理论和深度学习的医学图像分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820696A (zh) * | 2015-04-29 | 2015-08-05 | 山东大学 | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 |
CN106777038A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于序列保留哈希的超低复杂度图像检索方法 |
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN108805157A (zh) * | 2018-04-11 | 2018-11-13 | 南京理工大学 | 基于部分随机监督离散式哈希的遥感图像分类方法 |
-
2021
- 2021-03-02 CN CN202110228166.9A patent/CN112906804B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104820696A (zh) * | 2015-04-29 | 2015-08-05 | 山东大学 | 一种基于多标签最小二乘哈希算法的大规模图像检索方法 |
CN106777038A (zh) * | 2016-12-09 | 2017-05-31 | 厦门大学 | 一种基于序列保留哈希的超低复杂度图像检索方法 |
CN108108657A (zh) * | 2017-11-16 | 2018-06-01 | 浙江工业大学 | 一种基于多任务深度学习的修正局部敏感哈希车辆检索方法 |
CN108805157A (zh) * | 2018-04-11 | 2018-11-13 | 南京理工大学 | 基于部分随机监督离散式哈希的遥感图像分类方法 |
Non-Patent Citations (1)
Title |
---|
编码选择哈希算法解决大规模图像检索问题;田星 等;《控制理论与应用》;第34卷(第6期);第769-775页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112906804A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12118721B2 (en) | Systems and methods for image preprocessing | |
Feng et al. | Breast cancer cell nuclei classification in histopathology images using deep neural networks | |
Xu et al. | Stacked Sparse Autoencoder (SSAE) based framework for nuclei patch classification on breast cancer histopathology | |
CA2435290C (en) | Computer-aided image analysis | |
Qureshi et al. | Adaptive discriminant wavelet packet transform and local binary patterns for meningioma subtype classification | |
Cao et al. | A multi-kernel based framework for heterogeneous feature selection and over-sampling for computer-aided detection of pulmonary nodules | |
Mao et al. | Feature representation using deep autoencoder for lung nodule image classification | |
CN107533649A (zh) | 使用图像分类的自动脑肿瘤诊断方法和系统 | |
CN112765352A (zh) | 基于具有自注意力机制的图卷积神经网络文本分类方法 | |
Bai et al. | NHL Pathological Image Classification Based on Hierarchical Local Information and GoogLeNet‐Based Representations | |
Nanni et al. | General purpose (GenP) bioimage ensemble of handcrafted and learned features with data augmentation | |
Liu et al. | Scalable mammogram retrieval using composite anchor graph hashing with iterative quantization | |
CN113222072A (zh) | 基于K-means聚类和GAN的肺部X光图像分类方法 | |
Goyal et al. | A hierarchical laplacian TWSVM using similarity clustering for leaf classification | |
CN112906804B (zh) | 一种针对组织病理学图像的哈希样本平衡癌症标注方法 | |
Imran et al. | Multi-adversarial variational autoencoder nets for simultaneous image generation and classification | |
CN112560949B (zh) | 基于多级统计学特征提取的高光谱分类方法 | |
CN116228759A (zh) | 肾细胞癌类型的计算机辅助诊断系统及设备 | |
Pan et al. | A review of machine learning approaches, challenges and prospects for computational tumor pathology | |
CN115910324A (zh) | 基于特征转换和数据增强的微生物疾病诊断方法 | |
Wang et al. | Self-supervised deep multi-level representation learning fusion-based maximum entropy subspace clustering for hyperspectral band selection | |
Arulmozhi et al. | A REVIEW: DEEP LEARNING TECHNIQUES FOR IMAGE CLASSIFICATION OF PANCREATIC TUMOR. | |
Uddin et al. | Practical analysis of macromolecule identity from cryo-electron tomography images using deep learning | |
du Toit | Enhanced Deep Learning Feature Extraction for Plankton Taxonomy | |
Tian et al. | Hashing-based Undersampling for Large Scale Histopathology Image Classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |