CN112906804B

CN112906804B - 一种针对组织病理学图像的哈希样本平衡癌症标注方法

Info

Publication number: CN112906804B
Application number: CN202110228166.9A
Authority: CN
Inventors: 吴永贤; 丘林; 田星; 张建军; 王婷; 余洪华
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2023-12-19
Anticipated expiration: 2041-03-02
Also published as: CN112906804A

Abstract

本发明公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法，利用卷积自编码器提取多类图像的特征，采用无监督的卷积自编码器CAE来提取图像块特征，采用有监督卷积神经网络(CNN)用于最终的分类任务；利用哈希方法将高维特征空间的图像映射到低维二进制空间，对所有多类图像样本产生哈希编码，每个哈希编码对应原始特征空间中的一个子空间，也称为哈希桶；计算在每个哈希桶中的抽取样本的选择比例，并挑选出具有代表性的样本。针对大规模病理组织学图像分类任务中的类不平衡问题，提出了一种高效的重采样方法HBU。不需要计算样本之间的成对距离，具有高效性和高可拓展性。

Description

一种针对组织病理学图像的哈希样本平衡癌症标注方法

技术领域

本发明涉及图像分析技术领域，尤其涉及一种针对组织病理学图像的哈希样本平衡癌症标注方法。

背景技术

基于患者的超高分辨率病理图像的癌症早期诊断在医学中其中重要的作用。现有方法主要是通过把原始的组织病理学图像划分为大量的图像块，然后判断图像块是否为癌症组织图像，以此实现对癌症病灶的精确判断和定位。然而，现实中的正常组织图像块数量往往远超过癌症组织块图像，造成数据集的不平衡问题，使得难以有效地训练癌症组织图像分类器。因此，本文提出一种针对组织病理学图像的哈希样本平衡癌症标注方法，基于哈希方法提取平衡的训练集以训练分类器，实现较好的癌症组织识别效果，对癌症区域实现准确的定位标注。

目前，解决类不平衡问题的方法主要有：数据级方法、算法级方法和集成分类器方法。数据级方法通过对输入的训练数据进行预处理来降低不平衡率。数据级方法主要包括欠采样和过采样两类。欠采样方法从多类中选择具有代表性的样本，以达到预定的训练集平衡比率。Kubat等人提出了一种利用1-NN分类器和Tomek-links技术消除冗余和噪声样本的单侧选择算法(OSS)。Rezk等人运用形式化概念分析理论从数据中选取部分样本进行乳腺癌组织病理学图像分类。此外，Lin等人还采用了K-means技术获取数据的分布情况，选取有代表性的样本。与欠采样方法不同，过采样增加了少数类样本的数量。ROS随机复制少数类样本以增加该类样本数量，但这可能会导致过度拟合问题。为了减少过拟合的可能性，SMOTE算法通过在少数类的两样本之间插值以生成人工样本。CURE-SMOTE将聚类技术与SMOTE算法相结合，以提高随机森林的性能。WK-SMOTE算法通过在SVM的核空间过采样来解决核空间的非线性过采样问题。随着数据规模的不断增加，欠采样由于其较低的复杂度开销被认为是比过采样更好的方法。然而，现有的采样方法一般是利用基于距离的邻域关系来提取数据分布信息。对于数据量非常大的情况，如医学检查中分析的超高分辨率组织病理学图像，现有的采样方法不仅计算效率低，而且易受噪声干扰。

算法级方法根据具体任务不同设计特定的算法来解决类不平衡问题。单类学习方法只从一类实例中学习。阈值方法在训练阶段为每个类别设置不同的阈值。对于传统的分类算法，不同类别的样本对应相同的分类代价。而代价敏感的分类方法则为少数类分配了比多数类更高的分类损失。Khan等人结合代价敏感网络和神经网络来获得不平衡数据中不同类别的决策边界。Li等人提出了一种代价敏感的方法来平衡乳腺癌检测任务中的误诊率和漏诊率。然而，对于代价敏感的方法，由于缺乏领域专业知识，准确的误分类代价很难确定。在处理类的不平衡问题时，分类器的集成学习也被广泛采用。Bagging和boosting是两种主要的分类器集成方法。Bagging使用多个基分类器，这些分类器在不同的数据子集上进行训练。Boosting对基分类器进行迭代训练，对前一次迭代中错误分类的样本赋予更高的权重。EasyEnsemble在bagging和随机欠采样的基础上学习不平衡数据集，而BalanceCascade则是同时执行随机欠采样和数据增强。SMOTEBoost结合SMOTE和boosting过程来提高分类器在不平衡数据集上的性能。Krawczyk等人结合boosting方案和进化欠采样，为乳腺癌的不平衡分类生成平衡训练集。刘等提出了一种特征选择和集成的混合方法，解决了癌症微阵列数据中存在的多类不平衡问题。然而，当不平衡率较高时，集成方法需要训练足够多的基分类器才能达到较好的效果，同时多个模型在部署的时候也带来了更大的时间开销和机器成本。集成方法运行缓慢的另一个原因是在每次迭代中都使用基于距离的重采样方法来获得平衡的数据。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法，所述方法包括如下步骤：

步骤1，利用卷积自编码器提取多类图像的特征，采用无监督的卷积自编码器CAE来提取图像块特征；

步骤2，利用哈希方法将高维特征空间的图像映射到低维二进制空间，对所有多类图像样本产生哈希编码，其中，每个哈希编码对应原始特征空间中的一个子空间，也称为哈希桶；

步骤3，计算在每个哈希桶中的抽取样本的选择比例，并挑选出具有代表性的样本；

步骤4，采用有监督卷积神经网络(CNN)用于最终的分类任务。

更进一步地，所述步骤1进一步包括：采用深度学习的方法获取图像的高层语义特征，采用卷积卷积自编码器(CAE)提取多类组织病理斑块的特征，编码器将输入数据转换为低维特征，可以定义为

s＝g(z) (1)

其中z和s分别代表编码器的输入数据和输出；解码器接收编码器的输出，并尝试将编码器的输入重建为其输出，解码器定义为

其中s和分别对应于低维特征和解码器的输出，因此，卷积自编码器的目标函数可以定义为

f，g＝arg min_f，gL(z，f(g(z))) (3)

再利用随机梯度下降法对目标函数进行最小化，得到输入图像的特征。

更进一步地，所述步骤2进一步包括：通过一组哈希函数将图像从原始高维特征空间投影到低维汉明空间，每个哈希函数充当一个超平面，将特征空间分为两部分，超平面的两侧被指定为“-1”或“1”，通过学习θ个哈希函数，可以在汉明空间中生成2^θ个哈希桶，同一个哈希桶中的样本共享相同的哈希编码，并被视为彼此相似。

更进一步地，采用迭代量化哈希(ITQ)，一个包含n个样本的特征数据集可以定义为X∈R^n×d，其中d表示原始特征数据的维数，哈希的目的是根据所有样本的相似性来学习一个二进制码矩阵B∈{-1，1}^n×c，其中c代表哈希编码长度，数据点x通过哈希表H(x)＝[h₁(x)...h_c(x)]映射到二进制编码空间，将哈希函数表示为

h(x)＝sgn(xw_c+b) (4)

其中，w_c和b分别代表哈希超平面参数和偏差，符号函数sgn(·)可以表示为

目标函数表示为

其中，W为哈希超平面系数矩阵，B为数据的哈希编码矩阵。为了便于优化，忽略不可导的符号函数sgn(·)，公式(6)可以转化为

公式(7)与主成分分析(PCA)的目标函数相同，所述目标函数可以采用PCA的方式对特征数据进行降维，得到数据的前c主成分，把数据映射到低维空间，得到降维后的特征数据集V；然后，通过对数据在低维空间进行旋转，使得数据和其对应的低维空间超立方体顶点尽可能相近，每个超立方体顶点对应一个哈希编码，因此，最终的量化损失函数为

其中，B、V、R、F分别表示图像的哈希编码、PCA降维后的特征数据、旋转矩阵和Frobenius范数。其中，V为已知，未知变量为B和R；具体的迭代优化计算方法为：

先固定R以更新B：展开公式(8)得到

因为经过PCA降维后的特征数据V已经被固定了，最小化公式(9)等价于最大化

此时，B等于特征数据V经过R旋转后，最近的超立方体顶点对应哈希编码；

然后固定B以更新R：

公式(8)的最小量化过程如下，对B^TV进行SVD分解，B^TV＝SΩS^T，然后得到R＝SS^T，将迭代优化过程交替进行预设次数，即可得到较好的局部最优解，即B和R。

更进一步地，所述步骤3进一步包括数理统计中的分层比例抽样方法引入到HBU方法中，确定每个哈希桶的样本数，对于第i个(i＞0)哈希桶，要挑选的多类样本数计算公式如下：

其中，表示第i个哈希桶中的样本数，/>表示第i个哈希桶中选择的样本数，T的取值范围为0＜T＜1，欠采样强度随T的减小而增大，T值可手动选择，在我们的实验中，T被设为少数类样本数量除以多数类样本数量的商，在确定每个哈希桶中选择的样本数后，从每一个哈希桶中的多数类样本中随机挑选相应数量的样本；最后，挑选出的多数类样本和所有少数类样本组成平衡的数据集用来训练分类器。

本发明进一步公开了一种针对组织病理学图像的哈希样本平衡癌症标注方法，其包括以下步骤：

步骤1，对超大分辨率病理图像分割为大量大小为256*256像素的图像块，并采用卷积自编码器提取每个图像块特征，整理得到特征数据集，其中，训练阶段所有图像块标签已知，测试阶段标签均未知。此时，数据集非常不平衡，包含大量多数类(良性组织)样本和少量少数类(恶性组织)样本；

假设不平衡图像数据集为D，包括良性样本S_ma(多数类)和恶性样本S_mi(少数类)，在欠采样开始时，首先使用ITQ将特征空间划分为2^c个桶，其中c是哈希码的长度，每个哈希桶对应一个唯一的哈希编码，位于同一哈希桶中的多类样本具有相同的哈希码；

步骤2，将数理统计中的分层比例抽样方法引入到HBU方法中，确定每个哈希桶需要挑选的多数类样本数，对于第i个哈希桶，要选择的多类样本数计算如下：

其中，表示第i个哈希桶中的样本数，/>表示第i个哈希桶中选择的样本数，T的取值范围为0＜T＜1，欠采样强度随T的减小而增大，T值可手动选择，T被设为少数类样本数量除以多数类样本数量的商，在确定每个哈希桶中选择的样本数后，从每一个哈希桶中的多数类样本中随机挑选相应数量的样本；

步骤3，挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器，其中，训练好的CNN分类器可以实现对良性和恶性组织的良好区分，此时，对测试的超高分辨率病理图像分割为大量大小为256*256像素的图像块，基于CNN分类器对所有图像块进行分类，根据分类结果对原始整个超高分辨率病理图像进行癌症标注。

本发明提供一种针对组织病理学图像的哈希样本平衡癌症标注方法。通过迭代量化哈希的方法将多数类样本进行二值编码，然后采用分层抽样的方法对每一个哈希桶里面的样本进行挑选，得到多数类的代表性样本。这些样本和少数类合并在一起组成平衡的数据集，并用于训练卷积神经网络，从而实现在大规模不平衡数据集下的较精确地分类效果，实现对癌症组织区域的精确标注。随着可视化设备的升级和普遍使用，大数据时代已经到来，数据级方法凭借其计算简便的优势成为解决大规模数据类不平衡问题的较常用方法。然而，现有的重采样方法通常使用基于距离的邻域(如k近邻)来获取数据的分布信息。当遇到大规模不平衡数据时，成对距离的计算效率极低，而且基于距离的邻域重采样方法易受噪声干扰，导致重采样的效果不理想。此外，现有的集成分类器方法也采用基于距离的重采样方法来获得平衡的数据集，这同样会遇到上述重采样方法的缺点。因此，本专利针对大规模病理组织学图像分类任务中的类不平衡问题，提出了一种高效的重采样方法HBU。该方法不需要计算样本之间的成对距离，具有高效性和高可拓展性。在本发明中，所提出的针对组织病理学图像的哈希样本平衡癌症标注方法属于一种数据级方法。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明逻辑流程示意图。

图2为本发明所使用的卷积自编码器结构示意图。

图3为本发明所使用的哈希编码算法效果示意图。

图4为本实例所提出的HBU方法和现有相关采样算法在乳腺癌数据集CAMELYON16上的标注效果。

具体实施方式

实施例一

本发明提出的基于哈希的抽样方法(HBU)是一种欠采样方法，它选择属于多类的代表性样本来构建平衡训练集。在欠采样过程中，首先利用卷积自编码器提取多类图像的特征，然后利用哈希方法将高维特征空间的图像映射到低维二进制空间，对所有多类图像样本产生哈希编码。每个哈希编码对应原始特征空间中的一个子空间，也称为哈希桶。最后，计算在每个哈希桶中的抽取样本的选择比例，并挑选出具有代表性的样本。图1显示了HBU的算法流程图。

在本发明方法中，我们需要首先对多类图像进行特征提取。假如采用传统的手工方法，包括局部二值模式或根滤波器组来提取图像的特征，这种方法可能导致不稳定或不可重复的结果。此外，手工特征的提取方法是基于人类经验的，这些方法只能提取浅层特征，如纹理特征等，而不能提取图像的高层语义特征。本发明采用深度学习的方法来克服上述局限性，获取图像的高层语义特征。近年来，卷积自编码器在医学图像数据的特征提取中得到了广泛的应用，并被证明是一种有效的方法。为了获得图像的特征，采用卷积卷积自编码器(CAE)提取多类组织病理斑块的特征。CAE的体系结构如图2所示。在表1中，BRM表示三种操作的组合，即批处理规范化、Relu和max pooling。编码器将输入数据转换为低维特征，可以定义为

s＝g(z) (1)

其中z和s分别代表编码器的输入数据和输出。解码器接收编码器的输出，并尝试将编码器的输入重建为其输出。解码器可以定义为

其中s和分别对应于低维特征和解码器的输出。因此，卷积自编码器的目标函数可以定义为

f，g＝arg min_f，gL(z，f(g(z))) (3)

表1

利用随机梯度下降法对目标函数进行最小化，得到输入图像的特征。在我们的工作中，CAE被用于多类图像样本的特征提取，然后使用HBU方法构建平衡训练集。对于最终的分类任务，采用有监督卷积神经网络(CNN)作为端到端模型进行分类，而不是用于提取HBU方法的特征。这样做的原因是CNN在类不平衡问题下无法提取图像的可判别性特征。无监督卷积自编码器CAE通过重构输入图像来提取特征，不受类不平衡问题的影响。因此，本文采用无监督的卷积自编码器CAE来提取图像块特征，而CNN则用于最终的分类任务。

哈希方法在基于内容的图像检索中得到了广泛的应用。通过一组哈希函数将图像从原始高维特征空间投影到低维汉明空间。每个哈希函数充当一个超平面，将特征空间分为两部分。超平面的两侧被指定为“-1”或“1”。通过学习θ个哈希函数，可以在汉明空间中生成2^θ个哈希桶。同一个哈希桶中的样本共享相同的哈希编码，并被视为彼此相似。

作为一种著名的无监督哈希方法，迭代量化哈希(ITQ)被用于HBU方法。一个包含n个样本的特征数据集可以定义为X∈R^n×d，其中d表示原始特征数据的维数。哈希的目的是根据所有样本的相似性来学习一个二进制码矩阵B∈{-1，1}^n×c，其中c代表哈希编码长度。数据点x通过哈希表H(x)＝[h₁(x)...h_c(x)]映射到二进制编码空间。哈希函数可以表示为

h(x)＝sgn(xw_c+b) (4)

其中w_c和b分别代表哈希超平面参数和偏差。符号函数sgn(·)可以表示为

为了学习紧凑的二进制哈希编码，期望最终二进制码中每一位编码具有最大方差，以及每位哈希编码之间线性无关。目标函数可以表示为

公式(7)与主成分分析(PCA)的目标函数相同，上述目标函数可以采用PCA的方式对特征数据进行降维，得到数据的前c主成分，把数据映射到低维空间，得到降维后的特征数据集V。然后，通过对数据在低维空间进行旋转，使得数据和其对应的低维空间超立方体顶点尽可能相近，每个超立方体顶点对应一个哈希编码。因此，最终的量化损失函数为

其中，B、V、R、F分别表示图像的哈希编码、PCA降维后的特征数据、旋转矩阵和Frobenius范数。其中，V为已知，未知变量为B和R。该目标函数的优化过程思想为：首先将R初始化为一个随机正交矩阵，然后进行迭代优化以寻找重建误差的局部最小值。在每次迭代中，通过固定旋转矩阵来优化每个样本的哈希码B。然后在固定样本哈希码B下，通过最小化量化误差来求解旋转矩阵R。具体的迭代优化计算方法为：

先固定R以更新B：展开公式(8)我们可以得到

此时，B等于特征数据V经过R旋转后，最近的超立方体顶点对应哈希编码。

然后固定B以更新R：

公式(8)的最小量化过程如下，对B^TV进行SVD分解，B^TV＝SΩS^T，然后得到R＝SS^T。

将上述迭代优化过程交替进行50次左右，即可得到较好的局部最优解，即B和R。

图3显示了哈希编码效果示例。如图3所示，每条红线可视为一个超平面。两个哈希超平面将低维特征空间划分为四个哈希桶。因此，“A”、“B”、“C”和“D”哈希桶中的样本分别映射到二进制编码“11”、“1-1”、“1-1”和“-11”。

为了选择具有代表性的样本，减少抽样误差，将数理统计中的分层比例抽样方法引入到HBU方法中，确定每个哈希桶的样本数。对于第i个(i＞0)哈希桶，要挑选的多类样本数计算公式如下：

其中，表示第i个哈希桶中的样本数，/>表示第i个哈希桶中选择的样本数。T的取值范围为0＜T＜1，欠采样强度随T的减小而增大，T值可手动选择。在我们的实验中，T被设为少数类样本数量除以多数类样本数量的商，在确定每个哈希桶中选择的样本数后，从每一个哈希桶中的多数类样本中随机挑选相应数量的样本。最后，挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器。

实施例二

如图1所示，本发明所阐述的一种针对组织病理学图像的哈希样本平衡癌症标注方法，其包括以下步骤：

对超大分辨率病理图像分割为大量大小为256*256像素的图像块，并采用卷积自编码器提取每个图像块特征，整理得到特征数据集。其中，训练阶段所有图像块标签已知，测试阶段标签均未知。此时，数据集非常不平衡，包含大量多数类(良性组织)样本和少量少数类(恶性组织)样本。卷积自编码器的结构如表1所示。本实例采用ACDC@LUNGHP和CAMELYON16数据集进行实验。

假设不平衡图像数据集为D，包括良性样本S_ma(多数类)和恶性样本S_mi(少数类)。在欠采样开始时，首先使用ITQ将特征空间划分为2^c个桶，其中c是哈希码的长度。每个哈希桶对应一个唯一的哈希编码。位于同一哈希桶中的多类样本具有相同的哈希码。

然后，为了选择具有代表性的样本，减少抽样误差，将数理统计中的分层比例抽样方法引入到HBU方法中，确定每个哈希桶需要挑选的多数类样本数。对于第i个哈希桶，要选择的多类样本数计算如下：

训练好的CNN分类器可以实现对良性和恶性组织的良好区分。此时，对测试的超高分辨率病理图像分割为大量大小为256*256像素的图像块，基于CNN分类器对所有图像块进行分类，根据分类结果对原始整个超高分辨率病理图像进行癌症标注。本实例所提出的HBU方法和现有相关采样算法在乳腺癌数据集CAMELYON16上的标注效果如图4所示，可见本实例所发明方法的有效性。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种针对组织病理学图像的哈希样本平衡癌症标注方法，其特征在于，所述方法包括如下步骤：

步骤1，利用卷积自编码器提取多类图像的特征，采用无监督的卷积自编码器来提取图像块特征；对超大分辨率病理图像分割为大量大小为256*256像素的图像块，并采用卷积自编码器提取每个图像块特征，整理得到特征数据集，其中，训练阶段所有图像块标签已知，测试阶段标签均未知；此时，数据集非常不平衡，包含大量多数类样本和少量少数类样本；假设不平衡图像数据集为D，包括多数类样本S_ma和少数类样本S_mi，在欠采样开始时，首先使用ITQ将特征空间划分为2^c个桶，其中c是哈希码的长度，每个哈希桶对应一个唯一的哈希编码，位于同一哈希桶中的多类样本具有相同的哈希编码；

步骤3，计算在每个哈希桶中的抽取样本的选择比例，并挑选出具有代表性的样本；将数理统计中的分层比例抽样方法引入到HBU方法中，确定每个哈希桶需要挑选的多数类样本数，对于第i个哈希桶，要选择的多类样本数计算如下：

其中，表示第i个哈希桶中的样本数，/>表示第i个哈希桶中选择的样本数，T的取值范围为0<T<1，欠采样强度随T的减小而增大，T值可手动选择，T被设为少数类样本数量除以多数类样本数量的商，在确定每个哈希桶中选择的样本数后，从每一个哈希桶中的多数类样本中随机挑选相应数量的样本；

挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器，其中，训练好的CNN分类器实现对良性和恶性组织的良好区分，此时，将待测试的超高分辨率病理图像分割为大量大小为256*256像素的图像块，基于CNN分类器对所有图像块进行分类，根据分类结果对原始整个超高分辨率病理图像进行癌症标注；

步骤4，采用有监督卷积神经网络用于最终的分类任务。

2.如权利要求1所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法，其特征在于，所述步骤1进一步包括：采用深度学习的方法获取图像的高层语义特征，采用卷积自编码器提取多类组织病理斑块的特征，编码器将输入数据转换为低维特征，定义为

s＝g(z) (1)

其中z和s分别代表编码器的输入数据和输出；g(z)为编码器映射函数；解码器接收编码器的输出，并尝试将编码器的输入重建为其输出，解码器定义为

其中s和分别对应于低维特征和解码器的输出，f(s)为解码器映射函数；因此，卷积自编码器的目标函数可以定义为

f,g＝arg min_f,gL(z,f(g(z))) (3)

其中：g(z)表示编码器映射函数，f(g(z))表示在自编码器中，对编码器输出结果再进行解码运算；

3.如权利要求1所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法，其特征在于，所述步骤2进一步包括：通过一组哈希函数将图像从原始高维特征空间投影到低维汉明空间，每个哈希函数充当一个超平面，将特征空间分为两部分，超平面的两侧被指定为“-1”或“1”，通过学习θ个哈希函数，在汉明空间中生成2^θ个哈希桶，同一个哈希桶中的样本共享相同的哈希编码，并被视为彼此相似。

4.如权利要求3所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法，其特征在于，采用迭代量化哈ITQ，一个包含n个样本的特征数据集定义为X∈R^n×d，其中d表示原始特征数据的维数，哈希的目的是根据所有样本的相似性来学习一个二进制码矩阵B∈{-1,1}^n×c，其中c代表哈希编码长度，数据点x通过哈希表H(x)＝[h₁(x) … h_c(x)]映射到二进制编码空间，将哈希函数表示为

h(x)＝sgn(x*w_c+b) (4)

其中，w_c和b分别代表哈希超平面参数和偏差，符号函数sgn(·)表示为

目标函数表示为

其中，W为哈希超平面系数矩阵，h_c(x)表示数据第c位哈希编码，var表示计算哈希编码方差，B为数据的哈希编码矩阵，忽略不可导的符号函数sgn(·)，公式(6)转化为

其中：表示放松后的目标函数，IE(·)表示数学期望函数，W表示为-哈希超平面系数矩阵，tr表示矩阵的迹；

公式(7)与主成分分析的目标函数相同，所述目标函数采用主成分分析的方式对特征数据进行降维，得到数据的前c主成分，把数据映射到低维空间，得到降维后的特征数据集V；然后，通过对数据在低维空间进行旋转，使得数据和其对应的低维空间超立方体顶点相近，每个超立方体顶点对应一个哈希编码，因此，最终的量化损失函数为

其中，B、V、R、F分别表示图像的哈希编码、PCA降维后的特征数据、旋转矩阵和Frobenius范数，其中，V为已知，未知变量为B和R；具体的迭代优化计算方法为：

先固定R以更新B：展开公式(8)得到

其中：tr表示矩阵的迹；

其中：B_ij表示第i个数据的第j位编码，V_ij表示第i个数据的第j维特征；

然后固定B以更新R：

公式(8)的最小量化过程如下，对B^TV进行SVD分解，B^TV＝SΩS^T，然后得到R＝SS^T，将迭代优化过程交替进行预设次数，即得到局部最优解，即B和R。

5.如权利要求3所述的一种针对组织病理学图像的哈希样本平衡癌症标注方法，其特征在于，所述步骤3进一步包括数理统计中的分层比例抽样方法引入到HBU方法中，确定每个哈希桶的样本数，对于第i个哈希桶，要挑选的多类样本数计算公式如下：

其中，i>0，表示第i个哈希桶中的样本数，/>表示第i个哈希桶中需要挑选的样本数，T的取值范围为0<T<1，欠采样强度随T的减小而增大，T值可手动选择，在我们的实验中，T被设为少数类样本数量除以多数类样本数量的商，在确定每个哈希桶中选择的样本数后，从每一个哈希桶中的多数类样本中随机挑选相应数量的样本；最后，挑选出的多数类样本和所有少数类样本组成平衡的数据集用训练分类器。