CN112614570A

CN112614570A - 样本集标注、病理图像分类、分类模型构建方法及装置

Info

Publication number: CN112614570A
Application number: CN202011487838.XA
Authority: CN
Inventors: 柯晶
Original assignee: Shanghai Biren Intelligent Technology Co Ltd
Current assignee: Shanghai Bi Ren Technology Co ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-06
Anticipated expiration: 2040-12-16
Also published as: CN112614570B

Abstract

本发明提供一种样本集标注、病理图像分类、分类模型构建方法及装置，所述方法包括：基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度，基于各样本病理图像的综合不确定度选取满足预设标注条件的样本病理图像进行标注，直至满足预设收敛条件。本发明基于标注不确定度、先验不确定度以及空间相关度获取综合不确定度，进而根据综合不确定度选取部分样本病理图像进行标注，不仅能够准确且高质量标注样本，而且大幅度减少了样本的标注量，降低了模型的训练成本，提高了模型的训练效率和精度。

Description

样本集标注、病理图像分类、分类模型构建方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种样本集标注、病理图像分类、分类模型构建方法及装置。

背景技术

近年来依赖于卷积神经网络(Convolutional Neural Network，简称CNN)强大的分层特征提取能力，已经广泛应用于各个领域，如病理图像的分类。

然而，训练病理图像分类模型需要获取大规模的医学图像训练样本，且需要用手工方法为训练样本标注，既费时又容易出错，并且手工标注的方法也未考虑不同训练样本数据的不均衡性，容易降低病理图像标注的质量，进而影响分类模型的训练效果。

发明内容

本发明提供一种样本集标注、病理图像分类、分类模型构建方法及装置，实现减少训练样本标注量，降低训练成本。

本发明提供一种样本集标注方法，包括：

样本获取步骤：获取若干个待标注的样本病理图像；

不确定度计算步骤：基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度；

样本标注步骤：基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注；

迭代步骤：基于执行样本标注步骤后的各样本病理图像，循环执行所述不确定度计算步骤和所述样本标注步骤，直至满足预设收敛条件；

其中，所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的，所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的，所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。

根据本发明提供的一种样本集标注方法，所述样本病理图像的标注不确定度的获取步骤包括：

将样本病理图像输入预测损失函数模型，输出所述样本病理图像的预测损失函数值；

其中，所述预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到，所述预测病理图像的损失函数值的获取步骤包括：

将所述预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层，获取所述预测病理图像的损失函数值；

所述目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。

根据本发明提供的一种样本集标注方法，所述样本病理图像的先验不确定度是基于先验值模型确定的，所述先验值模型为：

其中，

表示样本病理图像的先验不确定度，

表示归一化常数，

表示第k张样本病理图像中中心像素坐标为(i,j)的子图像，

表示第k张样本病理图像中中心像素坐标为(i',j')的子图像，

表示相邻与第l-1轮以及标注过的子图像全体集合

的指标函数，g[(i,j),(i′,j′)]表示空间距离核函数，∫di′dj′表示对于全部可行的i′和j′进行累加。

根据本发明提供的一种样本集标注方法，所述样本病理图像的空间相关度是基于空间相关性模型确定的，所述空间相关性模型为：

其中，

表示空间相关度，exp表示指数函数，σ²表示方差，

标注未标注的子图像。

根据本发明提供的一种样本集标注方法，基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注，包括：

将各样本病理图像的综合不确定度，按照由大到小的顺序进行排序，选取排序在前的预设数量的样本病理图像进行标注。

本发明还提供一种病理图像分类方法，包括：

获取待分类的病理图像；

将所述病理图像输入至病理图像分类模型中，获取所述病理图像的分类结果；

其中，所述病理图像分类模型为采用如上所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。

本发明还提供一种病理图像分类模型构建方法，包括：

采用如上所述的样本集标注方法标注的样本病理图像；

基于所述样本病理图像，采用机器学习的方式对机器学习模型进行训练，得到病理图像分类模型。

本发明还提供一种样本集标注装置，包括：

样本获取单元，用于获取若干个待标注的样本病理图像；

不确定度计算单元，用于基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度；

样本标注单元，用于基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注；

迭代单元，用于基于执行样本标注步骤后的各样本病理图像，循环执行所述不确定度计算步骤和所述样本标注步骤，直至满足预设收敛条件；

本发明还提供一种病理图像分类装置，包括：

获取单元，用于获取待分类的病理图像；

分类单元，用于将所述病理图像输入至病理图像分类模型中，获取所述病理图像的分类结果；

本发明还提供一种病理图像分类模型构建装置，包括：

标注单元，用于采用如上所述的样本集标注方法标注的样本病理图像；

训练单元，用于基于所述样本病理图像，采用机器学习的方式对机器学习模型进行训练，得到病理图像分类模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述样本集标注方法的步骤；和/或，所述处理器执行所述程序时实现如上所述病理图像分类方法的步骤；和/或，所述处理器执行所述程序时实现如上所述病理图像分类模型构建方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述样本集标注方法的步骤；和/或，所述处理器执行所述程序时实现如上所述病理图像分类方法的步骤；和/或，所述处理器执行所述程序时实现如上所述病理图像分类模型构建方法的步骤。

本发明提供的样本集标注、病理图像分类、分类模型构建方法及装置，基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度，基于各样本病理图像的综合不确定度选取满足预设标注条件的样本病理图像进行标注，直至满足预设收敛条件。由于样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的，从而可以表征样本病理图像是否需要进行标注的必要性，而样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的，从而可以结合先验知识确定样本病理图像的最佳标注区域，以及样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的，从而可以结合样本病理图像邻域的标注情况确定是否对样本病理图像进行标注，避免冗余标注并保证样本集标注的均衡性，由此可见，本发明基于标注不确定度、先验不确定度以及空间相关度获取综合不确定度，进而根据综合不确定度选取部分样本病理图像进行标注，不仅能够准确且高质量标注样本，而且大幅度减少了样本的标注量，降低了模型的训练成本，提高了模型的训练效率和精度。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的样本集标注方法的流程示意图；

图2是现有技术中基于FCN网络的模型训练流程示意图；

图3是现有技术中FCN网络的结构示意图；

图4是本发明提供的病理图像分类模型训练的流程示意图；

图5是本发明提供的病理图像分类方法的流程示意图；

图6是本发明提供的病理图像分类模型构建方法的流程示意图；

图7是本发明提供的样本集标注装置的结构示意图；

图8是本发明提供的病理图像分类装置的结构示意图；

图9是本发明提供的病理图像分类模型构建装置的结构示意图；

图10是本发明提供的电子设备的结构示意图；

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中训练病理图像分类模型需要获取大规模的医学图像训练样本，且需要用手工方法为训练样本标注，既费时又容易出错，并且手工标注的方法也未考虑不同训练样本数据的不均衡性，从而容易降低病理图像标注的质量，进而影响分类模型的训练效果。

对此，本申请提供一种样本集标注方法。图1是本申请提供的样本集标注方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤110、样本获取步骤：获取若干个待标注的样本病理图像。

在本步骤中，需要说明的是，在训练病理图像分类模型之前，需要获取大量的样本病理图像作为分类模型的训练样本，而现有技术中需要通过人工对样本中各区域进行大量标注，耗费大量的人力成本和时间成本，并且还会由于人工误差导致错误标注。此外，人工标注会存在主观性，容易导致标注的数据样本不均衡，例如人工标注时会存在样本病理图像中A区域标注过于密集，而B区域标注过于稀疏，进而导致病理图像分类模型无法全面学习病理图像中的特征，影响模型的训练效果。

如图2和图3所示，现有技术中基于FCN网络提供的病理图像分类模型，虽然一定程度上降低了训练分割神经网络和病理学家的标注成本，但其旨在加快训练速度，在降低标注成本的同时无法保证分类模型的精度。

因此，本实施例基于图像自身的空间信息，选取样本图像中的部分区域进行标注，不仅能够进一步降低图像的标注成本，而且保证了分类模型的训练精度。

步骤120、不确定度计算步骤：基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度。

在本步骤中，需要说明的是，标注不确定度是指对应的样本病理图像需要标注的必要程度。样本病理图像各个区域的子图像(patch)对分类模型训练的效果影响是不一致的，例如将子图像A输入分类模型中，得到的损失函数值为L1；将子图像B输入分类模型中，得到的损失函数值为L2；若L1>L2，则表明子图像A对分类模型训练的影响较大，不确定度越高，即对子图像A标注后进行训练获得的信息价值越高，越有利于分类模型的训练。

因此，本实施例基于样本病理图像的预测损失函数值确定对应样本病理图像的标注不确定度，从而可以表征该样本病理图像标注的价值程度，标注不确定度越高，表明对应样本病理图像标注的价值程度越高，且标注训练后获得的信息价值也越高，从而可以提高模型的精度。

此外，由于病理图像中包含大量的病理信息，种类繁杂，而且不同病理信息的组合可能会导致不同的分类和诊断结果，若仅按照标注不确定度判断样本病理图像标注的价值，可能会导致漏标注或冗余标注。例如，基于标注不确定度判断子图像A的标注价值较低，但根据先验知识该子图像A对于特殊疾病的诊断有较高的参考价值，需要对其进行标注。因此，本实施例基于样本病理图像的标注先验值确定对于样本病理图像的先验不确定度，从而可以进一步准确选取最佳的标注区域，先验不确定度越大，说明该图像的标注价值越高，标注后训练获得的信息价值也越高。

在对样本病理图像某些区域进行标记后，若该区域已标注的子图像占比较大，则表明该区域的已标注信息可以提供足量的信息以供分类模型训练，而不需要再对该区域进行重复冗余数据标注，避免样本病理图像标注失去均衡性。例如子图像A附近已标注的子图像占比较大，则表明标注过于密集，无需再对子图像A进行标注，而子图像B附近已标注的子图像占比较小，则表明标注过于稀疏，需要对子图像B进行标注。由此可见，本实施例基于样本病理图像邻域内已标注的图像比例确定的样本病理图像的空间相关度，可以使得样本标注更均衡，从而提高模型的训练效果。其中，空间相关度越高，表明该图像附近已被标注的样本比例较高，即该图像的标注价值越低。

在确定各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度后，可以确定各样本病理图像的综合不确定度。例如可以通过对标注不确定度、先验不确定度以及空间相关度进行加权求和，获取综合不确定度。其中，综合不确定度可以表征对应样本病理图像的子图像的标注价值，即综合不确定度的值越大，表明该子图像的标注价值越高，标注后训练获得的信息价值也越高。

其中，确定综合不确定度可以采用如下公式进行计算：

其中，

表示标注不确定度query，

表示先检不确定度query，

表示空间相关度query，γ₁和γ₂是两个可调平衡参数，根据医生、病理学家根据对于数据特征的先验知识确定，均是正数。

越大代表图像x等待标注的价值越高且标注后训练获得的信息价值也越高。

因此，本实施例利用空间相关性建立query函数及病理学家的先验知识来迭代地选择最佳标注区域，避免重复冗余的数据，进而十分有效地减轻标注工作量和训练成本。利用已采样和标注的图像中的不同种类分布比例对下一步采样的种类分布情况进行预估，避免训练数据集种类失去均衡性。

步骤130、样本标注步骤：基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注。

在本步骤中，在获取综合不确定度后，各样本病理图像对应的综合不确定度值不同，需要从中选取满足预设条件的样本病理图像进行标注。基于综合不确定度值越高，标注价值越高，则预设条件可以为当综合不确定度大于预设值时，选取对应的样本病理图像进行标注，也可以根据实际情况选取对应的样本病理图像进行标注，本实施例对此不作具体限定。

步骤140、迭代步骤：基于执行样本标注步骤后的各样本病理图像，循环执行所述不确定度计算步骤和所述样本标注步骤，直至满足预设收敛条件。

在本步骤中，需要说明的是，在根据步骤130选取了部分样本病理图像进行标注后，为了使得标注的质量较高，本实施例在对执行样本标注步骤后的各样本病理图像，循环执行步骤120和步骤130，从而当前执行的样本病理图像标注过程是在上一轮标注的基础上进行的，可以获取上一轮标注的信息，进而准确获取样本病理图像的综合不确定度，直至满足预设收敛条件。其中，预设收敛条件可以是迭代次数满足预设要求，也可以是通过测试集验证分类模型的准确度达到预设值，本实施例对此不作具体限定。

如图4所示，本实施例对于未标注的样本病理图像，分别获取标注不确定度

先验不确定度

和空间相关度

然后基于标注不确定度

先验不确定度

和空间相关度

确定综合不确定度

最后根据综合不确定度确定需要标注的样本。

以DenseNet作为病理图像分类模型的分类网络结构为例，采用本实施例提供的方法对样本病理图像进行标注用于模型训练后，在由100张来自公开的TCGA-COAD数据集中的全视野数字组织学图像组成的100000张patch的结直肠癌9分类组织学图像数据集上进行试验测试，可以在保证准确率相比常规训练方法不降低(准确率达到94.3％)的限定下，减少50％的训练数据集。由此可见，本实施例提供的方法不仅能够大幅减少样本的标注数量，而且可以同步保证模型的训练精度。

本发明提供的样本集标注方法，基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度，基于各样本病理图像的综合不确定度选取满足预设标注条件的样本病理图像进行标注，直至满足预设收敛条件。由于样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的，从而可以表征样本病理图像是否需要进行标注的必要性，而样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的，从而可以结合先验知识确定样本病理图像的最佳标注区域，以及样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的，从而可以结合样本病理图像邻域的标注情况确定是否对样本病理图像进行标注，避免冗余标注并保证样本集标注的均衡性，由此可见，本发明基于标注不确定度、先验不确定度以及空间相关度获取综合不确定度，进而根据综合不确定度选取部分样本病理图像进行标注，不仅能够准确且高质量标注样本，而且大幅度减少了样本的标注量，降低了模型的训练成本，提高了模型的训练效率和精度。

基于上述实施例，样本病理图像的标注不确定度的获取步骤包括：

将样本病理图像输入预测损失函数模型，输出样本病理图像的预测损失函数值；

其中，预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到，预测病理图像的损失函数值的获取步骤包括：

将预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层，获取预测病理图像的损失函数值；

目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。

在本实施例中，标注不确定度是表征对应样本病理图像的预测损失函数值，即标注不确定值越大，对应的预测损失函数值越大，该样本图像的标注价值越高。本实施例中将样本病理图像输入预测损失函数模型，输出样本病理图像的预测损失函数值；其中，预测损失函数模型是基于预测病理图像和预测病理图像的损失函数值机器学习训练得到。

在本实施例中，预测病理图像的损失函数值是通过将预测病理图像依次输入目标病理图像分类模型的全局池化层和全连接层获取的；其中，目标病理图像分类模型是基于目标病理图像样本和目标病理图像样本的分类结果训练得到的。

由此可见，标注不确定度Q_loss(x)是由一个预测损失函数值的神经网络预测得到，该预测神经网络和目标分类神经网络在训练阶段同时训练。以目标分类神经网络的中间提取特征作为输入，通过全局池化层(Global Average Pooling，GAP)和全联接层(FullyConnected Layer，FC)输出一个预测损失函数值，通过和目标分类神经网络的实际损失值的L1范数差作为训练的损失函数，从而可以模拟预测神经网络损失值，通过损失值的大小作为图像标注不确定度的大小。

基于上述任一实施例，样本病理图像的先验不确定度是基于先验值模型确定的，所述先验值模型为：

其中，

表示样本病理图像的先验不确定度，

表示归一化常数，

表示第k张样本病理图像(WSI)中中心像素坐标为(i,j)的子图像(patch)，

表示第k张样本病理图像(WSI)中中心像素坐标为(i',j')的子图像(patch)，

表示相邻与第l-1轮以及标注过的子图像全体集合

在本实施例中，

表示归一化常数，该函数是把空间相关性引入不确定性的度量中，

是相邻与第l-1轮以及标注过的patch全体集合

的指标函数，即若

在第l-1轮标注过，则

等于1否则为0，

是

在l-1轮的实际损失函数值。

基于上述任一实施例，样本病理图像的空间相关度是基于空间相关性模型确定的，所述空间相关性模型为：

其中，

表示空间相关度，exp表示指数函数，σ²表示方差(这是一个可调参数)，u标注未标注的子图像(全部未标注的patch全体)。

在本实施例中，通过计算空间相关度，可以避免采用的标注点过于累积于局部区域，从而造成分类模型整体学习的特征具有偏差，若Q_spat越高，则代表该子图像(patch)的领域内已经被标注的图像比例较大，标注价值越低。

基于上述任一实施例，基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注，包括：

在本实施例中，可以在每一次迭代过程中，从未标注的样本病理图像数据集的全体中选择出相同数量的具有最高的综合不确定度的子图像(patch)进行标注，并且迭代进行进一步的训练，即将各样本病理图像的综合不确定度，按照由大到小的顺序进行排序，选取排序在前的预设数量的样本病理图像进行标注。

基于上述任一实施例，本实施例提供一种病理图像分类方法，如图5所示，该方法包括如下步骤：

步骤510、获取待分类的病理图像；

步骤520、将病理图像输入至病理图像分类模型中，获取病理图像的分类结果；

其中，病理图像分类模型为采用如上任一实施例所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。

在本实施例中，需要说明的是，由于病理图像分类模型是基于上述任一实施例所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到，即大幅度减少了样本标注数量，降低了标注成本，而且同时保证了标注的质量，即用于训练的样本能够较好表征图像的特征信息，使得分类模型能够更好的学习样本特征，保证模型的精度。

由此可见，本实施例利用机器学习中的主动学习范式训练病理图像分类模型，从而可以减少组织学病理图像的训练数据集规模，提高训练效率和模型的精度。

基于上述任一实施例，本实施例提供一种病理图像分类模型构建方法，如图6所示，该方法包括如下步骤：

步骤610、采用如上任一实施例所述的样本集标注方法标注的样本病理图像；

步骤620、基于样本病理图像，采用机器学习的方式对机器学习模型进行训练，得到病理图像分类模型。

下面对本发明提供的样本集标注装置进行描述，下文描述的样本集标注装置与上文描述的样本集标注方法可相互对应参照。

基于上述任一实施例，本实施例提供一种样本集标注装置，如图7所示，该装置包括：

样本获取单元710，用于获取若干个待标注的样本病理图像；

不确定度计算单元720，用于基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度；

样本标注单元730，用于基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注；

迭代单元740，用于基于执行样本标注步骤后的各样本病理图像，循环执行所述不确定度计算步骤和所述样本标注步骤，直至满足预设收敛条件；

基于上述任一实施例，该装置还包括标注不确定度获取单元，用于获取所述样本病理图像的标注不确定度，具体包括：

基于上述任一实施例，本实施例提供一种病理图像分类装置，如图8所示，该装置包括：

获取单元810，用于获取待分类的病理图像；

分类单元820，用于将所述病理图像输入至病理图像分类模型中，获取所述病理图像的分类结果；

其中，所述病理图像分类模型为采用如上任一实施例所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。

基于上述任一实施例，本实施例提供一种病理图像分类模型构建装置，如图9所示，该装置包括：

标注单元910，用于采用如上任一实施例所述的样本集标注方法标注的样本病理图像；

训练单元920，用于基于所述样本病理图像，采用机器学习的方式对机器学习模型进行训练，得到病理图像分类模型。

图10是本申请提供的电子设备的结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行样本集标注方法，该方法包括：样本获取步骤：获取若干个待标注的样本病理图像；不确定度计算步骤：基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度；样本标注步骤：基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注；迭代步骤：基于执行样本标注步骤后的各样本病理图像，循环执行所述不确定度计算步骤和所述样本标注步骤，直至满足预设收敛条件；其中，所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的，所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的，所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的样本集标注方法，该方法包括：样本获取步骤：获取若干个待标注的样本病理图像；不确定度计算步骤：基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度；样本标注步骤：基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注；迭代步骤：基于执行样本标注步骤后的各样本病理图像，循环执行所述不确定度计算步骤和所述样本标注步骤，直至满足预设收敛条件；其中，所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的，所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的，所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的样本集标注方法，该方法包括：样本获取步骤：获取若干个待标注的样本病理图像；不确定度计算步骤：基于各样本病理图像的标注不确定度、各样本病理图像的先验不确定度以及各样本病理图像的空间相关度，确定各样本病理图像的综合不确定度；样本标注步骤：基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注；迭代步骤：基于执行样本标注步骤后的各样本病理图像，循环执行所述不确定度计算步骤和所述样本标注步骤，直至满足预设收敛条件；其中，所述样本病理图像的标注不确定度是基于对应样本病理图像的预测损失函数值确定的，所述样本病理图像的先验不确定度是基于对应样本病理图像的标注先验值确定的，所述样本病理图像的空间相关度是基于对应样本病理图像邻域内已标注的图像比例确定的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种样本集标注方法，其特征在于，包括：

样本获取步骤：获取若干个待标注的样本病理图像；

2.根据权利要求1所述的样本集标注方法，其特征在于，所述样本病理图像的标注不确定度的获取步骤包括：

3.根据权利要求1所述的样本集标注方法，其特征在于，所述样本病理图像的先验不确定度是基于先验值模型确定的，所述先验值模型为：

其中，

表示样本病理图像的先验不确定度，

表示归一化常数，

表示第k张样本病理图像中中心像素坐标为(i,j)的子图像，

表示第k张样本病理图像中中心像素坐标为(i',j')的子图像，

表示相邻与第l-1轮以及标注过的子图像全体集合

4.根据权利要求3所述的样本集标注方法，其特征在于，所述样本病理图像的空间相关度是基于空间相关性模型确定的，所述空间相关性模型为：

其中，

表示空间相关度，exp表示指数函数，σ²表示方差，

标注未标注的子图像。

5.根据权利要求1至4任一项所述的样本集标注方法，其特征在于，基于各样本病理图像的综合不确定度，选取满足预设标注条件的样本病理图像进行标注，包括：

6.一种病理图像分类方法，其特征在于，包括：

获取待分类的病理图像；

其中，所述病理图像分类模型为采用如权利要求1至5任一项所述的样本集标注方法标注的样本病理图像进行机器学习训练后得到。

7.一种病理图像分类模型构建方法，其特征在于，包括：

采用如权利要求1至5任一项所述的样本集标注方法标注的样本病理图像；

8.一种样本集标注装置，其特征在于，包括：

样本获取单元，用于获取若干个待标注的样本病理图像；

9.一种病理图像分类装置，其特征在于，包括：

获取单元，用于获取待分类的病理图像；

10.一种病理图像分类模型构建装置，其特征在于，包括：

标注单元，用于采用如权利要求1至5任一项所述的样本集标注方法标注的样本病理图像；

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述样本集标注方法的步骤；和/或，所述处理器执行所述程序时实现如权利要求6所述病理图像分类方法的步骤；和/或，所述处理器执行所述程序时实现如权利要求7所述病理图像分类模型构建方法的步骤。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述样本集标注方法的步骤；和/或，所述处理器执行所述程序时实现如权利要求6所述病理图像分类方法的步骤；和/或，所述处理器执行所述程序时实现如权利要求7所述病理图像分类模型构建方法的步骤。