CN115294417A

CN115294417A - 用于图像处理的方法、设备和存储介质

Info

Publication number: CN115294417A
Application number: CN202110411425.1A
Authority: CN
Inventors: 张明捷; 汪留安; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-11-04

Abstract

公开了用于图像处理的方法、设备和存储介质。该方法包括：通过预处理获得图像的概率图；对概率图进行降采样，然后基于不同的降采样方法、阈值和分辨率的组合对概率图进行多维度特征提取；将提取的特征输入全图分类模型，并且获得不同的阈值和分辨率的所有参数组合中的前N个分类精度最高的组合；基于前N个组合，利用全图分类模型从提取的特征中选择前M维重要性分数最高的特征；基于M维特征，利用全图分类模型从所有参数组合中选择前N’个分类精度最高的组合；和基于在前N’个组合中的一种组合下的前M维重要性分数最高的特征，利用全图分类模型对图像进行分类，其中N、N’和M是大于零的整数。

Description

用于图像处理的方法、设备和存储介质

技术领域

本公开内容涉及图像处理的领域，并且具体涉及图像分类、特征提取和特征选择。

背景技术

全切片图像(WSI，Whole Slide Image)在多种分辨率下对整个组织切片进行扫描和数字化，并且因此被广泛应用于组织病理学组织分析。组织病理学中的组织分析是癌症诊断和预后的黄金标准。WSI图像的尺寸非常大，而需求却在飞速增长。因此，仅靠人工对WSI图像进行诊断越来越难满足实际的需求。图1给出了这种WSI图像的一个示例。图1中的WSI图像涵盖了1倍分辨率到512倍分辨率。

随着近年来深度学习的高度发展，许多基于深度学习的自动诊断工作陆续被提出，基于此在2016年和2017年举行了国际知名的Camelyon竞赛，该竞赛是第一个在自动病理诊断领域内对WSI图像进行研究的比赛。该竞赛对乳腺癌淋巴结转移过程中的淋巴结WSI图像的检测和分类展开了研究，在这一竞赛中，几十上百家团队开发并提交了各自的基于深度学习的方法结果。

由于WSI图像的尺寸非常大，因此这些方法都不是端到端的框架。如图2所示，它们大体上可以分为三部分：图像块级别的图像分类或者分割算法、概率图拼接以及特征提取算法、以及切片级别(全图)的图像分类算法。具体而言，首先对第0级图像201(例如图1中的512倍放大率图像)在图像块级别上训练并使用一种分类或者分割算法200，对其中的肿瘤区域进行检测。然后，将预测出的概率图的图像块202拼接成一整张图像203，并从中提取204出全局的形态学特征。最后，根据这些特征训练一个切片级别的分类模型205对切片进行病理学分类，从而根据输出206对该病人的癌症发展情况进行诊断。

然而，这些现有方法通常只提取一个固定分辨率下切片图像的特征，而没有对WSI图像进行充分地使用，也没有针对肿瘤区域碎片化和噪声问题提出有针对性的解决方案，因此这些方法往往会提取出缺失甚至错误的特征，不能很好的反应出预测概率图的特性。

针对这一问题，目前已有少量的方法采用聚类的方法对特征进行提取，但这种方法的运行时间长，并且性能也不能令人满意。

发明内容

在下文中给出了关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供了一种用于图像处理的方法，包括：通过预处理获得图像的概率图；对概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；将所提取的特征输入针对全图的分类模型，并且利用验证集获得不同的阈值和不同的分辨率的所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数；基于前N个分类精度最高的参数组合，利用针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数；基于M维重要性分数最高的特征，利用针对全图的分类模型从所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数；和基于在前N’个分类精度最高的参数组合中的一种参数组合下的前M维重要性分数最高的特征，利用针对全图的分类模型对图像进行分类。

优选地，该方法还包括：在选择前M维重要性分数最高的特征之后，从前N’个分类精度最高的参数组合中选择前K个参数差异性最大的参数组合，其中K是大于零且小于N的整数；和利用针对全图的分类模型，在由前K个参数差异性最大的参数组合和前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征，其中P是大于零的整数，其中，利用针对全图的分类模型对图像进行分类包括基于前P维重要性分数最高的特征进行分类。

优选地，该方法还包括利用不同的降采样方法对概率图进行降采样，其中，获得前N个分类精度最高的参数组合包括，在利用不同的降采样方法对概率图进行降采样之后：基于不同的阈值、不同的降采样方法和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；和将所提取的特征输入针对全图的分类模型，并且利用验证集获得不同的阈值、不同的分辨率和不同的降采样方法的所有参数组合中的前N个分类精度最高的参数组合。

优选地，选择前K个参数差异性最大的参数组合包括在前N’个分类精度最高的参数组合之中，针对每种降采样方法选择分辨率差异性最大或阈值差异性最大的参数组合，其中，针对每种降采样方法选择的参数组合的数目之和为K。

优选地，分辨率差异性的优先级高于阈值差异性。

优选地，阈值的范围在0至1之间。

优选地，预处理包括将图像输入训练好的针对图像块的分类或分割模型来获得概率图。

优选地，基于前N个分类精度最高的参数组合，利用针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征包括：第一步骤，针对前N个分类精度最高的参数组合中的每个参数组合，用相应的所提取的特征训练针对全图的分类模型，以得到每一维特征分别在每个参数组合下的重要性分数；第二步骤，对每一维特征分别在每个参数组合下的重要性分数求均值，并且选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100；第三步骤，针对前N个分类精度最高的参数组合中的每个组合，将前百分之Q维重要性分数最高的特征输入并训练针对全图的分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征分别在每个参数组合下的重要性分数；和重复第二步骤和第三步骤，直至选出前M维重要性分数最高的特征。

优选地，利用针对全图的分类模型，在由前K个参数差异性最大的参数组合和前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征包括：第一步骤，选择在前K个参数差异性最大的参数组合中的每一种参数组合下的前M维重要性分数最高的特征，并且将这M×K维特征作为输入来训练针对全图的分类模型，以得到每一维特征的重要性分数；第二步骤，根据所得到的每一维特征的重要性分数，从M×K维特征之中选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100；第三步骤，将前百分之Q维重要性分数最高的特征作为输入来重新训练针对全图的分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征的更新的重要性分数；和重复第二步骤和第三步骤，直至选出前P维重要性分数最高的特征。

根据本发明的另一个方面，提供了一种用于图像处理的设备，包括：预处理装置，其被配置成通过预处理获得图像的概率图；多维特征提取装置，其被配置成对概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；第一参数选择装置，其被配置成将所提取的特征输入针对全图的分类模型，并且利用验证集获得不同的阈值和不同的分辨率的所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数；特征降维装置，其被配置成基于前N个分类精度最高的参数组合，利用针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数；第二参数选择装置，其被配置成基于M维重要性分数最高的特征，利用针对全图的分类模型从所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数；和图像分类装置，其被配置成基于在前N’个分类精度最高的参数组合中的一种参数组合下的前M维重要性分数最高的特征，利用针对全图的分类模型对图像进行分类。

根据本发明的其它方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

通过本发明的用于图像处理的方法和设备，使得能够精确且快速地对图像进行分类。

通过以下结合附图对本发明的优选实施方式的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本公开内容的以上和其它优点和特征，下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本公开内容的典型示例，而不应看作是对本公开内容的范围的限定。在附图中：

图1示出了WSI图像的示例；

图2是现有技术的针对WSI图像进行自动诊断的方法的框图；

图3示意性地示出了根据本发明的方法的总流程图；

图4是根据本发明的一个实施方式的用于图像处理的方法的流程图；

图5示意性地示出了利用不同的降采样方法对概率图进行降采样和去噪的结果；

图6是根据本发明的一个实施方式的如何进行特征降维的流程图；

图7是根据本发明的另一个实施方式的用于图像处理的方法的流程图；

图8是根据本发明的另一个实施方式的如何进行特征降维的流程图；

图9是根据本发明的一个实施方式的用于图像处理的设备的框图；

图10是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其他细节。

如前文所述，基于WSI图像进行组织病理学组织分析的现有方法不但运行时间长，而且性能也不令人满意。为了解决该问题，本发明提出了一种简单有效的特征提取方法，该方法可以容易地应用于大多数WSI的自动病理诊断框架。另外，本发明的方法可以在保持甚至提高性能的同时，大幅度地减少运行时间。与其他方法相比，本发明的方法具有诸多优点。

首先，本发明的方法在于基于多分辨率的特征提取。也就是说，本发明的方法可以在多个分辨率下对特征进行提取，从而确保所有可能有用的特征都能够被提取出来。

其次，本发明的方法采用了多种不同的降采样方法，例如，经典的降采样方法、最大池化方法和最小池化方法。它们分别对应于经典插值降采样方法、聚类方法和图像侵蚀方法。利用这些降采样方法，可以将碎片化的肿瘤聚类在一起，并去除概率图(热图)中的噪声点，从而得到更精确的特征。

最后，在提取了所有可能的特征后，本发明的方法还对提取的特征进行选择和降维，从而选出鲁棒且性能良好的特征组合。

在上文提及的Camelyon17竞赛中，本发明的方法取得第三名。相比现有的方法，本发明的方法不但性能优越，而且大幅缩短了运行时间。

下面结合图3来说明根据本发明的方法的总体流程。

首先，在步骤301中，获得概率图。具体地，在本实施方式中，在输入的原始图像(例如，WSI图像)的有效区域上随机提取大量的重叠小块以构成训练集和验证集，在保证样本多样性的同时兼顾正负样本的比例。然后，基于该训练集和验证集对图像块分类或者分割模型(patch-level classification or segmentation model)进行训练。利用该训练好的模型，对原始图像的有效区域以滑窗的方式切块，并且使用该模型对每个图像块进行预测，从而得到每个图像块的概率图。例如，得到图像块上的每个像素点的肿瘤概率。然后，基于每个图像块的概率图，拼接成整个图像的概率图。

应理解，在拼接时，对重叠区域的像素点概率求平均，并且在拼接之前裁去图像块分类或分割模型的感受野(receptive field)以外的像素点。

还应理解，本发明不限于以上描述的获得概率图的方式，并且本领域技术人员可以根据需要、利用任何其它已知的方式来获得概率图。

接着，在步骤302中，利用不同的降采样方法将概率图降采样到不同的分辨率。例如，在本实施方式中，利用经典的降采样方法、最大池化方法和最小池化方法这三种降采样方法对概率图进行降采样。经典的降采样方法包括(但不限于)例如最近邻插值、双线性插值、双三次插值或Lanczos插值。

应理解，虽然在本实施方式中使用三种降采样方法对概率图进行降采样，但是本发明不限于此，而是可以使用一个、两个或三个以上的降采样方法对概率图进行降采样。

接着，在步骤303中，进行基于阈值的特征提取。阈值是指应用于概率图的预定值，其范围为0至1。也就是说，对降采样后的概率图加阈值从而转换为二值图像，然后对该二值图像计算连通域并基于此提取出多种特征。在本实施方式中，特征可以例如是形态学特征。接着，进行到步骤304，即特征选择。步骤304分三步进行。首先，在步骤3041中，在验证集中找出最佳参数组合。具体地，在验证集中找出例如阈值、分辨率和降采样方法的最佳组合。

应理解，最佳参数组合是指使验证集的图像分类精度较高的参数组合。该最佳参数组合的数目可以根据需要设定。

接着，在步骤3042中，在最佳参数下减少特征的维度。具体地，基于在步骤3041中选择的最佳参数组合，利用训练好的全图(切片级别的)分类模型(slide-levelclassification model)从所提取的特征之中选取一个或更多个重要性分数最高的特征，从而减少特征的维度。

应理解，特征的重要性分数越高，则该特征对分类模型的预测结果的影响越大，并且与分类目标真值的关联性也越大。

最后，在步骤3043中，选择不同参数下提取特征的最佳组合。具体地，基于维度减少后的特征，利用全图分类模型对所有参数组合在验证集上重新测量分类精度，在分类精度最高的多种参数组合中选取几种参数差异性最大的参数组合，并且将在这些参数组合下提取的特征加以混合。在此基础上，利用全图分类模型选择出其中重要性分数最高的一组最佳特征组合。

至此，完成了特征选择的步骤304。

最后，在步骤305中，利用在步骤304中选出的特征来训练全图分类模型。基于该最终得到的全图分类模型，可以对诸如WSI图像进行病理学分类，从而对病人的癌症发展情况进行诊断。

下面结合图4至图8来详细描述根据本发明的实施方式的用于图像处理的方法400。

如图4所示，在步骤401中，通过预处理获得图像的概率图。具体地，在本实施方式中，可以基于例如图2中的步骤201、202和203或者图3中的步骤301来获得原始图像的概率图。

接着，在步骤402中，利用不同的降采样方法，对概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取。

在本实施方式中，采用了例如三种不同的降采样方法：经典的插值降采样方法、最大池化方法和最小池化方法。通过经典的差值降采样方法，可以得到概率图在不同分辨率下的精确特征。这些精确特征如实地反应了概率图在不同分辨率下的真实信息。

然而，这些精确特征存在一定问题。如图5的输入概率图501所示，癌细胞的分布往往是碎片化且不连续的。如果直接对这样的概率图计算连通域并提取形态学特征，比如最大肿瘤区域的长轴长度，那么必然会与概率图所反应的事实相去甚远，从而导致提取的特征数值出现错误。因此，还需要对概率图中的连通域(即肿瘤区域)进行聚类。由于WSI图像的尺寸很大并且连通域的数量也相当庞大，因此聚类算法过于复杂且运算缓慢，并且聚类算法的参数在实际应用时也很难确定。因此，聚类算法不具有鲁棒性和普适性。

针对这一问题，本实施方式还采用最大池化方法进行降采样，如图5的概率图502所示。在降采样过程中，计算像素邻域内的最大值作为该像素点在降采样后的数值。通过该方法，可以快速地对相邻的肿瘤区域进行连接，从而提取准确的特征值。

此外，概率图中不可避免地会有一些计算错误的噪声点或者区域。针对这一问题，本实施方式还使用最小池化方法进行降采样，如图5的概率图503所示。在降采样过程中，计算像素邻域内的最小值作为该像素点在降采样后的值。

图5的第二行图像对示意性地示出了利用最小池化方法对不存在肿瘤区域的图像进行去噪的结果。通常，输入概率图中含有一些噪声，这会影响最终的分类结果。如图5的概率图504所示，经过最小池化方法进行降采样后，大部分噪声被滤除。

在步骤402中，除了利用不同的降采样方法，还利用不同的阈值进行多维特征提取。首先，对降采样后的概率图加一个阈值，该阈值的范围在0～1之间(最佳阈值一般在0.5～0.95之间)。这产生一个二值图像。例如，在该二值图像中，值为1的区域代表前端算法识别为癌细胞的区域，而值为0的区域则为正常细胞的分布区域。

然后，对该二值图像计算连通域。例如，每个连通域被认为是一块癌细胞区域。根据组织病理学中的定义，每个切片中若不存在癌细胞则该切片为阴性。若存在癌细胞则观察最大的癌细胞区域的长轴长度进行分级。当长轴长度小于0.2mm或者该区域内癌细胞个数小于200个时，该切片分类为孤立少量的癌细胞(ITC:isolated tumour cells)。当长轴长度大于0.2mm或者癌细胞个数大于200个，并且长轴长度小于2mm时，该切片分类为小规模的癌细胞转移(Micro-metastases)。当长轴长度大于2mm时，该切片分类为大规模的癌细胞转移(Macro-metastases)。由此可见，每个切片图像的分类和最大癌细胞区域的长轴长度息息相关。

最后，参考以上描述的组织病理学的分类定义，对二值图像中的连通域集合计算多种形态学特征，并且将这些形态学特征作为全图分类模型的输入。该全图分类模型将根据这些形态学特征对诸如WSI图像进行分类。

在Camelyon17竞赛中，提取大约40种特征，包括：最大肿瘤区域的面积、最大肿瘤区域的长轴长度、最大肿瘤区域内的平均概率、最大肿瘤区域内的最大概率、肿瘤组织比等等，这些特征基本覆盖了绝大多数有用的形态学特征，对所有有用的信息都尽可能地进行了提取。

由此，可以基于不同的降采样方法、不同的阈值和不同的分辨率的各种组合，对概率图多维特征提取。

接着，在步骤403中，将所提取的特征输入针对全图的分类模型，并且利用验证集获得所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数。具体地，在本实施方式中，将在步骤402提取的多维特征作为全图分类模型的输入，并且训练得到各个参数下对应的全图分类模型以及在该参数下每个形态学特征的重要性分数。将训练得到的全图分类模型带入验证集中，可以测得每个全图分类模型的分类精度(比如分类准确度、分类kappa系数等)。选择精度最高的一组或多组参数作为最佳参数组合。

应理解，本领域技术人员可以根据需要设定N的值。

接着，在步骤404中，基于前N个分类精度最高的参数组合，利用全图分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数。应理解，本领域技术人员可以根据需要设定M的值。

步骤404在于对特征进行了降维，以去除绝大多数没有必要的诸如形态学的特征种类，从而降低后续全图分类模型过拟合的可能性。在从步骤403得到的最佳参数组合下，基于每个形态学特征的重要性分数迭代地对特征进行降维，从而提高特征的鲁棒性。下面结合图6详细介绍实现步骤404的一个实施方式。

首先，在步骤4041中，针对前N个分类精度最高的参数组合中的每个参数组合，用相应的所提取的特征训练全图分类模型，并得到每一维特征分别在每个参数组合下的重要性分数。具体地，基于与每个最佳参数组合相对应的特征来训练全图分类模型，从而得到每一维特征分别在每个参数组合下的重要性分数。

接着，在步骤4042中，对每一维特征分别在每个参数组合下的重要性分数求均值，并且选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100。应理解，本领域技术人员可以根据需要设定Q的值。

接着，在步骤4043中，将选出的前百分之Q维的特征重新输入并训练全图分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征分别在每个参数组合下的重要性分数。

最后，在步骤4044中，迭代进行步骤4042和4043，直到按照重要性分数排序选出的特征维度小于或者等于M维。应理解，在基于重要性分数对特征进行排序之后，可以根据需要以不同的粒度对特征迭代地进行选取，直到选出前M维特征，从而实现特征降维。例如，可以选取前百分之Q-10维特征进行第一次迭代、选取前百分之Q-20维特征进行第二次迭代，等等，直到选出前M维特征。

在Camelyon17竞赛中，最终选出以下4个特征：最大肿瘤区域的面积、最大肿瘤区域的长轴长度、最大肿瘤区域内的平均概率、最大肿瘤区域内的最大概率。

返回图4，在步骤405中，基于M维重要性分数最高的特征，利用全图分类模型从所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数。

应理解，本领域技术人员可以根据需要设定N’的值。

最后，在步骤406中，基于在前N’个分类精度最高的参数组合中的一种参数组合下的前M维重要性分数最高的特征，利用全图分类模型对图像进行分类。

优选地，N’是大于零的整数。

应指出，步骤403至405的排序只反应了每组参数下的分类精度。虽然在最佳参数组合下已经可以得到比较满意的分类精度，但是它们并没有充分利用在步骤402中提取的特征的多样性。应理解，每组参数下提取的特征具有各自不同的物理意义，并且往往具有互补性。因此，优选地，还可以跨参数对特征进行选择。下面结合图7和图8详细描述根据本发明的另一个实施方式的用于图像处理的方法700。

方法700中的步骤701至705与图4所示的方法400中的步骤401至405相同，因此不再赘述。

在步骤706中，在前N’个分类精度最高的参数组合之中，针对每种降采样方法选择分辨率差异性最大或阈值差异性最大的参数组合，其中，针对每种降采样方法选择的参数组合的数目之和为K，K是大于零且小于N’的整数。

具体地，从每种降采样方法中的前几名分类精度最高的参数组合中选择出几个候选参数组合。选择的条件是这几个候选之间的分辨率差异大或阈值差异大。

根据一个实施方式，可以例如选择分辨率差异或阈值差异落入预定的范围内的参数组合。应理解，本领域技术人员可以根据需要来适当地设定该预定的范围。

接着，在步骤707中，利用全图分类模型，在由前K个参数差异性最大的参数组合和前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征，其中P是大于零的整数。下面结合图8详细描述步骤707的一个实施方式。

首先，在步骤7071中，选择在前K个参数差异性最大的参数组合中的每一种参数组合下的前M维重要性分数最高的特征，并且将这M×K维特征作为输入来训练全图分类模型，以得到每一维特征的重要性分数。

接着，在步骤7072中，根据所得到的每一维特征的重要性分数，从M×K维特征之中选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100。

接着，在步骤7073中，将前百分之Q维重要性分数最高的特征作为输入来重新训练全图分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征的更新的重要性分数。

接着，在步骤7074中，迭代地进行步骤7072和7073，直到按照重要性分数排序选出的特征维度小于或者等于P维。如上文所述，在基于重要性分数对特征进行排序之后，可以根据需要以不同的粒度对特征迭代地进行选取，直到选出前P维特征。据此，可以迭代地挑选出鲁棒且精度较高的跨参数的特征组合。

返回图7，最后，在步骤708中，基于前P维重要性分数最高的特征，利用全图分类模型对图像进行分类。例如，可以基于前P维特征、利用全图分类模型对诸如WSI图像进行病理学分类，从而对病人的癌症发展情况进行诊断。

为了验证根据实施方式的方法700的优势，使用Camelyon 16和17竞赛的数据作为对比实验数据，将其分为训练集和验证集。实验时，整套算法流程中除了将特征提取和特征选择相关的步骤替换为对照组的方法，其余步骤均保持不变。对于每种方法，用三种指标进行衡量，即：验证集的切片级别的分类准确度、切片级别的分类Kappa值、病人癌症分期的分类Kappa值。对于每种方法均暴力地对算法中的参数进行了遍历，并分别使用上述三种精度指标对参数进行挑选以挑选出各自的最佳参数，并且计算得到每种参数下的三种精度指标。

对比实验的方法为Camelyon 17年的前两名的特征提取方法，它们分别采用了基于DBSCAN的连通域聚类方法(第一名)以及对连通域进行闭操作的方法(第二名)。对比实验的结果参见下面的表1。

表1

从表1可以看出，本发明的方法可以以最少的运行时间达到更好的性能。

以上结合图3至8详细说明了根据本发明的各实施方式的方法。通过以上描述可知，通过根据各实施方式的方法，使得能够提精确且快速地对图像进行分类。

以上所讨论的方法可以完全由计算机可执行的程序来实现，也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时，或者将计算机可执行的程序载入可运行程序的硬件设备时，则实现了下文将要描述的用于处理交易的设备。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要，但是应当注意，虽然这些设备可以执行前文所描述的方法，但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。

图9示出了根据一个实施方式的用于图像处理的设备900，其包括预处理装置901、多维特征提取装置902、第一参数选择装置903、特征降维装置904、第二参数选择装置905和图像分类装置906。预处理装置901用于通过预处理获得图像的概率图。多维特征提取装置902用于对概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取。第一参数选择装置903用于将所提取的特征输入针对全图的分类模型，并且利用验证集获得不同的阈值和不同的分辨率的所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数。特征降维装置904用于基于前N个分类精度最高的参数组合，利用针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数。第二参数选择装置905用于基于M维重要性分数最高的特征，利用针对全图的分类模型从所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数。图像分类装置906用于基于在前N’个分类精度最高的参数组合中的一种参数组合下的前M维重要性分数最高的特征，利用针对全图的分类模型对图像进行分类。

图9所示的用于图像处理的设备900对应于图4所示的用于图像处理的方法400。因此，关于用于图像处理的设备900中的各装置的相关细节已经在对图4的用于图像处理的方法400的描述中详细给出，在此不再赘述。

上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图10所示的通用计算机100)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图10是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图10所示，中央处理单元(CPU)101根据只读存储器(ROM)102中存储的程序或从存储部分108加载到随机存取存储器(RAM)103的程序执行各种处理。在RAM103中，也根据需要存储当CPU 101执行各种处理等等时所需的数据。CPU 101、ROM 102和RAM 103经由总线104彼此连接。输入/输出接口105也连接到总线104。

下述部件连接到输入/输出接口105：输入部分106(包括键盘、鼠标等等)、输出部分107(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分108(包括硬盘等)、通信部分109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分109经由网络比如因特网执行通信处理。根据需要，驱动器110也可连接到输入/输出接口105。可移除介质111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器110上，使得从中读出的计算机程序根据需要被安装到存储部分108中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可移除介质111安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质111。可移除介质111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 902、存储部分908中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

通过以上描述，本公开的实施方式提供了以下的技术方案，但不限于此。

附记1.一种用于图像处理的方法，包括：

通过预处理获得图像的概率图；

对概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；

将所提取的特征输入针对全图的分类模型，并且利用验证集获得不同的阈值和不同的分辨率的所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数；

基于前N个分类精度最高的参数组合，利用针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数；

基于M维重要性分数最高的特征，利用针对全图的分类模型从所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数；和

基于在前N’个分类精度最高的参数组合中的一种参数组合下的前M维重要性分数最高的特征，利用针对全图的分类模型对图像进行分类。

附记2.根据附记1的方法，还包括，在选择前M维重要性分数最高的特征之后：

从前N’个分类精度最高的参数组合中选择前K个参数差异性最大的参数组合，其中K是大于零且小于N的整数；和

利用针对全图的分类模型，在由前K个参数差异性最大的参数组合和前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征，其中P是大于零的整数，

其中，利用针对全图的分类模型对图像进行分类包括基于前P维重要性分数最高的特征进行分类。

附记3.根据附记1或2的方法，还包括利用不同的降采样方法对概率图进行降采样。

附记4.根据附记3的方法，其中，获得前N个分类精度最高的参数组合包括，在利用不同的降采样方法对概率图进行降采样之后：

基于不同的阈值、不同的降采样方法和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；和

将所提取的特征输入针对全图的分类模型，并且利用验证集获得不同的阈值、不同的分辨率和不同的降采样方法的所有参数组合中的前N个分类精度最高的参数组合。

附记5.根据附记4的方法，其中，不同的降采样方法包括经典降采样方法、最大池化方法和最小池化方法。

附记6.根据附记4的方法，其中，经典降采样方法包括最近邻插值、双线性插值、双三次插值或Lanczos插值。

附记7.根据附记2的方法，其中，选择前K个参数差异性最大的参数组合包括在前N’个分类精度最高的参数组合之中，针对每种降采样方法选择分辨率差异性最大或阈值差异性最大的参数组合，其中，针对每种降采样方法选择的参数组合的数目之和为K。

附记8.根据附记7的方法，其中，分辨率差异性的优先级高于阈值差异性。

附记9.根据附记1或2的方法，其中，预处理包括将图像输入训练好的针对图像块的分类或分割模型来获得概率图。

附记10.根据附记1的方法，其中，基于前N个分类精度最高的参数组合，利用针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征包括：

第一步骤，针对前N个分类精度最高的参数组合中的每个参数组合，用相应的所提取的特征训练针对全图的分类模型，以得到每一维特征分别在每个参数组合下的重要性分数；

第二步骤，对每一维特征分别在每个参数组合下的重要性分数求均值，并且选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100；

第三步骤，针对前N个分类精度最高的参数组合中的每个组合，将前百分之Q维重要性分数最高的特征输入并训练针对全图的分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征分别在每个参数组合下的重要性分数；和

重复所述第二步骤和所述第三步骤，直至选出前M维重要性分数最高的特征。

附记11.根据附记7或8的方法，其中，利用针对全图的分类模型，在由前K个参数差异性最大的参数组合和前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征包括：

第一步骤，选择在前K个参数差异性最大的参数组合中的每一种参数组合下的前M维重要性分数最高的特征，并且将这M×K维特征作为输入来训练针对全图的分类模型，以得到每一维特征的重要性分数；

第二步骤，根据所得到的每一维特征的重要性分数，从M×K维特征之中选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100；

第三步骤，将前百分之Q维重要性分数最高的特征作为输入来重新训练针对全图的分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征的更新的重要性分数；和

重复所述第二步骤和所述第三步骤，直至选出前P维重要性分数最高的特征。

附记12.根据附记1或2的方法，其中，特征是图像中的形态特征。

附记13.根据附记1或2的方法，其中，阈值的范围在0至1之间。

附记14.一种用于图像处理的设备，包括：

预处理装置，其被配置成通过预处理获得图像的概率图；

多维特征提取装置，其被配置成对概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；

第一参数选择装置，其被配置成将所提取的特征输入针对全图的分类模型，并且利用验证集获得不同的阈值和不同的分辨率的所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数；

特征降维装置，其被配置成基于前N个分类精度最高的参数组合，利用针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数；

第二参数选择装置，其被配置成基于M维重要性分数最高的特征，利用针对全图的分类模型从所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数；和

图像分类装置，其被配置成基于在前N’个分类精度最高的参数组合中的一种参数组合下的前M维重要性分数最高的特征，利用针对全图的分类模型对图像进行分类。

附记15.根据附记14的设备，其中，第二参数选择装置还被配置成：

利用针对全图的分类模型，在由前K个参数差异性最大的参数组合和前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征，其中P是大于零的整数，以及

其中，图像分类装置还被配置成基于前P维重要性分数最高的特征进行分类。

附记16.根据附记14或15的设备，其中，多维特征提取装置还被配置成利用不同的降采样方法对概率图进行降采样，以及

其中，第一参数选择装置还被配置成：

附记17.根据附记15的设备，其中，选择前K个参数差异性最大的参数组合包括在前N’个分类精度最高的参数组合之中，针对每种降采样方法选择分辨率差异性最大或阈值差异性最大的参数组合，其中，针对每种降采样方法选择的参数组合的数目之和为K，以及其中，分辨率差异性的优先级高于阈值差异性。

附记18.根据附记14的设备，其中，特征降维装置还被配置成执行以下操作：

第一操作，针对前N个分类精度最高的参数组合中的每个参数组合，用相应的所提取的特征训练针对全图的分类模型，以得到每一维特征分别在每个参数组合下的重要性分数；

第二操作，对每一维特征分别在每个参数组合下的重要性分数求均值，并且选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100；

第三操作，针对前N个分类精度最高的参数组合中的每个组合，将前百分之Q维重要性分数最高的特征输入并训练针对全图的分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征分别在每个参数组合下的重要性分数；和

重复第二和第三操作，直至选出前M维重要性分数最高的特征。

附记19.根据附记17或18的设备，其中，第二参数选择装置还被配置成执行以下操作：

第一操作，选择在前K个参数差异性最大的参数组合中的每一种参数组合下的前M维重要性分数最高的特征，并且将这M×K维特征作为输入来训练针对全图的分类模型，以得到每一维特征的重要性分数；

第二操作，根据所得到的每一维特征的重要性分数，从M×K维特征之中选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100；

第三操作，将前百分之Q维重要性分数最高的特征作为输入来重新训练针对全图的分类模型，以得到前百分之Q维重要性分数最高的特征中的每一维特征的更新的重要性分数；和

重复第二和第三操作，直至选出前P维重要性分数最高的特征。

附记20.一种计算机可读存储介质，计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序：

通过预处理获得图像的概率图；

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施方式，但是应当明白，上面所描述的实施方式只是被配置为说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种用于图像处理的方法，包括：

通过预处理获得图像的概率图；

对所述概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；

将所提取的特征输入针对全图的分类模型，并且利用验证集获得所述不同的阈值和所述不同的分辨率的所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数；

基于所述前N个分类精度最高的参数组合，利用所述针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数；

基于所述M维重要性分数最高的特征，利用所述针对全图的分类模型从所述所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数；和

基于在所述前N’个分类精度最高的参数组合中的一种参数组合下的所述前M维重要性分数最高的特征，利用所述针对全图的分类模型对所述图像进行分类。

2.根据权利要求1所述的方法，还包括，在选择所述前M维重要性分数最高的特征之后：

从所述前N’个分类精度最高的参数组合中选择前K个参数差异性最大的参数组合，其中K是大于零且小于N的整数；和

利用所述针对全图的分类模型，在由所述前K个参数差异性最大的参数组合和所述前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征，其中P是大于零的整数，

其中，利用所述针对全图的分类模型对所述图像进行分类包括基于所述前P维重要性分数最高的特征进行分类。

3.根据权利要求1或2所述的方法，还包括利用不同的降采样方法对所述概率图进行降采样，其中，获得前N个分类精度最高的参数组合包括，在利用不同的降采样方法对所述概率图进行降采样之后：

基于所述不同的阈值、所述不同的降采样方法和所述不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；和

将所提取的特征输入所述针对全图的分类模型，并且利用所述验证集获得所述不同的阈值、所述不同的分辨率和所述不同的降采样方法的所有参数组合中的前N个分类精度最高的参数组合。

4.根据权利要求2所述的方法，其中，选择前K个参数差异性最大的参数组合包括在所述前N’个分类精度最高的参数组合之中，针对每种降采样方法选择分辨率差异性最大或阈值差异性最大的参数组合，其中，针对每种降采样方法选择的参数组合的数目之和为K。

5.根据权利要求4所述的方法，其中，所述分辨率差异性的优先级高于所述阈值差异性。

6.根据权利要求1或2所述的方法，其中，所述预处理包括将所述图像输入训练好的针对图像块的分类或分割模型来获得所述概率图。

7.根据权利要求1所述的方法，其中，基于所述前N个分类精度最高的参数组合，利用所述针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征包括：

第一步骤，针对所述前N个分类精度最高的参数组合中的每个参数组合，用相应的所提取的特征训练所述针对全图的分类模型，以得到每一维特征分别在每个参数组合下的重要性分数；

第三步骤，针对所述前N个分类精度最高的参数组合中的每个组合，将所述前百分之Q维重要性分数最高的特征输入并训练所述针对全图的分类模型，以得到所述前百分之Q维重要性分数最高的特征中的每一维特征分别在每个参数组合下的重要性分数；和

重复所述第二步骤和所述第三步骤，直至选出所述前M维重要性分数最高的特征。

8.根据权利要求4或5所述的方法，其中，利用所述针对全图的分类模型，在由所述前K个参数差异性最大的参数组合和所述前M维重要性分数最高的特征组成的M×K维特征之中选择前P维重要性分数最高的特征包括：

第一步骤，选择在所述前K个参数差异性最大的参数组合中的每一种参数组合下的所述前M维重要性分数最高的特征，并且将这M×K维特征作为输入来训练所述针对全图的分类模型，以得到每一维特征的重要性分数；

第二步骤，根据所得到的每一维特征的重要性分数，从所述M×K维特征之中选出前百分之Q维重要性分数最高的特征，其中Q大于0且小于100；

第三步骤，将所述前百分之Q维重要性分数最高的特征作为输入来重新训练所述针对全图的分类模型，以得到所述前百分之Q维重要性分数最高的特征中的每一维特征的更新的重要性分数；和

重复所述第二步骤和所述第三步骤，直至选出所述前P维重要性分数最高的特征。

9.一种用于图像处理的设备，包括：

预处理装置，其被配置成通过预处理获得图像的概率图；

多维特征提取装置，其被配置成对所述概率图进行降采样，并且基于不同的阈值和不同的分辨率的组合对降采样后的概率图进行多个维度的特征提取；

第一参数选择装置，其被配置成将所提取的特征输入针对全图的分类模型，并且利用验证集获得所述不同的阈值和所述不同的分辨率的所有参数组合中的前N个分类精度最高的参数组合，其中N是大于零的整数；

特征降维装置，其被配置成基于所述前N个分类精度最高的参数组合，利用所述针对全图的分类模型从所提取的特征中选择前M维重要性分数最高的特征，其中M是大于零的整数；

第二参数选择装置，其被配置成基于所述M维重要性分数最高的特征，利用所述针对全图的分类模型从所述所有参数组合中选择前N’个分类精度最高的参数组合，其中N’是大于零的整数；和

图像分类装置，其被配置成基于在所述前N’个分类精度最高的参数组合中的一种参数组合下的所述前M维重要性分数最高的特征，利用所述针对全图的分类模型对所述图像进行分类。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序：

通过预处理获得图像的概率图；