CN111461243B

CN111461243B - 分类方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111461243B
Application number: CN202010272033.7A
Authority: CN
Inventors: 郑闪; 孙丰龙; 马建辉; 陈灿灿; 郭蕾; 郭强; 邱亭林; 杜君
Original assignee: Cancer Hospital and Institute of CAMS and PUMC
Current assignee: Cancer Hospital and Institute of CAMS and PUMC
Priority date: 2020-04-08
Filing date: 2020-04-08
Publication date: 2023-06-20
Anticipated expiration: 2040-04-08
Also published as: CN111461243A

Abstract

本发明涉及一种分类方法、装置、电子设备及计算机可读存储介质，该方法通过将多个病理图像切片输入预先训练好的二分类网络模型，根据二分类网络模型的输出为每个病理图像切片添加样本标签；对多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及置信度特征阈值将多个病理图像切片分为高置信度数据集及低置信度数据集；将高置信度数据集中样本标签表征为正样本的病理图像切片加入到第一正样本集，将高置信度数据集中样本标签表征为负样本的病理图像切片加入到第一负样本集；确定低置信度数据集为第一难样本集。经过上述过程，可以将多个病理图像切片由二分类转变成三分类，可以提高最后得到的正负样本的准确度。

Description

分类方法、装置、电子设备及计算机可读存储介质

技术领域

本申请属于图像处理领域，具体涉及一种分类方法、装置、电子设备及计算机可读存储介质。

背景技术

目前对于医学病理图像的分类问题，一般来说是类似良性/恶性的二分类问题，即将样本分成正样本和负样本。其中，对于分类的准确性的评价多数靠灵敏度、特异性等指标来衡量。由于医学病理图像通常较大，在通过分类模型对医学病理图像进行分类处理时，通常需要将医学病理图像切分成固定大小的病理图像切片，比如256×256大小，然后将切分后的切片输入分类模型中进行训练或者分类，这一定程度会在医学病理图像中引入噪音。噪音的引入会导致最后得到的切片的分类结果不准确。

发明内容

有鉴于此，本申请的目的在于提供一种分类方法、装置、电子设备及计算机可读存储介质，有利于提高分类结果的准确性。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供一种分类方法，用于对由病理图像拆分得到的多个病理图像切片进行分类，所述方法包括：将所述多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签；对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集；将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集。经过上述过程，可以将多个病理图像切片由二分类转变成三分类，一类为第一正样本集，一类为第一负样本集，一类为第一难样本集。其中，由于第一正样本集以及第一负样本集的置信度高，因此，可以认为第一正样本集以及第一负样本集中的样本的分类准确度相对现有技术中的二分类得到提高，此外，由于相较于现有技术而言，筛选出了第一难样本集，相较于现有技术中直接通过二分类模型将难样本粗略分为正负样本的情况，减少了正负样本中由于难样本导致的分类错误的样本数量，可以提高最后得到的正负样本的准确度。

结合第一方面实施例，在一种可能的实施方式中，所述置信度特征包括连通域最大直径、连通域数量、连通域平均面积、连通域面积的峰度，所述置信度特征阈值包括连通域最大直径第一阈值、连通域最大直径第二阈值、连通域数量阈值、连通域平均面积阈值、连通域面积的峰度阈值，所述最大直径第一阈值小于所述最大直径第二阈值；所述根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集，包括：将所述连通域最大直径小于所述最大直径第一阈值的病理图像切片加入到第一高置信度数据集；将所述连通域最大直径大于所述最大直径第二阈值的病理图像切片加入到第一低置信度数据集；将所述连通域最大直径位于所述最大直径第一阈值与所述最大直径第二阈值之间的病理图像切片加入到第二低置信度数据集；将所述第一低置信度数据集中，所述连通域数量小于所述连通域数量阈值的病理图像切片加入到第二高置信度数据集，其余病理图像切片加入到第三低置信度数据集；将所述第二低置信度数据集及所述第三低置信度数据集中，所述连通域平均面积小于所述连通域平均面积阈值的病理图像切片加入到第三高置信度数据集，其余病理图像切片加入到第四低置信度数据集；将所述第四低置信度数据集中，所述连通域面积的峰度小于所述连通域面积的峰度阈值的病理图像切片加入到第四高置信度数据集，其余病理图像切片加入到第五低置信度数据集；将所述第一高置信度数据集、所述第二高置信度数据集、所述第三高置信度数据集及所述第四高置信度数据集确定为所述高置信度数据集，将所述第五低置信度数据集确定为所述低置信度数据集。

结合第一方面实施例，在一种可能的实施方式中，所述方法还包括：将所述第一难样本集输入到预先训练好的相对危险度的二叉树，将所述第一难样本集分为高置信度数据子集及低置信度数据子集；将所述高置信度数据子集中所述样本标签表征为所述正样本的病理图像切片加入到第二正样本集，将所述高置信度数据子集中所述样本标签表征为所述负样本的病理图像切片加入到第二负样本集；确定所述低置信度数据子集为第二难样本集。通过上述过程，即可以针对第一难样本集进行进一步地三分类，得到第二负样本集、第二正样本集以及第二难样本集。其中，可以只将第二难样本集中的样本交由人工进行核验，从而可以减轻核验人员的工作量。

结合第一方面实施例，在一种可能的实施方式中，所述将所述第一难样本集输入到预先训练好的相对危险度的二叉树之前，所述方法还包括：获取用于训练所述相对危险度的二叉树的基础难样本，所述基础难样本中的每个病理图像切片预先输入所述二分类网络模型进行分类，且每个病理图像切片包括用于表征分类正确以及分类错误的分类标签；基于公式RR＝p/q，p＝(wr_low+1)/low，q＝(wr_high+1)/high，确定所述基础难样本的相对危险度，其中，RR为所述相对危险度，low为所述基础难样本所包括的待划分低置信度数据子集中的样本总数，high为所述基础难样本所包括的待划分高置信度数据子集中的样本总数，low与high之和为所述基础难样本所包括的样本总数，wr_low为低置信度数据子集中分类错误的病理图像切片个数，wr_high为高置信度数据子集中分类错误的病理图像切片个数；将所述相对危险度确定为分类回归树的特征选择函数，得到所述相对危险度的二叉树；通过所述基础难样本训练所述相对危险度的二叉树至收敛。

第二方面，本申请实施例提供一种分类装置，用于对由病理图像拆分得到的多个病理图像切片进行分类，所述装置包括：第一输入模块、提取模块、分类模块。第一输入模块，用于将所述多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签；提取模块，用于对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集；分类模块，用于将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集。

结合第二方面实施例，在一种可能的实施方式中，所述置信度特征包括连通域最大直径、连通域数量、连通域平均面积、连通域面积的峰度，所述置信度特征阈值包括连通域最大直径第一阈值、连通域最大直径第二阈值、连通域数量阈值、连通域平均面积阈值、连通域面积的峰度阈值，所述最大直径第一阈值小于所述最大直径第二阈值；所述提取模块，用于将所述连通域最大直径小于所述最大直径第一阈值的病理图像切片加入到第一高置信度数据集；将所述连通域最大直径大于所述最大直径第二阈值的病理图像切片加入到第一低置信度数据集；将所述连通域最大直径位于所述最大直径第一阈值与所述最大直径第二阈值之间的病理图像切片加入到第二低置信度数据集；将所述第一低置信度数据集中，所述连通域数量小于所述连通域数量阈值的病理图像切片加入到第二高置信度数据集，其余病理图像切片加入到第三低置信度数据集；将所述第二低置信度数据集及所述第三低置信度数据集中，所述连通域平均面积小于所述连通域平均面积阈值的病理图像切片加入到第三高置信度数据集，其余病理图像切片加入到第四低置信度数据集；将所述第四低置信度数据集中，所述连通域面积的峰度小于所述连通域面积的峰度阈值的病理图像切片加入到第四高置信度数据集，其余病理图像切片加入到第五低置信度数据集；将所述第一高置信度数据集、所述第二高置信度数据集、所述第三高置信度数据集及所述第四高置信度数据集确定为所述高置信度数据集，将所述第五低置信度数据集确定为所述低置信度数据集。

结合第二方面实施例，在一种可能的实施方式中，所述装置还包括：第二输入模块，用于将所述第一难样本集输入到预先训练好的相对危险度的二叉树，将所述第一难样本集分为高置信度数据子集及低置信度数据子集；所述分类模块，还用于将所述高置信度数据子集中所述样本标签表征为所述正样本的病理图像切片加入到第二正样本集，将所述高置信度数据子集中所述样本标签表征为所述负样本的病理图像切片加入到第二负样本集；确定所述低置信度数据子集为第二难样本集。

结合第二方面实施例，在一种可能的实施方式中，所述装置还包括：获取模块，用于获取用于训练所述相对危险度的二叉树的基础难样本，所述基础难样本中的每个病理图像切片预先输入所述二分类网络模型进行分类，且每个病理图像切片包括用于表征分类正确以及分类错误的分类标签；确定模块，用于基于公式RR＝p/q，p＝(wr_low+1)/low，q＝(wr_high+1)/high，确定所述基础难样本的相对危险度，其中，RR为所述相对危险度，low为所述基础难样本所包括的待划分低置信度数据子集中的样本总数，high为所述基础难样本所包括的待划分高置信度数据子集中的样本总数，low与high之和为所述基础难样本所包括的样本总数，wr_low为低置信度数据子集中分类错误的病理图像切片个数，wr_high为高置信度数据子集中分类错误的病理图像切片个数；所述确定模块，用于将所述相对危险度确定为分类回归树的特征选择函数，得到所述相对危险度的二叉树；训练模块，用于通过所述基础难样本训练所述相对危险度的二叉树至收敛。

第三方面，本申请实施例还提供一种电子设备，包括：存储器和处理器，所述存储器和所述处理器连接；所述存储器用于存储程序；所述处理器调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第四方面，本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称计算机可读存储介质)，其上存储有计算机程序，所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本申请实施例提供的分类方法的流程图之一。

图2示出了本申请实施例提供的将病理图像切片分为高置信度数据集及低置信度数据集的示意图。

图3示出了本申请实施例提供的分类方法的流程图之二。

图4示出了本申请实施例提供的分类装置的结构框图。

图5示出了本申请实施例提供的电子设备的结构示意图。

图标：100-电子设备；110-处理器；120-存储器；400-分类装置；410-第一输入模块；420-提取模块；430-分类模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

此外，针对现有技术中对病理图像切片进行分类时存在的分类结果不准确的问题，是申请人在经过实践并仔细研究后得出的结果，因此，上述缺陷的发现过程以及在下文中本申请实施例针对上述缺陷所提出的解决方案，都应该是申请人在本申请过程中对本申请做出的贡献。

为了解决上述问题，本申请实施例提供一种分类方法、装置、电子设备及计算机可读存储介质，有利于提高分类结果的准确性。

该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

下面将针对本申请所提供的分类方法进行介绍。

请参阅图1，本申请实施例提供一种应用于电子设备的分类方法。下面将结合图1对其所包含的步骤进行说明。

步骤S110：将所述多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签。

一般而言，原始病理图像的尺寸较大，需要对原始病理图像进行切割处理，从而得到多个病理图像切片，病理图像切片的大小通常为256×256。其中，切割的方法可以采用随机切割法。值得指出的是，得到的每个病理图像切片均携带有其在原始病理图像中的坐标信息。

由于对病理图像切片进行分类时一般都是基于热概率图进行分类，因此，在得到病理图像切片后，需要先将病理图像切片转换成概率热图，过程如下。

先将病理图像切片输入深度神经网络模型，例如UNET、RENET等进行模型训练，待模型被训练至收敛后，获取模型的训练参数。在得到训练参数后，再把病理图像切片及训练参数输入深度神经网络模型，从而使得深度神经网络模型可以输出各个病理图像切片对应的概率。

在得到各个病理图像切片的概率后，将各个病理图像切片的概率值乘以255后，转变成8位图的像素值，并按照各个病理图像切片在原始病理图像中的坐标信息将各个病理图像切片进行还原拼接，从而生成与原始病理图像对应的概率热图。

在得到概率热图后，可以将概率热图所包括的每个病理图像切片输入预先训练好的二分类模型进行正负样本分类。其中，正样本表征为阳性的有癌病理图像切片，负样本表征为阴性的无癌病理图像切片。

其中，训练二分类模型的过程如下。

针对现有的概率热图，可以对概率热图进行特征提取，以便基于提取的特征训练二分类网络模型。

其中，可以通过python包的skimage.measure进行特征提取，提取的特征包括但不限于：连通域的数量、连通域面积占病理图像切片总面积的比例、最大连通域的面积、所有连通域中最大面积连通域的主轴、所有概率大于0.9的像素的个数、所有连通域中最大的面积、所有连通域的平均面积、所有连通域面积的方差、所有连通域面积的偏度、所有连通域面积的峰度、所有连通域中最大的周长、所有连通域的平均周长、所有连通域周长的方差、所有连通域中周长的偏度、所有连通域周长的峰度、所有连通域的最大的偏心率(偏心率是焦距(焦点之间的距离)与主轴长度之比)、所有连通域的平均偏心率、所有连通域的偏心率的方差、所有连通域的偏心率的偏度、所有连通域的偏心率的峰度、所有连通域中extent(连通区域中的像素与外界矩形的像素的比率)的最大值、所有连通域的extent的平均值、所有连通域的extent的方差、所有连通域的extent的偏度、所有连通域的extent的偏度、所有连通域中solidity(区域中像素与凸包图像像素的比率)的最大值、所有连通域中solidity的平均值、所有连通域中solidity的方差、所有连通域中solidity的偏度、所有连通域中solidity的峰度。

在进行特征提取后，将提取到的特征输入基础神经网络模型(例如随机森林、支持向量机等)进行训练，待模型收敛后，即得到二分类网络模型。

步骤S120：对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集。

在将概率热图所包括的多个病理图像切片分为正样本以及负样本后，由于形成概率热图的过程会引入噪声，因此，极有可能导致正样本与负样本的分类存在大量的错误。

为了缓解这个问题，在本申请实施例中，通过对已进行二分类的多个病理图像切片进行置信度特征提取，从而基于置信度特征判断上述二分类的可信度，将已经进行过二分类的多个病理图像切片分为高置信度数据集及低置信度数据集。其中，置信度特征用于表征病理图像切片在进行二分类后，得到的样本标签(正样本或者为负样本)结果的可信度。

可选的，置信度特征包括但不限于连通域最大直径、连通域数量、连通域平均面积、连通域面积的峰度。

此外，值得指出的是，电子设备预先获取与各个置信度特征对应的置信度特征阈值，该阈值可以由工作人员通过人为经验得到并保存在电子设备内。

其中，当置信度特征包括连通域最大直径、连通域数量、连通域平均面积、连通域面积的峰度这五种特征时，与连通域最大直径对应的置信度特征阈值包括连通域最大直径第一阈值b以及连通域最大直径第二阈值a，其中，b＜a；与连通域数量对应的置信度特征阈值为连通域数量阈值c；与连通域平均面积对应的置信度特征阈值为连通域平均面积阈值d；与连通域面积的峰度对应的置信度特征阈值为连通域面积的峰度阈值e。

其中，请参看图2，将多个病理图像切片分为高置信度数据集及低置信度数据集的过程如下。

对于连通域最大直径特征，针对每个病理图像切片，先将连通域最大直径小于b(b的具体大小可以根据实际情况设置，例如在一种实施方式下，b为0.1132cm)的病理图像切片加入到第一高置信度数据集，然后将连通域最大直径大于a(a的具体大小可以根据实际情况设置，例如在一种实施方式下，a为1个)的病理图像切片加入到第一低置信度数据集。针对连通域最大直径位于b与a之间的病理图像切片，加入到第二低置信度数据集。

在通过连通域最大直径特征初步将病理图像切片分为第一高置信度数据集、第一低置信度数据集以及第二低置信度数据集后，针对第一低置信度数据集，将其所包括的病理图像切片中，连通域数量小于c(c的具体大小可以根据实际情况设置，例如在一种实施方式下，c为400)的病理图像切片加入到第二高置信度数据集，将第一低置信度数据集所包括的其余病理图像切片加入到第三低置信度数据集。至此，得到的置信度数据集分别为：第一高置信度数据集、第二高置信度数据集、第二低置信度数据集以及第三低置信度数据集。

针对第二低置信度数据集以及第三低置信度数据集，将其进行合并，得到合并后的低置信度数据集。针对合并后的低置信度数据集，将其所包括的病理图像切片中，连通域平均面积小于d(d的具体大小可以根据实际情况设置，例如在一种实施方式下，d为1.1个像素)的病理图像切片加入到第三高置信度数据集，将合并后的低置信度数据集所包括的其余病理图像切片加入到第四低置信度数据集。至此，可以得到的置信度数据集分别为：第一高置信度数据集、第二高置信度数据集、第三高置信度数据集、第四低置信度数据集。

针对第四低置信度数据集，将其所包括的病理图像切片中，连通域面积的峰度小于e(e的具体大小可以根据实际情况设置，例如在一种实施方式下，e为0)的病理图像切片加入到第四高置信度数据集，将第四低置信度数据集所包括的其余病理图像切片加入到第五低置信度数据集。至此，得到的置信度数据集分别为：第一高置信度数据集、第二高置信度数据集、第三高置信度数据集、第四高置信度数据集以及第五低置信度数据集。

在得到第一高置信度数据集、第二高置信度数据集、第三高置信度数据集、第四高置信度数据集以及第五低置信度数据集的基础上，将第一高置信度数据集、第二高置信度数据集、第三高置信度数据集及第四高置信度数据集进行合并，并确定合并后的数据集为高置信度数据集，将第五低置信度数据集确定为低置信度数据集。

其中，高置信度数据集中的样本即可以认为是在经过二分类后，分类正确的样本(分类可信度高)，低置信度数据集中的样本即可以认为是在经过二分类后，可能存在分类错误的样本(分类可信度低)。

步骤S130：将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集。

由于高置信度数据集中的样本的分类结果可信度高，因此，针对高置信度数据集中的样本，可以将其所包括的在进行二分类时被分类为正样本的病理图像切片加入到第一正样本集，将其所包括的在进行二分类时被分类为负样本的病理图像切片加入到第一负样本集。

针对低置信度数据集中的样本，由于其分类结果可信度低，即低置信度数据集中的样本是容易被二分类模型分类错误的样本，因此，可以将低置信度数据集确定为第一难样本集，低置信度数据集中所包括的样本即为难样本。

经过上述过程，可以将多个病理图像切片由二分类转变成三分类，一类为第一正样本集，一类为第一负样本集，一类为第一难样本集。其中，由于第一正样本集以及第一负样本集的置信度高，因此，可以认为第一正样本集以及第一负样本集中的样本的分类准确度相对现有技术中的二分类得到提高，此外，由于相较于现有技术而言，筛选出了第一难样本集，相较于现有技术中直接通过二分类模型将难样本粗略分为正负样本的情况，减少了正负样本中由于难样本导致的分类错误的样本数量，可以提高最后得到的正负样本的准确度。此外，由于第一难样本集被二分类模型进行分类后得到的分类结果的置信度低，因此，可以将第一难样本集中的样本交由人工进行分析，相较于现有技术中由于分类结果不准确需要对大量的样本进行人工核查的方案，可以减轻人工核查的工作量。

此外，在得到第一难样本集后，在一种可选的实施方式中，还可以针对第一难样本集进行进一步的分类处理，得到更为精确的分类结果。在这种实施方式下，请参看图3，上述方法还可以包括：

步骤S140：将所述第一难样本集输入到预先训练好的相对危险度的二叉树，将所述第一难样本集分为高置信度数据子集及低置信度数据子集。

其中，一般而言，相对危险度(relative risk，RR)是指两组进行比对的样本集中，其中一组样本集的危险度(累积发病率)与另一组样本集的危险度之比。对应于本申请实施例中，用于表征由第一难样本集进一步确定出的低置信度数据子集中分类错误的病理图像切片概率与高置信度数据子集中分类错误的病理图像切片概率之比。

下面将针对训练相对危险度的二叉树的过程进行介绍。

电子设备先获取用于训练相对危险度的二叉树的基础难样本。

其中，基础难样本可以通过上述步骤S110-S130所示的过程进行获取，即将第一难样本集中的样本确定为基础难样本，也可以通过其他用于获取难样本的方式进行获取。

值得指出的是，基础难样本中的每个病理图像切片预先输入上述二分类网络模型进行分类，因此，针对每个病理图像切片而言，包括用于表征正负样本的样本标签，此外，在得到基础难样本的分类结果后，还可以将分类结果交由专业医师进行人工核验，以便由专业医师为每个病理图像切片添加用于表征分类正确以及分类错误的分类标签，例如在一种实施方式中，用标签0表征病理图像切片分类正确，用标签1表征病理图像切片分类错误。

在对基础难样本进行上述处理后，假设将基础难样本划分为低置信度数据子集以及高置信度数据子集，那么可以基于公式RR＝p/q，p＝(wr_low+1)/low，q＝(wr_high+1)/high，确定基础难样本的相对危险度。其中，RR为表示相对危险度，low为基础难样本所包括的待划分低置信度数据子集中的样本总数，high为基础难样本所包括的待划分高置信度数据子集中的样本总数，low与high之和为基础难样本所包括的样本总数，wr_low为低置信度数据子集中分类错误的病理图像切片个数，wr_high为高置信度数据子集中分类错误的病理图像切片个数。

将上述相对危险度的公式确定为分类回归树(classification and regressiontree，CART)的特征选择函数，即可得到相对危险度的二叉树，然后再通过基础难样本训练相对危险度的二叉树至收敛，即可得到用于将第一难样本集分为高置信度数据子集及低置信度数据子集的相对危险度的二叉树。

在得到处于收敛的相对危险度的二叉树后，将第一难样本集输入处于收敛的相对危险度的二叉树，得到由第一难样本集进一步划分的高置信度数据子集以及低置信度数据子集。

其中，高置信度数据子集中的样本即可以认为是在经过相对危险度的二叉树进行的二分类后，分类相对正确的样本(分类可信度高)，低置信度数据子集中的样本即可以认为是在经过二分类后，存在较多分类错误的样本(分类可信度低)。

步骤S150：将所述高置信度数据子集中所述样本标签表征为所述正样本的病理图像切片加入到第二正样本集，将所述高置信度数据子集中所述样本标签表征为所述负样本的病理图像切片加入到第二负样本集；确定所述低置信度数据子集为第二难样本集。

由于高置信度数据子集中的样本的分类结果可信度高，因此，针对高置信度数据子集中的样本，可以将其所包括的在进行二分类时被分类为正样本的病理图像切片加入到第二正样本集，将其所包括的在进行二分类时被分类为负样本的病理图像切片加入到第二负样本集。

针对低置信度数据子集中的样本，由于其分类结果可信度低，即低置信度数据子集中的样本是容易被二分类模型分类错误的样本，因此，可以将低置信度数据子集确定为第二难样本集，低置信度数据子集中所包括的样本即为难样本。

通过上述过程，即可以针对第一难样本集进行进一步地三分类，得到第二负样本集、第二正样本集以及第二难样本集。其中，可以只将第二难样本集中的样本交由人工进行核验，从而可以进一步减轻核验人员的工作量。

此外，先通过步骤S110-步骤S130的方式对多个病理图像切片进行第一次三分类，实现初筛，然后再通过步骤S140-步骤S150的方式对第一次三分类中不能准确进行分类的第一难样本进行第二次三分类，该过程综合了两种不同的分类思路，可以提高整体分类的准确性。

如图4所示，本申请实施例还提供一种分类装置400，分类装置400可以包括：第一输入模块410、提取模块420、分类模块430。

第一输入模块410，用于将所述多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签；

提取模块420，用于对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集；

分类模块430，用于将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集。

在一种可能的实施方式中，所述置信度特征包括连通域最大直径、连通域数量、连通域平均面积、连通域面积的峰度，所述置信度特征阈值包括连通域最大直径第一阈值、连通域最大直径第二阈值、连通域数量阈值、连通域平均面积阈值、连通域面积的峰度阈值，所述最大直径第一阈值小于所述最大直径第二阈值；所述提取模块，用于将所述连通域最大直径小于所述最大直径第一阈值的病理图像切片加入到第一高置信度数据集；将所述连通域最大直径大于所述最大直径第二阈值的病理图像切片加入到第一低置信度数据集；将所述连通域最大直径位于所述最大直径第一阈值与所述最大直径第二阈值之间的病理图像切片加入到第二低置信度数据集；将所述第一低置信度数据集中，所述连通域数量小于所述连通域数量阈值的病理图像切片加入到第二高置信度数据集，其余病理图像切片加入到第三低置信度数据集；将所述第二低置信度数据集及所述第三低置信度数据集中，所述连通域平均面积小于所述连通域平均面积阈值的病理图像切片加入到第三高置信度数据集，其余病理图像切片加入到第四低置信度数据集；将所述第四低置信度数据集中，所述连通域面积的峰度小于所述连通域面积的峰度阈值的病理图像切片加入到第四高置信度数据集，其余病理图像切片加入到第五低置信度数据集；将所述第一高置信度数据集、所述第二高置信度数据集、所述第三高置信度数据集及所述第四高置信度数据集确定为所述高置信度数据集，将所述第五低置信度数据集确定为所述低置信度数据集。

在一种可能的实施方式中，所述装置还包括：第二输入模块，用于将所述第一难样本集输入到预先训练好的相对危险度的二叉树，将所述第一难样本集分为高置信度数据子集及低置信度数据子集；所述分类模块，还用于将所述高置信度数据子集中所述样本标签表征为所述正样本的病理图像切片加入到第二正样本集，将所述高置信度数据子集中所述样本标签表征为所述负样本的病理图像切片加入到第二负样本集；确定所述低置信度数据子集为第二难样本集。

在一种可能的实施方式中，上述分类装置400还可以包括：

获取模块，用于获取用于训练所述相对危险度的二叉树的基础难样本，所述基础难样本中的每个病理图像切片预先输入所述二分类网络模型进行分类，且每个病理图像切片包括用于表征分类正确以及分类错误的分类标签；

确定模块，用于基于公式RR＝p/q，p＝(wr_low+1)/low，q＝(wr_high+1)/high，确定所述基础难样本的相对危险度，其中，RR为所述相对危险度，low为所述基础难样本所包括的待划分低置信度数据子集中的样本总数，high为所述基础难样本所包括的待划分高置信度数据子集中的样本总数，low与high之和为所述基础难样本所包括的样本总数，wr_low为低置信度数据子集中分类错误的病理图像切片个数，wr_high为高置信度数据子集中分类错误的病理图像切片个数；

所述确定模块，还用于将所述相对危险度确定为分类回归树的特征选择函数，得到所述相对危险度的二叉树；

训练模块，用于通过所述基础难样本训练所述相对危险度的二叉树至收敛。

本申请实施例所提供的分类装置400，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被计算机运行时，执行如上述的分类方法所包含的步骤。

此外，请参看图5，本申请实施例还提供一种用于实现本申请实施例的分类方法、装置的电子设备100。

可选的，电子设备100，可以是，但不限于个人电脑(Personal computer，PC)、智能手机、平板电脑、移动上网设备(Mobile Internet Device，MID)、个人数字助理、服务器等设备。

其中，电子设备100可以包括：处理器110、存储器120。

应当注意，图5所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，电子设备100也可以具有其他组件和结构。例如，在一些情况下，电子设备100还可以包括显示器，用于显示分类结果。

处理器110、存储器120以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，处理器110、存储器120以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序，例如存储有前文出现的分类方法对应的程序或者前文出现的分类装置。可选的，当存储器120内存储有分类装置时，分类装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的，分类装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system，OS)中。

处理器110用于执行存储器120中存储的可执行模块，例如分类装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后，可以执行计算机程序，例如执行：将多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签；对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集；将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集。

当然，本申请任一实施例所揭示的方法都可以应用于处理器110中，或者由处理器110实现。

综上所述，本发明实施例提出的分类方法、装置、电子设备及计算机可读存储介质，该方法通过将多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签；对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集；将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集。经过上述过程，可以将多个病理图像切片由二分类转变成三分类，一类为第一正样本集，一类为第一负样本集，一类为第一难样本集。其中，由于第一正样本集以及第一负样本集的置信度高，因此，可以认为第一正样本集以及第一负样本集中的样本的分类准确度相对现有技术中的二分类得到提高，此外，由于相较于现有技术而言，筛选出了第一难样本集，相较于现有技术中直接通过二分类模型将难样本粗略分为正负样本的情况，减少了正负样本中由于难样本导致的分类错误的样本数量可以提高最后得到的正负样本的准确度。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种分类方法，用于对由病理图像拆分得到的多个病理图像切片进行分类，其特征在于，所述方法包括：

将所述多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签；

对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集；

将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集；

所述置信度特征包括连通域最大直径、连通域数量、连通域平均面积、连通域面积的峰度，所述置信度特征阈值包括连通域最大直径第一阈值、连通域最大直径第二阈值、连通域数量阈值、连通域平均面积阈值、连通域面积的峰度阈值，所述最大直径第一阈值小于所述最大直径第二阈值；所述根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集，包括：

将所述连通域最大直径小于所述最大直径第一阈值的病理图像切片加入到第一高置信度数据集；

将所述连通域最大直径大于所述最大直径第二阈值的病理图像切片加入到第一低置信度数据集；

将所述连通域最大直径位于所述最大直径第一阈值与所述最大直径第二阈值之间的病理图像切片加入到第二低置信度数据集；

将所述第一低置信度数据集中，所述连通域数量小于所述连通域数量阈值的病理图像切片加入到第二高置信度数据集，其余病理图像切片加入到第三低置信度数据集；

将所述第二低置信度数据集及所述第三低置信度数据集中，所述连通域平均面积小于所述连通域平均面积阈值的病理图像切片加入到第三高置信度数据集，其余病理图像切片加入到第四低置信度数据集；

将所述第四低置信度数据集中，所述连通域面积的峰度小于所述连通域面积的峰度阈值的病理图像切片加入到第四高置信度数据集，其余病理图像切片加入到第五低置信度数据集；

将所述第一高置信度数据集、所述第二高置信度数据集、所述第三高置信度数据集及所述第四高置信度数据集确定为所述高置信度数据集，将所述第五低置信度数据集确定为所述低置信度数据集。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第一难样本集输入到预先训练好的相对危险度的二叉树，将所述第一难样本集分为高置信度数据子集及低置信度数据子集；

将所述高置信度数据子集中所述样本标签表征为所述正样本的病理图像切片加入到第二正样本集，将所述高置信度数据子集中所述样本标签表征为所述负样本的病理图像切片加入到第二负样本集；确定所述低置信度数据子集为第二难样本集。

3.根据权利要求2所述的方法，其特征在于，所述将所述第一难样本集输入到预先训练好的相对危险度的二叉树之前，所述方法还包括：

获取用于训练所述相对危险度的二叉树的基础难样本，所述基础难样本中的每个病理图像切片预先输入所述二分类网络模型进行分类，且每个病理图像切片包括用于表征分类正确以及分类错误的分类标签；

基于公式RR＝p/q，p＝(wr_low+1)/low，q＝(wr_high+1)/high，确定所述基础难样本的相对危险度，其中，RR为所述相对危险度，low为所述基础难样本所包括的待划分低置信度数据子集中的样本总数，high为所述基础难样本所包括的待划分高置信度数据子集中的样本总数，low与high之和为所述基础难样本所包括的样本总数，wr_low为低置信度数据子集中分类错误的病理图像切片个数，wr_high为高置信度数据子集中分类错误的病理图像切片个数；

将所述相对危险度确定为分类回归树的特征选择函数，得到所述相对危险度的二叉树；

通过所述基础难样本训练所述相对危险度的二叉树至收敛。

4.一种分类装置，用于对由病理图像拆分得到的多个病理图像切片进行分类，其特征在于，所述装置包括：

第一输入模块，用于将所述多个病理图像切片输入预先训练好的二分类网络模型，根据所述二分类网络模型的输出为每个病理图像切片添加用于表征为正样本或者为负样本的样本标签；

提取模块，用于对所述多个病理图像切片进行置信度特征提取，并根据所提取的置信度特征及预先设置好的置信度特征阈值将所述多个病理图像切片分为高置信度数据集及低置信度数据集；

分类模块，用于将所述高置信度数据集中所述样本标签表征为所述正样本的病理图像切片加入到第一正样本集，将所述高置信度数据集中所述样本标签表征为所述负样本的病理图像切片加入到第一负样本集；确定所述低置信度数据集为第一难样本集；

所述置信度特征包括连通域最大直径、连通域数量、连通域平均面积、连通域面积的峰度，所述置信度特征阈值包括连通域最大直径第一阈值、连通域最大直径第二阈值、连通域数量阈值、连通域平均面积阈值、连通域面积的峰度阈值，所述最大直径第一阈值小于所述最大直径第二阈值；

所述提取模块，用于将所述连通域最大直径小于所述最大直径第一阈值的病理图像切片加入到第一高置信度数据集；将所述连通域最大直径大于所述最大直径第二阈值的病理图像切片加入到第一低置信度数据集；将所述连通域最大直径位于所述最大直径第一阈值与所述最大直径第二阈值之间的病理图像切片加入到第二低置信度数据集；将所述第一低置信度数据集中，所述连通域数量小于所述连通域数量阈值的病理图像切片加入到第二高置信度数据集，其余病理图像切片加入到第三低置信度数据集；将所述第二低置信度数据集及所述第三低置信度数据集中，所述连通域平均面积小于所述连通域平均面积阈值的病理图像切片加入到第三高置信度数据集，其余病理图像切片加入到第四低置信度数据集；将所述第四低置信度数据集中，所述连通域面积的峰度小于所述连通域面积的峰度阈值的病理图像切片加入到第四高置信度数据集，其余病理图像切片加入到第五低置信度数据集；将所述第一高置信度数据集、所述第二高置信度数据集、所述第三高置信度数据集及所述第四高置信度数据集确定为所述高置信度数据集，将所述第五低置信度数据集确定为所述低置信度数据集。

5.根据权利要求4所述的装置，其特征在于，所述装置还包括：

第二输入模块，用于将所述第一难样本集输入到预先训练好的相对危险度的二叉树，将所述第一难样本集分为高置信度数据子集及低置信度数据子集；

所述分类模块，还用于将所述高置信度数据子集中所述样本标签表征为所述正样本的病理图像切片加入到第二正样本集，将所述高置信度数据子集中所述样本标签表征为所述负样本的病理图像切片加入到第二负样本集；确定所述低置信度数据子集为第二难样本集。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

所述确定模块，用于将所述相对危险度确定为分类回归树的特征选择函数，得到所述相对危险度的二叉树；

7.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器和所述处理器连接；

所述存储器用于存储程序；

所述处理器调用存储于所述存储器中的程序，以执行如权利要求1-3中任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被计算机运行时执行如权利要求1-3中任一项所述的方法。