CN114140465B

CN114140465B - 基于宫颈细胞切片图像的自适应的学习方法和学习系统

Info

Publication number: CN114140465B
Application number: CN202210055879.4A
Authority: CN
Inventors: 刘凯; 汪进; 陈睿
Original assignee: Severson Guangzhou Medical Technology Service Co ltd
Current assignee: Severson Guangzhou Medical Technology Service Co ltd
Priority date: 2021-01-20
Filing date: 2022-01-18
Publication date: 2023-01-10
Anticipated expiration: 2042-01-18
Also published as: CN114140465A

Abstract

本公开描述一种基于宫颈细胞切片图像的自适应的学习方法和学习系统，学习方法包括：准备第一预设数量的来自于第一目标源的已标注的宫颈细胞切片图像以获得主干训练集，通过主干训练集获得第一训练集和第二训练集，利用第一训练集对特征组合模型进行训练，利用第二训练集对特征分类模型进行训练；将需要进行分类的宫颈细胞切片图像的来源设定为第二目标源，准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像以获得第三训练集，利用第三训练集对训练好的特征分类模型进行调整以获取自适应特征分类模型，利用训练好的特征组合模型和自适应特征分类模型获得自适应模型。由此，能够自适应不同来源的病理玻片数字图像。

Description

基于宫颈细胞切片图像的自适应的学习方法和学习系统

技术领域

本公开大体涉及一种基于宫颈细胞切片图像的自适应的学习方法和学习系统。

背景技术

宫颈癌是一种严重威胁女性健康的恶性肿瘤。若在早期发现宫颈癌并进行治疗可以降低宫颈癌的发病率和死亡率。因此，定期对宫颈癌进行筛查显得尤为重要。

目前针对宫颈癌用的筛查手段一般是宫颈细胞筛查。随着计算机辅助诊断(computer aided diagnosis，CAD)和计算机辅助检测(computer aided detection，CAD)的广泛应用，越来越多的图像处理技术被应用到宫颈细胞筛查中。

然而，由于不同医院之间制片手法、扫描仪等条件的差异，导致不同医院宫颈细胞切片的成像效果有较大差别且收集不同医院的宫颈细胞切片图像存在一定的难度，导致分类模型的泛化性能较差。在这种情况下，基于一个来源的宫颈细胞切片图像进行训练的机器学习模型往往无法在另一个来源的宫颈细胞切片图像上表现一致。

发明内容

本公开是有鉴于上述的状况而提出的，其目的在于提供一种能够自适应不同来源的宫颈细胞切片图像的基于宫颈细胞切片图像的自适应的学习方法和学习系统。

为此，本公开第一方面提供了一种基于宫颈细胞切片图像的自适应的学习方法，是用于主干模型的学习方法，所述主干模型包括用于获取第一组合特征的特征组合模型和用于获取分类结果的特征分类模型，所述主干模型用于自适应地对具有不同来源的宫颈细胞切片图像进行分类，其所述学习方法包括：准备第一预设数量的来自于第一目标源的已标注的宫颈细胞切片图像以获得主干训练集，通过所述主干训练集获得第一训练集和第二训练集，利用所述第一训练集对所述特征组合模型进行训练，利用所述第二训练集对所述特征分类模型进行训练；将需要进行分类的宫颈细胞切片图像的来源设定为第二目标源，准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像以获得第三训练集，所述第一预设数量大于所述第二预设数量，利用所述第三训练集对训练好的所述特征分类模型进行调整以获取自适应特征分类模型，利用训练好的所述特征组合模型和所述自适应特征分类模型获得自适应模型。

在这种情况下，利用数据量较大的主干训练集对主干模型进行训练并利用与主干训练集来源不同的小批量数据对训练好的主干模型中的特征分类模型进行微调，进而自适应地对来源不同的病理玻片数字图像进行分类。由此，能够提高泛化能力。

另外，在本公开第一方面所涉及的学习方法中，可选地，所述宫颈细胞切片图像包括多种分辨率的切片彩色图像，所述切片彩色图像具有包含内容物的有效区域。

另外，在本公开第一方面所涉及的学习方法中，可选地，准备所述宫颈细胞切片图像后，对所述宫颈细胞切片图像进行预处理以获得目标切片彩色图像的有效区域，在所述预处理中，从所述宫颈细胞切片图像中选取第一分辨率的切片彩色图像作为参考切片彩色图像，选取第二分辨率的切片彩色图像作为目标切片彩色图像，所述第一分辨率小于所述第二分辨率，基于所述参考切片彩色图像的有效区域获取所述参考切片彩色图像的有效区域。

另外，在本公开第一方面所涉及的学习方法中，可选地，基于所述目标切片彩色图像的有效区域对所述目标切片彩色图像进行特征提取以获取所述目标切片彩色图像的切片特征，在所述特征提取中，基于所述目标切片彩色图像的有效区域对所述目标切片彩色图像进行分块处理以获取所述目标切片彩色图像的多个分块图像并利用特征提取模型获取所述目标切片彩色图像的分块图像的分块特征并对包括基于所述目标切片彩色图像的多个分块特征获得的统计特征的所述目标切片彩色图像的特征信息进行特征融合处理以生成所述目标切片彩色图像的切片特征，所述分块特征至少包括内容物的位置、内容物的类别和置信度，所述目标切片彩色图像的统计特征包括各种类别内容物的置信度的分布直方图、各种类别内容物的面积的分布直方图和各种类别内容物的周长的分布直方图中的至少一种。由此，能够获得目标切片彩色图像的切片特征。

另外，在本公开第一方面所涉及的学习方法中，可选地，所述特征组合模型为梯度提升决策树模型，所述特征分类模型为逻辑回归模型，在所述训练中，利用所述第一训练集的宫颈细胞切片图像的切片特征和与该切片特征对应的标注标签对所述特征组合模型进行训练，将所述第二训练集的宫颈细胞切片图像的切片特征输入训练好的所述梯度提升决策树模型以获取所述第一组合特征，其中，所述第一组合特征为所述梯度提升决策树模型生成的树索引的独热编码，并利用该第一组合特征和与该第一组合特征对应的标注标签对所述逻辑回归模型进行训练。在这种情况下，利用梯度提升决策树模型对病理玻片数字图像的切片特征进行组合，并得到高阶特征属性和非线性映射，从而获取更有利于逻辑回归模型分析的新特征。

另外，在本公开第一方面所涉及的学习方法中，可选地，所述特征提取模型为基于深度学习的用于目标检测的模型。由此，能够利用用于目标检测的模型提取分块图像的分块特征。

另外，在本公开第一方面所涉及的学习方法中，可选地，在所述调整中，固化训练好的所述特征组合模型的模型参数，利用所述第三训练集并基于训练好的所述特征分类模型的模型参数对训练好的所述特征分类模型进行调优训练。由此，能够利用第三训练集对训练好的特征分类模型进行调优。

本公开第二方面提供了一种用于主干模型的自适应的学习系统，包括：准备模块，其用于准备第一预设数量的来自于第一目标源的已标注的宫颈细胞切片图像以获得主干训练集；训练模块，其通过所述主干训练集获得第一训练集和第二训练集，利用所述第一训练集对所述特征组合模型进行训练，利用所述第二训练集对所述特征分类模型进行训练；以及调整模块，其将需要进行分类的宫颈细胞切片图像的来源设定为第二目标源，准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像以获得第三训练集，利用所述第三训练集对训练好的所述主干模型进行调整以获取自适应模型，在所述调整中，利用所述第三训练集对训练好的所述特征分类模型进行调整以获取自适应特征分类模型，利用训练好的所述特征组合模型和所述自适应特征分类模型获得所述自适应模型，所述第一预设数量大于所述第二预设数量。

本公开第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的学习方法的步骤。

本公开第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的学习方法的步骤。

根据本公开，提供一种能够自适应不同来源的宫颈细胞切片图像的基于宫颈细胞切片图像的自适应的学习方法和学习系统、计算机设备和存储介质。

附图说明

现在将仅通过参考附图的例子进一步详细地解释本公开，其中：

图1是示出了本公开示例所涉及的基于病理玻片数字图像的自适应的学习方法的应用场景的示意图。

图2是示出了本公开示例所涉及的基于病理玻片数字图像的自适应的学习方法的流程图。

图3是示出了本公开示例所涉及的宫颈细胞切片图像的示意图。

图4(a)是示出了本公开示例所涉及的分块图像的示意图。

图4(b)是示出了本公开示例所涉及的内容物的位置的示意图。

图5是示出了本公开示例所涉及的基于病理玻片数字图像的自适应的学习系统的框图。

具体实施方式

以下，参考附图，详细地说明本公开的优选实施方式。在下面的说明中，对于相同的部件赋予相同的符号，省略重复的说明。另外，附图只是示意性的图，部件相互之间的尺寸的比例或者部件的形状等可以与实际的不同。需要说明的是，本公开中的术语“包括”和“具有”以及它们的任何变形，例如所包括或所具有的一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可以包括或具有没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。本公开所描述的所有方法可以以任何合适的顺序执行，除非在此另有指示或者与上下文明显矛盾。

本公开第一方面涉及一种基于病理玻片数字图像的自适应的学习方法，是用于主干模型的学习方法，并能够利用来自于不同目标源的数据自适应地对主干模型进行调整，从而能够获得针对病理玻片数字图像的自适应模型，本公开第一方面还涉及一种基于宫颈细胞切片图像的自适应的学习方法，是用于主干模型的学习方法，并能够利用来自于不同目标源的数据自适应地对主干模型进行调整，从而能够获得针对宫颈细胞切片图像的自适应模型。

本公开第二方面涉及一种自适应的学习系统，是用于实现第一方面所涉及的学习方法的学习系统，能够利用来自于不同目标源的数据自适应地对主干模型进行调整，从而能够获得自适应模型。

本公开第三方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，其特征在于，处理器执行计算机程序时实现上述的学习方法的步骤。

本公开第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现上述的学习方法的步骤。

本公开所涉及的病理玻片数字图像可以为通过病理扫描仪采集到的病理图像，病理玻片数字图像可以是具有不同分辨率的金字塔图像(也即病理玻片数字图像可以包括多种分辨率的图像)。病理玻片数字图像一般非常大，例如全片切片图像(Whole SlideImage，WSI)，WSI图像的大小可以为600Mb至1Gb，因此传统的图像处理方法一般不适用于病理玻片数字图像的处理且病理玻片数字图像的处理常常耗时较长。由于不同医院的制片手法不同、染色方法或不同病理扫描仪的成像效果不同，病理玻片数字图像的染色风格常常不一致。在一些示例中，可以使用苏木精(haematoxylin)和伊红(eosin)染色方法对玻片进行染色进而获得染色玻片，苏木精(haematoxylin)和伊红(eosin)染色方法可以简称HE染色方法。

一般而言，病理玻片数字图像可以反映组织所发生的病变，因此可以通过对病理玻片数字图像进行自适应学习以获得病理玻片数字图像的分类结果。由此，能够辅助医生对组织病变进行诊断。例如，在辅助对宫颈癌进行诊断中，可以对宫颈细胞切片图像中的病变细胞的特征进行自适应的学习以获得宫颈细胞切片图像的分类结果，进而可以利用分类结果辅助医生对宫颈癌进行诊断。但本公开的示例不限于此，本公开的基于多种染色风格的病理玻片数字图像的自适应的学习方法可以很容易地应用于其他病理玻片数字图像的自适应学习，例如肠道病理玻片数字图像、胃癌病理玻片数字图像或淋巴瘤病理玻片数字图像。

如上所述，病理玻片数字图像的染色风格常常不一致。在一些示例中，在基于病理玻片数字图像对用于特征识别或分类识别的机器学习模型进行训练前，可以对病理玻片数字图像进行染色归一化处理(稍后描述)以将病理玻片数字图像的染色风格转成同一种染色风格。在这种情况下，针对单个染色风格的病理玻片数字图像对机器学习模型进行训练，训练好的机器学习模型能够泛化至对不同染色风格的病理玻片数字图像的特征识别或分类识别。由此，能够提高机器学习模型的泛化能力。

另外，在一些示例中，可以基于不同来源的小批量的数据对训练好的主干模型(稍后描述)进行调整，以使调整后的主干模型能够自适应地对不同来源的病理玻片数字图像进行分类。不同来源的病理玻片数字图像可以指制片手法不同、染色方法或不同病理扫描仪的成像效果不同的病理玻片数字图像。一般而言，不同医院的制片手法、染色方法或病理扫描仪的成像效果常常不同。

在一些示例中，可以同时对病理玻片数字图像进行染色归一化处理和对训练好的主干模型进行调整。由此，能够进一步地提高泛化能力。

本公开的基于病理玻片数字图像的自适应的学习方法可以获得自适应地对不同来源的病理玻片数字图像进行分类的自适应模型。本公开的基于病理玻片数字图像的自适应的学习方法有时也可以称为学习方法。图1是示出了本公开示例所涉及的基于病理玻片数字图像的自适应的学习方法的应用场景的示意图。

在一些示例中，如图1所示，本公开涉及的学习方法可以应用于如图1所示的应用场景100中。在应用场景100中，可以获取医院A1的多张病理玻片数字图像作为主干训练集B1，服务器110可以通过执行相应的计算机程序指令以实现学习方法，该学习方法可以利用主干训练集B1对主干模型120进行训练以获取训练好的主干模型120，并基于医院A2的小批量数据B2对训练好的主干模型120进行调整以获取自适应模型130。该自适应模型130可以对医院A2的病理玻片数字图像C进行分类以获取分类结果。在一些示例中，操作员140可以基于病理玻片数字图像C的分类结果对病理玻片数字图像C中的组织病变进行诊断。在一些示例中，医院A1的数量可以是多个。

在一些示例中，在病理玻片数字图像为宫颈细胞切片图像的情况下，分类结果可以为未见上皮内病变细胞或恶性细胞(NILM)、非典型鳞状细胞-意义不明确(ASC_US)、低度鳞状上皮内病变(LSIL)、非典型鳞状细胞-不排除HSIL(ASC_H)、高度鳞状上皮内病变(HSIL)、非典型子宫颈管细胞(AGC)。

在一些示例中，服务器110可以包括一个或多个处理器和一个或多个存储器。其中，处理器可以包括中央处理单元、图形处理单元以及能够处理数据的其它任何电子部件，能够执行计算机程序指令。存储器可以用于存储计算机程序指令。在一些示例中，服务器110也可以是云端服务器。在一些示例中，操作员140可以是具有对病理玻片数字图像进行分析的专业知识的医师。

以下，结合附图详细描述本公开涉及的基于病理玻片数字图像的自适应的学习方法。图2是示出了本公开示例所涉及的基于病理玻片数字图像的自适应的学习方法的流程图。

在一些示例中，学习方法可以包括：准备第一预设数量的来自于第一目标源的已标注的宫颈细胞切片图像以获得主干训练集(步骤S110)、利用主干训练集获得获得第一训练集和第二训练集并对主干模型进行训练(步骤S120)准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像以获得第三训练集(步骤S130)和利用第三训练集对训练好的主干模型进行调整(步骤S140)。在这种情况下，利用数据量较大的主干训练集对主干模型进行训练并利用与主干训练集来源不同的小批量数据对训练好的主干模型中的特征分类模型进行微调，进而自适应地对来源不同的病理玻片数字图像进行分类。由此，能够提高泛化能力。

在一些示例中，在步骤S110中，可以准备多张病理玻片数字图像和标注标签作为主干训练集。在一些示例中，可以准备第一预设数量的多张病理玻片数字图像。例如第一预设数量可以为5至10万张。

在一些示例中，病理玻片数字图像可以包括多种分辨率的切片彩色图像。在一些示例中，切片彩色图像可以具有包含内容物的有效区域。在一些示例中，切片彩色图像可以具有背景区域。在一些示例中，内容物可以是细胞。

在一些示例中，多种分辨率的切片彩色图像可以按分辨率排序以形成金字塔形式的图像。一般而言，金字塔的最底层的切片彩色图像的分辨率最大的，金字塔的最顶层的切片彩色图像的分辨率最小。在一些示例中，病理玻片数字图像可以具有缩略图。

在一些示例中，病理玻片数字图像可以是宫颈细胞切片图像。由此，能够对宫颈细胞切片图像进行分类。作为宫颈细胞切片图像的示例，图3示出了由病理扫描仪采集的宫颈细胞切片图像的局部图。

在一些示例中，可以直接准备第一预设数量的来自于第一目标源的已标注的病理玻片数字图像(例如宫颈细胞切片图像)。在一些示例中，可以通过来自于第一目标源的已标注的宫颈细胞切片图像获得主干训练集。在一些示例中，可以将来自于第一目标源的已标注的病理玻片数字图像作为主干训练集。在一些示例中，可以对来自于第一目标源的已标注的病理玻片数字图像进行预处理后再作为主干训练集。

在一些示例中，来自于第一目标源的病理玻片数字图像可以是来自于多个医疗机构的病理玻片数字图像。换言之，第一目标源可以包括多个医疗机构。在一些示例中，第一目标源可以包括第二目标源(后续描述)。在一些示例中，第一目标源也可以不包括第二目标源。

在一些示例中，已标注的病理玻片数字图像可以匹配有标注标签。

在一些示例中，标注标签可以是与病理玻片数字图像对应的片级标注的标注标签(也即是对整张病理玻片数字图像进行标注并形成一个标注标签)。在一些示例中，标注标签可以与分类结果对应。

在一些示例中，在步骤S110中，可以对病理玻片数字图像进行预处理以确定目标切片彩色图像的有效区域。

如上所述，病理玻片数字图像一般非常大。在一些示例中，可以对的病理玻片数字图像进行预处理。在一些示例中，在预处理中，可以从病理玻片数字图像中选取第一分辨率的切片彩色图像作为参考切片彩色图像并选取第二分辨率的切片彩色图像作为目标切片彩色图像。在一些示例中，可以基于参考切片彩色图像获取参考切片彩色图像的有效区域。在一些示例中，可以将参考切片彩色图像的有效区域映射至目标切片彩色图像以确定目标切片彩色图像的有效区域。在这种情况下，后续可以基于目标切片彩色图像的有效区域获取目标切片彩色图像的切片特征。由此，能够减少的计算量。

在一些示例中，在获取参考切片彩色图像的有效区域中，可以将参考切片彩色图像转换为灰度模式的参考灰度图像，利用二值化阈值分割算法(例如大律法)对参考灰度图像进行自适应阈值分割和颜色反转以获取参考二值化图像，对参考二值化图像进行膨胀和腐蚀处理以获取白色的区域，将白色的区域作为参考切片彩色图像的有效区域。由此，能确定参考切片彩色图像的有效区域。

在一些示例中，对参考二值化图像进行膨胀和腐蚀处理可以获取包含白色的区域和黑色的区域的二值分割图像。例如，可以对参考二值化图像进行2次膨胀和2腐蚀操作以获取包含白色的区域和黑色的区域的二值分割图像。在一些示例中，黑色的区域可以为参考切片彩色图像的背景区域。在一些示例中，在对参考灰度图像进行自适应阈值分割前，可以对参考灰度图像进行去噪处理(例如中值模糊处理)。

在一些示例中，可以将参考切片彩色图像的有效区域映射至目标切片彩色图像以确定目标切片彩色图像的有效区域。具体地，可以获取参考切片彩色图像的有效区域的外接矩形，基于参考切片彩色图像相对于目标切片彩色图像的缩小倍数获取目标切片彩色图像的有效区域对应的外接矩形。在一些示例中，可以将目标切片彩色图像的有效区域对应的外接矩形作为目标切片彩色图像的有效区域。在一些示例中，可以将外接矩形增大5％至10％后作为目标切片彩色图像的有效区域。由此，能够获取更多的内容物用于后续的训练。

在一些示例中，第一分辨率的切片彩色图像可以是病理玻片数字图像中的缩略图。在一些示例中，第一分辨率可以小于第二分辨率。由此，能够基于低分辨的切片彩色图像确定高分辨率的切片彩色图像的有效区域。

图4(a)是示出了本公开示例所涉及的分块图像的示意图。图4(b)是示出了本公开示例所涉及的内容物的位置的示意图。

在一些示例中，在步骤S110中，可以基于目标切片彩色图像的有效区域提取目标切片彩色图像的切片特征。

具体地，可以基于目标切片彩色图像的有效区域对目标切片彩色图像进行分块处理以获取目标切片彩色图像的多个分块图像，利用特征提取模型获取目标切片彩色图像的分块图像的分块特征，基于目标切片彩色图像的多个分块特征获得的统计特征，对包括统计特征的目标切片彩色图像的特征信息进行特征融合处理以生成目标切片彩色图像的切片特征。但本公开的示例不限于此，在另一些示例中，目标切片彩色图像的切片特征可以直接是目标切片彩色图像的多个分块图像的分块特征。例如，可以将目标切片彩色图像的多个分块图像的分块特征连接成一个特征向量并作为目标切片彩色图像的切片特征。

在一些示例中，可以利用滑窗法基于目标切片彩色图像的有效区域将目标切片彩色图像按照预设尺寸进行分块处理以获取目标切片彩色图像的多个分块图像。作为分块图像的示例。图4(a)示出了目标切片彩色图像的分块图像的示意图。

具体地，可以将预设尺寸(例如1024*1024)作为窗口的滑动距离，按照滑动距离，沿着目标切片彩色图像的有效区域的横向和纵向滑动窗口，将滑动后的窗口在目标切片彩色图像上对应的图像作为分块图像。但本公开的示例不限于此，在另一些示例中，也可以不获取目标切片彩色图像的有效区域，直接对目标切片彩色图像进行分块处理。

另外，在一些示例中，特征提取模型可以为基于深度学习的用于目标检测的模型。由此，能够利用用于目标检测的模型提取分块图像的分块特征。在一些示例中，各个分块图像的分块特征的数量可以为一个或多个。在一些示例中，特征提取模型可以是基于EfficientDet(Scalable and Efficient Object Detection)架构的目标检测网络。在一些示例中，特征提取模型可以是基于Retinanet架构的目标检测网络。在一些示例中，分块特征至少可以包括内容物的位置、内容物的类别和置信度。

在一些示例中，在病理玻片数字图像为宫颈细胞切片图像的情况下，内容物的类别可以为未见上皮内病变细胞或恶性细胞(NILM)、非典型鳞状细胞-意义不明确(ASC_US)、低度鳞状上皮内病变(LSIL)、非典型鳞状细胞-不排除HSIL(ASC_H)、高度鳞状上皮内病变(HSIL)、非典型子宫颈管细胞(AGC)。作为内容物的位置的示例，图4(b)示出了宫颈细胞切片图像的分块图像中的内容物的位置，其中，位置A的内容物的类别为低度鳞状上皮内病变(LSIL)，位置B的内容物的类别为高度鳞状上皮内病变(HSIL)，位置C的内容物的类别为非典型鳞状细胞-意义不明确(ASC_US)。

如上所述，特征信息可以包括统计特征，统计特征可以基于目标切片彩色图像的多个分块特征获得。如上所述，分块特征可以至少包括内容物的位置、内容物的类别和置信度。在一些示例中，目标切片彩色图像的统计特征可以包括各个内容物的类别的置信度的分布直方图、各个内容物的类别的面积的分布直方图和各个内容物的类别的周长的分布直方图中的至少一种。由此，能够基于目标切片彩色图像的分块特征获取目标切片彩色图像的统计特征。

在一些示例中，可以将目标切片彩色图像的各个分块图像的分块特征(例如多组内容物的位置、内容物的类别和置信度)进行筛选，基于筛选后的分块特征获取统计特征。具体地，可以获取预设数量(例如100)且分块特征的置信度大于预设置信度的分块特征。在这种情况下，可以从中根据分块特征的置信度和分块特征的内容物的位置获取目标分块特征，基于目标分块特征获取统计特征。在一些示例中，可以从中根据分块特征的置信度和分块特征的内容物的位置之间的重叠面积获取目标分块特征。例如，若置信度高的分块特征与置信度低的分块特征的内容物的位置之间的重叠面积大于该置信度低的分块特征的内容物的面积的预设比例(0.3至0.5，例如使用0.5)，则舍弃该置信度低的分块特征。在这种情况下，对目标切片彩色图像的分块特征进行筛选并基于筛选后的分块特征获取目标切片彩色图像的统计特征，能够有效地提高分类的分类效率。在一些示例中，可以根据分块特征的内容物的位置来确定任意两个分块特征对应的重叠面积。

另外，在一些示例中，在特征融合处理中，可以对目标切片彩色图像的特征信息进行降维，并对降维后的目标切片彩色图像的特征信息进行连接以生成目标切片彩色图像的切片特征。在一些示例中，可以利用主成分分析法(Principal Component Analysis，PCA)对目标切片彩色图像的特征信息进行降维。在一些示例中，可以将降维后的目标切片彩色图像的特征信息连接成预设维度(例如1*300维度)的一个特征向量。由此，能够获得目标切片彩色图像的切片特征。

在一些示例中，可以利用并行处理的方式(也即将各个分块图像的染色归一化处理分配到不同处理进程或线程中)对目标切片彩色图像的各个分块图像进行染色归一化处理获取归一化彩色图像。在一些示例中，多个归一化彩色图像的染色风格可以是一致的。在一些示例中，可以利用特征提取模型基于目标切片彩色图像的归一化彩色图像获取目标切片彩色图像的切片特征。由此，能够便于获取目标切片彩色图像的切片特征。

在一些示例中，可以基于生成对抗网络(GAN,Generative AdversarialNetworks)的染色归一化处理对分块图像进行归一化。生成对抗网络是一种深度学习模型。生成对抗网络中至少包括生成网络(生成器)和判别网络(判别器)。一般而言，生成网络可以通过学习训练集的特征，在判别网络的指导下生成具有训练集特征的相似数据。而判别网络可以鉴别输入的数据是真实的数据还是生成器生成的假数据，并反馈给生成网络。判别网络和生成网络交替训练，直至生成网络生成的数据能够以假乱真。

具体地，可以将目标切片彩色图像的各个分块图像进行灰度化以转换成具有灰度模式的灰度图像，基于训练好的生成网络对灰度图像进行归一化，获得与灰度图像对应的归一化彩色图像，其中，生成网络的训练过程可以为：准备多张待训练的分块图像并对待训练的分块图像进行灰度化以转换成具有灰度模式的待训练的灰度图像，对归一化网络进行训练以使生成网络生成的重构的分块图像与待训练的分块图像相匹配。由此，能够对目标切片彩色图像的各个分块图像进行染色归一化处理。

在一些示例中，归一化网络可以是基于生成对抗网络构建的。在一些示例中，归一化网络可以包括生成网络和判别网络。生成网络可以接收待训练的灰度图像并生成重构的分块图像，判别网络可以接收由待训练的分块图像和待训练的灰度图像拼接的第一拼接图像以及由待训练的灰度图像和重构的分块图像拼接的第二拼接图像输出判别结果(例如真或假)。

在一些示例中，可以根据前向传播的结果计算损失函数值，然后反向传播计算梯度，以更新网络参数。在一些示例中，判别网络的网络参数和生成网络的网络参数的更新过程可以包括：在生成网络固定的情况下，通过最大化判别网络的损失函数以更新判别网络的网络参数；在最大化判别网络的损失函数的情况下，通过最小化生成网络的损失函数以更新生成网络的网络参数。在这种情况下，利用损失函数不断地更新两个网络的网络参数，能够使由生成网络生成的重构的分块图像与待训练的分块图像相匹配。

具体地，可以更新第一预设次数(例如3次)的生成网络的网络参数后更新第二预设次数(例如1次)的判别网络的参数。判别网络和生成网络交替训练，直至生成网络生成的数据能够以假乱真。例如对于第一拼接图像和第二拼接图像判别网络输出的属于某个判别结果的概率约为0.5(也即介于真假之间)。

在一些示例中，在步骤S120中，可以利用主干训练集对主干模型进行训练。

在一些示例中，主干模型可以包括特征组合模型和特征分类模型。在一些示例中，特征组合模型可以用于对病理玻片数字图像的切片特征进行组合以获取第一组合特征。在一些示例中，特征分类模型可以用于对第一组合特征进行分类以获取分类结果。

在一些示例中，可以通过主干训练集获得第一训练集和第二训练集。具体地，可以将主干训练集至少分成包括第一训练集和第二训练集。

在一些示例中，可以利用第一训练集对特征组合模型进行训练，并第二训练集对特征分类模型进行训练。具体地，可以利用第一训练集的病理玻片数字图像的切片特征和与该切片特征对应的标注标签对特征组合模型进行训练，将第二训练集的病理玻片数字图像的切片特征输入训练好的特征组合模型以获取第一组合特征，利用该第一组合特征和与该第一组合特征对应的标注标签对特征分类模型进行训练。但本公开的示例不限于此，在一些示例中，可以从主干训练集中选取若干张病理玻片数字图像作为第一训练集，可以从主干训练集中选取若干张病理玻片数字图像作为第二训练集。

在一些示例中，主干训练集还可以分为测试集。测试集的数据量可以为主干训练集的10％至30％。在一些示例中，第一训练集的数据量可以大于第二训练集的数据量。例如第一训练集、第二训练集和测试集的比例可以为7:2:1。由此，能够利用较大的数据集对较复杂的特征组合模型进行训练，利用较小的数据集对较简单的特征分类模型进行训练。

在一些示例中，特征组合模型可以为用于特征组合的树模型。例如可以为梯度提升决策树模型(Gradient Boosting Decison Tree，GBDT)，特征分类模型可以是线性分类器。例如可以为逻辑回归模型(Logistic Regression，LR)。

一般而言，逻辑回归模型是线性分类器，复杂度较低，直接用病理玻片数字图像的切片特征训练逻辑回归模型，分类效果会比较差。而梯度提升决策树模型是一种树模型，可对病理玻片数字图像的切片特征进行组合，并得到高阶特征属性和非线性映射，从而获取更有利于逻辑回归模型分析的新特征(也即第一组合特征)。

具体地，可以将第二训练集的病理玻片数字图像的切片特征输入训练好的梯度提升决策树模型以获取第一组合特征，利用该第一组合特征和与该第一组合特征对应的标注标签对逻辑回归模型进行训练。在一些示例中，第一组合特征可以为梯度提升决策树模型生成的树索引的独热编码(One-hot)。

在一些示例中，在步骤S130中，可以准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像以获得第三训练集(步骤S130)

在一些示例中，来源不同的小批量数据可以是第三训练集。在一些示例中，可以获取第二预设数量的病理玻片数字图像和与该病理玻片数字图像对应的片级标注的标注标签作为第三训练集。在一些示例中，第二预设数量的病理玻片数字图像可以是与主干训练集的病理玻片数字图像来源不同。例如第二预设数量的病理玻片数字图像可以为来源不同医院的病理玻片数字图像。

在一些示例中，可以将需要进行分类的病理玻片数字图像的来源设定为第二目标源。换言之，若需要利用自适应模型对病理玻片数字图像进行分类，则可以将该病理玻片数字图像的来源设定为第二目标源，并准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像。

在一些示例中，在步骤S140中，利用第三训练集对训练好的主干模型进行调优训练。

在一些示例中，可以利用第三训练集对训练好的主干模型进行调整以获取自适应模型。具体地，可以利用训练好的特征组合模型获取第三训练集的病理玻片数字图像的第二组合特征，利用该第二组合特征和与该第二组合特征对应的标注标签对训练好的特征分类模型进行调整以获取自适应特征分类模型，将训练好的特征组合模型和自适应特征分类模型作为自适应模型，该自适应模型可以对与第三训练集来源相同的病理玻片数字图像进行分类。

在一些示例中，在调整中，可以固化训练好的特征组合模型的模型参数，利用第三训练集并基于训练好的特征分类模型的模型参数对训练好的特征分类模型进行调优训练。由此，能够利用第三训练集对训练好的特征分类模型进行调优。

在一些示例中，第一预设数量可以大于第二预设数量。在一些示例中，第二预设数量可以小于等于1000张。由此，能够利用小批量数据对主干模型进行调优。

以下，结合附图详细描述本公开涉及的基于病理玻片数字图像的自适应的学习系统200。基于病理玻片数字图像的自适应的学习系统200有时也可以称为学习系统200。学习系统200可以用于实施上述的学习方法。图5是示出了本公开示例所涉及的基于病理玻片数字图像的自适应的学习系统200的框图。

在一些示例中，如图5所示，学习系统200可以包括准备模块210、预处理模块220、特征提取模块230、训练模块240和调整模块250。准备模块210可以用于准备多张病理玻片数字图像和标注标签作为主干训练集。预处理模块220可以用于对病理玻片数字图像进行预处理以确定目标切片彩色图像的有效区域。特征提取模块230可以用于基于目标切片彩色图像的有效区域提取目标切片彩色图像的切片特征。训练模块240可以利用主干训练集对主干模型进行训练。调整模块250可以利用与主干训练集来源不同的小批量数据对训练好的主干模型进行调整。在这种情况下，利用数据量较大的主干训练集对主干模型进行训练并利用来源不同的小批量数据对训练好的主干模型中的特征分类模型进行微调(也即调优训练)，进而自适应地对来源不同的病理玻片数字图像进行分类。由此，能够提高泛化能力。

在一些示例中，准备模块210可以用于准备多张病理玻片数字图像和标注标签作为主干训练集。在一些示例中，病理玻片数字图像可以包括多种分辨率的切片彩色图像。在一些示例中，切片彩色图像可以具有包含内容物的有效区域。在一些示例中，切片彩色图像可以具有背景区域。在一些示例中，内容物可以是细胞。在一些示例中，病理玻片数字图像可以为宫颈细胞切片图像。由此，能够对宫颈细胞切片图像进行分类。在一些示例中，标注标签可以是与病理玻片数字图像对应的片级标注的标注标签。具体内容参见步骤S110中的相关描述，此处不再赘述。

在一些示例中，预处理模块220可以用于对病理玻片数字图像进行预处理以确定目标切片彩色图像的有效区域。在一些示例中，可以从病理玻片数字图像中选取第一分辨率的切片彩色图像作为参考切片彩色图像并选取第二分辨率的切片彩色图像作为目标切片彩色图像。在一些示例中，可以基于参考切片彩色图像获取参考切片彩色图像的有效区域。在一些示例中，可以将参考切片彩色图像的有效区域映射至目标切片彩色图像以确定目标切片彩色图像的有效区域。在这种情况下，后续可以基于目标切片彩色图像的有效区域获取分块图像。由此，能够减少的计算量。在一些示例中，第一分辨率的切片彩色图像可以是病理玻片数字图像中的缩略图。在一些示例中，第一分辨率可以小于第二分辨率。由此，能够基于低分辨的切片彩色图像确定高分辨率的切片彩色图像的有效区域。具体内容参见步骤S110中的相关描述，此处不再赘述。

在一些示例中，特征提取模块230可以基于目标切片彩色图像的有效区域提取目标切片彩色图像的切片特征。具体地，可以基于目标切片彩色图像的有效区域对目标切片彩色图像进行分块处理以获取目标切片彩色图像的多个分块图像，利用特征提取模型获取目标切片彩色图像的分块图像的分块特征，基于目标切片彩色图像的多个分块特征获得的统计特征，对包括统计特征的目标切片彩色图像的特征信息进行特征融合处理以生成目标切片彩色图像的切片特征。另外，在一些示例中，特征提取模型可以为基于深度学习的用于目标检测的模型。在一些示例中，特征提取模型可以是基于EfficientDet(Scalable andEfficient Object Detection)架构的目标检测网络。在一些示例中，特征提取模型可以是基于Retinanet架构的目标检测网络。另外，在一些示例中，在特征融合处理中，可以对目标切片彩色图像的特征信息进行降维，并对降维后的目标切片彩色图像的特征信息进行连接以生成目标切片彩色图像的切片特征。在一些示例中，分块特征至少可以包括内容物的位置、内容物的类别和置信度。在一些示例中，目标切片彩色图像的统计特征可以包括各个内容物的类别的置信度的分布直方图、各个内容物的类别的面积的分布直方图和各个内容物的类别的周长的分布直方图中的至少一种。具体内容参见步骤S110中的相关描述，此处不再赘述。

在一些示例中，可以利用并行处理的方式(也即将各个分块图像的染色归一化处理分配到不同处理进程或线程中)对目标切片彩色图像的各个分块图像进行染色归一化处理获取归一化彩色图像。在一些示例中，多个归一化彩色图像的染色风格可以是一致的。由此，能够便于获取目标切片彩色图像的切片特征。在一些示例中，可以基于目标切片彩色图像的归一化彩色图像获取目标切片彩色图像的切片特征。具体内容参见步骤S110中的相关描述，此处不再赘述。

在一些示例中，训练模块240可以利用主干训练集对主干模型进行训练。在一些示例中，主干模型可以包括特征组合模型和特征分类模型。在一些示例中，特征组合模型可以用于对病理玻片数字图像的切片特征进行组合以获取第一组合特征。在一些示例中，特征分类模型可以用于对第一组合特征进行分类以获取分类结果。具体地，可以将主干训练集至少分成包括第一训练集和第二训练集。利用第一训练集的病理玻片数字图像的切片特征和与该切片特征对应的标注标签对特征组合模型进行训练，将第二训练集的病理玻片数字图像的切片特征输入训练好的特征组合模型以获取第一组合特征，利用该第一组合特征和与该第一组合特征对应的标注标签对特征分类模型进行训练。具体内容参见步骤S120中的相关描述，此处不再赘述。

在一些示例中，特征组合模型可以为梯度提升决策树模型(Gradient BoostingDecison Tree，GBDT)，特征分类模型可以为逻辑回归模型(Logistic Regression，LR)。具体地，可以将第二训练集的病理玻片数字图像的切片特征输入训练好的梯度提升决策树模型以获取第一组合特征，利用该第一组合特征和与该第一组合特征对应的标注标签对逻辑回归模型进行训练。在一些示例中，第一组合特征可以为梯度提升决策树模型生成的树索引的独热编码(One-hot)。具体内容参见步骤S120中的相关描述，此处不再赘述。

在一些示例中，调整模块250可以利用来源不同的小批量数据对训练好的主干模型进行调整。在一些示例中，来源不同的小批量数据可以是第三训练集。在一些示例中，可以获取第二预设数量的病理玻片数字图像和与该病理玻片数字图像对应的片级标注的标注标签作为第三训练集。在一些示例中，第二预设数量的病理玻片数字图像可以是与主干训练集的病理玻片数字图像来源不同。在一些示例中，可以利用第三训练集对训练好的主干模型进行调整以获取自适应模型。具体地，可以利用训练好的特征组合模型获取第三训练集的病理玻片数字图像的第二组合特征，利用该第二组合特征和与该第二组合特征对应的标注标签对训练好的特征分类模型进行调整以获取自适应特征分类模型，将训练好的特征组合模型和自适应特征分类模型作为自适应模型，该自适应模型可以对与第三训练集来源相同的病理玻片数字图像进行分类。具体内容参见步骤S140中的相关描述，此处不再赘述。

在一些示例中，在调整中，可以固化训练好的特征组合模型的模型参数，利用第三训练集并基于训练好的特征分类模型的模型参数对训练好的特征分类模型进行调优训练。由此，能够利用第三训练集对训练好的特征分类模型进行调优。在一些示例中，第一预设数量可以大于第二预设数量。在一些示例中，第二预设数量可以小于等于1000张。由此，能够利用小批量数据对主干模型进行调优。具体内容参见步骤S140中的相关描述，此处不再赘述。

虽然以上结合附图和示例对本公开进行了具体说明，但是可以理解，上述说明不以任何形式限制本公开。本领域技术人员在不偏离本公开的实质精神和范围的情况下可以根据需要对本公开进行变形和变化，这些变形和变化均落入本公开的范围内。

Claims

1.一种基于宫颈细胞切片图像的自适应的学习方法，是用于主干模型的学习方法，所述主干模型包括用于对宫颈细胞切片图像的切片特征进行组合以获取组合特征的特征组合模型和用于对所述组合特征进行分类以获取分类结果的特征分类模型，所述主干模型用于自适应地对具有不同来源的宫颈细胞切片图像进行分类，其特征在于，所述学习方法包括：

准备第一预设数量的来自于第一目标源的已标注的宫颈细胞切片图像以获得主干训练集，

通过所述主干训练集获得第一训练集和第二训练集，利用所述第一训练集的宫颈细胞切片图像的切片特征和与该切片特征对应的标注标签对所述特征组合模型进行训练，将所述第二训练集的宫颈细胞切片图像的切片特征输入训练好的所述特征组合模型以获取第一组合特征，利用所述第一组合特征和与所述第一组合特征对应的标注标签对所述特征分类模型进行训练，其中，所述第一训练集的数据量大于所述第二训练集的数据量，所述特征组合模型的复杂度大于所述特征分类模型的复杂度；

将需要进行分类的宫颈细胞切片图像的来源设定为第二目标源，

准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像以获得第三训练集，所述第一预设数量大于所述第二预设数量，

利用训练好的所述特征组合模型获取所述第三训练集的宫颈细胞切片图像的第二组合特征并利用所述第二组合特征和与所述第二组合特征对应的标注标签对训练好的所述特征分类模型进行调整以获取自适应特征分类模型，利用训练好的所述特征组合模型和所述自适应特征分类模型获得自适应模型，所述标注标签为片级标注。

2.根据权利要求1所述的学习方法，其特征在于：

所述宫颈细胞切片图像包括多种分辨率的切片彩色图像，所述切片彩色图像具有包含内容物的有效区域。

3.根据权利要求2所述的学习方法，其特征在于：

准备所述宫颈细胞切片图像后，对所述宫颈细胞切片图像进行预处理以获得目标切片彩色图像的有效区域，在所述预处理中，从所述宫颈细胞切片图像中选取第一分辨率的切片彩色图像作为参考切片彩色图像，选取第二分辨率的切片彩色图像作为目标切片彩色图像，所述第一分辨率小于所述第二分辨率，基于所述参考切片彩色图像的有效区域获取所述目标切片彩色图像的有效区域。

4.根据权利要求3所述的学习方法，其特征在于：

基于所述目标切片彩色图像的有效区域对所述目标切片彩色图像进行特征提取以获取所述目标切片彩色图像的切片特征，在所述特征提取中，基于所述目标切片彩色图像的有效区域对所述目标切片彩色图像进行分块处理以获取所述目标切片彩色图像的多个分块图像并利用特征提取模型获取所述目标切片彩色图像的分块图像的分块特征并对包括基于所述目标切片彩色图像的多个分块特征获得的统计特征的所述目标切片彩色图像的特征信息进行特征融合处理以生成所述目标切片彩色图像的切片特征，所述分块特征至少包括内容物的位置、内容物的类别和置信度，所述目标切片彩色图像的统计特征包括各种类别内容物的置信度的分布直方图、各种类别内容物的面积的分布直方图和各种类别内容物的周长的分布直方图中的至少一种。

5.根据权利要求1所述的学习方法，其特征在于：

所述特征组合模型为梯度提升决策树模型，所述特征分类模型为逻辑回归模型，其中，所述第一组合特征为所述梯度提升决策树模型生成的树索引的独热编码。

6.根据权利要求4所述的学习方法，其特征在于：

所述特征提取模型为基于深度学习的用于目标检测的模型。

7.根据权利要求1所述的学习方法，其特征在于：

在所述调整中，固化训练好的所述特征组合模型的模型参数，利用所述第三训练集并基于训练好的所述特征分类模型的模型参数对训练好的所述特征分类模型进行调优训练。

8.一种用于主干模型的自适应的学习系统，其特征在于，所述主干模型包括用于对宫颈细胞切片图像的切片特征进行组合以获取组合特征的特征组合模型和用于对所述组合特征进行分类以获取分类结果的特征分类模型，

所述学习系统包括：准备模块，其用于准备第一预设数量的来自于第一目标源的已标注的宫颈细胞切片图像以获得主干训练集；

训练模块，其通过所述主干训练集获得第一训练集和第二训练集，利用所述第一训练集的宫颈细胞切片图像的切片特征和与该切片特征对应的标注标签对所述特征组合模型进行训练，将所述第二训练集的宫颈细胞切片图像的切片特征输入训练好的所述特征组合模型以获取第一组合特征，利用所述第一组合特征和与所述第一组合特征对应的标注标签对所述特征分类模型进行训练，其中，所述第一训练集的数据量大于所述第二训练集的数据量，所述特征组合模型的复杂度大于所述特征分类模型的复杂度；

以及调整模块，其将需要进行分类的宫颈细胞切片图像的来源设定为第二目标源，准备第二预设数量的来自于第二目标源的已标注的宫颈细胞切片图像以获得第三训练集，利用所述第三训练集对训练好的所述主干模型进行调整以获取自适应模型，

在所述调整中，利用训练好的所述特征组合模型获取所述第三训练集的宫颈细胞切片图像的第二组合特征并利用所述第二组合特征和与所述第二组合特征对应的标注标签对训练好的所述特征分类模型进行调整以获取自适应特征分类模型，利用训练好的所述特征组合模型和所述自适应特征分类模型获得所述自适应模型，所述第一预设数量大于所述第二预设数量，所述标注标签为片级标注。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的学习方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的学习方法的步骤。