CN110378885B

CN110378885B - 一种基于机器学习的wsi病灶区域自动标注方法及系统

Info

Publication number: CN110378885B
Application number: CN201910656071.XA
Authority: CN
Inventors: 宣宁; 王晓骁; 尹荣; 刘文弟; 史丹; 王洁
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2023-07-04
Anticipated expiration: 2039-07-19
Also published as: CN110378885A

Abstract

本发明公开一种基于机器学习的WSI病灶区域自动标注方法及系统，该方法包括：(1)采集WSI图像数据集，所述数据集中的WSI图像包括无病灶区域的和有病灶区域的生理组织切片，对所述数据集中的所有WSI图像进行预处理，所述预处理包括；(2)对采集的初始训练样本集进行数据增量，形成最终训练样本集，并将部分样本载入构建的卷积神经网络模型中对所述模型进行迭代训练，得到最终预测模型；(3)载入最终训练样本集的剩余样本到所述最终预测模型中，通过样本中的WSI输出标注病灶区域的热度图。本发明经过自动的、大量的深度训练后，可以在杂乱的数据中找到更抽象高层特征，也更具有代表性的特征，从而提高病理看片效率和现有自动检测的准确度。

Description

一种基于机器学习的WSI病灶区域自动标注方法及系统

技术领域

本发明涉及对WSI病灶区域自动标注技术领域，具体涉及一种基于机器学习的WSI病灶区域自动标注方法及系统。

背景技术

病理切片一直都是疾病诊断的金标准，随着医疗资源的普及和诊断需求量的增加，病理切片的诊断量不断增加。传统检测方法是人工检测，而一张全场扫描数字病理图像(WSI)切片往往平均超过千兆像素，面对大量的病理切片需要病理医师花费大量时间精力。人工检测的准确性由病理医师的经验、状态等因素影响，导致检测质量无法在单体及群体中保持一致。常规自动检测中的定量分析采用了人为选择的视觉特征(颜色、灰度值、结构、纹理等)对WSI图像进行检测。人为选择的视觉特征往往不能覆盖所有的有效特征，忽略了细胞组织的复杂度，从而无法提高检测精准度达到应用级别。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于机器学习的WSI病灶区域自动标注方法，该方法可以解决病理医生负担重、人工看片效率低、现有自动检测准确率低的问题，本发明还提供一种基于机器学习对WSI的病灶区域自动标注系统。

技术方案：本发明所述的基于机器学习的WSI病灶区域自动标注方法，该方法包括：

(1)采集WSI图像数据集，对所述数据集中的所有WSI图像进行预处理，所述预处理包括：

对WSI图像进行染色后，在LAB色彩空间创建生理组织蒙版；

使用Chase-Vese的主动轮廓模型优化所述生理组织蒙版的边缘，确定含有生理组织切片；

对所述含有生理组织的切片进行病灶区域的人工标注；

对标注后的含有病灶区域的生理组织的切片以及没有病灶区域的生理组织切片进行分割，得到若干含有生理组织的小块后，采集若干病灶小块和正常小块，并均加入到初始训练样本集中；

(2)对采集的初始训练样本集进行数据增量，形成最终训练样本集，并将部分样本载入构建的卷积神经网络模型中对所述模型进行迭代训练，得到最终预测模型；

(3)载入最终训练样本集的剩余样本到所述最终预测模型中，通过样本中的WSI输出标注病灶区域的热度图。

进一步地，包括：

所述步骤(1)中，含有生理组织的小块需满足生理组织的面积覆盖率不小于设定阈值ε。

进一步地，包括：

所述步骤(1)中，病灶小块为病灶区域大于等于像素阈值δ的含有生理组织的小块，所述正常小块为病灶区域小于像素阈值δ的含有生理组织的小块。

进一步地，包括：

所述阈值ε的范围为[30％,70％],阈值δ的范围为[5％,70％]。

进一步地，包括：

所述对标注后的含有病灶区域的生理组织的切片以及没有病灶区域的生理组织切片进行分割，得到若干小块后，采集若干病灶小块和正常小块，并加入到初始训练样本集，具体包括：

若病灶区域的面积小于等于正常组织区域，则根据标注的WSI图像中病灶区域的面积大小和小块所需数量，在所述含有病灶区域的生理组织的切片中，采集N个病灶小块，并在同一张WSI图像内，随机采集相同数量相同大小的N个正常小块；然后，在其他没有病灶区域的生理组织切片中共截取与病灶小块同样数量N的正常小块，且每张没有病灶区域的生理组织切片截取的正常小块数量相等；

否则，病灶区域的面积大于正常组织区域，则在有病灶区域的生理组织的切片中采集M个正常小块，在同一张WSI图像内，随机采集相同数量相同大小的M个病灶小块，然后，在其他没有病灶区域的生理组织切片中共截取与病灶小块同样数量M个的正常小块，且每张没有病灶区域的生理组织切片截取的正常小块数量相等。

进一步地，包括：

若WSI图像内的正常生理组织区域的面积和病灶区域的面积的比例差异大于95％，所述若干病灶小块和正常小块的数量可调整在同一数量级上以内，所述同一数量级以内，满足下列区间：

进一步地，包括：

所述对采集的初始训练样本集进行数据增量，包括：

以所述小块中心为起始坐标，在X轴及Y轴以正负设定像素范围内为中心点随机位置截取小于所述小块尺寸的像素区域，得到第一数据增量；所述像素区域的尺寸为卷积神经网络模型的输入图像所需尺寸；

对所述截取的像素区域进行随机上下左右翻转后，以设定角度随机进行最多2次旋转，得到第二数据增量；

以图像位数像素值正负阈值α范围内随机调整图像亮度，得到第三数据增量；

在红色空间和蓝色空间内以所述正负阈值β范围内随机调整图像亮度，得到第四数据增量。

进一步地，包括：

所述正负阈值α和正负阈值β均为10％。

进一步地，包括：

所述步骤(2)中，将部分样本载入构建的卷积神经网络模型中对所述模型进行迭代训练，具体的：

采用多轮训练的方式，在第一轮训练后，生成初步的预测模型，根据训练结果和训练速度调整训练参数，并根据输出的病灶区域热度图确定假阳性小块，所述假阳性小块为预测输出为病灶小块，实际为正常小块的小块；

把预测中的假阳性小块加入训练集中，进行第二轮训练，训练后根据训练结果和训练速度调整训练参数，并将假阳性小块再次加入到训练集，直至所述假阳性小块的数量达到设定的范围，结束多轮训练。

一种基于机器学习的WSI病灶区域自动标注系统，包括：

数据预处理模块，用于采集WSI图像数据集，所述数据集中的WSI图像包括无病灶区域的和有病灶区域的生理组织切片，并对所述数据集中的所有WSI图像进行预处理，该模块包括：

色彩转换单元，用于对WSI图像进行染色后，在LAB色彩空间创建生理组织蒙版；

蒙版优化单元，用于使用Chase-Vese的主动轮廓模型优化所述生理组织蒙版的边缘，确定含有生理组织切片；

病灶标注单元，用于对所述含有生理组织的切片进行病灶区域的人工标注；

切片分割单元，用于对标注后的含有病灶区域的生理组织的切片以及没有病灶区域的生理组织切片进行分割，得到若干含有生理组织的小块后，采集若干病灶小块和正常小块，并均加入到初始训练样本集中；

模型训练模块，用于对采集的初始训练样本集进行数据增量，形成最终训练样本集，并将部分样本载入构建的卷积神经网络模型中对所述模型进行迭代训练，得到最终预测模型；

模型测试模块，用于载入最终训练样本集的剩余样本到所述最终预测模型中，通过样本中的WSI输出标注病灶区域的热度图。

有益效果：本发明与现有技术相比，其显著优点是：1、本发明经过自动的、大量的深度训练后，可以在杂乱的数据中找到更抽象高层特征，也更具有代表性的特征，从而提高病理看片效率和现有自动检测的准确度；2、本发明首先对采集的数据进行预处理，提高了数据的可用性，模型训练后，在人工检测过程中自动检测辅助病理医生，提高了病灶区域的检测效率。

附图说明

图1为本发明实施例中所述的标注方法的流程图；

图2为本发明实施例中所述的WSI图像的样张；

图3为本发明实施例中所述的蒙版示意图；

图4为本发明实施例中所述的手动标注病灶区域的示意图；

图5为本发明实施例中所述的WSI图像分割示意图；

图6为图5中的部分分割小块放大图；

图7为采集的训练集样张，图7a为标注为病灶区域的病灶小块，图7b为标注为正常区域的正常小块；

图8为本发明实施例中的数据增量样张，其中，A1、B1、C1、D1为采集的小块样张，A2、A3、A4为通过训练数据增量，以A1小块中心为起始坐标，在X及Y轴以正负21像素范围内为中心点随机位置截取299x299x3像素区域样张；浅色高光区域为截取区域；B2、B3、B4为通过训练数据增量在红色空间和蓝色空间有正负10％范围内的随机调整后的样张；C2、C3、C4为通过训练数据增量以图像位数像素值正负10％范围内随机调整图像亮度的样张；D2、D3、D4为通过训练数据增量经过随机上下左右反转、旋转后的样张；

图9为本发明实施例中的预测模型结构图；

图10为本发明实施例中通过预测模型标注的病灶区域热度图样张。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

深度神经网络的特点是无需手动选择特征，经过自动的、大量的深度训练后，可以在杂乱的数据中找到更抽象高层特征，也更具有代表性的特征，从而达到更高的准确度。通过深度神经网络的监督式学习，自动检测可以对切片进行数字化处理、定量分析并量化检测结果。在人工检测过程中通过自动检测辅助病理医生提高检测效率和准确率。

本发明首先公开一种基于机器学习的WSI病灶区域自动标注方法，参阅图1所示，该方法包括：

S1采集WSI图像数据集，所述数据集中的WSI图像包括无病灶区域的和有病灶区域的生理组织切片，参阅图2为一WSI图像样张。对所述数据集中的所有WSI图像进行预处理，所述预处理包括：

S11对WSI图像进行染色后，将其RGB色彩空间转换成LAB色彩空间，并根据颜色将病理组织分割建立生理组织蒙版。

切片使用常用的苏木精-伊红染色(H&E)染色，这种染色方法的基础是组织结构对不同染料的结合程度不同。染料苏木精可以将嗜碱性结构染成蓝紫色，而伊红可以将嗜酸性结构染成粉红色。

S12使用Chase-Vese的主动轮廓模型优化所述生理组织蒙版的边缘，确定含有生理组织的切片，并包含组织边缘区域使其不被遗漏在训练数据外。该种方法可减少切片中的无效区域，参阅图3所示，深色轮廓线内的围绕区域为通过Lab色彩空间分割以及Chase-Vese主动轮廓模型优化的生理组织蒙版。

S13含有生理组织的切片进行病灶区域的人工标注；。

切片数据中的切片中的病灶区域由病理医生进行标注，参阅图4所示，右侧深色轮廓线围绕区域为人工标注的病灶区域。

S14对标注后的含有病灶区域的生理组织的切片以及没有病灶区域的生理组织切片进行分割，得到若干含有生理组织的小块后，采集若干病灶小块和正常小块，并均加入到初始训练样本集中。

切片图像中有很多白色的空白面积，没有病理组织，所以不是所有的面积都可以被转换成小块。参阅图6所示，首先检测出那些区域是病理组织，检测出的生理组织作为蒙版，然后要确保每个小块里至少要有蒙版(生理组织)覆盖ε的面积，最后如果小块中至少δ的病理组织面积是癌细胞区域，被归类为病灶小块，不然则被归类为正常小块。

本发明的实施例中，阈值ε的范围为[30％,70％]，阈值δ的范围为[5％,70％]。经过多次试验，阈值ε和δ采用70％效果最佳。

使用1x到40x放大率的数字切片图像，参阅7所示，图7a为标注为病灶区域的病灶小块，图7b为标注为正常区域的正常小块。40x放大率含有最清晰的细胞形态。将蒙版以341个像素为间隔以X和Y轴分割出大小为341x341x3像素的小块，每个小块内至少需要蒙版覆盖70％的面积。参阅图5所示，黑色的线为分割线，每个黑色小块内有至少70％的蒙版区域。将通过发明中所述的方法进行训练数据采样。

在本实施例中，阈值最优选择70％。小块内如果病灶区域大于或等于70％的像素，将被标注为病灶小块，采集入初始训练样本集。小块区域内小于70％的像素将被标注为正常小块，采集入初始训练样本集。经过试验，选择此阈值可以有效提高检测准确率。

对于病灶小块和正常小块的数量，本发明的实施例采用如下方法选择，此方法可保证训练集数据结构的平衡：

例如，数字切片A和B为无病灶区域切片，100％的组织面积为正常区域，数字切片C为有病灶区域切片，5％的组织面积为病灶区域，95％的组织面积为正常区域。在采集过程中，如果C的肿瘤区域的面积只足够采集500个病灶小块，则同样要在C的正常区域面积内随机采集同等数量的正常小块。在C中采集之后，需要在A和B中分别提取250个正常小块，A和B中提取小块总数量和C中提取病灶小块总数量相同。又例如，数字切片A和B为无病灶区域切片，100％的组织面积为正常区域，数字切片C为有病灶区域切片，80％的组织面积为病灶区域，20％的组织面积为正常区域。在采集过程中，如果C的正常区域的面积只足够采集2000个正常小块，则同样要在C的肿瘤区域面积内随机采集同等数量的病灶小块。在C中采集之后，需要在A和B中分别提取1000个正常小块，A和B中提取小块总数量和C中提取病灶小块总数量相同。

进一步地，如果数据集中单张WSI的正常生理组织面积和病灶面积的比例有很大的差异，可自行调整各类小块数量和比例，但是要控制两类小块总数量在一个数量级以内。

本实施例中，若满足

则可判定数据集分布处于同一数量级内，若不在区间内，则可判定不同一数量级内。

采用同一数量级内的病灶小块和正常小块，可确保模型的顺利训练，避免由于数量差距过大出现过多假阳性或假阴性小块，提高了预测的精度。

S2对采集的初始训练样本集进行数据增量，形成最终训练样本集，并将部分样本载入构建的卷积神经网络模型中对所述模型进行迭代训练，得到最终预测模型。

如图8所示，首先，以所述小块中心为起始坐标，在X轴及Y轴以正负设定像素范围内为中心点随机位置截取小于所述小块尺寸的像素区域，得到第一数据增量；所述像素区域的尺寸为卷积神经网络模型的输入图像所需尺寸。本发明所述的实施例中，采用之前准备的341x341x3像素的小块，以小块中心为起始坐标，在X及Y轴以正负21像素范围内为中心点随机位置截取299x299x3像素区域，如图8A2、8A3和8A4。

对所述截取的像素区域进行随机上下左右翻转后，以设定角度随机进行最多2次旋转，得到第二数据增量；本实施例中，采用对截取区域进行随机上下左右翻转、随机以90°进行最多2次旋转，如图8D2、8D3和8D4。

以图像位数像素值正负阈值范围α内随机调整图像亮度，得到第三数据增量；本实施例中，α＝10％。如图8C2、8C3和8C4。

在红色空间和蓝色空间内以所述正负阈值范围β内随机调整图像亮度，得到第四数据增量，如图8B2、8B3和8B4。

本实施例中，根据切片的染色方法，对数据进行范围内的随机调整，进行数据增量，降低预测模型对颜色差异性的敏感度。在切片H&E的染色中切片中的RGB色彩空间大多处于红色及蓝色区域。而切片的染色可根据不同条件具有颜色差异性。如图7所示为了增加预测模型对颜色差异性的准确度，每个区域都会在红色空间和蓝色空间有正负10％范围内的随机调整。

将第一数据增量、第二数据增量、第三数据增量以及第四数据增量均加入到初始训练样本集中，最终得到最终训练样本集。

训练的模型采用resnet50为基础，加入两层全联通网络预测小块的分类。预测模型参数选择随机初始值。参阅图9图所示，一般训练一共有两轮，可根据情况增加或减少多轮训练。每轮训练可根据训练结果和训练速度调整训练参数。

在第一轮训练中，生成初步的预测模型。

当完成第一轮训练后，为了避免的假阳性预测，使用初步的预测模型对切片数据中的正常切片进行预测，把预测中的假阳性小块加入训练集，增加采样的多样性。在添加假阳性小块时，确保添加的假阳性小块数量不会使训练集中的病灶小块和正常小块的比例差出一个数量级。所述假阳性小块为预测输出为病灶小块，实际为正常小块的小块。

通过新的训练集进行第二轮训练，可根据情况增加或减少多轮训练，或在训练中根据情况调整训练参数，最终得到一个稳定的预测模型。

S3载入最终训练样本集的剩余样本到所述最终预测模型中，通过样本中的WSI输出标注病灶区域的热度图，参阅图10所示。

初步模型建成后，需要进行模型验证，在最终训练样本集中随机提取80％样本作为训练集，剩余样本作为测试集。测试使用的全尺寸数字切片需要首先经过数据预处理，因为测试数据不需要进行数据增量，所以直接在病理组织蒙版内截取尺寸为299x299x3像素的小块，并通过预测模型，获得每个小块的分类预测，经过组合后获得病灶区域热度图。

本发明的实施例中，测试集验证模型的拟合效能，同时采用独立切片数据集作为验证集，外部检查模型优劣。对于模型的评估，基于拟合优度检验、准确率其曲线下面积(area under curve，AUC)、灵敏度和特异度等指标较为全面地评价模型的预测能力。

另一方面，在基于标注方法的基础上，本发明还提出一种基于机器学习的WSI病灶区域自动标注系统，包括：

由于该系统的构思与标注方法构思相似，本实施例就不在进行详细赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于机器学习的WSI病灶区域自动标注方法，其特征在于，该方法包括：

对WSI图像进行染色后，在LAB色彩空间创建生理组织蒙版；

对所述含有生理组织的切片进行病灶区域的人工标注；

(3)载入最终训练样本集的剩余样本到所述最终预测模型中，通过样本中的WSI输出标注病灶区域的热度图；

否则，病灶区域的面积大于正常组织区域，则在有病灶区域的生理组织的切片中采集M个正常小块，在同一张WSI图像内，随机采集相同数量相同大小的M个病灶小块，然后，在其他没有病灶区域的生理组织切片中共截取与病灶小块同样数量M个的正常小块，且每张没有病灶区域的生理组织切片截取的正常小块数量相等；

{x∈R:0.2<x<5}。

2.根据权利要求1所述的基于机器学习的WSI病灶区域自动标注方法，其特征在于，步骤(1)中，含有生理组织的小块需满足生理组织的面积覆盖率不小于设定阈值ε。

3.根据权利要求2所述的基于机器学习的WSI病灶区域自动标注方法，其特征在于，所述步骤(1)中，病灶小块为病灶区域大于等于像素阈值δ的含有生理组织的小块，所述正常小块为病灶区域小于像素阈值δ的含有生理组织的小块。

4.根据权利要求2所述的基于机器学习的WSI病灶区域自动标注方法，其特征在于，所述阈值ε的范围为[30％,70％]，阈值δ的范围为[5％,70％]。

5.根据权利要求1所述的基于机器学习的WSI病灶区域自动标注方法，其特征在于，所述对采集的初始训练样本集进行数据增量，包括：

6.根据权利要求5所述的基于机器学习的WSI病灶区域自动标注方法，其特征在于，所述正负阈值α和正负阈值β均为10％。

7.根据权利要求1所述的基于机器学习的WSI病灶区域自动标注方法，其特征在于，步骤(2)中，将部分样本载入构建的卷积神经网络模型中对所述模型进行迭代训练，具体的：

8.一种基于机器学习的WSI病灶区域自动标注系统，其特征在于，包括：

模型测试模块，用于载入最终训练样本集的剩余样本到所述最终预测模型中，通过样本中的WSI输出标注病灶区域的热度图；所述对标注后的含有病灶区域的生理组织的切片以及没有病灶区域的生理组织切片进行分割，得到若干小块后，采集若干病灶小块和正常小块，并加入到初始训练样本集，具体包括：

否则，病灶区域的面积大于正常组织区域，则在有病灶区域的生理组织的切片中采集M个正常小块，在同一张WSI图像内，随机采集相同数量相同大小的M个病灶小块，然后，在其他没有病灶区域的生理组织切片中共截取与病灶小块同样数量M个的正常小块，且每张没有病灶区域的生理组织切片截取的正常小块数量相等；若WSI图像内的正常生理组织区域的面积和病灶区域的面积的比例差异大于95％，所述若干病灶小块和正常小块的数量可调整在同一数量级上以内，所述同一数量级以内，满足下列区间：

{x∈R:0.2<x<5}。