CN111047559A

CN111047559A - 一种数字病理切片异常区域快速检测的方法

Info

Publication number: CN111047559A
Application number: CN201911146210.0A
Authority: CN
Inventors: 张敬谊; 丁偕; 王瑜; 刘全祥; 杨佐鹏; 刘鸣
Original assignee: WONDERS INFORMATION CO Ltd
Current assignee: WONDERS INFORMATION CO Ltd
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-21
Anticipated expiration: 2039-11-21
Also published as: CN111047559B

Abstract

本发明涉及一种数字病理切片异常区域快速检测的方法。本发明基于拟蒙特卡洛抽样(quasi‑Monte Carlo sampling)方法，先对整张WSI图像进行采样计算，构建异常区域分类概率的多重二次曲面，计算该ROI区域的概率变化幅度，再对ROI区域概率变化幅度较高的子区域增加采样密度，进一步循环计算，经数次迭代，形成整张WSI的异常区域检测结果。从而，在保证识别准确性的前提下，大大减少WSI异常区域识别的计算成本，加快识别速度、提高识别效率。

Description

一种数字病理切片异常区域快速检测的方法

技术领域

本发明涉及一种数字病理切片异常区域快速检测的方法，属于医学图像计算机辅助诊断技术领域。

背景技术

全视野数字病理切片(Whole slide imaging，WSI)通过光学放大设备自动扫描采集高分辨率数字病理图像，随着高精度采集设备和计算机大存储容量的飞速发展，现代WSI图像像素高达千兆级，仅单张数字病理图像存储空间可高达GB量级。这使得病理医生通常需要重复性地花费大量的时间在千兆级像素的病理图像中识别微小的癌细胞，工作强度非常大。

深度学习(Deep Learning，DL)是一种近年来非常热门的机器学习方法，尤其是卷积神经网络(Convolutional Neural Network，CNN)近年来在图像检测、图像分割和图像分类等领域取得惊人进展。其在医学图像的目标分类与识别、定位与检测、组织器官与病灶的分割等方面得到广泛的应用和发展，为临床医学中各种重大疾病的筛查、诊断、治疗计划、疗效评估和随访提供先进、高效的技术手段与解决方案。

利用深度学习方法对WSI图像进行识别、分类是目前热门研究方向之一，然而由于单张WSI图像像素尺寸高达千兆级，常规的深度学习方法仅适用于数百*数百尺寸的图像，无法直接应用于整张WSI图像。因此，研究人员通常采取的解决方案是：对整张WSI图像进行无重叠、无间隙的等尺寸切块(patch)，然后通过遍历的方式使用预训练的卷积神经网络模型对逐个patch分类判断，最后将所有patch的分类结果拼接还原到原尺寸WSI图像，进而实现识别病理图像异常区域的功能。该方法的优点是不存在漏检现象，但缺点也同样明显，存在遍历效率低、计算耗时长、还原图像噪声大的问题。

发明内容

本发明的目的是：提供一种高效、准确的数字病理切片异常区域快速检测方法，帮助病理医生日常初步快速筛选图像异常区域。

为了达到上述目的，本发明的技术方案是提供了一种数字病理切片异常区域快速检测的方法，其特征在于，包括以下步骤：

步骤1、图像预处理：对全视野数字病理切片WSI图像进行颜色标准化和非组织区域去除，形成最终有效的组织区域，并将该组织区域初始化为ROI区域，有效的组织区域内所有坐标点称为ROI区域的点集；

步骤2、在ROI区域内按已定义的切块patch尺寸进行拟蒙特卡洛采样，通过预训练的深度卷积神经网络模型S0计算每个采样切块patch的分类概率值，切块patch尺寸与深度卷积神经网络模型S0相匹配，包括以下步骤：

步骤2.1、对步骤1得到的ROI区域按切块patch尺寸进行n轮迭代的拟蒙特卡洛采样，具体的包括如下步骤：

步骤2.1.1、将ROI区域按坐标的行顺序，降维至一维连续坐标序列；

步骤2.1.2、采用单维度Sobol序列生成器生成拟蒙特卡洛随机采样点，单维度Sobol序列生成器在概率空间中产生均匀分布的、以2为基数的、维度为1的低差异伪随机的随机数生成序列；除第一轮迭代外，每一轮生成的待确认的采样点数量为3m，每一轮最终确认的采样点数量为m，其中第一轮生成的待确认的采样点数量为m；

步骤2.1.3、在由单维度Sobol序列生成的随机数生成序列的基础上乘以一维连续坐标序列长度，得到相应的m个伪随机一维采样点，如下式(1)所示：

P_qmc＝Round(Length(L_ROI)×Sobol(dim,X)) (1)

式(1)中，P_qmc代表生成的由m个伪随机一维采样点组成的伪随机一维采样点集；Round(·)函数代表四舍五入取整；Length(·)函数代表获取集合长度；L_ROI代表ROI区域的一维连续坐标序列点集；Sobol(·)函数代表按照不同维度生成随机数序列；dim设置为1；在第一轮迭代过程的采样中，X∈[1,m]，m∈R，R代表实数集合,生成的伪随机一维采样点的数量为m；在第i轮迭代过程的采样中，每轮X∈[(3i-5)×m+1,(3i-2)×m]，i＝2,…,n，生成的伪随机一维采样点的数量为3m；

步骤2.2、根据步骤2.1得到m个伪随机一维采样点代表的切块patch集，通过预训练的深度卷积神经网络模型S0计算每个采样切块patch的分类概率值，概率值范围在[0,1]区间；

步骤3、根据步骤2得到的采样点分类概率值，构建基于切块patch尺度的异常区域分类概率的多重二次曲面，选取ROI区域的异常区域分类概率曲面，并计算该异常区域中每个切块patch点对应的概率变化幅度，最终得到的ROI区域的异常区域分类概率曲面和相应的概率变化幅度，包括以下步骤：

步骤3.1、根据步骤2生成的离散的伪随机一维采样点坐标和基于切块patch尺度的分类概率值，采用多重二次曲面函数对异常区域分类概率曲面进行曲面构建，获得ROI区域的异常区域分类概率曲面f，曲面构建过程中，所使用的多重二次曲面函数Φ(r)公式如式(2)所示：

式(2)中，Φ(r)代表多重二次曲面函数；r代表构建点x距伪随机一维采样点c的半径；ε代表伪随机一维采样点集P_qmc之间的近似平均距离；

步骤3.2、利用7×7尺寸的Sobol算子分别计算ROI区域的异常区域分类概率曲面f在水平方向x和垂直方向y的概率变化幅度，生成异常区域分类概率曲面f的概率变化向量

S_x代表水平方向x的Sobol算子，S_x＝a×b^T，S_y代表垂直方向y的Sobol算子，S_y＝b×a^T，a和b分别代表两个设定的一维矩阵，a＝[1 4 5 0 -5 -4 1]，b＝[1 6 15 20 156 1]；

然后根据下式(3)的范数公式计算ROI区域的概率变化幅度：

式(3)中，‖f‖_RoI代表f的概率变化幅度，

代表沿图像沿水平方向x的概率变化幅度，

代表沿图像沿竖直方向y的概率变化幅度；

步骤4、将步骤3中最终使用的异常区域中的切块patch点的点数与ROI区域的点集数量进行对比，当确认的切块patch点的点数小于异常区域的总点数时，进入步骤5，准备新一轮的迭代计算；当确认的切块patch点的点数大于ROI区域的总点数，迭代终止，进入步骤6，产生最终的预测结果；

步骤5、将步骤3中ROI区域的概率变化幅度‖f‖_ROI高于设定阈值的子区域作为新一轮迭代的ROI区域，重复执行步骤2和步骤3，除第一轮迭代外，每轮迭代过程中由Sobol序列产生器产生3m个伪随机采样的采样点，并且选取m个概率变化幅度‖f‖_ROI较大的采样点，作为当前轮数的最终采样点，其中新一轮迭代的ROI区域，即密集迭代采样区域，其中，每轮迭代之间的ROI区域关系如式(4)所示：

式(4)中，ROI_i代表第i轮的采样点感兴趣区域，h代表第i轮中大于梯度中位数‖f‖_median的梯度变化大的感兴趣区域，ROI_i+1代表第i+1轮的采样点感兴趣区域，当i＝1时，ROI₁代表步骤1获得的有效组织区域；

步骤6、完成步骤2、3、4、5的迭代，获得最后一轮迭代的ROI区域的异常区域分类概率曲面f，设置异常区域分类概率的阈值，得到最终的整个全视野数字病理切片WSI图像的异常区域检测结果R，其中：异常区域分类概率的阈值与异常区域R的关系如下式(5)所示：

式(5)中，1值代表异常区域，0值代表正常区域，T代表异常区域分类概率的阈值。

优选地，所述步骤1包括：

步骤1.1、对待识别的全视野数字病理切片WSI图像进行颜色标准化，以降低颜色敏感性；

步骤1.2、对步骤1.1得到的全视野数字病理切片WSI图像进行非组织区域去除，达到通过减少非组织区域提高异常区域分类效率，其中，非组织区域去除方法包括以下步骤：首先将RGB通道的全视野数字病理切片WSI图像转灰度单通道的全视野数字病理切片WSI图像，然后对灰度单通道的全视野数字病理切片WSI图像滤波降噪，最后使用二值化阈值分割操作分割全视野数字病理切片WSI图像的组织和背景区域，以实现单独、快速提取有效组织区域，达到去除非组织区域的效果；

步骤1.3、将步骤1.2提取的有效组织区域初始化为ROI区域，该ROI区域作为后续拟蒙特卡洛采样的限制区域，其目的在于，减少非组织区域的检测，将注意力集中在组织区域，从而在提高异常区域的检测速率的同时保持异常区域的检测准确性。

优选地，所述步骤2中，预训练的深度卷积神经网络模型S0利用专业的病理医生标注的病理图像训练得到的深度卷积神经网络预测模型，模型训练包括以下步骤：首先将全视野数字病理切片WSI图像进行切块处理，然后将1∶1比例的阳性切块patch和阴性切块patch数据集输入到深度卷积神经网络模型中进行训练，从而获得能够得到切块patch图像分类概率的深度卷积神经网络模型S0，其中：阳性切块patch数据集为包含/半包含异常区域的小块，阴性切块patch数据集为不包含异常区域的小块。

本发明基于拟蒙特卡洛抽样(quasi-Monte Carlo sampling)方法，先对整张WSI图像进行采样计算，构建异常区域分类概率的多重二次曲面，计算该ROI区域的概率变化幅度，再对ROI区域概率变化幅度较高的子区域增加采样密度，进一步循环计算，经数次迭代，形成整张WSI的异常区域检测结果。从而，在保证识别准确性的前提下，大大减少WSI异常区域识别的计算成本、加快识别速度、提高识别效率。

附图说明

图1为一种数字病理切片异常区域快速检测的方法的总体框架流程图；

图2为一种数字病理切片异常区域快速检测的方法的WSI图像预处理过程示意图；

其中，图2(a)为预处理流程示意图；

图2(b)为有效组织区域结果示意图；

图3为一种数字病理切片异常区域快速检测的方法的深度卷积神经网络模型预训练过程示意图；

其中，图3(a)为各占50％数据比例的阳性阴性训练patch数据集示意图；

图3(b)为用于训练预测异常区域的泛化深度卷积神经网络模型示意图；

图4为一种数字病理切片异常区域快速检测的方法的图像采样过程示意图；

其中，图4(a)为初始化的ROI区域示意图；

图4(b)为ROI区域按坐标的行顺序降维示意图；

图4(c)为一维Sobol序列生成示意图；

图4(d)为一维伪随机采样点示意图；

图4(e)为还原到原尺寸WSI图像的采样点示意图；

图5为一种数字病理切片异常区域快速检测的方法的异常区域分类概率曲面和变化幅度的构建示意图；

图6为一种数字病理切片异常区域快速检测的方法的ROI区域选取过程示意图；

图7为一种数字病理切片异常区域快速检测的方法的WSI图像异常区域检测结果示意图；

其中，图7(a)为最后一轮迭代的异常区域分类概率曲面和变化幅度示意图；

图7(b)为异常阈值下的异常区域检测结果示意图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提出一种数字病理切片异常区域快速检测的方法，其总体流程框架如图1所示，包括如下步骤：

步骤1、图像预处理，对全视野数字病理切片WSI图像进行颜色标准化和非组织区域去除，形成最终有效的组织区域，并将其初始化为ROI区域。步骤1的具体流程如图2(a)所示，包括以下步骤：

步骤1.1、由于病理细胞本身的颜色和承载病理细胞的载玻片经过一定的医学操作呈现不同颜色，为降低颜色敏感性，对待识别的全视野数字病理切片WSI图像进行颜色标准化；

步骤1.2、对步骤1.1颜色标准化后的全视野数字病理切片WSI图像进行非组织区域去除，达到通过减少非组织区域提高异常区域分类效率。其中非组织区域去除方法流程为：首先将RGB通道的全视野数字病理切片WSI图像转灰度单通道的全视野数字病理切片WSI图像，然后对灰度单通道的全视野数字病理切片WSI图像滤波降噪，最后使用二值化阈值分割操作分割全视野数字病理切片WSI图像的组织和背景区域，以实现单独、快速提取有效组织区域，达到去除非组织区域的效果。

本实施方式中，步骤1.2所述的图像滤波降噪包括高斯滤波、中值滤波以及拉普拉斯滤波中的一种或多种。所述的二值化阈值分割操作包括Otsu阈值分割、自适应阈值分割、最大熵阈值分割中的一种或多种。所述的有效组织区域如图2(b)所示。

步骤2：在ROI区域内按已定义的切块patch尺寸进行拟蒙特卡洛采样，通过预训练的深度卷积神经网络模型S0计算每个采样切块patch的分类概率值。

本实施方式中，步骤2所述的切块patch尺寸为固定大小的病理切片图像小块的尺寸，其固定大小值与深度卷积神经网络模型S0相匹配。

本实施方式中，预训练的深度卷积神经网络模型S0是利用专业的病理医生标注的病理图像训练得到的深度卷积神经网络预测模型，具体的首先将全视野数字病理切片WSI图像进行切块patch处理，然后将1:1比例的阳性切块patch数据集和阴性切块patch数据集输入到深度卷积神经网络模型中进行训练，从而获得能够得到切块patch图像分类概率的深度卷积神经网络模型S0。其中阳性切块patch数据集为包含/半包含异常区域的小块，阴性切块patch数据集为不包含异常区域的小块。

本实施方式中，1:1比例的阳性切块patch数据集和阴性切块patch数据集示意图如图3(a)所示，其中，黑色小块代表阳性切块patch，白色小块代表阴性切块patch。

本实验方式中，深度卷积神经网络模型包括但不局限于Inception-V3、VGG-19、ResNet-50中的一种或多种，深度卷积神经网络模型示意图如图3(b)所示。

步骤2具体包括以下步骤：

步骤2.1、对步骤1.3得到的ROI区域按切块patch尺寸进行n轮迭代的拟蒙特卡洛采样，具体的包括如下步骤：

步骤2.1.1、将ROI区域按坐标的行顺序，降维至一维连续坐标序列，初始的ROI区域如图4(a)所示，降维后的坐标序列如图4(b)所示；

步骤2.1.2、采用单维度Sobol序列生成器生成拟蒙特卡洛随机采样点，如图4(c)所示。单维度Sobol序列生成器能够在概率空间中产生均匀分布的、以2为基数的、维度为1的低差异伪随机的随机数生成序列。除第一轮迭代外，每一轮生成的待确认的采样点数量为3m，每一轮最终确认的采样点数量为m，其中第一轮生成的待确认的采样点数量为m；

具体的，步骤2.1.2所述的采样点数量m依据全视野数字病理切片WSI图像的尺寸进行选择；

步骤2.1.3：在由Sobol序列产生的随机数的基础上乘以一维连续坐标序列长度，得到相应的m个伪随机采样坐标，如图4(d)所示，如式(1)所示：

P_qmc＝Round(Length(L_RoI)×Sobol(dim,X)) (1)

式(1)中，P_qmc代表生成的由m个伪随机一维采样点组成的伪随机一维采样点集；Round(·)函数代表四舍五入取整；Length(·)函数代表获取集合长度；L_ROI代表ROI区域的一维连续坐标序列点集；Sobol(·)函数代表按照不同维度生成随机数序列；dim设置为1；在第一轮迭代过程的采样中，X∈[1,m]，m∈R，R代表实数集合,生成的伪随机一维采样点的数量为m；在第i轮迭代过程的采样中，每轮X∈[(3i-5)×m+1,(3i-2)×m]，i＝2,…,n，生成的伪随机一维采样点的数量为3m。

本实施方式中，由于每个一维连续坐标映射一个相应的二维图像坐标，通过步骤2.1.3的式(1)和映射关系，即可实现基于切块patch的二维拟蒙特卡洛随机采样，如图4(e)所示。

步骤2.2、根据步骤2.1得到随机采样点代表的切块patch集，然后通过预训练的外部深度卷积神经网络模型s0计算每个采样切块patch的分类概率值，概率值范围在[0,1]区间；

步骤3、根据步骤2得到的的采样点分类概率值，构建基于patch尺度的异常区域分类概率的多重二次曲面，选取ROI区域的异常区域分类概率曲面，并计算该区域中每个切块patch点对应的概率变化幅度。最终得到的ROI区域的异常区域分类概率曲面和相应的概率变化幅度示意图如图5所示。

步骤3.1、根据步骤2生成的离散采样点坐标和基于切块patch尺度的异常区域分类概率值，采用多重二次曲面函数对整张图的异常区域分类概率曲面进行曲面构建，获得ROI区域的异常区域分类概率曲面f。曲面构建过程中，所使用的多重二次曲面函数如式(2)所示：

式(2)中，Φ(r)代表多重二次曲面函数；r代表构建点x距伪随机一维采样点c的半径；ε代表伪随机一维采样点集P_qmc之间的近似平均距离。

S_x代表水平方向x的Sobol算子，S_x＝a×b^T，S_y代表垂直方向y的Sobol算子，S_y＝b×a^T，a和b分别代表两个设定的一维矩阵，a＝[1 4 5 0 -5 -4 1]，b＝[1 6 15 20 156 1]，符号T代表矩阵转置。

然后根据下式(3)的范数公式计算ROI区域的概率变化幅度：

式(3)中，‖f‖_ROI代表f的概率变化幅度，

代表沿图像沿水平方向x的概率变化幅度，

代表沿图像沿竖直方向y的概率变化幅度。

本实施方式中，在卷积计算过程中，将二维矩阵拆成两个一维矩阵a和b依次与异常区域分类概率曲面f卷积，从而加快卷积操作的速度。

步骤4、将步骤3中最终使用的待确认的采样点与ROI区域点数进行对比，当确认的采样点数小于ROI区域的总点数时，进入步骤5，准备新一轮的迭代计算；当确认的采样点数大于ROI区域的总点数，迭代终止，进入步骤6，产生最终的预测结果。

步骤5、将步骤3中ROI区域的概率变化幅度‖f‖_ROI高于设定阈值的子区域作为新一轮迭代的ROI区域，重复执行步骤2和步骤3，除第一轮迭代外，每轮迭代过程中由Sobol序列产生器产生3m个伪随机采样的采样点，并且选取m个概率变化幅度‖f‖_ROI较大的采样点，作为当前轮数的最终采样点。其中新一轮迭代的ROI区域，即密集迭代采样区域，如图6所示的灰色区域。

具体的，步骤5所述的选取概率变化幅度‖f‖_ROI高于设定阈值，其阈值的选择可以为‖f‖_ROI的中位数，但不限于此选择。基于此得到的子区域作为新一轮迭代的ROI区域的理由是，该子区域代表异常区域分类概率变化程度较大的区域，在该子区域内进行密集迭代采样，能够体现异常区域分类概率的变化趋势，从而在不大幅损失准确率的前提下，加速异常区域的检测效率。

具体的，每轮迭代之间的ROI区域关系如式(4)所示：

式(4)中，ROI_i代表第i轮的采样点感兴趣区域，h代表第i轮中大于梯度中位数‖f‖_median的梯度变化大的感兴趣区域，ROI_i+1代表第i+1轮的采样点感兴趣区域，当i＝1时，ROI₁代表步骤1获得的有效组织区域。

步骤6、完成步骤2、3、4、5的迭代，获得最后一轮迭代的ROI区域的异常区域分类概率图f，设置异常区域分类概率的阈值，得到最终的整个WSI的异常区域检测结果R。

具体的，步骤6所述的最后一轮迭代的ROI区域的异常区域分类概率图f，如图7(a)所示。

具体的，步骤6所述的异常区域分类概率的阈值为一固定值T，如一具体实例中为0.8，但不局限于此值，具体的依据最终的测试精度进行选择。

具体的，步骤6所述的异常区域分类概率的阈值与异常区域R的关系如式(5)所示：

其中，R代表高度疑似异常区域的二值图，1值代表异常区域，0值代表正常区域，f代表第n轮的ROI区域的异常区域分类概率图，T代表异常区域分类概率的阈值。

具体的，步骤6所述的异常区域R，如图7(b)所示，其中的黑色区域代表异常区域，白色区域代表正常区域。

Claims

1.一种数字病理切片异常区域快速检测的方法，其特征在于，包括以下步骤：

P_qmc＝Round(Length(L_ROI)×Sobol(dim,X)) (1)

然后根据下式(3)的范数公式计算ROI区域的概率变化幅度：

式(3)中，‖f‖_ROI代表f的概率变化幅度，

代表沿图像沿水平方向x的概率变化幅度，

代表沿图像沿竖直方向y的概率变化幅度；

2.如权利要求1所述的一种数字病理切片异常区域快速检测的方法，其特征在于，所述步骤1包括：

步骤1.2、对上一步得到的全视野数字病理切片WSI图像进行非组织区域去除，达到通过减少非组织区域提高异常区域分类效率，其中，非组织区域去除方法包括以下步骤：首先将RGB通道的全视野数字病理切片WSI图像转灰度单通道的全视野数字病理切片WSI图像，然后对灰度单通道的全视野数字病理切片WSI图像滤波降噪，最后使用二值化阈值分割操作分割全视野数字病理切片WSI图像的组织和背景区域，以实现单独、快速提取有效组织区域，达到去除非组织区域的效果；

3.如权利要求1所述的一种数字病理切片异常区域快速检测的方法，其特征在于，所述步骤2中，预训练的深度卷积神经网络模型S0利用专业的病理医生标注的病理图像训练得到的深度卷积神经网络预测模型，模型训练包括以下步骤：首先将全视野数字病理切片WSI图像进行切块处理，然后将1∶1比例的阳性切块patch和阴性切块patch数据集输入到深度卷积神经网络模型中进行训练，从而获得能够得到切块patch图像分类概率的深度卷积神经网络模型S0，其中：阳性切块patch数据集为包含/半包含异常区域的小块，阴性切块patch数据集为不包含异常区域的小块。