CN112259223A

CN112259223A - 基于全视野数字切片的病人级别肿瘤智能诊断方法

Info

Publication number: CN112259223A
Application number: CN202011137309.7A
Authority: CN
Inventors: 赵丹; 徐桂芝; 许铮铧
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-01-22
Anticipated expiration: 2040-10-22
Also published as: CN112259223B

Abstract

本发明为基于全视野数字切片的病人级别肿瘤智能诊断方法，该方法包括以下步骤：获取某种病症的多个病例数据库，各个病例数据库以每个病人的ID命名文件夹，各病例数据库中存储着所有等待诊断的该病例活检组织切片的多张全视野数字切片及对应的诊断结果；提取每张全视野数字切片的图片文件栈底的最小尺寸的数字切片作为该张全视野数字切片的彩色图，并对该彩色图进行缩放获得的彩色缩略图；将某个病例的所有彩色缩略图按通道合并为一张全视野数字切片多通道缩略图；构建深度学习算法模型；加载当前病种的某个病例的全部全视野数字切片，输出智能诊断结果。本发明实现了对需要大存储量的全视野数字切片的有效利用。

Description

基于全视野数字切片的病人级别肿瘤智能诊断方法

技术领域

本发明涉及基于全视野数字切片的病人级别肿瘤智能诊断方法。

背景技术

全视野数字切片具有数十亿像素点，占用内存过多，计算机处理时会出现内存不足的情况，主流的处理方法为将全视野数字切片切割成若干小块，并将这些小块依次输入算法模型中训练得到相应的结果。在这个过程中会出现三问题。首先，全视野数字切片的数据预处理需要花费大量的时间。将一张切片切为小块大致需要3分钟的时间，切割小块和训练小块占用大量的计算资源。其次，一张全视野数字切片大致能切出280张512*512的组织块图片(剔除空白图块后)，而这其中对肿瘤智能诊断提供重要信息的关键组织图块非常少。最后，现有算法均使用单张全视野数字切片切割后的局部组织块进行算法设计，在临床实践中单张全视野数字切片的诊断结果并不能代表一个病例的最终诊断结果。因为，每个病例的活检标本通常会制作2个以上的切片标本，这些切片标本中存在全部为正常组织的切片。在只针对组织图块或全视野数字切片的情况下，很容易对这部分的切片做出“病例健康”的误诊。综上所述，现有技术难以在病例级别进行快速诊断。

发明内容

针对现有技术的不足，本发明的目的是，提供一种基于全视野数字切片的病人级别肿瘤智能诊断方法。

为实现上述目的，本发明的技术方案是：一种基于全视野数字切片的病人级别肿瘤智能诊断方法，该方法包括以下步骤：

加载病例数据：获取某种病症的多个病例数据库，各个病例数据库以每个病人的ID命名文件夹，各病例数据库中存储着所有等待诊断的该病例活检组织切片的多张全视野数字切片及对应的诊断结果；

提取缩略图：全视野数字切片是由不同放大倍率的数字病理切片堆栈形成的后缀名为.wsi格式的图片文件，提取每张全视野数字切片的图片文件栈底的最小尺寸的数字切片作为该张全视野数字切片的彩色图，并对该彩色图进行缩放获得的彩色缩略图；

按通道合并缩略图：将某个病例的所有彩色缩略图按通道合并为一张全视野数字切片多通道缩略图；

构建深度学习算法模型，利用同种病症的多个病例训练深度算法模型，用于对全视野数字切片多通道缩略图进行高维特征提取，根据提取到的特征学习当前病种不同诊断结果之间的异同，输出不同诊断结果对应的高维特征，获得训练好的深度学习算法模型；

加载当前病种的某个病例的全部全视野数字切片，按照上述的提取缩略图、按通道合并缩略图的方式获得当前病例的全视野数字切片多通道缩略图，输入到训练好的深度学习算法模型中，输出智能诊断结果。

与现有技术相比，本发明的有益效果是：

本发明重点保护的是全视野数字切片缩略图在病例级别研究的使用，将全视野数字切片缩略图作为研究对象，进行病理智能诊断，克服了现有技术中病理诊断必先切小块再训练诊断数据处理量大、精度不高的缺点，实现了对需要大存储量的全视野数字切片的有效利用。

本申请对合并的所有全视野数字切片的缩略图同时进行学习，利用深度学习算法模型将病例级别的高维特征提取与高维特征融合，实现病例级别的病理分期诊断。病例级别的诊断需要同时考虑同一病人多张切片的数据，并综合做出诊断结果。本申请提出算法，使用拼接缩略图的方式，在卷积的过程中同时实现了高维特征的提取和相互融合。膨胀卷积方法增大模型的感受野，可以学习更大范围组织间的关系，增强高维特征提取的能力。注意力机制增强重要组织及通道的权重，增加包含肿瘤切片对模型的影响力，加强高维特征融合的针对性。

本发明方法以全新角度的解读医学任务并通过计算机方法填补医学任务空缺，更符合实际临床需求，在不知道哪个切片中存在病变的前提下，能够获得当前病人所处的肿瘤分期，不需要对已有数据库进行特定病种的标记等，减少了人为操作，因此在更符合临床需求的病例级别诊断研究。

附图说明

图1为本发明基于全视野数字切片的病人级别肿瘤智能诊断方法的流程示意图。

具体实施方式

下面结合实施例及附图进一步解释本发明，但并不以此作为对本申请保护范围的限定。

本发明基于全视野数字切片的病人级别肿瘤智能诊断方法，该方法包括以下步骤：

提取缩略图：全视野数字切片是由不同放大倍率的数字病理切片堆栈形成的后缀名为.wsi格式的图片文件，提取每张全视野数字切片的图片文件栈底的最小尺寸的数字切片作为该张全视野数字切片的彩色图，并对该彩色图进行缩放获得(3，1024，1024)的彩色缩略图，其中，3表示通道数量，即为红、蓝、绿三通道，(1024，1024)为图片的尺寸，提取的图片文件栈底的彩色图的尺寸大小约为(2000～4000)*(4000～2000)；彩色图转化为三通道张量，并将各三通道张量通过双线性插值法缩放为(3，1024，1024)，使各三通道张量具备相同的形状，整理得到尺寸大小一致的同一个病例的所有彩色缩略图；

按通道合并缩略图：将某个病例的所有彩色缩略图按通道拼接为1个张量，形状为(3*n，1024，1024)，获取全视野数字切片多通道缩略图；n为同一个病例所具有的全视野数字切片的数量，这里合并缩略图的方式可以是拼接，也可以是按照次序依次叠加或进行多张彩色缩略图的融合；

所述深度学习算法模型采用注意力膨胀卷积神经网络，包括膨胀卷积下采样层、通道位置注意层、膨胀卷积层、分类输出，设置膨胀卷积下采样层和通道位置注意层的深度为N，膨胀卷积层的深度为M，全视野数字切片多通道缩略图输入到膨胀卷积下采样层，经过通道位置注意层输出后，判断是否达到设定深度，若没有达到则继续返回膨胀卷积下采样层，直到达到设定深度为止；在通道位置注意层输出达到设定深度N后，进入膨胀卷积层，膨胀卷积层处理后，判断是否达到膨胀卷积层的设定深度，若没有达到，则返回输入到膨胀卷积层，直到达到膨胀卷积层的设定深度，再经过分类输出获得该种病例对应的诊断结果。

本发明中已知某种病对应的各种病例数据库，可认为病例的数量足够多，对病例数据库中的数据进行提取和相应的缩略图、合并缩略图处理后为深度学习算法提供训练样本，获得训练后的深度学习算法模型，提取多通道缩略图张量的高维特征，根据提取到的特征学习当前病种不同诊断结果之间的异同，输出不同诊断结果的高维特征。

加载病例数据时，输入存有待检测病例数据库存储路径的csv文件，按行依次读取各病例数据库路径。对每个病例数据库路径，遍历数据库下所有全视野数字切片路径，并加载各个全视野数字切片。

本发明方法用于肿瘤分期诊断，肿瘤分期诊断结果共分为九种，依次记为I期、IA期、IA2期、IA3期、IB期、II期、IIA期、IIB期、III期、IIIA期、IV期。病理分期是一个多分类任务，具体分期自9至15种类别不等(每个疾病都不太相同，大致有0期，I期、IA期、IB期、IC期、II期、IIA期、IIB期、IIC期、III期、IIIA期、IIIB期、IV期、IVA期、IVB期)，假设随机猜类别，那么猜对的概率在6.7％～11.1％。类别越多，其分类的难度越大。本申请分类输出中计算各分期预测试的概率分布：根据9种分期的高维特征计算预测值的概率分布，将概率最高的分期作为肿瘤分期的预测值输出，并获得该病例肿瘤分期的诊断结果，准确率较高。

深度学习算法模型参数设置：膨胀卷积下采样层的(输入通道数，输出通道数)分别为(3*n，32)、(32，64)、(64，128)，其中每个膨胀卷积下采样层均由两个膨胀率分别为1、2的膨胀卷积叠加而成；通道位置注意层的输入通道数分别为32、64、128，提升重要通道及位置特征的权重；膨胀卷积层的(输入通道数，输出通道数)分别为(128，256)、(256，256)、(256，256)、(256，256)，其中每个膨胀卷积层分别由一个膨胀率为1、2、4、8的膨胀卷积叠加而成。

n就是一个病人有n张切片，这n个切片转化为n个三维张量，一个合并的n个三维张量用3*n表示，该膨胀卷积下采样层的输入就是通道数，先输入3*n个通道的张量，卷积成32通道的张量；再把通道为32的这个张量输入下一个循环的膨胀卷积下采样层，输出64个通道的张量；这个张量再输入下一个循环的膨胀卷积下采样层，输出128个通道的张量。(3*n，32)、(32，64)、(64，128)这三个是每次循环的时候膨胀卷积下采样层模型的通道参数设置，同理膨胀卷积层的循环过程一样。

本申请的病例级别是指同一个病人在一次活检中产生的多张切片，即一块组织切下来以后，按照固定厚度切成薄片，每一个或几个薄片(视其面积大小能否平铺一个载玻片决定)制作一个切片。因此每个病人会产生至少一张切片，且并不是所有的切片都包括肿瘤病灶，包括肿瘤病灶的切片也不是每个部分都有肿瘤组织，即不是每个小块都包含肿瘤组织，病灶组织在病理切片中占比非常小，按照现有的方式按照切小块的形式选择关键块确定诊断结果，其准确性较低，数据处理量大。本专利利用全视野数字切片缩略图的方式，使其仅提取全视野数字切片的对应缩略图即可，提取时间短、且同时对所有的全视野数字切片进行缩略图提取并合并，使其检测结果精度大大提高。

本发明方法能用于提取缩略图进行全视野数字切片的分类任务的各种诊断中，(例如切割小块或者整张图片的阴阳性分类(有无肿瘤，此时只要在加载病例数据时提取病例所对应的有无肿瘤两种分类结果作为输出即可)、分期分类、评级分类、TNM分类(根据临床对病理进行分类)等；不同的分类任务对应的分类输出中分类的数量是不同的，如阴阳性分类时输出为二分类，分期分类时输出为九种分类等)。

本发明在数据预处理时可以通过提取不同类型标注实现关于全视野数字切片的不同任务。例如1)阴阳性分类任务：数据预处理时使用同一病例若干张全视野数字切片作为训练数据，提取该病例临床医学报告中是否患有肿瘤的诊断结果作为阴阳性二分类的标注；2)TNM等分期任务：数据预处理时使用同一病例若干张全视野数字切片作为训练数据，提取该病例临床医学报告中T分期(肿瘤原发性分期)或N分期(淋巴转移性分期)或M分期(远端转移性分期)的诊断结果作为各分期任务的多分类标注；3)评级分类任务：数据预处理时使用同一病例若干张全视野数字切片作为训练数据，提取该病例临床医学报告中肿瘤级别的诊断结果作为评级多分类任务的标注；4)生存率预测任务：数据预处理时使用同一病例若干张全视野数字切片作为训练数据，提取该病例临床医学报告中12个月生存情况或24个月生存情况等诊断结果作为各阶段生存率预测的二分类标注；5)治疗效果预测任务：数据预处理时使用同一病例若干张全视野数字切片作为训练数据，提取该病例临床医学报告中手术治疗或放射治疗或化学治疗或综合治疗或分子治疗等治疗恢复结果作为各疗法效果预测的标注。

本发明中对缩略图的提取及合并的方式还可以采用改变缩略图的大小、替换缩放缩略图的插值方法、改变通道数、缩略图拼接方式(例如按像素逐点相加，平铺等)等实现。根据不同的病种也可以对深度学习算法模型中的神经网络增减卷积层个数、增减膨胀率等。

实施例1

本实施例针对肺癌数据库中的全视野数字切片进行智能分期诊断，肺癌数据库是一个由225个病例组成的肺癌数据库，共有1071张全视野数字切片，其中683张全视野数字切片为阳性、388张全视野数字切片为阴性即不包含肿瘤组织，全部全视野数字切片切成小块共161973张占92.2Gb内存，全部全视野数字切片提取缩略图共1071张占6.3Gb内存。

以下详细说明各步骤详情及模型参数设置。

步骤一，加载病例数据:遍历病例路径下所有后缀名为.wsi格式的文件。

用python语言里的os库遍历所有病例的数据库，获取病例的存储路径。使用sklearn库将225名病例划分为训练数据集、验证数据集、测试数据集，比例为7：1：2。其中训练数据集用于预训练深度学习算法模型，验证集用于验证模型效果，选出验证效果准确率最高的模型参数作为模型的最终参数。测试集即最终用来诊断，证明模型结果的数据。最后使用pandas库将划分好的训练数据集路径及标签、验证数据集路径及标签、测试数据集路径保存为后缀为.csv的文件。在模型预训练过后，使用csv库每次读取一个病例下所有后缀名为.wsi格式的全视野数字切片路径。

步骤二，提取缩略图：分别将各全视野数字切片，根据数据堆栈底部最小图层提取彩色图，并对该彩色图进行缩放获得(3，1024，1024)的彩色缩略图。

用python语言里的pydicom库提取缩略图。切小块更花时间，提缩略图快，计算用时减少了82％。但是缩略图会损失原图的信息量。所以通过合并多张图片输入深度学习网络提取高维特征并融合高维特征进行诊断以弥补信息量缺失的问题。

分别将同一病例的后缀名为.wsi的各全视野数字切片，使用python的pydicom库提取全视野数字切片在若干放大倍率下的像素值堆栈矩阵。根据数据堆栈底部最小图层提取缩略图张量并使用PIL库中的Image库将其缩放为形如(3，1024，1024)的缩略图张量。

步骤三，按通道合并缩略图：将三维张量在通道维度使用python矩阵操作concat拼接为全视野数字切片多通道缩略图，按照通道拼接为形如(3*n，1024，1024)的多通道缩略图张量。此发明中n取8(即该数据库中单个病例拥有的最大全视野数字切片数目)，不足8张的病例，通过PIL库中的Image库对该病例下随机某几张全视野数字切片三维张量进行翻转、旋转等数据增强操作扩充为8张。

步骤四，构建深度学习算法模型，为注意力膨胀卷积神经网络：首先，通过膨胀卷积下采样层和通道位置注意层将输入的多通道缩略图张量在三次循环中升至128维，输出形为(b，128，128，128)的张量，b为每批处理的个数。其次通过膨胀卷积层将输入的高维张量进一步升维，输出形为(b，256，128，128)的高维特征。

本实施例中设定深度N＝3、M＝4。膨胀卷积下采样层+通道位置注意层循环3次，每次参数分别为膨胀卷积下采样层：(3*n，32)、(32，64)、(64，128)，膨胀率为1，2(一个膨胀卷积下采样层由膨胀率为1和膨胀率为2的卷积叠加而成)；通道位置注意层：32、64、128。之后在膨胀卷积层循环4次，每次参数(128，256)、(256，256)、(256，256)、(256，256)且膨胀率为1，2，4，8。

计算各分期预测值的概率分布：利用上述输出的高维特征通过softmax算法计算各分类预测为某类分期时模型的置信度，置信度在0、1之间，选置信度最高的诊断结果为最终的诊断结果。

本实施例中提取一张全视野数字切片的缩略图用时大致0.7秒钟，全视野数字切片提取缩略图的数据预处理过程总计用时12分钟，而现有的切小块方式需要花费大量的时间，切小块总计用时31个小时；本发明预处理用时减少了99.4％，有益效果明显。

本发明提取缩略图完成一轮诊断总共用时10分35秒(其中预训练用时8分27秒、诊断用时2分8秒)，而现有切割小块和训练小块占用大量的计算资源：切小块完成一轮诊断总共用时54分20秒285毫秒(其中预训练用时49分8秒285毫秒、诊断用时5分12秒)；本发明计算用时减少了82％，有益效果明显。

本发明以病例为单位对全视野数字切片组进行肿瘤智能分期9分类的任务，诊断准确率为50.6％(大于11.12％模型即为有效)；而现有技术仅对单张全视野数字切片的诊断结果进行判断并不能代表一个病例的最终诊断结果：对单张全视野数字切片进行肿瘤智能分期9分类的任务，诊断准确率为37.3％(大于11.12％模型即为有效)；说明本发明准确率提升了26.3％，有益效果明显。

现有关于全视野数字切片的研究主要存在两个问题，1)现有研究多集中于精确标注的病例切片数据，即由人工挑选或精细标注后的病理切片在切成小块后作为输入导入模型；2)模型诊断结果局限于图片级别，而每个病例并不止包含一张切片。这两个问题会导致目前的病例切片智能诊断系统无法直接用于临床病例级别的病理诊断。首先，如果医生可以手动在一个病例数据库中挑选出一张作为代表病人病情的病例切片提供给模型进行诊断，为什么不直接对病人做出诊断而进行这多此一举的一步呢？此外，如果不对一个病例数据库做出挑选将所有病理切片作为单独的输入导入模型，很大可能会对同一个病例做出不同的诊断结果，从而影响模型的诊断效果。

本发明区别于其他研究的关键在于，本发明无需对广泛存在于公共数据库的只具有粗糙标注的全视野数字切片数据进行费时费力的由病理学专家完成的手工精确预处理，仅仅加载一个病例下所有的全视野数字切片及从临床医学报告中摘录的相关任务诊断结果即可完成对一个病例的各类病理诊断任务。

本发明未述及之处适用于现有技术。

Claims

1.一种基于全视野数字切片的病人级别肿瘤智能诊断方法，该方法包括以下步骤：

2.根据权利要求1所述的诊断方法，其特征在于，所述深度学习算法模型采用注意力膨胀卷积神经网络，包括膨胀卷积下采样层、通道位置注意层、膨胀卷积层、分类输出，设置膨胀卷积下采样层和通道位置注意层的深度为N，膨胀卷积层的深度为M，全视野数字切片多通道缩略图输入到膨胀卷积下采样层，经过通道位置注意层输出后，判断是否达到设定深度，若没有达到则继续返回膨胀卷积下采样层，直到达到设定深度为止；在通道位置注意层输出达到设定深度N后，进入膨胀卷积层，膨胀卷积层处理后，判断是否达到膨胀卷积层的设定深度，若没有达到，则返回输入到膨胀卷积层，直到达到膨胀卷积层的设定深度，再经过分类输出获得该种病例对应的诊断结果。

3.根据权利要求1所述的诊断方法，其特征在于，提取的图片文件栈底的彩色图的尺寸大小为(2000～4000)*(4000～2000)，彩色图转化为三通道张量，并将各三通道张量通过双线性插值法缩放为(3，1024，1024)，使各三通道张量具备相同的形状，整理得到尺寸大小一致的同一个病例的所有彩色缩略图。

4.根据权利要求1所述的诊断方法，其特征在于，合并缩略图的方式为拼接、按像素逐点相加、平铺。

5.根据权利要求1所述的诊断方法，其特征在于，加载病例数据时，输入存有待检测病例数据库存储路径的csv文件，按行依次读取各病例数据库路径；对每个病例数据库路径，遍历数据库下所有全视野数字切片路径，并加载各个全视野数字切片。

6.根据权利要求1所述的诊断方法，其特征在于，该方法用于肿瘤分期诊断，肿瘤分期诊断结果共分为九种，依次记为I期、IA期、IA2期、IA3期、IB期、II期、IIA期、IIB期、III期、IIIA期、IV期；分类输出中计算各分期预测试的概率分布：根据9种分期的高维特征计算预测值的概率分布，将概率最高的分期作为肿瘤分期的预测值输出，并获得该病例肿瘤分期的诊断结果。

7.根据权利要求2所述的诊断方法，其特征在于，深度学习算法模型参数设置：膨胀卷积下采样层的(输入通道数，输出通道数)分别为(3*n，32)、(32，64)、(64，128)，其中每个膨胀卷积下采样层均由两个膨胀率分别为1、2的膨胀卷积叠加而成；通道位置注意层的输入通道数分别为32、64、128；膨胀卷积层的(输入通道数，输出通道数)分别为(128，256)、(256，256)、(256，256)、(256，256)，其中每个膨胀卷积层分别由一个膨胀率为1、2、4、8的膨胀卷积叠加而成。

8.根据权利要求1所述的诊断方法，其特征在于，该方法能用于提取缩略图进行全视野数字切片的分类任务的各种诊断中，包括切割小块或者整张图片的阴阳性分类、分期分类、评级分类、TNM分类，还能用于生存率预测、治疗效果预测中。