CN112259223A - 基于全视野数字切片的病人级别肿瘤智能诊断方法 - Google Patents
基于全视野数字切片的病人级别肿瘤智能诊断方法 Download PDFInfo
- Publication number
- CN112259223A CN112259223A CN202011137309.7A CN202011137309A CN112259223A CN 112259223 A CN112259223 A CN 112259223A CN 202011137309 A CN202011137309 A CN 202011137309A CN 112259223 A CN112259223 A CN 112259223A
- Authority
- CN
- China
- Prior art keywords
- full
- case
- stage
- expansion
- thumbnail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 67
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 claims abstract description 23
- 201000010099 disease Diseases 0.000 claims abstract description 19
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 19
- 238000001574 biopsy Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 19
- 230000001575 pathological effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000011282 treatment Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 230000004083 survival effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000002405 diagnostic procedure Methods 0.000 claims 7
- 238000007781 pre-processing Methods 0.000 description 9
- 238000011160 research Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 3
- 230000010339 dilation Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 201000005202 lung cancer Diseases 0.000 description 3
- 208000020816 lung neoplasm Diseases 0.000 description 3
- 238000010827 pathological analysis Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001394 metastastic effect Effects 0.000 description 2
- 206010061289 metastatic neoplasm Diseases 0.000 description 2
- 230000007170 pathology Effects 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000001926 lymphatic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/32—Indexing scheme for image data processing or generation, in general involving image mosaicing
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Image Analysis (AREA)
Abstract
本发明为基于全视野数字切片的病人级别肿瘤智能诊断方法,该方法包括以下步骤:获取某种病症的多个病例数据库,各个病例数据库以每个病人的ID命名文件夹,各病例数据库中存储着所有等待诊断的该病例活检组织切片的多张全视野数字切片及对应的诊断结果;提取每张全视野数字切片的图片文件栈底的最小尺寸的数字切片作为该张全视野数字切片的彩色图,并对该彩色图进行缩放获得的彩色缩略图;将某个病例的所有彩色缩略图按通道合并为一张全视野数字切片多通道缩略图;构建深度学习算法模型;加载当前病种的某个病例的全部全视野数字切片,输出智能诊断结果。本发明实现了对需要大存储量的全视野数字切片的有效利用。
Description
技术领域
本发明涉及基于全视野数字切片的病人级别肿瘤智能诊断方法。
背景技术
全视野数字切片具有数十亿像素点,占用内存过多,计算机处理时会出现内存不足的情况,主流的处理方法为将全视野数字切片切割成若干小块,并将这些小块依次输入算法模型中训练得到相应的结果。在这个过程中会出现三问题。首先,全视野数字切片的数据预处理需要花费大量的时间。将一张切片切为小块大致需要3分钟的时间,切割小块和训练小块占用大量的计算资源。其次,一张全视野数字切片大致能切出280张512*512的组织块图片(剔除空白图块后),而这其中对肿瘤智能诊断提供重要信息的关键组织图块非常少。最后,现有算法均使用单张全视野数字切片切割后的局部组织块进行算法设计,在临床实践中单张全视野数字切片的诊断结果并不能代表一个病例的最终诊断结果。因为,每个病例的活检标本通常会制作2个以上的切片标本,这些切片标本中存在全部为正常组织的切片。在只针对组织图块或全视野数字切片的情况下,很容易对这部分的切片做出“病例健康”的误诊。综上所述,现有技术难以在病例级别进行快速诊断。
发明内容
针对现有技术的不足,本发明的目的是,提供一种基于全视野数字切片的病人级别肿瘤智能诊断方法。
为实现上述目的,本发明的技术方案是:一种基于全视野数字切片的病人级别肿瘤智能诊断方法,该方法包括以下步骤:
加载病例数据:获取某种病症的多个病例数据库,各个病例数据库以每个病人的ID命名文件夹,各病例数据库中存储着所有等待诊断的该病例活检组织切片的多张全视野数字切片及对应的诊断结果;
提取缩略图:全视野数字切片是由不同放大倍率的数字病理切片堆栈形成的后缀名为.wsi格式的图片文件,提取每张全视野数字切片的图片文件栈底的最小尺寸的数字切片作为该张全视野数字切片的彩色图,并对该彩色图进行缩放获得的彩色缩略图;
按通道合并缩略图:将某个病例的所有彩色缩略图按通道合并为一张全视野数字切片多通道缩略图;
构建深度学习算法模型,利用同种病症的多个病例训练深度算法模型,用于对全视野数字切片多通道缩略图进行高维特征提取,根据提取到的特征学习当前病种不同诊断结果之间的异同,输出不同诊断结果对应的高维特征,获得训练好的深度学习算法模型;
加载当前病种的某个病例的全部全视野数字切片,按照上述的提取缩略图、按通道合并缩略图的方式获得当前病例的全视野数字切片多通道缩略图,输入到训练好的深度学习算法模型中,输出智能诊断结果。
与现有技术相比,本发明的有益效果是:
本发明重点保护的是全视野数字切片缩略图在病例级别研究的使用,将全视野数字切片缩略图作为研究对象,进行病理智能诊断,克服了现有技术中病理诊断必先切小块再训练诊断数据处理量大、精度不高的缺点,实现了对需要大存储量的全视野数字切片的有效利用。
本申请对合并的所有全视野数字切片的缩略图同时进行学习,利用深度学习算法模型将病例级别的高维特征提取与高维特征融合,实现病例级别的病理分期诊断。病例级别的诊断需要同时考虑同一病人多张切片的数据,并综合做出诊断结果。本申请提出算法,使用拼接缩略图的方式,在卷积的过程中同时实现了高维特征的提取和相互融合。膨胀卷积方法增大模型的感受野,可以学习更大范围组织间的关系,增强高维特征提取的能力。注意力机制增强重要组织及通道的权重,增加包含肿瘤切片对模型的影响力,加强高维特征融合的针对性。
本发明方法以全新角度的解读医学任务并通过计算机方法填补医学任务空缺,更符合实际临床需求,在不知道哪个切片中存在病变的前提下,能够获得当前病人所处的肿瘤分期,不需要对已有数据库进行特定病种的标记等,减少了人为操作,因此在更符合临床需求的病例级别诊断研究。
附图说明
图1为本发明基于全视野数字切片的病人级别肿瘤智能诊断方法的流程示意图。
具体实施方式
下面结合实施例及附图进一步解释本发明,但并不以此作为对本申请保护范围的限定。
本发明基于全视野数字切片的病人级别肿瘤智能诊断方法,该方法包括以下步骤:
加载病例数据:获取某种病症的多个病例数据库,各个病例数据库以每个病人的ID命名文件夹,各病例数据库中存储着所有等待诊断的该病例活检组织切片的多张全视野数字切片及对应的诊断结果;
提取缩略图:全视野数字切片是由不同放大倍率的数字病理切片堆栈形成的后缀名为.wsi格式的图片文件,提取每张全视野数字切片的图片文件栈底的最小尺寸的数字切片作为该张全视野数字切片的彩色图,并对该彩色图进行缩放获得(3,1024,1024)的彩色缩略图,其中,3表示通道数量,即为红、蓝、绿三通道,(1024,1024)为图片的尺寸,提取的图片文件栈底的彩色图的尺寸大小约为(2000~4000)*(4000~2000);彩色图转化为三通道张量,并将各三通道张量通过双线性插值法缩放为(3,1024,1024),使各三通道张量具备相同的形状,整理得到尺寸大小一致的同一个病例的所有彩色缩略图;
按通道合并缩略图:将某个病例的所有彩色缩略图按通道拼接为1个张量,形状为(3*n,1024,1024),获取全视野数字切片多通道缩略图;n为同一个病例所具有的全视野数字切片的数量,这里合并缩略图的方式可以是拼接,也可以是按照次序依次叠加或进行多张彩色缩略图的融合;
构建深度学习算法模型,利用同种病症的多个病例训练深度算法模型,用于对全视野数字切片多通道缩略图进行高维特征提取,根据提取到的特征学习当前病种不同诊断结果之间的异同,输出不同诊断结果对应的高维特征,获得训练好的深度学习算法模型;
加载当前病种的某个病例的全部全视野数字切片,按照上述的提取缩略图、按通道合并缩略图的方式获得当前病例的全视野数字切片多通道缩略图,输入到训练好的深度学习算法模型中,输出智能诊断结果。
所述深度学习算法模型采用注意力膨胀卷积神经网络,包括膨胀卷积下采样层、通道位置注意层、膨胀卷积层、分类输出,设置膨胀卷积下采样层和通道位置注意层的深度为N,膨胀卷积层的深度为M,全视野数字切片多通道缩略图输入到膨胀卷积下采样层,经过通道位置注意层输出后,判断是否达到设定深度,若没有达到则继续返回膨胀卷积下采样层,直到达到设定深度为止;在通道位置注意层输出达到设定深度N后,进入膨胀卷积层,膨胀卷积层处理后,判断是否达到膨胀卷积层的设定深度,若没有达到,则返回输入到膨胀卷积层,直到达到膨胀卷积层的设定深度,再经过分类输出获得该种病例对应的诊断结果。
本发明中已知某种病对应的各种病例数据库,可认为病例的数量足够多,对病例数据库中的数据进行提取和相应的缩略图、合并缩略图处理后为深度学习算法提供训练样本,获得训练后的深度学习算法模型,提取多通道缩略图张量的高维特征,根据提取到的特征学习当前病种不同诊断结果之间的异同,输出不同诊断结果的高维特征。
加载病例数据时,输入存有待检测病例数据库存储路径的csv文件,按行依次读取各病例数据库路径。对每个病例数据库路径,遍历数据库下所有全视野数字切片路径,并加载各个全视野数字切片。
本发明方法用于肿瘤分期诊断,肿瘤分期诊断结果共分为九种,依次记为I期、IA期、IA2期、IA3期、IB期、II期、IIA期、IIB期、III期、IIIA期、IV期。病理分期是一个多分类任务,具体分期自9至15种类别不等(每个疾病都不太相同,大致有0期,I期、IA期、IB期、IC期、II期、IIA期、IIB期、IIC期、III期、IIIA期、IIIB期、IV期、IVA期、IVB期),假设随机猜类别,那么猜对的概率在6.7%~11.1%。类别越多,其分类的难度越大。本申请分类输出中计算各分期预测试的概率分布:根据9种分期的高维特征计算预测值的概率分布,将概率最高的分期作为肿瘤分期的预测值输出,并获得该病例肿瘤分期的诊断结果,准确率较高。
深度学习算法模型参数设置:膨胀卷积下采样层的(输入通道数,输出通道数)分别为(3*n,32)、(32,64)、(64,128),其中每个膨胀卷积下采样层均由两个膨胀率分别为1、2的膨胀卷积叠加而成;通道位置注意层的输入通道数分别为32、64、128,提升重要通道及位置特征的权重;膨胀卷积层的(输入通道数,输出通道数)分别为(128,256)、(256,256)、(256,256)、(256,256),其中每个膨胀卷积层分别由一个膨胀率为1、2、4、8的膨胀卷积叠加而成。
n就是一个病人有n张切片,这n个切片转化为n个三维张量,一个合并的n个三维张量用3*n表示,该膨胀卷积下采样层的输入就是通道数,先输入3*n个通道的张量,卷积成32通道的张量;再把通道为32的这个张量输入下一个循环的膨胀卷积下采样层,输出64个通道的张量;这个张量再输入下一个循环的膨胀卷积下采样层,输出128个通道的张量。(3*n,32)、(32,64)、(64,128)这三个是每次循环的时候膨胀卷积下采样层模型的通道参数设置,同理膨胀卷积层的循环过程一样。
本申请的病例级别是指同一个病人在一次活检中产生的多张切片,即一块组织切下来以后,按照固定厚度切成薄片,每一个或几个薄片(视其面积大小能否平铺一个载玻片决定)制作一个切片。因此每个病人会产生至少一张切片,且并不是所有的切片都包括肿瘤病灶,包括肿瘤病灶的切片也不是每个部分都有肿瘤组织,即不是每个小块都包含肿瘤组织,病灶组织在病理切片中占比非常小,按照现有的方式按照切小块的形式选择关键块确定诊断结果,其准确性较低,数据处理量大。本专利利用全视野数字切片缩略图的方式,使其仅提取全视野数字切片的对应缩略图即可,提取时间短、且同时对所有的全视野数字切片进行缩略图提取并合并,使其检测结果精度大大提高。
本发明方法能用于提取缩略图进行全视野数字切片的分类任务的各种诊断中,(例如切割小块或者整张图片的阴阳性分类(有无肿瘤,此时只要在加载病例数据时提取病例所对应的有无肿瘤两种分类结果作为输出即可)、分期分类、评级分类、TNM分类(根据临床对病理进行分类)等;不同的分类任务对应的分类输出中分类的数量是不同的,如阴阳性分类时输出为二分类,分期分类时输出为九种分类等)。
本发明在数据预处理时可以通过提取不同类型标注实现关于全视野数字切片的不同任务。例如1)阴阳性分类任务:数据预处理时使用同一病例若干张全视野数字切片作为训练数据,提取该病例临床医学报告中是否患有肿瘤的诊断结果作为阴阳性二分类的标注;2)TNM等分期任务:数据预处理时使用同一病例若干张全视野数字切片作为训练数据,提取该病例临床医学报告中T分期(肿瘤原发性分期)或N分期(淋巴转移性分期)或M分期(远端转移性分期)的诊断结果作为各分期任务的多分类标注;3)评级分类任务:数据预处理时使用同一病例若干张全视野数字切片作为训练数据,提取该病例临床医学报告中肿瘤级别的诊断结果作为评级多分类任务的标注;4)生存率预测任务:数据预处理时使用同一病例若干张全视野数字切片作为训练数据,提取该病例临床医学报告中12个月生存情况或24个月生存情况等诊断结果作为各阶段生存率预测的二分类标注;5)治疗效果预测任务:数据预处理时使用同一病例若干张全视野数字切片作为训练数据,提取该病例临床医学报告中手术治疗或放射治疗或化学治疗或综合治疗或分子治疗等治疗恢复结果作为各疗法效果预测的标注。
本发明中对缩略图的提取及合并的方式还可以采用改变缩略图的大小、替换缩放缩略图的插值方法、改变通道数、缩略图拼接方式(例如按像素逐点相加,平铺等)等实现。根据不同的病种也可以对深度学习算法模型中的神经网络增减卷积层个数、增减膨胀率等。
实施例1
本实施例针对肺癌数据库中的全视野数字切片进行智能分期诊断,肺癌数据库是一个由225个病例组成的肺癌数据库,共有1071张全视野数字切片,其中683张全视野数字切片为阳性、388张全视野数字切片为阴性即不包含肿瘤组织,全部全视野数字切片切成小块共161973张占92.2Gb内存,全部全视野数字切片提取缩略图共1071张占6.3Gb内存。
以下详细说明各步骤详情及模型参数设置。
步骤一,加载病例数据:遍历病例路径下所有后缀名为.wsi格式的文件。
用python语言里的os库遍历所有病例的数据库,获取病例的存储路径。使用sklearn库将225名病例划分为训练数据集、验证数据集、测试数据集,比例为7:1:2。其中训练数据集用于预训练深度学习算法模型,验证集用于验证模型效果,选出验证效果准确率最高的模型参数作为模型的最终参数。测试集即最终用来诊断,证明模型结果的数据。最后使用pandas库将划分好的训练数据集路径及标签、验证数据集路径及标签、测试数据集路径保存为后缀为.csv的文件。在模型预训练过后,使用csv库每次读取一个病例下所有后缀名为.wsi格式的全视野数字切片路径。
步骤二,提取缩略图:分别将各全视野数字切片,根据数据堆栈底部最小图层提取彩色图,并对该彩色图进行缩放获得(3,1024,1024)的彩色缩略图。
用python语言里的pydicom库提取缩略图。切小块更花时间,提缩略图快,计算用时减少了82%。但是缩略图会损失原图的信息量。所以通过合并多张图片输入深度学习网络提取高维特征并融合高维特征进行诊断以弥补信息量缺失的问题。
分别将同一病例的后缀名为.wsi的各全视野数字切片,使用python的pydicom库提取全视野数字切片在若干放大倍率下的像素值堆栈矩阵。根据数据堆栈底部最小图层提取缩略图张量并使用PIL库中的Image库将其缩放为形如(3,1024,1024)的缩略图张量。
步骤三,按通道合并缩略图:将三维张量在通道维度使用python矩阵操作concat拼接为全视野数字切片多通道缩略图,按照通道拼接为形如(3*n,1024,1024)的多通道缩略图张量。此发明中n取8(即该数据库中单个病例拥有的最大全视野数字切片数目),不足8张的病例,通过PIL库中的Image库对该病例下随机某几张全视野数字切片三维张量进行翻转、旋转等数据增强操作扩充为8张。
步骤四,构建深度学习算法模型,为注意力膨胀卷积神经网络:首先,通过膨胀卷积下采样层和通道位置注意层将输入的多通道缩略图张量在三次循环中升至128维,输出形为(b,128,128,128)的张量,b为每批处理的个数。其次通过膨胀卷积层将输入的高维张量进一步升维,输出形为(b,256,128,128)的高维特征。
本实施例中设定深度N=3、M=4。膨胀卷积下采样层+通道位置注意层循环3次,每次参数分别为膨胀卷积下采样层:(3*n,32)、(32,64)、(64,128),膨胀率为1,2(一个膨胀卷积下采样层由膨胀率为1和膨胀率为2的卷积叠加而成);通道位置注意层:32、64、128。之后在膨胀卷积层循环4次,每次参数(128,256)、(256,256)、(256,256)、(256,256)且膨胀率为1,2,4,8。
计算各分期预测值的概率分布:利用上述输出的高维特征通过softmax算法计算各分类预测为某类分期时模型的置信度,置信度在0、1之间,选置信度最高的诊断结果为最终的诊断结果。
本实施例中提取一张全视野数字切片的缩略图用时大致0.7秒钟,全视野数字切片提取缩略图的数据预处理过程总计用时12分钟,而现有的切小块方式需要花费大量的时间,切小块总计用时31个小时;本发明预处理用时减少了99.4%,有益效果明显。
本发明提取缩略图完成一轮诊断总共用时10分35秒(其中预训练用时8分27秒、诊断用时2分8秒),而现有切割小块和训练小块占用大量的计算资源:切小块完成一轮诊断总共用时54分20秒285毫秒(其中预训练用时49分8秒285毫秒、诊断用时5分12秒);本发明计算用时减少了82%,有益效果明显。
本发明以病例为单位对全视野数字切片组进行肿瘤智能分期9分类的任务,诊断准确率为50.6%(大于11.12%模型即为有效);而现有技术仅对单张全视野数字切片的诊断结果进行判断并不能代表一个病例的最终诊断结果:对单张全视野数字切片进行肿瘤智能分期9分类的任务,诊断准确率为37.3%(大于11.12%模型即为有效);说明本发明准确率提升了26.3%,有益效果明显。
现有关于全视野数字切片的研究主要存在两个问题,1)现有研究多集中于精确标注的病例切片数据,即由人工挑选或精细标注后的病理切片在切成小块后作为输入导入模型;2)模型诊断结果局限于图片级别,而每个病例并不止包含一张切片。这两个问题会导致目前的病例切片智能诊断系统无法直接用于临床病例级别的病理诊断。首先,如果医生可以手动在一个病例数据库中挑选出一张作为代表病人病情的病例切片提供给模型进行诊断,为什么不直接对病人做出诊断而进行这多此一举的一步呢?此外,如果不对一个病例数据库做出挑选将所有病理切片作为单独的输入导入模型,很大可能会对同一个病例做出不同的诊断结果,从而影响模型的诊断效果。
本发明区别于其他研究的关键在于,本发明无需对广泛存在于公共数据库的只具有粗糙标注的全视野数字切片数据进行费时费力的由病理学专家完成的手工精确预处理,仅仅加载一个病例下所有的全视野数字切片及从临床医学报告中摘录的相关任务诊断结果即可完成对一个病例的各类病理诊断任务。
本发明未述及之处适用于现有技术。
Claims (8)
1.一种基于全视野数字切片的病人级别肿瘤智能诊断方法,该方法包括以下步骤:
加载病例数据:获取某种病症的多个病例数据库,各个病例数据库以每个病人的ID命名文件夹,各病例数据库中存储着所有等待诊断的该病例活检组织切片的多张全视野数字切片及对应的诊断结果;
提取缩略图:全视野数字切片是由不同放大倍率的数字病理切片堆栈形成的后缀名为.wsi格式的图片文件,提取每张全视野数字切片的图片文件栈底的最小尺寸的数字切片作为该张全视野数字切片的彩色图,并对该彩色图进行缩放获得的彩色缩略图;
按通道合并缩略图:将某个病例的所有彩色缩略图按通道合并为一张全视野数字切片多通道缩略图;
构建深度学习算法模型,利用同种病症的多个病例训练深度算法模型,用于对全视野数字切片多通道缩略图进行高维特征提取,根据提取到的特征学习当前病种不同诊断结果之间的异同,输出不同诊断结果对应的高维特征,获得训练好的深度学习算法模型;
加载当前病种的某个病例的全部全视野数字切片,按照上述的提取缩略图、按通道合并缩略图的方式获得当前病例的全视野数字切片多通道缩略图,输入到训练好的深度学习算法模型中,输出智能诊断结果。
2.根据权利要求1所述的诊断方法,其特征在于,所述深度学习算法模型采用注意力膨胀卷积神经网络,包括膨胀卷积下采样层、通道位置注意层、膨胀卷积层、分类输出,设置膨胀卷积下采样层和通道位置注意层的深度为N,膨胀卷积层的深度为M,全视野数字切片多通道缩略图输入到膨胀卷积下采样层,经过通道位置注意层输出后,判断是否达到设定深度,若没有达到则继续返回膨胀卷积下采样层,直到达到设定深度为止;在通道位置注意层输出达到设定深度N后,进入膨胀卷积层,膨胀卷积层处理后,判断是否达到膨胀卷积层的设定深度,若没有达到,则返回输入到膨胀卷积层,直到达到膨胀卷积层的设定深度,再经过分类输出获得该种病例对应的诊断结果。
3.根据权利要求1所述的诊断方法,其特征在于,提取的图片文件栈底的彩色图的尺寸大小为(2000~4000)*(4000~2000),彩色图转化为三通道张量,并将各三通道张量通过双线性插值法缩放为(3,1024,1024),使各三通道张量具备相同的形状,整理得到尺寸大小一致的同一个病例的所有彩色缩略图。
4.根据权利要求1所述的诊断方法,其特征在于,合并缩略图的方式为拼接、按像素逐点相加、平铺。
5.根据权利要求1所述的诊断方法,其特征在于,加载病例数据时,输入存有待检测病例数据库存储路径的csv文件,按行依次读取各病例数据库路径;对每个病例数据库路径,遍历数据库下所有全视野数字切片路径,并加载各个全视野数字切片。
6.根据权利要求1所述的诊断方法,其特征在于,该方法用于肿瘤分期诊断,肿瘤分期诊断结果共分为九种,依次记为I期、IA期、IA2期、IA3期、IB期、II期、IIA期、IIB期、III期、IIIA期、IV期;分类输出中计算各分期预测试的概率分布:根据9种分期的高维特征计算预测值的概率分布,将概率最高的分期作为肿瘤分期的预测值输出,并获得该病例肿瘤分期的诊断结果。
7.根据权利要求2所述的诊断方法,其特征在于,深度学习算法模型参数设置:膨胀卷积下采样层的(输入通道数,输出通道数)分别为(3*n,32)、(32,64)、(64,128),其中每个膨胀卷积下采样层均由两个膨胀率分别为1、2的膨胀卷积叠加而成;通道位置注意层的输入通道数分别为32、64、128;膨胀卷积层的(输入通道数,输出通道数)分别为(128,256)、(256,256)、(256,256)、(256,256),其中每个膨胀卷积层分别由一个膨胀率为1、2、4、8的膨胀卷积叠加而成。
8.根据权利要求1所述的诊断方法,其特征在于,该方法能用于提取缩略图进行全视野数字切片的分类任务的各种诊断中,包括切割小块或者整张图片的阴阳性分类、分期分类、评级分类、TNM分类,还能用于生存率预测、治疗效果预测中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011137309.7A CN112259223B (zh) | 2020-10-22 | 2020-10-22 | 基于全视野数字切片的病人级别肿瘤智能诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011137309.7A CN112259223B (zh) | 2020-10-22 | 2020-10-22 | 基于全视野数字切片的病人级别肿瘤智能诊断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112259223A true CN112259223A (zh) | 2021-01-22 |
CN112259223B CN112259223B (zh) | 2022-08-30 |
Family
ID=74263487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011137309.7A Active CN112259223B (zh) | 2020-10-22 | 2020-10-22 | 基于全视野数字切片的病人级别肿瘤智能诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112259223B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082743A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 考虑肿瘤微环境的全视野数字病理图像分类系统及构建方法 |
CN115330740A (zh) * | 2022-08-22 | 2022-11-11 | 河海大学 | 一种基于mdcn的轻量化裂缝识别方法 |
CN116230208A (zh) * | 2023-02-15 | 2023-06-06 | 北京透彻未来科技有限公司 | 基于深度学习的胃粘膜炎症分型辅助诊断系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293941A1 (en) * | 2012-10-23 | 2015-10-15 | Leica Biosystems Imaging, Inc. | Systems and methods for an image repository for pathology |
CN105357304A (zh) * | 2015-11-16 | 2016-02-24 | 广州华银医学检验中心有限公司 | 远程病理诊断切片数字图像处理及传输技术 |
CN105574148A (zh) * | 2015-12-16 | 2016-05-11 | 麦克奥迪(厦门)医疗诊断系统有限公司 | 一种数字切片存储系统和数字切片浏览方法 |
CN108288506A (zh) * | 2018-01-23 | 2018-07-17 | 雨声智能科技(上海)有限公司 | 一种基于人工智能技术的癌症病理辅助诊断方法 |
JP2019097961A (ja) * | 2017-12-05 | 2019-06-24 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置、及びプログラム |
CN110060245A (zh) * | 2019-04-15 | 2019-07-26 | 青岛大学 | 一种基于深度神经网络的胃癌淋巴结染色病理图像自动识别方法 |
CN110276761A (zh) * | 2019-06-18 | 2019-09-24 | 福州数据技术研究院有限公司 | 一种基于otsu阈值的肝部组织病理图像分割方法 |
CN110763677A (zh) * | 2019-09-12 | 2020-02-07 | 杭州迪英加科技有限公司 | 甲状腺冰冻切片诊断方法及系统 |
CN110837736A (zh) * | 2019-11-01 | 2020-02-25 | 浙江大学 | 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法 |
WO2020193651A1 (en) * | 2019-03-26 | 2020-10-01 | Panakeia Technologies Limited | A method of processing an image of tissue, a system for processing an image of tissue, a method for disease diagnosis and a disease diagnosis system |
-
2020
- 2020-10-22 CN CN202011137309.7A patent/CN112259223B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293941A1 (en) * | 2012-10-23 | 2015-10-15 | Leica Biosystems Imaging, Inc. | Systems and methods for an image repository for pathology |
CN105357304A (zh) * | 2015-11-16 | 2016-02-24 | 广州华银医学检验中心有限公司 | 远程病理诊断切片数字图像处理及传输技术 |
CN105574148A (zh) * | 2015-12-16 | 2016-05-11 | 麦克奥迪(厦门)医疗诊断系统有限公司 | 一种数字切片存储系统和数字切片浏览方法 |
JP2019097961A (ja) * | 2017-12-05 | 2019-06-24 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置、及びプログラム |
CN108288506A (zh) * | 2018-01-23 | 2018-07-17 | 雨声智能科技(上海)有限公司 | 一种基于人工智能技术的癌症病理辅助诊断方法 |
WO2020193651A1 (en) * | 2019-03-26 | 2020-10-01 | Panakeia Technologies Limited | A method of processing an image of tissue, a system for processing an image of tissue, a method for disease diagnosis and a disease diagnosis system |
CN110060245A (zh) * | 2019-04-15 | 2019-07-26 | 青岛大学 | 一种基于深度神经网络的胃癌淋巴结染色病理图像自动识别方法 |
CN110276761A (zh) * | 2019-06-18 | 2019-09-24 | 福州数据技术研究院有限公司 | 一种基于otsu阈值的肝部组织病理图像分割方法 |
CN110763677A (zh) * | 2019-09-12 | 2020-02-07 | 杭州迪英加科技有限公司 | 甲状腺冰冻切片诊断方法及系统 |
CN110837736A (zh) * | 2019-11-01 | 2020-02-25 | 浙江大学 | 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
LEI WANG, ETC.: ""Tumor Segmentation Based on Deeply Supervised Multi-Scale U-Net"", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082743A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 考虑肿瘤微环境的全视野数字病理图像分类系统及构建方法 |
CN115082743B (zh) * | 2022-08-16 | 2022-12-06 | 之江实验室 | 考虑肿瘤微环境的全视野数字病理图像分类系统及构建方法 |
CN115330740A (zh) * | 2022-08-22 | 2022-11-11 | 河海大学 | 一种基于mdcn的轻量化裂缝识别方法 |
CN115330740B (zh) * | 2022-08-22 | 2023-08-08 | 河海大学 | 一种基于mdcn的轻量化裂缝识别方法 |
CN116230208A (zh) * | 2023-02-15 | 2023-06-06 | 北京透彻未来科技有限公司 | 基于深度学习的胃粘膜炎症分型辅助诊断系统 |
CN116230208B (zh) * | 2023-02-15 | 2023-09-19 | 北京透彻未来科技有限公司 | 基于深度学习的胃粘膜炎症分型辅助诊断系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112259223B (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112259223B (zh) | 基于全视野数字切片的病人级别肿瘤智能诊断方法 | |
CN108492297B (zh) | 基于深度级联卷积网络的mri脑肿瘤定位与瘤内分割方法 | |
CN112785592A (zh) | 基于多重扩张路径的医学影像深度分割网络 | |
CN110889852A (zh) | 基于残差-注意力深度神经网络的肝脏分割方法 | |
CN112508953B (zh) | 基于深度神经网络的脑膜瘤快速分割定性方法 | |
CN116580394A (zh) | 一种基于多尺度融合和可变形自注意力的白细胞检测方法 | |
CN114332572B (zh) | 基于显著图引导分层密集特征融合网络用于提取乳腺病变超声图像多尺度融合特征参数方法 | |
CN113052228A (zh) | 一种基于SE-Inception的肝癌病理切片分类方法 | |
CN115471448A (zh) | 基于人工智能的胸腺瘤组织病理的分型方法及装置 | |
CN114600155A (zh) | 用于细胞检测和分割的弱监督多任务学习 | |
CN115546605A (zh) | 一种基于图像标注和分割模型的训练方法及装置 | |
CN112348839A (zh) | 一种基于深度学习的图像分割方法及系统 | |
CN111899259A (zh) | 一种基于卷积神经网络的前列腺癌组织微阵列分级方法 | |
CN114445356A (zh) | 基于多分辨率的全视野病理切片图像肿瘤快速定位方法 | |
CN111951271B (zh) | 一种识别病理图像中癌细胞的方法及装置 | |
CN116664590B (zh) | 基于动态对比增强磁共振图像的自动分割方法及装置 | |
CN117095173A (zh) | 一种结直肠癌h&e染色病理图像语义分割方法及系统 | |
CN115239613B (zh) | 基于集成深度学习的全视野数字切片图像分类建模方法及装置 | |
CN116486156A (zh) | 融合多尺度特征上下文的全视野数字切片图像分类方法 | |
CN116843974A (zh) | 基于残差神经网络的乳腺癌病理图像分类方法 | |
Aglibot et al. | Urine crystal classification using convolutional neural networks | |
CN111783571A (zh) | 一种宫颈细胞自动分类模型建立及宫颈细胞自动分类方法 | |
CN112151175A (zh) | 一种基于影像学数据的计算机辅助多人决策方法、系统及设备 | |
Roobini et al. | Comparative Analysis of CNN and Different R-CNN based Model for Prediction of Alzheimer’s Disease | |
CN118115787B (zh) | 一种基于图神经网络的全切片病理图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |