CN112419253A - 数字病理图像分析方法、系统、设备及存储介质 - Google Patents
数字病理图像分析方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN112419253A CN112419253A CN202011279541.4A CN202011279541A CN112419253A CN 112419253 A CN112419253 A CN 112419253A CN 202011279541 A CN202011279541 A CN 202011279541A CN 112419253 A CN112419253 A CN 112419253A
- Authority
- CN
- China
- Prior art keywords
- interest
- region
- sliding window
- block
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001575 pathological effect Effects 0.000 title claims abstract description 66
- 238000003703 image analysis method Methods 0.000 title claims abstract description 21
- 230000007170 pathology Effects 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000010191 image analysis Methods 0.000 claims abstract description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000000126 substance Substances 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 210000001519 tissue Anatomy 0.000 description 17
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 9
- 201000005202 lung cancer Diseases 0.000 description 9
- 208000020816 lung neoplasm Diseases 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 210000004072 lung Anatomy 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000002055 immunohistochemical effect Effects 0.000 description 3
- 238000010827 pathological analysis Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 2
- 206010041067 Small cell lung cancer Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013401 experimental design Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 208000000587 small cell lung carcinoma Diseases 0.000 description 2
- 206010041823 squamous cell carcinoma Diseases 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 206010035664 Pneumonia Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 241000124033 Salix Species 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000023367 bronchiolitis obliterans with obstructive pulmonary disease Diseases 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012407 engineering method Methods 0.000 description 1
- 238000002546 full scan Methods 0.000 description 1
- ZZUFCTLCJUWOSV-UHFFFAOYSA-N furosemide Chemical compound C1=C(Cl)C(S(=O)(=O)N)=CC(C(O)=O)=C1NCC1=CC=CO1 ZZUFCTLCJUWOSV-UHFFFAOYSA-N 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000003364 immunohistochemistry Methods 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 238000003771 laboratory diagnosis Methods 0.000 description 1
- 201000005249 lung adenocarcinoma Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011242 molecular targeted therapy Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 208000008128 pulmonary tuberculosis Diseases 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20004—Adaptive image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30061—Lung
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种数字病理图像分析方法,包括:获取数字病理图像;从所述数字病理图像中提取感兴趣区域;根据所述感兴趣区域构建自适应的滑动窗口,并通过所述滑动窗口从所述感兴趣区域中截取兴趣块;对所述兴趣块进行过滤处理;将所述兴趣块输入病理模型以进行分析处理。本发明还公开了一种数字病理图像分析系统,一种计算机设备及一种计算机可读存储介质。采用本发明,可对病理图像进行预处理,有效提升人工智能算法的分类准确度,适用性更广、容错性更高、处理难度更低。
Description
技术领域
本发明涉及形态学图像处理技术领域,尤其涉及一种数字病理图像分析方法、一种数字病理图像分析系统、一种计算机设备及一种计算机可读存储介质。
背景技术
肺癌的发病率仅次于前列腺癌(男性)和乳腺癌(女性),而致死率居癌症之首,虽然癌症整体死亡率呈现逐年下降的趋势,但肺癌具有早期症状不明显、高异质性与受环境暴露及生活习惯影响(吸烟)等特点,因而发病率高,且易漏诊或错诊而导致预后较差。目前,低剂量计算机断层扫描(low-dose computerized tomography,LDCT)是肺癌筛查的主要方法,但假阳性过高(26%~58%)的问题使其无法作为肺癌确诊的依据。病理学诊断是肺癌诊断的金标准,而随着免疫治疗和分子靶向疗法等新生肿瘤技术的快速发展,引入免疫组化和基因检测技术来提升肺癌分型的准确度,更能适应肺癌个性化治疗的需求。数字切片扫描仪的诞生是病理学发展的里程碑,传统玻片的数字化使得病理诊断的智能化成为可能,但亿级像素的超高分辨率图像构成了算法与数据之间的无形阻碍,如何预处理与后处理数字病理切片,使其能够被人工智能算法所使用,达到提升诊断精度的目的,是本发明主要解决的问题。
目前,针对分类任务,数字切片预处理的大体思路是一致的,即抽取金字塔结构的全扫描数字病理图像(WSI)的某一层(layer),提取感兴趣的区域(Region of Interest,ROI),将其切分成小块(tile)来预测;后处理的思路是将小块层级的预测结果整合为切片层级的预测结果。虽然整体思路一致,但具体的技术路线和参数设置各有不同,而这种差别在一定程度上影响人工智能算法的预测结果。
具体地,现有的预处理技术方案包括:
1、ROI区域切分成一定程度上重叠的tiles:滑动窗口的步长是根据横向或纵向相邻的两个tiles之间的重叠程度来设定,具体地,s=l·(1-p),其中,s为步长,l为滑窗(正方形)的边长,p为tile重叠程度且p的取值范围是0~1。
2、ROI区域切分成互不重叠的tiles:首先,设定tile的大小(比如256×256像素),然后使用滑动窗口法(slidingwindow)遍历ROI区域来提取tiles,滑动窗口的尺寸和步长均等于tile的大小,该方案是方案1的特殊情况,即s=l。但是,固定步长的方法无法适应切片尺寸或ROI区域大小的差异,一个大标本(原始尺寸或ROI区域较大的切片)可生成103~105个tiles,信息过于冗余,引入过多噪声或导致过拟合问题,影响分类性能;而一个小标本(原始尺寸或ROI区域较小的切片)可能仅仅生成1~103个tiles,以致信息丰度不足;同时,小标本的重要性往往不亚于大标本,且在人工智能的病理学应用场景中占有特殊地位,tile量级的差距很可能导致或加剧类别失衡问题,降低少数类的预测精度。
3、ROI区域内随机截取tiles:在ROI区域内随机选取若干个点作为tile顶点(左上角顶点),提取tiles。但是,随机截取tiles具有不可控性,可能造成信息冗余或遗失,失去了精确刻画ROI边界的意义。
由上可知,现有的预处理技术方案未能满足实际应用,仍有待改进。
发明内容
本发明所要解决的技术问题在于,提供一种数字病理图像分析方法、系统、计算机设备及计算机可读存储介质,可对病理图像进行预处理,有效提升人工智能算法的分类准确度。
为了解决上述技术问题,本发明提供了一种数字病理图像分析方法,包括:获取数字病理图像;从所述数字病理图像中提取感兴趣区域;根据所述感兴趣区域构建自适应的滑动窗口,并通过所述滑动窗口从所述感兴趣区域中截取兴趣块;对所述兴趣块进行过滤处理;将所述兴趣块输入病理模型以进行分析处理。
作为上述方案的改进,所述根据感兴趣区域构建自适应的滑动窗口并通过滑动窗口从感兴趣区域中截取兴趣块的步骤包括:判断所述感兴趣区域的最小外接矩形的边长是否小于滑动窗口的边长,判断为是时,则删除所述感兴趣区域,判断为否时,则保留所述感兴趣区域;根据所述感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定所述感兴趣区域对应的滑动窗口的滑动步长;根据所述滑动窗口的边长及滑动步长,采用所述滑动窗口法遍历所述感兴趣区域以提取兴趣块。
作为上述方案的改进,所述根据感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定感兴趣区域对应的滑动窗口的滑动步长的步骤包括:计算总体感兴趣区域的数量N,其中,N=N1+N2+…Ni+…+Nk,i∈(1,2,…,k),Ni为每个类别的感兴趣区域数量,k为类别数量;计算各感兴趣区域的面积sj,其中,sj=wj·hj,wj为第j个感兴趣区域的最小外接矩的宽,hj为第j个感兴趣区域的最小外接矩的高;计算各类别感兴趣区域的面积均值其中,计算各类别感兴趣区域的面积均值与总体感兴趣区域平均面积的组间系数ωi,其中,计算各感兴趣区域的面积sj与各类别感兴趣区域的面积均值的组内系数ωj,其中,根据所述组间系数ωi、组内系数ωj及初始化滑动步长l0,计算第j个感兴趣区域对应的滑动窗口的滑动步长lj,其中,lj=ωi·ωj·l0。
作为上述方案的改进,所述对兴趣块进行过滤处理的步骤包括:采用阈值算法分别计算每个兴趣块的病理组织覆盖比;判断所述兴趣块的病理组织覆盖比是否低于预设阈值,判断为是时,则删除所述兴趣块,判断为否时,则保留所述兴趣块。
作为上述方案的改进,所述从数字病理图像中提取感兴趣区域的步骤包括:针对无注释的数字病理图像,将组织覆盖的区域提取为感兴趣区域;针对带注释的数字病理图像,根据注释文件提取感兴趣区域。
相应地,本发明还提供了一种数字病理图像分析系统,包括:获取模块,用于获取数字病理图像;提取模块,用于从所述数字病理图像中提取感兴趣区域;截取模块,用于根据所述感兴趣区域构建自适应的滑动窗口,并通过所述滑动窗口从所述感兴趣区域中截取兴趣块;过滤模块,用于对所述兴趣块进行过滤处理;分析模块,用于将所述兴趣块输入病理模型以进行分析处理。
作为上述方案的改进,所述截取模块包括:区域过滤单元,用于判断所述感兴趣区域的最小外接矩形的边长是否小于滑动窗口的边长,判断为是时,则删除所述感兴趣区域,判断为否时,则保留所述感兴趣区域;自适应单元,用于根据所述感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定所述感兴趣区域对应的滑动窗口的滑动步长;切分单元,用于根据所述滑动窗口的边长及滑动步长,采用所述滑动窗口法遍历所述感兴趣区域以提取兴趣块。
作为上述方案的改进,所述自适应单元包括:区域计算子单元,用于计算总体感兴趣区域的数量N,其中,N=N1+N2+…Ni+…+Nk,i∈(1,2,…,k),Ni为每个类别的感兴趣区域数量,k为类别数量;面积计算子单元,用于计算各感兴趣区域的面积sj,其中,sj=wj·hj,wj为第j个感兴趣区域的最小外接矩的宽,hj为第j个感兴趣区域的最小外接矩的高;均值计算子单元,用于计算各类别感兴趣区域的面积均值其中,组间系数计算子单元,用于计算各类别感兴趣区域的面积均值与总体感兴趣区域平均面积的组间系数ωi,其中,组内系数计算子单元,用于计算各感兴趣区域的面积sj与各类别感兴趣区域的面积均值的组内系数ωj,其中,步长计算子单元,用于根据所述组间系数ωi、组内系数ωj及初始化滑动步长l0,计算第j个感兴趣区域对应的滑动窗口的滑动步长lj,其中,lj=ωi·ωj·l0。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述数字病理图像分析方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数字病理图像分析方法的步骤。
实施本发明,具有如下有益效果:
本发明数字病理图像分析方法中创造性地采用自适应性的滑动窗口提取感兴趣区域的兴趣块,其中,所述自适应的滑动窗口的步长可根据感兴趣区域的实际情况进行调节,能够保证信息的丰度,从而控制冗余度。
具体地,自适应性体现在以下两个方面:(1)考虑组间感兴趣区域面积和数量的差异,为滑动窗口的滑动步长设计组间系数;(2)考虑组内各感兴趣区域面积的差异,为每个感兴趣区域设计滑窗步长的组内系数。因此,本发明在提取兴趣块的过程中,需要同时考虑组内和组间差异,从而合理设计滑动窗口的滑动步长,既避免了珍稀样本的信息丢失,又削弱了大样本的信息冗余,合理规避类别失衡问题,利于后期分析处理过程中的模型训练和优化。
附图说明
图1是本发明数字病理图像分析方法的第一实施例流程图;
图2是本发明数字病理图像分析方法的第二实施例流程图;
图3是本发明中数字病理图像的示意图;
图4是本发明数字病理图像分析系统的结构示意图;
图5是本发明中截取模块的结构示意图;
图6是本发明中自适应单元的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述。
参见图1,图1显示了本发明数字病理图像分析方法的第一实施例流程图,其包括:
S101,获取数字病理图像。
所述数字病理图像需由病理医生进行初步处理后,再输入数字病理图像分析系统。
S102,从数字病理图像中提取感兴趣区域。
具体地,所述从数字病理图像中提取感兴趣区域的方法包括:
(1)针对无注释的数字病理图像,将组织覆盖的区域提取为感兴趣区域;
(2)针对带注释的数字病理图像,根据注释文件提取感兴趣区域。
需要说明的是,对于肺癌分类问题,类标签为“正常(Normal Lung,NL)”的数字病理图像,是不需要病理医生额外添加注释的,因此,针对无注释的数字病理图像(即类标签为“正常”的数字病理图像),所有组织覆盖的区域均属于感兴趣区域;而其他类的切片,则需病理医生添加注释,再根据注释文件来提取感兴趣区域。其中,所述注释文件中记录了数字病理图像中感兴趣区域的类别,所述类别包括肺腺癌、肺鳞癌、小细胞肺癌、肺结核、机化性肺炎、正常肺等,但不以此为限制。
S103,根据感兴趣区域构建自适应的滑动窗口,并通过滑动窗口从感兴趣区域中截取兴趣块。
现有技术中,通常采用滑动步长固定的滑动窗口对感兴趣区域进行切分。与现有技术不同的是,本发明中,采用自适应性的滑动窗口提取感兴趣区域的兴趣块。其中,所述自适应的滑动窗口是指,滑动窗口的步长可根据感兴趣区域的实际情况进行调节,能够保证信息的丰度,从而控制冗余度。
例如,可根据感兴趣区域的大小和数量来调整滑动窗口的滑动步长,从而使得兴趣块的截取不受感兴趣区域面积大小或数量多少的影响。
S104,对兴趣块进行过滤处理。
需要说明的是,不同的兴趣块中所记录的信息量不同,为了提高效率,在对兴趣块进行分析处理前,需过滤掉信息量较小的兴趣块。具体地,所述对兴趣块进行过滤处理的步骤包括:
(1)采用阈值算法分别计算每个兴趣块的病理组织覆盖比。
具体地,可采用QTSU法(大津阈值分割法)来判断每个兴趣块的病理组织覆盖比,但不以此为限制,只要可实现覆盖比的计算即可。
(2)判断所述兴趣块的病理组织覆盖比是否低于预设阈值,判断为是时,则删除所述兴趣块,判断为否时,则保留所述兴趣块。
需要说明的是,所述预设阈值可根据实际需求进行设置。针对后续用于训练和验证病理模型的训练集和验证集,所述预设阈值可设为0.5;而针对后续用于测试病理模块的测试集,所述预设阈值可设为0.1。
S105,将兴趣块输入病理模型以进行分析处理。
在实际应用中,可将兴趣块输入病理模型以对病理模型进行训练、测试和验证,从而实现对兴趣块的有效分析。其中,所述病理模型可由技术人员根据实际情况进行构建,本发明中不作限定,而本发明仅对输入的病理图像进行预处理,以使病理模型能获得更为优质、有效、针对性强的训练集、测试集和验证集。
因此,通过本发明可有效提升人工智能算法的分类准确度,适用性更广、容错性更高、处理难度更低且更贴合临床实际,使科研人员不必在图像处理环节过度消耗,能够集中精力研究算法与实验设计。
参见图2,图2显示了本发明数字病理图像分析方法的第二实施例流程图,其包括:
S201,获取数字病理图像。
S202,从数字病理图像中提取感兴趣区域。
S203,判断感兴趣区域的最小外接矩形的边长是否小于滑动窗口的边长,判断为是时,则删除感兴趣区域,判断为否时,则保留感兴趣区域。
如图3所示,数字病理图像中的感兴趣区域可以是任意封闭曲线围成的特定形状(如曲线A),但为了处理方便,本发明将所述ROI区域的特定形状的最小外接矩形作为参考区域(如曲线B)。
所述滑动窗口的边长可根据实际情况进行预先设置,本发明中不作限定。相应地,由于本发明中的病理模型采用卷积神经网络,而卷积神经网络的输入通常是正方形图像(如,224×224,256×256等),因此在切分兴趣块时,可将也滑动窗口设计为正方形。
需要说明的是,兴趣块是由滑动窗口进行切分的,即滑动窗口的尺寸等于兴趣块的尺寸。因此,若所述感兴趣区域的最小外接矩形的长或宽小于滑动窗口的边长时,则可放弃所述感兴趣区域,否则,保留所述感兴趣区域。
S204,根据感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定感兴趣区域对应的滑动窗口的滑动步长。
与现有技术不同的是,本发明根据该类别下所有感兴趣区域与总体感兴趣区域的关系来确定滑动窗口遍历该类别感兴趣区域所使用的滑动步长,再根据具体某个感兴趣区域与其所在类别感兴趣区域的关系来确定其滑动窗口的滑动步长。优选地,所述关系包括大小、数量、均值等关系,但不以此为限制。
具体地,所述根据感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定感兴趣区域对应的滑动窗口的滑动步长的步骤包括:
(1)计算总体感兴趣区域的数量N。
计算所有可提取兴趣块的感兴趣区域的数量,记作N。
N=N1+N2+…Ni+…+Nk,i∈(1,2,…,k)
其中,Ni为每个类别的感兴趣区域数量,k为类别数量;
(2)计算各感兴趣区域的面积sj。
sj=wj·hj
其中,wj为第j个感兴趣区域的最小外接矩的宽,hj为第j个感兴趣区域的最小外接矩的高;
(6)根据所述组间系数ωi、组内系数ωj及初始化滑动步长l0,计算第j个感兴趣区域对应的滑动窗口的滑动步长lj。
lj=ωi·ωj·l0
本发明在设定滑动窗口的初始化滑动步长的基础上,采用自适应性滑动窗口法提取兴趣区域的兴趣块,具体地,自适应性体现在以下两个方面:
一、考虑组(类)间感兴趣区域面积和数量的差异,为滑动窗口的滑动步长设计组间系数;
二、考虑组(类)内各感兴趣区域面积的差异,为每个感兴趣区域设计滑窗步长的组内系数。
因此,通过滑动窗口的滑动步长的自适应性调节,可保证大面积的感兴趣区域的信息不至于被反复提取,小面积的感兴趣区域的信息也不至于被忽略,且弱化了可能出现的组间失衡问题,利于后期分析处理过程中的模型训练和优化。
需要说明的是,l0为初始化(默认)滑动步长,若兴趣块的边长为a,则相邻两个兴趣块之间的重叠度为θ,则l0=a·θ。
本发明中,兴趣块的边长a=256。相应地,针对后续用于训练和验证病理模型的训练集和验证集,所述重叠度θ可设为0.5;而针对后续用于测试病理模块的测试集,所述重叠度θ可设为0.1。
S205,根据滑动窗口的边长及滑动步长,采用滑动窗口法遍历感兴趣区域以提取兴趣块。
因此,本发明在提取兴趣块的过程中,需要同时考虑组内和组间差异(如,组间系数、组间系数),从而合理设计滑动窗口的滑动步长,既避免了珍稀样本的信息丢失,又削弱了大样本的信息冗余,合理规避类别失衡问题,有助于构建无偏模型。
S206,对兴趣块进行过滤处理。
S207,将兴趣块输入病理模型以进行分析处理。
综上所述,本发明数字病理图像分析方法中创造性地采用自适应性的滑动窗口提取感兴趣区域的兴趣块,其中,所述自适应的滑动窗口的步长可根据感兴趣区域的实际情况进行调节,能够保证信息的丰度,从而控制冗余度。
进一步,在实际应用中还可对病理模型输出的预测结果进行后处理。具体地,所采用的后处理技术方案包括:
1、Tile计数法:分别统计预测结果中每一类别的兴趣块数量,以兴趣块数量最多的类别所对应的类标签作为切片的预测类别。
2、概率均值最大法:分别统计预测结果中每一类别的兴趣块的概率之和并求均值,以概率均值最大的类别所对应的类标签作为切片的预测类别。
3、特征工程法:首先,根据兴趣块层级的预测结果,人工设计和提取特征;然后,利用机器学习分类算法对特征进行学习与拟合,得到训练好的分类器;最后,将待整合的兴趣块层级结果输入到该分类器中,得出切片层级的结论。
4、相互验证法:在病理模型中构建两个网络模块,第一个网络模块执行肺部病理组织类型预测,第二个网络模块执行肿瘤组织的免疫组化(IHC)蛋白表达预测,通过免疫组化蛋白表达状态预测与病理组织类型预测的相互参照和验证,提升肺癌病理分型准确率。相互参照和验证时,对于每种组织类别,先由病理专家根据实验室诊断经验设置初始阈值,并由采用网络搜索策略寻找最优阈值;再计算每一类别兴趣块的数量占总体兴趣块数量的比值,如果比值高于该类别的最优阈值,则该类别被视为该片的类别标签。其中,所述最优阈值集合如下:
其中,LUAD为肺腺癌,LUSC为肺鳞癌,SCLC为小细胞肺癌,PTB为肺结核,OP为机化性肺炎,NL为正常肺。由上可知,各类别的阈值具有明显的分层性:对于肿瘤类别,采用较低阈值,而对于非肿瘤的带病类别,则采较高阈值,而正常组织类别,采用最高阈值。
因此,相互验证法将临床病理诊断实际使用的阈值与兴趣块计数法相结合,利用网格搜索策略确定最优阈值集,各个阶段使用同一个阈值集,保持判断标准的客观性和一致性,并将块水平的预测结果整合为片水平的预测结果,再利用阈值法得出片的病理类型推断。预测过程更简单客观,便于深度学习算法投入临床使用,不需要人工设计特征,避免叠加分类器所造成的错误级联效应。
参见图4,图4显示了本发明数字病理图像分析系统100的具体结构,其包括获取模块1、提取模块2、截取模块3、过滤模块4及分析模块5,具体地:
获取模块1,用于获取数字病理图像。所述数字病理图像需由病理医生进行初步处理后,再输入数字病理图像分析系统,并由获取模块1进行获取。
提取模块2,用于从所述数字病理图像中提取感兴趣区域。其中,针对无注释的数字病理图像,将组织覆盖的区域提取为感兴趣区域;针对带注释的数字病理图像,根据注释文件提取感兴趣区域。
截取模块3,用于根据所述感兴趣区域构建自适应的滑动窗口,并通过所述滑动窗口从所述感兴趣区域中截取兴趣块。其中,所述自适应的滑动窗口是指,滑动窗口的步长可根据感兴趣区域的实际情况进行调节,能够保证信息的丰度,从而控制冗余度。优选地,截取模块3可根据感兴趣区域的大小和数量来调整滑动窗口的滑动步长,从而使得兴趣块的截取不受感兴趣区域面积大小或数量多少的影响。
过滤模块4,用于对所述兴趣块进行过滤处理。具体地,过滤模块4先采用阈值算法分别计算每个兴趣块的病理组织覆盖比,再判断所述兴趣块的病理组织覆盖比是否低于预设阈值,判断为是时,则删除所述兴趣块,判断为否时,则保留所述兴趣块。
分析模块5,用于将所述兴趣块输入病理模型以进行分析处理。其中,所述病理模型可由技术人员根据实际情况进行构建。
因此,通过本发明中的截取模块3可对感兴趣区域中的兴趣块进行重新截取,能有效提升人工智能算法的分类准确度,适用性更广、容错性更高、处理难度更低且更贴合临床实际,使科研人员不必在图像处理环节过度消耗,能够集中精力研究算法与实验设计。
如图5所示,所述截取模块3包括:
区域过滤单元31,用于判断所述感兴趣区域的最小外接矩形的边长是否小于滑动窗口的边长,判断为是时,则删除所述感兴趣区域,判断为否时,则保留所述感兴趣区域。
自适应单元32,用于根据所述感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定所述感兴趣区域对应的滑动窗口的滑动步长。
切分单元33,用于根据所述滑动窗口的边长及滑动步长,采用所述滑动窗口法遍历所述感兴趣区域以提取兴趣块。
与现有技术不同的是,本发明中的自适应单元32可根据该类别下所有感兴趣区域与总体感兴趣区域的关系来确定滑动窗口遍历该类别感兴趣区域所使用的滑动步长,再根据具体某个感兴趣区域与其所在类别感兴趣区域的关系来确定其滑动窗口的滑动步长,灵活性及针对性强。优选地,所述关系包括大小、数量、均值等关系,但不以此为限制。
如图6所示,所述自适应单元32包括:
区域计算子单元321,用于计算总体感兴趣区域的数量N,其中,N=N1+N2+…Ni+…+Nk,i∈(1,2,…,k),Ni为每个类别的感兴趣区域数量,k为类别数量;
面积计算子单元322,用于计算各感兴趣区域的面积sj,其中,sj=wj·hj,wj为第j个感兴趣区域的最小外接矩的宽,hj为第j个感兴趣区域的最小外接矩的高;
步长计算子单元326,用于根据所述组间系数ωi、组内系数ωj及初始化滑动步长l0,计算第j个感兴趣区域对应的滑动窗口的滑动步长lj,其中,lj=ωi·ωj·l0。
因此,本发明在提取兴趣块的过程中,需要同时考虑组内和组间差异(如,组间系数、组间系数),从而合理设计滑动窗口的滑动步长,既避免了珍稀样本的信息丢失,又削弱了大样本的信息冗余,合理规避类别失衡问题,有助于构建无偏模型。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述数字病理图像分析方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数字病理图像分析方法的步骤。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种数字病理图像分析方法,其特征在于,包括:
获取数字病理图像;
从所述数字病理图像中提取感兴趣区域;
根据所述感兴趣区域构建自适应的滑动窗口,并通过所述滑动窗口从所述感兴趣区域中截取兴趣块;
对所述兴趣块进行过滤处理;
将所述兴趣块输入病理模型以进行分析处理。
2.如权利要求1所述的数字病理图像分析方法,其特征在于,所述根据感兴趣区域构建自适应的滑动窗口并通过滑动窗口从感兴趣区域中截取兴趣块的步骤包括:
判断所述感兴趣区域的最小外接矩形的边长是否小于滑动窗口的边长,判断为是时,则删除所述感兴趣区域,判断为否时,则保留所述感兴趣区域;
根据所述感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定所述感兴趣区域对应的滑动窗口的滑动步长;
根据所述滑动窗口的边长及滑动步长,采用所述滑动窗口法遍历所述感兴趣区域以提取兴趣块。
3.如权利要求2所述的数字病理图像分析方法,其特征在于,所述根据感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定感兴趣区域对应的滑动窗口的滑动步长的步骤包括:
计算总体感兴趣区域的数量N,其中,N=N1+N2+…Ni+…+Nk,i∈(1,2,…,k),Ni为每个类别的感兴趣区域数量,k为类别数量;
计算各感兴趣区域的面积sj,其中,sj=wj·hj,wj为第j个感兴趣区域的最小外接矩的宽,hj为第j个感兴趣区域的最小外接矩的高;
根据所述组间系数ωi、组内系数ωj及初始化滑动步长l0,计算第j个感兴趣区域对应的滑动窗口的滑动步长lj,其中,lj=ωi·ωj·l0。
4.如权利要求1所述的数字病理图像分析方法,其特征在于,所述对兴趣块进行过滤处理的步骤包括:
采用阈值算法分别计算每个兴趣块的病理组织覆盖比;
判断所述兴趣块的病理组织覆盖比是否低于预设阈值,
判断为是时,则删除所述兴趣块,
判断为否时,则保留所述兴趣块。
5.如权利要求1所述的数字病理图像分析方法,其特征在于,所述从数字病理图像中提取感兴趣区域的步骤包括:
针对无注释的数字病理图像,将组织覆盖的区域提取为感兴趣区域;
针对带注释的数字病理图像,根据注释文件提取感兴趣区域。
6.一种数字病理图像分析系统,其特征在于,包括:
获取模块,用于获取数字病理图像;
提取模块,用于从所述数字病理图像中提取感兴趣区域;
截取模块,用于根据所述感兴趣区域构建自适应的滑动窗口,并通过所述滑动窗口从所述感兴趣区域中截取兴趣块;
过滤模块,用于对所述兴趣块进行过滤处理;
分析模块,用于将所述兴趣块输入病理模型以进行分析处理。
7.如权利要求6所述的数字病理图像分析系统,其特征在于,所述截取模块包括:
区域过滤单元,用于判断所述感兴趣区域的最小外接矩形的边长是否小于滑动窗口的边长,判断为是时,则删除所述感兴趣区域,判断为否时,则保留所述感兴趣区域;
自适应单元,用于根据所述感兴趣区域、各类别感兴趣区域及总体感兴趣区域之间的关系,确定所述感兴趣区域对应的滑动窗口的滑动步长;
切分单元,用于根据所述滑动窗口的边长及滑动步长,采用所述滑动窗口法遍历所述感兴趣区域以提取兴趣块。
8.如权利要求7所述的数字病理图像分析系统,其特征在于,所述自适应单元包括:
区域计算子单元,用于计算总体感兴趣区域的数量N,其中,N=N1+N2+…Ni+…+Nk,i∈(1,2,…,k),Ni为每个类别的感兴趣区域数量,k为类别数量;
面积计算子单元,用于计算各感兴趣区域的面积sj,其中,sj=wj·hj,wj为第j个感兴趣区域的最小外接矩的宽,hj为第j个感兴趣区域的最小外接矩的高;
步长计算子单元,用于根据所述组间系数ωi、组内系数ωj及初始化滑动步长l0,计算第j个感兴趣区域对应的滑动窗口的滑动步长lj,其中,lj=ωi·ωj·l0。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011279541.4A CN112419253B (zh) | 2020-11-16 | 2020-11-16 | 数字病理图像分析方法、系统、设备及存储介质 |
PCT/CN2021/090360 WO2022100022A1 (zh) | 2020-11-16 | 2021-04-27 | 数字病理图像分析方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011279541.4A CN112419253B (zh) | 2020-11-16 | 2020-11-16 | 数字病理图像分析方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112419253A true CN112419253A (zh) | 2021-02-26 |
CN112419253B CN112419253B (zh) | 2024-04-19 |
Family
ID=74832323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011279541.4A Active CN112419253B (zh) | 2020-11-16 | 2020-11-16 | 数字病理图像分析方法、系统、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112419253B (zh) |
WO (1) | WO2022100022A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022100022A1 (zh) * | 2020-11-16 | 2022-05-19 | 中山大学 | 数字病理图像分析方法、系统、设备及存储介质 |
CN117115183A (zh) * | 2023-09-01 | 2023-11-24 | 北京透彻未来科技有限公司 | 一种基于数字病理图像可视区域的截取方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090274349A1 (en) * | 2006-04-13 | 2009-11-05 | Donato Cascio | Method for processing biomedical images |
US20150125052A1 (en) * | 2012-06-05 | 2015-05-07 | Agency For Science, Technology And Research | Drusen lesion image detection system |
US20150302583A1 (en) * | 2014-04-18 | 2015-10-22 | Samsung Electronics Co., Ltd. | System and method for detecting region of interest |
CN108564567A (zh) * | 2018-03-15 | 2018-09-21 | 中山大学 | 一种超高分辨率病理图像癌变区域可视化方法 |
CN110210490A (zh) * | 2018-02-28 | 2019-09-06 | 深圳市腾讯计算机系统有限公司 | 图像数据处理方法、装置、计算机设备和存储介质 |
CN111369565A (zh) * | 2020-03-09 | 2020-07-03 | 麦克奥迪(厦门)医疗诊断系统有限公司 | 一种基于图卷积网络的数字病理图像的分割与分类方法 |
CN111695556A (zh) * | 2019-03-14 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 网页配图的处理方法、系统、设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105931226A (zh) * | 2016-04-14 | 2016-09-07 | 南京信息工程大学 | 基于深度学习的自适应椭圆拟合细胞自动检测分割方法 |
CN107909585B (zh) * | 2017-11-14 | 2020-02-18 | 华南理工大学 | 一种血管内超声影像的血管中内膜分割方法 |
US10789462B2 (en) * | 2019-01-15 | 2020-09-29 | International Business Machines Corporation | Weakly and fully labeled mammogram classification and localization with a dual branch deep neural network |
CN110796656A (zh) * | 2019-11-01 | 2020-02-14 | 上海联影智能医疗科技有限公司 | 图像检测方法、装置、计算机设备和存储介质 |
CN111047559B (zh) * | 2019-11-21 | 2023-04-18 | 万达信息股份有限公司 | 一种数字病理切片异常区域快速检测的方法 |
CN110969204B (zh) * | 2019-11-29 | 2023-05-12 | 中国科学院自动化研究所 | 基于磁共振图像与数字病理图像融合的样本分类系统 |
CN112419253B (zh) * | 2020-11-16 | 2024-04-19 | 中山大学 | 数字病理图像分析方法、系统、设备及存储介质 |
-
2020
- 2020-11-16 CN CN202011279541.4A patent/CN112419253B/zh active Active
-
2021
- 2021-04-27 WO PCT/CN2021/090360 patent/WO2022100022A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090274349A1 (en) * | 2006-04-13 | 2009-11-05 | Donato Cascio | Method for processing biomedical images |
US20150125052A1 (en) * | 2012-06-05 | 2015-05-07 | Agency For Science, Technology And Research | Drusen lesion image detection system |
US20150302583A1 (en) * | 2014-04-18 | 2015-10-22 | Samsung Electronics Co., Ltd. | System and method for detecting region of interest |
CN110210490A (zh) * | 2018-02-28 | 2019-09-06 | 深圳市腾讯计算机系统有限公司 | 图像数据处理方法、装置、计算机设备和存储介质 |
CN108564567A (zh) * | 2018-03-15 | 2018-09-21 | 中山大学 | 一种超高分辨率病理图像癌变区域可视化方法 |
CN111695556A (zh) * | 2019-03-14 | 2020-09-22 | 北京京东尚科信息技术有限公司 | 网页配图的处理方法、系统、设备和存储介质 |
CN111369565A (zh) * | 2020-03-09 | 2020-07-03 | 麦克奥迪(厦门)医疗诊断系统有限公司 | 一种基于图卷积网络的数字病理图像的分割与分类方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022100022A1 (zh) * | 2020-11-16 | 2022-05-19 | 中山大学 | 数字病理图像分析方法、系统、设备及存储介质 |
CN117115183A (zh) * | 2023-09-01 | 2023-11-24 | 北京透彻未来科技有限公司 | 一种基于数字病理图像可视区域的截取方法及系统 |
CN117115183B (zh) * | 2023-09-01 | 2024-02-09 | 北京透彻未来科技有限公司 | 一种基于数字病理图像可视区域的截取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112419253B (zh) | 2024-04-19 |
WO2022100022A1 (zh) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109523526B (zh) | 组织结节检测及其模型训练方法、装置、设备和系统 | |
WO2022063200A1 (zh) | 用于非小细胞肺癌预后生存预测的方法、介质及电子设备 | |
US8712142B2 (en) | Method and apparatus for analysis of histopathology images and its application to cancer diagnosis and grading | |
CN110472676A (zh) | 基于深度神经网络的胃早癌组织学图像分类系统 | |
CN105894517A (zh) | 基于特征学习的ct图像肝脏分割方法及系统 | |
Banerjee et al. | Prediction lung cancer–in machine learning perspective | |
CN111986183B (zh) | 一种染色体散型图像自动分割识别系统及装置 | |
CN112734741B (zh) | 一种肺炎ct影像的图像处理方法和系统 | |
CN112419253A (zh) | 数字病理图像分析方法、系统、设备及存储介质 | |
CN112991263B (zh) | 用于提升pd-l1免疫组化病理切片tps计算准确度的方法及设备 | |
CN110738637B (zh) | 一种乳腺癌病理切片的自动分类系统 | |
JP2023512560A (ja) | 機械学習アルゴリズムを訓練し、患者のプライバシーを維持するための連合学習システム | |
CN112990214A (zh) | 一种医学图像特征识别预测模型 | |
CN114092450A (zh) | 一种基于胃镜检查视频的实时图像分割方法、系统、装置 | |
CN113160185A (zh) | 一种利用生成边界位置指导宫颈细胞分割的方法 | |
CN113850328A (zh) | 基于多视角深度学习的非小细胞肺癌亚型分类系统 | |
CN113139931B (zh) | 甲状腺切片图像分类模型训练方法、装置 | |
CN116468690B (zh) | 基于深度学习的浸润性非粘液性肺腺癌的亚型分析系统 | |
CN116884597A (zh) | 基于自监督预训练和多示例学习的病理图像乳腺癌分子分型方法及系统 | |
Yuan | Image processing method based on FGCA and artificial neural network | |
CN113139930A (zh) | 甲状腺切片图像分类方法、装置、计算机设备和存储介质 | |
CN114170206B (zh) | 兼顾空间信息相关性的乳腺病理图像癌变性质判读方法及装置 | |
Hemalatha et al. | Automatic detection of lung cancer identification using ENNPSO classification | |
CN116682576B (zh) | 一种基于双层图卷积神经网络的肝癌病理预后系统及装置 | |
Wang et al. | HER2-MCNN: a HER2 classification method based on multi convolution neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |