CN114648509B - 一种基于多分类任务的甲状腺癌检出系统 - Google Patents
一种基于多分类任务的甲状腺癌检出系统 Download PDFInfo
- Publication number
- CN114648509B CN114648509B CN202210306387.8A CN202210306387A CN114648509B CN 114648509 B CN114648509 B CN 114648509B CN 202210306387 A CN202210306387 A CN 202210306387A CN 114648509 B CN114648509 B CN 114648509B
- Authority
- CN
- China
- Prior art keywords
- thyroid
- model
- frozen
- module
- thyroid cancer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10056—Microscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20076—Probabilistic image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Apparatus For Radiation Diagnosis (AREA)
- Image Analysis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及疾病诊断和图像识别技术领域,以人工智能辅助诊断会试,具体提供了基于多分类任务的甲状腺癌检出系统和检测设备。本发明基于甲状腺癌冰冻切片相关的真实临床应用场景,为研究的真实落地、临床应用和预研工作提供了更大可能性;针对临床真实数据集,本发明从数据的分布差异性出发,设计了基于ResUNet模型、随机森林、三分类决策树的甲状腺癌高准确率的自动检测和良恶性分类模型。本发明设计的算法模型面向真实甲状腺癌临床数据集,即包括所有亚型的良恶性病变类型,因而提供了甲状腺癌高准确率的自动检测和良恶性分类模型。
Description
技术领域
本发明涉及疾病诊断和图像识别技术领域,以人工智能辅助诊断会试,具体提供了基于多分类任务的甲状腺癌检出系统和检测设备。
背景技术
近几十年来,世界上多个国家的甲状腺癌发病率逐年上升,例如,在美国,甲状腺癌发病率在恶行肿瘤领域排名第七,且官方评其为女性中重要的新型癌种;2015年,甲状腺癌患病率已在中国女性中升至第五。一般情况下,不断增加的患者数量,对当前紧张的医疗资源也提出了很大的挑战。病理报告始终是甲状腺癌临床诊断和治疗的金标准,且精准的术中冰冻病理报告在患者确诊和治疗过程中具有重要的临床指导意义。然而,当前中国病理医生的床位覆盖率仅有0.55人/100床,面对接近饱和的病理医疗,专业病理医生的临床培养周期通常需要5~10年。
随着计算机视觉技术在医疗领域的快速发展,越来越多的人工智能技术在临床医疗领域中完全落地,即重复简单的临床工作交给人工智能,专家医生可专注于临床疑难病例和医疗难题的研究。同理,人工智能技术也提供了解决当前病理医生严重短缺问题的可能性。
甲状腺癌冰冻切片包括多种病理类型,且不同医院不同类型的类型占比差异性很大,比如,对于甲状腺癌,甲状腺乳头状癌占比为83.6%~98.2%,甲状腺滤泡癌占比为0.9%~10.8%,甲状腺髓样癌占比为0.6%~2.2%,其他占比大约为0.1%。值得一提的是,其他良性病变占比差异同样很大,比如甲状腺腺瘤样病变、结节性甲状腺肿、甲状腺纤维钙化结节等。甲状腺癌的临床良恶性病变种类多和其分布差异性大,均给当前甲状腺的人工智能辅助诊断的技术研发增加了难度。
到目前为止,已经有大量人工智能技术用于甲状腺病灶检测和分类的研究工作,但还是局限于病理图像的分割问题、标注问题或者癌/非癌的两分类为题,均没有关注真实分布临床甲状腺癌冰冻数据,即包括甲状腺乳头状癌、甲状腺滤泡癌、髓样癌、腺瘤样病变、结节性甲状腺肿、甲状腺纤维钙化结节等所有甲状腺良恶性病变的临床真实数据集,这对人工智能在病理领域的临床预研工作是没有推进作用的。鉴于此,我们的工作专注于包括所有甲状腺良恶性病变的冰冻切片临床数据集。基于此数据集我们开发了一种基于人工智能技术的甲状腺病灶检出方法,并给出切片的类别和病灶位置。对于临床输入的甲状腺冰冻切片,模型自动进行识别检测并输出切片的类别和病灶位置。
到目前为止,关于甲状腺癌自动检测的相关研究工作,主要包括以下几点:其一,基于深度学习的甲状腺良恶性病理切片自动识别的二分类任务;其二,数据集是关于石蜡切片或者免疫组化的;其三,基于传统机器学习方法的,例如支持向量机、随机森林等。
然而,在甲状腺癌相关工作的临床真实场景中,甲状腺良恶性病变的亚型种类众多,其中,恶性病变包括甲状腺乳头状癌、甲状腺滤泡癌、髓样癌等,良性病变包括腺瘤样病变、结节性甲状腺肿、甲状腺纤维钙化结节等,简单的二分类任务并不能作用于真实的临床场景。
发明内容
因此,针对种类众多且分布不均衡的甲状腺癌冰冻切片临床数据集(真实的临床场景问题,即多分类任务场景,并未经过人为的手工删选),基于深度学习模型、机器学习模型(随机森林、决策树)等当前最先进的技术,本发明设计了甲状腺癌冰冻切片的自动检出模型,主要包括甲状腺病灶的深度学习自动检出模型和后处理机器学习降假阳模型,可得到甲状腺病灶的具体位置和切片的良恶性分类结果。
本发明提供一种基于多分类任务的甲状腺癌检出训练系统,其特征在于,包括下述模块:
模块一:甲状腺冰冻切片数据集模块,用于收集良恶性类型的甲状腺冰冻切片图像的临床真实数据集;
模块二:深度学习模型所需的切片级训练集和测试集模块,用于收集切片级训练集和测试集的甲状腺冰冻切片图像数据;
模块三:深度学习模块,以由深度学习分割网络ResUNet模型作为深度学习基础模型,用于将成批次送入的训练集对ResUNet模型进行训练,以及用于将成批次送入的验证集用于验证模型是否已经收敛;
模块四:甲状腺癌冰冻病理切片推理预测模块,用于实现采用已经收敛的ResUNet模型对甲状腺癌冰冻病理切片进行推理预测,得到恶性病灶是否存在的热图;
模块五:预测结果评价模块,采用机器学习模型在切片级别对ResUNet模型的预测结果进行评价;
模块六:基于决策树的三分类任务模块,用于提取预测模块所得热图的病灶区域的重要临床特征,分别包括病灶区域的最大面积、最大直径、最大周长和所述热图切片级别的预测概率p;针对预测结果评价模块提到的甲状腺冰冻切片测试集,分别提取现存病理报告中对应临床医生的诊断结果,将其划分为适用三分类决策树的训练集和验证集,并训练决策树中的最大面积参数a、最大直径d、切片预测概率值p、针对切片预测概率值设定的阈值θ;最后,使用上述测试集测试三分类决策树模型的分类结果,其分类结果与病理报告中的临床诊断医生结果进行比较;
其中所述三分类分别为:Class 0,表示甲状腺冰冻切片为良性病变,主要包括结节性甲状腺肿和甲状腺纤维钙化结节;Class 1,表示甲状腺冰冻切片为恶性病变,包括甲状腺乳头状癌;Class 2,表示人工智能模型难以准确检测出恶性病变的甲状腺冰冻切片类型,包括甲状腺滤泡癌、髓样癌和其他深度学习模型难以识别的冰冻切片;
其三分类标准以切片预测概率值p为基础。当p>0.5时,如果p>θ,判断为Class 1;如果p≤θ,则判定为Class 2。当p≤0.5时,如果病灶最大面积>a,则判定为Class 2;如果病灶最大面积≤a,且病灶最大直径>d,则判定为Class 2,而病灶最大直径≤d,则进一步地判断,如果病灶最大周长>p,则判定为Class 2,但如病灶最大周长≤p,则判定为Class 0。
在一个具体实施方式中,模块一中,使用数字扫描仪采集包括所有良恶性类型的甲状腺冰冻切片图像数据;所需数据集的原则是接受临床所有的甲状腺冰冻切片图像,包括占比较少的甲状腺良/恶性种类切片图像,具体包括甲状腺乳头状癌、甲状腺滤泡癌、髓样癌、腺瘤样病变、结节性甲状腺肿、甲状腺纤维钙化结节所有亚型的甲状腺冰冻切片图像;
在一个具体实施方式中,模块二中,所述甲状腺冰冻切片图像数据,包括随机选取例如乳头状癌甲状腺冰冻切片图像和结节性甲状腺肿冰冻切片图像构成切片级别的训练集,随机选取例如乳头状癌甲状腺冰冻切片和结节性甲状腺肿冰冻切片构成切片级别的验证集,其他甲状腺冰冻切片图像构成切片级别的测试集;优选地,针对恶性病变的甲状腺冰冻切片,由专家医生对病灶位置进行准确标注;优选地,将切片图像分割为小图(例如随机截取分辨率为256×256的小图,记为正样本,从绿色非蓝色区域随机截取分辨率为256×256的小图,记为负样本,所有小图正负样本构成ResUNet模型的训练集;同理从切片级验证集中构建ResUNet模型的小图级别验证集。
在一个具体实施方式中,模块三中,采用梯度反向传播算法训练ResUNet模型,其损失函数模型包括交叉熵和dice总损失函数,具体公式如下:
其中,mask表示医生标注的真实病灶位置,病灶区域填充为1,非病灶区域填充为0,pred表示深度学习模型的预测结果,其中预测的病灶区域填充为1,非病灶区域填充为0,pred和mask具有相同的尺寸;
所述dice总损失函数为:
loss=w1×交叉熵+w2×diceloss
其中,w1=0.6,w2=0.4,能够使得ResUNet模型快速有效收敛。
更进一步优选地,模块三中,在ResUNet模型的Res模块中添加dropblock方法;更具体地,分别在Res模块的skip层和加层之后添加dropblock模块,如图6所示。
在一个具体实施方式中,模块四中,与ResUNet模型的小图级别训练集保持一致,将病理切片等步长划分为分辨率256×256的小图,分别送入完成训练的ResUNet网络,并将小图的预测结果拼接为原图大小的结果,记为热图;其中,热图中颜色越亮的位置,表示病灶存在的可能性越大。
在一个具体实施方式中,模块五中,采用的机器学习模型是随机森林、支持向量机;具体地,提取训练集和测试集中甲状腺冰冻切片的热图特征,分别包括预测病灶区域的长轴、短轴、病灶面积、病灶边缘周长、病灶区域数量、病灶区域的像素数量;然后,基于训练集的热图特征,训练随机森林模型;最后,利用训练完成的随机森林模型和已提取的测试集甲状腺冰冻切片的热图特征,对测试集中的甲状腺冰冻切片热图进行切片级别的良恶性预测,即为甲状腺冰冻切片的良恶性预测结果,输出为良恶性预测概率值记为p(0≤p≤1),其中,p越小,表明原WSI是良性的概率越大,p越大,表明原WSI是恶性的概率越大,意味着热图上的高概率区域即为恶性病变位置。本发明采用AUC(Area under the curve)作为ResUNet模型和随机森林模型对甲状腺冰冻切片的预测结果的评价指标,AUC值越高,表明深度学习模型效果越好。
本发明还提供所述的训练系统经过训练获得的基于多分类任务的甲状腺癌检出系统,其特征在于,基于权利要求1至7任一项所述的训练系统完成训练后,验证预测效果后获得检测出系统,其可用于甲状腺癌的检出,作为辅助诊断的用途。
具体地,包括甲状腺冰冻切片数据集模块,用于收集良恶性类型的甲状腺冰冻切片图像的临床真实数据集;
甲状腺癌冰冻病理切片推理预测模块,其是经过训练的已经收敛的ResUNet模型,对甲状腺癌冰冻病理切片进行推理预测,得到恶性病灶是否存在的热图;
基于决策树的三分类任务模块,用于提取预测模块所得热图的病灶区域的重要临床特征,其于三分类决策树模型得到分类结果;优选地,还包括预测结果输出模块;任选地,进一步包括与实际诊断结果进行比较反馈,以用于进一步训练所述ResUNet模型。
本发明还提供一种含有上述检测系统的检测设备,其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,所述计算机程序编码实现上述检测系统,优选地还包括图像采集设备如获取冰冻切片图像设备(例如数字扫描仪),以及显示设备如屏幕或者远程结果显示器。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被一个或多个处理器执行时实现如上检测系统。
本发明实施例与现有技术相比存在的有益效果是:本发明基于甲状腺癌冰冻切片相关的真实临床应用场景,为研究的真实落地、临床应用和预研工作提供了更大可能性;针对临床真实数据集,本发明从数据的分布差异性出发,设计了基于ResUNet模型、随机森林、三分类决策树的甲状腺癌高准确率的自动检测和良恶性分类模型。本发明设计的算法模型面向真实甲状腺癌临床数据集,即包括所有亚型的良恶性病变类型,因而提供了甲状腺癌高准确率的自动检测和良恶性分类模型。
附图说明
图1甲状腺癌冰冻切片人工智能辅助诊断模型的算法流程图。
图2甲状腺癌冰冻病理切片(WSI)。
图3深度学习模型在甲状腺癌冰冻切片上的训练和推理过程。其中,a:原切片原图;b:随机划分为256×256的小图;c:等间隔划分为256×256的小图;d:ResUNet模型;e:小图通过ResUNet进行推理预测,并拼接小图结果得到切片热图。
图4原图和热图对照图。
图5本发明决策树模型图。
图6ResUNet模型的Res模块中添加dropblock方法示意图,其中,图左为通用Res模块,图右为添加dropblock的Res模块。
具体实施方式
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本发明设计的甲状腺癌冰冻切片的自动检出系统,其实现过程如图1所示,主要包括以下几个方面:构建甲状腺冰冻切片数据集,用于深度/机器学习模型的训练和验证;训练深度学习模型,得到冰冻切片热图;基于热图,训练机器学习模型,得到冰冻切片的良恶性病变的预测概率;基于热图和良恶性病变预测概率,设计和训练三分类决策树模型;最终,通过三分类决策树模型和切片热图得到冰冻切片的三分类结果和对应的病灶位置,作为本系统所有的输出结果。其详细实现步骤如下,
步骤一:构建本发明系统开发所需的甲状腺冰冻切片数据集。
使用数字扫描仪采集包括所有良恶性类型的甲状腺冰冻切片的临床真实数据集。该冰冻切片图像又称为全切片图像(wholeslideimage,简写为WSI),其中示例如图2所示,图2左为甲状腺恶性病变的冰冻切片图像,蓝色曲线内部为恶性病灶区域,图2右为甲状腺良性病变的冰冻图像。为符合真实临床实际情况,本发明从临床数据中构建系统开发所需数据集的原则是接受临床所有的甲状腺冰冻切片,包括占比较少的甲状腺良/恶性种类切片,即甲状腺乳头状癌、甲状腺滤泡癌、髓样癌、腺瘤样病变、结节性甲状腺肿、甲状腺纤维钙化结节等所有亚型的甲状腺冰冻切片,其中,本发明构建的甲状腺冰冻切片数据集共计1372例,包括甲状腺乳头状癌536例、甲状腺滤泡癌和髓样癌5例、腺瘤样病变72例、结节性甲状腺肿45例、甲状腺纤维钙化结节691例、其他23例。
步骤二:基于步骤一构建的甲状腺冰冻切片数据集,构建深度学习模型所需的切片级训练集和测试集,训练深度学习模型,并利用训练完成已收敛的深度学习模型对甲状腺冰冻切片进行预测推理,基本过程如图3所示,下面详细介绍其实现过程。
首先,为防止训练集中多种甲状腺癌切片的分布极不均衡影像后续的实验设计和实验结果,基于1372例甲状腺冰冻切片数据集,本发明随机选取200例乳头状癌甲状腺冰冻切片和296例结节性甲状腺肿冰冻切片构成切片级别的训练集,随机选取53例乳头状癌甲状腺冰冻切片和61例结节性甲状腺肿冰冻切片构成切片级别的验证集,剩下的764例甲状腺冰冻切片构成切片级别的测试集。其中,针对恶性病变的甲状腺冰冻切片,由专家医生对病灶位置进行准确标注,如图2左所示,蓝色曲线即为医生手动精确标注,蓝色曲线内部即为恶性病变区域。
基于上述构建的切片级别训练集、验证集和测试集,本发明采用深度学习分割网络ResUNet模型作为深度学习基础模型,进一步为防止模型在训练中过拟合,本发明在ResUNet模型的Res模块中添加dropblock方法(如图6所示)。其中,图6左即为通用Res模块,图6右即为添加dropblock的Res模块,图中的Relu函数为通用激活函数,BN为通用正则化方式,dropblock为计算机视觉中防止过拟合的常用训练方法。由于病理图像分辨率可达100000×100000,在ResUNet模型训练过程中不能直接放入计算机等硬件设施,如图3中a和图3中b所示,把病理图像分割为小图,从图3a中的蓝色区域随机截取分辨率为256×256的小图,记为正样本,从绿色非蓝色区域随机截取分辨率为256×256的小图,记为负样本,所有小图正负样本构成ResUNet模型的训练集。同理从切片级验证集中构建ResUNet模型的小图级别验证集,并分别成批次送入深度学习模型,其中构建训练集的目的是训练ResUNet模型,验证集是验证模型是否已经收敛,即训练成功。
如图3中d所示,采用梯度反向传播算法训练ResUNet模型,其损失函数模型包括交叉熵和dice损失函数,具体公式如下:
其中,mask表示医生标注的真实病灶位置,病灶区域填充为1,非病灶区域填充为0,pred表示深度学习模型的预测结果,其中预测的病灶区域填充为1,非病灶区域填充为0,pred和mask具有相同的尺寸。
在训练过程中,由于交叉熵对正负样本无差异学习,dice损失函数更倾向于学习正样本特征,能够加速深度学习模型的训练。本发明设计的ResUNet模型总损失函数为:
loss=w1×交叉熵+w2×diceloss
其中,w1=0.6,w2=0.4,能够使得ResUNet模型快速有效收敛。
然后,本发明采用已经收敛的ResUNet模型,对甲状腺癌冰冻病理切片进行推理预测,得到恶性病灶是否存在的热图,如图3中d和c所示,与ResUNet模型的小图级别训练集保持一致,先将病理切片等步长划分为分辨率256×256的小图(图3中c),分别送入完成训练的ResUNet模型网络(图3中d),并将小图的预测结果拼接为原图大小的结果,记为热图;其中,热图中颜色越亮的位置,表示病灶存在的可能性越大,原图和病灶对比如图3中e右所示,红色区域记为病灶预测区域。
步骤三:基于步骤二所得的所有甲状腺冰冻切片热图,验证已收敛的ResUNet模型的在测试集上的表现效果。
本发明采用机器学习模型(如随机森林、支持向量机等)在切片级别对ResUNet模型的预测结果进行评价,实现方法如下:首先,提取训练集和测试集中甲状腺冰冻切片的热图特征,分别包括预测病灶区域的长轴、短轴、病灶面积、病灶边缘周长、病灶区域数量、病灶区域的像素数量,然后,基于训练集的热图特征,训练随机森林模型,最后,利用训练完成的随机森林模型和已提取的测试集甲状腺冰冻切片的热土特征,对测试集中的甲状腺冰冻切片热图进行切片级别的良恶性预测,即为甲状腺冰冻切片的良恶性预测结果,输出为良恶性预测概率值记为p(0≤p≤1),其中,p越小,表明原WSI是良性的概率越大,p越大,表明原WSI是恶性的概率越大,意味着热图上的高概率区域即为恶性病变位置。本发明采用AUC(Area under the curve)作为ResUNet模型和随机森林模型对甲状腺冰冻切片的预测结果的评价指标,AUC值越高,表明,深度学习模型效果越好。在本发明的甲状腺冰冻切片测试集上,若只包含甲状腺乳头状癌和结节性甲状腺肿冰冻切片,共计617例,模型AUC值为0.986,表明深度学习模型能够很好的识别出绝大部分甲状腺冰冻切片的病灶区域。示例如图4所示,其中左边蓝色线轮廓区域内是医生标注的病灶区域,右边红色区域是本发明的系统模型自动识别的病灶区域。
另外,若测试集包含所有类型的甲状腺冰冻切片,共计764例,模型AUC值为0.946。上述结果说明,ResUNet模型和随机森林对临床数据中占比最大的甲状腺乳头状癌和结节性甲状腺肿的冰冻切片预测准确率很高,对其他占比较小的甲状腺滤泡癌、髓样癌、腺瘤样病变、甲状腺纤维钙化结节等所有亚型冰冻切片预测准确率较差。
步骤四:针对步骤三的非甲状腺乳头状癌和结节性甲状腺肿的冰冻切片的良恶性分类预测准确率低的问题,本发明设计了基于决策树的三分类任务,该决策树主要依据冰冻切片良恶性预测概率值和病灶区域的最大面积、最大直径、最大周长共四个特征数据而构建。为了改进和量化所有甲状腺癌种的良恶性预测结果,这三个类别分别为(如图5所示):Class 0,表示甲状腺冰冻切片为良性病变,主要包括结节性甲状腺肿和甲状腺纤维钙化结节;Class 1,表示甲状腺冰冻切片为恶性病变,包括甲状腺乳头状癌;Class 2,表示人工智能模型难以准确检测出恶性病变的甲状腺冰冻切片类型,主要包括甲状腺滤泡癌、髓样癌和其他深度学习模型难以识别的冰冻切片。其判断以切片预测概率值p为基础。当p>0.5时,如果p>θ,判断为Class 1;如果p≤θ,则判定为Class2。当p≤0.5时,如果病灶最大面积>a,则判定为Class 2;如果病灶最大面积≤a,且病灶最大直径>d,则判定为Class 2,而病灶最大直径≤d,则进一步地判断,如果病灶最大周长>p,则判定为Class 2,但如病灶最大周长≤p,则判定为Class 0。
本发明设计的三分类任务,其主要目的为,模型自动识别检测出大部分良性病变class 0和临床上最常见的甲状腺乳头状癌class 1,并输出模型的病灶预测位置和切片级别的良恶性病变类别;对于其他占比较少,分布差异巨大或者深度学习模型难以自动检测病灶的甲状腺癌冰冻切片,模型可自动识别为中间类型。通过这种三分类方法,模型可自动过滤难检测切片和易检测切片,并最大可能提高易检测切片中病灶的正确检测概率,同时输出难检测切片的预测结果。
其中,该决策树的技术实现过程如下:首先,提取步骤二所得热图的病灶区域(图4中左图和右图分别是原图和热图对比示例)的重要临床特征,分别包括病灶区域的最大面积、最大直径、最大周长和步骤三对热图切片级别的预测概率p。
然后,针对步骤二中提到的764例甲状腺冰冻切片测试集,分别提取现存病理报告中对应临床医生的诊断结果,将其划分为适用三分类决策树的训练集和验证集共计259例和509例,并训练决策树中的参数a(图5中的最大面积)、d(图5中的最大直径)、p(图5中的切片预测概率值)、θ(图5中针对切片预测概率值设定的阈值),如图5所示。最后,使用上述509例测试集测试三分类决策树模型的分类效果,其分类效果与病理报告中的临床诊断医生结果进行比较,其比较结果如下图所示,基于ResUNet模型、随机森林模型和三分类决策数据模型搭建的系统记为针对甲状腺癌的人工智能检出系统。
预测正确的切片数量 | 预测错误的切片数量 | 总数 | |
人工智能检出系统 | 492 | 17 | 509 |
病理医生 | 501 | 8 | 509 |
总数 | 993 | 25 |
对本发明检测系统和医生的诊断结果执行fisher检测和chi-square检测,其p值分别为0.103436和0.1052289,即p值均大于0.05,说明模型和医生的检测结果无显著差异。也就是说,本发明设计的通过ResUNet模型自动检测恶性病灶位置、随机森林和三分类决策树降低检测错误的方法,能够实现甲状腺癌高准确率的自动检测和良恶性分类结。
在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (14)
1.一种基于多分类任务的甲状腺癌检出训练系统,其特征在于,包括下述模块:
模块一:甲状腺冰冻切片数据集模块,用于收集良恶性类型的甲状腺冰冻切片图像的临床真实数据集;
模块二:深度学习模型所需的切片级训练集和测试集模块,用于收集切片级训练集和测试集的甲状腺冰冻切片图像数据;
模块三:深度学习模块,以由深度学习分割网络ResUNet模型作为深度学习基础模型,用于将成批次送入的训练集对ResUNet模型进行训练,以及用于将成批次送入的验证集用于验证模型是否已经收敛;
模块四:甲状腺癌冰冻病理切片推理预测模块,用于实现采用已经收敛的ResUNet模型对甲状腺癌冰冻病理切片进行推理预测,得到恶性病灶是否存在的热图;
模块五:预测结果评价模块,采用机器学习模型在切片级别对ResUNet模型的预测结果进行评价;
模块六:基于决策树的三分类任务模块,用于提取预测模块所得热图的病灶区域的重要临床特征,分别包括病灶区域的最大面积、最大直径、最大周长和所述热图切片级别的预测概率p;针对预测结果评价模块提到的甲状腺冰冻切片测试集,分别提取现存病理报告中对应临床医生的诊断结果,将其划分为适用三分类决策树的训练集和验证集,并训练决策树中的最大面积参数a、最大直径d、切片预测概率值p、针对切片预测概率值设定的阈值θ;最后,使用上述测试集测试三分类决策树模型的分类结果,其分类结果与病理报告中的临床诊断医生结果进行比较;
其中所述三分类分别为:Class 0,表示甲状腺冰冻切片为良性病变,包括结节性甲状腺肿和甲状腺纤维钙化结节;Class 1,表示甲状腺冰冻切片为恶性病变,包括甲状腺乳头状癌;Class 2,表示人工智能模型难以准确检测出恶性病变的甲状腺冰冻切片类型,包括甲状腺滤泡癌、髓样癌和其他深度学习模型难以识别的冰冻切片;
其三分类标准以切片预测概率值p为基础:当p>0.5时,如果p>θ,判断为Class 1;如果p≤θ,则判定为Class 2;当p≤0.5时,如果病灶最大面积>a,则判定为Class 2;如果病灶最大面积≤a,且病灶最大直径>d,则判定为Class 2,而病灶最大直径≤d,则进一步地判断,如果病灶最大周长>p,则判定为Class 2,但如病灶最大周长≤p,则判定为Class 0。
2.如权利要求1所述的基于多分类任务的甲状腺癌检出训练系统,其特征在于,模块一中,使用数字扫描仪采集包括所有良恶性类型的甲状腺冰冻切片图像数据;所需数据集的原则是接受临床所有的甲状腺冰冻切片图像,包括占比较少的甲状腺良/恶性种类切片图像,具体包括甲状腺乳头状癌、甲状腺滤泡癌、髓样癌、腺瘤样病变、结节性甲状腺肿、甲状腺纤维钙化结节所有亚型的甲状腺冰冻切片图像。
3.如权利要求1所述的基于多分类任务的甲状腺癌检出训练系统,其特征在于,模块二中,所述甲状腺冰冻切片图像数据,包括随机选取乳头状癌甲状腺冰冻切片图像和结节性甲状腺肿冰冻切片图像构成切片级别的训练集,随机选取乳头状癌甲状腺冰冻切片和结节性甲状腺肿冰冻切片构成切片级别的验证集,其他甲状腺冰冻切片图像构成切片级别的测试集;其中,针对恶性病变的甲状腺冰冻切片,由专家医生对病灶位置进行准确标注。
4.如权利要求3所述的基于多分类任务的甲状腺癌检出训练系统,其特征在于,将所述甲状腺冰冻切片图像随机截取分辨率为256×256的小图,记为正样本,从绿色非蓝色区域随机截取分辨率为256×256的小图,记为负样本,所有小图正样本和负样本构成ResUNet模型的训练集;同理从切片级验证集中构建ResUNet模型的小图级别验证集。
5.如权利要求1所述的基于多分类任务的甲状腺癌检出训练系统,其特征在于,模块三中,采用梯度反向传播算法训练ResUNet模型,其损失函数模型包括交叉熵和dice总损失函数,具体公式如下:
;
;
其中,mask表示医生标注的真实病灶位置,病灶区域填充为1,非病灶区域填充为0,pred表示深度学习模型的预测结果,其中预测的病灶区域填充为1,非病灶区域填充为0,pred和mask具有相同的尺寸;
所述dice总损失函数为:
;
其中,w1 = 0.6,w2 =0.4,能够使得ResUNet模型快速有效收敛。
6.如权利要求4所述的基于多分类任务的甲状腺癌检出训练系统,其特征在于,模块三中,在ResUNet模型的Res模块中添加dropblock方法;更具体地,分别在Res模块的skip层和加层之后添加dropblock模块。
7.如权利要求1所述的基于多分类任务的甲状腺癌检出训练系统,其特征在于,模块四中,与ResUNet模型的小图级别训练集保持一致,将病理切片等步长划分为分辨率256×256的小图,分别送入完成训练的ResUNet网络,并将小图的预测结果拼接为原图大小的结果,记为热图;其中,热图中颜色越亮的位置,表示病灶存在的可能性越大。
8.如权利要求1所述的基于多分类任务的甲状腺癌检出训练系统,其特征在于,模块五中,采用的机器学习模型是随机森林、支持向量机;具体地,提取训练集和测试集中甲状腺冰冻切片的热图特征,分别包括预测病灶区域的长轴、短轴、病灶面积、病灶边缘周长、病灶区域数量、病灶区域的像素数量;然后,基于训练集的热图特征,训练随机森林模型;最后,利用训练完成的随机森林模型和已提取的测试集甲状腺冰冻切片的热图特征,对测试集中的甲状腺冰冻切片热图进行切片级别的良恶性预测,即为甲状腺冰冻切片的良恶性预测结果,输出为良恶性预测概率值记为 p,其中,p值的范围为0≤p≤1,且p越小,表明原WSI是良性的概率越大,p越大,表明原WSI是恶性的概率越大,意味着热图上的高概率区域即为恶性病变位置;采用AUC作为ResUNet模型和随机森林模型对甲状腺冰冻切片的预测结果的评价指标,AUC值越高,表明深度学习模型效果越好。
9.如权利要求1至8任一项所述的训练系统经过训练获得的基于多分类任务的甲状腺癌检出系统,其特征在于,基于权利要求1至8任一项所述的训练系统完成训练后,验证预测效果后获得检测出系统,其可用于甲状腺癌的检出,作为辅助诊断的用途。
10.如权利要求9所述的训练系统经过训练获得的基于多分类任务的甲状腺癌检出系统,其特征在于,包括甲状腺冰冻切片数据集模块,用于收集良恶性类型的甲状腺冰冻切片图像的临床真实数据集;
甲状腺癌冰冻病理切片推理预测模块,其是经过训练的已经收敛的ResUNet模型,对甲状腺癌冰冻病理切片进行推理预测,得到恶性病灶是否存在的热图;
基于决策树的三分类任务模块,用于提取预测模块所得热图的病灶区域的重要临床特征,其于三分类决策树模型得到分类结果;还包括预测结果输出模块;进一步包括与实际诊断结果进行比较反馈,以用于进一步训练所述ResUNet模型。
11.一种含有如权利要求10所述的甲状腺癌检出系统的检测设备,其包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序,所述计算机程序编码实现所述甲状腺癌检出系统。
12.如权利要求11所述的的检测设备,其特征在于,还包括获取冰冻切片图像设备,以及显示设备。
13.如权利要求12所述的的检测设备,其特征在于,所述获取冰冻切片图像设备是数字扫描仪,所述显示设备是屏幕或者远程结果显示器。
14.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被一个或多个处理器执行时实现权利要求9或10所述的甲状腺癌检出系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210306387.8A CN114648509B (zh) | 2022-03-25 | 2022-03-25 | 一种基于多分类任务的甲状腺癌检出系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210306387.8A CN114648509B (zh) | 2022-03-25 | 2022-03-25 | 一种基于多分类任务的甲状腺癌检出系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114648509A CN114648509A (zh) | 2022-06-21 |
CN114648509B true CN114648509B (zh) | 2023-05-12 |
Family
ID=81995965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210306387.8A Active CN114648509B (zh) | 2022-03-25 | 2022-03-25 | 一种基于多分类任务的甲状腺癌检出系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114648509B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132843B (zh) * | 2023-10-26 | 2024-04-09 | 长春中医药大学 | 野山参、林下山参、园参原位鉴别方法、系统及相关设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520518A (zh) * | 2018-04-10 | 2018-09-11 | 复旦大学附属肿瘤医院 | 一种甲状腺肿瘤超声图像识别方法及其装置 |
CN111612752A (zh) * | 2020-05-15 | 2020-09-01 | 江苏省人民医院(南京医科大学第一附属医院) | 基于Faster-RCNN的超声图像甲状腺结节智能检测系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104091348B (zh) * | 2014-05-19 | 2017-04-05 | 南京工程学院 | 融合显著特征和分块模板的多目标跟踪方法 |
CN104899896B (zh) * | 2015-06-12 | 2018-03-02 | 西北工业大学 | 一种基于子空间特征的多任务学习目标跟踪方法 |
CN107818326B (zh) * | 2017-12-11 | 2018-07-20 | 珠海大横琴科技发展有限公司 | 一种基于场景多维特征的船只检测方法及系统 |
WO2020014477A1 (en) * | 2018-07-11 | 2020-01-16 | The University Of North Carolina At Chapel Hill | Methods, systems, and computer readable media for image analysis with deep learning to predict breast cancer classes |
CN109166105B (zh) * | 2018-08-01 | 2021-01-26 | 中国人民解放军东部战区总医院 | 人工智能医学影像的肿瘤恶性风险分层辅助诊断系统 |
CN109118485A (zh) * | 2018-08-13 | 2019-01-01 | 复旦大学 | 基于多任务神经网络的消化道内镜图像分类及早癌检测系统 |
US11730387B2 (en) * | 2018-11-02 | 2023-08-22 | University Of Central Florida Research Foundation, Inc. | Method for detection and diagnosis of lung and pancreatic cancers from imaging scans |
US10789462B2 (en) * | 2019-01-15 | 2020-09-29 | International Business Machines Corporation | Weakly and fully labeled mammogram classification and localization with a dual branch deep neural network |
US11170504B2 (en) * | 2019-05-02 | 2021-11-09 | Keyamed Na, Inc. | Method and system for intracerebral hemorrhage detection and segmentation based on a multi-task fully convolutional network |
CN111180068A (zh) * | 2019-12-19 | 2020-05-19 | 浙江大学 | 一种基于多任务学习模型的慢病预测系统 |
US12014488B2 (en) * | 2020-03-04 | 2024-06-18 | Case Western Reserve University | Distinguishing colon cancer stages based on computationally derived morphological features of cancer nuclei |
CN113191392B (zh) * | 2021-04-07 | 2023-01-24 | 山东师范大学 | 一种乳腺癌图像信息瓶颈多任务分类和分割方法及系统 |
CN113888518A (zh) * | 2021-10-14 | 2022-01-04 | 重庆南鹏人工智能科技研究院有限公司 | 一种基于深度学习分割、分类多任务的喉咽内镜肿瘤检测及良恶性分类方法 |
-
2022
- 2022-03-25 CN CN202210306387.8A patent/CN114648509B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520518A (zh) * | 2018-04-10 | 2018-09-11 | 复旦大学附属肿瘤医院 | 一种甲状腺肿瘤超声图像识别方法及其装置 |
CN111612752A (zh) * | 2020-05-15 | 2020-09-01 | 江苏省人民医院(南京医科大学第一附属医院) | 基于Faster-RCNN的超声图像甲状腺结节智能检测系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114648509A (zh) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sheikhzadeh et al. | Automatic labeling of molecular biomarkers of immunohistochemistry images using fully convolutional networks | |
Nawaz et al. | Melanoma segmentation: A framework of improved DenseNet77 and UNET convolutional neural network | |
CN101794434B (zh) | 图像处理装置及图像处理方法 | |
KR101953627B1 (ko) | 다중 파라메터 자기공명영상에서 전립선 주변부 영역의 전립선암 자동 검출 및 국소화 방법 | |
WO2018176189A1 (zh) | 图像分割的方法及系统 | |
Xu et al. | Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients | |
Ström et al. | Pathologist-level grading of prostate biopsies with artificial intelligence | |
WO2022247573A1 (zh) | 模型训练方法、图像处理方法、装置、设备及存储介质 | |
Apou et al. | Detection of lobular structures in normal breast tissue | |
CN112071418B (zh) | 基于增强ct影像组学的胃癌腹膜转移的预测系统及方法 | |
CN112907581A (zh) | 一种基于深度学习的mri多类脊髓肿瘤分割方法 | |
Tanaka et al. | Value of artificial intelligence with novel tumor tracking technology in the diagnosis of gastric submucosal tumors by contrast‐enhanced harmonic endoscopic ultrasonography | |
CN114648509B (zh) | 一种基于多分类任务的甲状腺癌检出系统 | |
Starmans et al. | Classification of prostate cancer: High grade versus low grade using a radiomics approach | |
Domínguez Hernández et al. | Development of an expert system as a diagnostic support of cervical cancer in atypical glandular cells, based on fuzzy logics and image interpretation | |
Roszkowiak et al. | Clustered nuclei splitting based on recurrent distance transform in digital pathology images | |
Tyagi et al. | [Retracted] Identification and Classification of Prostate Cancer Identification and Classification Based on Improved Convolution Neural Network | |
CN117058467B (zh) | 一种胃肠道病变类型识别方法及系统 | |
Naga Raju et al. | Lung and colon cancer classification using hybrid principle component analysis network‐extreme learning machine | |
Zhang et al. | Development and validation of a radiomics model based on lymph-node regression grading after neoadjuvant chemoradiotherapy in locally advanced rectal cancer | |
CN113762395A (zh) | 一种胰胆管型壶腹癌分类模型生成方法及图像分类方法 | |
Alomari et al. | Iterative randomized irregular circular algorithm for proliferation rate estimation in brain tumor Ki-67 histology images | |
Chauhan et al. | Exploring genetic-histologic relationships in breast cancer | |
CN113870194A (zh) | 深层特征和浅层lbp特征融合的乳腺肿瘤超声图像处理装置 | |
Sun et al. | CAMELYON 17 Challenge: A Comparison of Traditional Machine Learning (SVM) with the Deep Learning Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |