基于ResNet的宫颈癌TCT数字切片数据分析系统
技术领域
本发明属于深度学习在医疗领域的应用,具体涉及一种基于ResNet的宫颈癌TCT数字切片数据分析系统。
背景技术
随着卷积神经网络的出现和深度神经网络的完善,近些年来基于深度学习的人工智能计算机视觉飞速发展,斯坦福大学计算机系终身教授李飞飞曾表示如今人工智能的水平已经可以开始对医疗健康领域做出贡献。
人工智能(AI)最大的特点就是学习快,基于深度学习的人工智能模型拥有随机参数的深度神经网络医学模型,然后把经过标注的数据对模型进行训练,出现误差后调整模型参数,再辅助以医学知识,通过大量的训练之后形成精准的医学辅助诊断模型,从而可以完成医学影像的判读。深度学习网络的深度对最后的分类和识别的效果有着很大的影响,所以正常想法就是能把网络设计的越深越好,但是事实上却不是这样,常规的网络的堆叠(plain network)在网络很深的时候,效果却越来越差了。这里其中的原因之一即是网络越深,梯度消失的现象就越来越明显,网络的训练效果也不会很好。但是现在浅层的网络(shallower network)又无法明显提升网络的识别效果了,所以要解决的问题就是怎样在加深网络的情况下又解决梯度消失的问题。ResNet引入了残差网络结构(residualnetwork),通过残差网络,可以把网络层弄的很深,可以达到1000层以上,最终的网络分类的效果也是非常好。它对每层的输入做一个reference,学习形成残差函数,而不是学习一些没有reference的函数。这种残差函数更容易优化,能使网络层数大大加深。
宫颈癌是常见的妇科恶性肿瘤之一,发病率在女性恶性肿瘤中居第二位,仅次于乳腺癌。宫颈癌是世界上唯一病因明确的恶性肿瘤,高危型HPV持续感染是引起宫颈癌的主要因素。目前,国内宫颈癌筛查尚无统一的流程,有的医院是TCT+HPV联合筛查,有的则沿用单纯的宫颈刮片检查,多数进展为只做TCT检查,有的是先做HPV检测,TCT用来分流。
其中TCT(Thinprep cytologic test)是新柏氏液基细胞学检测的简称,是一种由美国Hologic公司于1996年获得FDA认证的液基细胞学检测产品。它采用液基薄层细胞检测系统检测宫颈细胞并进行细胞学分类诊断,是目前国际上较先进的一种宫颈癌细胞学检查技术,与传统的宫颈刮片巴氏涂片检查相比明显提高了标本的满意度及宫颈异常细胞检出率。
宫颈癌是女性常见恶性肿瘤,其发病仅次于乳腺癌,居第二位,调查显示世界范围内的宫颈癌新发病例有85%在经济欠发达地区。宫颈癌筛查虽然大大减少了宫颈癌的发病率与死亡率,但在发展中国家,宫颈癌的发病率与死亡率仍比发达国家高。由于我国人口基数大、卫生资源短缺、病理医生缺乏,尤其是细胞病理学医生严重不足,导致缺乏足够人力去完成大量的宫颈癌的TCT检测分析,因此快速准确地分析大量TCT数字切片成为宫颈癌检测普及的关键瓶颈。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于ResNet的宫颈癌TCT数字切片数据分析系统,本发明基于ResNet的宫颈癌TCT数字切片数据分析系统使用ResNet对宫颈癌的TCT数字切片数据进行检测,与传统的宫颈癌检测方法相比,可节省图像医疗诊断时间以及成本,提升诊疗准确率。
为实现上述技术目的,本发明采取的技术方案为:
一种基于ResNet的宫颈癌TCT数字切片数据分析系统,包括:
编码器训练模块:用于获取宫颈TCT数字切片图像内的阳性区域,基于获取的阳性区域样本训练自动编码器,得到训练好的自动编码器;
分类器训练模块:用于将获取的阳性区域输入到训练好的自动编码器,获得阳性区域中的阳性特征,将多个阳性区域中的阳性特征作为样本对单类SVM分类器进行训练,得到训练好的单类SVM分类器;
ResNet分类模型训练模块:用于获取宫颈TCT数字切片图像内的阳性区域和宫颈TCT数字切片图像内的阴性区域,将多个阳性区域作为正样本,多个阴性区域作为负样本,对ResNet分类模型进行训练,得到训练好的ResNet分类模型;
图像切割模块:用于获取患者的TCT玻片扫描图像,对TCT玻片扫描图像进行图像均匀切割,获得多个均匀切割后的图像块;
特征提取模块:用于将所有的图像块输入到训练好的自动编码器内从而提取特征,所提的特征进一步输入单类SVM分类器中,从而提取出属于阳性区域的图像块,上述提取出的所有的图像块均判断为疑似阳性区域;
判断模块:对提取的图像块进行预处理并将处理后的图像块输入到训练好的ResNet分类模型,获取图像块的病变置信度,预先设定置信度阈值,将病变置信度高于置信度阈值的图像块判断为阳性区域。
作为本发明进一步改进的技术方案,所述的ResNet分类模型训练模块还用于:
a)获取宫颈TCT数字切片图像内的阳性区域和宫颈TCT数字切片图像内的阴性区域,多个阳性区域作为正样本,多个阴性区域作为负样本;
b)通过图像数据增强方法对正样本和负样本进行增强;
c)将正样本、负样本、增强后的正样本和增强后的负样本均作为ResNet分类模型的输入并进行训练,得到训练好的ResNet分类模型。
作为本发明进一步改进的技术方案,所述图像切割模块中的对TCT玻片扫描图像进行图像均匀切割为:遍历整个TCT玻片扫描图像维度,以步长为270像素且大小为300像素对TCT玻片扫描图像进行均匀切割。
作为本发明进一步改进的技术方案,所述判断模块中对提取的图像块进行预处理为对提取的图像块进行双边滤波处理和归一化处理。
本发明的有益效果为:
(1)本发明采用深度学习框架对患者的TCT玻片扫描图像的类别进行识别,降低了人工识别成本;而且本系统采用大数据分析的方法对TCT玻片扫描图像进行分割、识别、获取、过滤等,只需要基于历史数据进行模型搭建,从一定程度上减轻了人工识别压力,也降低了人工判别宫颈癌患病可能性的成本。
(2)本发明系统提高了TCT玻片扫描图像的图像块(TCT数字切片)的识别效率。传统的识别方式是医生通过显微镜观察进行识别、鉴定等,识别时间长,而本发明则通过统计机器学习模型进行评估,不仅节约成本而且方便有效。
(3)本发明通过TCT玻片扫描图像的图像块(TCT数字切片)预测是否罹患宫颈癌的方式优于传统方式。传统的识别方法是凭借医生的经验以及技术进行的,且很可能会因为人为因素发生误诊或者漏诊的问题,而采用基于机器学习的统计模型检测,在进一步提升识别准确率的同时能够防止外界因素的干扰,而且还能降低对识别人员的技术要求门槛。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面根据图1对本发明的具体实施方式作出进一步说明:
参见图1,一种基于ResNet的宫颈癌TCT数字切片数据分析系统,包括:
(1)编码器训练模块:用于获取宫颈TCT数字切片图像内的阳性区域,其中宫颈TCT数字切片图像内的阳性区域由医生标注得到的,基于获取的阳性区域样本训练自动编码器,得到训练好的自动编码器;
(2)分类器训练模块:用于将获取的阳性区域输入到训练好的自动编码器,获得阳性区域中的阳性特征,将多个阳性区域中的阳性特征作为样本对单类SVM分类器进行训练,得到训练好的单类SVM分类器;
(3)ResNet分类模型训练模块:用于获取宫颈TCT数字切片图像内的阳性区域和宫颈TCT数字切片图像内的阴性区域,将多个阳性区域作为正样本,多个阴性区域作为负样本,对ResNet分类模型进行训练,得到训练好的ResNet分类模型;其中阴性区域也由医生标注得到的;
(4)图像切割模块:用于获取患者的TCT玻片扫描文件,利用openslide工具读取TCT玻片扫描文件,获得TCT玻片扫描图像,对TCT玻片扫描图像进行图像overlap均匀切割,获得多个均匀切割后的图像块;
(5)特征提取模块:用于图像过滤获得疑似阳性区域:将所有的图像块输入到训练好的自动编码器内从而提取特征,所提的特征进一步输入单类SVM分类器中,判断该图像块是否属于阳性区域的类别,从而提取出属于阳性区域类别的图像块,上述提取出的所有的图像块均判断为疑似阳性区域;
(6)判断模块:对提取的图像块进行预处理并将处理后的图像块输入到训练好的ResNet分类模型,获取图像块的病变置信度,预先设定置信度阈值,将病变置信度高于置信度阈值的图像块判断为真实的阳性区域,输出的阳性区域则进一步呈现给医生进行诊断。
所述的ResNet分类模型训练模块还用于:
a)获取宫颈TCT数字切片图像内的阳性区域和宫颈TCT数字切片图像内的阴性区域,多个阳性区域作为正样本,多个阴性区域作为负样本;
b)通过图像数据增强方法对正样本和负样本进行增强;
c)将正样本、负样本、增强后的正样本和增强后的负样本均作为ResNet分类模型的输入并进行训练,得到训练好的ResNet分类模型。
所述的图像切割模块中的对TCT玻片扫描图像进行图像均匀切割为:遍历整个TCT玻片扫描图像维度,以步长为270像素且大小为300像素对TCT玻片扫描图像进行均匀切割。
所述判断模块中对提取的图像块进行预处理为对提取的图像块进行双边滤波处理和归一化处理。
所述的ResNet分类模型的效果如下:
模型输入数据:TCT镜检图片;
数据集介绍:病变5385张,具体为:高度病变:2331张;低度病变:2464张;疑似病变:1027张;正常:5385张,本实施例中的病变属于阳性,正常属于阴性,因此训练样本共11207张图片,其中阴性样本(负样本)为5385张,阳性样本(正样本)为5822张;
模型效果:
测试的正负样本比例分别为:Test1为200:0,Test2为200:300,Test3为200:600,Test4为200:900,Test5为200:1200,Test6为200:1500,Test7为200:1800的情况下,置信度阈值为0.5,将上述测试的正负样本分别输入到训练好的ResNet分类模型,判断输出的病变置信度与置信度阈值的大小,若病变置信度大于置信度阈值,则当前样本预测为阳性区域,如果该标签与原始标签一致(其中原始标签为人工识别标注得到的),则判断正确,阳性测试样本的准确率为阳性测试样本的正确的个数除以阳性测试样本的总体个数,阴性测试样本的准确率为阴性测试样本的正确的个数除以阴性测试样本的总体个数,上述的阳性准确率(灵敏度)、阴性准确率(特异度)、总体准确率统计如下:
指标 |
Test1 |
Test2 |
Test3 |
Test4 |
Test5 |
Test6 |
Test7 |
阳性准确率 |
0.86 |
0.86 |
0.86 |
0.86 |
0.86 |
0.86 |
0.86 |
阴性准确率 |
0.0 |
0.85 |
0.837 |
0.837 |
0.836 |
0.836 |
0.837 |
总体准确率 |
0.86 |
0.854 |
0.8425 |
0.841 |
0.839 |
0.839 |
0.8395 |
因此,本发明采用深度学习框架对TCT数字切片类别进行识别,降低了人工识别成本;而且本系统采用大数据分析的方法对TCT数字切片图像进行分割、识别、获取、过滤等,只需要基于历史数据进行模型搭建,从一定程度上减轻了人工识别压力,也降低了人工判别宫颈癌患病可能性的成本。本系统提高了TCT数字切片的识别效率。传统的识别方式是医生通过显微镜观察进行识别、鉴定等,识别时间长,而本系统则通过统计机器学习模型进行评估,不仅节约成本而且方便有效。本系统通过TCT数字切片预测是否罹患宫颈癌的方式优于传统方式。传统的识别方法是凭借医生的经验以及技术进行的,且很可能会因为人为因素发生误诊或者漏诊的问题,而采用基于机器学习的统计模型检测,在进一步提升识别准确率的同时能够防止外界因素的干扰,而且还能降低对识别人员的技术要求门槛。