背景技术
癌症一般是一种异质性疾病,具有不同的风险分级,其对应的治疗方案和预后视具体病例情况而各不相同。以乳腺癌的诊断为例,其一般先经过乳腺钼靶X射线摄影检查来初步判断病灶的性质,然后穿刺获取活体组织并染色制成样本,对染色样本进行成像,得到组织病理图像。一般组织病理图像的研究大多集中在特定组织结构的识别上,例如细胞核检测,恶性良性病理组织的分类等。这些组织的位置、大小、形状、以及一些特有的结构是疾病诊断十分重要的指标。大幅切片图像的数字扫描技术的产生和发展提高了扫描的效率以及扫描所得数字图像的分辨率,从而使组织病理切片的数字化显示和存储变得现实可行。伴随之,对数字化的组织病理图像引入了计算机辅助图像处理技术,通过采用机器学习的方法来对数字化的组织病理图像自动检测、分析和分类,能够辅助医生例如就癌症的风险分级进行诊断。
在现有的组织病理图像的分析中,目前通常采用人工细胞标定的方法来检测细胞核,人工方法费时费力,而最近出现的计算机辅助的自动检测工具能够大大便利临床医生做出快速准确诊断。从组织病理图像中几乎可以找出各种癌症细胞和组织的特征,比如癌症分级,这需要分析癌细胞的扩散状况,而要定性癌细胞的扩散状况又需要先定位癌细胞的位置。在细胞定位后,医生才能进一步分析其健康状况、异型性以及浸润情况。近年来对癌症分级的研究表明,细胞核的位置和分布是一个重要的特征,因为它对肿瘤的扩散和侵略性进行了评估。目前虽然有很多算法可以计算细胞核的位置,诸如区域生长和马尔可夫(Markov)随机场等算法,随机森林回归法等,但实现这些算法的软件几乎都仅仅对每个像素进行两分类,即是/不是构成细胞核的像素,预测结果不够精确,容易出现失真,还难以处理困难样例。近年来深度学习在图像、语音、自然语言处理等各项领域中取得的取得了突破性的进展,参见LeCun,Yann,Yoshua Bengio,and Geoffrey Hinton."Deep learning."Nature521.7553(2015):436-444,作为分析复杂图像的一种有力工具,深度学习在病理组织图像分析中的应用却很少提及。因此,需要一种方法和系统,其能够充分利用机器的深度学习技术,迅速得出组织病理图像中各个像素作为细胞核的概率的一个连续变量的分布,对细胞核位置进行更精确的描述。
大部分计算机辅助病理图像组织分析依赖于复杂的机器学习系统。复杂的机器学习系统的一个显著特点是多个模型的密切相互作用。其中,将组织病理进行数字化的显微镜检查(例如检测细胞核位置)和自动分级疾病(例如癌症分级)已成为计算机辅助图像分析的一个重要的应用。
对于癌症分级而言,在组织病理图像上提取有效的特征非常关键。只有提取出了有效的特征,诸如随机森林分类器的分类器才能对其进行正确迅速分类。目前,常见的算法直接在整张图片上提取局部特征,文献K.Mikolajczyk and C.Schmid,“A performanceevaluation of local descriptors”,IEEE Transactions on Pattern Analysis andMachine Intelligence(TPAMI),27(10):615-1630,2005对一些著名的局部区块检测算法和描述算法进行了比较和总结,并指出最好的局部描述子(特征)是SIFT(尺度不变特征转换)描述子(特征),其由Lowe在ICCV’99提出,2004年在IJCV完善总结,其对图像尺度缩放、旋转变换和光照变化情况都能保持较好的鲁棒性,并被证明是现有局部描述子中稳定性和区分性最好的,在此对其定义和细节不予详述,以上文献通过引用结合于此。但是SIFT特征最大的缺陷是无法准确的在细胞核附近提取局部特征,一旦在整张图片上提取SIFT特征,其中可能包含了大量的SIFT特征点取自图像背景而不是细胞核附近,因此引入了大量冗余信息,
因此,需要一种对组织病理图像进行分析的方法和系统,尤其需要一种在组织病理图像上提取有效特征的方法和系统,该有效特征能够兼备SIFT特征的高鲁棒性、稳定性和区分性,尽量避免冗余信息的引入,还能反映细胞核位置的分布状况进而反映与之相关的病理状况(比如癌细胞的扩散状况),提取和传输迅速且消耗资源少,利用传统的随机森林分类器也能够得出迅速且精确的分类。
发明内容
针对以上意识到的技术问题,本发明的第一方面提供了一种对组织病理图像进行分析的方法,所述方法包括以下步骤:
获取数字化的组织病理图像;
利用深度学习算法确定所述组织病理图像中各个像素为细胞核
成分的概率分布图;以及
对所述概率分布图进行聚类处理以确定细胞核的中心位置。
优选地,利用深度学习算法确定所述组织病理图像中各个像素为细胞核成分的概率分布图的步骤包括:读入由人工对组织病理图像进行标注的细胞核黄金标准;根据距离变换在组织病理图像内构建归一化的区域黄金标准;在人工标注出的细胞核中心附近,随机提取检测细胞核的训练样本;利用所提取的训练样本对深度回归模型进行训练;将训练完成的深度回归模型应用于新获取的数字化的组织病理图像。
优选地,所述训练样本为细胞核中心附近的数字化的组织病理图像的区域连同对应的黄金标准得分。
根据本发明的第二方面,提供了一种对组织病理图像进行分析的方法,包括以下步骤:
在数字化的组织病理图像中,检测出细胞核的中心位置;
根据细胞核的中心位置提取在数字化的组织病理图像中的细胞核分布的图结构特征;
对所述图结构特征中的一个或多个进行计算,以得到细胞核分布的全局特征;
直接在细胞核位置附近提取局部特征;
将所述全局特征和所述局部特征融合得到融合特征;以及
利用分类器对所述融合特征进行分类。
优选地,所述方法还包括:对所述全局特征和/或局部特征进行缩减,然后将所得到的全局特征和局部特征融合得到所述融合特征。
优选地,细胞核的中心位置利用深度学习算法来检测。优选地,所述局部特征为SIFT特征,或者由深度学习提取的特征的词袋特征。
优选地,利用向量空间模型(VSM)算法、词频-逆向文本频率(TF-IDF)算法和潜在语义分析(LSA)算法等对SIFT特征的词袋特征(Bag-of-words)进行处理,以得到缩减后的局部特征。
优选地,所述深度学习算法包括:读入由人工对组织病理图像进行标注的细胞核黄金标准;根据距离变换在组织病理图像内构建归一化的区域黄金标准;在人工标注出的细胞核中心附近,随机提取检测细胞核的训练样本;利用所提取的训练样本对深度回归模型进行训练;将训练完成的深度回归模型应用于新获取的数字化的组织病理图像。
优选地,缩减能够通过从所述全局特征和/或局部特征中选择一个或多个来实现。
本发明的第三方面提供了一种对组织病理图像进行分析的系统,所述系统包括:
高分辨率病理切片扫描器,其用于将染色的组织病理切片扫描到计算机中,以得到高分辨率的数字化组织病理图像;以及
所述计算机,其被配置成:利用深度学习算法确定各个像素为细胞核成分的概率分布图;以及对所述概率分布图进行聚类以确定细胞核的中心位置。
优选地,所述计算机还配置为:缩减所述细胞核分布的全局特征,并将缩减后的全局特征利用分类器进行分类。
优选地,所述计算机还配置为:利用深度学习得到的细胞核的中心的位置,直接在细胞核的位置附近提取局部特征。
优选地,所述计算机还配置为:利用深度学习得到的细胞核的中心的位置,提取在数字化的组织病理图像中的细胞核分布的图结构特征,并从其计算得到细胞核分布的全局特征。
优选地,所述计算机还配置为:将缩减或未缩减的局部特征和全局特征融合得到融合特征,并利用分类器对融合特征进行分类。
具体实施方式
如图1所示,根据本发明一实施例的利用深度学习算法对细胞核进行检测的方法包括如下步骤:
S1:读入由人工对组织病理图像进行标注的细胞核黄金标准,所谓的细胞核黄金标准是人工标记的细胞核位置,只有细胞核一个像素点的位置信息;
S2:根据距离变换在组织病理图像内构建区域黄金标准,使得细胞核附近的每个像素都获得一个分数来衡量该像素到细胞核的距离,分数落在0-1的范围内,细胞核中心处分数为1,距离细胞核越远分数越低,背景部分则为0,如图2所示的提取的训练样本中,最上方训练样本所在区域的得分是1,其恰好落在细胞核中心上,中间训练样本所在区域的得分是0.5,其只有一半落在细胞核中心上,最下方训练样本所在区域的得分是0,其中没有任何细胞核成分;
S3:读入该组织病理图像,例如可以通过高分辨率整体切片扫描器,将染色的组织病理切片扫描到计算机中,得到数字化的组织病理图像;
注意,步骤S1和S2与步骤S3之间没有前后关系的限定,只要步骤S2和S3所得到的数据,包括组织病理图像连同其中各个区域的黄金标准的分数分布,都提供给步骤S4即可;
S4:在数字化的组织病理图像中已经人工标注出的细胞核中心的附近,随机提取检测细胞核的训练样本,如图2所示,例如,所述训练样本为细胞核中心附近的数字化的组织病理图像的小块图像区域和对应的黄金标准得分,图2中示例了三个训练样本,最上方训练样本所在区域的得分是1,其恰好落在细胞核中心上,中间训练样本所在区域的得分是0.5,其只有一半落在细胞核中心上,最下方训练样本所在区域的得分是0,其中没有任何细胞核成分;
S5:利用S4中所提取的训练样本对深度回归模型进行训练。通过将所提取的训练样本输入到深度回归模型,多层迭代后得到目标值,包括准确度和损失度等,以最大化/最小化相应的目标值为方向对深度回归模型进行训练调整,直到收敛为止,如图3所示,输出为1个节点;
目前有多种用于训练深度回归模型的深度学习网络,如图3所示,包括深度学习工具Caffe(详细说明可以在以下论文中得到:Convolutional Architecture for FastFeature Embedding.Jia,Yangqing and Shelhamer etc.arXiv preprint arXiv:1408.5093,2014),TensorFlow(详细说明可以参见https://www.tensorflow.org/),Theano(详细说明可以参见http://deeplearning.net/software/theano/),用户可以根据需要对这些模型进行定制,包括自行提供模型定义、优化设置和预训练权重等。例如,可以采用的由用户定义的CaffeNet深度学习网络来训练深度回归模型,通过将所提取的训练样本的数据提供给底层的数据层,层层迭代后从顶层的准确度层和损失度层输出作为目标值的准确度和损失度,驱动该CaffeNet进行学习,直到损失函数收敛为止,从而得到训练完成的深度学习模型;
以上步骤S1到S5共同构成了基于数字化的组织病理图像得到训练完成用于检测细胞核的深度学习模型的过程。该训练完成的深度学习模型就可以被随时调用用于后续各种组织病理图像的细胞核检测,且检测速度快、检测结果准确度高,在临床上大大便利了医生的诊断。
接着是步骤S6,在数字化的组织病理图像中,用训练完成的深度学习模型对每个像素点进行预测,得到该像素为细胞核成分的概率;
S7:对所得的数字化的组织病理图像中的各个像素的细胞核的概率的分布图,通过聚类分析来确定细胞核的中心位置。注意,不仅能够得到一个细胞核的中心位置的确定结果,还能得到各个像素为细胞核成分的概率的分布图,这样一个连续变量的分布图示对细胞核位置进行了更精确的描述,参考此分布图相较现有技术的像素的二分类,能够保留邻近若干像素的概率之间的具体对比关系,进而减少某个像素的误读/误分类对细胞核定位的影响。
在检测到细胞核的中心的位置后,可以根据细胞核的中心的位置提取在数字化的组织病理图像中的细胞核分布的图结构特征。例如,可以以所确定的细胞核的中心作为顶点构造沃罗诺伊图(Voronoi diagram)、德洛内三角剖分(Delaunay Triangulation)和最小跨越树(Minimum Spanning tree),分别如图4(a)-4(c)所示。
下面对如何构造上述图结构特征进行说明。
定义完全的无向图其中,O={o1,o2,...,oL}是与细胞核的中心的集合对应的顶点集合,E={E1,E2,...,Em}是连接细胞核中心的边缘集合,使得且W={W1,W2,...,Wn}是与每个e∈E的长度成正比的权重集合。
●沃罗诺伊图
沃罗诺伊图是的扩展子图,被定义为围绕所有核中心O的一组多边形P={P1,P2,...,PL},每个像素c∈C连接到最近的核中心o∈O(经由欧几里得距离)并被增加到关联的多边形P∈P。在一幅数字化的组织病理图像上,针对所有P上的面积、周长和弦长可以计算平均值、标准偏差、最小值/最大值的比率和失调率(即标准偏差除以平均值),作为细胞核分布的全局特征。优选地,可以从中选择一个或多个全局特征作为缩减后的全局特征。
●德洛内三角剖分图
德洛内三角剖分图是的生成子图和的对偶图。对其进行构造,使得如果Pi,Pj∈P共享一条边,其中,i,j∈{1,2,...,L},它们的细胞核中心oi,oj∈O由边缘(oi,oj)∈ED连接。在一幅数字化的组织病理图像上,针对德洛内三角剖分图中所有三角形的边长和面积可以计算平均值、标准偏差、最小值/最大值的比率和失调率,作为细胞核分布的全局特征。优选地,可以从中选择一个或多个全局特征作为缩减后的全局特征。
●最小跨越树
跨越树是的生成子图。通过对所有各个权重W∈WS求和确定每个子图的总权重最小跨越树是具有最低总权重的跨越树,使得在一幅数字化的组织病理图像上,针对中的所有分支计算分支长度的平均值、标准偏差、最小值/最大值比率和失调率,作为细胞核分布的全局特征。优选地,可以从中选择一个或多个全局特征作为缩减后的全局特征。
可以通过细胞核分布的各种图结构特征中的任何一种或多种,得到细胞核分布的全局特征,进而从所得到的细胞核分布的全局特征中,可以选择一个或多个作为缩减后的全局特征,用于直接利用例如随机森林分类器进行分类。
利用深度学习得到的细胞核中心的位置,还能够直接在细胞核位置附近提取局部特征,该局部特征可以为SIFT特征但并不限于此,该局部特征也可以是由深度学习提取的特征(包括SIFT特征)的词袋特征。将该局部特征与上述(未缩减或缩减后的)全局特征融合得到融合特征。如此,避免了在提取局部特征时引入大量冗余信息,同时,将局部特征与全局特征融合又可以精确地获取组织病理图像总体上的病理特点兼顾细节上的病理特点,提高了计算机辅助癌症评级的效率和精确度。
图5示出根据本发明二实施例的对组织病理图像进行分析的方法的流程图。如图5所示,该方法包括如下步骤:
S1:读入数据。
S2:检测细胞核位置,可以利用以上所描述的深度学习的方式来检测细胞核位置,也可以利用现有的例如人工标注、区域生长和马尔可夫(Markov)随机场等算法、随机森林回归法等。检测细胞核位置的方式包括但不限于以上。
S3:根据所检测到的细胞核位置,提取细胞核分布的图结构特征,包括但不限于上述的沃罗诺伊图、德洛内三角剖分图和最小跨越树等。这些图结构特征包括但不局限于形状参数,包括边长、弦长、周长、面积等,求取平均值、标准偏差、最小值/最大值的比率和失调率等。此外,多种图结构特征可以选择一种或多种作为缩减后的特征。
S4:通过将关键点设置在细胞核位置的附近,提取SIFT局部特征,如何提取SIFT局部特征在所引用的文献K.Mikolajczyk and C.Schmid,“A performance evaluation oflocal descriptors”,IEEE Transactions on Pattern Analysis and MachineIntelligence(TPAMI),27(10):615-1630,2005以及Lowe的论著中有详细记载,在此不赘述。在此以SIFT局部特征作为利用深度学习算法或者现有算法在细胞核位置附近提取的局部特征的示例,但局部特征并不限于此。
S5:计算SIFT局部特征的词袋特征,可以利用各种方式来计算词袋特征,例如申请号为201410287639、申请日为2014年6月24日且发明名称为“字典学习、视觉词袋特征提取方法及检测系统”的中国专利申请中就公开了一种对SIFT局部特征向量进行计算以得到词袋特征的方法和系统,现有技术中尤其搜索领域中也有多种计算词袋特征的方法,在此不一一列举。
计算词袋特征后,可以进一步将其优化,包括但不限于利用词频-逆向文本频率(TF-IDF)算法和主成分分析(PCA)算法等对SIFT局部特征的词袋特征进行处理,以得到缩减后的局部特征。例如Fei-Fei Li;Perona,P.(2005)."A Bayesian Hierarchical Modelfor Learning Natural Scene Categories".2005IEEE Computer Society Conferenceon Computer Vision and Pattern Recognition(CVPR'05)的文献中已经说明了关于TF-IDF算法和PCA算法的定义和处理方法,在此并入作为参考。
S6:融合缩减后的全局特征和缩减后的局部特征作为融合特征。融合的方式可以通过将相应的全局特征向量和局部特征向量拼合成一个融合特征向量。这仅仅是一个优选的示例,通过融合均缩减后的全局特征和局部特征能够在确保分类精确度的同时控制特征的维度,从而节省计算和传输数据的成本和时间。而在资源和时间相对充裕的情况下,如果需要,进行融合的双方的全局特征和局部特征中的至少一个可以不经缩减,以更全面地反映组织病理状况的特点。
S7:采用随机森林分类器对融合特征进行分类。如此能够用于进一步经由后续的处理和算法来估计组织的病理状态,例如癌症评级等。
以上方法可以在计算机中实现,本发明也相应地提供了一种对组织病理图像进行分析的系统,所述系统包括:高分辨率病理切片扫描器,其用于将染色的组织病理切片扫描到计算机中,以得到高分辨率的数字化组织病理图像;以及所述计算机,其被配置成:利用深度学习算法确定各个像素为细胞核成分的概率分布图;以及对所述概率分布图进行聚类以确定细胞核的中心位置。图5和以上的相关描述给出了该深度学习算法的应用的一个示例,该示例仅仅作为说明而非限制。
优选地,所述计算机还可以被配置为:根据细胞核的中心的位置提取在数字化的组织病理图像中的细胞核分布的图结构特征,并从其计算得到细胞核分布的全局特征。优选地,所述计算机还可以被进一步配置为:缩减所述细胞核分布的全局特征,并将缩减后的全局特征利用分类器进行分类。
进一步地,所述计算机还可以被进一步配置为:利用深度学习得到的细胞核的中心的位置,还能够直接在细胞核的位置附近提取局部特征。通过将局部特征限定在细胞核附近,大大减少了冗余的信息,提高了数据的计算和传输速度,同时依然反映了组织病理图像中对于诊断关键的状态细节。该局部特征可以利用分类器进行分类,优选地可以将该局部特征(进行或不进行缩减)与上述(未缩减或缩减后的)全局特征融合得到融合特征,并利用分类器对融合特征进行分类。通过对融合特征的引入和分类,可以兼顾组织病理图像中对于诊断关键的状态细节和整体分布特点,提高分类的精确度。
以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本领域的普通技术人员而言,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,但这些改进和修饰也落入本发明权利要求请求保护的范围内。