CN102687007B - 利用分层标准化切割的高处理量生物标志物分割 - Google Patents

利用分层标准化切割的高处理量生物标志物分割 Download PDF

Info

Publication number
CN102687007B
CN102687007B CN201080051821.8A CN201080051821A CN102687007B CN 102687007 B CN102687007 B CN 102687007B CN 201080051821 A CN201080051821 A CN 201080051821A CN 102687007 B CN102687007 B CN 102687007B
Authority
CN
China
Prior art keywords
data
image
original image
hncut
print
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080051821.8A
Other languages
English (en)
Other versions
CN102687007A (zh
Inventor
A·雅诺维茨克
S·钱德兰
A·马达布什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rutgers State University of New Jersey
Original Assignee
Rutgers State University of New Jersey
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rutgers State University of New Jersey filed Critical Rutgers State University of New Jersey
Publication of CN102687007A publication Critical patent/CN102687007A/zh
Application granted granted Critical
Publication of CN102687007B publication Critical patent/CN102687007B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/695Preprocessing, e.g. image segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30072Microarray; Biochip, DNA array; Well plate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Discrete Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种用于获得染色区域分割图像的方法和设备可以包括:量化样本原始图像中生物标志物染色的存在范围,其可以包括基于用户指定的域知识选择数据的域样片;通过对原始图像之内的数据执行频率加权均值平移来对所述原始图像之内的数据进行聚类,以收敛形成分层的多层,每层具有不同的数据分辨率以形成分层数据锥体;分割所述多个均值平移数据图像以确定所述分层数据锥体之内的每个均值平移数据图像中未排除在所述样片之外的数据;在空间上将未排除在所述样片之外的数据映射回所述原始图像以生成最终图像;以及在存储介质上存储所述最终图像以进行进一步分析。

Description

利用分层标准化切割的高处理量生物标志物分割
交叉引用
本申请要求享有2010年1月13日提交,题为“HIERARCHICALNORMALIZED CUTS:HIGH-THROUGHPUT BIOMARKERSEGMENTATION”的美国临时专利申请No.61/294703,以及2009年9月18日提交,题为“SYSTEM AND METHOD FOR AUTOMATEDDETECTION AND IDENTIFICATION OF DISEASE AND DISEASEMARKERS FROM BIOLOGICAL IMAGES”的申请No.61/276986的优先权,在此通过引用将其每者公开的全文并入。
政府资助声明
所述主题不是在政府支持下做出的。
技术领域
公开的主题涉及通过分割对组织样本中生物标志物进行快速定量分析,分割尤其是利用分层(hierarchical)标准化切割提供高处理量分析的生物标志物分割。
背景技术
随着全切片数字扫描器的出现,组织学数据变得可进行数字和定量图像分析,如以下文献中所述:Madabhushi,A.,“Digital pathology imageanalysis:opportunities and challenges”,Imaging in Medicine,1:7-10,(2009),以及Alexe,G.等人,“Towards improved cancer diagnosis and prognosis usinganalysis of gene expression data and computer aided imaging”,ExperimentalBiology and Medicine,234:860-879(2009),在此通过引用将每者的公开并入。此外,利用组织微阵列(“TMA”)技术,能够针对各种生物标志物的存在,同时对几百个片段(组织柱面)染色。在数字未压缩形式中,这些TMA可以是几千兆字节大小,图像尺寸为100000×100000个像素。一些研究人员当前正着眼于将可容纳于单个TMA上的柱面尺寸增大到10000以上,如以下文献所述:Rui,H.等人,“Creating tissue microarrays bycutting-edge matrix assembly”,Expert Rev.Med.Devices,2(6):673-680(2005),在此通过引用并入其公开。人对这样大量的数据进行目视分析不容易实行,需要受过高度训练的观察者,并且还容易因很多原因造成不准确和/或不一致的分析。因此,需要高处理量、可再现且准确的计算机化图像分析方法对TMA之内不同生物标志物的存在和范围进行量化。本公开描述了克服现有分析技术这些缺点的这种系统。
发明内容
公开的主题涉及实现对组织样本中的生物标志物进行定量分析的新颖算法和方法。所公开的主题还涉及一种算法,其利用迭代频率加权均值平移方法在分析趋向收敛时(这里定义为表示所有点都到达基于带宽参数的其关联模式)在组织样本中各种水平的颜色分辨率下拍摄快照。
公开的主题能够准确获得染色区域的分割图像,允许更容易地进行量化和分析。公开的主题还涉及一种系统,通过从组织样本中的感兴趣类选择代表点(像素)来在很多样本间迅速提取所有类似的值。能够提供独立于用户的目标分割,其能够分析非常大量的样本,减少诸如诊断的时间、成本和用户导致的偏差的因素。公开了一种分层分割方法,其结合了频率加权均值平移(“FWMS”)和标准化切割,以获得分层标准化切割(“HNCut”)。这样的HNCut能够迅速分割非常大的图像。
利用HNCut,所公开的主题能够在具有类似颜色值的区域之间做出区分,因为所公开的HNCut技术对于参数值的选择非常不敏感。可以自动计算用于NCut的参数,并且可以基于输出的方差自动调节FWMS的参数。甚至可能由不熟练的外行对公开的系统进行初始化,从而不需要来自专家的详细基础事实注释来训练系统。该主题的公开实施例涉及在OCa TMA上精确量化血管标记物,生成基于定量图像的度量,用于OCa的预后和存活研究。
还公开了一种方法和用于执行该方法的设备,包括:(a)量化样本原始图像中生物标志物的染色的存在范围,其可以包括如下步骤:(i)基于用户指定的所述原始图像之内数据的域知识选择数据的域样片(swatch);(ii)通过对原始图像之内的数据执行频率加权均值平移来对所述原始图像之内的数据进行聚类,以收敛形成分层的多层均值平移数据图像,每层具有不同的数据分辨率以形成分层数据锥体;(iii)分割所述多个均值平移数据图像以确定所述分层数据锥体之内的每个均值平移数据图像中未排除在所述样片之外的数据;(iv)在空间上将未排除在所述样片之外的数据映射回所述原始图像以生成最终图像;以及(v)在存储介质上存储所述最终图像以进行进一步分析。根据一些实施例,方法和设备的分割步骤还包括利用标准化切割算法。根据一些实施例,数据是从包括图像颜色、强度和纹理的组中选择的。根据一些实施例,方法和设备还包括利用计算机化的图像分析机器分析最终图像以解释原始图像的病理学内容。根据一些实施例,病理学内容包括染色的生物标志物,例如,表示疾病状况的生物标志物,例如癌症,如卵巢癌。根据一些实施例,所述原始图像包括来自组织微阵列之内的组织柱面的图像。
还公开了一种方法和用于执行这种方法的设备,包括:量化样本原始图像中生物标志物染色的存在范围,其可以包括:(i)基于用户指定的所述原始图像之内数据的域知识选择数据的域样片;通过对原始图像之内的数据执行频率加权均值平移来对所述原始图像之内的数据进行聚类,以收敛形成分层的多个均值平移数据图像,其具有多层数据分辨率,以形成分层数据锥体;(ii)利用标准化切割算法分割所述多个均值平移数据图像以确定所述分层数据锥体之内的每个均值平移数据图像中未排除在所述样片之外的数据;(iii)在空间上将未排除在所述样片之外的数据映射回所述原始图像以生成最终图像;以及(iv)在存储介质上存储所述最终图像以进行进一步分析。根据一些实施例,数据是从包括图像颜色、强度和纹理的组中选择的。根据一些实施例,方法和设备还包括利用计算机化的图像分析机器分析最终图像以解释原始图像的病理学内容。
根据一些实施例,方法和用于执行这种方法的设备还包括检测和量化由于从组织微阵列拍摄的原始图像中的生物标志物而得到的染色的存在和范围,包括:(i)选择域样片;(ii)通过执行频率加权均值平移使原始图像聚类以在原始图像上收敛,形成具有多个图像的数据锥体,每个图像都具有不同水平的数据分辨率;(iii)分割多个图像的每个以确定没有因在样片之外而被消除的数据值的像点;以及(iv)在空间上将确定的像点和相应的数据值映射到原始图像。根据一些实施例,方法和设备还包括在存储介质上存储像点和相应颜色值以进行进一步分析;以及利用计算机化图像分析机器分析最终图像以解释生物标志物的存在和范围,生物标志物例如是血管生物标志物,例如血管生物标志物与疾病状况相关,例如癌症,如卵巢癌。
附图说明
为了更完整地理解公开的主题,结合附图参考以下示范性实施例的详细描述,其中:
图1(a)示出了组织微阵列(“TMA”)的缩小版本;
图1(b)示出了从图1(a)绘制的代表性放大单一提取的组织柱面;
图2示出了根据所公开主题实施例方面的HNCut过程的高层次流程图;
图3(a)示出了原始图像,基础事实被红色包围;图3(b)示出了应用频率加权均值平移(“FWMS”)过程期间色锥底部的图像,具有180万像素,但仅有44种颜色;
图3(c)示出了对图3(b)的FWMS过程的结果应用标准化切割(分层标准化切割“HNCut”)之后颜色分辨率锥体底部的图像;
图3d示出了图2方框4中所图示的最终分割的结果,具有73773个像素和1572种颜色,该结果是通过向图3a的原始图像上在空间上映射未由HNCut消除的颜色来获得的;
图4示出了概率密度函数的直观表示,图示出了(a)传统MS和(b)频率加权的MS之间的差异;
图5图示出了根据所公开主题实施例的各方面,对4个不同柱面上血管染色区域、来自HNCut的对应分割结果以及使用10个群集的k均值的基础事实注释;
图6(a)示出了假阴性(“FN”)的均值和方差;
图6(b)示出了真阳性(“TP”)的均值和方差;
图6(c)示出了针对PBT分类器(92%和97%阈值)、利用HNCut训练的PBT分类器(97%和99%的阈值)、HNCut和k均值的在130个图像上进行10轮的假阳性(“FP”)的均值和方差;
图6(d)图示出了至少在执行时间方面,HNCut显著优于PBT和k均值算法;
图7示出了选定TMA柱面间提供的两个谱带;
图7(a)和7(b)示出了原始输入,顶部给出了红色的带注释基础事实;
图7(c)和7(d)图示出了根据所公开主题实施例各方面的应用HNCut的结果;
图7(e)和7(f)示出了PBT结果;
图7(g)和7(h)示出了k均值结果;
图8(a)示出了从病理学专家获得的染色范围的红色基础事实注释;
图8(b)示出了根据所公开主题实施例的各方面利用包括7个选定像素的样片生成的分割结果;
图8(c)示出了使用与图8(b)相同的值的分割结果,添加了另外5个值;
图8(d)示出了利用从原始图像选择的18个值的分割结果;
图9(a)示出了从病理学专家获得的染色范围的基础事实分割;
图9(b)和9(c)示出了针对两个不同σMS值的分割输出;
图9(d)和9(e)分别示出了对于.01和.3的σMS值的分割输出,只是选择了不适当的域样片;
图10示出了曲线图,示出了MS和FWMS流程每次迭代的典型时间;
图11(a)示出了原始区域,基础事实被红色包围;
图11(b)示出了图11(a)的HNCut输出,其相当接近最佳分割;
图12(a)示出了原始淋巴细胞图像;
图12(b)示出了针对图12(a)的图像的HNCut分割输出;
图13(a)示出了尺寸为4000×3000的整个组织结构图像上的血管染色;
图13(b)示出了图13(a)的染色情况放大部分;
图13(c)示出了根据实施根据所公开主题实施例各方面的过程获得的其关联的近似最优分割。
具体实施方式
本专利申请中公开的主题涉及能够实现组织样本中生物标志物的快速定量分析的算法和方法。所公开的方法和算法以及实施这种方法和算法的设备能够利用迭代频率加权均值平移方法在其趋向收敛时(这里定义为表示所有点都到达基于带宽参数的其关联模式)在组织样本中各种水平的颜色分辨率下拍摄快照。
然后可以对层进行标准化切割,例如由用户指定域知识的小样片指导,然后可以映射到最终分割结果。可以在小于一分钟之内执行该流程,以准确地获得染色区域的分割图像,使得之后容易进行量化和分析。通过从组织样本的感兴趣类选择代表点(像素),该系统能够迅速提取很多样本间的所有类似值。总体方法还能够提供独立于用户的目标分割,并能够分析非常大量的样本,减少诊断的时间、成本和用户导致的偏差。在所公开主题的一个示范性实施例中,如下文详细所述,生物标志物可以是能够在卵巢癌(“Oca”)TMA上识别的特定肿瘤血管生物标志物(TVM)。
每年都有很多女性被诊断出癌症,包括卵巢癌(“Oca”),每年因病死亡的可能有几千人。这些女性的5年存活率与早期检测高度相关。最近的工作发现,生物标志物,例如特定肿瘤血管生物标志物(TVM),例如能够在OCa TMA上识别的那些,可能具有预后意义,不仅能够预测疾病的发展,而且有助于为患者定制个性化治疗方案。Buckanovich,R.等人,“TumorVascular Proteins As Biomarkers in Ovarian Cancer”,Journal of ClinicalOncology,__:852-861,(2007),(“Buckanovich”)。
生物标志物通常是通过染色发现的,例如,明确针对代表性样本上的感兴趣TVM,例如OCa TMA。精确识别染色剂的范围和强度可以提供定量且可再现的预后度量,可以帮助预测疾病复发的风险和患者的存活。
现在参考图1,示出了由反应化学染色的暗褐色区域表示的感兴趣区域中的染色细胞图像,对应于TVM内皮特异性分子-1(“ESM-1”),如Buckanovich参考文献中所述。尽管利用ESM-1染色的这种区域的范围和强度可以具有预后意义,但从病理学专家人工执行这种分割的时间和工作量方面讲,当前是不切实际的。
图1(a)示出了组织微阵列(“TMA”)20的缩小版本,图1(b)示出了从图1(a)绘制的代表性单个放大提取组织柱面。典型的TMA可能包含超过500个个体柱面,使得通过传统图像分析算法检测生物标志物非常困难。柱面可以包含大的、可能断开的“褐色”染色物质部分(可能指示存在被测试基因)和其中染色剂浸渍到细胞间的部分中的“浅”褐色伪影。尽管伪影和染色区域都可以被视为褐色的,但基因指示符是由褐色群出现在染色剂中的具体方式指示的。
大部分先前的针对TMA的计算机化图像分析算法涉及到基于阈值处理的方案,如以下文献所述:Vrolijk,H.等人,“Automated acquisition ofstained tissue microarrays for high-throughput evaluation of molecular targets”,Journal of Molecular Diagnostics,5(3),(2003)(“Vrolijk”);Wu,J.等人,Image quantification of high-throughput tissue microarray,Manduca,A.等人,“editors”,SPIE Medical Imaging,509-520页,(2006);以及Rabinovich,A.等人,“Framework for parsing,visualizing and scoring tissue microarrayimages”,IEEE Transactions on Information Technology in Biomedicine,10(2):209-219,(2006)。已知这些方法对轻微的颜色和照度变化也高度灵敏。还针对TMA的分析研究了Vrolijk参考文献中论述的基于聚类的方法,包括k均值。不过,k均值是非确定性算法,对于群集中心的初始选择高度灵敏,如下文中所述:Zhong,W.等人,“Improved k-means clustering algorithmfor exploring local protein sequence motifs representing common structuralproperty”,NanoBioscience,IEEE Transactions on,4(3):255-265,(2005)。
尽管诸如概率串联增强树(PBT)的监督学习方法已经对于图像分类和分割变得流行,但这些方法受到难于从专家获得基础事实分割以进行感兴趣对象的分类器训练的约束,如下文所述:Carneiro,G.等人,“Detection andmeasurement of fetal anatomies from ultrasound images using a constrainedprobabilistic boosting tree”,IEEE Trans.Med.Imaging,27(9):1342-1355(2008)(“Carneiro”),概率串联增强树如下文所述:Tiwari,P.,“Spectralembedding based probabilistic boosting tree  (ScEPTre):classifying highdimensional heterogeneous biomedical data”,Medical Image Computing andComputer Assisted Intervention(MICCAI),1:844-851(2009)和(“Tu”),Z.,“Probabilistic Boosting-tree:learning discriminative models forclassification,recognition and clustering”,ICCV’5:Proceedings of the TenthIEEE International Conference on Computer Vision,1589-1596页,WashingtonDC,USA(2005),IEEE Computer Society。如果只有医疗从业者能够提供准确的注释,那么对数据进行人工注释,除了耗时繁重之外,还可能很昂贵。此外,如果感兴趣的目标变化,可能需要相当多工作来产生新的注释并重新训练分类器。
在一个实施例中,公开的主题涉及一种方法和系统,利用灵活、鲁棒、准确而高处理量的无监督分割算法(本申请人称为分层标准化切割算法(“HNCut”)),检测和量化样本之内,例如由于血管生物标志物(例如对于卵巢癌(OCa)),例如在组织微阵列(“TMA”)中,导致的染色的存在和范围。
HNCut的高处理量方面是利用分层表示的数据结构获得的,其中公开的主题结合两种图像分割算法-频率加权均值平移(FWMS)算法和标准化切割算法(NCut)。HNCut迅速横断从输入图像产生的分层锥体,输入图像是均值平移的以生成各种颜色分辨率,实现大图像的快速分析(例如,在标准2.8GHz台式PC上低于6秒之内1500×1500大小的图像)。HNCut还能够容易推广到其他问题领域,仅需要来自感兴趣对象的一些代表性像素(样片)的规格,以便分割目标类。
可以在如下应用的具体背景下评估公开的主题:在例如OCa组织微阵列(例如从多位患者获得)的130个样本上分割血管标记物。在相对于病理学家注释的基础事实评估时,申请人发现HNCut算法具有82%和70%的检测灵敏度和阳性预测价值(PPV)。比较起来,流行的监督分类器(概率串联增强树)仅能够分别实现85%和53%的灵敏度和PPV,与根据公开的主题的HNCut方面相比,有62%的额外计算时间。
因此,公开的主题涉及用于自动识别目标类的快速、灵活和宽泛适用的分层无监督分割方法(HNCut)。在公开主题的实施例中,描述了将HNCut特定应用于如下问题:自动化定量染色剂范围,例如与血管标记物相关联的染色剂范围,例如针对TMA上的OCa。公开的主题能够提供HNCut的方法描述。描述了根据公开的主题分割TVM中的定性和定量评估结果。
公开的主题结合功能强大的无监督聚类技术(均值平移,如下文所述:Fukunaga,K.等人,“The estimation of the gradient of a density function,withapplications in pattern recognition”,Information Theory,IEEE Transactions on,21(1):32--40(1975)(“Fukunaga”)),曲线图划分方案(标准化切割,如下文所述:Shi,J.等人,“normalized cuts and image segmentation”,IEEETrans.PAMI,22(8):888-905(2000)(“Shi”))功能同样强大。作者在其中论述了一种方法,用于相对于图像解决视觉中的知觉分组问题,目的在于通过将图像分割作为图划分问题来处理从而提取图像的全局印象。据说,用于通过标准化切割标准分割图的标准化切割测量不同组像素之间的总体差异以及像素组之内的总体相似性。通过在颜色空间中进行聚类和划分(与像素水平的分类相反),根据所公开主题的HNCut算法可以是高效且准确的。
HNCut算法仅需要从目标类指定一些代表性像素,与更传统的监督分类算法不同的是,不需要更详细的目标对象注释。更重要的是,与监督方案相比,HNCut算法在其分割不同对象类的能力方面更加灵活。根据公开的主题,组合HNCut方法和算法以及实施这种方法和算法的设备的高处理量效率和灵活性使其理想地适于量化TMA上生物标志物的表达。
根据公开主题的一方面,本申请的HNCut算法采用流行均值平移聚类技术的变体,称为频率加权均值平移(“FWMS”)。均值平移(MS)算法一开始是在Fukunaga参考文献中提出的,在Carneiro参考文献中加以修改,成为针对模式发现,替代k均值使用的无监督技术。MS试图通过尝试识别预定义带宽之内的群集均值来克服流行的聚类方案的弱点。利用最陡峭梯度方法,可以发现快速收敛到统计数据的该组真实均值,如下文所述:Cheng,Y.,“Mean shift,mode seeking,and clustering”,Pattern Analysis andMachine Intelligence,IEEE Transactions on,17(8):790-799(1995)。
如下文所述的MS算法的改进型快速高斯变换(IFGT)实施使得大图像的计算时间变得合理:Yang,C等人,“Improved fast Gauss transform andefficient kernel density estimation”,IEEE ICCV,1:664-671(2003)(“Yang”)。出于本申请的目的,除了执行速度之外,在IFGT-MS和MS之间没有差异。标准化切割(NCut)算法是从一系列图切割技术,从最大切割到最小切割沿袭下来的,如下文[13]所述:Vazirani,V.,“Approximation Algorithms”,Springer(2004);Garey,M.等人,“Computers and Intractability;A Guide toThe Theory of NP-Completeness”,W.H.Freeman&Co.,New York,NY,USA(1990);以及Wu,Z.等人,“An optimal graph theoretic approach to dataclustering:theory and its application to image segmentation”,Pattern Analysisand Machine Intelligence,IEEE Transactions on,15(11):1101-1113(1993)。尽管有如下主要缺点,它仍然是一种流行的方案:(1)确定亲和(affinity)矩阵需要大量计算,(2)特征值计算消耗时间。不过,对于大的图像,这些的计算和开销接近不可行,如Shi中所述。因此,大量的研究集中于避免这种直接计算,如下文所述:Dhillon,S.等人,“Weighted Graph Cuts withoutEigenvectors A Multilevel Approach”,IEEE Trans.PAMI,29(11):1944-1957(2007)和Chandran,S.等人,“Improved Cut-Based ForegroundIdentification”,The Indian Conference on Computer Vision,Graphics andImage Processing(ICVGIP),447-454页(2004)。
为了克服与NCut相关联的计算问题,在如下文献中给出了组合MS和NCut算法的方法:Tao,W.等人,“Color Image Segmentation Based on MeanShift and Normalized Cuts”,IEEE Transactions on Systems,Man,andCybernetics,Part B,37(5):1382-1389(2007)(“Tao”)。
Tao通过运行MS算法来对图像聚类,以收敛针对像素产生的类分配。获取经由MS聚类步骤获得的区域的平均强度值并将它们用作NCut算法中的顶点,实现了显著的速度改善。
图2示出了根据所公开主题实施例的方面的HNCut过程的高层次流程图。在图2中,从左到右,用户能够选择域样片,其后可以是图像的FWMS,例如收敛形成多层次的颜色分辨率(色锥),并沿着所需路径保存状态。然后,用户能够在色锥中产生和保存的颜色分辨率层下应用NCut。在颜色分辨率层的锥体(可以从最低前进到最高颜色分辨率)上应用NCut之后,可以将未作为样片之外而被消除的颜色值映射回原始图像像素,由此获得最终分割。
提出的HNCut类似于Tao参考文献中论述的方法,不过,至少有三个重要区别,如图2中所示。首先,当前公开的主题基于用户从目标类选择的代表性像素样本(称为样片)人工识别目标类。这种样片可以基于期望的目标类或域改变,为HNCut带来显著灵活性和易用性。第二,修改MS算法,例如形成频率加权的MS(FWMS),其能够实现与MS同样的任务,但显著更快。FWMS能够利用如下事实:在MS的每次迭代完成时,更多点收敛。根据公开主题的一个方面,利用FWMS方案收敛允许比Tao中论述的传统MS算法快15倍地执行聚类。最后,公开的主题能够使用来自FWMS的迭代以形成分层数据结构(由色锥中的分辨率层表示)。根据所公开主题实施例的各方面,利用这种色锥能够将颜色空间中的大分割问题大幅度简化成一组小得多的必须要在其上操作Ncut的图划分问题,能够远远更有效率地解决问题。
图3a-3d示出了来自数据集的典型修剪图像,在其上可以执行根据所公开主题的HNCut。图3中的框中示出的数字表示来自TMA的单一1500×1500柱面的典型输出,如图1所示。图3(a)示出了原始图像,例如,具有180万像素,296133种颜色。图3b示出了应用频率加权均值平移FWMS(“FWMS”)过程期间颜色分辨率锥体底部的图像,具有180万像素,但仅有44种颜色。图3c示出了对图3(b)的FWMS过程的结果应用标准化切割之后颜色分辨率锥体底部的图像(分层标准化切割“HNCut”)。这种图像具有545436个像素和7种颜色。图3d示出了图2方框4中所示的最终分割的结果,具有73773个像素和1572种颜色,该结果是通过在空间上向图3a的原始图像上映射未由HNCut消除的颜色来获得的。
图3a和3b之间发生了颜色分辨率的显著降低,例如,与图3(a)中的原始图像相比,这可能允许在颜色少几个数量级的图像上执行标准化切割。然后可以在逐渐更高的颜色分辨率下应用NGut,同时在每个锥体层上,消除不被视为样片一部分的颜色。然后可以将保持在最高分辨率的颜色空间映射到对应像素以得到最终分割。
根据这里使用的公开主题的各方面,可以如下描述分层标准化切割(HNCut)。使用的记号能够构成图像情景,可以将其定义为c=(C,f),其中c是N个像素的2D笛卡尔网格,c∈C,其中c=(x,y),f是颜色强度函数,其中f∈R3。公开的主题能够定义为F1,与完整颜色分辨率(色锥的顶部)下与所有像素c∈C相关联的颜色矢量。可以导出F1的元,即f,使得对于像素ci,f1,i=f(ci)。在表1中可了解描述当前公开主题中常用的记号和符号列表。
表1
公开的主题还能够集成域知识以指导标准化切割。可以选择反映情景中感兴趣对象属性的样片(颜色模板)。用户通过人工选择可以定义颜色样片可以看出,通过在代表图像上(人工)注释来自感兴趣对象的一些像素,可以容易获得S1,并可以基于应用酌情对其改变。如下文中更详细所述,在所公开主题的可能实施例范例中,S1仅用于识别在NCut中保留哪种颜色划分(下文中,方程10的A或B)。此外,例如,由于S1是原始图像中颜色值子集的参考,所以它可能经历下文所述的所有MS和NCut操作。在这样的范例中,S1是在全分辨率,k=1的情况下用户一开始定义的样片。
根据所公开主题一个实施例的各方面,可以使用用于减少颜色(在其上应用分割算法,例如Ncut算法、聚类算法,例如均值平移算法)数量的频率加权均值平移(“FWMS”),利用密度梯度估计检测数据中的模式。例如,通过求解密度梯度何时为零,海赛函数是负半正定的,可以识别局部极大值。可以在如下参考文献中找到聚类均值平移算法的更详细解释:Cheng,Y.,“Mean shift,mode seeking and clustering”,Pattern Analysis andMachine Intelligence,IEEE Transactions on 17(8),790-799(1995)(“Cheng”)。
公开的主题从MS中的Cheng固定点迭代更新开始,即
f k + 1 , j ← Σ i = 1 N f k , i G ( f k , j - f k , i ) Σ i = 1 N G ( f k , j - f k , i ) - - - ( 1 )
其中G是高斯函数,带宽参数为σMS,用于计算在数据点cj处的核密度估计,
G ( f k , j - f k , i ) = exp ( - | | f k , j - f ^ k , i | | 2 σ MS ) , ||...||2表示L2范数。k∈{1,...,K)表示在每次迭代产生的各种水平的颜色分辨率。方程1的总计算时间为O(N2)。通过采用如下文所述的改进型快速高斯变换(“IFGT”):Yang,C等人,“Improved fast Gauss transform and efficient kernel density estimation”,IEEE ICCV,1:664-671(2003)(“Yang”),可以将计算复杂性简化为O(N),而精确度损失最小。
变得能够利用以下事实:在每次迭代MS之后,很多数据点,例如颜色值,收敛。如果考虑该收敛在数学上什么含义,实质上有两个点cβ1、cβ2(其中β1、β2∈{1,...,N})满足要求其中ε是预定义的公差值。可以将方程1的分子,
f k , β 1 G ( f k , j - f k , β 1 ) + f k , β 2 G ( f k , j - f k , β 2 ) + Σ i = 1 , i ≠ β 1 , β 2 N f k , i G ( f k , j - f k , i ) - - - ( 2 )
重新写成如下形式:
2 f k , β 1 G ( f k , j - f k , β 1 ) + Σ i = 1 , i ≠ β 1 , β 2 N f k , i G ( f k , j - f k , i ) - - - ( 3 )
由此避免了的显式计算,其中j,β1,β2∈{1,...,N},k∈{1,...,K)。这样实现了高斯函数的一种较少计算方法,在整个MS聚类过程中这是最昂贵的操作。作为另一范例,考虑颜色β123∈{1,...,N}收敛到一种颜色值,且γ12∈{1,...,N}收敛于另一个值,可以将所得的公式
f k , β 1 G ( f k , j - f k , β 1 ) + f k , β 2 G ( f k , j - f k , β 2 ) + f k , β 3 G ( f k , j - f k , β 3 ) + f k , γ 1 G ( f k , j - f k , γ 1 )
+ f k , γ 2 G ( f k , j - f k , γ 2 ) + Σ i = 1 , i ≠ β 1 , β 2 , β 3 , γ 1 , γ 2 N f k , i G ( f k , j - f k , i ) - - - ( 4 )
简洁地表达为:
3 f k , β 1 G ( f k , j - f k , β 1 ) + 2 f k , γ 1 G ( f k , j - f k , γ 1 ) + Σ i = 1 , i ≠ β 1 , β 2 , β 3 , γ 1 , γ 2 N f k , i G ( f k , j - f k , i ) - - - ( 5 )
假设β1、β2、β3和γ1、γ2满足收敛准则。方程5中的公式实现了计算效率的显著改善。在以上范例中,可以用两次高斯计算替代五次计算,继之以两次乘法。对于分母同样有计算量的节省,因为它遵循同样的简化。
结果,可以将方程1中给出的更新重写为多步更新。一开始,可以在任何颜色值|fk,i-fk,j|≤ε都被视为等价的约束下确定Fk中的唯一值。于是,从开始,可以构造出矢量其中是Fk中仅有唯一值的集合,其中使得ζ12,...,为了构造与Fk相关联的权重矢量可以计算 w k , j = Σ i = 1 , f k , j = f ^ k , j | F k | w k - 1 , i - - - ( 6 )
其中j∈{1,…,Mk}。在k=1时,能够将w0定义为长度为N的矢量,填充一,表示每个色值具有相等权重。现在,由wk,j表示收敛到一些强度(颜色)值的系统中点的数量。重要的是要指出Mk的以下定义,其中 | w k | = | F ^ k | = | F k + 1 | = M k Σ i = 1 M k w k , i = N - - - ( 8 )
这导致方程1的更新:
f k + 1 , j ← Σ i = 1 M k w k , i f ^ k , i G ( f ^ k , j - f ^ k , i ) Σ i = 1 M k w k , i G ( f ^ k , j - f ^ k , i ) - - - ( 9 )
用于j∈{1,…,Mk}。
图4(a)和4(b)示出了概率密度函数的直观表示,图示出了图4(a)中所示的传统MS和图4(b)中所示频率加权MS之间的差异。X轴100上的红色圆是1维系统中的给定值,它们上方的蓝色弧102表示它们关联的高斯贡献,而上方的红线103表示所有贡献之和,即概率密度函数。在图4(b)中,在点收敛且从系统去除并将其贡献移入作为倍增时,避免了计算高斯函数中的代价高昂的步骤。
在图4(a)和4(b)中还给出了方程3-9中所述步骤的例示,其中该图像示出了图4(a)中的标准概率密度函数120,函数120是从来自1维数据点100的高斯贡献122计算的。从图4(a)可以看出,颜色将在MS的下一次迭代中收敛。可以利用如下事实:一旦收敛,变得能够从系统中析出将其贡献移入而不改变分布,从图4(b)中可以看出。
申请人将这样的方法称为频率加权均值平移(“FWMS”)。完成的FWMS产生锥体情景表示Ck=(C,Fk),其中k∈{1,...,K}表示色锥的K层。注意,M1≥M2≥…≥MK表示层1具有最多颜色且MK具有最少颜色。换言之,FWMS导致一系列情景Ck,全部互相对准,但与{C1,C2,...}相比{CK,CK-1,...}中具有更少数量的颜色。{CK,CK-1,...}处的较少颜色使得分割算法,例如NCut算法易于处理,不过需要{C1,C2,...}进行细化的分割。
下文示出了用于FWMS的算法范例。图3中所示的这个过程被示为从(a)到(b)的步骤序列。可以看出,在算法从层1前进到层K时,总体颜色分辨率显著减小。在本范例中,将包含大约300000种唯一颜色值的原始图像简化到44种唯一值。这一显著更小的值集合使得NCut步骤易于处理。
频率加权均值平移简化的颜色空间上的标准化切割提供了一种用于将数据分成不相交集合的图划分方法。出于本申请的目的,FWMS在各水平颜色分辨率生成的分层锥体充当NCut算法的初始输入。NCut采用具有顶点(V)和边缘(E)的连通图G=(E,V),并将顶点划分成不相交的组。通过将V设置到颜色值集合并使边缘表示颜色值之间的相似性(或亲和性),可以将顶点分成类似颜色值的组。可以将切割定义为去除边缘获得两个不相交部分的过程。利用
Ncut ( A , B ) = cut ( A , B ) assoc ( A , V ) + cut ( A , B ) assoc ( B , V ) - - - ( 10 )
cut ( A , B ) = Σ f ^ k , r ∈ A , f ^ k , i ∈ B Ψ ( f ^ k , r , f ^ k , i ) - - - ( 11 )
assoc ( A , V ) = Σ f ^ k , r ∈ A , f ^ k , h ∈ V Ψ ( f ^ k , r , f ^ k , h ) - - - ( 12 )
其中h,r,t∈{1,..,Mk},
计算构成V的两个不相交子集
A = { f ^ k , π 1 , f ^ k , π 2 , . . . , f ^ k , π τ } ,
其中π12,...,πτ∈{1,...,Mk}和
B = { f ^ k , φ 1 , f ^ k , φ 2 , . . . , f ^ k , φ ρ } ,
其中φ12,...,φρ∈{1,..,Mk}
之间的标准化切割。
注意 使用函数计算之间的亲和性度量。
NCut产生划分A和B,使得A和B之间的颜色变化最小化,A和B之间的平均颜色强度的差异最大化。在第一次切割之后,可以对子集(A或B)的任一个进行额外切割,产生另一个二元子划分。可以重做这整个过程并作为广义特征值系统来求解,如Shi参考文献中所述。出于本申请的目的,最优划分变为广义特征值系统是足够的,针对下式描述的ζ求解该系统:
(D-Ψ)ξ=λDξ    (13)
其中作为对角矩阵,
D ( i , i ) = Σ j Ψ ( f ^ k , i , f ^ k , j ) , j ∈ { 1 , . . . , M k } 在其对角线上,且
作为对称矩阵,
Ψ ( i , j ) = Ψ ( f ^ k , i , f ^ k , j ) , i , j ∈ { 1 , . . . , M k } . 我们的Ψ函数定义为
σNcut为带宽参数。
传统的NCut被设计成计算空间和数据域(例如颜色域)中的亲和性。结果,Ψ函数具有引入的空间约束,使得如果关联的像素比用户指定距离更远,方程14被设置为零。因为这种空间约束的原因,亲和矩阵(12)Ψ通常是稀疏的,使其存储和操作较不繁重。由于算法仅涉及到识别与样片中那些对应的数据,例如颜色,所以没有与原始NCut算法中那样对保持空间毗连的担心。可以看出,去除空间约束不再保证稀疏矩阵,使得对于非常大的矩阵而言,特征值计算近乎难以处理。通过在诸如颜色空间的受分层锥体限制的数据空间中操作,不仅恢复了损失的效率,而且实现了额外的速度益处。
在一种算法中示出了包括HNCut技术的主要步骤,可以通过在最低图像分辨率上应用NCut来开始。通过设置k=K,即,来自FWMS应用的层K存在的唯一颜色值集合。
步骤1:可以应用NCut将情景划分成两个不相交的颜色集合A和B,其中为了进行这种划分,能够利用方程14针对所有i,j∈{1,..,|Vk|}计算亲和矩阵σNCut是设置到一些初始σ值的缩放参数集。
步骤2:作为划分的结果,需要识别A或B是否唯一地包含Sk中所有的颜色。因此,如果那么通过设置Vk=A消除B中的所有颜色。如果类似地,通过设置Vk=B消除A。不过,如果Sk并非唯一地包含在A或B中,可以增大Ncut并返回步骤1。可以保持增大σNcut,直到Sk唯一地包含在A或B的任一个中,并设置Vk以进行该划分。
步骤3:可以利用新的Vk重新开始该过程,直到不可能在层k上进一步划分数据空间,例如颜色空间。亦即,对于任何值σNCutmax,直到Sk不能唯一地包含在单一颜色划分之内。
步骤4:利用这个过程,可以连续地爬升该分层数据结构其中k∈{1,...,K}。于是,能够迁移到下一更高的图像分辨率,层k-1,并设置Vk-1为Vk,即,在分辨率层次k保持的颜色集合,并再次重复该过程。可以继续返回到步骤1,直到k=1。
步骤5:在层次1,V1包含来自的值子集,其被视为是感兴趣区域的色度值。于是,通过保留所有像素j∈{1,..,N},使得f1,j∈V1,并消除其他像素,计算最终图像。
上述操作的分层集合能够促进极有效率且准确的算法。针对锥体的最低层次计算亲和矩阵并执行标准化切割做起来相对简单,利用额外的图像特征(例如强度,纹理)连同颜色或替代颜色,支持更完善的亲和性定义。在本范例中,仅有色度信息可用并被使用,但能够容易且有效率地扩展这种方法以将额外的图像特征(例如强度和纹理)结合到Ψ的定义中。
申请人测试了所公开主题的某些范例,下面是数据和实验装置的描述。使用的图像数据库包括总共七个卵巢癌(OCa)的数字化TMA。这包括来自100位患者的总共超过500个组织柱面,申请人从其中选择130个作为测试集合。通过对OCa组织采样获得TMA并针对组织血管标记物ESM-1的存在对TMA染色,使得具有针对ESM-1的抗体的血管区域染上褐色。通过在全切片数字扫描器上以40×分辨率扫描切片来获得TMA的数字化版本,但接下来这些TMA被欠采样并以20×放大率存储。这获得超过500个个体柱面的数字图像,每个的尺度大约为1500×1500像素。
病理学专家在用于测试的所有130个组织柱面上辛苦地注释肿瘤血管标记物(“TVMS”)的精确空间范围。由于人工注释每个柱面涉及很大工作量,并不使用全部500个柱面进行定量评估。从500个的集合中随机选取130个柱面。总共执行4次试验以评估HNCut算法的精度、效率和可再现性。下文描述这些情况。所有试验都是在运行Matlab 2008b,具有32Gb的RAM的2.8GHz Linux机器上运行的。
第一试验将这里所述的HNCut与PBT和k均值比较。为了评估HNCut的精度,申请人将检测性能与k均值和PBT的性能比较。利用10个群集执行标准的k均值算法。由于k均值方法不是确定性的,且公知对群集中心的选择敏感,所以通过试验人工选择最好的可能的初始群集中心。
如在Tu参考文献中所述,对于PBT的变量0和e都使用建议的默认值(分别为.45和.4)实施PBT。PBT在训练阶段中迭代地产生分层树形结构,其中树的每个节点被转变为Adaboost分类器,如下文所述:Freund,Y.等人,“A decision-theoretic generalization learning and application to boosting”,Journal of Computer and System Sciences,55(1),119-139(1997)。这构成了7个弱分类器。在测试期间,基于学习的分层树在每个节点计算属于目标类的样本的条件概率。通过组合与样本在各节点的概率传播相关联的概率,在树的顶部获得有区别的模型。与其他常用分类器(例如,提供硬二元分类的AdaBoost和决策树)不同的是,PBT针对每个样本c属于两类之一生成后验条件概率值p(1|c),p(-1|c)∈[0,1]。
在色相、饱和度、值(“HSV”)空间中的所有三个颜色通道上,在每个c∈C周围取3×3窗口生成特征矢量,获得27维矢量。从25个随机选择的图像中选择1000个随机的阳性(染色)样本和1000个随机阴性(未染色的和伪染色的)样本,获得尺寸为27×50000的总训练矢量。通过50轮交叉验证进行训练和测试。这包括随机选择25个图像并训练如上所述的分类器,随后对其他105个图像进行测试。图6(a)示出了假阴性(“FN”)的均值和方差;图6(b)示出了真阳性(“TP”)的均值和方差;图6(c)示出了针对PBT分类器(92%和97%的阈值)、利用HNCut训练的PBT分类器(97%和99%的阈值)、HNCut和k均值在130个图像上的,经过10轮的假阳性(“FP”)的均值和方差;图6(d)图示出至少在执行时间方面HNCut显著优于PBT和k均值算法。PBT返回的概率被设定阈值于92%和97%(表示为图6(a)中的前两栏)。
如下确定这些阈值的选择。在每轮随机化交叉验证期间,产生接收机操作特性(“ROC”)曲线(表示灵敏度和1-特异性之间的折中),并在确定的操作点设定阈值。发现这个值介于92%和97%之间。图6(a)-(c)还示出了针对PBT分类器(92%和97%阈值)、利用HNCut训练的PBT分类器(97%和99%的阈值)、HNCut和k均值在130个图像上的,经过10轮的(a)假阴性(FN)、(b)真阳性(TP)和(c)假阳性(FP)的均值和方差。
对于PBT而言,这涉及到10轮使用不同训练和测试设置,而对于HNCut,选择了10个不同的样片。线150表示均值,框152表示均值任一侧上值的第25个百分位,线154包围均值任一侧上值的第75个百分位。
图5图示出了根据所公开主题实施例的各方面,4个不同柱面上血管染色区域的基础事实注释,来自HNCut以及使用10个群集的k均值的对应分割结果。在图5中,第一栏((a)、(e)、(i)、(m))表示3个不同柱面上血管染色区域的基础事实注释。在图5中,2-4栏(从左到右)表示来自针对σMS=.05的HNCut((b)、(f)、(j)、(n))、处在97%阈值的PBT((c)、(g)、(k)、(o))和使用10个群集的k均值((d)、(h)、(i)、(p))的对应分割结果。可以看出,k均值始终过高估计染色范围,获得大量的假阳性。尽管PBT与k均值相比性能更好,但(g)和(k)示出了PBT如何可能偶尔保持伪染色像素。
另一方面,使用这里公开的HNCut技术的结果非常类似基础事实。不过注意,任何算法都不能正确识别(m)上部中的微弱染色区域,因为那里的染色剂几乎不能辨别。图6(a)-6(d)中的曲线图表明,在假阳性、假阴性和真阳性方面,HNcut性能优于k均值和PBT(92%和97%阈值),与利用HNCut训练的PBT(97%和99%阈值)性能相当。图6(d)表明,在执行时间方面,HNCut显著优于PBT和k均值算法两者。
HNCut的设置如下。利用σMS=.05执行FWMS。接下来利用Yang参考文献中论述的Silverman函数执行NCut以确定初始σNCut的值,然后如上述算法的步骤9中规定的那样将其递增10倍。用于NCut的亲和性度量也如该算法中定义的那样。
改进型快速高斯变换的群集变量也是由Yang参考文献建议的,将其设置为数据点数量的平方根。在剩余群集的数目降到这个值以下时,将其重置到剩余群集数目的平方根。如下实施用于实施方程9中距离要求的流程。由于大部分人不能容易地在同样颜色的微小变化之间做出区分,所以可以将设置成较大值。应用算法形式中这种要求的最容易的方式是简单地选择期望的精度水平(例如根据数据的格式,为10、0、.01或.001),然后简单地将该值舍入到该数位的右侧。
由于该数据是利用范围[0,1]中的双精度存储的,所以申请人使用千分之一的小数位。定位唯一值并计算其频率的后续流程与产生数据值的直方图(每个唯一值占据其自己的面元(bin))一样简单。这是一项重要益处,因为直方图的产生不仅好研究,而且容易转换成并行计算问题,如下文所述:“Parallel and Distributed Computing Handbook”,McGraw-Hill,Inc.,New York,N.Y,USA(1996)。
执行第二次试验以相对于样片和参数的灵敏度检查HNCut性能的可再现性。HNCut产生的结果取决于样片的选择和σMS带宽参数的大小。显然,如果在目标类之内有大量异质性并且样片的选择不代表目标类,则分割的质量可能欠佳。因此,用户具有如下选择:(a)采样与目标类对应的额外值,或(b)利用不同样片重复HNCut分割若干次,直到获得期望的目标类分割。仅通过HNCut的较优计算效率才可能实现两种调谐流程。
执行第三次试验以检查HNCut的效率和速度。
与传统MS相比,根据所公开主题各方面的HNCut性质与FWMS的效率有关。为了定量评估使用FWMS与MS相比节省的计算量,在总共20次迭代内执行MS和FWMS流程,绘制对应的迭代次数。此外,申请人比较了PBT、k均值和HNCut分割全部130个组织柱面所花的时间。
执行图灵测试。在如下文献中论述的原始图灵测试是机器论证智能能力的测试:Turing,A.,“Computing Machinery and Intelligence”,Mind,LIX,433-460(1950)。人的判断是盲目的,试图仅利用自然语言会话在人和机器之间区分开。如果判断不能在机器和人之间可靠地区分,就说机器已通过图灵测试。申请人提出的问题是类似的:是否能够区分利用人注释的数据训练的监督分类器和利用HNCut分割的数据训练的监督分类器?为了检查这个问题,申请人利用HNCut输出作为基础事实执行10次迭代的训练/测试流程用于PBT中的训练,并将其与从病理学家注释的数据得到的PBT输出比较。以与上述第一试验类似的方式确定阈值的选择,除了操作点介于97%和99%之间,因此申请人选择那两个值。
在其识别颜色在样片之内的像素的能力方面,以及在识别病理学家注释的邻近血管区域方面,评估HNCut算法。为了全面而可靠地评估HNCut的性能,需要像素水平和区域水平的统计数据。
申请人将Ra,ζ定义为由HNCut识别的区域,将Rb,z定义为对应的专家注释区域,其中
R b , z , | R b , z ∩ R a , ζ | | R b , z | z ∈ { z , . . . , Z } 如果对于任何 R b , z , | R b , z ∩ R a , ζ | | R b , z | > 0.3 , 那么Ra,ζ定义为真阳性(TP)。如果对于任何Ra,ζ,没有任何满足这个条件的Ra,ζ,那么将Ra,ζ识别为假阳性(FP)。如果存在不能找到满足以上条件的Ra,ζ的Rb,z,认为Rb,z是假阴性(FN)。利用如下表示的公式定义像素水平的统计数据,
P a = ∪ ζ = 1 y ′ R a , ζ - - - ( 15 )
P b = ∪ z = 1 Z R b , z - - - ( 16 )
TP = | P a ∩ P b | | P b | - - - ( 17 )
FP = | P a - ( P a ∩ P b ) | | P b | - - - ( 18 )
FN = | P b - ( P a ∩ P b ) | | P b | - - - ( 19 )
最后将真阴性(TN)定义为:
TN = | C - ( P a ∪ P b ) | | C - P b | - - - ( 20 )
因此,上述第一试验比较HNCut与PBT和k均值的结果,在图6中给出了结果的子集。第一栏表示原始输入图像,基础事实的边界由病理学家突出显示并标记为红色。第一排图示出了以比较方式执行所有算法的情况。第二排图示出了与PBT和k均值相比HNCut算法性能更好的情况,PBT和k均值两者都产生了几个假阳性。第三排用于图示出对于所有三种方法都发生假阴性的情况。在所有算法中,图6(i)中图像的中间区域都得到正确分割,而三个其他区域被不正确地拒绝。这个特定图像是非常困难的情况,其中那些区域中的染色仅仅能够被专家看到。K均值方法与其他两种方法相比产生了最大数量的阳性;k均值的结果需要将所有像素分配给群集。表2示出了结果。
表2
在表2中可以看到针对所有算法上的像素水平度量给出的定性结果。±值是与利用10个不同训练集或样片运行算法的差异相关联的百分比方差。图6和表2定量地图示出了针对10轮中不同设置的各种度量的均值和方差。于是,扩展标记物152、154越接近均值150,算法越能够一致地工作。HNCut为假阴性提供了类似的均值,同时仍然为真阳性提供了类似的百分比。HNCut和PBT的假阳性率表明HNCut平均起来产生了更好的性能,方差小得多。PBT 92%的阈值鼓励以很多假阳性为代价实现很少假阴性。
从专家提供的基础事实为PBT随机产生训练集似乎在假阳性度量中导致更大的方差。这可能是执行基础事实注释或选择未真正模仿剩余期望类的像素时的人为误差的结果。K均值技术可能做得相当差。没有与该算法相关联的方差,因为申请人是离线确定的最佳中心,从而消除了非确定性。图5和7揭示了为什么有这么多假阳性与k均值相关联,因为它易于在染色类中保持很多伪染色像素。
图7示出了在选定TMA柱面间提供的两个谱带。图7(a)和7(b)示出了原始输入,顶部给出了红色的带注释基础事实。图7(c)和7(d)图示出了应用根据所公开主题实施例的各方面的HNCut的结果,图7(e)和7(f)示出了PBT结果;并且图7(g)和7(h)示出了k均值结果。
图8(a)-(d)中示出了上述第二试验的结果,涉及到HNCut相对于样片和参数灵敏度的可再现性。图8(a)示出了从病理学专家获得的染色范围的基础事实注释。图8(b)中所示的分割结果是利用包括7个选定像素的样片生成的。下一栏图8(c)示出了与图8(b)相同的值,添加了另外5个值。最后一栏图8(d)具有从原始图像选择的18个值。红线包含了分割算法的结果。可以看出,图8(b)的第一组结果相当好,但随着使用更多类代表性样本构造样片,进一步改善了结果(图8(c)和图8(d))。图8(a)-(d)示出了定性结果,反映了分割对样片选择的灵敏度。由非专家用户从期望的类中随机选择一小片。
利用原始图像上的红色边界覆盖所得的分割。接下来,向样片添加一些额外的像素,重复分割。在图8(b)中,可以看出,在用户选择样片之内的暗像素时,分割集中于染色剂的更暗方面。在使用图8(d)中所示的样片(目标类中方差的真实表示)时,结果接近专家的注释。
注意,非专家用户可以容易地确定不从目标类的哪些区域采样并在样本中包括那些区域。可以重复这个迭代过程,直到非专家用户观测到匹配精确的期望输出的结果。一旦选择了域样片,就能够将其安全地用于TMA集合中的其余图像。
σMS是FWMS中使用的对考虑的数据集灵敏的参数。在图9(a)-(e)中,选择正确σMS的重要性变得明显。在σMS的值过大的情况下,FWMS将样片之内不包含的像素汇集在一起。结果,如图9(b)所示,它们永远不会被删除。突出显示的蓝色部分颜色足够暗,使其由于大带宽选择而变得与染色剂相关联。另一方面,在选择了代表期望目标类的适当样片时,几乎任何σMS值都变得可以接受,如图9(c)中用极小的σMS.01所示。在选择了不代表目标类的样片的情况下,如图9(d)、(e)和(f)所示,结果对于σMS值的选择很灵敏。在申请人的具体应用中,在500个盘上使用HNCut,它们中大约10个未能正确收敛,导致分割较差。所有这10个图像几乎没有至完全没有染色剂的存在。通过计算分割的输出相对于域样片的颜色像素的方差,能够评估HNCut的性能,并以无监督的方式做出相关调节。例如,如果方差大于期望,将σMS调节到更小值能够产生更类似于域样片的新输出。对于这个试验中考虑的所有10个图像,用于自动调节σMS的方案产生了极好的结果。
图9示出了从病理学专家获得的染色范围的基础事实(病理学家)分割。图9(b)和图9(c)示出了针对两个不同σMS值的分割输出。HNCut算法很少经历不可接受的分割,除非在如果不正确定义域样片,σMS值过小的情况。图9(d)和9(e)分别示出了对于.01和.3的σMS值的分割输出,只是选择了不适当的域样片。
对于上文结合HNCut算法的效率和速度考虑论述的第三试验的结果,为了清晰地图示HNCut的高处理量能力,申请人将其运行时间与PBT和k均值进行比较。图6(d)图示出了结果的图解表示。从开始可以看出,PBT181秒的训练时间占HNCut 643秒运行时间的25%。典型地,在所有被测样本间分配这个训练时间,因此测试的样本越多,训练系统就变得越便宜。
尽管如此,即使排除PBT的训练时间,HNCut仍然执行得显著更快。PBT每个样本平均16秒,容易地被HNCut每个样本6秒的运行时间超越。这意味着与PBT相比,HNCut大致更快62%。在大得多的图像上,执行时间的差异变得更加明显。
图10示出了曲线图,示出了MS和FWMS流程每次迭代的典型时间。图10示出了使用FWMS相对于MS的数值优点。在点的初始数量大时,在每次迭代之后,需要执行更少的计算。选择越大的s,FWMS将越快收敛,另一方面,在选择的极小时,FWMS的执行时间开始接近MS的执行时间。图10示出了曲线图,示出了MS和FWMS流程每次迭代的典型时间。原始的改进型快速高斯变换(MS)均值平移160对于每次迭代都具有恒定时间。频率加权均值平移(FWMS)算法162的益处在聚类过程几次迭代之内就变得明显,因为随着额外的数据点收敛到群集均值,每次额外的迭代都需要显著更少的时间。
关于上述图灵测试,图6(a)-(d)中给出的结果表明,在利用HNCut的结果训练PBT时,结果实际优于所有考虑的其他分类器配置(包括PBT、k均值和HNCut),标准方差小得多。对于假阳性而言,在99%阈值处的方差几乎可以忽略,给出了可再现性的高置信度。结果,输出表明,可以使用HNCut作为外行的初始化,以产生质量与专家繁重注释工作类似的数据,使得用户交互作用最小化。基于这些结果,HNCut看起来通过针对分割的图灵测试。
图11(a)示出了完全放大且染色的区域,基础事实被红色环绕;图11(b)示出了相当接近最优分割的HNCut输出。关于上文结合利用组织微阵列(“TMA”)技术所述的第五试验,如图1(a)所示,根据所公开主题实施例的各方面,现在能够同时对几百个组织部分(称为柱面,图1(b))染色以检查各种生物标志物的存在。由于这样大量数据的人工分析不易进行,所以需要高处理量、可再现且准确的计算机化图像分析方法以量化与不同生物标志物相关联的染色范围。
由于通过来自目标类的一些人工注释的像素捕获域知识,所以能够容易地变化。这为HNCut提供了相当容易地工作于不同域中的灵活性。图12(a)示出了原始淋巴细胞图像;并且图12(b)示出了针对图12(a)的图像的HNCut分割的输出。作为范例,申请人从图12(a)中的淋巴细胞选择了一些代表性像素,能够在大约1秒内提供接近最优的分割,如图12(b)所示。这示出了HNCut的灵活性以及HNCut如何能够在几秒内切换域并提供良好质量的分割。
另一个范例在分割整个组织结构上的血管染色的域中,如图13所示。图13(a)示出了尺寸为4000×3000的整个组织结构图像上的血管染色;图13(b)示出了图13(a)的染色的放大部分;并且图13(c)示出了根据实施所公开主题实施例的各方面的过程获得的其关联的近似最优分割。尽管这些图像也往往会非常大,但再次能够通过选择一些代表性像素来改变域样片,然后快速接收高度准确的分割。
像任何分割算法那样,HNCut也具有假阳性和假阴性的错误。下文论述了一些这样的错误和它们的原因。由于染色严重强度与生物标志物的量成正比,因此不仅在所有柱面间,而且在所有染色区域自身间,染色都将在颜色强度上有很大变化。这一高的方差是阈值化和k均值型算法易于表现很差的原因之一。此外,柱面的边缘常常被噪声污染,噪声表现为暗染色。可以通过简单地选择忽略位于柱面边界上或非常接近边界的像素来去除这些伪影。
在盘形成不好的状况下,无论是由于组织撕破还是缺少细胞,都有可能在空隙之内大尺度汇集假阳性染色。由于假阳性区域的色彩质量非常类似于真阳性区域,所以这种具体类型的错误难以识别和消除。
沙瘤是细长成纤维细胞的分层螺旋的中心之内的钙化物质。令人遗憾的是,沙瘤在颜色和纹理上与真阳性完全相同,使得缺乏经验的人都难于分类。在缺少额外域知识的情况下,对于任何基于颜色的分割算法而言(更不用说HNCut),最好的情况下,也难以区分这些假阳性错误和真阳性。
主张的主题提供了无监督的分割方案,称为分层标准化切割(HNCut)。HNCut的优势源自如下事实:其结合了新颖的频率加权均值平移聚类和标准化切割算法两者的最佳部分。利用这两种算法的组合,并通过在颜色空间中操作,HNCut能够有效率地处理大的图像。发现,与现有技术的监督分类方案相比,HNCut要快62%。
除了其效率和精度之外,HNCut的优点在于它未被精确注释的训练数据的需求所拖累。在与为识别血管生物标志物而染色的OCa TMA对应的130个图像上评估HNCut揭示,HNCut的性能好于两种流行的分类器和聚类技术——概率串联增强树和k均值。在利用不同样片对HNCut进行10次不同运行时,发现HNCut结果与PBT相比具有更低方差。
此外,在使用来自HNCut的输出训练PBT时,结果可以与直接利用专家注释训练的监督分类器相比。因此,HNCut高度灵活,允许外行人员(非专家)指定包括一些表示目标类的像素的样片。于是,HNCut理想地适合于数字组织病理学和生物标记物发现的应用中,其中需要图像分割工具迅速识别不同类型的结构或感兴趣类别。尽管HNCut在识别血管区域中具有超过80%的灵敏度,但这个水平的精度对于预测疾病结果是否可接受的问题只能在临床试验环境中得到回答。从HNCut分割结果导出的定量度量能够与患者结果相关。由此,可以认为HNCut结果具有可接受的精度。在临床试验的支持下这种验证是可能的。由于HNCut能够工作在颜色空间中,从而效率很高,HNCut可分析的图像尺寸的唯一限制是可用于在图像数据中读取的计算机存储器的量。公开的主题还带来了探索HNCut适用于其他分割问题的可能,包括其他基于颜色的分割问题。
尽管提供了值的范围,但除非上下文明确做出其他表述,该范围上下限之间的每个居间值,到下限单位的十分之一,以及该所述范围中的任何其他表述或居间值都包括在本发明之内。可以独立地归入更小范围中的这些较小范围的上下限也包括在本发明之内,受到所述范围中任何特别排除的极限的作用。在所述范围包括极限之一或两者时,排除了那些所包括极限任一个或两个的范围也包括在本发明之内。
除非另行定义,这里使用的所有技术和科学术语都具有与本发明所属领域的普通技术人员通常理解相同的含义。尽管在实践或测试本发明时也可以使用与这里描述的那些类似或等价的任何方法和材料,但现在描述的是优选方法和材料。在此通过引用将这里提到的所有出版物并入以公开和描述结合其援引出版物的方法和/或材料。
必须要指出,如这里以及所附权利要求中所用的,单数形式“一”和“该”包括复数引用,除非上下文做出其他明确表示。这里使用的所有技术和科学术语都具有相同含义。
提供这里论述的出版物仅仅是因为它们是在本申请的提交日期之前公开的。这里的任何内容都不应被解释为一种许可,即本发明无权利用在先发明而早于这样的出版物。此外,所提供出版物的日期可以与实际出版日期不同,该实际出版日可能需要独立确认。
将要理解,这里描述的实施例仅仅是示范性的,本领域的技术人员可以做出很多变化和修改而不脱离所公开主题的精神和范围。例如,所有这样的变化和修改都意在包括在如所附权利要求界定的所主张的主题的范围之内。

Claims (12)

1.一种用于量化病理学样本的原始图像中生物标志物的染色的高处理量方法,包括如下步骤:
a.基于用户指定的所述原始图像之内数据的域知识选择数据的域样片;
b.通过对所述原始图像之内的所述数据执行频率加权均值平移来对所述原始图像之内的所述数据进行聚类,以收敛形成分层的多层均值平移数据图像,每层具有不同的数据分辨率以形成分层数据锥体;
c.使用标准化切割算法分割所述多层均值平移数据图像以确定所述分层数据锥体之内的每个均值平移数据图像中未排除在所述样片之外的数据;
d.在空间上将未排除在所述样片之外的数据映射回所述原始图像以生成最终图像;以及
e.在存储介质上存储所述最终图像以进行进一步分析。
2.根据权利要求1所述的方法,其中,所述病理学样本包括来自组织微阵列之内的组织柱面的图像。
3.根据权利要求1所述的方法,其中,所述病理学样本包括组织活检样本。
4.根据权利要求1所述的方法,其中,所述生物标志物是血管生物标志物。
5.根据权利要求1所述的方法,其中,从包括图像颜色、强度和纹理的组中选择所述原始图像之内的数据的所述域样片。
6.一种用于检测由于病理学样本的原始图像中存在生物标志物而导致的感兴趣区域的高处理量方法,包括如下步骤:
a.基于用户指定的所述原始图像之内数据的域知识选择数据的域样片;
b.通过对所述原始图像之内的所述数据执行频率加权均值平移来对所述原始图像之内的所述数据进行聚类,以收敛形成分层的多层均值平移数据图像,每层具有不同的数据分辨率以形成分层数据锥体;
c.使用标准化切割算法分割所述多层均值平移数据图像以确定所述分层数据锥体之内的每个均值平移数据图像中未排除在所述样片之外的数据;
d.在空间上将未排除在所述样片之外的数据映射回所述原始图像以生成最终图像;
e.在存储介质上存储所述最终图像以进行进一步分析;以及
f.在所述最终图像上检测感兴趣区域。
7.根据权利要求6所述的方法,其中,所述病理学样本包括来自组织微阵列之内的组织柱面的图像。
8.根据权利要求6所述的方法,其中,所述病理学样本包括组织活检样本。
9.根据权利要求6所述的方法,其中,所述生物标志物是血管生物标志物。
10.根据权利要求6所述的方法,其中,从包括图像颜色、强度和纹理的组中选择所述原始图像之内的数据的所述域样片。
11.根据权利要求6所述的方法,其中,用于检测的所述方法是监督分类算法。
12.根据权利要求11所述的方法,其中,所述监督分类算法包括决策树、概率串联增强树、支持矢量机或其组合。
CN201080051821.8A 2009-09-18 2010-09-17 利用分层标准化切割的高处理量生物标志物分割 Expired - Fee Related CN102687007B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US27698609P 2009-09-18 2009-09-18
US61/276,986 2009-09-18
US29470310P 2010-01-13 2010-01-13
US61/294,703 2010-01-13
PCT/US2010/002536 WO2011034596A1 (en) 2009-09-18 2010-09-17 High-throughput biomarker segmentation utilizing hierarchical normalized cuts

Publications (2)

Publication Number Publication Date
CN102687007A CN102687007A (zh) 2012-09-19
CN102687007B true CN102687007B (zh) 2015-07-22

Family

ID=43758945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080051821.8A Expired - Fee Related CN102687007B (zh) 2009-09-18 2010-09-17 利用分层标准化切割的高处理量生物标志物分割

Country Status (6)

Country Link
US (1) US9111179B2 (zh)
EP (1) EP2478356A1 (zh)
CN (1) CN102687007B (zh)
CA (1) CA2783935A1 (zh)
IN (1) IN2012DN02374A (zh)
WO (1) WO2011034596A1 (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2783935A1 (en) 2009-09-18 2011-03-24 Andrew Janowczyk High-throughput biomarker segmentation utilizing hierarchical normalized cuts
US9076068B2 (en) 2010-10-04 2015-07-07 Datacolor Holding Ag Method and apparatus for evaluating color in an image
CA2822502A1 (en) * 2010-10-11 2012-06-14 Woundmatrix, Inc. Wound management mobile image capture device
US20120113146A1 (en) * 2010-11-10 2012-05-10 Patrick Michael Virtue Methods, apparatus and articles of manufacture to combine segmentations of medical diagnostic images
JP5859771B2 (ja) * 2011-08-22 2016-02-16 ソニー株式会社 情報処理装置、情報処理システム情報処理方法及びプログラム
US9042630B2 (en) * 2011-10-26 2015-05-26 Definiens Ag Biomarker evaluation through image analysis
CN103063674B (zh) * 2012-12-26 2015-01-21 浙江大学 一种铜块的铜品位检测方法及其检测系统
WO2015021307A2 (en) * 2013-08-08 2015-02-12 Datacolor Holding Ag Method and apparatus for evaluating color in an image
EP4187486A1 (en) * 2014-12-30 2023-05-31 Ventana Medical Systems, Inc. Method for co-expression analysis
MX2018009566A (es) 2016-02-08 2019-05-30 Imago Systems Inc Sistema y metodo para la visualizacion y caracterizacion de objetos en imagenes.
WO2017151989A1 (en) * 2016-03-02 2017-09-08 Flagship Biosciences, Inc. Method for assigning tissue normalization factors for digital image analysis
EP3460750B1 (en) * 2017-09-20 2020-03-25 DKFZ Deutsches Krebsforschungszentrum Method, system and computer program for computer-assisted evaluation of biomarkers in a tissue sample
EP3803686A4 (en) 2018-05-24 2022-03-16 University of Pittsburgh - of the Commonwealth System of Higher Education PREDICTION OF CANCER RECIDENCE USING CELLULAR AND SUBCELLULAR IMAGING DATA WITH MULTIPLE SPATIAL PARAMETERS
CN110211133B (zh) * 2019-05-27 2021-01-15 中国农业大学 带叶树木的安全防护策略获取方法、装置与电子设备
CN110728327B (zh) * 2019-10-18 2021-11-23 中国科学技术大学 一种具有可解释性的直推学习方法及系统
CN112669909A (zh) * 2020-12-30 2021-04-16 杭州博日科技股份有限公司 假阳性样本的排除方法、装置以及电子设备
CN115134339A (zh) * 2022-06-28 2022-09-30 京东方科技集团股份有限公司 媒体文件处理方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101238487A (zh) * 2005-06-15 2008-08-06 组织诺斯替斯有限责任公司 分割白细胞的方法
CN101550441A (zh) * 2008-04-01 2009-10-07 博尔诚(北京)科技有限公司 含有生物标志物样本的高通量分析方法和样本库制备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001240144A1 (en) * 2000-03-27 2001-10-08 Ramot University Authority For Applied Research And Industrial Development Ltd. Method and system for clustering data
PT2327792E (pt) * 2005-08-05 2013-11-21 Genentech Inc Métodos e composições para a detecção de distúrbios autoimunes
US20080059077A1 (en) * 2006-06-12 2008-03-06 The Regents Of The University Of California Methods and systems of common motif and countermeasure discovery
US8060348B2 (en) * 2006-08-07 2011-11-15 General Electric Company Systems for analyzing tissue samples
US8204315B2 (en) 2006-10-18 2012-06-19 The Trustees Of The University Of Pennsylvania Systems and methods for classification of biological datasets
CA2783935A1 (en) 2009-09-18 2011-03-24 Andrew Janowczyk High-throughput biomarker segmentation utilizing hierarchical normalized cuts

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101238487A (zh) * 2005-06-15 2008-08-06 组织诺斯替斯有限责任公司 分割白细胞的方法
CN101550441A (zh) * 2008-04-01 2009-10-07 博尔诚(北京)科技有限公司 含有生物标志物样本的高通量分析方法和样本库制备

Also Published As

Publication number Publication date
EP2478356A1 (en) 2012-07-25
CN102687007A (zh) 2012-09-19
US9111179B2 (en) 2015-08-18
US20120219206A1 (en) 2012-08-30
IN2012DN02374A (zh) 2015-08-21
CA2783935A1 (en) 2011-03-24
WO2011034596A1 (en) 2011-03-24

Similar Documents

Publication Publication Date Title
CN102687007B (zh) 利用分层标准化切割的高处理量生物标志物分割
CN113454733B (zh) 用于预后组织模式识别的多实例学习器
US11636599B2 (en) Image diagnostic system, and methods of operating thereof
CN114730463A (zh) 用于组织图像分类的多实例学习器
CN113574534A (zh) 使用基于距离的相似性标签的机器学习
Janowczyk et al. High-throughput biomarker segmentation on ovarian cancer tissue microarrays via hierarchical normalized cuts
US11861881B2 (en) Critical component detection using deep learning and attention
US20210216745A1 (en) Cell Detection Studio: a system for the development of Deep Learning Neural Networks Algorithms for cell detection and quantification from Whole Slide Images
EP4075325A1 (en) Method and system for the classification of histopathological images based on multiple instance learning
JP2022141771A (ja) 最適候補化合物を検出するためのコンピュータ装置およびその方法
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
US20210166076A1 (en) System and method for analysis of microscopic image data and for generating an annotated data set for classifier training
CN116309333A (zh) 一种基于深度学习的wsi图像弱监督病理分析方法及装置
Zanotelli et al. A flexible image segmentation pipeline for heterogeneous multiplexed tissue images based on pixel classification
Ehteshami Bejnordi Histopathological diagnosis of breast cancer using machine learning
Hradel et al. Interpretable diagnosis of breast cancer from histological images using Siamese neural networks
Khorrami Cancer Detection from Histopathology Images
CN113902014A (zh) 一种基于多示例学习的小样本乳腺癌细胞图像判别方法
Janowczyk High Throughput Segmentation Techniques for Cancer Prognosis
Mete et al. A machine learning approach for identification of head and neck squamous cell carcinoma

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150722

Termination date: 20150917

EXPY Termination of patent right or utility model