CN113628199B - 病理图片染色组织区域检测方法、检测系统及预后状态分析系统 - Google Patents

病理图片染色组织区域检测方法、检测系统及预后状态分析系统 Download PDF

Info

Publication number
CN113628199B
CN113628199B CN202110950334.5A CN202110950334A CN113628199B CN 113628199 B CN113628199 B CN 113628199B CN 202110950334 A CN202110950334 A CN 202110950334A CN 113628199 B CN113628199 B CN 113628199B
Authority
CN
China
Prior art keywords
image
bag
stained tissue
tissue area
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110950334.5A
Other languages
English (en)
Other versions
CN113628199A (zh
Inventor
廖欣
郑欣
李清丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Second University Hospital of Sichuan University
Original Assignee
West China Second University Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Second University Hospital of Sichuan University filed Critical West China Second University Hospital of Sichuan University
Priority to CN202110950334.5A priority Critical patent/CN113628199B/zh
Publication of CN113628199A publication Critical patent/CN113628199A/zh
Application granted granted Critical
Publication of CN113628199B publication Critical patent/CN113628199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种病理图片染色组织区域检测方法、检测系统及预后状态分析系统。该预后状态分析系统包括处理单元,处理单元包括图像预处理器、染色组织区域检测器和预后状态预测器;图像预处理器接收待分析病理WSI图像并进行预处理;染色组织区域检测器接收预处理后的图像并对染色组织区域进行检测;预后状态预测器获得染色组织区域对应的词袋类别标签,根据所述词袋类别标签,获得该样本的预后状态指标。本发明只需完成对WSI图像中少量图像块区域的简单类型标注,无需对每个图像块区域进行精确类型标注,即可利用病理图像及其生理信息,完成病例的预后状态分析。降低了处理工作量,提高了分析效率。

Description

病理图片染色组织区域检测方法、检测系统及预后状态分析 系统
技术领域
本发明属于智慧医疗技术领域,具体涉及一种病理图片染色组织区域检测方法、检测系统及预后状态分析系统。
背景技术
病理专家在实际诊断过程中,需要分析WSI图像(whole slide image,全视野数字切片图像),针对目前海量图像数据分析现状,常需要借助深度学习技术进行图像数据的辅助智能分析。在常规的基于深度卷积网络的图像智能分析系统中,由于WSI图像尺寸太大(亿级别像素,甚至十亿级像素),无法直接输入卷积神经网络,通常需要从WSI图像中提取大量图像块,用于后续的深度卷积神经网络训练,以及图像智能分析。上述处理过程中,针对大量图像块进行精确标注的工作量十分巨大,在实际工作中往往无法满足。
另外,利用WSI图像进行预后状态分析时,WSI图像通过组织刮片的方式生成,切片中有较多的空白背景区域存在;病理学家进行预后状况分析时,需要同时观察、对比病变组织、正常组织区域。由于病变组织和正常组织混杂在组织病理图像中,因此利用人工智能技术,模拟病理学家对组织病理图片进行智能分析时,需要在大量图像块中精确标注病变组织、正常组织区域,其人工标注的代价过于高昂。
发明内容
本发明旨在解决现有技术中存在的技术问题,本发明的目的是提供一种病理图片染色组织区域检测方法、检测系统及预后状态分析系统。
为实现上述目的,根据本发明的第一个方面,本发明提供了一种病理图片染色组织区域检测方法,其包括如下步骤:
S1,获取训练样本组织病理WSI图像In,n为样本序号,n∈[N],N为样本数,N取值为自然数;
S2,获取第n个样本的多个WSI图像构成的图像块patch的集合,用词袋集合βn表示,每个词袋b∈βn的特征由一组图像块τb表示,b为词袋,将图像块的特征向量映射为图像块的预测类别标签概率,并获取词袋的真实类别标签,对染色组织区域检测器进行训练,训练过程即求解损失函数
Figure GDA0003740994960000021
的最小化过程:
Figure GDA0003740994960000022
Figure GDA0003740994960000023
Figure GDA0003740994960000024
Figure GDA0003740994960000025
其中,损失函数
Figure GDA0003740994960000026
定义为三种区域的真实类别标签和预测类别标签概率间的交叉熵的加权组合,L()是交叉熵函数,Lt、Lb、Lm分别是染色组织区域、血液干扰区域、黏液干扰区域的真实类别标签,训练染色组织区域检测器Dtissue(patch,θD)包括特征提取器Dtissue(.;θDf)以及区域类别标签预测器Dtissue(.;θDc),θD为待分类的区域的可训练参数;θDf是组织区域检测网络中的特征集合,θDc是区域类别标签预测器的可训练参数,xi为输入染色组织区域检测网络的图像块patch,
Figure GDA0003740994960000031
是区域检测网络Dtissue(patch,θD)中的特征提取器Dtissue(.;θDf)的可训练参数的迭代结果、
Figure GDA0003740994960000032
区域类别标签预测器Dtissue(.;θDc)的可训练参数的迭代结果,
Figure GDA0003740994960000033
是图像快xi通过区域检测网络Dtissue(patch,θD)后,获得的图像块类别标签,即该图像块属于染色组织区域、血液干扰区域、黏液干扰区域的预测类别标签概率三者中的最大者;α1*Lts、α2*Lbi、α3*Lmi项分别用于衡量染色组织区域、血液干扰区域、黏液干扰区域图像块类别标签预测的加权交叉熵损失函数,αi为权重,i为区域类型序号,i=1,2,3;
S3,获取待检测WSI图像,对WSI图像进行预处理,利用训练好的染色组织区域检测器对预处理后WSI图像的染色组织区域进行检测。
依据本发明的病理图片染色组织区域检测方法通过预处理器去除了WSI图像中的空白背景区域,只需完成对少量图像块区域的简单类型(空白区域、血液干扰区域、黏液干扰区域、染色组织区域)标注,无需对每个图像块区域进行精确类型(正常组织区域、病变组织区域)标注,利用染色组织区域检测器针对WSI图像中的三种典型图像区域进行识别,即血液干扰区域、黏液干扰区域、染色组织区域的识别,实现染色组织区域的检测,大幅降低了处理工作量。
为实现上述目的,根据本发明的第二个方面,本发明提供了一种病理图片染色组织区域检测系统,其包括处理单元,所述处理单元包括图像预处理器和染色组织区域检测器;所述图像预处理器接收病理WSI图像并进行预处理;所述染色组织区域检测器接收预处理后的图像并对染色组织区域进行检测。
本发明的病理图片染色组织区域检测系统只需完成对少量图像块区域的简单类型标注,无需对每个图像块区域进行精确类型标注,即能够实现对染色组织区域的检测,大幅降低了处理工作量,提高了检测效率。
为实现上述目的,根据本发明的第三个方面,本发明提供了一种预后状态分析系统,其包括处理单元,所述处理单元包括图像预处理器、染色组织区域检测器和预后状态预测器;所述图像预处理器接收待分析病理WSI图像;所述染色组织区域检测器接收预处理后的图像并对染色组织区域进行检测;所述预后状态预测器获得染色组织区域对应的词袋类别标签,根据所述词袋类别标签,获得该样本的预后状态指标。
本发明只需完成对WSI图像中少量图像块区域的简单类型标注,无需对每个图像块区域进行精确类型标注,即可利用病例图像及其生理信息,完成病例的预后状态分析,降低了处理工作量,提高了分析效率。根据本发明的一种优选实施方式,对WSI图像进行预处理的方法为:对WSI图像均匀分块,丢弃边缘部分的图像块,针对前景区域、空白背景区域进行语义分割,所述前景区域包括染色组织区域、血液干扰区域、黏液干扰区域,丢弃前景区域占比低于阈值T的图像块。
本发明通过预处理器去除WSI图像中的空白背景区域,便于实现染色组织区域的检测。
根据本发明的另一种优选实施方式,预后状态预测器利用训练样本进行训练,获得词袋类别标签获取模型,训练过程为:词袋bagi包含来自同一样本的多个图像块,以及该词袋对应样本的生理状况信息psy;以词袋对应样本的预后状况作为词袋类别标签,预测结果为:
Figure GDA0003740994960000051
其中,预后状态标签
Figure GDA0003740994960000052
预后状态分析网络中染色组织区域特征bagi,生理状况信息特征psy,θP是可训练参数的集合,预后状态分析网络包括预后状态特征提取器Pstate(.;θPf),预后状态标签预测器Pstate(.;θPc),θPf为预后状态特征提取器Pstate(.;θPf)的可训练参数,θPc为预后状态标签预测器Pstate(.;θPc)的可训练参数,
Figure GDA0003740994960000053
为预后状态分析网络的输出值,
Figure GDA0003740994960000054
为预后状态分析网络的输出值的置信度;
利用训练后的词袋类别标签获取模型对待分析WSI图像的染色组织区域进行分析,获取词袋的类别标签。
通过获取词袋的类别标签,进而进行病例的预后的状态判断,提高了分析效率。
根据本发明的再一种优选实施方式,预后状态预测器依据每个样本中所有词袋的类别标签进行训练,获得预后状态指标获取模型,具体训练方法为:
将一个样本中所有词袋类别标签加权和最大的类别,作为该样本的预后状态类型,其中,参数集θP的训练表示为以下最小化问题:
Figure GDA0003740994960000061
Figure GDA0003740994960000062
Figure GDA0003740994960000063
Figure GDA0003740994960000064
损失函数包含三部分,即有癌词袋预测值与实际预后状态的交叉熵Lcancer,无癌词袋预测值与实际预后状态的交叉熵Lfree,以及词袋内部图像块的特征距离Ldict,β是调节词袋内部图像块的特征距离Ldict对应的损失值权重;ck为图像块特征,c0为词袋中所有图像块的平均特征,fd(ck,c0)是词袋内图像块特征差异值,t为特征距离阈值,Relu()为线性整流函数,Ldict是词袋内部图像块的特征距离,β是调节词袋内部图像块的特征距离Ldict的损失值权重,
Figure GDA0003740994960000065
为预后状态分析网络Pstate(tissue,psy;θd)中的特征提取器Pstate(.;θPf)可训练参数的迭代结果,
Figure GDA0003740994960000066
为预后状态标签预测器Pstate(.;θPc)的可训练参数的迭代结果,l是设定的迭代次数;
最后,根据待分析WSI图像的词袋类别标签,利用训练后的预后状态指标获取模型进行分析,获取预后状态。
本发明使用多模态预后状态分析器,基于染色组织区域、患者生理状况信息完成了患者的预后状况分析,数据处理效率高,为病理医生的预后分析工作提供有意义的参考。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一种优选实施方式中WSI图像、词袋、图像块的关系图;
图2是本发明一种优选实施方式中预后状态分析系统的结构框架示意图;
图3是本发明一种优选实施方式中染色组织区域检测网络架构的示意图;
图4是图3中所示架构的模块结构示意图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“竖向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明的技术方案可在给定的WSI图像中自动检测染色组织区域,并结合患者生理信息,完成预后状态分析。
本发明提出一个预后状况分析网络,该网络首先通过预处理器去除待分析WSI图像中的空白背景区域,然后基于染色组织区域检测器Dtissue针对WSI图像中的三种典型图像区域进行识别,即血液干扰区域、黏液干扰区域、染色组织区域(正常&病变组织区域)。接着,使用多模态预后状态分析器,基于染色组织区域、患者生理状况信息完成了患者的预后状况分析,为病理医生的预后分析工作提供有意义的参考。
本发明构建包含N个样本的数据集,每个样本对应的数据包括:染色WSI图像In、确诊时的生理状况信息An、预后状态信息Yn,数据集表示为
Figure GDA0003740994960000091
N为自然数。本发明将每个WSI样本图像分为多个图像块(patch),第n个样本对应的WSI图像构成的图像块集合(词袋bag)用βn表示,其中n∈[N]。每个词袋b∈βn的特征由一组图像块τb表示,其中,b∈βn。图1展示了WSI、词袋、图像块的概念。本发明不观察图像块的类别标签,而是观察词袋(图像块组)的类别标签。
本发明通过对具有类别标签的词袋(多实例包)的学习,建立多实例分类器,并将该分类器应用于未知多词袋的预测。其中,词袋是由多个样本组成的一个集合,只有词袋含有标签,样本不含有标签。针对一个样本的WSI图像对应的一组图像块,组成一个词袋(bag),词袋标签就是该病例的预后状态,其特征由词袋所包含图像块(病变&正常组织区域)的特征共同构成,上述区域共同作用于该病例的预后状况。例如,对于病例预后状态进行分析(有癌&无癌)的二分类问题,患者的WSI图像中同时包含病变组织、正常组织图像块。将预后状态为有癌/无癌患者的WSIs中截取的图像块组成的包,分别视为阳性包/阴性包(bags),将有癌患者WSIs中提取的图像块视为正样本,将无癌患者WSIs中提取的图像块视为负样本,使用未精确标注病变组织区域、正常组织区域的组织图像块组成的包,进行预后状况分析。
为进行病理图片染色组织区域检测,本发明提供了一种病理图片染色组织区域检测系统,包括处理单元,处理单元包括图像预处理器和染色组织区域检测器;图像预处理器接收待分析WSI图像并进行预处理;染色组织区域检测器接收预处理后的图像并对染色组织区域进行检测。
在一种优选实施方式中,图像预处理器对待分析WSI图像进行预处理的方法为:对WSI图像均匀分块,丢弃边缘部分的图像块,针对前景区域、空白背景区域进行语义分割,所述前景区域包括染色组织区域、血液干扰区域、黏液干扰区域,丢弃空白背景区域以及前景区域占比低于阈值T的图像块,优选取T=0.5。
在本实施方式中,前景图像块类型包括染色组织区域(正常&病变组织)、血液干扰区域、黏液干扰区域三种类别,通过对已有前景图像块进行学习训练,建立染色组织区域检测器,用于未检测图像,完成染色组织区域的检测。
具体病理图片染色组织区域检测方法包括如下步骤:
首先对染色组织区域检测器进行训练,具体过程为:
S1,获取训练样本WSI图像In,n为样本序号,n∈[N],N为样本数,N取值为自然数;
S2,获取第n个样本的多个WSI图像构成的图像块patch的集合,用词袋集合βn表示,每个词袋b∈βn的特征由一组图像块τb表示,b为词袋,将图像块的特征向量映射为图像块的预测类别标签概率,并获取词袋的真实类别标签,对染色组织区域检测器进行训练,训练过程即求解损失函数
Figure GDA0003740994960000101
的最小化过程:
求解损失函数
Figure GDA0003740994960000111
的最小化问题:
Figure GDA0003740994960000112
Figure GDA0003740994960000113
Figure GDA0003740994960000114
Figure GDA0003740994960000115
其中,损失函数
Figure GDA0003740994960000116
定义为三种区域的真实类别标签和预测类别标签概率间的交叉熵的加权组合,L()是交叉熵函数,Lt、Lb、Lm分别是染色组织区域、血液干扰区域、黏液干扰区域的真实类别标签,训练组织区域检测网络Dtissue(patch,θD)包括特征提取器Dtissue(.;θDf)以及区域类别标签预测器Dtissue(.;θDc),θD为待分类的区域的可训练参数;θDf是组织区域检测网络中的特征集合,θDc是区域类别标签预测器的可训练参数,xi为输入染色组织区域检测网络的图像块patch,
Figure GDA0003740994960000117
是区域检测网络Dtissue(patch,θD)中的特征提取器Dtissue(.;θDf)的可训练参数的迭代结果、
Figure GDA0003740994960000118
区域类别标签预测器Dtissue(.;θDc)的可训练参数的迭代结果,
Figure GDA0003740994960000119
是图像快xi通过区域检测网络Dtissue(patch,θD)后,获得的图像块类别标签,即该图像块属于染色组织区域、血液干扰区域、黏液干扰区域的预测类别标签概率三者中的最大者;α1*Lts、α2*Lbi、α3*Lmi项分别用于衡量染色组织区域、血液干扰区域、黏液干扰区域图像块类别标签预测的加权交叉熵损失函数,αi为权重,i为区域类型序号,i=1,2,3。
在本实施方式中,权重αi获取具体过程为:
统计训练样本中K种类别的样本数量N1,N2,...,NK,其中Nk是第k种类别的训练样本数量,所述训练样本的类别K为3,不同取值代表染色组织区域样本、血液干扰区域样本和黏液干扰区域样本;
将权重分配给每个类别的训练样本,该权重与训练样本中该类别样本的数量成反比:
Figure GDA0003740994960000121
其中,αj是权重,Nj为分配给相应类别Lj内的训练样本数量。
具体检测时,获取待检测WSI图像,对WSI图像进行预处理,利用训练好的染色组织区域检测器对预处理后WSI图像的染色组织区域进行检测。
如图2所示,本发明还提供了一种预后状态分析系统,包括处理单元,处理单元包括图像预处理器、染色组织区域检测器和预后状态预测器;图像预处理器接收待分析病理WSI图像;染色组织区域检测器接收预处理后的图像并对染色组织区域进行检测;预后状态预测器获得染色组织区域对应的词袋类别标签,根据所述词袋类别标签,获得该样本的预后状态指标。
本实施方式中,图像预处理器和染色组织区域检测器采用与病理图片染色组织区域检测系统中相同的结构和方法,在此不作赘述,另外,本发明通过对具有类别标签的词袋(多实例包)的学习,建立多实例分类器,并将该分类器应用于未知词袋的预测。
预后状态预测器利用训练样本进行训练,获得词袋类别标签获取模型,训练过程为:
词袋bagi包含来自同一样本的多个图像块,以及该词袋对应样本的生理状况信息psy;以词袋对应样本的预后状况作为词袋类别标签,预测结果为:
Figure GDA0003740994960000131
其中,预后状态标签
Figure GDA0003740994960000132
预后状态分析网络中染色组织区域特征bagi,生理状况信息特征psy,θP是可训练参数的集合,预后状态分析网络中包括预后状态特征提取器Pstate(.;θPf),预后状态标签预测器Pstate(.;θPc),θPf为预后状态特征提取器Pstate(.;θPf)的可训练参数,θPc为预后状态标签预测器Pstate(.;θPc)的可训练参数,
Figure GDA0003740994960000133
为预后状态分析网络的输出值,
Figure GDA0003740994960000134
为预后状态分析网络的输出值的置信度。
利用训练后的词袋类别标签获取模型对待分析WSI图像的染色组织区域进行分析,获取词袋的类别标签。
预后状态预测器依据每个样本中所有词袋的类别标签进行训练,获得预后状态指标获取模型,具体训练方法为:
将一个样本中所有词袋类别标签加权和最大的类别,作为该样本的预后状态类型,其中,参数集θP的训练表示为以下最小化问题:
Figure GDA0003740994960000141
Figure GDA0003740994960000142
Figure GDA0003740994960000143
Figure GDA0003740994960000144
损失函数包含三部分,即有癌词袋预测值与实际预后状态的交叉熵Lcancer,无癌词袋预测值与实际预后状态的交叉熵Lfree,以及词袋内部图像块的特征距离Ldict,β是调节词袋内部图像块的特征距离Ldict对应的损失值权重;ck为图像块特征,c0为词袋中所有图像块的平均特征,fd(ck,c0)是词袋内图像块特征差异值,t为特征距离阈值,Relu()为线性整流函数,
Figure GDA0003740994960000145
Ldict是词袋内部图像块的特征距离,β是调节词袋内部图像块的特征距离Ldict的损失值权重,
Figure GDA0003740994960000146
为预后状态分析网络Pstate(tissue,psy;θd)中的特征提取器Pstate(.;θPf)可训练参数的迭代结果,
Figure GDA0003740994960000147
为预后状态标签预测器Pstate(.;θPc)的可训练参数的迭代结果,l是设定的迭代次数。
根据待分析WSI图像的词袋类别标签,利用训练后的预后状态指标获取模型进行分析,获取预后状态。
在本实施方式中,染色组织区域检测网络的训练过程在表1中描述,其参数是将单个图像块作为训练样本进行更新。
表1.染色组织区域检测器训练过程中的网络参数更新过程
Figure GDA0003740994960000151
预后状态预测网络对应算法在表2中描述,其网络参数更新是通过将每个词袋中的样本实例作为一个小批量进行的。
表2.预后状态预测网络训练过程中的网络参数更新过程
Figure GDA0003740994960000152
Figure GDA0003740994960000161
在本实施方式中,具体染色组织区域检测网络和预后状态预测网络可采用现有的深度学习网络架构,例如,可根据实际需要设置卷积层,池化层,全连接层,BN层的层数和结构。
在本发明的一种优选实施方式中,图3和图4示出了本发明染色组织区域检测网络具体采用的网络架构,这只是一种优选实施方式但不是唯一的实施方式,依据本发明的网络参数更新过程采用的深度学习网络架构都在本发明的保护范围之内。
在本发明的一个优选实施利中,以子宫内膜非典型增生数据为例,子宫内膜非典型增生预后数据集数据由**大学**医院病理科2019-2020年活检中诊断为子宫内膜非典型增生(hyperplasia of endometrium,AH)/子宫内膜上皮内增生(endometrialintraepithelial hyperplasia,EIH)的102例患者数据组成,其中预后状态为癌、无癌的患者各51例。每个患者数据包含1张福尔马林固定石蜡包埋载玻片,患者确诊时的生理状态信息及其预后状态信息。所有102张玻片均由3名经验丰富的病理学家诊断及复查,以证实AH/EIH的诊断。使用
Figure GDA0003740994960000171
EasyScan system(麦克奥迪公司)以20倍率(0.5μm/pixel)扫描上述H&E染色组织标本载玻片,获取WSIs图像。准确记录患者年龄,并收集随访1年内子宫切除术后的最终诊断,即预后状况。
检测分析网络中的组织区域检测器、预后状态分析器分别进行训练。其训练、测试过程中,均使用从WSIs图像中抽取的512×512像素图像块。当某种类型图像块数据不足时,可通过将图像块旋转90度、180度、270度进行数据增强。上述网络参数均通过ADAM算法进行优化,其中,自适应学习率设置为0.0001,设置超参数β1=0.9、β2=0.9999。
构建图像块数据集,用于组织区域检测器的训练及测试。数据集规模为6000个图像块,其构建方式为从每幅WSI图像的不同类型区域中随机抽取不超过200个图像块,并且在抽取过程中控制染色组织区域、黏液干扰区域、血液干扰区域的比例为2:1:1。再将数据集按照60%、20%、20%的比例划分为训练集、验证集、测试集,在划分数据集时不涉及到患者的分离,但需要保持上述三种区域类型的比例不变。训练过程中,组织区域检测器训练一个图像块并更新一次迭代参数,每训练10轮(epoch),则对图像块进行替换(shuffled)。实验中,采用染色组织区域检测网络Dtissue(patch,θD),包括特征提取器Dtissue(.;θDf),以及全连通层输出1024维向量的图像块类型标签预测器Dtissue(.;θDc),并由此预测一个图像块的类型标签。
构建池袋数据集,用于预后状态分析器的训练及测试。数据集规模为2000个池袋,从每幅WSI图像的染色组织区域中随机抽取210个图像块,并将其中15个图像块随机设置为一个词袋,每幅WSI图像生成词袋(bag)数为15-25个。再将数据集按照60%、20%、20%比例划分为训练集、验证集、测试集,划分数据集时涉及到患者的分离。训练过程中,预后状态分析网络训练一个词袋并更新一次迭代参数,每训练10轮(epoch),则对训练集中的词袋进行替换(shuffled)。优选地,采用预后状态分析网络Pstate(tissue,psy;θd),包括特征提取器Pstate(.;θPf),预后状态标签预测器Pstate(.;θPc)。进行标签预测时,在使用注意力机制前,利用全连接层将输出特征转换为一个512维向量。在注意力网络中,输入单位、隐藏单位数目分别为512、128。对于预后状态标签预测器Pstate(.;θPc)的全连接层输出1024维向量,并由此预测一个预后状态标签。
表3给出了病理专家和本发明方法进行预后状态分析的结果。其中,第一列是方法类型,Human Expert 1、Human Expert 2、Human Expert 3分别代表三位病理学家的分析结果,Human Expert Majority代表三位病理学家按多数投票法确定的分析结果。MIL-MM-1代表本发明方法,但未去除WSI图像空白背景及干扰区域;MIL-MM-2代表本发明方法,但未使用年龄信息;MIL-MM-3代表本发明方法全流程。
使用的评价指标包括准确率ACCURACY、精度PRECISION、召回率RECALL,其定义如下:
Figure GDA0003740994960000191
Figure GDA0003740994960000192
Figure GDA0003740994960000193
其中,TP(True Positive)代表真阳性样本,TN(True Negative)代表真阴性样本,FP(False Positive)代表假阳性样本,FN(False Negative)代表假阴性样本准确率,P为阳性样本,N为阴性样本ACCURACY代表样本分类正确的比例,准确率越高,分类器性能越好;精度(precision)代表模型预测正确的正样本TP占所有预测为正样本(TP+FP)的比例,精度越高,分类器性能越好;召回率RECALL代表模型预测正确的正样本TP占所有正样本(TP+FN)的比例,召回率越高,分类器性能越好。
表3.病理专家和本发明方法进行预后状态分析的比较。
Figure GDA0003740994960000194
Figure GDA0003740994960000201
表3表明,本发明方法全流程MIL-MM-3达到了与Human Expert Majority的分析性能近似的效果,并且这两类方法的性能均明显高于其他方法及单个病理学家的分析。特别是证实了MIL-MM-3的分析性能优于MIL-MM-1、MIL-MM-2,为去除空白背景区域、干扰区域,以及使用多模态输入进行病理图像分析提供了实验依据。
本发明方法无需在WSI图像中精确标注病变组织区域,即可完成预后分析网络的训练。将该方法应用于102例子宫内膜非典型增生病例的预后分析实验的结果表明,该方法进行预后状态分析的准确率、召回率、精确率均超过了单个病理专家水平,其性能接近于三位病理专家的多数投票结果。当其集成到临床决策系统时,该方法能够为病理专家分析患者的预后状态提供重要参考,并对规划、制定患者临床治疗方案提供重要参考。
在本说明书的描述中,参考术语“优选的实施方式”、“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种病理图片染色组织区域检测方法,其特征在于,包括如下步骤:
S1,获取训练样本WSI图像In,n为样本序号,n∈[N],N为样本数,N取值为自然数;
S2,获取第n个样本的多个WSI图像构成的图像块patch的集合,用词袋集合βn表示,每个词袋b∈βn的特征由一组图像块τb表示,b为词袋,将图像块的特征向量映射为图像块的预测类别标签概率,并获取词袋的真实类别标签,对染色组织区域检测器进行训练,训练过程即求解损失函数
Figure FDA0003740994950000011
的最小化过程:
Figure FDA0003740994950000012
Figure FDA0003740994950000013
Figure FDA0003740994950000014
Figure FDA0003740994950000015
其中,损失函数
Figure FDA0003740994950000016
定义为三种区域的真实类别标签和预测类别标签概率间的交叉熵的加权组合,L()是交叉熵函数,Lt、Lb、Lm分别是染色组织区域、血液干扰区域、黏液干扰区域的真实类别标签,训练组织区域检测网络Dtissue(patch,θD)包括特征提取器Dtissue(.;θDf)以及区域类别标签预测器Dtissue(.;θDc),θD为待分类的区域的可训练参数;θDf是组织区域检测网络中的特征集合,θDc是区域类别标签预测器的可训练参数,xi为输入染色组织区域检测网络的图像块patch,
Figure FDA0003740994950000021
是区域检测网络Dtissue(patch,θD)中的特征提取器Dtissue(.;θDf)的可训练参数的迭代结果、
Figure FDA0003740994950000022
区域类别标签预测器Dtissue(.;θDc)的可训练参数的迭代结果,
Figure FDA0003740994950000023
是图像快xi通过区域检测网络Dtissue(patch,θD)后,获得的图像块类别标签,即该图像块属于染色组织区域、血液干扰区域、黏液干扰区域的预测类别标签概率三者中的最大者;α1*Lts、α2*Lbi、α3*Lmi项分别用于衡量染色组织区域、血液干扰区域、黏液干扰区域图像块类别标签预测的加权交叉熵损失函数,αi为权重,i为区域类型序号,i=1,2,3;
S3,获取待检测WSI图像,对WSI图像进行预处理,利用训练好的染色组织区域检测器对预处理后WSI图像的染色组织区域进行检测。
2.根据权利要求1所述的病理图片染色组织区域检测方法,其特征在于,权重αi获取具体过程为:
统计训练样本中K种类别的样本数量N1,N2,...,NK,其中Nk是第k种类别的训练样本数量,所述训练样本的类别K为3,不同取值代表染色组织区域样本、血液干扰区域样本和黏液干扰区域样本;
将权重分配给每个类别的训练样本,该权重与训练样本中该类别样本的数量成反比:
Figure FDA0003740994950000031
其中,αj是权重,Nj为分配给相应类别Lj内的训练样本数量。
3.根据权利要求1所述的病理图片染色组织区域检测方法,其特征在于,对WSI图像进行预处理的方法为:
对WSI图像均匀分块,丢弃边缘部分的图像块,针对前景区域、空白背景区域进行语义分割,所述前景区域包括染色组织区域、血液干扰区域、黏液干扰区域,丢弃前景区域占比低于阈值T的图像块。
4.一种病理图片染色组织区域检测系统,其特征在于,包括处理单元,所述处理单元包括图像预处理器和染色组织区域检测器;
所述图像预处理器接收病理WSI图像并进行预处理;
所述染色组织区域检测器接收预处理后的图像并利用权利要求1-3之一所述的病理图片染色组织区域检测方法对染色组织区域进行检测。
5.一种预后状态分析系统,其特征在于,包括处理单元,所述处理单元包括图像预处理器、染色组织区域检测器和预后状态预测器;
所述图像预处理器接收待分析病理WSI图像并进行预处理;
所述染色组织区域检测器接收预处理后的图像并对染色组织区域进行检测;
所述预后状态预测器获得染色组织区域对应的词袋类别标签,根据所述词袋类别标签,获得该样本的预后状态指标。
6.根据权利要求5所述的预后状态分析系统,其特征在于,图像预处理器对WSI图像进行预处理的方法为:
对WSI图像均匀分块,丢弃边缘部分的图像块,针对前景区域、空白背景区域进行语义分割,所述前景区域包括染色组织区域、血液干扰区域、黏液干扰区域,丢弃前景区域占比低于阈值T的图像块。
7.根据权利要求5所述的预后状态分析系统,其特征在于,染色组织区域检测器的训练方法为:训练过程即求解损失函数
Figure FDA0003740994950000041
的最小化过程,
Figure FDA0003740994950000042
Figure FDA0003740994950000043
Figure FDA0003740994950000044
Figure FDA0003740994950000045
其中,损失函数
Figure FDA0003740994950000046
定义为三种区域的真实类别标签和预测类别标签概率间的交叉熵的加权组合,L()是交叉熵函数,Lt、Lb、Lm分别是染色组织区域、血液干扰区域、黏液干扰区域的真实类别标签,训练组织区域检测网络Dtissue(patch,θD)包括特征提取器Dtissue(.;θDf)以及区域类别标签预测器Dtissue(.;θDc),θD为待分类的区域的可训练参数;θDf是组织区域检测网络中的特征集合,θDc是区域类别标签预测器的可训练参数,xi为输入染色组织区域检测网络的图像块patch,
Figure FDA0003740994950000047
是区域检测网络Dtissue(patch,θD)中的特征提取器Dtissue(.;θDf)的可训练参数的迭代结果、
Figure FDA0003740994950000051
区域类别标签预测器Dtissue(.;θDc)的可训练参数的迭代结果,
Figure FDA0003740994950000052
是图像快xi通过区域检测网络Dtissue(patch,θD)后,获得的图像块预测类别标签,即该图像块属于染色组织区域、血液干扰区域、黏液干扰区域的预测类别标签概率三者中的最大者;α1*Lts、α2*Lbi、α3*Lmi项分别用于衡量染色组织区域、血液干扰区域、黏液干扰区域图像块类别标签预测的加权交叉熵损失函数,αi为权重,i为区域类型序号,i=1,2,3。
8.根据权利要求7所述的预后状态分析系统,其特征在于,权重αi获取具体过程如下:
统计训练样本中K种类别的样本数量N1,N2,...,NK,其中Nk是第k种类别的训练样本数量,所述训练样本的类别K为3,不同取值代表染色组织区域样本、血液干扰区域样本和黏液干扰区域样本;
将权重分配给每个类别的训练样本,该权重与训练样本中该类别样本的数量成反比:
Figure FDA0003740994950000053
其中,αj是权重,Nj为分配给相应类别Lj内的训练样本数量。
9.根据权利要求5所述的预后状态分析系统,其特征在于,预后状态预测器利用训练样本进行训练,获得词袋类别标签获取模型,训练过程为:
词袋bagi包含来自同一样本的多个图像块,以及该词袋对应样本的生理状况信息psy;以词袋对应样本的预后状况作为词袋类别标签,预测结果为:
Figure FDA0003740994950000061
其中,预后状态标签
Figure FDA0003740994950000062
预后状态分析网络中染色组织区域特征bagi,生理状况信息特征psy,θP是可训练参数的集合,预后状态分析网络中包括预后状态特征提取器Pstate(.;θPf),预后状态标签预测器Pstate(.;θPc),θPf为预后状态特征提取器Pstate(.;θPf)的可训练参数,θPc为预后状态标签预测器Pstate(.;θPc)的可训练参数,
Figure FDA0003740994950000063
为预后状态分析网络的输出值,
Figure FDA0003740994950000064
为预后状态分析网络的输出值的置信度;
利用训练后的词袋类别标签获取模型对待分析WSI图像的染色组织区域进行分析,获取词袋的类别标签。
10.根据权利要求5所述的预后状态分析系统,其特征在于,预后状态预测器依据每个样本中所有词袋的类别标签进行训练,获得预后状态指标获取模型,具体训练方法为:
将一个样本中所有词袋类别标签加权和最大的类别,作为该样本的预后状态类型,其中,参数集θP的训练表示为以下最小化问题:
Figure FDA0003740994950000071
Figure FDA0003740994950000072
Figure FDA0003740994950000073
Figure FDA0003740994950000074
损失函数包含三部分,即有癌词袋预测值与实际预后状态的交叉熵Lcancer,无癌词袋预测值与实际预后状态的交叉熵Lfree,以及词袋内部图像块的特征距离Ldict,β是调节词袋内部图像块的特征距离Ldict对应的损失值权重;ck为图像块特征,c0为词袋中所有图像块的平均特征,fd(ck,c0)是词袋内图像块特征差异值,t为特征距离阈值,Relu()为线性整流函数,
Figure FDA0003740994950000075
为预后状态分析网络Pstate(tissue,psy;θd)中的特征提取器Pstate(.;θPf)可训练参数的迭代结果,
Figure FDA0003740994950000076
为预后状态标签预测器Pstate(.;θPc)的可训练参数的迭代结果,l是设定的迭代次数,K为训练样本的类别数,N为样本数;
根据待分析WSI图像的词袋类别标签,利用训练后的预后状态指标获取模型进行分析,获取预后状态。
CN202110950334.5A 2021-08-18 2021-08-18 病理图片染色组织区域检测方法、检测系统及预后状态分析系统 Active CN113628199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110950334.5A CN113628199B (zh) 2021-08-18 2021-08-18 病理图片染色组织区域检测方法、检测系统及预后状态分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110950334.5A CN113628199B (zh) 2021-08-18 2021-08-18 病理图片染色组织区域检测方法、检测系统及预后状态分析系统

Publications (2)

Publication Number Publication Date
CN113628199A CN113628199A (zh) 2021-11-09
CN113628199B true CN113628199B (zh) 2022-08-16

Family

ID=78386433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110950334.5A Active CN113628199B (zh) 2021-08-18 2021-08-18 病理图片染色组织区域检测方法、检测系统及预后状态分析系统

Country Status (1)

Country Link
CN (1) CN113628199B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240938B (zh) * 2022-02-24 2022-05-27 浙江大学 一种h&e染色切片图像中异常组织的分割方法和装置
CN116030017B (zh) * 2023-01-10 2024-01-26 四川大学 基于多模态卷积神经网络的病理预后分析方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933711B (zh) * 2015-06-10 2017-09-29 南通大学 一种肿瘤病理图像自动快速分割方法
CN106022338A (zh) * 2016-05-23 2016-10-12 麦克奥迪(厦门)医疗诊断系统有限公司 一种数字病理全切片图像感兴趣区域自动检测方法
CN106570505B (zh) * 2016-11-01 2020-08-21 北京昆仑医云科技有限公司 对组织病理图像进行分析的方法和系统
IL272433B2 (en) * 2017-08-03 2024-02-01 Nucleai Ltd Systems and methods for tissue image analysis
CN109754879A (zh) * 2019-01-04 2019-05-14 湖南兰茜生物科技有限公司 一种基于深度学习的肺癌计算机辅助检测方法及系统
US20200250398A1 (en) * 2019-02-01 2020-08-06 Owkin Inc. Systems and methods for image classification
CN110378885B (zh) * 2019-07-19 2023-07-04 王晓骁 一种基于机器学习的wsi病灶区域自动标注方法及系统
CN111986150B (zh) * 2020-07-17 2024-02-09 万达信息股份有限公司 一种数字病理图像的交互式标注精细化方法
CN112580748B (zh) * 2020-12-30 2022-10-14 电子科技大学 一种对染色图像的分类细胞计数的方法
CN112733859B (zh) * 2021-01-25 2023-12-19 重庆大学 一种组织病理学图像的深度迁移半监督域自适应分类方法

Also Published As

Publication number Publication date
CN113628199A (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
US11842556B2 (en) Image analysis method, apparatus, program, and learned deep learning algorithm
Ghoshal et al. Estimating uncertainty and interpretability in deep learning for coronavirus (COVID-19) detection
CN109903284B (zh) 一种her2免疫组化图像自动判别方法及系统
CN113628199B (zh) 病理图片染色组织区域检测方法、检测系统及预后状态分析系统
CN110796661B (zh) 基于卷积神经网络的真菌显微图像分割检测方法及系统
CN111488921A (zh) 一种全景数字病理图像智能分析系统及方法
CN113239993B (zh) 一种病理图像的分类系统、终端及计算机可读存储介质
CN113902669A (zh) 一种尿脱落细胞液基涂片的阅片方法及系统
CN115909006A (zh) 基于卷积Transformer的乳腺组织图像分类方法及系统
CN115526834A (zh) 免疫荧光图像检测方法及装置、设备、存储介质
CN112419396A (zh) 一种甲状腺超声视频自动分析方法与系统
CN115206495A (zh) 基于CoAtNet深度学习的肾癌病理图像分析方法、系统及智能显微装置
CN114387596A (zh) 细胞病理涂片自动判读系统
JP2021519920A (ja) 細胞学的試料中の少なくとも1つの異常を有する細胞を検出するための方法
Taher et al. Identification of lung cancer based on shape and color
Sobrevilla et al. Fuzzy-based analysis of microscopic color cervical pap smear images: nuclei detection
CN113034448B (zh) 一种基于多示例学习的病理图像细胞识别方法
Taher et al. Morphology analysis of sputum color images for early lung cancer diagnosis
Kurniawan et al. Segmentation of Tuberculosis Bacilli Using Watershed Transformation and Fuzzy C-Means
Mustafa et al. Capability of new features of cervical cells for cervical cancer diagnostic system using hierarchical neural network
Iqbal et al. Towards Efficient Segmentation and Classification of White Blood Cell Cancer Using Deep Learning
CN117496276B (zh) 肺癌细胞形态学分析、识别方法及计算机可读存储介质
WO2023240819A1 (zh) 一种甲状腺疾病病理分析模块
CN114821046B (zh) 基于细胞图像进行细胞检测和细胞核分割的方法及系统
KR102566095B1 (ko) 조직병리영상의 공동 분류 및 분할을 위한 딥러닝 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant