CN112950583A - 病理图像中细胞计数模型训练方法及装置 - Google Patents

病理图像中细胞计数模型训练方法及装置 Download PDF

Info

Publication number
CN112950583A
CN112950583A CN202110223661.0A CN202110223661A CN112950583A CN 112950583 A CN112950583 A CN 112950583A CN 202110223661 A CN202110223661 A CN 202110223661A CN 112950583 A CN112950583 A CN 112950583A
Authority
CN
China
Prior art keywords
training
model
image
resnest
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110223661.0A
Other languages
English (en)
Inventor
杜强
陈相儒
郭雨晨
聂方兴
唐超
张兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xbentury Network Technology Co ltd
Original Assignee
Beijing Xbentury Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xbentury Network Technology Co ltd filed Critical Beijing Xbentury Network Technology Co ltd
Priority to CN202110223661.0A priority Critical patent/CN112950583A/zh
Publication of CN112950583A publication Critical patent/CN112950583A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10056Microscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20132Image cropping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30242Counting objects in image

Abstract

本发明公开了一种基于深度学习的病理图像中细胞计数模型训练方法及装置,所述方法包括:通过ImageNet数据集的均值和方差对图像进行归一化,使用Auto Augmentation的训练方式进行数据增强,得到ResNeSt模型;对数字病理图像中的细胞核和细胞膜进行染色标记,使用标签记录每个图片手动注释的淋巴细胞的数量,数字病理图像及标签信息构成数据集;将所述数据集分为训练数据集和测试数据集;使用ResNeSt+GC的方式进行模型的训练,将ResNeSt模型在ImageNet上进行预训练;使用所述预训练后的ResNeSt模型对数据集进行特征提取,得到特征后,使用2个全连接层对特征进行降维处理,通过ReLu函数进行激活,得到计数结果。

Description

病理图像中细胞计数模型训练方法及装置
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于深度学习的病理图像中细胞计数模型训练方法及装置。
背景技术
近年来,数字病理图像和显微图像分析在病理诊断中发挥了非常重要的作用,它们可以为计算机辅助诊断提供大量的信息,进而使数字病理图像可以进行具有高通量处理速率的定量分析,为病理学家提供了极大的便利。
现今,自动化的数字病理图像分析已经在研究和临床实践中吸引了很多关注,深度学习方法是一种模拟人的神经组成,在计算机中构建人工神经网络,从而模拟人的思考过程完成一些感知任务的方法,它通过大量的数据对相应的神经网络进行训练,使神经网络能够很好地把握住人的大脑在相应的任务上的感知过程和重点,达到人工神经网络模拟人类神经的决策过程的目的,甚至在大量的数据前提下,人工神经网络在某些任务上能够优于人类现在的水平。
如今,病理切片作为医生用来诊断一个病人是否患病的金标准,被广大医生所接受和使用,但是由于病理切片通常都是高分辨率图像,一般一张病理图像都不小于一亿像素值,都靠医生人工对病理图像进行细胞数量的量化评估会出现劳动密集、时间消耗性强、复现性差、主观性强,导致产生一定的误差,甚至影响到医生对病情的整体发展认知。现有技术中的病理图像细胞计数方法准确率不高,对特征的抓取和细胞的计数效果不是很好。
发明内容
本发明的目的在于提出一种基于深度学习的病理图像中细胞计数模型训练方法及装置,使训练出的模型能够实现目前的细胞计数任务,并在相应的数据集上达到较高的水平,在保证准确率的前提下,显著提高观测的复现性、时效性和客观性,从而可以将基础科学研究者和临床医生从无聊和重复的日常工作中解救出来。
本发明提供一种基于深度学习的病理图像中细胞计数模型训练方法,包括:
数据获取步骤:从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集;
数据处理步骤:对所述训练数据集进行图像归一化和图像增强;
模型预训练步骤:在ImageNet数据集上进行预训练得到ResNeSt模型;
模型训练步骤:使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练:基于预先设置的训练参数,重复执行以下模型训练处理:通过所述ResNeSt模型使用注意力分散Split-Attention的机制对所述训练数据集中染色图像进行特征提取,得到细胞计数结果;并通过GC的方式对参数更新的过程进行优化。
本发明提供一种基于深度学习的病理图像中细胞计数模型训练装置,包括:
获取模块:用于从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集;
处理模块:用于对所述训练数据集进行图像归一化和图像增强处理;
预训练模块:用于在ImageNet数据集上进行预训练得到ResNeSt模型;
训练模块:用于使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练:基于预先设置的训练参数,重复执行以下模型训练处理:通过所述ResNeSt模型使用注意力分散Split-Attention的机制对所述训练数据集中染色图像进行特征提取,得到细胞计数结果,并通过GC的方式对参数更新的过程进行优化。
本发明实施例还提供一种基于深度学习的病理图像中细胞计数模型训练装置,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述基于深度学习的病理图像中细胞计数模型训练方法的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现上述基于深度学习的病理图像中细胞计数模型训练方法的步骤。
采用本发明实施例的基于深度学习的病理图像中细胞计数模型训练方法,使细胞计数的算法从原理上适应于细胞计数任务;能够有效地提取到病理染色图像的特征,并有着很好地泛化性能,使得在小样本上训练后能够得到很好的效果,显著提高了细胞检测计数的鲁棒性和准确率,为基于病理图像的医学研究提供可靠的数据分析支持。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于深度学习的病理图像中细胞计数模型训练方法的流程图;
图2是本发明实施例的算法训练部分流程图;
图3是本发明实施例的算法测试部分流程图;
图4是本发明实施例的Split Attention机制的结构示意图;
图5是本发明实施例的基于深度学习的病理图像中细胞计数模型构建装置的示意图;
图6是本发明实施例的基于深度学习的病理图像中细胞计数模型构建设备的示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种基于深度学习的病理图像中细胞计数模型训练方法,图1是本发明实施例的基于深度学习的病理图像中细胞计数模型训练方法的流程图,如图1所示,根据本发明实施例的基于深度学习的病理图像中细胞计数模型训练方法具体包括:
步骤S101,从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集。
具体的,若使用的是已经处理成一定大小的病理图像图片块进行模型训练,则可以直接进行下个模块;否则使用获取模块对病理图像进行裁剪,裁剪为与训练时的图片块等同大小的图片块,然后进行下个模块。
在本发明实施例,提对所使用的数据(即上述训练数据集)进行介绍:
本发明实施例中模型训练时所使用的数据集来源于LYSTO比赛,训练数据集包含20,000个大小为299x299的图片块,以40倍放大倍率(
Figure BDA0002955922810000051
微米/px)从用CD3和CD8免疫组织化学标记染色的乳腺癌,结肠癌和前列腺癌的全幻灯片图像中提取。通过CD3和CD8免疫组织化学试剂染色之后,淋巴细胞可见为具有蓝色核和棕色膜的细胞:CD3染色所有T细胞,而CD8染色细胞毒性T细胞,数据的格式为training.h5文件和training_labels.csv文件,其中为每个图片块提供了一个标签。标签y表示已为每个贴片手动注释的淋巴细胞数。注释中没有提供需要统计的细胞的位置,仅提供了细胞的数量。所提供的标签未考虑到大部分落在贴片外的淋巴细胞。在对每个贴片中的淋巴细胞进行计数时,已经考虑了16个像素的边界,这对应于平均大小的淋巴细胞
Figure BDA0002955922810000062
的等效半径,因此,标签中不考虑16像素边界内的带注释的单元格。该文件还包含有关从每个贴片(结肠,乳房,前列腺)中提取器官的信息,以及指示来自不同患者患病部位的图像的索引。同时,一定比例的贴片不包含任何淋巴细胞,该数据集为了能够代表一个真实图像的分布水平,使用numpy.random.choice()方法,基于“布朗分数”中提出,大量没有淋巴细胞的贴片包含一定程度的棕色信号,可用于提高预测模型的鲁棒性。
步骤S102,对所述训练数据集进行图像归一化和图像增强。
具体的,图像归一化具体过程为:通过ImageNet数据集的均值和方差对图像进行归一化:
Figure BDA0002955922810000061
其中,xc,i,j表示一张图片第c个通道中第i行第j列的像素值,c={1,2,3}。
图像增强使用了自动增强Auto Augmentation的训练方式,即通过遗传算法,自动选择图像增强的过程,最后得到训练结果。
步骤S103,在ImageNet数据集上进行预训练得到ResNeSt模型。
步骤S104,使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练,基于预先设置的训练参数,重复执行以下ResNeSt模型训练处理,并在训练过程中通过GC的方式对参数更新的过程进行优化,模型训练部分的流程图如图2所示。
具体的,ResNeSt模型可用于提取染色图像的特征,它与其他网络不同之处在于,使用了注意力分散Split-Attention的机制进行特征提取,得到细胞计数结果,所述Split-Attention的机制过程如图4所示,具体描述为:
将提取到的特征分为r个组输入,对r个分组的特征进行加和后使用全局池化global pooling得到通道上的特征,所述分组经过全连接层后得到r个dense c特征,利用归一化指数函数Softmax进行注意力的计算,最后乘回到每个通道上,相加后得到输出结果;
进一步地,相同的Split-Attention Block堆叠若干层,将结果进行合并可得到最终使用上的深度神经网络,即最终实际应用的ResNeSt模型;
所述ResNeSt模型完成特征提取后,使用全连接层对提取的特征进行降维处理,ReLu函数对降维之后的特征进行激活,最后得到计数结果。
使用ResNeSt的结构可以使得相应的通道上的权重在加和后更能强化图像中通道的作用,而且不同于自然图像处理任务,该方法对特定的通道更为关注,因此分组的attention在此类任务上更能体现出它的优势。
梯度中心化是一种正则化方式,主要是针对梯度优化的过程进行的一种正则化方法,进行优化时采用Adam优化器,将均方方差MSE作为损失函数,其具体过程为:
假设有一组模型的权重,为Wi,其梯度为:
Figure BDA0002955922810000071
那么梯度中心化的过程为:
Figure BDA0002955922810000072
在公式3中:
Figure BDA0002955922810000073
其中,公式2、3、4中
Figure BDA0002955922810000074
为损失对权重求偏导得到的梯度,M为梯度矩阵的列数,
Figure BDA0002955922810000075
为对梯度矩阵按列求得的均值。
在病理细胞计数的项目中,由于能获得的标注较少,且标注耗费大量的人力物力,因此使用梯度中心化的正则手段,有利于提升模型的泛化能力,且对于梯度中心化的训练方式中,旋转和翻转的增强方式,并没有不使用的时候那么重要,因此,该方法能够保留不增强时的图像的精确程度同时也能够达到增强图像的泛化效果,使得该方法能够很好地完成医疗图像的小样本的训练任务。
训练前预先设置的训练参数具体包括初始的学习率和表示模型进行训练迭代次数的训练代数epoch,
所述方法进一步包括:
进行模型训练之前,预先设置一个初始的学习率和一个训练代数,并根据公式1计算学习率更新方式对当前学习率进行更新:
Figure BDA0002955922810000081
其中n为训练的epoch总数,e为当前的epoch数,lr为学习率。
图3是本发明实施例的算法测试部分的流程图,如图3所示,首先要对一张染色后的病理图像进行裁剪,裁剪成一定大小的图片块,裁剪后的图像使用所述ResNeSt模型得到每个图片块的细胞计数结果,然后将所有图片块的计数结果进行加和,即可得到所述病理图像总的细胞计数结果。
本发明实施例使用在ImageNet上预训练后的ResNeSt模型进行特征提取,得到1000维度的特征后,使用2个全连接层对特征进行降维处理,分别是1000*100,100*1的大小,通过ReLu函数进行激活,最后得到计数结果。
综上所述,借助于本发明实施例的技术方案,使细胞计数的算法从原理上适应于细胞计数任务;能够有效地提取到病理染色图像的特征,梯度中心化能够起到一个加速收敛的效果,并使模型泛化能力更强,更好的完成医疗图像的小样本的训练任务,显著提高了细胞检测计数的鲁棒性和准确率,为基于病理图像的医学研究提供可靠的数据分析支持。
装置实施例
根据本发明实施例,提供了一种基于深度学习的病理图像中细胞计数装置,图5是本发明实施例的基于深度学习的病理图像中细胞计数装置的示意图,如图5所示,根据本发明实施例的一种基于深度学习的病理图像中细胞计数装置具体包括:
获取模块50:用于从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集;
具体的,若使用的是已经处理成一定大小的病理图像图片块进行模型训练,则可以直接进行下个模块;否则使用获取模块对病理图像进行裁剪,裁剪为与训练时的图片块等同大小的图片块,然后调用下个模块。
处理模块52:用于对所述训练数据集进行图像归一化和图像增强处理;
对所述训练数据集进行图像归一化具体过程为:通过ImageNet数据集的均值和方差对图像进行归一化:
Figure BDA0002955922810000091
其中,xc,i,j表示一张图片第c个通道中第i行第j列的像素值,c={1,2,3}。
以及使用自动增强Auto Augmentation的训练方式,通过遗传算法,自动选择图像增强的过程,最后得到训练结果。
预训练模块54:用于在ImageNet数据集上进行预训练得到ResNeSt模型;
训练模块56:用于使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练:基于预先设置的训练参数,重复执行以下模型训练处理:通过所述ResNeSt模型使用注意力分散Split-Attention的机制对所述训练数据集中染色图像进行特征提取,得到细胞计数结果,并通过GC的方式对参数更新的过程进行优化;
Split-Attention的机制具体过程为:
将提取到的特征分为r个组输入,对r个分组的特征进行加和后使用全局池化global pooling得到通道上的特征,所述分组经过全连接层后得到r个dense c特征,利用归一化指数函数Softmax进行注意力的计算,最后乘回到每个通道上,相加后得到输出结果;
进一步地,相同的Split-Attention Block堆叠若干层,将结果进行合并即可得到最终使用上的深度学习神经网络,即最终实际应用的ResNeSt模型;
所述ResNeSt模型完成特征提取后,使用全连接层对提取的特征进行降维处理,ReLu函数对降维之后的特征进行激活,最后得到细胞计数结果;
所述梯度中心化是一种正则化方式,主要是针对梯度优化的过程进行的一种正则化方法,所述优化采用Adam优化器,采用均方方差MSE作为其损失函数,其具体过程为:
假设有一组模型的权重,为Wi,其梯度为:
Figure BDA0002955922810000101
那么梯度中心化的过程为:
Figure BDA0002955922810000102
在公式3中:
Figure BDA0002955922810000103
其中,公式2、3、4中
Figure BDA0002955922810000104
为损失对权重求偏导得到的梯度,M为梯度矩阵的列数,
Figure BDA0002955922810000105
为对梯度矩阵按列求得的均值;
模型训练时要基于预先设置的训练参数进行训练,所述预先设置的训练参数具体包括初始的学习率和表示模型进行训练迭代次数的训练代数epoch;
具体的,进行模型训练之前,预先设置一个初始的学习率和一个训练代数,并根据公式1计算学习率更新方式对当前的学习率进行更新:
Figure BDA0002955922810000111
其中n为训练的epoch总数,e为当前的epoch数,lr为学习率。
具体用于使用Split-Attention的机制进行特征提取,针对梯度优化的过程进行的一种正则化方法,设置参数控制模型的训练次数。
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种基于深度学习的病理图像中细胞计数模型训练设备,如图6所示,包括:存储器60、处理器62及存储在所述存储器60上并可在所述处理器62上运行的计算机程序,所述计算机程序被所述处理器62执行时实现如下方法步骤:
步骤S101,从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集。
具体的,若使用的是已经处理成一定大小的病理图像图片块进行模型训练,则可以直接进行下个模块;否则使用获取模块对病理图像进行裁剪,裁剪为与训练时的图片块等同大小的图片块,然后进行下个模块。
步骤S102,对所述训练数据集进行图像归一化和图像增强。
具体的,图像归一化具体过程为:通过ImageNet数据集的均值和方差对图像进行归一化:
Figure BDA0002955922810000112
其中,xc,i,j表示一张图片第c个通道中第i行第j列的像素值,c={1,2,3}。
图像增强使用了自动增强Auto Augmentation的训练方式,即通过遗传算法,自动选择图像增强的过程,最后得到训练结果。
步骤S103,在ImageNet数据集上进行预训练得到ResNeSt模型。
步骤S104,使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练,基于预先设置的训练参数,重复执行以下ResNeSt模型训练处理,并在训练过程中通过GC的方式对参数更新的过程进行优化,模型训练部分的流程图如图2所示。
具体的,ResNeSt模型可用于提取染色图像的特征,它与其他网络不同之处在于,使用了注意力分散Split-Attention的机制进行特征提取,得到细胞计数结果,所述Split-Attention的机制过程如图4所示,具体描述为:
将提取到的特征分为r个组输入,对r个分组的特征进行加和后使用全局池化global pooling得到通道上的特征,所述分组经过全连接层后得到r个dense c特征,利用归一化指数函数Softmax进行注意力的计算,最后乘回到每个通道上,相加后得到输出结果;
进一步地,相同的Split-Attention Block堆叠若干层,将结果进行合并可得到最终使用上的深度神经网络,即最终实际应用的ResNeSt模型;
所述ResNeSt模型完成特征提取后,使用全连接层对提取的特征进行降维处理,ReLu函数对降维之后的特征进行激活,最后得到计数结果。
使用ResNeSt的结构可以使得相应的通道上的权重在加和后更能强化图像中通道的作用,而且不同于自然图像处理任务,该方法对特定的通道更为关注,因此分组的attention在此类任务上更能体现出它的优势。
梯度中心化是一种正则化方式,主要是针对梯度优化的过程进行的一种正则化方法,进行优化时采用Adam优化器,将均方方差MSE作为损失函数,其具体过程为:
假设有一组模型的权重,为Wi,其梯度为:
Figure BDA0002955922810000131
那么梯度中心化的过程为:
Figure BDA0002955922810000132
在公式3中:
Figure BDA0002955922810000133
其中,公式2、3、4中
Figure BDA0002955922810000134
为损失对权重求偏导得到的梯度,M为梯度矩阵的列数,
Figure BDA0002955922810000135
为对梯度矩阵按列求得的均值。
在病理细胞计数的项目中,由于能获得的标注较少,且标注耗费大量的人力物力,因此使用梯度中心化的正则手段,有利于提升模型的泛化能力,且对于梯度中心化的训练方式中,旋转和翻转的增强方式,并没有不使用的时候那么重要,因此,该方法能够保留不增强时的图像的精确程度同时也能够达到增强图像的泛化效果,使得该方法能够很好地完成医疗图像的小样本的训练任务。
训练前预先设置的训练参数具体包括初始的学习率和表示模型进行训练迭代次数的训练代数epoch,
所述方法进一步包括:
进行模型训练之前,预先设置一个初始的学习率和一个训练代数,并根据公式1计算学习率更新方式对当前学习率进行更新:
Figure BDA0002955922810000136
其中n为训练的epoch总数,e为当前的epoch数,lr为学习率。
根据本发明实施例,提供了一种基于深度学习的病理图像中细胞计数模型训练方法,图3是本发明实施例的算法测试部分的流程图,如图3所示,根据本发明实施例的基于深度学习的病理图像中细胞计数模型训练方法具体包括:
首先要对一张染色后的病理图像进行裁剪,裁剪成一定大小的图片块,裁剪后的图像使用所述ResNeSt模型得到每个图片块的细胞计数结果,然后将所有图片块的计数结果进行加和,即可得到所述病理图像总的细胞计数结果。
装置实施例二
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器62执行时实现如下方法步骤:
步骤S101,从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集。
具体的,若使用的是已经处理成一定大小的病理图像图片块进行模型训练,则可以直接进行下个模块;否则使用获取模块对病理图像进行裁剪,裁剪为与训练时的图片块等同大小的图片块,然后进行下个模块。
步骤S102,对所述训练数据集进行图像归一化和图像增强。
具体的,图像归一化具体过程为:通过ImageNet数据集的均值和方差对图像进行归一化:
Figure BDA0002955922810000141
其中,xc,i,j表示一张图片第c个通道中第i行第j列的像素值,c={1,2,3}。
图像增强使用了自动增强Auto Augmentation的训练方式,即通过遗传算法,自动选择图像增强的过程,最后得到训练结果。
步骤S103,在ImageNet数据集上进行预训练得到ResNeSt模型。
步骤S104,使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练,基于预先设置的训练参数,重复执行以下ResNeSt模型训练处理,并在训练过程中通过GC的方式对参数更新的过程进行优化,模型训练部分的流程图如图2所示。
具体的,ResNeSt模型可用于提取染色图像的特征,它与其他网络不同之处在于,使用了注意力分散Split-Attention的机制进行特征提取,得到细胞计数结果,所述Split-Attention的机制过程如图4所示,具体描述为:
将提取到的特征分为r个组输入,对r个分组的特征进行加和后使用全局池化global pooling得到通道上的特征,所述分组经过全连接层后得到r个dense c特征,利用归一化指数函数Softmax进行注意力的计算,最后乘回到每个通道上,相加后得到输出结果;
进一步地,相同的Split-Attention Block堆叠若干层,将结果进行合并可得到最终使用上的深度神经网络,即最终实际应用的ResNeSt模型;
所述ResNeSt模型完成特征提取后,使用全连接层对提取的特征进行降维处理,ReLu函数对降维之后的特征进行激活,最后得到计数结果。
使用ResNeSt的结构可以使得相应的通道上的权重在加和后更能强化图像中通道的作用,而且不同于自然图像处理任务,该方法对特定的通道更为关注,因此分组的attention在此类任务上更能体现出它的优势。
梯度中心化是一种正则化方式,主要是针对梯度优化的过程进行的一种正则化方法,进行优化时采用Adam优化器,将均方方差MSE作为损失函数,其具体过程为:
假设有一组模型的权重,为Wi,其梯度为:
Figure BDA0002955922810000151
那么梯度中心化的过程为:
Figure BDA0002955922810000152
在公式3中:
Figure BDA0002955922810000153
其中,公式2、3、4中
Figure BDA0002955922810000161
为损失对权重求偏导得到的梯度,M为梯度矩阵的列数,
Figure BDA0002955922810000162
为对梯度矩阵按列求得的均值。
在病理细胞计数的项目中,由于能获得的标注较少,且标注耗费大量的人力物力,因此使用梯度中心化的正则手段,有利于提升模型的泛化能力,且对于梯度中心化的训练方式中,旋转和翻转的增强方式,并没有不使用的时候那么重要,因此,该方法能够保留不增强时的图像的精确程度同时也能够达到增强图像的泛化效果,使得该方法能够很好地完成医疗图像的小样本的训练任务。
训练前预先设置的训练参数具体包括初始的学习率和表示模型进行训练迭代次数的训练代数epoch,
所述方法进一步包括:
进行模型训练之前,预先设置一个初始的学习率和一个训练代数,并根据公式1计算学习率更新方式对当前学习率进行更新:
Figure BDA0002955922810000163
其中n为训练的epoch总数,e为当前的epoch数,lr为学习率。
根据本发明实施例,提供了一种基于深度学习的病理图像中细胞计数模型训练方法,图3是本发明实施例的算法测试部分的流程图,如图3所示,根据本发明实施例的基于深度学习的病理图像中细胞计数模型训练方法具体包括:
首先要对一张染色后的病理图像进行裁剪,裁剪成一定大小的图片块,裁剪后的图像使用所述ResNeSt模型得到每个图片块的细胞计数结果,然后将所有图片块的计数结果进行加和,即可得到所述病理图像总的细胞计数结果。
综上所述,采用本发明实施例的技术方案,使细胞计数的算法从原理上适应于细胞计数任务;能够有效地提取到病理染色图像的特征,梯度中心化能够起到一个加速收敛的效果,并使模型泛化能力更强,更好的完成医疗图像的小样本的训练任务,显著提高了细胞检测计数的鲁棒性和准确率,为基于病理图像的医学研究提供可靠的数据分析支持。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于深度学习的病理图像中细胞计数模型训练方法,其特征在于,所述方法包括:
数据获取步骤:从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集;
数据处理步骤:对所述训练数据集进行图像归一化和图像增强处理;
模型预训练步骤:在ImageNet数据集上进行预训练得到ResNeSt模型;
模型训练步骤:使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练:基于预先设置的训练参数,重复执行以下模型训练处理:通过所述ResNeSt模型使用注意力分散Split-Attention的机制对所述训练数据集中染色图像进行特征提取,得到细胞计数结果,并通过GC的方式对参数更新的过程进行优化。
2.根据权利要求1所述的一种基于深度学习的病理图像中细胞计数模型训练方法,其特征在于,所述预先设置的训练参数具体包括初始的学习率和表示模型进行训练迭代次数的训练代数epoch;
所述方法进一步包括:
进行模型训练之前,预先设置一个初始的学习率和一个训练代数,并根据公式1计算学习率更新方式对当前的学习率进行更新:
Figure FDA0002955922800000011
其中n为训练的epoch总数,e为当前的epoch数,lr为学习率。
3.根据权利要求1所述的一种基于深度学习的病理图像中细胞计数模型训练方法,对所述训练数据集进行图像归一化具体包括:通过ImageNet数据集的均值和方差对图像进行归一化:
Figure FDA0002955922800000012
其中,xc,i,j表示一张图片第c个通道中第i行第j列的像素值,c={1,2,3}。
所述图像增强使用了自动增强Auto Augmentation的训练方式,即通过遗传算法,自动选择图像增强的过程,最后得到训练结果。
4.根据权利要求1所述的一种基于深度学习的病理图像中细胞计数模型训练方法,其特征在于,通过所述ResNeSt模型使用注意力分散Split-Attention的机制对所述训练数据集中染色图像进行特征提取,得到细胞计数结果具体包括:将ResNeSt模型作为计数的基础模型,通过所述ResNeSt模型使用Split-Attention的机制进行病理图像的特征提取:将提取的特征分为r个组输入,对r个分组的特征进行加和后使用全局池化global pooling得到通道上的特征,所述分组经过全连接层后得到r个dense c特征,利用归一化指数函数Softmax进行注意力的计算,最后乘回到每个通道上,相加后得到输出结果;
进一步地,相同的Split-Attention Block堆叠若干层,将结果进行合并即可得到最终使用上的深度学习神经网络,即最终实际应用的ResNeSt模型;
在所述ResNeSt模型进行特征提取后,使用全连接层对提取的特征进行降维处理,处理完成后通过ReLu函数进行特征激活,最后得到细胞计数结果。
5.根据权利要求1所述的一种基于深度学习的病理图像中细胞计数模型训练方法,其特征在于,所述通过GC的方式对参数更新的过程进行优化具体包括:
采用Adam优化器,将均方方差MSE作为损失函数,通过GC的方式对参数更新的过程进行优化:
假设有一组模型的权重,为Wi,其梯度为:
Figure FDA0002955922800000021
那么梯度中心化的过程为:
Figure FDA0002955922800000031
在公式3中:
Figure FDA0002955922800000032
其中,公式2、3、4中
Figure FDA0002955922800000033
为损失对权重求偏导得到的梯度,M为梯度矩阵的列数,
Figure FDA0002955922800000034
为对梯度矩阵按列求得的均值。
6.根据权利要求1所述的一种基于深度学习的病理图像中细胞计数模型训练方法,其特征在于,在所述模型训练步骤之后,所述方法进一步包括:在实际的细胞计数应用时,首先要对一张染色后的病理图像进行裁剪,裁剪成一定大小的图片块,裁剪后的图像使用所述ResNeSt模型得到每个图片块的细胞计数结果,最后加和所有图片块的结果,即可得到所述病理图像总的细胞计数结果。
7.一种基于深度学习的病理图像中细胞计数模型训练装置,其特征在于,所述装置包括:
获取模块:用于从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集;
处理模块:用于对所述训练数据集进行图像归一化和图像增强处理;
预训练模块:用于在ImageNet数据集上进行预训练得到ResNeSt模型;
训练模块:用于使用梯度中心化GC的方式对预训练后的ResNeSt模型进行模型训练:基于预先设置的训练参数,重复执行以下模型训练处理:通过所述ResNeSt模型使用注意力分散Split-Attention的机制对所述训练数据集中染色图像进行特征提取,得到细胞计数结果,并通过GC的方式对参数更新的过程进行优化。
8.根据权利要求7所述的一种基于深度学习的病理图像中细胞计数模型训练装置,其特征在于,
所述获取模块具体用于:从已经被化学标记染色细胞的病理图像中获取训练模型所需要的图片块,构成训练数据集。若使用的是已经处理成一定大小的病理图像图片块进行模型训练,则可以直接进行下个模块;否则使用获取模块对病理图像进行裁剪,裁剪为与训练时的图片块等同大小的图片块,然后进行下个模块;
所述处理模块具体用于:对所述训练数据集进行图像归一化和图像增强处理,对所述训练数据集进行图像归一化具体过程为:通过ImageNet数据集的均值和方差对图像进行归一化:
Figure FDA0002955922800000041
其中,xc,i,j表示一张图片第c个通道中第i行第j列的像素值,c={1,2,3};
所述图像增强使用了自动增强Auto Augmentation的训练方式,即通过遗传算法,自动选择图像增强的过程,最后得到训练结果;
所述训练模块具体用于:使用ResNeSt模型和梯度中心化GC的方式进行模型的训练:
ResNeSt模型使用注意力分散Split-Attention的机制对所述训练数据集中染色图像进行特征提取,得到细胞计数结果,所述Split-Attention的机制具体过程为:
将提取到的特征分为r个组输入,对r个分组的特征进行加和后使用全局池化globalpooling得到通道上的特征,所述分组经过全连接层后得到r个dense c特征,利用归一化指数函数Softmax进行注意力的计算,最后乘回到每个通道上,相加后得到输出结果;
进一步地,相同的Split-Attention Block堆叠若干层,将结果进行合并即可得到最终使用上的深度学习神经网络,即最终实际应用的ResNeSt模型;
所述ResNeSt模型完成特征提取后,使用全连接层对提取的特征进行降维处理,ReLu函数对降维之后的特征进行激活,最后得到细胞计数结果;
所述梯度中心化是一种正则化方式,主要是针对梯度优化的过程进行的一种正则化方法,所述优化采用Adam优化器,采用均方方差MSE作为其损失函数,其具体过程为:
假设有一组模型的权重,为Wi,其梯度为:
Figure FDA0002955922800000051
那么梯度中心化的过程为:
Figure FDA0002955922800000052
在公式3中:
Figure FDA0002955922800000053
其中,公式2、3、4中
Figure FDA0002955922800000054
为损失对权重求偏导得到的梯度,M为梯度矩阵的列数,
Figure FDA0002955922800000055
为对梯度矩阵按列求得的均值;
模型训练时要基于预先设置的训练参数进行训练,所述预先设置的训练参数具体包括初始的学习率和表示模型进行训练迭代次数的训练代数epoch;
具体的,进行模型训练之前,预先设置一个初始的学习率和一个训练代数,并根据公式1计算学习率更新方式对当前的学习率进行更新:
Figure FDA0002955922800000056
其中n为训练的epoch总数,e为当前的epoch数,lr为学习率。
9.一种基于深度学习的病理图像中细胞计数模型训练装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的基于深度学习的病理图像中细胞计数模型训练方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至6中任一项所述的基于深度学习的病理图像中细胞计数模型训练方法的步骤。
CN202110223661.0A 2021-03-01 2021-03-01 病理图像中细胞计数模型训练方法及装置 Pending CN112950583A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110223661.0A CN112950583A (zh) 2021-03-01 2021-03-01 病理图像中细胞计数模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110223661.0A CN112950583A (zh) 2021-03-01 2021-03-01 病理图像中细胞计数模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN112950583A true CN112950583A (zh) 2021-06-11

Family

ID=76246806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110223661.0A Pending CN112950583A (zh) 2021-03-01 2021-03-01 病理图像中细胞计数模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN112950583A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553985A (zh) * 2021-08-02 2021-10-26 中再云图技术有限公司 一种基于人工智能高空烟雾检测识别方法,存储装置及服务器
CN113887377A (zh) * 2021-09-18 2022-01-04 上海申挚医疗科技有限公司 组织病理图像分析方法及系统
CN114240836A (zh) * 2021-11-12 2022-03-25 杭州迪英加科技有限公司 一种鼻息肉病理切片分析方法、系统和可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596046A (zh) * 2018-04-02 2018-09-28 上海交通大学 一种基于深度学习的细胞检测计数方法及系统
JP2020166711A (ja) * 2019-03-29 2020-10-08 東レ株式会社 計数装置、計数方法、計数プログラムおよび記録媒体
CN111882548A (zh) * 2020-07-31 2020-11-03 北京小白世纪网络科技有限公司 基于深度学习的病理图像中细胞计数方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596046A (zh) * 2018-04-02 2018-09-28 上海交通大学 一种基于深度学习的细胞检测计数方法及系统
JP2020166711A (ja) * 2019-03-29 2020-10-08 東レ株式会社 計数装置、計数方法、計数プログラムおよび記録媒体
CN111882548A (zh) * 2020-07-31 2020-11-03 北京小白世纪网络科技有限公司 基于深度学习的病理图像中细胞计数方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553985A (zh) * 2021-08-02 2021-10-26 中再云图技术有限公司 一种基于人工智能高空烟雾检测识别方法,存储装置及服务器
CN113887377A (zh) * 2021-09-18 2022-01-04 上海申挚医疗科技有限公司 组织病理图像分析方法及系统
CN114240836A (zh) * 2021-11-12 2022-03-25 杭州迪英加科技有限公司 一种鼻息肉病理切片分析方法、系统和可读存储介质

Similar Documents

Publication Publication Date Title
CN112950583A (zh) 病理图像中细胞计数模型训练方法及装置
CN112184658A (zh) 用于非小细胞肺癌预后生存预测的方法、介质及电子设备
CN114730463A (zh) 用于组织图像分类的多实例学习器
CN111882548A (zh) 基于深度学习的病理图像中细胞计数方法及装置
CN112508953B (zh) 基于深度神经网络的脑膜瘤快速分割定性方法
CN113393443B (zh) 一种he病理图像细胞核分割方法及系统
JP2023544466A (ja) Pet/ctに基づく肺腺癌扁平上皮癌診断モデルの訓練方法及び装置
CN109215040B (zh) 一种基于多尺度加权学习的乳腺肿瘤分割方法
CN112543934A (zh) 一种确定异常程度的方法、相应的计算机可读介质和分布式癌症分析系统
CN113688862B (zh) 一种基于半监督联邦学习的脑影像分类方法及终端设备
CN109472801A (zh) 一种用于多尺度的神经形态检测和分割方法
CN113378796A (zh) 一种基于上下文建模的宫颈细胞全切片分类方法
CN114972254A (zh) 一种基于卷积神经网络的宫颈细胞图像分割方法
CN112614573A (zh) 基于病理图像标注工具的深度学习模型训练方法及装置
CN114530222A (zh) 一种基于多组学和影像数据融合的癌症患者分类系统
CN113743353A (zh) 空间、通道和尺度注意力融合学习的宫颈细胞分类方法
Daniel et al. A deep multi-label segmentation network for eosinophilic esophagitis whole slide biopsy diagnostics
CN112949723B (zh) 一种子宫内膜病理图像分类方法
CN114155249A (zh) 一种基于深度矢量场回归的三维细胞图像实例分割方法
CN116759076A (zh) 一种基于医疗影像的无监督疾病诊断方法及系统
Liu et al. TSDLPP: a novel two-stage deep learning framework for prognosis prediction based on whole slide histopathological images
Guo et al. Pathological Detection of Micro and Fuzzy Gastric Cancer Cells Based on Deep Learning.
CN115762796A (zh) 目标模型的获取方法、预后评估值确定方法、装置、设备及介质
CN115564954A (zh) 一种染色体图像分割方法
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination