CN113436192A - 一种病理图像的分类学习方法、分类系统及可读介质 - Google Patents
一种病理图像的分类学习方法、分类系统及可读介质 Download PDFInfo
- Publication number
- CN113436192A CN113436192A CN202110985060.3A CN202110985060A CN113436192A CN 113436192 A CN113436192 A CN 113436192A CN 202110985060 A CN202110985060 A CN 202110985060A CN 113436192 A CN113436192 A CN 113436192A
- Authority
- CN
- China
- Prior art keywords
- training
- classification
- samples
- stage
- classification learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本公开涉及一种病理图像的分类学习方法、分类系统及可读介质,分类学习方法包括:获取包括病理图像的多个第一训练样本的第一训练集;利用所获取的第一训练集,对分类学习网络执行第一阶段的训练;将第一阶段的训练所得到的分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合,以使得其中训练样本的标识类别的分布满足期望分布,从而得到混合训练集;利用所得到的混合训练集,对分类学习网络执行在第一阶段之后的第二阶段的训练。本公开的分类学习方法能够让分类学习网络重点学习在第一阶段学习错误的数据,从而有效加快分类学习网络的收敛速度,有效提高分类学习网络的训练效率。
Description
技术领域
本公开涉及图像分析技术领域,更具体地,涉及一种病理图像的分类学习方法、分类系统及可读介质。
背景技术
基于病理图像进行分析和筛查是现代医学中进行癌症确诊的重要手段。而在基于病理图像进行筛查的过程中,需要专业的病理检查人员通过人工读片对病理图像进行分类或标识等操作,其工作量大、分析耗时长,影响后续诊断和治疗效率,因此,现有技术中常用基于人工智能学习模型进行病理图像分类的自动分析系统实现自动化的病理图像分类操作。
深度神经网络作为一种基于人工智能的分析学习网络,在图像识别、特征学习方面具有较强的能力,可通过学习数据的内在规律,成功应用于新的数据上,实现新的数据的自动化分析。现有的训练方式将各训练集输入至分析学习网络中进行分批次训练,来调整分析学习网络的参数。但现有的训练方式存在训练效率低下,收敛速度慢的问题。
在医院的病理图像的样本数据中,通常阴性样本的占比是非常高的,存在严重的阴阳比例失调。这种阴阳比例失调在应用深度神经网络时,会造成比较严重的问题。例如1000个样本中有999个都是阴性样本,那么用该样本来进行分类学习网络的训练,分类学习网络只需要把1000个样本均识别为阴性,整个网络的识别准确率就达到了99.9%。但是这并不是医生所期望获得的效果,医生更期望的是把那一个阳性样本给检测正确,而这种情况下无论如何调整分类学习网络的参数都无法达到期望的效果。
旨在提供本公开来解决以上的技术问题。
发明内容
旨在提供一种病理图像的分类学习方法、分类系统及可读介质,其不仅能够以简易的方式解决病理图像的各属性样本比例失调的问题,提升分类学习网络的学习稳定性,还能够让分类学习网络受益于先前正确的习得结果并着重学习分类错误的样本,提高分类学习网络的学习效率和收敛速度。
在第一方面,本公开的实施例提供了一种病理图像的分类学习方法,所述分类学习方法包括:获取包括病理图像的多个第一训练样本的第一训练集,各个第一训练样本包括病理图像及其对应的类别标识;利用所获取的第一训练集,对所述分类学习网络执行第一阶段的训练;将第一阶段的训练所得到的分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合,以使得其中训练样本的标识类别的分布满足期望分布,从而得到混合训练集;利用所得到的混合训练集,对所述分类学习网络执行在所述第一阶段之后的第二阶段的训练。
在第二方面,本公开的实施例提供了一种病理图像的分类系统,包括:接口,其配置为接收待分类的病理图像;处理器,其配置为:基于所接收的病理图像,利用训练好的分类学习网络,确定所述病理图像的分类结果,其中,所述分类学习网络利用根据前述各个实施例的病理图像的分类学习方法来训练。
在第三方面,本公开的实施例提供了一种其上存储有指令的非暂时性计算机可读介质,其中所述指令在由处理器执行时执行前述各个实施例的病理图像的分类学习方法。
利用根据本公开的各个实施例的将分类学习网络分为不同阶段来进行训练,并将第一阶段的训练所得到的分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合,利用所得到的混合训练集,对分类学习网络执行在第一阶段之后的第二阶段的训练。由此能够在第二阶段的训练中引入第一阶段的训练正确和训练错误的数据,并且能够让分类学习网络重点学习在第一阶段学习错误的数据,从而有效加快分类学习网络的收敛速度。通过混合训练集的设定能够有效提高分类学习网络的训练效率。
附图说明
在不一定按比例绘制的附图中,相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例,并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。这样的实施例是例证性的,而并非旨在作为本装置或方法的穷尽或排他实施例。
图1示出根据本公开实施例的分类学习网络训练的基本流程图。
图2示出根据本公开实施例的分类学习网络训练的另一种流程图。
图3示出根据本公开实施例的分类学习网络训练的又一种流程图。
图4示出根据本公开实施例的分类学习网络为Resnet的基本结构示意图。
图5示出根据本公开实施例的分类系统的基本结构示意图。
具体实施方式
为使本领域技术人员更好的理解本公开的技术方案,下面结合附图和具体实施方式对本公开作详细说明。下面结合附图和具体实施例对本公开的实施例作进一步详细描述,但不作为对本公开的限定。
本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素,并不排除也涵盖其他要素的可能。
为了解决现有的训练方式存在训练效率低下,收敛速度慢的问题。本公开的实施例提供一种病理图像的分类学习方法,如图1所示,所述分类学习方法可以始于步骤S101:获取包括病理图像的多个第一训练样本的第一训练集,各个第一训练样本包括病理图像及其对应的类别标识。在具体实施中可以为各个第一训练样本中的病理图像设置对应的类别标识,具体的类别标识可以根据实际需要的分类情况设定,比如期望将某训练集的病理图像粗分类为两类,则可以设置相应的第一类别标识和第二类别标识,例如阴性标识和阳性标识,又例如基底细胞标识和副基底细胞标识。相应的,如期望分为三类,则可以设置相应的第一类别标识、第二类别标识和第三类别标识,例如,阴性细胞标识、低级别阳性细胞标识、高级别阳性细胞标识等,具体设置的类别标识的数量可以根据实际需要设置。根据所需的分类结果可以选择适合的学习分类网络来进行训练。在不同的训练集中如存在相同的病理图像,也可以按照需要设置不同的类别标识,例如某阳性病理图像在粗分类中可以设置类别标识为阳性,而在精分类中,该病理图像为高级别阳性,则可以在精分类过程中为其设置类别标识为高级别阳性,具体的分类标识的设置可根据实际需要调整,在此不做一一限定。
然后,在步骤S102中,可以利用所获取的第一训练集,对所述分类学习网络执行第一阶段的训练。也即,可以利用第一训练集中包含病理图像以及类别标识的各个第一训练样本,来对分类学习网络进行训练。在一些实施方式中,对分类学习网络的训练过程可以分阶段执行。具体说来,可以将完整的训练过程分为不同的阶段,为第n个阶段提供第n训练集,使得在第n个阶段基于第n训练集执行训练,具体的村联方式在此不做限定。
接着,在步骤S103中,可以将第一阶段的训练所得到的分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合,以使得其中训练样本的标识类别的分布满足期望分布,从而得到混合训练集。所得到的混合训练集,可以用于对所述分类学习网络执行在所述第一阶段之后的第二阶段的训练(参见步骤S104)。申请人创造性地发现,基于所提供的训练集,即使不引入新的训练集,通过本公开的方法可以通过将分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合,使得其中训练样本的标识类别的分布满足期望分布,尤其适用于病理图像的分类学习网络。具体说来,在病理图像的训练样本中容易存在各类别的训练样本比例失调的问题,例如阳性标识的训练样本的比例显著低于阴性标识的训练样本的比例,比例低的(本文中也称为稀缺的)训练样本就更容易分类错误,分类错误的训练样本中稀缺类别的训练样本占据相当大的比例,由此,通过将分类错误的训练样本与分类正确的训练样本按照比例混合,能够方便地实现将稀缺类别的训练样本与丰富类别的训练样本按照比例混合,以使得训练样本的标识类别的分布满足期望分布。在训练样本的标识类别的分布满足期望分布的情况下,能够自动克服类别比例失调的问题,对稀缺类别的训练样本显著降低漏检率,对丰富类别的训练样本也能显著降低错检率。
作为一种可选的训练方式,第一阶段可以基于第一训练集执行一次训练,也可以基于第一训练集执行多次训练,当然第一阶段的训练还可以是按照一定的方式在第一训练集中选取病理图像以及对应的标识来进行训练的,还可以将第一训练集拆分为多个子训练集,通过各子训练集分别完成第一阶段的训练,具体的第一阶段的训练方式可以根据实际需要设置,在此不做限定。在第一阶段的训练过程中,分类学习网络会进行分类,产生分类结果,这些分类结果中可以包括分类错误的样本和分类正确的样本。为了便于理解,基于某包含病理图像的第一训练集设置的类别标识为阳性和阴性,并通过分类学习网络来进行二分类来进行举例说明。所指的分类错误数据可以是将类别标识为阳性的病理图像在经过分类学习网络之后被分类为了阴性,相应的,将类别标识为阴性的病理图像在经过分类学习网络之后被分类为了阳性,也会成为分类错误的样本,可以将这些分类错误的样本选取出来,然后再选取第一阶段训练中分类正确的训练样本。将分类错误的训练样本和分类正确的样本按照一定的比例混合,从而形成混合训练集。如图2所示,还可以通过第一阶段的训练分别获得若干分类正确的样本以及若干分类错误的样本,在通过各训练子集分别完成第一阶段训练的情况下,可以将获得的分类错误的样本集合到一起,然后在其他分类正确的诸多样本中去随机选取分类正确的样本,并按照比例混合。
接着,在步骤S104中可以利用所得到的混合训练集,对所述分类学习网络执行在所述第一阶段之后的第二阶段的训练。参见上文的说明,如此形成的混合训练集,可以使得其中训练样本的标识类别的分布满足期望分布,从而自动克服类别比例失调的问题,对稀缺类别的训练样本显著降低漏检率,对丰富类别的训练样本也能显著降低错检率。进一步地,利用在第一阶段的分类错误的训练样本和分类正确的样本构成的混合训练集来进行第二阶段的训练,可以使得分类学习网络重新对之前分类错误的样本重新学习,提高学习网络的收敛速度。同时该混合训练集中还包括了第一阶段分类正确的样本,因此还能保证分类学习网络不会遗忘之前所习得的分类准确性,从而有效保证分类学习网络的稳定性。此外,在一些实施例中,分类错误的训练样本与分类正确的训练样本按照第一预定比例范围来混合,第一预定比例范围可以定义为分类错误的训练样本比分类正确的训练样本少得多,例如但不限于1:8~1:14,从而在第二阶段的训练中,分类学习网络不仅不会遗忘之前所习得的分类准确性,还能够对少数分类错误的训练样本进行着重和集中的学习,从而提升学习效率和训练好的分类学习网络的检测性能。
本公开的分类学习方法,对病理图像的学习训练和分类检测具有良好的效果,具体的病理图像的类型在此不做一一限定。宫颈癌症发生率位居全球女性恶性肿瘤的第4位,近84%的病例来自发展中国家。在所有宫颈癌症的组织学类型中,鳞状细胞癌和腺癌的总和超过90%。根据国际癌症研究署(IARC)数据,子宫颈癌为女性第四大恶性肿瘤。由于宫颈癌病因明确且早期治愈率可以达到90%,早期发现对女性的健康具有重大意义。在一些实施例中,所述病理图像可以包括宫颈液基细胞的病理图像。从而通过本公开实施例的分类学习方法可以实现对宫颈液基细胞的病理图像分类学习,提高早期的宫颈癌发现率,提高宫颈癌的治愈率,解决现有人工读片检测方法工作量大等制约宫颈癌筛查工作深入开展的瓶颈问题。
图1中的流程仅仅作为示例,在一些实施例中,步骤S102可以对多个分立的第一训练集分别执行,并从分别得到的训练结果中随机地选择分类错误的训练样本和分类正确的训练样本,按照第一预定比例范围来混合(步骤S103),从而得到用于执行第二阶段的训练的混合训练集。如图3所示,示例性的,执行在所述第一阶段之后的第二阶段的训练。类似的,第二阶段的训练也可以按照一定的方式在混合训练集中选取病理图像来进行训练的,还可以是,结合所获得的混合训练集以及第二批次的新加入的训练集来共同完成的,具体的训练方式参考步骤S102和步骤S103,例如还可以在步骤S105中将第二阶段获得的分类错误的样本和分类正确的样本进行混合,从而在步骤S106中将第三阶段训练所得到的混合训练集应用于第三阶段的训练,以此类推,直到训练结果收敛为止。在分类学习网络直到收敛为止的整个训练过程中,分类错误的训练样本和分类正确的训练样本的按比例混合可以执行一次,可以执行多次,也可以伴随每个阶段的训练而执行,本公开对此不做限定。
在一些实施例中,在所述第一训练集中标识第一类别的训练样本的比例低于标识第二类别的训练样本的比例,并且,在训练样本的标识类别的分布满足期望分布的情况下,标识第一类别的训练样本的召回率达到第一预定阈值且标识第二类别的训练样本的准确率达到第二预定阈值。所指的精确率是针对分类结果而言的,准确率表示的是分类学习网络得到的分类结果为阳性的样本中,有多少是真正的阳性样本。分类结果为阳性就有两种可能,一种就是把阳性标识的样本分类为阳性,另一种就是把阴性标识的样本分类为阳性。准确率可以表述为阳性标识分类正确的样本与阳性分类的总样本之间的比值,也即通过准确率能够用于确定模型错检的概率。召回率是针对训练样本而言,召回率表示的是样本中的例如阳性样本有多少被分类正确了。例如分类学习网络可能是把阳性样本分类成了阳性,分类学习网络也可能是把阳性样本分类成了阴性,通过召回率能够用于确定模型漏检的概率。还是以病理图像的阴阳性来举例说明,第一类别的训练样本可以是阳性类别样本,第二类别的训练样本可以是阴性类别的样本。根据实际情况,第一训练集中阳性类别的训练样本的比例低于阴性类别的训练样本的比例,同时第一训练集中,阳性类别与阴性类别的分布满足期望分布,并且在训练过程中阳性类别的召回率以及阴性类别的准确率都达到期望的水平。按照本公开实施例设置的第一训练集,可以有效解决阴阳比例失的问题,保证分类学习网络能够按照医生的期望,也就是稀缺类别的少漏检且丰富类别的少错检,完成训练。
在特殊情况下,某些医院可能获得的阳性样本会偏多,比如肿瘤医院,此时阳性样本属于丰富类别,而阴性样本属于稀缺类别。这种情况下,可以将阳性样本设置为第二类别,阴性样本设置为第一类别。又比如在精分类阶段,需要从低级别阳性细胞中分类出高级别阳性细胞,此时高级别阳性细胞属于稀缺类别,而低级别阳性细胞属于丰富类别。则可以将低级别阳性细胞设置为第二类别,高级别阳性细胞设置为第一类别,本公开方法的核心点在于使得所训练获得的分类学习网络模型能够将稀缺类别的样本识别准确,具体的分类数量可以根据实际情况设置,在此不一一列举。在一些实施例中,训练样本的标识类别的分布包括标识阳性的训练样本与标识阴性的训练样本的数量比例,所述期望分布可以是1:5~1:20。通过设置合理的期望分布能够降低分类学习模型的错检,保证分类学习网络完成期望的训练。本公开的方法不需要用户手动去调整混合训练集中的标识阴性与标识阳性的数量,只需要基于分类错误的样本和分类正确的样本进行混合,即可动态满足所述的期望分布,并使得分类学习网络的训练达到理想的效果。
本公开的分类学习方法将分类错误的训练样本和分类正确的样本按照一定的比例混合,从而形成混合训练集。对于混合训练集的设置对整个分类学习网络的快速收敛至关重要。还是以病理图像的阴阳性来举例说明,混合训练集中阳性样本少于阴性样本,由于不能让阴性样本将阳性样本淹没掉,也不能添加过多的阳性样本。可以将分类错误的训练样本和分类正确的样本按照第一预定比例混合,从而解决阳性样本被淹没的问题。分类错误的训练样本有较大的概率是阳性样本,申请人创造性地学习网络分类错误与分类正确的训练样本的比例范围设置在1:8~1:14,所形成的混合训练集一方面满足了分类学习网络重点学习分类错误的数据的需要,同时还能够将混合训练集合中的阳性样本与阴性样本的比例调整在一个合适的范围内。从而既能避免分类学习模型习得过多的阳性特征,又能解决阴性过多将阳性样本淹没的问题。同时通过该比例设置还能够有足够的裕量来满足训练样本的标识类别的期望分布。也即本公开的方法能够通过设置混合训练集中分类错误的样本和分类正确的样本的比例,有效解决混合训练集中阴阳比例失调的问题,同时又能将混合训练集中的阴阳比例调整到非常适合来训练分类学习网络的分布范围内,一举多得。并且在经过在后的阶段的训练之后,即使不添加新的训练集,或者初始的第一训练集本身已经是阴阳比例极度失调了,通过本公开的分类学习方法也能使得训练所获得的分类学习模型满足医生的实际要求。并且设置第一预定比例范围在实际的模型训练过程中容易实现,简单高效。例如申请人通过设置1:2的比例来进行了验证,该种比例情况下,召回率很高,而且分类学习网络习得较多阳性特征,从而分类学习模型容易将阴性病理图像识别为阳性。申请人还通过设置1:20的比例来进行了验证,该种比例情况下,分类学习网络习得较多阴性特征,从而分类学习模型容易将阳性病理图像识别为阴性。本示例通过设置分类错误与分类正确的训练样本的比例范围,能够允许分类学习模型错检而不允许分类学习模型漏检,提高模型的学习效率。
获得混合训练集的方式有很多,在此不做一一限定。在一些实施例中,可以基于第一阶段的训练所得到的分类错误的训练样本的数量和所述预定比例范围,从第一阶段的训练所得到的分类正确的训练样本中随机地选择对应数量的分类正确的训练样本;并将第一阶段的训练所得到的分类错误的训练样本与所选择的分类正确的训练样本混合。在步骤S101中获取了包括病理图像的多个第一训练样本的第一训练集,然后对分类学习网络进行了训练。例如第一训练集包括1000个样本,而分类学习网络识别错误了15个样本。则在混合训练集中首先会将该15个分类错误的样本加入,对于其他分类正确的样本,按照例如1:10的比例,选择150个分类正确的样本,由此得到一个包括165个样本的混合训练集。该混合训练集中,15个分类错误的样本大概率为第一训练集中样本数稀缺类型的样本。例如第一训练集的1000个样本包括900个阴性和100个阳性。在第一阶段的学习中,100个阳性样本是容易训练出错的,因此所选择的15个分类错误的样本大概率为阳性样本,而所选取的。通过这种分类错误和分类正确的样本的混合,达到了调节混合训练集中的阴阳比例的效果,也即同时实现了混合训练集中的训练样本的标识类别的分布满足期望分布。而由于混合训练集中包括有前一阶段的训练过程中分类正确的样本,从而分类学习网络不会忘记在前一阶段所习得的特征,同时能够着重学习前一阶段分类错误的样本,使得分类学习网络快速收敛。
如前述实施方式例如肿瘤医院,在某段时间内,检出的阳性样本会偏多。还有诸如在精分类阶段,需要从低级别阳性细胞中分类出高级别阳性细胞。利用本公开的分类学习方法也是可以实现的。例如在一些实施例中,在病理图像的对应的类别标识为多级别阳性分类标识的情况下,所述第一类别为高级别阳性细胞图像,所述第二类别为意义不明确的非鳞状上皮细胞图像(ascus)和低级别阳性细胞图像中的至少一种。在多级别阳性分类标识的情况下,第一阶段的第一训练集中,ascus和/或低级别阳性细胞图像的数量会偏多,因此可以根据实际的数量分部来设置第一类别和第二类别的标识。通过实际的数量分部来设置第一类别和第二类别的标识能够使得所获得的混合训练集中标识类别的分布满足期望分布,从而在任何情况下,通过本公开的分类学习方法均能够实现快速收敛,并且操作简单易行。
作为另外一种二分类的示例,例如在病理图像的对应的类别标识为多分类标识的情况下,所述第一类别为高级别阳性细胞图像、不明确的非鳞状上皮细胞图像(ascus)和低级别阳性细胞图像中的至少一种,所述第二类别为阴性细胞图像,或者所述第二类别为阴性细胞图像以及阳性细胞中除了所述第一类别以外的其他类别。也即在多分类标识的情况下,期望训练的输出为二分类,这种情况下,可以统一将高级别阳性细胞图像、不明确的非鳞状上皮细胞图像(ascus)和低级别阳性细胞图像中的一种或多种,均标识为第一类别。例如应用于粗分类过程中,高级别阳性、ascus和低级别阳性均可以被识别为阳性,将剩余的图像分类为阴性即可实现细胞图像的二分类训练。
本公开的实施例所采用的分类学习网络可以利用神经网络来实现,具体的分类学习网络可以包括Resnet。例如可以使用Resnet来进行多分类或者二分类,可以根据实际期望的分类类别的数量来使用Resnet。在一些实施例中,在病理图像的对应的类别标识为二元的阴阳分类标识的情况下,所述第一类别为阳性细胞图像而所述第二类别为阴性细胞图像。可以通过Resnet来对第一训练集中的病理图像的训练样本来进行阴阳分类。也即第一训练集中的病理图像的训练样本所设置的标识只包含阴性标识和阳性标识这两类,阴性标识则可以对应于阴性细胞图像(阴性训练样本),阳性标识可以对应于阳性细胞图像(阳性训练样本),通过训练Resnet来实现二元分类。
图4示出了Resnet 400的一种示例性的结构,Resnet 400包括编码模块402和解码模块403,编码模块402可以包括多层采样结构,从而对输入的病理图像进行多维度的采样。编码模块402可以在分阶段训练的过程中,对训练集401的病理图像进行多次采样,例如依序进行多次的下采样,然后通过解码模块403来输出分类的结果。例如编码模块402可以包括卷积层,来实现对图像特征的采样,如图4中,编码模块402编码的不同的阶段能够获得不同的图像特征,将编码最后一个阶段的特征(高层的语义特征)输出给解码模块403,通过解码模块403即可得到学习网络的分类结果。对比学习网络对训练样本的分类结果与样本的二元分类标识,可以确定对某一个样本是否分类正确了,由此可以确定出分类正确的样本和分类错误的样本。比如在期望输出为二分类的分类学习网络,其对于训练集401中的病理图像的分类输出可以是阴性或者阳性。根据分类学习网络输出的阴性阳性分类以及病理图像的第一类别标识、第二类别标识,由此可以确定出训练集中的哪些病理图像是被分类正确了,哪些病理图像是被分类错误了。例如可以将阳性标识的训练样本分类为了阴性,则可以认为学习网络对该训练样本是分类错误了,从而可以确定分类错误的样本,类似的也可以确定阴性标识的训练样本中分类错误样本以及分类正确的样本。基于前述的混合训练集的构建方法,将分类错误的样本与分类正确的样本进行混合,从而加快学习分析网络在训练过程中的收敛速度。
本公开的分类学习网络的训练过程可以分为不同的阶段来进行。不同的阶段可以按照用户期望的方式来进行训练,从而加快学习分析网络的收敛速度。在一实施方式中,所述第一阶段和所述第二阶段为相邻的两个批次的训练阶段。例如图4中,输入1可以包括多个训练集401,按照顺序,在先的训练集作为输入对Resnet 400进行训练,然后可以将之前分类错误的样本和分类正确的样本进行混合,构建混合训练集作为输入2。在实际操作过程中,为了取得足够多的分类错误的样本,还可以采用例如以11:1的配比方式从训练过程中的每隔20个训练批次中提取分类正确和分类错误的样本,构建混合训练集。然后将该混合训练集混入下一批次的训练中。本公开实施例分类正确数据的添加能够保证模型训练过程中的稳定性,而对分类错误数据的在学习能够直观提升模型在较难分类数据上的判别能力。
本公开的病理图像的分类学习方法在第二阶段的训练中引入第一阶段的训练正确和训练错误的数据,并且能够让分类学习网络重点学习在第一阶段学习错误的数据。并本公开的分类学习方法将分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合,能够有效解决混合训练集中阴阳比例失调的问题,并且能够将混合训练集中的样本调整到期望的分布范围内,从而有效加快分类学习网络的收敛速度。通过混合训练集的设定能够有效提高分类学习网络的训练效率。
如图5所示,本公开实施例还提出一种病理图像的分类系统500,包括接口505,其配置为接收待分类的病理图像。接口505可以是硬件接口,例如网络接口,USB数据接口等,也可以是软件的程序接口API,也可以是软件与硬件的结合,接口505可以用于接入外接设备,或者进行数据通信等,在此不做具体限定。本示例的分类系统500还可以包括处理器501,其配置为:基于所接收的病理图像,利用训练好的分类学习网络,确定所述病理图像的分类结果,其中,所述分类学习网络利用根据本公开各实施例的病理图像的分类学习方法来训练。的处理器501可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。独立地或附加地,本公开实施例的分类系统还可以包括,通信总线,存储器502,处理器501以及存储器502均连接在通信总线上,还可以包括输入/输出设备503,输入/输出设备503也连接在通信总线上,输入/输出设备503可以用于处理器501获取外部输入的例如训练集或者初始训练参数等。存储器502可以用于存储分类学习网络的程序,用于处理器501调用和训练。还可以连接显示单元504可以用于展示分类学习网络的训练输出或者训练过程。
本公开实施例还提出一种其上存储有指令的非暂时性计算机可读介质,其中所述指令在由处理器执行时执行根据本公开各实施例所述的病理图像的分类学习方法。计算机可读存储介质可以是非暂时性计算机可读的介质,诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备,或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本公开的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本公开的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上实施例仅为本公开的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (13)
1.一种病理图像的分类学习方法,其特征在于,所述分类学习方法包括:
获取包括病理图像的多个第一训练样本的第一训练集,各个第一训练样本包括病理图像及其对应的类别标识;
利用所获取的第一训练集,对所述分类学习网络执行第一阶段的训练;
将第一阶段的训练所得到的分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合,以使得其中训练样本的标识类别的分布满足期望分布,从而得到混合训练集;
利用所得到的混合训练集,对所述分类学习网络执行在所述第一阶段之后的第二阶段的训练。
2.如权利要求1所述的分类学习方法,其特征在于,所述病理图像包括宫颈液基细胞的病理图像。
3.如权利要求2所述的分类学习方法,其特征在于,在所述第一训练集中标识第一类别的训练样本的比例低于标识第二类别的训练样本的比例,并且,在训练样本的标识类别的分布满足期望分布的情况下,标识第一类别的训练样本的召回率达到第一预定阈值且标识第二类别的训练样本的准确率达到第二预定阈值。
4.如权利要求2所述的分类学习方法,其特征在于,训练样本的标识类别的分布包括标识阳性的训练样本与标识阴性的训练样本的数量比例,所述期望分布为1:5~1:20。
5.如权利要求4所述的分类学习方法,其特征在于,所述第一预定比例范围为1:8~1:14。
6. 如权利要求1所述的分类学习方法,其特征在于,将第一阶段的训练所得到的分类错误的训练样本与分类正确的训练样本按照第一预定比例范围混合具体包括:
基于第一阶段的训练所得到的分类错误的训练样本的数量和所述预定比例范围,从第一阶段的训练所得到的分类正确的训练样本中随机地选择对应数量的分类正确的训练样本;以及
将第一阶段的训练所得到的分类错误的训练样本与所选择的分类正确的训练样本混合。
7.如权利要求3所述的分类学习方法,其特征在于,在病理图像的对应的类别标识为二元的阴阳分类标识的情况下,所述第一类别为阳性细胞图像而所述第二类别为阴性细胞图像。
8.如权利要求3所述的分类学习方法,其特征在于,在病理图像的对应的类别标识为多级别阳性分类标识的情况下,所述第一类别为高级别阳性细胞图像,所述第二类别为意义不明确的非鳞状上皮细胞图像(ascus)和低级别阳性细胞图像中的至少一种。
9.如权利要求3所述的分类学习方法,其特征在于,在病理图像的对应的类别标识为多分类标识的情况下,所述第一类别为高级别阳性细胞图像、不明确的非鳞状上皮细胞图像(ascus)和低级别阳性细胞图像中的至少一种,所述第二类别为阴性细胞图像,或者所述第二类别为阴性细胞图像以及阳性细胞中除了所述第一类别以外的其他类别。
10.如权利要求1所述的分类学习方法,其特征在于,所述第一阶段和所述第二阶段为相邻的两个批次的训练阶段。
11.如权利要求1所述的分类学习方法,其特征在于,所述分类学习网络包括Resnet。
12.一种病理图像的分类系统,其特征在于,包括:
接口,其配置为接收待分类的病理图像;
处理器,其配置为:基于所接收的病理图像,利用训练好的分类学习网络,确定所述病理图像的分类结果,其中,所述分类学习网络利用根据权利要求1-11中任何一项所述的病理图像的分类学习方法来训练。
13.一种其上存储有指令的非暂时性计算机可读介质,其特征在于,其中所述指令在由处理器执行时执行根据权利要求1-11中任何一项所述的病理图像的分类学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985060.3A CN113436192A (zh) | 2021-08-26 | 2021-08-26 | 一种病理图像的分类学习方法、分类系统及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985060.3A CN113436192A (zh) | 2021-08-26 | 2021-08-26 | 一种病理图像的分类学习方法、分类系统及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113436192A true CN113436192A (zh) | 2021-09-24 |
Family
ID=77797945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985060.3A Pending CN113436192A (zh) | 2021-08-26 | 2021-08-26 | 一种病理图像的分类学习方法、分类系统及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436192A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784319A (zh) * | 2017-09-26 | 2018-03-09 | 天津大学 | 一种基于增强卷积神经网络的病理图像分类方法 |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN110175611A (zh) * | 2019-05-24 | 2019-08-27 | 浙江工业大学 | 面向车牌识别系统黑盒物理攻击模型的防御方法及装置 |
US20200090782A1 (en) * | 2018-09-18 | 2020-03-19 | California Institute Of Technology | Systems and methods for dissecting heterogeneous cell populations |
CN111091527A (zh) * | 2018-10-24 | 2020-05-01 | 华中科技大学 | 一种病理组织切片图像中病变区域自动检测方法及系统 |
US20200401938A1 (en) * | 2019-05-29 | 2020-12-24 | The Board Of Trustees Of The Leland Stanford Junior University | Machine learning based generation of ontology for structural and functional mapping |
CN112132239A (zh) * | 2020-11-24 | 2020-12-25 | 北京远鉴信息技术有限公司 | 一种训练方法、装置、设备和存储介质 |
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN113052824A (zh) * | 2021-03-29 | 2021-06-29 | 浙江工业大学 | 基于局部背景增广和多通道迁移学习的胰腺肿瘤分类方法 |
-
2021
- 2021-08-26 CN CN202110985060.3A patent/CN113436192A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107784319A (zh) * | 2017-09-26 | 2018-03-09 | 天津大学 | 一种基于增强卷积神经网络的病理图像分类方法 |
US20200090782A1 (en) * | 2018-09-18 | 2020-03-19 | California Institute Of Technology | Systems and methods for dissecting heterogeneous cell populations |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN111091527A (zh) * | 2018-10-24 | 2020-05-01 | 华中科技大学 | 一种病理组织切片图像中病变区域自动检测方法及系统 |
CN110175611A (zh) * | 2019-05-24 | 2019-08-27 | 浙江工业大学 | 面向车牌识别系统黑盒物理攻击模型的防御方法及装置 |
US20200401938A1 (en) * | 2019-05-29 | 2020-12-24 | The Board Of Trustees Of The Leland Stanford Junior University | Machine learning based generation of ontology for structural and functional mapping |
CN112183577A (zh) * | 2020-08-31 | 2021-01-05 | 华为技术有限公司 | 一种半监督学习模型的训练方法、图像处理方法及设备 |
CN112132239A (zh) * | 2020-11-24 | 2020-12-25 | 北京远鉴信息技术有限公司 | 一种训练方法、装置、设备和存储介质 |
CN113052824A (zh) * | 2021-03-29 | 2021-06-29 | 浙江工业大学 | 基于局部背景增广和多通道迁移学习的胰腺肿瘤分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Khosravi et al. | Deep convolutional neural networks enable discrimination of heterogeneous digital pathology images | |
Kothari et al. | Automatic batch-invariant color segmentation of histological cancer images | |
US20210224598A1 (en) | Method for training deep learning model, electronic equipment, and storage medium | |
Shieh et al. | Detecting outlier samples in microarray data | |
Li et al. | Automated discrimination of dicentric and monocentric chromosomes by machine learning‐based image processing | |
CN106611193A (zh) | 一种基于特征变量算法的图像内容信息分析方法 | |
Ström et al. | Pathologist-level grading of prostate biopsies with artificial intelligence | |
CN111062424A (zh) | 小样本食品图像识别模型训练方法及食品图像识别方法 | |
CN113298184B (zh) | 用于小样本图像识别的样本抽取、扩充方法及存储介质 | |
CN105279506A (zh) | 满文单词中轴线的定位方法 | |
Abbasi-Sureshjani et al. | Molecular subtype prediction for breast cancer using H&E specialized backbone | |
CN113052228A (zh) | 一种基于SE-Inception的肝癌病理切片分类方法 | |
US20240054639A1 (en) | Quantification of conditions on biomedical images across staining modalities using a multi-task deep learning framework | |
CN113034429A (zh) | 一种脑切片标记神经细胞检测方法及装置 | |
Chidester et al. | Discriminative bag-of-cells for imaging-genomics | |
CN113344079B (zh) | 一种图像标签半自动标注方法、系统、终端及介质 | |
CN105447477B (zh) | 基于公式库的公式识别方法及装置 | |
CN108804563B (zh) | 一种数据标注方法、装置以及设备 | |
CN113436192A (zh) | 一种病理图像的分类学习方法、分类系统及可读介质 | |
CN113724235A (zh) | 镜下环境改变条件时半自动化的Ki67/ER/PR阴性、阳性细胞计数系统及方法 | |
CN111862004B (zh) | 基于细胞荧光图像的肿瘤细胞表型识别计数方法 | |
CN115115939B (zh) | 基于特征注意力机制的遥感图像目标细粒度识别方法 | |
Ahmad et al. | Multi-configuration analysis of densenet architecture for whole slide image scoring of er-ihc | |
CN112132239B (zh) | 一种训练方法、装置、设备和存储介质 | |
CN115577239A (zh) | 一种电磁信号开集识别方法、装置及电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |