CN115115902A - 图像分类模型的训练方法、装置、设备、存储介质及产品 - Google Patents
图像分类模型的训练方法、装置、设备、存储介质及产品 Download PDFInfo
- Publication number
- CN115115902A CN115115902A CN202210590467.0A CN202210590467A CN115115902A CN 115115902 A CN115115902 A CN 115115902A CN 202210590467 A CN202210590467 A CN 202210590467A CN 115115902 A CN115115902 A CN 115115902A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- difficult
- slice
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 218
- 238000000034 method Methods 0.000 title claims abstract description 130
- 238000012549 training Methods 0.000 title claims abstract description 96
- 238000012545 processing Methods 0.000 claims description 105
- 238000002372 labelling Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000001413 cellular effect Effects 0.000 claims 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 70
- 230000001575 pathological effect Effects 0.000 description 40
- 238000010586 diagram Methods 0.000 description 23
- 238000005065 mining Methods 0.000 description 23
- 230000007170 pathology Effects 0.000 description 19
- 238000012216 screening Methods 0.000 description 16
- 238000003745 diagnosis Methods 0.000 description 14
- 238000010827 pathological analysis Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 6
- 230000002776 aggregation Effects 0.000 description 5
- 238000004220 aggregation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000003902 lesion Effects 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000007489 histopathology method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0007—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/72—Data preparation, e.g. statistical preprocessing of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种图像分类模型的训练方法、装置、设备、存储介质及产品,属于人工智能技术领域。该方法包括:从多个样本切片图像中确定至少两个尺度的多张难例图像,样本切片图像是样本切片的图像,样本切片中包含样本细胞,难例图像是含难例细胞的图像;基于至少两个尺度的多张难例图像,生成目标切片图像,每个目标切片图像中包含至少一个尺度的难例图像;基于目标切片图像,训练图像分类模型,图像分类模型用于预测输入的切片图像所属的类别。该方法可以提高图像分类模型对于难例样本以及新样本的预测性能。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种图像分类模型的训练方法、装置、设备、存储介质及产品。
背景技术
在医疗诊断领域中,除了医生根据经验主观诊断病情之外,还存在许多辅助诊断方式。以癌症诊断为例,可以通过自动显微镜扫描采集特定组织部位的全视野数字切片(Whole Slide Image,WSI),通过对WSI进行分析以确定是否存在阳性组织细胞。
相关技术中,人工智能技术已经应用到病理辅助诊断上,通过对WSI进行细胞级别的特征提取,并对提取出的细胞特征进行特征聚合,得到切片级别特征。通过切片级别特征和切片标签对图像分类模型进行训练,可以得到具备切片分类功能的图像分类模型。从而在应用过程中,可以使用该图像分类模型对扫描得到的切片图像进行阳性或阴性的辅助筛查。
显然,在通过图像分类模型进行病理辅助诊断过程中,图像分类模型的类别预测准确性,与训练图像分类模型所使用的训练样本有关。如何设置训练样本,是提高图像分类模型的模型性能时所需要解决的问题。
发明内容
本申请提供了一种图像分类模型的训练方法、装置、设备、存储介质及产品,能够提高图像分类模型的预测准确性。所述技术方案如下:
根据本申请的一个方面,提供了一种图像分类模型的训练方法,所述方法包括:
从多个样本切片图像中确定至少两个尺度的多张难例图像,所述样本切片图像是样本切片的图像,所述样本切片中包含样本细胞,所述难例图像是含难例细胞的图像;
基于所述至少两个尺度的多张难例图像,生成目标切片图像,每个所述目标切片图像中包含至少一个尺度的难例图像;
基于所述目标切片图像,训练图像分类模型,所述图像分类模型用于预测输入的切片图像所属的类别。
根据本申请的另一方面,提供了一种图像分类模型的训练装置,所述装置包括:
确定模块,用于从多个样本切片图像中确定至少两个尺度的多张难例图像,所述样本切片图像是样本切片的图像,所述样本切片中包含样本细胞,所述难例图像是含难例细胞的图像;
生成模块,用于基于所述至少两个尺度的多张难例图像,生成目标切片图像,每个所述目标切片图像中包含至少一个尺度的难例图像;
训练模块,用于基于所述目标切片图像,训练图像分类模型,所述图像分类模型用于预测输入的切片图像所属的类别。
根据本申请的一个方面,提供了一种计算机设备,计算机设备包括:处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如上的图像分类模型的训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序由处理器加载并执行以实现如上所述的图像分类模型的训练方法。
根据本申请的另一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像分类模型的训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过对样本切片图像进行多尺度难例挖掘,得到至少两个尺度的多张难例图像,并基于至少两个尺度的多张难例图像,生成包含难例图像的新的目标切片图像,从而采用新的目标切片图像对图像分类模型进行分类训练。以便图像分类模型可以针对性地学习难例样本,提高图像分类模型对于难例样本以及新样本的预测性能。而且,通过挖掘多尺度难例样本,也可以使得图像分类模型对不同尺度上的难例样本进行充分学习,以进一步提高图像分类模型的分类性能。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是切片图像的类别预测原理示意图;
图2是本申请一个示例性实施例示出的图像分类模型的训练架构示意图;
图3是本申请一个示例性实施例示出的计算机系统的示意图;
图4示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图;
图5示出了本申请另一个示例性实施例提供的图像分类模型的训练方法的流程图;
图6示出了本申请一个示例性实施例示出的难例切片图像确定过程的示意图;
图7示出了本申请一个示例性实施例示出的目标切片图像生成过程的示意图;
图8示出了本申请另一个示例性实施例示出的目标切片图像生成过程的示意图;
图9示出了本申请一个示例性实施例示出的难例细胞区域图像的确定过程示意图;
图10示出了本申请另一个示例性实施例示出的图像分类模型的训练架构示意图;
图11是本申请一个示例性实施例示出的医疗诊断场景的应用场景示意图;
图12是本申请一个示例性实施例示出的教学场景的应用场景示意图;
图13是本申请一个示例性实施例提供的图像分类模型的训练装置的结构框图;
图14是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
全视野数字切片(Whole Slide Image,WSI):WSI是利用数字扫描仪对传统病理切片进行扫描,采集出的高分辨率图像,再通过计算机将采集到的碎片化图像进行无缝拼接,制作得到的可视化数字图像。WSI可通过使用特定的软件实现任意比例的放大和缩小、任意方向的移动浏览等。在本申请实施例中,样本切片图像、待分类切片图像,均为WSI。相关技术中,在对WSI进行切片分类时,往往将WSI看成一个由多细胞构成的集合,从WSI中筛选出等效细胞子集,进而对等效细胞子集进行细胞特征提取,得到细胞级特征,由细胞级特征表征WSI对应的切片特征,进行后续类别预测。示例性的,如图1所示,其是切片图像的类别预测原理示意图。对样本切片图像101进行细胞筛选,得到样本切片图像101对应的等效细胞子集102,等效细胞子集102中包含有从样本切片(样本切片图像101对应的样本切片)中筛选出的特定样本细胞的图像,将等效细胞子集102输入图像分类模型103,得到图像分类模型103输出的预测结果104。
难例(Hard Example):难例是指模型训练过程中导致损失值很大的一些样本,或模型预测准确率较低的样本,也可以称为困难样本或复杂样本。在模型训练过程中,如何更好的挖掘难例,并使用挖掘出的难例重新训练模型,是提高模型训练的关键。本申请实施例中,通过对样本切片图像进行多尺度难例挖掘,得到多种尺度的难例图像,比如,细胞尺度的难例图像,切片尺度的难例图像等,进而将多尺度的难例图像应用到图像分类模型的训练过程中,以提高图像分类模型的预测准确性。
在本申请中,将着重介绍如何生成多尺度多示例的目标切片图像,以便使用该目标切片图像提高图像分类模型对于难例样本的类别预测准确性。如图2所示,其是本申请一个示例性实施例示出的图像分类模型的训练架构示意图。通过对样本切片图像201进行细胞筛选,得到等效细胞子集202,等效细胞子集202中包含有从样本切片(样本切片图像201对应的样本切片)中筛选出的部分样本细胞的图像。将等效细胞子集202输入图像分类模型203,得到图像分类模型203输出的预测结果204。进一步的,基于预测结果204对样本切片图像201进行多尺度难例挖掘,确定出难例细胞区域图像205(细胞尺度挖掘得到的难例样本)以及难例切片图像206(切片尺度挖掘得到的难例样本)。进一步的,通过对难例细胞区域图像205、难例切片图像206以及样本切片图像201进行多示例图像拼接,生成新的包含难例图像的目标切片图像。并采用目标切片图像训练图像分类模型203。
图3是本申请一个示例性实施例示出的计算机系统的示意图。如图3所示,该计算机系统包括第一设备310和第二设备320。
第一设备310是训练图像分类模型的训练设备,在图像分类模型训练完成之后,第一设备310可以将训练完成的图像分类模型发送至第二设备320,以便在第二设备320中部署图像分类模型。第二设备320是使用图像分类模型进行类别预测的设备。
在模型训练阶段:通过对样本切片图像311进行多尺度难例挖掘,得到包含难例细胞区域图像311以及难例切片图像314的难例图像312。并对难例图像312和样本切片图像315进行图像处理,生成新的包含难例图像312的目标切片图像315,以便采用目标切片图像315训练图像分类模型316。使得图像分类模型316可以充分学习多尺度难例特征,从而提高图像分类模型316对难例样本和新样本的类别预测准确性判别的准确性。
在模型应用阶段:可以将切片图像输入训练好的图像分类模型316,由图像分类模型316输出切片图像所属的类别。
可选的,上述第一设备310和第二设备320可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是终端或服务器。
可选的,上述第一设备310和第二设备320可以是同一个计算机设备,或者,第一设备310和第二设备320也可以是不同的计算机设备。并且,当第一设备310和第二设备320是不同的设备时,第一设备310和第二设备320可以是同一类型的设备,比如第一设备310和第二设备320可以都是服务器;或者,第一设备310和第二设备320也可以是不同类型的设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、车载终端、智能电视、可穿戴设备、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图4,其示出了本申请一个示例性实施例提供的图像分类模型的训练方法的流程图,以该方法应用于图3所示的第一设备310进行举例说明,该方法包括:
步骤401,从多个样本切片图像中确定至少两个尺度的多张难例图像,样本切片图像是样本切片的图像,样本切片中包含样本细胞,难例图像是含难例细胞的图像。
其中,样本切片图像即WSI,是样本切片的数字图像,样本切片是包含样本细胞的切片。本实施例中,样本切片是通过对病变组织或正常组织,采用病理组织学方法制成的病理切片。医护人员通过显微镜对病理切片进行观察,用于进一步作出病理诊断。
可选的,样本切片除了可以是人或动物病变组织或正常组织的病理切片之外,还可以是植物、微生物等的病理切片;本实施例对此不构成限定。
将人工智能技术应用到病理诊断场景中,可以预先训练出具备病理诊断功能的图像分类模型。以便在病理诊断过程中,通过图像分类模型自动判别切片图像是阳性切片图像或阴性切片图像,或者自动判别切片图像所指示的阳性类别等,而无需人工分析每个样本切片图像。则该应用场景下病理诊断的准确性就取决于图像分类模型的判别准确性,而图像分类模型的判别准确性取决于图像分类模型的训练过程,主要是训练图像分类模型所使用的训练样本。为了使得图像分类模型具备对切片图像的分类功能,在一种可能的实施方式中,需要预先准备包含切片图像的训练样本集,且每个切片图像均对应有标注标签(即标注类别)。使得在模型训练过程中,可以将切片图像输入图像分类模型中进行类别预测,得到切片图像的类别预测结果。进一步的,可以基于类别预测结果和标注类别,对图像分类模型进行模型参数更新。以便图像分类模型可以学习切片图像的图像特征,进而具备对切片图像的分类功能。
然而在图像分类模型的训练过程中,往往是采用已有样本数据库对其进行训练,并未考虑到样本数据库中简单样本或者难例样本的比例(难例样本即模型预测准确率较低的样本,也可以称为困难样本或复杂样本)。使得模型在学习过程中可能仅学习到简单样本的特征,导致模型在对难例样本的分类判别上准确性较低。因此,为了提高切片分类场景下,图像分类模型对难例样本的判别准确性,在一种可能的实施方式中,需要从已有多个样本切片图像中挖掘出图像分类模型预测准确率较低的复杂样例,即难例图像,以便后续可以基于难例图像对图像分类模型进行针对性的难例训练。
由于使用图像分类模型对切片图像进行判别的过程是一个多尺度评判过程:需要先从切片图像中选取部分样本细胞对应的区域图像,对该部分样本细胞的区域图像进行特征提取,得到区域图像特征,并对区域图像特征进行聚合以得到切片图像特征,进而基于切片图像特征进行分类学习,也即切片图像判别过程涉及到由区域图像特征至切片图像特征的多尺度学习过程。因此,为了使得图像分类模型可以从多尺度上学习难例样本,在一种可能的实施方式中,计算机设备在从样本切片图像中确定难例图像的过程中,可以从样本切片图像中挖掘出至少两种尺度的多张难例图像,也即从多个样本切片图像中挖掘出的多张难例图像是存在至少两种不同尺度的。
可选的,至少两种尺度的多张难例图像可以是细胞尺度上的难例细胞区域图像和切片尺度上的难例切片图像。其中,难例切片图像也即样本切片图像中属于难例样本的样本切片图像,而难例细胞区域图像则是难例细胞在样本切片图像中所占据区域的图像,难例细胞是样本切片中属于难例的细胞,图像分类模型对该类细胞的判别准确率较低。
由于难例细胞区域图像是难例细胞在样本切片图像中所占据区域的图像,也即难例细胞区域图像是样本切片图像中的单个细胞对应的局部区域图像,对应细胞尺度。而难例切片图像是样本切片图像中属于难例样本的样本切片图像,也即难例切片图像是完整的样本切片图像,对应切片尺度。因此,从样本切片图像中挖掘出难例细胞区域图像和难例切片图像,即可以实现从样本切片图像中挖掘出细胞尺度和切片尺度两种尺度的难例样本。
可选的,除了在细胞尺度和切片尺度上进行难例挖掘之外,还可以通过对难例切片图像进行区域分割,以得到不同分辨率大小尺度的难例图像。
步骤402,基于至少两个尺度的多张难例图像,生成目标切片图像,每个目标切片图像中包含至少一个尺度的难例图像。
为了提高图像分类模型对难例样本的预测准确性,在一种可能的实施方式中,当计算机设备从多个样本切片图像中挖掘出不同尺度的多张难例图像后,可以基于这些难例图像,生成新的训练样本,即目标切片图像,该目标切片图像中包含有至少一种尺度的难例图像。以便使用该目标切片图像训练图像分类模型,增加图像分类模型对难例图像的学习。
可选的,为了提高用于训练的目标切片图像的数据多样性,避免重复使用相同的训练样本进行训练,在一种可能的实施方式中,当计算机设备从样本切片图像中确定出至少两个尺度的多张难例图像后,可以对不同难例图像进行图像拼接处理,或对难例图像和样本切片图像进行图像拼接处理,以生成包含至少一种尺度的难例图像的目标切片图像,进而使用新的目标切片图像对图像分类模型进行训练。
需要说明的是,虽然从样本切片图像中挖掘出至少两种尺度的多张难例图像,但是在基于难例图像生成目标切片图像时,仅需要保证目标切片图像是包含难例图像即可,不限制目标切片图像中包含难例图像的种类和数量;也就是说,目标切片图像包含至少一种尺度的难例图像,且包含至少一个难例图像。
可选的,目标切片图像的生成方式可以包括以下几种方式:可以将难例细胞区域图像和样本切片图像进行图像拼接处理;也可以将难例切片图像和样本切片图像进行图像拼接处理;或可以将难例细胞区域图像、难例切片图像和样本切片图像进行图像拼接处理;或可以将多个难例细胞区域图像进行图像拼接处理;或可以将多个难例切片图像进行图像拼接处理;或可以将难例细胞区域图像和难例切片图像进行图像拼接处理等等,本实施例对图像拼接处理的方式不构成限定,仅需要保证生成的目标切片图像中至少是包含难例图像即可。
可选的,在进行图像拼接处理的过程中,可以根据业务人员的需要,或者结合图像分类模型当前的模型性能,采用合适的图像拼接处理方式。比如,若图像分类模型当前的模型性能指示其对难例的判别准确性较低,则可以适当增加新生成的目标切片图像中所包含难例图像的比例,可以全部采用难例图像生成新的目标切片图像。
步骤403,基于目标切片图像,训练图像分类模型,图像分类模型用于预测输入的切片图像所属的类别。
为了提高图像分类模型对难例样本的预测准确性,在一种可能的实施方式中,计算机设备将包含难例图像的目标切片图像输入图像分类模型,得到图像分类模型输出的目标切片图像的预测类别。进而基于预测类别和目标切片图像对应标注类别之间的损失,训练图像分类模型,以更新图像分类模型的模型参数。从而使得图像分类模型可以充分学习难例特征,进而提高图像分类模型的模型预测性能。
需要说明的是,在使用目标切片图像训练图像分类模型之前,图像分类模型是已经经过样本切片图像训练过的。或者,图像分类模型是已经经过其他样本切片图像训练过的,其他样本切片图像不同于挖掘难例图像的样本切片图像。
综上所述,本申请实施例中,通过对样本切片图像进行多尺度难例挖掘,得到至少两个尺度的多张难例图像,并基于至少两个尺度的多张难例图像,生成包含难例图像的新的目标切片图像,从而采用新的目标切片图像对图像分类模型进行分类训练。以便图像分类模型可以针对性地学习难例样本,提高图像分类模型对于难例样本以及新样本的预测性能。而且,通过挖掘多尺度难例样本,也可以使得图像分类模型对不同尺度上的难例样本进行充分学习,以进一步提高图像分类模型的分类性能。
难例样本一般为模型判别准确率较低的样本,因此,在一种可能的实施方式中,在对样本切片图像进行多尺度难例挖掘过程中,需要将样本切片图像输入图像分类模型中,以得到图像分类模型输出的样本切片图像的预测结果,进而基于预测结果对样本切片图像进行多尺度难例挖掘。
请参考图5,其示出了本申请另一个示例性实施例提供的图像分类模型的训练方法的流程图,以该方法应用于图3所示的第一设备310进行举例说明,该方法包括:
步骤501,将多个样本切片图像输入图像分类模型,得到图像分类模型输出的样本预测结果,样本预测结果至少包括多个样本切片图像所属的预测类别。
由于难例样本一般是图像分类模型在初始训练之后仍然无法判别的样本,或者判别准确率较低的样本。则为了从样本切片图像中挖掘出难例样本,在一种可能的实施方式中,需要将样本切片图像输入图像分类模型中,由图像分类模型对样本切片图像进行类别预测,以得到图像分类模型输出的各个样本切片图像的样本预测结果,进而基于样本预测结果来判别样本切片图像是否为判别准确率低的样本。
为了确定图像分类模型对样本切片图像的判别准确率的高低,可以根据图像分类模型输出的样本切片图像所属的预测类别,与样本切片图像对应的标注类别进行比较,以确定图像分类模型是否可以准确对样本切片图像进行分类,则对应的样本预测结果至少可以包括样本切片图像所属的预测类别。
在对样本切片图像进行类别预测过程中,是通过获取样本切片中样本细胞对应的细胞特征,为细胞特征赋予特征权重,基于细胞特征和特征权重进行特征聚合,用于表征样本切片图像的图像特征的。可见在样本切片图像的类别预测过程中,细胞特征对应特征权重的设置准确性,会影响到样本切片图像的类别预测结果。因此,在一种可能的实施方式中,为了从样本切片图像中挖掘出难例细胞区域图像,还需要图像分类模型输出样本切片图像中每个样本细胞对应细胞特征的特征权重,也就是说,样本预测结果中除了包含有样本切片图像所属的预测类别之外,还应该包含有样本细胞对应细胞特征的特征权重。
步骤502,基于样本预测结果和样本切片图像对应的标注类别,从多个样本切片图像中确定至少两个尺度的多张难例图像。
在一种可能的实施方式中,当计算机设备获取到图像分类模型输出的样本预测结果后,即可以基于样本预测结果和样本切片图像对应的标注别,从多张样本切片中确定多个尺度的多张难例图像。
本申请实施例中,至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像和切片尺度的难例切片图像;其中,切片尺度的难例切片图像指示将属于难例样本的整个样本切片图像确定为难例图像;而细胞尺度的难例细胞区域图像指示将难例细胞在样本切片中所占据的图像区域确定为难例图像,也即难例细胞区域图像中仅包含单个难例细胞。
本实施例中主要以从样本切片图像中确定难例切片图像进行说明,对应在一个示例性的例子中,步骤502可以包括步骤502A和步骤502B。
步骤502A,基于样本预测结果和标注类别,确定多个样本切片图像对应的预测损失。
难例切片图像即样本切片图像中预测准确率较低的一部分样本切片图像,对应在一种可能的实施方式,当计算机设备获取到每个样本切片图像对应的样本预测结果后,即可以确定出样本预测结果(预测类别)和标注类别之间的预测损失,预测损失的大小即表征图像分类模型对样本切片图像的类别预测准确率的高低。
可选的,预测损失的计算方式可以采用交叉熵计算方式。
步骤502B,基于预测损失,从多个样本切片图像中确定难例切片图像。
当计算机设备获取到样本切片图像对应的预测损失后,即可以根据样本切片图像的预测损失,从多个样本切片图像中选取预测准确率较低的样本切片图像,将这部分样本切片图像确定为难例切片图像。
针对基于预测损失,确定难例切片图像的过程,可以按照预测损失对样本切片图像进行排序,以选取排序中预测损失较大的一部分样本切片图像,确定为难例切片图像。也可以设置预测损失阈值,将高于该预测损失阈值的一部分样本切片图像,确定为难例切片图像。则步骤502B还可以包括以下步骤502B1或步骤502B2。
502B1,对多个样本切片图像按照预测损失由高到低进行排序,得到第三图像序列;将第三图像序列中的前k个样本切片图像,确定为难例切片图像,k为正整数。
已知预测损失越大,表示样本切片图像的预测类别和标注类别之间差异越大,图像分类模型对样本切片图像的预测准确率越低,图像分类模型暂未充分学习到这部分样本切片图像的图像特征。因此,在一种可能的实施方式中,可以对样本切片图像按照预测损失由高到底进行排序,得到第三图像序列。进而从第三图像序列中选取预测损失较高的一部分样本切片图像,比如,第三图像序列中的前k个样本切片图像,作为难例切片图像。以便图像分类模型后续可以有针对性的学习这部分样本切片图像的图像特征。
其中,k可以是定值,比如,k取10,则选取第三图像序列中的前10个样本切片图像作为难例切片图像。可选的,k的取值也可以是动态变化的,可以根据图像分类模型预测准确性的需求,并结合样本切片图像的预测损失动态调整设置。比如,若设置图像分类模型的预测损失需要低于0.2,而第三图像序列中低于0.2的样本切片图像的数量即为k的取值。
502B2,将预测损失高于损失阈值的样本切片图像,确定为难例切片图像。
其中,损失阈值可以基于业务人员需求进行设置。比如,业务要求图像分类模型的分类准确性需要高于某个指标,则可以基于该指标设置损失阈值,示意性的,若图像分类模型的分类准确性需要达到90%,则损失阈值可以设置为0.1。
在一种可能的实施方式中,计算机设备通过获取损失阈值,比较每个样本切片的预测损失与损失阈值的关系,并基于比较结果,从样本切片图像中选取预测损失高于损失阈值的样本切片图像,作为难例切片图像。
如图6所示,其示出了本申请一个示例性实施例示出的难例切片图像确定过程的示意图。对样本切片图像601进行细胞筛选,得到样本切片图像601对应的等效细胞子集602,等效细胞子集602中包含有从样本切片(样本切片图像601对应的样本切片)中筛选出的部分样本细胞的图像。将等效细胞子集602输入图像分类模型603,得到图像分类模型603输出的预测结果604,预测结果604中包含样本切片图像601对应的预测类别。通过比较预测结果604和标注类别605,确定出样本切片图像601对应的预测损失606。进而基于预测损失606对样本切片图像601进行切片级别挖掘,以确定难例切片图像607。
需要说明的是,在从样本切片图像中确定难例切片图像时,可以直接将损失较高的样本切片图像确定为难例切片图像。为了避免后续训练过程中仍然需要从样本切片图像中筛选部分样本细胞的图像,则可以直接将损失较高的样本切片图像所对应等效细胞子集确定为难例切片图像。其中,等效细胞子集是在将样本切片图像输入图像分类模型之前,对样本切片图像进行细胞筛选得到的。
针对从样本切片图像中确定难例细胞区域图像的过程可以参考下文实施例,本实施例在此不做赘述。
在基于至少两种尺度的难例图像,生成包含难例图像的目标切片图像的过程中,按照构成目标切片图像的图像类别的不同,可以分为两大类,一种是构成目标切片图像的图像均为难例图像,另外一种是构成目标切片图像的图像包括难例图像和样本切片图像两种,下文实施例即对这两种图像生成方式进行更具体的解释说明。
步骤503,从至少两个尺度的多张难例图像中选取至少两张难例图像,以及对至少两张难例图像进行图像拼接处理,生成一张目标切片图像。
其中,图像拼接处理也可以称为图像混合(Mixup)处理,用于将至少两张图像处理为一张图像,且图像处理前后不会损失每张图像的图像细节信息。图像拼接处理方式可以包括:直接将至少两张图像简单拼接为一张图像;也可以在一张图像的局部空白区域中填充另外至少一张图像。
可选的,对于从样本切片图像中挖掘出的难例图像,计算机设备可以将其存储至多尺度难例库。以便后续在图像分类模型训练过程中,从多尺度难例库中选取难例图像,生成新的目标切片图像。
可选的,在多尺度难例库中存储难例图像时,可以按照不同尺度进行存储,比如,将相同尺度的难例图像存储在同一存储区域,或存储在同一数据库中;则对于不同尺度的难例图像,分别存储在不同存储区域,或存储在不同数据库中,便于后续计算机设备基于尺度需求,从该尺度所对应的存储区域或数据库中存取难例图像。
在一种可能的实施方式中,每张目标切片图像均是由难例图像构成的。计算机设备可以从至少两个尺度的多张难例图像中随机选取至少两张难例图像,并对选取出来的至少两张难例图像进行图像拼接处理,生成一张新的目标切片图像。
可选的,每张目标切片图像可以由两张难例图像进行图像拼接处理生成。或,每张目标切片图像也可以由两张以上的难例图像进行图像拼接处理生成;本申请实施例对目标切片图像中所包含的难例图像的数量不构成限定。
由于难例图像中包含有不同尺度的难例图像:难例细胞区域图像和难例切片图像,而不同尺度的难例图像之间,以及相同尺度的难例图像之间均可以进行图像拼接处理,以丰富生成的目标切片图像的多样性。则对至少两张难例图像进行图像拼接处理的过程中,还可以采用以下至少一种图像拼接处理方式,也即步骤503可以包括步骤503A~步骤503C中的至少一个。
步骤503A,从至少两个尺度的多张难例图像中选取至少两张难例细胞区域图像,以及对至少两张难例细胞区域图像进行图像拼接处理,生成一张目标切片图像。
可选的,每张目标切片图像可以由至少两张难例细胞区域图像构成。在一种可能的实施方式中,计算机设备从至少两个尺度的多张难例图像中随机选取至少两张难例细胞区域图像,并对选取出的至少两张难例细胞区域图像进行图像拼接处理,生成一张新的目标切片图像。
如图7所示,其示出了本申请一个示例性实施例示出的目标切片图像生成过程的示意图。获取第一难例细胞区域图像704和第二难例细胞区域图像705,并对第一难例细胞区域图像704和第二难例细胞区域图像705进行图像拼接处理,生成第二目标切片图像706。
步骤503B,从至少两个尺度的多张难例图像中选取至少两张难例切片图像,以及对至少两张难例切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,每张目标切片图像可以由至少两张难例切片图像构成。在一种可能的实施方式中,计算机设备从至少两个尺度的多张难例图像中随机选取至少两张难例切片图像,并对选取出的至少两张难例切片图像进行图像拼接处理,生成一张新的目标切片图像。
如图7所示,获取第一难例切片图像701和第二难例切片图像702,并对第一难例切片图像701和第二难例切片图像702进行图像拼接处理,生成第一目标切片图像703。
步骤503C,从至少两个尺度的多张难例图像中选取至少一张难例细胞区域图像和至少一张难例切片图像,以及对至少一张难例切片图像和至少一张难例细胞区域图像进行图像拼接处理,生成一张目标切片图像。
可选的,每张目标切片图像由至少一张难例切片图像和至少一张难例细胞区域图像构成。在一种可能的实施方式中,计算机设备从至少两个尺度的多张难例图像中随机选取至少一张难例切片图像和至少一张难例细胞区域图像,并对选取出的至少一张难例切片图像和至少一张难例细胞区域图像进行图像拼接处理,生成一张新的目标切片图像。
如图7所示,获取第三难例切片图像707和第三难例细胞区域图像708,并对第三难例切片图像707和第三难例细胞区域图像708进行图像拼接处理,生成第三目标切片图像709。
由图7所示的图像拼接处理过程可知,本实施例在对难例图像进行图像拼接处理过程中,仅简单的将两张或两张以上的难例图像进行拼接处理,拼接位置随机,使得图像拼接处理后的目标切片图像仍然保留原始难例图像中的图像细节特征,并不会影响原始难例图像的图像参数。
可选的,除了上述难例细胞区域图像+难例细胞区域图像、难例切片图像+难例切片图像,以及难例细胞区域图像+难例切片图像等三种图像拼接方式之外,对至少两张难例图像进行图像拼接处理时,还可以对同一难例图像进行复制,使用至少两张相同难例图像进行图像拼接处理,以生成一张目标切片图像。
步骤504,从至少两个尺度的多张难例图像中选取至少一张难例图像,以及对至少一张难例图像和至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
由于实际应用的切片图像中正常细胞图像比例是占大多数的,则为了使得生成的目标切片图像更贴合实际生物切片的图像,从而提高图像分类模型对真实切片图像的判别准确性。在一种可能的实施方式中,计算机设备从至少两个尺度的多张难例图像中随机选取至少一张难例图像,并从训练样本集中随机选取至少一张样本切片图像,以便对至少一张难例图像和至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。其中,训练样本集中包含有若干样本切片图像。
对至少一张难例图像和至少一张样本切片图像进行图像拼接处理的目的,是为了可以生成更多难例样本,以便对图像分类模型进行针对性的难例样本训练。因此,在选取样本切片图像进行图像拼接的过程中,可以选取样本切片图像中的非难例图像与难例图像进行图像拼接处理,以便将原始训练样本集中的简单样本(样本切片图像)变为难例样本(目标切片图像),从而在原有训练样本集的基础上生成更多的难例样本,提高难例样本的生成效率。而且使用该类目标切片图像训练图像分类模型,也可以提高图像分类模型对难例样本的预测准确性。
可选的,针对确定多个样本切片图像中非难例图像的方式,可以直接根据确定出的难例切片图像,从多个样本切片图像中去除难例切片图像,剩下的样本切片图像即为非难例图像。
可选的,每张目标切片图像可以由一张难例图像和一张样本切片图像进行图像拼接处理生成。或,每张目标切片图像也可以由两张以上的难例图像和一张样本切片图像进行图像拼接处理生成。或,每张目标切片图像也可以由两张以上的难例图像和两张以上的样本切片图像进行图像拼接处理生成。本申请实施例对目标切片图像中包含的难例图像的数量以及样本切片图像的数量不构成限定。
与上文实施例中基于至少两张难例图像生成目标切片图像类似的是,在将样本切片图像与难例图像进行图像拼接处理时,也可以选取不同尺度的难例图像,以丰富生成的目标切片图像的多样性。则对至少一张难例图像和至少一张样本切片图像进行图像拼接处理的过程中,还可以采用以下至少一种图像拼接处理方式,也即步骤504可以包括步骤504A~步骤504C中的至少一种。
步骤504A,从至少两个尺度的多张难例图像中选取至少一张难例切片图像,以及对至少一张难例切片图像和至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,每张目标切片图像可以由至少一张难例切片图像和至少一张样本切片图像构成。在一种可能的实施方式中,计算机设备从至少两个尺度的多张难例图像中随机选取至少一张难例切片图像,并从训练样本集中随机选取至少一张样本切片图像,以便对至少一张难例切片图像和至少一张样本切片图像进行图像拼接处理,生成一张新的目标切片图像。
如图8所示,其示出了本申请另一个示例性实施例示出的目标切片图像生成过程的示意图。获取第一难例切片图像801和第一样本切片图像802,并对第一难例切片图像801和第一样本切片图像802进行图像拼接处理,生成第一目标切片图像803。
步骤504B,从至少两个尺度的多张难例图像中选取至少一张难例细胞区域图像,以及对至少一张难例细胞区域图像和至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,每张目标切片图像可以由至少一张难例细胞区域图像和至少一张样本切片图像构成。在一种可能的实施方式中,计算机设备从至少两个尺度的多张难例图像中随机选取至少一张难例细胞区域图像,并从训练样本集中随机选取至少一张样本切片图像,以便对至少一张难例细胞区域图像和至少一张样本切片图像进行图像拼接处理,生成一张新的目标切片图像。
如图8所示,获取第二难例细胞区域图像809和第三样本切片图像808,并对第二难例细胞区域图像809和第三样本切片图像808进行图像拼接处理,生成第三目标切片图像810。
步骤504C,从至少两个尺度的多张难例图像中选取至少一张难例切片图像和至少一张难例细胞区域图像,以及对至少一张难例细胞区域图像、至少一张难例切片图像以及至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,每张目标切片图像可以由至少一张难例切片图像、至少一张难例细胞区域图像以及至少一张样本切片图像构成。在一种可能的实施方式中,计算机设备从至少两个尺度的多张难例图像中随机选取至少一张难例切片图像和至少一张难例细胞区域图像,并从训练样本集中随机选取至少一张样本切片图像,以便对至少一张难例切片图像、至少一张难例细胞区域图像以及至少一张样本切片图像进行图像拼接处理,生成一张新的目标切片图像。
如图8所示,获取第一难例细胞区域图像804、第二难例切片图像805和第二样本切片图像806,并对第一难例细胞区域图像804、第二难例切片图像805以及第二样本切片图像806进行图像拼接处理,生成第二目标切片图像807。
需要说明的是,本实施例提供了多种目标切片图像的生成方式:难例细胞区域图像+难例细胞区域图像、难例切片图像+难例切片图像、难例细胞区域图像+难例切片图像、难例细胞区域图像+样本切片图像、难例切片图像+样本切片图像、难例切片图像+难例细胞区域图像+样本切片图像等,则在实际进行图像拼接过程中,计算机设备可以采用上述生成方式的至少一种,基于至少两个尺度的多张难例图像生成目标切片图像。
步骤505,基于目标切片图像和目标切片图像对应的标注类别,训练图像分类模型。
在训练图像分类模型时,除了需要使用新生成的目标切片图像之外,还需要确定目标切片图像对应的标注类别(标注标签)和预测类别之间的损失,以更新图像分类模型的模型参数。因此,在一种可能的实施方式中,在基于难例图像,生成包含难例图像对应的目标切片图像后,还需要基于难例图像对应的标注类别,确定出生成的目标切片图像的标注类别。
由上文实施例可知,目标切片图像是通过至少两张难例图像进行图像拼接处理生成的,或是通过至少一张难例图像和至少一张样本切片图像进行图像拼接处理生成的。则目标切片图像是包含了至少两张图像的图像信息的,因此,在一种可能的实施方式中,在确定目标切片图像对应的标注类别时,也需要根据构成目标切片图像的至少两张图像确定。也就是说:若目标切片图像是通过至少两张难例图像进行图像拼接处理生成,则目标切片图像对应的标注类别也需要根据至少两张难例图像的标注类别综合确定。若目标切片图像是通过至少一张难例图像和至少一张样本切片图像进行图像拼接处理生成,则目标切片图像对应的标注类别也需要根据至少一张目标图像和至少一张样本切片图像的标注类别综合确定。
以病理诊断场景为例,图像分类模型主要用于预测输入的切片图像判别该切片为阳性或阴性,阳性表示存在病变,而阴性表示不存在病变。则在图像分类模型的训练场景中,图像分类模型主要用于预测输入的目标切片图像属于阴性类别或阳性类别,则对应的目标切片图像存在两种标注类别(标注标签):阴性或阳性。
在一个示例性的例子中,若目标切片图像是由至少两张难例图像进行图像拼接处理生成的情况下,确定目标切片图像对应标注类别的过程可以包括步骤一和步骤二。
步骤一、在至少两张难例图像中存在至少一张难例图像对应的标注类别为阳性的情况下,确定目标切片图像的标注类别为阳性。
在确定标注类别的过程中,基于阳性+阳性=阳性,阴性+阴性=阴性,以及阴性+阳性=阳性的准则进行确定。对应若至少两张难例图像中存在至少一张难例图像对应的标注类别为阳性的情况下,则基于至少两张难例图像拼接处理后的目标切片图像中存在阳性细胞的图像,目标切片图像的标注类别也应该为阳性。
步骤二、在至少两张难例图像对应的标注类别均为阴性的情况下,确定目标切片图像的标注类别为阴性。
若至少两张难例图像中不存在标注类别为阳性的难例图像,则表示构成目标切片图像的均为阴性细胞的图像,则目标切片图像的标注类别也应该为阴性。
在另一个示例性的例子中,若目标切片图像是由至少一张难例图像和至少一张样本切片图像进行图像拼接处理生成的情况下,确定目标切片图像对应标注类别的过程可以包括步骤三和步骤四。
步骤三、在至少一张难例图像和至少一张样本切片图像中存在标注类别为阳性的情况下,确定目标切片图像的标注类别为阳性。
若至少一张难例图像和至少一张样本切片图像中存在标注类别为阳性的情况下,则基于至少一张难例图像和至少一张样本切片图像进行图像拼接处理后,生成的目标切片图像中也应该存在阳性细胞的图像,目标切片图像的标注类别也应该为阳性。
步骤四、在至少一张难例图像和至少一张样本切片图像对应的标注类别均为阴性的情况下,确定目标切片图像的标注类别为阴性。
若至少一张难例图像和至少一张样本切片图像中不存在标注类别为阳性的图像,则表示构成目标切片图像的均为阴性细胞的图像,目标切片图像的标注类别也应该为阴性。
在一种可能的实施方式中,当确定出目标切片图像对应的标注类别后,可以将目标切片图像输入图像分类模型中,得到图像分类模型输出的预测类别,进而基于预测类别和标注类别之间的损失,更新图像分类模型的参数,以实现对图像分类模型的训练目的。
本实施例中,通过图像分类模型对样本切片图像的样本预测结果,从样本切片图像中挖掘难例图像,可以使得挖掘出的难例图像符合图像分类模型当前的模型性能,从而针对性的提高图像分类模型的模型性能。另外,通过多尺度和多示例方式对难例图像和样本切片图像进行图像拼接处理,使得图像分类模型可以关注不同尺度上的难例样本,以及对不同比例的难例样本均可以充分学习,以进一步提高图像分类模型的分类准确性。
上文实施例中描述了难例切片图像的挖掘过程,本实施例主要着重描述难例细胞区域图像的挖掘过程,本实施例中挖掘出的难例细胞主要包括两种类别的难例细胞,对应有两种类别的难例细胞区域图像。
在一个示例性的例子中,步骤502还可以包括步骤502C~步骤502E,或,步骤502还可以包括步骤502F~步骤502H。
步骤502C,基于样本切片图像对应的标注类别,从多个样本切片图像中确定第一切片图像,第一切片图像中包含的样本切片图像的标注类别为第一类别。
在对样本切片图像进行类别预测过程中,是通过获取样本切片中样本细胞对应的细胞特征,为细胞特征赋予特征权重,基于细胞特征和特征权重进行特征聚合,用于表征样本切片图像的图像特征的。可见在样本切片图像的类别预测过程中,细胞特征对应特征权重的设置准确性,会影响到样本切片图像的类别预测结果。因此,在一种可能的实施方式中,为了从样本切片图像中挖掘出难例细胞区域图像,还需要图像分类模型输出样本切片图像中每个样本细胞对应细胞特征的特征权重,也就是说,样本预测结果中除了包含有样本切片图像所属的预测类别之外,还应该报含有样本细胞对应细胞特征的特征权重。
以图像分类模型用于判读切片为阳性切片或阴性切片为例,图像分类模型在判读切片为阳性切片时,需要切片中存在具有判读意义的细胞,且这些明确判读意义的细胞往往是特征权重较高的细胞。因此,本申请实施例中,将标注类别为阳性,判读意义较大但特征权重较低的细胞确定为第一类难例细胞。
基于第一类难例细胞的标注类别为阳性这一特征进行筛选。在一种可能的实施方式中,为了确定出难例细胞区域图像,则需要计算机设备首先从样本切片图像中确定出标注类别为第一类别(阳性)的第一切片图像,进而从第一切片图像中确定难例细胞区域图像。
步骤502D,基于第一切片图像中细胞特征的特征权重,从第一切片图像中确定第一细胞区域图像,第一细胞区域图像是第一类细胞在第一切片图像中所占据区域的图像,第一类细胞是特征权重在第一切片图像中位于前m个特征权重的样本细胞,m为正整数。
当获取到第一切片图像后,继续基于第一类难例细胞的判读意义较大这一特征进行筛选,而往往判读意义较大的样本细胞的细胞特征会被赋予较高的特征权重,即需要从每个第一切片图像中选取特征权重较高的样本细胞。因此,在一种可能的实施方式中,进一步基于第一切片图像中细胞特征的特征权重,从第一切片图像中确定出特征权重较高的样本细胞,作为第一类细胞,并将该第一类细胞在第一切片图像中所占据区域的图像确定为第一细胞区域图像。
可选的,针对从第一切片图像中筛选出特征权重较高的第一类细胞的方式,对于每个第一切片图像,可以按照特征权重由高到低对第一切片图像中的样本细胞进行排序,进而将位于前m个特征权重的样本细胞确定为第一类细胞。
其中,m的取值可以为固定值,比如,m取10,则从每个第一切片图像中选取特征权重较高的前10个样本细胞作为第一类细胞,该第一类细胞中每个样本细胞在第一切片图像中所占据区域的图像,即为第一细胞区域图像。
需要说明的是,第一细胞区域图像是多个第一类细胞在第一切片图像中所占据区域的图像,比如,第一类细胞包含有10个样本细胞,则第一细胞区域图像也对应包括有10张图像,每张图像中包含有一个第一类细胞。
可选的,也可以设置特征权重阈值,并将特征权重大于特征权重阈值的样本细胞确定为第一类细胞,将第一类细胞中每个样本细胞在第一样本切片中所占据区域的图像,确定为第一细胞区域图像。
步骤502E,基于第一细胞区域图像对应的特征权重,从第一细胞区域图像中确定难例细胞区域图像。
其中,第一细胞区域图像对应的特征权重,是根据第一细胞区域图像中所包含样本细胞确定的,也即该样本细胞对应细胞特征的特征权重。
当确定出第一细胞区域图像后,则可以基于第一类难例细胞的特征权重较低这一特征继续进行筛选。对于选取中的具备判读意义的第一细胞区域图像,若具备判读意义的第一细胞区域图像的特征权重仍然较低,则为难例细胞区域图像。在一种可能的实施方式中,可以基于第一细胞区域图像对应的特征权重,从第一细胞区域图像中选取特征权重较低的细胞区域图像,作为难例细胞区域图像(第一类难例细胞区域图像)。
在一个示例性的例子中,步骤502E还可以包括步骤502E1或502E2。
502E1,对第一细胞区域图像对应的特征权重按照由低到高进行排序,得到第一图像序列;将位于第一图像序列的前n个第一细胞区域图像,确定为难例细胞区域图像,n为正整数。
针对获取特征权重较低的一部分难例细胞,在一种可能的实施方式中,可以按照特征权重由低到高对第一细胞区域图像进行排序,得到第一图像序列,则位于第一图像序列的前n个第一细胞区域图像,即为特征权重较低的难例细胞区域图像。
可选的,也可以按照特征权重由高到低对第一细胞区域图像进行排序,得到第一图像序列,则位于第一图像序列的后n个第一细胞区域图像,即为特征权重较低的难例细胞区域图像。本实施例对排序方式不构成限定。
可选的,n的取值可以为固定值,比如,n为10。或n的取值为动态变化的值,可以是根据筛选出的第一细胞区域图像的多少进行动态设置。若第一细胞区域图像的数量较多,则n的取值相对较大,若第一细胞区域图像的数量较少,则n的取值相对也较小。
502E2,将特征权重低于第一权重阈值的第一细胞区域图像,确定为难例细胞区域图像。
其中,第一权重阈值可以由业务人员基于需求进行设置,示意性的,第一权重阈值可以为0.5。
在一种可能的实施方式中,计算机设备获取到多个第一细胞区域图像,以及每个第一细胞区域图像对应的特征权重后,即可以比较特征权重与第一权重阈值,进而基于比较结果,将特征权重低于第一权重阈值的第一细胞区域图像,确定为难例细胞区域图像,以筛选出特征权重较低的难例细胞区域图像。
步骤502F,基于标注类别和预测类别,从多个样本切片图像中确定第二切片图像,第二切片图像对应的预测类别和标注类别不同,且第二切片图像中包含的样本切片图像的标注类别为第二类别。
以图像分类模型用于判读切片为阳性切片或阴性切片为例,图像分类模型在判读切片为阳性切片时,需要切片中存在具有判读意义的细胞,且这些明确判读意义的细胞往往是特征权重较高的细胞。若图像分类模型对切片的判读错误,则主要原因在于这类具备明确判读意义的细胞。因此,本申请实施例中,将阴性切片误判为阳性切片,判读意义较大,且特征权重较高的细胞确定为第二类难例细胞。
基于第二类难例细胞的标注类别为阴性,而预测类别为阳性这一特征进行筛选。在一种可能的实施方式中,为了确定出第二类难例细胞区域图像,则计算机设备首先需要从样本切片图像中确定出标注类别为第二类别(阴性),且预测类别为阳性(标注类别与预测类别不同)的第二切片图像,进而从第二切片图像中确定难例细胞区域图像(第二类难例细胞区域图像)。
步骤502G,基于第二切片图像中细胞特征的特征权重,从第二切片图像中确定第二细胞区域图像,第二细胞区域图像是第二类细胞在第二切片图像中所占据区域的图像,第二类细胞是特征权重在样本切片图像中位于前i个特征权重的样本细胞,i为正整数。
当获取到第二切片图像后,继续基于第二类难例细胞的判读意义较大这一特征进行筛选,而往往判读意义较大的样本细胞的细胞特征会被赋予较高的特征权重,即需要从每个第二切片图像中选取特征权重较高的样本细胞。因此,在一种可能的实施方式中,进一步基于第二切片图像中细胞特征的特征权重,从第二切片图像中确定出特征权重较高的样本细胞,作为第二类细胞,并将该第二类细胞在第二切片图像中所占据区域的图像确定为第二细胞区域图像。
可选的,针对从第二切片图像中筛选出特征权重较高的第二类细胞的方式,对于每个第二切片图像,可以按照特征权重由高到低对第二切片图像中的样本细胞进行排序,进而将位于前i个特征权重的样本细胞确定为第二类细胞。
其中,i的取值可以为固定值。比如,i取10,则从每个第二切片图像中选取特征权重较高的前10个样本细胞作为第二类细胞,该第二类细胞中每个样本细胞在第二切片图像中所占据区域的图像,即为第二细胞区域图像。
可选的,也可以设置特征权重阈值,并将特征权重大于特征权重阈值的样本细胞确定为第二类细胞,将第二类细胞中每个样本细胞在第二样本切片中所占据区域的图像,确定为第二细胞区域图像。
步骤502H,基于第二细胞区域图像对应的特征权重,从第二细胞区域图像中确定难例细胞区域图像。
其中,第二细胞区域图像对应的特征权重,是根据第二细胞区域图像中所包含样本细胞确定的,也即该样本细胞对应细胞特征的特征权重。
当确定出第二细胞区域图像后,则可以基于第二类难例细胞的特征权重较高这一特征继续进行筛选。在一种可能的实施方式中,可以基于第二细胞区域图像对应的特征权重,从第二细胞区域图像中选取特征权重较高的细胞区域图像,作为难例细胞区域图像(第二类难例细胞区域图像)。
在一个示例性的例子中,步骤502H可以包括步骤502H1或502H2。
步骤502H1,对第二细胞区域图像对应的特征权重按照由高到低进行排序,得到第二图像序列;将位于第二图像序列的前j个第二细胞区域图像,确定为难例细胞区域图像,j为正整数。
针对获取特征权重较低的一部分难例细胞,在一种可能的实施方式中,可以按照特征权重由高到低对第二细胞区域图像进行排序,得到第二图像序列,则位于第二图像序列的前j个第二细胞区域图像,即为特征权重较高的难例细胞对应的图像,也即难例细胞区域图像。
可选的,也可以按照特征权重由低到高对第二细胞区域图像进行排序,得到第二图像序列,则位于第二图像序列的后j个第二细胞区域图像,即为特征权重较高的难例细胞区域图像。本实施例对排序方式不构成限定。
可选的,j的取值可以为固定值,比如,j为10。或j的取值为动态变化的值,可以是根据筛选出的第二细胞区域图像的多少进行动态设置,若第二细胞区域图像的数量较多,则j的取值相对较大,若第二细胞区域图像的数量较少,则j的取值相对也较小。
步骤502H2,将特征权重高于第二权重阈值的第二细胞区域图像,确定为难例细胞区域图像。
其中,第二权重阈值可以由业务人员基于需求进行设置,示意性的,第二权重阈值可以为0.6。
在一种可能的实施方式中,计算机设备获取到第二细胞区域图像,以及每个第二细胞区域图像对应的特征权重后,即可以比较特征权重与第二权重阈值,进而基于比较结果,将特征权重高于第二权重阈值的第二细胞区域图像,确定为难例细胞区域图像,以筛选出特征权重较高的难例细胞区域图像。
如图9所示,其示出了本申请一个示例性实施例示出的难例细胞区域图像的确定过程示意图。对样本切片图像901进行细胞筛选,得到样本切片图像901对应的等效细胞子集902,等效细胞子集902中包含有从样本切片(样本切片图像901对应的样本切片)中筛选出的部分样本细胞的图像。将等效细胞子集902输入图像分类模型900,先由特征提取网络903对等效细胞子集902中的细胞区域图像进行特征提取,得到细胞特征904。并将细胞特征904输入权重赋予模块905,由权重赋予模块905为每个细胞特征904赋予特征权重908。进而基于特征权重908和细胞特征904进行特征聚合,得到样本切片图像901对应的图像特征。将图像特征输入多层感知分类器906中,由多层感知分类器906基于图像特征进行类别预测,以得到样本切片图像901对应的预测类别907(0或1),0表示阴性,1表示阳性。进一步的,根据预测类别907和特征权重908对样本切片图像901进行细胞尺度难例挖掘,得到难例细胞区域图像909(图9中的909为挖掘出的若干难例细胞区域图像的集合)。
本实施例中,通过分析图像分类模型对样本切片图像的预测过程,样本切片图像的图像特征是由细胞特征和特征权重生成的,对应基于样本切片图像的预测类别和特征权重,提供了两种挖掘难例细胞区域图像的思路,以实现从样本切片图像中挖掘出难例细胞区域图像的目的。
以切片图像为宫颈细胞切片图像为例,在宫颈细胞切片图像的判读过程中,往往需要输出不同类别的阳性分类预测,表示样本切片图像中可能存在不同阳性类别的样本细胞。则为了可以在难例挖掘过程中体现出不同难例细胞的聚类关系,在一种可能的实施方式中,计算机设备对于挖掘出的若干难例细胞区域图像,进行聚类处理,以得到多种不同的难例细胞集合,进而基于聚类得到的难例细胞集合进行后续图像拼接处理。
在一个示例性的例子中,步骤502之后还可以包括步骤506。
步骤506,对难例细胞区域图像进行聚类处理,得到至少一个难例细胞集合。
为了挖掘出难例细胞区域图像的聚类特征,在一种可能的实施方式中,当从样本切片图像中确定出若干难例细胞区域图像后,可以对难例细胞区域图像进行聚类处理,从而得到至少一个类别与该类别对应的难例细胞集合。
可选的,在对难例细胞区域图像进行聚类处理过程中,可以使用k-means算法、k-medoids算法、基于随机选择的聚类算法(A Clustering Algorithm based on RandomizedSearch,CLARANS)等,本申请实施例对采用的聚类算法不构成限定。
需要说明的是,经过聚类处理后的若干难例细胞集合中,同一难例细胞集合中各个难例细胞区域图像之间的图像特征相似度较高,而不同难例细胞集合中难例细胞区域图像之间的图像特征相似度较低。
如图9所示,在难例细胞聚类过程中,可以将难例细胞区域图像909输入特征提取网络903中,得到各个难例细胞区域图像909对应的难例细胞特征910;基于难例细胞特征910进行聚类处理,从而可以得到n个难例细胞集合:k1、k2~kn;在进行图像拼接处理过程中,可以从同一难例细胞集合或不同难例细胞集合中选取难例细胞区域图像进行图像拼接处理,以得到目标切片图像912,进而基于目标切片图像912训练图像分类模型900。
当计算机设备获取到多个难例细胞集合后,在进行图像拼接处理过程中,即可以基于难例细胞集合选取难例细胞区域图像。对应在一个示例性的例子中,步骤503A可以包括步骤503A1和步骤503A2中的至少一个:
步骤503A1,从同一难例细胞集合中选取至少两张难例细胞区域图像,以及对至少两张难例细胞区域图像进行图像拼接处理,生成一张目标切片图像。
可选的,在基于至少两张难例细胞区域图像进行图像拼接处理的过程中,至少两张难例细胞区域图像可以来自于同一难例细胞集合;在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取一个难例细胞集合,并从中该难例细胞集合中随机选取至少两张难例细胞区域图像,对至少两张难例细胞区域图像进行图像拼接处理,以生成一张目标切片图像。
本实施例中,通过对来自同一难例细胞集合的多张难例细胞区域图像进行图像拼接处理,可以使得生成的目标切片图像中仅包含同种类型的难例细胞,则使用该类目标切片图像训练图像分类模型,可以使得图像分类模型针对性的学习该类难例细胞的特征,提高图像分类模型对某一类别的预测准确性,适用于识别专一类别的图像分类模型的训练场景。
可选的,由于同一难例细胞集合中的难例细胞区域图像均属于同一类别,则业务人员也可以根据业务需求,设置需要选取的难例细胞集合,比如,若有业务人员需要训练图像分类模型主要检测类别A,则计算机设备在训练图像分类模型时,为了提高对类别A的预测准确性,可以从类别A对应的难例细胞区域集合中选取难例细胞区域图像,进行图像拼接处理。
步骤503A2,从不同难例细胞集合中选取至少两张难例细胞区域图像,以及对至少两张难例细胞区域图像进行图像拼接处理,生成一张目标切片图像。
可选的,在基于至少两张难例细胞区域图像进行图像拼接处理的过程中,至少两张难例细胞区域图像可以来自于不同的难例细胞集合。在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取至少两个难例细胞集合,并从中该至少两个难例细胞集合中随机选取至少两张难例细胞区域图像,对至少两张难例细胞区域图像进行图像拼接处理,生成一张目标切片图像。也即构成目标切片图像的难例细胞区域图像中存在至少两张难例细胞区域图像来自于不同难例细胞集合中。
可选的,在另一个示例性的例子中,步骤503C也可以包括步骤503C1和503C2中的至少一个:
步骤503C1,从同一难例细胞集合中选取至少一张难例细胞区域图像,从至少两个尺度的多张难例图像中选取至少一张难例切片图像,以及对至少一张难例切片图像和至少一张难例细胞区域图像进行图像拼接处理,生成一张目标切片图像。
可选的,在基于至少一张难例细胞区域图像和至少一张难例切片图像,进行图像拼接处理的过程中,至少一张难例细胞区域图像可以来自于同一难例细胞集合。在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取一个难例细胞集合,并从该难例细胞集合中随机选取至少一张难例细胞区域图像,并从难例切片图像中选取至少一张难例切片图像,对至少一张难例细胞区域图像和至少一张难例切片图像进行图像拼接处理,以生成一张目标切片图像。
步骤503C2,从不同难例细胞集合中选取至少两张难例细胞区域图像,从至少两个尺度的多张难例图像中选取至少一张难例切片图像,以及对至少一张难例切片图像和至少两张难例细胞区域图像进行图像拼接处理,生成一张目标切片图像。
可选的,在基于至少一张难例细胞区域图像和至少一张难例切片图像,进行图像拼接处理的过程中,若难例细胞区域图像的选取数量大于等于2时,则至少两张难例细胞区域图像可以来自于不同难例细胞集合。在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取至少两个难例细胞集合,从该至少两个难例细胞集合中随机选取至少两张难例细胞区域图像,并从至少两个尺度的多张难例图像中选取至少一张难例切片图像,对至少两张难例细胞区域图像和至少一张难例切片图像进行图像拼接处理,以生成一张目标切片图像。
可选的,在另一个示例性的例子中,步骤504B也可以包括步骤504B1和504B2中的至少一个:
步骤504B1,从同一难例细胞集合中选取至少一张难例细胞区域图像,以及对至少一张难例细胞区域图像与至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,在对至少一张难例细胞区域图像和至少一张样本切片图像进行图像拼接处理的过程中,至少一张难例细胞区域图像可以来自于同一难例细胞集合。在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取一个难例细胞集合,并从该难例细胞集合中随机选取至少一张难例细胞区域图像,对至少一张难例细胞区域图像和至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
步骤504B2,从不同难例细胞集合中选取至少两张难例细胞区域图像,以及对至少两张难例细胞区域图像与至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,在对至少一张难例细胞区域图像和至少一张样本切片图像,进行图像拼接处理的过程中,若难例细胞区域图像的选取数量大于等于2,则至少两张难例细胞区域图像可以来自于不同难例细胞集合。在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取至少两个难例细胞集合,并从该至少两个难例细胞集合中随机选取至少两张难例细胞区域图像,对至少两张难例细胞区域图像与至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,在另一个示例性的例子中,步骤504C也可以包括步骤504C1和504C2中的至少一个:
步骤504C1,从同一难例细胞集合中选取至少一张难例细胞区域图像,从至少两个尺度的多张难例图像中选取至少一张难例切片图像,以及对至少一张难例细胞区域图像、至少一张难例切片图像以及至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,在对至少一张难例细胞区域图像、至少一张难例切片图像,以及至少一张样本切片图像进行图像拼接处理的过程中,至少一张难例细胞区域图像可以来自于同一难例细胞集合。在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取一个难例细胞集合,从该难例细胞集合中随机选取至少一张难例细胞区域图像,并从至少两个尺度的多张难例图像中选取至少一张难例切片图像,对至少一张难例细胞区域图像、至少一张难例切片图像,以及至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
步骤504C2,从不同难例细胞集合中选取至少两张难例细胞区域图像,从至少两个尺度的多张难例图像中选取至少一张难例切片图像,以及对至少两张难例细胞区域图像、至少一张难例切片图像以及至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
可选的,在对至少一张难例细胞区域图像、至少一张难例切片图像,以及至少一张样本切片图像进行图像拼接处理的过程中,若选取的难例细胞区域图像的数量大于等于2,则至少两张难例细胞区域图像可以来自于不同难例细胞集合。在一种可能的实施方式中,计算机设备从多个难例细胞集合中随机选取至少两个难例细胞集合,从该至少两个难例细胞集合中随机选取至少两张难例细胞区域图像,并从至少两个尺度的多张难例图像中选取至少一张难例切片图像,对至少两张难例细胞区域图像、至少一张难例切片图像,以及至少一张样本切片图像进行图像拼接处理,生成一张目标切片图像。
本实施例中,通过对挖掘出的难例细胞区域图像进行聚类处理,以得到不同类别的难例细胞集合,使得在进行图像拼接处理时,可以基于实际需求选取同一类别的难例细胞区域图像,或者选取不同类别的难例细胞区域图像,使得图像拼接处理后的目标切片图像可以是包含同一类别难例细胞区域图像的图像,进入有利于后续进行分类训练。且可以使得图像分类模型在学习特征时,也关注到不同类别的特征,进一步提高图像分类模型的模型性能。
结合上述实施例,如图10所示,其示出了本申请另一个示例性实施例示出的图像分类模型的训练架构示意图。通过对样本切片图像1001进行细胞筛选,得到等效细胞子集1002,等效细胞子集1002中包含有从样本切片(样本切片图像1001对应的样本切片)中筛选出的特定样本细胞的图像,将等效细胞子集1002输入图像分类模型1003,得到图像分类模型1003输出的预测结果1004,该预测结果1004中包含样本切片图像1001对应的预测类别1008,以及样本切片图像1001对应特定样本细胞的特征权重1007;一方面,通过比较预测结果1002中的预测类别1008和标注类别1009,确定出样本切片图像1001对应的预测损失,进而基于预测损失对样本切片图像1001进行切片级别难例挖掘,以得到难例切片图像1006;另一方面,结合预测结果1002中的预测类别1008、标注类别1009和特征权重1007,从等效细胞子集1002中筛选出难例细胞区域图像1005;从而得到多尺度的难例图像,通过对难例图像和样本切片图像进行图像拼接处理,生成新的包含难例图像的目标切片图像,以采用目标切片图像训练图像分类模型1003。可选的,也可以对难例细胞区域图像1005或难例切片图像1006与样本切片图像1001进行图像拼接处理,生成新的目标切片图像,以训练图像分类模型1003。
上文实施例主要描述了难例图像、目标切片图像的确定过程,该难例图像和目标切片图像主要应用于图像分类模型的训练过程,当使用目标切片图像对图像分类模型进行多轮训练后,得到经过目标切片图像训练完成的图像分类模型,该图像分类模型对于难例样本相比于训练之前具备较高的预测准确率,可以将训练完成的图像分类模型应用于切片图像的类别预测过程。
在一个示例性的例子中,当使用目标切片图像训练图像分类模型之后,还可以包括以下步骤:
步骤507,获取待分类切片图像。
其中,待分类切片图像的获取方式与样本切片图像的获取方式类似。本实施例在此不做赘述。
在实际应用过程中,在进行病理诊断过程中,医护人员可以实时病理切片图像,该病理切片图像即为待分类切片图像。
可选的,待分类切片图像也可以是从网络上下载到的任意切片图像。
步骤508,将待分类切片图像输入经过目标切片图像训练完成的图像分类模型,得到图像分类模型输出的待分类切片图像所属的目标类别。
训练完成的图像分类模型具备图像类别预测功能,在一种可能的实施方式中,将待分类切片图像输入图像分类模型中,由图像分类模型进行细胞特征提取、细胞特征聚合以及类别预测,从而输出待分类切片图像对应的目标类别。
可选的,在应用过程中,图像分类模型还可以输出待分类切片图像中的关键判别细胞的图像,该关键判别细胞为特征权重较高的细胞,以便用户基于关键判别细胞对待分类切片图像进一步分析。
基于上文实施例所示的模型训练过程,对本实施例的应用场景进行示例性说明。
(1)应用于医疗诊断场景
如图11所示,其是本申请一个示例性实施例示出的医疗诊断场景的应用场景示意图。在模型训练阶段1111中:在第一设备1110中,对样本病理切片图像1112进行多尺度难例挖掘,得到多尺度的难例图像1113,包括细胞尺度的难例细胞区域图像1114和切片尺度的难例切片图像1115。进一步的,对难例图像1113和样本病理切片图像1112进行多示例图像拼接处理,得到包含难例图像1113的目标病理切片图像1116。进而使用目标病理切片图像1116训练图像分类模型1117,使得图像分类模型1117具备准确预测病理切片图像所属类别的功能。
第一设备1110将经过目标病理切片图像1116训练完成的图像分类模型1117部署至第二设备1120,第二设备1120是具备医疗辅助诊断系统1121的设备。使得在模型应用阶段中,医疗辅助诊断系统1121可以使用训练好的图像分类模型1117进行辅助诊断。
在医疗辅助诊断系统1121中,医护人员可以将实时获取到的病理切片图像1122输入图像分类模型1117中,由图像分类模型1117对病理切片图像进行类别预测,并输出病理切片图像1122对应的病理诊断结果1123。其中,病理诊断结果1123可以是病理切片图像1122所属的切片类别1124,切片类别1124可以指示病理切片图像1122是阳性切片的图像,或是阴性切片的图像;对于阳性切片的图像,属于那一种阳性类别。可选的,病理诊断结果1123还可以包括判读关键细胞1125,判读关键细胞1125即病理切片图像1122中特征权重较高的细胞。可选的,若诊断出病理切片图像1122为阳性切片的图像,还可以输出属于特定阳性类别的细胞,以便医护人员可以基于判读关键细胞或特定阳性类别的细胞进行更详细的诊断,提高医生诊断效率。
(2)应用于教学场景
如图12所示,其是本申请一个示例性实施例示出的教学场景的应用场景示意图。在模型训练阶段1211中:由第一设备1110对样本病理切片图像1212进行多尺度难例挖掘,得到多尺度的难例图像1213,包括细胞尺度的难例细胞区域图像1214和切片尺度的难例切片图像1215;进一步的,对难例图像1213和样本病理切片图像1212进行多示例图像拼接处理,得到包含难例图像1213的目标病理切片图像1216,进而使用目标病理切片图像1216训练图像分类模型1217,使得图像分类模型1217具备准确预测病理切片图像所属类别的功能。
第一设备1210将经过目标病理切片图像1216训练完成的图像分类模型1217部署至第二设备1220,第二设备1220是具备在线出题系统1221的设备;使得在模型应用阶段中,在线出题系统1221可以使用训练好的图像分类模型1217实时在线出题。
在在线出题系统1221中,出题人员可以从网页上下载已有的病理切片图像,存储在病理切片图像库1222中;为了避免生成的病理判别图像选项1226与已有病理切片图像类似,以及增加病理判别图像选项1226的复杂度,通过对病理切片图像库1222中的病理切片图像进行多尺度难例挖掘,得到多尺度的难例病理图像1223,包括细胞尺度的难例病理细胞区域图像1224和切片尺度的难例病理切片图像1225;进一步的,对难例病理图像1223和病理切片图像进行多示例图像拼接处理,得到包含难例病理图像1223的病理判别图像选项1226;该病理判别图像选项1226即可以作为选择题的一个选项,或者作为分析问答题的题目等,从而实现无需人工出题,而是由在线出题系统自动根据已有病理切片图像进行自动出题,从而提高出题效率。
在线出题系统1221不仅需要通过多尺度挖掘和多示例拼接处理,自动生成新的病理判别图像选项1226,为了进一步提高出题效率,在线出题系统1222还可以将生成的病理判别图像选项1226输入图像分类模型1217中,由图像分类模型1217对病理判别图像选项1226进行类别预测,并输出病理判别图像选项1226对应的病理判别结果1227;其中,病理判别结果1227可以是病理判别图像选项1226所属的切片类别,切片类别1124可以指示病理切片图像1122是阳性切片的图像,或是阴性切片的图像;对于阳性切片的图像,属于那一种阳性类别,这里的切片类别即选项答案1228;可选的,病理判别结果1227还可以包括判读关键细胞,判读关键细胞即病理判别图像选项1226中特征权重较高的细胞;可选的,若诊断出病理判别图像选项1226为阳性切片的图像,还可以输出属于特定阳性类别的细胞,对应该判读关键细胞即为选项答案1228对应的答案解析1229,也就是说,可以根据判读关键细胞分析出病理判别图像选项1226对应的切片类别;对应的,选项答案1228和答案解析1229均可以由在线出题系统1221自动生成,出题人员仅需要检查该选项答案1228和答案解析1229与病理判别图像选项1226是否对应即可,可以进一步提高出题人员的出题效率。
图13是本申请一个示例性实施例提供的图像分类模型的训练装置的结构框图,该装置包括:
确定模块1301,用于从多个样本切片图像中确定至少两个尺度的多张难例图像,所述样本切片图像是样本切片的图像,所述样本切片中包含样本细胞,所述难例图像是含难例细胞的图像;
生成模块1302,用于基于所述至少两个尺度的多张难例图像,生成目标切片图像,每个所述目标切片图像中包含至少一个尺度的难例图像;
训练模块1303,用于基于所述目标切片图像,训练图像分类模型,所述图像分类模型用于预测输入的切片图像所属的类别。
在一个可选的实施例中,所述确定模块1301,还用于:
将多个所述样本切片图像输入所述图像分类模型,得到所述图像分类模型输出的样本预测结果,所述样本预测结果至少包括多个所述样本切片图像所属的预测类别;
基于所述样本预测结果和所述样本切片图像对应的标注类别,从多个所述样本切片图像中确定所述至少两个尺度的多张难例图像。
在一个可选的实施例中,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像,所述样本预测结果还包括所述样本细胞对应细胞特征的特征权重,所述特征权重和所述细胞特征用于确定所述样本切片图像的图像特征;
所述确定模块1301,还用于:
基于所述样本切片图像对应的所述标注类别,从多个所述样本切片图像中确定第一切片图像,所述第一切片图像中包含的样本切片图像的所述标注类别为第一类别;
基于所述第一切片图像中所述细胞特征的所述特征权重,从所述第一切片图像中确定第一细胞区域图像,所述第一细胞区域图像是第一类细胞在所述第一切片图像中所占据区域的图像,所述第一类细胞,所述第一类细胞是所述特征权重在所述第一切片图像中位于前m个特征权重的样本细胞,m为正整数;
基于所述第一细胞区域图像对应的所述特征权重,从所述第一细胞区域图像中确定所述难例细胞区域图像。
在一个可选的实施例中,所述确定模块1301,还用于:
对所述第一细胞区域图像对应的所述特征权重按照由低到高进行排序,得到第一图像序列;将位于所述第一图像序列的前n个第一细胞区域图像,确定为所述难例细胞区域图像,n为正整数;
或,
将所述特征权重低于第一权重阈值的所述第一细胞区域图像,确定为所述难例细胞区域图像。
在一个可选的实施例中,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像,所述样本预测结果还包括所述样本细胞对应细胞特征的特征权重,所述特征权重和所述细胞特征用于确定所述样本切片图像的图像特征;
所述确定模块1301,还用于:
基于所述标注类别和所述预测类别,从多个所述样本切片图像中确定第二切片图像,所述第二切片图像对应的所述预测类别和所述标注类别不同,且所述第二切片图像中包含的样本切片图像的所述标注类别为第二类别;
基于所述第二切片图像中所述细胞特征的所述特征权重,从所述第二切片图像中确定第二细胞区域图像,所述第二细胞区域图像是第二类细胞在所述第二切片图像中所占据区域的图像,所述第二类细胞是所述特征权重在所述第二切片图像中位于前i个特征权重的样本细胞,i为正整数;
基于所述第二细胞区域图像对应的所述特征权重,从所述第二细胞区域图像中确定所述难例细胞区域图像。
在一个可选的实施例中,所述确定模块1301,还用于:
对所述第二细胞区域图像对应的所述特征权重按照由高到低进行排序,得到第二图像序列;将位于所述第二图像序列的前j个第二细胞区域图像,确定为所述难例细胞区域图像,j为正整数;
或,
将所述特征权重高于第二权重阈值的所述第二细胞区域图像,确定为所述难例细胞区域图像。
在一个可选的实施例中,所述至少两个尺度的多张难例图像包括切片尺度的难例切片图像;
所述确定模块1301,还用于:
基于所述样本预测结果和所述标注类别,确定多个所述样本切片图像对应的预测损失;
基于所述预测损失,从多个所述样本切片图像中确定所述难例切片图像。
在一个可选的实施例中,所述确定模块1301,还用于:
对多个所述样本切片图像按照所述预测损失由高到低进行排序,得到第三图像序列;将所述第三图像序列中的前k个样本切片图像,确定为所述难例切片图像,k为正整数;
或,
将所述预测损失高于损失阈值的所述样本切片图像,确定为所述难例切片图像。
在一个可选的实施例中,所述生成模块1302,还用于:
从所述至少两个尺度的多张难例图像中选取至少两张难例图像,以及对至少两张所述难例图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例图像,以及对至少一张所述难例图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像。
在一个可选的实施例中,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像和切片尺度的难例切片图像;
所述生成模块1302,还用于:
从所述至少两个尺度的多张难例图像中选取至少两张所述难例细胞区域图像,以及对至少两张所述难例细胞区域图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少两张所述难例切片图像,以及对至少两张所述难例切片图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例细胞区域图像和至少一张所述难例切片图像,以及对至少一张所述难例切片图像和至少一张所述难例细胞区域图像进行图像拼接处理,生成一张所述目标切片图像。
在一个可选的实施例中,所述装置还包括:
聚类处理模块,用于对所述难例细胞区域图像进行聚类处理,得到至少一个难例细胞集合;
所述生成模块1302,还用于:
从同一所述难例细胞集合中选取至少两张所述难例细胞区域图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像;
所述生成模块1302,还用于:
从同一所述难例细胞集合中选取至少一张所述难例细胞区域图像,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像,,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像。
在一个可选的实施例中,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像和切片尺度的难例切片图像;
所述生成模块1302,还用于:
从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像,以及对至少一张所述难例切片图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例细胞区域图像,以及对至少一张所述难例细胞区域图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像和至少一张所述难例细胞区域图像,以及对至少一张所述难例细胞区域图像、至少一张所述难例切片图像以及至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像。
在一个可选的实施例中,所述装置还包括:
聚类处理模块,用于对所述难例细胞区域图像进行聚类处理,得到至少一个难例细胞集合;
所述生成模块1302,还用于:
从同一所述难例细胞集合中选取至少一张所述难例细胞区域图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像;
所述生成模块1302,还用于:
从同一所述难例细胞集合中选取至少一张所述难例细胞区域图像,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像。
在一个可选的实施例中,所述图像分类模型用于预测输入的所述目标切片图像属于阴性或阳性;
所述装置还包括:
标签确定模块,用于在至少两张所述难例图像中存在至少一张所述难例图像对应的标注类别为阳性的情况下,确定所述目标切片图像的所述标注类别为阳性;
所述标签确定模块,还用于在至少两张所述难例图像对应的所述标注类别均为阴性的情况下,确定所述目标切片图像的所述标注类别为阴性;
所述装置还包括:
所述标签确定模块,还用于在至少一张所述难例图像和至少一张所述样本切片图像中存在标注类别为阳性的情况下,确定所述目标切片图像的所述标注类别为阳性;
所述标签确定模块,还用于在至少一张所述难例图像和至少一张所述样本切片图像对应的所述标注类别均为阴性的情况下,确定所述目标切片图像的所述标注类别为阴性;
所述训练模块1303,还用于:
基于所述目标切片图像和所述目标切片图像对应的所述标注类别,训练所述图像分类模型。
在一个可选的实施例中,所述装置还包括:
获取模块,用于获取待分类切片图像;
处理模块,用于将所述待分类切片图像输入经过所述目标切片图像训练完成的所述图像分类模型,得到所述图像分类模型输出的所述待分类切片图像所属的目标类别。
综上所述,通过对样本切片图像进行多尺度难例挖掘,得到至少两个尺度的多张难例图像,并基于至少两个尺度的多张难例图像,生成包含难例图像的新的目标切片图像,从而采用新的目标切片图像对图像分类模型进行分类训练,以便图像分类模型可以学习难例样本,提高图像分类模型对于难例样本以及新样本的分类性能;而且,通过挖掘多尺度上的难例样本,也可以使得图像分类模型对不同尺度上的难例进行充分学习,以进一步提高图像分类模型的分类性能。
图14是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1400可以是图3中第一设备310,也可以是图3中的第二设备320。所述计算机设备1400包括中央处理单元(Central Processing Unit,CPU)1401、包括随机存取存储器(RandomAccess Memory,RAM)1402和只读存储器(Read-Only Memory,ROM)1403的系统存储器1404,以及连接系统存储器1404和中央处理单元1401的系统总线1405。所述计算机设备1400还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1406,和用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1407。
所述基本输入/输出系统1406包括有用于显示信息的显示器1408和用于用户输入信息的诸如鼠标、键盘之类的输入设备1409。其中所述显示器1408和输入设备1409都通过连接到系统总线1405的输入输出控制器1410连接到中央处理单元1401。所述基本输入/输出系统1406还可以包括输入输出控制器1410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1410还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1407通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。所述大容量存储设备1407及其相关联的计算机设备可读介质为计算机设备1400提供非易失性存储。也就是说,所述大容量存储设备1407可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1407可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1400还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1400可以通过连接在所述系统总线1405上的网络接口单元1412连接到网络1411,或者说,也可以使用网络接口单元1412来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1401通过执行该一个或一个以上程序来实现上述图像分类模型的训练方法的全部或者部分步骤。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的图像分类模型的训练方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的图像分类模型的训练方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (19)
1.一种图像分类模型的训练方法,其特征在于,所述方法包括:
从多个样本切片图像中确定至少两个尺度的多张难例图像,所述样本切片图像是样本切片的图像,所述样本切片中包含样本细胞,所述难例图像是含难例细胞的图像;
基于所述至少两个尺度的多张难例图像,生成目标切片图像,每个所述目标切片图像中包含至少一个尺度的难例图像;
基于所述目标切片图像,训练图像分类模型,所述图像分类模型用于预测输入的切片图像所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述从多个样本切片图像中确定至少两个尺度的多张难例图像,包括:
将多个所述样本切片图像输入所述图像分类模型,得到所述图像分类模型输出的样本预测结果,所述样本预测结果至少包括多个所述样本切片图像所属的预测类别;
基于所述样本预测结果和所述样本切片图像对应的标注类别,从多个所述样本切片图像中确定所述至少两个尺度的多张难例图像。
3.根据权利要求2所述的方法,其特征在于,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像,所述样本预测结果还包括所述样本细胞对应细胞特征的特征权重,所述特征权重和所述细胞特征用于确定所述样本切片图像的图像特征;
所述基于所述样本预测结果和所述样本切片图像对应的标注类别,从多个所述样本切片图像中确定所述至少两个尺度的多张难例图像,包括:
基于所述样本切片图像对应的所述标注类别,从多个所述样本切片图像中确定第一切片图像,所述第一切片图像中包含的样本切片图像的所述标注类别为第一类别;
基于所述第一切片图像中所述细胞特征的所述特征权重,从所述第一切片图像中确定第一细胞区域图像,所述第一细胞区域图像是第一类细胞在所述第一切片图像中所占据区域的图像,所述第一类细胞是所述特征权重在所述第一切片图像中位于前m个特征权重的样本细胞,m为正整数;
基于所述第一细胞区域图像对应的所述特征权重,从所述第一细胞区域图像中确定所述难例细胞区域图像。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一细胞区域图像对应的所述特征权重,从所述第一细胞区域图像中确定所述难例细胞区域图像,包括:
对所述第一细胞区域图像对应的所述特征权重按照由低到高进行排序,得到第一图像序列;将位于所述第一图像序列的前n个第一细胞区域图像,确定为所述难例细胞区域图像,n为正整数;
或,
将所述特征权重低于第一权重阈值的所述第一细胞区域图像,确定为所述难例细胞区域图像。
5.根据权利要求2所述的方法,其特征在于,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像,所述样本预测结果还包括所述样本细胞对应细胞特征的特征权重,所述特征权重和所述细胞特征用于确定所述样本切片图像的图像特征;
所述基于所述样本预测结果和所述样本切片图像对应的标注类别,从多个所述样本切片图像中确定所述至少两个尺度的多张难例图像,包括:
基于所述标注类别和所述预测类别,从多个所述样本切片图像中确定第二切片图像,所述第二切片图像对应的所述预测类别和所述标注类别不同,且所述第二切片图像中包含的样本切片图像的所述标注类别为第二类别;
基于所述第二切片图像中所述细胞特征的所述特征权重,从所述第二切片图像中确定第二细胞区域图像,所述第二细胞区域图像是第二类细胞在所述第二切片图像中所占据区域的图像,所述第二类细胞是所述特征权重在所述第二切片图像中位于前i个特征权重的样本细胞,i为正整数;
基于所述第二细胞区域图像对应的所述特征权重,从所述第二细胞区域图像中确定所述难例细胞区域图像。
6.根据权利要求5所述的方法,其特征在于,所述基于所述第二细胞区域图像对应的所述特征权重,从所述第二细胞区域图像中确定所述难例细胞区域图像,包括:
对所述第二细胞区域图像对应的所述特征权重按照由高到低进行排序,得到第二图像序列;将位于所述第二图像序列的前j个第二细胞区域图像,确定为所述难例细胞区域图像,j为正整数;
或,
将所述特征权重高于第二权重阈值的所述第二细胞区域图像,确定为所述难例细胞区域图像。
7.根据权利要求2所述的方法,其特征在于,所述至少两个尺度的多张难例图像包括切片尺度的难例切片图像;
所述基于所述样本预测结果和所述样本切片图像对应的标注类别,从所述多个样本切片图像中确定所述至少两个尺度的多张难例图像,包括:
基于所述样本预测结果和所述标注类别,确定多个所述样本切片图像对应的预测损失;
基于所述预测损失,从多个所述样本切片图像中确定所述难例切片图像。
8.根据权利要求7所述的方法,其特征在于,所述基于所述预测损失,从多个所述样本切片图像中确定所述难例切片图像,包括:
对多个所述样本切片图像按照所述预测损失由高到低进行排序,得到第三图像序列;将所述第三图像序列中的前k个样本切片图像,确定为所述难例切片图像,k为正整数;
或,
将所述预测损失高于损失阈值的所述样本切片图像,确定为所述难例切片图像。
9.根据权利要求1至8任一所述的方法,其特征在于,所述基于所述至少两个尺度的多张难例图像,生成目标切片图像,包括如下至少一种:
从所述至少两个尺度的多张难例图像中选取至少两张难例图像,以及对至少两张所述难例图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例图像,以及对至少一张所述难例图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像。
10.根据权利要求9所述的方法,其特征在于,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像和切片尺度的难例切片图像;
所述从所述至少两个尺度的多张难例图像中选取至少两张难例图像,以及对至少两张所述难例图像进行图像拼接处理,生成一张所述目标切片图像,包括如下至少一种:
从所述至少两个尺度的多张难例图像中选取至少两张所述难例细胞区域图像,以及对至少两张所述难例细胞区域图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少两张所述难例切片图像,以及对至少两张所述难例切片图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例细胞区域图像和至少一张所述难例切片图像,以及对至少一张所述难例切片图像和至少一张所述难例细胞区域图像进行图像拼接处理,生成一张所述目标切片图像。
11.根据权利要求10所述的方法,其特征在于,所述从多个样本切片图像中确定至少两个尺度的多张难例图像之后,所述方法还包括:
对所述难例细胞区域图像进行聚类处理,得到至少一个难例细胞集合;
所述从所述至少两个尺度的多张难例图像中选取至少两张所述难例细胞区域图像,包括如下至少一种:
从同一所述难例细胞集合中选取至少两张所述难例细胞区域图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像;
所述从所述至少两个尺度的多张难例图像中选取至少一张所述难例细胞区域图像和至少一张所述难例切片图像,包括如下至少一种:
从同一所述难例细胞集合中选取至少一张所述难例细胞区域图像,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像。
12.根据权利要求9所述的方法,其特征在于,所述至少两个尺度的多张难例图像包括细胞尺度的难例细胞区域图像和切片尺度的难例切片图像;
所述从所述至少两个尺度的多张难例图像中选取至少一张所述难例图像,以及对至少一张所述难例图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像,包括如下至少一种:
从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像,以及对至少一张所述难例切片图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例细胞区域图像,以及对至少一张所述难例细胞区域图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像;
从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像和至少一张所述难例细胞区域图像,以及对至少一张所述难例细胞区域图像、至少一张所述难例切片图像以及至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像。
13.根据权利要求12所述的方法,其特征在于,所述从多个样本切片图像中确定至少两个尺度的多张难例图像之后,所述方法还包括:
对所述难例细胞区域图像进行聚类处理,得到至少一个难例细胞集合;
所述从所述至少两个尺度的多张难例图像中选取至少一张所述难例细胞区域图像,包括如下至少一种:
从同一所述难例细胞集合中选取至少一张所述难例细胞区域图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像;
所述从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像和至少一张所述难例细胞区域图像,包括如下至少一种:
从同一所述难例细胞集合中选取至少一张所述难例细胞区域图像,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像;
从不同所述难例细胞集合中选取至少两张所述难例细胞区域图像,以及从所述至少两个尺度的多张难例图像中选取至少一张所述难例切片图像。
14.根据权利要求9所述的方法,其特征在于,所述图像分类模型用于预测输入的所述目标切片图像属于阴性或阳性;
所述对至少两张所述难例图像进行图像拼接处理,生成一张所述目标切片图像之后,所述方法还包括:
在至少两张所述难例图像中存在至少一张所述难例图像对应的标注类别为阳性的情况下,确定所述目标切片图像的所述标注类别为阳性;
在至少两张所述难例图像对应的所述标注类别均为阴性的情况下,确定所述目标切片图像的所述标注类别为阴性;
所述对至少一张所述难例图像和至少一张所述样本切片图像进行图像拼接处理,生成一张所述目标切片图像之后,所述方法还包括:
在至少一张所述难例图像和至少一张所述样本切片图像中存在标注类别为阳性的情况下,确定所述目标切片图像的所述标注类别为阳性;
在至少一张所述难例图像和至少一张所述样本切片图像对应的所述标注类别均为阴性的情况下,确定所述目标切片图像的所述标注类别为阴性;
所述基于所述目标切片图像,训练图像分类模型,包括:
基于所述目标切片图像和所述目标切片图像对应的所述标注类别,训练所述图像分类模型。
15.根据权利要求1至8任一所述的方法,其特征在于,所述方法还包括:
获取待分类切片图像;
将所述待分类切片图像输入经过所述目标切片图像训练完成的所述图像分类模型,得到所述图像分类模型输出的所述待分类切片图像所属的目标类别。
16.一种图像分类模型的训练装置,其特征在于,所述装置包括:
确定模块,用于从多个样本切片图像中确定至少两个尺度的多张难例图像,所述样本切片图像是样本切片的图像,所述样本切片中包含样本细胞,所述难例图像是含难例细胞的图像;
生成模块,用于基于所述至少两个尺度的多张难例图像,生成目标切片图像,每个所述目标切片图像中包含至少一个尺度的难例图像;
训练模块,用于基于所述目标切片图像,训练图像分类模型,所述图像分类模型用于预测输入的切片图像所属的类别。
17.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至15任一所述的图像分类模型的训练方法。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至15任一所述的图像分类模型的训练方法。
19.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至15任一所述的图像分类模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210590467.0A CN115115902A (zh) | 2022-05-26 | 2022-05-26 | 图像分类模型的训练方法、装置、设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210590467.0A CN115115902A (zh) | 2022-05-26 | 2022-05-26 | 图像分类模型的训练方法、装置、设备、存储介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115115902A true CN115115902A (zh) | 2022-09-27 |
Family
ID=83326391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210590467.0A Pending CN115115902A (zh) | 2022-05-26 | 2022-05-26 | 图像分类模型的训练方法、装置、设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115115902A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601618A (zh) * | 2022-11-29 | 2023-01-13 | 浙江华是科技股份有限公司(Cn) | 一种磁芯缺陷检测方法、系统及计算机存储介质 |
-
2022
- 2022-05-26 CN CN202210590467.0A patent/CN115115902A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601618A (zh) * | 2022-11-29 | 2023-01-13 | 浙江华是科技股份有限公司(Cn) | 一种磁芯缺陷检测方法、系统及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sakamoto et al. | A narrative review of digital pathology and artificial intelligence: focusing on lung cancer | |
US20240177301A1 (en) | System and Method Associated with Predicting Segmentation Quality of Objects in Analysis of Copious Image Data | |
US9036888B2 (en) | Systems and methods for performing quality review scoring of biomarkers and image analysis methods for biological tissue | |
CN108629772B (zh) | 图像处理方法及装置、计算机设备和计算机存储介质 | |
CN111461068B (zh) | 一种染色体中期图识别和分割方法 | |
US20150032671A9 (en) | Systems and methods for selecting and analyzing particles in a biological tissue | |
US8737709B2 (en) | Systems and methods for performing correlation analysis on clinical outcome and characteristics of biological tissue | |
EP2845137B1 (en) | Systems and methods for performing quality review scoring of biomarkers and image analysis methods for biological tissue | |
US20130286038A1 (en) | Systems and methods for selection and display of multiplexed images of biological tissue | |
JP2015087903A (ja) | 情報処理装置及び情報処理方法 | |
US20220335736A1 (en) | Systems and methods for automatically classifying cell types in medical images | |
EP4075325A1 (en) | Method and system for the classification of histopathological images based on multiple instance learning | |
CN112711983B (zh) | 核型分析系统、方法、电子设备及可读存储介质 | |
Sulam et al. | Maximizing AUC with Deep Learning for Classification of Imbalanced Mammogram Datasets. | |
CN113626591A (zh) | 一种基于文本分类的电子病历数据质量评价方法 | |
CN114037868B (zh) | 图像识别模型的生成方法及装置 | |
CN115115902A (zh) | 图像分类模型的训练方法、装置、设备、存储介质及产品 | |
CN116612347A (zh) | 基于考场违规的深度学习模型训练方法 | |
US8131077B2 (en) | Systems and methods for segmenting an image based on perceptual information | |
EP4246525A1 (en) | Method and device for processing pathological slide image | |
Lin et al. | Boosting multiclass learning with repeating codes and weak detectors for protein subcellular localization | |
CN115994918A (zh) | 一种细胞分割方法及系统 | |
Hassanien et al. | Enhanced rough sets rule reduction algorithm for classification digital mammography | |
US20130286043A1 (en) | Systems and methods for analyzing biomarker co-localization in a biological tissue | |
CN115359325B (zh) | 图像识别模型的训练方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |