CN115115855A - 图像编码器的训练方法、装置、设备及介质 - Google Patents
图像编码器的训练方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115115855A CN115115855A CN202210531184.9A CN202210531184A CN115115855A CN 115115855 A CN115115855 A CN 115115855A CN 202210531184 A CN202210531184 A CN 202210531184A CN 115115855 A CN115115855 A CN 115115855A
- Authority
- CN
- China
- Prior art keywords
- image
- candidate
- feature vector
- encoder
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 103
- 239000013598 vector Substances 0.000 claims abstract description 549
- 230000004580 weight loss Effects 0.000 claims abstract description 65
- 230000008520 organization Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 124
- 230000001575 pathological effect Effects 0.000 claims description 40
- 238000012216 screening Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 26
- 238000003745 diagnosis Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 8
- 230000007170 pathology Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 239000000126 substance Substances 0.000 description 9
- 230000000052 comparative effect Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003064 k means clustering Methods 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/535—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本申请公开了一种图像编码器的训练方法、装置、设备及介质,属于人工智能领域。该方法包括:将第一样本组织图像分别进行两次数据增强,得到第一图像和第二图像;将第一图像输入第一图像编码器,得到第一特征向量;将第二图像输入第二图像编码器,得到第二特征向量;将多张第二样本组织图像输入第一图像编码器,得到多个特征向量;聚类多个特征向量,得到多个聚类中心;基于多个聚类中心与第一特征向量的相似值,生成多个权重;基于第一特征向量和第二特征向量,生成第一子函数;基于第二特征向量和多个特征向量,结合多个权重生成第二子函数;基于第一子函数和第二子函数,生成第一权重损失函数;基于第一权重损失函数,训练第一图像编码器。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种图像编码器的训练方法、装置、设备及介质。
背景技术
在医疗领域,存在由全视野数字切片(Whole Slide Image,WSI)搜索与其相似的全视野数字切片的场景。每张全视野数字切片(大图)包括数量巨大的组织病理图像(小图)。
在相关技术中,使用大图内最具有表征能力的小图来代表整张大图,之后根据小图的特征向量在数据库中寻找与其最相似的目标小图,将目标小图对应的大图作为最终的搜索结果。上述过程需要使用图像编码器来提取小图的特征向量。相关技术在训练图像编码器时采用对比学习的方式进行训练,对比学习旨在学习锚图像与正样本的共同特征,区分锚图像与负样本之间的不同特征(常简称为拉近锚图像与正样本,拉远锚图像与负样本)。
相关技术在采用对比学习的方式训练图像编码器时,对于图像X,将图像X分别进行两次数据增强得到的图像X1和图像X2作为一对正样本,将图像X和图像Y作为一对负样本。然而,相关技术的正负样本假设在特殊场景下是不合适的。在一个场景下,当从一张WSI内挑选出的小图所属的组织区域与从另一张WSI内挑选出的小图所属的组织区域相同时,这两张小图被认为是一对负样本;在另一个场景下,当从同一张WSI内挑选出位置相邻的两张小图时,这两张小图也被认为是一对负样本。显然,上述两种场景挑选出的两张小图应构成正样本对,相关技术在训练图像编码器时将错误地拉远正样本。因此,如何在对比学习中设置正确的负样本假设,成为亟需解决的技术问题。
发明内容
本申请提供了一种图像编码器的训练方法、装置、设备及介质,能够提高图像编码器的编码效果。所述技术方案如下:
根据本申请的一个方面,提供了一种图像编码器的训练方法,所述方法包括:
获取第一样本组织图像和多张第二样本组织图像,第二样本组织图像为对比学习中的负样本;
将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;第一图像为对比学习中的正样本;
将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;第二图像为对比学习中的锚图像;
将多张第二样本组织图像输入第一图像编码器,得到多张第二样本组织图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第一特征向量的相似值,生成多个权重;
基于第一特征向量和第二特征向量,生成用于表征锚图像和正样本之间误差的第一子函数;基于第二特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第二子函数;基于第一子函数和第二子函数,生成第一权重损失函数;
基于第一权重损失函数,训练第一图像编码器和第二图像编码器;基于第二图像编码器,更新第一图像编码器。
根据本申请的另一方面,提供了一种图像编码器的训练方法,所述方法包括:
获取第一样本组织图像;
将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第四特征向量;
将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第五特征向量;
将第四特征向量确定为用于对比学习的对比向量,将第五特征向量确定为用于对比学习的锚向量;
将不同的第一样本组织图像的多个第四特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第五特征向量之间的相似值最大的特征向量,确定为多个第四特征向量中的正样本向量;将第一其余特征向量,确定为多个第四特征向量中的负样本向量,其中,第一其余特征向量指多个第四特征向量中除与第五特征向量之间的相似值最大的特征向量之外的特征向量;
基于第五特征向量和多个第四特征向量中的正样本向量,生成第五子函数;基于第五特征向量和多个第四特征向量中的负样本向量,生成第六子函数;基于第五子函数和第六子函数,生成第一群组损失函数;
基于第一群组损失函数,训练第二图像编码器和第三图像编码器;将第三图像编码器确定为最终训练得到的图像编码器。
根据本申请的另一方面,提供了一种全视野病理切片的搜索方法,所述方法包括:
获取全视野病理切片,以及将全视野病理切片裁剪为多张组织图像;
通过图像编码器,生成多张组织图像的多个图像特征向量;
通过对多个图像特征向量进行聚类,从多张组织图像中确定出多张关键图像;
基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选组织图像;
根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;
将多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。
根据本申请的另一方面,提供了一种图像编码器的训练装置,所述装置包括:
获取模块,用于获取第一样本组织图像和多张第二样本组织图像,第二样本组织图像为对比学习中的负样本;
处理模块,用于将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;第一图像为对比学习中的正样本;
处理模块,还用于将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;第二图像为对比学习中的锚图像;
处理模块,还用于将多张第二样本组织图像输入第一图像编码器,得到多张第二样本组织图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第一特征向量的相似值,生成多个权重;
生成模块,用于基于第一特征向量和第二特征向量,生成用于表征锚图像和正样本之间误差的第一子函数;基于第二特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第二子函数;基于第一子函数和第二子函数,生成第一权重损失函数;
训练模块,用于基于第一权重损失函数,训练第一图像编码器和第二图像编码器;基于第二图像编码器,更新第一图像编码器。
根据本申请的另一方面,提供了一种图像编码器的训练装置,所述装置包括:
获取模块,用于获取第一样本组织图像;
处理模块,用于将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第四特征向量;
处理模块,还用于将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第五特征向量;
确定模块,用于将第四特征向量确定为用于对比学习的对比向量,将第五特征向量确定为用于对比学习的锚向量;
聚类模块,用于将不同的第一样本组织图像的第四特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第五特征向量之间的相似值最大的特征向量,确定为多个第四特征向量中的正样本向量;将多个第一聚类中心的其余特征向量,确定为多个第四特征向量中的负样本向量;
生成模块,用于基于第五特征向量和多个第四特征向量中的正样本向量,生成第五子函数;基于第五特征向量和多个第四特征向量中的负样本向量,生成第六子函数;基于第五子函数和第六子函数,生成第一群组损失函数;
训练模块,用于基于第一群组损失函数,训练第二图像编码器和第三图像编码器;将第三图像编码器确定为最终训练得到的图像编码器。
根据本申请的另一方面,提供了一种全视野病理切片的搜索装置,所述装置包括:
获取模块,用于获取全视野病理切片,以及将全视野病理切片裁剪为多张组织图像;
生成模块,用于通过图像编码器,生成多张组织图像的多个图像特征向量;
聚类模块,用于通过对多个图像特征向量进行聚类,从多张组织图像中确定出多张关键图像;
查询模块,用于基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选组织图像;
筛选模块,用于根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;
确定模块,用于将多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。
根据本申请的一个方面,提供了一种计算机设备,计算机设备包括:处理器和存储器,存储器存储有计算机程序,计算机程序由处理器加载并执行以实现如上的图像编码器的训练方法,或,全视野病理切片的搜索方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序由处理器加载并执行以实现如上的图像编码器的训练方法,或,全视野病理切片的搜索方法。
根据本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图像编码器的训练方法,或,全视野病理切片的搜索方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过为相关技术中认定的负样本赋予权重,在负样本中进一步区分出负样本的“负的程度”,使得对比学习使用的损失函数(也称为对比学习范式)能更精确地拉远锚图像与负样本,减少了潜在的假负样本的影响,进而能更好地训练图像编码器,训练得到的图像编码器能更好的区分锚图像和负样本之间的不同特征。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的对比学习的相关介绍的示意图;
图2是本申请一个实施例提供的计算机系统的示意图;
图3是本申请一个实施例提供的图像编码器的训练架构的示意图;
图4是本申请一个实施例提供的图像编码器的训练方法的流程图;
图5是本申请另一个实施例提供的图像编码器的训练架构的示意图;
图6是本申请另一个实施例提供的图像编码器的训练架构的示意图;
图7是本申请另一个实施例提供的图像编码器的训练方法的流程图;
图8是本申请另一个实施例提供的图像编码器的训练架构的示意图;
图9是本申请另一个实施例提供的图像编码器的训练方法的流程图;
图10是本申请另一个实施例提供的图像编码器的训练架构的示意图;
图11是本申请另一个实施例提供的图像编码器的训练架构的示意图;
图12是本申请另一个实施例提供的图像编码器的训练方法的流程图;
图13是本申请另一个实施例提供的图像编码器的训练架构的示意图;
图14是本申请一个实施例提供的全视野病理切片的搜索方法的流程图;
图15是本申请一个实施例提供的数据库的构建架构的示意图;
图16是本申请一个实施例提供的图像编码器的训练装置的结构框图;
图17是本申请一个实施例提供的图像编码器的训练装置的结构框图;
图18是本申请一个实施例提供的全视野病理切片的搜索装置的结构框图;
图19是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
全视野病理切片(Whole Slide Image,WSI):WSI是利用数字扫描仪对传统病理片进行扫描,采集出高分辨率的图像,再通过计算机将采集到的碎片化图像进行无缝拼接,制作得到的可视化数字图像。WSI可通过使用特定的软件实现任意比例的放大和缩小、任意方向的移动浏览等。通常一张WSI的数据量大小在几百个兆字节(MB)甚至几个吉字节(GB)之间。在本申请中,常将WSI简称为大图。相关技术在处理WSI时聚焦于对WSI内的局部组织区域的选取和分析,在本申请中常将WSI内的局部组织区域称为小图。
对比式学习(也称对比学习):请参考图1,深度学习根据是否进行数据的标记,可以分为监督学习和无监督学习。监督学习需要对海量的数据进行标记,而无监督学习允许自主发现数据中潜在的结构。无监督学习又可进一步划分为生成式学习和对比式学习。生成式学习以自编码器(例如GAN,VAE等等)这类方法为代表,由数据生成数据,使之在整体或者高级语义上与训练数据相近。例如,将训练集中多张马的图像通过生成模型学习马的特征,进而可以生成新的马的图像。
对比式学习着重于学习同类样本之间的共同特征,区分不同类样本之间的不同特征。在对比学习中,常通过样本三元组(锚图像、负样本、正样本)训练编码器。如图1所示,圆圈A为对比学习中的锚图像,圆圈A1为对比学习中的正样本,正方形B为对比学习中的负样本,对比学习目旨在通过训练得到的编码器,拉近圆圈A与圆圈A1的距离,拉远圆圈A与正方形B的距离。也即,训练得到的编码器支持对同类数据进行相似的编码,并使不同类的数据的编码结果尽可能的不同。在本申请中,将介绍通过对比学习训练图像编码器的方法。
接下来,介绍本申请的实施环境。
图2是根据一示例性实施例示出的计算机系统的示意图。如图2所示,图像编码器的训练设备21用于训练图像编码器,之后图像编码器的训练设备21将图像编码器发送至图像编码器的使用设备22,图像编码器的使用设备22利用图像编码器进行全视野病理切片的搜索。
图像编码器的训练阶段,如图2所示,采用对比学习的方式训练图像编码器,锚图像210与正样本之间的距离小于锚图像210与负样本之间的距离,在图2中,正样本包括经过聚类得到的正样本类簇211和正样本类簇212,负样本包括聚类得到的负样本类簇213和负样本类簇214,正样本类簇211的聚类中心与锚图像210之间的距离为L1,正样本类簇212的聚类中心与锚图像210之间的距离为L2,负样本类簇213的聚类中心与锚图像210之间的距离为L3,负样本类簇214的聚类中心与锚图像210之间的距离为L4。
在本申请中,将多个正样本经过聚类之后,得到多个正样本类簇,将与锚图像最相似的类簇的聚类中心与锚图像的距离设置为L2,将多个正样本中的其他正样本与锚图像的距离设置为L1(注:图2示出的L2仅为正样本类簇212的聚类中心与锚图像的距离,正样本类簇212的其他正样本与锚图像的距离为L1),根据重新定义出的多个正样本与锚图像之间的距离,拉近锚图像和多个正样本。相关技术中认为所有的正样本与锚图像之间的距离均相同。
在本申请中,将多个负样本经过聚类之后,得到多个负样本类簇,基于每个类簇的聚类中心与锚图像之间的相似度赋予每个类簇权重,根据类簇权重拉远锚图像与负样本,图2示出的距离L3和距离L4即为加权之后的距离,相关技术中认为所有的负样本与锚图像之间的距离均相同。
图像编码器的使用阶段,如图2所示,在本申请中图像编码器的使用阶段为全视野病理切片的搜索过程。
首先,将一张WSI进行裁剪得到多张组织图像(小图);然后,将多张组织图像进行聚类,得到多张关键图像,多张关键图像共同用于表征一张WSI。接着,针对其中一张关键图像(小图A),将小图A输入图像编码器,得到小图A的图像特征向量;最后,根据小图A的图像特征向量查询数据库,得到小图A1至小图AN,将小图A1至小图AN对应的WSI作为搜索结果,多张关键图像均作为查询图像从数据库中确定出WSI。
可选的,上述图像编码器的训练设备21和图像编码器的使用设备22可以是具有机器学习能力的计算机设备,比如,该计算机设备可以是终端或服务器。
可选的,上述图像编码器的训练设备21和图像编码器的使用设备22可以是同一个计算机设备,或者,图像编码器的训练设备21和图像编码器的使用设备22也可以是不同的计算机设备。并且,当图像编码器的训练设备21和图像编码器的使用设备22是不同的设备时,图像编码器的训练设备21和图像编码器的使用设备22可以是同一类型的设备,比如图像编码器的训练设备21和图像编码器的使用设备22可以都是服务器;或者,图像编码器的训练设备21和图像编码器的使用设备22也可以是不同类型的设备。上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、车载终端、智能电视、可穿戴设备、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在下文中将按照以下顺序进行详细介绍。
图像编码器的训练阶段——1;
-拉远锚图像与负样本的相关内容——1-1;
-第一权重损失函数的相关内容——1-1-1;
-第二权重损失函数的相关内容——1-1-2;
-拉近锚图像与正样本的相关内容——1-2;
-第一群组损失函数的相关内容——1-2-1;
-第二群组损失函数的相关内容——1-2-2;
-完整的损失函数的相关内容——1-3;
图像编码器的使用阶段(全视野病理切片的搜索过程)——2;
第一权重损失函数的相关内容——1-1-1:
图3示出了一个示例性实施例提供的图像编码器的训练框架,以该框架应用于图2所示的图像编码器的训练设备21进行举例说明。
图3示出了:多张第二样本组织图像301通过第一图像编码器305,生成多个特征向量307;第一样本组织图像302通过数据增强,得到第一图像303,第一图像303通过第一图像编码器305,生成第一特征向量308;第一样本组织图像302通过数据增强,得到第二图像304,第二图像304通过第二图像编码器306,生成第二特征向量309;基于第一特征向量308和第二特征向量309,生成第一子函数310;基于多个特征向量307和第二特征向量309,生成第二子函数311;基于第一子函数310和第二子函数311,生成第一权重损失函数312。
其中,第一权重损失函数312用于拉远锚图像和负样本的距离。
图4示出了一个示例性实施例提供的图像编码器的训练方法的流程图,以该方法应用于图3所示的图像编码器的训练框架进行举例说明,该方法包括:
步骤401,获取第一样本组织图像和多张第二样本组织图像,第二样本组织图像为对比学习中的负样本;
第一样本组织图像,在本申请中指用于训练图像编码器的图像;第二样本组织图像,在本申请中指用于训练图像编码器的图像。其中,第一样本组织图像与第二样本组织图像是不同的小图,即,第一样本组织图像与第二样本组织图像不是经过小图X的数据增强得到的小图X1和小图X2,而是分别为小图X和小图Y。
在本实施例中,将第二样本组织图像作为对比学习中的负样本,对比学习旨在拉近锚图像与正样本之间的距离,拉远锚图像与负样本之间的距离。
结合参考图5,图像X即为第一样本组织图像,负样本的子容器即容纳有多张第二样本组织图像的多个特征向量的容器。
步骤402,将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;第一图像为对比学习中的正样本;
数据增强也叫数据扩增,旨在不实质性的增加数据的情况下,让有限的数据产生更多的数据。在一个实施例中,数据增强的方法包括以下中的至少一种:
·旋转/反射变换:随机旋转图像一定角度,改变图像内容的朝向;
·翻转变换:沿着水平或者垂直方向翻转图像;
·缩放变换:按照一定的比例放大或者缩小图像;
·平移变换:在图像平面上对图像以一定方式进行平移;
·采用随机或人为定义的方式指定平移范围和平移步长,沿水平或竖直方向进行平移,改变图像的位置;
·尺度变换:对图像按照指定的尺度因子,进行放大或缩小;或者参照SIFT特征提取思想,利用指定的尺度因子对图像滤波构造尺度空间,改变图像内容的大小或模糊程度;
·对比度变换:在图像的HSV颜色空间,改变饱和度S和V亮度分量,保持色调H不变,对每个像素的S和V分量进行指数运算(指数因子在0.25到4之间),增加光照变化;
·噪声扰动:对图像的每个像素RGB进行随机扰动,常用的噪声模式是椒盐噪声和高斯噪声;
·颜色变化:在图像通道上添加随机扰动;
·输入图像随机选择一块区域涂黑。
在本实施例中,将第一样本组织图像进行数据增强,得到第一图像,将第一图像作为对比学习中的正样本。
步骤403,将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;第二图像为对比学习中的锚图像;
在本实施例中,将第一样本组织图像进行数据增强,得到第二图像,将第二图像作为对比学习中的锚图像。
在一个实施例中,将第二图像输入第二图像编码器,得到第一中间特征向量;将第一中间特征向量输入第一MLP(Multilayer Perceptron,多层感知机),得到第二特征向量。其中,第一MLP起到过渡作用,用于提高第二图像的表达能力。
步骤404,将多张第二样本组织图像输入第一图像编码器,得到多张第二样本组织图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第一特征向量的相似值,生成多个权重;
在本实施例中,第二样本组织图像为对比学习中的负样本,将多张第二样本组织图像的多个特征向量进行聚类,并根据多个聚类中心与第一特征向量的相似值,为多个特征向量赋予多个权重。
结合参考图5,负样本的子容器内存放有多张第二样本组织图像的多个特征向量,多张第二样本组织图像经过编码器f之后通过入栈操作放入存储队列,在存储队列中通过K均值聚类将队列中的多个特征向量聚类成Q个类别,进而构造Q个子队列,每个子队列的聚类中心表示为cj(j=1,…,Q)。之后,计算每个聚类中心与第一特征向量fk的相似度得分,用以判断潜在的错误的负样本。最后得到在存储队列内每个特征向量的权重计算如下:
其中,δ()是一个判别函数,若两个输入一致,则δ()输出1,否则δ()输出0。在本实施例中,δ()用于判断第j个类的聚类中心cj是否与fk相似,w为赋予的权重,w∈[0,1]。
在一个实施例中,多个聚类中心的权重的大小与聚类中心和第一特征向量的相似值呈负相关关系;针对多个聚类中心中的第j个聚类中心,第j个聚类中心所属类别包括的特征向量对应同一权重。在公式(1)中,针对与fk越相似的聚类中心所属类别对应的多个特征向量,赋予越小的权值w,针对与fk越不相似的聚类中心所属类别对应的多个特征向量,赋予越大的权值w。
示意性的,多个第二样本组织图像的多个特征向量聚类后得到3个类别,聚类中心分别为c1、c2和c3。其中,聚类中心c1所属类别包括特征向量1、特征向量2和特征向量3;聚类中心c2所属类别包括特征向量4、特征向量5和特征向量6;聚类中心c3所属类别包括特征向量7、特征向量8和特征向量9。
若聚类中心c1、c2和c3与fk的相似值按从大到小排列,则聚类中心c1、c2和c3所属类别对应的权重按从小到大排列。并且,特征向量1、2和3对应同一权重,特征向量4、5和6对应同一权重,特征向量7、8和9对应同一权重。
在一个实施例中,在第一样本组织图像属于第一训练批次中的第一样本组织图像的情况下,将多张第二样本组织图像的多个特征向量进行聚类,得到第一训练批次的多个聚类中心。
在另一个实施例中,在第一样本组织图像属于第n训练批次的第一样本组织图像的情况下,将第n-1训练批次对应的多个聚类中心,更新为第n训练批次对应的多个聚类中心,n为大于1的正整数。
可选的,针对第n-1训练批次的多个聚类中心中的第j个聚类中心,基于第n训练批次中属于第j类别的第一样本组织图像,更新第n-1训练批次的第j个聚类中心,得到第n训练批次的第j个聚类中心,i为正整数。
结合参考图5,根据第n-1训练批次的第j个聚类中心cj,更新得到第n训练批次的第j个聚类中心cj*,公式如下:
其中,cj*表示更新后的第n训练批次的第j个聚类中心;mc表示更新使用的权重,mc∈[0,1];代表第n训练批次的多张第一样本组织图像(多张图像X)的多个第一特征向量(多个fk)内属于第j类的特征集合。代表属于第j类的第n训练批次的多个第一特征向量(多个fk)内的第i个特征向量。用于计算属于第j类的第n训练批次的多个第一特征向量(多个fk)的特征均值。
在一个实施例中,在每个训练周期内,所有的聚类中心都将通过重新聚类存储库中的所有负样本特征向量来进行更新。
可以理解的是,将第n-1训练批次的多个聚类中心更新为第n训练批次的多个聚类中心,其目的在于,避免了负样本容器内的负样本特征向量与输入的第一样本组织图像的距离越来越远。
随着图像编码器的不断训练,图像编码器起到的拉远锚图像和负样本的效果越来越好。假设,图像编码器将前一训练批次的图像X与负样本拉远至第一距离,图像编码器将当前训练批次的图像X与负样本拉远至第二距离,第二距离大于第一距离,图像编码器将后一训练批次的图像X与负样本拉远至第三距离,第三距离大于第二距离,然而,若不更新负样本图像(即更新聚类中心),则第三距离与第二距离之间的增幅将小于第二距离与第一距离之间的增幅,图像编码器的训练效果将逐渐变差。若更新负样本图像(即更新聚类中心),则将适当拉近更新后的负样本图像与图像X的距离,平衡了图像编码器逐渐提升的拉远效果,使得图像编码器能维持长时间且次数较多的训练,最终训练得到的图像编码器也能具有更好的效果。
步骤405,基于第一特征向量和第二特征向量,生成用于表征锚图像和正样本之间误差的第一子函数;
在本实施例中,根据第一特征向量和第二特征向量,生成第一子函数,第一子函数用于表征锚图像和正样本之间的误差。
结合参考图5,第一子函数可表示为exp(gp2·fk/τ),可看出第一子函数由第一特征向量fk和第二特征向量gp2构成。
步骤406,基于第二特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第二子函数;
在本实施例中,根据第二特征向量和多个第二样本组织图像的多个特征向量,结合多个权重生成第二子函数,第二子函数用于表征锚图像和负样本之间的误差。
结合参考图5,第二子函数可表示为其中,表示第i个负样本特征向量(即第二样本组织图像的特征向量)的权重,表示第i个负样本特征向量,负样本容器内共包括K个负样本特征向量,gp2表示锚图像的特征向量(即第二特征向量)。
步骤407,基于第一子函数和第二子函数,生成第一权重损失函数;
结合参考图5,第一权重损失函数可表示为:
步骤408,基于第一权重损失函数,训练第一图像编码器和第二图像编码器;
根据第一权重损失函数,训练第一图像编码器和第二图像编码器。
步骤409,基于第二图像编码器,更新第一图像编码器。
基于第二图像编码器,更新第一图像编码器。可选的,根据第二图像编码器的参数,采用加权方式对第一图像编码器的参数进行更新。
示意性,对第一图像编码器的参数进行更新的公式如下:
θ′=m·θ′+(1-m)·θ; (4)
其中,公式(4)左边的θ′表示更新后的第一图像编码器的参数,公式(4)右边的θ′表示更新前的第一图像编码器的参数,θ表示第二图像编码器的参数,m为常量,可选的,m为0.99。
综上所述,通过为相关技术中认定的负样本赋予权重,在负样本中进一步区分出负样本的“负的程度”,使得对比学习使用的损失函数(也称为对比学习范式)能更精确地拉远锚图像与负样本,减少了潜在的假负样本的影响,进而能更好地训练图像编码器,训练得到的图像编码器能更好的区分锚图像和负样本之间的不同特征。
上述图3和图4示出了通过一个样本三元组训练第一图像编码器,样本三元组包括(锚图像、正样本、负样本)。在另一个实施例中,还可能同时通过多个样本三元组训练第一图像编码器,在下文将介绍通过两个样本三元组(锚图像1、正样本、负样本)(锚图像2、正样本、负样本)训练第一图像编码器,锚图像1和锚图像2是通过同一张小图分别进行数据增强得到的图像。需要说明的是,本申请并不限定具体构建样本三元组的个数。
第二权重损失函数的相关内容——1-1-2:
图6示出了一个示例性实施例提供的图像编码器的训练框架,以该框架应用于图1所示的图像编码器的训练设备21进行举例说明。
图6示出了:多张第二样本组织图像301通过第一图像编码器305,生成多个特征向量307;第一样本组织图像302通过数据增强,得到第一图像303,第一图像303通过第一图像编码器305,生成第一特征向量308;第一样本组织图像302通过数据增强,得到第二图像304,第二图像304通过第二图像编码器306,生成第二特征向量309;基于第一特征向量308和第二特征向量309,生成第一子函数310;基于多个特征向量307和第二特征向量309,生成第二子函数311;基于第一子函数310和第二子函数311,生成第一权重损失函数312。
与图3示出的训练框架区别在于,图6还示出了:第一样本组织图像302通过数据增强,得到第三图像313,第三图像313通过第三图像编码器314,得到第三特征向量315;第三特征向量315和第一特征向量308,生成第三子函数316;第三特征向量315和多个特征向量307,生成第四子函数317;第三子函数316和第四子函数317,生成第二权重损失函数318。
其中,第二权重损失函数318用于拉远锚图像与负样本的距离。
基于图4所示的图像编码器的训练方法,图7在图4的方法步骤的基础上,还进一步提供了步骤410至步骤414,以图7所示的方法应用于图6所示的图像编码器的训练框架进行举例说明,该方法包括:
步骤410,将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第三特征向量;第三图像为对比学习中的锚图像;
在本实施例中,将第一样本组织图像进行数据增强,得到第三图像,将第三图像作为对比学习中的锚图像。
在一个实施例中,将第三图像输入第三图像编码器,得到第二中间特征向量;将第二中间特征向量输入第二MLP,得到第三特征向量。其中,第二MLP起到过渡作用,用于提高第三图像的表达能力。
步骤411,基于第一特征向量和第三特征向量,生成用于表征锚图像和正样本之间误差的第三子函数;
在本实施例中,根据第一特征向量和第三特征向量,生成第三子函数,第三子函数用于表征锚图像和正样本之间的误差。
结合参考图5,第三子函数可表示为exp(gq1·fk/τ),可看出第三子函数由一特征向量fk和第三特征向量gq1构成。
步骤412,基于第三特征向量和多个特征向量,结合多个权重,生成用于表征锚图像和负样本之间误差的第四子函数;
在本实施例中,根据第三特征向量和多个第二样本组织图像的多个特征向量,结合多个权重生成第四子函数,第四子函数用于表征锚图像和负样本之间的误差。
结合参考图5,第四子函数可表示为其中,表示第i个负样本特征向量(即第二样本组织图像的特征向量)的权重,表示第i个负样本特征向量,负样本容器内共包括K个负样本特征向量,gq1表示锚图像的特征向量(即第三特征向量)。
步骤413,基于第三子函数和第四子函数,生成第二权重损失函数;
结合参考图5,第二权重损失函数可表示为:
步骤414,基于第二权重损失函数,训练第一图像编码器和第三图像编码器。
根据第二权重损失函数,训练第一图像编码器和第三图像编码器。
在一个实施例中,结合上述步骤308得到的第一权重损失函数,可构建得到完整的权重损失函数:
可选的,在上述步骤409中,“基于第二图像编码器,更新第一图像编码器”,可以被替换为“根据第二图像编码器和第三图像编码器之间共享的参数,采用加权方式对第一图像编码器的参数进行更新”,即步骤409中的公式(4)的θ表示第二图像编码器和第三图像编码器之间共享的参数,通过第二图像编码器和第三图像编码器之间共享的参数,缓慢更新第一图像编码器。
综上所述,上述方案构建了两个样本三元组(第一图像、第二图像、多个第二样本组织图像)、(第三图像、第二图像、多个第二样本组织图像),其中,第一图像为锚图像1,第三图像为锚图像2,进一步提高了训练得到的图像编码器的编码效果,并且构建得到的完整的权重损失函数相比于第一权重损失函数或第二权重损失函数将更加鲁棒。
在上述已经完整介绍了基于权重损失函数,训练图像编码器的内容,其中,图像编码器包括第一图像编码器、第二图像编码器和第三图像编码器。在下文,还将介绍基于群组损失函数,对图像编码器进行训练。
第一群组损失函数的相关内容——1-2-1:
图8示出了一个示例性实施例提供的图像编码器的训练框架,以该框架应用于图1所示的图像编码器的训练设备21进行举例说明。
图8示出了:第一样本组织图像801通过数据增强得到第二图像802,第二图像802通过第二图像编码器804得到第四特征向量806,在同时输入多张第一样本组织图像801的情况下,多个第四特征向量将被区分出多个第四特征向量中的正样本向量807和多个第四特征向量中的负样本向量808;第一样本组织图像801通过数据增强得到第三图像803,第三图像803通过第三图像编码器805得到第五特征向量809;基于多个第四特征向量中的正样本向量807和第五特征向量809,生成第五子函数810;基于多个第四特征向量中的负样本向量808和第五特征向量809,生成第六子函数811;基于第五子函数810和第六子函数811,构建得到第一群组损失函数812;
其中,第一群组损失函数812用于拉近锚图像与正样本之间的距离。
图9示出了一个示例性实施例提供的图像编码器的训练方法的流程图,以该方法应用于图8所示的图像编码器的训练框架进行举例说明,该方法包括:
步骤901,获取第一样本组织图像;
第一样本组织图像,在本申请中指用于训练图像编码器的图像,即WSI内的局部区域图像(小图)。
结合参考图10,图像X即为第一样本组织图像。
步骤902,将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第四特征向量;
在本实施例中,将第一样本组织图像进行数据增强,得到第二图像,通过第二图像编码器对第二图像进行特征提取,得到第四特征向量。
在一个实施例中,将第二图像输入第二图像编码器,得到第一中间特征向量;将第一中间特征向量输入第三MLP,得到第四特征向量。其中,第三MLP起到过渡作用,用于提高第二图像的表达能力。
步骤903,将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第五特征向量;
在本实施例中,将第一样本组织图像进行数据增强,得到第二图像,通过第二图像编码器对第二图像进行特征提取,得到第四特征向量。
在一个实施例中,将第三图像输入第三图像编码器,得到第二中间特征向量;将第二中间特征向量输入第四MLP,得到第五特征向量。其中,第四MLP起到过渡作用,用于提高第三图像的表达能力。
步骤904,将第四特征向量确定为用于对比学习的对比向量,将第五特征向量确定为用于对比学习的锚向量;
在本实施例中,将第四特征向量确定为用于对比学习的对比向量,将第五特征向量确定为用于对比学习的锚向量。对比学习的对比向量可以是正样本向量,也可以是负样本向量。
步骤905,将不同的第一样本组织图像的多个第四特征向量进行聚类,得到多个第一聚类中心;
在一个实施例中,同时输入多张不同的第一样本组织图像,将多张第一样本组织图像的多个第四特征向量进行聚类,得到多个第一聚类中心。可选的,多张不同的第一样本组织图像为同一训练批次的样本组织图像。
结合参考图10,其示出了不同的第一样本组织图像的第四特征向量的多个第一聚类中心中的一个第一聚类中心。
步骤906,将多个第一聚类中心中与第五特征向量之间的相似值最大的特征向量,确定为多个第四特征向量中的正样本向量;
步骤907,将第一其余特征向量确定为多个第四特征向量中的负样本向量;
其中,第一其余特征向量指多个第四特征向量中除与第五特征向量之间的相似值最大的特征向量之外的特征向量。
步骤908,基于第五特征向量和多个第四特征向量中的正样本向量,生成第五子函数;
步骤909,基于第五特征向量和多个第四特征向量中的负样本向量,生成第六子函数;
步骤910,基于第五子函数和第六子函数,生成第一群组损失函数;
在一个实施例中,第一群组损失函数表示为:
步骤911,基于第一群组损失函数,训练第二图像编码器和第三图像编码器;将第三图像编码器确定为最终训练得到的图像编码器。
根据第一群组损失函数,即可训练第二图像编码器和第三图像编码器。
在本实施例中,将第三图像编码器确定为最终训练得到的图像编码器。
综上所述,通过进一步区分相关技术中认定的正样本,在正样本中进一步区分出正样本的“正的程度”,使得对比学习使用的损失函数(也称为对比学习范式)能更精确地拉近锚图像与正样本,进而能更好地训练图像编码器,训练得到的图像编码器能更好的学习锚图像和正样本之间的共同特征。
上述图8和图9示出了通过一个特征向量样本三元组训练图像编码器,对比学习样本三元组包括(锚向量、正向量、负向量)。在另一个实施例中,还可能同时通过多个特征向量样本三元组训练第一图像编码器,在下述将介绍同时通过两个特征向量样本三元组(锚向量1、正向量1、负向量1)(锚向量2、正向量2、负向量2)训练图像编码器,其中,锚向量1和锚向量2是第一样本组织图像分别进行数据增强,并分别通过不同的图像编码器以及不同的MLP得到的不同的向量。需要说明的是,本申请并不限定具体构建特征向量样本三元组的个数。
第二群组损失函数的相关内容——1-2-2:
图11示出了一个示例性实施例提供的图像编码器的训练框架,以该框架应用于图1所示的图像编码器的训练设备21进行举例说明。
图11示出了:第一样本组织图像801通过数据增强得到第二图像802,第二图像802通过第二图像编码器804得到第四特征向量806,在同时输入多张第一样本组织图像801的情况下,多个第四特征向量将被区分出多个第四特征向量中的正样本向量807和多个第四特征向量中的负样本向量808;第一样本组织图像801通过数据增强得到第三图像803,第三图像803通过第三图像编码器805得到第五特征向量809;基于多个第四特征向量中的正样本向量807和第五特征向量809,生成第五子函数810;基于多个第四特征向量中的负样本向量808和第五特征向量809,生成第六子函数811;基于第五子函数810和第六子函数811,构建得到第一群组损失函数812。
与图8所示的训练框架区别在于,图11还示出了在同时输入多张第一样本组织图像801的情况下,多个第五特征向量将被区分出多个第五特征向量中的正样本向量813和多个第五特征向量中的负样本向量814;基于多个第五特征向量中的正样本向量813和第四特征向量806,生成第七子函数815;基于多个第五特征向量中的负样本向量814和第四特征向量806,生成第八子函数816;基于第七子函数815和第八子函数816,构建得到第二群组损失函数817;
其中,第二群组损失函数817用于拉近锚图像与正样本的距离。
基于图9所示的图像编码器的训练方法,图12在图8的方法步骤的基础上,还进一步提供了步骤912至步骤919,以图11所示的方法应用于图10所示的图像编码器的训练框架进行举例说明,该方法包括:
步骤912,将第五特征向量确定为用于对比学习的对比向量,将第四特征向量确定为用于对比学习的锚向量;
在本实施例中,将第五特征向量确定为用于对比学习的对比向量,将第四特征向量确定为用于对比学习的锚向量。对比学习的对比向量可以是正样本向量,也可以是负样本向量。
步骤913,将不同的第一样本组织图像的多个第五特征向量进行聚类,得到多个第二聚类中心;
在一个实施例中,同时输入多张不同的第一样本组织图像,将多张第一样本组织图像的多个第五特征向量进行聚类,得到多个第二聚类中心。可选的,多张不同的第一样本组织图像为同一训练批次的样本组织图像。
结合参考图10,其示出了不同的第一样本组织图像的第五特征向量的多个第二聚类中心中的一个第二聚类中心。
步骤914,将多个第二聚类中心中与第四特征向量之间的相似值最大的特征向量,确定为多个第五特征向量中的正样本向量;
步骤915,将第二其余特征向量确定为多个第五特征向量中的负样本向量;
其中,第二其余特征向量指多个第五特征向量中除与第四特征向量之间的相似值最大的特征向量之外的特征向量。
步骤916,基于第四特征向量和多个第五特征向量中的正样本向量,生成第七子函数;
步骤917,基于第四特征向量和多个第五特征向量中的负样本向量,生成第八子函数;
步骤918,基于第七子函数和第八子函数,生成第二群组损失函数;
在一个实施例中,第二群组损失函数表示为:
步骤919,基于第二群组损失函数,训练第二图像编码器和第三图像编码器;将第二图像编码器确定为最终训练得到的图像编码器。
根据第二群组损失函数,训练第二图像编码器和第三图像编码器;将第二图像编码器确定为最终训练得到的图像编码器。
在一个实施例中,结合上述步骤910得到的第一群组损失函数,可构建得到完整的群组损失函数;
可选的,在步骤919之后,还包括步骤920,根据第二图像编码器和第三图像编码器之间共享的参数,采用加权方式对第一图像编码器的参数进行更新
示意性,对第一图像编码器的参数进行更新的公式如下:
θ′=m·θ′+(1-m)·θ; (10)
其中,公式(10)左边的θ′表示更新后的第一图像编码器的参数,公式(10)右边的θ′表示更新前的第一图像编码器的参数,θ表示第二图像编码器和第三图像编码器共享的参数,m为常量,可选的,m为0.99。
综上所述,通过构建两个特征向量样本三元组(第五特征向量、多个第四特征向量中的正向量、多个第四特征向量中的负向量)、(第四特征向量、多个第五特征向量中的正向量、多个第五特征向量中的负向量),进一步提高了训练得到的图像编码器的编码效果,并且构建得到的完整的群组损失函数相比于第一群组损失函数或第二群组损失函数将更加鲁棒。
完整的损失函数的相关内容——1-3:
由上述图3至图7,可实现通过权重损失函数对第一图像编码器进行训练;由上述图8至图12,可实现通过群组损失函数对第一图像编码器进行训练。
在一个可选的实施例中,可通过权重损失函数和群组损失函数共同对第一图像编码器进行训练,请参考图13,其示出了本申请一个示例性实施例提供的第一图像编码器的训练架构的示意图。
权重损失函数的相关部分:
图像X进行数据增强得到图像Xk,图像Xk通过编码器f得到第一特征向量fk;图像X进行数据增强得到图像Xp,图像Xp通过编码器h得到第一中间特征向量hp,第一中间特征向量hp通过第一MLP得到第二特征向量gp2;图像X进行数据增强得到图像Xq,图像Xq通过编码器h得到第二中间特征向量hq,第一中间特征向量hq通过第二MLP得到第三特征向量gp1;
多个第二样本组织图像输入编码器f并通过入栈操作放入存储队列,在存储队列中通过K均值聚类将队列中的负样本特征向量聚类成Q个类别,进而构造Q个子队列。基于每个聚类中心与fk的相似值,为每个聚类中心赋予权重;
基于Q个聚类中心和第二特征向量gp2构建用于表征负样本和锚图像的子函数;基于第一特征向量fk和第二特征向量gp2构建用于表征正样本和锚图像的子函数;结合两个子函数形成第一权重损失函数;
基于Q个聚类中心和第三特征向量gp1构建用于表征负样本和锚图像的子函数;基于第一特征向量fk和第三特征向量gp1构建用于表征正样本和锚图像的子函数;结合两个子函数形成第二权重损失函数;
基于第一权重损失函数和第二权重损失函数结合得到的权重损失函数,训练第一图像编码器、第二图像编码器和第三图像编码器,并通过第二图像编码器和第三图像编码器共享的参数,缓慢更新第一图像编码器的参数。
群组损失函数的相关部分:
图像X进行数据增强得到图像Xp,图像Xp通过编码器h得到第一中间特征向量hp,第一中间特征向量hp通过第三MLP得到第四特征向量gp1;图像X进行数据增强得到图像Xq,图像Xq通过编码器h得到第二中间特征向量hq,第一中间特征向量hq通过第四MLP得到第五特征向量gq2;
在同一训练批次中,聚合多张第一样本组织图像的多个第四特征向量gp1,得到多个第一聚类中心;将多个第一聚类中心中与一张第一样本组织图像的第五特征向量gq2距离最近的第一聚类中心确定为正样本向量;将多个第一聚类中心的其余特征向量确定为负样本向量;基于正样本向量和第五特征向量gq2构建用于表征正样本向量和锚向量之间误差的子函数;基于负样本向量和第五特征向量gq2构建用于表征负样本向量和锚向量之间误差的子函数;结合两个子函数,形成第一群组损失函数;
在同一训练批次中,聚合多张第一样本组织图像的多个第五特征向量gq2,得到多个第二聚类中心;将多个第二聚类中心中与一张第一样本组织图像的第四特征向量gp1距离最近的第二聚类中心确定为正样本向量;将多个第二聚类中心的其余特征向量确定为负样本向量;基于正样本向量和第四特征向量gp1构建用于表征正样本向量和锚向量之间误差的子函数;基于负样本向量和第四特征向量gp1构建用于表征负样本向量和锚向量之间误差的子函数;结合两个子函数,形成第二群组损失函数;
基于第一群组损失函数和第二群组损失函数结合得到的群组损失函数,训练第二图像编码器和第三图像编码器。
结合权重损失函数与群组损失函数的相关部分:
可以理解的是,基于权重损失函数与基于群组损失函数对图像编码器进行训练,二者均是基于聚类确定出相似值,重新赋予正负样本假设,上述权重损失函数用于修正相关技术中的负样本的正负样本假设,上述群组损失函数用于修正相关技术中的正样本的正负样本假设。
在图13所示的训练架构中,权重损失函数和群组损失函数之间通过超参数结合,表示为:
综上所述,通过权重损失函数和群组损失函数共同构建得到最终的损失函数,相比于单个权重损失函数或单个群组损失函数,最终的损失函数将更加鲁棒,最终训练得到的图像编码器将具有更好的编码效果,通过图像编码器特征提取得到的小图的特征能更好的表征小图。
图像编码器的使用阶段——2:
上文已介绍完毕图像编码器的训练阶段,在下文将开始介绍图像编码器的使用阶段,在本申请提供的一个实施例中,图像编码器将用于WSI图像搜索的场景。图14示出了本申请一个示例性实施例提供的全视野病理切片的搜索方法的流程图,以该方法应用于图1所示的图像编码器的使用设备22进行举例说明,此时图像编码器的使用设备22也可称为全视野病理切片的搜索设备。
步骤1401,获取全视野病理切片,以及将全视野病理切片裁剪为多张组织图像;
全视野病理切片(WSI),WSI是利用数字扫描仪对传统病理片进行扫描,采集出高分辨率的图像,在通过计算机将采集到的碎片化图像进行无缝拼接,制作得到的可视化数字图像。在本申请中常将WSI称为大图。
组织图像,指WSI内的局部组织区域,在本申请中常将组织图像称为小图。
在一个实施例中,在WSI的预处理阶段,通过阈值技术提取WSI内的前景组织区域,然后基于滑动窗口技术将WSI的前景组织区域裁剪成多张组织图像。
步骤1402,通过图像编码器,生成多张组织图像的多个图像特征向量;
在一个实施例中,通过上述图4所示的方法实施例训练得到的第一图像编码器,生成多张组织图像的多个图像特征向量;此时,第一图像编码器是基于第一权重损失函数训练得到的。或,
通过上述图7所示的方法实施例训练得到的第一图像编码器,生成多张组织图像的多个图像特征向量;此时,第一图像编码器是基于第一权重损失函数和第二权重损失函数训练得到的;或,
通过上述图9所示的方法实施例训练得到的第三图像编码器,生成多张组织图像的多个图像特征向量;此时,第三图像编码器是基于第一群组损失函数训练得到的;或,
通过上述图12所示的方法实施例训练得到的第二图像编码器或第三图像编码器,生成多张组织图像的多个图像特征向量;此时,第二图像编码器与第三图像编码器均是基于第一群组损失函数和第二群组损失函数训练得到的;或,
通过上述图13所示的实施例训练得到的第一图像编码器,生成多张组织图像的多个图像特征向量;此时,第一图像编码器是基于权重损失函数和群组损失函数训练得到的。
步骤1403,通过对多个图像特征向量进行聚类,从多张组织图像中确定出多张关键图像;
在一个实施例中,将多张组织图像的多个图像特征向量进行聚类,得到多个第一类簇;将多个第一类簇的多个聚类中心分别确定为多张关键图像的多个图像特征向量,即从多张组织图像中确定出多张关键图像。
在另一个实施例中,将多张组织图像的多个图像特征向量进行聚类,得到多个第一类簇,之后,将再次聚类。针对多个第一类簇中的目标第一类簇,基于目标第一类簇对应的多张组织图像在各自所属的全视野病理切片的位置特征,聚类得到多个第二类簇;将目标第一类簇包含的多个第二类簇对应的多个聚类中心确定为关键图像的图像特征向量;其中,目标第一类簇为多个第一类簇中的任意一个。
示意性的,聚类采用K-means聚类的方法,第一次聚类时,多个图像特征向量fall将聚类得到K1个不同的类别,表示为Fi,i=1,2,…,K1。第二次聚类时,在每个类簇Fi内,以多张组织图像的空间坐标信息作为特征,进一步聚类为K2个类别,其中,K2=round(R·N),R是比例参数,可选的,R为20%;N是类簇Fi中的小图数量。基于上述两重聚类,最终将得到K1*K2个聚类中心,将K1*K2个聚类中心对应的组织图像作为K1*K2张关键图像,并且,K1*K2张关键图像作为WSI的全局表征。在一些实施例中,关键图像常称为马赛克图像。
步骤1404,基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选组织图像;
由上述步骤1404可得,WSI={P1,P2,…,Pi,…,Pk},其中Pi和k分别代表第i张关键图像的特征向量和WSI内关键图像的总数,i、k均为正整数。在搜索WSI时,每张关键图像将逐一作为查询图像产生候选图像包,共产生k个候选图像包,表示为其中第i个候选图像包 bij和t分别代表第j张候选组织图像和内候选组织图像的总数,j为正整数。
步骤1405,根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;
由上述步骤1405可得,共产生了k个候选图像包,为提升WSI的搜索速度和优化最终的搜索结果,还需筛选k个候选图像包。在一个实施例中,根据候选图像包与WSI的相似度和/或候选图像包内具有的诊断类别,筛选k个候选图像包,得到多个目标图像包。具体的筛选步骤将在下文展开详细介绍。
步骤1406,将多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。
在筛选出多个目标图像包内之后,将目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。可选的,目标图像包内的多个目标组织图像可能来自同一张全视野病理切片,也可能来自多张不同的全视野病理切片。
综上所述,首先将WSI裁剪得到多张小图,将多张小图通过图像编码器得到多张小图的多个图像特征向量;然后,将多个图像特征向量进行聚类,将聚类中心对应的小图作为关键图像;接着,查询每张关键图像,得到候选图像包;然后,筛选候选图像包,得到目标图像包;最后,将候选图像包内的至少一张小图对应的WSI作为最终的搜索结果;该方法提供了一种以WSI(大图)搜索WSI(大图)的方式,并且,其中提及的聚类步骤和筛选步骤能大大减少处理的数据量,提高了搜索的效率。并且,本实施例提供的以WSI(大图)搜索WSI(大图)的方式无需训练过程,可实现快速的搜索匹配。
在相关技术中,采用小图表征大图的方式往往采用人工挑选的方式,病理学家根据WSI内每个小图的颜色和纹理特征(比如,来自各种颜色空间的直方图统计信息),挑选出核心小图。然后将这些核心小图的特征积累为WSI的全局表征,接着采用支持向量机(Support Vector Machine,SVM)将多张WSI的WSI全局表征分为两类主要的疾病类型。在搜索阶段,一旦确定了待搜索WSI的疾病类型,即可以在具有相同疾病类型的WSI库内进行图像搜索。
基于图14所示的可选实施例,步骤1405可替换为1405-1。
1405-1,根据候选图像包具有的诊断类别数量,筛选多个候选图像包,得到多个目标图像包。
在一个实施例中,针对多个候选图像包中的第一候选图像包,基于第一候选图像包中的至少一张候选组织图像与关键图像的余弦相似度、至少一个诊断类别在数据库中的发生概率和至少一张候选组织图像的诊断类别,计算候选图像包的熵值,熵值用于衡量第一候选图像包对应的诊断类别的数量,第一候选图像包为多个候选图像包中的任意一个;
最终,筛选多个候选图像包,得到熵值低于熵值阈值的多个目标图像包。
示意性的,熵值的计算公式如下:
其中,Enti代表第i个候选图像包的熵值,ui代表在第i个候选图像包内具有的诊断类别的总数,pm代表第i个候选图像包内第m个诊断类型发生的概率,m为正整数。
可以理解的是,熵值用于表示第i个候选图像包的不确定度,熵值越大表示第i个候选图像包的不确定性越高,第i个候选图像包内的候选组织图像在诊断类别维度的分布越紊乱,也即第i张关键图像的不确定性越高,第i张关键图像越无法用于表征WSI。若第i个候选图像包内的多张候选组织图像具有相同的诊断结果,则候选图像包的熵值将为0,第i张关键图像表征WSI的效果最佳。
在公式(12)中,pm的计算方式如下:
其中,yj代表第i个候选图像包内第j个候选组织图像的诊断类别;δ()是判别函数,用于判断第j个候选组织图像的诊断类别是否和第m个诊断类别一致,如果一致输出1,否则输出0;是第j个候选组织图像的权值,是根据至少一个诊断类别在数据库中的发生概率计算得到的;dj代表在第i个候选包内第j个候选组织图像与第i张关键图像之间的余弦相似度,(dj+1)/2用于保证取值范围在0到1之间。
为方便理解,公式(13)可以把看作一个权值分数vj,用来表征第i个候选图像包内的第j个候选组织图像。公式(13)的分母代表第i个候选图像包具有的总分数,公式(13)的分子代表第i个候选图像包内具有的第m个诊断类别的分数之和。
综上所述,剔除熵值低于预设的熵值阈值的候选图像包,即筛选出稳定性较高的候选图像包,进一步减少了以WSI搜WSI过程中处理的数据量,能提高搜索效率。
基于图14所示的可选实施例,步骤1405可替换为1405-2。
1405-2,根据多张候选组织图像与关键图像的相似度,筛选多个候选图像包,得到多个目标图像包。
在一个实施例中,针对多个候选图像包中的第一候选图像包,将第一候选图像包中的至少一个候选组织图像按照与关键图像的余弦相似度从大到小的顺序进行排列;获取第一候选图像包的前m个候选组织图像;计算前m个候选组织图像对应的m个余弦相似度;其中,第一候选图像包为多个候选图像包中的任意一个;将多个候选图像包的前m个候选组织图像的m个余弦相似度的平均值,确定为第一平均值;将包含的至少一个候选组织图像的余弦相似度的平均值大于第一平均值的候选图像包,确定为目标图像包,得到多个目标图像包,m为正整数。
其中,和k分别代表第i个候选图像包和多个候选图像包的总数,AveTop表示第i个候选图像包内前m个余弦相似度的平均值,η为第一平均值,η作为评估准则用于删除平均余弦相似度小于η的候选图像包,然后可以获得多个目标图像包,多个目标图像包表示为: 和k″分别表示第i个目标图像包和多个目标图像包的总数,k″为正整数。
综上所述,剔除与关键图像的相似度低于第一平均值的候选图像包,即筛选出候选组织图像与关键图像相似度较高的候选图像包,进一步减少了以WSI搜WSI过程中处理的数据量,能提高搜索效率。
需要说明的是,上述1405-1和1405-2可以单独执行筛选多个候选图像包的步骤,也可以联合执行筛选多个候选图像包的步骤,此时,既可以先执行1405-1再执行1405-2,也可以先执行1405-2再执行1405-1,本申请对此不作限制。
基于图14所示的方法实施例中,步骤1404中涉及通过数据库查询候选图像包,接下来将介绍数据库的构建过程。请参考图15,其示出本申请一个示例性实施例提供的数据库的构建框架的示意图。
以一张WSI进行举例介绍:
首先,WSI 1501通过裁剪得到多张组织图像1502;可选的,裁剪方法包括:在WSI的预处理阶段,通过阈值技术提取WSI内的前景组织区域,然后基于滑动窗口技术将WSI的前景组织区域裁剪成多张组织图像。
然后,将多张组织图像1502输入图像编码器1503,对多张组织图像1502进行特征提取,得到多张组织图像的多个图像特征向量1505;
最后,基于多张组织图像的多个图像特征向量1505,进行多张组织图像1502的选择(即进行小图的选择1506)。可选的,进行小图的选择1506包括两重聚类,第一重聚类即为基于特征聚类1506-1,第二重聚类即为基于坐标聚类1506-2。
-在基于特征聚类1506-1中,采用K-means聚类将多张组织图像的多个图像特征向量1505聚类为K1个类别,对应得到K1个聚类中心,图15示出了其中一个聚类中心对应的小图;
-在基于特征聚类1506-2中,针对K1个类别中的任意一个,采用K-means聚类将该类别中包含的多个特征向量聚类为K2个类别,对应得到K2个聚类中心,图15示出了其中一个聚类中心对应的小图;
-将经过两重聚类得到的K1*K2个聚类中心对应的小图,作为具有表征性的小图1506-3,图15示出了其中一个聚类中心对应的小图;
-将所有具有表征性的小图作为WSI的小图,用于表征WSI,基于此,即构建完成一张WSI的多张小图。
综上所述,数据库的构建和以WSI搜索WSI的过程较为类似,其目的在于确定出用于表征一张WSI的多张小图,以支持在搜索过程中通过匹配小图,实现大图的匹配。
在一个可选的实施例中,上述图像编码器的训练思想还可应用于其他图像的领域。通过样本星域图像(小图),星域图像来自于星空图像(大图),星域图像指示星空图像中的局部区域,比如,星空图像为第一范围的星空的图像,星域图像为第一范围内的子范围的图像。
图像编码器的训练阶段包括:
获取第一样本星域图像和多张第二样本星域图像,第二样本星域图像为对比学习中的负样本;将第一样本星域图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;第一图像为对比学习中的正样本;将第一样本星域图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;第二图像为对比学习中的锚图像;将多张第二样本星域图像输入第一图像编码器,得到多张第二样本星域图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第一特征向量的相似值,生成多个权重;基于第一特征向量和第二特征向量,生成用于表征锚图像和正样本之间误差的第一子函数;基于第二特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第二子函数;基于第一子函数和第二子函数,生成第一权重损失函数;基于第一权重损失函数,训练第一图像编码器和第二图像编码器;基于第二图像编码器,更新第一图像编码器。
同理,星域图像的图像编码器还可采用其他与上述样本组织图像的图像编码器类似的训练方法,此处不再赘述。
图像编码器的使用阶段包括:
获取星空图像,以及将星空图像裁剪为多张星域图像;通过图像编码器,生成多张星域图像的多个图像特征向量;通过对多个图像特征向量进行聚类,从多张星域图像中确定出多张关键图像;基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选星域图像;根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;将多个目标图像包内的多个目标星域图像所属的星空图像,确定为最终的搜索结果。
在另一个可选的实施例中,上述图像编码器的训练思想还可应用于地理图像领域,通过样本地形图像(小图)训练图像编码器,地形图像来自于地貌图像(大图),地形图像指示地貌图像中的局部区域,比如,地貌图像为卫星拍摄到的第二范围的地貌的图像,地形图像为第二范围内的子范围的图像。
图像编码器的训练阶段包括:
获取第一样本地形图像和多张第二样本地形图像,第二样本地形图像为对比学习中的负样本;将第一样本地形图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;第一图像为对比学习中的正样本;将第一样本地形图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;第二图像为对比学习中的锚图像;将多张第二样本地形图像输入第一图像编码器,得到多张第二样本地形图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第一特征向量的相似值,生成多个权重;基于第一特征向量和第二特征向量,生成用于表征锚图像和正样本之间误差的第一子函数;基于第二特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第二子函数;基于第一子函数和第二子函数,生成第一权重损失函数;基于第一权重损失函数,训练第一图像编码器和第二图像编码器;基于第二图像编码器,更新第一图像编码器。
同理,地形图像的图像编码器还可采用其他与上述样本组织图像的图像编码器类似的训练方法,此处不再赘述。
图像编码器的使用阶段包括:
获取地貌图像,以及将地貌图像裁剪为多张地形图像;通过图像编码器,生成多张地形图像的多个图像特征向量;通过对多个图像特征向量进行聚类,从多张地形图像中确定出多张关键图像;基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选地形图像;根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;将多个目标图像包内的多个目标地形图像所属的地貌图像,确定为最终的搜索结果。
图16是本申请一个示例性实施例提供的图像编码器的训练装置的结构框图,该装置包括:
获取模块1601,用于获取第一样本组织图像和多张第二样本组织图像,第二样本组织图像为对比学习中的负样本;
处理模块1602,用于将第一样本组织图像进行数据增强,得到第一图像;将第一图像输入第一图像编码器,得到第一特征向量;第一图像为对比学习中的正样本;
处理模块1602,还用于将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第二特征向量;第二图像为对比学习中的锚图像;
处理模块1602,还用于将多张第二样本组织图像输入第一图像编码器,得到多张第二样本组织图像的多个特征向量;将多个特征向量进行聚类,得到多个聚类中心;基于多个聚类中心与第一特征向量的相似值,生成多个权重;
生成模块1603,用于基于第一特征向量和第二特征向量,生成用于表征锚图像和正样本之间误差的第一子函数;基于第二特征向量和多个特征向量,结合多个权重生成用于表征锚图像和负样本之间误差的第二子函数;基于第一子函数和第二子函数,生成第一权重损失函数;
训练模块1604,用于基于第一权重损失函数,训练第一图像编码器和第二图像编码器;基于第二图像编码器,更新第一图像编码器。
在一个可选的实施例中,处理模块1602,还用于在第一样本组织图像属于第一训练批次中的第一样本组织图像的情况下,将多张第二样本组织图像的多个特征向量进行聚类,得到第一训练批次的多个聚类中心。
在一个可选的实施例中,处理模块1602,还用于在第一样本组织图像属于第n训练批次的第一样本组织图像的情况下,将第n-1训练批次对应的多个聚类中心,更新为第n训练批次对应的多个聚类中心,n为大于1的正整数。
在一个可选的实施例中,处理模块1602,还用于针对第n-1训练批次的多个聚类中心中的第j个聚类中心,基于第n训练批次中属于第j类别的第一样本组织图像,更新第n-1训练批次的第j个聚类中心,得到第n训练批次的第j个聚类中心,i为正整数。
在一个可选的实施例中,权重的大小与聚类中心和第一特征向量的相似值呈负相关关系;针对多个聚类中心中的第j个聚类中心,第j个聚类中心所属类别包括的特征向量对应同一权重。
在一个可选的实施例中,处理模块1602,还用于将第二图像输入第二图像编码器,得到第一中间特征向量;将第一中间特征向量输入第一多层感知机MLP,得到第二特征向量。
在一个可选的实施例中,训练模块1604,还用于根据第二图像编码器的参数,采用加权方式对第一图像编码器的参数进行更新。
在一个可选的实施例中,处理模块1602,还用于将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第三特征向量;第三图像为对比学习中的锚图像。
在一个可选的实施例中,生成模块1603,还用于基于第一特征向量和第三特征向量,生成用于表征锚图像和正样本之间误差的第三子函数;基于第三特征向量和多个特征向量,结合多个权重,生成用于表征锚图像和负样本之间误差的第四子函数;基于第三子函数和第四子函数,生成第二权重损失函数。
在一个可选的实施例中,训练模块1604,还用于基于第二权重损失函数,训练第一图像编码器和第三图像编码器。
在一个可选的实施例中,处理模块1602,还用于将第三图像输入第三图像编码器,得到第二中间特征向量;将第二中间特征向量输入第二MLP,得到第三特征向量。
在一个可选的实施例中,训练模块1604,还用于根据第二图像编码器和第三图像编码器之间共享的参数,采用加权方式对第一图像编码器的参数进行更新。
综上所述,通过为相关技术中认定的负样本赋予权重,在负样本中进一步区分出负样本的“负的程度”,使得对比学习使用的损失函数(也称为对比学习范式)能更精确地拉远锚图像与负样本,减少了潜在的假负样本的影响,进而能更好地训练图像编码器,训练得到的图像编码器能更好的区分锚图像和负样本之间的不同特征,通过图像编码器特征提取得到的小图的特征能更好的表征小图。
图17是本申请一个示例性实施例提供的图像编码器的训练装置的结构框图,该装置包括:
获取模块1701,用于获取第一样本组织图像;
处理模块1702,用于将第一样本组织图像进行数据增强,得到第二图像;将第二图像输入第二图像编码器,得到第四特征向量;
处理模块1702,还用于将第一样本组织图像进行数据增强,得到第三图像;将第三图像输入第三图像编码器,得到第五特征向量;
确定模块1703,用于将第四特征向量确定为用于对比学习的对比向量,将第五特征向量确定为用于对比学习的锚向量;
聚类模块1704,用于将不同的第一样本组织图像的多个第四特征向量进行聚类,得到多个第一聚类中心;将多个第一聚类中心中与第五特征向量之间的相似值最大的特征向量,确定为多个第四特征向量中的正样本向量;将第一其余特征向量确定为多个第四特征向量中的负样本向量,其中,第一其余特征向量指多个第四特征向量中除与第五特征向量之间的相似值最大的特征向量之外的特征向量;
生成模块1705,用于基于第五特征向量和多个第四特征向量中的正样本向量,生成第五子函数;基于第五特征向量和多个第四特征向量中的负样本向量,生成第六子函数;基于第五子函数和第六子函数,生成第一群组损失函数;
训练模块1706,用于基于第一群组损失函数,训练第二图像编码器和第三图像编码器;将第三图像编码器确定为最终训练得到的图像编码器。
在一个可选的实施例中,处理模块1702,还用于将第二图像输入第二图像编码器,得到第一中间特征向量;将第一中间特征向量输入第三MLP,得到第四特征向量。
在一个可选的实施例中,处理模块1702,还用于将第三图像输入第三图像编码器,得到第二中间特征向量;将第二中间特征向量输入第四MLP,得到第五特征向量。
在一个可选的实施例中,确定模块1703,还用于将第五特征向量确定为用于对比学习的对比向量,将第四特征向量确定为用于对比学习的锚向量。
在一个可选的实施例中,聚类模块1704,还用于将不同的第一样本组织图像的多个第五特征向量进行聚类,得到多个第二聚类中心;将多个第二聚类中心中与第四特征向量之间的相似值最大的特征向量,确定为多个第五特征向量中的正样本向量;将第二其余特征向量确定为多个第五特征向量中的负样本向量,其中,第二其余特征向量指多个第五特征向量中除与第四特征向量之间的相似值最大的特征向量之外的特征向量。
在一个可选的实施例中,生成模块1705,还用于基于第四特征向量和多个第五特征向量中的正样本向量,生成第七子函数;基于第四特征向量和多个第五特征向量中的负样本向量,生成第八子函数;基于第七子函数和第八子函数,生成第二群组损失函数。
在一个可选的实施例中,训练模块1706,还用于基于第二群组损失函数,训练第二图像编码器和第三图像编码器;将第二图像编码器确定为最终训练得到的图像编码器。
在一个可选的实施例中,训练模块1706,还用于根据第二图像编码器和第三图像编码器之间共享的参数,采用加权方式对第一图像编码器的参数进行更新。
综上所述,通过进一步区分相关技术中认定的正样本,在正样本中进一步区分出正样本的“正的程度”,使得对比学习使用的损失函数(也称为对比学习范式)能更精确地拉近锚图像与正样本,进而能更好地训练图像编码器,训练得到的图像编码器能更好的学习锚图像和正样本之间的共同特征。
图18是本申请一个示例性实施例提供的全视野病理切片的搜索装置的结构框图,该装置包括:
获取模块1801,用于获取全视野病理切片,以及将全视野病理切片裁剪为多张组织图像;
生成模块1802,用于通过图像编码器,生成多张组织图像的多个图像特征向量;
聚类模块1803,用于通过对多个图像特征向量进行聚类,从多张组织图像中确定出多张关键图像;
查询模块1804,用于基于多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,多个候选图像包与多张关键图像一一对应,任意一个候选图像包容纳有至少一张候选组织图像;
筛选模块1805,用于根据候选图像包的属性筛选多个候选图像包,得到多个目标图像包;
确定模块1806,用于将多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。
在一个可选的实施例中,聚类模块1803,还用于将多张组织图像的多个图像特征向量进行聚类,得到多个第一类簇;将多个第一类簇的多个聚类中心分别确定为多张关键图像的多个图像特征向量。
在一个可选的实施例中,聚类模块1803,还用于针对多个第一类簇中的目标第一类簇,基于目标第一类簇对应的多张组织图像在各自所属的全视野病理切片的位置特征,聚类得到多个第二类簇;针对多个第一类簇中的目标第一类簇,将目标第一类簇包含的多个第二类簇对应的多个聚类中心确定为关键图像的图像特征向量;其中,目标第一类簇为多个第一类簇中的任意一个。
在一个可选的实施例中,筛选模块1805,还用于根据候选图像包具有的诊断类别数量,筛选多个候选图像包,得到多个目标图像包。
在一个可选的实施例中,筛选模块1805,还用于针对多个候选图像包中的第一候选图像包,基于第一候选图像包中的至少一张候选组织图像与关键图像的余弦相似度、至少一个诊断类别在数据库中的发生概率和至少一张候选组织图像的诊断类别,计算候选图像包的熵值;其中,熵值用于衡量第一候选图像包对应的诊断类别的数量,第一候选图像包为多个候选图像包中的任意一个;筛选多个候选图像包,得到熵值低于熵值阈值的多个目标图像包。
在一个可选的实施例中,筛选模块1805,还用于根据多张候选组织图像与关键图像的相似度,筛选多个候选图像包,得到多个目标图像包。
在一个可选的实施例中,筛选模块1805,还用于针对多个候选图像包中的第一候选图像包,将第一候选图像包中的至少一个候选组织图像按照与关键图像的余弦相似度从大到小的顺序进行排列;获取第一候选图像包的前m个候选组织图像;计算前m个候选组织图像对应的m个余弦相似度;将多个候选图像包的前m个候选组织图像的m个余弦相似度的平均值,确定为第一平均值;将包含的至少一个候选组织图像的余弦相似度的平均值大于第一平均值的候选图像包,确定为目标图像包,得到多个目标图像包;其中,第一候选图像包为多个候选图像包中的任意一个。
综上所述,首先将WSI裁剪得到多张小图,将多张小图通过图像编码器得到多张小图的多个图像特征向量;然后,将多个图像特征向量进行聚类,将聚类中心对应的小图作为关键图像;接着,查询每张关键图像,得到候选图像包;然后,筛选候选图像包,得到目标图像包;最后,将候选图像包内的至少一张小图对应的WSI作为最终的搜索结果;该装置支持以WSI(大图)搜索WSI(大图)的方式,并且,其中提及的聚类模块和筛选模块能大大减少处理的数据量,提高了搜索的效率。并且,本实施例提供的以WSI(大图)搜索WSI(大图)的装置无需训练过程,可实现快速的搜索匹配。
图19是根据一示例性实施例示出的一种计算机设备的结构示意图。所述计算机设备1900可以是图2中图像编码器的训练设备21,也可以是图2中图像编码器的使用设备22。所述计算机设备1900包括中央处理单元(Central Processing Unit,CPU)1901、包括随机存取存储器(Random Access Memory,RAM)1902和只读存储器(Read-Only Memory,ROM)1903的系统存储器1904,以及连接系统存储器1904和中央处理单元1901的系统总线1905。所述计算机设备1900还包括帮助计算机设备内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1906,和用于存储操作系统1913、应用程序1914和其他程序模块1915的大容量存储设备1907。
所述基本输入/输出系统1906包括有用于显示信息的显示器1908和用于用户输入信息的诸如鼠标、键盘之类的输入设备1909。其中所述显示器1908和输入设备1909都通过连接到系统总线1905的输入输出控制器1910连接到中央处理单元1901。所述基本输入/输出系统1906还可以包括输入输出控制器1910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1910还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1907通过连接到系统总线1905的大容量存储控制器(未示出)连接到中央处理单元1901。所述大容量存储设备1907及其相关联的计算机设备可读介质为计算机设备1900提供非易失性存储。也就是说,所述大容量存储设备1907可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机设备可读介质(未示出)。
不失一般性,所述计算机设备可读介质可以包括计算机设备存储介质和通信介质。计算机设备存储介质包括以用于存储诸如计算机设备可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机设备存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable ReadOnly Memory,EPROM)、带电可擦可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM),CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机设备存储介质不局限于上述几种。上述的系统存储器1904和大容量存储设备1907可以统称为存储器。
根据本公开的各种实施例,所述计算机设备1900还可以通过诸如因特网等网络连接到网络上的远程计算机设备运行。也即计算机设备1900可以通过连接在所述系统总线1905上的网络接口单元1912连接到网络1911,或者说,也可以使用网络接口单元1912来连接到其他类型的网络或远程计算机设备系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1901通过执行该一个或一个以上程序来实现上述图像编码器的训练方法的全部或者部分步骤。
本申请还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方法实施例提供的图像编码器的训练方法。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方法实施例提供的图像编码器的训练方法。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种图像编码器的训练方法,其特征在于,所述方法包括:
获取第一样本组织图像和多张第二样本组织图像,所述第二样本组织图像为对比学习中的负样本;
将所述第一样本组织图像进行数据增强,得到第一图像;将所述第一图像输入所述第一图像编码器,得到第一特征向量;所述第一图像为所述对比学习中的正样本;
将所述第一样本组织图像进行数据增强,得到第二图像;将所述第二图像输入第二图像编码器,得到第二特征向量;所述第二图像为所述对比学习中的锚图像;
将所述多张第二样本组织图像输入所述第一图像编码器,得到所述多张第二样本组织图像的多个特征向量;将所述多个特征向量进行聚类,得到多个聚类中心;基于所述多个聚类中心与所述第一特征向量的相似值,生成多个权重;
基于所述第一特征向量和所述第二特征向量,生成用于表征所述锚图像和所述正样本之间误差的第一子函数;基于所述第二特征向量和所述多个特征向量,结合所述多个权重生成用于表征所述锚图像和所述负样本之间误差的第二子函数;基于所述第一子函数和所述第二子函数,生成第一权重损失函数;
基于所述第一权重损失函数,训练所述第一图像编码器和所述第二图像编码器;基于所述第二图像编码器,更新所述第一图像编码器。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个特征向量进行聚类,得到多个聚类中心,包括:
在所述第一样本组织图像属于第一训练批次中的第一样本组织图像的情况下,将所述多张第二样本组织图像的多个特征向量进行聚类,得到所述第一训练批次的多个聚类中心;
在所述第一样本组织图像属于第n训练批次的第一样本组织图像的情况下,将第n-1训练批次对应的多个聚类中心,更新为第n训练批次对应的多个聚类中心,n为大于1的正整数。
3.根据权利要求2所述的方法,其特征在于,所述将第n-1训练批次对应的多个聚类中心,更新为第n训练批次对应的多个聚类中心,包括:
针对第n-1训练批次的多个聚类中心中的第j个聚类中心,基于第n训练批次中属于第j类别的第一样本组织图像,更新所述第n-1训练批次的第j个聚类中心,得到所述第n训练批次的第j个聚类中心,j为正整数。
4.根据权利要求1至3任一所述的方法,其特征在于,所述权重的大小与所述聚类中心和所述第一特征向量的相似值呈负相关关系;
针对所述多个聚类中心中的第j个聚类中心,所述第j个聚类中心所属类别包括的特征向量对应同一所述权重。
5.根据权利要求1至3任一所述的方法,其特征在于,所述将所述第二图像输入第二图像编码器,得到第二特征向量,包括:
将所述第二图像输入第二图像编码器,得到第一中间特征向量;
将所述第一中间特征向量输入第一多层感知机MLP,得到所述第二特征向量。
6.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述第二图像编码器,更新所述第一图像编码器,包括:
根据所述第二图像编码器的参数,采用加权方式对所述第一图像编码器的参数进行更新。
7.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
将所述第一样本组织图像进行数据增强,得到第三图像;将所述第三图像输入第三图像编码器,得到第三特征向量;所述第三图像为所述对比学习中的锚图像;
基于所述第一特征向量和所述第三特征向量,生成用于表征所述锚图像和所述正样本之间误差的第三子函数;基于所述第三特征向量和所述多个特征向量,结合所述多个权重,生成用于表征所述锚图像和所述负样本之间误差的第四子函数;基于所述第三子函数和所述第四子函数,生成第二权重损失函数;
基于所述第二权重损失函数,训练所述第一图像编码器和所述第三图像编码器。
8.根据权利要求7所述的方法,其特征在于,所述将所述第三图像输入第三图像编码器,得到第三特征向量,包括:
将所述第三图像输入第三图像编码器,得到第二中间特征向量;
将所述第二中间特征向量输入第二MLP,得到所述第三特征向量。
9.根据权利要求7所述的方法,其特征在于,所述基于所述第二图像编码器,更新所述第一图像编码器,包括:
根据所述第二图像编码器和所述第三图像编码器之间共享的参数,采用加权方式对所述第一图像编码器的参数进行更新。
10.一种全视野病理切片的搜索方法,其特征在于,所述方法由计算机设备执行,所述计算机设备运行有权利要求1至9任一方法训练得到的图像编码器,所述方法包括:
获取全视野病理切片,以及将所述全视野病理切片裁剪为多张组织图像;
通过所述图像编码器,生成所述多张组织图像的多个图像特征向量;
通过对所述多个图像特征向量进行聚类,从所述多张组织图像中确定出多张关键图像;
基于所述多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,所述多个候选图像包与所述多张关键图像一一对应,任意一个所述候选图像包容纳有至少一张候选组织图像;
根据所述候选图像包的属性筛选所述多个候选图像包,得到多个目标图像包;
将所述多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。
11.根据权利要求10所述的方法,其特征在于,所述通过对所述多个图像特征向量进行聚类,从所述多张组织图像中确定出多张关键图像,包括:
将所述多张组织图像的多个图像特征向量进行聚类,得到多个第一类簇;
将所述多个第一类簇的多个聚类中心分别确定为所述多张关键图像的多个图像特征向量。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
针对所述多个第一类簇中的目标第一类簇,基于所述目标第一类簇对应的多张组织图像在各自所属的全视野病理切片的位置特征,聚类得到多个第二类簇;
所述将所述多个第一类簇的多个聚类中心分别确定为所述多张关键图像的多个图像特征向量,包括:
针对所述多个第一类簇中的目标第一类簇,将所述目标第一类簇包含的多个第二类簇对应的多个聚类中心确定为所述关键图像的图像特征向量;
其中,所述目标第一类簇为所述多个第一类簇中的任意一个。
13.根据权利要求10至12任一所述的方法,其特征在于,所述根据所述候选图像包的属性,筛选所述多个候选图像包,得到多个目标图像包,包括:
根据所述候选图像包具有的诊断类别数量,筛选所述多个候选图像包,得到所述多个目标图像包。
14.根据权利要求13所述的方法,其特征在于,所述根据所述候选图像包具有的诊断类别数量,筛选所述多个候选图像包,得到多个目标图像包,包括:
针对所述多个候选图像包中的第一候选图像包,基于所述第一候选图像包中的至少一张候选组织图像与所述关键图像的余弦相似度、至少一个诊断类别在所述数据库中的发生概率和所述至少一张候选组织图像的诊断类别,计算所述候选图像包的熵值;其中,所述熵值用于衡量所述第一候选图像包对应的诊断类别的数量,所述第一候选图像包为所述多个候选图像包中的任意一个;
筛选所述多个候选图像包,得到熵值低于熵值阈值的所述多个目标图像包。
15.根据权利要求10至12任一所述的方法,其特征在于,所述根据所述候选图像包的属性,筛选所述多个候选图像包,得到多个目标图像包,包括:
根据所述多张候选组织图像与所述关键图像的相似度,筛选所述多个候选图像包,得到所述多个目标图像包。
16.根据权利要求15所述的方法,其特征在于,所述根据所述多张候选组织图像与所述关键图像的相似度,筛选所述多个候选图像包,得到所述多个目标图像包,包括:
针对所述多个候选图像包中的第一候选图像包,将所述第一候选图像包中的至少一个候选组织图像按照与所述关键图像的余弦相似度从大到小的顺序进行排列;获取所述第一候选图像包的前m个候选组织图像;计算所述前m个候选组织图像对应的m个余弦相似度;
将所述多个候选图像包的前m个候选组织图像的m个余弦相似度的平均值,确定为第一平均值;
将包含的所述至少一个候选组织图像的余弦相似度的平均值大于所述第一平均值的候选图像包,确定为所述目标图像包,得到所述多个目标图像包;
其中,所述第一候选图像包为所述多个候选图像包中的任意一个,m为正整数。
17.一种图像编码器的训练装置,其特征在于,所述装置包括:
获取模块,用于获取第一样本组织图像和多张第二样本组织图像,所述第二样本组织图像为对比学习中的负样本;
处理模块,用于将所述第一样本组织图像进行数据增强,得到第一图像;将所述第一图像输入所述第一图像编码器,得到第一特征向量;所述第一图像为所述对比学习中的正样本;
所述处理模块,还用于将所述第一样本组织图像进行数据增强,得到第二图像;将所述第二图像输入第二图像编码器,得到第二特征向量;所述第二图像为所述对比学习中的锚图像;
所述处理模块,还用于将所述多张第二样本组织图像输入所述第一图像编码器,得到所述多张第二样本组织图像的多个特征向量;将所述多个特征向量进行聚类,得到多个聚类中心;基于所述多个聚类中心与所述第一特征向量的相似值,生成多个权重;
生成模块,用于基于所述第一特征向量和所述第二特征向量,生成用于表征所述锚图像和所述正样本之间误差的第一子函数;基于所述第二特征向量和所述多个特征向量,结合所述多个权重生成用于表征所述锚图像和所述负样本之间误差的第二子函数;基于所述第一子函数和所述第二子函数,生成第一权重损失函数;
训练模块,用于基于所述第一权重损失函数,训练所述第一图像编码器和所述第二图像编码器;基于所述第二图像编码器,更新所述第一图像编码器。
18.一种全视野病理切片的搜索装置,其特征在于,所述装置运行有权利要求1至9任一方法训练得到的图像编码器,所述装置包括:
获取模块,用于获取全视野病理切片,以及将所述全视野病理切片裁剪为多张组织图像;
生成模块,用于通过所述图像编码器,生成所述多张组织图像的多个图像特征向量;
聚类模块,用于通过对所述多个图像特征向量进行聚类,从所述多张组织图像中确定出多张关键图像;
查询模块,用于基于所述多张关键图像的图像特征向量,从数据库查询得到多个候选图像包,所述多个候选图像包与所述多张关键图像一一对应,任意一个所述候选图像包容纳有至少一张候选组织图像;
筛选模块,用于根据所述候选图像包的属性筛选所述多个候选图像包,得到多个目标图像包;
确定模块,用于将所述多个目标图像包内的多个目标组织图像所属的全视野病理切片,确定为最终的搜索结果。
19.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一所述的图像编码器的训练方法,或,权利要求10至16任一所述的全视野病理切片的搜索方法。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至9任一所述的图像编码器的训练方法,或,权利要求10至16任一所述的全视野病理切片的搜索方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531184.9A CN115115855A (zh) | 2022-05-16 | 2022-05-16 | 图像编码器的训练方法、装置、设备及介质 |
PCT/CN2023/088875 WO2023221713A1 (zh) | 2022-05-16 | 2023-04-18 | 图像编码器的训练方法、装置、设备及介质 |
EP23806666.6A EP4394724A1 (en) | 2022-05-16 | 2023-04-18 | Image encoder training method and apparatus, device, and medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210531184.9A CN115115855A (zh) | 2022-05-16 | 2022-05-16 | 图像编码器的训练方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115115855A true CN115115855A (zh) | 2022-09-27 |
Family
ID=83326850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210531184.9A Pending CN115115855A (zh) | 2022-05-16 | 2022-05-16 | 图像编码器的训练方法、装置、设备及介质 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4394724A1 (zh) |
CN (1) | CN115115855A (zh) |
WO (1) | WO2023221713A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116152232A (zh) * | 2023-04-17 | 2023-05-23 | 智慧眼科技股份有限公司 | 一种病理图像检测方法、装置、计算机设备及存储介质 |
WO2023221713A1 (zh) * | 2022-05-16 | 2023-11-23 | 腾讯科技(深圳)有限公司 | 图像编码器的训练方法、装置、设备及介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114897060B (zh) * | 2022-04-25 | 2024-05-03 | 中国平安人寿保险股份有限公司 | 样本分类模型的训练方法和装置、样本分类方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874489B (zh) * | 2017-02-21 | 2020-05-12 | 烟台中科网络技术研究所 | 一种基于卷积神经网络的肺结节图像块检索方法及装置 |
CN111898550B (zh) * | 2020-07-31 | 2023-12-29 | 平安科技(深圳)有限公司 | 建立表情识别模型方法、装置、计算机设备及存储介质 |
CN113822325A (zh) * | 2021-07-22 | 2021-12-21 | 腾讯科技(深圳)有限公司 | 图像特征的监督学习方法、装置、设备及存储介质 |
CN113435545A (zh) * | 2021-08-14 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 图像处理模型的训练方法及装置 |
CN115115855A (zh) * | 2022-05-16 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 图像编码器的训练方法、装置、设备及介质 |
-
2022
- 2022-05-16 CN CN202210531184.9A patent/CN115115855A/zh active Pending
-
2023
- 2023-04-18 EP EP23806666.6A patent/EP4394724A1/en active Pending
- 2023-04-18 WO PCT/CN2023/088875 patent/WO2023221713A1/zh active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023221713A1 (zh) * | 2022-05-16 | 2023-11-23 | 腾讯科技(深圳)有限公司 | 图像编码器的训练方法、装置、设备及介质 |
CN116152232A (zh) * | 2023-04-17 | 2023-05-23 | 智慧眼科技股份有限公司 | 一种病理图像检测方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023221713A1 (zh) | 2023-11-23 |
EP4394724A1 (en) | 2024-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jiang et al. | Medical image semantic segmentation based on deep learning | |
JP5282658B2 (ja) | 画像学習、自動注釈、検索方法及び装置 | |
US9600860B2 (en) | Method and device for performing super-resolution on an input image | |
CN115115855A (zh) | 图像编码器的训练方法、装置、设备及介质 | |
Klibisz et al. | Fast, simple calcium imaging segmentation with fully convolutional networks | |
CN115115856A (zh) | 图像编码器的训练方法、装置、设备及介质 | |
US11983903B2 (en) | Processing images using self-attention based neural networks | |
US20220148291A1 (en) | Image classification method and apparatus, and image classification model training method and apparatus | |
US20230237771A1 (en) | Self-supervised learning method and apparatus for image features, device, and storage medium | |
Dharejo et al. | TWIST-GAN: Towards wavelet transform and transferred GAN for spatio-temporal single image super resolution | |
US20220164952A1 (en) | Capture and Storage of Magnified Images | |
Etezadifar et al. | Scalable video summarization via sparse dictionary learning and selection simultaneously | |
Romo et al. | Learning regions of interest from low level maps in virtual microscopy | |
Kavitha et al. | Convolutional Neural Networks Based Video Reconstruction and Computation in Digital Twins. | |
Wang et al. | Small vehicle classification in the wild using generative adversarial network | |
Madhu et al. | A hybrid feature extraction technique for content based medical image retrieval using segmentation and clustering techniques | |
Venkatesvara Rao et al. | Real-time video object detection and classification using hybrid texture feature extraction | |
CN107729855B (zh) | 海量数据处理方法 | |
CN113395584B (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
JP6368149B2 (ja) | 画像伝送システム、画像処理装置、画像蓄積装置、及びそれらの制御方法 | |
EP4030347A1 (en) | Neural network building method and device, and image processing method and device | |
CN116664465A (zh) | 一种多模态图像融合方法、装置及计算机设备 | |
Yang et al. | Infrared image super-resolution with parallel random Forest | |
CN115272768A (zh) | 内容识别方法、装置、设备、存储介质及计算机程序产品 | |
CN113449770A (zh) | 图像检测方法以及电子设备、存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |