CN114626520B

CN114626520B - 训练模型的方法、装置、设备以及存储介质

Info

Publication number: CN114626520B
Application number: CN202210194524.3A
Authority: CN
Inventors: 杨佳伟; 姚建华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2024-05-10
Anticipated expiration: 2042-03-01
Also published as: CN114626520A

Abstract

本申请提供了一种训练模型的方法、装置、设备以及存储介质，涉及人工智能的机器学习领域。在该训练模型的方法中，可以对无标签的第一样本进行聚类，得到至少两个概念，其中，该概念为第一样本中由掩码注释的结构形式，然后可以根据该至少两个概念和该第一样本，对预训练模型进行训练，其中，所述预训练模型用于对样本进行特征提取。本申请通过该至少两个概念，能够显式增加预训练模型对局部概念的敏感性，约束模型分辨不同的概念，从而相较于基于全局特征的预训练方法，本申请实施例能够有助于提高预训练模型在下游密集预测任务上的表现。

Description

训练模型的方法、装置、设备以及存储介质

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种训练模型的方法和装置。

背景技术

深度学习模型往往需要大量有标注数据来取得优异表现，但为不同的任务收集海量标注代价巨大。为了缓解标注负担，可以采用迁移学习，即复用特征编码器。具体而言，迁移学习在上游任务上预训练一个特征编码器，之后在下游任务上微调由预训练得到的特征编码器。

预训练可以包括有监督预训练和自监督预训练两种方式。有监督预训练方式中，将分类任务作为上游任务，在大规模的带标签分类数据集上预训练一个有监督的分类模型，然后将该分类模型的最后层分类全连接神经元去除，余下部分作为预训练的特征编码器，迁移至下游任务。自监督预训练将不同的自监督任务作为上游任务，在大规模的无标签数据集上预训练一个自监督模型，之后保留该模型中的骨干网络作为预训练的特征编码器，迁移至下游任务。

在实际场景中，规模大的带标签数据集往往难以获取，而无标签数据集更为常见，因而直接在无标注数据集上进行自监督预训练，能够缓解预训练对标签的需求，降低标注成本。但是，当前大部分自监督预训练技术方案仍然关注在全局特征上，使得预训练模型在下游密集预测任务上的表现较弱。

发明内容

本申请提供一种训练模型的方法、装置、设备以及存储介质，能够有助于提高预训练模型在下游密集预测任务上的表现。

第一方面，本申请实施例提供一种训练模型的方法，包括：

对无标签的第一样本进行聚类，得到至少两个概念，其中，所述概念为所述第一样本中由掩码注释的结构形式；

通过在线特征编码器得到所述第一样本的第一特征图，以及通过动量特征编码器得到所述第一样本的第二特征图，所述动量特征编码器是根据所述在线特征编码器的动量副本确定的；

确定所述第一特征图中对应于第一概念的第一概念特征，以及确定所述第二特征图中对应于所述第一概念的第二概念特征，其中，所述第一概念为所述至少两个概念中的一个；

根据所述第一概念特征和所述第二概念特征，对所述在线特征编码器进行更新，以对预训练模型进行训练，其中，所述预训练模型包括所述在线特征编码器。

第二方面，本申请实施例提供一种练模型的装置，包括：

聚类单元，用于对无标签的第一样本进行聚类，得到至少两个概念，其中，所述概念为所述第一样本中由掩码注释的结构形式；

获取单元，用于通过在线特征编码器得到所述第一样本的第一特征图，以及通过动量特征编码器得到所述第一样本的第二特征图，所述动量特征编码器是根据所述在线特征编码器的动量副本确定的；

确定单元，用于确定所述第一特征图中对应于第一概念的第一概念特征，以及确定所述第二特征图中对应于所述第一概念的第二概念特征，其中，所述第一概念为所述至少两个概念中的一个；

训练单元，用于根据所述第一概念特征和所述第二概念特征，对所述在线特征编码器进行更新，以对预训练模型进行训练，其中，所述预训练模型包括所述在线特征编码器。

第三方面，本申请实施例提供一种电子设备，包括：处理器和存储器，该存储器用于存储计算机程序，该处理器用于调用并运行该存储器中存储的计算机程序，执行如第一方面或其各实现方式中的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，包括指令，当其在计算机上运行时使得计算机执行如第一方面或其各实现方式中的方法。

第五方面，本申请实施例提供一种计算机程序产品，包括计算机程序指令，该计算机程序指令使得计算机执行如第一方面或其各实现方式中的方法。

第六方面，本申请实施例提供一种计算机程序，计算机程序使得计算机执行如第一方面或其各实现方式中的方法。

通过上述技术方案，本申请实施例能够通过第一样本的至少两个概念，显式增加预训练模型对局部概念的敏感性，约束模型分辨不同的概念，从而相较于基于全局特征的预训练方法，本申请实施例能够有助于提高预训练模型在下游密集预测任务上的表现。

附图说明

图1为本申请实施例的方案的系统架构的一个示意图；

图2为根据本申请实施例的一种训练模型的方法的示意性流程图；

图3为根据本申请实施例的一种训练模型的网络架构的示意图；

图4为根据本申请实施例的另一种训练模型的方法的示意性流程图；

图5为根据本申请实施例的一种训练模型的装置的示意图；

图6为根据本申请实施例的电子设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

应理解，在本申请实施例中，“与A对应的B”表示B与A相关联。在一种实现方式中，可以根据A确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

在本申请的描述中，除非另有说明，“至少一个”是指一个或多个，“多个”是指两个或多于两个。另外，“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

还应理解，本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

还应理解，说明书中与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例应用于人工智能技术领域。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision,CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例也可以涉及人工智能技术中的机器学习(Machine Learning,ML)，ML是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

此外，本申请实施例提供的方案还可以涉及模型预训练技术。

为便于理解本申请提供的技术方案，下面对与模型预训练技术的相关内容进行说明。

预训练(pre-training)：通过大量无标注或者弱标注的样本进行模型的训练，得到一套模型参数；利用这套参数对模型进行初始化，实现模型“热启动”，再根据具体任务在现有模型的架构上对参数进行微调来拟合任务提供的标签数据。示例性的，可以通过上游数据集进行预训练得到一个特征编码器，将该特征编码器的参数用于下游任务的特征编码器参数的初始化。

特征编码器(feature encoder)：用于将高维度输入图像映射到低维度的特征向量的神经网络模型。示例性的，该神经网络模型可以为卷积神经网络(convolutionalneural network，CNN)，即由多个卷积操作组成的计算网络。

图1为本申请实施例涉及的一种系统架构的示意图。如图1所示，系统架构可以包括用户设备101、数据采集设备102、训练设备103、执行设备104、数据库105和内容库106。

其中，数据采集设备102用于从内容库106中读取训练数据，并将读取的训练数据存储至数据库105中。本申请实施例涉及的训练数据包括无标签样本数据，或者稀疏标签样本数据。示例性的，该样本数据可以包括图像数据，或语音数据，不作限定。

训练设备103基于数据库105中维护的训练数据，对机器学习模型进行训练。训练设备103得到的预训练模型可以有效地提取样本(例如图像或语音数据)的特征。并且该预训练模型还可以进一步连接其他下游预测模型，例如密集任务预测模型。训练设备103得到的预测模型可以应用到不同的系统或设备中。

另外，参考图1，执行设备104配置有I/O接口107，与外部设备进行数据交互。比如通过I/O接口接收用户设备101发送的待预测的数据，例如图像或语音数据。执行设备104中的计算模块109使用训练好的预测模型对输入的数据进行处理，输出数据的预测结果，并通过I/O接口将相应的结果发送至用户设备101。

其中，用户设备101可以包括手机、平板电脑、笔记本电脑、掌上电脑、车载终端、移动互联网设备(mobile internet device，MID)或其他具有安装浏览器功能的终端设备。

执行设备104可以为服务器。

示例性的，服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器等计算设备。该服务器可以是独立的测试服务器，也可以是多个测试服务器所组成的测试服务器集群。

本实施例中，执行设备104通过网络与用户设备101连接。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobilecommunication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要说明的是，图1仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制。在一些实施例中，上述数据采集设备102与用户设备101、训练设备103和执行设备104可以为同一个设备。上述数据库105可以分布在一个服务器上也可以分布在多个服务器上，上述的内容库106可以分布在一个服务器上也可以分布在多个服务器上。

自监督预训练可以直接在无标注数据集上进行预训练，缓解预训练对标签的需求，降低标注成本。一种自监督预训练的方案，自监督任务在全局特征上完成。但是，密集预测任务通常需要特征编码器对局部特征更敏感，因此如何提高预训练模型在下游密集预测任务上的表现亟待解决。

有鉴于此，本申请实施例提供了一种训练模型的方法、装置、设备以及存储介质，能够有助于提高预训练模型在下游密集预测任务上的表现。

具体而言，本申请实施例对第一样本进行聚类，得到至少两个概念，然后根据该至少两个概念和该第一样本，对预训练模型进行训练，该预训练模型用于对样本进行特征提取。本申请实施例通过第一样本的该至少两个概念，能够显式增加预训练模型对局部概念的敏感性，约束模型分辨不同的概念，从而相较于基于全局特征的预训练方法，本申请实施例能够有助于提高预训练模型在下游密集预测任务上的表现。

示例性的，该第一样本可以为无标签或标签紧缺的样本，不作限定。因此，本申请实施例能够直接在无标签或标签紧缺的数据集上进行自监督预训练，有助于缓解预训练对标签的需求，降低标注成本。

示例性的，该第一样本可以包括数字病理全景图像(whole slide images,WSIs)，即通过数字病理扫描仪(由光学系统、线性扫描相机等组成的)将病理显微切片扫描成为的数字图像。因此，本申请实施例能够在无标签或标签紧缺的WSIs上进行自监督预训练，提升深度学习模型在WSIs中的密集预测任务上的迁移表现。示例性的，密集预测任务比如AI医学影像分析。

在一些实施例中，本申请提供的该自监督预训练的方案还可以被拓展至其他密集预测任务的自监督预训练中，例如其他图像或者语音数据的自监督预训练中，本申请对此不作限定。

需要说明的是，本申请实施例中，“概念”的获取可以根据任务需求灵活调整，本申请实施例的方案具有可拓展性和灵活性。

下面结合附图，对本申请实施例提供的技术方案进行描述。

图2示出了根据本申请实施例的训练模型的方法200的示意性流程图，该训练模型的方法200可以由任何具有数据处理能力的电子设备执行，例如，该电子设备可实施为服务器，又例如，该电子设备可实施为图1中的训练设备103，本申请对此不做限定。

一些实施例中，电子设备中可以包括(比如部署)训练模型的网络架构，用于执行该训练模型的方法200，例如根据无标签或标签紧缺的样本对预训练模型进行训练。示例性的，该网络架构中可以包括在线特征编码器和动量特征编码器，其中动量特征编码器是根据该在线特征编码器的动量副本确定的。在模型训练过程中，动量特征编码器可以对在线特征编码器进行指导。

图3示出了训练模型的网络架构的一个示意图，可以用于执行该方法200。如图3所示，该网络架构中可以包括在线特征编码器301(可表示为f_φ)、动量特征编码器302(可表示为)、聚类模块303、掩码池化(Masked Average Pooling，MAP)304、MAP 305、在线映射器306(可表示为f_g)和动量映射器307(可表示为/>)。这里，函数f代表神经网络模型，下标表示各神经网络模型对应的参数集合。其中，在线特征编码器301和在线映射器306可以组成在线编码器，动量特征编码器302和动量映射器307可以组成动量编码器。

在一些实施例中，动量编码器是根据在线编码器的动量副本确定的。具体而言，动量特征编码器是根据在线特征编码器的动量副本确定的，即动量特征编码器是由在线特征编码器中的对应部分动量更新得到的，例如在第k次迭代时，有如下动量更新：

动量映射器是根据在线映射器的动量副本确定的，即动量映射器是由在线映射器中的对应部分动量更新得到的，例如在第k次迭代时，有如下动量更新：

其中，m为动量，通常为0.99～1。示例性的，本申请实施例中可以设置为0.999。

应理解，图3示出了用于进行模型训练的网络架构的一个示例，该示例仅仅是为了帮助本领域技术人员理解和实现本申请的实施例，而非限制本申请实施例的范围。本领域技术人员可以根据这里给出的例子进行等价变换或修改，这样的变换或修改仍然应落入本申请实施例的保护范围内。

以下，结合图3对方法200中的步骤进行描述。

如图2所示，该训练模型的方法200可包括步骤210至240。

210，对的第一样本进行聚类，得到至少两个概念，其中，该概念为第一样本中由掩码注释的结构形式。

示例性的，该第一样本可以为无标签或标签紧缺的样本，不作限定。作为具体的例子，该第一样本可以包括WSIs，或者其他图像或者语音数据，不作限定。

示例性的，对第一样本进行聚类，即对第一样本中的在特征空间中距离较近的点进行聚类，得到至少两个概念，其中概念可以为第一样本中由掩码注释的结构形式。作为示例，不同概念对应的掩码可以标记为不同颜色。在一些实施例中，该概念也可以称为概念掩码，本申请对此不作限定。

在一些可选的实施例中，可以对该第一样本进行随机数据增强得到第一视图和第二视图。示例性的，随机数据增强可以包括随机缩放，裁剪和图像色彩抖动，即改变图像色彩，本申请对此不做限定。示例性的，参见图3，每一批无标签图像x都可以在随机数据增强t下得到两个视图(即第一视图和第二视图)，记为x₁，x₂～t(x)。因此，本申请实施例通过对样本进行随机数据增强，可以增加样本的多样性。

可选的，还可以根据上述第一视图x₁和第二视图x₂的外接矩形区域，确定该第一样本的参考视图。参见图3，可以将第一视图和第二视图的外接矩形区域称为参考视图，记为x_r。其中，第一视图和第二视图的外接矩形区域分别用不同的虚线标记。

在一些可选的实施例中，在获取第一视图、第二视图和参考视图时，还可以记录第一视图和参考视图的相对位置关系，以及第二视图和参考视图的相对位置关系。

参见图3，在获取第一视图x₁、第二视图x₂和参考视图x_r之后，可以将第一视图x₁输入在线特征编码器301，将第二视图x₂和参考视图x_r分别输入动量特征编码器302。在线特征编码器301可以输出第一视图的特征，即第一特征图，动量特征编码器302可以分别输出第二视图的特征，即第二特征图，以及输出参考视图的特征，即第三特征。

在一些可选的实施例中，在线特征编码器f_φ和动量特征编码器分别可以包括深度残差网络(ResNet)结构，例如可以由五组ResNet模块串行构成。例如，对于在线特征编码器f_φ，每组ResNet模块输出的特征图依次可以记为对于动量特征编码器/>每组ResNet模块输出的特征图依次可以记为/>

示例性的，参见图3，第一特征图可以是将第一视图x₁输入在线特征编码器f_φ后，在线特征编码器f_φ的第五组ResNet模块输出的特征图，可以记为第二特征图可以是将第二视图x₂输入动量特征编码器/>后，动量特征编码器/>中的第五组ResNet模块输出的特征图，可以记为/>

作为一种可能的实现方式，可以对上述第三特征进行聚类，得到该至少两个概念。示例性的，参见图3，第三特征可以是将参考视图x_r输入动量特征编码器后，动量特征编码器/>中的第四组ResNet模块输出的特征图，可以记为/>参见图3，可以通过聚类模块303对该第三特征进行无监督聚类。示例性的，聚类模块303可以利用K-Means聚类算法进行无监督聚类，不作限定。

需要说明的是，本申请实施例以将动量特征编码器输出的某一个ResNet模块(例如第四组ResNet模块)的输出作为第三特征来构建概念掩码为例，在另一些实施例中，还可以利用动量特征编码器/>的多个ResNet模块的输出构建多尺度、多级别的概念掩码，可以通过将该多尺度、多级别的概念掩码进行综合构建概念掩码，本申请对此不作限定。

在一些实施例中，可以设置聚类数目为K，K为大于1的正整数。这样，聚类后可以得到K个概念掩码，可以记为作为一个具体的例子，本申请实施例可以设置K为8。

在得到上述至少两个概念之后，可以根据该至少两个概念和第一样本，对预训练模型进行训练。示例性的，训练过程可以包括步骤220至240。

220，通过在线特征编码器得到所述第一样本的第一特征图，以及通过动量特征编码器得到所述第一样本的第二特征图，其中，所述预训练模型包括所述在线特征编码器，所述动量特征编码器是根据所述在线特征编码器的动量副本确定的。

作为一种可能的实现方式，可以对该第一样本进行随机数据增强得到第一视图，并通过在线特征编码器得到该第一视图的特征作为该第一特征图；以及对第一样本进行随机数据增强得到第二视图，并通过该动量特征编码器得到该第二视图的特征作为所述第二特征图。具体的，获取第一特征图和第二特征图可以参见步骤410中的描述，在线特征编码器和动量特征编码器可以参见图3中的描述，不再赘述。

230，确定所述第一特征图中对应于第一概念的第一概念特征，以及确定所述第二特征图中对应于所述第一概念的第二概念特征，其中，所述第一概念为所述至少两个概念中的一个。

在一些可选的实施例中，参见图4，可以根据步骤410至450中的步骤，确定第一概念特征和第二概念特征。

410，根据第一视图与参考视图的相对位置关系，在上述至少两个概念中确定该第一视图对应的概念；

420，根据第二视图与参考视图的相对位置关系，在该至少两个概念中确定该第二视图对应的概念；

430，确定该第一视图对应的概念与该第二视图对应的概念共有的第一概念；

440，根据该第一概念，对上述第一特征图进行MAP操作，得到第一概念特征；

450，根据该第一概念，对上述第二特征图进行MAP操作，得到第二概念特征。

示例性的，对于步骤410至430，参见图3，可以根据第一视图x₁与参考视图x_r的相对位置关系，在上述至少两个概念中确定第一视图x₁对应的概念(也可以称为概念掩码)421，例如可以记为M₁；可以根据第二视图x₂与参考视图x_r的相对位置关系，在上述至少两个概念中确定第二视图x₂对应的概念(也可以称为概念掩码)422，例如可以记为M₂。在得到第一视图x₁对应的概念M₁，以及第二视图x₂对应的概念M₂之后，可以确定M₁和M₂共有的概念，例如第一概念。示例性的，该共有概念可以表示为m_i∈M₁∩M₂。

在一些可选的实施例中，当第一视图对应的概念M₁的空间维度与第一特征图的空间维度不匹配，和/或第二视图对应的概念M₂的空间维度与第二特征图的空间维度不匹配时，可以对该第一视图对应的概念M₁和/或第二视图对应的概念M₂进行处理，使得该第一视图对应的概念M₁与第一特征图的空间维度相匹配，以及第二视图对应的概念M₂与第二特征图的空间维度相匹配。

需要说明的是，本申请实施例中，对上述第三特征进行聚类得到的至少两个概念、第一视图对应的概念M₁，以及第二视图对应的概念M₂的空间维度均与动量特征编码器输出的第三特征的空间维度相关。在第三特征的空间维度与第一特征图或第二特征图的空间维度不同，例如第三特征为动量特征编码器的第四组ResNet结构输出的特征图，例如空间尺寸为14x14，第一特征图为在线特征编码器的第五组ResNet结构输出的特征图，例如空间尺寸为7x7，第二特征图为动量特征编码器的第五组ResNet结构输出的特征图，例如空间尺寸为7x7时，此时对该第三特征进行聚类得到的该至少两个概念，或从该至少两个概念中获取的第一视图对应的概念M₁，或从该至少两个概念中获取的第二视图对应的概念M₂的空间维度与第三特征的空间维度相同，例如空间尺寸分别为14x14，从而导致与第一视图对应的概念M₁与第一特征图的空间维度不匹配，以及与第二视图对应的概念M₂与第二特征图的空间维度不匹配。

当与第一视图对应的概念M₁与第一特征图的空间维度不匹配，和/或与第二视图对应的概念M₂与第二特征图的空间维度不匹配时，可以对第一视图对应的概念M₁，和/或第二视图对应的概念M₂进行处理，例如缩放到与第一特征图或第二特征图的空间维度相匹配，例如将第一视图对应的概念M₁，以及第二视图对应的概念M₂由空间尺寸为14x14缩放到7x7，从而使得第一视图对应的概念M₁与第一特征图的空间维度相匹配，以及第二视图对应的概念M₂与第二特征图的空间维度相匹配。

在一些可选的实施例中，还可以对第三特征，或上述至少两个概念进行处理，例如缩放，使得该第三特征，或上述至少两个概念与第一特征图或第二特征图的空间维度相匹配，进而使得第一视图对应的概念M₁与第一特征图的空间维度相匹配，以及第二视图对应的概念M₂与第二特征图的空间维度相匹配。

示例性的，继续参见图3，M₁和M₂共有的概念可以为5个(分别对应图中的5个不同填充的圆圈)。作为示例，对于上述步骤440和450，可以通过MAP 304，分别根据每个概念对第一特征图进行MAP操作，得到每个概念对应的概念特征向量423(第一概念特征的一个示例)，例如可以第一视图上的第i个概念的概念特征向量可以表示为以及通过MAP 305，分别根据每个概念对第二特征图进行MAP操作，得到每个概念对应的概念特征向量424(第二概念特征的一个示例)，例如第二视图上的第i个概念的概念特征向量可以表示为/>

其中，MAP(z,m)为掩码池化操作。示例性的，z∈R^CHW，即特征空间；m∈{0,1}^HW，其中0表示不属于概念掩码，取1表示属于概念掩码；i，j分别表示遍历特征图中像素的高和宽的值。

因此，本申请实施例通过MAP操作，可以有助于得到更加准确的第一概念特征和第二概念特征。其中，MAP操作本质上在计算一个概念对应区域的平均特征向量，能够消除部分局部特征的噪声，起到平滑特征向量的作用，因此由MAP得到的平均特征向量更能反映该概念的表征。

可选的，还可以通过在线映射器对第一概念特征进行映射，得到映射后的第一概念特征，以及通过动量映射器对第二概念特征进行映射，得到映射后的第二概念特征。其中，该动量映射器是根据该在线映射器的动量副本确定的。

示例性的，继续参见图3，对于概念特征向量423，可以通过在线映射器f_g306对其进行映射，得到概念特征向量425；对于概念特征向量424，可以通过动量映射对其进行映射，得到概念特征向量426。其中，该动量映射器/>是根据在线映射器f_g306的动量副本确定的。

240，根据所述第一概念特征和所述第二概念特征，对所述在线特征编码器进行更新，以对预训练模型进行训练。

作为一种可能的实现方式，可以确定该第一概念特征与第二概念特征之间的对比损失，然后根据该对比损失，对在线特征编码器进行更新。例如，可以根据该对比损失，采用梯度下降算法，对在线特征编码器中的参数进行更新。

在一些实施例中，可以确定映射后的第一概念特征和映射后的第二概念特征之间的对比损失。示例性的，参见图3，可以根据概念特征向量425与概念特征向量426中同一概念对应概念特征向量，确定该第一概念特征和第二概念特征之间的对比损失。

在一些实施例中，可以根据该第一概念特征、第二概念特征和存储在概念队列中的负样本的概念特征，确定上述对比损失。其中，第一概念特征和第二概念特征中同一概念对应的概念特征向量互为正样本。示例性的，可以根据以下公式确定对比损失：

其中，即为第一视图和第二视图上同一概念对应的两个概念特征向量，例如图3中概念特征向量425与概念特征向量426中同一概念对应概念特征向量，二者互为正样本；/>表示存储在概念队列中的负样本；N为概念队列长度，通常较大，例如在本申请实施例中可以将其设置为16384；τ表示温度超参数，通常为0.1～1，例如在本申请实施例中可以将其设置为0.2。

因此，本申请实施例通过概念特征向量对应的正样本和负样本，能够有助于更准确地确定第一概念特征和第二概念特征之间的对比损失，从而能够更好的对在线编码器进行更新。

本申请实施例通过对概念特征向量计算对比损失，即显式的概念对比，提升特征编码器对局部细节的识别能力，从而显式增加预训练模型对局部概念的敏感性，约束模型分辨不同的概念，提升特征编码器在下游密集预测任务上的表现。

在一些可选的实施例中，还可以将上述第二概念特征加入该概念队列中，以实现对该概念队列的更新。

示例性的，该概念队列可以在模型训练过程中，用于存储概念特征向量的队列，可以满足先入先出规则。假设第k个批次的样本一共获得了b_k个共有的概念特征向量，那么在队列更新时，可以将当前队列中最早进队的b_k个共有的概念特征向量替换为新获取的该b_k个共有的概念特征向量。示例性的，该b_k个共有的概念特征向量由动量特征编码器从第二视图得到，即上述

因此，本申请实施例通过该至少两个概念，能够显式增加预训练模型对局部概念的敏感性，约束模型分辨不同的概念，从而相较于基于全局特征的预训练方法，本申请实施例能够有助于提高预训练模型在下游密集预测任务上的表现。

另外，本申请实施例能够直接在无标签或标签紧缺的数据集上进行自监督预训练，有助于缓解预训练对标签的需求，降低标注成本。

另外，本申请实施例能够在无标签或标签紧缺的WSIs上进行自监督预训练，提升深度学习模型在WSIs中的密集预测任务上的迁移表现。示例性的，密集预测任务比如AI医学影像分析。

以上结合附图详细描述了本申请的具体实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。应理解这些序号在适当情况下可以互换，以便描述的本申请的实施例能够以除了在图示或描述的那些以外的顺序实施。

上文详细描述了本申请的方法实施例，下文结合图5至图6，详细描述本申请的装置实施例。

图5是本申请实施例的训练模型的装置600的示意性框图。如图5所示，所述训练模型的装置600可包括聚类单元610、获取单元620、确定单元630和训练单元640。

聚类单元610，用于对无标签的第一样本进行聚类，得到至少两个概念，其中，所述概念为所述第一样本中由掩码注释的结构形式；

获取单元620，用于通过在线特征编码器得到所述第一样本的第一特征图，以及通过动量特征编码器得到所述第一样本的第二特征图，所述动量特征编码器是根据所述在线特征编码器的动量副本确定的；

确定单元630，用于确定所述第一特征图中对应于第一概念的第一概念特征，以及确定所述第二特征图中对应于所述第一概念的第二概念特征，其中，所述第一概念为所述至少两个概念中的一个；

训练单元640，用于根据所述第一概念特征和所述第二概念特征，对所述在线特征编码器进行更新，以对预训练模型进行训练，其中，所述预训练模型包括所述在线特征编码器。

在一些可选的实施例中，所述获取单元620具体用于：

对所述第一样本进行随机数据增强得到第一视图；

通过所述在线特征编码器得到所述第一视图的特征作为所述第一特征图；

对所述第一样本进行随机数据增强得到第二视图；

通过所述动量特征编码器得到所述第二视图的特征作为所述第二特征图。

在一些可选的实施例中，所述聚类单元610具体用于：

根据所述第一视图和所述第二视图的外接矩形区域，确定所述第一样本的参考视图；

通过所述动量特征编码器得到所述参考视图的第三特征；

对所述第三特征进行聚类，得到所述至少两个概念。

在一些可选的实施例中，所述确定单元630具体用于：

根据所述第一视图与所述参考视图的相对位置关系，在所述至少两个概念中确定所述第一视图对应的概念；

根据所述第二视图与所述参考视图的相对位置关系，在所述至少两个概念中确定所述第二视图对应的概念；

确定所述第一视图对应的概念与所述第二视图对应的概念共有的所述第一概念；

根据所述第一概念，对所述第一特征图进行掩码池化操作，得到所述第一概念特征；

根据所述第一概念，对所述第二特征图进行掩码池化操作，得到所述第二概念特征。

在一些可选的实施例中，所述确定单元630还用于：

对所述第一视图对应的概念进行处理，使得所述第一视图对应的概念与所述第一特征图的空间维度相匹配；以及

对所述第二视图对应的概念进行处理，使得所述第二视图对应的概念与所述第二特征图的空间维度相匹配。

在一些可选的实施例中，所述训练单元640具体用于：

确定所述第一概念特征与所述第二概念特征之间的对比损失；

根据所述对比损失，对所述在线特征编码器进行更新，以对预训练模型进行训练。

在一些可选的实施例中，所述训练单元640具体用于：

根据所述第一概念特征、所述第二概念特征和存储在概念队列中的负样本的概念特征，确定所述对比损失。

在一些可选的实施例中，所述训练单元640还用于：

将所述第二概念特征加入所述概念队列中。

在一些可选的实施例中，所述在线特征编码器包括深度残差网络结构。

在一些可选的实施例中，所述第一样本包括数字病理全景图像。

应理解的是，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图5所示的装置600可以执行上述方法实施例，并且装置600中的各个模块的前述和其它操作和/或功能分别为了实现上述各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的装置600。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图6是本申请实施例提供的电子设备700的示意性框图。

如图6所示，该电子设备700可包括：

存储器710和处理器720，该存储器710用于存储计算机程序，并将该程序代码传输给该处理器720。换言之，该处理器720可以从存储器710中调用并运行计算机程序，以实现本申请实施例中的方法。

例如，该处理器720可用于根据该计算机程序中的指令执行上述方法实施例。

在本申请的一些实施例中，该处理器720可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器710包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器710中，并由该处理器720执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该电子设备中的执行过程。

如图6所示，该电子设备700还可包括：

收发器730，该收发器730可连接至该处理器720或存储器710。

其中，处理器720可以控制该收发器730与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器730可以包括发射机和接收机。收发器730还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该电子设备中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述方法实施例的方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种训练模型的方法，其特征在于，包括：

对无标签的第一样本进行聚类，得到至少两个概念，其中，所述概念为所述第一样本中由掩码注释的结构形式；所述第一样本为图像样本；

通过在线特征编码器得到所述第一样本的第一特征图，以及通过动量特征编码器得到所述第一样本的第二特征图，所述动量特征编码器是根据所述在线特征编码器的动量副本确定的，即所述动量特征编码器是由所述在线特征编码器中的对应部分动量更新得到的；

根据所述第一概念特征和所述第二概念特征，对所述在线特征编码器进行更新，以对预训练模型进行训练，其中，所述预训练模型包括所述在线特征编码器；

其中，所述通过在线特征编码器得到所述第一样本的第一特征图，以及通过动量特征编码器得到所述第一样本的第二特征图，包括：

对所述第一样本进行随机数据增强得到第一视图；

对所述第一样本进行随机数据增强得到第二视图；

2.根据权利要求1所述的方法，其特征在于，所述对无标签的第一样本进行聚类，得到至少两个概念，包括：

通过所述动量特征编码器得到所述参考视图的第三特征；

对所述第三特征进行聚类，得到所述至少两个概念。

3.根据权利要求2所述的方法，其特征在于，所述确定所述第一特征图中对应于第一概念的第一概念特征，以及确定所述第二特征图中对应于所述第一概念的第二概念特征，包括：

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述第一概念特征和所述第二概念特征，对所述在线特征编码器进行更新，以对预训练模型进行训练，包括：

根据所述对比损失，对所述在线特征编码器进行更新，以对所述预训练模型进行训练。

6.根据权利要求5所述的方法，其特征在于，所述确定所述第一概念特征与所述第二概念特征之间的对比损失，包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

将所述第二概念特征加入所述概念队列中。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述在线特征编码器包括深度残差网络结构。

9.根据权利要求1-4任一项所述的方法，其特征在于，所述第一样本包括数字病理全景图像。

10.一种训练模型的装置，其特征在于，包括：

聚类单元，用于对无标签的第一样本进行聚类，得到至少两个概念，其中，所述概念为所述第一样本中由掩码注释的结构形式；所述第一样本为图像样本；

获取单元，用于通过在线特征编码器得到所述第一样本的第一特征图，以及通过动量特征编码器得到所述第一样本的第二特征图，所述动量特征编码器是根据所述在线特征编码器的动量副本确定的，即所述动量特征编码器是由所述在线特征编码器中的对应部分动量更新得到的；

训练单元，用于根据所述第一概念特征和所述第二概念特征，对所述在线特征编码器进行更新，以对预训练模型进行训练，其中，所述预训练模型包括所述在线特征编码器；

其中，所述获取单元具体用于：

对所述第一样本进行随机数据增强得到第一视图；

对所述第一样本进行随机数据增强得到第二视图；

11.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有指令，所述处理器执行所述指令时，使得所述处理器执行权利要求1-9任一项所述的方法。

12.一种计算机存储介质，其特征在于，用于存储计算机程序，所述计算机程序包括用于执行权利要求1-9中任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序代码，当所述计算机程序代码被电子设备运行时，使得所述电子设备执行权利要求1-9中任一项所述的方法。