CN116490903A

CN116490903A - 表示学习

Info

Publication number: CN116490903A
Application number: CN202180075526.4A
Authority: CN
Inventors: J·迪佩尔; S·沃格勒; J·霍内
Original assignee: Bayer AG
Current assignee: Bayer AG
Priority date: 2020-11-20
Filing date: 2021-11-12
Publication date: 2023-07-25

Abstract

本文所公开的系统、方法和计算机程序涉及基于具有有限数目的经标记图像的图像训练数据对机器学习模型进行训练。

Description

表示学习

技术领域

本文所公开的系统、方法和计算机程序涉及基于具有有限数目的经标记图像的图像训练数据对机器学习模型的训练。

背景技术

机器学习模型接收输入，且基于所接收的输入和模型的参数值来生成输出(例如，预测输出)。

特别地，对于医疗应用而言，机器学习模型起着越来越重要的作用。

例如，机器学习模型可被用于向医护专业人员建议患者的一个或多个医学图像是否可能具有一个或多个给定的特征，从而使得医护专业人员能够诊断患者的医疗状况。

为了使机器学习模型执行此功能，需要使用经注释(经标记)的医疗训练图像来训练机器学习模型，所述经注释(经标记)图像指示训练图像是否具有一个或多个特征。例如，为了使机器学习模型能够发现图像中的一个状况，许多被注释为示出该状况的训练图像以及许多被注释为未示出该状况的训练图像可被用于训练机器学习模型。

然而，机器学习模型为此目的的成功的阻碍是医学图像中缺乏经注释(经标记)的大数据组。注释(标记)医学图像不但繁琐和耗时，而且需要昂贵的、专业性的知识和技能，而这些知识和技能不易获得。

因此，期望的是用于降低医学图像注释负担的新机制。

发明内容

此目标通过本公开内容的独立权利要求的主题来实现。在从属权利要求、本说明书和附图中可以找到优选的实施方案。

在第一方面，本公开内容提供一种(预)训练机器学习模型的计算机实施的方法，所述方法包括以下步骤：

-接收多个未经标记图像，

-从所述多个未经标记图像生成增强训练数据组，其中所述增强训练数据组包括第一组增强图像和第二组增强图像，其中所述第一组增强图像是通过对所述未经标记图像应用一种或多种空间增强技术而从所述未经标记图像生成的，其中所述第二组增强图像是通过对所述第一组增强图像的图像应用一种或多种掩膜增强技术而从所述第一组增强图像的图像生成的，

-在所述第一组增强图像和第二组增强图像上训练机器学习模型，

其中所述机器学习模型包括编码器-解码器结构，且在所述编码器的端部处具有对比输出，以及在所述解码器的端部处具有重构输出，

其中所述机器学习模型被训练为：

-经由所述重构输出，为所述第二组增强图像中的每个图像输出所述第一组增强图像中的对应图像，以及

-经由所述对比输出，将源自同一未经标记图像的增强图像与不源自同一未经标记图像的增强图像进行区分。

在第二方面，本公开内容提供了一种计算机系统，包括：

处理器；以及

存储器，存储应用程序，所述应用程序被配置为在被处理器运行时执行操作，所述操作包括：

-接收多个未经标记图像，

其中所述机器学习模型被训练为：

在第三方面，本公开内容提供了一种非暂时性计算机可读介质，在所述非暂时性计算机可读介质上储存有软件指令，当所述软件指令被计算机系统的处理器执行时，导致所述计算机系统执行以下步骤：

-接收多个未经标记图像，

其中所述机器学习模型被训练为：

具体实施方式

下文将在不对本发明的多个方面(方法、计算机系统、计算机可读存储介质)进行区分的情况下对本发明进行更具体的阐释。相反，无论下文的阐释出现在哪种上下文中(方法、计算机系统、计算机可读存储介质)，它们旨在类似地适用于本发明的所有方面。

如果在本描述或在权利要求中以一次序陈述了一些步骤，这未必意味着本发明被限制于所陈述的次序。相反，可设想，还可以不同的次序或者彼此平行地执行这些步骤，除非一个步骤建立在另一步骤之上，此当然需要所建立的步骤随后执行(然而，此在个体情况下是清楚的)。因此，所陈述的次序是本发明的优选实施方案。

如本文中所使用的，冠词“一”(a)和“一个”(an)旨在包括一个或多个项，且可与“一个或多个”和“至少一个”互换使用。如说明书和权利要求书中所使用的，除非上下文另有明确规定，“一”(a)、“一个”(an)和“所述”(the)的单数形式包括对复数的指代。如果旨在仅一项，则使用术语“一个”(one)或类似语言。另外，如本文中所使用的，术语“具有”(has)、“具有”(have)、“具有”(having)等旨在作为开放式术语。此外，除非另有明确陈述，短语“基于”旨在意味着“至少部分地基于”。此外，短语“基于”可意味着“响应于”，且指示用于自动触发本文适当地引用的电子设备(例如，控制器、处理器、计算设备等)的特定操作的条件。

下文将参考附图更充分地描述本公开内容的一些实施方式，在附图中示出了本公开内容的一些但非所有实施方式。事实上，本公开内容的多种实施方式可以许多不同的形式体现，不应被解释为限制于本文所述的实施方式；相反，所提供的这些示例性实施方式使得此公开内容将是全面和完整的，且将向本领域技术人员充分地传达本公开内容的范围。

在一方面，本公开内容提供了用未经标记图像来预训练机器学习模型的装置。所述预训练机器学习模型之后可被用于进一步训练以基于(相当少的一组)经标记图像来执行特定的任务。如本文所描述的预训练可显著地减少将机器学习模型训练成执行特定的任务所需的经标记图像的数目。因此，术语“相当少的一组经标记图像”意味着相比于直接地训练机器学习模型所需的图像，需要更少数目的图像。

如本文所使用的术语“图像”意味着表示物理信号的空间分布的数据结构。空间分布可具有任何维度，例如是2D、3D、4D或任何更高的维度。空间分布可具有任何形状，例如形成网格从而限定像素，所述网格可能是不规则的或规则的。物理信号可以是任何信号(例如，质子密度、组织回声强度、组织射线透射性、与血流有关的测量、磁场中旋转氢核的信息、颜色、灰度水平、深度、表面或体积占用率(occupancy))，使得图像可以是2D或3D RGB图像/灰度图像/深度图像，或3D表面/体积占用率模型。图像可以是合成图像(诸如，所设计的3D建模对象)，或者替代地是自然图像(诸如，摄影或视频中的帧)。

在本公开内容的一个优选实施方案中，图像是2D或3D医学图像。

医学图像是对人体或人体的一部分或者动物体或动物体的一部分的视觉表示。医学图像可被用于例如诊断目的和/或治疗目的。

用于生成医学图像的技术包括X射线照相、计算机断层扫描、荧光透视、核磁共振成像、超声波成像、内窥镜、弹性成像、触觉成像、热成像、显微镜检查、正电子成像以及其他技术。

医学图像的实施例包括：CT(计算机断层)扫描、X射线图像、MRI(核磁共振成像)扫描、荧光素血管造影图像、OCT(光学相干断层)扫描、组织病理学图像、超声波图像以及其他图像。

一种广泛使用的数字医学图像格式是DICOM格式(DICOM：医学数字成像和通信)。

在本公开内容的另一优选实施方案中，图像是一个或多个的植物或植物的一部分的摄影。摄影是由相机(包括RGB相机、高光谱相机、红外相机等)所拍摄的图像，这种相机包括用于在电磁辐射的帮助下对对象成像的传感器。图像可以例如示出被某种疾病(例如，真菌病)感染或被害虫(诸如，如毛毛虫、线虫、甲虫、蜗牛或可以导致植物损害的任何其他生物体)侵扰的一个或多个的植物或植物的一部分(例如，一个或多个叶子)。

在本公开内容的另一优选实施方案中，图像是由卫星或飞机(有人驾驶飞行器或无人驾驶飞行器)或它们的组合(遥感数据/图像)所拍摄的地球表面的一部分图像，诸如农田或森林或牧场。

“遥感”意味着在不与对象进行物理接触的情况下获取关于对象或现象的信息，因此与现场观察相反。该术语特别地适于获取关于地球的信息。遥感被用在许多领域(包括地理学、土地测绘和大多数地球科学学科(例如，水文学、生态学、气象学、海洋学、冰川学、地质学))中。

具体而言，术语“遥感”是指使用基于卫星或飞行器的传感器技术来对地球上的对象进行检测和分类。它基于所传播的信号(例如，电磁辐射)包括地表、大气和海洋。它可被分为“主动”遥感(当卫星或飞行器向对象发射信号，且它的反射被传感器检测到时)和“被动”遥感(当对阳光的反射被传感器检测时)。

可以从多种出版物(参见，例如N.Fareed:Intelligent High ResolutionSatellite/Aerial Imagery；Advances in Remote Sensing，2014，03.1-9.10.4236/ars.2014.31001；C.Yang等人：Using High-Resolution Airborne and SatelliteImagery to Assess Crop Growth and Yield Variability for PrecisionAgriculture，in Proceedings of the IEEE，第101卷，第3篇，第582-592页，2013年3月，doi：10.1109/JPROC.2012.2196249；P.Basnyat等人：Agriculture fieldcharacterization using aerial photograph and satellite imagery，in IEEEGeoscience and Remote Sensing Letters，第1卷，第1篇，第7-10页，2004年1月，doi：10.1109/LGRS.2003.822313；WO2018/140225；WO2020/132674；WO2019/217152)中找到关于遥感数据/遥感图像的细节。

用作输入数据的图像通常以数字格式可用。不以数字图像文件形式存在的图像(例如，彩色胶片上的经典摄影)可通过公知的转换工具(诸如，借助于图像扫描仪)而被转换为数字图像文件。

在第一步骤中，接收多个未经标记图像。通常，多个图像中的每个图像是同一对象或同一类对象的表示。

在医学图像的情况下，例如多个医学图像中的每个医学图像是对人体同一部位的表示，但通常取自不同的人，或者取自同一人但在不同的时间点。多个图像中的每个医学图像可以例如是对器官(如肝脏、心脏、大脑、肠道、肾脏、肺、眼睛等)的表示，可以是对身体的一部分(如胸部、胸腔、胃、皮肤等)的表示，或是对身体的任何其他器官或一部分的表示。

在植物或植物的一部分的照片的情况下，例如，多个图像中的每个图像可以是植物的同一部位(例如，叶子和/或果实)的表示，但通常取自不同的植物，或取自同一植物但在不同的时间点。

还可能的是，多个图像中的每个图像是对某个时间点的农田或地球表面的其他部分的表示。

多个图像中的每个图像通过至少一个特征(通常是许多特征)来表征。多个图像中的一些图像共享一个或多个特征，而其他的图像不示出所述一个或多个特征。所述一个或多个特征可以通过一个或多个标记来表示，这种标记提供关于多个图像中的一个图像是否示出所述一个或多个特征的信息。因此，经标记的图像是这样的图像：对于该图像而言，已知该图像是否具有所述一个或多个特征。因此，未经标记图像是不知晓或(尚)未确定该图像是否具有所述一个或多个特征的图像。

回到医学图像的实施例，所述一个或多个特征可以是例如所述图像中的疾病迹象，诸如病变、血管收缩、皮肤变化、骨折、肿瘤和/或可以在医学图像中被描绘的任何其他症状。这种一个或多个特征可以例如是指示某种疾病的迹象(参见，例如WO2018202541A1、WO2020185758A1、WO2020229152A1、US10761075、WO2021001318、US20200134358、US10713542)。

当然，还可以(同时)使用经标记图像对机器学习模型进行预训练。然而，标记信息对于预训练而言不是必须的，且所述预训练可在不使用标记信息的情况下完成。因此，术语“未经标记”不应被解释为本发明仅适用于未经标记图像，而是也适用于经标记图像以及包括经标记图像和未经标记图像的一组图像。

因此，在本公开内容的第一步骤中所接收的多个图像通常是未经标记图像，对于所述未经标记图像而言，不知晓或(尚)未确定该图像是否具有一个或多个特定(具体的/指定的/限定的)特征。

如本文所使用的术语“多个”意味着大于1，通常大于10，优选地大于100的整数。

多个未经标记图像被用于生成经增强的训练数据组。

图像增强是通常用于通过在数据组中创建图像的修改型式来人为地扩展训练数据组大小的技术。用于图像增强的修改技术包括几何变换、颜色空间增强、内核过滤、混合图像、随机擦除、特征空间增强、对抗性训练、生成式对抗网络、神经风格转移、元学习和/或类似技术。

可以对图像执行增强操作，随后将所得到的增强图像存储在非暂时性计算机可读存储介质上，以用于以后的训练目的。然而，还可以在“内存内(in-memory)”生成增强图像，使得增强图像可被临时地生成，且可被直接地用于训练目的，而无需将增强图像存储到非易失性储存介质中。

根据本公开内容的增强训练数据组包括两组增强图像，即第一组增强图像和第二组增强图像。

第一组增强图像通过对未经标记图像应用一种或多种第一增强技术生成。第二组增强图像通过对第一组增强图像的图像应用一种或多种第二增强技术生成。

第一组图像的图像在本文中还被称为第一增强图像，且第二组图像的图像在本文中还被称为第二增强图像。

优选地，第一组增强图像通过对未经标记图像应用一种或多种空间增强技术生成。空间增强技术(还被称为空间修改技术)的实施例包括刚性变换、非刚性变换、仿射变换和非仿射变换。

刚性变换不改变图像的尺寸或形状。刚性变换的实施例包括反射、旋转和平移。

非刚性变换能够改变图像的尺寸或形状，或改变图像的尺寸和形状这二者。非刚性变换的实施例包括膨胀和剪切。

仿射变换是一种保留了线条和平行度但未必保留距离和角度的几何变换。所述仿射变换的实施例包括平移、缩放、位似、相似、反射、旋转、剪切映射，以及它们的任何组合和顺序的构成。

优选地，一个或多个空间增强技术包括旋转、弹性变形、翻转、缩放、拉伸、剪切、裁剪、调整大小和/或它们的组合。

在一个优选实施方案中，将以下的第一(空间)增强技术中的一种或多种应用于图像：旋转、弹性变形、翻转、缩放、拉伸、剪切；优选地，在第一种或多种第一增强技术之后进行裁剪和/或调整尺寸。

从空间增强得到的图像还被称为空间增强图像。

优选地，第二组增强图像通过对第一组增强图像的图像应用一种或多种掩膜增强技术生成。掩膜增强技术(还被称为掩膜修改技术)的实施例包括(随机和/或预定义)切除(例如，内部切除和/或外部切除)，以及(随机和/或预定义)擦除。

增强技术在多种出版物中被更详细地描述。下文列表仅是小摘录：

旋转：D.Itzkovich等人：“Using Augmentation to Improve the Robustness toRotation of Deep Learning Segmentation in Robotic-Assisted Surgical Data，”2019International Conference on Robotics and Automation(ICRA)，蒙特利尔，QC，加拿大，2019，第5068-5075页，doi:10.1109/ICRA.2019.8793963。

弹性变形：E.Castro等人：“Elastic deformations for data augmentation inbreast cancer mass detection”，2018 IEEE EMBS International Conference onBiomedical Health Informatics(BHI)，第230-234页，2018。

翻转：Y.-J.Cha等人：Autonomous Structural Visual Inspection UsingRegion-Based Deep Learning for Detecting Multiple Damage Types，Computer-AidedCivil and Infrastructure Engineering，00，1-17.10.1111/mice.12334.

缩放：S.Wang等人：Multiple Sclerosis Identification by 14-LayerConvolutional Neural Network With Batch Normalization,Dropout,and StochasticPooling，Frontiers in Neuroscience，12.818.10.3389/fnins.2018.00818。

拉伸：Z.Wang等人：CNN Training with Twenty Samples for Crack Detectionvia Data Augmentation，Sensors 2020，20，4849。

剪切：B.Hu等人：A Preliminary Study on Data Augmentation of DeepLearning for Image Classification,Computer Vision and Pattern Recognition；机器学习(cs.LG)；图像和视频处理(eess.IV)，arXiv：1906.11887。

裁剪和调整尺寸：R.Takahashi等人：Data Augmentation using Random ImageCropping and Patching for Deep CNNs，Journal of Latex Class Files，第14卷，第8篇，2015，arXiv:1811.09030。

切除：T.DeVries和G.W.Taylor:Improved Regularization of ConvolutionalNeural Networks with Cutout，arXiv:1708.04552，2017。

擦除：Z.Zhong等人：Random Erasing Data Augmentation，arXiv：1708.04896，2017。

图1例示了从多个未经标记图像X生成第一组增强图像X_i和第二组增强图像

起点是多个图像X，在此实施例中是两个图像，即图像(0-1)和图像(0-2)。在第一步骤(110)中，从图像(0-1)和(0-2)生成第一组增强图像。第一组增强图像包括图像(1-1)、图像(1-2)、图像(1-3)和图像(1-4)。图像(1-1)和图像(1-2)是图像(0-1)的修改型式，而图像(1-3)和图像(1-4)是图像(0-2)的修改型式。换句话说：为多个图像中的每个图像创建数目为N个的副本，其中N是大于1的整数(i＝1，2，...，N)；在此实施例中，从多个图像中的每个图像生成两个副本(N＝2)。对于每个副本，应用一种或多种修改技术，从而生成增强图像。在增强步骤(110)的情况下，应用一种或多种空间修改技术，诸如旋转、缩放、平移、裁剪和/或调整大小。

在第二步骤(120)中，从第一组增强图像创建第二组增强图像。第二组增强图像包括图像(2-1)、图像(2-2)、图像(2-3)和图像(2-4)。第二组增强图像通过对空间增强图像(1-1)、(1-2)、(1-3)和(1-4)中的每个应用一种或多种修改技术生成。图像(2-1)从图像(1-1)生成，图像(2-2)从图像(1-2)生成，图像(2-3)从图像(1-3)生成，且图像(2-4)从图像(1-4)生成。在增强步骤(120)的情况下，应用一种或多种掩膜修改技术，诸如随机内部切除、随机外部切除和随机擦除技术。

图像(2-1)和图像(2-2)源自同一图像，即图像(0-1)。图像(2-3)和图像(2-4)来自于同一图像，即图像(0-2)。

增强训练数据组被用于机器学习模型的预训练。术语“预训练”是指用一个任务来训练机器学习模型，以帮助机器学习模型形成可在另一任务中使用的参数。换句话说：第一任务是训练一个模型以生成图像的表示，所述图像的表示之后可在其他任务(例如，进行分类、回归、重构、构建、分割或其他的任务)中使用。下面提供一些实施例。

如本文中所使用的，这种机器学习模型可被理解为计算机实施的数据处理架构。机器学习模型可以接收输入数据，且基于所述输入数据和机器学习模型(特别是，机器学习模型的参数)来提供输出数据。机器学习模型可通过训练来学习输入数据和输出数据之间的关系。在训练中，机器学习模型的参数可被调整，从而为给定的输入提供期望的输出。

机器学习模型的训练过程包括向机器学习算法(即，学习算法)提供训练数据，以便从中学习。术语经训练的机器学习模型是指通过训练过程所创建的人工模型。训练数据必须包含正确答案(所述正确答案被称为目标)。学习算法在训练数据中寻找将输入数据映射至目标的模式，且输出捕获这些模式的机器学习模型。

在训练过程中，训练数据被输入到机器学习模型中，且机器学习模型生成输出。将输出与(已知)目标进行比较。机器学习模型的参数被修改，从而将输出与(已知)目标之间的偏差减少到(限定的)最小值。

通常，损失函数可被用于训练，以评估机器学习模型。例如，损失函数可以包括输出与目标的比较度量。损失函数可被选择为使得它对输出与目标之间想要的关系进行奖励和/或对输出与目标之间不想要的关系进行惩罚。这种关系可以是例如相似性关系、或不相似性关系、或其他关系。

损失函数可被用于计算一对给定的输出与目标的损失值。训练过程的目标可以是修改(调整)机器学习模型的参数，从而将损失值减少到(限定的)最小值。

损失函数可例如量化机器学习模型对于给定输入的输出与目标之间的偏差。例如，如果输出与目标是数字，则损失函数可以是这些数字之间的差值，或者替代地是差值的绝对值。在此情况下，损失函数的高绝对值可能意味着模型的参数需要经历很大的变化。

在标量输出的情况下，损失函数可以是差值度量，诸如差值的绝对值、平方差。

在向量值输出的情况下，例如可以选择向量之间的差值度量(诸如，均方根误差、余弦距离)、差值向量的范数(诸如，欧几里德距离、切比雪夫距离)、差值向量的Lp-范数、两个向量的差值度量的加权范数或者任何其他类型。这两个向量例如可以是期望输出(目标)和实际输出。

在更高维度输出(诸如，二维输出、三维输出或更高维度输出)的情况下，例如可使用在元素方式(element-wise)的差值度量。替代地或附加地，在计算损失函数之前，可以将输出数据例如变换为一维向量。

经训练的机器学习模型可被用于对目标(尚)未知的新数据进行预测。下面对本公开内容的机器学习模型的训练进行更详细的描述。

优选地，根据本公开内容的机器学习模型是或包括人工神经网络。

人工神经网络是受生物学启发的计算机网络。人工神经网络是指针对所接收的输入，采用一个或多个层的非线性单元来预测输出的机器学习模型。

这种人工神经网络通常包括至少三层的处理元件：带有输入神经元的第一层，带有至少一个输出神经元的第N层，以及N-2个内层，其中N为大于2的自然数。在这种网络中，输入神经元用于接收输入数据。如果输入数据包含或包括图像，则通常针对输入图像的每个像素/体素存在一个输入神经元；可存在针对附加输入数据(诸如，关于输入图像所表示的对象、图像的类型、图像的获取方式和/或等的数据)的附加输入神经元。输出神经元用于输出一个或多个值，例如重构的图像、得分、回归结果和/或其他。

一些人工神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层都根据对应参数组的当前值从所接收的输入生成输出。

层的处理元件在它们之间以预定的模式且以预定的连接权重互连。

可用一组训练数据来执行训练。在训练时，处理元件之间的连接权重包含关于输入数据与输出数据之间的关系的信息。

每个网络节点可以表示对来自先前节点的输入的加权和的(简单)计算以及非线性输出函数。网络节点的组合计算将输入与输出关联。

可以用小随机值或者用先前部分训练网络的权重来初始化网络权重。训练数据输入被应用于网络，且为每个训练样本计算输出值。可将网络输出值与目标输出值进行比较。可应用反向传播算法，从而在减少所计算的输出与目标之间的误差的方向上校正权重值。所述过程被迭代，直到不能进一步减少误差或者直到达到预定的预测精度。

可以采用交叉验证方法来将数据分成训练数据组和验证数据组。训练数据组在网络权重的误差反向传播调整中被使用。验证数据组被用于验证经训练网络所概括的，以进行良好的预测。最佳的网络权重组可被认为是可能最佳预测测试数据组的输出的组。类似地，改变网络隐藏节点的数目，且确定使用数据组表现最佳的网络优化了隐藏节点的数目。

在一个优选实施方案中，机器学习模型是或包括卷积神经网络(CNN)。CNN是一类人工神经网络，最通常地被应用于例如分析视觉图像。CNN包括带有输入神经元的输入层、带有至少一个输出神经元的输出层以及位于输入层和输出层之间的多个隐藏层。

CNN的隐藏层典型地包括卷积层、ReLU(修正线性单元)层(即，激活函数)、池化层、全连接层和归一化层。

CNN输入层中的节点可被组织成一组“过滤器”(特征检测器)，每组过滤器的输出被传播到网络的连续层中的节点。CNN的计算包括对每个过滤器应用数学卷积操作，从而产生该过滤器的输出。卷积是一种专门的数学操作，被执行为通过两个函数来产生第三函数。在卷积网络的术语中，卷积的第一函数可被称为输入，而卷积的第二函数可被称为卷积核。输出可被称为特征图。例如，卷积层的输入可以是限定输入图像的多个颜色组分的数据的多维阵列。卷积核可以是参数的多维阵列，其中参数通过用于神经网络的训练过程来调整。

卷积操作的目的是提取特征(诸如，从输入图像提取边缘)。传统地，第一卷积层负责捕获低级别特征，诸如边缘、颜色、梯度取向等。随着层的增加，架构也适配于高级别特征，使网络对数据组中的图像具有全面的了解。类似于卷积层，池化层负责减少特征图的空间尺寸。它对于提取具有一定程度的旋转不变性和位置不变性的主导特征是有用的，从而维持对模型的有效训练过程。添加全连接层是一种学习高级别特征(由卷积部分的输出表示)的非线性组合的方式。

根据本公开内容的机器学习模型包括编码器-解码器结构(还被称为自编码器)。

自编码器是一类人工神经网络，用于以非监督方式来学习有效的数据编码。通常，自编码器的目的是通过将网络训练为忽略“信号噪声”来学习一组数据的表示(编码)，典型地用于维度缩减。伴随缩减侧(编码器)，还学习了重构侧(解码器)，其中自编码器尝试从缩减编码生成尽可能接近它的原始输入的表示。

U-网架构提供了编码器-解码器网络的潜在实施方式(参见，例如O.Ronneberger等人：U-net:Convolutional networks for biomedical image segmentation，arXiv：1505.04597，2015)。编码器和解码器之间可能存在跳跃连接(参见，例如Z.Zhou等人：ModelGenesis，arXiv:2004.07882)。

根据本公开内容的机器学习模型包括编码器-解码器结构，其中在编码器的端部处存在对比输出，且在解码器的端部处存在重构输出。

图2是本公开内容的机器学习模型的优选实施方案的示意性表示。机器学习模型包括一系列数学操作，所述数学操作可被归入编码器(E)和解码器(D)。编码器和解码器之间可以存在跳跃连接(如图4中所示)。

机器学习模型包括输入(I)、编码器的端部处的对比输出(CO)以及解码器的端部处的重构输出(RO)。机器学习模型还包括位于编码器的端部与对比输出(CO)之间的投射头(P)。投射头将由编码器(E)所生成的表示映射到应用对比损失的空间(更多细节参见下文)。

对于机器学习模型的预训练，第二组增强图像被用作机器学习模型的输入。

机器学习模型以非监督训练进行训练：

-经由重构输出(输出图像)为第二组增强图像(输入图像)中的每个图像输出第一组增强图像中的对应图像，且同时地

-经由对比输出，将该组增强图像中源自同一未经标记图像的增强图像与不源自同一未经标记图像的增强图像进行区分。

换句话说：本公开内容的机器学习模型通过同时执行两个任务来学习生成输入图像的表示：

-重构图像(重构任务)，

-经由(潜在空间中的)对比损失，使得同一输入图像的不同增强型式之间的一致性最大化(对比任务)。

重构任务基于将第二组增强图像作为人工神经网络的输入且将第一组增强图像作为人工神经网络在解码器的端部处的输出来执行。

如上文已经解释的，第二组增强图像从第一组增强图像生成。对于第二组图像中的每个图像，在第一组图像中都存在通过应用一种或多种(第二)图像修改技术(优选地，掩膜技术(诸如，随机切除和/或随机擦除))所创建的图像。

重构任务的目的是从第二组增强图像的图像来生成第一组增强图像的对应图像，这是第一组增强图像中生成第二组增强图像的图像的图像。

输入图像与输出图像之间的均方误差(MSE)可被用作图像重构任务的目标函数(重构损失)。此外，Huber损失、交叉熵以及其他函数可被用作图像重构任务的目标函数。

从图像的修改(增强)型式重构图像在例如Z.Zhou等人：Model Genesis,arXiv:2004.07882中进行了描述。Zhou等人所生成的机器学习模型被称为通用自学模型(GenericAutodidact Models)。为了训练通用自学模型，通过模型执行重构任务且计算重构损失。Zhou等人所公开的训练的目的是使得重构损失最小化。相反，在本公开内容的情况下，通过机器学习模型执行组合的重构任务和对比任务。

对比任务还基于将第二组增强图像作为机器学习模型的输入来执行。对于对比任务而言，可以计算对比损失。这种对比损失可以例如是归一化温度标度交叉熵(NT-Xent)(参见，例如T.Chen等人：“A simple framework for contrastive learning of visualrepresentations”，arXiv preprint arXiv:2002.05709,2020，特别是公式(1))。Chen等人所公开的框架也被称为SimCLR(用于视觉表示的对比学习的简单框架(Simple Frameworkfor Contrastive Learning of Visual Representations))。

关于对比学习的进一步细节，还可以在以下中找到：P.Khosla等人：SupervisedContrastive Learning，Computer Vision and Pattern Recognition；arXiv:2004.11362[cs.LG]；J.Dippel,S.Vogler,J,Towards Fine-grained VisualRepresentations by Combining Contrastive Learning with Image Reconstructionand Attention-weighted Pooling,arXiv:2104.04323v1[cs.CV])。

图3(a)和图3(b)示意性地示出了机器学习模型的训练。在图3(a)中，图2的机器学习模型以压缩格式示出。图3(b)示出了图1的第二组增强图像被用作机器学习模型的输入(I)，且所述模型被训练以重构图1的第一组增强图像X_i且经由重构输出(RO)来输出经重构的图像。

换句话说：经由重构输出(RO)，机器学习模型学习从输入图像重构用于生成所述输入图像的对应图像。图像(2-1)从图像(1-1)生成的(参见图1)。因此，机器学习模型学习从图像(2-1)重构图像(1-1)。同样地，机器学习模型学习从图像(2-2)重构图像(1-2)，从图像(2-3)重构图像(1-3)，从图像(2-4)重构图像(1-4)。

经由对比输出(CO)，机器学习模型学习将源自同一图像的图像与不源自同一图像的图像进行区分。在此实施例中，图像(2-1)和图像(2-2)都源自图像(0-1)(参见图1)，因此源自同一图像。因此，此对图像的对比输出(CO)为吸引(attraction)，由符号指示。另外，图像(2-3)和图像(2-4)源自同一图像，即图像(0-2)(参见图1)。因此，此对图像的对比输出(CO)也为吸引，由符号/>指示。输入到机器学习模型的所有其他对图像都不源自同一图像；因此，所有其他对图像的对比输出(CO)为排斥(repulsion)，由符号/>指示。

在一个优选实施方案中，在编码器的端部与对比输出之间引入可学习的非线性变换。这种非线性变换提高了所学习的表示的质量。此可以例如通过在编码器的端部处引入神经网络投射头来实现，所述投射头将所述表示映射到应用对比损失的空间。所述投射头可以例如是带有一个隐藏ReLU(ReLU：修正线性单元)层的多层感知机。

为了组合学习生成图像重构和对比图像，可以从重构损失和对比损失生成组合损失函数。组合损失函数可以例如是重构损失和对比损失的和或积。还可以在添加损失函数或与损失函数相乘之前应用某一权重，从而与一个损失函数相比，为另一损失函数赋予更多权重。

计算组合损失函数L的一个实施例是：

L＝α·L_c+β·L_r

其中α和β是用于权衡损失的权重因子，例如相比于某一损失，赋予另一损失更大的权重。α和β可以是大于零的任何值；通常α和β表示大于零且小于或等于一的值。在α＝β＝1的情况下，赋予每一损失相同的权重。注意，在训练过程中，α和β可以变化。例如，可以在训练过程开始时，相比于重构损失，赋予对比损失更大的权重；且一旦深度神经网络在执行对比学习任务时获得了预定的准确性时，在赋予重构任务更大权重的情况下完成训练。

重构损失L_r评估重构质量。输入与输出之间的均方误差(MSE)可以用作目标函数，所述目标函数用于重构的代理任务。此外，Huber损失、交叉熵和其他函数可被用作目标函数，所述目标函数用于重构的代理任务。

对于对比损失L_c而言，可使用归一化温度标度交叉熵(NT-Xent)(参见，例如T.Chen等人：“A simple framework for contrastive learning of visualrepresentations”，arXiv preprint arXiv:2002.05709,2020，特别是公式(1))。关于对比学习进一步细节，还可以在以下中找到：P.Khosla等人：Supervised ContrastiveLearning，Computer Vision and Pattern Recognition；arXiv:2004.11362[cs.LG]；J.Dippel,S.Vogler,J,Towards Fine-grained Visual Representations byCombining Contrastive Learning with Image Reconstruction and Attention-weighted Pooling，arXiv:2104.04323v1[cs.CV])。

图4示意性地示出了根据本公开内容的机器学习模型的一个实施例。图4中所描绘的机器学习模型是具有一个输入和两个输出的深度神经网络。所述模型架构可被划分为四个部分：编码器e(·)、解码器d(·)、注意力(attention)加权池化a(·)和投射头p(·)。

对于深度神经网络的编码器和解码器而言，可以使用多种骨架，诸如U-net(参见，例如O.Ronneberger等人：U-net:Convolutional networks for biomedical imagesegmentation，in:International Conference on Medical image computing andcomputer-assisted intervention,第234-241页，Springer，2015，https://doi.org/10.1007/978-3-319-24574-4_28)或DenseNet(例如G.Huang等人：“Densely connectedconvolutional networks”，IEEE Conference on Computer Vision and PatternRecognition，2017，第2261-2269页，doi：10.1109/CVPR.2017.243.)。

注意力加权池化机制为激活图中的每个坐标计算权重，然后在应用全局平均池化之前分别对它们进行加权。对于进一步的细节，参见例如A.Radford等人：Learningtransferable visual models from natural language supervision，https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf，2021，arXiv:2103.00020[cs.CV])。在例如arXiv:2104.04323v1[cs.CV]中也给出了一个实施例。

投射头将所述表示映射到应用对比损失的空间。所述投射头可以是例如带有一个隐藏ReLU(ReLU：修正线性单元)层的多层感知机。

在训练过程中，模型接收经掩膜的图像且输出重构的(未经掩膜的)图像以及对比向量表示Z_i＝p(a(e(X_i)))。

所述模型接收人工掩膜的图像且任务是重构X_i。对于每个输入/>所述模型还输出对比表示Z_i，如果两个输入来自同一原始未经标记图像，则对比表示Z_i被优化为(a)相似的，如果两个输入来自不同的原始未经标记图像，则对比表示Z_i被优化为(b)不相似的。

预训练机器学习模型可被存储在数据存储器上和/或例如经由网络被传输至另一计算机系统。

根据本公开内容的预训练机器学习模型或其一部分可被用于多种目的，下面将描述其中一些目的。

再次参考图4，一旦完成训练，就可以丢弃投射头p(·)和解码器d(·)，且可以使用包括编码器e(·)和注意力池化a(·)的剩余神经网络来生成带有h_i＝a(e(X))的图像表示。

预训练机器学习模型的编码器可以例如被用作建立分类器的基础。预训练机器学习模型的编码器从输入到编码器中的图像生成图像的潜在表示向量。分类头可以被添加到编码器的端部，且所得到的人工神经网络可以在一组经标记图像上进行最终训练(微调)，进而根据图像的标记对图像进行分类。

这种分类器可以例如被用于诊断决策支持。这种方法的目的是基于患者身体或患者身体的一部分或者植物或植物的一部分的一个或多个图像来识别某种状况，诸如疾病。

经常地，仅少量的经标记(经注释)图像可用于训练机器学习模型，从而基于图像来识别某种状况。例如，在罕见疾病的情况下，患有罕见疾病的患者的图像的数目通常非常少。基于示出罕见疾病迹象的仅少量图像来训练机器学习模型以识别患有罕见疾病的患者不能得出有用的预测模型。罕见疾病的一个实施例是慢性血栓栓塞性肺动脉高压(CTEPH)。可以基于患者胸部的CT扫描来诊断CTEPH(参见，例如WO2018202541A1、WO2020185758A1、M.Remy-Jardin等人：Machine Learning and Deep Neural Network Applications inthe Thorax:Pulmonary Embolism,Chronic Thromboembolic Pulmonary Hypertension,Aorta,and Chronic Obstructive Pulmonary Disease，J Thorac Imaging 2020，35Suppl1：S40-S48)。一个挑战是患有CTEPH的患者的图像的数目有限。

本发明的优势是在第一步骤中，第一机器学习模型在多个未经标记图像上被预训练。第一模型学习生成图像的语义丰富(semantic-enriched)表示。在第二步骤中，通过一组相对少的可用经标记(经注释)图像来进一步训练(微调)，从而从第一机器学习模型来创建第二机器学习模型。第二机器学习模型被训练为例如基于所述图像对患者进行分类。

另一用途实例是基于整张切片图像研发病理学的决策支持系统(参见，例如G.Campanella等人：Clinical-grade computational pathology using weaklysupervised deep learning on whole slide images，Nat Med 25，第1301-1309页(2019)，https://doi.org/10.1038/s41591-019-0508-1)。

另一用途实例是基于肿瘤组织的组织病理学图像来识别指示患者有NTRK致癌融合的候选标志(参见，例如WO2020229152A1)。

另一用途实例是从胸部X射线中检测肺炎(参见，例如Radiologist-LevelPneumonia Detection on Chest X-Rays with Deep Learning；arXiv：1711.05225)。

另一用途实例是在重症监护患者中检测ARDS(参见，例如WO2021110446A1)。

根据本公开内容的预训练机器学习模型还可被用于分段目的。如本文中所使用的，术语分段是指将图像分割成多个段(即，像素/体素组，还称为图像对象)的过程。分段的目的是将图像的表示简化和/或改变为更有意义且更易分析的某物。图像分段典型地被用于定位图像中的对象和边界(线、曲线等)。更确切地，图像分段是为图像中的每个像素/体素分配标记的过程，使得带有相同标记的像素/体素共享某些特性。为了生成能够执行分段任务的机器学习模型，可以移除编码器的端部处的对比输出，且可基于经标记图像来训练所得到的编码器-解码器结构。经标记图像的训练组包含具有段的图像以及相应的不具有段的图像。机器学习模型学习对图像进行分段，且最终经训练的机器学习模型可被用于对新图像进行分段。

在多种出版物和教科书中更详细地描述了对图像的分段(参见，例如L.Lu等人：Deep Learning and Convolutional Neural Networks for Medical Image Computing:Precision Medicine：Precision Medicine，High Performance and Large-ScaleDatasets，Advances in Computer Vision and Pattern Recognition，Springer，2017，ISBN 9783319429991；WO2019/002474；WO2020/036734)。

预训练模型还可被用于基于一个或多个测量的(真实)图像来生成合成图像。

合成图像可以是例如从原始(未经分段)图像所生成的分段图像(参见，例如WO2017/091833)。

合成图像可以例如是从原始MRI图像所生成的合成CT图像(参见，例如WO2018/048507A1)。

合成图像可以例如是从零对比度图像和低对比度图像所生成的合成全对比度图像(参见，例如WO2019/074938A1)。在此情况下，输入数据组包括两个图像，即一个零对比度图像和一个低对比度图像。

然而，还可能的是，合成图像是从一个或多个图像与诸如关于由所述一个或多个图像所表示的对象的数据的进一步的数据组合而生成的。

根据本文教导的操作可以由至少一个专门构建用于期望目的的计算机系统执行，或者由至少一个通用计算机系统来执行，所述通用计算机系统被配置为通过存储在典型非暂时性计算机可读存储介质中的至少一个计算机程序而用于期望目的。

本文所使用的术语“非暂时性”排除暂时性的、传播信号或波，但在其他方面包括适合本应用的任何易失性的或非易失性的计算机存储器技术。

“计算机系统”是一种用于电子数据处理的系统，其借助于可编程的计算规则来处理数据。这种系统通常包括“计算机”，所述计算机是指包括用于执行逻辑操作的处理器以及还有外围设备的单元。

在计算机技术中，“外围设备”是指连接至计算机的所有设备，且用于控制计算机和/或用作输入和输出设备。它们的实施例为显示器(屏幕)、打印机、扫描仪、鼠标、键盘、驱动器、相机、麦克风、扬声器等内部端口，且扩展卡也被认为是计算机技术中的外围设备。

当今的计算机系统经常被划分为台式PC、便携式PC、膝上型计算机、笔记本计算机、上网本和平板PC以及所谓的手持设备(例如，智能手机)；所有这些系统都可被用于实施本发明。

上文所使用的术语“处理”旨在包括对数据进行任何类型的计算或操纵或变换，所述数据以物理(例如，电子)现象表示，所述物理现象可以发生或驻留在例如至少一个计算机或处理器的寄存器和/或存储器中。术语处理器包括单个处理单元或多个分布式或远程的此类单元。

任何合适的输入设备(诸如但不限于，相机传感器)可被用于生成或以其他方式提供由本文所示出的和所描述的系统以及方法所接收的信息。任何合适的输出设备或显示器可被用于显示或输出由本文所示出的和所描述的系统以及方法所生成的信息。任何合适的处理器可被采用来计算或生成如本文所描述的信息和/或执行本文所描述的功能和/或实施本文所描述的任何引擎、界面或其他系统。任何合适的计算机数据存储(例如，计算机存储器)可被用于存储本文所示出的和所描述的系统所接收或所生成的信息。本文所示出的和所描述的功能可在服务器计算机与多个客户端计算机之间进行划分。本文所示出的和所描述的这些或任何其他计算机组件可经由合适的计算机网络在它们之间进行通信。

图5更详细地例示了根据本公开内容的一些示例实施方式的计算机系统(1)。

通常，本公开内容的示例性实施方式的计算机系统可被称为计算机，且可包括、包含或体现在一个或多个固定式或便携式电子设备中。计算机可以包括数个组件中的每一个的一个或多个，例如，包括连接到存储器(50)(例如，存储设备)的处理单元(20)。

处理单元(20)可包括单独的一个或多个处理器，或者包括一个或多个处理器结合一个或多个存储器。处理单元通常是能够处理信息(诸如，数据、计算机程序和/或其他合适的电子信息)的任一件计算机硬件。处理单元包括电子电路的集合，其中一些电子电路集合可以被封装为集成电路或者多个相互连接的集成电路(集成电路有时更普遍地被称为“芯片”)。处理单元可以被配置为执行计算机程序，所述计算机程序可被存储在处理单元上，或者被存储在同一计算机或另一计算机的存储器(50)中。

取决于具体的实施方式，处理单元(20)可以是数个处理器、多核处理器或某一其他类型的处理器。此外，处理单元可以使用数个异构处理器系统来实施，在所述异构处理器系统中，主处理器与一个或多个辅助处理器一起存在于单个芯片上。作为另一例示性实施例，处理单元可以是包含相同类型的多个处理器的对称式多处理器系统。在又一实施例中，处理单元可以体现为或包括一个或多个ASIC、FPGA等。因此，尽管处理单元能够执行计算机程序来运行一个或多个功能，但是多个实施例的处理单元也能够在没有计算机程序的帮助下运行一个或多个功能。在任一实例中，处理单元都可以被适当地编程以执行根据本公开内容的示例实施方式的功能或操作。

存储器(50)通常是能够存储信息的任一件计算机硬件，所述信息诸如是数据、计算机程序(例如，计算机可读程序代码(60))和/或其他合适的临时性和/或永久性信息。存储器可以包括易失性存储器和/或非易失性存储器，且可以是固定的或可移动的。合适的存储器的实施例包括：随机存取存储器(RAM)、只读存储器(ROM)、硬盘、闪存、指状存储器、可移动计算机软盘、光盘、磁带或上述的组合。光盘可以包括只读式光盘存储器(CD-ROM)、可读/写光盘存储器(CD-R/W)、DVD、蓝光盘等。在多种实例中，存储器可被称为计算机可读存储介质。计算机可读存储介质是能够存储信息的非暂时性设备，且不同于计算机可读传输介质(诸如，能够将信息从一个位置携带到另一位置的电子暂态信号)。本文所描述的计算机可读介质通常指计算机可读存储介质或计算机可读传输介质。

除了存储器(50)之外，处理单元(20)还可被连接至用于显示、传输和/或接收信息的一个或多个接口。所述接口可包括一个或多个通信接口和/或一个或多个用户接口。通信接口可以被配置为传输和/或接收信息，诸如传输信息至其他计算机、网络、数据库等和/或从其他计算机、网络、数据库等接收信息。通信接口可被配置为通过物理(有线)通信链接和/或无线通信链接来传输和/或接收信息。通信接口可包括诸如使用诸如蜂窝电话、Wi-Fi、卫星、电缆、数字用户线(DSL)、光纤等技术来连接至网络的接口(41)。在一些实施例中，通信接口可包括一个或多个短程通信接口(42)，所述短程通信接口(42)被配置为使用短程通信技术(诸如，NFC、RFID、蓝牙、蓝牙LE、ZigBee、红外线(例如，IrDA)或等)来连接设备。

用户接口可包括显示器(30)。显示器可被配置为向用户呈现或显示信息，合适的实施例包括液晶显示器(LCD)、发光二极管显示器(LED)、等离子体显示器面板(PDP)等。用户输入接口(11)可以是有线的或无线的，且可被配置为从用户接收信息到计算机系统(1)，诸如用于处理、存储和/或显示。用户输入接口的合适实施例包括麦克风、图像或视频捕获设备、键盘或小键盘、操纵杆、触敏表面(与触摸屏分开或集成到触摸屏中)等。在一些实施例中，用户接口可包括用于机器可读信息的自动识别和数据捕获(AIDC)技术(12)。这可包括条形码、射频识别(RFID)、磁条、光学字符识别(OCR)、集成电路卡(ICC)等。用户接口可进一步包括用于与诸如打印机等的外围设备通信的一个或多个接口。

如上文所指示的，程序代码指令可被存储在存储器中，且由在此被编程的处理单元来执行，以实施本文所描述的系统、子系统、工具以及它们相应元件的功能。如将领会，任何合适的程序代码指令都可从计算机可读存储介质被加载到计算机或其他可编程装置上，以产生特定的机器，从而使所述特定的机器成为用于实施本文所规定的功能的装置。这些程序代码指令还可被存储在计算机可读存储介质中，所述程序代码指令指示计算机、处理单元或其他可编程装置以特定的方式运作，从而生成特定的机器或特定的制品。存储在计算机可读存储介质中的指令可以生产制品，其中所述制品成为实施本文所描述的功能的装置。程序代码指令可从计算机可读存储介质检索且被加载到计算机、处理单元或其他可编程装置中，从而配置计算机、处理单元或其他可编程装置来执行待在所述计算机、处理单元或其他可编程装置上执行或待由所述计算机、处理单元或其他可编程装置执行的操作。

可依序进行对程序代码指令的检索、加载和执行，使得逐个的检索、加载和执行指令。在一些示例实施方式中，检索、加载和/或执行可以并行执行，使得多个指令一起被检索、加载和/或执行。对程序代码指令的执行可产生计算机实施过程，使得由计算机、处理电路或其他可编程装置所执行的指令提供了用于实施本文所描述的功能的操作。

由处理单元执行指令或者将指令存储在计算机可读储存介质中支持用于执行指定功能的操作组合。以此方式，计算机系统(1)可包括处理单元(20)以及耦合至处理电路的计算机可读存储介质或存储器(50)，其中处理电路被配置为执行存储在存储器中的计算机可读程序代码(60)。还将理解，可由基于执行规定功能的基于硬件的专用计算机系统和/或处理电路，或者专用硬件和程序代码指令的组合来实施一种或多种功能以及功能组合。

图6以流程图的形式示意性和示例性地示出了根据本公开内容的方法的一个实施方案。方法M1包括以下步骤：

(100)接收多个未经标记图像；

(110)将一种或多种空间增强技术应用于所述未经标记图像，从而从多个未经标记图像生成第一组增强图像；

(120)对所述第一组增强图像中的图像应用一种或多种掩膜增强技术，从而从所述第一组增强图像生成第二组增强图像；

(130)在所述第一组增强图像和第二组增强图像上训练第一机器学习模型，其中所述机器学习模型包括编码器-解码器结构，且在所述编码器的端部处具有对比输出，以及在所述解码器的端部处具有重构输出，其中所述机器学习模型被训练为：

图7以流程图的形式示意性和示例性地示出了根据本公开内容的方法的另一实施方案。方法M2包括以下步骤：

(200)接收多个未经标记图像；

(210)将一种或多种空间增强技术应用于所述未经标记图像，从而从多个未经标记图像生成第一组增强图像；

(220)对所述第一组增强图像中的图像应用一种或多种掩膜增强技术，从而从所述第一组增强图像生成第二组增强图像；

(230)在所述第一组增强图像和第二组增强图像上训练第一机器学习模型，其中所述机器学习模型包括编码器-解码器结构，且在所述编码器的端部处具有对比输出，以及在所述解码器的端部处具有重构输出，其中所述机器学习模型被训练为：

-经由所述对比输出，将源自同一未经标记图像的增强图像与不源自同一未经标记图像的增强图像进行区分；

(240)从所述经训练的第一机器学习模型生成第二机器学习模型，所述生成包括：从所述编码器-解码器结构提取所述编码器，从所提取的编码器生成分类器，在包括经标记图像的训练组上训练所述分类器。

图8以流程图的形式示意性和示例性地示出了根据本公开内容的方法的另一实施方案。方法M3包括以下步骤：

(300)接收多个未经标记图像；

(310)将一种或多种空间增强技术应用于所述未经标记图像，从而从多个未经标记图像生成第一组增强图像；

(320)对所述第一组增强图像中的图像应用一种或多种掩膜增强技术，从而从所述第一组增强图像生成第二组增强图像；

(330)在所述第一组增强图像和第二组增强图像上训练第一机器学习模型，其中所述机器学习模型包括编码器-解码器结构，且在所述编码器的端部处具有对比输出，以及在所述解码器的端部处具有重构输出，其中所述机器学习模型被训练为：

(340)从经训练的第一机器学习模型生成第二机器学习模型，所述生成包括：从所述经训练的第一机器学习模型提取所述编码器-解码器结构，从所述编码器-解码器结构生成分段网络，在包括经标记图像的训练组上训练所述分段网络。

本公开内容的进一步优选实施方案为：

1.一种计算机实施的方法，所述方法包括以下步骤：

-接收多个未经标记图像，

-在所述第一组增强图像和第二组增强图像上训练第一机器学习模型，

其中所述机器学习模型被训练为：

2.根据实施方案1所述的方法，包括以下步骤：

-接收多个未经标记图像，

-从所述多个未经标记图像生成第一组增强图像，从而对所述未经标记图像应用一种或多种空间修改技术，

-从所述第一组增强图像生成第二组增强图像，从而对所述第一组增强图像的图像应用一种或多种掩膜增强技术，

-在所述第一组增强图像和第二组增强图像上训练第一机器学习模型，其中所述机器学习模型包括编码器-解码器结构，且在所述编码器的端部处具有对比输出，以及在所述解码器的端部处具有重构输出，其中所述机器学习模型被训练为：

●经由所述重构输出，为所述第二组增强图像中的每个图像输出所述第一组增强图像中的对应图像，以及

●经由所述对比输出，将源自同一未经标记图像的增强图像与不源自同一未经标记图像的增强图像进行区分。

3.根据实施方案1或2所述的方法，其中所述未经标记图像和/或经标记图像是医学图像。

4.根据实施方案1至3中的任一项所述的方法，其中将以下技术中的一种或多种应用至所述未经标记图像：旋转、弹性变形、翻转、缩放、拉伸、剪切、裁剪、调整大小和/或它们的组合。

5.根据实施方案1至4中的任一项所述的方法，其中将以下技术中的一种或多种应用至所述第一组增强图像的图像：内部切除、外部切除、擦除和/或它们的组合。

6.根据实施方案1至5中的任一项所述的方法，其中所述输入图像与输出图像之间的交叉熵损失函数的均方误差函数、Huber损失函数被用作目标函数，所述目标函数用于重构图像的代理任务。

7.根据实施方案1至6中的任一项所述的方法，其中对比损失函数用作用于区分任务的目标函数。

8.根据实施方案1至7中的任一项所述的方法，其中在所述编码器的端部处引入了神经网络投射头，所述投射头将所述表示映射至应用对比损失的空间中。

9.根据实施方案1至8中的任一项所述的方法，还包括以下步骤：

-从所述第一机器学习模型生成第二机器学习模型，所述生成包括基于来自所述编码器-解码器结构的编码器来创建分类器；

-在包括经标记图像的训练组上训练所述分类器。

10.根据实施方案1至8中的任一项所述的方法，还包括以下步骤：

-从所述第一机器学习模型生成第二机器学习模型，所述生成包括从所述第一机器学习模型提取经训练的第一机器学习模型的编码器-解码器结构；

-基于所述经标记图像来训练所述编码器-解码器结构，以对图像进行分段。

11.预训练的神经网络，所述预训练的神经网络通过根据实施方案1至8中的任一项所述的方法来生成。

12.经训练的神经网络，所述经训练的神经网络通过根据实施方案9或10所述的方法来生成。

13.根据实施方案11所述的预训练模型来生成分类器的用途，所述生成分类器通过从所述第一机器学习模型提取所述编码器-解码器结构的编码器且通过在包括经标记图像的训练组上训练所提取的编码器来进行。

14.根据实施方案12所述的经训练模型用于对图像进行分类和/或分段的用途，所述图像特别是医学图像。

15.一种计算机系统，包括：

处理器；以及

存储器，存储应用程序，所述应用程序被配置为在被处理器执行时执行操作，所述操作包括：

-接收多个未经标记图像，

-从所述多个未经标记图像生成增强训练数据组，其中所述增强训练数据组包括第一组增强图像和第二组增强图像，其中所述第一组增强图像是通过对所述未经标记图像应用空间增强技术而从所述未经标记图像生成的，其中所述第二组增强图像是通过对所述第一组增强图像的图像应用掩膜增强技术而从所述第一组增强图像的图像生成的，

其中所述机器学习模型被训练为：

16.一种非暂时性计算机可读介质，在所述非暂时性计算机可读介质上存储有软件指令，当所述软件指令由计算机系统的处理器执行时，导致所述计算机系统执行以下步骤：

-接收多个未经标记图像，

其中所述机器学习模型被训练为：

17.一种识别患者的医学图像中指示疾病的一个或多个迹象的方法，所述方法包括以下步骤：

-提供经训练的机器学习模型，

-将医学图像输入到所述经训练的机器学习模型中，

-从所述经训练的机器学习模型接收信息作为输出，所述信息指示所述医学图像中是否存在一个或多个迹象，

-输出所述信息，

其中经训练的机器学习以根据实施方案1至10中的任一项所述的方法被(预)训练。

18.一种识别患者的医学图像中指示疾病的一个或多个迹象的方法，所述方法包括以下步骤：

-提供经训练的机器学习模型，

-将医学图像输入到所述经训练的机器学习模型中，

-输出所述信息，

其中所述经训练的机器学习模型基于多个未经标记图像进行预训练，且基于经标记图像进行最终训练，其中所述预训练包括以下步骤：

-接收多个未经标记图像，

其中所述机器学习模型被训练为：

○经由所述重构输出，为所述第二组增强图像中的每个图像输出所述第一组增强图像中的对应图像，以及

○经由所述对比输出，将源自同一未经标记图像的增强图像与不源自同一未经标记图像的增强图像进行区分，

-基于来自所述编码器-解码器结构的编码器来生成分类器，

-在包括所述经标记图像的训练组上训练所述分类器，其中经训练的分类器构成所述经训练的机器学习模型。

19.一种对图像进行分段的方法，所述方法包括以下步骤：

-提供经训练的机器学习模型，

-将医学图像输入到所述经训练的机器学习模型中，

-从所述经训练的机器学习模型接收经分段的图像作为输出，

-输出所述经分段的图像，

其中经训练的机器学习根据实施方案1至10中的任一项所述的方法被(预)训练。

20.一种对图像进行分段的方法，所述方法包括以下步骤：

-提供经训练的机器学习模型，

-将医学图像输入到所述经训练的机器学习模型中，

-从所述经训练的机器学习模型接收经分段的图像作为输出，

-输出所述经分段的图像，

-接收多个未经标记图像，

其中所述机器学习模型被训练为：

-从所述第一机器学习模型提取预训练的机器学习模型的编码器-解码器结构，

-基于所述经标记图像对所述编码器-解码器结构进行训练，以对图像进行分段，其中经训练的分类器构成所述经训练的机器学习模型。

21.一种基于一个或多个经测量图像来生成合成图像的方法，所述方法包括以下步骤：

-提供经训练的机器学习模型，

-将所述一个或多个经测量图像输入到所述经训练的机器学习模型中，

-从所述经训练的机器学习模型接收合成图像作为输出，

-输出所述合成图像，

22.一种基于一个或多个经测量图像来生成合成图像的方法，所述方法包括以下步骤：

-提供经训练的机器学习模型，

-从所述经训练的机器学习模型接收合成图像作为输出，

-输出所述合成图像，

-接收多个未经标记图像，

其中所述机器学习模型被训练为：

-基于所述经标记图像来训练所述编码器-解码器结构，以对图像进行分段，其中经训练的分类器构成所述经训练的机器学习模型。

实施例

来自ModelNet(http://modelnet.cs.princeton.edu/)的图像被用于(基于未经标记的图像)预训练第一机器学习模型以及基于经标记图像训练(微调)从第一机器学习所生成的线性分类器。

图像标识模型(第一机器学习模型)在99％的未经标记图像上进行训练。线性分类器(第二机器学习模型)在1％的经标记的嵌入式数据(每类3个样本)上进行训练。

遵循以下三种不同的方法：根据本公开内容的方法(在下文中被称为ConRec)、Zhou等人所公开的方法(arXiv:2004.07882，在下文中被称为通用自学模型)，以及Chen等人所公开的方法(arXiv:2002.05709，在下文中被称为SimCLR)。更多细节请参见：arXiv:2104.04323v1[cs.CV]。

所述不同方法的精度为：

ConRec	通用自学模型	SimCLR
			59,84％	56％	53,6％

因此，本公开内容的机器学习模型(ConRec)优于通用自学模型以及SimCLR模型。

Claims

1.一种计算机实施的方法，所述方法包括以下步骤：

-接收多个未经标记图像，

-从所述多个未经标记图像生成增强训练数据组，其中所述增强训练数据组包括第一组增强图像和第二组增强图像，其中所述第一组增强图像是通过对所述未经标记图像应用一种或多种空间增强技术而从所述未经标记图像生成的，其中所述第二组增强图像是通过对所述第一组增强图像中的图像应用一种或多种掩膜增强技术而从所述第一组增强图像的图像生成的，

-在所述第一组增强图像和所述第二组增强图像上训练第一机器学习模型，

其中所述机器学习模型被训练为：

2.根据权利要求1所述的方法，其中所述未经标记图像是医学图像。

3.根据权利要求2所述的方法，其中所述未经标记图像是植物或植物一部分的图片。

4.根据权利要求1至3中的任一项所述的方法，其中将以下技术中的一种或多种应用至所述未经标记图像：旋转、弹性变形、翻转、缩放、拉伸、剪切、裁剪、调整大小和/或它们的组合。

5.根据权利要求1至4中的任一项所述的方法，其中将以下技术中的一种或多种应用至所述第一组增强图像的图像：内部切除、外部切除、擦除和/或它们的组合。

6.根据权利要求1至5中的任一项所述的方法，其中对所述第一机器学习模型的训练包括以下步骤：

-将所述第二组增强图像中的第一图像输入到所述机器学习模型中，

-经由所述机器学习模型的重构输出，接收第一重构图像，

-将所述第一重构图像与第一组增强图像中生成第二组增强图像中的第一图像的图像进行比较，其中比较包括使用重构损失函数来计算重构损失，所述重构损失是由所述机器学习模型执行重构任务的目标函数，

-将所述第二组增强图像中的第二图像输入到所述机器学习模型中，

-经由所述对比输出来接收信息，所述信息指示所述第二组增强图像中的第一图像与所述第二组增强图像中的第二图像是源自同一未经标记图像，还是源自不同的未经标记图像，

-使用对比损失函数来计算对比损失，所述对比损失函数是所述机器学习模型执行对比任务的目标函数，

-从所述重构损失和所述对比损失计算组合损失，

-以最小化所述组合损失的方式来修改所述机器学习模型的参数。

7.根据权利要求1至6中的任一项所述的方法，其中在所述编码器的端部处引入神经网络投射头，所述投射头将所述表示映射至应用对比损失的空间，其中所述投射头执行可学习的非线性变换。

8.根据权利要求1至7中的任一项所述的方法，还包括以下步骤：

-从所述第一机器学习模型生成第二机器学习模型，所述生成包括基于来自所述编码器-解码器结构的编码器来创建分类器，

-在包括经标记图像的训练组上训练所述分类器。

9.根据权利要求1至8中的任一项所述的方法，还包括以下步骤：

-从所述第一机器学习模型生成第二机器学习模型，所述生成包括从所述第一机器学习模型提取所述编码器-解码器结构，

-基于所述经标记图像来训练所述编码器-解码器结构，从而对图像进行分段。

10.一种预训练的神经网络，所述预训练的神经网络通过根据权利要求1至9中的任一项所述的方法生成。

11.一种经训练的神经网络，所述经训练的神经网络通过根据权利要求8或9所述的方法生成。

12.根据权利要求10所述的预训练模型用于生成分类器的用途，所述生成分类器通过从第一机器学习模型的编码器-解码器结构提取编码器且在包括经标记图像的训练组上训练所提取的编码器进行。

13.根据权利要求11所述的经训练模型用于对图像进行分类和/或分段的用途，所述图像特别是医学图像或患病植物或受害虫侵害植物或植物一部分的照片。

14.一种计算机系统，包括：

处理器；以及

-接收多个未经标记图像，

其中所述机器学习模型被训练为：

15.一种非暂时性计算机可读介质，在所述非暂时性计算机可读介质上存储有软件指令，当所述软件指令由计算机系统的处理器执行时，导致所述计算机系统执行以下步骤：

-接收多个未经标记图像，

其中所述机器学习模型被训练为：