CN115004241A

CN115004241A - 基于深度学习的图像分割的移位不变损失

Info

Publication number: CN115004241A
Application number: CN202180009741.4A
Authority: CN
Inventors: C-H.吴; A.贝鲁兹
Original assignee: Verily Life Sciences LLC
Current assignee: Verily Life Sciences LLC
Priority date: 2020-01-17
Filing date: 2021-01-13
Publication date: 2022-09-02
Anticipated expiration: 2041-01-13
Also published as: CN115004241B; CN116486062A; EP4091093A1; US20220067944A1; US20210224999A1; US11756319B2; US11200676B2; WO2021146234A1

Abstract

公开了改进密集预测神经网络中对齐的系统和方法。一种方法包括在计算系统处识别输入数据集和标记数据集，其中输入数据集的一个或多个第一部分对应于标记。计算系统使用神经网络处理输入数据集，以生成标识输入数据集被预测为对应于标记的一个或多个第二部分的预测标记数据集。计算系统使用预测标记数据集和标记数据集来确定对齐结果，并且基于对齐结果来确定一个或多个第一部分的包括移位、旋转、缩放和/或变形的变换。计算系统使用变换、标记数据和预测标记数据集来计算损失分数，并且基于损失分数来更新神经网络。

Description

基于深度学习的图像分割的移位不变损失

背景技术

各种机器学习任务可以包括特征检测。特征检测任务可以包括图像分割、音频文件的语言处理或波形的频谱分析。例如，关于图像分析，图像分割可以包括特征检测，其可以包括检测图像中对象的边缘。边缘可以用于识别图像中的对象。然而，在训练期间，卷积神经网络的准确性可能受到输入图像和标记图像之间的对齐的显著影响。未对齐可能是由于输入和标记之间的差异、标记中的错误等。在一些情况下，未对齐可以通过手动调整输入图像和/或标记图像来解决。即使只有少量的训练示例，这也可能是耗时的，并且卷积神经网络的许多用途被用于处理大量图像。一些技术可能依赖于单独的神经网络来对齐输入和标记。然而，这可能是密集的，并且需要第二训练过程来训练对齐网络。这些和其他需求都得到了满足。

发明内容

一个实施例包括一种方法，该方法包括在计算系统处识别输入数据集，以及在计算系统处识别标记数据集，该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分。该方法还包括由计算系统使用神经网络处理输入数据集，以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集，以及由计算系统使用预测标记数据集和标记数据集来确定对齐结果。该方法还包括由计算系统并基于对齐结果，确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换。该方法还包括由计算系统使用变换、标记数据和预测标记数据集来计算损失分数，以及由计算系统基于损失分数来更新神经网络。

另一个实施例包括一种系统，该系统包括一个或多个处理器和存储多个指令的计算机可读介质，该多个指令在被执行时使得一个或多个处理器识别输入数据集，以及识别标记数据集，该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分。处理器还可以使用神经网络处理输入数据集，以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集，以及使用预测标记数据集和标记数据集来确定对齐结果。处理器还可以基于对齐结果来确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换。处理器还可以使用变换、标记数据和预测标记数据集来计算损失分数，以及基于损失分数来更新神经网络。

另一个实施例包括一种存储多个指令的非暂时性计算机可读介质，该多个指令在由一个或多个处理器执行时执行一种方法，该方法包括识别输入数据集，以及识别标记数据集，该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分。该方法还包括使用神经网络处理输入数据集，以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集，以及使用预测标记数据集和标记数据集来确定对齐结果。该方法还包括基于对齐结果来确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换，使用变换、标记数据和预测标记数据集来计算损失分数，以及基于损失分数来更新神经网络。

通过阅读以下详细描述，并适当参考附图，这些以及其他方面、优点和替代方案对于本领域普通技术人员来说将变得显而易见。

附图说明

图1示出了根据一些实施例的系统的示图。

图2是根据一些实施例的方法的流程图。

图3示出了根据一些实施例的方法的示例图像。

图4是根据一些实施例的方法的流程图。

图5是根据一些实施例的另一种方法的流程图。

图6A和图6B示出了根据一些实施例的利用方法的示例结果。

具体实施方式

在以下详细描述中，参考了附图，附图构成了描述的一部分。在附图中，类似的符号通常标识类似的组件，除非上下文另有指示。在详细描述、附图和权利要求中描述的说明性实施例不意味着是限制性的。在不脱离本文呈现的主题的范围的情况下，可以利用其他实施例，并且可以进行其他改变。将容易理解的是，如本文中一般描述的和在附图中示出的，本公开的各方面可以以多种不同的配置来布置、替换、组合、分离和设计，所有这些在本文中都是明确预期的。

一些实施例提供了对齐诸如图像分割网络的密集预测神经网络的特征和标记的系统和方法。在常规系统中，图像被输入到神经网络(例如，分割网络)中，以输出图像的预测标记。预测标记可以例如标识图像中可见的元素。可以使用损失函数将预测标记或预测标记集合与标记图像或标记图像集合进行比较。基于损失函数，可以调整神经网络以学习减少或最小化预测标记和地面真值标记之间的差异。然而，以这种方式训练的模型的准确性可能依赖于输入和标记之间的对齐。例如，一些图像可以从对应的标记图像移位或旋转。因此，由于对齐误差，被正确预测的图像可能看起来不准确，并且该模型可能具有持续的低准确性。

一些提出的解决方案包括为训练集中的每个图像手动识别对齐和/或手动检测未对齐的输入数据和输出特征/标记。然而，这是一个耗时的过程，尤其是对于包含数千或数百万训练样本的数据集。一些解决方案包括训练可以对齐标记和特征的单独模型。虽然这可能比手动标记更有效，但仍然需要单独开发和训练模型。

一些实施例提供了在训练机器学习模型时检测和校正未对齐的更高效和有效的方式。更具体地，在训练期间，输入图像可以被馈送到神经网络(例如，卷积神经网络)。输入图像可以包括图像的小块(patch)。神经网络可以生成预测标记数据集。预测标记数据集可以包括(例如)一个或多个标记，以及对于一个或多个标记中的每一个，对应于该标记的位置数据(例如，一个或多个像素的标识)。预测标记数据可以可替代地或可附加地为预测标记图像，该预测标记图像对于输入图像中的像素集合中的每一个包括与该像素相关联的标记(如果有的话)的标识。

预测标记图像可以与真实标记图像进行比较。该比较可以包括对齐预测标记图像和真实标记图像，然后比较标记。在一些情况下，真实标记图像可以被裁剪和填充(例如，用常数值)回原始大小。可以使用预测标记图像和真实标记图像来计算相似性度量。相似性度量可以指示真实标记图像和预测标记图像是否未对齐，如果是，未对齐多少。可以使用互相关、互信息技术或基于熵的技术来计算相似性度量。例如，相似性度量可以为预测标记图像相对于实际标记图像的潜在变换集合中的每一个标识质量度量和/或损失。可以选择对应于潜在变换集合中的最大质量度量和/或潜在变换集合中的最小损失的变换。

例如，互相关的最大值可以与预测标记图像向左换位10个像素相关联。然后，在计算损失之前，预测标记图像可以向左移位10个像素(或者真实标记图像可以向右移位10个像素)。作为另一个示例，基于互信息的技术(如基于Viola,Wells III,“Alignment byMaximization of Mutual Information”International Journal of Computer Vision,24(2)pg 137-154,1997所定义的，其通过引用整体结合于此，用于所有目的)可以用于确定互信息的最大值对应于真实标记图像相对于预测标记图像的5度逆时针旋转的变换。然后，真实标记图像可以逆时针旋转5度(预测标记图像可以顺时针旋转5度)。

损失(例如，L1损失和/或L2损失)然后可以在预测标记和变换的真实标记(或者变换的预测标记和真实标记)之间而不是在预测标记和标记之间被计算。然后，该损失函数的结果可以用于调整下一次训练迭代的神经网络权重。因此，随着每次迭代，可以以优化神经网络损失的方式调整对齐。一些实施例可以使用附加的神经网络来识别更复杂的卷绕变换。

图1示出了根据一些实施例的系统100的框图。系统100可以包括输入计算机110、标记计算机120、图像处理计算系统130和预测计算机140。系统100中的每个设备可以经由合适的通信网络(例如，互联网、广域网或局域网)与系统100中的一个或多个其他设备通信。在一些实施例中，系统100中的一个或多个计算机或计算系统可以是相同的设备和/或被包括在相同的计算系统中。

通信网络可以采取多种形式，包括例如蜂窝电话网络、陆线电话网络、诸如因特网的分组交换网络和/或这样的网络的组合。其他示例也是可能的。通信网络可以被配置用于执行各种操作，包括(例如)使用一个或多个协议促进输入计算系统110、标记计算系统120、图像处理计算系统130和预测计算系统140之间的通信。为了说明性目的，通信网络在图1中被描绘为单个通信网络，其中输入计算系统110、标记计算系统120、图像处理计算系统130和预测计算系统140可以通过其进行通信。输入计算系统110、标记计算系统120、图像处理计算系统130和/或预测计算系统140中的每一个可以包括一个或多个服务器、一个或多个处理器和/或一个或多个计算机，和/或输入计算系统110、标记计算系统120、图像处理计算系统130和/或预测计算系统140中的每一个可以被包括在包括一个或多个服务器、一个或多个处理器和/或一个或多个服务器的计算系统内。输入计算系统110、标记计算系统120、图像处理计算系统和/或预测计算机系统中的每一个可以包括被配置为存储指令的一个或多个存储器和/或一个或多个计算机可读介质，该指令在由一个或多个处理器执行时使得执行本文公开的一个或多个动作。然而，值得注意的是，通信网络可以包括两个或更多个单独的通信网络，每个单独的通信网络被配置用于促进选择的系统或设备之间的通信。

输入计算系统110可以生成或接收输入数据集。输入计算系统110可以包括输入传感器115或者与其通信。输入传感器115的示例可以包括相机(例如，连接到显微镜)、麦克风、光谱仪或者能够记录数据的一些其他传感器。在一些实施例中，输入传感器115可以在输入计算系统110的内部，并记录诸如CPU使用的内部数据。输入计算系统110可以是数字病理学系统，可以包括数字病理学系统，或者可以是数字病理学系统内的组件。在一些实施例中，输入计算系统110可以从其他源接收输入数据，诸如通过在网站上抓取(scrape)图像、从政府数据库(例如，NIH数据库)下载传感器数据和/或从客户端或用户设备接收图像和/或标记数据。输入计算系统110可以存储输入数据以用于以后检索。

将理解，输入数据集可以在一个或多个时间和/或从一个或多个源收集。例如，可以在第一时间经由输入传感器115和/或从政府数据库收集第一输入数据集(例如，与对应的标记数据相关联)，并且可以在稍后的第二时间从客户端设备收集第二输入数据集(例如，不与真实标记数据相关联)。在一些情况下，每个输入数据集包括数字图像集合。

输入计算系统110还可以通过例如归一化数据、移除噪声和标准化数据大小来预处理数据。预处理还可以包括将输入数据集划分为训练集、测试集和验证集，将输入数据集划分为批次(batch)，并将各个图像分为小块(例如，图像的裁剪版本)。输入计算系统110可以将输入数据集发送到标记计算系统120进行标记，并且发送到图像处理计算系统130进行处理(例如，通过神经网络635)。例如，输入计算系统110可以实施指示大于阈值大小(例如，在像素或体素的维度或数量方面)的任何图像要被划分为小块(例如，预定数量的小块、给定大小的小块和/或具有预定量的重叠的小块)的规则。

标记计算系统120可以识别输入数据集中的至少一些输入数据的标记。由标记计算系统120生成的标记可以是密集标记，使得数据的每个部分都具有标记(例如，猫的图像中的每个像素都被标记为猫的一部分或者不是猫的一部分)。在一些实施例中，标记计算系统120可以具有I/O设备，用于向操作者呈现输入数据并接收由操作者输入的标记。例如，标记计算系统120可以显示图像，并且人类操作者可以为该图像键入或选择适当的标记。在一些实施例中，标记计算系统120可以自动确定标记。在一些实施例中，标记计算系统120可以通过从源(例如，政府数据库)接收标记来确定标记。标记计算系统120可以从输入计算系统110接收要标记的输入数据。标记计算系统120可以将标记数据集传送到图像处理计算系统130进行处理(例如，通过神经网络135)。在一些实施例中，标记计算系统120可以发送标记数据集和输入数据集。

图像处理计算系统130可以使用一个或多个输入数据集和对应的标记来训练神经网络135。神经网络可以包括卷积神经网络和/或密集神经网络。一些输入数据和对应的标记可以用于验证和/或测试。一些输入数据(例如，不与标记相关联的)可以由(例如，经训练的)神经网络处理，该神经网络可以生成预测标记。对于一种或多种类型的对象或结构中的每一种，标记可以标识(例如)各个输入图像内的哪些像素是已知的或者被预测为与对象或结构类型相关联。在一些情况下，标记可以进一步标识给定对象或结构类型的各个实例。例如，标记可以标识被预测为与第一血管相关联的第一像素集合和被预测为与不同的第二血管相关联的第二像素集合。

图像处理计算系统130可以生成密集预测，诸如确定图像中事物的边界的分割，其中特征在光谱中，或者标识录音中的词语。图像处理计算系统130可以包括用于将输入数据与对应的标记相关联、计算对齐结果、确定标记数据的变换、计算损失分数以及更新神经网络的代码。在一些实施例中，图像处理计算系统130可以包括多于一个神经网络(例如，神经网络和卷绕神经网络)。卷绕神经网络可以被训练为识别被预测为对齐图像的预测标记图像或真实标记图像(其可以包括对应的小块)的卷绕或变形，并且神经网络可以用卷绕(预测或真实)图像和另一(真实或预测)图像进行训练，以学习如何基于输入图像预测标记数据。

预测计算系统140可以分析来自神经网络计算系统130的输出以生成预测。例如，神经网络计算系统130可以训练系统来识别将被染色的细胞图像的部分，然后为新的细胞图像生成染色预测。预测计算系统140然后可以分析染色预测，以评估细胞起源的组织的健康状况。

图2示出了根据一些实施例的对齐特征和标记的方法的流程图。该方法可以由包括一个或多个计算机的计算系统执行。

在框210，计算系统可以识别输入数据集。输入数据集可以包括要用于训练神经网络来预测标记的数据(例如，图像、光谱或音频文件)。在一些实施例中，计算系统可以例如从输入计算系统接收输入数据集。在一些实施例中，输入数据集可以被存储在计算系统的存储器中，并且计算系统可以从存储器中检索输入数据集。计算系统还可以预处理输入数据集，例如通过滤波、归一化、裁剪或重新采样数据。作为一个示例，计算系统可以接收图像。然后，计算系统可以通过将图像解析为组成输入数据集的小块集合来预处理图像。作为另一个示例，计算系统可以接收录音。计算系统然后可以通过将录音解析为组成输入数据集的剪辑(clip)集合来预处理录音。在一些实施例中，输入数据集可以在被识别之前被处理(例如，通过输入计算系统)。

在框220，计算系统可以识别标记数据集。标记数据集可以标识输入数据集对应于特定标记的一个或多个第一部分。标记数据集中的标记可以被称为地面真值标记。例如，标记数据集可以包括图像(被划分为更小的小块)，其中图像中的每个像素被标记为特定特征的一部分或者不是特定特征的一部分。与特征相关联的每个像素可以是一个或多个第一部分的一部分。作为另一个示例，基于光谱的标记数据集可以包括被标记为特定特征的一部分或者不是特定特征的一部分的每个波长。在一些实施例中，计算系统可以接收标记数据集。在其他实施例中，标记数据集可以被存储在计算系统的存储器中，并且计算系统可以从存储器中检索标记数据集。

在框230，计算系统可以用神经网络处理输入数据集，以生成预测标记数据集。预测标记数据集可以标识输入数据集被预测为对应于特定标记的一个或多个第二部分(例如，一个或多个像素)。由神经网络识别的一个或多个第二部分和标记数据集中的一个或多个第一部分之间的一致可以指示准确的预测。神经网络可以是分类神经网络，诸如卷积神经网络。在一些实施例中，神经网络可以是被配置为识别输入数据中的特征的分割网络。用神经网络处理输入数据集可以包括将输入数据集输入到神经网络中。在神经网络的每个层，可以计算输入数据的特征的函数(例如，平均输入图像中的像素值)。然后可以用最后一层的结果计算激活函数，以确定每个潜在标记的概率。预测标记可以是位置。例如，图像的预测标记可以包括特定特征的预测像素位置。在一些实施例中，计算系统可以处理输入数据集的子集(例如，批量或小批量)。在一些实施例中，计算系统可以处理输入数据集中的每个元素的一部分(例如，图像的小块)。例如，小块可以为100×100个像素。在一些实施例中，预测标记可以小于相关联的输入数据。例如，预测标记小块可以是输入图像的裁剪版本。预测标记可以用一个或多个平均值(例如，小块中的像素的平均强度)填充到相关联的输入数据的大小，形成填充的预测标记数据集。

在框240，计算系统可以确定预测标记数据集和标记数据集之间的对齐结果。在一些实施例中，可以为预测标记数据集中的每个预测标记计算对齐结果。可以用填充的预测标记数据集来计算对齐结果。对齐结果可以指示由神经网络为输入数据生成的预测标记和与输入数据相关联的标记数据集中的标记之间的差异。在一些实施例中，确定对齐结果可以用互相关技术来执行。互相关的输出指示哪里有预测标记和标记之间的最大对齐。在其他实施例中，可以用互信息技术或者通过计算构建损失(例如，L1损失、L2损失)来确定对齐结果。例如，对齐结果可以指示与标记相关联的像素和与预测标记相关联的像素之间的重叠量。对齐结果可以指示标记数据集(或标记数据集的子集)与预测标记数据集(或预测标记数据集的子集)对齐。预测标记数据集和标记数据集因此可以与对齐结果配准。

在框250，计算系统可以基于对齐结果来确定变换。变换可以包括输入数据集的一个或多个第一部分(标记中的那些)相对于输入数据集的一个或多个第二部分(预测标记中的那些)的移位、平移、旋转、缩放、剪切(shear)、变形以及变换的组合。例如，对齐结果可以指示如果标记向右移位20个像素，则出现图像的标记和图像的预测标记之间的最大对齐。在一些实施例中，计算系统可以确定标记数据集作为整体的变换。在其他实施例中，计算系统可以为标记数据集中的每个标记或者标记数据集的子集确定各个变换。如果对齐结果指示标记和预测标记是对齐的，则一些变换可以是无变换或恒等变换。计算系统然后可以使用该变换来变换标记数据集以形成移位标记数据集。在一些实施例中，可以将变换应用于整个标记数据集。可替代地，可以将变换应用于各个标记或标记组。

在框260，可以用移位标记数据集和预测标记数据集来计算损失分数。该损失可以是重构损失，并且可以用诸如L1或L2的损失函数来计算。损失分数可以指示由神经网络生成的预测的准确性。更高的损失分数可以指示更不准确的预测，并且更低的损失分数可以指示更准确的预测。与用标记数据集计算损失分数相比，用移位标记数据集计算损失分数可以导致更低的损失分数。由于移位标记已经被变换以增加与预测标记的对齐，因此损失分数可能更小，反映了增加的对齐。

在框270，计算系统可以基于损失分数来更新神经网络。例如，损失分数可以用于通过梯度下降来更新神经网络的权重。然后，可以用更新的神经网络重复框230至框270，进一步对齐标记数据集。可以重复处理数据、确定对齐结果、确定变换、计算损失分数和更新神经网络的动作，直到损失分数收敛和/或直到损失分数低于阈值。

因此，将理解，在一些情况下，不对齐标记可能导致更高的损失分数。因此，神经网络的训练可能是次优的，因为未对齐可能引入惩罚，这是对齐问题而不是标记预测问题的结果。通过首先对齐小块，所计算的损失可以更具体地涉及模型的标记预测性能。因此，可以训练参数来更具体地改进这种类型的预测。

图3示出了确定对齐结果和移位标记数据的示例。输入数据集可以是细胞的显微图像。

预测标记302可以是用特定染色特征标记的细胞的图像。预测标记302可能已经通过将初始更大的预测标记图像裁剪为预定义大小和/或裁剪预定义量，然后将裁剪的图像(例如，具有被设置为特定预定义值的强度的像素、通过裁剪排除的像素的平均值或中值和/或裁剪之后剩余的像素的平均值或中值)填充到原始大小来生成。可以用预测标记302和标记304来计算对齐结果，诸如互相关(C.C.)图306。标记304可以是地面真值标记(例如，如基于来自专家注释者的输入所识别的)。可以通过为成对的垂直和水平位移(或其他各种变换)集合中的每一个确定用位移和标记304变换的预测标记302的相关值来计算互相关图。因此，C.C.图306可以包括(例如)表示潜在水平移位的第一维度、表示潜在垂直移位的第二维度以及表示具有相应实施的移位的预测标记302和标记304之间的相关性强度的值。因此，与低值相比，高值可以指示对应的移位与更强的对齐预测相关联。

对齐结果可以用于变换标记304并生成移位标记308。例如，互相关图306中的最大值可以用于确定在哪里裁剪标记304以生成与预测标记302对齐的标记。然后，可以用裁剪的预测标记302A和裁剪的移位标记308A来计算损失分数。然后，该损失分数可以用于例如通过梯度下降更新生成预测标记的神经网络。

图4示出了对齐过程的训练流程图。

可以是输入数据集的一个元素的特征小块410可以被输入到神经网络420中。特征小块410可以是图像、音频文件等。在一些实施例中，特征小块410可以是输入数据元素的更小版本。特征小块410可以是图像、图像的小块、录音的剪辑或一些其他数据。特征小块可以被预处理，诸如被滤波或归一化。特征小块410可以是一次输入到神经网络420中的输入数据集的子集的一部分(例如，批量、小批量)。

特征小块410可以与标记小块430相关联。标记小块430实质上可以是特征小块410，但是特征小块410的一些或所有元素(例如，像素)中的每一个与标记相关联。例如，在部分描绘猫的图像中，标记小块中的每个像素可以被标记为猫的一部分或者不是猫的一部分。标记小块430可以包括输入数据集的一个或多个第一部分(例如，像素)。特征小块410可以是图像、图像的小块、录音的剪辑或一些其他数据。标记小块430可以被称为地面真值标记。标记可以由标记数据的人来施加，或者可以基于输入数据(例如，基于源)来生成。

神经网络420可以是卷积神经网络，诸如分割网络。神经网络可以被配置用于分割(例如，识别图像中的特征的边界)或一些其他密集预测任务。密集预测任务是对输入的每个元素都有预测的任务。作为一个示例，预测图像的每个像素是否是对象的一部分，如在分割中，是密集预测任务。在一些实施例中，神经网络420可以是卷积神经网络。合适的神经网络可以包括U-Net，除了下采样算子之外还包括上采样算子以增加输出分辨率的卷积神经网络。

神经网络420可以输出预测标记小块440，其中预测标记小块的每个元素(例如，每个像素)与特定标记相关联。预测标记小块可以包括输入数据集与特定标记相关联的一个或多个第二部分(例如，一个或多个像素)。例如，每个像素可以被标记为图像中的对象的一部分或者不是对象的一部分。在一些实施例中，预测标记小块440可以小于特征小块410。例如，特征小块410可以为256×256个像素，而预测标记小块440仅为100×100个像素。预测标记小块440可以用一个或多个平均值填充到特征小块410的大小。例如，可以将78个像素添加到预测标记小块440的每一侧，每个像素包括预测标记小块440的平均强度值，以形成256×256个像素的填充的预测标记小块。在其他实施例中，其他值可以用于填充，诸如预定常数、最小值或空值。

然后可以计算预测标记小块440和标记小块430之间的对齐结果。在一些实施例中，对齐结果可以通过互相关技术来确定。利用互相关技术，可以计算预测标记小块440和标记小块430之间的互相关，以生成图，其中图中的每个元素(例如，像素)指示互相关的结果。图上的位置的更大结果可以指示预测标记小块440和标记小块430之间的更多对齐。在其他实施例中，可以通过互信息技术或者利用损失函数(例如，L1损失、L2损失)来确定对齐结果。基于对齐结果，可以生成变换，诸如移位、缩放、旋转和/或以其他方式使标记小块430变形。该变换可以是应用于标记小块430的单个函数。在一些实施例中，该变换可以以增加对齐的方式将标记小块430的大小调整为与未填充的预测标记小块相同的大小。例如，如果对齐结果(例如，互相关图)指示在100×100像素的预测标记小块440和256×256像素的标记小块430的左上角之间有最大对齐，则该变换可以将标记小块430裁剪到左上角的100×100个像素。在一些实施例中，该变换可以包括缩放，并且标记小块430可以被适当地上采样或下采样。

该变换可以被应用于标记小块430，以生成移位标记小块450。然后，可以计算移位标记小块450和预测标记小块440之间的损失分数。例如，可以计算L1损失或L2损失分数。在一些实施例中，可以利用变换、标记小块430和预测标记小块440来计算损失分数，而不生成移位标记小块。在用于计算损失分数之前，可以从预测标记小块中移除填充。然后，该损失分数可以是在反向传播中用于更新和训练神经网络420的损失分数。以这种方式，神经网络420可以以优化神经网络420的预测准确性以及地面真值标记和相关联输入之间的对齐的方式进行训练。

图5示出了对齐过程的替代训练流程。通过向系统添加卷绕神经网络，图5的过程可以允许超越简单平移或旋转的更复杂的变换。特征小块502、相关联的标记小块508和神经网络504可以类似于图4的特征小块410、标记小块430和神经网络420。

特征小块502可以被输入到神经网络504和固定神经网络506中。神经网络504的输出可以被输入到固定卷绕神经网络510中。卷绕神经网络510可以确定神经网络504的输出的卷绕变换，即第一卷绕预测小块512。

特征小块502也可以被输入到固定神经网络506中。固定神经网络506可以是一些元素固定的神经网络504。固定神经网络506的输出可以被输入到卷绕神经网络514中。固定卷绕神经网络510可以是一些元素固定的卷绕神经网络514。卷绕神经网络514的输出可以是第二卷绕预测小块518。标记小块508然后可以与第一卷绕预测小块512和第二卷绕预测小块518组合，以生成卷绕标记小块520。该卷绕标记小块520可以用于计算损失分数并更新神经网络。卷绕神经网络能够确定任何空间卷绕，而不是简单的变换或变换的组合。

图6A和图6B示出了在虚拟染色的环境中使用互相关调整(C.C.A.)损失的模拟结果。图6A示出了用未用C.C.A.损失训练的神经网络Unet生成的示例染色图像。注意到图像的清晰度低，并且细节难以区分。图6B示出了用利用C.C.A.损失训练的神经网络Unet生成的示例染色图像。在该示例中可以观察到分辨率和图像质量方面的显著改进。

公开的系统和方法提供了多个优点。通过在计算损失的同时执行基于小块的对齐，可以改进依赖于损失的神经网络的训练，以产生更准确的训练神经网络。基于小块的对齐可以校正和/或减少局部未对齐(在每个训练小块的尺度上)，这不是可以通过全局变换或全局对齐技术容易校正的。

此外，依赖于处理预测标记图像(例如，预测标记小块)和真实标记图像(例如，真实标记小块)的所公开的实施例具有比较相同模态的图像的优点。也就是说，标记图像(例如，真实标记图像)不需要与输入图像进行比较，这可能涉及比较不同模态的图像。与依赖于跨不同模态比较数据的方法相比，相同模态方法可以具有不太模糊并且对未对齐更敏感的优点。

可附加地，分割或密集预测的质量以及对齐的质量可以同时和/或并发地被优化。该并发优化可以导致对齐和分割或密集预测之间的高度一致性，因为更好的分割或密集预测产生更好的对齐，反之亦然。对于密集预测，神经网络的更好优化可以导致更清晰的预测(例如，更锐利的图像预测、更清晰的音频预测)。

将容易理解的是，如本文中一般描述的和在附图中示出的，本公开的各方面可以以多种不同的配置来布置、替换、组合、分离和设计，所有这些在本文中都是明确预期的。虽然本文已经公开了各个方面和实施例，但是其他方面和实施例对于本领域技术人员来说将是显而易见的

示例方法和系统如上所述。应该理解，本文使用词语“示例”和“示例性”表示“用作示例、实例或说明”。本文描述为“示例”或“示例性”的任何实施例或特征不一定被解释为比其他实施例或特征更优选或更有利。在本文参考附图，附图构成其一部分。在附图中，类似的符号通常标识类似的组件，除非上下文另有指示。在不脱离本文呈现的主题的精神或范围的情况下，可以利用其他实施例，并且可以进行其他改变。本文公开的各个方面和实施例是为了说明的目的，而不是为了限制，真实的范围和精神在权利要求中指示。

Claims

1.一种方法，包括：

在计算系统处识别输入数据集；

在计算系统处识别标记数据集，该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分；

由计算系统使用神经网络处理输入数据集，以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集；

由计算系统使用预测标记数据集和标记数据集来确定对齐结果；

由计算系统并基于对齐结果，确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换；

由计算系统使用变换、标记数据和预测标记数据集来计算损失分数；以及

由计算系统基于损失分数来更新神经网络。

2.根据权利要求1所述的方法，还包括：

接收图像；以及

将图像解析为小块集合，其中输入数据集对应于小块集合。

3.根据权利要求1所述的方法，还包括：

接收录音；以及

将录音解析为剪辑集合，其中输入数据集对应于剪辑集合。

4.根据权利要求1所述的方法，其中，确定对齐结果包括使用预测标记数据集和标记数据集来执行互相关技术，或者使用预测标记数据集和标记数据集来执行互信息技术。

5.根据权利要求1所述的方法，其中，计算损失分数包括：

使用对齐结果将标记数据集和预测标记数据集配准。

6.根据权利要求1所述的方法，还包括：

裁剪预测标记数据集；以及

用一个或多个平均值填充预测标记数据集，其中对齐结果用填充的预测标记数据集来计算。

7.根据权利要求1所述的方法，还包括重复处理数据、确定对齐结果、确定变换、计算损失分数和更新神经网络的步骤，直到损失分数收敛。

8.一种系统，包括：

一个或多个处理器；和

计算机可读介质，存储多个指令，所述多个指令在被执行时使得一个或多个处理器：

识别输入数据集；

识别标记数据集，该标记数据集标识输入数据集对应于特定标记的一个或多个第一部分；

使用神经网络处理输入数据集，以生成标识输入数据集被预测为对应于特定标记的一个或多个第二部分的预测标记数据集；

使用预测标记数据集和标记数据集来确定对齐结果；

基于对齐结果，确定导致输入数据集的一个或多个第一部分相对于输入数据集的一个或多个第二部分的移位、旋转、缩放和/或变形的变换；

使用变换、标记数据和预测标记数据集来计算损失分数；以及

基于损失分数来更新神经网络。

9.根据权利要求8所述的系统，其中，所述多个指令在被执行时还使得所述一个或多个处理器：

接收图像；以及

将图像解析为小块集合，其中输入数据集对应于小块集合中的小块。

10.根据权利要求8所述的系统，其中，所述多个指令在被执行时还使得所述一个或多个处理器：

接收录音；以及

将录音解析为剪辑集合，其中输入数据集对应于剪辑集合中的剪辑。

11.根据权利要求8所述的系统，其中，确定对齐结果包括使用预测标记数据集和标记数据集来执行互相关技术，或者使用预测标记数据集和标记数据集来执行互信息技术。

12.根据权利要求8所述的系统，其中，计算损失分数包括：

使用对齐结果将标记数据集和预测标记数据集配准。

13.根据权利要求8所述的系统，其中，所述多个指令在被执行时还使得所述一个或多个处理器：

裁剪预测标记数据集；以及

14.根据权利要求8所述的系统，其中，所述多个指令在被执行时还使得所述一个或多个处理器重复处理数据、确定对齐结果、确定变换、计算损失分数和更新神经网络的步骤，直到损失分数收敛。

15.一种存储多个指令的非暂时性计算机可读介质，所述多个指令在由一个或多个处理器执行时执行方法，所述方法包括：

识别输入数据集；

使用预测标记数据集和标记数据集来确定对齐结果；

基于损失分数来更新神经网络。

16.根据权利要求15所述的非暂时性计算机可读介质，其中，所述方法还包括：

接收图像；以及

17.根据权利要求15所述的非暂时性计算机可读介质，其中，所述方法还包括：

接收录音；以及

18.根据权利要求15所述的非暂时性计算机可读介质，其中，确定对齐结果包括使用预测标记数据集和标记数据集来执行互相关技术，或者使用预测标记数据集和标记数据集来执行互信息技术。

19.根据权利要求15所述的非暂时性计算机可读介质，其中，计算损失分数包括：

使用对齐结果将标记数据集和预测标记数据集配准。

20.根据权利要求15所述的非暂时性计算机可读介质，其中，所述方法还包括：

裁剪预测标记数据集；以及