CN111680721B

CN111680721B - 利用硬性注意力的准确且可解释的分类

Info

Publication number: CN111680721B
Application number: CN202010419464.1A
Authority: CN
Inventors: G.埃尔赛德; S.科恩布利思; Q.V.勒
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-05-16
Filing date: 2020-05-18
Publication date: 2024-01-02
Anticipated expiration: 2040-05-18
Also published as: US20200364540A1; US11475277B2; CN111680721A

Abstract

总体上，本公开针对新颖的机器学习分类模型，其利用硬性注意力操作以做出离散的注意力动作。本公开还提供了一种自我监督的预训练过程，该过程将模型初始化为具有更频繁奖励的状态。仅给定一组训练输入(例如图像)的真值分类标签，所提出的模型就能够学习离散注意力位置上的策略，该策略标识与分类相关的输入的某些部分(例如图像的块)。以这种方式，模型能够提供高精度的分类，同时还为决策提供了明确且可解释的基础。

Description

利用硬性注意力的准确且可解释的分类

相关申请的交叉引用

本申请要求于2019年5月16日提交的美国临时专利申请号62/848,945的优先权。美国临时专利申请号62/848,945的全部内容通过引用合并于此。

技术领域

本公开总体上涉及机器学习。更具体地，本公开涉及机器学习模型及其训练技术，其能够使用硬性注意力来生成针对输入(例如，图像)的分类，从而提高分类的可解释性。

背景技术

人工神经网络和其他机器学习模型在包括分类任务在内的许多不同任务上实现了最先进的性能。例如，卷积神经网络(CNN)在许多图像分类任务上都达到了最先进的性能。但是，由于诸如CNN的神经网络计算输入的非线性函数，因此难以解释其决策。

因此，尽管卷积神经网络(CNN)在许多计算机视觉任务上取得成功，但主要由于无法解释CNN预测，它们在某些关键应用中被缓慢部署。尤其是，CNN计算其输入的非常复杂的函数，这使得不清楚输入的哪些方面有助于预测。

尽管许多研究人员已经尝试设计用于解释CNN和其他机器学习模型决策的方法，但是尚不清楚这些阐释是否忠实地描述了其意图阐释的模型。此外，对立的机器学习研究表明，图像像素的微小变化会改变分类器决策，这突显了CNN分类器的直观性。

提供更可解释的决策的一类有趣的模型是“硬性”视觉注意力模型。这些模型通常依赖于控制器，该控制器选择输入的相关部分来做出决策，其通过设计提供了可解释性。这些模型受人类视觉的启发，其中中央凹和视觉系统仅在高分辨率处理视觉场景的有限部分，而自上而下的路径控制眼睛的运动以顺序采样视觉场景的显著部分。

尽管利用硬性注意力的模型在诸如MNIST之类的简单数据集上表现良好，但是将这些模型从小任务扩展到现实世界图像一直是具有挑战性的。此外，仅利用类别标签监督来训练硬性注意力模型是具有挑战性的。例如，在大型图像中，动作空间是高维的，并且奖励稀疏，这通常会导致优化过程失败。

发明内容

本公开的实施例的方面和优点将在以下描述中部分地阐述，或者可以从描述中获悉，或者可以通过对实施例的实践而获悉。

本公开的一个示例方面针对一种利用硬性注意力执行分类的计算机系统。该计算系统包括机器学习分类模型。机器学习分类模型包括表示模型，该表示模型被配置为接收和处理包括多个部分的输入，以分别为输入的多个部分生成多组特征。机器学习分类模型包括分类模型，该分类模型被配置为接收和处理多组特征，以针对输入的多个部分中的每一个生成相应的分类数据。机器学习分类模型包括注意力模型，该注意力模型被配置为接收和处理多组特征，以在一个或多个迭代中的每个处选择输入的多个部分中的被注意部分。在一个或多个迭代的每个处，机器学习分类模型被配置为输出相应的预测，该预测包括在这样迭代处由注意力模型选择的输入的被注意部分的相应分类数据。该计算系统包括一个或多个处理器以及存储指令的一个或多个非暂时性计算机可读介质，该指令在由一个或多个处理器执行时使计算机系统执行操作。该操作包括获得包括多个部分的输入。这些操作包括将输入输入到机器学习分类模型中。该操作包括在一个或多个迭代的每个处，接收相应的预测作为机器学习分类模型的输出。

本公开的其他方面针对各种系统、装置、非暂时性计算机可读介质、用户界面和电子设备。

参考以下描述和所附权利要求，将更好地理解本公开的各种实施例的这些和其他特征、方面和优点。并入本说明书中并构成本说明书的一部分的附图示出了本公开的示例实施例，并且与描述一起用于解释相关原理。

附图说明

在说明书中阐述了针对本领域普通技术人员的实施例的详细讨论，该说明书参考附图，其中：

图1描绘了根据本公开的示例实施例的示例机器学习分类模型的框图。

图2描绘了根据本公开的示例实施例的示例机器学习分类模型的框图。

图3描绘了根据本公开的示例实施例的示例扫视器单元的框图。

图4A描绘了根据本公开的示例实施例的示例计算系统的框图。

图4B描绘了根据本公开的示例实施例的示例计算设备的框图。

图4C描绘了根据本公开的示例实施例的示例计算设备的框图。

图5描绘了根据本公开的示例实施例的用于利用硬性注意力训练和使用机器学习的分类器模型的示例方法的流程图。

图6示出了示例输入图像600。

在多个附图上重复的参考数字旨在标识各种实施方式中的相同特征。

具体实施方式

总览

总体上，本公开针对新颖的机器学习分类模型，其利用硬性注意力操作以做出离散的注意力动作。本公开还提供了一种自我监督的预训练过程，该过程将模型初始化为具有更频繁奖励的状态。仅给定一组训练输入(例如图像)的真值(ground truth)分类标签，所提出的模型就能够学习离散注意力位置上的策略，该策略标识与分类相关的输入的某些部分(例如图像的块)。以这种方式，模型能够提供高精度的分类，同时还为决策提供了明确且可解释的基础。

更具体地，采用硬性注意力的模型仅基于输入的子集(例如，输入图像中的像素的子集)做出决策。在计算机视觉或其他图像处理应用中，这通常采取一系列图像的正方形“瞥见”的形式。

利用硬性注意力的模型难以利用基于梯度的优化来训练。为了使培训更容易处理，其他模型也诉诸于软性注意力。典型的软性注意力机制在网络的一个或多个阶段重新缩放特征。用于重新缩放的软性掩膜通常看起来可以为模型的决策作出过程提供一些洞悉，但是模型的最终决策可能仍然依赖于权重较小的特征提供的信息。

相反，本公开提出了新颖的硬性觉注意力模型和训练该模型的新颖的训练过程。所提出的模型和训练过程克服了高维度和奖励稀疏的问题，这些问题使硬性注意力模型难以优化。所提出的模型将动作空间精细地离散为许多部分(例如，输入图像的重叠部分)，这允许注意到输入(例如图像)中的相关特征，同时克服了处理连续动作空间的复杂性。在一些实施方式中，可以使用预训练过程来训练模型，以将模型预调节到良好的初始点，在该初始点，对于策略梯度优化而言奖励不稀疏。

本公开提供了许多技术效果和益处。作为一个示例技术效果和益处，本文所述的机器学习分类模型进行操作以提供具有硬性注意力输出的分类。因此，明确标识了输入中被依赖以达到分类的部分。这使得该模型提供的分类对人类而言更容易解释，这使得将分类模型应用于各种问题能够变得更加可行。也就是说，对于其中决策基础被要求或应当可解释的某些问题，机器学习技术先前尚未被应用，因此尚未接收到其产生的诸如推断速度和高精度等的益处。这样，本公开的系统和方法允许机器学习的更广泛使用，并且因此使得对于新的领域和用例能够实现提高的处理速度和预测精度。此外，本公开的系统和方法提供了相对于其他硬性注意力方法具有最先进的准确率的分类。因此，可以产生更准确的分类，这使得下游过程能够以提高的准确率和效率进行操作。

作为另一示例技术效果和益处，在过去，没有注意力监督的硬性注意力模型的训练一直是具有挑战性的，导致准确率低和注意力位置差。困难源于以下事实：很难明确量化给定决策的图像中的显著位置是什么。例如，在诸如ImageNet之类的大型图像中，动作空间是高维的，并且奖励稀疏，这通常导致优化过程失败。优化过程失败导致诸如处理器使用、内存使用和网络使用之类的计算资源浪费。但是，本公开提供了一种预训练过程，该预训练过程可以用于将模型预调节到良好的初始点，在该初始点，对于策略梯度优化而言奖励不稀疏。这导致优化过程的成功率更高。这样，系统和方法减少了诸如处理器使用、存储器使用和网络使用之类的计算资源的消耗。

美国临时专利申请号62/848,945描述了本公开的系统和方法的示例实施方式以及这种示例实施方式的示例实验结果。美国临时专利申请号62/848,945被完全结合到本公开中并且形成本公开的一部分。

现在参考附图，将进一步详细讨论本公开的示例实施例。

示例机器学习模型

图1描绘了根据本公开的示例实施例的示例机器学习分类模型10的框图。示例机器学习分类模型10被配置为接收包括多个部分的一组输入数据20。机器学习分类模型10被配置为处理输入数据20，以针对一个或多个迭代中的每一个产生针对每个迭代的预测30。

输入数据20可以描述任何类型的输入，包括例如图像数据、音频数据和/或文本数据。输入数据20的各部分可以是重叠的或不重叠的。作为一个示例，输入数据20的部分可以包括图像的重叠块。作为另一示例，输入数据20的部分可以包括文本数据的部分(例如，单词、音素、n元语法、字素或其他部分)。作为另一示例，输入数据20的部分可以包括输入的部分的嵌入或其他预处理的表示。作为又一示例，输入数据20的部分可以包括由一个或多个传感器生成的传感器数据的部分。

针对每个迭代的预测30可以包括相对于多个类别的输入数据20的分类(例如，与导致该分类的输入数据20的部分的特定一个部分的标识一起)。分类可以是二进制分类，也可以采取置信度得分、概率值或分类的其他数字表示的形式。

根据本公开的方面，机器学习分类模型10可以包括表示模型12、分类模型14和注意力模型16。模型12、14和16中的每一个可以是或包括各种类型的机器学习模型，如本文其他地方所描述的，包括但不限于人工神经网络(以下简称“神经网络”)。示例神经网络包括卷积神经网络。

表示模型12可以被配置为接收和处理包括多个部分的输入数据20，以分别为输入数据20的多个部分生成多组特征22。可以为输入数据20的每个部分生成一组特征22。

分类模型14可以被配置为接收和处理多组特征22，以为输入的多个部分中的每一个生成相应的分类数据24。例如，由分类模型14针对输入20的多个部分中的每一个产生的相应分类数据24可以是或包括为多个候选分类标签中的每一个提供值的对数几率(logit)矢量。

注意力模型16可以被配置为接收和处理多组特征22，以在一个或多个迭代的每一个处选择输入的多个部分中的被注意部分26。如图1中所示，在一些实施方式中，注意力模型16还可以从分类模型14接收数据(例如，从分类模型14接收内部表示，其可以被称为中间分类)，并且注意力模型16可以使用这样的数据有助于选择每个迭代的被注意部分26。

在一个或多个迭代的每个迭代处，机器学习分类模型10可以被配置为输出相应的预测30，该预测30包括注意力模型16在这样的迭代处选择的输入的被注意部分26的相应分类数据24。例如，在每个迭代处，可以执行硬性注意力操作28以选择与由注意力模型16选择的被注意部分26相关联的分类数据24。

如本文其他地方所述，在一些实施方式中，可以针对所有迭代从预测30生成最终分类。作为一个示例，生成最终分类可以包括对针对一个或多个迭代接收到的各个预测30取平均，以获得平均预测；以及从平均预测中选择得分最高的类别作为最终分类。

作为另一示例，图2描绘了根据本公开的示例实施例的示例机器学习分类模型200的框图。类似于图1的示例模型10，图2的机器学习分类模型200包括表示模型、分类模型和注意力模型。图2的机器学习分类模型200进行操作以为图像202产生一个或多个预测。

具体地，为了理解所说明的模型架构背后的直觉，想象一个人使用训练过的图像分类模型并将其应用于图像的不同位置处以获得不同位置处的对数几率矢量。为了找到正确的标签，可以对不同位置处的对数几率取平均，并找到图像上的显著位置，可以选择在正确的标签通道上引起最大响应的图像块。

更具体地，如图2中所示，表示模型可以包括表示网络。表示网络可以是从图像202的不同位置处的块中学习特征的卷积神经网络。在一些实施方式中，可以使用具有有限感受野的任何卷积网络来扫描图像202的不同部分，以形成不同位置处的图像特征，这在图2中图示为“图像特征张量”。例如，“BagNet”架构可以使得能够高效地学习这些表示，而无需一次扫描。例如，可以使用ResNet架构，其中将大多数3×3卷积替换为1×1卷积以便限制调整模型的感受野并且步长被调整以获得更高的分辨率输出。一个示例表示网络的感受野为63×63，并计算在图像202中的仅相隔8个像素的不同位置处的2048个特征矢量。对尺寸为224×224的图像，其映射到图像中的361个可能的注意力位置。

图2中所示的示例分类模型可以利用ReLU激活执行1×1卷积，以将图像特征表示编码到512维特征空间中(在图2中显示为“什么”特征)。然后分类模型可以应用另一个1×1卷积以产生1000维对数几率张量用于分类。引入该512维瓶颈可在原始BagNet模型上提供较小的性能提高。

注意力模型可以包括注意力网络和扫视器单元。注意力网络可以被配置为接收和处理图像特征张量(以及可选地，什么特征)以产生中间注意力表示(在图2中图示为“混合特征”)。具体地，如图2中所示，注意力网络可以包括在2048个图像特征张量上操作的卷积网络(显示为“位置网络”)。作为一个示例，位置网络可以包括在3×3卷积层和1×1卷积层之间交替的六个卷积层，每个卷积层之后是批归一化和ReLU激活。可以每两层减小维度，从2048个位置特征减少到1024个位置特征再到512个位置特征(例如，显示为“哪里的”特征)。然后可以使用线性1×1卷积层将什么和哪里的特征联结和混合到具有1024个特征(F)的张量(例如，显示为“混合特征”)。

扫视器单元可以被配置为针对一个或多个迭代中的每个迭代：获得中间注意力表示(例如“混合特征”)并产生如下位置，该位置可以例如对应于输入的部分的特定一个部分。对于每个迭代，可以对位置和对数几率执行硬性注意力操作，以产生针对这种迭代的预测。

具体地，作为示例，图3描绘了根据本公开的示例实施例的示例扫视器单元的框图。如图3中所示，在每个迭代处，扫视器单元可以：获得中间注意力表示(例如“混合特征”)，并获得与最近迭代相关的单元状态。单元状态可以标识输入的哪些部分已被选择为先前迭代中的被注意部分。接下来，在每个迭代处，扫视器单元可以将中间注意力表示和与先前的迭代相关联的单元状态进行组合，以在输入的多个部分上产生位置概率分布；基于位置概率分布选择被注意部分；以及基于被注意部分更新单元状态以用于下一次迭代。

在一些实施方式中，扫视器单元可以被配置为组合中间注意力表示和与先前迭代相关联的单元状态，使得对于在先前迭代中已经被选择为被注意部分的部分，位置概率分布实际上为零。

更具体地，如图3中所示的一个示例，扫视器单元可以采用混合的什么和哪里的特征F，并在每个迭代处输出要扫视的位置。单元可以包括2D状态(C^t)，该状态通过在单元状态中的相应位置中放置1来跟踪访问的位置，直到迭代t。此单元状态可用于防止网络返回到以前看到的位置。扫视器单元可以首先从F中选择相关的空间位置，然后基于相关位置选择特征通道：

其中h和w是表示来自表示网络的输出特征的高度和宽度，d是混合特征的维数，并且a∈R^d是可训练向量。较大的负数乘以状态(例如)可用于掩盖掉先前使用的位置。接下来，扫视器单元可以计算特征通道的加权和并执行空间softmax：

反映了模型在瞥见位置上的策略。在测试时，模型从位置/>处的表示网络中提取在迭代t处的对数几率。例如，可以通过对所有迭代上提取的对数几率取平均来获得最终预测。

示例训练过程

可以基于一组训练数据来训练本文描述的模型，该训练数据包括例如用真值分类标记的示例训练输入。例如，真值分类可以整体上应用于输入，而不是应用于输入的特定部分。作为一个示例，ImageNet数据集可以分为训练子集和验证子集，然后用于训练模型和验证模型。例如，可以在训练子集上训练模型，并且可以基于验证子集选择超参数。然后可以在单独的测试子集上计算所有结果。

根据本公开的方面，可以仅使用训练类别标签作为监督来执行三步训练过程。首先，可以预训练表示模型(例如，表示网络)。作为一个示例，可以通过优化以下目标来对表示模型(例如，表示网络)进行预训练：

其中X^ij∈R^63×63×3是位置(i，j)处的图像块，y_target是目标类别，c＝1000是类别数，θ是表示模型参数，并且λ是超参数。这个目标只是基于所有可能位置上的平均对数几率加上模型权重上的-正则化来计算的交叉熵损失。

其次，可以对注意力模型进行预训练，以发出以最大对数几率降序排序的瞥见位置。例如，可以优化以下目标：

其中是第t个排序的目标位置，即/>是具有最大对数几率的位置，并且是具有最小对数几率的位置。给定输入图像X∈R^224×224×3和单元状态C^t-1，是模型在迭代t处为了注意到位置/>而给出的概率，即/>其中参数η是注意力模型的权重。对于此步骤，一个示例设置为T＝12。

最后，可以训练整个模型以最大化地提高预期奖励，其中奖励(r∈{0,1})表示6次瞥见(T＝6)后模型最终预测是否正确。具体地，在一些实施方式中，训练系统可以将REINFORCE损失用于离散策略、交叉熵损失和-正则化。参数更新由目标的梯度给出：

其中S＝2使得每次从类别分布中采样两个轨迹l_s，其位置概率由给出，b是在每个小批量上计算的模型的平均准确率，并且X^t表示在迭代t处采样的图像块。将b和S蒙特卡洛样本相加的作用是减少梯度估计中的方差。

作为示例超参数设置，在上述步骤的每一个中，可以使用0.9的Nesterov动量在120个时期内训练模型。

示例设备和系统

图4A描绘了根据本公开的示例实施例的示例计算系统100的框图。系统100包括通过网络180通信地耦合的用户计算设备102、服务器计算系统130和训练计算系统150。

用户计算设备102可以是任何类型的计算设备，诸如例如个人计算设备(例如，笔记本计算机或台式机)、移动计算设备(例如，智能电话或平板)、游戏控制台或控制器、可穿戴计算设备、嵌入式计算设备或任何其他类型的计算设备。

用户计算设备102包括一个或多个处理器112和存储器114。一个或多个处理器112可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个或多个可操作地连接的处理器。存储器114可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器114可以存储数据116和由处理器112执行以使用户计算设备102执行操作的指令118。

在一些实施方式中，用户计算设备102可以存储或包括一个或多个机器学习模型120。例如，机器学习模型120可以是或可以以其他方式包括各种机器学习模型，诸如神经网络(例如，深度神经网络)或其他类型的机器学习模型，包括非线性模型和/或线性模型。神经网络可以包括前馈神经网络、递归神经网络(例如长短期记忆递归神经网络)、卷积神经网络或其他形式的神经网络。参考图1至3讨论示例机器学习模型120。

在一些实施方式中，一个或多个机器学习模型120可以通过网络180从服务器计算系统130接收到，被存储在用户计算设备存储器114中，然后由一个或多个处理器112使用或以其他方式实现。在一些实施方式中，用户计算设备102可以实现单个机器学习模型120的多个并行实例(例如，以在不同输入的多个实例之间执行并行分类)。

附加地或可替代地，一个或多个机器学习模型140可以被包括在服务器计算系统130中或以其他方式由其存储和实现，该服务器计算系统130根据客户端-服务器关系与用户计算设备102进行通信。例如，机器学习模型140可以由服务器计算系统130实现为网络服务(例如，图像分类服务)的一部分。因此，可以在用户计算设备102处存储和实现一个或多个模型120，并且/或者可以在服务器计算系统130处存储和实现一个或多个模型140。

用户计算设备102还可以包括接收用户输入的一个或多个用户输入组件122。例如，用户输入组件122可以是对用户输入对象(例如，手指或手写笔)的触摸敏感的触敏组件(例如，触敏显示屏或触摸板)。触敏组件可以用来实现虚拟键盘。其他示例用户输入组件包括麦克风、传统键盘或用户可通过其提供用户输入的其他手段。

服务器计算系统130包括一个或多个处理器132和存储器134。一个或多个处理器132可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器134可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器134可以存储数据136和由处理器132执行以使服务器计算系统130执行操作的指令138。

在一些实施方式中，服务器计算系统130包括一个或多个服务器计算设备或以其他方式由其实现。在服务器计算系统130包括多个服务器计算设备的实例中，这样的服务器计算设备可以根据顺序计算架构、并行计算架构或其某种组合来操作。

如上所述，服务器计算系统130可以存储或以其他方式包括一个或多个机器学习模型140。例如，模型140可以是或可以以其他方式包括各种机器学习模型。示例机器学习模型包括神经网络或其他多层非线性模型。示例神经网络包括前馈神经网络、深度神经网络、递归神经网络和卷积神经网络。参考图1至3讨论示例模型140。

用户计算设备102和/或服务器计算系统130可以经由与通过网络180通信地耦合的训练计算系统150的交互来训练模型120和/或140。训练计算系统150可以与服务器计算系统130分开，或者可以是服务器计算系统130的一部分。

训练计算系统150包括一个或多个处理器152和存储器154。一个或多个处理器152可以是任何合适的处理设备(例如，处理器核心、微处理器、ASIC、FPGA、控制器、微控制器等)，并且可以是一个处理器或可操作地连接的多个处理器。存储器154可以包括一个或多个非暂时性计算机可读存储介质，诸如RAM、ROM、EEPROM、EPROM、闪存设备、磁盘等以及它们的组合。存储器154可以存储数据156和由处理器152执行以使训练计算系统150执行操作的指令158。在一些实施方式中，训练计算系统150包括一个或多个服务器计算设备或以其他方式由其实现。

训练计算系统150可以包括模型训练器160，其使用各种训练或学习技术(诸如例如误差的反向传播)来训练存储在用户计算设备102和/或服务器计算系统130处的机器学习模型120和/或140。在一些实施方式中，执行误差的反向传播可以包括随着时间的过去执行截断的反向传播。模型训练器160可以执行多种归纳技术(例如，权重衰减、丢弃等)，以提高被训练的模型的归纳能力。在另一个示例中，模型训练器160可以执行强化学习技术，其中基于通过应用策略选择的动作来提供奖励。

具体地，模型训练器160可以基于一组训练数据162来训练机器学习模型120和/或140。训练数据162可以包括例如用真值标记的输入。输入可以是图像输入、文本输入和/或音频输入。在一些实施方式中，地面实况分类可以整体上应用于输入(例如，不应用于输入的某些相应部分)。

在一些实施方式中，如果用户已经提供了准许，则训练示例可以由用户计算设备102提供。因此，在这样的实施方式中，可以由训练计算系统150在从用户计算设备102接收的用户特定的数据上训练提供给用户计算设备102的模型120。在一些情形下，该过程可以称为个性化模型。

模型训练器160包括用于提供期望功能的计算机逻辑。可以以控制通用处理器的硬件、固件和/或软件来实现模型训练器160。例如，在一些实施方式中，模型训练器160包括存储在存储设备上、加载到存储器中并且由一个或多个处理器执行的程序文件。在其他实施方式中，模型训练器160包括一组或多组计算机可执行指令，其存储在有形的计算机可读存储介质中，诸如RAM硬盘或光学或磁性介质。

网络180可以是任何类型的通信网络，诸如局域网(例如，内部网)、广域网(例如，因特网)或其某种组合，并且可以包括任意数量的有线或无线链路。通常，可以使用各种通信协议(例如，TCP/IP、HTTP、SMTP、FTP)、编码或格式(例如，HTML、XML)和/或保护方案(例如VPN、安全HTTP、SSL)经由任何类型的有线和/或无线连接来承载通过网络180的通信。

图4A示出了可用于实现本公开的一个示例计算系统。也可以使用其他计算系统。例如，在一些实施方式中，用户计算设备102可以包括模型训练器160和训练数据集162。在这样的实施方式中，模型120可以在用户计算设备102处被本地地训练和使用。在这样的实施方式的一些中，用户计算设备102可以实现模型训练器160以基于用户特定的数据来个性化模型120。

图4B描绘了根据本公开的示例实施例的示例计算设备190的框图。计算设备190可以是用户计算设备或服务器计算设备。

计算设备190包括多个应用(例如，应用1到N)。每个应用都包含其自己的机器学习库和(一个或多个)机器学习模型。例如，每个应用都可以包括机器学习模型。示例应用包括文本消息收发应用、电子邮件应用、听写应用、虚拟键盘应用、浏览器应用等。

如图4B中示，每个应用可以与计算设备的多个其他组件进行通信，所述多个其他组件诸如例如一个或多个传感器、上下文管理器、设备状态组件和/或附加的组件。在一些实施方式中，每个应用可以使用API(例如，公共API)与每个设备组件通信。在一些实施方式中，每个应用使用的API特定于该应用。

图4C描绘了根据本公开的示例实施例的示例计算设备195的框图。计算设备195可以是用户计算设备或服务器计算设备。

计算设备195包括多个应用(例如，应用1到N)。每个应用都与中央智能层进行通信。示例应用包括文本消息收发应用、电子邮件应用、听写应用，虚拟键盘应用、浏览器应用等。在一些实施方式中，每个应用可以使用API(例如，所有应用中的公用API)与中央智能层(以及存储在其中的(一个或多个)模型)进行通信。

中央智能层包括多个机器学习模型。例如，如图4C中所示，相应的机器学习模型(例如，模型)可以为每个应用提供，并由中央智能层进行管理。在其他实施方式中，两个或更多个应用可以共享单个机器学习模型。例如，在一些实施方式中，中央智能层可以为所有应用提供单个模型(例如，单个模型)。在一些实施方式中，中央智能层被包括在计算设备195的操作系统内或以其他方式由其实现。

中央智能层可以与中央设备数据层通信。中央设备数据层可以是用于计算设备195的数据的集中式存储库。如图4C中所示，中央设备数据层可以与计算设备的多个其他组件通信，所述多个其他组件诸如例如一个或多个传感器、上下文管理器、设备状态组件和/或附加组件。在一些实施方式中，中央设备数据层可以使用API(例如，专用API)与每个设备组件通信。

示例方法

图5描绘了根据本公开的示例实施例执行的示例方法的流程图。尽管为了说明和讨论的目的，图5描绘了以特定顺序执行的步骤，但是本公开的方法不限于特定示出的顺序或布置。在不脱离本公开的范围的情况下，可以以各种方式省略、重新布置、组合和/或适应性调整方法500的各个步骤。

在501处，计算系统可以训练机器学习分类模型。例如，机器学习分类模型可以具有参考图1、图2和/或图3图示和讨论的结构。

在一个示例中，在501处训练模型可以包括在多个阶段中训练机器学习分类模型。作为一个示例，在第一阶段，计算系统可以使用第一目标函数联合训练表示模型和分类模型。例如，第一目标函数可以评估输入的真值分类标签与为输入的多个部分中的每个部分产生的各个分类数据之间的差异。

作为另一个示例，在第二阶段，计算系统可以使用第二目标函数训练注意力模型。例如，第二目标函数可以根据基于分类模型所产生的各个分类数据的置信度排序来评估注意力模型选择被注意部分的能力。

作为另一个示例，在第一阶段和第二阶段之后的第三阶段，计算系统可以使用第三目标函数训练机器学习分类模型。例如，第三目标函数可以是或包括奖励函数，该奖励函数提供具有基于从各个预测产生的最终分类是否与输入的基本事实分类相匹配的量值的奖励。

在训练模型之后，计算系统可以部署模型以进行推断(例如，其可以包括框502-510的执行)。

在502处，计算系统可以获得包括多个部分的输入。在504处，计算系统可以将输入输入到机器学习分类模型中。在506处，计算系统可以在一个或多个迭代中的每个处接收相应的预测作为机器学习模型的输出。

在508处，计算系统可以至少部分地基于在一个或多个迭代中的每一个处接收的相应预测来生成最终分类。作为一个示例，生成最终分类可以包括对针对一个或多个迭代接收到的各个预测取平均，以获得平均预测；以及并从平均预测中选择得分最高的类别作为最终分类。也可以执行各个预测的其他组合。例如，可以选择得分最高的类别，然后可以仅提供与这个类别相关联的被注意部分以用作最终分类。在又一示例中，可以将第二、更强大的分类模型应用于通过提取和聚集被注意部分(例如，仅被选择的原始输入图像的部分)而生成的附加输入，以生成最终分类。第二模型可以单独地在每个被注意部分上和/或在聚集附加输入上操作。

在510处，计算系统可以提供与最终分类相关联的硬性注意力数据以显示给用户。例如，硬性注意力数据可以标识在一个或多个迭代中的每一个处选择的输入的被注意部分。作为一个示例，图6示出了示例输入图像600。已经从图像600生成了“印度眼镜蛇”的最终分类，其中经由相关的被注意图像部分周围的框来显示硬性注意力。

附加公开

本文讨论的技术参考服务器、数据库、软件应用和其他基于计算机的系统以及对此类系统采取的行动和从其发送以及向其发送的信息。基于计算机的系统的固有灵活性允许在组件之间以及组件之中进行多种可能的配置、组合以及任务和功能的划分。例如，可以使用单个设备或组件或组合工作的多个设备或组件来实现本文讨论的过程。数据库和应用可以在单个系统上实现，或者分布在多个系统上。分布式组件可以顺序或并行运行。

虽然已经针对本主题的各种特定示例实施例详细描述了本主题，但是每个示例都是通过阐释的方式提供的，而不是对本公开的限制。本领域技术人员在理解了前述内容之后，可以容易地对这些实施例进行替换、变型和等同。因此，本公开内容不排除对本领域普通技术人员而言显而易见的对本主题的这种修改、变动和/或添加。例如，作为一个实施例的一部分示出或描述的特征可以与另一实施例一起使用以产出又一实施例。因此，意图是本公开覆盖这样的变更、变化和等同物。

尽管已经主要参考分类讨论了本文描述的模型，但是它们也可以应用于其他机器学习任务，包括其他计算机视觉或图像处理任务，诸如对象检测、面部识别或类似任务。

Claims

1.一种计算机系统，其利用硬性注意力执行分类，该计算机系统包括：

机器学习分类模型，包括：

表示模型，其被配置为接收和处理包括多个部分的输入，以分别为所述输入的多个部分生成多组特征；

分类模型，其被配置为接收和处理所述多组特征，以为所述输入的多个部分中的每个部分生成相应的分类数据；和

注意力模型，其被配置为接收和处理所述多组特征，以在一个或多个迭代中的每一处选择所述输入的多个部分中的被注意部分；

其中，在一个或多个迭代的每一处，所述机器学习分类模型被配置为输出相应的预测，该预测包括在这样迭代处由所述注意力模型选择的所述输入的被注意部分的相应分类数据；

该计算机系统还包括：

一个或多个处理器；和

一个或多个非暂时性计算机可读介质，其存储指令，所述指令在由所述一个或多个处理器执行时使计算机系统执行操作，其中，这些操作包括：

获得包括多个部分的所述输入；

将所述输入输入到所述机器学习分类模型中；以及

在一个或多个迭代的每一处，接收相应的预测作为所述机器学习分类模型的输出；

其中，所述输入包括图像，并且其中，所述输入的多个部分包括所述图像的多个块。

2.根据权利要求1所述的计算机系统，其中，所述操作还包括：

生成最终分类，其中，生成最终分类包括：

对针对一个或多个迭代所接收的各个预测取平均，以获得平均预测；以及

从所述平均预测中选择得分最高的类别作为最终分类。

3.根据权利要求1所述的计算机系统，其中，所述操作还包括：

提供硬性注意力数据以显示给用户，其中所述硬性注意力数据标识在一个或多个迭代的每一处选择的所述输入的被注意部分。

4.根据权利要求1所述的计算机系统，其中所述注意力模型包括：

注意力网络，其被配置为接收和处理所述多组特征以产生中间注意力表示；和

扫视器单元，其被配置为在一个或多个迭代的每一处：

获得所述中间注意力表示；

获得与最近迭代相关联的单元状态，其中，所述单元状态标识在先前迭代中已被选择为被注意部分的部分；

组合所述中间注意力表示和与先前迭代相关联的单元状态，以产生在所述输入的多个部分上的位置概率分布；

基于所述位置概率分布选择被注意部分；以及

基于所述被注意部分更新单元状态以用于下一次迭代。

5.根据权利要求4所述的计算机系统，其中，所述注意力网络被配置为：

接收由所述分类模型产生的中间分类表示；以及

至少部分地基于所述多组特征和所述中间分类表示来产生中间注意力表示。

6.根据权利要求4或5所述的计算机系统，其中，所述扫视器单元被配置为组合所述中间注意力表示和与先前迭代相关联的单元状态，使得对于在先前的迭代中已经被选择为被注意部分的部分，所述位置概率分布实际上为零。

7.根据权利要求1所述的计算机系统，其中，所述图像的多个块至少部分地重叠。

8.根据权利要求1所述的计算机系统，其中，所述输入包括描述文本的文本输入、描述音频的音频输入或者描述由一个或多个传感器生成的数据的传感器数据输入。

9.根据权利要求1所述的计算机系统，其中，所述表示模型包括第一卷积神经网络，所述分类模型包括第二卷积神经网络，并且所述注意力模型包括第三卷积神经网络。

10.根据权利要求1所述的计算机系统，其中，由所述分类模型为所述输入的多个部分中的每一个产生的相应分类数据包括为多个候选分类标签中的每一个提供值的对数几率矢量。

11.根据权利要求1所述的计算机系统，其中，所述操作还包括：在多个阶段中训练所述机器学习分类模型，其中，在多个阶段中训练所述机器学习分类模型包括：

在第一阶段，使用第一目标函数联合训练所述表示模型和所述分类模型；

在第二阶段，使用第二目标函数训练所述注意力模型；以及

在所述第一阶段和所述第二阶段之后的第三阶段，使用第三目标函数训练所述机器学习分类模型。

12.根据权利要求11所述的计算机系统，其中，所述第一目标函数评估针对所述输入的真值分类标签与针对所述输入的多个部分中的每一个所产生的相应分类数据之间的差异。

13.根据权利要求11或12所述的计算机系统，其中，所述第二目标函数根据基于由所述分类模型产生的各个分类数据的置信度排序来评估所述注意力模型选择所述被注意部分的能力。

14.根据权利要求11所述的计算机系统，其中，所述第三目标函数包括奖励函数，所述奖励函数提供具有基于从各个预测产生的最终分类是否与针对所述输入的真值分类相匹配的量值的奖励。

15.一种计算机实现的方法，其中，所述方法由权利要求1-14中任一项所述的计算机系统实现。

16.一种或多种非暂时性计算机可读介质，其存储指令，所述指令由权利要求1-14中任一项所述的计算机系统执行。