CN111226232B

CN111226232B - 混合生成器模型

Info

Publication number: CN111226232B
Application number: CN201880067064.XA
Authority: CN
Inventors: J·K·贝克尔
Original assignee: D5AI LLC
Current assignee: D5AI LLC
Priority date: 2017-09-28
Filing date: 2018-09-14
Publication date: 2024-04-12
Anticipated expiration: 2038-09-14
Also published as: US11531900B2; EP3688678A1; CN111542843A; CN111226236A; US20220335305A1; US11354578B2; WO2019067236A1; US20190095798A1; EP3688676A1; US11410050B2; US20200210842A1; US11074506B2; US20200285939A1; WO2019067248A1; US11461661B2; US10679129B2; EP3688676A4; EP3688678A4; US20200265320A1; WO2019067281A1

Abstract

计算机系统和计算机实现的方法训练和/或(训练后)操作包括多个生成器‑检测器对的机器学习系统。机器学习计算机系统包括一组处理器核和存储软件的计算机存储器。当由该组处理器核执行时，软件使得该组处理器核实现多个生成器‑检测器对，其中：(i)每个生成器‑检测器对包括机器学习数据生成器和机器学习数据检测器；以及(ii)每个生成器‑检测器对分别用于相应的数据示例集群，使得对于每个生成器‑检测器对，生成器用于在相应的集群中生成数据示例，而检测器用于检测数据示例是否在相应的集群中。

Description

混合生成器模型

优先权要求

本申请要求2017年9月28日提交的美国临时专利申请序列号62/564,754的优先权，其标题为《协作生成器的积极发展》，其全部内容通过引用并入本文。

背景技术

机器学习是由计算机实现的学习模型的过程，通过基于样品数据输入建立模型，可以对数据进行预测。机器学习系统类型众多，诸如人工神经网络(ANN)、决策树、支持向量机(SVM)以及其他系统。这些系统在利用新数据做出有意义的预测之前首先需要根据一些样品输入受到训练。例如，ANN通常由多层神经元组成。每个神经元与许多其他神经元相连接，并且链路可以增强或抑制它们对相连接的神经元的激活状态的影响。每个单独的神经元单元可以具有将其所有输入的值合并在一起的求和函数。可以存在对每个连接和对神经元自身的阈值函数或者极限函数，使得信号在传播到其他神经元之前必须超越极限。用于输入到节点的每个相应输入的权重可以通过误差代价函数的偏导数的反向传播受到训练，同时估计值在训练数据样品上累积。大型复杂ANN可以在节点之间具有百万计的连接，并且需要学习针对每个连接的权重。

训练复杂的机器学习系统通常使用大量的标记数据和无标记数据。设计成执行分类任务的机器学习系统的训练数据包括每个可能类别的代表性样品数据。一个类别内的数据可以是异构的，因为单个类别可以包括一个或多个数据集群，其中每个集群在一个或多个方面是独特的。生成的代表类别和集群的数据对于在分类任务中训练机器学习系统是有用的。

发明内容

本发明包括机器学习系统和训练该机器学习系统的方法，该机器学习系统包括一个或多个生成器-检测器对，以将数据类别建模为集群混合。该系统能够作为生成器、作为集群分类器或作为类别分类器运行。

附图说明

本文结合以下附图以示例的方式描述了本发明的各种实施例，其中：

图1示出了根据本公开的一个方面的混合生成器模型的框图。

图2示出了根据本公开的一个方面的用于混合生成器模型的系统的框图。

图3示出了根据本公开的一个方面的用于混合生成器模型的过程的流程图，诸如图2中示出的系统。

图4是可以用于实现各种实施例的计算机系统的图。

图5是示出可用于本发明的各种实施例的各个方面的类型的深层神经网络的图。

具体实施方式

图1示出了根据本发明各种实施例的系统90。所示系统90包括多个生成器-检测器对。在图1所示的示例实施例中，有三个这样的生成器-检测器对92A-C，但不同的实施例可以包含更少或更多的生成器-检测器对。图2示出了根据本发明各种实施例的一个这样的生成器-检测器对92。图1和图2中的各个框表示机器学习系统，诸如图1中的生成器101-103(即生成器1至3)和检测器111-113(即检测器1至3)，以及图2中的生成器212和检测器202。图3所示的这些机器学习系统和过程可以在计算机系统上实现，诸如图4所示的计算机系统400。

这些机器学习系统可以是各种类型的机器学习系统中的任何一种，每种机器学习系统都可以通过特定于该类型机器学习系统的训练技术来训练。例如，如果机器学习系统是神经网络，诸如图5所示的示例神经网络，它可以通过随机梯度的迭代过程来训练，其中对每个小批次训练数据的学习参数进行更新。计算机系统400可以通过网络中每个节点的激活的前馈计算来估计单个数据项的目标函数相对于学习参数的梯度，随后进行目标相对于学习参数的偏导数的反向传播，即：所述学习参数与弧和节点偏差相关联的连接权重。计算机系统400可以累积单个数据项的估计梯度，以估计目标的梯度，从而更新每个小批次的学习参数。随机梯度下降和前馈激活计算以及偏导数的反向传播对于训练神经网络领域的技术人员是众所周知的。在反例的训练中，诸如从图2的框208开始，计算机系统400相对于输出激活改变目标的偏导数的符号，然后通过标准反向传播过程反向传播这些反向偏导数。

如果具有某些能力，其他类型的机器学习系统可以用其他训练方法来训练。两个这样的能力是：(1)每个机器学习系统的训练算法必须有某个从反例学习的机制；以及(2)每个检测器必须能够计算其目标相对于其输入的偏导数的估计，以便所述偏导数可以反向传播到相关联的生成器。能力(2)不要求通过反向传播来训练检测器。例如，能力(2)可以通过目标相对于每个输入变量的偏导数的数值估计来实现。

图1和2中的其他框(诸如图1中的框104和105以及图2中的框207-211)表示各种类型的数据。这些数据可以存储在计算机系统的板上和板外存储器中，诸如图4中计算机系统400的板上和板外存储器。

图1是作为集群混合的类别的生成模型的说明性实施例的框图，每个集群由各自的生成器-检测器对92A-C表示。图2示出了一个这样的生成器-检测器对92，而图3是训练生成器-检测器对92的过程的流程图。在示出的实施例中，每一类别的输入数据被建模为集群混合，并且对于每个集群有一个生成器-检测器对。这样，系统90被称为混合生成器模型(MGM)。在图1中，只有三个集群，都属于同一类别；因此，仅示出了三个生成器-检测器对92A-C，但是应当理解，每个类别和任何数量的类别都可以有任何数量的集群/生成器-检测器对。

如图1中所示，每个生成器-检测器对92A-C可以包括一个生成器和一个检测器，并且对于该类别中的每个集群，优选地有一个生成器-检测器对92A-C。参考图1，假设有三个集群，因此有三个生成器-检测器对，即：生成器1(框101)和检测器1(框111)形成集群1的生成器-检测器对92A；生成器2(框102)和检测器2(框112)形成集群2的生成器-检测器对92B；并且生成器3(框103)和检测器3(框113)形成集群3的生成器-检测器对92C。如结合图2和图3所述，生成器-检测器对由计算机系统400训练。训练后，图1所示的系统90可以作为生成器、作为集群分类器或作为类别分类器由计算机系统400运行。计算机系统400还可以继续以独立模式训练检测器111-113，而不更新集群定义。

在计算机系统400的控制下，传输交换机110(以软件实现)根据系统90执行的操作在图1中的元件之间建立不同的连接。在系统训练期间，如图2所示，每个生成器(例如，图2中的生成器212或图1中的生成器101、102、103(分别地))连接到其相应的检测器(例如，图2中的检测器202或图1中的检测器111、112、113(分别地))。

为了生成表示一个类别的数据，在节点100中，计算机系统400选择该类别中的一个集群。每个集群可以基于其先验概率来选择。通过使用所选择集群的生成器，比如集群2的生成器2等等，计算机系统400为所选择的集群(例如集群2)生成数据示例，该数据示例被发送到传输交换机110。在交换机110处，当系统90作为生成器运行时，计算机系统400将生成的数据示例发送到框104供外部使用。

当系统90作为分类器运行时，在交换机110处，计算机系统400可以从框105接收真实或生成的数据。真实或生成的数据105在计算机系统400的板上和/或板外中存储。如果数据105是生成的数据，它可以由数据生成器(未示出)生成。交换机110将来自框105的数据发送到检测器111-113中的每个，每个集群对应一个检测器。如图2中，在说明性实施例中，检测器111-113中的每个检测器具有三个可能的输出，分别代表“检测”、“拒绝”和“中性”，并分别由图1中标记为D、R和N的节点代表。

计算机系统400优选地从每个集群检测器111-113将“检测”激活馈送到两个节点。一个目的地是“Max节点”121。Max节点121的激活是特定类别中所有集群的“检测”输出的最大激活。例如，如图1所显示，最大节点121的激活值等于检测器1至3的检测输出的单个最大激活值。节点121的激活可以用作类别分类任务中该类别的分数。节点121优选地在分类任务的训练期间接收反向传播，并且反过来计算机系统400将误差代价函数导数反向传播到具有最大值的检测器111-113。

在集群分类模式中，第二目的地是节点集131中的专用节点。对于每个检测器111-113，在节点集131中都有一个节点，并因此对于特定类别中的每个集群有一个节点。计算机系统400将每个集群检测器111-113的“检测”激活发送到节点集131中其各自的专用节点。在说明性实施例中，计算机系统400对节点集131执行softmax操作；也就是说，它将其节点的激活归一化为1。在训练期间，计算机系统400训练节点集131用于集群分类。对于每个数据示例，节点集131的目标对于正确的集群是值一，对于所有其他节点是值零。在节点集131中，计算机系统400将这个目标分别反向传播到集群检测器111、112和113。

这样，在计算机系统400的控制下，传输交换机110有三种操作模式：(1)训练、(2)生成和(3)分类。此外，有两种分类子模式：(1)类别分类和(2)集群分类，都由计算机系统400控制，分别选择节点集131或节点121作为系统的输出。

这种连续的训练提升了检测器111-113按照定义对集群进行分类的能力，并继续训练类别分类。在说明性实施例中，还通过返回到图2中所示的成对生成器检测器训练的过程来更新集群定义。

图2和图3代表用于将生成器与检测器配对的系统和方法的说明性实施例，其在本发明的各种实施例中都有用。在图1的说明性实施例中，所说明的方法用于构建混合生成器模型(MGM)。图2是说明性实施例的框图，而图3是训练图2中显示的生成器-检测器对的说明性示例的流程图。在图2的说明性实施例中，生成器-检测器对包括生成器212和检测器202。检测器202和生成器212由计算机系统400训练，以检测和生成与单个集群相关的数据。该集群可能已经通过对无标记数据的无监督学习得到训练，或者该集群可能是单个类别的标记数据中的一个集群。

图2中的框201代表检测器202的输入。检测器202具有三种可能的输出。输出203代表检测事件。该输出的激活代表检测。例如，如果输出203是唯一的输出节点并且具有sigmoid激活函数，则激活值的范围可以是0到1，在激活大于某个阈值的情况下，比如0.5，代表检测，而激活值小于该阈值，代表没有检测。传统的检测器只需要一个输出，相当于输出203。然而，这个说明性实施例代表关于非检测(例如，拒绝或中性)的附加信息，并在其训练过程中使用该信息。输出204代表检测到反例，并且输出205代表中性非检测。如结合图2的框207、208、209和210所解释的，检测、拒绝或中性这三个选项中的每一个都由来自三种类型事件的示例的监督训练来训练。在一些实施例中，三个输出节点中的每一个被单独训练；例如，每一个都可以通过sigmoid激活函数训练。在一些实施例中，三个节点组合在一起，在其激活时应用softmax计算。利用输出节点的sigmoid激活或softmax激活的训练对于训练神经网络领域的技术人员来说是众所周知的。在任一情况下，每个输出节点的激活都在[0,1]的范围内。使用softmax激活，三个节点的激活被约束为总和为1.0。根据三个节点中哪一个具有最大激活，我们就说该输出指定了检测、拒绝或中性输出。softmax归一化的使用不改变哪个输出节点具有最大分数的身份。在sigmoid输出情况下，最大激活可以是[0,1]范围内的任何数字。在softmax归一化情况，最大分数必须至少为1/3。此外，训练中可以存在差异，使得一种表示在一些实施例中可以是优选的，而另一种表示在其他实施例中可以是优选的。

框201从几个来源中的任何一个接收其输入。它可以从框209接收集群内数据。当存在标记数据时，它可以从框210接收来自与集群相同的类别但不在集群中的数据。它还可以从框207接收一般背景数据，即，不是来自该类别的数据。当来自框207的数据被检测器202误分类为检测时，计算机系统400将来自框207的误分类数据示例复制到框208，框208存储被误分类为反例的背景示例。作为检测器202的目标输出为204“拒绝”的示例，复制到框208的数据可以用于检测器202的连续训练。来自框209的集群内输入数据的目标输出是“检测”。来自框210的类别内输入数据的目标输出是“中性”，但是在各种实施例中，将来自框210的输入数据分类为检测不会导致该示例被计算机系统400作为反例复制到框208。

检测器202对来自框207的背景数据的目标输出也是“中性”。如上所述，将该数据误分类为检测导致误分类数据示例被计算机系统400作为反例复制到框208。然而，如果背景数据被分类为“拒绝”，则该分类被接受。在一些实施例中，当背景数据被分类为“拒绝”时，没有从“中性”的标称目标进行反向传播。

框201也可以从生成器212接收输入。在一些实施例的训练的一些阶段中，在检测器202中，计算机系统400还反向传播偏导数，作为生成器212训练的一部分。生成器212可以是任何形式的生成器。在一些实施例中，它是随机自动编码器，例如变分自动编码器(VAE)，从框211接收其输入。使用VAE作为生成器对于神经网络领域的技术人员来说是众所周知的。尽管图2中所示的说明性实施例使用随机自动编码器作为生成器212，带有编码器和解码器，但是应当理解，可以使用一些其他形式的生成器。当生成器212是自动编码器或另一种形式的可以根据指定的训练数据进行训练的生成器时，优选地，它最初仅根据来自集群的数据进行训练。在一些实施例中，当集群中的数据太少时，生成器212也可以根据来自该类别的其他数据进行训练。作为生成器，一旦接受训练，它可以被限制为只使用对应于来自集群的数据的潜在变量。如将在图3中看到的，在一些实施例中，生成器212的后续训练可以包含正例和反例。

尽管图2仅示出了一个检测器202和一个生成器212，但是在一些实施例中，多个生成器可以与单个检测器202配对；或者多个检测器202可以与单个生成器212配对。在有多个生成器的实施例中，生成器可以都是相同类型或不止一种类型。在成对训练中，如果生成器212是自动编码器，则其具有多个目标；作为目标211的输入数据；来自检测器202的反向传播；以及可能的附加目标214。

图3描绘了配对训练过程的说明性实施例的流程图。在框301中，计算机系统400选择一个类别。在框302中，计算机系统400训练该类别内的集群。在框302中可以使用本领域中已知的任何聚类算法。作为说明性示例，对于高斯混合模型，聚类可以作为K均值聚类或期望最大化聚类来完成。在框302中训练的集群可以稍后在框311中由计算机系统400修改。在框303中，计算机系统400选择在步骤302训练的一个集群，使得所选集群的生成器-检测器对92可以通过步骤304至311训练，如下所述。如果有多个集群，并因此有多个对应的生成器-检测器对92，则可以为每个这样的集群/生成器-检测器对完成步骤304-311。

在框304中，计算机系统400在独立的基础上用所选集群的训练示例训练图2的生成器212。也就是说，生成器212被训练而没有来自图2的对应的检测器202的反向传播。生成器212的进一步训练将在框308中完成。在框305中，计算机系统400在独立的基础上用所选集群的真实训练示例训练图2的检测器202。在一些实施例中，在框305中训练检测器202时，计算机系统400还可以使用如在框304中初始训练的生成器212生成的数据示例。在框306中，计算机系统400使用图2的生成器212来生成代表来自所选集群的数据(即“集群内”数据)的数据。也就是说，所使用的潜在变量的向量是来自集群的数据示例的潜在向量。在框307中，计算机系统400使用在步骤305中训练的图2的检测器202对在步骤306中由生成器212生成的数据进行分类。在框308中，计算机系统400训练生成器212，该训练包含来自检测器202的反向传播。该过程循环返回并重复框306、307和308，直到满足停止标准。作为说明性示例，停止标准可以是(i)收敛、(ii)对迭代次数的特定限制或(iii)由于验证数据的退化而提前停止。

如果满足停止标准，则过程进行到框309，在框309，计算机系统400使用具有来自该集群和来自其他集群的潜在变量的生成器212来生成集群内(正)和集群外(负)数据。然后，在框310中，计算机系统400根据在框309中由生成器212生成的数据训练检测器202。该过程然后循环返回以从框309获得更多的训练数据，直到满足训练检测器202的停止标准。作为说明性示例，在步骤310训练检测器的停止标准可以是(i)收敛、(ii)对迭代次数的特定限制或(iii)由于验证数据的退化而提前停止。

一旦满足训练检测器202的停止标准，过程进行到框311，在框311，计算机系统400使用更新的检测器202对来自该类别的数据进行分类，并且将数据重新分配到集群中或集群外。然后，它将控制返回到框306，以生成集群内模式数据，直到满足停止标准。作为说明性示例，停止标准可以是(i)收敛、(ii)对迭代次数的特定限制或(iii)由于验证数据的退化而提前停止。一旦满足停止标准，就可以对在步骤302训练的任何附加集群一次一个地重复该过程，从而为所述附加集群生成生成器-检测器对。

尽管主要用神经网络作为生成器并且具体用VAE作为生成器212的示例描述了说明性实施例，但是应当理解，可以使用其他类型的生成器。例如，可以使用不同类型的随机自动编码器，称为“随机分类自动编码器(SCAN)”。SCAN具有与VAE相同的形式，但是使用不同的目标，并且对自动编码器中随机层的参数概率分布的参数施加不同的约束。在2018年9月7日提交的题为《随机分类自动编码器网络》的美国专利申请序列号16/124,977中更详细地描述了SCAN，其全部内容通过引用并入本文。

作为另一个示例，可以使用生成对抗网络(GAN)。GAN使用随机层和解码器网络(诸如图2中的生成器212)，但是没有编码器。在训练GAN的过程中，还训练了对抗分类器，但图2中并未显示。对抗分类器试图区分真实数据与由GAN生成器生成的合成数据。GAN生成器的训练目标是欺骗对抗分类器。在图1和图2所示的系统中，在本发明的各种实施例中，GAN生成器除了欺骗其相关的对抗分类器的目标之外，还优选地具有VAE的目标，而不是使其输出匹配其输入的自动编码器的目标。GAN没有编码器，因此其解码器的输入与随机层直接相关，而与编码输入数据示例无关。

在一些实施例中，生成器混合可以包含多种不同类型的生成器(例如，VAE、SCAN、GAN)。在这样的实施例中，如果生成器不能够被训练来生成仅代表特定集群或类别的数据项，则在图2中所示的实施例中，该生成器可以与能够经过训练生成代表特定集群或类别的数据项的另一个生成器配对，从而生成图3的框306和309中所需的数据示例。

在本发明的范围和精神内，可以使用其他类型的生成器。

图4是可用于实现上述实施例的计算机系统400的图。图示的计算机系统400包括多个处理器单元402A-B，在图示的实施例中，每个处理器单元包括多(N)组处理器核404A-N。每个处理器单元402A-B可以包括板上存储器(ROM或RAM)(未示出)和板外存储器406A-B。板上存储器可以包括主存储器、易失性存储器和/或非易失性存储器(即可由处理器核404A-N直接访问的存储器)。板外存储器406A-B可以包括二级非易失性存储器(即不能由处理器核404A-N直接访问的存储器)，诸如ROM、HDD、SSD、闪存等。处理器核404A-N可以是CPU核、GPU核和/或AI加速器核。GPU核并行运行操作(即通用GPU(GPGPU)管线)，因此通常可以比CPU核的集合更有效地处理数据，但是GPU的所有核同时执行相同的代码。AI加速器是一类设计用来加速人工神经网络的微处理器。它们通常也用作具有主CPU 410的设备中的协处理器。AI加速器通常有数万个矩阵乘法器单元，其运算精度低于CPU核(诸如AI加速器中的8位精度与CPU核中的64位精度)。

在各种实施例中，不同的处理器核404可以训练和/或实现不同的网络或子网或组件。例如，在一个实施例中，第一处理器单元402A的核可以实现图1中的生成器101-103，并且第二处理器单元402B可以实现图1中的检测器111-113。此外，第一处理器单元402A中的不同核组可以分别负责生成器101-103中的每个生成器，第二处理器单元402B中的不同核组可以分别负责检测器111-113中的每个检测器。一个或多个主处理器410可以协调和控制处理器单元402A-B。

在其他实施例中，系统400可以用一个处理器单元402来实现。在存在多个处理器单元的实施例中，处理器单元可以是协同定位的或分布式的。例如，可以使用合适的有线和/或无线数据通信链路通过诸如LAN、WAN、因特网等数据网络互连处理器单元402。可以使用合适的数据链路，诸如数据总线(优选地高速数据总线)或网络链路(例如以太网)，在各种处理单元402之间共享数据。

使用任何合适的计算机编程语言(诸如.NET、C、C++、Python)并使用传统的、功能性的或面向对象的技术可以在计算机软件中实现本文描述的各种计算机系统400的软件和本文描述的其他计算机功能。用于计算机软件和其他由计算机实现的指令的编程语言可以在执行之前通过编译器或汇编器翻译成机器语言，和/或可以在运行时由解释器直接进行翻译。汇编语言的示例包含ARM、MIPS以及x86；高级语言的示例包含Ada、BASIC、C、C++、C#、COBOL、Fortran、Java、Lisp、Pascal、Object Pascal、Haskell、ML；脚本语言的示例包含Bourne script、JavaScript、Python、Ruby、Lua、PHP以及Perl。

图5是多层前馈深层神经网络的示例图。本发明的许多组件可以包括神经网络(诸如图4所示的示例神经网络)。神经网络是节点和有向弧的集合。神经网络中的节点经常被组织成层。在前馈神经网络中，当如图5中所示意，这些层可以自下而上编号。分层前馈神经网络中的每个有向弧从较低层的源节点延伸至较高层的目的节点。图5中所示的前馈神经网络具有输入层、输出层和三个内层。神经网络的内层也被称为“隐藏”层。每个有向弧都与一个称为其“权重”的数值相关联。通常，除输入节点之外的每个节点都与一个称为其“偏差”的数值相关联。神经网络的权重和偏差被称为“学习”参数。在训练期间，学习参数的值由图4中所示的计算机系统400调整。控制训练过程的其他参数称为超参数。

计算机系统400可以使用随机梯度下降的迭代过程来训练前馈神经网络，对于每个小批次，对所述学习参数进行一次迭代更新。整批训练数据通常被排列成一组较小的、不相交的集合，称为小批次。一个历元包括计算机系统400对包含在整批训练数据中的每个小批次进行随机梯度下降更新。对于每个小批次，计算机通过使用前馈激活计算首先计算网络中每个节点的激活来估计训练数据项的目标梯度。然后，计算机系统400使用称为“反向传播”的过程来估计目标相对于学习参数的偏导数，该过程基于微积分的链式法则来计算偏导数，继续向后通过网络的各层。随机梯度下降、前馈计算和反向传播的过程对于训练神经网络领域的技术人员是众所周知的。

基于以上描述，很明显，具有其生成器-检测器对的上述系统的实施例可以作为例如生成器、集群分类器或类别分类器来运行。作为生成器，生成器-检测器对可用于生成合成数据(诸如图像数据或其他类型的数据)，用于训练其他机器学习网络或用于其他有益目的。作为集群或类别分类器，它可用于将数据项分类成集群或类别，这可以在多种应用中使用，包含图像和诊断分类系统，仅列举几个例子。

因此，在一个总的方面，本发明涉及用于训练和/或(训练后)操作包括多个生成器-检测器对的机器学习系统的计算机系统和计算机实现的方法。机器学习计算机系统包括一组处理器核和存储软件的计算机存储器。当由该组处理器核执行时，软件使得该组处理器核实现多个生成器-检测器对，其中：(i)每个生成器-检测器对包括机器学习数据生成器和机器学习数据检测器；以及(ii)每个生成器-检测器对分别用于相应的数据示例集群，使得对于每个生成器-检测器对，生成器用于在相应的集群中生成数据示例，检测器用于检测数据示例是否在相应的集群中。

在各种实施方式中，每个生成器-检测器对可以通过执行以下步骤来训练，这些步骤包括：利用对应于生成器-检测器对的集群中的多个数据示例，在没有来自检测器的反向传播的情况下初始训练生成器。在初始训练生成器之后，该方法包括：由生成器生成集群内输入数据示例，该集群内输入数据示例在对应于生成器-检测器对的集群内；由所述检测器对由所述生成器生成的集群内输入数据示例进行分类；以及使用来自检测器的反向传播再次训练生成器。最后，在使用来自检测器的反向传播训练生成器之后，该方法包括使用集群内数据示例和集群外数据示例训练检测器的步骤。

在各种实施方式中，多个生成器-检测器对经过训练后，就可以整体作为生成器、集群分类器和类别分类器运行。当作为生成器运行时，多个生成器-检测器对的生成器可以输出对应于生成器集群的生成的数据示例。当作为集群分类器运行时，机器学习系统可以确定输入数据示例的适当集群是对应于多个生成器-检测器对中具有最大检测激活程度的检测器的集群。当作为类别分类器运行时，机器学习系统的输出可以对应于多个生成器-检测器对的检测器中的最大检测激活程度。

此外，多个生成器-检测器对的每个生成器可以包括从由自动编码器、变分自动编码器(VAE)、随机分类自动编码器网络(SCAN)和生成对抗网络(GAN)组成的群组中选择的生成器类型。此外，生成器-检测器对中的每个生成器和/或检测器可以包括神经网络。而且，每个生成器和/或检测器可以通过随机梯度下降来训练。

本文中所给出的示例旨在例示说明本发明的可能和具体实施方式。可以理解，示例主要旨在用于为本领域技术人员例示说明本发明的目的。示例的特定方面或多个方面未必旨在限制本发明的范围。而且，应当理解的是，本发明的附图和描述已经进行了简化，以例示说明与清楚地理解本发明相关的元件，与此同时为简洁起见消除了其他元件。尽管本文中已经描述了各种实施例，但是应当显而易见的是，在实现至少一些优点的前提下本领域技术人员可以想到对这些实施例的各种修改、改变和调整。在不脱离本文中所阐述实施例的范围的前提下所公开的实施例因此旨在包含此类修改、改变和调整。

Claims

1.一种用于训练类别分类器的机器学习计算机系统，其中所述类别被建模为具有多个集群，包括至少第一集群和第二集群，所述机器学习计算机系统包括：

一组处理器核；以及

存储软件的计算机存储器，当由所述一组处理器核执行时，所述软件使得所述一组处理器核通过机器学习训练多个生成器-检测器对，其中：

所述多个生成器-检测器对包括至少第一生成器-检测器对和第二生成器-检测器对；

所述多个生成器-检测器对中的每个包括生成器和检测器，使得：

第一生成器-检测器对包括第一生成器和第一检测器；和

第二生成器-检测器对包括第二生成器和第二检测器；

每个生成器-检测器对中的每个生成器包括解码器，其中所述解码器包括神经网络，并且使得：

所述第一生成器包括第一解码器；和

所述第二生成器包括第二解码器；

每个生成器-检测器对的检测器包括神经网络，所述神经网络不同于生成器-检测器对的生成器的解码器的神经网络；

多个生成器-检测器对中的每个生成器通过机器学习进行训练，以分别生成类别的多个集群中的生成的数据示例，使得：

通过机器学习对第一生成器进行训练，以在第一集群中生成生成的数据示例；和

通过机器学习对第二生成器进行训练，以在第二集群中生成生成的数据示例；

通过机器学习训练所述多个生成器-检测器对中的每个检测器，以分别确定到所述检测器的输入数据项是否在类别的多个集群中的一个中，使得：

通过机器学习训练第一检测器，以确定到第一检测器的输入数据项是否在类别的第一集群中；

通过机器学习训练第二检测器，以确定到第二检测器的输入数据项是否在类别的第二集群中；和

每个检测器至少使用由生成器-检测器对的生成器生成的生成的数据示例来训练，使得：

至少部分地利用来自第一生成器的生成的数据示例来训练第一检测器；和

至少部分地利用来自第二生成器的生成的数据示例来训练第二检测器；

所述生成器-检测器对的生成器的输出连接到所述生成器-检测器对的对应检测器的输入，使得；

第一生成器-检测器对的第一生成器的第一解码器的输出连接到第一生成器-检测器对的第一检测器的输入；和

第二生成器-检测器对的第二生成器的第二解码器的输出连接到第二生成器-检测器对的第二检测器的输入；和

训练所述多个生成器-检测器对包括，对于所述生成器-检测器对中的每个，将偏导数从所述生成器-检测器对的检测器反向传播到所述生成器-检测器对的生成器，使得：

第一检测器的误差代价函数的偏导数从第一检测器反向传播到第一生成器；和

第二检测器的误差代价函数的偏导数从第二检测器反向传播到第二生成器。

2.根据权利要求1所述的机器学习计算机系统，其中所述多个生成器-检测器对的输出在训练后共同地可运行为类别分类器。

3.根据权利要求2所述的机器学习计算机系统，其中：

第一生成器的输出在训练后可运行为所述第一集群的生成器；和

第二生成器的输出在训练后可运行为第二集群的生成器。

4.根据权利要求2所述的机器学习计算机系统，其中：

第一检测器的输出在训练后可运行为第一集群的集群分类器；和

第二检测器的输出在训练后可运行为第二分类器的集群分类器。

5.根据权利要求2所述的机器学习计算机系统，其中当作为类别分类器运行时，所述机器学习计算机系统的输出对应于所述多个生成器-检测器对的检测器中的最大检测激活程度。

6.根据权利要求1所述的机器学习计算机系统，其中所述多个生成器-检测器对的每个生成器包括从由自动编码器、变分自动编码器、随机分类自动编码器网络和生成对抗网络组成的群组中选择的生成器类型。

7.根据权利要求1所述的机器学习计算机系统，其中每个所述生成器和每个所述检测器通过随机梯度下降训练。

8.根据权利要求1所述的机器学习计算机系统，其中每个生成器包括编码器。

9.一种用于训练类别分类器的计算机实现的方法，其中所述类别被建模为具有多个集群，包括至少第一集群和第二集群，所述方法包括：

由包括一组处理器核的计算机系统通过机器学习训练机器学习系统的多个生成器-检测器对，使得：

每个生成器-检测器对包括生成器和检测器，使得：

第一生成器-检测器对包括第一生成器和第一检测器；和

第二生成器-检测器对包括第二生成器和第二检测器；

每个生成器-检测器对中的生成器包括解码器，其中每个解码器包括神经网络，并且使得：

所述第一生成器包括第一解码器；和

所述第二生成器包括第二解码器；

每个生成器-检测器对中的检测器包括神经网络，所述神经网络不同于生成器-检测器对的生成器的解码器的神经网络；

每个生成器-检测器对的解码器的输出连接到所述生成器-检测器对的检测器的输入，使得；

10.根据权利要求9所述的方法，其中训练所述多个生成器-检测器对包括：对于所述多个生成器-检测器对中的每个：

利用对应于所述生成器-检测器对的所述集群中的多个数据示例，在没有来自生成器-检测器对的对应检测器的反向传播的情况下初始训练所述生成器；

在初始训练所述生成器之后：

由所述生成器生成在对应于所述生成器-检测器对的所述集群内的集群内生成的数据示例；

由所述检测器对由所述生成器生成的所述集群内生成的数据示例进行分类；以及

利用来自所述检测器的反向传播再次训练所述生成器；

在利用来自所述检测器的反向传播训练所述生成器之后，利用集群内数据示例和集群外数据示例训练所述检测器。

11.根据权利要求10所述的方法，其中训练所述多个生成器-检测器对包括训练所述多个生成器-检测器对，使得所述机器学习系统在训练后能够作为生成器、作为集群分类器和作为类别分类器运行，其中：

当作为生成器运行时，所述多个生成器-检测器对的生成器输出对应于所述生成器集群的生成的数据示例；

当作为集群分类器运行时，所述机器学习系统确定用于输入数据示例的适当集群是对应于所述多个生成器-检测器对中具有最大检测激活程度的检测器的集群；以及

当作为类别分类器运行时，所述机器学习系统的输出对应于所述多个生成器-检测器对的检测器中的最大检测激活程度。

12.根据权利要求10所述的方法，其中所述多个生成器-检测器对中的每个生成器包括从由自动编码器、变分自动编码器、随机分类自动编码器网络和生成对抗网络组成的群组中选择的生成器类型。

13.根据权利要求9所述的方法，其中再次训练所述生成器包括通过随机梯度下降对所述生成器进行再次训练。

14.根据权利要求11所述的方法，其中所述多个生成器-检测器对中的每个生成器包括从由自动编码器、变分自动编码器、随机分类自动编码器网络和生成对抗网络组成的群组中选择的生成器类型。

15.根据权利要求9所述的方法，其中训练多个生成器-检测器对包括用第一集群的反例来训练第一生成器-检测器对的第一检测器。

16.根据权利要求15所述的方法，其中所述第一集群的反例包括来自所述第二生成器的生成的数据示例。