CN108140146A

CN108140146A - 用于使用绝热量子计算机进行机器学习的离散变分自动编码器系统和方法

Info

Publication number: CN108140146A
Application number: CN201680061099.3A
Authority: CN
Inventors: 詹森·罗尔弗
Original assignee: D Wave Systems Inc
Current assignee: D Wave Systems Inc
Priority date: 2015-08-19
Filing date: 2016-08-18
Publication date: 2018-06-08
Anticipated expiration: 2036-08-18
Also published as: EP3338221A1; US20220076131A1; CN108140146B; US11157817B2; US20180247200A1; WO2017031356A1; EP3338221A4

Abstract

一种计算系统可以包括数字电路系统和模拟电路系统，例如，数字处理器和量子处理器。所述量子处理器可以作为提供样本的样本发生器操作。在实施各种机器学习技术时可以通过数字处理来采用样本。例如，所述计算系统可以例如经由离散变分自动编码器执行输入空间上的无监督学习，并且尝试使观测数据集的对数似然值最大化。使所述观测数据集的所述对数似然值最大化可以包括生成分层近似后验。

Description

用于使用绝热量子计算机进行机器学习的离散变分自动编码器系统和方法

背景技术

技术领域

本公开总体上涉及机器学习。

机器学习

机器学习涉及可以从数据中学习并基于数据作出预测的方法和电路系统。相比于允许静态程序指令的方法或电路系统，机器学习方法和电路系统可以包括从示例输入(如训练集)中得出模型并且然后作出数据驱动预测。

机器学习与优化有关。可以在最小化训练集上的损失函数方面表达一些问题，其中，损失函数描述了被训练模型和可观测数据的预测之间的不同。

机器学习任务可以包括无监督学习、监督学习和强化学习。用于机器学习的方法包括但不限于决策树、线性或二次分类器、基于范例的推理、贝叶斯统计和人工神经网络。

机器学习可以在显式方法被认为是不可行的情况下使用。示例应用领域包括光学字符识别、搜索引擎优化和计算机视觉。

量子处理器

量子处理器是可以利用对非量子设备不可用的量子物理现象(如叠加、纠缠和量子隧穿)的计算设备。量子处理器可以采取超导量子处理器的形式。超导量子处理器可以包括多个量子位以及多个相关联的局部偏置设备，例如两个或更多个超导量子位。量子位的示例是通量量子位。超导量子处理器还可以采用在量子位之间提供通信性耦合的耦合设备(即，“耦合器”)。例如，在美国专利7,533,068、8,008,942、8,195,596、8,190,548以及8,421,053中描述了可以与本发明的系统和设备结合使用的示例性量子处理器的进一步细节及实施例。

绝热量子计算

绝热量子计算通常涉及通过逐渐改变哈密尔顿算子来将系统从已知的初始哈密尔顿算子(所述哈密尔顿算子是一个运算符，其本征值是系统所允许的能量)演算到最终哈密尔顿算子。绝热演算的简单示例是初始哈密尔顿算子与最终哈密尔顿算子之间的线性内插。通过以下给出了示例：

H_e＝(1-s)H_i+sH_f

其中，H_i是初始哈密尔顿算子，H_f是最终哈密尔顿算子，H_e是演算或瞬态哈密尔顿算子，并且s是控制演算速率的演算系数(即，哈密尔顿算子变化的速率)。

随着系统的演算，演算系数s从0到1，从而使得在开始时(即，s＝0)演算哈密尔顿算子H_e等于初始哈密尔顿算子H_i，并且在结束时(即，s＝1)演算哈密尔顿算子H_e等于最终的哈密尔顿算子H_f。在演算开始之前，通常将所述系统初始化为处于初始哈密尔顿算子H_i的基态中，并且目标是使系统进行演算的方式为使得在演算结束时所述系统结束在最终哈密尔顿算子H_f的基态中。如果演算太快，则系统能够转变到更高的能态，如第一激发态。如在此所使用的，“绝热”演算是满足以下绝热条件的演算：

其中，是s的时间导数，g(s)是作为s的函数的系统的基态与第一激发态之间的能量差值(在此还被称为“间隙大小”)，并且δ是远远小于1的系数。

如果演算足够慢而使得所述系统总是处于演算哈密尔顿算子的瞬时基态中，则避免了在反交叉处(当所述间隙大小为最小时)的转变。除了以上所描述的线性演算之外，其他演算方案是可能的，包括非线性演算、参数化演算等等。在美国专利7,135,701和7,418,283中描述了关于绝热量子计算系统、方法及装置的进一步细节。

量子退火

量子退火是一种计算方法，所述方法可以用于找出系统的低能态，典型地优选是基态。与经典的模拟退火概念相类似，所述方法所依赖的本质性原理在于自然系统趋向于低能态，因为低能态是更加稳定的。尽管经典退火使用经典的热波动将系统引导到低能态并且理想地到其全局能量最小值，但量子退火可以将量子效应(如量子隧穿)用作无序化源以比经典退火更精确和/或更快速地达到一个全局能量最小值。在量子退火中，可能存在热效应和其他噪声以进行退火。最终低能态可以不是全局能量最小值。绝热量子计算可以被认为是量子退火的特殊情况，对于量子退火，所述系统在理想情况下对于整个绝热演算开始于并保持在其基态中。因此，本领域技术人员应当理解量子退火系统和方法总体上可以在绝热量子计算机上实现。贯穿本说明书以及所附权利要求书，任何对量子退火的引用均旨在包含绝热量子计算，除非上下文中另有要求。

量子退火在退火过程中使用量子力学来作为无序化源。目标函数(如优化问题)被编码在哈密尔顿算子H_P中，并且所述算法通过增加与H_P不进行交换的无序化哈密尔顿算子H_D来引入量子效应。示例情形为：

H_E∝A(t)H_D+B(t)H_P，

其中，A(t)和B(t)是时间相关的包络函数。例如，在演算过程中，A(t)可以从一个大的值变化到实质上为零，并且H_E可以被认为是与以上在绝热量子计算的背景下描述的H_e相类似的演算哈密尔顿算子。通过去除H_D(即，通过减小A(t))来缓慢地去除无序化。

因此，由于所述系统以初始哈密尔顿算子开始、并且通过演算哈密尔顿算子演算到最终的“问题”哈密尔顿算子H_P(它的基态对于所述问题的解进行编码)，所以量子退火与绝热量子计算是相类似的。如果所述演算足够慢，则所述系统可以进入全局最小值(即，精确解)、或进入能量接近所述精确解的局部最小值。所述计算的性能可以经由与演算时间相对比的残余能量(与使用目标函数的精确解之间的差异)来进行评定。计算时间是生成在某个可接受阈值以下的残余能量所需要的时间。在量子退火中，H_P可以编码优化问题，并且因此H_P在编码所述解的量子位的子空间中可以是对角的，但是所述系统不一定始终都保持在基态中。H_P的能量形态可以是精心设计的，从而使得其全局最小值是有待被求解的问题的答案，并且处于低位的局部最小值是良好的近似。

在量子退火中对无序化哈密尔顿算子H_D的逐步减小(即，减小A(t))可以遵循被称为是退火进度的被限定进度。与绝热量子计算(其中系统开始于并且在整个演算过程中保持在其基态中)不同，在量子退火中，系统在整个退火进度过程中可能不保持在其基态中。这样，量子退火可以实现为启发式技术，其中，具有的能量靠近基态能量的低能态可以提供对所述问题的近似解。

发明内容

一种方法，用于对包括离散或连续变量的输入空间以及对应变量的样本的训练数据集的至少子集进行无监督学习，以便尝试识别至少一个参数的值，所述至少一个参数的值增大训练数据集的至少子集关于模型的对数似然值，所述模型可表示为所述至少一个参数的函数，所述方法由包括至少一个处理器的电路系统执行，所述方法可以概括为包括：形成包括多个随机变量的第一潜在空间，所述多个随机变量包括一个或多个离散随机变量；形成包括所述第一潜在空间和一组补充连续随机变量的第二潜在空间；形成包括所述补充连续随机变量组上的条件分布的第一转换分布，所述第一转换分布以所述第一潜在空间的所述一个或多个离散随机变量为条件；形成包括所述第一潜在空间上的近似后验分布的编码分布，所述近似后验分布以所述输入空间为条件；形成所述第一潜在空间上的先验分布；形成包括所述输入空间上的条件分布的解码分布，所述解码分布以所述补充连续随机变量组为条件；确定所述补充连续随机变量的条件累积分布函数的有序集，每个累积分布函数包括所述第一潜在空间的所述一个或多个离散随机变量中的至少一个离散随机变量的全分布的函数；确定所述补充连续随机变量的条件累积分布函数的所述有序集的逆；构造对训练数据集的所述至少子集的所述对数似然值的下界的第一随机逼近；构造对训练数据集的所述至少子集的所述对数似然值的所述下界的梯度的第二随机逼近；以及至少部分地基于训练数据集的所述至少子集的所述对数似然值的所述下界的所述梯度增大训练数据集的所述至少子集的所述对数似然值的所述下界。

至少部分地基于训练数据集的所述至少子集的所述对数似然值的所述下界的所述梯度来增大训练数据集的所述至少子集的所述对数似然值的所述下界可以包括使用梯度下降方法增大训练数据集的所述至少子集的所述对数似然值的所述下界。使用梯度下降方法增大训练数据集的所述至少子集的所述对数似然值的所述下界可以包括尝试使用梯度下降方法使训练数据集的所述至少子集的所述对数似然值的所述下界最大化。所述编码分布和解码分布可以由深度神经网络参数化。确定所述补充连续随机变量的条件累积分布函数的有序集可以包括分析性地确定所述补充连续随机变量的条件累积分布函数的有序集。所述下界可以是证据下界。

构造对训练数据集的所述至少子集的所述对数似然值的所述下界的第一随机逼近可以包括：将对所述下界的所述第一随机逼近分解成至少第一部分和第二部分，所述至少第一部分包括所述第一潜在空间上的所述后验分布与所述先验分布之间的负KL散度，所述第二部分包括关于所述解码分布下的训练数据集的所述至少子集的所述条件对数似然值的所述第二潜在空间上的所述近似后验的期望或至少对期望的随机逼近。

构造对所述下界的所述梯度的第二随机逼近可以包括：通过反向传播确定所述第一随机逼近的所述第二部分的所述梯度；使用来自所述先验分布的样本逼近所述第一随机逼近的所述第一部分关于所述第一潜在空间上的所述先验分布中的一个或多个参数的所述梯度；以及通过反向传播确定所述第一随机逼近的所述第一部分关于所述编码分布的参数的梯度。使用来自所述先验分布的样本逼近所述第一随机逼近的所述第一部分关于所述第一潜在空间上的所述先验分布中的一个或多个参数的所述梯度可以包括生成样本或使量子处理器生成样本中的至少一者。在常数内，所述先验分布的对数可以是量子处理器的问题哈密尔顿算子。

所述方法可以进一步包括：生成样本或使量子处理器生成样本；以及确定关于来自所述样本的所述先验分布的期望。生成样本或使至少一个量子处理器生成样本可以包括对所述样本执行至少一个后处理操作。生成样本或使至少一个量子处理器生成样本可以包括：将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本，其中，所述概率分布的形状取决于所述至少一个量子处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的所述多个量子位上的所述概率分布相对应；演算所述量子处理器；以及读出所述至少一个量子处理器的多个量子位中的所述量子位的状态，其中，所述多个量子位中的所述量子位的所述状态与来自所述概率分布的样本相对应。

所述方法可以进一步包括以下各项中的至少一项：生成或至少逼近样本或使受限波尔兹曼机生成或至少逼近样本；以及确定关于来自所述样本的所述先验分布的所述期望。所述补充连续随机变量组可以包括多个连续变量，并且所述多个连续变量中的每一个可以以所述多个随机变量中的不同对应随机变量为条件。

所述方法可以进一步包括：形成第二转换分布，其中，所述输入空间包括多个输入变量，并且所述第二转换分布以所述多个输入变量中的一个或多个以及所述一个或多个离散随机变量中的至少一个为条件。

计算系统可以概括为包括：硬件或电路系统，例如包括至少一个处理器；以及存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少一个处理器执行上文所描述的动作中的任何动作或权利要求1至16所述的方法中的任何方法。

一种用于由计算系统进行无监督学习的方法，所述方法可由包括至少一个处理器的电路系统执行，所述方法可以概括为包括：形成模型，所述模型包括一个或多个模型参数；初始化所述模型参数；接收训练数据集，所述训练数据集包括所述训练数据集的多个子集；测试以判定是否已经满足停止标准；响应于确定已经满足所述停止标准：取得包括所述训练数据集的所述多个子集之一的小批量，所述小批量包括输入数据；通过编码器执行传播，所述编码器计算离散空间上的近似后验分布；经由采样器从一组连续随机变量上的所述近似后验分布进行采样；通过解码器执行传播，所述解码器计算所述输入数据上的自动编码分布；通过所述解码器执行对所述输入数据关于所述输入数据上的所述自动编码分布的对数似然值的反向传播；通过所述采样器执行反向传播以便生成自动编码梯度，所述采样器从所述连续随机变量组上的所述近似后验分布进行采样；确定所述离散空间上的所述近似后验分布与真实先验分布之间的KL散度关于所述近似后验的第一梯度；通过所述编码器执行对所述自动编码梯度与所述KL散度关于所述近似后验的所述第一梯度之和的反向传播；确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度；确定所述输入数据的所述对数似然值的边界的梯度或至少梯度的随机逼近中的至少一者；至少部分地基于所确定的所述输入数据的所述对数似然值的所述边界的所述梯度或至少所述梯度的随机逼近中的至少一者更新所述模型参数。初始化所述模型参数可以包括使用随机变量初始化所述模型参数。初始化所述模型参数可以包括至少部分地基于预训练过程初始化所述模型参数。测试以判定是否已经满足停止标准可以包括测试以判定是否已经运行了通过所述训练数据集的阈值数量N个通路。

所述方法可以进一步包括接收验证数据集的至少子集，其中，测试以判定是否已经满足停止标准包括：确定对在两个或更多个连续通路上计算的验证数据集的所述至少子集上的验证损失的度量以及测试以判定对验证损失的所述度量是否满足预定标准。确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度可以包括通过生成样本或使量子处理器生成样本来确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度。

生成样本或使量子处理器生成样本可以包括：将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本，其中，所述概率分布的形状取决于所述至少一个量子处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的所述多个量子位上的所述概率分布相对应；演算所述至少一个量子处理器；以及读出所述至少一个量子处理器的多个量子位中的所述量子位的状态，其中，所述多个量子位中的所述量子位的所述状态与来自所述概率分布的样本相对应。将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本可以包括操作所述至少一个量子处理器以便对所述样本执行至少一个后处理操作。从一组连续随机变量上的所述近似后验分布中进行采样可以包括生成样本或使数字处理器生成样本。

用于无监督学习的所述方法可以进一步包括：将所述离散空间分成第一多个不相交组；以及将所述补充连续随机变量组分成第二多个不相交组，其中，通过计算离散空间上的近似后验的编码器执行传播包括：确定所述第一多个和所述第二多个不相交组的处理顺序；以及对于在由所述处理顺序确定的顺序中的所述第一多个不相交组中的每一个，通过计算近似后验的编码器执行传播，所述近似后验以所述第二多个不相交组的所述处理顺序中的之前组中的至少一个以及所述多个输入变量中的至少一个为条件。将所述离散空间分成第一多个不相交组可以包括通过将离散变量随机分配到所述离散空间中来将所述离散空间分成第一多个不相交组。将所述离散空间分成第一多个不相交组可以包括将所述离散空间分成第一多个不相交组以便在所述第一多个不相交组中生成偶数大小的组。初始化所述模型参数可以包括使用随机变量初始化所述模型参数。初始化所述模型参数可以包括至少部分地基于预训练过程初始化所述模型参数。测试以判定是否已经满足停止标准可以包括测试以判定是否已经运行了通过所述训练数据集的阈值数量N个通路。

生成样本或使量子处理器生成样本可以包括：将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本，其中，所述概率分布的形状取决于所述模拟处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的所述多个量子位上的所述概率分布相对应，演算所述至少一个量子处理器，以及读出所述至少一个量子处理器的多个量子位中的所述量子位的状态，其中，所述多个量子位中的所述量子位的所述状态与来自所述概率分布的样本相对应。将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本可以包括操作所述至少一个量子处理器以便对所述样本执行至少一个后处理操作。从一组连续随机变量上的所述近似后验中进行采样可以包括生成样本或使数字处理器生成样本。

计算系统可以概括为包括：硬件或电路系统，例如包括至少一个处理器；以及存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少一个处理器执行上文所描述的动作中的任何动作或权利要求18至37所述的方法中的任何方法。

一种由计算系统进行无监督学习的方法，所述方法可由包括至少一个处理器的电路系统执行，所述方法可以概括为包括：确定一组离散随机变量中的至少一个组上的第一近似后验分布；使用所述离散随机变量组中的所述至少一个组上的所述第一近似后验分布从一组补充连续随机变量中的至少一个组中进行采样以便生成一个或多个样本，其中，转换分布包括所述补充连续随机变量组上的条件分布，所述转换分布以所述一个或多个离散随机变量为条件；确定第二近似后验分布和第一先验分布，所述第一先验分布即一组连续变量的至少一层上的第一先验分布；从所述第二近似后验分布中进行采样；确定包括离散或连续变量的输入空间上的自动编码损失，所述自动编码损失以所述一个或多个样本为条件；确定所述第二后验分布与所述第一先验分布之间的第一KL散度或至少其逼近；确定所述第一后验分布与第二先验分布之间的第二KL散度或至少其逼近，所述第二先验分布即所述离散随机变量组上的第二先验分布；以及反向传播所述第一和所述第二KL散度之和以及所述输入空间上的所述自动编码损失，所述自动编码损失以所述一个或多个样本为条件。所述自动编码损失可以是对数似然值。

计算系统可以概括为包括：硬件或电路系统，例如包括至少一个处理器；以及存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少一个处理器执行紧接地上文所描述的动作中的任何动作或权利要求39至40所述的方法中的任何方法。

一种由计算系统进行无监督学习的方法，所述方法可由包括至少一个处理器的电路系统执行，所述方法可以概括为包括：确定第一组离散随机变量上的第一近似后验分布，所述第一近似后验分布以包括离散或连续变量的输入空间为条件；基于所述第一近似后验分布从第一组补充连续变量中进行采样；确定第二组离散随机变量上的第二近似后验分布，所述第二近似后验分布以所述输入空间和来自所述第一组补充连续随机变量的样本为条件；基于所述第二近似后验分布从第二组补充连续变量中进行采样；确定第三近似后验分布和第一层附加连续随机变量上的第一先验分布，所述第三近似分布以所述输入空间、来自所述第一和所述第二组补充连续随机变量中的至少一组的样本为条件，并且所述第一先验分布以来自所述第一和所述第二组补充连续随机变量中的至少一组的样本为条件；基于所述第三近似后验分布从所述第一层附加连续随机变量中进行采样；确定第四近似后验分布和第二层附加连续随机变量上的第二先验分布，所述第四近似分布以所述输入空间、来自所述第一和所述第二组补充连续随机变量中的至少一组的样本、来自所述第一层附加连续随机变量的样本为条件，并且所述第二先验分布以来自所述第一和所述第二组补充连续随机变量中的至少一组的样本、以及来自所述第一层附加连续随机变量的样本中的至少一者为条件；确定所述第三近似后验分布与所述第一先验分布之间的KL散度关于所述第三近似后验分布和所述第一先验分布的第一梯度或至少其随机逼近；确定所述第四近似后验分布与所述第二先验分布之间的KL散度关于所述第四近似后验分布和所述第二先验分布的第二梯度或至少其随机逼近；确定所述离散随机变量上的近似后验分布与第三先验分布之间的KL散度关于所述离散随机变量上的所述近似后验分布和所述第三先验分布的第三梯度或至少其随机逼近，其中，所述离散随机变量上的所述近似后验分布是所述第一组离散随机变量上的所述第一近似后验分布和所述第二组离散随机变量上的所述第二近似后验分布的组合；将所述KL散度的所述第一梯度、所述第二梯度和所述第三梯度反向传播至所述输入空间。所述第三先验分布可以是受限波尔兹曼机。

计算系统可以概括为包括：硬件或电路系统，例如包括至少一个处理器；以及存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少一个处理器执行紧接地上文所描述的动作中的任何动作或权利要求41至42所述的方法中的任何方法。

附图说明

在附图中，相同的附图标记标识相似的元件或者动作。附图中元件的尺寸和相对位置不一定是按比例绘制的。例如，不同元件的形状以及角度不一定按比例绘制，并且这些元件中的一些可以被任意地放大和定位以提高附图的易读性。进一步地，所绘出的这些元件的特定形状不一定旨在传递与这些特定元件的实际形状有关的任何信息，而可能只是为了方便在图中识别而选取的。

图1是根据本系统、设备、方法和制品的包括数字计算机和模拟计算机的示例性混合计算机的示意图。

图2A是量子处理器的示例性拓扑结构的示意图。

图2B是示意图，示出了量子处理器的示例性拓扑结构的特写。

图3是示意图，展示了变分自动编码器(VAE)的示例实施方式。

图4是流程图，展示了根据当前描述的系统、设备、制品和方法的用于无监督学习的方法。

图5是示意图，展示了分层变分自动编码器(VAE)的示例实施方式。

图6是示意图，展示了具有连续潜在变量的层级的变分自动编码器(VAE)的示例实施方式。

图7是流程图，展示了根据本系统、设备、制品和方法的用于经由分层变分自动编码器(VAE)进行无监督学习的方法。

具体实施方式

概论

在以下说明中，包括了一些特定的细节来提供对不同的公开实施例的全面理解。但是，相关领域的技术人员将会意识到，实施例可以无需这些具体细节中的一个或多个来实践，或者可以使用其他方法、组件、材料等来实践。在其他实例中，并未详细示出或者描述与量子处理器(如量子设备)、耦连设备、以及包括微处理器和驱动电路系统的控制系统相关联的熟知的结构，以便避免对本方法的实施例的不必要的模糊说明。贯穿本说明书及所附权利要求书，单词“元件”和“多个元件”是用于包含但不限于与量子处理器相关联的所有这种结构、系统和设备，以及它们相关的可编程参数。

除非上下文另外要求，否则贯穿本说明书和所附权利要求书，单词“包括(comprising)”与“包括(including)”同义并且是包括性或开放式(即，不排除附加、未列举的元件或方法动作)。

贯穿本说明书提及的“一个实施例(one embodiment)”、“实施例(anembodiment)”、“另一实施例”、“一个示例(one example)”、“示例(an example)”、或“另一示例”、意指结合实施例或示例所描述的特定指示特征、结构或特性包括在至少一个实施例或示例中。由此，在贯穿本说明书各处出现的短语“在一个实施例中”、“在实施例中”、“另一个实施例”等并不必全都指同一个实施例或示例。此外，在一个或多个实施例或示例中，可以以任何适当的方式来组合特定特征、结构或特性。

应当注意的是，如在本说明书和所附权利要求中所使用的，除非内容另外明确指明，否则单数形式的“一种(a)”、“一个(an)”以及“所述”均包括复数对象。因此，例如，提及一个包括“量子处理器”的问题求解系统包括单个的量子处理器或者两个或更多个量子处理器。还应注意，术语“或者”总体上所使用的意义包括“和/或”，除非内容另外明确指明。

对处理器或至少一个处理器的提及指分立的或集成的硬件或电路系统，例如，单核或多核微处理器、微控制器、中央处理器单元、数字信号处理器、图形处理单元、可编程门阵列、编程的逻辑控制器以及模拟处理器(例如，量子处理器)。各种算法和方法以及特定动作可经由一个或多个处理器执行。

在此提供的小标题仅为了方便起见，而并非解释实施例的范围或意义。

量子硬件

图1展示了包括耦合至模拟计算机150的数字计算机105的混合计算系统100。在一些实施方式中，模拟计算机150是量子处理器。示例性数字计算机105包括可以用于执行典型数字处理任务的数字处理器(CPU)110

数字计算机105可以包括至少一个数字处理器(如具有一个或多个核的中央处理器单元110)、至少一个系统存储器120以及至少一个系统总线117，所述系统总线将各个系统部件(包括系统存储器120)耦合至中央处理器单元110。

数字处理器可以是任何逻辑处理单元，如一个或多个中央处理单元(“CPU”)、图形处理单元(“GPU”)、数字信号处理器(“DSP”)、专用集成电路(“ASIC”)、可编程门阵列(“FPGA”)、可编程逻辑控制器(PLC)等和/或其组合。

除非另外说明，否则图1中所示出的各个块的构造和操作具有常规的设计。因此，在此不需要对这些块进一步地详细描述，因为它们将被相关领域的技术人员所理解。

数字计算机105可以包括用户输入/输出子系统111。在一些实施方式中，用户输入/输出子系统包括一个或多个用户输入/输出部件，如显示器112、鼠标113和/或键盘114。

系统总线117可以采用任何已知的总线结构或架构，包括具有存储器控制器的存储器总线、外围总线和局部总线。系统存储器120可以包括非易失性存储器，如只读存储器(“ROM”)、静态随机存取存储器(“SRAM”)、闪存NAND；以及易失性存储器，如随机存取存储器(“RAM”)(未示出)。

数字计算机105还可以包括其他非暂态计算机或处理器可读存储介质或非易失性存储器115。非易失性存储器115可以采取各种形式，包括：用于从硬盘读取并向其写入的硬盘驱动器、用于从可移除光盘读取并向其写入的光盘驱动器和/或用于从磁盘读取并向其写入的磁盘驱动器。光盘可以是CD-ROM或DVD，而磁盘可以是磁软盘或软磁盘。非易失性存储器115可以经由系统总线117与数字处理器进行通信并且可以包括耦合至系统总线117的适当接口或控制器116。非易失性存储器115可以充当数字计算机105的处理器或计算机可读指令、数据结构、或其他数据(有时被称为程序模块)的长期存储器。

尽管数字计算机105已经被描述为采用硬盘、光盘和/或磁盘，但是相关领域的技术人员将认识到可以采用其他类型的非易失性计算机可读介质，如磁盒、闪存卡、闪存、ROM、智能卡等。相关领域技术人员将了解的是，一些计算机架构采用易失性存储器和非易失性存储器。例如，易失性存储器中的数据可以被缓存到非易失性存储器中。或采用集成电路来提供非易失性存储器的固态盘中。

各种处理器或计算机可读指令、数据结构或其他数据可以存储在系统存储器120中。例如，系统存储器120可以存储用于与远程客户通信并且调度对资源(包括数字计算机105和模拟计算机150上的资源)的使用的指令。还例如，系统存储器120可以存储处理器可执行指令或数据中的至少一者，所述指令或数据当被至少一个处理器执行时使所述至少一个处理器执行本文其他地方描述的各种算法，包括机器学习相关算法。

在一些实施方式中，系统存储器120可以存储处理器或计算机可读计算指令以执行对模拟计算机150的预处理、协处理和后处理。系统存储器120可以存储一组模拟计算机接口指令以便与模拟计算机150进行交互。

模拟计算机150包括至少一个模拟处理器，如量子处理器140。模拟计算机150可以提供在隔离环境中，例如，在将量子计算机的内部元件与热、磁场和其他外部噪声(未示出)屏蔽的隔离环境中。隔离环境可以包括可操作用于将模拟处理器低温冷却到例如低于大约1开尔文温度的冰箱(例如，稀释制冷机)。

图2A示出了根据当前描述的系统、设备、制品和方法的量子处理器的示例性拓扑结构200a。拓扑结构200a可以用于实施图1的量子处理器140，然而，其他拓扑结构还可以用于本公开的系统和方法。拓扑结构200a包括由单元210a至210d组成的2x2网格，每个单元包括8个量子位，如量子位220(在图2A中仅指出了一个)。

在每个单元210a至210d内，存在八个量子位220(为了清楚描绘仅指出了一个)，每个单元210a至210d中的量子位220被安排成四行(在图纸中水平地延伸)和四列(在图纸中垂直地延伸)。来自行和列的量子位220对可以由对应耦合器(如耦合器230(由粗体十字形状展示，在图2A中仅指出了一个))通信地耦合至彼此。对应耦合器230被定位并可操作用于将每个单元中的每一列中的量子位(图纸中垂直朝向的量子位)通信地耦合至同一单元中的每一行中的量子位(图纸中水平朝向的量子位)。另外地，对应耦合器(如耦合器240(图2A中仅指出了一个))被定位并可操作用于将每个单元中的每一列中的量子位(图纸中垂直朝向的量子位)与和所述列的朝向相同的方向上的最邻近单元中的每一列中的相应量子位(图纸中垂直朝向的量子位)通信地耦合。类似地，对应耦合器(如耦合器250(图2A中仅指出了一个))被定位并可操作用于将每个单元中的每一行中的量子位(图纸中水平朝向的量子位)与和所述行的朝向相同的方向上的最邻近单元中的每一行中的相应量子位(图纸中水平朝向的量子位)通信地耦合。由于耦合器240、250耦合单元210之间的量子位220，所以这种耦合器240、250可能有时被称为单元间耦合器。由于耦合器230耦合单元210内的量子位，所以这种耦合器230可能有时被称为单元内耦合器。

图2B示出了根据当前描述的系统、设备、制品和方法的量子处理器的示例性拓扑结构200b。拓扑结构200b示出了九个单元，如单元210b(图2B中仅指出了一个)，每个单元包括八个量子位q1至q72。对于单元210b，图2B展示了单元内耦合(如耦合器230b(图2B中仅指出了一个))和单元间耦合(如耦合器260(图2B中仅指出了一个))。

量子位q1至q72之间的连接的非平面化使找到量子位q1至q72的最低能态的问题成为NP困难问题，这意味着可能将许多实际问题映射为图2A和图2B中展示的以及以上描述的拓扑结构。

使用具有图2A和图2B中所展示的拓扑结构的量子处理器140不仅限于符合本地拓扑结构的问题。例如，可能通过将量子位链接在一起来将大小为N的完全图嵌入在大小为O(N²)的量子处理器上。

包括具有图2A的拓扑结构200a或图2B的拓扑结构200b的量子处理器140的计算系统100(图1)可以指定自旋变量+1/-1上的能量函数并从具有拓扑结构200a或拓扑结构200b的量子处理器处接收根据以下伊辛模型的近似波尔兹曼分布中的较低能自旋配置的样本：

其中，h_i是局部偏置并且J_i,j是耦合项。

自旋变量可以被映射到二进制变量0/1。可以通过引入对辅助变量的附加约束来表示高阶能量函数。

机器学习

在此描述了用于增加传统机器学习硬件(如具有量子硬件的图形处理单元(GPU)和中央处理单元(CPU))的各种系统和方法。量子硬件通常包括一个或多个量子处理器或量子处理单元(QPU)。在此所描述的系统和方法适配用于开发QPU的机器学习架构和方法以便有利地实现改进的机器性能。改进的机器性能通常包括减少的训练时间和/或增加的概括准确度。

优化和采样可能是机器学习系统和方法中的计算瓶颈。在此所描述的系统和方法将QPU整合到机器学习流水线(包括架构和方法)中以便以典型硬件上的改进的性能执行优化和/或采样。机器学习流水线可以被修改成适合可以在实践中实现的QPU。

训练概率模型中的采样

包括受限波尔兹曼机(RBM)的波尔兹曼机可以在深度学习系统中使用。波尔兹曼机特别适合于无监督学习和概率建模，如图像修复和分类。

现有方法的缺点是波尔兹曼机通常使用高成本的马尔可夫链蒙特卡尔理论(MCMC)技术来近似从经验分布抽取的样本。现有方法充当物理波尔兹曼采样器的代理。

QPU可以被整合到机器学习系统和方法中以便减少执行训练所花费的时间。例如，QPU可以用作物理波尔兹曼采样器。所述方法涉及对QPU(所述QPU是伊辛系统)进行编程，从而使得自旋配置天然地实现用户定义的波尔兹曼分布。所述方法可以然后直接从QPU中抽样。

受限波尔兹曼机(RBM)

受限波尔兹曼机(RBM)是表示二进制可见单元x和二进制隐藏单元z上的联合概率分布p(x,z)的概率图模型。受限波尔兹曼机可以用作深度学习网络中的元件。

RBM网络具有二分图拓扑结构，所述二分图具有每个可见单元和每个隐藏单元上的偏置以及每个边缘上的权重(耦合)。能量E(x,z)可以与可见单元和隐藏单元上的联合概率分布p(x,z)相关联，如下：

p(x,z)＝e^-E(x,z)/Z

其中，Z是配分函数。

对于受限波尔兹曼机，能量为：

E(x,z)＝-b^T.x-c^T.z-z^T.W.x

其中，b和c是表示为多个矩阵的偏置项，W是表示为矩阵的耦合项，并且T表示矩阵的转置。条件概率可以这样计算：

p(x|z)＝σ(b+W^T.z)

p(z|x)＝σ(c+W^T.x)

其中，σ是S型函数，用于确保条件概率的值位于范围[0,1]内。

训练RBM

训练是过程，通过所述过程，模型的参数被调整成有利于产生期望的训练分布。通常，这通过最大化关于模型参数的观测数据分布来完成。所述过程的一部分涉及给定数据分布上的采样，并且这部分通常直截了当。所述过程的另一部分涉及预测的模型分布上的采样，并且这部分通常难处理，从某种意义上来说，其将使用难管理数量的计算资源。

一些现有方法使用马尔可夫链蒙特卡尔理论(MCMC)方法来执行采样。MCMC构造具有作为其均衡分布的期望分布的马尔可夫链。k＞＞1步之后的链状态被用作期望分布的样本。样本的质量根据步数提高，这意味着MCMC使训练成为慢过程。

为了加速MCMC过程，可以使用对比散度-k(CDk)，其中，所述方法仅采取MCMC过程的k步。加速所述过程的另一种方式是使用持续对比散度(PCD)，其中，在马尔可夫链从之前模型中结束的状态中初始化所述马尔可夫链。CD-k和PCD方法趋向于在分布是多模式并且模式被低概率区域分开时不充分地执行。

即使近似采样也是NP困难的。采样成本随着问题大小以指数方式增长。从本地QPU网络(如以上所描述的)中抽取的样本接近波尔兹曼分布。可能通过根据样本数量评估经验分布与真实分布之间的KL散度来将收敛速率量化为真实波尔兹曼分布。

噪声限制了模型的参数在量子硬件中可以被设置的精度。在实践中，这意味着QPU从稍微不同的能量函数中进行采样。可以通过从QPU中采样并且将样本用作非量子后处理的起始点，例如，以初始化MCMC、CD和PCD来减轻所述影响。QPU执行采样过程的困难部分。QPU发现不同组谷部，并且后处理操作在谷部内采样。后处理可以在GPU中实施并且可以至少部分地与量子处理器中的采样重叠以减少对总时序上的后处理的影响。

用于训练RBM的采样

训练数据集可以包括可见向量集。训练包括调节模型参数，从而使得模型最可能重现训练集分布。通常，训练包括最大化关于模型参数θ的观测数据分布的对数似然值：

以上等式中右手边(RHS)第一项与正相位有关并且计算p(z|x)上的能量E的期望值。所述项涉及给定数据分布上的采样。

RHS上的第二项与负相位有关并且计算p(x|z)上的能量的期望值。所述项涉及预测的模型分布上的采样。

变分自动编码器

概率模型的无监督学习是一种机器学习技术。其可以促进任务，如用于从信号和噪声的混合中提取信号的去噪以及用于重建图像的损失或损坏部分的图像修复。所述无监督学习还可以调整监督任务，如分类。

一种用于无监督学习的方法可以包括尝试最大化概率模型下的观测数据的对数似然值。等同地，无监督学习可以包括尝试将来自数据分布的KL散度最小化成所述模型的KL散度。尽管对数似然函数的精确梯度经常很难处理，但是可以计算随机逼近，可以从概率模型以及给出观测数据的其后验分布中抽取所提供的样本。

使用随机逼近达到对数似然函数的最大化的效能可能受需要的采样操作在计算上有效的期望分布的较差可用性的限制。因此，所述技术的适用性可能同样地受限。

尽管假定连接当中不存在回路时采样在无向图形模型中可能有效，可表示关系的范围可能受限。波尔兹曼机(包括受限波尔兹曼机)可以使用通常昂贵且不精确的马尔可夫链蒙特卡尔理论(MCMC)技术生成近似样本。

采样可能在包括有向无环图的有向图模型中有效，因为采样可以由原始通路执行。即使如此，计算这种模型中的观测数据的隐藏原因上的后验分布可能无效，并且需要来自后验分布的样本来计算对数似然函数的梯度。

用于无监督学习的另一种方法是优化对数似然函数的下界。此方法可能在计算上更有效。下界的示例是证据下界(ELBO)，所述证据下界与真实对数似然值相差近似后验分布与真实后验分布p(z|x,θ)之间的KL散度。近似后验分布可以被设计成计算上易处理的，即使真实后验分布计算上不易处理。ELBO可以表示如下：

其中，x表示观测随机变量，z潜在随机变量，θ生成模型的参数并且φ近似后验的参数。

关于φ和θ连续优化ELBO类似于变分期望最大化(EM)。通常可能构造对ELBO上仅要求准确、计算上易处理的样本的梯度下降法的随机逼近。此方法的缺点是，其可能导致梯度估计中的高方差并且可能导致较慢的训练和较差的性能。

变分自动编码器可以将ELBO重组为：

近似后验与真实先验之间的KL散度针对共同选择的分布(如，高斯)是分析上简单且计算上有效的。

只要可以使用输入x、参数φ以及一组输入和参数相关随机变量ρ～D的可微分确定性函数f(x,φ,ρ)抽取来自近似后验q(z|x)的样本，就可以有效地回传对自动编码项的低方差随机逼近。例如，给定由输入确定的具有均值m(x,φ)和方差v(x,φ)的高斯分布，可以使用以下抽取样本：

其中

当这种f(x,φ,ρ)存在时，

并且只要p(x|z,θ)和被定义以便具有易处理的导数，对等式1中的导数的随机逼近就在分析上易处理。

每当给定x和φ时每个隐藏变量q_i(z_i|x,φ)的近似后验独立时，此方法是可能的；每个q_i的累积分布函数(CDF)是不可逆的；并且每个q_i的逆CDF是可微分的。特别地，选择D为0与1之间的均匀分布，并且f_i为q_i的逆CDF。

条件边缘累积分布(CDF)由以下定义：

由于近似后验分布q(z|x,φ)将每个输入映射为潜在空间上的分布，因此其被称为“编码器”。相应地，由于条件似然分布p(x|z,θ)将潜在变量的每种配置映射为输入空间上的分布，因此其被称为“解码器”。

不幸的是，多变量CDF通常是不可逆的。处理此情况的一种方式是如下定义一组CDF：

并且依次对每个条件CDF求逆。CDFF_i(x)是x_i的CDF，所述CDF以所有x_j(其中，j＜i)为条件，并且对所有x_k(其中，i＜k)进行边缘化。如果条件边缘概率在任何地方都非零，那么这种求逆通常存在。

离散变分自动编码器

所述方法可能遭遇离散分布(如例如，受限波尔兹曼机(RBM))的挑战。仅为离散域分配非零概率的近似后验与作为分段常数的CDF相对应。也就是说，CDF的范围是区间[0,1]的真子集。逆CDF的域因此也是区间[0,1]的真子集，并且其导数通常未定义。

即使使用以下分位函数，困难可能仍然存在：

对于离散分布，分位函数的导数是零或无穷大。

用于离散分布的一种方法是使用强化学习方法，如REINFORCE(威廉姆斯(Williams)，http://www-anw.cs.umass.edu/～barto/courses/cs687/williams92simple.pdf)。REINFORCE方法在接收强化值之后将权重调整同强化基线与强化值之差成某一数量比例的值。而不是在REINFORCE中直接区分条件对数似然值，实际上通过有限差分逼近来估计条件似然分布的对数的梯度。在许多不同点z～q(z|x,φ)处对条件对数似然值logp(x|z,θ)进行评估，并且梯度

在p(x|z,θ)与基线大大不同时被更强地加权。

一个缺点是，p(x|z,θ)在给定方向上的变化可以仅影响REINFORCE梯度估计，如果抽取具有同一方向上的分量的样本的话。在D维潜在空间中，需要至少D个样本来捕获条件分布p(x|z,θ)在所有方向上的变化。由于潜在表示可能通常由几百个变量组成，因此REINFORCE梯度估计可能比更直接使用条件分布p(x|z,θ)的梯度的情形更低效。

离散变分自动编码器(DVAE)是由RBM组成的分层概率模型，所述RBM之后是多层连续潜在变量，允许二进制变量被边缘化并且允许梯度通过ELBO的自动编码组件平滑地反向传播。

生成模型被重新定义，从而使得给出潜在变量的观测变量的条件分布仅取决于新连续潜在空间。

离散分布由此转换成此新连续潜在空间上的混合分布。这不改变模型的基本形式，也不改变ELBO的KL散度项；而是其将随机分量添加到近似后验和近似先验。

VAE工作方式的一种解释是其将编码器分布分成概率的“包”，每个包具有无穷小但等概质量。在每个包内，潜在变量的值近似恒定。包与潜在空间中的区域相对应，并且在所述包内取期望值。在高概率的区域中通常存在更多包，因此更有可能选择概率更高的值。

由于编码器的参数改变，因此每个包的位置可以移动，而其概率质量保持恒定。只要存在并且是可微分的，φ的小变化就将与每个包的位置中的小变化相对应。这允许使用解码器的梯度来估计损失函数的变化，因为解码器的梯度捕获潜在空间中所选包的位置的小变化的影响。

相比而言，REINFORCE通过将潜在表示分成具有无穷小但等容量的片段来工作，在所述片段中，潜在变量也是近似恒定的，而概率质量在片段之间变化。一旦在潜在空间中选择某个片段，其位置就独立于编码器的参数。因此，所选位置对损失函数的贡献不依赖于解码器的梯度。另一方面，分配给所选位置周围的潜在空间中的区域的概率质量是相关的。

尽管VAE可以使用来自解码器的梯度信息，但是假如最可能的包的运动具有对损失函数的类似影响，则梯度估计通常仅是低方差的。这可能是以下情况：当包被紧密地聚集时(例如，如果编码器产生具有低方差的高斯分布)或者如果充分分离的包的移动具有对损失函数的类似影响(例如，如果解码器是粗糙线性的)。

一个困难是VAE通常无法直接与离散潜在表示一起使用，因为改变离散编码器的参数移动所允许离散值之间的概率质量，并且所允许离散值通常相距很远。由于编码器参数变化，所以所选包保持在原位或跳跃大于无穷小距离到所允许的离散值。因此，编码器的参数的小变化不影响大部分的概率包。即使当包在潜在表示的离散值之间跳跃时，解码器的梯度通常也无法用于准确估计损失函数的变化，因为梯度通常仅捕获概率包的非常小的运动的影响。

因此，为了使用VAE框架中的离散潜在表示，在此所描述的用于无监督学习的方法将分布转换成概率包在其中平滑地移动的连续潜在空间。通过转换成连续、辅助的潜在表示ζ来扩展编码器和先验分布p(z|θ)，并且解码器相应地转换成连续表示的函数。通过以同一方式扩展编码器和先验分布，剩余的KL散度(以上提及的)不受影响。

在转换中，一种方法将离散潜在空间中的每个点映射到整个辅助连续空间上的非零概率。这样做时，如果离散潜在空间中的某一点的概率从零增加到非零值，则概率包不必跳跃大距离来覆盖辅助连续空间中所产生的区域。此外，其确保CDF F_i(x)根据它们的主要自变量严格递增，并且因此是可逆的。

在此所描述的用于无监督学习的方法通过增加具有一组连续随机变量的潜在离散表示使近似后验分布的条件边缘CDF F_i(x)平滑，并且使分布可逆，并且使其逆可微分。生成模型被重新定义，从而使得给出潜在变量的观测变量的条件分布仅取决于新连续潜在空间。

离散分布因此转换成连续潜在空间上的混合分布，每个离散随机变量的每个值与连续扩展上的不同混合分量相关联。这不改变模型的基本形式，也不改变ELBO的KL散度项；而是其将随机分量添加到近似后验和近似先验。

所述方法以连续随机变量ζ增强潜在表示，以z为条件，如下：

q(ζ,z|x,φ)＝r(ζ|x)·q(z|x,φ)

图3示出了VAE的示例实施方式。变量z是潜在变量。变量x是可见变量(例如，图像数据集中的像素)。如以上在本公开中描述的，变量ζ是以离散z为条件的连续变量。变量ζ可以用于使自动编码器项中的离散随机变量平滑。如以上所描述的，变量ζ通常不直接影响近似后验与真实先验之间的KL散度。

在示例中，变量z₁、z₂和z₃是量子处理器中的量子位的不相交子集。计算系统使用量子处理器从RBM中采样。计算系统使用数字(典型)计算机生成分层近似后验。计算系统使用先验310和330以及分层近似后验320和340。

对于先验330和近似后验340，系统将连续变量ζ₁,ζ₂,ζ₃添加到潜在变量z₁,z₂,z₃下面。

图3还示出了VAE的自动编码回路350。最初，输入x被传递到确定性前馈网络中，针对所述确定性前馈网络，最终非线性是逻辑函数。其输出q连同独立随机变量ρ一起被传递到确定性函数中以便产生ζ.的样本。此ζ连同原始输入x一起最终传递到logp(x|ζ,θ)。此对数概率关于ρ的期望是VAE的自动编码项。因为此自动编码器(以输入和独立的ρ为条件)是确定性的且可微分的，所以反向传播可以用于产生对梯度的低方差、计算上有效的逼近。

在此所描述的方法可以生成对梯度的低方差随机逼近。近似后验与真实先验分布之间的KL散度不受辅助连续潜在变量的引入的影响，如果两者使用同一扩展的话。

在具有连续随机变量的空间中评估损失函数的自动编码器部分，并且在离散空间中评估损失函数的KL散度部分。

损失函数的KL散度部分如下：

可以使用来自真实先验分布p(z|θ)的样本关于θ推测地估计以上等式中的损失函数的KL散度部分的梯度。损失函数的KL散度部分的梯度可以如下表示：

在一种方法中，所述方法例如通过首先用深度网络g(x)直接参数化因子q(z|x,φ)来分析性地计算损失函数的KL散度部分的梯度：

其中E_q(z|x)＝-g(x)^T.z

并且然后使用以下表达：

等式1可以因此通过丢弃p对z的依赖性并且然后将q中的z边缘化而被简化，如下：

从离散潜在空间到连续潜在空间的转换的示例是尖峰和平板(spike-and-slab)转换：

此转换与稀疏编码一致。

对连续空间的其他扩展也是可能的。可以使用δ尖峰和指数函数的组合的示例：

图4示出了使用离散变分自动编码器的无监督学习的方法400。根据本系统、设备、制品和方法，可以发生由一个或多个基于处理器的设备执行方法400。方法400像本文的其他方法那样可以由一系列或一组处理器可读指令实施，所述处理器可读指令由一个或多个处理器(即，硬件电路系统)执行。

方法400响应于来自另一个例程的调用或其他调用而在405处开始。

在410处，系统使用随机值初始化模型参数。替代性地，系统可以基于预训练过程初始化模型参数。在415处，系统测试以判定是否已经达到停止标准。停止标准可以例如与时期号(即，通过数据集的通路)有关或者与对通过验证数据集的连续通路之间的性能的测量有关。在后者的情况下，当性能开始降低时，指示系统过度拟合并且应当停止。

响应于确定已经达到停止标准，系统在475处结束方法400，直到再次唤醒例如用于重复学习的请求。

响应于确定尚未达到停止标准，系统在420处获取训练数据集的小批量(mini-batch)。在425处，系统通过编码器传播训练数据集以便计算离散空间z上的完全近似后验。

在430处，在给定z上的全分布时，系统生成或使得生成来自ζ上的近似后验的样本。典型地，这通过非量子处理器执行并且使用以上描述的CDFF_i(x)的逆。非量子处理器可以例如采取以下形式中的一种或多种：一个或多个数字微处理器、数字信号处理器、图形处理单元、中央处理单元、数字专用集成电路、数字现场可编程门阵列、数字微控制器、和/或通信地耦合至非量子处理器的任何相关联的存储器、寄存器或其他非暂态计算机或处理器可读介质。

在435处，系统通过解码器传播样本以便计算输入上的分布。

在440处，系统通过解码器执行反向传播。

在445处，系统通过采样器在ζ上的近似后验上执行反向传播。在此上下文中，反向传播是确定梯度的有效计算方法。

在450处，系统计算z上的近似后验与真实先验之间的KL散度的梯度。在455处，系统通过编码器执行反向传播。

在457处，系统确定离散空间上的近似后验与真实先验分布之间的KL散度关于真实先验分布的参数的梯度。

在460处，系统确定输入数据的对数似然的边界的梯度或至少梯度的随机逼近中的至少一者。

在一些实施例中，系统生成样本或使量子处理器生成样本。在465处，系统至少部分地基于梯度更新模型参数。

在470处，系统测试以判定当前小批量是否是待处理的最后小批量。响应于确定当前小批量是待处理的最后小批量，系统将控制返回至415。响应于确定当前小批量不是待处理的最后小批量，系统将控制返回至420。

在一些实施方式中，动作470被省略，并且控制从465直接传递至415。可以在415中合并是否获取另一个小批量的决策。

概括地说，如以上更详细描述的，离散VAE方法使用转换将编码器和先验延伸到连续、辅助的潜在表示，并且相应地使解码器成为同一连续表示的函数。所述方法评估连续表示中的损失函数的自动编码器部分，同时评估z空间中的损失函数的KL散度部分。

调节对分层近似后验的解释

当给定潜在变量时根据潜在变量z上的先验分布p(z)和观测变量x上的条件分布p(x|z)定义概率模型时，对x的观测通常包括在后验p(z|x)中给定x时由于如解释、推理模式等现象z的强相关性，在所述推理模式中，对一个原因的确认减少对替代性原因的搜索的需要。此外，用作先验分布的RBM可能在RBM的单元之间具有强相关性。

为了适应在后验分布中期望的强相关性同时保持易处理性，可以将层级引入到近似后验q(z|x)中。尽管在给定之前层时每个分层的层的变量是独立的，但是总分布可以捕获强相关性，特别是当每个分级层的大小朝单个变量收缩时。

RBM的潜在变量z被分成不相交组z₁,…,z_k。连续潜在变量ζ被分成互补不相交的组ζ₁,…,ζ_k。在一个实施方式中，所述组可以被随机选择，而在其他实施方式中，所述组被定义以便具有相等大小。分层变分自动编码器经由这些组上的定向无环图形模型来定义近似后验。

q(z₁,ζ₁,…,z_k,ζ_k|x,φ)＝∏_1≤j≤kr(ζ_j|z_j)·q(z_j|ζ_i＜j,x,φ)其中

z_j∈{0,1}，和是输入和之前ζ_i的参数化函数，如神经网络。图5中示出了相应图形模型。

图5是示意图，展示了分层变分自动编码器(VAE)的示例实施方式。所述模型使用近似后验510，其中，潜在变量z₃以连续变量ζ₂和ζ₁为条件，而z₂以ζ₁为条件。

z_j对离散变量z_i＜j的依赖性由连续变量ζ_i＜j调节。

此分层近似后验不影响图5的自动编码项520的形式，除了增加自动编码器的深度之外。可以经由随机非线性计算每个ζ_j，其中，函数q_j可以采取之前ζ_i＜j作为输入。

确定性概率值例如被神经网络参数化。

对于自动编码器的每个连续层j，输入x和所有之前ζ_i＜j被传递到计算的网络中。其输出q_j连同独立随机变量ρ一起被传递到确定性函数中以便产生ζ_j的样本。一旦所有ζ_j已经被递归地计算，则完整ζ连同原始输入x一起最终传递到log p(x|ζ,θ)。

近似后验与真实先验之间的KL散度也并不显著地受附加连续潜在变量ζ的引入的影响，只要所述方法针对近似后验和先验两者使用同一扩展r(ζ|z)，如下：

可以使用来自近似后验q(ζ,z|x,φ)和真实先验p(z|θ)的样本推测地估计KL散度关于先验p(z|θ)的参数θ的梯度。先验可以例如是RBM。

可以分析性地执行关于q(z_k|ζ_i＜j,x,φ)的最终期望；所有其他期望需要来自近似后验的样本。类似地，先验需要来自例如RBM的样本。

整个小批量需要来自同一先验分布的样本，所述样本独立于从训练数据集中选择的样本。

分层变分自动编码器

卷积架构是用于视觉目标分类、语音识别和许多其他任务的最先进方法的必要组件。具体地，其已经成功应用于如解卷积网络和LAPGAN中的生成建模。因此，将卷积架构结合到变分自动编码器中具有技术效益，如此，可以提供对技术问题的技术解决方案，并且由此实现技术结果。

卷积架构是必须分层的。在前馈方向上，所述卷积架构通过应用卷积、逐点非线性转换和池化的连续层从局部、高分辨率特征建立成全局、低分辨率特征。当生产上使用时，此过程是相反的，通过解卷积、逐点非线性转换和去池化的连续层从全局、低分辨率特征朝局部、高分辨率特征建立。

将此架构结合到变分自动编码器框架中，自然地将向上路径(从局部到全局)与近似后验相关联，并且将向下路径(从全局到局部)与生成模型相关联。然而，如果生成模型的随机变量被定义为解卷积网络本身的单元，则来自解卷积解码器的最后隐藏层的近似后验的样本可以由卷积编码器直接确定。具体地，可能自然地将来自解卷积解码器的最后层的样本定义为仅具有卷积编码器的第一层的函数。因此，VAE参数更新的自动编码组件取决于随机变量的最底层。这似乎与卷积自动编码器的直观结构相矛盾。

实际上，可以在解卷积解码器网络的每一层处定义辅助随机变量。辅助随机变量可以是离散随机变量或连续随机变量。

在解卷积解码器中，层n的辅助随机变量结合来自层n+1的信号以用于确定到层n-1的信号。层n的辅助随机变量上的近似后验被定义为卷积编码器的函数，通常被限制为卷积编码器的层n。为了计算到证据下界的梯度的随机逼近，所述方法可以执行卷积编码器网络向上的单条通路，之后是解卷积解码器网络向下的单条通路。在解卷积解码器网络向下的通路中，辅助随机变量从卷积编码器网络向上的通路中计算出的近似后验中采样。

传统方法的问题

传统方法可能导致与真实后验差匹配的近似后验，并且因此可能导致自动编码回路中的较差采样。具体地，近似后验定义每一层上的独立分布。这种独立分布的产生忽略真实后验中相邻层之间的强相关性，所述真实后验以基础数据为条件。

贯穿层n的表示应当互相一致并且与层n-1和n+1中的表示一致。然而，在以上描述的架构中，每个随机变量上的近似后验是独立的。具体地，较高(较抽象)层中的变化性与较低层中的变化性不相关，并且无法实施跨层的一致性，除非近似后验折叠到单个点上。

此问题在(分层)稀疏编码的情况下显而易见。在每一层处，真实后验具有许多模式，受约束于每一层内的长距离相关性。例如，如果输入图像中的线被分解为一连串短线段(例如，Gabor滤波器)，则必要的是一个线段的末端与下一个线段的开始对齐。在充分过度完备字典的情况下，可能存在覆盖所述线但是沿所述线相差一小偏移的许多组线段。因子后验可以可靠地表示一个这种模式。

这些相等的表示可以被连续的表示层消除歧义。例如，较高层的单个随机变量可以指定之前示例中的所有线段的偏移。在传统方法中，在已经计算了较低层的近似后验之后计算(潜在消除的)更高层的近似后验。相比而言，高效分层变分自动编码器可以潜在地使用深度卷积计算来首先推断最顶层上的近似后验。在给定来自较高层的近似后验的情况下，所述高效分层变分自动编码器将然后计算较低层的条件近似后验。

提出的方法——分层先验和近似后验

在本方法中，相比于将近似后验定义为完全因子，计算系统使第n层的近似后验以来自通过解卷积解码器的向下通路中在其之前的较高层的近似后验的样本为条件。在示例情况下，计算系统使第n层的近似后验以来自第(n-1)层的样本为条件。这与有向图模型相对应，所述有向图模型从较高、更抽象层流到较低、更具体层。直接确保每对层上的近似后验分布之间的一致性。

在这种有向近似后验的情况下，可能去掉辅助随机变量，并且在解卷积网络的主要单元上直接定义分布。在这种情况下，系统可以使用近似后验的解卷积分量的参数化分布，所述参数化分布与生成模型共享结构和参数。替代性地，系统可以继续使用单独地参数化有向模型。

在示例情况以及其他情况下，可以经由卷积编码器向上的一条通路、近似后验的解卷积解码器向下的一条通路以及以来自近似后验的样本为条件的先验的解卷积解码器向下的另一条通路来计算对证据下界的梯度的随机逼近。注意，如果近似后验被直接定义在解卷积生成模型的主要单元上(如与辅助随机变量相反)，则先验的解卷积解码器向下的最终通路实际不从层到层地传递信号。相反，对每一层的输入由近似后验确定。

以下是针对两个相邻隐藏层的计算的概述，凸显了分层组件并且忽略了卷积和解卷积的细节。如果近似后验被直接定义在解卷积生成模型的主要单元上，则自然地使用如下结构：

p(z_n-1,z_n|θ)＝p(z_n|z_n-1,θ)·p(z_n-1|θ)

这通过使(n-1)^th层的更局部变量以n^th层的更全局变量为条件来建立先验。在辅助随机变量的情况下，我们可能选择使用更简单的先验结构：

p(z_n-1,z_n|θ)＝p(z_n-1|θ)·p(z_n|θ)

证据下界被分解为：

如果近似后验被直接定义在解卷积生成模型的主要单元上，则可能是这种情况：p(x|z_n,z_n-1,θ)＝p(x|z_n-1,θ)。

如果q(z_n-1|z_n,x,φ)和p(z|_n-1z_n)是高斯分布，则其KL散度具有简单的闭形，如果协方差矩阵是对角的，则所述闭形可能在计算上有效。可以使用与标准VAE中使用的同一参数化方法来获得等式3的最后项中关于q(z_n|x,φ)的梯度。

为了计算ELBO的自动编码部分，系统向上传播卷积编码器并向下传播近似后验的解卷积解码器以便计算近似后验的参数。在示例参数化中，这可以基于卷积编码器的n^th层以及近似后验的解卷积解码器的之前(n-1)^th层两者来计算n^th层的条件近似后验。原则上，n^th层的近似后验可以基于输入、整个卷积编码器、以及近似后验的解卷积解码器的层i≤n(或其子集)。

从近似后验采样的配置然后在先验的解卷积解码器向下的通路中使用。如果近似后验被定义在解卷积网络的主要单元上，则从(n-1)^th层到n^th层的信号由独立于先验的之前层的(n-1)^th层的近似后验确定。如果所述方法使用辅助随机变量，则来自n^th层的样本取决于先验的解卷积解码器的(n-1)^th层以及近似后验的n^th层。

此方法可以被扩展到任意数量的层，并且扩展到以多于一个之前层为条件的后验和先验，例如，其中，层n以其之前的所有层m＜n为条件。

近似后验和先验可以被定义为完全自回归有向图模型。

近似后验和先验的有向图模型可以被定义如下：

其中，整个RBM及其相关联的连续潜在变量现在由表示。这通过使层m的更局部变量以层m-1,…,1的更全局变量为条件来建立近似后验和先验。然而，中的条件分布仅取决于连续的ζ_j。

图6是示意图，展示了具有连续潜在变量的层级的变分自动编码器(VAE)的示例实施方式，所述层级具有近似后验610和先验620。

近似后验610和先验620中的每个分别表示连续潜在变量的层并且以其之前的层为条件。在图6的示例实施方式中，存在三级层级。

替代性地，近似后验可以被分层，如下：

ELBO被分解为：

在和两者是高斯分布的情况下，KL散度可能在计算上有效，并且可以通过重新参数化(如通常在传统VAE中完成的)来获得等式4中的最后项的关于的梯度。在所有情况下，可以经由近似后验610(从每个连续潜在ζ_i和交替采样)向下的一条通路以及先验620(以来自近似后验的样本为条件)向下的另一条通路来计算对ELBO的梯度的随机逼近。在近似后验向下的通路中，每一层的样本可以基于输入和所有之前层m＜n两者。为了计算ELBO的自动编码部分，可以从先验应用到来自近似后验的样本。

先验向下的通路不需要在层与层之间传递信号。相反，对每一层的输入可以由近似后验使用等式4确定。

然后在每一层的近似后验与真实先验之间取KL散度，以以上层为条件。重新参数化可以用于将参数相关项包括在KL散度项中。

每一层的近似后验和先验分布两者由神经网络定义，在近似后验的情况下，所述神经网络的输入为和x。这些网络的输出是对角协方差高斯分布的均值和方差。

为了确保RBM中的所有单元是活跃的和不活跃的，并且因此当计算RBM单元上的近似后验时，使用RBM中的所有单元，而不是使用传统批量标准化，系统使批量标准化以L1标准为基础。在替代性方法中，所述系统可以使批量标准化以L2标准为基础。

特别地，所述系统可以使用：

以及边界2≤s≤3和-s≤o≤s。

类ISTA生成模型

变分自动编码器的训练通常受近似后验形式的限制。然而，可能存在使用除了因子后验之外的近似后验的挑战。如果近似后验是因子的并且在其是因子分布的混合时非常难解，则近似后验的熵(所述熵构成近似与真实后验(或真实先验)之间的KL散度的分量之一)可能不重要。尽管可以考虑使用标准化流程、重要加权或其他方法来允许非因子近似后验，但是可能更容易改变模型来使真实后验更具因子性。

具体地，在大量潜在变量的情况下，可能期望使用稀疏的、过度完备的表示。在这种表示中，存在表示给定输入的许多方式，尽管一些将比其他更有可能。同时，模型对重复表示敏感。使用表示类似特征的两个潜在变量不等于仅使用一个。

在具有线性解码器和稀疏先验(即，稀疏编码)的模型中出现类似问题。ISTA(和LISTA)通过(近似地)跟随L1-正则化重建误差的梯度(近似下降)来解决此问题。隐藏表示的所产生的转换在输入和隐藏表示中是大部分线性的：

z←(I-∈·W^T·W)·z-∈·λsign(z)+∈·W^T·x

但是，注意，输入必须提供给每一层。

可以在近似后验的解卷积解码器中采用稍微类似的方法。考虑在给定层z_n-1时层z_n的条件近似后验由多层确定性网络计算的情况。相比于作出对输入的可用于此网络的第一层的确定性转换，所述系统可以代替地向内部层或内部层的任何子集提供对输入的确定性转换。最终高斯单元上的近似后验可以然后经由LISTA采用稀疏编码，抑制冗余高层单元，并且因此允许针对给定特征多于一个单元编码可能有效的因子后验。在先验路径中，因为不存在输入来控制冗余特征之间的歧义消除，所以必须经由其他手段实现赢者全取(winner-take-all)选择，并且更传统的深度网络可能足够。

与离散变分自动编码器结合

离散变分自动编码器还可以结合到卷积自动编码器中。将离散VAE置于先验的最顶部是可能的，在所述顶部其可以生成之后从解卷积解码器向下传播的多模式分布，容易允许产生更复杂的多模式分布。如果使用辅助随机变量，则每一层包括离散随机变量也应当是直截了当的。

分层近似后验

真实后验可以是多模式的。对于观测的多个貌似有理的解释可以导致多模式后验。在一个实施方式中，量子处理器可以采用Chimera拓扑结构。Chimera拓扑结构可以被定义为具有单元内的量子位之间的交叉处的单元内耦合以及相邻单元中对应量子位之间的单元间耦合的平铺拓扑结构。传统VAE通常使用因子近似后验。因此，传统VAE具有潜在变量之间很难捕获的相关性。

一种方法是自动改善近似后验。此方法可能是复杂的。另一种通常更简单的方法是使近似后验分层。此方法的益处是，其可以捕获任何分布，或者至少更宽范围的分布。

图7示出了根据本系统、设备、制品和方法的用于经由分层变分自动编码器(VAE)进行无监督学习的方法700。方法700可以被实施为采用随机变量层级的方法400的扩展。

方法700响应于来自另一个例程的调用或其他调用而在705处开始。

在710处，系统使用随机值初始化模型参数，如以上参照方法400的410描述的。

在715处，系统测试以判定是否已经达到停止标准，如以上参照方法400的415描述的。

响应于确定已经达到停止标准，系统在775处结束方法700，直到再次唤醒例如用于重复学习的请求。

响应于确定尚未达到停止标准，系统在720处获取训练数据集的小批量。

在722处，系统将潜在变量z分成不相交组z₁,..,z_k并且将相应连续潜在变量ζ分成不相交组ζ₁,..ζ_k。

在725处，系统通过编码器传播训练数据集以便计算离散z_j上的完全近似后验。如之前提及的，此分层近似不改变自动编码项的梯度的形式。

在730处，在给定z上的全分布时，系统生成或使得生成来自连续变量ζ_j的n层上的近似后验的样本。层数n可以是1或更多。

在735处，系统通过解码器传播样本以便计算输入上的分布，如以上参照方法400的435描述的。

在740处，系统通过解码器执行反向传播，如以上参照方法400的440描述的。

在745处，系统通过采样器在ζ上的近似后验上执行反向传播，如以上参照方法400的445描述的。

在750处，系统计算z上的近似后验与真实先验之间的KL散度的梯度，如以上参照方法400的450描述的。

在755处，系统通过编码器执行反向传播，如以上参照方法400的455描述的。

在757处，系统确定离散空间上的近似后验与真实先验分布之间的KL散度关于真实先验分布的参数的梯度。

在760处，系统确定输入数据的对数似然的边界的梯度或至少梯度的随机逼近中的至少一者。

在一些实施例中，系统生成样本或使量子处理器生成样本，如以上参照方法400的460描述的。

在765处，系统至少部分地基于梯度更新模型参数，如以上参照方法400的465描述的。

在770处，系统测试以判定当前小批量是否是待处理的最后小批量，如以上参照方法400的470描述的。在一些实施方式中，动作770被省略，并且控制从765直接传递至715。可以在715中合并是否获取另一个小批量的决策。

响应于确定当前小批量是待处理的最后小批量，系统将控制返回至715。响应于确定当前小批量不是待处理的最后小批量，系统将控制返回至720。

概括地说并且如以上更详细描述的，方法700给出离散潜在变量上的近似后验分层。另外，方法700还在连续潜在变量之下添加其层级。

计算KL散度的梯度

损失函数的剩余分量可以如下表示：

在一些实施方式中，如当使用量子处理器的示例实施例生成样本时，先验分布是受限波尔兹曼机(RBM)，如下：

其中

E_p(z)＝-z^T·J·z-h^T·z并且

其中，z∈{0,1}ⁿ，是配分函数，并且横向连接矩阵J是二分的且非常稀疏。由以上等式描述的先验分布包含强相关性，并且当前计算系统可以使用分层近似后验。

本方法将潜在变量分成两组并且经由两组z_a和z_b上的定向无环图形模型定义近似后验，如下：

其中

E_a(z_a|x)＝-g_a(x)^T·z_a

E_b|a(z_b|z_a,x)＝-g_b|a(x,z_a)^T·z_b

可以使用来自近似后验q(z|x)＝q_a(z_a|x)·q_b|a(z_b|z_a,x)和真实先验的样本推测地估计关于先验的参数θ的梯度-KL[q(z|x,φ)||p(z|θ)]，如下：

可以分析性地执行关于q_b|a(z_b|z_a,x,φ)的期望；关于q_a(z_a|x,φ)的期望需要来自近似后验的样本。类似地，对于先验，从量子处理器的本地分布进行采样。Rao-Blackwellization可以用于将一半的单元边缘化。来自同一先验分布的样本用于小批量，所述样本独立于从训练数据集中选择的样本。

-KL[q(z|x,φ)||p(z|θ)]关于近似后验的参数φ的梯度不依赖于先验的配分函数，因为：

考虑q是分层的情况，其中，q＝q_a·q_b|a···。在边缘化出离散随机变量之后，随机变量从根本上是连续的，重新参数化技术用于反向传播通过∏_j＜iq_j|k＜j。

KL散度的熵项然后为：

其中，指数i、j和k表示分层的变量组。变量被分析性地评估，而所有变量k＜i经由ρ_k＜i被随机地采样。采用以上等式中H(q)的梯度，并且使用恒等式：

对于常量c，允许在更早的等式中消除的梯度，并且获得：

此外，通过类似自变量实现消除中的对数配分函数。通过再一次重复此自变量，可以被分解成其因子分量。如果是输入的逻辑函数并且z_i∈{0,1}，则熵的梯度减小为：

其中，l和z_l与分层组内由i表示的单个变量相对应。在张量流中，其可以被简单写为：

剩余交叉熵项为：

项h^T·z可以被分析性地处理，因为z_i∈{0,1}，并且

在这种情况下，近似后验q是连续的，具有非零导数，因此重新参数化技术可以应用于反向传播梯度：

相比而言，总和的每个元素：

取决于通常不在同一层级的变量，因此，通常：

此项可以被分解为：

其中，不失一般性地，z_i是比z_j更高的层级。得出z_i的导数可能具有挑战，因为其是具有ρ_k＜i的不连续函数。

的直接分解

重新参数化技术最初使z_i成为ρ和φ的函数。然而，对重新参数化变量ρ的值进行边缘化是可能的，其中z是恒定的，由此使z_i为常量。不失一般性地，假设i＜j，则可以被表示如下：

数量不是原始ρ的直接函数，因为ρ_i从以值z_i为条件的分布中采样。情况是这样，条件是联合其应当被微分。

在z_i固定的情况下，从ρ_i采样等于从ζ_i|z_i采样。具体地，ρ_i不是q_k＜i的函数或来自之前层的参数。将此与链式法则结合，当对q_j进行微分时，ζ_i可以保持固定，其中，梯度不从q_j反向传播通过ζ_i。

使用链式法则，由于q_i(z_i|ρ_k＜i,φ)的梯度，项为：

其中，在第二行中，我们再引入对z_i的采样，但是重新加权样本，因此期望未改变。

由于q_j(z_j|ρ,φ)的梯度，项为：

对于z_i和z_j两者，关于q(z＝0)的导数可以被忽略，因为鉴于以z＝0进行缩放。再一次，可以防止梯度反向传播通过ζ_i。对z_i求和，并且然后取ρ_i的期望，以z_i的所选值为条件。因此，独立于层级中之前的ρ和φ而取决于被固定的ζ_i。

对z_j进一步边缘化以得到：

经由链式法则对进行分解

在另一种方法中，可以使用链式法则对E_p(J_i,jz_iz_j)的梯度进行分解。预先地，已经认为z是ρ和φ的函数。相反，z可以用公式表示为q(z＝1)和ρ的函数，其中，q(z＝1)本身是ρ和φ的函数。具体地，

链式法则可以用于对q(z＝1)进行微分，因为其允许将对ρ的积分的一部分拉入关于φ的导数内。

使用重新参数化技术和链式法则对期望的梯度进行扩展，发现：

积分(经由期望)和微分的顺序可以改变。尽管z(q,ρ)是阶梯函数，并且其导数是δ函数，但是其导数的积分是有限的。相比于直接处理广义函数，可以应用导数的定义，并且完成匹配积分以恢复有限量。为了简单起见，可以从以上等式中的期望中拉出对k的求和，并且独立地考虑每个被加数。

因为z_i仅是q_i的函数，所以以上等式中对k求和的项消失，除了k＝i和k＝j之外。不失一般性地，考虑项k＝i；项k＝j是对称的。对被加数之一应用对梯度的定义，并且然后分析性地采用关于ρ_i的期望，得到：

因为ρ_i是固定的，从而使得ζ_i＝0，所以进一步在层级之下的单元可以以符合此约束的方式进行采样。通过给每个样本乘以1-z_i使用随机逼近来计算梯度，从而使得具有ζ_i≠0的项可以被忽略，并且在z_i＝0按比例增大梯度1/q_i(z_i＝0)，如下：

尽管这与采用对数概率的梯度的期望相对应，但是其针对每个单元独立地完成，因此方差的总增量可能是适度的。

替代性方法

替代性方法是使用所有变量的对数概率的梯度来取期望的梯度。

对于右手边的梯度项，可以去除仅涉及z_κ＜k的在k之前分层地发生的项，因为那些项可以从对q_k期望中拉出。然而，对于涉及z_κ＞k的在k之后分层地发生的项，z_κ的期望值取决于z_k的所选值。

通常，总和中的单个项都不期望具有特别高的方差。然而，估计的方差与项数成正比，并且在二分图模型中贡献于每个梯度的项数可以与单元数一起平方地增加，并且在chimera结构模型中线性地增加。相比而言，在之前所描述的方法中，在二分图模型中贡献于每个梯度的项数可以与单元数一起线性地增加，并且在chimera结构模型中保持恒定。

引入基线：

经由辅助变量进行的非因子近似后验

替代性地或另外地，可以保留离散随机变量上的因子分布，并且使单独组辅助随机变量成为条件。

只要J是二分的。KL散度关于近似后验的参数的全梯度然后如下：

除了使分布以近似后验的辅助随机变量α为条件之外，可以减去辅助变量的近似后验与真实先验之间的KL散度。先验的剩余部分未改变，因为辅助随机变量α控制近似后验，而不是生成模式。

实施方式

以下可以被参数化：

q(z|x,φ)＝Π_iq_i(z_i|x,φ)

使用前馈神经网络g(x)。神经网络g(x)的每一层i由线性变换组成，所述线性变换由权重矩阵W_i和偏置向量b_i参数化，之后是逐点非线性。尽管中间层可以由具有由τ表示的非线性特性的ReLU或软加(soft-plus)单元组成，但是逻辑函数σ可以被用作编码器的顶层中的非线性特性以确保必要范围[0,1]。每个q_i(z_i|x,φ)的参数跨输入x共享，并且0≤g_i(x)≤1。

类似地，可以使用具有互补参数化的另一个前馈神经网络f(ζ)对p(x|ζ,θ)进行参数化。如果x是二进制，则可以再次使用p_i(x_i＝1|ζ,θ)＝σ(f_i(ζ))。如果x是真实的，则可以通过使用引入附加神经网络f′(ζ)以计算每个变量的方差并采用类似于传统变分自动编码器的方法。网络f(ζ)的最终非线性特性应当是线性的，并且f(ζ)的非线性特性应当是非负的。

算法1(下文示出)展示了训练表示为伪代码的网络的示例实施方式。算法1描述了使用梯度下降法训练一般网络。在其他实施方法中，不失一般性地，关于此方法，可以使用其他方法训练网络。

算法1建立输入和输出，并且初始化模型参数，然后其判定是否已经满足停止标准。另外地，算法1定义对每个小批量或子集的处理。

算法1和2(下文示出)包括用于二进制可视单元的伪代码。由于J是二分的，因此J_q可以用于表示J的右上象限，其中，非零值驻留。梯度下降法是可以使用的一种方法。在其他实施方式中，梯度下降法可以被其他技术(如RMSprop、adagrad或ADAM)取代。

首先，当尝试对离散潜在表示应用变分自动编码器技术时，此方法好像是在两个冲突约束之间捕捉的。另一方面，离散潜在表示不允许使用解码器的梯度，因为在近似后验的参数改变时，重新参数化的潜在表示不连续地跳跃或保持恒定。另一方面，KL[q(z|x,φ)||p(z|θ)]仅易于评估是否通过停留在原始离散空间中。

当前公开的系统和方法通过将近似后验和先验对称地投射到连续空间中来避免这些问题。计算系统在连续空间中评估损失函数的自动编码器部分，从而将原始离散潜在表示边缘化。同时，计算系统在原始离散空间中评估近似后验与真实先验之间的KL散度，并且由于到连续空间的投射的对称性，因此所述计算系统不对此项做出贡献。

对所展示的实施例的以上说明(包括在摘要中所描述的)并非旨在是穷尽的或者旨在把这些实施例限定于所公开的这些确切的形式。尽管为了说明的目的在此描述了多个具体的实施例和示例，但是相关领域的普通技术人员将会认识到，可以做出不同的等价更改而不脱离本公开的精神与范围。在此提供的不同实施例的传授内容可以应用到其他量子计算方法上，并不一定是以上总体性说明的示例性的量子计算方法。

可将以上所描述的各实施例进行组合以提供进一步的实施例。在本说明书中所提及的和/或在申请资料表中所列出的所有美国专利、美国专利申请公开案、美国专利申请、国外专利、国外专利申请和非专利公开案，包括：2015年1月1日公开的美国专利申请公开案2015/0006443；2015年6月11日公开的美国专利申请公开案2015/0161524；2015年8月19日提交的题为“SYSTEMS AND METHODS FOR MACHINE LEARNING USING ADIABATIC QUANTUMCOMPUTERS(用于使用绝热量子计算机进行机器学习的系统和方法)”的美国临时专利申请序列号62/207,057；2015年8月19日提交的题为“DISCRETE variational auto-encoderSYSTEMS AND METHODS FOR MACHINE LEARNING USING ADIABATIC QUANTUM COMPUTERS(用于使用绝热量子计算机进行机器学习的离散变分自动编码器系统和方法)”的美国临时专利申请序列号62/206,974；2015年12月16日提交的题为“DISCRETE variational auto-encoder SYSTEMS AND METHODS FOR MACHINE LEARNING USING ADIABATIC QUANTUMCOMPUTERS(用于使用绝热量子计算机进行机器学习的离散变分自动编码器系统和方法)”的美国临时专利申请序列号62/268,321；以及2016年3月14日提交的题为“DISCRETEvariational auto-encoder SYSTEMS AND METHODS FOR MACHINE LEARNING USINGADIABATIC QUANTUM COMPUTERS(用于使用绝热量子计算机进行机器学习的离散变分自动编码器系统和方法)”的美国临时专利申请序列号63/307929中的每一个都通过援引以其全文并入本文。如有必要，可以对实施例的多个方面进行修改，以利用各专利、申请和公开案中的系统、电路及概念来提供更进一步的实施例。

Claims

1.一种用于对包括离散或连续变量的输入空间以及对应变量的样本的训练数据集的至少子集进行无监督学习以便尝试识别至少一个参数的值的方法，所述至少一个参数的值增大训练数据集的所述至少子集关于模型的对数似然值，所述模型可表示为所述至少一个参数的函数，所述方法由包括至少一个处理器的电路系统执行并且包括：

形成包括多个随机变量的第一潜在空间，所述多个随机变量包括一个或多个离散随机变量；

形成包括所述第一潜在空间和一组补充连续随机变量的第二潜在空间；

形成包括所述补充连续随机变量组上的条件分布的第一转换分布，所述第一转换分布以所述第一潜在空间的所述一个或多个离散随机变量为条件；

形成包括所述第一潜在空间上的近似后验分布的编码分布，所述近似后验分布以所述输入空间为条件；

形成所述第一潜在空间上的先验分布；

形成包括所述输入空间上的条件分布的解码分布，所述解码分布以所述补充连续随机变量组为条件；

确定所述补充连续随机变量的条件累积分布函数的有序集，每个累积分布函数包括所述第一潜在空间的所述一个或多个离散随机变量中的至少一个离散随机变量的全分布的函数；

确定所述补充连续随机变量的条件累积分布函数的所述有序集的逆；

构造对训练数据集的所述至少子集的所述对数似然值的下界的第一随机逼近；

构造对训练数据集的所述至少子集的所述对数似然值的所述下界的梯度的第二随机逼近；以及

至少部分地基于训练数据集的所述至少子集的所述对数似然值的所述下界的所述梯度来增大训练数据集的所述至少子集的所述对数似然值的所述下界。

2.如权利要求1所述的方法，其中，至少部分地基于训练数据集的所述至少子集的所述对数似然值的所述下界的所述梯度来增大训练数据集的所述至少子集的所述对数似然值的所述下界包括使用梯度下降方法增大训练数据集的所述至少子集的所述对数似然值的所述下界。

3.如权利要求2所述的方法，其中，使用梯度下降方法增大训练数据集的所述至少子集的所述对数似然值的所述下界包括尝试使用梯度下降方法使训练数据集的所述至少子集的所述对数似然值的所述下界的最大化。

4.如权利要求1所述的方法，其中，所述编码分布和解码分布由深度神经网络参数化。

5.如权利要求1所述的方法，其中，确定所述补充连续随机变量的条件累积分布函数的有序集包括分析性地确定所述补充连续随机变量的条件累积分布函数的有序集。

6.如权利要求1所述的方法，其中，所述下界是证据下界。

7.如权利要求1所述的方法，其中，构造对训练数据集的所述至少子集的所述对数似然值的所述下界的第一随机逼近包括：

将对所述下界的所述第一随机逼近分解成至少第一部分和第二部分，所述至少第一部分包括所述第一潜在空间上的所述后验分布与所述先验分布之间的负KL散度，所述第二部分包括关于所述解码分布下的训练数据集的所述至少子集的条件对数似然值的所述第二潜在空间上的所述近似后验的期望或至少对期望的随机逼近。

8.如权利要求1所述的方法，其中，构造对所述下界的所述梯度的第二随机逼近包括：

通过反向传播确定所述第一随机逼近的第二部分的所述梯度；

使用来自所述先验分布的样本逼近所述第一随机逼近的第一部分关于所述第一潜在空间上的所述先验分布中的一个或多个参数的所述梯度；以及

通过反向传播确定所述第一随机逼近的所述第一部分关于所述编码分布的参数的梯度。

9.如权利要求8所述的方法，其中，使用来自所述先验分布的样本逼近所述第一随机逼近的所述第一部分关于所述第一潜在空间上的所述先验分布中的一个或多个参数的所述梯度包括生成样本或使量子处理器生成样本中的至少一者。

10.如权利要求1所述的方法，其中，在常数内，所述先验分布的对数是量子处理器的问题哈密尔顿算子。

11.如权利要求1所述的方法，进一步包括：

生成样本或使量子处理器生成样本；以及

确定关于来自所述样本的所述先验分布的期望。

12.如权利要求11所述的方法，其中，生成样本或使至少一个量子处理器生成样本包括对所述样本执行至少一个后处理操作。

13.如权利要求11所述的方法，其中，生成样本或使至少一个量子处理器生成样本包括：

将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本，其中，所述概率分布的形状取决于所述至少一个量子处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：

使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的多个量子位上的所述概率分布相对应；

演算所述量子处理器；以及

读出所述至少一个量子处理器的所述多个量子位中的所述量子位的状态，其中，所述多个量子位中的所述量子位的所述状态与来自所述概率分布的样本相对应。

14.如权利要求1所述的方法，进一步包括：

以下各项中的至少一项：生成或至少逼近样本或使受限波尔兹曼机生成或至少逼近样本；以及

确定关于来自所述样本的所述先验分布的期望。

15.如权利要求1所述的方法，其中，所述补充连续随机变量组包括多个连续变量，并且所述多个连续变量中的每一个以所述多个随机变量中的不同对应随机变量为条件。

16.如权利要求1所述的方法，进一步包括：

形成第二转换分布，其中，所述输入空间包括多个输入变量，并且所述第二转换分布以所述多个输入变量中的一个或多个以及所述一个或多个离散随机变量中的至少一个为条件。

17.一种计算系统，包括：

至少一个处理器；以及

存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少一个处理器执行如权利要求1至16所述的方法中的任何方法。

18.一种用于由计算系统进行无监督学习的方法，所述方法可由包括至少一个处理器的电路系统执行并且包括：

形成模型，所述模型包括一个或多个模型参数；

初始化所述模型参数；

接收训练数据集，所述训练数据集包括所述训练数据集的多个子集；

测试以判定是否已经满足停止标准；

响应于确定已经满足所述停止标准：

取得包括所述训练数据集的所述多个子集之一的小批量，所述小批量包括输入数据；

通过编码器执行传播，所述编码器计算离散空间上的近似后验分布；

经由采样器从一组连续随机变量上的所述近似后验分布进行采样；

通过解码器执行传播，所述解码器计算所述输入数据上的自动编码分布；

通过所述解码器执行对所述输入数据关于所述输入数据上的所述自动编码分布的对数似然值的反向传播；

通过所述采样器执行反向传播以便生成自动编码梯度，所述采样器从所述连续随机变量组上的所述近似后验分布进行采样；

确定所述离散空间上的所述近似后验分布与真实先验分布之间的KL散度关于所述近似后验的第一梯度；

通过所述编码器执行对所述自动编码梯度与所述KL散度关于所述近似后验的所述第一梯度之和的反向传播；

确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度；

确定所述输入数据的所述对数似然值的边界的梯度或至少梯度的随机逼近中的至少一者；

至少部分地基于所确定的所述输入数据的所述对数似然值的所述边界的所述梯度或至少所述梯度的随机逼近中的至少一者更新所述模型参数。

19.如权利要求18所述的方法，其中，初始化所述模型参数包括使用随机变量初始化所述模型参数。

20.如权利要求18所述的方法，其中，初始化所述模型参数包括至少部分地基于预训练过程初始化所述模型参数。

21.如权利要求18所述的方法，其中，测试以判定是否已经满足停止标准包括测试以判定是否已经运行了通过所述训练数据集的阈值数量N个通路。

22.如权利要求18所述的方法，进一步包括：

接收验证数据集的至少子集，其中，测试以判定是否已经满足停止标准包括：确定对在两个或更多个连续通路上计算的验证数据集的所述至少子集上的验证损失的度量以及测试以判定对验证损失的所述度量是否满足预定标准。

23.如权利要求18所述的方法，其中，确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度包括通过生成样本或使量子处理器生成样本来确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度。

24.如权利要求23所述的操作方法，其中，生成样本或使量子处理器生成样本包括：

演算所述至少一个量子处理器；以及

25.如权利要求24所述的方法，其中，将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本包括操作所述至少一个量子处理器以便对所述样本执行至少一个后处理操作。

26.如权利要求18所述的方法，其中，从一组连续随机变量上的所述近似后验分布中进行采样包括生成样本或使数字处理器生成样本。

27.如权利要求18所述的用于无监督学习的方法，进一步包括：

将所述离散空间分成第一多个不相交组；以及

将补充连续随机变量组分成第二多个不相交组，

其中，通过计算离散空间上的近似后验的编码器执行传播包括：

确定所述第一多个不相交组和所述第二多个不相交组的处理顺序；以及

对于在由所述处理顺序确定的顺序中的所述第一多个不相交组中的每一个，通过计算近似后验的编码器执行传播，所述近似后验以所述第二多个不相交组的所述处理顺序中的之前组中的至少一个以及多个输入变量中的至少一个为条件。

28.如权利要求27所述的方法，其中：

将所述离散空间分成第一多个不相交组包括通过将离散变量随机分配到所述离散空间中来将所述离散空间分成第一多个不相交组。

29.如权利要求27所述的方法，其中：

将所述离散空间分成第一多个不相交组包括将所述离散空间分成第一多个不相交组以便在所述第一多个不相交组中生成偶数大小的组。

30.如权利要求27所述的方法，其中，初始化所述模型参数包括使用随机变量初始化所述模型参数。

31.如权利要求27所述的方法，其中，初始化所述模型参数包括至少部分地基于预训练过程初始化所述模型参数。

32.如权利要求27所述的方法，其中，测试以判定是否已经满足停止标准包括测试以判定是否已经运行了通过所述训练数据集的阈值数量N个通路。

33.如权利要求27所述的方法，进一步包括：

34.如权利要求27所述的方法，其中，确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度包括通过生成样本或使量子处理器生成样本来确定所述离散空间上的所述近似后验与所述真实先验分布之间的KL散度关于所述真实先验分布的参数的第二梯度。

35.如权利要求34所述的方法，其中，生成样本或使量子处理器生成样本包括：

将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本，其中，所述概率分布的形状取决于模拟处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：

使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的多个量子位上的所述概率分布相对应，

演算所述至少一个量子处理器，以及

36.如权利要求35所述的方法，其中，将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述样本包括操作所述至少一个量子处理器以便对所述样本执行至少一个后处理操作。

37.如权利要求27所述的方法，其中，从一组连续随机变量上的所述近似后验中进行采样包括生成样本或使数字处理器生成样本。

38.一种计算系统，包括：

至少一个处理器；以及

存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少一个处理器执行权利要求18至37所述的方法。

39.一种由计算系统进行无监督学习的方法，所述方法可由包括至少一个处理器的电路系统执行并且包括：

确定一组离散随机变量中的至少一个组上的第一近似后验分布；

使用所述离散随机变量组中的所述至少一个组上的所述第一近似后验分布从一组补充连续随机变量中的至少一个组中进行采样以便生成一个或多个样本，其中，转换分布包括所述补充连续随机变量组上的条件分布，所述转换分布以所述一个或多个离散随机变量为条件；

确定第二近似后验分布和第一先验分布，所述第一先验分布即一组连续变量的至少一层上的第一先验分布；

从所述第二近似后验分布中进行采样；

确定包括离散或连续变量的输入空间上的自动编码损失，所述自动编码损失以所述一个或多个样本为条件；

确定第二后验分布与所述第一先验分布之间的第一KL散度或至少其逼近；

确定第一后验分布与第二先验分布之间的第二KL散度或至少其逼近，所述第二先验分布即所述离散随机变量组上的第二先验分布；以及

反向传播所述第一KL散度与所述第二KL散度之和以及所述输入空间上的所述自动编码损失，所述自动编码损失以所述一个或多个样本为条件。

40.如权利要求39所述的方法，其中，所述自动编码损失是对数似然值。

41.一种由计算系统进行无监督学习的方法，所述方法可由包括至少一个处理器的电路系统执行并且包括：

确定第一组离散随机变量上的第一近似后验分布，所述第一近似后验分布以包括离散或连续变量的输入空间为条件；

基于所述第一近似后验分布从第一组补充连续变量中进行采样；

确定第二组离散随机变量上的第二近似后验分布，所述第二近似后验分布以所述输入空间和来自所述第一组补充连续随机变量的样本为条件；

基于所述第二近似后验分布从第二组补充连续变量中进行采样；

确定第三近似后验分布和第一层附加连续随机变量上的第一先验分布，所述第三近似分布以所述输入空间、来自所述第一组补充连续随机变量和所述第二组补充连续随机变量中的至少一组的样本为条件，并且所述第一先验分布以来自所述第一组补充连续随机变量和所述第二组补充连续随机变量中的至少一组的样本为条件；

基于所述第三近似后验分布从所述第一层附加连续随机变量中进行采样；

确定第四近似后验分布和第二层附加连续随机变量上的第二先验分布，所述第四近似分布以所述输入空间、来自所述第一组补充连续随机变量和所述第二组补充连续随机变量中的至少一组的样本、来自所述第一层附加连续随机变量的样本为条件，并且所述第二先验分布以来自所述第一组补充连续随机变量和所述第二组补充连续随机变量中的至少一组的样本、以及来自所述第一层附加连续随机变量的样本中的至少一者为条件；

确定所述第三近似后验分布与所述第一先验分布之间的KL散度关于所述第三近似后验分布和所述第一先验分布的第一梯度或至少其随机逼近；

确定所述第四近似后验分布与所述第二先验分布之间的所述KL散度关于所述第四近似后验分布和所述第二先验分布的第二梯度或至少其随机逼近；

确定所述离散随机变量上的近似后验分布与第三先验分布之间的所述KL散度关于所述离散随机变量上的所述近似后验分布和所述第三先验分布的第三梯度或至少其随机逼近，其中，所述离散随机变量上的所述近似后验分布是所述第一组离散随机变量上的所述第一近似后验分布和所述第二组离散随机变量上的所述第二近似后验分布的组合；

将所述KL散度的所述第一梯度、所述第二梯度和所述第三梯度反向传播至所述输入空间。

42.如权利要求41所述的方法，其中，所述第三先验分布是受限波尔兹曼机。