CN108351987A

CN108351987A - 用于使用绝热量子计算机进行机器学习的系统和方法

Info

Publication number: CN108351987A
Application number: CN201680060634.3A
Authority: CN
Inventors: 詹森·罗尔弗; 德米特罗·寇恩科维齐; 马尼·兰杰巴尔; 杰克·R·雷蒙德; 威廉·G·麦克雷迪
Original assignee: D Wave Systems Inc
Current assignee: D Wave Systems Inc
Priority date: 2015-08-19
Filing date: 2016-08-18
Publication date: 2018-07-31
Also published as: US11410067B2; US20200210876A1; WO2017031357A1; EP3338222A1; EP3338222A4

Abstract

一种计算系统可以包括数字电路系统和模拟电路系统，例如，数字处理器和量子处理器。所述量子处理器可以作为提供样本的样本发生器操作。在实施各种机器学习技术时可以通过数字处理来采用样本。例如，所述数字处理器可以作为受限波尔兹曼机操作。所述计算系统可以作为在训练数据集上操作的基于量子的深度信念网络操作。

Description

用于使用绝热量子计算机进行机器学习的系统和方法

技术领域

本公开总体上涉及机器学习。

背景技术

机器学习

机器学习涉及可以从数据中学习并基于数据作出预测的方法和电路系统。相比于允许静态程序指令的方法或电路系统，机器学习方法和电路系统可以包括从示例输入(如训练集)中得出模型并且然后作出数据驱动预测。

机器学习与优化有关。可以在最小化训练集上的损失函数方面表达一些问题，其中，损失函数描述了被训练模型和可观测数据的预测之间的不同。

机器学习任务可以包括无监督学习、监督学习和强化学习。用于机器学习的方法包括但不限于决策树、线性或二次分类器、基于范例的推理、贝叶斯统计和人工神经网络。

机器学习可以在显式方法被认为是不可行的情况下使用。示例应用领域包括光学字符识别、搜索引擎优化和计算机视觉。

量子处理器

量子处理器是可以利用对非量子设备不可用的量子物理现象(如叠加、纠缠和量子隧穿)的计算设备。量子处理器可以采取超导量子处理器的形式。超导量子处理器可以包括多个量子位以及多个相关联的局部偏置设备，例如两个或更多个超导量子位。量子位的示例是通量量子位。超导量子处理器还可以采用在量子位之间提供通信性耦合的耦合设备(即，“耦合器”)。例如，在美国专利7,533,068、8,008,942、8,195,596、8,190,548以及8,421,053中描述了可以与本发明的系统和设备结合使用的示例性量子处理器的进一步细节及实施例。

绝热量子计算

绝热量子计算通常涉及通过逐渐改变哈密尔顿算子来将系统从已知的初始哈密尔顿算子(所述哈密尔顿算子是一个运算符，其本征值是系统所允许的能量)演算到最终哈密尔顿算子。绝热演算的简单示例是初始哈密尔顿算子与最终哈密尔顿算子之间的线性内插。通过以下给出了示例：

H_e＝(1-s)H_i+sH_f (1)

其中，H_i是初始哈密尔顿算子，H_f是最终哈密尔顿算子，H_e是演算或瞬态哈密尔顿算子，并且s是控制演算速率的演算系数(即，哈密尔顿算子变化的速率)。

随着系统的演算，演算系数s从0到1，从而使得在开始时(即，s＝0)演算哈密尔顿算子H_e等于初始哈密尔顿算子H_i，并且在结束时(即，s＝1)演算哈密尔顿算子H_e等于最终的哈密尔顿算子H_f。在演算开始之前，通常将所述系统初始化为处于初始哈密尔顿算子H_i的基态中，并且目标是使系统进行演算的方式为使得在演算结束时所述系统结束在最终哈密尔顿算子H_f的基态中。如果演算太快，则系统能够转变到更高的能态，如第一激发态。如在此所使用的，“绝热”演算是满足以下绝热条件的演算：

其中，是s的时间导数，g(s)是作为s的函数的系统的基态与第一激发态之间的能量差值(在此还被称为“间隙大小”)，并且δ是远远小于1的系数。

如果演算足够慢而使得所述系统总是处于演算哈密尔顿算子的瞬时基态中，则避免了在反交叉处(当所述间隙大小为最小时)的转变。除了以上所描述的线性演算之外，其他演算方案是可能的，包括非线性演算、参数化演算等等。在美国专利7,135,701和7,418,283中描述了关于绝热量子计算系统、方法及装置的进一步细节。

量子退火

量子退火是一种计算方法，所述方法可以用于找出系统的低能态，典型地优选是基态。与经典的模拟退火概念相类似，所述方法所依赖的本质性原理在于自然系统趋向于低能态，因为低能态是更加稳定的。尽管经典退火使用经典的热波动将系统引导到低能态并且理想地到其全局能量最小值，但量子退火可以将量子效应(如量子隧穿)用作无序化源以比经典退火更精确和/或更快速地达到一个全局能量最小值。在量子退火中，可能存在热效应和其他噪声以进行退火。最终低能态可以不是全局能量最小值。绝热量子计算可以被认为是量子退火的特殊情况，对于量子退火，所述系统在理想情况下对于整个绝热演算开始于并保持在其基态中。因此，本领域技术人员应当理解量子退火系统和方法总体上可以在绝热量子计算机上实现。贯穿本说明书以及所附权利要求书，任何对量子退火的引用均旨在包含绝热量子计算，除非上下文中另有要求。

量子退火在退火过程中使用量子力学来作为无序化源。目标函数(如优化问题)被编码在哈密尔顿算子H_P中，并且所述算法通过增加与H_P不进行交换的无序化哈密尔顿算子H_D来引入量子效应。示例情形为：

H_E∝A(t)H_D+B(t)H_P， (3)

其中A(t)和B(t)是依赖于时间的包络函数。例如，在演算过程中，A(t)可以从一个大的值变化到实质上为零，并且H_E可以被认为是与以上在绝热量子计算的背景下描述的H_e相类似的演算哈密尔顿算子。通过去除H_D(即，通过减小A(t))来缓慢地去除无序化。

因此，由于所述系统以初始哈密尔顿算子开始、并且通过演算哈密尔顿算子演算到最终的“问题”哈密尔顿算子H_P(它的基态对于所述问题的解进行编码)，所以量子退火与绝热量子计算是相类似的。如果所述演算足够慢，则所述系统可以进入全局最小值(即，精确解)、或进入能量接近所述精确解的局部最小值。所述计算的性能可以经由与演算时间相对比的残余能量(与使用目标函数的精确解之间的差异)来进行评定。计算时间是生成在某个可接受阈值以下的残余能量所需要的时间。在量子退火中，H_P可以编码优化问题，并且因此H_P在编码所述解的量子位的子空间中可以是对角的，但是所述系统不一定始终都保持在基态中。H_P的能量形态可以是精心设计的，从而使得其全局最小值是有待被求解的问题的答案，并且处于低位的局部最小值是良好的近似。

在量子退火中对无序化哈密尔顿算子H_D的逐步减小(即，减小A(t))可以遵循被称为是退火进度的被限定进度。与绝热量子计算(其中系统开始于并且在整个演算过程中保持在其基态中)不同，在量子退火中，系统在整个退火进度过程中可能不保持在其基态中。这样，量子退火可以实现为启发式技术，其中，具有的能量靠近基态能量的低能态可以提供对所述问题的近似解。

发明内容

一种在系统中进行操作的方法，所述系统包括至少一个数字电路和至少一个模拟电路，所述方法可以概括为包括：检索由所述至少一个模拟电路生成的多个样本；由所述数字电路使用由所述至少一个模拟电路生成的所述样本中的至少一个执行机器学习以便相比于由所述数字电路不使用来自所述至少一个模拟电路的所述至少一个样本执行所述机器学习而减少递归机器学习迭代的总次数，所述递归机器学习迭代由所述数字电路执行以便以限定的准确度水平确定结果。由所述数字电路执行机器学习可以包括经由受限波尔兹曼机(RBM)执行机器学习。所述至少一个模拟电路可以包括至少一个量子处理器，所述至少一个数字电路可以包括多个图形处理单元(GPU)，并且由所述数字电路执行机器学习可以包括在前馈神经网络中操作所述GPU。

所述方法可以进一步包括经由所述至少一个量子处理器在本地执行RBM采样以便生成所述多个样本。

所述方法可以进一步包括：将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述多个样本，其中，所述概率分布的形状可以取决于所述模拟处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作可以包括：使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的所述多个量子位上的所述概率分布相对应，演算所述至少一个量子处理器，以及读出所述至少一个量子处理器的多个量子位中的所述量子位的状态，其中，所述多个量子位中的所述量子位的所述状态与来自所述概率分布的样本相对应；更新所述多个样本以包括来自所述概率分布的所述样本；以及返回所述样本集。

一种系统可以概括为包括：至少一个数字电路；以及至少一个模拟电路，其中，所述至少一个数字电路和所述至少一个模拟电路执行所述方法中的任何方法。

一种在系统中进行操作的方法，所述系统包括至少一个数字电路和至少一个模拟电路，所述方法可以概括为包括：接收使多个问题值与其相关联的问题；执行用于生成同所述问题相关联的所述多个问题值与同所述至少一个模拟电路相关联的多个量子位之间的映射的机器学习。执行用于生成所述多个问题值与多个量子位之间的映射的机器学习可以包括由所述至少一个数字电路执行机器学习。执行用于生成所述多个问题值与多个量子位之间的映射的机器学习可以包括执行用于生成多个输入值与多个量子位之间的映射的机器学习。执行用于生成所述多个问题值与多个量子位之间的映射的机器学习可以包括执行用于生成多个输出值与多个量子位之间的映射的机器学习。执行用于生成所述多个问题值与多个量子位之间的映射的机器学习可以包括执行用于生成多个输出值与多个量子位之间的映射的机器学习。执行用于生成所述多个问题值与多个量子位之间的映射的机器学习可以包括执行用于生成表示所述问题的树中的分支或树叶中的至少一种之间的多个横向连接的机器学习。

一种用于由计算系统训练量子深度信念网络的方法，所述计算系统包括至少一个处理器，所述方法可以概括为包括：接收训练数据集；由所述至少一个处理器定义模型，所述模型包括一个或多个模型参数；使用随机值初始化所述模型参数；测试以判定是否满足停止标准；响应于确定未满足所述停止标准，所述方法进一步包括当i迭代地从1直到达到停止条件时：从所述训练数据集中取得数据的第i个小批量；从近似后验分布中抽取样本；从先验分布中抽取样本；估计对数似然分布关于所述模型参数的梯度；至少部分地基于估计的下界更新所述模型参数；判定所述第i个小批量是否是最后小批量；响应于确定所述第i个小批量不是所述最后小批量，增加i并且执行另一个迭代。从所述近似后验分布中抽取样本可以包括使用非量子处理器从所述近似后验中抽取样本。从所述先验分布中抽取样本可以包括使用量子处理器从所述先验分布中抽取样本。

从所述先验分布中抽取样本可以包括使用量子处理器从所述先验分布中抽取样本，包括：将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述多个样本，其中，所述概率分布的形状取决于所述模拟处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的所述多个量子位上的所述概率分布相对应，演算所述至少一个量子处理器，以及读出所述至少一个量子处理器的多个量子位中的所述量子位的状态，其中，所述多个量子位中的所述量子位的所述状态与来自所述概率分布的样本相对应；更新所述多个样本以包括来自所述概率分布的所述样本；以及返回所述样本集。

一种计算系统可以概括为包括：至少一个处理器；以及存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少处理器执行所述方法中的任何方法。

附图说明

在附图中，相同的附图标记标识相似的元件或者动作。附图中元件的尺寸和相对位置不一定是按比例绘制的。例如，不同元件的形状以及角度不一定按比例绘制，并且这些元件中的一些可以被任意地放大和定位以提高附图的易读性。进一步地，所绘出的这些元件的特定形状不一定旨在传递与这些特定元件的实际形状有关的任何信息，而可能只是为了方便在图中识别而选取的。

图1是展示了根据本系统、设备、方法和制品的包括数字计算机和模拟计算机的示例性混合计算机的示意图。

图2A是根据当前描述的系统、设备、制品和方法的量子处理器的示例性拓扑结构的示意图。

图2B是根据当前描述的系统、设备、制品和方法的具有九个量子单元的量子处理器的示例性拓扑结构的示意图。

图3是流程图，展示了根据当前描述的系统、设备、制品和方法的用于训练通用量子深度信念网络的示例方法。

具体实施方式

概论

在以下说明中，包括了一些特定的细节来提供对不同的公开实施例的全面理解。但是，相关领域的技术人员将会意识到，实施例可以无需这些具体细节中的一个或多个来实践，或者可以使用其他方法、组件、材料等来实践。在其他实例中，并未详细示出或者描述与量子处理器(如量子设备)、耦连设备、以及包括微处理器和驱动电路系统的控制系统相关联的熟知的结构，以便避免对本方法的实施例的不必要的模糊说明。贯穿本说明书及所附权利要求书，单词“元件”和“多个元件”是用于包含但不限于与量子处理器相关联的所有这种结构、系统和设备，以及它们相关的可编程参数。

除非上下文另外要求，否则贯穿本说明书和所附权利要求书，单词“包括(comprising)”与“包括(including)”同义并且是包括性或开放式(即，不排除附加、未列举的元件或方法动作)。

贯穿本说明书提及的“一个实施例(one embodiment)”、“实施例(anembodiment)”、“另一实施例”、“一个示例(one example)”、“示例(an example)”、或“另一示例”、意指结合实施例或示例所描述的特定指示特征、结构或特性包括在至少一个实施例或示例中。由此，在贯穿本说明书各处出现的短语“在一个实施例中”、“在实施例中”、“另一个实施例”等并不必全都指同一个实施例或示例。此外，在一个或多个实施例或示例中，可以以任何适当的方式来组合特定特征、结构或特性。

应当注意的是，如在本说明书和所附权利要求中所使用的，除非内容另外明确指明，否则单数形式的“一种(a)”、“一个(an)”以及“所述”均包括复数对象。因此，例如，提及一个包括“量子处理器”的问题求解系统包括单个的量子处理器或者两个或更多个量子处理器。还应注意，术语“或者”总体上所使用的意义包括“和/或”，除非内容另外明确指明。

在此给予的小标题仅为了方便起见，而并非解释这些实施例的范围或意义。

量子硬件

图1展示了包括耦合至模拟计算机150的数字计算机105的混合计算系统100。在一些实施方式中，模拟计算机150是量子处理器。示例性数字计算机105包括可以用于执行典型数字处理任务的数字处理器(CPU)110。

数字计算机105可以包括至少一个数字处理器(如具有一个或多个核的中央处理器单元110)、至少一个系统存储器120以及至少一个系统总线117，所述系统总线将各个系统部件(包括系统存储器120)耦合至中央处理器单元110。

数字处理器可以是任何逻辑处理单元，如一个或多个中央处理单元(“CPU”)、图形处理单元(“GPU”)、数字信号处理器(“DSP”)、专用集成电路(“ASIC”)、可编程门阵列(“FPGA”)、可编程逻辑控制器(PLC)等和/或其组合。

除非另外说明，否则图1中所示出的各个块的构造和操作具有常规的设计。因此，在此不需要对这些块进一步地详细描述，因为它们将被相关领域的技术人员所理解。

数字计算机105可以包括用户输入/输出子系统111。在一些实施方式中，用户输入/输出子系统包括一个或多个用户输入/输出部件，如显示器112、鼠标113和/或键盘114。

系统总线117可以采用任何已知的总线结构或架构，包括具有存储器控制器的存储器总线、外围总线和局部总线。系统存储器120可以包括非易失性存储器，如只读存储器(“ROM”)、静态随机存取存储器(“SRAM”)、闪存NAND；以及易失性存储器，如随机存取存储器(“RAM”)(未示出)。

数字计算机105还可以包括其他非暂态计算机或处理器可读存储介质或非易失性存储器115。非易失性存储器115可以采取各种形式，包括：用于从硬盘读取并向其写入的硬盘驱动器、用于从可移除光盘读取并向其写入的光盘驱动器和/或用于从磁盘读取并向其写入的磁盘驱动器。光盘可以是CD-ROM或DVD，而磁盘可以是磁软盘或软磁盘。非易失性存储器115可以经由系统总线117与数字处理器进行通信并且可以包括耦合至系统总线117的适当接口或控制器116。非易失性存储器115可以充当数字计算机105的处理器或计算机可读指令、数据结构、或其他数据(有时被称为程序模块)的长期存储器。

尽管数字计算机105已经被描述为采用硬盘、光盘和/或磁盘，但是相关领域的技术人员将认识到可以采用其他类型的非易失性计算机可读介质，如磁盒、闪存卡、闪存、ROM、智能卡等。相关领域技术人员将了解的是，一些计算机架构采用易失性存储器和非易失性存储器。例如，易失性存储器中的数据可以被缓存到非易失性存储器中。或采用集成电路来提供非易失性存储器的固态盘中。

各种处理器或计算机可读指令、数据结构或其他数据可以存储在系统存储器120中。例如，系统存储器120可以存储用于与远程客户通信并且调度对资源(包括数字计算机105和模拟计算机150上的资源)的使用的指令。还例如，系统存储器120可以存储处理器可执行指令或数据中的至少一者，所述指令或数据当被至少一个处理器执行时使所述至少一个处理器执行本文其他地方描述的各种算法，包括机器学习相关算法。

在一些实施方式中，系统存储器120可以存储处理器或计算机可读计算指令以执行对模拟计算机150的预处理、协处理和后处理。系统存储器120可以存储一组模拟计算机接口指令以便与模拟计算机150进行交互。

模拟计算机150包括至少一个模拟处理器，如量子处理器140。模拟计算机150可以提供在隔离环境中，例如，在将量子计算机的内部元件与热、磁场和其他外部噪声(未示出)屏蔽的隔离环境中。隔离环境可以包括可操作用于将模拟处理器低温冷却到例如低于大约1开尔文温度的冰箱(例如，稀释制冷机)。

图2A示出了根据当前描述的系统、设备、制品和方法的量子处理器的示例性拓扑结构200a。拓扑结构200a可以用于实施图1的量子处理器140，然而，其他拓扑结构还可以用于本公开的系统和方法。拓扑结构200a包括如单元210a、210b、210c和210d的2x2单元网格，每个单元包括8个量子位，如量子位220(在图2A中仅指出了一个)。

在每个单元210a至210d内，存在八个量子位220(在图1A中仅指出了一个)，每个单元210a至210d中的量子位220被安排成四行(在图纸中水平地延伸)和四列(在图纸中垂直地延伸)。来自行和列的量子位220对可以由对应耦合器(如耦合器230(由粗体十字形状展示，在图2A中仅指出了一个))通信地耦合至彼此。对应耦合器230被定位并可操作用于将每个单元中的每一列中的量子位(图纸中垂直朝向的量子位)通信地耦合至同一单元中的每一行中的量子位(图纸中水平朝向的量子位)。另外地，对应耦合器(如耦合器240(图2A中仅指出了一个))被定位并可操作用于将每个单元中的每一列中的量子位(图纸中垂直朝向的量子位)与和所述列的朝向相同的方向上的最邻近单元中的每一列中的相应量子位(图纸中垂直朝向的量子位)通信地耦合。类似地，对应耦合器(如耦合器250(图2A中仅指出了一个))被定位并可操作用于将每个单元中的每一行中的量子位(图纸中水平朝向的量子位)与和所述行的朝向相同的方向上的最邻近单元中的每一行中的相应量子位(图纸中水平朝向的量子位)通信地耦合。

图2B是展示了根据当前描述的系统、设备、制品和方法的量子处理器(如图1的量子处理器140)的示例性拓扑结构200b的示意图。拓扑结构200b示出了九个单元，如单元210b(图2B中仅指出了一个)，每个单元包括八个量子位q1至q72。对于单元210b，图2B展示了单元内耦合(如耦合器230b(图2B中仅指出了一个))和单元间耦合(如耦合器260(图2B中仅指出了一个))。

量子位q1至q72之间的连接的非平面化使找到量子位q1至q72的最低能态的问题成为NP困难问题，这意味着可能将许多实际问题映射为图2A和图2B中展示的以及以上描述的拓扑结构。

使用具有图2A和图2B中所展示的拓扑结构的量子处理器140不仅限于符合本地拓扑结构的问题。例如，可能通过将量子位链接在一起来将大小为N的完全图嵌入在大小为O(N²)的量子处理器上。

包括具有图2A的拓扑结构200a的量子处理器140的计算系统100(图1)可以指定自旋变量|1/1上的能量函数并从量子处理器处接收根据以下伊辛模型的近似波尔兹曼分布中的较低能自旋配置的样本：

其中，h_i是局部偏置并且J_i，j是耦合项。

自旋变量可以被映射到二进制变量0/1。可以通过引入对辅助变量的附加约束来表示高阶能量函数。

机器学习

在此描述了用于替代或增加传统(即，经典的)机器学习硬件(如具有量子硬件的图形处理单元(GPU)和中央处理单元(CPU))的各种系统和方法。量子硬件通常包括一个或多个量子处理器或量子处理单元(QPU)。在此所描述的系统和方法适配用于开发QPU的机器学习架构和方法以便有利地实现改进的机器性能。改进的机器性能通常包括减少的训练时间和/或增加的概括准确度。

优化和采样可能是机器学习系统和方法中的计算瓶颈。在此所描述的系统和方法将QPU整合到机器学习流水线(包括架构和方法)中以便以典型硬件上的改进的性能执行优化和/或采样。机器学习流水线可以被修改成适合可以在实践中实现的QPU。

训练概率模型中的采样

包括受限波尔兹曼机(RBM)的波尔兹曼机可以在深度学习系统中使用。波尔兹曼机特别适合于无监督学习和概率建模，如图像修复和分类。

用于深度学习的现有方法的缺点是波尔兹曼机通常使用高成本的马尔可夫链蒙特卡尔理论(MCMC)技术来近似从经验分布抽取的样本。现有方法充当物理波尔兹曼采样器的代理。

本申请描述了将QPU整合到机器学习系统和方法中以便减少执行训练所花费的时间。例如，QPU可以用作物理波尔兹曼采样器。所述方法涉及对QPU(所述QPU是伊辛系统)进行编程，从而使得自旋配置天然地实现用户定义的波尔兹曼分布。所述方法可以然后直接从QPU中抽样。

受限波尔兹曼机(RBM)

受限波尔兹曼机(RBM)是表示二进制可见单元x和二进制隐藏单元z上的联合概率分布p(x，z)的概率图模型。受限波尔兹曼机可以用作深度学习网络中的元件。

RBM网络具有二分图拓扑结构，所述二分图具有每个可见单元和每个隐藏单元上的偏置以及每个边缘上的权重(耦合)。能量E(x，z)可以与可见单元和隐藏单元上的联合概率分布p(x，z)相关联，如下：

p(x，z)＝e-^E(x，z)/Z

其中，z是配分函数。

对于受限波尔兹曼机，能量为：

E(x，z)＝-b^T.x-c^T.z-z^T.W.x

其中，b和c是表示为多个矩阵的偏置项，W是表示为矩阵的耦合项，并且T表示矩阵的转置。条件概率可以如下计算：

p(x|z)＝σ(b+W^T.z)

p(z|x)＝σ(c+W^T.x)

其中，σ是S型函数，用于确保条件概率的值位于范围[0,1]内。

训练RBM

训练是过程，通过所述过程，模型的参数被调整成有利于产生期望的训练分布。通常，这通过尝试最大化关于模型参数的观测数据分布来完成。所述过程的一部分涉及给定数据分布上的采样，并且这部分通常直截了当。所述过程的另一部分涉及预测的模型分布上的采样，并且这部分通常难处理，从某种意义上来说，其将使用难管理数量的计算资源。

一些现有方法使用马尔可夫链蒙特卡尔理论(MCMC)方法来执行采样。MCMC构造具有作为其均衡分布的期望分布的马尔可夫链。k＞＞1步之后的链状态被用作期望分布的样本。样本的质量根据步数k提高，这意味着MCMC使训练成为慢过程。

为了加速MCMC过程，可以使用对比散度-k(CDk)，其中，所述方法仅采取MCMC过程的k步。加速所述过程的另一种方式是使用持续对比散度(PCD)，其中，在最终状态中从之前模型初始化马尔可夫链。CD-k和PCD方法趋向于在分布是(i)多模式并且(ii)模式被低概率区域分开时不充分地执行。

即使近似采样也是NP困难的。采样成本可以随着问题大小以指数方式增长。从本地QPU网络(如以上所描述的)中抽取的样本通常接近波尔兹曼分布。可能通过根据样本数量评估经验分布与真实分布之间的KL散度来将收敛速率量化为真实波尔兹曼分布。

噪声可以限制模型的参数在量子硬件中可以被设置的精度。在实践中，这意味着QPU从稍微不同的能量函数中进行采样。可以通过从QPU中采样并且将样本用作非量子后处理的起始点，例如，以初始化MCMC、CD和/或PCD来减轻所述影响。一些合适的后处理技术可以包括国际专利公开号WO 2016029172 A1中描述的那些后处理技术。

在先前段落中描述的方法中，QPU执行采样过程的困难部分。QPU发现不同组谷部，并且后处理操作在谷部内采样。后处理可以在GPU中实施并且可以至少部分地与量子处理器中的采样重叠以减少对总时序上的后处理的影响。

用于训练RBM的采样

训练数据集可以包括可见向量集。训练包括调节模型参数，从而使得模型最可能重现训练集分布。通常，训练包括最大化关于模型参数θ的观测数据分布的对数似然值：

以上等式中右手边(RHS)第一项与正相位有关并且计算p(z|x)上的能量E的期望值。所述项涉及给定数据分布上的采样。

RHS上的第二项与负相位有关并且计算p(x|z)上的能量E的期望值。所述项涉及预测的模型分布上的采样。

完全可见RBM

在使用量子处理器来促进机器学习的一种方法中，从以下形式的分布中采样的数据集：

p(x，z)＝e^-E(x，z)/Z

可以被分析以推断用于生成数据集的原始参数。这种形式的分布可以被理解为隐藏单元上的理想先验分布的替代，其中，到可见单元的所有连接已经被抽离。当最大化数据集的期望对数似然值时，系统学习最优先验分布(当其被明确提供时)的能力是结合隐藏单元与可见单元之间的映射使先验分布可学习的必要条件。所述问题与训练条件随机域类似，在所述条件随机域中，随机变量的给出观测值的条件分布与量子处理器的拓扑结构相匹配，并且观测值保持固定。

在尝试重构与量子处理器相容的分布的原始参数时，所有随机变量是可观测的，并且所述问题与训练完全可见波尔兹曼机相对应。尽管完全可见波尔兹曼机的对数似然值在其参数中是凸性的，但是训练它们仍然困难。特别是，计算对数似然值的梯度可能需要当前模型的一阶和二阶统计，估计所述一阶和二阶统计是NP困难的。

从传统RBM(其中二分图分开的一侧被隐藏)中的后验分布中进行采样可能是直截了当的并且通常是准确的。完全观测数据集打破关于使用隐藏单元的所有对称性，但是一旦选择了特定局部最小值，训练传统RBM就可能不比训练完全可见波尔兹曼机困难得多。

在选择了如上所述的分布的参数之后，可以构造训练、验证和测试数据集。可以例如对期望对数似然值使用随机梯度上升方法来执行训练。

对于图1B和图1C中展示的拓扑结构，每个随机变量可以连接至同一单元内的四个其他变量以及相邻单元中的两个变量。通过选择例如通过从{-2，+2}中均匀地抽取单元内连接并且从{-6，+6}中均匀地抽取单元间连接而构造的分布，单元内以及单元之间的连接量可以均衡，并且可以促进长距离兴趣相关性。

使用量子硬件进行的RBM采样

如以上所描述的，量子硬件(如具有图2A的拓扑结构200a的量子处理器)可以用于在本地执行RBM采样。例如，量子处理可以使用量子退火以从稀疏连接的RBM中进行采样。除了被直接用作RBM之外，量子处理器可以在基于具有隐藏单元当中的稀疏横向连接性的概率模型的机器学习方法中使用，从而保持隐藏单元与可见单元之间的密集连接性。在以下段落中，描述了用于利用已修改深度信念网络中的AQC和变分自动编码器的系统和方法。

量子深度信念网络(qDBN)

为了对抗量子处理器中的量子位的连接性的可能限制，可能期望转换输入，从而使得其符合可以由量子硬件在本地表示分布的种类。

一种方法是将稀疏连接的RBM堆叠在完全连接的RBM的顶部上，从而使用完全连接的RBM捕获分布的无法在稀疏连接的RBM中表示的方面。

从两层波尔兹曼机的联合分布中进行采样无法被量子硬件容易地加速。因此，一种方法是使用线性变换(如主成分分析(PCA))来构造其上可以操作其他机器学习方法的特征。例如，可以执行线性变换以将输入转换成服从对量子硬件的处理的形式。由于稀疏连接的量子硬件的统计是复杂的，因此可能难以找到针对最优线性变换的封闭形式，所述封闭形式将使数据的分布与可由量子硬件表示的分布的种类一致。期望的是，变换可以被学习。

一种方法将图形模型附接至RBM的底部。PCA是具有(i)高斯条件输入分布以及(ii)潜在变量上的高斯先验概率分布的有向图模型的示例。所述方法对联合分布进行采样。

根据以上描述构造的模型被称为量子深度信念网络(qDBN)。所述模型使用高斯可见单元，并且允许来自模型顶部的RBM中的所有单元的投射。除了RBM之外，其不具有隐藏层。在这些方面，qDBN与传统深度信念网络(DBN)不同。

由于条件高斯的配分函数独立于隐藏变量，所述配分函数以所述隐藏变量为条件，因此联合分布采用具有平方特征的无向图模型。这种性质允许所述方法保持与以上描述的完全可见模型的强平行。

训练qDBN

所述方法包括通过对期望对数似然值执行梯度下降来训练模型，其中，在接近来自期望经验分布的样本的数据集上取和。量子硬件生成样本。在对参数的合适选择的情况下，所述方法包括独立于输入从与量子硬件相容的RBM中抽取样本，并且然后从条件高斯中抽取样本。

先验分布函数不需要与量子硬件相容。给定输入x时隐藏单元z的条件分布是：

如果所述方法包括应用约束U^TU＝I_p(其中，存在p个隐藏变量)从而使得U不包括隐藏变量之间的耦合或者至少除了由连接性W施加的耦合之外隐藏变量之间不存在耦合，则条件分布p(z|x)可以与量子硬件相容。

对qDBN的训练可以以类似方式继续进行到针对完全可见模型，如早前描述的那些。一个区别是，由于隐藏单元的条件分布处于正相位，所述训练方法还可以包括计算期望梯度。所述训练方法可以另外包括使用以上等式而不是使用数据集的针对正相位的固定样本集来抽取新样本。出于定时原因，典型地而不是使用量子硬件来抽取新样本可能是有益的。

使用马尔可夫链来生成新样本(使用以上等式)的有效方式的示例是初始化每个链，假设W＝0，并且然后执行Gibbs采样。

训练方法的示例实施方式

算法1是示出根据当前描述的系统、设备、制品和方法的用于训练量子深度信念网络的方法的示例性伪代码。算法1是图3的方法300的示例实施方式。算法1建立输入和输出，并且初始化模型参数。算法1然后测试以判定是否已经满足停止标准。尽管尚未满足停止标准，但是算法1继续进行以限定对每个小批量或子集的处理。

图3示出了根据当前描述的系统、设备、制品和方法的用于训练通用量子深度信念网络的示例性方法300。根据本系统、设备、制品和方法，可以发生由一个或多个基于处理器的设备执行方法300。方法300像在此描述的其他方法那样可以由一系列或一组处理器可读指令实施，所述处理器可读指令由一个或多个处理器(即，硬件电路系统)执行。

方法300例如响应于来自另一个例程的调用或其他调用而在305处开始。

在310处，系统使用随机值初始化模型参数。替代性地，系统可以基于预训练过程初始化模型参数。在320处，系统测试以判定是否已经达到停止标准。停止标准可以例如与时期号(即，通过数据集的通路)有关或者与对通过验证数据集的连续通路之间的性能的测量有关。在后者的情况下，当性能开始降低时，可以指示系统过度拟合并且应当停止。

响应于确定已经达到停止标准，系统在395处结束方法300，直到再次唤醒例如用于重复学习的请求。

响应于确定尚未达到停止标准，系统在330处获取训练数据集的小批量(或子集)。具体地，训练数据集被分解为多个子集，每个子集被称为小批量。系统保持记录或计数系统已经处理了哪些子集或小批量。当系统测试以判定当前子集或小批量是否是要处理的最后一个时，系统可以将记录或计数与训练数据集被分解成的子集或小批量的总数量或者与旨在处理的数量进行比较。

在340处，系统从近似后验中抽取样本。在350处，系统从先验分布中抽取样本。在360处，系统估计梯度，并且在370处，系统至少部分地基于梯度更新模型参数。在380处，系统将参数投射回至允许的域。

在390处，系统测试以判定当前小批量是否是待处理的最后小批量。响应于确定当前小批量是待处理的最后小批量，系统将控制返回至320。响应于确定当前小批量不是待处理的最后小批量，系统将控制返回至330。

算法2是示出根据当前描述的系统、设备、制品和方法的可以结合算法1使用的用于训练包括完全可见稀疏连接的受限波尔兹曼机的量子深度信念网络的方法的示例性伪代码。

算法2包括用于取得样本的小批量的帮助函数。小批量是训练数据集的子集。另外，算法2包括用于在正相位中采样的帮助函数(参见上文)以及用于在负相位中采样的帮助函数。算法2包括用于计算梯度的帮助函数以及用于投射参数的帮助函数。在此示例中，参数是不受约束的。

算法3是描述针对qDBN的训练过程的示例实施方式的示例性伪代码。在算法3中所展示的示例中，qDBN具有正交的U。

算法3包括用于取得样本的小批量的帮助函数。小批量是训练数据集的子集。另外，算法3包括用于从特定分布中采样的帮助函数、用于在正相位中采样的帮助函数(参见上文)以及用于在负相位中采样的帮助函数。而且，算法3包括用于计算梯度的帮助函数以及用于将参数投射回至U^TU的帮助函数。

非高斯qDBN

如以上所描述的，条件分布p(z|x)可以是高斯分布。替代性地，可以使用更一般的非高斯条件分布p(x|z)，包括离散分布。

算法4是描述针对qDBN的训练过程的示例实施方式的示例性伪代码。在算法4中所展示的示例中，qDBN具有不受约束的U。

线算法4包括用于取得样本的小批量的帮助函数。小批量是训练数据集的子集。另外，算法4包括用于从特定分布中采样的帮助函数、用于在正相位中采样的帮助函数(参见上文)以及用于在负相位中采样的帮助函数。而且，算法4包括用于缩放来自正相位的样本的帮助函数、用于计算梯度的帮助函数以及用于投射参数的帮助函数。在此示例中参数是不受约束的。

算法5是描述针对深度qDBN的训练过程的示例实施方式的示例性伪代码。

算法5包括用于取得样本的小批量的帮助函数。小批量是训练数据集的子集。另外，算法5包括用于从特定分布中采样的帮助函数、用于在正相位中采样的帮助函数(参见上文)以及用于在负相位中采样的帮助函数。而且，算法5包括用于缩放来自正相位的样本的帮助函数、用于计算梯度的帮助函数以及用于投射参数的帮助函数。在此示例中参数是不受约束的。

对所展示的实施例的以上说明(包括在摘要中所描述的)并非旨在是穷尽的或者旨在把这些实施例限定于所公开的这些确切的形式。尽管为了说明的目的在此描述了多个具体的实施例和示例，但是相关领域的普通技术人员将会认识到，可以做出不同的等价更改而不脱离本公开的精神与范围。在此提供的不同实施例的传授内容可以应用于其他量子计算方法，并不一定是以上总体性说明的示例性量子计算方法。

可将以上所描述的各实施例进行组合以提供进一步的实施例。在本说明书中所提及的和/或在申请资料表中所列出的所有美国专利、美国专利申请公开案、美国专利申请、国外专利、国外专利申请和非专利公开案，包括：2015年1月1日公开的美国专利申请公开案2015/0006443；2015年6月11日公开的美国专利申请公开案2015/0161524；2014年8月22日提交的国际专利申请US 2015/046393；2015年8月19日提交的美国临时专利申请序列号62/206,974；2015年12月16日提交的美国临时专利申请序列号62/268,321；2016年3月14日提交的美国临时专利申请序列号62/307,929；以及2015年8月19日提交的美国临时专利申请序列号62/207,057，其中每一个都通过援引以其全文并入本文。如有必要，可以对实施例的多个方面进行修改，以利用各专利、申请和公开案中的系统、电路及概念来提供更进一步的实施例。

Claims

1.一种系统操作方法，所述系统包括数字计算机和模拟计算机，所述方法包括：

由所述数字计算机检索由所述模拟计算机生成的多个样本；以及

由所述数字计算机使用由所述模拟计算机生成的所述样本中的至少一个执行机器学习以便相比于由所述数字计算机不使用来自所述模拟计算机的所述至少一个样本执行所述机器学习而减少递归机器学习迭代的总次数，所述递归机器学习迭代由所述数字计算机执行以便以限定的准确度水平确定结果。

2.如权利要求1所述的操作方法，其中，由所述数字计算机执行机器学习包括经由受限波尔兹曼机(RBM)执行机器学习。

3.如权利要求1所述的操作方法，其中，所述模拟计算机包括至少一个量子处理器，所述数字计算机包括多个图形处理单元(GPU)，并且由所述数字电路执行机器学习包括在前馈神经网络中操作所述图形处理单元。

4.如权利要求3所述的操作方法，进一步包括：

经由所述至少一个量子处理器在本地执行RBM采样以便生成所述多个样本。

5.如权利要求3所述的操作方法，进一步包括：

将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述多个样本，其中，所述概率分布的形状取决于所述至少一个量子处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：

使用所述至少一个量子处理器的所述多个可编程参数的配置对所述至少一个量子处理器进行编程，其中，多个可编程参数的所述配置与所述至少一个量子处理器的所述多个量子位上的所述概率分布相对应，

演算所述至少一个量子处理器，以及

读出所述至少一个量子处理器的多个量子位中的所述量子位的状态，其中，所述多个量子位中的所述量子位的所述状态与来自所述概率分布的样本相对应；

更新所述多个样本以包括来自所述概率分布的所述样本；以及

返回所述样本集。

6.一种系统，包括：

数字计算机；以及

模拟计算机，其中，所述数字计算机和所述模拟计算机执行如权利要求1至5所述的方法中的任何方法。

7.一种在系统中进行操作的方法，所述系统包括数字计算机和模拟计算机，所述方法包括：

接收使多个问题值与其相关联的问题；

执行用于生成同所述问题相关联的所述多个问题值与同所述模拟计算机相关联的多个量子位之间的映射的机器学习。

8.如权利要求7所述的操作方法，其中，执行用于生成所述多个问题值与多个量子位之间的映射的机器学习包括由所述数字计算机执行机器学习。

9.如权利要求7所述的操作方法，其中，执行用于生成所述多个问题值与多个量子位之间的映射的机器学习包括执行用于生成多个输入值与多个量子位之间的映射的机器学习。

10.如权利要求7所述的操作方法，其中，执行用于生成所述多个问题值与多个量子位之间的映射的机器学习包括执行用于生成多个输出值与多个量子位之间的映射的机器学习。

11.如权利要求7所述的操作方法，其中，执行用于生成所述多个问题值与多个量子位之间的映射的机器学习包括执行用于生成表示所述问题的树中的分支或树叶中的至少一种之间的多个横向连接的机器学习。

12.一种系统，包括：

数字计算机；以及

模拟计算机，其中，所述数字计算机和所述模拟计算机执行如权利要求7至11所述的方法中的任何方法。

13.一种用于由计算系统训练量子深度信念网络的方法，所述计算系统包括至少一个处理器，所述方法包括：

接收训练数据集；

由所述至少一个处理器定义模型，所述模型包括一个或多个模型参数；

使用随机值初始化所述模型参数；

测试以判定是否满足停止标准；

响应于确定未满足所述停止标准，所述方法进一步包括迭代地当i从1直到达到停止条件时：

从所述训练数据集中取得数据的第i个小批量；

从近似后验分布中抽取样本；

从先验分布中抽取样本；

估计对数似然分布关于所述模型参数的梯度；

至少部分地基于估计的下界更新所述模型参数；

判定所述第i个小批量是否是最后小批量；

响应于确定所述第i个小批量不是所述最后小批量，增加i并且执行另一个迭代。

14.如权利要求13所述的方法，其中，从所述近似后验分布中抽取样本包括使用非量子处理器从所述近似后验中抽取样本。

15.如权利要求13所述的方法，其中，从所述先验分布中抽取样本包括使用至少一个量子处理器从所述先验分布中抽取样本。

16.如权利要求15所述的方法，其中，从所述先验分布中抽取样本包括使用至少一个量子处理器从所述先验分布中抽取样本，包括：

将所述至少一个量子处理器作为样本发生器操作以便提供来自概率分布的所述多个样本，其中，所述概率分布的形状取决于所述量子处理器的多个可编程参数的配置，并且其中，将所述至少一个量子处理器作为样本发生器操作包括：

演算所述至少一个量子处理器，以及

返回所述样本集。

17.一种计算系统，包括：

至少一个处理器；以及

存储处理器可执行指令或数据中的至少一者的至少一个非暂态处理器可读存储介质，所述指令或数据在被所述至少一个处理器执行时使所述至少处理器执行如权利要求13至16所述的方法中的任何方法。