CN107004162A

CN107004162A - 量子深度学习

Info

Publication number: CN107004162A
Application number: CN201580066265.4A
Authority: CN
Inventors: N·维贝; K·斯沃雷; A·卡珀尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-12-05
Filing date: 2015-11-28
Publication date: 2017-08-01
Also published as: US11295207B2; WO2016089711A1; US20170364796A1; EP3227837A1

Abstract

使用通过对近似于吉布斯状态的量子状态进行采样而评估的目标函数来训练玻尔兹曼机。经典处理用来产生目标函数，并且近似的吉布斯状态基于使用采样结果而改善的权值和偏置。在一些示例中，使用幅度估计。组合的经典/量子计算机产生用于形状分类和其他应用的适当权值和偏置。

Description

量子深度学习

技术领域

本公开涉及使用量子计算机来训练玻尔兹曼(Boltzmann)机。

背景技术

深度学习是用于已经显著地影响执行分类、推断和人工智能(AI)任务的方式的机器学习的相对新的范式。深度学习始于如下建议，即为了执行复杂的AI任务、诸如视觉或者语言，可能有必要对初始数据的抽象化而不是原始数据进行工作。例如被训练检测小汽车的推断引擎可以首先取得原始图像并且首先将它分解成简单形状。那些形状可以形成第一层抽象化。这些元素形状然后可以被一起分组成更高级抽象对象、诸如减震器或者车轮。然后对抽象数据而不是原始像素数据执行确定特定图像是否为小汽车的问题。一般而言，这一过程可能涉及到许多级抽象化。

深度学习技术已经证实对许多典型视觉和话音任务的明显改进、诸如错误率的30％相对减少。在一些情况下，深度学习技术诸如在匹配两个脸部时接近人类性能。当前在用于话音和搜索引擎的语言模型中部署常规经典深度学习方法。其他应用包括机器翻译和深度图像理解(即图像到文本表示)。

用于训练深度信任网络的现有方法使用对比散度近似以逐层训练网络。这一过程对于深度网络成本高、依赖于对比散度近似的有效性、并且排除使用层内连接。对比散度近似在一些应用中不适用，并且在任何情况下，基于对比散度的方法不能一次训练整个图形，而代之以依赖于一次一层地训练系统，这成本高并且降低模型的质量。最后，需要更多粗略近似以训练全玻尔兹曼机，这潜在地具有在所有隐藏和可见单元之间的连接并且可以限制在学习算法中找到的最优值的质量。需要克服这些限制的方式。

发明内容

本公开提供用于在机器学习中训练深度信任网络的方法和装置。公开的方法和装置允许高效训练用常规方式当前不可训练的通用玻尔兹曼机。此外，公开的装置可以在更少步骤中提供更快训练。与经典计算机组合使用量子计算机来确定用于深度玻尔兹曼机的目标函数的梯度。量子状态对吉布斯(Gibbs)分布的近似进行编码，并且对这一近似的分布的采样用来确定玻尔兹曼机权值和偏置。在一些情况下，使用幅度估计和快速量子算法。通常地，经典计算机接收玻尔兹曼机的规范(specification)和关联训练数据，并且确定与玻尔兹曼机关联的目标函数。量子计算机确定目标函数的至少一个梯度，并且基于目标函数的梯度建立玻尔兹曼机的至少一个隐藏值或权值。平均场近似可以用来定义目标函数，并且可以基于采样来确定梯度。

以下参照附图阐述本公开的这些和其他特征。

附图说明

图1图示深度玻尔兹曼机的代表性示例。

图2图示通常地基于与对数似然关联的目标函数训练玻尔兹曼机的代表性方法。

图3图示使用基于量子的采样的用于深度玻尔兹曼机的梯度计算方法。

图4图示用于确定用于在使用量子计算来训练玻尔兹曼机时使用的模型平均值的基于量子的采样方法。

图5图示用于确定用于在使用量子计算来训练玻尔兹曼机时使用的数据平均值的基于量子的采样方法。

图6图示在量子计算机中使用幅度估计的用于深度玻尔兹曼机的梯度计算方法。

图7图示在量子计算机中使用幅度估计来确定用于玻尔兹曼机的模型平均值的方法。

图8图示在量子计算机中使用幅度估计来确定用于玻尔兹曼机的模型平均值的备选方法。

图9图示用于训练深度玻尔兹曼机的代表性的基于处理器的量子电路设计环境。

图10图示产生量子电路布置的代表性经典计算机，该计算机耦合到量子处理器以便产生近似于吉布斯分布的量子状态。

具体实施方式

如在本申请中和在权利要求中使用的那样，单数形式“一”、“一个”和“该”除非上下文另有清楚指示则包括复数形式。附加地，术语“包含(include)”意味着“包括(comprise)”。另外，术语“耦合”没有排除在耦合的项目之间存在中间元件。

不应解释这里描述的系统、装置和方法为以任何方式限制。取而代之，本公开内容涉及单独以及以相互各种组合和子组合的、各种公开的实施例的所有新颖和非明显特征以及方面。公开的系统、方法和装置不限于其任何具体方面或者特征或者组合，并且公开的系统、方法和装置也不要求存在任何一个或者多个具体优点或者解决任何一个或者多个具体问题。任何操作理论将支持说明，但是公开的系统、方法和装置不限于这样的操作理论。

虽然为了便于呈现而按照特定、依次顺序描述公开的方法中的一些方法的操作，但是应当理解，除非以下阐述的具体言语要求特定排序，则这一描述方式涵盖重排。例如可以在一些情况下重排或者并行地执行依次地描述的操作。另外，为了简化，附图可以没有示出公开的系统、方法和装置可以与其他系统、方法和装置结合使用的各种方式。附加地，该说明书有时使用术语如“产生”和“提供”以描述公开的方法。这些术语是对执行的实际操作的高级抽象化。与这些术语对应的实际操作将根据特定实现方式而变化并且容易地由本领域普通技术人员可辨别。

在一些示例中，值、过程或者装置称为“最低”、“最好”、“最小”等。将认识这样的描述旨在于指示可以做出在许多功能备选之中的选择，并且这样的选择无需比其他选择更好、更小或者以别的方式优选。

这里描述的方法和装置一般地使用耦合到量子计算机的经典计算机以训练深度玻尔兹曼机。为了经典计算机在给定训练数据时更新用于深度玻尔兹曼机的模型，计算某些期望值。量子计算机被布置为加速这一过程。在典型示例中，由平均场近似或者有关近似所提供的对状态的经典地易处理的(tractable)近似用来预备与产生希望的期望值的分布接近的量子状态。量子计算机然后用来将这一近似高效地改善成精确地为希望的分布。然后通过从这一量化分布进行采样来学习需要的期望值。

在备选示例中，使用幅度估计。取代在与单个训练矢量对应的状态中预备量子计算机，在集合中的每个训练示例的量子叠加中预备的状态。幅度估计用来找到希望的期望值。

玻尔兹曼机

玻尔兹曼机是用于机器学习的强大范式，在该范式中，将训练系统以对训练矢量集合的示例进行分类或者生成训练矢量集合的示例的问题精简成自旋系统的能量最小化问题。玻尔兹曼机由分成两个类别的若干二进制单元构成：(a)可见单元和(b)隐藏单元。可见单元是其中给定机器的输入和输出的单元。例如如果机器用于分类，则可见单元将经常用来保持训练数据以及用于该训练数据的标签。隐藏单元用来生成在可见单元之间的相关性，这些相关性使机器能够向给定的训练矢量指派适当标签或者生成系统被训练以输出的数据类型的示例。图1图示深度玻尔兹曼机100，该深度玻尔兹曼机包括用于输入v_i的可见输入层102和用于输出l_j的输出层110以及耦合可见输入层102和可见输出层104的隐藏单元层104、106、108。层102、104、106、108、110可以用连接103、105、107、109连接到相邻层，但是在诸如图1中所示深度玻尔兹曼机中，没有层间连接。然而，公开的方法和装置可以用来训练有这样的层间连接的玻尔兹曼机，但是为了便于描述，具体描述对深度玻尔兹曼机的训练。

形式上，玻尔兹曼机经由吉布斯分布对隐藏和可见单元的给定的配置(v，h)的概率进行建模：

P(v，h)＝e^-E(v，h)/Z，

其中Z是称为分割函数的归一化因子，并且v、h分别是指可见和隐藏单元值。隐藏和可见单元的给定的配置的能量E是以下形式：

其中矢量v和h是可见和隐藏单元值，矢量b和d是如下偏置，这些偏置提供用于取值1的位的能量惩罚，并且w_i，j是如下权值，该权值指派用于均取值1的隐藏和可见单元的能量惩罚。训练玻尔兹曼机精简成通过最大化训练数据的对数似然来估计这些偏置和权值。已经为其确定偏置和权值的玻尔兹曼机称为训练的玻尔兹曼机。可以添加所谓的L2正则化项以便防止过度拟合从而产生目标函数的以下形式：

这一目标函数称为最大似然目标(ML目标)函数，并且λ代表正则化项。梯度下降提供一种用于找到ML目标函数的局部最优值的方法。形式上，可以将这一目标函数的梯度写为：

用于数量x(v，h)的期望值由下式给定：

其中以及

其中

注意计算这些梯度中的任何梯度是不平凡的(non-trivial)：分割函数Z的值是#P难以计算的并且一般地不能在指定的乘法误差内被高效地近似。这意味着模数合理复杂度的理论假设，量子和经典计算机都不应能够直接地计算给定的配置的概率并且又计算玻尔兹曼机的对数似然。

在实践中，已经使用经由对比散度或者平均场假设对似然梯度的近似。这些常规方式尽管有用但是没有完全地在理论上令人满意，因为由近似所产生的方向不是任何目标函数的梯度，更不用说似然。另外，对比散度在试图训练具有在可见与隐藏单元之间的任意连接的全玻尔兹曼机时没有成功。可以通过使用在层中组织隐藏单元的深度受限玻尔兹曼机(图1中所示)来减轻对于这样的连接的需要，这些层中的每层不包含层内交互或者与非连续层的交互。这一点的问题是常规方法使用对于有大量层的很深网络变得成本高的贪心逐层训练方式。这里公开用于训练深度受限玻尔兹曼机的基于量子计算的方法和装置，而不依赖于对比散度近似。公开的方法可以一般与玻尔兹曼机使用而不限于深度受限玻尔兹曼机。以下公开的方式适合于可以基于从吉布斯分布进行采样而高效地计算的任何目标函数。

可以在多种应用中使用玻尔兹曼机。在一个应用中，向玻尔兹曼机(在训练之后)提供与特定图像、系列图像、诸如视频、文本串或者话音或者其他音频关联的数据用于处理。在一些情况下，玻尔兹曼机提供对数据示例的分类。例如玻尔兹曼机可以将输入数据示例分类为包含脸部的图像、特定语言或者来自特定个体的话音、从希望的电子邮件区分垃圾信息或者标识输入数据示例中的其他模式、诸如标识图像中的形状。在其他示例中，玻尔兹曼机标识输入数据示例中的其他特征或者与数据示例关联的其他分类。在更多其他示例中，玻尔兹曼机预处理数据示例以便提取将向后续玻尔兹曼机提供的特征。在典型示例中，训练的玻尔兹曼机可以诸如通过标识文档集合中的主题来处理数据示例用于分类、聚类成组或者简化。向玻尔兹曼机输入用于出于这些或者其他目的而处理的数据称为数据示例。在一些应用中，训练的玻尔兹曼机用来生成与玻尔兹曼机关联的一个或者多个特征或者一组或者多组特征对应的输出数据。这样的输出数据称为输出数据示例。例如与脸部识别关联的训练的玻尔兹曼机可以产生与模型脸部对应的输出数据示例。

用于状态预备的量子算法

量子计算机可以从吉布斯分布抽取无偏样本，由此允许通过采样(诸如通过量子采样)来计算概率。如这里公开的那样，预备近似于在模型或者数据之上的理想概率分布的量子分布。然后通过向在数值误差内是目标概率分布的量子分布内的拒绝采样来改善这一近似分布。逐层训练不必要，并且可以避免在常规方法中需要的近似。从在吉布斯状态的幅度之上的均匀先验开始，经由量子拒绝采样预备状态可能效率低。这是因为成功概率依赖于初始状态和吉布斯状态的分割函数的比值，该比值一般地对于机器学习问题在指数上是小的。在一些示例中，在吉布斯状态中的联合概率之上使用平均场近似而不是均匀先验。这一附加信息可以用来对于数值上易处理的示例将成功概率提升至可接受水平。

然后可以通过从量子分布进行采样来找到所需期望值。可以通过使用称为幅度估计的量子算法来二次地减少实现固定的采样误差需要的样本数目。以下公开用来将初始量子分布改善成量子相干吉布斯状态(经常称为相干热状态或者CTS)的方法。平均场方式或者其推广(generalization)可以用来提供用于量子计算机改善成CTS的适当初始状态。假设所有单元在以下示例中是二进制值，但是可以在这一框架内通过从若干量子位的串形成单个单元来近似于其他单元(诸如高斯单元)。

平均场近似

向联合概率分布的平均场近似这里称为Q(v，h)。平均场近似是找到如下不相关分布Q(v，h)的变分方式，该不相关分布具有与由吉布斯分布给定的联合概率分布P(v，h)的最小Kullback-Leibler(KL)散度。使用Q而不是P的主要益处是可以使用平均场近似来高效地估计<v_ih_j>_model和log(Z)。次要益处是可以使用单量子位旋转来高效地预备平均场状态。

更具体地，平均场近似是如下分布：

其中选择μ_i和v_j以最小化KL(Q||P)。参数μ_i和v_j称为平均场参数。

使用伯努利分布的性质，可以示出：

可以通过相对于μ_i和v_j对这一方程求微分并且设置结果等于零来找到μ_i和v_j的最优值。对这一方程的求解是：

其中σ(x)＝1/(1+exp(-x))是sigmoid函数。

可以通过定点迭代隐式地求解这些方程，该定点迭代包括任意地初始化μ_i和v_j并且迭代直至达到收敛。假如映射的雅克比行列式的范数以1为上界，那么确保收敛。通过定点迭代来求解平均场方程类似于吉布斯采样而不同是这里仅有用于对其采样的多项式数目的配置，并且因此整个过程是高效的。

可以使用确切相同方法来计算对分布、诸如P(v，h)＝δ_v，x exp^-E(x，h)/Zx的平均场近似。仅有的不同是在这样的情况下仅对隐藏单元取平均场近似。需要这样的近似以计算数据的期望，需要该期望以估计以下使用的Q_ML的导数。也可以示出在所有乘积(product)分布之中，Q是如下分布，该分布造成向对数分割函数的近似中的最小误差。

实验上，平均场近似可以根据权值分布和使用的图形的几何形状在小于1％的误差内估计对数分割函数。对分割函数的平均场近似对于小的受限玻尔兹曼机充分地准确。结构化平均场近似方法如果需要则可以用来减少这样的误差，尽管以更高经典计算成本。可以示出公开的状态预备方法的成功概率在如下限制中接近一(unity)，在该限制中，模型中的相关性的强度变为零(vanish)。

平均场分布用来计算对必需分割函数的变分近似。以下示出这些近似。如果Q是对吉布斯分布P的平均场近似，则定义平均场分割函数Z_MF为：

另外，对于任何x∈x_train，令Q_x为对对于玻尔兹曼机而找到的吉布斯分布的平均场近似，其中可见单元被限幅为x并且还定义Z_x，MF为：

为了使用量子算法以从Q预备P，需要对近似P(v，h)≈e^-E(v，h)/Z_MF与Q(v，h)的比值的上界κ。令κ＞0为对于所有可见和隐藏配置(v，h)都满足的常数：

其中Z_MF是对以上给出的分割函数的近似。然后对于隐藏和可见单元的所有配置，

平均场近似也可以用来提供用于对数分割函数的下界。例如詹森(Jensen)不等式可以用来示出：

因此Z_MF≤Z并且P(v，h)≤e^-E(v，h)/Z_MF。

可以用成功概率预备用于玻尔兹曼机的吉布斯状态的相干类似状态。相似地，可以用成功概率预备与可见单元被限幅到配置x对应的吉布斯状态。平均场参数μ_i和v_j可以如以上示出的那样来确定并且唯一地指定平均场分布Q。平均场参数然后用来近似分割函数Z并且Z_x预备Q(v，h)的相干类似分布|ψ_ME>，通过执行一系列单量子位旋转：

拒绝采样可以用来将这一近似改善成定义注意可以从平均场参数高效地计算这一数量，并且因此存在关联高效量子电路，并且0≤P(v，h)≤1。

由于量子运算是线性的，所以如果这被应用于状态则获得状态添加附加量子位，并且对这一量子位执行形式R_y(2sin^-1(Pv，h)))的受控旋转以制定以下变换：

然后通过反向应用用来预备量子位P(v，h)的相同运算来将包含P(v，h)的寄存器恢复到|0〉状态。这一过程是可能的，因为保存测量的所有量子运算是可逆的。由于P(v，h)∈[0，1]，所以这是恰当地归一化的量子状态并且它的平方是恰当地归一化的概率分布。如果测量最右量子位并且获得结果1(投影测量总是产生单位矢量)，则状态的剩余物(remainder)将与下式成比例：

这是取决于(up to)归一化因子的希望状态。测量1的概率是这一比例常数的平方：

预备用来对数据估计期望值的量子状态需要对这一算法的略微修改。首先，对于期望值所需要的每个x∈x_train，用受约束平均场分布Q_x(x，h)替换Q(v，h)。然后使用这一数据，可以预备量子状态：

可以使用Q_x取代Q、Z_x取代Z和Z_x，MF而不是Z_MF来遵循相同过程。这一算法的成功概率是：

其中κ_v是与其中可见单元被限幅到x的情况对应的κ值。

对状态预备问题的这一方式使用平均场近似而不是无限温度吉布斯状态作为初始状态。初始状态的这一选择是重要的，因为状态预备过程的成功概率依赖于在初始状态与目标状态之间的距离。对于机器学习应用，在吉布斯状态与无限温度吉布斯状态之间的内积经常在指数上是小的；而平均场和吉布斯状态通常地具有大重叠。

如以下所示，如果使用不充分地大的值κ，则仍然可以使用状态预备算法，但是以减少与理想相干吉布斯状态的保真度为代价。使用放宽的假设，使得对于所有(v，h)∈good而言κQ(v，h)＜e^-E(v，h)/Z_MF，对于所有j∈bad而言κQ(v,h)＜e^-E(v,h)/Z_MF，以及然后可以预备如下状态，该状态具有与目标吉布斯状态的保真度至少为1-ò而概率至少为Z(1-ò)/(κZ_MF)。

在测量将状态投影到成功或者失败分支上的寄存器之前，状态如下：

成功地预备对状态的近似的概率然后如下：

所得状态与理想状态的保真度如下：

因为Q(v，h)Z_MFκ≤e^-E(v，h)并且(v，h)∈bad。使用这一假设，保真度的上界如下：

分别在表1-2中示出用于产生如下状态的过程，可以测量这些状态以对用于训练深度玻尔兹曼机的模型和数据估计期望值。

表1.用于生成如下状态的量子算法，可以测量这些状态以对用于训练深度玻尔兹曼机的模型估计期望值。

表2.用于生成如下状态的量子算法，可以测量这些状态以对用于训练深度玻尔兹曼机的模型估计期望值。

通过采样的梯度计算

一种用于估计O_ML的梯度的方法包括从平均场状态预备吉布斯状态，然后从所得分布抽取样本以便估计在上式(1a)-(1c)中需要的期望值。可以使用称为幅度放大的量子方法来改进这一方式，该量子方法是对Grover的搜索算法的推广，该搜索算法二次地减少使用以上讨论的方法来从吉布斯分布抽取样本而需要的重复均值数目。

存在有如下量子算法，该量子算法在有E个边的连通图形上将N_train个样本用于玻尔兹曼机来估计O_ML的梯度。算法为了计算梯度而需要的量子运算均值数目如下：

其中κ_v是与在可见单元被限幅到v时的吉布斯分布对应的κ值，并且意味着取决于多对数因子的f∈O(g)。

表3图示计算梯度的代表性方法。过程qGenModelState和qGenDataState(分别在表1和2中示出)代表这一方法中的仅有量子处理。可以示出表3的方法的预计成本是

表3.用于计算用于训练深度玻尔兹曼机的梯度的量子方法。

对照而言，为了使用贪心逐层优化来估计梯度而需要的运算和对U_o的查询的数目随着而缩放，其中是深度玻尔兹曼机中的层数。假设κ是常数，接着量子采样方式提供用于训练深度网络的渐近优点。在实践中，两种方式难以直接地比较，因为它们均优化不同目标函数，并且因此所得的训练的模型的质量将不同。然而，预计量子方式将倾向于找到较优模型是合理的，因为它由于取有限N_train而优化取决于采样误差的最大似然目标函数。

注意表3的方法较典型量子机器学习算法具有重要的优点在于它无需在量子存储器中存储训练矢量。取而代之，在评估能量和Q(v，h)时对于E的数值精确度仅需个量子位。这意味着可以用少于100个量子位执行不能经典地完成的算法，其中假设32位精确度对于能量和Q(v，h)足够了。量子旋转合成的新近发展可以用来去除如下要求，即显式地存储能量作为量子位串，这可能显著地减少空间要求。以下公开一种备选方法，在该方法中，量子计算机可以经由oracle相干地访问这一数据库。

经由量子幅度估计来训练

一种备选方法基于经由量子oracle访问训练数据，这可以代表提供训练数据的高效量子算法(诸如用作生成模型的另一玻尔兹曼机)或者经由二进制访问树存储存储器的量子数据库。如果训练集合是{x_i|i＝1，...，Nt_rain}，则oracle是酉(unitary)运算Uo，对于任何计算偏置状态|i>以及长度为n_v的任何位串y和x_i，该运算：

对U_o的单个量子访问足以预备对所有训练数据的均匀分布：

可以使用量子技术来高效地预备状态因此整个过程是高效的。

乍一眼看，用于对来自训练集合的所有数据预备叠加的能力看来是强大资源。然而，可以通过挑选随机训练矢量来使用一个查询经典地生成相似概率分布。需要更复杂方式以利用使用这样的量子叠加的计算优点。表4中所示方法使用这样的叠加以在某些境况之下提供用于计算目标函数的梯度的这样的优点。可以证实存在有如下量子算法，该量子算法可以使用对于恒定学习速率r随着而缩放的对U_O的查询的预计数目和随着而缩放的量子运算数目来在误差δ内在有E个边的连通图形上计算用于玻尔兹曼机的或者

表4中所示计算用于深度玻尔兹曼机的梯度的方法使用幅度估计。这一方法提供为了学习事件出现的概率而需要的样本数目的二次减少。对于任何正整数L，幅度估计算法取没有使用测量而有成功概率a的二次算法作为输入并且输出使得使用Grover的算法的L个迭代，而概率为至少8/π²。如果a＝0，则有确信度，并且如果a＝1而L是偶数，则有确信度。在通过引用而结合于此的arxiv.org/quanth-ph/0005055v1(2000)可用的、Brassard等人的“Quantum amplitude amplification andestimation(量子幅度放大和估计))”中进一步具体描述幅度估计。

表4的过程提供一种用于相对于权值计算O_ML的导数的方法。可以适配这一过程以相对于偏置计算导数。在这一过程中的第一步骤是预备所有训练数据的均匀叠加，然后将U_o应用于叠加以获得：

没有使用测量的任何二次算法是线性的，并且因此将qGenDataState(在上表2中示出)应用于这一叠加产生：

如果测量χ＝1是成功，则需要个预备以用高概率在相对误差Δ/8内学习P(success)＝P(χ＝1)。这是因为P(success)≥1/(κ+max_vκ_v)。相似地，成功可以与如下事件关联，在该事件中，第i个可见单元是1而第j个隐藏单元是1并且测量成功状态预备。这一标记过程与先前情况确切地相同，但是需要Toffoli门(可以使用基本门而实施的双重控制的非门)和两个哈达马运算。因此，可以使用个预备在相对误差Δ/8内学习P(v_i＝h_j＝χ＝1)。然后从条件概率法则接着可以计算：

为了保证<v_ih_j>_data中的总误差至多为Δ，必须界定(2)中的商中的误差。可见对于Δ＜1/2

因此该算法在误差Δ内给定<v_ih_j>_data。

可以使用qGenModelState(表1)作为在幅度估计中使用的状态预备子例程来重复相同步骤。这允许使用个状态预备在误差Δ内计算<v_ih_j>_data。三角不等式示出从近似〈v_ih_j〉_data-〈v_ih_j〉_model而引起的最大误差至多为2Δ。因此，在学习比值r的情况下，导数中的总错误至多为2Δr。如果Δ＝δ/(2r)，则总算法对于常数r需要个状态预备。

每个状态预备需要对U_o的一个查询和个操作，其中假设玻尔兹曼机的下层图形被连通。这意味着算法的预计查询复杂度是并且所需电路元件数目是

表4.用于使用幅度估计来计算权值的梯度用于训练深度玻尔兹曼机的量子过程。

有在表4的方法与表3的方法之间的两个定性不同。首先，表4的方法提供关于梯度的一个方向的具体信息，而由表3的方法产生的样本提供关于每个方向的有限信息。可以对于梯度矢量的每个分量重复表4的方法以便执行对玻尔兹曼机的权值和偏置的更新。其次，幅度放大没有用来减少κ的有效值。幅度放大如果在使用测量和反馈的算法中被使用则仅给予二次优点，除非成功概率已知。

随着E而二次缩放意味着对于学习所有权值表4的方法可能不优选于表3的方法。在另一方面，表4的方法可以用来改进先前估计的梯度。在一个示例中，使用个随机地选择的训练矢量、使用直接梯度估计方法来执行预备梯度估计步骤。然后通过将结果分成更小组并且对每个子组计算梯度矢量的每个分量的均值和方差来估计梯度。然后可以使用以上方法用学习有最大不确信度的梯度的分量。这一方式允许尤其在梯度中的不确定度的大多数来自少量分量的情况下使用不同方式的益处。

以上讨论涉及对受限玻尔兹曼机和深度玻尔兹曼机学习。公开的量子方法可以训练全玻尔兹曼机，其中假定对吉布斯状态的平均场近似仅有与真实吉布斯状态的在指数上为小的重叠。与这样的玻尔兹曼机关联的层内连接可以允许较优模型。

示例实现方式

参照图2，训练玻尔兹曼机的方法200包括在202提供训练数据并且初始化。在204，用量子计算机确定目标函数的梯度，并且在206，使用梯度上升以改善玻尔兹曼机。如果如在208确定的那样达到局部最优值，则在210返回优化的玻尔兹曼机规范。否则，在204执行附加量子处理。

在图3中图示梯度计算方法300。在302，提供训练数据和初始玻尔兹曼机规范(诸如层数和每层中的单元数目)。在304，使用训练矢量对于选择的模型和数据期望执行基于量子的采样算法(如例如表1或者表2的算法)。在306，对于模型平均值和数据平均值为由(i，j)指定的每个边确定可见单元和隐藏单元值(v_i，h_j)。在308，减去结果矢量，并且返回结果。

参照图4，建立和采样模型平均值的方法400包括在402接收玻尔兹曼机规范并且在404计算对吉布斯状态的平均场近似。在406，使用平均场值以对量子计算机中的量子位预备平均场状态并且在408预备量子位串，该量子位串存储每个配置(v,h)的能量。可以表示这一量子位串为在410添加量子位并且使用量子叠加以将量子位旋转成在412使用幅度估计以测量|1〉并且在414测量(v，h)。在416返回测量的值(v，h)。

可以用相似方式确定数据平均值。参照图5，对数据平均值进行采样的方法500包括在502接收玻尔兹曼机规范并且在504计算对吉布斯状态的平均场近似而v＝x_i。在506对量子计算机中的量子位预备平均场状态，并且在508预备量子位串，该量子位串存储每个配置(v，h)的能量。可以表示这一量子位串为在510添加量子位并且使用量子叠加以将量子位旋转成在512使用幅度估计以测量|1〉并且在514测量(v，h)。在516返回测量的值(v，h)。

在图6中示出使用幅度估计的梯度计算方法600。在602提供训练矢量{x_i}和初始玻尔兹曼机规范。在604确定为了在量子计算机中使用幅度估计相对于边权值(i，j)计算目标函数的导数而需要的模型平均值和数据平均值。用于相对于偏置计算导数的过程相同。在606减去结果矢量，并且返回结果。

可以使用图7中所示方法700来确定模型平均值。在702获得玻尔兹曼机规范和边规范(i，j)，并且在704确定对吉布斯状态的平均场近似。在706对量子计算机中的量子位预备平均场状态，并且在708预备量子位串，该量子位串存储每个配置(v，h)的能量。可以表示这一量子位串为在710添加量子位，并且使用量子叠加以将这一量子位旋转成在712使用幅度估计以确定测量这一量子位为|1>的概率，并且在714使用幅度估计以确定这一量子位为|1>并且h_i＝v_j＝1的概率。在716返回两个概率的比值。

也可以使用图8中所示方法800来确定模型平均值。在802获得玻尔兹曼机规范、边规范(i，j)和对训练矢量的叠加，并且在804确定对吉布斯状态的平均场近似。在806，对于叠加中的每个|x_i>同时对量子计算机中的量子位预备平均场状态。在808，预备量子位串，该量子位串存储每个配置(v，h)的能量。可以表示这一量子位串为在810添加量子位并且使用量子位叠加以将这一量子位旋转到在812使用幅度估计以确定测量这一量子位的概率为|1>，并且在814使用幅度估计以确定这一量子位的概率是|1>并且h_i＝v_j＝1。在816返回两个概率的比值。

计算环境

图9和以下讨论旨在于提供可以在其中实施公开的技术的示例计算环境的简要、大体描述。虽然不是必需的，但是在由个人计算机(PC)执行的计算机可执行指令、诸如程序模块的一般上下文中描述公开的技术。一般而言，程序模块包括执行特定任务或者实施特定抽象数据类型的例程、程序、对象、部件、数据结构等。另外，可以用包括手持设备、多处理器系统、基于微处理器或者可编程的消费者电子装置、网络PC、小型计算机、大型机计算机等的其他计算机系统配置实施公开的技术。也可以在分布式计算环境中实现公开的技术，在这些分布式计算环境中，任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中，程序模块可以位于本地和远程存储器存储设备中。通常地，经典计算环境耦合到量子计算环境，但是在图9中未示出量子计算环境。

参照图9，用于实施公开的技术的示例系统包括形式为示例常规PC 900的通用计算设备，该PC包括一个或者多个处理单元902、系统存储器904和将包括系统存储器904的各种系统部件耦合到一个或者多个处理单元902的系统总线906。系统存储器906可以是包括存储器总线或者存储器控制器、外围总线和使用多种总线架构中的任何总线架构的本地总线的若干总线结构类型中的任何总线结构类型。示例系统存储器904包括只读存储器(ROM)908和随机存取存储器(RAM)910。在ROM 908中存储基本输入/输出系统(BIOS)912，该BIOS包含有助于在PC 900内的元件之间传送信息的基本例程。

如图9中所示，在存储器部分916中存储玻尔兹曼机的规范。此外，存储器部分918存储电路定义，这些电路定义用来配置量子计算机以例如建立近似于吉布斯状态的状态。也存储用于接收精确度以及传达待使用的电路定义和状态的计算机可执行指令。在911存储用于梯度确定和评估的指令。在一些示例中，向PC 900提供玻尔兹曼机权值和偏置以便定义训练的玻尔兹曼机，该玻尔兹曼机接收输入数据示例或者产生输出数据示例。在备选示例中，如这里公开的玻尔兹曼机可以耦合到另一分类器、诸如另一玻尔兹曼机或者其他分类器。

示例PC 900还包括一个或者多个存储设备930、诸如用于从硬盘读取和向硬盘写入的硬盘驱动、用于从可移除磁盘读取或者向可移除磁盘写入的磁盘驱动和用于从可移除光盘(诸如CD-ROM或者其他光学介质)读取或者向可移除光盘写入的光盘驱动。这样的存储设备可以分别由硬盘驱动接口、磁盘驱动接口和光学驱动接口连接到系统总线906。驱动及其关联计算机可读介质提供对用于PC 900的计算机可读指令、数据结构、程序模块和其他数据的非易失性存储。也可以在示例操作环境中使用可以存储由PC可访问的数据的其他类型的计算机可读介质、诸如磁盒、闪存卡、数字视频盘、CD、DVD、RAM、ROM等。

可以在包括操作系统、一个或者多个应用程序、其他程序模块和程序数据的存储设备930中存储多个程序模块。可以在存储设备930以及存储器904中或者除了存储器904之外还在存储设备930中存储玻尔兹曼机规范以及用于训练过程、确定目标函数和配置量子计算机的计算机可执行指令。用户可以通过一个或者多个输入设备940、诸如键盘和指示设备、诸如鼠标向PC 900中录入命令和信息。其他输入设备可以包括数字相机、麦克风、操纵杆、游戏板、卫星盘、扫描仪等。这些和其他输入设备经常通过耦合到系统总线906的串行端口接口连接到一个或者多个处理单元902，但是可以由其他接口、诸如并行端口、游戏端口或者通用串行总线(USB)连接。监视器946或者其他类型的显示设备也经由接口、诸如视频适配器连接到系统总线906。可以包括其他外围输出设备945、诸如扬声器和打印机(未示出)。在一些情况下，显示用户界面，使得用户可以输入用于训练的玻尔兹曼机规范并且验证成功训练。

PC 900可以使用与一个或者多个远程计算机、诸如远程计算机960的逻辑连接在联网环境中操作。在一些示例中，包括一个或者多个网络或者通信连接950。远程计算机960可以是另一PC、服务器、路由器、网络PC或者对等设备或者其他公共网络节点并且通常地包括以上相对于PC 900而描述的单元中的许多或者所有元件，尽管已经在图9中仅图示存储器存储设备962。存储设备962可以提供对玻尔兹曼机规范和关联训练指令的存储。个人计算机900和/或远程计算机960可以连接到逻辑局域网(LAN)和广域网(WAN)。这样的联网环境在办公室、企业范围计算机网络、内部网和因特网中司空见惯。

在LAN联网环境中使用时，PC 900通过网络接口连接到LAN。在WAN联网环境中使用时，PC 900通常地包括用于通过WAN、诸如因特网建立通信的调制解调器或者其他装置。在联网环境中，可以在LAN或者WAN上的远程存储器存储设备或者其他位置中存储相对于个人计算机900而描绘的程序模块或者其部分。所示网络连接为示例，并且可以使用在计算机之间建立通信链路的其他手段。

参照图10，用于实施公开的技术的示例系统包括计算环境1000，该计算环境包括量子处理单元1002和一个或者多个监视/测量设备1046。量子处理器执行由经典编译器单元1020利用一个或者多个经典处理器1010来预编译的量子电路。基于玻尔兹曼机规范和训练指令、诸如以上描述的量子状态预备过程经由量子总线1006向量子处理单元中下载量子电路。

参照图10，编译是将量子算法的高级描述转译成量子电路的序列的过程。这样的高级描述可以如情况可以的那样存储在利用一个或者多个存储器和/或存储设备1062的计算环境1000以外的一个或者多个外部计算机1060上，然后经由一个或者更多通信连接1050而如必需的那样下载到计算环境1000中。备选地，经典编译器单元1020耦合到经典处理器1010和过程库1021，该过程库包含为了实施以上描述的方法而必需的一些或者所有过程或者数据、诸如玻尔兹曼机规范、状态预备过程(例如qGenModelState、qGenDataState)和平均场评估。

已经参照所示实施例描述和图示公开的技术的原理，将认识可以在布置和细节上修改所示实施例而没有脱离这样的原理。来自任何示例的技术可以与在其他示例中的任何一个或者多个其他示例中描述的技术组合。在这些章节中具体地解决的备选仅为示例而没有构成所有可能示例。

Claims

1.一种训练玻尔兹曼机的方法，包括：

用经典计算机接收玻尔兹曼机的规范、目标函数和关联训练数据；

在量子计算机中，确定所述目标函数的至少一个梯度；以及

基于所述目标函数的所述至少一个梯度，指定所述玻尔兹曼机的至少一个可见偏置、至少一个隐藏偏置或者至少一个权值以便产生训练的玻尔兹曼机。

2.根据权利要求1所述的方法，还包括：

在所述量子计算机中，预备多个量子位以便表示吉布斯分布；以及

通过对所述多个量子位中的每个量子位的状态进行采样来产生所述目标函数的所述至少一个梯度。

3.根据权利要求1和2中的任一权利要求所述的方法，其中所述目标函数是所述训练数据的平均对数似然和正则化函数的求和。

4.根据权利要求1-3中的任一权利要求所述的方法，还包括：在所述量子计算机中产生与模型值关联的量子状态，并且在所述经典计算机中基于对所述量子状态的采样建立所述模型值。

5.根据权利要求1-4中的任一权利要求所述的方法，其中所述模型使用梯度上升而被修正。

6.根据权利要求1-5中的任一权利要求所述的方法，还包括：在所述量子计算机中产生与数据值关联的量子状态，并且在所述经典计算机中基于对所述量子状态的采样修正所述模型值。

7.根据权利要求6所述的方法，其中与所述数据值关联的所述量子状态基于对吉布斯分布的平均场近似而被产生。

8.一种方法，包括：

在量子计算机中预备至少一个量子状态以近似吉布斯状态并且对所述至少一个量子状态进行采样；以及

在经典计算机中基于对所述至少一个量子状态的所述采样估计目标函数的梯度。

9.根据权利要求8所述的方法，还包括：基于估计的所述值定义用于所述玻尔兹曼机的权值或者偏置，并且基于玻尔兹曼机权值、隐藏偏置和可见偏置中的至少一项的梯度更新所述权值或者偏置。

10.根据权利要求8-9中的任一权利要求所述的方法，还包括基于所述玻尔兹曼机的定义的所述权值和偏置处理数据示例，其中所述数据示例与图像、形状、话音、文本、音频记录、视频记录或者量子状态关联。

11.根据权利要求8-10中的任一权利要求所述的方法，所述目标函数与所述训练数据的平均对数似然和正则化函数的求和关联，并且所述玻尔兹曼机是具有两层或者更多层的深度受限玻尔兹曼机。

12.根据权利要求8-11中的任一权利要求所述的方法，还包括：

在所述量子计算机中，

预备量子位串，所述量子位串存储与多个隐藏权值和偏置关联的能量值；

向预备的所述量子位串添加量子位并且应用旋转算符；

向具有添加的所述量子位的预备的所述量子位串应用幅度估计；以及

在所述经典计算机中，基于所述幅度估计确定目标函数的梯度。

13.根据权利要求8-12中的任一权利要求所述的方法，其中在所述量子计算机中预备至少一个状态包括预备与模型权值以及隐藏和可变偏置关联的状态，并且还包括计算平均场分割函数，其中所述至少一个状态部分基于所述平均场分割函数。

14.根据权利要求8-13中的任一权利要求所述的方法，其中在所述量子计算机中预备至少一个状态包括预备与模型权值以及隐藏和可变偏置关联的状态，其中可见单元被固定以便对应于选择的训练矢量。

15.根据权利要求8-14中的任一权利要求所述的方法，还包括计算平均场分割函数，其中所述至少一个状态部分基于与选择的所述训练矢量关联的所述平均场分割函数。