CN110073373A

CN110073373A - 经由量子玻尔兹曼训练进行断层摄影和生成数据建模

Info

Publication number: CN110073373A
Application number: CN201780075931.XA
Authority: CN
Inventors: N·O·维贝; M·凯弗罗瓦
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-12-08
Filing date: 2017-12-04
Publication date: 2019-07-30
Anticipated expiration: 2037-12-04
Also published as: WO2018106556A1; CN110073373B; US11157828B2; EP3552157A1; US20180165601A1

Abstract

利用量子效应来对复杂数据集合进行建模的量子神经网络总体上代表了量子机器学习和量子计算的主要焦点。在本申请中，描述了训练量子玻尔兹曼机的示例方法。此外，描述了使用量子玻尔兹曼机来能够实现量子状态断层摄影的形式的示例，该量子状态断层摄影提供输入量子状态的描述和生成模型两者。经典的玻尔兹曼机无法做到这一点。最后，将小型非stoquastic量子玻尔兹曼机与传统的玻尔兹曼机进行比较，用于生成任务，并且证据表明量子模型优于经典数据集合的经典对应部分。

Description

经由量子玻尔兹曼训练进行断层摄影和生成数据建模

技术领域

该申请涉及量子计算。特别地，该申请涉及在量子计算设备中实现玻尔兹曼机。

发明内容

利用量子效应来对复杂数据集合进行建模的量子神经网络总体上代表了量子机器学习和量子计算的主要焦点。在本申请中，描述了训练量子玻尔兹曼机的示例方法。此外，描述了使用量子玻尔兹曼机来能够实现量子状态断层摄影的形式的示例，该量子状态断层摄影提供输入量子状态的描述和生成模型两者。经典的玻尔兹曼机无法做到这一点。最后，将小型非stoquastic量子玻尔兹曼机与传统的玻尔兹曼机进行比较，用于生成任务，并且呈现表明量子模型优于经典数据集合的经典对应部分的证据。

在本文公开的特定示例中，哈密顿中的量子和经典项都是在实现量子玻尔兹曼机的量子计算机中通过基于POVM的Golden-Thompson训练方案或通过根据相对熵的训练来学习的。此外，后一种方案能够实现一种形式的断层摄影，其(与量子模拟器一致)允许哈密顿模型将被学习以用于使用传统断层摄影方案无法探测的复杂量子状态。

更具体地，本文描述了用于以下方法、系统和装置：(a)使用量子计算机来训练非stoquastic量子玻尔兹曼机；(b)使用测量记录来训练量子玻尔兹曼机，这些记录是从使用不仅仅投射到计算基础上的测量算子得到；(c)使用平均对数似然导数的交换子(“commutator”)扩展来训练量子玻尔兹曼机；(d)基于输入状态和玻尔兹曼机输出状态之间的相对熵来训练玻尔兹曼机；(e)使用量子玻尔兹曼机来执行量子或经典数据的断层摄影重建；和/或(f)训练量子玻尔兹曼机，其构建在费米子系统的吉布斯状态上，诸如电子。在特定实现中，描述了由2个局部非stoquastic哈密顿描述的训练量子玻尔兹曼机的示例。

所公开的技术由于若干原因是值得注意的，包括它提供了一种新的机器学习方案，该方案不被已知为经典可模拟。这意味着启用了在经典计算中没有类似物的新类型的学习。所公开的方法也被已知为优于小型经典玻尔兹曼机。所公开的方法还允许将这种机器学习算法被推广到量子数据。

本文描述的系统、装置和方法不应被解释为以任意方式进行限制。相反，本公开内容针对各种公开的实施例的所有新颖和非显而易见的特征和方面，单独地并且以彼此的各种组合和子组合。所公开的系统、方法和装置不限于任意特定方面或特征或其组合，并且所公开的系统、方法和装置也不要求存在任意一个或多个特定优点或要解决的问题。任意操作理论都是为了促进解释，但是所公开的系统、方法和装置不限于这种操作理论。

附图说明

图1-4示出了具有正-算子值测量(“POVM”)训练的示例量子玻尔兹曼机的模拟结果。

图5示出了使用相对熵训练的随机双量子比特混合和纯状态的断层摄影重建的绝对值。

图6-11示出了随机选择的混合状态和纯状态之间的量子相对熵的分布，作为2-、3-和4-量子比特断层摄影的训练时期的数目的函数。

图12和13示出了用于学习横向伊辛模型的相对熵和哈密顿误差。

图14-15图示了对5量子比特随机TI哈密顿的热状态的平均场近似的绝对值，其中每个哈密顿项通过从具有零均值和β＝1的单位方差的高斯的采样来选择。

图16-19示出了在完整图上由横向伊辛模型生成的热状态的平均场和真实分布的中值相对熵，其中高斯随机系数用用于2、3、4和5个量子比特的零均值和单位方差来选择。

图20是示出具有4个可见单元的全可见玻尔兹曼机的交换子训练的功效的图。

图21是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的一种示例性方法的流程图。

图22是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的一种示例性方法的流程图。

图23-25是示出了用于确定热平均值的示例性方法的流程图。

图26是示出了如本文所示和所述的用于交换子POVM训练的热状态准备的方法的流程图。

图27是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的示例性通用方法的流程图。

图28是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的示例性通用方法的流程图。

图29是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的示例性通用方法的流程图。

图30是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的示例性通用方法的流程图。

图31示出了合适的计算环境的通用示例，其中可以实现若干所描述的实施例。

图32示出了用于实现根据所公开技术的系统的可能的网络拓扑(例如客户端-服务器网络)的示例。

图33示出了用于实现根据所公开技术的系统的可能的网络拓扑(例如分布式计算环境)的示例。

图34示出了用于实现所公开技术的示例性量子计算系统。

具体实施方式

I.一般考虑

如在本申请中所使用的，单数形式的一、一个和该包括复数形式，除非上下文另有明确规定。另外，术语包含表示包括。此外，如本文所使用的，术语和/或表示短语中的任意一个项目或任意项目的组合。

尽管为了方便呈现，以特定的顺序次序描述了一些所公开的方法的操作，但应该理解，这种描述方式包括重新排列，除非下面阐述的特定语言需要特定的排序。例如在某些情况下，顺序描述的操作可以重新排列或同时执行。此外，为了简单起见，附图可能未示出所公开的系统、方法和装置可以与其他系统、方法和装置结合使用的各种方式。另外，该描述有时使用诸如产品的术语并提供来描述所公开的方法。这些术语是执行的实际操作的高级抽象。对应于这些术语的实际操作将根据具体实现而变化，并且本领域普通技术人员可容易地辨别。

II.公开的技术的简介

玻尔兹曼机是一种递归神经网络，与许多应用中使用的前馈神经网络不同，它能够生成训练数据的新示例。参见，例如Geoffrey E Hinton，Training products ofexperts by minimizing contrastive divergence,Neural computation,14(8):1771-1800(2002)。这使得玻尔兹曼机成为在缺少数据的情况下使用的优秀模型。在所有神经网络模型中，玻尔兹曼机可能是针对物理学家的最自然的机器。它将输入数据建模为好像来自热平衡中的伊辛模型。然后，训练的目标是找到最有可能再现输入数据的伊辛模型，这被称为“训练集合”。

该模型与物理学之间的密切类比使其成为针对量子计算和量子退火的自然契合。在这方面的一个突出问题是从伊辛模型到数据的量子模型的过渡是否会提供实质性改进的问题。

例如在Mohammad H Amin等人,Quantum boltzmann machine,arXiv preprintarXiv:1601.02036(2016)(下文称为“Amin等人”)中讨论了该问题，其讨论了用于训练在热平衡中使用横向伊辛模型来对数据进行建模的玻尔兹曼机的方法。虽然这些模型被示出是可训练的并且可以胜过经典的玻尔兹曼机，但是它们的训练程序受制于两个缺点。首先，它无法从经典数据中学习量子项。其次，他们所考虑的横向伊辛模型普遍被认为是使用量子蒙特卡罗方法可模拟。这意味着这样的模型可能不是量子的。在本公开中，这些问题得到纠正。特别地，本公开描述了没有受制于这些缺点的新训练方法。此外，它表明它们的性能明显是量子的。

当在量子设置中解决训练玻尔兹曼机的问题时，定义模型和问题是有用的。在所公开方案的示例实施例中，量子玻尔兹曼机包括两个部件。第一部件是哈密顿模型，其用于强制不同状态之间的能量惩罚，以及允许概念之间的量子相关。第二元素是训练数据。

定义1.设V是n个顶点的集合，并且E是连接这些顶点的边的集合。然后定义为Hermitian矩阵，使得H＝H_cl+H_qm，其中H_cl是经典的玻尔兹曼模型

其中和H_qm是矩阵，使得||H_qm-diag(H_qm)||≥0.。

A.训练量子玻尔兹曼机

检查机器学习算法的量子模拟非常类似于检查动力系统的量子模拟，因为存在可以将经典的玻尔兹曼机转换为量子设置的许多方法。这里，公开了几种示例方法，包括：基于正算子值测量(“POVM”)的训练和基于状态的训练。这些方案之间的基本区别源于用于将经典训练数据的概念概括为量子设置的对应关系。

基于POVM的训练是Amin等人的方法的修改，其假定向用户提供假定从基础训练分布采样的离散训练向量集合。在Amin等人中，使用投影仪对经典训练状态进行训练。然后训练的目标是找到最大化生成观察到的训练向量的对数似然的量子哈密顿。在本文描述的基于POVM的训练方案中，训练集合被描述为测量集合并且被概括以允许测量记录对应于POVM元素的标签。在该方案中，训练数据可以对应于密度算子以及非正交状态。

定义2.设是描述量子玻尔兹曼机的有限维希尔伯特空间，并且让V和L成为对应于QBM的可见和潜在单元的子系统。概率分布Pv和POVMΛ＝{Λ_v}，包括用于QBM训练的训练集合，如果1)在P_v和Λ的域之间存在双射并且2)每个Λ_v的域是H并且它仅非平凡地起作用在子系统V。

作为一个澄清示例，请考虑以下训练集合。想象一下，人们希望训练一个能生成偶数的模型。然后合理的训练集合将是

Λ_n＝|2n><2n|for1≤n≤8 (1)

P_v＝(1-δv_，0)/8. (3)

也可以使用以下等效训练集合

Pυ＝δ_v，1. (6)

两个学习问题都旨在模仿相同的概率分布。这表明，即使当使用单个训练向量时，量子玻尔兹曼训练的训练数据也可能很复杂。

第二种方案假定训练数据直接通过量子状态提供，该状态给出了数据的真实分布。这种方案通常比基于POVM的训练更强大，因为状态的测量可以提供执行前一种训练形式所需的统计数据。将示出该方案具有以下优点：它可以容易地允许量子玻尔兹曼机执行一种类型的状态的断层摄影重建，并且还可以允许比现有方法进行更少近似的训练形式。前者的优势尤为重要，因为它在量子状态断层扫描和量子机器学习之间建立了联系。对于这种方案，训练集合定义如下：

定义3.设H是有限维希尔伯特空间，设ρ为H上的Hermitian算子。算子ρ是针对基于状态训练的训练集合，如果它是密度算子的话。

作为澄清的示例，公式(1)中给出的训练数据可以对应于以下针对基于状态学习的训练数据

在基于状态的训练中，假设ρ的副本由oracle准备，并且不会假设用户既没有对ρ进行任意实验也没有任意关于它的先验知识。这与基于POVM的训练形成对比，其中用户具有测量记录集合，但不具有从中抽取的分布。

B.哈密顿

要指定的最后一部分是量子玻尔兹曼机的哈密顿。存在可以考虑的许多哈密顿。也许玻尔兹曼机最自然的延伸是考虑横向伊辛模型，该模型由Amin等人研究。在这里，考虑了不同的示例，其动机是在Amin等人中使用的stoquastic哈密顿可以使用量子蒙特卡罗方法有效地模拟的事实。为了解决这个问题，使用为费米子的哈密顿，因为费米子符号问题阻止了量子蒙特卡罗方法提供高效的模拟。

定义4.设V是n个顶点的集合，并且E是连接这些顶点的边集合。然后定义为Hermitian矩阵，使得H＝H_cl+H_qm，其中H_cl是经典的玻尔兹曼模型

其中和H_qm是矩阵，使得||H_qm-diag(H_qm)||＞0。

考虑的哈密顿具有以下形式

其中

这里a_p和是费米子创造和湮灭算子，它们创造并摧毁单位p的费米子。它们具有以下属性

这里的哈密顿对应于量子化学中使用的标准哈密顿对非粒子保守H_p项的存在取模。请注意，哈密顿中的所有项都保留了费米子的数目，但H_p除外。该项被包括以允许分布在不同数目的费米子上具有叠加，这对于该模型能够学习纯态的某些类的生成模型是合乎需要的。

通过检查，数字算子是很明显的。这导致了进一步的结论，即如果设置Hp→0并且将H中的所有其他非对角线项取为0，则该费米子哈密顿减少到玻尔兹曼训练中所使用的伊辛模型。因此，除了难以使用量子蒙特卡洛模拟之外，这种费米子玻尔兹曼机模型包括传统的玻尔兹曼训练，同时在相同的时间根据定义4表示为H＝H_qm+H_cl。

C. Golden-Thompson训练

量子玻尔兹曼机的训练过程可以被视为优化目标函数，该函数测量从模型生成的分布离底层数据分布有多接近。目标是修改哈密顿参数以在给定收集数据和哈密顿模型的情况下最大化目标函数。

这里，考虑了两种不同形式的目标函数，对应于基于POVM的训练和基于状态的训练。讨论的第一个并且最简单的目标函数是对应于基于POVM的训练。这种形式的训练的目标是最小化训练集合中经验观察到的数据分布与由热平衡中哈密顿模型生成的数据分布之间的KL分歧。让一个人将POVM定义为Λ：＝{Λ₀，...，Λ_N}并进一步定义

其中是模型隐藏单元上的标识算子。于是，KL分歧为

并且由于P_v是常数，因此最小化该目标函数等同于最大化∑_vP_vlog(P(v|H))。后一项称为平均对数似然。要优化的目标函数是

其中h_Q是对应于非对角矩阵元素的哈密顿项的向量。最后一个项是L2正则化项，其可以被包括用于惩罚解释数据所不需要的量子项。

虽然这个目标函数不太可能是一般可计算的，因为Tr[e^-H]的计算是一个#P-难题，对于经典的玻尔兹曼机，目标函数的梯度并不难估计。量子玻尔兹曼机面临挑战，因为H不需要与其参数导数一起转换。特别是，让θ是哈密顿参数，则Duhamel公式给出为

如果Λ_v与H进行转换，则可以恢复与经典情况非常相似的渐变的表达式。

Golden-Thompson不等式可用于优化目标函数的下界。在使用这个不等式时，可以找到目标函数的导数的以下表达式。

这导致了类似于经典训练的表达式。从Baker-Campbell-Hausdorff公式可以看出，当[Λ_v，H_v]＝0时，这个等式饱和。现在可以计算平均对数似然下界的梯度为

其中H_v＝H-logΛ_v.。下面将检查这种形式的训练，其中将说明在所考虑的情况下它生成优秀的梯度并且与精确的期望值一致，如下面的“示例实施”部分所示。

这种形式的训练无法学习哈密顿的任意组件使得这意味着在仅考虑训练数据以源自A_v＝|y_v><y_v|的方案中，其中y_v是第v个训练向量的二进制表示，对应于量子项的权重不能直接被训练并且必须是猜测的好值。这里，通过允许Λ_υ对应于计算基础中非对角线的POVM元素，来避免这种方案。

图1-4示出了具有POVM训练的QBM的模拟。特别地，图1和2的图100和200将玻尔兹曼机生成的分别与5和6个隐藏单元进行比较。对于量子(q)和所有其他参数都是固定的经典(c)玻尔兹曼机，隐藏单元的数目是变化的。y轴表示来自本文公开的模型的与在完全学习训练数据上分布的模型的之间的差异。图3是图300，其示出了关于全可见量子玻尔兹曼机的和针对性能优化的其他参数的性能。在图4的图400中，将玻尔兹曼机与4个可见单元和不同数目的隐藏单元进行比较。

D.相对熵训练

考虑的第二种方案是优化相对熵而不是平均对数似然。在这种情况下，要优化的目标函数是

并且目标函数的导数是

因此，可以系统地使由e^-H/Z的模拟器生成的状态更难以与状态ρ区分开，状态ρ被假定为能够通过查询有效子例程来准备，通过遵循由数据分布ρ中的哈密顿项的期望与e^-H/Z的对应期望值之间的差异给出的梯度。

如果ρ是正定的，则由S(ρ||e^-H/Z)≥||ρ-e^-H/Z||²/2ln(2)的事实激励。因此，如果ρ具有最大秩，则S(ρ||e^-H/Z)→0意味着e^-H/Z→ρ。

这种方法有两个主要优点。第一个是计算梯度不需要近似值。第二，这直接实现了断层摄影形式，其中状态ρ的模型由通过梯度上升过程学习的哈密顿提供。这是更有趣的，因为这个过程是高效的，给定可以为H准备对热状态的精确近似，并且因此它可以用于描述高维中的状态。与传统的断层摄影方法不同，该过程还提供了用于生成该推断状态的副本的显式过程。

E.数值结果

首先，使用少量可见和隐藏单元来检查上述示例算法的性能以生成训练。将结果与经典训练相比较。由于人们只能经典地模拟小型量子计算机，因此选择由阶跃函数构成的简单训练集合，阶跃函数具有向向量添加的10％的噪声。然后，使用费米子玻尔兹曼机对该分布进行建模，并比较两种模型观察到的平均对数似然的值。

已经发现，在每个检查的实例中，量子模型做出了比传统模型做得更好的拟合数据工作。针对关于Golden-Thompson目标函数的量子训练以及相对熵两者，观察到这些差异。

需要注意的另一个特征是，隐藏单元的包括对经典模型的学习能力有显著改善。在量子案例中，可以看出即使是全可见模型也优于所考虑的每个经典案例。添加单个隐藏单元确实对量子案例有帮助，但是额外的隐藏单元不能为量子玻尔兹曼机提供更大的能力以用于该训练集合。

随着人们对更大的玻尔兹曼机的推断，这些趋势仍在继续。在固定数目的训练时期，量子玻尔兹曼机为数据提供了更好的模型，同时需要更少的单元。训练目标函数的这些改进表明这些费米子量子玻尔兹曼机是针对数据的优秀模型。

量子玻尔兹曼机也可用于执行断层摄影。这通过学习两个量子比特状态的集合来证明，所述两个量子比特状态是哈尔随机纯态或混合状态，其是具有均匀分布权重的哈尔随机酉矩阵的列向量的凸组合。这里，为简单起见，选择包括每个2-量子比特Pauli算子的哈密顿。由于该集合已完成，因此可以使用适当的哈密顿生成每个可能的状态。这在图5中示出的图500中示出，其中少至5个训练时期足以在图形精确度内学习这些状态。特别地，图5的图示出了使用相对熵训练的随机双量子比特混合和纯状态的断层摄影重建的绝对值。在下面的“示例实现”部分中提供了关于误差与时期权衡的进一步细节。

III.示例实施

A.准备热状态

玻尔兹曼机训练的一部分是从热分布中采样。然而，准备热状态是NP困难。经典算法通过使用对比分歧近似它来避免这个问题。参见Geoffrey E Hinton,Trainingproducts of experts by minimizing contrastive divergence,Neural computation,14(8):1771-1800(2002)。类似的量子解决方案已在David Poulin和Pawel-Wocjan的“Sampling from the thermal quantum gibbs state and evaluating partitionfunctions with a quantum computer,”Physical review letters,103(22):220502(2009)；David Poulin和PawelWocjan的“Sampling from the thermal quantum gibbsstate and evaluating partition functions with a quantum computer,”Physicalreview letters,103(22):220502(2009)；Nathan Wiebe,Ashish Kapoor,ChristopherGranade,和Krysta M Svore的“Quantum inspired training for boltzmann machines,”arXiv preprint arXiv:1507.02642(2015)中提出。使用来自Anirban Narayan Chowd-hury和Rolando D Somma的“Quantum algorithms for gibbs sampling and hitting-time estimation,”arXiv preprint arXiv:1603.02940(2016)的方法，可以获得高精度近似。

这些方法之间的主要区别在于它们的方案使用积分变换来允许指数近似为酉的线性组合。然后使用哈密顿模拟思想以及模拟分数查询的思想来模拟这些算子。通过2范数测量，在误差∈范围内准备吉布斯状态的复杂性来自Anirban NarayanChowdhury和Rolando D Somma的“Quantum algorithms for Gibbs sampling andhitting-time estimation,”arXiv preprint arXiv:1603.02940(2016)。

对于反温度β＝1和H被明确表示为泡利算子的线性组合的情况。如果需要常数∈，则这大致二次方地优于现有的准备一般吉布斯状态的方案，但如果1/∈大则构成指数改善。如果Z∈Θ(N/polylog(N))，则该方案更高效。如果所有本征态的大致恒定分数对分区函数具有有意义的影响，则这是预期的。虽然在某些情况下这可以保持，特别是在强正则化的情况下，但不期望一般地保持。参见Nathan Wiebe,Ashish Kapoor,和Krysta M Svore的Quantum deep learning,Quantum Information and Computation,16:0541-0587(2016)；Nathan Wiebe,Ashish Kapoor,Christopher Granade,和Krysta M Svore的Quantuminspired training for Boltzmann machines,arXiv preprint arXiv:1507.02642(2015)。

在Man-Hong Yung和Alan Aspuru-Guzik的A quantum-quantum Metropolisalgorithm,Proceedings of the National Academy of Sciences,109(3):754-759(2012)中描述的用于准备热状态的替代方法。该方案通过使用Szegedy行进算子来工作，该算子的过渡幅度由Metropolis规则基于两个状态之间的能量特征值差给出。使用相位估计来计算这些特征值。通过在遵循这些变换规则的行进算子W上使用相位估计来找到吉布斯状态的相干模拟。外部相位估计循环中所需的受控W的应用数目为：

其中δ是定义量子行进的过渡矩阵的间隙，∈是热状态的准备中的误差。由于行进算子的每个应用都需要H的特征值的估计，因此这种复杂性进一步乘以量子模拟的复杂度。如果哈密顿是具有高效可计算系数的最多m个一稀疏哈密顿(“one–sparseHamiltonians”)的和，那么成本乘以因子m log(m)/log log(m)到m^2+o(1)，这取决于在相位估计过程中使用的量子模拟算法。

这些特征意味着先验不清楚哪种算法优选用于制备热状态。对于预期分区功能较大或需要高精度热状态的情况，Eq(23)是优选的。如果转移矩阵的光谱间隙很小，则量子模拟对于H来说是便宜的并且需要低精度，然后等式(24)将是更优选的。

图6-11是图600、700、800、900、1000和1100，其示出了随机选择的混合(图6、8、10)和纯(图7、9、11)状态之间的量子相对熵的分布作为针对2-(图6和7)、3-(图8和9)和4-(图10和11)量子比特断层摄影的训练时期的数目的函数，其中η＝0.025。虚线表示90％置信区间，并且实线表示中位数。

图12和13是图1200和1300，其示出了用于学习横向伊辛模型的相对熵和哈密顿误差。图12的图1200示出了具有高斯随机项的TI哈密顿的数据，该高斯随机项被重新调整为单位范数。图13的图1300示出了类似的情况但没有归一化哈密顿。这里ΔH＝||H_true-H_est||₂。

IV.相对熵训练

在本节中，提供了进一步的数值实验，其探究量子相对熵训练的性能。所考虑的第一个在图6和7的图600和700中示出，其示出了用于学习随机选择的2-量子比特纯和混合状态的这种形式的训练的性能。特别地，相对于Haar测量均匀地选择纯态，并且通过生成Haar随机酉的特征向量并且进一步选择混合状态为具有均匀分布的权重的这种状态的凸组合来挑选出混合态。

从这些实验中可以看出，在混合态上的相对熵训练的中位数性能非常好。观察到量子相对熵随着训练时期的数目呈指数缩小。在尽可能少的具有η＝1的35个训练时期之后，误差受到数值精度的限制。然而，对该图中95％置信区间的一瞥表明，许多示例产生的误差远大于这些。特别是在具有相同学习率的60个时期之后，图？？中数据的第97.5个百分位数仅具有10^-5的相对熵并且衰减比中位数慢得多。

这个问题的起源可以从图7中纯态的相对熵的图中看出。观察到纯态需要更多的训练时期以实现与高度混合状态相同的精度。这是预期的，因为纯态只能在现在内作为||H||→∞。在哈密顿中拥有大权重的愿望不仅意味着需要更多的时期来允许权重达到接近纯状态所需的量级，而且还意味着在接近这个限制时训练景观预期会更加粗糙。这使得学习这种纯态变得困难。类似地，混合状态的误差分布的胖尾部是有意义的，因为一些数据将来自几乎纯态。

这些图中误差条的缩小大致可以从Levy的引理中理解。Levy的引理表明，对于任意Lipschitz连续函数映射2N-1维度中的单位球体(C^N中的纯状态可以被嵌入在其上)，f(x)与其Haar期望值偏离∈的概率是在中。因此，如果取f(x)＝<x|σ|x>，当一个增加N时，期望根据Haar测度，几乎所有初始状态x均匀随机选择，以获得其置信区间的宽度在中，其中n是量子比特的数目。这意味着人们期待对于目标状态为纯的情况，置信区间的宽度随着量子比特的数目呈指数缩小。类似的浓度并不一定期望保持混合态，因为Levy的引理并不直接适用于这些情况。

V.应用于哈密顿学习

在上述申请中，目的是学习哈密顿，其参数化用于训练数据的热状态模型。然而，在某些情况下，目的可能不是学习特定的输入状态，而是学习用于热化系统的系统哈密顿。然后，相对熵训练允许经由梯度上升和模拟器从哈密顿项的热期望值中学习这样的哈密顿。在这里，通过从由泡利算子的完整集合组成的哈密顿模型移开到缺少许多这些项的局部哈密顿模型来说明这一点。具体而言，在完整图上选择横向伊辛模型：

然后测试所公开的训练算法在给定访问所需期望值时重建真哈密顿的能力。

除了横向伊辛模型的简单性之外，它也是很好的示例，因为在许多情况下，这些模型可以使用量子Monte-Carlo方法进行有效模拟。这意味着量子计算机不是估算大量子系统的模型梯度所必需的。

图12和13是图1200和1300，其示出了学习这种模型的能力很大程度上取决于哈密顿的范数，或者等效地取决于热状态的反温度。使用这种方法学习高温状态的模型比学习低温热状态的模型要容易得多。其原因与之前观察到的相似。梯度上升需要许多步骤才能进入正确的热状态附近。当人们注意到误差仅随着人们变化量子比特数的而适度变化时，这一点尤其明显，但是当我们改变哈密顿的范数时，它会发生显著变化。这意味着需要更多的训练时期才能到达误差从最初选择的随机哈密顿开始指数缩小的区域。如果已知哈密顿的良好假定，则可以加快这种过程。

A.平均场近似

图14-15是图1400和1500，其示出了对5量子比特随机TI哈密顿的热状态的平均场近似的绝对值，其中每个哈密顿项通过从具有零均值和在β＝1处的单位方差的高斯采样来选择。学习率被采用为η＝1，使用了100个训练时期。特别地，图1400示出了横向伊辛模型的热状态，并且图1500示出了平均场近似。

图16-19是图1600、1700、1800和1900，其示出了对于2(图16)、3(图17)、4(图18)和5(图19)的量子比特，在完整图上由横向伊辛模型生成的热状态的平均场和真实分布的中位数相对熵，其中高斯随机系数被选择具有零均值和单位方差，并且对于每个数据取η＝1。虚线给出95％置信区间。

平均场近似在凝聚态物理中无处不在。它们对于诸如伊辛模型的某些量子系统的计算相对简单，但对于完全量子模型可能是挑战性的。这里，提供了一种示例方法，用于在给定计算密度算子ρ的矩的能力的情况下找到系统的平均场哈密顿。该方案完全遵循前面的讨论，除了采用Eq(26)，以下被使用：

H_j：＝α_jZ^j+β_jX^j+γ_jY^j. (26)

然后目的是找到向量α、β和γ，使得相关状态ρ由不相关的平均场状态近似：

除了在物理学中的应用，这些平均场近似在量子深度学习中也是非常宝贵的。具体而言，给定可以访问数据分布的平均场近似，然后可以通过拒绝采样来引导这个想法，以便根据[]获得对吉布斯状态的更准确的近似。这里，表明可以使用量子相对熵训练为任意模型实现这一点。

从图14-15中的数据可以看出，对于100个训练时期的完整图上的5量子比特横向伊辛哈密顿引起的热状态的相对熵训练产生平均场近似，其在图形上非常接近原始状态。事实上，如果ρ是TI热状态，并且σ是它的平均场近似，则Tr(ρσ)≈0.71。这表明本文公开的示例方法是计算平均场近似的实用方法。

为了评估为了收敛到良好的平均场近似需要多少个时期，可以在图16-19中看到，在仅一个训练时期之后，超过1000个随机选择的实例的中位数相对熵大致达到其最优值。此外，值得注意的是，系统饱和的相对熵随着量子比特的数目而趋于上升。这是部分由于哈密顿在完整图上并且根据高斯分布选择权重的事实。因此，随着量子比特数的增加，可以预期更多相关的哈密顿，并且进而预期平均场近似更差，这与本文讨论的观察结果相匹配。

将注意力转向对n＝2，......，5的n-局部哈密顿的学习平均场近似，可以注意到平均场近似在定性和定量上均无法捕获真实分布中的相关性。这并不奇怪，因为预期这些状态是高度相关的，并且平均场近似不能很好地描述它们。即使减少哈密顿的范数，这些差异仍然存在。这说明与基础哈密顿的性质相比，找到高保真平均场近似的能力较少取决于量子比特数。

VI.交换子训练

图20是图2000，示出了具有4个可见单元的全可见玻尔兹曼机的交换子训练的效果。顶部线首先描绘了Golden-Thompson训练，然后切换到交换子训练，其中人们看到准确性突然增加。挑选参数使得交换子训练稳定。底部线(虚线)示出了Golden-Thompson训练的表现，具有优化的学习速度和动力。

交换子训练代表了第二种方案，其可以被采用以避免使用Golden-Thompson不等式。这种方案背后的思想是使用Hadamard引理将等式(18)中的序列近似为交换子序列。特别是，如果哈密顿是有界哈密顿项的和，那么等式(18)变成为Tr[Ce^-H]，对于

因此，平均对数似然的梯度变为

这个交换子序列可以通过在低阶截断它来使其易于处理，如果这将不会生成实质性的误差。因此，在量子项上存在L2正则化的情况下，预期交换子训练优于Golden-Thompson训练，但不是广泛适用的。

可以在图20的图2000中看到，对于固定的学习速率，从Golden-Thompson扩展返回的梯度次于从高阶交换子扩展返回的梯度。这反过来说明了精确梯度和Golden-Thompson梯度之间的差距。通过对具有4个可见单位的全可见玻尔兹曼机进行Golden-Thompson训练，进一步检查了这一点。可以使用Golden-Thompson梯度训练固定数目的时期，然后切换到5阶交换子扩展。在这样做的过程中，人们看到了作为结果的目标函数的显著改善。这表明，在某些情况下，使用交换子方法可以找到比使用Golden-Thompson更好的渐变；虽然由于需要测量更多的期望值的事实，但以更高的价格。

交换子方法的缺点是它看起来不如Golden-Thompson稳定。特别是，当扩展不收敛或学习速率太大时，交换子训练不会优雅地失败。这意味着这种训练形式的最优学习速率可能与Golden-Thompson训练的最优学习速率大不相同。当Golden-Thompson训练的学习速率被优化时，发现训练目标函数增加了大约1.5倍，与使用交换子训练看到的结果一致。这表明虽然交换子训练可以提供更准确的梯度，但它不一定需要更少的梯度步长。在实践中，该方法很可能在Golden-Thompson训练后的最后几个训练时期或其他形式的近似训练中使用，达到局部最优状态。

VII.复杂性分析

在本节中，假设以下成本模型。假设有一个具有数据库(“oracle”)，F_H(∈H)，它能够获取量子玻尔兹曼机的权重和偏差(或等效地H的参数化)并输出状态σ，使得针对∈_H≥0，||σ-e^-H/Z||≤∈H。显然假设状态准备不准确，因为授予为任意哈密顿准备准确的吉布斯状态的能力的任意计算模型都可能比合理复杂性理论假设下的量子计算更强大。对于相对熵训练，假设训练数据ρ由对辅助数据库F_ρ的查询提供。这两个数据库都是等价的。最后，假设对于POVM训练，POVM元件可以用恒定大小的电路准备，并且不为实现这样的项分配成本。这样做有两个原因。首先，对于大多数基本示例，POVM元素是非常简单的投射器，并且没有比实现哈密顿项实质上更大的复杂性。第二是为他们纳入成本会需要打开黑盒FH，这将使讨论大大复杂化并迫使专门化以用于特定状态准备方法。

所示的第一个结果是基于断层摄影边界的下限，其表明如果希望为训练数据提供高度准确的生成模型，则量子玻尔兹曼训练通常不能是高效的。

引理1.对F_ρ的查询数，其产生使用相对熵来训练任意量子玻尔兹曼机所需的秩r状态算子ρ∈CD×D的副本，使得由玻尔兹曼机生成的量子状态在ρ的跟踪距离内∈∈（0,1），并且具有失效概率Θ(1)，是在Ω(Dr/[∈²log(D/r∈)])内。

证明.证明遵循矛盾。由于已经假设了任意量子玻尔兹曼机，现在考虑具有完整哈密顿项集合的玻尔兹曼机。如果没有做出这样的假设，那么将存在某些密度算子，这些算子不能对于所有∈＞0在∈的误差范围内准备。假设ρ是秩D，如果这是真的那么存在使得ρ∝e^-H因为矩阵对数针对这样的系统被很好地定义。

现在假设ρ具有小于D的秩。如果是这种情况，则不存在使得ρ∝e^-H，但是ρ可以由它紧密地近似。设P₀为ρ的零空间上的投射器，其假设为D-r维。然后设为ρ到其零空间的正交补充的投影。由于ρ是该子空间内的最大秩，因此存在使得在到C^D×D的不重要的等距延伸之后，然后可以写出通过构造因此

跟踪范数的定义意味着对于任意γ>0，因此，因为具有迹线范数1

因此，ρ可以在小于∈的误差内由Hermitian矩阵近似，而不管其秩，Hermitian矩阵的范数范围最多为因此对于每个∈＞0存在一个量子玻尔兹曼机，其具有哈密顿项的完整集合，哈密顿项的完整集合可以使用有界哈密顿在小于∈的跟踪距离内近似ρ。

在Jeongwan Haah,Aram W Harrow,Zhengfeng Ji,Xiaodi Wu,和Nengkun Yu的“Sample-optimal tomography of quantum states,”arXiv preprint arXiv:1508.01797(2015)中，示出在该论文的定理1中，Ω(Dr/[∈²log(D/r∈)])样本需要在跟踪距离中在误差∈内断层摄影地重建秩r密度算子由于训练玻尔兹曼机可以在跟踪距离∈内提供任意密度矩阵的规范，如果该训练过程需要ω(Dr/[∈²log(D/r∈)])个样本，则会违反它们在断层摄影上的下限。因此结果如下。

引理2.不存在对于训练集合上的量子玻尔兹曼机的通用的基于POVM的训练算法，使得|{P_v：P_v＞0}|＝N可以准备热状态使得T_r([∑_vP_vΛ_v]e^-H/Z)≥1/Δ，其需要对Pv的M个查询，其中和

证明.证明自然遵循从减少的Grover搜索到玻尔兹曼训练。在这里，期望使用对黑盒数据库的查询来学习白盒数据库，可以查询白盒数据库以了解标记状态而无需实际查询原始盒。要清楚，让挑选Λ₀＝|0><0|并且P₁＝1并且对于υ＞1，Λ_υ＝|υ><υ|，其中P_υ＝0。这些元素形成POVM，因为它们是正的并且与加和为单位一。

在上面的构造中，给出Pv的数据库相当于Grover数据库。这意味着对此数据库的查询与对Grover的数据库的查询相同。

现在假设可以使用对黑盒子的查询来训练玻尔兹曼机，使得这意味着平均需要次查询通过从BM中抽取样本并使用数据库验证它们来准备|0>。由于学习BM的成本也是这意味着总共需要的查询的数目是因此，可以使用次查询并从下限开始在这些假设下执行量子搜索，这意味着这是一个矛盾。

上述引理排除了一般有效的玻尔兹曼训练而没有关于训练数据的进一步假设，或者没有对训练算法输出的BM模型的精度提出更少的繁重要求。这意味着，人们不能期望，即使量子玻尔兹曼机也存在当人们研究量子机器学习算法的复杂性时需要考虑的局限性。

定理1.设其中是量子玻尔兹曼机的哈密顿，设G是近似于其中是基于POVM或相对熵训练的训练目标函数。存在训练算法，使得在N_epoch个时期中的每个时期并且查询F_H和训练集合的次数为

证明.可以通过考虑主体中的方法给出的近似梯度来示出证明。由于这些方法中的每一种都使用采样，因此结果将遵守来自方差的直接估计。考虑平均值的无偏估计，诸如样本均值。由于这种估计是无偏的，因此满足从而

对于在所有j的||H_j||≤1的假设下的相对熵训练

类似地适用于POVM训练

因此

因此，如果希望取整体方差为∈²，则取n＝M/∈²就足够了。这n个样本中的每一个都需要单个热状态的准备和/或对训练数据的查询。因此，对于两种训练算法，考虑计算梯度分量所需的查询数是O(n)。由于存在M个分量，因此估计梯度所需的查询总数为

然后结果遵循该算法进行N_epoch个梯度步骤的假设。

VIII.一般实施例

该部分描述了用于训练在量子计算机中实现的量子玻尔兹曼机的若干示例实施例。所公开的工具和技术不应被解释为以任意方式进行限制，因为所示方法动作中的一个或多个可以单独执行或者以彼此的各种其他组合和子组合执行。此外，所公开的方法动作中的任意一个或多个可以利用本文公开的一种或多种其他方法动作来执行。

在一些实施例中，以下方法由(至少部分地)经典计算机执行，经典计算机被配置为与量子计算机通信并控制量子计算机。此外，该方法动作可以体现为计算机可执行指令，当由计算机执行时，该指令使计算机执行这些方法。

图21是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的一种示例性方法的流程图。图21中所示的特定示例示出了用于训练量子玻尔兹曼机的基于POVM的技术。特别地，图21的方法动作2110-2122用于计算描述如何调整玻尔兹曼机中的相邻节点的权重的梯度，其创建训练目标函数的改进结果(例如具有最陡峭改进的梯度)。

在2110处，启动外循环迭代过程。该过程涉及循环训练集合中给出的每个训练示例。这里，训练集合包括POVM元素和描述用户希望学习的分布的对应概率。

在2112处，启动内循环迭代过程。对于描述玻尔兹曼机的量子哈密顿中的每个项重复随后的过程。

在2114处，计算哈密顿项的热期望值。这可以使用用于使用量子计算机准备热状态的算法来实现。可以通过从量子状态进行采样或者使用诸如幅度估计或Hadamard测试的量子技术来估计期望值。

在2116处，玻尔兹曼机中的可见单元被约束为对应于所讨论的POVM元素，并且允许隐藏单元热化。

在2118，减去期望值并将结果乘以P_u。

在2120，组合来自两个期望值的数据以计算Golden-Thompson训练目标的梯度的分量。注意，Golden-Thompson训练目标函数与理论上想要的平均对数似然不同，它规定理想的训练目标函数的下限，因此最大化目标函数通常也使理想目标函数最大化。

在2122处，然后将梯度作为经典比特串返回，尽管在某些情况下可以返回量子寄存器。一旦计算了梯度，就可以使用梯度下降优化来优化训练目标。

图22是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的一种示例性方法的流程图。图22中所示的特定示例示出了使用相对熵来训练量子玻尔兹曼机的技术。与图21一样，图22的方法动作2200-2222用于确定描述如何调整玻尔兹曼机中相邻节点之间的至少一个权重的梯度或者单元之一上的偏差，其创建改进的结果(例如给出具有最陡峭改进的方向)。

在2210，启动迭代过程。在该实施例中，该过程在量子玻尔兹曼机中存在的每个哈密顿项上进行循环。

在2212，准备训练集合，其在这种情况下是量子状态。这里没有使用POVM元素，因为在这种情况下不假定量子状态是经典已知的。

在2214处，如前所述，计算哈密顿项的期望值。这里，程序将期望值示出为梯度计算的一部分，但是该过程的这个阶段也可以离线地执行，并且我们的方法不限于仅在飞行中计算期望值。

在2216，执行与2214中相同的过程，但是该过程相反地学习量子玻尔兹曼机的热状态中的哈密顿项的期望值。

在2218，减去期望值。

在2220，将结果与存储在经典计算机中的梯度的其他分量组合。

图23-25是示出了用于确定热平均值的示例性方法的流程图(如图21和22中所使用的，作为计算热期望的一部分)。

图23中的方法动作2310-2314所示的方法是不受约束的。更具体地，图23示出了用于计算哈密顿项的热期望值的过程，其用于计算梯度。期望值可以经由采样来计算，或者可以使用幅度估计和/或Hadamard测试来估计。可以使用几种方法来准备热状态，包括量子拒绝采样或量子量子重要中心采样，但是所示方法不限于用于准备热状态的一种特定方法。

图24中的方法动作2410-2414所示的方案增加约束并计算Golden-Thompson POVM训练的热平均值。特别地，图24示出了总体证明如何用于计算POVM元素的约束热期望。通过计算POVM元素的矩阵对数来处理约束。在POVM元素不是最大等级的情况下，可以通过添加与身份成比例的可忽略的小项来改变POVM元素。

图25中的方法动作2510-2514所示的方案提供了用于基于相对熵训练或交换子训练所需的热平均来计算训练目标函数的梯度的方法的结构。除了不需要计算热期望值以外，图25中的过程与图24中使用的过程完全相同。

图26是说明如本文所示和所述的用于交换子POVM训练的热状态准备的方法的流程图。在图26中，如方法动作2610-2618所示，使用交换子-扩展方案。

在2610，Hadamards引理用于明确地将真实对数似然函数的导数写为交换子之和。然后，该程序继续计算交换子扩展中的项的期望值。

在2612处，如前所述，该程序准备热状态。所公开的方法不特定于任意特定的热状态准备方法。

在2614处，计算现在的哈密顿项的期望值以及出现在导数的扩展中的交换子项的期望值。

在2616处，将项组合在一起以根据先前步骤找到梯度。

在2618处，在步骤中找到的梯度被输出为经典比特串，但是在一些实施例中，该程序还可以在该程序旨在作为更大量子算法的一部分运行的情况下输出量子比特寄存器。

图27是示出了用于训练在如本文所示和所述的量子计算设备中实现的玻尔兹曼机的示例性通用方法的流程图。图27中所示的特定示例使用例如图21和图22的方法。再次，图27中所示的方法动作2710-2718用于确定描述如何调整至少一个相邻节点的权重的梯度，或玻尔兹曼机中的节点之一的偏差，其创建改进的结果(例如具有最陡峭改进的梯度)。

在2710处，启动迭代循环。特别地，该过程在优化过程中的每个梯度步骤(时期)上循环。

在2712处，使用先前方法之一来估计相对熵或Golden-Thompson目标函数的梯度。

在2714，通过向其添加梯度乘以学习速率来更新哈密顿项，所述学习速率通常是选择的小常数，以确保即使在训练目标函数的二阶导数大的情况下该程序也将收敛。

在2716处，更新最优玻尔兹曼机的当前估计以对应于通过梯度上升找到的玻尔兹曼机。

在2718，一旦系统经历了所有训练时期，就输出最优模型。还可以考虑对该协议的简单修改，其中动量用于规避训练目标函数的梯度是平坦的或者使用可变学习速率的区域。为了便于解释，提出了梯度上升过程的简单版本，但该方法不限于仅适用于该方案。

图28是根据所公开技术的实施例的用于控制量子计算机的示例方法2800的流程图。所示实施例不应被解释为限制，因为所公开的方法的动作在某些情况下可以单独地执行，以不同的顺序执行，或者至少部分地彼此同时执行。此外，所公开的方法或方法动作中的任意一个可以用本文公开的任意其他方法或方法动作来执行。

在2810，量子计算机被配置为根据第一哈密顿项集合来实现玻尔兹曼机。

在2812处，使用基于正-算子-值-测量的方案来计算用于调整第一哈密顿项集合的梯度值。

在2814，至少部分地基于所计算的梯度值来计算第二哈密顿项集合。在一些示例中，计算第二哈密顿项集合包括将梯度值乘以选定的学习速率。

在2816处，量子计算机被配置为根据第二哈密顿项集合来实现玻尔兹曼机。在一些示例中，第二哈密顿项集合使得玻尔兹曼机实现第二哈密顿，与由第一哈密顿项集合得到的第一哈密顿相比，第二哈密顿更可能再现训练数据集合。

在一些实施例中，对于相应的哈密顿项，计算梯度值包括：计算相应哈密顿项的第一热期望；计算约束训练示例的相应哈密顿项的第二热期望；计算第一热期望和第二热期望之间的差；并且通过将差乘以概率分布来计算相应哈密顿的梯度值。在一些示例中，概率分布是均匀概率分布。

在某些实施例中，梯度值至少部分地从约束到训练集合的相应哈密顿项的第一热期望和相应哈密顿项的第二热期望来计算。在一些示例中，通过以下方式来计算相应哈密顿项的第一热期望：为由第一哈密顿项表示的哈密顿模型准备热状态；并且从准备的热状态测量相应哈密顿项的期望值。此外，在某些示例中，通过以下方式计算相应哈密顿项的第二热期望：为由第一哈密顿项表示的、具有添加的正算子值测量约束的修改的哈密顿模型准备热状态；并且从准备的热状态测量相应哈密顿项的期望值。

在一些实施例中，由第一哈密顿项和第二哈密顿实现的哈密顿是非立体的哈密顿。在某些实施例中，该方法使用测量记录来执行，该测量记录是使用不仅仅投射到计算基础上的测量算子得到的。在一些实施例中，使用至少一个POVM约束来执行该方法，该POVM约束不仅仅投射到计算基础上。

图29是根据所公开技术的实施例的用于控制量子计算机的另一示例方法2900的流程图。所示实施例不应被解释为限制，因为所公开的方法的动作在某些情况下可以单独地执行、以不同的顺序执行、或者至少部分地彼此同时执行。此外，所公开的方法或方法动作中的任意一个可以用本文公开的任意其他方法或方法动作来执行。

在一些实施例中，以下方法由经典计算机执行，经典计算机被配置为与量子计算机通信并控制量子计算机。此外，该方法动作可以体现为计算机可执行指令，当由计算机执行时，该指令使计算机执行这些方法。

在2910处，量子计算机被配置为根据第一哈密顿项集合来实现玻尔兹曼机。

在2912处，使用相对熵方案来计算用于调整第一哈密顿项集合的梯度值。例如相对熵方案使用输入状态和玻尔兹曼机输出的状态之间的相对熵。

在2914，至少部分地基于所计算的梯度值来计算第二哈密顿项集合。在一些实施例中，计算第二哈密顿项集合包括将梯度值乘以选定的学习速率。

在2916处，量子计算机被配置为根据第二哈密顿项集合来实现玻尔兹曼机。

在一些实施例中，与从第一哈密顿项集合得到的第一哈密顿相比，第二哈密顿项集合使得玻尔兹曼机实现第二哈密顿，第二哈密顿更可能再现训练数据集合。

在某些实施例中，对于相应的哈密顿项，计算梯度值包括：准备量子数据分布；从量子数据分布计算相应哈密顿项的期望；计算相应哈密顿项的热期望；计算期望与热期望之间的差；并且通过将差乘以概率分布来计算相应哈密顿的梯度值。在一些示例中，量子数据分布对应于用户选择的目标量子状态。

在一些实施例中，梯度值至少部分地根据相应哈密顿项的数据分布期望和相应哈密顿项的热期望来计算。在一些示例中，通过针对在计算基础中不是混合状态的状态取热平均来计算数据分布期望。

在某些实施例中，通过以下各项来计算热期望：被设计用于准备对热分布的近似的Szeggedy行进，或者一种基于量子拒绝采样或酉的线性组合以将对热状态的初始近似精炼为精确的热状态或其接近近似的方法。在一些实施例中，数据分布期望由多分量大小量子电路给出，该多分量大小量子电路是先验已知函数或者通过诸如变化量子本征求解器的优化而找到。

在某些实施例中，通过以下项计算相应哈密顿项的期望：准备量子数据分布；并且从量子数据分布测量相应哈密顿项的期望值。在一些实施例中，通过以下项计算相应哈密顿项的热期望：为由第一哈密顿项表示的哈密顿模型准备热状态；并且从准备的热状态测量相应哈密顿项的期望值。

在一些实施例中，在不使用Golden-Thompson不等式的情况下执行计算第二哈密顿项集合。在某些实施例中，由第一哈密顿项和第二哈密顿实现的哈密顿是非stoquastic的哈密顿。

图30是根据所公开技术的实施例的用于控制量子计算机的另一示例方法3000的流程图。所示实施例不应被解释为限制，因为所公开的方法动作在某些情况下可以单独地执行、以不同的顺序执行、或者至少部分地彼此同时执行。此外，所公开的方法或方法动作中的任意一个可以用本文公开的任意其他方法或方法动作来执行。

在3010处，量子计算机被配置为根据第一哈密顿项集合来实现玻尔兹曼机。

在3012，使用对训练目标函数的梯度的交换子序列近似来计算用于调整第一哈密顿项集合的梯度值。在一些示例中，交换子序列近似方案使用平均对数似然的导数的交换子扩展。在其他示例中，交换子序列近似由用户提供。

在3014处，至少部分地基于所计算的梯度值来计算第二哈密顿项集合。

在3016处，量子计算机被配置为根据第二哈密顿项集合来实现玻尔兹曼机。

在一些实施例中，第二哈密顿项集合使得玻尔兹曼机实现第二哈密顿，与从第一哈密顿项集合得到的第一哈密顿相比，第二哈密顿更可能再现训练数据集合。

在某些实施例中，计算梯度值包括：计算交换子序列近似的交换子扩展；对于交换子扩展中的相应的一个的相应项：为由第一哈密顿项表示的哈密顿模型准备热状态；并且从准备的热状态测量相应哈密顿项的期望值。

在一些实施例中，在不使用Golden-Thompson不等式的情况下执行计算第二哈密顿项集合。在某些实施例中，由第一哈密顿项和第二哈密顿实现的哈密顿是非stoquastic哈密顿。

IX.示例计算环境

图31示出了合适的计算环境3100的一般化示例，其中可以实现若干所描述的实施例。计算环境3100不旨在对所公开技术的使用范围或功能提出任意限制，因为本文描述的技术和工具可以在具有计算硬件的各种通用或专用环境中实现。

参考图31，计算环境3100包括至少一个处理设备3110和存储器3120。在图31中，该最基本配置3130包括在虚线内。处理设备3110(例如CPU或微处理器)执行计算机可执行指令。在多处理系统中，多个处理设备执行计算机可执行指令以增加处理能力。存储器3120可以是易失性存储器(例如寄存器、高速缓存、RAM、DRAM、SRAM)、非易失性存储器(例如ROM、EEPROM、闪存)或两者的某种组合。存储器3120存储软件2880，软件2880实现用于实现本文描述的量子电路(例如量子玻尔兹曼机)训练技术的工具。

计算环境可以具有附加的功能。例如计算环境3100包括存储装置3140、一个或多个输入设备3150、一个或多个输出设备3160、以及一个或多个通信连接3170。互连机制(未示出)，诸如总线、控制器或网络，将计算环境3100的组件进行互连。通常，操作系统软件(未示出)为在计算环境3100中执行的其他软件提供操作环境，并协调计算环境3100的组件的活动。

存储装置3140可以是可移动的或不可移动的，并且包括一个或多个磁盘(例如硬盘驱动器)、固态驱动器(例如闪存驱动器)、磁带或磁带盒、CD-ROM、DVD或任意其他有形非易失性存储介质，其可用于存储信息并且可在计算环境3100内访问。存储装置3140还可存储用于实现本文所述的量子电路(例如量子玻尔兹曼机)训练技术的软件3180的指令。

输入设备3150可以是触摸输入设备，诸如键盘、触摸屏、鼠标、笔、轨迹球、语音输入设备、扫描设备或向计算环境3100提供输入的其他设备。输出设备3160可以是显示设备(例如计算机监视器、膝上型计算机显示器、智能手机显示器、平板显示器、上网本显示器或触摸屏)、打印机、扬声器或提供来自计算环境3100的输出的另一设备。

通信连接3170使得能够通过通信介质与另一计算实体进行通信。通信介质在调制数据信号中传送诸如计算机可执行指令或其他数据的信息。调制数据信号是以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括利用电、光、RF、红外、声学或其他载体实现的有线或无线技术。

如上所述，可以在存储在一个或多个计算机可读介质上的计算机可读指令的一般上下文中描述用于生成所公开的电路的各种方法或编译/合成技术。计算机可读介质是可以在计算环境内或由计算环境访问的任意可用介质(例如存储器或存储设备)。计算机可读介质包括有形计算机可读存储器或存储设备，诸如存储器3120和/或存储装置3140，并且不包括传播载波或信号本身(有形计算机可读存储器或存储设备不包括传播载波或信号本身)。

还可以在由处理器在计算环境中执行的计算机可执行指令(诸如包括在程序模块中的那些指令)的一般上下文中描述本文公开的方法的各种实施例。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。在各种实施例中，可以根据需要在程序模块之间组合或分割程序模块的功能。用于程序模块的计算机可执行指令可以在本地或分布式计算环境中执行。

图32中描绘了用于实现根据所公开技术的系统的可能的网络拓扑3200(例如客户端-服务器网络)的示例。联网计算设备3220可以是例如连接到网络3212的运行浏览器或其他软件的计算机。计算设备3220可以具有如图31所示并在上面讨论的计算机体系结构。计算设备3220不限于传统的个人计算机，而是可以包括被配置为连接到网络3212并与网络3212通信的其他计算硬件(例如智能电话、膝上型计算机、平板计算机或其他移动计算设备、服务器、网络设备、专用设备等)。在所示实施例中，计算设备3220被配置为经由网络3212与计算设备3230(例如远程服务器，诸如云计算环境中的服务器)通信。在所示实施例中，计算设备3220是被配置为将输入数据发送到计算设备3230，并且计算设备3230被配置为实现本文公开的任意量子玻尔兹曼机训练过程并将结果输出到计算设备3220。从计算设备3230接收的数据中的任意一个均可以被存储或显示在计算设备3220上(例如在计算设备3220处的图形用户界面或网页上显示为数据)。在所示实施例中，所示网络3212可以实现为使用有线联网(例如以太网IEEE标准802.3或其他适当标准)或无线联网(例如IEEE标准802.11a，802.11b，802.11g或802.11n或其他适当的标准之一)的局域网(LAN)。替代地，网络3212的至少一部分可以是因特网或类似的公共网络，并且使用适当的协议(例如HTTP协议)进行操作。

图33中描绘了用于实现根据所公开技术的系统的可能的网络拓扑3300(例如分布式计算环境)的另一示例。联网计算设备3320可以是例如连接到网络3312运行浏览器或其他软件的计算机。计算设备3320可以具有如图31所示并在上面讨论的计算机体系结构。在所示实施例中，计算设备3320被配置为经由网络3312与多个计算设备3330、3331、3332(例如远程服务器或其他分布式计算设备，诸如云计算环境中的一个或多个服务器)通信。在所示实施例中，计算环境3300中的每个计算设备3330、3331、3332用于执行本文公开的任意量子玻尔兹曼机训练过程的至少一部分。换句话说，计算设备3330、3331、3332形成分布式计算环境，其中量子玻尔兹曼训练过程在多个计算设备之间共享。计算设备3320被配置为将输入数据发送到计算设备3330、3331、3332，计算设备3330、3331、3332被配置为分布式地实现本文公开的量子玻尔兹曼机训练过程中的任意一个并且向计算设备3320提供结果。从计算设备3330、3331、3332接收的数据中的任意一个可以在计算设备3320上存储或显示(例如在计算设备3320处的图形用户界面或网页上显示为数据)。图示的网络3312可以是上面参考图32讨论的任意网络。

参考图34，用于实现所公开的技术的示例性系统包括计算环境3400。在计算环境3400中，可以使用包括如本文所公开的一个或多个玻尔兹曼机的电路描述的编译的量子计算机电路描述来编程(或配置)一个或多个量子处理单元，使得量子处理单元实现由量子计算机电路描述所描述的电路。量子计算机电路描述可以实现本文讨论的玻尔兹曼机中的任意一个。

环境3400包括一个或多个量子处理单元3402和一个或多个读出设备3408。量子处理单元执行由量子计算机电路描述预编译和描述的量子电路。量子处理单元可以是但不限于以下各项中的一个或多个：(a)超导量子计算机；(b)离子阱量子计算机；(c)量子计算的容错架构；和/或(d)拓扑量子架构(例如使用Majorana零模式的拓扑量子计算设备)。包括所公开电路中的任意一个的预编译量子电路可以在量子处理器控制器3420的控制下经由控制线3106被发送到(或以其他方式应用于)量子处理单元，所公开电路包括量子玻尔兹曼机。量子处理器控制器(QP控制器)3420可以与经典处理器3410(例如具有如上关于图31所述的架构)一起操作，以实现期望的量子计算过程。此外，经典处理器3410可以被编程为实现所公开的玻尔兹曼机训练方法中的任意一个。

在所示示例中，QP控制器3420还经由一个或多个QP子控制器3404实现期望的量子计算过程，QP子控制器3404专门适于控制量子处理器3402中的对应一个。例如在一个示例中，量子控制器3420通过向一个或多个存储器(例如较低温度存储器)发送指令来促进编译量子电路的实现，然后将指令传递给低温控制单元(例如QP子控制器3404)，其例如将表示门的脉冲序列发送到量子处理单元3402以供实现。在其他示例中，QP控制器3420和QP子控制器3404操作以用于向量子处理器提供适当的磁场、编码操作或其他这样的控制信号，以实现编译的量子计算机电路描述的操作。量子控制器可以进一步与读出设备3408交互以帮助控制和实现期望的量子计算过程(例如一旦可用，通过读取或测量来自量子处理单元的数据结果等)。

参考图34，编译是将量子算法的高级描述转换成包括量子操作或门的序列的量子计算机电路描述的过程，其可以包括如本文所公开的玻尔兹曼机。编译器3422可以使用环境3400的经典处理器3410(例如如图31所示)来执行编译，环境3400从存储器或存储装置3412加载高级描述并将得到的量子计算机电路描述存储在存储器或存储装置3412中。

在其他实施例中，编译和/或玻尔兹曼机训练可以由远程计算机3400(例如具有如上关于图31所述的计算环境的计算机)远程执行，其存储所得到的量子计算机电路描述和/或将用于玻尔兹曼机训练的软件存储在一个或多个存储器或存储装置3462中，并将量子计算机电路描述和/或训练指令发送到计算环境3400，以便在量子处理单元3402中实现。此外，远程计算机3400可以将高级描述和/或玻尔兹曼机训练指令存储在存储器或存储装置3462中，并将高级描述和/或指令发送到计算环境3400以用于编译并且与量子处理器一起使用。在这些场景中的任意一个中，可以在计算过程之后和/或期间将来自由量子处理器执行的计算的结果传送到远程计算机。此外，远程计算机可以与QP控制器3420通信，使得量子计算过程(包括任意编译、玻尔兹曼机训练和/或QP处理器控制程序)可以由远程计算机3460远程控制。通常，远程计算机3460经由通信连接3450与QP控制器3420和/或编译器/合成器3422通信。

在特定实施例中，环境3400可以是云计算环境，其通过合适的网络(其可以包括因特网)向一个或多个远程计算机(诸如远程计算机3460)提供环境3400的量子处理资源。

X.结束语

已经参考所示实施例描述和说明了所公开技术的原理，应该认识到，在不脱离这些原理的情况下可以在布置和细节上修改所示实施例。例如以软件示出的所示实施例的元件可以用硬件实现，反之亦然。而且，来自任意示例的技术可以与其他示例中的任意一个或多个中所描述的技术组合。应当理解，诸如参考所示示例描述的那些的程序和功能可以在单个硬件或软件模块中实现，或者可以提供分离的模块。提供上述特定布置是为了便于说明，并且可以使用其他布置。

Claims

1.一种方法，包括：

配置量子计算机以根据第一哈密顿项集合来实现玻尔兹曼机；

使用基于正算子值测量的方案来计算用于调整所述第一哈密顿项集合的梯度值；

至少部分地基于所计算的所述梯度值来计算第二哈密顿项集合；以及

配置所述量子计算机以根据所述第二哈密顿项集合来实现所述玻尔兹曼机，其中所述第二哈密顿项集合使得所述玻尔兹曼机实现第二哈密顿，与从所述第一哈密顿项集合得到的第一哈密顿相比，所述第二哈密顿更可能再现训练数据集合。

2.根据权利要求1所述的方法，其中计算所述第二哈密顿项集合包括将所述梯度值乘以所选择的学习速率。

3.根据权利要求1所述的方法，其中针对相应的哈密顿项，计算所述梯度值包括：

计算所述相应哈密顿项的第一热期望；

计算被约束到训练示例的所述相应哈密顿项的第二热期望；

计算所述第一热期望和所述第二热期望之间的差；以及

通过将所述差乘以均匀概率分布来计算所述相应哈密顿的所述梯度值。

4.根据权利要求1所述的方法，其中所述梯度值至少部分地根据所述相应哈密顿项的第一热期望和被约束到训练集合的所述相应哈密顿项的第二热期望而被计算，

其中所述相应哈密顿项的所述第一热期望通过以下各项而被计算的：为由所述第一哈密顿项表示的哈密顿模型准备热状态，并且从准备的所述热状态测量所述相应哈密顿项的期望值，以及

其中所述相应哈密顿项的所述第二热期望通过以下各项而被计算：为由所述第一哈密顿项表示的、具有添加的正算子值测量约束的修改的哈密顿模型准备热状态，并且从准备的所述热状态测量所述相应哈密顿项的期望值。

5.根据权利要求1所述的方法，其中所述方法使用从以下各项得到的测量记录而被执行：(a)使用不仅仅投射到所述计算基础上的测量算子，或者(b)使用不仅仅投射到所述计算基础上的至少一个POVM约束。

6.一种方法，包括：

使用相对熵方案来计算用于调整所述第一哈密顿项集合的梯度值；

7.根据权利要求6所述的方法，其中所述相对熵方案使用输入状态和由所述玻尔兹曼机输出的所述状态之间的相对熵。

8.根据权利要求6所述的方法，其中计算所述第二哈密顿项集合包括将所述梯度值乘以所选择的学习速率。

9.根据权利要求6所述的方法，其中针对相应的哈密顿项，计算所述梯度值包括：

准备量子数据分布；

从所述量子数据分布计算所述相应哈密顿项的期望；

计算所述相应哈密顿项的热期望；

计算所述期望与所述热期望之间的差；以及

通过将所述差乘以概率分布来计算所述相应哈密顿的所述梯度值，其中所述量子数据分布对应于由用户选择的目标量子状态。

10.根据权利要求6所述的方法，其中所述梯度值至少部分地根据所述相应哈密顿项的数据分布期望和所述相应哈密顿项的热期望来被计算，

其中所述数据分布期望通过针对不是所述计算基础中的混合状态的状态取热平均而被计算，以及

其中所述热期望通过以下各项而被计算：被设计用于准备对热分布的近似的Szeggedy步进，或者基于量子拒绝采样或酉的线性组合以将对所述热状态的初始近似精炼成所述精确的热状态或者其接近近似的方法。

11.一种方法，包括：

使用对训练目标函数的梯度的交换子序列近似来计算用于调整所述第一哈密顿项集合的梯度值；

至少部分地基于所计算的梯度值来计算第二哈密顿项集合；以及

配置所述量子计算机以根据所述第二哈密顿项集合来实现所述玻尔兹曼机。

12.根据权利要求11所述的方法，其中所述第二哈密顿项集合使得所述玻尔兹曼机实现第二哈密顿，与从所述第一哈密顿项集合得到的第一哈密顿相比，所述第二哈密顿更可能再现训练数据集合。

13.根据权利要求11所述的方法，其中所述交换子序列近似方案使用平均对数似然的导数的交换子扩展。

14.根据权利要求11所述的方法，其中计算所述梯度值包括：计算所述交换子序列近似的交换子扩展；对于所述交换子扩展中的相应的交换子扩展中的相应项：

为由所述第一哈密顿项表示的哈密顿模型准备热状态；以及

从所准备的所述热状态测量所述相应哈密顿项的期望值。

15.一种系统，包括：

量子计算设备；以及

经典计算机，被配置为与所述量子计算机通信并控制所述量子计算机，所述经典计算机包括存储器和处理器，所述经典计算机被编程为执行根据权利要求1-14中任一项所述的方法。