CN109154798A

CN109154798A - 用于改进随机控制问题的策略的方法和系统

Info

Publication number: CN109154798A
Application number: CN201780028555.9A
Authority: CN
Inventors: 丹尼尔·克劳福德; 普亚·罗纳格; 安娜·莱维特
Original assignee: 1QB Information Technologies Inc
Current assignee: 1QB Information Technologies Inc
Priority date: 2016-05-09
Filing date: 2017-05-09
Publication date: 2019-01-04
Anticipated expiration: 2037-05-09
Also published as: GB2569702A; WO2017195114A1; CN109154798B; US11017289B2; GB201819448D0; CA3022167C; CA3022167A1; JP6646763B2; US20170323195A1; JP2019515397A

Abstract

公开了一种用于改进随机控制问题的策略的方法和系统，随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期表征，该方法包括使用采样装置获得表示玻尔兹曼机的样本配置的数据，获得随机控制问题的初始化数据和初始策略；将分别表示玻尔兹曼机的每个耦合器和每个节点的初始权重和偏置以及横向场强的数据分配给采样装置；进行以下操作直到满足停止标准：生成当前时期状态动作对，修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，执行对应于当前时期状态动作对的采样以获得第一采样经验均值，获得在当前时期状态动作处的Q函数的值的近似，获得未来时期状态动作对，其中，状态是通过随机状态处理获得的，并且进一步其中，获得动作包括对包括未来时期状态和任何可能动作的多个所有状态动作对执行随机优化测试，从而在未来时期提供动作并更新未来时期状态的策略；修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，执行对应于未来时期状态动作对的采样，获得未来时期状态动作处的Q函数的值的近似，更新每个权重和每个偏置，并当满足停止标准时提供策略。

Description

用于改进随机控制问题的策略的方法和系统

相关申请的交叉引用

本专利申请要求2016年5月9日提交的美国临时专利申请No.62/333,707的优先权。

技术领域

本发明涉及计算。更确切地说，本发明涉及用于改进随机控制问题的策略的方法和系统。

背景技术

马尔可夫决策处理

随机控制问题旨在设计一种策略来控制通过随机处理演化以最大化效用的系统的状态。

马尔可夫决策处理(MDP)是满足马尔可夫属性的特定类型的随机控制问题。

马尔可夫决策处理被广泛用于模拟在不确定情况下所做的顺序决策。

许多问题涉及马尔可夫决策处理，如种群收获(population harvesting)、控制灌溉和发电的水资源、任何行业的设备更换、金融和投资的投资组合优化、排队理论和运营研究的调度、生成信贷和保险政策、卫生和制药应用中的超额预订管理、检疫和治疗水平、生成运动策略、应急响应车辆位置。

实际上，给定一个具有一些固有随机演化的系统，当这些决策可能影响系统时，决策者如何决定在多个时期内最大化一些依赖于系统的效用函数？

形式上，马尔可夫决策处理可以由以下四个部分定义。

1.一组决策时期T＝{n，n+1，...，m}，其中m可以是有限的或无限的。应当理解，该组决策时期表示必须作出决定的一组时间。例如，在涉及马尔可夫决策处理的问题是设备更换的情况下，该组决策时期可以是每天连续使用设备。

2.状态空间S。应当理解，状态空间中的任何状态都包含表示实现系统的数据。例如，在涉及马尔可夫决策处理的问题是设备更换问题的情况下，状态空间可以是表示设备的状况的一组整数。

3.行动的空间A。应当理解，动作空间中的任何动作都包含表示系统的可能控制的数据。例如，在涉及马尔可夫决策处理的问题是设备更换问题的情况下，动作空间可以包括两个动作，更换或不更换设备。

4.瞬时奖励(instantaneous rewards)应当理解，瞬时奖励表示在系统处于给定决策时期的给定状态时采取行动的结果。例如，在涉及马尔可夫决策处理的问题是设备更换问题的情况下，如果动作是更换表示设备更换成本的设备，则瞬时奖励可以是负整数，否则为正整数。当装置在更好的条件下运行时，正整数更大。

应当理解，转移概率是从给定状态到另一给定状态的转变的概率。马尔可夫决策处理的马尔可夫属性可以写成：

例如，在涉及马尔可夫决策处理的问题是设备更换问题且装置具有3种情形(故障、差、好)的情况下，转移概率可以与时间无关并由转移概率矩阵给出：

和

5.折扣因子γ∈[0，1)。应当理解，折扣因子表示未来奖励与当前奖励之间重要性的差异。

策略定义为函数α：S×T→A。因此，应当理解，策略是在每个决策时期将动作分配给系统的状态。例如，在涉及马尔可夫决策处理的问题是设备更换问题的情况下，策略可以是仅在设备处于故障情形时更换装置，否则不更换装置。

本领域技术人员还将理解，效用函数能够被定义为其中，在给定的初始状态s_n和策略α的条件下，被加数是未来奖励的折扣期望值。因此，本领域技术人员将理解决策者可能希望最大化效用函数，即，找到这反过来意味着找到最优策略：α^＊＝argmax_αU_n(s_n，α)。

本领域技术人员将理解，当效用函数在当前决策时期内对要采取的行动进行最大化并继续使用最优策略时，该效用函数将被称为Q函数，并且可以被写为并且当Q(s_n，a_n)在a_n上最大化时，我们获得最优的状态动作对。

应当理解，找到最优策略可能非常麻烦。实际上，当状态、动作和/或决策时期集变得太大，或者当转换概率未知时，找到马尔可夫决策处理问题的解可能是有问题的。

在文献中，算法的计算复杂度的下界相对于问题的维数呈指数增长的算法被称为受到维度限制(curse of dimensionality)的算法。解决马尔可夫决策处理问题的常用方法是值迭代法[Richard Bellman，“A Markovian Decision Process”，Journal ofMathematics and Mechanics，Vol.6，No.5(1957)]，它在一般情况下具有指数复杂度；即Ω(2^d)，其中，d表示马尔可夫决策处理问题的维数。

有许多方法来克服维数限制问题，例如Q学习型方法[Richard S.Sutton，AndrewG.Barto]。然而，这些方法需要存储所有可能的状态动作对的Q函数的值，这对于某些问题的范围变得不可行。为了克服这个缺点，提出了一种基于神经网络的Q函数参数化方法(例如[Sallans，B.，Hinton，G.E.，Reinforcement Learning with Factored States andActions，Journal of Machine Learning Research 5，1063-1088，2004])，但这涉及训练神经网络，训练神经网络需要拟合神经网络，这是一个独立的开放问题，并且在某些情况下，需要训练神经网络需要解决NP困难的问题。

因此，需要一种用于改进策略的方法，该策略将克服上述缺点中的至少一个。

人工神经网络

人工神经网络(ANN)是受生物神经网络启发的计算模型且用于函数的近似。人工神经网络具有图形理论表示，其中，图形的节点也称为神经元，其边缘也称为突触。

普通玻尔兹曼机(GBM)是一种人工神经网络，其中，神经元表示具有与其连接的线性偏置的随机变量，两个神经元之间的每个突触表示涉及与神经元相关的随机变量的二次项。具体地，存在与普通玻尔兹曼机相关的全局能量函数，其由来自所有线性项和二次项的贡献组成。

因此，普通玻尔兹曼机是用于近似因变量的联合分布的图形模型。相应的图包含称为可见节点(或输入变量)的节点，以及称为隐藏节点(或潜在变量)的不可见节点。普通玻尔兹曼机被开发用于表示和解决某些组合问题，并且可以用作概率机器学习工具。普通玻尔兹曼机的应用程序包括但不限于视觉对象和语音识别、分类、回归任务、降维、信息检索和图像重建。关于普通玻尔兹曼机的概述，参见D.Ackley，G.Hinton，T.Sejnowski，“ALearning Algorithm for Boltzmann Machines，”Cognitive Science 9，147-169(1985)。

普通玻尔兹曼机中的分布近似是通过将感兴趣的因变量编码为较大图形的节点来执行的。这些节点是可见节点，且所有其他节点都是隐藏节点。在图形中分别为每个边和顶点分配权重和偏置，并且根据这些权重和偏置将能量函数分配给图形。

具有任意连接的普通玻尔兹曼机尚未证明在机器学习意义上是特别有用的。这是由于近似的学习方法很慢。当对隐藏节点之间的连接进行某些限制时，普通玻尔兹曼机神经网络变得更容易训练并且对机器学习任务有用。当不允许隐藏节点之间的连接并且不允许在可见节点之间的连接时，所得到的神经网络被称为受限玻尔兹曼机(RBM)，其仅由一个可见层和一个隐藏层组成。

在没有内部可见或内部隐藏的节点连接的情况下，已经开发了有效的训练算法，其通过容易地学习可见层上的一组输入上的概率分布，使得受限玻尔兹曼机在机器学习领域中表现良好。有关应用、算法和理论，请参阅Y.Bengio等人的第6节，“RepresentationLearning:A Review and New Perspectives”，arXiv 2014–(http://www.cl.uni- heidelberg.de/courses/ws14/deepl/BengioETAL12.pdf)。

为创建更有效的神经网络(称为深度信念网络(DBN))，受限玻尔兹曼机的想法已被多元化。通过将受限玻尔兹曼机堆叠在彼此之上来创建深度信念网络，使得第一受限玻尔兹曼机的隐藏层用作第二受限玻尔兹曼机的可见层，第二受限玻尔兹曼机的隐藏层用作第三受限玻尔兹曼机的可见层，依此类推。这种结构被广泛研究，是深度学习的基础。这种结构的优点在于，网络权重和偏置可以通过受限玻尔兹曼机自上而下地训练受限玻尔兹曼机，使用为独立受限玻尔兹曼机开发的相同的训练算法。有关深度信念网络背后的应用程序、算法和理论，请参阅：http://neuralnetworksanddeeplearning.com/chap6.html。

用受限玻尔兹曼机来训练深度信念网络的受限玻尔兹曼机的方法是以每个受限玻尔兹曼机的近似分布所产生的累积误差为代价的。训练这种神经网络的另一种方法是把它当作普通玻尔兹曼机，并在同一次迭代中而不是逐层更新所有的权重。应用于这种结构的方法称为深度玻尔兹曼机(DBM)。

量子处理器

量子处理器是多个量子位的量子力学系统，在其上的测量将得到来自由系统的全局能量所定义的玻尔兹曼分布的样本。

量子位是在希尔伯特空间上表示的量子力学系统的物理实现，并且实现至少两个不同且可区分的本征态，其表示量子位的两个状态。量子位是数字位的模拟，其中，环境存储装置可以存储两状态量子信息的两个状态|0>和|1>，但也可以以两个状态的叠加的形式α|0>+β|1>存储。在各种实施方式中，此类系统可具有两个以上的本征态，在这种情况下，附加的本征态用于通过简并(degenerate)测量来表示两个逻辑状态。已经提出了量子位的实现的各种实施方式：例如，电子地或用核磁共振测量和控制的固态核自旋、俘获的离子、光学腔中的原子(腔量子电动力学)、液态核自旋、量子点中的电子电荷或自旋自由度、基于Josephson结的超导量子电路[Barone and Paterno，1982，Physics and Applications ofthe Josephson Effect，John Wiley and Sons，New York；Martinis et al.，2002，Physical Review Letters 89，117901]以及氦上的电子。

电感耦合到每个量子位的偏置源称为局域场偏置。在一个实施方式中，偏置源是一种电磁装置，用于将磁通量穿过量子位以提供对量子位状态的控制[US 2006/0225165]。

量子位上的局部场偏置是可编程和可控的。在一个实施方式中，包括数字处理单元的量子位控制系统连接到量子位系统，并且能够编程和调谐量子位上的局部场偏置。

量子处理器还可以包括多个量子位中的多对之间的多个耦合。两个量子位之间的耦合是一个在两个量子位附近的装置，它将磁通量穿到两个量子位上。在一个实施方式中，耦合可以由被复合Josephson结中断的超导电路组成。磁通量可以穿过复合Josephson结并因此在两个量子位上穿过磁通量[US 2006/0225165]。该磁通量的强度对量子处理器的能量有两个方面的贡献。在一个实施方式中，通过调谐在两个量子位附近的耦合装置来强制实现耦合强度。

耦合强度是可控的和可编程的。在一个实施方式中，包括数字处理单元的量子器件控制系统连接到多个耦合，并且能够编程量子处理器的耦合强度。

量子退火炉是带有量子退火的量子处理器，例如，如Farhi，E.等人所述，“QuantumAdiabatic Evolution Algorithms versus Simulated Annealing”arXiv.org：quant ph/0201031(2002)，pp.1-16。

量子退火炉执行量子处理器从初始设置到最终设置的转换。量子处理器的初始和最终设置提供了由相应的初始和最终哈密顿量描述的量子系统。对于具有如上所述的局部场偏置和耦合的量子退火器，最终哈密顿量可以表示为二次函数f(x)＝∑_ih_ix_i+∑_(i，j)J_(i，j)x_ix_j，其中第一个求和在表示量子退火炉的量子位的索引i上运行，第二个求和在量子比特i和j之间存在耦合的对(i，j)上。

如上所述的二次函数(其中，每个变量x_i取第i个量子位的自旋值-1和1中的一个)也称为伊辛模型。在这种情况下，伊辛模型也用表示。这里上标z表示量子位i的自旋σ_i仅在其三个轴中的一个中起作用。因此，该轴z也称为测量轴或测量基。

在更一般的实施方式中，伊辛模型的哈密顿量还可以包含量子位的自旋在其他基中的贡献。例如，哈密顿量被称为横向场伊辛模型，其中，每个自旋受沿x轴的非零横向场的影响。

量子退火炉可用作其能量函数的启发式优化器。McGeoch，Catherine C.and CongWang，(2013)，“Experimental Evaluation of an Adiabatic Quantum System forCombinatorial Optimization”，Computing Frontiers，May14 16，2013(http://www.cs.amherst.edu/ccm/cf14-mcgeoch.pdf)公开了这种模拟处理器的实施方式并且还在专利申请US 2006/0225165中公开。

通过对量子退火处理的微小修改，量子处理器可以替代地用于在有限温度下从其伊辛模型的玻尔兹曼分布提供样本。读者可以参考技术报告：Bian，Z.，Chudak，F.，Macready，W.G.and Rose，G.(2010)，“The Ising model:teaching an old problem newtricks”，and also Amin，M.H.，Andriyash，E.，Rolfe，J.，Kulchytskyy，B.，and Melko，R.(2016)，“Quantum Boltzmann Machine”arXiv：1601.02036。

这种采样方法称为量子采样。

对于具有局部场偏置和耦合的量子处理器，量子采样提供的样本来自与其表示的伊辛模型的玻尔兹曼分布略有不同的分布。

参考文献Amin，M.H.，Andriyash，E.，Rolfe，J.，Kulchytskyy，B.，and Melko，R.(2016)，“Quantum Boltzmann Machine”arXiv：1601.02036研究了量子采样与玻尔兹曼采样的距离。

光学计算装置

能够从接近其平衡状态的伊辛模型的玻尔兹曼分布进行采样的模拟系统的另一实施方式是光学装置。

在一个实施方式中，光学装置包括光学参量振荡器(OPO)的网络，如专利申请US20160162798和WO2015006494 A1中所公开的。

在本实施方式中，伊辛模型的每个自旋由一个工作在简并度下的光学参量振荡器模拟。

简并光学参量振荡器是开放耗散系统，其在振荡阈值处进行二阶相变。由于相敏放大，一个简并的光学参量振荡器可以相对于泵浦相位以0或π的相位振荡超过阈值的振幅。相位是随机的，受振荡建立期间光学参量下变频相关的量子噪声的影响。因此，简并光学参量振荡器自然地表示由其输出相位指定的二进制数字。基于该特性，简并光学参量振荡器系统可以用作伊辛机。每个简并光学参量振荡器的相位被识别为伊辛自旋，其幅度和相位由相关自旋之间的伊辛耦合的强度和符号确定。

当由强源泵浦时，简并光学参量振荡器在伊辛模型中采用对应于自旋1或-1的两个相位状态之一。具有相互耦合的N个基本相同的光学参量振荡器的网络用相同的源泵浦以模拟伊辛自旋系统。光参量振荡器网络从泵浦引入后经过一个暂态期后，逐渐趋于接近热平衡的稳态。

相位状态选择处理取决于光学参量振荡器的真空波动和相互耦合。在一些实施例中，泵以恒定幅度脉冲，在其他实施例中，泵输出逐渐增加，并且在进一步的实施例中，泵以其他方式控制。

在光学装置的一个实施方式中，通过用于耦合光学参量振荡器之间的光场的多个可配置耦合器来模拟伊辛模型的多个耦合。可配置耦合器可以被配置为关闭或配置为开启。打开和关闭耦合器可以是渐进的，也可以是突然的。当配置为打开时，配置可以提供任何相位或幅度，具体取决于伊辛问题的耦合强度。

每个光参量振荡器输出都受相位基准干扰，并在光电探测器处捕获结果。光学参量振荡器输出表示伊辛模型的配置。例如，零相位可以表示-1自旋状态，并且π相位可以表示伊辛模型中的1自旋状态。

对于具有N个自旋的伊辛模型，并且根据一个实施方式，多个光学参量振荡器的谐振腔被配置为具有等于来自泵浦源的N个脉冲的周期的N倍的往返时间。这里使用的往返时间表示光沿着所描述的递归路径的一次传播的时间。周期P等于谐振腔的往返时间的1/N的脉冲序列的N个脉冲可以同时传播通过N个光参量振荡器而不会相互干扰。

在一个实施方式中，光参量振荡器的耦合由沿谐振腔分配的多个延迟线提供。

多个延迟线包括多个调制器，其同步地控制耦合的强度和相位，允许对光学装置进行编程以模拟伊辛模型。

在N个光学参量振荡器的网络中，N-1个延迟线和相应的调制器足以控制每两个光学参量振荡器之间的耦合的幅度和相位。

在一个实施方式中，能够从伊辛模型采样的最佳装置可以被制造为光学参量振荡器的网络，如美国专利申请20160162798中所公开的。

在一个实施方式中，光学参量振荡器的网络和光学参量振荡器的耦合可以使用商业上可获得的锁模激光器和光学元件(例如电信光纤延迟线、调制器和其他光学装置)来实现。或者，光学参量振荡器网络和光学参量振荡器的耦合可以使用光纤技术实现，例如为电信应用开发的光纤技术。耦合器可以用光纤实现，并由光学克尔快门(Kerr shutters)控制。

Q-学习

用于近似最优值函数U^＊和最优策略α^＊的方法被称为神经动力学编程或Q学习算法。参考文献[Sallans，B.，Hinton，G.E.，Reinforcement Learning with FactoredStates and Actions，Journal of Machine Learning Research 5，1063-1088，2004]提出了通过使用玻尔兹曼机进行Q学习的方法。特别是普通玻尔兹曼机用于近似最优随机控制设置中的状态和动作的联合分布。

通过阅读下面的本发明的公开内容、附图和描述，本发明的特征将变得显而易见。

发明内容

根据广泛的方面，公开了一种用于改进随机控制问题的策略的方法，随机控制问题的特征在于动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期，其中基础随机状态处理的演化取决于策略中的多个动作，该方法包括使用耦合到数字计算机和耦合到采样装置控制系统的采样装置，该采样装置获得表示玻尔兹曼机的采样配置的数据，该玻尔兹曼机包括多个节点、多个耦合器、多个偏置(每个偏置对应于多个节点中的节点)、多个耦合权重(每个耦合权重对应于多个耦合器中的耦合器)，以及横向场强；使用数字计算机获得包括动作集合、状态集合、随机控制问题的奖励结构和用于随机控制问题的初始策略，该策略包括为每个状态选择至少一个动作；使用数字计算机和采样装置控制系统，将表示玻尔兹曼机的每个耦合器和每个节点各自的初始权重和偏置以及横向场强的数据分配给采样装置；直到满足停止标准，使用数字计算机生成当前时期状态动作对，使用数字计算机和采样装置控制系统，利用生成的当前状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据，执行对应于当前时期状态动作对的采样以获得第一采样经验均值，利用第一采样经验均值，利用数字计算机，逼近当前状态作用下Q函数的值的近似，Q函数的值表示当前状态作用对的效用，使用数字计算机获得未来时期状态动作对，其中状态是通过随机状态处理获得的，此外，该动作的获取包括对包括未来状态和任何可能采取的动作的多个状态动作对进行随机优化试验，从而为未来时期提供动作，并更新未来时期状态的策略；使用数字计算机和采样装置控制系统修改表示没有或至少一个耦合器的数据和使用生成的未来时期状态动作对的至少一个偏置，执行对应于未来时期状态动作对的采样以获得第二采样经验均值，使用第二采样经验均值，使用数字计算机，获得未来时期状态动作处Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，使用数字计算机，使用生成的Q函数的值的近似和当前时期状态动作对的第一采样经验均值以及使用奖励结构获得的当前时期状态动作对的相应奖励，更新玻尔兹曼机的每个耦合器和每个节点各自的每个权重和每个偏置，并且当满足停止准则时使用数字计算机提供策略。

根据一个实施方式，采样装置包括量子处理器，并且其中采样装置控制系统包括量子装置控制系统，并且量子处理器耦合到数字计算机和量子装置控制系统，此外，其中量子处理器包括多个量子位和多个耦合器，每个耦合器用于在两个量子位之间的交叉处提供通信耦合。

根据一个实施方式，采样装置包括光学装置，被配置为从光学能量源接收能量并生成多个光学参量振荡器，以及多个耦合装置，每个耦合装置可控制地耦合多个光学参量振荡器中的光学参量振荡器。

根据一个实施方式，采样装置包括中央处理单元和耦合到中央处理单元并且实现玻尔兹曼机的存储器单元，并且实现的玻尔兹曼机是经典的玻尔兹曼机，其特征在于零值横向场强度；此外，其中存储器单元包括用于获得表示经典玻尔兹曼机的每个耦合器和每个节点各自的每个权重和每个偏置的数据的应用程序，并且应用程序适用于执行经典玻尔兹曼机的模拟量子退火。

根据一个实施方式，采样装置包括中央处理单元和耦合到中央处理单元并且实现玻尔兹曼机的存储器单元，并且实现的玻尔兹曼机是量子玻尔兹曼机，其特征在于非零值横向场强度和存储器单元包括用于获得表示每个耦合器和量子玻尔兹曼机的每个节点各自的每个权重和每个偏置的数据的应用程序；此外，其中应用程序适用于执行量子玻尔兹曼机的模拟量子退火。

根据一个实施方式，量子玻尔兹曼机的模拟量子退火的执行提供表示量子玻尔兹曼机的有效哈密顿量的多个样本配置。

根据一个实施方式，采样装置包括中央处理单元和耦合到中央处理单元并且实现玻尔兹曼机的存储器单元，并且实现的玻尔兹曼机是经典的玻尔兹曼机，其特征在于零值横向场强度；此外，其中存储器单元包括用于获得表示经典玻尔兹曼机的每个耦合器和每个节点各自的每个权重和每个偏置的数据的应用程序，并且应用程序适于对对应于经典玻尔兹曼机的Fortuin-Kasteleyn随机簇表示的多个实例采样，从而提供Fortuin-Kasteleyn随机簇表示中簇的数目的近似。

根据一个实施方式，采样装置包括中央处理单元和耦合到中央处理单元并且实现玻尔兹曼机的存储器单元，并且实现的玻尔兹曼机是量子玻尔兹曼机，其特征在于非零值横向场强度和存储器单元包括用于获得表示每个耦合器和量子玻尔兹曼机的每个节点各自的每个权重和每个偏置的数据的应用程序，并且该应用适于对对应于量子玻尔兹曼机的Fortuin-Kasteleyn随机簇表示的多个实例采样，从而提供Fortuin-Kasteleyn随机簇表示中簇的数目的近似。

根据一个实施方式，在当前时期和未来时期获得Q函数的值的近似包括沿着测量轴从采样装置获得的玻尔兹曼机的多个配置样本，并使用数字计算机计算玻尔兹曼机的自由能的经验近似。

根据一个实施方式，在当前时期和未来时期获得Q函数的值的近似包括沿着测量轴从采样装置获得的玻尔兹曼机的多个样本配置，从所获得的样本配置构造表示量子玻尔兹曼机的有效哈密顿量多个配置样本，并使用数字计算机计算量子玻尔兹曼机的自由能的经验近似。

根据一个实施方式，在当前时期和未来时期获得Q函数的值的近似包括从采样设备获得表示量子玻尔兹曼机的有效哈密顿量的多个配置样本，并使用数字计算机计算量子玻尔兹曼机的自由能的经验近似。

根据一个实施方式，在当前时期和未来时期获得Q函数的值的近似包括从采样设备获得对应于量子玻尔兹曼机的Fortuin-Kasteleyn随机簇表示中簇的数目的近似，以及使用数字计算机来计算量子玻尔兹曼机的自由能的经验近似。

根据一个实施方式，计算对应于节点的第一经验均值和第二经验均值包括沿着测量轴从采样装置获得的量子玻尔兹曼机和经典玻尔兹曼机中的一个的多个配置样本并使用数字计算机来计算节点的经验均值的近似。

根据一个实施方式，计算对应于节点的第一经验均值和第二经验均值包括从采样装置获得玻尔兹曼机的有效哈密顿量的多个配置样本并使用数字计算机计算节点的经验均值的近似。

根据一个实施方式，对所述多个状态动作对进行随机优化测试，包括使用数字计算机和采样设备控制系统，使用对应于未来时期状态的每个状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据，执行与对应于未来时期状态的每个状态动作对相对应的采样以提供经验均值，使用数字计算机获得对应于未来时期状态的每个状态动作对处的Q函数的值的近似，使用与对应于未来时期状态相对应的每个状态动作对的所有近似Q函数的值，使用数字计算机从对应的分布采样以更新针对未来时期状态的策略。

根据一个实施方式，对多个所有状态动作对执行随机优化测试包括获得温度参数；获得未来时期状态；采样与Q函数的值的近似相关的玻尔兹曼分布，其中状态变量在未来时期状态和提供的温度处是固定的。

根据一个实施方式，量子处理器的多个量子位包括第一组量子位；第二组量子位和量子处理器的多个耦合器包括至少一个耦合器(至少一个耦合器中的每一个用于在第一组量子位的量子位和第二组量子位中至少一个量子位之间的交叉处提供通信耦合)和多个耦合器(多个耦合器中的每一个用于在第二组量子位中的量子位和第二组量子位中的其他量子位之间的交叉点处提供通信耦合)。

根据一个实施方式，第一组量子位表示随机控制问题的动作集合。

根据一个实施方式，使用所生成的当前时期状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据包括将在第一组量子位的量子位和第二组量子位之间的交叉处提供通信耦合的所有耦合器切换为OFF，以及使用所生成的当前纪元状态动作对来修改所述第二组量子位中的至少一个偏置。

根据一个实施方式，使用所生成的未来时期状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据包括将在第一组量子位的量子位和第二组量子位之间的交叉处提供通信耦合的所有耦合器切换为OFF，以及使用所生成的未来时期状态动作对来修改第二组量子位中的至少一个偏置。

根据一个实施方式，对包括未来时期状态和任何可能动作的多个所有状态动作对执行随机优化测试包括将在第一组的量子位的量子位和第二组量子位的量子位之间的交叉处提供通信耦合的所有耦合器切换为ON；使用对应于未来时期状态动作对的未来时期状态来修改第二组量子位中的至少一个偏置；执行量子采样以获得对应于第一组量子位的经验均值，并使用数字计算机通过根据对应于第一组量子位的所获得的经验均值的分布对未来时期状态分配动作来更新未来时期状态的策略。

根据一个实施方式，停止标准包括达到最大数量的训练步骤。

根据一个实施方式，停止标准包括达到最大运行时间。

根据一个实施方式，停止标准包括耦合和局部场的权重和偏置的函数的收敛。

根据一个实施方式，停止标准包括将策略收敛到固定策略。

根据实施方式，策略的提供包括至少一个向与数字计算机交互的用户显示策略；将策略存储在数字计算机中并将策略发送到可操作地连接到数字计算机的另一个处理单元。

根据一个实施方式，数字计算机包括存储器单元；此外，其中初始化数据是从数字计算机的存储器单元获得的。

根据一个实施方式，初始化数据是从与数字计算机交互的用户和与数字计算机可操作地连接的远程处理单元中的一个获得的。

根据广泛的方面，公开了一种一种数字计算机，包括中央处理单元；显示设备；通信端口，用于可操作地将数字计算机连接到耦合到数字计算机的采样装置和采样装置控制系统；一种包括应用程序的存储器单元，用于改进随机控制问题的策略的方法，随机控制问题的特征在于动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期，其中基础随机状态处理的演化取决于策略中的多个动作，该应用程序包括用于使用耦合到数字计算机和耦合到采样装置控制系统的采样装置的指令，该采样装置获得表示玻尔兹曼机的采样配置的数据，该玻尔兹曼机包括多个节点、多个耦合器、多个偏置(每个偏置对应于多个节点中的节点)、多个耦合权重(每个耦合权重对应于多个耦合器中的耦合器)，以及横向场强；用于使用所述数字计算机获得初始化数据的指令，初始化数据包括动作集合、状态集合、随机控制问题的奖励结构和用于随机控制问题的初始策略，该策略包括为每个状态选择至少一个动作；用于使用数字计算机和采样设备控制系统的指令，将表示玻尔兹曼机的每个耦合器和每个节点各自的初始权重和偏置以及横向场强的数据分配给采样装置；指令用于直到满足停止标准，使用数字计算机生成当前时期状态动作对，使用数字计算机和采样装置控制系统，利用生成的当前状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据，执行对应于当前时期状态动作对的采样以获得第一采样经验均值，利用第一采样经验均值，利用数字计算机，逼近当前状态作用下Q函数的值的近似，Q函数的值表示当前状态作用对的效用，使用数字计算机获得未来时期状态动作对，其中状态是通过随机状态处理获得的，此外，该动作的获取包括对包括未来状态和任何可能采取的动作的多个状态动作对进行随机优化试验，从而为未来时期提供动作，并更新未来时期状态的策略；使用数字计算机和采样装置控制系统修改表示没有或至少一个耦合器的数据和使用生成的未来时期状态动作对的至少一个偏置，执行对应于未来时期状态动作对的采样以获得第二采样经验均值，使用第二采样经验均值，使用数字计算机，获得未来时期状态动作处Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，使用数字计算机，使用生成的Q函数的值的近似和当前时期状态动作对的第一采样经验均值以及使用奖励结构获得的当前时期状态动作对的相应奖励，分别更新玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置，并且用于当满足停止准则时使用数字计算机提供策略的指令。

根据广泛的方面，公开了一种用于存储计算机可执行指令的非暂时性计算机可读存储介质，计算机可执行指令在被执行时使得数字计算机执行用于改进随机控制问题的策略的方法，随机控制问题的特征在于动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期，其中基础随机状态处理的演化取决于策略中的多个动作，该方法包括使用耦合到数字计算机和耦合到采样装置控制系统的采样装置，该采样装置获得表示玻尔兹曼机的采样配置的数据，该玻尔兹曼机包括多个节点、多个耦合器、多个偏置(每个偏置对应于多个节点中的节点)、多个耦合权重(每个耦合权重对应于多个耦合器中的耦合器)，以及横向场强；使用数字计算机获得包括动作集合、状态集合、随机控制问题的奖励结构和用于随机控制问题的初始策略，该策略包括为每个状态选择至少一个动作；使用数字计算机和采样装置控制系统，将表示玻尔兹曼机的每个耦合器和每个节点各自的初始权重和偏置以及横向场强的数据分配给采样装置；直到满足停止标准，使用数字计算机生成当前时期状态动作对，使用数字计算机和采样装置控制系统，利用生成的当前状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据，执行对应于当前时期状态动作对的采样以获得第一采样经验均值，利用第一采样经验均值，利用数字计算机，逼近当前状态作用下Q函数的值的近似，Q函数的值表示当前状态作用对的效用，使用数字计算机获得未来时期状态动作对，其中状态是通过随机状态处理获得的，此外，该动作的获取包括对包括未来状态和任何可能采取的动作的多个状态动作对进行随机优化试验，从而为未来时期提供动作，并更新未来时期状态的策略；使用数字计算机和采样装置控制系统修改表示没有或至少一个耦合器的数据和使用生成的未来时期状态动作对的至少一个偏置，执行对应于未来时期状态动作对的采样以获得第二采样经验均值，使用第二采样经验均值，使用数字计算机，获得未来时期状态动作处Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，使用数字计算机，使用生成的Q函数的值的近似和当前时期状态动作对的第一采样经验均值以及使用奖励结构获得的当前时期状态动作对的相应奖励，分别更新玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置，并且当满足停止准则时使用数字计算机提供策略。

这里公开的方法的一个优点是它克服了用于求解马尔可夫决策问题的值迭代方法的维数限制。

这里公开的方法的另一个优点是它克服了用于解决马尔可夫决策问题的常见Q学习方法的存储器存储问题。

本文公开的方法的另一个优点是量子采样用于提供用于找到系统的量子位的经验均值的有效方法，从而提供用于训练神经网络的有效方法。

本文公开的方法的另一个优点是在一个实施方式中使用来自Fortuin-Kasteleyn随机簇表示的采样，以提供用于找到系统的量子位的经验均值的有效方法，从而提供用于训练神经网络的有效方法。

这里公开的方法的另一个优点是它不限于量子处理器或光学装置的量子位的特定图形布局。

附图说明

为了易于理解本发明，在附图中以举例的方式说明了本发明的实施方式。

图1是示出包括耦合到模拟计算机的数字系统的系统的实施方式的图。

图2是示出用于改进随机控制问题的策略的方法的实施方式的流程图。

本发明的进一步细节及其优点将从下面包括的详细描述中显而易见。

具体实施方式

在以下对实施方式的描述中，参考附图是为了说明可以实践本发明的示例。

术语

除非另有明确说明，否则术语“发明”等表示“本申请中公开的一个或多个发明”。

除非另有明确说明，否则术语“一个方面”、“实施方式”、“该实施方式”、“一个或多个实施方式”、“一些实施方式”、“某些实施方式”、“一个实施方式”、“另一实施方式”等表示“所公开发明的一个或多个(但不是全部)实施方式”。

除非另有明确说明，否则在描述实施方式时对“另一实施方式”或“另一方面”的引用并不意味着所引用的实施方式与另一实施方式(例如，在所引用的实施方式之前描述的实施方式)互斥。

除非另有明确说明，否则术语“包括”、“包含”及其变体表示“包括但不限于”。

除非另有明确说明，否则术语“一”、“一个”、“该”和“至少一个”表示“一个或多个”。

除非另有明确说明，否则术语“多个”表示“两个或更多个”。

除非另有明确说明，否则术语“在本文中”表示“在本申请中，包括可以通过引用并入的任何内容”。

术语“从而”在此仅用于在仅表示先前明确叙述的某物的预期结果、目标或后果的从句或其它单词集合之前。因此，当在权利要求中使用术语“从而”时，术语“从而”修改的从句或其他词语不确定权利要求的具体的进一步限制或以其他方式限制权利要求的含义或范围。

术语“例如”以及类似术语表示“例如”，并且因此不限制它们解释的术语或短语。例如，在“计算机通过因特网发送数据(例如，指令、数据结构)”的句子中，术语“例如”解释说“指令”是计算机可以通过因特网发送的“数据”的示例，并且还解释了“数据结构”是计算机可以通过因特网发送的“数据”的示例。然而，“指令”和“数据结构”都仅仅是“数据”的示例，并且除了“指令”和“数据结构”之外的其他东西可以是“数据”。

术语“即”以及类似术语表示“也就是说”，并且因此限制了它们解释的术语或短语。

在一个实施方式中，术语“模拟计算机”指的是包括量子处理器、量子位控制系统、耦合装置和读出系统的系统，它们都通过通信总线相互连接。

在可选实施方式中，“模拟计算机”指的是包括光学装置的系统，该光学装置包括光学参量振荡器的网络、光学参量振荡器的控制系统；包括延迟线和调制器的一个或多个耦合装置，以及包括一个或多个光电探测器的读出系统。

标题和摘要都不应被视为以所公开发明的范围的任何方式进行限制。本申请的标题和本申请中提供的章节的标题仅为了方便，并且不应被视为以任何方式限制本公开。

在本申请中描述了许多实施方式，并且仅出于说明性目的而呈现。描述的实施例不是，并且也不是有意在任何意义上限制。如从本公开中显而易见的，目前公开的发明广泛适用于众多实施方式。本领域普通技术人员将认识到，可以通过各种修改和变更(例如结构和逻辑修改)来实践所公开的发明。尽管可以参考一个或多个特定实施方式和/或附图来描述所公开发明的特定特征，但是应当理解，除非另有明确说明，这些特征不限于在参考其描述的一个或多个特定实施方式或附图中的使用。

应当理解，本发明可以以多种方式实现。在本说明书中，这些实施例或本发明可以采用的任何其他形式可以称为系统或技术。被描述为被配置为执行任务的诸如处理器或存储器的组件包括临时配置为在给定时间执行任务的通用组件或者被制造为执行任务的特定组件。

考虑到所有这些，本发明涉及一种用于改进随机控制问题的策略的方法和系统。

如上所述，随机控制问题可以是各种类型。在一个实施方式中，随机控制问题是金融和投资中的投资组合优化。

在可选实施方式中，随机控制问题是设备更换问题。

在可选实施方式中，随机控制问题是排队理论和运作研究中的调度。

在可选实施方式中，随机控制问题是涉及生成运动策略的问题。

现在参考图1，示出了示出系统的实施方式的图，该系统可以用于实现用于改进随机控制问题的策略的方法。

应当理解，在图1中公开的实施方式中，使用量子处理器。

可以理解，可更换地，可以使用其他采样装置，例如量子或经典伊辛模型的模拟器或包括光学参量振荡器网络的光学装置。

更确切地说，该系统包括耦合到模拟计算机10的数字系统8。

应当理解，数字计算机8可以是任何类型的数字计算机。

在一个实施方式中，数字计算机8选自一个组，该组包括台式计算机、膝上型计算机、平板电脑、服务器、智能电话等。还应理解，在前述中，数字计算机8也可广义地称为处理器。

在图1所示的实施方式中，数字计算机8包括中央处理单元12(也称为微处理器)、显示装置14、输入装置16、通信端口20、数据总线18和存储器单元22。

中央处理单元12用于处理计算机指令。本领域技术人员将理解，可以提供中央处理单元12的各种实施方式。

在一个实施方式中，中央处理单元12包括以2.5GHz运行并由Intel^(TM)制造的CPUCore i5 3210。

显示装置14用于向用户显示数据。本领域技术人员将理解可以使用各种类型的显示装置14。

在一个实施方式中，显示装置14是标准液晶显示器(LCD)监视器。

输入装置16用于将数据输入到数字计算机8中。

通信端口20用于与数字计算机8共享数据。

通信端口20可以包括例如用于将键盘和鼠标连接到数字计算机8的通用串行总线(USB)端口。

通信端口20还可以包括数据网络通信端口(例如IEEE 802.3端口)，用于实现数字计算机8与模拟计算机10的连接。

本领域技术人员将理解，可以提供通信端口20的各种可选实施方式。

存储器单元22用于存储计算机可执行指令。

存储器单元22可以包括系统存储器，例如用于存储系统控制程序(例如，BIOS、操作系统模块、应用程序等)的高速随机存取存储器(RAM)和只读存储器(ROM)。

应当理解，在一个实施方式中，存储器单元22包括操作系统模块。

应当理解，操作系统模块可以是各种类型的。

在一个实施方式中，操作系统模块是Apple^TM制造的OS X Yosemite。

存储器单元22还包括用于改进随机控制问题的策略的应用程序。

存储器单元22还可以包括用于使用模拟计算机10的应用程序。

存储器单元22还可以包括量子处理器数据，例如量子处理器28的每个耦合器的对应权重和量子处理器28的每个量子位的对应偏置。

模拟计算机10包括量子位控制系统24、读出控制系统26、量子处理器28和耦合装置控制系统30。

量子处理器28可以是各种类型的。在一个实施方式中，量子处理器包括超导量子位。

读出控制系统26用于读取量子处理器28的量子位。实际上，应当理解，为了在本文公开的方法中使用量子处理器，需要一种在其量子力学状态下测量量子系统量子位的读出系统。多次测量提供量子位状态的样本。来自读数的结果被馈送到数字计算机8。量子处理器28的量子位的偏置通过量子位控制系统24控制。耦合器通过耦合装置控制系统30控制。

应当理解，读出控制系统26可以是各种类型的。例如，读出控制系统26可以包括多个dc-SQUID磁力计，每个dc-SQUID磁力计电感连接到量子处理器28的不同量子位。读出控制系统26可以提供电压值或电流值。在一个实施方式中，如本领域所公知的，该dc-SQUID磁力计包括由至少一个Josephson结中断的超导材料环。

耦合装置控制系统30可以包括用于耦合装置的一个或多个耦合控制器，也称为“耦合器”。每个耦合控制器可以被配置为将对应耦合装置的耦合权重从零调整到最大值。应当理解，可以调谐耦合装置，例如，在量子处理器28的量子位之间提供铁磁或反铁磁耦合。这种模拟计算机的示例公开在美国专利No.8,421,053和美国专利申请公开No.2015/0046681中。

在图1的实施方式中，耦合到数字计算机的采样装置是量子处理器。

在可选实施方式中，采样装置是包括光学参量振荡器网络的光学装置。

在第三实施方式中，采样装置包括中央处理单元和耦合到中央处理单元的存储器单元，该存储器单元包括用于获得表示玻尔兹曼机的横向场强以及每个耦合器和每个节点各自的每个权重和每个偏置的数据的应用程序，其中零值横向场强对应于经典玻尔兹曼机，并且非零值横向场强对应于量子玻尔兹曼机(QBM)，并且用于执行玻尔兹曼机的模拟量子退火方法从而沿着测量轴提供玻尔兹曼机的多个样本配置。

在第四实施方式中，采样装置包括中央处理单元和耦合到中央处理单元的存储器单元，该存储器单元包括用于从数字计算机获得表示玻尔兹曼机的横向场强以及每个耦合器和每个节点各自的每个权重和每个偏置的数据的应用程序，其中横向场强具有对应于量子玻尔兹曼机的非零值，并且用于在量子玻尔兹曼机上执行模拟量子退火方法，从而提供表示量子玻尔兹曼机的有效哈密顿量的多个样本配置。

在第五实施方式中，采样装置包括中央处理单元和耦合到中央处理单元的存储器单元，该存储器单元包括用于从数字计算机获得表示玻尔兹曼机的横向场强以及每个耦合器和每个节点各自的每个权重和每个偏置的数据的应用程序，其中横向场强具有对应于量子玻尔兹曼机的非零值，并且用于对对应于量子玻尔兹曼机的Fortuin-Kasteleyn随机簇表示的多个实例采样，从而提供Fortuin-Kasteleyn随机簇表示中簇的数目的近似。

现在参考图2，示出了用于改进随机控制问题的策略的方法的实施方式。

如上所述，随机控制问题的特征在于动作集合、状态集合、折扣因子、作为状态和动作的函数的奖励结构，以及多个决策时期，其中基础随机状态处理的演化取决于策略中的多个动作。

使用采样装置。更确切地说，使用耦合到数字计算机和耦合到采样装置控制系统的采样装置用于来获得数据。获得的数据表示玻尔兹曼机的样本配置，该玻尔兹曼机包括多个节点、多个耦合器、多个偏置(每个偏置对应于多个节点中的节点)、多个耦合权重(每个耦合权重对应于多个耦合器中的耦合器)，以及横向场强。

根据处理步骤52，获得初始化数据。应当理解，可以使用数字计算机8获得初始化数据。还应当理解，初始化数据包括动作集合、状态集合、折扣因子、随机控制问题的奖励结构，以及用于随机控制问题的初始策略，该策略包括为每个状态选择至少一个动作。

应当理解，在一个实施方式中，初始化数据可以存储在数字计算机8的存储器单元22中。

在可选实施方式中，初始化数据可以由与数字计算机8交互的用户提供。

在另一可选实施方式中，初始化数据可以从与数字计算机8可操作地耦合的远程处理单元获得。

仍然参考图2并且根据处理步骤54，将表示玻尔兹曼机的每个耦合器和每个节点各自的初始权重和偏置以及横向场强的数据分配给采样装置。在采样装置包括量子处理器的实施方式中，表示初始权重和偏置的数据分别分配给量子处理器的每个耦合器和每个量子位，并且使用控制系统分配横向场强的值。

在采样装置包括光学参量振荡器脉冲网络的实施方式中，表示初始权重和偏置的数据分别被传送到能量源和调制器。在采样装置包括模拟量子退火应用程序的实施方式中，初始权重和偏置的数据作为参数被分别传递给应用程序。

应当理解，量子处理器可以是各种类型的。

在一个实施方式中，量子处理器包括第一组量子位和第二组量子位。在该实施方式中，量子处理器包括一组耦合器。该量子处理器的这组耦合器包括至少一个耦合器，该至少一个耦合器中的每一个耦合器用于在第一组量子位的量子位和第二组量子位的至少一个量子位之间的交叉处提供通信耦合。该组耦合器还包括多个耦合器，该多个耦合器中的每一个耦合器用于在第二组量子位中的量子位和第二组量子位中的其他量子位之间的交叉处提供通信耦合。

在该实施方式中，第一组量子位用于随机控制问题的动作集合。

在另一实施方式中，量子处理器是由D-Wave Systems,Ltd.制造的D-Wave 2X系统。

应当理解，可以使用数字计算机8和量子装置控制系统来分配量子处理器的每个耦合器和每个量子位各自的初始权重和偏置。

装置控制系统包括量子位控制系统24和耦合装置控制系统30。

应当理解，初始权重和偏置可以存储在数字计算机8的存储器单元22中。

在可选实施方式中，初始权重和偏置由与数字计算机8交互的用户提供。

在进一步的实施方式中，初始权重和偏置由与数字计算机8可操作地耦合的远程处理单元提供。

应当理解，在一个实施方式中，初始权重和偏置是随机生成的。

设置采样装置

在一个实施方式中，其中量子处理器用作采样装置，应当理解，量子处理器的量子位表示对应一般玻尔兹曼机(GBM)的多个节点。

在一个实施方式中，其中采样装置包括光学装置，光学参量振荡器网络表示一般玻尔兹曼机。

一般玻尔兹曼机的可见节点由两组节点组成。第一组节点表示随机控制问题的状态。第二组节点表示随机控制问题的动作。一般玻尔兹曼机的隐藏节点由未包含在第一组节点或第二组节点中的所有节点组成。

在一个实施方式中，其中量子处理器用作采样装置，量子处理器包括表示一般玻尔兹曼机的隐藏节点的多个量子位。在该实施方式中，量子处理器包括多个量子位和多个耦合器，每个耦合器用于在两个量子位之间的交叉处提供通信耦合。

在一个实施方式中，其中光学装置用作采样装置，光学参量振荡器表示一般玻尔兹曼机的隐藏节点。

在另一实施方式中，其中模拟量子退火用作采样装置，模拟自旋表示一般玻尔兹曼机的隐藏节点。

在另一实施方式中，其中模拟量子退火用作采样装置，第一组模拟自旋表示一般玻尔兹曼机的动作节点，并且第二组模拟自旋表示一般玻尔兹曼机的隐藏节点。

在另一实施方式中，其中量子处理器用作采样装置，量子处理器的第一组量子位表示一般玻尔兹曼机的动作节点，并且量子处理器的第二组量子位表示一般玻尔兹曼机的隐藏节点。在该实施方式中，量子处理器包括一组耦合器。该量子处理器的这组耦合器包括至少一个耦合器，该至少一个耦合器中的每个耦合器用于在第一组量子位的量子位和第二组量子位的至少一个量子位之间的交叉处提供通信耦合。该组耦合器还包括多个耦合器，多个耦合器中的每个耦合器用于在第二组量子位中的量子位和第二组量子位中的其他量子位之间的交叉处提供通信耦合。在该实施方式中，第一组量子位用于随机控制问题的动作集合，并且第二组量子位用于一般玻尔兹曼机的一组隐藏节点。

一般玻尔兹曼机的每个节点都取{0，1}中的值，除非节点用于随机控制问题的状态集合或动作集合。

用于表示随机控制问题的状态集合和动作集合的一般玻尔兹曼机的多个节点可以采用{0，1}中的值或者有限或无限的离散值集合，或者由浮点数据类型表示的实数。

在一个实施方式中，其中量子处理器用作采样装置，任何两个量子位之间的ON耦合被认为是一般玻尔兹曼机的两个对应节点之间的权重。

在同一实施方式中，每个ON耦合具有浮动值强度，该浮动值强度是对应权重的近似。两个节点之间的非零权重指示节点的连通性。

仍然在同一实施方式中，每个OFF耦合具有有效的零值强度，并且是一般玻尔兹曼机中任何两个节点之间断开的指示。

训练

根据处理步骤56，生成当前时期状态动作对。

应当理解，当前时期状态动作对包括状态和对应动作。

在一个实施方式中，使用数字计算机8随机生成当前时期状态动作对。

在可选实施方式中，从环境生成当前时期状态动作对。

在可选实施方式中，从策略生成当前时期状态动作对。

根据处理步骤58，使用所生成的当前时期状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据。应当理解，使用数字计算机8修改表示没有或至少一个耦合器和至少一个偏置的数据。

在采样装置包括量子处理器的情况下，如果量子处理器的任何量子位表示动作节点，则该处理步骤包括将表示动作节点的任何量子位与任何其他量子位之间的每个耦合切换为OFF。然后，使用所生成的当前时期状态动作对来更新与连接到可见节点的一般玻尔兹曼机的那些隐藏节点相对应的量子位的偏置。

在采样装置包括模拟量子退火应用程序的情况下，如果模拟量子退火应用程序的任何自旋表示动作节点，则该处理步骤包括将表示动作节点的任何自旋与任何其他自旋之间的权重设置为零。然后，使用所生成的当前时期状态动作对来更新与连接到可见节点的一般玻尔兹曼机的那些隐藏节点相对应的自旋的偏置。

如果当前时期状态动作对由可见节点上的向量v＝(s，a)表示，并且将状态节点i连接到与其连接的隐藏节点j的权重是w_ij，则通过添加w_ijs_i来修改隐藏节点j上的偏置。如果将动作节点k连接到与其连接的隐藏节点j的权重是w_kj，则通过添加w_kja_k来修改隐藏节点j上的偏置。

在采样装置包括光学装置的情况下，如上所述修改的分别表示权重和偏置的数据被传送到能量源和调制器。

在一个实施方式中，其中采样装置包括量子处理器，应当理解，使用数字计算机8和包括量子位控制系统24和耦合装置控制系统30的量子装置控制系统来修改量子处理器的耦合和偏置。

根据处理步骤60，执行采样。应当理解，在采样装置包括量子处理器或光学装置的情况下，根据这些装置的性质，采样是量子的。

应当理解，执行对应于当前时期状态动作对的采样以获得第一采样经验均值。

在采样装置包括量子处理器的情况下，执行对应于当前时期状态动作对的采样以获得对应于量子处理器的量子位的第一量子采样经验均值。

在采样装置包括光学装置的情况下，执行对应于当前时期状态动作对的采样以获得对应于光学装置的光学参量振荡器的第一采样经验均值。

更准确地说，第一采样经验均值包括三个多个值。

在采样装置包括量子处理器的情况下，第一多个值是在量子采样中测量对应于隐藏节点的每个量子位的状态的平均值。在采样装置包括光学装置的情况下，第一多个值是对应于光学参量振荡器的相位的测量的自旋的平均值。在采样装置包括模拟量子退火应用程序的情况下，第一多个值是自旋值的平均值。本领域技术人员将理解，对于隐藏节点j，该值可以由<h_j>_v表示，其中v＝(s，a)是表示对应于当前时期状态动作对的可见节点的向量。

在采样装置包括量子处理器的情况下，第二多个值是在量子采样中测量对应于一对隐藏节点的每对量子位的状态的乘积的平均值。在采样装置包括光学装置的情况下，第二多个值是与光学参量振荡器的相位的测量值相对应的自旋值的乘积的平均值。在采样装置包括模拟量子退火应用程序的情况下，第二多个值是自旋值的乘积的平均值。本领域技术人员将理解，对于该对隐藏节点j和k，该值可以由<h_jh_k>_v表示。

在采样装置包括量子处理器的情况下，第三多个值是由表示的量子处理器的量子位的每个配置的出现频率，其中h是表示在量子采样的每个采样中测量所有量子位的状态的二进制向量。

在采样装置包括用于经典玻尔兹曼机的模拟量子退火应用程序的情况下，第三多个值是由表示的自旋的每个配置的出现频率，其中h是表示在每个采样样本中测量所有自旋的状态的二进制向量。

在采样装置包括光学装置的情况下，第三多个值是每个自旋配置的出现频率，其对应于由表示的光学参量振荡器的相位，其中h是表示在每个采样样本处对应于光学参量振荡器的相位测量的自旋值的二进制向量。

在采样装置包括执行来自表示量子玻尔兹曼机的量子哈密顿量的采样的量子处理器的情况下，第三多个值是由表示的表示量子玻尔兹曼机的经典有效哈密顿量的每个样本配置的出现频率，其中c是表示所有有效自旋状态的二进制向量。

在一个实施方式中，表示量子玻尔兹曼机的量子哈密顿量是

其具有n个自旋σ₁，...，σ_n。

在进一步的实施方式中，经典有效哈密顿量包括量子玻尔兹曼机的量子哈密顿量的自旋的m个副本。

提供了对应于具有横向场的量子玻尔兹曼机的有效经典哈密顿量的副本的数量m。

在一个实施方式中，使用数字计算机8，并且更精确地使用数字计算机8的存储器22获得有效经典伊辛模型的副本数量m。

在可选实施方式中，有效经典伊辛模型的副本数量m由与数字计算机8可操作地耦合的远程处理单元提供给数字计算机8。

每个自旋σ_i与m个表示为的自旋相关联。对于i＝1，...，n和k＝1，...，m，每个自旋上的偏置被设置为对于1≤i≠j≤n，每两个自旋和之间的耦合被设置为对于每个k＝1，...，m-1，每两个自旋和之间的耦合被设置为因此，更高一维的有效哈密顿量为

在采样装置包括量子处理器，该量子处理器从表示量子玻尔兹曼机的量子哈密顿量执行采样的情况下，通过将量子位的测量值附加到有效自旋来构造经典有效哈密顿量的样本配置，其中量子位的每个测量配置对应于有效哈密顿量内的副本。

在采样装置包括模拟量子退火应用程序，该模拟量子退火应用程序从表示量子玻尔兹曼机的量子哈密顿量执行采样的情况下，第三多个值是由表示的有效哈密顿量的有效自旋的每个配置的出现频率，其中c是表示所有有效自旋状态的二进制向量。

仍然参考图2并且根据处理步骤62，执行Q函数的值的近似。

应当理解，使用所获得的第一采样经验均值在当前时期状态动作对处执行Q函数的值的近似的确定。

应当理解，在采样装置包括量子处理器的情况下，使用所获得的第一量子采样经验均值在当前时期状态动作对处执行Q函数的值的近似的确定。

将进一步理解，使用数字计算机8确定Q函数的值的近似。

本领域技术人员将理解，Q函数的值表示当前时期状态动作对的效用。

根据处理步骤64，获得未来时期状态。应当理解，状态是通过随机状态处理获得的。

在一个实施方式中，通过涉及已知马尔可夫转移概率的随机测试来获得未来时期状态。在另一实施方式中，通过来自环境的观察获得未来时期状态。在另一实施方式中，从提供的训练数据获得未来时期状态。

应当理解，使用数字计算机8获得未来时期状态。

在一个实施方式中，使用数字计算机8，并且更精确地使用数字计算机8的存储器22获得未来时期状态，。

在可选实施方式中，通过与数字计算机8可操作地耦合的远程处理单元将未来时期状态提供给数字计算机8。

根据处理步骤66，获得未来时期动作。动作的获得包括对包括未来时期状态和任何可能动作的多个所有状态动作对执行随机优化测试，从而在未来时期提供动作。

在一个实施方式中，对多个所有状态动作对执行随机优化测试包括获得温度参数，获得未来时期状态并对与具有状态变量的Q函数的值的近似相关联的玻尔兹曼分布采样，其中状态变量在未来时期状态和提供的温度处是固定的。

在一个实施方式中，对应于动作节点对玻尔兹曼分布采样。在该实施方式中，对于当前时期状态s和每个动作a_i∈A，对应Q函数被近似并表示为Q_i。然后，从分布中对动作a_i∈A采样。所得到的动作被假定为对于当前时期状态s的最佳动作。

在采样装置包括量子处理器的另一实施方式中，其中第一组量子位表示随机控制问题的动作集合，并且第二组量子位表示相应的一般玻尔兹曼机的隐藏节点，可以通过量子采样来执行对当前时期状态的策略的更新。在一个实施方式中，对包括未来时期状态和任何可能动作的多个所有状态动作对执行随机优化测试包括将在第一组量子位的量子位和第二组量子位的量子位之间的交叉处提供通信耦合的所有耦合器切换为ON，使用对应于未来时期状态动作对的未来时期状态来修改第二组量子位中的至少一个偏置，执行量子采样以获得对应于第一组量子位的经验均值，并使用数字计算机8通过根据对应于第一组量子位的所获得的经验均值的分布对未来时期状态分配动作来更新未来时期状态的策略。

仍然参考图2并且根据处理步骤68，利用在处理步骤66中获得的动作来更新未来时期状态的策略。

根据处理步骤70，使用所生成的未来时期状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据。应当理解，使用数字计算机8修改表示没有或至少一个耦合器和至少一个偏置的数据。

在采样装置包括量子处理器的情况下，如果量子处理器的任意量子位表示动作节点，则该处理步骤包括将表示动作节点的任何量子位与任意其他量子位之间的每个耦合切换为OFF。然后，使用所生成的未来时期状态动作对来更新对应于连接到可见节点的一般玻尔兹曼机的那些隐藏节点的量子位的偏置。

在采样装置包括模拟量子退火应用程序的情况下，如果模拟量子退火应用的任何自旋表示动作节点，则该处理步骤包括将在表示动作节点的任何自旋和任何其他自旋之间的权重设置为零。然后，使用所生成的未来时期状态动作对来更新与连接到可见节点的一般玻尔兹曼机的那些隐藏节点相对应的自旋的偏置。

如果未来时期状态动作对由可见节点上的向量v＝(s，a)表示，并且将状态节点i连接到与其连接的隐藏节点j的权重是w_ij，则通过添加w_ijs_i来修改隐藏节点j上的偏置。如果将动作节点k连接到与其连接的隐藏节点j的权重是w_kj，则通过添加w_kja_k来修改隐藏节点j上的偏置。

在采样装置包括光学装置的情况下，如上所述修改的分别表示耦合权重和偏置的数据被传送到能量源和调制器。

根据处理步骤72，执行采样。在采样装置包括量子处理器或光学装置的情况下，应当理解，通过这些装置的性质，采样是量子的。应当理解，执行对应于未来时期状态动作对的采样以获得第二采样经验均值。

在采样装置包括量子处理器的情况下，执行对应于未来时期状态动作对的采样以获得对应于量子处理器的量子位的第二量子采样经验均值。

在采样装置包括光学装置的情况下，执行对应于未来时期状态动作对的采样以获得对应于光学装置的光学参量振荡器的第二采样经验均值。

更确切地说，第二采样经验均值包括三个多个值。

在采样装置包括量子处理器的情况下，第二多个值是在量子采样中测量对应于一对隐藏节点的每对量子位的状态的乘积的平均值。在采样装置包括光学装置的情况下，第二多个值是与光学参量振荡器的相位的测量值对应的自旋值的乘积的平均值。在采样装置包括模拟量子退火应用程序的情况下，第二多个值是自旋值的乘积的平均值。本领域技术人员将理解，对于该对隐藏节点j和k，该值可以由<h_jh_k>_v表示。

在采样装置包括量子处理器的情况下，第三多个值是由表示的量子处理器的量子位的每个配置的出现频率，其中h是表示在量子采样的每个样本中测量所有量子位的状态的二进制向量。

在采样装置包括用于经典玻尔兹曼机的模拟量子退火应用程序的情况下，第三多个值是由表示的自旋的每个配置的出现频率，其中h是表示在采样的每个样本中测量所有自旋的状态的二进制向量。

在采样装置包括光学装置的情况下，第三多个值是对应于由表示的光学参量振荡器的相位的自旋的每个配置的出现频率，其中h是表示在采样的每个样本处对应于光学参量振荡器的相位测量的自旋值的二进制向量。

在采样装置包括量子玻尔兹曼机的实施方式中的量子处理器的情况下，第三多个值是由表示的表示量子玻尔兹曼机的经典有效哈密顿量的每个样本配置的出现频率，其中c是表示所有有效自旋状态的二进制向量。

将进一步理解，在采样装置包括量子玻尔兹曼机的实施方式中的量子处理器的情况下，通过将量子位的测量值附加到有效自旋来构造有效哈密顿量的样本配置，其中量子位的每个测量配置对应于有效哈密顿量内的副本。

在采样装置包括用于量子玻尔兹曼机的模拟量子退火应用程序的情况下，第三多个值是有效哈密顿量的有效自旋的每个配置的出现频率。

仍然参考图2并且根据处理步骤74，确定Q函数的值的新的近似。应当理解，使用所获得的第二采样经验均值对未来时期状态动作对执行Q函数的值的新的近似。应当理解，Q函数表示未来时期状态动作对的效用。在其中采样装置包括量子处理器的情况下，使用所获得的对应于量子处理器的量子位的第二量子采样经验均值，对未来时期状态动作对执行Q函数的值的近似。

应当理解，使用数字计算机8执行Q函数的值的近似。

在一个实施方式中，使用可操作地连接到数字计算机8的远程处理单元来执行Q函数的值的近似。

应当理解，在一个实施方式中并且在采样装置包括量子处理器的情况下，在当前时期和未来时期获得Q函数的值的近似包括沿着测量轴从采样装置获得的玻尔兹曼机的多个样本配置，从获得的配置样本构造多个上述量子玻尔兹曼机的有效哈密顿函数的配置样本并且使用数字计算机8计算由下式给出的量子玻尔兹曼机的负自由能的经验近似

应当理解，在一个实施方式中并且在采样装置包括用于量子玻尔兹曼机的模拟量子退火的情况下，在当前时期和未来时期获得Q函数的值的近似包括从采样设备获得表示上述量子玻尔兹曼机的有效哈密顿量的多个样本配置，并使用数字计算机计算由下式给出的量子玻尔兹曼机的负自由能的经验近似

应当理解，在另一实施方式中并且在采样装置包括量子处理器或光学装置或模拟量子退火的情况下，在当前时期和未来时期获得Q函数的值的近似包括沿着测量轴从采样装置获得的经典玻尔兹曼机的多个样本配置，并使用数字计算机8计算由下式给出的经典玻尔兹曼机的负自由能的经验近似

应当理解，在另一实施方式中，在当前时期和未来时期获得Q函数的值的近似包括从采样装置获得对应于玻尔兹曼机的Fortuin-Kasteleyn随机簇表示中的簇的数目的近似，并使用数字计算机8使用Fortuin-Kasteleyn随机簇表示中的簇的数目的近似来计算玻尔兹曼机的负自由能的经验近似。负自由能由下式给出

这里常数ρ取决于在经典玻尔兹曼机情况下的玻尔兹曼机的权重和偏置，并且取决于在量子玻尔兹曼机情况下的玻尔兹曼机的权重和偏置和横向场强。指数#c表示Fortuin-Kasteleyn随机簇表示中的自由簇的数目。

仍然参考图2并且根据处理步骤76，使用在当前时期状态动作对处生成的Q函数的值的近似和第一采样经验均值以及在使用奖励结构获得的当前时期状态动作对处的相应奖励来更新玻尔兹曼机的每个耦合器和每个节点各自的每个权重和每个偏置。在采样设备包括量子处理器的情况下，量子处理器的每个权重和每个偏置被更新。

更准确地说，使用当前时期状态动作对处生成的Q函数的值的近似和第一经验均值以及使用奖励结构获得的当前时期状态选项对的相应奖励，更新量子处理器的每个耦合器和每个量子位各自的每个权重和每个偏置。

如果r表示当前时期状态动作对奖励的值，则通过下式更新将可见节点i连接到隐藏节点k的权重

Δw_ik＝∈_n(r+γQ₂-Q₁)v_i<h_k>_v。

通过下式更新将隐藏节点k连接到隐藏节点j的权重

Δu_kj＝∈_n(r+γQ₂-Q₁)<h_kh_j>_v。

以及通过下式更新隐藏节点k上的偏置

Δb_k＝∈_n(r+γQ₂-Q₁)<h_k>_v。

这里Q₁是当前时期状态动作对的Q函数的近似，Q₂是未来时期状态动作对的Q函数的近似。

根据相同的处理步骤，量子处理器的任意量子位上的偏置通过其所表示的隐藏节点上的更新量来更新。

根据相同的处理步骤，量子处理器的任意耦合器的权重通过其所表示的权重u_kj或w_ik的更新量来更新。

在一个实施方式中，使用数字计算机8更新量子处理器的每个权重和每个偏置。

仍然参考图2并且根据处理步骤78，执行测试以便找出是否满足停止标准。本领域技术人员将理解，停止标准可以是各种类型的。

应当理解，在一个实施方式中，停止标准可以包括达到最大数量的训练步骤。

应当理解，在一个可选实施方式中，停止标准可以包括达到最大运行时间。

应当理解，在一个可选实施方式中，停止标准可以包括耦合和局部场的权重和偏置的函数的收敛。

应当理解，在一个可选实施方式中，停止标准可以包括将策略收敛到固定策略。

在一个可选实施方式中，测试包括至少一个停止标准。

在不满足至少一个停止标准的情况下并且根据处理步骤56，从提供的训练数据或从环境生成当前时期状态动作对。

在满足至少一个停止标准的情况下，根据处理步骤80提供策略。

应当理解，可以根据各种实施方式提供策略。实际上，应当理解，使用数字计算机8提供最众所周知的策略。

在一个实施方式中，策略存储在数字计算机中，更确切地说存储在数字计算机8的存储器22中。

在可选实施方式中，经由显示装置14将策略显示给与数字计算机8交互的用户。

在另一可选实施方式中，策略被发送到与数字计算机8可操作地耦合的远程处理单元。

应当理解，进一步公开了一种用于存储计算机可执行指令的非暂时性计算机可读存储介质，计算机可执行指令在被执行时使得数字计算机执行用于改进随机控制问题的策略的方法，随机控制问题的特征在于动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期，其中基础随机状态处理的演化取决于策略中的多个动作，该方法包括使用耦合到数字计算机和耦合到采样装置控制系统的采样装置，该采样装置获得表示玻尔兹曼机的采样配置的数据，该玻尔兹曼机包括多个节点、多个耦合器、多个偏置(每个偏置对应于多个节点中的节点)、多个耦合权重(每个耦合权重对应于多个耦合器中的耦合器)，以及横向场强；使用数字计算机获得包括动作集合、状态集合、随机控制问题的奖励结构和用于随机控制问题的初始策略，该策略包括为每个状态选择至少一个动作；使用数字计算机和采样装置控制系统，将表示玻尔兹曼机的每个耦合器和每个节点各自的初始权重和偏置以及横向场强的数据分配给采样装置；直到满足停止标准：使用数字计算机生成当前时期状态动作对，使用数字计算机和采样装置控制系统，利用生成的当前状态动作对来修改表示没有或至少一个耦合器和至少一个偏置的数据，执行对应于当前时期状态动作对的采样以获得第一采样经验均值，利用第一采样经验均值，使用数字计算机，获得当前时期状态动作下Q函数的值的近似，Q函数的值表示当前时期状态动作对的效用，使用数字计算机获得未来时期状态动作对，其中状态是通过随机状态处理获得的，并且进一步地，其中该动作的获取包括对包括未来时期状态和任何可能的动作的多个所有状态动作对执行随机优化试验，从而提供未来时期的动作，并更新未来时期状态的策略；使用数字计算机和采样装置控制系统，使用生成的未来时期状态动作对修改表示没有或至少一个耦合器和至少一个偏置的数据，执行对应于未来时期状态动作对的采样以获得第二采样经验均值，使用第二采样经验均值，使用数字计算机，获得未来时期状态动作处Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，使用数字计算机，使用当前时期状态动作对处生成的Q函数的值的近似和第一采样经验均值以及使用奖励结构获得的当前时期状态动作对的相应奖励，更新玻尔兹曼机的每个耦合器和每个节点各自的每个权重和每个偏置，并且当满足停止标准时使用数字计算机提供策略。

应当理解，在一个实施方式中，用于改进包括在存储器单元22中的随机控制问题的策略的应用程序包括用于使用耦合到数字计算机和耦合到采样装置控制系统的采样装置的指令，该采样装置获得表示玻尔兹曼机的样本配置的数据，该玻尔兹曼机包括多个节点、多个耦合器、多个偏置(每个偏置对应于多个节点中的节点)、多个耦合权重(每个耦合权重对应于多个耦合器中的耦合器)，以及横向场强。用于改进包括在存储器单元22中的随机控制问题的策略的应用程序还包括用于使用数字计算机获得包括动作集合、状态集合、随机控制问题的奖励结构和用于随机控制问题的初始策略的初始化数据的指令，策略包括为每个状态选择至少一个动作。用于改进包括在存储器单元22中的随机控制问题的策略的应用程序还包括用于使用数字计算机和采样装置控制系统的指令，将表示玻尔兹曼机的每个耦合器和每个节点各自的初始权重和偏置以及横向场强的数据分配给采样装置。用于改进包括在存储器单元22中的随机控制问题的策略的应用程序还包括用于直到满足停止标准的指令：使用数字计算机生成当前时期状态动作对，使用数字计算机和采样装置控制系统，使用所生成的当前时期状态动作对修改表示没有或至少一个耦合器和至少一个偏置的数据，执行对应于当前时期状态动作对的采样以获得第一采样经验均值，使用第一采样经验均值，使用数字计算机，获得当前时期状态动作的Q函数的值的近似，Q函数的值表示当前时期状态动作对的效用，使用数字计算机获得未来时期状态动作对，其中状态是通过随机状态处理获得的，并且进一步地，其中动作的获得包括对包括未来时期状态和任何可能动作的多个所有状态动作对执行随机优化测试，从而在未来时期提供动作并更新未来时期状态的策略；使用数字计算机和采样装置控制系统，使用生成的未来时期状态动作对修改表示没有或至少一个耦合器和至少一个偏置的数据，执行对应于未来时期状态动作对的采样以获得第二采样经验均值，使用第二采样经验均值，使用数字计算机，获得未来时期状态动作处Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，使用数字计算机，使用当前时期状态动作对处生成的Q函数的值的近似和第一经验均值和使用奖励结构获得的当前时期状态动作对的相应奖励更新玻尔兹曼机的每个耦合器和每个节点各自的每个权重和每个偏置。用于改进包括在存储器单元22中的随机控制问题的策略的应用程序还包括用于在满足停止标准时使用数字计算机提供策略的指令。

应当理解，本文公开的方法的优点在于，使用量子采样来计算用于动作节点和隐藏节点的经验均值、近似Q函数所涉及的分量、更新量子位之间的权重所涉及的分量，以及更新其偏置所涉及的分量，因此提供了更快的Q学习方法。

将进一步理解，本文公开的方法的另一个优点是它克服了用于马尔可夫决策处理的传统解决方法中所经历的维数限制。

尽管以上描述涉及发明人目前所预期的特定实施方案，但是应当理解，本发明在其广义方面包括本文所描述的元件的功能等同物。

项1.一种用于改进随机控制问题的策略的方法，随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期表征，其中，基础随机状态处理的演化取决于策略中的多个动作，方法包括：

使用耦合到数字计算机和耦合到采样装置控制系统的采样装置，采样装置获得表示玻尔兹曼机的样本配置的数据，玻尔兹曼机包括：

多个节点，

多个耦合器，

多个偏置，每个偏置对应于多个节点中的一个节点，

多个耦合权重，每个耦合权重对应于多个耦合器中的一个耦合器，以及

横向场强；

使用数字计算机获得包括随机控制问题的动作集合、状态集合、奖励结构以及随机控制问题的初始策略的初始化数据，策略包括为每个状态选择至少一个动作；

使用数字计算机和采样装置控制系统，将分别表示玻尔兹曼机的每个耦合器和每个节点的初始权重和偏置以及横向场强的数据分配给采样装置；

进行以下操作直到满足停止标准：

使用数字计算机生成当前时期状态动作对，

使用数字计算机和采样装置控制系统使用生成的当前时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，

执行对应于当前时期状态动作对的采样以获得第一采样经验均值，

利用数字计算机使用第一采样经验均值获得当前时期状态动作处的Q函数的值的近似，Q函数的值表示当前时期状态动作对的效用，

使用数字计算机获得未来时期状态动作对，其中，状态是通过随机状态处理获得的，并且进一步其中，获得动作包括：对包括未来时期状态和任何可能的动作的多个所有状态动作对执行随机优化测试，从而在未来时期提供动作并更新用于未来时期状态的策略，

使用数字计算机和采样装置控制系统，使用所生成的未来时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，

执行对应于未来时期状态动作对的采样以获得第二采样经验均值，

利用数字计算机使用第二采样经验均值获得未来时期状态动作处的Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，以及

利用数字计算机使用在当前时期状态动作对处生成的Q函数的值的近似和第一采样经验均值，以及使用奖励结构获得的在当前时期状态动作对处的对应奖励，来分别更新玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置；并且

在满足停止标准时使用数字计算机提供策略。

项2.根据项1所述的方法，其中，采样装置包括量子处理器，并且其中，采样装置控制系统包括量子装置控制系统；进一步其中，量子处理器耦合到数字计算机和量子装置控制系统，进一步其中，量子处理器包括多个量子位和多个耦合器，每个耦合器用于在两个量子位的交叉处提供通信耦合。

项3.根据项1所述的方法，其中，采样装置包括被配置为从光学能量源接收能量并生成多个光学参量振荡器的光学装置，以及多个耦合装置，多个耦合装置中的每一个能够控制地耦合多个光学参量振荡器中的一个光学参量振荡器。

项4.根据项1所述的方法，其中，采样装置包括中央处理单元和耦合到中央处理单元并实现玻尔兹曼机的存储器单元，其中，所实现的玻尔兹曼机是由零值横向场强表征的经典玻尔兹曼机；进一步其中，存储器单元包括用于获得分别表示经典玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序，进一步其中，应用程序适用于执行经典玻尔兹曼机的模拟量子退火。

项5.根据项1所述的方法，其中，采样装置包括中央处理单元和耦合到中央处理单元并实现玻尔兹曼机的存储器单元，其中，所实现的玻尔兹曼机是由非零值横向场强表征的量子玻尔兹曼机；进一步其中，存储器单元包括用于获得分别表示量子玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序；进一步其中，应用程序适用于执行量子玻尔兹曼机的模拟量子退火。

项6.根据项5所述的方法，其中，执行量子玻尔兹曼机的模拟量子退火提供表示量子玻尔兹曼机的有效哈密顿量的多个样本配置。

项7.根据项1所述的方法，其中，采样装置包括中央处理单元和耦合到中央处理单元并实现玻尔兹曼机的存储器单元，其中，所实现的玻尔兹曼机是由零值横向场强表征的经典玻尔兹曼机；进一步地，其中，存储器单元包括用于获得分别表示经典玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序，进一步其中，应用程序适用于对与经典玻尔兹曼机相对应的Fortuin-Kasteleyn随机簇表示的多个实例进行采样，从而提供Fortuin-Kasteleyn随机簇表示中的簇的数目的近似。

项8.根据项1所述的方法，其中，采样装置包括中央处理单元和耦合到中央处理单元并实现玻尔兹曼机的存储器单元，其中，所实现的玻尔兹曼机是由非零值横向场强表征的量子玻尔兹曼机；进一步其中，存储器单元包括用于获得分别表示量子玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序；进一步其中，应用程序适用于对与量子玻尔兹曼机相对应的Fortuin-Kasteleyn随机簇表示的多个实例进行采样，从而提供Fortuin-Kasteleyn随机簇表示中的簇的数目的近似。

项9.根据项2、3、4和5中任一项所述的方法，其中，在当前时期和未来时期两者获得Q函数的值的近似包括：沿着测量轴从采样装置获得玻尔兹曼机的多个配置样本，并使用数字计算机计算玻尔兹曼机的自由能的经验近似。

项10.根据项2和5中任一项所述的方法，其中，在当前时期和未来时期两者获得Q函数的值的近似包括：沿着测量轴从采样装置获得玻尔兹曼机的多个样本配置，从所获得的样本配置构造表示量子玻尔兹曼机的有效哈密顿量的多个配置的样本，并使用数字计算机计算量子玻尔兹曼机的自由能的经验近似。

项11.根据项6所述的方法，其中，在当前时期和未来时期两者获得Q函数的值的近似包括从采样装置获得表示量子玻尔兹曼机的有效哈密顿量的多个配置的样本，并使用数字计算机计算量子玻尔兹曼机的自由能的经验近似。

项12.根据项8所述的方法，其中，在当前时期和未来时期两者获得Q函数的值的近似包括：从采样装置获得与量子玻尔兹曼机相对应的Fortuin-Kasteleyn随机簇表示中的簇的数目的近似，并使用数字计算机计算量子玻尔兹曼机的自由能的经验近似。

项13.根据项2、3、4和5中任一项所述的方法，其中，计算对应于节点的第一经验均值和第二经验均值两者包括：沿着测量轴从采样装置获得量子或经典玻尔兹曼机中的一个的多个配置的样本，并使用数字计算机来计算节点的经验均值的近似。

项14.根据项6所述的方法，其中，计算对应于节点的第一经验均值和第二经验均值两者包括：从采样装置获得玻尔兹曼机的有效哈密顿量的多个配置的样本，并使用数字计算机来计算节点的经验均值的近似。

项15.根据项1所述的方法，其中，对多个所有状态动作对执行随机优化测试包括：

使用数字计算机和采样装置控制系统使用对应于未来时期状态的每个状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，

执行与对应于未来时期状态的每个状态动作对相对应的采样以提供经验均值，使用数字计算机获得对应于未来时期状态的每个状态动作对的Q函数的值的近似，

使用与对应于未来时期状态的每个状态动作对相对应的所有近似Q函数的值，利用数字计算机，从相应的分布中采样以更新未来时期状态的策略。

项16.根据项1所述的方法，其中，对多个所有状态动作对执行随机优化测试包括：

获得温度参数；

获得未来时期状态；

对与具有状态变量的Q函数的值的近似相关联的玻尔兹曼分布进行采样，状态变量在未来时期状态和提供的温度下是固定的。

项17.根据项2所述的方法，其中，量子处理器的多个量子位包括：

第一组量子位；

第二组量子位；并且

其中，量子处理器的多个耦合器包括：

至少一个耦合器，至少一个耦合器中的每一个用于在第一组量子位中的一个量子位和第二组量子位中的至少一个量子位之间的交叉处提供通信耦合，以及

多个耦合器，多个耦合器中的每一个用于在第二组量子位中的一个量子位和第二组量子位中的其他量子位之间的交叉处提供通信耦合。

项18.根据项17所述的方法，其中，第一组量子位表示随机控制问题的动作集合。

项19.根据项17所述的方法，其中，使用所生成的当前时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，包括：

将在第一组量子位中的一个量子位和第二组量子位之间的交叉处提供通信耦合的所有耦合器切换为关闭，以及

使用所生成的当前时期状态动作对来修改在第二组量子位中的至少一个偏置。

项20.根据项17所述的方法，其中，使用所生成的未来时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，包括：

使用所生成的未来时期状态动作对来修改在第二组量子位中的至少一个偏置。

项21.根据项17所述的方法，其中，对包括未来时期状态和任何可能的动作的多个所有状态动作对执行随机优化测试，包括：

将在第一组量子位中的一个量子位和第二组量子位中的量子位之间的交叉处提供通信耦合的所有耦合器切换为接通；

使用对应于未来时期状态动作对的未来时期状态来修改第二组量子位中的至少一个偏置；

执行量子采样以获得对应于第一组量子位的经验均值；以及

通过根据对应于第一组量子位的所获得的经验均值的分布向未来时期状态分配动作来使用数字计算机更新未来时期状态的策略。

项22.根据项1至21中任一项所述的方法，其中，停止标准包括达到最大数量的训练步骤。

项23.根据项1至21中任一项所述的方法，其中，停止标准包括达到最大运行时间。

项24.根据项1至21中任一项所述的方法，其中，停止标准包括耦合和局部场的权重和偏置的函数的收敛。

项25.根据项1至21中任一项所述的方法，其中，停止标准包括将策略收敛到固定策略。

项26.根据项1至25中任一项所述的方法，其中，提供策略包括以下至少一个：向与数字计算机交互的用户显示策略；将策略存储在数字计算机中并将策略发送到可操作地连接到数字计算机的另一处理单元。

项27.根据项1至26中任一项所述的方法，其中，数字计算机包括存储器单元；进一步其中，初始化数据是从数字计算机的存储器单元获得的。

项28.根据项1至26中任一项所述的方法，其中，初始化数据是从与数字计算机交互的用户或与数字计算机可操作地连接的远程处理单元中的一个获得的。

项29.一种数字计算机，包括

中央处理单元；

显示装置；

通信端口，用于将数字计算机可操作地连接到采样装置，采样装置耦合到数字计算机和采样装置控制系统；

存储器单元，包括用于改进随机控制问题的策略的应用程序，随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期表征，其中，基础随机状态处理的演化取决于策略中的多个动作，应用程序包括：

用于使用耦合到数字计算机和采样装置控制系统的采样装置的指令，采样装置获得表示玻尔兹曼机的样本配置的数据，玻尔兹曼机包括多个节点、多个耦合器、多个偏置、多个耦合权重，以及横向场强，每个偏置对应于多个节点中的一个节点，每个耦合权重对应于多个耦合器中的一个耦合器；

用于使用数字计算机获得包括随机控制问题的动作集合、状态集合、奖励结构和随机控制问题的初始策略的初始化数据的指令，策略包括对于每个状态选择至少一个动作；

用于使用数字计算机和采样装置控制系统将分别表示玻尔兹曼机的每个耦合器和每个节点的初始权重和偏置以及横向场强的数据分配给采样装置的指令；

用于以下操作直到满足停止标准的指令：

使用数字计算机生成当前时期状态动作对，

使用数字计算机和采样装置控制系统使用所生成的当前时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，

使用数字计算机获得未来时期状态动作对，其中，状态是通过随机状态处理获得的，并且进一步其中，获得动作包括对包括未来时期状态和任何可能的动作的多个所有状态动作对进行随机优化测试，从而在未来时期提供动作并更新用于未来时期状态的策略，

利用数字计算机使用第二采样经验均值在未来时期状态动作处获得Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，以及

在满足停止标准时使用数字计算机提供策略的指令。

项30.一种用于存储计算机可执行指令的非暂时性计算机可读存储介质，计算机可执行指令在被执行时使数字计算机执行用于改进随机控制问题的策略的方法，随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期表征，其中，基础随机状态处理的演化取决于策略中的多个动作，方法包括：

使用耦合到数字计算机和采样装置控制系统的采样装置，采样装置获得表示玻尔兹曼机的样本配置的数据，玻尔兹曼机包括：

多个节点，

多个耦合器，

多个偏置，每个偏置对应于多个节点中的一个节点，

横向场强；

使用数字计算机和采样装置控制系统将分别表示玻尔兹曼机的每个耦合器和每个节点的初始权重和偏置以及横向场强的数据分配给采样装置；

进行以下操作直到满足停止标准：

使用数字计算机生成当前时期状态动作对，

利用数字计算机使用第二采样经验均值获得未来时期状态动作处的Q函数的值的近似，Q函数的值表示未来时期状态动作对的效用，

在满足停止标准时使用数字计算机提供策略。

Claims

1.一种用于改进随机控制问题的策略的方法，所述随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期表征，其中，基础随机状态处理的演化取决于所述策略中的多个动作，所述方法包括：

使用耦合到数字计算机和耦合到采样装置控制系统的采样装置，所述采样装置获得表示玻尔兹曼机的样本配置的数据，所述玻尔兹曼机包括：

多个节点，

多个耦合器，

多个偏置，每个所述偏置对应于所述多个节点中的一个节点，

多个耦合权重，每个所述耦合权重对应于所述多个耦合器中的一个耦合器，以及

横向场强；

使用所述数字计算机获得包括所述随机控制问题的所述动作集合、所述状态集合、所述奖励结构以及所述随机控制问题的初始策略的初始化数据，所述策略包括为每个状态选择至少一个动作；

使用所述数字计算机和所述采样装置控制系统，将分别表示所述玻尔兹曼机的每个所述耦合器和每个所述节点的初始权重和所述偏置以及所述横向场强的数据分配给所述采样装置；

进行以下操作直到满足停止标准：

使用所述数字计算机生成当前时期状态动作对，

使用所述数字计算机和所述采样装置控制系统使用生成的当前时期状态动作对来修改表示没有耦合器或至少一个所述耦合器和至少一个所述偏置的数据，

执行对应于所述当前时期状态动作对的采样以获得第一采样经验均值，

利用所述数字计算机使用所述第一采样经验均值获得所述当前时期状态动作处的Q函数的值的近似，所述Q函数的值表示所述当前时期状态动作对的效用，

使用所述数字计算机获得未来时期状态动作对，其中，所述状态是通过随机状态处理获得的，并且进一步其中，获得所述动作包括：对包括所述未来时期状态和任何可能的动作的多个所有状态动作对执行随机优化测试，从而在所述未来时期提供所述动作并更新用于所述未来时期状态的策略，

使用所述数字计算机和所述采样装置控制系统，使用所生成的未来时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，

执行对应于所述未来时期状态动作对的采样以获得第二采样经验均值，

利用所述数字计算机使用所述第二采样经验均值获得所述未来时期状态动作处的所述Q函数的值的近似，所述Q函数的值表示所述未来时期状态动作对的效用，以及

利用所述数字计算机使用在当前时期状态动作对处生成的所述Q函数的值的近似和所述第一采样经验均值，以及使用所述奖励结构获得的在所述当前时期状态动作对处的对应奖励，来分别更新所述玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置；并且

在满足所述停止标准时使用所述数字计算机提供所述策略。

2.根据权利要求1所述的方法，其中，所述采样装置包括量子处理器，并且其中，所述采样装置控制系统包括量子装置控制系统；进一步其中，所述量子处理器耦合到所述数字计算机和所述量子装置控制系统，进一步其中，所述量子处理器包括多个量子位和多个耦合器，每个所述耦合器用于在两个量子位的交叉处提供通信耦合。

3.根据权利要求1所述的方法，其中，所述采样装置包括被配置为从光学能量源接收能量并生成多个光学参量振荡器的光学装置，以及多个耦合装置，所述多个耦合装置中的每一个能够控制地耦合所述多个光学参量振荡器中的一个光学参量振荡器。

4.根据权利要求1所述的方法，其中，所述采样装置包括中央处理单元和耦合到所述中央处理单元并实现所述玻尔兹曼机的存储器单元，其中，所实现的玻尔兹曼机是由零值横向场强表征的经典玻尔兹曼机；进一步其中，所述存储器单元包括用于获得分别表示所述经典玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序，进一步其中，所述应用程序适用于执行所述经典玻尔兹曼机的模拟量子退火。

5.根据权利要求1所述的方法，其中，所述采样装置包括中央处理单元和耦合到所述中央处理单元并实现所述玻尔兹曼机的存储器单元，其中，所实现的玻尔兹曼机是由非零值横向场强表征的量子玻尔兹曼机；进一步其中，所述存储器单元包括用于获得分别表示所述量子玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序；进一步其中，所述应用程序适用于执行所述量子玻尔兹曼机的模拟量子退火。

6.根据权利要求5所述的方法，其中，执行所述量子玻尔兹曼机的所述模拟量子退火提供表示所述量子玻尔兹曼机的有效哈密顿量的多个所述样本配置。

7.根据权利要求1所述的方法，其中，所述采样装置包括中央处理单元和耦合到所述中央处理单元并实现所述玻尔兹曼机的存储器单元，其中，所实现的所述玻尔兹曼机是由零值横向场强表征的经典玻尔兹曼机；进一步地，其中，所述存储器单元包括用于获得分别表示所述经典玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序，进一步其中，所述应用程序适用于对与所述经典玻尔兹曼机相对应的Fortuin-Kasteleyn随机簇表示的多个实例进行采样，从而提供所述Fortuin-Kasteleyn随机簇表示中的簇的数目的近似。

8.根据权利要求1所述的方法，其中，所述采样装置包括中央处理单元和耦合到所述中央处理单元并实现所述玻尔兹曼机的存储器单元，其中，所实现的玻尔兹曼机是由非零值横向场强表征的量子玻尔兹曼机；进一步其中，所述存储器单元包括用于获得分别表示所述量子玻尔兹曼机的每个耦合器和每个节点的每个权重和每个偏置的数据的应用程序；进一步其中，所述应用程序适用于对与所述量子玻尔兹曼机相对应的Fortuin-Kasteleyn随机簇表示的多个实例进行采样，从而提供所述Fortuin-Kasteleyn随机簇表示中的簇的数目的近似。

9.根据权利要求2、3、4和5中任一项所述的方法，其中，在所述当前时期和所述未来时期两者获得所述Q函数的值的近似包括：沿着测量轴从所述采样装置获得所述玻尔兹曼机的多个配置样本，并使用所述数字计算机计算所述玻尔兹曼机的自由能的经验近似。

10.根据权利要求2和5中任一项所述的方法，其中，在所述当前时期和所述未来时期两者获得所述Q函数的值的所述近似包括：沿着测量轴从所述采样装置获得所述玻尔兹曼机的多个样本配置，从所获得的样本配置构造表示所述量子玻尔兹曼机的有效哈密顿量的多个配置的样本，并使用所述数字计算机计算所述量子玻尔兹曼机的自由能的经验近似。

11.根据权利要求6所述的方法，其中，在所述当前时期和所述未来时期两者获得所述Q函数的值的近似包括从所述采样装置获得表示所述量子玻尔兹曼机的所述有效哈密顿量的所述多个配置的样本，并使用所述数字计算机计算所述量子玻尔兹曼机的自由能的经验近似。

12.根据权利要求8所述的方法，其中，在所述当前时期和所述未来时期两者获得所述Q函数的值的近似包括：从所述采样装置获得与所述量子玻尔兹曼机相对应的所述Fortuin-Kasteleyn随机簇表示中的簇的所述数目的近似，并使用所述数字计算机计算所述量子玻尔兹曼机的自由能的经验近似。

13.根据权利要求2、3、4和5中任一项所述的方法，其中，计算对应于所述节点的第一经验均值和第二经验均值两者包括：沿着测量轴从所述采样装置获得所述量子或所述经典玻尔兹曼机中的一个的多个配置的样本，并使用所述数字计算机来计算所述节点的经验均值的近似。

14.根据权利要求6所述的方法，其中，计算对应于所述节点的第一经验均值和第二经验均值两者包括：从所述采样装置获得所述玻尔兹曼机的有效哈密顿量的多个配置的样本，并使用所述数字计算机来计算所述节点的经验均值的近似。

15.根据权利要求1所述的方法，其中，对所述多个所有状态动作对执行所述随机优化测试包括：

使用所述数字计算机和所述采样装置控制系统使用对应于所述未来时期状态的每个状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，

执行与对应于所述未来时期状态的每个状态动作对相对应的采样以提供经验均值，使用所述数字计算机获得对应于所述未来时期状态的每个状态动作对的所述Q函数的值的近似，

使用与对应于所述未来时期状态的每个状态动作对相对应的所有近似Q函数的值，利用所述数字计算机，从相应的分布中采样以更新所述未来时期状态的所述策略。

16.根据权利要求1所述的方法，其中，对所述多个所有状态动作对执行所述随机优化测试包括：

获得温度参数；

获得所述未来时期状态；

对与具有状态变量的所述Q函数的值的近似相关联的玻尔兹曼分布进行采样，所述状态变量在所述未来时期状态和所述提供的温度下是固定的。

17.根据权利要求2所述的方法，其中，所述量子处理器的所述多个量子位包括：

第一组量子位；

第二组量子位；并且

其中，所述量子处理器的所述多个耦合器包括：

至少一个耦合器，所述至少一个耦合器中的每一个用于在所述第一组量子位中的一个量子位和所述第二组量子位中的至少一个量子位之间的交叉处提供通信耦合，以及

多个耦合器，所述多个耦合器中的每一个用于在所述第二组量子位中的一个量子位和所述第二组量子位中的其他量子位之间的交叉处提供通信耦合。

18.根据权利要求17所述的方法，其中，所述第一组量子位表示所述随机控制问题的动作集合。

19.根据权利要求17所述的方法，其中，使用所生成的当前时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，包括：

将在所述第一组量子位中的一个量子位和所述第二组量子位之间的交叉处提供通信耦合的所有耦合器切换为关闭，以及

使用所生成的当前时期状态动作对来修改在所述第二组量子位中的至少一个偏置。

20.根据权利要求17所述的方法，其中，使用所生成的未来时期状态动作对来修改表示没有耦合器或至少一个耦合器和所述至少一个偏置的数据，包括：

使用所生成的未来时期状态动作对来修改在所述第二组量子位中的至少一个偏置。

21.根据权利要求17所述的方法，其中，对包括所述未来时期状态和任何可能的动作的多个所有状态动作对执行所述随机优化测试，包括：

将在所述第一组量子位中的一个量子位和所述第二组量子位中的量子位之间的交叉处提供通信耦合的所有耦合器切换为接通；

使用对应于所述未来时期状态动作对的未来时期状态来修改所述第二组量子位中的至少一个偏置；

执行量子采样以获得对应于所述第一组量子位的经验均值；以及

通过根据对应于所述第一组量子位的所获得的经验均值的分布向所述未来时期状态分配动作来使用所述数字计算机更新所述未来时期状态的策略。

22.根据权利要求1至21中任一项所述的方法，其中，所述停止标准包括达到最大数量的训练步骤。

23.根据权利要求1至21中任一项所述的方法，其中，所述停止标准包括达到最大运行时间。

24.根据权利要求1至21中任一项所述的方法，其中，所述停止标准包括所述耦合和局部场的权重和偏置的函数的收敛。

25.根据权利要求1至21中任一项所述的方法，其中，所述停止标准包括将所述策略收敛到固定策略。

26.根据权利要求1至25中任一项所述的方法，其中，提供所述策略包括以下至少一个：向与所述数字计算机交互的用户显示所述策略；将所述策略存储在所述数字计算机中并将所述策略发送到可操作地连接到所述数字计算机的另一处理单元。

27.根据权利要求1至26中任一项所述的方法，其中，所述数字计算机包括存储器单元；进一步其中，所述初始化数据是从所述数字计算机的存储器单元获得的。

28.根据权利要求1至26中任一项所述的方法，其中，所述初始化数据是从与所述数字计算机交互的用户或与所述数字计算机可操作地连接的远程处理单元中的一个获得的。

29.一种数字计算机，包括

中央处理单元；

显示装置；

通信端口，用于将所述数字计算机可操作地连接到采样装置，所述采样装置耦合到数字计算机和采样装置控制系统；

存储器单元，包括用于改进随机控制问题的策略的应用程序，所述随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期表征，其中，基础随机状态处理的演化取决于所述策略中的多个动作，所述应用程序包括：

用于使用耦合到所述数字计算机和所述采样装置控制系统的采样装置的指令，所述采样装置获得表示玻尔兹曼机的样本配置的数据，所述玻尔兹曼机包括多个节点、多个耦合器、多个偏置、多个耦合权重，以及横向场强，每个所述偏置对应于所述多个节点中的一个节点，每个耦合权重对应于所述多个耦合器中的一个耦合器；

用于使用所述数字计算机获得包括所述随机控制问题的所述动作集合、所述状态集合、所述奖励结构和所述随机控制问题的初始策略的初始化数据的指令，所述策略包括对于每个状态选择至少一个动作；

用于使用所述数字计算机和所述采样装置控制系统将分别表示所述玻尔兹曼机的每个耦合器和每个节点的初始权重和偏置以及所述横向场强的数据分配给所述采样装置的指令；

用于以下操作直到满足停止标准的指令：

使用所述数字计算机生成当前时期状态动作对，

使用所述数字计算机和所述采样装置控制系统使用所生成的当前时期状态动作对来修改表示没有耦合器或至少一个耦合器和至少一个偏置的数据，

使用所述数字计算机获得未来时期状态动作对，其中，所述状态是通过随机状态处理获得的，并且进一步其中，获得所述动作包括对包括所述未来时期状态和任何可能的动作的多个所有状态动作对进行随机优化测试，从而在所述未来时期提供所述动作并更新用于所述未来时期状态的策略，

利用所述数字计算机使用所述第二采样经验均值在所述未来时期状态动作处获得所述Q函数的值的近似，所述Q函数的值表示所述未来时期状态动作对的效用，以及

在满足所述停止标准时使用所述数字计算机提供所述策略的指令。

30.一种用于存储计算机可执行指令的非暂时性计算机可读存储介质，所述计算机可执行指令在被执行时使数字计算机执行用于改进随机控制问题的策略的方法，所述随机控制问题由动作集合、状态集合、作为状态和动作的函数的奖励结构，以及多个决策时期表征，其中，基础随机状态处理的演化取决于策略中的多个动作，所述方法包括：

使用耦合到数字计算机和采样装置控制系统的采样装置，所述采样装置获得表示玻尔兹曼机的样本配置的数据，所述玻尔兹曼机包括：

多个节点，

多个耦合器，

横向场强；

使用所述数字计算机和所述采样装置控制系统将分别表示所述玻尔兹曼机的每个耦合器和每个节点的初始权重和偏置以及横向场强的数据分配给所述采样装置；

进行以下操作直到满足停止标准：

使用所述数字计算机生成当前时期状态动作对，

利用所述数字计算机使用所述第二采样经验均值获得所述未来时期状态动作处的所述Q函数的值的近似，所述Q函数的值表示所述未来时期状态动作对的效用，

在满足所述停止标准时使用所述数字计算机提供所述策略。