CN111868756B

CN111868756B - 通过强化学习进行量子计算

Info

Publication number: CN111868756B
Application number: CN201880086701.8A
Authority: CN
Inventors: Y.牛; H.内文; V.斯梅良斯基; S.B.卡斯特里洛
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2023-11-03
Anticipated expiration: 2038-01-31
Also published as: KR20200097787A; EP3746953B1; AU2021203130A1; AU2021203130B2; US20200410343A1; KR20240052086A; EP3746953A1; AU2018406532B2; AU2022204185B2; AU2022204185A1; JP2022010223A; CA3088135A1; US11928586B2; EP4209971A1; CN117764184A; AU2018406532A1; CN111868756A; JP6977176B2; JP2021512395A; KR102657471B1

Abstract

用于设计用于使用量子硬件实施量子门的量子控制轨迹的方法、系统和装置。在一个方面，一种方法包括以下动作：将量子门表示为控制动作序列，以及应用强化学习模型来迭代地调整控制动作序列中的每个控制动作，以确定实施量子门并减少量子门的泄漏、失真和总运行时间的量子控制轨迹，从而提高其在迭代调整期间对控制噪声的性能的鲁棒性。

Description

通过强化学习进行量子计算

技术领域

本说明书涉及量子计算。

背景技术

大规模量子计算机有潜力为某些类别的难题提供快速解决方案。在门模型量子计算机中，计算任务是通过实施通用量子门的序列来执行的，其每个都指定量子计算机演化的轨迹。量子门执行得越快，给定量子设备所拥有的计算能力就越大。

发明内容

本说明书描述了用于使用强化学习设计量子控制轨迹的方法和系统。

一般而言，本说明书中描述的主题的一个创新方面可以在一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的方法中实施，该方法包括以下动作：将量子门表示为控制动作序列；应用强化学习模型来迭代地调整控制动作序列中的每个控制动作，以确定实施量子门并在迭代调整期间减少量子门的泄漏、失真和总运行时间的量子控制轨迹，对于每个迭代，包括：由代理基于量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作；由训练环境使用所确定的控制动作和样本控制噪声将量子系统的当前状态更新为量子系统的后续状态；由代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励(discounted future reward)函数，以及ii)量子系统的更新状态来确定折扣未来奖励；以及由代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。

该方面的其他实施方式包括对应的经典或量子计算机系统、装置和记录在一个或多个计算机存储设备上的计算机程序，各自被配置为执行方法的动作。一个或多个计算机的系统可以被配置为借助在系统上安装软件、固件、硬件或其组合来执行特定的操作或动作，这些软件、固件、硬件或其组合在操作中使得系统执行动作。一个或多个计算机程序可以被配置为借助包括指令来执行特定的操作或动作，当指令由数据处理装置执行时，使得该装置执行这些动作。

前述和其他实施方式可以各自可选地单独或组合地包括一个或多个以下特征。在一些实施方式中，代理包括第一神经网络，并且其中，基于量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作包括：提供表示量子系统的当前状态的参数值的向量作为第一神经网络的输入；以及获得表示控制动作的参数值的向量作为第一神经网络的输出。

在一些实施方式中，表示控制动作的参数值包括表示控制动作的每个分量的相应概率分布的值，当被代理采样时，定义控制动作。

在一些实施方式中，由代理并基于所确定的折扣未来奖励来调整一个或多个控制轨迹参数的值包括：调整第一神经网络，包括基于所确定的折扣未来奖励来调整第一神经网络参数的值；使用调整后的第一神经网络来确定调整后的用于迭代的控制动作；以及使用调整后的用于迭代的控制动作来调整用于迭代的控制轨迹参数的值。

在一些实施方式中，调整第一神经网络参数的值包括应用梯度下降方法，其学习率是由所确定的折扣未来奖励来确定的。

在一些实施方式中，代理包括被配置为确定折扣未来奖励的第二神经网络。

在一些实施方式中，使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数，以及ii)量子系统的更新状态来确定折扣未来奖励包括：基于更新的通用控制成本函数来评估控制动作序列中的未来位置的加权通用控制成本函数的总和。

在一些实施方式中，应用强化模型还包括在每次迭代时通过以下步骤来训练第一神经网络和第二神经网络：从代理并从不同的可能控制轨迹中，对i)不同控制轨迹下的量子态的完整序列，以及ii)不同控制轨迹的通用控制成本函数值的完整序列进行采样；确定与采样的量子态和通用控制成本函数值相对应的采样的折扣未来奖励；将第二神经网络拟合到采样的折扣未来奖励；以及根据从采样中估计的、利用由对折扣未来奖励进行编码的第二神经网络所确定的学习率的梯度来拟合第一神经网络。

在一些实施方式中，应用强化学习模型来调整控制动作序列中的每个控制动作以确定实施量子门的量子控制轨迹包括执行策略梯度方法。

在一些实施方式中，每个迭代被重复多次，直到调整后的代理参数的值收敛到预定义的限制内。

在一些实施方式中，由训练环境使用所确定的控制动作和样本控制噪声将量子系统的当前状态更新为量子系统的后续状态包括：基于随机采样的量子硬件噪声来调整表示控制动作的参数值的向量；使用调整后的参数值的向量来求解实现当前控制动作的时间相关哈密顿演化；以及使用求解的时间相关哈密顿演化来更新量子系统的状态。

在一些实施方式中，基于随机采样的量子硬件噪声来调整表示控制动作的参数值的向量包括：对控制噪声进行随机采样；以及将随机采样的噪声添加到参数值的向量的每个条目。

在一些实施方式中，对控制噪声进行随机采样包括根据具有预定方差的零均值高斯分布对不同控制幅度的幅度波动进行采样。

在一些实施方式中，量子硬件包括一个或多个量子位，并且其中，控制噪声包括由i)量子位非谐性、ii)量子位失谐幅度、iii)微波控制幅度和iv)双量子位耦合脉冲幅度中的一个或多个引起的随机量子硬件噪声。

在一些实施方式中，使用调整后的参数值的向量来求解实现当前控制动作的时间相关哈密顿演化包括使用调整后的参数值的向量来评估薛定谔方程。

在一些实施方式中，第一神经网络包括多个全连接神经网络层。

在一些实施方式中，第二神经网络包括多个全连接神经网络层。

在一些实施方式中，该方法还包括使用设计的量子控制轨迹来实施量子门。

本说明书中描述的主题可以以特定方式实施，以便实现一个或多个以下优点。

如本说明书所述，通过强化学习实施量子计算的系统可以提高量子计算设备或混合经典量子计算设备的性能和计算效率。例如，执行本文描述的技术的量子计算设备可以实施的量子门针对不可避免的量子硬件控制噪声具有减少的误差和运行时间、增加的量子门保真度以及提高的鲁棒性，该量子硬件控制噪声导致计算过程的量子动力学中的未知波动。

作为另一示例，可以确定量子门运行时间和保真度之间的平衡。另外，通过在缩短的门运行时间内实施高保真量子门，近期的量子计算设备可以用来解决经典计算机无法企及的难题。此外，本说明书中描述的技术的通用性提供了量子设备的提高的可控性。

如本说明书中所述，通过强化学习实施量子计算的系统可以在一般的时间相关哈密顿演化期间抑制不同频率范围内的所有种类的泄漏误差，并且不限于抑制来自单个源的泄漏误差。此外，抑制了所有种类的泄漏误差，而不需要对哈密顿调制的允许形式进行硬约束，这削弱了量子控制的通用性。

如本说明书中所述，通过强化学习实施量子计算的系统不限于其中环境的物理模型的完整知识为可用的设定。

如本说明书所述，通过强化学习实施量子计算的系统可以实施任意的酉单量子位门和多量子位门。

为方便起见，本说明书中描述的技术被描述为在一个或多个量子位上实现单个量子门。然而，所描述的系统和技术的适用性是完全可扩展的，并且可以扩展到量子门序列的实施方式，其中用于实施门序列的各个控制可以被合并为单个控制，这在计算时间方面提升了速度，同时增加了门序列保真度。

本说明书的主题的一个或多个实施方式的细节在附图和下面的描述中阐述。本主题的其他特征、方面和优点将从说明书、附图和权利要求中变得显而易见。

附图说明

图1描绘了用于设计和实施量子控制轨迹的示例系统。

图2A是传统强化学习模型的图示。

图2B是用于设计量子门控制方案的强化学习模型的图示。

图3是用于设计用于使用量子硬件实施量子门的量子控制轨迹的示例过程的流程图。

图4是应用强化学习模型来确定量子控制轨迹的示例迭代的流程图。

图5是使用所确定的控制动作和样本控制噪声来更新量子系统的当前状态的示例过程的流程图。

各个附图中相同的附图标记和名称表示相同的元件。

具体实施方式

在门模型量子计算中，计算任务由通用量子门的序列来完成，每个通用量子门都指定量子计算机演化的轨迹。一般地，量子门或量子门序列执行得越快，量子计算机所拥有的计算能力就越大。

实现快速、高保真量子门的主要障碍是泄漏误差。泄漏误差可以被定义为以量子位状态进行编码的量子信息从预定义的计算子空间到非计算子空间的泄漏。有两种不同的泄漏误差源：相干泄漏误差和非相干泄漏误差。相干泄漏误差是由量子位的计算子空间和非计算子空间之间的直接耦合引起的。非相干泄漏误差是由系统哈密顿量在比绝热性条件所允许的更短的时间间隔内的调制引起的。用于设计控制轨迹以实现快速、高保真量子门的现有方法通常不会两种泄漏源都考虑，而是分开考虑不同类型的泄漏。

实现快速、高保真量子门的另一主要障碍是不可避免的量子硬件控制噪声，它会导致计算过程中量子动力学的未知波动。量子硬件控制噪声可以被定义为由量子位非谐性(anharmonicity)、量子位失谐幅度(detuning amplitude)、微波控制幅度和/或量子位耦合脉冲幅度中的一个或多个引起的噪声。用于设计控制序列以实现快速、高保真量子门的现有方法通常不考虑这种随机控制噪声，因此不能直接应用于实际的实验设定。相反，对于提高量子控制序列对随机噪声的鲁棒性的努力集中在闭环反馈控制优化上。这些方法需要对量子系统进行频繁的测量，这在现有的量子计算架构中实现起来可能很昂贵。可替换地，现有的开环优化方法通过分析控制曲率来解决控制的鲁棒性，这需要计算控制Hessian，并且对于解决多量子位控制问题是难以解决的。

本说明书描述了用于应用强化学习技术来设计近期的量子计算机的量子门控制方案的方法和系统。为了最小化泄漏误差，强化学习模型应用惩罚完整泄漏误差、失真和现实控制约束的通用量子控制成本函数作为奖励函数。为了提供对噪声的总体保真度的鲁棒性，强化学习模型包括将随机噪声整合到控制幅度中的随机训练环境。该方法和系统可以普遍应用于任意量子门和多量子位系统。

示例操作环境

图1描绘了用于设计和实施量子控制轨迹的示例系统100。示例系统100是实施为在一个或多个位置的一个或多个经典计算机或量子计算设备上的经典或量子计算机程序的系统的示例，其中可以实施下面描述的系统、组件和技术。

系统100包括与经典处理器104进行数据通信的量子硬件102。系统100被配置为使用经典处理器104和量子硬件102结合量子计算来执行经典计算。

量子硬件102包括一个或多个量子位106。量子位106可以包括可以在初始状态下有效准备并经由量子门的应用进行操作的量子位。量子硬件102中包括的量子位的物理实现的类型可以变化。例如，在一些实施方式中，量子硬件102可以包括超导量子位，例如，超导电荷量子位、超导通量量子位或超导相位量子位。在其他实施方式中，量子硬件102可以包括通过自旋(例如，电子自旋、原子核自旋或原子自旋)实现的量子位。通常，量子位106可以是频率可调的。

量子硬件102可以包括一组量子位频率控制线，例如，其中每个量子位频率控制线对应于单独的量子位。量子位频率控制线控制量子位106的频率，例如，其中每个量子位频率控制线控制其对应的量子位的频率。

量子硬件102可以包括一个或多个激励驱动线。为方便起见，在图1中示出了一个驱动线，例如，驱动线108，然而，在一些实施方式中，量子硬件可以包括多个驱动线，例如，一个驱动线对应于量子位106中的每一个。一个或多个激励驱动线提供量子位106的激励控制。一个或多个激励驱动线可以被配置为运行激励脉冲(本文也称为控制脉冲)，例如，控制脉冲108，其在不同频率具有不同量子门。可以在一个或多个激励驱动线上将每个量子位朝向或远离这些频率进行调谐。

量子硬件102可以包括一组耦合器。该组耦合器中的每个耦合器将对应的量子位耦合到激励驱动线。耦合器可以是任何类型的耦合器，例如，电容耦合器。为了实现电容耦合，微波线可以邻近量子位电容器而运行。

量子硬件102包括量子位控制设备110。控制设备110包括被配置为对一个或多个量子位106进行操作的设备。例如，控制设备110可以包括用于实施量子逻辑门的硬件，例如，控制脉冲发生器112，该控制脉冲发生器112生成将在一个或多个激励驱动线上运行的激励脉冲。在一些实施方式中，控制脉冲发生器112可以是微波控制设备。另外，控制设备112可以包括用于对一个或多个量子位106执行测量的硬件，例如，振荡器。

经典处理器104被配置为执行量子控制优化过程。特别地，经典处理器104被配置为设计用于实施相应量子门的控制脉冲序列的控制轨迹。例如，经典处理器104可以接收指定特定酉量子门或多个酉(unitary)量子门的序列的数据，例如，输入数据114。然后，经典处理器104可以设计控制轨迹，该控制轨迹可以由量子位控制设备110(例如，控制脉冲发生器112)生成并且被应用于量子位106中的一个或多个。

由经典处理器104设计的控制轨迹可以用于实施具有减少的泄漏误差、门失真和总的门运行时间的任意酉量子门，同时对硬件控制噪声是鲁棒的。

为了设计这样的控制轨迹，经典处理器104将量子门表示为控制动作序列。经典处理器104包括强化学习模型118，该强化学习模型118迭代地调整控制动作序列中的每个控制动作，以确定实施量子门并在迭代调整期间减少量子门的泄漏、失真和总运行时间的量子控制轨迹。表示由强化学习模型118确定的量子控制轨迹的数据，例如，输出数据116，可以从经典处理器104发送到量子硬件102。下面参考图2A和图2B详细描述示例强化学习模型。下面参考图3至图5详细描述用于设计用于使用量子硬件实施量子门的量子控制轨迹的示例过程。

图2A是示例传统强化学习模型200的图示。示例传统强化学习模型200包括代理202和与代理202交互的训练环境204。训练环境是完全可观测的环境。在步骤序列中的每个步骤，代理202从训练环境204接收观测206和奖励208。代理202然后基于接收到的观测206和奖励208从一组可用动作中选择适当的动作210来采取。

代理202向训练环境204提供所选择的动作210。训练环境204更新其状态，并确定与状态更新相关联的奖励212。训练环境使用动作208将所确定的奖励212连同后续观测214一起给予代理202，以用于该步骤序列中的下一步骤。

示例传统强化学习模型200执行强化学习技术来教导代理202采取动作，例如，动作210，其目标是在步骤序列的末尾最大化总体奖励——代理202可能不在每个步骤接收奖励或接收最大奖励。为了接近最佳地行动，代理202必须对其动作的长期后果进行推理，即使这种行为的立即奖励可能是负面的。代理202学习基于它接收到的奖励采取适当的动作——没有监管者在场。

图2B是用于设计量子门控制方案的示例强化学习模型250的图示。示例强化学习模型250包括与训练环境254进行数据通信的代理252。代理252包括策略神经网络253和价值函数神经网络258。训练环境254包括控制噪声积分器256和时间相关哈密顿演化求解器270。对于控制动作序列中的每个控制动作，该控制动作序列表示对应的量子门，代理252接收表示量子状态的数据。数据可以包括表示定义状态的状态变量值的数据。代理252使用策略神经网络253和价值函数神经网络258来处理接收到的数据。

策略神经网络253是深度神经网络，例如，具有一个或多个全连接层。策略神经网络253被配置为处理接收到的表示量子状态的输入，并生成表示哈密顿控制的控制动作的相应输出。也就是说，策略神经网络253对量子控制轨迹进行编码，并捕捉常规控制优化技术无法检测到的随机控制噪声下的最优控制动作的规律。这种规律通常有助于更有效的优化，并且还能够将学习从旧目标转移到新目标。

代理252向训练环境254提供表示生成的控制动作262的数据和接收到的表示量子状态260的数据。训练环境254向控制噪声积分器256提供表示生成的控制动作262的数据。控制噪声积分器256对噪声进行随机采样，并将随机采样的噪声提供给时间相关哈密顿演化求解器，该时间相关哈密顿演化求解器生成表示更新的量子状态268的数据。训练环境254使用表示更新的量子状态268的数据来更新通用量子控制成本函数。表示更新的量子状态260和更新的控制成本函数264的数据被提供给代理252，以更新价值函数神经网络258和策略神经网络253。

价值函数神经网络258被配置为处理接收到的输入，以生成表示折扣未来奖励(例如，折扣未来奖励266)的相应输出。也就是说，价值函数神经网络258对与随机环境的所计划的未来交互进行编码，以避免过度拟合策略神经网络253，以及有助于对未来轨迹进行采样，以在策略神经网络253上执行优化。

对硬件进行编程

图3是用于设计用于使用量子硬件实施量子门的量子控制轨迹的示例过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个经典或量子计算设备的系统执行。例如，根据本说明书适当编程的图1的系统100可以执行过程300。

系统将量子门表示为控制动作序列(步骤302)。量子门可以是在一个量子位上进行操作的单量子位门，也可以是在多个量子位上进行操作的多量子位门。将量子门表示为控制动作序列包括将量子门表示为酉变换序列，其中酉变换序列中的每个元素由相应的控制动作来确定。示例控制动作包括微波控制脉冲，该微波控制脉冲可以被应用于量子硬件以实施对应的酉变换。

系统应用强化学习模型来迭代地调整控制动作序列中的控制动作，以确定实施量子门并在迭代调整期间减少量子门的泄漏、失真和总运行时间的量子控制轨迹(步骤304)。应用强化学习模型可以包括应用策略梯度方法。上文参考图2B描述了示例强化学习模型。下面参考图4和图5详细描述应用强化学习模型来确定量子控制轨迹的示例迭代。

系统使用设计的量子控制轨迹来实施量子门。

图4是应用强化学习模型来确定量子控制轨迹的示例迭代400的流程图。为方便起见，过程400将被描述为由位于一个或多个位置的一个或多个经典或量子计算设备的系统执行。例如，根据本说明书适当编程的图1的系统100可以执行过程400。

系统通过强化学习代理基于量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作(步骤402)。如上文参考图1和图2所述，在一些实施方式中，代理可以包括策略神经网络(第一神经网络)，该策略神经网络被配置为处理表示量子状态的输入，以生成表示可以用于更新量子状态的控制动作的输出，如以下参考步骤404所述。在这些实施方式中，系统可以通过提供表示量子系统的当前状态的参数值的向量(例如，状态变量)作为第一神经网络的输入，并且获得表示控制动作的参数值的向量作为第一神经网络的输出，来确定用于迭代的控制动作。

在一些实施方式中，由第一神经网络生成的输出可以包括表示控制动作的每个分量的概率分布的值的向量，当被代理采样时，定义控制动作。控制动作的示例分量包括系统哈密顿非谐性、模式耦合强度、失谐、或微波脉冲强度。

系统通过训练环境使用所确定的控制动作和样本控制噪声，将量子系统的当前状态更新为量子系统的后续状态(步骤404)。下面参考图5详细描述量子系统的当前状态的更新。

系统使用量子系统的更新状态来更新训练环境所使用的通用量子控制成本函数作为强化学习折扣未来奖励函数。通用控制成本函数包含由用于迭代的控制动作所确定的酉变换形式的惩罚项，并且取决于量子系统的状态。这种惩罚项为系统提供了量子系统的增加的可控性以及量子门的实施方式。

为了抑制导致量子信息丢失到环境中的总泄漏误差，通用量子控制成本函数包括量子位泄漏惩罚项L_TSWTLB，该惩罚项L_TSWTLB表示在时间相关哈密顿演化期间的相干量子位泄漏和非相干量子位泄漏两者。

为了在每次哈密顿演化的开始和结束时在计算基础上方便地准备和测量量子位，需要表示量子位计算子空间内的时间相关哈密顿耦合的项和表示量子位计算子空间与较高能量子空间的控制脉冲耦合的项在两个边界处消失。这种控制约束可以通过向总成本函数添加边界控制约束惩罚项来实施。例如，在gmon哈密顿量的情况下，系统可以将通用量子控制成本函数定义为包括边界控制约束惩罚项[δ(t)²|_t＝0.T+f(t)²|_t＝0.T]。

为了减少总的酉量子门运行时间T——近期的量子设备的理想属性——通用量子控制成本函数还可以包括总运行时间惩罚项。

为了减少酉变换U(T)的失真——实际酉变换的保真度与其最大值1之间的差——通用量子控制成本函数还可以包括保真度惩罚项1-F(U(T))。

在下面的等式(1)中给出了gmon哈密顿量的示例通用量子成本函数。

C(α,β,γ,κ)＝α[1-F(U(T)]+βL_TSMTLB+γ[δ(t)²|_t＝0.T+f(t)²|_t＝0.T]+κT (1)

在等式(1)中，1-F(U(T))表示具有由给出的保真度的失真惩罚项，其中U(T)表示酉变换，并且U_target表示酉变换的预期动作(例如，在没有泄漏误差或控制噪声的情况下)。

在等式(1)中，L_TSMTLB表示量子位泄漏惩罚项，并且由下式给出

其中T表示总的门运行时间，Δ表示两个最低能量本征态之间的能隙，并且表示量子系统的有效哈密顿量的块非对角分量(block-off-diagonalcomponent)，其中直接耦合泄漏误差被抑制到给定的阶。

泄漏惩罚项是通过发展广义的时间相关施里弗-沃尔夫变换(Schrieffer-Wolfftransformation，TSWT)而用公式表示的。泄漏界限利用计算子空间和不需要的较高能量子空间之间的有益虚拟跃迁，同时提供在整个时间相关哈密尔顿演化中由共振(on-resonant)耦合和非共振(off-resonant)耦合两者引起的直接耦合(相干)和非绝热(adiabatic)(非相干)泄漏误差两者的上限。

为了推导出泄漏界限，一般的时间相关施里弗-沃尔夫变换(TSWT)被用公式表示，并且给出其解为任何给定的阶，例如，二阶。广义TSWT提供了在高维子空间中支持的旋转基础(rotated basis)，其中直接耦合泄漏误差被抑制到给定的阶。在量子控制过程的开始和结束时，这种旋转基础与量子位基础(quabit basis)重合，以实现方便的状态初始化和读出。与直接耦合泄漏相对应的第一泄漏界限使用广义TSWT来用公式表示。

第二泄漏界限通过将绝热定理从纯态推广到能量子空间来用公式表示。这允许时间相关哈密尔顿演化在不同的子空间之内和之间发生。广义绝热定理提供了在通用的时间相关哈密顿演化期间以TSWT基础的非绝热(非相干)泄漏误差的上限。

因为直接耦合泄漏误差由非共振频率分量决定，而非绝热泄漏误差由共振频率分量决定，所以第一泄漏界限和第二泄漏界限可以在通用成本函数泄漏惩罚项中被组合，以提供由非共振泄漏贡献和共振泄漏贡献两者引起的所有泄漏误差源的上限。

在等式(1)中，[δ(t)²|_t＝0.T+f(t)²|_y＝0.T]表示控制约束惩罚项，其中δ表示失谐，并且f表示微波脉冲强度。

在等式(1)中，T表示总的门运行时间，并且α惩罚门失真，β惩罚来自泄漏界限的所有泄漏误差源L_TSMTLB，γ惩罚对零值边界约束的违反，并且κ惩罚门时间。

系统通过强化学习代理使用i)参考步骤404描述的量子系统的更新状态，以及ii)更新的通用控制成本函数和(步骤406)来确定折扣未来奖励。确定折扣未来奖励包括基于更新的通用控制成本函数来评估控制动作序列中的未来位置的加权通用控制成本函数的总和。例如，对于N个迭代的序列中的第n个迭代，系统通过评估控制动作序列的位置n+1、n+2、…、N的加权通用控制成本函数的总和来确定折扣未来奖励。折扣未来奖励为由强化学习代理确定的控制动作提供计划的总控制成本，即，指示直到当前步骤n及其未来计划的酉变换的部分序列的保真度的度量。

系统通过代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值(步骤408)。在代理包括策略神经网络的情况下，调整用于迭代的一个或多个控制轨迹参数的值包括通过基于所确定的折扣未来奖励调整策略神经网络的参数来调整策略神经网络。这可以包括应用政策梯度方法。例如，这可以包括应用梯度下降方法，其学习率由所确定的折扣未来奖励来定义。然后，通过调整后的策略神经网络可以确定调整后的用于迭代的控制动作。然后，系统基于调整后的用于迭代的控制动作来调整控制轨迹参数。

系统还可以在每次迭代调整价值函数神经网络(第二神经网络)，即，应用强化模型可以包括在每次迭代训练策略神经网络和价值函数神经网络两者。这可以通过从代理和从不同可能的控制轨迹中对i)不同控制轨迹下的量子状态的完整序列，以及ii)不同控制轨迹的通用控制成本函数值的完整序列进行采样来实现。然后，系统可以确定与采样的量子状态和通用控制成本函数值相对应的采样的折扣未来奖励。然后，系统可以将第二神经网络拟合到采样的折扣未来奖励，并且根据从采样中估计的、利用由对折扣未来奖励进行编码的第二神经网络所确定的学习率的梯度来拟合第一神经网络。

通过使用所确定的折扣未来奖励训练强化学习代理，可以奖励该代理以输出产生量子控制轨迹的控制动作，该量子控制轨迹可以用于实施具有减少的泄漏、失真和总运行时间的量子门，即最优量子控制轨迹。通过多次重复过程400，强化学习代理可以改进其输出的控制动作，即，生成增加折扣未来奖励的控制动作。

在一些实施方式中，过程400可以重复，直到代理参数的调整后的值收敛到预定义的限制内。也就是说，可以重复每个迭代，以便将强化代理参数从初始值(例如，随机初始化的值)调整到训练值。基于与量子轨迹的设计相关联的满足条件，例如，当门的保真度达到阈值并且上文参考通用控制成本函数描述的边界约束在预定义的精度内时，可以由训练环境来执行确定代理参数是否收敛到预定义的限制内。

图5是用于使用所确定的控制动作和样本控制噪声来更新量子系统的当前状态的示例过程500的流程图。为方便起见，过程500将被描述为由位于一个或多个位置的一个或多个经典或量子计算设备的系统执行。例如，根据本说明书适当编程的图1的系统100可以执行过程500。

系统基于随机采样的量子硬件噪声δ来调整表示控制动作的参数值的向量(步骤502)。例如，系统可以通过根据具有预定方差的零均值高斯分布对不同控制幅度的幅度波动进行采样来对控制噪声进行随机采样。然后，系统可以将随机采样的控制噪声添加到参数值的向量的每个条目。

例如，对于包括两个相互作用的gmon电路的量子系统，如下面旋转波近似中的哈密顿量所给出的，

系统可以通过将从0.1-3.5Mhz的方差范围的零均值高斯分布中采样的幅度波动添加到某个离散时间步骤t_k的控制幅度η→η+δη,g(t_k)→g(t_k)+δg(t_k),δ_j(t_k)→δ_j(t_k)+δδ_j(t_k),f_j(t_k)→f_j(t_k)+δf_j(t_k)，来调整表示控制动作的参数值的向量，其中η表示非谐性，g表示双模耦合，δ_j表示失谐，并且f_j表示微波脉冲强度。

系统使用调整后的参数值的向量来求解实现当前控制动作的时间相关哈密顿演化(步骤504)。这可以包括使用调整后的参数值的向量来评估薛定谔方程，例如，评估其中U_n表示量子系统的当前状态。

系统使用求解的时间相关哈密顿演化来更新量子系统的状态(步骤506)。也就是说，系统设置然后，更新的量子状态U_n+1可以被提供给在用于处理的代理中包括的价值函数神经网络(第二神经网络)，如上面参考图4所描述的。

在本说明书中描述的数字和/或量子主题以及数字功能运算和量子运算的实施方式可以在数字电子电路系统、合适的量子电路系统中实施，或更一般地，在量子计算系统中、在有形体现的数字和/或量子计算机软件或固件中、在数字和/或量子计算机硬件中实施，包括在本说明书中公开的结构及其结构等价物中实施，或者在它们中的一个或多个的组合中实施。术语“量子计算系统”可以包括但不限于量子计算机、量子信息处理系统、量子密码系统或量子模拟器。

本说明书中描述的数字和/或量子主题的实施方式可以被实施为一个或多个数字和/或量子计算机程序，即编码在有形非暂时性存储介质上的数字和/或量子计算机程序指令的一个或多个模块，以用于由数据处理装置执行或控制数据处理装置的操作。数字和/或量子计算机存储介质可以是机器可读存储设备、机器可读存储衬底、随机或串行存取存储器设备、一个或多个量子位、或者它们中的一个或多个的组合。可替换地或附加地，程序指令可以被编码在能够对数字和/或量子信息进行编码的人工生成的传播信号上，例如，机器生成的电、光或电磁信号，其被生成来对数字和/或量子信息进行编码，以用于发送到合适的接收器装置以供数据处理装置执行。

术语量子信息和量子数据是指由量子系统携带、保存或存储在量子系统中的信息或数据，其中最小的非平凡(non-trivial)系统是量子位，即定义量子信息单位的系统。应当理解，术语“量子位”涵盖在对应的上下文中可以适当地近似为两级系统的所有量子系统。这种量子系统可以包括多级系统，例如，具有两级或更多级的系统。举例来说，这样的系统可以包括原子、电子、光子、离子或超导量子位。在许多实施方式中，计算基础状态用基态和第一激发态来标识，然而，应当理解，计算状态用更高级别的激发态来标识的其他设置也是可能的。术语“数据处理装置”是指数字和/或量子数据处理硬件，并且涵盖用于处理数字和/或量子数据的所有种类的装置、设备和机器，例如，包括可编程数字处理器、可编程量子处理器、数字计算机、量子计算机、多数字和量子处理器或计算机及其组合。该装置还可以是或还包括专用逻辑电路系统，例如，FPGA(field programmable gate array，现场可编程门阵列)、ASIC(application-specific integrated circuit，专用集成电路)、或量子模拟器，即，被设计成模拟或产生关于特定量子系统的信息的量子数据处理装置。特别地，量子模拟器是不具备执行通用量子计算的能力的特殊用途的量子计算机。除了硬件之外，该装置可以可选地包括为数字和/或量子计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

数字计算机程序也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码，其可以以任何形式的编程语言编写，包括编译或解释语言、或声明性或过程性语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或适用于在数字计算环境中使用的其他单元。量子计算机程序，也可以被称为或描述为程序、软件、软件应用、模块、软件模块、脚本或代码，其可以以任何形式的编程语言编写，包括编译或解释语言、或声明性或程序性语言，并被翻译成合适的量子编程语言，或者可以用量子编程语言编写，例如，QCL或Quipper。

数字和/或量子计算机程序可以但不需要对应于文件系统中的文件。程序可以被存储在保存其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中，存储在专用于所讨论的程序的单个文件中，或者存储在多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。数字和/或量子计算机程序可以被部署为在一个数字或一个量子计算机上或者在位于一个站点或者跨多个站点分布并且通过数字和/或量子数据通信网络互连的多个数字和/或量子计算机上执行。量子数据通信网络被理解为可以使用量子系统(例如，量子位)发送量子数据的网络。通常，数字数据通信网络不能发送量子数据，但是量子数据通信网络可以发送量子数据和数字数据。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程数字和/或量子计算机执行，在适当的情况下与一个或多个数字和/或量子处理器一起操作，执行一个或多个数字和/或量子计算机程序以通过对输入数字和量子数据进行操作并产生输出来执行功能。过程和逻辑流程也可以由专用逻辑电路系统(例如，FPGA或ASIC)或量子模拟器来执行，或者由专用逻辑电路系统或量子模拟器和一个或多个编程的数字和/或量子计算机的组合来执行，并且装置也可以被实施为专用逻辑电路系统(例如，FPGA或ASIC)或量子模拟器。

对于一个或多个数字和/或量子计算机的系统“被配置为”执行特定的操作或动作意味着系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中使得系统执行操作或动作。对于一个或多个数字和/或量子计算机程序被配置为执行特定操作或动作意味着一个或多个程序包括当由数字和/或量子数据处理装置执行时使该装置执行操作或动作的指令。量子计算机可以从数字计算机接收指令，当该指令被量子计算装置执行时，使该装置执行操作或动作。

适于执行数字和/或量子计算机程序的数字和/或量子计算机可以基于通用或专用数字和/或量子处理器或两者，或任何其他类型的中央数字和/或量子处理单元。通常，中央数字和/或量子处理单元将从只读存储器、随机存取存储器或适于发送量子数据(例如，光子)的量子系统、或其组合接收指令和数字和/或量子数据。

数字和/或量子计算机的基本元件是用于执行或运行指令的中央处理单元和用于存储指令和数字和/或量子数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路或量子模拟器补充或并入其中。通常，数字和/或量子计算机还将包括或可操作地耦合以从用于存储数字和/或量子数据的一个或多个大容量存储设备(例如，适于存储量子信息的磁、磁光盘、光盘或量子系统)接收数字和/或量子数据，或将数字和/或量子数据传送到一个或多个大容量存储设备，或两者兼有。然而，数字和/或量子计算机不需要这样的设备。

适用于存储数字和/或量子计算机程序指令和数字和/或量子数据的数字和/或量子计算机可读介质包括所有形式的非易失性数字和/或量子存储器、介质和存储设备，例如，包括半导体存储器设备(例如，EPROM、EEPROM和闪存设备)；磁盘(例如，内部硬盘或可移动磁盘)；磁光盘；CD-ROM盘和DVD-ROM光盘；和量子系统，例如，俘获的原子或电子。应当理解，量子存储器是能够以高保真度和高效率长时间存储量子数据的设备，例如，光-物质界面，其中光用于传输，并且物质用于存储和保存量子数据的量子特征，诸如叠加或量子相干。

本说明书中描述的各种系统或其部分的控制可以在数字和/或量子计算机程序产品中实施，其包括存储在一个或多个非暂时性机器可读存储介质上的指令，并且可以在一个或多个数字和/或量子处理设备上执行。本说明书中描述的系统或它们的部分可以各自实施为装置、方法或系统，其可以包括一个或多个数字和/或量子处理设备和存储可执行指令以执行本说明书中描述的操作的存储器。

尽管本说明书包含许多具体的实施细节，但这些细节不应被解释为对所要求保护的范围的限制，而是对特定实施的特征的描述。本说明书中在分离实施的上下文中描述的某些特征也可以在单个实施方式中组合实施。相反，在单个实施方式的上下文中描述的各种特征也可以分离地或以任何合适的子组合在多个实施方式中实施。此外，尽管特征可以在上面被描述为在某些组合中起作用，甚至最初也是这样要求保护的，但是在某些情况下，来自所要求保护的组合的一个或多个特征可以从该组合中删除，并且所要求保护的组合可以指向子组合或子组合的变体。

类似地，尽管在附图中以特定的次序描述了操作，但是这不应该被理解为要求以所示的特定次序或顺序地执行这些操作，或者执行所有示出的操作，以实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。此外，上述实施方式中的各种系统模块和组件的分离不应该被理解为在所有实施方式中需要这样的分离，并且应该理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或者封装到多个软件产品中。

已经描述了主题的特定实施。其他实施方式在以下权利要求的范围内。例如，权利要求中列举的动作可以以不同的次序执行，并且仍然实现期望的结果。作为示例，附图中描述的过程不一定需要所示的特定次序或顺序来实现期望的结果。在某些情况下，多任务和并行处理可以是有利的。

Claims

1.一种用于设计用于使用量子硬件实施量子门的量子控制轨迹的计算机实施的方法，所述方法包括：

将所述量子门表示为控制动作序列；

应用强化学习模型来迭代地调整所述控制动作序列中的每个控制动作，以确定实施所述量子门并在迭代调整期间减少所述量子门的泄漏、失真和总运行时间的量子控制轨迹，对于每个迭代，包括：

由代理基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作；

由训练环境使用所确定的控制动作和样本控制噪声将所述量子系统的当前状态更新为所述量子系统的后续状态；

由所述代理使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数，以及ii)所述量子系统的更新状态来确定折扣未来奖励；以及

由所述代理并基于所确定的折扣未来奖励来调整用于迭代的一个或多个控制轨迹参数的值。

2.根据权利要求1所述的方法，其中，所述代理包括第一神经网络，并且其中，基于在所述量子硬件中包括的量子系统的当前状态来确定用于迭代的控制动作包括：

提供表示所述量子系统的当前状态的参数值的向量作为第一神经网络的输入；以及

获得表示所述控制动作的参数值的向量作为第一神经网络的输出。

3.根据权利要求2所述的方法，其中，所述表示所述控制动作的参数值包括表示所述控制动作的每个分量的相应概率分布的值，当被所述代理采样时，定义所述控制动作。

4.根据权利要求2或3所述的方法，其中，由所述代理并基于所确定的折扣未来奖励来调整一个或多个控制轨迹参数的值包括：

调整第一神经网络，包括基于所确定的折扣未来奖励来调整第一神经网络参数的值；

使用调整后的第一神经网络来确定调整后的用于迭代的控制动作；以及

使用调整后的用于迭代的控制动作来调整用于迭代的控制轨迹参数的值。

5.根据权利要求4所述的方法，其中，调整第一神经网络参数的值包括应用梯度下降方法，其学习率是由所确定的折扣未来奖励来确定的。

6.根据权利要求1所述的方法，其中，所述代理包括被配置为确定所述折扣未来奖励的第二神经网络。

7.根据权利要求1所述的方法，其中，使用i)惩罚泄漏、失真和总的门运行时间的通用控制成本函数作为强化学习折扣未来奖励函数，以及ii)所述量子系统的更新状态来确定折扣未来奖励包括：基于更新的通用控制成本函数来评估所述控制动作序列中的未来位置的加权通用控制成本函数的总和。

8.根据权利要求6所述的方法，其中，应用所述强化模型还包括在每次迭代时通过以下步骤来训练第一神经网络和第二神经网络：

从所述代理并从不同的可能控制轨迹中对i)不同控制轨迹下的量子状态的完整序列，以及ii)不同控制轨迹的通用控制成本函数值的完整序列进行采样；

确定与采样的量子状态和通用控制成本函数值相对应的采样的折扣未来奖励；

将第二神经网络拟合到所述采样的折扣未来奖励；以及

根据从采样中估计的、利用由对所述折扣未来奖励进行编码的第二神经网络所确定的学习率的梯度来拟合第一神经网络。

9.根据权利要求1所述的方法，其中，应用强化学习模型来调整所述控制动作序列中的每个控制动作以确定实施所述量子门的量子控制轨迹包括执行策略梯度方法。

10.根据权利要求1所述的方法，其中，每个迭代被重复多次，直到调整后的代理参数的值收敛到预定义的限制内。

11.根据权利要求1所述的方法，其中，由所述训练环境使用所确定的控制动作和样本控制噪声将所述量子系统的当前状态更新为所述量子系统的后续状态包括：

基于随机采样的量子硬件噪声来调整表示所述控制动作的参数值的向量；

使用调整后的参数值的向量来求解实现当前控制动作的时间相关哈密顿演化；以及

使用所求解的时间相关哈密顿演化来更新所述量子系统的状态。

12.根据权利要求10所述的方法，其中，基于随机采样的量子硬件噪声来调整表示所述控制动作的参数值的向量包括：

对控制噪声进行随机采样；以及

将随机采样的噪声添加到参数值的向量的每个条目。

13.根据权利要求11所述的方法，其中，对控制噪声进行随机采样包括根据具有预定方差的零均值高斯分布，对不同控制幅度的幅度波动进行采样。

14.根据权利要求1所述的方法，其中，所述量子硬件包括一个或多个量子位，并且其中，控制噪声包括由i)量子位非谐性、ii)量子位失谐幅度、iii)微波控制幅度和iv)双量子位耦合脉冲幅度中的一个或多个引起的随机量子硬件噪声。

15.根据权利要求10所述的方法，其中，使用调整后的参数值的向量来求解实现当前控制动作的时间相关哈密顿演化包括使用调整后的参数值的向量来评估薛定谔方程。

16.根据权利要求2所述的方法，其中，第一神经网络包括多个全连接神经网络层。

17.根据权利要求6所述的方法，其中，第二神经网络包括多个全连接神经网络层。

18.根据权利要求1所述的方法，还包括使用设计的量子控制轨迹来实施量子门。

19.一种用于量子计算的系统，包括一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机执行时，可操作以使所述一个或多个计算机执行包括根据权利要求1至17中任一项所述的方法的操作。

20.一种包括其上存储的指令的计算机可读存储介质，所述指令可由处理设备执行，并且在这种执行时使所述处理设备执行包括根据权利要求1至17中任一项所述的方法的操作。