CN111670438B

CN111670438B - 对鲁棒推理问题进行随机优化的系统与方法

Info

Publication number: CN111670438B
Application number: CN201880088360.8A
Authority: CN
Inventors: 迈克尔·保罗·弗里德兰德; 普亚·罗纳格; 贝赫鲁兹·赛佩里
Original assignee: 1QB Information Technologies Inc
Current assignee: 1QB Information Technologies Inc
Priority date: 2017-12-01
Filing date: 2018-11-30
Publication date: 2023-12-29
Anticipated expiration: 2038-11-30
Also published as: CA3083008A1; JP2021504836A; CN111670438A; EP3718026B1; EP3718026A4; EP3718026A1; WO2019104443A1; US20200364597A1; JP7288905B2

Abstract

本公开提供一种使用采样设备对鲁棒推理问题进行随机优化的方法和系统。具体地，本公开的方法和系统使得能够平滑目标函数，从而使得这些函数适于通过使用采样的随机梯度方法进行计算以替代精确解决推理问题。这样的方法和系统有利地将平滑函数逼近的梯度连接到玻尔兹曼分布，其可以使用模拟过程和/或量子过程(特别是量子退火过程，经典计算机、半经典计算机或量子处理器/设备的热或绝热弛豫和/或其他物理过程)通过采样设备(例如，吉布斯采样器)进行采样。

Description

对鲁棒推理问题进行随机优化的系统与方法

交叉引用

本申请要求于2017年12月1日提交的美国临时申请号62/593,563和2018年8月8日提交的美国专利申请号62/716,041的优先权，其中每个申请通过引用而整体并入于此。

背景技术

在各种工程领域中，即使可以存在直接的数学模型，鲁棒推理(robustinference)问题也经常过于复杂，无法直接数值求解。随机优化(stochasticoptimization)是一种用于将函数最小化或最大化的方法，它使用随机性来部分地评估组成函数，并且可以因此适用于优化非常复杂的模型。

发明内容

本公开的方法和系统有利地使鲁棒推理问题中的各种目标函数能够平滑化，从而使这些函数适合于使用采样通过随机梯度方法来计算以代替精确求解所述推理问题。这些方法和系统有利地将平滑化函数近似的所述梯度连接到玻尔兹曼分布，该玻尔兹曼分布可以使用模拟过程和/或量子过程(特别是经典计算机、半经典计算机或量子处理器/设备的的量子退火过程、热或绝热松弛和/或其他物理过程)由采样设备来采样。

本公开提供了对鲁棒推理问题进行随机优化的系统，这可以用于学习或估计模型的参数，所述模型通过数学或统计函数以最大间隔原则和/或最大似然原则来表示，其中所学习的模型参数确定所述数学或统计函数的实例。特别是，在所述统计函数是图形模型的能量函数的情况中，例如多体系统的横场伊辛模型或其他经典或量子模型，模型参数可以确定用于预测的概率图形模型的权重。这种方法可以给许多机器学习算法和任务提供通用的框架。机器学习算法的非限制性示例包括结构化支持向量机(SSVM)。

本发明的系统和方法可以有利地改善数据科学的技术领域，使得复杂的推理问题可以在数据科学的各种应用中被解决，如文档聚类、人群中的群体检测、推荐系统、半监督学习和主动学习。本公开的系统和方法还可以在自然语言处理中具有各种应用，如名词短语共指解析，以及计算机视觉和图像处理应用，如图像分割。

在一个方面，本发明提供了一种使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法，包括由数字计算机接收鲁棒推理问题的数据，其中所述数据包括：分组成非重叠子集的损失函数集，其中损失函数集中的每个损失函数都接受第一和第二变元(argument)，其中所述第一和第二变元是独立的，并且其中所述第一变元采用连续向量作为其值，并且第二变元采用离散向量作为其值；容许离散向量集，用于所述损失函数集中的每个损失函数；和初始连续向量，用于所述损失函数集中的每个损失函数的所述第一变元；由所述数字计算机设置所述连续向量的当前值为所述初始连续向量；由所述数字计算机接收缩放参数集的调度(schedule)；由所述数字计算机至少部分地基于所述调度来设置缩放参数集的初始值；和直到满足停止标准，所述停止标准包括用于确定所述鲁棒推理问题的解的准确性的规则集：确定所述缩放参数集的当前值，其中所述当前值至少部分地基于所述缩放参数集的所述调度；从所述非重叠子集选择所述损失函数的子集，其中所述选择是非重复或重复的；对所述损失函数的选择子集的每个损失函数迭代以下步骤：由所述采样设备产生离散向量的一个或多个样本，所述一个或多个样本的每个样本是根据与所述损失函数相关的所述容许离散向量集产生的，其中所述一个或多个样本的每个样本是基于至少部分地由所述缩放参数集和所述损失函数确定的概率分布产生的，其中所述损失函数的所述第一变元取得所述连续向量的所述当前值；由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是损失函数相对于所述第一变元而取得的；其中所述损失函数的所述第一变元取得所述连续向量的所述当前值，而所述第二变元从所述一个或多个样本中取得选择的样本的值，其中所述选择的样本是非重复选择的；以及由所述数字计算机获取所述一个或多个梯度的平均值；由所述数字计算机获取所述一个或多个梯度的所述平均值的总和和/或部分总和，其中所述总和是对于所述损失函数的选择子集中的所有损失函数的，并且其中所述部分总和是对于所述损失函数的选择子集中的多于一个损失函数的；由所述数字计算机至少部分地基于以下来计算搜索方向：v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和，v2)所述缩放参数集的所述当前值，v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分，和/或v4)所述缩放参数集的所述值的历史的至少一部分；由所述数字计算机至少部分地基于以下来计算步长：vi1)所述缩放参数集的所述当前值，vi2)所述损失函数集，vi3)所述缩放参数集的值的历史的至少一部分，和/或vi4)所述损失函数集的历史的至少一部分；由所述数字计算机使用所述步长和所述搜索方向来计算更新的当前连续向量；和由所述数字计算机设置所述连续向量的所述当前值为所述更新的当前连续向量；

本发明有利地利用了采样设备来解决复杂的所述鲁棒推理问题。所述采样设备可以包括量子处理器和量子设备控制系统，用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。量子处理器可以耦合到数字计算机和量子设备控制系统。所述量子处理器可以包括多个量子位和多个耦合器，所述多个耦合器的每个耦合器用于在所述多个量子位的两个量子位的交叉处提供通信耦合。离散向量的所述一个或多个样本可以遵循玻尔兹曼分布。

所述采样设备可以是光参量振荡器网络，所述网络可以包括：光学器件，所述光学器件被配置成接收来自光能源的能量并产生多个光参量振荡器；和多个耦合设备，其中每个可控制地耦合所述多个光参量振荡器的光参量振荡器。所述采样设备可以包括中央处理单元，例如，数字计算机或移动设备，以及耦合到所述中央处理单元的存储器单元。所述存储器单元可以包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据的应用。这种应用可以是web应用或移动应用。

所述采样设备可以包括可重构数字硬件、中央处理单元和存储器单元，中央处理单元和存储器单元耦合到所述可重构数字硬件的所述中央处理单元和所述存储器单元。所述可重构数字硬件可以适用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据，并且其中所述可重构数字硬件适用于进行马尔科夫链蒙特卡洛算法(Markov ChainMonte Carlo algorithm)。所述马尔可夫链蒙特卡罗算法可以是模拟量子退火。所述马尔可夫链蒙特卡罗算法可以是模拟退火。所述马尔可夫链蒙特卡罗算法可以是吉布斯采样。

所述损失函数集可以包括一个或多个损失函数。

所述鲁棒推理问题的所述随机优化可以与训练结构支持向量机相关。损失函数的所述非重叠子集的每个子集可以仅包括两个损失函数。所述鲁棒推理问题的所述随机优化可以与图像分割相关。

所述鲁棒推理问题的所述随机优化可以与来自压缩感知的基础追捕问题的对偶(dual)相关。

所述鲁棒推理问题的所述随机优化可以与半监督学习相关。所述鲁棒推理问题的所述数据可以与一个或多个图像分割问题相关。所述鲁棒推理问题的所述数据可以与来自一个或多个压缩感知问题的所述基础追捕问题的对偶相关。所述鲁棒推理问题的数据可以与半监督学习相关。所述鲁棒推理问题的所述数据可以根据名词短语共指解析问题(nounphrase co-reference resolution problem)获取。所述鲁棒推理问题的所述数据可以与主动学习相关。所述鲁棒推理问题的所述数据可以与一个或多个图像标注问题相关。所述鲁棒推理问题的所述数据可以与推荐系统相关。

所述缩放参数集的所述调度可以由用户手动地或者由算法或计算机程序自动地确定。所述缩放参数集的所述调度可以使用机器学习算法基于所述缩放参数集的历史来确定。

所述数字计算机可以相对于所述采样设备被远程定位。

所述停止标准可以至少部分地基于所述当前的和所述更新的当前连续向量之间的距离的大小。

所述损失函数可以由所述第一和第二变元集的复合函数组成。

在获取一个或多个梯度的操作中，所述一个或多个梯度的每个可以是损失函数关于所述第一变元来取得的，包括链式法则的迭代应用。所述链式法则的迭代应用可以使用自微分来进行。

在一些情况中，在所述复合函数的所述变元函数中的是可微的(differentiable)特征提取器。在一些情况中，在所述可微的特征提取器是深度神经网络。

计算搜索方向可以利用以下中的一个或多个：随机梯度下降法(SGD)、随机平均梯度法(SAG和SAGA)、随机方差缩减梯度法(SVRG)和随机双坐标上升法(SDCA)。

使用一种自适应梯度下降方法来计算步长可以包括但可以不限于Adam、约简均方(reduced mean square，RMS)、RMSProp和AdaGrad。

在一个方面，本发明提供了一种使用采样设备对鲁棒推理问题进行随机优化的系统，所述系统包括数字计算机，所述数字计算机被配置成：接收所述鲁棒推理问题的数据，其中所述数据包括：分组成非重叠子集的损失函数集，其中损失函数集中的每个损失函数都接受第一和第二变元，其中所述第一和第二变元是独立的，并且其中所述第一变元采用连续向量作为其值，并且第二变元采用离散向量作为其值；容许离散向量集，用于所述损失函数集中的每个损失函数；和初始连续向量，用于所述损失函数集中每个损失函数的所述第一变元；设置所述连续向量的当前值为所述初始连续向量；接收缩放参数集的调度；至少部分地基于所述调度来设置所述缩放参数集的初始值；和直到满足停止标准，所述停止标准包括用于确定所述鲁棒推理问题的解的准确性的规则集：确定所述缩放参数集的当前值，其中所述当前值至少部分地基于所述缩放参数集的所述调度；从所述非重叠子集选择所述损失函数的子集，其中所述选择是非重复或重复的；对所述损失函数的选择子集的每个损失函数迭代以下步骤：由所述采样设备产生离散向量的一个或多个样本，所述一个或多个样本的每个样本是根据与所述损失函数相关的所述容许离散向量集产生的，其中所述一个或多个样本的每个样本是基于至少部分地由所述缩放参数集和所述损失函数确定的概率分布产生的，其中所述损失函数的所述第一变元取得所述连续向量的所述当前值；获取一个或多个梯度，其中所述一个或多个梯度的每个都是损失函数关于第一变元而取得的；其中损失函数的第一变元取得连续向量的当前值，而第二变元从一个或多个样本中取得选择的样本的值，其中选择的样本是非重复选择的；以及获取一个或多个梯度的平均值；获取所述一个或多个梯度的所述平均值的总和和/或部分总和，其中所述总和是对于所述损失函数的选择子集中的所有损失函数的，并且其中所述部分总和是对于所述损失函数的选择子集中的多于一个损失函数的；至少部分地基于以下来计算搜索方向：v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和，v2)所述缩放参数集的所述当前值，v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分，和/或v4)所述缩放参数集的所述值的历史的至少一部分；至少部分地基于以下来计算步长：vi1)所述缩放参数集的所述当前值，vi2)所述损失函数集，vi3)所述缩放参数集的值的历史的至少一部分，和/或vi4)所述损失函数集的历史的至少一部分；使用所述步长和所述搜索方向来计算更新的当前连续向量；和设置所述连续向量的所述当前值为所述更新的连续向量；

本发明有利地利用了采样设备来解决所述复杂的鲁棒推理问题。所述采样设备可以包括量子处理器和量子设备控制系统，用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。所述量子处理器可以耦合到所述数字计算机和量子设备控制系统。所述量子处理器可以包括多个量子位和多个耦合器，所述多个耦合器的每个耦合器用于在所述多个量子位的两个量子位的交叉处提供通信耦合。离散向量的所述一个或多个样本可以遵循玻尔兹曼分布。

所述采样设备可以是光参量振荡器网络，所述网络可以包括：光学器件，所述光学器件被配置成接收来自光能源的能量并产生多个光参量振荡器；和多个耦合设备，其中每个可控制地耦合所述多个光参量振荡器的光参量振荡器。所述采样设备可以包括中央处理单元，例如，数字计算机或移动设备，以及耦合到所述中央处理单元的存储器单元。所述存储器单元可以包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的数据的应用。这种应用可以是web应用或移动应用。

采样设备可以包括可重构数字硬件、中央处理单元和存储器单元，中央处理单元和存储器单元耦合到所述可重构数字硬件。所述可重构数字硬件可以适用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据，并且其中所述可重构数字硬件适用于进行马尔科夫链蒙特卡洛算法。所述马尔可夫链蒙特卡罗算法可以是模拟量子退火。所述马尔可夫链蒙特卡罗算法可以是模拟退火。所述马尔可夫链蒙特卡罗算法可以是吉布斯采样。

所述损失函数集可以包括一个或多个损失函数。

所述鲁棒推理问题的所述随机优化可以与来自压缩感知的基础追捕问题的对偶相关。

所述鲁棒推理问题的所述随机优化可以与半监督学习相关。所述鲁棒推理问题的所述数据可以与一个或多个图像分割问题相关。所述鲁棒推理问题的所述数据可以与来自一个或多个压缩感知问题的所述基础追捕问题的对偶相关。所述鲁棒推理问题的数据可以与半监督学习相关。所述鲁棒推理问题的所述数据可以根据名词短语共指解析问题获取。所述鲁棒推理问题的所述数据可以与主动学习相关。所述鲁棒推理问题的所述数据可以与一个或多个图像标注问题相关。所述鲁棒推理问题的所述数据可以与推荐系统相关。

所述数字计算机可以相对于所述采样设备被远程定位。

在获取一个或多个梯度的所述操作中，所述一个或多个梯度的每个可以是损失函数关于所述第一变元来取得的，包括链式法则的迭代应用。所述链式法则的迭代应用可以使用自微分来进行。

在一些情况中，在所述复合函数的所述变元函数中的是可微的特征提取器。在一些情况中，在所述可微的特征提取器中的是深度神经网络。

使用一种自适应梯度下降方法来计算步长可以包括但可以不限于Adam、约简均方(RMS)、RMSProp和AdaGrad。

在另一方面，使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法可以包括：(a)通过数字计算机接收所述鲁棒推理问题的数据，其中所述数据包括：(i)分组成非重叠子集的目标函数或损失函数集，其中所述损失函数集中的每个目标函数或损失函数都接受第一和第二变元；和(ii)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许向量集；(b)由所述数字计算机设置向量的当前值；(c)由所述数字计算机接收缩放参数集的调度；和(d)直到满足停止标准：(i)至少部分地基于所述调度来确定所述缩放参数集的当前值；(ii)从所述非重叠子集选择所述目标函数或损失函数的子集；(iii)对所述目标函数或损失函数的选择子集的每个目标函数或损失函数迭代以下步骤：(1)由所述采样设备根据与所述目标函数或损失函数相关的所述允许向量集来产生一个或多个向量的样本；(2)由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是目标函数或损失函数关于所述第一变元而取得的；以及(3)由所述数字计算机获取所述一个或多个梯度的平均值；(iv)由所述数字计算机获取所述一个或多个梯度的所述平均值的总和或部分总和，其中所述总和是对于所述目标函数或损失函数的选择子集中的所有目标函数或损失函数的，并且其中所述部分总和是对于所述损失函数的选择子集中的多于一个目标函数或损失函数的；(v)由所述数字计算机至少部分地基于以下中的一个或多个来计算搜索方向：v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和；v2)所述缩放参数集的所述当前值；v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分；和v4)所述缩放参数集的所述值的历史的至少一部分；(v)由所述数字计算机至少部分地基于以下中的一个或多个来计算步长：vi1)所述缩放参数集的所述当前值；vi2)所述损失函数的选择子集；vi3)所述缩放参数集的值的历史的至少一部分；和vi4)所述目标函数或损失函数的选择子集的历史的至少一部分；和(vii)由所述数字计算机基于所述步长和所述搜索方向来设置所述向量的所述当前值。所述目标函数或损失函数可以包括所述第一和第二变元的一个或多个复合函数。由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是目标函数或损失函数关于所述第一变元而取得的，包括链式法则的迭代应用。所述链式法则可以使用自微分来进行。所述复合函数的一个或多个变元函数可以包括可微的特征提取器。所述可微的特征提取器可以包括深度神经网络。由所述数字计算机计算搜索方向，可以包括使用随机梯度下降法(SGD)、随机平均梯度法(SAG和SAGA)、随机方差缩减梯度法(SVRG)或随机双坐标上升法(SDCA)中的一个或多个。由所述数字计算机计算步长，可包括使用自适应梯度下降方法中的一个或多个，并且其中所述自适应梯度下降方法包括自适应矩估计(Adam)、约简均方(RMS)、均方根传播(RMSProp)和/或自适应梯度算法(AdaGrad)。所述采样设备可以包括量子处理器和量子设备控制系统，用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。所述量子处理器可以耦合到所述数字计算机和量子设备控制系统。所述量子处理器可以包括多个量子位和多个耦合器，所述多个耦合器的每个耦合器用于在所述多个量子位的两个量子位的交叉处提供通信耦合。所述离散向量的一个或多个样本可以遵循玻尔兹曼分布。所述采样设备可以包括光参量振荡器网络，所述网络包括：(a)光学器件，光学器件被配置成接收来自光能源的能量并产生多个光参量振荡器；和(b)多个耦合设备，其中每个可控制地耦合所述多个光参量振荡器的光参量振荡器。所述采样设备可以包括中央处理单元以及耦合到中央处理单元的存储器单元。所述存储器单元可以包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据的应用，其中应用被配置成实现马尔科夫链蒙特卡洛算法。所述采样设备可以包括可重构数字硬件、中央处理单元和存储器单元，中央处理单元和存储器单元耦合到所述可重构数字硬件。所述可重构数字硬件可以被配置成获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据，并且所述可重构数字硬件可以被配置成实现马尔科夫链蒙特卡洛算法。所述马尔可夫链蒙特卡罗算法可以包括模拟量子退火。所述马尔可夫链蒙特卡罗算法可以包括模拟退火。所述马尔可夫链蒙特卡罗算法可以包括吉布斯采样。所述目标函数或损失函数的集合可以包括一个或多个目标函数或损失函数。所述鲁棒推理问题的所述随机优化可以与训练结构支持向量机相关。目标函数或损失函数的所述非重叠子集的每个子集可以仅包括两个目标函数或损失函数。所述鲁棒推理问题的所述数据可以与图像分割问题相关。所述鲁棒推理问题的所述数据可以与来自压缩感知问题的所述基础追捕问题的对偶相关。所述鲁棒推理问题的所述数据可以与半监督学习相关。所述鲁棒推理问题的所述数据可以根据名词短语共指解析问题获取。所述鲁棒推理问题的所述数据可以与主动学习相关。所述鲁棒推理问题的所述数据可以与图像标注问题相关。所述鲁棒推理问题的所述数据可以与推荐系统相关。所述缩放参数集的调度可以由用户或由算法自动地确定。所述数字计算机可以相对于所述采样设备被远程定位。所述停止标准可以至少部分地基于所述当前的和所述更新的当前向量之间的距离的大小。所述第一和第二变元可以是独立的，并且所述第一变元可以采用连续向量作为其值，所述第二变元可以采用离散向量作为其值，并且所述容许向量集可以包括容许离散向量集。(1)可以包括由所述采样设备来产生离散向量的一个或多个样本，所述一个或多个样本的每个样本是根据与所述目标函数或损失函数相关的所述容许离散向量集产生的，其中所述一个或多个样本的每个样本是基于至少部分地由所述缩放参数集和所述目标函数或损失函数确定的概率分布来产生的，其中所述目标函数或损失函数的所述第一变元取得所述连续向量的所述当前值。(2)可以包括由数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是损失函数关于所述第一变元而取得的，其中所述损失函数的所述第一变元取得所述连续向量的所述当前值，并且所述第二变元从所述一个或多个样本中取得选择的样本的值，其中选择的样本是非重复选择的。所述停止标准可以包括用于确定所述鲁棒推理问题的解的准确性的规则集。目标函数或损失函数的所述子集的所述选择可以是非重复的或重复的。

在另一方面，使用采样设备对鲁棒推理问题进行随机优化的系统可以包括数字计算机，所述数字计算机被配置成：(a)接收所述鲁棒推理问题的数据，其中所述数据包括：(i)分组成非重叠子集的目标函数或损失函数集，其中所述损失函数集中的每个目标函数或损失函数都接受第一和第二变元；和(ii)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许向量集；(b)设置向量的当前值；(c)接收缩放参数集的调度；和(d)直到满足停止标准：(i)至少部分地基于所述调度来确定所述缩放参数集的当前值；(ii)从所述非重叠子集选择所述目标函数或损失函数的子集；(iii)对所述目标函数或损失函数的选择子集的每个目标函数或损失函数迭代以下步骤：(1)由所述采样设备根据从与所述目标函数或损失函数相关的允许向量集来产生一个或多个向量的样本；(2)由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是目标函数或损失函数关于第一变元而取得的；以及(3)获取所述一个或多个梯度的平均值；(iv)获取所述一个或多个梯度的所述平均值的总和或部分总和，其中所述总和是对于目标函数或损失函数的选择子集中的所有目标函数或损失函数的，而其中部分总和是对于损失函数的选择子集中的多于一个目标函数或损失函数的；(v)至少部分地基于以下中的一个或多个来计算搜索方向：v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和；v2)所述缩放参数集的所述当前值；v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分；和v4)所述缩放参数集的值的历史的至少一部分；(v)至少部分地基于以下中的一个或多个来计算步长：vi1)所述缩放参数集的所述当前值；vi2)所述损失函数的选择子集；vi3)所述缩放参数集的值的历史的至少一部分；和vi4)所述目标函数或损失函数的选择子集的历史的至少一部分；和(vii)基于所述步长和所述搜索方向来设置所述向量的所述当前值。所述目标函数或损失函数可以包括所述第一和第二变元的一个或多个复合函数。由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是目标函数或损失函数关于所述第一变元而取得的，包括链式法则的迭代应用。所述链式法则可以使用自微分来进行。所述复合函数的一个或多个变元函数可以包括可微的特征提取器。所述可微的特征提取器可以包括深度神经网络。由所述数字计算机计算搜索方向，可以包括使用随机梯度下降法(SGD)、随机平均梯度法(SAG和SAGA)、随机方差缩减梯度法(SVRG)或随机双坐标上升法(SDCA)中的一个或多个。由所述数字计算机计算步长，可包括使用自适应梯度下降方法中的一个或多个，并且其中所述自适应梯度下降方法包括自适应矩估计(Adam)、约简均方(RMS)、均方根传播(RMSProp)和/或自适应梯度算法(AdaGrad)。所述采样设备可以包括量子处理器和量子设备控制系统，用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。所述量子处理器可以耦合到所述数字计算机和量子设备控制系统。所述量子处理器可以包括多个量子位和多个耦合器，所述多个耦合器的每个耦合器用于在所述多个量子位的两个量子位的交叉处提供通信耦合。所述离散向量的一个或多个样本可以遵循玻尔兹曼分布。所述采样设备可以包括光参量振荡器网络，所述网络包括：(a)光学器件，光学所述器件被配置成接收来自光能源的能量并产生多个光参量振荡器；和(b)多个耦合设备，其中每个可控制地耦合所述多个光参量振荡器的光参量振荡器。所述采样设备可以包括中央处理单元以及耦合到中央所述处理单元的存储器单元。所述存储器单元可以包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据的应用，其中应用被配置成实现马尔科夫链蒙特卡洛算法。所述采样设备可以包括可重构数字硬件、中央处理单元和存储器单元，中央处理单元和存储器单元耦合到所述可重构数字硬件的所述中央处理单元和所述存储器单元。所述可重构数字硬件可以被配置成获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据，并且所述可重构数字硬件可以被配置成实现马尔科夫链蒙特卡洛算法。所述马尔可夫链蒙特卡罗算法可以包括模拟量子退火。所述马尔可夫链蒙特卡罗算法可以包括模拟退火。所述马尔可夫链蒙特卡罗算法可以包括吉布斯采样。所述目标函数或损失函数的集合可以包括一个或多个目标函数或损失函数。所述鲁棒推理问题的所述随机优化可以与训练结构支持向量机相关。目标函数或损失函数的所述非重叠子集的每个子集可以包括仅两个目标函数或损失函数。所述鲁棒推理问题的所述数据可以与图像分割问题相关。所述鲁棒推理问题的所述数据可以与来自压缩感知问题的所述基础追捕问题的对偶相关。所述鲁棒推理问题的所述数据可以与半监督学习相关。所述鲁棒推理问题的所述数据可以根据名词短语共指解析问题获取。所述鲁棒推理问题的所述数据可以与主动学习相关。所述鲁棒推理问题的所述数据可以与图像标注问题相关。所述鲁棒推理问题的所述数据可以与推荐系统相关。所述缩放参数集的所述调度可以由用户或由算法自动地确定。所述数字计算机可以相对于采样设备被远程定位。所述停止标准可以至少部分地基于所述当前的和所述更新的当前向量之间的距离的大小。所述第一和第二变元可以是独立的，并且所述第一变元可以采用连续向量作为其值，所述第二变元可以采用离散向量作为其值，并且容许向量集可以包括容许离散向量集。(1)可以包括由采样设备来产生离散向量的一个或多个样本，一个或多个样本的每个样本是根据与目标函数或损失函数相关的容许离散向量集产生的，其中一个或多个样本的每个样本是基于至少部分地由缩放参数集和目标函数或损失函数确定的概率分布来产生的，其中目标函数或损失函数的第一变元取得连续向量的当前值。(2)可以包括由数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是损失函数关于所述第一变元而取得的，其中所述损失函数的所述第一变元取得所述连续向量的所述当前值，并且所述第二变元取从所述一个或多个样本中取得选择的样本的值，其中选择的样本是非重复选择的。所述停止标准可以包括用于确定所述鲁棒推理问题的解的准确性的规则集。目标函数或损失函数的所述子集的所述选择可以是非重复的或重复的。

本公开内容的另一方面提供了一种包括机器可执行代码的非暂时性计算机可读介质，所述机器可执行代码在由一个或多个计算机处理器执行时，实现上文或本文其他各处所述的任何方法。

本发明的另一方面提供了一种包括一个或多个计算机处理器和耦合到它们的非临时计算机可读介质(例如，计算机存储器)的系统。所述非暂时性计算机可读介质包括机器可执行代码的，所述机器可执行代码在由上述一个或多个计算机处理器执行时，实现上文或本文其他各处所述的任何方法。

通过以下详细描述，本公开内容的附加方面和优点将会对于本领域技术人员变得容易理解，其中仅仅示出和描述了本公开内容的说明性实施方式。如将会意识到的，本公开内容能够具有其他和不同的实施方式，并且在各个显而易见的方面中其若干细节都能够进行修改，所有这些都不偏离本公开内容。因此，附图和描述将被认为在本质上是说明性的而非限制性的。

援引并入

本说明书中提及的所有出版物、专利和专利申请均通过引用并入本文，其程度如同具体地且单独地指明每个单独的出版物、专利或专利申请均通过引用而并入。如果引用的出版物和专利或专利申请与说明书中包含的披露相矛盾，则说明书旨在取代和/或优先于任何此类矛盾的材料。

附图说明

通过参考对在其中说明性实施方式加以阐述的以下详细描述，将会获得对本主题物的特征和优点的更好的理解，在附图中：

图1示出了使用采样设备对鲁棒推理问题进行随机优化的非限制性实施例的流程图。

图2示出了用于鲁棒推理问题的随机优化的系统的非限制性实施例。

具体实施方式

虽然本文已经示出和描述了本发明的各个实施方式，但对于本领域技术人员容易理解的是，这样的实施方式只是以示例的方式提供的。本领域技术人员现将在不偏离本发明的情况下想到许多更改、改变和替代。应当理解，可以采用对本文所描述的本发明实施方式的各种替代方案。

文所使用的单数形式“一个”、“一种”等包括复数指代，除非上下文另有明确规定。本文任何提及“或”旨在包含“和/或”除非另有说明。

本文所公开的“变量”等同于本文的“变元”。

本文所公开的设置向量的值，例如，连续向量或离散向量，可以设置向量的每个元素的值。在其他情况中，设置向量的值可以是给向量的一个或多个元素设置值。

鲁棒推理问题

在一个方面，本发明提供了在随机优化方法中利用采样设备来解决鲁棒推理问题的方法和系统。方法和系统可以提供框架，其在机器学习方法中允许高效和鲁棒优化技术。机器学习方法的非限制性示例包括：结构支持向量机(SSVM)、半监督学习和主动学习。这些方法可以在诸如自然语言处理(例如，名词短语共指解析)、计算机视觉和图像处理(例如，图像分割、图像标记)和数据科学(例如，文档聚类、人群中的组检测、推荐系统、半监督和主动学习等)的应用中有用。

本文的鲁棒推理问题可以与推理或假设的鲁棒性和/或准确性相关，在此推理或假设下可以给计算任务找到解。换句话说，在获得解的情况下与推断或假设有多少偏差可以发生。推理方法的鲁棒性可能与其对异常值的抵抗力有关，例如通过训练模型，即使对于非理想或最不可靠的预测，该模型也会增加概率或保证良好的性能。鲁棒推理问题可以被表示在式(1)中：

其中，可以是定义n维实向量空间中允许的向量的集合；/>可以是将n维实向量空间中的向量映射到实值的函数；每个/>都可以是实值函数；/>可以是实数，/>可以是向量集(如有限向量集)，变元y可以从中取值，i₁和i₂可以分别是从1到m₁和1到m₂的范围中的独立索引，并且x和y可以是两个变元(如两个独立变元)，其可以分别是来自C和/>的任何向量。本文描述的鲁棒推理问题的优化可以指求解式(1)中描述的最小化问题或可以等同于或可以由式(1)描述的任何其他问题。在一些情况中，集合C是凸集，且函数f(x)和所有函数/>都是凸的，且所有实数/>都是正的。在这种情况中，式(1)所描述的优化问题可以成为凸优化问题，允许采用凸优化方法，以创建全局最优解的简便近似。这些凸优化方法可以使用与多项式时间成比例的程序来有效地实现。然而，在其他情况中，优化问题可能是非凸的。例如，当实数/>可以是负的，如在潜在的SSVM优化问题中，优化问题可以是非凸的。如另一示例，当函数/>是非凸的，如在函数/>对应于神经网络的情况中，(1)中的优化问题可以是非凸的。

参考函数中的一个(例如，目标函数或损失函数)(本文也称g(x,y))，函数/>可以仅对x可微，其中最大值是唯一获得的。在当最大值(例如，max_y∈_Y g(x,y))不唯一时的情况中，g(x,y)可以仅是次可微的，且次微分可由式(2)如下给出：

其中co可以是凸包的符号，并且可以是关于x的偏导数。计算此集合的元素(即，计算/>)，则可以等于求解式(1)中的内部最大化问题(即，/>)和求g(x,y)在点y关于x的微分，点y达到阈值或最大值。

在一些情况中，目标函数或损失函数g(x,y)可以是任何实值函数。在一些情况中，目标函数或损失函数g(x,y)可以是任何实值函数，其中第二变元y是离散的，而第一变元x是离散向量。在一些情况中，目标函数或损失函数g(x,y)可以是任何实值函数，其中第二变元y是连续向量，而第一变元x是离散向量。在一些情况中，目标函数或损失函数g(x,y)可以是任何实值函数，其中第二变元y是连续向量，且第一变元x是连续向量。在一些情况中，目标函数或损失函数g(x,y)可以是任何实值函数矢量，其中第二变元y是离散向量，而第一变元x是连续向量。

在一些情况中，目标函数或损失函数g(x,y)在其第二变元y中可以是线性的。在一些情况中，目标函数或损失函数g(x,y)在其第二变元y中可以是二次的。在目标函数或损失函数g(x,y)在其第二变元y是二次的情况中，式(1)中的内部最大化可以改写为二次优化问题(如二元变量的二次优化问题)，如式(3)中：

max{g(x,y)|y∈Y}＝max{〈Q(x)z,z〉+〈c(x),z〉|z∈{0,1}^m} (3)

对于可以取决于x的一些m和对称矩阵Q(x)和向量c(x)，其中式(3)的左边表达式上的解y可以从式(3)的右边表达式上的解z构造。此处的变量z可以对应于变量y的编码(如二进制编码)。在一些实施例中，这样的编码可以由可计算的映射z→y给出。因此，对g的次梯度可以通过求解二次优化问题(如二元二次优化问题)来获取。

式(1)可以包括函数f(x)，该函数可以是连续向量x的函数，其中连续向量可以是实值的。函数f(x)可以调整式(1)的优化。函数f(x)可以是可选函数，并且对于变量x可以取的一个或多个可能值可以取0值。例如，在结构支持向量机(SSVM)中，f(x)可以是正则化器，其可以助于减少过拟合。

在式(1)中，x可以是第一变量或变元，该变量或变元可以从约束集C取其值，约束集可以包括实值。约束集C可以包括若干连续向量，其个数可以是不小于一的任何数。每个连续向量可以包含实值。鲁棒推理问题的优化可以包括阈值化或最小化，仅关于由y确定的x，而向量y可以是“内部的”。

鲁棒推理问题的数据

用于本文所述的鲁棒推理问题的随机优化的方法可以包括获取鲁棒推理问题的数据。这些数据可以手动或自动地从原始数据中预先产生。这些数据可由数字计算机获取。这些数据可至少部分地被本文描述的方法用于鲁棒推理问题的随机优化，如本文描述的鲁棒推理问题。

鲁棒推理问题的这些数据可以包括式(1)中一个或多个参数和/或变元的初始值，使得迭代优化过程可以从初始值开始。

鲁棒推理问题的这些数据可以包括目标函数或损失函数的集合，其中每个目标函数或损失函数可以表示为其中i₁和i₂是具有索引i₁∈{1,…,m₁}和i₂∈{1,…,m₂}的独立索引，x可以是连续向量，而/>可以是离散向量。索引i₁可以是用于选择目标函数或损失函数的非重叠子集的优化过程的一个或多个完整迭代的固定数，并且其可以基于预定选择过程被选择用于其他迭代。索引i₂可以是对应于索引i₁的每个非重叠子集中的目标函数或损失函数的数量上的索引。

目标函数或损失函数集可以包括一个或多个目标函数或损失函数。目标函数或损失函数集可以包括多个目标函数或损失函数。在集合中只包含一个目标函数或损失函数的情况中，目标函数或损失函数的子集可以是目标函数或损失函数集。在当目标函数或损失函数集包含两个或更多个目标函数或损失函数时的情况中，目标函数或损失函数集可以分组成非重叠的子集。目标函数或损失函数的非重叠子集的每个可以仅包括两个目标函数或损失函数。每个子集可以包含1个、2个、3个、4个、5个、6个、10个、20个、30个、50个、60个、70个、80个、90个、100个或更多个目标函数或损失函数。每个子集可以包含至少约1个、2个、3个、4个、5个、6个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或更多个目标函数或损失函数。在其他情况中，每个子集可以包含最多约1个、2个、3个、4个、5个、6个、10个、20个、30个、50个、60个、70个、80个、90个、100个或更少的目标函数或损失函数。在目标函数或损失函数集中，每个目标函数或损失函数可以接受第一变元x和第二变元y。第一和第二变元可以是独立变元。第一和第二变元可以是相关变元。第一变元可以取连续向量为其值，第二变元可以取离散向量为其值。

鲁棒推理问题的这些数据可以包括每个目标函数或损失函数的线性组合权重：式(1)中的每个损失函数可以由权重来加权，该权重可以是影响其对总和贡献的标量

鲁棒推理问题的这些数据可以包括容许离散向量集，变量y可以对来自该集的每个损失函数取值。

鲁棒推理问题的这些数据可以包括第一迭代中所有损失函数的第一变元的初始连续向量。鲁棒推理问题的这些数据可以包括第一迭代中一个或多个损失函数的第一变元的初始连续向量。

鲁棒推理问题的方法可以将迭代优化过程的第一迭代中的缩放参数集的当前值设置成缩放参数集的初始值。初始值可以至少部分地基于本文描述的调度。在以后的迭代中，缩放参数集的当前值可以至少部分地基于调度被更新，如本文所述。

解决鲁棒推理问题的方法可以接收或产生缩放参数集的调度，从中可以获取缩放参数集的当前值。调度可以由用户预先确定，或由选择的算法自动调整。缩放参数集的初始值可以被包括在调度中或至少部分地基于调度。调度可以基于理论或经验知识产生。调度可以使用一个或多个算法或程序产生，算法或程序选自：统计算法或程序、模式识别算法或程序、机器学习算法或程序、深度学习算法或程序、人工智能算法或程序、神经网络等。调度可以使用缩放参数集的历史值来产生。缩放参数集可以取任意实数的值。缩放参数集可以取任意非零实数的值。缩放参数集可以取任意正数和/或负数的值。

缩放参数集可以用在“softmax函数”中来解决本文的鲁棒推理问题。“Softmax函数”可以近似式(1)中的“max”函数，例如，带有平滑函数，如式(4)中：

其中x可以是连续向量，可以是离散向量，使得离散向量选自容许状态的离散集，/>从中变量y可以取值，/>可以是目标函数或损失函数，其中i₁和i₂可以是具有索引i₁∈{1,...,m₁}和i₂∈{1,...,m₂}的相关或独立索引，而β可以是缩放参数集中的元素，从缩放参数集的调度获取值。在式(4)中，β可以是缩放参数集中的唯一元素。

具有较高值的这些β可以使式(4)中左边上的“max”函数的近似能够比较低的值更好。但是，作为权衡，较高的值可以减缓样本的产生。如果优化从相对低的β开始，并且逐渐增加，那么与在从具有较高值的缩放参数集开始的情况相比，优化问题可以在更少的迭代步骤中解决。

本文的“平滑-最大”近似等同于softmax近似，如式(4)中，具有以下有益特性。

最大值函数h(z)＝max{z₁,…,z_n}可以由式(5)的softmax函数来近似：

其中，μ可以是正参数，等同于1/β。

最大函数h(z)＝max{z₁,…,z_n}可以由函数集(如非线性函数集)组成，且最大函数及其光滑近似可以同时考虑，如式(4.1a)和式(4.1b)中：

如式(4.1b)中这种平滑近似的性质可以取决于分量函数g_i的平滑性质。在式(1)的上下文中，我们可以用i＝1:m来在Y中索引每个元素，其中m＝|Y|，且g_i(x)：＝g(x,y_i)，其中y_i∈Y。

涉及到由i₁∈{1,…,m₁}和i₂∈{1,…,m₂}索引的待最大化的目标函数或损失函数本文描述的softmax可以与/>分离地应用于每个目标函数或损失函数

带有压缩的函数，/>可以是凸的，而且可以具有带有常数L_i和有i＝1:m的有界范数/>的Lipschitz连续梯度。令且/>那么式(4.1a)和式(4.1b)中所描述的函数可以满足以下三个陈述中的一个或多个：

1.h(x)+μlog(|argmax{g_i(x)}|)≤h_μ(x)≤h(x)+μlog(m)；

2.其中c_i可以是常数，使得c₁+c₂＝log(m)；且

3.

这些陈述中出现的范数可以是2范数，即使非合成光滑近似的Lipschitz常数可以以无穷范数来表述。式(4.1b)中给出的光滑近似的梯度可以由以下给出：

其中且/>平滑近似h_μ的梯度可以作为梯度的平均值或加权平均值被获取。因此，近似h_μ的梯度可以作为期望值被获取，其中i可以是随机变量。近似h_μ的梯度可以作为期望值被获取，其中i可以是随机变量，随机变量遵循由式(5)给出的波尔兹曼分布。

其中可以是缩放参数集中的唯一元素。

迭代优化过程

用于鲁棒推理问题的随机优化的方法可以包括在迭代优化过程的每次迭代中迭代执行一个或多个步骤，直到满足至少一个停止标准。这种停止标准可以包括规则集，规则集包含一个或多个规则，用于确定鲁棒推理问题的解决方案的准确性、敏感性或特异性的一个或多个。停止标准可以至少部分地基于优化过程的一次迭代中的当前连续向量与同一迭代或不同迭代(例如，前一次或后一次迭代)中更新的当前连续向量之间的距离大小。

在每次迭代中，迭代优化过程中的一个或多个步骤可以包括确定缩放参数集的当前值。当前值可以至少部分地基于缩放参数集的调度。

在每次迭代中，迭代优化过程中的一个或多个步骤可以包括非重复地或重复地从非重叠子集选择目标函数或损失函数的子集。

在每次迭代中，一个或多个步骤可以对目标函数或损失函数的选择子集的每个目标函数或损失函数进行。一个或多个子步骤可以包括对于式(1)中的变量或变元y来产生离散向量的一个或多个样本。一个或多个样本的每个样本可以从与特定目标函数或损失函数相关的容许离散向量集来选择。一个或多个样本中的每个样本可以基于概率分布来产生。在一些情况中，概率分布可以至少部分地由缩放参数集和特定的目标函数或损失函数来确定。损失函数的第一变元可以取迭代中连续向量的当前值。例如，每个样本可以根据式(6)中的概率分布来产生：

其中x可以保持为在每次迭代中对所有样本的固定连续向量，且β可以是缩放参数。一个或多个样本的每个可以使用本文公开的采样设备来产生。例如，若干k样本可以产生，并且每个样本可以选自容许状态集，使得k取样采样并且其中i₁∈{1,...,m₁}的选择可以代表目标函数或损失函数的选择子集，并且i₂∈{1,...,m₂}可以代表选择子集中的函数。样本的概率分布可以是任何单个概率分布或不同概率分布的任何组合。

本文的采样设备可以包括随机或伪随机发生器，其产生根据玻尔兹曼模型分布的样本。这样的采样设备可以包括被配置成进行“玻尔兹曼采样”的硬件(例如，专门的计算设备、量子处理器、非经典计算机、量子计算系统、数字计算机、数字处理设备等)和/或软件。然后，近似的梯度可以用来解决具有预先选择的精度水平的鲁棒推理问题。采样设备的利用和采样设备的连接可以有利地将平滑函数近似的梯度连接到玻尔兹曼分布，使得复杂的鲁棒推理问题被解决。采样设备可以显示由式(6)中给出的玻尔兹曼分布的数学定义所确定的一个或多个性质。采样设备可以包括任何硬件、软件或硬件和软件的组合，这些硬件和软件可以被配置成显示由式(6)中给出的玻尔兹曼分布的数学定义所确定的一个或多个性质。在一些情况中，观察不同配置的范化频率落入各自配置的式(6)中给出的数学地定义的概率的选择距离。一个或多个样本可以属于离散向量和/或可以遵循玻尔兹曼分布。

用于解决鲁棒推理问题的系统可以包括用于产生若干样本的采样设备。采样设备可以包括量子处理器和量子设备控制系统，用于获取缩放参数集的调度、鲁棒推理问题的数据，或其组合。量子处理器可以耦合到数字计算机和量子设备控制系统。量子处理器可以包括多个量子位和多个耦合器，多个耦合器的每个耦合器用于在多个量子位的两个量子位的交叉处提供通信耦合。数字计算可以相对于采样设备被远程定位。

量子处理器或量子计算机可以包括一个或多个绝热量子计算机、量子门阵列、单向量子计算机、拓扑量子计算机、量子图灵机、基于超导体的量子计算机、囚禁离子量子计算机、囚禁原子量子计算机、光学晶格、量子点计算机、基于自旋的量子计算机、基于空间的量子计算机、Loss-DiVincenzo量子计算机、基于核磁共振(NMR)的量子计算机、溶液态NMR量子计算机、固态NMR量子计算机、固态NMR Kane量子计算机、氦电子量子计算机、基于腔量子电动力学的量子计算机、分子磁体量子计算机、基于富勒烯的量子计算机、线性光学量子计算机、基于金刚石的量子计算机、氮空位(NV)基于金刚石的量子计算机、基于Bose-Einstein凝聚物的量子计算机、基于晶体管的量子计算机，以及基于掺有稀土金属离子的无机晶体的量子计算机。量子处理器或量子计算机可以包括下列一项或多项：量子退火机、伊辛求解器、光学参量振荡器(OPO)和量子计算的门模型。

量子处理器或量子计算机可以包括一个或多个量子位。一个或多个量子位可以包括超导量子位、囚禁离子量子位、囚禁原子量子位、光子量子位、量子点量子位、基于电子自旋的量子位、基于核自旋的量子位、分子磁体量子位、基于富勒烯的量子位、基于金刚石的量子位、基于氮空位(NV)金刚石量子位、基于玻色-爱因斯坦凝聚物的量子位、基于晶体管的量子位或基于稀土金属离子掺杂的无机晶体的量子位。

采样设备可以包括光参数振荡器网络，其中网络包括光学器件，光学器件被配置成接收来自光能源的能量并产生多个光参数振荡器；以及多个耦合设备，其中的每个可控地耦合多个光参数振荡器的光参数振荡器。采样设备可以包括光参量振荡器网络，其通过与参考相位相关的光脉冲的干涉来模拟二体、三体或多体的相互作用。采样设备可以包括一个或多个具有可调谐和/或可控的多体相互作用的物理系统，其可以保持其热平衡或接近其稳定状态。

用于解决鲁棒推理问题的系统可以包括数字计算机，或相同用途的物品。采样设备可以包括数字计算机、中央处理单元以及耦合到中央处理单元的存储器单元。采样设备可以包括应用、软件模块、计算机程序、用户控制台或用于获取缩放参数的调度、鲁棒推理问题的数据或它们的组合的相同用途的物品。该应用、软件模块或相同用途的物品可以适用于执行基于蒙特卡罗的算法。基于蒙特卡洛的算法可以包括模拟退火、模拟量子退火、吉布斯采样或其任何组合。

采样设备可以包括可重构数字硬件、中央处理单元和存储器单元，其中中央处理单元和存储器单元耦合到可重构数字硬件。可重构数字硬件可以适用于获取缩放参数的调度、鲁棒推理问题的数据或其组合。该可重构数字硬件可以适用于执行基于蒙特卡洛的算法。基于蒙特卡洛的算法可以包括模拟退火、模拟量子退火、吉布斯采样或其任何组合。

用于在一个或多个给定或用户指定的缩放参数产生玻尔兹曼分布近似的设备和系统可以用作本文的采样设备。本文的采样设备可以是可以利用模拟退火、蒙特卡罗和/或量子蒙特卡罗方法的设备或系统。采样设备可以包括在处理器、数字处理设备、数字计算机、CPU或任何其他定制硬件(如现场可编程门阵列(FPGA)、图形处理单元(GPU)、特定应用集成电路(ASIC)或其组合)上实现的算法。采样设备可以包括基于量子电路的量子计算系统、携带量子退火或量子绝热计算的物理和/或近似实现的计算设备，或它们的组合。

本文的鲁棒推理问题的随机优化可以与训练结构支持向量机(SSVM)相关。鲁棒推理问题的随机优化可以与图像分割、图像标注和/或推荐系统相关。鲁棒推理问题的随机优化可以与来自压缩感知的基础追捕问题的对偶相关。鲁棒推理问题的随机优化可以与无监督学习、半监督学习、监督式学习和/或主动学习相关。

一个或多个子步骤可以包括获取关于第一变元x而取的目标函数或损失函数的梯度，其中目标函数或损失函数的第一变元可以取连续向量的当前值，而目标函数或损失函数的第二变元y可以取选择样本的值。k样本(y₁,…,y_k)∈y可以使用采样设备根据使用式(6)的概率来产生，其中x可以保持固定。对于每个样本y_j，索引j可以在1到k的范围内，且函数的梯度可以关于连续变量x进行评估，x在其当前值评估。对于该样本，y_j可以使用式(7)来产生：

例如，如果对于选择目标函数或损失函数可以有k样本的总数(k可以是任何整数)，那么k样本之一的每个梯度都可以产生k梯度。通过目标函数或损失函数的第一变元x取相同的当前连续向量，且第二变元y取选择样本的值，可以获取每个梯度。梯度可以使用数字计算机使用由采样设备产生的样本来获取。采样设备可以包括数字计算机、量子计算机或任何其他数字处理设备和/或设备。其他数字处理设备可以包括但不限于：混合计算机，其至少包括数字计算机和量子计算机。

一个或多个子步骤可以包括使用式(8)来获取式(7)中获取的一个或多个梯度的平均值：

例如，如果存在对于k样本获取的k梯度，则可以获取k梯度的平均值。k可以是大于1的整数。如果k等于1，那么一个或多个梯度的平均值可以等于单个梯度。

在每次迭代中，迭代优化过程中的一个或多个步骤可以包括获取一个或多个梯度的平均值的总和和/或部分总和，其中总和可以是对于目标函数或损失函数的选择子集中的所有目标函数或损失函数的，而部分总和可以是对于目标函数或损失函数的选择子集中的多于一个目标函数或损失函数的。总和和/或部分总和可以是梯度平均值的线性组合，如式(9)中所示：

例如，目标函数或损失函数的选择子集可以包括四个目标函数或损失函数；对于每个目标函数或损失函数，可以获取梯度的平均值。本文的总和可以包括将4个不同的乘以其相关权重的梯度平均值加起来，而本文的部分总和可以包括将任何2个或3个不同的乘以其相关权重的梯度平均值加起来。如果选择的子集中仅有一个目标函数或损失函数，总和可以是一个目标函数或损失函数的梯度的平均值乘以与其相关的权重。目标函数或损失函数的选择子集可以包含至少约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或更多个目标函数或损失函数。目标函数或损失函数的选择子集可以包含最多约100个、90个、80个、70个、60个、50个、40个、30个、20个、10个、9个、8个、7个、6个、5个、4个、3个、2个或1个目标函数或损失函数。目标函数或损失函数的选择子集可以包含若干目标函数或损失函数，这些目标函数或损失函数在前面任意两个值定义的范围内。

在每次迭代中，迭代优化过程中的一个或多个步骤可以进一步包括至少部分地基于以下中的一个或多个计算搜索方向：v1)一个或多个梯度的平均值的总和或部分总和(例如，加权总和或部分总和)，v2)缩放参数集的当前值，v3)一个或多个梯度的平均值的总和或部分总和的历史的至少一部分，和/或v4)缩放参数集的值的历史的至少一部分。特定元素的历史，例如，本文的梯度平均值的总和，可以包括特定元素的当前值(对于目标函数或损失函数的当前选择子集)和/或特定元素的先前值(对于目标函数或损失函数的先前选择子集)。此搜索方向，或等价的，下降方向-d，可以依赖于当前并且可以额外地依赖于对i₁的先前选择的/>的先前计算。

迭代优化过程中的一个或多个步骤可以进一步包括计算步长α，其确保方向-d向优化式(1)进步，或趋向于增加方向-d向优化式(1)进步的概率。步长可以至少部分地基于以下中的一个或多个被计算：vi1)缩放参数集的当前值，vi2)损失函数的选择子集；vi3)缩放参数集的值的历史的至少一部分，和/或vi4)损失函数的选择子集的历史的至少一部分。本文的目标函数子集或损失函数的选择子集的历史可以包括目标函数或损失函数的当前选择子集和/或目标函数或损失函数的一个或多个先前选择子集。迭代优化过程中的一个或多个步骤可以进一步包括使用步长和搜索方向来计算更新的当前连续向量，将连续向量的当前值设置为更新的当前连续向量。更新可由式(10)给出：

x←Π_C(x–αd) (10)

其中Π_C表示约束集C上的投影。更新序列可收敛到式(1)的近似解。

图1示出了使用采样设备对鲁棒推理问题进行随机优化的方法100的非限制性实施例的流程图。在第一操作102中，方法100可以包括接收(例如，通过数字计算机)鲁棒推理问题的数据。数据可以包括分组成非重叠子集的目标函数或损失函数集。损失函数集中的每个目标函数或损失函数都可以接受第一变元和第二变元。数据可以进一步包括：用于目标函数或损失函数集中的每个目标函数或损失函数的容许向量集。

在第二操作104中，方法100可以包括设置(例如，通过数字计算机)连续向量的当前值。

在第三操作106中，方法100可以包括接收(例如，通过数字计算机)缩放参数集的调度。

在第四操作108中，方法100可以包括至少部分地基于调度来确定缩放参数集的当前值。

在第五操作110中，方法100可以包括从非重叠子集中选择目标函数或损失函数的子集。

在第六操作112中，方法100可以包括迭代一系列步骤，以获取对于目标函数或损失函数的每个目标函数或损失函数的一个或多个梯度。一系列步骤可以包括由采样设备，根据与目标函数或损失函数相关的容许向量集来产生向量的一个或多个样本。这一系列步骤可以包括获取(例如，通过数字计算机)一个或多个梯度。一个或多个梯度的每个可以是目标函数或损失函数关于第一变元而取得的。这一系列步骤可以包括获取(例如，通过数字计算机)一个或多个梯度的平均值。

在第七操作114中，方法100可以包括获取(例如，通过数字计算机)一个或多个梯度的平均值的总和或部分总和。总和可以是对于目标函数或损失函数的选择子集中的所有目标函数或损失函数的。部分总和可以是对于目标函数或损失函数的选择子集中的多于一个目标函数或损失函数的。

在第八操作116中，方法100可以包括计算(例如，通过数字计算机)搜索方向。搜索方向可以至少部分地基于以下中的一个或多个被计算：v1)一个或多个梯度的平均值的总和或部分总和；v2)缩放参数集的当前值；v3)一个或多个梯度的平均值的总和或部分总和的历史的至少一部分；和v4)缩放参数集的值的历史的至少一部分。

在第九操作118中，方法100可以包括计算(例如，通过数字计算机)步长。步长可以至少部分地基于以下中的一个或多个被计算：vi1)缩放参数集的当前值；vi2)目标函数或损失函数的选择子集；vi3)缩放参数集的值的历史的至少一部分；和vi4)目标函数或损失函数的选择子集的历史的至少一部分；

在第十操作120中，方法100可以包括基于步长和搜索方向来设置(例如，通过数字计算机)连续向量的当前值。

在第十一操作122中，方法100可以包括提供连续向量的当前值。

第四操作108、第五操作110、第六操作112、第七操作114、第八操作116、第九操作118、第十操作120和第十一操作122的任何1个、2个、3个、4个、5个、6个、7个或8个都可以重复，直到满足停止标准。停止标准可以是本文描述的任何停止标准。

目标函数或损失函数可以包括第一和第二变元的一个或多个复合函数。获取(例如通过数字计算机)一个或多个梯度，其中一个或多个梯度的每个可以是目标函数或损失函数关于第一变元来取的，可以包括链式法则的迭代应用。链式法则的迭代应用可以使用自微分来进行。复合函数的一个或多个变元函数可以包括可微的特征提取器。可微的特征提取器可以包括深度神经网络。

计算(例如，通过数字计算机)搜索方向可以包括使用随机梯度下降法(SGD)、随机平均梯度法(SAG和SAGA)、随机方差缩减梯度法(SVRG)和/或随机双坐标上升法(SDCA)的一个或多个。

计算(例如，通过数字计算机)步长可以包括使用一个或多个自适应梯度下降方法。自适应梯度下降方法可以包括自适应矩估计(Adam)、约简均方(RMS)、均方根传播(RMSProp)和/或自适应梯度算法(AdaGrad)。

采样设备可以包括量子处理器和量子设备控制系统，用于获取缩放参数集的调度和鲁棒推理问题的数据。量子处理器可以耦合到数字计算机和量子设备控制系统。量子处理器可以包括本文描述的任何量子处理器或量子计算机。量子处理器可以包括多个量子位和多个耦合器。多个耦合器中的每个耦合器可以用于在多个量子位的两个量子位的交叉处提供通信耦合。向量的一个或多个样本可以遵循玻尔兹曼分布。采样设备可以是光参量振荡器网络。网络可以包括被配置成接收来自光能源的能量，并产生多个光参量振荡器和多个耦合设备，其中每个可控制地耦合多个光参量振荡器的光参量振荡器。采样设备可以包括中央处理单元以及耦合到处理单元的存储器单元。存储器单元可以包括用于获取缩放参数的调度和鲁棒推理问题的数据的应用，并且该应用可以被配置成实现马尔科夫链蒙特卡罗算法。采样设备可以包括可重构数字硬件、中央处理单元和存储器单元。中央处理单元和存储器单元可以耦合到可重构数字硬件。可重构数字硬件可以被配置成获取缩放参数的调度和鲁棒推理问题的数据，并且可重构数字硬件可以被配置成实现马尔可夫链蒙特卡罗算法。马尔可夫链蒙特卡罗算法可以包括模拟量子退火。马尔可夫链蒙特卡罗算法可以包括模拟退火。马尔可夫链蒙特卡罗算法可以包括吉布斯采样。

目标函数或损失函数集可以包括一个或多个目标函数或损失函数。目标函数或损失函数的非重叠子集可以仅包括两个目标函数或损失函数。

鲁棒推理问题的随机优化可以与训练结构支持向量机相关。鲁棒推理问题的数据可以与图像分割问题相关。鲁棒推理问题的数据可以与来自压缩感知问题的基础追捕问题的对偶相关。鲁棒推理问题的数据可以与半监督学习相关。鲁棒推理问题的数据可以根据名词短语共指解析问题获取。鲁棒推理问题的数据可以与主动学习相关。鲁棒推理问题的数据可以与图像标注问题相关。鲁棒推理问题的数据可以与推荐系统相关。

缩放参数集的调度可以由用户或自动地由算法确定。

停止标准可以至少部分地基于当前的和更新的当前向量之间的距离的大小。第一和第二变元可以是独立的，并且第一变元可以采用连续向量作为其值，第二变元可以采用离散向量作为其值，并且容许向量集可以包括容许离散向量集。

基于本文提供的方法100的许多变化、改变和适应是可能的。例如，方法100的操作顺序可以改变，删除一些操作，复制一些操作，以及适当添加附加操作。有些操作可以连续执行。有些操作可以并行执行。有些操作可以执行一次。有些操作可以执行多于一次。有些操作可以包括子操作。一些操作可以是自动的，而一些操作可以是手动的。

图2示意地说明出了使用采样设备对鲁棒推理问题进行随机优化的系统200的非限制性示例。该系统可以包括与量子计算系统交互的数字计算机。系统200可以包括数字计算机202和非经典计算系统，它可以是量子计算系统204。系统200可以实现图1的方法100。系统200可以例如是如美国专利公开号2017/0357539和2018/0091440中所描述的，其中的每一个均通过引用整体并入本文。量子计算系统204可以包括一个或多个超导量子位。量子计算系统可以包括本文描述的任何量子计算机或量子处理器。量子计算系统可以包括本文描述的任何量子计算量子位。数字计算机202可以通过与量子计算系统204发送和/或接收数据与量子计算系统204通信(例如，通过直接通信或通过网络)。数字计算机和量子位可以彼此远离地定位。数字计算机和量子位可以在本地彼此远离。在一些实施方式中，数字计算机202可以是任何类型。数字计算机202可以是台式计算机、笔记本电脑、平板电脑、服务器或智能电话。数字计算机202可以包括中央处理单元(CPU)302，亦称为微处理器，显示器设备304、输入设备306、通信端口308、数据总线310、存储器单元312和网络接口卡(NIC)322。CPU 302可以是单核或多核处理器。数字计算机202可以包括用于并行处理的多个处理器。

显示设备304可以包括用户界面(UI)。UI的示例包括但不限于图形用户界面(GUI)和基于网络的用户界面。

CPU 302可以用于处理计算机指令。可以提供CPU 302的各个实施方式。例如，中央处理器302可以是运行在3.6GHz并由英特尔^(TM)制造的CPU核心i7-3820。

显示器设备304可以用于向用户显示数据。本领域的技术人员将领会可以使用各种类型的显示器设备304。显示器设备304可以是液晶显示器(LCD)监控器。显示设备304可以具有触摸屏，例如电容式或电阻式触摸屏。

通信端口308可以用于与数字计算机202共享数据。通信端口308可以包括例如用于将键盘和鼠标连接至数字计算机202的通用串行总线(USB)端口。通信端口308还可以包括数据网络通信端口，诸如IEEE 802.3端口，用于使得数字计算机202能够经由数据网络与另一计算机相连接。本领域的技术人员将领会可以提供各种可选的实施方式的通信端口308。通信端口308可以包括以太网端口和鼠标端口。

存储器单元312可以用于存储计算机可执行指令。存储器单元312可以包括操作系统模块314。操作系统模块314可以是各种类型。在一些实施方式中，操作系统模块314可以是由Apple制造的OS X Yosemite。

存储器单元312可以进一步包括一个或多个应用。中央处理单元302、显示器设备304、输入设备306、通信端口308和存储器单元312中的一个或多个可以经由数据总线310而互连。

系统202还可以包括网络接口卡(NIC)322。应用程序320可以沿着数据总线310将适当的信号发送至NIC 322。NIC 322又可以将这样的信息发送至量子设备控制系统324。

量子计算系统204可以包括多个量子位和多个耦合设备。量子计算系统204的进一步描述在例如美国专利公开号2006/0225165中公开，其通过引用整体并入本文。

量子计算设备的量子计算系统204可以进一步包括量子设备控制系统324和量子处理器或量子计算机330。控制系统324可以包括耦合控制器和局部场偏置控制器，所述耦合控制器用于量子计算系统204的多个耦合328中的每个耦合，所述装置204能够调节相应耦合的耦合强度，而所述局部场偏置控制器用于量子计算系统204的多个量子位326中的每个量子位，所述装置204能够设置每个量子位上的局部场偏置。

本文描述的方法可以通过存储在计算机系统200的电子存储位置上(例如存储在存储器312或电子存储单元上)的机器(例如，计算机处理器)可执行代码来实现。可以用软件的形式提供机器可执行或机器可读代码。在使用期间，代码可由CPU 302执行。在一些情况中，代码可以从电子存储单元中取回并储存在存储器单元312上以供CPU 302存取。在一些情况下，可以排除电子存储单元，而将机器可执行指令储存在存储器单元312上。

代码可以被预编译并且被配置成与具有适于执行代码的处理器的机器一起使用，或者可以在运行期间被编译。可以用编程语言提供代码，可以选择编程语言以使得代码按预编译或即时编译的方式来执行。

本文提供的系统和方法的各个方面，如计算机系统1101，可以在编程中体现。本技术的各个方面可以被认为是通常为在一种机器可读介质中携带或体现的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品”。机器可执行代码可以储存在电子存储单元上，诸如存储器(例如，只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”类型介质可以包括计算机、处理器等的任何或所有有形存储器或者其相关模块，诸如各个半导体存储器、磁带驱动器、硬盘驱动器等，其可以在任何时间为软件编程提供非暂时性存储。所述软件的全部或部分有时可能通过因特网或各个其他电信网络进行通信。这样的通信例如可以使得软件从一台计算机或处理器加载到另一台计算机或处理器中，例如，从管理服务器或主计算机加载到应用服务器的计算机平台中。因此，可能承载软件元素的另一类介质包括光波、电波和电磁波，诸如跨本地设备之间的物理接口、通过有线电力以及/或者光学陆线网络上以及/或者经由各个空中链路而使用。运载这样的波的物理元件，诸如有线或无线链路、光学链路等，也可以被认为是承载软件的介质。如本文中所使用的，除非被限制成非暂时性的有形“存储”介质，否则诸如计算机或机器“可读介质”的术语指代参与向处理器提供指令以供执行的任何介质。

因此，诸如计算机可执行代码的机器可读介质可以采取多种形式，包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘，例如任何计算机等中的任何存储设备，例如可用于实现附图中所示的数据库等的存储设备。易失性存储介质包括动态存储器，诸如此类计算机平台的主存储器。有形传输介质包括同轴线缆；铜线和光纤，其包括在计算机系统内包括总线的导线。载波传输介质可能采取电信号或电磁信号的形式，或者采取声波或光波的形式，诸如在射频(RF)和红外(IF)数据通信期间产生的声波或光波。计算机可读介质的常见形式因此例如包括：软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、任何具有孔洞图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒、传输数据或指令的载波、传输此类载波的线缆或链路或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些计算机可读介质形式中的许多种可能包含在将一条或多条指令中的一个或多个序列运载至处理器用于执行。

如本说明书及所附权利要求书所述，除非另有说明，术语“约”“基本上”和“近似”是指取决于实施方式的小于或等于数值的+/-1％、+/-2％、+/-3％、+/-4％、+/-5％、+/-6％、+/-7％、+/-8％、+/-9％、+/-10％、+/-11％、+/-12％、+/-14％、+/-15％或+/-20％的变化。作为非限制性示例，取决于实施例，约100米代表95米至105米(100米的+/-5％)、90米至110米(100米的+/-10％)或85米到115米(100米的+/-15％)的范围。

本发明的方法和系统可以与其他方法和系统组合或通过其他方法和系统修改，例如在美国专利公开号2017/0357539和2018/0091440中描述的方法和系统，其中的每一个均通过引用整体并入本文。

尽管本文已经示出和描述了本发明的优选实施方式，但对于本领域技术人员容易理解的是，这样的实施方式只是以示例的方式提供的。本发明不旨在受本说明书中提供的特定示例所限。尽管本发明已参考上述说明书进行了描述，但本文对实施方式的描述和说明并不意图以限制性的意义来解释。本领域技术人员现将在不偏离本发明的情况下想到许多更改、改变和替代。此外，应当理解本发明的所有方面并不限于本文根据各种条件和变量来陈述的特定描述、配置或相对比例。应当理解，在实践本发明的过程中可以采用对本文所描述的本发明实施方式的各种替代方案。因此，本发明预计还应涵盖任何这样的替代方案、修改、更改或等同物。以下权利要求旨在限定本发明的范围，并因此涵盖这些权利要求及其等效项的范围内的方法和结构。

Claims

1.一种使用采样设备对鲁棒推理问题进行随机优化的计算机实现方法，包括：

a)由数字计算机接收所述鲁棒推理问题的数据，其中所述数据包括：

i)目标函数或损失函数集，该目标函数或损失函数集分组成非重叠子集，其中所述目标函数或损失函数集中的每个目标函数或损失函数都接受第一和第二变元；

ii)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许离散向量集；

b)由所述数字计算机设置连续向量的当前值；

c)由所述数字计算机接收缩放参数集的调度；以及

d)直到满足停止标准：

i)至少部分地基于所述调度来确定所述缩放参数集的当前值；

ii)从所述非重叠子集中选择所述目标函数或损失函数的子集；

iii)对所述目标函数或损失函数的所选择的子集的每个目标函数或损失函数迭代以下步骤：

1)由所述采样设备根据与所述目标函数或损失函数相关的所述容许离散向量集来产生离散向量的一个或多个样本：

2)由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个梯度都是所述目标函数或损失函数相对于所述第一变元而取得的；以及

3)由所述数字计算机获取所述一个或多个梯度的平均值；

iv)由所述数字计算机获取所述一个或多个梯度的所述平均值的总和或部分总和；其中所述总和是对于所述目标函数或损失函数的所选择子集中的所有目标函数或损失函数而言的，并且其中所述部分总和是对于所述目标函数或损失函数的所选择子集中的多于一个目标函数或损失函数而言的；

v)由所述数字计算机至少部分地基于以下中的一个或多个来计算搜索方向：v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和；v2)所述缩放参数集的所述当前值；v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分；和v4)所述缩放参数集的所述值的历史的至少一部分；

vi)由所述数字计算机至少部分地基于以下中的一个或多个来计算步长：vi1)所述缩放参数集的所述当前值；vi2)所述目标函数或损失函数的所选择子集；vi3)所述缩放参数集的值的历史的至少一部分；和vi4)所述目标函数或损失函数的所选择子集的历史的至少一部分；

vii)由所述数字计算机基于所述步长和所述搜索方向来设置所述连续向量的所述当前值；以及

viii)提供所述连续向量的所述当前值。

2.如权利要求1的所述方法，其中所述目标函数或损失函数包括所述第一和第二变元的一个或多个复合函数。

3.如权利要求2的所述方法，其中由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度的每个都是所述目标函数或损失函数关于所述第一变元而取得的，包括链式法则的迭代应用。

4.如权利要求3的所述方法，其中所述链式法则的所述迭代应用使用自微分来进行。

5.如权利要求2的所述方法，其中所述复合函数的一个或多个变元函数包括可微的特征提取器。

6.如权利要求5所述的方法，其中所述可微的特征提取器包括深度神经网络。

7.如权利要求1的所述方法，其中由所述数字计算机计算搜索方向包括使用随机梯度下降法(SGD)、随机平均梯度法(SAG和SAGA)、随机方差缩减梯度法(SVRG)或随机双坐标上升法(SDCA)中的一个或多个。

8.如权利要求1的所述方法，其中由所述数字计算机计算步长包括使用自适应梯度下降方法中的一个或多个，并且其中所述自适应梯度下降方法包括自适应矩估计(Adam)、约简均方(RMS)、均方根传播(RMSProp)和/或自适应梯度算法(AdaGrad)。

9.如权利要求1的所述方法，其中所述采样设备包括量子处理器和量子设备控制系统，用于获取所述缩放参数集的所述调度和所述鲁棒推理问题的所述数据。

10.如权利要求9的所述方法，其中所述量子处理器耦合到所述数字计算机和所述量子设备控制系统。

11.如权利要求10的所述方法，其中所述量子处理器包括多个量子位和多个耦合器，所述多个耦合器中的每个耦合器用于在所述多个量子位中的两个量子位的交叉处提供通信耦合。

12.如权利要求11的所述方法，其中离散向量的所述一个或多个样本遵循玻尔兹曼分布。

13.如权利要求12的所述方法，其中所述采样设备是光参量振荡器网络，所述网络包括：

a)光学器件，所述光学器件被配置成接收来自光能源的能量并产生多个光参量振荡器；和

b)多个耦合设备，其中所述多个耦合设备中的每个可控制地耦合所述多个光参量振荡器中的一光参量振荡器。

14.如权利要求1的所述方法，其中所述采样设备包括中央处理单元以及耦合到所述中央处理单元的存储器单元。

15.如权利要求14的所述方法，其中所述存储器单元包括用于获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据的应用，并且其中所述应用被配置成实现马尔科夫链蒙特卡洛算法。

16.如权利要求1的所述方法，其中所述采样设备包括可重构数字硬件、中央处理单元和存储器单元，所述中央处理单元和所述存储器单元耦合到所述可重构数字硬件。

17.如权利要求16的所述方法，其中所述可重构数字硬件被配置成获取所述缩放参数的所述调度和所述鲁棒推理问题的所述数据，并且其中所述可重构数字硬件被配置成实现马尔科夫链蒙特卡洛算法。

18.如权利要求15或17的所述方法，其中所述马尔可夫链蒙特卡罗算法包括模拟量子退火。

19.如权利要求15或17的所述方法，其中所述马尔可夫链蒙特卡罗算法包括模拟退火。

20.如权利要求15或17的所述方法，其中所述马尔可夫链蒙特卡罗算法包括吉布斯采样。

21.如权利要求1的所述方法，其中所述目标函数或损失函数集包括一个或多个目标函数或损失函数。

22.如权利要求1的所述方法，其中所述鲁棒推理问题的所述随机优化与训练一结构支持向量机相关。

23.如权利要求1的所述方法，其中所述目标函数或损失函数的非重叠子集中的每个子集仅包括两个目标函数或损失函数。

24.如权利要求1的所述方法，其中所述鲁棒推理问题的所述数据与图像分割问题相关。

25.如权利要求1的所述方法，其中所述鲁棒推理问题的所述数据与来自压缩感知问题的基础追捕问题的对偶相关。

26.如权利要求1的所述方法，其中所述鲁棒推理问题的所述数据与半监督学习相关。

27.如权利要求1的所述方法，其中所述鲁棒推理问题的所述数据是根据名词短语共指解析问题获取的。

28.如权利要求1的所述方法，其中所述鲁棒推理问题的所述数据与主动学习相关。

29.如权利要求1的所述方法，其中所述鲁棒推理问题的所述数据与图像标注问题相关。

30.如权利要求1的所述方法，其中所述鲁棒推理问题的所述数据与推荐系统相关。

31.如权利要求1的所述方法，其中所述缩放参数集的所述调度由用户或由算法自动地确定。

32.如权利要求1的所述方法，其中所述数字计算机相对于所述采样设备被远程定位。

33.如权利要求1的所述方法，其中所述停止标准至少部分地基于所述当前向量的值和所述当前向量的过去值。

34.如权利要求1的所述方法，其中(1)包括由所述采样设备产生离散向量的一个或多个样本，所述一个或多个样本中的每个样本是根据与所述目标函数或损失函数相关的所述容许离散向量集产生的；其中所述一个或多个样本中的每个样本是基于至少部分地由所述缩放参数集和所述目标函数或损失函数确定的概率分布产生的，其中所述目标函数或损失函数的所述第一变元取得所述连续向量的所述当前值。

35.如权利要求1或34的所述方法，其中(2)包括由所述数字计算机获取一个或多个梯度，其中所述一个或多个梯度中的每个梯度都是所述目标函数或损失函数相对于所述第一变元而取得的，其中所述目标函数或损失函数的所述第一变元取得所述连续向量的所述当前值，并且所述第二变元从所述一个或多个样本中取得选择的样本的值，其中所述选择的样本是非重复选择的。

36.如权利要求1的所述方法，其中所述停止标准包括用于确定所述鲁棒推理问题的解的准确性的规则集。

37.如权利要求1的所述方法，其中所述目标函数或损失函数的子集的所述选择是非重复的或重复的。

38.如权利要求1的所述方法，其中所述采样设备包非经典计算机。

39.如权利要求38的所述方法，其中所述非经典计算机是量子计算机。

40.一种使用采样设备对鲁棒推理问题进行随机优化的系统，所述系统包括数字计算机，所述数字计算机被配置成：

a)接收所述鲁棒推理问题的数据，其中所述数据包括：

i)用于所述目标函数或损失函数集中的每个目标函数或损失函数的容许离散向量集；

b)设置连续向量的当前值为初始向量；

c)接收缩放参数集的调度；

d)至少部分地基于所述调度来设置所述缩放参数集的初始值；和

e)直到满足停止标准：

iii)对所述目标函数或损失函数的所选择子集的每个目标函数或损失函数迭代以下步骤：

1)控制所述采样设备以根据与所述目标函数或损失函数相关的所述容许向量集来产生离散向量的一个或多个样本；

2)获取一个或多个梯度，其中所述一个或多个梯度的每个梯度都是所述目标函数或损失函数相对于所述第一变元而取得的；以及

3)获取所述一个或多个梯度的平均值；

iv)获取所述一个或多个梯度的所述平均值的总和或部分总和，其中所述总和是对于所述目标函数或损失函数的所选择子集中的所有目标函数或损失函数而言的，并且其中所述部分总和是对于所述目标函数或损失函数的所选择子集中的多于一个目标函数或损失函数而言的；

v)至少部分地基于以下中的一个或多个来计算搜索方向：v1)所述一个或多个梯度的所述平均值的所述总和或所述部分总和；v2)所述缩放参数集的所述当前值；v3)所述一个或多个梯度的所述平均值的所述总和或所述部分总和的历史的至少一部分；和v4)所述缩放参数集的所述值的历史的至少一部分；

vi)至少部分地基于以下中的一个或多个来计算步长：vi1)所述缩放参数集的所述当前值；vi2)所述目标函数或损失函数的所选择子集；vi3)所述缩放参数集的值的历史的至少一部分；和vi4)所述目标函数或损失函数的所选择子集的历史的至少一部分；

vii)基于所述步长和所述搜索方向来设置所述连续向量的所述当前值；以及

viii)提供所述连续向量的所述当前值。

41.如权利要求40的所述系统，其中所述采样设备包非经典计算机。

42.如权利要求41的所述系统，其中所述非经典计算机是量子计算机。