CN112388628A - 用于训练高斯过程回归模型的设备和方法 - Google Patents

用于训练高斯过程回归模型的设备和方法 Download PDF

Info

Publication number
CN112388628A
CN112388628A CN202010805408.1A CN202010805408A CN112388628A CN 112388628 A CN112388628 A CN 112388628A CN 202010805408 A CN202010805408 A CN 202010805408A CN 112388628 A CN112388628 A CN 112388628A
Authority
CN
China
Prior art keywords
sensor data
gaussian process
training
batch
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010805408.1A
Other languages
English (en)
Other versions
CN112388628B (zh
Inventor
H·S·A·于
C·齐默尔
T·D·阮-蔷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN112388628A publication Critical patent/CN112388628A/zh
Application granted granted Critical
Publication of CN112388628B publication Critical patent/CN112388628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • B25J9/161Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Feedback Control In General (AREA)
  • Manipulator (AREA)

Abstract

用于训练高斯过程回归模型的设备和方法。根据各种实施例,描述了用于训练高斯过程回归模型的方法,包括:基于训练数据点集合训练高斯过程回归模型,其中每个训练数据点与传感器数据函数值和一个或多个传感器数据导数值相关联;确定附加训练数据点的批次,其基于从所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中选择的部分预测协方差矩阵的度量的优化,部分预测协方差矩阵包括所述批次的传感器数据函数值的预测协方差;以及基于传感器数据函数值和与附加训练数据点相关联的一个或多个传感器数据导数值来更新高斯过程回归模型。

Description

用于训练高斯过程回归模型的设备和方法
技术领域
本公开涉及用于训练高斯过程回归模型的设备和方法。
背景技术
主动学习考虑用于监督式学习的顺序数据标记的过程,其旨在利用尽可能少的所选训练实例实现期望的准确度。该方法在包括用于监督式模型学习的数据生成在内的许多应用中是有用的。
然而,在许多实际设置中,取代于单个顺序查询而并行执行多个查询更具成本效益,例如,学习用于机器人导航的高度图和用于控制器优化的实验生成。这样的问题已经在批模式主动学习(BAL)领域中进行了研究。
由C. Plagemann 等人在2009年《野外机器人杂志》 中的发表物“A BayesianRegression Approach to Terrain Mapping and an Application to Legged RobotLocomotion”应对从稀疏和有噪声的高程测量中学习地形表面的概率模型。将学习形式化为回归问题,并且基于非平稳高斯过程导出解。
发明内容
具有独立权利要求1(第一示例)和14(第十四示例)的特征的方法和设备允许包括导数信息的高斯过程回归模型的高效训练。与没有导数信息的训练相比,考虑导数信息允许以更高的准确度和/或基于更少的训练数据点来训练高斯过程回归模型。
一种用于训练高斯过程回归模型的方法可以包括:基于训练数据点集合训练高斯过程回归模型,其中每个训练数据点与传感器数据函数值和一个或多个传感器数据导数值相关联;确定附加训练数据点的批次,其基于从所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中选择的部分预测协方差矩阵的度量的优化,部分预测协方差矩阵包括所述批次的传感器数据函数值的预测协方差;以及基于传感器数据函数值和与附加训练数据点相关联的一个或多个传感器数据导数值来更新高斯过程回归模型。本段中提到的方法提供了第一示例。所述方法例如可以是计算机实现的方法。
所述方法可以进一步包括控制传感器获取传感器数据,从所述传感器数据可以导出传感器数据函数值和传感器数据导数值,以及从获取的传感器数据导出传感器数据函数值和传感器数据导数值。本段中提到的特征与第一示例相组合提供了第二示例。
所述方法可以进一步包括基于部分预测协方差矩阵的一个或多个特征值的度量的最大化来选择所述批次。本段中提到的特征与第一示例至第二示例中的任何一个相组合提供了第三示例。
矩阵的度量可以是部分预测协方差矩阵的迹、行列式或最大特征值。本段中提到的特征与第一示例至第三示例中的任何一个相组合提供了第四示例。
所述方法可以进一步包括基于在数据点空间的一个或多个方向上附加训练数据点的传感器数据函数值的预测方差的最大化来选择所述批次。本段中提到的特征与第一示例至第四示例中的任何一个相组合提供了第五示例。
所述方法可以进一步包括基于附加训练数据点的传感器数据函数值的预测协方差矩阵的一个或多个主要方向度量的最大化来选择所述批次。本段中提到的特征与第一示例至第五示例中的任何一个相组合提供了第六示例。根据第三示例至第六示例中的一个示例的批次选择允许例如依据所需数量的测量对高斯过程回归模型的高效训练。
所述方法可以进一步包括确定所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵,以及从所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中选择部分预测协方差矩阵。本段中提到的特征与第一示例至第六示例中的任何一个相组合提供了第七示例。
可以选择部分预测协方差矩阵,以省略所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中包括传感器数据函数值与传感器数据导数值之间的协方差以及传感器数据导数值本身之间的协方差的那些部分。本段中提到的特征与第一示例至第七示例中的任何一个相组合提供了第八示例。与使用预测协方差的全矩阵相比,这显著减小用于批次选择的计算努力,而同时仍然允许高效的批次选择。
高斯过程回归模型可以包括高斯过程超参数,并且其中训练高斯过程回归模型包括基于训练数据点集合确定超参数。本段中提到的特征与第一示例至第八示例中的任何一个相组合提供了第九示例。
高斯过程回归模型可以包括高斯过程超参数,并且其中更新高斯过程回归模型包括基于传感器数据函数值和与训练数据点相关联的一个或多个传感器数据导数值以及基于传感器数据函数值和与附加训练数据点相关联的一个或多个传感器数据导数值来确定超参数。本段中提到的特征与第一示例至第九示例中的任何一个相组合提供了第十示例。
确定超参数可以包括在给定由超参数指定的高斯过程回归模型的情况下,基于传感器数据函数值和所述一个或多个传感器数据导数值的概率的最大化来确定超参数。本段中提到的特征与第九示例和第十示例中的任何一个相组合提供了第十一示例。
所述方法可以进一步包括将训练数据点加上附加数据点设置为下一训练数据点集合,以及基于作为训练数据点集合的下一训练数据点集合重复批次选择和高斯过程回归模型的更新。本段中提到的特征与第一示例至第十一示例中的任何一个相组合提供了第十二示例。
所述方法可以进一步包括基于经更新的高斯过程回归模型来控制一个或多个致动器。本段中提到的特征与第一示例至第十二示例中的任何一个相组合提供了第十三示例。基于经训练的高斯过程回归模型对一个或多个致动器(例如机器人)的控制允许精确控制(由于考虑了导数信息),而同时避免过多的计算努力(由于基于部分预测协方差矩阵的批次选择)。这可以特别地允许以可承受的计算努力进行实时控制。
回归设备可以被配置为执行第一示例至第十三示例中的任何一个的方法。本段中提到的回归设备提供了第十四示例。
一种计算机程序可以具有程序指令,所述程序指令被配置为当由一个或多个处理器执行时,使所述一个或多个处理器执行根据第一至第十三示例中的一个或多个的方法。
所述计算机程序可以存储在机器可读存储介质中。
附图说明
在附图中,同样的参考字符贯穿不同的视图一般指代相同的部分。附图不一定是按比例的,而是一般将重点放在说明本发明的原理上。在以下描述中,参考以下附图描述了各个方面,附图中:
图1示出了机器人。
图2示出了可以从高斯过程中采样的函数的示例。
图3示出了可以从具有一些观察到的函数值的高斯过程中采样的函数的示例。
图4示出了图示用于确定在机器人的周围环境中的高度图的方法的流程图,所述方法例如由图1的机器人的控制器实行。
图5示出了对于各种批次选择方法,在均方根误差随迭代次数改变方面的性能。
图6示出了图示用于训练高斯过程回归模型的方法的流程图。
具体实施方式
以下详细描述涉及附图,附图通过图示的方式示出了其中可以实践本发明的本公开的具体细节和方面。在不脱离本发明的范围的情况下,可以利用其他方面,并且可以进行结构、逻辑和电气改变。本公开的各个方面不一定是互斥的,因为本公开的一些方面可以与本公开的一个或多个其他方面相组合以形成新的方面。
在下文中,将更详细地描述各种示例。
批模式主动学习(BAL)可以例如使用在用于学习高度图的机器人导航中,如图1中所图示的。
图1示出了机器人100。
图1的应用示例的机器人100是四足机器人,其具有用于在地面102上行走的四个腿101,并且具有用以观察其局部周围环境、特别是地面102的激光传感器103。通过弯曲它的腿101,机器人101能够获取某个距离范围中地面102的高度信息。
这意味着,对于地面102上的某个位置104,机器人100可以获取位置104处的地面高度h(相对于某参考高度)。
机器人包括控制器105,控制器105可以从传感器104获取传感器数据,例如各种位置处的高度信息。
此外,假设控制器105可以获取每个位置104处的导数信息,即关于位置104处的斜率s的信息。控制器105可以例如通过控制传感器103测量在位置104附近的高度并且计算差商来估计位置104处的斜率来完成这一点。在下文中,高度信息和导数信息被视为传感器数据(即使导数的生成可能牵涉到某种处理,如计算差商)。由传感器103获取的一个位置的高度信息和导数信息(或一般为一个数据点的传感器数据)形成训练传感器数据样本(或简称为(训练)样本),所述训练传感器数据样本(或简称为(训练)样本)可以用于训练表示高度图(对高度图进行建模)的统计模型107,所述高度图即在机器人100附近的地面102的高度。
在图1的示例中,通过使用获取的传感器数据,控制器105可以学习机器人的周围环境的高度图,并且可以根据高度图控制机器人的移动。例如,腿包括致动器106,控制器105被配置为基于高度图(以及如规划路线等另外的信息)来控制该致动器106。
统计模型107是回归模型,其允许控制器105预测机器人100尚未观察到的位置(即,其高度和斜率尚未被测量)处的高度。
根据各种实施例,导数信息用于具有高斯过程的BAL。在图1的示例中,这意味着被训练的统计模型107是高斯过程,控制器105使用批模式主动学习(BAL)来训练该高斯过程,并且该高斯过程对于每个位置104表示地面102的高度和斜率信息。
因此,根据各种实施例,高斯过程回归模型被训练(以及例如,被用于控制一个或多个致动器),其中包括导数观察。根据各种实施例,高斯过程的协方差矩阵被用于选择数据批次(用于BAL),以利用样本的全相关性。
在下文中,描述了根据各种实施例的使用具有导数的高斯过程的批模式主动学习的示例。
在下文中考虑监督式学习问题,其中给定n个初始输入(即数据点)
Figure DEST_PATH_IMAGE001
Figure 492047DEST_PATH_IMAGE002
和输出(即数据点值)
Figure DEST_PATH_IMAGE003
。例如,数据点是位置(例如,对于2维地面102上的d=2),并且每个数据点的数据点值是该位置处的地形高度。目的是要学习将
Figure 268242DEST_PATH_IMAGE004
映射到
Figure DEST_PATH_IMAGE005
的回归模型,例如将每个位置104映射到高度h的高度图。
高斯过程是随机变量的集合,其中任何有限数量的随机变量具有由其均值函数
Figure 297246DEST_PATH_IMAGE006
和协方差函数
Figure DEST_PATH_IMAGE007
指定的联合多元正态分布。对于任何
Figure 676144DEST_PATH_IMAGE008
,分布f通常写成
Figure DEST_PATH_IMAGE009
。先验均值函数通常被设置为零,并且协方差函数可以用于对关于要学习的函数的假设进行编码。具有高斯输出噪声σ2的模型的全分布写成
Figure 83991DEST_PATH_IMAGE010
其中
Figure DEST_PATH_IMAGE011
是协方差矩阵,并且
Figure 827825DEST_PATH_IMAGE012
是单位矩阵,两者大小都为n。作为协方差函数,可以例如采用平方指数内核,即
Figure DEST_PATH_IMAGE013
,其由超参数
Figure 688334DEST_PATH_IMAGE014
进行参数化。
应当注意,虽然在所描述的实施例中使用平方指数内核,但是它们可以类似地基于其他内核(特别是至少可微分两次的内核)。
高斯过程可以被看作是可能函数之上的概率分布。这意味着可以从高斯过程中对函数进行采样,其中靠近先验均值函数的函数比远离的函数以更高的概率出现。
图2示出了可以从高斯过程中采样的函数的示例。
在图1的示例中,函数可以(在所图示的一维情况下)表示沿着一维路径的高度。由于所有种类的函数都可能发生(其是或多或少的可能性),所以对高度的任何种类的预测都是不确定的。
当已经观察到一些数据点的函数值时,可以增加预测的确定性。
图3示出了可以从具有一些观察到的函数值的高斯过程中采样的函数的示例。假设对于一些数据点,例如基于测量,观察到函数值301。因此,说明性地,高斯过程在这些数据点处被“固定”到测量的函数值(这里假设测量本身出于说明的目的是精准的)。此外,由于数据点之间的相关性
Figure DEST_PATH_IMAGE015
,因此与图2的示例相比,减小了在数据点处、而且在其中尚未测量函数值的数据点处的方差。这特别地允许在尚未测量的查询数据点(例如位置)处进行预测(例如高度的预测)。已经由测量观察到的函数值越多,这些预测就越确定。
在批模式的情况下,针对mt个查询点的集合
Figure 277447DEST_PATH_IMAGE016
的预测
Figure DEST_PATH_IMAGE017
可以被计算为
Figure 20362DEST_PATH_IMAGE018
其中
Figure DEST_PATH_IMAGE019
(2)
Figure 341622DEST_PATH_IMAGE020
(3)
其中
Figure DEST_PATH_IMAGE021
Figure 158268DEST_PATH_IMAGE022
矩阵。此外,
Figure DEST_PATH_IMAGE023
Figure 692017DEST_PATH_IMAGE024
具有大小
Figure DEST_PATH_IMAGE025
。与单点预测形成对比,预测均值(对于mt个数据点的批次)变成
Figure 949823DEST_PATH_IMAGE026
向量,并且预测协方差
Figure DEST_PATH_IMAGE027
Figure 176405DEST_PATH_IMAGE028
矩阵。
由于微分是线性算子,高斯过程的导数是另一个高斯过程。因此,具有连续的输入传感器数据(例如,时间序列输入、地形高程数据等)——其中有可能估计每个测量点处的梯度(例如,每个位置104处的斜率s),导数信息可以被包括在高斯过程回归模型中。
yi也称为函数值,并且其形成梯度
Figure DEST_PATH_IMAGE029
的偏导数被称为导数值。两者一起被称为数据点(输入)xi的数据点值。
将梯度信息(例如测量)
Figure 480348DEST_PATH_IMAGE030
给定为数据点xi处的偏导数,批次
Figure DEST_PATH_IMAGE031
的预测可以计算为
Figure 411263DEST_PATH_IMAGE032
(4)
其中
Figure DEST_PATH_IMAGE033
(5)
Figure 789155DEST_PATH_IMAGE034
(6)。
扩展的协方差矩阵
Figure DEST_PATH_IMAGE035
和内核评估
Figure 186638DEST_PATH_IMAGE036
被给定为
Figure DEST_PATH_IMAGE037
记号
Figure 509035DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
以模拟方式定义。应当注意,利用导数信息,新的预测均值变成
Figure 837117DEST_PATH_IMAGE040
向量,而预测协方差变成
Figure DEST_PATH_IMAGE041
矩阵。
如通过等式(5)和(6)给定的预测分布示出了,除了存在附加梯度项之外,它们类似于如通过等式(2)和等式(3)给定的没有导数的情况。
具体地,
Figure 600674DEST_PATH_IMAGE042
指代(函数值的)预测均值,而
Figure DEST_PATH_IMAGE043
用于批次数据点的梯度(导数值)。类似地,
Figure 762534DEST_PATH_IMAGE044
是函数值的预测协方差,
Figure DEST_PATH_IMAGE045
是导数值(梯度)的对应协方差,并且
Figure 368965DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE047
是函数值与导数值之间的互协方差项。
用于回归的批模式主动学习包括主动学习,所述主动学习包括如下查询策略:挑选最合适的新数据点批次
Figure 313787DEST_PATH_IMAGE048
,以在探索期间——即,在收集新数据点的函数值和导数值(例如新位置的高度和斜率值)期间——学习回归模型。
根据各种实施例,采用熵准则进行探索,而同时基于高斯过程的最大方差使用新数据点的贪婪选择。在协方差矩阵的情况下,可以使用最优性准则(由矩阵的度量I表示)来将协方差矩阵映射到数字。特别地,可以使用行列式(作为矩阵度量),其等同于D-最优性。根据各种实施例,迹和最大特征值被用于等同于A-最优性和E-最优性的最优性准则。
在具有梯度的BAL场景中,存在不同的协方差矩阵选择以用于进行探索。根据各种实施例,使用对应于函数值的预测协方差的子矩阵
Figure DEST_PATH_IMAGE049
。由于应当探索函数值空间,因此
Figure 728588DEST_PATH_IMAGE050
的度量可以被看作适当的度量。附加地,因为
Figure DEST_PATH_IMAGE051
仅具有维数
Figure 467874DEST_PATH_IMAGE052
,所以它也是用于选择新数据点的计算上有利的基础。
因此,根据各种实施例,用于获得新的数据点批次的BAL策略是通过如下求解优化问题而给出的
Figure DEST_PATH_IMAGE053
(7)
其中I是例如迹或最大特征值算子。
如下的算法1总结了使用具有导数的高斯过程的全BAL方法,因为它可以由诸如控制器105的控制器来执行,以根据各种实施例训练高斯过程回归模型。
Figure 968125DEST_PATH_IMAGE054
高斯过程回归模型的更新可以被看作基于初始训练数据和新批次(即,将数据点
Figure DEST_PATH_IMAGE055
的数据点值包括到训练数据集中)一起对高斯过程的训练。通过最大化等式(4)中给出的概率(或其对数)来确定(或更新)超参数。
因为迹和最大特征值是连续函数,所以等式(7)的优化可以使用基于梯度的方法来执行。
这里,
Figure 716638DEST_PATH_IMAGE056
可以统一地被初始化或作为优化的预处理步骤经由聚类被初始化。应当注意,可以采用类似的方法用于在稀疏高斯过程场景中伪输入的优化。
在下文中,描述了控制器105对用于高度图确定的算法1的应用。
图4示出了图示用于确定在机器人的周围环境中的高度图的方法的流程图400,所述方法例如由图1的机器人的控制器105实行。控制器105从机器人100可能已经借助于其传感器103获取的相同初始训练数据401开始学习高度图。初始训练数据401包括初始位置
Figure DEST_PATH_IMAGE058A
的高度和斜率信息。
控制器然后基于初始训练数据训练高斯过程模型402(对应于统计模型107)。
然后,在403中,控制器105基于等式(7)确定附加位置批次
Figure DEST_PATH_IMAGE059
(或者,一般地,对于迭代t为
Figure 517104DEST_PATH_IMAGE060
),即,基于优化确定应当获取哪个位置的高度和斜率信息(即,下一批次应当看起来如何),以用于训练高斯过程模型。
在404中,控制器105控制传感器103获取下一批次,即获取位置
Figure 896133DEST_PATH_IMAGE059
(或者,一般地,对于迭代t为
Figure 149260DEST_PATH_IMAGE060
)的高度和斜率信息。
控制器105然后更新训练集(即,在训练数据中包括新批次),并且基于402中经更新的训练集更新高斯过程模型,在(403、404和402的)一定次数的迭代之内以此类推,或者已经达到高度图的一定准确度。控制器105然后可以例如在405中暂停,直到机器人100已经达到其中高度图尚未已知并且应当再次被确定的区域。
应当注意,导数信息仍然具有显著的影响,尽管仅采用子矩阵
Figure DEST_PATH_IMAGE061
进行探索。事实上,可以示出,
Figure 842409DEST_PATH_IMAGE062
总是以等式(3)的
Figure DEST_PATH_IMAGE063
(即,没有导数的输入的预测协方差)为上界(即“低于”等式(3)的
Figure 762961DEST_PATH_IMAGE063
)。这证实了包括导数信息减小输入(数据点)处的预测不确定性的直觉。为了示出具有导数的预测协方差
Figure 250574DEST_PATH_IMAGE062
低于没有导数的预测协方差
Figure 928680DEST_PATH_IMAGE063
,可以应用
Figure 284575DEST_PATH_IMAGE064
偏序的概念,这是由于两个矩阵具有相同的大小、对称且正定。为简单起见,假设针对所有T个回合取得m个点的批次。也就是说,
Figure DEST_PATH_IMAGE065
。还假设,协方差函数至少可微分两次。
可以示出(通过来自舒尔补(Schur complement)的变分特性化的应用):
给定相同空间进行探索,在点的批次
Figure 731737DEST_PATH_IMAGE066
处具有导数信息的预测协方差在
Figure 390251DEST_PATH_IMAGE064
偏序的意义上总是以没有导数信息的预测协方差为上界。也就是说,
Figure DEST_PATH_IMAGE068A
在预测协方差只是方差(即正实数)的情况下,该陈述归结为不等式。该陈述从简单的不等式扩展到如下事实:在最优性准则(即行列式、最大特征值和迹)下,从具有导数的预测协方差矩阵计算的量总是小于在没有导数的情况下的量。
这示出了,仅基于函数值的预测协方差对具有导数的高斯过程的批次选择(例如,如在算法1中)将与对没有导数的高斯过程的批次选择至少一样好。
除此之外,可以进一步根据经验示出,仅基于函数值的预测协方差对具有导数的高斯过程的批次选择(例如,如在算法1中)与基于全预测协方差矩阵对具有导数的高斯过程的批次选择表现得类似。在图5中示出了对应的结果。
图5示出了对于如下各项,在均方根误差(沿着y轴指示)随迭代次数(沿着x轴指示)改变方面的性能:
·没有导数的高斯过程(第一曲线图501)
·仅基于函数值的预测协方差的具有导数的高斯过程(第二曲线图502)
·将迹用于最优性准则的基于全预测协方差矩阵的具有导数的高斯过程(第三曲线图503)
·将最大特征值用于最优性准则的基于全预测协方差矩阵的具有导数的高斯过程(第四曲线图504)。
关于收敛性,当将迹用于最优性准则(即A-最优性)时,可以示出以下陈述。
Figure DEST_PATH_IMAGE069
是紧且凸的域内T个任意探索的点的补片,并且k是内核函数,使得
Figure 352391DEST_PATH_IMAGE070
。令
Figure DEST_PATH_IMAGE071
是在步骤t处使用的具有导数信息的预测协方差矩阵。如果该矩阵来自根据等式(7)的探索方案,则
Figure 511977DEST_PATH_IMAGE072
这意味着具有导数的预测协方差的迹的平均值趋于零,这暗示预测变得更精确。
虽然以上陈述是针对A-最优性的,但是也可以类似地示出针对D-最优性的情况。此外,可以示出,对于具有相同衰减率的E-最优性也是如此,使得在此方面可以在迹与最大特征值之间自由选择。
总之,根据各种实施例,提供了如图6中图示的方法。
图6示出了图示用于训练高斯过程回归模型的方法的流程图600。
在601中,基于训练数据点集合训练高斯过程回归模型,其中每个训练数据点与传感器数据函数值和一个或多个传感器数据导数值相关联。
在602中,确定附加训练数据点的批次,其基于从所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中选择的部分预测协方差矩阵的度量的优化。部分预测协方差矩阵包括所述批次的传感器数据函数值的预测协方差(例如,由所述批次的传感器数据函数值的预测协方差组成),即被选择为包括所述批次的传感器数据函数值的预测协方差(例如,由所述批次的传感器数据函数值的预测协方差组成)。
在603中,基于传感器数据函数值和与附加训练数据点相关联的一个或多个传感器数据导数值来更新高斯过程回归模型。
根据各种实施例,换言之,与高斯过程相组合地使用BAL方法,即使用BAL训练高斯过程模型。高斯过程模型包括每个数据点的导数信息。这允许实现模型的高鲁棒性,这是因为由于包含附加的导数信息而可以实现较小的预测不确定性。此外,可以实现更好的模型准确度,即更小的预测误差,尤其是对于动力学模型而言。
每个训练点和每个附加训练数据点与传感器数据函数值和一个或多个传感器数据导数值相关联。这可以理解为传感器数据(对应于训练数据点和附加训练数据点)表示函数在数据点处的函数值和该函数在数据点处的导数(例如,在一个或多个空间方向上的一个或多个偏导数)。换言之,传感器数据函数值是测量的传感器数据值(称为“函数值”以区别于“导数值”),并且导数值可以是从测量的传感器数据值导出的近似导数。
所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵可以被看作高斯过程的后验协方差矩阵。
部分预测协方差矩阵可以是后验协方差矩阵的子矩阵,所述子矩阵包括训练数据点和附加训练数据点的传感器数据函数值的预测协方差(例如,由训练数据点和附加训练数据点的传感器数据函数值的预测协方差组成),并且省略例如传感器数据函数值与传感器数据导数值之间的预测协方差以及传感器数据导数值本身之间的预测协方差。
可以看出,批次的选择仅基于函数值的协方差来执行,即忽略导数值与函数值之间以及导数值本身之间的协方差。换言之,优化被应用于完整的预测协方差矩阵的子矩阵的度量,即,由(训练集和批次的)函数值的协方差值组成的子矩阵。这允许与在完整的预测协方差矩阵上进行批次选择相比,大量地减小用于探索(即用于选择新批次)的复杂性(即计算努力)。换言之,对于附加训练点的候选集合(即候选批次),(候选附加训练点的)函数值的协方差矩阵的子矩阵,评估子矩阵的度量。如果度量满足最优性准则,则可以接受批次。如果不满足,则继续对附加训练点的批次进行搜索(例如,基于子矩阵度量的梯度下降)。
可以看出,图6的方法是基于导数信息仍然具有显著影响的事实,尽管仅预测协方差(完整)矩阵的子矩阵(部分预测协方差矩阵)——即函数值之间协方差的子矩阵——被用于探索。因此,使用子矩阵并且仍然利用梯度信息是合理的。
假使高斯过程模型或系统(例如控制器)的操作是安全关键的,则可以考虑附加的安全约束。这可以通过向(7)中的优化问题添加约束来完成。
传感器数据(数据点的函数值和导数值)可以以传感器信号的形式从几乎任何类型(例如视频、雷达、LiDAR、超声、运动)的传感器获得。图6的方法可以用于计算用于控制物理系统的控制信号,所述物理系统如,例如计算机控制的机器、如机器人、车辆、家用器具、电动工具、制造机器、个人助理或访问控制系统。可以通过选择相对于给定成本函数最优的控制信号来(例如,通过控制器)执行控制。例如,基于对离散化的点的评估来优化连续控制信号。
图6的方法也可以用于生成用于另一个模型(例如神经网络)的训练的训练数据。特别地,高斯过程模型可以用作生成模型。例如,图6的方法可以用于探索和数据生成,以用于关于物理系统(例如发动机测试台)的在线实验设计。
图6的方法可以由一个或多个处理器来执行。术语“处理器”可以理解为允许数据或信号处理的任何类型的实体。例如,可以根据处理器执行的至少一个(即,一个或多于一个)特定功能来处置数据或信号。处理器可以包括模拟电路、数字电路、复合信号电路、逻辑电路、微处理器、中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、可编程门阵列(FPGA)集成电路或其任何组合,或者由其形成。实现相应功能的任何其他方式(将在下面更详细地描述)也可以被理解为处理器或逻辑电路。将理解,可以由处理器通过该处理器执行的一个或多个特定功能来执行(例如,实现)本文详细描述的方法步骤中的一个或多个。
尽管本文已经图示和描述了特定的实施例,但是本领域普通技术人员将领会,在不脱离本发明的范围的情况下,多种替代和/或等同的实现方式可以代替所示出和描述的特定实施例。本申请意图覆盖本文中讨论的特定实施例的任何改编或变型。因此,意图本发明仅由权利要求及其等同物来限制。

Claims (15)

1.一种用于训练高斯过程回归模型(107)的计算机实现的方法,包括:
基于训练数据点集合来训练(601)高斯过程回归模型(107),其中每个训练数据点与传感器数据函数值和一个或多个传感器数据导数值相关联,其中每个传感器数据导数值是由训练数据点处传感器数据的微分给定的值;
确定(602)附加训练数据点的批次,其基于从所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中选择的部分预测协方差矩阵的度量的优化,部分预测协方差矩阵包括所述批次的传感器数据函数值的预测协方差,其中基于部分预测协方差矩阵的一个或多个特征值的度量的最大化来选择所述批次;以及
基于传感器数据函数值和与附加训练数据点相关联的一个或多个传感器数据导数值来更新(603)高斯过程回归模型(107)。
2.根据权利要求1所述的方法,进一步包括取决于训练数据点和/或所确定的附加训练数据点的批次,控制传感器(103)获取传感器数据,从所述传感器数据可以导出传感器数据函数值和传感器数据导数值,以及从所获取的传感器数据导出传感器数据函数值和传感器数据导数值。
3.根据权利要求1至2中任一项所述的方法,其中矩阵的度量是部分预测协方差矩阵的迹、行列式或最大特征值。
4.根据权利要求1至3中任一项所述的方法,包括基于在数据点空间的一个或多个方向上附加训练数据点的传感器数据函数值的预测方差的最大化来选择所述批次。
5.根据权利要求1至4中任一项所述的方法,包括基于附加训练数据点的传感器数据函数值的预测协方差矩阵的一个或多个主要方向度量的最大化来选择所述批次。
6.根据权利要求1至5中任一项所述的方法,包括确定所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵,以及从所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中选择部分预测协方差矩阵。
7.根据权利要求1至6中任一项所述的方法,其中,选择部分预测协方差矩阵,以省略所述批次的传感器数据函数值和传感器数据导数值的预测协方差矩阵中包括传感器数据函数值与传感器数据导数值之间的协方差以及传感器数据导数值本身之间的协方差的那些部分。
8.根据权利要求1至7中任一项所述的方法,其中高斯过程回归模型(107)包括高斯过程超参数,并且其中训练高斯过程回归模型(107)包括基于训练数据点集合确定超参数。
9.根据权利要求1至8中任一项所述的方法,其中高斯过程回归模型(107)包括高斯过程超参数,并且其中更新高斯过程回归模型(107)包括基于传感器数据函数值和与训练数据点相关联的一个或多个传感器数据导数值以及基于传感器数据函数值和与附加训练数据点相关联的一个或多个传感器数据导数值来确定超参数。
10.根据权利要求8或9所述的方法,其中确定超参数包括在给定由超参数指定的高斯过程回归模型(107)的情况下,基于传感器数据函数值和所述一个或多个传感器数据导数值的概率的最大化来确定超参数。
11.根据权利要求1至10中任一项所述的方法,进一步包括将训练数据点加上附加数据点设置为下一训练数据点集合,以及基于作为训练数据点集合的下一训练数据点集合重复批次选择和高斯过程回归模型(107)的更新。
12.根据权利要求1至11中任一项所述的方法,进一步包括基于经更新的高斯过程回归模型(107)控制一个或多个致动器(106)。
13.一种回归设备(105),被配置为执行权利要求1至12中任一项的方法。
14.一种包括计算机程序指令的计算机程序,所述计算机程序指令当由一个或多个处理器执行时,使所述一个或多个处理器执行权利要求1至12中任一项的方法。
15.一种存储计算机程序指令的计算机可读存储介质,所述计算机程序指令当由一个或多个处理器执行时,使所述一个或多个处理器执行权利要求1至12中任一项的方法。
CN202010805408.1A 2019-08-13 2020-08-12 用于训练高斯过程回归模型的设备和方法 Active CN112388628B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19191389.6 2019-08-13
EP19191389.6A EP3779808A1 (en) 2019-08-13 2019-08-13 Device and method for training a gaussian process regression model

Publications (2)

Publication Number Publication Date
CN112388628A true CN112388628A (zh) 2021-02-23
CN112388628B CN112388628B (zh) 2024-07-05

Family

ID=67620287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010805408.1A Active CN112388628B (zh) 2019-08-13 2020-08-12 用于训练高斯过程回归模型的设备和方法

Country Status (2)

Country Link
EP (1) EP3779808A1 (zh)
CN (1) CN112388628B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113466962B (zh) * 2021-07-06 2023-03-28 西安交通大学 一种基于高斯过程回归的横波预测方法及系统
CN114019371B (zh) * 2021-10-15 2023-06-16 上海交通大学 一种基于高斯过程回归的电机极端工况的温度预测系统
CN114004391B (zh) * 2021-10-15 2024-10-15 上海交通大学 一种基于高斯过程回归的动力设备极端工况性能预测系统
CN114701870B (zh) * 2022-02-11 2024-03-29 国能黄骅港务有限责任公司 翻车机给料系统及其高料位检测方法、装置
CN116308876A (zh) * 2023-02-17 2023-06-23 西安交通大学 电力设备绝缘状态风险评估方法、系统、计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164405A1 (en) * 2007-12-21 2009-06-25 Honda Motor Co., Ltd. Online Sparse Matrix Gaussian Process Regression And Visual Applications
US20110035346A1 (en) * 2009-05-13 2011-02-10 Arman Melkumyan Method and system for data analysis and synthesis
CN102445902A (zh) * 2010-09-30 2012-05-09 西门子公司 用于机器状况监视的条件多输出回归的系统和方法
CN108595744A (zh) * 2018-03-02 2018-09-28 中国科学院空间应用工程与技术中心 基于高斯过程回归的电磁作动器等效磁场强度建模方法
CN109623819A (zh) * 2018-12-25 2019-04-16 哈工大机器人集团股份有限公司 一种机器人谐波传动关节实际力矩值的获取方法及装置
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN109732610A (zh) * 2019-03-01 2019-05-10 北京航空航天大学 人机协作机器人抓取系统及其工作方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090164405A1 (en) * 2007-12-21 2009-06-25 Honda Motor Co., Ltd. Online Sparse Matrix Gaussian Process Regression And Visual Applications
US20110035346A1 (en) * 2009-05-13 2011-02-10 Arman Melkumyan Method and system for data analysis and synthesis
CN102445902A (zh) * 2010-09-30 2012-05-09 西门子公司 用于机器状况监视的条件多输出回归的系统和方法
CN108595744A (zh) * 2018-03-02 2018-09-28 中国科学院空间应用工程与技术中心 基于高斯过程回归的电磁作动器等效磁场强度建模方法
CN109623819A (zh) * 2018-12-25 2019-04-16 哈工大机器人集团股份有限公司 一种机器人谐波传动关节实际力矩值的获取方法及装置
CN109702744A (zh) * 2019-01-15 2019-05-03 北京工业大学 一种基于动态系统模型的机器人模仿学习的方法
CN109732610A (zh) * 2019-03-01 2019-05-10 北京航空航天大学 人机协作机器人抓取系统及其工作方法

Also Published As

Publication number Publication date
CN112388628B (zh) 2024-07-05
EP3779808A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
CN112388628B (zh) 用于训练高斯过程回归模型的设备和方法
JP6896180B2 (ja) 風流検知システム及び風流の速度場を求める方法
WO2019219965A1 (en) Meta-gradient updates for training return functions for reinforcement learning systems
CN105180935B (zh) 一种适用于gnss微弱信号的组合导航数据融合方法
CN103644903B (zh) 基于分布式边缘无味粒子滤波的同步定位与地图构建方法
CN109902329B (zh) 一种油藏模拟辅助历史拟合方法、系统、存储介质及设备
CN112084836A (zh) 机器学习系统
WO2020065024A1 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
Gijsberts et al. Incremental learning of robot dynamics using random features
CN111753952A (zh) 学习包括高斯过程的概率模型的参数
Saulnier et al. Information theoretic active exploration in signed distance fields
CN113361087B (zh) 一种水下航行器侧线探测传感器位置布局优化方法和系统
CN108292138B (zh) 随机地图知悉式立体视觉传感器模型
CN112880674A (zh) 一种行驶设备的定位方法、装置、设备及存储介质
JP2023517147A (ja) 複雑地形においてLiDARで風の流れの乱流を測定するためのシステムおよび方法
CN113671942A (zh) 用于控制机器人的设备和方法
Rao et al. Robust data assimilation using l_1 and Huber norms
CN105765562A (zh) 用于求取基于数据的函数模型的方法和设备
CN114608585A (zh) 一种移动机器人同步定位与建图方法及装置
Mücke et al. Markov chain generative adversarial neural networks for solving Bayesian inverse problems in physics applications
Shahamatnia et al. An evolutionary computation based algorithm for calculating solar differential rotation by automatic tracking of coronal bright points
Neloy et al. Alpha-N-V2: Shortest path finder automated delivery robot with obstacle detection and avoiding system
Schmidt et al. Modeling cloud reflectance fields using conditional generative adversarial networks
Hostettler et al. Basics of sensor fusion
CN117390364B (zh) 一种用于运营状态下桥梁响应的时空域建模拟合方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant