CN111665747A - 基于推断状态对物理系统的控制 - Google Patents
基于推断状态对物理系统的控制 Download PDFInfo
- Publication number
- CN111665747A CN111665747A CN202010147977.1A CN202010147977A CN111665747A CN 111665747 A CN111665747 A CN 111665747A CN 202010147977 A CN202010147977 A CN 202010147977A CN 111665747 A CN111665747 A CN 111665747A
- Authority
- CN
- China
- Prior art keywords
- state
- physical system
- inferred
- model
- sensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005259 measurement Methods 0.000 claims abstract description 63
- 238000013178 mathematical model Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012937 correction Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 9
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000007257 malfunction Effects 0.000 claims 1
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000013500 data storage Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 229920001746 electroactive polymer Polymers 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000021317 sensory perception Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0265—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/04—Programme control other than numerical control, i.e. in sequence controllers or logic controllers
- G05B19/042—Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
- G05B19/0423—Input/output
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Navigation (AREA)
- Feedback Control In General (AREA)
Abstract
提供了基于推断状态对物理系统的控制。提供了一种系统(100)和计算机实现的方法,所述系统(100)和计算机实现的方法用于使能实现基于根据传感器数据(122)推断的物理系统的状态对物理系统(60)的控制。所述系统和方法可以通过在迭代中进行以下各项来迭代地推断状态:使用表示对状态的基于先验知识的建模的数学模型来获得状态的初始推断;以及通过将经学习的模型应用于状态的初始推断和传感器测量,其中经学习的模型已经被学习以最小化由数学模型提供的初始推断与基本事实之间的误差,并且提供校正值作为输出以用于校正数学模型的状态的初始推断。输出数据(142)可以被提供给输出设备(40),以使能实现基于推断状态对物理系统的控制。
Description
技术领域
本发明涉及一种系统和计算机实现的方法,所述系统和计算机实现的方法用于使能实现基于根据传感器数据推断的物理系统的状态对物理系统的控制。本发明进一步涉及一种包括表示指令的数据的计算机可读介质,所述指令被布置成引起处理器系统执行所述计算机实现的方法。
背景技术
已知基于根据传感器数据确定的物理系统的状态来控制物理系统。例如,诸如机器人、汽车或无人机之类的自主代理(agent)的移动可以基于代理的当前位置来控制,其中当前位置根据从全球定位系统(GPS)传感器或类似类型的地理定位传感器获得的位置数据来确定。然而,这样的位置数据不表示代理的“真实”位置,而是基于传感器的测量,所述基于传感器的测量可能由于测量中的不确定性而偏离真实位置,所述不确定性也被简单地称为“噪声”并且可能由于各种原因,例如,在该示例中由于卫星信号阻塞、多径干扰、无线电干扰等。
然而,合期望的是能够基于这样的潜在有噪传感器数据尽可能准确地确定代理的真实位置。其中合期望的是基于潜在有噪传感器数据来确定物理系统的状态的类似示例包括:用于建筑物的加热系统(作为物理系统的示例),其中可能合期望的是使用从温度传感器获得的传感器数据来确定温度(作为状态的示例);或者电动机(作为物理系统的另一个示例),其中可能合期望的是基于从位置反馈传感器获得的传感器数据来确定转子的位置(作为状态的另一个示例)。
将领会到,传感器测量可以与状态相关联,但是典型地表示可观察量的测量,而状态本身可以是例如出于根本或实际原因的不可观察量。例如,温度典型地例如使用测量电阻的改变的温度传感器来被间接测量,其中电阻的这些改变与温度的变化相关。仅仅间接与物理系统的特定状态有关的传感器测量的其他示例包括但不限于以下:设备的取向(作为状态的示例)可以根据测量所谓“固有(proper)”加速度的加速度计来确定,并且房间的占用(作为状态的另一个示例)可以根据在房间中获得的红外测量来确定。
已知对传感器数据进行滤波以减少传感器数据中的噪声,从而允许根据这样的传感器数据更准确地确定状态。例如,卡尔曼滤波可以用于基于传感器测量的时间序列而递归地估计物理系统的状态。这样的卡尔曼滤波可以并入关于传感器测量与物理系统的状态之间的关系的先验知识。例如,可以使用数学模型,所述数学模型表示作为传感器测量和先前推断状态的函数对状态的基于先验知识的建模。这样的数学模型可以例如并入运动的物理定律,以基于机器人的先前位置和从机器人中的GPS传感器获得的地理定位测量来估计机器人的当前位置。
发明内容
可能合期望的是使能实现基于根据传感器数据推断的物理系统的状态对物理系统的控制,其中状态的推断在卡尔曼滤波和类似技术之上被改进。
根据本发明的第一方面,提供如权利要求1所限定的用于使能实现对物理系统的控制的系统。根据本发明的另外的方面,提供如权利要求13所限定的用于使能实现对物理系统的控制的计算机实现的方法。根据本发明的另外的方面,提供如权利要求14所限定的计算机可读介质以及如权利要求15所限定的计算机可读介质。
上面的措施提供了基于传感器数据而对物理系统的状态的迭代推断,所述传感器数据表示与物理系统的状态相关联的传感器测量。物理系统可以例如是物理实体,诸如车辆、机器人等;或物理实体的连接或分布式系统,例如照明系统;或任何其他类型的物理系统,诸如建筑物。状态可以是随时间变化的量,例如温度、速度、加速度、位置、地理定位、占用等,但也可以是一组这样的量,例如速度和加速度的向量。
可以根据可以从一个或多个传感器获得的传感器数据来推断状态。(一个或多个)传感器可以是物理系统的部分以便能够获得与物理系统的状态相关联的传感器测量,或者如果可以远程获得传感器测量的话则可以被布置成与物理系统分离。传感器测量与允许根据传感器测量推断状态的量相关。照此,在(一个或多个)测量的量与表示要推断的状态的(一个或多个)量之间存在相关性。典型地,表示要推断的状态的量例如出于根本或实际原因而不能被直接测量。
上面的措施涉及迭代地推断物理系统的状态。出于该目的,在推断的迭代中,获得传感器测量,在这之后使用表示对状态的基于先验知识的建模的数学模型来获得状态的初始推断。更具体地,传感器测量和先前推断状态被用作往数学模型的输入,然后所述数学模型产生状态的初始推断作为输出。数学模型可以对关于传感器测量与要推断的状态之间的关系的先验知识进行编码,其中所述模型将先前推断状态考虑在内。例如,数学模型可以表示传感器测量与要推断的状态之间的关系的物理建模。在具体示例中,如果状态是要测量的温度,并且被测量的量是材料的电阻,则数学模型可以将温度表达为所测量的电阻和先前推断的温度的函数。在生成数学模型中,可以使用领域知识,诸如材料的电阻温度系数(TCR)。一般而言,数学模型可以例如由系统设计者至少部分地基于手动规范来构建,并且被表达为一个或一组等式。这样类型的数学模型本身可以从统计学和控制系统的领域已知。
上面的措施进一步涉及提供经学习的模型并将经学习的模型应用于状态的初始推断和传感器测量。可以表示任何合适的经学习的模型(诸如神经网络)的经学习的模型已经被学习以最小化由数学模型提供的初始推断与基本事实(ground truth)之间的误差。提供校正值作为输出,以用于校正数学模型的状态的初始推断。然后,通过将由数学模型提供的状态的初始推断和由经学习的模型提供的校正值相组合、例如通过借助于简单的加法将校正值应用于状态的初始推断,来获得与传感器测量相关的物理系统的状态。
上面的措施具有如下效果:使用数学模型用于获得物理系统的状态的初始估计,然后所述初始估计通过经学习的模型而被校正,所述经学习的模型已经特别地学习来基于基本事实来校正数学模型的初始推断。实际上,通过数学模型的基于先验知识的建模可以提供物理系统的状态的粗略估计,而经学习的模型可以提供粗略估计的细化。即,依靠基本事实的学习可能已经使得经学习的模型能够识别传感器测量与要推断的状态之间的未知关系或相关性,所述关系或相关性在通过数学模型的基于先验知识的建模中尚未被表示。
令人惊讶的是,已经发现使用经学习的模型和基于先验知识的(“非学习的”)数学模型的这样的混合方法——不仅与单独使用基于先验知识的建模相比,而且还与使用已经学习来基于传感器测量直接推断物理系统的状态的经学习的模型相比——改进了状态推断的准确性。即,例如由于经学习的模型不足的复杂性和/或由于训练数据不足的可用性,因此这样的“直接”经学习的模型可能难以对物理系统的动态学进行准确建模。相反,在上面的措施中使用的经学习的模型可能不太复杂和/或需要较少的训练数据,这是因为传感器测量与状态之间的(一个或多个)关系可能已经被数学模型建模到近似程度。照此,训练可能限于必须学习初始推断中的与基本事实的典型较小的偏差。
已经基于传感器测量推断了物理系统的状态,输出数据可以被提供给在对物理系统的控制中所使用的输出设备,以便使能实现基于推断状态对物理系统的控制。例如,输出设备可以是作为物理系统的部分或者位于物理系统附近的致动器。输出数据可以用于控制致动器,并且从而控制物理系统。在其他示例中,输出设备可以是呈现设备,所述呈现设备被配置为基于推断状态来生成感官可感知(sensory perceptible)的输出信号。例如,呈现设备可以是被配置为显示输出信号的显示器。其他类型的感官可感知的输出信号包括但不限于光信号、听觉信号、触觉信号等。对应的呈现设备本身是已知的。基于感官可感知的输出信号,操作者于是可以控制物理系统。例如,感官可感知的输出信号可以标示物理系统的部件中的故障,所述故障可以提示操作者通过停止或暂停物理系统的操作来控制物理系统。一般而言,感官可感知的输出信号可以表示推断状态,或者可以表示从推断状态导出的结果,例如故障诊断。
可选地,处理器子系统被配置为通过使用传感器测量的时间序列和先前推断状态来迭代地推断物理系统的状态,如也由权利要求2所限定的那样。实际上,代替于仅仅使用先前的传感器测量和先前的推断状态,可以使用相应的时间序列作为往数学模型和经学习的模型的输入。每个时间序列可以在时间范围上受限制,并且可以由滑动窗口来表示,所述滑动窗口可以例如被实现为循环缓冲器。这样的时间序列的使用可以提供更准确的状态推断,这是因为物理系统的动态学可以通过数学模型被更好地近似,和/或这样的近似可以通过经学习的模型被更准确地细化。
可选地,经学习的模型是递归神经网络(RNN),并且处理器子系统被配置为在物理系统状态的迭代推断的迭代之间维护和传递递归神经网络的隐藏状态。当迭代地推断物理系统的状态时,这样的递归神经网络非常适合作为经学习的模型,因为这样类型的神经网络展现时间动态行为,并且因此可以用于学习对动态物理系统的状态近似的细化。例如,经学习的模型可以是图神经网络(GNN),其包括门控递归单元(GRU)以在图神经网络中建立递归。
可选地,数学模型包括转移(transition)模型部分和测量模型部分,所述转移模型部分对给定先前推断状态的要推断的状态的条件概率进行建模,所述测量模型部分对给定要推断的状态的传感器测量的条件概率进行建模。数学模型因此可以是基于概率的模型,其将状态建模为至少两个条件概率:第一“转移”概率,其表示先前推断状态转移到当前推断状态的条件概率;以及第二“测量”概率,其表示传感器测量标示当前推断状态的条件概率。例如当假设数学模型的概率分布各自为线性和高斯时,这样类型的基于先验知识的建模非常适合由诸如卡尔曼滤波之类的数学估计技术来处理。
本领域技术人员将领会到,可以以任何被认为有用的方式来组合本发明的两个或更多个上面提及的实施例、实现方式和/或可选方面。
本领域技术人员可以在本描述的基础上实行:对计算机实现的方法或任何计算机可读介质的修改和变化——其对应于对所述系统的所描述的修改和变化,并且反之亦然。
附图说明
参考以下描述中通过示例方式描述的实施例并且参考附图,本发明的这些和其他方面将从中清楚并得到进一步阐明,在附图中
图1示出了用于使能实现对物理系统的控制的系统,其中所述系统被配置为根据从传感器获得的传感器数据迭代地推断物理系统的状态,并且向与物理系统的控制相关联的输出设备(诸如致动器)提供输出数据;
图2图示了隐马尔可夫过程;
图3图示了实施例中的迭代推断的迭代,其中推断被建模为消息传递方案;
图4示出了用于使能实现对物理系统的控制的方法;以及
图5示出了包括数据的计算机可读介质。
应当注意到,各图纯粹是图解性的,并且没有被按比例绘制。在各图中,对应于已经被描述的元素的元素可以具有相同的参考标号。
参考标号列表
以下的参考标号列表被提供用于促进对附图的解释,并且不应被解释为限制权利要求。
20 传感器
40 输出设备
60 物理系统
100 用于使能实现对物理系统的控制的系统
120 输入接口
122 传感器数据
140 输出接口
142 输出数据
160 处理器子系统
180 数据存储接口
190 数据存储装置
192 数学模型的数据表示
194 经学习的模型的数据表示
200 用于使能实现对物理系统的控制的方法
210 访问传感器数据
220、222 迭代推断的迭代
230 获得传感器测量
240 从数学模型获得初始推断
250 从经学习的模型获得校正值
260 将初始推断与校正值相组合
270 向输出设备提供输出数据
300 计算机可读介质
310 非暂时性数据。
具体实施方式
以下涉及一种系统和计算机实现的方法,所述系统和计算机实现的方法用于使能实现基于根据传感器数据推断的物理系统的状态对物理系统的控制。已经在概述章节中指示了这样的物理系统、要推断的状态和传感器数据的类型的具体示例。以下对所述系统和计算机实现的方法的实现方式的各种方面、以及对迭代推断本身作详细说明。
图1示出了系统100,系统100用于使能实现基于根据传感器数据推断的物理系统的状态对物理系统的控制。图1将物理系统示意性地示出为虚线轮廓60,但是一般而言,这样的物理系统可以例如是物理实体,诸如车辆、机器人等;或物理实体的连接或分布式系统,例如照明系统;或任何其他类型的物理系统,例如建筑物。物理系统60被示出为包括传感器20,该传感器20可以测量与要推断的物理系统的状态相关的一个或多个量。如图1中所示,传感器20可以是物理系统的部分。在其他示例中,传感器20可以被布置成远离物理系统60,例如如果可以远程测量该(一个或多个)量的话。例如,基于相机的传感器可以布置在机器人的外部,但是仍然可以测量与机器人相关联的量,诸如机器人在工作空间内的位置和取向。
系统100被示出为包括输入接口120,输入接口120被示出为从传感器20访问传感器数据122。实际上,输入接口120可以表示传感器接口。可替换地,输入接口120可以从其他地方、例如从数据存储装置或网络位置来访问传感器数据。因而,输入接口120可以具有任何合适的形式,包括但不限于:低级通信接口,例如基于I2C或SPI数据通信的;而且还有数据存储接口,诸如存储器接口或永久存储接口;或者个人、局域或广域网接口,诸如蓝牙、紫蜂或Wi-Fi接口,或者以太网或光纤接口。
系统100进一步被示出为包括输出接口140,以向输出设备40提供输出数据142,输出设备40可以是例如作为物理系统60的部分的致动器40。例如,致动器可以是电气、液压、气动、热、磁和/或机械致动器。具体又非限制性的示例包括电动机、电活性聚合物、液压缸、压电致动器、气动致动器、伺服机构、螺线管、步进电机等等。在图1中未示出的另一个示例中,输出设备可以是诸如显示器、光源、扬声器、振动电机等等之类的呈现设备,所述呈现设备可以用于生成感官可感知的输出信号,所述感官可感知的输出信号可以呈现推断状态或从推断状态导出的结果(诸如故障诊断或任何其他类型的导出结果),例如以供在物理系统的引导、导航或其他类型的控制中使用。
系统100进一步被示出为包括处理器子系统160,处理器子系统160被配置为基于经由输入接口120访问的传感器数据122来迭代地推断物理系统的状态,并且向输出设备40提供输出数据142,以使能实现基于推断状态对物理系统60的控制。出于该目的,处理器子系统160可以被配置为在推断的迭代中:获得传感器测量;使用数学模型获得状态的初始推断,所述数学模型表示作为传感器测量和先前推断状态的函数对状态的基于先验知识的建模;将经学习的模型应用于状态的初始推断和传感器测量,其中经学习的模型已经被学习来最小化由数学模型提供的初始推断与基本事实之间的误差,并且提供校正值作为输出以用于校正数学模型的状态的初始推断;以及通过将状态的初始推断与校正值相组合来获得当前推断状态。
系统100进一步被示出为包括用于访问数据存储装置190的数据存储接口180,数据存储装置190可以是易失性或非易失性类型的数据存储装置,并且可以用于临时或永久地存储处理器子系统160使用的数据,所述数据包括但不限于数学模型的数据表示192和经学习的模型的数据表示194。
参考图2和图3,将进一步阐明系统100的操作的各种细节和方面,包括可选的方面。
一般而言,所述系统可以体现为单个设备或装置(诸如工作站或服务器)或者体现在所述单个设备或装置中。服务器可以是嵌入式服务器。设备或装置可以包括执行适当软件的一个或多个微处理器。例如,处理器子系统可以由单个中央处理单元(CPU)体现,而且还可以由这样的CPU和/或其他类型的处理单元的组合或系统体现。软件可能已经被下载和/或存储在对应的存储器(例如,诸如RAM的易失性存储器或者诸如闪存的非易失性存储器)中。可替换地,所述系统的处理器子系统可以以可编程逻辑的形式、例如作为现场可编程门阵列(FPGA)而实现在设备或装置中。一般而言,所述系统的每个功能单元可以以电路的形式实现。所述系统也可以以例如涉及不同的设备或装置(诸如分布式本地或基于云的服务器)的分布式方式实现。在一些实施例中,所述系统可以是物理系统本身的部分,和/或可以表示被配置为控制物理系统的控制系统。
基于传感器数据迭代地推断物理系统的状态而同时在迭代推断中使用“混合”方法的各种实施例是可想到的,所述“混合”方法涉及经学习的模型和基于先验知识的(“非学习的”)数学模型。以下的示例通过将迭代推断建模为有向图形模型来描述迭代推断,所述有向图形模型在有向图形模型的边之上使用迭代消息传递方案。然而,将领会到,这样的消息传递方案可以用于解释迭代推断,但是可以以各种其他方式、例如在类似的数学概念的基础上来实行迭代推断的实际实现方式。特别地,如也在其他地方讨论的,在下文中被称为“先验知识消息”的事物可以表示数学模型的基于消息传递的表示,而“经学习的消息”可以表示经学习的模型的基于消息传递的表示。
此外,在以下的示例中,递归神经网络被用作经学习的模型,所述经学习的模型在该示例中是图神经网络(GNN),其包括门控递归单元(GRU)以在图神经网络中建立递归。然而,将领会到,也可以使用其他类型的递归神经网络,或者一般而言提供如所描述的功能性的任何其他类型的经学习的模型。推断本身是基于数学模型的,所述数学模型包括转移模型部分和测量模型部分,所述转移模型部分对给定先前推断状态的要推断的状态的条件概率进行建模,所述测量模型部分对给定要推断的状态的传感器测量的条件概率进行建模,并且数学模型的概率分布被假设为线性和高斯的。照此,以下可以被认为是通过并入如所描述的经学习的模型而用于卡尔曼滤波的“混合”方法。
如上面指示的,可以使用消息传递方案将迭代推断建模为有向概率性图形模型(此后也被简单地称为“生成性模型”),在所述消息传递方案中,图形模型的节点可以发送和接收消息以推断状态的估计。以下描述了一种混合方法,其中将从生成性图形模型导出的消息与经学习的消息相组合,简而言之:
1.先验知识消息:这些消息可以从生成性图形模型导出(例如,来自物理学模型的运动等式)。
2.经学习的消息:这些消息可以使用图神经网络来被学习,所述图神经网络可以被训练以减少关于与先验知识消息相组合的经标注数据的推断误差。
隐马尔可夫模型
图2作为背景图示了隐马尔可夫模型,其中一组不可观察的变量可以在每个时间步长处限定过程的状态。人们可能想要从其中推断过程状态的一组可观察的变量由标示。人们可以将表达为给定观察值的隐状态的概率分布。可能合期望的是找到哪些状态最大化该概率分布。更正式地:
用于该图形模型中的推断问题的众所周知的方法是卡尔曼滤波器和平滑器。在卡尔曼滤波器中,转移和测量分布二者被假设为线性和高斯的:关于过程人们可能具有的先验知识可以在线性转移和测量过程中被编码,并且相对于现实系统的预测的不确定性可以通过高斯噪声来建模:
此处、可以来自高斯分布、,其中、分别是线性转移和测量函数。如果从其中人们可以推断的过程实际上是高斯和线性的,则具有正确参数()的卡尔曼滤波器+平滑器将能够推断最佳的状态估计。然而,现实世界经常是非线性且复杂的,所以假设过程为线性的可能是强限制。
为了对现实世界的复杂性进行建模,这些复杂性可以通过诸如神经网络之类的可学习的模型从数据(也被称为“基本事实”或“训练数据”)中学习。也被称为图形递归推断网络(GRIN)的以下混合方法将来自生成性模型(例如,物理学等式)的知识与使用神经网络从训练数据中学习的校正相组合。实验已经示出,该混合方法分别针对低和高数据体系(regime)而胜过基于先验知识的方法以及还有神经网络方法。换言之,混合方法受益于小数据限制中的归纳偏置以及还有大数据限制中的神经网络的高容量。混合方法可以很好地在这些不同的体系之间进行插值。
先验知识消息
三个消息可以通过根据等式(7)、(8)、(9)计算三个导数来获得。通常假设转移和测量分布、是线性和高斯的,从而结果得到卡尔曼滤波器模型。接下来,当如在(3)、(4)中那样假设这些线性和高斯函数时,可以提供针对先验知识消息的表达式:
添加经学习的消息
对于每个时间步长t,人们可以对表示有向链图的节点的隐状态保持跟踪。如果两个节点在时间维度t上是连续的,则它们可以是连接的。函数例如可以是2层的图神经网络,其对于每个节点,将邻域信息聚集到消息中。GRU可以在输入门处接收:消息;人们可以标示为的先验知识消息(7)、(8)、(9)的级联(concatenation);以及观察值。根据该输入数据,可以更新隐状态。最后,MLP 可以将隐状态映射到校正信号。
在一些示例中,基本事实可以仅仅包含推断状态的部分。例如,在一些定位任务中,状态可以描述过程的位置和速度,而仅仅基本事实可能对于位置而言可用。在这样的情形下,可以利用被包括在基本事实中的状态的部分来计算损失。结果得到的损失可以是以下:
对经学习的模型进行训练可以包括三个主要步骤。首先,每个可以被初始化为初始值。为了加速收敛,可以选择最大化的值。例如,在轨迹估计上下文中,的位置值可以被设置为观察到的位置。其次,先验知识模型的超参数可以如其将利用卡尔曼滤波器被进行的那样被调谐,所述超参数通常是测量和转移高斯分布的方差。最后,可以使用上面提及的损失函数(15)、(16)来训练经学习的模型。
在用于轨迹估计的三个不同的数据集——即线性合成数据集、非线性混沌系统(洛伦兹吸引子)和现实世界定位系统(密歇根NCLT数据集)中,已经发现GRIN模型高效地将先验知识消息与经学习的消息相组合,从而对于不同的数据体系而言胜过单独的学习推断或图形推断。
图4示出了计算机实现的方法200,计算机实现的方法200用于使能实现基于根据传感器数据推断的物理系统的状态对物理系统的控制。方法200可以对应于如参考图1和在其他地方描述的系统的操作。然而,这不是限制,因为所述方法也可以通过另一个系统、装置或设备来实现。
方法200可以包括在题为“访问传感器数据”的操作中使用输入接口来访问210表示与物理系统的状态相关联的传感器测量的传感器数据。方法200可以进一步包括在迭代推断的迭代220中,通过进行如下各项来基于传感器数据迭代地推断物理系统的状态:在题为“获得传感器测量”的操作中从传感器数据获得230传感器测量;在题为“从数学模型获得初始推断”的操作中,使用数学模型获得240状态的初始推断,所述数学模型表示作为传感器测量和先前推断状态的函数对状态的基于先验知识的建模;在题为“从经学习的模型获得校正值”的操作中,将经学习的模型应用250到状态的初始推断和传感器测量,其中经学习的模型已经被学习以最小化由数学模型提供的初始推断与基本事实之间的误差,并且提供校正值作为输出以用于校正数学模型的状态的初始推断;以及在题为“将初始推断与校正值相组合”的操作中,通过将状态的初始推断与校正值相组合来获得260当前推断状态。方法200可以进一步包括在题为“向输出设备提供输出数据”的操作中,使用输出接口向在物理系统的控制中使用的输出设备提供270输出数据,以使能实现基于当前推断状态对物理系统的控制。将领会到,一般而言,图4的方法200的操作可以以任何合适的次序(例如,连续地、同时地或其组合)执行,其受制于:在适用的情况下,例如通过相应操作之间的输入/输出关系而使特定的次序成为必要。
所述方法可以在计算机上被实现为计算机实现的方法、专用硬件或者两者的组合。如也在图5中所图示的,用于计算机的指令(例如,可执行代码)可以例如以机器可读物理标记序列310的形式和/或作为具有不同的例如电气、磁或光学属性或值的元件序列而被存储在计算机可读介质300上。可执行代码可以以暂时性或非暂时性的方式存储。计算机可读介质的示例包括存储器设备、光学存储设备、集成电路、服务器、在线软件等。图5示出了光盘300。可替换地,计算机可读介质300可以包括表示如本说明书中的其他地方所描述的经学习的模型的暂时性或非暂时性数据310。
示例、实施例或可选特征无论是否被指示为非限制性的,都不要被理解为限制如要求保护的本发明。
应当注意到,上面提及的实施例说明而不限制本发明,并且本领域技术人员将能够在不脱离所附权利要求的范围的情况下设计许多可替换的实施例。在权利要求中,置于括号之间的任何参考标记都不应被解释为限制权利要求。对动词“包括”及其词形变化的使用不排除除了权利要求中所陈述的元素或阶段之外的元素或阶段的存在。元素前面的冠词“一”或“一个”不排除多个这样的元素的存在。诸如“……中的至少一个”之类的表达当在元素列表或元素群组前面时表示从该列表或群组中选择所有元素或任何元素子集。例如,表达“A、B和C中的至少一个”应当理解为包括:仅仅A;仅仅B;仅仅C;A和B二者;A和C二者;B和C二者;或者A、B和C中的全部。可以借助于包括若干不同元件的硬件以及借助于被合适地编程的计算机来实现本发明。在列举了若干构件的设备权利要求中,这些构件中的若干个可以由同一个硬件项来体现。仅仅在相互不同的从属权利要求中记载某些措施的这一事实不指示这些措施的组合不能被有利地使用。
Claims (15)
1.一种用于使能实现基于根据传感器数据推断的物理系统的状态对物理系统的控制的系统(100),包括:
-到输出设备(40)的输出接口(140),输出设备(40)在物理系统的控制中被使用;
-处理器子系统(160),其被配置为通过在迭代中进行以下各项来基于传感器数据迭代地推断物理系统的所述状态:
-将经学习的模型(194)应用于所述状态的初始推断和传感器测量,其中经学习的模型已经被学习以最小化由所述数学模型提供的初始推断与基本事实之间的误差,并且提供校正值作为输出以用于校正所述数学模型的所述状态的初始推断;以及
3.根据权利要求1或2所述的系统(100),其中经学习的模型是递归神经网络(RNN),并且其中处理器子系统(160)被配置为在物理系统的所述状态的迭代推断的迭代之间维护和传递递归神经网络的隐状态。
4.根据权利要求1至3中任一项所述的系统(100),其中经学习的模型是图神经网络(GNN),其包括门控递归单元(GRU)以在图神经网络中建立递归。
7.根据权利要求6所述的系统(100),其中处理器子系统(160)被配置为通过假设所述数学模型的概率分布是线性和高斯的,由卡尔曼滤波来迭代地推断所述状态。
8.根据权利要求1至7中任一项所述的系统(100),其中,处理器子系统(160)被配置为作为有向图形模型并且通过在有向图形模型的边之上使用迭代消息传递方案,来实现物理系统的所述状态的迭代推断。
10.根据权利要求9所述的系统(100),其中,所述系统是以下各项中的一个:
-车辆控制系统;
-机器人控制系统;
-制造控制系统;以及
-建筑物控制系统。
13.一种用于使能实现基于根据传感器数据推断的物理系统的状态对物理系统的控制的计算机实现的方法(200),包括:
-通过在迭代中进行以下各项来基于传感器数据迭代地推断(220)物理系统的所述状态:
-将经学习的模型应用(250)到所述状态的初始推断和传感器测量,其中经学习的模型已经被学习以最小化由所述数学模型提供的初始推断与基本事实之间的误差,并且提供校正值作为输出以用于校正所述数学模型的所述状态的初始推断;和
14.一种计算机可读介质(300),包括表示指令的暂时性或非暂时性数据(310),所述指令被布置成引起处理器系统执行根据权利要求13的计算机实现的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19161069.0A EP3705953B1 (en) | 2019-03-06 | 2019-03-06 | Control of a physical system based on inferred state |
EP19161069.0 | 2019-03-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111665747A true CN111665747A (zh) | 2020-09-15 |
Family
ID=65729105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010147977.1A Pending CN111665747A (zh) | 2019-03-06 | 2020-03-05 | 基于推断状态对物理系统的控制 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11620517B2 (zh) |
EP (1) | EP3705953B1 (zh) |
CN (1) | CN111665747A (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7143830B2 (ja) * | 2019-10-04 | 2022-09-29 | トヨタ自動車株式会社 | 自動運転制御システム |
US11515587B2 (en) * | 2019-10-10 | 2022-11-29 | Robert Bosch Gmbh | Physics-based control of battery temperature |
CN113092044B (zh) * | 2021-03-31 | 2022-03-18 | 东南大学 | 一种基于加权水平可见图的旋转机械故障诊断方法 |
CN114154413A (zh) * | 2021-11-26 | 2022-03-08 | 脸萌有限公司 | 用于物理系统的状态预测的方法、设备、介质和产品 |
JP7088427B1 (ja) | 2022-01-20 | 2022-06-21 | 富士電機株式会社 | 運転支援装置、運転支援方法及びプログラム |
CN114662690B (zh) * | 2022-05-20 | 2022-09-13 | 南京大学 | 面向深度学习Transformer类模型的移动设备协同推断系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030200069A1 (en) * | 2002-04-23 | 2003-10-23 | Volponi Allan J. | Hybrid gas turbine engine state variable model |
CN101446483A (zh) * | 2008-12-30 | 2009-06-03 | 重庆大学 | 光电跟踪宏像素迭代质心法 |
US20100030716A1 (en) * | 2005-11-18 | 2010-02-04 | Georgia Tech Research Corporation | System, Apparatus and Methods for Augmenting Filter with Adaptive Element |
CN102075383A (zh) * | 2010-12-29 | 2011-05-25 | 深圳市永达电子股份有限公司 | 一种基于神经网络的低幅值网络流量异常检测方法 |
CN102710212A (zh) * | 2012-06-11 | 2012-10-03 | 桂林电子科技大学 | 永磁同步直线电机改进的迭代学习控制方法与控制系统 |
CN104378319A (zh) * | 2014-11-21 | 2015-02-25 | 河海大学 | 一种基于短波信道mimo-ofdm通信系统的信道估计方法 |
CN104460518A (zh) * | 2014-11-16 | 2015-03-25 | 沈阳工业大学 | 基于模糊扰动补偿直接驱动xy平台轮廓控制装置及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7603242B2 (en) * | 2005-09-21 | 2009-10-13 | Airbus Uk Limited | Fuel leak estimator |
-
2019
- 2019-03-06 EP EP19161069.0A patent/EP3705953B1/en active Active
-
2020
- 2020-02-28 US US16/804,820 patent/US11620517B2/en active Active
- 2020-03-05 CN CN202010147977.1A patent/CN111665747A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030200069A1 (en) * | 2002-04-23 | 2003-10-23 | Volponi Allan J. | Hybrid gas turbine engine state variable model |
US20100030716A1 (en) * | 2005-11-18 | 2010-02-04 | Georgia Tech Research Corporation | System, Apparatus and Methods for Augmenting Filter with Adaptive Element |
CN101446483A (zh) * | 2008-12-30 | 2009-06-03 | 重庆大学 | 光电跟踪宏像素迭代质心法 |
CN102075383A (zh) * | 2010-12-29 | 2011-05-25 | 深圳市永达电子股份有限公司 | 一种基于神经网络的低幅值网络流量异常检测方法 |
CN102710212A (zh) * | 2012-06-11 | 2012-10-03 | 桂林电子科技大学 | 永磁同步直线电机改进的迭代学习控制方法与控制系统 |
CN104460518A (zh) * | 2014-11-16 | 2015-03-25 | 沈阳工业大学 | 基于模糊扰动补偿直接驱动xy平台轮廓控制装置及方法 |
CN104378319A (zh) * | 2014-11-21 | 2015-02-25 | 河海大学 | 一种基于短波信道mimo-ofdm通信系统的信道估计方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3705953A1 (en) | 2020-09-09 |
EP3705953B1 (en) | 2023-08-30 |
US20200285962A1 (en) | 2020-09-10 |
US11620517B2 (en) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111665747A (zh) | 基于推断状态对物理系统的控制 | |
Jesus et al. | Deep deterministic policy gradient for navigation of mobile robots in simulated environments | |
CN111796514A (zh) | 基于所训练的贝叶斯神经网络来控制和监视物理系统 | |
US10795360B2 (en) | Utility decomposition with deep corrections | |
JP6550678B2 (ja) | 行動決定装置、未来予測モデル学習装置、ネットワーク学習装置、方法、及びプログラム | |
Wiedemann et al. | Model-based gas source localization strategy for a cooperative multi-robot system—A probabilistic approach and experimental validation incorporating physical knowledge and model uncertainties | |
Datta et al. | Integrating egocentric localization for more realistic point-goal navigation agents | |
US20180032868A1 (en) | Early prediction of an intention of a user's actions | |
CN110447041B (zh) | 噪声神经网络层 | |
Li et al. | Neural network based FastSLAM for autonomous robots in unknown environments | |
EP3929814A1 (en) | Making time-series predictions using a trained decoder model | |
US11886782B2 (en) | Dynamics model for globally stable modeling of system dynamics | |
US20210019621A1 (en) | Training and data synthesis and probability inference using nonlinear conditional normalizing flow model | |
CN113627602B (zh) | 预测计算机控制实体的状态 | |
EP3639109A1 (en) | Systems and methods for event prediction using schema networks | |
CN115222777A (zh) | 光流估计神经网络的无监督训练 | |
Lin et al. | An ensemble method for inverse reinforcement learning | |
Indelman | Towards cooperative multi-robot belief space planning in unknown environments | |
CN114722995A (zh) | 训练神经随机微分方程的神经漂移网络和神经扩散网络的设备和方法 | |
CN112418432A (zh) | 分析多个物理对象之间的相互作用 | |
US20210046953A1 (en) | Efficient inference update using belief space planning | |
CN114330737A (zh) | 估计控制数据的可靠性 | |
Farrokhsiar et al. | A teaching tool for the state‐of‐the‐art probabilistic methods used in localization of mobile robots | |
US20240092397A1 (en) | Interpretable kalman filter comprising neural network component(s) for autonomous vehicles | |
Boronakhin et al. | Optimization of an Inertial Sensor De-Noising Method using a Hybrid Deep Learning Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |