CN114254543A

CN114254543A - 利用深度状态空间模型的预测

Info

Publication number: CN114254543A
Application number: CN202111114792.1A
Authority: CN
Inventors: 邱晨; M·R·鲁道夫
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2020-09-24
Filing date: 2021-09-23
Publication date: 2022-03-29
Also published as: EP3975053A1; US20220092415A1

Abstract

本发明涉及一种使用机器学习来训练深度状态空间模型的计算机实现方法。深度状态空间模型包括生成模型和多模态推断模型。生成模型包括转移模型以及发射模型。该方法包括：a）接收包括观察向量序列的训练数据集，每个观察向量在观察步骤处获得。对于包含在观察向量序列中的多个观察向量，该方法迭代b）、c）和d）：b）通过对当前观察向量进行映射以获得当前潜在状态的概率分布，使用多模态推断模型来推断当前潜在状态；c）使用多模态推断模型将当前潜在状态的后验近似构造为混合密度网络，以产生多个近似潜在状态向量。该方法进一步包括：d）使用发射模型解码多个近似潜在状态向量，以提供多个合成观察；以及输出经训练的深度状态空间模型。

Description

利用深度状态空间模型的预测

技术领域

本发明涉及一种使用机器学习来训练深度状态空间模型的计算机实现的方法，以及一种用于使用经训练的机器学习模型的相关联方法，一种被配置为使用机器学习来训练深度状态空间模型的装置，以及相关联的计算机程序元件，以及一种计算机可读介质。

背景技术

数据驱动算法在技术系统中的开发和应用在技术系统的数字化中并且尤其是在技术系统的自动化中变得越来越重要。技术问题通常可以约简为获得关于至少一个时间序列的未来发展的最佳可能知识和/或信息，所述至少一个时间序列例如由至少一个传感器馈送。在技术系统中，一方面，评估新采集的数据点以生成新的数据点并且特别是针对至少一个时间序列的大量新数据点可能是有利的。例如，通过该方式，可以模拟和在统计上评估各种未来场景。然后，该技术系统可以根据基于所述至少一个时间序列的估计延续的模拟结果进行适配或重新配置。

例如，基于作为车辆的先前行驶路线的车辆路线预测、基于过去无线网络资源分配的未来无线网络资源分配、或者基于过去性能的未来工业机器性能都落入该主题领域内。变分循环神经网络（VRNN）将递归神经网络（RNN）与变分自动编码器（VAE）相组合，以使得能够生成技术系统的预测。然而，这样的方法可以被进一步改进。

发明内容

根据第一方面，提供了一种用于使用机器学习来训练深度状态空间模型的计算机实现的方法。深度状态空间模型包括：生成模型和多模态推断模型。生成模型进一步包括被配置为描述多个潜在状态（latent state）的改变的转移模型，以及被配置为解码多个潜在状态从而提供多个合成观察的发射模型。该方法包括：

a）接收包括观察向量序列的训练数据集，每个观察向量在观察步骤中获得。对于包含在观察向量序列中的多个观察向量，该方法迭代b）、c）和d）：

b）通过对在观察向量序列的当前观察步骤处获得的当前观察向量进行映射以获得当前潜在状态的概率分布，使用多模态推断模型来推断生成模型的当前潜在状态；

c）使用多模态推断模型，将当前潜在状态的后验近似构造为混合密度网络，从而产生多个近似潜在状态向量。对于包含在观察向量序列中的多个观察向量，该方法进一步包括：

d）使用发射模型解码多个近似潜在状态向量，从而提供多个合成观察；以及

e）输出经训练的深度状态空间模型。

效果是可以基于少量的初始观察来学习由多模态系统生成的数据的生成模型。即使延续适用于多模态系统，也可以为少量初始观察的延续提供准确和合情（plausible）的建议。这样的计算机实现的方法具有广泛的应用，其中模型系统受制于多模态偏差。作为一个示例，车辆在2D网格上的运动的初始观察可以被详细描述成2D网格上的大量潜在未来路线。另一个示例涉及机动车辆中引擎模式的监视，或者无线网络资源的分配。

根据第二方面，提供了一种使用经训练的机器学习模型的计算机实现的方法。机器学习模型被配置为经由输入单元接收输入观察向量序列，每个观察向量在观察步骤处获得；以及使用经训练的机器学习模型预测观察向量序列的至少一个延续；并且输出观察向量序列的至少一个延续。

根据第三方面，提供了一种被配置为使用机器学习来训练深度状态空间模型的装置。该装置包括输入接口、存储器、处理器和输出接口。

输入接口被配置为接收训练数据集，该训练数据集包括观察向量的序列（

），每个观察向量在观察步骤获得。

处理器被配置为执行深度状态空间模型，所述深度状态空间模型包括生成模型和多模态推断模型，其中，在使用中，所述生成模型进一步包括被配置为描述多个潜在状态的改变的转移模型，以及被配置为解码所述多个潜在状态从而提供多个合成观察的发射模型。

处理器进一步被配置为，对于包括在所述观察向量序列中的多个观察向量，迭代（a）通过对在所述观察向量序列的当前观察步骤获得的当前观察向量进行映射以获得所述当前潜在状态的概率分布，使用所述多模态推断模型来推断所述生成模型的当前潜在状态，以及（b）使用所述多模态推断模型将当前潜在状态的后验近似构造为混合密度网络，从而产生多个近似潜在状态向量，并且对于包含在观察向量序列中的多个观察向量，处理器被配置为使用发射模型对多个近似潜在状态向量进行解码，从而提供多个合成观察。输出接口被配置为输出多个合成观察。

根据第四方面，提供了一种计算机程序元件，该计算机程序元件包括用于使用机器学习在训练数据集上训练深度状态空间模型的程序，该训练数据集包括在观察步骤中获得的观察向量序列（

），其中该计算机程序元件当由计算机执行时使得计算机执行第一方面及其实施例的步骤。

根据第五方面，提供了一种计算机程序元件，包括定义由执行根据第一方面及其实施例的计算机实现的方法的计算机生成的深度状态空间模型的训练模型数据。

根据第六方面，提供了一种包括第四或第五方面中任一方面的计算机程序元件的计算机可读介质。

在示例中，可以经由诸如车辆的地理空间定位系统（GPS）信号或引擎排放传感器的传感器信号获得序列数据，序列数据的一种类型是时间序列数据。对典型驾驶行为、随时间推移的典型污染水平或汽车引擎动力学的准确预测可能有助于立法者或汽车工程师开发更清洁的移动解决方案。从移动电话系统获得的序列数据提供了对移动电话系统性能的有价值的洞察。从工业控制器获得的序列数据可以提供关于工业机器的操作上下文的重要信息。上述系统均在受约束的场景下操作。例如，车辆可以仅跟随城市周围的一定数量的路线，并且不具有完全的二维移动自由。在移动电话系统中，操作系统在严格规则管理的上下文内分配频率副载波并执行其他资源分配。因此，这样的系统的响应是结构化和多模态的。例如，当车辆接近2D网格上的十字路口时，车辆的2D定位被严格强制为三个前进方向之一。该车辆没有在2D网格上享受完全的移动自由。因此，车辆的时间序列响应是多模态的。现有的序列预测方法并未有效地处置多模态。现有的数据建模方法做出了限制假设，诸如高斯假设，以使学习易于处理且高效。这样的方法仅能够关注主导模式，并且由此忽略了数据中的重要结构。本说明书描述了变分动态混合（VDM）。VDM的生成过程是神经状态空间模型（SSM）。有利地，根据第一方面的机器学习训练方法提供了多模态推断模型。根据辅助方面，讨论了新的变分目标。

总之，如本说明书中描述的VDM涉及（i）灵活的生成神经状态空间机器，作为示例，它包括非线性和非马尔可夫转移动力学，以及非线性发射模型。更进一步地，（ii）讨论了多模态推断模型。根据示例，在每个时间步骤，后验近似是由具有共享参数的k个基本模型的集成（ensemble）构造的混合分布。例如，该技术还使能实现集成权重的封闭形式更新，并且作为示例，使用基于似然的准则和对抗性项的混合训练，基于似然的准则鼓励准确的预测，对抗性项鼓励更尖锐的模式辨别。在实际的示例中，在出租车轨迹数据集上训练的VDM利用改进的多模态产生预测，而其他方法过度概括出租车轨迹，使得它们与出租车行驶的街道地图相比失去辨别准确性。

可替代地，本说明书中讨论的VDM方法提供了用于对多模型动力学进行建模的深度状态空间模型。VDM至少包括推断模型，该推断模型被配置为传播多个随机循环神经网络RNN以利用混合分布对后验近似进行参数化。此外，本说明书提供了训练VDM的可变目标。此外，本说明书涉及可以与变分目标一起使用的混合似然-对抗性正则化项。本说明书中呈现的VDM实现了多模态后验近似，其跨一系列应用优于序列生成器。本说明书还为多模型预测任务建议了新的评估指标。换句话说，应用高斯假设的推断模型阻止了许多随机循环网络推断局部尖锐的多模态分布。这降低了关于多模态系统的预测行为的准确性。本说明书讨论了具有显式多模态变分后验的变分动态混合方法，其在示例中是在每个观察步骤处或至少一个观察步骤处的混合密度网络。直观地说，这可以理解为构造模型集成的变分后验，每个模型都具有聚焦于观察数据的单独模式的能力。

附图说明

图1a示意性地图示了用于生成经训练的深度状态空间模型的计算机实现的方法；

图1b示意性地图示了使用经训练的深度状态空间模型的方法；

图2示意性地图示了生成过程和推断过程；

图3示意性地图示了被配置为训练深度状态空间模型的装置；

图4示意性地图示了过滤过程；

图5提供了来自用于出租车轨迹预测的不同模型的真实样本和结果。

具体实施方式

本说明书讨论了变分动态混合，一种属于深度状态空间模型（SSM）类的算法。本文讨论的方法与其他深度状态空间模型相比，具有类似的生成过程。给定序列观察

，SSM假设底层的动力学受潜在状态

管控。

下面的说明书首先呈现了生成过程的示例（A）和VDM的多模态推断模型的示例（B）。然后，讨论了可以与多模态后验一起使用的新的变分目标的示例（C），并提供了关于可以如何利用混合训练将其正则化的解释。提供了变分目标性能的证明（D）。呈现了在推断过程中使用的新的采样方法的示例（E）。然后呈现了算法的具体实现和用例（F）。最后，呈现了结果的一些示例（G）。

在示例中，机器学习模型可以在序列观察

上训练，使得该模型可以基于合情的多模态输入样本来预测序列的合情的延续。序列观察

可以是标量的时间序列，例如表征单声道声音信号。序列观察

可以是2D坐标的时间序列，表征汽车通过时间在地图上的定位。序列观察

可以是形成有限集合的向量的时间序列，该有限集合定义了当无线电响应于信道间信道干扰和本地多径衰落时，无线无线电网络中的OFDM（正交频分复用）无线电发射机的子载波分配的时间变化。序列观察

可以是图像的时间序列。

输入的序列观察

在时间上有序不是必要的，并且使用字母“t”来标示序列观察的下标索引不应被解释为将序列观察限制为在时间上是有序的。

例如，在工业机器的情况下，序列观察

可以是定位序列，例如，当工具头在欧几里德距离上进一步远离工件时，该参数按顺序递增。在示例中，序列观察

是污染观察的时间序列，或引擎控制数据。本领域技术人员应当领会，可以使用许多类型的序列观察来训练本文讨论的机器学习模型。

A.生成模型示例

SSM的生成过程包括转移模型和发射模型。转移模型

描述了潜在状态的时间演进，并且发射模型

将状态映射到观察。在示例中，假设转移模型和发射模型他们由两个单独的神经网络——转移网络

和发射网络

——参数化。

发射网络

解码潜在状态。在该示例中，假设模型是非马尔可夫的。这给予该模型捕获更长范围的时间相关性的能力。转移模型还利用诸如门控循环单元之类的循环架构

来参数化，这也给予该模型捕获更长范围的时间相关性的能力。潜在状态

被根据如下递归地采样：

，其中

潜在状态

被解码，使得可以从发射模型采样观察：

，其中

。

B.推断模型示例

VDM应用了使能实现多模态的变分族。后验近似被构造为k个基本模型的集成。所得到的后验近似是混合密度网络。这样的混合密度网络的每个分量具有监视不同模式的后验的能力。混合分量由共享推断网络

参数化。由于输入不同，每个基本模型分量（i）具有其自己的均值

和方差

。因此，后验近似作为混合密度网络在序列观察的每个步骤（在示例中为输入时间序列）处生成：

，其中

是从前一时间步骤的后验近似

中采样的，并且

标示值在0和1之间的加权函数。

混合分量

是由循环网络

参数化的密度网络。

还用于跟踪生成模型和推断网络

中潜在状态的递归：

。

使混合密度网络的分量彼此不同的变化的输入是隐藏状态

。这些状态递归地总结来自先前近似后验的样本路径。例如，混合加权

是通过它们的预测似然性的归一化乘积以封闭形式计算的。

等式（3）中加权函数

的选择和采样方法的选择定义了多个替代变分族中的一个。在第一示例中，加权函数被定义为指标函数，其中非零指标从具有与似然性

成比例的概率

的分类分布中被采样，如等式（5）中所示。根据第二示例，权重被配置为通过选择实现最高似然性的样本来设置非零分量。技术人员应当领会，可以提供用于配置权重的另外的方案。

。

VDM的多模态来自于在每个观察步骤（例如，在每个时间步骤）处从先前的变分后验中显式抽取k个祖先粒子。为了对

进行采样，存在若干种可用的方法。例如，

可以使用蒙特卡罗采样、随机拟蒙特卡罗或随机容积近似进行采样，这将在后面描述。本领域技术人员应当领会，可以使用其他采样方案在每个观察步骤处从先前的变分后验中抽取k个祖先粒子。

总之，VDM的变分族使用基于k的分布，该基于k的分布是通过将来自

的祖先样本推动通过共享推断网络

而获得的。根据时间t处的新的观察在先前潜在状态的这些采样值下的可能性来重新加权这些基本模型。在下一节中，讨论被称为证据下界（ELBO）的品质因数。当ELBO最优地最大化时，它有助于发现最接近真实后验的变分族。

在每个观察步骤处将后验近似构造为混合密度网络的一个效果意味着，具有多模态的输入序列可以在训练后被准确预测。在相反的情况下，可以使用单峰（高斯）分布构造后验近似，但是这通常不会很好地拟合数据结构。因此，在单峰分布的情况下，不希望的平均被应用于多峰数据，这导致训练模型最终生成的序列预测中的不准确性。

C.变分目标示例

根据示例，目标被配置为优化生成模型和推断模型的参数

。在每个序列步骤（时间步骤）处，ELBO被定义为：

ELBO是对数证据的下界

（8）。

除了ELBO之外，VDM目标可以可选地包括两个正则化项

和

：

。

例如，可以使用消融研究来评估应用带有和不带有正则化项

和

的ELBO的效果。在等式（9）中，

、

可以被认为是超参数。消融研究示出，在不存在

和

的情况下，VDM提供了有竞争力的性能，但是对它们的包括提供了最强的性能。第一正则化项

鼓励来自前一序列步骤的变分后验，以产生使预测似然性最大化的样本：

。

因此，

是对数证据的近似，并且对于加权函数的某些选择（诸如上面的等式（5）），它是ELBO的上界。在这种情况下，使它最大化（最大化

）。同时，在实践中，包括

也很好地平衡了ELBO中重构项和KL散度项之间的权衡。

等式（11）中的第二可选正则化项

也改进了VDM的结果。项

是根据混合对抗性似然训练概念提供的。混合对抗性似然训练概念可以适用于动力学生成模型的思想。对抗性项

使用了前向的Kullback–Leibler（KL）散度，使得“质量驱动训练”能够阻止虚假区域中的概率质量。

。

在等式（11）中，p是

的缩写。真正的预测分布

是未知的。等式（11）的优化对应于训练条件GAN的生成器，同时假设最佳鉴别器。因此，该项可以以对抗性的方式被优化，总是在

上进行优化。

D.ELBO作为对数证据的适当下界的证明

(12)

证明：首先，提供了第一下界

的证明。在潜在变量

上，对数证据

的下界推导为

（13）

其中平滑变分后验

被因式分解为来自前一时间步骤的变分后验

和加权函数

的乘积，

。

等式（14）的函数被代入等式（13）中，并且等式（13）中的先验

由前一变分后验

近似：

其中第二项大于且等于零（

的第二个选择），因为加权函数值在[0，1]范围内。因此，证明了第一下界。

然后，提供第二下界

的证明。由于双方都在平滑变分后验

上取期望值，因此预测对数似然性

是要关注的相关项。

。

因此，与第一下界一起，证明了与ELBO相关的下界要求。

由于

（等式10）是对数证据

的近似，因此等式（12）也对于它成立。最大化

意味着最大化

，并且也意味着最大化等式（12）中的ELBO的中间上界，这有助于实现更紧的ELBO。

E.采样方法示例

如上所述，VDM的多模态源于在每个观察步骤（例如，在每个时间步骤）处从先前的变分后验中显式抽取k个祖先粒子。在示例中，蒙特卡罗方法或随机拟蒙特卡罗方法可以用于在每个观察步骤处从先前的变分后验中采样祖先粒子。然而，对于相对少量的k个样本，蒙特卡罗方法缺乏控制样本质量的机制（随机化拟蒙特卡罗在一些情况下示出改进）。

根据实施例，提供了一种半随机变分后验采样方法。在示例中，该方法可以基于容积近似。容积近似是一种用于从变分后验中选择粒子的特定技术。特别地，容积近似以这样的方式展开变分后验的样本：使得它们的前两个矩匹配采样分布的前两个矩。

容积近似是一种确定性方法，用于将高斯随机变量

的非线性函数

与

n维数值积分。该方法通过构造

个单位sigma点

，

来进行。

容积近似是通过非线性函数

传播的sigma点的加权和，

。

下面的分析公式确定了如何计算权重

和单位sigma点

的位置：

其中

是控制n维球面中sigma点的散布的超参数。作为示例，

。此外，

表示n维空间中的基，其被选取为笛卡尔空间中的单位向量，例如

。

容积近似通过构造

个所谓的单位sigma点

来进行，这些单位sigma点最优地散布在n维标准高斯上。sigma点

是与z具有相同均值和协方差的样本。上面讨论的解析公式确定了如何计算权重

和单位sigma点

。在示例中，可以选取超参数来等同地设置权重

。

因此，描述了一种半随机采样方法，它将容积近似与蒙特卡罗方法相组合。在SCA中，确定性的sigma点被随机的“sigma变量”替换。标准高斯噪声

被用来将sigma变量定义为

。sigma变量的重要权重

被设置为来自容积近似值的相关联单位sigma点的权重。

使用随机容积近似法的效果是，它典型地比蒙特卡罗方法需要更少的样本，因为sigma点被仔细选取来捕获底层分布的前两个矩。使用随机容积近似的另一个效果是，通过导出近似边缘化的半随机版本，多得到的分布类似于多模态混合，并且因此是VDM推断模型的期望参数形式。

F.实现

图1a示意性地图示了用于生成经训练的深度状态空间模型的计算机实现的方法。

根据第一方面，提供了一种用于使用机器学习来训练深度状态空间模型的计算机实现的方法，其中深度状态空间模型包括生成模型和多模态推断模型。生成模型进一步包括被配置为描述多个潜在状态的改变的转移模型，以及被配置为对多个潜在状态进行解码从而提供多个合成观察的发射模型。该方法包括：

a）接收包括观察向量序列（

）的训练数据集，每个观察向量在观察步骤中获得；

对于包含在观察向量序列中的多个观察向量，该方法迭代b）、c）和d）：

c）使用多模态推断模型，将当前潜在状态的后验近似（

）构造为混合密度网络，从而产生多个近似潜在状态向量；

对于包含在观察向量序列中的多个观察向量：

e）输出经训练的深度状态空间模型。

例如，观察向量序列可以包括图像数据、视频数据或音频数据序列、用于监视机器操作员或驾驶员的数据序列、从工业机器接收的数据序列、表示历史车辆路线或引擎性能的数据序列、描述无线网络性能或无线网络资源分配的数据序列。

因此，在步骤b）、c）和d）之间的迭代提供了重构的观察（多个合成观察），其可以被提供来生成用于在模型训练中使用的目标函数。可以将多个合成观察与对应的多个真实数据测量进行比较，从中可以计算目标函数。

图2示意性地图示了根据示例的生成过程24和推断过程26。

作为具体的示例，可以考虑如下场景，其中推断网络

接收观察，并试图推断相关联的潜在状态。在该示例中，编码器网络将初始观察

映射到描述潜在空间中初始潜在状态

的概率分布的参数上，并且所述参数可以随后被变更。在这种情况下，该示例被提供用于使用随机容积近似对概率分布进行采样，但是该示例可以适用于使用其他采样方案。

在根据该方法的示例推断过程的第一步骤中，对当前潜在状态的分布进行采样。在示例中，可以根据随机容积近似，通过从当前潜在状态的分布中采样具有重要性权重的

个sigma变量来执行采样，其中n是潜在状态的维数。为了应用随机容积近似，获得了概率分布的均值和方差。

在示例推断过程的第二步骤中，采样的

个sigma变量用于利用循环神经网络（例如门控循环单元GRU）将来自过去递归的平均隐藏状态更新为

个隐藏状态。当前递归中的新的平均隐藏状态是由sigma变量的重要权重加权的

个隐藏状态的和。

在示例推断过程的第三步骤中，当下一个观察到达时，

个隐藏状态与该下一个观察级联。所得到的向量被插入推断网络

，以参数化

个高斯分量。在示例推断过程的第四步骤中，每个高斯分量的混合权重由预测分布中即将到来的观察的似然性和相关联的单位sigma点的重要性权重的归一化乘积来计算。预测分布是通过替换转移模型中的相关联的隐藏状态并且然后将其映射到数据空间来获得的。在示例推断过程的第五步骤中，更新的分布是混合密度网络，其均值和方差在第三步骤中计算，并且权重在第四步骤中计算。使用矩匹配，计算更新的分布的匹配均值和方差。在该示例中，对于例如训练数据的接收到的观察序列中的每个观察，重复第一至第五步骤。当然，对接收到的观察序列中的所有观察执行推断不是必要的。

在生成过程中，转移网络

接收潜在状态的分布，并试图将该分布传播到下一时间步骤。发射网络

接收潜在状态的分布。发射网络

将潜在状态的分布映射到数据空间（观察空间）上。

在示例生成过程的第一步骤中，对潜在状态的分布进行采样。样本用于使用诸如门控循环单元（GRU）之类的循环神经网络更新隐藏状态。在示例生成过程的第二步骤中，转移网络

将隐藏状态取作输入，并输出描述下一时间步骤的潜在状态分布的参数。在示例生成过程的第三步骤中，对下一时间步骤的潜在状态的预测分布进行采样。在示例生成过程的第四步骤中，发射网络

将下一时间步骤的潜在状态的预测分布的样本取作输入，并将它们映射到数据空间（观察空间）上。例如，输出是点或参数化分布。这些可以被认为是一系列或多个合成观察。

示例生成过程的第一至第四步骤在预测系列的每个步骤处重复执行。该过程的迭代延续提供了一系列合成观察，其定义了用于训练网络的观察序列的可能延续。

在该方法的示例中，通过根据针对每次迭代计算的目标函数（代价函数）将训练数据集的观察向量序列（

）与多个合成观察进行比较，来迭代优化生成模型和多模态推断模型的参数。目标函数可选地包括证据下界（ELBO）。在示例中，证据下界（ELBO）如在上面的等式（7）中定义。效果是模型可以被优化以保留训练数据中的多模态。

在该方法的示例中，目标函数进一步包括基于对数证据的近似的第一正则化项。在示例中，第一正则化项如上面的等式（10）中定义。在示例中，目标函数进一步包括基于对抗性函数的第二正则化项。在示例中，目标函数可以包括正则化项，该正则化项包括作为对抗性函数的对数证据的近似。在示例中，第二正则化项如在上面的等式（11）中定义。

在该方法的示例中，后验近似

使用蒙特卡罗采样或随机化拟蒙特卡罗采样来采样。

在该方法的示例中，将当前潜在状态的后验近似

构造为混合密度网络进一步包括：根据随机容积近似对来自前一观察步骤的后验近似进行采样。

在该方法的示例中，通过构造最优分布在n维标准高斯上的

个单位sigma点来生成随机容积近似，其中sigma点是与对应于观察步骤的潜在状态具有相同均值和协方差的样本。

在该方法的示例中，随机容积近似如在上面等式（17）和（18）中定义。

图4以图形图示了根据示例的过滤过程的效果。

在阶段40，示出了将随机容积近似应用于分布的效果。在阶段42，获得后验预测分布。在阶段44，生成后验分布。在阶段48，执行弱边缘化。

在该方法的示例中，加权函数在每个时间步骤处被应用于后验近似的样本。加权函数是（i）从分类分布中采样的指标函数，或者（ii）加权函数包括被选择来实现最高似然性的非零分量。

在该方法的示例中，指标函数如通过上面的等式（5）定义。在该方法的示例中，转移网络和/或混合分量由门控循环单元参数化。在该方法的示例中，转移模型是非马尔可夫的。

在该方法的示例中，训练数据集包括定义时间序列训练序列的观察向量序列（

）。在该方法的示例中，训练数据集包括定义定位系列训练序列的观察向量序列（

）。在该方法的示例中，训练数据集包括定义频率系列训练序列的观察向量序列（

）。

图1b示意性地图示了使用经训练的深度状态空间模型的方法。

根据第二方面，提供了一种用于在预测系统中使用经训练的机器学习模型的计算机实现的方法，包括：

-接收根据第一方面生成的经训练的深度状态空间模型；

-接收输入观察向量序列（

），每个观察向量在观察步骤处获得；

-使用经训练的机器学习模型预测观察向量序列（

）的至少一个延续，其中所述延续包括从经训练的机器学习模型获得的合成观察；和

-输出观察向量序列的至少一个延续。效果是，通过应用经训练的机器学习模型，可以使用经训练的机器学习模型，基于观察的初始序列，自动生成序列的一个或多个合情的延续。

根据示例，提供了一种使用根据第二方面的训练机器学习模型的计算机实现的方法，其中输入观察向量序列（

）是时间序列，其表示：

-图像数据或音频数据序列；或者

-用于监视操作员的数据序列；或者

-从工业机器接收的数据序列，

-表示历史车辆路线或引擎性能的数据序列，或

-描述无线网络性能或无线网络资源分配的数据序列。

图3示意性地图示了被配置为训练深度状态空间模型的装置。

根据第三方面，提供了一种被配置为使用机器学习来训练深度状态空间模型的装置。

该装置包括输入接口28、存储器30、处理器32和输出接口34。

输入接口28被配置为接收训练数据集，该训练数据集包括观察向量序列（

），每个观察向量在观察步骤处获得。

处理器32被配置为执行深度状态空间模型，该深度状态空间模型包括生成模型和多模态推断模型，其中，在使用中，生成模型进一步包括被配置为描述多个潜在状态的改变的转移模型，以及被配置为解码多个潜在状态从而提供多个合成观察的发射模型。

处理器32进一步被配置为，对于包含在观察向量序列中的多个观察向量，通过对在观察向量序列的当前观察步骤处获得的当前观察向量进行映射以获得当前潜在状态的概率分布，使用多模态推断模型来迭代（b）对生成模型的当前潜在状态的推断，以及（c）使用多模态推断模型将当前潜在状态的后验近似（

）构造为混合密度网络，从而产生多个近似潜在状态向量，以及（d）对于包含在观察向量序列中的多个观察向量，处理器被配置为使用发射模型解码所述多个近似潜在状态向量，从而提供多个合成观察。处理器32被配置为经由输出接口34输出经训练的深度状态空间模型。

在示例中，该装置是个人计算机、服务器、基于云的服务器或嵌入式计算机。该装置的存储器30存储计算机程序，所述计算机程序当被处理器32执行时，使得处理器32执行由根据第一方面的计算机实现的方法描述的功能。

根据第四方面，提供了一种计算机程序元件，该计算机程序元件包括用于使用机器学习来在训练数据集上训练深度状态空间模型的程序，该训练数据集包括观察向量序列（

），每个观察向量在观察步骤处获得，其中所述计算机程序元件在由计算机执行时，使得计算机执行第一方面的步骤。

根据第五方面，提供了一种计算机程序元件，包括训练模型数据，所述训练模型数据定义由执行根据第一方面的权利要求之一的计算机实现的方法的计算机生成的深度状态空间模型。第四或第五方面的计算机程序元件可以包括例如存储在计算机存储器上的机器可读指令。

根据第六方面，提供了一种包括第四或第五方面中的任一方面的计算机程序元件的计算机可读介质。在示例中，计算机可读介质将计算机程序元件存储在非易失性存储器上，诸如硬盘驱动器、USB便携式驱动器或SSD存储器。

根据示例，提供了一种车辆，该车辆包括控制器，该控制器至少部分地使用根据第一方面训练的模型来配置。训练数据集包括描述电动车辆的电池健康状态、外部交通或路线模型、驾驶员行为模型或车辆的引擎模型中的一个或多个的观察向量序列。例如，可以获得传感器数据或其他数据（例如视频、LIDAR、超声波或热传感器、与其他车辆或设备的通信或这些数据源中的两个或更多个的组合）的序列。可以学习前述特征的概率密度函数。然后，经训练的模型可以用于车辆中，以预测潜在的未来操作状况。例如，这可以使得能够发起诸如制动、规避动作或紧急制动之类的对策。其效果是，使用根据第一方面的方法训练的序列预测模型，可以更准确地预测电动车辆的电池健康状况，可以更准确地预测路线寻找算法，并且可以更准确地预测车辆的驾驶员行为或引擎行为。

根据示例，例如，驾驶员行为模型可以基于传感器测量来训练，传感器测量诸如驾驶员的视频、转向、制动或者利用智能手表测量的生理参数。例如，所提取的特征可以是转向行为、加速度、眼球移动和心率。当在车辆中使用时，例如，响应于这样的输入的驾驶员行为模型的动作例如可以是改变ECU（引擎控制单元）的行为、改变汽车速度、发起紧急制动。

根据示例，引擎模型使用传感器测量（例如，从ECU获得）来提取关于引擎动态的特征。因此，观察序列包括来自ECU的传感器测量。根据第一方面，可以在这样的观察序列上训练引擎模型。当从ECU获得后续观察时，经训练的模型可以预测延伸到未来的引擎性能模式。例如，经训练的模型可以预测引擎何时进入操作模式，诸如低油状态或指示需要维修车辆的不合期望的振动状态。

根据示例，可以根据第一方面的方法来训练外部模型。观察序列包括传感器测量（诸如视频、LIDAR、与其他智能车辆的通信），以提取关于其他交通参与者和周围对象的特征。特征可以是3D世界坐标、与车辆有关的角点、与周围对象有关的无线设备以及其他交通参与者。该模型是在这样的所提取的特征上训练的。例如，经训练的外部模型可以在车辆中使用。当获得新的观察序列时，经训练的模型可以预测可能的未来行为，诸如另一车辆的速度改变。

根据示例，提供了一种无线基站和/或手机，包括至少部分地使用根据第一方面的方法训练的模型配置的控制器。训练数据集包括观察向量序列，其描述了以下中的一个或多个：在多个网络节点处的数据需求；与手机的地理定位有关的可获得的上行链路或下行链路速率；物理层参数，诸如MIMO（多输入多输出）天线配置、OFDM（正交频分复用）子载波配置、QAM（正交幅度调制）指数、信道编码模式、下行链路和上行链路之间的信道响应、或者HARQ（混合确认重复请求）配置。

其效果是，基于对无线通信网络的公共参数的少量观察，可以更高效地使用通信信道。

根据示例，观察序列包括一个或多个向量，所述一个或多个向量定义了在通信网络的一个或多个节点（基站）处，或者在无线通信网络（诸如5G通信网络）的一个或多个宏小区、微小区、微微小区或毫微微小区内的数据速率或数据需求。更进一步地，在示例中，数据速率或数据需求测量与节点处的一个或多个其他测量（诸如温度或一天中的时间）相组合。根据第一方面的计算机实现的方法被应用于该观察序列。这提供了一种训练模型，其通过调整MIMO天线配置、调整OFDM子载波分布、QAM调制指数、信道编码模式或HARQ配置的参数，基于输入的观察序列，使能实现在通信网络的一个或多个节点上的资源分配。

根据示例，使用该模型来配置的工业机器或机器人包括至少部分地使用根据第一方面训练的模型来配置的控制器。训练数据集包括观察向量序列，所述观察向量序列描述了以下中的一个或多个：机器或机器人的一部分的定位、操作温度、振动测量或者声音或视频测量。事实是，工业机器或机器人可以被更准确地控制。

根据示例，观察序列包括从原型工程设备获得的一个或多个向量。例如，原型设备是电动工具、家用电器或新的引擎设计）。来自设备内部传感器或外部传感器（诸如视频或LIDAR）的数据作为观察序列被收集。根据第一方面的计算机实现的方法被应用于该观察序列。因此，经训练的模型可以作为原型工程设备的“数字孪生体”的一部分并入。可以监视从相关工程设备获得的另外的观察序列。经训练的模型可以提供对设备行为中未来异常（例如，能量消耗过高，设备过早失效）的提前预测。在示例中，如果基于另外的观察序列的预测序列指示不安全的状况，则经训练的模型可以发起受监视设备的安全关机。

根据示例，观察序列是从原型“物联网”（IoT）系统获得的。观察序列可以包括从智能家居或智能制造系统获得的信息。根据第一方面的方法，收集和跟踪传感器测量——其中定义临界阈值（诸如最小氧气水平或最大温度），并将其用于训练机器学习模型。从类似于原型“物联网”（IoT）系统的服务中IoT系统中获得另外的观察序列。如果可能违反关键性能条件或阈值，则在特定的时间范围内，在从原型“物联网”（IoT）系统获得的观察序列上训练的机器学习模型可以执行另外的动作。另外的动作的示例是例如停止生产线、打开或关闭阀门、打开或关闭窗户。

根据示例，可以根据作为第一方面的方法来训练模型，以执行视频分类任务。例如，可以（使用对象跟踪方法）从视频提取基于帧的特征。根据基于帧的特征来训练视频预测模型。未看见的视频可以形成输入到视频预测模型中的另外的观察序列。经训练的模型可以提供关于对视频分类有用的视频的未来发展的预测。预测特征被馈入到基于用例的具有不同可能效果的分类器中。例如，分类器可以预测交通事故是否将要发生。如果是，则分类器可以与紧急服务通信。可替代地，分类器可以预测视频中是否将要出现暴力场景，并且如果是，则可以激活内容保护。它是。

F.网络的具体实现

下面提供了VDM机器学习模型的示例实现。本说明书中使用该实现来在G节中生成出租车轨迹示例的结果。

示例VDM机器学习模型包括编码器，该编码器被配置为将第一观察

嵌入潜在空间作为初始潜在状态

。转移网络被配置为传播潜在状态

。解码器被配置为将潜在状态

映射到观察

。推断网络被配置为在给定观察

的情况下更新潜在状态

。潜在门控循环单元GRU被配置为在给定观察

的情况下总结历史潜在状态

。鉴别器被用于执行对抗性训练。

在该示例中，“Adam”优化器以

的学习速率应用。然而，技术人员应当领会，在其他情况下，可以应用许多其他类型的优化器，诸如基本梯度下降。

在所有三个实验中，网络具有相同的架构，但大小不同。模型大小取决于观察维度

、潜在状态维度

和隐藏状态维度

。训练中每个观察步骤（例如，时间步骤）处使用的样本数量为

。如果模型输出是方差，则使用输出的指数来确保它是非负的。

表1.出租车示例中使用的VDM模型的参数化定义。

在出租车轨迹示例中，观察维度

为2，潜在状态维度

为6，并且隐藏状态维度

为32。

G.示例结果-出租车轨迹

为了测试VDM方法，生成来自一系列先前的ML模型的真实样本和预测结果，并与VDM进行比较。被选取来展示VDM多模态性能的任务涉及预测2D网格上出租车路线的未来轨迹。训练数据集是在葡萄牙波尔图记录的，并且在Kaggle网站上在

处可获得。

完整的数据集很大，并且轨迹的长度各不相同。选择长度在30和45之间的波尔图市区内的轨迹。提取每个轨迹的前30个坐标。因此，获得了具有为30的固定序列长度的数据集。这被拆分成大小为86,386的训练集、大小为200的验证集和大小为10000的测试集。

在出租车轨迹实验中，来自具有为30的固定长度的数据集的轨迹被隔离，以使能实现在轨迹之间的公平比较。如上面所讨论的，任务是针对基于变分动态混合（VDM）的模型，当提供有出租车轨迹的初始10个观察（由地图网格上多个时间步骤处的2D位置表示）时，预测未来的20个观察（由地图网格上多个时间步骤处的2D位置表示）。出租车轨迹预测的特征是所生成的样本应该遵循街道地图。因此，出租车轨迹预测算法的困难是从轨迹中学习由街道地图引起的尖锐且复杂的分布。

使用了三个品质因数：（i）多步超前预测

，（ii）一步超前预测

和（iii）经验Wasserstein距离。为了评估序列数据的预测，负对数似然被广泛应用。对于一步预测，预测分布可以从模型中以封闭形式获得。以该方式无法获得多模态序列数据的长期预测。因此，应用于出租车示例的测试方法为每个观察到的初始轨迹生成1000个预测，以模拟预测分布。然后，负对数似然根据经验计算如下：

其中n标示预测的数量，x是基准真值，并且

表示预测。该等式鼓励预测与基准真值相匹配，但不关注评估预测的多样性。

新引入的基于经验Wasserstein距离的评估指标旨在是对负对数似然的补充。经验Wasserstein距离旨在计及预测的多样性和准确性。Wasserstein距离测量两个经验分布P和Q之间的距离，其可以计算为：

其中

标示所有排列，并且x和y是P和Q中的离散样本。为了构造该评估，构造了来自测试集的具有相似初始部分的n个样本。对于每个测试样本，模型生成10n个预测。因此，产生n组生成的样本。可以计算n个真实样本和每组生成样本之间的经验Wasserstein距离。n组上的平均经验Wasserstein距离评估所生成的样本与基准真值区域重叠得有多好。对于不同的初始部分重复执行该过程使能实现评估建模分布和数据分布之间的经验Wasserstein距离。

为了提供VDM与其他模型的比较，同样的出租车预测任务也使用循环卡尔曼网络（RKN）、条件流变分自动编码器（CF-VAE）、自动编码蒙特卡罗（AESMC）——利用蒙特卡罗进行采样的变分自动编码器（VDM-MC）的变体——来执行。

表2：出租车轨迹训练结果。

如表2中所示，在出租车轨迹训练中，本说明书中提出的VDM优于所有其他序列模型。例如，与CF-VAE相比，VDM方法不强调给定观察的作用。使用VDM的序列预测取决于最新的状态，并且在预测进行时，初始观察的影响逐渐变弱。这符合驾驶行为。这样做的结果是，仅少数预测与基准真值的方向匹配，尽管其中许多预测仍然是合情的，但与基准真值相去甚远。从数量上来说，VDM实现的最小Wasserstein距离也证明了使用VDM对出租车轨迹的预测是多样和准确的。尽管已经针对出租车轨迹预测挑战提出了上述结果，但是本领域技术人员应当领会，许多序列观察预测任务可以受益于VDM方法。

图5图示了根据第一方面的计算机实现的方法如应用于波尔图中从两个不同位置开始的预测出租车轨迹的结果。结果行“A”图示了从地图右上角的位置开始的出租车轨迹。结果行“B”图示了从地图左下角的位置开始的出租车轨迹。在“A”和“B”两种情况下，“真”网格表示基准真值样本。“VAE”网格表示初始观察及其由本说明书中引入的VDM技术预测的延续。“CF-VAE”网格表示初始观察及其由比较CF-VAE算法预测的延续。“VRNN”网格表示初始观察及其由比较VRNN算法预测的延续。“RKN”网格表示初始观察及其由比较的“RKN”算法预测的延续。在观察集“A”的每种情况下，“真”、“VDM”、“CF-VAE”、“VRNN”和“RKN”的初始观察都是相同的。类似地，在观察集“B”的每种情况下，“真”、“VDM”、“CF-VAE”、“VRNN”和“RKN”中的每一个的初始观察都是相同的。

将出租车轨迹预测技术与基准真值进行比较，可以定性地得出结论，VDM技术从给定的初始轨迹开始，以对真实数据的高度保真度预测多个出租车轨迹延续。当提供有相同的训练数据和初始轨迹时，CF-VAE和VRNN算法示出生成非地理上合情的路线的趋势。换句话说，CF-VAE和VRNN算法生成不捕获以下街道规划中固有的多模态的轨迹延续。该趋势在VRNN算法中更糟。RKN算法似乎受到非常糟糕的影响，以至于没有生成重要的轨迹延续。

尽管已经依据用于在街道地图上生成出租车的轨迹延续的场景讨论了上述结果，但是本领域技术人员应当领会，VDM方法一般可以应用于任何观察向量序列，并且当观察向量序列是在经受多模态偏差的情况下生成的时，可以提供增强的性能。

Claims

1.一种用于使用机器学习来训练深度状态空间模型的计算机实现的方法，其中所述深度状态空间模型包括：

生成模型和多模态推断模型，其中生成模型进一步包括转移模型（

）和发射模型（

），转移模型被配置为描述多个潜在状态的改变，发射模型被配置为解码多个潜在状态从而提供多个合成观察，所述方法包括：

接收（10）包括观察向量序列的训练数据集（

）的训练数据集，每个观察向量在观察步骤处获得；

对于包含在观察向量序列中的多个观察向量，所述方法迭代b）、c）和d）：

b）通过对在观察向量序列的当前观察步骤处获得的当前观察向量进行映射以获得当前潜在状态的概率分布，使用多模态推断模型推断（11）来推断生成模型的当前潜在状态；

c）使用多模态推断模型，将当前潜在状态的后验近似（

）构造（12）为混合密度网络，从而产生多个近似潜在状态向量；

对于包含在观察向量序列中的多个观察向量：

d）使用发射模型解码（13）所述多个近似潜在状态向量，从而提供多个合成观察；和

e）输出（14）经训练的深度状态空间模型。

2.根据权利要求1所述的计算机实现的方法，进一步包括：

根据针对每次迭代计算的目标函数，通过将训练数据集的观察向量序列（

）与多个合成观察进行比较，迭代优化生成模型和多模态推断模型的参数。

3.根据权利要求2所述的计算机实现的方法，其中目标函数是证据下界（ELBO）。

4.根据权利要求2或3所述的计算机实现的方法，其中所述目标函数进一步包括基于对数证据的近似的第一正则化项（

）。

5.根据权利要求2至4之一的计算机实现的方法，其中目标函数进一步包括基于对抗性函数的第二正则化项（

）。

6.根据前述权利要求之一所述的计算机实现的方法，其中后验近似使用蒙特卡罗采样或随机化拟蒙特卡罗采样进行采样。

7.根据前述权利要求之一所述的计算机实现的方法，其中

将当前潜在状态的后验近似（

）构造为混合密度网络进一步包括：根据随机容积近似从先前的观察步骤采样后验近似。

8.根据权利要求7所述的计算机实现的方法，其中通过构造最优分布在n维标准高斯上的

9.根据权利要求6至8之一所述的计算机实现的方法，其中加权函数（

）在每个时间步骤处被应用于后验近似的样本。

10.根据权利要求9所述的计算机实现的方法，其中加权函数（

）是（i）从分类分布中采样的指标函数，或者（ii）加权函数包括被选择来实现最高似然性的非零分量。

11.根据前述权利要求之一所述的计算机实现的方法，其中转移网络和/或混合分量由门控循环单元（GRU）参数化。

12.根据前述权利要求之一所述的计算机实现的方法，其中转移模型是非马尔可夫的。

13.根据前述权利要求之一所述的计算机实现的方法，其中

训练数据集包括定义时间序列训练序列的观察向量序列（

）。

14.一种用于在预测系统中使用经训练的机器学习模型的计算机实现的方法，包括：

-接收（18）根据权利要求1-13的方法生成的经训练的深度状态空间模型；

-接收（20）输入观察向量序列（

），每个观察向量在观察步骤处获得；

-使用经训练的机器学习模型预测（22）观察向量序列（

-输出（23）观察向量序列的至少一个延续。

15.根据权利要求14所述的使用经训练的机器学习模型的计算机实现的方法，其中输入观察向量序列（

）是时间序列，表示以下中的一个或多个：

-图像数据或音频数据序列；或者

-用于监视操作员的数据序列；或者

-从工业机器接收的数据序列，

-表示历史车辆路线或引擎性能的数据序列，或

-描述无线网络性能或无线网络资源分配的数据序列。

16.一种被配置为使用机器学习来训练深度状态空间模型的装置包括输入接口（28）、存储器（30）、处理器（32）和输出接口（34）；

其中输入接口（28）被配置为接收训练数据集，所述训练数据集包括观察向量序列（

），每个观察向量在观察步骤处获得；

其中所述处理器（32）被配置为执行深度状态空间模型，所述深度状态空间模型包括生成模型和多模态推断模型，其中，在使用中，生成模型进一步包括被配置为描述多个潜在状态的改变的转移模型，以及被配置为解码多个潜在状态从而提供多个合成观察的发射模型；

其中所述处理器（32）进一步被配置为，对于包含在观察向量序列中的多个观察向量，迭代如下各项：（a）通过对在观察向量序列的当前观察步骤处获得的当前观察向量进行映射以获得当前潜在状态的概率分布，使用多模态推断模型来推断生成模型的当前潜在状态，以及（b）使用多模态推断模型将当前潜在状态的后验近似（

）构造为混合密度网络，从而产生多个近似潜在状态向量，并且对于包含在观察向量序列中的多个观察向量，处理器被配置为使用发射模型解码所述多个近似潜在状态向量，从而提供多个合成观察；和

其中输出接口（34）被配置为输出经训练的深度状态空间模型。

17.一种包括用于在训练数据集上训练深度状态空间模型的程序的计算机程序元件，所述训练数据集包括观察向量序列（

），每个观察向量在在观察步骤处获得，其中所述计算机程序元件当由计算机执行时，使得计算机执行权利要求1至13之一的步骤。

18.一种包括经训练的模型数据的计算机程序元件，所述经训练的模型数据定义由执行根据权利要求1至13之一的计算机实现的方法的计算机生成的深度状态空间模型。

19.一种包括权利要求16或17中的任一项的计算机程序元件的计算机可读介质。

20.一种包括控制器的车辆，所述控制器至少部分地使用根据权利要求1至13之一训练的深度状态空间模型来配置，其中训练数据集包括

观察向量序列，描述电池健康状态、外部交通或路线模型、驾驶员行为模型或引擎模型中的一个或多个。

21.一种包括控制器的无线基站和/或手机，所述控制器至少部分地使用根据权利要求1至13之一训练的深度状态空间模型来配置，其中训练数据集包括描述以下中的一个或多个的观察向量序列：

在多个网络节点处的数据需求；与手机地理定位有关的上行链路或下行链路速率；物理层参数，诸如MIMO天线配置、OFDM子载波配置、QAM指数、信道编码模式、下行链路和上行链路之间的信道响应或HARQ配置。

22.一种使用模型来配置的工业机器或机器人，包括控制器，所述控制器至少部分地使用根据权利要求1至13之一训练的深度状态空间模型来配置，其中训练数据集包括观察向量序列，所述观察向量序列描述以下中的一个或多个：机器或机器人的一部分的定位、操作温度、振动测量或者声音或视频测量。