CN117897741A

CN117897741A - 用于生成用于超声传感器模型的合成训练数据的方法和设备

Info

Publication number: CN117897741A
Application number: CN202280057327.5A
Authority: CN
Inventors: H·德米雷尔; A·K·阿加瓦尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-08-23
Filing date: 2022-07-08
Publication date: 2024-04-16
Also published as: WO2023025451A1; EP4141807A1; DE112022004085T5; US20240310500A1

Abstract

本发明涉及一种用于生成合成训练数据的计算机实现的方法，所述合成训练数据用于针对具有多个超声传感器设备(21)的超声传感器系统(2)的给定配置来训练数据驱动的超声传感器模型(43)，其中所述训练数据包括表示接收到的超声信号的时间序列数据的输入数据以及指示所述超声传感器系统(2)的感测范围内的环境对象的对象特性的输出数据；所述方法包括以下步骤：‑提供(S2)通过测量所述超声传感器系统(2)的所述给定配置而获得的真实训练数据；‑使用所述真实训练数据借助于训练模型来训练(S4)生成器模型；‑通过应用随机噪声向量(z)作为输入，使用(S9)所述生成器模型(51)来生成所述合成训练数据。

Description

用于生成用于超声传感器模型的合成训练数据的方法和设备

技术领域

本发明涉及超声传感器系统，该超声传感器系统使用超声传感器模型作为机器学习模型，以用于在停车操纵期间检测环境对象的位置和性质。本发明进一步涉及基于训练数据来生成超声传感器模型，并且具体地涉及生成用于训练这种超声传感器模型的合成训练数据。

背景技术

超声传感器系统通常具有多个超声传感器设备。超声传感器设备被配置成经由发射器将超声脉冲发射到周围环境中，其中超声脉冲在被其传播期间遇到的一个或多个环境对象反射之后被接收器接收。接收到的超声脉冲然后被分析，以获得关于环境对象的信息。

在具有多个超声传感器设备的布置的超声传感器系统中，可以基于诸如飞行时间、幅度衰减、以及所传输信号和所接收信号之间或所接收信号之间的相移之类的影响来执行测量，以获得超声传感器系统周围的环境对象的信息。

由于各种影响，并且特别是针对当环境中存在多个对象的情形，接收到的信号模式是复杂的，并且难以应用第一原理物理模型来分析。因此，机器学习模型可以应用于定位环境对象并且标识对象性质。这些超声传感器模型在很大程度上取决于超声传感器系统的性质，并且因此针对这种超声传感器系统的每个配置，必须训练不同的超声传感器模型。

发明内容

根据本发明，提供了一种根据权利要求1的用于生成用于训练要在超声传感器系统的情况下应用的超声传感器模型的合成训练数据的方法、以及根据另外的独立权利要求的用于生成用于超声传感器模型的合成训练数据的设备。

在从属子权利要求中指示了进一步的实施例。

根据第一方面，提供了一种用于生成合成训练数据的计算机实现的方法，该合成训练数据用于针对具有多个超声传感器设备的超声传感器系统的给定配置来训练数据驱动的超声传感器模型，其中该训练数据包括表示接收到的超声信号的时间序列数据的输入数据以及指示超声传感器系统的感测范围内的环境对象的对象特性的输出数据；所述方法包括以下步骤：

-提供通过测量超声传感器系统的给定配置而获得的真实训练数据；

-使用真实训练数据来训练生成器模型；

-通过应用随机噪声向量作为输入，使用生成器模型来生成合成训练数据。

此外，生成器模型可以通过应用包括利用真实训练数据被对抗性地训练的生成器模型和判别器模型的GAN模型作为训练模型和/或通过应用利用真实训练数据被训练的变分自编码器作为训练模型来训练，其中变分自编码器的解码器部分形成生成器模型。

特别地，用于获得生成器模型的训练模型可以是取决于一个或多个评分指标、特别是多个评分指标的平均评分指标从多个给定训练模型中选择的。

具有超声传感器设备的具体布置的超声传感器系统的配置需要具体的超声传感器模型，以用于评估测量数据并且基于所执行的测量来确定环境对象的位置和性质。具体的超声传感器模型需要是复杂的，以考虑信号失真和反射，特别是当检测范围内存在多个环境对象时。因此，已经示出使用机器学习模型作为超声传感器模型是有利的，该超声传感器模型基于从超声传感器设备导出的输入数据来提供环境对象的位置和性质。

机器学习模型必须通过特性训练数据来训练，该特性训练数据将从接收到的传感器信号导出的输入与指示环境对象的特性(诸如它们的位置和/或它们的性质)的输出相关联。通常，为了生成用于训练这种基于机器学习模型的超声传感器模型的训练数据，必须布置和测量周围环境中的环境对象的不同设置。通过对来自不同超声传感器设备的接收到的超声信号的时间序列进行采样并且将它们与所布置的环境对象的对象特性相关联，可以生成训练数据。

用于机器学习模型的输入数据可以是以表格格式的，其中输入特征和对应的标签输出被格式化为列。

输入的训练数据可以具有各种格式，包括每个超声传感器设备的时间序列数据、从特征工程获得的聚合数据，诸如时间序列信号的最大幅度、超声信号的传输与在接收器中接收到超声信号的最大幅度之间的时间、所发送信号与所接收信号之间和/或所接收信号之间的相移的相位信息等。此外，训练数据可以进一步包括输出数据(标签)，该输出数据(标签)包括对象特性信息，该对象特性信息可以包括(多个)对象位置、(多个)对象高度、(多个)对象标识等中的至少一个。

从接收到的超声传感器信号导出的输入数据以及作为标签的表示对象信息的输出数据共同形成针对单个具体环境设置的训练数据项。为了获得大量且足够量的训练数据项，必须构建和测量非常大量的不同的环境对象设置，这是耗时的。特别地，在超声传感器系统的开发阶段——其中必须关于超声传感器设备的布置、灵敏度和数量做出对传感器系统的配置，开发过程是非常成本密集的。因此，以上方法涉及合成训练数据的生成，从而避免针对真实测量提供环境对象的许多环境设置。

尽管数据的格式是无关紧要的——这是因为合成数据生成的概念可以被应用于非结构化数据和结构化数据两者，但是优选使用以表格格式的输入数据。

基本上，生成器模型应被用于生成合成训练数据。然而，建立这种生成器模型涉及从定义了生成器模型和训练模型的架构的各种各样超参数集合中进行选择，这些超参数集合会强烈地影响由生成器模型生成的训练数据的质量。

根据以上方法，使用训练模型设置来建立和训练用于生成合成训练数据的生成器模型。训练模型可以包括例如GAN模型和变分自编码器。作为训练模型的GAN模型通常包括被对抗性地训练的生成器模型和判别器模型。然而，提供经训练的生成器模型的自由度是高的，因为定义了数据驱动的生成器模型的架构的超参数、判别器模型的超参数、以及训练方法的类型对生成器模型在生成有价值训练数据方面的质量具有影响。因此，可以针对不同的GAN模型和/或变分自编码器来执行生成器模型的训练。

在训练之后，基于评分指标来评估经训练的GAN模型，以评价可由经训练的生成器模型生成的训练数据的质量。

特别地，可以评估用于生成器模型的不同训练模型，这些训练模型可以包括变分自编码器、条件GAN(cGAN)和copulaGAN中的至少一个，特别是如果使用以表格格式的输入数据的话，则包括表格变分自编码器(TVAE)、条件表格GAN(CTGAN)和CopulaGAN。

(表格)变分自编码器被适配成通过使用卷积神经网络对以表格格式的真实世界数据进行建模，并且通过最小化Kullback-Leibler散度(KL散度)来学习每个列的边际分布。针对两个给定分布，KL散度确定一个分布在与另一个分布相比时有多接近。

(表格)变分自编码器使用编码器将真实训练数据映射到隐空间中，其中隐空间表示由具有均值和方差的高斯分布来定义。该均值和方差然后被用于生成要由判别器模型评估的合成数据。

条件(表格)GAN(CTGAN)涉及生成器基于输出得分来生成合成数据，该输出得分是指示用于在真实训练数据与所生成的合成训练数据之间进行区分的临界性(criticality)的度量。然后使用输出得分来调整生成器模型的参数，该生成器模型在一些随机噪声向量的帮助下产生高质量的合成训练数据，以在所生成的合成训练数据中引入保真度和多样性。

CopulaGAN是CTGAN的改进版本，该改进版本使用基于变换的累积分布函数，该变换使用高斯copula而不是变分高斯混合模型，以使真实数据的学习更容易。

特别地，不同类型的训练模型导致了不同训练质量的生成器模型，其中每一个都或多或少适合于合成训练数据的生成。

针对训练模型架构的评估，训练模型基于它们可以生成的合成训练数据与真实训练数据联合分布(real training data joined distribution)相匹配的紧密程度被评估。所生成的训练数据的质量可以通过不同的方法和一个或多个不同的评分指标来检查，这些评分指标允许确定训练模型得分。

例如，可以应用统计指标，其中逐元素(elementwise)来比较真实训练数据和合成训练数据，其中聚合元素值之间的差异，该差异表示真实训练数据与合成训练数据中的每一个之间的相似性度量。

基于一个或多个评分指标，针对训练模型和如此训练的生成器模型做出选择。所选的生成器模型然后可以被用于生成合成训练数据，以训练数据驱动的超声传感器模型。

根据另外的方面，一种用于生成合成训练数据的设备，该合成训练数据用于针对具有多个超声传感器设备的超声传感器系统的给定配置来训练数据驱动的超声传感器模型，其中该训练数据包括表示接收到的超声信号的时间序列数据的输入数据以及指示超声传感器系统的感测范围内的环境对象的对象特性的输出数据；其中该设备被配置成：

-使用真实训练数据借助于训练模型来训练生成器模型；

附图说明

结合附图更详细地描述了本发明的实施例，在附图中：

图1示意性地示出了用于检测环境对象的特性的超声传感器系统；

图2是用于获得环境对象的对象特性的超声传感器系统的信号处理的框图；

图3是用于训练生成器模型的GAN模型的示意性功能图，该生成器模型将用于训练超声传感器模型；

图4图示了用于训练将在图1和2的超声传感器系统中使用的超声传感器模型的方法的流程图；以及

图5是比较不同训练模型的评分指标的表格。

具体实施方式

图1a和1b示意性地示出了在车辆1的前部处的顶视图以及到车辆1的前部上的侧视图。车辆1的前部(特别是在保险杠上)被提供有超声传感器系统2，用于确定车辆1周围的一个或多个环境对象3。超声传感器系统2包括沿着车辆1的前侧布置的多个超声传感器设备21。超声传感器设备21通常被实现为超声收发器，该超声收发器被配置成发射和接收超声信号。

超声传感器系统2中的超声传感器设备21的配置可以经受用于这种超声传感器系统2的合适架构的开发和设计。特别地，为了布置超声传感器设备21中的每一个，其在高度h和宽度w方面的位置以及根据所示角度α、β的其感测主轴的其方向可以是可变的并且被选择。

超声传感器设备21中的每一个与控制单元4耦合，该控制单元4取决于一个或多个环境对象3的存在而提供传感器数据。超声传感器设备21的测量通常利用飞行时间测量、幅度衰减测量、以及相移测量或其组合。

这些测量可以通过在超声传感器设备21中的每一个中发射超声脉冲并且接收反射超声信号来进行。接收到的反射超声信号被采样成相应反射超声信号的时间序列数据。在控制单元4中，时间序列数据被分析以获得关于环境对象3的信息。因此，环境对象3通过对象特性被标识，该对象特性可以包括关于一个或多个环境对象的定位、标识和性质的信息。定位可以表示超声传感器系统2的感测范围内的局部坐标，标识可以对检测到的环境对象进行分类，诸如是低墙或高墙、行人、低对象等。进一步地，性质可以指示环境对象3的表面由何种类型的材料制成。

如图2的控制单元的更详细的示意图中所示，由超声传感器设备21接收到的采样时间序列数据S被收集，其中它们在滤波器单元41中被滤波，以消除环境影响，如温度或其他随机因素，诸如地面反射等。

在随后的特征工程单元42中，经滤波的时间序列数据项F被分析并且与接收到的时间序列的特征相关联，以生成特征向量作为用于数据驱动的超声传感器模型43的输入数据I。

所构建的特征可以包括经滤波的时间序列数据中的每一个的特征，诸如时间序列数据中的最大值的数量、到幅度的第一最大值的时间、超声信号的最大值的宽度、所发射信号和所接收信号之间的相关性、信噪比、对象检测的置信水平、对象与车辆的距离等。

超声传感器模型43被设计为数据驱动的机器学习模型，诸如人工神经网络、梯度提升模型(XGBoost)等。超声传感器模型43被训练成基于由接收到的超声传感器信号的特征形成的输入向量I来关联对象特性。对象特性可以作为输出数据O被输出，该输出数据O可以包括对象定位数据、对象标识数据和对象性质数据中的至少一个，以标识对象的类型。

为了训练数据驱动的超声传感器模型43，需要训练数据。常规地，训练数据可以通过如下方式来获得：设置具有环境对象的不同布置的超声传感器系统1的环境，并且执行测量以获得超声传感器信号，该超声传感器信号被采样、滤波和特征设计以获得如上所描述的输入数据。将这些输入数据与所设置环境对象3的已知对象特性(位置、标识、性质)相关联，该已知对象特性作为标签，其中对象特性是从测试环境的设置手动获得的。每个训练数据项由输入数据和相关联的输出数据形成。该过程是耗时的，因为针对每个训练数据项，该设置必须在可以获得新的训练数据集之前改变，并且用于正确数据收集的实验的设置也受到特殊人类技能的影响。

为了便于提供用于超声传感器模型的训练数据的过程，应提供生成器模型以用于生成合成训练数据项。

为了训练和获得生成器模型，可以应用基于少量真实训练数据I_real被训练的GAN模型(生成对抗网络)，以获得具有合成训练数据的训练数据集。如上所描述的那样，真实训练数据I_real是利用在超声传感器系统2的感测范围内的环境对象3的真实世界设置中的测量而获得的。

GAN模型在本领域通常是已知的，并且在图3中示意性地示出。GAN模型5提供生成器模型51以基于随机噪声向量z来生成合成训练数据，并且提供判别器模块52，判别器模块52被训练成在真实训练数据与合成训练数据I_syn之间进行区分。当生成器模型51被训练成提供合成训练数据I_syn以便尽可能相对于真实训练数据I_real不可区分时，判别器模型52试图改进合成训练数据I_syn与真实训练数据I_real之间的区分。

GAN模型的特性是由以下等式给出的最小/最大优化(min/max optimization)问题：

其中G是生成器模型51的传递函数，其中D是判别器模型52的传递函数。D(x)是x取自真实训练数据I_real而不是由生成器模型51生成的概率，V(D,G)是取决于判别器模型52的输出的最小/最大优化的值函数，并且p_G是生成器在真实训练数据x上的概率分布。在真实训练数据上的概率分布p_G是通过迭代内的接续的生成器损失来获得的。生成器损失由生成器模型的传递函数G用作度量，以适配更接近于真实数据分布和输入噪声向量的概率分布p_Z的概率分布。通常，随机噪声向量在其性质方面是完全随机的，它可以遵循均匀分布(U(-1,1))或正态分布(N(0,1))。

虽然作为训练模型的GAN模型5具有生成器模型51和判别器模型52来应用上述训练方案，但是基于不同的原理存在GAN模型的不同训练和配置类型。

例如，通过训练模型获得的生成器模型51可以包括表格(tabular)变分自编码器，作为条件表格GAN模型、copulaGAN模型等。

表格变分自编码器也可以被应用于获得生成器模型，使得它被适配成对合成训练数据进行建模，例如通过使用卷积神经网络，以通过最小化Kullback-Leibler散度来学习每个输入向量元素的边际分布。针对两个给定分布的KL散度是指这一个分布在与另一个分布相比时有多接近。

变分自编码器将通过真实训练数据来训练。隐空间向量由均值及其分布给出，使得随机变量可以被用于生成合成训练数据。

作为GAN模型，当真实训练数据作为表格数据给出时，也可以使用条件表格GAN模型。条件表格GAN模型的特征在于被训练成考虑判别器模型的输出得分的生成器模型。由此，使用训练数据中的特定部分来引导生成器模型基于输出得分来生成数据。输出得分是[0,∞]中的连续尺度上的度量，其中0对应于条件类别真实数据的确切表示。较高的得分指示判别器模型52能够在真实训练数据与合成训练数据之间进行区别，并且在另一方面，较低的得分指示判别器模型52不能够在两者之间进行区别。因此，使用输出得分来调整生成器模型51的参数，该生成器模型51在一些随机噪声向量(z)的帮助下产生高质量合成数据，以在所生成的合成数据中引入保真度和多样性。

CopulaGAN模型是条件GAN模型的改进版本，该改进版本使用基于累积分布函数的变换，该变换使用高斯Copula而不是变分高斯混合模型，以使真实训练数据的学习更容易。

在该方法的以下描述中也可以考虑其他GAN模型，以提供用于超声传感器系统的具体配置的适当生成器模型。

在图4中，示出了图示用于训练要在超声传感器系统的具体配置的情况下应用的数据驱动的超声传感器模型的方法的流程图。

在步骤S1中，提供具有超声传感器设备的布置的超声传感器系统的具体配置。

在步骤S2中，获得或提供针对超声传感器系统的所选配置的真实训练数据，如上所描述。

在步骤S3中，从例如上面简要讨论的训练模型架构中选择多个训练模型中的一个。训练模型可以通过它们的类型(如上面讨论的)和它们的超参数来区分，该超参数可以包括所涉及的神经网络的类型和配置，诸如层数、每层神经元的数量、激活函数的种类等。

在步骤S4中，使用所选训练模型架构来执行训练模型的训练，如本领域中通常已知的那样。训练被执行，直到给定收敛准则被满足或者作为训练参数之一的预定义次数的迭代结束。

在步骤S5中，使用一个或多个评分指标——其可以包括统计指标、检测指标和似然性指标——来评估由所选训练模型获得的经训练的生成器模型的性能，以检查用于生成合成训练数据的生成器模型的质量，从而决定生成器模型51的生成所基于的训练模型的质量。

作为当作评分指标的统计指标，对真实训练数据和合成训练数据的分布之间的相似度进行评分。这可以使用Kolmogorov-Smirnov测试(KS测试)来进行，其中经验分布函数之间的距离是定量的。这基于两个样本取自相同连续分布的原假设(null hypothesis)、以及这两个样本取自具有95％临界值的两个不同分布的备择假设(alternate hypothesis)。在该框架中，0和1分别是跨真实数据和合成数据中的所有对应特征的平均得分的统计最小值和最大值。得分越高，所生成的合成数据的质量就越高。

此外，可以使用Kullback-Leibler散度(KL散度)，KL散度指示两个给定概率分布多么密切地相关。同样在此处，0表示跨真实数据和合成数据中的所有对应特征的平均得分的统计最小值，并且1表示跨真实数据和合成数据中的所有对应特征的平均得分的统计最大值。较高的得分表示这两个给定样本密切地相关。

作为当作评分指标的检测指标，可以应用预先训练的机器学习模型作为分类器来用于在真实训练数据与合成训练数据之间进行区分。评分指标评估通过使用由所选训练模型获得的生成器模型来区分合成数据与真实数据有多困难。为此，评分指标将真实数据和合成数据连同指示该数据是真实数据还是合成数据的标志一起进行混洗，并且然后交叉验证试图预测该标志的机器学习模型。评分指标的输出将是1减去跨所有交叉验证分割(split)的平均ROC AUC得分。该作出预测的机器学习模型可以利用表格数据来预先训练，并且因此接受两个参数，即，真实数据和合成数据。

来自这些指标的较高得分指示分类器不能够将真实训练数据与合成训练数据进行分类，并且因此这两者具有几乎相同的特性。例如，可以使用支持向量分类器，如从以下文献中已知的那样：PATKI,Neha；WEDGE,Roy；VEERAMACHANENI,Kalyan：The SyntheticData Vault.In：2016，IEEE International Conference on Data Science and AdvancedAnalytics(DSAA)，2016，S.399-410。

为了确定作为评分指标的似然性指标(BN对数似然性)，使用真实训练数据来拟合概率模型，并且稍后，计算从该概率模型取得的合成训练数据的似然性。可以使用贝叶斯网络作为概率模型来指示所生成的合成数据的质量。该指标将贝叶斯网络拟合到真实训练数据，并且然后评估来自其上的合成训练数据的行的平均对数似然性，其中最低的可能得分是-∞，并且最高的可能得分是0。得分越高，合成数据和真实数据的联合分布之间的匹配就越好。

在步骤S6中，存储该一个或多个评分指标。而且，可以存储由相应训练模型获得的经训练的生成器模型的网络参数。

在步骤S7中，检查是否必须评估另一训练模型架构。如果是肯定的(替代物：是)，则返回步骤S3，选择另外的训练模型架构并且继续该过程。否则(替代物：否)，在步骤S8中继续该过程。

在步骤S8中，取决于训练模型架构或由此获得的生成器模型的相应评分指标来比较训练模型架构或由此获得的生成器模型。根据评分指标来选择生成器模型中的一个，使得供应了最高质量的合成训练数据的训练模型和所应用的生成器模型被选择。

在步骤S9中，使用所选生成器模型来生成合成训练数据。

在步骤S10中，使用所生成的合成训练数据以根据常规方法(诸如梯度提升算法，即，XGBoost)来训练超声传感器模型，该常规方法利用所生成的训练数据来训练机器学习模型以便在图1的超声传感器系统中使用。

图5示出了用于评估单个超声传感器系统配置的表格的示例，针对该配置，训练数据应通过使用具有四个不同种类生成器模型的GAN模型的生成器模型来建模，并且通过不同的评估指标来评估。可以看出，CopulaGAN表现最佳，使得CopulaGAN在该示例中将被选择。

Claims

1.一种用于生成合成训练数据的计算机实现的方法，所述合成训练数据用于针对具有多个超声传感器设备(21)的超声传感器系统(2)的给定配置来训练数据驱动的超声传感器模型(43)，其中所述训练数据包括表示接收到的超声信号的时间序列数据的输入数据以及指示所述超声传感器系统(2)的感测范围内的环境对象的对象特性的输出数据；所述方法包括以下步骤：

-提供(S2)通过测量所述超声传感器系统(2)的所述给定配置而获得的真实训练数据；

-使用所述真实训练数据借助于训练模型来训练(S4)生成器模型；

-通过应用随机噪声向量(z)作为输入，使用(S9)所述生成器模型(51)来生成所述合成训练数据。

2.根据权利要求1所述的方法，其中所述生成器模型(51)是通过应用包括被对抗性地训练的所述生成器模型(51)和判别器模型(52)的GAN模型(5)作为所述训练模型和/或通过应用变分自编码器作为所述训练模型来训练的，其中所述变分自编码器的解码器部分形成所述生成器模型。

3.根据权利要求1或2所述的方法，其中用于获得所述生成器模型(51)的所述训练模型是取决于一个或多个评分指标、特别是多个评分指标的平均评分指标从多个给定训练模型中选择的。

4.根据权利要求3所述的方法，其中所述多个给定训练模型包括变分自编码器、条件GAN模型和CopulaGAN模型中的至少一个。

5.根据权利要求2或3所述的方法，其中所述一个或多个评分指标包括以下各项中的至少一个：统计指标、检测指标和似然性指标。

6.根据权利要求1至4中任一项所述的方法，其中所述合成训练数据被用于训练所述超声传感器模型(43)，特别是与所述真实训练数据组合地训练所述超声传感器模型(43)。

7.根据权利要求6所述的方法，其中所述超声传感器模型(43)被形成为人工神经网络或梯度提升模型。

8.根据权利要求1至7中任一项所述的方法，其中所述训练数据被给出为表格数据。

9.一种用于生成合成训练数据的设备，所述合成训练数据用于针对具有多个超声传感器设备(21)的超声传感器系统(2)的给定配置来训练数据驱动的超声传感器模型(43)，其中所述训练数据包括表示接收到的超声信号的时间序列数据的输入数据以及指示所述超声传感器系统(2)的感测范围内的环境对象的对象特性的输出数据；其中所述设备被配置成：

-提供通过测量所述超声传感器系统(2)的所述给定配置而获得的真实训练数据；

-使用所述真实训练数据借助于训练模型来训练生成器模型；

-通过应用随机噪声向量(z)作为输入，使用所述生成器模型(51)来生成所述合成训练数据。

10.一种计算机程序产品，包括在其上具有计算机程序代码部件的计算机可读介质，当所述程序被加载时，所述计算机程序代码部件使计算机执行程序以执行根据权利要求1至8中任一项所述的方法的所有步骤。

11.一种在其上记录有程序的机器可读介质，其中所述程序用于使计算机执行根据权利要求1至8中任一项所述的方法。