CN115280328A

CN115280328A - 用于基于样例的系统的质量保证的方法

Info

Publication number: CN115280328A
Application number: CN202180020990.3A
Authority: CN
Inventors: T.瓦苏尔齐克
Original assignee: Siemens Mobility GmbH
Current assignee: Siemens Mobility GmbH
Priority date: 2020-03-11
Filing date: 2021-02-24
Publication date: 2022-11-01
Also published as: WO2021180470A1; EP4097647A1; DE102020203135A1; US20230121276A1

Abstract

本发明涉及一种用于基于样例的系统(1)的质量保证的方法。为了改进质量保证，在该方法中，根据所收集的样例(22)创建和训练基于样例的系统(1)，该样例形成样例集合。样例集合的相应的样例(22)包括输入值(12)，该输入值位于输入空间(20)中。根据所述输入值(12)在所述输入空间(20)中的分布测定(C)质量评估，该质量评估代表所述样例集合的样例(22)对所述输入空间(20)的覆盖。

Description

用于基于样例的系统的质量保证的方法

本发明涉及一种用于基于样例的系统的质量保证的方法。

基于样例的系统、例如人工神经网络原则上是已知的。其通常用于不存在直接的算法解决方案或无法利用传统软件方法合适地创建的领域。借助基于样例的系统可以基于多个样例创建和训练任务设置。经过学习的任务设置可以应用于多个其他样例。

在Thomas Waschulzik的论文“具有监督学习的前向人工神经网络的质量保证的高效开发(QUEEN)”中描述了具有监督学习的前向人工神经网络的开发(以下简称：WASCHULZIK)。

在此背景下，本发明要解决的技术问题是改进基于样例的系统的质量保证。

根据本发明，上述技术问题通过一种用于基于样例的系统的质量保证的方法来解决，在该方法中，根据所收集的样例创建和训练基于样例的系统，所述样例形成样例集合。样例集合的相应的样例包括输入值，该输入值位于输入空间中。根据输入值在输入空间中的分布进行质量评估(或质量指标)的测定，该质量评估代表样例集合的样例对输入空间的覆盖。

本发明一方面基于这样的认识，即诸如神经网络之类的基于样例的系统通常被视为黑盒子(Blackbox)。在此，不分析内部信息处理，并且省去了产生可理解的模型。此外，不通过检查验证该系统。这导致了当在具有高关键性的任务设置中使用基于样例的系统时的保留。

本发明还基于这样的认识，即当采集样例以创建和训练基于样例的系统时，通常不知道必须在输入空间的哪些区域中采集多少样例以创建合适的知识库。

根据本发明的解决方案消除这些问题，方式为，根据输入值在输入空间中的分布来测定样例对输入空间的覆盖。由此得到输入空间的映射，该映射用作进一步采集样例以创建合适的知识库的基础。因此可以相应于在输入空间中的分布来控制样例的采集，尽管尚未确定分类器或逼近器的具体类型。也不必确定训练知识库的自由度。通过了解必须在哪些区域采集进一步的样例，可以以更有针对性的方式采集样例，并且因此可以显著降低用于采集样例的成本(因为总体上必须采集的样例更少)。

本发明还认识到，对于基于样例的系统来说，使用输入空间的映射的先决条件是对特征的合适的代表和编码。通过特定于应用程序的转换将原始数据转换为适配于任务设置的解决方案的代表。借助标准方法将这种代表转换为，使得该代表可以用作神经网络的输入神经元的活动(所谓的编码)。代表样例集合的样例对输入空间的覆盖的质量评估可以在代表的层面和编码的层面上使用。

本发明还基于这样的认识，即输入特征在输入空间中的编码和/或代表优选地与基于样例的系统的期望输出具有语义关联。例如，RGB图像的像素值不适合作为对象的大小、旋转和平移不变的分类的输入。例如，如果通过预处理确定与输出具有语义关联的特征，则优选地对输入空间进行映射。

本发明还基于这样的认识，即确定跨越的状态空间的维度的独立输入特征的数量与待采集的用于系统的配置、训练、评估和测试的样例的数量之间的比率优选地不要太大：因为在大比率的情况下，样例对输入空间的覆盖不够。

本发明还基于这样的认识，即跨越状态空间的维度优选地在语义上彼此独立(即代表任务的独立方面)。进一步优选地，维度对于任务设置的解决方案具有相同的相关性。

进一步优选地，对于质量保证只考虑唯一的分类任务或逼近任务。例如，在用作单发多盒检测器(Single Shot Multibox Detector，SSD)的人工神经网络中，在所谓的默认箱(Default Box)中(即具有预设的长宽比、预设的缩放比例且在图像中的预设的位置上)只考虑对预设的对象大小的分类。

优选地，基于样例的系统设置用于在安全导向的功能中使用。本领域技术人员将术语“安全导向的功能”理解为系统的与安全相关的功能，即其行为对系统的环境的安全性有影响。在此，术语“安全性”要从所谓的英文“Safety”的意义上来理解。在专业语言中，“安全性”指的是保护系统环境免受来自该系统的危险的目标。与此不同的是，在专业语言中，“保障(Security)”指的是保护系统免受来自该系统环境的危险的目标。

在根据本发明的方法的一种优选的实施方式中，所述测定包括：将代表分布在输入空间中并且将样例集合的多个样例配属给相应的代表。配属于代表的样例位于输入空间的围绕该代表的周围区域中。将针对周围区域的局部质量评估测定为质量评估。

通过将样例集合中的样例配属给代表，在周围区域内确定配属于代表的样例数据集。针对该样例数据集分别计算局部的质量评估。

将样例集合划分到多个周围区域中带来了通常由信息学中的分治方法得出的优势。因此，基于样例的系统的开发人员例如可以专注于输入空间的如下部分：在那些部分中，所测定的质量评估没有满足特定的质量标准。在这些部分中，可以相应地检查并在必要时改进质量。由此显著地减少评估整个样例集合的耗费。

优选地将代表样例作为代表进行分布。该分布优选地为均等分布。在此，例如在输入空间中选择用于布置代表样例的网格。可以针对输入空间的每个维度单独地确定网格。例如在分类变量中用于确定网格的标准可以是输入空间中样例分布的目标属性的模型，基于对基于样例的系统的要求来设置该模型。网格可以分级地构建，以便例如映射分级的编码。当应用网格来布置代表样例时，将代表样例分布在网格的输入空间中的每个超立方体中。在网格的分级构建中，每个分级层级都分布有代表样例。

备选地，代表是借助聚类方法确定的簇的中心。聚类方法优选地用于确定相应的簇在输入空间中的位置和范围。进一步优选地，在考虑位于输出空间中的样例的输出值的情况下执行聚类方法。可以基于对基于样例的系统的属性的要求或基于样例数据的子集来确定簇。在基于样例的系统的应用中，例如可以在早期采集样例集合，该样例集合是根据用于满足要求的知识来选择的。因此，样例数据的这种分布是质量保证的。在随后的项目阶段，可以利用相同的分布采集进一步的样例。在这种情况下，质量保证的样例集合的每个样例都表示用于后续的样例采集阶段的代表。由此确保关于每个初始样例采集附加的质量保证的样例集合。代表的位置例如可以由簇中心确定。备选地，可以使用分级的聚类方法，在该分级的聚类方法中，每个簇和每个分级层级插入有代表，并且在该分级的聚类方法中，每个分级层级的每个样例都配属于簇并且因此配属于代表。然后将可用于计算质量评估的样例集合通过预设的度量配属给簇并且因此配属给代表。对于无法配属给簇的样例，优选地创建具有代表的新簇。备选地，该样例与其他无法配属给簇的样例一起通过质量评估单独地被采集。

进一步优选地，这些样例不完全配属于一个代表，而是仅配属于预设的份额。这例如可以通过使用聚类算法来实现，该聚类算法将样例部分地配属给样例数据集(例如针对多个周围区域的百分比配属，其中，份额的总和为1)。在基于该部分的配属测定质量评估时，相应于相关份额地考虑相应的样例。

优选地根据配属于相应代表的样例的数量或根据其他特征来测定质量评估。如果在进一步的走向中不再使用具体的样例，则这是特别有利的。备选地或附加地，具体的样例或对样例的引用存储在代表中(将样本数据集转换为面向输入空间的形势的结构)。如果在进一步的走向中需要具体的样例，则这是有利的。

优选地减少处理所需的存储空间，方式为，仅当在相应的周围区域中存在至少一个样例时才存储代表。当测定对输入空间的覆盖时，将没有创建代表的周围区域评估为“不存在样例”。但是，可以关于每个代表的样例数量创建直方图，因为可以以低的耗费确定没有采集到样例的周围区域的数量(预期代表的总数-所创建的代表＝没有检测到样例的场的数量)。

按照根据本发明的方法的另一种优选的实施方式，质量评估包括统计手段，根据样例集合和/或配属于相应代表的样例来测定该统计手段。

以这种方式，可以基于配属于代表的信息例如利用描述性统计(如以下教科书之一所述：“Statistik:Der Weg zur Datenanalyse”(Springer教科书)平装本，2016年9月15日，Ludwig Fahrmeir(作者)、Christian Heumann(作者)、Rita Künstler(作者)、IrisPigeot(作者)、Gerhard Tutz(作者)；“Statistik fürDummies”平装本，2019年12月4日，Deborah J.Rumsey(作者)、Beate Majetschak(翻译)、Reinhard Engel(翻译)；“Arbeitsbuch zur deskriptiven und induktiven Statistik”(Springer教科书)平装本，2009年2月27日，Helge Toutenburg(作者)、Michael Schomaker(贡献者)、Malte Wiβmann(贡献者)，Christian Heumann(贡献者))的手段来定义质量评估。

在一种优选的扩展设计中，创建关于配属于代表的样例的数量的直方图作为统计手段。

由此实现了用于评估和显示对输入空间的覆盖的特别简单和直观的可能性。

本领域技术人员将表述“关于配属于代表的样例的数量”优选地理解为，配属于代表的样例的数量的值被分箱(即划分为区域)以用于创建直方图。

根据另一种优选的扩展设计，测定统计量度、尤其配属于代表的样例的数量的平均值、中值、最小值、最大值和/或分位数作为统计手段。

根据另一种优选的扩展设计，在输入空间中测定相邻的周围区域，其相应的代表配属有多个满足质量评估的预设的质量标准的样例。

如果配属于相应代表的样例的数量低于或超过预设的质量阈值或位于质量评估的预设的质量带内，则优选地满足预设的质量标准。

在确定两个周围区域是否彼此相邻时，可以使用不同的邻域关系、例如冯诺依曼邻域(也称为4个邻域)、摩尔邻域(也称为8个邻域)或图论中的邻域。所定义的邻域关系在高维空间中必须相应地转移：因此在三维空间中，例如考虑具有公共面的立方体的6个邻域、具有公共边的立方体的18个邻域以及具有公共角点的长方体的26个邻域。在此，通过以下方式定义邻域：两个网格点允许在多少个维度中不同以便仍被视为相邻。

在一种优选的扩展设计中，在输入空间内测定关联区域，该关联区域由相邻的周围区域组成，所述相邻的周围区域的代表分别配属有多个满足预设的质量标准的样例。

如果通过低于预设的质量阈值来满足质量标准，则可以以特别有利的方式测定输入空间中的采集到的样例太少的区域(可以说是“输入空间中的孔洞”)的位置和大小。换句话说：该实施方式的一个特别的优势在于识别输入空间的部分区域，在该部分区域中样例值没有为安全关键的应用提供足够的基础。这又具有优势，即可以进行纠正干预，方式例如为，采集进一步的样例或将应用中的知识库限制到具有高质量的关联区域上。

对采集到的样例太少的区域的测定尤其具有优点，即可以预防性地抵抗对抗性样例的攻击。因为在这些区域中，对抗性样例的攻击的成功概率相对较高。可以通过在这些区域中采集进一步的样例或将知识库限制在具有高质量的关联区域上来降低该成功概率。

可以基于所测定的关联区域来计算质量评估。因此，例如可以确定关联区域中的代表的数量。可以创建关于关联区域的大小或其他属性的直方图。此外，可以计算关联区域的属性的统计量度，诸如平均值、中值、分位数或标准偏差。此外，可以测定关联区域在输入空间维度上的范围。维度可以按照关联区域的最大范围的顺序进行排序。

按照根据本发明的方法的另一种优选的实施方式，如果针对相应的周围区域测定的质量评估小于预设的质量阈值，则在相应的周围区域中采集进一步的样例。备选地或附加地，如果针对相应的周围区域测定的质量评估大于预设的质量阈值，则从相应的周围区域中移除样例。

按照根据本发明的方法的一种特别优选的实施方式，相应的样例包括位于输出空间中的输出值。针对相应的周围区域测定局部的复杂度评估，该局部的复杂度评估代表由周围区域的样例定义的基于样例的系统的任务设置的复杂度。通过周围区域的样例在输入空间和输出空间中相对于彼此的相对位置确定局部的复杂度评估。

本领域技术人员将“周围区域的样例在输入空间和输出空间中相对于彼此的相对位置”优选地理解为，基于对样例在输入空间中的距离与在输出空间中的距离的相似性的考虑来定义复杂度评估。例如，如果输入空间中的距离(除了缩放)大致对应于输出空间中的距离，则基于样例的系统的任务设置具有相对较低的复杂度。

由此得到优点，即可以有效地采集样例。因为根据复杂度评估知道了由于基于样例的系统的任务设置的高复杂度而必须在其中采集相对较多数量的样例的区域。优选地，在存在较高复杂度的输入空间的区域中，动态地增加代表的密度，直到达到均匀的复杂度并且有足够数量的样例位于代表的周围环境中。

复杂度评估例如对应于在WASCHULZIK第4节(QUEEN质量指标)中描述的质量指标。可以针对特征的代表或编码来定义和应用这些质量指标(参见WASCHULZIK的第4.5节)。

按照根据本发明的方法的一种优选的实施方式，将根据WASCHULZIK的第4.6节的集成质量指标QI²作为用于代表的质量指标，该集成质量指标根据公式4.21定义如下：

其中，根据WASCHULZIK的公式4.18：

是所代表的输入(NRE)的归一化距离，并且

是所代表的输出(NRA)的归一化距离。在此，x是由两个样例x1和x2组成的对(x₁,x₂,)。x₁和x₂是来自样例集合P的样例。P＝{p₁,p₁,...,p_|p|}是BAG P的元素集合，其中，|P|是BAG P的元素数量。BAG是在WASCHULZIK附录第27页规格21.5中定义的多元集合(英语称为multiset或bag(袋))。任务设置QAG在WASCHULZIK第23页的定义3.1中定义并且在那里被称为QUEEN任务设置。

d_RE(x)是输入空间d_re(vep_xl,vep_x2)中距离的缩写，d_RA(x)是输出空间d_ra(vap_xl,vap_x2)中距离的缩写。

根据WASCHULZIK的对两个样例的代表之间的距离的定义基于欧几里得范数。因此，输入空间中的距离定义为(参见WASCHULZIK的公式4.3)：

以p_k1、p_k2作为集合P的样例，其中

其中，

i是所有表达的运行索引；

vemp_i,kx是样例kx的输入特征i的表达，其中kx∈R(R为实数集合)；以及aem是任务设置QAG的AnzahlEingabeMerkmale(输入特征的数量)

在一种优选的扩展设计中，通过聚合局部的复杂度评估来测定聚合的复杂度评估。

聚合的复杂度评估具有优点，即基于样例的系统的开发人员可以简单地执行其质量保证。

例如，创建关于输入空间的不同周围区域中的复杂度的直方图作为聚合的复杂度评估。为此，将复杂度评估的值范围分箱(即划分为区域)。优选地，当不再需要周围区域的位置时，仅将具有相应复杂度的周围区域的数量包含在箱中。优选地将直方图与关于样例数量的信息合并，例如也合并为关于配属于代表的样例的数量的直方图。进一步优选地，关于代表的信息存储在直方图中，因此在进行详划分析时可以追溯该信息。

根据另一种优选的扩展设计，根据聚合的复杂度评估识别其复杂度评估低于预设的复杂度阈值的周围区域。在经测定的周围区域中，通过算法解决方案来实现基于样例的系统的任务设置。这对于例如在安全导向功能的情况下具有高质量要求的应用是特别有利的。

这种优选的扩展设计基于这样的认识，即系统的确切运行方式(即语义关联)对于具有较低的任务设置复杂度的区域通常是已知的。在这种情况下，可以将任务设置作为传统算法(而不是基于样例的系统)实现。这是特别有利的，因为在简单算法解决方案的认可程序(Zulassungsverfahren)的范畴内通常更容易证明安全导向功能的足够安全性。

通过这种扩展设计还得出了优点，即无需在低复杂度的区域中采集进一步的样例。

在搜索简单区域时，优选地也搜索数据收集伪迹，其给出输入和输出之间的、由数据收集的特定情况给出但并不代表可以在实践中使用的关系(例如从所谓的Kluger-Hans效应已知：https://de.wikipedia.org/wiki/Kluger_Hans)。在具有特别高的复杂度的区域中，这样分析样例，看例如在收集和采集样例时是否出现问题。

按照根据本发明的方法的另一种优选的实施方式，根据质量评估分级地划分输入空间。

优选地通过输入空间的分级划分来实现输入空间的分级映射。进一步优选地从输入特征的代表或编码中和/或从任务设置的复杂度分析中导出分级结构。

通过在输入空间的分析中引入附加的分级结构，可以要么在存在高复杂度的区域中动态地增加代表的密度(直到达到均匀的复杂度)要么引入新的分级层级。通过在代表的区域中添加具有更高分辨率的新的划分来引入新的分级层级。通过在高分辨率区域中在局部复杂度再次增加的情况下添加另外的分级层级，可以迭代该过程。由此可以将分辨率动态地适配于相应的任务设置。

按照根据本发明的方法的另一种优选的实施方式，借助关于样例在输入空间中的k个最近邻域的复杂度评估的直方图表示来测定复杂度分布。以这种方式针对样例的局部周围环境测定复杂度如何分布。由此测定在样例的局部周围环境中的复杂度的特性，并且可以这么说，测定样例的局部周围环境在复杂度方面的指纹。

对于直方图表示，优选地将复杂度评估的值范围分箱(即划分为区域)。例如，将“分箱”值绘制在y轴上，并且将增加的k(k最近邻域)的表示录入在x轴上。

为了减少在测定复杂度分布时所需的计算能力，选择k值的步长>1。例如，对于k＝5、10、15、20等的值，在步长为5的情况下测定复杂度评估的分布。进一步优选地，k的步长仅在特别感兴趣的区域中被选择为较小。因此，复杂度评估的分布例如首先以相对较大的k步长进行计算，以便然后在特别感兴趣的区域中以较小的k步长进行计算。

进一步优选地，针对计算出的直方图场(复杂度评估被分箱，k)存储复杂度评估的值的数量。进一步优选地，还存储样例的识别信息(例如号码)，在该样例的周围环境中测定了复杂度分布。

按照根据本发明的方法的另一种优选的实施方式，基于样例的系统设置用于在安全导向的功能中使用，其中，该安全导向的功能包括基于图像识别的对象识别，在该对象识别中使用基于样例的系统来识别对象。

在一种优选的扩展设计中，在运输工具、尤其有轨车辆、机动车、飞机、水运工具和/或航天器的自动化运行中使用对象识别。

在运输工具的自动化运行中进行对象识别是安全指向功能的一种特别合适的实施方式。在此，例如需要对象识别来识别行驶路径上的障碍物或分析在交通参与者的先行权方面的交通情况。

机动车例如是汽车、例如轿车(PKW)、卡车(LKW)或履带式车辆。

水运工具例如是船或潜艇。

运输工具可以是载人的或无人的。

应用领域的示例是轨道车辆的自主或自动化驾驶。为了解决任务设置，使用对象识别系统来分析场景，该场景利用传感器进行数字化。例如需要场景分析来识别行驶路径上的障碍物或分析在交通参与者的先行权方面的交通情况。为了识别对象，目前特别成功地使用基于使用样例的系统，利用样例训练模式识别系统的参数。关于此的示例是例如具有深度学习算法的神经网络。

按照根据本发明的方法的另一种优选的实施方式，基于样例的系统设置用于在安全导向的功能中使用，其中，该安全导向的功能包括基于来自生物体的传感器数据的分类。

动物或人体组织的组织分类是医学图像处理领域中安全导向功能的一种特别合适的实施方式。生物体包括例如古生菌(原生细菌)、细菌(真正的细菌)和真核生物(核)或来自原生生物(也称为Protoctista(奠基人的名字))、Plantae(植物)、Fungi(蘑菇、几丁质真菌)和Animalia(动物)的组织。

进一步的应用领域是工业设备的安全控制(例如化学中的合成、对制造过程、例如轧钢的控制)、化学物质(例如环境毒素、战剂)的分类、运输工具的签名(例如雷达或超声波签名)的分类和/或工业自动化领域(例如机器制造)中的控制。

按照根据本发明的方法的另一种优选的实施方式，基于样例的系统包括

-具有监督学习的系统，

-利用统计学方法构建的系统，

-优选地具有一层或多层神经元的人工神经网络，这些神经元不是输入神经元或输出神经元并且利用反向传播被训练，

-尤其卷积神经网络，

-尤其单发多盒检测器网络。

使用人工神经网络通常使得能够改善分类或逼近性能。

不是输入神经元或输出神经元的一层或多层神经元通常被专业地称为“隐藏”神经元。对具有多层隐藏神经元的神经网络的训练也通常被专业地称为深度学习。用于模式识别的深度学习网络的特别的类型是所谓的卷积神经网络(Convolutional NeuronalNetwork，CNN)。CNN的特例是所谓的SSD(Single Shot MultiBox，单发多盒)网络。本领域技术人员将术语“Single Shot MultiBox Detector(单发多盒检测器)”理解为一种根据深度学习方法的用于对象识别的方法，该深度学习方法基于卷积神经网络并且描述于：刘伟(2016年10月发表的SSD论文:单发多盒检测器。欧洲计算机视觉会议。计算机科学讲义。9905.第21-37页。arXiv:1512.02325。

本发明还涉及一种计算机程序，包括指令，当通过计算单元实施该程序时，该指令促使该计算单元执行上述类型的方法。

本发明还涉及一种计算机可读的存储介质，包括指令，当通过计算单元实施该程序时，该指令促使该计算单元执行上述类型的方法。

关于根据本发明的计算机程序和计算机可读的存储介质的特征的优点、实施方式和实施细节可以参见上文对根据本发明的方法的相应特征的描述。

参照附图阐述本发明的实施例。在附图中：

图1示意性地示出了根据本发明的方法的实施例的流程，

图2示意性地示出了根据本发明的方法的实施例的基于样例的系统的结构，

图3示意性地示出了按照根据本发明的方法的实施例的二维输入空间，

图4示出了位于行驶路段上的有轨车辆的示意性侧视图，

图5示出了输入空间的分级划分，

图6示出了代表将复杂性评估应用于第一合成函数的两个轴图，

图7示出了代表将复杂性评估应用于第二合成函数的两个轴图，

图8示出了代表将复杂性评估应用于第三合成函数的两个轴图，以及

图9示意性地示出了按照根据本发明的方法的另一种实施例的二维输入空间的另一种示例。

图1示出了示意性的流程图，其代表根据本发明的用于基于样例的系统的质量保证的方法的实施例的流程。

图2示意性地示出了基于样例的系统1的结构，在该结构中，系统的质量保证通过根据本发明的方法的实施例进行。基于样例的系统1是具有监督学习的系统并且由人工神经网络2形成，该人工神经网络具有输入神经元5的层4和输出神经元7的层6。人工神经网络2具有多个层8的神经元9，该神经元9不是输入神经元5或输出神经元7。人工神经网络2是所谓的多层感知器，但也可以是循环神经网络、卷积神经网络，或者尤其是所谓的单发多盒检测器网络。

借助一个或多个计算机程序来实现基于样例的系统以及根据本发明的方法。计算机程序包括指令，当通过计算单元实施该程序时，该指令促使该计算单元执行根据图1所示的实施例的根据本发明的方法。计算机程序存储在计算机可读的存储介质上。

基于样例的系统在系统的安全导向的功能中使用。因此，功能的行为会影响系统环境的安全性。

安全导向的功能的示例是基于图像识别的对象识别，在该对象识别中通过使用基于样例的系统1来识别对象。对象识别例如使用在运输工具、尤其是在图4中示出的有轨车辆40、机动车、飞机、水运工具或航天器的自动化运行中。

安全导向的功能的另外的示例是基于来自生物体、例如来自古生菌(原生细菌)、细菌(真正的细菌)和真核生物(核)或来自原生生物(也称为Protoctista(奠基人的名字))、Plantae(植物)、Fungi(蘑菇、几丁质真菌)和Animalia(动物)的组织的传感器数据的分类、工业设备的安全控制、化学物质的分类、运输工具签名的分类或工业自动化领域中的控制。

在方法步骤A中确定要收集哪些样例。在步骤B中收集样例：收集到的样例形成样例集合。相应的样例具有位于输入空间中的输入值12和位于输出空间中的输出值14。在用于图4所示的有轨车辆40的自动化运行的对象识别(作为安全导向功能的多个可能示例之一)的情况下，通过有轨车辆40设有用于采集图像的摄像机单元42来收集样例。摄像机单元42在行驶方向41上定向为，使得由摄像机单元采集到位于行驶方向41前面的空间区域43。有轨车辆40与摄像机单元42一起在行驶方向41上沿行驶路段44行驶。为了采集样例，重新演绎与创建和训练用于对象识别的基于样例的系统1相关的场景。因此，例如使用纸板人偶、碰撞测试假人或演员45来表示行驶路段44上的人，他们应借助待创建和待训练的基于样例的系统1来识别。备选地，可以借助所谓的虚拟现实(Virtual Reality)来重新演绎场景。

在方法步骤C中，测定质量评估，该质量评估代表输入空间被样例集合的样例的覆盖。在测定C质量评估时，在方法步骤中C1中，将代表分布在输入空间中。图3示出二维输入空间20作为示例。在根据本发明的方法的实际应用中，输入空间和输出空间往往具有更高的维度。样例集合的样例22在图3中显示为十字线23。代表24均匀地分布并且显示为所示网格26的交叉点25。

在方法步骤C2中，将样例集合的多个样例29配属给相应的代表28。配属于代表28的样例29位于输入空间20的围绕相应代表28的周围区域30中。周围区域30示例性地在图3中表示为点状区域。在此，在方法步骤C3中，将针对周围区域30的局部质量评估测定为质量评估。

在方法步骤C4中，在输入空间中测定相邻的周围区域32-36，其相应的代表配属有低于预设的质量阈值的数量的样例。在图3中，周围区域32-36表示为具有斜条纹的区域。在图3所示的示例中，周围区域32-36是在其中没有样例的区域。此外，在方法步骤C5中，在输入空间20内测定关联区域38，该关联区域38由相邻的周围区域32-36组成，所述周围区域的代表分别配属有低于预设的质量阈值的数量的样例。由此测定了输入空间20中的采集到的样例太少的区域的位置和大小。换句话说：识别输入空间的部分区域，在该部分区域中样例值没有为安全关键的应用提供足够的基础。

根据该识别可以进行纠正干预：为此，例如在方法步骤D中，如果针对相应的周围区域测定的质量评估小于预设的质量阈值，则在相应的周围区域中采集进一步的样例。

在方法步骤E中，针对相应的周围区域测定局部的复杂度评估，该局部的复杂度评估表示由周围区域的样例定义的基于样例的系统的任务设置的复杂度。在此，根据方法步骤E1通过周围区域的样例在输入空间20和输出空间中相对于彼此的相对位置来确定局部的复杂度评估。也就是说，基于对样例在输入空间20中的距离与在输出空间中的距离的相似性的考虑来定义复杂度评估。例如，如果输入空间20中的距离(除了缩放)大致对应于输出空间中的距离，则基于样例的系统的任务设置具有相对较低的复杂度。根据复杂度评估测定由于基于样例的系统的任务设置的高复杂度而必须采集相对较多数量的样例的区域。例如，在存在较高复杂度的输入空间20的区域中，动态地增加代表的密度，直到达到均匀的复杂度。备选地，可以引入新的分级层级(如下面参考图5示例性地描述的那样)。

复杂度评估对应于在WASCHULZIK第4节(QUEEN质量指标)中描述的质量指标。可以针对特征的代表或编码来定义和应用质量指标(参见WASCHULZIK的第4.5节)。用于代表的质量指标的示例是根据WASCHULZIK的第4.6节的集成质量指标QI²。

在方法步骤E2中，通过聚合局部的复杂度评估来测定聚合的复杂度评估：例如，创建关于在输入空间的不同周围区域中的复杂度的直方图作为聚合的复杂度评估。为此，将复杂度评估的值范围分箱(即划分为区域)。当不再需要周围区域的位置时，仅将具有相应复杂度的周围区域的数量包含在箱中。将该直方图与关于样例数量的信息合并，例如也合并为关于配属给代表的样例的数量的直方图。进一步优选地，关于代表的信息存储在直方图中，因此在进行详划分析时可以追溯该信息。

在方法步骤F中，可以根据复杂度评估检测是否在所有区域中都采集了适当数量的样例。如果识别到采集了太多低复杂度的样例的区域，则可以从该区域中移除这些样例。样例数量的减少降低了用于计算、例如用于基于样本数据量的质量保证措施的存储空间需求和成本。如果识别到采集的样例太少的区域(例如因为复杂度相对较高)，则必要时必须在该区域中采集进一步的样例。后一种情况经常发生在引入了新的分级层级的区域中(如下面参照图5示例性地描述的那样)。在采集到进一步的样例之后，一直遍历用于质量保证的循环(根据方法步骤C到E)，直到满足所有期望的质量要求。

在方法步骤G中，根据聚合的复杂度评估识别其复杂度评估低于预设的复杂度阈值的周围区域。如果系统的运行方式(即语义关联)对于周围区域是已知的，则在经测定的周围区域中根据方法步骤H通过算法解决方案来实现基于样例的系统的任务设置。因此，系统的任务设置被作为传统算法(而不是基于样例的系统)实现。对于输入空间的应使用统计系统或神经网络的区域，也在步骤H中创建统计系统或者确定神经网络的结构并训练神经网络。

图5示例性地示出了输入空间120的分级划分，通过该分级划分实现输入空间的分级映射。样例集合的所收集的样例122在图5中显示为五角星123和圆圈125。五角星123和圆圈125是不同对象类别的样例(即在输出空间中具有不同的位置)。

可以附加地将新的分级层级126引入到存在高复杂度的区域中。例如，通过在区域130中添加具有更高分辨率134的新的划分132来引入新的分级层级126。通过在高分辨率区域中在局部复杂度再次增加的情况下可以添加另外的分级层级来迭代该过程。

为了了解在WASCHULZIK中描述的、作为复杂度评估的示例的质量指标的属性和行为，将质量指标应用于合成函数(例如y＝x)是有帮助的。由此可以推断出这些质量指标能够如何在基于样例的系统中应用。

图6至图8分别针对合成函数示出了关于预选样例的k最近邻域的复杂度评估分布的直方图。该样例例如是代表样例或簇的中心(如上所述)。该样例也可以是从代表的周围区域中选择的样例，该样例是为了更深入地研究任务设置的复杂度而选择的。

图6在左侧示出了WASCHULZIK的图像4.1并且在右侧示出了图像4.4。作为合成函数，y＝x在图6左侧显示为轴图(轴图中的条目示出为“+”)。右侧的轴图示出了针对函数y＝x，QI²的SHLQ²关于样例的k最近邻域的直方图。示出的是，对于样例的任意局部周围环境k，所示直方图的SHLQ²的值为零。

图7在左侧示出了WASCHULZIK的图像4.17并且在右侧示出了WASCHULZIK的图像4.20。作为合成函数，y＝ru(seed,300)*300在图7左侧显示为轴图。它是取值在0到300之间的均匀分布的随机变量。右侧的轴图示出了针对函数y＝ru(seed,300)*300，QI²的SHLQ²关于样例的k最近邻域的直方图。图7右侧的轴图按比例缩放为，使得40代表值1。

图8在左侧示出了WASCHULZIK的图像4.41并且在右侧示出了WASCHULZIK的图像4.44。作为合成函数，y＝sin(8*pi*x/300)+br(seed,300)在图8左侧显示为轴图。它是在0<x≤50和100<x≤200的范围内具有随机噪声的正弦函数。右侧的轴图示出了针对函数y＝sin(8*pi*x/300)+br(seed,-300)，QI²的SHLQ²关于样例的k最近邻域的直方图。图8中的轴图按比例缩放为，使得40代表值1。本领域的技术人员在这些图示中发现，有多个大小高达约45的k邻域，其中QI²的值几乎为0(由绘制在V轴上的具有小数字的箱的深灰色暗影表示)，因此存在输入空间和输出空间的几乎线性的映射。如果本领域技术人员通过读出直方图中的信息来分析在哪个样例的周围环境中存在低的复杂度，则得到x＝75的样例，在其邻域k＝45中，复杂度非常低。对于k＝45，这同样适用于x＝225或x＝275。因此，本领域技术人员可以简单、快速且可靠地识别复杂度特别低或特别高的区域，而无需事先知道诸如样例在输入空间中如何分布的情况。通过读出具有高的值的箱，即使在大的周围环境中，也可以识别出具有高的复杂度的区域(例如箱号80，K＝20)。这种对具有高的或低的复杂度的区域的识别可以独立于输入和输出空间的维度地进行，因为可以在任何维度的空间中确定k最近邻域之间的距离。通过同类的过程，本领域技术人员还可以从关于关联区域的大小的直方图中识别出例如包含很少的样例的代表。然后可以通过代表确定输入空间中的必须采集进一步的样例的位置。

作为参照图3所描述的实施例(根据图3，代表在输入空间中均匀地分布)的备选，图9示出了输入空间220的实施例，其中，代表分别形成借助聚类方法确定的簇的中心。样例集合的样例222在图9中显示为十字线223。

图9示例性地示出了四个簇230、232、234和236，所述簇分别包括多个样例。这些样例在图示中位于虚线边界线内，但是该虚线边界线不代表簇的实际边界，而是仅出于说明的目的进行了绘制。簇230、232、234和236分别具有相关的簇中心240、242、244和246(以加号显示)。簇中心240、242、244、246分别居中地位于簇内并且与输入空间的网格的边界无关地配属于簇。

根据图9的簇具有优点，即所述簇以特别合适的方式代表数据的拓扑结构。根据图3的网格具有优点，即更合适地映射未被覆盖的区域。例如，(根据方法步骤C)可以通过网格计算对输入空间的覆盖，复杂度评估(根据方法步骤E)除了可以通过网格进行计算之外还可以通过簇中心进行计算。哪种方案更合适也可以取决于神经网络的方法。如果编码神经元可以在输入空间中运动，则优选地选择聚类方案，或者将簇中心等同于编码神经元在输入空间中的位置。

Claims

1.一种用于基于样例的系统(1)的质量保证的方法，其中，

-根据所收集的样例(22)创建和训练所述基于样例的系统(1)，所述样例形成样例集合，

-所述样例集合的相应的样例(22)包括输入值(12)，所述输入值位于输入空间(20)中，

-根据所述输入值(12)在所述输入空间(20)中的分布进行质量评估的测定(C)，所述质量评估代表所述样例集合的样例(22)对所述输入空间(20)的覆盖。

2.根据权利要求1所述的方法，其特征在于，所述质量评估的测定(C)包括：

-将代表(24，28)分布(C1)在所述输入空间(20)中，并且

-将所述样例集合的多个样例(29)配属(C2)给相应的代表(28)，

其中，配属于所述代表(28)的样例(29)位于所述输入空间(20)的围绕所述代表(29)的周围区域(30)中，并且其中，将针对所述周围区域(30)的局部质量评估测定(C3)为质量评估。

3.根据权利要求1或2所述的方法，

其中，所述质量评估包括统计手段，根据

-所述样例集合和/或

-配属于相应的代表(29)的样例

来测定所述统计手段。

4.根据权利要求3所述的方法，

其中，创建关于配属于代表的样例的数量的直方图作为所述统计手段。

5.根据权利要求2和3所述的方法，

其中，测定统计量度、尤其配属于代表的样例的数量的平均值、中值、最小值、最大值和/或分位数作为所述统计手段。

6.根据权利要求2至5中至少一项所述的方法，

其中，在所述输入空间(20)中测定(C4)相邻的周围区域(32-36)，所述相邻的周围区域的相应代表配属有多个满足质量评估的预设的质量标准的样例。

7.根据权利要求6所述的方法，

其中，在所述输入空间(20)内测定(C5)关联区域(38)，所述关联区域由相邻的周围区域(32-36)组成，所述相邻的周围区域的代表分别配属有多个满足质量评估的预设的质量标准的样例。

8.根据权利要求2至7中至少一项所述的方法，

其中，如果针对相应的周围区域(32-36)测定的质量评估小于预设的质量阈值，则在相应的周围区域(32-36)中采集(D)进一步的样例，和/或其中，如果针对相应的周围区域测定的质量评估大于预设的质量阈值，则从相应的周围区域(30)中移除样例。

9.根据权利要求2至8中至少一项所述的方法，其中，

-相应的样例包括位于输出空间中的输出值(14)，

-针对相应的周围区域测定(E)局部的复杂度评估，所述局部的复杂度评估代表由周围区域的样例定义的所述基于样例的系统(1)的任务设置的复杂度，并且

-通过所述周围区域的样例在所述输入空间(20)和输出空间中相对于彼此的相对位置确定(E1)所述局部的复杂度评估。

10.根据权利要求9所述的方法，

其中，通过聚合所述局部的复杂度评估来测定(E2)聚合的复杂度评估。

11.根据权利要求10所述的方法，

其中，根据所述聚合的复杂度评估识别(G)周围区域，所述周围区域的复杂度评估低于预设的复杂度阈值，并且

其中，在经测定的周围区域中，通过算法解决方案来实现(H)所述基于样例的系统的任务设置。

12.根据上述权利要求中至少一项所述的方法，

其中，根据所述质量评估分级地划分所述输入空间(20，120)。

13.根据权利要求9-12中至少一项所述的方法，

其中，借助关于样例在所述输入空间中的k最近邻域的复杂度评估的直方图表示来测定复杂度分布。

14.根据权利要求9-13中至少一项所述的方法，

其中，复杂度评估是集成质量指标QI²，

-其中，所述集成质量指标尤其定义如下：

-其中：

是所代表的输入的归一化距离，并且

是所代表的输出的归一化距离，

-其中，x是由两个样例x₁和x₂组成的对(x₁,x₂,)，

-其中，x₁和x₂是来自样例集合P的样例，

-其中，P＝{p₁,p₁,...,p_|p|}是多元集合BAG P的元素集合，并且

-其中，|P|是所述多元集合BAG P的元素的数量。

15.根据上述权利要求中至少一项所述的方法，

其中，所述基于样例的系统(1)设置用于在安全导向的功能中使用，并且所述安全导向的功能包括基于图像识别的对象识别，在所述对象识别中使用所述基于样例的系统(1)来识别对象(45)。

16.根据权利要求15所述的方法，

其中，在运输工具、尤其有轨车辆(40)、机动车、飞机、水运工具和/或航天器的自动化运行中使用所述对象识别。

17.根据上述权利要求中至少一项所述的方法，

其中，所述基于样例的系统(1)设置用于在安全导向的功能中使用，并且所述安全导向的功能表示基于来自生物体的传感器数据的分类，或者包括工业设备的安全控制、化学物质的分类、运输工具签名的分类和/或工业自动化领域中的控制。

18.根据上述权利要求中至少一项所述的方法，

其中，所述基于样例的系统(1)包括

-具有监督学习的系统，

-优选地具有一个或多个层(8)的神经元(9)的人工神经网络(2)，所述神经元不是输入神经元(5)或输出神经元(7)并且利用反向传播被训练，

-尤其卷积神经网络，

-尤其单发多盒检测器网络。

19.一种计算机程序，包括指令，当通过计算单元实施所述程序时，所述指令促使所述计算单元执行根据权利要求1至18中至少一项所述的方法。

20.一种计算机可读的存储介质，包括指令，当通过计算单元实施所述程序时，所述指令促使所述计算单元执行根据权利要求1至18中至少一项所述的方法。