CN114841227A - 修改表征计算机视觉模型的参数集 - Google Patents
修改表征计算机视觉模型的参数集 Download PDFInfo
- Publication number
- CN114841227A CN114841227A CN202210036138.1A CN202210036138A CN114841227A CN 114841227 A CN114841227 A CN 114841227A CN 202210036138 A CN202210036138 A CN 202210036138A CN 114841227 A CN114841227 A CN 114841227A
- Authority
- CN
- China
- Prior art keywords
- visual
- computer
- parameters
- computer vision
- parameter specification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004438 eyesight Effects 0.000 title claims abstract description 162
- 230000000007 visual effect Effects 0.000 claims abstract description 420
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000010206 sensitivity analysis Methods 0.000 claims abstract description 41
- 238000004590 computer program Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 27
- 238000005070 sampling Methods 0.000 claims description 24
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 230000002829 reductive effect Effects 0.000 claims description 5
- 238000002474 experimental method Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000013461 design Methods 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 9
- 239000002131 composite material Substances 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000001556 precipitation Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000004075 alteration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 206010047571 Visual impairment Diseases 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 2
- 238000000149 argon plasma sintering Methods 0.000 description 2
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000004313 glare Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000002310 reflectometry Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000000857 visual cortex Anatomy 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本说明书涉及一种用于修改第一视觉参数规范以提供表征计算机视觉模型的第二视觉参数规范的计算机实现的方法。相关联的方面涉及用于提供训练数据集的计算机实现的方法、用于训练计算机视觉模型的计算机实现的方法、装置、计算机程序和计算机可读介质。计算机视觉关注计算机如何从数字图像或视频中自动获得高级别的理解。计算机视觉系统越来越多地应用于汽车或机器人车辆领域。然而,这样的系统的验证是一项复杂的任务。在计算机视觉系统中使用的计算机视觉模型的特征在于,定义了计算机视觉模型的操作设计域的视觉参数规范。本说明书讨论了如何通过根据计算机视觉模型的灵敏度分析改进视觉参数规范来修改表征计算机视觉模型(16)的操作设计域的视觉参数规范。
Description
技术领域
本说明书涉及一种用于修改第一视觉参数规范以提供表征计算机视觉模型的第二视觉参数规范的计算机实现的方法。相关联的方面涉及用于提供训练数据集的计算机实现的方法、用于训练计算机视觉模型的计算机实现的方法、装置、计算机程序和计算机可读介质。
背景技术
计算机视觉涉及计算机能够如何从数字图像或视频中自动获得高级别的理解。计算机视觉系统越来越多地应用于汽车或机器人车辆领域。计算机视觉可以处理来自至少一个检测器和该检测器的环境之间的任何交互的输入。所述环境可以被所述至少一个检测器感知为一个场景或一系列场景。特别地,交互可以由至少一个相机、多相机系统、RADAR系统或LIDAR系统产生。
在汽车计算机视觉系统中,尽管仍然是安全关键的,但是计算机视觉经常必须处理开放的环境。因此,重要的是,在设计和测试计算机视觉模型时都要考虑定量的保障手段。自动驾驶中的目前计算机视觉开发方法高度依赖于专家(人类)输入,这降低了计算机视觉模型的可预测性。因此,计算机视觉的发展可以被进一步改进。
发明内容
根据第一方面,提供了一种用于修改第一视觉参数规范以提供表征计算机视觉模型的第二视觉参数规范的计算机实现的方法,其中该方法包括:
-获得计算机视觉模型,所述计算机视觉模型被配置为执行表征所观察场景的元素的计算机视觉功能;
-获得包括至少一个初始视觉参数集的第一视觉参数规范,其中基于所述至少一个视觉参数集的范围提供的视觉数据项能够影响所述计算机视觉模型的分类或回归性能;
-提供视觉数据集,所述视觉数据集包括符合第一视觉参数规范的视觉数据项子集和对应的基准真值数据项子集;
-将所述视觉数据项子集应用于所述计算机视觉模型,以使用对应的基准真值数据来获得多个性能评分,所述多个性能评分表征当应用于所述视觉数据集的视觉数据项子集时所述计算机视觉模型的性能;
-在所述第一视觉参数规范的域上执行所述多个性能评分的灵敏度分析;和
-生成包括至少一个更新的视觉参数集的第二视觉参数规范,其中基于灵敏度分析的结果修改所述至少一个初始视觉参数集以提供至少一个更新的视觉参数集。
根据第一方面的方法有利地使得能够实现已经被自动改进的细化视觉参数规范的自动定义,以包含一个或多个视觉参数集,所述一个或多个视觉参数集被调整以避免目标计算机视觉模型的弱点(例如,导致高方差的参数组合)。
视觉参数规范可以被细化为包括导致性能评分的大的输出方差的视觉参数。例如,根据第二视觉参数规范被选取为训练数据的图像对于训练计算机视觉模型可以是有用的,因为通过避免具有较高方差的样本,根据这样的视觉参数规范选取的图像将不会导致使用如下的输入数据来训练计算机视觉模型:所述输入数据通过提供不正确的预测而导致计算机视觉模型表现不佳。
在训练或验证计算机视觉模型时,减少视觉参数规范(或计算机视觉模型的操作设计域)中的一个或多个冗余参数等同于参数空间的大小(并且因此,计算复杂度)的显著减小,从而使得能够实现更快且更节能的训练和/或验证过程。
视觉参数是影响机器视觉功能对所显示场景的理解的图像或视频的任何方面。作为一个示例,视觉参数可以是太阳相对于本车辆(ego-vehicle)的角度、一天中的时间、场景中的建筑物和树木的高度和接近度、本车辆的速度、车辆相对于本车辆的速度和位置、本车辆前方路面的视觉特性等。
换句话说,第一步骤是找到导致性能的高方差的视觉参数,但是随后,在这些高方差参数内,目标是将这样的参数值(例如,太阳角)划分/聚类到具有良好性能并且具有低方差的子范围(因为目标是找到ODD)中,并且利用彻底的验证步骤来对此进行测试。因此,在一个示例中,最终目标是具有低的性能评分方差的ODD。
作为一个具体的示例,在太阳直接位于本车辆前面的情况下的潮湿路面可能会导致附加的眩光被指向本车辆的前挡风玻璃。由于增加的眩光,因此这种状况可能会影响计算机视觉模型对位于本车辆前方的道路标志进行分类的准确程度。因此,在所描述的状况下,计算机视觉模型的道路标志标识任务更可能错误标识道路标志。因此,计算机视觉模型的性能示出较高的结果方差。
在计算机视觉模型的训练期间,对训练数据集的控制使得能够训练计算机视觉模型以解决困难状况。定义了一个操作设计域(ODD),它描述了应该如何使用计算机视觉功能。典型地,计算机视觉模型的训练应当包括ODD,但是取决于CV功能的概化性能,即使不在ODD上训练CV功能,CV功能也能够在ODD上良好地执行。典型地,操作设计域的定义是需要领域专家的输入的高度手动的任务。
根据本说明书,领域专家可以提供初始操作设计域,或者本说明书中所述的“第一视觉参数规范”。
一旦应用于向自主车辆、机器人或无人机的控制系统提供输入的计算机视觉模型,根据本说明书训练的计算机视觉模型就将更可靠地执行,从而导致自主车辆、机器人或无人机的安全性的提高。
本说明书描述了一种系统,该系统使用初始操作设计域自动分析计算机视觉模型对训练数据的性能,并且自动提供第二操作设计域或“第二视觉参数规范”,所述“第二视觉参数规范”具有通过迭代细化来改进的视觉参数。所述第二视觉参数规范基于所述计算机视觉模型在根据初始视觉参数集选取的测试训练集上的性能的灵敏度分析来提供。
换句话说,如果初始视觉参数集导致计算机视觉模型表现不佳,则可以在第二视觉参数规范中减弱、缩小范围或移除这样的参数。特别地,可以确定视觉参数的优先顺序,并且初始视觉参数的子范围被定义为计算机视觉模型的安全操作区域。在某些情况下,视觉参数可以拆分为几个子参数。
安全操作区域是当标识训练数据的场景中的元素时计算机视觉模型的性能在其中对给定视觉参数的变化相对不敏感的区域。
一般而言,该方法使得能够使用可重复的自动过程来自动生成操作设计域,该可重复的自动过程使得能够解决视觉参数的模糊解释。因此,根据第一方面的方法生成的一个或多个视觉参数规范可以用作针对实现计算机视觉功能的计算机视觉模型的经验验证的测试用例。该方法基于经验结果实施决策。
换句话说,第一方面分析在测试或统计评估计算机视觉模型时哪些视觉参数具有最大的影响。给定视觉参数集和计算机视觉模型作为输入,输出视觉参数的排序列表。通过从排序列表中选择视觉参数的子列表,定义第二视觉参数规范的简化输入模型(本体)。
根据实施例,用于修改第一视觉参数规范以提供第二视觉参数规范的计算机实现的方法,其中所述第二视觉参数规范用于提供用于训练计算机视觉模型的训练数据。
第二方面提供了一种用于提供训练数据集的计算机实现的方法,包括:
-获得根据第一方面或其实施例生成的第二视觉参数规范;和
-获得训练数据集,其中所述训练数据集通过以下步骤之一或其组合获得:
-使用合成视觉数据生成器生成合成训练数据集,所述合成训练数据集包括根据所述第二视觉参数规范合成的合成视觉数据和基准真值数据;和/或
-根据第二视觉参数集从包括与对应的基准真值数据项相关联的样本图像的数据库中采样视觉数据项;和/或
-根据所述第二视觉参数集指定实验要求,并且执行现场实验以获得训练数据集;和
-输出训练数据集。
有利的是,生成的训练数据不太可能在训练期间导致计算机视觉模型的不可预测的性能,从而产生改进的计算机视觉模型。
第三方面提供了一种用于训练计算机视觉模型的计算机实现的方法,包括:
-获得被配置为执行表征所观察场景的元素的计算机视觉功能的另一计算机视觉模型;和
-获得根据所述第二方面生成的训练数据集,以及
-使用所述训练数据集训练所述计算机视觉模型。
有利地,可以提供更加可预测地训练的计算机视觉模型。
第四方面提供了一种用于修改第一视觉参数规范以提供表征计算机视觉模型的第二视觉参数规范的装置、计算机实现的方法,所述装置包括输入接口、处理器、存储器和输出接口。
所述输入接口被配置为获得计算机视觉模型,所述计算机视觉模型被配置为执行表征所观察场景的元素的计算机视觉功能,并且获得包括至少一个初始视觉参数集的第一视觉参数规范,其中基于所述至少一个视觉参数集的范围生成视觉数据项能够影响所述计算机视觉模型的分类或回归性能。
该处理器被配置为提供符合第一视觉参数规范的视觉数据集,其中该视觉数据集包括视觉数据项子集和对应的基准真值数据项子集,并且被配置为将视觉数据项子集应用于计算机视觉模型,以获得表征针对多个视觉数据项和对应基准真值数据的计算机视觉模型性能的多个性能评分,在第一视觉参数规范的域上执行所述多个性能评分的灵敏度分析,并且生成包括至少一个更新的视觉参数集的第二视觉参数规范,其中基于灵敏度分析的结果修改所述至少一个初始视觉参数集。
第五方面提供了包括机器可读指令的计算机程序,当由处理器执行时,所述机器可读指令能够执行(i)根据第一方面的计算机实现的方法,或者(ii)根据第二方面的计算机实现的方法,或者(iii)根据第三方面的计算机实现的方法。
第六方面提供了一种包括根据第五方面的计算机程序中的至少一个的计算机可读介质。
前述方面的从属实施例在从属权利要求中给出,并在以下描述中解释,读者现在应当参考这些描述。
本定义对本说明书具有普遍适用性。
所观察场景的视觉数据集是表示诸如JPEG或GIF图像之类的图像或视频的项的集合。视频是图像序列,必要时可选地以诸如MPEG之类的格式进行编码。
计算机视觉模型是通过模型参数来参数化的功能。在基于训练数据集使用机器学习技术的训练期间,使用例如机器学习技术来学习模型参数。所述计算机视觉模型被配置为至少将视觉数据项或其一部分或其子集映射到预测。一个或多个视觉参数定义视觉状态,因为它们包含关于所观察场景的内容的信息和/或表示用于捕捉和/或生成所观察场景的边界条件。
与一个视觉数据项相对应的基准真值数据项是计算机视觉模型在正确执行时旨在响应于图像输入而输出的分类和/或回归结果。换句话说,当利用示出可预测场景或场景元素的视觉数据项输入时,基准真值数据表示计算机视觉模型的正确或相当准确的结果。术语“图像”可以涉及图像的子集,诸如分割的路标或障碍物。
所观察场景的视觉数据集是表示图像或视频的项的集合,后者是图像序列。每个视觉数据项可以是具有视频的数字张量,所述视频具有用于相继的帧的额外维度。与一个视觉数据项相对应的基准真值数据项例如是计算机视觉模型在理想状况下应当输出的分类和/或回归结果。例如,如果视觉数据项根据潮湿路面的存在而被部分参数化,并且潮湿路面的存在与否是要被训练的计算机模型的预期输出,则基准真值将把相关联的视觉数据项中的该项的描述返回为包括潮湿路面的图像。
每个基准真值数据项可以是与视觉数据集中的一项相关联或引用视觉数据集中的一项的另一数字张量,或者在更简单的情况下是二元结果向量。基准真值数据提供关于在其相关联的视觉数据中的场景元素的确定结果。例如,包括20 km/h速度限制标志的图像的视觉数据项将与确认场景包含道路标志的结果向量相关联,进一步的细节水平是:道路标志是速度限制标志,显示的速度限制是20 km/h。以这种方式,可以通过与相关联的基准真值数据进行比较来评估应用于视觉数据项的计算机视觉模型的输出预测的正确性,并且计算计算机视觉模型的性能度量。
在附图中描述了本发明的示例性实施例,所述附图不应被解释为限制权利要求,并且在下面被更详细地解释。
附图说明
图1示意性地图示了根据第一方面的计算机实现的方法。
图2示意性地图示了用于分析第一视觉参数规范的第一方面的自动实现的示例。
图3示意性地图示了灵敏度分析功能的示例。
图4示意性地图示了聚类视觉参数集。
图5a和5b示意性地图示了细分参数范围的示例。
图6示意性地图示了根据第四方面的装置。
具体实施方式
一个或多个视觉参数定义场景的视觉状态,因为它或它们包含关于所观察场景的内容的信息和/或表示用于捕捉和/或生成所观察场景的边界条件。典型场景的特征在于大量的视觉参数,其中一些是连续变量。因此,在表征典型场景的总共数量的视觉参数上计算功能的搜索空间是费力的。
视觉参数可以是例如:相机属性(例如,空间和时间采样、失真、像差、色深、饱和度、噪声等),LIDAR或RADAR属性(例如,吸收),场景中的光条件(光反弹、反射、表面反射率、光源、雾和光散射、整体照明等),材料和纹理,对象和它们的定位、大小和旋转,(对象和环境的)几何形状,定义环境的参数,环境特性(如视距、降水特性、辐射强度(怀疑其与检测过程强烈相互作用并且可能示出与性能的强相关性)),图像特性/统计数据(诸如对比度、饱和度、噪声等),场景和情形的领域特定描述(例如,交叉口上的汽车和对象)等。可以想到更多的参数。
这些参数可以视为本体、分类、维度或语言实体。它们可以定义对世界的受限视图或输入模型。给定视觉参数的分配/选择,可以捕捉或渲染具体图像集,或者可以使用视觉参数来描述已经存在的数据集中的图像。使用本体或输入模型的优点在于,对于测试,可以定义预期的测试覆盖目标,以便例如使用t-wise覆盖来定义测试结束准则,并且对于统计分析,可以定义关于这些参数的分布。
可以以不同的方式获得图像、视频和其他视觉数据以及共同注释的其他传感器数据(GPS数据、辐射测量数据、当地气象特性)。真实的图像或视频可以由诸如相机系统的图像捕捉设备来捕捉。真实图像可以已经存在于数据库中,并且可以在给定视觉参数和/或其他传感器数据的情况下进行图像子集的手动或自动选择。视觉参数和/或其它传感器数据也可以用于定义所需的实验。另一种方法可以是在给定视觉参数和/或其他传感器数据的情况下合成图像。可以使用图像增强技术、深度学习网络(例如,生成对抗网络(GAN)、变分自动编码器(VAE))和3D渲染技术来合成图像。用于在驾驶模拟的上下文中进行3D渲染的工具例如是CARLA工具(Koltun,2017年,在www.arXiv.org: 1711.03938处可获得)。
常规地,在计算机视觉模型的开发和测试中,基于根据专家意见看起来重要的属性(视觉参数)来定义、选择或生成输入图像。然而,与视觉参数的正确选择相关的专家意见可能是不完整的,或者被由人类感知经验引起的假设误导。人类感知基于人类感知系统(人眼和视觉皮层),其不同于使用计算机视觉模型的检测和感知的技术特性。
常规地,可能基于不相关的图像属性来开发、训练或测试计算机视觉模型,并且作为重要影响因素的视觉参数可能被遗漏或低估。更进一步地,技术系统可以检测如偏振或人类感知系统不可感知的扩展频谱范围之类的附加特性。
自主系统的计算机视觉模型是安全关键组件。计算机视觉模型被配置为接收输入图像或图像序列,使用计算机视觉模型将计算机视觉功能应用于输入图像或图像序列,以及输出计算机视觉结果。例如,结果可以是由输入图像或图像序列所描绘的场景内的元素的回归或识别结果。为确保安全,并且出于责任原因,视觉参数规范(有时称为操作设计域)的定义与计算机视觉模型集成以提供安全保证。由于计算机视觉模型与其训练数据的相互作用是复杂的,因此定义了操作设计域。
图1示意性地图示了根据第一方面的计算机实现的方法。
第一方面提供了一种用于修改第一视觉参数规范以提供适用于为计算机视觉模型的训练提供数据的第二视觉参数规范的计算机实现的方法,其中该方法包括:
-获得102计算机视觉模型16,所述计算机视觉模型16被配置为执行表征所观察场景的元素的计算机视觉功能;
-获得104包括至少一个初始视觉参数集的第一视觉参数规范,其中基于所述至少一个视觉参数集的范围提供的视觉数据项能够影响所述计算机视觉模型的分类或回归性能;
-提供106视觉数据集,所述视觉数据集包括符合所述第一视觉参数规范的视觉数据项子集,以及对应的基准真值数据项子集;
-将所述视觉数据项子集应用于108所述计算机视觉模型,以使用对应的基准真值数据来获得多个性能评分,所述多个性能评分表征当应用于所述视觉数据集的视觉数据项子集时所述计算机视觉模型的性能;
-在第一视觉参数规范的域上执行110所述多个性能评分的灵敏度分析;和
-生成112包括至少一个更新的视觉参数集的第二视觉参数规范,其中基于灵敏度分析的结果修改所述至少一个初始视觉参数集以提供至少一个更新的视觉参数集。
计算机视觉模型16例如是包括多个神经网络层的深度神经网络(DNN)。然而,根据本技术也可以实现本领域技术人员已知的其他模型拓扑。所述层计算潜在表示,所述潜在表示是输入图像或视频序列的更高级别表示。
第一视觉参数规范例如是定义不同类型的视觉现象的数据结构,所述不同类型的视觉现象可以影响计算机视觉模型的性能,所述计算机视觉模型在场景或场景的一部分上执行诸如例如图像或视频识别、分类或回归之类的功能。视觉现象由一个或多个视觉参数集编码。例如,视觉参数集可以将参数定义为一系列离散值,诸如降水强度。视觉参数集可以使用布尔条件来定义参数,诸如定义树覆盖的存在或不存在的布尔条件。可替代地或附加地,视觉参数集可以使用连续范围(例如,方位角位移)来定义参数。在由视觉参数规范定义的边界内对值的集合进行采样使得能够提供符合视觉参数规范的视觉数据项。
视觉参数规范可以被认为表示本体、分类、维度、或定义对世界的受限视图或输入模型的语言实体。可以使用视觉参数(从真实图像数据集)捕捉具体图像集,或者(使用合成图像生成引擎)渲染具体图像集。
在一个实施例中,第一或第二视觉参数规范的视觉参数可以包括从以下列表中选择的一个或任何组合:一个或多个参数,其描述图像捕捉布置、可选的图像或视频捕捉设备的配置,针对可选的空间和/或时间采样、失真像差、色深、饱和度、噪声、吸收、图像/视频的场景中的一个或多个光条件、光反弹、表面的反射率、反射、光源、雾和光散射、整体照明,获得或合成地生成视觉数据;和/或图像/视频的场景的一个或多个特征,可选地,一个或多个对象和/或它们的定位、大小、旋转、几何形状、材料、纹理,图像/视频捕捉设备或者对于合成图像生成器的模拟捕捉设备的环境的一个或多个参数,可选地,环境特性、视距、降水特性、辐射强度、诸如对比度、饱和度、噪声之类的图像表征统计,或者图像/视频的场景的一个或多个领域特定描述,可选地,一个或多个汽车或道路使用者、或者交叉口上的一个或多个对象。
在一个实施例中,第一视觉参数规范的域包括有限维向量空间中允许视觉参数位于其中的数值表示子集、可选地包括连续或离散视觉参数的多维区间,或者有限维向量空间中的视觉参数的数值表示集。
框1是视觉参数说明的实际示例。每个括号中的文本字符串(诸如“spawn_point”、“cam_yaw”)是初始视觉参数集的示例。在框1的示例中,初始视觉参数规范的值是一系列离散值,尽管可替代地,所述视觉参数规范中的至少一个可以包括至少两个端点之间的范围。可替代地,视觉参数规范的至少一个视觉参数集可以包括多个范围(未在框1中图示)。
框1——“Python”中第一视觉化参数规范的示例。
基于第二视觉参数规范获得用于训练计算机视觉模型16的图像。为了使计算机视觉模型16提供对真实场景中的元素的可预测表征,应当在代表性数据上训练计算机视觉模型16。典型地,框1的视觉参数规范是根据专家的意见定义的。然而,专家可能具有不正确的意见,或者有偏见。在这种情况下,可能在有偏差的训练数据上训练计算机视觉模型。
根据本说明书,在优化过程之后返回更新的或第二视觉参数规范。根据第一方面的计算机实现的方法自动修改第二视觉参数规范,以确保在获得符合第二视觉参数规范的定义的视觉数据时,在应用于计算机视觉模型16时,视觉数据不会有不良约束。
可以对视觉参数集进行许多不同的修改。例如,可以删除、增加、减少或添加视觉参数集的至少一个元素。在框2中,“cloudiness(云量)”和“precipitation(降水)”参数的上限范围从100减少到85,而“sun altitude angle(太阳高度角)”参数的范围则通过移除其最后一个元素而缩小。对“precipitation”参数进行了上采样,增加了两个附加元素。整个“cam yaw(相机偏航)”参数已经被删除。以上是如何自动变更视觉参数规范的具体示例,并且许多变化是可能的。
框2——第二视觉参数规范的示例。
图2示意性地图示了用于分析第一视觉参数规范的第一方面的自动实现的示例。现在提供根据第一方面的方法的操作示例的详细描述。
作为示例,可以(例如由专家)定义给定场景中的初始视觉参数和视觉参数的值或值范围的集合。一个简单的场景将具有第一参数,该第一参数定义了相对于本车辆行驶方向的各种太阳高度,尽管如稍后将讨论的,更宽范围的视觉参数是可能的。
采样过程11生成视觉参数规范10(世界模型,ODD)的值分配的集合。可选地,由视觉参数规范定义的参数空间根据高斯分布被随机采样。可选地,在怀疑定义计算机视觉模型16的性能拐点的区域处对视觉参数进行过采样。可选地,在怀疑定义计算机视觉模型16的可预测性能的区域处对视觉参数进行欠采样。因此,在实施例中,提供符合第一视觉参数集的视觉数据集进一步包括对被包括在第一视觉参数规范中的至少一个初始视觉参数集进行采样,以获得采样的初始视觉参数值集,以及使用采样的初始视觉参数值集来获得初始视觉参数值的视觉数据集。
下一个任务是根据视觉参数规范采集图像。
可以实现合成图像生成器、物理捕捉设置和/或数据库选择42,以允许根据在采样过程11期间采样的视觉参数来生成、捕捉或选择图像和对应的基准真值项。
例如,使用先前讨论的CARLA生成器生成合成图像。在合成生成的情况下,基准真值可以被视为用于生成给定合成图像的视觉参数规范的采样值。
物理捕捉设置使得能够执行实验以获得指定参数空间内的多个测试视觉数据。可替代地,可以选择包含已被适当标记的历史视觉数据档案的数据库。
在测试步骤17中,将来自图像采集步骤42的图像提供给计算机视觉模型16。可选地,计算机视觉模型被包括在自主车辆或机器人系统46内,作为“硬件在环”测试的示例。
对于输入到计算机视觉模型16中的每个视觉数据项,从计算机视觉模型16获得预测的输出数据项。这表示对输入到计算机视觉模型16中的视觉数据项中表示的场景的元素的预测。计算基于例如基准真值和预测的输出数据项之间的比较的性能评分。结果是根据视觉参数规范的采样值的多个性能评分。
因此,在一个实施例中,获得多个性能评分进一步包括:使用计算机视觉模型生成视觉数据项子集中的所观察场景的元素的多个预测,其中,所述多个预测包括视觉数据子集中的至少一项的分类标签和/或至少一个回归值的至少一个预测;以及将视觉数据项子集中的元素的多个预测与对应的基准真值数据子集进行比较,从而获得多个性能评分。
在一个实施例中,性能评分包括或基于以下列表中的任何一个或组合:混淆矩阵、精度评分、召回评分、F1评分、联合交集评分或均值平均评分;和/或其中计算机视觉模型是神经网络或类神经网络模型。
对关于视觉参数10的性能评分执行全局灵敏度分析19。全局灵敏度分析19确定视觉参数规范的视觉参数与计算机视觉模型16的性能的相关性。
作为示例,对于每个视觉参数,确定性能评分的方差。这样的方差用于生成和/或显示视觉参数的排名。该信息可以用于修改视觉参数规范的初始视觉参数10集。
因此,在一个实施例中,执行灵敏度分析进一步包括:计算多个性能评分中的各个性能评分相对于第一视觉参数规范的初始视觉参数的多个方差;以及基于所计算的多个方差对第一视觉参数规范的初始视觉参数进行排名。
可选地,可以根据全局灵敏度分析19生成条件聚类。例如,如果第一布尔视觉参数“照相机正在朝向太阳看”和第二布尔视觉参数“道路是潮湿的”被断言,则计算机视觉模型16的性能可能是低的,并且第一视觉参数和第二视觉参数这两者均获得高排名。
可以重复测试步骤17和全局灵敏度分析19和/或重新训练计算机视觉模型16。可选地,在这样的训练迭代期间跟踪性能评分和性能评分的方差。当性能评分的方差似乎已经稳定下来(停止显著改变)时,停止训练迭代。可选地,可以迭代地修改不相关的视觉参数,或者从视觉参数规范的后续版本中移除不相关的视觉参数。可选地,可以将较高分辨率的测试应用于被认为对于功能16的性能而言重要的视觉参数规范的部分。
细化步骤45使用全局灵敏度分析19的结果来修改视觉参数规范的至少一个初始视觉参数,从而产生第二视觉参数规范。当第二视觉参数规范被采样11并且获得视觉数据42时,根据第二视觉参数规范获得的多个视觉数据项具有提高的性能评分。
作为示例,可以从视觉参数集中移除具有较低方差的性能评分的视觉参数。可替代地,如果性能评分提高到阈值以上,则可以添加另一视觉参数集。至少一个视觉参数的范围可以被扩大或缩小。可以对第一视觉参数规范执行许多不同类型的修改。
因此,一个实施例进一步包括使用所述多个性能评分来标识第一视觉参数规范的至少一个初始视觉参数集,并且生成第二视觉参数规范包括通过扩大或缩小所述至少一个初始视觉参数集在其域上的范围来修改所述至少一个初始视觉参数集,从而产生修改的视觉参数集。
通常,可以定义用于测试或统计评估计算机视觉模型16的不同视觉参数集(定义世界模型或本体),并且它们的实现或精确解释可以变化。该方法实施基于经验结果19的决策,而不仅仅是专家的意见,并且其实施抽象参数10的具体化42。专家仍然可以提供视觉参数作为候选10。
图2还图示了可选的视觉参数规范验证步骤47。基于对最相关参数和值范围的选择,例如使用组合测试、基于搜索的测试或统计方法对第二视觉参数规范进行采样。可选地,测试空间被划分为值范围和组合,其中计算机视觉模型16的性能被分类(例如,好、坏或可变)。可变分类意味着在分区内,计算机视觉模型16的性能是可变的。
视觉参数规范验证步骤47与先前通过采样过程11、视觉数据获得步骤42和测试步骤17的组合执行的测试不同,因为可以使用其他采样算法和其他度量(诸如测试预言),并且输入空间的维度更小。在给定输入空间的情况下,这允许测试密度更高得多。灵敏度分析的目标是在验证测试空间中实现这种降维。
因此,在实施例中,提供了通过如下步骤来验证47第二视觉参数规范10b的过程:对第二视觉参数规范进行采样;提供包括符合第二视觉参数规范的基于第二视觉参数规范的样本的视觉数据项子集和对应的基准真值数据项子集的另一视觉数据集;以及根据降维输入空间在计算机视觉模型16上测试视觉数据项的子集,从而以降低的复杂性提供第二视觉参数规范的验证结果。
以此方式,提供可以用作基于先前假设的规范的安全规范的第二视觉参数规范的可选输出。在另一计算机视觉模型的后续训练步骤中,可以对第二视觉参数规范进行采样,以提供视觉数据,基于该视觉数据来训练另一计算机视觉模型。视觉参数和值区间的排名是另一个可选输出。
图3示意性地图示了灵敏度分析功能19的示例。
一般而言,灵敏度分析(或全局灵敏度分析)可以被视为模型或系统的输出中的不确定性可以如何被划分和分配到其输入中的不同不确定性来源的数字量化。该量化可以被称为灵敏度或鲁棒性。在本说明书的上下文中,该模型可以例如被视为从视觉参数的映射,基于所述视觉参数,已经捕获/生成/选择了视觉数据项,以基于基准真值和预测之间的比较产生性能评分。灵敏度分析的重要结果可以是每个视觉参数的性能评分的方差。给定视觉参数的性能评分的方差越大,该视觉参数的性能评分变化越大。这指示基于该视觉参数的设置,计算机视觉模型更不可预测。
基于所述视觉参数(视觉参数坐标),已经捕获/生成/选择了视觉数据项,以基于真实和预测的基准真值项(即基于预测和基准真值)产生性能评分(或性能评分坐标)。如果m等于1,则只有一个性能评分。然而,m可以大于1。
基于方差的灵敏度分析(有时也称为Sobol方法或Sobol指数)是一种特定种类的(全局)灵敏度分析。为此,上述映射的输入和输出这两者的样本可以在概率意义上解释。实际上,作为示例,可以生成输入样本的(多变量)经验分布。类似地,对于输出样本,可以计算(多变量)经验分布。输入和/或输出(即,性能评分)的方差因此可以被计算。基于方差的灵敏度分析能够将输出的方差分解为可以归因于输入坐标或输入坐标集的分数。例如,在两个视觉参数(即,n=2)的情况下,人们可能发现性能评分的50%的方差由第一视觉参数()引起,20%的方差由第二视觉参数()引起,并且30%的方差是由于第一视觉参数和第二视觉参数之间的相互作用导致的。对于n>2,多于两个的视觉参数出现相互作用。注意,如果这样的相互作用被证明是显著的,则两个或更多个视觉参数之间的组合可以被提升为变成新的视觉维度和/或语言实体。基于方差的灵敏度分析是全局灵敏度分析的示例。
因此,当在本说明书的上下文中应用时,基于方差的灵敏度分析的重要结果是每个视觉参数的性能评分的方差。给定视觉参数的性能评分的方差越大,该视觉参数的性能评分变化越大。这指示基于该视觉参数的设置,计算机视觉模型更不可预测。训练计算机视觉模型16时的不可预测性可能是不合期望的,并且因此在训练计算机视觉模型时,导致高方差的视觉参数可以被弱化或移除。
在本说明书的上下文中,该模型可以例如被视为来自视觉参数的映射,基于所述视觉参数,已经捕获/生成/选择了视觉数据项,以基于真实和预测的基准真值项产生性能评分。灵敏度分析的重要结果可以是每个视觉参数的性能评分的方差。给定视觉参数的性能评分的方差越大,该视觉参数的性能评分变化越大。这指示基于该视觉参数的设置,计算机视觉模型更不可预测。
图3的灵敏度分析功能19的示例在结合原始视觉数据(图像)项及其基准真值15从计算机视觉模型16输出的性能评分上进行操作。针对每个图像和基准真值对评估计算机视觉模型16的性能17,从而产生针对每个图像和基准真值对的最大平均性能34和最小平均性能35。
可选地,对于使用相同的视觉参数32提供的每个图像和基准真值对,评估最大平均性能34和最小平均性能35中的至少一个,或者评估最大平均性能34和最小平均性能35这两者。这使得能够计算每个参数(和子分支)36的性能差异。灵敏度分析功能19在第一视觉参数规范中的多个视觉参数上迭代。
在第一视觉参数规范中的每个视觉参数上迭代灵敏度分析功能19不是必要的。因此,针对第一视觉参数规范中的多个参数计算每个参数(以及可选的子范围)的性能方差36。
每个参数的性能方差36使得能够在排名单元20中执行关于参数(和子范围)的性能排名。可选地,多个参数可以影响计算机视觉模型16的性能,并且这些参数可以被聚类到子区域中。
图4示意性地图示了聚类视觉参数集的示例。在图4中,图50的X轴表示计算机视觉模型16的性能对给定参数的灵敏度。Y轴列举了上面的框1中所示的视觉参数规范的视觉参数。
视觉参数“sun_altitude(太阳高度)”和“sun_azimuth(太阳方位)”形成第一视觉参数聚类52。视觉参数“cam_yaw(相机偏航)”、“cam_pitch(相机俯仰)”、“cam_roll(相机侧倾)”形成第二视觉参数聚类54。因为第一聚类和第二聚类中的每个视觉参数的灵敏度评分满足标识条件,所以聚类是可标识的。
标识条件是“sun_altitude”和“sun_azimuth”两个性能评分的大小的差异与如按照距离测量的“sun_altitude”性能评分相对于下一个最大聚类54的显著性相比较小。因此,这构成了一种标识条件,其使得计算机实现的方法能够将视觉参数“sun_altitude”和“sun_azimuth”分组为第二视觉参数规范中的第一聚类。
图5a和5b示意性地图示了细分参数范围的示例。图5a示意性地图示了在细分之前由第一视觉参数规范产生的多个性能评分。可以通过评估的比率来评估标识条件。如果该比率低于给定视觉参数子集的标识阈值,则该视觉参数子集是用于分解的候选。如图5a所示,视觉参数子集“sun_altitude”和“sun_azimuth”似乎对计算机视觉模型16的性能的灵敏度的影响比任何其他视觉参数更大得多。
图5b示意性地图示了细分的参数范围的示例。在这种情况下,“sun_altitude”和“sun_azimuth”已经分别自动细分为四个子范围和三个子范围。伴随视觉参数的元数据表明“sun_altitude”视觉参数的域在0°和90°之间。伴随视觉参数的元数据表明“sun_azimuth”视觉参数的域在0°和359°之间。因此,该方法计算参数范围的适当细分。
可选地,用户可以经由图形用户界面输入用于细分为子范围的建议。可选地,所提出的细分可以经由图形用户界面自动地向用户提出,所提出的细分根据用户的同意被应用于第二视觉参数规范。
在示例中,一旦计算了参数范围的细分,就根据细分的视觉参数范围对结合视觉数据(图像)的原始项及其先前计算的基准真值15从计算机视觉模型16输出的性能评分的语料库进行重新采样。因此,细分的视觉参数范围返回关于视觉参数规范的子范围的灵敏度的更多细节。
可选地,细分的视觉参数范围被合并到第二视觉参数规范中。
因此,实施例进一步包括基于标识条件使用多个性能评分来标识第一视觉参数规范的至少一个初始视觉参数集。生成第二视觉参数规范包括通过将所述至少一个初始视觉参数集划分为至少第一修改的视觉参数集和第二修改的视觉参数集,来修改所述至少一个初始视觉参数集,或者将第一视觉参数集和第二视觉参数集组合成聚类。
第一方面的具体实施例涉及对第一视觉参数规范进行采样的步骤。
所述至少一个初始视觉参数集的采样使用组合测试或通过拉丁超立方采样来执行。在框3中给出了用于在视觉参数规范的视觉参数上实现组合采样的成对采样功能的实现的一个示例。
框3——实现第一视觉参数规范的成对采样功能11的示例“Python”代码。
有利的是,这样的采样技术使得能够以有效的计算次数实现对整个参数空间的良好覆盖。特别地,不需要对参数空间的蛮力采样。因此,本说明书的技术首先使得能够使用例如组合测试对大的参数空间进行采样,以确定灵敏度分析的性能。
灵敏度分析的结果是通过提供具有与计算机视觉模型的性能最相关的视觉参数的第二视觉参数规范来首次减少搜索空间复杂度。然后,在可选的验证步骤47中,可以再次根据诸如组合测试之类的技术对第二视觉参数规范进行采样,以在验证第二视觉参数规范时能够进一步减小搜索空间并提高效率。
在一个实施例中,提供了经由显示在输出界面上的图形用户界面向用户显示第二视觉参数规范的图形表示,可选地与第一视觉参数规格的图形表示相组合,并且可选地与灵敏度分析结果的图形表示相组合。
在一个实施例中,提供了作为经由图形用户界面对第二视觉参数规范的图形表示的交互式用户修改的结果而生成第三视觉参数规范。
第四方面提供了一种用于测试由合成图像生成器生成的图像和从真实视觉数据获得的图像之间的一致性的装置,所述装置包括输入接口、处理器、存储器和输出接口。
所述输入接口被配置为获得计算机视觉模型,所述计算机视觉模型被配置为执行表征所观察场景的元素的计算机视觉功能,并且获得包括至少一个初始视觉参数集的第一视觉参数规范,其中基于所述至少一个视觉参数集的范围生成视觉数据项能够影响所述计算机视觉模型的分类或回归性能。
所述处理器被配置为:提供符合所述第一视觉参数规范的视觉数据集,其中所述视觉数据集包括视觉数据项子集及对应的基准真值数据项子集;并且将所述视觉数据项子集应用于所述计算机视觉模型以获得表征针对多个视觉数据项和对应的基准真值数据的计算机视觉模型性能的多个性能评分,以在所述第一视觉参数规范的域上执行所述多个性能评分的灵敏度分析;并且生成包括至少一个更新的视觉参数集的第二视觉参数规范,其中所述至少一个初始视觉参数集基于所述灵敏度分析的结果被修改。
图6示意性地图示了根据第四方面的装置300。在示例中,数据处理装置300是个人计算机、服务器、基于云的服务器或嵌入式计算机。处理发生在一个物理处理器上不是必需的。例如,它可以跨同一处理器上的多个处理器核或跨多个不同的处理器或虚拟机来划分处理任务。处理器可以是Hadoop(TM)聚类,或者在商业云处理服务上提供。处理的一部分可以在非常规处理硬件上执行,非常规处理硬件诸如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、一个或多个图形处理器、用于机器学习的专用处理器等。
装置300的存储器330存储根据第四方面的计算机程序350,当由处理器320执行时,该计算机程序350使得处理器320执行根据第一方面和第二方面的计算机实现的方法所描述的功能。根据示例,输入接口310和/或输出接口340是USB接口、以太网接口、WLAN接口或使得能够实现来自装置300的数据样本的输入和输出的其他合适硬件中的一个。在示例中,装置300进一步包括易失性和/或非易失性存储器系统330,所述易失性和/或非易失性存储器系统330被配置为从输入接口310接收输入观察作为输入数据。
在示例中,装置300是被包括在车辆中的汽车嵌入式计算机,在这种情况下,汽车嵌入式计算机可以连接到车辆中存在的传感器和致动器。例如,该装置的输入接口可以与提供速度、燃料消耗数据、电池数据、位置数据等的引擎控制单元中的一个或多个接合。例如,装置300的输出接口340可以与多个制动致动器、油门致动器、燃料混合物或燃料空气混合物致动器、涡轮增压器控制器、电池管理系统、汽车照明系统或娱乐系统等中的一个或多个接合。
第五方面提供了包括机器可读指令的计算机程序,在由处理器执行时,所述机器可读指令能够执行(i)根据第一方面的计算机实现的方法,或(ii)根据第二方面的计算机实现的方法,或(iii)根据第三方面的计算机实现的方法。
第六方面提供了一种计算机可读介质,包括根据第五方面的计算机程序中的至少一个。
在附图中提供的以及在前述书面描述中描述的示例旨在提供对本说明书的原理的理解。因此,并不旨在限制所附权利要求的范围。本说明书描述了对所示示例的变更和修改。仅给出了优选实例,并且期望保护在本说明书范围内对这些的所有改变、修改和进一步应用。
Claims (15)
1.一种用于修改第一视觉参数规范以提供表征计算机视觉模型的第二视觉参数规范的计算机实现的方法,其中所述方法包括:
-获得(102)计算机视觉模型(16),所述计算机视觉模型(16)被配置为执行表征所观察场景的元素的计算机视觉功能;
-获得(104)包括至少一个初始视觉参数集的第一视觉参数规范,其中基于所述至少一个视觉参数集的范围提供的视觉数据项能够影响所述计算机视觉模型的分类或回归性能;
-提供(106)视觉数据集,所述视觉数据集包括符合所述第一视觉参数规范的视觉数据项子集,以及对应的基准真值数据项子集;
-将所述视觉数据项子集应用(108)于所述计算机视觉模型以获得多个性能评分,所述多个性能评分使用对应的基准真值数据表征当应用于所述视觉数据集的视觉数据项子集时所述计算机视觉模型的性能;
-在所述第一视觉参数规范的域上执行(110)所述多个性能评分的灵敏度分析;和
-生成(112)包括至少一个更新的视觉参数集的第二视觉参数规范,其中基于灵敏度分析的结果修改所述至少一个初始视觉参数集,以提供至少一个更新的视觉参数集。
2.根据权利要求1所述的计算机实现的方法(100),其中获得多个性能评分进一步包括:
-使用计算机视觉模型生成视觉数据项子集中的所观察场景的元素的多个预测,其中所述多个预测包括视觉数据子集中的至少一项的分类标签和/或至少一个回归值的至少一个预测;和
-将视觉数据项子集中的元素的多个预测与对应的基准真值数据子集进行比较,从而获得多个性能评分。
3.根据权利要求1或2之一所述的计算机实现的方法(100),进一步包括:
-基于标识条件使用多个性能评分来标识所述第一视觉参数规范的至少一个初始视觉参数集,并且
其中,生成所述第二视觉参数规范包括:通过将所述至少一个初始视觉参数集划分为至少第一修改的视觉参数集和第二修改的视觉参数集来修改所述至少一个初始视觉参数集,或者将第一视觉参数集和第二视觉参数集组合成聚类。
4.根据前述权利要求之一所述的计算机实现的方法(100),
-使用多个性能评分来标识第一视觉参数规范的至少一个初始视觉参数集,并且
其中,生成所述第二视觉参数规范包括通过在其域上放大或缩小所述至少一个初始视觉参数集的范围来修改所述至少一个初始视觉参数集,从而产生修改的视觉参数集。
5.根据前述权利要求之一所述的计算机实现的方法(100),其中,执行灵敏度分析进一步包括:
-计算关于第一视觉参数规范的初始视觉参数的多个性能评分中的各个性能评分的多个方差;和
-基于所计算的多个方差对所述第一视觉参数规范的初始视觉参数进行排名。
6.根据前述权利要求之一所述的计算机实现的方法(100),其中,提供符合所述第一视觉参数规范的视觉数据集进一步包括:
-对被包括在第一视觉参数集中的至少一个初始视觉参数集进行采样,以获得采样的初始视觉参数值集;和
-使用所述采样的初始视觉参数值集获得初始视觉参数值的视觉数据集。
7.根据权利要求6所述的计算机实现的方法(100),其中所述至少一个初始视觉参数集的采样使用组合测试或通过拉丁超立方采样来执行。
8.根据前述权利要求之一所述的计算机实现的方法(100),其中,所述第一视觉参数规范的域包括有限维向量空间中允许视觉参数位于其中的数值表示子集,可选地,连续或离散视觉参数的多维区间,或者有限维向量空间中视觉参数的数值表示集。
9.根据前述权利要求之一所述的计算机实现的方法(100),通过以下步骤验证第二视觉参数规范:
-对第二视觉参数规范进行采样;
-提供包括符合所述第二视觉参数规范的基于第二视觉参数规范的样本的视觉数据项子集和对应的基准真值数据项子集的另一视觉数据集,以及
-根据降维输入空间使用计算机视觉模型(16)测试所述视觉数据项子集,以在降低的复杂度的情况下提供所述第二视觉参数规范的验证结果。
10.根据前述权利要求之一所述的计算机实现的方法(100),进一步包括:
-经由显示在输出界面上的图形用户界面向用户显示第二视觉参数规范的图形表示,可选地与第一视觉参数规范的图形表示相组合,并且可选地与灵敏度分析的结果的图形表示相组合;以及可选地:
-作为经由所述图形用户界面对所述第二视觉参数规范的图形表示的交互式用户修改的结果,生成第三视觉参数规范。
11.一种用于提供训练数据集的计算机实现的方法,包括:
-获得根据前述权利要求之一生成的第二视觉参数规范;和
-获得训练数据集,其中所述训练数据集通过以下步骤之一或其组合获得:
-使用合成视觉数据生成器生成合成训练数据集,所述合成训练数据集包括根据第二视觉参数集来合成的合成视觉数据和基准真值数据;和/或
-根据所述第二视觉参数集从包括与对应的基准真值数据项相关联的样本图像的数据库中采样视觉数据项;和/或
-根据第二视觉参数集指定实验要求,并且执行现场实验,以获得训练数据集;和
-输出所述训练数据集。
12.一种用于训练计算机视觉模型的计算机实现的方法,包括:
-获得另一计算机视觉模型,所述另一计算机视觉模型被配置为执行表征所观察场景的元素的计算机视觉功能;和
-获得如根据权利要求11生成的训练数据集;
-使用所述训练数据集训练计算机视觉模型。
13.一种用于修改第一视觉参数规范以提供表征计算机视觉模型的第二视觉参数规范的装置(300),包括:
-输入接口(310);
-处理器(320);
-存储器(330);和
-输出接口(340);
其中所述输入接口被配置为:获得计算机视觉模型(16),所述计算机视觉模型(106)被配置为执行表征所观察场景的元素的计算机视觉功能;并获得包括至少一个初始视觉参数集的第一视觉参数规范,其中基于所述至少一个视觉参数集的范围生成视觉数据项能够影响所述计算机视觉模型的分类或回归性能;
其中所述处理器被配置为:提供符合所述第一视觉参数规范的视觉数据集,其中所述视觉数据集包括视觉数据项子集以及对应的基准真值数据项子集;并且将所述视觉数据项子集应用于所述计算机视觉模型以获得表征针对多个视觉数据项和对应的基准真值数据的所述计算机视觉模型性能的多个性能评分,以在所述第一视觉参数规范的域上执行所述多个性能评分的灵敏度分析;并且生成包括至少一个更新的视觉参数集的第二视觉参数规范,其中所述至少一个初始视觉参数集基于所述灵敏度分析的结果被修改。
14.一种包括机器可读指令的计算机程序,当由处理器执行时,所述机器可读指令能够执行(i)根据权利要求1至10之一的计算机实现的方法,或(ii)根据权利要求11的计算机实现的方法,或(iii)根据权利要求12的计算机实现的方法。
15.一种计算机可读介质,包括根据权利要求14的计算机程序中的至少一个。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102021200300.1 | 2021-01-14 | ||
DE102021200300.1A DE102021200300A1 (de) | 2021-01-14 | 2021-01-14 | Modifizieren von parametersätzen, die ein computer vision-modell charakterisieren |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114841227A true CN114841227A (zh) | 2022-08-02 |
Family
ID=82116277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210036138.1A Pending CN114841227A (zh) | 2021-01-14 | 2022-01-13 | 修改表征计算机视觉模型的参数集 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12051234B2 (zh) |
CN (1) | CN114841227A (zh) |
DE (1) | DE102021200300A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102021200345A1 (de) * | 2021-01-15 | 2022-07-21 | Robert Bosch Gesellschaft mit beschränkter Haftung | Überprüfung von computervisionsmodellen |
US11893464B1 (en) * | 2023-03-16 | 2024-02-06 | edYou | Apparatus and methods for training an educational machine-learning model |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109640785A (zh) * | 2016-04-08 | 2019-04-16 | 维扎瑞尔股份公司 | 用于获得、聚集和分析视觉数据以评估人的视力性能的方法和系统 |
US10740694B2 (en) * | 2018-08-10 | 2020-08-11 | Vis Machina Inc. | System and method for capture and adaptive data generation for training for machine vision |
US20200193552A1 (en) * | 2018-12-18 | 2020-06-18 | Slyce Acquisition Inc. | Sparse learning for computer vision |
US11615268B2 (en) * | 2020-09-09 | 2023-03-28 | Toyota Research Institute, Inc. | System and method for optimizing performance of a model performing a downstream task |
-
2021
- 2021-01-14 DE DE102021200300.1A patent/DE102021200300A1/de active Pending
-
2022
- 2022-01-04 US US17/646,914 patent/US12051234B2/en active Active
- 2022-01-13 CN CN202210036138.1A patent/CN114841227A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US20220222926A1 (en) | 2022-07-14 |
DE102021200300A1 (de) | 2022-07-14 |
US12051234B2 (en) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114269620B (zh) | 机器人系统的性能测试 | |
CN113039563B (zh) | 学习生成用于训练神经网络的合成数据集 | |
US10235601B1 (en) | Method for image analysis | |
US20220230072A1 (en) | Generating a data structure for specifying visual data sets | |
CN107636693B (zh) | 针对人工神经网络的相关性分数指派 | |
CN111144304A (zh) | 车辆目标检测模型的生成方法、车辆目标检测方法及装置 | |
US12051234B2 (en) | Modifying parameter sets characterising a computer vision model | |
US11908178B2 (en) | Verification of computer vision models | |
WO2021025761A1 (en) | Sub-pixel data simulation system | |
US20220230418A1 (en) | Computer-implemented method for training a computer vision model | |
US20220262103A1 (en) | Computer-implemented method for testing conformance between real and synthetic images for machine learning | |
US20240046614A1 (en) | Computer-implemented method for generating reliability indications for computer vision | |
Chen et al. | Pgnet: Panoptic parsing guided deep stereo matching | |
CN113255715A (zh) | 标识神经网络中的过滤器的方法、其系统和存储介质 | |
US20220237897A1 (en) | Computer-implemented method for analyzing relevance of visual parameters for training a computer vision model | |
Hepburn et al. | Enforcing perceptual consistency on generative adversarial networks by using the normalised laplacian pyramid distance | |
Veeravasarapu et al. | Model-driven simulations for computer vision | |
CN115830569A (zh) | 诊断和改进可移动对象的深度学习模型的视觉分析系统 | |
Arvanitis et al. | Cooperative saliency-based obstacle detection and ar rendering for increased situational awareness | |
Milanov et al. | Method for clustering and identification of objects in laser scanning point clouds using dynamic logic | |
CN113723469A (zh) | 基于空谱联合网络的可解释高光谱图像分类方法及装置 | |
Abdellaoui et al. | Driving assistance system based on artificial intelligence algorithms | |
Letheule et al. | Comparing Deep Learning Approaches for SAR Imaging: Electromagnetic and Segmentation-Driven Simulation versus Image-to-Image Style Transfer | |
Neurohr et al. | Requirements on Simulation Systems and Models Posed by a Criticality Analysis for Automated Driving Systems | |
CN118570753A (zh) | 基于深度估计的图像检测方法、系统、设备及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |