CN114997393A - 利用空间表示学习和对抗生成的对可移动对象的功能测试 - Google Patents
利用空间表示学习和对抗生成的对可移动对象的功能测试 Download PDFInfo
- Publication number
- CN114997393A CN114997393A CN202210192020.8A CN202210192020A CN114997393A CN 114997393 A CN114997393 A CN 114997393A CN 202210192020 A CN202210192020 A CN 202210192020A CN 114997393 A CN114997393 A CN 114997393A
- Authority
- CN
- China
- Prior art keywords
- movable object
- new
- driving scene
- spatial representation
- electronic processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种用于对可移动对象执行功能测试的方法和系统。一种系统包括被配置成访问包括可移动对象的驾驶场景的电子处理器。电子处理器还被配置成对驾驶场景执行空间表示学习。电子处理器还被配置成基于所学习的空间表示生成对抗示例。电子处理器还被配置成使用对抗示例和驾驶场景来重新训练深度学习模型。
Description
技术领域
实施例涉及利用空间表示学习和对抗生成对自主驾驶中的可移动对象的功能测试。
背景技术
检查深度学习模型的鲁棒性和潜在脆弱性在各种现实世界应用中、尤其是在安全关键应用中发挥着越来越重要的作用,诸如高级驾驶员辅助系统(“ADAS”)和自主驾驶(本文统称为“自主驾驶”)。深度学习模型已成为用于自主驾驶系统的基本构建模块,其已应用于各种任务,诸如对象检测和语义分割。尽管深度学习模型的性能不断提高,但已知深度学习模型容易受到对抗示例或边界情况的影响。因此,功能测试对于确保深度学习模型的鲁棒性变得至关重要。
最近,对抗攻击已经显示出对自主驾驶系统中功能测试的一些潜力(例如,通过改变输入图像的样式来生成对抗示例以使图像分类器失败,通过使用对抗搜索干扰交通灯的外观来对交通灯检测模型执行功能测试,等等)。使用对抗攻击来对深度学习模型执行功能测试的优势在于,可以高效地识别失败案例,并且可以使用失败案例来提高深度学习模型的鲁棒性、准确性或其组合。
尽管先前利用对抗攻击来提高深度学习模型的鲁棒性的付出在特定应用中已经显示出有希望的结果,但是将这些方法应用于自主驾驶仍然存在一些限制。首先,大多数先前的工作不能提供具有语义意义的对抗示例,因为那些方法通过将人类不能解释的噪声添加到输入中来生成对抗示例。因此,由那些方法生成的对抗示例对于让人类理解深度学习模型的潜在脆弱性缺乏物理或语义意义。已经提出了几种最近的技术来解决这个问题,首先学习输入图像的语义表示,并且然后攻击表示空间而不是原始空间。然而,表示学习方法的有限能力限制了那些方法的通用性。例如,学习复杂驾驶场景的表示是具有挑战性的,并且大多数先前的付出集中在特定的对象上,诸如交通灯和交通标志。此外,这些方法仅限于静止的对象,因为在复杂的驾驶场景中同时对对象的位置、尺寸和外观的表示进行建模是具有挑战性的。
发明内容
为解决这些和其他问题,本文所述的实施例尤其提供了用于生成可移动对象的对抗示例以用于自主驾驶的深度学习模型的功能测试的方法和系统。可移动对象的检测和/或分割在自主驾驶中发挥重要的作用,并且具有广泛的应用,诸如跟踪和运动预测。例如,本文描述的实施例学习对象的位置和尺寸的表示,并且然后使用所学习的表示来指导一个或多个对抗示例的生成。给定生成的对抗示例,实施例识别目标深度学习模型的失败模式,并通过使用原始驾驶场景和生成的对抗示例重新训练目标深度学习模型来改进目标深度学习模型。对于不同的深度学习模型(例如,对象检测模型、语义分割模型等),可以在各种类型的可移动对象(例如,丢失的货物、行人等)上评估所提出的方法。
例如,一个实施例提供了对可移动对象执行功能测试的系统。该系统包括被配置成访问包括可移动对象的驾驶场景的电子处理器。电子处理器还被配置成对驾驶场景执行空间表示学习。电子处理器还被配置成基于所学习的空间表示生成对抗示例。电子处理器还被配置成使用对抗示例和驾驶场景来重新训练深度学习模型。
另一实施例提供了一种对可移动对象执行功能测试的方法。该方法包括访问包括可移动对象的驾驶场景。该方法还包括用电子处理器对驾驶场景执行空间表示学习。该方法还包括利用电子处理器基于所学习的空间表示学习来生成对抗示例。该方法还包括利用电子处理器使用对抗示例和驾驶场景来重新训练深度学习模型。
另一实施例提供了一种存储指令的非暂时性计算机可读介质,该指令在由电子处理器执行时执行一组功能。该组功能包括访问包括可移动对象的驾驶场景。该组功能还包括对驾驶场景执行空间表示学习。该组功能还包括基于所学习的空间表示生成对抗示例。该组功能还包括使用对抗示例和驾驶场景来重新训练深度学习模型。
通过考虑详细说明和随附附图,其他方面和实施例将变得明显。
附图说明
图1示意性图示了根据一些实施例的用于对可移动对象执行功能测试的系统。
图2示意性图示了根据一些实施例的包括在图1的系统中的服务器。
图3图示了根据一些实施例的示例驾驶场景。
图4是根据一些实施例由图1的系统执行的对可移动对象执行功能测试的方法的流程图。
图5A图示了根据一些实施例的条件变分自动编码器。
图5B图示了根据一些实施例由解码器重构的多个边界框。
图6用图形的方式图示了根据一些实施例的目标可移动对象的学习空间表示的分布。
图7图示了根据一些实施例生成新的可移动对象。
图8图示了根据一些实施例的指示深度学习模型的性能的示例表格。
图9图示了根据一些实施例的对抗攻击方向的总结的示例可视化。
具体实施方式
在详细解释任何实施例之前,应理解实施例的应用不限于以下说明中阐述或以下附图中图示的部件的构造和布置细节。其他实施例是可能的,并且这里描述和/或图示的实施例能够以各种方式实践或执行。
还应注意,多个基于硬件和软件的装置以及多个不同的结构部件可用于实施本文所述的实施例。另外,实施例可以包括硬件、软件和电子部件或模块,出于讨论的目的,这些部件或模块可以被图示和描述为好像大部分部件仅在硬件中实施。然而,本领域普通技术人员基于对该详细描述的阅读将会认识到,在至少一个实施例中,本文所述实施例的基于电子的方面可以在可由一个或多个电子处理器执行的软件(例如,存储在非暂时性计算机可读介质上)中实施。因此,应当注意,可以利用多个基于硬件和软件的装置以及多个不同的结构部件来实施各种实施例。还应当理解,尽管某些附图图示了位于特定装置内的硬件和软件,但是这些描绘仅用于说明的目的。在一些实施例中,所示部件可以被组合或划分成独立的软件、固件和/或硬件。例如,代替被定位在单个电子处理器内并由单个电子处理器执行,逻辑和处理可以分布在多个电子处理器中。不管它们如何组合或划分,硬件和软件部件可以位于同一计算装置上,或者可以分布在由一个或多个网络或其他合适的通信链路连接的不同计算装置中。
图1图示了根据一些实施例对可移动对象执行功能测试的系统100。在所示示例中,系统100包括用户装置105和服务器110。在一些实施例中,系统100包括比图1所示更少、附加或不同的部件。例如,系统100可以包括多个用户装置105、多个服务器110或其组合。
用户装置105和服务器110通过一个或多个有线或无线通信网络115进行通信。通信网络115的各部分可以使用诸如因特网的广域网、诸如蓝牙TM网络或Wi-Fi的局域网以及它们的组合或衍生物来实施。替代地或附加地,在一些实施例中,系统100的部件彼此直接通信,而不是通过通信网络115通信。此外,在一些实施例中,系统100的部件通过图1中未图示的一个或多个中间装置进行通信。
服务器110包括计算装置,诸如服务器、数据库等。如图2所示,服务器110包括电子处理器200、存储器205和通信接口210。电子处理器200、存储器205和通信接口210通过一条或多条通信线路或总线或其组合进行无线通信。在各种配置中,服务器110可以包括除了图2中所示的部件之外的附加部件。例如,服务器110还可以包括一个或多个人机接口,诸如键盘、小键盘、鼠标、操纵杆、触摸屏、显示装置、打印机、扬声器等,其接收来自用户的输入、向用户提供输出或其组合。服务器110还可以执行除了本文描述的功能之外的附加功能。此外,本文描述为由服务器110执行的功能可以分布在多个服务器或装置中(例如,作为云服务或云计算环境的一部分)。
通信接口210可包括通过通信网络115以及任选的一个或多个其他通信网络或连接与用户装置105和数据库107通信的收发器。电子处理器200包括微处理器、专用集成电路(“ASIC”)或用于处理数据的其他合适的电子装置,并且存储器205包括非暂时性的计算机可读存储介质。电子处理器200被配置成访问和执行存储在存储器205中的计算机可读指令(“软件”)。软件可以包括固件、一个或多个应用程序、程序数据、滤波器、规则、一个或多个程序模块和其他可执行指令。例如,软件可以包括用于执行一组功能的指令和相关联数据,包括本文描述的方法。
例如,如图2所示,存储器205可存储学习引擎220和模型数据库225。在一些实施例中,学习引擎220使用一个或多个机器学习功能来开发一个或多个深度学习模型。机器学习功能通常是允许计算机应用在没有被明确编程的情况下学习的功能。特别地,学习引擎220被配置成基于训练数据开发算法或模型。例如,为了执行监督学习,训练数据包括示例输入和对应的期望(例如,实际)输出,并且学习引擎逐步开发将输入映射到包括在训练数据中的输出的模型(例如,深度学习模型,诸如对象检测模型、语义分割模型等)。由学习引擎220执行的机器学习可以使用各种类型的方法和机制来执行,包括但不限于决策树学习、关联规则学习、人工神经网络、归纳逻辑编程、支持向量机、聚类、贝叶斯网络、强化学习、表示学习、相似性和度量学习、稀疏字典学习和遗传算法。这些方法允许学习引擎220摄取、解析和理解数据,并逐步改进用于数据分析的模型。
由学习引擎220生成的模型存储在模型数据库225中。如图2所示,模型数据库225被包括在服务器110的存储器205中。然而,在一些实施例中,模型数据库225被包括在可由服务器110访问的独立装置中(包括在服务器110中或在服务器110外部)。
另外,如图2所示,存储器205包括鲁棒性测试应用程序220。鲁棒性测试应用程序220是可由电子处理器200执行的软件应用程序。如下面更详细描述的,电子处理器200执行用于执行功能测试的鲁棒性测试应用程序220,该功能测试使用例如空间表示学习和对抗生成来检查用于可移动对象(诸如自主驾驶中的可移动对象)的深度学习模型(例如,存储在模型数据库225中的一个或多个模型)的鲁棒性和潜在脆弱性。
存储器205还包括驾驶场景240的集合或集。在一些实施例中,驾驶场景240被存储为图像。然而,在其他实施例中,驾驶场景240可以存储为另一种类型的媒体或数据文件。每个驾驶场景240可以包括一个或多个可移动对象,诸如一件丢失的货物、行人等。作为一个示例,图3图示了驾驶场景240的示例图像。如在图3中所见,驾驶场景240包括定位在边界框305内的可移动对象300。因此,在一些实施例中,驾驶场景240包括表示可移动对象(例如,可移动对象300和边界框305,如图3所示)的边界框(或定位在其周围)。在一些实施例中,深度学习模型(例如,存储在模型数据库225中的模型)辨识或识别驾驶场景中的可移动对象,并在可移动对象周围定位或生成边界框。尽管图2图示了包括在服务器110的存储器205中的驾驶场景240,但是在一些实施例中,驾驶场景240被包括在可由服务器110访问的独立装置中(包括在服务器110中或者在服务器110外部,诸如独立的训练数据库)。
用户装置105还包括计算装置,诸如台式计算机、膝上型计算机、平板计算机、终端、智能电话、智能电视、智能可穿戴装置或与用户交互的其他合适的计算装置。终端用户可以使用用户装置105来与鲁棒性测试应用程序230进行交互。在一些实施例中,终端用户可以与鲁棒性测试应用程序230交互以执行功能测试,该功能测试检查用于自主驾驶中的可移动对象的深度学习模型(例如,目标深度学习模型)的性能(例如,鲁棒性和潜在脆弱性),如下面更详细描述的。替代地或附加地,终端用户可以使用用户装置105来与功能测试结果交互,诸如由鲁棒性测试应用程序230提供的功能测试(或对抗攻击)结果的视觉概要,如下面更详细描述的。
虽然未在图1中图示,但用户装置105可包括与服务器110类似的部件,诸如电子处理器(例如,微处理器、ASIC或另一种合适的电子装置)、存储器(例如,非暂时性计算机可读存储介质)、用于通过通信网络115进行通信的通信接口(诸如,收发器)、以及任选地一个或多个附加通信网络或连接,以及一个或多个人机接口。例如,为了与服务器110通信,用户装置105可以存储可由电子处理器执行的浏览器应用程序或专用软件应用程序。系统100在本文中被描述为通过服务器110提供功能测试服务。然而,在其他实施例中,本文描述的由服务器110执行的功能可以由用户装置在本地执行115。例如,在一些实施例中,用户装置105可以存储鲁棒性测试应用程序230。
图4是图示根据一些实施例由系统100对可移动对象执行功能测试的方法400的流程图。方法400被描述为由服务器110执行,并且特别是如由电子处理器200执行的鲁棒性测试应用程序230。然而,如上所述,关于方法400描述的功能可以由诸如用户装置105的其他装置来执行,或者分布在多个装置中,诸如云服务中包括的多个服务器。
如图4所示,方法400包括访问一个或多个驾驶场景240(在框405)。如上所述,每个驾驶场景240可以包括一个或多个可移动对象,诸如一件丢失的货物、行人等。在一些实施例中,驾驶场景240包括表示可移动对象(例如,可移动对象300和边界框305,如图3所示)的边界框(或定位在其周围)。在一些实施例中,电子处理器200从存储器205访问驾驶场景240。替代地或附加地,电子处理器200可以从可由服务器110访问的独立装置(包括在服务器110中或者在服务器110外部,例如独立的数据库)访问驾驶场景240。
如图4所示,电子处理器200然后对驾驶场景240执行空间表示学习(在框410处)。给定驾驶场景240作为条件,电子处理器200利用表示学习方法对可移动对象(即,可移动对象的边界框)的位置和尺寸的分布进行建模。因此,在一些实施例中,电子处理器200使用表示学习方法来执行空间表示学习,诸如,例如,如图5A所示的条件变分自动编码器。表示学习方法训练编码器和解码器,编码器将边界框编码成潜在表示,解码器在给定潜在表示和条件(即,驾驶场景240)的情况下重构边界框。因此,在一些实施例中,电子处理器200训练编码器将驾驶场景240中包括的可移动对象的边界框编码成潜在表示,并训练解码器在给定潜在表示和驾驶场景的情况下重构边界框。在训练编码器和解码器之后,电子处理器200可以通过从潜在空间对潜在表示进行采样并且然后用解码器重构边界框,来获得边界框的分布(或空间分布),如图5B所示。
如下文更详细描述的,可通过利用语义意义干扰目标可移动对象的潜在表示来干扰目标可移动对象的位置和尺寸,其可用于(例如,由电子处理器200)生成对抗示例,如图6所示。图6图示了用于目标可移动对象的所学习的空间表示的分布。例如,如图6所示,边界框连同潜在表示改变位置和尺寸。
在驾驶场景240上执行空间表示学习之后(在框410处),电子处理器200基于所学习的空间表示生成对抗示例(在框415处)。换句话说,在一些实施例中,电子处理器200执行语义对抗生成。在这样的实施例中,语义对抗生成包括将新的可移动对象插入到给定的驾驶场景中,并且干扰新的可移动对象的空间表示以使目标深度学习模型失败。因此,在一些实施例中,电子处理器200通过生成新的可移动对象并将其插入到驾驶场景240中,并干扰驾驶场景240内的新的可移动对象的空间表示,来生成对抗示例。
在一些实施例中,参考图7,电子处理器200通过确定当前在给定驾驶场景(例如,驾驶场景240)中的可移动对象的空间表示(例如,位置和尺寸)来生成和插入新的可移动对象。电子处理器200可以通过对驾驶场景240的潜在表示进行采样来确定可移动对象的空间表示。在确定可移动对象的空间表示之后,电子处理器200可以获得用于可移动对象的对应边界框。电子处理器200可以使用经训练的解码器来得对应边界框。电子处理器200然后选择或确定要插入到对应边界框中的新的可移动对象。在一些实施例中,电子处理器200可以通过在驾驶场景240的集合或集中搜索具有最相似边界框的新的可移动对象来选择或确定新的可移动对象。一旦选择或确定了新的可移动对象,电子处理器200就将新的可移动对象插入驾驶场景中(例如,使用剪切和粘贴方法)。在一些实施例中,电子处理器200使用泊松融合、高斯融合或其组合将新的可移动对象融合到驾驶场景中,使得新的可移动对象无缝地插入到驾驶场景中。
在一些实施例中,新生成的可移动对象可能不直接使目标深度学习模型失败。因此,在一些实施例中,电子处理器200干扰驾驶场景240内的新的可移动对象的空间表示(即,位置和尺寸),使得新的可移动对象使深度学习模型失败(作为对抗生成或攻击)。在这样的实施例中,电子处理器200通过生成一组新的可移动对象来干扰新的可移动对象的空间表示。在一些实施例中,给定可移动对象的潜在表示,电子处理器200对可移动对象周围的一组潜在向量进行采样,并生成该组新的可移动对象。电子处理器200可以以与上面关于生成新的可移动对象并将其插入驾驶场景中(例如,将新的可移动对象插入对应的边界框中)所描述的类似方式生成新的一组可移动对象。在生成该组新的可移动对象之后,电子处理器200通过将深度学习模型应用于该组新的可移动对象来确定深度学习模型的性能。在一些实施例中,深度学习模型的性能被确定为交并比评估度量。电子处理器200然后使用性能评估来估计潜在表示的梯度,其中梯度指向深度学习模型经历性能下降的方向。电子处理器200可以沿着梯度移动潜在表示(例如,迭代地),直到找到对抗示例。替代地或附加地,电子处理器200可以沿着梯度移动潜在表示,直到满足有限的查询预算。因此,在一些实施例中,电子处理器200基于深度学习模型在该组新的可移动对象上的性能来确定一个或多个对抗示例。
如图4所示,方法400还包括利用电子处理器200,使用对抗示例和训练数据240对深度学习模型进行重新训练(在框420处)。利用所生成的对抗示例,可以通过利用驾驶场景240的原始集合或集以及所生成的对抗示例来重新训练深度学习模型,从而提高目标深度学习模型的准确性和鲁棒性。例如,图8图示了示出在丢失货物数据集(即,作为驾驶场景240的集合或集)上训练的语义分割模型(即,作为深度学习模型)的准确性和鲁棒性的表格。如在图8中所见,当对抗攻击结果(即,所生成的对抗示例)与原始数据混合时,语义分割模型的准确性和鲁棒性增加。
在一些实施例中,电子处理器200还生成对抗攻击结果的视觉概要,以显示给终端用户(例如,经由用户装置105的显示装置)。视觉概要可以包括例如深度学习模型的鲁棒性量化、对抗攻击模式的可视化或总结等。在一些实施例中,鲁棒性量化是对抗示例的性能下降与对抗示例在潜在空间中的变化量的比率。关于对抗攻击模式的可视化或概述,通过分组和可视化对抗攻击方向(即,潜在表示的梯度),可以识别共同的对抗攻击模式。
作为一个示例,图9图示了对抗攻击方向的总结的示例可视化。如在所示示例中所示,可视化包括两个轴线,即“潜在dim0”轴线和“潜在dim1”轴线。这两个轴线是从数据中学习的潜在维度,用于表示特殊表示(例如,位置和尺寸)。潜在dim1轴线指示距当前视点的距离,其中轴线位置的增加表示距当前视点的距离的增加。例如,参考图9,第一轴线点P1具有第一距离值,且第二轴线点P2具有第二距离值,其中第一距离值大于第二距离值。潜在dim0轴线指示位于驾驶场景中的对象的左侧和右侧。还如在所示示例中所见,可视化包括多个箭头,这些箭头表示对抗攻击可能使目标模型失败的方向(例如,箭头指向对抗攻击可能在其处放置对象而不被目标模型检测到的位置)。在一些实施例中,箭头在视觉上是不同的(例如,不同的颜色、不同的长度、不同的格式特征),以表示对抗攻击将使目标模型失败的速度(例如,对抗攻击可以破坏正被测试的目标模型的最快方向)。在一些实施例中,箭头用不同的颜色表示。每种颜色可以表示对抗攻击之后目标对象的交并比(“IoU”)。作为一个示例,红色箭头可以指示IoU为低,这指示目标模型未能正确检测到对象。作为另一个示例,绿色箭头可以表示IoU为高,这指示在对抗攻击之后对象被目标模型检测到了。替代地,或者附加地,如图9所描绘的,箭头可以由不同的格式特征表示,诸如线条粗细或虚线粗细。作为一个示例,如图9的示例所示,可视化包括带点的箭头、带虚线的细线、更粗的线、更细的线和带虚线的更粗的线。在这样的实施例中,格式特征可以表示在对抗攻击之后目标对象的IoU。作为一个示例,粗实线箭头可以表示IoU为低,这指示目标模型未能正确检测到对象。作为另一个示例,虚线箭头可以表示IoU为高,这指示在对抗攻击之后目标模型检测到了对象。
因此,本文所述的实施例涉及深度学习模型的功能测试,所述深度学习模型从驾驶场景中检测或分割可移动对象(例如,丢失的货物)。给定具有可移动对象的驾驶场景的集合,本文描述的实施例学习可移动对象的位置和尺寸的空间表示(以给定的驾驶场景为条件)。然后,实施例使用所学习的空间表示来指导将新的可移动对象插入到驾驶场景中,并干扰新的可移动对象的位置和尺寸以生成对抗示例。实施例使用所生成的对抗示例来测试和重新训练目标深度学习模型。
因此,所述实施例尤其提供了利用空间表示学习和对抗生成在自动驾驶中对可移动对象执行功能测试的方法和系统。在下面的权利要求中阐述了某些实施例的各种特征和优点。
Claims (20)
1.一种用于对可移动对象执行功能测试的系统,所述系统包括:
电子处理器,其被配置成
访问包括可移动对象的驾驶场景,
对所述驾驶场景执行空间表示学习,
基于所学习的空间表示生成对抗示例,以及
使用所述对抗示例和所述驾驶场景来重新训练深度学习模型。
2.根据权利要求1所述的系统,其中,所述电子处理器被配置成使用条件变分自动编码器来执行空间表示学习。
3.根据权利要求1所述的系统,其中,所述空间表示学习包括
训练编码器,所述编码器被配置成将包括在驾驶场景中的可移动对象的边界框编码成潜在表示,以及
训练解码器,所述解码器被配置成在给定潜在表示和驾驶场景的情况下重构所述边界框。
4.根据权利要求1所述的系统,其中,所述深度学习模型是语义分割模型。
5.根据权利要求1所述的系统,其中,所述深度学习模型识别表示包括在所述驾驶场景中的可移动对象的边界框。
6.根据权利要求1所述的系统,其中,所述电子处理器被配置成通过以下方式生成对抗示例
生成新的可移动对象并将其插入到所述驾驶场景中,以及
干扰所述驾驶场景内新的可移动对象的空间表示。
7.根据权利要求6所述的系统,其中,所述电子处理器被配置成通过以下方式生成并插入所述新的可移动对象
通过对所述驾驶场景的潜在表示进行采样来确定所述驾驶场景中的可移动对象的空间表示,
基于所述新的可移动对象与所述驾驶场景的可移动对象的相似性来选择新的可移动对象,以及
将所述新的可移动对象插入所述驾驶场景中作为新的驾驶场景。
8.根据权利要求7所述的系统,其中,所述电子处理器还被配置成
使用解码器来获得所述可移动对象的对应边界框,
其中,所述新的可移动对象被插入到所述对应边界框中。
9.根据权利要求7所述的系统,其中,所述电子处理器被配置成将所述新的可移动对象融合到所述驾驶场景中。
10.根据权利要求6所述的系统,其中,所述电子处理器被配置成通过以下方式干扰所述新的可移动对象的空间表示
生成一组新的可移动对象,
通过将所述深度学习模型应用于所述一组新的可移动对象来确定所述深度学习模型的性能,以及
基于所述深度学习模型在所述一组新的可移动对象上的性能来确定所述对抗示例。
11.根据权利要求10所述的系统,其中,所述对抗示例包括来自所述一组新的可移动对象的新的可移动对象。
12.一种用于对可移动对象执行功能测试的方法,所述方法包括:
访问包括可移动对象的驾驶场景;
利用电子处理器,对所述驾驶场景执行空间表示学习;
利用所述电子处理器,基于所学习的空间表示学习来生成对抗示例;以及
利用所述电子处理器,使用对抗示例和驾驶场景来重新训练所述深度学习模型。
13.根据权利要求12所述的方法,其中,执行空间表示学习包括
训练编码器,所述编码器被配置成将包括在所述驾驶场景中的可移动对象的边界框编码成潜在表示,以及
训练解码器,所述解码器被配置成在给定潜在表示和驾驶场景的情况下重构边界框。
14.根据权利要求12所述的方法,其中,生成所述对抗示例包括
生成新的可移动对象并将其插入到所述驾驶场景中,以及
干扰所述驾驶场景内所述新的可移动对象的空间表示。
15.根据权利要求14所述的方法,其中,生成和插入所述新的可移动对象包括
通过对所述驾驶场景的潜在表示进行采样来确定包括在所述驾驶场景中的可移动对象的空间表示,
基于所述新的可移动对象与所述驾驶场景的可移动对象的相似性来选择所述新的可移动对象,以及
将所述新的可移动对象插入所述驾驶场景中作为新的驾驶场景。
16.根据权利要求15所述的方法,进一步包括:
使用解码器获得所述可移动对象的对应边界框,
其中,将所述新的可移动对象插入到所述对应边界框中。
17.根据权利要求14所述的方法,其中,干扰所述新的可移动对象的空间表示包括
生成一组新的可移动对象,
通过将所述深度学习模型应用于所述一组新的可移动对象来确定所述深度学习模型的性能,以及
基于所述深度学习模型在所述一组新的可移动对象上的性能来确定所述对抗示例。
18.根据权利要求12所述的方法,进一步包括:
生成用于显示的视觉概要,所述视觉概要包括选自由所述深度学习模型的鲁棒性量化和对抗攻击模式的总结组成的组的至少一者。
19.根据权利要求18所述的方法,进一步包括:
确定所述深度学习模型的鲁棒性量化,其中,所述鲁棒性量化是所述对抗示例的性能下降与所述对抗示例在潜在空间中的变化量的比率。
20.一种存储指令的非暂时性计算机可读介质,所述指令在由电子处理器执行时执行一组功能,所述一组功能包括:
访问包括可移动对象的驾驶场景;
对所述驾驶场景执行空间表示学习;
基于所学习的空间表示来生成对抗示例;以及
使用所述对抗示例和所述驾驶场景来重新训练所述深度学习模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/188907 | 2021-03-01 | ||
US17/188,907 US11803616B2 (en) | 2021-03-01 | 2021-03-01 | Function testing for movable objects in safety critical applications with spatial representation learning and adversarial generation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114997393A true CN114997393A (zh) | 2022-09-02 |
Family
ID=82799481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210192020.8A Pending CN114997393A (zh) | 2021-03-01 | 2022-03-01 | 利用空间表示学习和对抗生成的对可移动对象的功能测试 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11803616B2 (zh) |
CN (1) | CN114997393A (zh) |
DE (1) | DE102022202014A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471495A (zh) * | 2022-09-30 | 2022-12-13 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115526055A (zh) * | 2022-09-30 | 2022-12-27 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115909020A (zh) * | 2022-09-30 | 2023-04-04 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115984792A (zh) * | 2022-09-30 | 2023-04-18 | 北京瑞莱智慧科技有限公司 | 一种对抗测试方法、系统及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220114255A1 (en) * | 2021-12-23 | 2022-04-14 | Intel Corporation | Machine learning fraud resiliency using perceptual descriptors |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220253714A1 (en) * | 2021-01-25 | 2022-08-11 | International Business Machines Corporation | Generating unsupervised adversarial examples for machine learning |
-
2021
- 2021-03-01 US US17/188,907 patent/US11803616B2/en active Active
-
2022
- 2022-02-28 DE DE102022202014.6A patent/DE102022202014A1/de active Pending
- 2022-03-01 CN CN202210192020.8A patent/CN114997393A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471495A (zh) * | 2022-09-30 | 2022-12-13 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115526055A (zh) * | 2022-09-30 | 2022-12-27 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115909020A (zh) * | 2022-09-30 | 2023-04-04 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115984792A (zh) * | 2022-09-30 | 2023-04-18 | 北京瑞莱智慧科技有限公司 | 一种对抗测试方法、系统及存储介质 |
CN115909020B (zh) * | 2022-09-30 | 2024-01-09 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115471495B (zh) * | 2022-09-30 | 2024-02-13 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115526055B (zh) * | 2022-09-30 | 2024-02-13 | 北京瑞莱智慧科技有限公司 | 模型鲁棒性检测方法、相关装置及存储介质 |
CN115984792B (zh) * | 2022-09-30 | 2024-04-30 | 北京瑞莱智慧科技有限公司 | 一种对抗测试方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
DE102022202014A1 (de) | 2022-09-01 |
US20220277173A1 (en) | 2022-09-01 |
US11803616B2 (en) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114997393A (zh) | 利用空间表示学习和对抗生成的对可移动对象的功能测试 | |
CN112052787B (zh) | 基于人工智能的目标检测方法、装置及电子设备 | |
CN113039563B (zh) | 学习生成用于训练神经网络的合成数据集 | |
CN112232293B (zh) | 图像处理模型训练、图像处理方法及相关设备 | |
US20230186486A1 (en) | Vehicle tracking method and apparatus, and electronic device | |
Shi et al. | Represent, compare, and learn: A similarity-aware framework for class-agnostic counting | |
JP2019517701A (ja) | 画像内の物体を検出する方法及び物体検出システム | |
KR20180126220A (ko) | 객체를 식별하는 방법 및 디바이스 | |
US20150074023A1 (en) | Unsupervised behavior learning system and method for predicting performance anomalies in distributed computing infrastructures | |
US11301724B2 (en) | Semantic adversarial generation based function testing method in autonomous driving | |
CN112270686B (zh) | 图像分割模型训练、图像分割方法、装置及电子设备 | |
US11763135B2 (en) | Concept-based adversarial generation method with steerable and diverse semantics | |
KR20220081261A (ko) | 객체 포즈 추정 방법 및 장치 | |
CN111738265A (zh) | Rgb-d图像的语义分割方法、系统、介质及电子设备 | |
Wu et al. | Sharing deep neural network models with interpretation | |
KR20190125029A (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
JP2024511171A (ja) | 動作認識の方法および装置 | |
CN109685805A (zh) | 一种图像分割方法及装置 | |
CN113192175A (zh) | 模型训练方法、装置、计算机设备和可读存储介质 | |
Gupta et al. | Online monitoring for neural network based monocular pedestrian pose estimation | |
CN112862730B (zh) | 点云特征增强方法、装置、计算机设备和存储介质 | |
CN113434722A (zh) | 图像分类方法、装置、设备及计算机可读存储介质 | |
Lange et al. | Lopr: Latent occupancy prediction using generative models | |
CN117808816B (zh) | 图像异常检测方法、装置及电子设备 | |
US11912289B2 (en) | Method and device for checking an AI-based information processing system used in the partially automated or fully automated control of a vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |