CN116258174A

CN116258174A - 用于检测深度神经网络推理质量的系统和方法

Info

Publication number: CN116258174A
Application number: CN202211538617.XA
Authority: CN
Inventors: 古吉特·辛格; A·马利克; Z·伊克巴尔; 希塔·瑞瓦拉; S·赵; 维贾伊·纳加萨米
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2021-12-10
Filing date: 2022-12-02
Publication date: 2023-06-13
Also published as: US20230186637A1; DE102022132111A1

Abstract

本公开提供了“用于检测深度神经网络推理质量的系统和方法”。本公开总体上涉及用于在不需要供在驾驶员辅助车辆中使用的地面实况信息的情况下的深度神经网络(DNN)的推理质量确定的系统和方法，所述方法包括：从源接收图像帧；将正常推理DNN模型应用于所述图像帧以使用正常推理DNN模型产生具有第一边界框的第一推理；将深度推理DNN模型应用于所述图像帧的多个滤波版本以产生具有多个边界框的多个深度推理；将所述多个边界框进行比较以识别所述多个边界框的聚类条件；以及根据所述聚类条件确定所述正常推理DNN模型的所述图像帧的推理质量。

Description

用于检测深度神经网络推理质量的系统和方法

技术领域

本公开总体上涉及使用深度神经网络的人工智能，并且更具体地涉及用于在没有地面实况信息的情况下使用图像/数据操纵来检测深度神经网络(DNN)推理质量的系统和方法。

背景技术

自动驾驶汽车依靠人工智能在几秒钟内进行检测和响应以避免事故。这种人工智能涉及由许多层互连的人工“神经元”组成的深度神经网络(DNN)。训练是通过馈送DNN数据来“教导”DNN对针对自动驾驶车辆或半自主车辆的图像识别执行人工智能以开发用于预测目的的经训练的深度学习模型的过程。误差是训练过程的一部分以加强DNN，直到提高准确性。对于图像，推理过程包括进行预测，以及基于互连的强度执行更新，使得呈现给DNN的下一个相同类型的图像更可能更准确地执行。一旦DNN被训练，模型就可以通过基于新图像的推理进行准确的预测。推理是使用经训练的DNN基于前所未见的图像进行预测的过程。

典型的DNN推理质量测量很难获得，因为典型的DNN需要大量的地面实况信息。

期望提供解决对用于DNN质量测量的地面实况信息的需求的解决方案。

发明内容

就总体概述而言，本公开总体上涉及用于神经网络的系统和方法。更具体地，本公开涉及提供深度神经网络并确定对不同的自主和半自主车辆操纵和驾驶(诸如代客泊车、自动泊车、挂车倒车辅助、挂车停放、收集数据、处理和映射)的应用有用的推理质量。

神经网络数据可以通过网络接收，诸如“空中下载”(“OTA”)型数据，或者使用车辆上的传感器和相机硬件来收集。图像的预测质量和推理质量不能总是通过地面实况数据来确认。此外，当车辆移动时，无法在实时场景中检索真实的地面实况数据。因此，本文公开了使用神经网络的图像预测的改进。

在一个或多个实施例中，一种用于深度神经网络(DNN)的推理质量确定的方法包括：从源接收图像帧；将正常推理DNN模型应用于所述图像帧以使用正常推理DNN模型产生具有第一边界框的第一推理；将深度推理DNN模型应用于所述图像帧的多个滤波版本以产生具有多个边界框的多个深度推理；将所述多个边界框进行比较以识别所述多个边界框的聚类条件；以及根据所述聚类条件确定所述正常推理DNN模型的所述图像帧的推理质量。

在一个或多个实施例中，将所述深度推理DNN模型应用于所述图像帧的所述多个滤波版本以产生具有所述多个边界框的所述多个深度推理包括将至少四个滤波器应用于所述图像帧以产生作为所述多个边界框的至少四个附加边界框，所述四个滤波器至少包括缩放、图像增亮、图像锐化和超分辨率滤波器。

在一个或多个实施例中，所述应用所述深度推理DNN模型包括应用具有深度主干架构的深度推理DNN模型。

在一个或多个实施例中，将所述深度推理DNN模型应用于所述图像帧的所述多个滤波版本以产生具有所述多个边界框的所述多个深度推理包括应用所述深度推理DNN模型以产生具有所述多个边界框的所述多个深度推理，所述多个边界框包括识别所述多个边界框的拐角的多个x和y坐标以及多个边界框区域。

在一个或多个实施例中，比较所述多个边界框以识别所述聚类条件包括应用聚类技术诸如应用K均值聚类、基于密度的空间聚类(DBSCAN)、高斯混合建模类型聚类中的一者或多者以确定所述聚类条件。

在一个或多个实施例中，根据所述聚类条件确定所述正常推理DNN模型的所述图像帧的所述推理质量包括确定所述聚类条件是收敛，使得单聚类条件指示正向推理质量。

在一个或多个实施例中，根据聚类条件确定正常推理DNN模型的图像帧的推理质量包括确定所述聚类条件是发散，使得多聚类条件指示较差的推理质量，其包括当所述聚类条件指示所述较差的推理质量时手动注释所述图像帧，以及从车辆传输所述图像帧以实现所述DNN模型的空中下载更新。

在一个或多个实施例中，所述方法还包括迭代地重复所述使用来自所述源的第二图像帧确定所述推理DNN模型的所述图像帧的所述推理质量。

在其他实施例中，一种系统和驾驶员辅助车辆包括处理器和耦接到所述处理器的存储器，所述存储器存储指令，其中所述处理器执行所述指令以：将正常推理DNN模型应用于所述图像帧以产生具有第一边界框的第一推理；将非常深度的推理DNN模型应用于所述图像帧的多个滤波版本以产生具有多个边界框的多个深度推理；将所述多个边界框进行比较以识别所述多个边界框的聚类条件；以及识别具有第一边界框的多个边界框之间的第二聚类条件以确定所述正常推理DNN模型的所述图像帧的推理质量。

在一个或多个实施例中，如果正常推理DNN模型的图像帧的推理质量较差，则通过网络传输图像帧以实现对正常推理DNN模型的重新训练。例如，可以经由工具手动/自动地注释图像数据，然后将其用于重新训练正常DNN模型。

在一个或多个实施例中，独立于地面实况信息执行对图像帧的推理质量的确定。

附图说明

下面参考附图阐述具体实施方式。使用相同的附图标记可指示相似或相同的项。各种实施例可以利用除了附图中示出的那些之外的元件和/或部件，并且一些元件和/或部件可能不存在于各种实施例中。附图中的元件和/或部件不一定按比例绘制。在整个本公开中，根据上下文，单数和复数术语可以可互换地使用。

图1示出了根据本公开的实施例的适用于神经网络实现方式的示例性系统。

图2示出了根据本公开的实施例的具有可以包括在经由网络或云可访问的服务器中的一些示例性功能框的网络系统。

图3示出了根据本公开的实施例的方法的过程图。

图4示出了根据本公开的实施例的样本推理神经网络模型。

图5示出了根据本公开的实施例的具有边界区域和坐标的样本边界框。

图6示出了根据本公开的实施例的将聚类过程应用于边界框坐标的结果。

图7示出了根据本公开的实施例的应用聚类过程的边界框区域重叠结果。

图8示出了根据本公开的实施例的示出了方法的流程图。

具体实施方式

下文将参考附图更全面地描述本公开，其中示出了本公开的示例实施例。然而，本公开可以以许多不同形式来体现，并且不应被解释为受限于本文阐述的示例实施例。相关领域技术人员将理解，在不脱离本公开的精神和范围的情况下可对各种实施例作出形式和细节上的各种变化。因此，本公开的广度和范围不应受到上述示例性实施例中的任何一个限制，而是应仅根据所附权利要求和其等效物限定。以下描述是为了说明目的而呈现，并且不意图是详尽性的或受限于所公开的精确形式。应理解，替代实现方式可以以任何所期望的组合使用，以形成本公开的附加混合实现方式。例如，相对于特定装置或部件描述的功能中的任一者可以由另一个装置或部件执行。此外，尽管已经描述了具体的装置特性，但是本公开的实施例可以涉及许多其他装置特性。另外，尽管已用特定于结构特征和/或方法动作的语言描述了实施例，但是应理解，本公开不一定受限于所描述的特定特征或动作。而是，将具体特征和动作公开为实现所述实施例的说明性形式。

还应理解，如本文使用的词语“示例”意图在本质上是非排他性的和非限制性的。此外，本文使用的某些词语和短语应被解释为指代本领域普通技术人员通常以各种形式和等效形式理解的各种对象和动作。例如，本文中关于诸如智能电话的漫游装置使用的词语“应用程序”或短语“软件应用程序”是指安装在漫游装置中的代码(通常是软件代码)。代码可以经由诸如触摸屏的人机界面(HMI)来启动和操作。在本公开中，词语“动作”可以与诸如“操作”和“操纵”的词语互换使用。在一些情况下，“操纵”一词可以与“控制”一词可互换地使用。如本公开所使用的词语“车辆”可涉及各种类型的车辆中的任一种，诸如轿车、货车、运动型多用途车、卡车、电动化车辆、汽油车辆、混合动力车辆和自主车辆。如在本公开中使用的诸如“自动车辆”、“自主车辆”和“部分自主车辆”的短语总体上是指能够在没有驾驶员坐在车辆内的情况下执行至少一些操作的车辆。

汽车工程师协会(SAE)限定范围从0级(完全手动)到5级(完全自主)的六个驾驶自动化级别。这些级别已经由美国交通部采用。0级(L0)车辆是没有驾驶相关自动化的手动控制的车辆。1级(L1)车辆结合一些特征，诸如巡航控制，但是人类驾驶员保持对大部分驾驶和操纵操作的控制。2级(L2)车辆部分地自动化，其中由车辆计算机控制某些驾驶操作，诸如转向、制动和车道控制。驾驶员保持对车辆的某种级别的控制，并且可以超驰由车辆计算机执行的某些操作。3级(L3)车辆提供有条件的驾驶自动化，但是在具有感测驾驶环境和某些驾驶情形的能力方面更智能。4级(L4)车辆可以在自动驾驶模式下操作，并且包括其中车辆计算机在某些类型的装备事件期间取得控制的特征。人为干预的水平非常低。5级(L5)车辆是不涉及人类参与的完全自主车辆。

虽然本公开描述了车辆系统和服务器，但应理解，可以使用任何合适的计算机系统来执行本文描述的对抗神经网络的技术和/或功能。另外，本文描述的技术可以包括训练生成器以用于图像生成目的，这可能使车辆系统内的处理效率提高。例如，可训练在车辆系统内使用的一个或多个神经网络，以改善神经网络的性能。

图1示出了包括车辆101的示例性系统100，该车辆可以是诸如汽油动力车辆、电动化车辆、混合动力电动化车辆或自主车辆等各种类型的车辆中的一种，其被配置为自动化车辆或半自动化车辆。车辆101可以以各种方式实施，并且可以包括作为车辆101的一部分的一些部件，并且在一些实施例中，可以包括可经由通信网络140访问的其他部件。可以作为车辆101的一部分的部件可以包括计算机110，所述计算机具有与网络140通信的处理器102和存储器104。存储器104包括一种或多种形式的计算机可读介质，并且存储可由计算机110执行以执行各种操作(包括如本文所公开的操作)的指令。

计算机110可以自主模式、半自主模式或非自主(手动)模式来操作车辆101。出于本公开的目的，自主模式被定义为其中车辆101推进、制动和转向中的每一者都由计算机110控制的模式；在半自主模式下，计算机110控制车辆101推进、制动和转向中的一者或两者；在非自主模式下，人类操作员控制车辆101推进、制动和转向中的每一者。

计算机110可以包括编程以操作车辆101制动、推进(例如，通过控制内燃发动机、电动马达、混合动力发动机等中的一者或多者来控制车辆的加速度)、转向、气候控制、内部灯和/或外部灯等中的一者或多者，以及确定计算机110(而非人类操作员)是否和何时控制此类操作。另外，计算机110可以被编程为确定人类操作员是否以及何时控制此类操作。

计算机110可包括一个以上的处理器，或者例如经由如以下进一步描述的车辆101的通信模块130而通信地耦接到所述一个以上的处理器，所述一个以上的处理器例如包括在车辆101中所包括的用于监测和/或控制各种车辆部件126的电子控制器单元(ECU)等(例如动力传动系统控制器、制动控制器、转向控制器等)中。此外，计算机110可经由车辆101的通信模块130与使用全球定位系统(GPS)的导航系统通信。作为示例，计算机110可请求并接收车辆101的位置数据。位置数据可以是已知的形式，例如地理坐标(纬度坐标和经度坐标)。

计算机110通常被布置用于依靠车辆101通信模块130并且还利用车辆101内部有线和/或无线网络(例如车辆101中的总线等，诸如控制器局域网(CAN)等)和/或其他有线和/或无线机制进行通信。计算机110可向车辆101中的各种装置传输消息和/或从所述各种装置接收消息，所述各种装置例如车辆传感器112、致动器120、车辆部件126、人机界面(HMI)等。替代地或另外，在计算机110实际上包括多个装置的情况下，车辆105通信网络可用于在本公开中表示为计算机110的装置之间的通信。此外，如以下所提及，各种控制器和/或车辆传感器112可以向计算机110提供数据。

车辆传感器112可以包括诸如已知的用于向计算机110提供数据的多种装置。例如，车辆传感器112可以包括设置在车辆101的顶部上、在车辆101的前挡风玻璃后面、在车辆101周围等的光探测和测距(激光雷达)传感器112等，所述传感器提供车辆101周围的对象的相对位置、大小和形状和/或周围的情况。作为另一示例，固定到车辆101保险杠的一个或多个雷达传感器112可提供数据以提供对象(可能包括第二车辆)等相对于车辆101的位置的速度并进行测距。车辆传感器112还可以包括相机传感器112(例如前视、侧视、后视等)，所述相机传感器提供来自车辆101的内部和/或外部的视野的图像。

车辆101致动器120经由如已知那样可根据适当控制信号致动各种车辆子系统的电路、芯片、马达或者其他电子和/或机械部件来实施。致动器120可以用于控制部件126，包括车辆101的制动、加速和转向。

在本公开的上下文中，车辆部件126是适于执行机械或机电功能或操作(诸如使车辆101移动、使车辆101减速或停止、使车辆101转向等)的一个或多个硬件部件。部件126的非限制性示例包括推进部件(其包括例如内燃发动机和/或电动马达等)、变速器部件、转向部件(例如，其可以包括方向盘、转向齿条等中的一者或多者)、制动部件(如以下所描述)、泊车辅助部件、自适应巡航控制部件、自适应转向部件、可移动座椅等。

此外，计算机110可以被配置用于经由车辆对车辆通信模块或接口130与车辆105外部的装置通信，例如，通过车辆对车辆(V2V)或车辆对基础设施(V2X)无线通信与另一车辆、远程服务器145(通常经由网络140)通信。通信模块130可包括计算机110可借以通信的一个或多个机制，包括无线(例如，蜂窝、无线、卫星、微波和射频)通信机制的任何期望组合以及任何期望网络拓扑(或者当利用多个通信机制时的多个拓扑)。经由通信模块130提供的示例性通信包括提供数据通信服务的蜂窝、

IEEE 802.11、专用短程通信(DSRC)和/或包括互联网的广域网(WAN)。

网络140可以是各种有线或无线通信机制中的一种或多种，包括有线(例如，电缆和光纤)和/或无线(例如，蜂窝、无线、卫星、微波和射频)通信机制的任何期望组合以及任何期望的网络拓扑(或当使用多个通信机制时的多个拓扑)。示例性通信网络包括提供数据通信服务的无线通信网络(例如，使用蓝牙、低功耗蓝牙(BLE)、IEEE802.11、车辆对车辆(V2V)(诸如专用短程通信(DSRC))等)、局域网(LAN)和/或广域网(WAN)，包括互联网。

计算机110可基本上连续地、周期性地和/或当由服务器145指示时等从传感器112接收并分析数据。此外，对象分类或识别技术可用于在例如计算机110中基于激光雷达传感器、相机传感器等的数据，来识别对象的类型(例如，车辆、人、岩石、坑洞、自行车、摩托车等)以及对象的物理特征。

图1还示出了根据本公开的实施例的可以包括在车辆101中的一些示例性部件。示例性部件可以包括传感器系统112、车辆控制部件126、车辆计算机110、信息娱乐系统160、高级驾驶员辅助系统(ADAS)161和ADAS增强系统162。各种部件经由诸如示例性总线163的一根或多根总线彼此通信地耦接。可以使用各种有线和/或无线技术来实施总线163。例如，总线163可以是车辆总线，所述车辆总线使用控制器局域网(CAN)总线协议、面向媒体的系统传输(MOST)总线协议和/或CAN灵活数据(CAN-FD)总线协议。总线163的一些或所有部分也可以使用无线技术来实施，诸如

超宽带、Wi-Fi、/>

或近场通信(NFC)。信息娱乐系统140可以包括具有用于执行各种操作的GUI的显示系统164。例如，驾驶员可以使用GUI来输入ADAS 161执行操作的响应性级别。

传感器系统112可以包括各种类型的传感器，诸如例如重量传感器、后置相机、雷达检测器、前置相机等。车辆控制部件126可以包括与车辆101的驾驶功能(诸如例如发动机、制动器、加速器和燃料喷射)和车辆101的各种其他功能(诸如例如，尾架和支柱，其特性可以被控制以改变车辆101的性能)相关联的各种部件和系统。各种部件可以由车辆计算机110、ADAS 161和ADAS增强系统162控制、激活和/或操作。

在一种实现方式中，ADAS增强系统162可以是独立装置(例如，封闭在外壳中)。在另一种实现方式中，ADAS增强系统162的一些或所有部件可以与ADAS 161和/或车辆计算机110一起容纳、合并或共享功能性。例如，将ADAS增强系统162的功能性与ADAS 161的功能性相结合的集成单元可以由单个处理器和单个存储器装置操作。在所示的示例性配置中，ADAS增强系统162包括处理器167、输入/输出接口165和存储器166。

输入/输出接口165可被配置为在ADAS增强系统162与其他部件(诸如传感器系统112(例如，用于从重量传感器接收重量信息)、车辆控制部件126(用于超驰由ADAS 161发出的命令并提供诸如例如更大的制动距离的增强操作)、信息娱乐系统160和ADAS 161)之间提供通信。

作为非暂时性计算机可读介质的一个示例的存储器166可以用于存储操作系统(OS)168、数据库169和各种代码模块，诸如ADAS增强系统模块170。代码模块以可由处理器167执行以执行根据本公开的各种操作的计算机可执行指令的形式提供。

ADAS增强系统模块170可以由处理器167执行以执行根据本公开的各种操作。上文描述了一些示例性操作。

数据库169可以用于存储可以由处理器164在执行ADAS增强系统模块170时访问和使用的信息，诸如例如与车辆101相关的重量信息、制动距离信息、响应性信息和路面信息。

图2是示例性服务器145的框图。服务器145包括计算机210和通信模块220。计算机210包括处理器230和存储器240。服务器145还包括收发器250以实现网络通信。存储器240包括一种或多种形式的计算机可读介质，并且存储可由计算机210执行以用于执行各种操作(包括如本文所公开的)的指令。通信模块220允许计算机210与其他装置(诸如车辆101)通信。存储器240还被示出为包括数据库270和操作系统(OS)280。

参考图3，过程流程图示出了本公开的实施例。具体地，图3示出了一种用于在不需要地面实况信息的情况下使用图像/数据操纵来检测深度神经网络推理质量的系统和方法。此类方法可用于预测置信度测量值并自动训练深度神经网络(DNN)过程和车辆空中下载(“OTA”)更新。如本领域普通技术人员在受益于本公开的情况下将理解的，检测图像推理质量通常需要地面实况信息，并且对象检测推理质量对于车内操作至关重要。因此，基于深度学习的技术适用于代客泊车、挂车倒车辅助和自主驾驶。然而，检测对象检测的推理质量需要地面实况数据，并且网络训练过程通常是非常迭代的和手动的。因此，对自主和半自主车辆的商业增强的部署需要可靠的推理质量确定。

不幸的是，用DNN有效且准确地检测对象需要处理具有准确地面实况注释的大量数据和数百万个图像。此类标记的地面实况数据和推理通常使用地面实况信息在测试数据上完成，以确定网络性能的质量。通常，地面实况信息需要对数百万张图像进行手动注释。如果网络在推理质量确定期间在一些数据上表现不佳，则收集更多数据，并使用所有训练数据再次迭代训练过程。深度神经网络(DNN)的一种用途是感知图像和识别对象。DNN推理引擎的这些感知特征在某些情况下可能会失效，诸如在自主操作的车辆中。如本领域技术人员将理解的，在云网络中难以收集失效的数据并且难以重新训练DNN模型。当发生故障时，有必要使用OTA更新将DNN模型“重新快刷”或重新启动回车辆以提高性能。然而，使用云网络难以获得、注释和训练车内数据。

参考图3，过程流程图示出了在不需要地面实况信息的情况下使用在网络外部本地操纵的图像和数据来检测深度神经网络(DNN)推理质量以预测推理的置信度。重要的是，过程300示出了使迭代DNN训练过程和车辆OTA(空中下载)模型更新自动化，以通过最小化图像标记和验证的手动工作量来减少迭代训练过程中消耗的时间和工作量。在过程300完成时，如果确定例如来自车辆101的较差的推理质量数据，则可以将此类数据传输到云网络140，进行标记以进行重新训练以使得能够经由OTA传输将改进的模型重新快刷到车辆101。

如图所示，过程300是没有手动输入的迭代训练过程。框310提供接收未注释的新数据图像。框312提供在第一推理神经网络模型“A”处接收来自图像“帧F”的帧，所述模型在一个实施例中是正常大小的神经网络推理训练模型。框314提供确定正常推理值A’，其可以包括针对帧“F”的x和y坐标确定和/或针对图像帧“F”的区域确定中的一者或多者。例如，正常推理模型A可以产生具有带四个坐标(x,y)的边界框的推理A’。框335使用来自推理DNN和来自框324的推理模型值“A”检查a)是否存在由边界框坐标形成的四个聚类；以及b)边界框区域是否给出良好的重叠，如下面进一步详细解释的。

框320提供将“n”个图像滤波器应用于图像帧“F”。在一个或多个实施例中，“n”个图像滤波器包括将至少三个滤波器(包括缩放滤波器、亮度增量滤波器、锐度增量滤波器和超分辨率滤波器)应用于图像帧“F”。例如，缩放、图像增亮和图像锐化以及超分辨率滤波器可以应用于帧F以产生帧F’、F”、F”’和F””。

框322提供将非常深度的神经网络推理模型“B”应用于帧“F”的“n”个滤波版本。例如，将非常深度的神经网络应用于经滤波的帧，产生具有边界框坐标的推理B、B’、B”、B”’和B””。参考图4，示出了两种类型的推理神经网络。模型“A”410示出了正常推理神经网络，并且模型“B”420示出了非常深度的推理神经网络。在框324中，将聚类过程应用于由322处的非常深度的神经网络产生的所得边界框坐标(x,y)和边界框区域。在一个或多个实施例中，模型A 410和B420二者可以共享相同或类似的架构，然而模型B 420可以具有非常重或深度的主干架构。

返回参考图3，图像数据的“n”个滤波版本被提供到判定框326。在一个或多个实施例中，判定框326在对经滤波的图像帧数据执行的一个或多个聚类操作的结果之间执行逻辑运算。因此，在框326中，在324的聚类操作之后比较图像数据B、B’、B”、B”’和B””’的x、y坐标。具体地，框326询问a)是否存在由边界框坐标形成的四个聚类；和b)边界框区域是否具有良好的重叠。

在一个或多个实施例中，聚类操作可以包括K均值聚类、DBSCAN聚类和/或高斯均值M聚类，以确定x、y坐标是否接近地聚类。例如，如果左上(TL)、右上(TR)、左下(BL)和右下(BR)坐标属于四个聚类(TLC、TRC、BLC、BRC)，则图像可以被认为是收敛的并且推理是正确的。

参考图5，示出了聚类操作。如图所示，图像数据500的坐标的聚类包括左上聚类502、左下聚类504、右上聚类506和右下聚类508。如果拐角坐标形成聚类，则图6示出了具有与推理输出类似或收敛的边界框的聚类情况600，从而导致被评为“良好”的推理。如果拐角坐标不形成聚类，则情况610示出了与推理输出的发散，导致被评为与推理输出不同的推理，从而导致图像需要手动注释。

参考图7，示出了另一种聚类操作。如图所示，使用聚类操作对边界框区域进行聚类，诸如在不同区域中应用K均值聚类、基于密度的空间聚类(DBSCAN)、高斯混合建模类型聚类中的一者或多者，可以检查所述聚类操作以确定区域是否属于同一聚类，如图示700中所示。如果边界框的区域重叠，如区域700所示，则满足聚类条件。如果不存在重叠的边界框区域，或者重叠是不显著的，则不满足聚类条件。

返回参考图3，在一个实施例中，将来自经滤波的图像数据的边界框坐标与边界框区域数据进行比较。在一个或多个实施例中，聚类的边界数据之间的逻辑与运算导致在判定框326处确定图像数据收敛或发散。因此，来自经滤波的图像数据的图像数据被增强以扰动图像数据。受益于本公开的本领域技术人员将理解，逻辑运算可以是类似于可以将收敛与发散聚类分开的“与”运算的任何类型的逻辑运算。

如果判定框326提供假结果，则过程300继续到框328以指示图像需要手动训练和注释。换句话说，当边界框坐标和边界框区域聚类过程导致收敛时，比较聚类的输出。如果坐标或/和区域属于多个聚类，则过程300得出推理质量较差的结论，并且需要手动注释图像帧并将其馈送到训练集。在空中下载(OTA)更新的情况下，可以将来自车辆101的图像发送到网络140(诸如云网络)以进行注释和模型训练，因此可以将经训练的模型再次重新快刷到车辆101。

如果框326中的a)和b)的答案都为“真”，则过程继续到判定框335，与来自组合图像数据和经滤波的图像数据的边界框区域数据相比，所述判定框335提供对聚类的边界框坐标应用逻辑运算，以确定所述数据是否收敛。这是通过将聚类过程应用于来自正常神经网络推理模型的输出和来自深度神经网络推理模型的输出(如应用于经滤波和未经滤波的图像数据)而完成的。更具体地，将在正常神经网络推理模型A推理A’之间执行的聚类操作与对来自深度神经网络模型B的经滤波的图像数据执行的聚类操作的结果进行比较。因此，框335使用来自推理DNN且来自框324的推理假“A”询问a)是否存在由边界框坐标形成的四个聚类和b)边界框区域是否具有良好的重叠。如果推理A坐标和边界框区域落在来自经滤波模型B推理经滤波图像数据的同一聚类中，则在框340处来自正常推理模型A的推理质量为“良好”，并且不需要将该数据添加到训练集或发送以进行OTA更新(其将为“假”并需要框328进行手动训练和注释)。

例如，如果边界框坐标与边界区域之间的逻辑与运算提供为真的结果，则框340提供图像推理是良好的推理。如果逻辑运算导致发散或假结果，则存在发散，并且过程返回到框328以进行手动训练和注释。如图所示，图像滤波增强了图像帧数据，所述图像帧数据用于扰动神经网络的给定图像。当正常神经网络模型A和深度神经网络模型B两者给出不同的结果时，过程300将图像帧识别为失败并指示神经网络模型A失败，这给出了使用聚类和区域比较的推理质量的度量。

现在参考图8，流程图示出了根据一个或多个实施例的用于深度神经网络(DNN)的推理质量确定的方法800。框810提供从源接收图像帧。例如，参考图1，车辆101包括能够收集图像和帧的传感器112，并且在自主驾驶或驾驶员辅助驾驶等期间可以是图像帧的源。

框820提供将正常推理DNN模型应用于图像帧以产生具有第一边界框的第一推理。例如，如图4所示，正常神经网络推理模型“A”410产生第一推理(如图3中框312处所示)并且产生推理(在框314处)。

框830提供将深度推理DNN模型应用于图像帧的多个滤波版本以产生具有多个边界框的多个深度推理。例如，如框320中所示，应用于图像帧的多个滤波器生成图像帧的多个滤波版本。深度神经网络(诸如图4所示的网络420)可以是非常深度的网络模型。在一个或多个实施例中，图像帧的滤波版本包括缩放滤波器、亮度增量滤波器、锐度滤波器和超分辨率滤波器或更多，以生成图像帧的扰动，然后将所述扰动应用于深度推理DNN模型420。

框840提供比较多个边界框以识别多个边界框的聚类条件。例如，多个边界框可以包括与在应用图像滤波之后生成的图像帧推理相关联的x坐标和y坐标以及边界框区域。聚类条件包括将聚类过程应用于由深度推理DNN模型生成的经滤波的推理。

在框840内是框8402，其提供比较多个边界框包括使用聚类过程来比较x和y坐标以及边界框区域。例如，在一个或多个实施例中，将边界框提供给聚类过程以识别边界框拐角坐标和/或边界框区域。在一个或多个实施例中，所述比较可以包括应用K均值聚类、基于密度的空间聚类(DBSCAN)、高斯混合建模类型聚类并比较聚类的结果。

框850提供根据聚类条件确定正常推理DNN模型的图像帧的推理质量。例如，可以比较来自聚类过程的聚类结果以确定来自应用深度推理DNN模型的推理结果和来自正常DNN模型的推理结果是在相同还是不同的聚类中。

因此，所述方法确定在训练期间将哪些图像添加到训练集或不添加到训练集，并且可以将其应用于迭代DNN训练过程，以通过使用新遇到的数据的子集来减少为迭代训练准备数据所需的时间和工作量。因此，商业部署的基于DNN的解决方案通过在网络(诸如云网络)上连续地训练推理神经网络模型以及通过向车辆101提供定期的空中下载(OTA)更新而受益。因此，可能不需要地面实况信息，因此可以预测在不使用地面实况的情况下检测到的推理质量和推理置信度。此外，来自车辆101的较差推理质量数据可以被自动收集到云，被标记以用于重新训练模型，并且经由OTA自动地用改进的模型刷新到车辆101。

在以上公开中，已经参考了形成以上公开的一部分的附图，附图示出了其中可以实践本公开的具体实现方式。应理解，在不脱离本公开的范围的情况下，可以利用其他实现方式，并且可以进行结构改变。说明书中对“一个实施例”、“实施例”、“示例实施例”、“示例性实施例”、“示例性实现方式”等的引用指示所描述的实施例或实现方式可以包括特定的特征、结构或特性，但是每个实施例或实现方式不必包括特定的特征、结构或特性。此外，此类短语不一定指相同的实施例或实现方式。此外，当结合实施例或实现方式描述特定特征、结构或特性时，无论是否明确描述，本领域技术人员都将结合其他实施例或实现方式来认识到此类特征、结构或特性。例如，上文关于自主停车操纵所描述的各种特征、方面和动作适用于各种其他自主操纵，并且必须相应地进行解释。

本文所公开的系统、设备、装置和方法的实现方式可以包括或利用包括硬件(诸如，例如本文所讨论的一个或多个处理器和系统存储器)的一个或多个装置。本文公开的装置、系统和方法的实现方式可通过计算机网络进行通信。“网络”被定义为使得能够在计算机系统和/或模块和/或其他电子装置之间传输电子数据的一个或多个数据链路。当通过网络或另一种通信连接(硬连线、无线或者硬连线或无线的任何组合)向计算机传送或提供信息时，计算机适当地将所述连接视为传输介质。传输介质可包括网络和/或数据链路，所述网络和/或数据链路可用于以计算机可执行指令或数据结构的形式携带期望的程序代码手段并且可由通用或专用计算机访问。以上项的组合也应被包括在非暂时性计算机可读介质的范围内。

计算机可执行指令包括例如在处理器处执行时致使处理器执行特定功能或功能组的指令和数据。计算机可执行指令可为例如二进制代码、中间格式指令(诸如汇编语言)或甚至源代码。尽管已经用特定于结构特征和/或方法动作的语言描述了本主题，但是应理解，在所附权利要求中限定的主题不必限于上面描述的所述特征或动作。而是，所描述的特征和动作被公开作为实施权利要求的示例形式。

存储器装置可包括任何一个存储器元件或易失性存储器元件(例如，随机存取存储器(RAM，诸如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如，ROM、硬盘驱动器、磁带、CDROM等)的组合。此外，存储器装置可并入有电子、磁性、光学和/或其他类型的存储介质。在本文件的背景下，“非暂时性计算机可读介质”可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置。计算机可读介质的更具体的示例(非详尽列表)将包括以下项：便携式计算机软磁盘(磁性)、随机存取存储器(RAM)(电子)、只读存储器(ROM)(电子)、可擦除可编程只读存储器(EPROM、EEPROM或快闪存储器)(电子)以及便携式压缩盘只读存储器(CD ROM)(光学)。应注意，计算机可读介质甚至可以是上面打印有程序的纸张或另一种合适的介质，因为可例如经由对纸张或其他介质的光学扫描来电子地捕获程序，随后进行编译、解译或另外在需要时以合适的方式进行处理，并且随后存储在计算机存储器中。

本领域技术人员将了解，本公开可在具有许多类型的计算机系统配置的网络计算环境中实践，所述计算机系统配置包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、漫游装置、多处理器系统、基于微处理器的或可编程的消费型电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板电脑、寻呼机、路由器、交换机、各种存储装置等。本公开还可在分布式系统环境中实践，其中通过网络链接(通过硬连线数据链路、无线数据链路或者通过硬连线数据链路与无线数据链路的任何组合)的本地和远程计算机系统两者都执行任务。在分布式系统环境中，程序模块可位于本地和远程存储器存储装置两者中。

另外，在适当的情况下，本文中描述的功能可在以下一者或多者中执行：硬件、软件、固件、数字部件或模拟部件。例如，一个或多个专用集成电路(ASIC)可以被编程为执行本文所描述的系统和程序中的一者或多者。贯穿说明书以及权利要求使用某些术语指代特定系统部件。如本领域技术人员将理解，部件可通过不同的名称来指代。本文件不意图区分名称不同但功能相同的部件。

本公开的至少一些实施例已经涉及计算机程序产品，其包括存储在任何计算机可用介质上的这种逻辑(例如，以软件的形式)。这种软件当在一个或多个数据处理装置中被执行时致使装置如本文所描述那样进行操作。

虽然上文已描述了本公开的各种实施例，但应当理解，仅通过示例而非限制的方式呈现本公开的各种实施例。相关领域的技术人员将明白，在不脱离本公开的精神和范围的情况下可进行形式和细节上的各种改变。因此，本公开的广度和范围不应受到上述示例性实施例中的任何一个限制，而是应仅根据所附权利要求和其等效物限定。已经出于说明和描述目的而呈现了前述描述。前述描述并不意图是详尽的或将本公开限制于所公开的精确形式。鉴于以上教导，许多修改和变化形式是可能的。此外，应注意，前述可选实现方式中的任一者或全部可按任何所期望的组合使用，以形成本公开的附加混合实现方式。例如，相对于特定装置或部件描述的功能中的任一者可以由另一个装置或部件执行。此外，尽管已经描述了特定装置特性，但本公开的实施例可能涉及许多其他装置特性。另外，尽管已用特定于结构特征和/或方法动作的语言描述了实施例，但是应理解，本公开不一定受限于所描述的特定特征或动作。而是，将具体特征和动作公开为实现所述实施例的说明性形式。除非另有特别说明或在使用时在上下文内以其他方式理解，否则诸如尤其是“能够”、“可能”、“可以”或“可”等条件语言通常意图表达某些实施例可能包括某些特征、元件和/或步骤，而其他实施例可不包括某些特征、元件和/或步骤。因此，此种条件语言通常不意图暗示特征、元件和/或步骤对于一个或多个实施例而言无论如何都是所需的。

根据一个实施例，所述处理器还执行所述指令以：确定所述聚类条件是发散，使得多聚类条件指示较差的推理质量；并且需要对所述图像帧进行手动训练和注释。

根据一个实施例，所述处理器还执行所述指令以：传输来自车辆的所述图像帧以实现所述DNN模型的空中下载更新。

根据本发明，提供了一种用于在不具有地面实况信息的情况下检测深度神经网络推理质量的系统，其具有：存储计算机可执行指令的存储器；和处理器，所述处理器被配置为访问存储器并执行计算机可执行指令以：接收图像帧；将正常推理DNN模型应用于所述图像帧以产生具有第一边界框的第一推理；将非常深度的推理DNN模型应用于所述图像帧的多个滤波版本以产生具有多个边界框的多个深度推理；将所述多个边界框进行比较以识别所述多个边界框的聚类条件；以及识别具有第一边界框的多个边界框之间的第二聚类条件以确定所述正常推理DNN模型的所述图像帧的推理质量。

根据一个实施例，如果正常推理DNN模型的图像帧的推理质量为较差质量，则通过网络传输图像帧以实现对正常推理DNN模型的重新训练。

根据一个实施例，独立于地面实况信息执行对图像帧的推理质量的确定。

Claims

1.一种用于深度神经网络(DNN)的推理质量确定的方法，其包括：

从源接收图像帧；

将正常推理DNN模型应用于所述图像帧以使用正常推理DNN模型产生具有第一边界框的第一推理；

将深度推理DNN模型应用于所述图像帧的多个滤波版本以产生具有多个边界框的多个深度推理；

将所述多个边界框进行比较以识别所述多个边界框的聚类条件；以及

根据所述聚类条件确定所述正常推理DNN模型的所述图像帧的推理质量。

2.如权利要求1所述的方法，其中所述将所述深度推理DNN模型应用于所述图像帧的所述多个滤波版本以产生具有所述多个边界框的所述多个深度推理包括：

将至少三个滤波器应用于所述图像帧以产生作为所述多个边界框的至少三个附加边界框，所述三个滤波器包括缩放、图像增亮、图像锐化和超分辨率滤波器中的三者或更多者。

3.如权利要求1所述的方法，其中所述应用所述深度推理DNN模型包括应用具有深度主干架构的深度推理DNN模型。

4.如权利要求1所述的方法，其中所述将所述深度推理DNN模型应用于所述图像帧的所述多个滤波版本以产生具有所述多个边界框的所述多个深度推理包括：

应用所述深度推理DNN模型产生具有所述多个边界框的所述多个深度推理，所述多个边界框包括识别所述多个边界框的拐角的多个x和y坐标以及多个边界框区域。

5.如权利要求1所述的方法，其中所述比较所述多个边界框以识别所述聚类条件包括：

应用K均值聚类、基于密度的空间聚类(DBSCAN)、高斯混合建模类型聚类中的一者或多者以确定所述聚类条件。

6.如权利要求1所述的方法，其中所述根据所述聚类条件确定所述正常推理DNN模型的所述图像帧的所述推理质量包括：

确定所述聚类条件是收敛，使得单聚类条件指示正向推理质量。

7.如权利要求1所述的方法，其中所述根据所述聚类条件确定所述正常推理DNN模型的所述图像帧的所述推理质量包括：

确定所述聚类条件是发散，使得多聚类条件指示较差的推理质量。

8.如权利要求7所述的方法，其还包括：

当所述聚类条件指示所述较差的推理质量时，手动注释所述图像帧。

9.如权利要求8所述的方法，其还包括：

从车辆传输所述图像帧以实现所述DNN模型的空中下载更新。

10.如权利要求1所述的方法，其还包括：

迭代地重复所述使用来自所述源的第二图像帧确定所述推理DNN模型的所述图像帧的所述推理质量。

11.一种驾驶员辅助车辆，其包括：

处理器；

耦接到所述处理器的存储器，所述存储器存储指令，其中所述处理器执行所述指令以：

经由一个或多个传感器从源接收图像帧；

12.如权利要求11所述的驾驶员辅助车辆，其中所述处理器还执行所述指令以：

通过将至少四个滤波器应用于所述图像帧以产生作为所述多个边界框的至少四个附加边界框，将所述深度推理DNN模型应用于所述图像帧的所述多个滤波版本以产生具有所述多个边界框的所述多个深度推理，所述四个滤波器至少包括缩放、图像增亮、图像锐化和超分辨率滤波器。

13.如权利要求11所述的驾驶员辅助车辆，其中所述处理器还执行所述指令以：

应用作为深度主干架构的所述深度推理DNN模型以产生具有所述多个边界框的所述多个深度推理，所述多个边界框包括识别所述多个边界框的拐角的多个x和y坐标以及多个边界框区域。

14.如权利要求11所述的驾驶员辅助车辆，其中所述处理器还执行所述指令以：

15.如权利要求11所述的驾驶员辅助车辆，其中所述处理器还执行所述指令以：