CN115210774A

CN115210774A - 物体检测的热图可视化

Info

Publication number: CN115210774A
Application number: CN202180018583.9A
Authority: CN
Inventors: A·贾; S·穆罕默德
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2020-08-14
Filing date: 2021-08-11
Publication date: 2022-10-18
Also published as: WO2022034522A1; US20220051020A1; US11551445B2

Abstract

提供了用于物体检测的热图可视化的电子装置和方法。电子装置将包括感兴趣物体的图像帧输入到深度神经网络(DNN)模型，并提取与感兴趣物体相关联的物体检测结果作为DNN模型针对输入的图像帧的输出。物体检测结果包括用于感兴趣物体的界定框坐标。电子装置基于界定框坐标将输入的图像帧分割成多个图像部分，并且为多个图像部分中的每个图像部分确定指示对应图像部分属于感兴趣物体的可能性的权重值。电子装置基于确定的权重值生成可视化框架，该可视化框架包括被包括在图像帧中并由界定框坐标界定的区域的热图可视化。

Description

物体检测的热图可视化

相关申请的交叉引用/通过引用并入

无。

技术领域

本公开的各种实施例涉及计算机视觉、物体检测和可解释的人工智能(XAI)。更具体而言，本公开的各种实施例涉及用于从图像中的物体检测的热图可视化的电子装置和方法。

背景技术

计算机视觉和可解释的人工智能的进步导致了各种可视化技术的发展，这些技术以人类专家可以理解这种渲染结果的方式渲染深度学习模型的结果。传统上，作为物体分类器的深度学习模型产生仅为输入图像中的物体选择类别标签的分类结果。在一些情况下，依赖于此类分类结果的技术可能对旨在包括被分类的物体的聚焦区域产生不准确的可视化。

通过将所描述的系统与本公开的一些方面进行比较，常规和传统方法的进一步限制和缺点对于本领域技术人员将变得清楚，如本申请的其余部分和参考附图阐述的。

发明内容

如在权利要求中更完整阐述的，基本如至少一个图所示和/或结合至少一个图所描述的，提供了用于图像中的物体检测的热图可视化的电子装置和方法。

可以通过阅读以下对本公开的详细描述以及附图来理解本公开的这些和其它特征以及优点，在附图中，相同的参考标记始终表示相同的部分。

附图说明

图1是图示根据本公开的实施例的用于物体检测的热图可视化的示例性网络环境的框图。

图2是图示根据本公开的实施例的用于物体检测的热图可视化的示例性电子装置的框图。

图3A和3B是共同图示根据本公开的实施例的用于物体检测的热图可视化的示例性操作的图。

图3C是图示根据本公开的实施例的用于视频的热图度量计算的示例性操作的图。

图4是图示根据本公开的实施例的使用图2的电子装置的端到端解释人工智能(XAI)解决方案的示例性操作的框图。

图5是图示根据本公开的实施例的用于物体检测的热图可视化的电子装置的示例性用户界面的图。

图6是图示根据本公开的实施例的用于生成第一被扰动图像的示例性场景的图。

图7是图示根据本公开的实施例的动态窗口分割功能与具有不同窗口尺寸的物体的热图之间的示例性关系的图。

图8是图示根据本公开的实施例的用于从多个物体检测中选择单个物体以及用于基于这种选择的热图可视化的示例性操作的图。

图9是图示根据本公开的实施例的用于图像帧中的两个部分重叠的物体的热图可视化的示例性场景的图。

图10是图示根据本公开的实施例的用于对位于图像帧中的另一个物体的区域内的物体进行热图可视化的示例性场景的图。

图11是图示根据本公开的实施例的用于在视频馈送的一系列帧中检测到的(一个或多个)物体的热图可视化的示例性操作的图。

图12是图示根据本公开的实施例的用于控制无人驾驶飞行器以对农场进行自主监视的示例性场景的图。

图13A和13B是共同图示根据本公开的实施例的用于物体检测的热图可视化的示例性操作的图。

图14是图示根据本公开的实施例的用于物体检测的热图可视化的示例性方法的流程图。

具体实施方式

以下描述的实施方式可以在所公开的用于物体检测的热图可视化的电子装置和方法中找到。本公开的示例性方面提供了一种实现深度神经网络(DNN)模型的电子装置，用于在单个静态图像(以及视频馈送中)以及在各种时变和静态条件下检测单个或多个物体。此类条件可以包括例如一个物体部分或完全重叠或遮挡另一个物体，一个或多个图像中缺少物体，两个分离的物体在相继的帧中集中在一起，较小的物体包括在较大的物体中，等等。

作为可解释的人工智能(XAI)工作流程的一部分，电子装置还实现可视化工具，其输出单个静态图像或视频馈送中的单个或多个物体检测的热图可视化。热图可视化可以用颜色强度来指示图像的每个片段，颜色强度取决于相应片段在DNN模型的物体检测结果中的权重或贡献。这种可视化可以帮助开发人员或最终用户查看DNN模型的结果，并且可以帮助他们从图像中得出有意义的见解。而且，最终用户或开发人员可以能够使用合适的视觉度量来评估热图可视化的准确性并提高DNN模型的检测性能。

在常规方法中，热图可视化是粗略和概括的，并且它们可能无法处置多个物体。而且，要求知识专家理解热图。专家对热图进行可视化分析，并将推论作为反馈提供给应用。这会造成时间滞后。

所公开的电子装置从感测/成像设备接收输入数据，并产生热图可视化和度量数据以输出针对(一个或多个)感兴趣物体的推理结果。对于每个用户选择((一个或多个)感兴趣物体)，可以为(一个或多个)检测到的物体(单个/多个)生成热图。本公开提供了更精细且针对每个界定框生成的热图可视化，使其适用于多物体检测。可以不要求知识专家理解热图可视化。所公开的电子装置可以被配置为从热图可视化中生成合适的推理结果，并且可以生成描述推理结果的解释。

热图可视化可以被用于在应用的审计期间进行可视化分析以更多地理解输入数据。可以集成热图可视化和视觉度量，以便为应用提供更好的解决方案。而且，使用热图可视化和度量，可以调整输入(诸如输入图像帧或获取此类图像的成像设备)，然后可以在不重新训练DNN模型的情况下重新生成热图可视化。

所公开的电子装置实现了一种方法，该方法可以适用于任何物体检测DNN模型并且可以生成与常规方法相比可以更加精确和精细的热图可视化。本公开的方法可以提供度量来量化DNN模型的聚焦区块的效果。虽然一些常规方法可以仅应用于物体检测，但是本公开的方法可以生成除物体的分类之外的物体检测的热图可视化。热图可视化可以是界定框内的聚焦区块的。本公开的方法还可以应用于视频以基于跟踪与视频中的(一个或多个)物体相关联的改变的连续性和运动来生成视频中的(一个或多个)物体的热图可视化。

图1是图示根据本公开的实施例的用于物体检测的热图可视化的示例性网络环境的框图。参考图1，示出了网络环境100。网络环境100可以包括电子装置102、显示设备104、在电子装置102上实现的深度神经网络(DNN)模型106。电子装置102可以经由通信网络108耦合到显示设备104。还示出了可以与电子装置102和/或显示设备104相关联的用户110。在图1中，电子装置102和显示设备104被示为两个分离的设备；但是，在一些实施例中，显示设备104的全部功能性可以结合在电子装置102中，而不偏离本公开的范围。

电子装置102可以包括合适的逻辑、电路系统、代码和/或接口，这些逻辑、电路系统、代码和/或接口可以被配置为使用DNN模型106检测(一个或多个)输入图像帧中的(一个或多个)物体，并基于DNN模型106的(一个或多个)物体检测结果生成包括(一个或多个)检测到的物体的热图可视化的可视化框架。电子装置102的示例可以包括但不限于图像/视频编辑机、服务器、膝上型计算机、计算机工作站、大型机、游戏设备、虚拟现实(VR)/增强现实(AR)/混合现实(MR)设备、智能电话、移动电话和/或任何消费电子(CE)设备。

显示设备104可以包括合适的逻辑、电路系统和/或接口，这些逻辑、电路系统和/或接口可以被配置为显示可视化框架，该可视化框架包括(一个或多个)检测到的物体的热图可视化。在一个实施例中，显示设备104可以是可以使用户110能够经由显示设备104提供用户输入的启用触摸的设备。显示设备104可以包括可以通过若干已知技术实现的显示单元，诸如但不限于液晶显示器(LCD)显示器、发光二极管(LED)显示器、等离子体显示器或有机LED(OLED)显示技术或其它显示设备中的至少一种。根据实施例，显示设备104的显示单元可以指头戴式设备(HMD)的显示屏、智能眼镜设备、透视显示器、基于投影的显示器、电子-彩色显示器或透明显示器。

DNN模型106可以是物体检测器模型，其可以针对物体检测任务进行训练以检测视频馈送的一系列图像帧中或单个图像帧中的物体。DNN模型106可以由其超参数定义，例如(一个或多个)激活函数、权重的数量、成本函数、正则化函数、输入尺寸、层数等。DNN模型106可以被称为人工神经元(也称为节点)的系统或计算网络。DNN模型106的节点可以布置在多个层中，如在DNN模型106的神经网络拓扑中所定义的。DNN模型106的多个层可以包括输入层、一个或多个隐藏层以及输出层。多个层中的每一层可以包括一个或多个节点(或人工神经元，例如由圆圈表示)。输入层中所有节点的输出可以耦合到(一个或多个)隐藏层的至少一个节点。类似地，每个隐藏层的输入可以耦合到DNN模型106的其它层中的至少一个节点的输出。每个隐藏层的输出可以耦合到DNN模型106的其它层中的至少一个节点的输入。最后一层中的(一个或多个)节点可以从至少一个隐藏层接收输入以输出结果。层数和每层中的节点数可以根据DNN模型106的超参数确定。此类超参数可以在训练数据集上训练DNN模型106之前或同时设置。

DNN模型106的每个节点可以与在网络的训练期间可调谐的具有参数的集合的数学函数(例如，sigmoid函数或整流线性单元)对应。参数的集合可以包括例如权重参数、正则化参数等。每个节点可以使用数学函数来基于来自DNN模型106的(一个或多个)其它层(例如，(一个或多个)前面的层)中的节点的一个或多个输入计算输出。DNN模型106的所有或一些节点可以与相同或不同的相同数学函数对应。

在DNN模型106的训练中，DNN模型106的每个节点的一个或多个参数可以基于给定输入(来自训练数据集)的最后一层的输出是否与基于针对DNN模型106的损失函数的正确结果匹配。可以对相同或不同的输入重复上述过程，直到达到损失函数的最小值，并且训练误差最小化。本领域中已知几种用于训练的方法，例如梯度下降、随机梯度下降、批量梯度下降、梯度提升、元启发式等。

在实施例中，DNN模型106可以包括电子数据，其可以被实现为例如在电子装置102上可执行的应用的软件组件。DNN模型106可以依赖库、外部脚本或其它逻辑/指令来由诸如电子装置102之类的处理设备执行。DNN模型106可以包括计算机可执行代码或例程以使得诸如电子装置102之类的计算设备能够执行一个或多个操作以检测输入图像帧中的物体。附加地或可替代地，DNN模型106可以使用包括处理器、微处理器(例如，以执行或控制一个或多个操作的执行)、现场可编程门阵列(FPGA)或专用集成电路(ASIC)的硬件来实现。例如，推理加速器芯片可以包括在电子装置102中以加速DNN模型106的计算以用于物体检测任务。在一些实施例中，可以使用硬件和软件的组合来实现DNN模型106。

DNN模型106的示例可以包括但不限于人工神经网络(ANN)、卷积神经网络(CNN)、具有CNN的区域(R-CNN)、快速R-CNN、更快R-CNN、你只看一次(YOLO)网络、残差神经网络(Res-Net)、特征金字塔网络(FPN)、视网膜网络(Retina-Net)、单次检测器(SSD)和/或它们的组合。

通信网络108可以包括通信介质，电子装置102可以通过该通信介质与显示设备104和为简洁起见从公开中省略的其它设备通信。通信网络108可以是有线连接或无线连接之一。通信网络108的示例可以包括但不限于互联网、云网络、无线保真(Wi-Fi)网络、个域网(PAN)、局域网(LAN)或城域网(MAN)。根据各种有线和无线通信协议，网络环境100中的各种设备可以被配置为连接到通信网络108。这种有线和无线通信协议的示例可以包括但不限于传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、Zig Bee、EDGE、IEEE 802.11、光保真(Li-Fi)、802.16、IEEE802.11s、IEEE 802.11g、多跳通信、无线接入点(AP)、设备到设备通信、蜂窝通信协议和蓝牙(BT)通信协议中的至少一种。

在操作中，电子装置102可以发起XAI工作流程以用于(一个或多个)图像帧中的(一个或多个)物体的检测以及用于包括在(一个或多个)这样的图像帧中检测到的(一个或多个)物体的区域的热图可视化。在实施例中，可以基于经由显示设备104接收到的用户输入来发起XAI工作流程。

随着XAI工作流程被发起，电子装置102可以接收第一图像帧(诸如图像112)。第一图像帧可以与具有固定前景或背景物体的静态场景或具有一个或多个移动物体的动态场景相关联。第一图像帧可以包括至少一个感兴趣物体。例如，图像112包括作为感兴趣物体的足球运动员114。

电子装置102可以将第一图像帧输入到可以针对物体检测任务进行训练的DNN模型106。物体检测任务可以与单类物体检测或多类物体检测相关联。例如，如果感兴趣的物体是足球运动员114，那么物体检测任务可以与足球运动员114(即，人类物体)的单类物体检测相关联。否则，如果存在多于一个感兴趣的物体(诸如足球运动员114和足球)，那么物体检测任务可以与足球运动员114和足球两者的多类物体检测相关联。在至少一个实施例中，可以训练DNN模型106以检测第一图像帧中相同物体类别或不同物体类别的多个移动或静态物体。

DNN模型106可以通过DNN模型106的输入层接收输入的第一图像帧。在一些实施例中，可以调整输入的第一图像帧的尺寸以匹配DNN模型106的输入层的尺寸。例如，如果第一图像帧是高清图像(即，1280x720像素)但输入层的尺寸是416x416，那么电子装置102可以调整第一图像帧的尺寸以匹配输入层的尺寸。通过DNN模型106的输出层，DNN模型106可以输出与在输入的第一图像帧中检测到的感兴趣物体相关联的物体检测结果。例如，如果图像112中的足球运动员114被DNN模型106检测到，那么物体检测结果可以是包括足球运动员114的物体分数的向量、预测为包括足球运动员114的界定框的界定框坐标、以及足球运动员114的类分数(或类概率)。物体分数可以指定DNN模型106在检测图像112中的足球运动员114时的置信度(根据0和1之间的概率值)。越高的物体分数可以表示DNN模型106的置信度水平越高。在一些实施例中，可以设置阈值物体分数(例如，0.95)以过滤掉检测的置信度低于阈值物体分数的物体检测结果。类分数可以包括软标签或硬标签，以表示DNN模型106可以检测的物体类。感兴趣物体可以属于这样的类之一。例如，如果DNN模型106支持三个类，诸如人类物体类、汽车物体类和猫物体类，那么对于人类物体类的类分数可以是1(或接近1的数字)，而对于汽车物体类和猫物体类中的每一个的类分数是0(或接近0)。

在一些实施例中，DNN模型106可以采用基于区域或网格的检测方法，由此DNN模型106可以将输入的第一图像帧划分为多个网格单元格，并且可以在多个网格单元格中的一个或多个网格单元格中执行针对感兴趣物体的检测的逐单元格搜索。在多个感兴趣物体在共用网格单元格中重叠的情况下，可以指定锚框以创建更长的网格单元格并且可以将多个物体与此类网格单元格相关联。在多个感兴趣物体存在于不同网格单元格中的情况下，于是DNN模型106可以为与多个感兴趣物体相关联的不同网格单元格中的每一个输出物体检测结果。电子装置102可以提取与感兴趣物体相关联的物体检测结果作为DNN模型106针对第一图像帧的输出。

对于热图可视化，电子装置102可以基于界定框坐标将第一图像帧分割成第一多个图像部分。此后，对于第一多个图像部分中的每个图像部分，电子装置102可以确定指示对应图像部分属于感兴趣物体的可能性的权重值。例如，在图3A和3B中进一步描述第一图像帧的分割和权重值的确定的细节。

电子装置可以基于为第一多个图像部分中的每个图像部分确定的权重值生成可视化框架。可视化框架可以包括区域的热图可视化，该区域包括在输入的第一图像帧中并且由界定框坐标界定，例如在图3A和3B中所描述的。可视化框架116的示例被示为包括区域118的热图，该区域118包括足球运动员114。

可以基于热图可视化的配色方案将每个权重值映射到颜色强度。例如，配色方案可以利用调色板，诸如彩虹调色板或从暖色到冷色的色标。越高的权重值可以映射到越暖的颜色(例如，红色、橙色、黄色或它们的色调和阴影)，其可以填充可视化框架的对应图像部分。类似地，越低的权重值可以映射到越冷的颜色(例如，蓝色、绿色、紫色或它们的色调和阴影)，其可以填充可视化框架的对应图像部分。

图2是图示根据本公开的实施例的用于物体检测的热图可视化的示例性电子装置的框图。图2结合图1中的元素进行解释。参考图2，示出了电子装置102的框图200。电子装置102可以包括电路系统202、存储器204、输入/输出(I/O)设备206和网络接口208。电路系统202可以通信地耦合到存储器204、I/O设备206和网络接口208。在一些实施例中，I/O设备可以包括显示设备(诸如图1的显示设备104)。

电路系统202可以包括合适的逻辑、电路系统和/或接口，这些逻辑、电路系统和/或接口可以被配置为执行与要由电子装置102执行的不同操作相关联的程序指令。电路系统202可以包括一个或多个专用处理单元，其可以被实现为集成处理器或处理器的集群，它们共同执行一个或多个专用处理单元的功能。电路系统202可以基于本领域已知的多种处理器技术来实现。电路系统202的实施方式的示例可以是基于x86的处理器、图形处理单元(GPU)、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器、微控制器、中央处理单元(CPU)和/或其它计算电路。

存储器204可以包括合适的逻辑、电路系统和/或接口，这些逻辑、电路系统和/或接口可以被配置为存储要由电路系统202执行的程序指令。在至少一个实施例中，存储器204可以被配置为存储第一图像帧、生成的可视化框架和DNN模型106。存储器204可以被配置为存储要用于热图可视化的配色方案。存储器204的示例实施方式可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、硬盘驱动器(HDD)、固态驱动器(SSD)、CPU高速缓存和/或安全数字(SD)卡。

I/O设备206可以包括合适的逻辑、电路系统、接口和/或代码，这些逻辑、电路系统、接口和/或代码可以被配置为接收输入并基于接收到的输入提供输出。I/O设备206可以包括各种输入和输出设备，它们可以被配置为与电路系统202通信。例如，电子装置102可以经由I/O设备206接收用户输入以从图像帧中的多个物体中选择感兴趣物体并发起XAI工作流程(其包括物体检测工作流程和热图可视化工作流程)。I/O设备206的示例可以包括但不限于触摸屏、键盘、鼠标、操纵杆、显示设备(例如，显示设备104)、麦克风或扬声器。

网络接口208可以包括适当的逻辑、电路系统、接口和/或代码，这些逻辑、电路系统、接口和/或代码可以被配置为促进电路系统202经由通信网络108与显示设备104和/或其它通信设备进行通信。网络接口208可以通过使用各种已知技术来实现，以支持电子装置102经由通信网络108的无线通信。网络接口208可以包括例如天线、射频(RF)收发器、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、编码器-解码器(CODEC)芯片组、订户身份模块(SIM)卡、本地缓冲电路系统等。

网络接口208可以被配置为经由无线通信与诸如互联网、内联网、无线网络、蜂窝电话网络、无线局域网(LAN)或城域网(MAN)之类的网络通信。无线通信可以被配置为使用多种通信标准、协议和技术中的一种或多种，诸如全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、宽带码分多址(W-CDMA)、长期演进(LTE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(诸如IEEE 802.11a、IEEE 802.11b、IEEE 802.11g或IEEE802.11n)、互联网协议语音(VoIP)、光保真(Li-Fi)或全球微波接入互操作性(Wi-MAX)。

如图1中所描述的，由电子装置102执行的功能或操作可以由电路系统202执行。例如，在图3A和3B、图4、图5、图6和图7中详细描述由电路系统202执行的操作。

图3A和3B是共同图示根据本公开的实施例的用于物体检测的热图可视化的示例性操作的图。图3A和3B结合图1和图2中的元素进行解释。参考图3A和3B，示出了图示如本文所述的从302到322的示例性操作的框图300。框图300中所示的示例性操作可以在302开始并且可以由任何计算系统、装置或设备执行，例如由图1或图2的电子装置102执行。虽然用离散的方框来图示，但是与框图300的一个或多个方框相关联的示例性操作可以被划分到附加的方框中、组合成更少的方框或被消除，这取决于示例性操作的实施方式。

在302处，可以获取图像数据。在实施例中，电路系统202可以从数据源获取图像数据。例如，数据源可以是板载图像传感器、电子装置102上的持久存储装置、图像捕获设备、云服务器或其组合。图像数据可以包括可以在不同时间被拍摄的图像帧。可替代地，图像数据可以包括视频馈送的一系列图像帧。图像数据可以表示具有固定前景或背景物体的静态场景或具有移动物体的动态场景。所获取的图像数据的每个图像帧可以包括至少一个感兴趣物体。从获取的图像数据，电路系统202可以接收第一图像帧302A。如图所示，例如，第一图像帧302A描绘了来自体育比赛的场景并且包括作为感兴趣物体302B的足球运动员。

在获取之后，电路系统202可以将第一图像帧302A输入到DNN模型106。在一些实施例中，电路系统202可以调整输入的第一图像帧302A的尺寸以匹配DNN模型106的输入层的尺寸，然后将调整尺寸的第一图像帧302A传递到DNN模型106的输入层。

在304处，可以从DNN模型106提取检测结果。在实施例中，电路系统202可以提取与感兴趣物体302B相关联的物体检测结果，作为用于输入的第一图像帧302A(或调整尺寸的第一图像帧302A)的DNN模型106的输出。例如，物体检测结果可以是向量，该向量可以包括感兴趣物体302B的物体分数304A、预测为包括感兴趣物体302B的界定框的界定框坐标304B、以及用于感兴趣物体302B的类分数304C(或类概率)。

例如，对于3类物体检测，向量(Y)可以是8维向量，如下所示：

其中，

O_c表示物体分数304A，其指定感兴趣物体302B是否存在于输入的第一图像帧302A(或调整尺寸的第一图像帧302A)中，

bx、by、bh、bw指定界定框坐标304B，并且

c₁、c₂、c₃表示类分数304C。

物体分数304A可以指定DNN模型106在输入的第一图像帧302A(或调整尺寸的第一图像帧302A)中检测到感兴趣物体302B的置信度。在一些情况下，物体分数304A可以是二进制值(0或1)或表示0到1之间的可能性的浮点数。越高的物体分数可以表示DNN模型106的置信度水平越高。在一些实施例中，可以设置阈值物体分数(例如，0.95)以过滤掉检测的置信度低于阈值物体分数的物体检测结果。类分数304C可以包括软标签或硬标签以表示可以由DNN模型106检测的物体类。感兴趣物体302B可以属于这样的类之一。例如，如果DNN模型106检测到类c₁中的感兴趣物体302B，那么感兴趣物体302B的类分数304C对于类c₁可以是1(或接近1的数字)并且对于类c₂和类c₃中的每一个是0(或接近0)。

在一些实施例中，DNN模型106可以采用基于区域或网格的检测方法，由此DNN模型106可以将输入的第一图像帧302A(或调整尺寸的第一图像帧302A)划分为多个网格单元格，并且可以执行逐单元格搜索以检测多个网格单元格中的一个或多个中的感兴趣物体302B。在多个感兴趣物体在共用网格单元格中重叠的情况下，可以指定锚框以创建更长的网格单元格并且可以将多个物体与共用网格单元格相关联。在多个感兴趣物体存在于不同网格单元格中的情况下，于是DNN模型106可以为与多个感兴趣物体相关联的不同网格单元格中的每一个输出物体检测结果。在提取出物体检测结果之后，可以执行从306到322的操作以用于感兴趣物体302B的热图可视化，如本文所述。

在306处，可以执行图像分割。在实施例中，电路系统202可以基于界定框坐标304B将第一图像帧302A分割成第一多个图像部分306A...306N。在另一个实施例中，在执行分割之前，可以调整第一图像帧302A的尺寸以匹配DNN模型106的输入层的尺寸。例如，如果第一图像帧302A是高清图像(1280x720像素)但输入层的尺寸是416x416，那么第一图像帧302A的尺寸可以被调整为416x416像素。

可以将第一图像帧302A(或调整尺寸的第一图像帧302A)传递到动态窗口分割功能，该功能基于窗口尺寸将第一图像帧302A(或调整尺寸的第一图像帧302A)分割成第一多个图像部分306A...306N。在实施例中，电路系统202可以基于第一图像帧302A(或调整尺寸的第一图像帧302A)的输入维度(或以像素为单位的尺寸)和界定框坐标304B来选择用于分割的窗口尺寸。基于所选择的窗口尺寸，电路系统202可以将第一图像帧302A(或调整尺寸的第一图像帧302A)分割成第一多个图像部分306A...306N。可以为属于每个图像部分的像素指派唯一的片段ID。

在实施例中，动态窗口分割功能可以将第一图像帧302A(或调整尺寸的第一图像帧302A)划分为正方形或矩形网格，其中每个网格单元格可以包括第一多个图像部分306A...306N中的一个。取决于物体的尺寸或图像比例，感兴趣物体302B可以存在于一个网格单元格中，或者可以跨越正方形或矩形网格的多个网格单元格，例如在图7中所描述的。

在308处，可以生成被扰动图像(即，独特的邻域图像)。在实施例中，电路系统202可以生成多个被扰动图像308A…308N。为了生成每个被扰动图像，可以执行随机样本选择操作和掩蔽操作，如本文所述。可以迭代地执行这两个操作以获得多个被扰动图像308A…308N。

最初，电路系统202可以执行来自第一多个图像部分306A...306N中的图像部分的第一集合的随机样本选择。例如，输入的第一图像帧302A被示为使用窗口分割功能被分割成25个图像部分的5x5网格。电路系统202可以随机选择8个网格单元格以从25个图像部分的5x5网格中选择8个图像部分。网格单元格(例如，8个)的选择可以基于片段ID的随机选择，片段ID可以在306处指派给每个图像部分。应当注意的是，上面提到的网格尺寸(5x5)仅作为示例提供。本公开可以适用于任何合适的网格尺寸，而不偏离本公开的范围。

在执行随机样本选择之后，电路系统202可以选择包括图像部分的第一集合(通过随机样本选择获得)的第一图像帧302A(或调整尺寸的第一图像帧302A)的一部分。此后，电路系统202可以在所选择的部分上应用掩模以生成多个被扰动图像308A…308N中的第一被扰动图像308A。例如，如果第一图像帧302A(或调整尺寸的第一图像帧302A)具有8位的颜色深度，那么可以通过将所选择的部分的所有像素设置为“126”或0到255之间的其它合适值来应用掩模。

在310处，可以提取标签数据。标签数据可以包括与生成的多个被扰动图像308A…308N对应的多个物体检测分数310A。对于这种提取，可以在将DNN模型106重新应用于多个被扰动图像308A…308N以从DNN模型106提取标签数据的同时执行312处的单元格跟踪操作，如本文所述。

最初，电路系统202可以从DNN模型106的多个激活单元格中确定可以负责物体检测结果(在304处从DNN模型106获得)的第一激活单元格。DNN模型106中的每个激活单元格和锚可以被指派唯一ID。可以选择单元格锚之一(即，负责检测的第一个激活单元格)并将其视为参考点。此后，电路系统202可以将多个被扰动图像308A…308N中的第一被扰动图像308A输入到DNN模型106，并且可以从DNN模型106的选择的第一激活单元格的第一输出中提取用于第一被扰动图像308A的第一物体检测分数。第一物体检测分数可以是以下之一：与多个被扰动图像308A…308N对应的多个物体检测分数310A。

作为迭代馈送过程的一部分，多个被扰动图像308A…308N中的每一个可以作为输入传递到DNN模型106，并且可以在整个迭代馈送过程中跟踪参考点(即，第一激活单元格或选择的单元格-锚)。来自参考点(即，第一激活单元格)的输出值(诸如第一物体检测分数)可以被视为标签数据的第一样本。

如果在第一图像帧302A中存在多个感兴趣物体(非重叠)，那么DNN模型106可以识别和选择多个激活单元格，每个激活单元格可以与多个感兴趣物体中的一个相关联。在这种情况下，电路系统202可以跟踪此类多个激活单元格以在整个迭代馈送过程中检测多个感兴趣物体中的每一个的物体检测分数。

在314处，可以提取多个特征向量。此类特征向量也可以被称为独特的分割特征。在实施例中，电路系统202可以为多个被扰动图像308A…308N中的第一被扰动图像308A生成多个特征向量中的第一特征向量。所生成的第一特征向量可以包括多个向量元素。每个向量元素可以与第一多个图像部分306A...306N中的对应图像部分(或对应图像部分的片段ID)对应。例如，如果第一图像帧302A(或调整尺寸的第一图像帧302A)被分割成10x10的网格，包括100个图像部分，每个图像部分具有唯一的片段ID，那么第一特征向量可以是具有100个向量元素的1x100向量。多个向量元素中的每个向量元素可以存储可以指示对应的图像部分是否在第一被扰动图像308A中被掩蔽的值。例如，对于5x5窗口分割，如果第一被扰动图像308A分别包括10个图像部分和15个图像部分作为被掩蔽和未被掩蔽的，那么第一特征向量可以将值(0)存储在10个向量元素(与10个图像部分对应)中并将值(1)存储在15个向量元素(与15个图像部分对应)中。类似地，可以生成所有被扰动图像的特征向量。

在316处，可以训练回归模型。在实施例中，电路系统202可以在多个特征向量(在314处提取)和多个物体检测分数310A(在310处作为标签数据被提取)上训练回归模型。回归模型可以用响应变量、解释变量以及量化解释变量和响应变量之间的关系强度的未知模型参数(称为权重值)来描述。在此，多个特征向量可以被称为解释变量(即，自变量)并且多个物体检测分数310A可以被称为响应变量。在训练中，可以通过在多个特征向量和多个物体检测分数310A上拟合回归模型来估计未知模型参数的值，即，权重值。成本函数，诸如最小二乘误差(LS)，可以被用于最小化与回归模型相关联的拟合误差。

在318处，可以确定权重值。在实施例中，电路系统202可以基于经训练的回归模型确定第一多个图像部分306A...306N中的每个图像部分的权重值。权重值可以指示第一多个图像部分306A...306N中的对应图像部分属于感兴趣物体302B的可能性。

通过使用唯一的片段ID，每个权重值可以映射到第一图像帧302A(或调整尺寸的第一图像帧302A)的对应图像部分。属于感兴趣物体302B的所有图像部分(在306处分割之后获得)可以与高权重值(例如，接近1的值)相关联，而其它图像部分可以与低权重值(例如，接近0的值)相关联。

在320处，可以执行解释生成操作。在这种操作中，可以在322处执行热图生成，随后可以在324处执行度量计算。

在322处，可以生成热图。在实施例中，电路系统202可以基于为第一多个图像部分306A...306N中的每个图像部分确定的权重值生成可视化框架322A。可视化框架322A可以包括被包括在第一图像帧302A中并且由界定框坐标304B界定的区域的热图可视化322B。

在实施例中，电路系统202可以从热图调色板中选择代表所确定的权重值的颜色值。可以基于用于权重值的范围的热图配色方案来选择颜色值。例如，热图调色板可以是彩虹调色板，其可以表示具有冷色(例如，蓝色、绿色、紫色、阴影或其色调)的低权重值和具有暖色(例如，红色、黄色、橙色、阴影或其色调)的高权重值。热图调色板的其它示例可以包括但不限于顺序调色板、发散调色板或定性调色板。此后，基于为第一多个图像部分306A...306N中的每个图像部分选择的颜色值，可以生成可视化框架322A。在生成可视化框架322A之后，电路系统202可以在显示设备(诸如显示设备104)上显示可视化框架322A，以便提供感兴趣物体302B(如在第一图像帧302A中检测到的)的用户友好和可靠的热图可视化。

在324处，可以执行热图可视化的度量计算。在实施例中，电路系统202可以在输入的第一图像帧302A(或调整尺寸的第一图像帧302A)中选择围绕感兴趣物体302B的界定框(即，由DNN模型106预测的)。所选择的界定框可以由DNN模型106的物体检测结果中的界定框坐标确定。

电路系统202可以确定可以大于零并且可以位于所选择的界定框内的权重值的第一计数(N_inside+)。电路系统202还可以确定在所选择的界定框内可以等于零的权重值的第二计数(N_inside0)。在权重值的第一计数(N_inside+)可以指示第一图像帧302A的可以是感兴趣物体302B的一部分并且可以位于所选择的界定框内的图像部分的数量的同时，权重值的第二计数(N_inside0)可以指示可能不是感兴趣物体302B的一部分但仍可能位于所选择的界定框内的图像部分的剩余数量。可以基于为第一多个图像部分306A...306N中的每个图像部分确定的权重值来确定权重值的第一计数和第二计数两者。此后，电路系统202可以将第一视觉度量(F_weight)计算为确定的第一计数与确定的第一计数和确定的第二计数之和的比率。第一视觉度量(F_weight)的公式由等式(1)提供，如下所示：

第一视觉度量可以表示通过回归模型确定每个权重值的准确度。越高的准确度可以要求与权重值的第一计数相比权重值的第二计数低。这可以意味着可以要求热图可视化在可视化框架的聚焦区块内具有感兴趣物体302B的最大覆盖。

在实施例中，电路系统202可以确定在选择的界定框内可以大于零的权重值的第一集合(W_x,x∈{0,M}且W_x>0)的第一总和。电路系统202还可以确定在选择的界定框之外可以大于零的权重值的第二集合(W_y,y∈{0,N},

且W_y>0)的第二总和。权重值的第一集合和第二集合都可以基于为第一多个图像部分306A...306N确定的权重值来确定。电路系统202可以将第二视觉度量(F_spread)计算为确定的第一总和与确定的第一总和和确定的第二总和之和的比率。第二视觉度量(F_spread)的公式由等式(2)提供，如下所示：

其中，

x可以表示权重值的第一集合中的权重值的索引，以及

y可以表示权重值的第二集合中的权重值的索引。

此类度量(第一视觉度量或第二视觉度量)可以帮助用户或程序开发人员评估或重新训练DNN模型106以获得更好、更准确的物体检测结果，这可以导致准确的热图可视化。

图3C是图示根据本公开的实施例的用于视频的热图度量计算的示例性操作的图。图3C结合图1、图2、图3A和图3B中的元素进行解释。参考图3C，示出了从324A到324C的一系列示例性操作，它们是图3B的324处的度量计算的一部分。操作可以从324A开始，并且可以由任何计算系统、装置或设备执行，诸如由图1或图2的电子装置102执行。

在324A处，可以提取一系列可视化框架326A、326B、326C、326D...326N。在实施例中，电路系统202可以从存储器204中提取一系列可视化框架326A、326B、326C、326D...326N。一系列可视化框架326A、326B、326C、326D...326N可以基于322的热图可视化操作逐帧生成。一系列可视化框架326A、326B、326C、326D...326N中的每个可视化框架可以包括可以被包括在视频的相应输入图像帧中并且可以由界定框坐标界定的区域的热图可视化。例如，第一可视化框架326A可以包括可以被包括在界定框328A内的区域的热图可视化。该区域可以与感兴趣的物体(诸如骑自行车的身体)对应。

在324B处，可以执行每帧度量计算。在实施例中，电路系统202可以为一系列可视化框架326A、326B、326C、326D...326N中的每一个计算第一视觉度量(F_weight)和第二视觉度量(F_spread)。

每个可视化框架可以被划分为多个片段，其颜色可以取决于与相应片段和调色板相关联的权重值。例如，如果权重值接近1，那么可视化框架的相关联片段的颜色可以接近于暖色，诸如红色。但是，如果权重值接近于0，那么可视化框架的相关联片段的颜色可以接近于冷色，诸如蓝色。片段的数量可以确定热图可视化的分辨率。更多的片段数量可以导致热图可视化的更高分辨率，而更少的片段数量可以导致较差的分辨率。

例如，如图所示，第一可视化框架326A包括10x10个片段或100个片段，并且界定框328内的区域包括12个片段。对于第一可视化框架326A，界定框328内的正权重值的计数是7并且界定框328内的零值权重值的计数是5。第一视觉度量(F_weight)可以使用等式(1)确定，如下：

对于第一可视化框架326A，可以使用等式(2)来确定第二视觉度量(F_spread)，如下：

从前述示例中，第一可视化框架326A与0.583的F_weight和0.477的F_spread相关联。F_spread的越高值可以指示越多高权重片段位于界定框328内，从而指示感兴趣物体上的越多权重区块。而越高的F_weight值可以指示越多计数的高权重片段位于界定框328内，从而指示感兴趣物体上的越多聚焦区块。

在324C处，可以为一系列可视化框架326A、326B、326C、326D...326N执行总体度量计算。之后，可以将用于一系列可视化框架326A、326B、326C、326D...326N中的每一个的F_spread和F_weight的值记录在数据库中，如下表1中所示：

可视化框架#	F<sub>spread</sub>	F<sub>weight</sub>
			326A	0.477	0.583
326B	0.412	0.625
			326C	0.503	0.590
...	...	...
			326N	0.725	0.610

表1：F_spread和F_weight的值

基于第一视觉度量和第二视觉度量(即，F_weight和F_spread值)，电路系统202可以确定是否正确地生成了热图可视化。如果此类值高于阈值，那么可以确定感兴趣物体在视频的所有对应帧中被识别。在一些实施例中，电路系统202可以为一系列可视化框架326A、326B、326C、326D...326N中的每个可视化框架生成表示此类值的曲线图。基于曲线图中的峰，电路系统202可以确定下一个动作，诸如与感兴趣物体相关的推断。即使物体小，曲线图也可以帮助解释和得出结论。

图4是图示根据本公开的实施例的使用图2的电子装置的端到端解释人工智能(XAI)解决方案的示例性操作的框图。图4结合图1、2、3A和3B中的元素进行解释。参考图4，示出了图示如本文所述的从402到420的示例性操作的框图400。框图400中所示的示例性操作可以从402开始并且可以由任何计算系统、装置或设备执行，诸如由图1或图2的电子装置102执行。

虽然用离散的方框来图示，但是与框图400的一个或多个方框相关联的示例性操作可以被划分为附加的方框、组合成更少的方框或被消除，这取决于示例性操作的实施方式。

在402处，可以生成被扰动图像。在实施例中，电路系统202可以从第一图像帧412A生成多个被扰动图像。为了生成每个被扰动图像，可以执行随机样本选择操作和掩蔽操作。此类操作的细节在图3A中提供，例如，从图3A的306到308。例如，在图6中对随机样本选择操作和掩蔽操作进行详细描述。

在404处，可以使用单元格插件来确定单元格。在实施例中，电路系统202可以从DNN模型106的多个激活单元格中确定可以负责物体检测结果(诸如304处的物体检测结果)的第一激活单元格。DNN模型106中的每个激活单元格和锚可以被指派唯一ID。可以选择单元格锚之一(即，负责检测的第一个激活单元格)并将其视为参考点。

在406处，可以执行解释生成。在实施例中，电路系统202可以生成与针对第一图像帧412A的DNN模型106的物体检测结果相关联的解释作为输入。406处的操作可以包括在408处的热图生成的第一操作和在410处的度量计算的第二操作。

在408处，可以生成热图。在实施例中，电路系统202可以基于图3B的322处的操作的执行来生成可视化框架412C。可视化框架412C可以包括被包括在第一图像帧412A中并且由界定框坐标(由图4中的界定框表示)界定的区域412B的热图可视化。

在410处，可以执行度量计算。在实施例中，电路系统202可以基于用于可视化框架412C的片段的权重值来确定可视化框架412C的第一视觉度量(F_weight)和第二视觉度量(F_spread)。在存在一系列可视化框架的情况下(例如，如图3C中所描述的)，电路系统202可以为一系列可视化框架中的每一个确定第一视觉度量(F_weight)和第二视觉度量(F_spread)。例如，在图3B和图3C中提供了度量计算的细节。

在412处，可以执行选择。在生成可视化框架412C之后。可以在显示设备104上向用户提供选项以查看包括感兴趣物体的区域412B的热图可视化。在存在与多个图像帧对应的多个可视化框架(诸如一系列可视化框架326A、326B、326C、326D...326N)的情况下，电路系统202可以在显示设备104上显示此类可视化框架。在一些实施例中，电路系统202还可以显示曲线图，该曲线图可以包括每个这样的可视化框架的第一视觉度量和第二视觉度量。用户可以决定选择所显示的可视化框架中的任何特定可视化框架。例如，用户可以选择与曲线图中的第一视觉度量或第二视觉度量的峰对应的可视化框架。

在可视化框架412C包括多个物体的热图可视化的情况下，用户可以能够选择并查看多个物体之一的热图可视化。在实施例中，电路系统202可以基于用户输入从可视化框架412C中选择感兴趣物体。可以执行选择以显示所选择的感兴趣物体的热图。电路系统202可以更新可视化框架以包括区域412B的热图可视化，该区域412B包括所选择的感兴趣物体。在一些实施例中，如果存在一系列可视化框架(诸如热图视频)，那么可以在一系列可视化框架中更新所选择的感兴趣物体的热图可视化，同时包括(用户未选择的)其它物体的区域的热图可视化可以从一系列可视化框架中移除。

在414处，当可视化框架412C被显示在显示设备104上时，可以接收用户查询。在实施例中，电路系统202可以经由显示设备104接收用户查询。用户查询可以使最终用户能够做出关于选择感兴趣物体以供解释的选择。

在416处，可以确定推断结果。在实施例中，电路系统202可以基于用户查询(在412处接收的)确定与选择的感兴趣物体相关联的推断结果。在实施例中，电路系统202可以提取与所选择的感兴趣物体相关联的观察的集合。可以基于生成的可视化框架412C来提取观察的集合。在实施例中，还可以基于用于可视化框架412C的第一视觉度量和第二视觉度量来提取观察的集合。例如，在图3B和图3C中提供了与第一视觉度量和第二视觉度量相关联的细节。电路系统202可以基于提取出的观察的集合来确定与选择的感兴趣物体相关联的推断结果。所确定的推断结果的示例可以包括但不限于所选择的感兴趣物体的状态或视觉属性的数值。状态或视觉属性的示例可以包括但不限于物体尺寸的改变、物体移动或旋转、物体变形(例如，人体姿势的改变)、或物体可见性(诸如模糊值)、物体动作(诸如人类物体的关节运动)、或与其它物体的物体交互(诸如人类踩自行车)。

例如，当提取出的观察包括感兴趣物体在相继图像帧中的可见性的增加时，所确定的推断结果可以包括更高的(高于阈值的)数值。而当观察包括感兴趣物体在相继图像帧中的可见性的降低时，所确定的推断结果可以包括较低的数值(低于阈值)。在实施例中，电路系统202可以生成所确定的推断结果的图形表示。

在418处，可以生成解释。在实施例中，电路系统202可以基于确定的推断结果生成解释。生成的解释可以包括确定的推断结果的自然语言描述。在实施例中，电路系统可以应用自然语言处理(NLP)技术来生成自然语言描述。在实施例中，电路系统202可以控制显示设备(诸如显示设备104)显示生成的解释。例如，基于针对一系列可视化框架(包括热图可视化)的推断结果，可以确定(用户选择的)感兴趣物体的可见性在相继帧中增加，于是解释可以包括自然语言描述“物体可见性正在增加”。

在实施例中，电路系统202可以基于所确定的推断结果来确定与生成的解释相关联的多个推荐。多个推荐可以包括例如对数据源的反馈或对外部系统的反馈。电路系统202可以控制显示设备104显示与确定的解释相关联的所生成的多个推荐。电路系统202还可以接收包括从多个推荐中选择第一推荐的输入。电路系统202可以基于接收到的输入来选择多个推荐中的第一推荐，并且可以基于选择的第一推荐来调整与输入的第一图像帧410A相关联的某些图像参数。例如，在图5中描述与推荐相关联的细节。

在422处，可以执行输入调整。在实施例中，电路系统202可以接收用户输入，该用户输入包括对具有较低的第一视觉度量或第二视觉度量的值的可视化框架的选择。在这种情况下，电路系统202可以生成调整输入源(诸如最初获取多个图像的相机)的至少一个成像参数的指令。例如，如果从曝光不足的图像帧生成具有较低的第一视觉度量或第二视觉度量的值的选择的可视化框架，那么电路系统202可以生成调整输入源的传感器增益的指令。

图5是图示根据本公开的实施例的用于物体检测的热图可视化的电子装置的示例性用户界面的图。图5结合图1、2、3A、3B和4中的元素进行解释。参考图5，示出了用户界面(UI)500，其可以显示图4的确定的推断结果，以及图4的生成的解释。电路系统202控制显示设备104显示UI 500。例如，如图所示，UI 500可以显示用于用户查询502、推断结果504以及解释506的界面。

在实施例中，输入的第一图像帧508可以描绘骑自行车的人。电路系统202可以接收包括对感兴趣物体508A的选择的输入。电路系统202可以基于接收到的输入来选择感兴趣物体508A。例如，所选择的感兴趣物体508A可以是自行车的踏板。

在实施例中，电路系统202可以确定与选择的感兴趣物体508A相关联的推断结果504。例如，与选择的感兴趣物体508A相关联的推断结果504被示为图形表示510。在图形表示510中，推断结果504包括表示所选择的感兴趣物体508A的状态的数值。例如，数值可以包括与踏板的移动状态相关联的每分钟转数(RPM)测量。此类测量可以基于图3B或图3C的324处的度量计算操作来计算。

在实施例中，电路系统202可以基于确定的推断结果504生成解释506。解释506可以包括确定的推断结果504的自然语言描述。如图所示，解释506可以包括描述“输入是骑自行车的人以每分钟10转的平均速度骑自行车的5分钟视频馈送的一部分”。应当注意的是，UI 500中所示的信息仅作为示例呈现，不应当解释为对本公开的限制。在一些实施例中，电路系统202可以将反馈传输到图像源，诸如图像捕获设备，以调整与源相关联的成像参数(诸如光圈值、传感器增益或快门速度)。

图6是图示根据本公开的实施例的用于生成第一被扰动图像的示例性场景的图。图6结合图1、2、3A、3B、4和5中的元素进行解释。参考图6，示出了第一图像帧602和可以从第一图像帧602获得的第一被扰动图像604。

在实施例中，第一图像帧602可以具有300x50像素的尺寸并且DNN模型106的输入层的窗口尺寸可以是10x10。第一图像帧602可以被传递到动态窗口分割功能(如306处描述的)，该动态窗口分割功能可以基于窗口尺寸将第一图像帧602分割成第一多个图像部分。例如，第一图像帧602被示为使用窗口分割功能被分割成150个图像部分的5x 30网格。DNN模型106可以将唯一ID指派给每个分割部分，如0、1、2、3、…，149，如图所示。

在实施例中，电路系统202可以执行来自第一多个图像部分(标记为0、1、2、3、...、149)中的图像部分的第一集合的随机样本选择(如图3中所述)。在执行随机样本选择之后，电路系统202可以选择第一图像帧602的一部分，该部分包括图像部分的第一集合(通过随机样本选择获得)。此后，电路系统202可以在所选择的部分上应用掩模以生成第一被扰动图像604。例如，如果第一图像帧602具有8位的颜色深度，那么可以通过将所选择的部分的所有像素设置为“126”或0到255之间的其它合适值来应用掩模。例如，对于5x30窗口分割，如果第一被扰动图像604分别包括22个图像部分和128个图像部分作为被掩蔽和未被掩蔽的，那么第一特征向量可以将值(0)存储在(与22个图像部分对应的)22个向量元素中并将值(1)存储在(与128个图像部分对应的)128个向量元素中。在图6中，示出了特征向量，该特征向量可以为具有唯一ID“0”的片段存储值(1)(以表示未掩蔽)。该特征向量可以为具有唯一ID“7”的另一个片段存储值(0)(以表示被掩蔽)。类似地，可以生成所有被扰动图像的特征向量。例如，特征向量的维度可以是1x num_segment，其中num_segment是独特片段的数量。它是二进制向量，元素是1或0。如果相应的片段被掩蔽，那么特征向量中索引的值为0。如果相应的片段未被掩蔽，那么特征向量中索引的值为1。

应当注意的是，第一图像帧602和第一被扰动图像604仅作为示例而呈现，不应当被解释为限制本公开的范围。

图7是图示根据本公开的实施例的动态窗口分割功能与具有不同窗口尺寸的物体的热图之间的示例性关系的图。图7结合图1、2、3A、3B、4、5和6中的元素进行解释。参考图7，示出了第一可视化框架702、第二可视化框架704、第三可视化框架706。第一可视化框架702可以包括感兴趣物体708的热图可视化708A，以及围绕包括感兴趣物体708的热图可视化708A的区域的界定框710A。第二可视化框架704可以包括感兴趣物体708的热图可视化708B，以及围绕包括感兴趣物体708的热图可视化708B的区域的界定框710B。第三可视化框架706可以包括感兴趣物体708的热图可视化708C，以及围绕包括感兴趣物体708的热图可视化708C的区域的界定框710C。还示出了热图可视化708A、热图可视化708B和热图可视化708C的放大视图。

动态窗口分割功能可以控制热图可视化的粗糙度。如果窗口尺寸更小，那么可以获得更精细的热图可视化，反之亦然。为了获得最优窗口尺寸，可以实现一种方法，其中界定框维度和输入图像维度有助于窗口尺寸的动态选择。这可以帮助提供更精细的热图。

在第一可视化框架702中，窗口尺寸更大并且热图可视化708A更粗糙。这导致聚焦区块中的更多噪声。在第二可视化框架704中，窗口尺寸小于针对第一可视化框架702的窗口尺寸。因此，聚焦区块中的噪声比第一可视化框架702的噪声少，并且热图可视化708B比热图可视化708A更精确。在第三可视化框架706中，窗口尺寸小于针对第二可视化框架704的窗口尺寸。因此，聚焦区块中的噪声比第二可视化框架704的噪声少，并且热图可视化708C比热图可视化708B更精确。对于同样尺寸的界定框，当窗口大时，度量计算(如图3B的322处计算的)不是非常准确。但是，对于较小的窗口尺寸，度量更精确。

物体尺寸可以是确定窗口尺寸的因素之一。因此，在至少一个实施例中，电路系统202基于物体尺寸改变窗口尺寸。在多物体场景中，诸如当输入图像中存在两个物体时，可以为这两个物体生成热图可视化。但是，由于用于两个物体的窗口尺寸不同，因此一个物体的热图可视化可能比另一个物体的更粗糙。这些不同的窗口尺寸可以取决于两个物体的物体尺寸。

图8是图示根据本公开的实施例的用于从多个物体检测中选择单个物体以及用于基于这种选择的热图可视化的示例性操作的图。图8结合图1、2、3A、3B、4、5、6和7中的元素进行解释。参考图8，示出了框图800。在框图800中，示出了对可以包括多个物体(诸如第一物体810、第二物体812和第三物体814)的第一图像帧808的从802到806的操作序列。

在802处，电路系统202可以将第一图像帧808输入到DNN模型(诸如DNN模型106)，并且可以提取与多个物体相关联的多个物体检测结果，作为针对输入的第一图像帧808的DNN模型106的输出。

在804处，电路系统202可以控制显示设备(诸如显示设备104)显示围绕输入的第一图像帧808中的多个物体(诸如第一物体810、第二物体812和第三物体814)的多个界定框(例如，界定框804A、界定框804B和界定框804C)。可以基于提取出的多个物体检测结果来显示多个界定框，例如也如在图3A中所描述的。电路系统202可以接收可以指示从所显示的多个界定框中选择第一界定框(诸如界定框804B)的输入。基于接收到的输入，电路系统202可以从多个物体中选择感兴趣物体(诸如第二物体812)。

在806处，电路系统202可以基于图3A和图3B的从306到322的操作集合的执行来生成针对选择的感兴趣物体(诸如第二物体812)的可视化框架806A。可视化框架806A可以包括区域806B(区域806B可以包括所选择的感兴趣物体(诸如第二物体812))的热图可视化，例如在图3B中所描述的。

图9是图示根据本公开的实施例的用于图像帧中的两个部分重叠的物体的热图可视化的示例性场景的图。图9结合图1、2、3A、3B、4、5、6、7和8中的元素进行解释。参考图9，示出了可以包括多个物体(诸如第一物体904和第二物体906)的第一图像帧902。如图所示，第一物体904(即，电车)至少部分地被第二物体906(即，汽车)重叠或遮挡。当第一图像帧902作为输入传递给DNN模型106时，DNN模型106可以输出针对第一物体904和第二物体906中的每一个的物体检测结果。

如果没有来自用户(诸如用户110)的输入，那么电路系统202可选择第一物体904和第二物体906两者作为两个分离的感兴趣物体。可替代地，电路系统202可以将第一物体904和第二物体906视为集总物体，并且可以生成具有包括该集总物体的区域的热图可视化的可视化框架。

在至少一个实施例中，电路系统202可以控制显示设备(诸如显示设备104)显示图像908，图像908示出了围绕第一物体904的界定框910A和围绕第二物体906的界定框910B。对于第一物体904和第二物体906，可以基于相应的物体检测结果中的界定框坐标来示出相应的界定框(即，界定框910A和界定框910B)，例如还如在图3A中所描述的。电路系统202可以接收可以指示选择围绕第一物体904或第二物体906之一的界定框的输入。基于接收到的输入，电路系统202可以将感兴趣物体选择为被所选择的界定框包围的物体。对于所选择的感兴趣物体，可以执行从306到322的操作以生成可视化框架，该可视化框架包括包含所选择的感兴趣物体的聚焦区块或区域的热图可视化。例如，如果选择了第一物体904，那么可视化框架912可以包括包含第一物体904的聚焦区块912A或区域的热图可视化。

应当注意的是，以上描述还可以适用于其中两个或更多个物体至少彼此部分重叠或遮挡的另一个场景。

图10是图示根据本公开的实施例的用于对位于图像帧中的另一个物体的区域内的物体进行热图可视化的示例性场景的图。图10结合图1、2、3A、3B、4、5、6、7、8和9中的元素进行解释。参考图10，示出了包括第一物体1004和第二物体1006的第一图像帧1002，第二物体1006包括在第一物体1004的边界1008内。当第一图像帧1002作为输入传递给DNN模型106时，DNN模型106可以输出针对第一物体1004和第二物体1006中的每一个的物体检测结果。

如果没有来自用户的输入，那么电路系统202可以选择第一物体1004和第二物体1006两者作为两个分离的感兴趣物体。可替代地，可以选择第一物体1004和第二物体1006作为集总物体。电路系统202可以执行从306到322的操作以生成包括包含第一物体1004和第二物体1006两者的区域的热图可视化的可视化框架。

在至少一个实施例中，电路系统202可以控制显示设备(诸如显示设备104)显示图像1010，该图像1010示出了围绕第一物体1004的界定框1012A和围绕第二物体1006的界定框1012B。对于第一物体1004和第二物体1006中的每一个，可以基于相应物体检测结果中的界定框坐标来示出相应的界定框(即，界定框1012A和界定框1012B)，例如还在图3A中描述的。电路系统202可以接收可以指示选择围绕第一物体1004或第二物体1006之一的界定框的输入。基于接收到的输入，电路系统202可以将感兴趣物体选择为被选择的界定框包围的物体。对于所选择的感兴趣物体，可以执行从306到322的操作以生成可视化框架，该可视化框架可以包括包含所选择的感兴趣物体的聚焦区块或区域的热图可视化。例如，如果选择了第二物体1006(即，较小的物体)，那么可视化框架1014可以包括包含第二物体1006的聚焦区块或区域的热图可视化。

图11是图示根据本公开的实施例的用于在视频馈送的一系列帧中检测到的(一个或多个)物体的热图可视化的示例性操作的图。图11结合图1、2、3A、3B、4、5、6、7、8、9和10中的元素进行解释。参考图11，示出了图示如本文所述的从1102到1106的示例性操作的框图1100。框图1100中所示的示例性操作可以在1102开始并且可以由任何计算系统、装置或设备执行，诸如由图1或图2的电子装置102执行。虽然用离散的方框来图示，但是与框图1100的一个或多个方框相关联的示例性操作可以被划分为附加的方框、组合成更少的方框或被消除，这取决于示例性操作的实施方式。

在1102处，可以获取视频馈送。在实施例中，电路系统202可以获取视频馈送并且可以从获取的视频馈送中提取一系列图像帧(诸如帧1102A、帧1102B和帧1102C)。如果第一图像帧302A是视频馈送的一部分，那么一系列图像帧可以在视频馈送中的第一图像帧302A之前或之后。一系列图像帧中的每一个可以包括感兴趣物体1102D。在一些实施例中，一系列图像帧可以捕获具有一个或多个静态感兴趣物体的静态场景或具有一个或多个移动的感兴趣物体的动态场景。

在1104处，一系列图像帧可以作为输入顺序地(即，逐帧地)馈送到DNN模型106。在实施例中，电路系统202可以将一系列图像帧中的每一个输入到DNN模型106。DNN模型106可以跟踪一系列图像帧中的感兴趣物体1102D，并且可以基于输入的一系列图像帧输出与被跟踪的感兴趣物体1102D相关联的一系列物体检测结果。

在一系列图像帧包括感兴趣物体1102D作为唯一感兴趣物体的情况下，电路系统202可以提取与感兴趣物体1102D相关联的一系列物体检测结果，作为DNN模型106针对输入的一系列图像帧的输出。在输入的一系列图像帧包括多个物体的情况下，电路系统202可以提取与多个物体相关联的多个物体检测结果，作为DNN模型106针对输入的一系列图像帧中的每个图像帧的输出。由于一系列图像帧中的每一个被顺序地馈送到DNN模型106，因此用于提取物体检测结果(或多个物体检测结果)的操作可以与用于第一图像帧302A的操作相同，如在图3A的302和304处描述的。

当逐帧执行物体检测时，DNN模型106可以在整个一系列图像帧中跟踪并唯一地识别感兴趣物体1102D。在实施例中，对于输入的一系列图像帧中的每一个，电路系统202可以提取信息，诸如界定框坐标、激活单元格(单元格-锚)和特征向量(也如图3A和3B中所述)。此类信息可以存储在数据库中。电路系统202可以基于此类信息确定输入的一系列图像帧中的每一个中的感兴趣区域(ROI)。此后，可以将确定的第一图像帧的ROI与输入的一系列图像帧中在第一图像帧之后的第二图像帧的ROI进行比较。可以针对所有后续的图像帧对迭代上述比较，并且可以基于比较的ROI之间的相似性将跟踪ID指派给每个ROI。可以使用跟踪ID在整个输入的一系列图像帧中跟踪感兴趣物体1102D。

对于多物体跟踪，每个感兴趣物体可以被识别为基于相应界定框坐标和唯一单元格锚值确定的相应跟踪ID。跟踪ID可以与物体的位置和单元格锚值相关联以进行区分。在一些实施例中，可以单独地或结合使用跟踪ID的跟踪方法来实现其它物体跟踪方法。其它物体跟踪方法的示例可以包括但不限于基于卡尔曼(Kalman)滤波器的跟踪、基于粒子滤波器的跟踪、基于内核的跟踪、轮廓跟踪、支持向量机和形状匹配。

对于热图可视化，电路系统202可以基于一系列物体检测结果中的对应物体检测结果将一系列图像帧中的每一个分割成第二多个图像部分。例如，在图3A中提供了分割的细节。此后，可以针对一系列图像帧中的每一个执行从308到316的操作。电路系统202此后可以确定与第二多个图像部分对应的多个权重值。可以为一系列图像帧中的每个图像帧确定多个权重值(即，权重向量)。每个权重值可以指示第二多个图像部分中的对应图像部分属于感兴趣物体1102D的可能性。

电路系统202可以基于为一系列图像帧中的每一个确定的多个权重值来生成一系列可视化框架(诸如框架1108A、框架1108B和框架1108C)。一系列可视化框架中的每个可视化框架可以包括包含感兴趣物体的区域(或ROI)的热图可视化。例如，图3B中提供了生成可视化框架的细节。一系列可视化框架可以在第一图像帧302A的可视化框架之后，例如在图3B中所描述的。

在1106处，可以显示一系列可视化框架。在实施例中，电路系统202可以控制显示设备104显示所生成的一系列可视化框架(诸如框架1108A、框架1108B和框架1108C)。框架1108A、框架1108B和框架1108C中的每一个可以包括区域的热图可视化，该区域包括感兴趣物体1102D并且由相应的界定框坐标界定。

在DNN模型106未能在图像帧中检测到感兴趣物体1102D的情况下，可以基于一系列可视化框架中相邻可视化框架的插值来生成用于这种图像帧的可视化框架。根据输出的一系列物体检测结果，电路系统202可以确定第一物体检测结果，其指示在输入的一系列图像帧的中间图像帧中缺少感兴趣物体1102D。例如，感兴趣物体可以至少被多个物体中的第一物体完全重叠或遮挡。在这种情况下，电路系统202可以基于确定的第一物体检测结果从生成的一系列可视化框架中选择相邻的可视化框架，并且可以基于选择的相邻的可视化框架为中间图像帧插值第一可视化框架。插值可以基于合适的插值技术，诸如但不限于最近邻居插值、双线性插值、双三次插值、B样条插值、兰索斯(Lanczos)插值和离散小波变换(DWT)插值。此后，电路系统202可以将插值的第一可视化框架插入到生成的一系列可视化框架中。

图12是图示根据本公开的实施例的用于控制无人驾驶飞行器以对农场进行自主监视的示例性场景的图。图12结合图1、2、3A、3B、4、5、6、7、8、9、10和11中的元素进行解释。参考图12，示出了示例性场景1200。场景1200可以包括农场1202、害虫控制设置1204和无人驾驶飞行器1206。无人驾驶飞行器1206可以包括成像设备1208，诸如安装在无人驾驶飞行器1206上或与无人驾驶飞行器1206集成的相机。在本文中，无人驾驶飞行器1206可以是图1的电子装置102的示例性实施方式。

当无人驾驶飞行器1206飞行时，无人驾驶飞行器1206可以控制图像设备1208捕获农场1202的输入图像帧1210。无人驾驶飞行器1206可以接收输入图像帧1210，该输入图像帧1210可以包括感兴趣物体，诸如农场1202的作物1212。对于接收到的输入图像帧1210，无人驾驶飞行器1206还可以接收可视化框架，该可视化框架包括区域的热图可视化，该区域包括农场1202的输入图像帧1210中的作物。在实施例中，使用机器学习模型，无人驾驶飞行器1206可以提取与感兴趣物体(即，作物1212)相关联的观察的集合，并确定与感兴趣物体相关联的推断结果(例如，如图4中所述)。例如，如果观察的集合包括指示作物健康的数值，那么推断结果可以确定包括受损作物1214(如图所示)的农场的区块。在另一个实施例中，无人驾驶飞行器1206可以使用图3B或图3C的324处的度量计算操作来确定与可视化框架相关联的度量(诸如F_spread或F_weight)。此后，无人驾驶飞行器1206可以基于所确定的度量来确定推断结果。

无人驾驶飞行器1206可以接收与用户对推断结果的查询对应的输入，以获得关于确定的区块中受损作物1214的推断结果的原因。基于接收到的输入，无人驾驶飞行器1206可以控制害虫控制设置1204的害虫喷嘴1204A以调整害虫喷雾在受损作物1214上的释放。

图13A和13B是共同图示根据本公开的实施例的用于物体检测的热图可视化的示例性操作的图。图13A和13B结合来自图1、2、3A、3B、4、5、6、7、8、9、10、11和12中的元件进行解释。参考图13A和13B，示出了图示如本文所述的从1302到1326的示例性操作的流程图1300。流程图1300中所示的示例性操作可以开始于1302并且可以由任何计算系统、装置或设备执行，诸如由图1或图2的电子装置102执行。虽然用离散的方框来图示，但是与流程图1300的一个或多个方框相关联的示例性操作可以被划分为附加的方框、组合成更少的方框或被消除，这取决于示例性操作的实施方式。

在1304处，可以获取输入的第一图像帧302A。在实施例中，电路系统202可以基于图3A的302处的操作的执行从数据源(诸如相机)获取输入的第一图像帧302A。例如，输入的第一图像帧302A可以包括足球运动员作为感兴趣物体。

在1306处，可以从DNN模型106中提取检测结果。在实施例中，电路系统202可以基于图3A的304处的操作的执行来提取与感兴趣物体相关联的物体检测结果，作为DNN模型106针对输入的第一图像帧302A的输出。连同物体检测结果，电路系统202可以接收信息，诸如界定框坐标、置信度分数、调整尺寸的图像(即，输入的第一图像帧302A的调整尺寸的版本)和参考单元格锚。

在1308处，可以确定界定框的数量是否小于或等于阈值(k)。在实施例中，电路系统202可以被配置为基于物体检测结果和接收到的信息来确定界定框的数量是否小于或等于阈值(k)。阈值可以是预定义的或者可以通过用户输入(经由I/O设备206)设置。在界定框的数量小于或等于阈值的情况下，控制可以传递到结束。否则，控制可以传递到1310。

在1310处，可以执行图像分割。在实施例中，电路系统202可以基于界定框坐标将第一图像帧分割成第一多个图像部分，例如在图3A的306处所描述的。

在1312处，可以生成被扰动图像。在实施例中，电路系统202可以基于第一多个图像部分生成多个被扰动图像。例如，在图3A的308处描述了被扰动图像生成的操作。

在1314处，可以提取标签数据。标签数据可以包括与生成的多个被扰动图像对应的多个物体检测分数1314A。对于这种提取，可以在将DNN模型106重新应用于多个被扰动图像以从DNN模型106提取标签数据的同时执行1316处的单元格跟踪操作。这种操作的细节例如在图3B的310处提供。

在1318处，可以提取多个特征向量。在实施例中，电路系统202可以为多个被扰动图像中的第一被扰动图像生成多个特征向量中的第一特征向量。例如，在图3B的314处提供了提取的细节。

在1320处，可以训练回归模型。在实施例中，电路系统202可以在多个特征向量(在1318处被提取)和多个物体检测分数(在1314处作为标签数据被提取)上训练回归模型。例如，在图3B的316处提供了训练的细节。

在1322处，可以确定权重值。在实施例中，电路系统202可以基于经训练的回归模型确定第一多个图像部分中的每个图像部分的权重值。例如，在图3B的318处提供了权重确定的细节。

在1324处，可以执行解释生成。在实施例中，电路系统202可以生成与输入的第一图像帧302A相关联的解释。解释生成可以包括在1324A处的热图生成的第一操作和在1324B处的度量计算的第二操作。

在1324A处，可以生成可视化框架。在实施例中，电路系统202可以基于为第一多个图像部分中的每个图像部分确定的权重值生成可视化框架。可视化框架可以包括被包括在输入的第一图像帧302A中并且由界定框坐标界定的区域的热图可视化。例如，在图3B的322处提供了生成可视化框架的细节。

在1324B处，可以执行度量计算。在实施例中，电路系统202可以基于可视化框架(在1320生成)来确定(或计算)可视化度量，诸如第一视觉度量和第二视觉度量。例如，在图3B或图3C的324处提供了度量计算操作的细节。在实施例中，电路系统202可以接收用户输入，该用户输入包括对具有较低的第一视觉度量或第二视觉度量的值的可视化框架的选择。在这种情况下，电路系统202可以生成调整输入源(诸如最初获取多个图像的相机)的至少一个成像参数的指令。例如，如果从曝光不足的图像帧生成具有较低的第一视觉度量或第二视觉度量的值的选择的可视化框架，那么电路系统202可以生成调整输入源的传感器增益的指令。在这种情况下，输入源可以在调整至少一个成像参数之后获取新的图像帧。可以对新的图像帧执行从1304到1306的操作，并且可以将控制传递到1308。

在1326处，可以执行选择。在实施例中，电路系统202可以控制显示设备104显示可视化框架和计算出的度量。基于用户输入，电路系统202可以选择物体(诸如输入的第一图像帧302A的足球运动员)并且可以在显示设备104上显示可视化框架。可视化框架可以包括所选择的物体的热图可视化。例如，在图4的412处提供了选择的进一步细节。控制可以传递到结束。

图14是图示根据本公开的实施例的用于物体检测的热图可视化的示例性方法的流程图。图14结合图1、2、3A、3B、4、5、6、7、8、9、10、11、12、13A和13B中的元素进行解释。参考图14，示出了流程图1400。流程图1400中所示的方法可以由任何计算系统执行，诸如由电子装置102或电路系统202执行。该方法可以从1402开始并进行到1404。

在1404处，可以将第一图像帧(诸如第一图像帧302A)输入到DNN模型106。在一个或多个实施例中，电路系统202可以被配置为将第一图像帧302A(其包括感兴趣物体302B)输入到DNN模型106。DNN模型106可以针对物体检测任务进行训练。

在1406处，可以从DNN模型106中提取物体检测结果。在一个或多个实施例中，电路系统202可以被配置为提取与感兴趣物体302B相关联的物体检测结果，作为针对输入的第一图像帧302A的DNN模型106的输出。提取出的物体检测结果可以包括感兴趣物体302B的界定框坐标(诸如界定框坐标304B)。

在1408处，可以分割输入的第一图像帧302A。在一个或多个实施例中，电路系统202可以被配置为基于界定框坐标304B将输入的第一图像帧302A分割成第一多个图像部分306A...306N。

在1410处，可以为第一多个图像部分中的每个图像部分确定权重值。权重值可以指示对应图像部分属于感兴趣物体302B的可能性。在一个或多个实施例中，电路系统202可以被配置为确定第一多个图像部分306A...306N中的每个图像部分的权重值。

在1412处，可以生成可视化框架322A。可视化框架322A可以包括被包括在输入的第一图像帧302A中并且由界定框坐标304B界定的区域的热图可视化。在一个或多个实施例中，电路系统202可以被配置为基于为第一多个图像部分306A中的每个图像部分确定的权重值生成可视化框架322A。控制可以传递到结束。

虽然流程图1400被示为离散操作，诸如1402、1404、1406、1408、1410和1412，但是本公开不限于此。因而，在某些实施例中，此类离散操作可以进一步划分为附加的操作、组合为更少的操作或被消除，这取决于特定的实施方式，而不偏离所公开的实施例的本质。

本公开的各种实施例可以提供一种非暂态计算机可读介质和/或存储介质，其上存储有可由机器和/或计算机执行以操作电子装置的计算机可执行指令。计算机可执行指令可以使机器和/或计算机执行包括将可以包括感兴趣物体的第一图像帧输入到为物体检测任务训练的深度神经网络(DNN)模型的操作。操作还可以包括提取与感兴趣物体相关联的物体检测结果，作为DNN模型的针对输入的第一图像帧的输出。提取出的物体检测结果可以包括感兴趣物体的界定框坐标。操作还可以包括基于界定框坐标将输入的第一图像帧分割成第一多个图像部分，并且为第一多个图像部分中的每个图像部分确定指示对应图像部分属于感兴趣物体的可能性的权重值。操作还可以包括基于为第一多个图像部分中的每个图像部分确定的权重，生成可以包括被包括在输入的第一图像帧中并且由界定框坐标界定的区域的热图可视化的可视化框架。

本公开的示例性方面可以提供包括电路系统(例如，电路系统202)的电子装置(诸如图1的电子装置102)。电路系统可以被配置为将可以包括感兴趣物体(诸如感兴趣物体302B)的第一图像帧(诸如第一图像帧302A)输入到深度神经网络(DNN)模型(诸如DNN模型106)，该模型针对物体检测任务进行训练。电路系统可以被配置为从针对输入的第一图像帧的DNN模型的输出中提取与感兴趣物体相关联的物体检测结果。根据实施例，提取出的物体检测结果可以包括感兴趣物体的界定框坐标(诸如界定框坐标304B)。电路系统可以被配置为基于界定框坐标将输入的第一图像帧分割成第一多个图像部分(诸如第一多个图像部分306A...306N)。对于第一多个图像部分中的每个图像部分，电路系统可以被配置为确定指示对应图像部分属于感兴趣物体的可能性的权重值。基于为第一多个图像部分中的每个图像部分确定的权重值，电路系统还可以被配置为生成包括被包括在输入的第一图像帧中并且由界定框坐标界定的区域的热图可视化的可视化框架(诸如可视化框架322A)。

根据实施例，输入的第一图像帧可以包括多个物体(诸如第一物体410、第二物体412和第三物体414)。电路系统可以被配置为从DNN模型的针对输入的第一图像帧的输出中提取与多个物体相关联的多个物体检测结果。在一些实施例中，感兴趣物体可以至少部分地被多个物体中的第一物体重叠或遮挡。在一些实施例中，感兴趣物体可以至少部分地重叠或遮挡多个物体中的第一物体。基于提取出的多个物体检测结果，电路系统可以被配置为控制显示设备(诸如显示设备104)在输入的第一图像帧中围绕多个物体显示多个界定框。电路系统可以被配置为接收可以包括从所显示的多个界定框中选择第一界定框的输入。电路系统还可以被配置为基于接收到的输入从多个物体中选择感兴趣物体并且进一步基于该选择生成可视化框架。

根据实施例，电路系统还可以被配置为执行从第一多个图像部分中的图像部分的第一集合的随机样本选择。电路系统还可以被配置为在输入的第一图像帧的一部分上应用掩模，该部分可以包括图像部分的第一集合，并且基于掩模的应用生成多个被扰动图像(诸如多个被扰动图像308A...308N)中的第一被扰动图像(诸如第一扰动图像308A)。

根据实施例，电路系统还可以被配置为从DNN模型的多个激活单元格中确定可以负责DNN模型的输出中的物体检测结果的第一激活单元格。电路系统可以被配置为将多个被扰动图像中的第一被扰动图像输入到DNN模型。从针对输入的第一被扰动图像的DNN模型的确定的第一激活单元格的第一输出，电路系统可以被配置为提取可以与多个被扰动图像对应的多个物体检测分数中的第一物体检测分数。

根据实施例，电路系统还可以被配置为针对多个被扰动图像中的第一被扰动图像生成多个特征向量中的第一特征向量。生成的第一特征向量可以包括与输入的第一图像帧的第一多个图像部分对应的多个向量元素，并且多个向量元素中的每个向量元素可以存储一个值，该值可以指示第一多个图像部分中的对应图像部分是否在第一被扰动图像中被掩蔽。

根据实施例，电路系统还可以被配置为在多个特征向量和多个物体检测分数(诸如多个物体检测分数310A)上训练回归模型。可以基于经训练的回归模型确定第一多个图像部分中的每个图像部分的权重值。

根据实施例，电路系统还可以被配置为从热图调色板中选择可以代表所确定的权重值的颜色值。可以基于用于权重值的范围的热图配色方案来选择颜色值。基于为第一多个图像部分中的每个图像部分选择的颜色值，电路系统可以被配置为生成包括由界定框坐标界定的区域的热图可视化的可视化框架。

根据实施例，电路系统还可以被配置为在输入的第一图像帧中选择围绕感兴趣物体的界定框。选择的界定框可以由DNN模型的物体检测结果中的界定框坐标确定。电路系统可以被配置为基于为第一多个图像部分中的每个图像部分确定的权重值来确定在所选择的界定框内可以大于零的权重值的第一计数，并且基于为第一多个图像部分中的每个图像部分确定的权重值来确定在界定框内可以等于零的权重值的第二计数。电路系统可以被配置为将第一视觉度量计算为所确定的第一计数与所确定的第一计数和所确定的第二计数之和的比率。

根据实施例，电路系统还可以被配置为在输入的第一图像帧中选择围绕感兴趣物体的界定框。电路系统可以被配置为确定在所选择的界定框内可以大于零的权重值的第一集合的第一总和。电路系统还可以被配置为确定在所选择的界定框之外可以大于零的权重值的第二集合的第二总和。可以基于为第一多个图像部分确定的权重值来确定第一总和和第二总和中的每一个。此后，电路系统可以被配置为将第二视觉度量确定为所确定的第一总和与所确定的第一总和和所确定的第二总和之和的比率。

根据实施例，电路系统可以被配置为接收包括从可视化框架中选择感兴趣物体的输入。基于接收到的输入，电路可以被配置为从可视化框架中选择感兴趣物体。电路系统可以被配置为提取与所选择的感兴趣物体相关联的观察的集合。电路系统还可以被配置为基于所提取的观察的集合来确定与所选择的感兴趣物体相关联的推断结果(诸如推断结果504)。所确定的推断结果包括所选择的感兴趣物体的视觉属性或状态的数值。

根据实施例，电路系统可以被配置为：基于所确定的推断结果生成解释(诸如解释506)。生成的解释包括确定的推断结果的自然语言描述。电路系统还可以被配置为控制显示设备显示所生成的解释。

根据实施例，电路系统可以被配置为：基于所确定的推断结果来确定与所生成的解释相关联的多个推荐。电路系统可以被配置为控制显示设备显示与确定的解释相关联的所生成的多个推荐。电路系统可以被配置为接收包括从多个推荐中选择第一推荐的输入。基于接收到的输入，电路系统可以被配置为从多个推荐中选择第一推荐。电路系统还可以被配置为基于所选择的第一推荐来调整与输入的第一图像帧相关联的图像参数。

根据实施例，电路系统还被配置为从视频馈送中提取可以在视频馈送中的第一图像帧之后并包括感兴趣物体的一系列图像帧(诸如帧702A、帧702B和帧702C)。电路系统还可以被配置为将一系列图像帧输入到DNN模型。DNN模型可以被配置为跟踪一系列图像帧中的感兴趣物体，并且基于输入的一系列图像帧输出与被跟踪的感兴趣物体相关联的一系列物体检测结果。

根据实施例，电路系统还可以被配置为基于一系列物体检测结果中的对应物体检测结果将一系列图像帧中的每一个分割成第二多个图像部分。电路系统可以被配置为确定与一系列图像帧中的每个图像帧的第二多个图像部分对应的多个权重值。根据实施例，多个权重值中的每个权重值可以指示第二多个图像部分中的对应图像部分属于感兴趣物体的可能性。电路系统可以被配置为基于为一系列图像帧中的每一个确定的多个权重值，生成可以在用于输入的第一个图像帧的可视化框架之后的一系列可视化框架(例如，框架1108A、框架1108B和框架1108C)。

根据实施例，电路系统还可以被配置为从输出的一系列物体检测结果中确定第一物体检测结果，该第一物体检测结果可以指示在输入的一系列图像帧的中间图像帧中缺少感兴趣物体。电路系统可以被配置为基于该确定从生成的一系列可视化框架中选择相邻的可视化框架，并且基于所选择的相邻的可视化框架插值用于中间图像帧的第一可视化框架。

本公开可以用硬件或硬件和软件的组合来实现。本公开可以以集中式方式、以至少一个计算机系统或以分布式的方式来实现，其中不同的元件可以分布在多个互连的计算机系统上。适于执行本文描述的方法的计算机系统或其它装置可能是合适的。硬件和软件的组合可以是具有计算机程序的通用计算机系统，该计算机程序在被加载和执行时可以控制计算机系统，以使其执行本文描述的方法。本公开可以用包括还执行其它功能的集成电路的一部分的硬件来实现。

本公开还可以被嵌入计算机程序产品中，该计算机程序产品包括使得能够实现本文描述的方法的所有特征，并且当其被加载到计算机系统中时，能够执行这些方法。在本文中，计算机程序是指以任何语言、代码或符号表示的指令集的任何表达，这些指令旨在使具有信息处理能力的系统直接执行特定功能，或者在以下中的一个或两者之后执行特定功能：a)转换成另一种语言、代码或符号；b)以不同的物质形式复制。

虽然参考某些实施例描述了本公开，但是本领域技术人员将理解，在不偏离本公开的范围的情况下，可以进行各种改变并且可以替换等同物。另外，在不偏离本公开的范围的情况下，可以做出许多修改以使特定情况或材料适于本公开的教导。因此，意图是本公开不限于所公开的特定实施例，而是本公开将包括落入所附权利要求的范围内的所有实施例。

Claims

1.一种电子装置，包括：

电路系统，被配置为：

将包括感兴趣物体的第一图像帧输入到为物体检测任务训练的深度神经网络DNN模型；

从DNN模型针对输入的第一图像帧的输出中提取与感兴趣物体相关联的物体检测结果，

提取出的物体检测结果包括针对感兴趣物体的界定框坐标；

基于界定框坐标将输入的第一图像帧分割成第一多个图像部分；

为第一多个图像部分中的每个图像部分确定指示对应图像部分属于感兴趣物体的可能性的权重值；以及

基于为第一多个图像部分中的每个图像部分确定的权重值，生成包括如下区域的热图可视化的可视化框架，该区域被包括在输入的第一图像帧中并由界定框坐标界定。

2.根据权利要求1所述的电子装置，其中输入的第一图像帧包括多个物体。

3.根据权利要求2所述的电子装置，其中电路系统还被配置为：

从DNN模型针对输入的第一图像帧的输出中提取与所述多个物体相关联的多个物体检测结果；

基于提取出的所述多个物体检测结果，控制显示设备在输入的第一图像帧中显示围绕所述多个物体的多个界定框；

接收包括从显示的所述多个界定框中选择第一界定框的输入；

基于接收到的输入从所述多个物体中选择感兴趣物体；以及

进一步基于所述选择生成可视化框架。

4.根据权利要求3所述的电子装置，其中感兴趣物体至少部分地被所述多个物体中的第一物体重叠或遮挡。

5.根据权利要求3所述的电子装置，其中感兴趣物体至少部分地重叠或遮挡所述多个物体中的第一物体。

6.根据权利要求1所述的电子装置，其中电路系统还被配置为：

执行对第一多个图像部分中的图像部分的第一集合的随机样本选择；

在输入的第一图像帧的包括图像部分的第一集合的一部分上应用掩模；以及

基于掩模的应用生成多个被扰动图像中的第一被扰动图像。

7.根据权利要求6所述的电子装置，其中电路系统还被配置为基于输入的第一图像帧的输入维度和界定框坐标来选择窗口尺寸，以及

其中输入的第一图像帧基于所选择的窗口尺寸被分割成第一多个图像部分。

8.根据权利要求6所述的电子装置，其中电路系统还被配置为：

从DNN模型的多个激活单元格中确定负责DNN模型的输出中的物体检测结果的第一激活单元格；

将所述多个被扰动图像中的第一被扰动图像输入到DNN模型；以及

从DNN模型的所确定的第一激活单元格针对输入的第一被扰动图像的第一输出中提取与所述多个被扰动图像对应的多个物体检测分数中的第一物体检测分数。

9.根据权利要求8所述的电子装置，其中电路系统还被配置为针对所述多个被扰动图像中的第一被扰动图像生成多个特征向量中的第一特征向量，其中

生成的第一特征向量包括与输入的第一图像帧的第一多个图像部分对应的多个向量元素，以及

所述多个向量元素中的每个向量元素存储指示第一多个图像部分中的对应图像部分是否在第一被扰动图像中被掩蔽的值。

10.根据权利要求9所述的电子装置，其中电路系统还被配置为：

在所述多个特征向量和所述多个物体检测分数上训练回归模型；以及

基于经训练的回归模型确定用于第一多个图像部分中的每个图像部分的权重值。

11.根据权利要求1所述的电子装置，其中电路系统还被配置为：

从热图调色板中选择代表所确定的权重值的颜色值，

其中颜色值是基于用于权重值的范围的热图配色方案选择的；以及

基于为第一多个图像部分中的每个图像部分选择的颜色值，生成包括由界定框坐标界定的区域的热图可视化的可视化框架。

12.根据权利要求1所述的电子装置，其中电路系统还被配置为：

在输入的第一图像帧中选择围绕感兴趣物体的界定框，所选择的界定框是由DNN模型的物体检测结果中的界定框坐标确定的；

基于为第一多个图像部分中的每个图像部分确定的权重值，确定在所选择的界定框内大于零的权重值的第一计数；

基于为第一多个图像部分中的每个图像部分确定的权重值，确定在界定框内等于零的权重值的第二计数；以及

将第一视觉度量计算为确定的第一计数与确定的第一计数和确定的第二计数之和的比率。

13.根据权利要求1所述的电子装置，其中电路系统还被配置为：

确定所选择的界定框内大于零的权重值的第一集合的第一总和；

确定所选择的界定框外大于零的权重值的第二集合的第二总和，其中第一总和和第二总和中的每一个是基于为第一多个图像部分确定的权重值确定的；以及

将第二视觉度量计算为确定的第一总和与确定的第一总和和确定的第二总和之和的比率。

14.根据权利要求1所述的电子装置，其中电路系统还被配置为：

接收包括从可视化框架中选择感兴趣物体的输入；

基于接收到的输入从可视化框架中选择感兴趣物体；

提取与所选择的感兴趣物体相关联的观察的集合；以及

基于提取出的观察的集合确定与所选择的感兴趣物体相关联的推断结果，其中确定的推断结果包括用于所选择的感兴趣物体的视觉属性或状态的数值。

15.根据权利要求14所述的电子装置，其中电路系统还被配置为：

基于确定的推断结果生成解释，其中生成的解释包括确定的推断结果的自然语言描述；以及

控制显示设备显示生成的解释。

16.根据权利要求15所述的电子装置，其中电路系统还被配置为：

基于确定的推断结果确定与生成的解释相关联的多个推荐；

控制显示设备显示与生成的解释相关联的确定的所述多个推荐；

接收包括选择确定的所述多个推荐中的第一推荐的输入；

基于接收到的输入选择第一推荐；以及

基于选择的第一推荐调整与输入的第一图像帧相关联的图像参数。

17.根据权利要求1所述的电子装置，其中电路系统还被配置为：

从视频馈送中提取在视频馈送中第一图像帧之后并且包括感兴趣物体的一系列图像帧；以及

将所述一系列图像帧输入到DNN模型，其中DNN模型被配置为：

跟踪所述一系列图像帧中的感兴趣物体；以及

基于输入的所述一系列图像帧，输出与被跟踪的感兴趣物体相关联的一系列物体检测结果。

18.根据权利要求17所述的电子装置，其中电路系统还被配置为：

基于所述一系列物体检测结果中的对应物体检测结果，将所述一系列图像帧中的每一个分割成第二多个图像部分；

确定与所述一系列图像帧中的每个图像帧的第二多个图像部分对应的多个权重值，

其中所述多个权重值中的每个权重值指示第二多个图像部分中的对应图像部分属于感兴趣物体的可能性；以及

基于为所述一系列图像帧中的每一个确定的所述多个权重值，生成在用于输入的第一图像帧的可视化框架之后的一系列可视化框架。

19.根据权利要求18所述的电子装置，其中电路系统还被配置为：

从输出的所述一系列物体检测结果中确定第一物体检测结果，第一物体检测结果指示在输入的所述一系列图像帧的中间图像帧中缺少感兴趣物体；以及

基于该确定从生成的所述一系列可视化框架中选择相邻的可视化框架；以及

基于选择的相邻的可视化框架，插值用于中间图像帧的第一可视化框架。

20.一种方法，包括：

提取出的物体检测结果包括针对感兴趣物体的界定框坐标；

21.一种在其上存储有计算机可执行指令的非暂态计算机可读介质，计算机可执行指令在被电子装置执行时使电子装置执行操作，所述操作包括：

提取出的物体检测结果包括针对感兴趣物体的界定框坐标；

基于界定框坐标将输入的第一图像帧分割成第一多个图像部分；为第一多个图像部分中的每个图像部分确定指示对应图像部分属于感兴趣物体的可能性的权重值；以及