CN113272827A

CN113272827A - 卷积神经网络中分类决策的验证

Info

Publication number: CN113272827A
Application number: CN201980089516.9A
Authority: CN
Inventors: 顾金东
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2018-11-19
Filing date: 2019-11-12
Publication date: 2021-08-17
Also published as: EP3654248A1; EP3861482A1; WO2020104252A1; US20220019870A1

Abstract

在一个方面中，本发明涉及一种计算机实现的方法，用于提供一种用于验证卷积神经网络（CNN）的视觉分类架构及其决策的计算机实现的方法。该方法包括：访问（S1）具有卷积神经网络（CNN）的存储器（MEM），所述卷积神经网络（CNN）针对分类成目标类集合（tc）的视觉分类任务被训练；对输入图像（12）使用（S2）卷积神经网络（CNN），并且在卷积神经网络（CNN）的前向传递之后，在后向传递中：应用（S3）对比逐层相关性传播算法（CLRP）或者应用（S4）自下而上注意力模式（BUAP），所述自下而上注意力模式（BUAP）由卷积神经网络（CNN）隐式学习，用于提供（S5）验证信号（vs）。

Description

卷积神经网络中分类决策的验证

近年来，卷积神经网络（下文中缩写为CNN）在如医学成像和计算机视觉的不同技术应用领域中已经实现了巨大的成功。受益于大规模训练数据（如ImageNet），CNN能够同时学习滤波和图像合成。已经采用了各种方法来进一步增加CNN的推广能力。例如，CNN可以应用于几个技术领域中的分类任务，如医疗成像（例如将健康图像部分与病变区分开）或生产（例如将产品分类为废物或非废物）。

然而，如果使用经训练的CNN，则分类结果可能不贯穿于网络架构经受逐步验证。因此，CNN的内部工作是“隐藏的”，诸如CNN的最终决策对于网络中的每个神经元都是不可追溯的，并且因此是不可知的。提供的结果是可信的。然而，在其中安全是关键的应用中，为了增强决策安全性和质量，有必要提供更多的信任。

为了提供对于CNN的验证的更好理解和基础，现有技术中已知几种方法。

第一种方法是使用基于反向传播的机制，该基于反向传播的机制针对通过为输入矢量（例如图像）生成所谓的显著性图来解释CNN的决策。显著性图充当CNN分类决策的（直观）解释。在计算机视觉中，显著性图被定义为2D拓扑图，其以数字比例指示视觉注意力优先级。较高的视觉注意力优先级指示感兴趣的对象不规则或对其周围环境来说很罕见。对显著性的建模有益于包括图像分割、目标检测、图像重定向、图像/视频压缩等之类的几种应用。特别地，逐层反向传播（在下文中缩写为LRP）可以用于生成这样的显著性图。论文“Bach, S., Binder, A., Montavon, G., Klauschen, F., Muller, K.R., Samek, W. :'On pixel-wise explanations for non-linear classifier decisions by layer-wiserelevance propagation'. PloS one 10 (2015) e0130140”提出LRP以针对分类决策生成解释。然而，实验示出，LRP生成的显著性图是特定于实例的，而不是类鉴别性的。换句话说，它们独立于类信息。对于不同目标类的解释，即使是随机选取的类，也几乎是相同的。所生成的图识别相同的前景对象，而不是类鉴别性的对象。

Zhang等的工作（Zhang, J., Lin, Z., Brandt, J., Shen, X., Sclaroff, S.:Top-down neural attention by excitation backprop，在European Conference onComputer Vision, Springer（2016）543-559中）公开了CNN分类器自上而下注意力的公式，作为概率性赢家通吃的过程。然而，该论文不涉及自下而上的学习。进一步地，该论文通过否定连接类的权重来构造对比信号。本申请提出了构造对比信号的其他可能性，例如使用所有其他类来表示信号。在减法之前显著性图的归一化取决于最大值。因为LRP的守恒特性，所提出的申请没有对显著性图进行归一化。

Cao, C.等的工作（Cao, C., Liu, X., Yang, Y., Yu, Y., Wang, J., Wang,Z., Huang, Y., Wang, L., Huang, C., Xu, W.等的：Look and think twice:Capturing top-down visual attention with feedback convolutional neuralnetworks，在Proceedings of the IEEE International Conference on ComputerVision（2015）2956-2964中）能够产生类鉴别性注意力图。然而，该工作需要通过添加额外的反馈层和在反向传播期间对层进行优化来修改传统的CNN。因此，需要能够在没有对CNN的结构进行任何修改的情况下提供显著性图。

经典的显著性模型基于块（矩形补片）或区域（超像素）。它们手工制作的特征通常是使用图像中的内在线索提取的，所述内在线索例如场景中的独特性、区别性或稀有性。然而，在更具挑战性的场景中，它们的性能并不令人满意。其他方法需要劳动密集型和耗时的标记过程。因此，本领域中存在对于提供用于生成显著性图的改进方法的需要。

针对显著性建模的研究受到自下而上和自上而下的视觉特征或线索影响。自下而上的视觉注意力（外源性）是由刺激触发的，其中依据输入图像中的低级别的特征或线索——诸如颜色、强度、定向、形状、T型连结、X型连结等，将显著性捕获为图像位置、区域或对象的区别。

视觉自下而上的注意力是利用特定的神经网络架构或计算模型明确建模的。

为了能够分析或检查各个（视觉）输入和它们的特征表示之间的关系，尤其是随着CNN层越来越深，特征表示的演进，本领域中存在对于提供对CNN决策的更好理解的需要。

现有技术基于反向传播的方法的缺点是它们没有提供关于内部神经元和层的信息，并且因此没有提供关于CNN特征的信息，尽管它们可能有助于解释最终的分类。为了对CNN的内部运行的更好和更详细理解，对特征的类鉴别性解释将是有帮助的。

US 2017 / 344 884 A1描述了语义类定位技术和系统。采用机器学习技术来将图像分类为包括对象，以及还有对象在图像内的位置这两者。机器学习技术通过前进通过神经网络的各层来学习神经元的模式。神经元的模式用于标识图像内语义类的存在，诸如对象、感觉。对比注意力图也可以用来在语义类之间进行区分。例如，对比注意力图可以用于区分图像内的不同对象，以定位对象。基于边际获胜概率创建对比注意力图。语义类被定位为边际获胜概率的单个反向传播的一部分。

CN 108 664 967 A描述了一种多媒体页面显著性预测方法和系统。可以提取多媒体页面的不同元素的表示。

如之前提及的，用于生成显著性图的现有技术方法的缺点是它们不够灵活。尤其是所谓的有监督方法需要劳动密集型和耗时的标记过程。因此，任意图像以及尤其是没有标记的图像可以用作输入将是有帮助的。

因此，本发明的目的是提供一种用于改进CNN验证过程的解决方案。进一步地，还应当改进对神经网络过程的在逐层级别上以及相对于决策任务类的技术分析和监视。前面提到的所有对象都服务于这样的总体目标，即使用或应用CNN的过程的安全性应该得到改进。

根据所附独立权利要求，通过验证单元、计算机程序和/或计算机程序产品来验证卷积神经网络的视觉分类架构（以及由此导出的分类决策）的方法来解决该目的。有利的方面、特征和实施例连同优点一起在从属权利要求中和以下描述中描述。

在下文中，关于所要求保护的验证方法以及关于所要求保护的验证单元来描述所提出的技术。本文的特征、优点或替代实施例可以分配给其他要求保护的对象（例如，计算机程序或计算机程序产品），并且反之亦然。换句话说，针对验证单元的权利要求可以利用在方法的上下文中描述或要求保护的特征来改进，并且反之亦然。在该情况下，该方法的功能特征相应地由系统的结构单元体现，并且反之亦然。

在一个方面中，本发明涉及一种用于验证卷积神经网络（CNN）的视觉分类架构及其分类结果的方法。该方法包括：

-访问具有CNN的存储器，CNN被训练用于分类成目标类集合的视觉分类任务；

-将CNN用于输入图像，并且在CNN的前向传递之后，在后向传递中：

应用对比逐层相关性传播算法，或

应用由CNN隐式学习的自下而上的注意力模式来验证CNN的分类能力；

用于提供验证信号。

根据优选实施例，验证信号被提供为不仅针对目标类中的每个而且还针对特定CNN层中的特征的显著性图。显著性图是特定于实例的并且是类鉴别性的。这具有如下优点：验证更详细，并且处于细粒度级别。注意，具有由神经网络检测的显著性特征的显著性图包括输入图像（区域或者甚至像素或特性）和在CNN的特定层中学习的特征之间的关系。在图像分类的前向传递中，层的神经元的激活值是该层中图像的特征。它也被称为特征表示，因为层的激活值（矢量）包含图像内容的信息。例如，取决于输入图像和分类任务，显著特征可以在简单结构到语义对象部分、诸如输入图像中的器官或病变或癌性结构之间变化。

根据另一个优选实施例，为每个目标类的每个单独神经元生成逐像素显著性图的集合。该特征还提高了验证结果的详细程度。

根据另一个优选实施例，CLRP算法包括以下步骤：

-借助于反向传播算法针对分类任务的每个目标类生成第一显著性图；

-针对每个目标类计算与相应的目标类相反的虚拟类的集合；

-借助于反向传播算法针对虚拟类的集合生成第二显著性图；

-计算第一显著性图和第二显著性图之间的差异，用于计算最终显著性图。

在进一步的优选实施例中，针对特定目标类的虚拟类的计算可以通过以下各项执行：

-将目标类的集合中的任何其他类（特定类除外）定义为虚拟类，或者通过

-将目标类的集合中的所有其他目标类（特定类除外）定义为虚拟类，或者通过

-通过生成附加类并使用权重将其与最后一层相连接来构造虚拟类，其中所述权重是前向传递的逆权重。

在另一个优选实施例中，应用自下而上的注意力模式包括：

-收集和存储CNN的所有特征，特征包括用于输入图像的CNN的相应层中的所有激活；

-为所述特征中的每一个创建显著性图，

利用此，可能的是使用创建的显著性图列表来验证自下而上的注意力。

在另一个优选实施例中，视觉分类任务是医学图像中的医学分类任务，以便检测异常。

在另一个优选实施例中，只有当所提供的验证信号高于可预先配置的置信阈值（表示CNN的无误差决策）时，才批准应用CNN。

根据另一个实施例，当应用自下而上的注意力模式来为特征生成显著性图时，使用了修改的和推广类型的基于反向传播的算法。由于根据本发明不是针对类而是针对特征生成显著性图的事实，因此不能应用已知的基于反向传播的算法。因此，对基于反向传播的算法进行了修改。例如，对反卷积算法、基于梯度的反向传播算法和导向反向传播算法进行修改，以创建针对特征（而不是针对类）的显著性图列表。在该方面中，特征是特定层中神经元的激活值。针对特征的显著性图指定输入图像的哪些像素对于激活值是重要的。

在另一个优选实施例中，所生成的显著性图被后处理和/或可以被细化和/或可以应用取平均和/或阈值处理。

在另一方面中，本发明涉及一种验证单元，其被配置用于验证CNN的视觉分类架构，包括：

-具有CNN的存储器，CNN被训练用于分类成目标类的集合的视觉分类任务；

-处理器，其被配置用于使用CNN，并且其中处理器在CNN的前向传递之后，在后向传递中被配置为：

应用对比逐层相关性传播算法，或者

应用CNN隐式地学习的自下而上注意力模式来验证CNN的分类能力，

-用于针对目标类中的每一个生成显著性图。

所提出的方法具有如下优点：可以对使用CNN进行特定自动决策（分类任务）是否安全进行附加检查。所训练的CNN的工作不再是黑箱，而它的推理可能变得透明和“可追溯”。进一步地，输入图像不需要是特定的，或者不需要以某种方式（例如，通过标记）进行准备。因此，该方法比已知的方法更灵活得多。

自下而上机制提出了显著性图像区域或像素集合，其中每个区域由池化的卷积特征矢量表示。通常，深度特征是卷积神经网络中一系列层中卷积、批归一化、激活和池化操作的响应图像。这样的响应图像提供关于图像的语义信息。初始层呈现低级别的特征或线索，诸如边缘，并且更高级别的抽象是作为层数的函数获得的。后面的层提供更高级别的语义信息，诸如对象类。

本申请内使用的术语在下文中定义。

验证信号要被解释为表示相应决策的图像中的根本原因的电子信号或数据集。验证信号可以以不同的格式提供，例如作为输入图像中的覆盖，并因此以图形格式提供（例如边界框或突出显示的图像区域或域）。此外，验证信号可以被后处理并作为二进制信号提供，从而表示验证状态，简单地发信号通知“已验证的决策”或“未验证的决策”。验证信号可以在输出实体上提供，该输出实体可以是监视器上的部分或窗口。验证信号可以在与输入信号相同的监视器上提供。验证信号被配置为分别为验证CNN架构及其逻辑和决策提供技术基础。

对比逐层相关性传播是一种策略，其将在下面和详细描述中更详细地解释。对比逐层相关性传播可以作为应用或计算机程序来实现。

通常，本发明涉及作为机器学习的一部分的深度学习，其使用多层计算机处理实体（被称为神经元），其中神经元相互连接并在彼此之间交换消息。所述连接具有数字权重，数字权重可以基于经验进行调谐，使神经网络适应输入并能够进行学习。

最流行类型的深度学习架构之一是卷积神经网络（CNN），其在以下各项中公开：Simonyan, Karen; Zisserman, Andrew: Very Deep Convolutional Networks forLarge-Scale Image Recognition，在CoRR, abs/1409.1556 （2014）中，和Szegedy,Christian等的“Going deeper with convolutions”，2015 IEEE Conference onComputer Vision and Pattern Recognition（CVPR）（2015）: 1-9；以及在He, K., Zhang,X., Ren, S., & Sun, J. （2016）的 Deep residual learning for image recognition，Proceedings of the IEEE conference on computer vision and pattern recognition（pp. 770-778）中。对于更详细的技术信息，请参考这些文件，其内容通过引用并入。

CNN是多层图像处理单元，包括卷积、池化和整流线性单元（ReLU）层。这些层可以以任何次序布置，只要它们满足输入/输出大小准则。

卷积神经网络（CNN）可以被认为是被设计来执行特定任务（例如医学图像的分类任务）的分层图像处理流水线。流水线的目标是将图像取作输入，执行数学运算，并提供高级的用户友好的响应。网络内的处理本质上是连续的：即网络中的每一层从它上方的（一个或多个）层取得输入，在将所得到的输出传递到接下来的（一个或多个）层之前进行一些计算。

每个层都由“神经元”组成，所述“神经元”连接到其他（大多数情况下是相邻的）层的“神经元”。每个连接都具有与其相关联的表明其重要性的数字权重。

利用CNN进行工作时存在两个主要步骤：训练和测试。在CNN能够被用于任务之前，它需要针对该任务进行训练。在训练阶段中，CNN被提供有需要由网络进行检测和分类的对象的列表。还给出了图像的集合，其中每个图像与用户定义的概念集合（基于对象类别列表并且不超出对象类别列表的基准真值标签）相关联。目标是以这样的方式调谐网络中的连接权重，使得产生尽可能与基准真值标签最佳匹配的输出。这是通过组合权重、网络输出和基准真值标签以设计代价函数来实现的，其中当网络对象分类输出与图像基准真值标签匹配时，代价为零。因此，调谐权重以使代价变得尽可能低，这进而导致提高的精确性（这是网络输出和基准真值数据多接近地匹配的测量）。一旦权重已经被调谐为取得针对训练数据的最佳可能结果，人们就可以简单地通过传递图像并且取得输出来将它用于进行测试。

CNN包括例如卷积、池化、ReLU（整流线性单元）、全连接、丢弃、损失等之类的不同类型层的有序堆叠。每个层从其上方的一个或多个层取得输入，处理信息，并将输出传递给它下方的一个或多个层。通常，一个层从紧接在它上方的层取得输入，并将输出传递给紧接在它下方的层。但是它当然可以被设计成从多个层取得输入和传递输出。

每个层由设定数量的图像滤波器组成。来自每个层的滤波器的输出被堆叠在一起（在第三维中）。该滤波器响应堆叠然后充当对接下来的（一个或多个）层的输入。

对于分类，使用损失层来处理全连接层的结果，该损失层生成对象有多大可能属于特定类的概率。

存储器可以指代驱动器及其相关联的存储介质，所述存储介质为计算机提供机器可读指令、数据结构、程序模块和其他数据的非易失性存储。存储器可以包括硬盘、可移动磁盘和可移动（磁）光盘。本领域的技术人员应当领会，可以使用诸如盒式磁带、闪存卡、数字视频盘、伯努利盒式磁带、随机存取存储器（RAM）、只读存储器（ROM）等的其他类型的存储介质来代替或补充上面介绍的存储设备。

CNN的训练不限于特定类型的训练（有监督、无监督）。训练数据可以本地存储或外部地存储在另外的存储器中。

应用/使用CNN和应用算法的步骤在计算机上执行。特别地，提供处理器（涉及处理电路或硬件）来执行上面提及的步骤和功能。然而，也可能的是这些步骤在专用硬件（例如图形处理单元GPU）上执行，并且可以以分布式方式在（数据连接中的）不同计算实体上执行，以便节省计算资源。

自下而上注意力模式是一种由CNN隐式地学习的机制。传统的自下而上策略旨在正则化网络训练，并且已经被建模。

通常，在不同的计算实体之间存在用于该方法的网络连接（例如，本地网络LAN或WLAN或基于互联网协议的连接或有线连接），所述计算实体特别是输入实体、输出实体、存储器和/或处理器、验证单元。

在另一方面中，本发明涉及一种包括计算机程序的计算机程序产品，所述计算机程序可加载到计算机的存储器单元中，包括程序代码段，当计算机程序在所述计算机中执行时，所述程序代码段使计算机执行根据本发明的一方面的用于验证CNN决策的方法。

在另一方面中，本发明涉及一种计算机可读介质，在该计算机可读介质上存储或保存计算机程序的程序代码段，所述程序代码段可加载到计算机中和/或可在计算机中执行，当程序代码段在计算机中执行时，所述程序代码段使计算机执行根据本发明的一方面的用于验证CNN决策的方法。

通过计算机程序产品和/或计算机可读介质实现本发明具有如下优点：应用领域、服务器或客户端中已经存在的计算机可以通过软件更新容易地采用，以便如本发明所提出的那样工作。

鉴于下面的描述和实施例，上面描述的本发明的特性、特征和优点以及它们被实现的方式将变得更清楚和更容易理解，下面的描述和实施例将在附图的上下文中更详细地描述。该以下描述不将本发明限制在所包含的实施例上。

应当理解，本发明的优选实施例也可以是从属权利要求或上述实施例与相应的独立权利要求的任何组合。

参考下文描述的实施例，本发明的这些和其他方面应当变得清楚并得以阐明。

附图说明

图1是根据所公开技术的优选实施例构造和操作的卷积神经网络的示意图示；

图2是全连接深度卷积神经网络的另一个更详细的示意图示，该神经网络已经被训练成将输入图像分类为两个不同的目标类，并且根据所公开技术的另一个实施例操作；

图3是用于使用深度卷积神经网络来提供输出并根据所公开技术的进一步实施例操作的系统的示意图示；

图4是根据本技术的优选实施例的具有用于执行验证方法的电子单元的示意框图；

图5更详细地示出了针对深度卷积神经网络的不同层计算的验证信号；

图6示出了用于表示斑马（ZEBRA）和大象（ELEPHANT）的两个示例性目标类的CLRP算法的概述；

图7示出了多个对象的四个不同输入图像，使用神经网络实现和为两个相关类提供的相应显著性图对其进行分类，所述显著性图由LRP和CLRP算法生成，并且

图8是根据所提出技术的优选实施例的方法的简化流程图。

具体实施方式

所公开的技术通过提供一种用于验证用于图像分类任务的深度神经网络的架构和内部工作的方法和系统，克服了现有技术的缺点。

所提出的技术是作为计算机程序实现和提供的。计算机程序可以存储和/或分布在合适的介质上——所述介质诸如是与其他硬件一起提供或作为其他硬件的一部分提供的光存储介质或固态介质——但是也可以诸如经由互联网或其他有线或无线电信系统以其他形式分布。

在下文中，在进入本发明的细节之前，给出了卷积神经网络的运行和架构的一般解释。一般来说，利用所提出的技术，卷积神经网络CNN的架构和训练可以借助于提供验证信号vs来验证。

现在参考图1，图1是典型的已知卷积神经网络CNN的示意图示，通常用10指代。根据所公开技术的实施例来验证CNN 10的操作和构造。图1描绘了CNN 10的概述。参考图1，CNN 10包括要分类的输入图像12，随后是例如具有相应输出16和20的第一和/或第二卷积层14和18。注意，CNN 10可以包括更多或更少的卷积层。第二卷积层20的输出可以然后例如在矢量化层中被矢量化。矢量化输出可以被馈送到全连接神经网络的进一步的层中。

在图2中阐述的示例中，使用了矢量化输入22。在CNN 10的全连接神经网络中，例如可以存在三个全连接层26、30和34（更多或更少的层是可能的），以及具有（在该简化的示例中）两个分类类别tc的输出矢量36。参考标号38表示一个特定层中的神经元。全连接层26、30和34中的每一个包括可变数量的线性或仿射算子——这些算子在图2中利用24、28和32表示——潜在地，随后是例如非线性或sigmoid激活函数。最后的全连接层34典型地是归一化层，使得输出矢量36的最终元素（其指代目标分类类别tc）被限界在某个固定的、可解释的范围内。每个卷积层和每个全连接层的参数是在CNN 10的训练（即学习）期间设置的。

参考图3进一步详述卷积层和全连接层中的每一个的结构和操作。到卷积层的每个输入是输入图像，其在图3中利用52指代。例如，输入图像可以是医学图像（2D或3D），其要被关于健康和疾病结构进行分类。输入52可以与设置在CNN 10的训练阶段中的滤波器54进行卷积。滤波器54中的每一个可以例如与层输入52卷积，以生成二维（2D）矩阵56。取决于相应的分类任务，随后或在其他层中，可以应用可选的最大池化操作58和/或可选的ReLU操作（借助于整流线性单元）。神经网络CNN 10的输出是具有针对不同目标类的概率的输出矢量62（在上面给出的示例中：两个；例如，对于正常类的预测为0.3%，对于异常类的预测为0.7%）。所提出的解决方案还可以通过提供所计算的验证信号vs，为这些预测提供支持性证据。

根据本发明，输出62不仅包括具有分类目标类tc的输出矢量，而且还包括验证信号vs。特别地，验证信号vs表示路线原因，并因此表示输入图像以0.7%的概率被分类为异常的原因。特别地，可以突出显示或标记相应的图像部分和部件，这对于CNN决策结果有因果关系，并且对于CNN的特定（内部）层的特定神经元的处理也有因果关系。因此，不仅考虑输出层，而且还详细考虑所有内部层。

卷积层输出和全连接层输出中的每一个都通过标识图像结构来详述与相应层的滤波器最佳匹配的那些图像结构（即特征）。一般来说，卷积神经网络CNN中的每一层以逐步升级的方式检测图像结构，使得更深的层检测更大复杂性的特征。例如，经验证明，第一卷积层检测边缘，并且比第一层更深的第二卷积层可以检测对象属性，诸如曲率和纹理。注意，CNN 10（图1）可以包括其他数量的卷积层，诸如单层、四层、五层等。

如果这样的CNN已经被训练，并且要被用于要分类的特定输入图像，则结果可能是，决策不是100%充分的，并且CNN可能提供错误。因此，所提出的技术为CNN的验证提供了一种措施。该验证提高了其中涉及或应用CNN的过程（例如医疗诊断过程）的安全性和质量。在下文中，关于深度卷积神经网络（DCNN）来解释所提出的验证技术。然而，所公开的技术（除了DCNN之外）也适用于其他类型的人工神经网络。特别地，在浅层网络中，可能的是直接使用LRP得到鉴别信息。本申请中提出的CLRP仍然起作用。在深度神经网络（不一定是CNN）中，LRP不起作用，并且CLRP非常好地起作用。

图4示出了验证系统的示意图。该系统包括用于提供要分析的图像（分类任务）的输入实体IE和用于提供分类结果36和验证信号vs的输出实体OE。在优选实施例中，输入实体IE和输出实体OE可以集成在一个公共单元中，例如像监视器那样的图形设备。也可以使用其他介质。实体IE、OE电连接（数据链路，像网络连接）到存储器MEM，其中可以实现处理电路P。存储器MEM或其特定部分可以负责存储经训练的深度CNN。进一步地，提供验证单元V以用于执行如本文提到的验证，以便提供验证信号vs，从而验证和检查不同层中的每个神经元相对于目标类tc的CNN决策。当然，对于本领域技术人员来说，在不脱离本发明的范围的情况下，可以修改该架构。例如，处理器P、验证单元V和存储器MEM也可以是分离的单元，并且部署在进行数据交换的不同硬件上。

图5更详细地示出了所计算的验证信号vs的另一示意性表示。输入图像12示出了将根据手头的特定分类任务进行分类的语义内容。在简化的示例中，大象和斑马在前景中表示，并且分类任务是要标识图像中的动物，并将它们彼此分离，并与其他（背景）结构分离。因此，对于这两个目标类tc（这里是：大象和斑马），针对层 L1,…Ln中的每一个计算验证信号vs。如图5中可以看出的，输入图像12中的像素的相关性被示出为每个层L1-Ln中的特征表示。在实验中，使用了四种不同的推广方法来计算相关性值，即：Deconv：DeConvNets可视化，vaGrad：vanilla梯度可视化，GuidBP：导向反向传播，LRP：逐层相关性传播。浅层在左侧，并且深层在右侧。实验示出，对于四种方法中的每一种，经训练的VGG16模型示出自下而上注意力机制。作为比较，如果将方法应用于未训练的VGG16模型，则可视化不示出这样的自下而上注意力机制。

在下文中，更详细地解释了已知的逐层相关性传播（简称LRP），以便示出根据本文提出的技术已经应用的修改。

DCNN中的每个神经元表示非线性函数

，

其中

是激活函数，并且

是用于神经元

的偏差矢量。对应于神经元的非线性函数的输入是前一层

的激活值或网络的原始输入。该函数的输出是神经元

的激活值。整个网络由嵌套的非线性函数组成。为了标识每个输入变量的相关性，LRP方法（细节参见Bach等的论文，在上面的现有技术部分中提到）将激活值从单个类特定神经元逐层传播回到输入空间。激活值在softmax归一化之前取得。在后向传递的每个层中，给定神经元

的相关性得分

，通过使用局部重新分配规则重新分配相关性得分来计算神经元

的相关性

。最常用的规则是

规则和

规则，其定义如下：

规则：

规则：

并且区间[1，h]是输入域。

在我们的工作中，我们为以下事实提供了理论基础：在深度卷积整流器神经元网络中，ReLU掩码和池化开关决定解释中可视化的模式，该模式独立于类信息。这就是为什么由LRP在DCNN上生成的解释（显著性图）没有类鉴别性的原因。该分析还解释了由其他反向传播方法生成的非鉴别性解释，诸如DeConvNets可视化、vanilla梯度可视化和导向反向传播。

因此，我们修改并推广上面提及的已知的基于反向传播的算法，以提供一种新的算法，称为对比逐层相关性传播，简称CLRP，用于以显著性图的形式取得类鉴别性解释。

对比逐层相关性传播CLRP

在介绍我们的CLRP之前，我们首先讨论LRP中的守恒特性。在DNN中，给定输入X={x₁, x₂, x₃,…, x_n}，输出Y={y₁, y₂, y₃,…, y_m}，softmax层之前神经元

的得分

（激活值），LRP通过将得分

逐层重新分配回到输入空间来为类

生成解释。输入神经元的所分派相关性值为R={r₁, r₂, r₃,…, r_n}。守恒特性定义如下：

定义1：如果输入神经元的所分派相关性值之和等于类特定神经元的得分，则生成的显著性图是守恒的，

。

在本节中，我们考虑分别从不同的类特定神经元重新分配相同的得分。由于不同的权重连接，所分派的相关性R不同。然而，那些相关性矢量的非零模式几乎是相同的，这就是为什么LRP对不同的类生成几乎相同的解释。根据守恒特性，每个相关性矢量的和等于重新分配的得分。对每个目标类有鉴别性的输入变量是输入神经元的子集，即

。产生解释的挑战是标识对应类的鉴别性像素X dis。在图像分类的解释中，显著边缘上的像素总是比包括全部或部分Xdis的其他像素接收更高的相关性值。那些具有高相关性值的像素对于对应的目标类不一定是鉴别性的。我们观察到，在对其他类的解释中，X dis接收到比相同像素更高的相关性值。换句话说，我们可以通过比较两个类的两个解释来标识Xdis。所述类中的一个是要解释的目标类。另一个类被选择作为标识目标类的X dis的辅助。为了更准确地标识X dis，我们构造了虚拟类，而不是从输出层选择另一个类。

我们提出了构造虚拟类的至少两种方式。在图6中示出CLRP的概述。对于每个预测的类，该方法通过比较两个信号来生成类鉴别性解释。点划线（在图6中在上面的后向传递中：下两条线，以及在下面的后向传递中：上面的线）意指预测的类所表示的信号。虚线（在图6中上面的后向传递中：上两条线，以及在下面的后向传递中：下两条线）对与预测的类相反的对偶概念进行建模。最后的解释是两个信号生成的两个显著性图之间的差异。

我们如下正式描述CLRP。第j个类特定神经元

通过它们之间的层的权重

连接到输入变量，其中

意指连接第（i - l）层和第i层的权重，并且

意指连接第（i - l）层和第i层中的第j个神经元的权重。神经元

对视觉概念

进行建模。对于输入示例X，LRP将神经元的得分

映射回到输入空间中，以取得相关性矢量

。

我们构造了对偶虚拟概念

，其将相对的视觉概念建模为概念

。例如，概念

对斑马进行建模，并且构造的对偶概念

对非斑马进行建模。对虚拟概念

进行建模的一种方式是选择除表示

的目标类之外的所有类。利用权重

由所选的类表示概念

，其中

意指连接到排除第j个神经元的输出层的权重。例如，图6中的点划线连接到除目标类斑马之外的所有类。接下来，目标类的得分

被均匀地重新分配给其他类。给定相同的输入示例X，LRP为对偶概念生成了解释

。

对比逐层相关性传播定义如下：

，（公式2）

其中函数max（0，X）意指用零替换X的负元素。这两个显著性图之间的差异消除了公共部分。在没有占主导地位的公共部分的情况下，R CLRP中的非零元素是最相关的像素Xdis。如果神经元

处于神经网络的中间层中，则构造的R CLRP可以用来理解神经元的作用。

对虚拟概念

进行建模的另一种方式是否定权重

。概念

可以用权重

来表示。除了最后一层的权重

被否定之外，所有权重都与概念

中的相同。在实验部分中，我们称第一建模方法为CLRP1，并且称第二建模方法为CLRP2。在论文“Zhang, J., Lin, Z., Brandt, J., Shen, X.,Sclaroff, S.: 'Top-down neural attention by excitation backprop' ，EuropeanCon ference on Computer Vision, Springer (2016) 543-559”中的对比公式可以通过归一化和减去两个所生成的显著性图来应用于其他反向传播方法。然而，归一化强烈依赖于最大值，该最大值可能由噪声像素引起。基于LRP的守恒特性，在提出的CLRP中避免了归一化。

我们进行实验来评估我们提出的方法。第一个实验旨在为各个分类决策生成类鉴别性解释。

在实验中，LRP、CLRP1和CLRP2被应用于为不同的类生成解释。实验是在预先训练的VGG16网络上进行的（更多细节参见Simonyan, K., Zisserman, A.: 'Very deepconvolutional networks for large-scale image recognition' ; arXiv preprintarXiv: 1409.1556 （2014））。每层中使用的传播规则与上面提到的关于LRP进行解释的相同。我们对多个对象的图像进行分类。分别为两个最相关的预测类生成解释。

图7示出了两个类（即斑马和非洲大象）的解释。通常，在图7中，使用在ImageNet上预先训练的VGG16网络对多个对象的图像进行分类。对于这两个相关类的解释是由LRP和CLRP生成的。CLRP生成了类鉴别性的解释，而LRP为不同的类（这里是斑马和大象）生成了几乎相同的解释。每个生成的解释可视化斑马和非洲大象这两者，这不是类鉴别性的。相反，CLRP1和CLRP2这两者均仅标识与对应类相关的鉴别性像素。对于目标类斑马，仅有斑马对象上的像素是可视化的。甚至对于斑马群和大象群共存的复杂图像，CLRP方法仍然能够找出类鉴别性的像素。

关于图6和图7，注意，最初自动计算的图包括大的黑色部分，因此图像已经被转换成示意性表示。因此，与图相比，文本更充分和相关。

我们评估了具有多个对象的大量图像的方法。CLRP生成的解释总是类鉴别性的，但不一定对每个类都有语义上的意义。原因之一是VGG16网络没有针对多标签分类进行训练。其他原因可能是不完整的学习和训练数据集中的偏差。

LRP的实现并非是平凡的。他们作者提供的实现仅支持CPU计算。对于VGG16网络，在英特尔

的机器上，花费30s生成一个解释。计算开销使得不可能在大数据集上评估LRP。我们实现了LRP方法的GPU版本，其将30s降低到0.1824s来在单个NVIDIA Tesla K80 GPU上生成一个解释。该实现减轻了低效率的问题，并使得在更大的数据集上对LRP进行定量评估成为可能。

在实验中，我们证明了在单个分类决策中研究神经元之间的差异是可能的。低层神经元可能具有不同的局部接收域。进一步证明了不同的神经元聚焦于图像的不同部分。

它们之间的差异可能是由不同的输入刺激引起的。我们将具有相同接收域的神经元——例如全连接层中的单个神经元——所学习的高级别概念可视化。对于单个测试图像，LRP和CLRP2被应用于可视化激活特定神经元的刺激。我们不使用CLRP1是因为相反的视觉概念不能由同一层中剩余的神经元来建模。在VGG16网络中，我们可视化来自fcl层的8个激活的神经元x 1-8。

进一步证明了不同的神经元聚焦于图像的不同部分。该信息将在验证信号vs中提供，以使CNN决策对于用户透明，并在输入图像中可追溯。

所提出技术的另一方面涉及使用自下而上注意力的概念进行特征评估。通常，验证信号vs作为结果数据集的计算使得可以研究各个输入图像和它们的特征表示之间的关系如何随着越来越深的层而演进。利用本文提出的技术，可能的是不仅分析和验证CNN的输出层，而且还分析和验证内部层，以便取得更详细得多的理解（表示在验证信号vs中）。

因此，给定验证信号vs，CNN决策可能经受验证、检查或附加分析。给定单个输入图像，对于每个层的表示，我们从输入图像找到与表示相关的刺激。通过比较对应不同层的负责刺激模式，我们可以理解不同层中特征表示的差异。

如背景部分中提及的，经典的显著性模型在性能和灵活性方面不令人满意；后者，因为必须事先执行耗时的标记过程。本技术克服了这些问题。

用于解释分类决策的已知方法。像vanilla梯度可视化一样，导向反向传播和LRP将基于梯度的值标识为每个像素与给定类的相关性。他们将类特定的得分映射到输入空间

，给定图像

和类别c，并且对应于类别c的输出得分是

，其利用整流器卷积神经网络产生。预测得分更容易受到具有高梯度值的像素影响。为了理解输入刺激如何影响特征表示，我们通过利用中间层中的特征激活替换类特定得分来推广方法。对于每个层的特征激活，它们相对于输入像素的导数被计算为相关性值。

给定中间层的特征表示Xn，我们为每个激活

计算像素Ri的梯度。梯度由对应的激活xi加权，并分别针对每个像素进行聚合。最终相关性值定义为

（等式1）

其中映射f意指之前引入的方法，即DeConvNets、vanilla梯度或导向反向传播。它们将激活值映射回到输入空间；

意指CNN中前i层的参数和结构信息。通过可视化归一化的相关性值，我们可以探索所有层的特征表示之间的差异。

LRP方法逐层将得分

传播回到输入空间中。在每个层中，LRP根据特定的传播规则（诸如

规则和

规则）重新分配得分。由LRP分派给每个像素的相关性值意指它们与预测类的相关性。LRP量化了像素对特定类输出得分的贡献。类似地，我们可以应用LRP方法来为每个像素对所学习的特征表示的贡献进行定量。我们可以应用LRP来取得像素对特征表示的重要性值。

通常，中间层的高的值可以追溯到输入图像的对象边界上的像素。更深层中的特征图不示出视觉上可识别的模式，因为其大小较小。深层中的值对来自中间层的信息进行编码。这些和中间层的特征表示受到输入图像上几乎相同的像素、即前景对象边界上的像素影响。随着VGG16中卷积运算逐层更深，所计算的特征表示越来越聚焦于前景对象的边界上。很好训练的深度卷积神经网络示出自下而上注意力。

从实验中我们了解到，在CNN中学习的滤波器包含大量边缘检测滤波器和模糊滤波器，这在未训练的模型中几乎不存在。本节中提到的边缘不仅意指输入图像中的显著边缘，而且还意指与周围邻居的激活值不同的激活值所在的显著定位。具有模糊滤波器的卷积运算对图像或特征图进行模糊，使得局部低对比度信息（局部边缘）丢失。然而，大多数显著边缘（显著对象的轮廓）被保留。利用边缘检测滤波器的卷积结果聚焦于显著边缘。在几个卷积层之后，保持激活处于最显著对象的边界上。对于未训练的模型，存在非常有限数量的此类滤波器。此外，所发现的相似滤波器与有意义的滤波器有更多偏差。

下文中将描述如何基于CNN中自下而上的注意力来建模视觉显著性。虽然特征在低层中聚焦于局部显著性，但在深层中提取全局显著性（高级别显著前景对象）。使用导向反向传播方法，我们使用上面等式1中描述的方法计算对应于深层中特征的显著性图。所计算的显著性图更多地聚焦于显著对象的边界上。我们简单地利用高斯模糊处理显著性图。所处理的显著性图被取作最终的显著性图。我们使用在ImageNet上预先训练的现成的深度CNN。全连接层需要固定大小的输入图像。通过移除所述层，剩余的全卷积层可以产生全分辨率显著性图。

所提出的方法不需要任何完全或弱监督式信息。特别是，这里提出的验证方法不需要类别标签、边界框标签和逐像素分段标签。

为了进一步细化显著性图，在优选实施例中，使用超像素分割图像。对于每个超像素，可能的是对所有像素的显著性值进行平均，并且然后对显著性图应用阈值处理来移除低显著性，这移除了显著性图上的噪声值。另一个选项是对一个图像及其噪声变体的显著性图的平均。后处理确实提高了针对显著性检测任务的性能。

在使用自下而上的注意力机制的情况下，如上所述，可能的是检测显著对象。在实验中，我们比较了它们针对显著性检测任务的表现，并示出了不同层和不同卷积网络之间关于它们自下而上注意力能力的差异。通过检测显著目标，我们验证了预先训练的CNN的自下而上注意力的有效性。竞争检测性能指示，自下而上的注意力是CNN的内在能力。

关于实现细节，预先训练模型取自Pytorch中的torchvision模块，即AlexNet、VGGNet、ResNet。这些CNN的全连接层被移除。未改变大小的原始图像被取作前向传递的输入。计算全连接层之前的最后一个层的特征表示。对于每个特征表示（每个层中的激活），我们创建显著性图，其值指示每个像素与特征表示多相关。然后利用高斯模糊处理显著性图。与高层特征相关的像素通常位于显著的前景对象上。即，显著性图的值对应于对应输入图像的每个像素的显著性。

下面将参照图8解释用于提供验证数据集的一般过程。

图8示出了根据本发明优选实施例的流程图。在验证方法开始之后，在步骤S1中，存储器MEM被访问，以用于使用存储的经训练的CNN进行图像分类任务。在另一步骤中，接收输入图像，并且在步骤S2中，对输入图像应用CNN。在执行阶段期间，可以使用两个替代子步骤S3或S4，即：

-在步骤S3中应用对比逐层相关性传播算法CLRP，或

-应用自下而上的注意力模式BUAP，其在步骤S4中由CNN在CNN的执行阶段中（不在训练阶段中）隐式学习，

用于在步骤S5中提供验证信号vs。在此之后，该方法可以被重复或者可以结束。

总之，借助于应用对比反向传播算法，由验证信号vs计算的验证提供了对CNN的各个决策的更好理解，如上面解释的。通过使用对比反向传播，验证方法变得计算成本更低（特别是没有优化步骤是必要的），并且提供了对训练的CNN的更好理解。此外，通过调整CNN的架构和/或训练过程，可以帮助调试CNN。

根据上述方法和单元，可能的是通过逐层将预测得分重新分配回到输入空间中来标识每个输入的相关性。

视觉分类任务也可以是工业分类任务，以便检测由相机、视频或产品的其他视觉图像生成设备生成的图像的异常，如由增材制造生成的对象层或传感器数据的可视化图表。

在尚未明确描述的地方，结合附图描述的各个实施例或它们的各个方面和特征可以彼此组合或交换，而不限制或扩宽所描述的发明的范围，只要这样的组合或交换是有意义的并且在本发明的意义上。关于本发明的特定实施例或关于特定附图描述的优点，在任何适用的情况下，也是本发明的其他实施例的优点。权利要求中的任何附图标记不应被解释为限制范围。

Claims

1.一种用于验证卷积神经网络（CNN）的视觉分类架构的计算机实现方法，包括以下方法步骤：

-利用卷积神经网络（CNN）访问（S1）存储器（MEM），所述卷积神经网络（CNN）被训练用于分类成目标类（tc）集合的视觉分类任务；

-对于输入图像（12）使用（S2）所述卷积神经网络（CNN），并且在所述卷积神经网络（CNN）的前向传递之后，在后向传递中：

-应用（S3）对比逐层相关性传播算法（CLRP）或

-应用（S4）隐式学习的自下而上注意力模式（BUAP），以验证所述卷积神经网络（CNN）的分类能力

用于提供（S5）验证信号（vs），其中CLRP算法（S3）包括以下步骤：

-借助于反向传播算法针对分类任务的每个目标类（tc）生成（S31）第一显著性图；

-针对每个目标类（tc）计算（S32）虚拟类集合，所述虚拟类与相应的目标类（tc）相反；

-借助于反向传播算法针对虚拟类集合生成（S33）第二显著性图；

-计算（S34）第一显著性图和第二显著性图之间的差异，以用于计算最终显著性图。

2.根据权利要求1所述的方法，其中验证信号（vs）被提供为卷积神经网络（CNN）的每一层上的每个特征的显著性图。

3.根据前述权利要求中任一项所述的方法，其中，通过应用（S3）对比逐层相关性传播算法（CLRP），生成类鉴别性和实例特定的显著性图。

4.根据权利要求2所述的方法，其中，为了应用（S4）隐式学习的自下而上注意力模式（BUAP），对反卷积CNN算法、梯度反向传播算法或逐层反向传播算法进行修改，以便针对特征而不是针对类生成显著性图。

5.根据权利要求1所述的方法，其中针对特定目标类（tc）计算虚拟类是通过以下各项执行的：

-将目标类集合中的任何其他类定义为虚拟类，或者通过

-将目标类集合中的所有其他目标类定义为虚拟类，或者通过

-通过生成附加类并使用权重将其与最后一层连接来构造虚拟类，其中所述权重是前向传递的逆权重。

6.根据权利要求4所述的方法，其中应用（S4）自下而上注意力模式（BUAP）包括：

-收集和存储CNN的所有特征，其中特征包括针对输入图像的CNN的相应层中的所有激活；

-针对所述特征中的每一个创建显著性图。

7.根据前述权利要求中任一项所述的方法，其中视觉分类任务是医学图像中的医学分类任务，以便检测异常。

8.根据前述权利要求中任一项所述的方法，其中只有当所提供的验证信号（vs）高于可预先配置的置信阈值时，才批准卷积神经网络（CNN）的应用。

9.根据权利要求6所述的方法，其中当应用自下而上注意力模式来生成显著性图时，使用导向反向传播算法。

10.根据前述权利要求中任一项所述的方法，其中所生成的显著性图被后处理和/或可以被细化和/或可以应用取平均和/或阈值处理。

11.一种验证单元（V），被配置用于验证卷积神经网络（CNN）的视觉分类架构，包括：

-具有卷积神经网络的存储器（MEM），所述卷积神经网络被训练用于分类成目标类（tc）集合的视觉分类任务；

-处理器（P），其被配置用于使用卷积神经网络（CNN），并且其中处理器（P）在卷积神经网络的前向传递之后，在后向传递中被配置为：

-应用对比逐层相关性传播算法（CLRP）或

-应用由CNN隐式学习的自下而上注意力模式（BUAP）来验证CNN的分类能力

-用于针对每个目标类（tc）生成显著性图，

其中CLRP算法（S3）包括以下步骤：

12.一种包括程序单元的计算机程序产品，当程序单元被加载到计算机的存储器中时，所述程序元素促使计算机实行根据前述方法权利要求之一的用于验证卷积神经网络（CNN）的视觉分类架构的方法的步骤。

13.一种其上存储有卷积神经网络（CNN）和程序单元的计算机可读介质（MEM），当程序单元由计算机执行时，卷积神经网络（CNN）和程序单元可以被计算机读取和执行，以便执行根据前述方法权利要求之一的用于验证卷积神经网络（CNN）的视觉分类架构的方法的步骤。