CN114724184A

CN114724184A - 一种基于对比层级相关性传播理论的鸟类分类方法

Info

Publication number: CN114724184A
Application number: CN202210373006.8A
Authority: CN
Inventors: 王蕊; 史玉龙; 孙辉; 袁红; 郭爱强; 王羽玥
Original assignee: Civil Aviation University of China
Current assignee: Civil Aviation University of China
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-08

Abstract

本发明提供了一种基于对比层级相关性传播理论的鸟类分类方法。获取待鸟类分类图像数据集，并通过对比层级相关性传播计算所述鸟类图像数据集中每个待鸟类分类图像关键特征区域的空间级相关性掩码；根据所述相关性掩码，利用深度神经网络的置信度分数确定每个待鸟类分类图像的通道级权重；将所述通道级权重与空间级相关性掩码进行线性加权，生成对不同类型鸟类标记的显著图。本发明在平均下降、平均增长和基于能量的三个评价指标上达到了先进性能，能够更好的发现影响模型决策的重要区域，从而更准确高效的对鸟类进行分类。本发明应用于鸟类细粒度图像分类任务，对模型的错误分类行为进行分析，并指导模型的训练过程，实现更准确的鸟类分类。

Description

一种基于对比层级相关性传播理论的鸟类分类方法

技术领域

本发明涉及鸟类识别技术领域，特别涉及一种基于对比层级相关性传播理论的鸟类分类方法。

背景技术

目前，随着深度学习技术的发展，复杂的神经网络系统在图像、声音和自然语言处理等领域取得了卓越成就，并广泛应用于公共安全、医学辅助诊断、环境保护和农业监控等现实任务。具有巨大的潜在应用空间。尽管神经网络模型在某些场景中具有出色的表现，甚至超越了人类。然而，相比于传统的，易于解释的，由人工设计特征集和专家经验构建的机器学习算法，以卷积神经网络为代表的表征学习算法高度依赖于模型的非线性和调试技术，并在算法设计时强调模型的泛化性能，而放弃可解释性这一要求。深度神经网络缺乏可解释性严重制约了其在安全性要求较高领域的进一步应用。

当前主流的深度神经网络可解释性研究方法借助于卷积神经网络在图像数据处理上的天然优势，通过可视化图像或视频中影响网络决策的特征，突出显示影响模型预测结果的重要区域。这些方法从广义的定义来看，可以分为基于扰动的方法、基于反向传播的方法和基于类激活映射的方法。基于扰动的算法可以看作是归因过程，通过修改输入探测表征向量对系统输出的重要性。

现有技术在鸟类分类中，典型的基于扰动的方法可以分为简单扰动有意义的扰动和生成式扰动三种方式。但是如果使用固定尺寸的像素块，需要按照从左到右、从上到下的顺序依次遮挡输入图像的各区域，从而获得被遮挡区域对模型决策的重要性。如果使用优化方式生成扰动掩码，可以有效遮挡重要像素，使得目标类别分数达到局部最低。如果使用生成式扰动方法，在视觉上得到更加自然的扰动图像。虽然这些方法可以获得较好的视觉解释，但需要对模型进行多次迭代，所需时间长，计算成本高。基于反向传播的算法主要分为基于梯度的方法和基于层级相关性传播理论的方法。在现有技术中，还提出了普通梯度传播方法和导向梯度传播方法，但这两种方法在深层网络传播过程中存在梯度消失和难以完全反应输入特征的重要性等问题。

发明内容

本发明提供一种基于对比层级相关性传播理论的鸟类分类方法，用以准确高效的找到影响鸟类分类的关键特征区域，解决这些现有技术需要对模型进行多次迭代，所需时间长，计算成本高。普通梯度传播方法和导向梯度传播方法两种方法在深层网络传播过程中存在梯度消失和难以完全反应输入特征的重要性等问题的情况。

一种基于对比层级相关性传播理论的鸟类分类方法，包括：

获取待鸟类分类图像数据集，并通过对比层级相关性传播计算所述鸟类图像数据集中每个待鸟类分类图像关键特征区域的空间级相关性掩码；

根据所述相关性掩码，利用深度神经网络的置信度分数确定每个待鸟类分类图像的通道级权重；

将所述通道级权重与空间级激活掩码进行线性加权，生成对不同类型鸟类标记的目标显著图，并确定影响模型决策的鸟类关键特征区域。

优选的、所述方法还包括：

将所述待鸟类分类图像数据集中的待鸟类分类图像输入至预设的深度神经网络，确定不同目标类别鸟类的预测分值；其中，

所述预测分值通过下式得到：

y^c＝f^c(I,θ)

其中，y^c表示深度神经网络f(x)对目标类别c的预测分值，c代表鸟类的类型参数；I表示待分类鸟类图像；θ为经过训练的模型参数；

将所述预测分值作为对比层级相关性传播的起点。

优选的、所述对比层级相关性传播计算包括网络前向计算阶段和相关性分数反向传递阶段。

优选的、所述网络前向计算阶段包括：

建立基于多个非线性函数嵌套组成的深度神经网络；其中，

所述非线性函数嵌套构成了多层的相关性计算网络；

根据所述深度神经网络，分别计算每个待鸟类分类图像的相关性输出值；其中，

所述相关性输出值通过下式计算得到：

其中，

表示第i张待鸟类分类图像在第l+1层的相关性输出值；j表示激活函数；x^(l)表示鸟类分类图像在第l+1层的相关性输出值；

表示第i张待鸟类分类图像在第l+1层网络共享的权值；

第i张待鸟类分类图像在第l+1层的偏差；l表示层数，i＝1，2，3……n；n表示待鸟类分类图像数据集中鸟类图像的数量。

优选的、所述相关性分数反向传递阶段包括：

根据所述相关性计算网络，构建多层级相关性传播规则；

将所述相关性输出值，按照所述多层级相关性传播规则，进行空间分解，确定每个待鸟类分类图像在空间分解时的分解变量；

根据所述分解变量和所述相关性输出值，确定相关性分数；其中，

所述相关性分数表示对比层级相关性传播计算中对每个待鸟类分类图像中每个位置的网络决策的贡献值；

所述确定相关性分数还包括，对所述相关性分数进行标准化；其中，

所述标准化为将所述相关性分数的取值固定在区间[0～1]之间；

根据所述贡献值，生成相关性掩码；其中，

所述相关性掩码的通过下式确定：

其中，R^c表示对目标类别c生成的类别相关分数；

表示R^c中第k个鸟类图像特征通道中每个位置关于目标类别c的相关性分数的空间集合；min(R^c)表示对目标类别c生成的最小类别相关分数；max(R^c)表示对目标类别c生成的最大类别相关分数；

表示第k个待分类鸟类图像特征通道关于目标类别c的空间及相关性掩码；A_k表示第k个待分类鸟类图像的图像特征通道。

优选的、所述方法还包括：

根据所述相关性掩码，确定相关性掩码屏蔽的屏蔽区域；

将所述屏蔽区域通过模糊的输入图像信息进行代替，生成掩码图像。

优选的、所述方法还包括：

将所述掩码图像输入至深度神经网络，确定每个相关性掩码的重要性；

将所述重要性作为每个待鸟类分类图像的通道级权重；其中，

所述通道级权重如下式所示：

其中，

表示k个待分类鸟类图像关于目标类别c的通道级权重；f^c(I′)表示鸟类掩码图像输入到深度神经网络中对目标类别c的预测分值；f^c(I′)表示经过模糊的鸟类图像输入到深度神经网络中对目标类别c的预测分值；

优选的、所述方法还包括：

根据所述线性加权，生成第一显著图；

根据所述第一显著图，确定不同颜色深度的显著像素；

根据所述显著像素，对不同鸟类进行分类标记；

根据所述分类标记生成目标显著图。

优选的、所述方法还包括：

获取历史鸟类分类数据，判定所述目标显著图中易分类错误的第二显著图；

将所述第二显著图进行裁剪，并在就裁剪后进行上采样操作；其中，

所述裁剪步骤为：确定所述第二显著图中鸟类的长度和宽度，根据所述长度和宽度，设定最小边界框，根据所述最小边界框对所述第二显著图进行裁剪；

将上采样后的第二显著图像重新进行对比层级相关性传播计算，增强显示鸟类分类图像的关键性区域。

优选的、所述方法还包括：

获取目标显著图的掩码区域和所述上采样结果；

根据所述掩码区域和上采样结果，判断是否存在图像噪声；

根据所述图像噪声，确定所述目标显著图的图像质量；

将所述图像质量作为每个目标显著图的收敛结果，并将每个目标显著图通过所述对比层级相关性传播计算进行迭代收敛计算，并在收敛结果不变时，确定最终的目标显著图。

本发明的有益效果在于：本发明摆脱了对梯度的依赖，利用对比层级相关性传播和网络的置信度分数从空间域和通道域实现对深度神经网络进行由粗到细的解释，实现了更明显的鸟类分类关键特征区域显示，分类的效果更好。本发明的方法直观易懂，在平均下降、平均增长和基于能量的三个评价指标上达到了先进性能，能够更好的发现影响模型决策的重要区域，从而更快速的进行鸟类分类。对深度神经网络进行解释时无需对模型的结构进行修改和重新训练，使用更加通用和方便，并通过了完整性检查，为一种网络调试工具和数据增强策略，应用于细粒度图像分类任务，对模型的错误分类行为进行分析，并指导模型的训练过程，取得了明显效果，实现更准确的鸟类分类结果，本发明的技术效果如附图4所示，本发明通过显著图，能够更加清楚的进行分类。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于对比层级相关性传播理论的鸟类分类方法的方法流程图；

图2为本发明实施例中网络前向计算阶段和相关性分数反向传递阶段的计算示意图；

图3为本发明实施例中获得显著图的整体处理流程图；

图4为本发明实施例中鸟类关键特征区域定位结果图；

图5为本发明实施例中对远距离鸟类的识别图；

图6为本发明实施例中数据增强的显示过程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

以卷积神经网络为代表的深度学习算法在鸟类分类中取得了巨大成功，但是这些算法高度依赖于模型的非线性和调试技术，在应用过程中普遍存在黑箱属性，严重限制了其在安全敏感任务中的应用。为此，因此，本发明提出了一种基于对比层级相关性传播理论的鸟类分类方法，本发明基于由粗到细的类激活映射算法(CF-CAM)，用于对深度神经网络的错误决策行为进行诊断。该算法重新建立了特征图和模型决策之间的关系，利用对比层级相关性传播获取特征图中每个位置对网络决策的贡献生成空间级的相关性掩码，找到影响模型决策的重要性区域，再与经过模糊化操作的输入图像进行线性加权重新输入到网络中得到特征图的重要性分数，从空间域和通道域实现对深度神经网络进行由粗到细的解释。使得本发明的CF-CAM相比于现有的方法具有更好的目标定位能力。将CF-CAM作为一种网络调试工具和数据增强策略应用于鸟类图像分类任务，可以有效提高网络识别的准确率，相对于现有技术，本发明的CF-CAM方法的有效性和优越性。

实施例1：

如附图1和附图3所示，一种基于对比层级相关性传播理论的鸟类分类方法，包括：

将所述通道级权重与空间级激活掩码进行线性加权，生成对不同类型鸟类标记的目标显著图，准确高效的显示并确定影响模型决策的鸟类关键特征区域。

上述技术方案的原理在于：本发明的原理是在鸟类分类的过程中，通过新颖有效的细粒度类激活映射CF-CAM，即对比层级相关性传播计算、通道级权重和线性加权的方式，对鸟类图像进行分类，生成将需要分类的鸟类图像生成更加明显显著的图像，准确高效的找到影响鸟类分类的关键特征区域。

上述技术方案的有益效果在于：本发明摆脱了对梯度的依赖，利用对比层级相关性传播和网络的置信度分数从空间域和通道域实现对深度神经网络进行由粗到细的解释，实现了更明显的鸟类分类显示，分类的效果更好。本发明的方法直观易懂，在平均下降、平均增长和基于能量的三个评价指标上达到了先进性能，能够更好的发现影响模型决策的重要区域，从而更快速的进行鸟类分类。对深度神经网络进行解释时无需对模型的结构进行修改和重新训练，使用更加通用和方便，并通过了完整性检查，为一种网络调试工具和数据增强策略，应用于细粒度图像分类任务，对模型的错误分类行为进行分析，并指导模型的训练过程，取得了明显效果，实现更清晰的鸟类分类，本发明的技术效果如附图4所示，本发明通过显著图，能够更加准确的找到鸟类关键特征区域，实现更佳的分类性能。

实施例2：

优选的、所述方法还包括：

所述预测分值通过下式得到：

y^c＝f^c(I,θ)

将所述预测分值作为对比层级相关性传播的起点。

上述技术方案的原理在于：本发明在进行鸟类分类的过程中，本发明因为采用的是对比层级相关性传播理论，因此，在进行分类的时候，通过深度神经网络训练，进行预测，这个预测，是对不同鸟类类型的预测，也就是通过现有的图片，在初始预测中，判断有那些鸟类类型，每个类型都以分数的形式体现。

上述技术方案的有益效果在于：相对于现有技术，本发明在最后的分类决策中，更加具有连续性。

实施例3：

优选的、所述对比层级相关性传播计算包括网络前向计算阶段和相关性分数反向传递阶段，如附图2所示。

上述技术方案的原理在于：本发明具有两个大的步骤，也是利用对比层级相关性传播理论获取特征图中每个位置对网络决策的贡献生成空间级的相关性掩码。再通过上采样到输入图像尺寸大小的相关性掩码与输入图像进行加权，经过有意义的扰动后重新输入到网络中，获取特征图的重要性分数，作为特征图的通道级权重。最后将产生的通道级权重与空间级相关性掩码进行加权求和，生成最终的显著图，突出显示鸟类关键特征区域。

上述技术方案的有益效果在于：相对于现有技术中的深度神经网络的分类方法，本发明对深度神经网络的分类具有更加进可靠的解释，能够准确高效的确定影响模型决策的重要区域，也就是鸟类分类的关键因素。

实施例4：

优选的、所述网络前向计算阶段包括：

建立基于多个非线性函数嵌套组成的深度神经网络；其中，

所述非线性函数嵌套构成了多层的相关性计算网络；

所述相关性输出值通过下式计算得到：

其中，

表示第i张待鸟类分类图像在第l+1层网络共享的权值；

上述技术方案的原理在于：本发明在网络前向计算的过程中，基于神经网络，将每个待分类的鸟类图像作为神经网络不同层级的输入向量，在预设的激活函数下，进行激活，然后通过每一层的神经元偏差，确定每个神经元的输出值，深度神经网络是由多个非线性函数组成，更有连续性，能够实现逐层的偏差检测，然后输出对应的相关性输出值。

在本发明中，网络的输出值f(x)可按照指定的层级相关性传播规则，从输出值一直分解到输入空间的每个变量上，从而度量每个变量和网络输出值之间的相关性分数R。常用的层级相关性传播规则是z⁺规则和z^β规则：其定义通过下式体现：

其中，

和

分别表示连接第l层和第l+1层神经元的正、负权值；[U,V]表示神经元激活值的取值区间。在CF-CAM算法设计过程中，本发明利用对比层级相关性传播获取特征图中每个位置对网络决策的贡献，这个贡献值就是相关性分数。

上述技术方案的有益效果在于：本发明深度神经网络正是由若干个此类非线性函数嵌套组成，从而具有高度的非线性和出色的检测性能。

实施例5：

优选的、所述相关性分数反向传递阶段包括：

根据所述相关性计算网络，构建多层级相关性传播规则；

根据所述贡献值，生成相关性掩码；其中，

所述相关性掩码的通过下式确定：

其中，R^c表示对目标类别c生成的类别相关分数；

表示R^c中第k个待分类鸟类图像特征通道每个位置关于目标类别c的相关性分数的空间集合；min(R^c)表示对目标类别c生成的最小类别相关分数；max(R^c)表示对目标类别c生成的最大类别相关分数；

上述技术方案的原理在于：本发明在进行相关性分数反向传递阶段，通过逐层向目标层进行反向传递，获取目标层所有特征图中每个位置对模型决策的相关性分数。为避免由于特征图中每个位置对模型决策贡献不同，导致生成的类别相关性掩码缺乏连续性，本文在生成类别相关性掩码之前，首先对特征图的类别相关性分数进行标准化，使其取值在[0,1]区间之间，用来生成平滑的类别相关性掩码。

上述技术方案的有益效果在于：相对于现有技术，本发明生成的相关性掩码不会缺乏连续性，具有更加标准、更加平滑的特性。

实施例6：

优选的、所述方法还包括：

根据所述相关性掩码，确定相关性掩码屏蔽的屏蔽区域；

上述技术方案的原理在于：本发明本文将生成的空间级相关性掩码与对应的特征图按照通道维度逐元素相乘，用来保留图像中与模型决策相关的像素。但是因为保留的像素区域和未保留的像素区域之间存在尖锐的边界，容易在网络预测过程中产生对抗性的影响。本发明将被相关性掩码屏蔽的区域使用模糊的输入图像信息进行代替，用来生成掩码图像。

上述技术方案的有益效果在于：本发明生成的图像掩码，在保留的像素区域和未保留的像素区域之间消除了尖锐的边界，在预测过程中也不会产生对抗性的影响。

实施例7：

优选的、所述方法还包括：

将所述掩码图像输入至深度神经网络，利用深度神经网络的置信度分数确定每个相关性掩码的重要性；

所述通道级权重如下式所示：

其中，

表示k个待分类鸟类图像关于目标类别c的通道级权重；f^c(I′)表示鸟类掩码图像输入到深度神经网络中对目标类别c的预测分值；f^c(I′)表示经过模糊的鸟类图像输入到深度神经网络中对目标类别c的预测分值；上述技术方案的原理在于：在确定通道级权重的过程中，本发明主要原理是：随着卷积神经网络层数的加深，网络提取图像中的语义信息越丰富，只有通过对最后特征图进行通道级的加权调整，可以生成与指定类别最相关的类激活图，因此，本发明首先利用对比层级相关性传播理论获取特征图中每个位置对网络决策的贡献生成空间级的相关性掩码，然后再通过上采样到输入图像尺寸大小的相关性掩码与输入图像进行加权，经过有意义的扰动后重新输入到网络中，获取特征图的重要性分数，作为特征图的通道级权重，以热力图的形式对每个通道的重要特征进行可视化。

上述技术方案的有益效果在于：使用对比层级相关性传播理论的反向传播获取的类别相关性分数作为空间级掩码，摆脱了对全局平均池化层的依赖，使基于类激活映射的方法更具有一般性。

实施例8：

优选的、所述方法还包括：

根据所述线性加权，生成第一显著图；

根据所述第一显著图，确定不同颜色深度的显著像素；

根据所述显著像素，对不同鸟类进行分类标记；

根据所述分类标记生成目标显著图。

上述技术方案的原理在于：本发明在生成显著图之后，显著图只能更加可视化的对于鸟类通过不同程度的光亮进行显示，这就是显著像素的作用，但是没有区分，所以本发明采用了分类标记的方式，通过分类的标记，标记出不同的鸟类，实现鸟类的区分。

上述技术方案的有益效果在于：相对于现有技术本发明得到的结果更加清楚，更加明确的分辨出不同的鸟类。

实施例9：

优选的、所述方法还包括：

上述技术方案的原理在于：本发明也是一种数据增强的方式，本发明通过对网络的中间层生成显著图，对易分类错误的鸟类图像进行剪裁，然后将剪裁后的图像进行上采样操作，恢复至输入图像大小后再重新输入到网络中，用来突出图像中影响模型决策的关键性区域。其中，为了提高剪裁的容错率，本文通过显著图计算出掩码区域后，并不直接进行剪裁，而是在计算出最小边界框后，适当的保留了显著图所指示区域的周边部分。

上述技术方案的有益效果在于：本发明能够对拍摄距离较远鸟类的细粒度特征进行有效提取，如附图5所示，有效的关注于这些重要区域，实现鸟类的精确区分。

实施例10：

优选的、所述方法还包括：

获取目标显著图的掩码区域和所述上采样结果；

根据所述掩码区域和上采样结果，判断是否存在图像噪声；

根据所述图像噪声，确定所述目标显著图的图像质量；

上述技术方案的原理在于：在进行显著图进行数据增强的过程，我们包括输入图像、显著图、由显著图确定的掩码区域和上采放大的结果。由于噪声在一定程度上反应网络的性能，本发明生成显著图的质量作为网络是否收敛的指示，当生成的显著图不再发生变化时则说明网络可能已经收敛，停止对网络进行训练，得到最准确的显著图，如附图6所示。

上述技术方案的有益效果在于：通过收敛值，本发明在不断的迭代计算的过程中，可以得到准确率更高的鸟类识别结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。