CN111353587A

CN111353587A - 一种深度神经网络的可解释生成方法

Info

Publication number: CN111353587A
Application number: CN202010162181.3A
Authority: CN
Inventors: 安竹林; 胡小龙; 程坦; 徐勇军
Original assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Current assignee: Xiamen Institute Of Data Intelligence Institute Of Computing Technology Chinese Academy Of Sciences
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-06-30
Anticipated expiration: 2040-03-10
Also published as: CN111353587B

Abstract

本发明公开了一种深度神经网络的可解释生成方法，包括：S1、挖掘推理路径：获取预训练网络和数据集，采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径；S2、聚合推理路径：将同一类数据的推理路径进行聚合，得到该类数据对应的网络结构；S3、组合网络结构：将同一类数据对应的网络结构进行组合，得到针对特定任务进行推理的子网络，运用子网络进行针对于若干类网络的分类任务，可有效节省网络的存储和计算消耗。

Description

一种深度神经网络的可解释生成方法

技术领域

本发明涉及数据处理领域，具体涉及一种深度神经网络的可解释生成方法。

背景技术

深度神经网络的研究推动了第三波人工智能的发展，在计算机图像领域的很多问题得到了很好的解决。但值得注意的是，深度神经网络由于其参数巨大，造成其设计和训练的复杂性高，从而增加了其应用的门槛。为了促进深度神经网络的广泛应用，大量研究人员公布了各自的预训练网络，包括网络的结构和预训练参数，普通使用者可以应用这些网络解决实际问题。

但是，预训练网络在网络设计的时候通常考虑输出为所有可能类别的全集，并且针对特定数据集，比如图像领域的Cifar-10、Cifar-100和imagenet，分别包含了10类，100类和1000类图像的数据，但对于某些特定的应用场景来说，并不是每次都需要输出所有类别。通常情况下，由于分类类别越多，网络的规模越大，所以如果直接应用现有的预训练网络，即便是存在网络压缩方法，在计算上还是存在冗余。比如某用户需要建立一个区分猫和狗的二分类网络，如果直接应用Cifar-10的预训练的十分类网络，在实际计算时只有部分网络参数与分类结果相关，但是所有网络参数必须都参与计算，从而浪费了计算和存储资源，使得存储和计算效率低下。

发明内容

本发明的目的在于提供一种深度神经网络的可解释生成方法，首先挖掘预训练网络中对应于某分类结果的网络结构，再将同一分类结果的网络结构进行组合，建立针对某几类进行分类的预训练网络的子网络,最后运用子网络进行针对于某几类网络的分类任务，可有效节省了网络的存储和计算消耗。

为实现上述目的，本发明采用以下技术方案：

一种深度神经网络的可解释生成方法，包括：

S1、挖掘推理路径：获取预训练网络和数据集，采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径；

S2、聚合推理路径：将同一类数据的推理路径进行聚合，得到该类数据对应的网络结构；

S3、组合网络结构：将同一类数据对应的网络结构进行组合，得到针对特定任务进行推理的子网络。

优选地，步骤S1中所述关键数据路由路径的获取方法具体为：所述预训练网络每一层包含了若干通道，对于每一个通道，在通道后的ReLU激活之后设置一个控制门变量，并且在神经网络前向传播阶段，每个通道的输出均乘以控制门变量；对于任意输入x，定义如下Loss函数：

min(L(f_θ(x)，f_θ(x；λ))+γ||λ||₁)

其中，f_θ为预训练网络，λ为控制门变量，f_θ(x)为预训练网络的输出，f_θ(x；λ)为增加了控制门变量之后的网络输出，L(f_θ(x)，f_θ(x；λ))为预训练网络与增加控制门变量之后网络的KL损失，γ||λ||₁为控制门变量的L₁损失，γ为加权变量；固定预训练网络的所有参数，通过反向传播反复训练得到λ值；在反向传播过程中使用如下公式计算λ的梯度：

其包含了上述KL损失和L₁损失；通过上述方法计算，得到每一个数据的CDRP向量λⁱ，所述关键数据路由路径为CDRP。

优选地，步骤S1中组合网络结构的具体方法为：对每一类中所有数据的CDRP向量λⁱ求取平均值，得到每一类数据的每个通道的通道重要性向量，具体计算方法为：

其中，λc为通道重要性向量，|c|为该类别中所包含的的数据的个数。

优选地，步骤S3中聚合推理路径的具体方法为：将具体分类任务相对应类别的通道重要性向量进行组合，得到信道重要性组合向量，信道重要性组合向量是一个0-1向量，0表示预训练网络中对应的通道没有在子网络里出现，1表示预训练网络中对应的通道在子网络里出现，使用信道重要性组合向量与预训练网络进行Hadamard乘，得到最终针对特定任务进行推理的子网络。

优选地，所述通道重要性向量的组合方法为求交集、求并集、求异或中的一种。

优选地，所述通道重要性向量的组合方法为求并集，再将信道重要性组合向量进行0-1离散化，具体方法为：

假设需要组合的数据类别集合为C，需要对|C|个通道重要性向量进行组合，得到

的计算方法为先计算组成

的最大值，然后在通过一个阈值进行筛选，大于该阈值的设为1，反之设为0；所述

为

中第j个元素，计算公式为：

其中，thr为阈值，通过上述公式，可以得到0-1向量

通过向量

与预训练网络进行Hadamard乘，得到最终针对特定任务进行推理的子网络。

采用上述技术方案后，本发明与背景技术相比，具有如下优点：

1、本发明通过首先挖掘预训练网络中对应于某分类结果的网络结构，即将预训练网络结构进行可解释的解构，再将同一分类结果的网络结构进行组合，建立针对某几类进行分类的预训练网络的子网络，最后运用子网络进行针对于某几类网络的分类任务，可有效节省了网络的存储和计算消耗。

2、本发明中L(f_θ(x)，f_θ(x；λ))表示预训练网络与增加控制门变量之后网络的KL损失，其可以使增加控制门变量之后的网络尽可能的与原网络输出一致。

3、本发明中γ||λ||₁表示控制门变量的L₁损失，其可以使控制门变量趋向于0，以增加控制门变量向量的稀疏性。

4、本发明中γ为加权变量，使得结果在“信息保护”和“控制门变量的稀疏性”之间进行权衡。

附图说明

图1为本发明的流程框图；

图2为本发明的推理路径的聚合过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

参见图1至图2所示，本发明公开了一种深度神经网络的可解释生成方法，包括：

为了描述方便，以图片数据集为例，该方法可以泛化到其他类型数据集。

S1、挖掘推理路径：

获取预训练网络和图片数据集，采用关键数据路由路径(critical data routinepath，CDRP)挖掘所述图片数据集中每一张图片在预训练网络的神经网络中对应的推理路径。获得CDRP的方法如下：

假设有一个预训练网络f_θ,该网络每一层包含了若干通道，对于每一个通道，在通道后的ReLU激活之后设置一个控制门变量λ，并且在神经网络前向传播阶段，每个通道的输出均乘以λ。对于任意输入x，用f_θ(x)表示预训练网络的输出，用f_θ(x；λ)表示增加了控制门变量之后的网络输出。

得到λ的值的方法如下：固定预训练网络的所有参数，通过反向传播反复训练得到λ值。

定义如下Loss函数：

min(L(f_θ(x)，f_θ(x；λ))+γ||λ||₁)

其中，第一项L(f_θ(x)，f_θ(x；λ))表示预训练网络与增加控制门变量之后网络的KL损失，其可以使增加控制门变量之后的网络尽可能的与原网络输出一致；第二项γ||λ||₁表示控制门变量的L₁损失，其可以使控制门变量趋向于0，以增加控制门变量向量的稀疏性；γ为加权变量，使得结果在“信息保护”和“控制门变量的稀疏性”之间进行权衡。

在反向传播过程中使用如下公式计算λ的梯度：

其包含了上述KL损失和L₁损失。

通过上述方法，可以得到每一张图片的CDRP向量λⁱ，为下一步得到每一类数据的推理路径做好了准备。

S2、聚合推理路径：

得到每张图片的CDRP之后，需要针对每一类图片获得其对应的网络结构，分两步进行：首先，求取每一类中所有图片的CDRP向量λⁱ的平均值，可以获得每一类图片的每个通道的通道重要性向量(Channel Importance Vector，CIV)，用λc表示，具体计算方法如下：

其中，|c|为该类别中所包含的的图片的个数。聚合过程示意图如图2所示。

S3、组合网络结构：

通过上一步，得到了每一类数据对应的网络中每个通道的重要性，即CIV。针对具体的分类任务对相应类别对应的CIV进行组合，便可以得到信道重要性组合向量(CombinedChannel Importance Vector，CCIV)，使用Λ表示。Λ向量是一个0-1向量，0表示预训练网络中对应的通道没有在子网络里出现，1表示预训练网络中对应的通道在子网络里出现。使用Λ向量与预训练网络进行Hadamard乘，便可以得到最终针对特定任务进行推理的子网络。

组合的方法通常有：求交集，求并集，求异或。发明人通过实验发现，使用并集可以在保证精度的前提下得到最小的网络。另外，使用异或也可以在二分类问题得到比较好的结果，但对于多分类问题不易计算，故下面以并集为例进行说明。

CCIV是通过对CIV进行求并集得到的，但是，上一步的得到的CIV是由每一个通道的重要程度组成的向量，要得到CCIV，最终的组合后的向量必须是一个0-1向量，因此必须对聚合后的CIV进行0-1离散化。具体方法如下：

假设需要组合的数据类别集合为C，则需要对|C|个CIV进行组合，得到

(

中第j个元素)的计算方法为先计算组成

的最大值，然后在通过一个阈值(thr)进行筛选，大于该阈值的设为1，反之设为0。即

通过上述公式，可以得到0-1向量

也即CCIV。通过向量

与母网络进行Hadamard乘，便可以得到针对具体任务的子网络。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种深度神经网络的可解释生成方法，其特征在于，包括：

2.如权利要求1所述的一种深度神经网络的可解释生成方法，其特征在于，步骤S1中所述关键数据路由路径的获取方法具体为：所述预训练网络每一层包含了若干通道，对于每一个通道，在通道后的ReLU激活之后设置一个控制门变量，并且在神经网络前向传播阶段，每个通道的输出均乘以控制门变量；对于任意输入x，定义如下Loss函数：

min(L(f_θ(x)，f_θ(x；λ))+γ||λ||₁)

3.如权利要求2所述的一种深度神经网络的可解释生成方法，其特征在于，步骤S1中组合网络结构的具体方法为：对每一类中所有数据的CDRP向量λⁱ求取平均值，得到每一类数据的每个通道的通道重要性向量，具体计算方法为：

其中，λ^c为通道重要性向量，|c|为该类别中所包含的的数据的个数。

4.如权利要求3所述的一种深度神经网络的可解释生成方法，其特征在于，步骤S3中聚合推理路径的具体方法为：将具体分类任务相对应类别的通道重要性向量进行组合，得到信道重要性组合向量，信道重要性组合向量是一个0-1向量，0表示预训练网络中对应的通道没有在子网络里出现，1表示预训练网络中对应的通道在子网络里出现，使用信道重要性组合向量与预训练网络进行Hadamard乘，得到最终针对特定任务进行推理的子网络。

5.如权利要求4所述的一种深度神经网络的可解释生成方法，其特征在于：所述通道重要性向量的组合方法为求交集、求并集、求异或中的一种。

6.如权利要求5所述的一种深度神经网络的可解释生成方法，其特征在于，所述通道重要性向量的组合方法为求并集，再将信道重要性组合向量进行0-1离散化，具体方法为：

假设需要组合的数据类别集合为C，需要对|C|个通道重要性向量进行组合，得到Λ^C，

的计算方法为先计算组成

为Λ^C中第j个元素，计算公式为：

其中，thr为阈值，通过上述公式，可以得到0-1向量Λ^C，通过向量Λ^C与预训练网络进行Hadamard乘，得到最终针对特定任务进行推理的子网络。