CN111353587B - 一种深度神经网络的可解释生成方法 - Google Patents

一种深度神经网络的可解释生成方法 Download PDF

Info

Publication number
CN111353587B
CN111353587B CN202010162181.3A CN202010162181A CN111353587B CN 111353587 B CN111353587 B CN 111353587B CN 202010162181 A CN202010162181 A CN 202010162181A CN 111353587 B CN111353587 B CN 111353587B
Authority
CN
China
Prior art keywords
network
data
channel
vector
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010162181.3A
Other languages
English (en)
Other versions
CN111353587A (zh
Inventor
安竹林
胡小龙
程坦
徐勇军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Xiamen Data Intelligence Research Institute
Original Assignee
Zhongke Xiamen Data Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Xiamen Data Intelligence Research Institute filed Critical Zhongke Xiamen Data Intelligence Research Institute
Priority to CN202010162181.3A priority Critical patent/CN111353587B/zh
Publication of CN111353587A publication Critical patent/CN111353587A/zh
Application granted granted Critical
Publication of CN111353587B publication Critical patent/CN111353587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种深度神经网络的可解释生成方法,包括:S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络,运用子网络进行针对于若干类网络的分类任务,可有效节省网络的存储和计算消耗。

Description

一种深度神经网络的可解释生成方法
技术领域
本发明涉及数据处理领域,具体涉及一种深度神经网络的可解释生成方法。
背景技术
深度神经网络的研究推动了第三波人工智能的发展,在计算机图像领域的很多问题得到了很好的解决。但值得注意的是,深度神经网络由于其参数巨大,造成其设计和训练的复杂性高,从而增加了其应用的门槛。为了促进深度神经网络的广泛应用,大量研究人员公布了各自的预训练网络,包括网络的结构和预训练参数,普通使用者可以应用这些网络解决实际问题。
但是,预训练网络在网络设计的时候通常考虑输出为所有可能类别的全集,并且针对特定数据集,比如图像领域的Cifar-10、Cifar-100和imagenet,分别包含了10类,100类和1000类图像的数据,但对于某些特定的应用场景来说,并不是每次都需要输出所有类别。通常情况下,由于分类类别越多,网络的规模越大,所以如果直接应用现有的预训练网络,即便是存在网络压缩方法,在计算上还是存在冗余。比如某用户需要建立一个区分猫和狗的二分类网络,如果直接应用Cifar-10的预训练的十分类网络,在实际计算时只有部分网络参数与分类结果相关,但是所有网络参数必须都参与计算,从而浪费了计算和存储资源,使得存储和计算效率低下。
发明内容
本发明的目的在于提供一种深度神经网络的可解释生成方法,首先挖掘预训练网络中对应于某分类结果的网络结构,再将同一分类结果的网络结构进行组合,建立针对某几类进行分类的预训练网络的子网络,最后运用子网络进行针对于某几类网络的分类任务,可有效节省了网络的存储和计算消耗。
为实现上述目的,本发明采用以下技术方案:
一种深度神经网络的可解释生成方法,包括:
S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;
S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;
S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络。
优选地,步骤S1中所述关键数据路由路径的获取方法具体为:所述预训练网络每一层包含了若干通道,对于每一个通道,在通道后的ReLU激活之后设置一个控制门变量,并且在神经网络前向传播阶段,每个通道的输出均乘以控制门变量;对于任意输入x,定义如下Loss函数:
min(L(fθ(x),fθ(x;λ))+γ||λ||1)
其中,fθ为预训练网络,λ为控制门变量,fθ(x)为预训练网络的输出,fθ(x;λ)为增加了控制门变量之后的网络输出,L(fθ(x),fθ(x;λ))为预训练网络与增加控制门变量之后网络的KL损失,γ||λ||1为控制门变量的L1损失,γ为加权变量;固定预训练网络的所有参数,通过反向传播反复训练得到λ值;在反向传播过程中使用如下公式计算λ的梯度:
其包含了上述KL损失和L1损失;通过上述方法计算,得到每一个数据的CDRP向量λi,所述关键数据路由路径为CDRP。
优选地,步骤S1中组合网络结构的具体方法为:对每一类中所有数据的CDRP向量λi求取平均值,得到每一类数据的每个通道的通道重要性向量,具体计算方法为:
其中,λc为通道重要性向量,|c|为该类别中所包含的的数据的个数。
优选地,步骤S3中聚合推理路径的具体方法为:将具体分类任务相对应类别的通道重要性向量进行组合,得到信道重要性组合向量,信道重要性组合向量是一个0-1向量,0表示预训练网络中对应的通道没有在子网络里出现,1表示预训练网络中对应的通道在子网络里出现,使用信道重要性组合向量与预训练网络进行Hadamard乘,得到最终针对特定任务进行推理的子网络。
优选地,所述通道重要性向量的组合方法为求交集、求并集、求异或中的一种。
优选地,所述通道重要性向量的组合方法为求并集,再将信道重要性组合向量进行0-1离散化,具体方法为:
假设需要组合的数据类别集合为C,需要对|C|个通道重要性向量进行组合,得到 的计算方法为先计算组成/>的最大值,然后在通过一个阈值进行筛选,大于该阈值的设为1,反之设为0;所述/>为/>中第j个元素,计算公式为:
其中,thr为阈值,通过上述公式,可以得到0-1向量通过向量/>与预训练网络进行Hadamard乘,得到最终针对特定任务进行推理的子网络。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明通过首先挖掘预训练网络中对应于某分类结果的网络结构,即将预训练网络结构进行可解释的解构,再将同一分类结果的网络结构进行组合,建立针对某几类进行分类的预训练网络的子网络,最后运用子网络进行针对于某几类网络的分类任务,可有效节省了网络的存储和计算消耗。
2、本发明中L(fθ(x),fθ(x;λ))表示预训练网络与增加控制门变量之后网络的KL损失,其可以使增加控制门变量之后的网络尽可能的与原网络输出一致。
3、本发明中γ||λ||1表示控制门变量的L1损失,其可以使控制门变量趋向于0,以增加控制门变量向量的稀疏性。
4、本发明中γ为加权变量,使得结果在“信息保护”和“控制门变量的稀疏性”之间进行权衡。
附图说明
图1为本发明的流程框图;
图2为本发明的推理路径的聚合过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
参见图1至图2所示,本发明公开了一种深度神经网络的可解释生成方法,包括:
S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;
S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;
S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络。
为了描述方便,以图片数据集为例,该方法可以泛化到其他类型数据集。
S1、挖掘推理路径:
获取预训练网络和图片数据集,采用关键数据路由路径(critical data routinepath,CDRP)挖掘所述图片数据集中每一张图片在预训练网络的神经网络中对应的推理路径。获得CDRP的方法如下:
假设有一个预训练网络fθ,该网络每一层包含了若干通道,对于每一个通道,在通道后的ReLU激活之后设置一个控制门变量λ,并且在神经网络前向传播阶段,每个通道的输出均乘以λ。对于任意输入x,用fθ(x)表示预训练网络的输出,用fθ(x;λ)表示增加了控制门变量之后的网络输出。
得到λ的值的方法如下:固定预训练网络的所有参数,通过反向传播反复训练得到λ值。
定义如下Loss函数:
min(L(fθ(x),fθ(x;λ))+γ||λ||1)
其中,第一项L(fθ(x),fθ(x;λ))表示预训练网络与增加控制门变量之后网络的KL损失,其可以使增加控制门变量之后的网络尽可能的与原网络输出一致;第二项γ||λ||1表示控制门变量的L1损失,其可以使控制门变量趋向于0,以增加控制门变量向量的稀疏性;γ为加权变量,使得结果在“信息保护”和“控制门变量的稀疏性”之间进行权衡。
在反向传播过程中使用如下公式计算λ的梯度:
其包含了上述KL损失和L1损失。
通过上述方法,可以得到每一张图片的CDRP向量λi,为下一步得到每一类数据的推理路径做好了准备。
S2、聚合推理路径:
得到每张图片的CDRP之后,需要针对每一类图片获得其对应的网络结构,分两步进行:首先,求取每一类中所有图片的CDRP向量λi的平均值,可以获得每一类图片的每个通道的通道重要性向量(Channel Importance Vector,CIV),用λc表示,具体计算方法如下:
其中,|c|为该类别中所包含的的图片的个数。聚合过程示意图如图2所示。
S3、组合网络结构:
通过上一步,得到了每一类数据对应的网络中每个通道的重要性,即CIV。针对具体的分类任务对相应类别对应的CIV进行组合,便可以得到信道重要性组合向量(CombinedChannel Importance Vector,CCIV),使用Λ表示。Λ向量是一个0-1向量,0表示预训练网络中对应的通道没有在子网络里出现,1表示预训练网络中对应的通道在子网络里出现。使用Λ向量与预训练网络进行Hadamard乘,便可以得到最终针对特定任务进行推理的子网络。
组合的方法通常有:求交集,求并集,求异或。发明人通过实验发现,使用并集可以在保证精度的前提下得到最小的网络。另外,使用异或也可以在二分类问题得到比较好的结果,但对于多分类问题不易计算,故下面以并集为例进行说明。
CCIV是通过对CIV进行求并集得到的,但是,上一步的得到的CIV是由每一个通道的重要程度组成的向量,要得到CCIV,最终的组合后的向量必须是一个0-1向量,因此必须对聚合后的CIV进行0-1离散化。具体方法如下:
假设需要组合的数据类别集合为C,则需要对|C|个CIV进行组合,得到 (/>中第j个元素)的计算方法为先计算组成/>的最大值,然后在通过一个阈值(thr)进行筛选,大于该阈值的设为1,反之设为0。即
通过上述公式,可以得到0-1向量也即CCIV。通过向量/>与母网络进行Hadamard乘,便可以得到针对具体任务的子网络。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种深度神经网络的可解释生成方法,其特征在于,包括:
S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;
S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;
S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络;
S4、利用子网络进行网络分类;
步骤S1的具体过程为,挖掘推理路径:
获取预训练网络和图片数据集,采用关键数据路由路径CDRP挖掘所述图片数据集中每一张图片在预训练网络的神经网络中对应的推理路径,获得关键数据路由路径CDRP的方法如下:
假设有一个预训练网络fθ,该网络每一层包含了若干通道,对于每一个通道,在通道后的ReLU激活之后设置一个控制门变量λ,并且在神经网络前向传播阶段,每个通道的输出均乘以λ;对于任意输入x,用fθ(x)表示预训练网络的输出,用fθ(x;λ)表示增加了控制门变量之后的网络输出;
得到λ的值的方法如下:固定预训练网络的所有参数,通过反向传播反复训练得到λ值;
定义如下Loss函数:
min(L(fθ(x),fθ(x;λ))+γ||λ||1)
其中,第一项L(fθ(x),fθ(x;λ)表示预训练网络与增加控制门变量之后网络的KL损失,其可以使增加控制门变量之后的网络尽可能的与原网络输出一致;第二项γ||λ||1表示控制门变量的L1损失,其可以使控制门变量趋向于0,以增加控制门变量向量的稀疏性;γ为加权变量,使得结果在信息保护和控制门变量的稀疏性之间进行权衡;
在反向传播过程中使用如下公式计算λ的梯度:
其包含了上述KL损失和L1损失;
可以得到每一张图片的CDRP向量λi,为下一步得到每一类数据的推理路径做好了准备。
2.如权利要求1所述的一种深度神经网络的可解释生成方法,其特征在于,
步骤S1中组合网络结构的具体方法为:对每一类中所有数据的CDRP向量λi求取平均值,得到每一类数据的每个通道的通道重要性向量,具体计算方法为:
其中,λc为通道重要性向量,|c|为该类别中所包含的数据的个数。
3.如权利要求2所述的一种深度神经网络的可解释生成方法,其特征在于,步骤S3中聚合推理路径的具体方法为:将具体分类任务相对应类别的通道重要性向量进行组合,得到信道重要性组合向量,信道重要性组合向量是一个0-1向量,0表示预训练网络中对应的通道没有在子网络里出现,1表示预训练网络中对应的通道在子网络里出现,使用信道重要性组合向量与预训练网络进行Hadamard乘,得到最终针对特定任务进行推理的子网络。
4.如权利要求3所述的一种深度神经网络的可解释生成方法,其特征在于:所述通道重要性向量的组合方法为求交集、求并集、求异或中的一种。
5.如权利要求4所述的一种深度神经网络的可解释生成方法,其特征在于,所述通道重要性向量的组合方法为求并集,再将信道重要性组合向量进行0-1离散化,具体方法为:
假设需要组合的数据类别集合为C,需要对|C|个通道重要性向量进行组合,得到ΛC的计算方法为先计算组成/>的最大值,然后再通过一个阈值进行筛选,大于该阈值的设为1,反之设为0;所述/>为ΛC中第j个元素,计算公式为:
s.t.0≤c≤C,0≤j≤len(ΛC)
其中,thr为阈值,通过上述公式,可以得到0-1向量ΛC,通过向量ΛC与预训练网络进行Hadamard乘,得到最终针对特定任务进行推理的子网络。
CN202010162181.3A 2020-03-10 2020-03-10 一种深度神经网络的可解释生成方法 Active CN111353587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010162181.3A CN111353587B (zh) 2020-03-10 2020-03-10 一种深度神经网络的可解释生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010162181.3A CN111353587B (zh) 2020-03-10 2020-03-10 一种深度神经网络的可解释生成方法

Publications (2)

Publication Number Publication Date
CN111353587A CN111353587A (zh) 2020-06-30
CN111353587B true CN111353587B (zh) 2024-01-12

Family

ID=71194384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010162181.3A Active CN111353587B (zh) 2020-03-10 2020-03-10 一种深度神经网络的可解释生成方法

Country Status (1)

Country Link
CN (1) CN111353587B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325583A (zh) * 2017-07-31 2019-02-12 财团法人工业技术研究院 深度神经网络、使用深度神经网络的方法及可读媒体
CN109655259A (zh) * 2018-11-23 2019-04-19 华南理工大学 基于深度解耦卷积神经网络的复合故障诊断方法及装置
EP3582142A1 (en) * 2018-06-15 2019-12-18 Université de Liège Image classification using neural networks
CN110826699A (zh) * 2019-11-06 2020-02-21 中南大学 一种基于梯度的图神经网络可解释性分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109325583A (zh) * 2017-07-31 2019-02-12 财团法人工业技术研究院 深度神经网络、使用深度神经网络的方法及可读媒体
EP3582142A1 (en) * 2018-06-15 2019-12-18 Université de Liège Image classification using neural networks
CN109655259A (zh) * 2018-11-23 2019-04-19 华南理工大学 基于深度解耦卷积神经网络的复合故障诊断方法及装置
CN110826699A (zh) * 2019-11-06 2020-02-21 中南大学 一种基于梯度的图神经网络可解释性分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Interpretation of Beijing Model Based on Fuzzy Genetic Neural Networks》;Fan Xu;《Selected Abstracts in the 3rd International Conference of Bionic Engineering》;全文 *
《基于规则推理网络的分类模型》;黄德根;《软件学报》;全文 *

Also Published As

Publication number Publication date
CN111353587A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN109478144B (zh) 一种数据处理装置和方法
US20180260710A1 (en) Calculating device and method for a sparsely connected artificial neural network
US11593596B2 (en) Object prediction method and apparatus, and storage medium
Huang et al. Faster stochastic alternating direction method of multipliers for nonconvex optimization
Jensen et al. Towards scalable fuzzy–rough feature selection
US11416743B2 (en) Swarm fair deep reinforcement learning
CN113128678A (zh) 神经网络的自适应搜索方法及装置
CN110442758B (zh) 一种图对齐方法、装置和存储介质
Kim et al. Neuron merging: Compensating for pruned neurons
Zhou et al. Multic2: an optimization framework for learning from task and worker dual heterogeneity
CN112529071B (zh) 一种文本分类方法、系统、计算机设备和存储介质
US20240095522A1 (en) Neural network generation device, neural network computing device, edge device, neural network control method, and software generation program
Nakai et al. Att-darts: Differentiable neural architecture search for attention
Yang et al. Binarized depthwise separable neural network for object tracking in fpga
Yeh Novel recursive inclusion-exclusion technology based on BAT and MPs for heterogeneous-arc binary-state network reliability problems
US20200311511A1 (en) Accelerating neuron computations in artificial neural networks by skipping bits
WO2024051655A1 (zh) 全视野组织学图像的处理方法、装置、介质和电子设备
CN112200310B (zh) 智能处理器、数据处理方法及存储介质
CN111353587B (zh) 一种深度神经网络的可解释生成方法
CN109697511B (zh) 数据推理方法、装置及计算机设备
CN117034100A (zh) 基于分层池化架构自适应图分类方法、系统、设备和介质
CN116468105A (zh) 一种自适应域外数据集的分类模型训练方法和装置
CN116049691A (zh) 模型转换方法、装置、电子设备和存储介质
CN113886688B (zh) 对象的关联关系预测方法、装置、终端设备以及存储介质
Abbas et al. Cloud Services Ranking by measuring Multiple Parameters using AFIS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant after: Zhongke (Xiamen) data Intelligence Research Institute

Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000

Applicant before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences

GR01 Patent grant
GR01 Patent grant