CN111353587A - 一种深度神经网络的可解释生成方法 - Google Patents
一种深度神经网络的可解释生成方法 Download PDFInfo
- Publication number
- CN111353587A CN111353587A CN202010162181.3A CN202010162181A CN111353587A CN 111353587 A CN111353587 A CN 111353587A CN 202010162181 A CN202010162181 A CN 202010162181A CN 111353587 A CN111353587 A CN 111353587A
- Authority
- CN
- China
- Prior art keywords
- network
- data
- channel
- training
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 230000004931 aggregating effect Effects 0.000 claims abstract description 6
- 230000002776 aggregation Effects 0.000 claims abstract description 6
- 238000004220 aggregation Methods 0.000 claims abstract description 6
- 238000005065 mining Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 44
- 230000004913 activation Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000713311 Simian immunodeficiency virus Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种深度神经网络的可解释生成方法,包括:S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络,运用子网络进行针对于若干类网络的分类任务,可有效节省网络的存储和计算消耗。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种深度神经网络的可解释生成方法。
背景技术
深度神经网络的研究推动了第三波人工智能的发展,在计算机图像领域的很多问题得到了很好的解决。但值得注意的是,深度神经网络由于其参数巨大,造成其设计和训练的复杂性高,从而增加了其应用的门槛。为了促进深度神经网络的广泛应用,大量研究人员公布了各自的预训练网络,包括网络的结构和预训练参数,普通使用者可以应用这些网络解决实际问题。
但是,预训练网络在网络设计的时候通常考虑输出为所有可能类别的全集,并且针对特定数据集,比如图像领域的Cifar-10、Cifar-100和imagenet,分别包含了10类,100类和1000类图像的数据,但对于某些特定的应用场景来说,并不是每次都需要输出所有类别。通常情况下,由于分类类别越多,网络的规模越大,所以如果直接应用现有的预训练网络,即便是存在网络压缩方法,在计算上还是存在冗余。比如某用户需要建立一个区分猫和狗的二分类网络,如果直接应用Cifar-10的预训练的十分类网络,在实际计算时只有部分网络参数与分类结果相关,但是所有网络参数必须都参与计算,从而浪费了计算和存储资源,使得存储和计算效率低下。
发明内容
本发明的目的在于提供一种深度神经网络的可解释生成方法,首先挖掘预训练网络中对应于某分类结果的网络结构,再将同一分类结果的网络结构进行组合,建立针对某几类进行分类的预训练网络的子网络,最后运用子网络进行针对于某几类网络的分类任务,可有效节省了网络的存储和计算消耗。
为实现上述目的,本发明采用以下技术方案:
一种深度神经网络的可解释生成方法,包括:
S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;
S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;
S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络。
优选地,步骤S1中所述关键数据路由路径的获取方法具体为:所述预训练网络每一层包含了若干通道,对于每一个通道,在通道后的ReLU激活之后设置一个控制门变量,并且在神经网络前向传播阶段,每个通道的输出均乘以控制门变量;对于任意输入x,定义如下Loss函数:
min(L(fθ(x),fθ(x;λ))+γ||λ||1)
其中,fθ为预训练网络,λ为控制门变量,fθ(x)为预训练网络的输出,fθ(x;λ)为增加了控制门变量之后的网络输出,L(fθ(x),fθ(x;λ))为预训练网络与增加控制门变量之后网络的KL损失,γ||λ||1为控制门变量的L1损失,γ为加权变量;固定预训练网络的所有参数,通过反向传播反复训练得到λ值;在反向传播过程中使用如下公式计算λ的梯度:
其包含了上述KL损失和L1损失;通过上述方法计算,得到每一个数据的CDRP向量λi,所述关键数据路由路径为CDRP。
优选地,步骤S1中组合网络结构的具体方法为:对每一类中所有数据的CDRP向量λi求取平均值,得到每一类数据的每个通道的通道重要性向量,具体计算方法为:
其中,λc为通道重要性向量,|c|为该类别中所包含的的数据的个数。
优选地,步骤S3中聚合推理路径的具体方法为:将具体分类任务相对应类别的通道重要性向量进行组合,得到信道重要性组合向量,信道重要性组合向量是一个0-1向量,0表示预训练网络中对应的通道没有在子网络里出现,1表示预训练网络中对应的通道在子网络里出现,使用信道重要性组合向量与预训练网络进行Hadamard乘,得到最终针对特定任务进行推理的子网络。
优选地,所述通道重要性向量的组合方法为求交集、求并集、求异或中的一种。
优选地,所述通道重要性向量的组合方法为求并集,再将信道重要性组合向量进行0-1离散化,具体方法为:
假设需要组合的数据类别集合为C,需要对|C|个通道重要性向量进行组合,得到 的计算方法为先计算组成的最大值,然后在通过一个阈值进行筛选,大于该阈值的设为1,反之设为0;所述为中第j个元素,计算公式为:
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
1、本发明通过首先挖掘预训练网络中对应于某分类结果的网络结构,即将预训练网络结构进行可解释的解构,再将同一分类结果的网络结构进行组合,建立针对某几类进行分类的预训练网络的子网络,最后运用子网络进行针对于某几类网络的分类任务,可有效节省了网络的存储和计算消耗。
2、本发明中L(fθ(x),fθ(x;λ))表示预训练网络与增加控制门变量之后网络的KL损失,其可以使增加控制门变量之后的网络尽可能的与原网络输出一致。
3、本发明中γ||λ||1表示控制门变量的L1损失,其可以使控制门变量趋向于0,以增加控制门变量向量的稀疏性。
4、本发明中γ为加权变量,使得结果在“信息保护”和“控制门变量的稀疏性”之间进行权衡。
附图说明
图1为本发明的流程框图;
图2为本发明的推理路径的聚合过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
参见图1至图2所示,本发明公开了一种深度神经网络的可解释生成方法,包括:
S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;
S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;
S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络。
为了描述方便,以图片数据集为例,该方法可以泛化到其他类型数据集。
S1、挖掘推理路径:
获取预训练网络和图片数据集,采用关键数据路由路径(critical data routinepath,CDRP)挖掘所述图片数据集中每一张图片在预训练网络的神经网络中对应的推理路径。获得CDRP的方法如下:
假设有一个预训练网络fθ,该网络每一层包含了若干通道,对于每一个通道,在通道后的ReLU激活之后设置一个控制门变量λ,并且在神经网络前向传播阶段,每个通道的输出均乘以λ。对于任意输入x,用fθ(x)表示预训练网络的输出,用fθ(x;λ)表示增加了控制门变量之后的网络输出。
得到λ的值的方法如下:固定预训练网络的所有参数,通过反向传播反复训练得到λ值。
定义如下Loss函数:
min(L(fθ(x),fθ(x;λ))+γ||λ||1)
其中,第一项L(fθ(x),fθ(x;λ))表示预训练网络与增加控制门变量之后网络的KL损失,其可以使增加控制门变量之后的网络尽可能的与原网络输出一致;第二项γ||λ||1表示控制门变量的L1损失,其可以使控制门变量趋向于0,以增加控制门变量向量的稀疏性;γ为加权变量,使得结果在“信息保护”和“控制门变量的稀疏性”之间进行权衡。
在反向传播过程中使用如下公式计算λ的梯度:
其包含了上述KL损失和L1损失。
通过上述方法,可以得到每一张图片的CDRP向量λi,为下一步得到每一类数据的推理路径做好了准备。
S2、聚合推理路径:
得到每张图片的CDRP之后,需要针对每一类图片获得其对应的网络结构,分两步进行:首先,求取每一类中所有图片的CDRP向量λi的平均值,可以获得每一类图片的每个通道的通道重要性向量(Channel Importance Vector,CIV),用λc表示,具体计算方法如下:
其中,|c|为该类别中所包含的的图片的个数。聚合过程示意图如图2所示。
S3、组合网络结构:
通过上一步,得到了每一类数据对应的网络中每个通道的重要性,即CIV。针对具体的分类任务对相应类别对应的CIV进行组合,便可以得到信道重要性组合向量(CombinedChannel Importance Vector,CCIV),使用Λ表示。Λ向量是一个0-1向量,0表示预训练网络中对应的通道没有在子网络里出现,1表示预训练网络中对应的通道在子网络里出现。使用Λ向量与预训练网络进行Hadamard乘,便可以得到最终针对特定任务进行推理的子网络。
组合的方法通常有:求交集,求并集,求异或。发明人通过实验发现,使用并集可以在保证精度的前提下得到最小的网络。另外,使用异或也可以在二分类问题得到比较好的结果,但对于多分类问题不易计算,故下面以并集为例进行说明。
CCIV是通过对CIV进行求并集得到的,但是,上一步的得到的CIV是由每一个通道的重要程度组成的向量,要得到CCIV,最终的组合后的向量必须是一个0-1向量,因此必须对聚合后的CIV进行0-1离散化。具体方法如下:
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种深度神经网络的可解释生成方法,其特征在于,包括:
S1、挖掘推理路径:获取预训练网络和数据集,采用关键数据路由路径挖掘所述数据集中每一条数据在预训练网络的神经网络中对应的推理路径;
S2、聚合推理路径:将同一类数据的推理路径进行聚合,得到该类数据对应的网络结构;
S3、组合网络结构:将同一类数据对应的网络结构进行组合,得到针对特定任务进行推理的子网络。
2.如权利要求1所述的一种深度神经网络的可解释生成方法,其特征在于,步骤S1中所述关键数据路由路径的获取方法具体为:所述预训练网络每一层包含了若干通道,对于每一个通道,在通道后的ReLU激活之后设置一个控制门变量,并且在神经网络前向传播阶段,每个通道的输出均乘以控制门变量;对于任意输入x,定义如下Loss函数:
min(L(fθ(x),fθ(x;λ))+γ||λ||1)
其中,fθ为预训练网络,λ为控制门变量,fθ(x)为预训练网络的输出,fθ(x;λ)为增加了控制门变量之后的网络输出,L(fθ(x),fθ(x;λ))为预训练网络与增加控制门变量之后网络的KL损失,γ||λ||1为控制门变量的L1损失,γ为加权变量;固定预训练网络的所有参数,通过反向传播反复训练得到λ值;在反向传播过程中使用如下公式计算λ的梯度:
其包含了上述KL损失和L1损失;通过上述方法计算,得到每一个数据的CDRP向量λi,所述关键数据路由路径为CDRP。
4.如权利要求3所述的一种深度神经网络的可解释生成方法,其特征在于,步骤S3中聚合推理路径的具体方法为:将具体分类任务相对应类别的通道重要性向量进行组合,得到信道重要性组合向量,信道重要性组合向量是一个0-1向量,0表示预训练网络中对应的通道没有在子网络里出现,1表示预训练网络中对应的通道在子网络里出现,使用信道重要性组合向量与预训练网络进行Hadamard乘,得到最终针对特定任务进行推理的子网络。
5.如权利要求4所述的一种深度神经网络的可解释生成方法,其特征在于:所述通道重要性向量的组合方法为求交集、求并集、求异或中的一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010162181.3A CN111353587B (zh) | 2020-03-10 | 2020-03-10 | 一种深度神经网络的可解释生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010162181.3A CN111353587B (zh) | 2020-03-10 | 2020-03-10 | 一种深度神经网络的可解释生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353587A true CN111353587A (zh) | 2020-06-30 |
CN111353587B CN111353587B (zh) | 2024-01-12 |
Family
ID=71194384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010162181.3A Active CN111353587B (zh) | 2020-03-10 | 2020-03-10 | 一种深度神经网络的可解释生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353587B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325583A (zh) * | 2017-07-31 | 2019-02-12 | 财团法人工业技术研究院 | 深度神经网络、使用深度神经网络的方法及可读媒体 |
CN109655259A (zh) * | 2018-11-23 | 2019-04-19 | 华南理工大学 | 基于深度解耦卷积神经网络的复合故障诊断方法及装置 |
EP3582142A1 (en) * | 2018-06-15 | 2019-12-18 | Université de Liège | Image classification using neural networks |
CN110826699A (zh) * | 2019-11-06 | 2020-02-21 | 中南大学 | 一种基于梯度的图神经网络可解释性分析方法 |
-
2020
- 2020-03-10 CN CN202010162181.3A patent/CN111353587B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109325583A (zh) * | 2017-07-31 | 2019-02-12 | 财团法人工业技术研究院 | 深度神经网络、使用深度神经网络的方法及可读媒体 |
EP3582142A1 (en) * | 2018-06-15 | 2019-12-18 | Université de Liège | Image classification using neural networks |
CN109655259A (zh) * | 2018-11-23 | 2019-04-19 | 华南理工大学 | 基于深度解耦卷积神经网络的复合故障诊断方法及装置 |
CN110826699A (zh) * | 2019-11-06 | 2020-02-21 | 中南大学 | 一种基于梯度的图神经网络可解释性分析方法 |
Non-Patent Citations (2)
Title |
---|
FAN XU: "《Interpretation of Beijing Model Based on Fuzzy Genetic Neural Networks》", 《SELECTED ABSTRACTS IN THE 3RD INTERNATIONAL CONFERENCE OF BIONIC ENGINEERING》 * |
黄德根: "《基于规则推理网络的分类模型》", 《软件学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN111353587B (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593596B2 (en) | Object prediction method and apparatus, and storage medium | |
Belle et al. | Probabilistic inference in hybrid domains by weighted model integration | |
Barreno et al. | Optimal ROC curve for a combination of classifiers | |
Nguyen et al. | A novel method for constrained class association rule mining | |
Merigo et al. | The uncertain generalized OWA operator and its application to financial decision making | |
US20230259739A1 (en) | Image detection method and apparatus, computer-readable storage medium, and computer device | |
Zhang et al. | Graph-adaptive rectified linear unit for graph neural networks | |
US20230027427A1 (en) | Memory-augmented graph convolutional neural networks | |
Dai et al. | An improved evolutionary approach-based hybrid algorithm for Bayesian network structure learning in dynamic constrained search space | |
Kwisthout | Approximate inference in Bayesian networks: Parameterized complexity results | |
Fisichella et al. | Partially-federated learning: A new approach to achieving privacy and effectiveness | |
Maaroufi et al. | Predicting the future is like completing a painting: Towards a novel method for time-series forecasting | |
Wang et al. | Estimating possible causal effects with latent variables via adjustment | |
Bao et al. | Multi-granularity visual explanations for CNN | |
WO2024051655A1 (zh) | 全视野组织学图像的处理方法、装置、介质和电子设备 | |
CN111353587B (zh) | 一种深度神经网络的可解释生成方法 | |
Ghosh et al. | An improved intrusion detection system to preserve security in cloud environment | |
CN117034100A (zh) | 基于分层池化架构自适应图分类方法、系统、设备和介质 | |
Atwood et al. | Sparse diffusion-convolutional neural networks | |
Abbas et al. | Cloud Services Ranking by measuring Multiple Parameters using AFIS | |
CN114900364A (zh) | 基于溯源图和异构图神经网络的高级持续威胁检测方法 | |
CN115272716A (zh) | 一种提取整合图像内部与图像之间特征关系的方法和装置 | |
Shpitser et al. | Testing edges by truncations | |
CN112784909A (zh) | 基于自注意力机制和自适应子网络的图像分类识别方法 | |
Zhou et al. | In search for effective granularity with DTRS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Applicant after: Zhongke (Xiamen) data Intelligence Research Institute Address before: No. 208-3, Fengqi Road, phase III, software park, Xiamen City, Fujian Province, 361000 Applicant before: Xiamen Institute of data intelligence, Institute of computing technology, Chinese Academy of Sciences |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |