CN110443346A - 一种基于输入特征重要性的模型解释方法及装置 - Google Patents
一种基于输入特征重要性的模型解释方法及装置 Download PDFInfo
- Publication number
- CN110443346A CN110443346A CN201910740463.4A CN201910740463A CN110443346A CN 110443346 A CN110443346 A CN 110443346A CN 201910740463 A CN201910740463 A CN 201910740463A CN 110443346 A CN110443346 A CN 110443346A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- input feature
- neural network
- network model
- default neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于输入特征重要性的模型解释方法及装置,在获取输入数据对应的各个输入特征后,调用预设神经网络模型,获取预设神经网络模型输出的各个预测结果;在预设神经网络模型输出各个预测结果时,计算各个输入特征的参与度,基于各个输入特征的参与度,得到各个输入特征对于预设神经网络模型的重要度,基于各个输入特征对于预设神经网络模型的重要度,对预设神经网络模型进行解释,从而能够通过各个输入特征对于预设神经网络模型的重要度进行模型解释,以通过输入特征对于预设神经网络模型的重要度有效解释预设神经网络模型。
Description
技术领域
本发明属于深度学习技术领域,尤其涉及一种基于输入特征重要性的模型解释方法及装置。
背景技术
随着深度学习的不断发展与演化,神经网络模型被广泛应用于语音识别、计算机视觉和自然语言处理等技术领域。例如,在机器翻译和视频监控等实际应用中,神经网络模型取得了非常出色的表现。尽管如此,由于神经网络模型的神经元之间存在复杂的非线性变换及其自身高维表示形式,理解神经网络模型如何工作以及为什么这样工作变得比较困难,从而为调试神经网络模型以及设计新的神经网络模型带来了极大挑战。例如,给定正常的输入数据,神经网络模型极有可能做出错误的预测,然而对于神经网络模型的设计人员以及开发人员并不知道为什么神经网络模型会做出这样的预测,因此也无法针对性地对神经网络模型进行修正。
基于这一情况,一种有效的模型解释性方法会极大地促进对神经网络模型的理解,从而基于对神经网络模型的理解对神经网络模型进行修正,目前模型解释方法通常是采用注意力机制,如获取神经网络模型的输入数据对应的各个输入特征,通过注意力机制获取各个输入特征的注意力权重,基于各个输入特征的注意力权重解释神经网络模型。但是目前研究发现,注意力权重和神经网络模型的预测之间的联系非常微弱,因此基于注意力权重不能有效的对神经网络模型进行解释。
发明内容
有鉴于此,本发明的目的在于提供一种基于输入特征重要性的模型解释方法,以通过输入特征对于预设神经网络模型的重要度对预设神经网络模型进行解释。技术方案如下:
本发明提供一种基于输入特征重要性的模型解释方法,所述方法包括:
获取输入数据对应的各个输入特征;
调用预设神经网络模型,获取所述预设神经网络模型输出的各个预测结果;
计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度;
基于所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度,得到所述各个输入特征对于所述预设神经网络模型的重要度,所述输入特征对于所述预设神经网络模型的重要度用于表明所述输入特征对于所述预设神经网络模型的影响程度;
基于所述各个输入特征对于所述预设神经网络模型的重要度,对所述预设神经网络模型进行解释。
优选的,所述方法还包括:基于所述各个输入特征对于所述预设神经网络模型的重要度,从所述各个输入特征中得到所述预设神经网络模型在进行预测时忽略的输入特征。
优选的,所述基于所述各个输入特征对于所述预设神经网络模型的重要度,从所述各个输入特征中得到所述预设神经网络模型在进行预测时忽略的输入特征包括:
基于所述各个输入特征对于所述预设神经网络模型的重要度由低到高的方式,得到所述各个输入特征的排序;
基于所述各个输入特征的排序,选取排序在前预设位的输入特征为所述预设神经网络模型在进行预测时忽略的输入特征。
优选的,所述计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度包括:
计算所述各个预测结果对所述各个输入特征的梯度;
基于所述各个预测结果对所述各个输入特征的梯度,得到所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度。
优选的,所述计算所述各个预测结果对所述各个输入特征的梯度包括:对所述各个输入特征中的任一输入特征执行以下步骤:
基于预设基准输入数据和所述输入数据,得到预设数量的伪输入数据;
针对所述预设数量的伪输入数据中的任一伪输入数据,调用所述预设神经网络模型,获取所述预设神经网络模型输出的与所述伪输入数据对应的预测结果;
针对所述预设数量的伪输入数据中的任一伪输入数据,计算与所述伪输入数据对应的预测结果对所述输入特征的梯度。
优选的,所述基于所述各个预测结果对所述各个输入特征的梯度,得到所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度包括:对所述各个输入特征中的任一输入特征执行以下步骤:
对所述预设数量的伪输入数据对应的预测结果对所述输入特征的梯度进行求和、平均、取最大梯度和取最小梯度中的任意一种处理,得到处理结果,将所述处理结果作为所述输入特征的参与度。
本发明还提供一种基于输入特征重要性的模型解释装置,所述装置包括:
获取单元,用于获取输入数据对应的各个输入特征;
调用单元,用于调用预设神经网络模型,获取所述预设神经网络模型输出的各个预测结果;
第一计算单元,用于计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度;
第二计算单元,用于基于所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度,得到所述各个输入特征对于所述预设神经网络模型的重要度,所述输入特征对于所述预设神经网络模型的重要度用于表明所述输入特征对于所述预设神经网络模型的影响程度;
解释单元,用于基于所述各个输入特征对于所述预设神经网络模型的重要度,对所述预设神经网络模型进行解释。
优选的,所述装置还包括:忽略特征获取单元,用于基于所述各个输入特征对于所述预设神经网络模型的重要度,从所述各个输入特征中得到所述预设神经网络模型在进行预测时忽略的输入特征。
本发明还提供一种基于输入特征重要性的模型解释设备,所述设备包括:处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取输入数据对应的各个输入特征;
调用预设神经网络模型,获取所述预设神经网络模型输出的各个预测结果;
计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度;
基于所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度,得到所述各个输入特征对于所述预设神经网络模型的重要度,所述输入特征对于所述预设神经网络模型的重要度用于表明所述输入特征对于所述预设神经网络模型的影响程度;
基于所述各个输入特征对于所述预设神经网络模型的重要度,对所述预设神经网络模型进行解释。
本发明还提供一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述基于输入特征重要性的模型解释方法。
借由上述技术方案,在获取输入数据对应的各个输入特征后,调用预设神经网络模型,获取预设神经网络模型输出的各个预测结果;在预设神经网络模型输出各个预测结果时,计算各个输入特征的参与度,基于各个输入特征的参与度,得到各个输入特征对于预设神经网络模型的重要度,基于各个输入特征对于预设神经网络模型的重要度,对预设神经网络模型进行解释,从而能够通过各个输入特征对于预设神经网络模型的重要度进行模型解释。其中输入特征对于预设神经网络模型的重要度用于表明输入特征对于预设神经网络模型的影响程度,重要度越高说明该输入特征对于预设神经网络模型的影响程度越高,进而说明预设神经网络模型在进行预测时更多考虑该输入特征,为该输入特征赋予更高的权重,由此能够通过输入特征对于预设神经网络模型的重要度有效解释预设神经网络模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于输入特征重要性的模型解释方法的流程图;
图2是本发明实施例提供的一种得到重要度的示意图;
图3是本发明实施例提供的一种预设神经网络模型的BLEU变化的示意图;
图4是本发明实施例提供的另一种预设神经网络模型的BLEU变化的示意图;
图5是本发明实施例提供的再一种预设神经网络模型的BLEU变化的示意图;
图6是本发明实施例提供的再一种预设神经网络模型的BLEU变化的示意图;
图7是本发明实施例提供的另一种基于输入特征重要性的模型解释方法的流程图;
图8是本发明实施例提供的一种基于输入特征重要性的模型解释装置的结构示意图;
图9是本发明实施例提供的一种基于输入特征重要性的模型解释设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种基于输入特征重要性的模型解释方法,用以通过输入特征对于预设神经网络模型的重要度进行模型解释,可以包括以下步骤:
101:获取输入数据对应的各个输入特征。可以理解的是:输入数据是输入到预设神经网络模型进行预测的数据,输入数据的形式与预设神经网络模型训练过程中采用的训练样本的形式相同,同样的输入数据对应的各个输入特征的获取方式与训练样本对应的各个输入特征的获取方式也相同。
例如预设神经网络模型是一个神经网络机器翻译模型,神经网络机器翻译模型是一个基于神经网络的机器翻译技术的模型,通过神经网络机器翻译模型能够对输入的文本序列进行自动翻译,如进行中文到英文的自动翻译,那么在进行训练时可以以由中文词语组成的文本序列作为训练样本,通过自然语言识别技术得到文本序列中各个词的特征向量进行模型训练。在得到神经网络机器翻译模型之后使用该神经网络机器翻译模型时,获取的输入数据的形式则是由中文词语组成的文本序列,相对应的该文本序列对应的各个输入特征可以是通过自然语言识别技术得到的该文本序列中各个词的特征向量,对于其他形式的预设神经网络模型的输入数据的形式和输入特征的获取方式,本实施例不再一一阐述。同样的本实施例不对预设神经网络模型的网络架构进行限定,任一种网络架构的预设神经网络模型都可以应用本实施例。
102:调用预设神经网络模型,获取预设神经网络模型输出的各个预测结果。对于预设神经网络模型输出的各个预测结果视预设神经网络模型的网络结构以及预设神经网络模型的用途/功能而定。
但是这里需要说明的一点是:目前预设神经网络模型输出的预测结果的数量可能有所不同,一些预设神经网络模型可能输出两个及两个以上预测结果,一些预设神经网络模型可能输出一个预测结果,例如对于用于进行分类的预设神经网络模型来说,如对图像进行分类以得到包含目标对象的图像,则预设神经网络模型对于一张图像来说,其预测结果有一个,即表明图像是否包含目标对象的预测结果;如果预设神经网络模型的输入数据是一个序列,输出也是一个序列,则该序列中的各个组成分别是该预设神经网络模型一个预测结果,由此对于这种预设神经网络模型来说,其输出的预测结果有多个。
103:计算预设神经网络模型输出各个预测结果时各个输入特征的参与度,以通过各个输入特征的参与度表示在输出一个预测结果时各个输入特征对该预测结果的影响。
在本实施例中计算各个输入特征的参与度的一种方式是:计算各个预测结果对各个输入特征的梯度,基于各个预测结果对各个输入特征的梯度,得到预设神经网络模型输出各个预测结果时各个输入特征的参与度。
注意一点的是如果预设神经网络模型输出两个及两个以上预测结果,则对于各个预测结果中的任一预测结果都要计算其对输入特征的梯度,如果一个预设结果对一个输入特征来说,得到该预测结果对该输入特征的梯度为一个,则可以直接将该预测结果对该输入特征的梯度作为预设神经网络模型输出该预测结果时该输入特征的参与度。
如果一个预设结果对一个输入特征来说,得到该预测结果对该输入特征的梯度为两个及以上,则可以结合该预测结果对该输入特征的多个梯度得到预设神经网络模型输出该预测结果时该输入特征的参与度,例如可以通过对该预测结果对该输入特征的多个梯度进行求和、平均、取最大梯度和取最小梯度中的任意一种处理,得到处理结果,将处理结果作为预设神经网络模型输出该预测结果时该输入特征的参与度,例如对该预测结果对该输入特征的多个梯度进行求和,得到多个梯度之和,该梯度之和可以作为预设神经网络模型输出该预测结果时该输入特征的参与度。
下面以一个预测结果为例进行说明,假设预设神经网络模型输出的第n个预测结果为F(x)n,那么输出F(x)n对输入特征的梯度的计算公式如下:
其中x为输入数据,x′为预设基准输入数据,在本实施例中预设基准输入数据是一个全0的高维向量,预设基准输入数据的维度和输入数据的维度相同。xm为输入数据的第m个输入特征,x′m为预设基准输入数据中的第m个输入特征,α(x-x′)为数据数据和预设基准输入数据的关系函数,通过上述求一阶导数的方式能够得到F(x)n对输入特征的梯度。上述计算公式仅是对计算梯度的说明,本实施例并不限定仅采用上述计算方式得到预测结果对输入特征的梯度。
但是在实际应用中,发现上述计算公式的求导有很大困难或者上述计算公式不可取,为此在本实施例提供一种上述计算公式的近似计算方式,其过程如下:
1)基于预设基准输入数据和输入数据,得到预设数量的伪输入数据。一种方式是:通过插值方式获取预设数量的伪输入数据,如输入数据为x,预设基准输入数据为x′,则通过插值方式获取伪输入数据的方式可以是:k的取值范围为[0,S],S为预设的插值次数或者插值步数,其可以根据实际需求而定,如S=300,通过改变k来得到预设数量的伪输入数据,例如从0开始选取,相邻两次选取的k之间的差值为预设差值(一个整数),如差值为1,这样就可以依次得到x′、
2)针对预设数量的伪输入数据中的任一伪输入数据,调用预设神经网络模型,获取预设神经网络模型输出的与伪输入数据对应的预测结果。
3)针对预设数量的伪输入数据中的任一伪输入数据,计算与伪输入数据对应的预测结果对输入特征的梯度。因为经过上述插值方式得到预设数量的伪输入数据,而从x′到x的过程视为预设神经网络模型完成第m个输入特征的一轮预测,所以需要对上述每个伪输入数据都计算一次梯度,其计算公式如下:
为第k个伪输入数据的第n个预测结果。经过该计算公式,输入数据x的一个输入特征能够得到预设数量的梯度。
通过上述伪输入数据对输入特征的梯度的计算公式,得到预设数量的伪输入数据对应的预测结果对任一输入特征的梯度之后,可以对预设数量的伪输入数据对应的预测结果对输入特征的梯度进行求和、平均、取最大梯度和取最小梯度中的任意一种处理,得到处理结果,将处理结果作为输入特征的参与度。例如基于下述求和公式对预设数量的伪输入数据对应的预测结果对输入特征的梯度进行求和:
则为预设神经网络模型输出第n个预测结果时第m个输入特征的参与度,注意此时的预设神经网络模型输出第n个预测结果为预设神经网络模型以输入数据作为输入时得到的预测结果。
假如预设神经网络模型仅输出一个预测结果,也可以基于上述方式得到预设神经网络模型输出该预测结果时各个输入特征的参与度,对此本实施例不再阐述。需要说明的一点是:预设神经网络模型输出各个预测结果时各个输入特征的参与度除可以基于梯度得到,还可以基于其他方式得到,如计算输出每个预测结果时各个输入特征的注意力权重,基于输出每个预测结果时各个输入特征的注意力权重,得到输出每个预测结果时各个输入特征的参与度,对此本实施例不再一一阐述。
104:基于预设神经网络模型输出各个预测结果时各个输入特征的参与度,得到各个输入特征对于预设神经网络模型的重要度,从而能够综合考虑在输出各个预测结果时各个输入特征的参与度得到各个输入特征对预设神经网络模型的重要度,使得输入特征对于预设神经网络模型的重要度是一个综合计算指标,以通过输入特征对于预设神经网络模型的重要度用于表明输入特征对于预设神经网络模型的影响程度。
可以理解的是:输入特征对于预设神经网络模型的重要度越高说明该输入特征对于预设神经网络模型的影响程度越高,进而说明预设神经网络模型在进行预测时更多考虑该输入特征,为该输入特征赋予更高的权重;输入特征对于预设神经网络模型的重要度越低说明该输入特征对于预设神经网络模型的影响程度越低,进而说明预设神经网络模型在进行预测时忽略该输入特征/考虑该输入特征较少,那么为该输入特征赋予更高的权重,由此通过输入特征对于预设神经网络模型的重要度有效解释预设神经网络模型,如解释预设神经网络模型在进行预测时为哪些输入特征赋予更高的权重,或者在进行预测时为输入特征赋予的权重排序等等。
在本实施例中,得到各个输入特征对于预设神经网络模型的重要度的一种方式是:对各个输入特征的参与度进行归一化处理,得到各个输入特征对于预设神经网络模型的重要度,例如一种归一化处理方式是 为输出第n个预测结果时第m个输入特征的参与度,n为预测结果的总数,该归一化处理方式是先对任一输入特征,计算第1个预测结果至第n个预测结果时该输入特征的参与度之和,再对任一输入特征,计算其参与度之和在所有参与度之和的占比。
如图2所示,图2所示为输入数据为“It has always taken place.”时,预设神经网络模型的输出为“Elle a toujours eu lieu.”,输出的每个词为一个预测结果,在图2中以矩阵方式(箭头左侧)示出输出每个预测结果时对各个输入特征(输入数据中每个词的特征向量)的参与度,通过对每个输入特征的参与度进行求和,如每行求和得到对应的输入特征的参与度之和,然后计算各个输入特征的参与度之和的占比,该占比视为是输入特征对于预设神经网络模型的重要度,如图2中箭头右侧为每个输入特征对于预设神经网络模型的重要度。
当然除上述归一化处理方式之外,还可以采用其他方式进行归一化处理,如对任一输入特征来说,从该输入特征的所有参与度中选取最大参与度,然后再对各个输入特征的最大参与度进行归一化处理,对此本实施例不对重要度的获取方式进行限定。
105:基于各个输入特征对于预设神经网络模型的重要度,对预设神经网络模型进行解释。
借由上述技术方案,在获取输入数据对应的各个输入特征后,调用预设神经网络模型,获取预设神经网络模型输出的各个预测结果;在预设神经网络模型输出各个预测结果时,计算各个输入特征的参与度,基于各个输入特征的参与度,得到各个输入特征对于预设神经网络模型的重要度,基于各个输入特征对于预设神经网络模型的重要度,对预设神经网络模型进行解释,从而能够通过各个输入特征对于预设神经网络模型的重要度进行模型解释。其中输入特征对于预设神经网络模型的重要度用于表明输入特征对于预设神经网络模型的影响程度,重要度越高说明该输入特征对于预设神经网络模型的影响程度越高,进而说明预设神经网络模型在进行预测时更多考虑该输入特征,为该输入特征赋予更高的权重,由此能够通过输入特征对于预设神经网络模型的重要度有效解释预设神经网络模型。
下面通过实验数据说明本实施例能够通过输入特征对于预设神经网络模型的重要度有效解释预设神经网络模型。以预设神经网络模型为神经网络机器翻译模型为例,通过对神经网络机器翻译模型执行扰动操作(改变输入数据,具体的改变输入到模型中的词),示出不同网络架构或不同翻译功能下的神经网络机器翻译模型在利用不同方法执行扰动操作时,神经网络机器翻译模型的BLEU(Bilingual Evaluation Understudy,双语评估替换)的变化,其中BLEU的取值越高说明神经网络机器翻译模型的精度越高。
如图3和图4示出了在随机改变词(Random)、基于词频改变词(Frequency)、基于词性改变词(Content)、基于注意力权重改变词(Attention)以及基于本发明的重要度改变词(Attribution)时,对用于进行掩码的神经网络机器翻译模型和进行语法替换的神经网络机器翻译模型的BLEU的影响,图5和图6示出了在随机改变词、基于注意力权重改变词以及基于本发明的重要度改变词时,对RNN架构(Recurrent Neural Network,循环神经网络)的神经网络机器翻译模型和进行英法翻译的神经网络机器翻译模型的BLEU的影响。从上述图3至图6所示可知基于重要度改变词的扰动会对神经网络机器翻译模型的BLEU的影响越大,因此词的重要度越高说明模型翻译越准确,说明在翻译(预测)过程中需要更多考虑该词,从而应该为其分配更高的权重,从而可以基于输入特征的重要度对模型进行有效解释。
请参阅图7,其示出了本发明实施例提供的另一种基于输入特征重要性的模型解释方法,在图1基础上还可以包括以下步骤:
106:基于各个输入特征对于预设神经网络模型的重要度,从各个输入特征中得到预设神经网络模型在进行预测时忽略的输入特征。
所谓在进行预测时忽略的输入特征可以是在进行预测时没有考虑的输入特征或者考虑较少(即权重较低)的输入特征。在本实施例中一种得到在进行预测时忽略的输入特征的方式是:基于各个输入特征对于预设神经网络模型的重要度由低到高的方式,得到各个输入特征的排序,基于各个输入特征的排序,选取排序在前预设位的输入特征为预设神经网络模型在进行预测时忽略的输入特征。
如UT=minm(sort([WI1,WI2,...,WIm]))选取前m位的输入特征为预设神经网络模型在进行预测时忽略的输入特征,m可以是一个固定值或者m可以是一个与输入数据的长度相关的值,如将输入数据的长度与预设比例相乘取整得到m,预设比例的设定本实施例不进行限定,同样m的设置本实施例也不进行限定。
前已述及在进行预测时忽略的输入特征可以是在进行预测时没有考虑的输入特征或者考虑较少(即权重较低)的输入特征,而基于预设神经网络模型进行翻译时会出现漏译现象,其中漏译现象是输入数据中的部分词没有翻译成对应的输出(预测结果),造成输入数据中的部分词遗漏,而之所以出现这种漏译现象是因为输入数据中一些词(该词的输入特征)的重要度低,在通过预设神经网络模型翻译时不会考虑这些词,因此本实施例能够通过图7所示基于输入特征重要性的模型解释方法进行漏译现象检测,如将预设神经网络模型在进行预测时忽略的输入特征对应的词作为漏译的词。下面以表1阐述本实施例提供的方法在进行漏译现象检测时其准确度得到提高。
表1不同方法的漏译现象检测的准确度
方法 | 5% | 10% | 15% |
注意力机制法 | 0.058 | 0.077 | 0.119 |
擦除法 | 0.154 | 0.170 | 0.192 |
本发明 | 0.248 | 0.316 | 0.342 |
其中表1中的5%、10%和15%为预设神经网络模型认定的漏译单词的比例,通过上述表1可知,本实施例提供的方法相对于其他方法来说,漏译现象检测的准确度得到极大提升。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
与上述方法实施例相对应,本发明实施例还提供一种基于输入特征重要性的模型解释装置,其结构如图8所示,可以包括:获取单元10、调用单元20、第一计算单元30、第二计算单元40和解释单元50。
获取单元10,用于获取输入数据对应的各个输入特征。
调用单元20,用于调用预设神经网络模型,获取预设神经网络模型输出的各个预测结果。
第一计算单元30,用于计算预设神经网络模型输出各个预测结果时各个输入特征的参与度,以通过各个输入特征的参与度表示在输出一个预测结果时各个输入特征对该预测结果的影响。
在本实施例中第一计算单元30计算各个输入特征的参与度的一种方式是:计算各个预测结果对各个输入特征的梯度,基于各个预测结果对各个输入特征的梯度,得到预设神经网络模型输出各个预测结果时各个输入特征的参与度。如第一计算单元30基于如下步骤计算各个预测结果对各个输入特征的梯度:
1)基于预设基准输入数据和输入数据,得到预设数量的伪输入数据。2)针对预设数量的伪输入数据中的任一伪输入数据,调用预设神经网络模型,获取预设神经网络模型输出的与伪输入数据对应的预测结果。3)针对预设数量的伪输入数据中的任一伪输入数据,计算与伪输入数据对应的预测结果对输入特征的梯度。
在经过上述计算之后,第一计算单元30可以对预设数量的伪输入数据对应的预测结果对输入特征的梯度进行求和、平均、取最大梯度和取最小梯度中的任意一种处理,得到处理结果,将处理结果作为输入特征的参与度。
如上第一计算单元30对每个输入特征均执行上述处理,从而得到输出每个预测结果时各个输入特征的参与度,如预测结果有两个及以上,则各个输入特征也会有两个及以上的参与度,详细过程请参阅方法实施例中的相关说明,对此本实施例不再阐述。
第二计算单元40,用于基于预设神经网络模型输出各个预测结果时各个输入特征的参与度,得到各个输入特征对于预设神经网络模型的重要度,其中输入特征对于预设神经网络模型的重要度用于表明输入特征对于预设神经网络模型的影响程度。
在本实施例中,第二计算单元40得到各个输入特征对于预设神经网络模型的重要度的一种方式是:对各个输入特征的参与度进行归一化处理,得到各个输入特征对于预设神经网络模型的重要度,例如一种归一化处理方式是 为输出第n个预测结果时第m个输入特征的参与度,n为预测结果的总数,该归一化处理方式是先对任一输入特征,计算第1个预测结果至第n个预测结果时该输入特征的参与度之和,再对任一输入特征,计算其参与度之和在所有参与度之和的占比。
解释单元50,用于基于各个输入特征对于预设神经网络模型的重要度,对预设神经网络模型进行解释。
可以理解的是:输入特征对于预设神经网络模型的重要度越高说明该输入特征对于预设神经网络模型的影响程度越高,进而说明预设神经网络模型在进行预测时更多考虑该输入特征,为该输入特征赋予更高的权重;输入特征对于预设神经网络模型的重要度越低说明该输入特征对于预设神经网络模型的影响程度越低,进而说明预设神经网络模型在进行预测时忽略该输入特征/考虑该输入特征较少,那么为该输入特征赋予更高的权重,由此通过输入特征对于预设神经网络模型的重要度有效解释预设神经网络模型,如解释预设神经网络模型在进行预测时为哪些输入特征赋予更高的权重,或者在进行预测时为输入特征赋予的权重排序等等。
借由上述技术方案,在获取输入数据对应的各个输入特征后,调用预设神经网络模型,获取预设神经网络模型输出的各个预测结果;在预设神经网络模型输出各个预测结果时,计算各个输入特征的参与度,基于各个输入特征的参与度,得到各个输入特征对于预设神经网络模型的重要度,基于各个输入特征对于预设神经网络模型的重要度,对预设神经网络模型进行解释,从而能够通过各个输入特征对于预设神经网络模型的重要度进行模型解释。其中输入特征对于预设神经网络模型的重要度用于表明输入特征对于预设神经网络模型的影响程度,重要度越高说明该输入特征对于预设神经网络模型的影响程度越高,进而说明预设神经网络模型在进行预测时更多考虑该输入特征,为该输入特征赋予更高的权重,由此能够通过输入特征对于预设神经网络模型的重要度有效解释预设神经网络模型。
本实施例提供的基于输入特征重要性的模型解释装置还可以包括:忽略特征获取单元,用于基于各个输入特征对于预设神经网络模型的重要度,从各个输入特征中得到预设神经网络模型在进行预测时忽略的输入特征。
所谓在进行预测时忽略的输入特征可以是在进行预测时没有考虑的输入特征或者考虑较少(即权重较低)的输入特征。在本实施例中一种得到在进行预测时忽略的输入特征的方式是:基于各个输入特征对于预设神经网络模型的重要度由低到高的方式,得到各个输入特征的排序,基于各个输入特征的排序,选取排序在前预设位的输入特征为预设神经网络模型在进行预测时忽略的输入特征。
目前基于预设神经网络模型进行翻译时会出现漏译现象,其中漏译现象是输入数据中的部分词没有翻译成对应的输出(预测结果),造成输入数据中的部分词遗漏,而之所以出现这种漏译现象是因为输入数据中一些词(该词的输入特征)的重要度低,在通过预设神经网络模型翻译时不会考虑这些词,因此本实施例能够将上述基于输入特征重要性的模型解释装置应用到漏译现象检测中。
请参阅图9,其示出了本发明实施例提供一种基于输入特征重要性的模型解释设备,可以包括:处理器100和存储器200。
可选的,该设备还可以包括通信接口300、输入单元400、显示器500和通信总线600。
处理器100、存储器200、通信接口300、输入单元400、显示器500、均通过通信总线600完成相互间的通信。
在本实施例中,该处理器100,可以为中央处理器(Central Processing Unit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器可以调用存储器100中存储的程序。存储器200中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本实施例中,该存储器中至少存储有用于实现以下功能的程序:
获取输入数据对应的各个输入特征;
调用预设神经网络模型,获取预设神经网络模型输出的各个预测结果;
计算预设神经网络模型输出各个预测结果时各个输入特征的参与度;
基于预设神经网络模型输出各个预测结果时各个输入特征的参与度,得到各个输入特征对于预设神经网络模型的重要度,输入特征对于预设神经网络模型的重要度用于表明输入特征对于预设神经网络模型的影响程度;
基于各个输入特征对于预设神经网络模型的重要度,对预设神经网络模型进行解释。
在一种可能的实现方式中,该存储器200可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如预测结果输出等)所需的应用程序等;存储数据区可存储设备使用过程中所涉及的数据,比如,输入数据等等。
此外,存储器200可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口300可以为通信模块的接口,如GSM模块的接口。
当然,图9所示的设备的结构并不构成对本实施例中设备的限定,在实际应用中设备可以包括比图9所示的更多或更少的部件,或者组合某些部件。
本发明实施例还提供一种存储介质,存储介质中存储有计算机可执行指令,计算机可执行指令被处理器加载并执行时,实现上述基于输入特征重要性的模型解释方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种基于输入特征重要性的模型解释方法,其特征在于,所述方法包括:
获取输入数据对应的各个输入特征;
调用预设神经网络模型,获取所述预设神经网络模型输出的各个预测结果;
计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度;
基于所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度,得到所述各个输入特征对于所述预设神经网络模型的重要度,所述输入特征对于所述预设神经网络模型的重要度用于表明所述输入特征对于所述预设神经网络模型的影响程度;
基于所述各个输入特征对于所述预设神经网络模型的重要度,对所述预设神经网络模型进行解释。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于所述各个输入特征对于所述预设神经网络模型的重要度,从所述各个输入特征中得到所述预设神经网络模型在进行预测时忽略的输入特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述各个输入特征对于所述预设神经网络模型的重要度,从所述各个输入特征中得到所述预设神经网络模型在进行预测时忽略的输入特征包括:
基于所述各个输入特征对于所述预设神经网络模型的重要度由低到高的方式,得到所述各个输入特征的排序;
基于所述各个输入特征的排序,选取排序在前预设位的输入特征为所述预设神经网络模型在进行预测时忽略的输入特征。
4.根据权利要求1或2所述的方法,其特征在于,所述计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度包括:
计算所述各个预测结果对所述各个输入特征的梯度;
基于所述各个预测结果对所述各个输入特征的梯度,得到所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度。
5.根据权利要求4所述的方法,其特征在于,所述计算所述各个预测结果对所述各个输入特征的梯度包括:对所述各个输入特征中的任一输入特征执行以下步骤:
基于预设基准输入数据和所述输入数据,得到预设数量的伪输入数据;
针对所述预设数量的伪输入数据中的任一伪输入数据,调用所述预设神经网络模型,获取所述预设神经网络模型输出的与所述伪输入数据对应的预测结果;
针对所述预设数量的伪输入数据中的任一伪输入数据,计算与所述伪输入数据对应的预测结果对所述输入特征的梯度。
6.根据权利要求5所述的方法,其特征在于,所述基于所述各个预测结果对所述各个输入特征的梯度,得到所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度包括:对所述各个输入特征中的任一输入特征执行以下步骤:
对所述预设数量的伪输入数据对应的预测结果对所述输入特征的梯度进行求和、平均、取最大梯度和取最小梯度中的任意一种处理,得到处理结果,将所述处理结果作为所述输入特征的参与度。
7.一种基于输入特征重要性的模型解释装置,其特征在于,所述装置包括:
获取单元,用于获取输入数据对应的各个输入特征;
调用单元,用于调用预设神经网络模型,获取所述预设神经网络模型输出的各个预测结果;
第一计算单元,用于计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度;
第二计算单元,用于基于所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度,得到所述各个输入特征对于所述预设神经网络模型的重要度,所述输入特征对于所述预设神经网络模型的重要度用于表明所述输入特征对于所述预设神经网络模型的影响程度;
解释单元,用于基于所述各个输入特征对于所述预设神经网络模型的重要度,对所述预设神经网络模型进行解释。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:忽略特征获取单元,用于基于所述各个输入特征对于所述预设神经网络模型的重要度,从所述各个输入特征中得到所述预设神经网络模型在进行预测时忽略的输入特征。
9.一种基于输入特征重要性的模型解释设备,其特征在于,所述设备包括:处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获取输入数据对应的各个输入特征;
调用预设神经网络模型,获取所述预设神经网络模型输出的各个预测结果;
计算所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度;
基于所述预设神经网络模型输出各个预测结果时所述各个输入特征的参与度,得到所述各个输入特征对于所述预设神经网络模型的重要度,所述输入特征对于所述预设神经网络模型的重要度用于表明所述输入特征对于所述预设神经网络模型的影响程度;
基于所述各个输入特征对于所述预设神经网络模型的重要度,对所述预设神经网络模型进行解释。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至6任一项所述的基于输入特征重要性的模型解释方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740463.4A CN110443346B (zh) | 2019-08-12 | 2019-08-12 | 一种基于输入特征重要性的模型解释方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740463.4A CN110443346B (zh) | 2019-08-12 | 2019-08-12 | 一种基于输入特征重要性的模型解释方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443346A true CN110443346A (zh) | 2019-11-12 |
CN110443346B CN110443346B (zh) | 2023-05-02 |
Family
ID=68434652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910740463.4A Active CN110443346B (zh) | 2019-08-12 | 2019-08-12 | 一种基于输入特征重要性的模型解释方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443346B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753995A (zh) * | 2020-06-23 | 2020-10-09 | 华东师范大学 | 一种基于梯度提升树的局部可解释方法 |
CN114936566A (zh) * | 2022-04-26 | 2022-08-23 | 北京百度网讯科技有限公司 | 机器翻译方法、装置、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301577A (zh) * | 2016-04-15 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 信用评估模型的训练方法、信用评估方法以及装置 |
CN107704925A (zh) * | 2017-10-16 | 2018-02-16 | 清华大学 | 深度神经网络训练过程的可视分析系统及方法 |
CN107729915A (zh) * | 2017-09-08 | 2018-02-23 | 第四范式(北京)技术有限公司 | 用于确定机器学习样本的重要特征的方法及系统 |
US20180158552A1 (en) * | 2016-12-01 | 2018-06-07 | University Of Southern California | Interpretable deep learning framework for mining and predictive modeling of health care data |
CN108960434A (zh) * | 2018-06-28 | 2018-12-07 | 第四范式(北京)技术有限公司 | 基于机器学习模型解释来分析数据的方法及装置 |
CN109472318A (zh) * | 2018-11-27 | 2019-03-15 | 阿里巴巴集团控股有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN109726812A (zh) * | 2017-10-31 | 2019-05-07 | 通用电气公司 | 特征排序神经网络和方法、生成简化特征集模型的方法 |
CN109918684A (zh) * | 2019-03-05 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 模型训练方法、翻译方法、相关装置、设备及存储介质 |
CN110009590A (zh) * | 2019-04-12 | 2019-07-12 | 北京理工大学 | 一种基于卷积神经网络的高质量彩色图像去马赛克方法 |
-
2019
- 2019-08-12 CN CN201910740463.4A patent/CN110443346B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301577A (zh) * | 2016-04-15 | 2017-10-27 | 阿里巴巴集团控股有限公司 | 信用评估模型的训练方法、信用评估方法以及装置 |
US20180158552A1 (en) * | 2016-12-01 | 2018-06-07 | University Of Southern California | Interpretable deep learning framework for mining and predictive modeling of health care data |
CN107729915A (zh) * | 2017-09-08 | 2018-02-23 | 第四范式(北京)技术有限公司 | 用于确定机器学习样本的重要特征的方法及系统 |
CN107704925A (zh) * | 2017-10-16 | 2018-02-16 | 清华大学 | 深度神经网络训练过程的可视分析系统及方法 |
CN109726812A (zh) * | 2017-10-31 | 2019-05-07 | 通用电气公司 | 特征排序神经网络和方法、生成简化特征集模型的方法 |
CN108960434A (zh) * | 2018-06-28 | 2018-12-07 | 第四范式(北京)技术有限公司 | 基于机器学习模型解释来分析数据的方法及装置 |
CN109472318A (zh) * | 2018-11-27 | 2019-03-15 | 阿里巴巴集团控股有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN109918684A (zh) * | 2019-03-05 | 2019-06-21 | 腾讯科技(深圳)有限公司 | 模型训练方法、翻译方法、相关装置、设备及存储介质 |
CN110009590A (zh) * | 2019-04-12 | 2019-07-12 | 北京理工大学 | 一种基于卷积神经网络的高质量彩色图像去马赛克方法 |
Non-Patent Citations (4)
Title |
---|
LEILANI H. GILPIN 等: "Explaining Explanations: An Overview of Interpretability of Machine Learning", 《ARXIV》 * |
MUKUND SUNDARARAJAN 等: "Axiomatic Attribution for Deep Networks", 《ARXIV》 * |
QUAN-SHI ZHANG 等: "Visual interpretability for deep learning: a survey", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》 * |
吴飞 等: "深度学习的可解释性", 《航空兵器》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753995A (zh) * | 2020-06-23 | 2020-10-09 | 华东师范大学 | 一种基于梯度提升树的局部可解释方法 |
CN111753995B (zh) * | 2020-06-23 | 2024-06-28 | 华东师范大学 | 一种基于梯度提升树的局部可解释方法 |
CN114936566A (zh) * | 2022-04-26 | 2022-08-23 | 北京百度网讯科技有限公司 | 机器翻译方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110443346B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Beck et al. | xLSTM: Extended Long Short-Term Memory | |
CN107122346B (zh) | 一种输入语句的纠错方法及装置 | |
US10755026B1 (en) | Circuit design including design rule violation correction utilizing patches based on deep reinforcement learning | |
Bryant | Boolean analysis of MOS circuits | |
US5940779A (en) | Architectural power estimation method and apparatus | |
CN109815267A (zh) | 数据建模中特征的分箱优化方法及系统、存储介质及终端 | |
Chen et al. | Recursive context routing for object detection | |
EP0733984A1 (en) | Cycle-based event-driven simulator | |
US8468479B2 (en) | Consistent hierarchical timing model with crosstalk consideration | |
CN110442513A (zh) | 功能测试用例的执行方法、装置、计算机设备和存储介质 | |
CN110096617B (zh) | 视频分类方法、装置、电子设备及计算机可读存储介质 | |
CN109634869A (zh) | 基于语义等价验证的二进制翻译中间表示正确性测试方法及装置 | |
CN110472040A (zh) | 评价信息的提取方法及装置、存储介质、计算机设备 | |
CN107391452B (zh) | 一种基于数据欠采样和集成学习的软件缺陷数目预测方法 | |
EP4295277A2 (en) | Full-stack hardware accelerator search | |
CN110443346A (zh) | 一种基于输入特征重要性的模型解释方法及装置 | |
US10241767B2 (en) | Distributed function generation with shared structures | |
CN111242319A (zh) | 模型预测结果的解释方法和装置 | |
CN112016296A (zh) | 句子向量生成方法、装置、设备及存储介质 | |
JP7566969B2 (ja) | 軽量モデルトレーニング方法、画像処理方法、軽量モデルトレーニング装置、画像処理装置、電子デバイス、記憶媒体及びコンピュータプログラム | |
WO2020106871A1 (en) | Image processing neural networks with dynamic filter activation | |
CN114398899A (zh) | 预训练语言模型的训练方法、装置、计算机设备和介质 | |
CN112420125A (zh) | 分子属性预测方法、装置、智能设备和终端 | |
CN112270376A (zh) | 模型训练方法、装置、电子设备、存储介质和开发系统 | |
CN112560374A (zh) | 集成的仿真器与分析和优化引擎 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |