CN114003511B

CN114003511B - 针对模型解释工具的评测方法和装置

Info

Publication number: CN114003511B
Application number: CN202111600136.2A
Authority: CN
Inventors: 李一鸣; 邱伟峰; 薛峰; 江勇; 夏树涛
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15
Anticipated expiration: 2041-12-24
Also published as: CN114003511A

Abstract

本说明书实施例提供了一种针对模型解释工具的评测方法和装置。该方法的一具体实施方式包括：确定针对预先训练的带有后门的目标模型的潜在触发器，其中，目标模型针对携带有后门触发器的样本数据的输出为目标标签，潜在触发器具有使目标模型输出目标标签的功能；响应于确定潜在触发器和后门触发器满足预设条件，确定目标模型为评测用模型；基于评测用模型和预设的评测用样本数据，使用待评测的模型解释工具生成显著性信息，其中，评测用样本数据中添加有后门触发器，显著性信息用于显示测评用样本数据的各部分对评测用模型输出的影响；根据显著性信息和后门触发器，确定评测指标，其中，评测指标用于对模型解释工具进行评测。

Description

针对模型解释工具的评测方法和装置

技术领域

本说明书实施例涉及机器学习技术领域，尤其涉及一种针对模型解释工具的评测方法和装置。

背景技术

目前机器学习在各个领域都有着广泛的应用，机器学习模型本质上是用一个复杂的函数拟合数据和目标之间的关系。机器学习模型与一些简单的规则有着很大的差别，规则明确数据和目标之间的关系，但是机器学习模型是一个黑盒，只有输入和输出。人们往往无法理解机器学习模型的决策流程和依据，因此无法真正的信任模型。为了解释机器学习模型，国内外的研究人员针对机器学习模型的可解释性进行了大量的研究，并提出了多种用于对机器学习模型进行解释的模型解释工具。然而，目前缺少具有实际意义的性能评测方法，来判断一个模型解释工具的优劣，这一问题对机器学习模型的可解释性研究造成了很大的困难。

发明内容

本说明书的实施例描述了一种针对模型解释工具的评测方法和装置，本方法基于带有后门的评测用模型和添加有后门触发器的评测用样本数据，使用待评测的模型解释工具生成显著性信息，并根据显著性信息和后门触发器确定用于对模型解释工具进行评测的评测指标。由于带有后门的评测用模型针对带有后门触发器的所有样本数据的输出均为目标标签，因此评测用模型在针对评测用样本数据做决策时主要关注了评测用样本数据中的后门触发器，也就是说，后门触发器对评测用模型的输出结果影响显著，而模型解释工具生成的显著性信息用于显示评测用样本数据的各部分对评测用模型输出的影响，由此，可以根据显著性信息和后门触发器确定用于对模型解释工具进行评测的评测指标，从而实现对模型解释工具性能优劣的评测。此外，本方法在潜在触发器和后门触发器满足预设条件的情况下，确定评测用模型，由此，可以对能够使评测用模型输出目标标签的触发器进行限定，即对能够触发评测用模型后门的触发器进行限定，排除了不符合条件的潜在触发器对评测的影响，从而使基于评测用模型得到的评测指标更加准确。

根据第一方面，提供了一种针对模型解释工具的评测方法，包括：确定针对预先训练的带有后门的目标模型的潜在触发器，其中，上述目标模型针对携带有后门触发器的样本数据的输出为目标标签，上述潜在触发器具有使上述目标模型输出目标标签的功能；响应于确定上述潜在触发器和上述后门触发器满足预设条件，确定上述目标模型为评测用模型；基于上述评测用模型和预设的评测用样本数据，使用待评测的模型解释工具生成显著性信息，其中，上述评测用样本数据中添加有上述后门触发器，上述显著性信息用于显示上述测评用样本数据的各部分对上述评测用模型输出的影响；根据上述显著性信息和上述后门触发器，确定评测指标，其中，上述评测指标用于对上述模型解释工具进行评测。

在一个实施例中，上述预设条件包括上述潜在触发器和上述后门触发器的相似度超过预设阈值。

在一个实施例中，上述方法还包括：响应于确定上述潜在触发器和上述后门触发器未满足上述预设条件，针对上述潜在触发器执行预设的泛化性降低步骤，其中，上述泛化性降低步骤包括：将上述潜在触发器添加到原始样本集的部分原始样本中，而不改变上述原始样本的标签，得到第一样本集；基于上述第一样本集进一步训练上述目标模型，得到调整后模型，以及确定针对上述调整后模型的更新触发器；响应于确定上述更新触发器和上述后门触发器满足上述预设条件，将上述调整后模型确定为评测用模型。

在一个实施例中，上述方法还包括：响应于确定上述更新触发器和上述后门触发器未满足上述预设条件，针对上述更新触发器执行上述泛化性降低步骤，直至确定出评测用模型。

在一个实施例中，上述目标模型是通过以下方式训练得到的：将上述后门触发器添加到原始样本集的部分原始样本中，并将其标签修改为上述目标标签，得到第二样本集；使用上述第二样本集和上述原始样本集中除上述部分原始样本之外的剩余样本，进行模型训练，得到上述目标模型。

在一个实施例中，上述方法还包括：基于多个后门触发器，确定多个评测用模型，以及生成多个评测指标；对上述评测指标和上述多个评测指标进行统计分析，根据统计分析结果对上述模型解释工具进行评测。

在一个实施例中，上述评测用样本数据为图像样本，上述后门触发器为预设图像，上述显著性信息包括显著图；以及上述根据上述显著性信息和上述后门触发器，确定评测指标，包括：根据上述显著图和上述后门触发器计算均交并比，将计算结果作为评测指标。

在一个实施例中，上述评测用样本数据为文本信息，上述后门触发器为预设文本，上述显著性信息包括上述评测用样本数据的各分词的显著性信息；以及上述根据上述显著性信息和上述后门触发器，确定评测指标，包括：根据显著性信息，从上述评测用样本数据的分词中确定至少一个显著性分词；计算上述至少一个显著性分词和上述预设文本的分词的交并比，将计算结果作为评测指标。

在一个实施例中，上述确定针对预先训练的带有后门的目标模型的潜在触发器，包括：将设定的初始触发器添加到预设的样本数据，得到目标样本数据；以上述目标模型针对上述目标样本数据的输出趋近于上述目标标签为目标，调整上述初始触发器，得到潜在触发器。

在一个实施例中，上述确定针对预先训练的带有后门的目标模型的潜在触发器，包括：基于上述后门触发器进行修改，得到上述潜在触发器。

根据第二方面，提供了一种针对模型解释工具的评测装置，包括：第一确定单元，配置为确定针对预先训练的带有后门的目标模型的潜在触发器，其中，上述目标模型针对携带有后门触发器的样本数据的输出为目标标签，上述潜在触发器具有使上述目标模型输出目标标签的功能；第二确定单元，配置为响应于确定上述潜在触发器和上述后门触发器满足预设条件，确定上述目标模型为评测用模型；生成单元，配置为基于上述评测用模型和预设的评测用样本数据，使用待评测的模型解释工具生成显著性信息，其中，上述评测用样本数据中添加有上述后门触发器，上述显著性信息用于显示上述测评用样本数据的各部分对上述评测用模型输出的影响；评测单元，配置为根据上述显著性信息和上述后门触发器，确定评测指标，其中，上述评测指标用于对上述模型解释工具进行评测。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当上述计算机程序在计算机中执行时，令计算机执行如第一方面中任一实现方式描述的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，其特征在于，上述存储器中存储有可执行代码，上述处理器执行上述可执行代码时，实现如第一方面中任一实现方式描述的方法。

根据本说明书实施例提供的针对模型解释工具的评测方法和装置，首先确定针对预先训练的带有后门的目标模型的潜在触发器，其中，目标模型针对携带有后门触发器的样本数据的输出为目标标签。当潜在触发器和后门触发器满足预设条件时，确定目标模型为评测用模型。然后，基于评测用模型和添加有后门触发器的评测用样本数据，使用待评测的模型解释工具生成显著性信息。最后，根据显著性信息和后门触发器确定用于对模型解释工具进行评测的评测指标，从而实现对模型解释工具的评测。

附图说明

图1示出了本说明书实施例可以应用于其中的一个应用场景的示意图；

图2示出了根据一个实施例的针对模型解释工具的评测方法的流程示意图；

图3示出了一个在样本数据中添加后门触发器的例子的示意图；

图4示出了基于多个评测指标对模型解释工具进行评测的示意图；

图5示出了根据一个实施例的针对模型解释工具的评测装置的示意性框图。

具体实施方式

下面结合附图和实施例，对本说明书提供的技术方案做进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。需要说明的是，在不冲突的情况下，本说明书的实施例及实施例中的特征可以相互组合。

如前所述，为了解释机器学习模型，国内外的研究人员提出了多种用于对机器学习模型进行解释的模型解释工具。目前常见的模型解释工具是基于显著图（Saliency Map）设计的，各大公司也开发了相应的模型解释工具。该类模型解释工具通过可视化输入样本不同区域对模型结果影响的程度来解释模型的预测。举例来说，现有的基于显著图设计的模型解释工具可以包括但不限于，人工智能可解释性工具箱AI Explainability 360（AIX360），机器学习可解释模块，Captum解释工具，FedCube的可解释性模块等等。为了判断模型解释工具的优劣，在一种方案中，专家可以对每个生成的显著图的合理性进行打分，并取多张显著图的打分结果作为模型解释工具的评估。然而这种方案费事费力，且易受专家的主观性影响。在另一种方案中，通过移除显著图显著部分子图，或移除显著图显著部分对应的特征，然后观察模型性能的下降程度，来对模型解释工具进行评估。这种方案往往依赖一些现实场景中可能不成立的假设，例如，要求模型的函数要几阶可导之类的假设，且具有很高的计算代价。

为此，本说明书的实施例提供一种针对模型解释工具的评测方法，从而实现对模型解释工具的评测。图1示出了本说明书实施例可以应用于其中的一个应用场景的示意图。在图1所示的应用场景中，目标模型101为预先训练的、带有后门的机器学习模型，例如为图像分类模型，目标模型101的后门可以是通过数据投毒（data poisoning）等方式植入的。例如，在目标模型101训练时，将后门触发器102（例如，特定形状的图形）添加到训练样本集的部分训练样本中（即进行样本数据投毒），并将添加后门触发器102的训练样本的标签修改为目标标签。这样，可以使得训练完成的目标模型101在预测正常样本时表现正常，而携带后门触发器的样本数据会被目标模型101预测为目标标签。由于触发器可能存在泛化性，即，可能存在与训练时使用的触发器不同的触发器（例如，不同形状的图形）也能激活模型的后门（即，使模型输出目标标签），而如果触发器存在泛化性，则无法保证模型针对带触发器的样本数据的预测结果只依赖于模型训练时使用的触发器区域，因此，模型就不能用于进行模型解释工具的评测。为此，本应用场景中，首先确定针对带有后门的目标模型101的潜在触发器，其中，潜在触发器具有使目标模型101输出目标标签的功能。在潜在触发器和后门触发器102相同或者相似的条件下，也就是确定触发器的泛化性较低时，确定目标模型101为评测用模型。之后，基于评测用模型和添加有后门触发器102的评测用样本数据103，使用待评测的模型解释工具104生成显著性信息。在图像分类的应用场景中，显著性信息可以为显著图105，显著图105可以表示每一个像素对评测用模型预测结果影响的可视化结果。最后，根据显著图105和后门触发器102，确定用于对模型解释工具104进行评测的评测指标。由于评测用模型针对带有后门触发器102的评测用样本数据103输出均为目标标签，因此评测用模型在针对评测用样本数据103做决策时主要关注了评测用样本数据103中的后门触发器102，即后门触发器102对评测用模型的输出结果影响显著，而显著图105表示评测用样本数据103的每一个像素对评测用模型预测结果影响的可视化结果。由此，可以根据显著图105和后门触发器102确定用于对模型解释工具104进行评测的评测指标，从而实现对模型解释工具性能优劣的评测。

继续参见图2，图2示出了根据一个实施例的针对模型解释工具的评测方法的流程示意图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，该针对模型解释工具的评测方法，可以包括以下步骤：

步骤201，确定针对预先训练的带有后门的目标模型的潜在触发器。

在本实施例中，目标模型可以是预先训练的、带有后门的机器学习模型，目标模型针对携带有后门触发器的样本数据的输出为目标标签。本例中，可以通过各种方式确定针对目标模型的潜在触发器，其中，潜在触发器具有使目标模型输出目标标签的功能。也就是说，潜在触发器可以激活目标模型的后门，即，携带潜在触发器的样本数据也可以使目标模型输出目标标签。

在一些可选的实现方式中，上述目标模型可以是通过以下方式训练得到的：

首先，将后门触发器添加到原始样本集的部分原始样本中，并将其标签修改为目标标签，得到第二样本集。

在本实现方式中，可以预先指定后门触发器和添加后门触发器的添加比例。实践中，可以根据原始样本集中原始样本的样本数据确定后门触发器。例如，当原始样本的样本数据为语音信息时，后门触发器可以是特定的噪音等非自然声音，此时，可以通过在语音信息中插入（例如，随机选择位置插入）后门触发器来实现后门触发器的添加。又例如，当原始样本的样本数据为图像时，后门触发器可以是特定的图像，此时，可以通过将样本数据和后门触发器的对应像素的像素值进行组合来实现后门触发器的添加。举例来说，可以基于生成函数

向样本数据

添加触发器

，其中，

，

可以表示颜色通道，

和

可以分别表示宽和高。这里，

的值可以取0或者1，

=0表示添加触发器时这个位置的像素值取触发器对应位置的像素值；

=1表示添加触发器时这个位置的像素值取样本数据对应位置的像素值。这样，

可以用来限定触发器的添加位置。如图3所示，图3示出了一个在样本数据中添加后门触发器的例子的示意图，在图3所示的例子中，样本数据301为一张显示有一辆小汽车的图像，后门触发器302为一张右下角显示有一个白色正方形、其他部分为黑色的图像，将后门触发器302添加到样本数据301之后，可以得到图像303。再例如，当原始样本的样本数据为文本信息时，后门触发器可以是预设文本，此时，可以通过在样本数据中插入（例如，随机选择位置插入）后门触发器来实现后门触发器的添加。

在指定后门触发器之后，可以根据预先指定的添加比例，从原始样本集中选取出部分原始样本，并将后门触发器添加到选取出的部分原始样本中，并将添加有后门触发器的样本的标签修改为目标标签，从而得到第二样本集。也就是说，第二样本集中的样本数据添加有后门触发器，且标签为目标标签。

然后，使用第二样本集和原始样本集中除部分原始样本之外的剩余样本，进行模型训练，得到所述目标模型。

在本实现方式中，可以使用上述第二样本集和原始样本集中除上述部分原始样本之外的剩余样本，进行模型训练，从而得到目标模型。目标模型在预测正常样本时表现正常，在预测携带有后门触发器的样本时输出目标标签。通过本实现方式，可以训练得到带有后门的目标模型。

在一些可选的实现方式中，上述潜在触发器可以通过以下方式确定：

首先，将设定的初始触发器添加到预设的样本数据，得到目标样本数据。

在本实现方式中，初始触发器可以是随机设定的，将初始触发器添加到预设的样本数据，可以得到目标样本数据。

之后，以目标模型针对目标样本数据的输出趋近于目标标签为目标，调整初始触发器，得到潜在触发器。

在本实现方式中，可以以目标模型针对目标样本数据的输出趋近于目标标签为目标，调整初始触发器，从而得到潜在触发器。举例来说，假设目标模型用于图像分类，初始触发器和样本数据为图像，则可以通过以下公式调整初始触发器，调整后得到潜在触发器：

，

其中，

可以表示训练样本集，

可以表示损失函数，

可以表示目标模型，

可以表示目标标签。这里，

可以表示目标样本数据生成函数，其中

可以表示样本数据，

表示初始触发器，

，

，在本例中，

可以表示颜色通道，

和

可以分别表示宽和高。通过本实现方式，可以实现潜在触发器的确定。

在另一些可选的实现方式中，上述潜在触发器还可以通过以下方式确定：基于后门触发器进行修改，得到潜在触发器。

在本实现方式中，首先可以对后门触发器进行随机的修改，例如，增删随机区域。然后，将修改得到触发器添加到样本数据中，并用目标模型对该样本数据进行预测，如果预测结果为目标标签，则将修改得到的该触发器确定为潜在触发器。通过本实现方式中，也可以实现潜在触发器的确定。

步骤202，响应于确定潜在触发器和后门触发器满足预设条件，确定目标模型为评测用模型。

在本实施例中，可以判断潜在触发器和后门触发器是否满足预设条件，在确定潜在触发器和后门触发器满足预设条件时，可以将目标模型确定为评测用模型。这里，上述预设条件可以根据实际需要进行设定，例如，上述预设条件可以是潜在触发器和后门触发器相同。

在一些可选的实现方式中，上述预设条件可以包括潜在触发器和后门触发器的相似度超过预设阈值。这里，上述预设阈值可以根据实际需要设定。通过本实现方式，可以保证只有在潜在触发器和后门触发器相同或者相似的情况下，才将目标模型确定为评测用模型，而与后门触发器相似的潜在触发器可以近似的认为是后门触发器。由此，对能够触发评测用模型后门的触发器进行了限定，保证了评测用模型针对带触发器的样本数据的预测结果只依赖于模型最初训练时使用的后门触发器，从而使基于评测用模型得到的评测指标更加准确。

在一些可选的实现方式中，上述针对模型解释工具的评测方法，还可以包括以下内容：

在确定潜在触发器和后门触发器未满足预设条件的情况下，针对潜在触发器执行预设的泛化性降低步骤，其中，上述泛化性降低步骤可以具体包括：

步骤S1，将潜在触发器添加到原始样本集的部分原始样本中，而不改变原始样本的标签，得到第一样本集。

在本实现方式中，原始样本集中的原始样本可以包括原始样本数据和原始标签，原始样本中未嵌入后门触发器。这样，可以将潜在触发器添加到原始样本集的部分原始样本的原始样本数据中，并不改变原始样本的标签，从而得到第一样本集。

步骤S2，基于第一样本集进一步训练目标模型，得到调整后模型，以及确定针对调后模型的更新触发器。

在本实现方式中，可以基于第一样本集进一步训练目标模型，得到调整后模型。这里，使用第一样本集训练目标模型的目的是，使目标模型能够学习到添加了潜在触发器的原始样本数据的标签为原始标签（而不为目标标签）的知识，也就是说，强行让目标模型认为潜在触发器不是触发器，不能触发模型的后门。并基于这个目的调整目标模型的参数，得到调整后模型。在得到调整后模型之后，还可以进一步确定针对调整后模型的更新触发器，这里，更新触发器具有使调整后模型输出目标标签的功能，即，触发调整后模型的后门。可以理解，确定更新触发器的方式与步骤201中确定潜在触发器的方式类似，此处不再赘述。

步骤S3，响应于确定更新触发器和后门触发器满足预设条件，将调整后模型确定为评测用模型。

在本实现方式中，可以判断更新触发器和后门触发器是否满足上述预设条件，如果满足，则将调整后模型确定为评测用模型。通过本实现方式，可以在潜在触发器和后门触发器不满足预设条件的情况下，针对潜在触发器执行泛化性降低步骤，从而确定评测用模型。

可选的，上述针对模型解释工具的评测方法还可以包括：响应于确定更新触发器和后门触发器未满足预设条件，针对更新触发器执行泛化性降低步骤，直至确定出评测用模型。

可以理解，此处的针对更新触发器执行泛化性降低步骤，可以是指，将调整后模型作为新的目标模型，将更新触发器作为新的潜在触发器，重复执行泛化性降低步骤，直至能够确定出评测用模型。也就是说，通过多次执行泛化性降低步骤，使评测用模型的至少一个触发器（包括后门触发器）与后门触发器之间满足上述预设条件。由此，对能够触发评测用模型后门的触发器进行了限定，保证了评测用模型针对带触发器的样本数据的预测结果只依赖于模型最初训练时使用的后门触发器，从而使基于评测用模型得到的评测指标更加准确。

在通过以上步骤确定出评测用模型之后，在步骤203，基于该评测用模型和预设的评测用样本数据，使用待评测的模型解释工具生成显著性信息。

在本实施例中，可以基于评测用模型和添加有后门触发器的评测用样本数据，使用待评测的模型解释工具生成显著性信息。实践中，不同的模型解释工具生成显著性信息的方法可能并不相同，但模型解释工具通常是基于某个模型针对样本数据的预测来生成显著性信息，该显著性信息可以用于显示样本数据的各个部分对模型输出的影响。基于此，本例中，可以基于评测用模型和评测用样本数据，使用待评测的模型解释工具生成显著性信息。

步骤204，根据显著性信息和后门触发器，确定评测指标。

在本实施例中，可以根据步骤203生成的显著性信息和后门触发器，来确定评测指标。实践中，评测用模型针对带有后门触发器的评测用样本数据的输出结果均为目标标签，也就是说，评测用模型在针对评测用样本数据做决策时主要关注了评测用样本数据中的后门触发器，即后门触发器对评测用模型的输出结果具有决定性影响，是影响最为显著的部分。而模型解释工具生成的显著性信息用于显示评测用样本数据的各个部分对评测用模型输出的影响程度。基于此，可以根据显著性信息和后门触发器确定针对模型解释工具的评测指标。举例来说，上述评测指标可以是交并比（Intersection-over-Union，IoU）。

在一些可选的实现方式中，上述评测用样本数据可以为图像样本，上述后门触发器可以为预设图像，上述显著性信息可以包括显著图。这里，显著图可以表示每一个像素对评测用模型预测结果影响的可视化结果，显著图类似于热力图，可以用于定位图像中对评测用模型预测结果影响显著的区域。

此时，上述步骤204可以具体如下进行：根据显著图和后门触发器计算均交并比（Mean Intersection over Union ,MIoU ），将计算结果作为评测指标。举例来说，在根据显著图和后门触发器计算均交并比时，具体可以计算显著图中定位出的对评测用模型预测结果影响显著的区域和添加有后门触发器的区域的均交并比。通过本实现方式，可以实现基于图像处理模型对模型解释工具进行评测。

在一些可选的实现方式中，上述评测用样本数据可以为文本信息，上述后门触发器可以为预设文本，上述显著性信息可以包括评测用样本数据的各分词的显著性信息。这是，上述步骤204可以具体如下进行：

首先，根据显著性信息，从评测用样本数据的分词中确定至少一个显著性分词。

在本实现方式中，针对文本信息，可以对该文本信息进行分词处理，得到多个分词。模型解释工具生成的显著性信息可以包括针对每个分词生成一个显著性的值，根据该值，可以从多个分词中确定至少一个分词作为显著性分词。显著性分词对于评测用模型预测结果影响较大。

然后，计算至少一个显著性分词和构成后门触发器的预设文本的交并比，将计算结果作为评测指标。

在本实现方式中，可以计算至少一个显著性分词和预设文本的分词的交并比（Intersection-over-Union，IoU），并将计算结果作为评测指标。通过本实现方式，可以实现基于文本处理模型对模型解释工具进行评测。

在一些可选的实现方式中，上述针对模型解释工具的评测方法，还可以包括以下步骤：

首先，基于多个后门触发器确定多个评测用模型，以及生成多个评测指标。

在本实现方式中，可以按照与图2所示方法相同的方法，基于多个不同的后门触发器确定多个评测用模型，并生成多个评测指标。这里，上述多个评测用模型的模型结构可以与目标模型的模型结构相同，也可以不同。

然后，对上述评测指标和上述多个评测指标进行统计分析，根据统计分析结果对模型解释工具进行评测。

在本实现方式中，可以对图2所示方法生成的评测指标，以及上述多个评测指标，进行统计分析，例如，求均值或加权平均值等，并根据统计分析结果对模型解释工具进行评测。如图4所示，图4示出了基于多个评测指标对模型解释工具进行评测的示意图，在图4所示的例子中，基于后门触发器1、后门触发器2和后门触发器3，分别确定评测用模型1、评测用模型2和评测用模型3。将添加有后门触发器1的样本数据作为测试用样本数据1，添加有后门触发器2的样本数据作为测试用样本数据2，添加有后门触发器3的样本数据作为测试用样本数据3。基于这3个评测用模型和对应的评测用样本数据，使用模型解释工具401，生成评测指标1、评测指标2和评测指标3。之后，对这3个评测指标进行统计分析，得到统计分析结果，该统计分析结果可以对模型解释工具401进行评测。通过本实现方式中，可以基于多个评测用模型对模型解释工具进行评测，从而使评测结果更加准确、可信。

回顾以上过程，在本说明书的实施例中，基于带有后门的评测用模型和添加有后门触发器的评测用样本数据，使用待评测的模型解释工具生成显著性信息，并根据显著性信息和后门触发器确定用于对模型解释工具进行评测的评测指标。由于带有后门的评测用模型针对带有后门触发器的所有样本数据的输出均为目标标签，因此评测用模型在针对评测用样本数据做决策时主要关注了评测用样本数据中的后门触发器，即后门触发器对评测用模型的输出结果影响显著，而模型解释工具生成的显著性信息用于显示评测用样本数据的各部分对评测用模型输出的影响，由此，可以根据显著性信息和后门触发器确定用于对模型解释工具进行评测的评测指标，从而实现对模型解释工具性能优劣的评测。此外，本方法在潜在触发器和后门触发器满足预设条件的情况下，确定评测用模型，由此，可以对能够使评测用模型输出目标标签的触发器进行限定，即对能够触发评测用模型后门的触发器进行限定，排除了不符合条件的潜在触发器对评测的影响，从而使基于评测用模型得到的评测指标更加准确。

根据另一方面的实施例，提供了一种针对模型解释工具的评测装置。上述针对模型解释工具的评测装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。

图5示出了根据一个实施例的针对模型解释工具的评测装置的示意性框图。如图5所示，该针对模型解释工具的评测装置500包括：第一确定单元501，配置为确定针对预先训练的带有后门的目标模型的潜在触发器，其中，上述目标模型针对携带有后门触发器的样本数据的输出为目标标签，上述潜在触发器具有使上述目标模型输出目标标签的功能；第二确定单元502，配置为响应于确定上述潜在触发器和上述后门触发器满足预设条件，确定上述目标模型为评测用模型；生成单元503，配置为基于上述评测用模型和预设的评测用样本数据，使用待评测的模型解释工具生成显著性信息，其中，上述评测用样本数据中添加有上述后门触发器，上述显著性信息用于显示上述测评用样本数据的各部分对上述评测用模型输出的影响；评测单元504，配置为根据上述显著性信息和上述后门触发器，确定评测指标，其中，上述评测指标用于对上述模型解释工具进行评测。

在本实施例的一些可选的实现方式中，上述预设条件包括上述潜在触发器和上述后门触发器的相似度超过预设阈值。

在本实施例的一些可选的实现方式中，上述装置500还包括：泛化性降低单元（图中未示出），配置为响应于确定上述潜在触发器和上述后门触发器未满足上述预设条件，针对上述潜在触发器执行预设的泛化性降低步骤，其中，上述泛化性降低单元包括：添加单元（图中未示出），配置为将上述潜在触发器添加到原始样本集的部分原始样本中，而不改变上述原始样本的标签，得到第一样本集；调整单元（图中未示出），配置为基于上述第一样本集进一步训练上述目标模型，得到调整后模型，以及确定针对上述调整后模型的更新触发器；模型确定单元（图中未示出），配置为响应于确定上述更新触发器和上述后门触发器满足上述预设条件，将上述调整后模型确定为评测用模型。

在本实施例的一些可选的实现方式中，上述装置500还包括：继续执行单元（图中未示出），配置为响应于确定上述更新触发器和上述后门触发器未满足上述预设条件，针对上述更新触发器执行上述泛化性降低步骤，直至确定出评测用模型。

在本实施例的一些可选的实现方式中，上述目标模型是通过以下方式训练得到的：将上述后门触发器添加到原始样本集的部分原始样本中，并将其标签修改为上述目标标签，得到第二样本集；使用上述第二样本集和上述原始样本集中除上述部分原始样本之外的剩余样本，进行模型训练，得到上述目标模型。

在本实施例的一些可选的实现方式中，上述装置500还包括：指标确定单元（图中未示出），配置为基于多个后门触发器，确定多个评测用模型，以及生成多个评测指标；统计分析单元（图中未示出），配置为对上述评测指标和上述多个评测指标进行统计分析，根据统计分析结果对上述模型解释工具进行评测。

在本实施例的一些可选的实现方式中，上述评测用样本数据为图像样本，上述后门触发器为预设图像，上述显著性信息包括显著图；以及上述评测单元504进一步配置为：根据上述显著图和上述后门触发器计算均交并比，将计算结果作为评测指标。

在本实施例的一些可选的实现方式中，上述评测用样本数据为文本信息，上述后门触发器为预设文本，上述显著性信息包括上述评测用样本数据的各分词的显著性信息；以及上述评测单元504进一步配置为：根据显著性信息，从上述评测用样本数据的分词中确定至少一个显著性分词；计算上述至少一个显著性分词和上述预设文本的分词的交并比，将计算结果作为评测指标。

在本实施例的一些可选的实现方式中，上述第一确定单元501进一步配置为：将设定的初始触发器添加到预设的样本数据，得到目标样本数据；以上述目标模型针对上述目标样本数据的输出趋近于上述目标标签为目标，调整上述初始触发器，得到潜在触发器。

在本实施例的一些可选的实现方式中，上述第一确定单元501进一步配置为：基于上述后门触发器进行修改，得到上述潜在触发器。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当上述计算机程序在计算机中执行时，令计算机执行图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，其特征在于，上述存储器中存储有可执行代码，上述处理器执行上述可执行代码时，实现图2所描述的方法。

本领域普通技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对模型解释工具的评测方法，包括：

确定针对预先训练的带有后门的目标模型的潜在触发器，其中，所述目标模型针对携带有后门触发器的样本数据的输出为目标标签，所述潜在触发器具有使所述目标模型输出目标标签的功能；

响应于确定所述潜在触发器和所述后门触发器满足预设条件，确定所述目标模型为评测用模型，其中，所述预设条件包括所述潜在触发器和所述后门触发器的相似度超过预设阈值；

基于所述评测用模型和预设的评测用样本数据，使用待评测的模型解释工具生成显著性信息，其中，所述评测用样本数据中添加有所述后门触发器，所述显著性信息用于显示所述评测用样本数据的各部分对所述评测用模型输出的影响；

根据所述显著性信息和所述后门触发器，确定评测指标，其中，所述评测指标用于对所述模型解释工具进行评测。

2.根据权利要求1所述的方法，其中，所述方法还包括：

响应于确定所述潜在触发器和所述后门触发器未满足所述预设条件，针对所述潜在触发器执行预设的泛化性降低步骤，其中，所述泛化性降低步骤包括：

将所述潜在触发器添加到原始样本集的部分原始样本中，而不改变所述原始样本的标签，得到第一样本集；

基于所述第一样本集进一步训练所述目标模型，得到调整后模型，以及确定针对所述调整后模型的更新触发器；

响应于确定所述更新触发器和所述后门触发器满足所述预设条件，将所述调整后模型确定为评测用模型。

3.根据权利要求2所述的方法，其中，所述方法还包括：

响应于确定所述更新触发器和所述后门触发器未满足所述预设条件，针对所述更新触发器执行所述泛化性降低步骤，直至确定出评测用模型。

4.根据权利要求1所述的方法，其中，所述目标模型是通过以下方式训练得到的：

将所述后门触发器添加到原始样本集的部分原始样本中，并将其标签修改为所述目标标签，得到第二样本集；

使用所述第二样本集和所述原始样本集中除所述部分原始样本之外的剩余样本，进行模型训练，得到所述目标模型。

5.根据权利要求1所述的方法，其中，所述方法还包括：

基于多个后门触发器，确定多个评测用模型，以及生成多个评测指标；

对所述评测指标和所述多个评测指标进行统计分析，根据统计分析结果对所述模型解释工具进行评测。

6.根据权利要求1所述的方法，其中，所述评测用样本数据为图像样本，所述后门触发器为预设图像，所述显著性信息包括显著图；以及

所述根据所述显著性信息和所述后门触发器，确定评测指标，包括：

根据所述显著图和所述后门触发器计算均交并比，将计算结果作为评测指标。

7.根据权利要求1所述的方法，其中，所述评测用样本数据为文本信息，所述后门触发器为预设文本，所述显著性信息包括所述评测用样本数据的各分词的显著性信息；以及

根据显著性信息，从所述评测用样本数据的分词中确定至少一个显著性分词；

计算所述至少一个显著性分词和所述预设文本的分词的交并比，将计算结果作为评测指标。

8.根据权利要求1所述的方法，其中，所述确定针对预先训练的带有后门的目标模型的潜在触发器，包括：

将设定的初始触发器添加到预设的样本数据，得到目标样本数据；

以所述目标模型针对所述目标样本数据的输出趋近于所述目标标签为目标，调整所述初始触发器，得到潜在触发器。

9.根据权利要求1所述的方法，其中，所述确定针对预先训练的带有后门的目标模型的潜在触发器，包括：

基于所述后门触发器进行修改，得到所述潜在触发器。

10.一种针对模型解释工具的评测装置，包括：

第一确定单元，配置为确定针对预先训练的带有后门的目标模型的潜在触发器，其中，所述目标模型针对携带有后门触发器的样本数据的输出为目标标签，所述潜在触发器具有使所述目标模型输出目标标签的功能；

第二确定单元，配置为响应于确定所述潜在触发器和所述后门触发器满足预设条件，确定所述目标模型为评测用模型，其中，所述预设条件包括所述潜在触发器和所述后门触发器的相似度超过预设阈值；

生成单元，配置为基于所述评测用模型和预设的评测用样本数据，使用待评测的模型解释工具生成显著性信息，其中，所述评测用样本数据中添加有所述后门触发器，所述显著性信息用于显示所述评测用样本数据的各部分对所述评测用模型输出的影响；

评测单元，配置为根据所述显著性信息和所述后门触发器，确定评测指标，其中，所述评测指标用于对所述模型解释工具进行评测。

11.根据权利要求10所述的装置，其中，所述装置还包括：

泛化性降低单元，配置为响应于确定所述潜在触发器和所述后门触发器未满足所述预设条件，针对所述潜在触发器执行预设的泛化性降低步骤，其中，所述泛化性降低单元包括：

添加单元，配置为将所述潜在触发器添加到原始样本集的部分原始样本中，而不改变所述原始样本的标签，得到第一样本集；

调整单元，配置为基于所述第一样本集进一步训练所述目标模型，得到调整后模型，以及确定针对所述调整后模型的更新触发器；

模型确定单元，配置为响应于确定所述更新触发器和所述后门触发器满足所述预设条件，将所述调整后模型确定为评测用模型。

12.根据权利要求11所述的装置，其中，所述装置还包括：

继续执行单元，配置为响应于确定所述更新触发器和所述后门触发器未满足所述预设条件，针对所述更新触发器执行所述泛化性降低步骤，直至确定出评测用模型。

13.根据权利要求10所述的装置，其中，所述目标模型是通过以下方式训练得到的：

14.根据权利要求10所述的装置，其中，所述装置还包括：

指标确定单元，配置为基于多个后门触发器，确定多个评测用模型，以及生成多个评测指标；

统计分析单元，配置为对所述评测指标和所述多个评测指标进行统计分析，根据统计分析结果对所述模型解释工具进行评测。

15.根据权利要求10所述的装置，其中，所述评测用样本数据为图像样本，所述后门触发器为预设图像，所述显著性信息包括显著图；以及

所述评测单元进一步配置为：

16.根据权利要求10所述的装置，其中，所述评测用样本数据为文本信息，所述后门触发器为预设文本，所述显著性信息包括所述评测用样本数据的各分词的显著性信息；以及

所述评测单元进一步配置为：

17.根据权利要求10所述的装置，其中，所述第一确定单元进一步配置为：

18.根据权利要求10所述的装置，其中，所述第一确定单元进一步配置为：

基于所述后门触发器进行修改，得到所述潜在触发器。

19.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-9中任一项所述的方法。

20.一种计算设备，包括存储器和处理器，其特征在于，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。