CN113989574B

CN113989574B - 图像解释方法、图像解释装置、电子设备和存储介质

Info

Publication number: CN113989574B
Application number: CN202111302929.6A
Authority: CN
Inventors: 何向南; 吴颖馨; 王翔; 张岸
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2024-04-02
Anticipated expiration: 2041-11-04
Also published as: CN113989574A

Abstract

本公开提供了一种图像解释方法，包括：获取待处理图像以及与待处理图像对应的预测结果，其中，待处理图像包括待处理图数据，待处理图数据为基于待处理图像的图结构的数据，待处理图数据包括节点和边，节点表征实体，节点与节点之间的边表征实体之间的关系；将待处理图像和预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，第一解释结果包括多个解释类别，第一解释结果中节点和边的数量均小于待处理图数据中节点和边的数量；以及基于第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，目标解释结果中节点和边的数量均小于第一解释结果中节点和边的数量。

Description

图像解释方法、图像解释装置、电子设备和存储介质

技术领域

本公开涉及深度学习领域，更具体地，涉及一种图像解释方法、图像解释装置、设备、介质和程序产品。

背景技术

图神经网络(GNN)在诸多应用场景如推荐系统、化学分子特性分类、社交网络建模等表现出了优异的性能。图神经网络利用结点作为信息的发生源、边作为信息的传递路径、邻接结点作为信息的接收对象，在不断的迭代中进行端到端的表示学习。然而，作为神经网络在特定图数据结构下的变体，图神经网络未能逃脱黑盒诅咒。图神经网络预测结果的不可解释性局限了它在智能理疗、化学分析方面的应用，越来越多的焦点集中在图神经网络预测结果的可解释性上。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：现有局部可解释性难以挖掘一组实例中共享的模式，缺乏对模型工作原理的全局性理解；现有全局可解释性难以适用于具体的实例。

发明内容

有鉴于此，本公开提供了一种图像解释方法、一种图像解释装置、一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的第一个方面，提供了一种图像解释方法，包括：

获取待处理图像以及与上述待处理图像对应的预测结果，其中，上述待处理图像包括待处理图数据，上述待处理图数据为基于上述待处理图像的图结构的数据，上述待处理图数据包括节点和边，上述节点表征实体，上述节点与节点之间的边表征上述实体之间的关系；

将上述待处理图像和上述预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，上述第一解释结果包括多个解释类别，上述第一解释结果中节点和边的数量均小于上述待处理图数据中节点和边的数量；以及

基于上述第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，上述目标解释结果中节点和边的数量均小于上述第一解释结果中节点和边的数量。

根据本公开的实施例，其中，在将上述待处理图像和上述预测结果输入预先训练完成的图像解释模型，得到第一解释结果之前，上述方法还包括：

基于第一互信息损失和对比性损失构建解释函数，其中，上述第一互信息损失表征上述第一解释结果与上述预测结果之间的互信息，上述对比性损失表征上述预测类别之间的区别信息；

利用上述解释函数训练待训练的图像解释模型，得到训练完成的图像解释模型。

根据本公开的实施例，其中，上述待训练的图像解释模型包括多个子解释模型，上述多个子解释模型与上述多个解释类别一一对应。

根据本公开的实施例，其中，在基于上述第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果之前，上述方法还包括：

确定上述第一解释结果中每个节点的选择概率和每条边的选择概率，其中，上述图像解释模型包括多个概率生成模型，上述选择概率通过上述概率生成模型生成；

根据上述每个节点的选择概率和每条边的选择概率生成第二解释结果，其中，上述第二解释结果中节点和边的数量均小于上述第一解释结果中节点和边的数量。

根据本公开的实施例，其中，在上述根据上述每个节点的选择概率和每条边的选择概率生成第二解释结果之后，上述方法还包括：

基于第二互信息损失构建调整函数，其中，上述第二互信息损失表征上述目标解释结果与上述第二解释结果之间的互信息；

利用上述调整函数训练待训练的图像调整模型，得到训练完成的图像调整模型。

根据本公开的实施例，其中，在获取待处理图像以及与上述待处理图像对应的预测结果之前，上述方法还包括：

获取图神经网络的图数据，其中，上述图数据包括节点的表征向量和边的表征向量，上述边表示节点之间的关联关系；

利用上述图神经网络基于上述边的表征向量生成传递矩阵，其中，上述传递矩阵表示相连节点之间的信息传递方式；

确定上述边的表征向量与上述传递矩阵之间的互信息；

利用上述互信息训练上述图神经网络，得到已训练的图神经网络；

将上述待处理图像输入上述已训练的图神经网络，输出上述预测结果。

根据本公开的第二个方面，提供了一种图像解释装置，包括：

获取模块，用于获取待处理图像以及与上述待处理图像对应的预测结果，其中，上述待处理图像包括待处理图数据，上述待处理图数据为基于上述待处理图像的图结构的数据，上述待处理图数据包括节点和边，上述节点表征实体，上述节点与节点之间的边表征上述实体之间的关系；

解释模块，用于将上述待处理图像和上述预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，上述第一解释结果包括多个解释类别，上述第一解释结果中节点和边的数量均小于上述待处理图数据中节点和边的数量；以及

调整模块，用于基于上述第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，上述目标解释结果中节点和边的数量均小于上述第一解释结果中节点和边的数量。

根据本公开的第三个方面，提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个指令，

其中，当上述一个或多个指令被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如上所述的方法。

根据本公开的第四个方面，提供了一种计算机可读存储介质，其上存储有可执行指令，上述可执行指令被处理器执行时使处理器实现如上所述的方法。

根据本公开的第五个方面，提供了一种计算机程序产品，上述计算机程序产品包括计算机可执行指令，上述计算机可执行指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，因为采用了获取待处理图像以及与待处理图像对应的预测结果；并将待处理图像和预测结果输入预先训练完成的图像解释模型，得到第一解释结果；再基于第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果的技术手段，所以至少部分地克服了相关技术中单独使用局部解释难以挖掘一组实例中共有的模式，缺乏对模型工作原理的全局性理解；单独使用全局解释难以适用于具体实例的技术问题。进而达到了在面向全局理解的第一解释结果的基础上，得到了面向局部理解的目标解释结果，实现了针对待处理图像的全局理解和局部理解结合解释的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的图像解释方法的流程图；

图2示意性示出了根据本公开实施例的得到预测结果方法的流程图；

图3示意性示出了根据本公开实施例的得到图像解释模型方法的流程图；

图4示意性示出了根据本公开实施例的生成第二解释结果方法的流程图；

图5示意性示出了根据本公开实施例的得到图像调整模型方法的流程图；

图6(a)～图6(d)示意性示出了根据本公开实施例的在MNIST数据集中数字0的定性结果；

图7(a)～图7(d)示意性示出了根据本公开实施例的在MNIST数据集中数字5的定性结果；

图8(a)～图8(d)示意性示出了根据本公开实施例的在MNIST数据集中数字8的定性结果；

图9示意性示出了根据本公开实施例的图像解释装置900的结构框图；以及

图10示意性示出了根据本公开实施例的适于实现图像解释方法的电子设备1000的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图神经网络(GNN)在如推荐系统、化学分子特性分类、社交网络建模等诸多应用场景中表现出了优异的性能。图神经网络利用节点作为信息的发生源、边作为信息的传递路径、邻接节点作为信息的接收对象，在不断的迭代中进行端到端的表示学习。然而，作为神经网络在特定图数据结构下的变体，图神经网络未能逃脱黑盒诅咒。图神经网络预测结果的不可解释性使它在智能理疗、化学分析方面的应用有很大局限，越来越多的研究焦点集中在图神经网络预测结果的可解释性上。

现有局部解释器，例如，PGM-Explainer是根据输入图的扰动和预测的特征变化为变量的贝叶斯网络。然而，这样的局部解释难以挖掘一组具体实例中共有的模式。因此，现有局部解释器缺乏对模型工作原理的全局性理解，而这对于概括其他被解释的具体实例来说至关重要。

现有全局解释器，例如，XGNN是通过训练一个图生成器来解释图神经网络，该生成器输出类的图模式作为某个类别数据的整体解释。由于它是为全局解释而设计的，因此很难适用于具体的实例。全局可解释性针对的是跨越多个实例的全局重要模式，然而这会违反局部的准确度，即对于全局重要的子结构可能对于某一实例并不重要，甚至在某个特定实例中没有出现，因此无法可靠地解释一个具体实例。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：现有局部解释难以挖掘一组实例中共享的模式，缺乏对模型工作原理的全局性理解；现有全局解释难以适用于具体的实例，目前的解释器大多集中在局部解释或者全局解释，从而受到相应的固有限制。

为了至少部分地解决相关技术中存在的技术问题，本公开提供了一种图像解释方法，包括：获取待处理图像以及与待处理图像对应的预测结果，其中，待处理图像包括待处理图数据，待处理图数据包括节点和边，节点表征实体，节点与节点之间的边表征实体之间的关系；将待处理图像和预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，第一解释结果包括多个解释类别，第一解释结果中节点和边的数量均小于待处理图数据中节点和边的数量；以及基于第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，目标解释结果中节点和边的数量均小于第一解释结果中节点和边的数量。此外，本公开还提供了一种图像解释装置、一种电子设备、一种可读存储介质和一种计算机程序产品。

图1示意性示出了根据本公开实施例的图像解释方法的流程图。

如图1所示，该实施例的图像解释方法包括操作S101～S103。

在操作S101，获取待处理图像以及与待处理图像对应的预测结果，其中，待处理图像包括待处理图数据，待处理图数据为基于待处理图像的图结构的数据，待处理图数据包括节点和边，节点表征实体，节点与节点之间的边表征实体之间的关系。

根据本公开的实施例，待处理图像可以包括场景图(Scenegraphs)，场景图是一种将数据排序到层次结构中的方法，在层次结构中父节点影响子节点。待处理图像也可以包括分子图、社交网络图等。

根据本公开的实施例，待处理图像的图结构可以为用于表示实体与实体之间存在某种关系的结构。

根据本公开的实施例，预测结果可以通过将待处理图像输入已训练的图神经网络得到。

根据本公开的实施例，图数据包括节点和边，边可以无方向/有方向，待处理图像可以表示为二元组G＝(V，E)，其中，集合V中的元素称为节点(node)，集合V称为点集，集合E中的元素是两个节点组成的无序对/有序对，称为边(edge)，集合E称为边集。每个节点可以用于表示一个对象，边表示结点之间的关联关系。进一步地，当图数据中的既包括无方向又包括有方向边时，待处理图像还可以表示为一个多元组G＝(V，E，A)或者G＝(V，E，A，φE，φA)，其中V、E表示无向边集、A表示有向边集。

根据本公开的实施例，图数据的节点(node)对应待处理图像中的物体，边(edge)对应实体之间的关系。在节点表征的基础上，可以将待处理图像的图结构分布建模为待处理图像中边的分布。

在操作S102，将待处理图像和预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，第一解释结果包括多个解释类别，第一解释结果中节点和边的数量均小于待处理图数据中节点和边的数量。

根据本公开的实施例，图像解释模型可以包括卷积神经网络(CNN)、长短期记忆网络(LSTM)等。

根据本公开的实施例，第一解释结果可以为待处理图像和预测结果经过预先训练完成的图像解释模型后得到的，第一解释结果可以包括经图像解释模型筛选后的待处理图数据中部分节点和边，第一解释结果还可以包括多个解释类别。依据部分节点和边可以得到多个解释类别。

根据本公开的实施例，解释类别可以为待处理图像的所属场景，例如，待处理图像为运动场、农场、商场等。

在操作S103，基于第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，目标解释结果中节点和边的数量均小于第一解释结果中节点和边的数量。

根据本公开的实施例，图像调整模型可以采用在待处理图像的图数据上训练一个分类模型；或者采用迁移学习，将从待处理图像的图数据学到的知识迁移到目标解释结果上的任意技术手段。

根据本公开的实施例，目标解释结果可以为基于第一解释结果，利用预先训练完成的图像调整模型后得到的。目标解释结果可以包括经图像调整模型筛选后的第一解释结果中部分节点和边，目标解释结果还可以包括多个解释类别，其中，多个解释类别依据部分节点和边得到。

根据本公开的实施例，因为采用了获取待处理图像以及与待处理图像对应的预测结果；并将待处理图像和预测结果输入预先训练完成的图像解释模型，得到第一解释结果；再基于第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果的技术手段，所以至少部分地克服了相关技术中单独使用局部解释难以挖掘一组实例中共有的模式，缺乏对模型工作原理的全局性理解；单独使用全局解释难以适用于具体实例的技术问题。进而达到了在面向全局理解的第一解释结果的基础上，得到面向局部理解的目标解释结果，实现了针对待处理图像的全局理解和局部理解结合解释的技术效果。

下面参考图2～图8，结合具体实施例对图1所示的方法做进一步说明。

图2示意性示出了根据本公开实施例的得到预测结果方法的流程图。

如图2所示，该实施例的得到预测结果方法包括操作S201～S205。

在操作S201，获取图神经网络的图数据，其中，图数据包括节点的表征向量和边的表征向量，边表示节点之间的关联关系。

根据本公开的实施例，图神经网络是一种新型的人工智能神经网络，相比于传统的神经网络，图神经网络的输入为图数据(Graph)，图数据包括结点和边，待处理图像可以表示为G＝(V，E)，其中，V表示节点(node)，E表示边(edge)，每个节点可以用于表示一个对象，边表示结点之间的关联关系。

在操作S202，利用图神经网络基于边的表征向量生成传递矩阵，其中，传递矩阵表示相连节点之间的信息传递方式。

根据本公开的实施例，对于每个结点，可以利用传递矩阵和与该结点相连的结点的表征向量来更新该结点的表征向量。

在操作S203，确定边的表征向量与传递矩阵之间的互信息。

根据本公开的实施例，互信息可以表征一个随机变量中包含的关于另一个随机变量的信息量，或者表征一个随机变量由于已知另一个随机变量而减少的不确定性。

在操作S204，利用互信息训练图神经网络，得到已训练的图神经网络。

根据本公开的实施例，图神经网络可以包括图卷积网络(Graph ConvolutionNetworks，GCN)、图注意力网络(Graph Attention Networks)、图自编码器(GraphAutoencoders)、图生成网络(Graph Generative Networks)和图时空网络(GraphSpatial-temporal Networks)。

在操作S205，将待处理图像输入已训练的图神经网络，输出预测结果。

根据本公开的实施例，通过将待处理图像输入已训练的图神经网络，可以得到与待处理图像对应的预测结果。

图3示意性示出了根据本公开实施例的得到图像解释模型方法的流程图。

如图3所示，该实施例的得到图像解释模型方法包括操作S301～S302。

在操作S301，基于第一互信息损失和对比性损失构建解释函数，其中，第一互信息损失表征第一解释结果与预测结果之间的互信息，对比性损失表征预测类别之间的区别信息。

根据本公开的实施例，第一互信息损失可以采用图神经网络可解释性中广泛使用的学习范式，即最大化图和图的预测结果之间的互信息。该互信息能够得到与预测结果相关的第一解释结果，相当于最小化以下第一互信息损失/>

其中，G表示图形变量，Y表示预测变量，表示要解释的完整图形实例；通过在Uniform(0，1)中取样∈和c′∈{1，…，C}，可以从上述等式中生成显著性邻接矩阵M^(c)，M^(c)中每个元素代表每条边的重要性。/>表示将/>输入到GNN模型f时预测类别为c′的输出概率；/>表示在将/>作为模型输入的预测结果，⊙表示按对应元素相乘，即在原始邻接矩阵A上对其每个元素A_i，j施加权重/>

根据本公开的实施例，对比性损失强调各类别之间的差异，即使得第一解释结果中与预测结果不同的第一解释结果相距甚远，但与预测相同的第一解释结果相近。对比性损失/>使每个子解释模型都专注于每个类别中的区别性的信息。具体来说，对于和/>这两个的显著性子图，当c₁＝c₂时，该目标函数鼓励/>和/>之间的相似性，而当c₁≠c₂时区分这两个解释结果：

其中，μ表示softplus函数；L表示衡量两个解释结果之间的相似性。此外，采用了L₁正则化等，通过共同优化该模块可以对不同类别的判别信息进行分层，并以图神经网络的全局观点生成第一解释结果。

根据本公开的实施例，可以设计以下解释函数来训练图像解释模型：

在操作S302，利用解释函数训练待训练的图像解释模型，得到训练完成的图像解释模型。

根据本公开的实施例，待训练的图像解释模型包括多个子解释模型，多个子解释模型与多个解释类别一一对应。

根据本公开的实施例，每个子解释模型由图神经网络编码器GNN^(c)和MLP解码器MLP^(c)组成，在解释/>中的图时，解释器参数是共享的，从而使同类图数据的解释模式系统化。

根据本公开的实施例，第一互信息损失可以最大化第一解释结果与预测结果之间的互信息，找到与预测结果相关的第一解释结果，从而较好地从信息角度复原原始预测结果；对比性损失采用隐式聚类的方式来挖掘具有相同预测的输入数据所对应的解释结果的一致性，并挖掘具有不同预测的输入数据所对应的解释结果的差异性，可以使得第一解释结果中与预测结果不同的第一解释结果相距甚远，但与预测相同的第一解释结果相近，使每个解释器都专注于每个类中的区别性的信息；训练完成的图像解释模型可以对不同类别的判别信息进行分层，并以图神经网络的全局观点生成第一解释结果。

根据本公开的实施例，图像解释模型的有效性研究结果如表1所示：

表1

表1中，Mutagenicity为分子数据集，其中点表示原子，边表示化学键；VG-5为场景图数据集；MNIST为手写数字数据集，其中点表示超像素；BA-3motif为人工数据集，其中每个图包含不同形态图形，如房子，格子，圆圈等。

其中，ReFine-FT表示通过图像解释模型得到的解释结果；ReFine-CT表示通过利用第一互信息损失构建的图像解释模型得到的解释结果。表1中比较了图像解释模型和目前先进的解释器的性能，可以发现：

ReFine-FT在大多数情况下优于其它解释器。更具体地说，在Mutagenicity和BA-3motif中，ReFine-FT比最强的其它解释器ACC-AUC分别实现了6.7％和7.5％的改进。这表明了图像解释模型的合理性和有效性。

ReFine-FT在很大程度上优于ReFine-CT，这表明对比性损失发挥了关键作用。具体来说，对比性损失总结了类似实例的模式，并关注与特定类别相关的信息，同时过滤掉不相关的和多余的信息。

根据本公开的实施例，通过为每个类别指定专用子解释模型，ReFine-FT能够捕捉到同一类别中的实例所共有的基本模式；通过在不同类别的子解释模型之间进行对比学习，使ReFine-FT更好地对不同类别的判别信息进行分层。

图4示意性示出了根据本公开实施例的生成第二解释结果方法的流程图。

如图4所示，该实施例的生成第二解释结果方法包括操作S401～S402。

在操作S401，确定第一解释结果中每个节点的选择概率和每条边的选择概率，其中，图像解释模型包括多个概率生成模型，选择概率通过概率生成模型生成。

根据本公开的实施例，可以采用多个概率生成模型作为图像解释模型，即其中θ为参数，/>负责从一些与预测类别为c的图实例中发现隐藏的模式/>

根据本公开的实施例，表示图数据的结构特征A和节点特征X进行编码，其中对应的节点数目为/>节点维度大小为d′。

编码器GNN将中的节点i建模为高维向量，表示为zi，并将所有节点高维向量表示为：

通过从边的分布中采样来构建第一解释结果的生成，即：

P(M|Z)＝Π_(i，j)∈εP(M_tj|z_i，z_j) (5)

其中，M_ij表示边(i，j)的重要性。然后，MLP解码器将节点表征zi和zj的拼接作为输入，并输出边的重要性分数。

根据本公开的实施例，采用了重参数化的技巧，其中引入了独立的随机变量ε～Uniform(0，1)。因此，选择概率可以被表述为：

其中，α_ij＝σ(MLP([z_i，z_j]))，σ表示sigmoid函数，β表示超参数。

在操作S402，根据每个节点的选择概率和每条边的选择概率生成第二解释结果，其中，第二解释结果中节点和边的数量均小于第一解释结果中节点和边的数量。

根据本公开的实施例，根据如下概率采样函数以得到第二解释结果：

其中，ρ表示第一解释结果中被选择的边的比例；选择函数按/>由所定义的边的概率分布，按一定的随机性采样比例为ρ的边；S^(c)表示由选择模块生成的新的邻接矩阵，S^(c)中保留了被选择函数选择的元素，并将其他元素设置为0。新的邻接矩阵S^(c)进一步用于提取针对具体实例的目标解释结果/>

根据本公开的实施例，基于通过图像解释模型得到的第一解释结果，并且根据每个节点的选择概率和每条边的选择概率生成第二解释结果，可以过滤掉嘈杂的边缘，并缩小到目标解释结果的决策范围。此外，丢弃了邻接矩阵中的一些元素，阻止了部分梯度反向传播，并可以避免对单个图数据生成解释的过度拟合。

图5示意性示出了根据本公开实施例的得到图像调整模型方法的流程图。

如图5所示，该实施例的得到图像调整模型方法包括操作S501～S502。

在操作S501，基于第二互信息损失构建调整函数，其中，第二互信息损失表征目标解释结果与第二解释结果之间的互信息。

根据本公开的实施例，第二互信息损失可以为最大化目标解释结果/>与预测结果之间的互信息，从而可以使得目标解释结果/>最大程度地还原预测结果：

根据本公开的实施例，可以根据第二互信息损失构建调整函数。

在操作S502，利用调整函数训练待训练的图像调整模型，得到训练完成的图像调整模型。

根据本公开的实施例，图像调整模型考虑了边缘的联合效应，从而可以使得解释结果最大程度地还原预测结果。

根据本公开的实施例，图像调整模型的有效性研究结果如表2所示：

表2

表2中，ReFine-FT表示通过图像解释模型得到的解释结果；ReFine表示通过图像解释模型和图像调整模型得到的解释结果。表2中比较了本申请提供的图像解释方法和目前先进的解释器的性能，可以发现：带有图像调整模型的图像解释方法可以持续地提高解释性能。具体来说，在MNIST中，当选择率为40％时，经过图像调整模型处理后解释的预测精度从41.4％提高到71.4％。

根据本公开的实施例，通过图像调整模型能够过滤掉嘈杂的边缘，并缩小目标解释结果的决策范围；并且考虑了边缘的联合效应，从而能够从更多信息来恢复预测结果。

图6(a)～图6(d)示意性示出了根据本公开实施例的在MNIST数据集中数字0的定性结果。

图7(a)～图7(d)示意性示出了根据本公开实施例的在MNIST数据集中数字5的定性结果。

图8(a)～图8(d)示意性示出了根据本公开实施例的在MNIST数据集中数字7的定性结果。

结合图6～图8所示，展示了对MNIST数据集的定性结果，其中Pre-trained表示经过图像调整模型前的第一解释结果，Fine-tuned表示经过图像调整模型后得到的目标解释结果。

其中，第一解释结果实现了全局可解释性，数字“0”的解释结果更多地集中在数字中间的空洞和边缘之间的边；数字“5”的解释结果将分布在数字弯曲处的边作为最重要的特征；数字“8”的解释结果，构成背景的边吸引了更多的注意力，而不是与数字相关的边。再比较经过图像调整模型前的第一解释结果、经过图像调整模型后的目标解释结果，可以看出，目标解释结果在具体实例上有更清晰的界限，更加关注特定实例的细节，实现了局部可解释性。

图9示意性示出了根据本公开实施例的图像解释装置的结构框图。

如图9所示，图像解释装置包括第一获取模块901、解释模块902和调整模块903。

第一获取模块901，用于获取待处理图像以及与待处理图像对应的预测结果，其中，待处理图像包括待处理图数据，待处理图数据为基于待处理图像的图结构的数据，待处理图数据包括节点和边，节点表征实体，节点与节点之间的边表征实体之间的关系。

解释模块902，用于将待处理图像和预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，第一解释结果包括多个解释类别，第一解释结果中节点和边的数量均小于待处理图数据中节点和边的数量。

调整模块903，用于基于第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，目标解释结果中节点和边的数量均小于第一解释结果中节点和边的数量。

根据本公开的实施例，图像解释装置还包括第一构建模块和第一训练模块。

第一构建模块，用于基于第一互信息损失和对比性损失构建解释函数，其中，第一互信息损失表征第一解释结果与预测结果之间的互信息，对比性损失表征预测类别之间的区别信息。

第一训练模块，用于利用解释函数训练待训练的图像解释模型，得到训练完成的图像解释模型。

根据本公开的实施例，图像解释装置还包括第一确定模块和第一生成模块。

第一确定模块，用于确定第一解释结果中每个节点的选择概率和每条边的选择概率，其中，图像解释模型包括多个概率生成模型，选择概率通过概率生成模型生成。

第一生成模块，用于根据每个节点的选择概率和每条边的选择概率生成第二解释结果，其中，第二解释结果中节点和边的数量均小于第一解释结果中节点和边的数量。

根据本公开的实施例，图像解释装置还包括第二构建模块和第二训练模块。

第二构建模块，用于基于第二互信息损失构建调整函数，其中，第二互信息损失表征目标解释结果与第二解释结果之间的互信息。

第二训练模块，用于利用调整函数训练待训练的图像调整模型，得到训练完成的图像调整模型。

根据本公开的实施例，图像解释装置还包括第二获取模块、第二生成模块、第二确定模块、第三训练模块和输出模块。

第二获取模块，用于获取图神经网络的图数据，其中，图数据包括节点的表征向量和边的表征向量，边表示节点之间的关联关系。

第二生成模块，用于利用图神经网络基于边的表征向量生成传递矩阵，其中，传递矩阵表示相连节点之间的信息传递方式。

第二确定模块，用于确定边的表征向量与传递矩阵之间的互信息。

第三训练模块，用于利用互信息训练图神经网络，得到已训练的图神经网络。

输出模块，用于将待处理图像输入已训练的图神经网络，输出预测结果。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一获取模块901、解释模块902和调整模块903中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，第一获取模块901、解释模块902和调整模块903中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块901、解释模块902和调整模块903中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中图像解释装置部分与本公开的实施例中图像解释方法部分是相对应的，图像解释装置部分的描述具体参考图像解释方法部分，在此不再赘述。

图10示意性示出了根据本公开实施例的适于实现图像解释方法的电子设备1000的框图。图10示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，根据本公开实施例的计算机电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行本公开实施例所提供的方法的程序代码，当计算机程序产品在电子设备上运行时，该程序代码用于使电子设备实现本公开实施例所提供的用于确定云服务实施策略的方法。

在该计算机程序被处理器1001执行时，执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种图像解释方法，包括：

获取待处理图像以及与所述待处理图像对应的预测结果，其中，所述待处理图像包括待处理图数据，所述待处理图数据为基于所述待处理图像的图结构的数据，所述待处理图数据包括节点和边，所述节点表征实体，所述节点与节点之间的边表征所述实体之间的关系，所述预测结果是通过将所述待处理图像输入已训练的图神经网络得到的；

将所述待处理图像和所述预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，所述第一解释结果用于实现全局可解释性，所述第一解释结果包括多个解释类别，所述第一解释结果中节点和边的数量均小于所述待处理图数据中节点和边的数量；以及

基于所述第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，所述目标解释结果用于实现局部可解释性，所述目标解释结果中节点和边的数量均小于所述第一解释结果中节点和边的数量；

在将所述待处理图像和所述预测结果输入预先训练完成的图像解释模型，得到第一解释结果之前，所述方法还包括：

基于第一互信息损失和对比性损失构建解释函数，其中，所述第一互信息损失表征所述第一解释结果与所述预测结果之间的互信息，所述对比性损失表征所述预测类别之间的区别信息；

利用所述解释函数训练待训练的图像解释模型，得到训练完成的图像解释模型，其中，所述待训练的图像解释模型包括多个子解释模型，所述多个子解释模型与所述多个解释类别一一对应。

2.根据权利要求1所述的方法，其中，在基于所述第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果之前，所述方法还包括：

确定所述第一解释结果中每个节点的选择概率和每条边的选择概率，其中，所述图像解释模型包括多个概率生成模型，所述选择概率通过所述概率生成模型生成；

根据所述每个节点的选择概率和每条边的选择概率生成第二解释结果，其中，所述第二解释结果中节点和边的数量均小于所述第一解释结果中节点和边的数量。

3.根据权利要求2所述的方法，其中，在所述根据所述每个节点的选择概率和每条边的选择概率生成第二解释结果之后，所述方法还包括：

基于第二互信息损失构建调整函数，其中，所述第二互信息损失表征所述目标解释结果与所述第二解释结果之间的互信息；

利用所述调整函数训练待训练的图像调整模型，得到训练完成的图像调整模型。

4.根据权利要求1所述的方法，其中，在获取待处理图像以及与所述待处理图像对应的预测结果之前，所述方法还包括：

获取图神经网络的图数据，其中，所述图数据包括节点的表征向量和边的表征向量，所述边表示节点之间的关联关系；

利用所述图神经网络基于所述边的表征向量生成传递矩阵，其中，所述传递矩阵表示相连节点之间的信息传递方式；

确定所述边的表征向量与所述传递矩阵之间的互信息；

利用所述互信息训练所述图神经网络，得到已训练的图神经网络；

将所述待处理图像输入所述已训练的图神经网络，输出所述预测结果。

5.一种图像解释装置，包括：

获取模块，用于获取待处理图像以及与所述待处理图像对应的预测结果，其中，所述待处理图像包括待处理图数据，所述待处理图数据为基于所述待处理图像的图结构的数据，所述待处理图数据包括节点和边，所述节点表征实体，所述节点与节点之间的边表征所述实体之间的关系，所述预测结果是通过将所述待处理图像输入已训练的图神经网络得到的；

解释模块，用于将所述待处理图像和所述预测结果输入预先训练完成的图像解释模型，得到第一解释结果，其中，所述第一解释结果用于实现全局可解释性，所述第一解释结果包括多个解释类别，所述第一解释结果中节点和边的数量均小于所述待处理图数据中节点和边的数量；以及

调整模块，用于基于所述第一解释结果，利用预先训练完成的图像调整模型，输出目标解释结果，其中，所述目标解释结果用于实现局部可解释性，所述目标解释结果中节点和边的数量均小于所述第一解释结果中节点和边的数量；

所述图像解释装置还包括：

第一构建模块，用于基于第一互信息损失和对比性损失构建解释函数，其中，所述第一互信息损失表征所述第一解释结果与所述预测结果之间的互信息，所述对比性损失表征所述预测类别之间的区别信息；

第一训练模块，用于利用所述解释函数训练待训练的图像解释模型，得到训练完成的图像解释模型，其中，所述待训练的图像解释模型包括多个子解释模型，所述多个子解释模型与所述多个解释类别一一对应。

6.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1至4中任一项所述的方法。

7.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1至4中任一项所述的方法。

8.一种计算机程序产品，所述计算机程序产品包括计算机可执行指令，所述指令在被执行时用于实现权利要求1至4中任一项所述的方法。