CN112580728B

CN112580728B - 一种基于强化学习的动态链路预测模型鲁棒性增强方法

Info

Publication number: CN112580728B
Application number: CN202011532408.5A
Authority: CN
Inventors: 刘毅; 王珏; 陈晋音
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2024-02-20
Anticipated expiration: 2040-12-22
Also published as: CN112580728A

Abstract

本发明提供了一种基于强化学习的动态链路预测模型鲁棒性增强方法，包括：(1)对原始图数据进行特征嵌入，提取嵌入向量；(2)将特征嵌入后的嵌入向量作为马尔科夫决策过程中的状态进行建模，输出动作为修改的连边数；(3)使用强化学习DDPG的训练策略，逐图增删连边，直到最后一张；(4)计算处理后的图数据，输入到动态链路预测模型进行准确率预测，得到回报值；(5)重复步骤(3)～(4)，直到设定的训练轮数，得到鲁棒性增强的图数据。利用本发明的方法，修改后的图数据在模型上可以保持良好的性能，同时具有强鲁棒性，对动态链路预测模型应用到安全关键的领域中具有重要的理论和实践意义。

Description

一种基于强化学习的动态链路预测模型鲁棒性增强方法

技术领域

本发明涉及人工智能领域，尤其是涉及一种基于强化学习的动态链路预测模型鲁棒性增强方法。

背景技术

深度学习在各个领域取得了巨大的成功。这种高表现力的模型在图像识别、自然语言处理、图数据处理等方面比其他模型表现得更好。鉴于有着突出的性能，深度学习已被应用于一些安全关键的任务，如自动驾驶、恶意软件检测、识别和异常检测。然而，由于缺乏可解释性和鲁棒性，这使得深度模型很容易受到攻击。只是在样本上添加一些细微的扰动就会使模型的性能大幅度下降。

链路预测是图数据处理的一个重要方面，早期的链路预测关注较多是静态图的链路预测，而现实中数据更多地是随时间变化的，动态图的链路预测更具有实际的意义。近期的研究表明，动态图的链路预测可以结合图卷积神经网络(GCN)和长短期记忆网络(LSTM)来实现，并有着较好的预测性能。如公开号为CN110442751A的中国专利文献公开了一种基于生成式对抗网络的动态链路预测装置，公开号为CN110413844A的中国专利文献公开了一种时空注意力深度模型的动态链路预测方法。

已经有许多的研究表明图卷积神经网络容易受到对抗攻击的影响，通过增删节点之间的连边可以实现网络嵌入效果的下降，从而使后续任务如节点分类、链路预测和社区搜索等性能下降。因此结合了GCN的链路预测模型也同样需要考虑对抗攻击的影响，现有的防御方法大部分考虑的是静态图模型的鲁棒性增强，并没有办法兼顾到动态图中图与图的相关性。

因此，如何自动的学习鲁棒性增强策略，实现修改后的图数据在模型上保持良好的性能，同时具有强鲁棒性，对动态链路预测模型应用到安全关键的领域中具有重要的理论和实践意义。

发明内容

本发明提供了一种基于强化学习的动态链路预测模型鲁棒性增强方法，将每一张图作为一个状态，然后学习合适的鲁棒性增强策略对各张图进行增删连边，最终得到鲁棒性增强的图数据。

一种基于强化学习的动态链路预测模型鲁棒性增强方法，包括：

(1)对原始图数据进行特征嵌入，提取嵌入向量；

(2)将特征嵌入后的嵌入向量作为马尔科夫决策过程中的状态进行建模，输出动作为修改的连边数；

(3)使用强化学习DDPG的训练策略，逐图增删连边，直到最后一张；

(4)计算处理后的图数据，输入到动态链路预测模型进行准确率预测，得到回报值；

(5)重复步骤(3)～(4)，直到设定的训练轮数，最终得到修改后的鲁棒性增强的图数据。

步骤(1)中，提取嵌入向量使用的是两层的GCN模型，每一层的传播规则：

其中，即在邻接矩阵A上加一个单位矩阵I_N；/>是/>的度矩阵，即H^(l)是第l层的激活单元矩阵，H⁽⁰⁾为特征矩阵X，W^(l)为每一层的参数矩阵，σ为sigmoid激活函数，把输入值映射到[0,1]。

输出的嵌入向量表示为(y₁,y₂,…,y_l)，

(y₁,y₂,…,y_l)＝G(x₁,x₂,…,x_l)

其中，G代表整个GCN模型，这里选择输出嵌入向量的维度与特征向量相同，(x₁,x₂,…,x_l)表示图数据的节点特征向量。

步骤(2)中，马尔科夫决策过程是由4个元素构成的四元组＜S,A,T,R＞；其中，S是包含所有状态的有限集合，A是一个包含所有动作的有限集合，T为转换函数，R为奖励函数；

建模过程中，S中的一个状态由所有节点输出的嵌入向量的拼接而成，得到的向量表示为y_all：

y_all＝(y₁₁,y₁₂,…y_1l,y₂₁,y₂₂,…y_2l,…,y_N1,y_N2,…y_Nl)

其中，N表示的是图中的节点数目；

A的动作设定为修改的连边数，根据图的大小来设定可以修改的最大连边数；转换函数T包含图随时间的变化以及后面时刻对前面时刻修改的继承；奖励函数R则由链路预测的预测性能决定。

步骤(3)的具体过程为：

(3-1)将步骤(1)得到的图数据的嵌入向量作为强化学习的状态s_t；对于前面时刻有修改的图，需要把改变后的图的邻接矩阵生成嵌入向量；

(3-2)从环境接收状态s_t，然后输出一个[0,1]的值作为动作a_t，动作a_t代表的是修改的连边数；确定修改数目后，根据所有节点对的梯度来选择需要修改的连边；

(3-3)按照序列中图的顺序，根据DDPG的策略逐图修改，直到完成最后一张图。

步骤(3-2)中，计算所有节点对的梯度方式如下：

链路预测模型使用P(A)的形式表示，损失函数用L进行表示：

其中，P_t(i,j)表示的是链路预测模型预测的结果，t表示的是某个时刻，A_t(i,j)表示的是真实的连边信息；

计算L对应于某个时刻图中的某一条连边的偏导数，表示为：

因为邻接矩阵为对称的形式，使用g_ij来获得

其中，g_ij表示损失函数对邻接矩阵中自变量a_ij求导得到的梯度，g_ji表示表示损失函数对邻接矩阵中自变量a_ji求导得到的梯度，和/>表示连边上的梯度。

选取所有连边中梯度绝对值最大的连边位置，如果梯度为正，则删除连边，梯度为负，则添加连边。

若需要删除连边的位置本身就不存在连边，或是原本存在连边的位置需要添加连边，则忽略这种位置，重新根据梯度绝对值的大小选取另一个位置进行替代。

DDPG包括Actor网络与Critic网络，Actor网络生成一个动作，状态s和动作值a输入到Critic网络中得到对应的Q值，Actor的目标函数为最大化Q值，Critic网络的目标函数为最小化Q(s,a)的误差。

步骤(4)中，回报值R的计算方式为：

R＝-L

其中，回报函数是最大化R，所以损失函数L会被尽可能地减小；P_t(i,j)表示的是链路预测模型预测的结果，t表示的是某个时刻，A_t(i,j)表示的是真实的连边信息。

与现有技术相比，本发明具有以下有益效果：

本发明使用马尔科夫决策来建模图序列数据的鲁棒性增强过程，使得对每一张图的处理都不是孤立的，都是与其他时刻的图存在联系的，强调的是一个整体的鲁棒性增强。使用强化学习的框架，可以自动的生成每一张图所需要修改的连边数，不需要人工进行设置，此外通过对回报值R的设置，可以使得鲁棒性增强后的动态链路预测模型保持原有的预测效果。

附图说明

图1是本发明方法的整体步骤流程图；

图2是本发明中DDPG的结构示意图；

图3是本发明中DDPG进行逐图修改的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

本发明首先使用GCN的方法对图数据进行嵌入，得到嵌入向量。然后使用马尔科夫过程对鲁棒性加强的过程进行建模。然后使用强化学习算法进行策略的寻优学习。强化学习的方法使用深度确定性策略梯度算法DDPG，由两部分构成。Actor网络和Critic网络，其中Actor网络生成一个动作，状态和动作同时输入到Critic网络得到相应的Q值。Actor的目标是最大化Q值，Critic网络的目标是最小化Q(s,a)的误差。通过逐图的修改，多轮的训练可以得到一个优秀的策略确定序列中每一张图的修改策略。通过对R的设置，可以保证修改后的图数据在动态预测原模型上，尽可能地保持预测效果。

具体的，如图1所示，一种基于强化学习的动态链路预测模型鲁棒性增强方法，包括：

(1)从原始图数据中提取嵌入向量。

(2)使用马尔科夫决策过程进行建模。

(3)根据强化学习DDPG训练策略逐图增删连边，直到最后一张图。

(4)计算处理后的图数据输入到链路预测模型的预测效果，得到回报值。

(5)重复以上步骤(3)～步骤(4)，直到设定的训练轮数，得到鲁棒性增强的图数据。

本发明中，步骤(1)中选择合适的方式将图数据嵌入到向量空间中。图数据中关键的就是节点、节点属性和节点连接关系。其中节点使用n_i表示，i表示节点的索引，节点特征使用向量(x₁,x₂,…,x_l)表示，向量的每一个维度表示节点的特征，l表示特征的个数。节点连接关系使用邻接矩阵A表示，其中元素a_i,j由节点i和j之间的关系决定。如果存在连接则为1，不存在则为0。通过搭建GCN网络对原始图数据进行特征嵌入，得到特征嵌入后的向量。

步骤(2)将特征嵌入后的向量作为马尔科夫决策过程中的状态进行建模，策略的输出动作为修改的连边数。

步骤(3)中使用强化学习方法DDPG学习修改策略，逐图修改直到最后一张。修改完所有时刻的图数据以后进行步骤(4)的动态链路预测模型预测效果评估，再根据得到的结果计算回报值。步骤(5)为重复步骤(3)和步骤(4)到达设定的轮数完成策略的训练。

进一步的，步骤(1)中提取嵌入向量使用的为两层的GCN模型，每一层的传播规则：

其中，即在邻接矩阵A上加一个单位矩阵I_N。/>是/>的度矩阵，即H^(l)是第l层的激活单元矩阵，H⁽⁰⁾为特征矩阵X，W^(l)为每一层的参数矩阵，σ为sigmoid激活函数，可以把输入值映射到[0,1]。这里我们并没有类标用来训练参数W，只需要随机初始化W，就可以得到比较好的网络信息聚合效果。输出的嵌入向量表示为(y₁,y₂,…,y_l)。

(y₁,y₂,…,y_l)＝G(x₁,x₂,…,x_l)

其中，G代表整个GCN模型，这里选择输出嵌入向量的维度与特征向量相同。

步骤(2)的具体步骤为：确定马尔科夫决策过程中的4个元素。马尔科夫决策过程是一个由4个元素构成的四元组＜S,A,T,R＞。其中，S是包含所有状态的有限集合，A是一个包含所有动作的有限集合，T为转换函数，R为奖励函数。在这个场景中，S中的一个状态由所有节点输出向量的拼接而成，得到的向量表示为y_all。

y_all＝(y₁₁,y₁₂,…y_1l,y₂₁,y₂₂,…y_2l,…,y_N1,y_N2,…y_Nl)

其中，N表示的是图中的节点数目。因为我们需要的是整张图的信息而不是其中一个节点的信息。A设定为修改的连边数，需要根据图的大小来设定可以修改的最大连边数。这里的状态转换是两部分的叠加，第一部分是图随时间的变化，第二部分是后面时刻对前面时刻修改的继承。奖励函数则由链路预测的预测性能决定，旨在增强鲁棒性的同时保持模型原有的性能。

步骤(3)的具体步骤为：

(3-1)将步骤(1)中得到的图的嵌入向量作为强化学习的状态s_t，值得注意的是，不能一次性把所有的图的嵌入向量都用来作为状态，因为前面时刻的图的修改会影响到后续图的结构，从而影响得到的特征向量，这时需要把改变后的图的邻接矩阵输入到步骤(1)搭建的GCN模型生成嵌入向量即可。

(3-2)DDPG从环境接收状态s_t，然后输出一个[0,1]的值作为动作a_t，动作a_t代表的是修改的连边数。根据最大允许的修改数将[0,1]的区间等分的映射到几个离散值上。这里取最大修改数为3，则对应有0-3这4个修改数目选择。即可以将[0,0.25]映射到0，[0.25,0.5]映射到1，[0.5,0.75]映射到2，[0.75,1]映射到3。在确定修改数目后，根据梯度来选择需要修改的连边，这里需要计算所有节点对的梯度。计算方式如下：链路预测模型使用P(A)的形式表示，根据模型细节不同，可以有不同的实现方式。损失函数用L进行表示，通常为：

其中，P_t(i,j)表示的是链路预测模型预测的结果，t表示的是某个时刻，A_t(i,j)表示的是真实的连边信息。我们可以计算L对应于某个时刻图中的某一条连边的偏导数，表示为：

因为邻接矩阵为对称的形式，使用g_ij来获得

攻击者的目标是最大化L,使得预测的结果尽可能与真实结果差异较大，攻击者会选择梯度绝对值较大的连边位置，根据梯度的正负来决定加连边还是减连边。因此，我们增强鲁棒性时也是选取所有连边中梯度绝对值最大的连边，但是我们的策略与攻击者相反，根据梯度的正负做出与攻击者相反的操作。需要注意的是，若是需要删除连边的位置本身就不存在连边，或是原本存在连边的位置需要添加连边，我们忽略这种位置，重新根据梯度绝对值的大小选取另一个位置进行替代。上文限定的每张图修改的最大连边数即为模型性能保持稳定的保证。

(3-3)按照序列中图的顺序，根据DDPG的策略逐图修改，直到完成最后一张图，逐图修改连边的示意图如图3所示。

如图2所示，DDPG存在两个网络，Actor网络与Critic网络，Actor网络生成一个动作，状态和动作值输入到Critic网络中得到对应的Q值，Actor的目标函数为最大化Q值，Critic网络的目标函数为最小化Q(s,a)的误差。这里将两个网络的模型都设置为两个隐藏层，每一层都具有256个神经元，使用τ＝0.01进行软更新，训练网络使用32的批大小，2000作为缓冲区的大小。策略探索的噪声处理，这里使用截断正态分布使策略尽可能地探索未知空间：

在探索的过程中σ初始化为0.5，搜索100幕后，再以指数的方式减小σ探索400幕。

与Block-QNN相同，这里应用了贝尔曼方程的变体形式，在一幕中，每一次状态与状态之间的转移可以用一个四元组(s_t,a_t,R,s_t+1)表示，其中R是由图数据经过修改后再次输入到原模型中的预测效果计算得到的回报值。因为是在一幕结束的时候才能获得回报值，在过程更新的时候，使用基线奖励值b来减少梯度估算的方差，这是先前奖励的指数移动平均值：

y_i＝r_i-b+γQ(s_i+1,u(s_i+1)|θ^Q)

折扣因子γ设置为1来避免短期奖励优先级过高。

步骤(4)计算修改后图数据重新预测的预测效果，然后计算回报值返回到策略。效果的评估我们根据步骤(3-2)中的L的计算方式，计算的值越小效果越好。

回报值R的计算方式为：

R＝-L

这个回报函数对L的变化比较敏感，因为是最大化R，所以L会被尽可能地减小。

步骤(5)对上述的步骤(3)～(4)迭代，以实验设定的轮数，即上述DDPG设定中总共500幕为要求或是以R的收敛效果为要求，不断的进行强化学习策略的更新，以学习到较优的策略。

最终，修改后的图数据在模型上可以保持良好的性能，同时具有强鲁棒性，对动态链路预测模型应用到安全关键的领域中具有重要的理论和实践意义。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的动态链路预测模型鲁棒性增强方法，其特征在于，包括：

(1)对原始图数据进行特征嵌入，提取嵌入向量；

(3)使用强化学习DDPG的训练策略，逐图增删连边，直到最后一张；具体过程为：

计算所有节点对的梯度方式如下：

链路预测模型使用P(A)的形式表示，损失函数用L进行表示：

计算L对应于某个时刻图中的某一条连边的偏导数，表示为：

因为邻接矩阵为对称的形式，使用g_ij来获得

其中，g_ij表示损失函数对邻接矩阵中自变量a_ij求导得到的梯度，g_ji表示表示损失函数对邻接矩阵中自变量a_ji求导得到的梯度，和/>表示连边上的梯度；

选取所有连边中梯度绝对值最大的连边位置，如果梯度为正，则删除连边，梯度为负，则添加连边；

(3-3)按照序列中图的顺序，根据DDPG的策略逐图修改，直到完成最后一张图；

(4)计算处理后的图数据，并输入到动态链路预测模型进行准确率预测，得到回报值；

2.根据权利要求1所述的基于强化学习的动态链路预测模型鲁棒性增强方法，其特征在于，步骤(1)中，提取嵌入向量使用的是两层的GCN模型，每一层的传播规则为：

其中，即在邻接矩阵A上加一个单位矩阵I_N；/>是/>的度矩阵，即/>H^(l)是第l层的激活单元矩阵，H⁽⁰⁾为特征矩阵X，W^(l)为每一层的参数矩阵，σ为sigmoid激活函数，把输入值映射到[0,1]。

3.根据权利要求2所述的基于强化学习的动态链路预测模型鲁棒性增强方法，其特征在于，输出的嵌入向量表示为(y₁,y₂,…,y_l)，

(y₁,y₂,…,y_l)＝G(x₁,x₂,…,x_l)

4.根据权利要求1所述的基于强化学习的动态链路预测模型鲁棒性增强方法，其特征在于，步骤(2)中，马尔科夫决策过程是由4个元素构成的四元组＜S,A,T,R＞；其中，S是包含所有状态的有限集合，A是一个包含所有动作的有限集合，T为转换函数，R为奖励函数；

y_all＝(y₁₁,y₁₂,…y_1l,y₂₁,y₂₂,…y_2l,…,y_N1,y_N2,…y_Nl)

其中，N表示的是图中的节点数目；

5.根据权利要求1所述的基于强化学习的动态链路预测模型鲁棒性增强方法，其特征在于，若需要删除连边的位置本身就不存在连边，或是原本存在连边的位置需要添加连边，则忽略这种位置，重新根据梯度绝对值的大小选取另一个位置进行替代。

6.根据权利要求1所述的基于强化学习的动态链路预测模型鲁棒性增强方法，其特征在于，DDPG包括Actor网络与Critic网络，Actor网络生成一个动作，状态s和动作值a输入到Critic网络中得到对应的Q值，Actor的目标函数为最大化Q值，Critic网络的目标函数为最小化Q(s,a)的误差。

7.根据权利要求1所述的基于强化学习的动态链路预测模型鲁棒性增强方法，其特征在于，步骤(4)中，回报值R的计算方式为：

R＝-L