CN110381020B

CN110381020B - 一种ids资源配置方法、装置和计算机可读存储介质

Info

Publication number: CN110381020B
Application number: CN201910510823.1A
Authority: CN
Inventors: 夏卓群; 谭晶晶; 谷科
Original assignee: Changsha University of Science and Technology
Current assignee: Changsha University of Science and Technology
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-10-29
Anticipated expiration: 2039-06-13
Also published as: CN110381020A

Abstract

本发明实施例公开了一种IDS资源配置方法、装置和介质，目标节点根据攻击者的攻击策略以及自身的初始策略库，确定出应对策略；将应对策略传输至相邻节点，并接收相邻节点向其反馈的奖励值、差异比和成本值。根据预先设定的收益因子以及相邻节点向其反馈的奖励值、差异比和成本值，构建收益矩阵；根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源；其中，各节点有其对应的初始资源总数；目标节点向其自身分配的资源为基本资源。目标节点接收其它节点向其分配的第二资源；并将基本资源以及第二资源作为执行应对策略的运行资源。IDS之间通过协作实现策略共享以及资源分配，从而保证各IDS拥有足够的资源来检测更多的攻击者。

Description

一种IDS资源配置方法、装置和计算机可读存储介质

技术领域

本发明涉及智能电网技术领域，特别是涉及一种IDS资源配置方法、装置和计算机可读存储介质。

背景技术

智能电网给提供了一种有效的能源管理方案。能源提供者和消费者都可以通过能源管理实现两者共赢的便利性，同时也促进了消费者的绿色生活。智能电网的优势不仅仅是实现了能源提供者和消费者之间的双向通信，同时能够实时的收集所有级别的数据并做出相关的分析和反应，而且能够接入其他的新能源和促进现代化电网的优化。

随着这些新技术和新能源接入智能电网，尤其是指接入互联网的通信网络，将会给智能电网的安全带来一些新的威胁。这些威胁除了人为破坏和仪器损坏造成物理上的破坏，其他安全威胁都是来源于网络，例如计算机的恶意软件和恶意代码，恶意节点，计算机病毒，拒绝服务攻击以及黑客的网络攻击。在针对各种网络入侵的方法中，现有技术采用最多的检测防御就是进行部署入侵检测系统(Intrusion Detection Systems，IDS)对网络来进行监控和防御。

高级计量基础设施(Advanced Metering Infrastructure，AMI)属于智能电网中一个十分重要的组成部分，因此在AMI通信网络部署大量专用的IDS是十分关键的。尽管现在入侵检测系统的研究文献很多，但是因为资源限制，仪器中嵌入的IDS是无法运行所有的入侵检测算法，同时单一的IDS也无法完成所有入侵攻击者的检测。

可见，如何充分运用入侵检测网络中入侵检测资源使得IDS检测到更多的攻击者，是本领域技术人员亟待解决的问题。

发明内容

本发明实施例的目的是提供一种IDS资源配置方法、装置和计算机可读存储介质，可以充分运用入侵检测网络中入侵检测资源使得 IDS检测到更多的攻击者。

为解决上述技术问题，本发明实施例提供一种IDS资源配置方法，包括：

目标节点根据攻击者的攻击策略以及自身的初始策略库，确定出应对策略；其中，所述目标节点为IDN架构中所有节点中的任意一个 IDS节点；

所述目标节点将所述应对策略传输至相邻节点，并接收所述相邻节点向其反馈的奖励值、差异比和成本值；

所述目标节点根据预先设定的收益因子以及所述相邻节点向其反馈的奖励值、差异比和成本值，构建收益矩阵；

所述目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源；其中，各节点有其对应的初始资源总数；所述目标节点向其自身分配的资源为基本资源；

所述目标节点接收其它节点向其分配的第二资源；并将所述基本资源以及所述第二资源作为执行所述应对策略的运行资源。

可选的，还包括：

所述目标节点接收相邻节点传输的共享策略，并向所述相邻节点反馈奖励值、差异比和成本值。

可选的，所述目标节点根据攻击者的攻击策略以及自身的初始策略库，确定出应对策略包括：

所述目标节点受到攻击时，根据攻击者的攻击策略以及自身的初始策略库，转换自身的状态；

所述目标节点在状态转换之后，利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数；

当t+1∈Tⁱ时，所述目标节点将所述相邻节点传输的共享策略作为应对策略；当

时，所述目标节点根据如下公式，得到应对策略，

其中，Tⁱ表示目标节点更新策略的时间段；aⁱ表示攻击策略的类型，

表示在状态为s且动作为(l,γ)的情况下目标节点的总期望折扣奖励值；

表示在状态为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值。

可选的，所述目标节点在状态转换之后，利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数包括：

所述目标节点按照如下公式，更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数，

其中，α_t为NASH-Q算法的学习因子；β表示NASH-Q算法的折扣因子；r_t ^IDS表示目标节点在时间点t获得的奖励值，并且r_t ^IDS＝R^IDS；

表示为攻击者获得的奖励值；

表示在状态为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值；

表示在状态为s且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值； V_t ^IDS(s′)表示在状态为s′且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值；

表示在状态为s且在等价于单人阶段博弈的纳什均衡中攻击者的奖励值；

表示在状态为s′且在等价于单人阶段博弈的纳什均衡中攻击者的奖励值。

可选的，所述目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源包括：

所述目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的初始资源；

所述目标节点根据所有节点向其分配的初始资源，构建奖励函数；

所述目标节点利用拉格朗日松弛算法，将所述奖励函数转化为以奖励值最大化为目标的拉格朗日函数；

所述目标节点利用对偶迭代算法，计算所述拉格朗日函数在约束条件下的最优解；其中，所述最优解包含所述目标节点向所有节点分配的资源数目。

本发明实施例还提供了一种IDS资源配置装置，目标节点包括确定单元、接收单元、构建单元、分配单元和作为单元；

所述确定单元，用于根据攻击者的攻击策略，确定出应对策略；其中，所述目标节点为IDN架构中所有节点中的任意一个IDS节点；

所述接收单元，用于将所述应对策略传输至相邻节点，并接收所述相邻节点向其反馈的奖励值、差异比和成本值；

所述构建单元，用于目标节点根据预先设定的收益因子以及所述相邻节点向其反馈的奖励值、差异比和成本值，构建收益矩阵；

所述分配单元，用于目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源；其中，各节点有其对应的初始资源总数；所述目标节点向其自身分配的资源为基本资源；

所述作为单元，用于目标节点接收其它节点向其分配的第二资源；并将所述基本资源以及所述第二资源作为执行所述应对策略的运行资源。

可选的，还包括接收单元；

所述接收单元，用于接收相邻节点传输的共享策略，并向所述相邻节点反馈奖励值、差异比和成本值。

可选的，所述确定单元包括转换子单元、更新子单元和作为子单元；

所述转换子单元，用于在目标节点受到攻击时，根据攻击者的攻击策略，转换自身的状态；

所述更新子单元，用于在状态转换之后，利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数；

所述作为子单元，用于当t+1∈Tⁱ时，将所述相邻节点传输的共享策略作为应对策略；当

时，根据如下公式，得到应对策略，

其中，aⁱ表示攻击策略的类型，

可选的，所述更新子单元具体用于按照如下公式，更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数，

表示为攻击者获得的奖励值；

可选的，所述分配单元包括初始子单元、构建子单元、转化子单元和优化子单元；

所述初始子单元，用于根据所有节点各自对应的收益矩阵，向所有节点分配相应的初始资源；

所述构建子单元，用于根据所有节点向其分配的初始资源，构建奖励函数；

所述转化子单元，用于利用拉格朗日松弛算法，将所述奖励函数转化为以奖励值最大化为目标的拉格朗日函数；

所述优化子单元，用于利用对偶迭代算法，计算所述拉格朗日函数在约束条件下的最优解；其中，所述最优解包含所述目标节点向所有节点分配的资源数目。

本发明实施例还提供了一种IDS资源配置装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如上述IDS资源配置方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述IDS资源配置方法的步骤。

由上述技术方案可以看出，目标节点根据攻击者的攻击策略以及自身的初始策略库，确定出应对策略；其中，目标节点为IDN架构中所有节点中的任意一个IDS节点；目标节点将应对策略传输至相邻节点，并接收相邻节点向其反馈的奖励值、差异比和成本值。节点之间通过策略共享，可以使各节点检测到更多类型的攻击者，提升了系统的安全性。目标节点根据预先设定的收益因子以及相邻节点向其反馈的奖励值、差异比和成本值，构建收益矩阵；目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源；其中，各节点有其对应的初始资源总数；目标节点向其自身分配的资源为基本资源。目标节点接收其它节点向其分配的第二资源；并将基本资源以及第二资源作为执行应对策略的运行资源。在资源分配时，IDN架构中所有节点都作为资源提供者，在每一轮资源分配中由未进行资源分配的一个节点向所有节点分配资源，IDS之间通过协作实现高效的资源分配，从而保证各IDS拥有足够的资源来检测更多的攻击者。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种IDS资源配置方法的流程图；

图2为本发明实施例提供的一种IDN架构的示意图；

图3为本发明实施例提供的一种协作方案描述图；

图4为本发明实施例提供的一种基于性能分析的IDS累计平均奖励的示意图；

图5为本发明实施例提供的一种IDS能够记载资源库的平均数目的条形图；

图6为本发明实施例提供的一种基于攻击次数分析的IDS的平均累计奖励的示意图；

图7为本发明实施例提供的一种IDS能够记载资源库的平均数目的示意图；

图8为本发明实施例提供的一种在不同的策略差异比下IDS的累计平均奖励的示意图；

图9为本发明实施例提供的一种在不同的收益因子下IDS的累计平均奖励的示意图；

图10为本发明实施例提供的一种IDS₃能够加载资源库的平均数目的示意图；

图11为本发明实施例提供的一种IDS在不同τ₁和τ₂的情况下的奖励提升率的示意图；

图12为本发明实施例提供的一种IDS的累计平均奖励的示意图；

图13为本发明实施例提供的一种IDS资源配置装置的结构示意图；

图14为本发明实施例提供的一种IDS资源配置装置的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本发明保护范围。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

接下来，详细介绍本发明实施例所提供的一种IDS资源配置方法。图1为本发明实施例提供的一种IDS资源配置方法的流程图，该方法包括：

S101：目标节点根据攻击者的攻击策略以及自身的初始策略库，确定出应对策略。

在入侵检测网络(Intrusion Detection Network，IDN)架构中包括有多个IDS节点。如图2所示为本发明实施例提供的一种IDN架构的示意图，在该IDN架构中包括有6个IDS节点，分别为IDS1至IDS6。每个IDS节点有其相邻的节点，当某个IDS节点受到攻击之后，会采取相应的应对策略。与其相邻的IDS节点受到此类攻击的几率较高，为了保证与其相邻的IDS节点可以有效的应对该类攻击，当前已经受到攻击的IDS节点可以将应对策略分享给与其相邻的IDS节点。

在本发明实施例中，利用节点之间的相互协作实现策略的共享以及资源的分配，每个节点所执行的流程类似，在本发明实施例中，均以IDN架构中所有节点中的任意一个IDS节点即目标节点为例展开介绍。

当目标节点受到攻击者的攻击时，目标节点首先会学习应对攻击者的攻击策略所采取的应对策略π^IDS(s,l,γ)。

π^IDS(s,l,γ)表示在状态s下目标节点对于攻击者的攻击集γ采取的检测资源集l。同时攻击者也会相应地学习目标节点的策略然后采取策略π^a(s,γ,l)。π^a(s,γ,l)表示在状态s下攻击者对于检测资源集l采取的攻击集γ。

S102：目标节点将应对策略传输至相邻节点，并接收相邻节点向其反馈的奖励值、差异比和成本值。

当节点面对相同的攻击者的时候，已经检测到此攻击者的目标节点将会给正在被入侵或者即将被入侵攻击的目标节点分享自己的检测资源策略即应对策略，同时接收到分享策略的节点会向目标节点反馈一定的奖励值。

考虑到在现实的智能电网场景中，尽管节点之间可以共享策略，但是节点之间的策略会存在着一定的差异性。针对这种情况，在本发明实施例中提出了策略的差异比这个概念，表示节点之间检测资源策略的差异性。

当与目标节点相邻的节点接收到目标节点传输的应对策略时，该节点的检测资源策略一定会受到相应的影响，因此，在构建收益矩阵时需要考虑该节点改变防御策略的成本值。

S103：目标节点根据预先设定的收益因子以及相邻节点向其反馈的奖励值、差异比和成本值，构建收益矩阵。

以两个节点IDS_i和IDS_j(j≠i)为例，当IDS_i接收到IDS_j的应对策略之后，IDS_i当前的检测资源策略一定会受到相应的影响。在本发明实施例中，把IDS_i的影响通过三种反应状态表示出来，分别为S₁、S₂和S₃；其中，S₁表示IDS_i在策略改变时间段Tⁱ改变策略且采取和IDS_j一样检测资源策略；S₂表示IDS_i在策略改变时间段Tⁱ改变策略但采取和IDS_j不一样检测资源策略；S₃表示IDS_i在策略改变时间段Tⁱ不改变当前策略。

当IDN中的IDS_j检测的数据是可疑数据或者异常数据的时候改变了防御策略，与之相邻的IDS_i改变当前检测资源策略时，我们认为是相对安全的；反之，如果IDS_j检测到可疑数据或者异常数据，然后IDS_j分享它的检测资源策略给IDS_i的时候，IDS_i没有改变自己的检测资源策略，我们认为IDS_i行为是相对不安全。同时，如果IDS_i改变当前的策略，那么IDS_i将会反馈给IDS_j一定的奖励值，反馈的次数越多，IDS_j的奖励值越大。但是，当IDS_j检测的数据是正常数据时，IDS_i是否改变当前策略已经无关重要了。

根据IDS_j检测的三种数据类型，其对应的收益矩阵定义如下：

(1)当IDS_j检测正常数据集合a₁时，IDS_j的收益矩阵P₁如下：

(2)当IDS_j检测可疑数据集合a₂时，IDS_j的收益矩阵P₂如下：

(3)当IDS_j检测异常数据集合a₃时，IDS_j的收益矩阵P₃如下：

其中，

为IDS_j的收益矩阵中的收益因子，

为收益矩阵中的亏损因子，收益矩阵中的b为IDS_j未影响IDS_i改变防御策略之前获得的奖励值，收益矩阵中的d为IDS_i的检测资源策略相对于IDS_j而言的差异比，z则为IDS_i改变为所需防御策略的成本值。

b的值可以通过如下公式计算获得，

其中，

表示IDS_j的检测资源库集合L_j对攻击数据γ_m的检测率；

表示IDS_j检测到攻击数据γ_m的相对权重值；

表示IDS的某个检测资源库l_n对攻击数据γ_m的检测率。

d的值可以通过如下公式计算获得，

其中，|{l_n∈Lⁱ∩l_n∈L^j}|表示为IDS_i的检测资源不同于IDS_j的检测资源库的数目，|{l_n∈L^j}|表示为IDS_j所拥有的检测资源库数目。

S104：目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源。

IDN架构中的各节点需要获取到资源之后，才能够运行应对策略，从而实现与攻击者的博弈。

考虑到在IDS的集中式资源分配方法中IDN管理中心计算能力有限，所以在本发明实施例中采取了分布式激励机制来管理IDS进行互相协助的资源分配。

IDN架构中所有的IDS都作为资源提供者，在每一轮中由未进行资源分配的IDS作为资源提供者，然后资源提供者将会通过分布式激励机制为所有的IDS分配资源。

在进行资源分配之前，各节点有其对应的初始资源总数。以目标节点为例，其向所有节点分配的资源可以统称为第一资源。由于目标节点在分配资源时也会向自身分配资源，为了便于区分，可以将目标节点向其自身分配的资源称为基本资源。

目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的初始资源；目标节点根据所有节点向其分配的初始资源，构建奖励函数。

以两个节点IDS_i和IDS_j(j≠i)为例，在一轮资源分配过程中，未分配资源的IDS_i将会为IDN中的IDS_j分配

个单位的资源。那么，从IDS_i分配资源到IDS_j收到资源的奖励函数P_ji(g^j)如下所示，

其中，g^j表示所有的IDS分配给IDS_j的资源数目并且

表示相对于IDS_i而言

的权重；c_i表示在资源共享中IDS_i的成本权重；

f_ji(·)表示预付函数，具体的表达式如下所示，

其中，

表示攻击者的数据中正常数据所占的比率；

表示为攻击者的数据中可疑数据所占的比率；

表示攻击者的数据中异常数据所占的比率；q_k表示IDS的收益矩阵中各位元素所占的比率；

表示IDS的收益矩阵中各个元素的值。

IDS_i分配资源到所有IDS节点收到资源的总奖励函数如下公式 (1)所示，

其中，g_i表示为IDS_i分配IDN中所有的IDS的资源数目且

所以更直接地说，为了找到IDN中IDS的最佳策略共享资源，就是让每个IDS求得总奖励函数的最大值，求解IDS总奖励函数最大值的公式如下公式(2)所示，

由公式(1和(2)可知，未分配资源的IDS总奖励优化问题的关键因素在于变量g_i。

在资源分配的每一轮上，从直观上来看，未分配资源的节点目的是使得自己获得的总奖励最大化。在本发明实施例中，可以采用拉格朗日松弛算法，将奖励函数转化为以奖励值最大化为目标的拉格朗日函数；然后利用对偶迭代算法，计算拉格朗日函数在约束条件下的最优解；其中，最优解包含目标节点向所有节点分配的资源数目。

结合上述公式(1)和公式(2)，采用拉格朗日松弛算法，将奖励函数转化为以奖励值最大化为目标的拉格朗日函数，其公式如下所示，

其中，λ_i为拉格朗日乘子，相关的变量集为

在上述介绍的基于分布式激励机制进行资源分配，为了促进IDS 之间的相互协作，可以设定

IDN中每个IDS资源分配策略是存在纳什均衡的，即每个IDS在获得最大化的总奖励的时候，对其他的IDS没有较大的影响，同时相关的资源分配也是比较合理的。关于纳什均衡的证明过程将在后续内容中介绍，在此不再展开说明。

分布式激励机制处于纳什均衡的时候，每个IDS都不会改变自己当前的检测资源策略否则，每个IDS将会更新自己当前的检测资源策略。为了直观地表示IDS更新策略的过程，本发明实施例采用异步更新算法，来计算这个唯一的纳什均衡(NASH Equilibrium，NE)。

异步更新算法的函数如下所示，

其中，

表示在时间点t的时候IDS_i分配给IDS_j的资源数目，Tⁱ表示IDS_i更新共享策略的时间段。

因此，IDN中的IDS都会遵循异步更新算法的规则，按时共享和更新策略。同时又因为

那么该算法的收敛性也是唯一的。然后，我们可以发现此时拉格朗日函数L(g_i,λ_i)的优化问题关键性变量在于拉格朗日乘子λ_i，因此本发明实施例利用拉格朗日的对偶性来解决此优化问题。

在本发明实施例中，定义该对偶问题的最优解为E_i(λ_i)，表达式如下：

将上述拉格朗日函数的公式代入该最优解公式，可以得到如下公式：

我们很容易发现E_i(λ_i)是一个凸函数，因此存在一个值

使得函数 E_i(λ_i)取得最小值，表达式如下所示：

将如下公式代入函数E_i(λ_i)，

并且对函数求导，得到其一阶导函数如下：

其中，

然后再对其一阶导函数进行求导，得到其二阶导函数如下：

函数E_i(λ_i)不但是凸函数而且也是强凸函数，且相应的黑塞函数是有界的，即E″_i(λ_i)≥K₁。

因此，我们可以通过E″_i(λ_i)＝0计算对偶函数最优

的值，化简 E″_i(λ_i)＝0得到如下公式：

为了求得对偶函数的最优解，我们采用梯度下降算法来求取最优的

即

其中，ρ_i∈(0,1)表示步长。

E′_i(λ_i)满足利普希兹连续的且相关的利普希兹参数为K₂，同时E_i(λ_i) 是强凸函数且E″_i(λ_i)≥K₁。

函数

收敛于对偶函数的最优解，且步长

在分布式激励机制上，IDN中的IDS_i在异步更新时，不仅仅需要更新IDS_i分配给IDS_j的资源数目

同时也需要更新相应的拉格朗日乘子 λ_i和资源数目G(IDS_i)。

S105：目标节点接收其它节点向其分配的第二资源；并将基本资源以及第二资源作为执行应对策略的运行资源。

IDN架构中除目标节点之外的剩余节点向目标节点分配的资源统称为第二资源。

其它节点向目标节点分配资源的方式和目标节点向所有节点分配资源的方式类似，具体可以参见S104的操作，在此不再赘述。

目标节点获取的基本资源以及其它节点向其分配的第二资源的总和即为目标节点当前可使用的有效资源，目标节点可以利用该有效资源执行应对策略，从而实现与攻击者的随机博弈。

目标节点在博弈中的目标是为了让自己获得最大化的折扣奖励

且折扣因子β∈[0,1)。同理，攻击者在博弈中的目标是为了让自己获得最大化的折扣奖励

且折扣因子β∈[0,1)。那么，目标节点和攻击者的博弈可以看为一个由两个玩家组成的随机博弈，同时IDS_i在博弈时可以接受来自其他IDS_j(j≠i)传输的共享策略，并做出一些回应，例如，向IDS_j(j≠i)反馈奖励值、差异比和成本值。

针对于步骤S101中目标节点和相关的攻击者(攻击数据集合a)之间的随机博弈，在本发明实施例中可以采取NASH-Q算法确定应对策略。由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的求解而获得混合策略，因此更易于实现也更加高效。

目标节点受到攻击时，根据攻击者的攻击策略以及自身的初始策略库，转换自身的状态；目标节点在状态转换之后，可以利用NASH-Q 算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数；当t+1∈Tⁱ时，目标节点将相邻节点传输的共享策略作为应对策略；当

时，目标节点根据如下公式，得到应对策略，

假设目标节点受到攻击者攻击的起始时间为t，起始状态为s，下一个状态为s′，动作为(l_n,γ_n)，从状态s转换为状态s′的概率为 ρ_st(s′|s,l,r)。那么如果从状态s转换为状态s′，目标节点(IDS)将会更新自己的质量函数Q^IDS和价值函数V^IDS，同时为了更好地观察攻击者的行为，IDS也将更新自身的虚拟质量函数

和虚拟价值函数

更新函数如下所示：

表示为攻击者获得的奖励值；

可以通过如下公式获得，

其中，

表示攻击者a_i可以实现γ_m攻击的收益权重。

在S104中提及每个IDS资源分配策略存在纳什均衡。接下来将对IDS资源分配博弈的纳什均衡性质进行证明。

根据拉格朗日公式，将一阶KKT条件应用到IDN中每个IDS 的总奖励优化问题得到如下公式(3)：

将拉格朗日公式代入上述公式(3)，简化得到如下公式(4)：

根据

的限制条件和一阶KKT条件得到如下公式(5)：

为了简化上述公式(5)，我们定义两个权重矩阵H^(j)和D^(j)如下公式(6)：

将简化公式(6)代入公式(5)化简得到如下公式(7)：

上述公式(7)是存在着解的，所以IDN中每个IDS资源分配策略是存在纳什均衡的，也就意味着每个IDS在获得最大化的总奖励的时候对其他的IDS没有较大的影响同时相关的资源分配也是比较合理的。

在提出的基于分布式激励机制下的进行资源分配，为了促进IDS 之间的相互协作，在本发明实施例中设定

那么在分布式激励机制下IDN中IDS获得最大化的总奖励时资源分配策略的纳什均衡是唯一的。

在本发明实施例中，AMI网络中IDS资源配置的问题是通过基于共享策略的双层协作方法解决。如图3所示为协作方案描述图，为了使用双层协作方法解决资源配置，我们在第一层协作框架中提出了基于共享策略的随机博弈模型，在第二层协作框架中提出了基于分布式的激励机制。

在具体实现中，对本发明实施例提出的IDS资源配置方法进行了模拟仿真，并且在不同的条件下对该方法进行了性能的比较和分析。本发明实施例所提方法的仿真实验都在AMI的领域网中进行模拟实现。

在模拟的场景中，入侵检测网络总共包含6个IDS，其中3个IDS 为已经检测到攻击者入侵行为的IDS，另外3个IDS为即将被攻击的 IDS，并且每个IDS发布的消息和策略都是可信的。假设模拟实验中所有的IDS资源检测库集为{l₁,l₂,l₃,l₄,l₅,l₆,l₇,l₈}，其中每个IDS最多只能加载5个资源检测库，同时实验中所有的IDS相关的入侵攻击库为 {γ₁,γ₂,γ₃,γ₄,γ₅,γ₆,γ₇,γ₈}。

如果i＝m，那么检测库l_i检测攻击γ_m的检测率

为0.85，否则，检测库l_i检测攻击γ_m的检测率

为0.1。除此之外，本实验中 NASH-Q算法中的折扣因子β，探索概率ρ_ex，攻击者和IDS双方的学习因子α_t以及状态转换概率矩阵ρ_st根据现有的实现研究进行了相关设置。所提算法的性能指标优劣通过比较IDS累计的平均奖励

获得，并且

的公式如下所示：

一、本发明实施例提出的IDS资源配置方法的性能分析

首先，在模拟场景下入侵检测网络中的6个IDS累计的平均奖励在所提出的算法和其他方法下进行了评估比较。

其中，我们假设IDS1、IDS2、IDS3为即将被攻击的IDS，IDS4、 IDS5和IDS6为已经分别完成检测a₁，a₂和a₃的IDS，并且IDS1和IDS2 分别同时面对1种攻击，IDS3同时面对5种攻击。同时，IDS4、IDS5 和IDS6在策略更新时间段内分别给IDS1、IDS2和IDS3共享自己的策略。

IDS1和IDS2对于攻击库的检测权重集为

IDS3的检测权重集为

其中检测权重集合的第 i个数据表示相关IDS对γ_i的检测权重。同样的，攻击者a₁和a₂对于IDS 检测库的攻击权重集为

攻击者a₃对于IDS检测库的攻击权重集为

其中攻击权重集合的第i个数据表示相关攻击者a实现γ_i攻击的权重。

在模拟场景的NASH-Q算法中，当IDS1或IDS2在检测到攻击时，相应的状态转换概率矩阵

否则

其中，概率矩阵i行j列的数字表示从状态i到状态j的概率。

当IDS3在检测到5种攻击时，相应的状态转换概率矩阵

当IDS3在检测到4种攻击时，则

当 IDS3检测到3种攻击时，

当IDS3检测到2种攻击时，

当IDS3检测到1种攻击时，

当 IDS3没有检测到攻击时，

当IDS4、IDS5和IDS6在分别向IDS1、IDS2和IDS3共享策略时，如果前者检测的数据是正常的，则其收益矩阵中的收益因子

如果前者检测的数据是可疑的，收益因子

如果前者检测的数据是异常的，收益因子

然后，在模拟场景下比较了在4种不同的方法中IDS通过NASH-Q 学习算法累计平均奖励值和所有的IDS根据最后的纳什均衡状态的策略进行资源分配所能加载的检测资源库数目。如图4所示为基于性能分析的IDS累计平均奖励的示意图，图5为IDS能够记载资源库的平均数目的条形图。从图4中可以看出，本发明实施例提出的IDS资源配置方法(用“分布式共享”表示)比传统的分布式激励机制的协作方法(用“分布式激励”表示)提升了51％，与“随机分配”和“非协作” 相比分别提升了75％和185％。与此同时，从图5可以看出，虽然在本发明实施例提出的方法中IDS1和IDS2两者加载的检测库数目比 “非协作”和“随机分配”要少，但是在此方法下的IDS1、IDS2加载的检测库数目优于“分布式激励”，IDS3加载的资源库数目都优于其他方法，我们认为造成这种现象是因为所提方法中IDS1、IDS2牺牲了部分检测资源分配给了需要检测更多攻击的IDS3。综上所述，从图4和图5可以看出本文所提出的方法性能的有效性。

二、攻击次数的改进分析

仿真实验对IDS1、IDS2和IDS3的攻击数目进行了相关的调整。 IDS1、IDS2和IDS3都将同时面临3种攻击，同时3个IDS的状态转换概率矩阵也进行了改动，但是其他的相关参数不变。

当IDS检测到3种攻击时，相关的状态转换概率矩阵

当IDS检测到2种攻击时，

当IDS 检测到1种攻击时，

当IDS没有检测到任何的攻击时，

如图6所示为基于攻击次数分析的IDS的平均累计奖励的示意图，从图6中可以看出，本发明实施例所提供的方法明显优于其他几种方法，并且IDS的累计平均奖励本文提出的方法下比传统方式的“分布式激励”提升了近55％。因此，本发明实施例提出的分布式共享策略方法是具有一定可行性的。

三、攻击者比率的改进分析

仿真实验对攻击者类型(即，正常数据、可疑数据和异常数据)分布概率的情况进行了相关的调整和比较。仿真实验设置

后来因考虑到实际的场景，在该节的实验中设置

然后，在本节仿真实验中比较本发明实施例所提出的方法在不同的

和

情况下IDS3所能加载的资源检测库的数目。

如图7所示为IDS能够记载资源库的平均数目的示意图，从图7 中可以看出，当IDS3检测到异常数据所占的比率越多，IDS3所能加载的检测资源库数目越多。因此，在这种场景也说明了本发明实施例提出的基于分布式共享策略的协作方案是十分有效的。

四、收益因子和策略差异比的改进分析

仿真实验对收益矩阵的收益因子和IDS3相关的策略差异比进行了相关的调整以及实验数据的比较。

如图8所示为在不同的策略差异比下IDS的累计平均奖励的示意图，从图8中可以看出，策略差异比对IDS的平均累计奖励有很大的影响，当IDS3的检测资源库与IDS6的检测库相似度越高(即，策略差异比越低)，那么IDS获得的累计平均奖励越多。在本发明实施例所提的方法中，IDS3的奖励在d＝0.2的情况下比d＝0.4、d＝0.6的情况下分别提升了18％和43％。

如图9所示为在不同的收益因子下IDS的累计平均奖励的示意图，从图9中可以得到，当IDS6共享的收益矩阵的收益因子

越大， IDS获得的累计平均奖励就越多。然而，即使

在文中所提的方法下IDS的奖励依旧优于其他方法。然后，该实验比较IDS3在不同的收益因子

和策略差异比d中能加载的检测资源库数目。

如图10所示为IDS₃能够加载资源库的平均数目的示意图，从图 10中可以看出，所提的方法中的策略差异比越低或收益因子越大， IDS3能够加载检测库数目也就越多。因此，本发明实施例提出的基于分布式共享策略的方案的有效性又一次得到了证明。

五、关于检测概率的改进分析

仿真实验考虑了NASH-Q学习算法中IDS对攻击库的检测率(即， τ₁和τ₂)的影响情况。因此，本次实验改动了入侵网络中所有IDS的τ₁和 τ₂，但是IDS的其他参数和第一部分的IDS参数配置完全一致。

如图11为IDS在不同τ₁和τ₂的情况下的奖励提升率的示意图，从图11中可以看出，本文所提的方法的性能随着τ₂的增加而增加，但是随着τ₂的增加，所提方法的性能增加的速率却越来越慢。对于这种情况，本文认为可以理解为，当IDS检测到不匹配的攻击时，随着τ₂的增加，IDS之间共享策略的协作关系的需要会越来越小。因此，在这次的仿真实验中也说明了本发明实施例所提出基于分布式共享策略的协作方案的有效性。

六、基于多个IDS的性能分析

仿真实验将会考虑入侵检测网络中有18个IDS的情况，其中 IDS1、IDS2和IDS3都同时面临1种攻击，IDS4、IDS5和IDS6都同时面临3种攻击，IDS7、IDS8和IDS9都同时面临5种攻击， IDS10—IDS18分别作为IDS1—IDS9的策略共享者。除此之外，IDS1、 IDS2和IDS3的其他参数配置和第一部分实验中IDS1的参数配置一致，IDS4、IDS5和IDS6的其他参数和第二部分实验中IDS1的参数配置一致，IDS7、IDS8和IDS9的其他参数配置和第一部分实验中的 IDS3参数配置一致。

如图12为IDS的累计平均奖励的示意图，从图12中可以看出，本发明实施例提出的方法(用“分布式共享”表示)比传统的基于分布式激励机制的协作方法(用“分布式激励”表示)提升了55％，与“随机分配”和“非协作”相比分别提升了80％和175％。最后，可以观察到，本发明实施例提出的方法无论是在拥有少数的IDS的入侵检测网络中还是拥有多数IDS的入侵检测网络中，都是优于其他三种方法的。同时，这次仿真实验进一步说明了本文所提出的基于共享策略的双层协作方案的有效性。

模拟结果与分析表明，本发明实施例所提供的方法无论是与非协作方法相比还是与纯粹的分布式激励方法相比，该方法提高了性能且实现高效的资源分配。

图13为本发明实施例提供的一种IDS资源配置装置的结构示意图，目标节点包括确定单元21、接收单元22、构建单元23、分配单元24和作为单元25；

确定单元21，用于根据攻击者的攻击策略，确定出应对策略；其中，目标节点为IDN架构中所有节点中的任意一个IDS节点；

接收单元22，用于将应对策略传输至相邻节点，并接收相邻节点向其反馈的奖励值、差异比和成本值；

构建单元23，用于目标节点根据预先设定的收益因子以及相邻节点向其反馈的奖励值、差异比和成本值，构建收益矩阵；

分配单元24，用于目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源；其中，各节点有其对应的初始资源总数；目标节点向其自身分配的资源为基本资源；

作为单元25，用于目标节点接收其它节点向其分配的第二资源；并将基本资源以及第二资源作为执行应对策略的运行资源。

可选的，还包括接收单元；

接收单元，用于接收相邻节点传输的共享策略，并向相邻节点反馈奖励值、差异比和成本值。

可选的，确定单元包括转换子单元、更新子单元和作为子单元；

转换子单元，用于在目标节点受到攻击时，根据攻击者的攻击策略，转换自身的状态；

更新子单元，用于在状态转换之后，利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数；

作为子单元，用于当t+1∈Tⁱ时，将相邻节点传输的共享策略作为应对策略；当

时，根据如下公式，得到应对策略，

其中，aⁱ表示攻击策略的类型，

可选的，更新子单元具体用于按照如下公式，更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数，

表示为攻击者获得的奖励值；

可选的，分配单元包括初始子单元、构建子单元、转化子单元和优化子单元；

初始子单元，用于根据所有节点各自对应的收益矩阵，向所有节点分配相应的初始资源；

构建子单元，用于根据所有节点向其分配的初始资源，构建奖励函数；

转化子单元，用于利用拉格朗日松弛算法，将奖励函数转化为以奖励值最大化为目标的拉格朗日函数；

优化子单元，用于利用对偶迭代算法，计算拉格朗日函数在约束条件下的最优解；其中，最优解包含目标节点向所有节点分配的资源数目。

图13所对应实施例中特征的说明可以参见图1所对应实施例的相关说明，这里不再一一赘述。

图14为本发明实施例提供的一种IDS资源配置装置30的硬件结构示意图，包括：

存储器31，用于存储计算机程序；

处理器32，用于执行计算机程序以实现如上述IDS资源配置方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述 IDS资源配置方法的步骤。

以上对本发明实施例所提供的一种IDS资源配置方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种IDS资源配置方法，其特征在于，包括：

目标节点根据攻击者的攻击策略以及自身的初始策略库，确定出应对策略；其中，所述目标节点为IDN架构中所有节点中的任意一个IDS节点；

所述目标节点将所述应对策略传输至相邻节点，并接收所述相邻节点向其反馈的奖励值、差异比和成本值；差异比表示节点之间检测资源策略的差异性；

所述目标节点接收其它节点向其分配的第二资源；并将所述基本资源以及所述第二资源作为执行所述应对策略的运行资源；

IDS_i和IDS_j(j≠i)为两个节点，当IDS_i接收到IDS_j的应对策略之后，IDS_i当前的检测资源策略会受到相应的影响，把IDS_i的影响通过三种反应状态表示出来，分别为S₁、S₂和S₃；其中，S₁表示IDS_i在策略改变时间段Tⁱ改变策略且采取和IDS_j一样检测资源策略；S₂表示IDS_i在策略改变时间段Tⁱ改变策略但采取和IDS_j不一样检测资源策略；S₃表示IDS_i在策略改变时间段Tⁱ不改变当前策略；

(1)当IDS_j检测正常数据集合a₁时，IDS_j的收益矩阵P₁如下：

(2)当IDS_j检测可疑数据集合a₂时，IDS_j的收益矩阵P₂如下：

(3)当IDS_j检测异常数据集合a₃时，IDS_j的收益矩阵P₃如下：

其中，

为IDS_j的收益矩阵中的收益因子，

为收益矩阵中的亏损因子，收益矩阵中的b为IDS_j未影响IDS_i改变防御策略之前获得的奖励值，收益矩阵中的d为IDS_i的检测资源策略相对于IDS_j而言的差异比，z则为IDS_i改变为所需防御策略的成本值；

所述目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的第一资源包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述目标节点根据攻击者的攻击策略以及自身的初始策略库，确定出应对策略包括：

时，所述目标节点根据如下公式，得到应对策略，

4.根据权利要求3所述的方法，其特征在于，所述目标节点在状态转换之后，利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数包括：

其中，α_t为NASH-Q算法的学习因子；β表示NASH-Q算法的折扣因子；

表示目标节点在时间点t获得的奖励值，并且

表示为攻击者获得的奖励值；

表示在状态为s且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值；

表示在状态为s′且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值；

表示在状态为s′且在等价于单人阶段博弈的纳什均衡中攻击者的奖励值；l_n表示目标节点受到攻击者攻击的状态为s′时对应的检测资源集、γ_n表示目标节点受到攻击者攻击的状态为s′时对应的攻击数据。

5.一种IDS资源配置装置，其特征在于，目标节点包括确定单元、接收单元、构建单元、分配单元和作为单元；

所述接收单元，用于将所述应对策略传输至相邻节点，并接收所述相邻节点向其反馈的奖励值、差异比和成本值；差异比表示节点之间检测资源策略的差异性；

所述作为单元，用于目标节点接收其它节点向其分配的第二资源；并将所述基本资源以及所述第二资源作为执行所述应对策略的运行资源；

(1)当IDS_j检测正常数据集合a₁时，IDS_j的收益矩阵P₁如下：

(2)当IDS_j检测可疑数据集合a₂时，IDS_j的收益矩阵P₂如下：

(3)当IDS_j检测异常数据集合a₃时，IDS_j的收益矩阵P₃如下：

其中，

为IDS_j的收益矩阵中的收益因子，

目标节点根据所有节点各自对应的收益矩阵，向所有节点分配相应的初始资源；目标节点根据所有节点向其分配的初始资源，构建奖励函数；采用拉格朗日松弛算法，将奖励函数转化为以奖励值最大化为目标的拉格朗日函数；利用对偶迭代算法，计算拉格朗日函数在约束条件下的最优解；其中，最优解包含目标节点向所有节点分配的资源数目。

6.根据权利要求5所述的装置，其特征在于，还包括接收单元；

7.根据权利要求6所述的装置，其特征在于，所述确定单元包括转换子单元、更新子单元和作为子单元；

时，根据如下公式，得到应对策略，

其中，Tⁱ表示目标节点更新策略的时间段，aⁱ表示攻击策略的类型，

8.一种IDS资源配置装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1至4任意一项所述IDS资源配置方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述IDS资源配置方法的步骤。