CN110381020B - 一种ids资源配置方法、装置和计算机可读存储介质 - Google Patents

一种ids资源配置方法、装置和计算机可读存储介质 Download PDF

Info

Publication number
CN110381020B
CN110381020B CN201910510823.1A CN201910510823A CN110381020B CN 110381020 B CN110381020 B CN 110381020B CN 201910510823 A CN201910510823 A CN 201910510823A CN 110381020 B CN110381020 B CN 110381020B
Authority
CN
China
Prior art keywords
ids
target node
strategy
nodes
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910510823.1A
Other languages
English (en)
Other versions
CN110381020A (zh
Inventor
夏卓群
谭晶晶
谷科
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha University of Science and Technology
Original Assignee
Changsha University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha University of Science and Technology filed Critical Changsha University of Science and Technology
Priority to CN201910510823.1A priority Critical patent/CN110381020B/zh
Publication of CN110381020A publication Critical patent/CN110381020A/zh
Application granted granted Critical
Publication of CN110381020B publication Critical patent/CN110381020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms
    • H04L67/1082Resource delivery mechanisms involving incentive schemes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例公开了一种IDS资源配置方法、装置和介质,目标节点根据攻击者的攻击策略以及自身的初始策略库,确定出应对策略;将应对策略传输至相邻节点,并接收相邻节点向其反馈的奖励值、差异比和成本值。根据预先设定的收益因子以及相邻节点向其反馈的奖励值、差异比和成本值,构建收益矩阵;根据所有节点各自对应的收益矩阵,向所有节点分配相应的第一资源;其中,各节点有其对应的初始资源总数;目标节点向其自身分配的资源为基本资源。目标节点接收其它节点向其分配的第二资源;并将基本资源以及第二资源作为执行应对策略的运行资源。IDS之间通过协作实现策略共享以及资源分配,从而保证各IDS拥有足够的资源来检测更多的攻击者。

Description

一种IDS资源配置方法、装置和计算机可读存储介质
技术领域
本发明涉及智能电网技术领域,特别是涉及一种IDS资源配置方 法、装置和计算机可读存储介质。
背景技术
智能电网给提供了一种有效的能源管理方案。能源提供者和消费 者都可以通过能源管理实现两者共赢的便利性,同时也促进了消费者 的绿色生活。智能电网的优势不仅仅是实现了能源提供者和消费者之 间的双向通信,同时能够实时的收集所有级别的数据并做出相关的分 析和反应,而且能够接入其他的新能源和促进现代化电网的优化。
随着这些新技术和新能源接入智能电网,尤其是指接入互联网的 通信网络,将会给智能电网的安全带来一些新的威胁。这些威胁除了 人为破坏和仪器损坏造成物理上的破坏,其他安全威胁都是来源于网 络,例如计算机的恶意软件和恶意代码,恶意节点,计算机病毒,拒 绝服务攻击以及黑客的网络攻击。在针对各种网络入侵的方法中,现 有技术采用最多的检测防御就是进行部署入侵检测系统(Intrusion Detection Systems,IDS)对网络来进行监控和防御。
高级计量基础设施(Advanced Metering Infrastructure,AMI)属于智 能电网中一个十分重要的组成部分,因此在AMI通信网络部署大量专 用的IDS是十分关键的。尽管现在入侵检测系统的研究文献很多,但 是因为资源限制,仪器中嵌入的IDS是无法运行所有的入侵检测算法, 同时单一的IDS也无法完成所有入侵攻击者的检测。
可见,如何充分运用入侵检测网络中入侵检测资源使得IDS检测 到更多的攻击者,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种IDS资源配置方法、装置和计算 机可读存储介质,可以充分运用入侵检测网络中入侵检测资源使得 IDS检测到更多的攻击者。
为解决上述技术问题,本发明实施例提供一种IDS资源配置方法, 包括:
目标节点根据攻击者的攻击策略以及自身的初始策略库,确定出 应对策略;其中,所述目标节点为IDN架构中所有节点中的任意一个 IDS节点;
所述目标节点将所述应对策略传输至相邻节点,并接收所述相邻 节点向其反馈的奖励值、差异比和成本值;
所述目标节点根据预先设定的收益因子以及所述相邻节点向其 反馈的奖励值、差异比和成本值,构建收益矩阵;
所述目标节点根据所有节点各自对应的收益矩阵,向所有节点分 配相应的第一资源;其中,各节点有其对应的初始资源总数;所述目 标节点向其自身分配的资源为基本资源;
所述目标节点接收其它节点向其分配的第二资源;并将所述基本 资源以及所述第二资源作为执行所述应对策略的运行资源。
可选的,还包括:
所述目标节点接收相邻节点传输的共享策略,并向所述相邻节点 反馈奖励值、差异比和成本值。
可选的,所述目标节点根据攻击者的攻击策略以及自身的初始策 略库,确定出应对策略包括:
所述目标节点受到攻击时,根据攻击者的攻击策略以及自身的初 始策略库,转换自身的状态;
所述目标节点在状态转换之后,利用NASH-Q算法更新自身的质 量函数、价值函数、虚拟质量函数和虚拟价值函数;
当t+1∈Ti时,所述目标节点将所述相邻节点传输的共享策略作为 应对策略;当
Figure BDA0002093442220000022
时,所述目标节点根据如下公式,得到应对策略,
Figure BDA0002093442220000021
其中,Ti表示目标节点更新策略的时间段;ai表示攻击策略的类 型,
Figure BDA0002093442220000031
表示在状态为s且动作为(l,γ)的情况下目标节点的总期 望折扣奖励值;
Figure BDA0002093442220000032
表示在状态为s且动作为(l,γ)的情况下攻击 者的总期望折扣奖励值。
可选的,所述目标节点在状态转换之后,利用NASH-Q算法更新 自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数包括:
所述目标节点按照如下公式,更新自身的质量函数、价值函数、 虚拟质量函数和虚拟价值函数,
Figure BDA0002093442220000033
Figure BDA0002093442220000034
Figure BDA0002093442220000035
Figure BDA0002093442220000036
其中,αt为NASH-Q算法的学习因子;β表示NASH-Q算法的折 扣因子;rt IDS表示目标节点在时间点t获得的奖励值,并且rt IDS=RIDS
Figure BDA0002093442220000037
表示为攻击者获得的奖励值;
Figure BDA0002093442220000038
表示在状态为s且动作 为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure BDA0002093442220000039
表示在状态 为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值;
Figure BDA00020934422200000310
表示在 状态为s且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值; Vt IDS(s′)表示在状态为s′且在等价于单人阶段博弈的纳什均衡中目标节 点的奖励值;
Figure BDA00020934422200000311
表示在状态为s且在等价于单人阶段博弈的纳什均 衡中攻击者的奖励值;
Figure BDA00020934422200000312
表示在状态为s′且在等价于单人阶段博弈 的纳什均衡中攻击者的奖励值。
可选的,所述目标节点根据所有节点各自对应的收益矩阵,向所 有节点分配相应的第一资源包括:
所述目标节点根据所有节点各自对应的收益矩阵,向所有节点分 配相应的初始资源;
所述目标节点根据所有节点向其分配的初始资源,构建奖励函 数;
所述目标节点利用拉格朗日松弛算法,将所述奖励函数转化为以 奖励值最大化为目标的拉格朗日函数;
所述目标节点利用对偶迭代算法,计算所述拉格朗日函数在约束 条件下的最优解;其中,所述最优解包含所述目标节点向所有节点分 配的资源数目。
本发明实施例还提供了一种IDS资源配置装置,目标节点包括确 定单元、接收单元、构建单元、分配单元和作为单元;
所述确定单元,用于根据攻击者的攻击策略,确定出应对策略; 其中,所述目标节点为IDN架构中所有节点中的任意一个IDS节点;
所述接收单元,用于将所述应对策略传输至相邻节点,并接收所 述相邻节点向其反馈的奖励值、差异比和成本值;
所述构建单元,用于目标节点根据预先设定的收益因子以及所述 相邻节点向其反馈的奖励值、差异比和成本值,构建收益矩阵;
所述分配单元,用于目标节点根据所有节点各自对应的收益矩 阵,向所有节点分配相应的第一资源;其中,各节点有其对应的初始 资源总数;所述目标节点向其自身分配的资源为基本资源;
所述作为单元,用于目标节点接收其它节点向其分配的第二资 源;并将所述基本资源以及所述第二资源作为执行所述应对策略的运 行资源。
可选的,还包括接收单元;
所述接收单元,用于接收相邻节点传输的共享策略,并向所述相 邻节点反馈奖励值、差异比和成本值。
可选的,所述确定单元包括转换子单元、更新子单元和作为子单 元;
所述转换子单元,用于在目标节点受到攻击时,根据攻击者的攻 击策略,转换自身的状态;
所述更新子单元,用于在状态转换之后,利用NASH-Q算法更新 自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数;
所述作为子单元,用于当t+1∈Ti时,将所述相邻节点传输的共享 策略作为应对策略;当
Figure BDA0002093442220000051
时,根据如下公式,得到应对策略,
Figure BDA0002093442220000052
其中,ai表示攻击策略的类型,
Figure BDA0002093442220000053
表示在状态为s且动作 为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure BDA0002093442220000054
表示在状态 为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值。
可选的,所述更新子单元具体用于按照如下公式,更新自身的质 量函数、价值函数、虚拟质量函数和虚拟价值函数,
Figure BDA0002093442220000055
Figure BDA0002093442220000056
Figure BDA0002093442220000057
Figure BDA0002093442220000058
其中,αt为NASH-Q算法的学习因子;β表示NASH-Q算法的折 扣因子;rt IDS表示目标节点在时间点t获得的奖励值,并且rt IDS=RIDS
Figure BDA0002093442220000059
表示为攻击者获得的奖励值;
Figure BDA00020934422200000510
表示在状态为s且动作 为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure BDA00020934422200000511
表示在状态 为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值;
Figure BDA00020934422200000512
表示在 状态为s且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值; Vt IDS(s′)表示在状态为s′且在等价于单人阶段博弈的纳什均衡中目标节 点的奖励值;
Figure BDA00020934422200000513
表示在状态为s且在等价于单人阶段博弈的纳什均 衡中攻击者的奖励值;
Figure BDA00020934422200000514
表示在状态为s′且在等价于单人阶段博弈 的纳什均衡中攻击者的奖励值。
可选的,所述分配单元包括初始子单元、构建子单元、转化子单 元和优化子单元;
所述初始子单元,用于根据所有节点各自对应的收益矩阵,向所 有节点分配相应的初始资源;
所述构建子单元,用于根据所有节点向其分配的初始资源,构建 奖励函数;
所述转化子单元,用于利用拉格朗日松弛算法,将所述奖励函数 转化为以奖励值最大化为目标的拉格朗日函数;
所述优化子单元,用于利用对偶迭代算法,计算所述拉格朗日函 数在约束条件下的最优解;其中,所述最优解包含所述目标节点向所 有节点分配的资源数目。
本发明实施例还提供了一种IDS资源配置装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上述IDS资源配置方 法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可 读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实 现如上述IDS资源配置方法的步骤。
由上述技术方案可以看出,目标节点根据攻击者的攻击策略以及 自身的初始策略库,确定出应对策略;其中,目标节点为IDN架构中 所有节点中的任意一个IDS节点;目标节点将应对策略传输至相邻节 点,并接收相邻节点向其反馈的奖励值、差异比和成本值。节点之间 通过策略共享,可以使各节点检测到更多类型的攻击者,提升了系统 的安全性。目标节点根据预先设定的收益因子以及相邻节点向其反馈 的奖励值、差异比和成本值,构建收益矩阵;目标节点根据所有节点 各自对应的收益矩阵,向所有节点分配相应的第一资源;其中,各节 点有其对应的初始资源总数;目标节点向其自身分配的资源为基本资 源。目标节点接收其它节点向其分配的第二资源;并将基本资源以及 第二资源作为执行应对策略的运行资源。在资源分配时,IDN架构中 所有节点都作为资源提供者,在每一轮资源分配中由未进行资源分配 的一个节点向所有节点分配资源,IDS之间通过协作实现高效的资源 分配,从而保证各IDS拥有足够的资源来检测更多的攻击者。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用 的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动 的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种IDS资源配置方法的流程图;
图2为本发明实施例提供的一种IDN架构的示意图;
图3为本发明实施例提供的一种协作方案描述图;
图4为本发明实施例提供的一种基于性能分析的IDS累计平均奖 励的示意图;
图5为本发明实施例提供的一种IDS能够记载资源库的平均数目 的条形图;
图6为本发明实施例提供的一种基于攻击次数分析的IDS的平均 累计奖励的示意图;
图7为本发明实施例提供的一种IDS能够记载资源库的平均数目 的示意图;
图8为本发明实施例提供的一种在不同的策略差异比下IDS的累 计平均奖励的示意图;
图9为本发明实施例提供的一种在不同的收益因子下IDS的累计 平均奖励的示意图;
图10为本发明实施例提供的一种IDS3能够加载资源库的平均数 目的示意图;
图11为本发明实施例提供的一种IDS在不同τ1和τ2的情况下的奖 励提升率的示意图;
图12为本发明实施例提供的一种IDS的累计平均奖励的示意图;
图13为本发明实施例提供的一种IDS资源配置装置的结构示意 图;
图14为本发明实施例提供的一种IDS资源配置装置的硬件结构 示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方 案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部 分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例, 都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图 和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种IDS资源配置方法。 图1为本发明实施例提供的一种IDS资源配置方法的流程图,该方法 包括:
S101:目标节点根据攻击者的攻击策略以及自身的初始策略库, 确定出应对策略。
在入侵检测网络(Intrusion Detection Network,IDN)架构中包括有 多个IDS节点。如图2所示为本发明实施例提供的一种IDN架构的示 意图,在该IDN架构中包括有6个IDS节点,分别为IDS1至IDS6。 每个IDS节点有其相邻的节点,当某个IDS节点受到攻击之后,会采 取相应的应对策略。与其相邻的IDS节点受到此类攻击的几率较高, 为了保证与其相邻的IDS节点可以有效的应对该类攻击,当前已经受 到攻击的IDS节点可以将应对策略分享给与其相邻的IDS节点。
在本发明实施例中,利用节点之间的相互协作实现策略的共享以 及资源的分配,每个节点所执行的流程类似,在本发明实施例中,均 以IDN架构中所有节点中的任意一个IDS节点即目标节点为例展开介 绍。
当目标节点受到攻击者的攻击时,目标节点首先会学习应对攻击 者的攻击策略所采取的应对策略πIDS(s,l,γ)。
πIDS(s,l,γ)表示在状态s下目标节点对于攻击者的攻击集γ采取的 检测资源集l。同时攻击者也会相应地学习目标节点的策略然后采取 策略πa(s,γ,l)。πa(s,γ,l)表示在状态s下攻击者对于检测资源集l采取的 攻击集γ。
S102:目标节点将应对策略传输至相邻节点,并接收相邻节点向 其反馈的奖励值、差异比和成本值。
当节点面对相同的攻击者的时候,已经检测到此攻击者的目标节 点将会给正在被入侵或者即将被入侵攻击的目标节点分享自己的检测 资源策略即应对策略,同时接收到分享策略的节点会向目标节点反馈 一定的奖励值。
考虑到在现实的智能电网场景中,尽管节点之间可以共享策略, 但是节点之间的策略会存在着一定的差异性。针对这种情况,在本发 明实施例中提出了策略的差异比这个概念,表示节点之间检测资源策 略的差异性。
当与目标节点相邻的节点接收到目标节点传输的应对策略时,该 节点的检测资源策略一定会受到相应的影响,因此,在构建收益矩阵 时需要考虑该节点改变防御策略的成本值。
S103:目标节点根据预先设定的收益因子以及相邻节点向其反馈 的奖励值、差异比和成本值,构建收益矩阵。
以两个节点IDSi和IDSj(j≠i)为例,当IDSi接收到IDSj的应对策略之 后,IDSi当前的检测资源策略一定会受到相应的影响。在本发明实施 例中,把IDSi的影响通过三种反应状态表示出来,分别为S1、S2和S3; 其中,S1表示IDSi在策略改变时间段Ti改变策略且采取和IDSj一样检测 资源策略;S2表示IDSi在策略改变时间段Ti改变策略但采取和IDSj不一 样检测资源策略;S3表示IDSi在策略改变时间段Ti不改变当前策略。
当IDN中的IDSj检测的数据是可疑数据或者异常数据的时候改变 了防御策略,与之相邻的IDSi改变当前检测资源策略时,我们认为是 相对安全的;反之,如果IDSj检测到可疑数据或者异常数据,然后IDSj分享它的检测资源策略给IDSi的时候,IDSi没有改变自己的检测资源策 略,我们认为IDSi行为是相对不安全。同时,如果IDSi改变当前的策略, 那么IDSi将会反馈给IDSj一定的奖励值,反馈的次数越多,IDSj的奖励 值越大。但是,当IDSj检测的数据是正常数据时,IDSi是否改变当前策 略已经无关重要了。
根据IDSj检测的三种数据类型,其对应的收益矩阵定义如下:
(1)当IDSj检测正常数据集合a1时,IDSj的收益矩阵P1如下:
Figure BDA0002093442220000101
(2)当IDSj检测可疑数据集合a2时,IDSj的收益矩阵P2如下:
Figure BDA0002093442220000102
(3)当IDSj检测异常数据集合a3时,IDSj的收益矩阵P3如下:
Figure BDA0002093442220000103
其中,
Figure BDA0002093442220000104
为IDSj的收益矩阵中的收益因 子,
Figure BDA0002093442220000105
为收益矩阵中的亏损因子,收益矩阵中的b为IDSj未影响IDSi改 变防御策略之前获得的奖励值,收益矩阵中的d为IDSi的检测资源策 略相对于IDSj而言的差异比,z则为IDSi改变为所需防御策略的成本 值。
b的值可以通过如下公式计算获得,
Figure BDA0002093442220000106
Figure BDA0002093442220000107
其中,
Figure BDA0002093442220000108
表示IDSj的检测资源库集合Lj对攻击数据γm的检测率;
Figure BDA0002093442220000111
表示IDSj检测到攻击数据γm的相对权重值;
Figure BDA0002093442220000112
表示IDS的某个检 测资源库ln对攻击数据γm的检测率。
d的值可以通过如下公式计算获得,
Figure BDA0002093442220000113
其中,|{ln∈Li∩ln∈Lj}|表示为IDSi的检测资源不同于IDSj的检测资源 库的数目,|{ln∈Lj}|表示为IDSj所拥有的检测资源库数目。
S104:目标节点根据所有节点各自对应的收益矩阵,向所有节点 分配相应的第一资源。
IDN架构中的各节点需要获取到资源之后,才能够运行应对策略, 从而实现与攻击者的博弈。
考虑到在IDS的集中式资源分配方法中IDN管理中心计算能力有 限,所以在本发明实施例中采取了分布式激励机制来管理IDS进行互 相协助的资源分配。
IDN架构中所有的IDS都作为资源提供者,在每一轮中由未进行 资源分配的IDS作为资源提供者,然后资源提供者将会通过分布式激 励机制为所有的IDS分配资源。
在进行资源分配之前,各节点有其对应的初始资源总数。以目标 节点为例,其向所有节点分配的资源可以统称为第一资源。由于目标 节点在分配资源时也会向自身分配资源,为了便于区分,可以将目标 节点向其自身分配的资源称为基本资源。
目标节点根据所有节点各自对应的收益矩阵,向所有节点分配相 应的初始资源;目标节点根据所有节点向其分配的初始资源,构建奖 励函数。
以两个节点IDSi和IDSj(j≠i)为例,在一轮资源分配过程中,未分 配资源的IDSi将会为IDN中的IDSj分配
Figure BDA0002093442220000114
个单位的资源。那 么,从IDSi分配资源到IDSj收到资源的奖励函数Pji(gj)如下所示,
Figure BDA0002093442220000115
其中,gj表示所有的IDS分配给IDSj的资源数目并且
Figure BDA0002093442220000121
Figure BDA0002093442220000122
表示相对于IDSi而言
Figure BDA0002093442220000123
的权重;ci表示在资源共 享中IDSi的成本权重;
fji(·)表示预付函数,具体的表达式如下所示,
Figure BDA0002093442220000124
Figure BDA0002093442220000125
其中,
Figure BDA0002093442220000126
表示攻击者的数据中正常数据所占的比率;
Figure BDA0002093442220000127
表示为 攻击者的数据中可疑数据所占的比率;
Figure BDA0002093442220000128
表示攻击者的数据中异常数 据所占的比率;qk表示IDS的收益矩阵中各位元素所占的比率;
Figure BDA0002093442220000129
表 示IDS的收益矩阵中各个元素的值。
IDSi分配资源到所有IDS节点收到资源的总奖励函数如下公式 (1)所示,
Figure BDA00020934422200001210
其中,gi表示为IDSi分配IDN中所有的IDS的资源数目且
Figure BDA00020934422200001211
所以更直接地说,为了找到IDN中IDS的最佳策略共享资源,就 是让每个IDS求得总奖励函数的最大值,求解IDS总奖励函数最大值 的公式如下公式(2)所示,
Figure BDA00020934422200001212
Figure BDA00020934422200001213
由公式(1和(2)可知,未分配资源的IDS总奖励优化问题的关键因 素在于变量gi
在资源分配的每一轮上,从直观上来看,未分配资源的节点目的 是使得自己获得的总奖励最大化。在本发明实施例中,可以采用拉格 朗日松弛算法,将奖励函数转化为以奖励值最大化为目标的拉格朗日 函数;然后利用对偶迭代算法,计算拉格朗日函数在约束条件下的最 优解;其中,最优解包含目标节点向所有节点分配的资源数目。
结合上述公式(1)和公式(2),采用拉格朗日松弛算法,将奖 励函数转化为以奖励值最大化为目标的拉格朗日函数,其公式如下所 示,
Figure BDA0002093442220000131
其中,λi为拉格朗日乘子,相关的变量集为
Figure BDA0002093442220000132
在上述介绍的基于分布式激励机制进行资源分配,为了促进IDS 之间的相互协作,可以设定
Figure BDA0002093442220000133
IDN中每个IDS资源分配策略是存在纳什均衡的,即每个IDS在 获得最大化的总奖励的时候,对其他的IDS没有较大的影响,同时相 关的资源分配也是比较合理的。关于纳什均衡的证明过程将在后续内 容中介绍,在此不再展开说明。
分布式激励机制处于纳什均衡的时候,每个IDS都不会改变自己 当前的检测资源策略否则,每个IDS将会更新自己当前的检测资源策 略。为了直观地表示IDS更新策略的过程,本发明实施例采用异步更 新算法,来计算这个唯一的纳什均衡(NASH Equilibrium,NE)。
异步更新算法的函数如下所示,
Figure BDA0002093442220000134
其中,
Figure BDA0002093442220000135
表示在时间点t的时候IDSi分配给IDSj的资源数目,Ti表示IDSi更新共享策略的时间段。
因此,IDN中的IDS都会遵循异步更新算法的规则,按时共享和 更新策略。同时又因为
Figure BDA0002093442220000141
那么该算法的收敛 性也是唯一的。然后,我们可以发现此时拉格朗日函数L(gii)的优化 问题关键性变量在于拉格朗日乘子λi,因此本发明实施例利用拉格朗 日的对偶性来解决此优化问题。
在本发明实施例中,定义该对偶问题的最优解为Eii),表达式如 下:
Figure BDA0002093442220000142
将上述拉格朗日函数的公式代入该最优解公式,可以得到如下公 式:
Figure BDA0002093442220000143
我们很容易发现Eii)是一个凸函数,因此存在一个值
Figure BDA0002093442220000149
使得函数 Eii)取得最小值,表达式如下所示:
Figure BDA0002093442220000144
将如下公式代入函数Eii),
Figure BDA0002093442220000145
并且对函数求导,得到其一阶导函数如下:
Figure BDA0002093442220000146
其中,
Figure BDA0002093442220000147
然后再对其一阶导函数进行求导,得到其二阶导函数如下:
Figure BDA0002093442220000148
函数Eii)不但是凸函数而且也是强凸函数,且相应的黑塞函数是 有界的,即E″ii)≥K1
因此,我们可以通过E″ii)=0计算对偶函数最优
Figure BDA0002093442220000157
的值,化简 E″ii)=0得到如下公式:
Figure BDA0002093442220000151
为了求得对偶函数的最优解,我们采用梯度下降算法来求取最优的
Figure BDA0002093442220000156
Figure BDA0002093442220000155
其中,ρi∈(0,1)表示步长。
E′ii)满足利普希兹连续的且相关的利普希兹参数为K2,同时Eii) 是强凸函数且E″ii)≥K1
函数
Figure BDA0002093442220000152
收敛于对偶函数的最优解,且步长
Figure BDA0002093442220000153
在分布式激励机制上,IDN中的IDSi在异步更新时,不仅仅需要更 新IDSi分配给IDSj的资源数目
Figure BDA0002093442220000154
同时也需要更新相应的拉格朗日乘子 λi和资源数目G(IDSi)。
S105:目标节点接收其它节点向其分配的第二资源;并将基本资 源以及第二资源作为执行应对策略的运行资源。
IDN架构中除目标节点之外的剩余节点向目标节点分配的资源统 称为第二资源。
其它节点向目标节点分配资源的方式和目标节点向所有节点分 配资源的方式类似,具体可以参见S104的操作,在此不再赘述。
目标节点获取的基本资源以及其它节点向其分配的第二资源的 总和即为目标节点当前可使用的有效资源,目标节点可以利用该有效 资源执行应对策略,从而实现与攻击者的随机博弈。
目标节点在博弈中的目标是为了让自己获得最大化的折扣奖励
Figure BDA0002093442220000161
且折扣因子β∈[0,1)。同理,攻击者在博弈中的目标是 为了让自己获得最大化的折扣奖励
Figure BDA0002093442220000162
且折扣因子β∈[0,1)。 那么,目标节点和攻击者的博弈可以看为一个由两个玩家组成的随机 博弈,同时IDSi在博弈时可以接受来自其他IDSj(j≠i)传输的共享策略, 并做出一些回应,例如,向IDSj(j≠i)反馈奖励值、差异比和成本值。
针对于步骤S101中目标节点和相关的攻击者(攻击数据集合a)之 间的随机博弈,在本发明实施例中可以采取NASH-Q算法确定应对策 略。由于Nash-Q不需要其他Agent的历史信息即可通过Nash均衡的 求解而获得混合策略,因此更易于实现也更加高效。
目标节点受到攻击时,根据攻击者的攻击策略以及自身的初始策 略库,转换自身的状态;目标节点在状态转换之后,可以利用NASH-Q 算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数; 当t+1∈Ti时,目标节点将相邻节点传输的共享策略作为应对策略;当
Figure BDA0002093442220000163
时,目标节点根据如下公式,得到应对策略,
Figure BDA0002093442220000164
其中,Ti表示目标节点更新策略的时间段;ai表示攻击策略的类 型,
Figure BDA0002093442220000165
表示在状态为s且动作为(l,γ)的情况下目标节点的总期 望折扣奖励值;
Figure BDA0002093442220000166
表示在状态为s且动作为(l,γ)的情况下攻击 者的总期望折扣奖励值。
假设目标节点受到攻击者攻击的起始时间为t,起始状态为s,下 一个状态为s′,动作为(lnn),从状态s转换为状态s′的概率为 ρst(s′|s,l,r)。那么如果从状态s转换为状态s′,目标节点(IDS)将会 更新自己的质量函数QIDS和价值函数VIDS,同时为了更好地观察攻击者 的行为,IDS也将更新自身的虚拟质量函数
Figure BDA0002093442220000167
和虚拟价值函数
Figure BDA0002093442220000168
更 新函数如下所示:
Figure BDA0002093442220000171
Figure BDA0002093442220000172
Figure BDA0002093442220000173
Figure BDA0002093442220000174
其中,αt为NASH-Q算法的学习因子;β表示NASH-Q算法的折 扣因子;rt IDS表示目标节点在时间点t获得的奖励值,并且rt IDS=RIDS
Figure BDA0002093442220000175
表示为攻击者获得的奖励值;
Figure BDA0002093442220000176
表示在状态为s且动作 为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure BDA0002093442220000177
表示在状态 为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值;
Figure BDA0002093442220000178
表示在 状态为s且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值; Vt IDS(s′)表示在状态为s′且在等价于单人阶段博弈的纳什均衡中目标节 点的奖励值;
Figure BDA0002093442220000179
表示在状态为s且在等价于单人阶段博弈的纳什均 衡中攻击者的奖励值;
Figure BDA00020934422200001710
表示在状态为s′且在等价于单人阶段博弈 的纳什均衡中攻击者的奖励值。
Figure BDA00020934422200001711
可以通过如下公式获得,
Figure BDA00020934422200001712
其中,
Figure BDA00020934422200001713
表示攻击者ai可以实现γm攻击的收益权重。
在S104中提及每个IDS资源分配策略存在纳什均衡。接下来将 对IDS资源分配博弈的纳什均衡性质进行证明。
根据拉格朗日公式,将一阶KKT条件应用到IDN中每个IDS 的总奖励优化问题得到如下公式(3):
Figure BDA0002093442220000181
将拉格朗日公式代入上述公式(3),简化得到如下公式(4):
Figure BDA0002093442220000182
根据
Figure BDA0002093442220000183
的限制条件和一阶KKT条件得到如下公式(5):
Figure BDA0002093442220000184
为了简化上述公式(5),我们定义两个权重矩阵H(j)和D(j)如下公 式(6):
Figure BDA0002093442220000185
将简化公式(6)代入公式(5)化简得到如下公式(7):
Figure BDA0002093442220000186
上述公式(7)是存在着解的,所以IDN中每个IDS资源分配策略 是存在纳什均衡的,也就意味着每个IDS在获得最大化的总奖励的时 候对其他的IDS没有较大的影响同时相关的资源分配也是比较合理 的。
在提出的基于分布式激励机制下的进行资源分配,为了促进IDS 之间的相互协作,在本发明实施例中设定
Figure BDA0002093442220000191
那么在分布式激励机制下IDN中IDS获得最大化的总奖励时资源分配 策略的纳什均衡是唯一的。
在本发明实施例中,AMI网络中IDS资源配置的问题是通过基于 共享策略的双层协作方法解决。如图3所示为协作方案描述图,为了 使用双层协作方法解决资源配置,我们在第一层协作框架中提出了基 于共享策略的随机博弈模型,在第二层协作框架中提出了基于分布式 的激励机制。
由上述技术方案可以看出,目标节点根据攻击者的攻击策略以及 自身的初始策略库,确定出应对策略;其中,目标节点为IDN架构中 所有节点中的任意一个IDS节点;目标节点将应对策略传输至相邻节 点,并接收相邻节点向其反馈的奖励值、差异比和成本值。节点之间 通过策略共享,可以使各节点检测到更多类型的攻击者,提升了系统 的安全性。目标节点根据预先设定的收益因子以及相邻节点向其反馈 的奖励值、差异比和成本值,构建收益矩阵;目标节点根据所有节点 各自对应的收益矩阵,向所有节点分配相应的第一资源;其中,各节 点有其对应的初始资源总数;目标节点向其自身分配的资源为基本资 源。目标节点接收其它节点向其分配的第二资源;并将基本资源以及 第二资源作为执行应对策略的运行资源。在资源分配时,IDN架构中 所有节点都作为资源提供者,在每一轮资源分配中由未进行资源分配 的一个节点向所有节点分配资源,IDS之间通过协作实现高效的资源 分配,从而保证各IDS拥有足够的资源来检测更多的攻击者。
在具体实现中,对本发明实施例提出的IDS资源配置方法进行了 模拟仿真,并且在不同的条件下对该方法进行了性能的比较和分析。 本发明实施例所提方法的仿真实验都在AMI的领域网中进行模拟实 现。
在模拟的场景中,入侵检测网络总共包含6个IDS,其中3个IDS 为已经检测到攻击者入侵行为的IDS,另外3个IDS为即将被攻击的 IDS,并且每个IDS发布的消息和策略都是可信的。假设模拟实验中 所有的IDS资源检测库集为{l1,l2,l3,l4,l5,l6,l7,l8},其中每个IDS最多只能 加载5个资源检测库,同时实验中所有的IDS相关的入侵攻击库为 {γ12345678}。
如果i=m,那么检测库li检测攻击γm的检测率
Figure BDA0002093442220000201
为0.85,否则, 检测库li检测攻击γm的检测率
Figure BDA0002093442220000202
为0.1。除此之外,本实验中 NASH-Q算法中的折扣因子β,探索概率ρex,攻击者和IDS双方的学 习因子αt以及状态转换概率矩阵ρst根据现有的实现研究进行了相关 设置。所提算法的性能指标优劣通过比较IDS累计的平均奖励
Figure BDA0002093442220000203
获 得,并且
Figure BDA0002093442220000204
的公式如下所示:
Figure BDA0002093442220000205
一、本发明实施例提出的IDS资源配置方法的性能分析
首先,在模拟场景下入侵检测网络中的6个IDS累计的平均奖励 在所提出的算法和其他方法下进行了评估比较。
其中,我们假设IDS1、IDS2、IDS3为即将被攻击的IDS,IDS4、 IDS5和IDS6为已经分别完成检测a1,a2和a3的IDS,并且IDS1和IDS2 分别同时面对1种攻击,IDS3同时面对5种攻击。同时,IDS4、IDS5 和IDS6在策略更新时间段内分别给IDS1、IDS2和IDS3共享自己的 策略。
IDS1和IDS2对于攻击库的检测权重集为
Figure BDA0002093442220000206
IDS3的检测权重集为
Figure BDA0002093442220000207
其中检测权重集合的第 i个数据表示相关IDS对γi的检测权重。同样的,攻击者a1和a2对于IDS 检测库的攻击权重集为
Figure BDA0002093442220000208
攻击者a3对于IDS检测库 的攻击权重集为
Figure BDA0002093442220000209
其中攻击权重集合的第i个数 据表示相关攻击者a实现γi攻击的权重。
在模拟场景的NASH-Q算法中,当IDS1或IDS2在检测到攻击时, 相应的状态转换概率矩阵
Figure BDA0002093442220000211
否则
Figure BDA0002093442220000212
其中,概率矩阵i行j列的数字表示从状态i到状态j的概率。
当IDS3在检测到5种攻击时,相应的状态转换概率矩阵
Figure BDA0002093442220000213
当IDS3在检测到4种攻击时,则
Figure BDA0002093442220000214
当 IDS3检测到3种攻击时,
Figure BDA0002093442220000215
当IDS3检测到2种攻击时,
Figure BDA0002093442220000216
当IDS3检测到1种攻击时,
Figure BDA0002093442220000217
当 IDS3没有检测到攻击时,
Figure BDA0002093442220000218
当IDS4、IDS5和IDS6在分别向IDS1、IDS2和IDS3共享策略 时,如果前者检测的数据是正常的,则其收益矩阵中的收益因子
Figure BDA0002093442220000219
如果前者检测的数据是可疑的,收益因子
Figure BDA00020934422200002110
如果前者 检测的数据是异常的,收益因子
Figure BDA00020934422200002111
然后,在模拟场景下比较了在4种不同的方法中IDS通过NASH-Q 学习算法累计平均奖励值和所有的IDS根据最后的纳什均衡状态的策 略进行资源分配所能加载的检测资源库数目。如图4所示为基于性能 分析的IDS累计平均奖励的示意图,图5为IDS能够记载资源库的平 均数目的条形图。从图4中可以看出,本发明实施例提出的IDS资源 配置方法(用“分布式共享”表示)比传统的分布式激励机制的协作方 法(用“分布式激励”表示)提升了51%,与“随机分配”和“非协作” 相比分别提升了75%和185%。与此同时,从图5可以看出,虽然在 本发明实施例提出的方法中IDS1和IDS2两者加载的检测库数目比 “非协作”和“随机分配”要少,但是在此方法下的IDS1、IDS2加 载的检测库数目优于“分布式激励”,IDS3加载的资源库数目都优于 其他方法,我们认为造成这种现象是因为所提方法中IDS1、IDS2牺牲了部分检测资源分配给了需要检测更多攻击的IDS3。综上所述,从 图4和图5可以看出本文所提出的方法性能的有效性。
二、攻击次数的改进分析
仿真实验对IDS1、IDS2和IDS3的攻击数目进行了相关的调整。 IDS1、IDS2和IDS3都将同时面临3种攻击,同时3个IDS的状态转 换概率矩阵也进行了改动,但是其他的相关参数不变。
当IDS检测到3种攻击时,相关的状态转换概率矩阵
Figure BDA0002093442220000221
当IDS检测到2种攻击时,
Figure BDA0002093442220000222
当IDS 检测到1种攻击时,
Figure BDA0002093442220000223
当IDS没有检测到任何的攻击时,
Figure BDA0002093442220000224
如图6所示为基于攻击次数分析的IDS的平均累计奖励的示意 图,从图6中可以看出,本发明实施例所提供的方法明显优于其他几 种方法,并且IDS的累计平均奖励本文提出的方法下比传统方式的“分 布式激励”提升了近55%。因此,本发明实施例提出的分布式共享策 略方法是具有一定可行性的。
三、攻击者比率的改进分析
仿真实验对攻击者类型(即,正常数据、可疑数据和异常数据)分 布概率的情况进行了相关的调整和比较。仿真实验设置
Figure BDA0002093442220000225
后来因考虑到实际的场景,在该节的实验 中设置
Figure BDA0002093442220000226
然后,在本节仿真实验中比较本发明实施例所提出的方 法在不同的
Figure BDA0002093442220000227
Figure BDA0002093442220000228
情况下IDS3所能加载的资源检测库的数目。
如图7所示为IDS能够记载资源库的平均数目的示意图,从图7 中可以看出,当IDS3检测到异常数据所占的比率越多,IDS3所能加 载的检测资源库数目越多。因此,在这种场景也说明了本发明实施例 提出的基于分布式共享策略的协作方案是十分有效的。
四、收益因子和策略差异比的改进分析
仿真实验对收益矩阵的收益因子和IDS3相关的策略差异比进行 了相关的调整以及实验数据的比较。
如图8所示为在不同的策略差异比下IDS的累计平均奖励的示意 图,从图8中可以看出,策略差异比对IDS的平均累计奖励有很大的 影响,当IDS3的检测资源库与IDS6的检测库相似度越高(即,策略 差异比越低),那么IDS获得的累计平均奖励越多。在本发明实施例所 提的方法中,IDS3的奖励在d=0.2的情况下比d=0.4、d=0.6的情况下 分别提升了18%和43%。
如图9所示为在不同的收益因子下IDS的累计平均奖励的示意 图,从图9中可以得到,当IDS6共享的收益矩阵的收益因子
Figure BDA0002093442220000231
越大, IDS获得的累计平均奖励就越多。然而,即使
Figure BDA0002093442220000232
在文中所提的方 法下IDS的奖励依旧优于其他方法。然后,该实验比较IDS3在不同 的收益因子
Figure BDA0002093442220000233
和策略差异比d中能加载的检测资源库数目。
如图10所示为IDS3能够加载资源库的平均数目的示意图,从图 10中可以看出,所提的方法中的策略差异比越低或收益因子越大, IDS3能够加载检测库数目也就越多。因此,本发明实施例提出的基于 分布式共享策略的方案的有效性又一次得到了证明。
五、关于检测概率的改进分析
仿真实验考虑了NASH-Q学习算法中IDS对攻击库的检测率(即, τ1和τ2)的影响情况。因此,本次实验改动了入侵网络中所有IDS的τ1和 τ2,但是IDS的其他参数和第一部分的IDS参数配置完全一致。
如图11为IDS在不同τ1和τ2的情况下的奖励提升率的示意图,从 图11中可以看出,本文所提的方法的性能随着τ2的增加而增加,但是 随着τ2的增加,所提方法的性能增加的速率却越来越慢。对于这种情 况,本文认为可以理解为,当IDS检测到不匹配的攻击时,随着τ2的 增加,IDS之间共享策略的协作关系的需要会越来越小。因此,在这 次的仿真实验中也说明了本发明实施例所提出基于分布式共享策略的 协作方案的有效性。
六、基于多个IDS的性能分析
仿真实验将会考虑入侵检测网络中有18个IDS的情况,其中 IDS1、IDS2和IDS3都同时面临1种攻击,IDS4、IDS5和IDS6都同 时面临3种攻击,IDS7、IDS8和IDS9都同时面临5种攻击, IDS10—IDS18分别作为IDS1—IDS9的策略共享者。除此之外,IDS1、 IDS2和IDS3的其他参数配置和第一部分实验中IDS1的参数配置一 致,IDS4、IDS5和IDS6的其他参数和第二部分实验中IDS1的参数 配置一致,IDS7、IDS8和IDS9的其他参数配置和第一部分实验中的 IDS3参数配置一致。
如图12为IDS的累计平均奖励的示意图,从图12中可以看出, 本发明实施例提出的方法(用“分布式共享”表示)比传统的基于分布 式激励机制的协作方法(用“分布式激励”表示)提升了55%,与“随 机分配”和“非协作”相比分别提升了80%和175%。最后,可以观 察到,本发明实施例提出的方法无论是在拥有少数的IDS的入侵检测 网络中还是拥有多数IDS的入侵检测网络中,都是优于其他三种方法 的。同时,这次仿真实验进一步说明了本文所提出的基于共享策略的 双层协作方案的有效性。
模拟结果与分析表明,本发明实施例所提供的方法无论是与非协 作方法相比还是与纯粹的分布式激励方法相比,该方法提高了性能且 实现高效的资源分配。
图13为本发明实施例提供的一种IDS资源配置装置的结构示意 图,目标节点包括确定单元21、接收单元22、构建单元23、分配单 元24和作为单元25;
确定单元21,用于根据攻击者的攻击策略,确定出应对策略;其 中,目标节点为IDN架构中所有节点中的任意一个IDS节点;
接收单元22,用于将应对策略传输至相邻节点,并接收相邻节点 向其反馈的奖励值、差异比和成本值;
构建单元23,用于目标节点根据预先设定的收益因子以及相邻节 点向其反馈的奖励值、差异比和成本值,构建收益矩阵;
分配单元24,用于目标节点根据所有节点各自对应的收益矩阵, 向所有节点分配相应的第一资源;其中,各节点有其对应的初始资源 总数;目标节点向其自身分配的资源为基本资源;
作为单元25,用于目标节点接收其它节点向其分配的第二资源; 并将基本资源以及第二资源作为执行应对策略的运行资源。
可选的,还包括接收单元;
接收单元,用于接收相邻节点传输的共享策略,并向相邻节点反 馈奖励值、差异比和成本值。
可选的,确定单元包括转换子单元、更新子单元和作为子单元;
转换子单元,用于在目标节点受到攻击时,根据攻击者的攻击策 略,转换自身的状态;
更新子单元,用于在状态转换之后,利用NASH-Q算法更新自身 的质量函数、价值函数、虚拟质量函数和虚拟价值函数;
作为子单元,用于当t+1∈Ti时,将相邻节点传输的共享策略作为 应对策略;当
Figure BDA0002093442220000251
时,根据如下公式,得到应对策略,
Figure BDA0002093442220000252
其中,ai表示攻击策略的类型,
Figure BDA0002093442220000253
表示在状态为s且动作 为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure BDA0002093442220000261
表示在状态 为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值。
可选的,更新子单元具体用于按照如下公式,更新自身的质量函 数、价值函数、虚拟质量函数和虚拟价值函数,
Figure BDA0002093442220000262
Figure BDA0002093442220000263
Figure BDA0002093442220000264
Figure BDA0002093442220000265
其中,αt为NASH-Q算法的学习因子;β表示NASH-Q算法的折 扣因子;rt IDS表示目标节点在时间点t获得的奖励值,并且rt IDS=RIDS
Figure BDA0002093442220000266
表示为攻击者获得的奖励值;
Figure BDA0002093442220000267
表示在状态为s且动作 为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure BDA0002093442220000268
表示在状态 为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值;
Figure BDA0002093442220000269
表示在 状态为s且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值; Vt IDS(s′)表示在状态为s′且在等价于单人阶段博弈的纳什均衡中目标节 点的奖励值;
Figure BDA00020934422200002610
表示在状态为s且在等价于单人阶段博弈的纳什均 衡中攻击者的奖励值;
Figure BDA00020934422200002611
表示在状态为s′且在等价于单人阶段博弈 的纳什均衡中攻击者的奖励值。
可选的,分配单元包括初始子单元、构建子单元、转化子单元和 优化子单元;
初始子单元,用于根据所有节点各自对应的收益矩阵,向所有节 点分配相应的初始资源;
构建子单元,用于根据所有节点向其分配的初始资源,构建奖励 函数;
转化子单元,用于利用拉格朗日松弛算法,将奖励函数转化为以 奖励值最大化为目标的拉格朗日函数;
优化子单元,用于利用对偶迭代算法,计算拉格朗日函数在约束 条件下的最优解;其中,最优解包含目标节点向所有节点分配的资源 数目。
图13所对应实施例中特征的说明可以参见图1所对应实施例的相关说 明,这里不再一一赘述。
由上述技术方案可以看出,目标节点根据攻击者的攻击策略以及 自身的初始策略库,确定出应对策略;其中,目标节点为IDN架构中 所有节点中的任意一个IDS节点;目标节点将应对策略传输至相邻节 点,并接收相邻节点向其反馈的奖励值、差异比和成本值。节点之间 通过策略共享,可以使各节点检测到更多类型的攻击者,提升了系统 的安全性。目标节点根据预先设定的收益因子以及相邻节点向其反馈 的奖励值、差异比和成本值,构建收益矩阵;目标节点根据所有节点 各自对应的收益矩阵,向所有节点分配相应的第一资源;其中,各节 点有其对应的初始资源总数;目标节点向其自身分配的资源为基本资 源。目标节点接收其它节点向其分配的第二资源;并将基本资源以及 第二资源作为执行应对策略的运行资源。在资源分配时,IDN架构中 所有节点都作为资源提供者,在每一轮资源分配中由未进行资源分配 的一个节点向所有节点分配资源,IDS之间通过协作实现高效的资源 分配,从而保证各IDS拥有足够的资源来检测更多的攻击者。
图14为本发明实施例提供的一种IDS资源配置装置30的硬件结 构示意图,包括:
存储器31,用于存储计算机程序;
处理器32,用于执行计算机程序以实现如上述IDS资源配置方法 的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存 储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述 IDS资源配置方法的步骤。
以上对本发明实施例所提供的一种IDS资源配置方法、装置和计 算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的 方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各 个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而 言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关 之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术 人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干 改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述 的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者 的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明 中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟 以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束 条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所 描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接 用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块 可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程 ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims (9)

1.一种IDS资源配置方法,其特征在于,包括:
目标节点根据攻击者的攻击策略以及自身的初始策略库,确定出应对策略;其中,所述目标节点为IDN架构中所有节点中的任意一个IDS节点;
所述目标节点将所述应对策略传输至相邻节点,并接收所述相邻节点向其反馈的奖励值、差异比和成本值;差异比表示节点之间检测资源策略的差异性;
所述目标节点根据预先设定的收益因子以及所述相邻节点向其反馈的奖励值、差异比和成本值,构建收益矩阵;
所述目标节点根据所有节点各自对应的收益矩阵,向所有节点分配相应的第一资源;其中,各节点有其对应的初始资源总数;所述目标节点向其自身分配的资源为基本资源;
所述目标节点接收其它节点向其分配的第二资源;并将所述基本资源以及所述第二资源作为执行所述应对策略的运行资源;
IDSi和IDSj(j≠i)为两个节点,当IDSi接收到IDSj的应对策略之后,IDSi当前的检测资源策略会受到相应的影响,把IDSi的影响通过三种反应状态表示出来,分别为S1、S2和S3;其中,S1表示IDSi在策略改变时间段Ti改变策略且采取和IDSj一样检测资源策略;S2表示IDSi在策略改变时间段Ti改变策略但采取和IDSj不一样检测资源策略;S3表示IDSi在策略改变时间段Ti不改变当前策略;
(1)当IDSj检测正常数据集合a1时,IDSj的收益矩阵P1如下:
Figure FDA0003259324200000011
(2)当IDSj检测可疑数据集合a2时,IDSj的收益矩阵P2如下:
Figure FDA0003259324200000012
(3)当IDSj检测异常数据集合a3时,IDSj的收益矩阵P3如下:
Figure FDA0003259324200000013
其中,
Figure FDA0003259324200000021
为IDSj的收益矩阵中的收益因子,
Figure FDA0003259324200000022
为收益矩阵中的亏损因子,收益矩阵中的b为IDSj未影响IDSi改变防御策略之前获得的奖励值,收益矩阵中的d为IDSi的检测资源策略相对于IDSj而言的差异比,z则为IDSi改变为所需防御策略的成本值;
所述目标节点根据所有节点各自对应的收益矩阵,向所有节点分配相应的第一资源包括:
所述目标节点根据所有节点各自对应的收益矩阵,向所有节点分配相应的初始资源;
所述目标节点根据所有节点向其分配的初始资源,构建奖励函数;
所述目标节点利用拉格朗日松弛算法,将所述奖励函数转化为以奖励值最大化为目标的拉格朗日函数;
所述目标节点利用对偶迭代算法,计算所述拉格朗日函数在约束条件下的最优解;其中,所述最优解包含所述目标节点向所有节点分配的资源数目。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述目标节点接收相邻节点传输的共享策略,并向所述相邻节点反馈奖励值、差异比和成本值。
3.根据权利要求2所述的方法,其特征在于,所述目标节点根据攻击者的攻击策略以及自身的初始策略库,确定出应对策略包括:
所述目标节点受到攻击时,根据攻击者的攻击策略以及自身的初始策略库,转换自身的状态;
所述目标节点在状态转换之后,利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数;
当t+1∈Ti时,所述目标节点将所述相邻节点传输的共享策略作为应对策略;当
Figure FDA0003259324200000023
时,所述目标节点根据如下公式,得到应对策略,
Figure FDA0003259324200000024
其中,Ti表示目标节点更新策略的时间段;ai表示攻击策略的类型,
Figure FDA0003259324200000025
表示在状态为s且动作为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure FDA0003259324200000026
表示在状态为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值。
4.根据权利要求3所述的方法,其特征在于,所述目标节点在状态转换之后,利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数包括:
所述目标节点按照如下公式,更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数,
Figure FDA0003259324200000031
Figure FDA0003259324200000032
Figure FDA0003259324200000033
Figure FDA0003259324200000034
其中,αt为NASH-Q算法的学习因子;β表示NASH-Q算法的折扣因子;
Figure FDA0003259324200000035
表示目标节点在时间点t获得的奖励值,并且
Figure FDA0003259324200000036
Figure FDA0003259324200000037
表示为攻击者获得的奖励值;
Figure FDA0003259324200000038
表示在状态为s且动作为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure FDA0003259324200000039
表示在状态为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值;
Figure FDA00032593242000000310
表示在状态为s且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值;
Figure FDA00032593242000000311
表示在状态为s′且在等价于单人阶段博弈的纳什均衡中目标节点的奖励值;
Figure FDA00032593242000000312
表示在状态为s且在等价于单人阶段博弈的纳什均衡中攻击者的奖励值;
Figure FDA00032593242000000313
表示在状态为s′且在等价于单人阶段博弈的纳什均衡中攻击者的奖励值;ln表示目标节点受到攻击者攻击的状态为s′时对应的检测资源集、γn表示目标节点受到攻击者攻击的状态为s′时对应的攻击数据。
5.一种IDS资源配置装置,其特征在于,目标节点包括确定单元、接收单元、构建单元、分配单元和作为单元;
所述确定单元,用于根据攻击者的攻击策略,确定出应对策略;其中,所述目标节点为IDN架构中所有节点中的任意一个IDS节点;
所述接收单元,用于将所述应对策略传输至相邻节点,并接收所述相邻节点向其反馈的奖励值、差异比和成本值;差异比表示节点之间检测资源策略的差异性;
所述构建单元,用于目标节点根据预先设定的收益因子以及所述相邻节点向其反馈的奖励值、差异比和成本值,构建收益矩阵;
所述分配单元,用于目标节点根据所有节点各自对应的收益矩阵,向所有节点分配相应的第一资源;其中,各节点有其对应的初始资源总数;所述目标节点向其自身分配的资源为基本资源;
所述作为单元,用于目标节点接收其它节点向其分配的第二资源;并将所述基本资源以及所述第二资源作为执行所述应对策略的运行资源;
IDSi和IDSj(j≠i)为两个节点,当IDSi接收到IDSj的应对策略之后,IDSi当前的检测资源策略会受到相应的影响,把IDSi的影响通过三种反应状态表示出来,分别为S1、S2和S3;其中,S1表示IDSi在策略改变时间段Ti改变策略且采取和IDSj一样检测资源策略;S2表示IDSi在策略改变时间段Ti改变策略但采取和IDSj不一样检测资源策略;S3表示IDSi在策略改变时间段Ti不改变当前策略;
(1)当IDSj检测正常数据集合a1时,IDSj的收益矩阵P1如下:
Figure FDA0003259324200000041
(2)当IDSj检测可疑数据集合a2时,IDSj的收益矩阵P2如下:
Figure FDA0003259324200000042
(3)当IDSj检测异常数据集合a3时,IDSj的收益矩阵P3如下:
Figure FDA0003259324200000043
其中,
Figure FDA0003259324200000044
为IDSj的收益矩阵中的收益因子,
Figure FDA0003259324200000045
为收益矩阵中的亏损因子,收益矩阵中的b为IDSj未影响IDSi改变防御策略之前获得的奖励值,收益矩阵中的d为IDSi的检测资源策略相对于IDSj而言的差异比,z则为IDSi改变为所需防御策略的成本值;
目标节点根据所有节点各自对应的收益矩阵,向所有节点分配相应的初始资源;目标节点根据所有节点向其分配的初始资源,构建奖励函数;采用拉格朗日松弛算法,将奖励函数转化为以奖励值最大化为目标的拉格朗日函数;利用对偶迭代算法,计算拉格朗日函数在约束条件下的最优解;其中,最优解包含目标节点向所有节点分配的资源数目。
6.根据权利要求5所述的装置,其特征在于,还包括接收单元;
所述接收单元,用于接收相邻节点传输的共享策略,并向所述相邻节点反馈奖励值、差异比和成本值。
7.根据权利要求6所述的装置,其特征在于,所述确定单元包括转换子单元、更新子单元和作为子单元;
所述转换子单元,用于在目标节点受到攻击时,根据攻击者的攻击策略,转换自身的状态;
所述更新子单元,用于在状态转换之后,利用NASH-Q算法更新自身的质量函数、价值函数、虚拟质量函数和虚拟价值函数;
所述作为子单元,用于当t+1∈Ti时,将所述相邻节点传输的共享策略作为应对策略;当
Figure FDA0003259324200000054
时,根据如下公式,得到应对策略,
Figure FDA0003259324200000051
其中,Ti表示目标节点更新策略的时间段,ai表示攻击策略的类型,
Figure FDA0003259324200000052
表示在状态为s且动作为(l,γ)的情况下目标节点的总期望折扣奖励值;
Figure FDA0003259324200000053
表示在状态为s且动作为(l,γ)的情况下攻击者的总期望折扣奖励值。
8.一种IDS资源配置装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至4任意一项所述IDS资源配置方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述IDS资源配置方法的步骤。
CN201910510823.1A 2019-06-13 2019-06-13 一种ids资源配置方法、装置和计算机可读存储介质 Active CN110381020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910510823.1A CN110381020B (zh) 2019-06-13 2019-06-13 一种ids资源配置方法、装置和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910510823.1A CN110381020B (zh) 2019-06-13 2019-06-13 一种ids资源配置方法、装置和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110381020A CN110381020A (zh) 2019-10-25
CN110381020B true CN110381020B (zh) 2021-10-29

Family

ID=68250272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910510823.1A Active CN110381020B (zh) 2019-06-13 2019-06-13 一种ids资源配置方法、装置和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110381020B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114584394B (zh) * 2022-03-31 2023-09-22 中国海洋大学 一种网络资源分配方法、系统、装置及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101882884B1 (ko) * 2014-03-05 2018-07-27 후아웨이 테크놀러지 컴퍼니 리미티드 커스터마이즈드 5세대 (5g) 네트워크를 위한 시스템 및 방법
CN104640141B (zh) * 2015-01-30 2018-05-18 南京邮电大学 一种多中继节点合作博弈的激励方法
CN106953879A (zh) * 2017-05-12 2017-07-14 中国人民解放军信息工程大学 最优反应动态演化博弈模型的网络防御策略选取方法

Also Published As

Publication number Publication date
CN110381020A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
US10924363B2 (en) Method and system for secure resource management utilizing blockchain and smart contracts
CN107135224B (zh) 基于Markov演化博弈的网络防御策略选取方法及其装置
CN101420442B (zh) 基于博弈理论的网络安全风险评估系统
Yu et al. Attack-resistant cooperation stimulation in autonomous ad hoc networks
Chang et al. Uncle-block attack: Blockchain mining threat beyond block withholding for rational and uncooperative miners
Connell et al. Performance modeling of moving target defenses
Rasouli et al. A supervisory control approach to dynamic cyber-security
CN104618908B (zh) 分布式认知无线网络对抗篡改感知数据攻击的方法和装置
CN110602062B (zh) 基于强化学习的网络主动防御方法及装置
Shen et al. Security in edge-assisted Internet of Things: challenges and solutions
CN110381020B (zh) 一种ids资源配置方法、装置和计算机可读存储介质
Lamba Enhancing awareness of cyber-security and cloud computing using principles of game theory
Bellini et al. Cyber Resilience in IoT network: Methodology and example of assessment through epidemic spreading approach
CN115348073A (zh) 一种基于博弈论的DDoS攻击下CPPS防御策略决策方法
Li et al. On dynamic recovery of cloud storage system under advanced persistent threats
Yadav et al. SmartPatch: A patch prioritization framework
CN106789322B (zh) 空间信息网络中关键节点的确定方法和装置
Li et al. Security management based on trust determination in cognitive radio networks
Manocha et al. Improved spider monkey optimization‐based multi‐objective software‐defined networking routing with block chain technology for Internet of Things security
Li et al. A survey of state-of-the-art sharding blockchains: Models, components, and attack surfaces
Albaseer et al. Privacy-preserving honeypot-based detector in smart grid networks: A new design for quality-assurance and fair incentives federated learning framework
Lotem et al. Sliding window challenge process for congestion detection
Rana et al. Free2shard: Adversary-resistant distributed resource allocation for blockchains
Jin et al. Collaborative IDS configuration: A two-layer game-theoretic approach
Khan et al. Resource Allocation in Networking and Computing Systems: A Security and Dependability Perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant