CN110659492B - 一种基于多智能体强化学习的恶意软件检测方法及装置 - Google Patents

一种基于多智能体强化学习的恶意软件检测方法及装置 Download PDF

Info

Publication number
CN110659492B
CN110659492B CN201910905213.1A CN201910905213A CN110659492B CN 110659492 B CN110659492 B CN 110659492B CN 201910905213 A CN201910905213 A CN 201910905213A CN 110659492 B CN110659492 B CN 110659492B
Authority
CN
China
Prior art keywords
agent
detection
reward
punishment
malicious software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910905213.1A
Other languages
English (en)
Other versions
CN110659492A (zh
Inventor
刘滨翔
赵刚
孙若莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN201910905213.1A priority Critical patent/CN110659492B/zh
Publication of CN110659492A publication Critical patent/CN110659492A/zh
Application granted granted Critical
Publication of CN110659492B publication Critical patent/CN110659492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Virology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Stored Programmes (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供了一种基于多智能体强化学习的恶意软件检测方法及装置,其中方法包括:S1对恶意软件样本进行提取PE特征的操作;S2检测智能体对PE特征进行检测,如果检测结果为恶意则执行S3,如果检测结果为良性则执行S5;S3操作智能体对恶意软件进行变体操作;S4将经过变体操作的恶意软件变体作为恶意软件样本,返回执行S1;S5判断检测智能体是否成功检测出恶意软件,如果未成功检测出恶意软件,则对检测智能体进行惩罚操作,对操作智能体进行奖励操作;如果成功检测出恶意软件,则对检测智能体进行奖励操作,对操作智能体进行惩罚操作;S6如果训练结束,收敛模型,存储检测智能体的检测策略以及操作智能体的操作策略。

Description

一种基于多智能体强化学习的恶意软件检测方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于多智能体强化学习的恶意软件检测方法及装置。
背景技术
恶意软件是指在未明确提示用户或未经用户许可的情况下,在用户计算机或其它终端上安装运行,侵犯用户合法权益的软件。由于恶意软件数量及其变体的不断增长,恶意软件检测技术越来越受到关注。
现有的基于强化学习的恶意软件检测方法提高检测能力的方式是将恶意标签加入到已经成功逃避恶意软件的变体中,再训练模型最终达到提高检测率的效果,这需要对检测器的输入进行大量工作。现有的基于强化学习的恶意软件检测方法以对成功逃避检测器的恶意软件变体加入恶意标签再训练的形式来提高恶意软件检测器没有从根本上提高检测器的检测能力,检测能力较为片面,治标不治本,针对复杂多变的恶意软件变体的检测,单智能体系统的决策能力不足。
发明内容
本发明旨在提供一种克服上述问题或者至少部分地解决上述问题的基于多智能体强化学习的恶意软件检测方法及装置。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明的一个方面提供了一种基于多智能体强化学习的恶意软件检测方法,包括:S1,对恶意软件样本进行提取PE特征的操作;S2,检测智能体对PE特征进行检测,如果检测结果为恶意,则执行S3,如果检测结果为良性,则执行S5;S3,操作智能体对恶意软件进行变体操作;S4,将经过变体操作的恶意软件变体作为恶意软件样本,返回执行S1;S5,判断检测智能体是否成功检测出恶意软件,如果检测智能体未成功检测出恶意软件,则对检测智能体进行惩罚操作,对操作智能体进行奖励操作;如果检测智能体成功检测出恶意软件,则对检测智能体进行奖励操作,对操作智能体进行惩罚操作;S6,判断训练是否结束,如果训练结束,模型收敛,存储检测智能体的检测策略以及操作智能体的操作策略。
其中,对检测智能体进行惩罚操作,对操作智能体进行奖励操作包括:对检测智能体进行-1的惩罚操作,对操作智能体进行+1的奖励操作;对检测智能体进行奖励操作,对操作智能体进行惩罚操作包括:对检测智能体进行+1的奖励操作,对操作智能体进行-1的惩罚操作。
其中,存储检测智能体的检测策略以及操作智能体的操作策略之前,方法还包括:确定检测智能体的奖惩结果以及操作智能体的奖惩结果符合预设比例。
其中,检测智能体对PE特征进行检测包括:检测智能体利用行动者评论家算法进行强化学习,对PE特征进行检测。
其中,对恶意软件样本进行提取PE特征的操作包括:通过OpenAI-Gym的LIEF库,解析PE文件;根据解析出的PE文件提取PE特征。
本发明另一方面提供了一种基于多智能体强化学习的恶意软件检测装置,包括:提取模块,用于对恶意软件样本进行提取PE特征的操作;检测智能体模块,用于对PE特征进行检测,如果检测结果为恶意,则通知操作智能体,如果检测结果为良性,则通知奖惩模块;操作智能体模块,用于对恶意软件进行变体操作,将经过变体操作的恶意软件变体作为恶意软件样本,通知提取模块;奖惩模块,用于判断检测智能体是否成功检测出恶意软件,如果检测智能体未成功检测出恶意软件,则对检测智能体进行惩罚操作,对操作智能体进行奖励操作;如果检测智能体成功检测出恶意软件,则对检测智能体进行奖励操作,对操作智能体进行惩罚操作;存储模块,用于判断训练是否结束,如果训练结束,模型收敛,存储检测智能体的检测策略以及操作智能体的操作策略。
其中,奖惩模块通过如下方式对检测智能体进行惩罚操作,对操作智能体进行奖励操作:奖惩模块,具体用于对检测智能体进行-1的惩罚操作,对操作智能体进行+1的奖励操作;奖惩模块通过如下方式对检测智能体进行奖励操作,对操作智能体进行惩罚操作:奖惩模块,具体用于对检测智能体进行+1的奖励操作,对操作智能体进行-1的惩罚操作。
其中,存储模块,还用于在存储检测智能体的检测策略以及操作智能体的操作策略之前,确定检测智能体的奖惩结果以及操作智能体的奖惩结果符合预设比例。
其中,检测智能体模块通过如下方式对PE特征进行检测:检测智能体,具体用于将PE特征送入检测智能体,检测智能体利用行动者评论家算法进行强化学习,对PE特征进行检测。
其中,提取模块通过如下方式对恶意软件样本进行特征提取,提取PE特征:提取模块,具体用于通过OpenAI-Gym的LIEF库,解析PE文件;根据解析出的PE文件提取PE特征。
由此可见,通过本发明提供的基于多智能体强化学习的恶意软件检测方法及装置,从检测器自身出发,将强化学习应用到恶意软件的检测中,在不断与恶意软件变体的交互中收敛判断策略,从而解决判别器不能自动优化的问题。同时,将判别器(检测智能体)与恶意软件变体生成器(操作智能体)之间是设定合作与竞争关系,将强化学习检测器代替现有的机器学习检测器,并与生成器之前采取奖惩机制建立合作竞争关系,解决单智能体系统决策能力不足的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于多智能体强化学习的恶意软件检测方法的流程图;
图2为本发明实施例提供的强化学习的基本框架图;
图3为本发明实施例提供的分布式强化学习多智能体协调模型;
图4为本发明实施例提供的多智能体恶意软件检测模型的示意图;
图5为本发明实施例提供的基于多智能体强化学习的恶意软件检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明的核心在于:
1)本发明提出采用强化学习模型来作为恶意软件判别器(检测智能体):在进行恶意软件判别过程中,若判别成功则给予奖励,判别失败给予惩罚,最终收敛策略使得奖励最大化。
2)本发明提出多智能体强化学习恶意软件模型(检测智能体和操作智能体):首先将PE特征喂入强化学习判别器,判别结果为恶意(逃避失败)则对恶意软件进行强化学习恶意软件变体操作,再将经过变体操作的恶意软件变体再次喂入强化学习判别器直至结果为良性(逃避成功)。
3)本发明提出使用采用奖惩机制建立智能体之间的合作竞争关系:若判别成功,检测智能体得到奖励,操作智能体给予惩罚,以动态调整奖惩的方式寻找智能体之间的最佳组合系数,并应用于恶意软件检测技术过程中,从而实现多智能体合作竞争的恶意软件检测。
图1示出了本发明实施例提供的基于多智能体强化学习的恶意软件检测方法的流程图,参见图1,本发明实施例提供的基于多智能体强化学习的恶意软件检测方法,包括:
S1,对恶意软件样本进行提取PE特征的操作。
具体地,可以先获取恶意软件样本。恶意软件样本可以是预先收集的恶意软件初始样本,也可以是收集得到的恶意软件变体(Windows PE)。
作为本发明实施例的一个可选实施方式,对恶意软件样本进行提取PE特征的操作包括:通过OpenAI-Gym的LIEF库,解析PE文件;根据解析出的PE文件提取PE特征。
对恶意软件样本的特征提取是实现恶意软件检测的前期基础,是生成恶意软件变体与提高恶意软件检测智能体检测能力的重要技术支持,通过OpenAI-Gym的LIEF库,解析PE文件,并根据解析出的PE文件进行脚本编写,从而提取PE特征。这样便可以将提取好的PE特征进行下一步解析,进行恶意软件检测工作。
S2,检测智能体对PE特征进行检测,如果检测结果为恶意,则执行S3,如果检测结果为良性,则执行S5。
具体地,本发明采用强化学习模型来作为恶意软件判别器(检测智能体)。
强化学习(RL)采用了人类和动物学习中的“尝试与失败”机制,强调在与环境的交互中学习,利用评价性的反馈信号实现决策的优化。由于强化学习在学习过程中不需要给定各种状态下的教师信号,因此其在求解复杂的优化决策问题方面有着广泛的应用前景。强化学习的过程是一个试探与评价的过程。在强化学习中,智能体在环境s下选择并执行一个动作a,环境接受动作后变为s′,并把一个奖赏信号r反馈给智能体,智能体再根据奖赏信号选择后续动作。强化学习的基本框架如图2所示。
强化学习可以分为基于值函数的强化学习和基于策略的强化学习。在基于值函数的强化学习中,最常用的学习算法为Q学习算法,其迭代公式如下:
Figure BDA0002213074760000042
其中,Q(st,at)为t时刻的状态-动作值。r为奖赏值,α为学习率,γ为折扣因子。
在基于策略的强化学习中,最常用的是策略梯度算法。其参数更新的基本形式如下:
Figure BDA0002213074760000041
其中,θ为动作选择参数,α为学习率,πθ(st,at)为t时刻的动作选择策略,而vt为该策略的评价值。
结合基于值函数的算法和基于策略函数的算法,可以得到一种新的强化学习算法——行动者评论家(Actor-Critic,AC)算法。在行动者-评论家算法中,行动者(Actor)基于策略选择函数,根据状态选择策略;而评论家(Critic)对Actor当前的策略进行评价,并指导Actor进行策略的改进。AC算法能够结合多种不同的值函数方法和直接策略选择方法,具有比传统的基于策略函数的强化学习算法更快的收敛速度。
作为本发明实施例的一个可选实施方式,检测智能体对PE特征进行检测包括:检测智能体利用行动者评论家算法进行强化学习,对PE特征进行检测。
S3,操作智能体对恶意软件进行变体操作;
S4,将经过变体操作的恶意软件变体作为恶意软件样本,返回执行S1。
具体地,对恶意软件进行变体操作是提高恶意软件检测能力的核心,进行恶意软件变体操作生成恶意软件变体,通过强化学习,得到能逃避恶意软件检测器(检测智能体)的最佳变体操作组合策略,以相应策略对初始恶意软件进行变体操作,生成恶意软件变体以逃避恶意软件检测器(检测智能体)检测。
S5,判断检测智能体是否成功检测出恶意软件,如果检测智能体未成功检测出恶意软件,则对检测智能体进行惩罚操作,对操作智能体进行奖励操作;如果检测智能体成功检测出恶意软件,则对检测智能体进行奖励操作,对操作智能体进行惩罚操作。
具体地,进行恶意软件检测是恶意软件检测的“中转站”与“终点站”,将软件区分为良性或恶意,再通过多智能体强化学习动态调整奖惩机制以收敛检测器与生成器的竞争合作策略,最终以提高恶意软件检测智能体的检测能力。
作为本发明实施例的一个可选实施方式,对检测智能体进行惩罚操作,对操作智能体进行奖励操作包括:对检测智能体进行-1的惩罚操作,对操作智能体进行+1的奖励操作。对检测智能体进行奖励操作,对操作智能体进行惩罚操作包括:对检测智能体进行+1的奖励操作,对操作智能体进行-1的惩罚操作。
S6,判断训练是否结束,如果训练结束,模型收敛,存储检测智能体的检测策略以及操作智能体的操作策略。
作为本发明实施例的一个可选实施方式,存储检测智能体的检测策略以及操作智能体的操作策略之前,本发明实施例提供的基于多智能体强化学习的恶意软件检测方法还包括:确定检测智能体的奖惩结果以及操作智能体的奖惩结果符合预设比例。具体地,通过确定检测智能体的奖惩结果以及操作智能体的奖惩结果符合预设比例,可以确保检测智能体的奖惩结果以及操作智能体的奖惩结果能够以最优的组合方式进行恶意软件的检测和对恶意软件进行变体操作。检测智能体已经得出相对稳定的检测策略能够尽可能正确的分辨软件是否恶意,操作智能体得出相对稳定的操作策略能够以最优的操作组合方式对恶意软件进行变体操作,检测智能体与操作智能体的奖惩关系稳定在一个竞争合作比例。此时模型将以最优的策略应对新的恶意软件样本,从而提高检测效率。
具体地,多智能体系统(multi-agent system,MAS)是由在一个环境中交互的多个智能体组成的计算系统。多智能体系统的研究重点在于结合实际应用系统,对于其协作环境进行分析,设计合理有效的协作模型,通过智能体之间的协调来完成复杂的任务和解决复杂的问题。多智能体协调主要是基于分布式环境下智能体的学习能力,将复杂的任务进行分解,分别利用中央强化学习进行子任务的协调和独立强化学习选择有效的行为。分布式强化学习多智能体协调模型如图3所示。
协调级首先把系统的全局任务分解成若干子任务,协调智能体根据环境状态,选择相应策略来分配子任务给任务智能体。协调智能体的更新规则为:
Figure BDA0002213074760000061
其中,s表示当前的环境状态,p表示协调智能体在状态s下所选择的策略,rp表示协调智能体得到的强化信号,s′表示新的环境状态,αp为协调智能体的学习率,β为衰减率(折扣因子)。
行为级中的任务拥有一个共同的行为集。每个任务智能体被分配一个子任务。不同的子任务对应着任务智能体不同的行为子集。每个任务智能体分别通过独立强化学习,按照各自子任务来选择相应的行为并执行到环境中。任务智能体更新规则:
Figure BDA0002213074760000062
其中,s表示当前的环境状态,ak表示任务智能体k在状态s下选择的动作,rk表示任务智能体k得到的强化信号,s′表示新的环境状态,αk为任务智能体的学习率,β为衰减率(折扣因子)。
在分配任务时,将从环境反馈回来的强化信息,按某一种分配方式来分配给MAS中的所有智能体。协调智能体完成策略制定,目标是完成总任务,同时也负责各子任务智能体任务分配。子任务智能体之间通过相互协作来完成协调智能体下达的策略。
由此可见,利用本发明实施例提供的基于多智能体强化学习的恶意软件检测方法,从检测器自身出发,将强化学习应用到恶意软件的检测中,在不断与恶意软件变体的交互中收敛判断策略,从而解决判别器不能自动优化的问题。同时,将判别器(检测智能体)与恶意软件变体生成器(操作智能体)之间是设定合作与竞争关系,将强化学习检测器代替现有的机器学习检测器,并与生成器之前采取奖惩机制建立合作竞争关系,解决单智能体系统决策能力不足的问题。
以下,通过图4所示的本发明实施例提供的多智能体恶意软件检测模型的示意图,对本发明实施例提供的多智能体恶意软件检测模型进行说明:
恶意软件检测模型可以分为以下四个部分实现:
1、特征提取:该部分是实现恶意软件检测的前期基础,是生成恶意软件变体与提高恶意软件检测智能体检测能力的重要技术支持。通过OpenAI-Gym的LIEF库,解析PE文件并提取PE特征。这样便可以将提取好的PE特征进行下一步解析,进行恶意软件检测工作。
2、恶意软件变体:该部分是提高恶意软件检测能力的核心部分,即进行恶意软件变体操作生成恶意软件变体。通过强化学习,得到能逃避恶意软件检测器的最佳变体操作组合策略,以相应策略对初始恶意软件进行变体操作,生成恶意软件变体以逃避恶意软件检测器检测。
3、恶意软件检测:该部分是恶意软件检测的“中转站”与“终点站”,即进行恶意软件检测,将软件区分为良性或恶意,再通过多智能体强化学习动态调整奖惩机制以收敛检测器与生成器的竞争合作策略,最终以提高恶意软件检测智能体的检测能力。
具体地,本发明提出的多智能体强化学习恶意软件检测模型,首先从恶意软件样本中通过OpenAI-Gym中的LIEF库提取PE特征,再将提取出来的PE特征喂入强化学习恶意软件检测模型(检测智能体)进行检测,如果检测结果为恶意软件(逃避失败),则将恶意软件样本喂入强化学习变体操作模型(操作智能体)进行变体操作,得到恶意软件变体之后再次进行特征提取并喂入强化学习恶意软件检测模型(检测智能体)中进行检测,直至检测结果为良性(逃避成功)。如果检测结果为良性,则对两个智能体进行动态奖惩调整,如:当检测智能体没能够成功检测出恶意软件,则奖励为-1,操作智能体由于对恶意软件进行变体操作后成功欺骗检测智能体做出了错误的判断,给予+1的奖励。在整个训练结束之后,模型将收敛,即:检测智能体已经得出相对稳定的检测策略能够尽可能正确的分辨软件是否恶意,操作智能体得出相对稳定的操作策略能够以最优的操作组合方式对恶意软件进行变体操作,检测智能体与操作智能体的奖惩关系稳定在一个竞争合作比例。此时模型将以最优的策略应对新的恶意软件样本,从而提高检测效率。
可见,本发明采用强化学习模型来作为恶意软件判别器(检测智能体):在进行恶意软件判别过程中,若判别成功则给予奖励,判别失败给予惩罚,最终收敛策略使得奖励最大化以提高检测效果。利用多智能体强化学习恶意软件检测模型(第一部分为恶意软件检测环境与恶意软件检测智能体所组成的强化学习检测模型;第二部分为恶意软件变体操作环境与恶意软件变体操作智能体所组成的强化学习变体操作模型),且将强化学习多智能体协作模型与强化学习恶意软件检测模型进行了结合。
由此可见,利用本发明实施例提供的多智能体强化学习恶意软件检测方法和多智能体强化学习恶意软件检测模型,具有如下效果:
1、减少了对恶意软件检测器的维护工作:结合多智能体协作强化学习,将强化学习模型作为检测器,通过多智能体间的竞争合作策略,减少了对恶意软件检测器的后期维护工作。
2、实现了恶意软件的动态检测方式:通过对检测智能体与操作智能体进行动态奖惩调整,得到智能体间的竞争合作策略,动态提升两个智能体的能力,对恶意软件进行动态检测。
3、提高了检测效果:现有的强化学习恶意软件检测方法其检测器不能自动时提高检测能力,本发明提出的基于强化学习的恶意软件检测方法能够在与恶意软件环境的交互中,学习稳定分辨策略以获得最高奖励,自动的提高了检测器的检测能力,从而提高了检测效果。
图5示出了本发明实施例提供的基于多智能体强化学习的恶意软件检测装置的结构示意图,本发明实施例提供的基于多智能体强化学习的恶意软件检测装置利用上述基于多智能体强化学习的恶意软件检测方法,在此仅对本发明实施例提供的基于多智能体强化学习的恶意软件检测装置进行简要说明,其他未尽事宜,请参照上述基于多智能体强化学习的恶意软件检测方法的相关说明,在此不再赘述,参见图5,本发明实施例提供的基于多智能体强化学习的恶意软件检测装置,包括:
提取模块,用于对恶意软件样本进行提取PE特征的操作;
检测智能体模块,用于对PE特征进行检测,如果检测结果为恶意,则通知操作智能体,如果检测结果为良性,则通知奖惩模块;
操作智能体模块,用于对恶意软件进行变体操作,将经过变体操作的恶意软件变体作为恶意软件样本,通知提取模块;
奖惩模块,用于判断检测智能体是否成功检测出恶意软件,如果检测智能体未成功检测出恶意软件,则对检测智能体进行惩罚操作,对操作智能体进行奖励操作;如果检测智能体成功检测出恶意软件,则对检测智能体进行奖励操作,对操作智能体进行惩罚操作;
存储模块,用于判断训练是否结束,如果训练结束,模型收敛,存储检测智能体的检测策略以及操作智能体的操作策略。
作为本发明实施例的一个可选实施方式,奖惩模块通过如下方式对检测智能体进行惩罚操作,对操作智能体进行奖励操作:奖惩模块,具体用于对检测智能体进行-1的惩罚操作,对操作智能体进行+1的奖励操作;奖惩模块通过如下方式对检测智能体进行奖励操作,对操作智能体进行惩罚操作:奖惩模块,具体用于对检测智能体进行+1的奖励操作,对操作智能体进行-1的惩罚操作。
作为本发明实施例的一个可选实施方式,存储模块,还用于在存储检测智能体的检测策略以及操作智能体的操作策略之前,确定检测智能体的奖惩结果以及操作智能体的奖惩结果符合预设比例。
作为本发明实施例的一个可选实施方式,检测智能体模块通过如下方式对PE特征进行检测:检测智能体,具体用于将PE特征送入检测智能体,检测智能体利用行动者评论家算法进行强化学习,对PE特征进行检测。
作为本发明实施例的一个可选实施方式,提取模块通过如下方式对恶意软件样本进行提取PE特征的操作:提取模块,具体用于通过OpenAI-Gym的LIEF库,解析PE文件;根据解析出的PE文件提取PE特征。
由此可见,利用本发明实施例提供的基于多智能体强化学习的恶意软件检测装置,从检测器自身出发,将强化学习应用到恶意软件的检测中,在不断与恶意软件变体的交互中收敛判断策略,从而解决判别器不能自动优化的问题。同时,将判别器(检测智能体)与恶意软件变体生成器(操作智能体)之间是设定合作与竞争关系,将强化学习检测器代替现有的机器学习检测器,并与生成器之前采取奖惩机制建立合作竞争关系,解决单智能体系统决策能力不足的问题。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种基于多智能体强化学习的恶意软件检测方法,其特征在于,包括:
S1,对恶意软件样本进行提取PE特征的操作;
S2,检测智能体对所述PE特征进行检测,如果检测结果为恶意,则执行S3,如果检测结果为良性,则执行S5;
S3,操作智能体对所述恶意软件进行变体操作;
S4,将经过所述变体操作的恶意软件变体作为所述恶意软件样本,返回执行S1;
S5,判断所述检测智能体是否成功检测出恶意软件,如果所述检测智能体未成功检测出恶意软件,则对所述检测智能体进行惩罚操作,对所述操作智能体进行奖励操作;如果所述检测智能体成功检测出恶意软件,则对所述检测智能体进行奖励操作,对所述操作智能体进行惩罚操作;
S6,判断训练是否结束,如果训练结束,模型收敛,存储所述检测智能体的检测策略以及所述操作智能体的操作策略;
其中:
所述对所述检测智能体进行惩罚操作,对所述操作智能体进行奖励操作包括:
对所述检测智能体进行-1的惩罚操作,对所述操作智能体进行+1的奖励操作;
所述对所述检测智能体进行奖励操作,对所述操作智能体进行惩罚操作包括:
对所述检测智能体进行+1的奖励操作,对所述操作智能体进行-1的惩罚操作。
2.根据权利要求1所述的方法,其特征在于,所述存储所述检测智能体的检测策略以及所述操作智能体的操作策略之前,还包括:
确定所述检测智能体的奖惩结果以及所述操作智能体的奖惩结果符合预设比例。
3.根据权利要求1所述的方法,其特征在于,所述检测智能体对所述PE特征进行检测包括:
所述检测智能体利用行动者评论家算法进行强化学习,对所述PE特征进行检测。
4.根据权利要求1所述的方法,其特征在于,所述对恶意软件样本进行提取PE特征的操作包括:
通过OpenAI-Gym的LIEF库,解析PE文件;
根据解析出的PE文件提取PE特征。
5.一种基于多智能体强化学习的恶意软件检测装置,其特征在于,包括:
提取模块,用于对恶意软件样本进行提取PE特征的操作;
检测智能体模块,用于对所述PE特征进行检测,如果检测结果为恶意,则通知操作智能体,如果检测结果为良性,则通知奖惩模块;
操作智能体模块,用于对所述恶意软件进行变体操作,将经过所述变体操作的恶意软件变体作为所述恶意软件样本,通知所述提取模块;
所述奖惩模块,用于判断所述检测智能体是否成功检测出恶意软件,如果所述检测智能体未成功检测出恶意软件,则对所述检测智能体进行惩罚操作,对所述操作智能体进行奖励操作;如果所述检测智能体成功检测出恶意软件,则对所述检测智能体进行奖励操作,对所述操作智能体进行惩罚操作;
存储模块,用于判断训练是否结束,如果训练结束,模型收敛,存储所述检测智能体的检测策略以及所述操作智能体的操作策略;
其中:
所述奖惩模块通过如下方式对所述检测智能体进行惩罚操作,对所述操作智能体进行奖励操作:
所述奖惩模块,具体用于对所述检测智能体进行-1的惩罚操作,对所述操作智能体进行+1的奖励操作;
所述奖惩模块通过如下方式对所述检测智能体进行奖励操作,对所述操作智能体进行惩罚操作:
所述奖惩模块,具体用于对所述检测智能体进行+1的奖励操作,对所述操作智能体进行-1的惩罚操作。
6.根据权利要求5所述的装置,其特征在于,所述存储模块,还用于在所述存储所述检测智能体的检测策略以及所述操作智能体的操作策略之前,确定所述检测智能体的奖惩结果以及所述操作智能体的奖惩结果符合预设比例。
7.根据权利要求5所述的装置,其特征在于,所述检测智能体模块通过如下方式对所述PE特征进行检测:
所述检测智能体,具体用于将所述PE特征送入检测智能体,所述检测智能体利用行动者评论家算法进行强化学习,对所述PE特征进行检测。
8.根据权利要求5所述的装置,其特征在于,所述提取模块通过如下方式对恶意软件样本进行提取PE特征的操作:
所述提取模块,具体用于通过OpenAI-Gym的LIEF库,解析PE文件;根据解析出的PE文件提取PE特征。
CN201910905213.1A 2019-09-24 2019-09-24 一种基于多智能体强化学习的恶意软件检测方法及装置 Active CN110659492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910905213.1A CN110659492B (zh) 2019-09-24 2019-09-24 一种基于多智能体强化学习的恶意软件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910905213.1A CN110659492B (zh) 2019-09-24 2019-09-24 一种基于多智能体强化学习的恶意软件检测方法及装置

Publications (2)

Publication Number Publication Date
CN110659492A CN110659492A (zh) 2020-01-07
CN110659492B true CN110659492B (zh) 2021-10-15

Family

ID=69038878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910905213.1A Active CN110659492B (zh) 2019-09-24 2019-09-24 一种基于多智能体强化学习的恶意软件检测方法及装置

Country Status (1)

Country Link
CN (1) CN110659492B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009970B (zh) * 2023-10-07 2023-12-29 华中科技大学 盲特征场景下恶意软件对抗样本生成方法与电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3223458A1 (en) * 2016-03-24 2017-09-27 Cisco Technology, Inc. Mechanisms to prevent anomaly detectors from learning anomalous patterns
CN107277065A (zh) * 2017-08-11 2017-10-20 厦门大学 基于强化学习的检测高级持续威胁的资源调度方法
CN109446808A (zh) * 2018-10-30 2019-03-08 中国人民解放军国防科技大学 基于DCGAN的Android对抗样本生成方法及系统
CN109639515A (zh) * 2019-02-16 2019-04-16 北京工业大学 基于隐马尔可夫和Q学习协作的DDoS攻击检测方法
CN109684835A (zh) * 2017-10-18 2019-04-26 卡巴斯基实验室股份制公司 使用机器学习来检测恶意文件的系统和方法
CN109902487A (zh) * 2017-12-08 2019-06-18 南京理工大学 基于应用行为的Android应用恶意性检测方法
CN110166428A (zh) * 2019-04-12 2019-08-23 中国人民解放军战略支援部队信息工程大学 基于强化学习和攻防博弈的智能防御决策方法及装置
CN110210226A (zh) * 2019-06-06 2019-09-06 深信服科技股份有限公司 一种恶意文件检测方法、系统、设备及计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621511B2 (en) * 2016-11-09 2020-04-14 Cognitive Scale, Inc. Method for using hybrid blockchain data architecture within a cognitive environment
KR102479499B1 (ko) * 2017-11-22 2022-12-21 엘지전자 주식회사 이동 단말기
CN110334814B (zh) * 2019-07-01 2023-05-02 创新先进技术有限公司 用于构建风险控制模型的方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3223458A1 (en) * 2016-03-24 2017-09-27 Cisco Technology, Inc. Mechanisms to prevent anomaly detectors from learning anomalous patterns
CN107277065A (zh) * 2017-08-11 2017-10-20 厦门大学 基于强化学习的检测高级持续威胁的资源调度方法
CN109684835A (zh) * 2017-10-18 2019-04-26 卡巴斯基实验室股份制公司 使用机器学习来检测恶意文件的系统和方法
CN109902487A (zh) * 2017-12-08 2019-06-18 南京理工大学 基于应用行为的Android应用恶意性检测方法
CN109446808A (zh) * 2018-10-30 2019-03-08 中国人民解放军国防科技大学 基于DCGAN的Android对抗样本生成方法及系统
CN109639515A (zh) * 2019-02-16 2019-04-16 北京工业大学 基于隐马尔可夫和Q学习协作的DDoS攻击检测方法
CN110166428A (zh) * 2019-04-12 2019-08-23 中国人民解放军战略支援部队信息工程大学 基于强化学习和攻防博弈的智能防御决策方法及装置
CN110210226A (zh) * 2019-06-06 2019-09-06 深信服科技股份有限公司 一种恶意文件检测方法、系统、设备及计算机存储介质

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
Back-propagation neural network on Markov chains from system call sequences: a new approach for detecting Android malware with system call sequences;Weilin Xu,et al;《IET Information Security》;20170116;第11卷(第1期);第8-15页 *
Practical Evasion of a Learning-Based Classifier:A Case Study;Pavel Laskov,et al;《2014 IEEE Symposium on Security and Privacy》;20140521;第197-211页 *
一种基于主动学习的数据库恶意行为检测方法;车晶,等;《网络安全技术与应用》;20121201;第62-64页 *
基于先验知识的改进强化学习及其在 MAS 中应用;毛俊杰,等;《计算机工程与应用》;20181020;第44卷(第24期);第156-158页 *
基于强化学习的多智能体协作方法研究;童亮,等;《计算机测量与控制》;20050512;第13卷(第1期);第174-176页 *
基于强化学习的非线性时间序列智能预测模型;孙若莹,等;《大连海事大学学报》;20171115;第97-103页 *
多智能体强化学习入门(一)——基础知识与博弈;ECKai;《https://zhuanlan.zhihu.com/p/53474965》;20190408;第一至三节 *
强化学习(十四) Actor-Critic;刘建平Pinard;《http://www.cnblogs.com/pinard/p/10272023.html》;20190115;第1-5节 *
恶意代码演化与溯源技术研究;宋文纳,等;《软件学报》;20190122;第30卷(第8期);第2227-2267页 *

Also Published As

Publication number Publication date
CN110659492A (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
Hu et al. Feature selection for optimized high-dimensional biomedical data using an improved shuffled frog leaping algorithm
US20190236412A1 (en) Data processing method and device, classifier training method and system, and storage medium
Mhawish et al. Predicting code smells and analysis of predictions: using machine learning techniques and software metrics
Paulheim et al. Towards evaluating interactive ontology matching tools
Taylor et al. Transfer via inter-task mappings in policy search reinforcement learning
CN109902024B (zh) 一种程序路径敏感的灰盒测试方法及装置
CN110914839A (zh) 错误去相关的选择性训练
CN111226236A (zh) 深度学习中的多目标生成器
CN112328505B (zh) 一种用于提升模糊测试的覆盖率的方法和系统
CN109960753B (zh) 上网设备用户的检测方法、装置、存储介质及服务器
CN109190379A (zh) 一种深度学习系统的漏洞检测方法和装置
Zhu et al. A new classification algorithm recommendation method based on link prediction
Garcia et al. Using the one-vs-one decomposition to improve the performance of class noise filters via an aggregation strategy in multi-class classification problems
CN107317682A (zh) 一种身份认证方法及系统
CN113408558B (zh) 用于模型验证的方法、装置、设备和介质
CN105446742A (zh) 一种人工智能执行任务的优化方法
Shin et al. A closer look at the intervention procedure of concept bottleneck models
CN110659492B (zh) 一种基于多智能体强化学习的恶意软件检测方法及装置
Lagniez et al. A Recursive Shortcut for CEGAR: Application To The Modal Logic K Satisfiability Problem.
CN106845990A (zh) 一种规则处理方法和设备
CN109670525A (zh) 基于once shot detection的目标检测方法及系统
CN104077524B (zh) 用于病毒鉴定的训练方法和病毒鉴定方法及装置
Tao et al. Tpfl: Test input prioritization for deep neural networks based on fault localization
CN107516020A (zh) 序列位点重要度的确定方法、装置、设备及存储介质
Ghomeshi et al. RED-GENE: An evolutionary game theoretic approach to adaptive data stream classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant