CN110933104B - 恶意命令检测方法、装置、设备及介质 - Google Patents

恶意命令检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN110933104B
CN110933104B CN201911268074.2A CN201911268074A CN110933104B CN 110933104 B CN110933104 B CN 110933104B CN 201911268074 A CN201911268074 A CN 201911268074A CN 110933104 B CN110933104 B CN 110933104B
Authority
CN
China
Prior art keywords
sample
malicious
model
command
trained model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911268074.2A
Other languages
English (en)
Other versions
CN110933104A (zh
Inventor
朱豪杰
蒋烈
王亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronics Technology Network Security Technology Co ltd
Original Assignee
Chengdu Westone Information Industry Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Westone Information Industry Inc filed Critical Chengdu Westone Information Industry Inc
Priority to CN201911268074.2A priority Critical patent/CN110933104B/zh
Publication of CN110933104A publication Critical patent/CN110933104A/zh
Application granted granted Critical
Publication of CN110933104B publication Critical patent/CN110933104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本公开提供了一种恶意命令检测方法、装置、设备及介质,包括:对终端执行命令数据进行混淆,生成对应的第一恶意命令样本;将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本;利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型;当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。这样,通过利用变种恶意样本训练得到的第二训练后模型,能够有效的检测未知的恶意命令,从而提升对ATP攻击的防御能力。

Description

恶意命令检测方法、装置、设备及介质
技术领域
本公开涉及网络安全技术领域,具体地,涉及一种恶意命令检测方法、装置、设备及介质。
背景技术
在近年来的APT(即Advanced Persistent Threat,高级持续性威胁)攻击中,由于PowerShell语言的强大功能、高度灵活特性以及市面上出现越来越多的对PowerShell命令进行自动化混淆的工具,让PowerShell攻击成为不落地的难以被检测的攻击,即攻击者运行的命令能轻松绕过特征或者规则的检测,而且能顺利达到攻击的意图。在美国MITRE机构提出的著名ATT&CK(即Adversarial Tactics,Techniques,and Common Knowledge,反映各个攻击生命周期的攻击行为的模型和知识库)攻击链模型中也明确列出,PowerShell已经成为攻击者后渗透阶段用于后门安装、恶意代码执行及其他恶意行为的关键热点技术。并逐渐成为APT组织进行政府、科研机构等攻击的最频繁使用的攻击途径。由于网络安全关乎到国家的安全,经济社会稳定和人民的利益。随着网络安全逐渐上升到国家的战略层面,网络安全技术也备受科研界和工业界的关注。
目前用于检测恶意PowerShell命令的主要技术手段有基于特征知识库的识别方法和基于规则知识库的匹配检测方法。基于特征知识库的检测方法和基于规则的匹配识别技术,都对领域技术和知识有很强的依赖性,需要领域专家或者专业技术的支撑。而专家知识只能针对历史的已发生的恶意特性建立特征库或者规则。对未知的恶意行为,特别是恶意混淆的工具自动生成的随机恶意命令更加显得无能为力,所以导致现有的传统检测手段存在严重的漏报率和滞后性。当出现未知的恶意攻击之后,就要求专业人员重新构建针对该恶意特征的检测规则或者编写新的正则表达,所以需要很高的人工维护成本。
发明内容
有鉴于此,本公开的目的在于提供一种恶意命令检测方法、装置、设备及介质,能够有效的检测未知的恶意命令,从而提升对ATP攻击的防御能力。其具体方案如下:
第一方面,本公开提供了一种恶意命令检测方法,包括:
对终端执行命令数据进行混淆,生成对应的第一恶意命令样本;
将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本;
利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型;
当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。
可选的,所述利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,包括:
对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据;
利用所述特征化的样本数据对SVM模型进行训练,得到对应的第二训练后模型。
可选的,所述对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,包括:
利用词集模型对所述变种恶意样本和正常样本进行分词;
根据分词结果构造固定长度的词袋模型;
利用所述词袋模型对分词后的每个样本构造词频特征向量,生成对应的样本向量矩阵;
利用TF-IDF模型对所述样本向量矩阵中的所述词频特征向量的特征值进行权重修正,将修正后的所述样本向量矩阵确定为所述特征化的样本数据。
可选的,所述利用所述特征化的样本数据对SVM模型进行训练,得到对应的第二训练后模型,包括:
步骤S00:将所述特征化的样本数据随机划分为训练样本集合和验证样本集合;
步骤S01:利用所述训练样本集合对SVM模型进行训练,得到第三训练后模型;
步骤S02:利用所述验证样本集合对所述第三训练后模型进行验证;
基于N折交叉验证法,重复执行步骤S00至步骤S02,直到N折交叉验证结束;
根据N折交叉验证每轮的验证结果,确定出检测准确度最高的所述第三训练后模型为所述第二训练后模型。
可选的,所述对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,包括:
利用词集模型或词袋模型或TF-IDF模型对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据。
可选的,所述对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,包括:
利用统计频率法或jarccard系数或HMM方法对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据。
可选的,还包括:
定时触发优化训练模型指令;
在所述优化训练模型指令的控制下,利用增量恶意命令样本对所述第二训练后模型进行训练,得到优化的第二训练后模型;其中,所述增量恶意命令样本为所述第二训练后模型检测出的恶意命令。
第二方面,本公开提供了一种恶意命令检测装置,包括:
恶意命令样本生成模块,用于对终端执行命令数据进行混淆,生成对应的第一恶意命令样本;
变种恶意样本生成模块,用于将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本;
检测模型训练模块,用于利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型;
检测结果输出模块,用于当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。
第三方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述方法的步骤。
第四方面,本公开提供了一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现前述方法的步骤。
可见,本公开先对终端执行命令数据进行混淆,生成对应的第一恶意命令样本,然后将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本,之后利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,最后当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。也即,本公开先利用第一训练后模型输出与对终端执行命令数据混淆生成的第一恶意命令样本对应的变种恶意样本,然后利用变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,并利用第二训练后模型输出待检测命令的检测结果,这样,通过利用变种恶意样本训练得到的第二训练后模型,能够有效的检测未知的恶意命令,从而提升对ATP攻击的防御能力。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本公开提供的一种恶意命令检测方法流程图;
图2为本公开提供的一种GAN模型训练流程图;
图3为本公开提供的一种具体的恶意命令检测方法流程图;
图4为本公开提供的一种训练样本特征提取流程图;
图5为本公开提供的一种检测模型训练流程图;
图6为本公开提供的一种具体的恶意命令检测方法流程图;
图7为本公开提供的一种恶意命令检测装置结构示意图;
图8为本公开提供的一种电子设备原理结构图;
图9为本公开提供的一种电子设备原理结构图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,本公开实施例提供了一种恶意命令检测方法,包括:
步骤S101:对终端执行命令数据进行混淆,生成对应的第一恶意命令样本。
其中,终端执行命令数据可以包括但不限于PowerShell数据。在具体的实施方式中,本实施例可以从数据库、磁盘或者文件系统获取正常的PowerShell命令或者脚本的执行日志数据,然后利用混淆工具对PowerShell数据进行混淆,生成大量的第一恶意命令样本。比如,可以利用invoke-obfuscation混淆工具对PowerShell数据进行混淆。
步骤S102:将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN(即Generative Adversarial Networks,生成式对抗网络)模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本。
在具体的实施方式中,本实施例可以预先对GAN模型进行训练,得到第一训练后模型,然后利用第一训练后模型生成与第一恶意命令样本对应的恶意变种样本。参见图2所示,图2为本公开实施例提供的一种GAN模型训练流程图。可以先获取正常的PowerShell命令或者脚本的执行日志数据,然后利用混淆工具对PowerShell命令进行混淆,生成大量的第二恶意命令样本,随机生成噪声数据,并将其作为GAN模型中的生成器G的输入数据;将真实的第二恶意命令作为GAN模型中的判别器D的输入数据;其中,判别模型D为概率模型,目的是尽量判别生成器训练模型G生成的数据为真实数据的概率低,而生成训练模型G则更期望判别模型D判别生成数据为真实数据的概率高。这样通过判别器的判别不断促进生成器模型G的训练提升,最终让生成器G能够生成足以以假乱真的数据。这样,利用GAN模型基于大量的第二恶意命令样本进行学习训练,得到的第一训练模型能够生成能够以假乱真的变种恶意样本。然后将第一恶意命令样本输入第一训练后模型,便可以获取第一训练后模型输出的变种恶意样本。
步骤S103:利用所述变种恶意样本和正常样本对SVM(即Support VectorMachine,支持向量机)模型进行训练,得到对应的第二训练后模型。
在具体的实施方式中,可以先对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,然后利用所述特征化的样本数据对SVM模型进行训练,得到对应的第二训练后模型。其中,正常样本为正常的终端执行命令数据,比如,可以为正常的PowerShell命令。
并且,本实施例可以利用词集模型或词袋模型或TF-IDF(即term frequency–inverse document frequency,正向词频-逆向文档词频)模型对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据。也可以利用统计频率法或jarccard系数或HMM(即Hidden Markov Model,隐马尔可夫模型)方法对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据。
步骤S104:当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。
可见,本公开实施例先对终端执行命令数据进行混淆,生成对应的第一恶意命令样本,然后将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本,之后利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,最后当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。也即,本公开先利用第一训练后模型输出与对终端执行命令数据混淆生成的第一恶意命令样本对应的变种恶意样本,然后利用变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,并利用第二训练后模型输出待检测命令的检测结果,这样,通过利用变种恶意样本训练得到的第二训练后模型,能够有效的检测未知的恶意命令,从而提升对ATP攻击的防御能力。
参见图3所示,本公开实施例提供了一种具体的恶意命令检测方法,包括:
步骤S201:对终端执行命令数据进行混淆,生成对应的第一恶意命令样本。
步骤S202:将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本。
其中,关于上述步骤S201和S202的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S203:利用词集模型对所述变种恶意样本和正常样本进行分词。
步骤S204:根据分词结果构造固定长度的词袋模型。
步骤S205:利用所述词袋模型对分词后的每个样本构造词频特征向量,生成对应的样本向量矩阵。
步骤S206:利用TF-IDF模型对所述样本向量矩阵中的所述词频特征向量的特征值进行权重修正,将修正后的所述样本向量矩阵确定为特征化的样本数据。
例如,参见图4所示,图4为本公开实施例提供的一种训练样本特征提取流程图,先获取恶意样本和正常样本,然后利用N-Gram词性标注器模型分别对正常和恶意的文本样本进行分词,然后根据分词结果构造固定长度的词袋模型,并利用生成的词袋模型对分词后的每个样本建立词频特征向量,以得到固定长度的向量矩阵,然后利用TF-IDF模型对词频向量特征值进行权重修正,最后输出全部样本的特征向量矩阵,这样便得到了特征化的样本数据。本公开结合词集、词袋和TF-IDF模型,利用词袋模型固化词向量的长度,同时利用TF-IDF模型对词的权重进行评估,既可以满足算法输入的需求,同时也充分考虑了每个词的权重因素。
步骤S207:利用所述特征化的样本数据对SVM模型进行训练,得到对应的第二训练后模型。
在具体的实施方式中,先对特征化的样本数据的标签进行二值化。
步骤S2070:将所述特征化的样本数据随机划分为训练样本集合和验证样本集合。
步骤S2071:利用所述训练样本集合对SVM模型进行训练,得到第三训练后模型。
步骤S2072:利用所述验证样本集合对所述第三训练后模型进行验证。
基于N折交叉验证法,重复执行步骤S2070至步骤S2072,直到N折交叉验证结束;根据N折交叉验证每轮的验证结果,确定出检测准确度最高的所述第三训练后模型为所述第二训练后模型。比如,可以建立打分机制,以准确度越高分数越高的原则为每次训练得到的第三训练后模型对相应的验证样本集合的检测准确度进行打分,确定出检测准确度最高的所述第三训练后模型为所述第二训练后模型。例如,参见图5所示,图5为本公开提供的一种检测模型训练流程图。先获取特征化的样本数据,然后对样本数据标签进行二值化化,并将样本数据划分为训练集合和验证集合,并利用训练集合对SVM进行训练,得到第三训练后模型,利用验证集合对第三训练后模型进行验证,基于N折交叉验证方法重复执行前述样本数据划分以及模型训练和验证步骤,直到N折交叉验证结束,然后根据打分机制输出分数最高的最优第三训练后模型,将最优第三训练后模型确定为第二训练后模型,也即检测模型,然后第二训练后模型进行命令检测。这样,利用N折交叉验证方法提升了第二训练后模型的检测准确度。
步骤S208:当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。
参见图6所示,本公开实施例提供了一种具体的恶意命令检测方法,包括:
步骤S301:对终端执行命令数据进行混淆,生成对应的第一恶意命令样本。
步骤S302:将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本。
步骤S303:利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型。
其中,关于上述步骤S301至S303的具体过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
步骤S304:定时触发优化训练模型指令。
步骤S305:在所述优化训练模型指令的控制下,利用增量恶意命令样本对所述第二训练后模型进行训练,得到优化的第二训练后模型;其中,所述增量恶意命令样本为所述第二训练后模型检测出的恶意命令。
在一种具体的实施方式中,可以在优化训练模型指令的控制下,获取增量恶意命令样本和正常样本,然后对增量恶意命令样本和正常样本进行特征提取,得到特征化的样本数据。
在另一种具体的实施方式中,可以在优化训练模型指令的控制下,获取增量恶意命令样本,然后利用第一训练后模型生成变种增量恶意样本,然后对变种增量恶意命令样本和正常样本进行特征提取,得到特征化的样本数据。
然后利用特征化的样本数据对第二训练后模型进行训练,得到优化的第二训练后模型。
其中,关于样本特征提取的过程以及第二训练后模型进行训练可以参考前述实施例公开的相关内容,在此不进行赘述。
步骤S306:当获取到待检测命令,则利用优化后的所述第二训练后模型输出对应的检测结果。
这样,利用增量恶意命样本实现第二训练模型的训练更新,避免了恶意命令新增后需要人工重建规则和特征库的问题,从而减少了人工成本。
参见图7所示,本公开实施例提供了一种恶意命令检测装置400,其特征在于,包括:
恶意命令样本生成模块401,用于对终端执行命令数据进行混淆,生成对应的第一恶意命令样本;
变种恶意样本生成模块402,用于将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本;
检测模型训练模块403,用于利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型;
检测结果输出模块404,用于当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。
可见,本公开先对终端执行命令数据进行混淆,生成对应的第一恶意命令样本,然后将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本,之后利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,最后当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果。也即,本公开先利用第一训练后模型输出与对终端执行命令数据混淆生成的第一恶意命令样本对应的变种恶意样本,然后利用变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,并利用第二训练后模型输出待检测命令的检测结果,这样,通过利用变种恶意样本训练得到的第二训练后模型,能够有效的检测未知的恶意命令,从而提升对ATP攻击的防御能力。
其中,检测模型训练模块403包括特征提取子模块和模型训练子模块,
特征提取子模块,用于对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据;
模型训练子模块,用于利用所述特征化的样本数据对SVM模型进行训练,得到对应的第二训练后模型。
在具体的实施方式中,特征提取子模块包括样本分词单元、词袋模型构造单元、词频特征向量构造单元和词频特征向量权重修正单元,
其中,样本分词单元,用于利用词集模型对所述变种恶意样本和正常样本进行分词;
词袋模型构造单元,用于根据分词结果构造固定长度的词袋模型;
词频特征向量构造单元,用于利用所述词袋模型对分词后的每个样本构造词频特征向量,生成对应的样本向量矩阵;
词频特征向量权重修正单元,用于利用TF-IDF模型对所述样本向量矩阵中的所述词频特征向量的特征值进行权重修正,将修正后的所述样本向量矩阵确定为所述特征化的样本数据。
在一些实施例中,特征提取子模块具体用于利用词集模型或词袋模型或TF-IDF模型对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,或利用统计频率法或jarccard系数或HMM方法对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据。
在具体的实施方式中,模型训练子模块包括样本集合划分单元、模型训练单元、模型验证单元、模型确定单元,
其中,样本集合划分单元,用于将所述特征化的样本数据随机划分为训练样本集合和验证样本集合;
模型训练单元,用于利用所述训练样本集合对SVM模型进行训练,得到第三训练后模型;
模型验证单元,用于利用所述验证样本集合对所述第三训练后模型进行验证;
模型确定单元,用于基于N折交叉验证法,利用样本集合划分单元、模型训练单元、模型验证单元进行模型训练和验证,直到N折交叉验证结束,然后根据N折交叉验证每轮的验证结果,确定出检测准确度最高的所述第三训练后模型为所述第二训练后模型。
进一步的,本公开提供的恶意命令检测装置还包括检测模型优化模块,检测模型优化模块包括指令触发子模块和模型优化训练子模块,
其中,指令触发子模块,用于定时触发优化训练模型指令;
模型优化训练子模块,用于在所述优化训练模型指令的控制下,利用增量恶意命令样本对所述第二训练后模型进行训练,得到优化的第二训练后模型;其中,所述增量恶意命令样本为所述第二训练后模型检测出的恶意命令。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种电子设备500的框图。如图8所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的恶意命令检测方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的恶意命令检测方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的恶意命令检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的恶意命令检测方法。
图9是根据一示例性实施例示出的一种电子设备600的框图。例如,电子设备600可以被提供为一服务器。参照图9,电子设备600包括处理器622,其数量可以为一个或多个,以及存储器632,用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器622可以被配置为执行该计算机程序,以执行上述的恶意命令检测方法。
另外,电子设备600还可以包括电源组件626和通信组件650,该电源组件626可以被配置为执行电子设备600的电源管理,该通信组件650可以被配置为实现电子设备600的通信,例如,有线或无线通信。此外,该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的恶意命令检测方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器632,上述程序指令可由电子设备600的处理器622执行以完成上述的恶意命令检测方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
综上所述,本说明书内容不应理解为对本公开的限制。

Claims (9)

1.一种恶意命令检测方法,其特征在于,包括:
对终端执行命令数据进行混淆,生成对应的第一恶意命令样本;
将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本;
利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型;
当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果;
所述方法还包括:定时触发优化训练模型指令;在优化训练模型指令的控制下,获取增量恶意命令样本,利用第一训练后模型生成变种增量恶意样本,然后对变种增量恶意命令样本和正常样本进行特征提取,得到特征化的样本数据;利用特征化的样本数据对第二训练后模型进行训练,得到优化的第二训练后模型;其中,所述增量恶意命令样本为所述第二训练后模型检测出的恶意命令。
2.根据权利要求1所述的恶意命令检测方法,其特征在于,所述利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型,包括:
对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据;
利用所述特征化的样本数据对SVM模型进行训练,得到对应的第二训练后模型。
3.根据权利要求2所述的恶意命令检测方法,其特征在于,所述对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,包括:
利用词集模型对所述变种恶意样本和正常样本进行分词;
根据分词结果构造固定长度的词袋模型;
利用所述词袋模型对分词后的每个样本构造词频特征向量,生成对应的样本向量矩阵;
利用TF-IDF模型对所述样本向量矩阵中的所述词频特征向量的特征值进行权重修正,将修正后的所述样本向量矩阵确定为所述特征化的样本数据。
4.根据权利要求2所述的恶意命令检测方法,其特征在于,所述利用所述特征化的样本数据对SVM模型进行训练,得到对应的第二训练后模型,包括:
步骤S00:将所述特征化的样本数据随机划分为训练样本集合和验证样本集合;
步骤S01:利用所述训练样本集合对SVM模型进行训练,得到第三训练后模型;
步骤S02:利用所述验证样本集合对所述第三训练后模型进行验证;
基于N折交叉验证法,重复执行步骤S00至步骤S02,直到N折交叉验证结束;
根据N折交叉验证每轮的验证结果,确定出检测准确度最高的所述第三训练后模型为所述第二训练后模型。
5.根据权利要求2所述的恶意命令检测方法,其特征在于,所述对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,包括:
利用词集模型或词袋模型或TF-IDF模型对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据。
6.根据权利要求2所述的恶意命令检测方法,其特征在于,所述对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据,包括:
利用统计频率法或jarccard系数或HMM方法对所述变种恶意样本和正常样本进行特征提取,得到特征化的样本数据。
7.一种恶意命令检测装置,其特征在于,包括:
恶意命令样本生成模块,用于对终端执行命令数据进行混淆,生成对应的第一恶意命令样本;
变种恶意样本生成模块,用于将所述第一恶意命令样本输入第一训练后模型,以获取所述第一训练后模型输出的变种恶意样本;其中,所述第一训练后模型为利用第二恶意命令样本对GAN模型进行训练得到的,并且,所述第二恶意命令样本为对终端执行命令数据进行混淆,生成的恶意命令样本;
检测模型训练模块,用于利用所述变种恶意样本和正常样本对SVM模型进行训练,得到对应的第二训练后模型;
检测结果输出模块,用于当获取到待检测命令,则利用所述第二训练后模型输出对应的检测结果;
恶意命令检测装置还包括检测模型优化模块,检测模型优化模块包括指令触发子模块和模型优化训练子模块,
其中,指令触发子模块,用于定时触发优化训练模型指令;
模型优化训练子模块,用于在优化训练模型指令的控制下,获取增量恶意命令样本,利用第一训练后模型生成变种增量恶意样本,然后对变种增量恶意命令样本和正常样本进行特征提取,得到特征化的样本数据;利用特征化的样本数据对第二训练后模型进行训练,得到优化的第二训练后模型;其中,所述增量恶意命令样本为所述第二训练后模型检测出的恶意命令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
CN201911268074.2A 2019-12-11 2019-12-11 恶意命令检测方法、装置、设备及介质 Active CN110933104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911268074.2A CN110933104B (zh) 2019-12-11 2019-12-11 恶意命令检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911268074.2A CN110933104B (zh) 2019-12-11 2019-12-11 恶意命令检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN110933104A CN110933104A (zh) 2020-03-27
CN110933104B true CN110933104B (zh) 2022-05-17

Family

ID=69859078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911268074.2A Active CN110933104B (zh) 2019-12-11 2019-12-11 恶意命令检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN110933104B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111526136A (zh) * 2020-04-15 2020-08-11 优刻得科技股份有限公司 基于云waf的恶意攻击检测方法、系统、设备和介质
CN111343204B (zh) * 2020-05-18 2021-06-08 鹏城实验室 控制命令混淆方法、装置及计算机可读存储介质
CN111866004B (zh) * 2020-07-27 2022-09-27 中国工商银行股份有限公司 安全评估方法、装置、计算机系统和介质
CN112380537A (zh) * 2020-11-30 2021-02-19 北京天融信网络安全技术有限公司 一种检测恶意软件的方法、装置、存储介质和电子设备
CN112685738B (zh) * 2020-12-29 2022-10-14 武汉大学 一种基于多级投票机制的恶意混淆脚本静态检测方法
CN114238965A (zh) * 2021-11-17 2022-03-25 北京华清信安科技有限公司 用于恶意访问的检测分析方法及系统
CN114567472A (zh) * 2022-02-22 2022-05-31 深信服科技股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344615A (zh) * 2018-07-27 2019-02-15 北京奇虎科技有限公司 一种检测恶意命令的方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10044750B2 (en) * 2015-01-16 2018-08-07 Microsoft Technology Licensing, Llc Code labeling based on tokenized code samples
US10701506B2 (en) * 2016-11-13 2020-06-30 EmbodyVR, Inc. Personalized head related transfer function (HRTF) based on video capture
US10832168B2 (en) * 2017-01-10 2020-11-10 Crowdstrike, Inc. Computational modeling and classification of data streams
CN108573148B (zh) * 2017-03-10 2022-05-27 中国科学院软件研究所 一种基于词法分析的混淆加密脚本识别方法
US10726304B2 (en) * 2017-09-08 2020-07-28 Ford Global Technologies, Llc Refining synthetic data with a generative adversarial network using auxiliary inputs
US11716348B2 (en) * 2017-10-31 2023-08-01 Bluvector, Inc. Malicious script detection
CN108595764A (zh) * 2018-03-26 2018-09-28 北京航空航天大学 电路模块行为级建模方法及系统
CN109460470A (zh) * 2018-10-31 2019-03-12 上海师范大学 基于会话的视频分类方法
CN109922052B (zh) * 2019-02-22 2020-12-29 中南大学 一种结合多重特征的恶意url检测方法
CN110210226A (zh) * 2019-06-06 2019-09-06 深信服科技股份有限公司 一种恶意文件检测方法、系统、设备及计算机存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344615A (zh) * 2018-07-27 2019-02-15 北京奇虎科技有限公司 一种检测恶意命令的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于GAN的网络攻击检测研究综述;傅建明,黎琳,郑锐,苏日古嘎;《信息网络安全》;20190210(第2期);全文 *

Also Published As

Publication number Publication date
CN110933104A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110933104B (zh) 恶意命令检测方法、装置、设备及介质
JP7086972B2 (ja) 侵入検出のための継続的な学習
US10956477B1 (en) System and method for detecting malicious scripts through natural language processing modeling
US20140090069A1 (en) Training classifiers for program analysis
US20170185785A1 (en) System, method and apparatus for detecting vulnerabilities in electronic devices
US11106801B1 (en) Utilizing orchestration and augmented vulnerability triage for software security testing
US11777961B2 (en) Asset remediation trend map generation and utilization for threat mitigation
CN111159697B (zh) 一种密钥检测方法、装置及电子设备
CN113486350B (zh) 恶意软件的识别方法、装置、设备及存储介质
CN111783132A (zh) 基于机器学习的sql语句安全检测方法、装置、设备及介质
US20190325134A1 (en) Neural network detection of malicious activity
US10091223B2 (en) Method for detecting anomalies in network traffic
CN110858247A (zh) 安卓恶意应用检测方法、系统、设备及存储介质
CN114896603A (zh) 一种业务处理方法、装置及设备
CN105468975A (zh) 恶意代码误报的追踪方法、装置及系统
CN116055067B (zh) 一种弱口令检测的方法、装置、电子设备及介质
WO2017206251A1 (zh) 一种冻结应用方法以及装置
US10826923B2 (en) Network security tool
CN112511568A (zh) 一种网络安全事件的关联分析方法、装置及存储介质
CN110636082A (zh) 一种入侵检测方法及装置
CN115348096B (zh) 命令注入漏洞检测方法、系统、设备及存储介质
CN116305130B (zh) 基于系统环境识别的双系统智能切换方法、系统及介质
CN115378670B (zh) 一种apt攻击识别方法、装置、电子设备及介质
US11727113B1 (en) System and method for training of antimalware machine learning models
CN113591440B (zh) 一种文本处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No. 333, Yunhua Road, high tech Zone, Chengdu, Sichuan 610041

Patentee after: China Electronics Technology Network Security Technology Co.,Ltd.

Address before: No. 333, Yunhua Road, high tech Zone, Chengdu, Sichuan 610041

Patentee before: CHENGDU WESTONE INFORMATION INDUSTRY Inc.

CP01 Change in the name or title of a patent holder