CN109344615A

CN109344615A - 一种检测恶意命令的方法及装置

Info

Publication number: CN109344615A
Application number: CN201810844289.3A
Authority: CN
Inventors: 焦煦然
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-02-15
Anticipated expiration: 2038-07-27
Also published as: CN109344615B

Abstract

本发明实施例提供一种检测恶意命令的方法及装置，所述方法包括：接收来自解释器的命令数据，其中，所述命令数据为用户在解释器所输入的命令或者解释器所运行的脚本文件中的命令；对所述命令数据进行预处理，获得所述命令数据的特征数据，其中，所述特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；基于所述特征数据，计算所述命令数据的特征向量；将所述特征向量输入到预先训练的特征模型中，确定所述命令数据是否存在恶意命令。如此，通过预先训练的特征模型来进行检测恶意命令，提高了检测准确率。

Description

一种检测恶意命令的方法及装置

技术领域

本发明涉及计算机安全领域，尤其涉及一种检测恶意命令的方法及装置。

背景技术

互联网的发展为人们带来了极大的便利，但是，某些破坏者同时也可以利用互联网来攻击他人的用户端、服务器等电子设备。而服务器上往往会存储有大量的机密数据，如果被攻击的话，通常会给用户造成非常严重的损失。因此，为了保证服务器的正常工作，需要实时监控服务器上的操作命令，在检测出恶意操作命令时，以便及时发出告警，来提醒运维人员对该恶意操作命令进行安全审计和处理。

目前，审计人员会在审计服务端预先设置多条正则规则，审计服务端为每个IP地址(Internet Protocol Address，互联网协议地址)维护一个10分钟的滑动窗口，成功匹配规则的命令会放到对应的滑动窗口中，由Fisher分类器给每条成功匹配的命令提供对应的权值。接下来，当一个滑动窗口中全部命令的加权和超出预设阈值时，则确定当前滑动窗口内的命令为恶意命令。

在执行上述基于权值和阈值的检测恶意命令的方法的过程中，发明人发现上述检测恶意命令的方法的检测准确率较低，导致进行告警时容易出现误报和漏报的问题。

发明内容

有鉴于此，本发明实施例提供一种检测恶意命令的方法及装置，主要目的在于通过预先训练的特征模型来进行恶意命令的检测，提高了检测准确率。

为达到上述目的，本发明实施例主要提供如下技术方案：

第一方面，本发明实施例提供一种检测恶意命令的方法，所述方法包括：接收来自解释器的命令数据，其中，所述命令数据为用户在解释器所输入的命令或者解释器所运行的脚本文件中的命令；对所述命令数据进行预处理，获得所述命令数据的特征数据，其中，所述特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；基于所述特征数据，计算所述命令数据的特征向量；将所述特征向量输入到预先训练的特征模型中，确定所述命令数据是否存在恶意命令。

第二方面，本发明实施例提供一种检测恶意命令的装置，所述装置包括：接收单元，用于接收来自解释器的命令数据，其中，所述命令数据为用户在解释器所输入的命令或者解释器所运行的脚本文件中的命令；预处理单元，用于对所述命令数据进行预处理，获得所述命令数据的特征数据，其中，所述特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；计算单元，用于基于所述特征数据，计算所述命令数据的特征向量；确定单元，用于将所述特征向量输入到预先训练的特征模型中，确定所述命令数据是否存在恶意命令。

第三方面，本发明实施例提供一种计算机可读存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述检测恶意命令的方法的步骤。

第四方面，本发明实施例提供一种检测恶意命令的设备，所述设备至少包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现上述检测恶意命令的方法的步骤。

本发明实施例提供的检测恶意命令的方法及装置，在接收到来自解释器的命令数据后，其中，命令数据为用户在解释器所输入的操作命令或者解释器所运行的脚本文件中的操作命令，就会对该命令数据进行预处理，获得该命令数据的特征数据，其中，特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；接下来，就可以基于该特征数据，计算该命令数据的特征向量；最后，将所得到的特征向量输入到预先训练的特征模型中，就可以确定出命令数据是否存在恶意命令，如此，通过命令数据的特征向量和预先训练的特征模型，来检测恶意命令，能够提高检测的准确率，从而，将该方法应用到对恶意命令进行告警的场景时，还能够提高告警的准确率，减少漏报和误报。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例一中的运维审计安全系统的示意图；

图2为本发明实施例一中的检测恶意命令的方法的流程示意图；

图3为本发明实施例二中的检测恶意命令的方法的流程示意图；

图4为本发明实施例三中的检测恶意命令的装置的结构示意图；

图5为本发明实施例四中的检测恶意命令的设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

本发明实施例提供一种运维审计安全系统，图1为本发明实施例一中的运维审计安全系统的示意图，参见图1所示，该运维审计安全系统包括：一个运维服务器10和N个普通服务器，如普通服务器11、普通服务器12和普通服务器13等。

其中，N取正整数，如1、2、3等，本发明实施例对N的取值不做具体限定。

这里，相对而言，普通服务器为用户端设备，用户可以通过命令对系统资源进行操作；而运维服务器为服务器端设备，可以收集普通服务器上的用户行为，即收集用户在普通服务器的命令，以对普通服务器上的用户行为进行安全审计，确保普通服务器的安全。

示例性地，当管理人员等在普通服务器对系统资源进行操作时，普通服务器会将所接收到的用户命令上传至运维服务器中，以便审计人员对用户行为进行安全审计。

在实际应用中，普通服务器为多用户多任务的，其中，每个用户还可以以普通用户身份、root身份来进行操作使用系统资源。具体来说，用户在登录到系统之后，要启动一个进程，负责将用户的命令传给内核，这个进程是用户登录到系统后运行的命令解释器，也就是说，每个普通服务器上有解释器，用户可以通过该解释器来运行命令对服务器操作系统进行操作。

这里，解释器，是一种计算机应用程序，是用户与操作系统之间的桥梁，能够接收、解释并运行用户的命令，将用户的命令传递给操作系统。其中，预先设定的能完成特定操作和任务的字符串，都可以称为“命令”。命令只代表了实现某一类功能的指令和程序的名称。在实际应用中，当所要运行的命令的类型为Linux命令时，该解释器可以为sh(BourneShell)、bash(Bourne Again Shell)、csh(C Shell)、ksh(K Shell)等Shell解释器。当然，根据所要运行的命令类型的不同，还可以为其它类型的命令解释器，可由本领域技术人员根据具体实施情况来确定，这里，本发明实施例对解释器的类型不做具体限定。

结合上述运维审计安全系统，本发明实施例提供一种检测恶意命令的方法，该检测恶意命令的方法的执行主体为运维服务器。该检测恶意命令的方法可以应用于各种需要审计命令数据的场合。

那么，图2为本发明实施例一中的检测恶意命令的方法的流程示意图，参见图2所示，该检测恶意命令的方法包括：

S201：接收来自解释器的命令数据；

其中，命令数据为用户在解释器所输入的命令或者解释器所运行的脚本文件中的命令。在实际应用中，这里的命令是指广义的Linux命令，包括Shell命令和Linux命令。

示例性地，以普通服务器上的解释器是bash为例，在用户在普通服务器上的bash中输入命令后，普通服务器可以将该bash的命令历史(history)中记录的用户已经输入过的命令发送至运维服务器，或者，在用户使用bash运行该普通服务器上本地存储的Shell脚本文件(后缀为.sh)后，可以将该Shell脚本文件中的命令发送至运维服务器，这样，运维服务器就接收到来自解释器的命令数据。

在实际应用中，无论是以直接输入的方式得到的命令，还是以脚本文件的方式得到的命令，都需要通过解释器来运行，因此，可以直接通过解释器将命令数据上传至运维服务器。

需要说明的是，单条命令本身可能不是恶意的，但是多条命令的组合可能就是恶意的。因此，为了更好地实现安全审计，一般情况下，上述命令数据为用户在一定时间内的输入的命令集合，或者，为连续运行的多个脚本文件对应的命令集合。也就是说，上述命令数据是由多条命令组成的。

S202：对命令数据进行预处理，获得命令数据的特征数据；

其中，特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符(URL，Uniform Resource Locator)中的至少一个。例如，特征数据可以至少包括命令字、命令参数和路径信息；或者，特征数据可以至少包括命令字、命令参数和URL。

在具体实施过程中，上述S202可以包括：基于预设字段对命令数据进行切分，获得至少两个第一数据片段，其中，预设字段至少包括主机字段、解释器的进程编号字段、用户字段和命令字段；将至少两个第一数据片段中满足预设条件的第一数据片段组成第二数据片段，获得至少一个第二数据片段；分别将每一个第二数据片段与预设的正则表达式进行匹配，获得每一个第二数据片段的特征数据。

在实际应用中，当用户登录普通服务器后，每次启动解释器时，该普通服务器的系统就会给生成该解释器对应的进程及其对应的该解释器的进程编号，直至用户退出该解释器前，该解释器的进程编号是不会变化的。当用户退出该解释器后，该普通服务器的系统就会删除该解释器对应的进程。

示例性，以解释器为bash为例，该解释器的进程编号(也可记为PID)是指bash对应的进程编号，在用户登录服务器后，每次启动bash后，就会生成该bash对应的PID，直到退出该bash前，该PID不会变化的。

这里，第一数据片段是指同时包含预设字段的一条命令；而第二数据片段是指同时包含相同主机相同用户的多条命令数据的集合。

在实际应用中，由于同一主机下同一真实用户的命令上下文是有联系的，而且单条命令本身可能不是恶意的，但是多条命令的组合可能就是恶意的，因此，为了更准确的分析用户的命令是否存在恶意命令，减少误检测，可以区分不同用户的行为，将相同主机相同用户的多个第一数据片段放在同一个第二数据片段中。

这里，相同用户的命令数据可以是指同一个用户身份运行的命令数据，也可以是指同一真实用户先后切换身份，以不同的用户身份运行的命令数据。例如，假设某一用户在普通服务器中预先创建了两个用户身份，包括user1身份和root身份，该用户以user1身份登录系统，运行bash后，输入了一些命令后，使用su命令将用户身份从user1切换为root，可见，实际上来说，user1身份下该用户输入的命令与root身份下该用户输入的命令均为该用户在普通服务器中产生的命令数据。因此，可以将用户以user1身份和root身份输入的命令，均放置于该用户对应的第二数据片段中。

在实际应用中，可以使用栈来维护PID，这样在用户使用su命令切换用户身份后的命令也可以放到同一个第二数据片段中。

在具体实施过程中，上述预设条件具体可以设置为主机字段相同且解释器的进程编号字段相同，或者，也可以设置为主机字段相同且用户字段相同，或者，还可以设置为主机字段相同且命令字段中包含用于切换用户的命令字。当然，上述预设条件还可以为其它，本发明实施例不做具体限定。

示例性地，假设所接收到的命令数据如下表1所示，其中，主机字段为“101.*”，解释器的进程编号字段为“21263”，用户字段为root，命令字段为“wget ftp://****:/ru/0x1；chmod 777 0x1；；mv 0x1/usr/sbin/”、“last-5”、“cd/lib/modules/”等。接下来，按照预设字段将命令数据进行切分所获得的第一数据片段可以为“101.*[root](21263):wgetftp://****:/ru/0x1；chmod 777 0x1；；mv 0x1/usr/sbin/”、“101.*[root](21263):last-5”、“101.*[root](21263):0x1-a-i”等，此时，由于所获得的第一数据片段的主机字段和解释器的进程编号字段均相同，因此，将这些第一数据片段可以放置在一个集合中，获得一个第二数据片段。

表1

在具体实施过程中，为了提取真实的命令，根据第二数据片段中是否存在sudo命令，通过预先设置的正则表达式提取第二数据片段的特征数据的实现方法，存在且不限于包括以下两种：方法一，通过预先设置的正则表达式从第二数据片段中提取命令字、命令参数、以及路径信息和URL中的至少一个等信息来作为特征数据。方法二，还可以通过预先设置的正则表达式从第二数据片段中提取sudo、sudo参数、命令字、命令参数、以及路径信息和URL中的至少一个等信息作为特征数据。这里，当存在sudo时，通过sudo可以定位出真实命令位置。

S203：基于特征数据，计算命令数据的特征向量；

在具体实施过程中，为了计算命令数据的特征向量，上述S203可以包括：针对每一个第二数据片段的特征数据，按照预设策略，生成每一个第二数据片段对应的词库；至少基于词库，按照预设的向量化算法，分别将每一个第二数据片段向量化，获得每一个第二数据片段的特征向量。

在具体实施过程中，上述针对每一个第二数据片段的特征数据，按照预设策略，生成每一个第二数据片段对应的词库的步骤，可以包括：当命令参数的数量为多个时，将命令字分别和每一个命令参数组成第一词，获得命令词典；和/或，基于路径信息或URL中的分隔字符，从路径信息或URL中提取多个字符串；按照从前到后的顺序，基于多个字符串组成第二词，获得路径词典或URL词典。

在实际应用中，由于命令字加第一命令参数与命令字加第二命令参数的词表达了完全不同的语义，需要把它们当成不同情况处理。例如，假设命令字为history，第一命令参数为10，第二命令参数为-c，词history 10表达的语义为显示最近使用的10条历史命令，而词history-c表达的语义为清空当前历史命令。可见，词history 10和词history-c表达的功能是完全不相同的。

那么，为了提高检测恶意命令的准确率，需要最大限度地保留语义信息，而在通过预先设置的正则表达式提取第二数据片段的特征数据时，由于正则表达式只能匹配字符串，会导致语义信息完全丢失。因此，对于命令字和命令参数而言，可以采用类似N-Gram模型的思路组成新的词，不但能够增加语义信息，而且不会大量增加词典中词的数量。例如，在命令参数包括10和-c时，可以将命令字分别和每一个命令参数组成第一词，假设命令字为history，第一命令参数为10，第二命令参数为-c，则可以生成两个第一词，包括词history 10和词history–c。这样，在基于词库来计算每一个第二数据片段的特征向量时，就能够区分不同语义的命令词，获得更好质量的特征向量。

同理，在实际应用中，通常路径信息和URL中会通过分隔字符，如正斜杠/，来表示目录字段，因此，为了最大限度地保留语义信息，对于路径信息和URL而言，也可以采用类似命令字和命令参数的思路来组成新的词。例如，某一URL为：https://browser.360.cn/se/，就可以生成第二词“https://browser.360.cn”和“https://browser.360.cn/se”

在具体实施过程中，为了快速地通过预先训练的模型计算出输出值，上述基于词库，按照预设向量化方法，分别将每一个第二数据片段向量化，获得每一个第二数据片段的特征向量的步骤，可以包括：基于词库，通过预设的向量化算法，将每一个第二数据片段向量化，获得每一个第二数据片段的第一特征向量；通过预设的标准化算法，对第一特征向量进行标准化处理，获得第二特征向量；通过预设的降维算法，对第二特征向量进行降维处理，获得第三特征向量，并将第三特征向量确定为每一个第二数据片段的特征向量。

在实际应用中，上述预设的向量化算法可以为BOW(Bag of word，词袋)模型，也可以为独热编码(One-Hot Encoding)，当然，也可以为其它能够将特征向量化的算法，这里，本发明实施例不做具体限定。

在实际应用中，上述预设的标准化(Normalization)算法可以为TF-IDF(TermFrequency–Inverse Document Frequency，词频-逆文件频率)算法，也可以为Min-MaxNormalization(也称为离差标准化)，当然，还可以为其它能够进行特征标准化的算法，如，这里，本发明实施例不做具体限定。

在实际应用中，上述预设的降维算法可以为Chi-square(卡方降维)，也可以为主成分分析(Principal Component Analysis，PCA)法，当然，还可以为其它能够将特征降维的算法，如Hashing(哈希)算法。这里本发明实施例不做具体限定。

S204：将特征向量输入到预先训练的特征模型中，确定命令数据是否存在恶意命令。

具体来说，在获得了命令数据的特征向量后，就可以将命令数据的特征向量作为预先训练的特征模型的输入数据，来获得对应的预先训练的特征模型的输出值。接下来，就可以根据所获得的输出值，确定命令数据是否存在恶意命令。

在具体实施过程中，上述S204可以包括：分别将每一个第二数据片段的特征向量输入到预先训练的特征模型中，获得每一个第二数据片段的输出值；如果至少一个第二数据片段中存在输出值为预设第一值的第二数据片段，则确定命令数据中存在恶意命令；否则，确定命令数据中不存在恶意命令。

具体来说，在将每一个第二数据片段的特征向量输入到预先训练的特征模型中，获得每一个第二数据片段的输出值；根据输出值的不同，可以将输出值为预设第一值的第二数据片段确定为恶意命令，将输出值为预设第二值的第二数据片段确定为非恶意命令，即安全命令；接下来，如果至少一个第二数据片段中任意一个第二数据片段被预先训练的特征模型划分为恶意命令类，则确定命令数据中存在恶意命令；如果至少一个第二数据片段均被预先训练的特征模型划分为非恶意命令类，则确定命令数据中不存在恶意命令。

这里，预先训练的特征模型可以为分类器，能够将第二数据片段划分成两类：恶意命令类或非恶意命令类。

在实际应用中，预先训练的特征模型的输出值为第一值和与第一值不相同的第二值。例如，可以为-1和1，其中，-1用于表征命令数据为恶意命令；1用于表征命令数据为非恶意命令。

在实际应用中，由于在获得命令数据的特征数据时，将不同用户的行为进行了区分，而且在计算命令数据的特征向量时，又保留了语义信息，那么，根据该特征向量和通过机器学习算法预先训练的特征模型来检测恶意命令时，就能够较少误检测，提高检测的准确率。

至此，便完成了检测恶意命令的过程。

由上述内容可知，本发明实施例提供的检测恶意命令的方法，在接收到来自解释器的命令数据后，其中，命令数据为用户在解释器所输入的操作命令或者解释器所运行的脚本文件中的操作命令，就会对该命令数据进行预处理，获得该命令数据的特征数据，其中，特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；接下来，就可以基于该特征数据，计算该命令数据的特征向量；最后，将所得到的特征向量输入到预先训练的特征模型中，就可以确定出命令数据是否存在恶意命令，如此，通过命令数据的特征向量和预先训练的特征模型，来检测恶意命令，能够提高检测的准确率，从而，将该方法应用到对恶意命令进行告警的场景时，还能够提高告警的准确率，减少漏报和误报。

实施例二

基于前述实施例，本发明实施例提供一种检测恶意命令的方法，该方法应用于以下场景：为了保护普通服务器的安全，预先训练出用于判断命令数据中是否存在恶意命令的特征模型，接下来，在通过预先训练的特征模型确定出用户在普通服务器上进行的命令行为存在恶意命令时，可以向审计人员提示普通服务器可能被攻击，存在有安全隐患。

图3为本发明实施例二中的检测恶意命令的方法的流程示意图，参见图3所示，在执行上述S201之前，为了预先训练出用于判断命令数据中是否存在恶意命令的特征模型，上述方法还可以包括：

S301：采集样本命令数据，生成训练集；

在实际应用中，为了使得训练出的特征模型的识别结果更为准确有效，需要采集丰富的海量的命令数据作为样本数据，生成所需的训练集，可以通过爬虫从互联网中爬取大量的用户的命令数据，如shell脚本文件作为样本命令数据，也可以直接从运维服务器中所存储的来自不同普通服务器所上传的用户所输入的历史命令数据中采集样本命令数据，当然，还可以通过其它方式采集样本命令数据，如通过第三方提供的数据集来获取，这里，本发明实施例对采集样本命令数据的方式不做具体限定。

S302：对训练集中的样本命令数据进行预处理，获得训练集对应的特征数据集；

具体来说，为了区分不同用户的行为，会对样本命令数据进行预处理，该预处理过程包括：基于预设字段对样本命令数据进行切分，获得至少两个第三数据片段，其中，预设字段至少包括主机字段、解释器的进程编号字段、用户字段和命令字段；将至少两个第三数据片段中满足预设条件的第三数据片段组成第四数据片段，获得至少一个第四数据片段；分别将每一个第四数据片段与预设的正则表达式进行匹配，获得每一个第四数据片段的特征数据。这样，就获得了训练集对应的特征数据集。

这里，第三数据片段与上述第一数据片段类似，第四数据片段与上述第二数据片段类似。

S303：基于特征数据集，计算训练集对应的特征向量集；

具体来说，为了最大限度保留语义信息，上述S303可以包括：针对每一个第四数据片段的特征数据，按照预设策略，生成每一个第四数据片段对应的词库；至少基于词库，按照预设的向量化算法，分别将每一个第四数据片段向量化，获得每一个第四数据片段的特征向量。这样，就可以获得训练集对应的特征向量集。

S304：使用机器学习算法对特征向量集进行学习，获得预先训练的特征模型。

具体来说，在获得了特征向量集后，就可以通过预先选定的机器学习算法来对特征向量集进行学习，在学习完成后，就可以获得上述预先训练的特征模型。

在实际应用中，上述机器学习算法可以为SVM(Support Vector Machine，支持向量机)，也可以为随机森林(Random forest)，当然，还可以为其它算法，如XGBoost(eXtremeGradient Boosting，极端梯度提升)，这里，本发明实施例不做具体限定。

示例性地，当使用BOW模型或独热编码对特征数据进行向量化时，考虑到BOW模型或独热编码的高维度且稀疏特性，可以采用SVM分类器。具体来说，SVM的核函数可以为rbf(高斯)核、linear(线性)核与polynomial(多项式)核等。

此外，由于一般情况下恶意命令的出现次数较少，为了获得更准确的识别率，在选用SVM分类器来训练特征模型时，可以将惩罚因子不要设置太大。例如，可以设置为[0.5-1.0]区间内。

在本发明其它实施例中，在执行上述S204之后，如果确定命令数据中存在恶意命令，为了提醒运维人员进行安全审计，以便运维人员及时消除安全隐患，上述方法还包括：

S305：基于恶意命令，生成并输出告警信息。

具体来说，在确定命令数据中存在恶意命令时，就可以将该命令数据或者恶意命令携带在告警信息中，并输出携带有命令数据或者恶意命令的告警信息，以使运维人员能够知晓该恶意命令，以便进行后续分析和处理。

在实际应用中，可以以弹窗的方式来显示告警信息，例如，可以在该弹窗中显示预设告警信息“发现恶意命令”以及该恶意命令具体内容，或者，可以以消息的方式来发出该告警信息，当然，还可以通过其它方式来输出告警信息，由本领域技术人员根据具体实施情况来确定，这里，本发明实施例不做具体限定。

由上述内容可知，本发明实施例提供的检测恶意命令的方法，通过预先采集大量的样本命令数据来生成训练集，并且在提取训练集的特征数据集时，是以用户来进行区分的，接下来，在计算训练集的特征向量集时，还考虑了语义信息，最后，通过机器学习算法来学习特征向量集生成特征模型。这样，通过该特征模型来检测恶意命令时，能够提高检测的准确率。此外，在确定命令数据存在恶意命令时，还会及时发出告警信息，实现了提高告警的准确率，减少了误报和漏报，实现保护服务器的安全。

实施例三

基于同一发明构思，作为对上述方法的实现，本发明实施例提供了一种检测恶意命令的装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。

图4为本发明实施例三中的检测恶意命令的装置的结构示意图，参见图4所示，该装置40包括：接收单元401，用于接收来自解释器的命令数据，其中，命令数据为用户在解释器所输入的命令或者解释器所运行的脚本文件中的命令；预处理单元402，用于对命令数据进行预处理，获得命令数据的特征数据，其中，特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；计算单元403，用于基于特征数据，计算命令数据的特征向量；确定单元404，用于将特征向量输入到预先训练的特征模型中，确定命令数据是否存在恶意命令。

在本发明实施例中，上述装置还包括：告警单元，用于如果命令数据中存在恶意命令，则基于恶意命令，生成并输出告警信息。

在本发明实施例中，预处理单元，用于基于预设字段对命令数据进行切分，获得至少两个第一数据片段，其中，预设字段至少包括主机字段、解释器的进程编号字段、用户字段和命令字段；将至少两个第一数据片段中满足预设条件的第一数据片段组成第二数据片段，获得至少一个第二数据片段；分别将每一个第二数据片段与预设的正则表达式进行匹配，获得每一个第二数据片段的特征数据。

在本发明实施例中，计算单元，用于针对每一个第二数据片段的特征数据，按照预设策略，生成每一个第二数据片段对应的词库；至少基于词库，按照预设的向量化算法，分别将每一个第二数据片段向量化，获得每一个第二数据片段的特征向量。

在本发明实施例中，确定单元，用于分别将每一个第二数据片段的特征向量输入到预先训练的特征模型中，获得每一个第二数据片段的输出值；如果至少一个第二数据片段中存在输出值为预设第一值的第二数据片段，则确定命令数据中存在恶意命令；否则，确定命令数据中不存在恶意命令。

在本发明实施例中，计算单元，用于基于词库，通过预设的向量化算法，将每一个第二数据片段向量化，获得每一个第二数据片段的第一特征向量；通过预设的标准化算法，对第一特征向量进行标准化处理，获得第二特征向量；通过预设的降维算法，对第二特征向量进行降维处理，获得第三特征向量，并将第三特征向量确定为每一个第二数据片段的特征向量。

在本发明实施例中，上述装置还包括：采集单元和训练单元，其中，采集单元，用于采集样本命令数据，生成训练集；预处理单元，还用于对训练集中的样本命令数据进行预处理，获得训练集对应的特征数据集；计算单元，还用于基于特征数据集，计算训练集对应的特征向量集；训练单元，用于使用机器学习算法对特征向量集进行学习，获得预先训练的特征模型。

在实际应用中，该检测恶意命令的装置可应用于硬件设备中。硬件设备可以以各种形式来实施。例如，本发明中描述的硬件设备可以包括诸如平板电脑、笔记本电脑等移动终端，以及诸如台式计算机、服务器等固定终端。

实施例四

基于同一发明构思，本发明实施例提供一种检测恶意命令的设备。图5为本发明实施例四中的检测恶意命令的设备的结构示意图，参见图5所示，该检测恶意命令的设备50包括：存储器501、处理器502以及存储在存储器501上并可在处理器502上运行的计算机程序503，处理器执行程序503时实现上述实施例中的检测恶意命令的方法的步骤。

本发明实施例提供的设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

上述处理器可由中央处理器(Central Processing Unit，CPU)、微处理器(MicroProcessor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)、或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。存储器可能包括计算机可读介质中的非永久性存储器，随机存储器(Random Access Memory，RAM)和/或非易失性内存等形式，如只读存储器(Read Only Memory，ROM)或闪存(Flash RAM)，存储器包括至少一个存储芯片。

实施例五

基于同一发明构思，本实施例提供一种计算机可读存储介质，上述计算机可读存储介质包括存储的程序，其中，在程序运行时控制所述存储介质所在设备执行上述实施例中的检测恶意命令的方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，RAM和/或非易失性内存等形式，如ROM或Flash RAM。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质可以是ROM、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory，FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory，CD-ROM)等存储器；也可以是快闪记忆体或其他内存技术、CD-ROM、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息；还可以是包括上述存储器之一或任意组合的各种电子设备，如移动电话、计算机、平板设备、个人数字助理等。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种检测恶意命令的方法，其特征在于，所述方法包括：

接收来自解释器的命令数据，其中，所述命令数据为用户在解释器所输入的命令或者解释器所运行的脚本文件中的命令；

对所述命令数据进行预处理，获得所述命令数据的特征数据，其中，所述特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；

基于所述特征数据，计算所述命令数据的特征向量；

将所述特征向量输入到预先训练的特征模型中，确定所述命令数据是否存在恶意命令。

2.根据权利要求1所述的方法，其特征在于，在所述将所述特征向量输入到预先训练的特征模型中，确定所述命令数据是否存在恶意命令之后，所述方法还包括：

如果所述命令数据中存在恶意命令，则基于所述恶意命令，生成并输出告警信息。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述命令数据进行预处理，获得所述命令数据的特征数据，包括：

基于预设字段对所述命令数据进行切分，获得至少两个第一数据片段，其中，所述预设字段至少包括主机字段、解释器的进程编号字段、用户字段和命令字段；

将所述至少两个第一数据片段中满足预设条件的第一数据片段组成第二数据片段，获得至少一个第二数据片段；

分别将每一个第二数据片段与预设的正则表达式进行匹配，获得每一个第二数据片段的特征数据。

4.根据权利要求3所述的方法，其特征在于，所述基于所述特征数据，计算所述命令数据的特征向量，包括：

针对所述每一个第二数据片段的特征数据，按照预设策略，生成所述每一个第二数据片段对应的词库；

至少基于所述词库，按照预设的向量化算法，分别将所述每一个第二数据片段向量化，获得所述每一个第二数据片段的特征向量。

5.根据权利要求4所述的方法，其特征在于，所述将所述特征向量输入到预先训练的特征模型中，确定所述命令数据是否存在恶意命令，包括：

分别将所述每一个第二数据片段的特征向量输入到所述预先训练的特征模型中，获得每一个第二数据片段的输出值；

如果所述至少一个第二数据片段中存在输出值为预设第一值的第二数据片段，则确定所述命令数据中存在恶意命令；否则，确定所述命令数据中不存在恶意命令。

6.根据权利要求4所述的方法，其特征在于，所述至少基于所述词库，按照预设的向量化算法，分别将所述每一个第二数据片段向量化，获得所述每一个第二数据片段的特征向量，包括：

基于所述词库，通过预设的向量化算法，将所述每一个第二数据片段向量化，获得所述每一个第二数据片段的第一特征向量；

通过预设的标准化算法，对所述第一特征向量进行标准化处理，获得第二特征向量；

通过预设的降维算法，对所述第二特征向量进行降维处理，获得第三特征向量，并将所述第三特征向量确定为所述每一个第二数据片段的特征向量。

7.根据权利要求1或2所述的方法，其特征在于，在所述接收来自解释器的命令数据之前，所述方法还包括：

采集样本命令数据，生成训练集；

对所述训练集中的样本命令数据进行所述预处理，获得所述训练集对应的特征数据集；

基于所述特征数据集，计算所述训练集对应的特征向量集；

使用机器学习算法对所述特征向量集进行学习，获得所述预先训练的特征模型。

8.一种检测恶意命令的装置，其特征在于，所述装置包括：

接收单元，用于接收来自解释器的命令数据，其中，所述命令数据为用户在解释器所输入的命令或者解释器所运行的脚本文件中的命令；

预处理单元，用于对所述命令数据进行预处理，获得所述命令数据的特征数据，其中，所述特征数据至少包括命令字、命令参数以及路径信息和统一资源定位符URL中的至少一个；

计算单元，用于基于所述特征数据，计算所述命令数据的特征向量；

确定单元，用于将所述特征向量输入到预先训练的特征模型中，确定所述命令数据是否存在恶意命令。

9.一种计算机可读存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1至7任一项所述的检测恶意命令的方法的步骤。

10.一种检测恶意命令的设备，其特征在于，所述设备至少包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任一项所述的检测恶意命令的方法的步骤。