CN111125702A

CN111125702A - 一种病毒识别方法及装置

Info

Publication number: CN111125702A
Application number: CN201911371096.1A
Authority: CN
Inventors: 向吉; 杨珩
Original assignee: Chengdu Knownsec Information Technology Co ltd
Current assignee: Chengdu Knownsec Information Technology Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08

Abstract

本申请提供一种病毒识别方法及装置，其中，病毒识别方法包括：利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取攻击者的攻击行为日志；根据攻击行为日志提取病毒的特征信息；将特征信息输入至病毒识别模型，识别病毒类型。因此，可以通过蜜罐技术引诱攻击者利用病毒进行攻击，以对攻击者的攻击行为进行检测，从而可以更加具有针对性和准确性地获取攻击者利用病毒进行攻击的攻击行为日志。然后，可以从上述攻击行为日志中提取多维度的多特征输入至病毒识别模型，从而可以降低正常数据的误判率，提高病毒识别的准确度。

Description

一种病毒识别方法及装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种病毒识别方法及装置。

背景技术

勒索病毒是近年来比较流行的一种新型电脑病毒，主要以邮件、程序木马、网页挂马的形式进行传播。该病毒性质恶劣、危害极大，一旦感染将给用户带来无法估量的损失。这种病毒利用各种加密算法对文件进行加密，被感染者一般无法解密，必须拿到解密的私钥才有可能破解。传统针对勒索病毒的识别方式，通常是过病毒某一类特征(比如调用文件加密库)来识别。但是，采用这种方式进行识别的准确度较低，当存在新型病毒时，会无法识别，从而导致被病毒攻击的后果。

发明内容

本申请实施例的目的在于提供一种病毒识别方法及装置，用以解决病毒识别准确度较低的技术问题。

为了实现上述目的，本申请实施例所提供的技术方案如下所示：

第一方面，本申请实施例提供一种病毒识别方法，包括：利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取所述攻击者的攻击行为日志；根据所述攻击行为日志提取所述病毒的特征信息；将所述特征信息输入至病毒识别模型，识别所述病毒的类型。因此，可以通过蜜罐技术引诱攻击者利用病毒进行攻击，以对攻击者的攻击行为进行检测，从而可以更加具有针对性和准确性地获取攻击者利用病毒进行攻击的攻击行为日志。然后，可以从上述攻击行为日志中提取多维度的多特征输入至病毒识别模型，从而可以降低正常数据的误判率，提高病毒识别的准确度。

在本申请的可选实施例中，在将所述特征信息输入至病毒识别模型，识别所述病毒类型之后，所述病毒识别方法还包括：根据所述病毒类型确定应对策略。因此，在确定病毒的类型之后，可以有针对性的确定应对策略，以防止该病毒造成进一步的威胁。

在本申请的可选实施例中，在所述将所述特征信息输入至病毒识别模型之前，所述病毒识别方法还包括：获取用于训练所述病毒识别模型的训练样本；根据所述训练样本确定所述病毒识别模型。因此，可以首先获取大量的训练样本，以对病毒识别模型进行训练，增加该病毒识别模型可以识别的病毒特征，从而提高对于病毒识别的准确度。

在本申请的可选实施例中，所述病毒识别模型为C4.5决策树模型；所述根据所述训练样本确定所述病毒识别模型，包括：根据所述训练样本构建所述C4.5决策树模型。因此，可以采用C4.5决策树模型作为病毒识别模型，从而使得对病毒的识别过程有更高的智能型、稳定性以及精确性，从而提高对于病毒识别的准确度。

在本申请的可选实施例中，所述根据所述训练样本构建所述C4.5决策树模型，包括：确定所述训练样本中的病毒特征信息集，其中，所述病毒特征信息集携带有对应的病毒类型标签；确定所述病毒特征信息集中每个特征的信息增益率；根据所述信息增益率最高的特征的特征值对数据进行划分，获得多个分支；去除所述信息增益率最高的特征，并在每个所述分支中重复根据所述信息增益率最高的特征的特征值对数据进行划分的步骤，直至所述分支不能再次划分，获得划分完成的C4.5决策树模型。

在本申请的可选实施例中，在所述获得划分完成的C4.5决策树模型之后，所述病毒识别方法还包括：获取用于测试所述C4.5决策树模型的测试样本；根据所述测试样本，对所述划分完成的C4.5决策树模型进行后剪枝，获得构建完成的所述C4.5决策树模型。因此，可以利用测试样本对的C4.5决策树模型进行后剪枝，避免由于训练样本太庞大造成的C4.5决策树模型过度拟合的问题，从而进一步提高对于病毒识别的准确度。

在本申请的可选实施例中，在将所述特征信息输入至病毒识别模型，识别所述病毒类型之后，所述病毒识别方法还包括：对所述病毒类型及对应的所述特征信息进行数据分析，获取出现次数大于预设阈值的公共特征；将所述公共特征回归输入所述病毒识别模型，以扩充所述病毒识别模型的特征库。因此，可以通过对病毒数据进行分析，统计分析得到病毒的公共行为以及公共特征，并利用分析得到的公共行为以及公共特征扩充病毒识别模型的特征库，以实现对病毒识别模型进行优化，从而可以有效的检测新型或者变种的病毒，进一步提高对于病毒识别的准确度。

第二方面，本申请实施例提供一种病毒识别装置，包括：第一获取模块，用于利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取所述攻击者的攻击行为日志；提取模块，用于根据所述攻击行为日志提取所述病毒的特征信息；识别模块，用于将所述特征信息输入至病毒识别模型，识别所述病毒的类型。因此，可以利用第一获取模块通过蜜罐技术引诱攻击者利用病毒进行攻击，以对攻击者的攻击行为进行检测，从而可以更加具有针对性和准确性地获取攻击者利用病毒进行攻击的攻击行为日志。然后，可以利用提取模块从上述攻击行为日志中提取多维度的多特征输入至病毒识别模型，从而可以降低正常数据的误判率，提高病毒识别的准确度。

在本申请的可选实施例中，所述病毒识别装置还包括：第一确定模块，用于根据所述病毒类型确定应对策略。因此，在确定病毒的类型之后，可以利用第一确定模块有针对性的确定应对策略，以防止该病毒造成进一步的威胁。

在本申请的可选实施例中，所述病毒识别装置还包括：第二获取模块，用于获取用于训练所述病毒识别模型的训练样本；第二确定模块，用于根据所述训练样本确定所述病毒识别模型。因此，可以首先利用第二获取模块获取大量的训练样本，以对病毒识别模型进行训练，增加该病毒识别模型可以识别的病毒特征，从而提高对于病毒识别的准确度。

在本申请的可选实施例中，所述病毒识别模型为C4.5决策树模型；所述第二确定模块还用于：根据所述训练样本构建所述C4.5决策树模型。因此，可以采用C4.5决策树模型作为病毒识别模型，从而使得对病毒的识别过程有更高的智能型、稳定性以及精确性，从而提高对于病毒识别的准确度。

在本申请的可选实施例中，所述第二确定模块还用于：确定所述训练样本中的病毒特征信息集，其中，所述病毒特征信息集携带有对应的病毒类型标签；确定所述病毒特征信息集中每个特征的信息增益率；根据所述信息增益率最高的特征的特征值对数据进行划分，获得多个分支；去除所述信息增益率最高的特征，并在每个所述分支中重复根据所述信息增益率最高的特征的特征值对数据进行划分的步骤，直至所述分支不能再次划分，获得划分完成的C4.5决策树模型。

在本申请的可选实施例中，所述病毒识别装置还包括：第三获取模块，用于获取用于测试所述C4.5决策树模型的测试样本；剪枝模块，用于根据所述测试样本，对所述划分完成的C4.5决策树模型进行后剪枝，获得构建完成的所述C4.5决策树模型。因此，可以利用剪枝模块利用测试样本对的C4.5决策树模型进行后剪枝，避免由于训练样本太庞大造成的C4.5决策树模型过度拟合的问题，从而进一步提高对于病毒识别的准确度。

在本申请的可选实施例中，所述病毒识别装置还包括：分析模块，用于对所述病毒类型及对应的所述特征信息进行数据分析，获取出现次数大于预设阈值的公共特征；优化模块，用于将所述公共特征回归输入所述病毒识别模型，以扩充所述病毒识别模型的特征库。因此，可以利用分析模块对病毒数据进行分析，统计分析得到病毒的公共行为以及公共特征，并利用优化模块利用分析得到的公共行为以及公共特征扩充病毒识别模型的特征库，以实现对病毒识别模型进行优化，从而可以有效的检测新型或者变种的病毒，进一步提高对于病毒识别的准确度。

第三方面，本申请实施例提供一种电子设备，包括：处理器、存储器和总线；所述处理器和所述存储器通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如第一方面中的病毒识别方法。

第四方面，本申请实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面中的病毒识别方法。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举本申请实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种病毒识别方法的流程图；

图2为本申请实施例提供的一种构建C4.5决策树模型的方法的流程图；

图3为本申请实施例提供的一种病毒识别装置的结构框图；

图4为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

勒索病毒是近年来比较流行的一种新型电脑病毒，主要以邮件、程序木马、网页挂马的形式进行传播。该病毒性质恶劣、危害极大，一旦感染将给用户带来无法估量的损失。勒索病毒一旦感染宿主机后，常常利用各种加密算法对将用户主机上的重要文件比如照片、文档、音频、视频、等几乎所有类型的文件进行加密，被感染者一般无法解密，必须拿到解密的私钥才有可能破，勒索方就会以此要挟用户缴纳赎金来赎回重要文件。

在现有技术中，针对传统勒索病毒的识别通常是通过病毒某一类特征(比如调用文件加密库)来识别，该方法的识别率不高，同时传统勒索病毒通常针对已存在的勒索病毒进行识别，无法识别新型勒索病毒。

基于上述问题，发明人提供了一种病毒识别方法，在该病毒识别方法中，通过蜜罐技术引诱攻击者利用病毒对主机进行攻击，在病毒攻击的同时对攻击者的攻击行为进行检测，并获得对应的攻击行为日志。然后，从上述攻击行为日志中提取多维度的多特征输入至病毒识别模型，从而可以降低正常数据的误判率，提高病毒识别的准确度。

下面对本申请实施例提供的病毒识别方法进行详细的介绍，其中，该病毒识别方法可以通过服务器执行。

请参照图1，图1为本申请实施例提供的一种病毒识别方法的流程图，该病毒识别方法可以包括如下步骤：

步骤S101：利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取攻击者的攻击行为日志。

步骤S102：根据攻击行为日志提取病毒的特征信息。

步骤S103：将特征信息输入至病毒识别模型，识别病毒的类型。

具体的，想要识别进行攻击的病毒时，需要保证在收集病毒的信息时不使被攻击的主机中的数据收到损伤，因此，可以利用蜜罐技术引诱攻击者进行攻击。其中，蜜罐技术是一种对攻击方进行欺骗的技术，通过布置一些作为诱饵的主机、网络服务或者信息，诱使攻击方对它们实施攻击，从而可以对攻击行为进行捕获和分析，了解攻击方所使用的工具与方法，推测攻击意图和动机，能够让防御方清晰地了解他们所面对的安全威胁，并通过技术和管理手段来增强实际系统的安全防护能力。因此，通过蜜罐技术监测攻击方的行为，能够更加具有针对性和准确性地获取其病毒的攻击行为日志。

作为一种实施方式，利用蜜罐技术引诱攻击者的方式可以为，在需要防护的每个虚拟局域网(Virtual Local Area Network，VLAN)中，准备一台独立的服务器，利用网络欺骗技术(常见的有模拟服务端口、模拟系统漏洞和应用服务等方式)设置诱捕探针、蜜诱(包括邮件蜜诱、文件蜜诱、网站蜜诱，采用面包屑、缺少防御补丁的微软Windows2003或者RedHat Linux等)、虚拟网际互连协议(Internet Protocol，IP)等诱导攻击行为，然后通过流量转发到仿真蜜罐集群进行行为捕获追踪溯源，然后进行对攻击行为的数据收集。其中，收集过程一般可以分为三层实现：最外层由防火墙来对出入蜜罐系统的网络连接进行日志记录；中间层由入侵检测系统(Intrusion Detection System，IDS)来完成，抓取蜜罐系统内所有的网络包；最里层由蜜罐主机来完成，捕获蜜罐主机的所有系统日志、用户击键序列和屏幕显示等信息。

在获取到攻击者利用病毒进行攻击时的攻击行为日志后，服务器可以从攻击行为日志中提取病毒的特征信息。作为一种实施方式，病毒的特征信息可以包括以关键特征信息以及行为特征信息。

举例来说，病毒的关键特征信息可以包括：第一种，通过文件名信息判断，具有pyd、lockedfile、lockymap等后缀名的文件可能是PyLocky病毒的特征，Clop后缀名可能是Clop病毒的特征，WNCRY后缀名可能是WannaCry病毒的特征等；第二种，http request可以记录是否存在频繁访问特定域名的程序并进行文件上传下载操作，作为病毒的特征信息；第三种，可以记录是否调用了系统加密算法库对主机本地文件进行加密和源文件的删除操作等；第四种，可以记录是否存在对系统445、135、137、138、139等高危端口频繁访问的记录等。

再例如，病毒的行为特征信息可以包括：第一种，通过脚本文件进行Http请求；第二种，通过脚本文件下载文件；第三种，读取远程服务器文件；第四种，收集计算机信息；第五种，遍历文件；第六种，调用加密算法库等。

需要说明的是，上述例子仅为本申请实施例提供的示例，可以理解，病毒的特征信息不限于上述特征，本领域技术人员可以根据实际情况进行合适的调整。

将提取的病毒特征信息输入至预先训练好的病毒识别模型中，从而获得病毒识别模型输出的病毒类型。其中，病毒识别模型的训练过程将在后续实施例中进行详细的介绍，此处不再赘述。

作为一种实施方式，在获取到病毒类型之后，即步骤S103之后，本申请实施例提供的病毒识别方法还可以包括如下步骤：

根据病毒类型确定应对策略。

也就是说，服务器在获取到病毒的类型之后，可以根据病毒的类型生成对应的应对策略，或者，服务器在获取到病毒的类型之后，可以接收工作人员根据病毒类型上传的应对策略。根据上述应对策略，服务器可以合理的应对攻击者的攻击，从而防止攻击造成的数据损失。

在本申请实施例中，可以通过蜜罐技术引诱攻击者利用病毒进行攻击，以对攻击者的攻击行为进行检测，从而可以更加具有针对性和准确性地获取攻击者利用病毒进行攻击的攻击行为日志。然后，可以从上述攻击行为日志中提取多维度的多特征输入至病毒识别模型，从而可以降低正常数据的误判率，提高病毒识别的准确度。

进一步的，在步骤S103之前，本申请实施例提供的病毒识别方法还可以包括如下步骤：

第一步，获取用于训练病毒识别模型的训练样本。

第二步，根据训练样本确定病毒识别模型。

具体的，在应用训练好的病毒识别模型对病毒进行识别之前，可以先对病毒识别模型进行模型训练。训练时，首先需要获取用于训练的训练样本，其中，训练样本指数据挖掘过程中用于训练数据挖掘模型的数据，在本申请实施例中，即为用于训练病毒识别模型的数据。作为一种实施方式，训练样本选择一般有以下要求：数据样本尽可能大、数据多样化，数据样本质量较高，从而使得训练得到的模型准确度较高。

在获取到训练样本后，便可以将训练样本输入至病毒识别模型中进行训练。在本申请实施例中，以病毒识别模型为C4.5决策树模型为例，对根据训练样本确定病毒识别模型的过程进行详细的介绍。需要说明的是，C4.5决策树模型仅为本申请实施例提供的一种示例，病毒识别模型还可以为其他模型，例如：KNN模型、卷积神经网络模型等，本申请实施例对此不作具体的限定。

请参照图2，图2为本申请实施例提供的一种构建C4.5决策树模型的方法的流程图，其中，根据训练样本构建C4.5决策树模型的步骤可以包括如下步骤：

步骤S201：确定训练样本中的病毒特征信息集。

步骤S202：确定病毒特征信息集中每个特征的信息增益率。

步骤S203：根据信息增益率最高的特征的特征值对数据进行划分，获得多个分支。

步骤S204：去除信息增益率最高的特征，并在每个分支中重复根据信息增益率最高的特征的特征值对数据进行划分的步骤，直至分支不能再次划分，获得划分完成的C4.5决策树模型。

具体的，C4.5算法是一种产生C4.5决策树模型的算法，该算法是对之前ID3算法的一个扩展。C4.5算法产生的决策树可以被用作分类目的，因此该算法也可以用于统计分类。C4.5算法与ID3算法一样使用了信息熵的概念，并和ID3一样通过学习数据来建立决策树。而决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系，是一种十分常用的分类方法。在本申请实施例中，可以利用C4.5决策树模型根据病毒的特征信息对病毒进行分类，以确定病毒的类型。

首先，需要建立C4.5决策树模型，该C4.5决策树模型可以由顺序连接的若干层组合，每层由顺序连接的若干节点组成，每个节点储存不同类型的病毒特征，不同病毒特征聚合输出最终结果。下面详细介绍构建C4.5决策树模型的详细过程：

第一步，确定训练样本中的病毒特征信息集。其中，病毒特征信息集携带有对应的病毒类型标签，在构建C4.5决策树模型之前，可以确定训练样本中各个病毒对应的特征，并将特征数据手动给其打上特征标签。

第二步，计算整个数据类别的信息熵Ent(D)，熵越大，不确定性就越大：

其中，γ为勒索病毒的特征分类数，ρ_k是特征分类后的样本数占比。

第三步，选取最好的数据集划分方式(这里指选取信息增益率最高的特征，亦为去除该特征后数据集增益率最高的特征)。

1)计算除去已经被使用的特征和正在被计算的特征的数据集的熵Ent(Dv)(v为当前被计算熵特征取值为v的样本集)，将其该特征每个特征值计算的Ent(Dv)进行加和按比例即得到使用该特征值进行划分之后，数据集的信息熵Ent(D)；

2)计算各个特征值的熵增(Ent-Ent(D))：

其中，D为数据的训练样本，D^v是分类后每个特征有V个选择，例如通过对特定域名访问频率和上传下载文件的特征，分类出其单一病毒特征的确认度有高中低三个选择，V是以D^v为这个类别的样本数，信息增益就变成了加上该特征后，信息熵减少了多少。不确定信息减少越多，得到的信息就越大(因此选择一个信息增益最大的作为结点。跟着这种方法不断递归判断下去，就会得到最终想要的决策树)。

3)计算所有特征信息增益的均值，选取信息增益高于均值的特征；

4)计算被选取的特征的固有值IV(a)；

5)使用各个特征的信息增益和固有值分别计算其增益率，选择最高的特征作为划分特征。

第四步，根据选取的特征，根据其取值对数据集进行划分，构建分支。

第五步，去除已使用的特征，在每个数据分支中重复第三步至第五步直到满足下列条件之一：

1)每个分支中所有数据的类别都相同；

2)所有特征都已被使用(都已经用来划分了数据集)(此情况下通常使用投票的方式选择数据类型，即选择类别的数量多的类型)。

在本申请实施例中，可以首先获取大量的训练样本，以对病毒识别模型进行训练，增加该病毒识别模型可以识别的病毒特征，从而提高对于病毒识别的准确度。

进一步的，在步骤S204之后，本申请实施例提供的病毒识别方法还可以包括如下步骤：

第一步，获取用于测试C4.5决策树模型的测试样本。

第二步，根据测试样本，对划分完成的C4.5决策树模型进行后剪枝，获得构建完成的C4.5决策树模型。

具体的，决策树在创建过程中，由于数据中的噪声和离群点，许多分支反应的是训练数据中的异常。剪枝方法是用来处理这种过分拟合的问题，通常剪枝方法都是使用统计度量，减去最不可靠的分支。其中，减枝方法分为先减枝和后剪枝，本申请实施例以后剪枝为例进行叙述。

后剪枝是由完全生长的树剪去子树而形成，通过删除节点的分支并用树叶来替换它，树叶一般用子树中最频繁的类别来标记。C4.5决策树模型采用悲观剪枝法，它使用训练集生成决策树，然后对生成的决策树进行剪枝，通过对比剪枝前后分类错误率来验证是否进行剪枝。在本申请实施例中，可以利用测试样本对C4.5决策树模型进行后剪枝，输出最终适用于识别病毒的病毒识别模型。

在C4.5决策树模型构建完成后，6可以利用生成完毕的决策树对解析后的攻击行为日志进行测试，从第一个节点开始测试验证，当节点验证不通过时，进入下一层节点计算，直到到达某个叶结点，从而找到该节点记录所在的特征类型和标签，最后识别出该特征数据是否为病毒的行为记录，从而识别病毒及其类型。

在本申请实施例中，可以利用测试样本对的C4.5决策树模型进行后剪枝，避免由于训练样本太庞大造成的C4.5决策树模型过度拟合的问题，从而进一步提高对于病毒识别的准确度。

进一步的，在步骤S103之后，本申请实施例提供的病毒识别方法还包括如下步骤：

第一步，对病毒类型及对应的特征信息进行数据分析，获取出现次数大于预设阈值的公共特征。

第二步，将公共特征回归输入病毒识别模型，以扩充病毒识别模型的特征库。

具体的，可以通过对大量病毒识别模型计算得到的病毒类型以及对应的特征信息进行数据分析，提取数据中出现次数大于预设阈值的公共特征。这些公共特征可能是在之前特征提取的过程中没有关注的特征，但是经过大量数据的统计，大部分病毒都存在上述特征，因此，可以将该特征回归输入到决策树中进行模型优化，进一步提高后续病毒识别的精确度。作为一种实施方式，对于C4.5决策树模型，将公共特征回归输入病毒识别模型之后，可以在模型中增加新的节点，以对病毒进行更加准确的识别。

在本申请实施例中，可以通过对病毒数据进行分析，统计分析得到病毒的公共行为以及公共特征，并利用分析得到的公共行为以及公共特征扩充病毒识别模型的特征库，以实现对病毒识别模型进行优化，从而可以有效的检测新型或者变种的病毒，进一步提高对于病毒识别的准确度，同时可以有效的检测新型或者变种的病毒类型。

请参照图3，图3为本申请实施例提供的一种病毒识别装置的结构框图，该病毒识别装置300包括：第一获取模块301，用于利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取所述攻击者的攻击行为日志；提取模块302，用于根据所述攻击行为日志提取所述病毒的特征信息；识别模块303，用于将所述特征信息输入至病毒识别模型，识别所述病毒类型。

在本申请实施例中，可以利用第一获取模块301通过蜜罐技术引诱攻击者利用病毒进行攻击，以对攻击者的攻击行为进行检测，从而可以更加具有针对性和准确性地获取攻击者利用病毒进行攻击的攻击行为日志。然后，可以利用提取模块302从上述攻击行为日志中提取多维度的多特征输入至病毒识别模型，从而可以降低正常数据的误判率，提高病毒识别的准确度。

进一步的，所述病毒识别装置300还包括：第一确定模块，用于根据所述病毒类型确定应对策略。

在本申请实施例中，在确定病毒的类型之后，可以利用第一确定模块有针对性的确定应对策略，以防止该病毒造成进一步的威胁。

进一步的，所述病毒识别装置300还包括：第二获取模块，用于获取用于训练所述病毒识别模型的训练样本；第二确定模块，用于根据所述训练样本确定所述病毒识别模型。

在本申请实施例中，可以首先利用第二获取模块获取大量的训练样本，以对病毒识别模型进行训练，增加该病毒识别模型可以识别的病毒特征，从而提高对于病毒识别的准确度。

进一步的，所述病毒识别模型为C4.5决策树模型；所述第二确定模块还用于：根据所述训练样本构建所述C4.5决策树模型。

在本申请实施例中，可以采用C4.5决策树模型作为病毒识别模型，从而使得对病毒的识别过程有更高的智能型、稳定性以及精确性，从而提高对于病毒识别的准确度。

进一步的，所述第二确定模块还用于：确定所述训练样本中的病毒特征信息集，其中，所述病毒特征信息集携带有对应的病毒类型标签；确定所述病毒特征信息集中每个特征的信息增益率；根据所述信息增益率最高的特征的特征值对数据进行划分，获得多个分支；去除所述信息增益率最高的特征，并在每个所述分支中重复根据所述信息增益率最高的特征的特征值对数据进行划分的步骤，直至所述分支不能再次划分，获得划分完成的C4.5决策树模型。

进一步的，所述病毒识别装置300还包括：第三获取模块，用于获取用于测试所述C4.5决策树模型的测试样本；剪枝模块，用于根据所述测试样本，对所述划分完成的C4.5决策树模型进行后剪枝，获得构建完成的所述C4.5决策树模型。

在本申请实施例中，可以利用剪枝模块利用测试样本对的C4.5决策树模型进行后剪枝，避免由于训练样本太庞大造成的C4.5决策树模型过度拟合的问题，从而进一步提高对于病毒识别的准确度。

进一步的，所述病毒识别装置300还包括：分析模块，用于对所述病毒类型及对应的所述特征信息进行数据分析，获取出现次数大于预设阈值的公共特征；优化模块，用于将所述公共特征回归输入所述病毒识别模型，以扩充所述病毒识别模型的特征库。

在本申请实施例中，可以利用分析模块对病毒数据进行分析，统计分析得到病毒的公共行为以及公共特征，并利用优化模块利用分析得到的公共行为以及公共特征扩充病毒识别模型的特征库，以实现对病毒识别模型进行优化，从而可以有效的检测新型或者变种的病毒，进一步提高对于病毒识别的准确度。

请参照图4，图4为本申请实施例提供的一种电子设备的结构框图，该电子设备包括：至少一个处理器401，至少一个通信接口402，至少一个存储器403和至少一个通信总线404。其中，通信总线404用于实现这些组件直接的连接通信，通信接口402用于与其他节点设备进行信令或数据的通信，存储器403存储有处理器401可执行的机器可读指令。当电子设备运行时，处理器401与存储器403之间通过通信总线404通信，机器可读指令被处理器401调用时执行上述病毒识别方法。

例如，本申请实施例的处理器401通过通信总线404从存储器403读取计算机程序并执行该计算机程序可以实现如下方法：步骤S201：确定训练样本中的病毒特征信息集。步骤S202：确定病毒特征信息集中每个特征的信息增益率。步骤S203：根据信息增益率最高的特征的特征值对数据进行划分，获得多个分支。步骤S204：去除信息增益率最高的特征，并在每个分支中重复根据信息增益率最高的特征的特征值对数据进行划分的步骤，直至分支不能再次划分，获得划分完成的C4.5决策树模型。

处理器401可以是一种集成电路芯片，具有信号处理能力。上述处理器401可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器403可以包括但不限于随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

可以理解，图4所示的结构仅为示意，电子设备还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中，电子设备可以是，但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备，还可以是虚拟机等虚拟设备。另外，电子设备也不一定是单台设备，还可以是多台设备的组合，例如服务器集群，等等。于本申请实施例中，病毒识别方法中的服务器可以采用图4示出的电子设备实现。

本申请实施例还提供一种计算机程序产品，包括存储在非暂态计算机可读存储介质上的计算机程序，计算机程序包括程序指令，当程序指令被计算机执行时，计算机能够执行上述实施例中病毒识别方法的步骤，例如包括：利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取所述攻击者的攻击行为日志；根据所述攻击行为日志提取所述病毒的特征信息；将所述特征信息输入至病毒识别模型，识别所述病毒类型。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种病毒识别方法，其特征在于，包括：

利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取所述攻击者的攻击行为日志；

根据所述攻击行为日志提取所述病毒的特征信息；

将所述特征信息输入至病毒识别模型，识别所述病毒的类型。

2.根据权利要求1所述的病毒识别方法，其特征在于，在将所述特征信息输入至病毒识别模型，识别所述病毒类型之后，所述病毒识别方法还包括：

根据所述病毒类型确定应对策略。

3.根据权利要求1所述的病毒识别方法，其特征在于，在所述将所述特征信息输入至病毒识别模型之前，所述病毒识别方法还包括：

获取用于训练所述病毒识别模型的训练样本；

根据所述训练样本确定所述病毒识别模型。

4.根据权利要求3所述的病毒识别方法，其特征在于，所述病毒识别模型为C4.5决策树模型；

所述根据所述训练样本确定所述病毒识别模型，包括：

根据所述训练样本构建所述C4.5决策树模型。

5.根据权利要求4所述的病毒识别方法，其特征在于，所述根据所述训练样本构建所述C4.5决策树模型，包括：

确定所述训练样本中的病毒特征信息集，其中，所述病毒特征信息集携带有对应的病毒类型标签；

确定所述病毒特征信息集中每个特征的信息增益率；

根据所述信息增益率最高的特征的特征值对数据进行划分，获得多个分支；

去除所述信息增益率最高的特征，并在每个所述分支中重复根据所述信息增益率最高的特征的特征值对数据进行划分的步骤，直至所述分支不能再次划分，获得划分完成的C4.5决策树模型。

6.根据权利要求5所述的病毒识别方法，其特征在于，在所述获得划分完成的C4.5决策树模型之后，所述病毒识别方法还包括：

获取用于测试所述C4.5决策树模型的测试样本；

根据所述测试样本，对所述划分完成的C4.5决策树模型进行后剪枝，获得构建完成的所述C4.5决策树模型。

7.根据权利要求1-6任一项所述的病毒识别方法，其特征在于，在将所述特征信息输入至病毒识别模型，识别所述病毒类型之后，所述病毒识别方法还包括：

对所述病毒类型及对应的所述特征信息进行数据分析，获取出现次数大于预设阈值的公共特征；

将所述公共特征回归输入所述病毒识别模型，以扩充所述病毒识别模型的特征库。

8.一种病毒识别装置，其特征在于，包括：

第一获取模块，用于利用蜜罐技术引诱攻击者利用病毒进行攻击，并获取所述攻击者的攻击行为日志；

提取模块，用于根据所述攻击行为日志提取所述病毒的特征信息；

识别模块，用于将所述特征信息输入至病毒识别模型，识别所述病毒的类型。

9.一种电子设备，其特征在于，包括：处理器、存储器和总线；

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的病毒识别方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令被计算机运行时，使所述计算机执行如权利要求1-7任一项所述的病毒识别方法。