CN110210215B

CN110210215B - 一种病毒检测的方法以及相关装置

Info

Publication number: CN110210215B
Application number: CN201810236175.0A
Authority: CN
Inventors: 雷经纬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2023-04-14
Anticipated expiration: 2038-03-21
Also published as: CN110210215A

Abstract

本发明实施例公开了一种病毒检测的方法，包括：获取待测文件的目标特征向量；通过病毒检测模型确定所述目标特征向量所对应的目标样本标签，其中，所述病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，所述病毒检测模型用于表示特征向量与样本标签之间的关系；根据所述目标样本标签确定所述待测文件的病毒检测结果。本发明实施例中还提供了一种病毒检测装置。本发明实施例一方面可以节省人工提取特征码的过程，另一方面，能够感知未知病毒，有利于提升方案的安全性。

Description

一种病毒检测的方法以及相关装置

技术领域

本发明涉及信息安全技术领域，尤其涉及一种病毒检测的方法以及相关装置。

背景技术

随着计算机技术和网络技术的发展，病毒的种类越来越多，破坏性和隐蔽性很强的病毒长期存在。病毒是一个程序或是一段可执行码，就像生物病毒一样，具有自我繁殖、互相传染以及激活再生等生物病毒特征。它们能把自身附着在各种类型的文件上，当文件被复制或从一个用户传送到另一个用户时，它们就随同文件一起蔓延开来。

目前，对于病毒的检测通常采用如下方式，首先，对人工标注出来的病毒样本进行分析，然后从病毒样本中抽取二进制片段作为特征码，如果待测文件命中特征码，则表示该文件携带病毒。

然而，采用上述方式判断文件中是否携带病毒，存在如下问题：由于特征码是提前确定好的，一旦出现新型病毒，则难以检测出该新型病毒，换言之，现有方案无法对未知病毒进行检测，不利于信息安全。

发明内容

本发明实施例提供了一种病毒检测的方法以及相关装置，一方面可以节省人工提取特征码的过程，另一方面，能够感知未知病毒，有利于提升方案的安全性。

本发明的第一方面第一提供了一种病毒检测的方法，包括：

获取待测文件的目标特征向量；

通过病毒检测模型确定所述目标特征向量所对应的目标样本标签，其中，所述病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，所述病毒检测模型用于表示特征向量与样本标签之间的关系；

根据所述目标样本标签确定所述待测文件的病毒检测结果。

本发明的第二方面第一提供了一种病毒检测装置，包括：

获取模块，用于获取待测文件的目标特征向量；

确定模块，用于通过病毒检测模型确定所述获取模块获取的所述目标特征向量所对应的目标样本标签，其中，所述病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，所述病毒检测模型用于表示特征向量与样本标签之间的关系；

所述确定模块，还用于根据所述目标样本标签确定所述待测文件的病毒检测结果。

本发明的第三方面第一提供了一种病毒检测装置，所述病毒检测装置包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待测文件的目标特征向量；

根据所述目标样本标签确定所述待测文件的病毒检测结果；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种病毒检测的方法，首先，病毒检测装置获取待测文件的目标特征向量，然后通过病毒检测模型确定目标特征向量所对应的目标样本标签，其中，病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，最后，病毒检测装置根据目标样本标签确定待测文件的病毒检测结果。通过上述方式，一方面可以节省人工提取特征码的过程，直接利用病毒检测模型分析得到待测文件的样本标签，该样本标签可表示待测文件是否具有病毒，另一方面，病毒检测模型是通过大量正负样本训练得到的，具有较好的病毒预测能力，从而能够感知未知病毒，有利于提升方案的安全性。

附图说明

图1为本发明实施例中病毒检测系统的一个架构示意图；

图2为本发明实施例中病毒检测系统的一个调用关系示意图；

图3为本发明实施例中病毒检测的方法一个实施例示意图；

图4为本发明实施例中获取目标特征向量的一个流程示意图；

图5为本发明实施例中训练病毒检测模型的一个流程示意图；

图6为本发明实施例中病毒检测模型的一个实施例示意图；

图7为本发明实施例中检测待测文件的一个流程示意图；

图8为本发明应用场景中病毒检测的一个流程示意图；

图9为本发明实施例中病毒检测装置的一个实施例示意图；

图10为本发明实施例中病毒检测装置的另一个实施例示意图；

图11为本发明实施例中病毒检测装置的一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明主要可应用于安卓(Android)病毒的检测，此外，也可以应用于其他类型的病毒检测，例如计算机病毒检测、苹果系统(iphone operation system，iOS)病毒检测以及微软系统(Windows)病毒检测等，本方案将以Android病毒检测为例进行介绍。Android会同一系列核心应用程序包一起发布，该应用程序包包括客户端、短信息服务(Short Message Service，SMS)程序、日历、地图、浏览器以及联系人管理程序等。

与此同时，Android系统也面临这Android病毒的侵害，例如“百脑虫木马”(会感染推广类应用程序)、“蜥蜴之尾木马”(会感染系统库文件，替换系统文件，注入系统进程，窃取用户信息以及短信等)以及“权限杀手”(会对抗安全软件、窃取短信、弹广告、推广以及刷流量)等。本方案不但可以对这些已知的Android病毒进行检测，还可以对其他未知的Android病毒进行检测。

请参阅图1，图1为本发明实施例中病毒检测系统的一个架构示意图，如图所示，本方案中的病毒检测装置可部署于服务器，在服务器得到检测结果之后，将该检测结果发送至终端设备，以使得用户通过终端设备的显示界面了解待测文件的检测结果。可选地，本方案中的病毒检测装置也可部署于终端设备，由终端设备直接对待测文件进行检测，并将检测结果展示于前端的显示界面。

本发明中的病毒检测装置可包括三个逻辑模块，每个逻辑模块用于实现相应的功能。请参阅图2，图2为本发明实施例中病毒检测系统的一个调用关系示意图，如图所示，这三个逻辑模块分别为行为数据提取模块、模型训练模块以及检测流程控制模块。其中，行为数据提取模块是一个独立的模块，被另外两个模块调用。通过模型训练模块输入的是一批Android病毒样本和Android安全样本，模型训练模块调用行为数据提取模块得到训练样本的特征向量，然后输入至人工智能(Artificial Intelligence，AI)模型得到模型文件。检测流程控制模块则调用行为数据提取模块，以得到待测文件的特征向量，最后将待测文件送入至AI模型，得到待测样本的安全状态。

下面将从病毒检测装置的角度，对本发明中病毒检测的方法进行介绍，请参阅图2，本发明实施例中病毒检测的方法一个实施例包括：

101、获取待测文件的目标特征向量；

本实施例中，首先，病毒检测装置接收病毒检测指令，病毒检测指令中携带有待测文件标识，通过该标识就能确定待测文件。然后，对待测文件进行向量的提取，并得到目标特征向量。

102、通过病毒检测模型确定目标特征向量所对应的目标样本标签，其中，病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，病毒检测模型用于表示特征向量与样本标签之间的关系；

本实施例中，病毒检测装置将目标特征向量输入至预先训练得到的病毒检测模型，并通过该模型输出待测文件的目标样本标签。

其中，病毒检测模型是采用大量正样本特征向量以及大量负样本特征向量训练得到的，将这些正样本特征向量和负样本特征向量加入至AI模型进行训练，可以得到一个模型库文件，这些模型库文件采用样本标签(比如“1”表示为病毒样本，“0”表示为安全样本)表示是否具有病毒。待测文件的目标特征向量在通过病毒检测模型之后，也会输出一个对应的目标样本标签。

103、根据目标样本标签确定待测文件的病毒检测结果。

本实施例中，病毒检测装置根据目标样本标签确定该待测文件的病毒检测结果，并可以将病毒检测结果发送至客户端，用户即可通过客户端了解待测文件是否为安全情况。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的病毒检测的方法第一个可选实施例中，获取待测文件的目标特征向量，可以包括：

获取待检测文件的第一日志特征向量、第二日志特征向量和第三日志特征向量中的至少一个特征向量，其中，至少一个特征向量为目标特征向量；

第一日志特征向量用于表示事件触发时间与事件类型之间的关系；

第二日志特征向量用于表示事件类型与事件类型出现次数之间的关系；

第三日志特征向量用于表示事件类型与事件类型出现概率之间的关系。

本实施例中，将介绍如何获取待测文件的目标特征向量，目标特征向量可以是第一日志特征向量、第二日志特征向量和第三日志特征向量中的至少一个特征向量。

具体地，请参阅图4，图4为本发明实施例中获取目标特征向量的一个流程示意图，如图所示，步骤201中，获取待测文件，其中，待测文件可以是图片文件、视频文件、文档文件、音频文件或者应用程序等；步骤202中，将待测文件发送至模拟器中运行，模拟器具体可以是Android模拟器，该模拟器是一种运行环境，在这个运行环境下执行日志记录功能，当待测文件在模拟器中运行时，便会触发某个功能的执行，此时可输出一条日志信息，其中日志信息包含两个字段，即事件类型字段和事件触发时间字段。步骤203中，病毒检测装置会提取在模拟器中运行的日志信息，最后在步骤204中，将日志信息转换为目标特征向量。

下面将结合表1说明如何将日志信息转换为目标特征向量。

表1

根据表1所示的日志信息，可以得到第一日志特征向量、第二日志特征向量和第三日志特征向量，在实际应用中，既可以同时采用这三个日志特征向量作为目标特征向量，也可以选择其中的一个或两个日志特征向量作为目标特征向量，通常情况下，选择较多的日志特征向量作为目标特征向量能够提升输出结果的准确性。

第一日志特征向量用于表示事件触发时间与事件类型之间的关系，以表1为例，第一日志特征向量可以按照触发时间增长排序，将所有的事件类型标识号(identification，ID)(数字)直接组成一串数字，表1所对应的第一日志特征向量为[1 5 1 1 8 9 4 5 2 47]。

第二日志特征向量用于表示事件类型与事件类型出现次数之间的关系，以表1为例，统计每一个id出现的次数，按照每个id出现的次数从前往后排列得到一组特征向量，表1所对应的第二日志特征向量为[3 1 0 2 2 0 1 1 1]。

第三日志特征向量用于表示事件类型与事件类型出现概率之间的关系，以表1为例，统计每一个id是否出现，出现记为1否则记为0，从前往后排列得到一组特征向量，表1所对应的第三日志特征向量为[1 1 0 1 1 0 1 1 1 0]。

需要说明的是，在实际应用中，还可以根据日志信息获取其他的日志特征向量，且这些日志特征向量之间是等价选择的。

其次，本发明实施例中，病毒检测装置可以获取待测文件的第一日志特征向量、第二日志特征向量和第三日志特征向量中的至少一个特征向量。通过上述方式，可根据具体情况决定所获取的目标特征向量可以包括哪些内容，且目标特征向量与事件类型具有关联关系，从而提升目标特征向量的可靠性。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的病毒检测的方法第二个可选实施例中，通过病毒检测模型确定目标特征向量所对应的目标样本标签之前，还可以包括：

获取正样本特征向量以及负样本特征向量，其中，正样本特征向量包含至少一个正样本日志特征向量，负样本特征向量包含至少一个负样本日志特征向量；

对正样本特征向量以及负样本特征向量进行训练，得到病毒检测模型，其中，病毒检测模型采用并行连接的神经网络结构。

本实施例中，将介绍如何训练得到病毒检测模型，下面将结合图5介绍如何训练得到病毒检测模型，请参阅图5，图5为本发明实施例中训练病毒检测模型的一个流程示意图，如图所示，步骤301中，先获取一批正样本和负样本，其中，正样本为病毒样本，而负样本为安全样本。步骤302中，同样需要提取各个正样本的至少一个正样本日志特征向量，以及各个负样本的至少一个负样本日志特征向量。

在步骤303中，采用AI模型对正样本特征向量以及负样本特征向量进行训练，其中，AI模型是一种基于神经网络算法的自定义神经网络，为了便于理解，请参阅图6，图6为本发明实施例中病毒检测模型的一个实施例示意图，如图所示，以AI模型为卷积神经网络(Convolutional Neural Network，CNN)模型为例进行介绍，特征向量1表示第一正样本日志特征向量和第一负样本日志特征向量，特征向量2表示第二正样本日志特征向量和第二负样本日志特征向量，特征向量3表示第三正样本日志特征向量和第三负样本日志特征向量。分别对特征向量进行卷积和池化处理，再依次输入至拼接层和全连接层，最后形成病毒检测模型。

可以理解的是，图6是由三个CNN模型拼接而成的病毒检测模型，在实际应用中，还也可以采用循环神经网络(Recurrent Neural Networks，RNN)模型或者深度神经网络(Deep Neural Network，DNN)模型进行训练，此处不作限定。

请继续参阅图5，在步骤304中，对正样本特征向量以及负样本特征向量进行病毒检测模型的训练，可以得到一个模型库文件。该模型库文件可被存储复制，且模型库文件可以理解为一种配置文件。

其次，本发明实施例中，病毒检测装置获取正样本特征向量以及负样本特征向量，然后对正样本特征向量以及负样本特征向量进行训练，以得到病毒检测模型，其中，病毒检测模型采用并行连接的神经网络结构。通过上述方式，能够采用多个神经网络并行连接的方式，进而提升病毒检测模型的可靠性。

可选地，在上述图2对应的第二个实施例的基础上，本发明实施例提供的病毒检测的方法第三个可选实施例中，至少一个正样本日志特征向量包括第一正样本日志特征向量，至少一个负样本日志特征向量包括第一负样本日志特征向量；

获取正样本特征向量以及负样本特征向量，可以包括：

获取正样本所对应的事件类型以及事件触发时间，以及负样本所对应的事件类型以及事件触发时间；

按照事件触发时间排序规则、正样本所对应的事件类型以及事件触发时间，确定第一正样本日志特征向量；

按照事件触发时间排序规则、负样本所对应的事件类型以及事件触发时间，确定第一负样本日志特征向量。

本实施例中，将介绍如何获取正样本特征向量以及负样本特征向量，与图2对应的第一个可选实施例不同的是，正样本特征向量属于病毒样本的特征向量，而负样本特征向量属于安全样本的特征向量。下面将结合表2说明如何将日志信息转换为正样本特征向量和负样本特征向量。

表2

根据表2所示的日志信息，可以得到第一正样本日志特征向量和第一负样本日志特征向量，其中，第一正样本日志特征向量和第一负样本日志特征向量用于表示事件触发时间与事件类型之间的关系，以表2为例，第一正样本日志特征向量和第一负样本日志特征向量可以按照触发时间增长排序，将所有的事件类型标识号ID(数字)直接组成一串数字，表2对应的第一正样本日志特征为[1 5 1 1 8]，第一负样本日志特征向量为[9 4 5 2 47]。

可以理解的是，事件触发时间排序规则可以是按照触发时间增长排序，也可以按照触发时间减小排序，此处不作限定。

再次，本发明实施例中，病毒检测装置可以按照事件触发时间排序规则、正样本所对应的事件类型以及事件触发时间，确定第一正样本日志特征向量，并按照事件触发时间排序规则、负样本所对应的事件类型以及事件触发时间，确定第一负样本日志特征向量。通过上述方式，能够得到合理的第一正样本日志特征向量和第一负样本日志特征向量，有利于后续的模型训练，从而提升方案的可行性和实用性。

可选地，在上述图2对应的第二个实施例的基础上，本发明实施例提供的病毒检测的方法第四个可选实施例中，至少一个正样本日志特征向量包括第二正样本日志特征向量，至少一个负样本日志特征向量包括第二负样本日志特征向量；

获取正样本特征向量以及负样本特征向量，可以包括：

获取正样本所对应的事件类型以及事件类型的出现次数，以及负样本所对应的事件类型以及事件类型的出现次数；

按照正样本所对应的事件类型以及事件类型的出现次数，确定第二正样本日志特征向量；

按照负样本所对应的事件类型以及事件类型的出现次数，确定第二负样本日志特征向量。

本实施例中，将介绍如何获取正样本特征向量以及负样本特征向量，与图2对应的第一个可选实施例不同的是，正样本特征向量属于病毒样本的特征向量，而负样本特征向量属于安全样本的特征向量。下面将再次结合表2说明如何将日志信息转换为正样本特征向量和负样本特征向量。

根据表2所示的日志信息，可以得到第二正样本日志特征向量和第二负样本日志特征向量，其中，第二正样本日志特征向量和第二负样本日志特征向量用于表示事件类型与事件类型出现次数之间的关系，以表2为例，统计每一个事件类型ID出现的次数，从前往后排列得到一组特征向量，表2对应的第二正样本日志特征为[3 0 0 0 1 0 0 1 0]，第二负样本日志特征向量为[0 1 02 1 0 1 0 1]。

可以理解的是，可以是按照每一个事件类型ID出现次数增加的顺序排列，也可以按照每一个事件类型ID出现次数减少的顺序排列，此处不作限定。

再次，本发明实施例中，病毒检测装置按照正样本所对应的事件类型以及事件类型的出现次数，确定第二正样本日志特征向量，并且按照负样本所对应的事件类型以及事件类型的出现次数，确定第二负样本日志特征向量。通过上述方式，能够得到合理的第三正样本日志特征向量和第三负样本日志特征向量，有利于后续的模型训练，从而提升方案的可行性和实用性。

可选地，在上述图2对应的第二个实施例的基础上，本发明实施例提供的病毒检测的方法第五个可选实施例中，至少一个正样本日志特征向量包括第三正样本日志特征向量，至少一个负样本日志特征向量包括第三负样本日志特征向量；

获取正样本特征向量以及负样本特征向量，可以包括：

获取正样本所对应的事件类型以及事件类型的出现概率，以及负样本所对应的事件类型以及事件类型的出现概率；

按照正样本所对应的事件类型以及事件类型的出现概率，确定第三正样本日志特征向量；

按照负样本所对应的事件类型以及事件类型的出现概率，确定第三负样本日志特征向量。

根据表2所示的日志信息，可以得到第三正样本日志特征向量和第三负样本日志特征向量，其中，第三正样本日志特征向量和第三负样本日志特征向量用于表示事件类型与事件类型出现概率之间的关系，以表2为例，统计每一个事件类型ID出现的频率，出现记为1否则记为0，表2对应的第三正样本日志特征为[1 1 0 1 1]，第三负样本日志特征向量为[0 1 1 1 0]。

再次，本发明实施例中，病毒检测装置可以按照正样本所对应的事件类型以及事件类型的出现概率，确定第三正样本日志特征向量，并且按照负样本所对应的事件类型以及事件类型的出现概率，确定第三负样本日志特征向量。通过上述方式，能够得到合理的第三正样本日志特征向量和第三负样本日志特征向量，有利于后续的模型训练，从而提升方案的可行性和实用性。

可选地，在上述图2以及图2对应的第一至第五个实施例中任一项的基础上，本发明实施例提供的病毒检测的方法第六个可选实施例中，通过病毒检测模型确定目标特征向量所对应的目标样本标签，可以包括：

将第一日志特征向量、第二日志特征向量和第三日志特征向量的至少一个特征向量输入至病毒检测模型，得到目标样本标签，其中，病毒检测模型与目标特征向量具有对应关系。

本实施例中，病毒检测模型与目标特征向量具有对应关系，如果病毒检测模型是由第一正样本日志特征向量和第一负样本日志特征向量训练得到的，那么目标特征向量即为第一日志特征向量。如果病毒检测模型是由第二正样本日志特征向量和第二负样本日志特征向量训练得到的，那么目标特征向量即为第二日志特征向量。如果病毒检测模型是由第三正样本日志特征向量和第三负样本日志特征向量训练得到的，那么目标特征向量即为第三日志特征向量。如果病毒检测模型是由第一正样本日志特征向量、第一负样本日志特征向量、第二正样本日志特征向量、第二负样本日志特征向量、第三正样本日志特征向量以及第三负样本日志特征向量训练得到的，那么目标特征向量即为第一日志特征向量、第二日志特征向量和第三日志特征向量。以上仅为示意，并非穷举所有情形。

具体地，请参阅图7，图7为本发明实施例中检测待测文件的一个流程示意图，如图所示，步骤401中，获取一批正样本和负样本，其中，正样本通常是指病毒样本，负样本通常是指安全样本；

步骤402中，分别提取正样本的特征向量和负样本的特征向量；

步骤403中，将正样本的特征向量和负样本的特征向量输入至AI模型进行训练；

步骤404中，进行AI模型训练之后可以得到一个模型库文件，该模型库文件可被存储复制，供后续病毒检测调用，这里的模型库文件可以理解为一种配置文件；

步骤405中，获取待测文件；

步骤406中，提取该待测文件的特征向量，并将待测文件的特征向量输入至AI模型中，并输出待测文件的样本标签；

步骤407中，判断待测文件的样本标签是否属于正标签，若是，则进入步骤408，反之，若不属于正标签，则跳转至步骤409；

步骤408中，确定该待测文件为病毒文件；

步骤409中，无法判定该待测文件的安全情况。

进一步地，本发明实施例中，病毒检测装置通过病毒检测模型确定目标特征向量所对应的目标样本标签，具体可以是将第一日志特征向量、第二日志特征向量和第三日志特征向量的至少一个特征向量输入至病毒检测模型，得到目标样本标签，其中，病毒检测模型与日志特征向量具有对应关系。通过上述方式，按照病毒检测模型输入相应的日志特征向量可以得到目标样本标签，病毒检测模型可根据实际需求进行训练，从而提升方案的灵活性和实用性。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供的病毒检测的方法第七个可选实施例中，根据目标样本标签确定待测文件的病毒检测结果，可以包括：

若目标样本标签为正标签，则确定待测文件为病毒文件；

若目标样本标签为负标签，则确定待测文件为安全文件。

本实施例中，病毒检测模型是采用大量正样本特征向量以及大量负样本特征向量训练得到的，将这些正样本特征向量和负样本特征向量加入至AI模型进行训练，可以得到一个模型库文件，这些模型库文件采用样本标签表示是否具有病毒。待测文件的目标特征向量在通过病毒检测模型之后，也会输出一个对应的目标样本标签。

如果输出的目标样本标签是正标签，则说明该待测文件是病毒文件，反之，如果输出的目标样本标签是负标签，则说明该待测文件是安全文件或者未知安全性的文件。这是因为尽管采用了病毒检测模型可以预测一些未知的病毒，但是也难以保证所有的病毒都能被检测出来，所以对于负标签的待测文件，可以暂时认为是安全的文件。

需要说明的是，正标签表示病毒标签，可以表示为“1”，而负标签表示暂时安全的标签，可以表示为“0”，在实际应用中，正标签和负标签还可以采用其他的形式来表示，此处不做限定。

其次，本发明实施例中，病毒检测装置根据病毒检测结果确定该待测文件的安全性，如果目标样本标签为正标签，则确定待测文件为病毒文件，反之如果目标样本标签为负标签，则确定待测文件为安全文件。通过上述方式，利用病毒检测模型对待测文件的目标样本标签进行预测，得到的目标样本标签与病毒标签一致就能够确定待测文件具有病毒，实现待测文件的病毒预测能力，从而能够感知未知病毒，有利于提升方案的安全性。

为了便于理解，下面将结合图8介绍病毒检测的流程，请参阅图8，图8为本发明应用场景中病毒检测的一个流程示意图，如图所示，具体地：

步骤501中，开始进行病毒检测；

步骤502中，选择一批用于病毒检测模型训练的正样本和负样本；

步骤503中，选择一个待测文件；

步骤504中具体可以分为四个步骤，步骤5041中获取正样本和负样本，或者获取待测文件，步骤5042中将正样本和负样本加入至模拟器中运行，或者将待测文件加入至模拟器中运行，接下来，在步骤5043中提取正样本和负样本所对应的日志信息，或者提取待测文件的日志信息，在步骤5044中将正样本和负样本所对应的日志信息转换为特征向量，或者将待测文件的日志信息转换为特征向量；

步骤505中，将正样本的特征向量和负样本的特征向量输入至AI模型进行训练；

步骤506中，进行模型训练之后可以得到一个模型库文件，该模型库文件可被存储复制，供后续病毒检测调用，这里的模型库文件可以理解为一种配置文件；

步骤507中，提取该待测文件的特征向量，并将待测文件的特征向量输入至AI模型中；

步骤508中，利用模型库文件训练得到AI模型，即病毒检测模型，可以得到待测文件的样本标签；

步骤509中，判断待测文件的样本标签是否属于正标签，若是，则进入步骤511，反之，若不属于正标签，则跳转至步骤510；

步骤510中，确定该待测文件为病毒文件；

步骤511中，无法判定该待测文件的安全情况。

下面对本发明中的客户端进行详细描述，请参阅图9，图9为本发明实施例中病毒检测装置一个实施例示意图，病毒检测装置60包括：

获取模块601，用于获取待测文件的目标特征向量；

确定模块602，用于通过病毒检测模型确定所述获取模块601获取的所述目标特征向量所对应的目标样本标签，其中，所述病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，所述病毒检测模型用于表示特征向量与样本标签之间的关系；

所述确定模块602，还用于根据所述目标样本标签确定所述待测文件的病毒检测结果。

本实施例中，获取模块601获取待测文件的目标特征向量，确定模块602通过病毒检测模型确定所述获取模块601获取的所述目标特征向量所对应的目标样本标签，其中，所述病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，所述病毒检测模型用于表示特征向量与样本标签之间的关系，所述确定模块602根据所述目标样本标签确定所述待测文件的病毒检测结果。

本发明实施例中，提供了一种病毒检测装置，首先，病毒检测装置获取待测文件的目标特征向量，然后通过病毒检测模型确定目标特征向量所对应的目标样本标签，其中，病毒检测模型为根据正样本特征向量以及负样本特征向量训练得到的，最后，病毒检测装置根据目标样本标签确定待测文件的病毒检测结果。通过上述方式，一方面可以节省人工提取特征码的过程，直接利用病毒检测模型分析得到待测文件的样本标签，该样本标签可表示待测文件是否具有病毒，另一方面，病毒检测模型是通过大量正负样本训练得到的，具有较好的病毒预测能力，从而能够感知未知病毒，有利于提升方案的安全性。

可选地，在上述图9所对应的实施例的基础上，本发明实施例提供的病毒检测装置60的另一实施例中，

所述获取模块601，具体用于获取待检测文件的第一日志特征向量、第二日志特征向量和第三日志特征向量中的至少一个特征向量，其中，所述至少一个特征向量为所述目标特征向量；

所述第一日志特征向量用于表示事件触发时间与事件类型之间的关系；

所述第二日志特征向量用于表示所述事件类型与所述事件类型出现次数之间的关系；

所述第三日志特征向量用于表示所述事件类型与所述事件类型出现概率之间的关系。

可选地，在上述图9所对应的实施例的基础上，请参阅图10，本发明实施例提供的病毒检测装置60的另一实施例中，所述病毒检测装置60还包括训练模块603；

所述获取模块601，还用于所述确定模块602通过病毒检测模型确定所述目标特征向量所对应的目标样本标签之前，获取所述正样本特征向量以及所述负样本特征向量，其中，所述正样本特征向量包含至少一个正样本日志特征向量，所述负样本特征向量包含至少一个负样本日志特征向量；

所述训练模块603，用于对所述获取模块601获取的所述正样本特征向量以及所述负样本特征向量进行训练，得到所述病毒检测模型，其中，所述病毒检测模型采用并行连接的神经网络结构。

可选地，在上述图10所对应的实施例的基础上，本发明实施例提供的病毒检测装置60的另一实施例中，所述至少一个正样本日志特征向量包括第一正样本日志特征向量，所述至少一个负样本日志特征向量包括第一负样本日志特征向量；

所述获取模块601，具体用于获取正样本所对应的事件类型以及事件触发时间，以及负样本所对应的事件类型以及事件触发时间；

按照事件触发时间排序规则、所述正样本所对应的事件类型以及事件触发时间，确定所述第一正样本日志特征向量；

按照所述事件触发时间排序规则、所述负样本所对应的事件类型以及事件触发时间，确定所述第一负样本日志特征向量。

可选地，在上述图10所对应的实施例的基础上，本发明实施例提供的病毒检测装置60的另一实施例中，所述至少一个正样本日志特征向量包括第二正样本日志特征向量，所述至少一个负样本日志特征向量包括第二负样本日志特征向量；

所述获取模块601，具体用于获取正样本所对应的事件类型以及所述事件类型的出现次数，以及负样本所对应的事件类型以及所述事件类型的出现次数；

按照所述正样本所对应的事件类型以及所述事件类型的出现次数，确定所述第二正样本日志特征向量；

按照所述负样本所对应的事件类型以及所述事件类型的出现次数，确定所述第二负样本日志特征向量。

可选地，在上述图10所对应的实施例的基础上，本发明实施例提供的病毒检测装置60的另一实施例中，所述至少一个正样本日志特征向量包括第三正样本日志特征向量，所述至少一个负样本日志特征向量包括第三负样本日志特征向量；

所述获取模块601，具体用于获取正样本所对应的事件类型以及所述事件类型的出现概率，以及负样本所对应的事件类型以及所述事件类型的出现概率；

按照所述正样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三正样本日志特征向量；

按照所述负样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三负样本日志特征向量。

可选地，在上述图9或图10所对应的实施例的基础上，本发明实施例提供的病毒检测装置60的另一实施例中，

所述确定模块602，具体用于将第一日志特征向量、第二日志特征向量和第三日志特征向量的至少一个特征向量输入至所述病毒检测模型，得到所述目标样本标签，其中，所述病毒检测模型与所述目标特征向量具有对应关系。

所述确定模块602，具体用于若所述目标样本标签为正标签，则确定所述待测文件为病毒文件；

若所述目标样本标签为负标签，则确定所述待测文件为安全文件。

图11是本发明实施例提供的一种服务器结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

服务器700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口758，和/或，一个或一个以上操作系统741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

CPU 722用于执行如下步骤：

获取待测文件的目标特征向量；

根据所述目标样本标签确定所述待测文件的病毒检测结果。

可选地，CPU 722具体用于执行如下步骤：

获取待检测文件的第一日志特征向量、第二日志特征向量和第三日志特征向量中的至少一个特征向量，其中，所述至少一个特征向量为所述目标特征向量；

可选地，CPU 722还用于执行如下步骤：

获取所述正样本特征向量以及所述负样本特征向量，其中，所述正样本特征向量包含至少一个正样本日志特征向量，所述负样本特征向量包含至少一个负样本日志特征向量；

对所述正样本特征向量以及所述负样本特征向量进行训练，得到所述病毒检测模型，其中，所述病毒检测模型采用并行连接的神经网络结构。

可选地，CPU 722具体用于执行如下步骤：

获取正样本所对应的事件类型以及所述事件类型的出现次数，以及负样本所对应的事件类型以及所述事件类型的出现次数；

可选地，CPU 722具体用于执行如下步骤：

获取正样本所对应的事件类型以及所述事件类型的出现概率，以及负样本所对应的事件类型以及所述事件类型的出现概率；

可选地，CPU 722具体用于执行如下步骤：

将第一日志特征向量、第二日志特征向量和第三日志特征向量的至少一个特征向量输入至所述病毒检测模型，得到所述目标样本标签，其中，所述病毒检测模型与所述目标特征向量具有对应关系。

可选地，CPU 722具体用于执行如下步骤：

若所述目标样本标签为正标签，则确定所述待测文件为病毒文件；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种病毒检测的方法，其特征在于，包括：

获取待测文件的第一日志特征向量和第二日志特征向量中的至少一个特征向量以及第三日志特征向量，作为所述待测文件的目标特征向量；所述第一日志特征向量用于表示事件触发时间与事件类型之间的关系；所述第二日志特征向量用于表示所述事件类型与所述事件类型出现次数之间的关系；所述第三日志特征向量用于表示所述事件类型与所述事件类型出现概率之间的关系；

通过病毒检测模型确定所述目标特征向量所对应的目标样本标签，其中，所述病毒检测模型为根据获取到的正样本特征向量以及负样本特征向量训练得到的，所述病毒检测模型用于表示特征向量与样本标签之间的关系，其中，所述病毒检测模型采用并行连接的神经网络结构；所述正样本特征向量包含至少一个正样本日志特征向量，所述负样本特征向量包含至少一个负样本日志特征向量；

根据所述目标样本标签确定所述待测文件的病毒检测结果；

所述至少一个正样本日志特征向量包括第三正样本日志特征向量，所述至少一个负样本日志特征向量包括第三负样本日志特征向量；所述正样本特征向量以及所述负样本特征向量的获取过程，包括：获取正样本所对应的事件类型以及所述事件类型的出现概率，以及负样本所对应的事件类型以及所述事件类型的出现概率；按照所述正样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三正样本日志特征向量；按照所述负样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三负样本日志特征向量。

2.根据权利要求1所述的方法，其特征在于，所述至少一个正样本日志特征向量包括第一正样本日志特征向量，所述至少一个负样本日志特征向量包括第一负样本日志特征向量；

所述正样本特征向量以及所述负样本特征向量的获取过程，还包括：

3.根据权利要求1所述的方法，其特征在于，所述至少一个正样本日志特征向量包括第二正样本日志特征向量，所述至少一个负样本日志特征向量包括第二负样本日志特征向量；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述通过病毒检测模型确定所述目标特征向量所对应的目标样本标签，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标样本标签确定所述待测文件的病毒检测结果，包括：

6.一种病毒检测装置，其特征在于，包括：

获取模块，用于获取待测文件的第一日志特征向量和第二日志特征向量中的至少一个特征向量以及第三日志特征向量，作为所述待测文件的目标特征向量；所述第一日志特征向量用于表示事件触发时间与事件类型之间的关系；所述第二日志特征向量用于表示所述事件类型与所述事件类型出现次数之间的关系；所述第三日志特征向量用于表示所述事件类型与所述事件类型出现概率之间的关系；

确定模块，用于通过病毒检测模型确定所述获取模块获取的所述目标特征向量所对应的目标样本标签，其中，所述病毒检测模型为根据获取到的正样本特征向量以及负样本特征向量训练得到的，所述病毒检测模型用于表示特征向量与样本标签之间的关系，其中，所述病毒检测模型采用并行连接的神经网络结构；所述正样本特征向量包含至少一个正样本日志特征向量，所述负样本特征向量包含至少一个负样本日志特征向量；

所述确定模块，还用于根据所述目标样本标签确定所述待测文件的病毒检测结果；

所述至少一个正样本日志特征向量包括第三正样本日志特征向量，所述至少一个负样本日志特征向量包括第三负样本日志特征向量；所述获取模块还用于：获取正样本所对应的事件类型以及所述事件类型的出现概率，以及负样本所对应的事件类型以及所述事件类型的出现概率；按照所述正样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三正样本日志特征向量；按照所述负样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三负样本日志特征向量。

7.根据权利要求6所述的病毒检测装置，其特征在于，所述至少一个正样本日志特征向量包括第一正样本日志特征向量，所述至少一个负样本日志特征向量包括第一负样本日志特征向量；所述获取模块还用于：

8.根据权利要求6所述的病毒检测装置，其特征在于，所述至少一个正样本日志特征向量包括第二正样本日志特征向量，所述至少一个负样本日志特征向量包括第二负样本日志特征向量；所述获取模块还用于：

9.根据权利要求6至8中任一项所述的病毒检测装置，其特征在于，所述确定模块具体用于：

10.根据权利要求6所述的病毒检测装置，其特征在于，

所述确定模块，具体用于若所述目标样本标签为正标签，则确定所述待测文件为病毒文件；

11.一种病毒检测装置，其特征在于，所述病毒检测装置包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述目标样本标签确定所述待测文件的病毒检测结果；

所述至少一个正样本日志特征向量包括第三正样本日志特征向量，所述至少一个负样本日志特征向量包括第三负样本日志特征向量；所述正样本特征向量以及所述负样本特征向量的获取过程，包括：获取正样本所对应的事件类型以及所述事件类型的出现概率，以及负样本所对应的事件类型以及所述事件类型的出现概率；按照所述正样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三正样本日志特征向量；按照所述负样本所对应的事件类型以及所述事件类型的出现概率，确定所述第三负样本日志特征向量；

12.根据权利要求11所述的病毒检测装置，其特征在于，所述至少一个正样本日志特征向量包括第一正样本日志特征向量，所述至少一个负样本日志特征向量包括第一负样本日志特征向量；所述处理器用于执行所述存储器中的程序，还包括如下步骤：

13.根据权利要求11所述的病毒检测装置，其特征在于，所述至少一个正样本日志特征向量包括第二正样本日志特征向量，所述至少一个负样本日志特征向量包括第二负样本日志特征向量；所述处理器用于执行所述存储器中的程序，还包括如下步骤：

14.根据权利要求11至13中任一项所述的病毒检测装置，其特征在于，所述通过病毒检测模型确定所述目标特征向量所对应的目标样本标签，包括：

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至5中任一项所述的方法。