CN107992750A

CN107992750A - 病毒文件识别方法和装置

Info

Publication number: CN107992750A
Application number: CN201711379528.4A
Authority: CN
Inventors: 崔同强; 李振逢; 邹赞
Original assignee: Shenzhen Hawker Internet Co Ltd
Current assignee: Shenzhen Hawker Internet Co Ltd
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-05-04

Abstract

本公开实施例涉及一种病毒文件识别方法和装置，在本公开至少一个实施例中，根据机器学习模型对计算机病毒文件进行识别，由于计算器学习模型自学习的特点，能够减少病毒文件库建立以及识别规则建立过程中的人工介入，并且有助于提高准确性。

Description

病毒文件识别方法和装置

技术领域

本公开的实施例涉及计算机技术领域，尤其涉及一种病毒文件识别方法和装置。

背景技术

计算机及网络技术的迅猛发展极大地促进了信息交互。但是，与此同时，计算机病毒文件也伴随技术的发展而不断地演化更新，从初期的恶作剧游戏发展到今日，计算机病毒文件已经严重威胁到了人们对计算机的正常使用。由此，如何防范病毒文件侵袭已然成为人们关注的一个焦点。

现有技术中进行病毒文件识别的方式一般是预先建立相应的病毒文件库，并进行病毒文件库进行比对，将与病毒文件库中的病毒文件匹配的文件认定为病毒文件；或者人为的设定相应的规则，符合相应的规则的文件认定为病毒文件。但是这两种方式都需要较多的人工介入，且比较容易出错。

发明内容

本公开至少一个实施例的主要目的在于提供一种新的病毒文件识别方法，可用以减少人工介入。

第一方面，本公开的实施例提供了一种病毒文件识别方法，所述方法包括：

对待识别的文件进行预处理，使得预处理后的文件能够被机器学习模型处理；

根据预先训练好的机器学习模型对完成预处理的文件进行识别。

在一些实施例中，所述方法还包括：

利用预设的学习样本训练所述机器学习模型。

在一些实施例中，所述根据预先训练好的机器学习模型对完成预处理的文件进行识别之后，所述方法还包括：

读取预设的病毒文件识别软件对待识别文件的识别结果；

根据所述识别结果对所述机器学习模型进行调整。

在一些实施例中，所述读取预设的病毒文件识别软件对待识别文件的识别结果，包括：

读取多个预设的病毒文件识别软件的识别结果；

所述根据所述识别结果对所述机器学习模型进行调整，包括：

根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果；

根据所述综合识别结果对所述机器学习模型进行调整。

在一些实施例中，所述根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果，包括：

获取各个病毒文件识别软件对应的病毒文件识别准确率；

根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重；

根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。

第一方面，本公开的实施例提供了一种病毒文件识别装置，所述装置包括：

预处理模块，用于对待识别的文件进行预处理，使得预处理后的文件能够被机器学习模型处理；

识别模块，用于根据预先训练好的机器学习模型对完成预处理的文件进行识别。

在一些实施例中，还包括：

训练模块，用于利用预设的学习样本训练所述机器学习模型。

在一些实施例中，还包括：

调整模块，用于根据预先训练好的机器学习模型对完成预处理的文件进行识别之后，读取预设的病毒文件识别软件对待识别文件的识别结果；根据所述识别结果对所述机器学习模型进行调整。

在一些实施例中，所述调整模块，用于读取预设的病毒文件识别软件对待识别文件的识别结果，包括：

读取多个预设的病毒文件识别软件的识别结果；

所述调整模块，用于根据所述识别结果对所述机器学习模型进行调整，包括：

根据所述综合识别结果对所述机器学习模型进行调整。

在一些实施例中，所述调整模块，用于根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果，包括：

获取各个病毒文件识别软件对应的病毒文件识别准确率；

在本公开至少一个实施例中，根据机器学习模型对计算机病毒文件进行识别，由于计算器学习模型自学习的特点，能够减少病毒文件库建立以及识别规则建立过程中的人工介入，并且有助于提高准确性。

附图说明

图1展示了本公开实施例提供的一种病毒文件识别方法的主要流程；

图2展示了本公开实施例提供的一种病毒文件识别方法的主要结构。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

本公开第一方面的实施例提供了一种病毒文件识别方法，参见图1，所述方法主要包括如下流程：

步骤S11，对待识别的文件进行预处理，使得预处理后的文件能够被机器学习模型处理；

不难理解的是，这里的机器学习模型是被训练为具有特定的识别能力的模型，训练机器学习模型的样本通常为一系列的字符串(参数，代码等)，机器学习模型在进行识别时，也是针对相应类型的字符串进行的运算，进而得到待识别的对象为某种类别的事物的概率。相应的，不难理解的是，这里的预处理的过程是指将相应的待识别的文件转换为相应的字符串的过程。对于一次识别而言，一个待识别的文件可能被分割或者转换为多个字符串的片段，这些片段整体作为机器学习模型的若干个输入。

从以上可以得知，具体如何进行相应的预处理，主要取决于所训练出的机器学习模型的特点。根据本公开的实施例，本领域技术人员可以针对所训练的机器学习模型的特点，设置相应的预处理的过程。

步骤S12，根据预先训练好的机器学习模型对完成预处理的文件进行识别。

在本公开的实施例中，根据机器学习模型对计算机病毒文件进行识别，由于计算器学习模型自学习的特点，能够减少病毒文件库建立以及识别规则建立过程中的人工介入，并且有助于提高准确性。

在具体实施时，上述的方法可以设置在云服务器处执行，或者也可以是由客户端执行(比如由位于客户端的杀毒软件执行)。当在客户端实施时，对于利用预设的学习样本训练训练机器学习模型的过程可以是在云服务器处进行，然后云服务器将训练好的模型下发给客户端，或者也可以是在客户端处进行。

在具体实施时，这里的机器学习模型可以根据需要进行选择，比如可以为基于深度学习的卷积神经网络模型，也可以为决策树算法模型或者随机森林算法模型等，具体为何种形式的机器学习模型不会影响本公开的实施例的实施，相应的方案均应该落入本公开的实施例的保护范围。

在具体实施时，除了上述的训练过程之外，以上的方法还可以包括机器学习模型进行调整的过程，具体来说，可以是当机器学习模型识别错误时，通过改变机器学习模型的一些参数，使得机器学习模型能够对相应的文件进行正确的识别。然而如果人工的判断机器学习模型是否针对某个文件识别错误，会产生较大的工作量。鉴于此，本公开的一些实施例中，提出了一种新的方式，以减少人工工作量。下面进行详细说明：

步骤S13：读取预设的病毒文件识别软件对待识别文件的识别结果；

步骤S14：根据所述识别结果对所述机器学习模型进行调整。

在具体实施时，由于市场上存在多种杀毒软件，且每一种杀毒软件都能在识别到病毒文件之后，输出识别结果并给出警告，因此可以通过读取病毒文件识别软件，尤其是市场上公认的病毒文件识别准确率较高的杀毒软件对某个文件的识别结果，判断机器学习模型对相应的文件的识别结果是否正确。在不正确时，可以对机器学习模型中的一些参数进行调整。

更进一步的，以上步骤S13中，读取预设的病毒文件识别软件对待识别文件的识别结果，可以具体包括：

步骤S13’，读取多个预设的病毒文件识别软件的识别结果；

相应的，步骤二中的，根据所述识别结果对所述机器学习模型进行调整，包括：

步骤S141，根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果；

步骤S142，根据所述综合识别结果对所述机器学习模型进行调整。

不难理解的是，根据多个病毒文件识别软件的识别结果所得到的综合识别结果相对于一个病毒文件识别软件的识别结果一般会更为准确，这样能够使得作为评判机器学习模型对某个文件的识别结果是否准确的依据更为准确。

在具体实施时，根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果的方式有多种，比如一种常见的方式是：当对某个文件的识别结果中，识别结果为病毒文件的病毒文件识别软件的数量大于识别结果不为病毒文件的病毒文件识别软件的数量，则将该文件的综合识别结果确定为病毒文件；反之则反。或者在一些实施例中，也可以按照如下方式进行：

步骤S1411，获取各个病毒文件识别软件对应的病毒文件识别准确率。

在具体实施时，这里的病毒文件识别准确率可以由人工录入，或者也可从相关的网站中抓取。或者在一些方式中，也可以将训练上述的机器学习模型的样本输入到各个病毒文件识别软件，并统计相应的识别准确率。

步骤S1412，根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重。

步骤S1413，根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。

这样的方式的好处是能够使得综合识别结果更为准确。

在具体实施时，这里的权重可以自动的生成，比如当存在5个识别软件时，可以根据各个病毒文件识别软件对应的识别准确率所对应的比例，设置各个权重，使得权重的比例与识别准确率所对应的比例一致，比如当病毒文件识别软件的准确率分别为95％，95％，90％，90％，85％时，相应的权重可以设置为：95/455，95/455，90/455，90/455，85％。或者也可以预先设定好权重值，比如设置为0.3、0.3、0.2、0.1、0.1，然后根据各个准确率的高低分别设置相应的权重。相应的识别结果可以根据权重与准确率的乘积的和确定，比如乘积的和大于0.5时，将综合识别结果确定为病毒文件，否则，将综合识别结果确定为非病毒文件。

第二方面，本公开的实施例提供了一种病毒文件识别装置，参见图2，所述装置包括：

预处理模块21，用于对待识别的文件进行预处理，使得预处理后的文件能够被机器学习模型处理；

识别模块22，用于根据预先训练好的机器学习模型对完成预处理的文件进行识别。

在一些实施例中，还包括：

读取多个预设的病毒文件识别软件的识别结果；

根据所述综合识别结果对所述机器学习模型进行调整。

获取各个病毒文件识别软件对应的病毒文件识别准确率；

第三方面，本公开实施例还提供了一种计算机存储介质，所述计算机存储介质中存储计算机指令代码；所述计算机指令代码在被计算机执行时，执行上述对病毒文件识别方法的步骤。

第四方面，本公开实施例还提供了一种计算机系统，所述计算机系统包括至少一个处理器和一个存储器，所述存储器耦接至所述处理器；所述处理器被配置为执行所述存储器中存储的计算机指令；所述处理器在执行所述计算机指令时，执行上述对病毒文件识别方法的步骤。

可以理解的是，本公开第二、第三、第四方面的实施例所提供的装置、计算机存储介质以及电子设备主要用以或者配置为执行第一方面的实施例所提供的方法。本公开第二、第三、第四方面的实施例中的术语以及相应的实施方式可以参照第一方面的实施例，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本公开实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例所述的方法。

以上仅为本公开的优选实施例，并非因此限制本公开的专利范围，凡是利用本公开说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本公开的专利保护范围内。

Claims

1.一种病毒文件识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用预设的学习样本训练所述机器学习模型。

3.根据权利要求1所述的方法，其特征在于，所述根据预先训练好的机器学习模型对完成预处理的文件进行识别之后，所述方法还包括：

读取预设的病毒文件识别软件对待识别文件的识别结果；

根据所述识别结果对所述机器学习模型进行调整。

4.根据权利要求3所述的方法，其特征在于，所述读取预设的病毒文件识别软件对待识别文件的识别结果，包括：

读取多个预设的病毒文件识别软件的识别结果；

根据所述综合识别结果对所述机器学习模型进行调整。

5.根据权利要求4所述的方法，其特征在于，所述根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果，包括：

获取各个病毒文件识别软件对应的病毒文件识别准确率；

6.一种病毒文件识别装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求6所述的装置，其特征在于，还包括：

9.根据权利要求8所述的装置，其特征在于，所述调整模块，用于读取预设的病毒文件识别软件对待识别文件的识别结果，包括：

读取多个预设的病毒文件识别软件的识别结果；

根据所述综合识别结果对所述机器学习模型进行调整。

10.根据权利要求9所述的装置，其特征在于，所述调整模块，用于根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果，包括：

获取各个病毒文件识别软件对应的病毒文件识别准确率；