CN107992750A - 病毒文件识别方法和装置 - Google Patents

病毒文件识别方法和装置 Download PDF

Info

Publication number
CN107992750A
CN107992750A CN201711379528.4A CN201711379528A CN107992750A CN 107992750 A CN107992750 A CN 107992750A CN 201711379528 A CN201711379528 A CN 201711379528A CN 107992750 A CN107992750 A CN 107992750A
Authority
CN
China
Prior art keywords
recognition result
virus document
file
learning model
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711379528.4A
Other languages
English (en)
Inventor
崔同强
李振逢
邹赞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hawker Internet Co Ltd
Original Assignee
Shenzhen Hawker Internet Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hawker Internet Co Ltd filed Critical Shenzhen Hawker Internet Co Ltd
Priority to CN201711379528.4A priority Critical patent/CN107992750A/zh
Publication of CN107992750A publication Critical patent/CN107992750A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Virology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本公开实施例涉及一种病毒文件识别方法和装置,在本公开至少一个实施例中,根据机器学习模型对计算机病毒文件进行识别,由于计算器学习模型自学习的特点,能够减少病毒文件库建立以及识别规则建立过程中的人工介入,并且有助于提高准确性。

Description

病毒文件识别方法和装置
技术领域
本公开的实施例涉及计算机技术领域,尤其涉及一种病毒文件识别方法和装置。
背景技术
计算机及网络技术的迅猛发展极大地促进了信息交互。但是,与此同时,计算机病毒文件也伴随技术的发展而不断地演化更新,从初期的恶作剧游戏发展到今日,计算机病毒文件已经严重威胁到了人们对计算机的正常使用。由此,如何防范病毒文件侵袭已然成为人们关注的一个焦点。
现有技术中进行病毒文件识别的方式一般是预先建立相应的病毒文件库,并进行病毒文件库进行比对,将与病毒文件库中的病毒文件匹配的文件认定为病毒文件;或者人为的设定相应的规则,符合相应的规则的文件认定为病毒文件。但是这两种方式都需要较多的人工介入,且比较容易出错。
发明内容
本公开至少一个实施例的主要目的在于提供一种新的病毒文件识别方法,可用以减少人工介入。
第一方面,本公开的实施例提供了一种病毒文件识别方法,所述方法包括:
对待识别的文件进行预处理,使得预处理后的文件能够被机器学习模型处理;
根据预先训练好的机器学习模型对完成预处理的文件进行识别。
在一些实施例中,所述方法还包括:
利用预设的学习样本训练所述机器学习模型。
在一些实施例中,所述根据预先训练好的机器学习模型对完成预处理的文件进行识别之后,所述方法还包括:
读取预设的病毒文件识别软件对待识别文件的识别结果;
根据所述识别结果对所述机器学习模型进行调整。
在一些实施例中,所述读取预设的病毒文件识别软件对待识别文件的识别结果,包括:
读取多个预设的病毒文件识别软件的识别结果;
所述根据所述识别结果对所述机器学习模型进行调整,包括:
根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果;
根据所述综合识别结果对所述机器学习模型进行调整。
在一些实施例中,所述根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果,包括:
获取各个病毒文件识别软件对应的病毒文件识别准确率;
根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重;
根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。
第一方面,本公开的实施例提供了一种病毒文件识别装置,所述装置包括:
预处理模块,用于对待识别的文件进行预处理,使得预处理后的文件能够被机器学习模型处理;
识别模块,用于根据预先训练好的机器学习模型对完成预处理的文件进行识别。
在一些实施例中,还包括:
训练模块,用于利用预设的学习样本训练所述机器学习模型。
在一些实施例中,还包括:
调整模块,用于根据预先训练好的机器学习模型对完成预处理的文件进行识别之后,读取预设的病毒文件识别软件对待识别文件的识别结果;根据所述识别结果对所述机器学习模型进行调整。
在一些实施例中,所述调整模块,用于读取预设的病毒文件识别软件对待识别文件的识别结果,包括:
读取多个预设的病毒文件识别软件的识别结果;
所述调整模块,用于根据所述识别结果对所述机器学习模型进行调整,包括:
根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果;
根据所述综合识别结果对所述机器学习模型进行调整。
在一些实施例中,所述调整模块,用于根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果,包括:
获取各个病毒文件识别软件对应的病毒文件识别准确率;
根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重;
根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。
在本公开至少一个实施例中,根据机器学习模型对计算机病毒文件进行识别,由于计算器学习模型自学习的特点,能够减少病毒文件库建立以及识别规则建立过程中的人工介入,并且有助于提高准确性。
附图说明
图1展示了本公开实施例提供的一种病毒文件识别方法的主要流程;
图2展示了本公开实施例提供的一种病毒文件识别方法的主要结构。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本公开,并不用于限定本公开。
本公开第一方面的实施例提供了一种病毒文件识别方法,参见图1,所述方法主要包括如下流程:
步骤S11,对待识别的文件进行预处理,使得预处理后的文件能够被机器学习模型处理;
不难理解的是,这里的机器学习模型是被训练为具有特定的识别能力的模型,训练机器学习模型的样本通常为一系列的字符串(参数,代码等),机器学习模型在进行识别时,也是针对相应类型的字符串进行的运算,进而得到待识别的对象为某种类别的事物的概率。相应的,不难理解的是,这里的预处理的过程是指将相应的待识别的文件转换为相应的字符串的过程。对于一次识别而言,一个待识别的文件可能被分割或者转换为多个字符串的片段,这些片段整体作为机器学习模型的若干个输入。
从以上可以得知,具体如何进行相应的预处理,主要取决于所训练出的机器学习模型的特点。根据本公开的实施例,本领域技术人员可以针对所训练的机器学习模型的特点,设置相应的预处理的过程。
步骤S12,根据预先训练好的机器学习模型对完成预处理的文件进行识别。
在本公开的实施例中,根据机器学习模型对计算机病毒文件进行识别,由于计算器学习模型自学习的特点,能够减少病毒文件库建立以及识别规则建立过程中的人工介入,并且有助于提高准确性。
在具体实施时,上述的方法可以设置在云服务器处执行,或者也可以是由客户端执行(比如由位于客户端的杀毒软件执行)。当在客户端实施时,对于利用预设的学习样本训练训练机器学习模型的过程可以是在云服务器处进行,然后云服务器将训练好的模型下发给客户端,或者也可以是在客户端处进行。
在具体实施时,这里的机器学习模型可以根据需要进行选择,比如可以为基于深度学习的卷积神经网络模型,也可以为决策树算法模型或者随机森林算法模型等,具体为何种形式的机器学习模型不会影响本公开的实施例的实施,相应的方案均应该落入本公开的实施例的保护范围。
在具体实施时,除了上述的训练过程之外,以上的方法还可以包括机器学习模型进行调整的过程,具体来说,可以是当机器学习模型识别错误时,通过改变机器学习模型的一些参数,使得机器学习模型能够对相应的文件进行正确的识别。然而如果人工的判断机器学习模型是否针对某个文件识别错误,会产生较大的工作量。鉴于此,本公开的一些实施例中,提出了一种新的方式,以减少人工工作量。下面进行详细说明:
在一些实施例中,所述根据预先训练好的机器学习模型对完成预处理的文件进行识别之后,所述方法还包括:
步骤S13:读取预设的病毒文件识别软件对待识别文件的识别结果;
步骤S14:根据所述识别结果对所述机器学习模型进行调整。
在具体实施时,由于市场上存在多种杀毒软件,且每一种杀毒软件都能在识别到病毒文件之后,输出识别结果并给出警告,因此可以通过读取病毒文件识别软件,尤其是市场上公认的病毒文件识别准确率较高的杀毒软件对某个文件的识别结果,判断机器学习模型对相应的文件的识别结果是否正确。在不正确时,可以对机器学习模型中的一些参数进行调整。
更进一步的,以上步骤S13中,读取预设的病毒文件识别软件对待识别文件的识别结果,可以具体包括:
步骤S13’,读取多个预设的病毒文件识别软件的识别结果;
相应的,步骤二中的,根据所述识别结果对所述机器学习模型进行调整,包括:
步骤S141,根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果;
步骤S142,根据所述综合识别结果对所述机器学习模型进行调整。
不难理解的是,根据多个病毒文件识别软件的识别结果所得到的综合识别结果相对于一个病毒文件识别软件的识别结果一般会更为准确,这样能够使得作为评判机器学习模型对某个文件的识别结果是否准确的依据更为准确。
在具体实施时,根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果的方式有多种,比如一种常见的方式是:当对某个文件的识别结果中,识别结果为病毒文件的病毒文件识别软件的数量大于识别结果不为病毒文件的病毒文件识别软件的数量,则将该文件的综合识别结果确定为病毒文件;反之则反。或者在一些实施例中,也可以按照如下方式进行:
步骤S1411,获取各个病毒文件识别软件对应的病毒文件识别准确率。
在具体实施时,这里的病毒文件识别准确率可以由人工录入,或者也可从相关的网站中抓取。或者在一些方式中,也可以将训练上述的机器学习模型的样本输入到各个病毒文件识别软件,并统计相应的识别准确率。
步骤S1412,根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重。
步骤S1413,根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。
这样的方式的好处是能够使得综合识别结果更为准确。
在具体实施时,这里的权重可以自动的生成,比如当存在5个识别软件时,可以根据各个病毒文件识别软件对应的识别准确率所对应的比例,设置各个权重,使得权重的比例与识别准确率所对应的比例一致,比如当病毒文件识别软件的准确率分别为95%,95%,90%,90%,85%时,相应的权重可以设置为:95/455,95/455,90/455,90/455,85%。或者也可以预先设定好权重值,比如设置为0.3、0.3、0.2、0.1、0.1,然后根据各个准确率的高低分别设置相应的权重。相应的识别结果可以根据权重与准确率的乘积的和确定,比如乘积的和大于0.5时,将综合识别结果确定为病毒文件,否则,将综合识别结果确定为非病毒文件。
第二方面,本公开的实施例提供了一种病毒文件识别装置,参见图2,所述装置包括:
预处理模块21,用于对待识别的文件进行预处理,使得预处理后的文件能够被机器学习模型处理;
识别模块22,用于根据预先训练好的机器学习模型对完成预处理的文件进行识别。
在一些实施例中,还包括:
训练模块,用于利用预设的学习样本训练所述机器学习模型。
在一些实施例中,还包括:
调整模块,用于根据预先训练好的机器学习模型对完成预处理的文件进行识别之后,读取预设的病毒文件识别软件对待识别文件的识别结果;根据所述识别结果对所述机器学习模型进行调整。
在一些实施例中,所述调整模块,用于读取预设的病毒文件识别软件对待识别文件的识别结果,包括:
读取多个预设的病毒文件识别软件的识别结果;
所述调整模块,用于根据所述识别结果对所述机器学习模型进行调整,包括:
根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果;
根据所述综合识别结果对所述机器学习模型进行调整。
在一些实施例中,所述调整模块,用于根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果,包括:
获取各个病毒文件识别软件对应的病毒文件识别准确率;
根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重;
根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。
第三方面,本公开实施例还提供了一种计算机存储介质,所述计算机存储介质中存储计算机指令代码;所述计算机指令代码在被计算机执行时,执行上述对病毒文件识别方法的步骤。
第四方面,本公开实施例还提供了一种计算机系统,所述计算机系统包括至少一个处理器和一个存储器,所述存储器耦接至所述处理器;所述处理器被配置为执行所述存储器中存储的计算机指令;所述处理器在执行所述计算机指令时,执行上述对病毒文件识别方法的步骤。
可以理解的是,本公开第二、第三、第四方面的实施例所提供的装置、计算机存储介质以及电子设备主要用以或者配置为执行第一方面的实施例所提供的方法。本公开第二、第三、第四方面的实施例中的术语以及相应的实施方式可以参照第一方面的实施例,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本公开实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
以上仅为本公开的优选实施例,并非因此限制本公开的专利范围,凡是利用本公开说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本公开的专利保护范围内。

Claims (10)

1.一种病毒文件识别方法,其特征在于,所述方法包括:
对待识别的文件进行预处理,使得预处理后的文件能够被机器学习模型处理;
根据预先训练好的机器学习模型对完成预处理的文件进行识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用预设的学习样本训练所述机器学习模型。
3.根据权利要求1所述的方法,其特征在于,所述根据预先训练好的机器学习模型对完成预处理的文件进行识别之后,所述方法还包括:
读取预设的病毒文件识别软件对待识别文件的识别结果;
根据所述识别结果对所述机器学习模型进行调整。
4.根据权利要求3所述的方法,其特征在于,所述读取预设的病毒文件识别软件对待识别文件的识别结果,包括:
读取多个预设的病毒文件识别软件的识别结果;
所述根据所述识别结果对所述机器学习模型进行调整,包括:
根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果;
根据所述综合识别结果对所述机器学习模型进行调整。
5.根据权利要求4所述的方法,其特征在于,所述根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果,包括:
获取各个病毒文件识别软件对应的病毒文件识别准确率;
根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重;
根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。
6.一种病毒文件识别装置,其特征在于,所述装置包括:
预处理模块,用于对待识别的文件进行预处理,使得预处理后的文件能够被机器学习模型处理;
识别模块,用于根据预先训练好的机器学习模型对完成预处理的文件进行识别。
7.根据权利要求6所述的装置,其特征在于,还包括:
训练模块,用于利用预设的学习样本训练所述机器学习模型。
8.根据权利要求6所述的装置,其特征在于,还包括:
调整模块,用于根据预先训练好的机器学习模型对完成预处理的文件进行识别之后,读取预设的病毒文件识别软件对待识别文件的识别结果;根据所述识别结果对所述机器学习模型进行调整。
9.根据权利要求8所述的装置,其特征在于,所述调整模块,用于读取预设的病毒文件识别软件对待识别文件的识别结果,包括:
读取多个预设的病毒文件识别软件的识别结果;
所述调整模块,用于根据所述识别结果对所述机器学习模型进行调整,包括:
根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果;
根据所述综合识别结果对所述机器学习模型进行调整。
10.根据权利要求9所述的装置,其特征在于,所述调整模块,用于根据多个预设的病毒文件识别软件的识别结果确定对待识别文件的综合识别结果,包括:
获取各个病毒文件识别软件对应的病毒文件识别准确率;
根据各个病毒文件识别软件对应的病毒文件识别准确率设置各个病毒文件识别软件对应的识别结果的权重;
根据各个病毒文件识别软件对应的识别结果以及所对应的权重确定综合识别结果。
CN201711379528.4A 2017-12-19 2017-12-19 病毒文件识别方法和装置 Pending CN107992750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711379528.4A CN107992750A (zh) 2017-12-19 2017-12-19 病毒文件识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711379528.4A CN107992750A (zh) 2017-12-19 2017-12-19 病毒文件识别方法和装置

Publications (1)

Publication Number Publication Date
CN107992750A true CN107992750A (zh) 2018-05-04

Family

ID=62039123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711379528.4A Pending CN107992750A (zh) 2017-12-19 2017-12-19 病毒文件识别方法和装置

Country Status (1)

Country Link
CN (1) CN107992750A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102271090A (zh) * 2011-09-06 2011-12-07 电子科技大学 基于传输层特征的流量分类方法及装置
CN102479298A (zh) * 2010-11-29 2012-05-30 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
CN103839006A (zh) * 2010-11-29 2014-06-04 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN107315955A (zh) * 2016-04-27 2017-11-03 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479298A (zh) * 2010-11-29 2012-05-30 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN103839006A (zh) * 2010-11-29 2014-06-04 北京奇虎科技有限公司 基于机器学习的程序识别方法及装置
CN102271090A (zh) * 2011-09-06 2011-12-07 电子科技大学 基于传输层特征的流量分类方法及装置
CN102779249A (zh) * 2012-06-28 2012-11-14 奇智软件(北京)有限公司 恶意程序检测方法及扫描引擎
CN107315955A (zh) * 2016-04-27 2017-11-03 百度在线网络技术(北京)有限公司 文件安全性识别方法和装置

Similar Documents

Publication Publication Date Title
CN107566358A (zh) 一种风险预警提示方法、装置、介质及设备
US9106689B2 (en) Intrusion detection using MDL clustering
CN109510815A (zh) 一种基于有监督学习的多级钓鱼网站检测方法及检测系统
CN108306864B (zh) 网络数据检测方法、装置、计算机设备和存储介质
US20170063893A1 (en) Learning detector of malicious network traffic from weak labels
CN104391860A (zh) 内容类别检测方法及装置
CN105260628A (zh) 分类器训练方法和装置、身份验证方法和系统
CN112492059A (zh) Dga域名检测模型训练方法、dga域名检测方法、装置及存储介质
CN110177114A (zh) 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质
CN110365691B (zh) 基于深度学习的钓鱼网站判别方法及装置
CN111741002B (zh) 一种网络入侵检测模型的训练方法和装置
CN105072214A (zh) 基于域名特征的c&c域名识别方法
WO2020082763A1 (zh) 基于决策树的钓鱼网站检测方法、装置及计算机设备
CN109388943A (zh) 一种识别xss攻击的方法、装置和计算机可读存储介质
CN110046647A (zh) 一种验证码机器行为识别方法及装置
CN107819790A (zh) 攻击报文的识别方法及装置
CN109600362A (zh) 基于识别模型的僵尸主机识别方法、识别设备及介质
CN107896225A (zh) 钓鱼网站判定方法、服务器及存储介质
KR20190028880A (ko) 봇넷 탐지 시스템을 학습하기 위한 학습 데이터를 생성하는 방법 및 그 장치
CN110011964B (zh) 一种网页环境检测方法和装置
CN112463394A (zh) 基于大数据和云计算的数据筛选方法及云服务器
CN112016088A (zh) 生成文件检测模型的方法、装置、检测文件的方法及装置
CN115277065B (zh) 一种物联网异常流量检测中的对抗攻击方法及装置
CN107992750A (zh) 病毒文件识别方法和装置
CN113869431B (zh) 虚假信息检测方法、系统、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180504