CN112052449A - 一种恶意文件识别方法、装置、设备及存储介质 - Google Patents

一种恶意文件识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112052449A
CN112052449A CN201910494157.7A CN201910494157A CN112052449A CN 112052449 A CN112052449 A CN 112052449A CN 201910494157 A CN201910494157 A CN 201910494157A CN 112052449 A CN112052449 A CN 112052449A
Authority
CN
China
Prior art keywords
file
malicious file
malicious
model
identification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910494157.7A
Other languages
English (en)
Inventor
章明星
刘彦南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201910494157.7A priority Critical patent/CN112052449A/zh
Publication of CN112052449A publication Critical patent/CN112052449A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种恶意文件识别方法,该方法包括以下步骤:在达到设定的更新触发条件时,基于获取的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型;基于最新恶意文件识别模型和模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型;在有待识别文件时,使用目标恶意文件识别模型对待识别文件进行识别;根据识别结果,确定待识别文件是否为恶意文件。应用本发明实施例所提供的技术方案,可以提高恶意文件检出率和识别准确率。本发明还公开了一种恶意文件识别装置、设备及存储介质,具有相应技术效果。

Description

一种恶意文件识别方法、装置、设备及存储介质
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种恶意文件识别方法、装置、设备及存储介质。
背景技术
随着计算机技术的快速发展,恶意文件的识别逐渐从基于静态恶意文件特征码、规则匹配、启发式杀毒等方式演变到了使用机器学习算法获得恶意文件识别模型进行恶意文件的识别的方式。使用机器学习算法,如分类算法获得恶意文件识别模型,其本身的泛化能力能够从已知文件样本中学习检测规则来识别未知的具有一定相似程度的恶意文件。
恶意文件识别模型的泛化能力高低取决于训练样本集的丰富程度。如果训练样本集中不包含描述一个恶意文件样本的变种的信息,则训练所得的识别模型将无法很好应对此类恶意文件的变种。也就是说,在恶意文件识别模型刚刚被训练出来时具有比较好的检出率,但随着时间的推移检出率不断地下降。这一现象产生的原因就在于随着时间的推移恶意文件不断地演化和变种,因此,相隔时间越长的活跃样本之间的相似性也就越小。
而在现有技术中,通过机器学习训练得到恶意文件识别模型后,会一直使用该恶意文件识别模型进行恶意文件的识别,随着时间的推移,随着恶意文件的不断演化和变种,必然会使得恶意文件的检出率和识别准确率逐渐降低。
发明内容
本发明的目的是提供一种恶意文件识别方法、装置、设备及存储介质,以提高恶意文件检出率和识别准确率。
为解决上述技术问题,本发明提供如下技术方案:
一种恶意文件识别方法,包括:
在达到设定的更新触发条件时,基于获取的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型;
基于所述最新恶意文件识别模型和所述模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型;
在有待识别文件时,使用所述目标恶意文件识别模型对所述待识别文件进行识别;
根据识别结果,确定所述待识别文件是否为恶意文件。
在本发明的一种具体实施方式中,所述基于获得的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型,包括:
获取新文件样本;
基于所述新文件样本和历史文件样本,确定训练样本集;
使用所述训练样本集对模型库中当前最新的历史恶意文件识别模型进行训练,获得最新恶意文件识别模型。
在本发明的一种具体实施方式中,所述获取新文件样本,包括:
针对在终端或流量设备上采集到的每个可执行文件,确定该可执行文件与所述历史文件样本的异常度;
如果所述异常度高于预设阈值,则确定该可执行文件为新文件样本。
在本发明的一种具体实施方式中,所述确定该可执行文件与所述历史文件样本的异常度,包括:
使用预先训练得到的单类分类器对该可执行文件进行异常度的鉴定,所述单类分类器为基于所述历史文件样本训练得到的。
在本发明的一种具体实施方式中,所述基于所述新文件样本和历史文件样本中,确定训练样本集,包括:
在所述新文件样本和历史文件样本中:
将符合预设必选条件的文件样本加入到训练样本集中;
针对每类病毒家族,选择该类病毒家族中的至少一个病毒样本加入到所述训练样本集中;
对于未加入到所述训练样本集中的其他文件样本,按照预设抽取规则抽取后加入到所述训练样本集中;
所述预设抽取规则为:最后被发现时间越早,被抽取到的概率越小,最后被发现时间越晚,被抽取到的概率越大。
在本发明的一种具体实施方式中,所述使用所述训练样本集对模型库中当前最新的历史恶意文件识别模型进行训练,包括:
确定模型库中当前最新的历史恶意文件识别模型在训练过程中符合预设要求的中间结果;
从所述中间结果开始,使用所述训练样本集对该历史恶意文件识别模型进行训练。
在本发明的一种具体实施方式中,所述基于所述最新恶意文件识别模型和所述模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型,包括:
分别确定所述最新恶意文件识别模型和所述模型库中每个历史恶意文件识别模型的表现程度;
将表现程度最好的恶意文件识别模型确定为待使用的目标恶意文件识别模型。
一种恶意文件识别装置,包括:
识别模型更新模块,用于在达到设定的更新触发条件时,基于获取的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型;
识别模型确定模块,用于基于所述最新恶意文件识别模型和所述模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型;
文件识别模块,用于在有待识别文件时,使用所述目标恶意文件识别模型对所述待识别文件进行识别;
恶意文件确定模块,用于根据识别结果,确定所述待识别文件是否为恶意文件。
一种恶意文件识别设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一项所述恶意文件识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述恶意文件识别方法的步骤。
应用本发明实施例所提供的技术方案,在达到设定的更新触发条件时,基于获取的新文件样本,可以更新模型库中最新的一个历史恶意文件识别模型,获得最新恶意文件识别模型,基于最新恶意文件识别模型和模型库中历史恶意文件识别模型,可以确定待使用的目标恶意文件识别模型,在有待识别文件时,可以使用该目标恶意文件识别模型对待识别文件进行识别,并根据识别结果,确定待识别文件是否为恶意文件。基于获取的新文件样本对历史恶意文件识别模型进行更新,使得得到的最新恶意文件识别模型可以应对新文件样本中的恶意文件及其变种。基于最新恶意文件识别模型和历史恶意文件识别模型确定出目标恶意文件识别模型,使用目标恶意文件识别模型进行恶意文件的识别,避免出现一直使用同一个恶意文件识别模型带来的检出率和识别准确率下降的问题,可以提高恶意文件检出率和识别准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种恶意文件识别方法的实施流程图;
图2为本发明实施例中一种恶意文件识别装置的结构示意图;
图3为本发明实施例中一种恶意文件识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,为本发明实施例所提供的一种恶意文件识别方法的实施流程图,该方法可以包括以下步骤:
S110:在达到设定的更新触发条件时,基于获取的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型。
在本发明实施例中,可以通过在终端或流量设备等处采集文件样本,使用机器学习等方法建立恶意文件识别模型,并存放于模型库中。在达到设定的更新触发条件时,可以基于获取的新文件样本,对模型库中当前最新的历史恶意文件识别模型进行更新,更新后的恶意文件识别模型仍存放于模型库中。模型库中保存的恶意文件识别模型均可认为是历史恶意文件识别模型。模型库中当前最新的历史恶意文件识别模型即为历史恶意文件识别模型中获得时间距离当前时间最近的一个模型。
更新触发条件可以根据实际情况进行设定,如在达到设定的更新周期时,认为达到了设定的更新触发条件,或者,在获取到的新文件样本的数量达到设定数量要求时,认为达到了设定的更新触发条件,再或者,在接收到更新指令时,认为达到了设定的更新触发条件。
及时获取新文件样本,是后续模型演化的前提条件。基于获取的新文件样本,对模型库中当前最新的历史恶意文件识别模型进行更新后,可以获得最新恶意文件识别模型。
S120:基于最新恶意文件识别模型和模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型。
模型库中可以包括一个或多个历史恶意文件识别模型。不同历史恶意文件识别模型的表现程度可能存在差别,历史恶意文件识别模型和最新恶意文件识别模型的表现程度也可能存在差别。表现程度可以通过识别率、误报率和漏报率之中的最少一项进行确定。如可以将识别率、误报率和漏报率的加权和确定为表现程度。权重可以根据实际情况进行设定和调整。
在获得最新恶意文件识别模型后,可以基于最新恶意文件识别模型和模型库中所有的历史恶意文件识别模型,确定待使用的目标恶意文件识别模型,如可以将最新恶意文件识别模型直接确定为待使用的目标恶意文件识别模型,这样在使用目标恶意文件识别模型进行恶意文件的识别时,可以获得较好的检出率。
在本发明的一种具体实施方式中,步骤S120可以包括以下步骤:
步骤一:分别确定最新恶意文件识别模型和模型库中每个历史恶意文件识别模型的表现程度;
步骤二:将表现程度最好的恶意文件识别模型确定为待使用的目标恶意文件识别模型。
为便于描述,将上述两个步骤结合起来进行说明。
如前所描述的,模型库中可以包括最初建立的恶意文件识别模型,还可以包括后期更新后的恶意文件识别模型,这些恶意文件识别模型均可作为历史恶意文件识别模型。
对模型库中当前最新的历史恶意文件识别模型进行更新,获得最新恶意文件识别模型后,可以分别确定最新恶意文件识别模型和每个历史恶意文件识别模型的表现程度。具体的,可以使用最近设定时间段内获得的新文件样本,分别对每个恶意文件识别模型进行评估,得到每个恶意文件识别模型的表现程度。
将得到的每个恶意文件识别模型的表现程度进行对比,将表现程度最好的恶意文件识别模型确定为待使用的目标恶意文件识别模型。以在使用目标恶意文件识别模型进行恶意文件识别时,提高识别准确率。
确定待使用的目标恶意文件识别模型之后,可以将目标恶意文件识别模型发布给用户。
S130:在有待识别文件时,使用目标恶意文件识别模型对待识别文件进行识别。
在实际应用中,可以对终端或者流量设备等处的可执行文件进行监测,可以将监测得到的每个可执行文件确定为待识别文件,或者可以将监测得到的符合识别条件的每个可执行文件确定为待识别文件。
在有待识别文件时,可以使用目标恶意文件识别模型对待识别文件进行识别。
S140:根据识别结果,确定待识别文件是否为恶意文件。
使用目标恶意文件识别模型对待识别文件进行识别,获得的识别结果可以是待识别文件为正常文件的概率及待识别文件为恶意文件的概率的结果,还可以是待识别文件为正常文件、恶意文件或异常文件的结果。根据识别结果,可以确定待识别文件是否为恶意文件。
如果识别结果为前一种结果,则可以在待识别文件为正常文件的概率大于待识别文件为恶意文件的概率时,确定待识别文件为正常文件,在待识别文件为恶意文件的概率大于待识别文件为正常文件的概率时,确定待识别文件为恶意文件,在待识别文件为恶意文件的概率等于待识别文件为正常文件的概率是,确定待识别文件为异常文件。
在本发明实施例中,如果确定待识别文件为恶意文件,则可以上报给安全系统,以对该恶意文件进行拦截或查杀;如果确定待识别文件为正常文件,则可以不对其进行任何处理;如果确定待识别文件为异常文件,则可以上报给管理系统,以便管理人员对该异常文件是否为恶意文件进行进一步确认。
在实际应用中,在再次达到设定的更新触发条件之前,可以将本次获得的最新恶意文件识别模型存放到模型库中,这样在再次达到设定的更新触发条件时,该最新恶意文件识别模型即为模型库中最新的一个历史恶意文件识别模型,可以对其进行更新。
应用本发明实施例所提供的方法,在达到设定的更新触发条件时,基于获取的新文件样本,可以更新模型库中最新的一个历史恶意文件识别模型,获得最新恶意文件识别模型,基于最新恶意文件识别模型和模型库中历史恶意文件识别模型,可以确定待使用的目标恶意文件识别模型,在有待识别文件时,可以使用该目标恶意文件识别模型对待识别文件进行识别,并根据识别结果,确定待识别文件是否为恶意文件。基于获取的新文件样本对历史恶意文件识别模型进行更新,使得得到的最新恶意文件识别模型可以应对新文件样本中的恶意文件及其变种。基于最新恶意文件识别模型和历史恶意文件识别模型确定出目标恶意文件识别模型,使用目标恶意文件识别模型进行恶意文件的识别,避免出现一直使用同一个恶意文件识别模型带来的检出率和识别准确率下降的问题,可以提高恶意文件检出率和识别准确率。
在本发明的一个实施例中,步骤S110可以包括以下步骤:
步骤一:获取新文件样本;
步骤二:基于新文件样本和历史文件样本中,确定训练样本集;
步骤三:使用训练样本集对模型库中当前最新的历史恶意文件识别模型进行训练,获得最新恶意文件识别模型。
为便于描述,将上述三个步骤结合起来进行说明。
在本发明实施例中,可以获取设定时间段内的新文件样本,如在当前更新周期内,获取新文件样本。当前更新周期可以是从前一次达到设定的更新触发条件时刻至当前达到设定的更新触发条件时刻之间的时间段。新文件样本可以包括正常文件样本,还可以包括恶意文件样本。
具体的,可以将在终端或流量设备上采集到的每个可执行文件均作为新文件样本。或者,可以针对在终端或流量设备上采集到的每个可执行文件,确定该可执行文件与历史文件样本的异常度,如果异常度高于预设阈值,则确定该可执行文件为新文件样本。阈值可以根据实际情况进行设定和调整。
可执行文件与历史文件样本的异常度越高,表明该可执行文件与历史文件样本差别越大,近似程度越大,反之,可执行文件与历史文件样本的异常度越低,表明该可执行文件与历史文件样本的近似程度越小。在实际应用中,可以使用模糊哈希(fuzzy hash)技术,如ssdeep,将与历史文件样本近似的可执行文件预先排除掉。
在本发明的一种具体实施方式中,针对在终端或流量设备上采集到的每个可执行文件,可以使用预先训练得到的单类分类器对该可执行文件进行异常度的鉴定。单类分类器为基于历史文件样本训练得到的。
即在已有的历史文件样本的基础上训练一个单类分类器(one-classclassifier),具体可以使用单类支持向量机(one-class svm)算法。然后在终端或流量设备上使用这个单类分类器对采集到的每个可执行文件进行异常度的鉴定,当且仅当异常度高于一个特定的阈值时才进行上传,以获取新文件样本。这样可以保证当前已有的历史文件样本不会被重复上传,可以减少资源开销。
基于新文件样本和历史文件样本,可以确定训练样本集,实现对训练样本集的调整。一种简单的方式是将新文件样本和历史文件样本均加入到训练样本集中。或者将所有的新文件样本加入到训练样本集中。
但为了达到较好的覆盖效果,避免出现仅仅使用新文件样本使得模型过度拟合于新兴热门样本,对虽然陈旧但依然有一定活跃度的样本的检出率较低的问题,本发明实施例通过以下步骤确定训练样本集:
在新文件样本和历史文件样本中:
将符合预设必选条件的文件样本加入到训练样本集中;
针对每类病毒家族,选择该类病毒家族中的至少一个病毒样本加入到训练样本集中;
对于未加入到训练样本集中的其他文件样本,按照预设抽取规则抽取后加入到训练样本集中;
预设抽取规则为:最后被发现时间越早,被抽取到的概率越小,最后被发现时间越晚,被抽取到的概率越大。
新文件样本和历史文件样本均存在多个。
必选条件可以根据实际情况进行设定,比如如果新文件样本和历史文件样本中存在常见的正常文件(如Windows系统文件、常用软件文件等)、知名的恶意软件(由权威组织公布或验证的恶意文件)、历史已知的误报样本和漏报样本等一系列文件样本,则认为这些文件样本符合预设必选条件,可以将这些文件样本加入到训练样本集中。这些文件样本可以在每次训练时均被包含在训练样本集中。
针对新文件样本和历史文件样本中的每类病毒家族,可以选择该类病毒家族中的至少一个病毒样本加入到训练样本集中。恶意文件的家族名可以通过知名厂商的查毒软件获得。
对于新文件样本和历史文件样本中,除上述已加入到训练样本集中的其他文件样本,可以按照预设抽取规则抽取后加入到训练样本集中。预设抽取规则可以是:最后被发现时间越早,被抽取到的概率越小,最后被发现时间越晚,被抽取到的概率越大。可以按照随着最后发现时间依次递减的概率抽取文件样本到训练样本集中。举例而言,当天有活跃的文件样本被抽取到的概率要高于最后一次活跃是上周的文件样本被抽取到的概率。具体的抽取方式可以利用拒绝采样(Reject Sampling)技术,以保证无需计算复杂的联合概率函数,对于每次判定是否加入到训练样本集的复杂度为O(1)。
确定训练样本集后,可以使用训练样本集对模型库中当前最新的历史恶意文件识别模型进行训练,获得最新恶意文件识别模型。具体的,可以使用训练样本集对该历史恶意文件识别模型进行重新训练。还可以确定模型库中当前最新的历史恶意文件识别模型在训练过程中符合预设要求的中间结果,从该中间结果开始,使用训练样本集对该历史恶意文件识别模型进行训练。符合预设要求的中间结果可以是识别率达到设定识别率阈值的一个中间结果,还可以是迭代次数达到设定次数阈值的一个中间结果。
训练样本集中一般会包含数千万的文件样本,即便是在分布式训练的情况下依然会需要很长的时间才能完成模型的收敛。本发明实施例使用增量训练的方法对模型库中当前最新的历史恶意文件识别模型进行训练。避免每次都重新从随机的初始化参数出发,而是从一个上次训练过程中的中间结果出发进行训练。举例而言,假设一共需要3000轮的迭代才能完成模型训练,由于恶意文件之间的相似关系在使用调整后的训练样本集对模型进行训练时无需从头从随机初始化参数开始,而是可以从上一次训练过程中的中间结果,比如2000轮时的结果开始使用新的训练样本集训练。通过这一类似于迁移学习的方法可以缩短最终模型的收敛速度。
本发明实施例通过对新文件样本的捕捉,训练样本集的调整,模型的增量训练,以及识别率回扫评估等一系列操作,使得能够针对性地补充恶意文件识别模型对最新和其之前不擅长的类型的文件样本的识别能力,通过不断演进可以保证应对最新产生的恶意文件及其变种。
相应于上面的方法实施例,本发明实施例还提供了一种恶意文件识别装置,下文描述的恶意文件识别装置与上文描述的恶意文件识别方法可相互对应参照。
参见图2所示,该装置包括以下模块:
识别模型更新模块210,用于在达到设定的更新触发条件时,基于获取的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型;
识别模型确定模块220,用于基于最新恶意文件识别模型和模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型;
文件识别模块230,用于在有待识别文件时,使用目标恶意文件识别模型对待识别文件进行识别;
恶意文件确定模块240,用于根据识别结果,确定待识别文件是否为恶意文件。
应用本发明实施例所提供的装置,在达到设定的更新触发条件时,基于获取的新文件样本,可以更新模型库中最新的一个历史恶意文件识别模型,获得最新恶意文件识别模型,基于最新恶意文件识别模型和模型库中历史恶意文件识别模型,可以确定待使用的目标恶意文件识别模型,在有待识别文件时,可以使用该目标恶意文件识别模型对待识别文件进行识别,并根据识别结果,确定待识别文件是否为恶意文件。基于获取的新文件样本对历史恶意文件识别模型进行更新,使得得到的最新恶意文件识别模型可以应对新文件样本中的恶意文件及其变种。基于最新恶意文件识别模型和历史恶意文件识别模型确定出目标恶意文件识别模型,使用目标恶意文件识别模型进行恶意文件的识别,避免出现一直使用同一个恶意文件识别模型带来的检出率和识别准确率下降的问题,可以提高恶意文件检出率和识别准确率。
在本发明的一种具体实施方式中,识别模型更新模块210,具体用于:
获取新文件样本;
基于新文件样本和历史文件样本,确定训练样本集;
使用训练样本集对模型库中当前最新的历史恶意文件识别模型进行训练,获得最新恶意文件识别模型。
在本发明的一种具体实施方式中,识别模型更新模块210,具体用于:
针对在终端或流量设备上采集到的每个可执行文件,确定该可执行文件与历史文件样本的异常度;
如果异常度高于预设阈值,则确定该可执行文件为新文件样本。
在本发明的一种具体实施方式中,识别模型更新模块210,具体用于:
使用预先训练得到的单类分类器对该可执行文件进行异常度的鉴定,单类分类器为基于历史文件样本训练得到的。
在本发明的一种具体实施方式中,识别模型更新模块210,具体用于:
在新文件样本和历史文件样本中:
将符合预设必选条件的文件样本加入到训练样本集中;
针对每类病毒家族,选择该类病毒家族中的至少一个病毒样本加入到训练样本集中;
对于未加入到训练样本集中的其他文件样本,按照预设抽取规则抽取后加入到训练样本集中;
预设抽取规则为:最后被发现时间越早,被抽取到的概率越小,最后被发现时间越晚,被抽取到的概率越大。
在本发明的一种具体实施方式中,识别模型更新模块210,具体用于:
确定模型库中当前最新的历史恶意文件识别模型在训练过程中符合预设要求的中间结果;
从中间结果开始,使用训练样本集对该历史恶意文件识别模型进行训练。
在本发明的一种具体实施方式中,识别模型确定模块220,具体用于:
分别确定最新恶意文件识别模型和模型库中每个历史恶意文件识别模型的表现程度;
将表现程度最好的恶意文件识别模型确定为待使用的目标恶意文件识别模型。
相应于上面的方法实施例,本发明实施例还提供了一种恶意文件识别设备,如图3所示,包括:
存储器310,用于存储计算机程序;
处理器320,用于执行计算机程序时实现上述任一项恶意文件识别方法的步骤。
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述任一项恶意文件识别方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种恶意文件识别方法,其特征在于,包括:
在达到设定的更新触发条件时,基于获取的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型;
基于所述最新恶意文件识别模型和所述模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型;
在有待识别文件时,使用所述目标恶意文件识别模型对所述待识别文件进行识别;
根据识别结果,确定所述待识别文件是否为恶意文件。
2.根据权利要求1所述的方法,其特征在于,所述基于获得的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型,包括:
获取新文件样本;
基于所述新文件样本和历史文件样本,确定训练样本集;
使用所述训练样本集对模型库中当前最新的历史恶意文件识别模型进行训练,获得最新恶意文件识别模型。
3.根据权利要求2所述的方法,其特征在于,所述获取新文件样本,包括:
针对在终端或流量设备上采集到的每个可执行文件,确定该可执行文件与所述历史文件样本的异常度;
如果所述异常度高于预设阈值,则确定该可执行文件为新文件样本。
4.根据权利要求3所述的方法,其特征在于,所述确定该可执行文件与所述历史文件样本的异常度,包括:
使用预先训练得到的单类分类器对该可执行文件进行异常度的鉴定,所述单类分类器为基于所述历史文件样本训练得到的。
5.根据权利要求2所述的方法,其特征在于,所述基于所述新文件样本和历史文件样本中,确定训练样本集,包括:
在所述新文件样本和历史文件样本中:
将符合预设必选条件的文件样本加入到训练样本集中;
针对每类病毒家族,选择该类病毒家族中的至少一个病毒样本加入到所述训练样本集中;
对于未加入到所述训练样本集中的其他文件样本,按照预设抽取规则抽取后加入到所述训练样本集中;
所述预设抽取规则为:最后被发现时间越早,被抽取到的概率越小,最后被发现时间越晚,被抽取到的概率越大。
6.根据权利要求2所述的方法,其特征在于,所述使用所述训练样本集对模型库中当前最新的历史恶意文件识别模型进行训练,包括:
确定模型库中当前最新的历史恶意文件识别模型在训练过程中符合预设要求的中间结果;
从所述中间结果开始,使用所述训练样本集对该历史恶意文件识别模型进行训练。
7.根据权利要求1至6之中任一项所述的方法,其特征在于,所述基于所述最新恶意文件识别模型和所述模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型,包括:
分别确定所述最新恶意文件识别模型和所述模型库中每个历史恶意文件识别模型的表现程度;
将表现程度最好的恶意文件识别模型确定为待使用的目标恶意文件识别模型。
8.一种恶意文件识别装置,其特征在于,包括:
识别模型更新模块,用于在达到设定的更新触发条件时,基于获取的新文件样本,更新模型库中当前最新的历史恶意文件识别模型,获得最新恶意文件识别模型;
识别模型确定模块,用于基于所述最新恶意文件识别模型和所述模型库中历史恶意文件识别模型,确定待使用的目标恶意文件识别模型;
文件识别模块,用于在有待识别文件时,使用所述目标恶意文件识别模型对所述待识别文件进行识别;
恶意文件确定模块,用于根据识别结果,确定所述待识别文件是否为恶意文件。
9.一种恶意文件识别设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述恶意文件识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述恶意文件识别方法的步骤。
CN201910494157.7A 2019-06-06 2019-06-06 一种恶意文件识别方法、装置、设备及存储介质 Pending CN112052449A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910494157.7A CN112052449A (zh) 2019-06-06 2019-06-06 一种恶意文件识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910494157.7A CN112052449A (zh) 2019-06-06 2019-06-06 一种恶意文件识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112052449A true CN112052449A (zh) 2020-12-08

Family

ID=73609135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910494157.7A Pending CN112052449A (zh) 2019-06-06 2019-06-06 一种恶意文件识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112052449A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926432A (zh) * 2021-02-22 2021-06-08 杭州优工品科技有限公司 适用于工业部件识别模型的训练方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120204266A1 (en) * 2009-10-12 2012-08-09 Samsung Sds Co., Ltd. Method for providing an anti-malware service
CN103870754A (zh) * 2010-11-29 2014-06-18 北京奇虎科技有限公司 恶意程序识别及训练模型生成方法和装置
CN105095755A (zh) * 2015-06-15 2015-11-25 安一恒通(北京)科技有限公司 文件识别方法和装置
CN107315954A (zh) * 2016-04-27 2017-11-03 腾讯科技(深圳)有限公司 一种文件类型识别方法及服务器
CN107563201A (zh) * 2017-09-08 2018-01-09 北京奇虎科技有限公司 基于机器学习的关联样本查找方法、装置及服务器
CN108347430A (zh) * 2018-01-05 2018-07-31 国网山东省电力公司济宁供电公司 基于深度学习的网络入侵检测和漏洞扫描方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120204266A1 (en) * 2009-10-12 2012-08-09 Samsung Sds Co., Ltd. Method for providing an anti-malware service
CN103870754A (zh) * 2010-11-29 2014-06-18 北京奇虎科技有限公司 恶意程序识别及训练模型生成方法和装置
CN105095755A (zh) * 2015-06-15 2015-11-25 安一恒通(北京)科技有限公司 文件识别方法和装置
CN107315954A (zh) * 2016-04-27 2017-11-03 腾讯科技(深圳)有限公司 一种文件类型识别方法及服务器
CN107563201A (zh) * 2017-09-08 2018-01-09 北京奇虎科技有限公司 基于机器学习的关联样本查找方法、装置及服务器
CN108347430A (zh) * 2018-01-05 2018-07-31 国网山东省电力公司济宁供电公司 基于深度学习的网络入侵检测和漏洞扫描方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926432A (zh) * 2021-02-22 2021-06-08 杭州优工品科技有限公司 适用于工业部件识别模型的训练方法、装置及存储介质
CN112926432B (zh) * 2021-02-22 2023-08-15 杭州优工品科技有限公司 适用于工业部件识别模型的训练方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN112417439B (zh) 账号检测方法、装置、服务器及存储介质
CN109600363B (zh) 一种物联网终端网络画像及异常网络访问行为检测方法
CN109522716B (zh) 一种基于时序神经网络的网络入侵检测方法及装置
CN111428231B (zh) 基于用户行为的安全处理方法、装置及设备
US9781139B2 (en) Identifying malware communications with DGA generated domains by discriminative learning
CN108496328A (zh) 恶意bgp劫持的精确实时识别
CN110166462B (zh) 访问控制方法、系统、电子设备及计算机存储介质
CN111209563B (zh) 一种网络入侵检测方法及系统
US11570070B2 (en) Network device classification apparatus and process
CN113780466B (zh) 模型迭代优化方法、装置、电子设备和可读存储介质
CN110166344B (zh) 一种身份标识识别方法、装置以及相关设备
US11706236B2 (en) Autonomous application of security measures to IoT devices
CN114553523A (zh) 基于攻击检测模型的攻击检测方法及装置、介质、设备
CN113704328B (zh) 基于人工智能的用户行为大数据挖掘方法及系统
CN109600362A (zh) 基于识别模型的僵尸主机识别方法、识别设备及介质
CN110224852A (zh) 基于htm算法的网络安全监测方法及装置
CN114079579A (zh) 一种恶意加密流量检测方法及装置
CN111654482A (zh) 一种异常流量的检测方法、装置、设备及介质
CN112052449A (zh) 一种恶意文件识别方法、装置、设备及存储介质
CN110166422A (zh) 域名行为识别方法、装置、可读存储介质和计算机设备
CN112149121A (zh) 一种恶意文件识别方法、装置、设备及存储介质
CN116956282B (zh) 基于网络资产内存时间序列多特征数据的异常检测系统
CN113378161A (zh) 一种安全检测方法、装置、设备及存储介质
CN105488394B (zh) 一种面向蜜罐系统进行入侵行为识别和分类的方法及系统
CN112463394A (zh) 基于大数据和云计算的数据筛选方法及云服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination