CN112487420A

CN112487420A - 减少文件分类中的误报的数量的系统和方法

Info

Publication number: CN112487420A
Application number: CN201911113110.8A
Authority: CN
Inventors: 谢尔盖·V·普罗库金; 亚历山大·S·奇斯特亚科夫; 阿列克谢·M·罗曼恩科
Original assignee: Kaspersky Lab AO
Current assignee: Kaspersky Lab AO
Priority date: 2019-09-11
Filing date: 2019-11-14
Publication date: 2021-03-12
Anticipated expiration: 2039-11-14
Also published as: CN112487420B; US11663363B2; US20210073418A1; EP3792799A1; US11288401B2; US20220171880A1

Abstract

本文中公开了用于减少文件分类中的误报的数量的系统和方法。在一个方面中，示例性方法包括：分析文件以确定该文件是否将被识别为恶意的；当该文件被识别为恶意的时，分析该文件以检测误报结果；当检测到误报结果时，将该文件排除在被扫描之外，并计算该文件的灵活哈希；以及将所计算的灵活哈希存储在异常数据库中。

Description

减少文件分类中的误报的数量的系统和方法

技术领域

本发明涉及文件分类领域，更具体地，涉及用于减少分类算法中的误报的系统和方法。

背景技术

计算设备(智能手机、计算机、平板电脑等)已经成为几乎每一个人的日常生活经验的基本属性。借助这类设备，人们执行许多日常任务：从交换电子邮件到在商店购买商品等。这类设备的广泛使用促使犯罪分子创建恶意程序，特别是设计成非法访问用户数据且也访问作为整体的计算设备的资源的恶意程序。

目前，广泛使用防病毒应用程序来对付恶意程序。防病毒应用程序为设计成检测恶意程序且保护计算设备免受这些恶意程序危害的程序。使用各种方法和技术来提供这类保护：签名分析、行为分析、启发式规则等。然而，随着防病毒技术的发展，罪犯也在改善规避这些防护机制的方式。因此，防病毒技术的开发一直都是紧迫的任务，该任务的目标是提高恶意程序的检测质量，以减少恶意程序的检测中的第一种错误和第二种错误。

为了提高恶意程序的检测质量，越来越多且越来越频繁地使用由于机器学习而获得的分类模型。这类模型从正在被分析的应用程序(特别地，可执行文件(诸如PE文件))识别所有可能的属性(关于用于创建应用程序的编译器的信息、关于可执行文件的大小的信息、机器指令集等)，并且基于这些标签将正在被分析的应用程序分配到应用程序类别之一；因此，通过将被分析的应用程序分配到恶意应用程序类别来实现恶意应用程序的检测。然而，在检测恶意应用程序方面可能还不错的分类算法可能仍需要其它特性的改进。例如，算法的误报的数量(或基于误报的数量的其它度量)是检测算法的重要特性。目前的分类算法通常依赖于串行过程，在该串行过程中，首先设计检测算法，然后应用该检测算法，稍后根据进一步的分析对其进行改进。这种方法具有其缺点。误报的数量可能会在延长的时间内保持太高。

因此，需要创建一种可以消除这些缺点并提高恶意程序的检测质量的解决方案。

发明内容

本发明的各方面涉及计算机安全领域，更具体地，涉及用于减少文件分类中的误报的系统和方法。本发明的方法通过同时执行恶意文件的检测和减少误报来克服现有方法的缺点，从而提高了恶意程序的检测质量。

在一个示例性方面中，一种方法在包括硬件处理器的计算机中实现，该方法包括：分析文件以确定该文件是否将被识别为恶意的；当所述文件被识别为恶意时，分析该文件以检测误报结果；当检测到误报结果时，将该文件排除在被扫描之外并计算该文件的灵活哈希；以及将计算的所述灵活哈希存储在异常数据库中。

根据本发明的一个方面，提供了一种用于减少文件分类中的误报的系统，该系统包括硬件处理器，该硬件处理器配置为：分析文件以确定该文件是否将被识别为恶意的；当该文件被识别为恶意时，分析该文件以检测误报结果；当检测到误报结果时，将该文件排除在被扫描之外并计算该文件的灵活哈希；以及将计算的所述灵活哈希存储在异常数据库中。

在一个示例性方面中，提供了一种非暂时性计算机可读介质，在该非暂时性计算机可读介质上存储有用于减少文件分类中的误报的指令集，其中，该指令集包括用于以下操作的指令：分析文件以确定该文件是否将被识别为恶意的；当该文件被识别为恶意的时，分析该文件以检测误报结果；当检测到误报结果时，将该文件排除在被扫描之外并计算该文件的灵活哈希；以及将计算的所述灵活哈希存储在异常数据库中。

在一个方面中，使用至少包括所计算的灵活哈希的单一记录来对预定数量的独特文件执行文件是否为恶意的确定。

在一个方面中，当文件的标识符与受信任文件的标识符匹配时，检测到误报结果。

在一个方面中，检测文件的误报结果包括：确定存在用于该文件的数字签名证书，将该文件的数字签名证书与数据库中的受信任文件的证书进行比较，以及当数据库中存在签署该文件所用的有效证书时检测到误报。

在一个方面中，该方法还包括：将排除在被扫描之外的文件识别为受信任的。

在一个方面中，该方法还包括：识别具有检测到误报所针对的文件的灵活哈希匹配的灵活哈希的其它文件，以及将识别的所述其它文件识别为受信任的。

在一个方面中，该方法还包括：将被识别为受信任的文件存储在能够由任何数量的计算系统访问的数据库中。

根据本发明的教导的文件分类允许恶意文件的检测，同时减少误报的数量，从而提供计算机安全性的改善。

附图说明

并入本说明书中并构成本说明书的一部分的附图示出了本发明的一个或多个示例性方面，以及连同具体实施方式一起用来阐述这些示例性方面的原理和实现方式。

图1是示出根据本发明的各方面的用于减少文件分类中的误报的示例性系统的框图。

图2是根据本发明的各方面的用于减少文件分类中的误报的示例性方法的流程图。

图3表示可以在其上实现本发明的各方面的通用计算机系统的示例。

具体实施方式

本文在用于减少文件分类中的误报的系统、方法和计算机程序的情况下描述示例性方面。本领域的普通技术人员将认识到，以下描述仅仅是说明性的，而不旨在以任何方式进行限制。其它方面将很容易将其自身暗示给了解本发明的优点的本领域的技术人员。现在将详细地参考如附图中所示的示例性方面的实现方式。贯穿附图和以下描述将尽可能地使用相同的附图标记来指代相同或类似的项目。

作为介绍，以下提供了用于描述本发明的各方面的多个定义和概念。

恶意应用程序为能够对计算设备或对计算设备(换言之，计算机系统：个人计算机、服务器、移动手机等)的用户的数据造成危害的应用程序，例如，网络蠕虫、键盘记录器、或计算机病毒。造成的危害可能是出于盗窃目的非法访问计算机的资源(包括保存在计算机上的数据)以及非法使用资源(包括为了存储数据，执行计算等)。

受信任应用程序是不会对计算机或其用户造成危害的应用程序。受信任应用程序可以包括已经由受信任软件制造商开发的应用程序、从受信任源(例如，受信任网站数据库中所列的网站)下载的应用程序、或者标识符(或可用于唯一地标识应用程序的其它数据)(例如应用程序文件的哈希和)保存在受信任应用程序数据库中的应用程序。也可以将制造商的标识符(诸如数字证书)保持在受信任应用程序数据库中。

不受信任应用程序为不受信任的、但也没有例如借助于防病毒应用程序被识别为是恶意的应用程序。此外，例如借助防病毒扫描，不受信任应用程序之后可能被识别为是恶意的。

恶意文件是作为恶意应用程序的组成部分且包含程序代码(可执行代码或可翻译代码)的文件。

不受信任文件是作为不受信任应用程序的组成部分且包含程序代码(可执行代码或可翻译代码)的文件。

受信任文件是作为受信任应用程序的组成部分的文件。

预定应用程序类别至少为受信任应用程序类别、不受信任应用程序类别、和恶意应用程序类别。

灵活哈希(“相似性保留哈希”，特别是“局部性敏感哈希”)为基于文件中存储的数据计算的且在该数据的部分变化时将保持其值不变的文件哈希。参看Jonathan Masci等人在https://arxiv.org/pdf/1312.5479.pdf上的“Sparse similarity-preservinghashing”和Ravi Kumar在https://users.soe.ucsc.edu/～niejiazhong/slides/kumar.pdf上的“Locality Sensitive Hashing”。

在一方面中，灵活哈希的计算另外利用通过处理文件中存储的数据而获得的数据。例如，用于计算灵活哈希的数据可以包括从文件的执行日志中获得的函数调用的记录。在文件的执行或文件的执行仿真过程中，可以通过任何标准方法来填充和/或获取文件的执行日志。在一方面中，可以以值向量的形式获得灵活哈希。

在一个方面中，灵活哈希为对于两个相似文件将具有相同值的哈希(基于文件的属性计算的灵活哈希值相匹配)。一组文件的灵活哈希(对应于一组文件的灵活哈希)包括其值对于该组中的每个文件相同的灵活哈希。具有灵活哈希的匹配值的文件、尤其来自这样组的文件，可以被视为以一定准确度(本发明情况下的“准确度”可以被理解为包括例如该组的每两个文件之间的相似度的平均值或均方根值)相似，该准确度由用于计算灵活哈希本身的方法的准确度来决定。

如果两个文件之间的相似度大于之前建立的阈值(例如，大于85％，换言之，大于0.85)，则它们应该被视为相似的。可以借助任何的已知方法计算相似度，该已知方法诸如基于计算如下内容的方法：Jacquard、Dyce、Levenshtein、Hemming、以及其它度量。

误报是指其中拒绝真实的零假设(null hypothesis)的统计术语。也就是说，误报是指I型错误。例如，零假设可以是说明给定文件不是恶意的假设。假设，给定的文件实际上不是恶意的。然后，如果将文件错误地识别为恶意的，则拒绝“真实的”零假设，并且发生误报事件。

注意，本发明中描述的用于减少文件分类中的误报的系统包括真实的设备、系统、部件、和部件组，这些设备、系统、部件、和部件组利用硬件(诸如集成微电路(专用集成电路，ASIC)或现场可编程门阵列(FPGA))，或者例如以软件和硬件的组合(诸如微处理器系统和一组应用程序指令以及基于神经突触芯片))的形式来实现。本发明的系统的功能可以仅通过硬件实现，并且还可以以组合的形式实现(其中，系统的一些功能通过软件来实现且一些功能通过硬件来实现)。在一些方面，系统的一些或全部操作可以被实施在通用计算机(例如图3中所示的通用计算机)的处理器上。此外，系统的部件可以在单一计算设备内实现或分布在多个互连计算设备之间。

图1是示出根据本发明的各方面的用于减少文件分类中的误报的示例性系统100的框图。本系统包括：恶意文件检测器110、评估器120、误报校正器130和异常数据库140。在一个方面中，系统100还包括受信任文件的数据库125。

在一个方面中，系统的所有部件位于用户的计算设备或客户端计算设备(例如用户的个人计算机)上。在另一方面中，系统的所有部件位于远程服务器上。在另一方面中，恶意文件检测器110和异常数据库140位于用户的计算设备上，而评估器120和误报校正器130位于服务器设备上。在另一方面中，恶意文件检测器110、异常数据库140和评估器120位于客户端计算设备上，而误报校正器130位于服务器设备上。在又一方面中，评估器120位于服务器设备上，而系统的其它部件位于客户端计算设备上。在再一方面，系统的所有部件(即，恶意文件检测器110、评估器120、误报校正器130和异常数据库140)位于远程服务器上，而委托代理(proxy agent)位于客户端计算设备上，其中委托代理用于将恶意文件检测器110、评估器120、误报校正器130和异常数据库140的操作所需的所有数据传输至远程服务器。

在一个方面中，恶意文件检测器110设计成检测恶意文件。应当注意，恶意文件是具有共同特性的一类别的文件的特定示例，其中，该类别的文件可对计算设备或计算设备的用户造成危害。注意，本发明的方法和系统可以用于恶意文件或任何其它类别的文件。换句话说，“恶意文件”可以是一个这样的类别。在一个方面中，该类别是不期望文件(例如与不期望的软件、广告软件(adware)、改变其它应用程序的设置(例如，改变浏览器的起始网页)的软件相关的不期望文件)的类别。

为了易于理解，下面通过为恶意文件建立的示例性类别来描述本发明的方法。为了清楚起见，不属于该已建立的恶意文件类别的文件被称为“受信任文件”。因此，对于示例性类别，术语“误报”适用于以下情况：当一文件不是恶意文件时，即该文件是可信任的并且因此应当被识别为受信任文件时，将该文件被错误地识别为属于已建立的恶意文件类别。换句话说，误报是指当文件不属于某个类别(特别是该文件属于受信任文件的类别)时，将该文件错误地识别为属于该某个类别(特别是恶意文件的类别)。

恶意文件的检测包括：由恶意文件检测器110分析文件，以及将该文件识别为恶意的。在一个方面中，为了将文件识别为恶意的，恶意文件检测器110采用数据安全领域的技术人员通常已知的任何方法。在一个方面中，为了将文件识别为恶意的，恶意文件检测器110可以采用数据安全领域的技术人员通常已知的任何方法。然而，无论使用哪种方法将文件识别为恶意的，校正该方法的误报结果都是一项劳动密集型操作；特别地：

·校正该方法的误报结果可能需要花费大量时间；和/或

·校正该方法的误报结果可能需要通过网络发送大量数据。

在一个方面中，当校正误报结果所花费的持续时间大于针对持续时间建立的阈值(例如一个小时或更多时间)时，校正误报结果所花费的时间量被认为是大量的。在一个方面中，当针对校正误报结果发送的数据量大于针对数据量建立的阈值(例如一兆字节或更大)时，该针对校正误报结果发送的数据量被认为是大量的。

在一个方面中，恶意文件检测器110使用单一记录(例如启发式规则、灵活哈希等)对预定数量的独特文件执行检测。换句话说，当本发明用于检测恶意文件时，本发明具有泛化能力。

在一个方面中，恶意文件检测器110使用分类算法用于检测恶意文件。误报结果的相应校正(即，对之前被错误分类为恶意的文件进行重新分类的校正)需要大量时间。该校正包括重新教导分类算法。此外，重新教导不仅仅针对一种类型的文件。而是，重新教导包括支持泛化能力。

在一个方面中，本发明的分类算法包括：

·决策树；

·梯度提升；

·随机森林；

·基于神经网络的分类算法。

注意，可以使用数据结构领域中通常已知的任何方法来执行本发明的任何分类算法的教导和重新教导。因此，在本发明中没有描述特定的教导和重新教导技术。

返回图1，恶意文件检测器110可以采用分类算法用于扫描文件并确定每个扫描文件是否是恶意文件。例如，在图1中示出了一组文件115。该组文件115包括以下这样的文件：恶意文件检测器110对该文件进行扫描以检测该组中的该文件是否为恶意文件。例如，图1的文件105是该组文件115中的一个示例性文件，恶意文件检测器110可以针对该文件采用分类算法以扫描并确定该文件是否为恶意文件。

在一个方面中，该组文件115可以包括用户的计算设备上的文件。在另一方面中，该组文件115可以包括远程服务器上的文件。因此，恶意文件检测器110扫描文件105；在扫描完成时，恶意文件检测器110将文件105要么识别为恶意文件，要么识别为非恶意文件。如果文件105被识别为恶意的，则恶意文件检测器110将被识别为恶意的文件105(或关于该文件的所有必要信息)发送至评估器120。

然后，评估器120接收并分析文件105(或关于文件105的信息)。分析的目的是检测恶意文件检测器110的误报结果，该误报结果是将文件105识别为恶意的结果。换句话说，评估器120的分析揭示了恶意文件检测器110是否将文件105错误地识别为恶意的。

在一个方面中，评估器120使用本领域中通常已知的检测误报结果的任何方法。例如，评估器120可以将文件105的标识符与受信任文件的标识符进行比较。在一个方面中，文件105的标识符可以包括文件105的校验和(MD5或SHA-1等)。

在一个方面中，将受信任文件的标识符存储在受信任文件数据库125中。在一个方面中，数据库125位于评估器120所位于的计算设备的范围内。在另一方面中，数据库125和评估器120位于不同的计算设备上，从而被认为相对于彼此而处于远程位置。

在一个方面中，当评估器120确定在受信任文件数据库125中存在文件105的标识符时，评估器120检测到误报结果。例如，恶意文件检测器110检测给定文件105为恶意文件。然而，随后，评估器120在受信任文件数据库中定位到给定文件105的标识符，从而表示该文件105被错误地识别为恶意的。换句话说，当受信任文件被识别为恶意时，评估器120检测到误报结果。类似地，当评估器120确定受信任文件数据库125中不存在文件105的标识符时，评估器120没有检测到误报结果。

在一个方面中，当存在用于文件105的数字签名证书时，评估器120将文件105的证书与保存在受信任文件数据库125中的证书进行比较。当数据库125中存在签署文件105所用的证书并且该证书有效时，评估器120检测到误报。否则，评估器120没有检测到文件105被识别为恶意的误报结果。

在一个方面中，保存在受信任文件数据库125中的数据可以例如由IT安全领域内的专业人士修改。在一个方面中，可以经由远程链接来执行修改。在另一方面中，该修改可以由本地专家执行。

在一个方面中，当由评估器120检测到文件105的误报时，评估器120将检测到误报所针对的文件105发送至误报校正器130。

在一个方面中，误报校正器130计算从评估器120接收的文件的灵活哈希135，并将所计算的灵活哈希135发送至异常数据库140，如图1所示。例如，当恶意文件检测器110将文件105错误地识别为恶意时，随后评估器120可以检测到误报，并将该文件发送至误报校正器130。然后，误报校正器130可以计算文件105的灵活哈希并将该灵活哈希存储在异常数据库140中。

反过来，在执行文件扫描时，可以由恶意文件检测器110使用在异常数据库140中保留的灵活哈希135。因此，恶意文件检测器110接收被指定待扫描的文件，例如，该组文件115中的任何文件。然后，恶意文件检测器110首先确定被指定为待扫描的文件是否存在于异常数据库140中。由误报校正器130通过计算灵活哈希135并将该灵活哈希存储在异常数据库140中来填充异常数据库140。然后，当在异常数据库中存在被指定为待扫描的文件的灵活哈希时，将该文件排除在被扫描之外。

在一个方面中，当以下情况下，指定为被扫描的文件排除在被扫描之外：指定为被扫描的文件的灵活哈希为值[x₁，x₂，x₃…]的向量的形式，灵活哈希[y₁，y₂，y₃…]在异常数据库中找到，并指示I向量的元素的索引以使得满足以下条件中的至少一个：

·

x_i＜y_i，以及

·

x_i＜y_i。

在一个方面中，排除在被扫描之外的文件被识别为受信任的。

因此，如上所述，恶意文件检测器110能够计算文件105的灵活哈希，以及将所计算的灵活哈希与异常数据库140中保存的哈希进行比较(例如，通过比较哈希值)。此外，在由恶意文件检测器110对文件105的重复扫描过程中，文件105将不会被识别为恶意的。每当使用恶意文件检测器110时，执行重复扫描。

返回图1，由文件105的附近区136(区域136)示意性地指定了一组文件，其代表着类似于文件105的被错误地识别为恶意的一组文件，其中区域136中的所有文件是该组文件115中的文件。因此，恶意文件检测器110可以对该组文件115进行扫描，并且区域136中的文件可以是意图被扫描但具有在异常数据库140中存在的灵活哈希的文件。然后，当识别恶意文件检测器110的误报结果时，将区域136中的所有文件都成功地排除在扫描之外，例如，将与文件105的灵活哈希135匹配的文件被排除在扫描之外。

上述方法使系统100能够减少误报的数量。对于上述示例，对恶意文件检测器110的算法进行了改变，使得之前被认为是恶意的、随后被发现为非恶意的文件用于改进算法本身。换句话说，当(1)恶意文件检测器最初将文件105识别为恶意的、(2)评估器120检测到文件105的误报、(3)由误报校正器130计算灵活哈希135、以及(4)将所计算的文件105的灵活哈希存储在异常数据库140中时，改进恶意文件检测器110的算法，使得类似于文件105的文件未被识别为恶意的-从而减少了后续的误报。通过恶意文件检测器110，使用灵活哈希135用于将文件排除在扫描之外，使得本发明的方法能够避免对于计算了灵活哈希135的同一文件105的重复误报结果。此外，关于区域136中的文件的误报结果，所述文件是类似于文件105的文件。注意，恶意文件检测器110可能未对区域136中的文件实施任何扫描。然而，恶意文件检测器110可以基于从灵活哈希135获得的知识来避免扫描区域136中的文件。

在一个方面中，当灵活哈希135存储在异常数据库140中时，通过将区域136中的文件识别为受信任文件，可以避免关于区域136中的文件的误报结果。

如上所述，本发明的方法减少了误报的数量。此外，该方法支持分类算法的改进的泛化，使得甚至在扫描文件之前，可以消除文件的误报。对于图1的示例，基于仅扫描文件105所获得的知识，可以消除区域136中的文件的误报结果。

本发明的方法减少了误报，而不需要通过网络发送大量数据。这样，与需要通过网络发送大量数据或需要花费大量时间来分析每个结果并重新教导分类器的其它方法不同，本发明的方法减少了误报的数量，同时解决了该缺点。本发明的方法有利地校正了后续扫描的误报，而无需重新教导分类算法。

图2是根据本发明的各方面的用于减少文件分类中的误报的示例性方法200的流程图。图2的方法可以借助于结合图1描述的分类系统来实施。

在步骤201中，恶意文件检测器110分析文件105，以确定是否应当将文件105识别为恶意的。

在步骤202中，当文件105被识别为恶意的时，评估器120分析文件105(即执行重复分析)以检测误报结果。换句话说，评估器120确定恶意文件检测器110是否将文件105错误地分类为恶意的。当评估器120检测到误报时，该方法行进至步骤204。否则，该方法行进至步骤203。

在步骤203中，方法200保持将文件105识别为恶意的。例如，将文件识别为恶意的决定不会改变。然后该方法行进至步骤201。

在步骤204中，通过误报校正器130，方法200将该文件排除在被扫描之外，并计算文件105的灵活哈希。例如，错误地识别为恶意的文件105的灵活哈希135由误报校正器130计算。可以通过将该文件识别为非恶意来执行将该文件排除在被扫描之外。

存在用于计算灵活哈希的各种方法，使得该哈希值对于两个类似文件是一致的，诸如位置敏感哈希(LSH)、以及在监督学习或部分监督学习的帮助下形成的其它哈希函数，这取决于满足“相似性保留”条件——哈希值相对于用于计算哈希的数据变化的稳定性。当计算的哈希匹配时，文件被视为相似。

在一个方面中，经由训练模块对误报校正器130进行训练。例如，训练模块可以从各种计算设备收集数据。然后，基于初始恶意文件指定和后续校正，可以改进训练算法，使得误报校正器130更好地配备成识别恶意文件检测器110的误报结果的示例。

在步骤205中，方法200将所计算的灵活哈希存储在异常数据库中。例如，将在步骤204中计算出的灵活哈希添加至异常数据库140。

在一个方面中，由误报校正器130执行将灵活哈希135添加至异常数据库140。在另一方面中，将由误报校正器130计算的灵活哈希发送至数据安全专家。例如，数据安全专家的计算设备可以收集灵活哈希。然后，专家可以分析所收集的灵活哈希，并决定应将哪些灵活哈希添加至异常数据库140。在一个方面中，专家还可以更新与由恶意文件检测器110使用的文件分类算法相关联的规则。

在步骤206中，方法200使用灵活哈希分析其它文件，以确定是否应当将该其它文件排除在被扫描之外。灵活哈希存在于数据库中的文件被排除。注意，所述其它文件可以先前已被扫描或未曾被扫描。因此，如果现在在异常数据库140中找到了待由恶意文件检测器110扫描的队列中的某些文件的灵活哈希，则避免了扫描-从而减少了待扫描的文件数量。对于图1的示例，文件115的灵活哈希可以存在于异常数据库140中。因此，文件115可以被排除在由恶意文件检测器110进行的进一步分析之外。

在一个方面中，使用至少包括所计算的灵活哈希的单一记录，对预定数量的独特文件执行文件是否是恶意的确定。

在一个方面中，检测文件的误报结果包括：确定存在用于文件的数字签名证书，将该文件的证书与数据库中受信任文件的证书进行比较，以及当数据库中存在签署文件所用的有效证书时检测到误报。

在一个方面中，该方法还包括：将排除在被扫描之外的文件识别为受信任的。在一个方面中，该方法还包括：识别具有与检测到误报所针对的文件的灵活哈希匹配的灵活哈希的其它文件，以及将识别的所述其它文件识别为受信任的。

在一个方面中，该方法还包括：将被识别为受信任的文件存储在可由任何数量的计算系统访问的数据库中。在一个方面中，将被识别为受信任的文件存储在数据库中(例如，要么存储在异常数据库140中，要么存储在某个其它数据库中)。例如，企业的多个计算系统可以共享列表，以减少重复工作。

与具有大量误报的分类器相比，本发明的方法具有优势。与依赖于串行过程来设计检测算法、应用所设计的算法、然后分析应用于改进算法的设计的结果的其它系统不同，本发明的方法在应用算法时减少了误报的数量。本发明减少了误报的数量而没有扩展的延迟。因此，本发明的方法的使用实现了：通过减少检测恶意文件时的误报数量，实现提高文件分类质量的技术结果。

图3是示出了计算机系统20的框图，在计算机系统20上可以根据示例性方面来实现用于减少误报的系统和方法的方面。应当注意，计算机系统20可以对应于例如先前描述的具有拦截器的设备。计算机系统20可以是多个计算设备的形式、或者是单个计算设备的形式，例如台式电脑、笔记本电脑、手提电脑、移动计算设备、智能手机、平板电脑、服务器、主机、嵌入式设备和其它形式的计算设备。

如图所示，计算机系统20包括中央处理单元(Central Processing Unit，CPU)21、系统存储器22和连接各种系统部件的系统总线23，各种系统部件包括与中央处理单元21相关联的存储器。系统总线23可以包括总线存储器或总线存储器控制器、外围总线、以及能够与任何其它的总线架构交互的本地总线。总线的示例可以包括PCI、ISA、串行总线(PCI-Express)、超传输^TM(HyperTransport ^TM)、无限带宽^TM(InfiniBand^TM)、串行ATA、I²C、和其它合适的互连。中央处理单元21(也称为处理器)可以包括单组或多组具有单核或多核的处理器。处理器21可以执行实现本发明的技术的一种或多种计算机可执行代码。系统存储器22可以为用于存储本文中所使用的数据和/或由处理器21可执行的计算机程序的任何存储器。系统存储器22可以包括易失性存储器(诸如随机存取存储器(Random Access Memory，RAM)25)和非易失性存储器(诸如只读存储器(Read-Only Memory，ROM)24、闪存等)或其任何组合。基本输入/输出系统(Basic Input/Output System，BIOS)26可以存储用于在计算机系统20的元件之间传输信息的基本程序，例如在使用ROM 24加载操作系统时的那些基本程序。

计算机系统20可以包括一个或多个存储设备，诸如一个或多个可移除存储设备27、一个或多个不可移除存储设备28、或其组合。所述一个或多个可移除存储设备27和一个或多个不可移除存储设备28借助存储器接口32连接到系统总线23。在一个方面中，存储设备和相应的计算机可读存储介质为用于存储计算机系统20的计算机指令、数据结构、程序模块、和其它数据的电源独立的模块。系统存储器22、可移除存储设备27和不可移除存储设备28可以使用各种各样的计算机可读存储介质。计算机可读存储介质的示例包括：机器存储器，诸如缓存、SRAM、DRAM、零电容RAM、双晶体管RAM、eDRAM、EDO RAM、DDR RAM、EEPROM、NRAM、RRAM、SONOS、PRAM；闪存或其它存储技术，诸如在固态驱动器(Solid State Drive，SSD)或闪盘驱动器中；磁带盒、磁带、和磁盘存储器，诸如在硬盘驱动器或软盘驱动器中；光学存储器，诸如在光盘(CD-ROM)或数字通用光盘(Digital Versatile Disk，DVD)中；以及可用于存储期望数据且可被计算机系统20访问的任何其它介质。

计算机系统20的系统存储器22、可移除存储设备27和不可移除存储设备28可以用于存储操作系统35、附加程序应用37、其它程序模块38和程序数据39。计算机系统20可以包括用于传送来自输入设备40的数据的外围接口46，该输入设备40诸如键盘、鼠标、手写笔、游戏控制器、语音输入设备、触点输入设备、或其它外围设备，诸如借助一个或多个I/O端口的打印机或扫描仪，该一个或多个I/O端口诸如串行端口、并行端口、通用串行总线(Universal Serial Bus，USB)、或其它外围接口。显示设备47(诸如一个或多个监控器、投影仪或集成显示器)也可以通过输出接口48(诸如视频适配器)连接到系统总线23。除了显示设备47之外，计算机系统20还可以装配有其它外围输出设备(未示出)，诸如扬声器和其它视听设备。

计算机系统20可以使用与一个或多个远程计算机49的网络连接，在网络环境中工作。所述一个或多个远程计算机49可以为本地计算机工作站或服务器，其包括前面在描述计算机系统20的性质时所述的元件中的大多数元件或全部元件。其它设备也可以存在于计算机网络中，诸如但不限于路由器、网站、对等设备或其它的网络节点。计算机系统20可以包括用于借助一个或多个网络而与远程计算机49通信的一个或多个网络接口51或网络适配器，该一个或多个网络诸如局域计算机网络(Local-Area computer Network，LAN)50、广域计算机网络(Wide-Area computer Network，WAN)、内联网、和因特网。网络接口51的示例可以包括以太网接口、帧中继接口、同步光纤网(SONET)接口、和无线接口。

本发明的各个方面可以为系统、方法和/或计算机程序产品。计算机程序产品可以包括一种或多种计算机可读存储介质，该计算机可读存储介质上具有用于使处理器执行本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以为有形设备，该有形设备可以保持且存储指令或数据结构的形式的程序代码，该程序代码可以被计算设备(诸如计算系统20)的处理器访问。计算机可读存储介质可以为电子存储设备、磁性存储设备、光存储设备、电磁存储设备、半导体存储设备、或其任何合适组合。通过示例方式，这类计算机可读存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦可编程只读存储器(EEPROM)、便携式光盘只读存储器(CD-ROM)、数字通用光盘(DVD)、闪存、硬盘、便携式电脑磁盘、记忆棒、软盘、或甚至机械编码设备，诸如在其上记录有指令的凹槽中的打孔卡或凸起结构。如在本文中所使用的，计算机可读存储介质不应被视为暂时性信号本身，暂时性信号诸如无线电波或其它自由传播的电磁波、通过波导或传输介质传播的电磁波、或通过电线传输的电信号。

可以将本文中所描述的计算机可读程序指令从计算机可读存储介质下载到各个计算设备、或借助网络(例如，因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输线缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。在每个计算设备中的网络接口从网络接收计算机可读程序指令并转发该计算机可读程序指令，用以存储在各个计算设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以为汇编指令、指令集架构(Instruction-Set-Architecture，ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言(包括面向对象的编程语言和传统程序化编程语言)的任何组合编写的源代码或目标代码。计算机可读程序指令可以作为独立的软件包完全地在用户的计算机上、部分地在用户的计算机上、部分地在用户的计算机上且部分地在远程计算机上、或完全地在远程计算机或服务器上执行。在后一种场景中，远程计算机可以通过任何类型的网络(包括LAN或WAN)连接到用户的计算机，或可以(例如通过因特网)进行与外部计算机的连接。在本发明的一些方面中，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(Programmable Logic Array，PLA))可以通过利用计算机可读程序指令的状态信息使该电子电路个性化而执行计算机可读程序指令，从而执行本发明的各个方面。

在各个方面中，本发明中所描述的系统和方法可以按照模块来处理。本文中所使用的术语“模块”指的是例如现实世界的设备、部件、或使用硬件(例如通过专用集成电路(ASIC)或FPGA)实现的部件的布置，或者指的是硬件和软件的组合，例如通过微处理器系统和实现模块功能的指令组(该指令组在被执行时将微处理器系统转换成专用设备)来实现这样的组合。一个模块还可以被实施为两个模块的组合，其中单独地通过硬件促进某些功能，并且通过硬件和软件的组合促进其它功能。在某些实现方式中，模块的至少一部分(以及在一些情况下，模块的全部)可以在计算机系统(例如上文在图3中更详细描述的计算机系统)的处理器上运行。因此，每个模块可以以各种适合的配置来实现，而不应受限于本文中所例示的任何特定的实现方式。

为了清楚起见，本文中没有公开各个方面的所有例程特征。应当领会的是，在本发明的任何实际的实现方式的开发中，必须做出许多特定实现方式的决定，以便实现开发者的特定目标，并且这些特定目标将对于不同的实现方式和不同的开发者变化。应当理解的是，这种开发努力会是复杂的且费时的，但对于了解本发明的优点的本领域的普通技术人员来说仍然是工程的例行任务。

此外，应当理解的是，本文中所使用的措辞或术语出于描述而非限制的目的，从而本说明书的术语或措辞应当由本领域技术人员根据本文中所提出的教导和指导结合(一个或多个)相关领域技术人员的知识来解释。此外，不旨在将本说明书或权利要求中的任何术语归于不常见的或特定的含义，除非明确如此阐述。

本文中所公开的各个方面包括本文中以说明性方式所引用的已知模块的现在和未来已知的等同物。此外，尽管已经示出并描述了各个方面和应用，但是对于了解本发明的优点的本领域技术人员将显而易见的是，在不脱离本文中所公开的发明构思的前提下，相比于上文所提及的内容而言的更多修改是可行的。

Claims

1.一种用于减少文件分类中的误报的数量的方法，所述方法包括：

分析文件以确定所述文件是否将被识别为恶意的；

当所述文件被识别为恶意的时，分析所述文件以检测误报结果；

当检测到所述误报结果时，将所述文件排除在被扫描之外并且计算所述文件的灵活哈希；以及

将计算的所述灵活哈希存储在异常数据库中。

2.如权利要求1所述的方法，其中，使用至少包括计算的所述灵活哈希的单一记录，对预定数量的独特文件执行文件是否为恶意的确定。

3.如权利要求1所述的方法，其中，当所述文件的标识符与受信任文件的标识符匹配时，检测到所述误报结果。

4.如权利要求1所述的方法，其中，检测所述文件的误报结果包括：

确定存在用于所述文件的数字签名证书，将所述文件的数字签名证书与数据库中的受信任文件的证书进行比较；以及

当所述数据库中存在签署所述文件所用的有效证书时，检测到所述误报。

5.如权利要求1所述的方法，还包括：

将排除在被扫描之外的所述文件识别为受信任的。

6.如权利要求1所述的方法，还包括：

识别具有与检测到所述误报所针对的所述文件的灵活哈希匹配的灵活哈希的其它文件；以及

将识别的所述其它文件识别为受信任的。

7.如权利要求1所述的方法，还包括：

将识别为受信任的文件存储在能够由任何数量的计算系统访问的数据库中。

8.一种用于减少文件分类中的误报的数量的系统，包括：

至少一个处理器，所述至少一个处理器配置为：

分析文件以确定所述文件是否将被识别为恶意的；

将计算的所述灵活哈希存储在异常数据库中。

9.如权利要求8所述的系统，其中，使用至少包括计算的所述灵活哈希的单一记录，对预定数量的独特文件执行文件是否为恶意的确定。

10.如权利要求8所述的系统，其中，当所述文件的标识符与受信任文件的标识符匹配时，检测到所述误报结果。

11.如权利要求8所述的系统，其中，用于检测所述误报结果的配置包括用于以下操作的配置：

12.如权利要求8所述的系统，其中，所述处理器还配置成：

将排除在被扫描之外的所述文件识别为受信任的。

13.如权利要求8所述的系统，其中，所述处理器还配置成：

将识别的所述其它文件识别为受信任的。

14.如权利要求8所述的系统，其中，所述处理器还配置成：

15.一种非暂时性计算机可读介质，在所述非暂时性计算机可读介质上存储用于减少文件分类中的误报的数量的计算机可执行指令，所述计算机可执行指令包括用于以下操作的指令：

分析文件以确定所述文件是否将被识别为恶意的；

将计算的所述灵活哈希存储在异常数据库中。

16.如权利要求15所述的非暂时性计算机可读介质，其中，使用至少包括计算的所述灵活哈希的单一记录，对预定数量的独特文件执行文件是否为恶意的确定。

17.如权利要求15所述的非暂时性计算机可读介质，其中，当所述文件的标识符与受信任文件的标识符匹配时，检测到所述误报结果。

18.如权利要求15所述的非暂时性计算机可读介质，用于检测所述文件的误报结果的所述指令包括用于以下操作的指令：

19.如权利要求15所述的非暂时性计算机可读介质，其中，所述计算机可执行指令还包括用于以下操作的指令：

将排除在被扫描之外的所述文件识别为受信任的。

20.如权利要求15所述的非暂时性计算机可读介质，其中，所述计算机可执行指令还包括用于以下操作的指令：

将识别的所述其它文件识别为受信任的。

21.如权利要求15所述的非暂时性计算机可读介质，其中，所述计算机可执行指令还包括用于以下操作的指令：