CN104504334B

CN104504334B - 用于评估分类规则选择性的系统及方法

Info

Publication number: CN104504334B
Application number: CN201410738744.3A
Authority: CN
Inventors: 阿列克谢·E·安东诺夫; 阿列克谢·M·罗曼年科
Original assignee: Kaspersky Lab AO
Current assignee: Kaspersky Lab AO
Priority date: 2013-12-05
Filing date: 2014-12-05
Publication date: 2018-08-10
Anticipated expiration: 2034-12-05
Also published as: US9501742B2; RU2013153768A; US20150161523A1; RU2587429C2; CN104504334A

Abstract

用于评估分类规则选择性的系统及方法。分类规则的选择性的评估。将一个或多个分类规则应用于未分类对象集，以产生表示所述集指派到至少两个类别的对象指派的分类结果集。基于统计信息获得用于至少一个分类规则的选择性评分。数值选择性评分表示对至少一个分类规则的精确度的估计，并且作为至少一个经训练的选择性确定算法的应用结果产生，所述至少一个经训练的选择性确定算法基于对经预分类训练数据集应用多个经特别选择的分类规则，且每个分类规则的应用产生统一对象分组。

Description

用于评估分类规则选择性的系统及方法

优先权声明

本申请要求2013年12月5日提交的2013153768号俄罗斯联邦专利申请的优先权，其内容通过引用并入本文中。

技术领域

本发明涉及信息安全领域，且尤其涉及包括使用对象分类进行保护免遭计算机威胁的软件或数据的监控或扫描。

背景技术

个人计算机和类似的信息技术设备诸如移动电话、平板电脑等已经在全世界无处不在。不幸的是，随着这类技术的使用日益广泛，诸如恶意软件的计算机威胁在数量和质量上也相应增加。在本上下文中，计算机威胁通常指能够对计算机系统上的程序和信息造成任何危害的对象，诸如网络蠕虫、间谍软件、计算机病毒等。

各种反病毒技术被部署以保护用户及其个人计算机免于可能的计算机威胁。反病毒软件可包括各种计算机威胁检测组件。基于特征码的检测(signature-baseddetection)和启发式检测引擎代表这类组件的特定情况。由于恶意程序的数量显著增长，上述保护性技术的效率取决于可用的特征码和启发式规则的数量。当前，新的启发式规则和特征码由专家和为这类目的所设计的自动化特征码创建系统创建。专家和自动化系统的大量工作导致创建了大量用于检测计算机威胁的启发式规则和特征码。所创建的大量启发式规则和特征码(以下简称为“检测规则”)通常在威胁检测系统的操作期间增加误激活(false activation)的数量。

存在基于使用安全文件的集合对指定规则进行核对来检查检测规则的系统。当使用这类系统时，使用安全文件的集合核对检测规则，并使该检测规则仅在更新反病毒数据库之后可用于用户的反病毒软件。

然而，对反病毒软件制造商可用的代表性安全文件的集合不能够覆盖业内用户碰到的所有种类文件；因此，通常，当检测规则已作用在用户端时，使用来自检测规则的反馈。使用检测规则的反病毒应用可以向开发者发送通知，指明哪些文件激活了规则，且开发者在其一方分析该信息。然而，这种方案给开发者造成了负担，并且遭受低效和潜在的人为错误。

需要促进高选择性检测规则(其当使用时不会造成误激活)的自动化部署的解决方案。

发明内容

本发明的一方面针对用于评估分类规则的选择性的系统。该系统包括计算机，所述计算机包括至少一个处理器、与至少一个处理器接合的非暂时性数据存储介质以及输入/输出设施。数据存储介质包含当由至少一个处理器执行时，实现分类规则应用引擎、选择性确定引擎和算法训练引擎的指令。

分类规则应用引擎配置为将至少一个分类规则应用于未分类对象集以产生表示所述集指派到至少两个类别的对象指派的分类结果集，并且基于指派到至少两个类别中的每一个的对象的特性来收集有关分类结果集的统计信息。选择性确定引擎配置为基于统计信息评估用于至少一个分类规则的数值选择性评分，数值选择评分表示对至少一个分类规则的精确度的估计。选择性确定引擎应用至少一个经训练的选择性确定算法来产生选择性评分。算法训练引擎配置为基于对经预分类训练数据集应用多个经特别选择的分类规则来产生至少一个经训练的选择性确定算法。对训练数据集应用经特别选择的分类规则中的每一个产生在其中对象全部满足预定义的相似性准则的至少一个统一对象分组。

本发明的相关方面针对用于基于诸如上述的自动操作的专门系统评估分类规则的选择性的方法。

附图说明

结合附图，参考以下对本发明的各实施例的详细描述，可更全面地理解本发明，在附图中：

图1为根据发明一实施例的、示出用于确定分类规则的选择性的系统的结构图；

图2为根据一实施例的、示出图1中所描绘的选择性确定引擎的例示性结构的示意图；

图3为根据一实施例的、示出用于训练由图1和图2中所描绘的选择性确定引擎所使用的数据分析算法的相关系统的示意图；

图4为根据一实施例的、示出图1中所描绘的系统配置为执行其的例示性操作算法的流程图；

图5为根据各实施例的、示出可在其上实现如本文所描述的本发明的方面的计算机系统500的示意图。

虽然本发明的细节已经以示例的方式在附图中示出并将被详细描述，但是其可接受各种修改和替代形式。无论如何，应当理解，本发明不意图将发明限制在所描述的特定实施例中。相反，本发明意图覆盖落在如随附权利要求所限定的本发明的精神和范围内的所有修改、等同物和替代。

具体实施方式

本发明的方面针对分类规则的使用。在本公开中，为简洁起见，示范性实施例集中在将分类规则应用于文件作为反恶意软件和相关计算机安全应用的一部分。然而，相关计算领域的技术人员将认识到分类规则的使用可以应用于更广泛的计算领域内的许多其他领域，包括但不限于机器视觉(即光学模式识别)、语音文本转换应用、上下文感知搜索算法等。另外，显而易见的是不仅文件，其他类型的对象也可以使用分类规则来分类。本上下文中的对象包括存储在计算机系统的存储设备中的文件以及其他数据结构。

本发明的方面可以作为计算机系统的一部分实现。计算机系统可以是一个物理机，或者可以在云计算分布式模型的情形中按角色、功能、或者进程线程分布在多个物理机中。在各种实施例中，本发明的方面可以配置为虚拟机中运行，所述虚拟机转而在一个或多个物理机上执行。本领域技术人员应当理解的是，本发明的特征可以由多种不同的合适的机器实现方案来实现。

系统包括各种引擎，每个引擎被构建、编程、配置或以其他方式适配以实行功能或功能集。如本文所使用的术语“引擎”意为使用硬件或者作为硬件与软件的组合实现的现实世界的设备、部件或部件的组合体(arrangement)，所述使用硬件诸如通过比如专用集成电路(ASIC)或现场可编程门阵列(FPGA)，所述作为硬件与软件的组合诸如通过微处理器系统和对引擎进行适配以实现特定功能性的程序指令集，其(当执行时)将该微处理器系统转变为专用设备。引擎还可以实现为上述两者的组合，其中某些功能仅通过硬件促进完成，而其他功能则通过硬件和软件的组合促进完成。在某些实现方案中，至少一部分引擎和某些情况下全部引擎可以在一个或多个计算机的处理器上执行，所述一个或多个计算机的处理器执行操作系统、系统程序以及应用程序，同时还使用多任务处理、多线程处理、在适当情况下的分布式(例如集群、对等、云等等)处理，以及其他这类技术实现引擎。相应地，每个引擎可以以各种合适的配置来实现，并且通常其不应被限制于任何本文所例举的特定实现方案，除非这类限制被明确提出。另外，引擎自身可以包含多于一个子引擎，每个子引擎可以被单独视作引擎。此外，在本文所描述的实施例中，各个引擎中的每个引擎对应经定义的功能性；然而，应当理解，在其他所构思的实施例中，每个功能性可分布到多于一个引擎中。同样地，在其他所构思的实施例中，多个经定义的功能性可由实施该多个功能并可能旁及其他功能的单个引擎实现，或者以与本文示例所具体示出的方式不同的方式分布在一组引擎中。

图1为根据一实施例的、示出用于确定分类规则的选择性的系统的结构图。在本上下文中，分类规则为这样的规则，其当应用到对象(例如文件)时允许系统确定文件是否属于由规则所定义的文件类别之一。分类规则还可以适用于文件处理结果—例如，适用于文件的执行过程的仿真的结果，或适用于文件的消息摘要的计算的结果(例如哈希)。分类规则的示例可以是用于检测恶意软件的规则，其确定文件是否属于某类别的恶意软件文件—应用于文件的、将文件集划分到例如属于Trojan.Win32恶意软件的类别的文件和不属于该类别的文件的规则—或利用匹配消息摘要值来确定文件是否属于某文件类别的文件的消息摘要。

分类规则创建引擎110编程为或以其他方式配置为创建分类规则。在一实施例中，分类规则创建引擎110使用一个文件的数据来创建分类规则。在另一实施例中，在分类规则的创建期间使用相似文件的集群。相应地，如果文件之间的相似性程度超过预设阈值，则它们被认为是相似的。

在一实施例中，文件之间的相似性程度基于所计算的存储于文件中的数据之间的相似性程度来确定。在另一实施例中，文件之间的相似性程度基于文件各自的功能性之间的相似性程度来确定。在一实施例中，在文件执行仿真期间操作系统的API功能的调用日志用作文件功能性的定义。在相关实施例中，使用Dice距离确定相似性程度；在另一实施例中，使用以下距离确定相似性程度：汉明(Hamming)、莱文斯坦(Levenstein)、杰卡德(Jaccard)和其他适用的度量。

在一实施例中，分类规则创建引擎110进一步配置为使用恶意文件的集群创建用于检测恶意软件的特征码。对于每个相似恶意文件的集群，分类规则创建引擎110将文件公用的数据段从集群中分离出来，并且将用于检测的特征码创建为公用字节块和每个块相对于文件开头的偏移的指示的级联。在创建分类规则之后，分类规则创建引擎110将所创建的文件检测特征码传递到分类规则应用引擎120的输入端。

分类规则应用引擎120将分类规则应用于输入文件集。输入文件集通常在此阶段尚未分类，意味着它们的分类尚未先验确定。在一实施例中，输入文件集存储于文件数据库130中。在另一实施例中，输入文件分布在本地计算机系统的整个文件系统中。在又一实施例中，输入文件集分布在一个或多个通过计算机网络互连的不同计算机系统上。

分类规则的应用使得系统将每个输入文件指派到如分类规则中所定义的类别(例如，指派到(a)属于Trojan.Win32类别(恶意软件)的文件和(b)不属于该类别的文件)。分类规则应用引擎120的操作生成分类结果集，其包括每个文件到两个或多于两个类别中的每一个的指派。

此外，分类规则应用引擎120配置为收集分类规则的使用统计。分类规则的使用的统计表示关于属于上述分类规则中所定义的每个类别的文件集的信息。相应地，在一个这类实施例中，分类规则应用引擎120使用输入文件集来获得分类规则的使用统计。

分类规则应用引擎120从落入规则的经定义类别中的每个文件集中收集有关分类应用引擎的操作和每个经分类文件的特性集。在一实施例中，这类特性包括：

·自分类规则的第一应用的时刻起经过的时间；

·分类规则指派到规则中所定义的类别之一的文件的数量；

·分类规则指派到规则中所定义的类别之一的文件的大小的平均值、最小值和最大值；

·用于创建每个经分类文件的唯一编译器的数量；

·在文件中所使用的唯一打包器(packager)的数量。在该情况下，可执行文件的打包意味着文件的压缩，其中将解包指令的序列添加到文件的主体。

基于针对当应用分类规则时来自文件数据库130的文件集划分到的每个文件类别所收集的特性，分类规则应用引擎120采集分类规则的使用统计。在一实施例中，分类规则的使用统计可以包含从上述参数集中衍生的一个或多个属性。分类规则应用引擎120将以上述方式获得的分类规则使用统计传递到选择性确定引擎150的输入端。

选择性确定引擎150编程为或以其他方式配置为评估分类规则是否具有高选择性。根据一实施例，在图2中描绘选择性确定引擎150的例示性结构。在一实施例中，选择性确定引擎150的操作是使用两个步骤分步进行的。在第一步骤中，选择性确定引擎150确定分类规则选择性评分。选择性评分是一个数值；在一实施例中，其为实际数字，比如1.4。为了确定选择性评分，使用至少一个经训练的数据分析算法。使用经训练的数据分析算法的目的是使用表示如由分类规则应用引擎120所采集的分类规则的使用统计的数据集来计算分类规则的选择性评分。

在一实施例中，为了确定选择性评分，使用决策树作为经训练的数据分析算法。相应地，该算法基于使用统计将作为数值的选择性评分指派到分类规则。向应用决策树以确定选择性评分的每个分类规则指派数值选择性评分。向树的每个节点指派使用统计的经分析参数，例如“用于创建根据分类规则指派到文件类别之一的文件的编译器的数量”。这类节点与接下来与其他参数相对应的节点连接，并且边界与使用统计参数的可能评级之一相对应。每个边界上的转换(根据决策树算法对分类规则使用统计的应用)伴随选择性评分的改变。

接下来，应用决策树以评估来自分类规则使用统计的参数的完整列表。当确定选择性评分时使用决策树的抉择可以进一步由下面的示例示出。假设，在收集分类规则使用统计时，考虑以下统计参数：

·自分类规则的第一应用的时刻起经过的时间(参数1)；

·按分类规则指派到规则中所定义的每个类别的文件的大小的最大值和最小值与平均值之间的关系(用于每个类别的参数2和参数3)；

·用于创建输入文件的唯一编译器的数量(参数4)；

·在文件中所使用的唯一打包器的数量(参数5)。

进一步假设分析目标为分析这样的规则，其当应用到文件集时将该集划分到三个类别：类别A、类别B和类别C，其中例如，根据分类规则逻辑，默认将来自上述集的、未指派到类别A和类别B的所有输入文件指派到类别C。假设接收到以下上述规则的使用统计：

·参数1—10小时；

·参数2_A(用于类别A的参数2)—1.2；

·参数2_B(用于类别B的参数2)—1.7；

·参数2_C(用于类别C的参数2)—5；

·参数3_A(用于类别A的参数3)—0.9；

·参数3_B(用于类别B的参数3)—0.8；

·参数3_C(用于类别C的参数3)—0.5；

·参数4—1；

·参数5—2。

假设初始状态下，向每个所评估的分类规则指派等于数字10的选择性评分。并且，假设用于确定选择性评分的决策树的模式如下所示：

·如果参数1小于24小时，则从选择性评分中减去数字2，否则增加1；

·如果参数2_A大于1.3，则从选择性评分中减去数字1.5，否则增加1.2；

·如果参数2_B大于1.3，则从选择性评分中减去数字1.5，否则增加1.2；

·如果参数2_C大于20，则从选择性评分中减去数字0.01，否则增加0.01；

·如果参数3_A小于0.8，则从选择性评分中减去数字2，否则增加1.1；

·如果参数3_B小于0.8，则从选择性评分中减去数字2，否则增加1.1；

·如果参数3_C小于0.3，则从选择性评分中减去数字0.005，否则增加0.002；

·如果参数4大于1，则从选择性评分中减去数字5，否则增加2；

·如果参数5小于3，则从选择性评分中减去数字0.5，否则增加0.3。

根据上述条件，在应用决策树之后，所分析的分类规则的选择性评分等于11.412。

可能的情况是，需要评估将文件集划分到不同数量的类别的分类规则。在一实施例中，为了应用相同决策树来评估这类分类规则，可能将规则的类别进行分组，以对它们应用同样的选择性评分评估和改变，并另外分离出用于评估的单独的类别—其包括基于规则的应用而没有被放入任何先前经分组的类别中的文件。

在另一实施例中，除上述决策树之外，选择性确定引擎150使用回归分析计算另一个分类规则选择性评分。在又一个实施例中，除上述经训练的数据分析算法之外，选择性确定引擎150使用朴素贝叶斯分类器计算分类规则的附加选择性评分。在一实施例中，附加选择性评分由选择性确定引擎150计算，以增加分类规则的选择性的确定的精确度。由选择性确定引擎150基于分类规则的使用统计、使用所利用的经训练的数据分析算法之一或其组合所计算的分类规则的每个选择性评分，在第二操作步骤中由上述引擎使用。

在选择性确定引擎150的操作中的第二步骤，计算选择性评分的组合并将其与预定义的阈值进行比较。在一实施例中，计算不同算法的选择性评分的均值作为经组合的选择性评分。在另一实施例中，计算选择性评分的均方值作为选择性评分组合。如果分类规则的选择性评分的组合超过阈值，则选择性确定引擎150将分类规则视为具有高选择性；在相反情况下，选择性确定引擎150将分类规则视为不具有高选择性。

假设，例如，使用多个经训练的数据分析算法，获得以下选择性评分：10.5、11、15、17.3。并且使用选择性评分的均值来计算等级组合(rates combination)。在这种情况下，选择性评分组合具有13.45的值。如果，为了将分类规则视为具有高选择性，针对选择性评分组合建立阈值，例如数字12，选择性确定引擎150会将所评价的规则视为具有高选择性。

图3示出由选择性确定引擎150所使用的数据分析算法的训练的示意图。为了训练由选择性确定引擎150所使用的算法，使用训练文件数据库300，其在一实施例中包含恶意训练文件和安全训练文件二者。由分类规则创建引擎110使用这些训练文件来创建分类规则。由分类规则创建引擎110所创建的分类规则(其在一实施例中为用于检测恶意软件的特征码)被发送到分类规则应用引擎120的输入端。分类规则应用引擎120使用来自教导文件数据库300的文件来获得使用分类规则创建引擎110所创建的分类规则的使用统计。为了训练数据分析算法，使用多个分类规则的使用统计。每个分类规则的使用统计由分类规则应用引擎120收集并被传递到算法训练引擎310的输入端。

算法训练引擎310编程为或以其他方式配置为训练或适配由选择性确定引擎150所使用的数据分析算法。为了通过算法训练引擎310训练数据分析算法，使用机器学习技术。在一实施例中，算法训练引擎310使用多个不同分类规则的使用统计来形成决策树，其由选择性确定引擎150使用。在另一实施例中，算法训练引擎310的操作导致对贝叶斯分类器和回归分析的算法的训练。算法的训练的结果即经更新的算法由算法训练引擎310发送到选择性确定引擎150的输入端。由选择性确定引擎150使用该经更新的算法，以使用每个经训练的数据分析算法来确定分类规则的选择性。

在一实施例中，为了提高数据分析算法的训练质量，并且因此提高分类规则的选择性的确定质量，对每个所分析的分类规则应用这样的选择准则：利用分类规则将文件集分组到其中的至少一个文件类别为统一文件集。在本上下文中，如果文件集仅包含相似的文件(如上文所定义的相似性)，则其为统一的。应用该选择准则实现分类规则的专门筛选作为数据分析算法的训练的一部分。根据专门筛选，为了获得分类规则的使用统计，仅使用这样的分类规则，其当应用于来自训练文件数据库300的文件集时，将该集以至少一个文件类别是统一文件集的方式划分到(如按照规则所定义的)文件类别。

图4为示出上述用于评估分类规则是否具有高选择性的系统的一实施例的例示性操作算法的流程图。在400处，分类规则应用引擎120应用经创建的分类规则。分类规则应用引擎120使用从分类规则创建引擎110所接收的规则，并将分类规则应用于来自文件数据库130的未分类文件集。在410处，分类规则应用引擎120采集分类规则的使用统计。在410处所采集的分类规则的使用统计被发送到选择性确定引擎150的输入端。在420处选择性确定引擎使用至少一个经训练的数据分析算法，计算分类规则的选择性评分。在级430处，选择性确定引擎150计算从420处所获得的分类规则的选择性评分的组合。根据决策440使用选择性确定引擎150将在430处所获得的选择性评分组合与预设阈值进行比较。如果选择性评分组合没有超过预设阈值，则如在结果450处所指示的，选择性确定引擎150会将分类规则视为不具有高选择性。如果超过预设阈值，则如由结果460所指示的，选择性确定引擎150会将分类规则视为具有高选择性。基于结果450和460，可以进一步做出有关分类规则的准确性的决定，即，可以给予规则的应用多少权重。

以示例的方式，在一实施例中，响应于分类规则被视为具有高选择性(结果460)，该规则可以用作有关恶意软件的存在的最终确定。在另一方面，响应于分类规则被视为不具有高选择性(结果450)，该规则可以用作促使诸如启发式分析的附加分析以确定恶意软件的任何存在的阈值测试。

值得注意的是，在一实施例中，至少一个经训练的数据分析算法已基于仅产生统一分类的经筛选的一个或多个分类规则的集合，利用经单独验证的统一训练数据进行训练。

图5为根据各实施例的、更详细示出可在其上实现如本文所描述的本发明的方面的计算机系统500的示意图。计算机系统500可以包括诸如个人计算机502的计算设备。个人计算机502包括一个或多个处理单元504、系统存储器506、视频接口508、输出外围接口510、网络接口512、用户输入接口514、可移动存储器接口516和非可移动存储器接口518以及耦连各种部件的系统总线或高速通信信道520。在各实施例中，处理单元504可具有能够处理存储在计算机可读介质上的信息的多个逻辑核心，所述计算机可读介质诸如系统存储器506或附连到可移动存储器接口516和非可移动存储器接口518的存储器。计算机502的系统存储器506可以包括诸如只读存储器(ROM)522的非易失性存储器或诸如随机存取存储器(RAM)524的易失性存储器。ROM 522可以包括基本输入/输出系统(BIOS)526以协助与计算机502的其他部分进行通信。RAM 524可以存储诸如操作系统528、应用程序530和其它程序引擎532的各种软件应用的一部分。进一步，RAM 524可以存储诸如程序或应用数据534的其它信息。在各实施例中，RAM 524存储要求低延迟和高效访问的信息，所述信息诸如对其进行操纵或操作的程序和数据。在各实施例中，RAM 524包括双倍数据速率(DDR)存储器、纠错存储器(ECC)或诸如RAMBUS或DDR2及DDR3的具有变化的延迟和配置的其他存储器技术。这样，在各实施例中，系统存储器506可以存储输入数据存储、访问凭证数据存储、操作存储器数据存储、指令集数据存储、分析结果数据存储和操作存储器数据存储。进一步，在各实施例中，处理单元504可以配置为执行通过在授予对信息的访问权之前要求访问凭证来限制对前述数据存储的访问的指令。

可移动存储器接口516和非可移动存储器接口518可以将计算机502耦连到诸如SSD或旋转磁盘驱动器的磁盘驱动器536。这些磁盘驱动器536可以为诸如操作系统538、应用程序540和其它程序引擎542的各种软件应用提供进一步的存储。进一步，磁盘驱动器536可以存储其它信息，诸如程序或应用数据544。在各实施例中，磁盘驱动器536存储不要求与其他存储介质相同的低延迟的信息。进一步，操作系统538、应用程序540数据、程序引擎542和程序或应用数据544可以是与在上述的各实施例中存储在RAM 524中的信息相同的信息，或者其可以是由RAM 524中存储的数据潜在衍生出的不同数据。

进一步，可移动的非易失性存储器接口516可将计算机502耦连至利用诸如软盘548、Zip或Jazz的磁性介质的磁性便携式磁盘驱动器546，或利用用于存储诸如蓝光、DVD-R/RW、CD-R/RW和其它类似格式的计算机可读介质的光介质552的光盘驱动器550。也有其他实施例利用安置在便携式外壳54中的SSD或旋转磁盘来增加可移动存储器的容量。

计算机502可以利用网络接口512以通过局域网(LAN)558或广域网(WAN)560与一个或多个远程计算机556进行通信。网络接口512可以利用网络接口卡(NIC)或诸如调制解调器562的其他接口来使能通信。调制解调器562可以通过电话线、同轴电缆、光纤、电力线或无线地使能通信。远程计算机556可包含类似的硬件和软件配置，或者可具有包含可向计算机502提供附加计算机可读指令的远程应用程序566的存储器564。在各实施例中，远程计算机存储器564可以用于存储诸如经标识文件信息的信息，其可被稍后下载到本地系统存储器506。进一步，在各实施例中，远程计算机556可以是应用服务器、管理服务器、客户端计算机或者网络家电。

用户可以使用诸如鼠标568和键盘570的、连接至用户输入接口514的输入设备向计算机502输入信息。此外，输入设备可以是触控板、指纹扫描器、操纵杆、条形码扫描器、媒体扫描器或类似物。视频接口508可向诸如监视器572的显示器提供视觉信息。视频接口508可以是嵌入式接口或者其可以是分立接口。进一步，计算机可以利用多个视频接口508、网络接口512和可移动接口516及不可移动接口518以增加计算机502的操作的灵活性。进一步，各实施例利用数个监视器572和数个视频接口508来使得计算机502的性能和能力多样化。诸如输出外围接口510的其他计算机接口可包括在计算机502中。该接口可以耦连至打印机574或扬声器576或其他外围设备中，以向计算机502提供附加的功能性。

计算机502的各种可替代配置和实现方案均在本发明的精神内。这些变化可以包括但不限于耦连到系统总线520的附加接口，诸如通用串行总线(USB)、打印机端口、游戏端口、PCI总线、PCI Express或由上述各种部件集成为诸如北桥或南桥的芯片组部件。例如，在各实施例中，处理单元504可包括嵌入式存储器控制器(未示出)，以使能比系统总线520可提供的更加高效的自系统存储器506的数据传输。

以上实施例意图进行说明而非限制。另外的实施例在权利要求范围内。另外，虽然本发明的方面已经参照特定实施例进行了描述，但是本领域技术人员将认识到可以在形式及细节方面做出改变而不脱离如由权利要求所定义的本发明的范围。

相关领域的普通技术人员将认识到本发明可包括比上述任何单独实施例所示出的特征更少的特征。本文所描述的实施例并不意味着对本发明各个特征可加以组合的方式进行穷尽呈现。因此，实施例并不是特征的互斥组合；相反，如本领域的普通技术人员将理解的，本发明可以包括从不同单独实施例中所选择的不同单独特征的组合。

以上任何通过引用文献进行的合并均被限制为使得并未合并与本文明确公开相冲突的主题。以上任何通过引用文献进行的合并被进一步限制为使得文献中包括的权利要求均不通过引用合并到本申请的权利要求中。然而，除非明确排除，否则任何文献的权利要求均作为本文公开的一部分加以合并。除非本文声明包括，否则以上任何通过引用文献进行的合并被更进一步限制为使得文献中所提供的任何定义均不通过引用合并到本文。

为了诠释本发明的权利要求，明确意在不援引《美国法典》第35卷第112节第6段的条款，除非特定术语“用于…的装置”或“用于…的步骤”被列举在权利要求中。

Claims

1.一种用于评估分类规则的选择性的机器实现的方法，所述方法包括：

自主将至少一个分类规则应用于未分类对象集，以产生表示所述集指派到至少两个类别的对象指派的分类结果集；

自主基于指派到所述至少两个类别中的每一个的对象的特性，收集有关所述分类结果集的统计信息；

自主评估用于所述至少一个分类规则的数值选择性评分，所述数值选择性评分表示对所述至少一个分类规则的选择性精确度的估计，以提供对所述至少一个分类规则的评估，所述数值选择性评分通过对所收集的所述统计信息应用至少一个经训练的选择性确定算法来计算，对所述统计信息应用所述至少一个经训练的选择性确定算法包括考虑多个参数中的每一个参数，所述多个参数中的每一个参数根据所述至少一个分类规则从所述统计信息中衍生；以及

自主基于对经预分类训练数据集应用多个经特别选择的分类规则，产生所述至少一个经训练的选择性确定算法中的每一个，其中对所述训练数据集应用所述经特别选择的分类规则中的每一个经特别选择的分类规则产生至少一个统一对象分组，在所述对象分组中对象全部满足预定义的相似性准则，并且其中，所述经训练的选择性确定算法与所述多个经特别选择的分类规则不相关，以及

将所述选择性评分与预定义的选择性阈值进行比较，其中超过所述选择性阈值的选择性评分视为具有高选择性。

2.根据权利要求1所述的方法，其中所述未分类对象集包括文件。

3.根据权利要求1所述的方法，其中所述分类规则为恶意软件检测规则。

4.根据权利要求1所述的方法，进一步包括：自主创建所述分类规则。

5.根据权利要求1所述的方法，其中所述预定义的相似性准则是基于对象的内容的相似性。

6.根据权利要求1所述的方法，其中所述预定义的相似性准则是基于对象的功能性的相似性。

7.根据权利要求1所述的方法，其中所述指派到所述至少两个类别中的每一个的对象的特性包括从包含以下项的组中所选择的至少一个特性集：自分类规则的先前应用起经过的时间、通过应用分类规则分类到某类别中的对象的数量、通过应用分类规则分类到某类别中的对象的大小或其任何组合。

8.根据权利要求1所述的方法，其中所述指派到所述至少两个类别中的每一个的对象的特性包括从包含以下项的组中所选择的至少一个特性集：用于创建通过应用分类规则分类到某类别的对象的唯一编译器、用于创建通过应用分类规则分类到某类别的对象的唯一打包器或所述唯一编译器和所述唯一打包器的任何组合。

9.根据权利要求1所述的方法，其中多个不同的经训练的选择性确定算法应用于产生相应的多个单独选择性评分，并且其中所述多个单独选择性评分被汇总以产生用于每个分类规则的单个总选择性评分。