CN104246786A

CN104246786A - 模式发现中的字段选择

Info

Publication number: CN104246786A
Application number: CN201280072651.0A
Authority: CN
Inventors: 阿努拉克·辛格拉; 赵志鹏
Original assignee: Hewlett Packard Development Co LP
Current assignee: Weifosi Co., Ltd
Priority date: 2012-05-30
Filing date: 2012-05-30
Publication date: 2014-12-24
Anticipated expiration: 2032-05-30
Also published as: EP2856333A4; WO2013180707A1; EP2856333A1; US20150135263A1; US9531755B2; CN104246786B

Abstract

在事件数据中确定用于模式发现的字段。确定事件数据的字段的基数和重复度统计信息。基于字段的基数和重复度选择字段集。将这些字段包括在模式发现配置文件中。

Description

模式发现中的字段选择

背景技术

模式检测通常旨在找出输入数据集中以前未知的模式。模式是指数据集中在整个检查时段期间重复的元素的关联性。这与模式匹配方法相反，模式匹配用于例如利用正则表达式在输入中寻找与之前存在的模式的匹配。

模式检测方法可能需要大量的资源和与数据集领域相关的丰富知识来选择与数据集关联的用于模式匹配的适当信息。

附图说明

通过参考附图可以更好地理解各实施例，并且其特征变得显而易见。附图示出了这里描述的各实施例的示例。

图1示出网络安全系统。

图2示出模式发现模块。

图3示出字段选择的流程图。

图4示出图示字段选择的附加细节的另一流程图。

图5例示在其中可以实施各实施例的计算机系统。

具体实施方式

网络的安全信息/事件管理(SIM或SIEM)可以包括从网络和网络设备收集反映网络活动和/或设备操作的数据，以及分析该数据以提高安全性。例如，网络设备的示例可以包括防火墙、入侵检测系统、服务器、工作站、个人计算机等等。可以对数据进行分析来检测模式，模式可能指示网络或者网络设备上的攻击或者异常。检测到的模式可以用于例如在数据中定位这些模式。例如，模式可能指示蠕虫或者其他类型的计算机病毒正在试图访问网络中的计算机并安装恶意软件的活动。

从网络和网络设备收集的数据可以针对事件。事件可以是任何可以监视并分析的活动。针对一事件捕获的数据称为事件数据。可以执行对所捕获的事件数据的分析，以确定该事件是否与威胁或者其他情况相关联。与事件相关联的活动的示例包括登录、退出、在网络上发送数据、发送电子邮件、访问应用程序、读取或者写入数据、端口扫描、安装软件等等。事件数据可以从消息、网络设备产生的日志文件条目或者从其他来源收集。安全系统也可以产生事件数据，例如关联事件和审计事件。在一些实例中，每秒可以产生一千个事件。这等于每天1亿个事件，或者每个月30亿个事件。

事件数据中的事件可以有多个属性。可以根据与事件数据中事件的属性相关联的字段来存储事件数据。例如，字段是描述事件数据中的事件的属性。字段的示例可以包括事件的日期/时间、事件名、事件类别、事件ID、源地址、源MAC地址、目的地址、目的MAC地址、用户ID、用户权限、设备客户字符串等等。事件数据可以存储在包括字段的表格中。根据实施例，针对模式发现来选择事件的字段。所选择的字段是表格中的字段集。字段集中的字段数目可以包括2个或更多个字段。为字段集选择的字段基于各种统计信息来识别，并且存储在模式发现配置文件中。模式发现配置文件是用于发现事件数据中的模式的任何数据。模式发现配置文件可以包括字段集、参数集和用于模式发现的其他信息集。

为模式检测自动选择字段有助于可能具有有限的领域知识和专业技能的用户选择用于创建模式发现配置文件的字段。在有几百个事件字段的情况下，用户可能很难选择用于识别与检测网络攻击、内部威胁、欺骗行为和其他形式的可疑或恶意活动相关的模式的字段。此外，用户可能没有时间或者专业技能通过对模式发现结果进行分析来进一步调整所选择的字段。

模式是多个不同活动的序列。在模式的示例中，活动序列包括扫描端口、识别开放端口、向该端口发送具有特定负载的报文、登录计算机系统以及在该计算机系统的特定位置存储程序。

另外，识别重复的模式。例如，如果多个不同的活动出现重复，则可以认为是重复模式。此外，模式可以在两个计算机系统之间。因此，模式可以包括与不同计算机系统相关联的源字段和目标字段。在一个示例中，源和目标字段是计算机系统的网络协议(IP)地址。源和目标字段描述了计算机系统之间的交易。模式活动也可以根据附加的或代替源和目标字段之一的其他字段而被分组在一起。在一个示例中，模式活动可以在用户ID之间进行分析，以识别由多个用户重复的活动的序列或集合。在另一个示例中，模式活动可以在信用卡号或者客户之间进行分析，以识别多个信用卡账户之间的活动的序列或集合。

附加的或代替源和目标字段之一的其他事件字段可以包括在模式发现配置文件中。在一个示例中，字段用于识别特定模式，并且被称为模式识别字段。在一个示例中，模式识别字段是事件名或者事件类别。在另一个示例中，模式识别字段可以是信用卡交易量。在又一个示例中，模式识别字段可以是用于检测应用程序URL访问模式的事件请求(Event Request)URL字段。

除了字段之外，参数被选择用于模式发现，并且可以被包括在模式发现配置文件中。一个参数是活动的数目，其表示为使活动被认为是模式而需要重复的不同活动的最少数目。另一个参数是重复度参数，其表示不同活动被重复的最小次数。在一个示例中，重复度与两个字段相关联。例如，重复度可以被表示为源和目标字段的不同组合。例如，源和目标IP地址的不同组合的最小数目是重复度参数的示例。这些参数可以进行调整，直到识别出预定量的匹配模式。

一旦创建了模式发现配置文件，这些文件就可以用于分析进入的事件数据以检测模式。如果检测到模式，例如表示对网络安全进行恶意攻击的模式，则可以执行通知、警告或者其他动作来阻止攻击。

图1是根据实施例的网络安全系统100的框图。系统100包括代理12a-n、管理器14和控制台16，控制台16可以包括基于浏览器的版本。在一些实施例中，代理、管理器和/或控制台可以组合在单个平台中或者分布于两个、三个或者更多平台中(如在例示的示例中)。随着计算机网络或者系统的发展，这种多层结构的使用支持可扩展性。

代理12a-n包括机器可读指令，其提供高效、实时的(或者接近实时的)本地事件数据捕获，以及从各种网络安全设备和/或应用程序进行的过滤。安全事件的典型来源是常见的网络安全设备，例如防火墙、入侵检测系统和操作系统日志。代理12a-n从产生事件日志或者消息的任何来源收集事件，并且可以运行于本地设备、网络内的整合点，和/或通过简单网络管理协议(SNMP)陷阱运行。

代理12a-n可以经由相关联的配置文件进行手动或者自动配置。每个代理12可以包括归一化部件、时间校正部件、聚合部件、批处理部件、解析部件、传输部件和/或附加部件。这些部件可以通过配置文件中的适当命令被激活和/或去激活。

管理器14可以由基于服务器的部件构成，这些部件进一步采用规则引擎18和集中式事件数据库20整合、过滤以及交叉相关从代理接收到的事件，集中式事件数据库20可以包括由为接收到的事件存储事件数据的字段构成的事件表。数据库20还可以存储管理器14生成的模式发现配置文件。管理器14的一个作用是捕获并存储所有的实时和历史事件数据，以便构建(通过数据库管理器22)完整的安全活动情景。管理器14还提供集中式管理、通知(通过至少一个通知器24)和报告以及案例管理流程。管理器14可以部署在任何计算机硬件平台上，并利用数据库管理系统来实现事件数据存储部件。管理器14和代理12a-n之间的通信可以是双向的(例如，允许管理器14传输命令到安装代理12a-n的平台)并且被加密。管理器14可以作为多个代理12a-n的集中器，并且可以转发信息到其他管理器，例如部署在公司总部的管理器。

管理器14还包括事件管理器26，其接收代理12a-n传输的事件数据消息。事件管理器26也负责产生事件数据消息，例如关联事件和审计事件。在与代理12a-n实现双向通信的情况下，事件管理器26可以用于向代理12a-n传输消息。如果代理-管理器的通信采用加密，则事件管理器26负责解密从代理12a-n收到的消息，并且加密发往代理12a-n的任何消息。

控制台16是允许安全专家执行例如事件监视、规则创建、事故调查和报告之类的日常管理和操作任务的应用程序。访问控制列表允许多个安全专家使用相同的系统和事件/趋势数据库，每个人拥有他们各自的适用于其职责的视图、相关规则、警告、报告和知识库。一个管理器14可以支持多个控制台16。

控制台16可以基于浏览器，并且可以用于提供对安全事件、知识库文章、报告、通知和案件的访问。管理器14可以包括可经由个人电脑或者掌上电脑(代替控制台16)上的网络浏览器访问的网络服务器部件，以提供控制台16的部分或者全部功能。对于远离控制台16的安全专家和兼职用户来说，浏览器访问尤其有用。控制台16和管理器14之间的通信是双向的，并且可以加密。

通过上述架构，可以支持集中式或者分散式环境。这一点很有用，因为组织机构可能希望实施系统100的单个实例，并使用访问控制列表来划分用户。可替代地，组织机构也可以选择为多个分组中的每个分组部署分立的系统100，并在“主”级别处合并结果。

网络安全系统100还包括模式处理能力。管理器14包括模式发现模块30。模式发现模块30接收事件集，例如通过事件管理器26来自代理12a-n中的至少一个的事件、通过数据库管理器22来自事件数据库20的事件、或者来自事件管理器26的事件。

在操作中，代理12a-n可以提供事件和/或聚合数据。在一个示例中，代理12a-n提供由事件管理器26以事件流的形式接收并传递给规则引擎18和模式发现模块30进行处理的事件。事件流是事件的连续流。可以通过数据库管理器22，将从代理12a-n接收的或者由管理器14产生的事件数据存储在数据库20的事件表中。

模式发现模块30生成模式发现配置文件，其可以存储在事件数据库20中。方法300和400是识别可用于模式发现配置文件的字段的示例。模式发现配置文件用于检测事件数据库20中满足模式发现配置文件中描述的标准的多个事件。可以基于用户或其他进程指定的范围或者类别，来选择与模式发现配置文件中定义的标准进行比较的事件。例如，该范围可以包括事件的时间范围，如前5分钟内的事件、或前24小时内的事件。也可以利用其他过滤条件来识别与模式发现配置文件进行比较的事件组。数据库管理器22可以执行SQL命令，以比较来自事件数据库20的事件数据和模式发现配置文件中定义的标准。如果检测到模式，则通知器24可以产生通知(例如消息、警告等)。另外，可以显示并分析检测到的模式的事件数据。规则引擎18可以包括用于通过数据库管理器22调用模式检测的规则，例如描述何时引导模式检测的规则或者谁能查看模式检测结果的规则。模式发现模块30可以包括为模式发现配置文件选择字段的字段选择模块31、以及用于检测满足模式发现配置文件的标准的模式的模式识别引擎32。字段选择模块31和模式识别引擎32参照图2进行进一步详细描述。

图2示出了包括字段选择模块31和模式识别引擎32的模式发现模块30。字段选择模块31分析事件统计信息，以便为模式发现配置文件选择字段。事件统计信息可以包括数据库中各个字段的基数和重复度。基数是集合中唯一的条目的个数。带有较高基数的字段可能成为用于绑定由活动序列组成的交易的交易字段。

重复度是指字段中的值重复的次数。具有高基数的字段会有助于实现高重复度。例如，假设网络中仅有两个计算机系统，并且只有这些计算机系统将活动作为事件进行报告。仅有两个IP地址，因此如果选择源IP地址或者目的IP地址作为交易字段，将不会有太多的重复行为。然而，如果有十组不同的计算机系统，则由于有更多的可以体现出活动序列的源和目的IP地址的组合，所以可检测到针对该活动序列的更高重复度。

模式识别引擎32将事件与模式发现配置文件中定义的标准进行比较，从而识别出与模式发现配置文件相匹配的模式。例如，模式识别引擎32可以从字段选择模块31接收模式发现配置文件，或者从事件数据库20接收之前存储的模式发现配置文件。匹配可以包括表示满足模式发现配置文件中定义的标准的活动序列的事件。与模式发现配置文件相匹配的每个实例称为模式。

在将事件和模式发现配置文件进行比较之前，可以对事件进行过滤。例如，作为对查询的响应，可以从事件数据库20接收与预定的标准相匹配的事件，例如在一定范围或某个类别内的事件。将这些事件与发现配置文件中定义的标准进行比较以检测是否匹配。

图3示出确定用于模式匹配的字段和参数的方法300的示例。可以选择字段并把字段合并到模式发现配置文件中，并存储在图1所示的事件数据库20中。方法300可以由模式发现模块30执行或者由图1所示系统之外的其他模块来执行。另外，可以通过执行存储在数据存储设备上的机器可读指令来实施方法300。

在301，确定事件字段的基数和重复度统计信息。事件字段包括描述所捕获的事件数据的属性的字段。如上所述，事件数据库20可以包括事件表，事件表包括事件字段。字段可以描述事件名、事件类别、事件时间(如事件活动何时发生)、事件日期、源和目的IP地址等等。

字段的基数是字段中唯一的条目(例如，值)的个数。字段的重复度是字段中的值重复的次数。例如，字段可以是事件名，并且该字段的重复度确定了字段中每个唯一的事件名重复的次数。事件名可以描述事件的活动，并且重复度可以标识每个活动重复的次数。某些字段可以具有空的值，并且在确定字段的基数和重复度时，这些空值未包括在内。可以通过查询事件数据库20来确定字段的基数和重复度统计信息。

在302，基于步骤301确定的基数和重复度统计信息选择字段集。例如，选择具有高基数(例如前5个)和高重复度(如，在预定时段内执行100次的相同活动)的字段。在另一示例中，选择具有中低基数和高重复度的字段。在一个实施例中，用事件数据的全局汇总(global summary)来确定用于确定统计信息(例如基数或者重复度)为高、中还是低的阈值。全局汇总包含每个事件字段的唯一值的直方图。该信息随着新事件的加入进行更新，并被留存在数据库中。

从模式发现的角度来看，全局汇总是每个字段中的历史数据的统计信息，并且全局汇总可以被用于选择可能是模式发现的候选事件的字段、模式发现的源和目标字段。通常，这些字段具有至少几个重复的唯一值。在一个示例中，为了从全局汇总中发现这种字段，可以根据其唯一值的频率进行排序。然后，为每个字段(或者为排序中的前几个字段)确定前k个高频的唯一值，并计算具有这些前k个值中任意一个值的事件的数目之和与所有事件的总数的比值。较高的比值指示该字段集中在前几个唯一值上。这个字段本身更容易重复，因此是事件/源/目标字段的好的候选。

形式上，对于每个具有n个唯一值的字段i，我们计算

然后选择具有高比值的字段(例如前x个字段)作为源/目标/事件(模式识别)字段。

上述等式可以应用于所有的事件字段或者一小部分事件字段上，以缩小搜索空间。该小部分事件字段可以根据用户可修改的列表来确定。

在303，将所选择的字段包括在模式发现配置文件中。可以根据方法300创建多个模式发现配置文件并存储在事件数据库20中。模式发现配置文件可以包括参数值。参数的示例可以包括序列中的活动的数目、活动序列重复的次数、待评估的事件的时间范围等等。参数值可以由用户选择或者可以基于模式匹配结果。

包括所选择的字段和参数的模式发现配置文件被用于从事件数据中识别最终模式集。例如，将所确定的字段和参数包括在模式发现配置文件中，并且模式发现模块30确定在事件数据和模式发现配置文件中定义的标准之间是否存在任何匹配。匹配即是检测到的模式。可以通过显示器将检测到的模式呈现给用户，并进行进一步分析例如以确定其是否表示网络安全威胁。

图4示出用于确定模式匹配的字段的方法400的示例。可以在方法300的302处执行方法400以确定字段。可以选择字段并把选择的字段合并到模式发现配置文件中，并存储在图1所示的事件数据库20中。方法400可以由模式发现模块30或者图1所示系统之外的其他模块执行。此外，可以通过执行存储在数据存储设备上的机器可读指令来实施方法400。

方法400包含两条路径。一条路径识别模式识别字段，例如事件名、用户ID、事件类别等等，另一条路径识别交易字段，例如源和目的字段。

在401，针对模式识别字段识别具有中低基数和高重复度的字段。在一个实施例中，中低基数可以基于预先确定的阈值或者范围。例如，确定每个字段的基数，将字段按照基数从高到低排序。前33％可以认为高基数。其余的被认为中低基数。在一个示例中，确定字段的重复度，并将字段按照重复度进行排序。前40％可以认为高重复度，其余的被认为中低重复度。可以随着时间推移基于各种因素对阈值进行调整。具有中低基数和高重复度的字段被选择为模式识别字段。在一个示例中，所选择的字段可以是具有最高重复度和中等基数的字段。

在410-412，选择源和目的字段。在410，识别具有高基数和高重复度的字段。如针对401所述，低、中和高基数及重复度的阈值或者范围可以预先确定并随时间进行调整。从具有高基数和高重复度的字段中选择一对字段。

在411，针对410中所选择的字段的组合确定字段基数和重复度。例如，从410中所识别的字段中选择两个字段，一个作为源且一个作为目的。确定这两个字段一起的组合的基数和重复度。可以通过将组合的字段值看作由多个维度(每个字段一个维度)组成的向量，来确定组合的基数。如果两个这种向量的所有维度都正好匹配，则认为两个向量相同。如果一个或多个维度不同，则向量不同。例如，假设源IP地址的基数是1000，目标IP地址的基数是200。然后，假设事件数据集很大(例如，大约1亿个事件)。在这些事件中，针对不管是哪里的源IP地址和目标IP地址字段确定从1000[(max(card(源IP地址)，card(目标IP地址)]到200,000[card(源IP地址)*card(目标IP地址)]的组合基数。确切的值取决于为模式发现而选择的事件的群体中源和目标IP地址的唯一组合的数目。

在412，将组合的基数和重复度与基数和重复度组合阈值进行比较，以便确定该组合是否具有高基数和高重复度。用于确定组合的高基数和高重复度是否高的阈值可以预先确定并随着时间推移进行调整。基数和重复度阈值的示例可以分别为50,000和100。这些值也可以由用户配置。

如果所选择的字段的组合不满足阈值(例如，高基数和重复度不高)，则在411处从410中识别的字段集中选择字段的另一组合，并且在412重复比较。重复上述过程，直到来自410处确定的字段的源字段和目的字段被识别为具有满足412处的阈值的组合基数和重复度(如，组合的高基数和高重复度)。如果410处确定的字段中没有满足阈值的组合，则方法400结束，或者例如通过降低基数和重复度要求在410处确定新的字段集。

在420，确定410处识别的模式识别字段的组合的基数和重复度以及412处选择的源和目的字段，并且在421将其与阈值进行比较。如果组合的基数和重复度不满足阈值，则在423选择新的组合。例如，在423，选择具有中低基数和高重复度的新的模式识别字段，如在401所确定的，和/或选择满足组合阈值的源和目的字段的新组合，如在410-412所确定的。然后，识别模式识别字段的新组合，并在412将源和目的字段与阈值进行比较。

在422，如果模式识别字段的组合的基数和重复度以及源和目的字段满足阈值，如在421所确定的，则可以将模式识别字段以及源和目的字段包括在模式发现配置文件中用于从事件数据中检测模式。

图5示出了其中可以实施各实施例的计算机系统。计算机系统500可以是图1所示的系统100的平台，或者系统100的部件中的一个或多个部件。计算机系统500被示为包括可通过总线524电联接的硬件单元。硬件单元可以包括例如中央处理单元(CPU)502的处理器、输入设备504和输出设备506。计算机系统500还可以包括存储设备，例如存储器518和非易失性存储设备512(如硬盘、光盘、固态存储器等等)。存储设备是可以存储机器可读指令的非瞬态计算机可读介质的示例。例如，在运行时，存储器518可以存储操作系统520和其他代码522。其他代码522包括图1所示的系统100中的模块，例如模式发现模块30。非易失性存储设备512可以存储数据和机器可读指令。计算机系统500可以另外包括通信接口514(例如调制解调器、网卡(无线或者有线)、红外通信设备等等)。

应当理解，计算机系统500的替代实施例可以具有以上所述的各种变体。例如，也可以使用定制的硬件和/或在硬件、软件(包括可移植软件，例如小型应用程序)或者二者中实现特定的单元。进一步地，还可以采用到其他计算设备例如网络输入/输出设备的连接。

虽然以上结合示例描述了各实施例，但是可以对所描述的实施例进行各种修改，而不超出实施例的范围。

Claims

1.一种为模式发现配置文件确定字段的方法，所述方法包括：

确定事件数据的字段的基数和重复度；

由处理器基于所确定的字段的基数和重复度选择字段集；以及

将所述字段集包括在模式发现配置文件中。

2.根据权利要求1所述的方法，其中选择字段集包括：

基于所确定的字段的基数和重复度，从所述字段中选择模式识别字段和交易字段。

3.根据权利要求2所述的方法，其中选择模式识别字段和交易字段包括：

确定所述模式识别字段和所述交易字段的组合的基数和重复度；

确定所述模式识别字段和所述交易字段的组合的基数和重复度是否满足基数和重复度阈值；以及

如果所述模式识别字段和交易字段的组合满足所述基数和重复度阈值，则将所述模式识别字段和所述交易字段选择为包括在所述模式发现配置文件中的字段。

4.根据权利要求3所述的方法，包括：

如果所述模式识别字段和交易字段的组合不满足所述基数和重复度阈值，则选择用于所述模式发现配置文件的新的模式识别字段或者新的交易字段。

5.根据权利要求2所述的方法，其中选择交易字段包括：

从所述字段中选择具有满足基数和重复度阈值的组合的基数和重复度的源字段和目的字段；

确定所述源字段和所述目的字段的组合的基数和重复度；

确定所述源字段和所述目的字段的组合的基数和重复度是否满足基数和重复度阈值；和

如果所述源字段和所述目的字段的组合满足所述基数和重复度阈值，则将所述源字段和所述目的字段选择为所述交易字段。

6.根据权利要求5所述的方法，包括：

如果所述源字段和所述目的的组合不满足所述基数和重复度阈值，则选择新的源字段或新的目的字段以包括在所述交易字段中。

7.根据权利要求2所述的方法，其中所述模式识别字段标识活动，并且所述交易字段标识执行所述活动的计算机系统。

8.根据权利要求1所述的方法，包括：

识别所述事件数据中与所述模式发现配置文件相匹配的模式。

9.根据权利要求8所述的方法，其中识别所述事件数据中与所述模式发现配置文件相匹配的模式包括：

选择所述事件数据中在一时间范围内的子集；和

识别所述事件数据的所述子集中与所述模式发现配置文件相匹配的模式。

10.一种网络安全事件处理系统包括：

数据存储器，用于存储描述连接至网络的设备的活动的事件，其中所述数据存储器包括存储所述事件的表格，并且所述表格包括描述所述事件的属性的字段；

字段选择模块，由处理器执行，用于基于所述字段的基数和重复度选择用于模式发现的字段集；和

模式识别引擎，用于基于所选择的字段集检测事件数据中的模式。

11.根据权利要求10所述的网络安全事件处理系统，其中所述字段集包括基于所确定的所述字段的基数和重复度从所述字段中选择的模式识别字段和交易字段。

12.根据权利要求11所述的网络安全事件处理系统，其中所述模式识别字段标识所述活动中的一些活动，并且所述交易字段标识执行所述活动的计算机系统。

13.根据权利要求11所述的网络安全事件处理系统，其中所述字段选择模块用于通过从所述字段中选择具有满足基数和重复度阈值的组合的基数和重复度的源字段和目的字段来选择交易字段。

14.根据权利要求11所述的网络安全事件处理系统，其中所述字段选择模块用于通过从所述字段中选择具有满足基数和重复度阈值的组合的基数和重复度的源字段、目的字段和模式识别字段，来选择所述模式识别字段和所述交易字段。

15.一种非瞬态计算机可读介质，包括在由处理器执行时使所述处理器完成以下操作的机器可读指令：

确定事件数据的字段的基数和重复度；

基于所确定的字段的基数和重复度，从所述字段中选择模式识别字段和交易字段；和

将所述字段集包括在模式发现配置文件中，其中，所述模式发现配置文件包括与所述模式识别字段和所述交易字段相关联的用于识别所述事件数据中的模式的标准。