CN104246786A - 模式发现中的字段选择 - Google Patents

模式发现中的字段选择 Download PDF

Info

Publication number
CN104246786A
CN104246786A CN201280072651.0A CN201280072651A CN104246786A CN 104246786 A CN104246786 A CN 104246786A CN 201280072651 A CN201280072651 A CN 201280072651A CN 104246786 A CN104246786 A CN 104246786A
Authority
CN
China
Prior art keywords
field
multiplicity
pattern
cardinal sum
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280072651.0A
Other languages
English (en)
Other versions
CN104246786B (zh
Inventor
阿努拉克·辛格拉
赵志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weifosi Co., Ltd
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN104246786A publication Critical patent/CN104246786A/zh
Application granted granted Critical
Publication of CN104246786B publication Critical patent/CN104246786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

在事件数据中确定用于模式发现的字段。确定事件数据的字段的基数和重复度统计信息。基于字段的基数和重复度选择字段集。将这些字段包括在模式发现配置文件中。

Description

模式发现中的字段选择
背景技术
模式检测通常旨在找出输入数据集中以前未知的模式。模式是指数据集中在整个检查时段期间重复的元素的关联性。这与模式匹配方法相反,模式匹配用于例如利用正则表达式在输入中寻找与之前存在的模式的匹配。
模式检测方法可能需要大量的资源和与数据集领域相关的丰富知识来选择与数据集关联的用于模式匹配的适当信息。
附图说明
通过参考附图可以更好地理解各实施例,并且其特征变得显而易见。附图示出了这里描述的各实施例的示例。
图1示出网络安全系统。
图2示出模式发现模块。
图3示出字段选择的流程图。
图4示出图示字段选择的附加细节的另一流程图。
图5例示在其中可以实施各实施例的计算机系统。
具体实施方式
网络的安全信息/事件管理(SIM或SIEM)可以包括从网络和网络设备收集反映网络活动和/或设备操作的数据,以及分析该数据以提高安全性。例如,网络设备的示例可以包括防火墙、入侵检测系统、服务器、工作站、个人计算机等等。可以对数据进行分析来检测模式,模式可能指示网络或者网络设备上的攻击或者异常。检测到的模式可以用于例如在数据中定位这些模式。例如,模式可能指示蠕虫或者其他类型的计算机病毒正在试图访问网络中的计算机并安装恶意软件的活动。
从网络和网络设备收集的数据可以针对事件。事件可以是任何可以监视并分析的活动。针对一事件捕获的数据称为事件数据。可以执行对所捕获的事件数据的分析,以确定该事件是否与威胁或者其他情况相关联。与事件相关联的活动的示例包括登录、退出、在网络上发送数据、发送电子邮件、访问应用程序、读取或者写入数据、端口扫描、安装软件等等。事件数据可以从消息、网络设备产生的日志文件条目或者从其他来源收集。安全系统也可以产生事件数据,例如关联事件和审计事件。在一些实例中,每秒可以产生一千个事件。这等于每天1亿个事件,或者每个月30亿个事件。
事件数据中的事件可以有多个属性。可以根据与事件数据中事件的属性相关联的字段来存储事件数据。例如,字段是描述事件数据中的事件的属性。字段的示例可以包括事件的日期/时间、事件名、事件类别、事件ID、源地址、源MAC地址、目的地址、目的MAC地址、用户ID、用户权限、设备客户字符串等等。事件数据可以存储在包括字段的表格中。根据实施例,针对模式发现来选择事件的字段。所选择的字段是表格中的字段集。字段集中的字段数目可以包括2个或更多个字段。为字段集选择的字段基于各种统计信息来识别,并且存储在模式发现配置文件中。模式发现配置文件是用于发现事件数据中的模式的任何数据。模式发现配置文件可以包括字段集、参数集和用于模式发现的其他信息集。
为模式检测自动选择字段有助于可能具有有限的领域知识和专业技能的用户选择用于创建模式发现配置文件的字段。在有几百个事件字段的情况下,用户可能很难选择用于识别与检测网络攻击、内部威胁、欺骗行为和其他形式的可疑或恶意活动相关的模式的字段。此外,用户可能没有时间或者专业技能通过对模式发现结果进行分析来进一步调整所选择的字段。
模式是多个不同活动的序列。在模式的示例中,活动序列包括扫描端口、识别开放端口、向该端口发送具有特定负载的报文、登录计算机系统以及在该计算机系统的特定位置存储程序。
另外,识别重复的模式。例如,如果多个不同的活动出现重复,则可以认为是重复模式。此外,模式可以在两个计算机系统之间。因此,模式可以包括与不同计算机系统相关联的源字段和目标字段。在一个示例中,源和目标字段是计算机系统的网络协议(IP)地址。源和目标字段描述了计算机系统之间的交易。模式活动也可以根据附加的或代替源和目标字段之一的其他字段而被分组在一起。在一个示例中,模式活动可以在用户ID之间进行分析,以识别由多个用户重复的活动的序列或集合。在另一个示例中,模式活动可以在信用卡号或者客户之间进行分析,以识别多个信用卡账户之间的活动的序列或集合。
附加的或代替源和目标字段之一的其他事件字段可以包括在模式发现配置文件中。在一个示例中,字段用于识别特定模式,并且被称为模式识别字段。在一个示例中,模式识别字段是事件名或者事件类别。在另一个示例中,模式识别字段可以是信用卡交易量。在又一个示例中,模式识别字段可以是用于检测应用程序URL访问模式的事件请求(Event Request)URL字段。
除了字段之外,参数被选择用于模式发现,并且可以被包括在模式发现配置文件中。一个参数是活动的数目,其表示为使活动被认为是模式而需要重复的不同活动的最少数目。另一个参数是重复度参数,其表示不同活动被重复的最小次数。在一个示例中,重复度与两个字段相关联。例如,重复度可以被表示为源和目标字段的不同组合。例如,源和目标IP地址的不同组合的最小数目是重复度参数的示例。这些参数可以进行调整,直到识别出预定量的匹配模式。
一旦创建了模式发现配置文件,这些文件就可以用于分析进入的事件数据以检测模式。如果检测到模式,例如表示对网络安全进行恶意攻击的模式,则可以执行通知、警告或者其他动作来阻止攻击。
图1是根据实施例的网络安全系统100的框图。系统100包括代理12a-n、管理器14和控制台16,控制台16可以包括基于浏览器的版本。在一些实施例中,代理、管理器和/或控制台可以组合在单个平台中或者分布于两个、三个或者更多平台中(如在例示的示例中)。随着计算机网络或者系统的发展,这种多层结构的使用支持可扩展性。
代理12a-n包括机器可读指令,其提供高效、实时的(或者接近实时的)本地事件数据捕获,以及从各种网络安全设备和/或应用程序进行的过滤。安全事件的典型来源是常见的网络安全设备,例如防火墙、入侵检测系统和操作系统日志。代理12a-n从产生事件日志或者消息的任何来源收集事件,并且可以运行于本地设备、网络内的整合点,和/或通过简单网络管理协议(SNMP)陷阱运行。
代理12a-n可以经由相关联的配置文件进行手动或者自动配置。每个代理12可以包括归一化部件、时间校正部件、聚合部件、批处理部件、解析部件、传输部件和/或附加部件。这些部件可以通过配置文件中的适当命令被激活和/或去激活。
管理器14可以由基于服务器的部件构成,这些部件进一步采用规则引擎18和集中式事件数据库20整合、过滤以及交叉相关从代理接收到的事件,集中式事件数据库20可以包括由为接收到的事件存储事件数据的字段构成的事件表。数据库20还可以存储管理器14生成的模式发现配置文件。管理器14的一个作用是捕获并存储所有的实时和历史事件数据,以便构建(通过数据库管理器22)完整的安全活动情景。管理器14还提供集中式管理、通知(通过至少一个通知器24)和报告以及案例管理流程。管理器14可以部署在任何计算机硬件平台上,并利用数据库管理系统来实现事件数据存储部件。管理器14和代理12a-n之间的通信可以是双向的(例如,允许管理器14传输命令到安装代理12a-n的平台)并且被加密。管理器14可以作为多个代理12a-n的集中器,并且可以转发信息到其他管理器,例如部署在公司总部的管理器。
管理器14还包括事件管理器26,其接收代理12a-n传输的事件数据消息。事件管理器26也负责产生事件数据消息,例如关联事件和审计事件。在与代理12a-n实现双向通信的情况下,事件管理器26可以用于向代理12a-n传输消息。如果代理-管理器的通信采用加密,则事件管理器26负责解密从代理12a-n收到的消息,并且加密发往代理12a-n的任何消息。
控制台16是允许安全专家执行例如事件监视、规则创建、事故调查和报告之类的日常管理和操作任务的应用程序。访问控制列表允许多个安全专家使用相同的系统和事件/趋势数据库,每个人拥有他们各自的适用于其职责的视图、相关规则、警告、报告和知识库。一个管理器14可以支持多个控制台16。
控制台16可以基于浏览器,并且可以用于提供对安全事件、知识库文章、报告、通知和案件的访问。管理器14可以包括可经由个人电脑或者掌上电脑(代替控制台16)上的网络浏览器访问的网络服务器部件,以提供控制台16的部分或者全部功能。对于远离控制台16的安全专家和兼职用户来说,浏览器访问尤其有用。控制台16和管理器14之间的通信是双向的,并且可以加密。
通过上述架构,可以支持集中式或者分散式环境。这一点很有用,因为组织机构可能希望实施系统100的单个实例,并使用访问控制列表来划分用户。可替代地,组织机构也可以选择为多个分组中的每个分组部署分立的系统100,并在“主”级别处合并结果。
网络安全系统100还包括模式处理能力。管理器14包括模式发现模块30。模式发现模块30接收事件集,例如通过事件管理器26来自代理12a-n中的至少一个的事件、通过数据库管理器22来自事件数据库20的事件、或者来自事件管理器26的事件。
在操作中,代理12a-n可以提供事件和/或聚合数据。在一个示例中,代理12a-n提供由事件管理器26以事件流的形式接收并传递给规则引擎18和模式发现模块30进行处理的事件。事件流是事件的连续流。可以通过数据库管理器22,将从代理12a-n接收的或者由管理器14产生的事件数据存储在数据库20的事件表中。
模式发现模块30生成模式发现配置文件,其可以存储在事件数据库20中。方法300和400是识别可用于模式发现配置文件的字段的示例。模式发现配置文件用于检测事件数据库20中满足模式发现配置文件中描述的标准的多个事件。可以基于用户或其他进程指定的范围或者类别,来选择与模式发现配置文件中定义的标准进行比较的事件。例如,该范围可以包括事件的时间范围,如前5分钟内的事件、或前24小时内的事件。也可以利用其他过滤条件来识别与模式发现配置文件进行比较的事件组。数据库管理器22可以执行SQL命令,以比较来自事件数据库20的事件数据和模式发现配置文件中定义的标准。如果检测到模式,则通知器24可以产生通知(例如消息、警告等)。另外,可以显示并分析检测到的模式的事件数据。规则引擎18可以包括用于通过数据库管理器22调用模式检测的规则,例如描述何时引导模式检测的规则或者谁能查看模式检测结果的规则。模式发现模块30可以包括为模式发现配置文件选择字段的字段选择模块31、以及用于检测满足模式发现配置文件的标准的模式的模式识别引擎32。字段选择模块31和模式识别引擎32参照图2进行进一步详细描述。
图2示出了包括字段选择模块31和模式识别引擎32的模式发现模块30。字段选择模块31分析事件统计信息,以便为模式发现配置文件选择字段。事件统计信息可以包括数据库中各个字段的基数和重复度。基数是集合中唯一的条目的个数。带有较高基数的字段可能成为用于绑定由活动序列组成的交易的交易字段。
重复度是指字段中的值重复的次数。具有高基数的字段会有助于实现高重复度。例如,假设网络中仅有两个计算机系统,并且只有这些计算机系统将活动作为事件进行报告。仅有两个IP地址,因此如果选择源IP地址或者目的IP地址作为交易字段,将不会有太多的重复行为。然而,如果有十组不同的计算机系统,则由于有更多的可以体现出活动序列的源和目的IP地址的组合,所以可检测到针对该活动序列的更高重复度。
模式识别引擎32将事件与模式发现配置文件中定义的标准进行比较,从而识别出与模式发现配置文件相匹配的模式。例如,模式识别引擎32可以从字段选择模块31接收模式发现配置文件,或者从事件数据库20接收之前存储的模式发现配置文件。匹配可以包括表示满足模式发现配置文件中定义的标准的活动序列的事件。与模式发现配置文件相匹配的每个实例称为模式。
在将事件和模式发现配置文件进行比较之前,可以对事件进行过滤。例如,作为对查询的响应,可以从事件数据库20接收与预定的标准相匹配的事件,例如在一定范围或某个类别内的事件。将这些事件与发现配置文件中定义的标准进行比较以检测是否匹配。
图3示出确定用于模式匹配的字段和参数的方法300的示例。可以选择字段并把字段合并到模式发现配置文件中,并存储在图1所示的事件数据库20中。方法300可以由模式发现模块30执行或者由图1所示系统之外的其他模块来执行。另外,可以通过执行存储在数据存储设备上的机器可读指令来实施方法300。
在301,确定事件字段的基数和重复度统计信息。事件字段包括描述所捕获的事件数据的属性的字段。如上所述,事件数据库20可以包括事件表,事件表包括事件字段。字段可以描述事件名、事件类别、事件时间(如事件活动何时发生)、事件日期、源和目的IP地址等等。
字段的基数是字段中唯一的条目(例如,值)的个数。字段的重复度是字段中的值重复的次数。例如,字段可以是事件名,并且该字段的重复度确定了字段中每个唯一的事件名重复的次数。事件名可以描述事件的活动,并且重复度可以标识每个活动重复的次数。某些字段可以具有空的值,并且在确定字段的基数和重复度时,这些空值未包括在内。可以通过查询事件数据库20来确定字段的基数和重复度统计信息。
在302,基于步骤301确定的基数和重复度统计信息选择字段集。例如,选择具有高基数(例如前5个)和高重复度(如,在预定时段内执行100次的相同活动)的字段。在另一示例中,选择具有中低基数和高重复度的字段。在一个实施例中,用事件数据的全局汇总(global summary)来确定用于确定统计信息(例如基数或者重复度)为高、中还是低的阈值。全局汇总包含每个事件字段的唯一值的直方图。该信息随着新事件的加入进行更新,并被留存在数据库中。
从模式发现的角度来看,全局汇总是每个字段中的历史数据的统计信息,并且全局汇总可以被用于选择可能是模式发现的候选事件的字段、模式发现的源和目标字段。通常,这些字段具有至少几个重复的唯一值。在一个示例中,为了从全局汇总中发现这种字段,可以根据其唯一值的频率进行排序。然后,为每个字段(或者为排序中的前几个字段)确定前k个高频的唯一值,并计算具有这些前k个值中任意一个值的事件的数目之和与所有事件的总数的比值。较高的比值指示该字段集中在前几个唯一值上。这个字段本身更容易重复,因此是事件/源/目标字段的好的候选。
形式上,对于每个具有n个唯一值的字段i,我们计算
然后选择具有高比值的字段(例如前x个字段)作为源/目标/事件(模式识别)字段。
上述等式可以应用于所有的事件字段或者一小部分事件字段上,以缩小搜索空间。该小部分事件字段可以根据用户可修改的列表来确定。
在303,将所选择的字段包括在模式发现配置文件中。可以根据方法300创建多个模式发现配置文件并存储在事件数据库20中。模式发现配置文件可以包括参数值。参数的示例可以包括序列中的活动的数目、活动序列重复的次数、待评估的事件的时间范围等等。参数值可以由用户选择或者可以基于模式匹配结果。
包括所选择的字段和参数的模式发现配置文件被用于从事件数据中识别最终模式集。例如,将所确定的字段和参数包括在模式发现配置文件中,并且模式发现模块30确定在事件数据和模式发现配置文件中定义的标准之间是否存在任何匹配。匹配即是检测到的模式。可以通过显示器将检测到的模式呈现给用户,并进行进一步分析例如以确定其是否表示网络安全威胁。
图4示出用于确定模式匹配的字段的方法400的示例。可以在方法300的302处执行方法400以确定字段。可以选择字段并把选择的字段合并到模式发现配置文件中,并存储在图1所示的事件数据库20中。方法400可以由模式发现模块30或者图1所示系统之外的其他模块执行。此外,可以通过执行存储在数据存储设备上的机器可读指令来实施方法400。
方法400包含两条路径。一条路径识别模式识别字段,例如事件名、用户ID、事件类别等等,另一条路径识别交易字段,例如源和目的字段。
在401,针对模式识别字段识别具有中低基数和高重复度的字段。在一个实施例中,中低基数可以基于预先确定的阈值或者范围。例如,确定每个字段的基数,将字段按照基数从高到低排序。前33%可以认为高基数。其余的被认为中低基数。在一个示例中,确定字段的重复度,并将字段按照重复度进行排序。前40%可以认为高重复度,其余的被认为中低重复度。可以随着时间推移基于各种因素对阈值进行调整。具有中低基数和高重复度的字段被选择为模式识别字段。在一个示例中,所选择的字段可以是具有最高重复度和中等基数的字段。
在410-412,选择源和目的字段。在410,识别具有高基数和高重复度的字段。如针对401所述,低、中和高基数及重复度的阈值或者范围可以预先确定并随时间进行调整。从具有高基数和高重复度的字段中选择一对字段。
在411,针对410中所选择的字段的组合确定字段基数和重复度。例如,从410中所识别的字段中选择两个字段,一个作为源且一个作为目的。确定这两个字段一起的组合的基数和重复度。可以通过将组合的字段值看作由多个维度(每个字段一个维度)组成的向量,来确定组合的基数。如果两个这种向量的所有维度都正好匹配,则认为两个向量相同。如果一个或多个维度不同,则向量不同。例如,假设源IP地址的基数是1000,目标IP地址的基数是200。然后,假设事件数据集很大(例如,大约1亿个事件)。在这些事件中,针对不管是哪里的源IP地址和目标IP地址字段确定从1000[(max(card(源IP地址),card(目标IP地址)]到200,000[card(源IP地址)*card(目标IP地址)]的组合基数。确切的值取决于为模式发现而选择的事件的群体中源和目标IP地址的唯一组合的数目。
在412,将组合的基数和重复度与基数和重复度组合阈值进行比较,以便确定该组合是否具有高基数和高重复度。用于确定组合的高基数和高重复度是否高的阈值可以预先确定并随着时间推移进行调整。基数和重复度阈值的示例可以分别为50,000和100。这些值也可以由用户配置。
如果所选择的字段的组合不满足阈值(例如,高基数和重复度不高),则在411处从410中识别的字段集中选择字段的另一组合,并且在412重复比较。重复上述过程,直到来自410处确定的字段的源字段和目的字段被识别为具有满足412处的阈值的组合基数和重复度(如,组合的高基数和高重复度)。如果410处确定的字段中没有满足阈值的组合,则方法400结束,或者例如通过降低基数和重复度要求在410处确定新的字段集。
在420,确定410处识别的模式识别字段的组合的基数和重复度以及412处选择的源和目的字段,并且在421将其与阈值进行比较。如果组合的基数和重复度不满足阈值,则在423选择新的组合。例如,在423,选择具有中低基数和高重复度的新的模式识别字段,如在401所确定的,和/或选择满足组合阈值的源和目的字段的新组合,如在410-412所确定的。然后,识别模式识别字段的新组合,并在412将源和目的字段与阈值进行比较。
在422,如果模式识别字段的组合的基数和重复度以及源和目的字段满足阈值,如在421所确定的,则可以将模式识别字段以及源和目的字段包括在模式发现配置文件中用于从事件数据中检测模式。
图5示出了其中可以实施各实施例的计算机系统。计算机系统500可以是图1所示的系统100的平台,或者系统100的部件中的一个或多个部件。计算机系统500被示为包括可通过总线524电联接的硬件单元。硬件单元可以包括例如中央处理单元(CPU)502的处理器、输入设备504和输出设备506。计算机系统500还可以包括存储设备,例如存储器518和非易失性存储设备512(如硬盘、光盘、固态存储器等等)。存储设备是可以存储机器可读指令的非瞬态计算机可读介质的示例。例如,在运行时,存储器518可以存储操作系统520和其他代码522。其他代码522包括图1所示的系统100中的模块,例如模式发现模块30。非易失性存储设备512可以存储数据和机器可读指令。计算机系统500可以另外包括通信接口514(例如调制解调器、网卡(无线或者有线)、红外通信设备等等)。
应当理解,计算机系统500的替代实施例可以具有以上所述的各种变体。例如,也可以使用定制的硬件和/或在硬件、软件(包括可移植软件,例如小型应用程序)或者二者中实现特定的单元。进一步地,还可以采用到其他计算设备例如网络输入/输出设备的连接。
虽然以上结合示例描述了各实施例,但是可以对所描述的实施例进行各种修改,而不超出实施例的范围。

Claims (15)

1.一种为模式发现配置文件确定字段的方法,所述方法包括:
确定事件数据的字段的基数和重复度;
由处理器基于所确定的字段的基数和重复度选择字段集;以及
将所述字段集包括在模式发现配置文件中。
2.根据权利要求1所述的方法,其中选择字段集包括:
基于所确定的字段的基数和重复度,从所述字段中选择模式识别字段和交易字段。
3.根据权利要求2所述的方法,其中选择模式识别字段和交易字段包括:
确定所述模式识别字段和所述交易字段的组合的基数和重复度;
确定所述模式识别字段和所述交易字段的组合的基数和重复度是否满足基数和重复度阈值;以及
如果所述模式识别字段和交易字段的组合满足所述基数和重复度阈值,则将所述模式识别字段和所述交易字段选择为包括在所述模式发现配置文件中的字段。
4.根据权利要求3所述的方法,包括:
如果所述模式识别字段和交易字段的组合不满足所述基数和重复度阈值,则选择用于所述模式发现配置文件的新的模式识别字段或者新的交易字段。
5.根据权利要求2所述的方法,其中选择交易字段包括:
从所述字段中选择具有满足基数和重复度阈值的组合的基数和重复度的源字段和目的字段;
确定所述源字段和所述目的字段的组合的基数和重复度;
确定所述源字段和所述目的字段的组合的基数和重复度是否满足基数和重复度阈值;和
如果所述源字段和所述目的字段的组合满足所述基数和重复度阈值,则将所述源字段和所述目的字段选择为所述交易字段。
6.根据权利要求5所述的方法,包括:
如果所述源字段和所述目的的组合不满足所述基数和重复度阈值,则选择新的源字段或新的目的字段以包括在所述交易字段中。
7.根据权利要求2所述的方法,其中所述模式识别字段标识活动,并且所述交易字段标识执行所述活动的计算机系统。
8.根据权利要求1所述的方法,包括:
识别所述事件数据中与所述模式发现配置文件相匹配的模式。
9.根据权利要求8所述的方法,其中识别所述事件数据中与所述模式发现配置文件相匹配的模式包括:
选择所述事件数据中在一时间范围内的子集;和
识别所述事件数据的所述子集中与所述模式发现配置文件相匹配的模式。
10.一种网络安全事件处理系统包括:
数据存储器,用于存储描述连接至网络的设备的活动的事件,其中所述数据存储器包括存储所述事件的表格,并且所述表格包括描述所述事件的属性的字段;
字段选择模块,由处理器执行,用于基于所述字段的基数和重复度选择用于模式发现的字段集;和
模式识别引擎,用于基于所选择的字段集检测事件数据中的模式。
11.根据权利要求10所述的网络安全事件处理系统,其中所述字段集包括基于所确定的所述字段的基数和重复度从所述字段中选择的模式识别字段和交易字段。
12.根据权利要求11所述的网络安全事件处理系统,其中所述模式识别字段标识所述活动中的一些活动,并且所述交易字段标识执行所述活动的计算机系统。
13.根据权利要求11所述的网络安全事件处理系统,其中所述字段选择模块用于通过从所述字段中选择具有满足基数和重复度阈值的组合的基数和重复度的源字段和目的字段来选择交易字段。
14.根据权利要求11所述的网络安全事件处理系统,其中所述字段选择模块用于通过从所述字段中选择具有满足基数和重复度阈值的组合的基数和重复度的源字段、目的字段和模式识别字段,来选择所述模式识别字段和所述交易字段。
15.一种非瞬态计算机可读介质,包括在由处理器执行时使所述处理器完成以下操作的机器可读指令:
确定事件数据的字段的基数和重复度;
基于所确定的字段的基数和重复度,从所述字段中选择模式识别字段和交易字段;和
将所述字段集包括在模式发现配置文件中,其中,所述模式发现配置文件包括与所述模式识别字段和所述交易字段相关联的用于识别所述事件数据中的模式的标准。
CN201280072651.0A 2012-05-30 2012-05-30 模式发现中的字段选择 Active CN104246786B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2012/040019 WO2013180707A1 (en) 2012-05-30 2012-05-30 Field selection for pattern discovery

Publications (2)

Publication Number Publication Date
CN104246786A true CN104246786A (zh) 2014-12-24
CN104246786B CN104246786B (zh) 2017-07-04

Family

ID=49673755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280072651.0A Active CN104246786B (zh) 2012-05-30 2012-05-30 模式发现中的字段选择

Country Status (4)

Country Link
US (1) US9531755B2 (zh)
EP (1) EP2856333A4 (zh)
CN (1) CN104246786B (zh)
WO (1) WO2013180707A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251037A (zh) * 2015-02-20 2017-10-13 日本电信电话株式会社 黑名单生成装置、黑名单生成系统、黑名单生成方法和黑名单生成程序

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9779260B1 (en) 2012-06-11 2017-10-03 Dell Software Inc. Aggregation and classification of secure data
US9578060B1 (en) 2012-06-11 2017-02-21 Dell Software Inc. System and method for data loss prevention across heterogeneous communications platforms
US8973132B2 (en) * 2012-11-14 2015-03-03 Click Security, Inc. Automated security analytics platform with pluggable data collection and analysis modules
US9690931B1 (en) * 2013-03-11 2017-06-27 Facebook, Inc. Database attack detection tool
US10326748B1 (en) 2015-02-25 2019-06-18 Quest Software Inc. Systems and methods for event-based authentication
US10417613B1 (en) 2015-03-17 2019-09-17 Quest Software Inc. Systems and methods of patternizing logged user-initiated events for scheduling functions
US9990506B1 (en) 2015-03-30 2018-06-05 Quest Software Inc. Systems and methods of securing network-accessible peripheral devices
US9563782B1 (en) 2015-04-10 2017-02-07 Dell Software Inc. Systems and methods of secure self-service access to content
US9842218B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US9641555B1 (en) 2015-04-10 2017-05-02 Dell Software Inc. Systems and methods of tracking content-exposure events
US9569626B1 (en) 2015-04-10 2017-02-14 Dell Software Inc. Systems and methods of reporting content-exposure events
US9842220B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US10536352B1 (en) 2015-08-05 2020-01-14 Quest Software Inc. Systems and methods for tuning cross-platform data collection
US10218588B1 (en) 2015-10-05 2019-02-26 Quest Software Inc. Systems and methods for multi-stream performance patternization and optimization of virtual meetings
US10157358B1 (en) 2015-10-05 2018-12-18 Quest Software Inc. Systems and methods for multi-stream performance patternization and interval-based prediction
US9807105B2 (en) 2015-11-11 2017-10-31 International Business Machines Corporation Adaptive behavior profiling and anomaly scoring through continuous learning
US10608992B2 (en) * 2016-02-26 2020-03-31 Microsoft Technology Licensing, Llc Hybrid hardware-software distributed threat analysis
US10142391B1 (en) 2016-03-25 2018-11-27 Quest Software Inc. Systems and methods of diagnosing down-layer performance problems via multi-stream performance patternization
US10187251B1 (en) * 2016-09-12 2019-01-22 Amazon Technologies, Inc. Event processing architecture for real-time member engagement
US11012461B2 (en) * 2016-10-27 2021-05-18 Accenture Global Solutions Limited Network device vulnerability prediction
US10496467B1 (en) 2017-01-18 2019-12-03 Amazon Technologies, Inc. Monitoring software computations of arbitrary length and duration
US20190114339A1 (en) * 2017-10-17 2019-04-18 Microsoft Technology Licensing, Llc Identifying patterns within a set of events that includes time series data
US11627148B2 (en) * 2018-03-08 2023-04-11 Zscaler, Inc. Advanced threat detection through historical log analysis
DE102019105139A1 (de) * 2019-02-28 2020-09-03 Robert Bosch Gmbh Verfahren zum Erkennen von Angriffen auf eine Netzwerkkomponente eines industriellen Netzwerks
KR20220157565A (ko) * 2021-05-21 2022-11-29 삼성에스디에스 주식회사 웹 스캐닝 공격 탐지 장치 및 방법
CN113709097B (zh) * 2021-07-05 2022-09-23 北京邮电大学 网络风险感知方法及防御方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809499A (en) * 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
US20050131914A1 (en) * 2003-12-11 2005-06-16 International Business Machines Corporation Apparatus and method for estimating cardinality when data skew is present
US20070043697A1 (en) * 2005-08-18 2007-02-22 International Business Machines Corporation Generating statistics for temporary tables during query optimization
JP2007249835A (ja) * 2006-03-17 2007-09-27 Fujitsu Ltd 系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置
US20090064333A1 (en) * 2004-05-04 2009-03-05 Arcsight, Inc. Pattern Discovery in a Network System
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089592B2 (en) 2001-03-15 2006-08-08 Brighterion, Inc. Systems and methods for dynamic detection and prevention of electronic fraud
AU2002244892A1 (en) * 2002-03-26 2003-10-08 Nokia Corporation Method and apparatus for compressing log record information
US7447666B2 (en) * 2004-04-09 2008-11-04 The Boeing Company System and method for analyzing a pattern in a time-stamped event sequence
US7644438B1 (en) * 2004-10-27 2010-01-05 Arcsight, Inc. Security event aggregation at software agent
US7944468B2 (en) 2005-07-05 2011-05-17 Northrop Grumman Systems Corporation Automated asymmetric threat detection using backward tracking and behavioral analysis
US8099674B2 (en) * 2005-09-09 2012-01-17 Tableau Software Llc Computer systems and methods for automatically viewing multidimensional databases
US9824107B2 (en) * 2006-10-25 2017-11-21 Entit Software Llc Tracking changing state data to assist in computer network security
US7945572B2 (en) 2007-03-21 2011-05-17 The Johns Hopkins University Pattern discovery through reversing time flow
US20090144278A1 (en) 2007-12-03 2009-06-04 Gunther Adam M Method and system for improving software quality, usability and support through automated usage pattern detection
US20090323730A1 (en) 2008-04-18 2009-12-31 Honeywell International Inc. Data alignment system and method for double data rate input data stream
US8073729B2 (en) 2008-09-30 2011-12-06 International Business Machines Corporation Forecasting discovery costs based on interpolation of historic event patterns
US8522198B2 (en) 2009-11-05 2013-08-27 International Business Machines Corporation Model-operative pattern representation harvesting using an automated exemplar-directed approach
US9552470B2 (en) * 2010-11-29 2017-01-24 Biocatch Ltd. Method, device, and system of generating fraud-alerts for cyber-attacks
US20140310302A1 (en) * 2013-04-12 2014-10-16 Oracle International Corporation Storing and querying graph data in a key-value store

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809499A (en) * 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
US20050131914A1 (en) * 2003-12-11 2005-06-16 International Business Machines Corporation Apparatus and method for estimating cardinality when data skew is present
US20090064333A1 (en) * 2004-05-04 2009-03-05 Arcsight, Inc. Pattern Discovery in a Network System
US20070043697A1 (en) * 2005-08-18 2007-02-22 International Business Machines Corporation Generating statistics for temporary tables during query optimization
JP2007249835A (ja) * 2006-03-17 2007-09-27 Fujitsu Ltd 系列パターン発見プログラム、系列パターン発見方法および系列パターン発見装置
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107251037A (zh) * 2015-02-20 2017-10-13 日本电信电话株式会社 黑名单生成装置、黑名单生成系统、黑名单生成方法和黑名单生成程序
US10516671B2 (en) 2015-02-20 2019-12-24 Nippon Telegraph And Telephone Corporation Black list generating device, black list generating system, method of generating black list, and program of generating black list
CN107251037B (zh) * 2015-02-20 2021-02-12 日本电信电话株式会社 黑名单生成装置、黑名单生成系统、黑名单生成方法和记录介质

Also Published As

Publication number Publication date
EP2856333A4 (en) 2015-12-30
WO2013180707A1 (en) 2013-12-05
EP2856333A1 (en) 2015-04-08
US20150135263A1 (en) 2015-05-14
US9531755B2 (en) 2016-12-27
CN104246786B (zh) 2017-07-04

Similar Documents

Publication Publication Date Title
CN104246786A (zh) 模式发现中的字段选择
CN113486351A (zh) 一种民航空管网络安全检测预警平台
US8595837B2 (en) Security event management apparatus, systems, and methods
US11159564B2 (en) Detecting zero-day attacks with unknown signatures via mining correlation in behavioral change of entities over time
Hosseini et al. Anomaly process detection using negative selection algorithm and classification techniques
JP2014531647A (ja) 基準ベースラインに基づき、イベントシーケンス中の時間的位置に従ってイベントを評価するシステム及び方法
CN104871171B (zh) 分布式模式发现
CN112738040A (zh) 一种基于dns日志的网络安全威胁检测方法、系统及装置
Sapegin et al. Towards a system for complex analysis of security events in large-scale networks
US10027686B2 (en) Parameter adjustment for pattern discovery
El Arass et al. Smart SIEM: From big data logs and events to smart data alerts
RU148692U1 (ru) Система мониторинга событий компьютерной безопасности
Pramanik et al. A framework for criminal network analysis using big data
Ketepalli et al. Data Preparation and Pre-processing of Intrusion Detection Datasets using Machine Learning
RU180789U1 (ru) Устройство аудита информационной безопасности в автоматизированных системах
Bhuyan et al. Crime predictive model using big data analytics
Venkatesan et al. A comprehensive study in data mining frameworks for intrusion detection
Tsai Network intrusion detection using association rules
Apurva et al. Redefining cyber security with big data analytics
CN116991675A (zh) 一种异常访问监控方法、装置、计算机设备及存储介质
CN105493096A (zh) 分布式模式发现
CN113923037B (zh) 一种基于可信计算的异常检测优化装置、方法及系统
Zytniewski et al. Software agents supporting the security of IT systems handling personal information
Naukudkar et al. Enhancing performance of security log analysis using correlation-prediction technique
CN115292272B (zh) 企业级权限管理的方法、系统、电子设备以及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20180613

Address after: American California

Patentee after: Antite Software Co., Ltd.

Address before: American Texas

Patentee before: Hewlett-Packard Development Company, Limited Liability Partnership

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: Utah, USA

Patentee after: Weifosi Co., Ltd

Address before: California, USA

Patentee before: Antiy Software Co.,Ltd.

CP03 Change of name, title or address