CN105512210A - 关联事件类型的检测方法及装置 - Google Patents

关联事件类型的检测方法及装置 Download PDF

Info

Publication number
CN105512210A
CN105512210A CN201510850258.5A CN201510850258A CN105512210A CN 105512210 A CN105512210 A CN 105512210A CN 201510850258 A CN201510850258 A CN 201510850258A CN 105512210 A CN105512210 A CN 105512210A
Authority
CN
China
Prior art keywords
event type
time period
preset time
data
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510850258.5A
Other languages
English (en)
Inventor
徐建辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secworld Information Technology Beijing Co Ltd
Original Assignee
Secworld Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secworld Information Technology Beijing Co Ltd filed Critical Secworld Information Technology Beijing Co Ltd
Priority to CN201510850258.5A priority Critical patent/CN105512210A/zh
Publication of CN105512210A publication Critical patent/CN105512210A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关联事件类型的检测方法及装置。其中,该方法包括:获取预设时间段内的待检测数据;计算待检测数据中第一事件类型与第二事件类型的关联支持度,其中,第一事件类型与第二事件类型不同,关联支持度用于表示在预设时间段内第一事件类型和第二事件类型同时发生的频繁程度;若关联支持度大于第一预设阈值,计算第一事件类型与第二事件类型的置信度,其中,置信度用于表示在第一事件类型发生的条件下,第二事件类型发生的概率;若置信度大于第二预设阈值,确定第一事件类型与第二事件类型为关联事件类型。本发明解决了由于现有技术仅是对用户的原始日志数据进行简单计数分析造成无法提供事件发生规律的技术问题。

Description

关联事件类型的检测方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种关联事件类型的检测方法及装置。
背景技术
随着计算机、智能终端的普及,网络得到飞速发展,导致网络环境变的越来越复杂。当今的企业和组织在IT信息安全领域所面临的局面也越来越严峻。网络中的各种网络设备、安全设备、主机、应用和业务系统在工作中也将会产生越来越多的安全事件和日志。大量的日志数据背后隐藏着丰富有用的信息,因此对日志数据进行挖掘分析,发现蕴含在大量日志数据背后的有用知识显得非常有必要。
目前,传统的日志相关产品对日志数据的处理大多数偏重于审计,对日志的分析往往集中在单维单属性值上,从而发现不了日志数据在多维多属性上蕴含的信息,往往日志数据在多维多属性值上隐含有更多有用的知识,要想发掘日志数据在多维多属性值上隐含的知识,例如,分析某一事件是否频繁发生,需要用到数据挖掘的方法。
现有技术中,通常是对用户的原始日志数据进行分析,这种基于简单计数的审计类日志产品很难提供向用户提供事件发生的规律,这使得数据挖掘很难取得进展。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种关联事件类型的检测方法及装置,以至少解决由于现有技术仅是对用户的原始日志数据进行简单计数分析造成无法提供事件发生规律的技术问题。
根据本发明实施例的一个方面,提供了一种关联事件类型的检测方法,包括:获取预设时间段内的待检测数据;计算所述待检测数据中第一事件类型与第二事件类型的关联支持度,其中,所述第一事件类型与所述第二事件类型不同,所述关联支持度用于表示在所述预设时间段内所述第一事件类型和所述第二事件类型同时发生的频繁程度;若所述关联支持度大于第一预设阈值,计算所述第一事件类型与所述第二事件类型的置信度,其中,所述置信度用于表示在所述第一事件类型发生的条件下,所述第二事件类型发生的概率;若所述置信度大于第二预设阈值,确定所述第一事件类型与所述第二事件类型为关联事件类型。
进一步地,所述获取预设时间段内的待检测数据包括:提取用户的原始日志数据;将所述原始日志数据进行归一化,得到多个对象,其中,所述多个对象包含用于表示事件类型的字段;根据所述字段,将所述多个对象分为不同类型的所述待检测数据。
进一步地,在所述获取预设时间段内的待检测数据之前,所述方法还包括:根据预设的时间长度,将预定的时间周期划分为多个所述预设时间段。
进一步地,所述计算所述待检测数据中第一事件类型与第二事件类型的关联支持度包括:统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的预设时间段的第二数值;计算所述第一数值与所述第二数值的比值,得到所述关联支持度。
进一步地,所述计算所述第一事件类型与所述第二事件类型的置信度包括:统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的发生所述第一事件类型的预设时间段的第三数值;计算所述第一数值与所述第三数值的比值,得到所述置信度。
根据本发明实施例的另一方面,还提供了一种关联事件类型的检测装置,包括:获取单元,用于获取预设时间段内的待检测数据;第一计算单元,用于计算所述待检测数据中第一事件类型与第二事件类型的关联支持度,其中,所述第一事件类型与所述第二事件类型不同,所述关联支持度用于表示在所述预设时间段内所述第一事件类型和所述第二事件类型同时发生的频繁程度;第二计算单元,用于若所述关联支持度大于第一预设阈值,计算所述第一事件类型与所述第二事件类型的置信度,其中,所述置信度用于表示在所述第一事件类型发生的条件下,所述第二事件类型发生的概率;检测单元,用于若所述置信度大于第二预设阈值,确定所述第一事件类型与所述第二事件类型为关联事件类型。
进一步地,所述获取单元包括:提取模块,用于提取用户的原始日志数据;归一化模块,用于将所述原始日志数据进行归一化,得到多个对象,其中,所述多个对象包含用于表示事件类型的字段;分类模块,用于根据所述字段,将所述多个对象分为不同类型的所述待检测数据。
进一步地,所述装置还包括:划分单元,用于根据预设的时间长度,将预定的时间周期划分为多个所述预设时间段。
进一步地,所述第一计算单元包括:第一统计模块,用于统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的预设时间段的第二数值;第一计算模块,用于计算所述第一数值与所述第二数值的比值,得到所述关联支持度。
进一步地,所述第二计算单元包括:第二统计模块,用于统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的发生所述第一事件类型的预设时间段的第三数值;第二计算模块,用于计算所述第一数值与所述第三数值的比值,得到所述置信度。
在本发明实施例中,采用获取预设时间段内的待检测数据;计算待检测数据中第一事件类型与第二事件类型的关联支持度,其中,第一事件类型与第二事件类型不同,关联支持度用于表示在预设时间段内第一事件类型和第二事件类型同时发生的频繁程度;若关联支持度大于第一预设阈值,计算第一事件类型与第二事件类型的置信度,其中,置信度用于表示在第一事件类型发生的条件下,第二事件类型发生的概率;若置信度大于第二预设阈值,确定第一事件类型与第二事件类型为关联事件类型的方式,通过分析两种不同事件类型的事件的关联支持度与置信度,达到了基于过去一段时间内的待检测数据,确定不同事件类型的事件是否为关联事件类型,以帮助用户寻找事件的发生规律的目的,从而实现了帮助用户寻找各种类型事件的发生规律的技术效果,进而解决了由于现有技术仅是对用户的原始日志数据进行简单计数分析造成无法提供事件发生规律的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的关联事件类型的检测方法的流程示示意图;
图2是根据本发明实施例的另一种可选的关联事件类型的检测方法的流程示意图;
图3是根据本发明实施例的一种可选的关联事件类型的检测装置的结构示意图;
图4是根据本发明实施例的一种可选的获取单元的结构示意图;
图5是根据本发明实施例的另一种可选的关联事件类型的检测装置的结构示意图;
图6是根据本发明实施例的一种可选的第一计算单元的结构示意图;
图7是根据本发明实施例的一种可选的第二计算单元的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种关联事件类型的检测方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的关联事件类型的检测方法,如图1所示,该方法包括如下步骤:
步骤S102,获取预设时间段内的待检测数据。
可选地,获取预设时间段内的待检测数据可以包括:提取用户的原始日志数据;将原始日志数据进行归一化,得到多个对象,其中,多个对象包含用于表示事件类型的字段;根据字段,将多个对象分为不同类型的待检测数据。
其中,将原始日志数据进行归一化后,得到统一的pojo(PlainOrdinaryJavaObject,简单的Java对象)对象。每一个pojo对象都包含一个用于表示事件类型的字段,根据这个字段,将pojo对象进行分类,分为各种不同类型的待检测数据。具体地,事件类型可以包括木马、网络蠕虫、网络扫描以及拒绝服务攻击等。
可选地,在获取预设时间段内的待检测数据之前,方法还包括:
步骤S10,根据预设的时间长度,将预定的时间周期划分为多个预设时间段。
其中,为了统计每个预设时间段内发生的事件类型,可以根据用户预定的时间长度,将预定的时间周期划分为多个预设时间段,每个预设时间段对应一条事件类型集合记录(包含对应预设时间段内所发生的事件类型),统计完所有预设时间段,得到过去时间(即预定的时间周期)里发生的事件类型记录集。
例如,假定预定的时间周期的长度为一天,预设的时间长度为一小时,那么一天就被分为24个预设时间段,分别为0:00-1:00、1:00-2:00、…、23:00-0:00。假设1:00-2:00出现了拒绝服务攻击、网络蠕虫及木马,3:00-4:00出现了拒绝服务攻击及木马,那么1:00-2:00这一预设时间段对应的事件类型集合记录为{拒绝服务攻击,网络蠕虫,木马},3:00-4:00这一预设时间段对应的事件类型集合记录为{拒绝服务攻击,木马}。
步骤S104,计算待检测数据中第一事件类型与第二事件类型的关联支持度,其中,第一事件类型与第二事件类型不同,关联支持度用于表示在预设时间段内第一事件类型和第二事件类型同时发生的频繁程度。
可选地,计算待检测数据中第一事件类型与第二事件类型的关联支持度包括:统计时间周期内同时发生第一事件类型和第二事件类型的预设时间段的第一数值,以及统计时间周期内的预设时间段的第二数值;计算第一数值与第二数值的比值,得到关联支持度。
例如,假设统计了5个预设时间段内事件类型集合,分别为:{A,B,C}、{A,B,E}、{A,B,D}、{B,C,D,E}、{A,D,E},其中A、B、C,D,E分别表示一种事件类型,每个事件类型集合表示的是由事件类型组成的集合,例如{A,B,C}表示的是由事件类型A,B,C组成的一个集合。若两种类型事件同时出现非常频繁,则可以初步这两种类型事件是关联的。从给出的5个事件类型集合中发现事件类型A(可以相当于上述的第一事件类型)出现在{A,B,C}、{A,B,E}、{A,B,D}、{A,D,E}这四个事件类型集合中,事件类型A与B(可以相当于上述的第二事件类型)同时出现在{A,B,C}、{A,B,E}、{A,B,D}这三个事件类型集合中,那么第一事件类型与第二事件类型的关联支持度等于同时包含A与B的事件类型集合的个数(相当于上述的第一数值)除以总的事件类型集合的个数(相当于上述的第二数值),即3/5。
步骤S106,若关联支持度大于第一预设阈值,计算第一事件类型与第二事件类型的置信度,其中,置信度用于表示在第一事件类型发生的条件下,第二事件类型发生的概率。
在计算出第一事件类型与第二事件类型的关联支持度后,若关联支持度大于第一预设阈值,则计算第一事件类型与第二事件类型的置信度。
可选地,计算第一事件类型与第二事件类型的置信度可以包括:统计时间周期内同时发生第一事件类型和第二事件类型的预设时间段的第一数值,以及统计时间周期内的发生第一事件类型的预设时间段的第三数值;计算第一数值与第三数值的比值,得到置信度。
例如,A与B的置信度表示在事件类型A发生的条件下,事件类型B发生的概率,等于同时包含事件类型A与B的事件类型集合的个数(相当于上述的第一数值)除以包含事件类型A的事件类型集合的个数(相当于上述的第三数值),即3/4。同理可以计算B与E的置信度为1/2。
步骤S108,若置信度大于第二预设阈值,确定第一事件类型与第二事件类型为关联事件类型。
在计算出第一事件类型与第二事件类型的置信度后,若置信度大于第二预设阈值,则确定第一事件类型与第二事件类型为关联事件类型。
本实施例的关联事件类型的检测方法,基于过去一段时间内用户的原始日志数据,为用户提供其系统内各种事件在时间周期内的频繁发生时间段,以帮助用户寻找各种类型事件的发生规律。同时,采用分天的数据预处理方式,缩短用户等待检测结果的时间。
通过上述步骤,可以实现分析两种不同事件类型的事件的关联支持度与置信度,达到了基于过去一段时间内的待检测数据,确定不同事件类型的事件是否为关联事件类型,以帮助用户寻找事件的发生规律的目的,从而实现了帮助用户寻找各种类型事件的发生规律的技术效果,进而解决了由于现有技术仅是对用户的原始日志数据进行简单计数分析造成无法提供事件发生规律的技术问题。
可选地,在确定第一时间段为事件的频繁发生时间段之后,方法还包括:
步骤S20,更新统计结果表,其中,更新后的统计结果表中包含第一事件类型与第二事件类型。
步骤S22,在接收到请求装置发送的挖掘分析请求的情况下,将更新后的统计结果表返回给请求装置。
其中,在统计各个事件类型在各个预设时间段分布情况之后,可以统计结果存入数据库,即将相互关联的事件类型更新至统计结果表中。当接收到请求装置发送的挖掘分析请求时,可以将更新后的统计结果表返回给请求装置。
需要补充的是,该统计结果表中可以仅存储被确定为关联事件类型(即只存储用户感兴趣的分析结果),也可以将各个事件类型都更新至统计结果表中,并对关联事件类型进行标记,其均应在本申请的保护范围之内。
下面,如图2所示,对本申请的如何确定关联事件类型的过程进行示例性描述:
步骤A,获取事件类型集合。
其中,如何获取事件类型集合,上述实施例中已进行详细描述,此处不再赘述。
步骤B,扫描各个事件类型集合,找出关联支持度大于第一预设阈值的事件类型集合L1
其中,对于关联支持度小于第一预设阈值的事件类型集合,直接忽略掉;对于关联支持度大于第一预设阈值的时间段集合,挑选出来组成下一步的候选集,即事件类型集合L1
步骤C,由L1中的元素两两组合,生成集合C2
其中,TK表示由元素个数为K的集合组成的集合,也就是TK是一个集合,其元素也是一个集合(该集合元素个数为K)。
可选地,LK-1中的元素两两组合是指对于元素个数为n的集合,两两组合就是从该集合中任取两个元素组合,总共有n(n-1)/2种组合。
步骤D,遍历各个事件类型集合,从集合C2中找出关联支持度大于第一预设阈值的事件类型集合L2
步骤E,遍历事件类型集合L2中的事件类型A和事件类型B,计算事件类型A和事件类型B的关联支持度和置信度。
将集合TK中包含的不在LK-1中的元素剔除,生成集合CK
其中,CK表示由元素个数为K的集合组成的集合,也就是CK是一个集合,其元素也是一个集合(该集合元素个数为K)。
步骤F,从L2中选出置信度大于第二预设阈值的集合R。
步骤G,返回结果R。
步骤H,结束。
在本发明实施例中,通过分析两种不同事件类型的事件的关联支持度与置信度,达到了基于过去一段时间内的待检测数据,确定不同事件类型的事件是否为关联事件类型,以帮助用户寻找事件的发生规律的目的,从而实现了帮助用户寻找各种类型事件的发生规律的技术效果,进而解决了由于现有技术仅是对用户的原始日志数据进行简单计数分析造成无法提供事件发生规律的技术问题。
实施例2
根据本发明实施例,还提供了一种关联事件类型的检测装置,如图3所示,该关联事件类型的检测装置包括:获取单元302、第一计算单元304、第二计算单元306以及检测单元308。
其中,获取单元302,用于获取预设时间段内的待检测数据;第一计算单元304,用于计算所述待检测数据中第一事件类型与第二事件类型的关联支持度,其中,所述第一事件类型与所述第二事件类型不同,所述关联支持度用于表示在所述预设时间段内所述第一事件类型和所述第二事件类型同时发生的频繁程度;第二计算单元306,用于若所述关联支持度大于第一预设阈值,计算所述第一事件类型与所述第二事件类型的置信度,其中,所述置信度用于表示在所述第一事件类型发生的条件下,所述第二事件类型发生的概率;检测单元308,用于若所述置信度大于第二预设阈值,确定所述第一事件类型与所述第二事件类型为关联事件类型。
可选地,如图4所示,所述获取单元302包括:提取模块402、归一化模块404以及分类模块406。
其中,提取模块402,用于提取用户的原始日志数据;归一化模块404,用于将所述原始日志数据进行归一化,得到多个对象,其中,所述多个对象包含用于表示事件类型的字段;分类模块406,用于根据所述字段,将所述多个对象分为不同类型的所述待检测数据。
可选地,如图5所示,所述装置还包括:划分单元502。
其中,划分单元502,用于根据预设的时间长度,将预定的时间周期划分为多个所述预设时间段。
可选地,如图6所示,所述第一计算单元304包括:第一统计模块602和第一计算模块604。
其中,第一统计模块602,用于统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的预设时间段的第二数值;第一计算模块604,用于计算所述第一数值与所述第二数值的比值,得到所述关联支持度。
可选地,如图7所示,所述第二计算单元306还包括:第二统计模块702和第二计算模块704。
其中,第二统计模块702,用于统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的发生所述第一事件类型的预设时间段的第三数值;第二计算模块704,计算所述第一数值与所述第三数值的比值,得到所述置信度。
需要补充说明的是,本申请关联事件类型的检测装置的运行可以如表1所示:
表1
项目 指标
CPU >2Ghz
内存 >4G
操作系统 Windows,Linux
硬盘 >100G
数据库 Mysql(关系型数据库管理系统)
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种关联事件类型的检测方法,其特征在于,包括:
获取预设时间段内的待检测数据;
计算所述待检测数据中第一事件类型与第二事件类型的关联支持度,其中,所述第一事件类型与所述第二事件类型不同,所述关联支持度用于表示在所述预设时间段内所述第一事件类型和所述第二事件类型同时发生的频繁程度;
若所述关联支持度大于第一预设阈值,计算所述第一事件类型与所述第二事件类型的置信度,其中,所述置信度用于表示在所述第一事件类型发生的条件下,所述第二事件类型发生的概率;
若所述置信度大于第二预设阈值,确定所述第一事件类型与所述第二事件类型为关联事件类型。
2.根据权利要求1所述的方法,其特征在于,所述获取预设时间段内的待检测数据包括:
提取用户的原始日志数据;
将所述原始日志数据进行归一化,得到多个对象,其中,所述多个对象包含用于表示事件类型的字段;
根据所述字段,将所述多个对象分为不同类型的所述待检测数据。
3.根据权利要求1所述的方法,其特征在于,在所述获取预设时间段内的待检测数据之前,所述方法还包括:
根据预设的时间长度,将预定的时间周期划分为多个所述预设时间段。
4.根据权利要求3所述的方法,其特征在于,所述计算所述待检测数据中第一事件类型与第二事件类型的关联支持度包括:
统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的预设时间段的第二数值;
计算所述第一数值与所述第二数值的比值,得到所述关联支持度。
5.根据权利要求3所述的方法,其特征在于,所述计算所述第一事件类型与所述第二事件类型的置信度包括:
统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的发生所述第一事件类型的预设时间段的第三数值;
计算所述第一数值与所述第三数值的比值,得到所述置信度。
6.一种关联事件类型的检测装置,其特征在于,包括:
获取单元,用于获取预设时间段内的待检测数据;
第一计算单元,用于计算所述待检测数据中第一事件类型与第二事件类型的关联支持度,其中,所述第一事件类型与所述第二事件类型不同,所述关联支持度用于表示在所述预设时间段内所述第一事件类型和所述第二事件类型同时发生的频繁程度;
第二计算单元,用于若所述关联支持度大于第一预设阈值,计算所述第一事件类型与所述第二事件类型的置信度,其中,所述置信度用于表示在所述第一事件类型发生的条件下,所述第二事件类型发生的概率;
检测单元,用于若所述置信度大于第二预设阈值,确定所述第一事件类型与所述第二事件类型为关联事件类型。
7.根据权利要求6所述的装置,其特征在于,所述获取单元包括:
提取模块,用于提取用户的原始日志数据;
归一化模块,用于将所述原始日志数据进行归一化,得到多个对象,其中,所述多个对象包含用于表示事件类型的字段;
分类模块,用于根据所述字段,将所述多个对象分为不同类型的所述待检测数据。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
划分单元,用于根据预设的时间长度,将预定的时间周期划分为多个所述预设时间段。
9.根据权利要求8所述的装置,其特征在于,所述第一计算单元包括:
第一统计模块,用于统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的预设时间段的第二数值;
第一计算模块,用于计算所述第一数值与所述第二数值的比值,得到所述关联支持度。
10.根据权利要求8所述的装置,其特征在于,所述第二计算单元包括:
第二统计模块,用于统计所述时间周期内同时发生所述第一事件类型和所述第二事件类型的预设时间段的第一数值,以及统计所述时间周期内的发生所述第一事件类型的预设时间段的第三数值;
第二计算模块,用于计算所述第一数值与所述第三数值的比值,得到所述置信度。
CN201510850258.5A 2015-11-27 2015-11-27 关联事件类型的检测方法及装置 Pending CN105512210A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510850258.5A CN105512210A (zh) 2015-11-27 2015-11-27 关联事件类型的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510850258.5A CN105512210A (zh) 2015-11-27 2015-11-27 关联事件类型的检测方法及装置

Publications (1)

Publication Number Publication Date
CN105512210A true CN105512210A (zh) 2016-04-20

Family

ID=55720192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510850258.5A Pending CN105512210A (zh) 2015-11-27 2015-11-27 关联事件类型的检测方法及装置

Country Status (1)

Country Link
CN (1) CN105512210A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022900A (zh) * 2016-08-08 2016-10-12 北京京东尚科信息技术有限公司 用户风险数据挖掘方法和装置
CN106777563A (zh) * 2016-11-29 2017-05-31 南京航空航天大学 一种无机非金属纤维随机强度与缺陷概率的测定方法
CN107273411A (zh) * 2017-05-03 2017-10-20 上海上讯信息技术股份有限公司 业务操作与数据库操作数据的关联方法及设备
CN107798021A (zh) * 2016-09-07 2018-03-13 北京京东尚科信息技术有限公司 数据关联处理方法、系统及电子设备
CN108874641A (zh) * 2018-06-01 2018-11-23 平安科技(深圳)有限公司 一种埋点数据的分析方法及装置
CN109543876A (zh) * 2018-10-17 2019-03-29 天津大学 一种城市问题的可视化分析方法
CN109685217A (zh) * 2017-10-17 2019-04-26 博彦科技股份有限公司 数据处理方法、装置、存储介质和处理器
WO2020258672A1 (zh) * 2019-06-28 2020-12-30 平安科技(深圳)有限公司 网络访问的异常检测方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878093A (zh) * 2006-07-19 2006-12-13 华为技术有限公司 安全事件关联分析方法和系统
CN101741633A (zh) * 2008-11-06 2010-06-16 北京启明星辰信息技术股份有限公司 一种海量日志关联分析方法及系统
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN103546312A (zh) * 2013-08-27 2014-01-29 中国航天科工集团第二研究院七〇六所 一种海量多源异构日志关联分析方法
CN104794013A (zh) * 2015-03-20 2015-07-22 百度在线网络技术(北京)有限公司 定位系统运行状态、建立系统运行状态模型的方法及装置
US20150235260A1 (en) * 2014-02-20 2015-08-20 Linkedln Corporation Forecasting electronic events

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1878093A (zh) * 2006-07-19 2006-12-13 华为技术有限公司 安全事件关联分析方法和系统
CN101741633A (zh) * 2008-11-06 2010-06-16 北京启明星辰信息技术股份有限公司 一种海量日志关联分析方法及系统
CN101888309A (zh) * 2010-06-30 2010-11-17 中国科学院计算技术研究所 在线日志分析方法
CN103546312A (zh) * 2013-08-27 2014-01-29 中国航天科工集团第二研究院七〇六所 一种海量多源异构日志关联分析方法
US20150235260A1 (en) * 2014-02-20 2015-08-20 Linkedln Corporation Forecasting electronic events
CN104794013A (zh) * 2015-03-20 2015-07-22 百度在线网络技术(北京)有限公司 定位系统运行状态、建立系统运行状态模型的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李涛等: "《数据挖掘的应用与实践 大数据时代的案例分析》", 31 October 2013 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022900A (zh) * 2016-08-08 2016-10-12 北京京东尚科信息技术有限公司 用户风险数据挖掘方法和装置
CN106022900B (zh) * 2016-08-08 2021-09-03 北京京东尚科信息技术有限公司 用户风险数据挖掘方法和装置
CN107798021A (zh) * 2016-09-07 2018-03-13 北京京东尚科信息技术有限公司 数据关联处理方法、系统及电子设备
CN106777563A (zh) * 2016-11-29 2017-05-31 南京航空航天大学 一种无机非金属纤维随机强度与缺陷概率的测定方法
CN106777563B (zh) * 2016-11-29 2020-03-13 南京航空航天大学 一种无机非金属纤维随机强度与缺陷概率的测定方法
CN107273411A (zh) * 2017-05-03 2017-10-20 上海上讯信息技术股份有限公司 业务操作与数据库操作数据的关联方法及设备
CN107273411B (zh) * 2017-05-03 2020-11-17 上海上讯信息技术股份有限公司 业务操作与数据库操作数据的关联方法及设备
CN109685217A (zh) * 2017-10-17 2019-04-26 博彦科技股份有限公司 数据处理方法、装置、存储介质和处理器
CN109685217B (zh) * 2017-10-17 2021-10-15 博彦科技股份有限公司 数据处理方法、装置、存储介质和处理器
CN108874641A (zh) * 2018-06-01 2018-11-23 平安科技(深圳)有限公司 一种埋点数据的分析方法及装置
CN109543876A (zh) * 2018-10-17 2019-03-29 天津大学 一种城市问题的可视化分析方法
WO2020258672A1 (zh) * 2019-06-28 2020-12-30 平安科技(深圳)有限公司 网络访问的异常检测方法和装置

Similar Documents

Publication Publication Date Title
CN105512210A (zh) 关联事件类型的检测方法及装置
US20220300496A1 (en) Automatic partitioning
CN108664375B (zh) 用于检测计算机网络系统用户的异常行为的方法
US8285745B2 (en) User query mining for advertising matching
CN107872454B (zh) 超大型互联网平台威胁信息监测与分析系统及方法
US8572233B2 (en) Method and system for site path evaluation using web session clustering
US20240168963A1 (en) Mining patterns in a high-dimensional sparse feature space
Cao et al. Online outlier exploration over large datasets
CN101796480A (zh) 将外部相关短语信息集成到基于短语的索引编制信息检索系统中
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
Nguyen et al. Vasabi: Hierarchical user profiles for interactive visual user behaviour analytics
Hasugian The data mining of cell phone most interested using apriorial algorithm
Masseglia et al. Web usage mining: extracting unexpected periods from web logs
CN105574089A (zh) 知识图谱的生成方法及装置、对象对比方法及装置
CN108268886B (zh) 用于识别外挂操作的方法及系统
Patel et al. Optimization of association rules mining Apriori algorithm based on ACO
Fabrègue et al. Discriminant temporal patterns for linking physico-chemistry and biology in hydro-ecosystem assessment
CN111241497A (zh) 基于软件复用特征学习的开源代码溯源检测方法
US20240177077A1 (en) Attribution analysis method, electronic device, and storage medium
CN112949778A (zh) 基于局部敏感哈希的智能合约分类方法、系统及电子设备
CN112631889A (zh) 针对应用系统的画像方法、装置、设备及可读存储介质
Singh et al. Knowledge based retrieval scheme from big data for aviation industry
CN105471846A (zh) 事件的检测方法及装置
KR101629178B1 (ko) 다중 특허지표를 이용한 기술 수명 주기 분석 장치
Mishra et al. Association Rule Mining with Apriori and Fpgrowth Using Weka

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160420

RJ01 Rejection of invention patent application after publication